yukaiquan的个人博客分享 http://blog.sciencenet.cn/u/yukaiquan

博文

3d-DNA和juicerbox结果转换matrix绘图

已有 1943 次阅读 2023-8-15 18:07 |个人分类:Genome|系统分类:科研笔记

背景

 在使用3dDNA和juicerbox进行辅助挂载的过程中最终绘图一直没有找到很好的办法,最后找到一个项目但是速度太慢了,画个图需要三天,重写了一个小工具用于转换结果为bin matrix矩阵(1.后续会直接利用.hic和assembly文件生成matrix,这样可能更快,2.程序部分模块还没有实现多线程或者异步运行,前期读取文件会有点慢,但是最近没时间,以后有时间再写吧)

前置流程

利用3D-DNA流程组装基因组_徐洲更hoptop的博客-CSDN博客

如何使用Juicebox 对juicer和3dDNA运行后的HiC结果进行可视化编辑

还有很多大佬都讲过我就不一一赘述了

使用

经过无数遍的juicerbox手动调整后,我们得到了genome.final.review.assembly

初级绘图

https://github.com/Atvar2/plotHicGenome

最初找到了这个项目,用于3ddna 和 juicerbox结果绘图,但是太慢了,120G的压缩nodup文件用了整整三天以上,画一张图又得等三天,实在受不了了(内心:#*&&%¥¥#¥*@#!¥)。。。。。

plotHicGenome juicer ./test_merged_nodups.txt.gz ./genome.final.review.assembly -W whole -n 7 -s True -l t -F 4 -r 500000 -X 2 -w 0.5 -d 3 -S 'dashed' -i 300 -z 6,6 -C 'black' -L 0.8 -A 0.8 -B  '1%' -D 0.2 -o Juicerbox.pdf -R ./test


加速绘图

分析后发现软件的瓶颈在转换为matrix这一步上,于是我重写了一个软件:

https://github.com/yukaiquan/biotools/tree/main/Hic/juicerbox2matrix

转换

juicerbox2matrix -h

juicerbox to matrix v0.0.1
juicerbox2matrix 0.0.2
Yu kaiquan <1962568272@qq.com>Convert juicerbox output to bin matrix

USAGE:
    juicerbox2matrix_wsl [OPTIONS] --input <FILE> --assembly <STRING> --output directory <FILE> --chr_num <INT>FLAGS:
    -h, --help       Prints help information
    -V, --version    Prints version information

OPTIONS:
    -a, --assembly <STRING>          assembly file is from juicerbox output file
    -b, --bin <INT>                  bin size for matrix (default: 500000) [default: 500000]
    -c, --chr_num <INT>              chromosome number
    -i, --input <FILE>               nodups.txt/nodupe.txt.gz file
    -o, --output directory <FILE>    output directory
    -t, --threads <INT>              threads number (default: 1) [default: 8]# examplejuicerbox2matrix -a ./genome.final.review.assembly -c 8 -i ./test_merged_nodups_test.txt.gz -o test -t 32

绘图

一定要加-H参数才使用已有的matrix

plotHicGenome juicer ./test_merged_nodups.txt.gz ./genome.final.review.assembly.assembly -H ./test/Hicmatrix -W whole -n 7 -s True -l t -F 4 -r 500000 -X 2 -w 0.5 -d 3 -S 'dashed' -i 300 -z 6,6 -C 'black' -L 0.8 -A 0.8 -B  '1%' -D 0.2 -o Juicerbox.pdf -R ./test

感谢

https://github.com/Atvar2/plotHicGenome

https://github.com/aidenlab/juicer

先这样用吧,图的样式后期再在软件里面增加,现在就不加绘图功能了,先用现成的项目


项目地址再加一遍


https://github.com/yukaiquan/biotools/tree/main/Hic/juicerbox2matrix




https://blog.sciencenet.cn/blog-3462946-1399160.html

上一篇:燕麦属基因组序列截取
收藏 IP: 183.220.124.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-18 09:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部