zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

多模态数据集成应用于机器学习

已有 1290 次阅读 2025-11-10 09:33 |个人分类:科普|系统分类:科普集锦

多模态数据集成应用于机器学习 

现代多组学分析技术产生不同的数据模式,包括基因组序列、注释和覆盖轨迹。这些不同的模式通常被整合成染色质景观的综合观点,以理解复杂的生物系统。然而,目前用于多组学分析的计算基础设施基本上仍然是碎片化的,研究人员仍然需要依赖多种专用工具和文件格式;使用pyfaidxseqtkseqkit来解析FASTA文件;bedtools 是瑞士军刀,用于操作BED/GTF文件;pyBigWigUCSC实用程序是读写覆盖率跟踪的参考。单个工具的激增,每个工具都致力于某种数据模式,导致了重要的限制:对多模式数据集的每次查询都需要解析不同的文件格式;数据不能跨模式并发访问;随着数据集扩展到数百个时候,对软件的依赖也变得越来越复杂。 

虽然更广泛的数据科学界已经聚集在表格数据的统一框架上,尽管努力将该框架转化为生物数据,但多组学研究在很大程度上仍然受到为单模态访问设计的文件格式的限制。数据科学的前沿创新与更传统的生物信息学软件堆栈之间的差距越来越大,这正日益削弱机器学习在基因组学中的应用。覆盖轨迹集合是ENCODE等国际表观基因组学联盟生成的定量数据的主要代表,它为这个问题提供了一个明显的说明:BigWig文件的大型集合可以迅速超过可用的虚拟内存;pyBigWig专用解析器只支持对单个轨道的顺序访问模式;而且解析器不能执行多个音轨的并发查询。当在多模态基因组数据上训练神经网络时,这些限制变得令人望而却步,因为模型需要同步访问序列、注释和数百万个基因组位点的数十个覆盖轨道。新兴的方法,如keras_dna,现在提供了从不同文件格式高效地传输组学数据的可能性。然而,这些解决方案是专门为深度学习应用量身定制的,无法解决文件管理的负担。 

最近,SerizayKoszul提出了momics(图1https://github.com/js2264/momics),一个从根本上重新思考多组学和多模态数据集成的统一框架。momics利用TileDB的多维数组基础设施将基因组序列、注释和覆盖跟踪整合到一个可查询的存储库中。不像现有的方法需要为每种数据类型单独的工具,momics提供了一个独特的高性能查询引擎来无缝检索多模态数据。这种统一的体系结构支持跨数百个覆盖轨迹和数百万个基因组位置的并发查询,速度比传统工具提高了几倍,同时为分布式计算环境提供了本地云存储集成。作者们演示了组学如何转换多组学分析工作流程并加速机器学习在基因组学中的应用。 

image.png 

1 多模态数据融合的momics框架。A. momics工作流程的示意图概述。处理过的数据(DNARNA、染色质)被整合到一个统一的组学存储库中,以实现集成的多组学分析。B. 基于TileDB数组的内存存储库的分层组织。C. 用于momics存储库管理的命令行接口实用程序。D. 高效数据流和机器学习应用的类,以及用于数据备份、共享、可视化和标准格式导出的实用程序。E. momics与传统bigwigfasta文件格式的存储效率比较。不同数组平铺大小的内存(F)和时间(G)使用比较 

参考文献

[1] Jacques Serizay, Romain Koszul. Multi-modal data integration for machine learning applications. bioRxiv 2025.10.10.681692; doi: https://doi.org/10.1101/2025.10.10.681692 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1509615.html

上一篇:PRISM-GRN:单细胞多组学数据中恢复基因调控网络
下一篇:单细胞分辨率的表达和变异联合分析
收藏 IP: 39.128.48.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-5 18:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部