||
多模态数据集成应用于机器学习
现代多组学分析技术产生不同的数据模式,包括基因组序列、注释和覆盖轨迹。这些不同的模式通常被整合成染色质景观的综合观点,以理解复杂的生物系统。然而,目前用于多组学分析的计算基础设施基本上仍然是碎片化的,研究人员仍然需要依赖多种专用工具和文件格式;使用pyfaidx、seqtk或seqkit来解析FASTA文件;bedtools 是瑞士军刀,用于操作BED/GTF文件;pyBigWig和UCSC实用程序是读写覆盖率跟踪的参考。单个工具的激增,每个工具都致力于某种数据模式,导致了重要的限制:对多模式数据集的每次查询都需要解析不同的文件格式;数据不能跨模式并发访问;随着数据集扩展到数百个时候,对软件的依赖也变得越来越复杂。
虽然更广泛的数据科学界已经聚集在表格数据的统一框架上,尽管努力将该框架转化为生物数据,但多组学研究在很大程度上仍然受到为单模态访问设计的文件格式的限制。数据科学的前沿创新与更传统的生物信息学软件堆栈之间的差距越来越大,这正日益削弱机器学习在基因组学中的应用。覆盖轨迹集合是ENCODE等国际表观基因组学联盟生成的定量数据的主要代表,它为这个问题提供了一个明显的说明:BigWig文件的大型集合可以迅速超过可用的虚拟内存;pyBigWig专用解析器只支持对单个轨道的顺序访问模式;而且解析器不能执行多个音轨的并发查询。当在多模态基因组数据上训练神经网络时,这些限制变得令人望而却步,因为模型需要同步访问序列、注释和数百万个基因组位点的数十个覆盖轨道。新兴的方法,如keras_dna,现在提供了从不同文件格式高效地传输组学数据的可能性。然而,这些解决方案是专门为深度学习应用量身定制的,无法解决文件管理的负担。
最近,Serizay和Koszul提出了momics(图1,https://github.com/js2264/momics),一个从根本上重新思考多组学和多模态数据集成的统一框架。momics利用TileDB的多维数组基础设施将基因组序列、注释和覆盖跟踪整合到一个可查询的存储库中。不像现有的方法需要为每种数据类型单独的工具,momics提供了一个独特的高性能查询引擎来无缝检索多模态数据。这种统一的体系结构支持跨数百个覆盖轨迹和数百万个基因组位置的并发查询,速度比传统工具提高了几倍,同时为分布式计算环境提供了本地云存储集成。作者们演示了组学如何转换多组学分析工作流程并加速机器学习在基因组学中的应用。
图1 多模态数据融合的momics框架。A. momics工作流程的示意图概述。处理过的数据(DNA、RNA、染色质)被整合到一个统一的组学存储库中,以实现集成的多组学分析。B. 基于TileDB数组的内存存储库的分层组织。C. 用于momics存储库管理的命令行接口实用程序。D. 高效数据流和机器学习应用的类,以及用于数据备份、共享、可视化和标准格式导出的实用程序。E. momics与传统bigwig和fasta文件格式的存储效率比较。不同数组平铺大小的内存(F)和时间(G)使用比较
参考文献
[1] Jacques Serizay, Romain Koszul. Multi-modal data integration for machine learning applications. bioRxiv 2025.10.10.681692; doi: https://doi.org/10.1101/2025.10.10.681692
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-5 18:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社