hLife Journal分享 http://blog.sciencenet.cn/u/yanqun393

博文

hLife | DrosGB:35种果蝇多组学数据助力直系同源推断与比较基因组研究

已有 656 次阅读 2026-3-20 17:10 |系统分类:论文交流

果蝇(Drosophila)是遗传学和功能基因组学研究的关键模式生物。随着多个果蝇物种高质量基因组的测序完成,跨物种比较分析与基因功能预测迎来了前所未有的机遇。在这一背景下,精准鉴定直系同源基因(orthologs)对于连接不同物种、揭示基因功能的保守性至关重要。然而,现有数据库大多以模式物种黑腹果蝇(Drosophila melanogaster)为核心,对其他果蝇物种的资源整合不足,这在很大程度上限制了系统性的比较基因组学研究。近日,广州医科大学广州霍夫曼免疫所刘陌课题组与南开大学蔡祥睿团队等在hLife发表了题为“DrosGB: An integrated multi-omics database for comparative genomics and functional annotation of 35 Drosophila species”的研究论文(图1),构建了果蝇基因组数据库DrosGB (https://www.drosgb.com)。该资源整合了35种果蝇的基因组数据、876个转录组数据集、约42万个三维蛋白结构,并结合OrthoFinder、TOGA、Foldseek和 SonicParanoid2四种方法构建高可信直系同源基因集,旨在为果蝇属的比较基因组与功能研究提供多组学数据支持。

784f6b1351a2fe0c5b7137abd84f6f4e.png

图1 论文标题及作者信息

DrosGB 收集了来自 FlyBase 和 NCBI 的35种果蝇基因组和注释数据(图2),并以黑腹果蝇作为参考,使用 OrthoFinder、TOGA、Foldseek 和 SonicParanoid2四种工具分别鉴定直系同源基因,并对结果进行整合和过滤。结合 UniProt、Ensembl 和 NCBI 基因信息完成基因 ID 映射。同时,基于 DIOPT 数据库中黑腹果蝇与人类的同源关系,推导其余34种果蝇与人类的间接直系同源关系。为了提高可靠性,提取至少三种工具支持的直系同源基因对(即Sum≥3,Sum 表示支持给定直系同源基因对的鉴定工具总数),生成高可信的直系同源基因集(high-confidence ortholog set),并根据系统发育关系对其进行分类。此外,进一步开展蛋白质三维结构预测、功能注释和基因表达分析,为果蝇基因研究提供多维度的数据支持。在线平台包含五个主要模块:“Home” “Tools” “Browse” “Download”和“About”。其中,“Tools”模块集成了多个功能——基因搜索、同源 ID 映射、BLAST、基因树构建、序列获取、引物设计、基因组共线性及蛋白三维结构搜索。“Browse”模块包括三个子模块:物种信息、物种树和高置信度直系同源概览。“Download”模块提供四种同源推断工具的结果、高可信同源基因集数据、FlyBase 参考数据、基因表达数据、基因组与注释等资源。屏幕截图 2026-03-20 170929.png

图2 DrosGB数据库的处理流程与内容概览

对同源基因结果进行统计发现,在34种果蝇物种中,约90%的基因可在黑腹果蝇中找到对应的直系同源基因;即便在更严格的高可信标准(Sum≥3)下,各物种仍保持约70%的同源比例(图3A)。与黑腹果蝇亲缘关系较近的物种,如melanogaster亚群中的 D. simulansD. sechellia 和 D. mauritiana,其高可信同源比例更高,而系统发育距离较远的物种则相对较低。基于系统发育关系对高可信直系同源基因进行分类(图3B),发现共有6889个蛋白编码基因(49.3%)。在35个物种中共享,为果蝇属核心基因(Drosophilagenus core genes);3927个基因(28.1%)为软核心基因(Drosophilagenus softcore genes),存在于两个亚属中超过50%的物种;100个基因(0.7%)为云基因(Drosophilagenus cloud gene),存在于两个亚属中少于50%的物种。同时,还鉴定出具有明显谱系分布倾向的亚属偏倚基因:其中665个为 Sophophora 亚属偏倚基因(4.8%, Sophophora subgenus-biased genes),主要分布于 Sophophora 物种中,而在 Drosophila 亚属中的保留比例不足50%;相应地,73个为 Drosophila 亚属偏倚基因(0.5%, Drosophila subgenus-biased genes),呈现相反的分布模式。进一步在 Sophophora 亚属内部,识别出91个核心基因(0.7%, Sophophora subgenus core gene)、1283个软核心基因(9.2%, Sophophora subgenus softcore gene)和758个云基因(5.4%, Sophophora subgenus cloud gene)。此外,黑腹果蝇特有基因为200个(1.4%, Drosophila melanogaster-specific gene)。GO 富集分析结果表明果蝇属核心基因显著富集于有机磷代谢、细胞分解代谢和氧酸代谢等基础代谢过程(图3C),主要定位于胞内囊泡系统,提示其在基础代谢、细胞内运输和核酸处理等基本生命活动中发挥关键作用。相比之下,200个黑腹果蝇特有基因则富集于精子运动、鞭毛组装及微管相关运动等过程(图3D),并定位于动力蛋白复合物和精子鞭毛,表明其可能参与精子活力调控及繁殖适应。屏幕截图 2026-03-20 170949.png

图3 35种果蝇的系统发育关系、直系同源支持及基因功能富集分析

综上所述,DrosGB 系统整合了35种果蝇的基因组、转录组、功能注释以及蛋白三维结构数据,并通过多种同源预测方法交叉验证,构建了高可信的直系同源基因集,弥补了现有数据库在跨物种整合方面的不足,为果蝇属的比较基因组和功能研究打下了更加扎实的数据基础。在网站功能上,DrosGB 设计了五大模块,集成基因检索、同源 ID 映射、BLAST 比对、基因树构建、序列获取、共线性分析、三维结构浏览等多种在线分析工具,同时支持原始数据下载,让研究者可以从“查数据”到“做分析”一步到位。未来,随着更多果蝇物种和组学数据的不断纳入,以及同源鉴定策略和可视化工具的持续优化升级,DrosGB 有望进一步提升数据深度与使用体验,逐步成长为果蝇比较基因组与功能研究领域的重要基础平台。

作者简介

郑淇 博士研究生

第一作者

机构广州医科大学、广州霍夫曼免疫研究所

研究方向比较基因组分析和生物信息学

张传畅 硕士研究生

第一作者

机构南开大学

研究方向大模型、推荐系统、数据挖掘

张浚辉 硕士研究生

第一作者

机构广州医科大学、广州霍夫曼免疫研究所

研究方向抗病毒天然免疫研究和进化分析

蔡祥睿 副教授

通信作者

机构南开大学

研究方向多模态数据分析和人工智能安全

刘陌 教授

通信作者

机构广州医科大学、广州霍夫曼免疫研究所

研究方向疾病相关基因组学的数据挖掘与算法开发

引用格式:Zheng Q, Zhang C, Zhang J, et al. DrosGB: An integrated multi-omics database for comparative genomics and functional annotation of 35 Drosophila species. hLife 2026. https://doi.org/10.1016/j.hlife.2026.02.003.



https://blog.sciencenet.cn/blog-3552961-1526646.html

上一篇:hLife | BCMA:单细胞图谱解析IgA肾病肠道黏膜免疫异常治疗新靶点
下一篇:hLife | 解码真菌免疫逃逸机制:从宿主攻防到新型抗真菌疗法突破
收藏 IP: 124.16.147.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-24 02:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部