|

图1 论文标题及作者信息
DrosGB 收集了来自 FlyBase 和 NCBI 的35种果蝇基因组和注释数据(图2),并以黑腹果蝇作为参考,使用 OrthoFinder、TOGA、Foldseek 和 SonicParanoid2四种工具分别鉴定直系同源基因,并对结果进行整合和过滤。结合 UniProt、Ensembl 和 NCBI 基因信息完成基因 ID 映射。同时,基于 DIOPT 数据库中黑腹果蝇与人类的同源关系,推导其余34种果蝇与人类的间接直系同源关系。为了提高可靠性,提取至少三种工具支持的直系同源基因对(即Sum≥3,Sum 表示支持给定直系同源基因对的鉴定工具总数),生成高可信的直系同源基因集(high-confidence ortholog set),并根据系统发育关系对其进行分类。此外,进一步开展蛋白质三维结构预测、功能注释和基因表达分析,为果蝇基因研究提供多维度的数据支持。在线平台包含五个主要模块:“Home” “Tools” “Browse” “Download”和“About”。其中,“Tools”模块集成了多个功能——基因搜索、同源 ID 映射、BLAST、基因树构建、序列获取、引物设计、基因组共线性及蛋白三维结构搜索。“Browse”模块包括三个子模块:物种信息、物种树和高置信度直系同源概览。“Download”模块提供四种同源推断工具的结果、高可信同源基因集数据、FlyBase 参考数据、基因表达数据、基因组与注释等资源。

图2 DrosGB数据库的处理流程与内容概览
对同源基因结果进行统计发现,在34种果蝇物种中,约90%的基因可在黑腹果蝇中找到对应的直系同源基因;即便在更严格的高可信标准(Sum≥3)下,各物种仍保持约70%的同源比例(图3A)。与黑腹果蝇亲缘关系较近的物种,如melanogaster亚群中的 D. simulans、D. sechellia 和 D. mauritiana,其高可信同源比例更高,而系统发育距离较远的物种则相对较低。基于系统发育关系对高可信直系同源基因进行分类(图3B),发现共有6889个蛋白编码基因(49.3%)。在35个物种中共享,为果蝇属核心基因(Drosophilagenus core genes);3927个基因(28.1%)为软核心基因(Drosophilagenus softcore genes),存在于两个亚属中超过50%的物种;100个基因(0.7%)为云基因(Drosophilagenus cloud gene),存在于两个亚属中少于50%的物种。同时,还鉴定出具有明显谱系分布倾向的亚属偏倚基因:其中665个为 Sophophora 亚属偏倚基因(4.8%, Sophophora subgenus-biased genes),主要分布于 Sophophora 物种中,而在 Drosophila 亚属中的保留比例不足50%;相应地,73个为 Drosophila 亚属偏倚基因(0.5%, Drosophila subgenus-biased genes),呈现相反的分布模式。进一步在 Sophophora 亚属内部,识别出91个核心基因(0.7%, Sophophora subgenus core gene)、1283个软核心基因(9.2%, Sophophora subgenus softcore gene)和758个云基因(5.4%, Sophophora subgenus cloud gene)。此外,黑腹果蝇特有基因为200个(1.4%, Drosophila melanogaster-specific gene)。GO 富集分析结果表明果蝇属核心基因显著富集于有机磷代谢、细胞分解代谢和氧酸代谢等基础代谢过程(图3C),主要定位于胞内囊泡系统,提示其在基础代谢、细胞内运输和核酸处理等基本生命活动中发挥关键作用。相比之下,200个黑腹果蝇特有基因则富集于精子运动、鞭毛组装及微管相关运动等过程(图3D),并定位于动力蛋白复合物和精子鞭毛,表明其可能参与精子活力调控及繁殖适应。
图3 35种果蝇的系统发育关系、直系同源支持及基因功能富集分析
综上所述,DrosGB 系统整合了35种果蝇的基因组、转录组、功能注释以及蛋白三维结构数据,并通过多种同源预测方法交叉验证,构建了高可信的直系同源基因集,弥补了现有数据库在跨物种整合方面的不足,为果蝇属的比较基因组和功能研究打下了更加扎实的数据基础。在网站功能上,DrosGB 设计了五大模块,集成基因检索、同源 ID 映射、BLAST 比对、基因树构建、序列获取、共线性分析、三维结构浏览等多种在线分析工具,同时支持原始数据下载,让研究者可以从“查数据”到“做分析”一步到位。未来,随着更多果蝇物种和组学数据的不断纳入,以及同源鉴定策略和可视化工具的持续优化升级,DrosGB 有望进一步提升数据深度与使用体验,逐步成长为果蝇比较基因组与功能研究领域的重要基础平台。
作者简介
郑淇 博士研究生
第一作者
机构:广州医科大学、广州霍夫曼免疫研究所
研究方向:比较基因组分析和生物信息学张传畅 硕士研究生
第一作者
机构:南开大学
研究方向:大模型、推荐系统、数据挖掘
张浚辉 硕士研究生
第一作者
机构:广州医科大学、广州霍夫曼免疫研究所
研究方向:抗病毒天然免疫研究和进化分析蔡祥睿 副教授
通信作者
机构:南开大学
研究方向:多模态数据分析和人工智能安全
刘陌 教授
通信作者
机构:广州医科大学、广州霍夫曼免疫研究所
研究方向:疾病相关基因组学的数据挖掘与算法开发
引用格式:Zheng Q, Zhang C, Zhang J, et al. DrosGB: An integrated multi-omics database for comparative genomics and functional annotation of 35 Drosophila species. hLife 2026. https://doi.org/10.1016/j.hlife.2026.02.003.Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-24 02:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社