博文

生物信息学数据分析与皇帝的新装精选

已有 24746 次阅读 2012-6-17 02:43 |系统分类:观点评述| 生物信息学, 数据分析

本文是主要面向生命科学研究人员的一篇科普性文章，旨在探讨生物学数据分析背后的真与假，对与错，难与易的问题。

二十一世纪的前十年是生物芯片技术的天下，然而不经意间，高通量测序风起云涌，二代测序、三代测序（统称为下一代测序，简称NGS）接踵而来，并造就了中国BGI的崛起。高通量技术的迅猛发展也使得其价格的跌势丝毫不亚于中国股市。两年前一个真菌基因组的测序费用在三十万到五十万元人民币，而今只需区区十多万元甚至更低，如果考虑到国际上人民币升值而国内通货膨胀和CPI高涨的因素，其相对价格是折上加折。作为一个直接效应，起码在实验室水平NGS已经平民化，科研水平的竞争也逐步地从数据的获取转化为数据的分析和解读。

近几年，为了获得先机，实验室往往先抢地盘，花重金对新的物种测序，然而，测序公司对数据只能提供最基本的分析，只有极少数课题组能够通过代价不菲的合作获得对数据的专业解读，更多的数据被困在实验室的电脑里边，无法转化为科研成果。眼看着数据资源的优势在逐步丧失，研究人员往往采取两条途径寻求帮助，一是求助于专业公司，二是让学生着手分析数据。

先探讨一下国内的生物信息学专业公司。国内的专业公司往往由一两个有丰富经验的专业硕士或博士牵头，实力雄厚的公司也会有特定方向分析平台的积累，可以更快的完成该领域的分析项目，然而，生命科学领域的研究方向何其广泛繁杂，不说基础生物学和医学科学中有多少细分的学科，单说农林牧渔各个方向，其数据特点和分析策略就不尽相同，哪个公司敢说可以应有尽有呢？即使当年的塞莱拉也做不到。而数据分析真的是可以闭门造车吗？分析人员可以撇开该方向的生物学专业知识，就可以做到完美诠释数据吗？答案不容置疑，不可能！深入可靠的数据分析必须依赖于生物学医学专业知识的不断反馈指引，否则只能做一些粗浅的共性的数据前期处理，或者，我们称之为数据的常规分析。比如，对芯片数据，可以做数据归一化，差异表达分析，功能富集分析等。如果目标只是制造低水准的垃圾文章倒也罢了，想要真正达到数据中提取知识，完成一个科学研究并演绎出一个科学故事，需要生物学专家和信息学专家的不断沟通，费时更费力。公司做这样的项目，且不说能否胜任，即使有这个实力，人力成本也非常高昂，实验室一般也不会支付相应的代价，最后妥协的结果，还是低水平的重复和毫无科学性的数字游戏。我们目前看到的绝大部分类似合作模式的成果，无谓乎一个又一个皇帝的新装，公司是裁缝，对外宣传说我们的服装是如何的漂亮鲜艳，影响因子如何云云，实验室的研究人员则穿着新装，心里不知是何感想。

让毫无专业背景的学生分析数据更是一个无奈但又不切实际的做法。以基因组NGS数据（从头测序）分析为例。测序公司往往会提供基因组的组装，在这里姑且认为其提供的组装结果是可靠的（如果不可靠那就更麻烦了）。公司一般还会提供基因预测和基因组特征的分析等内容，但是所谓基因预测，只不过是跑一下某一个预测软件，所得结果有多大的可信度只有天知道。有能力的学生也许会更进一步，通过整合多种预测软件使结果更加可靠。可是，学生已经尽力了，但是结果却并不那么可靠，因为专业的基因注释流程要远比这个复杂。我们看一下Broad Institute是如何做这个分析的：先是多种从头预测算法分别注释；然后利用已知的蛋白质数据集比对基因组找出可能的编码区；再利用各种表达谱数据签定可靠的编码区和内含子；并通过准确度和敏感度评估计算各种结果的权重；最后加权整合各种结果。这还不算完，最后还有人工干预，去除不合格的基因。这一套流程十分复杂，作为专业的团队，我们构建这样的一个分析平台尚且遇到了很多问题，可想而知，让毫无专业背景的学生做这个工作有多难。基因预测是基因组数据分析中非常重要的一个早期分析步骤，其结果准确与否对下游一系列的分析有重大影响。起步都做不好，那么差之毫厘失之千里的分析也在所难免。

高通量生物学数据的分析，是整个项目中承上启下的非常重要的一环，本身就是科学研究的一个组成部分。培养一个真正合格的面向生物学数据分析的专业人员其实是很艰难的，没有生物学背景不行，数理统计功底太差不行，计算机水平差也不行，即使这些学科样样都达到专业水准了就可以了吗？且慢，没有很多专业知识的积累和沉淀，也是不合格的。如果不了解生物学数据库，对特定数据种类的流行算法和软件不清楚，肯定干不好。所以，在多学科专业培训之后，还需要很长时间的经验积累，才可以造就一个合格的分析专家。

跟实验室研究（也称为湿实验）相比，数据的信息学分析（也称为干实验）更容易产生结果，因而也更具有迷惑性和欺骗性。在实验室做实验，成功与否很容易签定，然而做数据分析，结果的对与错表面上却不是那么容易区分。一般来讲，设计不同的分析流程，选择不同的算法或者不同的参数，所产生结果的生物学意义也不同。如果对流程和对算法的理解不透彻，分析结果就很可能跟生物学设计初衷背道而驰，这样的例子举不胜举。比如，无论是公司还是学生，很多人做表达谱数据的差异表达分析都貌似很专业地使用一种软件，叫作SAM。殊不知，各种算法都有其严格的应用范围和数据要求，每种算法都不是万能的。SAM软件的算法应用于样本量很少而基因数量很大的数据并不适合。现在国内外发表的相关论文中，包含生物信息数据分析内容的占有很大的比重，其中，常常能看到很不专业的分析方法和不可靠的分析结果，国外实验室也不能例外。比如，T检验是常用的数据分析手段吧？但是，有多少研究人员在用t检验的时候也会考虑到数据的正态分布与否呢？BLAST是应用范围最广的生物信息学软件，我看到有不少所谓高影响因子的论文中用一个Blast E-value控制打遍天下，甚至于筛选出重要的旁系和直系同源基因，但是却忽略了同源基因中非常重要的序列覆盖度（coverage）和同一性（identity）。更有甚者，将E-value和基因的进化速率挂钩，得出可以用某特定的E-value值评估基因进化速率的结论。这个“科学”结论何其荒谬呀！E-value作为一个统计学概率，随着数据库大小的变化而变化，但是基因的进化速率却是基因的内在特点，两者怎么可能挂钩呢？

这确实是一个难题，随着高通量技术发展的日新月异，数据量剧增，但是数据分析力量匮乏。目前所看到的众多皇帝的新衣其实也是这种不平衡所致。要从根本上解决问题，显然需要培养更多合格的生物信息学专业团队，但是这需要一个长期规划，解决不了燃眉之急。其实，如果国内能将现有的专业力量整合起来，努力进行平台建设，并建立双赢的合作机制，也许能让这一供需矛盾得到缓解，这也是笔者正在努力的一个方向。

转载本文请联系原作者获取授权，同时请注明本文来自张新宇科学网博客。
链接地址：https://blog.sciencenet.cn/blog-604918-582915.html

下一篇：紧急建议开发人工智能模型预测新冠状病毒感染后症状