博文

高通量数据处理的一些经验和建议精选

已有 26456 次阅读 2013-4-7 12:06 |系统分类:科研笔记

最近一年时间里收到很多同学和朋友关于454数据处理的询问，通过QQ，微信，人人网和邮件等各种途径，当然不少也是面对面的讨论。这些同学和朋友包括同组的，跨组的，同所的，跨所的，其他大学的，来自北京的、南京的、广州的、西安的，甚至也有国外的中国朋友。有些朋友我素未谋面，也不知长相如何，不知男女。有时候同一天能收到五六份邮件，问题之五花八门，有时已经超越了我所能够解答的范围。

这些现象也反映了当前生物信息学的急剧变革，第二代测序技术就像Iphone问世一些，彻底席卷和重新定义了当前生态学研究的方法和手段。而几年前费用昂贵的第二代测序如今已“旧时王谢堂前燕，飞入寻常百姓家”，于是乎大潮裹挟之下的硕士生博士生们都想出来耍耍，扔个十几万块钱，希望能够轻松的收获几篇文章。

科研论文的发表讲究“猎奇性”，大家都喜欢看到新奇的方法和漂亮的图表。但我认为这其实也是当今科研界的弊端之一，讲究创新和手段的先进，而忽视了研究的重要性。以微生物生态学的旗舰杂志ISMEJ为例，最近一年多发表的学术论文里，第二代测序技术已经是寻常方法，所谓第三代的单细胞测序技术也开始出现。研究生物信息学的来自美国科罗拉多的Rob Knight能够作为ISMEJ的高级主编，方法对于微生物生态学研究的重要性可见一斑。

前几天读到阿伯丁大学的James Prosser教授在Nature上发表的一篇观点文章“Think before you sequence“，在这里面他讲到，第二代测序只不过是一个工具而已，我们的研究依旧要从扎扎实实的假设出发，设计实验来解决问题和验证假设。高通量测序并不能弥补实验设计的缺陷。我在阅读文章的过程中也发现，设计合理和完整的实验，即使使用传统的Sanger测序技术，依旧能够说明和解决问题，并能够发表到高档次期刊上。而如果使用第二代测序技术，但是数据处理有问题，数据质量控制不好，文章也很难得到发表，相当于花钱买罪受。

我从2011年秋天开始学习454数据的处理，在学习的起始阶段，能够和师弟袁超磊一起探讨和交流，并且几乎阅读了ISMEJ上所有与第二代测序技术有关的文章，所以能够很快的上手。在此我也对师弟袁超磊表示正式的感谢，祝愿他在阿德雷德大学能吃上可口的饭菜。

很多朋友的问题我未能一一解答，在此也表示歉意。我经历过学习454数据处理的漫长和痛苦的过程，我很清楚有时候一句话或者一段话很难解决所问的问题。去年我自己投出的文章经历了很多次的拒稿，十几位审稿人和生物信息学家对数据处理提出了建议，现在经过在悉尼和生物信息学专家的讨论，我也能够更加合理地看待数据处理的问题。摸着石头过河的一些经验和建议，在这里进行分享，希望正在摸索和思考中的你，觉得并不孤单。

1. Mothur和QIIME那个软件更好？

Mothur是美国密歇根大学的Patrick Schloss在2009年开发的数据处理平台，它的前身是Dothur软件，相信大家都听说过。这两个软件的发音分别为Mother和Daughter，是Dr Parick献给他的妻子和女儿的。另一个被广泛使用的数据处理平台是QIIME,也是美国科罗拉多Rob Knight等人于2009年开发出来的。截至今天，Mothur的方法文献已经被引用1229次，而QIIME被引用574次。这说明Mothur比QIIME有更广泛的群众基础。

我刚开始学习使用的就是Mothur,我个人非常喜欢这个开源的数据处理平台，基本能够实现我的所有数据处理目的。Mothur软件无需安装，在Windos, Linix,和MacOS系统上都可以运行。我研究了Mothur每一个中间导出文件的格式和原理，所以我能够将这些中间产生的文件导入其他软件进行处理和做图，比如R语言。很多人不喜欢Mothur，都是因为Mothur不能够直接出图，必须依赖于其他软件。而这正式我所喜欢的原因，我现在也正在进一步学习R语言，R的做图功能是非常强大的，其实大家平时看到文章上那些非常漂亮的图，大都是R语言做出来的。所以，如果将Mothur和R结合，我认为是一个能正确处理数据并完美展现数据的途径。除了罗氏454数据处理之外，Mothur现在也有了针对Illumina数据的处理方式，大家从Mothur的网页上就可以读到Dr. Patick写的标准数据处理流程。

现在QIIME携苹果电脑的时髦，也得到了很多人的青睐。这个软件我本人没有真正使用过，但是知道QIIME只能在MacOS和Linix系统上运行，当然也可以通过在Windos系统上安装Virtual Box来运行。这个软件出图的效果比较好，很多人把直接出的图用来发表文章。我所在的悉尼这边的研究所的生物信息学专家也是用QIIME来处理数据。我就这个软件问题和他讨论了好多次。基本来说，两个软件都可以帮助我们实现正确的数据处理，并不存在哪个更好的问题，只有个人在使用上的喜好。

我希望你无论使用那个软件，都仔仔细细阅读软件网页上的教程，并熟悉所有的命令。自己一一试试各个命令，合理组合命令，这样才会通过修改命令来正确处理自己的数据。这个过程没人可以帮你，只有你自己能够救赎自己。

2. 数据处理难学吗?

这是一个我一直以来很想告诉所有人的问题。说实话，那两个软件都很好使用，有标准的处理流程在那里等着你，把所有数据处理下来绝对不超过十天时间。但是，为什么我们几个月甚至一年都拿不下来数据处理？

因为数据处理的难点不在于软件的使用，而在于你对微生物生态学基本概念的了解。我认为我们需要在数据处理之前就应该特别清楚的是1）α多样性的各种指标。数据条数的多少会直接影响α多样性的计算结果，它们之间是正相关关系。所以计算α多样性必须统一序列条数。而我们知道统一序列条数就会舍弃很多条数不足的样品，这个取舍就涉及到很多的经验问题，需要你阅读很多的文献来了解；2）β多样性的表征方式。我研究β多样性的时候，阅读了很多相关的文献，对Bray-Curtis指数，UniFrac等都非常了解。选择能够最好表现你多样性差异的指数，需要花很多很多的汗水。3）多元统计方法。这个又是更大的难点了，Mothur不会告诉你，QIIME也不会告诉你。你只有去阅读教材，阅读文章，才能弥补这些缺陷。不然你连那些命令都读不懂，还谈什么数据处理，修改命令。4）文章的构思。这又是更高一级的知识预储备了。在你的数据处理之前，请阅读所有高质量期刊上的相关文章，至少需要预估计，你可以出哪些图，做哪些分析。其实在数据处理的过程中已经是你不断验证假设和推翻假设的过程。

希望你在数据处理之前踏踏实实地做好这些功课，不然你很难完美运行各个命令。另外，要仔细研究各个软件的原理，做到人机合一的效果。因为有时候软件并不能解决所有问题，比如在alignment的时候，有时候在部分区域比对效果不好，你需要使用合适的软件打开这些中间文件，手动进行删除，不然会影响后续的多样性计算。所以，你需要把自己练成一台机器。2010年我做过同位素超高速离心，尽管已经有很多文献可供参考，我当时还是研究了离心机的原理和等密度梯度离心的原理，所以自己就很清楚应当如何优化实验条件，获得最好的数据。

3 细菌和古菌16S数据和功能基因数据处理的不同？

如果你处理的是细菌16S数据，那么恭喜你，你应该很容易完成数据处理，因为Mothur和QIIME都包含了细菌16S比对和分类的数据库。因为细菌的研究已经非常多，所以分类的效果也很好，未知的类别一般也很少。

如果是古菌16S的话，RDP，Greengenes，SILVA等数据库我都用过，分类效果都很差，但是不影响你的多样性分析。因为古菌的纯培养仍然很少，分类问题仍然是处于发展阶段。你基本也可以顺利按照标准流程完成数据处理。

但是功能基因的话，就面临很大很大的难题。如果想测序功能基因的同学，一定要三思而后行，我自己在这方面进行了很多的尝试，虽然知道处理的方式，但是解释起来真的很难。就像我在上面所说的，如果你不了解Mothur和QIIME的文件格式，基本架构，我很难告诉你怎么去实现自己的目的。所以大家也可以看到，现在发表的关于功能基因测序的文章很少很少。大家基本都是DIY，都是一些很熟悉生物信息学的国外实验室发表的。希望你能认识到功能基因处理的难点1)第一步是比对alignment，一开始就做不了。因为没有可供使用的alignment reference数据库。我的经验是自己做一些，从NCBI上下载功能基因序列，然后自己通过MUSCLE或者ARB比对的很齐，然后作为参比序列；2）分类。这个更难，需要经过alignment之后，分成不同的OTU，然后从每个OTU中选择一个代表序列，通过BLAST进行分类。3）分OTU。对于细菌和古菌16S而言，97%代表species水平，但是功能基因就完全不一样。以氨氧化微生物研究为例，AOA的species-level OTU应当是87%，而AOB应当是80%，所以和16S数据完全不同。

对于必须要做功能基因的同学，我建议可以考虑基因芯片（microarray）的方法。现在针对pmoA和amoA基因的基因芯片都已经开发的非常完善，国际合作也不是难题。Microarray通过设计的探针合理解决了分类的问题，价格比454测序也便宜，数据处理简单。所以我认为是一种更好的方式。

以上所写，难免有错误之处。我以分享知识为乐趣，也祝各位同学和朋友数据处理顺利。

转载本文请联系原作者获取授权，同时请注明本文来自胡行伟科学网博客。
链接地址：https://blog.sciencenet.cn/blog-871198-677805.html

上一篇：澳大利亚西悉尼大学博士职位open

收藏 IP: 137.154.73.*| 热度|

当前推荐数：15 推荐人：彭真明 周锋 张俊鹏 张琛 张南希 李宇斌 钱磊 徐笠 徐大彬 毛培宏 蒋兴鹏 眭飞 王圣洁 penguin3 neilchau

该博文允许注册用户评论请点击登录评论 (20 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

胡行伟

扫一扫，分享此博文

全部作者的其他最新博文

• 澳大利亚西悉尼大学博士职位open

alienzju的个人博客分享 http://blog.sciencenet.cn/u/alienzju

博文

高通量数据处理的一些经验和建议精选

当前推荐数：15 推荐人：彭真明 周锋 张俊鹏 张琛 张南希 李宇斌 钱磊 徐笠 徐大彬 毛培宏 蒋兴鹏 眭飞 王圣洁 penguin3 neilchau

该博文允许注册用户评论请点击登录评论 (20 个评论)

胡行伟

全部作者的其他最新博文

全部精选博文导读

相关博文

alienzju的个人博客分享 http://blog.sciencenet.cn/u/alienzju

博文

高通量数据处理的一些经验和建议 精选

当前推荐数：15 推荐人： 彭真明 周锋 张俊鹏 张琛 张南希 李宇斌 钱磊 徐笠 徐大彬 毛培宏 蒋兴鹏 眭飞 王圣洁 penguin3 neilchau

该博文允许注册用户评论 请点击登录 评论 (20 个评论)

胡行伟

全部作者的其他最新博文

全部精选博文导读

相关博文

高通量数据处理的一些经验和建议精选

当前推荐数：15 推荐人：彭真明周锋张俊鹏张琛张南希李宇斌钱磊徐笠徐大彬毛培宏蒋兴鹏眭飞王圣洁 penguin3 neilchau

该博文允许注册用户评论请点击登录评论 (20 个评论)