chen7qi的个人博客分享 http://blog.sciencenet.cn/u/chen7qi

博文

高通量数据中批次效应的鉴定和处理(一)

已有 2377 次阅读 2020-8-31 21:46 |系统分类:科研笔记

生物信息学习的正确姿势

NGS系列文章包括NGS基础、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集)等内容。

什么是批次效应?

批次效应表示样品在不同的批次处理和测量时引入的与生物状态不相关的系统性的技术偏差。很多因素都可能导致批次效应的产生,如不同实验条件、不同操作者、不同公司的试剂、不同批的试剂、实验开展的时间、检测设备、不同的测序批次等。

批次效应会有什么影响?

2014年生信领域的大牛Michael P SnyderPNAS上发表了一篇文章Comparison of the transcriptional landscapes between human and mouse tissues,比较了人和小鼠不同组织和器官中表达谱的异同。研究发现不同物种之间组织特异表达的基因是一致的,但很多基因在同一物种不同组织的表达相似度大于它们在不同物种同一组织的表达相似度。“我”来引申下 (原文并没有这么直接说),大体可以理解为小鼠的脑与小鼠的肾脏的相似性大于小鼠的脑与人的脑的相似性。“我”得出的这个结论是有一些颠覆认知的,如果这样,用小鼠做为模式动物是否会对人的研究给出相似性的推导?

这篇PNAS文章发出后,芝加哥大学的Yoav GiladF1000上发表了一篇文章A reanalysis of mouse ENCODE comparative gene expression data来讨论这个不同于以往认知的研究项目的设计和分析的合理性。

首先作者从FASTQ数据的序列名字的ID中提取出对应测序数据来源的测序仪设备ID和测序通道信息,发现所有数据来源于5个批次,如下图所示,只有最后一个批次同时包含了人和小鼠的器官,其它批次都只包含了人的器官或小鼠的器官。

重现者Yoav Gilad等通过对数据进行重分析,重现了类似于原文中的结果。不论是PCA还是Heatmap的结果,都展示出来源于同一物种的组织或器官倾向于聚类到一起。

重现者Yoav Gilad等采用ComBat移除批次带来的影响,再次绘制PCA和Heatmap,结果显示表达谱按组织类型而非物种聚在了一起。

大家有兴趣可以在https://f1000research.com/articles/4-121看看Yoav Gilad的具体操作和PNAS一作Yoav Gilad等人的讨论,通过学习双方在这段公案中辩论的出发点和落脚点,相信对数据分析也会有更多认识,这个我们后续也会涉及。

未完待续......

很长一段时间精力有限,我亲自写的或修改的文章没有几篇,公众号疏于打理,有很多对不住大家的地方。最近坚持多投入一些,分段写一部分,发一部分,也欢迎大家一起讨论,指出问题,提出问题,解决问题,共同进步。




https://blog.sciencenet.cn/blog-118204-1248708.html

上一篇:一文掌握Conda软件安装:虚拟环境、软件通道、加速solving、跨服务器迁移
下一篇:高通量数据中批次效应的鉴定和处理(二)
收藏 IP: 125.33.17.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 01:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部