||
单细胞测序数据分析技巧和未来计划
对于那些寻求高分辨率、高规模和高通量转录组学信息的人来说,单细胞RNA测序带来了数据。科学家们在回顾这种方法走红的过程中,分享了一些技巧和未来的计划。在Nature Methods杂志最新一期中,Vivien Marx将这一技术专访整理成如下文字。
纽约基因组中心的研究人员Rahul Satija说:“过去十年来,这个领域的发展令人难以置信。”他说,成千上万的实验室正在使用单细胞测序来分析各种器官和有机体中的细胞。现在这是一种测量细胞活动的常规方法。华盛顿大学研究员Cole Trapnell说,单细胞RNA测序(scRNA-seq)实验提出了“一大堆真正令人兴奋的、概念上的新问题”,他也是华盛顿大学、西雅图儿童医院和弗雷德·哈钦森癌症中心合作的布罗特曼·巴蒂研究所的一员。
单细胞RNA测序(scRNA-seq)的迅速兴起意味着研究人员可以找到综述和不断发展的资源,如单细胞最佳实践(Single-Cell Best Practices)。这本书是由单细胞最佳实践联盟的成员共同撰写的,面向新手和高级专业人士。书籍贡献者可以通过Jupyter Notebook加入。
Satija是杜克大学校友和篮球迷,他回想起13年前的一个时刻。他说:“我一边在一台显示器上玩游戏,一边绘制我们的第一个测序结果。杜克大学正在参加一年一度的“疯狂三月”全国大学体育协会锦标赛的“甜蜜十六岁”篮球比赛。当时,Satija与Alex Shalek和Joshua Levin在Aviv Regev位于麻省理工学院和哈佛大学布罗德研究所的实验室里工作。杜克输掉了比赛,也许最好不要在那段令人不快的记忆中徘徊,但那天Satija留在实验室里分析他的第一个scRNA序列结果。他说:“我还记得第一次意识到我们所看到的数据真的来自一个细胞时的激动。”读数仅来自18个单细胞,但这感觉像是一个开始,特别是考虑到他称之为早期scRNA测序先驱的实验室工作:卡罗林斯卡研究所的Sten Linnarsso和当时在剑桥大学的Fuchou Tang。
工具如此之多,数据又很稀疏
事实上,计算scRNA测序工具的数量是巨大的,Sarah Teichmann说,她是Wellcome Sanger研究所的研究员,也是人类细胞图谱的共同创始人和共同指导,并与同事Kerstin Meyer和Nick England共同回应。考虑到该领域技术的快速发展,测序仪器和条形码技术用于空间、蛋白质组学和代谢数据,“仍然非常需要新工具”他们指出。用户希望分析和组合来自不同信息模式的结果。
Trapnell说,以前用于基因表达分析的软件堆栈“根本无法满足需求”,工具需要解决scRNA-seq数据结构。对于想法,可以从其他领域移植方法。scRNA-seq实验人员面临的统计问题与生态学家在不同地点对生物体进行计数时面临的统计问题类似。为了在空间上解决基因表达问题,我们可以看看地质工具解决统计学中众所周知的推断问题的方式,以评估油田从哪层岩石开始和结束。“人们正在这么做,这很酷”他说。这不是一个概念上的新方法,“但在生物学的很多方面,这是一个概念上的新方法”。
Teichmann和她的同事说,scRNA序列数据的稀疏性仍然是一个挑战。通常,捕获的转录本太少。通过应用统计模型或深度学习等方法来计算缺失值是处理这一问题的一种方法。他们说,虽然归因法可以提高检测差异表达的灵敏度,但“它也可能引入假阳性”。来自Wellcome Sanger研究所的Tallulah Andrews和Martin Hemberg评估了不同的输入方法在输入数据时产生“假阳性或不可复制的差异表达”的风险。Teichmann团队指出,这些作者建议,在某些情况下,例如可视化数据,缺失值填充是有用的。但对于统计测试,例如差异表达分析,应使用未填充的数据。
Teichmann和她的同事说:“在人类遗传学中,缺失值填充被广泛使用,因为那里有很好的已知参考数据集,”比如来自千人基因组计划的数据集。随着越来越多的scRNA-seq参考图谱的出现,新的方法可以利用它们进行更准确的缺失值填充。Trapnell说:“归因,特别是在个体测量的水平上,是一件令人担忧的事情。”这是一种表达对一个值的怀疑方式,根据实验,这个值是零,但可能很小。怀疑和猜测必须经过统计分析,“你必须传播不确定性”。
他说,另一种选择是测量更多的细胞来“填补零”。这样做需要时间和金钱,但随着技术的进步,他希望这将变得更容易。“获取更多细胞”的策略比花时间开发一种很快就会过时的算法要好。他的实验室开发了一种名为Census的scRNA测序工具。一旦具有唯一分子标识符(UMI)的条形码技术得到广泛应用,该算法就不再需要了。
现在更好了
“放大偏差曾是一个问题,但UMI解决了这个难题。”,Teichmann实验室团队说。这种方法为每个基因提供了一个独特的条形码。“放大后,具有相同UMI的读取被折叠成单个读取,从而消除了任何放大偏差。”卡罗林斯卡学院的研究员Rickard Sandberg和他的同事们指出,条形码中的错误是可能发生的,必须加以纠正。由于缺乏实验基础来帮助纠正这种错误,他们开发了具有高度多样化随机序列的mRNA尖峰蛋白。他们指出,除了浅层scRNA-seq实验外,应该避免短于8个核苷酸的UMI。
应用统计学家Kasper Hansen说,一些实验室以前排除了细胞周期状态对scRNA-seq数据的影响(作为一个混杂因素),但现在不再这样做了。他和约翰霍普金斯大学彭博公共卫生学院的同事们开发了 Tricycle工具,人们可以通过scRNA-seq数据推断细胞周期状态。
在细胞周期中,许多基因的差异表达,特别是在细胞生长和细胞分裂前RNA含量增加的过程中。不仅仅是调控细胞周期的基因发生了变化。Hansen说,研究小组收集了大量证据,证明Tricycle在哺乳动物细胞中运行良好。他说:“如果你使用更遥远的生物,我们很乐意听听你的经验。”
目前,用户使用Tricycle来估计细胞周期长度,但它可以揭示更多关于细胞周期长度、分化和细胞命运之间的相互作用。“我们正在积极研究这个问题”他说。在他们的方法开发工作中,该团队通过将其与金标准细胞周期测量结果进行比较,证实了Tricycle的结果。他说,由于技术原因,这些数据集只描述了一种增殖细胞类型,但是“我们需要的是研究混合细胞类型的方法”。
随着scRNA测序技术的出现,一些实验室采用高灵敏度的方法,如RNA荧光原位杂交(FISH)来探测和定位细胞或组织切片中的RNA。 他们计算了单个mRNA分子,发现了“基因表达调控的突发性本质”,Trapnell说,这过去和现在都很有趣。FISH仍然是研究转录机制的好方法。
Trapnell说,随着时间的推移,科学家们已经了解到细胞含有大量RNA,但不需要多少分子就能“清楚地知道细胞是什么类型的细胞,甚至可能知道它在哪里”。基因是相互关联的,从信息论或统计学的角度来看,细胞RNA含量的一小部分就能说明问题。他说,这对科学界来说是一个技术上的惊喜。scRNA-seq开启了细胞图谱制作的新纪元。
扩大规模的途径
当为scRNA-seq准备样品时,组织解离会影响提取细胞类型的比例,Teichmann实验室团队说。但在他们看来,scRNA-seq提供了最高质量的数据,实验人员可以发现细微的基因表达差异,并描述小亚群的特征。 研究人员指出,单核测序“不太容易产生偏差”,而且该技术更忠实地代表了完整组织的细胞群,“尽管基因计数略低”研究小组说。
Trapnell说,因为生物学上的每一项检测都有偏差,所以需要内部一致的控制。细胞和细胞核是不同的。一个细胞有比细胞核更多的RNA。如果研究人员想要计算样品中每种类型的细胞数量,“细胞核就可以了”Trapnell说。scRNA-seq和单核RNA-seq都有各自的位置和局限性。要知道哪些基因在一小时前被表达,而不是昨天,“细胞核可能更好”。
Teichmann实验室及其同事将scRNA-seq与最近改进的空间技术结合起来,现在可以提供“真正的单细胞分辨率”。他们以10X Genomics的Xenium和Visium HD系统为例。在许多实验中,Teichmann实验室整合了来自scRNA-seq、单核RNA-seq和空间分辨转录组学的数据。他们在肢体发育研究中结合了scRNA-seq和10X Genomics Visium数据,为此他们建立了一个空间分辨的单细胞图谱。
该团队与英国、德国和澳大利亚的同事一起开发了WebAtlas管道,用于共享集成的单细胞数据集。人们可以查询单细胞数据中的细胞类型和基因,以及基于测序和成像的数据。他们应用的数据集包括scRNA-seq数据和通过空间技术获得的数据集:10X Genomics Visium CytAssist和Xenium, Vizgen的MeRSCOPE和由加州理工学院Cai实验室开发的seqFISH生成的小鼠胚胎数据集。
在scRNA-seq中,快速的规模化正在进行中,Teichmann团队说。10X Genomics等公司提供的芯片每次进样可装载10万个细胞。一些公司使用组合索引,以合理的成本分析大量细胞。组合索引涉及细胞和分析物的多轮条形码,并扩大scRNA-seq实验。Teichmann团队提到的一家公司是Parse Biosciences。该领域的另一家公司是Scale Biosciences,Trapnell 与华盛顿大学的同事Jay Shendure、斯坦福大学的Garry Nolan和曾在Illumina工作的Frank Steemers共同创立了这家公司。
整合行动
Satija说,现在从单个细胞中获得不同类型的分子信息——基因表达、蛋白质丰度、染色质可及性和DNA甲基化水平——是多么令人兴奋。他说:“测量这些其他模式提供了一个非常不同的视角来了解细胞在做什么,甚至可以用来推断它过去的行为或预测它未来的状态。”
Satija实验室开发了一种桥式集成方法,可以跨模式集成单细胞数据集。在他们的论文中,他们考虑了从COVID患者的免疫细胞中产生的两个数据集:RNA水平(细胞基因表达)和细胞蛋白质水平测量。多组数据集中的每个细胞都是字典中的一个“元素”。Satija说,字典学习是如何处理RNA和蛋白质数据之间的翻译,从而将两组数据整合起来。该方法在Seurat软件包中实现,Seurat软件包是实验室广泛使用的单细胞数据分析工具套件。
该方法侧重于对一组精选的代表性细胞进行密集处理和整合,生物技术公司Neptune Bio的数据科学负责人Yuhan Hao说,他是Satija实验室的一名博士生,也是该方法开发的共同负责人。这些结果被扩展为表示整个数据集。这缩短了整合10个大型scRNA-seq数据集和数百万个需要大量计算内存的细胞所需的大量分析时间。他说:“这个过程有效地将不同类型的数据集整合到一个共同的特征空间中,使整合变得简单”
这种方法是实验室 Azimuth的核心。这是他们在人类生物分子图谱计划(HuBMAP)中活动的一部分,该计划旨在绘制单细胞水平的人体图谱。Azimuth提供注释的参考数据集,有助于自动化处理和分析。目前已有各种类型人类细胞的scRNA-seq参考数据集和scATAC-seq数据。scATAC-seq方法,或转座酶可及染色质测序,是一种评估转录因子结合或DNA甲基化发生位置的方法。
新远景
Trapnell说,特别是由于测序成本的急剧下降,scRNA测序实验的总成本已经下降。过去,一个典型的实验涉及几百个细胞,这些细胞很容易从组织中分离出来,而现在,实验可以用来自许多样本的数百万个细胞来进行。大多数早期的应用都集中在对单个基因的调控上。这样的工作仍在继续,但scRNA-seq的规模和吞吐量开辟了新的实验可能性。而不是扰乱细胞并询问“我最喜欢的基因是如何改变的?”或者“单个基因是如何受调控的?”,人们可以扰乱模式生物胚胎,并询问最喜欢的细胞类型如何与其他细胞类型成比例地变化。人们对整个程序有了一个大致的了解,因为人们可以研究细胞类型是如何相互依赖的。有人可能正在研究癌细胞来研究残留的疾病。“这就像使用单细胞RNA测序,就像使用流式细胞术一样”他说。“但规模要大得多。”这些变化使设计实验变得更加容易。
Trapnell和Shendure实验室一直在应用scRNA-seq解决发育生物学问题。这项工作将在新的西雅图合成生物学中心SeaHub的工作中扩大。Shendure是SeaHub的科学主管,Trapnell将共同领导。Trapnell说,当你能够对来自不同样本的数百万个细胞进行测序时——在他们的例子中,模式生物的胚胎以各种方式受到干扰——你就可以研究一种变化如何影响胚胎发育过程中的所有细胞类型,并开始解决遗传学和发育遗传学中的问题,这是用更传统的工具无法解决的。随着解决计算和统计问题的新工具,比如推断哪种细胞类型需要哪些基因,细胞类型如何相互依赖,或者基因如何相互调控,“我认为它将为我们提供一种剖析控制发育的遗传程序的方法。”
Hao说,在scRNA-seq测量和分析中还有很多技术问题需要解决。他说:“我们需要人群水平上的scRNA数据,以及遗传和精心策划的临床信息。”去年,Chan Zuckerberg 整合了公开的scRNA-seq数据,建立了CZ CellxGene Discover Census,人们可以访问、查询和分析scRNA-seq数据。这些数据对于训练人工智能模型学习所有这些细胞的统一表示是非常宝贵的。他说,在保持隐私的同时,掌握这些细胞捐赠者的数据将是有用的。
Hansen说,关于scRNA-seq的许多令人兴奋的工作正在进行中。测序分析很难验证,因为测量细胞会破坏它们。他很高兴看到在测量之前记录细胞历史的方法,例如Phylotime,这是他的霍普金斯大学同事Reza Kalhor和Hongkai Ji及其团队开发的回顾性谱系条形码和分析工具。Teichmann和她的同事们说,看到技术带来的空间分辨率的提高是特别有用的。再加上新的工具,这将使科学家们能够精确地将基因表达映射到单个细胞的确切位置。例如,了解癌症和自身免疫性疾病中免疫细胞与其靶标之间确切的细胞相互作用,对治疗和药物发现有很大的希望。
Hao说,研究界已经使用scRNA-seq来识别和描述新的、罕见的和以前被忽视的细胞类型。这为理解导致复杂疾病的细胞类型和基因程序以及有效疗法的发展开辟了一条道路。但是我们需要的不仅仅是几十到几百个个体的scRNA数据,而是几千个个体的数据,Hao说。降低scRNA的成本增加了其可获得性,下一个技术挑战是确定如何收集有关捐赠细胞的个人信息并保持隐私。在Satija看来,下一个前沿是超越观察,利用这些技术“不仅要了解细胞在做什么,还要了解它们为什么这么做”。这是他的实验室正在探索的新方向。来自这个新方向的一项技术是该团队的Phospho-seq,它可以同时分析蛋白质、量化细胞内蛋白质动力学,在整个细胞中使用scATAC-seq,然后使用桥接集成方法将这些数据与scRNA-seq数据集整合。
人们可以在发育过程中追踪细胞信号并重建基因调控关系。该实验室还开始了大规模的实验,以确定各种细胞反应的调控因子和靶标。这项工作包括汇集遗传筛选、单细胞测序(如使用Perturb-seq结合组合索引)和高通量测序,以寻找不同生物学背景下信号调控因子的靶标。在6个细胞系和5种不同的生物信号环境中进行了1500多个个体扰动。通过CaRPool-seq,该实验室结合了CRISPR和单细胞基因组学技术,大规模并行测量高通量遗传扰动下的细胞反应,这些扰动可能涉及单个基因或多个基因。
规模将继续扩大,成本可能会继续下降。Trapnell说,这有助于scRNA测序可以用比过去更少的材料和更广泛的组织进行。他说,一个人可以做“以前禁止做的事情”。Trapnell说,在scRNA测序工作中,最让人困惑的是研究设计。对于科学家来说,做他们想做的研究太昂贵了,所以他们做了一个不同的实验。他说:“我认为,未来几年真正会发生变化的是,现在人们将能够做他们想做的研究。”,这将为许多实验室提供真正的支持。
参考文献
[1] Marx V. scRNA-seq: oh, the joys. Nat Methods. Published online April 23, 2024. doi:10.1038/s41592-024-02263-0
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 02:11
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社