|
近日,我担任第一兼通讯作者的文章在Nature Communications上线(https://www.nature.com/articles/s41467-024-46241-8),这篇工作是笔者在没有科研资助的情况下完成的,在这里分享一些经验和思考。
实验的家伙事
在做这个工作之前,笔者的主业是合成生物学与分子生物学,见我之前的博文《质粒拷贝数以及启动子活性的定量测量》。在研究过程中有一些发现,也积累了几个点子和想法。然而这些想法无一实现,主要问题是没有钱和资源来继续进行研究。分子生物学实验的开销还是比较大的,像美国的R01基金(很难申请)现在基本也只够养一个实验方向的博后。
在没有经费的情况下做研究,理论/计算方向是最好的选择,有一台电脑就可以了。我这篇工作最开始用的家伙事是我的老电脑,大概是在2019年左右配置的,有一张Geforce 1060的显卡,6G显存。这台电脑本来是个人娱乐用的,不过做一些小的神经网络是足够的。在课题开始的时候做神经网络的设计和调试,训练一次要一两个小时左右。后期由于计算量太大我转到了云平台(谷歌),云平台的A100显卡价格是$3每小时,但如果租spot instance的话最便宜到$1每小时,这个价格还是个人可以承受的,至少比我的每小时工资低得多。Spot instance的唯一问题是随时可能被云平台关掉(这也是它为什么这么便宜),不过由于我一般开着服务器干活所以掉线了可以第一时间发现并重启。
这篇文章在revision的时候,我的装备又升级了,自费购入了一台新的组装台式机,装备Gefore 3090Ti显卡,24G显存。这条电脑的价格是$2000左右,可以说在除显卡和cpu之外的配件都做到极致的节约。有十余年装机经验的我,第一时间竟然没有认出它主板的品牌。在网上搜索也才发现是来自alibaba的一个大约$50-60的杂牌,真是难为它小马拉大车了。这个主板配置上写着最多支持32G内存,实际上我的电脑装了64G的杂牌内存,竟然也能正常工作。便宜的另外一个问题是电源太差了,我看也是$50左右的杂牌。在持续24h工作一个月左右的时候电源直接报销,又花钱换了一个海盗旗的电源。这台电脑也是我目前干活的主力。3090显卡在神经网络训练速度上其实没有比A100差太多,或者说比起价格的差距,性能的差距要小的多。
课题设计
由于装备的限制,肯定不能做大模型了,只能做中等尺度或者小尺度的神经网络模型。这种情况下课题需要斟酌一番。我做的题目是测序数据的标准化问题,也承接了我上一个课题,即合成生物学的标准化问题。具体的测序数据来自于核糖体印记技术(ribosome profiling),说的细节一点,该技术是对核糖体保护的mRNA片段进行深度测序,从理论上可以计算出核糖体在每个三联密码子处的停留时间,实现对所有基因翻译延伸速率的单密码子精度的测量。
之所以选择做ribosome profiling的数据,有三个理由:一是身边有人做过这个技术,合作者中的张静博士是这方面的专家,我从她处了解到很多实验上的流程和数据处理的基本知识。二是该技术理论上精度很高,是一种单密码子精度和全基因组测序的技术。这点跟传统的RNA-seq不一样,因为传统RNA-seq的测序片段太大了,ribosome profiling测的是保护片段,只有20-30nt长。三是该技术受实验流程影响很严重,实验细节微小的差别可以导致测量核糖体分布的很大不同。在真核领域有大量的文献探讨这一现象,比如翻译抑制剂的影响。原核领域我的合作者Allen有一篇很经典的文章,探讨原核领域实验流程的优化问题,并提出一种优化的实验手段。Allen的文章也是我工作的一个重要起点,因为他发现大家大量使用的来自Weissman实验室的针对原核生物的实验流程会导致特定的实验偏差。而我们提出的神经网络就是为了矫正这一偏差。
从神经网络设计上,我们设计的输入是mRNA序列和带有偏差的核糖体分布,输出的是矫正后的核糖体分布。这样的设计也可以帮助我们去做一些预测性质的工作,另外一个应用是探讨哪些序列影响了实验组和对照组之间核糖体分布的差别,这点在疾病过程中很重要。我们的出发点是生物过程是一个动态过程,DNA序列是静态的而单一的DNA序列应该对应很多种不同的核糖体分布。
总账
如果不算新老电脑的话,这篇文章的所有计算开销在$1000-2000左右,比起实验工作应该是小的多了,也是个人能负担的限度。最近我有一篇利用大语言模型进行基因组建模和设计的工作《A long-context language model for deciphering and generating bacteriophage genomes》,这篇工作的开销算上新电脑,就要达到$3000左右了。我认为仍然是比较划算的。因为最近有一篇跟我们很类似的工作,他们开发的模型叫做Evo,文章全名是《Sequence modeling and design from molecular to genome scale with Evo》,计算中调用了64台H100和128台A100,我保守估算他们的计算开销至少在20万美元以上。
最后还是要感谢我的合作者们,包括美国斯坦福大学闫嘉伟博士,波士顿大学张静博士,深圳先进技术研究院刘莉莉博士与陈业研究员,美国约翰霍普金斯大学Allen R. Buskirk 研究员。尤其要感谢陈业研究员与Allen R. Buskirk 研究员,没有他们的大力支持这篇文章不可能问世。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 09:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社