崇尚科学, 也有点迷信分享 http://blog.sciencenet.cn/u/gaojianguo

博文

请给我打包1千克DNA数据

已有 6722 次阅读 2021-7-6 14:33 |系统分类:科普集锦

博主按: 本文已发布在微信公众号“CutScience” (名称: Cutting Edge Science, 尖端科学),欢迎大家关注(https://mp.weixin.qq.com/s/-5vD7ekIoVQ-3158dOSjSA)“CutScience”主要介绍尖端科学或最前沿研究发现;关注尖端科学微信公众号可带你抵达人类认知的边界,了解到最重要、最有趣以及专家视角解读的科学. “CutScience”由高建国博士运维,限于时间精力,不定期更新.


想象一个场景,公元2120年,你打算移民火星,你当然不希望不带走一片云彩,相反,你想带走人类过去几千年以来取得的所有文明成果,这其中包括海量的高清电影、文献资料和全部的百科全书。但这些以ZB单位的数据量是如此之大,以至于你不可能装进任何固态硬盘一种100年前较为流行存储设施。事实上,在未来,你可能只需要1千克(kg)DNA就能打包带走整个人类文明了。

 

图1. Image, iStock.jpg

1. 未来存储介质—DNA双链. Credit: iStock.


以上场景正在逐步变成现实。但,目前的状况依然比较骨感,储存1Mb的数据到DNA中需要花费3500美元,因此一个200 Mb的短视频存储费则要花费70万美元,估计世界上找不到哪个人愿意花这个价钱存这么点数据的。但如果哪一天DNA数据存储变得像现在移动硬盘这么便宜的时候,估计大家会毫不犹豫地选择DNA数据储存。2017年的一个研究显示,储存215PB的数据仅需要1(g)DNA,为高密度海量数据储存提供了可能。虽然只有1克的DNA,重量看着有点微不足道,但如果你了解在生物学领域衡量基因组(genome size)的大小使用的重量单位通常是皮克(pg, 10-12g),而一个人30亿个碱基对(base-pair)平均重量仅为6.46pg(男性基因组重6.41pg,而女性基因组重6.51pg,主要由于男性性染色体Y比女性性染色体X要小),就不会觉得那个数量级微不足道了。如果一个人仅提供一个基因组,那么1kgDNA则相当于1.55×1017个人,是目前地球77亿总人口的2千万倍。

     

DNA数据存储价格降下来的时候,人类或能从数据储存的烦恼中解脱。那么,DNA介质储存相比于传统介质(基于硅芯片)除了高密度的数据储存功能之外还有哪些优点呢?笔者将从以下三个方面展示DNA数据存储的广阔前景。

      

一是DNA数据存储绿色环保无污染。当前人们为了储存大量的数据,需要开采硅矿、铁矿和建立化工厂,造成了巨大的土壤、水体与空气污染。如果通过DNA来存储,情况会大大改观。DNA几乎是所有生物有机体的遗传物质,它本身就是大自然的产物。DNA是由脱氧核苷酸组成的大分子聚合物,包括碱基、脱氧核糖和磷酸,四种碱基分别为腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C),这些材料易受微生物活动的影响,是一种相对容易降解的生物大分子(1)。但如果保存得当,如在干旱和低温的环境下,DNA则能保持相对稳定的结构。

     

二是DNA数据存储时间非常久远。刚才提到,DNA保存在干燥和低温的环境是能保存很长时间的,这是古人类学家进行古人类DNA提取和数据分析的前提。事实上,DNA虽然易受环境(如土壤)微生物活动的影响,但由于DNA不是微生物的食物来源(它们更青睐脂类和糖类),因此,对于即使裸露的DNA若保存条件得当,有时甚至也可以保存数千万年。如,美国学者Golenberg等发现17-20个百万年前的木兰属(Magnolia)叶化石就保存着叶绿体的DNA片段。类似地,瑞典自然历史博物馆的古植物学家Bomfleur等发现一种1.8亿年前的蕨类植物与现存的绒紫萁(Claytosmunda claytoniana)在细胞核和染色体特征方面高度相似,证实蕨类植物存在演化静止(evolutionary stasis)现象。而如果保存在琥珀中的话,DNA保存的时间会更久,如科学家就从距今1.21.35亿年的黎巴嫩湖泊中成功分离出了象鼻虫的DNA片段,并用于系统关系的研究。相比较而言,基于硅介质的储存设备往往最多只能保存10-30年,而磁带存储时间最长也不超过50年。

 

图2. @How DNA could store all the world’s data.jpg

2. 各种数据存储设备与DNA存储方式在读写速度、保存时长、耗电量和数据密度等方面的比较. Credit: Nature.


三是DNA数据存储能够节约大量能源。多个世界知名企业,如苹果、华为和腾讯为何要把数据中心建在贵州?主要是因为数据存储设备的运行需要消耗大量的电力资源,而贵州拥有高海拔、低气温和低电价的优势。与硅晶芯片存储设备形成鲜明对比的是,DNA存储基本上是不耗电的(2),只要把它简单的干燥冷藏,理论上保存上千万年都没问题。

      

高速发展的人类社会每年都会产生大量的数据,且产生的数据量是逐年递增的。据估测,2020年全人类将会产生40ZB (ZiB; 1ZB大约等于1百万TB)的数据,这是什么概念呢?如果把这些数据都装在4 TB硬盘的话,则需要1千万个这样的硬盘。而在5年后,这个数量生产量可能超过180ZB,人类生产存储设备的速度已经赶不上产生数据的速度了,照此下去,总有一天数据存储会成为人类社会进一步发展的瓶颈。DNA数据存储由于具有数据密度高、存储时间久和几乎不消耗能源被人们列为未来数据存储方式的首选(2)。根据计算机第一定律摩尔定律(Moore's Law)当价格不变时,每隔18-24个月电子设备存储便会增加一倍,性能也将提升一倍,这虽然不一定适用于DNA数据存储的规律,但根据人类以往在其它任何技术进步取得的经验表明,DNA数据存储在未来只会更快地走进我们的生活。

    

参考文献(仅列出部分关键的):

  

Akram, F., Haq, I. ul, Ali, H., & Laghari, A. T. (2018). Trends to store digital data in DNA: an overview. Molecular Biology Reports, 45(5), 1479–1490. https://doi.org/10.1007/s11033-018-4280-y


Bomfleur, B., McLoughlin, S., & Vajda, V. (2014). Fossilized Nuclei and Chromosomes Reveal 180 Million Years of Genomic Stasis in Royal Ferns. Science, 343(6177), 1376–1377. https://doi.org/10.1126/science.1249884


Ceze, L., Nivala, J., & Strauss, K. (2019). Molecular digital data storage using DNA. Nature Reviews Genetics, 20(8), 456–466. https://doi.org/10.1038/s41576-019-0125-3


Choi, Y., Ryu, T., Lee, A. C., Choi, H., Lee, H., Park, J., et al. (2019). High information capacity DNA-based data storage with augmented encoding characters using degenerate bases. Scientific Reports, 9(1), 6582. https://doi.org/10.1038/s41598-019-43105-w


Church, G. M., Gao, Y., & Kosuri, S. (2012). Next-Generation Digital Information Storage in DNA. Science, 337(6102), 1628–1628. https://doi.org/10.1126/science.1226355


Dong, Y., Sun, F., Ping, Z., Ouyang, Q., & Qian, L. (2020). DNA storage: research landscape and future prospects. National Science Review. https://doi.org/10.1093/nsr/nwaa007


Erlich, Y., & Zielinski, D. (2017). DNA Fountain enables a robust and efficient storage architecture. Science, 355(6328), 950–954. https://doi.org/10.1126/science.aaj2038


Extance, A. (2016). How DNA could store all the world’s data. Nature, 537(7618), 22–24. https://doi.org/10.1038/537022a


Farzadfard, F. (2020). DNA storage in everyday objects. Nature Biotechnology, 38(1), 31–32. https://doi.org/10.1038/s41587-019-0376-8


Greshko, M. (2020). Hints of fossil DNA discovered in dinosaur skull. National Geographic. Retrieved from https://www.nationalgeographic.com/science/2020/03/hints-of-dna-discovered-in-a-dinosaur-fossil/


Koch, J., Gantenbein, S., Masania, K., Stark, W. J., Erlich, Y., & Grass, R. N. (2020). A DNA-of-things storage architecture to create materials with embedded memory. Nature Biotechnology, 38(1), 39–43. https://doi.org/10.1038/s41587-019-0356-z


Orlando, L., Ginolhac, A., Zhang, G., Froese, D., Albrechtsen, A., Stiller, M., et al. (2013). Recalibrating Equus evolution using the genome sequence of an early Middle Pleistocene horse. Nature, 499(7456), 74–78. https://doi.org/10.1038/nature12323


Panda, D., Molla, K. A., Baig, M. J., Swain, A., Behera, D., & Dash, M. (2018). DNA as a digital information storage device: hope or hype? 3 Biotech, 8(5), 239. https://doi.org/10.1007/s13205-018-1246-7


Piovesan, A., Pelleri, M. C., Antonaros, F., Strippoli, P., Caracausi, M., & Vitale, L. (2019). On the length, weight and GC content of the human genome. BMC Research Notes, 12(1), 106. https://doi.org/10.1186/s13104-019-4137-z


Price, M. (2019). Ancient human species made ‘last stand’ 100,000 years ago on Indonesian island. Science. https://doi.org/10.1126/science.aba6306


Service, R. (2017). DNA could store all of the world’s data in one room. Science. https://doi.org/10.1126/science.aal0852


Takahashi, C. N., Nguyen, B. H., Strauss, K., & Ceze, L. (2019). Demonstration of End-to-End Automation of DNA Data Storage. Scientific Reports, 9(1), 4998. https://doi.org/10.1038/s41598-019-41228-8


Zhang, Y. (1998). The Evolution of Biology (First Edit). Beijing: Peking University Press.


Zhirnov, V., Zadegan, R. M., Sandhu, G. S., Church, G. M., & Hughes, W. L. (2016). Nucleic acid memory. Nature Materials, 15(4), 366–370. https://doi.org/10.1038/nmat4594

  

© CutScience

  

使用微信搜索“CutScience”,或扫码关注:

尖端科学-5_副本.jpg



https://blog.sciencenet.cn/blog-260340-1294317.html

上一篇:重温达尔文的“讨厌之谜”
收藏 IP: 223.167.21.*| 热度|

16 焦飞 鲍海飞 郑永军 杨正瓴 李学宽 冯圣中 杜占池 王启云 曾杰 魏焱明 刘炜 李宏翰 朱晓刚 刘秀梅 张劲松 宁利中

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 15:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部