||
又一项革命性突破诞生!《科学》杂志于2017年3月3日刊登了来自纽约基因组中心(New York Genome Center,NYGC)和哥伦比亚大学(Columbia University)的 最新研究成果,一项即可靠又高效的DNA存储策略- 被称作“DNA喷泉(DNA Fountain)”算法。利用这种的新编码技术,研究人员可以最大化 DNA 分子的数据存储能力,使其接近核酸的理论信息存储量。该研究推动了DNA数据存储的极限,令人兴奋。研究论文标题为“DNA Fountain enables a robust and efficient storage architecture”,链接如下:DOI: 10.1126/science.aaj2038。
图1 研究人员(论文作者)Yaniv Erlich(论文通讯作者、哥伦比亚大学计算机科学家、哥伦比亚数据科学研究所成员、NYGC核心成员)和Dina Zielinski(NYGC副研究员)展示了一种新颖的编码技术,能够最大化DNA分子的数据存储能力。
1. “黑科技”的背后是什么?
脱氧核糖核酸分子,即DNA分子,高度紧凑,具有提供大容量信息存储的能力,是一种具有巨大潜力的数字信息存储介质。然而,当前的技术只能利用其理论最大存储能力的一小部分。
图2 DNA双链分子的形象说明。来自《大英百科全书》。
研究人员Erlich和Zielinshi则开发了一项新的存储策略/算法(“DNA喷泉”技术,如图3所示),用于编码和解码数据,将存储在单个核酸分子的信息接近理论最大值。他们选择6份文件,其中包括一个大小为1.4MB的完整计算机操作系统,一部1895年的法国电影《Arrival of a train at La Ciotat》,一份价值50美元的亚马逊礼品卡,一个计算机病毒,一份先驱者徽章(Pioneer plaque)图片文件和1948年信息学家Claude Shannon的一项研究文件。
图3 “DNA喷泉“编码技术。左图:3个主要的算法步骤。右图:32位的一个小文件实例。简单起见,这个文件被分成8个区,每个区占4个位。图中这些“种子”以2-比特的数字呈现,仅作示范。
他们首先将文件压缩成一个主文件,然后将数据拆分为由1和0组成的二进制双编码的短字符串。他们设计了一种容错算法--DNA喷泉码,将这些字符串随机地封装成所谓的“液滴”,并将每个小滴中的1和0映射到DNA中的四个核苷酸碱基(A,G,C和T)中。该算法会自行删除易产生错误的字母组合,同时后每个液滴添加了额外的标签,以便于以后(指解码时)以正确的顺序重组这些文件。
最终,研究人员创建了含72000个DNA链的数字列表,每个DNA长度为200个碱基。他们以文本文件的形式把这些信息发送给了一家位于旧金山的擅长将数字信号转换成生物信号的DNA合成初创公司(Twist Bioscience),在那里这些文本被合成了DNA链。两周后,Erlich和 Zielinski 收到一个小玻璃瓶,里面装着编码了他们文件的DNA 产品。
为了解码/读取这些文件,他们首先使用二代DNA测序技术检测DNA链,然后运用特殊软件将这些遗传密码翻译回二进制码,并使用标签重组了六个原始文件。根据《科学》上发表的文章,这种方法效果很好,新的文件全部被零差错地恢复。他们还能够通过聚合酶链式反应技术(PCR,一种标准的DNA复制技术)复制几乎无限数量的无错误文件,甚至这些复制品的复制品也可以做到零差错。可见,这项技术也极为可靠。
这项编码技术可以将215PB(petabytes)的数据打包进仅一克的DNA分子中,也即能够为每个核苷酸编码1.6比特(bits)的数据,比之前存储了至少60%多的信息,逼近理论极限(1.8比特)。这个存储容量比以前由哈佛大学George Church和欧洲生物信息研究所的Nick Goldman和Ewan Birney的方法高出100倍。Erlich说,他们认为,这可以算是史上密度最高的数据存储设备了。
215PB到底有多大?简单来说,1PB=1024TB, 而1TB=1024GB。目前,市面上常规的电脑硬盘不过2TB的容量 - 按照高清电影每部10GB的大小,215PB能够存储2.2亿部电影!
《科学》杂志的编辑称赞道:“这项技术不但能将包括完整电脑操作系统在内的数字信息有效编码进DNA,又能将存储于DNA中的信息经过多轮PCR(聚合酶链式反应)后批量提取出来,他们实现了有效的、强大的信息编译”。
2. DNA存储技术经历过哪些发展?
科学家开始使用DNA存储数字数据,要追溯到2012年。当时哈佛大学的遗传学家George Church,Sri Kosuri和其他同事使用 DNA 的四种碱基 A、G、T和C来编码数字化文件的0和1,把一本52000字的书编码到数千个DNA片段中。然而,他们的编码方案相对低效,每克DNA仅能存储1.28PB。后来也有一些方法做得更好,但没有一个能够存储超过研究人员对DNA存储能力的预测值(每个DNA 核苷酸约1.8比特)一半的存储量。(研究人员认为每个DNA 核苷酸可以存储约1.8比特,而不是2比特,是考虑到DNA写入和读取中罕见但不可避免的错误)。
由于多年来,科学家已经推理并且证明DNA可以用作数据存储介质,并且它具有理想存储介质的显著特征。因而,本研究的价值更多地体现在,设法在DNA当中存储比以往任何时候更多的数据 - 并且证明它可以被复制和检索几乎无限多次,具有零错误。
3. DNA存储技术有什么优点?
采用DNA存储数字信息具有许多优势,主要体现在两个方面:
1. 存储能力强,容量大。通过使用流式传输和在线压缩视频的数据技术,研究人员能够将1.6位数据包装到每个核苷酸中,接近理论极限的1.8。这听起来不是很多,但科学家证明他们可以有效地在一克DNA当中存储215PB数据。
2. 存储时间久,可靠性高。DNA是超小型且高度紧凑,如果保存在阴凉、干燥的地方,它可以保存几十万年不损坏。最近,这已经被西班牙一项关于43万年前人类祖先的骨骼DNA的研究所证明。只要人类文明的技术确保我们还可以阅读和编写DNA,就能够对其进行读取和解码。也就是说,几乎可以实现永久保存。“DNA不会像盒式磁带和CD光盘那样随着时间的推移而衰减,它也不会过期。” Yaniv Erlich教授说。也不像其他高密度的存储方式,比如操纵表面上的个别原子,这项新技术可以一次写入和读取大量的DNA,且可以放大。
4. 走向大众?还没有那么快
除了技术本身发展外,限制其存储的最主要几个因素如下:
1. 首先是成本太高。研究人员将2兆字节(MB)的数据写入到DNA中花费了7000美元,然后读取这些数据又花了2000美元。Erlich也表示,新的方法现在还不具备大规模使用的条件。
2. 其次,存储与读取的速度太慢。与其他形式的数据存储相比,将数据写入DNA 以及读取其中的数据都相对较慢。因此,这种方法就不适合即时处理数据,而更适合应用于档案管理。
5. 互联网时代的刚需
人类在过去2年中产生的数据比之前人类历史产生的全部数据还要多。信息时代下,爆炸的信息和数据如洪流般袭来,这可能很快就会超过硬盘和磁盘为主的存储设备的承受力。而如何找到既能存储大量数据,又可靠且不会占据大量的资源,仍然是计算机工程师的一个难题。然而,答案可能来自自然界----即生物DNA存储。就像本研究能够在一克DNA中存储215PB(2.15亿GB),原则上可以将人类记录的每一点数据存储在几个卡车大小和重量的容器中。从长远的角度,DNA存储技术必然有着广阔的应用前景。
尽管DNA存储很可靠,且效率高,存储能力强,但目前仍面临着成本问题。使用这种技术存储和检索仅仅几兆字节的数据仍需要数千美元,因此我们不太可能在任何设备上看到DNA存储。如今的产业需求和技术发展,已经使得DNA测序的成本呈指数下降。然而对于DNA合成,目前未必有这么大的需求,导致产业成本仍然巨大。比如,加州大学洛杉矶分校(UCLA)的生物化学家Sri Kosuri就认为,投资者不会花费巨资来降低成本。
然而,像谷歌和微软那样必须处理不可想象的数据量的公司来说,DNA存储在经济上其实是可行的。这些互联网巨头们每一秒种都在运行着巨量的云计算- 举例来说,Google搜索引擎天要运行30亿次搜索查询!这对于现有的服务器系统无疑是一个挑战。随着电商平台,直播平台,大数据处理等互联网商业的发展,对高效存储设备的需求将会越来越大- 而DNA存储技术将极大地激发未来互联网时代的潜能!随着时间推移,更多研究工作取得突破,成本可能会下降 - 但这样的研究仍有很长的路要走, 我们期待这一天早日到来!
参考资料
https://www.sciencedaily.com/releases/2017/03/170302143947.htm
Yaniv Erlich, Dina Zielinski. DNA Fountain enables a robust and efficient storage architecture. Science, 2017; 355 (6328): 950 DOI: 10.1126/science.aaj2038
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 00:24
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社