在如今这个经受着大数据洗礼的时代下,弄清楚如何以低成本方式存储数据已经成为愈发重要的核心议题。其中最奇特的方案也许就是最佳答案所在:在DNA分子中存储信息。
目前流行的长效冷存储方法可以追溯到上世纪五十年代,当时人们会把数据写入至披萨饼大小的磁带卷上。相比之下,DNA存储可能成本更低、能效更高、持久性更强。研究表明,用盐封存的DNA在室温环境下可以稳定保存几十年,如果在数据中心的受控环境内应该可以存放更长时间。另外,DNA本身不需要维护、存储DNA内的文件易于复制,而且存储成本几乎可以忽略不计。
更妙的是,DNA能够在几乎不可思议的袖珍空间内存储惊人的信息量。我们先来展望这样的未来:到2025年,人类估计将掌握33泽字节数据——即33后面加上21个0。DNA存储能够在一个乒乓球的体积下存储全部这些信息,甚至还有不少富余空间。美国国会图书馆中一共7400万字节的信息完全可以塞进一粒小小的芝麻中,即乒乓球体积的六千分之一。而只需要半颗芝麻,就能存储Facebook上的所有数据。
听起来很科幻?并不会。DNA存储技术当下已经存在,但要真正全面推行,研究人员还需要克服技术整合中的种种艰难阻碍。要完成这项意义重大的工作,洛斯阿拉莫斯国家实验室的团队开发出一种用于分子存储的关键技术,配套软件能够使用自适应DNA存储规范(ADS Codex)将数据文件由计算机中的二进制形式转译为具有生物学意义的四字母代码。
ADS Codex也是情报高级研究计划署(IARPA)分子信息存储(MIST)项目的关键组成部分。MIST希望为政府及各私营部门的大数据操作提供成本更低、规模更大、持久性更强的存储解决方案,目前的短期发展目标是在24小时内实现写入1 TB(1万亿字节)、读取10 TB数据的性能,并且将成本控制在1000美元。
从计算机代码到因素代码
提起DNA,大多数人想到的首先是生命的蓝图——跟计算机扯不上半点关系。但DNA本身其实就是一条四字母编码,用于传递关于生物体的各项信息。DNA分子由四种碱基或者核苷酸组成,每一种用一个字母标记,分别为:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)与胞嘧啶(C)。这些是所有DNA编码的基础,指引着地球上一切生物的繁衍生长。
DNA合成已经是一项相当成熟的技术,目前被广泛应用于医学、制药、生物燃料开发等领域。这项技术的实质,就是将碱基组织为由A、C、G、T的特定序列所指示的不同排列。这些碱基以相互缠绕的扭曲链(即双螺旋)结构形成分子。而字母本身的序列也由此建立起编码系统,可用于指导生物体的生长发育。
完整的DNA分子集将构成基因组,也就是肌体生长的蓝图。而通过从零开始合成DNA分子,研究人员发现他们可以指定编写出由字母A、C、G、T组成的长串,并随时读取序列信息。整个流程类似于计算机中的二进制信息存储方式,只是这一次我们需要将二进制计算机文件编码为四字母生物分子的形式。
这种方法已经被证实有效,但目前对DNA编码文件的读取与写入都需要很长时间。向DNA中添加单一碱基大约需要一秒钟,以这样的速度编写归档文件可能需要几十年时间。但研究人员正在开发速度更快的方法,包括一次性写入多个分子并进行大规模并发操作。
转译过程没有任何数据损失
ADS Codex准确说明了如何将0和1转录为A、C、G、T四个字母的组合序列。Codex还能将此序列解码回二进制形式。DNA可以通过多种方法合成,而ADS Codex则将这些合成方法进行了规范整理。
遗憾的是,与传统数字系统相比,使用DNA合成进行分子写入时的错误率非常高。这些错误的来源与数字写入完全不同,因此更难以纠正。在数字硬盘上,将0误写为1即代表错误,反之亦然。但对于DNA,问题主要来自插入与删除错误。例如,我们可能希望写入A-C-G-T,但实际上A没能正常写入,于是整个字母序列向左移动,变成了C-G-T。当然,也有可能一次写入,直接形成了A-A-A。
常规的纠错码无法很好地解决这类问题,因此ADS Codex添加了验证数据的错误检测码。当软件将数据转换回十进制时,会同时进行测试以查看代码是否匹配。如果不匹配,则会删除或添加碱基(字母)直到验证成功。
前景可期
目前已经完成了ADS Codex的1.0版本,今年年底计划用它来评估其他MIST团队开发的存储与检索系统。这项工作也高度契合洛斯阿拉莫斯国家实验室在计算领域不断开拓的历史使命与探索精神。自上世纪四十年代以来,我们一直钻研计算技术并积累下一批历史最悠久、规模最庞大的纯数字数据资产。时至今日,这些资产仍然具有可观的价值。我们将永远保存这些数据,希望为其找到最理想的冷存储解决方案。
最终,每位用户的数码照片与推文,全球金融部门的所有记录,关于农业、设施、冰川融化等的卫星图像,现代科学背后的一切模拟体系等数据终将有所归处。如今大家所熟悉的“云”并非高悬天外,而是一座座巨大的数据中心,需要消耗大量电力才能存储这数以万亿计的字节。这些数据中心的建设、供电与运行成本高达数十亿美元,而随着对数据存储需求量的指数级增长,我们恐怕很难无限制地支撑这样的基础设施规模。
DNA也许正是数据存储的终极解决方案。诚然,这项技术需要新的工具与新的使用方法,但如果真有一天全球最具价值的信息已经能够存储在小小一颗“芝麻”当中,也请大家千万不要过分惊讶。
好文章,需要你的鼓励