• 首页 > 数据存储频道 > 数据.存储频道 > 存储资讯

    基因组数据太多了,存储怎么办?

    2022年08月15日 16:39:50   来源:Ai芯天下

      前言:

      DNA存储了恐龙的生物信息,科技让它重新表达。DNA存储或许也可以像我们如今用的移动硬盘一样进行现场即时存储。

      DNA存储技术将有望成为下一代信息存储技术。

      DNA数据保存面临“大”问题

      在大自然里,DNA负责存储遗传信息。

      单个人体细胞的平均直径是5到200微米,这其中的DNA可以包含一个人全部的遗传信息:30亿对碱基。

      大规模的基因组测序正在进行,随之产生的数据规模快速增长。

      存储、压缩这些数据是个麻烦事,现有的技术方案看起来不太行。

      据估计:人类基因组需要高达2-40EB的存储容量。

      这可能超过一个世界级科技公司的云存储量,全世界苹果用户存储在谷歌云上的数据总量大约是8EB。

      这8EB数据,每月存储费需要2.18亿美元。

      DNA存储原理其实很难理解

      DNA由腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)4个碱基构成双螺旋结构,可以保存生物体的遗传信息。

      DNA存储遗传信息的原理并不复杂,它由四种核苷酸A、T、G、C组成,彼此两两对应,组成双螺旋结构。

      在数字世界,所有的信息本质上是0和1组成的数据串。

      想要DNA存储数字信息,简单理解,原就是将0和1的编码序列转换成核苷酸的序列。

      DNA存储的优势在于密度大,大约在你眼前逗号这么大小,1立方毫米的DNA,就可以容纳9TB(1TB=1024GB)的信息。

      在自然界存在的DNA中,A和T,C与G两两配对,在一条DNA中,CG与AT的存在比例基本均匀,为50%左右。

      也就是说,虽然DNA的存储能力很强,但它们不得不以很多条短链的方式存在。

      难以突破的结构性障碍

      虽然DNA存储具有较为明显突出的优势,政策、资本等也在全方位的支持,应用的前景广阔,但商业化的进展仍然十分缓慢。

      其最大屏障来自于其存储技术本身。

      DNA存储数据的过程主要分为五个步骤:

      ①编码——将数字信息编码为DNA序列;

      ②合成——将序列融入实际的DNA分子;

      ③存储——将合成的DNA片段保存在载体或细胞中;

      ④访问——检索和选择性读取序列信息;

      ⑤解码——将测定的序列信息转换回数字信息。

      在整个存储的过程中,编码与合成是DNA存储中较为关键和困难的环节。

      总的来说,DNA存储的各个环节都有较多的难关需要克服,DNA存储真正意义上的走入商业市场。

      DNA存储试图走向商业化道路

      2020年微软、西部数据和基因测序巨头Illumina、DNA合成初创公司TwistBioscience等联合成立了DNA数据存储联盟。

      这是世界上第一个该领域的学术和产业链联盟,这个联盟希望制定技术和格式标准,最终建立一个可以通用的商业系统。

      微软研究院在2015年就成立了DNA存储的项目,2021年微软开发出首个纳米级DNA存储器,能够在每个平方厘米的区域上,同时合成25X106(2650)条碱基序列。

      这个新的技术把原来同时合成碱基序列的数字从个位提升到了千位。这个吞吐量,让DNA合成速度变成了每秒兆字节(MB)。

      进一步发展成为主流的存储设备,还需要长时间的沉淀,才能让DNA存储技术有实质的进阶。

      DNA存储在AI技术的加持下,其编码的环节效率也获得了极大地提升。

      未来随着纳米技术与AI技术的加持,DNA存储的技术也会一步步解除智识的限制禁锢,逐步升级,为存储领域带来质的飞跃。

      DNA存储的四大优势

      相比于目前我们常用的存储介质,如U盘、光盘、硬盘等,DNA存储具有一系列优势。

      ①存储密度高。每立方厘米的DNA分子可以存储大约1EB的信息,这一密度是当前存储密度最高的介质(闪存)的1000倍,是硬盘数据存储密度的百万倍。

      ②保存寿命长。从理论上来说,DNA数据在没有特别人工干预的情况下至少能保存千年之久。

      ③维护成本低。存储在DNA的数据,理论上来说通过低温冷冻或者固态封存的手段,可以长时间存储且几乎不需要维护。

      ④DNA存储所需要的占地也远小于传统存储介质,并且还具备数据易复制、易携带、能在生物体内存储等特点。

      现阶段至少需要解决的三大问题

      ①读写速度太慢:以目前的技术在合成DNA时,每添加一个碱基大约需要0.1秒钟时间。保存一首高音质的MP3歌曲都需要差不多1个月时间。

      ②成本太高:目前合成2MB的DNA数据需要7000美元,读取数据需要2000美元,如果以DNA形式存储1GB大小的电影,编码大约需要花费358万美元。

      ③合成DNA的稳定性:合成DNA过程中产生的错误率对于要求确保100%真实性和完整性的数据存储指标而言是致命的问题。

      结尾:

      但这项技术目前远未成熟,或许离真正商用还需要20年,甚至更长。

      或许有可能过程中碰到一个难以突破的技术瓶颈导致中途夭折;或许过程中出现另外一项更具革命性的存储技术,比如量子存储,形成降维打击。

      部分资料参考:极客公园:《你身体里的DNA,能存下整个宇宙的数据》,脑极体:《存储新图谱:DNA存储的边界与天地》

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    华为Pura70 系列不怕丢!云空间实现楼层级设备查找

    华为 Pura70 系列突然先锋开售,你抢到了吗?对于这次的新机来说,除了一如既往的优雅设计和强悍的硬件配置外,我们更为关注的则是其全球首发的「楼层级设备查找」功能,软实力也可以很硬核!

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。