10EB量级的基因大数据处理技术

这是一个很大的挑战,我们还是比较关心基因组的大小的。同时基因组里还有很多有趣的东西,AP+ALE 以后也很有趣,有时候测出来你不知道在哪里,没有证据表明一定要放在一个地方。

举个例子,如果要把世界上所有的DNA收集起来有多重,它大概有500亿吨的重量,如果要把它装在集装箱里其实需要十亿个集装箱,把500亿吨的DNA处理一遍的话需要10的21次方超级计算机,这其实是一个天文数字,大家很难想象,如果我们要建这么大的模型应该怎么处理。

我们再来看看医学方面,我们到医院拍一张3D核磁共振体大概需要150兆的空间,如果是3D的CT,一个结果就是一个G,当然胸透的数据和X光透视的数据相对小一点。

我们做一个统计,如果把三甲院士抽选,在美国相对还行的医院做一个统计一年大概有3600万个病人到医院看病,这些病人每年在医院里产生的数据大概是600个TB,而且这些数据还特别复杂。

有照片的数据、有病例的数据,甚至有时间纬度的数据,这些数据还是挺复杂,80%的数据其实是非结构化的,每个医院里面的数据在每年以20%-40%的增长率增长,这个数据一点都不比基因组数据小,如果有刚才说的精准模型的话,它表明了你基因和外界环境相互作用的结果是什么,所以你一定要把这个参数考虑进去,这些数据也是整合到这个模型里做计算的。

我们大概能知道我们现在通过传感器,记录也好、监控也好身体上的这部分数据,比如身体的坐姿、消化情况、呼吸的情况,还有心脏监护,这些数据目前都有很好的监护,这些数据也是需要整合到精准医学的系统里面。

最后一个是社交/婚姻基因,美国的一个测试,找了一堆很好的朋友测他们的基因,发现好朋友之间1%之间的基因相像,但是古代有酒肉朋友和异性相吸这样的成语,有跟喝酒有关的基因,这个基因越强你可能越喜欢酗酒,酒肉朋友这个词就可以通过这个基因来体现,还有跟荷尔蒙、情感有关的。甚至有科学家发现婚姻也与基因有关系,这个基因越向下这两个人越倾向于在一起。

如果把所有数据整合起来,如果把一个人一生健康相关的数据整合一起需要多大,基因需要一个DB,转录组是0.7TB,表观组是2TB,宏观基因组是3TB。如果要做一百万人的数据大概需要10EB,像阿里,百度数据量级也差不多是这个级别了。但是做这样一个项目需要这么大的存储空间。

为什么要做精准医学

就是希望自己活的更长,理论上讲每个人如果生活的条件非常平稳、非常好的话,本身基因没有什么缺陷,每个人大概能活150岁,这是在理想条件下面。但实际情况并不是这样,有15%的家庭是有不孕不育的问题,在出生的婴儿里大概5.6%有出生缺陷,有出生缺陷的婴儿其实是活不了太长的,大概活到二十岁左右。

对于青年们来说还有很重要的疾病会影响他的健康状况,比如说代谢病、癌症、传染病,对于二十岁到五十岁之间的青年人这些疾病是他们主要疾病的威胁。对于中年人,他们的代谢病大概有30%的患病率,心血管疾病和癌症是中年人主要的生命杀手。老年人,心血管疾病的危害是特别大的,反而是癌症和老年病还好。

\" height=

从这个曲线上看,1就代表了你出生的时候如果有很大缺陷的话肯定活不了太久,但是2和3恩都代表了现在大部分人的生活情况,你刚开始的时候很健康,到中老年的时候会发生各种各样的疾病的问题,有一些疾病可以治,有一些疾病治不了的立刻挂掉,如果能治一般也是苟延残喘维持一段时间,维持不了太久,到一定程度以后也就不行了。

比较理想的情况,我们能做到的可能是4,你出生的时候还是很健康的,一旦发现你的健康到不健康转移的过程的时候,如果我们有很好的预测的模型,我们其实是完全可以通过一系列的干预手段把自己的健康状况从不健康和转化的状态拉回来重新再往下走,就有一个很好的监控预防的体系。

在5.6%的出生缺陷了跟遗传有关的只占30%,但这30%也是很可观的,这些数字是我们中国大概一年有缺陷的人口的情况。现在大家经常听到猝死和癌症的增长,增长率都是很可怕的,癌症一年的增长率在30%到40%,在中国这个是特别严重的,五十几万猝死的人群里面大概有15%-25%跟你的DNA是有关的。