10EB量级的基因大数据处理技术

再就是宏基因组,我们有1TB细菌在我们体内,这些细菌大概有两公斤,这些细菌对我们生活起到非常大的影响或者决定性作用。

\" height=

这是两只老鼠,这是中科院上海生命科学研究院赵力群教授的研究成果,他养的两只老鼠,一只养的特别胖,一只特别瘦,他做了一个实验,把特别胖的老鼠的粪便做成培养液喂给瘦的老鼠,结果瘦的老鼠变得非常胖,反过来也是。表明人的肠道里的细菌跟人的饮食习惯有特别大的关系。

一个人喜欢吃什么,其实不是你喜欢吃什么,是你肠道里面的细菌喜欢吃什么。这是一个很好的产业,能够把这个问题真正解决清楚,这是一个非常大的产业。

前段时间华大基因刚发现了糖尿病跟宏基因组之间的关系,还跟人的血压,甚至跟癌症还有关系,能产生抗癌的基因,细菌能产生抗癌的因素帮助人类抵抗癌症。

大家到医院检查的时候都会查血常规,但是大家很少接触到比较专的一些,比如说氨基酸、维他命和激素,氨基酸、维他命和激素和人的情绪、健康状况有很大关系,你还是要时不时看一下人体里的小分子,就是分子量在1000以下的这些分子在你体内分布的情况。

以前我们很乐观的认为人的基因组里人有25000个基因组,后来随着研究发现没有那么多,只有19000个,这是很悲催的,水稻的基因有3000个,其实高等的生物有另外一种基因的产生或者进入了另外一个形态。如果我们要测一个人的基因组一般会测上三十遍,才能大概把一个人的基因组的情况摸清楚,三十遍这就需要100GB的数据,如果要测一百万人的话光数据就需要100TB。

\" height=

这是转录组,在19000个基因里80%的基因可能有多种形态,一段基因组转录出来以后有很多的酶切成不同的片段再连接起来,基因组有不同的方式,把这个形式算上去的话人大概有60000个基因,对于一个高等生物来说还算可以。

从转录组到真正行使功能的时候要放大成蛋白,从6000个转录组RNA里提取多少蛋白,大概是二十到两百万之间,可见蛋白的形态比RNA更复杂,因为有很多不同的折叠形式,不同的折叠形式空间是不一样的,蛋白的数量就会显得特别多。

6788是中国人在蛋白基因组里承担的肝脏蛋白的项目情况,发现人的肝脏里面大概有6788个蛋白种类,而且这里面大概有一千种是新的。

刚才说到了这么多小分子,他们是怎么相互作用的,我们有这样一个小分子基因网络的数据库,记录了三千个物种基因相互作用的情况。这三千个物种里面基因的数量大概是1.2千万个基因,1.2千万个基因形成了相互作用的这种大概是28万。

这就记录了我们日常生活所有的习惯,比如说你吃米饭,米饭在你身体里怎么消化、怎么吸收,怎么转化成糖源,所有这个过程都是通过基因网络来描述的,我们现在也只有28万个网络,要比我们想象的少很多,当然这个数据库还是要不断地积累才能说清楚身体是怎么样的行使功能的。

基因造成的人群差异

我们再说一下人之间的差异,任何两个人之间如果没有基础关系的话,它的差异只有0.5,也就是说两个人之间大概有150兆左右的基因组序列是不一样的,但是如果我们只看上下两代之间的差异,这个差异就是60-100DNA序列多肽性的不一样,这也能解释说为什么相似度更高一点。

这些差异从日常相貌和行动行为就能看出来,日常生活中经常看到单眼皮、双眼皮,有些人的舌头是可以卷的,有些不能卷,还有秃顶,男士的秃顶很大程度上跟基因是有关系的,另外还有喝酒脸不脸红,这跟基因有很大关系,有些人喝一点点就脸红,有些人喝很多都不脸红。

我们再看一下人和其它物种,我们跟植物只有17%左右的基因组相似,跟我们很近的猩猩只有96%相似。

现在研究表明最大的基因,一个细胞里面有670Gb组碱基对,就是人的两百多倍了,这个基因组还是很大。为什么我们很关心基因组的大小?

大家对这个基因组稍微了解的话知道我们从做基因组测序来说,要把一个基因组测完整其实是很不容易的,像人的基因组是把人的基因组切成大概一个KB这样的片段,一段段测完之后拼起来,我们现在看到人的基因组其实是1K左右的序列拼起来的。现在拼的人的基因组是3G,人的内存大概是500G,一台机器要有500G的内存才能把3个G的基因组拼起来,那要拼600多G的基因组需要什么计算机器呢?