还有一个是我们同事的小孩,当时因为川崎病进了医院,后来治疗得到了控制,出院前复查的时候都很开心。但是小孩出院后第二天开始全身发热,而且没有查出原因。之后通过高通量基因测序帮助迅速确定是“蒙氏假单胞菌”感染,这是医院内常见的一个病原微生物,针对性用药之后小男孩病情得到控制并恢复了正常。
上面举了五个例子,综合起来讲就是:贯穿整个生命周期,基因组医学都有相应的解决方案。从孕前、新生儿,到老年的过程,肿瘤、病原感染的治疗都有比较好的案例。这些就是老百姓们用得起的基因检测。
基因大数据扩展的价值在哪儿?
大产业产生大数据,基因大数据扩展的价值在哪儿?
先举一个23andMe的例子。这是一家提供个人基因检测的公司。公司寄给用户一个样品收集装备,用户将样品与收集管里面的保存液混合后再寄回公司。通过检测,公司会告诉用户疾病健康以及个体特征等信息。2007年成立的时候,初期的数据积累特别慢,后来爆发式增长,目前已经有超过100万的用户数据。可是一直以来该公司都没有找到合适的盈利点。2015年1月6号,Genentech宣布投资6000万美元购买3000万名帕金森病全基因组的数据,这些数据从原来的99美金一份变成了2000美金一份。这些数据可以用作新药研发,帮助找到靶基因。
另外一个例子是华大的无创产前基因检测,这100万的低深度全基因组测序的数据量是23andMe的很多倍,对应的我讲讲华大的无创产前基因检测能告诉用户什么。下面的结果是华大基因的金鑫博士的分析。第一个可以查的是孕期肿瘤,本来这个项目的设计是为了查胎儿的染色体异常,意外地发现通过检测也可以查孕妇有没有肿瘤。2015年的一篇科学研究报道:通过无创产前基因检测,可以发现母体的肿瘤发病率在3/4000。同样,我们通过华大自己的数据也能发现孕妇当中的肿瘤,下图中红红蓝蓝的柱子表示的是染色体异常。正常的孕妇其实不会有那么多异常,这提示的就是肿瘤异常,相应的数据也通过随访进行了相互验证。
除此之外,还可以分析耳聋和地中海贫血基因以省级行政区为单位的携带情况以及分子流行病学调查。结果表明: 耳聋致病基因在北方的携带率高于南方;而地中海贫血南方高发,北方低发,这也符合之前的预期。除了我们原来认为的两广(广东和广西)和海南之外,包括云南、贵州、湖南这几个地方携带率也很高。还有一个跟乳腺癌相关的,刚才提到的BRCA1、BRCA2这两个基因在东西方的频率差异到底是什么样子,以前谁也回答不了,而通过百万数据就可以回答这个问题。
人的血液里面只有人的基因吗?其实不是。通过下面这个数据可以看出,在人的血液里面还发现很多病原微生物的基因。
形象地来说,基因像一堆字母,随便找一个字母T是什么意思?这个是不知道的。如果足够幸运,另外一个人跟我的基因完全一样,只有一个字母T变成了A,而刚好我是正常的,另外一个人则是镰刀型细胞贫血的患者。我们可以讲这个T到A其实就是由正常变成了镰刀型细胞贫血的原因,但是实际情况远远比这个复杂。要通过大样本、大数据的分析才能揭示真相,任何两个人抓过来都有一堆不一样的位点。
大家应该还记得刚才讲的眼盲小男孩凯文,两千多个没有报道过的变异怎么一步一步缩小变成一个致病基因上的一个位点呢?其实就是通过比对大量的正常人数据库。正常人都有的变异其实跟疾病没有关系,剩下的才是跟致病相关的。以前的千人基因组数据,加上这个百万NIFTY数据库,组成了一个更大的正常人基因数据库。