64个博士“众筹”基因大数据分析 识基因寻“癌”踪

中国IDC圈2月25日报道:基因测序是国际公认的基因检测标准。作为精准医疗的重要手段,基因测序能锁定个人病变基因。

在10年前,基因测序成本约为几十亿美金;5年前乔布斯患上胰腺癌之时,做全基因测序的费用已经降到了十万美金;到2015年,全基因测序成本进一步降到了1000美金。

虽然基因测序成本的下降速度非常快,但对基因数据的分析还没有跟上。

每个人都有23000多个基因,相应的全基因测序数据结果可达几百GB到1TB之间。如何在基因突变与已知疾病之间建立关系,需要基因大数据与疾病大数据之间的相关性分析。这难在一方面需要大数据分析能力,另一方面还需要跨学科知识指导。

数据分析需要一个数学模型作为初始起点,再用大数据对这个数学模型不断进行优化。对于数据分析来说,有三个通用数学模型:统计模型、神经网络和专家知识系统。其中前二者偏向纯数学方式且需要海量计算,而专家知识系统则结合了行业专业知识,在提高分析效率的同时减少了计算量。

十年前,还在读硕士的余伟师就已经开始研究基因与疾病、基因与癌症的关系。他于2005至2010年先后在国际知名杂志上发表了7篇基因表达与健康及疾病相关的论文。2010年底,余伟师从华东师大生物医学专业博士毕业后,进入美国国立卫生研究院NIH从事博士后研究。

余伟师在一直在思考如何将自己研究了10多年的基因知识贡献给国内的医疗健康事业。当时美国的基因数据分析正蓬勃发展,而中国在这方面还很不成熟——成本高、时效低、缺乏中国人自己的基因数据库。而针对疾病尤其是癌症的复杂性,还必须与更多交叉学科的专家,一起解决临床遇到的问题。

余伟师从这个思路出发逐渐聚集了64位华人博士,当中不乏顶尖机构的教授。64位华人博士凑在一起做什么呢?简单说,就是在自己的工作之余,把医学相关文献里关于某基因突变与某疾病(以肿瘤为主)之间的潜在关系收集起来,形成一个专家知识库。然后再把这种潜在对应关系,与美国现有临床结果作印证,构建成专业的数据库。

经过两年多的努力,这个团队已经把公共数据里关键的疾病信息都搜集出来并进行了验证。该数据库已经找出了11000多个与肿瘤疾病相关联的基因和相对应的位点,也就是说已经整合了人体一半以上的基因,其它的还处于未知阶段。

64 位博士之所以通过类「众筹」的方式建立这个专家知识数据库,最初的动力是在阅读和摘录医学文献的时候需要专业的辨别能力。即使是某个医学专业的博士,如果水平不够或是在某个疾病领域研究不够透,都无法辨别文献中结论的准确性。而这64个博士在不同医学和疾病领域各有专长,因此具备专业筛查能力。

当余伟师的团队带着自己的科研成果回国交流时,立刻就受到了国内医疗机构和第三方检验所的注意,团队所掌握的技术在合作单位进行了充分试验,并得到积极的反馈。于是,余伟师放弃了即将申请下来的2016年150万美元的NIH个人研究经费以及晋升NIH研究员的机会,还放弃了申请中的美国绿卡,回国创业成立了赛福基因公司。

赛福基因有着强大的专家队伍,其技术总监为耶鲁大学应用数学博士,在美国俄亥俄州立大学长年从事生物信息学分析,拥有深厚的数学功底、丰富的生物信息分析经验。赛福基因的市场总监为美国俄亥俄州立大学博士,在美国从事了近二十年的膀胱癌研究。2016年还将有20余位医学博士回国加入赛福基因,同时也将与美国各大医学科研机构形成深度合作,通过众筹合作共同推进精准医疗技术发展。

赛福基因结合云计算技术,以基于智能机器学习的方式,自动化地为医院健康类B端客户提供基因大数据分析。赛福基因目前主要与国内三甲医院以及癌症领域顶尖医院合作,这些医院集合了国内比较权威的样本库,与赛福基因的基础数据库结合起来后,对建立中国人自己的疾病基因数据库将起重要作用。

赛福基因于2015年下半年加入了微软创投加速器,目前已经完成天使轮融资。