Phenotips 项目源码分析 [0]

  PhenoTips™ is a software tool for collecting and analyzing phenotypic information for patients with genetic disorders.

  Phenotips是一款分析基因疾病的Web工具。以它的源码作为起点,我会随看随写一些经验下来与大家分享。由于我不是做生物信息的,所以里面会穿插很多相关的基本知识,行家直接跳过

  项目源码托管在Github中,从首页底下就可以找到 链接 。

  Clone的过程比较久,主要里面包含了一些数据库。项目很活跃,很赞。

物联网

  Phenotips.Build.0

  按照README里的步骤走下来,JDK,Maven,git clone,调高Maven内存, mvn install ,就可以等着啦。

  表型 ( phenotype )

  表型,又称表现型,对于一个生物而言,表示它某一特定的物理外观或成分。一个人是否有耳珠、植物的高度、人的血型、蛾的颜色等等,都是表型的例子。

  表型可分为连续变异或不连续变异的。前者比如身高、智力,后者比如血型(ABO那些)、卷舌。

  基因突变 ( genetic disorder )

  基因突变很容易理解,就是遗传过程中,一个或多个基因位的异常变化,这种变化有可能造成一些很罕见的疾病。这里指的罕见几万,几百万分之一这种概率。

  我猜你看到这里, mvn install 还没结束。所以这里再做一个建议:使用intelliJ打开Phenotips工程,打开的时候选择maven项目。当然,用intelliJ打开以后依然会maven install一堆东西。此时建议你把它打开,放到一个好的网络环境内,然后去吃个饭。

  Quick Phenotype Search

  使用intelliJ打开工程以后就可以发现这是一个规划的挺好的项目。

物联网

  components, distribution, resources划分的很明确。逻辑模块都在components里,每一个模块基本都按这样组织。api, 各种ui。

物联网

  由表及里,我们找一个入口切入来开始分析之旅。我们来挑选Quick Phenotype Search作为第一步。这个功能的主要作用是把医生输入的症状文字转换为HPO(Human Phenotype alt="物联网" width="550" height="552" />

  中文人类表型标准用语 ( Human Phenotype alt="物联网" width="550" height="349" />

  GET bin/get/PhenoTips/SolrService

  q:fever

  defType:edismax

  spellcheck.collate:true

  spellcheck:true

  lowercaseOperators:false

  几个参数有用的基本就是那个q啦。API里面还有SolrService,看来使用了Solr作为搜索引擎。那我们就去IntelliJ里去找Solr和这堆参数就好,挑个最难重名的来搜就好,就lowercaseOperators了。

物联网

 

  找到4个有用的,再看看后面所在文件,就最后那个啦。简单的就跟到了search这个函数,AbstractOBOSolrVocabulary,DefaultVocabularyTermSuggestionsResource,xwiki这种看起来很牛的库。