降低知识图谱的构造成本

  然后再往上走,我们现在有了元组以后,我们就想知道能够产生元组的元组,就是本体。本体,这是一种世界观,因为我们对事情如何分类如何命名,其实是一种政治的考虑。所以引用另外一句名言就是“ 语言是有军队的方言 ”, 本体是有钱的偏见,这就是为什么这些本体都很难被其他组织利用。所以我们尽可能的在设计的时候啊,要避免这种冲突。

  知识存储的成本

  最后我们再提一下存储。因为时间有限,可能会跳过一些。在存储的过程中要考虑到,知识图谱里面其实还是会有大量的非结构化数据,所以我们需要一个混合的解决方案。另外还要考虑到维护成本和效率的问题。综合来讲,如果我们不是特别需要一些推理的功能,其实一些现代的关系数据库就够用了,比如说PostgreSQL,它本身也支持JSON。需要图的时候可能Neo4j也是挺好的选择。

  知识检索的成本

  最后一个讲知识检索,知识检索主要是两方面的成本。今天有很多老师提到了这个问答,其实从关键词检索,到这个问答检索中间有很多步,词联想、同意词,上下位,属性和短关系,长程关系,我们把这些东西都可以称为语义检索,取决于我们需要付出多大的成本。

  最后一个可能大家一般不太会注意的问题,就是在知识检索的过程中,其实除了机器的成本,人的成本也是非常重要的一件事情。可能更多时候人的比机器的成本还要高,因为人是有有限的注意力、记忆力和时间的。有一些新的工具可以帮助我们做,比如说像分面浏览器就是Faceted Browser,我认为这个技术也很值得探讨,它可以有效地帮助我们减少探索的时间。就相当于当年为什么有数据库的时候还要有电子表格呢?因为电子表格解决的是人的问题,数据库解决机器的问题。探索引擎可以帮助我们解决人的问题,它是有可能创造一个像电子表格那样巨大市场的一种工具。

  总结

 

  最后总结一下就是我们要 迭代 ,知识库是给人设计的。 降低成本的核心是考虑人的因素 。