杭州数梦工场科技有限公司行业首席架构师刘朋冲:“数梦&阿里”军事大数据解决方案与实践

刚才讲到了我们的产品架构、落地架构,其实里面还有很重要的一点,就是我们数据模型的建立。因为数据模型里面其实是有大量工作要做的,比如说原数据的建立,比如说关于分组定义、实体定义、实体的属性,这些都是需要在真正的每个项目当中去大量实践得出来的一些比较经典的模型体系在里面。上面讲完是关于我们军事研判的解决方案,接下来我会跟大家分享一下关于这种军事目标事件,和目标态势的分析。

首先我们看一下关于军事事件的分析,首先我们看一下他的价值。因为很多的军事事件的发展脉络,包括因果关系,由于这种时间跨度较长被打散,很难做出有效的分析,这就是他的一个很现实的痛点。为什么我们可以通过大数据解决这个痛点呢。

因为大数据的形势,突破了以前传统数据的一种分析理论。所以说我们可以一个特定的军事事件分结构化,通过若干元素构成一个结构化的模型,然后通过这种反复训练的最优算法。最终我们是想得到一个什么情况呢,是得到一些比如基于该事件的一些内容推荐。然后,基于同事件相关结构化数据的推荐,还有一些反馈式,怎么讲,怎么理解,其实就是可以基于一个事件,我会基于时间轴的一个演变,甚至可以推演出以前发生过类似的事件,他的类似事件的演变情况是如何的。所以说基于事件的这种分析演变,包括展示,包括事件的这种起因、转折、高潮、结尾,甚至重要参与者的一些言论,相关国家的一些态度,相关方的一些行为。我们通过大数据都会做一个很好的展示。

这是民用里面的一个舆情,真正的一个军事事件里面的舆情分析是很关键的。就是说大众包括媒体,对这种某个事件的关注度如何,他的倾向度如何,其实这个很关键,所以说我们所谓的这种舆情分析,在一个军事事件分析当中是至关重要的。这个也是我们做的一个真实案例。就是说你可以看到,一个舆情的重要性,他的倾向性,包括对媒体的转载性以及他后期产生的效果,我们可以把这些舆情都进行归纳总结,通过大数据的这种能力展现出来,其实这个是很好的对军事事件的一个梳理,甚至对他结果的一个分类。

其实所有的军事事件分析的核心理论是做这种文本的挖掘还有标签的建立,这个是偏理论的东西。因为当前一个事件的分析,其实他要借助于很多历史事件的,很多历史事件是存在于哪儿呢?存在于很多这种非结构化的数据当中。所以说我们要通过这种大量的非结构化数据,寻找里面的高频词或者拓展词。

通过这些拓展词我们会发现某两个事件是有类似特征的,这两个事件是有关联性的。所以我们会对这两个事件做标签。然后这样达到一个什么效果呢,我们就会查询到类似的事件,实际以前是很难做到这点的,关于类似事件的一个分析研判。这是基于文本数据的挖掘。然后这里面还有很重要的一点,就是关于文本的达标和自动摘要。我们的档案的文本上来之后,我们进行预处理,然后预处理完之后要进行最关键的两点要打标,就是打标签。贴上一个标签,某个事件是什么样的标签,他是一个侦查的事件,还是说一个间谍的事件,这个是要打上标签的。所以说打上标签之后未来就基于标签做很多这种预测或者是关联的分析。然后还有自动摘要,所谓的自动摘要就是说我要从这种事件里面得到这种关键字关键信息。

可以看到一个事件模型大致提取的算法逻辑是什么样子,你可以看到,一个典型的事件模型是由什么构成的,是时间、地点、人物、事件就构成了一个事件模型。他是有主语和谓语还有宾语的。所以说主语我们提取出来一些主题库,这就是我们构成未来数据模型的思路。比如说是名人,还是说一些在军事领域比较突出的人,我们会把他作为一个主体抽取到我们的原数据库里面,还有会构成一些谓语的库。比如说是风暴是爆炸,就是类似。所以说我们在大量的事件当中提取这种关键字,然后这种关键词会构成我们原数据的仓储里面。然后可以看到通过这种文本的内容之后进行这种事件挖掘,事件挖掘的结果我们可以对这种事件发展的脉络,包括事件的影响力做出一个精准的判断。其实这个是最主要的一个因素。

刚才讲的是关于目标事件的,下面我们可以看一下关于目标态势的。所谓的目标态势,其实目标是有很多种的。目标态势就是说比如说一个飞机轨迹,或者是说一个航行轨迹,或者是说船舶的轨迹,其实这都叫目标。