其他应用性较强的专门数据库也可以根据实际需要随机添加,如边境管理数据库、高层访问数据库、外交谈判数据库、使馆领馆业务数据库、新闻发布会数据库和外交礼仪数据库等。与此同时,另一项工作也是大数据系统必不可少的,那就是建立基础性的、战略性的数据库。虽然整合国内其他部门现有的基础数据库是一个切入点,但它毕竟不是根据外交决策的特点而建立的,所以也需要新建一批特定的基础性数据库。此类数据库主要储备那些并非当前急用但长远来看是非常重要的数据信息。例如:周边地区数据库;大国资源数据库;海洋资源数据库;国外精英数据库;国外选民资料数据库;华人华侨数据库;全球气候数据库;全球智库数据库;国际组织数据库;国际会议数据库;海外利益数据库;对外援助数据库;能源安全数据库;核安全数据库;国际会议数据库;公共卫生数据库;银行信用卡数据库;贸易金融数据库;武器交易数据库,等等。这些数据库有些可以根据公开资料进行建设,有些可以直接通过商业渠道从国外购买。
建设一个完备的外交决策大数据系统,是一项工作量浩繁的巨大工程。如果按照传统的线性思维,按照小数据的建设方法,是无法完成这一任务的。只有采取分布式的计算方法,按照分工承包的原则,让更多的人力资源参与到建设过程中去,这样外交决策大数据系统才有可能建成。以建设周边地区数据库为例,外交部门人员虽然对周边地区的外交事务非常熟知,但超越了这一范围,他们就会遇到知识的瓶颈。他们可能对哈萨克斯坦的外交部门情况很了解,但他们对东哈萨克斯坦州长的情况就不会很清楚,而这个州长今后可能会被派驻中国大使馆担任公参。他们可能对吉尔吉斯斯坦的政治高层很熟悉,但他们对支配吉尔吉斯斯坦政局的七大家族的财务状况茫然无知,更不知道这些家族的富二代正在欧洲学习,是未来吉尔吉斯斯坦政治领袖的人选。这些情况边疆地区可能会知道,因为他们有自己的消息渠道。
因此在建设外交决策大数据系统时让地方参与进来,让这些被“闲置”的人力资源发挥作用,是一种明智的选择。因此,在建设周边地区数据库时可考虑地方参与。比如,中亚地区由新疆负责;朝鲜半岛由吉林和山东负责;南亚地区由四川和西藏负责;远东地区由黑龙江负责;蒙古由内蒙负责;日本由上海负责;东盟由广西和云南负责;福建和广东负责台港澳地区;北京负责总体协调(27)。为了强调这项工作的战略意义,周边地区数据库建设采用一把手负责制,其负责协调本地区的智力资源参与数据库的建设与更新。这种模式的优点在于,充分利用边疆地区与周边邻国官民、政商、族群和亲戚等多层次的密切关系,将地方层面的数据纳入大数据系统,进而弥补外交部门的数据盲区。
大数据库建成之后,下一步工作就是数据分析和数据挖掘。没有数据分析,外交决策大数据系统就没有方向,里面的数据只是一堆有待提炼的原料。数据分析的目的就是提炼数据的价值,找出事物的内在联系,预测事物发展的趋势,帮助管理者进行判断和决策。不同的时代有不同的数据分析法。在小数据时代,对数据的精确性有严格的要求,因此限于能力,一般只能采用随机样本分析。常用的方法有对比分析法、因子分析、综合运用频率和百分数统计、矩阵分析和回归分析等。但在大数据时代,小数据时代的分析方法已经失去意义。面对海量的数据,人们对数据的精确性要求大为降低,数据分析的主要方法是建立数据之间的相关关系,它关注“是什么”而不是“为什么”。
谷歌公司有过成功的案例。谷歌曾经通过观察人们在网上的搜索记录预测到美国冬季流感的爆发,还可以具体到特定的地区和州。谷歌服务器里储存着天文数字般的搜索指令,它抽出5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,并建立了数学模型。然后谷歌将其中的45条检索词条的组合放进特定的数学模型,结果做出了比疾控中心还及时准确的流感预测(26)。另一个很有说服力的案例是美国交通事故的降低。美国在1966年有9400万辆汽车,当年交通事故死亡人数高达5万人。2009年,美国汽车数量高达2.4亿辆,但交通死亡人数却降至3万人。原因是,美国交通部门经过数据分析,找出了事故高发的日期段、时间段和年龄段,并发现有些州没有查安全带也是重要原因,因此采取了针对性的整改措施,大幅度降低了交通事故的发生概率(27)。沃尔玛的经典案例经常被人引用。沃尔玛决策部门通过销售数据分析发现,每个周末啤酒和尿布的销售成正比例增长,原因在于,每到周末女人会在家做家务,男人则出门购物,会买尿布,这时候男人趁机买点啤酒犒劳自己,于是啤酒和尿布就同步增长。这就是数据分析的魅力所在。