大数据视角下的舆情观测平台:社会焦点透视镜系统

然而,对于社会治理而言,相关部门更关心的是为何某一事件的发生会产生异常情绪、什么样的人群会导致某些情绪的产生等深入的原因剖析,基于此来指导社会治理方案的制定。如图1(b)所示,看到民众对于“长江游轮倾覆”事件的情绪分布后,相关部门更想知道为何会有人喜悦、为何会有人愤怒等异常情绪的形成原因。又如图1(c)所示,相关部门还想知道针对同一焦点事件,不同的用户画像(性别、职业、年龄等)产生的情感分布的差别是什么,用以框定某一异常情绪的用户群体进行监测。相比微博大数据的浅层分析和呈现而言,深层透视能够更精准地聚焦原因和人群,显然对社会治理有更大的帮助。基于此,本文将详细展示一个大数据视角下的舆情观测平台——社会焦点透视镜系统。该系统围绕微博大数据进行焦点事件及其情感分布的深层透视,旨在为新时代的社会治理提供创造性的思路。如前文所述,社会焦点透视镜系统包括两大部分的内容:焦点事件发现与情感分布展示;焦点事件情感分布原因和人群的深层透视。在第一部分内容中,本系统主要采用了事件抽取技术和情感分析技术;在第二部分内容中,主要采用情感原因分析技术和用户画像技术。本文以“9·3阅兵”为例,呈现社会焦点透视镜系统的浅层和深层分析展示结果。

2 社会焦点透视镜系统

社会焦点透视镜系统是一个实时的互联网大数据舆情监测平台。通过对微博海量数据的分析、挖掘和可视化,构建社会焦点事件的发现、追踪和挖掘的深层透视。图2展示了社会焦点透视镜系统的流程,共包括两部分内容:社会焦点事件的浅层分析和社会焦点事件的深层透视。

图 2 社会焦点透视镜的系统流程

●社会焦点透视镜的浅层分析:主要包括事件发现和情感分析两个模块。浅层分析可以每隔2h实时更新当天的焦点事件,并实时对这些焦点事件进行民众情感的分析。如图1(a)右侧框中所示的焦点事件以及情感分布。此外,社会焦点透视镜的浅层分析还可以实时给出全国各省民众的整体情绪指数及各省民众关心的焦点事件。如图1(a)中显示的地图,从深至浅代表了情绪指数(喜悦情绪)由高至低。

●社会焦点透视镜的深层透视:主要包括情感归因分析和基于用户画像的情感分析两个模块。深层透视是对某一段时期的某一个焦点事件的深层剖析。主要从两个角度入手,一个是导致某一种情绪的事件原因,另一个是导致某一种情绪的人群归类。

下面将详细介绍每个模块。

2.1 数据来源

选择新浪微博作为实时的数据来源。新浪微博汇集了有关焦点事件的民众的多角度评论以及民众每天的行为情绪动态。社会焦点透视镜系统每天的微博处理总量在1 600万条微博左右,每2 h更新一次。数据格式见表1。

表 1 微博数据格式

2.2 预处理

预处理主要包括两个部分:文本噪声预处理和文本分析预处理。

文本噪声预处理部分包括去广告、去水军和文本去重等步骤。考虑到微博可能存在的广告会对后续的事件发现和情感分类等步骤造成干扰,本文收集了400条广告标记短语,用于过滤带有广告词汇的微博;同时结合新浪微博数据中心的水军过滤算法,初步缓解部分话题水军泛滥的问题;考虑到每日系统需要处理海量数据的微博,其中部分微博存在表述重复的现象,针对性地对其进行去重处理。

文本分析预处理部分包括必要字符的替换、分词和词性标注等步骤。考虑到微博文本的特点,即用户信息(例如“@张三”)和短链接信息(例如“http://t.cn/Ryrc”)等会对后续的步骤造成干扰,所以本文对其进行必要的替换或屏蔽;后续步骤本文使用哈尔滨工业大学语言技术平台(language technology platform, LTP)对文本进行精准的分词与词性标注。

2.3 事件发现

这里的事件具体是指微博焦点事件,即在短时间内被大量用户高度关注、讨论的话题。有些话题与社会事件密切相关,如“长江游轮倾覆”、“马航失联”等;有些话题与社会事件无关,但仍在短时间内获得了很高的关注度,如:“你最喜爱的男神”、“最美英语教师”等。微博焦点事件不同于官方媒体的头条新闻,微博植根于草根之中,是普通大众的心声或思想的网络直接反馈。基于此,挖掘浩瀚如海的微博中的焦点事件变得尤为重要。