关于大数据对新闻生产的影响,过去我们关注怎么样用大数据对用户行为进行分析,对他们进行个性化的服务,或者用大数据进行市场分析调查。但是我们目前有这样一个未被给予太多关注的环节,就是大数据对于新闻报道本身的影响,新闻中一些不管是事实还是相关要素等资源,会在大数据当中发生什么样的变化?
过去所有的新闻都是由专业媒体人员生产的,在大数据时代,未来新闻是不是一定由人或者全部一定由人来生产呢?当物联网和大数据结合在一起的时候,这个答案是否定的。
物联网数据所带来的变革,可以使所有的物体都自己开口说话,这不仅仅对我们的健康监测会产生这样的作用,同时这些信息可能会转化为新闻生产的信息。过去新闻专业信息的采集主要是由专业媒体进行,但是将来所有的用户都将会参与到这个环节中,所有可能的物体,你只要愿意,你就可以在物体身上提取数据来为你的内容服务。物联网的基础是有一个传感器,当传感器变成一个信息的产业终端时,可能会带来一种所谓的传感新闻。现在有专门的互联网分享信息平台,未来这些平台也会成为大数据的来源。
从预测信息的角度来说,传感器在采集一些我们重点观察不到的,或者凭我们个别的记者眼睛观察不到的,更广泛、深层的领域,在新闻和其他信息的传播效果测量方面,传感器的功能也将日益得到开发。针对地理位置或者是今天某一个个体的传感器可以帮助我们做到个性化服务,实际上今天我们手机上的一些设备也是早期的一个开拓者。我们不仅仅依靠几个记者敏锐的头脑观察能力了,我们更需要物联网相关传感器的合作。
南京大学的一个传媒学院,在前不久启动了一个非常有意思的实验,在观众身上放了一些传感器,测试他看戏剧知道他的情绪,他的兴奋点在什么地方,这就是所谓的机器人新闻。
他们做的一个叫Narrative Science的软件(下文有介绍),让很多美国的媒体很关注。这个软件已经开始和我们很多记者日常所做的工作在既定,他们不仅仅是做用户工作做收集,甚至把这些数据自动的放到一个一个的模块里面。比如说,看比赛的时候很多人都会拿出手机来发比赛信息,这些比赛的消息,被Narrative Science收集起来后,就可以知道这场比赛的过程怎样,比分如何,把这些数据放到关于比赛的模板中,同时让媒体和观众参与,像城市化程度很高的新闻就可以由一个机器人来完成。他们公司一位负责人介绍,这样的新闻在未来可能90%的新闻都是由他们的新闻来完成。首先收集数据,然后到了下一个环节,像人写新闻一样去寻找特定的或者比较有新意的角度,再根据收集到的消息去设计结构,之后变成一条一条的新闻。我们不敢确定在机器人新闻是不是会在将来打破人写的新闻,从理论上来说,在庞大的数据面前,人类越来越依赖机器的时候,实际上新闻的写作,仅依靠数据已经完成了70、80%,所以说新闻由机器来形成也不是不可能的。不管是谁写的新闻,只要提供足够的事实足够的观察,受众是可以接受的。
大数据和媒体是有两个相应的方面,不管是传感器也好或是机器人也好,都是一个科学概念,现今只存在一些实验,不论这些实验会不会成功,至少这些实验的方向,对我们媒体有启发和借鉴。从另外一个意义上来说,在未来的媒体推广中,人将处于媒体新闻生产中怎样的位置是未可知的,我们需要调整我们的思路和技术手段,同时也需要有更多的对外合作。
不管怎么样,未来大数据在我们新闻生活中间所扮演的角色一定越来越重要,但并不是说大数据进入到这个领域我们一定要接受它或者我们没有办法阻止数据被采集,数据采集合法性是非常重要的前提,未来怎么样保证数据的隐私,保证数据采集的合法性,是保证大数据的一个前提。
在这样的时代,我们面临的挑战是非常多元的,虽然不是说技术至上,但是技术是我们今天做一切新媒体的基础。
人工智能技术或许比我们大多数人想象中来得更快。
如果说 Siri 企图在信息输入上有所突破,那么 Narrative Science 的努力方向就是更加拟人化的“输出”。过去,计算机“写作”技术只停留在利用庞大文本库所进行的简单拼凑。因此,生成的结果当然不尽如人意。
西北大学教授 Kristian Hammond 联手前 Double Click 管理团队的成员,Stuart Frankel 和西北大学计算机系和新闻系的精英们花费了两年时间在2010年共同研发出了新一代的智能写作软件 Narrative Science,将新闻报道和电脑工程进行了一次新世代的结合。
这个在学校实验室代号为“Stats Monkey”的项目,通过对给定主题的数据分析,会自动选择合适的写作角度,快速“写就”一篇具有标准新闻报道结构的文章。神奇的是,程序甚至可以根据不同的出版社特点用不同的行文风格“写作”。Narrative Science 最初被应用在即时报道西北大学棒球和垒球的比赛中。自此以后,Narrative Science 也被应用在财经报道等领域,包括 Forbes 等网站都已经开始与 Narrative Science 建立了合作伙伴关系。
Hammond 教授认为 Narrative Science 的特别之处就在于满足了人们倾向读故事的心理。在此之前,虽然计算机已经拥有了强大的运算能力,可以图形化复杂的数据,却依然不能根据数据以自然语言输出成一篇人性化的文章。而Narrative Science 就是为解决这个问题而设计的。当前,该程序的写作表现足以达到一位八年级学生的写作水平。
随着技术的持续完善,有业界专家大胆预测,类似计算机记者将在未来二十年内成为普利策(Pulitzer)新闻奖的有力竞争者。虽然 Hammond 教授始终在强调 Narrative Science 是在真正地进行“创作(Composition)” 而非生搬硬套,仍有相当部分人对此技术持保留态度。在这群人中(相当一部分是记者),主要认为再先进的计算机算法始终也无法模仿人类的感性流露,这项技术最终只能生成低质量的数据报告式的文章。
同时,自动化写作也让诸如 Google 等在线搜索公司产生隐忧。如果程序已经能自动生成如此高质量的“拟人化”文章,那么辨别在线垃圾内容的任务将会变得异常艰巨。华盛顿大学人工智能的专家 Oren Etzioni 在谈及这个问题时,毫无掩饰地将 NarrativeScience 比作数字化装备竞赛中的核武器。而 Narrative Science 则表示,他们不会将此技术转让/部署到这些网站中。