大数据在传媒业的另一个应用领域是网络舆情分析,跟营销关系也很密切。网络舆情怎么测量,跟网下舆情有什么关系?明星范玮琪在新浪微博上“晒娃”被骂,但为什么是范玮琪?她没有王菲有名,粉丝也没有小S多,发个照片怎么就能引起轩然大波?因为新浪有一个数据算法,算了以后范玮琪在那个时段被置顶到热点排行榜,越来越多的人点击到她的页面去看,结果比大阅兵点击率还高,就被部分网民骂了。在这件事中,是服务器影响和改变了舆论。现在的网络舆情是怎样生成的值得关注,我们逐渐从中看到了数据的力量。
以前,我们打100多次电话做一个舆情的调查,很累,现在都是通过大数据来分析。中国人的情绪在微博上是什么反映?基本上,过年的时候高一些,年底放假很高兴,过年的时候兴,地震的时候低一些,每年的趋势大体差不多,有一些特殊时点有些变化。
从新闻传播角度讲,一方面要理解和学习数据的结构,运用大数据服务新闻、舆情分析、后台分析、计算广告和营销效果评估等;另一方面应该思考怎样有限度地使用数据的价值。比如,计算新闻学应用场景数据、舆情分析等提高信息和新闻传播效果,日益得到重视。但大数据的发展还有很多挑战,数据非常多,但不一定完整,不一定准确,背后需要发掘的东西太多,应该告别大数据泡沫,走向真正的数据科学研究。
传媒业的数据已成为社会大数据的重要来源,也是影响市场和管理的重要因素,很大程度上影响到营销、消费、决策。现在,媒体消费行为与商品消费行为是无缝衔接的,媒体大数据的挖掘跟市场营销管理决策紧密关联在一起——消费由消费者接触媒体后产生,并通过媒体实现,消费后会把评论和感受反馈到媒体上。
信息的传播者还会通过搜集相关数据,精准定向广告的受众,测量广告扩散的广度和深度,测算广告对品牌认知、购买行为的影响,用大数据分析电子商务与广告的效果、消费者口碑传播的心理和行为、评论的文本、传播效果等。
找到好问题,体现数据的价值
很多人拿到数据特别高兴,我现在不这样了,数据都好不到哪儿去,拿到数据只是第一步,找到一个特别好的研究问题才是关键。我觉得如果用中国数据,用这些数据去测试一些特别大的问题,这才能体现数据的价值。
做研究有两类,一类是做理论的,他们只写公式,文章里没有数据;我是做实证的,拿数据验证他们的理论,我办公室有三四台戴尔并行服务器,一台一万美元,但我的技术还是比不上今天真正研究大数据的,他们都是既懂统计又懂计算机的人。
很多年前,我在国外做研究时,基本上用的都是中国的数据,有一些电商的数据,比如淘宝的,有家电下乡项目的数据,还有网游的数据。从几年前开始,学术研究中中国的数据越来越多,我就思考,这些数据有没有问题,比如,中国的数据有什么独特之处?有代表性吗?研究结果能不能在全世界通用?这些数据可靠吗?
为什么要用中国的数据,我个人的经验总结,主要是三点原因,第一,美国等国也有类似的数据,但拿不到。我是百度营销研究院的顾问,除了核心数据基本都可以接触到。第二,研究涉及中国或者新兴市场特有的问题,用中国的数据顺理成章。第三,这个问题在中国和国外都有,但在国外验证起来更加困难,或者可能没有条件去验证,但在中国,验证起来特别顺利。
我做过一些经济现象的实证研究,在此讲一下背后的大数据情况。
首先,第一个问题是extortion(敲诈勒索),很多文章和理论都认为敲诈勒索会影响市场效率,但实证研究很难做。现在线上电商平台越做越大,线上顾客打分、评语很重要,评语会影响其他顾客的购买行为,商家受此影响会改变行为。有些不太好的顾客看到这个机会,就会利用写评论敲诈勒索,写差评要挟店家。
2012年到2013年的时候,差评师很猖狂,我们从淘宝拿到了这方面的数据。当时淘宝派人打入这些差评师的机构,潜入他们的聊天室,分析他们的行为,拿出好几份不同的报告,内容有重合也有不同,这些数据不是特别清晰,也有一些误差。
我们根据这些数据,到差评师买过、评过的女装商品下,分析差评师的留言和行为。第一,我们研究这些差评师选商家时有没有规则,是用一套专门的体系化方式选人,还是随机的?第二,差评师这么做之后,对商家的影响是什么,商家的行为会怎么改变?第三,这种行为导致的经济损失有多少,近期、长期损失是什么?