正在到来的数据革命将如何改变企业的经营、政府的服务乃至普通人的社会生活?
在你出生的那一刻:男孩、7斤8两,而你的父母不再争论你长得像谁,因为他们早就知道了关于你的一切。计算机通过计算你的基因、出生环境等遗传信息,数据分析的结果你会有43%像母亲、57%像父亲,而你的未来的一切更是清晰可见:你的智力水平决定你只会上当地大学(你就不用太努力读书考清华、北大或者耶鲁、哈佛了)、你不擅长滑雪但擅长跑步(跳远也不太行)、你是个异性恋会喜欢棕色头发的苗条女孩(根据GPS和其他信息的推断,她将会在你隔壁的隔壁的医院出生,只不过比你晚两年)、你喜欢喝可乐(会热爱可口可乐,去超市就不用考虑百事可乐或其他牌子了)……如果关于你的一切已经注定,当真实的你来到人世,你是打算努力拼搏一把过个真正属于自己的人生,还是打算按照计算机计算出的“你”的状态过这一世?
这不是痴人说梦,更不是杞人忧天,而是一个真实如“少年派”的寓言。即使玛雅人的末日预言不靠谱,但大数据技术的演进已经驱使人类来到了一个新世界的门口,肉身的人类将和虚拟的自己并存,有时候他们是无法分辨的两者。正在到来的大数据革命,正在改变着人类的社会和生活--你,无法逃脱。
大数据时代到来
美国伊利诺斯大学的Kalev Leetaru教授发现:“过去50年,纽约时报共产生了30亿单词,如今Twitter每一天都能产生80亿单词。”没错,你承认这是-个数据爆炸的时代,不过你也许更关心另一个问题:到底什么样的数据才能被叫做大数据?
信息技术管理专家涂子沛认为,“大”是虚指,大数据中的“大”指的是人类有能力发现数据中蕴藏的大价值。他在《大数据》一书中论述了摩尔定律、普适计算、数据挖据、社交媒体和云计算是如何共同作用促成大数据的出现:摩尔定律带来的硬件存储性能增长与价格降低为大数据形成了优良的性价比前提;普适计算带来的万物互联的数据布局;数据挖掘让数据成为可以知道行动、产生价值的知识;社交媒体带来的24小时在线使得人们可以利用算法预测公共卫生和突发事件;云计算所形成的完整产业链和大规模的商业应用为大数据提供存储空间和访问渠道……爆发的大数据意味着人们的社会生活将发生巨变。
一个微博上的故事也许能说明这个问题--硅谷帕洛阿托市中心有家创业公司,专门对公共大数据做分析。如果一个中东人士买了单程机票进入美国,连续两次参观迪士尼,并购买化学品,这套分析软件会发出预警,据说这套软件很受政府和大零售商的青睐。大数据因此被美国政府视作科技领域的首要挑战。2010年12月的美国总统科学技术顾问委员会中指出:“如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战”。
的确,大数据将为很多领域带来根本性的改变,统计学便是其中之一。传统统计学中的普查和抽样方法都是静态和定时的,只能提供瞬间的记载。而人类本身充满不确定性,其动作也是连续且动态的,因此大数据所能提供的实时、多源和传统统计学融合之后,将得到相对更高质量和及时的统计结果。
对历史数据的研究,将有望改善犯罪、城市拥堵等社会问题。美英两国3所大学合作将英国240年的罪犯庭审记录输入电脑,以研究犯罪情况发展的趋势、触发的原因以及和社会背景之间的关系。借助大数据的“显微镜”观察人类行为,类似的数据应用将带来更多的社会管理模式创新。而整个社会将向智能化迈进--计算机和网络更加智能,人与人之间的合作、任务之间的对接会更精准,国家和社会的运行成本会越来越低。
数据改变企业经营
商业社会中,大数据将是创新和竞争的新技术。2007年信息经济学教授托马斯·达文波特就前瞻性地指出:“一些公司已经把它们商业活动的每一个环节都建立在数据收集、分析和行动的能力之上了。所有的公司都可以从它们的成功当中学习”。
涂子沛认为,今天,无论企业是否出于自愿,企业本身已经身处数据之中--企业内部信息系统、ERP所产生的每一条带有具体含义和价值的数据,与外部环境中由大众掌握的社交媒体等产生的模糊数据,以及社会生活中的人口、天气和其他公司的外部数据。来自社交媒体的负面信息可能使企业本身“苦练”的产品质量、品牌价值等内功一夕之间发生根本性的变化。“老罗挑战西门子冰箱”的微博大事件,足以让每一个企业警醒并关注来自消费者的信息。天气等公共问题的瞬息变化更是企业必须要善用的信息。暴雨、极寒等极端天气之下,应对得当的企业能够迅速捕捉到商机。比如羽绒制衣等企业如果了解到今冬的严寒,提前采购原料将会帮助其占得市场先机。这就要求以信息管理系统为代表的精确数据必须和来自社交媒体等来源的企业外部数据整合。涂子沛认为,对于企业来说,过去那种精准数据占90%、其他数据占10%的状况将被改变,来自社交媒体等来源的外部数据将占到50%以上。
基于数据的竞争将提高组织的日常运营效率,找出可以省钱的地方和机会;基于数据的分析结果提高决策速度和质量、增强预测能力,从而更好地理解客户和市场需要。企业因此要学会计算数据的投资回报--数据价值和数据成本的比值。因此降低数据成本,增加优质数据价值都是企业要关心的方向。自动化工具、使用云存储等都可能成为企业降低数据成本的方法,而社交化ERP对更多、更全面数据的收集,建立负责数据质量的数据治理队伍和流程,使用更新更成熟的数据工具、搭建数据整合分析平台都是数据增值的有效方法。其中,人们熟悉的数据挖掘、商务智能(BI)和证析(Analytics,泛指企业一切和数据相关活动,包括绩效和风险分析)等工具,可在大数据时代进行多源和实时的应用。
一个典犁的商业应用是迪士尼乐园。迪士尼是孩子和童心末泯的成人的天堂,每个乐园里都有100多个项目,但每一项目前等待的排队人群常常令人兴致大减。为此迪士尼公司使用10多午的历史数据,结合天气、旅游等数据预测每一条队伍每一天每一小时所需的排队时间,游客可以参考这个分析结果安排自己在园区内的游览次序。为了处理突发情况,迪土尼公司还同时收集Twitter数据更新每一条队伍的排队等候时间。这可以使每位游客平均每人节省4个小时,提升游客们进园游玩的乐趣。
大数据在公共领域同样大有用武之地。美国宾夕法尼亚州政府分析全州感冒药片的销量、对比系统保存的历史数据以判断是否会发生大面积流感,同时分析儿童的就诊率,并对比历史数据,也对Twitter进行文本分析,以实时监控各地区流感爆发、传播和分布情况。