中国IDC圈2月26日报道:在一个不断释放出新概念的技术世界,大概从2012年到2015年,作为一个术语,“大数据”的炒作周期已实属漫长,人们迫不及待地将它渐次比喻为新时代的石油,金矿和土壤——尽管不同于石油,金矿和土壤,也不同于可穿戴设备,虚拟现实等同样拥有旺盛新鲜度技术的目力所及,以数据库和后台分析为根基的大数据多数时候化于无形,无法让人轻易触碰。所以在不少人看来,对大数据概念的热炒已经进入尾声,从现在开始,作为商业基础设施的数据分析将逐步迎来一个掷地有声的落地阶段。
大体而言,大数据的落地有两片最肥沃的土壤:第一是可被轻易体察的2C市场,无论电商还是社交,阿里和腾讯以数据为利器对于个体中心化的追求即是最好的例子;第二是航空,能源,制造,电信,快消等垂直行业,而相比于洞察个体的轻巧与迅捷,数据价值在行业中的落地无疑要相对沉稳——毕竟,理解一个拥有无数细碎分工的行业总要比理解一个具体的消费者困难些,也正因如此,沉稳之后的爆发才尤为可期。
而谈及大数据与行业的嫁接,全球四大会计师事务所之一的安永与海云数据的联姻则颇具样本意义。去年底,两家体量不同却因数据结缘的公司签订的全球战略合作协议曾在大数据业界引发热议,就在不久前,后者研发的航空大数据可视化产品DIVA正式投入商用,它是海云与安永合作后推出的首款行业级应用产品。透过于此,你会看到当一个行业的数据——或者说行业的知识被可视化之后,会化繁为简,产生逻辑,产生意义,从而产生价值。
在更大的意义上,如果说大数据是以“上帝视角”还原这个世界,那么数据可视化则称得上是“上帝的指纹”。
行业痛点
任何一款产品都从解决行业痛点开始,通常来说,大数据在落地过程中要遭遇三个问题。
首先是数据体量过大且种类繁杂。目前现存数据中,75%都是所谓非结构化数据,包括各种文本,语音,图像,视频,社交关系,空间轨迹等,它们异构且分别独立,如一座座信息孤岛般难以协同工作。而处理和汇总这些多维信息的最好载体无疑是可视化,一个最浅显不过的道理是——人类是视觉动物。
嗯,人类层累式进化而来的大脑更偏爱拥有画面感的信息。右脑对于图像的记忆速度要比左脑记忆抽象文字快100万倍,可视化本身即是强化记忆的手段——它更直抵人心。举个例子,在我刚看完的电影《史蒂夫·乔布斯》最后,乔布斯指着女儿笨拙的随身听说:“我要把500到1000首歌装到你的口袋里。”这就是一个典型的视觉冲击场景,他可没说“我要做个能装1000首歌的机器。”再譬如,IDC研究报告显示2020年预计全球新建和复制的信息量会超40ZB,没啥感觉对吧,不如换个说法,2020年全球生产的数据将是地球上所有沙粒的4倍,你会本能脑补沙粒的画面。
大数据也是如此。知道么,百度百科对大数据有个惨绝人寰的定义,复制给你:大数据“指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”所以说,在实际应用中,与大数据进行视觉对话无疑是聪明之举。
数据体量过大会导致第二个痛点:难以分辨随数据洪流裹挟而至的福音与噪音,从而在具体应用中发现有效数据比较少。阿里巴巴集团副总裁,数据分析师车品觉就写过一个事:“巧遇到谷歌的前数据部门leader,他跟我说了一件他觉得很痛苦的事:提出数据需求的人往往70%的情况又不用提供给他的数据。他为此非常生气,便质问业务方:为什么你们老问我要数据,结果却不用?业务方回答说:是的,因为我用完之后才知道这些数据没有用。对于一个每天都要准备数据的人来说,这好比你是一家餐厅的老板,厨师每天让你准备很多菜却只用一小部分材料一样痛苦。”
嗯,与老旧的饼状和柱状图止于数据展示(先用数据再去做图),形式大于内容不同,从相互关联的过程数据中寻找问题和需求,从而做出动态决策,才是数据可视分析最为重要的技能。
最后,在现实层面,目前在做数据分析的更多是技术人员,离企业业务还有段距离,而至少在现阶段,决策层对数据的态度则多少有些若即若离,忽明忽暗——他们很感兴趣,却远未到离不开的份上。而数据可视化无疑是串联决策层和数据层的最佳桥梁。