进入2014年,大数据正从红遍媒体的概念炒作逐渐落地为生财的产业。如雨后春笋冒出的大数据服务商,在中国市场上展开了激烈角逐。从“中国大数据服务商综合服务水平TOP100排行榜”(以下简称榜单)中,已经可以隐约看出中国“大数据云图”的雏形。
中美大数据云图比较
相比美国同类榜单,高居首位的10Gen仅列第43,而大数据股明星Tableau仅列第45,而Marketo干脆没上榜。这让我们注意到榜单标的服务范围是中国,而非美国。
我去年到美国与《大数据云图》的作者芬雷布交流时,已经注意到,中美大数据产业布局存在巨大差异。在一年时间里,中国大数据的产业版块正发生巨大变化;对比大数据云图2.0版(2013版)与3.0版(2014版),美国的产业也在急剧变动。
美国大数据云图3.0版将产业版块重新划分为六块,分别为数据源、开源、跨平台基础设施/分析、基础设施、分析、应用。其中“分析”领域的热点是数据可视化、非结构化数据;“基础设施”领域的热点是NoSQL和NewSQL数据库;“应用”领域的热点是广告优化和营销。
比较中美“大数据云图”,可以看出以下特点:
第一,在“数据源”领域,中美各有特色,中国互联网平台数据源和行业数据源建设已经起步,但本地数据(语用数据、情境数据)仍有待加强。
第二,“开源”、“跨平台基础设施/分析”和“基础设施”三个领域,美国处于垄断地位。
榜单中位列前15的均是美国厂商,且多跨“跨平台基础设施/分析”和“基础设施”两个领域。中国一些厂商认为美国相关技术专业性太强,不利于普及,更倾向短平快技术应用。但一些企业坚持在这些重要领域耕耘,如商业智能软件(用友软件,久其软件) ; 数据中心 建设与维护(天玑科技、银信科技、荣之联等);
第三,中国厂商绝大多数集中于“应用”与“分析”领域。前者如广告优化与营销(阿里巴巴、腾讯等),金融、汽车、政府、健康、教育、安全等行业应用;后者如数据处理、分析环节、综合处理(拓尔思、美亚柏科等),语音识别(科大讯飞),识频识别(海康威视、大华股份、华平股份、中威电子、国腾电子)。在应用领域,中美热点相似度较高,都包括广告优化、营销、金融、产业、政府、健康、教育、安全等。
如果以上是对榜单的结构分类分析,接下来要按价值分类进行分析。
中国大数据云图价值分析
对大数据进行价值分类,可分为“风动”(客体价值)、“幡动”(主客体价值)、“心动”(主体价值)三类。这是六祖坛经的价值分类法。
1、风动类的大数据,是工程师眼中的大数据,看到是技术。典型代表是3V、4V说。林林总总的这方面定义,可以用一个词概括,这就是“复杂”。大数据本质上是复杂性数据。
从这个方向观察,中美企业差距较大。榜上前10名基本都是属于“跨平台基础设施/分析”的美国厂家。其中HP今年刚被列入美国“大数据云图”(3.0版),如今赫然列在第4。而以硬件加强大数据,7.4亿投Cloudera异军突起,HADOOP的CDH平台占中国一半的英特尔列在第2,却至今不在美国榜单。显然这是美国榜单出了问题,而中国这个榜单跟进比较及时超前。
未来发展,中国企业需要回到图灵初衷,找到复杂性数据的感觉(而不光是象谷歌那样迷信数学算法),沿跨“科技-人文”二元的“数据科学”方向发展。 华为与伦敦帝国理工学院共建数据科学创新实验室 ,是积极迹象。
工程师扑向复杂性数据,就象小孩子扑向玩具一样,只关心是与不是这种事实评价,并不关心好与坏这种价值评价。商务或政务的代理人关心的是技术应用于人之后产生的价值,因此要把客体与主体联接起来。
2、幡动类的大数据,是业务代理人眼中的大数据,看到的是工具和能力。以美国政府的定义为代表。林林总总的这方面定义,可以用一个词概括,这就是“洞察”。
数据越复杂,成本越高,是迟钝(又称工业病),为不好;数据越复杂,成本越低,叫灵活(SMART),是好。洞察,就是指“穿透信息迷雾”。这是当数据进入泽字节(ZB)时代后,避免信息垃圾填埋,反而能保持“清清楚楚明明白白真真切切”的能力。