百度腾讯阿里,其大数据优劣势与策略分析

阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。

实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。

概念、模式、理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案。

国内互联网三巨头BAT坐拥数据金矿,已陆续踏上了大数据掘金之路。

BAT都是大矿主,但矿山性质不同

数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。

百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。

阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。

腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

大数据

下面,就将三家公司的情况一一扫描与分析。

一、百度:含着数据出生且拥有挖掘技术,研究和实用结合

搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。

除了网页外,百度还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。但是,尽管百度拥有核心技术和数据矿山,却还没有发挥出最大潜力。百度指数、百度统计等产品算是对数据挖掘的一些初级应用,与Google相比,百度在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力,还有很多事情要做。

2月底在北京出差时,写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此,仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。

搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。

这几个挑战使得数据正在远离传统搜索引擎。不过,搜索引擎在大数据上毕竟具备技术沉淀以及优势。

接下来,百度会向企业提供更多的数据和数据服务。前期百度与宝洁、平安等公司合作,为其提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧,该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后,根据受欢迎情况选中的。

百度还会利用大数据完成移动互联网进化。核心攻关技术便是深度学习。基于大数据的机器学习将改善多媒体搜索效果和智能搜索,如语音搜索、视觉搜索和自然语言搜索。这将催生移动互联网的革命性产品的出现。

尽管百度已经出发,其在大数据上可做的事情还有很多。

在数据收集方面,百度需要聚合更多高价值的交易、社交和实时数据。例如加强自己贴吧知道的社交能力、尽快让地图服务与O2O结合进而掌握交易数据,以及推进移动App、穿戴式设备等数据收集系统。

在数据处理技术上,百度成立深度学习研究院加强自己在人工智能领域的探索,在多媒体和中文自然语言处理领域已经有一些进展;云存储、云计算的基础设施建设也在逐步完善。但深度学习仍然是一个巨大的挑战,百度等探索者还有很多待解问题,如:无监督式学习、立体图像识别。