阿里巴巴:未来将是数据公司
很多行业都想借助大数据提高决策准确度、提升业务水平,但首先遇到的问题便是数据量还不够大。相比之下,有一些公司足可以称得上是超级“大矿主”了,只是矿山性质不同:百度拥有最大的网页搜索数据,阿里巴巴拥有最大的电商数据,腾讯拥有最大的社交数据。
阿里巴巴集团主席马云在多个场合都表达过阿里巴巴的“三大战略”,即平台、金融、数据,在他的计划中,阿里巴巴最终将会是一个数据公司。
这一点从阿里最近几年接二连三的大手笔并购中已经初见端倪:新浪微博、陌陌带来的社交数据,高德带来的地理数据,UC浏览器带来的移动浏览数据,虾米带来的音乐数据,还有墨迹天气、友盟、美团……这些几乎涵盖了人们互联网生活的方方面面。再加上阿里巴巴原本拥有交易数据和信用数据,俨然一张让人充满无限遐想的“大数据拼图”。
2012年,阿里巴巴设立的首席数据官(CDO),由后来接任马云担任CEO的陆兆禧担任。在今年年初,阿里巴巴在进行公司架构战略调整时,又专门成立了数据委员会,“这个部门会为阿里集团所有事业部提供数据支持。”阿里巴巴集团数据委员会首任会长车品觉告诉《中国经济周刊》,这位大半生痴迷于数据的香港人肩负着为阿里巴巴寻找开启大数据之门钥匙的重任。
据车品觉介绍,淘宝的“千人千面”计划是电商大数据最突出的代表,通过数据挖掘实现精准化的营销和产品推送。同时,阿里金融也是大数据衍生产品开发的一个范例,利用云计算和大数据的技术和思想,阿里金融实现了高效和创新。
9月,阿里巴巴先后与中国电信、民生银行合作,联手鏖战大数据平台。凭借大数据优势,阿里巴巴再次加重了其在云计算、互联网金融上的砝码。
“数据是一种信仰。”车品觉说。
百度:“深度学习”大数据
百度拥有中国最大的网民行为数据库,覆盖95%的中国网民,日均响应50亿次搜索请求,搜索市场占比达80%,日处理数据量达100TB。同时,百度还构建了百度联盟,60万联盟合作伙伴每天有50亿次的日均行为产生,一起构成了巨大的数据基础。
数据规模越大,处理难度也越大,但对其进行挖掘可能得到的价值更大。宝洁公司数字媒体与创新平台经营部市场总监陈万峰回忆,2012年百度帮助宝洁对旗下重点品牌“玉兰油”做了一次大数据分析,结果发现与其他竞争品牌相比,消费者在“玉兰油”关键词后跟着“适合几岁”的比例明显偏高,这意味着玉兰油的年龄定位比较模糊。为此,宝洁及时调整了营销策略,还顺势推出了一款针对25岁人群的细分产品,结果市场反响非常好。
当然,这只是百度大数据的初级梦想。百度魔图推出的“PK大咖”功能成为时下最为流行的App(应用),上线10天便成为苹果iOS免费应用的首位,它能够帮你找到和你最像的明星,这背后其实就是百度对图像识别的阶段性成果,即超越文字搜索的多媒体搜索,包括语音、图像和视频等。
余凯是百度技术副总监、多媒体部负责人,中组部“千人计划”国家特聘专家。多媒体部门是去年百度新成立的部门,这位曾在NEC美国研究院担任研究部门主管和在斯坦福大学执教人工智能课程的数据科学家,现在主要带领整个部门从事语音、图像等方面的研究,这些都是未来大数据重要应用,而语音、图像和视频都是非结构化数据,处理和分析难度更高,但非结构化数据将是未来大数据的主流。
今年年初,李彦宏成立了深度学习研究院(Institute of Deep Learning)并亲自任院长,还亲自出马去招揽人才,而这一切目的是通过大数据“深度学习”出互联网的未来。
“我们目前最关注的是大幅度提高语音识别的准确率,把图像、视觉搜索变为可能。”余凯告诉《中国经济周刊》,“深度学习是模拟人脑神经元的机制,我们希望利用它实现人工智能的梦想,业界顶尖公司达成了一个共识:大数据+深度学习缺一不可。我们有海量数据,里面有丰富信息,用一个简单模型不足以把丰富信息提取出来,所以我们要用深度学习模型,把里面数据的价值给找出来。”