大数据挖掘价值:现实为谁的终极利益服务?


 
Farecast的启示在于,大数据的核心在于思维,而非数据或者技术本身。12000个价格样本绝对不符合大数据的4V定义。但是,通过奥伦卓越的建模能力,人们可以初步窥见价格与日期之间的相关关系,随后再对系统“喂入”新的数据,不断优化模型,提高预测的准确性。
 
大数据处理能力没有那么神秘,至少在IBM中国研究院信息管理和医疗健康首席科学家潘越看来是如此。与大数据相关的技术,可以归纳为三类:数据获取与治理能力、数据分析能力和数据呈现能力。潘越等一批科学家认为,技术的发展很可能会使得这些能力“傻瓜化”。
 
至少现在看来,中国不缺数据,缺乏的还是能力,奥伦.埃齐奥尼这样的能力。这也可以解释为什么大多数公司更感兴趣的是如何处理好“数据”,不论规模大小。
 
车品觉是阿里巴巴集团大数据委员会负责人,他认为大数据是一种“忽悠”。数据越多、越大,数据分析越复杂,负担就越沉重。在淘宝的平台上,如何“生产”有质量的数据,如何进一步挖掘消费数据,这些话题他兴致盎然,但他并不热衷于大数据的概念、定义和社会学上的讨论。
 
到目前为止,阿里巴巴处理并存储了超过100PB(1个PB等于1024个TB)的数据。2013年,它在内部建立了一个虚拟组织单元,称为数据委员会,把分布在阿里巴巴集团内部25个事业部从事数据处理业务的800多位人员,集中在一起,群策群力应对数据质量、数据安全和数据运营的挑战(详见《解码阿里数据》)。
 
即便如此,阿里巴巴在数据分析上的能力还只能处理和利用淘宝平台上有限的数据,人才被视为实现数据智能的关键制约。在规模上比淘宝小得多的1号店,持有相同的观点,于刚抱怨建模人才“非常稀缺”。
 
从数据到数据智能,再到大数据智能,之间站着1000个奥伦.埃齐奥尼。

4

笼子

保护隐私安全,保障载体公正,这是涉及生命与存在的终极问题。
 
未实现不代表不会发生。
 
即便公司们还站在大数据时代的旧石器阶段,作为产生数据的每一个个体,我们应该想想未来的场景,毕竟游客们已经落入拉斯维加斯赌场的彀中。
 
去年我的生日设为1月1日,今年改到4月1日了,因为我不想让大大小小的网络公司获得真实的私密信息。然而,面对日益强大的大数据技术,消费者所做的种种信息伪装显得那么幼稚可笑。对应网络上的“我”,越来越多的人有多套数码身份,但伪信息战中的失败一方总是消费者。以社交网络“脸谱”(Facebook)和“商联”(LinkedIn)为首,大数据让个人隐私无所遁形。
 
其实,社会呼唤也亟需能够促进信任、提升责任的大数据。为提高公平透明度,美航剥离了萨博(Sabre)飞行信息和预订系统。如今,35万家旅行社和400家航空公司使用这个系统。2008年金融危机后,美国政府立法分离投资银行自营和代客理财业务,遏止公司滥用信息不对称的优势;在医疗行业,“姜网”(Ginger.io)结合智能手机、卫星定位、哮喘患者报告,建立了观察花粉分布、有效治疗哮喘的平台。这些正反案例都值得中国企业深思。在建立平台、运用云计算、获取和处理数据一体化模式过程中,中国企业特别需要从正反两方面认识到大数据的社会性。
 
研究UFO的人认为,外星人殖民地球最简单有效的方法就是发送遗传基因数据,然后就地选择载体。观点大胆了一些,但道理很实在:人的一切都能分解为数据和载体。保护隐私安全,保障载体公正,这是涉及生命与存在的终极问题。
 
“商业的社会责任就是提高利润。”米尔顿.弗里德曼(Milton Friedman)已经告诉我们,生命与存在的问题不能交由商业机构全权处理。与大数据盛行的北美相比,中国需要制度的笼子,严格保护隐私的法律;需要商业规范的笼子,严格内部管理流程,杜绝未经客户允许的信息营销;需要社会理念的笼子,让值得信任的企业兴盛起来;需要应用技术的笼子,像北美医疗信息软件一样,自动除去病人的姓名和身份信息,然后输入大数据库。中国还需要有更多像麻省理工教授乌尔班(Glen Urban)这样的学者,呼吁和倡导基于消费者信任的营销策略。

更多详细信息,请您微信关注“计算网”公众号: