大数据是一把双刃剑,所谓水能载舟亦能覆舟,我们应该利用这个手段来实现更好的商业和社会的公正性,还是应该放弃这个手段来保护我们的隐私?是一个永远的问题。而现在首先要做的,是把“大数据”带出被神化了的世界。
被新闻媒体和学术会议宣传得近乎神化的大数据,最近也频频被泼冷水。2013年年初,美国知名大数据分析公司Avasid联合创始人兼CEO Gurieet Singht就暗示大家“大数据”可能并没有那么靠谱。他指出,从查询开始分析数据本身就是一个死胡同,目前,研究人员还只是从收集到的数据中提取1%进行分析,而这1%被分析的数据却用来支配企业的革新和形成某种见解,这显然是不科学的。2013年5月,阿里集团王坚的一篇“大数据,你们都理解错了”的讲话,立刻抓牢人们的眼球,也值得让我们反思,大数据到底是什么?一直以来真的都没有抓住要点吗?
我们没有理解大数据的真正含义吗?
Gurjeet Singht的观点有很扎实的依据。面对数据宇宙规模爆炸式的增长,科技发展的速度并没有与之相匹配。根据IDC最近的报告,当前人们每天可以收集的数据约1qB,而数字宇宙的规模已经达到了2.8ZB的数据量。IDC预计,到2020年数字宇宙的规模将高达40ZB。移动技术、传感技术的发展,让人们采集数据的能力不断增强,但识别数据的技术发展速度却没那么乐观。比如,在当前数据宇宙中很多有价值的数据,都是基于文档的未被标记的非结构化数据,人们对这类数据的识别、处理技术的研究刚刚起步。但市场中所谓成熟的大数据分析方法,却普遍是基于有效数据标识来采集用于分析的数据。根据这种方法,有些数据因为无法识别所以不能被标记,因而不能被视为有效数据,在用于分析前,它们就会被抛弃。这一问题导致大量有价值的数据就这样丢失了,完全没有被利用。
王坚的论述也有相当丰富的例子作为佐证,大数据很早以前就有,然而,数据仅有“大”是完全不够的,即便是拥有全世界最多数据的欧洲对撞实验室,只要他的数据与互联网不沾边,那么他对大众来说就变得没有意义。所以,今天我们对数据本质的研究不应该是大,而应该是“在线”。在线让数据搜集变得容易,比如,以前美国要大选总统时,需要做盖勒普民意调查,抽取2000人进行调查问卷的填写,而现在,只需要在Twitter上分析每个人发布的状态,就可以推断出总统是谁,并且能够快速影响社会。但是,要让产品和数据结合得很好,还需要一个漫长的过程。
磨刀不误砍柴工——玩转大数据
纽约创业公司Media6Degrees首席科学家克劳迪娅·珀利彻也给正走在被神化道路上的“大数据”重重的一击,“你可以用数据来欺骗自己,但我担心大数据出现泡沫。”
珀利彻担心许多人将自己称为“数据科学家”,但实际上却并未做足功课,反而给该领域抹黑。 珀利彻认为,大数据似乎将面临劳动力瓶颈,因为现有大数据专家们技能提升的速度远远不够数据的增长速度。麦肯锡全球学会在2012年发布的一份报告也显示,美国需要14万名至19万名具有“深度分析”经验的工作者,以及150万名更加精通数据的经理人,无论是已退休人士还是已受聘人士。这个数字无疑是庞大的。
管理大数据要比搜集大数据意义重大的多,如何问问题,如何定义问题,从哪里提取数据?这都需要专业数据分析人士的技能,如果个人数字世界的算法过于简单,就不会达到预期描绘的那般智能。试想,如果没有挖掘出数据背后真正的价值,那么,再庞大的数据量也只是空弹,无法击中要害。所以,大数据专家们都应该意识到大数据技术的局限和不足,培养经验和敏锐的直觉,不能仅把听取数据放在重要的位置。
也许现在大多数应用大数据的企业,还只迈步在1.0、2.0版本上,但真正意义上的大数据时代,也许要到3.0版才能实现。
——电子科技大学互联网科学中心主任、教授、博士生导师周涛
善用数据,让版本升级
在新一次可能的第三次工业革命中,数据、计算将扮演材料、能源和先进工艺技术这样的角色,如果把计算看成能源,能够允许它像电力一样进入大众的生活并流动起来,以一种统一的收费方式,不在乎计算从何而来,就像我们不知道今天我们用的5度电是来自大亚湾还是三峡。可以想象,在未来云计算以及其他的计算能力将成为一个国家非常至关重要的核心战略之一。数据就是其中一种战略材料,每一个企业、科研团队、都有责任通过一些计划,有目的的搜集、处理、分析和索引数据。然而,未来的大数据如果想要成就伟大的企业,真正先进的工艺技术来自于更深入的分析,需要更聪明的头脑,不再等同以前工业革命时期的工业技术,而在于拥有更聪明的头脑。
更多详细信息,请您微信关注“计算网”公众号: