斯塔西·施耐德(Stacy Snyder)曾经的梦想是成为一名教师。2006年夏天,她完成了获取教师资格证书所需的课程并通过了所有考试;然而她的梦想却在即将实现之时突然破灭她所在学校的一位负责人告诉她,她无法取得教师资格证书。
学校负责人展示了一张她上传到自己的MySpace页面上的照片,照片上的她戴着一顶海盗帽,正端着一只塑料杯饮酒。这张照片是她向自己朋友展示的,甚至可能只是搞怪,但学校认为这样的行为与教师的标准不符。斯塔西向学校承诺将这张图片从网上删除,然而为时已晚照片早已被搜索引擎索引,并被网络爬虫所记录。她希望她的照片被遗忘,然而互联网并不允许。
这是牛津大学互联网学院的教授维克托·迈尔-舍恩伯格(Viktor Mayer-Sch?nberger)在2009年出版的《删除:数字时代遗忘的价值》(中译版为《删除:大数据时代的取舍之道》,以下简称《删除》)一书中引用的一个案例。他告诉读者,遗忘本是人类的天性,但随着信息技术的发展,记忆变得越来越容易,遗忘却越来越困难;无法遗忘不仅会给个人带来不必要的困扰,也给企业制造了麻烦他们存储的数据日益增加,但其中很多随着时间的推移而失去了价值。因此,他呼吁引入一种遗忘的机制,例如为数据设定一个保存期限,“让我们记得去遗忘”。
尽管没能提出切实可行的“遗忘”方法,但《删除》独特的视角仍受到了学术界和互联网业界的广泛关注;这本书不仅获得了多项图书奖,还被翻译为德语、意大利 语、韩语等不同语言。
当“大数据”成为业界新的热点之时,在这一领域有着深入研究的维克托于近日出版了其新作《大数据时代:生活、工作与思维的大变革》(以下简称《大数据时代》),通过一个个生动的案例向读者介绍大数据的价值及其将会带来的改变。
12月11日,维克托携两本书的中译本来到北京,在不同场合与读者及业内人士交流大数据相关的话题。
三大转变定义大数据
大数据是今年IT界最热门的概念之一,然而对于“大数据是什么”,连许多经常谈论这一概念的从业者也无法给出准确的答案。正因为如此,大数据也被质疑为一个炒作出来的伪命题。
维克托也并未直接给出大数据的定义在《大数据时代》的引言部分,他就明确指出“大数据并非一个确切的概念”。不过,他用三大转变描述了大数据的特性。并详细阐释了这三个转变:
“首先,在大数据时代,我们可以获得和某个现象相关的所有数据,而不只是少量的样本。例如一项针对相扑比赛中非法操纵比赛结果的研究对64000场比赛进行了分析,这算不上一个很大的数字,但由于这是过去十年所有的比赛,所以它是大数据。大数据是相对的而非绝对的。”
“第二,由于有了更多的数据,我们可以接受更多的混杂、更多数据上的不精确。如果我们对于一个事物只有50个数据点,那么每一个数据点都必须非常精确,因为每个数据点都是有用的;但是如果我们有5000万个,去掉10个,甚至去掉1000个都没有太大的问题。”
“第三,我们分析大数据主要为了预测未来"是什么",而不是"为什么"。我们关注的是揭示哪些事情将会发生的相关关系,而非揭示为什么这些事情会发生的因果关系。因为很多时候我们以为我们找到了事情背后的原因,实际上却没有找到。更多时候知道了"是什么"就足够了。例如知道流感将会扩散到哪里就足够了,我不需要知道为什么;知道什么时候在网上购买机票能够获得最优惠的价格就足够了,我不需要知道为什么此时价格最低。”
大数据不应被过分炒作
表面上看,此次出版的两本书相互矛盾:《大数据时代》强调了数据的价值,而《删除》却提出数据应该能够被“忘记”。对此,维克托表示,两本书相互补充,而以上的两个观点可以完美地相互作用。
“大数据只有在没有噪音、没有无用的数据的情况下才能很好地发挥作用。在《删除》中,我认为我们需要有摆脱那些过时的、和我们现在不相关的数据的可能性。如果亚马逊忘记了和你当前的兴趣与偏好不相关的购书记录,它推荐书的效果将会更好。只有好的数据才能带来好的预测。”
对于大数据被过分炒作,维克托也表示担忧:“它被夸大了,好像一切都突然成为了大数据,大数据能解决所有问题,事实上人们并不了解它究竟是什么;一旦人们发现它不是万能的,就会感到泄气,然后大数据就被抛弃了。”在他看来,尽管大数据非常强大,但“人们需要明白它不是什么,我们不能将它过分夸大”。
对话维克托:数据保留与否应由用户决定
亚马逊、Google这些大公司已经积累了很多数据,但小公司、创业公司却没有多少数据,在大数据时代他们应该怎么做?
的确,这很有趣。很长时间以来,这些大公司的强大之处在于他们的服务器集群等基础设施。如今有了云计算,创业公司可以根据需要购买计算和存储能力,以解决基础设施方面的不足,但他们没有数据。数据是一些大公司独家拥有的。当然如果小公司选择了正确的领域切入,也能够获得数据。例如Inrix公司,他们开发导航软件,还能提供实时路况,告诉你哪里堵车。他们是怎么获得这些信息的呢?他们的基础导航服务是免费的,但如果你同意下载这个应用,它就会就会将你的行驶速度等信息传回后端,于是你就成为了这个平台的传感器。每天有数百万人使用Inrix,因此Inrix拥有数百万传感器,并获取了大量的数据。他们能记录在特定天气下人们的驾驶速度,并将这些信息告诉保险公司,或者告诉政府作为加强道路安全的参考。
通常企业只能通过自己搜集的数据进行预测,但他们的数据是有局限的。比如我在亚马逊上搜索了一本书,但最终通过其他渠道购买了,亚马逊并不知道,它仍会推荐相关的书,我却不再需要,如何解决这样的问题?
事实上目前已经有一些公司在分享自己的数据了,例如在网络广告领域。不过问题的关键在于你自己是否愿意你的数据被企业共享,如果你愿意让他们共享数据,你就能获得更好的推荐。如今在硅谷有一些创业公司正试图打造由个人、由消费者控制的信息共享平台。
相对来说用户可能会对大公司更加信任,更愿意把信息分享给他们,那么小公司如何让用户分享更多数据?
这不一定。可以换个角度来看,很多人不愿意把数据分享给Google或者Facebook,他们认为这些公司过于强大了;他们反倒更愿意把数据分享给小公司、创业公司。有意思的是,大数据能帮助大企业,也能帮助小企业,但对中型企业帮助不大。比如200-500人规模的企业,它们不够小,不像初创企业那么灵活,也不像Google那么强大,因而被挤压在中间,没有自己的优势。
未来企业针对大数据的分析是更多依靠云计算还是更多依靠企业内部的计算能力?
这完全取决于公司的规模、能力和他们所处的发展阶段,没有一个统一的答案。如今计算和存储能力都可以从外部获得,所以一家公司应该看看是使用内部的处理能力还是使用云计算更划算。
你认为在大数据时代,与隐私保护相关的法律应该有所调整吗?
是的。隐私权可以让个人对互联网、电子商务更信任;如果没有隐私权,我会对我在网上所做的事情很谨慎,因为一旦我将某件事告诉别人,我就可能把它收回来了,我无法控制它。所以我们需要隐私法,但隐私法也需要创新。如今欧洲的隐私法规定,企业最多只能将数据保存到首要目的完成的时候为止。这是在小数据时代制定的法律,在大数据时代已不再适用,因为数据的价值往往并非体现在其首要用途上,而是在其次要乃至第三位的用途上,可能是你收集数据时并不知道的用途。所以我们要做的是,让数据不再只能被保存到它的首要用途完成时为止,而是将决定权交给和数据相关的个人,让他们来决定是否删除数据。
在《删除》中你说应该对企业保存数据的时间有所限制,这是否会影响企业对于大数据的使用?
我的意思是,数据能保存多久应该由和数据相关的个人来决定。例如我如果希望我的数据在亚马逊上保持很长时间,我需要有这个权利和意愿;但我必须同时拥有删除这些数据的权利。亚马逊也会因此获益,因为如果我告诉他们“删除我8年前的购书记录,因为这和我如今的兴趣无关”,这样能将一些噪音排除,他们的推荐会更精确,我可能会买更多的书。
如果大数据能够准确预测未来,我们就可以在面临选择时做出最合理的选择,但很多时候我们的个性、我们生活中的快乐正是源自于一些非理性的选择,大数据是否会让我们失去这些?
只有当我们知道了真相是什么、当我们理性的时候,我们才能非理性。我们可以理性地去面对不合理的情况,这是我们主动选择不理性的,符合人类的习惯。例如数据告诉我抽烟不好,但我依然可以抽烟,这是非理性的,但这个非理性的决定是基于一个理性的选择,因为我知道了真相,所以我在做选择时是理性的。如果没有数据,我就不知道我什么时候是理性的,什么时候是非理性的;很多时候我认为我做了一个正确的决定,实际上却是一个错误的决定。所以在有了数据之后我们的生活依然可以很有趣。
你说遗忘是人类的天性,但事实上如今的人类也丧失了一些我们祖先所拥有的能力,那么人类在数字时代丧失遗忘的能力是否可以被看作是一种进化?
可以这么说,但进化应该是个缓慢的过程,尤其是要重组大脑。在很偶然的情况下,进化可能会使人类丧失某项能力,但这需要很多年才能完成。