《大数据时代》作者维克托·迈尔·舍恩伯格:数据与未来

中云网消息  8月29日-30日,以“数据重构未来”为主题的D-Future七牛数据时代峰会在上海举行。七牛携百名创业明星,技术大咖汇聚国际时尚中心,共话数据发展,探讨行业未来!

牛津大学网络学院 互联网治理与监管专业教授、《大数据时代》作者维克托·迈尔·舍恩伯格亲临现场,并做主题演讲,他表示,过去我们是希望利用数据来回答问题,首先假设问题,然后收集数据,最后进行分析。现在随着数据收集的成本越来越低,越来越方便,我们可以先从数据收集着手,然后分析数据,通过分析提出一些非常棒的问题。这更有助于企业为用户提供个性化的服务。

以下为演讲实录:

非常荣幸能出席今天的盛会,今天上午我们听到了很多技术的演讲,技术实际上给我们带来了变革,这些变革也给我们带来了一些前所未有的成功,比如在商业界,还有各个公司,大公司小公司,给他们带来了成功,在接下来的30分钟,我想要让大家思考一下,数据实际上给我们带来了工具,这些工具给我们带来了成功。但是我们真正取得成功,还是要取决于我们利用这个工具的能力。这就需要我们要好好的了解什么是数据,还有未来的数据到底是怎么样的。首先我给大家讲一个故事吧。这个故事实际上是我的同事凯尔(音)所发现的一个非常有意思的故事。

好象出了一点技术问题,好象有一点变化,但是我还是我。我的朋友凯尔(音)跟我讲了接下来的这样一个小故事。在美国的超市,很多年前他们销售这些蛋糕,这些蛋糕有不同的口味,巧克力蛋糕、香蕉蛋糕、桃子味的蛋糕,这个蛋糕的尺寸大概是30厘米那么大,就像一个馅饼一样。如果你问一下这些美国的超市,他们销售的这些蛋糕当中,最受欢迎的销量最好的,大家觉得在美国最受欢迎的是什么馅饼呢?苹果馅饼,是的。但是如果你要真正去问一下,他们是不是真的喜欢苹果馅饼,实际上可能很多人并不是真的喜欢苹果馅饼,他们为什么不是最喜欢苹果馅饼,却买它呢?为什么呢?因为想一想,它有30厘米那么大,那全家人呢?买一个苹果派就够了。那家里的所有人可以达成一致,他们起码比较喜欢的就是苹果派,比如像巧克力派、香蕉派、桃派,就是苹果派不是他们最喜欢吃的,但是他们可以吃,这个可以达成共识。因此很多年以来,世界上的这些超市,卖的派可能未必是人们最喜欢的口味,之后他们发现了问题所在,就是尺寸问题。如果你让它尺寸变小的话,也就是说,每一个家庭可以不止买一个派,每一个家庭成员都可以买一个自己喜欢吃的口味。如果你把尺寸变一下,他们可能就不是买苹果派,可能他们根据自己的口味买香蕉派、梨派、桃派,这个问题就很简单了。

因为在之前,很多年以来,这些超市的策略是不对的。实际上是尺寸的问题,而不是口味的问题,他们的尺寸太大了,之后他们进行了调查,问用户到底喜欢吃什么口味的,他们肯定喜欢说,我想要吃苹果派,因为只有那个尺寸的苹果派。大家可能说等一下,我们一直做研究数据,我们一直看周围的环境是什么样的情况,是的,是这样的。但是几百年前几千年前,我们看当时的世界,观察它,了解这个世界。那么在过去我们一直以来,都是这样做的,我们一直也在搜集数据。搜集数据,分析数据,是需要花费很多的时间,有时候也是非常困难的,需要做大量的工作,有时候也是非常昂贵的。我们有了几千年的历史,也在不停的搜集数据,代价是非常昂贵的。但是我们可能用到的数据只有一小部分,有是有限的,我们花了那么多钱,搜集这个数据,但是我们处理的量是很小的。因此我们之前拥有的数据规模是非常小的。每天我们所处理的数据,实际上规模、数据是非常小的。大家可以想一下,我们现在的数据分析,或者是一些小的样本。它们都是一些小的数据。我们是把数据缩小到一定的规模,然后从这些小的规模数据上找到一些理论。当然了,那是小数据时代,也是我所成长的一个时代。

但是现在一切都变了。我们现在搜集数据分析数据的能力越来越强了。而且现在搜集数据的成本也下降了。现在数据价格成本已经不贵了。便宜了。因此我们周围一切都变化了。那这时候我们就需要改变自己的思维,因为我们所处的是大数据时代。如果我们找到新的方法,就可以有新的理念。

在过去我们希望可以利用数据,来回答问题,首先可能是先是假设,这就是一个问题,然后搜集数据,最后进行分析,这就是一个流程。首先我们从问题切入。最后这个问题可能会给我们带来这个答案。那么这个问题,比如说大家最喜欢的口味的派是什么,是苹果还是桃味的?最后我们拿到了问题的答案,可能就是苹果派,最后我们就觉得苹果派是最受欢迎的,但是反而我们得到了这个问题的答案是错误的。那么现在我们其实可以做一些改变,改变一下我们的方式,我们不是从问题开始着手,因为有可能我们的问题本身就是错误的。我们先从数据着手,然后从数据开始搜集数据,进行分析。然后通过分析,我们可以提出一些非常棒的问题。比如说这个派的尺寸,最合适的尺寸是什么,这是正确的问题。根据这个分析,我们可以获得这样的一个假设。最后我们可以得到问题的答案,就是我们需要一个尺寸合适大小合适的派。我给大家拍张照片,后面的两位请微笑。好了,非常棒。现在我就要做一个决定,我拍了这个照片,什么是重要的,比如说如果你是非常重要的,我们就聚焦在你身上,后面的人就变成模糊的影像,我可能决定你是我的焦点,我不能让你成为一个模糊的影像。或者是我的焦点放在你这个人,那么你后面的人可能会变成模糊的影像,这意味着什么呢?我现在在照一个照片,我首先要清楚,我感兴趣的事物是什么,人是什么。我的焦点在哪里,我需要知道这个问题,知道了这个问题之后,我才能知道答案。但是如果我现在不知道焦点聚集在谁身上,那怎么办呢?实际上这个聚焦也是属于小数据,如果现在你现在已经决定了你聚焦在谁身上,这个就是小数据,如果现在还没有决定那怎么办呢?大家可以看这张照片,有一个牙刷,后面是我四岁的儿子,可以看到这里牙刷是我聚焦的位置,我儿子就变得模糊了。但是现在我想改变焦点,让我儿子成为焦点,那怎么办呢?那我们这张照片实际上是用大数据的摄象头来设想的,它实际上可以捕捉到各种各样的数据,现在我们想要让我的儿子变成焦点,我用这个大数据摄像机拍完了之后,就可以调节这个焦点,在牙刷和我儿子之间切换焦点,因为这个摄像机搜集到了所有的数据,不是小的数据,而是大的数据,因此我可以改变聚焦的位置。所以我们搜集所有的数据,不需要先定义问题,可以先把数据搜集起来,再聚焦问题是什么。也就是说如果你可以搜集到全面的数据的话,可以发现创新性的问题。而且你可能完全不需要回答这些问题,大家可能听说过这个品牌,多林国(音),实际上这是一个学习的应用,你可以用Iphone或是安卓系统来学习外国的语言。非常有意思,而且很酷。如果有兴趣的话,我也鼓励大家使用这个应用,全世界范围内有很多的人,每天都在使用多林国这个应用。我们使用数码设备,来使用这个应用,这个应用实际上可以捕捉我们的数据,捕捉我们的信息,可以捕捉我们学习语言的习惯,而且进行分析。多林国(音)这个公司,西班牙语的这些人,他们学习英语的方法是错误的,他们学习顺序是错误的,如果你可以改变一下这个顺序的话,西班牙人学习英语的速度就会越来越快。实际上他们一开始不是为了回答这个问题而搜集数据,他们先是搜集数据之后,然后分析数据,这个问题就出现了。他们通过分析,他们就调节了一下西班牙人学习英文的数据,帮助他们更好的学习英文,因此取得了成功。大学为什么不用这种方法呢?为什么我的教授同事们没有想到这一点呢?因为他们没有数据,而多林国(音)公司搜集到了这些数据。多林国(音)一开始并不知道怎么使用这些数据,但是他们逐渐逐渐的发现了可以如何应用这些数据,提升了用户的体验,也就是说,他们实际上可以实现很大的价值。他们不仅可以为客户提供更好的价值,而且可以带来利润。在过去,在以前,我们首先是提出问题,然后开始搜集数据,然后进行分析,最后拿到答案,最后把数据给扔了,因为数据已经完成了任务了,所以就把它扔到了。你要存储数据的话也是非常贵的,但是现在储存数据是不贵的。现在你可以应用数据实现更多的价值。你可以反复利用它,实现其他的目的。实际上我们看到的数据只是冰山一角而已。我们看到的是海洋之上的数据,大部分的数据是隐藏在海洋之下的。如果你重复使用这些数据,就可以发现潜在的价值。

大家应该是听说过劳斯莱斯这个品牌吧?但是我这里提到的并不是这个奢侈品牌,不是这个汽车,而是飞机的发动机。大家应该也知道劳斯莱斯它也是为飞机制造发动机的。比如说像空中巴士、380,都是他们提供的发动机。他们也是搜集了大量的数据,比如发动机的温度、压力、速度、振动、噪音等等,这些数据就是发送到发动机的计算机之中,再发送到这些公司之中,那劳斯莱斯就把这些数据全部储存起来。飞机每一个发动机搜集到40G的数据,这些数据最后反馈到劳斯莱斯的总部那里,通过这些数据他们会发现世界上有多少飞机是在使用他们的产品。他们又分析了这些数据。比如说像这些,飞机是停在哪里,或者是什么时候哪里出了问题,实际上这些技术故障出现之前,他们就进行维修保养了。如果在飞机起飞的时候出问题的话,那肯定就不行了。劳斯莱斯发现如果仅仅是搜集数据,而且知道自己要做什么的时候,开始搜集数据,实际上已经为时已晚。最好的方式就是能捕捉数据,随时随地的搜集数据,有时候你可能不知道板怎么利用这些数据,但是先把它搜集起来,因为在未来,可能它就起作用。

大家应该知道jawbone,这个手环的制造商,他们也在搜集这些数据,比如你起床、运动频率等等数据。我们也可以搜集数据,然后进行分析,去年的时候,加州发生了地震,在加州有很多人都佩戴jawbone,他们不断的搜集自己的数据,而且在地震发生的时候,是午夜的时候,他们搜集的数据有一个区县,可以看到这里用户的数量,他们戴着jawbone手环,在晚上三点钟的时候,应该是大家都在睡觉了,但是突然地震发生了,然后我们看到这个峰值,因为地震发生的时候,大家肯定要从床上跳下来逃生,大家就看到了这样一个曲线变化。为什么这个数据特别的重要?因为不同的颜色代表不同的城市。就告诉大家这个地震的程度有多少,在不同地区,这个地震是大还是小。jawbone的用户他们很好的捕捉到了地震的数据,甚至比政府做得还要好。甚至比政府地震仪捕捉到的数据做得更好。jawbone就想了,我们不仅可以来预测地震,因为它现在已经搜集到了这些地震的信息。但是实际上这些大数据给我们提供了一个现代平台,大家可能听说过一年多前谷歌收购了nest,它是生产恒温计的。其中一个创始人我也认识。这个恒温计是调节你在家里环境的温度,谷歌收购了这个品牌,他们花了三十亿美金投资到这个公司,大家就想了,30亿,就买了一个恒温计的制造商,真的吗?值不值这个钱?他们并不了解谷歌的想法,这实际上是一个智能恒温计,这个恒温计可以记得你整个温度的调节,它可以记忆你这一天之中,哪个时间段是调节了温度,因此它就可以捕捉这些数据,了解你的行为,不论是你在家里,回到家的时候,是你想要温度上升,或者是温度下降,它在了解你的习性,了解了这个习性之后,数据发送到总部。那么现在谷歌就获得了很多人在家里的温度的情况,而且在哪个时间段需要什么样的温度,这些数据都搜集到了,大家可以想象一下这些数据的价值有多少。这样大家可以通过这样的方式来进行能源保护,节省能源,比如说你可以采取一些环保的措施,这也是为什么谷歌收购了这个品牌。它实际上提供了一个全新的平台。

大家看一下这个照片,汽车,电动汽车,这个是一个非常漂亮的汽车,而且非常快。这个一个创新型的汽车。因为它是电动的。然后我们看这个车,特斯拉其实已经不仅仅是一台汽车了,它对于我来说,就是一个数据,它是一个数据搜集的平台,你在驾驶特斯拉的时候,实际上汽车上装载了很多的传感器,它可以去搜集到,比如说振动的数据,加速的数据,转弯的数据,包括汽车平衡性、稳定性的数据,都可以搜集到,包括整个的刹车系统、振动系统,包括一些应急措施,这些数据都可以搜集到,搜集到这些数据特斯拉怎么做呢?当然它可以进一步的提升汽车性能,比如去年的时候,他们进行了提升,特斯拉的用户会发现他们的软件是实时更新的。比如汽车行使历程更多,可以提升10%.特斯拉可以用数据发现这些用户区了哪里,充电站在哪里。或者可以用一种无人驾驶的汽车,可以帮助你驾驶。通过这些数据,它也可以告诉政府,这些路段哪一些地方比较安全,哪一些比较危险。这些是通过数据而来的,未来的汽车实际上就是搜集数据的平台。它不仅载着我们从A点到B点,也是一个数据的平台。

大家听直说过这个平台uber吧?它是一家出租车公司。这是通过交通出行来赚钱的公司。uber市场价值成千上万美金,为什么它有这么高的价值呢?它也是有数据,比如客户去了哪里,汽车的行使,等待时间等各种各样的数据,uber也是利用这些数据进行变革,变革我们移动的方式。当然这里也有问题,很多人都有汽车。在欧洲和美洲,几乎每个人都有自己的汽车。实际上你花了很多钱在自己的汽车上,但是这个汽车的使用率是怎么样的呢?大概只有4%的使用率,96%的时间,你的汽车就停留在那里。这个效率实在太低了。如果我们可以把这个效率提升,如果我们可以提出一个新的理念,使用自己的手机,然后按一个键,然后一个汽车,无人驾驶的汽车直接行使到你面前,然后你驾驶着它到另外一个地点,或者可以自动支付,上了这个汽车,载着你到另外一个地方,然后自动付款,然后它再去载另外一个人,这样汽车使用率就大大提升了,这样你就不用花很多钱去买汽车。现在这样的效率低下的情况就可以避免了。

还有airbnb,这个是度假的时候使用的,比如你可以利用它来找民宿,你出去旅游的时候,airbnb可以帮助你把房子租出去,因为你出去度假,房子是空置的。我们看到这样一个现象,数据的效率转变资源效率。现在我们从数据转移到了资源效率,我们用更多的数据,我们处于大数据的时代。比如说我们不断的提升汽车的效率,移动的效率,房子的利用率等等。这都是有关于资源利用的效率。不管是uber、airbnb、谷歌,他们都是利用数据来提升效率,创造价值的。那谁拿到了这个数据呢?是uber这个公司拿到了数据。nest拿到了数据。谷歌拿到了数据。不是租房子的人不是旅游的人拿到数据,而是airbnb这家公司获得了数据,也就是说这些公司,他们在捕捉数据捕捉价值上做得非常好。

大家想到数据,可能想到数据的规模是非常重要的,比如谷歌,谷歌是花了三十亿的美金,收购了nest获得了数据。在大数据时代,实际上这个规模可能没有你想象得那么重要。在美国有一个公司,它是预测消费品产品的价格,它就可以预测,比如像电视机的架构,它可以预测到电视机的价格是上升还是下降,他们可以直接预测到这个趋势。如果这个预测错的话,他们就会给你返回到差价。但是70%的概率他们是正确的。他们所做的也是捕捉数据,他们在每天搜集到很多很多的价格点的数据,每一天成百上千万的用户数据他们都搜集到,还有消费品产品数据都搜集到,大家觉得这个公司规模有多大呢?总共30个人,包括清洁工。他们有多少服务器呢?0个,他们完全是使用云端武器。大数据好象听起来很大,规模很大,但是这一端,小的一端也是非常有意思的,就是一些初创公司,小的公司,也可以很好的使用这些大数据,因为你不需要购买很多的服务器,雇佣很多的员工,来搜集大数据。这些小的公司也可以搜集大数据,因为你只要有存储空间,你只要有处理能力就可以了。而且这些成本也不高。因为我们有云端,因此大数据后面的基本的原理,一个理念,就是未来的数据已经不在于机器了,而是在于你的理念了。你需要有这样的理念,你要想象一下如何利用这些数据。这些云端可以帮助你处理一切的数据,非常感谢大家。