拍案而起,十问大数据

目前看来,数据隐私问题有三个考虑: 1. 技术;2. 用户利益;3. 社会接受程度。

从技术上来说,以前有关数据的解决方式大都是把数据从终端迁移到计算端(如计算中心),得出结果后再把结果送到终端。这种方式无疑会引发隐私问题,因为一旦数据离开用户的个人终端,就无从保证谁将有权利接触数据,数据的隐私也就无从保护了。

要保护隐私,一种新的模式是“计算随着数据走”,也就是利用终端自身的强大计算功能,在终端算好一个结果(如一个预测模型,即本地模型),再把这个模型与某一个通用模型加以整合。这种模式无疑会引入更多计算量与复杂性,目前还属于前沿研究领域。这种方法就像是有人要买股票,但又不想别人知道他自己的需求,只读取网上有关股票的信息,与自己知道的需求结合起来,做出买卖决策。只要每个人足够聪明,又有足够的计算能力,这样的系统就会最大程度地保护每个人的隐私。

另一种做法是,仍把数据传输到计算中心,但在传输之前,将数据加以改变, 使其中的关键隐私信息在传输和计算中被隐藏起来,让人无法反推原始的敏感数据(如用户性别、住址等),同时又保证计算结果的真实性和可用性。实际上,一个更难的问题是:无论如何隐藏和加密原始数据,用户心里总有不放心的一点阴影。由于这个阴影的存在,用户永远不会相信一个单纯靠技术的隐私保护计划。可以预见,在未来,隐私问题的解决程度将成为用户选取产品的重要依据。

可是,大数据已经来到人们身边。今天社会上的每个人,实际上都是大数据的使用者。同时,又在不断暴露自己的隐私。比如,用户使用免费的电子邮件账户,即便知道这些服务商在挖掘我们的邮件信息;用户使用搜索引擎询问各种问题,尽管这令我们的问题被记录在案。既然如此,为何用户在使用大数据服务的时候,依旧乐此不疲呢?答案在于用户利益与隐私暴露的费用比:如果用户得到的利益大于个人数据泄露的价值,用户还是会同意接受并分享这些数据的。因此,隐私问题的关键是,如何让系统和用户在矛盾中寻找到一个平衡点。

最后,随着技术的发展,社会对于数据分享的接受程度也会改变。上一代人所不能接受的事物,到下一代可能就不是大问题了。Facebook 就是个例子: 实名制允许人们访问他人的主页,并看到许多信息,这一点在最开始引起不小的质疑,但最后,广大青少年热烈地拥抱这一新技术,并纷纷加入其中。

Q5:运营商管道vs 互联网用户大数据?

互联网与电信运营商的关系,可以用一个例子来理解:马路上形形色色的车辆可以视为互联网,车上所装的货物、乘客及运输系统可以视为互联网的数据和各种应用,而车辆所走的高速公路类似于运营商提供的管道。对于互联网而言,它更关心乘客和货物,关心如何把他们安全送到目的地。但从运营商角度而言,它更关心的是道路是否通畅。从这一点来说,互联网的数据有关乘客和货物,运营商的数据是车流量、道路拥塞的程度。所以,互联网的数据是终端用户数据,运营商的数据是关于数据的数据。

什么是关于数据的数据呢?以照片为例,像素点就是数据,而照片大小、类型、照片文件的产生时间与地点,就是数据的数据。

数据的数据在电信行业意义重大。但其前提是:资源无论到何时都是有限的。管道再宽,也是有限的。那么,从运营商的角度来说,他们希望知道什么呢?还是以车和路来比喻:

  1. 你想知道如何为一些重要的常客开辟一条快速通道吗?那就首先要知道哪些是重要的常客。只有知道了常客的群体,常客的特征,才能有效抓取到他们。
  2. 你想知道哪些重要车辆所属的公司在受竞争对手的高速公路公司吸引,正考虑换路吗?那就要分析这些车辆公司的痛点何在。
  3. 你想知道哪些路段需要特别维护,并派一些常驻维护车辆驻守吗?那就需要分析哪些是容易受损的路段。

这些对数据分析的需求随着运营技术的前进而提升。在5G 的场景下,运营商需要给大众提供更密集、更快、更个性化的电信服务,由此也就知道用户的使用规律、痛点、服务软肋在哪里。一个如影随形的高端服务并非由无数服务员在所有用户可能出现的地方等待,而是由一个聪明的服务员在用户需要的时候及时出现。未来的网络技术,如软件定义网络(SDN), 就更需要大数据的支持:SDN 的大脑可以根据网络大数据的深度挖掘所产生的修改,而变得越来越聪明。