日报:在数据的分析和使用中出现了哪些新兴的工具?
涂子沛:主要是数据挖掘和机器学习,它们之间也存在很大差别。
数据挖掘就是建一个固定的模型去分析数据,但机器学习的模型却是灵活可变的。也就是说,数据越多,机器学习的模型就能自我调适让它更加精确。
举个例子,现在图形挖掘中的一大难点就是人脸识别。如果按照数据挖掘的方式来做,可以通过人脸的特点把模型建立起来。但如果是机器学习,一开始只是建一个初步的模型,建好之后再拿成千上万的脸部图给这个机器,它就会自己去判别每一张脸的特点,然后改善模型。原来在数据挖掘的固定模型之下,判别的失误率很高,而机器见的脸越多,它的识别率就越高,判断就越准确。
数据挖掘是一个固定的模式,不会轻易改变。但机器却可以在识别和处理人脸越来越多的基础之上调整各种参数,让自己的模型越来越准确,所以称之为“机器学习”。在这种情况下,机器和人一样获得了智能,甚至能产生判别。
大数据最重要的意义一个是整合,另一个是自动化。通过大量数据的整合,人们能发现以前所不能发现的知识,于是产生了价值。第二,可以通过大数据让机器获得智能,实现自动化,这也是人类使用数据的巅峰状态。
新模式
日报:大数据怎样改变了传统行业的商业模式?
涂子沛:这次回国我参观了通联数据这家公司,这是一家新兴的创业公司,他们要用大数据开发新一代的基金管理和交易的平台,具体做法是收集大量的、多源的、实时的数据,为基金经理和投资者提供数据分析、查询和判断。通联数据也在思考探讨如何用大数据去衡量小微企业的信用,或许这能开创一个新的商业模式。
另外,浙江的银江电子股份公司也在思考如何利用大数据技术来帮助浙江省政府解决医疗保险中的欺诈行为。这样的创新依赖于医疗领域丰富的数据。教育领域也有非常多的数据可以用,比如高考数据要是开放出来让民间去挖掘,一定能得出大量有助于考生填报志愿、优化录取过程的结论。
除此之外,公共领域也有一些新的应用,政府也在尝试破冰。例如,广东省正在用大数据来抓假车牌,我从广东省的经信委得知,仅2013年就抓了50多辆套牌车。
这种基于大数据的竞争是一种精细化竞争的要求和表现。但总体而言,国内的商业竞争还是比较粗放,很多决策也都是拍脑袋。所以在《数据之巅》里面我提出,数据是从“中国制造”到“中国创造”的抓手,也决定着商业形态从粗放向精细化转型。
日报:数据使用方面出现了哪些新的商业模式?
涂子沛:数据的使用要兼顾个人的隐私保护,目前已经出现了一种全新的商业模式:用户授权使用。
毋庸置疑的是,未来消费者隐私的保护就是要把权利交回到用户手中,要用户授权才能查询个体产生的数据。
美国有一家经营小微企业贷款的公司叫做Kabbage,它会收集企业的很多数据来作为是否发放贷款的依据,其中一项是用UPS发了多少快递。但这里存在一个问题:Kabbage要去UPS查询企业的快递记录,但UPS需要该小微企业的授权同意才能这么做,即使该企业同意,UPS公司也可以拒绝Kabbage的要求。最终的结果只能是,即便用户授权了,Kabbage需要查数据时也要付钱给UPS。对UPS来说,数据就是资产,这就是新的商业模式。
另一方面,小微企业也可以直接找到UPS,希望拿到自己的数据。但数据经过它自己的手,Kabbage就可以质疑数据的真实性从而拒绝接受。因此这些企业可以寻求UPS的数据认证,然后再将其交给Kabbage。这样一来,UPS就可以向小微企业和Kabbage两方都收取费用。
从这个例子中可以看到用户授权、隐私保护、数据资产、第三方框架怎样使用数据等内容,这就是未来数据商业的模式。