2007年,Google研究员Halevy、Norvig和Pereira发布了一篇类似的论文,描述AI如何在吞食了大量数据之后变得“不可理喻的高效”——在很多领域都是如此。
AI的竞争,从此变成了数据量的军备竞赛。
回顾这几十年的AI发展史,AI技术在最近几年的发展速度是最快的,而数据量就是关键。
今天,无论是Google、Facebook,还是阿里、腾讯、百度,都管自己叫做数据公司。无论他们是卖广告、卖商品、卖理财、卖游戏还是卖外卖,对他们而言,数据量就等于赚钱能力。这些在数据量储备上远远超过了其他竞争者的巨头们,并不会希望被市场上的其他玩家掌握更大量级的数据。
然而对于数据收集能力有限的非巨头玩家而言,数据共享可能会给他们带来数倍体量的数据集,这会带来显著的好处。比如,如果各个银行们将数据合并为一个数据集,则每一家银行都能够更准确的识别信用卡欺诈。如果能源公司与制造公司的数据能够合并为一个数据集,则其中的每一家公司都能够更准确的预测市场。如果全球四大钻石鉴定实验室的数据合并为一个数据集,则每一家鉴定机构都能够更准确的为钻石定价。如果保险公司能够获取这些能力,则也能获得更大的收益。
当区块链大数据遇到AI
以前由于安全问题,大家即使看到了数据共享的好处也不敢去做。而一旦区块链大数据技术成熟,情况将有所不同:
- 去中心化的数据控制方式将促进数据的共享,不仅意味着更多的训练数据(对AI而言意味着更好的模型),同时也意味着AI模型的共享。
- 更高效的数据验证,减少了训练数据中的坏数据,提升模型的可信度。
- 训练数据与模型成为可以交易的IP资产。
AI从业者总是面临一个挑战:上哪儿去找数据集?以前的数据集大多数在网上七零八碎的躺着,只有一部分比较完整的数据集收录在几个列表中,还有大量的私有数据集是我们获取不到的。如果我们有一个全球化的数据库来管理这些数据集呢?不仅有Kaggle,有斯坦福的ImageNet,还有无数其他的数据集。
有需要的话,就上IPDB看看吧。人们在这里上传自己的数据集,使用他人的数据集。数据集本身存储在类似IPFS的去中心化文件系统上,IPDB上保存元数据用于索引。以后,IPDB上也许不仅仅有数据集,还可以有从这些数据集中构建出的模型。人们可以在这里使用他人的模型,上传自己的模型。
共享到区块链上的数据本身具备资产属性,可以直接交易与变现。这也可能成为一个数据共享的驱动力。事实上,今天的公共数据市场已经有十亿美元的体量——一个有Bloomberg的1000倍那么大的去中心化数据市场是完全有可能实现的。
现在已经有相应的区块链技术可以把数据集与模型注册为IP资产,简单来说就是:
- Coala IP协议
- BigchainDB数据库与IPDB数据共享平台
- IPFS文件系统配合Storj、FileCoin等硬件存储设备
做为示范,Trent在ascribe给一个自己以前做的AI模型申请了“著作权”,得到了一张虚拟证书:
数字版权可以以非常具体的方式进行授权,如著作权、所有权、使用权、编辑权、分发权等等,这些权限在区块链中可以相对容易的进行管理。就比如在DeepMind基于区块链的医疗项目中,用户就可以自己保有数据所有权,只授予DeepMind使用权。
最后,别忘了还有AI DAO这种可能性,让AI可以自行征用更多资源。
在过去,人类已经培育过去中心化的程序,那就是病毒。没人能拥有它们,没人能控制它们,没人能关闭它们。它们只是存在,试图搞坏你的计算机。
今天,有了更好的API(智能合约语言),有了去中心化的存储系统(区块链),这些去中心化的程序将能够做更多的事情。
通用人工智能——AGI,是可以自发行动的代理决策者(agent),是一种反馈控制系统。控制系统是个顶呱呱的好东西。控制系统的数学基础深厚,可以追述到1950年代Wiener的“Cybernetics”。控制系统与这个世界交互(通过传感器与执行机),并适应这个世界(通过内部模型与外部传感器来更新自己的状态)。控制系统应用广泛——恒温空调、降噪耳机、汽车刹车、下围棋的AlphaGo,这个世界到处都是它的身影。