监管可扩展性有限:AI系统可能无法对那些在系统中不方便太过频繁的评估的物体做出适当的反应。比如,如果机器人需要从人那里获得训练结果的反馈,那它就需要有有效的利用这条反馈的能力(而不能像普通的训练那样不停的核对训练结果),因为不停的问一个人问题是很烦人的。但目前这点很难做到。
环境探索安全性:AI系统评估环境的时候可能会造成太过负面的影响。比如,一个扫地机器人可能会需要进行建立拖地策略的实验来作为以后工作的依据。但是很显然它无论怎么实验无论如何也不应该尝试把湿拖把插进插座中。
分配转变的鲁棒性不足:AI系统处在与其训练环境完全不同的环境时认知和行为可能不稳定。比如,启发式算法让机器在在工厂中学到的行为可能在一个办公室中就会显得不那么安全。
仔细看完这些条件会让人感慨现在AI的愚蠢却又诧异它那诡异的“智慧”。或许构建一个AI系统是世界上对逻辑性要求最严密的职业了,因为正是逻辑造就了AI,在它们的世界里现在还不存在感情之类的约束。如果你要求AI去完成一件事,那AI毫无疑问的会在它的逻辑框架下想尽一切办法去完成,哪怕因此必须要完成一些在人类看来是“作弊”或者“得不偿失”的动作。
因此整篇论文的关键点就围绕在奖励条件的建立和维护上进行。正如之前所说,论文中并没有涉及过多的具体方法和公式,而倾向于提供思路,一部分原因应该是RL的研究实际上还不足以支撑在这些措施的太过具体的实现,不过在某种程度上应该也是因为谷歌不希望太具体的方法限制了算法开发者们的发挥。
防范的思路
对应这五点可能的错误,谷歌在论文中零零总总列出了大概十条防范措施的思路,不过总结起来,大致就是从三个RL设计的三个最基本的方面来考虑的:
对于奖励条件本身的优化:
人类的行动都是基于常识和道德来考虑的,因此,为机器也加上一个类似的价值观系统是一个比较合理的考虑方向,谷歌在论文里提出:指派RL算法完成任务的时候,人们最倾向的希望其实是该机器人不要给环境造成任何影响——不要破坏环境中已有的物品,不要打翻花瓶,不要……。但是如果只是简单粗暴的给所有对环境的改变都加上负奖励,那很可能会导致代理最终决定不再做任何事,因为一旦代理开始行动,或多或少都会给环境带来改变。
谷歌对此提出了几种思路,包括推测一个代理用正确的方式完成任务后环境的状态,然后用这个状态作为奖励、对代理进入完成任务时不希望其进入的区域的行为作出惩罚,以及让代理能够理解它的行为对其他代理个体(包括人)带来的影响,但谷歌在论文里也指出,目前并没有足够强大的能支持这种理解的模型出现。
防止对奖励条件的滥用和曲解:
对于这个方面,谷歌提出的方法大概能分为这么几类:
谨慎行动:这是最笨的办法,只要人们设计系统的时候够小心,可能就能避开所有能被算法利用来获取奖励的bug。或者从另一方面来说,人们可以故意留出一些可以被算法利用的漏洞来作为预警,并时刻监视这些漏洞,当这些漏洞被攻破,就意味着算法需要调整了。
对抗性致盲:谷歌认为,可以通过隐藏奖励的部分细节、甚至完全将奖励机制黑箱化,让算法主体无法通过寻找规则本身的漏洞来攻破规则。黑箱原理类似于现在很多手机采用的指纹识别系统。有专用的芯片负责指纹识别,手机本身的系统是没有权限读取其芯片中的数据的,它能做的只有向芯片中发送指纹识别的请求,由芯片独立完成识别后再将结果返回给系统。这样无疑可以极大减小奖励的规则被算法利用的可能性。
对抗奖励:甚至,谷歌还认为,人们可以为此设计另外一个代理,让两个代理互相监督对方有没有做出违背人类希望的选择。所谓以毒攻毒。
对模型本身的限制:
使用各种方法加强包括人类对算法的监视,确保当模型做出不良选择时,能及时的得到负面的反溃为了不让模型训练后变得过于消极,如果人们确定代理在一个区域内活动的时候无论如何也不会给人类造成损害,可以将这个区域划为一个安全区域,在这个区域内,代理可以自由的进行各种探索。