人类可能是自私的物种,往往更多考虑自身利益而罔顾他人的利益。然而,正是鉴于这种特性,人们也可以共同努力,朝着更大的目标前进。
Alphabet子公司Deepmind最近发布一项研究,探索这种行为在特定情况下被放在一起时,将如何应用于多种人工智能(AI)。通过这项研究,该公司希望能更好地理解和控制AI的运作方式。
作为这项研究的一部分,Deepmind基于“囚徒困境”的游戏理论开发出了测试方案,以证明两个人为什么不能相互合作。根据这个理论提出的设想是,犯罪团伙的两名成员被单独监禁,但由于缺乏足够的证据,警方被迫与他们进行一对一的交易。如果囚徒A背叛了囚徒B,他将被释放,而囚徒B将在狱中服刑三年(反之亦然)。如果他们都背叛了对方,他们将会被判两年监禁。最后,如果双方都保持沉默,他们只会在监狱里呆上一年。
项目团队受到这种“社交困境”的启发,在两种简单的视频游戏中,设计出互相对立的红色和蓝色AI,看看它们会如何表现。在第一场游戏中,“两个AI”被安排在一个共享的世界里,目标是收集苹果以换取回报。每个AI都可以“标记”对方,没有获得奖励就会被从游戏中删除。实验目标是看看AI是否能学会合作来收集苹果,或者做出更加自私的决定,包括互相标记。
Deepmind说,它运行了数千个测试,并允许AI采用理性行动,利用深度多代理强化学习技术。该公司在博客文章中写道:“当自然环境中有足够多的苹果时,它们会学着和平共存,并尽可能多地收集苹果。然而,随着苹果数量减少,这些AI了解到,标记对方可为自己带来好处,比如为自己赢得更大机会,来收集那些仅剩的苹果。”
与谷歌有关的“DeepMind”试图通过让计算机“梦想”人工智能的能力提高人们的学习能力,从而提高了人们对道德和法规的质疑。
剩下的苹果数量越少,AI的标记就越频繁。在某些情况下,这些AI甚至哟拥有执行更复杂策略的能力,无论苹果数量多少,它们都会频繁地标记对方。
另一方面,在第二场游戏“狼人组”中,设计更多地集中于从一开始就专注于合作。他们的目标是让两个AI狼追逐蓝点,同时避免灰色障碍。这些AI会随着时间的推移逐渐了解到,当它们合作时,往往会有更大机会将蓝点围困起来,最终捕捉到它。
研究结果表明,只要合适的规则和激励措施到位,就可以促使不同的AI携手合作。如果攻击性行为是有益的(比如给对手贴上标签以便获得更多苹果),AI就会变得更具主动攻击性。
当合作行为得到奖励时(比如共同努力,两个团队都能得分),AI就会更倾向于合作。Deepmind说:“通过这项研究,我们可能会更好地理解和控制复杂的多AI代理系统,比如经济、交通系统或者我们地球的生态健康系统所有这些都依赖于我们的持续合作。”(英文来源/financialpost,编译/机器小易,校对/小小)
注:本文为网易智能工作室稿件,转载需注明出处
登陆|注册欢迎登陆本站,认识更多朋友,获得更多精彩内容推荐!