世界排名第一的柯洁,曾认真研究了一年多AlphaGo喜欢的三三式;在这一年多,AlphaGo则从第18代迭代为第60代。这些表象背后,人工智能深度学习能力经历了怎样的演进?
5月23日上午10点半,备受全世界瞩目的人机大战第二季将全面打响。最终,人类围棋界排名第一的中国棋手柯洁输给了AI界排名第一的AlphaGo围棋人工智能程序。
一场科技层面注定失败的比赛
这是一场业内同行普遍不看好结果的比赛。
尽管柯洁在大战前悲壮地表示,“我会用所有的热情去与它做最后的对决,不管面对再强大的对手——我也绝不会后退!”赛前的豪迈,依然改变不了失败的结果。在专业棋手看来,输四分之一子的柯洁虽败犹荣。
对柯洁而言,这是一场注定艰难但必须争胜的战斗。在此之前,柯洁专门研究了AlphaGo喜欢的三三式,并在比赛中应用。
而在这一年中,AlphaGo从对阵李世石时的第18代,迭代为对阵柯洁时的第60代。快速迭代的背后,是AlphaGo全新的深度学习逻辑。这种经历迭代的深度学习逻辑,其强大力让人难以望其项背。
深度学习的两次逻辑变更
2016年在AlphaGo以4:1大胜李世石后,人工智能再次进入大众的视野,而在这场世纪“人机大战”后,Deepmind随即宣布“阿尔法狗”进入闭关状态。
直到2016年12月29日,神秘的AlphaGo才化身为Master再次复出。随后其在短短一周内,击败了包括目前中韩第一人柯洁和朴廷桓,以及古力、陈耀烨、范廷钰、常昊等10多位中韩世界冠军,豪取60连胜,就连原来信心满满的柯洁也对此也一改以往自信狂傲的口吻,声称自己很可能全输给AlphaGo。
而前两次人机对决的场景还历历在目,第三次人机大战却已悄然来临,但整个人类世界对于两方选手的感情却发生了颠覆性的变化,一边倒的认为柯洁必输。
那么这一年时间里AlphaGo身上究竟发生了什么?居然让舆论变化如此之大,这无疑源于人们对AlphaGo了解的加深。
与李世石对战的AlphaGo 1.0版混合了三种算法:蒙特卡洛树搜索+监督学习+增强学习。其中,蒙特卡洛树搜索是一种优化过的暴力计算,比1997年深蓝的暴力计算更聪明。而这里的监督学习,是通过学习3000万步人类棋谱,对六段以上职业棋手走棋规律进行模仿,也是AlphaGo获得突破性进展的关键算法。而增强学习作为辅助,是两台AlphaGo从自我对战众中学习如何下棋,对棋力提升有限。
此次AlphaGo2.0的技术原理已有颠覆式改变。首先是放弃了监督学习,没有再用人的3000万局棋谱进行训练。这本是AlphaGo最亮眼的算法,也是今天主流机器学习不可避免的核心条件:依赖于优质的数据,在这个特定问题下就这么被再次突破了。
其次,放弃了蒙特卡洛树搜索,不再进行暴力计算。理论上,算法越笨,就越需要暴力计算做补充。算法越聪明,就可以大大减少暴力计算。从AlphaGo 2.0的“马甲”Master的历史行为看,走棋非常迅速,约在每10秒钟就走棋一步,如此速度很可能是放弃了暴力的计算。
再次,极大地强化了增强学习的作用,之前敲边鼓的算法,正式成为扛把子主力。想想看有多励志:两台白痴机器,遵守走棋和获胜规则,从随机走棋开始日夜切磋,总结经验,不断批评和自我批评,一周后终成大器。
通俗地讲,1.0版本的AlphaGo尚需借助人类棋谱来增长功力,而新版阿尔法狗2.0已正式摒弃人类棋谱,只靠计算机自身深度学习的方式成长——即探索“深度学习”方式的极限,臻至“围棋之神”的境界。所以,它现在在围棋方面俨然打通了任督二脉,人类根本找不到其脉搏。
而在今年 4 月,AlphaGo 之父哈萨比斯在英国剑桥大学进行了演讲,专门提到为了帮助 AlphaGo 提升。他公开表示,之前 AlphaGo 提升一个版本需要 3 个月,现在只需要 1 周。AlphaGo 对阵李世石时的版本号是 V18,而当下的版本估计已经到了 V60,在逻辑上和棋局策略上已经今非昔比。