这是迄今为止，AlphaGo算法最清晰的解读_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

AlphaGo强的原因之一是policy net这个模型是通过深度学习(deep learning)完成的。深度学习是近几年兴起的模拟人脑的机器学习方法。它使AlphaGo学习到的policy更加准确。以前的AI都没有那么强的学习能力。

更加厉害的是，AlphaGo从职业棋手学完后，感觉没什么可以从职业棋手学的了。为了超越老师和自己，独孤求败的她只能自己左右互搏，通过自己下自己，找到更好的policy。比如说，她从监督学习学到了一个policy，P0。

AlphaGo会例外做一个模型P1。P1一开始和P0一样(模型参数相同)。稍微改变P1的参数，然后让P1和P0下，比如，黑用P1，白用P0选点，直到下完(终局)。模拟多次后，如果P1比P0强(赢的多)，则P1就用新参数，否则，重新再原来基础上改变参数。我们会得到比P0强一点点的P1。注意，选点是按照policy的概率的，所以每次模拟是不同的。多次学习后AlphaGo会不断超越自己，越来越强。这种学习我们叫做增强学习(reinforcement learning)。它没有直接的监督信息，而是把模型发在环境中(下棋)，通过和环境的互相作用，环境对模型完成任务的好坏给于反馈(赢棋还是输)，从而模型改变自己(更新参数)，更好的完成任务(赢棋)。增强学习后，AlphaGo在80%的棋局中战胜以前的自己。

最后，AlphaGo还有一个mini的policy net，叫rollout。它是用来上面所说的模拟中，快速模拟的终局的。它的输入比正常policy net小，它的模型也小，所以它的耗时是2微妙，而一个policy要3毫秒。它没有policy准，但是它快。

总结一下policy。它是用来预测下一步“大概”该走哪里。它使用了深度学习，监督学习，增强学习等方法。它主要用于每次模拟中的bonus的先验(我大概该怎么走)，和value net的学习(后面的重点)。

如果单纯用policy预测的着法来作为最优着法，不通过value net的计算和上面说的模拟，对职业棋手那是不行的。但是，单纯用policy预测已经足够打败以前的围棋AI(大约有业余5段实力)了。这说明了上面3种学习方法的强大威力。

AlphaGo就看了一眼，还没有推演，你们就败了。policy net为解开那个死结走出了第一步，下面我们就讲讲这第二个“神器”：value net。

10.第二神器value net怎么工作的?

前面说了，形势判断是什么无迹可寻，就连职业9段也做不到。有了policy net，整个世界都不一样了。AlphaGo她的灵魂核心就在下面这个公式里。

V*(s)=Vp*(s)约等于Vp(s)。

s是棋盘的状态，就是前面说的19*19，每个交叉3种状态。

V是对这个状态的评估，就是说黑赢的概率是多少。

V*是这个评估的真值。

p*是正解(产生正解的policy)

p是AlphaGo前面所说学到的最强的policy net。

如果模拟以后每步都是正解p*，其结果就是V*，这解释了等号。

如果你知道V*这个函数，在当前局面，你要对走下一步(围棋平均有250种可能性)后的状态s进行评估，选最大的V*走就行。围棋就完美解决了。但是，前面说了，V*不存在。同样p*也不存在(理论上存在，实际因为搜索空间太大，计算量太大找不到。在5*5的棋盘中下棋可以做到)。

AlphaGo天才般的用最强poilicy，p来近似正解p*，从而可以用p的模拟Vp来近似V*。即使Vp只是一个近似，但已经比现在的职业9段好了。想想她的p是从职业选手的着法学来的，就是你能想到的棋她都想到了。而且她还在不断使的p更准。顶尖职业棋手就想以后的20-40步，还会出错(错觉)。AlphaGo是模拟到终局，还极少出错。天哪，这人还怎么下。

围棋问题实际是一个树搜索的问题，当前局面是树根，树根长出分支来(下步有多少可能性，棋盘上的空处都是可能的)，这是树的广度，树不断生长(推演，模拟)，直到叶子节点(终局，或者后面的局面)。树根到叶子，分了多少次枝(推演的步数)是树的深度。树的平均广度，深度越大，搜索越难，要的计算越多。围棋平均广度是250，深度150，象棋平均广度是35，深度80。如果要遍历围棋树，要搜索250的150次方，是不实际的。这也是围棋比象棋复杂的多的原因之一。但更重要的原因前面讲了：是象棋有比较简单的手工可以做出的value函数。比如，吃王(将)得正无穷分，吃车得100分，等等。1997年打败当时国际象棋世界冠军的DeepBlue就是人手工设计的value。而围棋的value比象棋难太多了。手工根本没法搞。又只能靠深度学习了。

在讲value的原理前，先看看定性看看value的结果。如图，这是AlphaGo用value net预测的走下一步，她赢的概率。空的地方都被蓝色标示了，越深说明AlphaGo赢的概率越高。这和我们学的棋理是相符的，在没有战斗时，1,2线(靠边的地方)和中间的概率都低，因为它们效率不高。而且大多数地方的概率都接近50%。所以说赢棋难，输棋也很难。这当然排除双方激烈战斗的情况。

3/5 首页上一页 1 2 3 4 5 下一页尾页