这是迄今为止，AlphaGo算法最清晰的解读_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

这是迄今为止，AlphaGo算法最清晰的解读

这里讲讲怎么通过policy net 得到value net。有了policy，value就不是那么难以捉摸了，死结打开了。AlphaGo可以模拟(自己和自己下，黑白都用最强的policy)，直到终局。注意，这里的模拟和最初说的模拟有点不同。最初的模拟是AlphaGo在下棋(线上)中用的，用来预测。这里的模拟是她还在学习(线下)呢。终局时V*(谁赢)就比较容易判断了。当然，对机器来说也不是那么容易的，但相对于中局来说是天渊之别。

value net也是一个监督的深度学习的模型。多次的模拟的结果(谁赢)为它提供监督信息。它的模型结构和policy net相似，但是学的目标不同。policy是下步走哪里，value是走这后赢的概率。

总结一下，value net预测下一走这后，赢的概率。本身无法得到。但是通过用最强policy来近似正解，该policy的模拟来近似主变化(就围棋书上那个，假设书上是对的)，模拟的结果来近似准确的形势判断V*。value net用监督的深度学习去学模拟的得到的结果。value net主要用于模拟(在线，下棋的时候)时，计算Q值，就是平均的形势判断。

再回顾一下模拟，模拟的每一步是兼顾：模拟到现在平均的形势判断value net，快速rollout模拟到终局的形势判断，根据当前形势的选点policy，和惩罚过多的模拟同一个下法(鼓励探索)等方面。经过多次模拟，树会搜索的越来越广，越来越深。由于其回溯的机制，Q值越来越准，下面的搜索会越来越强。因为每次的Q值，都是当前模拟认为的最优(排除鼓励探索，多次后会抵消)，模拟最多的下法(树分支)就是整个模拟中累积认为最优的下法。

到此为止，AlphaGo她神秘的面纱已经揭开。她的基本框架见下图。下棋时的线上过程是图中红箭头。线下的准备工作(学习过程)是蓝箭头。。再串一下。AlphaGo下棋(线上)靠模拟，每次模拟要选下那一步，不是简单的选点policy就完了，而是要参考以前模拟的形势判断，包括：value net和快速模拟(小模拟)到终局，鼓励探索，policy(先验)，就是(Q+u)，它比单纯的policy准。她选择模拟最多的下法(就是平均最优)。这是线上，下着棋了。之前(线下)，她要训练好policy模型，rollout模型和value 模型。其中，policy，rollout可以从棋谱，和自己下棋中学到。value可以从用学好的policy下棋的模拟结果监督学到。从而完美解决value学不到的问题和policy和value互相嵌套的死结。从棋谱直接学value net现在还不行。

这是迄今为止，AlphaGo算法最清晰的解读

11.AlphaGo用到哪些技术?

AlphaGo在树搜索的框架下使用了深度学习，监督学习和增强学习等方法。

以前最强的围棋AI使用蒙特卡洛树搜索的方法。蒙特卡洛算法通过某种“实验”的方法，等到一个随机变量的估计，从而得到一个问题的解。这种实验可以是计算机的模拟。让我们看看蒙特卡洛树搜索怎么模拟的。算法会找两个围棋傻子(计算机)，他们只知道那里可以下棋(空白处，和非打劫刚提子处)，他们最终下到终局。好了，这就可以判断谁赢了。算法就通过模拟M(M>>N)盘，看黑赢的概率。可以看到这明显的不合理。因为每步是乱下的。有些棋根本就不可能。即使如此，这个算法可以达到业余5段左右水平。

AlphaGo可不是乱下，她是学了职业棋手着法的。所以AlphaGo的搜索叫beam search(只搜索几条线，而不是扫一片)。前面也可以看到AlphaGo认为的可能着法就几种可能性，而不是随机的250种。这就是从250的150次方到几(<10)的n(n<<150，可以提前终止搜索，因为有value net)次方，的计算量降低。虽然AlphaGo每次模拟的时间更长(因为要深度模型的预测policy和value，不是乱下)，但是AlphaGo的模拟次数可以更少，是蒙特卡洛树搜索的1/15000。就是说AlphaGo的搜索更有目的性了，她大概知道该走哪里。解说说她下棋更像人了。我会说她下棋更像职业棋手，甚至超过职业棋手。线下的学习使得她的行为(模拟)有了极强的目的性，从而完成最终目标(赢棋)。

12.什么是打劫?

4/5 首页上一页 2 3 4 5 下一页尾页