数据挖掘 - 为什么 AlphaGo 不期望它的对手下最好的棋子？ - 吾爱随笔录

为什么 AlphaGo 不期望它的对手下最好的棋子？

数据挖掘机器学习

2021-10-04 02:28:36

在李世石获胜的比赛中，AlphaGo 显然对李世石的出色而出人意料的举动感到惊讶。在分析了日志后，Deep Mind CEO 表示 AlphaGo 评估了李世石下特定棋步的 1/10000 概率。

我在这里不明白的是：无论打出好棋的概率如何，为什么要冒险？为什么不期待对手总是走最好的棋呢？

当然，在玩蒙特卡洛来评估他的可能性时，你总是有可能错过对手可以下的最佳棋步，但在这里似乎棋步是成立的。如果 AlphaGo 知道它的策略可以通过这样的举动来反击，为什么不选择另一种策略，因为最坏的情况不会那么“糟糕”。

1个回答

似乎 AlphaGo 并未将这一举措评为李世石的最佳举措，就像其搜索范围内的举措一样。就上下文而言，棋盘是 19x19，因此 10000 分之一的移动机会远低于随机选择方格的机会。这可能使得它“发现”的举动不值得更深入地探索。

同样重要的是要注意分配给移动的概率等于 AlphaGo 对该移动质量的评级 - 即 AlphaGo 预测这对它的对手来说是一个糟糕的选择。另一种说法是，“有概率 p 这一步是最好的一步，因此值得进一步研究”。没有单独的质量评级 - AlphaGo 不会将“对手走棋的机会”与“如果他/她走棋，对手从该位置获得最高分的机会”分开建模。只有一个概率涵盖这两个含义¹

据我了解，AlphaGo 对它所考虑的每个棋盘状态（从当前棋盘开始）下所有可能走法的概率进行评分，并在评分最高的棋盘上投入最大的搜索努力进行更深入的搜索。我不知道在典型搜索中访问的比率或访问了多少节点，但预计如果根本不会详细探讨 1 万分之一的评级。

在系统日志中看到概率计算并不奇怪，因为日志可能包含所有合法下一步动作的评级，以及游戏中实际未发生但 AlphaGo 在其更深入的搜索中考虑的事情的评级。

AlphaGo 未能正确评价这一举动也不足为奇。预计神经网络不会是一个完美的预言机，可以完美地评估所有动作（如果是，那么就不需要搜索）。事实上，情况恰恰相反——令人惊讶的是（当然也是一项惊人的工程壮举）预测有多好，足以击败世界级冠军。但是，这与解决游戏不同。围棋仍然“悬而未决”，即使机器可以击败人类，还有未知数量的额外空间可供更好的玩家使用——而且在不久的将来可能是人类或机器。

实际上有两个网络评估两种不同的事物——“策略网络”评估潜在的移动，其输出会影响蒙特卡洛搜索。还有一个“价值网络”，它评估董事会状态以对搜索的终点进行评分。是策略网络预测了移动的低概率，这意味着搜索几乎没有机会探索李世石移动之后的游戏状态（如果有，价值网络可能会检测到游戏的不良最终结果）通过）。在强化学习中，策略是一组基于已知状态的规则，它们决定代理可以采取的行动。

其它你可能感兴趣的问题

上一篇想知道土木工程的一些机器学习应用下一篇一起使用 R 和 Python