为什么 AlphaGo 不期望它的对手下最好的棋子?

数据挖掘 机器学习
2021-10-04 02:28:36

在李世石获胜的比赛中,AlphaGo 显然对李世石的出色而出人意料的举动感到惊讶。在分析了日志后,Deep Mind CEO 表示 AlphaGo 评估了李世石下特定棋步的 1/10000 概率。

我在这里不明白的是:无论打出好棋的概率如何,为什么要冒险?为什么不期待对手总是走最好的棋呢?

当然,在玩蒙特卡洛来评估他的可能性时,你总是有可能错过对手可以下的最佳棋步,但在这里似乎棋步是成立的。如果 AlphaGo 知道它的策略可以通过这样的举动来反击,为什么不选择另一种策略,因为最坏的情况不会那么“糟糕”。

1个回答

似乎 AlphaGo 并未这一举措评为李世石的最佳举措,就像其搜索范围内的举措一样。就上下文而言,棋盘是 19x19,因此 10000 分之一的移动机会远低于随机选择方格的机会。这可能使得它“发现”的举动不值得更深入地探索。

同样重要的是要注意分配给移动的概率等于 AlphaGo 对该移动质量的评级 - 即 AlphaGo 预测这对它的对手来说是一个糟糕的选择。另一种说法是,“有概率 p 这一步是最好的一步,因此值得进一步研究”。没有单独的质量评级 - AlphaGo 不会将“对手走棋的机会”与“如果他/她走棋,对手从该位置获得最高分的机会”分开建模。只有一个概率涵盖这两个含义1

据我了解,AlphaGo 对它所考虑的每个棋盘状态(从当前棋盘开始)下所有可能走法的概率进行评分,并在评分最高的棋盘上投入最大的搜索努力进行更深入的搜索。我不知道在典型搜索中访问的比率或访问了多少节点,但预计如果根本不会详细探讨 1 万分之一的评级。

在系统日志中看到概率计算并不奇怪,因为日志可能包含所有合法下一步动作的评级,以及游戏中实际未发生但 AlphaGo 在其更深入的搜索中考虑的事情的评级。

AlphaGo 未能正确评价这一举动也不足为奇。预计神经网络不会是一个完美的预言机,可以完美地评估所有动作(如果是,那么就不需要搜索)。事实上,情况恰恰相反——令人惊讶的是(当然也是一项惊人的工程壮举)预测有多好,足以击败世界级冠军。但是,这与解决游戏不同。围棋仍然“悬而未决”,即使机器可以击败人类,还有未知数量的额外空间可供更好的玩家使用——而且在不久的将来可能是人类或机器。


  1. 实际上有两个网络评估两种不同的事物——“策略网络”评估潜在的移动,其输出会影响蒙特卡洛搜索。还有一个“价值网络”,它评估董事会状态以对搜索的终点进行评分。是策略网络预测了移动的低概率,这意味着搜索几乎没有机会探索李世石移动之后的游戏状态(如果有,价值网络可能会检测到游戏的不良最终结果)通过)。在强化学习中,策略是一组基于已知状态的规则,它们决定代理可以采取的行动。