萨顿的“二十一点价值函数……”代表什么?

人工智能 强化学习 蒙特卡罗方法 萨顿巴托
2021-11-10 07:20:06

我在 David Silver 的 youtube 讲座和 Sutton 的强化学习书中看到了这张图。

谁能帮我理解图表?从图表中,对于 10000 集,我看到的是,当我们没有可用的 ace 时,我们总是输掉比赛,除非总和是 20 或 21。但如果我们有可用的 ace,就有机会赢我们的总和低于 20。我不知道这怎么可能。

在此处输入图像描述

1个回答

左边的图表显示了使用蒙特卡罗评估的估计值函数,在 10,000 集之后。它们让您了解您的价值表在收敛之前的样子。

在上面的“可用王牌”图表的情况下,由于数据的差异,估计仍然显示出很多不准确的地方。这主要有两个原因:

  • 在开始时获得可用 ace 的概率只是全部的一小部分(大约 15%),因此用于构建图表的样本数量较少。

  • 当有一个可用的 ace 时,游戏会有更多的变化,因为它允许额外的灵活性,所以最终结果也有更多的变化,需要更多的样本来收敛。

此外,如果您查看图表的底部边缘,这表示玩家以两个 A 开始。如果您选择其中一个高点(经销商显示 4),那么这也会降低看到该特定状态的可能性。因此,您正在查看的样本量通常为 4-5,但在这种情况下,可能只有一个或两个样本,然后玩家碰巧继续获胜,尽管可能性不大。总有一些获胜的机会,发牌员显示 4 对发牌员来说是一个糟糕的开始,如果玩家没有,他很有可能破产。

如果这一次没有发生在“两张 A + 庄家显示 4”的状态,它可能已经发生在“两张 A + 庄家显示 5”的状态。这是由于随机抽样的性质——如果你有数百个状态要抽样,那么在你抽取足够的样本之前,它们中的一些纯粹是偶然地表现得像异常值。

简而言之,10,000 个随机抽样的游戏远不足以将价值估计的误差范围减少到合理的数字,例如从两个 A 开始的特殊情况。但是,您可以在 10,000 个样本图表中看到收敛的开始​​,尤其是图表的其他地方。

从图表中,对于 10000 集,我看到的是,当我们没有可用的 A 时,我们总是输掉比赛,除非总和是 20 或 21。

实际上你没有看到,预期的结果不是-1.0,而是高一点。所以这意味着仍有获胜的机会。在这个玩家政策下,最坏的机会是没有可用的 A 和得分 19,因为该政策将是“击中”并且需要一张 A 或 2 张牌才能留在游戏中。即使那样,该值也不像-1.0那么低,而是更像-0.9