人工智能 - 我们如何计算平均奖励（r ( π)r(π)) 如果政策随着时间而改变？ - 吾爱随笔录

在平均奖励设置中，策略的质量定义为：

r (π) = lim_{h \to \infty} \frac{1}{h} \sum_{j = 1}^{h} E [R_{j}]

$r(\pi) = \lim_{h\to\infty}\frac{1}{h} \sum_{j=1}^{h}E[R_j]$ 当我们达到稳态分布时，我们可以将上述方程写成如下：

r (π) = lim_{t \to \infty} E [R_{t} | A \sim π]

$r(\pi) = \lim_{t\to\infty}E[R_t | A \sim \pi]$ 我们可以使用增量更新的方法来查找

r (π)

$r(\pi)$ ：

r (π) = \frac{1}{t} \sum_{j = 1}^{t} R_{j} = {\bar{R}}_{t - 1} + β (R_{t} - {\bar{R}}_{t - 1})

$r(\pi) = \frac{1}{t} \sum_{j=1}^{t} R_j = \bar R_{t-1} + \beta (R_t - \bar R_{t-1})$ 在哪里

{\bar{R}}_{t - 1}

$\bar R_{t-1}$ 是平均奖励的估计

r (π)

$r(\pi)$ 在时间步长

t - 1

$t-1$ . 我们在 SARSA 算法中使用这个增量更新规则：

现在，在上述算法中，我们可以看到策略会随时间而变化。但是要计算 $r(\pi)$ , 代理应遵循政策 $\pi$ 很长一段时间。那么我们是如何使用的 $r(\pi)$ 如果政策随时间变化？