阅读pytorch 教程时:
我们的目标是训练一个试图最大化折扣的累积奖励的策略
Rt0=∑∞t=t0γt−t0rt,其中Rt0也称为回报
我知道 γ 是折扣因子,但我不确定那是什么t-t0意思γt−t0?
谢谢你。
阅读pytorch 教程时:
我们的目标是训练一个试图最大化折扣的累积奖励的策略
Rt0=∑∞t=t0γt−t0rt,其中Rt0也称为回报
我知道 γ 是折扣因子,但我不确定那是什么t-t0意思γt−t0?
谢谢你。
我没有强化学习的经验,但是看着这个图我想我明白什么意思了。Gamma 是折扣因子,它是幂的t-t0,即从 开始的剧集数t。这给出了特定剧集的折扣因子,然后乘以该剧集的回报r_t,以获得特定剧集的折扣奖励。然后通过对未来剧集的所有未来奖励求和来计算总回报。