γt−t0在pytorch强化学习中的意义

数据挖掘 强化学习 火炬
2022-03-02 12:55:26

阅读pytorch 教程时:

我们的目标是训练一个试图最大化折扣的累积奖励的策略Rt0=∑∞t=t0γt−t0rt,其中Rt0也称为回报

我知道 γ 是折扣因子,但我不确定那是什么t-t0意思γt−t0

谢谢你。

1个回答

我没有强化学习的经验,但是看着这个图我想我明白什么意思了。Gamma 是折扣因子,它是幂的t-t0,即从 开始的剧集数t这给出了特定剧集的折扣因子,然后乘以该剧集的回报r_t,以获得特定剧集的折扣奖励。然后通过对未来剧集的所有未来奖励求和来计算总回报。