数据挖掘 - γt−t0在pytorch强化学习中的意义 - 吾爱随笔录

数据挖掘强化学习火炬

2022-03-02 12:55:26

我们的目标是训练一个试图最大化折扣的累积奖励的策略Rt0=∑∞t=t0γt−t0rt，其中Rt0也称为回报

我知道 γ 是折扣因子，但我不确定那是什么t-t0意思γt−t0？

谢谢你。

1个回答

我没有强化学习的经验，但是看着这个图我想我明白什么意思了。Gamma 是折扣因子，它是幂的t-t0，即从开始的剧集数t。这给出了特定剧集的折扣因子，然后乘以该剧集的回报r_t，以获得特定剧集的折扣奖励。然后通过对未来剧集的所有未来奖励求和来计算总回报。

其它你可能感兴趣的问题