Sutton 和 Barto 中的矩阵表示法

数据挖掘 机器学习 强化学习 矩阵
2022-02-27 04:17:26

在第 页。在 Barto 和 Sutton 的Reinforcement Learning的 206 中,关于标量积的结果有一个奇怪的说法:

在此处输入图像描述

正如我所解释的那样,A 是两个d维向量的标量积的期望:应该是标量,对吗?那么他们如何从中获得dxd矩阵呢?它是标量矩阵的简写吗(与重复系数成对角线,即这个标量积)?

1个回答

在 Sutton & Barto 中,向量默认被视为列向量。所以如果你有这种产品:

abT

其中维向量,它不计算标量积。相反,它将两个向量都视为矩阵并计算矩阵乘积,这将是一个矩阵,因为您将一个矩阵乘以一个矩阵。abdd×dd×11×d

值得注意的是,如果遵循相同的矩阵乘法规则但将第一个向量转置1×1

aTb

这导致将1 × d矩阵矩阵。这就是为什么值函数近似可以写成(假设矩阵在符号方面与标量值相同,这是一个小小的自由)。1×dd×1wTxt1×1