机器算法验证 - 二元老虎机的连续推广 - 吾爱随笔录

二元老虎机的连续推广

机器算法验证强化学习 β-二项分布多臂强盗

2022-03-27 21:36:27

有很多关于 0/1 数据的贝叶斯（beta-binomial）多臂老虎机的资料，但我想稍微扩展一下。

为了提供一些背景信息，假设我有两个网页，A 和 B。现在我想测试哪个网页可以吸引更多的人来电，所以我开始随机向来访者提供 A、B。

这等效于从 A、B 上的相同 beta 先验开始 - 要么 aka uninformed 要么一些两者。 $\text{prior}_A = \text{prior}_B = \mathrm{Beta}(0,0)$ $\mathrm{Beta}(k_1, k_2)$

随着二进制数据的到来（人们打电话或不打电话），我根据贝叶斯规则更新，所以我最终得到和 B 类似。 $\text{posterior}_A = \mathrm{Beta}(k_1 + \text{wins}_A, k_2 + \text{trials}_A - \text{wins}_A)$

这里的试验是我为访问者提供一个网页，而成功是一个电话，要清楚。

我的问题

这种二进制数据模型的连续模拟是什么？也就是说，如果我现在输入的数据是等形式，我可以使用什么来优化 A 或 B 哪个更好？我已经研究了一点高斯过程，但我不确定这是我想要的。谢谢你的帮助。 $0.5, 1.6, 8.95$

可以在此处找到此问题的扩展。

2个回答

披露：我对土匪几乎一无所知。不过，我的建议似乎是对您提出的案例的自然概括。它没有详细考虑实验设计步骤（因为我不知道在这种情况下人们通常认为什么是损失函数），因此在这方面可能会失败。

让我忽略我们有两个网页的事实。您有一个网页，并且您的“每次通话利润”（表示为）的先验是（例如）高斯。假设您相信，如果您知道每次观看的平均利润，您的收益将根据另一个正常分配。然后你就有了一个有效的（并且非常简单的）贝叶斯模型。 $\theta$ $p(\theta) = (2\pi)^{-\frac{1}{2}} \exp( -\frac{\theta^2}{2})$ $X \sim \mathcal{N}(\theta, 1)$

现在，对两个网页使用相同的模型。在观察（潜在）客户的反应后，您会得到和的后验分布，它们都是高斯分布。根据您为实验设计步骤选择的目标，您可以选择接下来要呈现的网页。计算和区分目标应该不会太难，因为我们知道如何积分高斯。 $n$ $A$ $B$

贝叶斯 Q-Learning的 Dearden 论文解决了这个问题。他考虑了一个正常的“回报”（未来奖励）模型，比如@yair 的解决方案。他还考虑了另一个称为“信息价值”的术语：“未来决策质量的预期改进可能来自探索获得的信息。”

此外，仅供参考 Beta(0, 0) 不是“无信息的”。Jeffreys 先验是 Beta(0.5, 0.5)。

迪尔登、理查德、尼尔弗里德曼和斯图尔特罗素。“贝叶斯 Q 学习”。AAAI/IAAI。1998 年。

其它你可能感兴趣的问题

上一篇降维几乎总是对分类有用吗？下一篇R中的非线性总最小二乘/戴明回归