二元老虎机的连续推广

机器算法验证 强化学习 β-二项分布 多臂强盗
2022-03-27 21:36:27

有很多关于 0/1 数据的贝叶斯(beta-binomial)多臂老虎机的资料,但我想稍微扩展一下。

为了提供一些背景信息,假设我有两个网页,A 和 B。现在我想测试哪个网页可以吸引更多的人来电,所以我开始随机向来访者提供 A、B。

这等效于从 A、B 上的相同 beta 先验开始 - 要么 aka uninformed 要么一些两者。priorA=priorB=Beta(0,0)Beta(k1,k2)

随着二进制数据的到来(人们打电话或不打电话),我根据贝叶斯规则更新,所以我最终得到和 B 类似。posteriorA=Beta(k1+winsA,k2+trialsAwinsA)

这里的试验是我为访问者提供一个网页,而成功是一个电话,要清楚。

我的问题

这种二进制数据模型的连续模拟是什么?也就是说,如果我现在输入的数据是等形式,我可以使用什么来优化 A 或 B 哪个更好?我已经研究了一点高斯过程,但我不确定这是我想要的。谢谢你的帮助。0.5,1.6,8.95

可以在此处找到此问题的扩展。

2个回答

披露:我对土匪几乎一无所知。不过,我的建议似乎是对您提出的案例的自然概括。没有详细考虑实验设计步骤(因为我不知道在这种情况下人们通常认为什么是损失函数),因此在这方面可能会失败。

让我忽略我们有两个网页的事实。您有一个网页,并且您的“每次通话利润”(表示为)的先验是(例如)高斯假设您相信,如果您知道每次观看的平均利润,您的收益将根据另一个正常分配。然后你就有了一个有效的(并且非常简单的)贝叶斯模型。θp(θ)=(2π)12exp(θ22)XN(θ,1)

现在,对两个网页使用相同的模型。在观察(潜在)客户的反应后,您会得到的后验分布,它们都是高斯分布。根据您为实验设计步骤选择的目标,您可以选择接下来要呈现的网页。计算和区分目标应该不会太难,因为我们知道如何积分高斯。nAB

贝叶斯 Q-Learning的 Dearden 论文解决了这个问题他考虑了一个正常的“回报”(未来奖励)模型,比如@yair 的解决方案。他还考虑了另一个称为“信息价值”的术语:“未来决策质量的预期改进可能来自探索获得的信息。”

此外,仅供参考 Beta(0, 0) 不是“无信息的”。Jeffreys 先验是 Beta(0.5, 0.5)。

迪尔登、理查德、尼尔弗里德曼和斯图尔特罗素。“贝叶斯 Q 学习”。AAAI/IAAI。1998 年。