当目标是最小化平均值和方差时,什么是好的奖励函数?

数据挖掘 机器学习 目标函数 报酬
2022-03-07 02:58:42

我试图制定一个问题,我们试图最小化分配给不同用户的平均资源。由于环境的一些固有属性,一些用户可以很容易地被最小化,而其他用户则很难,因此出现了公平问题。虽然主要目标是最小化所有用户消耗的平均资源,但我还想确保分配公平,以便资源分配的方差更小。

那么是average+variance一个适当的奖励函数吗?正确地说,我的意思是它是否捕捉到了我想要达到的目标——在确保一定程度的公平性的同时保持较低的平均水平?我已经看到优化问题被表述为x*average + y*variancewhere x+y=1这种配方会更适合我的情况吗?

1个回答

有几种可能的方法。

如果您真的关心方差,您可以采用贝叶斯方法将相关属性建模为分布。

听起来您并不真正关心方差,您想要不同组的成比例结果。这有时称为均等赔率这可以通过后处理来完成,以创建一个校准的分类器分数,将输出标签更改为您想要的目标。