我试图制定一个问题,我们试图最小化分配给不同用户的平均资源。由于环境的一些固有属性,一些用户可以很容易地被最小化,而其他用户则很难,因此出现了公平问题。虽然主要目标是最小化所有用户消耗的平均资源,但我还想确保分配公平,以便资源分配的方差更小。
那么是average+variance一个适当的奖励函数吗?正确地说,我的意思是它是否捕捉到了我想要达到的目标——在确保一定程度的公平性的同时保持较低的平均水平?我已经看到优化问题被表述为x*average + y*variancewhere x+y=1。这种配方会更适合我的情况吗?