我有关于治疗癌症的医学数据的标签和特征的历史数据。标签代表:
患者治疗后的幸福程度(其他患者过去做过调查)。从等级 1 到 7。
有数字特征:通过面部识别,我们从零到一的范围内提取了六种情绪。
这是为无法说话且坐在带平板电脑的电动轮椅上的患者进行的。
我训练了一个随机的 Forrest Regressor。这可以预测从 1 到 7 的耐心程度。
在患者完成治疗后,患者在屏幕后面填写一份调查表。每个患者都有一个唯一的用户 ID。您将如何通过强化学习应用个性化,以便了解患者在下一次治疗期间是否满意。
如果这对于该用户不正确,则应该更新患者的幸福感。
例如:我希望代理更新该患者的模型,它是信念(我们训练的旧模型)假设我们预测为 6,但实际上下一次同一患者到达时为 4,我们想估计患者的幸福感新的更新模型。
我的模型对患者 A 可能是正确的,而对患者 B 是不正确的。因为对于患者 B,与患者 A 相比,某些情绪或多或少重要。您将如何解决这个问题,并且它应该可以扩展到 2000 多名患者。癌症患者将返回医院接受治疗(平均 10 或 20 次治疗)。每个患者都有一个唯一 ID。
该模型正在做出预测。根据预测,医生“收到”幸福估计。
该模型做出:对患者 B 的错误预测,但对患者 A 的正确预测。因为患者 B 在治疗后表示基于量表分数的估计是不正确的。但患者 A 表示他的预测是正确的。