强化学习不同的患者

数据挖掘 机器学习 强化学习
2021-09-19 19:59:15

我有关于治疗癌症的医学数据的标签和特征的历史数据。标签代表:

患者治疗后的幸福程度(其他患者过去做过调查)。从等级 1 到 7。

有数字特征:通过面部识别,我们从零到一的范围内提取了六种情绪。

这是为无法说话且坐在带平板电脑的电动轮椅上的患者进行的。

我训练了一个随机的 Forrest Regressor。这可以预测从 1 到 7 的耐心程度。

在患者完成治疗后,患者在屏幕后面填写一份调查表。每个患者都有一个唯一的用户 ID。您将如何通过强化学习应用个性化,以便了解患者在下一次治疗期间是否满意。

如果这对于该用户不正确,则应该更新患者的幸福感。

例如:我希望代理更新该患者的模型,它是信念(我们训练的旧模型)假设我们预测为 6,但实际上下一次同一患者到达时为 4,我们想估计患者的幸福感新的更新模型。

我的模型对患者 A 可能是正确的,而对患者 B 是不正确的。因为对于患者 B,与患者 A 相比,某些情绪或多或少重要。您将如何解决这个问题,并且它应该可以扩展到 2000 多名患者。癌症患者将返回医院接受治疗(平均 10 或 20 次治疗)。每个患者都有一个唯一 ID。

该模型正在做出预测。根据预测,医生“收到”幸福估计。

该模型做出:对患者 B 的错误预测,但对患者 A 的正确预测。因为患者 B 在治疗后表示基于量表分数的估计是不正确的。但患者 A 表示他的预测是正确的。

1个回答

让我们首先从强化学习的入门开始。强化学习是一种学习方法,它预测在给定状态下要执行的动作或预测与给定状态和动作对关联的值。

所以,尼尔是正确的,这个问题不是明确的强化学习问题。这就引出了一个问题,如何定义强化学习问题。它被定义为一个包含以下元素的 5 元组。S是状态集,它必须是有限的。A是在给定状态下可用的一组动作,它有时也写成As.Pa(s,s)=Pr(st+1=sst=s,at=a)是动作的概率a在状态s将导致状态s.Ra(s,s)是使用动作时获得的奖励a从状态转换ss.γ这是折扣因子,它是介于0,1 包括在某些步骤打折奖励。

现在,我们必须以强化学习问题的形式来构建问题。您需要建立一个状态,在您的情况下,这将是您认为与他们的幸福高度相关的患者信息(或者是他们情绪的一个因果因素)。现在,您拥有您设计的这些功能的患者状态。现在你必须决定如何恰当地构建你的问题。在这里你有两个选择,你可以选择他们的情绪是什么,并根据需要(基于真实标签)更新你的权重(你的模型权重,或者你想要输出的权重),或者你可以使用你的模型来选择一个行动(在这种情况下,它将是 1-7 类)。这些方法被标记为Q 学习或 π政策方法。这些是 RL 中存在的主要方法,可以选择分配给给定状态和动作的值Q(a,s)另一个处于一个状态π(s)并将其映射到要执行的操作。您可以根据方便/经验决定要使用哪一个。

完成此操作后,您必须决定要用于更新渐变的架构,这完全取决于您。您可以进行文献综述以了解该领域正在发生的事情并使用您认为合适的内容。举个例子,假设您想要使用由普通 CNN 更新的 Policy 方法。你会以某种可以被 CNN 解释的形式将状态传递给你的 CNN,然后根据类标签选择一个动作。现在,您将拥有一个奖励函数,该函数将选择您与真实班级的距离(您可以启发式地执行此操作,例如幸福距离悲伤 10 个单位)。奖励函数将传播到网络,并根据需要更新权重。

个人评论:我认为这对于当前的任务是完全没有必要的。在我看来,一个简单的视觉分类器应该做得很好。有大量可用的数据集包含面部特征并对情绪/幸福进行分类。此外,许多统计学家认为幸福/悲伤的数值是一个不好的衡量标准,因为诸如“快乐与快乐有多大不同”之类的问题在将奖励与它们相关联的情况下很难回答。请考虑尼尔的评论。