确定可能会在接受药物管理的地方转换的成员

数据挖掘 机器学习 r 聚类 监督学习
2022-03-03 23:05:57

我可以访问一家大型健康保险公司的医疗索赔数据。你们中的一些人可能知道,药物 X 的价格之间存在很大的差异,具体取决于给药地点。

我的公司希望帮助会员减少他们支付的免赔额、共同支付和共同保险的成本,并通过确定最低的护理成本(通常是家庭输液或医生管理)来降低健康游戏的成本。

我正在研究各种方法,客户细分建模似乎是解决此类问题的最佳方法。

索赔数据可以追溯到 3 年前,并且是会员级别的。对于每个成员声明,​​数据库中可能有许多记录。一条线可以用于 2 小时的化疗,另一条线用于提供的药物,其他用于护士的时间,等等。每一行指定护理地点的位置,即家庭输液、医生、门诊、专业药房。每个索赔还提供有关主要诊断的详细信息,即类风湿性关节炎 (RA) 等。

理想情况下,当有更便宜的替代方案可用时,我想找出那些使用昂贵护理站点的成员。例如,我在想,对于 RA 的初步诊断,我可以使用诊断代码过滤到 RA 成员,然后根据某些输入特征(例如人口统计、到家庭输液中心/医院/医生的距离、覆盖级别)对这些成员进行聚类,补充频率、剂量、药物成本、当前服务地点等。

我的方法是正确的,还是有比聚类更好的方法来解决这个问题?

1个回答

鉴于数据已标记,只需执行有监督的方法,它们几乎总是会击败无监督的。

直觉为什么会这样是因为我们在无监督方法中没有目标函数。换句话说,根据我们的数据集区分类别的函数。我喜欢认为在无监督学习中,这个函数是恒等函数,而不是(实际上是)一些复杂的函数。给定一个完整的数据集,我们要求对输入空间进行分区,具有特定的属性(分区包含几乎所有示例,每个分区不太大,分区之间不太靠近)但是这种分区不映射到真实的类(因为我们期望在数据本身中明确分离的类,但实际上它们具有一些非线性分离,并且这种非线性/复杂行为是用某些函数表示的。