我有一个包含 160 万受试者的大型医疗保健索赔数据库,我有兴趣进行一项倾向得分匹配的队列研究。我已经使用逻辑模型生成了我的倾向得分。问题是我有大约 260,000 名受试者的曝光要与样本的其余部分匹配,理想情况下是 1:3 的比例。
我在 R 中尝试过 MatchIt,将我的样本细分为邮政编码级别的区域(基本上对邮政编码进行精确匹配,然后寻找最近的 PS)。这很快,因为 MatchIt 可以轻松处理许多小数据集,但最终匹配的数据集并没有像它应该具有的那么多控件那样平衡。
当我尝试一次匹配超过 30,000 个左右的主题时,MatchIt 基本上会崩溃。* 我尝试使用这个宏在我们部门的快速 UNIX 服务器上使用 SAS ,但它也崩溃了,并且需要很多很多小时。我认为必须有更好的方法,因为我认为我的数据集没有那么大?
所以,我的问题是你将如何与这种大小的数据集进行 1:3 匹配?我不需要快速的东西,但我只想确信几个小时后我会得到可靠的输出。
*大警告:对于可能需要数小时运行的任何 R 解决方案,我仅限于在我的办公室服务器上使用 32 位 R,这是一个很大的麻烦。