机器算法验证 - 后分层和定量变量 - 吾爱随笔录

机器算法验证分层

2022-03-31 21:10:59

我负责联系一家公司的客户，以分析他们的满意度。

问题是我通过电话联系他们，而我联系的人（样本）并不代表全部人口。

然后我考虑后分层，但问题是我需要确保新版本的样本在当时能代表几个定量变量：

我知道我需要一个定性变量来进行分层。

如何将这两个定量变量放入一个定性分层变量中？

第一个想法： 根据年龄四分位数拆分样本。我得到4组。
根据花费的四分位数拆分 4 个组中的每一个。现在我有 16 个组（每个组占人口的 6.25%），可用于分层

第二个想法： 执行聚类并找到可用于分层的 k 组

当分析师需要根据几个定量变量对样本进行后分层时，哪一个最常用？

1个回答

这是一个简短的答案，我很高兴有人可以编辑和扩展（如果我有时间，可能会自己做）。

您的第一个想法代表了最常见的方法，并且会得到很好的结果。第一个想法的一个变体，如果不是所有 16 组 2x2 组合都在样本中得到很好的表示，那就是使用 raking，所以你只是匹配你的两个变量中的每一个的边际总数。

实施您的第二个想法要少得多，并且涉及更多风险和决策（例如，您究竟如何对它们进行聚类？并且您要小心不要将目标变量包含在聚类中，否则会导致您的后分层方案由于各种复杂的原因无效）。

第三种选择 - 可能更好，因为它可以更好地利用可用信息，但实施起来稍微复杂一些 - 是使用原始的定量变量（或至少其中一个 - 浮现在脑海中）。这可以通过校准或 GREG 估计来完成 - 请参阅Thomas Lumley 的页面以获取在 R 中执行此操作的示例。

其它你可能感兴趣的问题