后分层和定量变量

机器算法验证 分层
2022-03-31 21:10:59

我负责联系一家公司的客户,以分析他们的满意度。

问题是我通过电话联系他们,而我联系的人(样本)并不代表全部人口。

然后我考虑后分层,但问题是我需要确保新版本的样本在当时能代表几个定量变量:

  • 年龄
  • 花费的金额。

我知道我需要一个定性变量来进行分层。

如何将这两个定量变量放入一个定性分层变量中?

第一个想法: 根据年龄四分位数拆分样本。我得到4组。
根据花费的四分位数拆分 4 个组中的每一个。现在我有 16 个组(每个组占人口的 6.25%),可用于分层

第二个想法: 执行聚类并找到可用于分层的 k 组

当分析师需要根据几个定量变量对样本进行后分层时,哪一个最常用?

1个回答

这是一个简短的答案,我很高兴有人可以编辑和扩展(如果我有时间,可能会自己做)。

您的第一个想法代表了最常见的方法,并且会得到很好的结果。第一个想法的一个变体,如果不是所有 16 组 2x2 组合都在样本中得到很好的表示,那就是使用 raking,所以你只是匹配你的两个变量中的每一个的边际总数。

实施您的第二个想法要少得多,并且涉及更多风险和决策(例如,您究竟如何对它们进行聚类?并且您要小心不要将目标变量包含在聚类中,否则会导致您的后分层方案由于各种复杂的原因无效)。

第三种选择 - 可能更好,因为它可以更好地利用可用信息,但实施起来稍微复杂一些 - 是使用原始的定量变量(或至少其中一个 - 浮现在脑海中)。这可以通过校准或 GREG 估计来完成 - 请参阅Thomas Lumley 的页面以获取在 R 中执行此操作的示例。