我负责联系一家公司的客户,以分析他们的满意度。
问题是我通过电话联系他们,而我联系的人(样本)并不代表全部人口。
然后我考虑后分层,但问题是我需要确保新版本的样本在当时能代表几个定量变量:
- 年龄
- 花费的金额。
我知道我需要一个定性变量来进行分层。
如何将这两个定量变量放入一个定性分层变量中?
第一个想法:
根据年龄四分位数拆分样本。我得到4组。
根据花费的四分位数拆分 4 个组中的每一个。现在我有 16 个组(每个组占人口的 6.25%),可用于分层
第二个想法: 执行聚类并找到可用于分层的 k 组
当分析师需要根据几个定量变量对样本进行后分层时,哪一个最常用?