数据挖掘 - 二次抽样，以便样本统计数据与总体统计数据相匹配 - 吾爱随笔录

我想调查各种测试策略对产品的影响。让我们说椅子。我从车库/庭院销售中随机挑选的 500 把椅子开始。它们有各种形状和尺寸，不同的制造商等，但我仔细测量了每一个并记录：制造商、高度、宽度、深度和织物类型。我计算我的人口参数。我发现有些参数是正常的，有些是统一的，面料类型大多是棉的，但也有一些皮革。

我想将我的 500 把椅子分成 100 把椅子，这样每组都有相似的样本统计数据。通过这种方式，我可以区分各种测试对椅子的影响，而不必担心我实际上观察到输入分布的差异。即我不想要一组中的所有皮椅。

我试过随机分组我的数据集，但我总是在一个统计数据中出现严重的偏差。我认为可以从随机分组开始，然后随机选择一对椅子来交换组；重新计算组统计；如果他们更接近人口参数，保持交换，否则恢复；重复。这似乎慢得可怕。

我确信有很多可用的解决方案，但我不确定它们叫什么：我应该搜索什么？如果你有一个方便的解决方案，我真的不介意它以什么语言呈现。我会添加额外的标签来帮助其他人在未来找到这种东西。谢谢！