我想调查各种测试策略对产品的影响。让我们说椅子。我从车库/庭院销售中随机挑选的 500 把椅子开始。它们有各种形状和尺寸,不同的制造商等,但我仔细测量了每一个并记录:制造商、高度、宽度、深度和织物类型。我计算我的人口参数。我发现有些参数是正常的,有些是统一的,面料类型大多是棉的,但也有一些皮革。
我想将我的 500 把椅子分成 100 把椅子,这样每组都有相似的样本统计数据。通过这种方式,我可以区分各种测试对椅子的影响,而不必担心我实际上观察到输入分布的差异。即我不想要一组中的所有皮椅。
我试过随机分组我的数据集,但我总是在一个统计数据中出现严重的偏差。我认为可以从随机分组开始,然后随机选择一对椅子来交换组;重新计算组统计;如果他们更接近人口参数,保持交换,否则恢复;重复。这似乎慢得可怕。
我确信有很多可用的解决方案,但我不确定它们叫什么:我应该搜索什么?如果你有一个方便的解决方案,我真的不介意它以什么语言呈现。我会添加额外的标签来帮助其他人在未来找到这种东西。谢谢!