机器算法验证 - 首选哪种方法，自举检验或基于非参数秩的检验？ - 吾爱随笔录

首选哪种方法，自举检验或基于非参数秩的检验？

机器算法验证假设检验非参数引导程序威尔克森符号秩

2022-03-11 21:04:10

我想针对期望值对单个实数样本（N~100）执行单尾测试。众所周知，人口不是正态分布的。所以从我读过的关于统计的内容来看，我可以使用

Wilcoxon 符号秩检验，或
bootstrap 移动样本数据以获得 t 统计量的零分布（请参阅如何执行 bootstrap 测试以比较两个样本的均值？）。

那是对的吗？

哪种方法更适合最小化 I 类错误，如果可能，为什么？

4个回答

这个答案可能会有所帮助，和/或可能很烦人。您的欢迎和我的道歉同时:)

使用正态分布时要记住的一件事是，它有一组足够的统计量，即均值和方差。这表明只有均值和方差在推理中很重要。当您使用正态分布时，除了均值和方差之外，您的样本的任何属性都将被丢弃。

“人口不是正态分布”的说法有点用词不当 - 人口根本不是“分布的” - 只有一个人口（假想数据集和替代世界除外）。听起来您实际上是在说您对总体的了解不是平均值和方差

所以大概，唯一要做的就是说明这个额外/不同的知识是什么。也许您知道偏度（或者您知道偏度对于分析很重要/相关，而不是“噪音”）。

我建议您根据您拥有的信息简单地计算您的假设为真的概率。这将包括数据，以及您声称知道的关于人口的任何“结构”，使其不正常（人口的均值和方差以外的东西）。因此，调用您的单面测试，然后您只需计算： $T$

P (T | D, I) = \frac{P (T | I) P (D | T, I)}{P (D | I)}

$P(T|D,I)=\frac{P(T|I)P(D|T,I)}{P(D|I)}$

$P(T|I)$ 是测试“真实”或“成功”的先验概率（在看到数据之前对测试有什么了解？）。是“模型”或“可能性”，类似于 p 值（假设检验为真，您观察到的数据的可能性有多大？）。并且通常被称为“证据”（任何假设对观察到的数据的预测效果如何？）——这个数量不需要明确指定，因为它可以从概率的要求推导出来必须加到 1。 $P(D|T,I)$ $P(D|I)$

这种方法的好处是概率论将“为您构建最佳测试”。你只需要描述你的先验信息，然后简单地做数学。现在您可能会发现为了评估某些数学公式可能需要引导程序 - 您可能会发现您应该进行 wilcoxon 测试 - 或者概率论将构建一个比它们中的任何一个都更好的测试（就类型 1 而言并输入您所说的 2 错误）。

您刚刚描述了差异。没有人可以提前知道结果差异，因为这在很大程度上取决于数据的性质。

你知道你正在使用的非正态分布吗？如果是这样，您可以模拟一些结果，看看不同测试的典型错误率是多少以及它们有何不同。

Wilcoxon vs bootstrapping 产生的推论无法比较，因为它们涉及不同的数据。Wilcoxon 是等级检验，因此会生成与等级相关的推论。自举适用于原始数据，从而生成与原始数据相关的推论。如果您不喜欢自举但想要与原始数据相关的推论，那么您可能需要尝试排列测试（有时称为随机化测试）。

谢谢你的问题，我有两个笔记和一个建议。

首先要注意的是，检验理论通常是通过设置一个可接受的水平来完成的，在这个水平上你会拒绝一个真实的假设（I 型错误），然后将接受错误假设的风险（II 型错误）降至最低。这有两个原因，首先是您的所有测试都使用此假设，其次在几乎所有情况下，您不能同时最小化这两个错误。

我的第二个注意事项是 Wilcoxon 检验假设实际上是，其中是 CDF，此检验与平均值的关系是您正在考虑的 CDF 类的属性，并且您正在考虑的条件。 $H_0: F_0 = F_1, H_1: F_0 \ne F_1$ $F_i$

根据所讨论的数据，如果您认为样本代表感兴趣的人群，我认为自举可能是合适的。其他可能的选择包括推导经验似然比检验，或重新采样 t 检验和检查稳健性。

祝你好运，让我们知道分析结果如何:)

其它你可能感兴趣的问题

上一篇如何在不对预测变量进行分类的情况下证明非线性？下一篇如何使用 ARCH LM 检验选择 ARCH 模型中的滞后数？