机器算法验证 - 在 MATLAB 中计算 Dvoretzky–Kiefer–Wolfowitz 边界 - 吾爱随笔录

在 MATLAB 中计算 Dvoretzky–Kiefer–Wolfowitz 边界

机器算法验证统计学意义 matlab kolmogorov-smirnov 测试

2022-04-03 20:32:57

当我对两个给定的数据向量运行 Kolmogorov-Smirnov 测试（MATLAB 中的 kstest2 函数）时，我得到了 KS Statistic 的值。我应该如何使用这些信息计算 Dvoretzky–Kiefer–Wolfowitz (DKW) 界？当我查看 wiki 和其他网页时，看起来如果我绘制 ECDF，整个 ECDF 将由两条曲线界定（例如此处的幻灯片 14：http: //cseweb.ucsd.edu/classes/fa07/cse103 /CDFs.pdf )。但是，在我看来，DKW 界限只是一个单一的值，而不是两边都有界限。有人可以解释一下在 MATLAB 中这个界限的计算吗？任何帮助将不胜感激。谢谢。

问候，研发

1个回答

听起来你想计算一个置信带：一个包含整个 CDF 概率的区域 $1-\alpha$ . 使用 Dvoretzky–Kiefer–Wolfowitz 不等式执行此操作涉及三个步骤：

生成 CDF（即，对您的值进行排序和计数——在 matlab 中很简单）
不等式本身表明
$P (sup_{x} | F (x) - \hat{F} (x) | > ϵ) \leq 2 \exp (- 2 n ϵ^{2})$ $P\bigg(\sup_x \big|F(x) - \hat{F}(x)\big| \gt \epsilon\bigg) \le 2\exp(-2n\epsilon^2)$ 在哪里 $F(x)$ 是“真实”的总体 CDF， $\hat{F}(x)$ 是您的示例 CDF，并且 $n$ 是数据点的数量。将该不等式的右侧设置为 $\alpha$ 并重新安排产量：

ϵ = \sqrt{\frac{1}{2 n} \log (\frac{2}{α}})

$\epsilon = \sqrt{\frac{1}{2n}\log\bigg(\frac{2}{\alpha}}\bigg)$

您现在可以绘制置信带。置信带有一个上边缘 $U(x)$ 和一个下边缘 $L(x)$ ： $\begin{aligned} L (x) = m a x {\hat{F} (x) & - ϵ, 0} \\ U (x) = m i n {\hat{F} (x) & + ϵ, 1} \end{aligned}$ $\begin{align*} L(x) = max\{\hat{F}(x) &- \epsilon, 0\} \\ U(x) = min\{\hat{F}(x) &+ \epsilon, 1\} \end{align*}$

将其翻译成 matlab 非常简单：

function [low_edge, F_hat, hi_edge, x] = dkw_bounds(data, alpha) [F_hat, x] = ecdf(data); epsilon = sqrt(ln(2/alpha)/(2*length(data))); low_edge = max(F_hat - epsilon, 0); %Does the right thing here, use pmax in R hi_edge = min(F_hat + epsilon, 1); end

然后，您可以绘制三条曲线，使用它们来形成 apatch等。

其它你可能感兴趣的问题

上一篇去规范化谷歌趋势数据？下一篇metafor 和加权 lm() 标准误差之间的差异