如何测试两个 Weibull 分布的差异?

机器算法验证 分布 t检验 威布尔分布
2022-03-30 21:13:30

我有来自两个风数据集的两个 Weibull 分布集,以检查它们是否相同。

我认为 2 样本 t 检验会适用,但我在互联网上找不到任何方法。

有谁知道什么类型的测试适用于我的目的?你能推荐什么 R 函数?

另外,如果结果证明两个数据集之间存在差异,我可以在数据集之间拟合一条直线吗?

2个回答

如果我理解正确,那么两个数据集都是 Weibull 的事实真的无关紧要。如果两组结果来自同一分布,您更感兴趣的是测试这两组结果和一些置信度。

在这种情况下,最简单的方法可能是使用无分布检验,例如Wilcoxon 秩和检验Kruskal-Wallis

更好的测试可能是使用两个样本的经验分布函数测试,例如Cramer-von-MisesAnderson-Darling测试。

我首先建议您考虑一下您真正需要什么。如果您的目的是解决故障率,则构建一个随时间推移观察到的基于 Weibull 的故障率的样本估计值。观察到的故障率自然对数(也称为危险率)的回归应与时间对数成线性关系,斜率等于形状参数减一。对于双参数 Weibull 分布,隐含比例参数可以通过将形状参数除以 exp(回归截距)并将结果乘方(1/形状参数)来确定。来源,根据关于 Weibull 分布的维基百科,引用:“线性回归也可用于数值评估拟合优度并估计 Weibull 分布的参数。

我认为除了 MLE 的数值简单性和能够可视化故障风险率模型的适当性之外,这种回归方法还有几个优点。上面的一条评论指出了自动相关错误中可能存在的问题,这可以在回归设置中轻松解决。与实验设计相关的还有一个更细微的差异,可能会显着提高参数估计的效率。虽然对数回归是线性的,但 Weibull 的故障率定律本身在早期阶段可能是高度非线性的,因为形状参数不同于一个(参见,例如,各种形状的危险率图)参数在 http://www.weibull.com/hotwire/issue14/relbasics14.htm)。根据经验,这向我表明,需要在这个早期阶段进行更多观察,以获得对尺度参数的更准确估计(从回归截距的估计中得出)。这种减少尾部观察的删失抽样方案还可以减少可能引入的其他不需要的噪声分布(例如,Web 浏览时间直到退出网站的 Weibull 模型可能会从电话、门铃、 ..,导致对实际浏览时间的估计过高)。

方便地,回归理论为参数的置信区间甚至未来故障的预测区间提供了基础。人们还可以比较相关回归机制的斜率估计。

对于那些坚持使用 MLE 的人,这里是显示通过 MLE 推导危险率的参考(参见http://www.weibull.com/hotwire/issue131/relbasics131.htm)。请注意,通常,在审查数据的情况下也可以计算 MLE。

[编辑] 非参数技术对违反独立性假设很敏感。此外,由于危险率图可以确认众所周知的通用 Weibull 分布在这种情况下作为适当的失效分布的有效性,因此在我看来,使用非参数模型的论点是值得怀疑的。