从混合模型估计累积分布函数

机器算法验证 回归 混合分布 经验累积分布
2022-04-12 04:19:58

我有一个问题,我找不到解决方案。

假设一个混合模型:

F(x)=a×G(x)+(1a)×H(x)

其中是不同随机变量的累积分布,是权重 ( )。FGHa[0,1]

假设我知道并且我能够估计我注意到的经验累积分布函数 (ecdf) 。我的问题是:aFGF^G^

我怎样才能正确估计H

例如,如果我使用 H^(x)=F^(x)aG^(x)1a

那么我不确定将是 0 和 1 之间的递增函数。通常,的期望是但这个估计不尊重属性累积分布函数...H^(x)H^(x)H(x)

我的想法是从开始,然后从这些点估计一个累积分布函数。但是,我想做出尽可能少的假设。你知道是否有解决这个问题的方法吗?H^(x)

谢谢

1个回答

这种混合模型在多重检验理论中具有突出的特点。你又得到了这样的混合物;所谓的“两群”模式。一组对应于从零分布中得出的假设,而另一组对应于从替代分布中得出的假设。确实,有些人疯狂地试图从同一个样本中估计GH α这通常被称为经验零模型,它基本上是由 Bradley Efron 教授开创的。进行这种建模的假设之一是GHαα>0.9,但我离题了。我从这一段中的主要观点是,您可以在多个测试文献中找到很多灵感来回答您的问题;我将在下面尝试这样做。

人们实际上通常最终在多重测试文献中假设零假设下的分布(例如)是已知的。然后,使用您的符号(即是 ECDF),可以估计如下:GF^(x)H

H^(x)=F^(x)aG(x)1a

正如您所说,这是公正且一致的,但不是分布函数!在我最喜欢的预印本之一中,Bodhisattva Sen 和 Rohit Kumar Patra 试图通过施加与您所说的完全相同的条件来改进估计!

特别是,令的观测值,并且现在假设是已知的。然后他们解决了以下优化问题:X1,,XnFFα

minW CDFi=1n(W(Xi)H^(Xi))2

上面的 argmin 是我们的新估计器,它实际上是一个分布函数!换句话说,他们将朴素估计量投影到分布函数的空间上,从而改进估计。他们表明这是一个凸问题,可以使用 PAVA(池邻接违反者算法)快速解决,然后推导出该估计器的许多不错的渐近特性。H~H^

他们还走得更远,展示了何时以及如何在未知的情况下估计(它并不总是可识别的)并证明结果,尽管在你的情况下你已经知道它。α

所以基本上我认为你可以用代替来应用这个方法。事实上,因为您根据独立数据集估计,我非常有信心您也可以将所有渐近一致性结果调整到您也通过其 ECDFG(x)G^(x)GG