是否有一个统计分支试图解释“为什么”数据集具有某些统计属性?

机器算法验证 参考 因果关系 探索性数据分析 敏感性分析
2022-04-11 22:31:43

假设我有一个大数据集,并且我计算了它的一些统计摘要——例如,一个维度与另一个维度的相关性。

我认为一个合理的问题是“哪些数据点可以解释这个结果”——例如,也许是因为有两个巨大的异常值可以解释整个相关性?还是所有的点都大致同等重要?

或者,比如说,我正在计算一个响应变量的平均值,该平均值是在一个参数的两个不同值处测量的。我发现手段大致相同。为什么相同:是因为变量的分布是相同的,还是因为两种情况下的平均值都是由一个大集群决定的,该集群决定了整个平均值并掩盖了其余分布的差异?

我想,一般来说,我对计算涉及计算的数据点和参数的统计摘要(不一定是单个数字)的敏感性感兴趣。

这种敏感性的概念一方面可以帮助我避免无意义的结果(这完全可以通过异常测量来解释),另一方面,它将指导我进一步的探索。

那么:是否存在研究这种敏感性的统计学分支?如果是,该分支有哪些有用的方法/您会推荐哪些进一步阅读?例如,我想,它可能对数据可视化方法有用 - 不仅仅是绘制数据,而是根据某个指标对那个点的敏感性为每个点着色?

我尝试在谷歌上搜索“解释性统计”、“统计摘要的敏感性”等内容,但没有找到很多。我发现了不确定性和敏感性分析,但这并不是我想要的——我对数据集的一个变量与另一个变量的敏感性不感兴趣,我有兴趣对诸如“做这两个”之类的问题做出更深入的回答变量相关”。

PS 更多的谷歌搜索产生了关键字“输入重要性”和一些数据可视化方法,例如http://vis.cs.ucdavis.edu/papers/TVCG_Chan_GSS.pdf但我渴望专家的建议:)

1个回答

我不确定这整个主题是否有一个简洁的标题,但这肯定是一个重要的问题。也许“强大的统计数据”会是一个很好的起点?

恰当命名的经验影响函数描述了估计量(例如,平均值或中位数)如何依赖于其样本中某个点的值。它也可以概括为“影响”或敏感性函数,它询问估计量的值如何随着数据分布的变化而变化。

您还可以考虑估算器的故障点,它本质上是估算器可以容忍的“虚假”值(例如,任意大)的比例。例如,平均值的分解点为零,因为您可以通过用任意大的正值或负值替换数据集中的单个点来完全改变它的值。另一方面,中位数对这种“攻击”非常有抵抗力。

在回归上下文中,DDFITS是一种诊断,它询问“如果分析中包含/排除该点,该点的预测将如何变化?” 库克距离(或库克 D)是一个相似的量(它们的计算方式不同,但可以相互转换)。杠杆是一个相关的量,但只受自变量值的影响,而不是受独立变量和从属变量的影响。