假设我有一个大数据集,并且我计算了它的一些统计摘要——例如,一个维度与另一个维度的相关性。
我认为一个合理的问题是“哪些数据点可以解释这个结果”——例如,也许是因为有两个巨大的异常值可以解释整个相关性?还是所有的点都大致同等重要?
或者,比如说,我正在计算一个响应变量的平均值,该平均值是在一个参数的两个不同值处测量的。我发现手段大致相同。为什么相同:是因为变量的分布是相同的,还是因为两种情况下的平均值都是由一个大集群决定的,该集群决定了整个平均值并掩盖了其余分布的差异?
我想,一般来说,我对计算涉及计算的数据点和参数的统计摘要(不一定是单个数字)的敏感性感兴趣。
这种敏感性的概念一方面可以帮助我避免无意义的结果(这完全可以通过异常测量来解释),另一方面,它将指导我进一步的探索。
那么:是否存在研究这种敏感性的统计学分支?如果是,该分支有哪些有用的方法/您会推荐哪些进一步阅读?例如,我想,它可能对数据可视化方法有用 - 不仅仅是绘制数据,而是根据某个指标对那个点的敏感性为每个点着色?
我尝试在谷歌上搜索“解释性统计”、“统计摘要的敏感性”等内容,但没有找到很多。我发现了不确定性和敏感性分析,但这并不是我想要的——我对数据集的一个变量与另一个变量的敏感性不感兴趣,我有兴趣对诸如“做这两个”之类的问题做出更深入的回答变量相关”。
PS 更多的谷歌搜索产生了关键字“输入重要性”和一些数据可视化方法,例如http://vis.cs.ucdavis.edu/papers/TVCG_Chan_GSS.pdf。但我渴望专家的建议:)