“相关性”的上限?

数据挖掘 回归 相关性 互信息
2022-02-24 15:38:43

我们有大约 100 个问卷答案,有五个问题(Q5)。与此无关,我们有大约 50 个有些重叠的特征来描述回答问题的人 (F50)。在尝试从 50 个特征中预测 5 个答案中的任何一个时,我们抛出了大量的“黑盒”回归模型,我们得出的结论是,这些特征与问卷的主题完全正交。

这很有趣,也有点令人惊讶,尝试“证明”可能会很有趣。有谁知道我们可以争论的措施或方法,如果

'X 在应用于 F50 时不会在 Q5 中产生任何预测值'

然后

'F50和Q5的因果关系弱于C'

一些多元互信息的味道会成为前进的方向吗?

我希望这个问题是有道理的。看起来它通常会很有趣。

1个回答

非常有趣的问题,总是很难证明是否定的。我有一个模糊的想法,但我真的不知道它是否值得,甚至适用于这个问题,所以请持保留态度!

这个想法是使用随机性和多个样本来比较随机噪声与实际数据 X 的预测结果:如果 X 的结果并不明显优于随机噪声,那么您已经证明 X 没有有任何预测能力。当然,这依赖于用于预测的模型足够合理的假设。

我见过使用这个想法的方法,但不幸的是我不记得细节了。我能给出的唯一方向是:

  • 用于验证作者身份的冒名顶替方法,它基于类似的想法
  • 我看过一些使用二项式检验来正式测试方法 X 的结果是否与随机基线显着不同的作品。

抱歉没有详细说明,希望对您有所帮助。