机器学习能找到各种疯狂的联系吗?

机器算法验证 机器学习 相关性 模式识别
2022-03-25 13:45:11

如果你试一试真正的计算机不会发现各种愚蠢的模式吗?

  • 来自圣经中外星人的信息
  • 中国或澳大利亚下雨的星期天 -> 你的运动队获胜的机会
  • 读很多小说->有一个同性恋儿子

如果您拥有大量(并且数量不断增加)的信息,事情会开始以一种毫无意义的方式匹配吗?

您采取了哪些保障措施来消除这些关联?

2个回答

如果你试一试真正的计算机不会发现各种愚蠢的模式吗?

是的。(强调“傻”)这通常被称为过度拟合

如果您拥有大量(并且数量不断增加)的信息,事情会开始以一种毫无意义的方式匹配吗?

答案取决于信息量增长的准确程度,以及您寻找匹配的准确程度。

数据通常与案例和变量有关。变量是属性,而案例是属于一起的观察到的属性的集合。示例:患者是病例,变量是例如多个基因的表达水平或身高、体重、眼睛颜色、鞋码、血压等。

  • 如果“更多信息”意味着您测量更多变量,例如同一患者的更多基因的表达水平,那么在恒定患者组中发现机会模式的机会就会增加。
  • 如果“更多信息”意味着您测量相同变量的表达水平,例如更多患者的一组恒定基因,那么机会就会减少。

这被称为维度灾难,统计学习的要素在第 2 章中给出了很好的解释。
这有多少问题也取决于您正在寻找什么样的匹配:

  • 找到案例组之间的区别(分类问题)比通过所有点找到函数(回归)更容易(更多自由度;因此更容易过度拟合!)

不同的表述:

  • 如果您寻找任何匹配项(派对上的任何两个人的生日相同),随着信息/案例的增多,机会就会增加。如果您要求在所有案例之间进行匹配(每个人都有相同的生日),添加新案例的机会会减少。但是找到的机会(假的)

您采取了哪些保障措施来消除这些关联?

可能最重要的保障措施是您可以在全新案例上测试(验证)发现的模式(或预测规则)(最好以盲法甚至双盲的方式)。不幸的是,这是非常昂贵的,因此很少进行(查看当前生物医学研究中关于可重复性的辩论)。

您还可以计算预测的置信区间(在进行昂贵的验证研究之前)。如果它们非常宽泛(如果你诚实地计算它们并且你的案例太少,它们就是这样),这意味着你需要相应地淡化你的结论。

模型设置期间的另一个保障措施是,鉴于您可用的案例数量总是太少* ,您将模型限制在您可以承受的低复杂度。

您可以而且应该根据对应用程序和数据了解进行完整性检查即使正确预测的能力和解释模型的可能性并不总是结合在一起,恕我直言,如果您有过度拟合的风险,保持可解释模型通常是一项重要的保障措施。如果然后训练的模型与基本的物理特性相矛盾,这可能是过度拟合的症状。
示例:我研究生物组织的振动光谱。光谱具有它们应该是平滑的物理特性(我可以非常确定这一点,因为在理论和实验上都有 100 年的物理和化学的历史——即使我对光谱的测量是嘈杂的)。线性模型为每个维度生成系数。如果这些系数有噪声(= 不平滑),这是过度拟合的标志:系数从测量中拾取噪声,我的训练算法未能将真实信号与噪声分开。

一种完全不同的保障措施是你必须非常清楚地思考:对于错误的问题,通常很容易得到正确的答案在进行统计假设检验时,通常很容易发现我有多大可能错误地得出结论认为存在某种模式,因为没有模式,或者我有多大可能忽略一个模式,因为确实有一些模式。但是,我想知道的是相反的:鉴于我找到了一个模式,这有多大可能是真的?(这接近@Ben Ogorek 的错误发现率)。这些反向问题之间的联系是我看到的所有可能组合(假设)中真实模式的百分比。不幸的是,这是未知的。如果我是一名优秀的研究人员,我将对真实模式有一个更好的“鼻子”,并且在我进行的少量测试中这个比例会很大。盲目地测试所有可能的组合在所有测试假设中的真实假设比例非常小。

留在你的圣经例子中:

  • 作为一个明智而仔细地提出假设(“好鼻子”)的例子,假设我从旧约中预测十诫很重要,我可以根据新约“验证”这个“预测”。结论将是例如在安息日禁止谋杀、通奸、偷窃/绑架诫命、混合证据的成功。
  • 另一方面,如果我盲目地测试旧约中所有可能的字符组合与来自 ET 的所有已知信息(加上可能从莎士比亚到哥德尔到史蒂文·金和巴拉克·奥巴马的各种引语),我可能会找到一些复杂的方法来从旧约中产生一些这样的引用。但是在所有可能的字符转换中,真正的模式生成规则所占的比例很小。因此,我预计“成功”可能是误报。我仍然希望
    “验证”为旧约产生模式的转换规则将无法在新约上产生合理的模式(表明模式是误报并且产生模式的转换是过拟合的)。
    我想说的是,如果发现它也适用于新约,那么在接受该验证之前,我必须排除不诚实(例如在模型参数调整期间偷偷预览新约)(与其中一个中的合理性相比) @Ben 的链接)。

* 我被告知有些领域有足够的案例可用。然而,就我个人而言,我还没有那种快乐。


您可能有兴趣阅读关于没有免费午餐定理的文章。NFL 定理的一个结果是,使一种算法(启发式)比另一种更成功的重要“成分”与问题更匹配。因此,将有关问题/应用和数据类型的(正确)知识包含在算法中*会产生影响。但是,这些选择还包括调整或控制训练算法整体行为的超参数。根据数据分析师对相关方法的经验,可能会有不错的选择。

* 或根据其对此类问题和此类数据的适用性来选择算法(并且数据分析师有足够的经验来得出一组好的超参数)。

我想说有两类保障措施。

  1. 为您提供各种“捕鱼许可证”的统计保障。没有它们,当您筛选成千上万的假设时,您肯定会仅凭偶然性找到虚假的关联。这是有关多重比较问题的一般信息。我更喜欢错误发现率控制。这些可以p.adjust在 R中使用。

  2. 因果保障我很欣赏 Judea Pearl 将统计语言与因果语言分开的尝试(参见本演示文稿的第 7 页)。珀尔陈述了规则 - “没有原因 - 没有原因。” 为了从观察数据中做出因果断言, 需要先验假设所有相关变量如何适合图片。您如何(手动)在一张纸上绘制因果箭头将决定您如何运行回归。不完全是你可以通过数据挖掘出来的东西。

出于实用性考虑,我经常向一个必须在没有实验的情况下做出因果断言的领域——流行病学——寻求建议。以下是一组称为Bradford Hill标准的标准。其中,数据挖掘可以让你获得力量、一致性,甚至可能是暂时的,但它不会让你获得合理性或连贯性。