如果你试一试真正的计算机不会发现各种愚蠢的模式吗?
- 来自圣经中外星人的信息
- 中国或澳大利亚下雨的星期天 -> 你的运动队获胜的机会
- 读很多小说->有一个同性恋儿子
如果您拥有大量(并且数量不断增加)的信息,事情会开始以一种毫无意义的方式匹配吗?
您采取了哪些保障措施来消除这些关联?
如果你试一试真正的计算机不会发现各种愚蠢的模式吗?
如果您拥有大量(并且数量不断增加)的信息,事情会开始以一种毫无意义的方式匹配吗?
您采取了哪些保障措施来消除这些关联?
如果你试一试真正的计算机不会发现各种愚蠢的模式吗?
是的。(强调“傻”)这通常被称为过度拟合。
如果您拥有大量(并且数量不断增加)的信息,事情会开始以一种毫无意义的方式匹配吗?
答案取决于信息量增长的准确程度,以及您寻找匹配的准确程度。
数据通常与案例和变量有关。变量是属性,而案例是属于一起的观察到的属性的集合。示例:患者是病例,变量是例如多个基因的表达水平或身高、体重、眼睛颜色、鞋码、血压等。
这被称为维度灾难,统计学习的要素在第 2 章中给出了很好的解释。
这有多少问题也取决于您正在寻找什么样的匹配:
不同的表述:
您采取了哪些保障措施来消除这些关联?
可能最重要的保障措施是您可以在全新案例上测试(验证)发现的模式(或预测规则)(最好以盲法甚至双盲的方式)。不幸的是,这是非常昂贵的,因此很少进行(查看当前生物医学研究中关于可重复性的辩论)。
您还可以计算预测的置信区间(在进行昂贵的验证研究之前)。如果它们非常宽泛(如果你诚实地计算它们并且你的案例太少,它们就是这样),这意味着你需要相应地淡化你的结论。
模型设置期间的另一个保障措施是,鉴于您可用的案例数量总是太少* ,您将模型限制在您可以承受的低复杂度。
您可以而且应该根据您对应用程序和数据的了解进行完整性检查。即使正确预测的能力和解释模型的可能性并不总是结合在一起,恕我直言,如果您有过度拟合的风险,保持可解释模型通常是一项重要的保障措施。如果然后训练的模型与基本的物理特性相矛盾,这可能是过度拟合的症状。
示例:我研究生物组织的振动光谱。光谱具有它们应该是平滑的物理特性(我可以非常确定这一点,因为在理论和实验上都有 100 年的物理和化学的历史——即使我对光谱的测量是嘈杂的)。线性模型为每个维度生成系数。如果这些系数有噪声(= 不平滑),这是过度拟合的标志:系数从测量中拾取噪声,我的训练算法未能将真实信号与噪声分开。
一种完全不同的保障措施是你必须非常清楚地思考:对于错误的问题,通常很容易得到正确的答案。在进行统计假设检验时,通常很容易发现我有多大可能错误地得出结论认为存在某种模式,因为没有模式,或者我有多大可能忽略一个模式,因为确实有一些模式。但是,我想知道的是相反的:鉴于我找到了一个模式,这有多大可能是真的?(这接近@Ben Ogorek 的错误发现率)。这些反向问题之间的联系是我看到的所有可能组合(假设)中真实模式的百分比。不幸的是,这是未知的。如果我是一名优秀的研究人员,我将对真实模式有一个更好的“鼻子”,并且在我进行的少量测试中这个比例会很大。盲目地测试所有可能的组合在所有测试假设中的真实假设比例非常小。
留在你的圣经例子中:
* 我被告知有些领域有足够的案例可用。然而,就我个人而言,我还没有那种快乐。
您可能有兴趣阅读关于没有免费午餐定理的文章。NFL 定理的一个结果是,使一种算法(启发式)比另一种更成功的重要“成分”与问题更匹配。因此,将有关问题/应用和数据类型的(正确)知识包含在算法中*会产生影响。但是,这些选择还包括调整或控制训练算法整体行为的超参数。根据数据分析师对相关方法的经验,可能会有不错的选择。
* 或根据其对此类问题和此类数据的适用性来选择算法(并且数据分析师有足够的经验来得出一组好的超参数)。
我想说有两类保障措施。
为您提供各种“捕鱼许可证”的统计保障。没有它们,当您筛选成千上万的假设时,您肯定会仅凭偶然性找到虚假的关联。这是有关多重比较问题的一般信息。我更喜欢错误发现率控制。这些可以p.adjust在 R中使用。
因果保障。我很欣赏 Judea Pearl 将统计语言与因果语言分开的尝试(参见本演示文稿的第 7 页)。珀尔陈述了规则 - “没有原因 - 没有原因。” 为了从观察数据中做出因果断言, 需要先验假设所有相关变量如何适合图片。您如何(手动)在一张纸上绘制因果箭头将决定您如何运行回归。不完全是你可以通过数据挖掘出来的东西。
出于实用性考虑,我经常向一个必须在没有实验的情况下做出因果断言的领域——流行病学——寻求建议。以下是一组称为Bradford Hill标准的标准。其中,数据挖掘可以让你获得力量、一致性,甚至可能是暂时的,但它不会让你获得合理性或连贯性。