一个人从窗外看到一棵树的概率是多少?

机器算法验证 可能性
2022-03-19 07:42:25

我熟悉基本的概率规则,问题的形式如下:

  • 抛硬币获得正面的概率是多少?0.5
  • 如果从集合 {1, 2, 3, 4} 中均匀随机选择一个数字,得到 3 的概率是多少?0.25

如何计算更复杂的问题形式?例如:一个人从窗外看到一棵树的概率是多少,因为从那个窗口可以看到两棵树?

有很多事情需要考虑:

  • 人的眼睛视力。
  • 一天中的时间(以及周围有多少灯泡,以防日落之后)
  • 他看向的方向。
  • 树有多高?
  • 该人可以在特定时刻通过药物测试吗?
  • 他有妄想史吗?

并且列表继续,其中可能包含导致看到/没有看到树的无限可能性。鉴于我们没有从同一个窗口看到一棵树的人的频率,如何以任何准确度计算概率?如果我们 100% 有把握从 {1、2、3、4} 中得到 3 的概率是 0.25,那么我们有多大的信心?如果我们没有给出任何东西,在这种情况下问题与标题相同怎么办?

4个回答

如何以任何准确度计算概率?

没有办法计算这个,因为我们为执行计算所做的估计由于缺乏知识而具有不确定的准确性。

通常解决它的方式是我们使用一些简化的模型并将其应用于问题。但是模型是错误的,我们无法准确地表达错误的程度。尽管如此,只要误差范围很小,或者小于统计变化,那么该模型就足以应用。

另见:https ://en.m.wikipedia.org/wiki/All_models_are_wrong

好吧,这就是统计的意义,对吧?您提到的所有这些变量都是未观察到的,并且会影响结果,因此我们选择将问题的这种不确定性编码为概率。

如果您没有数据,则无法回答问题,尤其是当概率被解释为相对频率时。如果您像贝叶斯一样将概率解释为问题的不确定性,那么您可以在此基础上得出统计结论。例如,在没有知识的情况下,您可能会假设作为您的先验信念。然后无论你观察到什么数据,你都会更新这些信念并最终得到一些后验信念。显然,您观察到的数据越多,您的估计就会越好。Pr(tree)=0.5

这就是监督学习所做的事情,尤其是所谓的“分类”模型(其中大多数进行概率预测,但“分类”只是预测离散结果概率的委婉说法)。

考虑一副纸牌。我抽一张牌,让你猜牌,但不给你看。你有的概率猜到正确的牌,所以略低于的机会。如果我再告诉你这张牌是红色的,你已经排除了一半的牌,并且知道它一定是钻石或红心。当你对我抽到的牌一无所知时,你猜对牌的概率从增加到我给你一些关于牌的信息时1/522%1/521/26

在机器学习或预测建模中,关于卡片的那些细节称为特征或预测变量(概率也称为其他术语)。

如何使用可用特征并从现有特征中合成新特征是准确预测模型的特殊之处。

如果你的例子,在没有太多关于观众的信息的情况下,你可能会认为她看到一棵树的机会很低。但是,如果你知道她在白天应该可以看到的时候朝一棵树的方向看,也许你会认为她看到一棵树的可能性很大。相反,如果您知道她在没有手电筒帮助的情况下看夜景,并且在一个阴天甚至有新月(所以没有月光)的夜晚,您可能会认为她看到一棵树的可能性特别低。

如何对这样的东西进行建模是机器学习和预测建模从业者每天都在解决的一个悬而未决的问题。

当有那么多未知数时,通常你会说“我不知道概率”。例如,您当地的博彩公司不会为您提供有关这棵树的事件的赔率,并且您当地的保险代理人不会向您出售针对它的保险。

为了产生概率,您可以采取至少两种方法之一:

  • 让这个人从不同的角度、一天中的时间等多次向窗外看,记录他们什么时候看到一棵树,什么时候没看到,并得出一个频率。将此用作概率。您甚至不必知道白天发生了多少试验,晚上发生了多少。您不知道哪些因素会影响是否看到一棵树。你只知道你已经测量了你感兴趣的事件。

  • 考虑所有变量,进行大量测量,定义一个更精确的模型来描述正在发生的事情,将概率分布放在模型的每个参数上(例如“一天中的时间”、“扫视角度”),以及从您的模型告诉您的时间/角度/等中得出事件的概率,这些时间/角度/等会产生树木观测。

非常笼统地说,办公室经理可能会使用前一种方法来解决诸如“我办公室里有人感染 COVID-19 的概率是多少?”之类的问题,在这种情况下,您确实无法进行大量仔细的研究和建模,但也许您确实可以获得各种测试的自我报告结果,或者无法获得政府对整个人群中 COVID-19 流行率的估计。

“科学家”[*] 可能会使用第二种方法来解决诸如“COVID-19 患者在走进拥挤的超市时会感染至少另一个人的概率是多少?”之类的问题,即一位坚定的流行病学家可能会尝试解决的事情。当然,这并不一定意味着所有流行病学家都会得出相同的答案,因为他们可能会决定要忽略什么、要在模型中包含什么以及如何对其进行建模,这意味着他们会得到不同的数字。

您通常不能假设“我的物理/生物学/购物理论是完全错误的,因此由此得出的一切都是假的”,因为您既没有好的模型也没有好的观察频率。最好不要认为“每一个可以想象的事件都有一个概率,我的任务就是计算它”。相反,实际的物理世界已经观察到了事件,你对这个世界建立的任何概率模型都会产生概率,两者之间的任何关系都取决于你的模型是否好。

我们 100% 确信从 1 到 4 的统一选择有 0.25 的概率给出数字 3,因为这是一个紧随其定义的数学定理。我们确信数学定义。在我们确信其真实性的句子中甚至没有描述真实世界的事件:它只是“均匀离散概率分布”定义的直接应用。我们 100% 确定数学这一事实(这本身可以说是一个见仁见智的问题,但你说你是,我相信你)并不能帮助我们确定我们对光学或医学的确定程度幻觉理论,或者那些树不会在晚上被吹倒,因此明天发现它们的可能性与今天大不相同。

然而,为保险公司工作的统计学家实际上可能拥有关于全国夜间树木倒塌发生率的相当好的数据。他们可能会关心的原因是,如果您的房子附近有一棵树,他们可能想就是否应该指示您将其移走,或者至少向您收取的建筑物保险费高于建筑物的保险费提出意见远离树木。因此,任何特定因素都需要研究,但要产生概率,你总是必须在某个时候决定忽略所有你没有研究过的东西。

[*] 与令人恐惧的新闻表达“科学家们说……”中的相同,这很可能意味着文章的其余部分将省略所有科学理论和常识的细微差别。