具有高度相关数据的逻辑回归/朴素贝叶斯

机器算法验证 相关性 物流 朴素贝叶斯 调解
2022-04-16 22:54:18

背景:我们使用来自体育赛事的数据,更准确地说是关于体育赛事观众的数据:有多少人在暴力,这是什么类型的赛事等等。我们有很多过去几年的数据,并且我们试图找到我们需要的“正确”数量的安全人员,以尽量减少暴力,同时保持某种“预算”。

目的:我们希望根据在场的“保安”的数量,针对给定的一组解释变量(天气、体育赛事的类型、地点等)预测预期的暴力(低、中、高)游戏。

问题:历史数据当然是高度相关的:保安人数在某种程度上与暴力成正比,并且与其他变量也非常相关(因为他们可能使用了一些安全专家来评估危险)。使用非共线性假设来制作朴素贝叶斯似乎是错误的。

问题:根据事件期间在场的警卫人数预测暴力的正确方法是什么?

我的猜测:我应该将 3-4 个“箱”中的守卫数量“离散化”(例如,少数、一些、很多、很多)以消除一些相关性,并使用相应的训练集来预测输出暴力取决于输入变量。但是由于只对我的数据子集进行训练,我会丢失很多信息。

2个回答

我不同意离散化以消除共线性。它并没有摆脱它,它只是将它推到地毯下,在那里它可能会导致问题,同时不那么明显。

“警卫人数”似乎是一个中介变量。最近有很多关于调解员的工作,其中大部分是由 MacKinnon 和他的同事完成的。例如这本书,但他也写过文章并有一个网站(谷歌搜索会找到很多东西)。

那么 a) 建立一个模型来预测守卫的数量 n_act,调用它的输出 n_est。b) 建立模型以根据输入和(实际警卫估计,n_act - n_est)预测暴力