背景:我们使用来自体育赛事的数据,更准确地说是关于体育赛事观众的数据:有多少人在暴力,这是什么类型的赛事等等。我们有很多过去几年的数据,并且我们试图找到我们需要的“正确”数量的安全人员,以尽量减少暴力,同时保持某种“预算”。
目的:我们希望根据在场的“保安”的数量,针对给定的一组解释变量(天气、体育赛事的类型、地点等)预测预期的暴力(低、中、高)游戏。
问题:历史数据当然是高度相关的:保安人数在某种程度上与暴力成正比,并且与其他变量也非常相关(因为他们可能使用了一些安全专家来评估危险)。使用非共线性假设来制作朴素贝叶斯似乎是错误的。
问题:根据事件期间在场的警卫人数预测暴力的正确方法是什么?
我的猜测:我应该将 3-4 个“箱”中的守卫数量“离散化”(例如,少数、一些、很多、很多)以消除一些相关性,并使用相应的训练集来预测输出暴力取决于输入变量。但是由于只对我的数据子集进行训练,我会丢失很多信息。