运行两阶段分类来预测相对罕见的事件?

数据挖掘 机器学习 分类 阶级失衡
2022-03-06 02:26:03

我有一个非常不平衡的样本,我试图预测一个罕见事件的概率(在大约 25,000 次观察中,这个事件被观察到大约 30 次)并且我不愿意仅仅因为程度的不平衡。

只是用一个例子来说明我的想法:假设我正在尝试分类宝石是否是祖母绿。

但在 25,000 个样本中,我只观察到 30 颗祖母绿。但是,我还有一些其他的绿色宝石,例如翡翠和橄榄石,这使我的观察值达到了 300。

通过运行两阶段分类来确定 P(Green Stone) 和 P(Emerald | Green Stone) 是否是个好主意。

后一阶段的不平衡比例为 1 祖母绿:9 非祖母绿,这可能更适合平衡。

将不胜感激追求这个想法的任何想法/见解。

1个回答

两阶段/分层分类模型非常有用。

通常,第一阶段是二进制的。它预测低速率事件的存在或不存在。如果存在,则第二阶段对事件类型进行分类。

训练模型更容易,通常模型的预测能力更高。