我有一个非常不平衡的样本,我试图预测一个罕见事件的概率(在大约 25,000 次观察中,这个事件被观察到大约 30 次)并且我不愿意仅仅因为程度的不平衡。
只是用一个例子来说明我的想法:假设我正在尝试分类宝石是否是祖母绿。
但在 25,000 个样本中,我只观察到 30 颗祖母绿。但是,我还有一些其他的绿色宝石,例如翡翠和橄榄石,这使我的观察值达到了 300。
通过运行两阶段分类来确定 P(Green Stone) 和 P(Emerald | Green Stone) 是否是个好主意。
后一阶段的不平衡比例为 1 祖母绿:9 非祖母绿,这可能更适合平衡。
将不胜感激追求这个想法的任何想法/见解。