解决问题

数据挖掘 Python 分类
2022-02-25 05:26:26

我的数据集非常不平衡。

它是关于基于分类变量发生车祸的可能性......这个想法是为那些开车的客户提供保险,就像他们有车祸但还没有发生一样。

我的想法是检查崩溃的条目的外观(描述类别崩溃 = 1)并寻找类似的整体但没有崩溃(崩溃 = 0)。

我不确定如何开发这个,有什么想法吗?

1个回答

几个想法:

  • 使用欠采样 crash=0(负)或过采样 crash=1(正)训练有监督的二元分类模型。由于重采样,该模型可能偏向正类,因此它将与正类相似的真正负实例预测为正实例。通常这是一个问题(误报),但在这种特殊情况下,这是您想要的。重采样的比例将决定与您要考虑的正例的相似程度。您还可以使用概率模型并使用预测概率。
  • 仅使用正实例 (crash=1)训练一类分类模型,然后将其应用于负实例。预测为正的与正的相似。
  • 聚类:对所有实例进行聚类,无论其类如何,然后识别出正实例比例最高的聚类。同样在这些集群中的负面实例与正面实例有一些相似之处。