考虑一个分类问题(假设有 2 个类别,“好”和“坏”),其中所有特征都是连续的。
我需要的是有助于“好”分类的每个特征的一系列值。我认为只是根据好标签或坏标签对特征值进行分区,问题是所有值对好/坏分类的贡献并不相同。
那么可以应用哪些方法来为每个特征找到这样的范围呢?
考虑一个分类问题(假设有 2 个类别,“好”和“坏”),其中所有特征都是连续的。
我需要的是有助于“好”分类的每个特征的一系列值。我认为只是根据好标签或坏标签对特征值进行分区,问题是所有值对好/坏分类的贡献并不相同。
那么可以应用哪些方法来为每个特征找到这样的范围呢?
一般来说,这是不可能的,因为如果特征 B 具有特定值/范围,则特征 A 的特定值或范围可能对应于类“好”,否则对应于类“坏”。换句话说,这些特性是相互依赖的,因此无法确保特定特性的某个范围始终与特定类相关联。
话虽如此,可以简化问题并假设特征是独立的:这正是朴素贝叶斯分类所做的。因此,如果您训练一个 NB 分类器并查看每个特征的估计概率,您应该或多或少地获得您正在寻找的信息。
另一个考虑变量之间依赖关系的选项是训练一个简单的决策树模型:通过查看树中的条件,您应该看到哪些特征/范围的组合导致了哪个类。