根据分类特征计算排名函数

数据挖掘 机器学习 分类 数据挖掘 推荐系统 排行
2022-03-04 21:53:06

我正在使用 3 个特征(x1, x2, x3)进行二元分类。我所有的特征值都在 0 到 1 范围内(单位范围)。

我得到了每个特征在分类中的重要性如下(即特征重要性)

x1 --> 0.1
x2 --> 0.5
x3 --> 0.7

很明显,特征 3 (x3) 在分类中贡献最大,x2 次之,x1 最小。

我还进行了相关性分析,以检查我的特征是否与目标 (y) 正相关或负相关,如下所示。

x1 --> positively correlated
x2 --> positively correlated
x3 --> negatively correlated

我想知道是否可以使用特征重要性和相关性将我的分类特征转换为排名函数。

例如,我的建议如下所示。

ranking_score = 0.1*x1 + 0.5*x2 + 0.7*(1/x3)

在上式中使用的原因(1/x3)是因为它与目标(y)负相关。请让我知道我的ranking_score 方程在统计上是否正确?如果没有,请告诉我您的建议。

编辑:为什么排名对我很重要?

我的功能与员工详细信息(x1、x2、x3)有关。起初,我使用这 3 个特征来对高效和“低效”员工进行分类。现在,我想根据这 3 个特征对高效员工进行排名。我提出的上述等式是为了促进这项任务。

如果需要,我很乐意提供更多详细信息。

2个回答

一般来说,从分类空间转移到排名空间并不是直截了当的。在分类问题中,标签之间的排序没有意义。这意味着您建议的方程式可能根本不代表标签之间的顺序。

这在一定程度上取决于特征空间和分类算法。一些分类算法(例如基于树的)在搜索最佳拟合时不使用距离的概念。从拟合创建的分离(用于分类)不包括边界彼此之间的距离。

一些分类算法(逻辑回归、SVM 等)确实具有这种距离特征,这可以转化为实例属于每个类的概率。使用这个概率作为排名机制(而不是询问效率如何,询问效率的概率是多少)可能是有意义的。

为什么不尝试使用 ahp 获取权重,然后使用 topsis 或 vekor 进行排名?