在这里,我的问题的一个例子:10000 次对具有多个特征[年龄、性别、地区、儿子数量、...] 和预测“收入”的值的人的观察。特征和收入之间没有普遍的关系,因此正态回归的结果很差。不过,我想确定存在这种关系的特定模式。例如:[年轻,女人,2 个儿子] -> 高收入 [年轻,男人] -> 小收入 ...
也许对特征进行聚类,然后对每个聚类进行回归?还是模式识别?主题建模?
先感谢您
在这里,我的问题的一个例子:10000 次对具有多个特征[年龄、性别、地区、儿子数量、...] 和预测“收入”的值的人的观察。特征和收入之间没有普遍的关系,因此正态回归的结果很差。不过,我想确定存在这种关系的特定模式。例如:[年轻,女人,2 个儿子] -> 高收入 [年轻,男人] -> 小收入 ...
也许对特征进行聚类,然后对每个聚类进行回归?还是模式识别?主题建模?
先感谢您
您所描述的称为序数回归。目标变量(收入)被分成离散的组,其中不同组之间的相对顺序被保留(低、中、高)。
将连续变量分箱作为更好地处理噪声数据的优势。
绘制收入分布(直方图)并查看是否在那里看到集群(即,如果它是高斯混合),如果是,托盘对那里的每个集群进行回归,看看它是否有效。
示例:如果您想根据简历预测招聘,那么对于普通的办公室工作,您的目标几乎与输入无关,因为许多具有多种背景的人都可以做到这一点,但对于技术专家职位,您会看到特征和目标之间更多的相关性。也可能发生在您的数据中。
更精确的方法实际上是区分你的数字特征并对所有特征进行一次热编码。然后,如果目标与仅某些特征值之间存在相关性,那么您将能够捕获它。