当数据集只有少数异常值时,防止将回归 CNN 拟合到均值

数据挖掘 回归 随机森林 美国有线电视新闻网
2022-02-21 02:13:36

我正在尝试训练 CNN 对数据集进行回归,其中大多数点都位于相似的输出值附近。然而,有一些异常值非常重要,但它们的代表性较低,因此经过训练的网络倾向于预测接近整个数据集平均值的所有输出值(欠拟合)。这会导致很小的误差(和良好的精度),因为绝大多数点都在该范围内,但是对于稍微超出“正常”情况的点来说,误差要高得多。

但是由于这个回归量对于预测异常值的输出(质量控制用例)最有用,所以它目前几乎没有用。

有没有办法防止这种行为,并让 CNN 对异常值和极值给予更大的权重,以避免欠拟合?

在某种程度上,随机森林方法虽然在预测异常值的输出方面要好得多,但对于极值点的误差仍然较高,而均值附近的误差非常小。“低”点的预测值太高,而“高”点的预测值太低(每次都更接近平均值)。所以任何关于这种情况的想法都会很棒!

非常感谢

1个回答

我不确定您要做什么。CNN 非常适合与图像相关的任务,因为它们试图从输入数据中提取空间局部特征。它们可以用于回归问题,但前提是输入类似于图像。

另一方面,随机森林不擅长与图像相关的任务,除非事先进行了某种特征提取。

您的数据集是否包含图像?如果不是,请不要使用 CNN!