数据挖掘 - 当数据集只有少数异常值时，防止将回归 CNN 拟合到均值 - 吾爱随笔录

我正在尝试训练 CNN 对数据集进行回归，其中大多数点都位于相似的输出值附近。然而，有一些异常值非常重要，但它们的代表性较低，因此经过训练的网络倾向于预测接近整个数据集平均值的所有输出值（欠拟合）。这会导致很小的误差（和良好的精度），因为绝大多数点都在该范围内，但是对于稍微超出“正常”情况的点来说，误差要高得多。

但是由于这个回归量对于预测异常值的输出（质量控制用例）最有用，所以它目前几乎没有用。

有没有办法防止这种行为，并让 CNN 对异常值和极值给予更大的权重，以避免欠拟合？

在某种程度上，随机森林方法虽然在预测异常值的输出方面要好得多，但对于极值点的误差仍然较高，而均值附近的误差非常小。“低”点的预测值太高，而“高”点的预测值太低（每次都更接近平均值）。所以任何关于这种情况的想法都会很棒！

非常感谢