我正在处理数据不平衡的回归问题,我想知道我是否正确地加权了错误。我将尝试用一个简单的例子来说明这个概念。
想象一下,我正在建立一个模型来预测纽约和洛杉矶的房价。NY我有比 中更多的训练示例LA,但我希望算法在两个城市中表现同样出色。使问题进一步复杂化的是,房价NY的差异比 中的更大LA。
这是一个示例训练数据集:
City N_rooms House_Price
NY 4 400
NY 7 1000
NY 5 800
NY 3 300
NY 7 600
NY 2 100
NY 4 500
LA 3 400
LA 5 500
LA 4 500
我有7培训示例NY和3培训示例LA。如果我的成本函数是MSE,即sum((y_pred - y_true)^2)/10,为了确保算法在两个城市中表现同样好,我需要对预测误差赋予不同的权重,即
sum(w * (y_pred - y_true)^2)/10
我想知道以下哪一项是定义w和/或重新调整训练数据的正确方法:
- 不要使用权重(即
w=1) - 定义
w为训练集中每一类的反频,即w=1/3for house inLA和w=1/7for house inNY NY分别对 in和的价格进行标准化,即从 in的每栋房屋的价格LA中减去 in 的平均价格,然后将 in 的每栋房屋的价格除以 in 的房价标准差。类似地,从 中的每栋房屋的价格中减去平均价格,然后将每栋房屋的价格除以 中的房价标准差。现在在缩放数据上训练回归模型。要预测实际价格,请将逆缩放应用于模型预测。NYNYNYNYLALALALA- 应用两个点
2和3。
注意:目标不仅是最小化整体误差,而且是构建一个在两个城市中表现同样出色的算法。