我正在使用 Hedonic 回归的概念来模拟房地产价格。我的方法有些麻烦。
我所拥有的和我所做的
- 我的数据由具有以下特征的房地产组成:
price | livingArea | propertyArea | condoFloorNumber | roomCount | elevator | garage | quiet | etc. - 我在没有截距的情况下进行了稳健的回归
lmRob(price ~ . -1)
我想要的是
- 一个模型,我可以用它来预测房地产价格,但不在使用的数据集中
- 对系数有一些限制也很好
问题
- 很多时候我的系数值都不好
ex: bathroomCount = -80000。有了附加浴室,房子的价格不可能下降80.000€ 我也尝试使用该函数
pcls来对系数施加一些限制,但这种方法给出了非常糟糕的结果。在情节Y = price和X = livingArea。如您所见,回归线不正确。
- 另一个想法是将回归问题转换为最大化或最小化问题,但没能做到
- 我也尝试使用不同的回归方法
lm, lmrob, ltsReg, MARS,但它们也给了我不好的系数。(有时这个不好的系数可以很好地估计价格) - 我认为大量的虚拟变量会损害回归
我的方法是错误的吗?
有人对我有一些提示,技巧吗?(我不是统计学家)
[更新]

这就是绘制数据的样子。LivingArea 是唯一的非虚拟变量。
[更新 2]
y = bX
means
y = b_0*X_0 + b_1*X_1 + ... + b_k*X_k
which is an equation system like this:
y[0] = b_0*X_0[0] + b_1*X_1[0] + ... + b_k*X_k[0]
.
.
.
y[n] = b_0*X_0[n] + b_1*X_1[n] + ... + b_k*X_k[n]
我做对了吗?
如果是这样,则不可能向其添加一些不等式约束方程。例子:
b_0 >= 2000
b_2 <= b_0/2
[更新 3]
我正在运行没有截距的回归,因为如果房地产的所有特征 = 0,那么当然它的价格 = 0。没有人会为 0 平方米的公寓买单。
但似乎使用截距的回归线(蓝色)看起来比没有截距的回归线(绿色)要好得多。我不明白为什么会这样。为什么没有截距的回归线不是从点(0,0)开始?