二次函数的解释是什么?

数据挖掘 机器学习 预测建模
2022-03-14 20:46:32

我正在阅读《应用预测建模》这本书,遇到了一些令人困惑的事情。

它讨论了向模型添加非线性以提高其拟合度——我明白了这部分。

例如:x2+2x4

但是,这些值的解释是什么?

当我们只使用正态线性回归或多元回归时,我们会说像 2 这样的系数表明它相对于模型中包含的其他特征的相对重要性。但是,这在二次函数的上下文中意味着什么?

IE。基于 2 Displacement + Displacement 的汽车燃油效率2-4

位移平方到底是什么意思?

任何帮助将不胜感激。

谢谢。

3个回答

Displacement组件为我们提供了一条“线”来适应数据点。要获得更多自由,请添加Displacement2“曲线”元素。这增加了映射数据点的灵活性 - 具有相同的特征/变量。请参阅第 90、91 页关于 R 中的统计学习简介 - Hastie, Tibshirani

一般来说,我会说在统计学中(在一般数学中更是如此),寻找对一切事物的直观理解才有意义。有时这只会让你很头疼,而仅仅使用像函数这样的东西可能会容易得多:函数。你插入数字并得到一些东西(好吧,这不是真正的正式定义,但我希望它能够理解我的意思)。

话虽如此,对于方程

efficiency=2displacements+displacements2

(忽略4这里为简单起见)您实际上可以找到一个直观的观点:二次方程假设效率随着位移的数量“不仅仅是线性地”增加。

如果你有车adisplacementsa=2和车bdisplacementsb=4,那么在线性情况下

efficiency=2displacements

efficiency汽车的a将是两倍efficiency汽车的b.

但假设上述二次关系意味着displacements增加efficiency另外由二次项。efficiency汽车的b现在将是三倍efficiency汽车的a

因此,您可以从二次案例中的简单示例中看到displacements有更大的影响efficiency. 而二次项只是在数学上定义了这个“更多”。

您放置系数值的方式表示该变量的相对重要性是错误的。您还需要说预测变量是标准化的(以零为中心且 sd 为 1)以使其成为更好的论点。

个人认为不会。如果您在数据科学堆栈交换上讨论这个问题,我们只关心效率和燃料之间的关系。所以我们从先验假设开始

efficiency=adisplacement2+bdisplacement+c
以及我们如何找到这样的a,b,c以及二次关系是否适合也可以很好地概括我们的数据。这种关系是否有意义取决于具有更好领域专业知识的人来解释。

预测器重要性参考