非线性回归线拟合

数据挖掘 回归 相关性
2021-10-07 02:32:21

我对两个数据集进行了回归分析,每个数据集的大小为50一个数据集被调用Spatial %,另一个被调用Min values,我想检查两者是否相关。我做了分析,SPSS得到的散点图如下:

在此处输入图像描述

我没有那么多经验,但在我看来,一条线并不适合这个散点图。电源线会更好吗?或者你还有什么建议?

4个回答

我试图从您提供的散点图中估计一些数据值。

然后我进行了幂模型回归并想出了

是的=(5.77710-16)1.404X.

模型图

我使用的估计值如下。

(70,0.01),(75,0.012),(80,0.015),(90,0.025),(95,0.075),(98,0.15),(99,0.20),(99.5,0.25),(99.9,0.32)

当然,您的实际模型会有所不同,因为您拥有实际的数据集。我只是观察了几个点,所以我可以测试功率适合度。

的,线性回归不太适合这个问题。

正如@jamesmf 所建议的,非线性回归可能是一个不错的选择。

但是,这看起来很适合指数回归

指数回归图如下所示:

在此处输入图像描述

因此,调整参数以适合您的数据应该会很好。


Box-Cox 变换也可用于拟合图。

我已经获取了一个样本数据集,并拟合了箱线图转换,并使用相关参数将其转换为看起来有点像您的数据图:

在此处输入图像描述

很抱歉产生噪音,因为它是一个快速而肮脏的实现。但是,是的,Box Cox 转换也应该是一种很好的适应方式。

上图的 R 代码:

lambda = +9.6 
plot(BoxCox(elec, lambda))

elec是一个样本数据集。

你是对的,基本的线性回归不太可能适合这些数据。你需要某种形式的非线性回归

这种基本形式(包括@Dawny33 提到的指数回归)可以在大多数电子表格软件中找到,包括 Excel。像 scikit learn 和其他的包将允许更大的灵活性。

我怀疑你的X值,因为它们是百分比,位于[0,100[. 关于是的价值观,他们似乎是积极的。但是很多都非常接近0. 所以我会首先决定是否是的低于阈值的 s 应首先作为异常值放在一边,因为它们将对第一次基本拟合产生巨大影响。之后,您可以通过强大的拟合程序重新引入它们。

一个重要的问题是:是 是的有界与否?斜率似乎非常陡峭,因此您必须猜测导数是否无穷大X=100,帮助您选择型号。

我相信第一个想法是在 X 轴,与 X'=1(100-X)α 并尝试一些 α 值,以查看是否出现更清晰的模式。