创建函数的最小数据数是多少?

数据挖掘 线性回归
2022-03-03 13:46:14

我将介绍这样的问题:

假设有些人具有不同的能力/技能。这些能力/技能取决于环境:地板的性质、天气温度、风速。我想研究的能力/技能是个人考虑环境的速度。
如您所知,速度取决于距离,不仅因为公式distance/time unit,而且因为即使是 Usain Bolt 也无法再现 100m 和 200m 学科的相同速度,实际上他的平均速度随着距离而降低,环境变量为常数。这就是为什么我不能只看平均速度本身来判断它是否更适应
所以,因为因素是可变的/确实会改变,我想用边际效应来隔离,并得出结论,地板的什么性质更适合这个人表演,什么距离也更好(尤塞恩·博尔特不是为了耐力而做的.. .)。为此,我想使用线性回归,这更容易推导。

主要问题是我的数据并不总是很多历史性的。这通常是以前的经验不超过 5-6 次。

所以,当我在高中的时候,有一条经验法则告诉我们至少需要 5 分才能做出一个函数(使用 OLS)。知道自己年纪大了,经验也多了,我怀疑这个小门槛。但是我没有足够的经验来知道这个门槛到底是什么。你有什么主意吗 ?

1个回答

有两个问题:

  • 线性回归可能很容易计算,但不确定变量之间的关系实际上是线性的。如果不是,有时这种简化是可以的,因为没有太多的变化,但有时它是完全错误的。
  • 没有适用于每种情况的通用最小实例数。通常,想要表示的关系越复杂,需要的实例就越多。

我建议你从绘制数据开始:可视化变量之间的关系应该告诉你线性回归是否是一个好的选择,看看你的点有多分散应该告诉你是否有足够的实例。