使用标准差作为预测变量?

机器算法验证 标准差
2022-04-08 04:33:45

我的问题很简单:使用一组数据点 (X) 的标准差作为 Y 的预测变量在统计上是否有效?

我正在处理如下所示的数据:

在此处输入图像描述

好吧,在 X 值的某个点上,响应的均值刚好达到渐近线,但测量值的方差不断增加。对于每个 Y 值,我有几个实验给了我十几分。

因此,在模型中包含标准差作为解释变量的想法:

y ~ X + sd(X)

我什至得到了一个更好的模型,其中单个变量计算为 X 值与其所属点组的标准偏差的乘积。

这个可以吗?我还能称这为线性模型吗?我现在应该检查什么假设?谢谢

编辑:(在与马修讨论后)我为我的研究添加了一个精确度:当我采取一系列措施时,我事先不知道 Y 会是什么。但是,我从设计上知道它们应该具有相同的 Y 值,因为它们来自同一个“批次”

2个回答

从您的图片来看,您的提议似乎是根据Y,然后计算标准差X在每一层中,然后使用该计算的组标准差作为预测变量。

这泄露了真正的价值Y进入你的预测器当然,您的模型更准确,您基本上允许它记住Y通过给它一个字典,其中的“单词”是σ(X)其“定义”是Y.

考虑一下如果给定一个新数据集,其中只有X,并且您想要预测Y. 你打算如何使用你的新σ(X)这种情况下的预测器?你得知道Y分层X并计算σ(X)每组!

现在,如果您可以在不参考的情况下定义您的组Y,那是另一回事。

好的,我仍然不明白的是“将 Y 的值泄漏到您的预测变量中”,因为最终每个模型都使用 Y 值来计算其系数,那么有什么区别?

你是完全正确的,所有回归都使用Y计算它们的系数。详细写出依赖关系,这看起来像

Y=β0(X,Y)+β1(X,Y)X1++βn(X,Y)XN

每个系数Y(更准确地说,Y在训练数据中),但每个预测器都不是。在您的情况下,您正在创建一个预测器,它是两者的函数 XY. 这就是我所说的“将 Y 的真实值泄漏到您的预测变量中”的意思。

但是让我们假设我的方法无效。然而,它在预测的交叉验证过程中给了我最小的错误。

是的,您的交叉验证错误较低也就不足为奇了。不幸的是,您的交叉验证应用程序不正确。正确的程序是这样的

  • 将您的数据分成折叠和折叠对。
  • 对于每一对,仅使用折叠数据计算您的特征
  • 仅使用以下值对非折叠数据进行预测X, 或作为函数的特征X.
  • 平均这些预测的错误率。

您的程序违反了第二个和第三个要点。我建议您看一下《统计学习的要素》第 7 章中题为“进行交叉验证的错误和正确的方法”的部分。

我的统计学老师曾经告诉我们“如果你能创建一个更好的预测器,你就不需要向人们解释你是如何创建它的”

我并不是要在没有完整背景的情况下与您的老师相矛盾,但如上所述,这是可疑的建议。

我理解agenis 的意思是,在创建std dev 时,他希望将它们基于分桶的X 值,而不是Y 值。如果他问的是对 Y 值进行分桶,那么 Matthew Drury 是正确的,这会将 Y “泄漏”到预测变量中。此外,agenis 没有说明信息是否存在时间维度。我们都假设没有。如果存在,那么采用 Y 的滞后是适当的,并且可以充分控制 Y 的“泄漏”到预测变量中的问题。此外,任何时间关系都会开辟新类别的建模选项,从非线性扩散模型到多种“Box-Jenkins”类型方法。

这里还有很多可以玩的地方。

简单地对 X 值进行分桶,例如,在 X 上创建 10 个互斥分组,相当于一种穷人的核密度分析方法。根据图表并给出曲线的凸斜率,可以看到这些新分组在 X wrt Y 范围内的预测能力迅速下降。鉴于此,很可能拟合 2 或 3 个样条曲线将提供比提出的主效应模型更适合。

如果选择对 X 进行分桶,一个值得探讨的考虑是使用桶内变异系数而不是标准差。CV 是标准差与平均值的比值(乘以 100),并且会产生一个在 X 的水平上不变且可比较的度量。为什么这很重要?以两个股票价格为例。股票 1 的平均价格为 500,标准偏差为 100,而股票 2 的平均价格为 50,标准偏差为 20。哪只股票的波动性更大?您无法查看标准开发人员本身来回答这个问题,因为它们是规模相关的。股票 1 的 CV 为 20 (100/500*100=20),股票 2 为 40。因此,尽管标准偏差较小,但股票 2 的固有波动性比股票 1 更大。对我来说,度量的优势像这样在依赖于规模的 std dev 上是清楚的。

另一种可能性是不分桶 X 并通过转换保持其连续分布的性质。例如,再次基于图表,X 和 Y 之间的关系可能是指数的。根据 X 的大小或大小,求幂可能会很快导致字节溢出(值太大以至于不适合数字格式)。考虑到这种风险,首先用自然对数函数转换 X,然后取指数将是一种解决方法。保留其连续性质并压缩其 PDF(概率密度函数,即其尾部)的 X 的其他变换也是可能的。文献中确实有几十个(如果不是更多的话)转换。有一本书专门介绍数学变换,虽然我忘记了书名。

到目前为止提出的所有建议都涉及基于 X 的线性函数和模型。参数中的非线性模型也是可能的,但在规范和解释方面可能很麻烦。

归根结底,这个问题变成了预测与模型结果的实质性解释的相对重要性之一。如果重点只是预测,那么适合数据但含义不透明的“黑盒”模型是允许的。如果对 X 和 Y 之间关系的战略洞察力是目标,那么将事情保持在分析师和分析师的观众的水平上是必要的。在后一种情况下,应避免高度技术性的解决方案,因为几乎可以肯定,观众将由技术上半文盲的人组成,充其量是技术文盲。向无数听众解释某事是每个分析师最糟糕的噩梦,而他们是房间里唯一理解他们所讲内容的人

当然,将数据分成单独的测试和保留样本(或 k 折叠)以评估模型拟合“样本外”并控制过度拟合是强制性的。