机器算法验证 - 使用标准差作为预测变量？ - 吾爱随笔录

使用标准差作为预测变量？

机器算法验证标准差

2022-04-08 04:33:45

我的问题很简单：使用一组数据点 (X) 的标准差作为 Y 的预测变量在统计上是否有效？

我正在处理如下所示的数据：

在此处输入图像描述

好吧，在 X 值的某个点上，响应的均值刚好达到渐近线，但测量值的方差不断增加。对于每个 Y 值，我有几个实验给了我十几分。

因此，在模型中包含标准差作为解释变量的想法：

y ~ X + sd(X)

我什至得到了一个更好的模型，其中单个变量计算为 X 值与其所属点组的标准偏差的乘积。

这个可以吗？我还能称这为线性模型吗？我现在应该检查什么假设？谢谢

编辑：（在与马修讨论后）我为我的研究添加了一个精确度：当我采取一系列措施时，我事先不知道 Y 会是什么。但是，我从设计上知道它们应该具有相同的 Y 值，因为它们来自同一个“批次”

2个回答

从您的图片来看，您的提议似乎是根据 $Y$ ，然后计算标准差 $X$ 在每一层中，然后使用该计算的组标准差作为预测变量。

这泄露了真正的价值 $Y$ 进入你的预测器。当然，您的模型更准确，您基本上允许它记住 $Y$ 通过给它一个字典，其中的“单词”是 $\sigma(X)$ 其“定义”是 $Y$ .

考虑一下如果给定一个新数据集，其中只有 $X$ ，并且您想要预测 $Y$ . 你打算如何使用你的新 $\sigma(X)$ 这种情况下的预测器？你得知道 $Y$ 分层 $X$ 并计算 $\sigma(X)$ 每组！

现在，如果您可以在不参考的情况下定义您的组 $Y$ ，那是另一回事。

好的，我仍然不明白的是“将 Y 的值泄漏到您的预测变量中”，因为最终每个模型都使用 Y 值来计算其系数，那么有什么区别？

你是完全正确的，所有回归都使用 $Y$ 计算它们的系数。详细写出依赖关系，这看起来像

Y = β_{0} (X, Y) + β_{1} (X, Y) X_{1} + \dots + β_{n} (X, Y) X_{N}

$Y = \beta_0(X, Y) + \beta_1(X, Y) X_1 + \cdots + \beta_n(X, Y) X_N$

每个系数是 $Y$ （更准确地说， $Y$ 在训练数据中），但每个预测器都不是。在您的情况下，您正在创建一个预测器，它是两者的函数 $X$ 和 $Y$ . 这就是我所说的“将 Y 的真实值泄漏到您的预测变量中”的意思。

但是让我们假设我的方法无效。然而，它在预测的交叉验证过程中给了我最小的错误。

是的，您的交叉验证错误较低也就不足为奇了。不幸的是，您的交叉验证应用程序不正确。正确的程序是这样的

将您的数据分成折叠和折叠对。
对于每一对，仅使用折叠数据计算您的特征。
仅使用以下值对非折叠数据进行预测 $X$ , 或作为函数的特征 $X$ .
平均这些预测的错误率。

您的程序违反了第二个和第三个要点。我建议您看一下《统计学习的要素》第 7 章中题为“进行交叉验证的错误和正确的方法”的部分。

我的统计学老师曾经告诉我们“如果你能创建一个更好的预测器，你就不需要向人们解释你是如何创建它的”

我并不是要在没有完整背景的情况下与您的老师相矛盾，但如上所述，这是可疑的建议。

我理解agenis 的意思是，在创建std dev 时，他希望将它们基于分桶的X 值，而不是Y 值。如果他问的是对 Y 值进行分桶，那么 Matthew Drury 是正确的，这会将 Y “泄漏”到预测变量中。此外，agenis 没有说明信息是否存在时间维度。我们都假设没有。如果存在，那么采用 Y 的滞后是适当的，并且可以充分控制 Y 的“泄漏”到预测变量中的问题。此外，任何时间关系都会开辟新类别的建模选项，从非线性扩散模型到多种“Box-Jenkins”类型方法。

这里还有很多可以玩的地方。

简单地对 X 值进行分桶，例如，在 X 上创建 10 个互斥分组，相当于一种穷人的核密度分析方法。根据图表并给出曲线的凸斜率，可以看到这些新分组在 X wrt Y 范围内的预测能力迅速下降。鉴于此，很可能拟合 2 或 3 个样条曲线将提供比提出的主效应模型更适合。

如果选择对 X 进行分桶，一个值得探讨的考虑是使用桶内变异系数而不是标准差。CV 是标准差与平均值的比值（乘以 100），并且会产生一个在 X 的水平上不变且可比较的度量。为什么这很重要？以两个股票价格为例。股票 1 的平均价格为 500，标准偏差为 100，而股票 2 的平均价格为 50，标准偏差为 20。哪只股票的波动性更大？您无法查看标准开发人员本身来回答这个问题，因为它们是规模相关的。股票 1 的 CV 为 20 (100/500*100=20)，股票 2 为 40。因此，尽管标准偏差较小，但股票 2 的固有波动性比股票 1 更大。对我来说，度量的优势像这样在依赖于规模的 std dev 上是清楚的。

另一种可能性是不分桶 X 并通过转换保持其连续分布的性质。例如，再次基于图表，X 和 Y 之间的关系可能是指数的。根据 X 的大小或大小，求幂可能会很快导致字节溢出（值太大以至于不适合数字格式）。考虑到这种风险，首先用自然对数函数转换 X，然后取指数将是一种解决方法。保留其连续性质并压缩其 PDF（概率密度函数，即其尾部）的 X 的其他变换也是可能的。文献中确实有几十个（如果不是更多的话）转换。有一本书专门介绍数学变换，虽然我忘记了书名。

到目前为止提出的所有建议都涉及基于 X 的线性函数和模型。参数中的非线性模型也是可能的，但在规范和解释方面可能很麻烦。

归根结底，这个问题变成了预测与模型结果的实质性解释的相对重要性之一。如果重点只是预测，那么适合数据但含义不透明的“黑盒”模型是允许的。如果对 X 和 Y 之间关系的战略洞察力是目标，那么将事情保持在分析师和分析师的观众的水平上是必要的。在后一种情况下，应避免高度技术性的解决方案，因为几乎可以肯定，观众将由技术上半文盲的人组成，充其量是技术文盲。向无数听众解释某事是每个分析师最糟糕的噩梦，而他们是房间里唯一理解他们所讲内容的人

当然，将数据分成单独的测试和保留样本（或 k 折叠）以评估模型拟合“样本外”并控制过度拟合是强制性的。

其它你可能感兴趣的问题

上一篇在这种情况下如何进行假设检验？下一篇如何检测嘈杂的数据集（偏差和方差权衡）