机器算法验证 - 何时将数据划分为逻辑回归中的训练和测试集？ - 吾爱随笔录

何时将数据划分为逻辑回归中的训练和测试集？

机器算法验证回归物流交叉验证最大似然回归系数

2022-03-30 05:27:22

我在某种low event rate情况下使用逻辑回归。
总体宇宙：46,000
事件：420

传统的逻辑回归模型将数据分为训练集和测试集，并计算错误率。选择最终的系数和阈值水平并创建模型。

OTH，我只是想证明某某系数是显着的，并且与研究中的事件呈正相关。到目前为止，我还没有开发模型。我不关注错误率（太多真正的否定！）并选择了我的阈值水平〜命中率。

我是否应该考虑按照传统方式将我的宇宙分成 2 个样本？由于事件发生率如此之低，我担心这样做会影响我的系数。估计。

3个回答

如果您对系数的重要性而不是预测感兴趣，我认为您不需要划分集合。交叉验证用于判断用于估计模型的样本之外的预测误差。通常，目标是调整一些不是从数据中估计的参数。

例如，如果您对预测感兴趣，我建议您使用正则化逻辑回归。这类似于逻辑回归，除了系数（作为一个整体）偏向 0 的事实。偏差水平由通常通过交叉验证微调的惩罚参数确定。这个想法是选择最小化样本外误差（通过交叉验证测量）的惩罚参数。在构建预测模型时，如果所述偏差会导致很大预测方差的更大下降（因此，为预测目的产生了更好的模型。）

你想做的是推理。你想要一个系数的无偏估计（据说是为了判断改变一个变量可能对另一个变量产生的影响）。获得这一点的最佳方法是拥有一个指定良好的模型和尽可能大的样本。因此，我不会拆分样本。如果您对抽样变化感兴趣，则应尝试使用bootstrap 或 jacknife程序。

编辑：

简短版本：您想要一个无偏见的模型。交叉验证可以帮助你找到一个很好的预测模型，但通常是有偏差的。因此，我认为交叉验证在这种情况下没有帮助。

(1) 拆分样本可能不是解决此问题的常规方法。显然，惯例因研究领域和学科领域而异。但我不认为说乐观的引导是这里的标准是不合理的，我认为如果你打算使用替代方法，你必须在一些细节上证明是合理的。
(2) 你是对的，如果你只打算查看关联/系数，你很可能不需要验证模型。但是您应该知道系数（及其 p 值）仅对预先指定的模型有效。如果您包含样条线、变量选择等，这些值会被夸大并且可能意义有限。验证过程试图估计模型的过度拟合——乐观程度。它验证模型构建过程，而不是模型。如果没有模型构建 - 只有一个预先指定的模型 - 对您没有那么有用。如果有模型构建 - 估计它导致过度拟合的程度并非没有帮助。

为什么不使用交叉验证，也许使用更高的 X，比如 10X。LOOCV 也可能很有趣，但这可能会非常缓慢。

您也可以做一些更花哨的自定义简历，在给定的一轮中将 420 个积极事件中的一个排除在外，而将相同比例的负面事件（其中的 1/420 以保持相对比例？）排除在外。然后，您将有 420 次 CV 迭代来计算统计数据，并且您只放弃每轮对单个正样本的训练。这样，您就可以摆脱较小的培训/测试拆分。如果 420 太慢，您可以修改它以减少 CV 迭代，可能一次遗漏 5 个正数和 5/420 个负数？

其它你可能感兴趣的问题

上一篇使用 K 折交叉验证和机器学习方法进行最终模型预测下一篇解释 log(y+1) 转换响应的回归系数