估算数据的最佳方法是什么?

数据挖掘 自动编码器 数据插补 理论
2022-02-16 18:15:57

除了填写一个特征的均值之外,还有哪些方法可以很好地工作?我正在尝试决定是否使用去噪自动编码器或仅使用平均值或任何其他可以执行得足够好且可以快速实施的方法进行估算。

还有必要对基础分布做出任何假设吗?denosing-autoencoder 在这里看起来很有吸引力,因为您不需要做出任何明确的假设。

3个回答

您可以将缺失的特征视为子问题的目标变量,并为其创建分类器(例如,线性模型、SVM 等)。

假设我们有一个完美的算法来估算数据。你给他一个数据集,其中缺少某些特征的数据,它会预测它们。

我有这样一个数据插补算法,我会把它用作分类器。我们可以将分类简化为数据插补这一事实意味着数据插补与分类一样难。

正如雷恩所说,你确实可以这样做。插补算法可以被评估为分类算法,但这并不常见。原因之一是您从插补算法中隐藏数据的规则是主观的,可能会显着影响结果。

无论您使用哪种方法,您都假设数据以某种方式运行并且由于某些规则而丢失。

这也是一个重要的问题,因为插补中的错误(你可能会有这样的错误)会影响以后的过程。

我更喜欢避免插补,让预测算法处理丢失的数据。有很多这样的算法。另一种方法是使用较少的插补方法,选择较少的简单分类器(因此它们的复杂性不会对结果产生太大影响)并比较预测。在很多情况下,并没有太大的区别。当存在很大差异时,您当然更愿意使用获胜者进行更详细的分析。但是,在此之前,请尝试了解为什么它具有很大的优势。这可能会导致有关您的数据的有趣见解。

没有“估算数据的最佳方式”之类的东西。最好的方法将始终取决于您的特定应用程序和模型。只要记住没有免费午餐定理。

您可以通过多种方式估算值。您可以忽略包含缺失值的行,您可以根据其他行估算值(平均值、使用分类等),或者您甚至可以用常量替换缺失值。使用哪种方法取决于您想在插补算法和最终结果中投入多少精力。

像往常一样,我会先使用一种简单的方法(如您建议的平均值),并且仅在结果不够令人满意时才增加插补的复杂性。