数据挖掘 - 处理单个“项目”的“测试”预测问题（空值、标准化等） - 吾爱随笔录

我知道这是一个广泛的问题，但我试图搜索这个论坛和整个互联网，但对于这种特殊情况无济于事。因此，想象一下我有一个经过训练的模型，尽管最初的数据可能并不完整和干净，但我采取措施使数据符合模型要求（在适当的情况下没有异常值，必要时去偏斜，必要时进行标准化，null适当估算的值）。这是在交叉验证框架中完成的。所有这些东西都有效，并且在调整模型时绝对没问题，但是当我尝试从中做出单一预测时遇到问题（这意味着我有一个单一的“测试”记录 - 想想一些字段可以为空的 Web 服务） . 事实上，空值通常需要一个数据集来参考填充，以及标准化/异常值过程。

最初我考虑将这样的“测试”记录链接到“训练”数据集的一部分，这样我就不会遇到这个问题（这样的问题会得到解决），但那时会出现其他问题：我将如何选择这样的数据集? 如果我使用最新的数据，我会以某种方式对其产生偏差吗？在处理“大”数据时，使用整个数据集是不切实际的，并且可能不可行。

您是否碰巧知道该主题是否有一些最佳实践，或者您能否向我推荐处理这些问题的主题/关键字？

ps：对于问题的相关性，空值很可能会保留在那里（我无法在Web应用程序中预先强制它们以获得更流畅的用户体验）