对一个群体建模和对另一个群体进行评估

数据挖掘 数据清理 评估
2022-03-04 20:11:48

我目前正在进行一个项目,该项目将在客户端 Web 数据上构建模型(训练和测试),但在服务器端 Web 数据上评估此模型。不幸的是,在服务器端数据上构建模型不是一种选择,也不是在客户端数据上评估这个模型的一种选择。

该模型将基于针对特定访问者收集的指标。这是一个实时系统,将根据访问者浏览网站时收集的指标计算可能性。

我正在寻找方法来确保模型评估的最高准确性。

到目前为止,我有以下想法,

  1. 通过删除客户端从未见过的网页来清理服务器端数据。
  2. 收集附加数据 服务器端数据,使服务器端数据更接近客户端数据。
  3. 收集客户端上的数据并将此数据发送到服务器。这是可能的,并且可能是最好的解决方案,但目前是不可取的。
  4. 构建一个或多个模型,从服务器端访客指标估计客户端访客指标,并在可能性模型中使用这些估计。

在对另一个群体进行训练(和测试)时评估一个群体的任何其他想法?

2个回答

如果您从中获取客户端数据的用户与您将从中获取服务器端数据的用户群体相同。如果这是真的,那么您并没有真正针对一个人群进行培训并应用于另一个人群。主要区别在于客户端数据发生在过去(除非您不断调整模型,否则这是必要的),而服务器端数据将在未来出现。

让我们根据模型而不是 Web 客户端和服务器来重新表述这个问题。

您正在一个数据集上拟合模型并将其应用于另一个数据集。这是预测建模/机器学习的经典用途。模型使用数据中的特征来估计一些参数或参数。一旦你有了一个合适的(和测试过的)模型,你所需要的只是将相同的一组特征输入到模型中以获得你的估计。

只需确保对客户端和服务器端可用的一组特性(也称为变量)进行建模。如果这不可能,请单独提出该问题。

我不是这方面的专家,所以对我的建议持保留态度。我不清楚服务器端数据和客户端数据之间的关系是什么。他们都代表同一人群吗?如果是,我认为可以使用不同的数据集来测试/训练和评估您的模型。如果否,我认为使用一些重采样技术可能是个好主意,例如bootstrappingjackknifingcross-validation