我目前正在进行一个项目,该项目将在客户端 Web 数据上构建模型(训练和测试),但在服务器端 Web 数据上评估此模型。不幸的是,在服务器端数据上构建模型不是一种选择,也不是在客户端数据上评估这个模型的一种选择。
该模型将基于针对特定访问者收集的指标。这是一个实时系统,将根据访问者浏览网站时收集的指标计算可能性。
我正在寻找方法来确保模型评估的最高准确性。
到目前为止,我有以下想法,
- 通过删除客户端从未见过的网页来清理服务器端数据。
- 收集附加数据 服务器端数据,使服务器端数据更接近客户端数据。
- 收集客户端上的数据并将此数据发送到服务器。这是可能的,并且可能是最好的解决方案,但目前是不可取的。
- 构建一个或多个模型,从服务器端访客指标估计客户端访客指标,并在可能性模型中使用这些估计。
在对另一个群体进行训练(和测试)时评估一个群体的任何其他想法?