如何将人工标注的数据与用户行为数据结合起来?

数据挖掘 深度学习 监督学习
2022-02-15 23:52:25

我正在研究网络搜索任务的监督学习问题,我可以访问一组相对较小的人工标记示例和大量用户行为数据。

现在,由于呈现偏差、位置偏差等原因,用户行为数据是有偏差的。所以它的分布很可能与人工标记的数据不同。

我计划使用两者来训练神经网络模型。

现在我对如何组合两个数据集感到困惑?

1个回答

这是学习排名问题中的常见场景。一种启发式方法是分别对显式(人工标记)和隐式(用户行为)特征进行建模。然后将单独的特征组与学习的权重组合起来,以获得它们的最终相对贡献。Agichtein 等人的《通过合并用户行为信息来提高 Web 搜索排名》更详细地介绍了这一点。

RankNet使用神经网络采用这种方法。