我正在研究网络搜索任务的监督学习问题,我可以访问一组相对较小的人工标记示例和大量用户行为数据。
现在,由于呈现偏差、位置偏差等原因,用户行为数据是有偏差的。所以它的分布很可能与人工标记的数据不同。
我计划使用两者来训练神经网络模型。
现在我对如何组合两个数据集感到困惑?
我正在研究网络搜索任务的监督学习问题,我可以访问一组相对较小的人工标记示例和大量用户行为数据。
现在,由于呈现偏差、位置偏差等原因,用户行为数据是有偏差的。所以它的分布很可能与人工标记的数据不同。
我计划使用两者来训练神经网络模型。
现在我对如何组合两个数据集感到困惑?
这是学习排名问题中的常见场景。一种启发式方法是分别对显式(人工标记)和隐式(用户行为)特征进行建模。然后将单独的特征组与学习的权重组合起来,以获得它们的最终相对贡献。Agichtein 等人的《通过合并用户行为信息来提高 Web 搜索排名》更详细地介绍了这一点。
RankNet使用神经网络采用这种方法。