您好,我正在尝试制作基于内容的电影推荐系统,其中一个功能是电影的类型。我会随机给每个流派一个整数。但是,有些电影不止一种类型。我将使用 tf-idf 来衡量这些功能。但是,当一部电影同时是恐怖片、动作片和喜剧片时,我很困惑。我是否应该乘以或添加这些加权特征,我不知道。我也不知道为什么我们首先使用权重。你能帮我解决这个问题吗?顺便说一句,每部电影都将被视为一个文档,然后对其进行 tf-idf 计算。
当一个特征包含多个名称时的整数编码和加权
数据挖掘
推荐系统
tfidf
特征
加权数据
2022-03-02 02:48:20
1个回答
这是个好问题。这个任务将被称为多标签编码。基本上,如果一部电影属于多种类型,您可以对每种类型进行热编码并添加向量。
如果只有 6 种类型(恐怖、浪漫、动作、冒险、喜剧、奇幻)例如一部恐怖、动作和喜剧的电影(死者不死?):
- 恐怖 = [1, 0, 0, 0, 0, 0]
- 动作 = [0, 0, 1, 0, 0, 0]
- 喜剧 = [0, 0, 0, 0, 1, 0]
因此,属于所有三者的电影将被编码为:[1, 0, 1, 0, 1, 0]。一部电影只有一个类别,然后它的编码是一个单热编码标签。
您可以使用多标签二值化器在 scikit-learn 中执行此任务
其它你可能感兴趣的问题