我想使用属性Tags和Authors将每条记录分类为它们各自的Rating。为此,我想使用随机森林分类器。我关心的是如何处理标签属性。每个条目都有不确定数量的标签,用逗号分隔。共有 4412 个唯一标签,标签较多的条目包含 20 个标签。第一个条目有标签 ["Rhode Island","Economy","Taxes","Lincoln Chafee"]。
我应该如何编码这个属性,以便我可以使用sklearn中的随机森林分类器?
我想使用属性Tags和Authors将每条记录分类为它们各自的Rating。为此,我想使用随机森林分类器。我关心的是如何处理标签属性。每个条目都有不确定数量的标签,用逗号分隔。共有 4412 个唯一标签,标签较多的条目包含 20 个标签。第一个条目有标签 ["Rhode Island","Economy","Taxes","Lincoln Chafee"]。
我应该如何编码这个属性,以便我可以使用sklearn中的随机森林分类器?
from sklearn.preprocessing import MultiLabelBinarizer
lb = MultiLabelBinarizer()
lb.fit_transform([['A', 'B', 'C'],[ 'A', 'D', 'E', 'B']])
数组([[1, 1, 1, 0, 0],
[1, 1, 0, 1, 1]])