我正在尝试对文本标题(NLP)进行分类。假设我有 6K 标题,应该分为四类。
我的问题:
我不明白为什么在某些 ML 技术中将类别转换为数值“转换预测目标”?这会影响模型精度而不是使用标称值吗?
我的数据在某些类别上严重不平衡,例如:CAT A 有 4K 标题,CAT B 有 500 个标题。因此,过采样或欠采样可能会影响准确性,因为正确预测的机会会更高,属于原始分布所具有的最大类别,对吗?
最后,标题可以有公司、产品等品牌名称。在训练模型之前是否应该对其进行清理和替换?因为模型可以猜到如果标题中有丰田这样的品牌名称,文本将属于汽车类别?