数据挖掘 - 改进不平衡数据集中的文本分类和标签 - 吾爱随笔录

数据挖掘机器学习数据清理不平衡数据

2022-03-05 23:04:03

我正在尝试对文本标题（NLP）进行分类。假设我有 6K 标题，应该分为四类。

我的问题：

我不明白为什么在某些 ML 技术中将类别转换为数值“转换预测目标”？这会影响模型精度而不是使用标称值吗？
我的数据在某些类别上严重不平衡，例如：CAT A 有 4K 标题，CAT B 有 500 个标题。因此，过采样或欠采样可能会影响准确性，因为正确预测的机会会更高，属于原始分布所具有的最大类别，对吗？
最后，标题可以有公司、产品等品牌名称。在训练模型之前是否应该对其进行清理和替换？因为模型可以猜到如果标题中有丰田这样的品牌名称，文本将属于汽车类别？

1个回答

处理不平衡文本数据时要记住的一些技巧

其它你可能感兴趣的问题