改进不平衡数据集中的文本分类和标签

数据挖掘 机器学习 数据清理 不平衡数据
2022-03-05 23:04:03

我正在尝试对文本标题(NLP)进行分类。假设我有 6K 标题,应该分为四类。

我的问题:

  1. 我不明白为什么在某些 ML 技术中将类别转换为数值“转换预测目标”?这会影响模型精度而不是使用标称值吗?

  2. 我的数据在某些类别上严重不平衡,例如:CAT A 有 4K 标题,CAT B 有 500 个标题。因此,过采样或欠采样可能会影响准确性,因为正确预测的机会会更高,属于原始分布所具有的最大类别,对吗?

  3. 最后,标题可以有公司、产品等品牌名称。在训练模型之前是否应该对其进行清理和替换?因为模型可以猜到如果标题中有丰田这样的品牌名称,文本将属于汽车类别?

1个回答
  1. 为什么类别被转换为数值? 这是因为大多数机器学习模型不接受分类值来执行预测这一简单事实。出于这个原因,它
  2. 是的,出于这个原因,有一些技术(如 SMOTE)来确保数据正确平衡。您还可以选择其他指标,例如适用于不平衡数据的 F1 分数。
  3. 它是清洁和替换先前训练模型的理想选择(您的丰田示例属于汽车类别)

处理不平衡文本数据时要记住的一些技巧

  1. 删除重复数据:确保具有相同语义含义的文本重复(例如:的产品在哪里,产品在哪里是一个且相同的)

  2. 合并少数族裔

  3. 重采样数据集

    • 欠采样多数类
    • 过采样少数类(如 SMOTE)
  4. 数据增强(使用 spacy、space_wordnet、词嵌入