在实体标记方面需要帮助

数据挖掘 机器学习 文本挖掘 nlp 命名实体识别
2022-03-06 17:18:37

我需要设计一个可以在句子中识别movie和命名的系统。production company

我想到的方法是NER在标记数据上训练一个命名实体识别系统,以便它识别相应的实体。但是对于经过训练的系统没有见过的新实体(电影或制作公司名称)呢,我们如何标记它们。每次都用新发行的电影重新训练模型是不可行的。

标注数据:单词位置与电影或制作公司名称相对应的句子

我是 NLP 的初学者,任何帮助将不胜感激

2个回答

但是那些训练有素的系统还没有看到我们如何标记它们的新实体(电影或制作公司名称)呢?每次都用新发行的电影重新训练模型是不可行的。

NER 模型不应该被重新训练来标记它以前没有见过的新文本。如果训练成功,它将使用从标记数据中学到的信息,并能够将其应用于新数据。对于您的用例,这可能是以下信息:

  • 大写 - 电影标题和制作公司名称常见
  • 使用的词 - 电影标题或公司名称的常用词
  • 在文本中的位置 - 电影标题可能出现在文本的早期

spaCy是一个很好的开始使用 NER 的库。这是一个关于如何使用您自己的数据进行训练的示例。

由于我们没有很多信息,这就是我选择的工作方式。

  1. 获取大量与电影相关的文本
  2. 使用电影本体,例如这个
  3. 训练分类器以识别我已有数据中的电影名称和制作公司
  4. 然后在另一个数据集上,应用 POS 标记(在此处了解详细信息
  5. 使用 POS 标记(可能具有额外的特征)和(3)中的标签来训练另一个分类器(可能是神经网络)并识别任何单词是电影还是制作公司
  6. 每当你觉得你的模型表现不佳时,从一开始就做同样的事情。