从非结构化句子中提取特定结构化数据的最佳策略

数据挖掘 张量流 openai-gpt
2022-03-04 13:09:37

给定这样的句子列表:

  • 16 周内 4 到 5 小时
  • 第一节:2.0-2.5 小时和第二节:1.5-2.0 小时
  • 在 5 个月的过程中,大约有 5-6 次访问。参观1、3、5:约1.5小时。访问 2、4:短
  • 在大约 74 周的时间内进行了 15 次访问。
  • 在三年多一点的时间里,你会来这个组织大约 12 次。每次访问将需要 3-6 小时。

如果我想让模型为上述句子吐出以下数据,我应该使用什么工具/策略:

会话数 总时长(小时) 总时间跨度(w)
未知 4-5 16
2 3.5-4.5 未知
5-6 4.5 20
15 未知 74
12 36-72 156

我是 ML 初学者,想知道这是否可以通过 Tensorflow 或 GPT 实现?对于我自己的进一步学习:我应该用谷歌搜索的具体术语是什么?这是 NER、文本提取还是更像文本分类?

1个回答

该任务是 NER 的一个特例(从技术上讲,NER 是一个序列标注任务,是分类的一个特例)。

我认为您将有两个主要选择:

  • 应用预训练的 NER 模型:大多数处理时间实体但并不总是非常准确,并且它不会专门适应您的数据,因此您不会获得三种类型值之间的区别。优点:不需要训练数据。
  • 训练您自己的 NER 模型:假设您拥有(或可以拥有)大量用于训练的注释数据,这是性能方面的理想方案。