使用正则表达式对文本进行分类的技术术语?

数据挖掘 数据挖掘 数据集 文本挖掘 数据 文本
2022-03-10 20:10:04

背景

  • 我正在帮助研究人员以编程方式对以明文形式存储的约 123,000 个美国政府法庭案件文件进行分类。
  • 他想将索赔分类为“已批准”、“拒绝”或“还押”。
  • 每个文件都有一个以字符串“ORDER”开头的部分,后跟一些解释该决定的句子。
  • 我建议我们使用正则表达式来:
    1. 提取“订单”部分,
    2. 将该部分分成单独的订单(因为每种情况都可能涉及多个索赔),
    3. 从每个订单中提取索赔,以及
    4. 根据字符串“已批准”或“拒绝”是否出现在有关该索赔的订单中,将每个索赔分类为已批准或已拒绝。

问题/问题

  • 研究人员需要在他的论文中描述他的方法,并想知道这种分类方法的正确/技术术语是什么:
    • 我确实希望能够解释每个步骤,包括您如何将其更改为标准格式。我们可以使用一种文本分析类型来对您的最终正则表达式方法进行分类吗?肯定是数据挖掘,对吧?

1个回答

如果答案存储正确,没有错误、混乱或歧义,那么该过程就是直接搜索和匹配。如果有错别字、拼写错误或你有什么,这个过程是Fuzzy string search.

这是一篇出色的 Medium 文章,深入研究了模糊字符串搜索的细节。

可能超出这些情况的一个示例是何时approveddenied包含在同一成绩单中。假设你所有的案例中有 5% 是这样的。您可能希望应用一些机器学习分类器来正确分类您的输入,在这种情况下,您的 Q 可能与可能解决方案的深度有关。