背景
- 我正在帮助研究人员以编程方式对以明文形式存储的约 123,000 个美国政府法庭案件文件进行分类。
- 他想将索赔分类为“已批准”、“拒绝”或“还押”。
- 每个文件都有一个以字符串“ORDER”开头的部分,后跟一些解释该决定的句子。
- 我建议我们使用正则表达式来:
- 提取“订单”部分,
- 将该部分分成单独的订单(因为每种情况都可能涉及多个索赔),
- 从每个订单中提取索赔,以及
- 根据字符串“已批准”或“拒绝”是否出现在有关该索赔的订单中,将每个索赔分类为已批准或已拒绝。
问题/问题
- 研究人员需要在他的论文中描述他的方法,并想知道这种分类方法的正确/技术术语是什么:
我确实希望能够解释每个步骤,包括您如何将其更改为标准格式。我们可以使用一种文本分析类型来对您的最终正则表达式方法进行分类吗?肯定是数据挖掘,对吧?