我是机器学习和 NLP 的新手。
我正在探索使用其中一种方法来自动检查大量文本文档的可能性,并首先确定它们是否谈论中小型企业的融资机会。
然后,只考虑匹配文件,我需要自动理解(1)(谁在提供资金),(2)什么样的企业被资助,(3)如何(多少资金), (4) 时间(申请的截止日期),以及其他此类信息。
您是否知道为此可以采用什么样的自动化方法(如果有的话)?
我是机器学习和 NLP 的新手。
我正在探索使用其中一种方法来自动检查大量文本文档的可能性,并首先确定它们是否谈论中小型企业的融资机会。
然后,只考虑匹配文件,我需要自动理解(1)(谁在提供资金),(2)什么样的企业被资助,(3)如何(多少资金), (4) 时间(申请的截止日期),以及其他此类信息。
您是否知道为此可以采用什么样的自动化方法(如果有的话)?
我只能回答你的第一部分,如果你想在他们谈论资金机会时自动标记文档,你可以训练一个分类模型来分类哪些文档属于你定义的类,哪些不属于你定义的类。但是要训练这样的模型,您需要数据,并且在您的数据中,您必须手动定义和标记属于您感兴趣的类别的文档以及不作为模型示例的文档。
我同意第一部分是文本分类。最后一部分看起来像一个命名实体识别问题:在几个可能的类别中检测文档中特定类型的单词或单词序列。它还需要使用一些带注释的数据来训练模型。