我正在尝试使用 NLP 做一个项目。我的目标是处理这样的网络威胁情报文章,以提取信息,例如演员姓名、恶意软件和使用的工具……
为此,我想使用 NER。但是,网络上没有可用的训练数据。所以我想知道我是否应该手动处理 10-20 篇文章来制作我的训练数据,或者我是否可以做一些事情,比如只取“Rancor conducted at least two rounds of attacks intending to install Derusbi or KHRat malware on victim systems”多篇文章中有趣的行,然后用另一个演员替换组名。通过这种方式,我可以通过已知参与者的数量对我的训练数据进行重复数据删除。但这样做,只有演员的名字在改变。所以,上下文总是相同的。
考虑到可用的训练数据量,我想知道训练我的模型的最佳方法是什么?