我遇到的机器学习项目的最大问题是缺乏数据。可用的样本足以取消基于规则的方法的资格,但不足以训练神经网络。
例如,在 NER 系统中的新实体上训练神经网络(甚至微调预训练模型)需要数千条不同的记录。而这数千条记录的要求是有足够的变化以避免过度拟合。
一般来说,作为人类,我们可以通过仔细观察数据来检测模式,但是人类不可能检测到输入中的所有模式,这就是深度学习发挥作用的地方,即自动检测模式以做出假设。
现在我的问题是,有哪些可能的方法可以使用有限的数据来训练具有有限数据的神经网络。让我从我这边添加一些输入,我认为这还不够:
- 数据增强:用于图像旋转、缩放和倾斜。对于文本数据,使用一些掩码和嵌入/同义词替换重复文本。
- 还有什么?