我正在尝试使用带有词嵌入的递归神经网络对新闻文章进行二进制分类。以下是模型的参数:
Data:
8000 labelled news articles (Sports:Non-sports::15:85)
Parameters:
embedding size = 128
vocabulary size = 100000
No. of LSTM cell in each layer = 128
No. of hidden layers = 2
batch size = 16
epochs = 10000
Result:
AUC on training set = 0.60
AUC on testing set = 0.55
由于训练和测试误差都很高,模型欠拟合,需要更多数据。所以我在这里有几个疑问:
- 所需的最佳数据大小是多少?
- 我们可以更改参数以提高 AUC。通过减少、嵌入大小或神经元数量,我们可以最小化自由度。