在研究一些使用预训练 GloVe 向量的(pytorch)示例时,我遇到了两个变体:
- 使用 GloVe 向量的词汇表,从而使用预训练的 GloVe 向量初始化嵌入层。
- 从语料库中构建一个词汇表,然后仅使用与该词汇表对应的预训练 GloVe 向量来初始化嵌入层。
在我看来,通过使用 GloVe 向量的词汇表,训练集中的某些标记可能没有对应的 GloVe 向量,因此会被排除在词汇表之外。因此,您可能会错过对任务很重要的标记。
另一方面,从语料库构建词汇表意味着该模型无法处理看不见的单词(据我理解正确)。
因此,我想知道:什么时候应该使用 GloVe 词汇表,而不是从训练数据中构建词汇表?使用这两个词汇的“联合”是否有意义?