我正在对 bert 架构进行实验,发现大多数微调任务都将最终的隐藏层作为文本表示,然后将其传递给其他模型以进行进一步的下游任务。
Bert 的最后一层是这样的:
我们在哪里获取每个句子的 [CLS] 标记:
我对这个拥抱脸问题、数据科学论坛问题、github问题进行了很多讨论,大多数数据 科学家都 给出了这样的解释:
BERT 是双向的,[CLS] 通过多层编码过程被编码,包括所有令牌的所有代表信息。[CLS] 的表示在不同的句子中是个体的。
我的问题是,为什么作者忽略了其他信息(每个标记的向量)并采用平均值、max_pool 或其他方法来利用所有信息而不是使用 [CLS] 标记进行分类?
这个 [CLS] 令牌与所有令牌向量的平均值相比有何帮助?

