如果我对余弦(sent1,sent2)> 0.9 使用 BERT 嵌入,那么假设 s1 和 s2 相似是否公平

数据挖掘 nlp 伯特 余弦距离 语义相似性
2022-02-28 06:47:27

根据 BERT 作者 Jacob Devlin 的说法:我不确定这些向量是什么,因为 BERT 不会生成有意义的句子向量。似乎这是对单词标记进行平均池化以获得句子向量,但我们从未建议这会生成有意义的句子表示。即使它们在输入到为下游任务训练的 DNN 时是不错的表示,但这并不意味着它们在余弦距离方面有意义。(因为余弦距离是一个线性空间,其中所有维度的权重均等)。

1个回答

它们可能相似也可能不相似,即使输入句子完全不同,通过均值池化 BERT 输出提取的嵌入通常具有高余弦相似度。

Bert 嵌入并不适用于句子相似性任务(SST),但有一些研究将 Bert 和 SST 结合起来。以下是这些资源,

SBERT论文:https ://arxiv.org/abs/1908.10084

SBERT 实施:https ://github.com/UKPLab/sentence-transformers