我们可以使用句子转换器来嵌入没有标签的句子吗?

数据挖掘 nlp 词嵌入 伯特
2022-03-10 04:26:25

我试图使用这个项目:

https://github.com/UKPLab/sentence-transformers

对于嵌入非英语句子,该语言不是人类语言,它的机器语言(x86)

但问题是我找不到一个简单的例子,它显示了我如何使用自定义数据集嵌入句子而没有任何标签或句子的相似性值。

基本上我有一个句子列表数组,没有任何句子标签或它们的相似值,我想将它们嵌入向量中,以尽可能最好的方式保留句子的语义,到目前为止我已经使用了 word2vec 和doc2vec 使用 gensim 库,所以我想尝试这种方法,看看它是否更好?

1个回答

您提供的 Siamese Bert 链接是在 STS 或 NLI 数据上微调的 Bert 或 Roberta 实例。其格式与(STS)sentence 1相似,五分之三。sentence 2因此,受到监督,它不符合您的目的。

尽管如此,不要绝望,有些不需要训练,尽管可能不如受监督的那么好。下面使用词嵌入,您可以在数据语料库上对其进行训练以生成句子嵌入:

或者通过逐行输入句子:

PS我还没有尝试所有的解决方案,据我所知,我建议这些,因为它们要么是众所周知的,要么是最近的。