NLP 中什么被认为是短文本和长文本(文档相似度)

数据挖掘 nlp 类似文件
2022-03-04 06:01:50

什么是 NLP 中的短文本和长文本?

我正在研究一个包含 10 到 600 个单词的文档的数据集,我在问自己是否应该区别对待它们。此外,我还没有找到在 NLP 中明确定义短文本和长文本的来源。我的任务的目标是找到类似的文件。

1个回答

正如 Erwan 在评论中所说,这取决于。根据我的经验,它具体取决于两件事:

标记化方法:文档的长度(以标记数计)会根据您拆分它的方式而有很大差异。将文本拆分为单个字符会导致文档比将其拆分为子单词单元(例如 WordPiece)更长,而子单词单元仍将比在空白处拆分更长。

模型:除了梯度消失之外,RNN 并不关心输入文本有多长,它只会继续前进。然而,变形金刚是有限的。BERT 实际上可以处理多达 512 个 WordPiece 单元的序列,而 LongFormer 声称可以处理多达 32k 个单元的序列(假设有足够的计算资源)。因此,您的 10 - 600 个令牌的文档对于 BERT 来说会很长,但对于 LongFormer 来说会很短。

在不了解您的具体任务细节的情况下,我无法回答您是否应该将长度为 10 的文档与长度为 600 的文档区别对待。直觉上,我怀疑一个非常短的文档会与一个更长的文档非常相似,仅仅是因为它可能包含更少的内容。