数据挖掘 - NLP 中什么被认为是短文本和长文本（文档相似度） - 吾爱随笔录

NLP 中什么被认为是短文本和长文本（文档相似度）

数据挖掘 nlp 类似文件

2022-03-04 06:01:50

什么是 NLP 中的短文本和长文本？

我正在研究一个包含 10 到 600 个单词的文档的数据集，我在问自己是否应该区别对待它们。此外，我还没有找到在 NLP 中明确定义短文本和长文本的来源。我的任务的目标是找到类似的文件。

1个回答

正如 Erwan 在评论中所说，这取决于。根据我的经验，它具体取决于两件事：

标记化方法：文档的长度（以标记数计）会根据您拆分它的方式而有很大差异。将文本拆分为单个字符会导致文档比将其拆分为子单词单元（例如 WordPiece）更长，而子单词单元仍将比在空白处拆分更长。

模型：除了梯度消失之外，RNN 并不关心输入文本有多长，它只会继续前进。然而，变形金刚是有限的。BERT 实际上可以处理多达 512 个 WordPiece 单元的序列，而 LongFormer 声称可以处理多达 32k 个单元的序列（假设有足够的计算资源）。因此，您的 10 - 600 个令牌的文档对于 BERT 来说会很长，但对于 LongFormer 来说会很短。

在不了解您的具体任务细节的情况下，我无法回答您是否应该将长度为 10 的文档与长度为 600 的文档区别对待。直觉上，我怀疑一个非常短的文档会与一个更长的文档非常相似，仅仅是因为它可能包含更少的内容。

其它你可能感兴趣的问题