是否有任何 NLP 库或包可以帮助在文本中适当地添加逗号、标点符号、换行符?

数据挖掘 nlp 预处理
2022-02-27 22:50:08

我有一个没有逗号、标点符号或换行符的电影转录本。是否有任何 NLP 技术可以帮助实现这一点?

1个回答

这可以通过“文本分割”来解决。NLP 库具有将给定文本分解为的代码:

  • 句子
  • 短语

有了这个,您可以将文本分成句子并插入 . 或者 ?对于每个句子。同样,依赖树将有助于插入一些标点符号(不是全部)。

示例(将文本分成句子):

import spacy
nlp = spacy.load('en_core_web_sm')
text = "I was expecting a surplus of cute close-ups but Burton does surprisingly little to win us over He's never been big on treacle but a bit more warmth in this chilly movie which barely follows the outline of the 1941 original would have gone a long way"
text_sentences = nlp(text)
for sentence in text_sentences.sents:
    print(sentence.text)

输出是:

我原以为会有很多可爱的特写镜头,但伯顿却出人意料地没有赢得我们的支持

他从来不喜欢糖浆,但在这部几乎没有遵循 1941 年原版轮廓的寒冷电影中多一点温暖会大有帮助

更多细节:https ://spacy.io/usage/linguistic-features