将文本分类为逻辑/非逻辑

数据挖掘 nlp 文本挖掘 文本分类
2022-02-15 00:21:36

有人可以告诉我在哪里看的方向吗?或者一些资源。这是一个任务:

  1. 用户留下最少 50 个字符的反馈文本。
  2. 我需要检查它是正常的人类句子/单词组合还是只是一袋单词和字符。

例如(1-正常,0-不正常):

“我写了问题。希望得到答案” - 1(班级)

“Bla bla goog goog goog gooo” - 0(类)

也许一些可用的数据集。或一些方法?提前致谢!

1个回答

您需要的只是一个语言模型这是一项非常常见的任务,因此您应该能够轻松找到代码和数据。这个问题为 Python 提供了一些指导(注意,根据其他两个答案,接受的答案是不正确的)。

将语言模型应用于句子会给你一个概率(或一个困惑分数,它的工作方式相反),所以你必须定义一个阈值才能将其分类为真实语言。