您如何区分会话文本和可能的新闻文章?

数据挖掘 机器学习 分类 scikit-学习 nlp 斯派西
2022-03-05 10:38:12

语境

当您在群聊中收到消息时,您如何检测该消息是否属于对话对话,或者是否是他们正在分享的“新闻”文章(可能是假的或真实的)?

例子

对话:“今天有人想吃晚饭吗?我今晚很空闲,我不在家吃晚饭。请在晚上 8 点之前告诉我!!”

“新闻”文章:“New Japan 的增长得益于 YouTube,它使亚洲以外的观众更容易接触到 New Japan 的比赛,”摔跤观察者通讯的出版商 Dave Meltzer 说,该通讯自 1983 年以来一直关注这项运动。资本化在这种上升趋势下,New Japan 于 2014 年 12 月推出了类似于 WWE 网络的在线流媒体服务。”

问题

你会使用基于规则的匹配还是分类器来解决这个问题?(假设你已经有一个分类器来检测新闻文章是假的还是真的)

2个回答
  1. 新闻句子将比普通对话具有更多独特的标记。
  2. 对话比新闻文章有更多的停用词。

我认为您可以在这里使用 bert 或普通 wordvect 分类来训练基线模型。我会玩假新闻分类器和新闻对话分类器的管道。就像首先将文本传递给新闻分类器,然后将其传递给新闻对话分类器。尝试混合搭配以获得最佳效果。设置一些阈值。

规则库方法始终是最初的良好起点,因为您可能没有大量记录来构建分类器,但已准备好应对某些误报结果。

让我们了解一下规则库的误报情况。在您的对话对话中,您输入了诸如晚餐、家庭、晚上之类的关键字。但在某些新闻案例中,比如特朗普晚上在白宫与 CEO 共进晚餐,这可能属于对话类。

现在让我们谈谈基于分类器的方法。正如您提到的,已经有用于检测假新闻的分类器。您可以使用相同的分类器通过根据准确度设置阈值来决定是新闻还是对话,假设您的模型准确率为 80%。

现在,当您假/非假新闻分类器预测某些内容但准确性/概率低于 80% 时,则假设它是会话对话

如果你有大量的数据集,那么总是尝试使用预先训练的嵌入技术来构建你的另一个分类器,以便在早期获得良好的准确性。