数据挖掘 - 如何确定二进制分类中的不相关数据？ - 吾爱随笔录

假设我正在查看社交媒体以寻找用户交易股票的意图。我可能有一个预测“买入”和“卖出”的二元分类模型。然而，很明显，大多数提及公司的社交媒体帖子都与买卖其股票无关。即使我要专门查看互联网上讨论的主要话题是买卖股票的地方，也会有少数帖子在某种意义上是“离题”的（例如，“我今天申请了微软”。或“这里的每个人对 Alphabet 有什么看法？”）

我的问题是，如何识别社交媒体帖子何时不建议用户购买或出售股票。我有三个快速的想法：

创建能够区分相关帖子和不相关帖子的规则
创建第二个二元分类器，区分相关和不相关的帖子，然后仅在相关帖子上使用主分类器
将二进制分类器更改为可以检测买卖和离题文档的分类器。

有没有解决这个问题的习惯方法？