如何确定二进制分类中的不相关数据?

数据挖掘 分类
2022-02-25 13:59:53

假设我正在查看社交媒体以寻找用户交易股票的意图。我可能有一个预测“买入”和“卖出”的二元分类模型。然而,很明显,大多数提及公司的社交媒体帖子都与买卖其股票无关。即使我要专门查看互联网上讨论的主要话题是买卖股票的地方,也会有少数帖子在某种意义上是“离题”的(例如,“我今天申请了微软”。或“这里的每个人对 Alphabet 有什么看法?”)

我的问题是,如何识别社交媒体帖子何时不建议用户购买或出售股票。我有三个快速的想法:

  1. 创建能够区分相关帖子和不相关帖子的规则

  2. 创建第二个二元分类器,区分相关和不相关的帖子,然后仅在相关帖子上使用主分类器

  3. 将二进制分类器更改为可以检测买卖和离题文档的分类器。

有没有解决这个问题的习惯方法?

2个回答

有没有解决这个问题的习惯方法?

是的,它叫做特征选择我们使用它们来删除可能对模型性能产生负面影响的不相关或部分相关的特征。最简单方法之一的示例:

  1. 单变量选择
  2. 特征重要性
  3. 带有热图的相关矩阵

您可以在链接中找到这些方法的实现示例:

https://towardsdatascience.com/feature-selection-techniques-in-machine-learning-with-python-f24e7da3f36e

我同意您可以合理地对与之相关的股票进行分类,以及它是否涉及交易意图。据推测,股票的交易意图看起来相似,因此两者的相关性不大。

因此,您的第二和第三个想法听起来与我相关。

也可以考虑使用深度学习架构的多任务分类器,尝试同时解决这两个问题。这样做可能有一些小的优势,但它更复杂。