用于情绪分析的金融俚语和 NLP

机器算法验证 机器学习 分类 数据挖掘 自然语言 情绪分析
2022-04-01 03:29:52

我正在研究推文的情绪分析/意见挖掘,专注于金融相关的推文。

我面临的最大问题之一是当使用金融俚语时,我的算法无法检测等效实体(B.Liu 2012 中的定义:第 18-19 页)。例如,对于那些熟悉它的人,我希望在词形还原后将以下实体检测为等效:

  • 政府债券 = Govies = 主权债务

  • 现金=货币

  • 股票=股票

  • FX = Forex = Currency-exchange = 外汇

  • Bund = German-Bonds = 德国央行 10 年期

  • T-Notes = US10 = 国库券 = US-Govies = American-Sovereign-Debt

  • ETC...

这是我问题的两个方面:

  1. 我正在考虑对此类任务使用一些监督学习(朴素贝叶斯分类),但找不到任何分类数据集进行训练。你知道这样的数据集是否存在吗?

  2. 您对如何执行此类任务有任何替代想法(可能没有数据集..)?

谢谢。

2个回答

你可以试试 word2vec,它在Gensim库中有一个很好的实现。

它最终应该有类似的缩写(或俚语)和完整单词的向量,当然可以与 send 一起使用。分析 。如果某处有财务集合,您可以在大量推文上训练它吗?然后,您将使用 Log Reg / SVM 等线性模型进行分类。

这是一个大型推文模型,但我不知道它是否会有足够大小的金融语料库,但它非常大!http://www.fredericgodin.com/software/ 4 亿条推文 4Gb 文件

您可以使用 Kim 的Character-Aware Neural Language Models https://arxiv.org/abs/1508.06615作为 word2vec 的替代方案。它在字符输入上使用 CNN 来为每个单词生成一个固定大小的向量。它可以扩展到以前看不见的单词。这种缩放到以前看不见的单词的特性就是为什么我更喜欢它而不是“简单”的 word2vec。

Facebook 的FastText也比 Kim 的模型有趣(而且更快)。