机器算法验证 - 用于情绪分析的金融俚语和 NLP - 吾爱随笔录

用于情绪分析的金融俚语和 NLP

机器算法验证机器学习分类数据挖掘自然语言情绪分析

2022-04-01 03:29:52

我正在研究推文的情绪分析/意见挖掘，专注于金融相关的推文。

我面临的最大问题之一是当使用金融俚语时，我的算法无法检测等效实体（B.Liu 2012 中的定义：第 18-19 页）。例如，对于那些熟悉它的人，我希望在词形还原后将以下实体检测为等效：

政府债券 = Govies = 主权债务
现金=货币
股票=股票
FX = Forex = Currency-exchange = 外汇
Bund = German-Bonds = 德国央行 10 年期
T-Notes = US10 = 国库券 = US-Govies = American-Sovereign-Debt
ETC...

这是我问题的两个方面：

我正在考虑对此类任务使用一些监督学习（朴素贝叶斯分类），但找不到任何分类数据集进行训练。你知道这样的数据集是否存在吗？
您对如何执行此类任务有任何替代想法（可能没有数据集..）？

谢谢。

2个回答

你可以试试 word2vec，它在Gensim库中有一个很好的实现。

它最终应该有类似的缩写（或俚语）和完整单词的向量，当然可以与 send 一起使用。分析。如果某处有财务集合，您可以在大量推文上训练它吗？然后，您将使用 Log Reg / SVM 等线性模型进行分类。

这是一个大型推文模型，但我不知道它是否会有足够大小的金融语料库，但它非常大！http://www.fredericgodin.com/software/ 4 亿条推文 4Gb 文件

您可以使用 Kim 的Character-Aware Neural Language Models https://arxiv.org/abs/1508.06615作为 word2vec 的替代方案。它在字符输入上使用 CNN 来为每个单词生成一个固定大小的向量。它可以扩展到以前看不见的单词。这种缩放到以前看不见的单词的特性就是为什么我更喜欢它而不是“简单”的 word2vec。

Facebook 的FastText也比 Kim 的模型有趣（而且更快）。

其它你可能感兴趣的问题

上一篇为什么分位数回归模型的预测会因 DV 的递增变换而改变？下一篇从 CDF 的乘法中生成随机数