我正在研究推文的情绪分析/意见挖掘,专注于金融相关的推文。
我面临的最大问题之一是当使用金融俚语时,我的算法无法检测等效实体(B.Liu 2012 中的定义:第 18-19 页)。例如,对于那些熟悉它的人,我希望在词形还原后将以下实体检测为等效:
政府债券 = Govies = 主权债务
现金=货币
股票=股票
FX = Forex = Currency-exchange = 外汇
Bund = German-Bonds = 德国央行 10 年期
T-Notes = US10 = 国库券 = US-Govies = American-Sovereign-Debt
ETC...
这是我问题的两个方面:
我正在考虑对此类任务使用一些监督学习(朴素贝叶斯分类),但找不到任何分类数据集进行训练。你知道这样的数据集是否存在吗?
您对如何执行此类任务有任何替代想法(可能没有数据集..)?
谢谢。