需要有关仅从数据集中选择信息丰富的表情符号的方法的建议吗?

数据挖掘 数据挖掘 数据清理 可视化 算法 社会网络分析
2022-02-20 14:43:07

我有一个来自地方选举的庞大数据集,其中包含主题标签、表情符号和评论。我想只使用表情符号进行网络分析。

到目前为止,我有一个用 R 制作的网络分析图,如下所示: 在此处输入图像描述

抱歉,您可能需要放大才能看到节点。所以,基本上我的目标是看看人们作为一个整体在谈论什么。目前有很多节点并没有真正说明主要上下文或钩子的任何具体内容,但也会造成混乱。我提取了带有政治标签的数据。因此,诸如奶瓶、奶牛、欢乐脸、太妃糖、旗帜等节点并没有真正给我任何介于人们的评论和上下文之间的东西。我的目标是通过人们在他们的上下文中使用表情符号来看到他们的集体情绪。我不知道我是否有意义。

我不知道我应该如何解决只选择信息丰富的表情符号的问题。我应该专注于主题标签,并列出我感兴趣的主题标签,并且只提取它们相关的评论和表情符号吗?或者我应该看看与表情符号相关的情感价值,只关注极端积极和消极的价值观?

我很迷茫,我应该使用哪种方法/算法来稍微整理一下这个图表,同时还要把它放在政治和选举的背景下?

1个回答

一种选择是将其重新定义为词嵌入问题。表情符号可以与评论和主题标签一起嵌入向量空间中。然后可以使用距离测量和聚类来找到与不同情绪相关的表情符号。