我面临一个文本分类问题,其中算法是人为但受关键字影响的。因此,我不能使用任何 ML 模型,但我当然可以采用数据科学驱动的方法来找到可以确定类别的最佳关键字。
因此,我设法使用 Countvectorizer 构建了一个数据框,其中每一行是整个输入数据词汇表的一个单词,3 个类别列包含该单词在每个类别中出现的次数。
从该数据框中获得最佳关键字的最佳方法是什么?我可以使用显着性统计检验吗?我不能随便选择一个阈值,然后说一个类别中出现超过 20 次的所有词都是该类别的好关键字;这是因为数据集也很不平衡(50% 是 A 类,35% 是 B 类,15% 是 C 类)所以我确信必须有一些聪明的方法来提取最重要的影响关键字。
我的第一次尝试是通过类出现来加权出现,因此在查看绝对数字时,在 C 类中出现 15+X% 的单词可能很重要,尽管该单词在 A 类中出现的频率更高。这种方法并不完美,但这就是我卡住的地方。想法非常受欢迎。