我正在分析一堆推文,我想了解作者支持哪个政党。
我正在使用 Mathematica,但我正在考虑用 Python 重新编写我的代码。如果你有任何建议,不要esitate。
比如说,我有五个用数字标记的当事人:Party1, Party2,...,Party5我提供了一个肯定与当事人相关的推文列表。这份清单大致是trainingList = {tweet1-> "Party1",tweet2->"Party2",...,tweet5->"Party5",tweetK->"Neutral"}. 此外,我添加了一个类"Neutral",因为有些推文是不可分类的。实际上,我提供了不止一个推特标准派对。事实上,trainingList时间要长得多。
请注意,我从推文中删除了停用词,并应用了词干算法来简化表达式。然后,每条推文都是一个潜在重要单词的列表。
我创建了分类器函数,提供了一个prior(先验的显式 for 并不重要)
c = Classify[trainingList, ClassPriors-> prior]
然后,我想做一些检查。我拿了一堆属于其他政党支持者的推文并尝试
c[{word1,word2,word3,word4,word5,word7},"Probabilities"]
这给了我一个概率列表。例如,
<| 'Party1' -> p1, 'Party2' -> p2, 'Party3' -> p3, 'Party4' -> p4, 'Party5' -> p5, 'Neutral' -> p6 |>
Question1有没有办法理解算法如何关联这些概率?更具体地说,每个单词如何与一方相关联
问题2 有没有办法查看与给定方(类)相关联的最频繁的 n-gram 单词?

