在 RTextTools 中检查 DocumentTermMatrix

数据挖掘 r 文本挖掘
2022-02-24 19:21:15

我使用 RTextTools 创建了一个用于文本挖掘的 DocumentTermMatrix。此 DocumentTermMatrix 的行对应于数据框行,而 matix 列对应于单词。我的问题是:如何获得用于检查 DocumentTermMatrix 的单词(标签向量)?换句话说,我怎样才能得到这 904 个词的向量呢?

require(RTextTools,quietly=TRUE)
data(USCongress)

doc_matrix <- create_matrix(USCongress$text, language="english",   removeNumbers=TRUE, stemWords=TRUE, removeSparseTerms=.998)

dim(USCongress)
[1] 4449    6

dim(doc_matrix)
[1] 4449  904
1个回答

一个文档术语矩阵是一个 simple_triplet_matrix。你可以用 as.matrix 命令把它变成一个简单的矩阵,然后使用所有的矩阵函数。

# turn into simple matrix
mat <- as.matrix(doc_matrix)

# vector of the words 
word_vector <- colnames(mat)

# Dataframe containing words and their frequency
df_words <- data.frame(words = colnames(mat), frequency = colSums(mat), row.names = NULL)