我使用 RTextTools 创建了一个用于文本挖掘的 DocumentTermMatrix。此 DocumentTermMatrix 的行对应于数据框行,而 matix 列对应于单词。我的问题是:如何获得用于检查 DocumentTermMatrix 的单词(标签向量)?换句话说,我怎样才能得到这 904 个词的向量呢?
require(RTextTools,quietly=TRUE)
data(USCongress)
doc_matrix <- create_matrix(USCongress$text, language="english", removeNumbers=TRUE, stemWords=TRUE, removeSparseTerms=.998)
dim(USCongress)
[1] 4449 6
dim(doc_matrix)
[1] 4449 904