将非常大的数据集编码为 one-hot 编码矩阵

数据挖掘 降维 一热编码
2022-02-28 23:03:14

我有一个文本语料库数据集,其中文本中的唯一字符约为 400。最大行长度为 3000。我们有 20000 行,所以我们会喜欢2000×3000×400 one-hot encoding matrix,这会导致内存错误,因为所需的大小超过了 900 GB 的 RAM。有降维技术,如 PCA 和其他技术,但除此之外,在我的情况下你会推荐什么来克服这个问题?文本不是自然语言,而是程序的源代码,所以我不确定 word2vec 和其他人是否适合在这里获取词嵌入,因为这又不是自然语言。

1个回答

任何离散符号序列都可以使用 word2vec 或相关算法嵌入。

嵌入文本后,每个字符将表示为一个固定长度的密集向量。您可以选择向量的大小来管理使用的内存大小。