数据挖掘 - 将非常大的数据集编码为 one-hot 编码矩阵 - 吾爱随笔录

我有一个文本语料库数据集，其中文本中的唯一字符约为 400。最大行长度为 3000。我们有 20000 行，所以我们会喜欢 $2000\times3000\times400$ one-hot encoding matrix，这会导致内存错误，因为所需的大小超过了 900 GB 的 RAM。有降维技术，如 PCA 和其他技术，但除此之外，在我的情况下你会推荐什么来克服这个问题？文本不是自然语言，而是程序的源代码，所以我不确定 word2vec 和其他人是否适合在这里获取词嵌入，因为这又不是自然语言。