数据挖掘 - 如何处理数据集中的大量类别？ - 吾爱随笔录

我有一个“书籍”数据集，最初包含 8 列，其中 3 列包含可以分类的文本值。3 栏包含书的“语言代码”、“作者姓名”和“书名”。由于 sklearn LinearRegression 不将文本作为输入，所以我决定使用“pandas_getdummies(...)”对这 3 列进行分类，但在对其进行分类后，列数从 8 超过了 20072，这太高了。

数据集网址为：https ://www.kaggle.com/jealousleopard/goodreadsbooks/downloads/goodreadsbooks.zip/6

所以我的查询是：

标题名称怎么办？分类好像不太对。
剩下的两列怎么办？如果我留下标题名称，那么列数将超过 7646。是否有任何其他算法可以直接提供数据集而不进行分类？
分类后如何处理这些大量特征？