数据集特定列之间的相关性

数据挖掘 机器学习 Python 可视化 熊猫 matplotlib
2021-09-28 20:41:14

我有一个 CSV 文件,其中有 150 列属于 7 个类别,但我想要 2 个类别之间的相关性。类别是电影和音乐,分别是 12 和 19 列。

有没有办法在两个类别和选定列之间绘制相关矩阵或相关图?

例如,x 上有 19 列,y 上有 12 列。或者将 12 列和 19 列相加,并且只有 31 列而不是 150 列之间存在相关性。

我正在使用 Python。哪些软件包可以帮助我?

1个回答

我建议您使用以下示例并尝试操纵参数并根据您的工作调整它们:

from matplotlib import cm
cmap = cm.get_cmap('gnuplot')
scatter = pd.scatter_matrix(YOUR_TRAINING_DATA, c = YOUR_LABELS_OF_TRAINING, marker = 'o', s = 40, hist_kwds = {'bins':15}, figsize = (12, 12), cmap = cmap)

coursera数据科学课程给出的代码和图像