我有一个包含 24 个变量的数据集,其中 21 个是数字的。作为模型构建的一部分,我决定研究特征之间的相关性,所以我得到的是一个大的相关矩阵 (21 * 21)。
现在,可视化如此大的矩阵变得非常混乱,最终会伤到眼睛。所以我所做的是设置一个阈值并切掉那些大于这个值的行(比如 0.60)。但是,我得到了一个现在有几个 NaN 的矩阵。当我尝试删除这些空值时,矩阵会丢失所有数据,剩下的是 0*0 矩阵。
corr_matrix = data.corr()
threshold = 0.60
high_corr = corr_matrix.loc[corr_matrix >= 0.60]
high_corr.dropna(inplace=True)
print(high_corr)
Empty DataFrame
Columns = []
用 nans 可视化矩阵是一个好主意,但它也会导致空方格。我正在寻找一种方法,只保留那些值 >= 阈值的行,没有 nans。这将产生一个更小的矩阵,在 matplotlib 中绘制时会变得更简单。但是我无法这样编码;任何人都可以提出一些策略来处理如此大的矩阵吗?

