为什么我的 Tableau 相关系数与我使用 Python 计算的不同?

数据挖掘 相关性 画面
2022-02-22 00:34:32

我需要使用 Tableau 创建一个相关矩阵表,所以我使用 Python 创建了一个版本来检查我是否做对了所有事情。

两种计算的数字都不同。例如,酒店 3 和 34 交叉的相关系数使用 python 显示为 0.62,但使用 Tableau 显示为 0.639。

我做错任何一个计算吗?请参阅此链接以获取使用 python 创建的原始数据、表格工作簿和 pdf 绘图。

我用来创建相关矩阵的代码如下:

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
    
%matplotlib inline

data = pd.read_excel('Hotel Data.xlsx', engine='openpyxl')
pivot = data.pivot_table(index=['Period','Slice'], columns='Hotel', values='Net Score Change', aggfunc=np.sum, fill_value=0)
pivot.reset_index(inplace=True)

sns.set(font_scale=0.5)
plt.figure(figsize=(20,16))
sns.heatmap(pivot.corr(), cmap='coolwarm', annot=True)
1个回答

两者都使用 Pearson 算法来计算相关性: https ://en.m.wikipedia.org/wiki/Pearson_correlation_coefficient

但是,浮点值运算略有不同,当您进行 Pearson 等多项运算时,这种细微差别会变得更大。

您可以尝试通过手动计算这两种情况的 Pearson 算法。