检查数据的偏度

数据挖掘 机器学习 Python 数据清理 可视化 海运
2021-09-25 02:23:16

我有一个由一些连续数据特征组成的数据框。我使用 seaborn kdeplot 功能对功能进行了kde图,它给了我一个图,如下所示:

Seaborn kdeplot

我如何解释这种可视化以检查数据点中的偏差等情况?

1个回答

IIUC 你可以使用 [DataFrame.hist()] 方法:

import matplotlib
import matplotlib.pyplot as plt
import pandas as pd

matplotlib.style.use('ggplot')

df = pd.DataFrame(np.random.randint(0,10,(20,4)),columns=list('abcd'))

df.hist(alpha=0.5, figsize=(16, 10))

结果:

在此处输入图像描述

数据:

In [44]: df
Out[44]:
    a  b  c  d
0   3  0  2  5
1   8  7  6  6
2   6  4  5  7
3   4  4  0  6
4   5  6  0  2
5   0  0  4  8
6   7  6  7  4
7   7  6  6  2
8   6  5  9  4
9   6  3  6  9
10  7  9  7  6
11  9  3  5  6
12  9  4  7  0
13  2  8  8  8
14  0  8  4  7
15  1  5  2  4
16  2  6  6  4
17  0  3  8  1
18  4  1  0  4
19  4  4  6  8

In [45]: df.skew()
Out[45]:
a   -0.154849
b   -0.239881
c   -0.660912
d   -0.376480
dtype: float64

In [46]: df.describe()
Out[46]:
               a          b          c          d
count  20.000000  20.000000  20.000000  20.000000
mean    4.500000   4.600000   4.900000   5.050000
std     2.964705   2.521487   2.770142   2.502105
min     0.000000   0.000000   0.000000   0.000000
25%     2.000000   3.000000   3.500000   4.000000
50%     4.500000   4.500000   6.000000   5.500000
75%     7.000000   6.000000   7.000000   7.000000
max     9.000000   9.000000   9.000000   9.000000