当您在 Pandas 的数据帧上调用 describe 函数时,我对如何解释您看到的百分位信息感到有些困惑。
我相信我对百分位数的含义有一个基本的了解。例如,如果在一个测试中某人得分为 40%,在 75% 的百分位上排名,这意味着该分数高于总分的 75%。
但我不知道如何翻译这些知识来解释我从 describe 函数中看到的内容。
为了说明,给定以下内容:
test = pd.DataFrame([1,2,3,4,5,1,1,1,1,9])
test.describe()
这会打印出类似的内容:
| count | 10.000000 |
|-------|-----------|
| mean | 2.800000 |
| std | 2.616189 |
| min | 1.000000 |
| 25% | 1.000000 |
| 50% | 1.500000 |
| 75% | 3.750000 |
| max | 9.000000 |
现在我不知道如何解释分配给 25%、50% 和 75% 的值。例如,10 个值中有 5 个设置为 1,但 50% 的值为 1.50000,显然这并不是说 1.5 的值为 50%,因为数据集中甚至没有 1.5。
另外为什么 25% 设置为 1.000000 而 75% 设置为 3.750000?
我知道我在解释这个错误,因此这个问题!如果有人可以帮助理解这一点,将不胜感激