我有熊猫数据框,我想对连续值进行分类。
a['abc'].describe() # a name of pandas dataframe, abc--column name
count 250000.000000
mean 43.412040
std 26.075295
min 0.000000
25% 25.000000
50% 38.000000
75% 53.000000
max 218.000000
Name: abc, dtype: float64
在将熊猫qcut用于 4 组时,如何在其中一个箱中分配负值?
a["abc_bin"] = pd.qcut(a["abc"],4,labels=None,)
print(a["abc_bin"].value_counts())
(25.0, 38.0] 73448
(-0.001, 25.0] 62818
(53.0, 218.0] 61605
(38.0, 53.0] 52129
Name: abc_bin, dtype: int64
bin 宽度是如何确定的?特别是,如何有一个负值作为 bin 边缘?