我必须编写一个功能来总结城市不同部分的街区面积。(街区被定义为街道所包含的空间)。
我可以计算面积的算术平均值,但数据在部分中通常非常倾斜。我可以计算 log(areas) 的算术平均值,将数据转换为更正态的分布,但问题是数据的偏斜程度不同。您将如何创建此功能?
我必须编写一个功能来总结城市不同部分的街区面积。(街区被定义为街道所包含的空间)。
我可以计算面积的算术平均值,但数据在部分中通常非常倾斜。我可以计算 log(areas) 的算术平均值,将数据转换为更正态的分布,但问题是数据的偏斜程度不同。您将如何创建此功能?
你可以使用中位数。这可以防止“比尔盖茨走进酒吧,让那里的每个人平均成为百万富翁”效应。它与工资分配一起使用,正是因为它们往往非常倾斜。
或者,您可以考虑每个部分的块区域分布并使用最流行的值(分布的顶峰)。
如果可以对分布曲线进行有意义的聚类,您甚至可以将特征定义为一个因子 - 分布曲线聚类的最近质心。