这些数据遵循Zipf 分布是合理的。
为了比较,这里是根据 Zipf(幂律)分布生成的随机数据,其功率接近- 1.4并在问题和链接的讨论中绘制。我已经调整了功率和总频率以匹配问题中的数字——在有序频率的原始图(左)和(无标题)log-log-log 图(左起第二个)中,匹配看起来相当不错.

分析看起来像这样的数据的一个好方法是在对数轴上显示频率与排名,如上面的“Zipf 图”所示。即使事实证明这些数据不是 Zipf 分布的,与 Zipf 分布的比较(如右侧的“观察与拟合”图所示)也可能提供信息。
R可以从用于生成它们的代码中收集有关这些数字的更多信息。
x <- 1:100
Y <- exp(19.5 - 1.392 * log(x))
Y <- round(Y + rnorm(length(Y), sqrt(Y)))
par(mfrow=c(1,4))
plot(x,Y,pch=19, main="Ordered Frequencies")
abline(h=seq(5e7, 3e8, by=5e7), col="Gray")
abline(v=seq(0, 100, by=25), col="Gray")
plot(x, log(log(log(Y))), pch=19)
abline(h=seq(0.925, 1.10, by=0.025), col="Gray")
abline(v=seq(0, 100, by=25), col="Gray")
plot(x, Y, log="xy", main="Zipf Plot")
beta.hat <- coef(lm(log(Y) ~ I(log(x))))
curve(exp(beta.hat[1]+beta.hat[2]*log(x)), add=TRUE, col="Red")
H <- sum(Y)/sum(x^(beta.hat[2]))
plot(H*x^(beta.hat[2]), Y, log="xy",
ylab="Observed Frequency", xlab="Fitted Frequency",
main="Observed vs. Fit")
abline(c(0,1), col="Red")