机器算法验证 - Google+ 人口是如何估算的？ - 吾爱随笔录

Google+ 人口是如何估算的？

机器算法验证人口

2022-03-26 14:25:29

我一直在读到人们正在根据统计估计来估计 Google+ 人口：

我的模型很简单。我从美国人口普查局关于美国姓氏流行度的数据开始，并将其与每个姓氏的 Google+ 用户数量进行比较。我将美国用户与非美国用户分开。通过使用 100-200 个姓氏的样本，我能够准确估计已注册 Google+ 的美国人口的总百分比。然后我使用该数字和美国与非美国用户的计算比率来生成我的全球估计值。我的比例是每 2.12 个非美国用户对应 1 个美国用户。这个比率是在 7 月 4 日通过艰苦的努力计算出来的，从那以后我就没有更新过。这绝对是我希望尽快解决的模型中的一个弱点。该比率可能会随着时间而改变。

这怎么可能？我看不出固定样本量如何告诉您参与的美国人口百分比。让我们看2个案例：

案例 1：有 10,000 个 Google+ 用户
案例 2：有 1,000,000 个 Google+ 用户

为什么样本在统计上会不同？

2个回答

除非姓氏样本在统计上是合理的，即具有已知选择概率的随机样本，否则这个练习将毫无用处。否则，您将通过首先选择一种颜色（例如黄色）来估算女性驾驶员的数量，计算黄色汽车中女性驾驶员的比例，然后将人口总数的估计值作为（汽车总数）*（基于红色汽车的女性司机比例）。如果您没有随机选择颜色（最好重复多次选择以确保更好地覆盖不同类型的汽车），只有上帝知道您的估计可能有多好。

获得一个好的美国姓氏样本绝非易事。至少可以说，所研究的姓氏分布非常奇怪。大多数姓氏都是独一无二的，只有少数人有这个姓氏（我的就是一个例子）。另一方面，少数姓氏（史密斯、约翰逊、威廉姆斯）可能覆盖多达 1% 的人口）。

在企业调查中经常遇到奇怪分布的问题，在这些调查中，您拥有像 Microsoft 和 Adobe 这样的庞大公司，以及拥有两三个本地极客的数以百万计的商店。处理此类分布的一种做法是执行与大小抽样成比例的概率：您获取整个列表，但如果姓氏（或公司）占总数的比例更大，您将以更大的概率对姓氏（或公司）进行抽样。然后，您可以使用权重控制不等的选择概率。另一种方法是使用截止抽样：您对频率大于（销售额大于）0.1% 的所有姓氏进行抽样，然后对剩余姓氏的潜在非抽样误差挥手。

做了两个假设：（1）美国公民占所有人的比例在 Google+ 人口中与全球人口中的比例相同，（2）对于美国公民，任何姓氏的人占所有美国公民的比例是（平均而言）在 Google+ 人群中与在全球人群中相同。

)有多少美国 Google+ 订阅者。给定假设 (2)（假设比率为，通过将具有这些姓氏的美国公民的数量除以美国公民的总数得出），美国用户总数的估计值如下所示： $USG_s$ $r_s$

$USG\sim USG_s/r_s$

然后，使用假设 (1)，您可以使用相同的“技巧”来估算 Google+ 用户总数。

简而言之：如果 Google+ 订阅者越少，那么成为 Google+ 订阅者的美国公民就越少（假设 (1)）。通过这个和假设（2），具有给定姓氏的美国公民成为谷歌订阅者的人数也会减少。

其它你可能感兴趣的问题

上一篇如何在ggplot2中指定每个方面的标签？下一篇根据AUC选择模型是否有效？