数据挖掘 - Google 趋势如何标准化？ - 吾爱随笔录

Google 趋势如何标准化？

数据挖掘正常化谷歌

2022-03-14 12:48:01

我有一个来自谷歌趋势的每日系列，使用范围“今天 3 米”，但最后一天不能从这个查询中获得。例如，今天是 3 月 24 日，使用此查询的最后一天是 3 月 22 日，我预计会是 3 月 23 日。如果我使用“now 7-d”范围来获取系列，那么这一天每小时都会到来，并且是 3 月 23 日。我想将它汇总并放在与我之前获得的系列相同的度量中。为此，我需要知道该系列是如何标准化的。我知道每次我取一个系列（一个区域和一个单词）时，它简单地将每个点除以范围内的最大数字并乘以 100。因此，系列的最大点是 100。使用这个假设，如果我按天对第二个系列中的所有索引求和，每天都有相同的分母（但与第一个系列不同）。但在这种情况下，相邻天数之间的增长在两个系列中必须相同。但事实并非如此。所以，我不明白规范化。有人可以帮我吗？

1个回答

首先，您是否一次为一个查询提取数据？如果您放置多个查询，则每个查询的数据将相对于请求中的其他查询进行规范化。因此，如果您输入一些非常具体的内容，比如“谵妄”（一种疾病的拉丁名称）和“UEFA Champions League”等非常流行的内容，那么不受欢迎的查询的结果将可以忽略不计。

如果您一次查询一个搜索词，则数据仅针对您查询的时间段进行标准化。所以用不同的时间范围查询总是会产生不同的结果。如果您最感兴趣的是 31 天前，并且您查询最近 30 天的数据，那么数据中将有一个新的 100，这可能在 31 天查询中的 80-90 范围内。

此外，谷歌趋势的工作方式是每天对所有搜索进行随机抽样，并根据该样本对结果进行标准化。如果您正在调查一个不受欢迎的术语，甚至是在人口少或互联网使用量小的国家/地区的半流行术语，那么您将在每次查询之间收到很大的变体，因为样本已经改变并且没有足够的数据来每天创建一个有代表性的样本。换句话说，整个数据池非常稀缺，所以如果你随机发送一部分，比如说 10%，已经很吓人的数据，结果会是更吓人的数据......

其它你可能感兴趣的问题

上一篇如何证明一个函数是 sigmoidal 下一篇具有不平衡数据集的二元分类问题，如何与随机分类器进行比较