去规范化谷歌趋势数据?

机器算法验证 时间序列 数据集 描述性统计
2022-03-26 20:32:07

有人对如何对 Google 趋势数据进行非规范化有建议吗?该网站表示,他们的趋势是根据以下指标得出的:

图表上的数字反映了针对特定字词的搜索次数,相对于一段时间内在 Google 上完成的搜索总数。它们不代表绝对搜索量数字,因为数据是标准化的,并以 0-100 的比例呈现。图上的每个点除以最高点再乘以100。当我们没有足够的数据时,显示0

我一直在尝试从那里向后工作,但意识到我需要每个搜索查询的峰值,而我没有。任何想法表示赞赏。

以下是 Google 趋势搜索示例:http ://www.google.com/trends/explore#q=stack%20exchange&cmpt=q&tz=

2个回答

由于归一化包括

z=xmax(x),
在哪里x是搜索量的向量,并且max(x)是最大元素x,如果你想要去归一化的数据,你应该将归一化向量的每个元素乘以最大元素x

x=z×max(x).

不幸的是,如果你不知道max(x)你不能对你的数据进行反规范化。

对 Google 趋势数据进行反规范化可能非常有用,但由于舍入误差,这很棘手:当比较搜索量大不相同的 2 个查询时,频率较低的查询的时间序列可能到处都显示为 0。

为了解决这个问题,我们开发了一种名为Google Trends Anchor Bank 的方法。它在这里可用:https ://github.com/epfl-dlab/GoogleTrendsAnchorBank

描述该方法的技术论文可在此处获得:https ://arxiv.org/abs/2007.13861