我怎样才能找到我的文章的趋势时间?

数据挖掘 数据挖掘 时间序列 预测建模 统计数据 预言
2022-01-24 22:04:19

我们的文章是基于时间的,这意味着我的文章在特定时间搜索更多。正如您在图表下看到的那样,本文在特定时间段内进行了更多搜索。

在此处输入图像描述

如果我的数据集看起来像这样(它可以是 json、csv、xlsx):

在此处输入图像描述

如何找到我的文章的趋势时间(图1中红线之间的时间)

我需要知道那段时间才能为明年做好准备。

(我需要excel解决方案,但如果你可以用其他方式和编程语言解决这个问题就可以了)

1个回答

根据您的评论以及我从您的问题中可以理解的内容,您可以将您所说的“趋势”确定为一系列异常值。来自Wikipedia的异常值是:

在统计学中,离群值是远离其他观察的观察点。异常值可能是由于测量的可变性,也可能表明实验错误;后者有时被排除在数据集中。

你怎么能在excel中做到这一点?此链接中有一个很好的教程总之,根据你添加的数据,你需要做

  1. 分别用公式计算第一个和第三个四分=QUARTILE(B2:B9,1)位数=QUARTILE(B2:B9,3)
  2. 然后得到IQR,也就是上面两个的差=F3-F1
  3. 将 L Bound 计算为=G2-(1.5*G4),其中 G2 是第一个四分位数,G4 是 IQR
  4. 将 U Bound 计算为=G2-(1.5*G4)
  5. 然后在包含数据的列旁边,添加=OR(B2<$G$5,B2>$G$6)它以检查您的数据是低于还是高于 L 和 U Bound。如果是,则该行被标记为异常值。

您需要在第 3 步和第 4 步中使用乘数,以便在测试数据中获得正确的结果。使用 0.8,最后 3 行被标记为异常值,您可以说所需的异常值或“趋势”如您所说的时期是 2018 年 1 月 17 日至 19 日。

Excel 实现

在 Python 中有更复杂的方法可以做到这一点,但我不知道 Excel 中有类似的方法。您可以使用 Python 在时间序列中查找异常检测。