根据过去的值和分类属性预测数值

数据挖掘 分类 预测建模 回归
2022-03-10 00:13:15

我有由数值时间序列组成的训练数据(例如,100 天内网站上的用户活动指标)。我还有一些用户的分类属性(人口统计、浏览器类型、位置等)

对于新用户(比如在第 50 天)预测活动指标的未来值,无论是作为数值还是作为一个类别(低、中、高),什么是一种好的方法?

我可以想到以下方法:

A. 对初始分类特征的大多数(或所有)组合分别执行时间序列回归或分类。

或者

B. 从时间序列中提取 4 到 10 个不同的数值和/或分类特征(例如高、低、平均、周末水平、周末与工作日的比率等),然后对整个特征集执行随机 forrest 分类或回归。

或者

C. 别的?

谢谢!

1个回答

如果没有看到数据,我会说活动传感器可能具有强烈的季节性行为。如果是这样的话,时间序列分析可以给你一些好的结果。在你朝着那个方向前进之前,请确保在 ARIMA 中使用你的时间序列之前,它是静止的。在这里查看一个很好的教程

如果要预测分类变量,则必须确保根据历史值创建足够的协变量。然后,您可以继续使用随机森林。

最后,我建议您考虑一下您应该能够如何解释模型的结果。ARIMAX 模型比随机森林更易于处理,因为后者使用装袋和平均。所以如果你需要解释为什么你的模型给出了某种预测,ARIMAX 可能会更容易解释。

希望这可以帮助。