我有描述“有多少乘客到达某个机场”的数据集,我想预测明年每月有多少乘客到达。我拥有的功能如下:
年月机场旅客人数(月)
在数据中,50 个机场中有 3 个通常有大量旅客抵达。
我使用了随机森林分类器,但我遇到的问题是我的 RMSE 很高。结果,我看到实际值和预测值之间存在巨大差异。如何解决这个问题?
我有描述“有多少乘客到达某个机场”的数据集,我想预测明年每月有多少乘客到达。我拥有的功能如下:
年月机场旅客人数(月)
在数据中,50 个机场中有 3 个通常有大量旅客抵达。
我使用了随机森林分类器,但我遇到的问题是我的 RMSE 很高。结果,我看到实际值和预测值之间存在巨大差异。如何解决这个问题?
问题是您正在使用分类器。您应该使用 RandomForestRegressor 或其他类型的回归器。
这三个机场似乎是杠杆点。检查这个维基主题。您可以log transform设置目标值,也可以直接从训练集中删除这 3 个机场。
但是你的观察仍然非常少。您可能希望将新数据添加到您的集合中。在训练测试拆分 35 次观察后,训练 15 进行测试似乎不太令人满意。
您可能需要以考虑时间(时间序列)的方式重新设计问题,并且可能为此使用特定模型。
目前,您的每个实例都是一个月的,因此该算法尝试仅根据这个单独的月份和年份来预测乘客数量。从逻辑上讲,系统需要的主要信息是该机场过去几个月的乘客数量,但它没有。
一种简单的开始方法是格式化数据,以便一个实例包含提供过去 N 个月信息的特征。