我正在从交通数据集中预测汽车的数量。
这是我的数据字典:
'Traffic-Major-Roads(kilometres)' 文件包含以下变量(变量名称以粗体显示):
- 年份 - 显示从 2000 年起每年的交通量。
- CP(计数点)——将 AADF 连接到道路网络的道路连接的唯一参考。
- ONS GOR 名称 – CP 所在的前政府办公区。
- ONS LA Name – CP 所在的地方当局。
- 道路 - 这是道路名称(例如 M25 或 A3)。
- RCat – 道路类型的分类(完整列表参见数据定义)。
- S Ref E – CP 位置的东坐标。
- S Ref N – CP 位置的东坐标。
- A-Junction - 链接起始路口的道路名称
- B-Junction - 链接末端交叉点的道路名称
- LenNet – 该 CP 的网络道路链路的总长度(以公里为单位)。
- PC – 踏板循环的交通量(以千公里为单位)。
- 2WMV – 两轮机动车辆的交通量(以千公里计)。
- 汽车 - 汽车和出租车的交通量(以千公里为单位)。
- 公共汽车——公共汽车和长途汽车的交通量(以千公里为单位)
- LGV – LGV 的交通量(以千公里为单位)。
- HGVR2 – 两刚性轴 HGV 的交通量(以千公里为单位)。
- HGVR3 – 三刚性轴 HGV 的交通量(以千公里为单位)。
- HGVR4 – 四个或更多刚性轴 HGV 的交通量(以千公里为单位)。
- HGVA3 – 三或四铰接轴 HGV 的交通量(以千公里为单位)。
- HGVA5——五铰接轴 HGV 的交通量(以千公里为单位)。
- HGVA6 – 六铰接轴 HGV 的交通量(以千公里为单位)。
- HGV – 所有 HGV 的交通量(以千公里为单位)。
- AMV——所有机动车的交通量(以千公里为单位)。
我需要预测变量 AMV。
所以,我有 one-hot 编码的道路,并在我的功能中保留了日期、时间。但是,道路的数量非常大。我的功能太多了。
你能建议我应该如何进行吗?