机器学习 - 如何根据过去的特征预测一组固定字段

数据挖掘 机器学习 Python 预言
2022-03-12 13:57:30

我有一个相当大的数据集(> 100k 行),其中包含物流运输的信息。(出口货物)

数据集如下所示:

|shipper|consignee                    |origin|destination                                  |
|-------|-----------------------------|------|---------------------------------------------|
|6409292|288882                       |USSFO |CNPVG                                        |
|6409292|288882                       |USSFO |CNPVG                                        |
|6409292|182724                       |USSFO |HKHKG                                        |
|6409292|182724                       |USSFO |HKHKG                                        |
|8201922|948292                       |USSFO |FRCDG                                        |
|8201922|948292                       |USSFO |FRCDG                                        |
|8201922|948292                       |USSFO |FRNIC                                        |
|8201922|291222                       |USEWR |AEDXB                                        |

所以我们这里有一份过去发货的清单。它显示了托运人和收货人之间的关系,以及货物从哪里来和发往哪里。

根据过去的数据,我希望能够通过查看consignee code和来预测何时添加新货件origin

例子

以下面的新预订为例:

|shipper|consignee                    |origin|destination                                  |
|-------|-----------------------------|------|---------------------------------------------|
|1234567|948292                       |USMOB |?                                            |

如何训练模型来预测destinationML 中的这个区域指的是什么?

1个回答

这是一个有监督的分类问题:您试图根据一些分类特征(输入列)来预测目的地(类)。我建议从一些简单的算法开始,例如决策树或朴素贝叶斯。

但是我猜物流运输会随着时间的推移而发展:也许托运人业务会随着国家 X 的增长而随着国家 Y 的增长而减少,等等。如果这是相关的,那么研究可能会按时间顺序演变的更先进的方法可能是有意义的考虑到(时间序列)。