数据挖掘 - 创建机器学习模型时将 IP 地址作为特征处理 - 吾爱随笔录

我正在研究用于欺诈检测的 ML 模型，我拥有的两个功能是 sender_IP_address 和 receiver_IP_address。

我认为这是一个非常重要的功能，不容忽视。我的问题是，我该如何处理这种功能？

我的数据集大约有 100k 行和 80 列。

我知道 IP 是分类数据，我可以使用OneHotEncoder（例如），但是从这 100k 行中，我有大约 70k 个唯一 IP 地址（一个 IP 地址可以出现 1 到 800 次）。如果我对其进行编码，我将拥有 +70k 的训练特征，并且我将不得不在数据上有很大的差异。此外，与 IP 地址相关的分类数据也会出现很大的不平衡，因为我将有 80% 的 IP 出现 1 次，而 20% 的 IP 出现超过 1 次（甚至 300 次）。

我已经读过可以做到这样的事情，但我不知道它是否合法，并且将 IP 地址视为数字数据。例如，对于 IP 地址 46.242.124.174 分为 4 个列/特征，每列都有一个数字，在本例中为 46|242|124|174。这是正确的方法吗？

另外，sender_IP_address 和receiver_IP_address 是否有任何类比，例如：

sender_IP_address: 46.242.124.174 receiver_IP_address: 225.242.12.174

两个 IP 地址有一些相同的数字（242 和 174）这是否意味着什么？