我有一个distance连续的变量,直到“硬停止”,我们停止测量距离本身并将距离标记为“超出范围”。例子:
distances: 10.1, 11.3, 20.2, 36.5, 39.6, out_of_range, out_of_range
是否有一种最佳实践方法来编码直到某一点为止连续的数据?我考虑过设置:out_of_range = max(distances)以便将所有 out_of_range 数据设置为相同的值,但我不确定这是否会对 ML 模型产生影响,假设范围内距离较长的示例接近超出范围的示例。
这个 out_of_range 数据很有用,所以我不想只是从模型中删除它,但我希望能够在模型中区分 in_range 与 out_of_range 的示例。
对于上下文,我计划将此数据用作基于树的 ML 模型(例如 Random Forrest)的输入