如何为无监督异常检测选择阈值

数据挖掘 机器学习 无监督学习 异常检测
2022-02-14 20:21:10

我正在研究异常检测用例。我研究了一种选择将 5% 的验证数据标记为异常的阈值的技术。它如何在异常检测案例中工作。还有另一种技术可以选择最大化 TPR 和 FPR 之间差异的阈值。

哪种技术有助于无监督学习,然后将其与基本事实进行比较。

我们可以通过绘制具有 TP 和 FP 率的 RC 曲线来找到理想的阈值。但是在无人监督的情况下遵循它的好技术?

1个回答

无监督意味着您没有任何标记数据。要知道真阳性率和假阳性率,您需要标签。在没有训练数据的情况下无法计算 RC 曲线。

您可能正在谈论隔离森林,它假定某些百分比的数据是异常的,并且该百分比是由用户定义的超参数。因此,您可以根据手头的业务用例选择 1% 或 10%