数据挖掘 - 如何为无监督异常检测选择阈值 - 吾爱随笔录

数据挖掘机器学习无监督学习异常检测

2022-02-14 20:21:10

我正在研究异常检测用例。我研究了一种选择将 5% 的验证数据标记为异常的阈值的技术。它如何在异常检测案例中工作。还有另一种技术可以选择最大化 TPR 和 FPR 之间差异的阈值。

哪种技术有助于无监督学习，然后将其与基本事实进行比较。

我们可以通过绘制具有 TP 和 FP 率的 RC 曲线来找到理想的阈值。但是在无人监督的情况下遵循它的好技术？

1个回答

无监督意味着您没有任何标记数据。要知道真阳性率和假阳性率，您需要标签。在没有训练数据的情况下无法计算 RC 曲线。

您可能正在谈论隔离森林，它假定某些百分比的数据是异常的，并且该百分比是由用户定义的超参数。因此，您可以根据手头的业务用例选择 1% 或 10%

其它你可能感兴趣的问题