我正在研究异常检测用例。我研究了一种选择将 5% 的验证数据标记为异常的阈值的技术。它如何在异常检测案例中工作。还有另一种技术可以选择最大化 TPR 和 FPR 之间差异的阈值。
哪种技术有助于无监督学习,然后将其与基本事实进行比较。
我们可以通过绘制具有 TP 和 FP 率的 RC 曲线来找到理想的阈值。但是在无人监督的情况下遵循它的好技术?
我正在研究异常检测用例。我研究了一种选择将 5% 的验证数据标记为异常的阈值的技术。它如何在异常检测案例中工作。还有另一种技术可以选择最大化 TPR 和 FPR 之间差异的阈值。
哪种技术有助于无监督学习,然后将其与基本事实进行比较。
我们可以通过绘制具有 TP 和 FP 率的 RC 曲线来找到理想的阈值。但是在无人监督的情况下遵循它的好技术?
无监督意味着您没有任何标记数据。要知道真阳性率和假阳性率,您需要标签。在没有训练数据的情况下无法计算 RC 曲线。
您可能正在谈论隔离森林,它假定某些百分比的数据是异常的,并且该百分比是由用户定义的超参数。因此,您可以根据手头的业务用例选择 1% 或 10%