最近我一直在尝试不同的 Scikit-Learn 异常检测聚类方法,比如
- 星展扫描
- 隔离森林。
根据我使用的训练数据量,我如何调整算法
Example in DBSCAN I play around this min_samples and eps distance.
我的问题 现在我得到了不同的结果,但这就是问题所在。我不知道我应该得到多少异常,所以这导致我不确定什么是最好的。
我已经阅读了自己将异常添加到数据集中的内容。这是一回事吗?这意味着我会知道从算法中发现的异常是否与添加到数据集中的异常相同。
我可能弄错了。
另一个问题是我要检查异常的列中的数字在大小上确实不同,所以我也不会添加哪些数字作为异常。
将不胜感激一些帮助。