稀疏数据上的无监督异常检测

数据挖掘 机器学习 无监督学习 分类数据 异常检测
2022-03-04 06:30:10

鉴于我有一个非常稀疏的具有连续特征的数据矩阵,例如这个数据框

 Feature_A  Feature_B  Feature_C....Feature_Z  
 0.3            0       0.1            0
 0.5            0.5     0              0
 0              0       1.0            0
 1.0            0       0              0  
 0.7            0       0              0
 1.0            0       0              0
 0.1            0       0.22          0.43

对此类数据执行无监督异常检测的最佳方法是什么?我最初的想法是先执行某种降维(例如 SVD 或 NMF),然后对生成的密集矩阵(例如隔离森林)进行简单的异常检测技术,但我不确定这是最好的方法。

1个回答

1-你最好从隔离森林开始隔离森林这是一个非常简单的算法,您可以在其中控制数据的污染率。

2- 对于可视化,您可以用红色绘制异常点,您可以使用 Isolation Forest predict(X) 函数区分它们,该函数为异常值返回 -1,其余为 1。

3-您可以通过将模型的预测值与数据集的实际值进行比较来使用LSTM,然后使用 KPI(if/else 取决于预测值与真实值之间差异的最大值),在您需要定义自己的污染率的简单单词。

4- 对于 LSTM 的可视化,您可以使用上述与隔离森林相同的函数,但您将使用步骤 4 中描述的函数,而不是返回 [-1,1] 的预测函数。