为这些类型的数据建议模型?

数据挖掘 机器学习 数据 机器学习模型 主成分分析
2022-03-05 20:06:07

我有一个看起来像这样的数据集

physical_data1   physical_data2  switch1   switch2   state
400              500             1         0         Normal
400              500             1         1         Normal
500              650             0         0         Normal
600              700             1         0         Normal
1000             300             1         1         Anomaly!

其中physical_data 是从0 到1000 的数据,switch 是二进制开关(1 表示开启,0 表示关闭)。

我对机器学习还比较陌生,所以我想知道哪种机器学习算法最适合这类数据来检测异常,因为我的数据具有物理量和二进制量的混合特征。

我所做的事情是标准化为 [0,1],但是我不太确定将 PCA 应用于此类数据是否会导致检测率下降,因为它需要所有功能来确定特定读数是否正常或异常。

我的另一个问题是,如果在我的数据集中我没有异常数据,而是只有正常数据怎么办。在那种情况下,我可以使用什么样的模型?

2个回答

任何类型的分类算法都应该适合您的数据。

逻辑回归可能是您将在 ML 教程中学习的第一件事。

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

尝试朴素贝叶斯如果功能彼此独立,它很简单并且可以使用。