我需要为无监督机器学习问题选择一个模型。3D 空间中有 4 个簇。这些是我的要求:
- 我将使用不同的训练数据多次运行相同的模型(用于实时应用)。
- 训练数据的大小预计在 400 点左右。
- 我可以假设每个集群的点都是从高斯分布中得出的。这不是必须存在于模型中的要求。
- 我需要得到代表集群“中心”的 4 个点。
- 在预测时间,对于每个新点,我需要每个集群的某种数字来表示属于集群的概率。
- 我会有很多异常值,假设大约 30%。
我尝试过高斯混合模型,当我没有异常值时它效果很好。不幸的是,这个模型对异常值非常敏感。
有什么建议如何使用高斯混合模型处理异常值?还是我应该使用完全不同的模型?