我有一些数据,其中有某些类(c1、c2、c3、c4 ...),并且数据由二进制向量组成,其中 1 和 0 表示条目是否属于某个类。类的数量将 > 200。数据将如下所示:
c1 c2 c3 c4 ...
1 0 0 0 ...
0 1 1 0
这些数据会属于“分类”类型吗?
细节:
样本量: ~20000
班级人数:300
数据矩阵稀疏性:99.52%
问题陈述:我所说的课程是医院提供的医疗服务。如果医院提供服务,我们只需将 1 或 0 放入二进制向量中。我想根据他们的服务对类似的医院进行聚类。
我在这个数据集上尝试了 PCA 进行降维,我什至用 DBSCAN 得到了很好的集群,但我读到,对于分类稀疏数据,PCA 不推荐,欧几里得距离也因为距离测量不好。
我计划使用 MCA(多重对应分析),但我无法弄清楚我应该如何表示数据。