我是统计学的新手,很抱歉在该主题上缺乏任何重大知识,只是为毕业做一个项目。
我正在尝试对包含疾病(3456)和症状(25)的健康数据集进行聚类,并根据发生的事件数量对它们进行分组。
我担心的是很多值都是 0 简单的,因为有些疾病没有表现出特别的症状,例如(我现在编了这些值):
所以,我想知道对这个数据集进行聚类的最佳方法是什么。我一直在寻找并找到分层和 kmeans,但不知道我是否可以正确适用于这个 cenario。首先,我将出现的绝对值切换为总数的百分比,这是否可以处理 0 ?我考虑了一下,但同时 1% 接近 0%,我不知道算法是否也可以理解为“标志”,因为 1% 表示实际上出现了该症状(即使发生率较低)并且在另一种疾病根本不会发生。
我听说 PCA 可以减少变量的数量,我也很好奇:1-PCA 适用于这个场景(具有很多稀疏 0 的数据集)2-PCA 可以解决我的问题(因为我认为即使减少对于 2 3 个变量,对于该特定列(症状),某些行仍可能为 0。
任何帮助/指导都会非常有帮助,我提前感谢大家,对于一些英语错误也很抱歉!
有一个伟大的一周!
