我有一个关于特征选择和分类的问题。我将与 R 一起工作。首先我应该说我不是很熟悉数据挖掘技术,除了多变量分析本科课程提供的简要介绍,所以如果我缺乏关于我的问题的细节,请原谅我。我会尽力描述我的问题。
首先,关于我的项目:我正在做一个图像细胞仪项目,数据集由 100 多个细胞核组织学图像的定量特征组成。所有的变量都是描述细胞核特征的连续变量,例如大小、DNA量等。目前有一个手动过程和一个自动过程来获得这些细胞图像。手动过程(非常)缓慢,但由技术人员完成,并且只产生可用于进一步分析的图像。自动过程非常快,但引入了太多不可用的图像——只有大约 5% 的图像适合进一步分析,每个样本有数千张核图像。事实证明,清理从自动过程中获得的数据实际上比手动过程更耗时。
我的目标是训练一种分类方法,使用 R,从自动过程中获得的数据中区分好对象和坏对象。我有一个从自动过程中获得的已经分类的训练集。它由 150,000 行组成,其中约 5% 是好对象,约 95% 是坏对象。
我的第一个问题涉及特征选择。有超过 100 个连续的解释性特征,我可能希望摆脱噪声变量以(希望)帮助分类。有哪些以改进分类为目标的降维方法?我了解减少变量的需求可能会因所使用的分类技术而异。
这引出了我的第二个问题。我一直在阅读不同的分类技术,但我觉得我无法充分确定最适合我的问题的方法。我主要担心的是好对象相对于坏对象的错误分类率较低,而且好对象的先验概率远低于坏对象的先验概率。将一个坏对象归类为好对象比从坏对象池中恢复一个好对象更容易,但如果没有太多坏对象被归类为好对象,那就太好了。
我已经阅读了这篇文章,我目前正在根据 chl 的回答考虑随机森林。我也想探索其他的方法,也想在CV这里收集好人的建议。我也欢迎任何关于分类主题的可能有用的读物,以及对使用 R 包的建议。
如果我的帖子缺少详细信息,请询问更多详细信息。