我正在寻找一种特征选择算法,它选择以下特征:
- 与区分样本组相关(为每个样本提供一个组标签)
- 在所有样本中具有高方差
这应该应用于基因表达数据集,其中每个样本都有一个组标签,因此应该可以为每个组选择一组要检查的特征。
我现在有两个候选人:
- 通过随机森林分类器的特征重要性结果选择特征
- 使用最小冗余最大相关性 (mRMR) 算法
但是,我不确定哪个可能是最好的,或者是否有更好的候选者用于此目的。
如果该算法是在 Python scikit-learn 中实现的,那将是一个加号。
我正在寻找一种特征选择算法,它选择以下特征:
这应该应用于基因表达数据集,其中每个样本都有一个组标签,因此应该可以为每个组选择一组要检查的特征。
我现在有两个候选人:
但是,我不确定哪个可能是最好的,或者是否有更好的候选者用于此目的。
如果该算法是在 Python scikit-learn 中实现的,那将是一个加号。
如果您更多地描述您的数据集,那将会很有帮助。基因表达数据集似乎通常具有非常高的维度,而 Lasso 正则化逻辑回归是解决此问题的一种流行方法。本文更进一步,可能会对您有所帮助: http: //bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-14-198
随机森林通常可以提供有意义的重要性排名,但它也取决于您的数据集是什么样的。
mRMR 听起来像是专门为识别基因特征而设计的,所以一定要试一试。
还有主成分分析,它也用于基因表达数据。
有很多选择,但是您的问题不够详细,无法进一步讨论,此时提供代码作为解决方案是不现实的。Python scikit-learn 的文档有很多很好的解释和示例。