基因表达数据集的特征选择

数据挖掘 scikit-学习 特征选择 生物信息学
2022-03-13 18:33:51

我正在寻找一种特征选择算法,它选择以下特征:

  • 与区分样本组相关(为每个样本提供一个组标签)
  • 在所有样本中具有高方差

这应该应用于基因表达数据集,其中每个样本都有一个组标签,因此应该可以为每个组选择一组要检查的特征。

我现在有两个候选人:

  • 通过随机森林分类器的特征重要性结果选择特征
  • 使用最小冗余最大相关性 (mRMR) 算法

但是,我不确定哪个可能是最好的,或者是否有更好的候选者用于此目的。

如果该算法是在 Python scikit-learn 中实现的,那将是一个加号。

1个回答

如果您更多地描述您的数据集,那将会很有帮助。基因表达数据集似乎通常具有非常高的维度,而 Lasso 正则化逻辑回归是解决此问题的一种流行方法。本文更进一步,可能会对您有所帮助: http: //bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-14-198

随机森林通常可以提供有意义的重要性排名,但它也取决于您的数据集是什么样的。

mRMR 听起来像是专门为识别基因特征而设计的,所以一定要试一试。

还有主成分分析,它也用于基因表达数据。

有很多选择,但是您的问题不够详细,无法进一步讨论,此时提供代码作为解决方案是不现实的。Python scikit-learn 的文档有很多很好的解释和示例。