数据挖掘 - 基因表达数据集的特征选择 - 吾爱随笔录

基因表达数据集的特征选择

数据挖掘 scikit-学习特征选择生物信息学

2022-03-13 18:33:51

我正在寻找一种特征选择算法，它选择以下特征：

与区分样本组相关（为每个样本提供一个组标签）
在所有样本中具有高方差

这应该应用于基因表达数据集，其中每个样本都有一个组标签，因此应该可以为每个组选择一组要检查的特征。

我现在有两个候选人：

通过随机森林分类器的特征重要性结果选择特征
使用最小冗余最大相关性 (mRMR) 算法

但是，我不确定哪个可能是最好的，或者是否有更好的候选者用于此目的。

如果该算法是在 Python scikit-learn 中实现的，那将是一个加号。

1个回答

如果您更多地描述您的数据集，那将会很有帮助。基因表达数据集似乎通常具有非常高的维度，而 Lasso 正则化逻辑回归是解决此问题的一种流行方法。本文更进一步，可能会对您有所帮助： http: //bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-14-198

随机森林通常可以提供有意义的重要性排名，但它也取决于您的数据集是什么样的。

mRMR 听起来像是专门为识别基因特征而设计的，所以一定要试一试。

还有主成分分析，它也用于基因表达数据。

有很多选择，但是您的问题不够详细，无法进一步讨论，此时提供代码作为解决方案是不现实的。Python scikit-learn 的文档有很多很好的解释和示例。

其它你可能感兴趣的问题

上一篇平均 F1 分数 scikit-learn 下一篇如何找到R中邮政编码之间的最小距离？