我目前正在使用蛋白质序列数据研究基于 RandomForest 的预测方法。我已经生成了两个模型,第一个模型(NF)使用标准特征集,第二个模型(HF)使用混合特征。我已经完成了 Mathews 相关系数 (MCC) 和精度计算,以下是我的结果:
模型 1 (NF):训练准确度 - 62.85% 测试准确度 - 56.38 MCC - 0.1673
模型 2 (HF):训练准确度 - 60.34 测试准确度 - 61.78 MCC - 0.1856
测试数据是一个独立的数据集(意味着不包含在训练数据中)。
由于模型之间存在准确性和 MCC 的权衡,因此对模型的预测能力感到困惑。您能否分享您对我应该考虑使用哪种模型进行进一步分析的想法?除了准确性和 MCC 之外,我还应该考虑哪些其他措施进行验证?
提前致谢。