如何检查黑盒模型中分类特征的“统计显着性”

数据挖掘 机器学习 xgboost 预测重要性
2022-02-27 14:09:21

假设我们有一个分类特征Xi我们已经建立了一个像 xgboost 这样的黑盒分类模型Xi作为众多预测指标之一。我们想问一个问题:Xi影响整体预测,如果有,影响多少?

尤其Xi可能:

  • 二分变量
  • 一个 n 级变量,我们对两个特定级别之间的电位差感兴趣

在像线性回归这样的白盒模型中,我们通过测试来获得统计显着性。但是我们能用黑盒模型获得类似统计意义吗?可解释的人工智能领域的任何工具是否适用于此?还是只对输出概率预测执行标准 t 检验会更好?

1个回答

首先,您必须对特征进行编码。模型只采用数字特征。

然后评估解决方案:

  • 您可以看到模型的特征重要性

  • 或者使用可以帮助您理解预测的 XAI 工具。我通常使用SHAP(SHapley Additive exPlanations):是一种博弈论方法来解释任何机器学习模型的输出。它使用博弈论中的经典 Shapley 值及其相关扩展将最优信用分配与局部解释联系起来。

XAI 示例

https://github.com/slundberg/shap