ML模型中统计特征的解释

数据挖掘 机器学习 深度学习 分类 预测建模 特征选择
2022-03-02 21:07:25

我有一个如下所示的数据(使用传统分类和基于 DL 的方法处理分类问题)

在此处输入图像描述

我在此处此处的特征工程教程(和工具)中看到,它们通常根据数字列计算基本统计特征,例如max(loan amount)min(loan amount)sum(loan amount)stddev(loan amount)average (loan amount)

我知道所有这些都是为了提高模型的预测能力。

但是,我的问题是

什么时候max(loan amount)或是std dev(loan amount)一个重要特征是什么意思?可以帮助我理解它传达了什么见解?如何解释这个特性?能用简单的英文解释吗?

假设我们运行一个随机森林模型,并且在特征重要性中我们看到这max(loan amount)是最重要的特征。这是什么意思?我正在寻找意义来理解它所传达的洞察力。这个问题与模型无关。它只是关于术语/功能的含义std dev (loan amount)max(loan amount)min(loan amount)

2个回答

当 max(loan amount) 是随机森林分类中最重要的特征时,它通常是进行决策拆分的第一个特征。换句话说,该特征在将数据划分为同质类时最有用。

首先,定义问题很重要:让我们假设目标是预测一个由他们确定的人s_id在特定贷款上违约的概率(或他们一般违约的风险)。

所以在这种情况下,一个实例代表一个人。可用数据包含有关此人过去贷款的信息。首先有一个技术问题:这段历史可以是任意长度,但是对于传统的特征表示,我们需要一个固定长度的特征向量。从语义上讲,问题在于以一种有助于预测目标变量的方式向模型提供包含在此历史记录中的信息:直观地说,每笔贷款的确切金额并不重要,因为它非常具体(甚至可能导致一些如果直接使用过拟合)。

由于这些原因,将贷款历史“总结”为固定大小的统计数据向量是有意义的。通常是数字、平均值、中位数、可能的分位数、标准差等。这些值使实例可以相互比较,因为模型可以区分历史中具有不同模式的客户。在这种特殊情况下,创建两个系列的统计数据肯定是有意义的:一个用于已付贷款,另一个用于未付贷款,因为这显然有助于模型。