如何正确使用我们数据集中的权重?我们应该使用它们吗?

数据挖掘 机器学习 Python 数据科学模型
2022-03-01 15:49:55

我正在使用的人口普查数据集:https ://archive.ics.uci.edu/ml/datasets/Adult

因此,我目前正在使用此人口普查数据进行观察并预测某人是否已婚。然而,当我为种族绘制分类图时,它绝大多数是白色的,我根本不考虑种族。不过,在我这样做之前,我意识到我没有考虑数据集中的“最终权重”,它显示了人口普查认为该条目代表的人数。

所以,我有几个问题:

在进行观察时我应该使用这些权重吗?我是否正确解释了这一点?还是我应该忽略它们?

如果我要使用这些权重,我将如何使用这些权重?我希望能够根据给出的其中一些因素来预测某人是否已婚,但我无法弄清楚我应该如何纳入这些权重。

另外,将所有最终权重除以 100 或类似的东西会很愚蠢吗?所有这些权重都有数十万,我在想如果我们将权重除以某个常数,那么我们可以将那个行数(基于其权重的每一行)添加到我们的数据集中。

一般来说,我是 ML 的新手,所以如果这是一个新手问题,请原谅我。

1个回答

首先,如果一个变量是不平衡的(在你的情况下是种族),你不应该担心。作为一个分类变量,它将被转换为两个或多个虚拟变量。

其次,如果权重代表每个条目的人数,如下例所示,您应该包括权重。

假设数据

Race       Education    Marital    weight
------------------------------------------
White       tertiary    Married      10   
White       tertiary    Single        6
Black       tertiary    Married       8
White       secondary   Single        4
...
...

对于此示例,我将按每个条目的权重对其进行过采样。因为您的真实数据库是:

          X               y
---------------------  --------
Race        Education   Marital
-----------------------------------
White       tertiary    Married   
White       tertiary    Married
White       tertiary    Married   10 records
...
White       tertiary    Married

White       tertiary    Single 
White       tertiary    Single     6 records
...
White       tertiary    Single
Black       tertiary    Married
Black       tertiary    Married    8 records
...
Black       tertiary    Married
White       secondary   Single
White       secondary   Single
White       secondary   Single
White       secondary   Single

但是,我应该看到您的数据集的一些记录以更好地帮助您。