数据挖掘 - 如何正确使用我们数据集中的权重？我们应该使用它们吗？ - 吾爱随笔录

如何正确使用我们数据集中的权重？我们应该使用它们吗？

数据挖掘机器学习 Python 数据科学模型

2022-03-01 15:49:55

我正在使用的人口普查数据集：https ://archive.ics.uci.edu/ml/datasets/Adult

因此，我目前正在使用此人口普查数据进行观察并预测某人是否已婚。然而，当我为种族绘制分类图时，它绝大多数是白色的，我根本不考虑种族。不过，在我这样做之前，我意识到我没有考虑数据集中的“最终权重”，它显示了人口普查认为该条目代表的人数。

所以，我有几个问题：

在进行观察时我应该使用这些权重吗？我是否正确解释了这一点？还是我应该忽略它们？

如果我要使用这些权重，我将如何使用这些权重？我希望能够根据给出的其中一些因素来预测某人是否已婚，但我无法弄清楚我应该如何纳入这些权重。

另外，将所有最终权重除以 100 或类似的东西会很愚蠢吗？所有这些权重都有数十万，我在想如果我们将权重除以某个常数，那么我们可以将那个行数（基于其权重的每一行）添加到我们的数据集中。

一般来说，我是 ML 的新手，所以如果这是一个新手问题，请原谅我。

1个回答

首先，如果一个变量是不平衡的（在你的情况下是种族），你不应该担心。作为一个分类变量，它将被转换为两个或多个虚拟变量。

其次，如果权重代表每个条目的人数，如下例所示，您应该包括权重。

假设数据

Race       Education    Marital    weight
------------------------------------------
White       tertiary    Married      10   
White       tertiary    Single        6
Black       tertiary    Married       8
White       secondary   Single        4
...
...

对于此示例，我将按每个条目的权重对其进行过采样。因为您的真实数据库是：

          X               y
---------------------  --------
Race        Education   Marital
-----------------------------------
White       tertiary    Married   
White       tertiary    Married
White       tertiary    Married   10 records
...
White       tertiary    Married

White       tertiary    Single 
White       tertiary    Single     6 records
...
White       tertiary    Single
Black       tertiary    Married
Black       tertiary    Married    8 records
...
Black       tertiary    Married
White       secondary   Single
White       secondary   Single
White       secondary   Single
White       secondary   Single

但是，我应该看到您的数据集的一些记录以更好地帮助您。

其它你可能感兴趣的问题

上一篇如何在多列中使用 ADWIN 下一篇在 python 中为每次迭代创建新变量