我正在使用的人口普查数据集:https ://archive.ics.uci.edu/ml/datasets/Adult
因此,我目前正在使用此人口普查数据进行观察并预测某人是否已婚。然而,当我为种族绘制分类图时,它绝大多数是白色的,我根本不考虑种族。不过,在我这样做之前,我意识到我没有考虑数据集中的“最终权重”,它显示了人口普查认为该条目代表的人数。
所以,我有几个问题:
在进行观察时我应该使用这些权重吗?我是否正确解释了这一点?还是我应该忽略它们?
如果我要使用这些权重,我将如何使用这些权重?我希望能够根据给出的其中一些因素来预测某人是否已婚,但我无法弄清楚我应该如何纳入这些权重。
另外,将所有最终权重除以 100 或类似的东西会很愚蠢吗?所有这些权重都有数十万,我在想如果我们将权重除以某个常数,那么我们可以将那个行数(基于其权重的每一行)添加到我们的数据集中。
一般来说,我是 ML 的新手,所以如果这是一个新手问题,请原谅我。