如何规范化来自多个来源的数据?

数据挖掘 预测建模 数据清理 正常化
2022-02-17 13:07:00

我正在尝试使用不同的数据源(例如:Zalando、Otto 等)对个人的购买行为进行建模。当我结合数据源时,我发现跨这些渠道的数据非常不同。

例如,5% 的人使用特定渠道大量购物,但不使用其他渠道。当我尝试从这些信息中建模任何东西时,它表现不佳,因为总体而言,它是一个稀疏的数据集,但每列的 % 应该是一小部分人口的非常好的预测指标。

我的问题是:如何组合/标准化这样一个数据非常稀疏的数据集?

2个回答

确保在合并数据集时,列信息尽可能通用,这意味着:当您将 A 与 B 合并时,请确保将“在(任何)在线渠道购买”而不是“在 A 的在线渠道购买”命名”和“在 B 的在线渠道购买。

合并来自完全不同数据源的数据集非常困难,因为它们的基本思想不同。

我认为不可能合并它们并规范化数据以重新平衡类。

以下是可能出现的问题的示例。

您有 2 个数据源,一个较小,主要是男性,另一个较大,主要是女性,您希望将它们合并在一起。如果您知道总体分布,您可以随机抽取一些示例。如果您有很多不同的变量和/或不知道它们的分布,这将变得很困难。

您可以尝试查找不同数据源(流量、nb 用户等)的大小,并尝试在最终合并数据集中匹配此分布(较大的站点在合并数据集中具有较大比例的事件,因为它们可能代表较大的部分人口)