我正在构建一个模型来根据我们拥有的关系数据来预测客户的生命周期价值。用户表有一堆可能具有预测性的一对多子表。大体简化后,子功能可归结为:
- 他们过去购买的物品类别列表
- 他们点击的广告中的主要颜色列表
- 等等等等
在每种情况下,明显的特征都包含来自分类变量的约 0-10 个选项的列表。我有几个这样的特性,其中一些有多达 10k 的离散值,所以 one-hot 编码会变得非常广泛、非常快。
顺便说一句:如果这种“标签列表功能”有一个艺术术语,我指的是“选择许多分类”,请告诉我。
问题:是否有适用于多选分类特征的密集编码方案?