数据挖掘 - 深度学习中的建议和缺失数据 - 吾爱随笔录

数据挖掘神经网络深度学习推荐系统正则化

2021-09-15 17:40:32

在这篇研究论文中，讨论了如何将深度学习与广泛（浅）学习相结合，以实现泛化和学习相关/关联规则的能力。

这种网络的输入向量是特征的n维向量 $\mathbf{x} = (x_1, x_2, x_3,\dots, x_n)$ . 在训练时，最大化以下目标函数：

磷 (是 = 1 | X)

$P(Y=1|\mathbf{x})$

在推荐系统（这是本文的主要应用之一）的背景下，如何处理丢失数据（看不见的产品）的问题？

1个回答

这取决于您所说的“看不见的产品”是什么意思。如果你的定义和论文中的一样

[...] new  feature  combinations  that have  never  or  rarely 
occurred  in the  past.

那么您正在考虑诸如协同过滤之类的算法。这些人将人们的口味视为矩阵中的缺失值，并尝试使用低维表示来完成它。现在，这些可能过于通用，具体取决于您选择的维度有多低。

另一种较旧的方法类似于关联规则，可以使用诸如apriori之类的算法来推断，但是这些算法依赖于过去看到的产品组合，因此他们永远无法推荐过去没有见过的产品组合。

虽然前一组算法可以处理上述定义下的“缺失数据”，但后者不能。然而，那些往往会给出更好的建议。您引用的论文使用了神经网络，看起来像是一次成功的尝试，以充分利用这两个世界。

如果悬停您的意思是“丢失数据”全新产品，那么您使用上述任何算法都不走运。如果您没有关于这些产品的元数据，那么几乎不可能推荐任何东西。想象一下，您有一份产品 A、B 和 C 的清单以及谁购买了它们。现在你得到了产品 D。谁会买它？没有关于 D 的任何其他信息，你就死定了。

其它你可能感兴趣的问题