为什么词和图像的联合嵌入有效?

数据挖掘 机器学习 深度学习 计算机视觉 nlp
2022-02-18 02:16:25

我经常看到一些论文,其中作者对单词和图像嵌入进行逐点乘法(例如下图)。

为什么这个实现有效?我不明白。

在此处输入图像描述

1个回答

该模型比单词和图像嵌入的逐点乘法更复杂。它是一个单一的神经网络模型,因此反向传播可以提高整个模型的权重。训练信号将调整所有层以在任务中做得更好,在这种情况下,任务似乎是问答。

该图仅显示前向传球。