如何获得特征图之间的欧几里得距离

数据挖掘 机器学习 喀拉斯 张量流 美国有线电视新闻网
2022-02-23 12:26:08

我正在尝试使用本文在视频中找到“关键帧”,但是我对机器学习有点陌生,而且我被困在距离矢量步骤上。目标是计算连续帧之间的距离向量,以检测表示关键帧的大上下文变化。这是我所做的:

使用 Googlenet 预训练模型,我提取了一个 (1024,7,7) 特征图,因此视频中每隔一帧就有一个 7x7 矩阵的向量。
现在我想计算两个连续帧之间的欧几里得距离,但我不确定那会是怎样的。

我的直觉是距离向量也将是(1024,7,7)。
最后一步是在距离向量上应用“最后一个距离值的 4 窗口与向量 [0.1, 0.1, 0.1, 0.99] 的卷积”?这一步我也看不懂。

任何帮助或指导将不胜感激!

1个回答

两个图像之间的欧几里得pq可以计算如下:

d(p,q)=(q1p1)2+(q2p2)2+...+(q49p49)2

这是两个图像的 49 (7x7) 个特征之间的距离。

然后,这应该为您提供一个形状向量,(1024, 1)其中每个值是前一张图像的特征图的欧几里德距离,第一个是全部NA,因为它是第一张图像。然后使用带有向量/内核的 4 窗口应用卷积[0.1, 0.1, 0.1, 0.99],它基本上将向量的 4 个值乘以(1024, 1)内核值并将它们相加。即,给定此乘法结果(1024, 1)向量的前 4 个值将是:[0.3, 0.5, 0.2, 0.4]

0.30.1+0.50.1+0.20.1+0.990.4=0.03+0.05+0.02+3.96=4.06