我正在尝试使用本文在视频中找到“关键帧”,但是我对机器学习有点陌生,而且我被困在距离矢量步骤上。目标是计算连续帧之间的距离向量,以检测表示关键帧的大上下文变化。这是我所做的:
使用 Googlenet 预训练模型,我提取了一个 (1024,7,7) 特征图,因此视频中每隔一帧就有一个 7x7 矩阵的向量。
现在我想计算两个连续帧之间的欧几里得距离,但我不确定那会是怎样的。
我的直觉是距离向量也将是(1024,7,7)。
最后一步是在距离向量上应用“最后一个距离值的 4 窗口与向量 [0.1, 0.1, 0.1, 0.99] 的卷积”?这一步我也看不懂。
任何帮助或指导将不胜感激!