FaceNet 的 YouTube 面孔评估设置如何?

数据挖掘 数据集 计算机视觉 卷积神经网络 图像识别
2021-10-04 02:20:51

YouTube Faces 数据库(YTF) 包含 1,595 个不同人的 3,425 个视频给定两个视频,YTF 的任务是确定它们是否包含同一个人。n比较,分类器可能会得到cn 对。那么准确度就是cn.

FaceNet是一种将人脸图像映射到单位球体上的 CNNR128. 它在 YTF 上进行了评估。他们是如何决定视频中的人物的?

(我可以想象几个程序如何做到这一点,但我在论文中找不到它。一个例子,如何做到这一点,是通过评估所有图像 xi(k)i=1,,length of video k 并对结果进行平均 - 但我想知道他们做了什么/通常是如何完成的。)

1个回答

他们用来训练 CNN 的目标函数最小化了两个相似(正)图像之间的平方 L2 距离(即平方欧几里得距离),同时最大化了两个不同(负)图像之间的距离。这意味着,两个表示之间的(平方)欧几里得距离是它们相似性的度量。然后,识别新图像中的人脸就像 1) 通过 CNN 运行它和 2) 使用 KNN 算法找到它的最近邻居一样简单。

最后一段只是关于图像 - 在 Youtube Faces DB 中,我们正在处理不同人的视频。在论文的第 5.7 节中,他们描述了他们如何评估性能:

我们使用人脸检测器在每个视频中检测到的前一百帧的所有对的平均相似度。

所以,你部分正确:他们只是对视频帧的独立结果进行平均。可能出于性能原因,他们选择平均前 100 帧。他们确实描述了将其增加到前 1000 帧可以将性能从 95.12% 提高到 95.18%,这并没有显着提高。