我有一些(一个人的)面部图像,我通过嵌入生成器运行这些图像以获得 128 维嵌入。
我有 1000 个这样的嵌入(数据集的形状 (1000, 128))。我对可用于训练模型的嵌入数量有限制(100 个嵌入)。我想从所有 1000 个嵌入中挑选 100 个嵌入,这将代表所有 1000 个嵌入。
我的问题是,我怎样才能选择代表全部 1000 个嵌入的最佳 100 个嵌入。
有些事情我已经尝试过了。
- 选择集群中最远的 100 个点。(所有图像都是边缘情况,如图像模糊、姿势不当等)
- 随机抽样(工作正常,但有时会选择从有问题的人脸计算的嵌入,比如模糊等)
还有一件事,我想过但没有测试。以概率抽样。概率 = 1/(euclidean_distance of point from cluster centroid)。
我想知道是否有任何替代方案,我可以研究哪些可以提供更好的结果。