我希望训练一个基于视频输入检测狗品种的模型。我有一个包含 10 个类的数据集,每个类有 30 个视频。问题在于,对于这些视频中的每一个,狗在整个视频过程中都没有出现。以下是数据集中 2 个视频的示例:
视频 1:后院视频(前 5 秒)--> 狗出现(15 秒)--> 周围建筑物视频(3 秒)
视频 2:草地视频(前 8 秒)--> 狗出现(3 秒)--> 附近人的视频(4 秒)
我假设如果我按原样在视频上训练我的模型,我的 CNN 会检测到冗余特征并因此给出不正确的输出。因此,我是否需要手动修剪 300 个视频中的每一个以仅显示狗出现的部分,或者是否有更简单的方法来解决这个问题?