我已经尝试了许多用于姿势估计的不同机器学习模型。它们中的大多数为图像中检测到的人输出热图和偏移量。我真的很喜欢这里的多姿态估计模型的性能/准确性。
我接下来想做的是创建一个类似于这个的模型,除了它应该标记检测到的人的每个姿势。有多种不同的实现caffe/pytorch/tensorflow可供选择。我已经考虑过如何解决这个问题,并且我想到了几种不同的方法:
- 创建一个全新的机器学习模型,并使用姿态估计模型的标记输出对其进行训练。
- 更改或向机器学习模型添加层以更改输出。(不知道这是怎么做到的)
- 抛弃姿势估计模型并训练一个新模型来直接使用裁剪人的原始图像/标签进行估计。这将依赖于另一种方法来检测每个人。
我想在这里走阻力最小的道路,但我也关心收集/处理数据所需的时间,最重要的是模型的准确性/性能。是否有经验丰富的机器学习/数据科学家回答以下问题?
- 我应该采取哪种方法?优点缺点
- 哪个机器学习库提供了执行此操作的功能。
- 我的假设是选项 1 或 2 会比选项 3 更准确。我正确吗?