实录|旷视研究院详解COCO2017人体姿态估计冠军论文(PPT 视频)(6)

2023-05-04 来源:飞速影视
我们首先看是只采用全局网络的网络结构,AP是66.6。后面的是在全局网络输出特征上进行直接concat,把不同层的的信息整合起来去预测后面的keypoint的话会有一定的提升,提升单位有两个点左右。
下面的是,在concat之前会加一个bottleneck,增加难度的同时增加了复杂度,该配置下网络有69.2的AP,按照我们前面介绍的网络结构会在更小FLOPs下有0.2个点的提升。

实录|旷视研究院详解COCO2017人体姿态估计冠军论文(PPT 视频)


我们从只采用c2的特征输出开始分析,直到取到c2~c5。从c2开始,c2只提取了一个层的特征,然后从c2到C3, c2到c4, c2到c5。从实验结果来看,取c2到c5的网络结构效果最好。
接下来说一下Pre-processing方面的细节, Pre-processing这块从比赛到之后的一些实验获得了一个结论:图片尺寸越大AP越高。
怎么样设计图片尺寸?如果你把256:256的图片往大放,一般来说就不会涨点。方形的图片再往大放的话,对应的batch_size会缩小,图片很大,每个interation学习的图片就会变少, AP会降低。在这种情况下,我们发现把图片的尺寸设置成256x192类似的比例。既能满足图片的尺寸,又能满足batch_size的要求,而能实现这一要求的原因主要是人的形状一般是长形的而不是方形的,用方形的尺寸会增加计算量而不提高精度。
我们在Pre-processing中大概抠出来人之后做一个padding,padding到与256x192相同比例的尺寸,然后再resize到256x192尺寸。
小技巧

实录|旷视研究院详解COCO2017人体姿态估计冠军论文(PPT 视频)


相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号