实录|旷视研究院详解COCO2017人体姿态估计冠军论文(PPT 视频)(3)
2023-05-04 来源:飞速影视
介绍一下提出的网络结构。
首先,宏观地讲解一下网络的概括。
从人看关节点的过程获得启发,然后将这一启发运用到卷积神经网络里,先解决简单部分再解决难的部分。这是一个两阶段网络:全局网络和精炼网络。全局网络,主要是解好一些容易点;精炼网络,主要是定向解决更难的一些点。具体的实施方法用到了在线难关节点挖掘的算法。
这张图上,热力图可以体现出我们的网络设计原理,图上的绿点是关节点对应的ground truth。从图中左边的部分可以看出左眼作为相对容易的关节点,在前阶段的全局网络就可以解的很好。而右边的左臀部,作为相对较难的遮挡点,需要在后面的精炼网络里面才能识别出来。
再介绍一些网络设计和实验上的细节。
Top-down的框架是先检测人,人抠出来之后,再去做姿态估计。 所以有必要对person detection(行人监测器)做一定的分析。首先解释一下非最大值抑制。现在有两种主流的方式:软非最大值抑制(Soft NMS)和硬非最大值抑制(Hard NMS),软非最大值抑制是对所有的候选框去做重新的估分,对比较差的框保留但会抑制分数。硬非最大值抑制就是将IOU超过阈值之后的分数比较差的那些框过滤掉。所以两种方式最终实现的结果是Hard NMS保留的框比较少,而Soft NMS对框的分数做了一个修改,保留了较高的召回率(recall)。
我们在paper中有做过一组实验来比较这两种策略对keypoint准确率有什么影响。这张表就是反映了实验的结果。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号