深度|2017CV技术报告之图像分割、超分辨率和动作识别(8)
2024-07-04 来源:飞速影视
Anticipating Visual Representations from Unlabeled Video[89] 虽然严格上来说这不是一篇关于行为分类的论文,但是它还是非常吸引人。作者提出的模型可以通过分析一个视频内某个动作发生前(最长可达 1 秒前)的画面来预测何种动作将有可能会发生。他们选择了视觉表征而非逐像素分类的方法,也就是说,程序可以在没有标注数据存在的情况下工作,这里利用了深度神经网络可以进行强大的特征学习的这一优点 [90]。
「我们方法的关键思想在于,我们可以训练深度网络,让它来预测未来可能在图像中出现的视觉表征。视觉表征是一个可靠的预测目标,因为它们站在比像素层面高的语义层面来编码图像。然后,我们在预测得到的表征上应用识别算法,从而得出对目标和动作的估计。」
Thumos Action Recognition Challenge[91] 的组织者发表了一篇论文,总结了近年来对行为进行识别的一般方法。文章还提供了从 2013 年到 2015 年挑战赛的纲要,以及关于如何让计算机进行行为识别的一个整体理解。遗憾的是(似乎)去年没有举办该比赛,我们希望 Thumos 行为识别挑战有望在今年(2017)回归。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号