深度|2017CV技术报告之图像分割、超分辨率和动作识别(7)
2024-07-04 来源:飞速影视
「进一步来说,我们的架构可以处理任何分辨率的图像,这与大多数基于卷积神经网络的现有技术不同。」
在一次测试模型生成图像自然程度的实验中,研究人员向被试者随机提供一张模型生成的图像,并提问:「这幅图在你看来自然吗?」
实验结果证明,Lizuka 等人的方法得到了 92.6% 的认可度,基线水准达到了 70%。要知道以当时的技术来看,彩色照片大约在 97.7% 的程度上看起来是自然的。
行为识别
行为识别任务有两个含义,一个是在给定视频内对一种动作进行分类;最近更多指的是指:算法仅需要观察一部分场景,就可以在实际动作还没出现之前便预测出相关的结果。按照这种视角,我们发现,最近的研究试图将语境因素嵌入算法的决策过程。这一点与计算机视觉的其他领域类似。以下是该领域的部分重要论文:
Long-term Temporal Convolutions for Action Recognition[87] 借助卷积神经网络的一个变体和人类动作的时空结构,例如特殊的运动或是持续的动作,来正确识别动作。为了克服对长时间动作的局部最优时序建模(sub-optimal temporal modelling)问题,作者提出了一个长期时序卷积神经网络(LTC-CNN),以此来改善行为识别的精确性。简单地来说,LTC 可以通过观察视频中尺寸较大的部分画面来识别动作。他们使用并扩展了 3D 卷积神经网络,使得动作可以在一个更充足的时间范围内进行表示。
「我们在两个具有挑战性的人类行为识别基准上分别实现了 UCF101 (92.7%)、HMDB51 (67.2%),达到目前最先进的水平。」
Spatiotemporal Residual Networks for Video Action Recognition[88] 将两种卷积神经网络的变体应用到了行为识别中,该系统结合了传统卷积神经网络与新近热门的残差网络(ResNets)。这两种方法的灵感来自神经科学关于视觉皮层的功能假设。比如,在视觉中识别形状/颜色与行动是互相分离的。论文的作者通过在两个卷积网络中加入残差连接,让模型有了残差网络的优势。
「这两个网络首先分别会自己执行视频识别任务与最后的分类任务,然后系统会引入 softmax 分值对二者进行融合。迄今为止,这是应用机器学习进行行为识别最有效的方法,尤其当训练数据有限的情况下更是如此。在我们的工作中,我们将图像卷积网络直接转换成了 3D 架构,结果显示系统在两种人类行为识别基准 UCF101 和 HMDB51 上性能大幅提高,分别达到了 94% 和 70.6%」。Feichtenhofer 等人改进了传统 IDT 方法,结合以上两种技术得到了更好的结果。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号