当前位置：首页 > 资讯 >

深度|2017CV技术报告之图像分割、超分辨率和动作识别(7)

2024-07-04 来源:飞速影视

「进一步来说，我们的架构可以处理任何分辨率的图像，这与大多数基于卷积神经网络的现有技术不同。」
在一次测试模型生成图像自然程度的实验中，研究人员向被试者随机提供一张模型生成的图像，并提问：「这幅图在你看来自然吗？」
实验结果证明，Lizuka 等人的方法得到了 92.6% 的认可度，基线水准达到了 70%。要知道以当时的技术来看，彩色照片大约在 97.7% 的程度上看起来是自然的。
行为识别
行为识别任务有两个含义，一个是在给定视频内对一种动作进行分类；最近更多指的是指：算法仅需要观察一部分场景，就可以在实际动作还没出现之前便预测出相关的结果。按照这种视角，我们发现，最近的研究试图将语境因素嵌入算法的决策过程。这一点与计算机视觉的其他领域类似。以下是该领域的部分重要论文：
Long-term Temporal Convolutions for Action Recognition[87] 借助卷积神经网络的一个变体和人类动作的时空结构，例如特殊的运动或是持续的动作，来正确识别动作。为了克服对长时间动作的局部最优时序建模（sub-optimal temporal modelling）问题，作者提出了一个长期时序卷积神经网络（LTC-CNN），以此来改善行为识别的精确性。简单地来说，LTC 可以通过观察视频中尺寸较大的部分画面来识别动作。他们使用并扩展了 3D 卷积神经网络，使得动作可以在一个更充足的时间范围内进行表示。
「我们在两个具有挑战性的人类行为识别基准上分别实现了 UCF101 (92.7%)、HMDB51 (67.2%)，达到目前最先进的水平。」
Spatiotemporal Residual Networks for Video Action Recognition[88] 将两种卷积神经网络的变体应用到了行为识别中，该系统结合了传统卷积神经网络与新近热门的残差网络（ResNets）。这两种方法的灵感来自神经科学关于视觉皮层的功能假设。比如，在视觉中识别形状/颜色与行动是互相分离的。论文的作者通过在两个卷积网络中加入残差连接，让模型有了残差网络的优势。
「这两个网络首先分别会自己执行视频识别任务与最后的分类任务，然后系统会引入 softmax 分值对二者进行融合。迄今为止，这是应用机器学习进行行为识别最有效的方法，尤其当训练数据有限的情况下更是如此。在我们的工作中，我们将图像卷积网络直接转换成了 3D 架构，结果显示系统在两种人类行为识别基准 UCF101 和 HMDB51 上性能大幅提高，分别达到了 94% 和 70.6%」。Feichtenhofer 等人改进了传统 IDT 方法，结合以上两种技术得到了更好的结果。

1 ...4 5 6 7 8 查看全文

深度|2017CV技术报告之图像分割、超分辨率和动作识别(7)

初识与告别之间

雌雄莫辨

敌友难辨第一季

世界奇妙物语 2017年深夜特别篇

大耳朵图图之霸王龙在行动

超超超超超喜欢你的100个女朋友

分手进度百分之99动态漫画

职场是个技术活