自动驾驶行业专题报告:领航辅助,自动驾驶“奇点”时刻到来?(12)

2023-05-01 来源:飞速影视
Transformer 的注意力(Attention)机制可帮助实现 2D 图像数据至 3D BEV 空 间的转化。Transformer 是 Google Brian 团队在 2017 年提出的神经网络模型, 起初用于机器翻译,随着技术的发展开始进军图像视觉领域,目前已成功涉足分 类、检测和分割三大图像问题。据汽车之心微信公众号介绍,传统 CNN 模型的 原理是通过卷积层构造广义过滤器,从而对图像中的元素进行不断地筛选压缩, 因此其感受域一定程度上取决于过滤器的大小和卷积层的数量。随着训练数据量 的增长,CNN 模型的收益会呈现过饱和趋势。而 Transformer 的网络结构在嫁接 2D 图像和 3D 空间时借鉴了人脑的注意力(Attention)机制,在处理大量信息时 能够只选择处理关键信息,以提升神经网络的效率,因此 Transformer 的饱和区 间很大,更适宜于大规模数据训练的需求。
在自动驾驶领域,Transformer 相比 于传统 CNN,具备更强的序列建模能力和全局信息感知能力,目前已广泛用于视 觉 2D 图像数据至 3D 空间的转化。

自动驾驶行业专题报告:领航辅助,自动驾驶“奇点”时刻到来?


除感知层外,大模型还有望显著提升后端训练中数据清洗标注的效率,并助力生成新 场景以赋能仿真训练。训练模型在收集到传感器传送回的图像数据后,需先对数据进行清 洗,再对其中的车辆、行人、道路标识、车道线等元素进行标注。相较于此前的人工标注, 大模型可以大幅提升工作效率。理想汽车创始人李想在中国电动汽车百人会论坛(2023) 的演讲中表示,此前理想一年要做大概 1000 万帧自动驾驶图像的人工标定,年成本接近 1 亿元,但使用软件 2.0 大模型进行自动化标定后,效率是人的 1000 倍。毫末智行也 2023 年 4 月第八届 AI DAY 上表示,其最新推出的 DriveGPT 可将交通场景图像的标注费用从 行业平均约 5 元/张降至约 0.5 元/张。Meta 最新的图像分割模型 SAM(Segment Anything Model)在对图像和视频中的物体进行识别分割时展现出了强大的能力,且具有零样本性 能,即能够对从未训练过的图片进行精准分割,未来也有望赋能自动驾驶训练所需的图像 数据积累。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号