加拿大温哥华当地时间6月21日,人工智能领域最有学术影响力的顶级会议之一——国际计算机视觉与模式识别会议(CVPR) 2023正式公布了最佳论文等奖项。上海人工智能实验室(上海AI实验室)、武汉大学及商汤科技联合提出的自动驾驶通用模型相关论文从9155篇作品中脱颖而出,获得本届CVPR最佳论文奖。
据悉,这是近十年来计算机视觉三大顶级会议中(CVPR、ICCV、ECCV)第一篇以中国学术机构作为第一单位的最佳论文。入围本届CVPR最佳论文候选名单的作品来自包括谷歌、上海AI实验室、斯坦福大学、康奈尔大学等在内的世界顶尖企业及机构。
最终,上海AI实验室联合团队的研究成果《Planning-oriented Autonomous Driving》(以路径规划为导向的自动驾驶)摘取CVPR 2023最佳论文奖。该论文首次提出感知决策一体化的自动驾驶通用大模型UniAD,开创了以全局任务为目标的自动驾驶大模型架构先河, 为自动驾驶技术的发展创新提出了新的方向。
自动驾驶研究突破“当下最优模型”
CVPR在学术界及工业界都极具影响力。根据谷歌学术指标(Google Scholar Metrics)2022年列出的全球最有影响力的六大科学期刊/会议中,CVPR位列第四,仅次于《自然》(Nature)、《新英格兰医学杂志》(NEJM)、《科学》(Science)期刊,排在《柳叶刀》(The Lancet)和《先进材料》(Advanced Materials)之前。
本届CVPR论文投稿总量达9155篇,最终共有2369篇论文被接收。最佳论文候选为12篇,接收率仅为0.13%。提交机构不乏谷歌、Stability AI等人工智能领域顶尖企业,也包括上海人工智能实验室、斯坦福大学、康奈尔大学、香港中文大学、香港科技大学、南洋理工大学等世界一流研究机构及高校。
CVPR 2023最佳论文奖提出的自动驾驶通用算法框架——Unified Autonomous Driving(UniAD)首次将检测、跟踪、建图、轨迹预测,占据栅格预测以及规划整合到一个基于Transformer 的端到端网络框架下,更高效契合了“多任务”和“高性能”的特点,取得自动驾驶技术研究重要突破。
自动驾驶UniAD框架对比(a)模块化(b)多任务模块(c)端到端自动驾驶模块
这种端到端的优化在多项关键技术指标上超越了SOTA(目前最好/最先进的模型)。比如,多目标跟踪准确率超越SOTA 20%,车道线预测准确率提升30%,预测运动位移误差降低38%,规划误差降低28%。
上海AI实验室青年科学家李弘扬介绍,凭借其充分的可解释性、安全性、与多模块的可持续迭代性,UniAD是目前为止最具希望实际部署的端到端模型。该科研成果在产业界的落地应用,将有力地推动自动驾驶技术与产品的规模化发展。
商汤科技联合创始人、首席科学家王晓刚表示,UniAD是业内首个感知决策一体化的端到端自动驾驶解决方案,并且整体系统和性能取得大幅提升,代表了未来自动驾驶技术的发展趋势。
加速推动AIGC时代真实感3D内容生成
本届CVPR上,上海AI元素十分醒目。除了一篇最佳论文外,商汤科技及联合实验室还有一篇论文入选最佳论文候选名单。
面向真实 3D 物体的感知、理解、重建与生成是计算机视觉领域一直倍受关注的问题。由于缺乏大规模的真实扫描三维数据库,最近在三维物体建模方面的进展大多依赖于合成数据集。该候选论文《OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation》提出了OmniObject3D,一个具有大规模高质量真实扫描3D物体的大型词汇3D物体数据集,覆盖近200个类别、约6000个三维物体数据,包括高精表面网格、点云、多视角渲染图像和实景采集的视频,借助专业扫描设备保证了物体数据的精细形状和真实纹理。
OmniObject3D是目前学界最大的真实世界三维扫描模型数据集,为未来三维视觉研究提供了广阔空间。利用该数据集,研究人员精心探讨了点云识别、神经渲染、表面重建、三维生成等多种学术任务的鲁棒性和泛化性,验证其从感知、重建、到生成领域的开放应用前景,有望在AIGC 时代推动真实感3D生成方面发挥至关重要的作用。
另外,上海AI实验室有12篇论文入围“Highlight”名单,覆盖视觉基础模型、通才模型、三维视觉、底层视觉、视频检索、物体检测、姿态估计、自动驾驶等相关领域的研究。商汤科技共计54篇论文被接收。
上海元素在CVPR上星光熠熠。
作者:沈湫莎
图片:受访者提供
责任编辑:任荃
*文汇独家稿件,转载请注明出处。