北京大学王选计算机研究所VDIG实验室成员参加CVPR 2024

2024年6月17日至21日,计算机视觉与模式识别会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition)CVPR 2024,在美国西雅图举行。CVPR是IEEE和CVF在计算机视觉领域的顶级会议之一,与ICCV和ECCV并列为计算机视觉领域三大国际顶级学术会议,被计算机学会(CCF)评为推荐A类会议,具备极高的学术价值和影响力。今年CVPR论文提交数量来到破纪录的11532篇,录用2719篇,录取率23.6%。

北京大学王选计算机研究所VDIG实验室发表的《DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes》被本届CVPR 2024录用,团队成员出席CVPR线下参会。

CVPR 2024 主会场

周啸宇做海报讲解

针对复杂动态场景的表征和建模是3D场景感知与理解的基础,对一系列下游的自动驾驶任务至关重要。同时,对驾驶场景进行重建和可控仿真还能够合成驾驶过程中可能遇到的极端情况(例如corner case),有助于以较低成本验证和增强自动驾驶系统的安全性。另一方面,从稀疏的传感器数据中重建环视动态自动驾驶场景仍然是一个极具挑战性的问题,由于这类场景通常具有大规模的复杂背景和高速移动的动态前景物体,面临多样的光线变化和拓扑结构。因此,研究者们需要一种更加通用且高效的环视动态场景表征与建模方法。

为了解决这个问题,我们提出了DrivingGaussian,一个高效、高质量的动态环视驾驶场景三维重建与仿真框架。对于具有复杂背景和动态物体的室外驾驶场景,DrivingGaussian首先使用增量式3D高斯逐步建模整个场景的复杂静态背景。针对场景中运动的前景物体,DrivingGaussian构建了组合动态高斯图用以表征每个动态前景物体并恢复它们在场景中的准确位置和遮挡关系。DrivingGaussian还首次将LiDAR先验引入3D高斯表征,使用LiDAR点云先验作为初始化以更好地建模大规模环视动态场景的几何结构。DrivingGaussian在环视动态驾驶场景重建任务的表现优于现有方法,能够实现高保真度和多相机一致性的逼真场景重建和环视视图合成。同时在单目驾驶场景的重建任务上DrivingGaussian也表现出了优异的性能,并且能够支持自动驾驶场景的Corner Case仿真生成。

01  增量式3D高斯背景重建

DrivingGaussian首先将动态驾驶场景中的静态背景和动态前景物体解耦,并通过增量式3D高斯建模驾驶场景的大规模静态背景。具体而言,增量式静态3D高斯利用自车运动引入的空间透视变化和相邻帧之间的时序关系将大规模场景划分为多个区域,渐进式地重建多个区域的静态背景并依次融合。增量式3D高斯背景重建能够很好地重建出复杂背景的细节信息,并能够以较低的计算代价重建整个大规模场景。

02 组合动态高斯图前景建模

由于自动驾驶场景往往具有大量的动态物体和复杂的遮挡关系,并且由于自车位移和动态对象的运动导致通常只能从有限的视角观测到实例物体。为了克服这些挑战,DrivingGaussian引入了组合动态高斯图,能够在大规模、长时序的自动驾驶场景中动态地表征建模运动实例。具体地,DrivingGaussian首先从静态背景中分离场景中每一个运动的实例物体。接着,我们构建动态高斯图,用多个独立的4D高斯表征动态物体,并用每个节点记录其在整个场景中的空间时序属性。最终,我们通过组合动态高斯图将全部动态实例物体组合进大规模静态背景,利用全局渲染得到高质量、高精度的合成渲染视图。

03 LiDAR点云先验

自动驾驶的无边界城市场景通常包含多尺度的背景和前景,具有复杂的拓扑结构和几何形状。为了更好地建模环视动态驾驶场景的几何结构,我们首次为3D高斯表征引入了LiDAR点云先验。考虑到动态前景可能会由于拖尾、混叠等现象导致LiDAR先验的误差。因此,我们首先从LiDAR点云中移除动态对象,获取静态LiDAR点云。然后,我们使用多帧聚合将场景的LiDAR点云作为先验来初始化当前可见区域的增量式3D高斯。LiDAR先验的空间坐标进一步通过校准矩阵转换为全局坐标系。相类似地,我们使用时序聚合的LiDAR点云先验进行动态物体的高斯初始化并在之后统一到全局坐标系中。

  • 学术交流

本届CVPR为期五天,共有123个workshop与24场tutorial以及为期三天的正会。会议吸引了全世界学术界、工业界超12000名学者线下参会,是历年来参会人数最多的一次。

周啸宇同学受邀出席了NVIDIA组织的AV Simulation研讨会并作口头报告。在报告中,详细介绍了本次发表的论文DrivingGaussian的相关技术细节和对本领域的帮助。

周啸宇做口头报告

还有科技巨头及新兴的初创企业,对计算机视觉、人工智能和机器学习领域的卓越的研究成果和创新应用进行了展示。

波士顿动力画画机器人

GO2机器狗

通过参加CVPR 2024,同学们了解了当前计算机视觉领域的最新进展、与工业界的交流了解实际应用中的需求和挑战,为实验室成员提供了宝贵的灵感和思路,有助于同学们在未来的研究中探索新的方向。

CLOSE

上一篇 下一篇