王选所机器智能实验室参加AAAI 2025

 

2025227日至33日,人工智能促进协会年会(Association for the Advancement of Artificial Intelligence Conference, AAAI)于美国费城召开。王选所机器智能实验室的博士研究生姜浩和颜鸿宇参加了此次会议。

 

AAAI是人工智能领域的国际顶级会议。本次会议吸引了来自学术界、工业界研究者们参加。会议包括受邀演讲、口头报告、poster展示、workshop等环节。本次大会共提交了12957篇论文,录取了其中3029篇,录取率为23%。王选所机器智能实验室师生在本次AAAI会议中总共发表两篇论文,其中一篇被接收为Oral Presentation。接收的论文信息如下:

1)Hongyu Yan, Yadong Mu, "Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images", AAAI 2025, Oral Presentation

图像引导的组装问题是计算机视觉和机器人领域的一个新兴研究方向。本文提出了一项创新任务:将结构性3D模型的多视角图像,转化为可供机械臂执行的精细化组装指令序列。该任务要求模型在接收目标3D模型的多视角图像后,需解决多个子任务——包括识别构建模型所用的独立组件、估计各组件的几何位姿,以及推导符合物理规律的可行组装顺序。建立多视角图像与3D物体间精确的2D-3D对应关系存在显著技术挑战。本文提出的模型Neural Assembler,不仅可以精确从图像中定位物体的信息,而且能根据拓扑顺序预测组装顺序。我们为此任务建立了基准测试集,实验结果充分证明了神经组装器的优越性。

(2)Granularity-Adaptive Spatial Evidence Tokenization for Video Question Answering.

视频问答在计算机视觉中起着至关重要的作用,大语言模型的最新进展进一步推动了该领域的发展。然而,现有的视频问答技术在学习空间中细粒度视频内容方面往往面临限制。这主要源于视频帧的固定和低分辨率输入。虽然一些使用高分辨率输入的方法可以部分缓解这个问题,但它们通过对整个高分辨率图像进行编码引入了过多的计算负担。在这项工作中,我们提出了一种用于视频问答的粒度自适应空间证据编码模型。通过对11个主流视频问答数据集进行广泛的实验,验证了我们提出的方法的有效性。

 

CLOSE

上一篇 下一篇