北大王选所彭宇新团队在细粒度多模态大模型上取得系列进展
发布时间:2026-01-16
发布时间:2026-01-16
多模态大模型在通用任务上表现出色,但缺乏细粒度感知能力,如何做到又广(开域泛化能力)又深(细粒度感知能力),是推动大模型从聊天助手到自动驾驶、具身智能、医疗影像、工业制造等实际应用中急需解决的关键问题。针对上述问题,北京大学王选计算机研究所彭宇新教授团队近期取得了一系列重要进展,包括研发并开源了首个细粒度多模态大模型Finedefics、发表首篇细粒度多模态大模型综述论文等。相关成果发表于IEEE TPAMI、CVPR、ICLR等人工智能领域国际顶级期刊和会议,包括CVPR的口头报告论文(接收率3.3%)和亮点论文(接收率13.5%)。

图1 细粒度多模态大模型Finedefics
针对现有大模型无法准确区分细粒度类别的问题,团队研发并开源了首个细粒度多模态大模型Finedefics,首先通过与大模型的多轮交互构建细粒度子类别的属性知识,然后通过判别-生成统一的指令微调将属性知识分别与细粒度子类别的图像与文本对齐,实现数据-知识协同训练,提高了多模态大模型的细粒度图像分类能力,准确率达到76.84%,相比阿里的通义千问大模型(QwenVL-Chat)提高了9.43%,相比HuggingFace的Idefics2大模型提高了10.89%。本工作发表于人工智能领域国际顶级会议ICLR 2025。

图2 细粒度视觉推理算法DyFo
针对现有大模型无法准确识别图像中微小目标的问题,团队提出了细粒度视觉推理算法DyFo,通过视觉专家模型与多模态大模型的协同,在无需额外训练的前提下,模拟人类视觉搜索行为逐步聚焦图像关键区域,提高了多模态大模型的细粒度视觉识别能力,准确率达到81.15%,相比阿里的通义千问大模型(Qwen2-VL)提高了8.90%。本工作发表于计算机视觉领域国际顶级会议CVPR 2025,入选大会亮点论文(接收率13.5%)。

图3 以人为中心的细粒度人体动作质量评估方法Uni-FineParser
针对运动视频中人体动作难以分析的问题,团队提出了以人为中心的细粒度人体动作质量评估方法Uni-FineParser,通过聚焦前景目标动作区域,提取以人为中心的动作表征,然后通过细粒度对比回归将动作过程分解为连续的动作步骤,量化每个动作步骤的质量,综合各步骤质量差异预测最终动作质量得分,动作得分的斯皮尔曼相关系数达到95.01%。本工作发表于人工智能领域国际顶级期刊IEEE TPAMI(影响因子18.6)。
上一篇:产学研强强联合,王选所与高德共建空间智能创新生态
