视频理解基础大模型

题目：视频理解基础大模型

报告人：王利民

时间：1月22日（周一）上午10：00-11：30

地点：王选所106会议室

摘要：构建视觉基础模型（Foundation Model）已经成为目前计算机视觉任务的重要性能增长点。视频理解领域面临着数据维度高、信息容量大、场景变化多等核心挑战，如何构建通用视频基础模型已经成为现阶段一项极具挑战的任务。在本次报告中间，将详细介绍南京大学媒体计算课题组和上海人工智能实验室通用视频团队在视频基础模型及其下游任务适配方面的系列工作。首先介绍构建视频基础模型的关键技术：轻量级网络架构（TAM, TDN），模型预训练方法（VideoMAE v1 & v2 和 Unmasked Teacher）；其次介绍视频基础大模型InternVideo和视频多模态对话模型VideoChat；然后介绍基于视频基础模型的动作检测框架（STMixer & ViTTAD）；最后，将展望视频基础模型的未来发展趋势。

个人简介：王利民，南京大学教授，博士生导师，国家海外高层次青年人才计划入选者，科技创新2030-“新一代人工智能”重大项目青年科学家。2011年在南京大学获得学士学位，2015年在香港中文获得博士学位，2015年至2018年在苏黎世联邦理工学院（ETH Zurich）从事博士后研究工作。主要研究领域为计算机视觉和深度学习，专注视频理解和动作识别，在IJCV、T-PAMI、CVPR、ICCV、NeurIPS等重要学术期刊和会议发表论文70余篇。根据Google Scholar统计，论文被引用 18000余次，两篇一作论文取得了单篇引用超过3000的学术影响力。在视频分析领域提出了系列有重要影响力的基础模型和基准方法，例如：TSN网络结构，VideoMAE预训练方法，MixFormer跟踪器等等。曾获得广东省技术发明一等奖，世界人工智能大会青年优秀论文奖。入选2022-2023年度AI 2000人工智能全球最具影响力学者榜单（计算机视觉方向），2022年度全球华人AI青年学者榜单，2021-2022年度爱思唯尔中国高被引学者榜单。担任CVPR/ICCV/NeurIPS等重要国际会议的领域主席和计算机视觉领域旗舰期刊IJCV的编委。