面向统一的AI神经网络架构和预训练方法

报告时间：2022年9月19日 15:00—17:00

报告地点：北京大学计算机所大楼106报告厅

报告人：胡瀚首席研究员微软亚洲研究院

报告题目：面向统一的AI神经网络架构和预训练方法

报告摘要：人的大脑皮层拥有统一的结构来实现各种各样的智能，包括视觉，语音，语言等的理解和生成，人脑神经系统的预训练也很大程度上依赖统一的预测学习机制，这种统一的生物机制使人无需经过费时的生物进化就能快速有效地适应新的环境以及学会新的技能。在人工智能中，针对各个具体领域的神经网络架构和预训练方法也正在经历走向统一的进程。其中，Transformer正在成为针对不同AI问题的通用神经网络架构，包括自然语言处理、计算机视觉、语音识别、科学计算等，掩码信号建模或者基于预测学习的预训练方法正在证明在各种智能任务中普遍有效。本次报告将从计算机视觉的视角出发讲述神经网络架构和预训练方法走向统一的趋势，以及相关代表性工作。报告还将具体介绍团队最近的几项研究成果，包括SwinTransformer V2，SimMIM，Feature Distillation等。

主讲人介绍：胡瀚，微软亚洲研究院（MSRA）视觉计算组研究员，本科和博士毕业于清华大学自动化系，荣获中国人工智能学会优秀博士论文奖。目前主要研究兴趣包括视觉基础模型架构、视觉自监督表征学习和视觉—语言联合学习等，是Swin Transformer系列、关系网络系列，可变形卷积系列的作者，其中Swin Transformer获得ICCV 2021马尔奖（最佳论文），并被学界和业界广泛使用。