Towards Efficient and Effective Long Sequence Generation

Towards Efficient and Effective Long Sequence Generation
发布时间：2024-02-23

报告题目: Towards Efficient and Effective Long Sequence Generation

报告人：贺笛

时间：2月23日（周五） 11：00-12：30

地点：王选所106会议室

摘要：如何对长序列进行建模是当前自然语言处理中的一个热点问题。长序列建模面临诸多挑战，例如如何正确生成超长序列？如何加速语言模型对长序列的生成？在这个领域，过去已经有许多研究工作提出Transformer的高效变体，但这些变体模型是否存在理论缺陷？到底哪些变体模型能真正完美地取代Transformer？在这个talk中，我将围绕着团队最近的一系列工作，试图对上述问题进行理论层面、模型层面与算法层面的回答。

报告人简介：贺笛，北京大学智能学院助理教授，前微软亚洲研究院主管研究员。主要从事机器学习模型、算法与理论方向的研究工作，已发表ICML、NeurIPS、ICLR等重要期刊/会议论文50余篇，谷歌引用数超过7500，指导学生2次在图神经网络国际顶级评测竞赛上取得冠军。所设计的模型、算法多次被DeepMind、OpenAI、微软、Meta等国际顶尖研究机构使用。获得机器学习顶级国际会议ICLR 2023杰出论文奖。

Towards Efficient and Effective Long Sequence Generation 发布时间：2024-02-23

Towards Efficient and Effective Long Sequence Generation
发布时间：2024-02-23