王选所机器智能实验室参加ICML 2024

2024年7月21日至7月27日,国际机器学习会议(International Conference on Machine Learning, ICML)于奥地利维也纳召开。王选所机器智能实验室的博士研究生金阳和硕士研究生谭镇涛参加了此次会议。

ICML是机器学习领域的国际顶级会议。本次会议吸引了来自学术界、工业界研究者们参加。会议包括受邀演讲、口头报告、poster展示、workshop等环节。本次大会共提交了9653篇论文,录取了其中2609篇,录取率为27%。王选所机器智能实验室师生在本次ICML会议中总共发表两篇论文,其中一篇被接收为Oral Presentation。

王选所机器智能实验室研究生在ICML 2024发表的论文信息如下:

Yang Jin, Zhicheng Sun, Kun Xu, Kun Xu, Liwei Chen, Hao Jiang, Quzhe Huang, Chengru Song, Yuliang Liu, Di Zhang, Yang Song, Kun Gai, Yadong Mu, "Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization", ICML 2024, Oral Presentation

大语言模型(LLMs)的重大突破引发了研究者们开发多模态大语言模型的热潮,已经出现了像GPT-4V,Gemini这样的多模态智能体。尽管取得了一定的成功,但这些多模态LLMs主要集中在图像数据上,对于视频模态的探索较少。现有的方法无法有效地编码视频中的动态时空信息,而该论文发现同一视频场景中的不同帧之间存在较多的时间冗余信息,并因此提出了一种基于视觉运动解耦的方式来在LLM中更加高效的编码视频。通过将视频中的视觉和运动信号也表示成像外语一样的离散化token,本文提出的模型Video-LaVIT不仅能够理解视频语义,也能生成多样的视频内容。总的来说,Video-LaVIT是一个通用的多模态模型,可以解决图像、视频、文本等多种模态的理解与生成任务。

Zhentao Tan, Yadong Mu, “Learning Solution-Aware Transformers for Efficiently Solving Quadratic Assignment Problem”, ICML 2024

近年来,机器学习被广泛应用于优化问题的研究,然而二次分配问题,这一组合优化中的难题,却很少被人研究。二次分配问题已被证明是强NP难问题,难以找到完全多项式时间近似算法。为解决当前研究在规模和求解效率上的局限性,本文提出了一种新型的QAP解决方案,采用“Solution AWare Transformer(SAWT)”架构,通过分别编码设施和位置节点,提升了模型的扩展性和求解质量和效率。实验结果验证了该方法在处理更大规模QAP问题上的有效性。

CLOSE

上一篇 下一篇