计算机所师生参加IEEE ICME 2017

2017年7月9日至15日，计算机所郭宗明老师、彭宇新老师、刘家瑛老师，研究生黄鑫、廖媛、徐鹏和许智敏赴香港参加了2017年国际多媒体及博览会议（International Conference on Multimedia & Expo, ICME 2017）。该会议是由IEEE协会于2000年发起组织的一年一度多媒体领域旗舰会议，主要关注多媒体、智能分析与信号处理等领域最新的研究、应用和产品发布，具有很强的影响力。

图 1 计算机所师生在会场，左起依次为黄鑫、刘家瑛、彭宇新、郭宗明、徐鹏、廖媛、许智敏

本次会议包含Keynote、Tutorial、口头报告、海报展示等多个环节，内容主要是多媒体信息处理，涉及视频编码、视频图像内容理解、网络传输等多媒体领域的各个方面。

计算机所师生在本次会议发表4篇论文，分别针对直播视频缓冲区控制、物体轮廓检测、视频分类与多任务学习进行了研究，其中前三篇进行了口头报告，第四篇论文进行了海报展示。论文的具体信息如下：

1. Yuan Liao, Songping Fu, Xiaoqing Lu, “Deep-learning-based Object-level Contour Detection with CCG and CRF Opimization”

该论文对常用方法检测出的初始边缘的内部关系进行分析，构造轮廓相关关系图并用CRF进行轮廓选择，以抽取更接近于物体轮廓的边缘。方法在多个数据集上进行，均证明了此CRF优化方法的有效性。

2. Jiexi Wang, Wenyu Lei, Peng Xu, Jun Sun, Zongming Guo, “Adaptive Media Playout Buffer Management for Latency Optimization for Mobile Live Streaming”（MMC Best Papre Award）

该论文针对直播视频的缓冲区控制问题进行了深入的分析，对缓冲区大小的变化进行了概率建模，进而估计缓冲区的大小，自适应设置视频播放器的缓冲区，实验表明论文提出的自适应缓冲区控制算法能够有效的减少播放中断，提升播放的流畅度。该论文还获得了IEEE Workshop on MMC最佳论文。

图 2 IEEE Workshop on MMC最佳论文

3. Yunzhen Zhao, Yuxin Peng,“Saliency-guided Video Classification Via Adaptively Weighted Learning”

该论文考虑到现有基于深度学习的跨模态检索方法仅仅建模了带标注数据的成对关联和重构误差，忽视了对跨模态语义相似性约束的有效建模，同时也未利用无标注数据的补充信息。针对上述问题，提出了一种基于多任务规约的跨模态深度度量学习方法，在统一的多任务学习框架内同时建模两种损失项。本方法不但能够挖掘跨模态语义相似性信息，又能利用无标注数据使得训练信息更加丰富，从而提高了跨模态检索的准确率。该方法的有效性在跨模态数据集Wikipedia、NUS-WIDE-10k上得到了验证。

4. Xin Huang, Yuxin Peng,“Cross-modal Deep Metric Learning with Multi-task Regularization”

该论文针对现有基于深度学习的视频分类方法忽略视频不同显著等级区域的划分，而采用同一种模型建模这些区域，导致模型表达能力不足的问题，提出一种基于自适应权重学习的显著性指导视频分类的方法。该方法首先利用视频光流信息无监督的将视频划分为显著区域及非显著区域，并使用三种不同的网络建模这两种区域的内容。之后，考虑不同语义概念的类内和类间关系，针对不同语义类别自适应学习不同的融合权重。本方法不仅更有效的对视频内容进行建模，也通过考虑视频的类内类间关系，取得了更好的融合效果。该方法的有效性在视频分类数据集UCF-101和CCV上得到了验证。

刘家瑛老师参加了IEEE CAS MSA专委会会议，并组织和主持了基于三维骨节信息的人体动作识别与检测Workshop—— 3D Human Activity Challenge。（关于该Workshop的具体信息详见：http://www.icst.pku.edu.cn/struct/icmew2017/index.html）

许志敏同学参加了DASH-IF Grand Challenge比赛，并获得了第二名的好成绩。

图 3 DSASH-IF 第二名

基于深度学习的技术成为了本次大会关注的重点，会议邀请了新加坡国立大学的Tat-Seng CHUA教授进行了题目为From Image to Video: the connection between Vision and language的主题报告，同时大量深度学习相关的论文进行了口头报告和海报展示。