金琴副教授团队在MSR VTT国际挑战赛中蝉联冠军

更新时间:2017-07-04 09:12:20 浏览量:

我院金琴副教授团队在多媒体领域顶级会议ACM Multimedia举办的MSR “Video to Language”国际挑战赛上,蝉联冠军,这是该团队继2016年夺冠后再次夺冠。

微软组织的“Video to Language”挑战赛(MSR-VTT)是隶属CCF A类多媒体国际顶级会议ACM Multimedia的Grand Challenge赛事,致力于解决工业界和学术界的交叉前沿问题,于2016年开始已连续举办两届,其任务为“自动地为短视频生成自然语言视频内容描述”,是视频理解的终极目标。该比赛自举办以来,获得了全球诸多队伍的积极参与,包括北美、欧洲、亚洲等著名高校和研究机构(如:卡内基梅隆大学、伯克利大学、蒙特利尔大学、阿尔托大学、新加坡国立大学、复旦大学、天津大学、同济大学等)。

金琴副教授与卡内基梅隆大学 Alexander Hauptmann教授合作的团队在第一届MSR-VTT挑战赛中获得自动评测第一,人工评测第二,在今年举办的第二届MSR-VTT挑战中,进一步在自动评测和人工评测上均取得了第一的佳绩! RUC+CMU_V2T团队成员: 金琴、陈师哲、熊一帆、陈佳、Alex Hauptmann。

金琴副教授团队在MSR-VTT挑战赛中的优异成绩,得益于他们在视频内容描述生成(Video Caption Generation)这一课题上的深入攻关。2016年,金琴副教授团队在这一课题上已发表3篇相关论文,2017年在此基础上更进一步,在ICMR 2017(CCF B类国际会议)发表Oral长文“Generating Video Descriptions with Topic Guidance”,最新论文“Video Captioning with Guidance of Multimodal Latent Topics”被ACM Multimedia 2017(CCF A类国际会议)接收为长文Oral(长文Oral接收率仅为7.5%)。该系列论文的技术创新和团队扎实稳健的科研能力使得金琴副教授团队连续两年获得了MSR-VTT挑战赛的自动评测第一,人工评测第二向第一的突破。

视频内容描述生成课题发表论文情况如下:

[1] Shizhe Chen, Jia Chen, Qin Jin, Alexander Hauptman. Video Captioning with Guidance of Multimodal Latent Topics. ACM Multimedia, 2017.

[2] Shizhe Chen, Jia Chen, Qin Jin. Generating Video Descriptions with Topic Guidance. ACM International Conference on Multimedia Retrieval (ICMR), 2017.

[3] Qin Jin, Jia Chen, Shizhe Chen, Yifan Xiong. Describing Videos using Multi-modal Fusion. ACM Multimedia, 2016.

[4] Qin Jin, Junwei Liang, Xiaozhu Lin. Generating Natural Video Descriptions via Multimodal Processing. Interspeech 2016.

[5] Qin Jin, Junwei Liang. Video Description Generation using Audio and Visual Cues. International Conference on Multimedia Retrieval (ICMR) 2016.