学院新闻
College News
多媒体计算实验室李锡荣副教授关于跨语言看图造句的研究成果被国际多媒体大会 ACM Multimedia 2017(计算机学会推荐的A类会议)长文录用为Oral Presentation(录用率7.5%)。
对于计算机而言,描述一张图片的内容是一个很困难的任务,不仅需要识别图像内容,还需要组织流畅的语言。看图造句(Image Captioning)有很多的应用场景,如帮助用户管理、搜索图像数据,帮助视觉障碍人士等,是近年来多媒体、计算机视觉、人工智能等领域的一个热点问题。
目前看图造句工作的研究都是面向英语,而李锡荣副教授及其学生蓝玮毓、董建锋在跨语言看图造句方向进行了积极探索。在本文中,他们提出一种跨语言深度学习算法,可以在没有目标语言(比如中文)训练数据的情形下,仅利用英文标注数据,为该目标语言训练一个高质量的看图造句模型。这项工作也为多语言环境下多媒体内容分析与检索提供了一个新的思路。据了解,这也是我院硕士生首次以第一作者身份在ACM Multimedia上发表长文。
论文信息:
Weiyu Lan, Xirong Li*, Jianfeng Dong, Fluency-Guided Cross-Lingual Image Captioning, ACM Multimedia 2017