2015年多媒体计算实验室发展迅速、成果显著

更新时间：2015-05-22 08:25:17 浏览量：

我院多媒体计算实验室以中科院计算所陈熙霖教授为学术带头人，学术团队由许洁萍、金琴、杨刚、李锡荣等四位老师组成。实验室自2012底成立以来，稳步发展，不断取得科研成果。

今年多媒体计算实验室再次取得一系列可喜的成果：

1. 《Zero-shot Image Tagging by Hierarchical Semantic Embedding》被SIGIR 2015录用。SIGIR是信息检索领域的顶级会议。该论文提出了一种层次语义映射（hierarchical semantic embedding）算法，通过引入WordNet语义结构，提高映射质量。标签预测的准确度较Google的结果提升了1倍。

2. 《Music Positioning and Annotation For Television Videos》被ICMR 2015录用。ICMR是中国计算机学会推荐的“计算机图形学与多媒体”领域B类排名首位的会议。该论文构建了中国音乐著作权保护首个音乐起点定位和自动标注系统，实现了真实环境电视节目的音乐自动定位与识别，使中国音乐著作权协会的工作效率提升了近30倍。

3. 《Semantic Concept Annotation for User Generated Videos Using Soundtracks》被ICMR 2015录用。ICMR是中国计算机学会推荐的“计算机图形学与多媒体”领域B类排名首位的会议。该论文针对基于声学词袋特征表示缺乏直观语义解释的局限性，提出了一种语义解释性增强的特征表示。该方法利用了大量用户上传的online wild音频数据。实验结果显示该方法不仅可以达到更好的检测性能而且可以提供更丰富的语义解释。

4. 《Detecting Semantic Concepts in Consumer Videos Using Audio》被ICASSP 2015录用。ICASSP是语音信号处理领域的顶级会议。该论文研究了利用视频中的音频信息检测语义概念。文中尝试了不同的音频特征表示并比较了对于语义概念检测的有效性。实验结果表明基于音频信息不仅可以有效地检测声学显著的语义概念，而且通过融合，可以显著地提高基于视觉信息的语义检测的性能。

5. 《Speech Emotion Recognition with Acoustic and Lexical Features》被ICASSP 2015录用。ICASSP是语音信号处理领域的顶级会议。该论文研究了结合语音信号中的声学和内容词汇的信息来实现说话人情感状态的识别。文中探索了不同的低层声学特征以及变化得到的高层声学特征对于语音情感识别的有效性。提出了一种新的基于文本的情感特征向量表示。将声学特征与文本特征进行融合显著地提高了情感识别的准确率。

6. 《Persistent B+-Trees in Non-Volatile Main Memory》被VLDB 2015录用。VLDB是数据库领域的顶级国际会议。本论文针对基于非易失存储的内存数据库系统，研究持久性B+Tree结构，提出了一种新的Write-Atomic B+Tree，通过改变B+Tree节点的数据结构，在B+Tree插入和删除算法中尽量减少写日志和数据拷贝操作，从而使性能得到很大的提高。实验采用体系结构模拟器模拟PCM，采用真实机器模仿Memristor等快速非易失存储。与现有的基于日志和基于影子备份的设计相比，Write-Atomic B+Tree的性能可以有至多27.1倍的提高。

7. 《Competitive Hopfield Neural Network with Chaotic Dynamics for Partitional Clustering Problem》被ICSSSM2015录用。ICSSSM是ダファベット入金不要认定的电子商务和电子政务方向的A类会议论文之一。该论文引入了一种带有混沌动态的竞争Hopfield网络结构，能够利用神经元间的竞争动态，有效的跳出局部最小，实现对Clustering问题的高效求解。

8. 《Tag features for Geo-Aware image classification》被 IEEE Transaction on Multimedia长文录用。该论文研究了图像的地理位置信息在特征层面上的编码，利用来自于网络的大量社交图片的文本信息和地理位置信息，为图像构建文本特征，该特征能同时描述图像内容和拍摄地的地理上下文信息。

[1] Xirong Li, Shuai Liao, Weiyu Lan, Xiaoyong Du, and Gang Yang*, “Zero-shot Image Tagging by Hierarchical Semantic Embedding,” SIGIR 2015

[2] G. Yang, J. Xu*, and X. Li, “Music Positioning and Annotation For Television Videos,” to appear in Proc. of International Conference on Multimedia Retrieval (ICMR) 2015.

[3] Qin Jin*, Junwei Liang, Xixi He, Gang Yang, Jieping Xu, Xirong Li, Semantic Concept Annotation for User Generated Videos Using Soundtracks, to appear in Proc. of International Conference on Multimedia Retrieval (ICMR) 2015.

[4] Junwei Liang, Qin Jin*, Xixi He, Gang Yang, Jieping Xu, Xirong Li, Detecting Semantic Concepts In Consumer Videos Using Audio, Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, Australia, 2015.

[5] Qin Jin*, Chengxin Li, Shizhe Chen, Huimin Wu, Speech Emotion Recognition With Acoustic And Lexical Features, Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, Australia, 2015.

[6] Shimin Chen and Qin Jin*, Persistent B+-Trees in Non-Volatile Main Memory, to appear in Proc. of VLDB, Hawaii, USA, 2015.

[7] G. Yang*, J. Yi, J. Xu, “Competitive Hopfield Neural Network with Chaotic Dynamics for Partitional Clustering Problem,” in ICSSSM2015, 2015.

[8] Shuai Liao, Xirong Li*, Heng Tao Shen, Yang Yang, and Xiaoyong Du, “Tag features for Geo-Aware image classification,” IEEE Transactions onMutlimedia, 2015