首页
>重大项目>CDR

CDR调频数字音频广播信源编码技术

发表时间: 2014-12-11

打印

收藏

关闭

数字音频编解码技术国家工程实验室
闫建新 伦继好 王磊

 【摘要】本文介绍了一种适用于我国调频数字音频广播的音频信源编码技术,具有较高的编码效率及分层编码结构,允许在一个模拟调频频道内传输多套数字立体声节目或一路环绕声节目,并保持较好的主观声音质量,同时可匹配信道分层特点,能够提供立体声和环绕声两种分层编码模式,从而兼顾了数字调频广播的服务范围和服务质量。

    1.前言
    根据我国调频数字音频广播系统的特点,其音频业务的信源编码技术基本要求是:一方面应有高的编码效率,即在较低的码率下提供较高的主观声音质量;另一方面根据信道特性,如分层调制和不等错信道编码技术,也需要信源编码能够提供粗分层的编码码流格式。
    当前,低码率音频编码技术主要包括三大标准,一种是ITU也对以前通信中的语音编码技术向宽带音频进行了扩展研究,形成了AMR-WB+[1];第二种是MPEG组织对高质量音频编码算法AAC通过增强编码工具扩展形成的低码率编码算法HE-AAC V2[2];这两种编码算法都被选为ITU 3GPP音频编码规范。由于这两种编码算法是基于不同的理论而研究出来的:前者充分利用人耳听觉特性;而后者主要利用人的发声模型;因此在低码率(如24kbps/立体声码率附近)时,HE-AACv2对音乐类信号编码很好,对语音类信号编码有明显失真;AMR-WB+对语音信号有很好的效果,而对音乐信号则显得太单薄;因此在2008年MPEG组织启动开发一种新的低码率音频编码技术,要求对所有音频信号,任何情况下其编码效率不低于HE-AACv2和AMR-WB+,也就是第三种低码率音频编码算法MPEG-D
USAC,其主要编码原理是综合前两种低码率音频编码算法的特点,并对多声道编码技术和带宽扩展技术进一步改进和优化,同时采用更高效的熵编码-算术编码获得更大的压缩效率,其主观声音质量全面优于HE-AACv2和AMR-WB+。
    在分层音频编码上,包括精细分层和非精细分层(或粗分层)方式。精细分层方式又包括有损数字音频编码方法及无损音频编码技术,如ISO/IEC 14496-3 MPEG-4 BSAC(Bitsliced arithmetic coding)比特片算术编码和MPEG- SLS(Scalable Lossless Coding)[2]的无损增强层方式,但精细分层方式存在编码效率低、结构复杂、处理逻辑复杂度高等缺点;非精细分层的编码方案包括:在MPEG-4第三部分和MPEG-2第七部分中都提供了可伸缩采样率编码算法 AAC-SSR(Advanced Audio Coding-ScalableSampling Rate),编码架构也类似于SONY的ARTAC(Adaptive Transform Acoustic Coding)编码。该编码方案首先将输入的数字音频信号通过4带的多相正交滤波器组(PQF,Polyphase Quadrature Filter)分割成4个频带,然后这4个频带分别进行MDCT。该编码方案还可通过去除高PQF带的方式降低数据率,通过减少频带的方式实现比特流粗分层。这种编码方案可非常简单的获得4个分层,但是由于4个PQF带间存在混迭,因此相邻部分的变换域系数编码效率会下降,并且减少分层会明显降低音频信号带宽。
    国家标准GB/T 22726-2008 《多声道数字音频编解码技术规范》[3](简称DRA)是一种高质量高码率的音频编码算法,其典型编码码率为128kbps/立体声,5.1声道环绕声码率384kbps。这样,对于调频数字音频广播的大部分音频业务而言,编码码率偏高;而降低码率后的编码声音质量又不满足要求。
    在广泛研究了以上低码率音频编码技术和分层编码技术的基础上,并且依托我国自主知识产权的国家标准DRA编码算法,以兼容方式并通过对DRA辅助数据扩展方式给出了适合我国调频数字音频广播的音频信源编码技术,图1为调频数字音频广播系统中对音频业务的编解码模块的作用和位置。
 
图1 调频数字音频广播系统中的音频编码

    2.CDR编码算法
    2.1 编码框架
    在调频频段数字音频广播中,提供了数字音频广播音频编码的4种编码类型,其中类型0为DRA,但对其声道数量、采样率范围及码率参数做出了一定的限制;其他3种类型是基于DRA基础上技术扩展,包括DRA低码率音频编码、DRA分层编码和DRA低码率分层编码。每种编码支持的声道模式为:单声道、立体声和5.1环绕声。
表1 音频编码类型
 
    因为DRA编码类型已有国家标准GB/T
    22726-2008 《多声道数字音频编解码技术规范》,所以本文主要描述基于DRA编码技术规范的其他3种扩展编码类型。DRA扩展编码类型的算法是在DRA附加数据部分通过提供多个增强编码工具和编码功能实现的,包括:频带复制技术(例如SBR)、参数立体声(例如PS)和分层模块等,下一节主要介绍其他三种编码算法的原理。
    2.2 编码框架
   (1)DRA_S编码类型的编码框架
    DRA_S的单声道和立体声的具体编码框架如图2所示。
    在编码类型1(DRA_S)单声道编码算法中,DRA编码模块对其输入信号的低频部分进行编码处理,输出DRA编码码流;带宽扩展编码模块对其输入信号的高频部分进行编码处理,输出SBR编码码流。所有码流通过复用码流模块输出DRA_S码流。
    在编码类型1(DRA_S)立体声编码算法中,立体声音频信号根据编码码率选择是否使用参数立体声编码模块处理,如果使用则输出参数立体声编码码流;DRA编码模块对其输入信号的低频部分进行编码处理,输出DRA编码码流;带宽扩展编码模块对其输入信号的高频部分进行编码处理,输出带宽扩展编码码流。所有码流通过复用码流模块输出DRA_S码流。
 
图2 DRA_S单声道或立体声编码框图
    DRA_S的环绕声的具体编码原理如图3所示。DRA_S环绕声编码结构则由三部分构成:L&R声道对DRA_S编码、C单声道DRA_S编码及LFE声道DRA编码和LS&RS声道对DRA_S编码。
 
图3 DRA_S环绕声编码框图
    (2)DRA_L编码类型的编码框架
    DRA_L的单声道和立体声的具体编码框架如图4所示。基本层编码的方法是首先根据基本层分配的编码比特率进行DRA编码;输入信号与基本层恢复的信号间的残差信号作为增强层输入信号,增强层采用与DRA量化和熵编码同样的技术对残差信号压缩。
 
图4 DRA_L单声道或立体声编码框图
    DRA_L环绕声的具体编码原理如图5所示。基本层以对左右声道以立体声对应用DRA编码;增强层包括中央声道和超重低音声道的单声道DRA编码和左右环绕声道对DRA编码。
 
图5 DRA_L环绕声编码框图
    (3)DRA_SL编码类型的编码框架
    DRA_SL单声道或立体声的具体编码框架如图6所示,其编码原理可参考DRA_S和DRA_L。
 
图6 DRA_SL单声道或立体声编码框图
    DRA_SL环绕声的具体编码原理如图7所示。
 
图7 DRA_SL环绕声编码框图
    2.3 音频编码算法的数据结构
   (1)DRA编码算法的帧结构
    图8为一般DRA的帧结构,其中在帧头信息中有1比特指明是否存在辅助数据的指示,“1”表明有,“0”表明没有。
 
图8 DRA基本帧结构示意图
   (2)辅助数据扩展的一般结构
    辅助数据扩展的结构示意图如图9所示。其中每个数据块下面小括号内的数字表示其占用的长度,单位为比特,X1,Xn分别为第1个和第n个辅助类型的数据长度,单位为字节。
 
图9 辅助数据的结构示意图

    以下DRA_S、DRA_L和DRA_SL编码的基本帧结构都是通过图9的辅助数据扩展格式为基础定义的。
   (3)DRA_S编码类型的基本帧结构
    DRA_S编码主要是利用辅助数据扩展部分所提供的增强编码工具,包括带宽扩展编码工具和参数立体声编码工具等,提高编码DRA的编码效率,提供低码率音频编码算法。其基本结构为:(其中虚线框为可选数据单元)
 
图10 DRA_S帧结构
  (3)DRA_L及DRA_SL分层基本帧结构
    分层又根据编码的声道数分为单声道与立体声的分层以及5.1环绕声的分层两种。
    图11和图13分别给出了单声道或立体声的DRA分层编码(DRA_L)和DRA低码率分层编码(DRA_SL)结构。其基本编码过程是根据总编码比特率合理分配基本层和增强层的比特率,然后分别对基本层和增强层进行编码。
    DRA_L单声道或立体声编码的过程:根据基本层分配的编码比特率进行单声道或立体声对DRA编码;从MDCT域的原始音频信号与基本层解码后部分恢复的音频信号之间的残差作为增强强层编码的输入信号,通过类似于DRA熵编码模块处理编码,但是其中残差信号编码熵编码的码书选择及其应用范围、量化步长指数和Huffman码书都进行了优化,提高残差信号熵编码效率。
    DRA_SL单声道或立体声编码的过程:输入为单声道时,基本层中只对单声道进行DRA编码,并根据基本层分配的比特率,可自动选择是否启动带宽扩展编码工具;增强层编码与DRA_L的单声道增强层编码相同。当输入为立体声时,基本层采用DRA_S编码;增强层采用DRA_L增强层同样的编码。
    图12和图14分别给出了DRA_L和DRA_SL环绕声分层帧结构示意图,采用环绕声二分层的结构,形成基本层和增强层。其基本编码过程为:首先根据总比特率要求合理分配基本层和增强层各自所占比率,然后分配各声道对和独立声道的比特率,最后分别对基本层和增强层编码。
    DRA_L环绕声分层编码为:基本层编码是对左右声道以立体声对方式直接应用DRA算法编码;增强层对中央声道和超重低音声道分别进行单声道DRA编码,对左右环绕声道也以立体声对方式进行DRA编码。
    DRA_SL环绕声分层编码为:在基本层中对左声道和右声道组成的立体声对进行立体声DRA编码,并且可根据立体声对的编码码率需求自适应地选择应用带宽扩展技术和参数立体声编码技术。当仅选择使用带宽扩展技术时,则DRA编码部分将只对输入声道的低频带部分编码;当又开启了参数立体声编码技术时(此时带宽扩展编码技术应已经使用), DRA编码部分应修改为仅对缩混的单声道低频部分进行编码。在增强层中,首先对中央声道C进行DRA编码,可选采用带宽扩展编码技术,然后对超重低音声道LFE采用DRA编码。最后对左右环绕声道(LS和RS)进行立体声对DRA编码,类似于左右声道对编码方式,可自适应地开启带宽扩展和参数立体声编码技术,提高对环绕声对的编码效率。
 
图11 DRA_L单声道或立体声分层算法的帧结构
 
图12 DRA_L 5.1环绕声分层算法的帧结构
 
图13 DRA_SL单声道或立体声分层算法的帧结构
 
图14 DRA_SL 5.1环绕声分层算法的帧结构
    3.测试及试验结果
   (1)DRA编码技术测试
    根据ITU-R BS.1116[4]小损伤声音主观测试标准,采用双盲三激励隐藏基准5级评价方法对DRA多声道数字音频编码技术DRA编码算法进行了正式主观听音测试,测试主要条件包括:测试环境为国家数字电视系统测试实验室音视频主观评价室;测试人员为41个有听音测试经验的人员(包括专家组和专业组);环绕声测试序列包括4个国际标准测试片段和2个商业片段,立体声测试序列主要由国际标准测试序列组成。DRA在384kbps码率下5.1声道获得4.9分;128kbps码率立体声获得4.7分。同时测试结果也表明:DRA技术在每声道64kbps的码率时即“达到了EBU(欧洲广播联盟)定义的‘不能识别损伤’的音频质量”。同时DRA编码技术也被国际蓝光协会(BDA)分别进行了两轮主观声音质量测试,包括在日本BDA成员专家进行的主观测试和好莱坞片商组织的主观测试,测试表明DRA音频编码算法都满足其严格的高质量主观音质要求。
   (2)DRA_S(DRA低码率)音频编码测试
    内部测试结果:根据ITU-R BS.1534[5]中等质量音频主观测试标准,对DRA低码率音频编码算法进行了内部主观听音测试,测试主要条件包括:测试环境为数字音频编解码技术国家工程实验室听音室,测试设备为专业声卡及高保真耳机HD600;测试人员为11个有听音测试经验的人员(包括编码算法开发人员及其他相关人员);测试序列为MPEG低码率音频编码标准开发所使用的12个测试序列(立体声wav文件,采样率48kHz,量化比特16比特)。测试结果表明DRA_S编码在48kbps/立体声码率下83.6分;同样条件下DRA编码仅获得62.6分。
    正式测试结果:根据ITU-R BS.1534中等质量音频主观测试标准,对DRA低码率音频编码算法进行了正式主观听音测试,测试主要条件包括:测试环境为国家广播电影电视总局广播电视计量检测中心视频主观评价室;测试人员为21个有听音测试经验的人员(包括专家组和专业组);测试测试序列包括6个立体声wav文件,采样率48kHz,量化比特为16bit,选自EBU主观评价序列及商业CD。DRA_S编码在48kbps/立体声码率下获得84.6分。
    (3)DRA_L及DRA_SL分层音频编码测试结果
    由于DRA_L及DRA_SL编码算法分别基于DRA及DRA_S编码算法基础上完成的,特别基本层完全采用DRA或DRA_S编码方法,因此完全可以根据DRA和DRA_S编码的主观声音质量估计DRA_L和DRA_SL分层编码的主观声音质量。对于单声道和立体声编码方法,根据其编码原理可以推断出DRA_L和DRA_SL基本层编码质量分别与(基本层比特率下的)DRA和DRA_S的编码质量相同;DRA_L和DRA_SL(基本层及增强层的全比特率条件下)的编码质量分别略低于同样码率下的DRA和DRA_S编码质量(这是由于增强层需要一些额外开销表示增强层信息)。同样对于5.1环绕声情况,由于DRA_L和DRA_SL基本层编码前置立体声信号,因此分别与DRA和DRA_SL编码质量相同;对于DRA_L和DRA_SL(基本层及增强层的全比特率条件下)分别与DRA和DRA_S环绕声质量相当(根据国家工程实验室听音室进行的非正式主观听音测试)。
    4.结论
    本文介绍了一种适用于我国数字调频广播中音频业务信源编码的压缩技术,除了已经成功国家标准的DRA标准编码规范外,同时扩展了三种其他编码模式,可满足于不同质量等条件下的各种广播业务需求。主观声音测试结果表明DRA_S在低码率下明显好于DRA,且在低码率下能够提供较好的主观声音质量;在与DRA和DRA_S相当的主观声音质量下,DRA_L和DRA_SL分别提供了分层的数据结构,可直接匹配于支持分层的信道及调制传输方式,便于有效处理我国调频数字音频广播中覆盖和声音质量的问题。

   参考文献:
    [1]3GPP TS 26.290: "Audio codec processing functions; Extended Adaptive Multi-Rate- Wideband (AMR-WB+) codec; Transcoding functions "
    [2]ISO/IEC14496-3:2009 Information technology - Coding of audio-visual objects -Part 3: Audio
    [3]GB/T 22726-2008 《多声道数字音频编解码技术规范》
    [4]ITU-R BS.1116-1《Methods for the subjectiveassessment of small impairments in audio systems including multichannel sound systems》
    [5]ITU-R BS.1534-1《Method for the subjective assessment of intermediate quality level of coding systems》

>> 相关内容