发明内容
本发明的目的在于解决高质量音频编码算法DRA在低比特率(高压缩)下,主观声音质量有明显下降和失真的问题。
本发明提供了一种低码率DRA数字音频多声道编码方法,包括:对音频信号进行信号分类;并根据信号分类的结果,分别使用不同类型的DRA熵编码码表集合进行DRA编码。
根据本发明的另一个实施例,还提供了一种低码率DRA数字音频多声道编码方法,其包括在对音频信号进行信号分类的同时将音频信号的多个声道缩混成更少的声道,并根据信号分类结果使用不同类型的DRA熵编码码表集合对更少声道的音频信号进行DRA编码。
根据本发明的再一个实施例,还提供了一种低码率DRA数字音频多声道编码方法,其包括在对音频信号进行信号分类的同时对音频信号进行带宽扩展处理,并根据信号分类结果使用不同类型的DRA熵编码码表集合对音频信号的低频部分进行DRA编码。
根据本发明的又一个实施例,还提供了一种低码率DRA数字音频多声道编码方法,其包括在对音频信号进行信号分类的同时还将音频信号的多个声道缩混成更少声道,并对更少声道的音频信号进行带宽扩展处理,并根据信号分类的结果,分别使用不同类型的DRA熵编码码表集合对更少声道的音频信号的低频部分进行DRA编码。
优选地,信号分类可能包括将音频信号分成语音类信号和音乐类信号。
本发明还提供了一种低码率DRA数字音频多声道编码***,包括接收音频信号并对其加以分类的信号分类器和对音频信号进行编码的DRA编码器,其中,根据信号分类器分类的结果,DRA编码器使用不同类型的DRA熵编码码表集合对音频信号进行DRA编码。
根据本发明的另一个实施例,还提供了一种低码率DRA数字音频多声道编码***,包括接收音频信号并对其加以分类的信号分类器和对音频信号进行编码的DRA编码器,其中,***还包括将音频信号的多个声道缩混成更少声道的参数多声道编码模块;并且根据信号分类器分类的结果,DRA编码器使用不同类型的DRA熵编码码表集合对更少声道的音频信号进行DRA编码。
根据本发明的再一个实施例,还提供了一种低码率DRA数字音频多声道编码***,包括接收音频信号并对其加以分类的信号分类器和对音频信号进行编码的DRA编码器,其中,***还包括将音频信号的多个声道缩混成更少声道的参数多声道编码模块以及对更少声道的音频信号进行带宽扩展处理的带宽扩展处理模块;并且根据信号分类器分类的结果,DRA编码器使用不同类型的DRA熵编码码表集合对更少声道的音频信号的低频部分进行DRA编码。
根据本发明的又一个实施例,还提供了一种低码率DRA数字音频多声道编码***,包括接收音频信号并对其加以分类的信号分类器和对音频信号进行编码的DRA编码器,其中,***还包括将音频信号进行带宽扩展处理的带宽扩展处理模块;并且根据信号分类器分类的结果,DRA编码器使用不同类型的DRA熵编码码表集合对音频信号的低频部分进行DRA编码。
优选地,信号分类器将音频信号分成语音类信号和音乐类信号。
此外,本发明还提供了一种包含DRA语音类Huffman码表集合和DRA音乐类Huffman码表集合的DRA音频编码码表集合。优选地,DRA语音类Huffman码表集合和DRA音乐类Huffman码表集合中分别包含的Huffman码表多于3个。
基于上述技术方案,在现有DRA编码技术的基础上,通过根据输入信号类型为编码器选择熵编码码表集合的类型,实现了在较低码率下高效编码多声道数字音频的目的。
附图说明
图1A和1B是方框图,其分别示出了DRA音频编码器和解码器;
图2A是流程图,其示出了根据本发明实施例的、基于DRA编码方法的多声道数字音频编码方法;
图2B是流程图,其示出了根据本发明另一实施例的基于DRA编码方法的多声道数字音频编码方法;
图2C是流程图,其示出了根据本发明再一实施例的基于DRA编码方法的多声道数字音频编码方法;
图2D是流程图,其示出了根据本发明又一实施例的基于DRA编码方法的多声道数字音频编码方法;
图3是方框图,其示出了根据本发明实施例的基于DRA编码器的多声道数字音频编码***;
图4是方框图,其示出了根据本发明另一实施例的基于DRA编码器的多声道数字音频编码***;
图5是方框图,其示出了根据本发明再一实施例的基于DRA编码器的多声道数字音频编码***;以及
图6是方框图,其示出了根据本发明又一实施例的基于DRA编码器的多声道数字音频编码***。
具体实施方式
通过借助附图在下文中将描述本发明的优选实施例。在以下描述中,将不详细描述已成为现有技术的功能或结构,因为不必要的细节将导致本发明的介绍含混不清。相同的附图标记指示方法中相同的步骤或***中相同的部件。
在图1A中示出了典型的DRA音频编码器100,其可通过硬件、软件、和/或固件来实现。简言之,DRA标准所涉及的技术就是以多个技术模块对源音(例如,输入PCM样本)进行信号处理,以达到几乎无损压缩源音的目的。上述多个技术模块包括但不限于:暂态分析模块120、多分辨率滤波器组模块122、线性标量量化模块130、量化指数编码模块132、码表选择模块134、人耳听觉模型模块140、全局比特分配模块142及多路复用模块150。按照DRA标准的相关规定,上述技术模块为必选模块,即符合标准的DRA输出码流(即,DRA标准码流)一定是经过上述模块处理后的码流。与之相对应地,图1B中示出了典型的DRA音频解码器,它用于接收被DRA编码器处理后的码流,并通过执行编码的逆过程而将编码码流还原为PCM样本输出。
主观听音测试表明,在码率合适的情况下(例如,大于单声道64kbps或立体声128kbps),被还原的PCM样本输出与输入PCM样本相比是“透明的”,即收听者通过直接听音的方式几乎无法区分两者。但是,随着编码码率不断降低,可分配给DRA音频编码器的资源大为减少,进而导致了编码质量的下降。
为了解决上述问题,本发明提供了基于DRA编码技术的低码率数字音频编解码技术(见图2A-图2D及图3-图6),其根据输入音频信号的类型,自适应地为DRA本发明分配熵编码码表集合。
在随后的附图中,以实线表示音频信号(即,有效音频数据)的传递,以虚线表示边信息的传递,并以短虚线表示控制的传递。
图2A中示出了根据本发明一个优选实施例的DRA低码率数字音频编解码方法10。如图中所示,方法10开始于步骤11,随后,在步骤12接收来自外部的多声道码流信号。接下来,在步骤13中,判断所接收的码流是语音还是音乐,判断的具体方法在下文中将被详细描述。如果在步骤13中判断所接收的码流是音乐,则在转到步骤15,选用音乐类的Huffman码表集合(例如,包含多于20个的Huffman码表,分别用于对诸如谱系数、窗口类型、瞬态段个数等不同类型的数据进行熵编码);否则,转到步骤14,选用语音类的Huffman码表集合(例如,包含多于20个的Huffman码表,分别用于对诸如谱系数、窗口类型、瞬态段个数等不同类型的数据进行熵编码)。接下来,根据选定的不同类型的Huffman码表集合的边信息,在步骤16中使用相应的Huffman码表对步骤12中接收的多声道码流信号进行DRA编码,其具体的编码方法与在图1A中描述的现有技术编码方法相同,只是其中的所用到的码书(即,码表)集合的类型是在步骤13-15中确定的,而不是固定不变的。最后,在步骤17,将经过DRA编码器编码后的数据以及与码表集合选择相关的边信息(未示出)打包输出,并在步骤18结束编码过程10。
图2B中示出了根据本发明另一优选实施例的低码率数字音频编解码方法10A。如图中所示,方法10A开始于步骤11和12,它们已在上文结合图2A进行了描述,在此再赘述。在步骤19A中对步骤12接收的多声道码流进行参数多声道处理,将多声道码流缩混为较少声道的码流。同时,步骤12接收的多声道码流由步骤13-15处理,以判定码流类型并基于判定结论选择码表种类(详见图2A)。接下来,缩混为较少声道的码流在步骤16中进行DRA编码,其具体的编码方法与在图1A中描述的现有技术编码方法相同,只是其中的所用到的码书(即,码表)集合的类型是在步骤13-15中确定的,而不是固定不变的。最后,在步骤17,将经过DRA编码器编码后的数据、与码表集合选择相关的边信息(步骤13-15)以及步骤19A中产生的多声道参数信息一起打包输出,并在步骤18结束编码过程10A。
图2C中示出了根据本发明再一优选实施例的低码率数字音频编解码方法10B。如图中所示,方法10B开始于步骤11和12,它们均在上文进行了描述,在此不再赘述。在步骤19B中对步骤12接收的全频带多声道码流进行带宽扩展处理。同时,步骤12接收的全频带多声道码流被步骤13-15处理,以判定码流类型并基于判定结论选择码表种类(详见图2A)。接下来,步骤19B中的被处理的码流被下采样(即,仅保留低频部分),并在步骤16中进行DRA编码。最后,在步骤17,将经过DRA编码器编码后的数据、与码表集合选择相关的边信息以及步骤19B中的BWE参数信息一起打包输出,并在步骤18结束编码过程10B。
图2D中示出了根据本发明又一优选实施例的低码率数字音频编解码方法10C。如图中所示,方法10C开始于步骤11和12。然后,步骤12接收的多声道码流通过步骤13-15被处理,以判定码流类型并基于判定结论选择码表种类(详见图2A)。同时,在步骤19A中对步骤12接收的多声道码流进行参数多声道处理,将多声道码流缩混为较少声道的码流。接下来,在步骤19B,对步骤19A输出的、缩混为较少声道的码流进行带宽扩展处理。再接下来,步骤19B中处理的、较少声道的码流被下采样,并在步骤16中通过DRA编码器编码。最后,在步骤17,将经过DRA编码器编码后的数据、与码表集合选择相关的边信息、步骤19A中产生的多声道参数信息以及步骤19B中的BWE参数信息一起打包输出,并在步骤18结束编码过程10C。
值得注意的是,本领域技术人员通过阅读本发明的说明书和权利要求书,能显而易见地了解到以下变形并未超出本发明的范围:将输入多声道码流按照其它音频类型分类方式进行分类,并按照分类结果为输入码流分配用于进行熵编码的Huffman码表集合。
图3中示出了根据本发明一个优选实施例的低码率数字音频编解码***20。如图中所示,***20包括分类器22,其用于接收来自输入21的多声道PCM音频信号,并采用下文将详细描述的分类方法而将音频信号分类为音乐或语音。***20还包含了使用音乐类Huffman码表集合的DRA编码器24和使用语音类Huffman码表集合的DRA编码器26。按照分类器22作出的分类结果,从输入21进入***的PCM音频信号可能在子输入端23被控制为送往两者之一。最后,***20还进一步包含打包器28,其从子输出端25接收(与子输入端23类似,其也受到分类器22分类结果的控制)被DRA编码器24或26处理后的数据以及分类器22的分类信息,并最终将编码后的数据在输出29处输出。
图4中示出了根据本发明另一优选实施例的低码率数字音频编解码***30。如图中所示,***30包括分类器32,其用于接收来自输入31的多声道PCM音频数据,并采用下文将详细描述的分类方法而将音频数据分类为音乐或语音。***30还包括参数多声道编码模块37,其用于接收来自输入31的音频数据,并将该音频数据的多个声道缩混成更少声道。进一步地,***30还包含了使用音乐类Huffman码表集合的DRA编码器34和使用语音类Huffman码表集合的DRA编码器36。按照分类器32作出的分类结果,从参数多声道编码模块37输出的较少声道的音频数据可能在子输入端33受控地被送往两者之一。最后,***30还进一步包含打包器38,其从子输出端35接收(与子输入端33类似,其也受到分类器分类结果的控制)被DRA编码器34或36处理后的数据、分类器32的分类信息以及参数多声道编码模块37产生的多声道参数信息,并最终将编码后的数据在输出39处输出。
图5中示出了根据本发明又一优选实施例的低码率数字音频编解码***40。如图中所示,***40包括分类器42,其用于接收来自输入41的多声道PCM音频数据,并采用下文将详细描述的分类方法而将PCM音频数据分类为音乐或语音。***40还包括带宽扩展处理模块47,其用于接收来自输入41的PCM音频数据,并对音频数据进行带宽扩展处理。进一步地,***40还包含了使用音乐类Huffman码表集合的DRA编码器44和使用语音类Huffman码表集合的DRA编码器46。按照分类器42作出的分类结果,从输入41进入***的音频数据可能在子输入端43被送往两者之一(之前先被下采样模块所处理)。最后,***40还进一步包含打包器48,其从子输出端45接收(与子输入端44类似,其也受到分类器分类结果的控制)被DRA编码器44或46处理后的数据、分类器42的分类信息以及带宽扩展处理模块47产生的BWE参数信息,并最终将编码后的数据在输出49处输出。
图6中示出了根据本发明再一优选实施例的低码率数字音频编解码***50。如图中所示,***50包括分类器52,其用于接收来自输入51的多声道PCM音频数据,并采用下文将详细描述的分类方法而将PCM音频数据分类为音乐或语音。***50还包括参数多声道编码模块57A和带宽扩展处理模块57B:参数多声道编码模块57A用于接收来自输入51的PCM音频数据,并将音频数据的多个声道缩混成更少声道;带宽扩展处理模块57B用于对缩混后较少声道的音频数据进行进一步带宽扩展处理。进一步地,***50还包含了使用音乐类Huffman码表集合的DRA编码器54和使用语音类Huffman码表集合的DRA编码器56。按照分类器52作出的分类结果,从参数多声道编码模块57A输出的较少声道的音频数据可能在子输入端53被送往两者之一(首先经过下采样模块的处理)。最后,***50还进一步包含打包器58,其从子输出端55接收(与子输入端53类似,其也受到分类器分类结果的控制)被DRA编码器54或56处理后的数据、分类器52的分类信息、以及参数多声道编码模块57A和带宽扩展处理模块57B产生的多声道参数编码信息和BWE参数信息,并最终将编码后的数据在输出59处输出。
值得注意的是,本领域技术人员通过阅读本发明的说明书和权利要求书,能显而易见地了解到以下变形并未超出本发明的范围:分类器并不限于将输入多声道码流分为语音和音乐两类的情况,与之相应地,输入码流可能被分配给使用其它形式Huffman码表集合的其它DRA编码器(未示出)。
实验表明,在低码率下(如32kbps立体声编码时),对音乐类信号使用音乐类Huffman编码比使用语音类Huffman编码获得了2.3%左右的编码效率提升;对语音类信号使用语音类Huffman编码比使用音乐类Huffman编码获得了约2%的编码效率提升。
最后,本文将描述一种音频信号分类方法的实例,其可针对每一帧数据给出判决结果。为了描述方便,以将音频信号分类为语音和音乐为例,但本领域技术人员可以理解的是,将音频信号按照其它方式进行分类也是可能的。所述音频信号分类方法的具体步骤如下(其中提到的现有技术的概念将随后解释):
(1)将待测的音频片断划分帧,取1024个采样点的整数倍为一帧,即可以为1024个、2048个、或4096个,优选为4096个,该帧长的选择要与后续音频编码器的帧长选择一致,并且还要与训练模板(即,音乐模板和语音模板)时选取的帧长相同。
(2)对每一帧提取MFCC系数,提取方式与训练模板时(见下文)相同。
(3)根据每一帧提取的MFCC系数矢量及现有的音乐模板和语音模板,分别计算每一帧MFCC系数到音乐模板的欧氏距离(disSpeech)和到语音模板的欧氏距离(disMusic)。
(4)当disSpeech≥disMusic时,将该帧判决为音乐,分类标志位flagClass设为0(对应于端口23或25处的1);当disSpeech<disMusic时,将该帧判决为语音,分类标志位flagClass设为1(对应于端口23或25处的2)。
通过上述四个步骤逐帧地完成了对音频信号的分类,并输出了分类标志位flagClass作为本帧是语音还是音乐的标识。
在上文描述中引用了MFCC系数与训练模板的概念,现简单介绍如下:(1)MFCC系数,即基于Mel域的倒谱系数,它一般采用三角滤波器组对傅里叶变换能量系数滤波,并对其频域进行Mel比例变换,以更符合人类的听觉特性。当提取MFCC系数时,首先在时域对音频信号进行分帧,4096(或者为2048、1024等)个采样点为一帧,每次帧移50%,即2048个样点。每次对一帧音频信号提取14维的MFCC系数,其中三角滤波器的个数优选为26。以14维的MFCC系数矢量作为音频分类的特征参数进行分类。(2)训练模板是选取一定数量的典型音乐片断和典型语音片断,片断的长度均为2秒,然后对整条音频片断提取MFCC参数,并取该片断中所有帧的MFCC系数的均值。最后将所有音频片断的MFCC参数取平均值,得到音乐模板和语音模板。
应该意识到,虽然本文描述的是基于每帧数据的音频分类方法,但显然在本发明无意于排除使用其它的音频分类方法,包括但不限于:在同一申请人申请的中国专利申请(申请号为200810240339.3,发明名称为《基于再次分类的音频分类装置及其实现方法》,公开日为______________)中公开的音频分类方法或其它的音频分类方法。
虽然结合目前被认为是最实际和最优的实施例描述了本发明,但本领域技术人员应当理解本发明不限于所公开的实施例,相反,本发明旨在覆盖所附权利要求的精神和范畴之内包括的各种各样的修改和等价结构。本领域技术人员能够理解的是:可如示于特定实施例地将多种变形和/或改进使用到本发明,而这并不脱离以宽广方式描述的本发明精神或范围。因此,本文的实施例被认为在各个方面是描述性的而非限定性的。