CN101115051A

CN101115051A - 音频信号处理方法、***以及音频信号收发装置

Info

Publication number: CN101115051A
Application number: CNA2006101035713A
Authority: CN
Inventors: 马鸿飞; 徐明亮; 唐骏; 郭艳雯; 闫相斌; 余水安; 詹五洲
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2006-07-25
Filing date: 2006-07-25
Publication date: 2008-01-30
Anticipated expiration: 2026-07-25
Also published as: CN101115051B

Abstract

本发明公开了一种音频信号处理方法、***以及音频信号收发装置，在音频信号发送端，分别将针对音频信号处理所得的剩余信号和掩蔽门限信号编码为剩余信号多描述和掩蔽门限信号多描述，再分别将各路剩余信号描述与多路掩蔽门限信号描述中的一路合路，生成均包含有剩余信号和掩蔽门限信号的多路描述；在音频信号接收端，将接收到的所有描述中每个描述所包含的剩余信号描述和掩蔽门限信号描述分路，再将分路后所生成的所有剩余信号描述解码为一路剩余信号，还将分路后所生成的所有掩蔽门限信号描述解码为一路掩蔽门限信号。本发明可有效提高通信过程中的音频质量，提高用户满意度。

Description

音频信号处理方法、***以及音频信号收发装置

技术领域

本发明涉及通信领域，具体涉及一种音频信号处理方法、***以及音频信号收发装置。

背景技术

随着通信技术的迅猛发展，信道带宽和传输速率得以极大提高，网络设备和通信终端处理能力也不断增强；同时，各种音频编码算法在编码质量和编码效率上都获得了相当的提高，这使得实时高质量音频业务也迅速地向各种现代通信***融合。然而，在实际运营中，由于网络拥塞、信道干扰和噪声等原因，以包交换为基础的通信网络都不可避免的面临丢包和较长迟延的问题，这导致通过网际协议(IP)网络和移动通信***传输的音频信号质量无疑会受到丢包和迟延的严重影响。

目前，用于减小因丢包而导致音频质量下降的音频信号处理方法大体有两种，下面对这两种方法分别介绍。

第一种音频信号处理方法为：将信源按一定准则划分为优先级不同的层次，再根据通信信道特性对各层进行分层优化；之后将完成分层优化的信源按各自所对应的不同层次分别进行数据打包处理，形成分层多描述编码比特流，包括基本层多描述编码比特流以及增强层多描述编码比特流；最后，将数据打包处理所形成的上述比特流发送给接收端。

当收到基本层多描述编码比特流时，接收端可以恢复出来自信源的基本信息；当收同时到基本层多描述编码比特流和增强层多描述编码比特流时，接收端则能以较小的失真更好的恢复出来自信源的信息。

第一种音频信号处理方法的目的是使接收端以尽量小的失真恢复出来自信源的信息，但其操作方式会不可避免地引入下列问题：

1、只有在收到来自信源的基本层多描述编码比特流的情况下，接收端才能进行正常解码；一旦基本层多描述编码比特流发生丢包，那么接收端将无法正常进行解码过程；

2、接收端在只收到增强层多描述编码比特流时，只能恢复来自信源的增强层部分信息，无法重构来自信源的主要信息；

3、为了使接收端能够正常接收到基本层多描述编码比特流，并防止误码或丢包的发生，在传输时通常要对基本层多描述编码比特流进行前向纠错或丢包重传等处理；这将明显降低通信效率，并增加通信迟延；

4、由于信源被按照优先级进行了分层，因此生成的各分层编码比特流也将具有不同的优先级，并且低优先级分层编码比特流的正确解码必须以高优先级分层编码比特流的正确解码为基础；当高优先级分层编码比特流的解码过程出现问题时，低优先级分层编码比特流的正确解码根本无从谈起。

综上所述，由于第一种音频信号处理方法对信源按照优先级进行了分层，因此提高通信过程中音频质量的可靠性较低，无法有效减小因丢包、迟延而导致的通信过程中音频质量下降的问题；并且，音频质量下降将明显降低用户满意度。

第二种音频信号处理方法为：利用目前普遍应用的由心理声学模型控制的预处理器对音频信号进行处理，得到去除了与听觉不相干的时域白化的剩余信号，并对得到的剩余信号进行多描述编码以得到两路或多路描述编码；再对得到的描述编码进行无失真熵编码以去除信源的多余度，最后将无失真熵编码后所生成的编码比特流送入发射信道。

第二种音频信号处理方法力图以心理声学模型提高音频信号质量，但其操作方式会不可避免地引入下列问题：

1、第二种音频信号处理方法主要采用时域预测和时域编码方法，频率分辨率较低，不能较好地去除听觉不相干度和音频信号各频率分量间的相关性；

2、由心理声学模型处理后的信号只是作为边信息被传输给接收端，而并不是作为描述编码的一部分进行传输；所以一旦心理声学模型中的参数丢失，接收端将无法对收到的音频信号正确解码，因而抗丢包性能较差。

综上所述，由于第二种音频信号处理方法只是以抗丢包性能较差的心理声学模型为音频信号处理的基础，因此提高通信过程中音频质量的可靠性较低，无法有效减小因丢包、迟延而导致的通信过程中音频质量下降的问题；并且，音频质量下降将明显降低用户满意度。

发明内容

有鉴于此，本发明的主要目的在于提供一种音频信号处理方法和***，以有效提高通信过程中的音频质量，提高用户满意度。

本发明的另一目的在于提供一种音频信号收发装置，以有效提高通信过程中的音频质量，提高用户满意度。

为达到上述目的，本发明的技术方案是这样实现的：

本发明公开了一种音频信号处理方法，在音频信号发送端，分别将针对音频信号处理所得的剩余信号和掩蔽门限信号编码为剩余信号多描述和掩蔽门限信号多描述，再分别将各路剩余信号描述与多路掩蔽门限信号描述中的一路合路，生成均包含有剩余信号和掩蔽门限信号的多路描述；

在音频信号接收端，将接收到的所有描述中每个描述所包含的剩余信号描述和掩蔽门限信号描述分路，再将分路后所生成的所有剩余信号描述解码为一路剩余信号，还将分路后所生成的所有掩蔽门限信号描述解码为一路掩蔽门限信号。

将剩余信号/掩蔽门限信号编码为所述剩余信号/掩蔽门限信号多描述的方法为：

对所述剩余信号/掩蔽门限信号进行奇偶分离处理，并对完成该处理所生成的剩余信号/掩蔽门限信号多描述进行熵编码处理。

将所述剩余信号/掩蔽门限信号多描述解码为一路剩余信号/掩蔽门限信号的方法为：

对所述剩余信号/掩蔽门限信号多描述进行熵解码处理，并对完成解码处理后所生成的剩余信号/掩蔽门限信号多描述进行奇偶合成处理，将该剩余信号/掩蔽门限信号多描述合成为一路剩余信号/掩蔽门限信号。

对所述剩余信号/掩蔽门限信号进行信号分对处理，并对完成处理所生成的多路剩余信号/掩蔽门限信号分别进行多描述对偶变换并生成相应路数的剩余信号/掩蔽门限信号多描述，再对生成的剩余信号/掩蔽门限信号多描述进行熵编码处理。

对所述剩余信号/掩蔽门限信号多描述进行熵解码处理，并对完成解码处理后所生成的剩余信号/掩蔽门限信号多描述进行多描述对偶反变换处理，再将完成对偶反变换处理后所生成的多路剩余信号/掩蔽门限信号合成为一路剩余信号/掩蔽门限信号。

所述多描述为包含两个描述的双描述。

对所述剩余信号/掩蔽门限信号进行多描述标量量化编码处理，并对完成处理所生成的剩余信号/掩蔽门限信号多描述进行熵编码处理。

对所述剩余信号/掩蔽门限信号多描述进行熵解码处理，并对完成解码处理后所生成的剩余信号/掩蔽门限信号多描述进行多描述标量量化解码处理，将该剩余信号/掩蔽门限信号多描述解码为一路剩余信号/掩蔽门限信号。

所述多描述包含两个以上描述。

所述剩余信号是对原始音频信号进行时频分析、剩余信号分析后所得到的；

所述时频分析的方法为：对所述原始音频信号进行包括修正离散余弦变换MDCT在内的处理，得到时频变换参数；

所述剩余信号分析的方法为：去除所述时频变换参数中的听觉不相干信息或不相干度。

所述掩蔽门限信号是对原始音频信号进行心理声学模型分析后所得到的。

进一步对发送端所生成的剩余信号的多描述和掩蔽门限信号的多描述进行无失真编码和音频包处理。

在接收端对所述剩余信号多描述和掩蔽门限信号多描述进行分路之前，进一步对该剩余信号多描述和掩蔽门限信号多描述进行音频包解包和无失真解码处理。

进一步对接收端所生成的剩余信号和掩蔽门限信号进行参数重构和时频合成处理，生成重构的音频信号。

本发明还公开了一种音频信号处理***，该***包括位于音频信号发送端的多描述编码器，由均与合路器相连的剩余信号多描述编码器、掩蔽门限信号多描述编码器组成；还包括位于音频信号接收端的多描述解码器，由均与分路器相连的剩余信号多描述解码器、掩蔽门限信号多描述解码器组成；

其中，剩余信号/掩蔽门限信号多描述编码器，用于将收到的剩余信号/掩蔽门限信号编码为剩余信号/掩蔽门限信号多描述，并将编码后所生成的多描述发送给合路器；

合路器，用于分别将收到的各路剩余信号描述与所有掩蔽门限信号描述中的一路合路，生成均包含有剩余信号和掩蔽门限信号的多描述；

分路器，用于将接收到的所有描述中每个描述所包含的剩余信号描述和掩蔽门限信号描述分路，并将分路后所生成的剩余信号/掩蔽门限信号多描述发送给剩余信号/掩蔽门限信号多描述解码器；

剩余信号/掩蔽门限信号多描述解码器，用于将收到的剩余信号/掩蔽门限信号多描述解码为一路剩余信号/掩蔽门限信号。

所述剩余信号/掩蔽门限信号多描述编码器，包括相连的奇偶分离模块、熵编码器；

其中，奇偶分离模块，用于对所述剩余信号/掩蔽门限信号进行奇偶分离处理，并将完成该处理所生成的剩余信号/掩蔽门限信号多描述发送给所述熵编码器；

熵编码器，用于对收到的剩余信号/掩蔽门限信号多描述进行熵编码处理。

所述剩余信号/掩蔽门限信号多描述解码器，包括相连的熵解码器、奇偶合成模块；

其中，熵解码器，用于对所述剩余信号/掩蔽门限信号多描述进行熵解码处理，并将完成解码处理后所生成的剩余信号/掩蔽门限信号多描述发送给奇偶合成模块；

奇偶合成模块，用于对收到的剩余信号/掩蔽门限信号多描述进行奇偶合成处理，将该剩余信号/掩蔽门限信号多描述合成为一路剩余信号/掩蔽门限信号。

所述剩余信号/掩蔽门限信号多描述编码器，包括依次相连的剩余信号/掩蔽门限信号分对模块、对偶变换模块和熵编码器；

其中，剩余信号/掩蔽门限信号分对模块，用于对所述剩余信号/掩蔽门限信号进行信号分对处理，并将完成处理所生成的多路剩余信号/掩蔽门限信号发送给多描述对偶变换模块；

多描述对偶变换模块，用于对收到的多路剩余信号/掩蔽门限信号分别进行对偶变换并生成相应路数的剩余信号/掩蔽门限信号多描述，再将所生成的剩余信号/掩蔽门限信号多描述发送给熵编码器；

所述剩余信号/掩蔽门限信号多描述解码器，包括依次相连的熵解码器、对偶反变换解码器和剩余信号/掩蔽门限信号合成模块；

其中，熵解码器，用于对所述剩余信号/掩蔽门限信号多描述进行熵解码处理，并将完成解码处理后所生成的剩余信号/掩蔽门限信号多描述发送给多描述对偶反变换解码器；

多描述对偶反变换解码器，用于对收到的剩余信号/掩蔽门限信号多描述进行对偶反变换处理，并将完成对偶反变换处理后所生成的多路剩余信号/掩蔽门限信号发送给剩余信号/掩蔽门限信号合成模块；

剩余信号/掩蔽门限信号合成模块，用于将收到的多路剩余信号/掩蔽门限信号合成为一路剩余信号/掩蔽门限信号。

所述剩余信号/掩蔽门限信号多描述编码器，包括相连的多描述标量量化器、熵编码器；

其中，多描述标量量化器，用于对所述剩余信号/掩蔽门限信号进行多描述标量量化编码处理，并将完成处理所生成的剩余信号/掩蔽门限信号多描述发送给熵编码器；

所述剩余信号/掩蔽门限信号多描述解码器，包括相连的熵解码器、多描述标量量化解码器；

其中，熵解码器，用于对所述剩余信号/掩蔽门限信号多描述进行熵解码处理，并将完成解码处理后所生成的剩余信号/掩蔽门限信号多描述发送给多描述标量量化解码器；

多描述标量量化解码器，用于对收到的剩余信号/掩蔽门限信号多描述进行多描述标量量化解码处理，将该剩余信号/掩蔽门限信号多描述解码为一路剩余信号/掩蔽门限信号。

所述多描述标量量化器是能够处理两个以上描述的多描述标量量化器，所述多描述标量量化解码器是能够处理两个以上描述的多描述标量量化解码器。

所述多描述编码器进一步与连接有时频分析模块的剩余信号分析模块相连，还与心理声学模块相连；

其中，时频分析模块，用于对原始音频信号进行时频分析，并将完成分析后所生成的时频变换参数发送给剩余信号分析模块；

剩余信号分析模块，用于对收到的时频变换参数和掩蔽门限信号进行剩余信号分析，并将分析后所生成的剩余信号发送给所述多描述编码器；

心理声学模块，用于对原始音频信号进行心理声学模型分析，将分析后所生成的掩蔽门限信号发送给所述多描述编码器和剩余信号分析模块。

所述多描述编码器进一步和无失真编码及音频包处理模块相连；

无失真编码及音频包处理模块，用于接收多描述编码器所生成的描述，并对收到的描述进行无失真编码和音频包处理。

所述多描述解码器进一步和音频包解包及无失真解码模块相连；

音频包解包及无失真解码模块，用于对收到的多描述进行音频包解包和无失真解码处理。

所述多描述解码器进一步与连接有时频合成模块的参数重构模块相连；

其中，参数重构模块，用于接收多描述解码器所生成的剩余信号和掩蔽门限信号，并对收到的信号进行参数重构处理，再将完成处理后所生成的时频变换参数发送给时频合成模块；

时频合成模块，用于对收到的时频变换参数进行时频合成处理，生成重构的音频信号。

本发明还公开了一种音频信号发送装置，该装置由均与合路器相连的剩余信号多描述编码器、掩蔽门限信号多描述编码器组成；

合路器，用于分别将收到的各路剩余信号描述与所有掩蔽门限信号描述中的一路合路，生成均包含有剩余信号和掩蔽门限信号的多路描述。

所述剩余信号/掩蔽门限信号多描述编码器，包括依次相连的剩余信号/掩蔽门限信号分对模块、多描述对偶变换模块和熵编码器；

所述多描述标量量化器是能够处理两个以上描述的多描述标量量化器。

无失真编码及音频包处理模块，用于接收多描述编码器所生成的多描述，并对收到的多描述进行无失真编码和音频包处理。

本发明还公开了一种音频信号接收装置，该装置由均与分路器相连的剩余信号多描述解码器、掩蔽门限信号多描述解码器组成；

其中，分路器，用于将接收到的所有描述中每个描述所包含的剩余信号描述和掩蔽门限信号描述分路，并将分路后所生成的剩余信号/掩蔽门限信号多描述发送给剩余信号/掩蔽门限信号多描述解码器；

所述剩余信号/掩蔽门限信号多描述解码器，包括依次相连的熵解码器、多描述对偶反变换解码器和剩余信号/掩蔽门限信号合成模块；

其中，熵解码器，用于对所述剩余信号/掩蔽门限信号多描述进行熵解码处理，并将完成解码处理后所生成的剩余信号/掩蔽门限信号多描述发送给对偶反变换解码器；

所述多描述标量量化解码器是能够处理两个以上描述的多描述标量量化解码器。

音频包解包及无失真解码模块，用于对收到的描述进行音频包解包和无失真解码处理。

与现有技术相比，本发明所提供的音频信号处理方法、***以及音频信号收发装置，在音频信号发送端，分别将针对音频信号处理所得的剩余信号和掩蔽门限信号编码为剩余信号多描述和掩蔽门限信号多描述，再分别将各路剩余信号描述与多路掩蔽门限信号描述中的一路合路，生成均包含有剩余信号和掩蔽门限信号的多路描述；在音频信号接收端，将接收到的所有描述中每个描述所包含的剩余信号描述和掩蔽门限信号描述分路，再将分路后所生成的所有剩余信号描述解码为一路剩余信号，还将分路后所生成的所有掩蔽门限信号描述解码为一路掩蔽门限信号。

可见，本发明可有效提高通信过程中的音频质量，提高用户满意度。

附图说明

图1是本发明一较佳实施例的音频信号编码器结构及原理图；

图2是本发明一较佳实施例的音频信号解码器结构及原理图；

图3是本发明实施例1的多描述编码器结构及原理图；

图4是本发明实施例1的多描述解码器结构及原理图；

图5是本发明实施例2的剩余信号多描述解码器结构及原理图；

图6是本发明实施例2的掩蔽门限信号多描述解码器结构及原理图；

图7是本发明实施例3的剩余信号多描述编码器结构及原理图；

图8是与图7中的多描述编码器相配合的多描述解码器结构及原理图；

图9是本发明实施例4的剩余信号多描述编码器结构及原理图；

图10是与图9中的多描述编码器相配合的多描述解码器结构及原理图；

图11是本发明一较佳实施例的音频信号处理原理图；

图12是本发明一较佳实施例的量化区间示意图；

图13是本发明一较佳实施例的单描述和多描述量化区间对比示意图；

图14是以图11为基础的多描述编码器结构及原理图；

图15是以图11为基础的多描述解码器结构及原理图；

图16是本发明另一较佳实施例的音频信号处理原理图；

图17是以图16为基础的多描述编码器结构及原理图；

图18是以图16为基础的多描述解码器结构及原理图；

图19是本发明一较佳实施例的多描述标量量化器编解码立体图表。

具体实施方式

下面结合附图及具体实施例对本发明详细说明。

本发明所提供的音频信号处理方法，在音频信号发送端，分别将针对音频信号处理所得的剩余信号和掩蔽门限信号编码为剩余信号多描述和掩蔽门限信号多描述，再分别将各路剩余信号描述与多路掩蔽门限信号描述中的一路合路，生成均包含有剩余信号和掩蔽门限信号的多路描述；在音频信号接收端，将接收到的所有描述中每个描述所包含的剩余信号描述和掩蔽门限信号描述分路，再将分路后所生成的所有剩余信号描述解码为一路剩余信号，还将分路后所生成的所有掩蔽门限信号描述解码为一路掩蔽门限信号。

本发明所提供的音频信号处理***，包括位于音频信号发送端的多描述编码器，由均与合路器相连的剩余信号多描述编码器、掩蔽门限信号多描述编码器组成；还包括位于音频信号接收端的多描述解码器，由均与分路器相连的剩余信号多描述解码器、掩蔽门限信号多描述解码器组成；

其中，剩余信号/掩蔽门限信号多描述编码器，用于将收到的剩余信号/掩蔽门限信号编码为剩余信号/掩蔽门限信号多描述，并将编码后所生成的多描述发送给合路器；合路器，用于分别将收到的各路剩余信号描述与所有掩蔽门限信号描述中的一路合路，生成均包含有剩余信号和掩蔽门限信号的多描述；分路器，用于将接收到的所有描述中每个描述所包含的剩余信号描述和掩蔽门限信号描述分路，并将分路后所生成的剩余信号/掩蔽门限信号多描述发送给剩余信号/掩蔽门限信号多描述解码器；剩余信号/掩蔽门限信号多描述解码器，用于将收到的剩余信号/掩蔽门限信号多描述解码为一路剩余信号/掩蔽门限信号。

本发明所提供的音频信号发送装置由均与合路器相连的剩余信号多描述编码器、掩蔽门限信号多描述编码器组成；其中，剩余信号/掩蔽门限信号多描述编码器，用于将收到的剩余信号/掩蔽门限信号编码为剩余信号/掩蔽门限信号多描述，并将编码后所生成的多描述发送给合路器；合路器，用于分别将收到的各路剩余信号描述与所有掩蔽门限信号描述中的一路合路，生成均包含有剩余信号和掩蔽门限信号的多路描述。

本发明所提供的音频信号接收装置由均与分路器相连的剩余信号多描述解码器、掩蔽门限信号多描述解码器组成；其中，分路器，用于将接收到的所有描述中每个描述所包含的剩余信号描述和掩蔽门限信号描述分路，并将分路后所生成的剩余信号/掩蔽门限信号多描述发送给剩余信号/掩蔽门限信号多描述解码器；剩余信号/掩蔽门限信号多描述解码器，用于将收到的剩余信号/掩蔽门限信号多描述解码为一路剩余信号/掩蔽门限信号。

从原理上讲，本发明可大致分为两个层面，在音频信号处理层面：需要对音频信号进行多描述的分析与合成，如：将音频信号分解为互不相关的掩蔽门限信号和剩余信号；在量化和编码层面：分别对掩蔽门限信号和剩余信号进行多描述多解码器的多描述编解码处理。再有，在信道丢包严重时，还可以根据不同描述的历史记录对丢包进行差错隐藏。

参见图1，图1是本发明一较佳实施例的音频信号编码器结构及原理图。图1中，经过窗选的原始音频信号被分成两路，将其中一路输入时频分析模块110，将另一路输入心理声学模块120。

心理声学模块120对收到的音频信号进行心理声学模型分析，得到与当前收到的音频帧相关的掩蔽门限信号，并将得到的掩蔽门限信号分别发送给剩余信号分析模块130、多描述编码器140和比特分配模块150。时频分析模块110对收到的音频信号进行修正离散余弦变换(MDCT)等时频分析处理，并将时频分析处理所得到的频域MDCT系数等时频变换参数发送给剩余信号分析模块130；剩余信号分析模块130利用收到的掩蔽门限信号去除收到的时频变换参数中的听觉不相干信息或不相干度，得到去除了听觉不相干性的剩余信号并发送给多描述编码器140。

多描述编码器140对收到的能表征当前音频信号信息的剩余信号和掩蔽门限信号进行多描述编码，得到两个可以单独或联合处理的描述：描述1和描述2，并将描述1和描述2发送给无失真编码及音频包处理模块160。比特分配模块150将收到的掩蔽门限信号作为比特分配的控制信息，根据该掩蔽门限信号确定比特分配方式、描述标识和量化器标识等边信息，并将确定的边信息发送给无失真编码及音频包处理模块160。

无失真编码及音频包处理模块160对收到的描述1和描述2进行Huffman编码、算术编码或游程长度编码等无失真编码处理，以消除信源多余度，进一步降低比特率；之后将所述边信息加入完成编码处理的描述1和描述2并进行比特封装，再将封装好的描述1和描述2的编码比特流送入信道。

参见图2，图2是本发明一较佳实施例的音频信号解码器结构及原理图。图2中，音频包解包及无失真解码模块210、多描述解码器220、参数重构模块230和时频合成模块240依次相连。其中，音频包解包及无失真解码模块210对收到的描述1和描述2进行解包和解码操作，并将得到的描述1、描述2和边信息发送给多描述解码器220；多描述解码器220对收到的描述1、描述2和边信息进行多描述解码，将解码所得到的掩蔽门限信号和剩余信号发送给参数重构模块230；参数重构模块230利用收到的掩蔽门限信号和剩余信号重构时频变换参数，并将完成重构所得到的时频变换参数发送给时频合成模块240，由时频合成模块240根据时频变换参数重构出音频信号。

在上述的图1、图2中，心理声学模块120中设置有心理声学模型，该模型描述有人耳对音频信号的感知特性，该描述主要体现在掩蔽特性；从音频压缩和编码的角度看，心理声学模型决定了临界频带内人耳感觉不到的最大量化噪声的能量，或者说是在听觉感知意义上的噪声掩蔽门限。具体而言，所述心理声学模型可以有不同的实现方法，如：采用目前常用的MPEG-1和MPEG-2的第一、二层音频编码所采用的模型1，或采用作为第三层的MP3音频编码所采用的模型2，或采用Ogg Vorbis音频编码中的基底曲线(Floor)，也可以采用AC3音频编码中的心理声学模型等其它种类的心理声学模型。

时频分析模块110的功能是对时域音频信号进行变换或滤波，以去除原始音频信号中的相关性所带来的多余度。基于变换的时频分析可以采用MDCT、调制重叠变换(MLT)或离散小波变换(DWT)等时频变换方式，基于变换的时频分析得到的是变换域或频域的音频参数；基于滤波的时频分析可以采用类似于MPEG-1和MPEG-2音频编码采用的子带滤波算法，并在各个子带内进行如MDCT、MLT或DWT等的时频变换处理，得到的也是变换域或频域的音频参数。另外，图2中的时频合成模块240的功能与时频分析模块110的功能相反，即：利用频域音频参数进行反变换，得到重构后的音频信号。

剩余信号分析模块130的主要功能是剔除存留在经过时频分析后的频域音频信号中的听觉不相关度。如果这种处理是在线性域进行的，可以用音频频域参数除以掩蔽门限信号得到剩余信号；如果是在对数域进行的，可以用音频频域参数减去掩蔽门限信号得到剩余信号。另外，图2中的参数重构模块230的功能与剩余信号分析模块130的功能相反，即：用多描述解码得到的剩余信号和掩蔽门限信号重构音频频域参数。如果是线性域，可以用听觉剩余信号与掩蔽门限信号相乘得到时频变换参数；如果是对数域，可以用剩余信号与掩蔽门限信号相加得到时频变换参数。

比特分配模块150的功能是根据收到的掩蔽门限信号控制多描述编码的量化器量化精度，同时根据可用比特数对无失真编码和音频包的形成进行动态比特分配，用迭代方法反复调整量化精度和比特分配，直到可用比特数用完，或者已达到预设编码质量。在实际应用中，比特分配模块150支持固定速率(CBR)、可变速率(VBR)和平均速率(ABR)等编码模式。

无失真编码及音频包处理模块160用于分别对描述1和描述2进行无失真熵编码，之后再加上边信息形成两个编码描述比特流输出。输出的所述两个描述比特流在重要性方面可以是等同的或不等同的，上述两个描述的编码所需的比特数可以是相同的或不同的，这两个描述比特流的编码速率可以是相同的或不同的。另外，音频包解包及无失真解码模块210的功能与无失真编码及音频包处理模块160的功能相反，即：对两个描述比特流进行解包和无失真解码，得到两个音频描述信息。

在实际应用中，图1所示的多描述编码器140可以如图3所示，图2所示的多描述解码器220则可以如图4所示。

参见图3，图3是本发明实施例1的多描述编码器结构及原理图。图3中，剩余信号多描述编码器310和掩蔽门限信号多描述编码器320均分别与合路器330、合路器340相连。实际应用时，剩余信号多描述编码器310对收到的剩余信号进行编码处理，并将编码处理所形成的剩余信号描述1和剩余信号描述2分别发送给合路器330、合路器340；掩蔽门限信号多描述编码器320对收到的掩蔽门限信号进行编码处理，并将编码处理所形成的掩蔽门限信号描述1和掩蔽门限信号描述2分别发送给合路器330、合路器340。合路器330对收到的剩余信号描述1和掩蔽门限信号描述1进行合路处理，并将完成合路后所生成的描述1发送出去；合路器340对收到的剩余信号描述2和掩蔽门限信号描述2进行合路处理，并将完成合路后所生成的描述2发送出去。

剩余信号多描述编码器310和掩蔽门限信号多描述编码器320可以采用的编码算法有多种，如：目前常用的多描述标量量化算法(MDSQ)、多描述变换编码算法(MDTC)或多描述矢量量化(VQ)方法。值得注意的是：相对于剩余信号而言，由于掩蔽门限信号可能只包含较小的数据量，所以掩蔽门限信号所对应的多描述编码方式还可以是直接拷贝。

当然，剩余信号多描述编码器310和掩蔽门限信号多描述编码器320还可以接收并处理边信息，再将完成处理的边信息发送给合路器330和合路器340，由合路器330、合路器340对收到的边信号以及其它描述进行合路处理。

参见图4，图4是本发明实施例1的多描述解码器结构及原理图。图4中，分路器410、分路器420均分别与剩余信号多描述解码器430和掩蔽门限信号多描述解码器440相连。实际应用时，分路器410对收到的描述1进行分路处理，并将分路处理所形成的剩余信号描述1和掩蔽门限信号描述1分别发送给剩余信号多描述解码器430、掩蔽门限信号多描述解码器440；分路器420对收到的描述2进行分路处理，并将分路处理所形成的剩余信号描述2和掩蔽门限信号描述2分别发送给剩余信号多描述解码器430、掩蔽门限信号多描述解码器440。剩余信号多描述解码器430对收到的剩余信号描述1和剩余信号描述2进行解码处理，并将完成解码后所生成的完成重构的剩余信号发送出去；掩蔽门限信号多描述解码器440对收到的掩蔽门限信号描述1和掩蔽门限信号描述2进行解码处理，并将完成解码后所生成的完成重构的掩蔽门限信号发送出去。

当然，分路器410和分路器420还可以接收并处理边信息，再将完成处理的边信息发送给剩余信号多描述解码器430、掩蔽门限信号多描述解码器440，由剩余信号多描述解码器430、掩蔽门限信号多描述解码器440对收到的边信号以及其它描述进行解码处理。再有，在实际应用中，发送给所述分路器的可能只有描述1或描述2；在这种情况下，接收到所述描述的分路器会正常对该描述进行分路等后续处理，完成分路的描述也会被正常进行后续的解码处理。

在实际应用中，图4所示的剩余信号多描述解码器430可以如图5所示，而掩蔽门限信号多描述解码器440则可以如图6所示。

参见图5，图5是本发明实施例2的剩余信号多描述解码器结构及原理图，图5所示的解码器是采用三解码器结构对接收到的描述进行多描述解码的。具体而言，如果只接收到一个描述，就用收到该描述的作为边解码器的剩余信号多描述解码器a510或剩余信号多描述解码器c530对所述描述解码；如果接收到两个描述，就用收到该描述的作为中心解码器的剩余信号多描述解码器b520对所述描述解码。

参见图6，图6是本发明实施例2的掩蔽门限信号多描述解码器结构及原理图，图6所示的解码器是采用三解码器结构对接收到的描述进行多描述解码的。具体而言，如果只接收到一个描述，就用收到该描述的作为边解码器的掩蔽门限信号多描述解码器a610或掩蔽门限信号多描述解码器c630对所述描述解码；如果接收到两个描述，就用收到该描述的作为中心解码器的掩蔽门限信号多描述解码器b620对所述描述解码。

图5、图6中所示的多描述解码器输出信号的开关位置可根据接收到描述的情况自动进行选择。

在实际应用中，图3、图4中的剩余信号和掩蔽门限信号多描述编解码器可以由多描述奇偶分离算法实现，如图7、图8所示；也可以由多描述对偶变换算法实现，如图9、图10所示；还可以由多描述标量量化算法实现，如图11至图18所示。

下面，以附图为例，分别针对上述的不同多描述编解码算法进行描述。需要说明的是，在以下描述中，多描述编解码的对象主要是剩余信号；在实际应用中，也可以应用相同的多描述编解码算法对掩蔽门限信号或其它音频信号分量进行处理。

针对由多描述奇偶分离算法实现多描述编解码的情况而言，其操作原则为：将时域或频域音频参数按照其索引值或自然顺序奇偶分开。由于奇偶分开的两个描述完全不相关；因此在两个描述之间引入的冗余度为零，总的编码速率也不会因此而增加。

参见图7，图7是本发明实施例3的剩余信号多描述编码器结构及原理图。图7中，奇偶分离模块710对收到的剩余信号进行奇偶分离处理，并将完成处理所生成的描述1、描述2分别发送给熵编码器720、熵编码器730；熵编码器720对收到的描述1进行编码处理，并将完成编码处理后所生成的描述1的比特流发送出去；熵编码器730对收到的描述2进行编码处理，并将完成编码处理后所生成的描述2的比特流发送出去。

具体而言，剩余信号用R(k)表示：R(k)，k＝1，2，3，......N

其中，N为剩余信号的个数(一般为偶数)，同时也是音频分析窗长的一半。

剩余信号的两个多描述算法信号分别用两个描述M₁(k₁)和M₂(k₂)表示：

描述1：M₁(k₁)，k₁＝1，2，3，......N/2

描述2：M₂(k₂)，k₂＝1，2，3，......N/2

那么奇偶多描述变换算法及结果如下：

当k为奇数，即k＝1，3，5，......N-1时，M₁(k₁)＝R(k)

其中，k₁＝(k+1)/2；

当k为偶数，即k＝2，4，6，......N时，M₂(k₂)＝R(k)

其中，k₂＝k/2。

在上述奇偶多描述变换后，熵编码器720、730分别对多描述信号M₁(k₁)和M₂(k₂)进行编码，并把编码所得的数据和各自的掩蔽门限信号组合形成描述比特流发送出去。

参见图8，图8是与图7中的多描述编码器相配合的多描述解码器结构及原理图。图8中，熵解码器810对收到的描述1的比特流进行解码处理，并将完成解码处理后所生成的描述1发送给奇偶合成模块830、奇偶合成模块840；熵解码器820对收到的描述2的比特流进行解码处理，并将完成解码处理后所生成的描述2发送给奇偶合成模块850、奇偶合成模块840。

图8中所示的奇偶合成模块输出信号的开关位置可根据接收到描述的情况自动进行选择，如：当只接收到一个描述时，就用收到该描述的奇偶合成模块对该描述进行解码，并连通该奇偶合成模块的输出端以输出经奇偶合成后所生成的完成重构的剩余信号；当两个描述都接收到时，就用收到这两个描述的奇偶合成模块840对这两个描述进行解码，并连通奇偶合成模块840的输出端以输出经奇偶合成后所生成的完成重构的剩余信号。

具体而言，如果两个描述都接收到了，就分别对两个描述进行解码，得到两个多描述信号：描述1(M₁)和描述2(M₂)，并将这两个描述合成为剩余信号，具体的合成算法如下：

当k为奇数，即k＝1，3，5，......N-1时，使R(k)＝M₁(k₁)，其中k₁＝(k+1)/2；

当k为偶数，即k＝2，4，6，......N时，使R(k)＝M₂(k₂)，其中k₂＝k/2。

如果只接收到一个描述，就对这个描述进行解码，得到一个多描述信号。

当这个多描述信号为描述1(M₁)时：

当k为奇数，即k＝1，3，5，......N-1时，使R(k)＝M₁(k₁)，其中k₁＝(k+1)/2，

当k为偶数，即k＝2，4，6，......N时，使R(k)＝0，其中k₂＝k/2。

当这个描述信号为描述2(M₂)时：

当k为奇数，即k＝1，3，5，......N-1时，使R(k)＝0，其中k₁＝(k+1)/2，

至此，就成功重构出了剩余信号。

针对由多描述对偶变换算法实现多描述编解码的情况而言，其操作原则为：通过变换矩阵T把两个不相关的变量A和B变换成两个具有一定相关性的变量C和D。变量C和D之间相关性的大小由变换矩阵T决定。具体而言，所述变换矩阵通常被分为正交矩阵和非正交矩阵，这两种变换矩阵所引入的相关性的范围不相同，而且对应的对偶变换算法的实现方法也完全不同。

下面，只以非正交矩阵为例描述多描述对偶变换算法。

所述对偶变换算法中各变换参数的定义为：

输入矩阵：

[\begin{matrix} A \\ B \end{matrix}]

对偶变换矩阵：

T = [\begin{matrix} a & b \\ c & d \end{matrix}]

对偶变换输出矩阵：

[\begin{matrix} C \\ D \end{matrix}] = T [\begin{matrix} A \\ B \end{matrix}]

其中，a，b，c，d为变换矩阵的系数，决定着在两个描述之间的引入的冗余度，且ad-bc＝1；A，B为输入信号；C，D为输出信号。

整型变换的具体算法如下：在编码端，编码器对信号A和B进行对偶正变换：

\overset{&OverBar;}{A} = [\frac{A}{Q}],

\overset{&OverBar;}{B} = [\frac{B}{Q}]

W = \overset{&OverBar;}{B} + [\frac{1 + c}{d} \overset{&OverBar;}{A}]

\overset{&OverBar;}{D} = [dW] - \overset{&OverBar;}{A}

\overset{&OverBar;}{C} = W - [\frac{1 - b}{d} \overset{&OverBar;}{D}]

其中，Q为量化步长，W为中间变量，符号‘[]’表示取整操作。和

分别为A和B量化后的整型变量，

和

分别为两个整型输出变量，

和

将被分别编码以形成两个描述比特流。

在解码端，具体的解码过程因接收到的描述的不同而存在以下三种情况：

(1)

和

两个描述都被正确接收时，由收到这两个描述的解码器对信号

和

进行下面对偶反变换：

W = \overset{&OverBar;}{C} + [\frac{1 - b}{d} \overset{&OverBar;}{D}]

\overset{&OverBar;}{A} = [dW] - \overset{&OverBar;}{D}

\overset{&OverBar;}{B} = W - [\frac{1 + c}{d} \overset{&OverBar;}{A}]

\hat{A} = \overset{&OverBar;}{A} Q,

\hat{B} = \overset{&OverBar;}{B} Q

其中，Q为量化步长；W为中间变量；

和

分别为

和逆量化后的值；‘[]’符号表示取整操作。

(2)只有一个描述

被正确接收时，首先对丢失的信号

进行预测：

\tilde{C} = {\overset{&OverBar;}{C}} Q

\hat{D} = \frac{σ_{c} * σ_{d}}{σ_{c}^{2} + σ_{q}^{2}} * \tilde{C} * \cos φ

再对

和

进行反变换：

[\begin{matrix} \hat{A} \\ \hat{B} \end{matrix}] = T^{- 1} [\begin{matrix} \tilde{C} \\ \hat{D} \end{matrix}]

其中，σ_c、σ_d和σ_q分别为变量C、D和量化误差的标准差；为经过解码器逆量化后的值；

为解码器对

预测恢复出来的值；矩阵T^-1为矩阵T的逆矩阵；

和

为解码器重构出来值；cosφ是变量C、D之间的相关系数。

(3)只有一个描述

被正确接收时，首先对丢失的信号进行预测，

\tilde{D} = \overset{&OverBar;}{D} Q

\hat{C} = \frac{σ_{c} * σ_{d}}{σ_{d}^{2} + σ_{q}^{2}} * \tilde{D} * \cos φ

再对和进行反变换：

[\begin{matrix} \hat{A} \\ \hat{B} \end{matrix}] = T^{- 1} [\begin{matrix} \hat{C} \\ \tilde{D} \end{matrix}]

其中，σ_c、σ_d和σ_q分别为变量C、D和量化误差的标准差；

为

经过解码器逆量化后的值；

为解码器经过对

预测恢复出来的值；矩阵T^-1为矩阵T的逆矩阵；

和

为解码器重构出来值；cosφ是变量C、D之间的相关系数。

需要说明的是：C、D是由输入信号A、B直接和矩阵T相乘得到的：

[\begin{matrix} C \\ D \end{matrix}] = T [\begin{matrix} A \\ B \end{matrix}],

而是把量化后的A、B经过整型变换得到的。

参见图9，图9是本发明实施例4的剩余信号多描述编码器结构及原理图。图9中，剩余信号分对模块910对收到的剩余信号进行信号分对处理，并将完成处理所生成的两路剩余信号发送给对偶变换模块920；对偶变换模块920对收到的两路剩余信号分别进行对偶变换处理并生成两路剩余信号描述M₁、M₂，再将M₁、M₂分别发送给熵编码器930、熵编码器940；熵编码器930对收到的M₁进行编码处理，并将完成编码处理后所生成的M₁的比特流发送出去；熵编码器940对收到的M₂进行编码处理，并将完成编码处理后所生成的M₂的比特流发送出去。

具体而言，剩余信号用R(k)表示：R(k)，k＝1，2，3，......N

其中，N为剩余信号的个数(N一般为偶数)，同时也是音频分析窗长的一半。

描述1：M₁(k₁)，k₁＝1，2，3，......N/2

描述2：M₂(k₂)，k₂＝1，2，3，......N/2

图9所示原理可以表述为以下步骤：

步骤1、初始化循环变量k＝1和其它对偶变换的参数。

步骤2、剩余信号分对模块910对收到的剩余信号进行分对处理，生成变量A和B并发送给对偶变换模块920；其中，A＝R(k)，B＝R(k+1)。

步骤3、对偶变换模块920对A和B进行多描述对偶变换，得到与描述1对应的

以及与描述2对应的

M_{1} (k_{1}) = \overset{&OverBar;}{C},

其中k₁＝(k+1)/2，

M_{2} (k_{2}) = \overset{&OverBar;}{D},

其中k₂＝(k+1)/2；

当然，还要将

发送给熵编码器930，将

发送给熵编码器940。

步骤4、令k＝k+2，如果k＜N-1，转到步骤2；否则，转到步骤5。

步骤5、熵编码器930、940分别对收到的多描述信号M₁(k₁)、M₂(k₂)进行编码，并把编码所得的数据和各自的掩蔽门限信号一起形成描述的比特流发送出去。

需要说明的是，在多描述对偶变换中，变换矩阵起着重要的作用，它控制着两个描述之间所引入的冗余度。

参见图10，图10是与图9中的多描述编码器相配合的多描述解码器结构及原理图。图10中，熵解码器1001对收到的描述1的比特流进行解码处理，并将完成解码处理后所生成的描述1发送给对偶反变换边解码器1003、对偶反变换中心解码器1004；熵解码器1002对收到的描述2的比特流进行解码处理，并将完成解码处理后所生成的描述2发送给对偶反变换边解码器1005、对偶反变换中心解码器1004。再有，对偶反变换边解码器、对偶反变换中心解码器均将自身处理描述所得的剩余信号发送给剩余信号合成模块；由剩余信号合成模块对收到的剩余信号进行合成处理，生成合成的剩余信号。

图10中所示的剩余信号合成模块输出信号的开关位置可根据接收到描述的情况自动进行选择，如：当只接收到一个描述时，就用收到该描述的对偶反变换边解码器对该描述进行解码，并连通该对偶反变换边解码器所连接的剩余信号合成模块的输出端，以输出经合成后所生成的完成重构的剩余信号；当两个描述都接收到时，就用收到这两个描述的对偶反变换中心解码器1004对这两个描述进行解码，并连通对偶反变换边解码器1004所连接的剩余信号合成模块的输出端，以输出经合成后所生成的完成重构的剩余信号。

具体的解码算法可以表述为以下步骤：

步骤1、初始化循环变量k＝1和其它对偶变换的参数。

步骤2、根据接收到的描述的个数，可以应用不同的解码算法对接收到的描述进行解码。具体而言，根据接收到描述的情况分别进行以下处理：

(1)如果熵解码器1001、1002共接收到了两个描述：M₁和M₂，那么，接收到上述描述的熵解码器分别确定自身收到的描述所对应的

\overset{&OverBar;}{C} = M_{1} (k_{1}),

其中k₁＝(k+1)/2，

\overset{&OverBar;}{D} = M_{2} (k_{2}),

其中k₂＝(k+1)/2。

接着，将和发送给对偶反变换中心解码器1004，由对偶反变换中心解码器1004根据多描述对偶变换算法求出

和

并发送给剩余信号合成模块1007；之后，由剩余信号合成模块1007对收到的

和

进行合成处理，并将完成合成处理所生成的完成重构的剩余信号R(k)发送出去。

其中，

R (k) = \hat{A},

R (k + 1) = \hat{B} .

(2)如果只接收到了M₁，那么，接收到M₁的熵解码器确定M₁所对应的

\overset{&OverBar;}{C} = M_{1} (k_{1}),

其中k₁＝(k+1)/2，

所述熵解码器将

发送给对偶反变换边解码器，对偶反变换边解码器根据多描述对偶变换算法预测出

并对和

进行对偶反变换求出

和

再将其发送给剩余信号合成模块，由该剩余信号合成模块对收到的

和

其中，

R (k) = \hat{A},

R (k + 1) = \hat{B} .

(3)如果只接收到了M₂，那么，接收到M₂的熵解码器确定M₂所对应的

\overset{&OverBar;}{D} = M_{2} (k_{2}),

其中k₂＝(k+1)/2。

所述熵解码器将

发送给对偶反变换边解码器；对偶反变换边解码器根据多描述对偶变换算法预测出

并对和

进行对偶反变换求出

和再将其发送给剩余信号合成模块，由该剩余信号合成模块对收到的

和

其中，

R (k) = \hat{A},

R (k + 1) = \hat{B} .

步骤3，令k＝k+2，如果k＜N-1，转到步骤2；否则，转到步骤4。

步骤4，结束。

至此，剩余信号就被成功重构出来了。

针对由多描述标量量化算法实现的多描述编解码而言，其操作原则为：用一个单输入多输出的标量量化器对信源进行量化编码，并将量化所得的多个输出结果作为这个信源的多描述；用一个多输入单输出的标量量化解码器对多描述输入进行编码，并将解码所得的单个输出结果作为这个信源的重构信号。

下面以两个描述为例阐述多描述标量量化的原理和方法。

参见图11，图11是本发明一较佳实施例的音频信号处理原理图。图11中，x是原始音频信号；l是经过量化编码后所得到的索引；匹配器a(·)1103用于将索引l匹配成索引对(i，j)；边解码器1104、1106分别用于对接收到的i和j进行解码，产生完成解码后的信号

和中心解码器1105用于对接收到的i和j进行解码，产生完成解码后的信号

在整个多描述标量量化的过程中，最重要的就是匹配器a(·)1103的实现，也就是怎样把l匹配成(i，j)。下面举例说明：

x经过编码器1102的编码处理后，所生成的索引l的范围如图12所示，为：1～10，即量化x的量化区间总共有十个。

这时，可以使用表1来实现匹配器a(·)1103的功能，即把l匹配成i和j：

	j
	j					i		1	2	3	4
1	1	2						1	2	3	4
1	1	2			2		3	4	6
3		5	7	8	2		3	4	6
3		5	7	8	4				9	10

表1多描述标量量化表

由表1所实现的匹配过程的本质是用两个多描述的量化器(分别对应量化后的索引值i和j)来代替单描述时的量化器(对应量化后的索引值l)，这三个量化器的量化区间之间的对应关系如图13所示。在实际应用中，可以通过调整多描量化精度来控制在多描述之间所引入的冗余度，通常可以通过设计不同表格的方式来实现这种调整。一般情况下，多描述量化精度越高，所引入的冗余度就越高。

在解码器一侧，解码处理过程可以会有三种具体形式：

(1)当接收到i和j时，中心解码器1105可以根据表1查找到唯一的l值，可无损的解出信号l。

具体而言，中心解码器1105首先在表1中找到i和j分别对应的行和列，然后再找该行和该列在表1中相交处的值，并将该值作为多描述标量量化前的值l。

(2)当只接收到i时，收到i的解码器可以根据表1中的数据估算出l的值。估算的方法有很多种，如：将表1中的i所对应的每行数据的平均值作为l的值；也可以将表1中的i所对应的每行数据的最大值或最小值作为l的值。

(3)当只接收到j时，具体的解码过程与只接收到i时的解码过程相同。

需要说明的是，在设计解码算法时，可以根据信源的特点来具体确定最优的估算方法。

图11中所描述的编解码原理可以应用于图14、15中；实际上，图14、15所描述的编解码过程只是对图11中的编解码原理的一个具体应用。

参见图14，图14是以图11为基础的多描述编码器结构及原理图。图14中，双描述标量量化器1401对收到的剩余信号进行标量量化处理，并将完成处理所生成的描述1、描述2分别发送给熵编码器1402、熵编码器1403；熵编码器1402对收到的描述1进行编码处理，并将完成编码处理后所生成的描述1的比特流发送出去；熵编码器1403对收到的描述2进行编码处理，并将完成编码处理后所生成的描述2的比特流发送出去。

具体而言，剩余信号用R(k)表示：R(k)，k＝1，2，3，......N

其中，N为剩余信号的个数，同时也是音频分析窗长的一半。

M₁(k₁)，k₁＝1，2，3，......N；

M₂(k₂)，k₂＝1，2，3，......N。

在实际应用中，图14所示原理可以表述为以下步骤：

步骤1、初始化循环变量k：k＝1。

步骤2、将剩余信号R(k)作为索引值，根据表2查找匹配的索引对M₁(k₁)，M₂(k₂)；其中k₁＝k₂＝k。M₁(k₁)，M₂(k₂)索引对正是需要进行编码处理的两个描述信号，并且该索引对相当于图11中的索引对(i，j)。

	描述2：M₂(k₂)
	描述2：M₂(k₂)							描述1M₁(k₁ )		...	-6	-5	-4	-3	-2	-1	0	1	2	3	4	5	6	...
...	...									...	-6	-5	-4	-3	-2	-1	0	1	2	3	4	5	6	...
...	...						-6		...	-18	-16
-5		-17	-15	-14			-6		...	-18	-16
-5		-17	-15	-14			-4				-13	-12	-10
-3				-11	-9	-8	-4				-13	-12	-10

-2	-7	-6	-4
-2	-7	-6	-4									-1	-5	-3	-2
0			-1	0	2							-1	-5	-3	-2
0			-1	0	2							1			1	3	4
2					5	6	8					1			1	3	4
2					5	6	8					3					7	9	10
4							11	12	14			3					7	9	10
4							11	12	14			5							13	15	16
6									17	18	...	5							13	15	16
6									17	18	...	...										...

表2多描述标量量化表

步骤3、令k＝k+1，如果k＜N，转到步骤2；否则，转到步骤4。

步骤4、由收到M₁(k₁)、M₂(k₂)的熵编码器分别对M₁(k₁)、M₂(k₂)进行编码处理，并将编码所得的数据和各自的掩蔽门限信号一起形成描述的比特流发送出去。

在多描述标量量化的过程中，表2的设计起着关键的作用。表2中对角线上的各数据之间的差值越小，描述的量化精度就越高，相同音质的编码速率就越高。

与图14中描述的编码过程相对应的解码过程如图15所示。参见图15，图15是以图11为基础的多描述解码器结构及原理图。图15中，熵解码器1501对收到的描述1的比特流进行解码处理，并将完成解码处理后所生成的描述1发送给多描述标量量化边解码器1503、多描述标量量化中心解码器1504；熵解码器1502对收到的描述2的比特流进行解码处理，并将完成解码处理后所生成的描述2发送给多描述标量量化边解码器1505、多描述标量量化中心解码器1504。

图15中所示的多描述标量量化边解码器和多描述标量量化中心解码器输出信号的开关位置可根据接收到描述的情况自动进行选择，如：当只接收到一个描述时，就用收到该描述的多描述标量量化边解码器对该描述进行标量量化解码，并连通该多描述标量量化边解码器的输出端以输出经解码后所生成的完成重构的剩余信号；当两个描述都接收到时，就用收到这两个描述的多描述标量量化中心解码器1504对这两个描述进行双描述标量量化解码，并连通多描述标量量化中心解码器1504的输出端以输出经解码后所生成的完成重构的剩余信号。

具体而言，图15所示原理可以表述为以下步骤：

步骤1、设置k＝1。

步骤2、根据接收到描述比特流的情况分别处理：

如果接收到了两个描述：M₁(k₁)和M₂(k₂)，根据表2可以唯一查到剩余信号R(k)的值；

如果只接收到了描述1：M₁(k₁)，根据表2查到描述1所对应的行，并将该行中绝对值最小的值作为剩余信号R(k)的值；

如果只接收到了描述2：M₂(k₂)，根据表2查到描述2所对应的列，并将该列中绝对值最小的值作为剩余信号R(k)的值；

其中k₁＝k₂＝k。

步骤3、令k＝k+1，如果k＜N，转到步骤2；否则，转到步骤4。

步骤4、结束。

至此，就成功重构出了剩余信号。

以上所述为针对两个描述的标量量化原理和方法；在实际应用中，当信道丢包率大于25％甚至更高时，如果仍采用两个描述的标量量化方式，那么当两个描述间断甚至连续同时丢失时，音频通信所必需的音频连续性将受到严重影响。在这种情况下，如果能够增加描述的个数，将可以有效避免较高丢包率所带来的音质下降和音频不连续等问题；可见，包含三个或者三个以上描述的算法构架在实际应用中通常也是十分必要的。

为此，下面以三个描述为例阐述多描述标量量化的原理和方法；至于其它类型以及更多描述的算法可以此为参考进行设计。并且，在这些算法描述中，多描述编解码的对象主要是剩余信号；当然，在实际应用中，多描述编解码的对象也可以是掩蔽门限信号或其它音频信号分量。

参见图16，图16是本发明另一较佳实施例的音频信号处理原理图。图16中，x是原始音频信号，l是经过量化编码后所得到的索引；匹配器a(·)1603用于将索引l匹配成索引集合(h，i，j)；单描述边解码器用于对接收到的h、i或j进行解码，产生完成解码后的信号或

双描述边解码器用于对接收到的h和i、h和j、i和j这样的两个描述进行解码，产生完成解码后的信号

中心解码器用于对接收到的全部三个描述信号h、i和j进行解码，产生完成解码后的信号

图16所示的多描述标量量化过程与图11所示的多描述标量量化过程原理相同，在此不再赘述。实际上，无论是双描述、三描述还是更多描述的编解码过程，其操作原理都是相同的：

针对编码过程而言，根据要生成的描述的数量，分别将剩余信号和掩蔽门限信号编码为与所述描述数量相同的剩余信号描述和掩蔽门限信号描述，再分别将各剩余信号描述与其中一路掩蔽门限信号描述合路；最终生成多个描述，并且每个描述中都包含有剩余信号和掩蔽门限信号。

针对解码过程而言，将接收到的各描述中的剩余信号描述和掩蔽门限信号描述分路，再将分路后所生成的所有剩余信号描述解码为一路剩余信号，还将分路后所生成的所有掩蔽门限信号描述解码为一路掩蔽门限信号。

图16中所描述的编解码原理可以应用于图17、18中；实际上，图17、18所描述的编解码过程只是对图16中的编解码原理的一个具体应用。

参见图17，图17是以图16为基础的多描述编码器结构及原理图。图17中，三描述标量量化器1701对收到的剩余信号进行三描述标量量化处理，并将完成处理所生成的描述1、描述2、描述3分别发送给熵编码器1702、熵编码器1703、熵编码器1704；熵编码器1702、1703、1704分别对收到的描述进行编码处理，并将完成编码处理后所生成的描述比特流发送出去。

具体而言，剩余信号用R(k)表示：R(k)，k＝1，2，3，......N；

其中，N为剩余信号的个数，并且也是音频分析窗长的一半。

剩余信号的三个多描述算法信号分别用两个描述M₁(k₁)、M₂(k₂)和M₃(k₃)表示：

M₁(k₁)，k₁＝1，2，3，......N；

M₂(k₂)，k₂＝1，2，3，......N；

M₃(k₃)，k₃＝1，2，3，......N。

在实际应用中，图17所示原理可以表述为以下步骤：

步骤1、初始化循环变量k：k＝1。

步骤2、将剩余信号R(k)作为索引值，并查找匹配的三维坐标点M₁(k₁)，M₂(k₂)和M₃(k₃)；其中k₁＝k₂＝k₃＝k。三维坐标点M₁(k₁)，M₂(k₂)和M₃(k₃)正是需要进行编码处理的三个描述信号；并且三维坐标点M₁(k₁)，M₂(k₂)和M₃(k₃)相当于图16中的三个描述信号(h，i，j)。

步骤3、令k＝k+1，如果k＜N，转到步骤2；否则，转到步骤4。

步骤4、由收到M₁(k₁)、M₂(k₂)、M₃(k₃)的熵编码器分别对M₁(k₁)、M₂(k₂)、M₃(k₃)进行编码处理，并将编码所得的数据和各自的掩蔽门限信号一起形成描述的比特流发送出去。

与图17中描述的编码过程相对应的解码过程如图18所示。参见图18，图18是以图16为基础的多描述解码器结构及原理图。图18中，熵解码器1801对收到的描述1的比特流进行解码处理，并将完成解码处理后所生成的描述1发送给多描述标量量化边解码器1804、1806、1809和多描述标量量化中心解码器1807；熵解码器1802对收到的描述2的比特流进行解码处理，并将完成解码处理后所生成的描述2发送给多描述标量量化边解码器1805、1806、1808和多描述标量量化中心解码器1807；熵解码器1803对收到的描述3的比特流进行解码处理，并将完成解码处理后所生成的描述3发送给多描述标量量化边解码器1808、1809、1810和多描述标量量化中心解码器1807。

图18中所示的多描述标量量化边解码器和多描述标量量化中心解码器输出信号的开关位置可根据接收到描述的情况自动进行选择，如：当只接收到一个或两个描述时，就用收到所述描述的多描述标量量化边解码器对该描述进行解码，并连通该多描述标量量化边解码器的输出端以输出经解码后所生成的完成重构的剩余信号；当三个描述都接收到时，就用收到这三个描述的多描述标量量化中心解码器1807对这三个描述进行解码，并连通多描述标量量化中心解码器1807的输出端以输出经解码后所生成的完成重构的剩余信号。

具体而言，图18所示原理可以表述为以下步骤：

步骤1、设置k＝1。

步骤2、根据接收到描述比特流的情况分别处理：

如果接收到了三个描述：M₁(k₁)、M₂(k₂)和M₃(k₃)，根据收到的描述可唯一查找到剩余信号R(k)的值；

如果只接收到M₁(k₁)、M₂(k₂)和M₃(k₃)中的两个描述，根据收到的描述查到对应的轴，并把该轴上绝对值最小的值作为剩余信号R(k)的值；

如果只接收到了一个描述：M₁(k₁)、M₂(k₂)或M₃(k₃)，根据收到的描述查到对应的平面，并把该平面上绝对值最小的值作为剩余信号R(k)的值；

其中k₁＝k₂＝k₃＝k。

步骤3、令k＝k+1，如果k＜N，转到步骤2；否则，转到步骤4。

步骤4、结束。

至此，就成功重构出了剩余信号。

需要说明的是：在三描述标量量化的过程中，图19所示的设计在根据描述查找剩余信号的值时起着关键的作用。参见图19，图19是本发明一较佳实施例的多描述标量量化器编解码立体图表。图19中，三个正交的坐标轴分别代表着三个描述：M₁(k₁)、M₂(k₂)、M₃(k₃)。图19的设计原理和表2的基本一样，区别只在于由表2中的对角线变成了分别与三个坐标轴成60度角的一条直线，这条直线上的各数据之间的差值越小，说明其周围分布的数据越少，每个描述的值对应的剩余信号的值的个数就越少，描述的量化精度就越高，相同音质的编码速率也就越高。

在实际应用中，以上所述的所有多描述编解码算法均可保证：在理想无丢包的情况下利用接收到的两个描述正常地对音频信号进行解码，也可以在一定的丢包率范围内利用接收到的一个描述去估算另外一个丢掉的描述，进而利用描述之间的相关性恢复和重构音频信号。然而，当丢包率继续增大时，两个描述可能会同时丢失，这时多描述解码器也很难较好地进行音频解码与音频重构。因此，为了在丢包严重时改善音质，可以进一步对多描述编解码算法进行改进和完善；为此，下面提出几种基于多描述编码的丢包隐藏处理算法：

1.在前述的奇偶分离多描述编码算法中，由于奇描述与偶描述是完全独立的两个描述，它们之间没有任何相关性；因此，在其中的一个描述丢失时，无法利用接收到的另一个描述估算出丢失的描述。为此，可以采用如下丢包隐藏处理算法：

用前一帧正常接收的描述代替当前帧丢失的描述；或者，用前一帧正常接收的描述乘以一个衰减因子(可以设置为：在0.5至0.9之间)，用乘得的值代替当前帧丢失的描述；或者，用当前帧正常接收的描述与0的线性插值代替当前帧丢失的描述。

2. 当因丢包严重而导致两个描述同时丢失时，分别采用前一帧正常接收的描述乘以一个衰减因子(可以设置为：在0.5至0.9之间)，用乘得的值分别代替当前帧丢失的描述，并以此估算当前帧音频参数或音频信号。

3.当因丢包严重而导致某个描述连续丢失时，采用按帧递减的算法，利用最后一帧正常接收的描述按帧乘以一个衰减因子(可以设置为：在0.5至0.9之间)，用乘得的值分别代替当前帧丢失的描述。

以上各图中，如出现熵编/解码器的，实际上可以只应用一个熵编/解码器对描述进行编/解码处理，而不是像图中那样应用两个甚至多个熵编/解码器；并且，也可以将熵编/解码器替换为其它类型的编/解码器；再有，在对所述剩余信号进行处理之前，可以进一步对其进行取整、量化和/或编码处理。

由以上所述可以看出，本发明所提供的音频信号处理方法、***以及音频信号收发装置，均可有效提高通信过程中的音频质量，提高用户满意度。

Claims

1.一种音频信号处理方法，其特征在于：

在音频信号发送端，分别将针对音频信号处理所得的剩余信号和掩蔽门限信号编码为剩余信号多描述和掩蔽门限信号多描述，再分别将各路剩余信号描述与多路掩蔽门限信号描述中的一路合路，生成均包含有剩余信号和掩蔽门限信号的多路描述；

2.如权利要求1所述的方法，其特征在于，将剩余信号/掩蔽门限信号编码为所述剩余信号/掩蔽门限信号多描述的方法为：

3.如权利要求2所述的方法，其特征在于，将所述剩余信号/掩蔽门限信号多描述解码为一路剩余信号/掩蔽门限信号的方法为：

4.如权利要求1所述的方法，其特征在于，将剩余信号/掩蔽门限信号编码为所述剩余信号/掩蔽门限信号多描述的方法为：

5.如权利要求4所述的方法，其特征在于，将所述剩余信号/掩蔽门限信号多描述解码为一路剩余信号/掩蔽门限信号的方法为：

6.如权利要求2至5任一项所述的方法，其特征在于，所述多描述为包含两个描述的双描述。

7.如权利要求1所述的方法，其特征在于，将剩余信号/掩蔽门限信号编码为所述剩余信号/掩蔽门限信号多描述的方法为：

8.如权利要求7所述的方法，其特征在于，将所述剩余信号/掩蔽门限信号多描述解码为一路剩余信号/掩蔽门限信号的方法为：

9.如权利要求7或8所述的方法，其特征在于，所述多描述包含两个以上描述。

10.如权利要求1所述的方法，其特征在于，所述剩余信号是对原始音频信号进行时频分析、剩余信号分析后所得到的。

11.如权利要求10所述的方法，其特征在于：

12.如权利要求1所述的方法，其特征在于，所述掩蔽门限信号是对原始音频信号进行心理声学模型分析后所得到的。

13.如权利要求1、2、3、4、5、6、7、8、10、11或12所述的方法，其特征在于，进一步对发送端所生成的剩余信号的多描述和掩蔽门限信号的多描述进行无失真编码和音频包处理。

14.如权利要求13所述的方法，其特征在于，在接收端对所述剩余信号多描述和掩蔽门限信号多描述进行分路之前，进一步对该剩余信号多描述和掩蔽门限信号多描述进行音频包解包和无失真解码处理。

15.如权利要求1、2、3、4、5、6、7、8、10、11或12所述的方法，其特征在于，进一步对接收端所生成的剩余信号和掩蔽门限信号进行参数重构和时频合成处理，生成重构的音频信号。

16.一种音频信号处理***，其特征在于，该***包括位于音频信号发送端的多描述编码器，由均与合路器相连的剩余信号多描述编码器、掩蔽门限信号多描述编码器组成；还包括位于音频信号接收端的多描述解码器，由均与分路器相连的剩余信号多描述解码器、掩蔽门限信号多描述解码器组成；

17.如权利要求16所述的***，其特征在于，所述剩余信号/掩蔽门限信号多描述编码器，包括相连的奇偶分离模块、熵编码器；

18.如权利要求17所述的***，其特征在于，所述剩余信号/掩蔽门限信号多描述解码器，包括相连的熵解码器、奇偶合成模块；

19.如权利要求16所述的***，其特征在于，所述剩余信号/掩蔽门限信号多描述编码器，包括依次相连的剩余信号/掩蔽门限信号分对模块、对偶变换模块和熵编码器；

20.如权利要求19所述的***，其特征在于，所述剩余信号/掩蔽门限信号多描述解码器，包括依次相连的熵解码器、对偶反变换解码器和剩余信号/掩蔽门限信号合成模块；

21.如权利要求16所述的***，其特征在于，所述剩余信号/掩蔽门限信号多描述编码器，包括相连的多描述标量量化器、熵编码器；

22.如权利要求21所述的***，其特征在于，所述剩余信号/掩蔽门限信号多描述解码器，包括相连的熵解码器、多描述标量量化解码器；

23.如权利要求21所述的***，其特征在于：

24.如权利要求16所述的***，其特征在于，所述多描述编码器进一步与连接有时频分析模块的剩余信号分析模块相连，还与心理声学模块相连；

25.如权利要求16至24任一项所述的***，其特征在于，所述多描述编码器进一步和无失真编码及音频包处理模块相连；

26.如权利要求25所述的***，其特征在于，所述多描述解码器进一步和音频包解包及无失真解码模块相连；

27.如权利要求16至24任一项所述的***，其特征在于，所述多描述解码器进一步与连接有时频合成模块的参数重构模块相连；

28.一种音频信号发送装置，其特征在于，该装置由均与合路器相连的剩余信号多描述编码器、掩蔽门限信号多描述编码器组成；

29.如权利要求28所述的装置，其特征在于，所述剩余信号/掩蔽门限信号多描述编码器，包括相连的奇偶分离模块、熵编码器；

30.如权利要求28所述的装置，其特征在于，所述剩余信号/掩蔽门限信号多描述编码器，包括依次相连的剩余信号/掩蔽门限信号分对模块、多描述对偶变换模块和熵编码器；

31.如权利要求28所述的装置，其特征在于，所述剩余信号/掩蔽门限信号多描述编码器，包括相连的多描述标量量化器、熵编码器；

32.如权利要求31所述的装置，其特征在于，所述多描述标量量化器是能够处理两个以上描述的多描述标量量化器。

33.如权利要求28所述的装置，其特征在于，所述多描述编码器进一步与连接有时频分析模块的剩余信号分析模块相连，还与心理声学模块相连；

34.如权利要求28至33任一项所述的装置，其特征在于，所述多描述编码器进一步和无失真编码及音频包处理模块相连；

35.一种音频信号接收装置，其特征在于，该装置由均与分路器相连的剩余信号多描述解码器、掩蔽门限信号多描述解码器组成；

36.如权利要求35所述的装置，其特征在于，所述剩余信号/掩蔽门限信号多描述解码器，包括相连的熵解码器、奇偶合成模块；

37.如权利要求35所述的装置，其特征在于，所述剩余信号/掩蔽门限信号多描述解码器，包括依次相连的熵解码器、多描述对偶反变换解码器和剩余信号/掩蔽门限信号合成模块；

38.如权利要求35所述的装置，其特征在于，所述剩余信号/掩蔽门限信号多描述解码器，包括相连的熵解码器、多描述标量量化解码器；

39.如权利要求38所述的装置，其特征在于，所述多描述标量量化解码器是能够处理两个以上描述的多描述标量量化解码器。

40.如权利要求35所述的装置，其特征在于，所述多描述解码器进一步和音频包解包及无失真解码模块相连；

41.如权利要求35至40任一项所述的装置，其特征在于，所述多描述解码器进一步与连接有时频合成模块的参数重构模块相连；