CN101740033B - 一种音频编码方法和音频编码器 - Google Patents
一种音频编码方法和音频编码器 Download PDFInfo
- Publication number
- CN101740033B CN101740033B CN2008101819096A CN200810181909A CN101740033B CN 101740033 B CN101740033 B CN 101740033B CN 2008101819096 A CN2008101819096 A CN 2008101819096A CN 200810181909 A CN200810181909 A CN 200810181909A CN 101740033 B CN101740033 B CN 101740033B
- Authority
- CN
- China
- Prior art keywords
- linear prediction
- curve
- amplitude
- unit
- frequency response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种音频编码方法和音频编码器方法。本发明实施例还提供相应的音频编码器。本发明技术方案由于利用线性预测LP和卷曲线性预测WLP的频率分辨特性非常接近人类听觉特性中的临界频带和掩蔽特性的特点,建立心理声学模型,获取到掩蔽门限,根据获取的掩蔽门限对音频信号进行编码,降低了建立心理声学模型的复杂度,易于实现,降低了心理声学模型在硬件实现的成本,降低了硬件的功率消耗。
Description
技术领域
本发明涉及音频编解码技术领域,具体涉及一种音频编码方法和音频编码器。
背景技术
在音频编码技术中,有失真的音频编码技术通常可以获得更高的压缩比,但是为了得到很好的音频质量,需要控制音频编码技术中编码失真的程度。心理声学模型是一种普遍用于控制编码失真程度的数学模型。心理声学模型是人们在研究人类听觉***基础上抽象出来的反映人类听觉感知特性的数学模型,它反映了人类听觉***对音频及噪声的感知和掩蔽能力。在音频编码技术中具体利用到的心理声学模型中的参数通常为掩蔽门限,该参数是编码器接收到信号在频域上每个频率处受到其它所有频率分量掩蔽的值的和,该参数在频域上是条曲线。处于该曲线下方的频率分量不能被人耳感觉到,则该频率分量可以用零比特编码;另一方面,选择量化阶时若能保证量化噪声低于掩蔽曲线,也不被人耳察觉,所以掩蔽门限越大的频率分量量化阶可以越大。因此用掩蔽阈值作为量化编码的依据,就能够保证压缩后的声音质量。所以,借助心理声学模型,在对音频信号进行编码中,可以有效地去除包含在原始音频中与人类听觉不相关的信号成分,从而可以在获取高压缩比的同时保证音频信号的质量。
参见图1所示,为心理声学模型在音频编码技术中的应用。其中,该音频编码技术为感知音频编码技术。如图1a所示,在音频编码器中,输入音频信号一部分进入时频分析模块,在该模块中编码器对音频信号进行变换处理得到音频的频域参数;输入音频信号还有一部分进入心理声学模型,在该模块中编码器对输入信号做处理得到掩蔽门限,将掩蔽门限输入给比特分配模块,编码器的比特分配模块根据掩蔽门限获取对感知编码的比特分配信息;量化和编码模块根据获取的比特分配信息,对从时频分析模块输出的频域参数进行量化和压缩编码;合路模块将来自量化与编码模块的编码信息和来自比特分配模块的、作为边信息进行传输的比特分配信息进行合路处理,形成编码比特流输出。
在音频解码器中,参见图1b,分路模块对接收到的编码比特流实施分路处理,分别得到编码信息和比特分配边信息;解码与反量化模块根据得到编码信息和比特分配边信息进行解码并进行反量化处理,从而得到重构的频域参数;最后时频合成模块将重构频域参数进行反变换处理,得到重构的音频时域信号输出。
在现有技术中编码器根据获取的掩蔽门限进行对语音信号的编码的过程中,为获取掩蔽门限而建立的心理声学模型,需要进行非常复杂的计算,且不易实现,对硬件设备要求高,消耗功率大。
发明内容
本发明实施例提供一种音频编码方法及相应装置,本发明实施例提供的技术方案能够减少建立心理声学模型的复杂度,但是可以到达与现有技术相似的技术效果,即准确度相似。
本发明实施例提供了一种音频编码方法,该方法包括:
接收时域音频信号;
对所述音频信号进行采样;
对采样后的音频信号进行线性预测;
根据所述线性预测的结果,获取线性预测滤波器的幅频响应曲线;
对采样后的音频信号进行卷曲线性预测;
根据所述卷曲线性预测的结果,获取卷曲线性预测滤波器的幅频响应曲线;
根据所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线;
根据所述获取的局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局掩蔽曲线;
根据所述获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限;
根据所述获取的全局掩蔽门限,对所述接收的时域音频信号进行编码;
其中所述根据所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线具体包括:
根据预置的控制信息,分别对所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线进行频率补偿;
根据所述频率补偿后的结果和预置的控制信息,获取局部掩蔽曲线。
本发明实施例还提供了一种音频编码器,包括:
接收单元,用于接收时域音频信号;
采样单元,用于对所述音频信号进行采样;
线性预测单元,用于对采样后的音频信号进行线性预测;
获取线性预测滤波器幅频响应单元,用于根据所述线性预测的结果,获取线性预测滤波器的幅频响应曲线;
卷曲线性预测单元,用于对采样后的音频信号进行卷曲线性预测;
获取卷曲线性预测滤波器幅频响应单元,用于根据所述卷曲线性预测的结果,获取卷曲线性预测滤波器的幅频响应曲线;
获取局部掩蔽曲线单元,用于根据所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线;
获取全局掩蔽曲线单元,用于根据所述获取的局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局掩蔽曲线;
获取掩蔽门限单元,用于根据所述获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限;
音频编码单元,用于根据获取的全局掩蔽门限对所述接收的时域音频信号进行编码;
其中所述获取局部掩蔽曲线单元具体包括:
频率补偿单元,用于根据预置的控制信息,分别对所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线进行频率补偿;
计算局部掩蔽曲线单元,用于根据所述频率补偿后的结果和预置的控制信息,获取局部掩蔽曲线。
本发明实施例还提供了一种音频水印嵌入装置,其特征在于,包括:
接收单元,用于接收时域音频信号;
采样单元,用于对所述音频信号进行采样;
线性预测单元,用于对采样后的音频信号进行线性预测;
获取线性预测滤波器幅频响应单元,用于根据所述线性预测的结果,获取线性预测线性预测滤波器的幅频响应曲线;
卷曲线性预测单元,用于对采样后的音频信号进行卷曲线性预测;
获取卷曲线性预测滤波器幅频响应单元,用于根据所述卷曲线性预测的结果,获取卷曲线性预测滤波器的幅频响应曲线;
获取局部掩蔽曲线单元,用于根据所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线;
获取全局掩蔽曲线单元,用于根据所述获取的局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局掩蔽曲线;
获取掩蔽门限单元,用于根据所述获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限;
水印嵌入单元,用于根据所述获取的全局掩蔽门限,将水印编码嵌入到输入音频信号中;
其中所述获取局部掩蔽曲线单元具体包括:
频率补偿单元,用于根据预置的控制信息,分别对所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线进行频率补偿;
计算局部掩蔽曲线单元,用于根据所述频率补偿后的结果和预置的控制信息,获取局部掩蔽曲线。
本发明实施例利用线性预测LP和卷曲线性预测WLP的频率分辨特性非常接近人类听觉特性中的临界频带和掩蔽特性的特点,建立的心理声学模型,获取掩蔽门限,根据获取的掩蔽门限进行音频编码的方法,降低了建立心理声学模型的复杂度,易于实现,降低了心理声学模型在硬件实现的成本,降低了硬件的功率消耗。
附图说明
图1a是现有技术中音频编码器的组成示意简图;
图1b是现有技术中音频解码器的组成示意简图;
图2是本发明实施例一提供的一种建立心理声学模型的方法流程示意简图;
图3是本发明实施例一中卷曲线性预测中获取相关函数的运算示意简图;
图4a是输入编码器的音频信号幅频响应图;
图4b是滤波器幅频响应曲线CLP(f)、WLP滤波器幅频响应曲线CWLP(f)和音频信号的功率谱密度示意图;
图5是局部掩蔽曲线与绝对掩蔽曲线图;
图6a是绝对掩蔽门限在对数域的轨迹图;
图6b是绝对掩蔽门限在线性域的轨迹图;
图7是全局掩蔽曲线图;
图8a是折线型全局掩蔽门限示意图;
图8b是阶梯型全局掩蔽门限示意图;
图9是本发明实施例二提供的一种音频编码方法流程示意简图;
图10是本发明实施例三提供的一种音频编码器的逻辑组成示意图。
具体实施方式
本发明实施例提供一种音频编码方法,本发明实施例还提供相应的音频编码器。以下分别进行详细说明。
实施例一
本实施例提供了一种音频编码方法,该方法是利用卷曲线性预测(WLP,Warped Linear Prediction)和传统线性预测(LP,Linear Prediction)分析的频率分辨率特性非常接近人类听觉特性中的临界频带和掩蔽特性的特性,最终获取掩蔽门限。参见图2所示,该方法包括:
步骤1:编码器接收时域音频信号;
编码器接收到的时域音频信号可以是语音信号、音频信号或者各种人耳可以听到的各种声音信号的混合信息,该音频信号的频带宽度通常为人耳可以听到频率范围(即0Hz到24000Hz)。编码器接收到的音频信号通常是帧的格式,一帧的长度一般为5毫秒到30毫秒之间。
步骤2:编码器对接收到的音频信号进行采样,得到采样后的音频信号x(n);
在本实施例中,步骤2中编码器通常对接收到的时域音频信号采用的采样频率包括48kHz、44.1kHz、32kHz、16kHz或8kHz中任一项。
步骤3:编码器对采样后的音频信号进行线性预测LP;
其中,步骤3中编码器对音频信号的进行线性预测的结果是获取到了较佳线性滤波器系数。需要理解的是,线性预测LP利用过去若干个采样信号来预测当前采样信号,即通常是利用当前时刻之前的N个采样信号的线性组合来估计输入的时域音频信号x(n),n=1,2,...,L,其中,L为帧的长度。用公式表示如下:
其中,ak,k=1,2,...,N为LP滤波器系数,N为线性预测阶数。在ak,k=1,2,...,N为已知的情况下,LP滤波器的***函数则为可知,如下公式所示:
因此,滤波器系数ak是实现LP滤波器组的关键。在步骤3中获取较佳线性滤波器系数的具体操作包括:
步骤A1:获取输入信号x(n)的自相关函数r(l),
其中,步骤A1用公式表示为:LP滤波器系数ak的最优取值为 最小,即只需对于k=1,2,...,N,使由此,可以获得LP滤波器的正则方程,表达式如下:
步骤A3:根据步骤A1中获取的自相关函数r(l),利用莱文森-杜比LevinsonDurbin算法求解公式(3),获取LP滤波器系数ak,该LP滤波器系数ak为较佳LP滤波器系数。
步骤4:编码器根据线性预测的结果,获取LP滤波器的幅频响应曲线CLP(f);
其中,步骤3中编码器根据获取的采样后的音频信号进行线性预测的结果,获取幅频响应曲线CLP(f)具体可以是结论性公式:
其中,GLP是输入信号的能量。将获取的A-1(z)用曲线表示,即为幅频响应曲线CLP(f)。
步骤5:编码器对步骤2中得到采样后音频信号进行卷曲线性预测WLP;
其中,需要理解的是,卷曲线性预测WLP是根据线性预测LP的原理,而总结出的一种更接近与人耳听觉特性的预测方法。编码器根据步骤2中获取的音频信号样点进行卷曲线性预测的结果是获取到较佳的滤波器系数。
其中,采用卷曲线性预测WLP是利用当前时刻之前的N个采样信号的线性组合来估计输入的时域音频信号x(n),n=1,2,...,L,采用公式表示如下:
其中,D(z)为全通滤波器的***函数,D(z)相当于WLP滤波器中的延迟模块,该模块与LP中的延迟模块有相似的作用。WLP中使用到的全通滤波器具有幅度响应为常数,相位响应决定频域的映射情况的特性,其幅频响应的数据表达式如下:
其中,为了保证WLP滤波器对频率的映射情况尽可能的接近人类的听觉特性,参数λ需要满足一定的条件,该条件可以具体参考以下公式:
其中,fs是输入信号的采样频率。
由以上对全通滤波器的说明,可以获取该全通滤波器的***函数D(z),用公式表示如下:
其脉冲响应函数的表达式如下:
其中,λ是滤波器参数。还需要说明的是该***函数D(z)可以是根据以上说明预置在该编码器中,当编码器在进行线性预测时可以由D(z)来获取更佳的WLP滤波器系数ak2。
由以上对D(z)和WLP滤波器的中实际输入和预测输出之间的关系(如公式(5)),该WLP滤波器的K阶全通滤波器的输出在时域上的表达式如下:
dk[x(n)]≡h(n)*h(n)*...*h(n)*x(n)(10)。
其中,h(n)为D(z)的脉冲响应,“*”表示卷积运算,dk[x(n)]即为k阶全通滤波器的输出。
因此,步骤5中对采样后音频信号进行卷曲线性预测WLP具体操作包括:
步骤B1:获取WLP滤波器的各阶输出与输入信号之间的相关函数r(k),k=0,1,...,N-1,N与K都是WLP滤波器的阶数,通常WLP滤波器的阶数是10。
其中,步骤B1中卷曲线性预测中相关函数可以使用图3所示的自相关网络结构得到。其中,x(n)表示输入音频信号,D(z)是一阶全通滤波器;输入音频信号x(n)通过级联的一阶全通滤波器D(z)的处理,分别得到各级联全通滤波器的输出信号dk[x(n)],k=0,1,...N-1。然后,通过乘加和运算来计算输入音频信号x(n)与各级联阶全通滤波器D(z)的输出信号dk[x(n)],k=0,1,...N-1的相关函数,即获取r(k),k=0,1,..,N-1。
其中,步骤A1用公式说明为:根据WLP的预测误差均方值最小的原则,即:
(12)。
步骤B3:根据步骤B1中获取相关函数r(k)和步骤B2中获取的正则方程,利用Levinson Durbin算法求解正则方程,获取WLP滤波器系数ak2。
步骤6:编码器根据对采用后的音频信号进行卷曲线性预测WLP,获取WLP滤波器的幅频响应曲线CWLP(f);
其中,步骤6中编码器根据对采样后的音频信号进行线性预测,获取幅频响应曲线CWLP(f)具体可以是根据现有技术中已经发现的结论性公式:
其中,ak2是WLP滤波器的系数,D(z)是一阶全通滤波器的传输函数,GWLP为输入信号的能量。图4b给出了一个WLP滤波器的幅频响应曲线CWLP(f)的实例。
以上步骤3至步骤6分别为采用线性预测和卷曲线性预测的操作方法,通过以上的预测,可以分别获取幅频响应曲线CLP(f)和幅频响应曲线CWLP(f)。参见图4所示,其中,图4a显示是一帧采样速率为48kHz,长度为512个点的音频信号;图4b显示了图4a所示的音频信号对应的LP滤波器幅频响应曲线CLP(f)、WLP滤波器幅频响应曲线CWLP(f)和音频信号的功率谱密度。由图可以看出,采用线性预测获取的滤波器具有较好的高频特性,采用卷曲线性预测WLP获取的滤波器具有较好的低频特性。
步骤7:根据步骤4中获取的LP滤波器的幅频响应曲线CLP(f)和WLP滤波器幅频响应曲线CWLP(f),获取局部掩蔽曲线;
其中,步骤7中根据获取CLP(f)和CWLP(f),获取局部掩蔽曲线的具体方法可以是根据如下公式:
Cp(f)=CLP’(f)+CWLP’(f)=CLP(f)KLP(f,Cqb)+CWLP(f)KWLP(f,Cqb)+BXLP(Cqb)(dB)
(14)
其中,Cp(f)为局部掩蔽曲线,KLP(f,Cqb)和KWLP(f,Cqb)分别为CLP(f)和CWLP(f)的频率补偿函数。其中,控制信息Cqb是可选的,与音频编码质量设定值或编码速率设定值相关,所以KLP(f,Cqb)、KWLP(f,Cqb)也与设定音质或编码速率要求相关,但KLP(f,Cqb)、KWLP(f,Cqb)有所不同;KLP(f,Cqb)主要用于加强CLP(f)的低频特性、KWLP(f,Cqb)主要用于加强CWLP(f)的高频特性,在实际应用中可以由经验值得到。BXLP(Cqb)为相对偏差系数,它的主要目的是用来按照音频编码质量设定值或编码速率设定值整体调整局部掩蔽曲线的幅度;比如音频编码质量设定值或编码速率设定较高时,BXLP(Cqb)可以降低局部掩蔽曲线幅度,而当音频编码质量设定值或编码速率设定较低时,BXLP(Cqb)可以提高局部掩蔽曲线幅度。KLP(f,Cqb)、KWLP(f,Cqb)和BXLP(Cqb)可以在实际应用中由经验值得到。图5给出了局部掩蔽曲线的示意图,图中KLP(f,Cqb)=KWLP(f,Cqb)=0.5,BXLP(Cqb)=0.0。即取CLP(f)和CWLP(f)在每个频率上的平均值作为局部掩蔽曲线。
通过以上对步骤7的说明,可以看出获取局部掩蔽曲线的具体方法可以是:先对获取的LP滤波器的幅频响应曲线CLP(f)和WLP滤波器幅频响应曲线CWLP(f)分别进行频率补偿,即分别获取CLP(f)KLP(f,Cqb)和CWLP(f)KWLP(f,Cqb);根据频率补偿的结果和预置的信息,获取局部掩蔽曲线。其中,预置的信息可以是按照音频编码质量设定值或编码速率设定值整体调整局部掩蔽曲线的幅度的信息,如相对偏差系数BXLP(Cqb)。
步骤8:根据步骤7中获取局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局掩蔽曲线Cg(f);
其中,绝对掩蔽门限(Absolute Threshold)表示在无噪声环境下单音信号能被人耳感知所需要的能量,通常用声压级dB表示。绝对掩蔽门限也与频率相关,它的幅值可以由如下表达式近似得到:
其中,TAT(f)是绝对掩蔽门限,它是频率的函数,参见图6a所示绝对掩蔽门限在对数域的轨迹;参见图6b所示,为绝对掩蔽门限在线性域的轨迹。两种轨迹虽然表示形式不同,但实质是相同的。
由以上的说明可以理解,如果音频信号的能量低于局部掩蔽曲线和绝对掩蔽曲线任一项,则该音频信号则不被人耳察觉,因此,全局掩蔽曲线是在每个频率上的局部掩蔽曲线和绝对掩蔽曲线中最大值连成的曲线。用公式表达如下:
Cg(f)=max{Cp(f),γ(Cqb)TAT(f)}(dB) (20)
其中,1.0<=γ(Cqb)<=0.0为绝对掩蔽门限匹配系数,它是与反映音质或编码速率要求的控制信息Cqb相关的。用于局部掩蔽曲线Cp(f)同绝对掩蔽门限TAT(f)的声压级的匹配处理。其中,Cqb在本发明实施例中一直是可选的预置在编码器中参数。如果不用Cqb则γ(Cqb)取值为1。图7所示对应的全局掩蔽曲线Cg(f)。同时参考图5所示的局部掩蔽曲线和绝对掩蔽门限,从而更容易理解图7中显示的全局掩蔽曲线Cg(f)。
步骤9:根据步骤8中获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限。
其中,需要说明的是临界频带(Critical Band)反映的是人耳的另一种听觉特性,即频率分析能力。人耳对频率的分析能力可以用一系列高度重叠的带通滤波器表征,带通滤波器的幅频响应是非对称和非线性的,其频带宽度是随着频率的提高而增加,正对同一临界频带内的不同频率,人耳有几乎相同的感知特性。临界频带就是用一个频率函数定量描述听觉带通滤波器的特性。在巴克Bark域内,一个临界频带的频带宽度通常为一个巴克Bark,以下表达式可以将临界频带由线性频域到Bark域的转换:
通过以下表达式可以获得临界频带的频带宽度的近似值:
BWc(f)=25+75[1+1.4(f/1000)2]0.69(Hz) (22)
还需要说明的是人耳的临界频带可以是通过实验或者其它已有的经验获得的,预置在编码器中的。
在步骤9中根据获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限的具体执行方法可以是:获取每个Bark内临界频带端点和频带中点在全局掩蔽曲线Cg(f)的幅度取值,将所述获取的所有幅度取值按照频率顺序用直线连接起来形成的全局掩蔽门限TPSY(f)。参见图8a所示,该全局掩蔽门限TPSY(f)是折线的形式,可以将该全局掩蔽门限TPSY(f)称为折线型全局掩蔽门限。
在步骤9中根据获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限的具体执行方法也可以是:通过在每个Bark上临界频带内获取全局掩蔽曲线Cg(f)的最小值,每个临界频带内的幅度取值是该频带内全局掩蔽曲线Cg(f)中的最小值,得到的幅频响应为全局掩蔽门限TPSY(f)。参见图8b所示,该全局掩蔽门限TPSY(f)在图中是阶梯型。该全局掩蔽门限TPSY(f)可以成为阶梯型全局掩蔽门限TPSY(f)。由于人耳对语音或音频信号在低频的辨别能力好于在高频的辨别能力,因此,从图上可以看出,在低频处临界频带宽度较窄,在高频出临界频带宽度较宽。事实上,折线型全局掩蔽门限也有此特点。
还需要理解的是,步骤9中根据获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限的具体执行方法不止局限于以上描述的两种,以上两种方法是比较简单的近似获取全局掩蔽门限TPSY(f),当然还可以在每个临界频带上选取多个频点,来获取全局掩蔽门限TPSY(f)。
以上步骤1至步骤9的说明实现了一种建立心理声学模型的方法,编码器可以获取到全局掩蔽门限作为量化的依据。该方法根据线性预测LP和卷曲线性预测WLP的频率分辨特性非常接近人类听觉特性中的临界频带和掩蔽特性的特点,对接收到的采样音频信号分别进行线性预测LP和卷曲线性预测WLP,获取LP滤波器的幅频响应和WLP滤波器的幅频响应,根据获取的LP滤波器的幅频响应和WLP滤波器的幅频响应,获取到局部掩蔽曲线;根据获取的局部掩蔽曲线、预置的绝对掩蔽门限和临界频带带宽,获取全局掩蔽门限。
步骤10:根据获取的全局掩蔽门限,对音频信号进行编码。
本实施例提供的利用线性预测LP和卷曲线性预测WLP的频率分辨特性非常接近人类听觉特性中的临界频带和掩蔽特性的特点,建立心理声学模型的方法,获取全局掩蔽门限,根据获取的全局掩蔽门限对音频信号进行编码,降低了建立心理声学模型的复杂度,易于实现,降低了心理声学模型在硬件实现的成本,降低了硬件的功率消耗。
实施例二
本发明实施例提供了一种音频编码方法,参见图9所示,且参考图1所示的音频编码器。该音频编码方法中获取心理声学模型全局掩蔽门限的方法,是利用了实施例一中提供的一种建立心理声学模型的方法。本发明实施例提供了一种音频编码方法包括:
步骤H1:编码器接收时域音频信号;
其中,编码器接收的时域音频信号是与实施例一中的步骤1中执行的同一个步骤。
步骤H2:编码器根据接收到的时域音频信号,建立心理声学模型,获取全局掩蔽门限;
其中,步骤H3的具有执行方法可以参考实施例一中的说明。
步骤H3:编码器根据步骤2中获取的全局掩蔽门限,对接收到的时域音频信号进行编码。
其中,需要理解的该实施例中提供的一种音频编码方法,该音频编码方法,利用线性预测LP和卷曲线性预测WLP的频率分辨特性非常接近人类听觉特性中的临界频带和掩蔽特性的特点,建立的心理声学模型,降低了建立心理声学模型的复杂度,易于实现,降低了心理声学模型在硬件实现的成本,降低了硬件的功率消耗。
因此,实施例一中建立心理声学模型的方法可以应用在不同环境,以上实施例二是其中一种应用环境,即应用在音频编码中。该心理声学模型还可以应用在音频水印***中,即一种音频水印嵌入方法中利用到实施例一提供的建立心理声学模型。采用实施例一提供的建立心理声学模型方法的音频水印***,也具有降低建立心理声学模型的复杂度,易于实现,降低了心理声学模型在硬件实现的成本,降低了硬件的功率消耗的特点。
实施例三
本实施例提供了一种音频编码器,参见图10所示,包括:接收单元10、采样单元20、线性预测LP单元30、获取LP滤波器幅频响应单元40、卷曲线性预测WLP单元50、获取WLP滤波器幅频响应单元60、获取局部掩蔽曲线单元70,获取全局掩蔽曲线单元80、获取掩蔽门限单元90和音频编码单元100。
其中,接收单元10接收时域音频信号,该接收到的时域音频信号可以是语音信号、音频信号或者各种人耳可以听到的各种声音信号的混合信息,该音频信号的频带宽度通常为人耳可以听到频率范围(即0Hz到24000Hz),音频信号通常是帧的格式,一帧的长度一般为5毫秒到30毫秒之间。
采用单元20对接收到的音频信号进行采用,采用的频率可以是48kHz、44.1kHz、32kHz、16kHz、8kHz等其中任一一种。线性预测LP单元30对获取的采样语音信号进行线性预测LP,也可以说是根据获取的采用语音信号获取LP滤波器的系数。
其中。LP单元30还可以具体包括:第一获取自相关函数单元301、第一获取正则方程单元302和第一获取线性预测滤波器系数单元303。其中第一获取自相关函数单元301,用于获取采样后的音频信号的自相关函数;第一获取正则方程单元302根据原始信号采样后的音频信号与线性滤波器预测结果之间的差值最小的原则,获取LP的正则方程;第一获取LP滤波器***单元303根据第一获取自相关函数单元301中获取的自相关函数,利用Levinson Durbin算法求解正则方程,获取LP滤波器系数。
第一获取LP幅频响应单元40根据LP单元30中获取LP滤波器系数,获取LP滤波器的幅频响应曲线;其中,获取LP幅频响应单元40中获取LP滤波器的幅频响应曲线是根据结论性公式(4)得到的。
卷曲线性预测WLP单元50对获取的采样后的语音信号进行卷曲线性预测WLP,也可以说是根据获取的采用语音信号获取WLP滤波器的系数。
其中,卷曲线性预测WLP单元50与LP单元30相似,还可以具体包括:第二获取自相关函数单元501、第二获取正则方程单元502和第二获取卷曲线性预测滤波器系数单元503。其中第二获取自相关函数单元501,用于获取采用音频信号的自相关函数;第二获取正则方程单元502根据原始信号采样后的音频信号与卷曲线性滤波器预测结果之间的差值最小的原则,获取WLP正则方程;第二获取WLP滤波器***单元503根据第二获取自相关函数单元501中获取的自相关函数,利用Levinson Durbin算法求解正则方程,获取WLP滤波器系数。
获取WLP滤波器幅频响应单元60根据WLP单元50中获取WLP滤波器系数,获取WLP滤波器的幅频响应曲线;其中,获取WLP幅频响应单元60中获取WLP滤波器的幅频响应曲线是根据结论性公式(13)得到的。
获取局部掩蔽曲线单元70根据获取LP滤波器幅频响应单元40中获取的LP滤波器的幅频响应曲线,和获取WLP滤波器幅频响应单元60中获取的WLP滤波器的幅频响应曲线,获取局部掩蔽曲线。该获取局部掩蔽曲线单元70具体可以包括:频率补偿单元701和计算局部掩蔽曲线单元702。
其中,频率补偿单元701用于根据预置的控制信息加强LP滤波器的幅频响应曲线CLP(f)的低频特性、和加强WLP滤波器的幅频响应CWLP(f)的高频特性;计算局部掩蔽曲线单元702根据频率补偿单元701中获取的频率补偿后的幅频特性和预置的相对偏差系数,获取局部掩蔽曲线,可以参考公式(14)。
获取全局掩蔽曲线单元80根据获取局部掩蔽曲线单元70中获取的局部掩蔽曲线和预置的绝对掩蔽曲线,获取全局掩蔽曲线,具体可以参考公式(20)。
获取掩蔽门限单元90根据获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限。
音频编码单元100,该音频编码单元用于根据获取掩蔽门限对接收到的信号进行编码。
本发明实施例提供的一种音频编码器中的接收单元10、采样单元20、线性预测LP单元30、获取LP滤波器幅频响应单元40、卷曲线性预测WLP单元50、获取WLP滤波器幅频响应单元60、获取局部掩蔽曲线单元70,获取全局掩蔽曲线单元80和获取掩蔽门限单元90共同来实现获取全局掩蔽门限,可以包含在一种音频水印嵌入装置中。该水印嵌入装置还包括水印嵌入单元。
其中,该水印嵌入单元根据获取的全局掩蔽门限,将水印编码嵌入到输入音频信号中。
通过以上的对本实施例提供的一种音频编码器的说明,该音频编码器利用线性预测LP和卷曲线性预测WLP的频率分辨特性非常接近人类听觉特性中的临界频带和掩蔽特性的特点,建立心理声学模型,降低了建立心理声学模型的复杂度,易于实现,降低了心理声学模型在硬件实现的成本,降低了硬件的功率消耗。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例所提供的一种音频编码方法以及相应装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (13)
1.一种音频编码方法,其特征在于,包括:
接收时域音频信号;
对所述音频信号进行采样;
对采样后的音频信号进行线性预测;
根据所述线性预测的结果,获取线性预测滤波器的幅频响应曲线;
对采样后的音频信号进行卷曲线性预测;
根据所述卷曲线性预测的结果,获取卷曲线性预测滤波器的幅频响应曲线;
根据所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线;
根据所述获取的局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局掩蔽曲线;
根据所述获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限;
根据所述获取的全局掩蔽门限,对所述接收的时域音频信号进行编码;
其中所述根据所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线具体包括:
根据预置的控制信息,分别对所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线进行频率补偿;
根据所述频率补偿后的结果和预置的控制信息,获取局部掩蔽曲线。
2.根据权利要求1所述的方法,其特征在于,所述对采样后的音频信号进行线性预测,具体包括:
获取所述采样后的音频信号的自相关函数;
根据原始信号采样后的音频信号与线性预测滤波器预测结果之间差值的取值,获取线性预测LP正则方程;
根据所述自相关函数求解所述LP正则方程,所述LP正则方程的解为所述线性预测滤波器的系数。
3.根据权利要求1所述的方法,其特征在于,所述对采样后的音频信号进 行卷曲线性预测,具体包括:
获取所述采样后的音频信号的自相关函数;
根据原始信号采样后的音频信号与卷曲线性预测滤波器预测结果之间差值的取值,获取卷曲线性预测WLP正则方程;
根据所述自相关函数求解所述WLP正则方程,所述WLP正则方程的解为所述卷曲线性预测滤波器的系数。
4.根据权利要求3所述的方法,其特征在于,所述获取所述采样后的音频信号的自相关函数,具体包括:
所述采样后的音频信号通过预置的级联的一阶全通滤波器,获取到各级联全通滤波器的输出信号dk[x(n)],k=0,1,...N-1,其中x(n)表示采样后的音频信号,n=1,2,...,L,L为帧的长度,N表示卷曲线性预测滤波器的阶数;
根据所述采样后的音频信号与各级联阶全通滤波器的输出信号dk[x(n)],k=0,1,...N-1获取自相关函数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线,具体为:
将所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线在相同频率上的幅度求平均值,获取的所述平均值的曲线为局部掩蔽曲线。
6.根据权利要求1所述的方法,其特征在于,所述根据获取的局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局掩蔽曲线,具体包括:
获取局部掩蔽曲线与预置的绝对掩蔽曲线在相同频率上幅度最大的值,所述最大值在频率上形成的曲线即为全局掩蔽曲线。
7.根据权利要求1所述的方法,其特征在于,所述根据获取的局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局掩蔽曲线,具体包括:
根据预置的绝对掩蔽门限匹配系数、局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局掩蔽曲线。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据获取的 全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限,具体包括:
获得临界频带端点和频带中点在全局掩蔽曲线上的幅度取值,将所述获取的幅度取值按照频率顺序用直线连接形成全局掩蔽门限。
9.根据权利要求1至7任一项所述的方法,其特征在于,所述根据获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限,具体包括:
从临界频带内获取全局掩蔽曲线上幅度的最小值,以每个Bark上临界频带内全局掩蔽曲线上幅度的最小值作为全局掩蔽门限。
10.一种音频编码器,其特征在于,包括:
接收单元,用于接收时域音频信号;
采样单元,用于对所述音频信号进行采样;
线性预测单元,用于对采样后的音频信号进行线性预测;
获取线性预测滤波器幅频响应单元,用于根据所述线性预测的结果,获取线性预测滤波器的幅频响应曲线;
卷曲线性预测单元,用于对采样后的音频信号进行卷曲线性预测;
获取卷曲线性预测滤波器幅频响应单元,用于根据所述卷曲线性预测的结果,获取卷曲线性预测滤波器的幅频响应曲线;
获取局部掩蔽曲线单元,用于根据所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线;
获取全局掩蔽曲线单元,用于根据所述获取的局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局掩蔽曲线;
获取掩蔽门限单元,用于根据所述获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限;
音频编码单元,用于根据获取的全局掩蔽门限对所述接收的时域音频信号进行编码;
其中所述获取局部掩蔽曲线单元具体包括:
频率补偿单元,用于根据预置的控制信息,分别对所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线进行频率补偿;
计算局部掩蔽曲线单元,用于根据所述频率补偿后的结果和预置的控制 信息,获取局部掩蔽曲线。
11.根据权利要求10所述的音频编码器,其特征在于,所述线性预测单元具体包括:
第一获取自相关函数单元,用于获取所述采样后的音频信号的自相关函数;
第一获取正则方程单元,用于根据原始信号采样后的音频信号与线性预测滤波器预测结果之间的差值的取值,获取线性预测LP正则方程;
第一获取线性预测滤波器系数单元,用于根据所述自相关函数,求解所述LP正则方程,所述LP正则方程的解为所述线性预测滤波器的系数。
12.根据权利要求10所述的音频编码器,其特征在于,所述卷曲线性预测单元具体包括:
第二获取自相关函数单元,用于获取所述采样后的音频信号的自相关函数;
第二获取正则方程单元,用于根据原始信号采样后的音频信号与卷曲线性预测滤波器预测结果之间的差值的取值,获取卷曲线性预测WLP正则方程;
第二获取线性预测滤波器系数单元,用于根据所述自相关函数,求解所述WLP正则方程,所述WLP正则方程的解为所述卷曲线性预测滤波器的系数。
13.一种音频水印嵌入装置,其特征在于,包括:
接收单元,用于接收时域音频信号;
采样单元,用于对所述音频信号进行采样;
线性预测单元,用于对采样后的音频信号进行线性预测;
获取线性预测滤波器幅频响应单元,用于根据所述线性预测的结果,获取线性预测滤波器的幅频响应曲线;
卷曲线性预测单元,用于对采样后的音频信号进行卷曲线性预测;
获取卷曲线性预测滤波器幅频响应单元,用于根据所述卷曲线性预测的结果,获取卷曲线性预测滤波器的幅频响应曲线;
获取局部掩蔽曲线单元,用于根据所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线;
获取全局掩蔽曲线单元,用于根据所述获取的局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局掩蔽曲线;
获取掩蔽门限单元,用于根据所述获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门限;
水印嵌入单元,用于根据所述获取的全局掩蔽门限,将水印编码嵌入到输入音频信号中;
其中所述获取局部掩蔽曲线单元具体包括:
频率补偿单元,用于根据预置的控制信息,分别对所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线进行频率补偿;
计算局部掩蔽曲线单元,用于根据所述频率补偿后的结果和预置的控制信息,获取局部掩蔽曲线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101819096A CN101740033B (zh) | 2008-11-24 | 2008-11-24 | 一种音频编码方法和音频编码器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101819096A CN101740033B (zh) | 2008-11-24 | 2008-11-24 | 一种音频编码方法和音频编码器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101740033A CN101740033A (zh) | 2010-06-16 |
CN101740033B true CN101740033B (zh) | 2011-12-28 |
Family
ID=42463409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101819096A Expired - Fee Related CN101740033B (zh) | 2008-11-24 | 2008-11-24 | 一种音频编码方法和音频编码器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101740033B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177727B (zh) * | 2011-12-23 | 2015-05-06 | 重庆重邮信科通信技术有限公司 | 一种音频频带处理方法及*** |
EP2980801A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
CN105976823B (zh) * | 2016-06-22 | 2019-06-25 | 华中师范大学 | 基于相位编码的自适应音频水印方法及*** |
US10827265B2 (en) * | 2018-01-25 | 2020-11-03 | Cirrus Logic, Inc. | Psychoacoustics for improved audio reproduction, power reduction, and speaker protection |
CN109979469B (zh) * | 2019-04-03 | 2021-04-23 | 北京小米智能科技有限公司 | 信号处理方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6778953B1 (en) * | 2000-06-02 | 2004-08-17 | Agere Systems Inc. | Method and apparatus for representing masked thresholds in a perceptual audio coder |
CN1677493A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
CN1677491A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
CN101136202A (zh) * | 2006-08-29 | 2008-03-05 | 华为技术有限公司 | 音频信号处理***、方法以及音频信号收发装置 |
-
2008
- 2008-11-24 CN CN2008101819096A patent/CN101740033B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6778953B1 (en) * | 2000-06-02 | 2004-08-17 | Agere Systems Inc. | Method and apparatus for representing masked thresholds in a perceptual audio coder |
CN1677493A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
CN1677491A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
CN101136202A (zh) * | 2006-08-29 | 2008-03-05 | 华为技术有限公司 | 音频信号处理***、方法以及音频信号收发装置 |
Non-Patent Citations (3)
Title |
---|
Rongshan Yu et al..A Warped Linear-Prediction-Based Subband Audio Coding Algorithm.《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.2002,第10卷(第1期),1-8. * |
Yu Rongshan et al..HIGH QUALITY AUDIO CODING USING A NOVEL HYBRID WLP-SUBBAND CODING ALGORITHM.《Fifth Asia-Pacific Conference on Communications, 1999. APCC/OECC "99. ... and Fourth Optoelectronics and Communications Conference》.1999,第2卷952-955. |
Yu Rongshan et al..HIGH QUALITY AUDIO CODING USING A NOVEL HYBRID WLP-SUBBAND CODING ALGORITHM.《Fifth Asia-Pacific Conference on Communications, 1999. APCC/OECC "99. ... and Fourth Optoelectronics and Communications Conference》.1999,第2卷952-955. * |
Also Published As
Publication number | Publication date |
---|---|
CN101740033A (zh) | 2010-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101622662B (zh) | 编码装置和编码方法 | |
CN100583241C (zh) | 音频编码设备、音频解码设备、音频编码方法和音频解码方法 | |
EP0942411B1 (en) | Audio signal coding and decoding apparatus | |
CN101622661B (zh) | 一种数字语音信号的改进编解码方法 | |
US8942988B2 (en) | Efficient temporal envelope coding approach by prediction between low band signal and high band signal | |
CN101662288B (zh) | 音频编码、解码方法及装置、*** | |
US9672840B2 (en) | Method for encoding voice signal, method for decoding voice signal, and apparatus using same | |
CN102436819B (zh) | 无线音频压缩、解压缩方法及音频编码器和音频解码器 | |
KR100832144B1 (ko) | 지각적으로 개선된 음향신호의 엔코딩 | |
CN101430880A (zh) | 一种背景噪声的编解码方法和装置 | |
CN101740033B (zh) | 一种音频编码方法和音频编码器 | |
EP3614384B1 (en) | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals | |
CN102169694B (zh) | 生成心理声学模型的方法及装置 | |
CN101377925B (zh) | 提高g.711的感知质量的自适应调整方法 | |
EP0919989A1 (en) | Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal | |
CN105957533B (zh) | 语音压缩方法、语音解压方法及音频编码器、音频解码器 | |
JP4281131B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
CN101611440B (zh) | 一种使用加权窗的低延时变换编码的方法 | |
JP4618823B2 (ja) | 信号符号化装置及び方法 | |
Mazor et al. | Adaptive subbands excited transform (ASET) coding | |
Gunjal et al. | Traditional Psychoacoustic Model and Daubechies Wavelets for Enhanced Speech Coder Performance | |
Faúndez-Zanuy | Wide band sub-band speech coding using nonlinear prediction | |
Najafzadeh-Azghandi | Percept ual Coding of Narrowband Audio | |
MXPA98010783A (en) | Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal | |
Indumathi et al. | Performance Evaluation of Variable Bitrate Data Hiding Techniques on GSM AMR coder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111228 Termination date: 20191124 |