CN101506873B

CN101506873B - 开环基音跟踪平滑

Info

Publication number: CN101506873B
Application number: CN200680053928XA
Authority: CN
Inventors: 杨高
Original assignee: Mindspeed Technologies LLC
Current assignee: Mandus Bide Technology LLC; MACOM Technology Solutions Holdings Inc
Priority date: 2006-03-20
Filing date: 2006-10-27
Publication date: 2012-08-15
Anticipated expiration: 2026-10-27
Also published as: EP1997104B1; ATE475170T1; WO2007111649A3; EP1997104A4; ES2347825T3; EP2228789A1; CN101506873A; US20100241424A1; WO2007111649A2; EP2228789B1; DE602006015712D1; EP1997104A2; US8386245B2

Abstract

提供一种用于执行以下算法的语音编码器，该算法包括：获得(205)来自语音信号当前帧的多个开环基音候选，这多个开环基音候选包括第一开环基音候选和第二开环基音候选；获得(205)来自一个或者多个先前帧的清浊度信息；以及使用来自一个或者多个先前帧的清浊度信息来选择(280)多个开环基音候选之一作为当前帧的最终基音。在一个方面中，来自一个或者多个先前帧的清浊度信息包括一个或者多个先前帧的先前基音。在又一方面中，选择当前帧的最终基音包括选择(210)来自具有最大长期相关值的开环基音候选的初始开环基音。

Description

开环基音跟踪平滑

相关申请

本申请基于通过援引整体结合于此的、申请日为2006年3月20日的美国临时申请第60/784,384号，并且要求该临时申请的优先权。

技术领域

本发明主要涉及语音编码。具体而言，本发明涉及开环基音(pitch)分析。

背景技术

语音压缩可以用来减少代表语音信号的位的数目，由此减少传输所需带宽。然而，语音压缩可能造成解压语音的质量降级。一般而言，更高的位速率将造成更高的质量而更低的位速率将造成更低的质量。然而，现代语音压缩技术如编码技术可以在相对低的位速率产生相对高质量的解压语音。一般而言，现代编码技术尝试代表语音信号对感知重要的特征而不保存实际语音波形。习惯称为编码解码器的语音压缩***包括编码器和解码器并且可以用来减少数字语音信号的位速率。已经为语音编码解码器开发许多算法，这些算法减少对原语音进行数字编码所需要的位的数目而又尝试维持高质量的重建语音。

国际电信联盟电信部门(ITU-T)于1996年采用了称为G.729建议书的长途质量语音编码算法，该建议书的标题为“Coding of Speech Signalsat 8bits/s using Conjugate-Structure Algebraic-Core-ExcitedLinear-Predication(CS-ACELP)”，通过援引将该建议书整体结合于本申请中。

图1图示了如其中说明的G.729建议书的CS-ACELP(共轭结构代数-代码-激励-线性-预测)编码器100中的语音信号流。与图1中各块相邻的标号表示G.729建议书内对各块的操作和功能进行描述的节编号。如图所示，语音信号或者输入采样105进入高通和按比例缩减块(在G.729建议书的第3.1节中有描述)，其中在逐帧基础上向输入采样105施加预处理。接着在逐帧基础上向预处理的语音信号施加LP分析115和开环基音搜索120。如图1中所示在开环基音搜索120之后在逐帧基础上向语音信号施加开环基音搜索125和代数搜索130，这样的结果是生成代码索引输出135。

如图1中所示，开环基音搜索120包括在G.729建议书的第3.4节中描述的查找开环基音延迟124。如其中说明的那样，为了减少搜索的复杂度以求最佳自适应-代码簿延迟而将搜索范围限制于从开环基音分析中获得的候选延迟Top。对每帧一次完成这一开环基音分析(10ms)。开环基音估计使用来自计算加权语音122的加权语音信号sw(n)并且实施如下。

在第一步骤中在以下三个范围中：

i＝1：80，...，143

i＝2：40，...，79

i＝3：20，...，39

查找三个相关最大值：

R (k) = Σ_{n = 0}^{79} sw (n) sw (n - k)

其中：

sw (n) = s (n) + Σ_{i = 1}^{10} a_{i} y_{1}^{i} s (n - i) - Σ_{i = 1}^{10} a_{i} y_{2}^{i} sw (n - i), n = 0, . . ., 39

通过下式正规化所得最大值R(t_i)，i＝1，...，3：

R^{'} (t_{i}) = \frac{R (t_{i})}{\sqrt{Σ_{n} {sw}^{2} (n - t_{i})}}, i = 1, . . ., 3

接着通过优选具有较低范围中的值的延迟来选择在这三个正规化相关值之中的更优值。这通过加权与较长延迟对应的正规化相关值来完成。确定最佳开环延迟T_op如下：

T_op＝t₁

R′(T_op)＝R′(t₁)

如果R′(t₂)≥0.85R′(T_op)

R′(T_op)＝R′(t₂)

T_op＝t₂

结束

如果R′(t₃)≥0.85R′(T_op)

R′(T_op)＝R′(t₃)

T_op＝t₃

结束

将延迟范围分成三个部分并且优选较小值的上述过程用来避免选择基音倍数。平滑开环基音跟踪可以帮助稳定语音感知质量。具体而言，当在解码器侧应用帧擦除隐藏算法时时，平滑基音跟踪可以使基音预测(针对损失帧的基音估计)更容易。然而，G.729建议书的上述常规算法没有提供最优结果而可以进一步加以改进。例如，G.729建议书的常规算法有利地仅使用当前帧信息来平滑开环基音跟踪以便避免基音倍数。

因而在本领域中需要改进常规开环基音分析以获得用于稳定语音感知质量的更平滑开环基音跟踪。

发明内容

本发明涉及用于执行开环基音分析的方法和装置。

在一个方面中，一种语音编码器执行以下算法，该算法包括：获得包括第一开环基音候选(p_max1)、第二开环基音候选(p_max2)和第三开环基音候选(p_max3)的多个开环基音候选，其中p_max1＞p_max2＞p_max3；获得包括用于多个开环基音候选中各对应开环基音候选的第一相关值(max1)、第二相关值(max2)和第三相关值(max3)的多个长期相关值；从多个开环基音候选中选择初始开环基音(max)，其中与max(p_max)对应的长期相关值在多个长期相关值之中具有最大长期相关值；如果p_max2小于p_max，则基于对来自一个或多个先前帧的清浊度信息的第一判决将max设置为max2而将p_max设置为p_max2，来自所述一个或多个先前帧的清浊度信息包括所述一个或多个先前帧的先前基音；以及如果p_max3小于p_max，则基于对来自一个或多个先前帧的清浊度信息的第二判决将p_max设置为p_max3，来自所述一个或多个先前帧的清浊度信息包括所述一个或多个先前帧的先前基音。

在一个方面，开环基音分析算法还可以包括：获得来自一个或者多个先前帧的清浊度信息；以及将来自一个或者多个先前帧的清浊度信息用于第一判决和第二判决中的各判决。在一个方面中，来自一个或者多个先前帧的清浊度信息包括一个或者多个先前帧的先前基音。另外在另一方面中，来自一个或者多个先前帧的清浊度信息是来自紧邻前一帧的基音。

在一个方面中，第一判决包括：如果先前基音与p_max2的差的绝对值小于第一预定比较值，则将第一阈值设置为第一预定阈值，而如果先前基音与p_max2的差的绝对值不小于第一预定比较值，则将第一阈值设置为第二预定阈值；以及确定与第一阈值相乘的max是否小于max2，其中第一预定比较值是10、第一预定阈值是0.7而第二预定阈值是0.9。

另一方面，一种对语音编码执行开环基音分析的装置包括：开环基音候选获得模块，用于获得包括第一开环基音候选p_max1、第二开环基音候选p_max2和第三开环基音候选p_max3的多个开环基音候选，其中p_max1＞p_max2＞p_max3；长期相关值获得模块，用于获得包括用于多个开环基音候选中各对应开环基音候选的第一相关值max1、第二相关值max2和第三相关值max3的多个长期相关值；初始开环基音选择模块，用于从多个开环基音候选中选择初始开环基音p_max，其中与p_max对应的长期相关值max在多个长期相关值之中具有最大长期相关值；第一设置模块，如果p_max2小于p_max，则基于对来自一个或多个先前帧的清浊度信息的第一判决将max设置为max2而将p_max设置为p_max2，来自所述一个或多个先前帧的清浊度信息包括一个或多个先前帧的先前基音；以及，第二设置模块，如果p_max3小于p_max，则基于对来自一个或多个先前帧的清浊度信息的第二判决将p_max设置为p_max3，来自一个或多个先前帧的清浊度信息包括一个或多个先前帧的先前基音。

在一个方面中，来自一个或者多个先前帧的清浊度信息包括一个或者多个先前帧的先前基音。在一个方面中，来自一个或者多个先前帧的清浊度信息是来自紧邻前一帧的基音。根据又一方面，第一判决包括：如果先前基音与p_max2的差的绝对值小于第一预定比较值，则将第一阈值设置为第一预定阈值，而如果先前基音与p_max2的差的所述绝对值不小于第一预定比较值，则将第一阈值设置为第二预定阈值；以及确定与所述第一阈值相乘的max是否小于max2，其中第一预定比较值是10、第一预定阈值是0.7而第二预定阈值是0.9。

本发明的这些和其它方面将进一步参照以下附图和说明书而变得清楚。本意在于使所有这样的附加***、特征和优点涵盖于本说明书中、在本发明的范围内并且受所附权利要求保护。

附图说明

本发明的特征和优点对于在阅读以下具体描述和附图之后的本领域技术人员而言将变得更容易明白，在附图中：

图1图示了G.729建议书的CS-ACELP编码器中的语音信号流，该编码器包括执行常规开环基音分析算法的查找开环基音延迟模块；以及

图2A和2B图示了根据本发明一个实施例用于在编码器中执行开环基音分析算法的流程图。

具体实施方式

虽然关于具体实施例描述本发明，但是如这里所附权利要求限定的本发明原理显然可以超出这里描述的本发明的具体所述实施例加以应用。例如，虽然结合G.729建议书的编码器来描述本发明的各种实施例，但是本申请的发明不限于特定标准而可以运用于任何***中。另外在本发明的描述中已经省略某些细节以免使本发明的发明方面变得不清楚。省略的细节在本领域普通技术人员的知识内。

在本申请中的附图及其附带具体描述仅涉及本发明的例子实施例。为了保持简洁，运用本发明原理的本发明其它实施例在本申请中没有具体加以描述也没有用当前附图具体加以图示。应当了然于心的是，除非另有指明，图中相似或者对应单元可以用相似或者对应标号来表示。

图2A和2B图示了根据本发明一个实施例用于在由控制器操作的比如G.729建议书的编码器这样的编码器中执行开环基音分析(PLPA)算法200的流程图。在一个实施例中，本发明的OLPA算法200提供一种通过利用来自一个或者多个先前帧的清浊度(voicing)信息来改进常规算法的平滑开环基音跟踪。

如图所示，OLPA算法200始于步骤205，在该步骤中初始开环基音分析获得来自多个搜索范围的多个开环基音候选，比如来自三(3)个搜索范围的三(3)个开环基音候选如下：

{p_max1，max1}，{p_max2，max2}，{{p_max3，max3}，

其中p_max1、p_max2和p_max3表示开环基音候选，而max1、max2和max3表示用于开环基音候选的对应长期基音相关值，以及其中p_max1＞p_max2＞p_max3。在一个实施例中，搜索算法相互排斥。

接着在步骤210，OLPA算法200在开环基音候选之中选择具有最大基音长期基音相关值中最大值即max＝MAX{max1，max2，max3}的开环基音候选，其中max表示最大基音长期基音相关值的最大值，而p_max表示与max对应的开环基音候选。例如，如果max2具有较max1和max3而言最大的基音长期基音相关值，则p_max初始将设置为p_max2。

随后在步骤215-245，OLPA算法200执行下文进一步描述的以下操作。

如p__max2＜p_max 步骤215

如果(|pit_old-p_max 2|＜10)步骤225

thresh＝0.7步骤235

否则

thresh＝0.9；步骤230

如果(max*thresh＜max2){步骤240

max＝max2；步骤245

p_max＝p_max2；步骤245

}

状态220

在步骤215，OLPA算法200确定是否p_max2小于p_max。如果是这样，则OLPA算法200移到步骤225，否则OLPA算法200移到状态220。在步骤225，OLPA算法200确定小于p_max小的先前基音是否小于预定值，例如小于p_max2小的先前基音的绝对值是否小于10。如上所言，与常规方式不同，OLPA算法200使用来自一个或者多个先前帧的信息。例如在步骤225，先前帧如紧邻前一帧的基音信息在OLPA算法200中用于提供平滑开环基音跟踪。在其它实施例中，先前帧的数个基音值、除紧邻前一帧之外的先前帧的一个基音值或者来自先前帧的其它信息可以用滑开环基音跟踪。回到步骤225，如果小于p_max2小的先前基音小于预定值，则OLPA算法200进行到将阈值设置为预定值如0.7的步骤235。否则OLPA算法200进行到将阈值设置为不同预定值如0.9的步骤230。在任一情况下，在步骤230和235之后OLPA算法200移到步骤240，在该步骤中确定与在步骤230或者235确定的阈值相乘的max是否小于max2。如果不是，则OLPA算法200移到下文描述的状态220。否则OLPA算法200移到步骤245，在该步骤中max接收的max2值而p_max接收p_max2的值。在步骤245，OLPA算法200进一步移到下文描述的状态220。

就状态220而言，它是在步骤250-280执行的过程的开始状态，在该状态下OLPA算法200执行下文进一步描述的以下操作。

如果p_max3＜p_max 步骤250

如果(|pit_old-p_max3|＜5)步骤260

thresh＝0.7；步骤270

否则

thresh＝0.9；步骤265

如果(max*thresh＜max3){步骤275

p_max＝p_max3；步骤280

}

步骤255

OLPA算法200从状态220进行到步骤250，在该步骤中OLPA算法200确定p_max3是否p_max。如果是这样，则OLPA算法200移到步骤260，否则OLPA算法200移到状态255。在步骤260，OLPA算法200确定小于p_max3小的先前基音是否小于预定值，例如小于p_max小的先前基音的绝对值是否小于5。如上所言，与常规方式不同，OLPA算法200使用来自一个或者多个先前帧的信息。例如在步骤260，先前帧如紧邻前一帧的基音信息在OLPA算法200中用于提供平滑开环基音跟踪。在其它实施例中，先前帧的数个基音值、除紧邻前一帧之外的先前帧的一个基音值或者来自先前帧的其它信息可以用于平滑开环基音跟踪。回到步骤260，如果小于p_max3小的先前基音小于预定值，则OLPA算法200进行到将阈值设置为预定值如0.7的步骤270。否则OLPA算法200进行到将阈值设置为不同预定值如0.9的步骤265。在任一情况下，在步骤265和270之后OLPA算法200移到步骤275，在该步骤中确定与在步骤265和270确定的阈值相乘的max是否小于max3。如果不是，则OLPA算法200移到下文描述的状态255。否则OLPA算法200移到步骤280，在该步骤中p_max接收p_max3的值。换而言之，这时选择p_max3作为开环基音。在步骤280，OLPA算法200进一步移到下文描述的状态255。

在步骤255，OLPA算法200结束，并且当前值p_max表示所选开环基音的值而max表示用于p_max的对应长期基音相关值。

从本发明的以上描述中不言而喻，各种技术可以用于实施本发明的概念而不脱离本发明的范围。另外尽管已经参照某些实施例描述了本发明，但是本领域技术人员将认识到可以在形式和细节上做出改变而不脱离本发明的精神和范围。例如设想可以用软件实施这里公开的电路或者反之亦然。描述的实施例在所有方面都被认为是举例说明而不是进行限制。也应当理解本发明不限于这里描述的特定实施例而是能够有许多重新布置、修改和替换却不脱离本发明的范围。

Claims

1.一种对语音编码执行开环基音分析的方法，包括：

获得包括第一开环基音候选p_max1、第二开环基音候选p_max2和第三开环基音候选p_max3的多个开环基音候选，其中p_max1＞p_max2＞p_max3；

获得包括用于所述多个开环基音候选中各对应开环基音候选的第一相关值max1、第二相关值max2和第三相关值max3的多个长期相关值；

从所述多个开环基音候选中选择初始开环基音p_max，其中与p_max对应的长期相关值max在多个长期相关值之中具有最大长期相关值；

如果p_max2小于p_max，则基于对来自一个或多个先前帧的清浊度信息的第一判决将max设置为max2而将p_max设置为p_max2，来自所述一个或多个先前帧的清浊度信息包括所述一个或多个先前帧的先前基音；以及

如果p_max3小于p_max，则基于对来自一个或多个先前帧的清浊度信息的第二判决将p_max设置为p_max3，来自所述一个或多个先前帧的清浊度信息包括所述一个或多个先前帧的先前基音。

2.根据权利要求1所述的方法，其中来自所述一个或者多个先前帧的所述清浊度信息包括所述一个或者多个先前帧的先前基音。

3.根据权利要求1所述的方法，其中来自所述一个或者多个先前帧的所述清浊度信息是来自紧邻前一帧的基音。

4.根据权利要求1所述的方法，其中所述第一判决包括：

如果先前基音与p_max2的差的绝对值小于第一预定比较值，则将第一阈值设置为第一预定阈值，而如果先前基音与p_max2的差的所述绝对值不小于所述第一预定比较值，则将所述第一阈值设置为第二预定阈值；以及

确定max乘以所述第一阈值是否小于max2。

5.根据权利要求4所述的方法，其中所述第一预定比较值是10、所述第一预定阈值是0.7而所述第二预定阈值是0.9。

6.一种对语音编码执行开环基音分析的装置，所述装置包括：

开环基音候选获得模块，用于获得包括第一开环基音候选p_max1、第二开环基音候选p_max2和第三开环基音候选p_max3的多个开环基音候选，其中p_max1＞p_max2＞p_max3；

长期相关值获得模块，用于获得包括用于所述多个开环基音候选中各对应开环基音候选的第一相关值max1、第二相关值max2和第三相关值max3的多个长期相关值；

初始开环基音选择模块，用于从所述多个开环基音候选中选择初始开环基音p_max，其中与p_max对应的长期相关值max在多个长期相关值之中具有最大长期相关值；

第一设置模块，如果p_max2小于p_max，则基于对来自一个或多个先前帧的清浊度信息的第一判决将max设置为max2而将p_max设置为p_max2，来自所述一个或多个先前帧的清浊度信息包括所述一个或多个先前帧的先前基音；以及

第二设置模块，如果p_max3小于p_max，则基于对来自一个或多个先前帧的清浊度信息的第二判决将p_max设置为p_max3，来自所述一个或多个先前帧的清浊度信息包括所述一个或多个先前帧的先前基音。

7.根据权利要求6所述的装置，其中来自所述一个或者多个先前帧的所述清浊度信息包括所述一个或者多个先前帧的先前基音。

8.根据权利要求6所述的装置，其中来自所述一个或者多个先前帧的所述清浊度信息是来自紧邻前一帧的基音。

9.根据权利要求6所述的装置，其中所述第一判决包括：

确定与所述第一阈值相乘的max是否小于max2。

10.根据权利要求9所述的装置，其中所述第一预定比较值是10、所述第一预定阈值是0.7而所述第二预定阈值是0.9。