CN112053698A

CN112053698A - 语音转换方法及装置

Info

Publication number: CN112053698A
Application number: CN202010758755.3A
Authority: CN
Inventors: 付聪; 雷欣; 李志飞
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd; Chumen Wenwen Information Technology Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-12-08

Abstract

本申请公开了一种语音转换方法及装置。该方法包括：利用耳机的耳道传声器采集目标语音；根据预设的声音传递函数对所述目标语音进行转换，得到待输出语音；输出所述待输出语音。

Description

语音转换方法及装置

技术领域

本申请涉及语音音频领域，尤其涉及一种语音转换方法。

背景技术

目前，实现了通话功能的耳机会有一个通话传声器，用于采集佩戴者的语音信号。这种通话传声器的开孔通常在耳机结构体外侧，在风噪场景下，采集到的语音信号的风噪能量较大，使得输出的语音信号不够清晰。

因此，为了在风噪场景下也可以正常通话，有些耳机会将通话传声器置于耳机出声孔附近，且通话传声器的开孔位于耳机结构内部，佩戴后开孔位于佩戴者耳道内，这种通话传声器通常称为耳道内传声器。这种耳道内传声器可以避免被风直接吹到，因此采集的语音信号的风噪能量较小。

但是，由于耳道内传声器的开孔位于耳机结构内部，且佩戴者语音的传输会受到结构件的影响，因此幅频响应不够平直，通常会有高频较弱的问题，使得输出的声音听起来主观感觉比较沉闷，影响用户体验。

发明内容

有鉴于此，本发明实施例提供了语音转换方法及装置，可修复耳道内传声器采集的语音高频较弱的问题，从而提高用户体验。

为了实现上述目的，在第一方面，本发明提供了一种语音转换方法，该方法包括：

利用耳机的耳道传声器采集目标语音；

根据预设的声音传递函数对所述目标语音进行转换，得到待输出语音；

输出所述待输出语音。

优选的，所述根据预设的声音传递函数对所述目标语音进行转换，得到待输出语音，包括：通过以下方式对所述目标语音进行转换：

X_improve(f,t)＝H(f)*X(f,t)，或者，

X_improve(f,t)＝|H(f)|*X(f,t)；

其中，X_improve(f,t)为所述待输出语音，X(f,t)为所述目标语音，H(f)为所述声音传递函数，f表示频域，t表示时域。

优选的，所述声音传递函数通过以下方式进行确定：

利用***辨识方法确定参考声音传递函数，并将所述参考声音传递函数确定为声音传递函数，所述***辨识方法包括：自适应滤波器法或互功率谱法

优选的，所述利用***辨识方法确定参考声音传递函数，并将所述参考声音传递函数确定为声音传递函数，包括：针对多个不同的耳机佩戴参数，利用***辨识方法确定对应的多个参考声音传递函数，并将所述多个参考声音传递函数的平均值确定为声音传递函数。

优选的，所述自适应滤波器法包括：利用所述耳道内传声器和开孔位于所述耳机的结构体外的通话传声器同时采集样本语音，得到通过所述耳道内传声器采集到的第一样本信号和通过所述通话传声器采集到的第二样本信号；对所述第一样本信号进行自适应滤波，不断调整滤波系数，直到输出的第三样本信号与所述第二样本信号之间的残余信号达到预设值；将所述残余信号达到预设值时对应的滤波系数确定为参考声音传递函数。

优选的，所述互功率谱法包括：利用所述耳道内传声器和开孔位于所述耳机的结构体外的通话传声器同时采集样本语音，得到通过所述耳道内传声器采集到的第四样本信号和通过所述通话传声器采集到的第五样本信号；利用以下公式计算参考声音函数H’(f)：

H’(f)＝E{X_talk(f,t)*X^* _in-ear(f,t)}/E{X_in-ear(f,t)*X^* _in-ear(f,t)}；

其中，E表示取期望值，X_in-ear(f,t)为所述第四样本信号，X_talk(f,t)为所述第五样本信号。

为实现上述目的，在第二方面，本发明提供了一种语音转换装置，所述装置包括：

采集单元，用于利用耳机的耳道传声器采集目标语音；

转换单元，用于根据预设的声音传递函数对所述目标语音进行转换，得到待输出语音；

输出单元，用于输出所述待输出语音。

优选的，所述转换单元具体用于：通过以下方式对所述目标语音进行转换：

X_improve(f,t)＝H(f)*X(f,t)，或者，

X_improve(f,t)＝|H(f)|*X(f,t)；

优选的，所述声音传递函数通过以下方式进行确定：利用***辨识方法确定参考声音传递函数，并将所述参考声音传递函数确定为声音传递函数，所述***辨识方法包括：自适应滤波器法或互功率谱法。

H’(f)＝E{X_talk(f,t)*X^* _in-ear(f,t)}/E{X_in-ear(f,t)*X^* _in-ear(f,t)}；

为了实现上述目的，在第三方面，本发明提供了一种计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序用于执行上述第一方面中所述的语音转换方法。

为了实现上述目的，在第四方面，本发明提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面中所述的语音转换方法。

通过利用本方案中提供的语音转换方法及装置，利用耳机的耳道传声器采集目标语音，然后根据预设的声音传递函数对目标语音进行转换，得到待输出语音，输出待输出语音，该过程可修复耳道内传声器采集的语音高频较弱的问题。并且，因为耳机佩戴者嘴巴和通话传声器、耳道内传声器的相对位置比较固定，因此可认为通话传声器采集的语音信号和耳道内传声器采集的语音信号之间有比较一致的相对声音传递函数。那么，声音传递函数就充分描述了结构体对耳道内麦克风的影响。基于此，利用声音传递函数对耳道内传声器采集的语音信号进行转换后得到的语音信号和通话通话传声器采集到的语音信号听感上趋于一致，从而提高用户体验。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的语音转换方法的流程示意图；

图2是本申请一示例性实施例提供的语音转换装置的结构图；

图3是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

图1是本申请一示例性实施例提供的语音转换方法的流程示意图。该方法应用于语音转换装置，该语音转换装置可配置于耳机。

该方法包括：

步骤101，利用耳机的耳道传声器采集目标语音。

步骤102，根据预设的声音传递函数对目标语音进行转换，得到待输出语音。

在一个例子中，通过以下方式对目标语音进行转换：

X_improve(f,t)＝H(f)*X(f,t)，或者，

X_improve(f,t)＝|H(f)|*X(f,t)；

其中，X_improve(f,t)为待输出语音，X(f,t)为目标语音，H(f)为预设的声音传递函数，f表示频域，t表示时域。

需要说明的是，如果后续算法要求耳道传声器采集的语音信号保留相位，则可利用X_improve(f,t)＝H(f)*X(f,t)进行转换；如果后续算法不要求耳道传声器采集的语音信号保留相位，则转换算法X_improve(f,t)＝H(f)*X(f,t)和X_improve(f,t)＝|H(f)|*X(f,t)均可以只用，本实施例不做限制。

在一个例子中，预设的声音传递函数可以预先通过声学测试进行确定。具体的，可通过以下方式进行确定：

利用***辨识方法确定参考声音传递函数，并将参考声音传递函数确定为声音传递函数。其中，***辨识方法包括但不限于：自适应滤波器法或互功率谱法。

优选的，利用***辨识方法确定参考声音传递函数，并将参考声音传递函数确定为声音传递函数，可以包括：

针对多个不同的耳机佩戴参数，利用***辨识方法确定对应的多个参考声音传递函数，并将多个参考声音传递函数的平均值确定为声音传递函数。

具体的，可根据耳机外形和用户佩戴习惯，先选择三种佩戴角度。例如带柄的耳机，可以选择耳机柄和地面垂线的夹角为0度，15度和30度；以及三种佩戴松紧程度，即耳机和人工耳道贴合较松，较紧，适中。

随机选取不同批次生产的同款耳机九个，分为三组，每组三只，在性能良好(finetuning)的人工头上佩戴，每组耳机采用一种佩戴松紧程度，且每只耳机采用三种佩戴角度，分别利用***辨识方法得到27个参考声音传递函数。求取这27个参考声音传递函数的平均值作为该款耳机的声音传递函数。

在一个例子中，自适应滤波器法可以包括：

利用耳道内传声器和开孔位于耳机的结构体外的通话传声器同时采集样本语音，得到通过耳道内传声器采集到的第一样本信号和通过通话传声器采集到的第二样本信号。然后对第一样本信号进行自适应滤波，不断调整滤波系数，直到输出的第三样本信号与第二样本信号之间的残余信号达到预设值，该预设值可无限接近0。将残余信号达到该预设值时对应的滤波系数确定为参考声音传递函数。

在一个例子中，互功率谱法可以包括：

利用耳道内传声器和开孔位于所述耳机的结构体外的通话传声器同时采集样本语音，得到通过耳道内传声器采集到的第四样本信号和通过通话传声器采集到的第五样本信号。然后利用以下公式计算参考声音函数H’(f)：

H’(f)＝E{X_talk(f,t)*X^* _in-ear(f,t)}/E{X_in-ear(f,t)*X^* _in-ear(f,t)}；

其中，E表示取期望值，X_in-ear(f,t)为第四样本信号，X_talk(f,t)为第五样本信号。X^* _in-ear(f,t)表示对X_in-ear(f,t)取共轭。

步骤103，输出该待输出语音。

通过利用本实施例中提供的语音转换方法，利用耳机的耳道传声器采集目标语音，然后根据预设的声音传递函数对目标语音进行转换，得到待输出语音，输出待输出语音，该过程可修复耳道内传声器采集的语音高频较弱的问题。并且，因为耳机佩戴者嘴巴和通话传声器、耳道内传声器的相对位置比较固定，因此可认为通话传声器采集的语音信号和耳道内传声器采集的语音信号之间有比较一致的相对声音传递函数。那么，声音传递函数就充分描述了结构体对耳道内麦克风的影响。基于此，利用声音传递函数对耳道内传声器采集的语音信号进行转换后得到的语音信号和通话通话传声器采集到的语音信号听感上趋于一致，从而提高用户体验。

图2是本申请一示例性实施例提供的语音转换装置的结构图。该语音转换装置可配置于耳机。如图2所示，本申请一实施例的语音转换装置包括：

采集单元201，用于利用耳机的耳道传声器采集目标语音。

转换单元202，用于根据预设的声音传递函数对目标语音进行转换，得到待输出语音。

输出单元203，用于输出该待输出语音。

优选的，转换单元202具体用于：通过以下方式对所述目标语音进行转换：

X_improve(f,t)＝H(f)*X(f,t)，或者，

X_improve(f,t)＝|H(f)|*X(f,t)；

H’(f)＝E{X_talk(f,t)*X^* _in-ear(f,t)}/E{X_in-ear(f,t)*X^* _in-ear(f,t)}；

通过利用本实施例中提供的语音转换装置，利用耳机的耳道传声器采集目标语音，然后根据预设的声音传递函数对目标语音进行转换，得到待输出语音，输出待输出语音，该过程可修复耳道内传声器采集的语音高频较弱的问题。并且，因为耳机佩戴者嘴巴和通话传声器、耳道内传声器的相对位置比较固定，因此可认为通话传声器采集的语音信号和耳道内传声器采集的语音信号之间有比较一致的相对声音传递函数。那么，声音传递函数就充分描述了结构体对耳道内麦克风的影响。基于此，利用声音传递函数对耳道内传声器采集的语音信号进行转换后得到的语音信号和通话通话传声器采集到的语音信号听感上趋于一致，从而提高用户体验。

下面，参考图3来描述根据本申请实施例的电子设备11。如图3所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的语音转换方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

该输入设备113可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图3中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音转换方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音转换方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音转换方法，其特征在于，所述方法包括：

利用耳机的耳道传声器采集目标语音；

输出所述待输出语音。

2.根据权利要求1所述的方法，其特征在于，所述根据预设的声音传递函数对所述目标语音进行转换，得到待输出语音，包括：

通过以下方式对所述目标语音进行转换：

X_improve(f,t)＝H(f)*X(f,t)，或者，

X_improve(f,t)＝|H(f)|*X(f,t)；

3.根据权利要求1所述的方法，其特征在于，所述声音传递函数通过以下方式进行确定：

利用***辨识方法确定参考声音传递函数，并将所述参考声音传递函数确定为声音传递函数，所述***辨识方法包括：自适应滤波器法或互功率谱法。

4.根据权利要求3所述的方法，其特征在于，所述利用***辨识方法确定参考声音传递函数，并将所述参考声音传递函数确定为声音传递函数，包括：

针对多个不同的耳机佩戴参数，利用***辨识方法确定对应的多个参考声音传递函数，并将所述多个参考声音传递函数的平均值确定为声音传递函数。

5.根据权利要求3或4所述的方法，其特征在于，所述自适应滤波器法包括：

利用所述耳道内传声器和开孔位于所述耳机的结构体外的通话传声器同时采集样本语音，得到通过所述耳道内传声器采集到的第一样本信号和通过所述通话传声器采集到的第二样本信号；

对所述第一样本信号进行自适应滤波，不断调整滤波系数，直到输出的第三样本信号与所述第二样本信号之间的残余信号达到预设值；

将所述残余信号达到预设值时对应的滤波系数确定为参考声音传递函数。

6.根据权利要求3或4所述的方法，其特征在于，所述互功率谱法包括：

利用所述耳道内传声器和开孔位于所述耳机的结构体外的通话传声器同时采集样本语音，得到通过所述耳道内传声器采集到的第四样本信号和通过所述通话传声器采集到的第五样本信号；

利用以下公式计算参考声音函数H’(f)：

H’(f)＝E{X_talk(f,t)*X^* _in-ear(f,t)}/E{X_in-ear(f,t)*X^* _in-ear(f,t)}；

7.一种语音转换装置，其特征在于，所述装置包括：

采集单元，用于利用耳机的耳道传声器采集目标语音；

输出单元，用于输出所述待输出语音。

8.根据权利要求7所述的装置，其特征在于，所述转换单元具体用于：

通过以下方式对所述目标语音进行转换：

X_improve(f,t)＝H(f)*X(f,t)，或者，

X_improve(f,t)＝|H(f)|*X(f,t)；

9.根据权利要求7所述的装置，其特征在于，所述声音传递函数通过以下方式进行确定：

10.根据权利要求9所述的装置，其特征在于，所述利用***辨识方法确定参考声音传递函数，并将所述参考声音传递函数确定为声音传递函数，包括：

11.根据权利要求9或10所述的装置，其特征在于，所述自适应滤波器法包括：

12.根据权利要求9或10所述的装置，其特征在于，所述互功率谱法包括：

利用以下公式计算参考声音函数H’(f)：

H’(f)＝E{X_talk(f,t)*X^* _in-ear(f,t)}/E{X_in-ear(f,t)*X^* _in-ear(f,t)}；

13.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一项所述的语音转换方法。

14.一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一项所述的语音转换方法。