CN109493877B

CN109493877B - 一种助听装置的语音增强方法和装置

Info

Publication number: CN109493877B
Application number: CN201710817728.7A
Authority: CN
Inventors: 王志华; 孙卓异; 姜汉钧
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2022-01-28
Anticipated expiration: 2037-09-12
Also published as: CN109493877A

Abstract

本发明实施例公开了一种助听装置的语音增强方法和装置，涉及医学电子技术以及音频信号处理领域。本发明实施例中的方法包括：获取助听装置的四通道音频数据；将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景；根据所述声学场景对获取到的音频数据进行分通道声音补偿和语音增强；输出两路增强音频数据。终端将获取的音频数据在便携式终端上进行语音增强处理，最终输出两路实时音频数据。智能提高音质，大大提高了助听器佩戴的普遍程度，可以达到更好的助听效果以及增强方式，同时由于该音频数据处理不是固化在助听装置处理器上，而是基于便携式终端的通用处理器芯片，利于未来的***升级以及语音增强方法的完善。

Description

一种助听装置的语音增强方法和装置

技术领域

本发明涉及医学电子技术以及音频信号处理领域，尤指一种助听装置的语音增强方法和装置。

背景技术

当今我国已经进入加速老龄化社会时代，老年人预期寿命的提高、电子产品应用过多导致听力水平下降以及损伤的人数数量呈上涨趋势，近年来随着医疗保健水平的提高，佩戴助听器的老年人和听障患者的比例已越来越多。如今，助听器技术是基于先进的数字信号处理，无线通信和人工智能技术。随着技术的快速发展，助听器的尺寸越来越小，助听器的功能越来越全面，如多通道宽动态范围压缩，主动降噪，自适应指向性，声场分析和无线连接到其他音频或通信***。

助听器的一个重要方面是要确保在不进一步损失听力患者听觉前提下，帮助患者补偿听力损失，提高音频质量。已有的助听器内置算法是固化在处理器中，不能随着处理器变化而智能升级。

发明内容

为了解决上述技术问题，本发明实施例提供了一种助听装置的语音增强方法和装置，利用便携式智能终端(如手机)实现助听功能的相应语音增强功能。

第一方面，本发明提供一种助听装置的语音增强方法，包括：

获取助听装置的四通道音频数据；

将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景；

根据所述声学场景对获取到的音频数据进行分通道声音补偿和语音增强；

输出两路增强音频数据。

优选地，将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景包括：

提取所述音频数据的声学环境特征；

将提取的声学环境特征与预设的语音环境进行匹配，确定用户所处的环境模式。

优选地，根据所述声学场景对获取到的音频数据进行分通道声音补偿和语音增强包括：

对所述音频数据进行预处理及分通道滤波；

将分通道滤波后的音频数据进行子带划分；对每个音频数据的子带进行频谱分析，获得所述音频数据的子带的信噪比；

根据所确定的环境模式对所述音频数据对应的声音来源进行选通，计算声音来源所在位置的角度；

根据确定的声音来源所在位置的角度和子带的信噪比，对所述音频数据的每个子带进行降噪和消除啸叫处理；

对降噪后的所述音频数据的每个子带进行动态压缩和声音强度放大处理；

将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换，并进行线性相位补偿；

将所述音频数据的每个子带合并成时域语音信号。

优选地，对所述音频数据进行预处理包括：

对所述音频数据中频率大于预设值的分量进行一阶高通滤波。

优选地，将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景之后还包括：

获得所述环境模式的以下至少之一的参数：

调制幅度参数、方向性控制参数、压缩放大比例参数以及噪声抑制参数。

优选地，根据所确定的环境模式对所述音频数据对应的声音来源进行选通，计算声音来源所在位置的角度包括：

根据所述方向性控制参数对所述助听装置的全部方向的声音来源进行选通；

计算声音来源所在位置的角度。

优选地，对所述音频数据的每个子带进行降噪处理包括：

基于所述音频数据的包络调制特性和频谱分析结果，根据所述调制幅度参数识别所述音频数据是否为噪音；

根据确定的信噪比和所述噪声抑制参数，对所述噪音进行抑制处理。

优选地，将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换，并进行线性相位补偿包括：

将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换；

根据所述压缩放大比例系数，进行对应程度的相位补偿。

第二方面，本发明还提供一种助听装置的语音增强装置，包括：

声音拾取模块，设置为获取助听装置的四通道音频数据；

声学环境监测模块，设置为将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景；

声音处理模块，设置为根据所述声学场景对获取到的音频数据进行分通道声音补偿和语音增强；

输出模块，设置为输出两路增强音频数据。

优选地，所述声学环境监测模块将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景包括：

提取所述音频数据的声学环境特征；

优选地，所述声音处理模块包括：

预处理单元，设置为对所述音频数据进行预处理及分通道滤波；

子带划分单元，设置为将分通道滤波后的音频数据进行子带划分；对每个音频数据的子带进行频谱分析，获得所述音频数据的子带的信噪比；

声源定位单元，设置为根据所确定的环境模式对所述音频数据对应的声音来源进行选通，计算声音来源所在位置的角度；

啸叫抑制与反馈消除单元，设置为根据确定的声音来源所在位置的角度和子带的信噪比，对所述音频数据的每个子带进行降噪和消除啸叫处理；

压缩与放大单元，设置为对降噪后的所述音频数据的每个子带进行动态压缩和声音强度放大处理；

声音补偿单元，设置为将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换，并进行线性相位补偿；

声音综合单元，设置为将所述音频数据的每个子带合并成时域语音信号。

优选地，所述预处理模块对所述音频数据进行预处理包括：

优选地，所述声学环境监测模块还设置为：

获得所述环境模式的以下至少之一的参数：

优选地，所述声源定位单元根据所确定的环境模式对所述音频数据对应的声音来源进行选通，计算声音来源所在位置的角度包括：

根据所述方向性控制参数对所述助听装置的全部方向的声音来源进行通选；

计算声音来源所在位置的角度。

优选地，所述啸叫抑制与反馈消除单元对所述音频数据的每个子带进行降噪处理包括：

优选地，所述声音补偿单元将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换，并进行线性相位补偿包括：

根据所述压缩放大比例系数，进行对应程度的相位补偿。

第三方面，本发明还提供一种语音增强装置，包括：存储器和处理器；

所述存储器，用于保存可执行指令；

所述处理器，用于执行所述存储器保存的所述可执行指令，进行如下操作：

获取助听装置的四通道音频数据；

输出两路增强音频数据。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，执行所述计算机可执行指令时，进行如下操作：

获取助听装置的四通道音频数据；

输出两路增强音频数据。

本发明实施例提供的助听装置的语音增强方法和装置，通过耳侧的助听装置获取四路音频数据，并传递到便携式终端上，将获取的音频数据在便携式终端上进行语音增强处理，最终输出两路实时音频数据。不同于普通助听装置中的助听***，本发明实施例充分考虑到便携式终端处理器的不同性能条件，提出了可用于不同便携式终端下的智能升级的语音助听增强的方法。智能提高音质，大大提高了助听器佩戴的普遍程度，可以达到更好的助听效果以及增强方式，同时由于该音频数据处理不是固化在助听装置处理器上，而是基于便携式终端的通用处理器芯片，利于未来的***升级以及语音增强方法的完善。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的一种助听装置的语音增强方法的流程图；

图2为本发明实施例提供的一种助听装置的语音增强装置的结构示意图；

图3为本发明实施例提供的声音处理模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在当今便携式智能终端(如手机)的普及率越来越高，而且便携式终端的通用处理器的运算能力也越来越强。然而，现在大多数助听器的并没有完好的可以实现助听功能的匹配便携式终端的相应语音增强实现方法，已有的助听器内置算法是固化在处理器中，不能随着处理器变化而智能升级。如图1所示，本发明实施例提供一种助听装置的语音增强方法，由便携式终端处理器实现，包括：

S101、获取助听装置的四通道音频数据；

S102、将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景；

S103、根据所述声学场景对获取到的音频数据进行分通道声音补偿和语音增强；

S104、输出两路增强音频数据。

本发明实施例中的四通道音频数据指：便携式终端获取助听装置的左耳侧前置麦克风的声音输入和左耳侧后置麦克风的声音输入，以及右耳侧前置麦克风的声音输入和右耳侧后置麦克风的声音输入。

本发明实施例基于便携式终端的实现智能语音增强，不更新耳侧的助听装置的前提下，只利用便携式终端就可以实现补偿听障患者的听力损失，通过耳侧的助听装置获取四路音频数据，并传递到便携式终端上，将获取的音频数据在便携式终端上进行语音增强处理，最终输出两路实时音频数据。智能提高音质，大大提高了助听器佩戴的普遍程度。能在完成基础的语音助听功能的同时，实时进行智能语音增强，方便用户使用以及便于产品升级。

步骤S102将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景包括：

提取所述音频数据的声学环境特征；

步骤S103根据所述声学场景对获取到的音频数据进行分通道声音补偿和语音增强包括：

S1031、进行所述音频数据进行预处理及分通道滤波；

S1032、将分通道滤波后的音频数据进行子带划分；对每个音频数据的子带进行频谱分析，获得所述音频数据的子带的信噪比；

S1033、根据所确定的环境模式对所述音频数据对应的声音来源进行选通，计算声音来源所在位置的角度；

S1034、根据确定的声音来源所在位置的角度和子带的信噪比，对所述音频数据的每个子带进行降噪和消除啸叫处理；

S1035、对降噪后的所述音频数据的每个子带进行动态压缩和声音强度放大处理；

S1036、将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换，并进行线性相位补偿；

S1037、将所述音频数据的每个子带合并成时域语音信号。

本实施例中的步骤S1031中分通道滤波，根据检测的语音端点判断出背景噪声，采用谱减法来进行首次滤波，得到初步去除杂音的四路语音信号。

其中，对所述音频数据进行预处理包括：

本发明实施例中，预处理主要是指预加重的处理，对高频的分量进行一阶滤波器的高通滤波，增加语音的高频分辨率。

本发明实施例通过gammatone滤波器进行分通道滤波，过程如下：

根据人耳构造的特殊性，耳蜗基底膜在不同的位置上具有不同的频率特异性。这种特异性可以用n阶的非等宽Gammatone滤波器来表示，其时域表达式满足下式，即，

其中，

代表相位，fc代表中心频率，b代表带宽，N为滤波器的阶数，t代表时间，A代表幅值。

本发明实施例的步骤S1034中采取分通道的子带降噪技术进行降噪，不同于已有的分通道降噪技术，本发明实施例根据子带不同的频段结构采取不同的降噪方案，来进行语音质量的提高，进而达到语音增强的目的。来自四声道的音频数据中所包含的噪音信号通常存在于低频带中，使用谱减法以及可变噪声减法参数α，使得噪声得到衰减，此种方式语音失真程度可控。对于高频带的语音信号，使用互相关函数法来去除高频段的噪声谱分量，保留了定位所需的相关参数，并且没有衰减语音信号。其中可变噪声减法参数α的确定可根据下式获得：

其中，k代表子带的序列号，l代表子带帧数，

是代表α的随机初始值，SNR_p代表后验的信噪比值，σ为正整数，用于控制子带噪声谱谱减的范围，β和α_i(k)最值和先验SNR的估值有关，是评估参数，β是用于防止分母为零的(会存在后验信噪比趋于零的情况)，β的计算是由语音段得出的α的最大最小值差的倒数得到。

高频段和低频段之间的划分通过各个子带输出信号的噪声功率谱来计算，通常选择的划分频率范围在800Hz～1000Hz左右。

步骤S102将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景之后还包括：

获得所述环境模式的以下至少之一的参数：

其中，方向性控制参数包括：双耳时间差、双耳强度差、双耳相位差以及前后耳相位差等参数。

根据所确定的环境模式对所述音频数据对应的声音来源进行选通，计算声音来源所在位置的角度包括：

计算声音来源所在位置的角度。

对所述音频数据的每个子带进行降噪处理包括：

本发明实施例中，调制幅度参数由环境决定，因为语音信号包络具有调制特性，根据频谱分析后，根据调制率的大小可以用来识别输入的声学信号是语音还是噪音。噪声抑制参数则是根据所处的环境，环境嘈杂和安静环境下的噪声谱不同，计算所得输入信噪比也不同，用于可变噪声减法参数α的计算。

将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换，并进行线性相位补偿包括：

根据所述压缩放大比例系数，进行对应程度的相位补偿。

压缩放大比例参数由患者的听力损失的状况决定，测听之后会有听力损失图，标注在不同频率下患者的听觉状况，根据这个数据来确定压缩放大比例参数，来放大到正常听力水平程度，在声音补偿时，不同环境下压缩放大比例系数不同，进行不同程度的补偿。

本发明实施例先通过预加重的滤波，再通过gammatone的分通道滤波，再通过谱减法的滤波，谱减法等后续处理后进行语音信号整合。可以达到更好的助听效果以及增强。

如图2所示，本发明实施例还提供一种助听装置的语音增强装置，设置在便携式终端侧，包括：

声音拾取模块11，设置为获取助听装置的四通道音频数据；

声学环境监测模块12，设置为将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景；

声音处理模块13，设置为根据所述声学场景对获取到的音频数据进行分通道声音补偿和语音增强；

输出模块14，设置为输出两路增强音频数据。

所述声学环境监测模块12将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景包括：

提取所述音频数据的声学环境特征；

所述声音处理模块13包括：

预处理单元131，设置为进行所述音频数据进行预处理及分通道滤波；

子带划分单元132，设置为将分通道滤波后的音频数据进行子带划分；对每个音频数据的子带进行频谱分析，获得所述音频数据的子带的信噪比；

声源定位单元133，设置为根据所确定的环境模式对所述音频数据对应的声音来源进行选通，计算声音来源所在位置的角度；

啸叫抑制与反馈消除单元134，设置为根据确定的声音来源所在位置的角度和子带的信噪比，对所述音频数据的每个子带进行降噪和消除啸叫处理；

压缩与放大单元135，设置为对降噪后的所述音频数据的每个子带进行动态压缩和声音强度放大处理；

声音补偿单元136，设置为将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换，并进行线性相位补偿；

声音综合单元137，设置为将所述音频数据的每个子带合并成时域语音信号。

所述预处理模块对所述音频数据进行预处理包括：

所述声学环境监测模块还设置为：

获得所述环境模式的以下至少之一的参数：

所述声源定位单元133根据所确定的环境模式对所述音频数据对应的声音来源进行选通，计算声音来源所在位置的角度包括：

计算声音来源所在位置的角度。

所述啸叫抑制与反馈消除单元对所述音频数据的每个子带进行降噪处理包括：

所述声音补偿单元将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换，并进行线性相位补偿包括：

根据所述压缩放大比例系数，进行对应程度的相位补偿。

本发明实施例还提供一种语音增强装置，包括：存储器和处理器；

所述存储器，用于保存可执行指令；

获取助听装置的四通道音频数据；

输出两路增强音频数据。

本发明实施例还提供一种计算机可读存储介质所述计算机可读存储介质存储有计算机可执行指令，所述处理器执行所述计算机可执行指令时，进行如下操作：

获取助听装置的四通道音频数据；

输出两路增强音频数据。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可以通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种助听装置的语音增强方法，其特征在于，包括：

获取助听装置的四通道音频数据；

输出两路增强音频数据；

其中，

将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景包括：

提取所述音频数据的声学环境特征；

将提取的声学环境特征与预设的语音环境进行匹配，确定用户所处的环境模式；

根据所述声学场景对获取到的音频数据进行分通道声音补偿和语音增强包括：

对所述音频数据进行预处理及分通道滤波；

将所述音频数据的每个子带合并成时域语音信号。

2.根据权利要求1所述的语音增强方法，其特征在于，对所述音频数据进行预处理包括：

3.根据权利要求1所述的语音增强方法，其特征在于，将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景之后还包括：

获得所述环境模式的以下至少之一的参数：

4.根据权利要求3所述的语音增强方法，其特征在于，根据所确定的环境模式对所述音频数据对应的声音来源进行选通，计算声音来源所在位置的角度包括：

计算声音来源所在位置的角度。

5.根据权利要求3所述的语音增强方法，其特征在于，对所述音频数据的每个子带进行降噪处理包括：

6.根据权利要求3所述的语音增强方法，其特征在于，将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换，并进行线性相位补偿包括：

根据所述压缩放大比例系数，进行对应程度的相位补偿。

7.一种助听装置的语音增强装置，其特征在于，包括：

声音拾取模块，设置为获取助听装置的四通道音频数据；

输出模块，设置为输出两路增强音频数据；

其中，所述声学环境监测模块将获取到的音频数据提取声学环境特征，获得所述音频数据对应的声学场景包括：

提取所述音频数据的声学环境特征；

所述声音处理模块包括：

8.根据权利要求7所述的语音增强装置，其特征在于，所述预处理单元对所述音频数据进行预处理包括：

9.根据权利要求7所述的语音增强装置，其特征在于，所述声学环境监测模块还设置为：

获得所述环境模式的以下至少之一的参数：

10.根据权利要求9所述的语音增强装置，其特征在于，所述声源定位单元根据所确定的环境模式对所述音频数据对应的声音来源进行选通，计算声音来源所在位置的角度包括：根据所述方向性控制参数对所述助听装置的全部方向的声音来源进行通选；

计算声音来源所在位置的角度。

11.根据权利要求9所述的语音增强装置，其特征在于，所述啸叫抑制与反馈消除单元对所述音频数据的每个子带进行降噪处理包括：

12.根据权利要求9所述的语音增强装置，其特征在于，所述声音补偿单元将压缩放大后的所述音频数据的每个子带对应的频域信号进行时频转换，并进行线性相位补偿包括：

根据所述压缩放大比例系数，进行对应程度的相位补偿。

13.一种语音增强装置，其特征在于，包括：存储器和处理器；

所述存储器，用于保存可执行指令；

获取助听装置的四通道音频数据；

输出两路增强音频数据；

其中，

提取所述音频数据的声学环境特征；

对所述音频数据进行预处理及分通道滤波；

将所述音频数据的每个子带合并成时域语音信号。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，执行所述计算机可执行指令时，进行如下操作：

获取助听装置的四通道音频数据；

输出两路增强音频数据；

其中，

提取所述音频数据的声学环境特征；

对所述音频数据进行预处理及分通道滤波；

将所述音频数据的每个子带合并成时域语音信号。