CN109729448A

CN109729448A - 脖戴式语音交互耳机的语音控制优化方法和装置

Info

Publication number: CN109729448A
Application number: CN201711024112.0A
Authority: CN
Inventors: 朱华明; 武巍
Original assignee: Beijing Jinruidelu Technology Co Ltd
Current assignee: Beijing Jinruidelu Technology Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2019-05-07

Abstract

本发明提供了一种脖戴式语音交互耳机的语音控制优化方法和装置，脖戴式语音交互耳机的语音控制优化方法包括：接收音频信号，在音频信号进入语音识别***(ASR)之前，对音频信号进行声学滤波，获取预处理音频；预处理音频被麦克风采集，经过模拟电路滤波后通过模数转换生成数字音频；数字音频经由语音识别***(ASR)被处理为有效语音指令；根据有效语音指令触发智能设备的相应功能。本发明针对入耳麦克风的应用场景，提出一系列优化方法，有效抑制噪声成分，从而得到较纯净的语音数据，然后推送给相关的后端服务模块，以保障高质量服务的提供。

Description

脖戴式语音交互耳机的语音控制优化方法和装置

技术领域

本发明涉及智能穿戴设备技术领域，具体而言，涉及一种脖戴式语音交互耳机的语音控制优化方法和装置，一种集成入耳式麦克风的耳机和一种穿戴设备。

背景技术

听与说，是人所具有的交流沟通的基本属性。相应的，智能穿戴设备也需要基本的交流沟通能力，能够说，也能够听。智能穿戴设备的听说能力，借由两种输入输出的声学传感器来完成。前者，通过麦克风输入传感器来采集声音；后者，通过扬声器输出传感器来播放声音。通过普通麦克风采集到的声音，一般来说不会只包含一种单纯的声音，而是人声，音乐声，以及各种各样的环境音(噪音)的混合体。而智能穿戴设备所提供的诸多服务(语音唤醒，语音识别，语音通话，音乐播放等)的完成，往往只依赖于混合声音的人声部分，而且是设备佩戴者的人声，除此之外的环境音，非佩戴者的语音以及其它噪声成分的存在，反而会阻碍某些服务的正常运行。因此，智能穿戴设备，需要一个声学前端子***，来完成对外界声音的采集和相关处理，最大程度的提供有效的音频数据，以保证后端各种功能服务模块的正常运行。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。提出了一种脖戴式语音交互耳机的语音控制优化方法、装置以及集成入耳式麦克风的耳机和穿戴设备来完成对外界声音的采集和相关处理，最大程度的提供有效的音频数据，以保证后端各种功能服务模块的正常运行。

为此，本发明的一个目的在于提出了一种脖戴式语音交互耳机的语音控制优化方法。

本发明的另一个目的在于对应提供了一种脖戴式语音交互耳机的语音控制优化装置。

本发明的再一个目的在于提供了一种集成入耳式麦克风的耳机。

本发明的再一个目的在于提供了一种穿戴设备。

为实现上述目的，本发明的第一方面提供了一种脖戴式语音交互耳机的语音控制优化方法，通过语音识别***(ASR)处理收音装置采集到的声音信号得到指令信号，根据所述指令信号实现对智能设备的语音控制，包括：

接收音频信号，在所述音频信号进入所述语音识别***(ASR)之前，对所述音频信号进行声学滤波，获取预处理音频；

所述预处理音频被麦克风采集，经过模拟电路滤波后通过模数转换生成数字音频；

所述数字音频经由语音识别***(ASR)被处理为有效语音指令；

根据所述有效语音指令触发智能设备的相应功能。

优选的是，所述声学滤波是通过机械机构和/或声学结构对空间域的声音信号进行降噪处理。

在上述任一方案中优选的是，所述数字音频被语音识别***(ASR)处理为有效语音指令，具体包括：通过DSP模块的耳道适配算法、去混响算法和噪音抑制算法处理所述数字音频，输出处理后的数字信号至所述语音识别***(ASR)，所述语音识别***(ASR)将接收到的数字信号转化为文本信息，所述文本信息通过自然语言处理***(NLP)被处理为所述有效语音指令。

在上述任一方案中优选的是，所述麦克风为骨传导麦克风和/或入耳式麦克风。

在上述任一方案中优选的是，根据声学结构的***传递函数对所述预处理音频信号进行滤波整形，所述声学结构的***传递函数由亥姆霍兹谐振的中心频率f_c确定：

其中，其中c是空气速度，A_H是声孔的横截面积，L_H是声孔的长度，V_C是空腔的容积。

在上述任一方案中优选的是，所述经过模拟电路滤波后通过模数转换生成数字音频，具体包括：根据模拟滤波电路的***传递函数进行所述滤波。

在上述任一方案中优选的是，在所述数字音频经由语音识别***(ASR)被处理为有效语音指令之前，还包括：根据数字滤波器的***传递函数对所述数字音频进行数字滤波。

在上述任一方案中优选的是，所述耳道适配算法具体包括：根据测量佩戴者朗读固定语音序列的频谱响应得到耳道***相对于声学麦克风***的传递函对所述数字音频进行耳道适应校准。

本发明的第二部分涉及一种脖戴式语音交互耳机的语音控制优化装置，通过语音识别***(ASR)处理收音装置采集到的声音信号得到指令信号，根据所述指令信号实现对智能设备的语音控制，其特征在于，包括：

声学滤波单元，接收音频信号，在所述音频信号进入所述语音识别***(ASR)之前，对所述音频信号进行声学滤波，获取预处理音频；

模数转换单元，所述预处理音频被麦克风采集，经过模拟电路滤波后通过模数转换生成数字音频；

语音识别单元，所述数字音频经由语音识别***(ASR)被处理为有效语音指令；

执行指令单元，根据所述有效语音指令触发智能设备的相应功能。

在上述任一方案中优选的是，所述语音识别单元，具体包括：数字处理子单元，通过DSP模块的耳道适配算法、去混响算法和噪音抑制算法处理所述数字音频，输出处理后的数字信号至所述语音识别***(ASR)，文本转换子单元，所述语音识别***(ASR)将接收到的数字信号转化为文本信息，指令生成单元，所述文本信息通过自然语言处理***(NLP)被处理为所述有效语音指令。

在上述任一方案中优选的是，还包括：整形滤波单元，根据声学结构的***传递函数对所述预处理音频信号进行滤波整形，所述声学结构的***传递函数由亥姆霍兹谐振的中心频率f_c确定：

在上述任一方案中优选的是，所述模数转换单元，具体包括：模拟滤波子单元，根据模拟滤波电路的***传递函数进行所述滤波。

在上述任一方案中优选的是，还包括：数字滤波子单元，根据数字滤波器的***传递函数对所述数字音频进行数字滤波。

本发明的第三部分涉及一种集成入耳式麦克风的耳机，包括壳体、模拟音频处理模块和数字音频处理模块，还包括：

上述任一项所述的脖戴式语音交互耳机的语音控制优化装置；以及声学处理模块，作为所述模拟音频处理模块的前置处理模块，根据机械机构和/或声学结构进行声学滤波；

耳内收音管，连接至所述声学处理模块以及所述模拟音频处理模块，设置在所述壳体内部，位于耳道内进行声波收集。

本发明的第四方面涉及一种穿戴设备，包括：如上述技术方案所述的集成入耳式麦克风的耳机。

本发明取得的有益效果是：通过对空间域的声学模块、模拟域的电路模块、数字域的DSP模块的相关算法的协同处理，完成对有效声音要素的滤波/整形/抑噪处理，提取出佩戴者的人声，滤除环境音和非佩戴者的语音以及其它噪声成分，提高了智能设备对语音指令的识别率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为按照本发明的脖戴式语音交互耳机的语音控制优化方法的一优选实施例的流程图；

图2为按照本发明的脖戴式语音交互耳机的语音控制优化装置的一优选实施例的示意框图；

图3为按照本发明的集成入耳式麦克风的耳机的一优选实施例的示意框图；

图4为按照本发明的一种穿戴设备的一优选实施例的示意框图；

图5为按照本发明穿戴设备的一优选实施例的硬件***示意图；

图6为按照本发明的脖戴式语音交互耳机的语音控制优化方法的一优选实施例的信号处理流程示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，一种脖戴式语音交互耳机的语音控制优化方法，包括：步骤102，接收音频信号，在音频信号进入语音识别***(ASR)之前，对音频信号进行声学滤波，获取预处理音频；步骤104，预处理音频被麦克风采集，经过模拟电路滤波后通过模数转换生成数字音频；步骤106，数字音频经由语音识别***(ASR)被处理为有效语音指令；步骤108，根据有效语音指令触发智能设备的相应功能。

根据本发明的上述实施例，优选地，声学滤波是通过机械机构和/或声学结构对空间域的声音信号进行降噪处理。

根据本发明的上述实施例，优选地，数字音频被语音识别***(ASR)处理为有效语音指令，具体包括：通过DSP模块的耳道适配算法、去混响算法和噪音抑制算法处理数字音频，输出处理后的数字信号至语音识别***(ASR)，语音识别***(ASR)将接收到的数字信号转化为文本信息，文本信息通过自然语言处理***(NLP，Natural LanguageProcessing)被处理为有效语音指令。

根据本发明的上述实施例，优选地，麦克风为骨传导麦克风和/或入耳式麦克风。

根据本发明的上述实施例，优选地，还包括：根据声学结构的***传递函数对预处理音频信号进行滤波整形，声学结构的***传递函数由亥姆霍兹谐振的中心频率f_c确定：

根据本发明的上述实施例，优选地，经过模拟电路滤波后通过模数转换生成数字音频，具体包括：根据模拟滤波电路的***传递函数进行滤波。

根据本发明的上述实施例，优选地，在数字音频经由语音识别***(ASR)被处理为有效语音指令之前，还包括：根据数字滤波器的***传递函数对数字音频进行数字滤波。

根据本发明的上述实施例，优选地，耳道适配算法具体包括：根据测量佩戴者朗读固定语音序列的频谱响应得到耳道***相对于声学麦克风***的传递函对数字音频进行耳道适应校准。

如图2所示，本发明的第二方面提出了一种脖戴式语音交互耳机的语音控制优化装置200，通过语音识别***(ASR)处理收音装置采集到的声音信号得到指令信号，根据指令信号实现对智能设备的语音控制，还包括：声学滤波单元202，接收音频信号，在音频信号进入语音识别***(ASR)之前，对音频信号进行声学滤波，获取预处理音频；模数转换单元204，预处理音频被麦克风采集，经过模拟电路滤波后通过模数转换生成数字音频；语音识别单元206，数字音频经由语音识别***(ASR)被处理为有效语音指令；执行指令单元208，根据有效语音指令触发智能设备的相应功能。

根据本发明的上述实施例，优选地，语音识别单元206，具体包括：数字处理子单元2062，通过DSP模块的耳道适配算法、去混响算法和噪音抑制算法处理数字音频，输出处理后的数字信号至语音识别***(ASR)，文本转换子单元2064，语音识别***(ASR)将接收到的数字信号转化为文本信息，指令生成单元2066，文本信息通过自然语言处理***(NLP)被处理为有效语音指令。

根据本发明的上述实施例，优选地，还包括：整形滤波单元212，根据声学结构的***传递函数对预处理音频信号进行滤波整形，声学结构的***传递函数由亥姆霍兹谐振的中心频率f_c确定：

根据本发明的上述实施例，优选地，模数转换单元204，具体包括：模拟滤波子单元2042，根据模拟滤波电路的***传递函数进行滤波。

根据本发明的上述实施例，优选地，还包括：数字滤波子单元210，根据数字滤波器的***传递函数对数字音频进行数字滤波。

如图3所示，集成入耳式麦克风的耳机300，包括壳体302、模拟音频处理模块304和数字音频处理模块306，还包括：如上述任一实施例的脖戴式语音交互耳机的语音控制优化装置200；以及声学处理模块308，作为模拟音频处理模块的前置处理模块，根据机械机构和/或声学结构进行声学滤波；耳内收音管310，连接至声学处理模块以及模拟音频处理模块，设置在壳体内部，位于耳道内进行声波收集。

如图4所示的一种穿戴设备400，包括：如上述实施例所述的集成入耳式麦克风的耳机300。

如图5所示，声学前端子***声音信号处理流程，如下所述：

人说话时的声音振动，通过骨骼传导到头部各处及耳道内，然后经过声学处理模块(机械机构/声学结构)进行声学滤波及相关处理；

声学模块处理得到的振动/声音信号，通过骨传导/入耳麦克风转化为模拟音频电信号；

模拟音频信号经过模拟电路(模拟音频处理模块)进行模拟滤波及相关处理；

模拟模块处理得到的电信号经过模/数转换器转化为可存储的数字信号；

数字信号经过数字信号处理器(DSP)上加载的相关算法的复杂处理，转化为针对各类后端服务的有效音频数据；

经过处理的音频数据激活相关的后端服务模块，通过云端，推送/获取/呈现各类面向终端用户的具体服务；

总而言之，声学前端子***，通过对设备佩戴者人声信号的相关处理，有效的激活后端模块，以提供高质量的服务。

根据本发明又一实施例，声学前端子***的性能，极大的依赖于通过传感器(麦克风)获得的元数据，而不同的传感器可以提供不同特性的音频元数据：

骨传导麦克风(压电陶瓷麦克)能够采集到人说话时的喉管/骨骼振动，物理上隔绝了非接触的环境噪声/非佩戴者人声，然而由于声音传导路径/介质的不同，以及麦克风本身的声学特性，与通过空气传导的普通麦克风相比，采集到的人声已经有了极大的改变，需要做相应的整形校正，才能提供更加有效的数据为后端所用。

入耳麦克风(驻极体麦克)位于耳道内，人说话时的骨骼振动传导至耳道后，推动耳道内的空气振动，将佩戴者的声音传导至麦克风。而耳塞极好的被动降噪作用，同样可以有效地隔绝环境噪声/非佩戴者人声。然而，入耳麦克风也同样具有声音传导路径/介质问题导致的数据失真问；而且，耳道被耳塞封闭后的闭塞效应，会对人声的低频部分幅度产生高达20～30dB影响；此外，还有耳道内的混响问题，也会影响语音数据的清晰度。以上情况，都需要相关的整形校正，以提供更加有效的数据为后端所用。因此，声学前端子***，需要空间域的声学模块、模拟域的电路模块、数字域的DSP模块的相关算法的协同处理，完成对有效声音要素的滤波/整形/抑噪处理。相关的信号处理流程框图，如图6所示：

由于后端模块(语音识别/语音唤醒)的相关算法模型是建立在标准声学麦克风采集的数据之上，而当前***获得的数据是基于骨传导/入耳麦克风的，因此，需要通过试验获取骨传导/入耳麦克风相对于声学麦克风的***传递函数H_RBE(n)：

H_RBE(n)＝H_BE(n)/H_Ref(n)

标准声学麦克风的***传递函数H_Ref(n)其中，由实际测量的标准麦克风的幅度频率响应和相位频率响应相应决定；而骨传导/入耳麦克风的***传递函数H_BE(n)由实际测量的骨传导/入耳麦克风的幅度频率响应和相位频率响应相应决定。

对骨传导/入耳麦克风的数据进行相关的滤波整形时，需要使用H_RBE(n)的逆函数H_IRB(n)，以使处理后骨传导/入耳麦克风数据与标准麦克风数据更加一致：

H_IRB(n)＝[H_RBE(n)]^-1

又因为骨传导/入耳麦克风数据流经的声学滤波模块和模拟滤波模块，受到声学结构设计和硬件模拟电路设计的种种限制，因此，H_IRBE(n)的具体实现，会切分为H_Acoustic(n)，H_Analog(n)和H_Digital(n)三部分，先逐级满足声学结构和模拟硬件电路限制，再利用数字滤波模块的灵活性达到总体滤波整形要求。

H_IRBE(n)＝H_Acoustic(n)H_Analog(n)H_Digital(n)

H_Acoustic(n)是声学结构相关的***传递函数，其主要特性，由Helmholtz谐振的中心频率公式确定：

其中，其中c是空气速度，A_H是声孔的横截面积，L_H是声孔的长度，V_C是空腔的容积。该方程式假设谐振器是一个空腔和一条横截面均等的管道相连组成的简单结构。

H_Analog(n)是模拟硬件滤波电路相关的***传递函数，H_Digital(n)是数字滤波器的***传递函数。

通常来讲，模拟滤波模块和数字滤波模块可以达到近似的滤波效果，但是，模拟滤波模块可以提供更大的动态范围，数字滤波模块可以提供更好的灵活性，两者的结合可以给***设计提供更高的有效性和可靠性。

H_IRBE(n)分解确定后，就可以根据图2的相关流程，逐级进行算法处理。

音频数据经声学模块根据H_Acoustic(n)的相关特性处理后(此时声音没有被麦克风采集，是如何进行处理的)，传入骨传导/入耳麦克风进行采集数据。然后，经硬件模拟模块根据H_Analog(n)的相关特性处理后，再经模/数转换器处理后，存储为数字信号。

数字信号经过数字滤波模块根据H_Digital(n)的相关特性处理后，基本达到骨传导/入耳麦克风增强算法的效果。

但是，由于个体佩戴方式以及耳道结构的不同，H_IRBE(n)会随因佩戴者的不同的存在一定的个体差异，需要耳道适应模块使用特性为H_comp(n)的对差异进行调整。

耳道适应模块，存在两种模式：校准模式和修正模式。

H_comp(n)。校准模式下，耳道适应模块通过测量佩戴者朗读固定语音序列的频谱响应，得到

修正模式下，耳道适应模块直接使用H_comp(n)对语音数据进行处理，来匹配个体特性。

然后，针对入耳麦克风的应用场景，还需要通用的去混响模和噪声抑制模块，进一步对相关的噪声成分进行有效抑制，从而得到较纯净的语音数据，然后推送给相关的后端服务模块，以保障高质量服务的提供。

根据上述各个实施例可知本发明通过声学滤波对采集到的声波信号预处理后再经模拟电路和/或数字电路进行后续的滤波处理，对采集到的噪声成分进行有效抑制，通过ASR/NLP***对较为纯净的声音信号中识别出有效的语音指令，大大提高了语音识别的准确度，以保障高质量服务的提供。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种脖戴式语音交互耳机的语音控制优化方法，通过语音识别***(ASR)处理收音装置采集到的声音信号得到指令信号，根据所述指令信号实现对智能设备的语音控制，其特征在于，包括：

所述数字音频经由语音识别***(ASR)被处理为有效语音指令；

根据所述有效语音指令触发智能设备的相应功能。

2.根据权利要求1所述的脖戴式语音交互耳机的语音控制优化方法，其特征在于，所述声学滤波是通过机械机构和/或声学结构对空间域的声音信号进行降噪处理。

3.根据权利要求1所述的脖戴式语音交互耳机的语音控制优化方法，其特征在于，所述数字音频被语音识别***(ASR)处理为有效语音指令，具体包括：通过DSP模块的耳道适配算法、去混响算法和噪音抑制算法处理所述数字音频，输出处理后的数字信号至所述语音识别***(ASR)，所述语音识别***(ASR)将接收到的数字信号转化为文本信息，所述文本信息通过自然语言处理***(NLP)被处理为所述有效语音指令。

4.根据权利要求1所述的脖戴式语音交互耳机的语音控制优化方法，其特征在于，所述麦克风为骨传导麦克风和/或入耳式麦克风。

5.根据权利要求4所述的脖戴式语音交互耳机的语音控制优化方法，其特征在于，还包括：根据声学结构的***传递函数对所述预处理音频信号进行滤波整形，所述声学结构的***传递函数由亥姆霍兹谐振的中心频率f_c确定：

6.根据权利要求4所述的脖戴式语音交互耳机的语音控制优化方法，其特征在于，所述经过模拟电路滤波后通过模数转换生成数字音频，具体包括：根据模拟滤波电路的***传递函数进行所述滤波。

7.根据权利要求4所述的脖戴式语音交互耳机的语音控制优化方法，其特征在于，在所述数字音频经由语音识别***(ASR)被处理为有效语音指令之前，还包括：根据数字滤波器的***传递函数对所述数字音频进行数字滤波。

8.根据权利要求3所述的脖戴式语音交互耳机的语音控制优化方法，其特征在于，所述耳道适配算法具体包括：根据测量佩戴者朗读固定语音序列的频谱响应得到耳道***相对于声学麦克风***的传递函对所述数字音频进行耳道适应校准。

9.一种脖戴式语音交互耳机的语音控制优化装置，通过语音识别***(ASR)处理收音装置采集到的声音信号得到指令信号，根据所述指令信号实现对智能设备的语音控制，所述收音装置设置在所述脖戴式语音交互耳机的耳塞上和/或主机上；其特征在于，包括：

执行指令单元，根据所述有效语音指令触发智能设备的相应功能；

所述声学滤波单元、模数转换单元、语音识别单元和执行指令单元集成在所述控制装置上。

10.根据权利要求9所述的脖戴式语音交互耳机的语音控制优化装置，其特征在于，所述声学滤波是通过机械机构和/或声学结构对空间域的声音信号进行降噪处理。