CN110310655B

CN110310655B - 麦克风信号处理方法、装置、设备及存储介质

Info

Publication number: CN110310655B
Application number: CN201910324799.2A
Authority: CN
Inventors: 刘荣
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2021-10-22
Anticipated expiration: 2039-04-22
Also published as: CN110310655A

Abstract

本发明提供一种麦克风信号处理方法、装置、设备及存储介质，进行线性回声消除处理和波束形成处理后信号一分为三，一路通过第一降噪处理后进行第一非线性回声抑制处理，然后进行语音存在检测，得到语音存在检测结果X；第二路经过第二降噪处理后进行第一自动增益控制处理，得到供语音识别用的语音识别信号Y；X和Y合并成两个声道，提供给语音识别APP使用；第三路经过第三降噪处理后进行第二非线性回声抑制处理，进一步抑制残留回声，然后进行第二自动增益控制处理，得到语音应用信号Z，供录音或通信APP使用。本发明针对语音识别APP和其他语音APP的不同需求，将信号分支成三路，结构灵活，可以单独调整两部分信号处理的参数和算法，不互相影响。

Description

麦克风信号处理方法、装置、设备及存储介质

技术领域

本发明涉及语音信号处理领域，更具体地，涉及一种麦克风信号处理方法、装置、设备及存储介质。

背景技术

在语音识别应用中，需要对麦克风信号做一些前处理，例如波束形成(Beamforming)、回声消除(AEC)、降噪(NR)、自动增益控制(AGC)、去混响(DR)、语音存在检测(VAD)等。在操作***中，语音识别的软件通常是一个通用的APP，它会直接从声卡设备获取语音信号并进行识别，而波束形成、回声消除、去混响等是和硬件设计高度相关的，不好单独放在应用软件中，且每个应用软件都要独立实现，重复计算，有些信息甚至获取不到，通用性差。因此现有的技术方案有些是在麦克风模块的固件中实现，其缺点是：运算量大，模块成本高。或在驱动中实现，其缺点：资源受限，例如浮点运算、锁、任务调度、休眠等。

发明内容

本发明为解决现有技术存在的问题，提供一种麦克风信号处理方法、装置、设备及存储介质，针对语音识别APP和其他语音APP的不同需求，将信号分支成多路处理，可以单独调整每部分信号处理的参数和算法，不互相影响。

第一方面，本发明实施例提供一种麦克风信号处理方法，包括以下步骤：

S1：多路麦克风信号和参考信号一起进行线性回声消除处理(AEC)，将麦克风中拾取到的扬声器声音抵消掉；

S2：线性回声消除处理后的多路麦克风信号进行波束形成(Beamforming)处理，波束形成的信号一分为三，

其中一路信号通过第一降噪处理后进行第一非线性回声抑制处理，进一步抑制残留回声，然后进行语音存在检测(VAD)，得到语音存在检测结果X；

第二路信号经过第二降噪处理后进行第一自动增益控制(AGC)处理，得到供语音识别用的语音识别信号Y；

语音存在检测结果X和语音识别信号Y合并成两个声道，提供给语音识别APP使用；

这里使通过两个不同的第一降噪算法和第二降噪算法，是因为用于语音识别的语音信号，如果降噪太厉害或处理不好的话，会严重影响识别率；而VAD检测的降噪则需要比较强力的降噪，否则会影响VAD的正常工作。而非线性回声抑制部分，只在VAD通道上做的原因也是因为它会影响语音识别率，但对VAD检测很有帮助；这样分开两路处理后，既能保证语音识别的效果，又能保证VAD的效果，而且调试和优化也更方便，参数不会互相耦合。

第三路信号经过第三降噪处理后进行第二非线性回声抑制处理，进一步抑制残留回声，然后进行第二自动增益控制处理，得到语音应用信号Z，供录音或通信APP使用。

优选地，步骤S1中，所述参考信号从扬声器上获取到，或者从声卡驱动/语音播放软件中获取。

优选地，步骤S1中，使用自适应滤波器对各路麦克风信号和参考信号一起进行线性回声消除处理。

优选地，步骤S2中，多路麦克风信号进行波束形成处理时，需要知道波达角度(DOA)，波达角度根据预设的波达角度估计方法计算得到。

优选地，步骤S2中，语音存在检测结果X和语音识别信号Y合并成两个声道，具体方法为：语音存在检测结果X单独置于其中一个声道上，而语音识别信号Y单独置于另一声道上。如左声道存储语音信号，右声道存储VAD信息，0表示没有语音，非0表示有语音。

优选地，步骤S2中，语音存在检测结果X和语音识别信号Y合并成两个声道，具体方法为：使用语音识别信号Y的某一比特位来存储存在检测结果X。例如，使用语音识别信号Y的最低位来存储存在检测结果X，最低位(bit)为0时，表示没有语音，最低位bit为1时，表示有语音。正常的语音信号为16bit或24bit，将最低1bit替换成0或1时，会被噪声淹没掉，几乎不会影响原来的识别率。

优选地，多路麦克风信号通过声卡驱动从多个麦克风硬件中获取并发送到信号处理服务程序，信号处理服务程序按照所述方法进行处理，处理好的信号存储在虚拟声卡驱动中，虚拟声卡驱动模拟出多个音频输入端口，用于分别为语音识别APP和其他APP提供处理好的麦克风信号。例如为语音识别APP提供语音存在检测结果X和语音识别信号Y合并成的音频流，为录音APP、通信APP等其他APP提供语音应用信号Z的音频流。

之所以采用信号处理服务程序+虚拟声卡驱动这样的架构形式，有以下几个原因：

1、通用性强，上层接口统一，不用每个APP单独去做这些处理，避免重复计算；

2、独立性强，整套处理方法放在信号处理服务程序中执行，开发受限少；可以单独对信号处理服务程序的算法和代码进行调试和更新部署；

3、信号处理服务程序放在应用级的服务程序中，开发难度低，资源受限制少，调试方便；

4、VAD和信号处理放在一块，能够获取到的信息更多，例如能够拿到参考信号、信号处理过程中的各种中间数据等，利用这些信息之后，VAD效果会更好。

第二方面，本发明实施例提供一种麦克风信号处理装置，包括：

线性回声消除模块：用于对多路麦克风信号和参考信号一起进行线性回声消除处理，将麦克风中拾取到的扬声器声音抵消掉；

波束形成模块：用于对线性回声消除模块输出的多路麦克风的信号进行波束形成处理；

第一降噪模块：用于对波束形成的其中一路信号进行降噪处理；

第一非线性回声抑制模块：用于对第一降噪模块输出的信号进行非线性回声抑制处理；

语音存在检测模块：用于对第一非线性回声抑制模块输出的信号进行语音存在检测，得到语音存在检测结果X；

第二降噪模块：用于对波束形成的另一路信号进行降噪处理；

第一自动增益控制模块：用于对第二降噪模块输出的信号进行自动增益控制，得到供语音识别用的语音识别信号Y；

信号合并模块：用于将语音存在检测结果X和语音识别信号Y合并成左右两个声道，提供给语音识别APP使用；

第三降噪模块：用于对波束形成的第三路信号进行降噪处理；

第二非线性回声抑制模块：用于对第三降噪模块输出的信号进行非线性回声抑制处理；

第二自动增益控制模块：用于对第二非线性回声抑制模块输出的信号进行第二自动增益控制处理，得到语音应用信号Z，供录音或通信APP使用。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一种方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时上述任意一种方法的步骤。

与现有技术相比，本发明技术方案的有益效果是：

1、针对语音识别APP和其他语音APP的不同需求，将信号分支成三路，一路信号进行语音存在检测，一路信号进行语音信号处理，一路信号进行包括降噪、非线性回声抑制和自动增益控制的语音信号处理，可以单独调整三部分信号处理的参数和算法，不互相影响；

2、将语音存在检测结果X信息直接混合到语音识别信号Y中，无需增加额外的通道提供VAD信息，方便实现，不用改动原有***的实现框架和结构。

附图说明

图1为本发明实施例1麦克风信号处理方法的流程图。

图2为本发明实施例1中左声道存储语音信号，右声道存储VAD信息的示意图。

图3为本发明实施例2麦克风信号处理装置的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，本发明实施例提供一种麦克风信号处理方法，包括以下步骤：

其中一路信号通过第一降噪处理后进行第一非线性回声抑制处理，进一步抑制残留回声，然后进行语音存在检测(VAD)，得到语音存在检测结果X。非线性回声抑制也需要用到步骤S1中的参考信号。线性回声消除部分通常无法完全消除麦克风中拾取的扬声器声音，方便语音存在检测(VAD)更可靠进行，然后进行语音存在检测，得到语音存在检测结果X；

降噪算法执行时需要知道噪声估计值，噪声估计值根据预设的噪声估计方法计算得到。这里采用常规的噪声估计方法即可。

步骤S1中，所述参考信号从扬声器上获取到，所述参考信号从扬声器上获取到，或者从声卡驱动/语音播放软件中获取。

步骤S1中，使用自适应滤波器对各路麦克风信号和参考信号一起进行线性回声消除处理。

步骤S2中，多路麦克风信号进行波束形成处理时，需要知道波达角度(DOA)，波达角度根据预设的波达角度估计方法计算得到。

步骤S2中，语音存在检测结果X和语音识别信号Y合并成两个声道，具体方法为：语音存在检测结果X单独置于其中一个声道上，而语音识别信号Y单独置于另一声道上。如图2所示，左声道存储语音信号，右声道存储VAD信息，0表示没有语音，非0表示有语音。

步骤S2中，语音存在检测结果X和语音识别信号Y合并成两个声道，具体方法还可以为：使用语音识别信号Y的某一比特位来存储存在检测结果X。例如，使用语音识别信号Y的最低位来存储存在检测结果X，最低位(bit)为0时，表示没有语音，最低位bit为1时，表示有语音。正常的语音信号为16bit或24bit，将最低1bit替换成0或1时，会被噪声淹没掉，几乎不会影响原来的识别率。

之所以采用信号处理服务程序+虚拟声卡这样的架构形式，有以下几个原因：

2、独立性强，可以单独对信号处理服务程序的算法和代码进行调试和更新部署；

在视频会议机/幼教机中可以使用本实施例方案。考虑到录播、远程教育、语音控制等功能，这些整机需要有麦克风输入，同时又有扬声器输出声音。由于要求拾音距离比较远，加上扬声器信号的干扰，会严重影响录音和语音识别的效果。所以需要一个麦克风信号的前处理模块，将麦克风信号中包含的扬声器回声信号以及环境中的噪声信号去除掉，并将信号幅度调整到合适的幅度送给录音软件或语音识别模块进行识别。同时，为了保证没有语音时不会将麦克风信号送到语音识别模块，需要VAD检测当前是否有语音信号，只有发现存在语音信号时，才将麦克风数据发送给语音识别模块进行识别，这样做的好处是一方面可以防止出现误识别，另一方面可以减轻语音识别模块的工作量(可以降低CPU使用率)。语音识别模块和录音软件可以单独工作在用户应用层，而不用关心语音信号处理的部分。这种方案可以使用成本非常低(因为不带信号处理)的麦克风模组，而把信号处理部分放在***的主CPU上。

实施例2

如图3所示，本发明实施例2提供一种麦克风信号处理装置，包括：

实施例3

本发明实施例3提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一种方法的步骤。在本实施例中，处理器为计算机***的控制中心，可以是实体机的处理器，也可以是虚拟机的处理器。

实施例4

本发明实施例4提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时上述任意一种方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米***(包括分子存储IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

本领域的技术人员可以清楚地了解到本发明实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”或“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种麦克风信号处理方法，其特征在于包括以下步骤：

S1：多路麦克风信号和参考信号一起进行线性回声消除处理，将麦克风中拾取到的扬声器声音抵消掉；

S2：线性回声消除处理后的多路麦克风信号进行波束形成处理，波束形成的信号一分为三，

其中一路信号通过第一降噪处理后进行第一非线性回声抑制处理，进一步抑制残留回声，然后进行语音存在检测，得到语音存在检测结果X；

第二路信号经过第二降噪处理后进行第一自动增益控制处理，得到供语音识别用的语音识别信号Y；

2.根据权利要求1所述的麦克风信号处理方法，其特征在于，步骤S1中，所述参考信号从扬声器上获取到，或者从声卡驱动/语音播放软件中获取。

3.根据权利要求1所述的麦克风信号处理方法，其特征在于，步骤S1中，使用自适应滤波器对各路麦克风信号和参考信号一起进行线性回声消除处理。

4.根据权利要求1所述的麦克风信号处理方法，其特征在于，步骤S2中，多路麦克风信号进行波束形成处理时，需要知道波达角度，波达角度根据预设的波达角度估计方法计算得到。

5.根据权利要求1所述的麦克风信号处理方法，其特征在于，步骤S2中，语音存在检测结果X和语音识别信号Y合并成两个声道，具体方法为：语音存在检测结果X单独置于其中一个声道上，而语音识别信号Y单独置于另一声道上。

6.根据权利要求1所述的麦克风信号处理方法，其特征在于，步骤S2中，语音存在检测结果X和语音识别信号Y合并成两个声道，具体方法为：使用语音识别信号Y的某一比特位来存储存在检测结果X。

7.根据权利要求1至6任一项所述的麦克风信号处理方法，其特征在于，多路麦克风信号通过声卡驱动从多个麦克风硬件中获取并发送到信号处理服务程序，信号处理服务程序按照所述方法进行处理，处理好的信号存储在虚拟声卡驱动中，虚拟声卡驱动模拟出多个音频输入端口，用于分别为语音识别APP和其他APP提供处理好的麦克风信号。

8.一种麦克风信号处理装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。