CN109272996B

CN109272996B - 一种降噪方法及***

Info

Publication number: CN109272996B
Application number: CN201811332084.3A
Authority: CN
Inventors: 庄宏东; 聂云辉; 欧汉标; 戴小劲
Original assignee: Guangzhou Changjia Electronic Co ltd
Current assignee: Guangzhou Changjia Electronic Co ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2021-11-30
Anticipated expiration: 2038-11-09
Also published as: CN109272996A

Abstract

本发明提供了一种降噪方法及***，其方法包括：基于云端通信模块接收第一客户端通信模块发送的客户端编号信号和一次降噪信号；基于匹配模块接收所述客户端编号信号，指向云端储存器中对应的声纹特征库；基于处理器模块读取所述匹配模块指向的声纹特征库，重构声纹过滤器；基于所述声纹过滤器接收所述一次降噪信号并输出二次降噪信号至合成模块；所述合成模块接收所述二次降噪信号和一次降噪信号，并输出三次降噪信号至所述云端通信模块；基于所述云端通信模块发送所述三次降噪信号至第二客户端通信模块。本发明提供的降噪方法及***，通过声纹识别技术进行第三方人声的滤除，使用该降噪方法及***可以得到高质量、高清晰度、低噪声的通讯信号。

Description

一种降噪方法及***

技术领域

本发明涉及到一种声音处理领域，具体涉及到一种降噪方法及***。

背景技术

在语音通讯领域，现有的降噪技术主要滤除的目标为通话声音中的背景声，对于一些非使用者的人声无法很好的进行滤除，在使用者说话的间息中，如果同样有距离设备较近的人说话，会导致除了通讯双方外的第三方人声进入至通信语音中，影响通话质量，不利于信息保密和信息交流。

发明内容

为了克服现有降噪技术的缺陷，本发明提供了一种降噪方法及***，通过声纹识别技术进行第三方人声的滤除，使用该降噪方法及***可以得到高质量、高清晰度、低噪声的通讯信号。

相应的，本发明提供了一种降噪方法，包括以下步骤：

基于云端通信模块接收第一客户端通信模块发送的客户端编号信号和一次降噪信号；

基于匹配模块接收所述客户端编号信号，指向云端储存器中对应的声纹特征库；

基于处理器模块读取所述匹配模块指向的声纹特征库，重构声纹过滤器；

基于所述声纹过滤器接收所述一次降噪信号并输出二次降噪信号至合成模块；

所述合成模块接收所述二次降噪信号和一次降噪信号，并输出三次降噪信号至所述云端通信模块；

基于所述云端通信模块发送所述三次降噪信号至第二客户端通信模块。

所述一次降噪信号通过以下步骤生成：

基于第一客户端的一次降噪处理器接收第一客户端主麦克风获取的主信号和第一客户端副麦克风获取的副信号，输出一次降噪信号至第一客户端通信模块。

所述客户端编号信号与所述第一客户端通信模块硬件码绑定；

或所述客户端编号信号与所述第一客户端的登录账号绑定。

所述声纹特征库基于所述客户端编号信号进行分区，每个声纹特征库中包括对应于所述客户端编号信号的常用字声纹、高频次声纹和训练声纹。

所述常用字声纹为对应客户端编号信号的使用者基于《通用规范汉字表》中的常用字预先提取的声纹。

所述高频次声纹为统计多个所述一次降噪信号中发生频次高于某一设定阈值的声纹。

所述训练声纹为基于所述常用字声纹训练得出的声纹。

所述基于所述声纹过滤器接收所述一次降噪信号并输出二次降噪信号至合成模块包括以下步骤；

基于所述常用字声纹、高频次声纹、训练声纹对所述一次降噪信号进行遍历匹配，根据匹配结果生成对应于所述一次降噪信号时间轴的二次降噪信号，所述二次降噪信号在所述匹配结果为匹配时的时间点取值为1，其余时间点取值为0；

将所述二次降噪信号发送至合成模块。

所述合成模块接收所述二次降噪信号和一次降噪信号，并输出三次降噪信号至所述云端通信模块包括以下步骤：

基于所述合成模块的合成选择器以时间顺序读取所述一次降噪信号并以相应时间的二次降噪信号作为选择标准进行选择；

按照时间轴顺序，当二次降噪信号取值为1时，合成选择器向第一乘法器输出一次降噪信号，向第二乘法器输出0信号；当第二次降噪信号取值为0时，第一乘法器输出0，第二乘法器输出一次降噪信号。

基于所述合成模块的合成加法器对第一乘法器和第二乘法器的输出信号进行叠加，得到三次降噪信号并发送至所述云端通信模块。

相应的，本发明提供了一种降噪***，用于实现以上任一项所述的降噪方法。

本发明提供了一种麦克风降噪方法及***，通过声纹识别比对技术，对已降噪的一次降噪信号进行二次降噪和三次降噪，使最终生成的三次降噪中只保留特定使用者的声音信息，在滤除环境噪音的同时，还可以滤除除使用者外的声音影响，生成高清晰度的使用者声音信号，在具体实施中具有良好的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本发明实施例的降噪方法流程图；

图2示出了本发明实施例的降噪***结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了本发明实施例的降噪方法流程图。本发明实施例提供了一种降噪方法，主要用于通话降噪领域，第一客户端的语音信号经云端服务器后，发送给第二客户端，其中，在第一客户端上对语音信号进行一次降噪，在云端服务器进行二次降噪和三次降噪，然后生成最终降噪信号至第二客户端，具体的，本发明实施例提供的降噪方法包括以下步骤：

S101：基于云端通信模块接收第一客户端通信模块发送的客户端编号信号和一次降噪信号；

其中，一次降噪信号是在第一客户端上生成的，主要用于初步滤除背景声，减少背景声对语音信号的影响。具体的，通常基于在第一客户端上设置主麦克风和副麦克风实现一次降噪信号的生成。

一般的，主麦克风和副麦克风相互间保持一定的距离，并在电路板中保持隔离。相对于与使用者的发声距离，主麦克风和副麦克风的距离相差较大，人声音强相差较大；相对于与背景噪声的发声距离，主麦克风和副麦克风距离相差较小，背景声声强相差较小；因此，虽然，主麦克风获取的声音信息中包括人声和背景声，副麦克风同样包括人声和背景声，但是主麦克风和副麦克风的人声声强相差较大，背景声声强较小，通过叠加抵消后，声强相差较小的背景声相互抵消，声强接近于0；声强相差较大的人声在叠加后，声强会产生一定的衰减，但是还保留着较为明显的声音特征。

具体的，假设第一客户端设有两个性能相同的电容式的主麦克风和副麦克风，其中主麦克风常安装在在第一客户端的正面，靠近使用者的嘴部；副麦克风常安装在第一客户端的背面，并且远离主麦克风，两个麦克风在第一客户端内部有主板隔离。

正常语音通话时，使用者嘴部靠近主麦克风，产生较大的主信号Va；与此同时，副麦克风接收四周的声音，产生副信号Vb；将主信号Va和副信号Vb输入一次降噪处理器进行处理，将两路信号相减后生成叠加信号，即一次降噪信号V_t=Va-Vb；由于人声在叠加时会有一定的衰减，可以对一次降噪信号放大一定的倍数。具体的，一次降噪处理器为一差分放大器。

一次降噪信号生成后，输出至第一客户端通信模块进行发送。为了标识使用者的身份，同步发送的还有对应于使用者身份的客户端编号。具体的，所述客户端编号信号针对于不同的使用者是唯一确定的；所述客户端编号信号与所述第一客户端通信模块硬件码绑定，或所述客户端编号信号与所述第一客户端的登录账号绑定。

相应的，云端服务器的云端通信模块接收到的信号包括客户端编号信号和一次降噪信号。

S102：基于所述匹配模块接收所述客户端编号信号，指向云端储存器中对应的声纹特征库；

声纹特征库中包括对应于使用者的多个字或词的声纹信息，该声纹信息可以用于识别对应使用者的声音，从而可以从一段包括多人声音的语音中判断出使用者的声音，从而进行标识。

为了提高声纹特征库的识别精度，本发明实施例的声纹特征库包括常用字声纹、高频次声纹和训练声纹。

其中，常用字声纹为使用者正常朗读常用字所产生的声纹，其数量与常用字数量相关联。具体的，常用字可根据《通用规范汉字表》中的常用字进行圈定，使用者需要预录所述的常用字的语音，并形成相应的常用字声纹。

高频次声纹，是指使用者在通话过程中经常发出的却不属于常用字声纹的声纹，有可能包括气声、生僻字、行业专有名词等。具体的，高频次声纹由多次云端服务器在对一次降噪信号处理的过程中，所捕获的声纹的相同次数相关。具体的，在对一次降噪信号进行处理时，除了常用字声纹外，其余声音按照一定的分割规则进行分割，形成未知声纹进行储存；储存的未知声纹具有一个有关于频次的属性值；在多次的对一次降噪信号的处理过程中，未知声纹可能会存在相同的，相同的未知声纹基于未知声纹的频次属性进行记录。当未知声纹的频次属性超过一预设阈值时，可认为该未知声纹为高频次声纹，属于对应使用者的特殊声纹。

训练声纹，是指基于所述常用字声纹进行推导的声纹。每一位使用者都有相对应的声纹特征，通过提取使用者声纹的声纹特征，即从使用者语音中提取出能够表征使用者特定器官结构或习惯行为的特征参数，可实现对使用者声音的识别。具体的，特征参数的主要包括语音频谱参数、线性预测参数、小波特征参数。

其中，语音频谱参数主要用于提供使用者的发声器官特征，如通过声门、声道、鼻腔等特殊结构二提取出使用者语音的短时谱特征，即基音频率谱及其轮廓，它是表征使用者声音的激励源和声道的固有特征，可以反映使用者语音器官的差异；而短时谱随时间或幅度变化的特征，在一定程度上反映了说话人的发音习惯。因此，语音频谱参数在声纹识别中的应用主要体现在基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹的参数表征与模式识别。

其中，线性预测参数主要是指若干示例的语音抽样或用已有的数学模型来逼近当前的语音抽样，用相应的逼近参数来估计的语音特征。它能够实现用少量的参数有效地表现语音的波形和频谱特性，具有计算效率高、应用灵活等特点。目前声纹识别中常用的线性预测参数提取方法主要包括：线性预测倒谱LPCC、线谱对LSP、自相关和对数面积比、Mel频率倒谱MFCC、感知线性预测PLP。

其中，小波特征参数是利用小波变换技术对语音信号进行分析处理，以获得表示语音特征的小波系数，小波变换具有分辨率可变、无平稳性要求和时频域兼容表征等优点，能够有效地表征使用者的个性信息。利用小波变换对听觉感知***进行模拟，对语音信号去噪，进行清、浊音判断。因为小波变换的局部化性质，可以在很小的分帧长下对语音信号仍具有较高的频谱分辨率。通过在小波变换技术中引入到MFCC特征参数中，可以提高对辅音区的识别效果。

此外，不同方法提取出来的特征参数如果其之间相关性不大时，说明它们分别反映了语音信号的不同特征，因此，也可以通过不同特征参数的组合技术来获取更适用于模式匹配识别判断的语音特征参数模型。

基于独立的特征参数或语音特征参数模型，然后根据常用字声纹，推导形成常用词声纹、非常用字声纹等不属于常用字声纹的训练声纹进行储存，从而扩充了声纹特征库中的声纹量，有利于声纹特征库在筛选时，保留更多的使用者人声特征，提高筛选精度。

S103：基于处理器模块读取所述匹配模块指向的声纹特征库，重构声纹过滤器；

处理器模块读取匹配模块，由于匹配模块指向声纹特征库，处理器模块实际读取的为对应于第一客户端的客户端编号信号的声纹特征库；通过读取声纹特征库重构声纹过滤器，实际是将声纹过滤器中的常用字声纹、高频次声纹和训练声纹更换为对应于用户的第一客户端的客户端编号信号的声纹。

S104：基于所述声纹过滤器接收所述一次降噪信号并输出二次降噪信号至合成模块；

具体的，声纹过滤器实际是上通过利用使用者的常用字声纹、高频次声纹和训练声纹对一次降噪信号进行遍历比对，然后筛选出使用者的人声发出时间。

具体的，通过遍历的方式，将声纹过滤器中的常用字声纹、高频次声纹和训练声纹依次在一次降噪信号中检索，当产生匹配时记录下在一次降噪信号中的时域位置；遍历完成后，构建一与一次降噪信号相对应的时间轴，时间轴上产生匹配的时间段以信号1标识，未产生匹配的信号段以信号0标识。

二次降噪信号实质为一用于标识使用者人声发生时间的时间轴。

具体实施中，当声纹特征库的容量足够大时，人声的筛选足够精确时，可直接对识别为人声的时间段进行幅值放大后输出，而不必与一次降噪信号进行合成后再进行输出，以节省时间。但为了避免遗漏一些重要声音信息，本发明实施例通过二次降噪信号对人声时间进行标识，并利用该标识对一次降噪信号进行处理，以保留更多的声音信息，使最终生成的三次降噪信号较为连贯和清晰。

S105：所述合成模块接收所述二次降噪信号和一次降噪信号，并输出三次降噪信号至所述云端通信模块；

具体的，合成模块根据二次降噪信号，即时间轴对一次降噪信号进行处理。具体的，在一次降噪信号中，包括时间t和幅值U_t两个参数，由于为不规则信号，时间t和幅值U_t之间没有一定的相关关系。

在生成三次降噪信号时，在二次降噪信号取值为1的时间点t₁，可基于以下公式对该点的幅值U_t1进行处理：三次降噪信号中t₁点的幅值U_t1’=k U_t1；在二次降噪信号取值为0的时间点t₂，可基于以下公式对该点的幅值U_t2进行处理：三次降噪信号中t₂点的幅值U_t2’=U_t2/k。

具体的，合成模块中包括合成选择器、第一乘法器、第二乘法器和合成加法器；合成选择器输入端用于一次降噪信号的输入，输出端分别与第一乘法器和第二乘法器连接；合成加法器的输入端分别与第一乘法器和第二乘法器的输出端连接，输出端与云端通信模块连接。

合成选择器的选择标准基于二次降噪信号的取值动态改变，第一乘法器和第二乘法器分别执行U_t1’=k U_t1和U_t2’= U_t2/k计算；合成加法器将经第一乘法器和第二乘法器处理的声音进行合成。

具体实施中，该合成选择器以时间顺序读取所述一次降噪信号并以相应时间的二次降噪信号作为选择标准进行选择；按照时间轴顺序，当二次降噪信号取值为1时，表明一次降噪信号中该时间的声音为人声，合成选择器向第一乘法器输出一次降噪信号，向第二乘法器输出0信号；当第二次降噪信号取值为0时，表明一次降噪信号中该时间的声音为非人声，第一乘法器输出0，第二乘法器输出一次降噪信号。

由于第一乘法器和第二乘法器分别执行U_t1’=k U_t1和U_t2’= U_t2/k计算，即第一乘法器的人声是放大的，第二乘法器的人声是衰减的，该步骤有利于放大人声和减少背景噪声的影响；同时，由于第一乘法器和第二乘法器具有同样的时间轴，因此，通过合成加法器直接对第一乘法器和第二乘法器的输出信号进行叠加，即可得到三次降噪信号。

S106：基于所述云端通信模块发送所述三次降噪信号至第二客户端通信模块。

云端通信模块将三次降噪信号发送给第二客户端，第二客户端接收到三次降噪后的清晰的降噪语音信号。

相应的，本发明实施例还提供了一种降噪***，包括第一客户端、云端服务器和第二客户端。

其中，第一客户端包括主麦克风、副麦克风、一次降噪处理器、第一客户端通信模块；一次降噪处理器的两个输入端分别与主麦克风和副麦克风连接，输出端与第一客户端通信模块连接。

云端服务器包括云端通信模块、匹配模块、声纹特征库、处理器模块、声纹过滤器、合成选择器、第一乘法器、第二乘法器、合成加法器。云端通信模块的输入端与第一客户端通信模块连接，输出端分别与匹配模块、声纹过滤器和合成选择器连接；匹配模块指向声纹特征库中的某一位置并读取对应的声纹特征；处理器模块分别与匹配模块和声纹过滤器连接；合成选择器受声纹过滤器控制，输出端分别与第一乘法器和第二乘法器连接；合成加法器的输入端分别与第一乘法器和第二乘法器的输出端连接，输出端与云端通信模块连接。

第二客户端包括第二客户端通信模块，所述第二客户端通信模块与所述云端通信模块连接。

本发明实施例提供了一种麦克风降噪方法及***，通过声纹识别比对技术，对已降噪的一次降噪信号进行二次降噪和三次降噪，使最终生成的三次降噪中只保留特定使用者的声音信息，在滤除环境噪音的同时，还可以滤除除使用者外的声音影响，生成高清晰度的使用者声音信号，在具体实施中具有良好的实用性。

以上对本发明实施例所提供的一种克风降噪方法及***进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种降噪方法，其特征在于，包括以下步骤：

基于所述云端通信模块发送所述三次降噪信号至第二客户端通信模块；

所述一次降噪信号通过以下步骤生成：

基于第一客户端的一次降噪处理器接收第一客户端主麦克风获取的主信号和第一客户端副麦克风获取的副信号，输出一次降噪信号至第一客户端通信模块；

所述声纹特征库基于所述客户端编号信号进行分区，每个声纹特征库中包括对应于所述客户端编号信号的常用字声纹、高频次声纹和训练声纹；

将所述二次降噪信号发送至合成模块；

所述高频次声纹由多次云端服务器在对一次降噪信号处理的过程中，所捕获的声纹的相同次数相关；在对一次降噪信号进行处理时，除了常用字声纹外，其余声音按照一定的分割规则进行分割，形成未知声纹进行储存；储存的未知声纹具有一个有关于频次的属性值；在多次的对一次降噪信号的处理过程中，未知声纹会存在相同的，相同的未知声纹基于未知声纹的频次属性进行记录；当未知声纹的频次属性超过一预设阈值时，认为该未知声纹为高频次声纹，属于对应使用者的特殊声纹。

2.如权利要求1所述的降噪方法，其特征在于，所述客户端编号信号与所述第一客户端通信模块硬件码绑定；

或所述客户端编号信号与所述第一客户端的登录账号绑定。

3.如权利要求1所述的降噪方法，其特征在于，所述常用字声纹为对应客户端编号信号的使用者基于《通用规范汉字表》中的常用字预先提取的声纹。

4.如权利要求1所述的降噪方法，其特征在于，所述高频次声纹为统计多个所述一次降噪信号中发生频次高于某一设定阈值的声纹。

5.如权利要求1所述的降噪方法，其特征在于，所述训练声纹为基于所述常用字声纹训练得出的声纹。

6.如权利要求1所述的降噪方法，其特征在于，所述合成模块接收所述二次降噪信号和一次降噪信号，并输出三次降噪信号至所述云端通信模块包括以下步骤：

按照时间轴顺序，当二次降噪信号取值为1时，合成选择器向第一乘法器输出一次降噪信号，向第二乘法器输出0信号；当第二次降噪信号取值为0时，第一乘法器输出0，第二乘法器输出一次降噪信号；

7.一种降噪***，其特征在于，用于实现权利要求1至6任一项所述的降噪方法。