CN116030823B - 一种语音信号处理方法、装置、计算机设备及存储介质 - Google Patents
一种语音信号处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116030823B CN116030823B CN202310327376.2A CN202310327376A CN116030823B CN 116030823 B CN116030823 B CN 116030823B CN 202310327376 A CN202310327376 A CN 202310327376A CN 116030823 B CN116030823 B CN 116030823B
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- noise reduction
- frequency domain
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 230000009467 reduction Effects 0.000 claims abstract description 165
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 105
- 230000004927 fusion Effects 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 44
- 230000000694 effects Effects 0.000 claims abstract description 36
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 82
- 238000004590 computer program Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 abstract description 11
- 230000006854 communication Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 230000003321 amplification Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000003199 nucleic acid amplification method Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010304 firing Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请提出了一种语音信号处理方法、装置、计算机设备及存储介质,该方法包括:对通过气导麦克风接收的气导语音信号进行波束形成,得到单通道增强信号;通过预设降噪模型对单通道增强信号进行降噪,得到单通道降噪信号;估计单通道增强信号的低频噪音能量;在判断低频噪音能量大于或等于预设阈值后,通过骨导‑气导融合特征的两级模型对单通道降噪信号进行信号增强,得到目标语音信号。本申请通过对语音信号先后进行增强和降噪,再通过判定当前环境是否为强低频噪声环境,再使用骨导‑气导融合特征的两级模型对语音信号进行处理,实现降噪深度和语音质量的平衡,有效消除环境噪音和背景人声的干扰,从而提高通话降噪效果和用户通话体验。
Description
技术领域
本申请涉及信号处理技术领域,具体涉及一种语音信号处理方法、装置、计算机设备及存储介质。
背景技术
随着移动通信设备的普及,人们在随时随地可进行语音通话的同时,也受到周围环境噪音和干扰说话人声音等的影响,导致通话过程中语音清晰度变差,影响通话语音质量,因此需要进行通话降噪,消除掉噪音对通话的干扰,提升通话语音质量。同时,随着物联网的飞速发展,越来越多的智能穿戴设备可以帮助或辅助人们日常生活,例如通过可穿戴设备进行语音通话,因此现有技术提出了各种基于可穿戴设备的通话降噪方案。
但是,在对现有技术的研究与实践的过程中,本申请的发明人发现,目前现有基于可穿戴设备的通话降噪方案主要是由麦克风阵列、语音信号处理、深度学***衡方面有所欠缺,且通常无法消除背景人声干扰,导致用户通话体验不佳。
前面的叙述在于提供一般的背景信息,并不一定构成现有技术。
发明内容
针对上述技术问题,本申请提供一种语音信号处理方法、装置、计算机设备及存储介质,有效消除环境噪音和背景人声的干扰,提高通话降噪效果和用户通话体验。
本申请提供一种语音信号处理方法,包括如下步骤:
对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;
通过预设降噪模型对所述单通道增强信号进行降噪,得到单通道降噪信号;
估计所述单通道增强信号对应的低频噪音能量;
在判断所述低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对所述单通道降噪信号进行信号增强,得到目标语音信号。
可选地,所述方法还包括:
在判定所述目标语音信号包含用户语音后,对所述目标语音信号进行编码处理,将编码后的目标语音信号传输至接收端。
可选地,所述方法还包括:
在判断所述低频噪音能量小于预设阈值后,将所述单通道降噪信号作为目标语音信号。
可选地,在所述将所述单通道降噪信号作为目标语音信号之后,所述方法还包括:
在判断所述目标语音信号不包含用户语音后,对所述目标语音信号进行编码处理,将编码后的目标语音信号传输至接收端。
可选地,所述对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号,包括:
通过所述气导麦克风持续接收气导语音信号,所述气导语音信号为多通道时域信号;
对所述气导语音信号进行分帧、加窗和傅里叶变换处理,将所述气导语音信号转换至多通道频域信号;
对所述多通道频域信号进行波束形成,得到单通道增强信号。
可选地,所述通过预设降噪模型对所述单通道增强信号进行降噪,得到单通道降噪信号,包括:
提取所述单通道增强信号的频域特征,获取当前用户的声纹特征;
将所述频域特征与所述声纹特征输入至所述预设降噪模型,得到预测时频掩膜;
基于所述预测时频掩膜对所述单通道增强信号进行处理,得到预测音频的频域特征;
将所述预测音频的音频特征进行傅里叶反变换,得到预测时域音频后生成单通道降噪信号。
可选地,所述预设降噪模型的构建,包括:
获取多个用户的语音数据,构建第一训练数据集,
采用多层非线性层构建声纹模型,并基于所述第一训练数据集对声纹模型训练,得到声纹特征提取器;
基于所述声纹特征提取器提取所述多个用户对应的声纹特征;
基于所述第一训练数据集合和声纹特征,构建第二训练数据集;
构建降噪模型,并基于所述第二训练数据集对降噪模型进行训练。
可选地,所述估计所述单通道增强信号对应的低频噪音能量,包括:
提取所述单通道增强信号的频域特征;
将所述单通道增强信号的频域特征与预测音频的频域特征进行相减,得到噪音信号的频域特征;
取所述噪音信号的低频段频域特征求和,得到所述噪音信号的低频噪音能量。
可选地,所述在判断所述低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对所述单通道降噪信号进行信号增强,得到目标语音信号,包括:
在判断所述低频噪音能量大于预设阈值后,通过骨导麦克风采集骨导语音信号,并获取所述骨导语音信号的频域特征;
将所述预设降噪模型作为所述两级模型的一级网络,并将所述预设降噪模型输出的单通道降噪信号的频域特征作为一级网络预测语音频域特征;
将所述一级网络预测语音频域特征与所述骨导语音信号的频域特征进行特征融合后输入至所述两级模型的二级网络进行预测,得到预测语音频域特征;
对所述预测语音频域特征进行傅里叶反变换,得到最终的预测语音信号后作为目标语音信号。
可选地,所述骨导-气导融合特征的两级模型的构建,包括:
基于气导语音信号训练数据和骨导语音信号训练数据,构建第三训练数据集;
构建骨导-气导融合特征的两级模型,并基于所述第三训练数据集对所述骨导-气导融合特征的两级模型中的二级网络进行训练;其中,所述两级模型的一级网络为所述预设降噪模型,所述两级模型的二级网络为骨导-气导融合特征模型。
可选地,所述在判定所述目标语音信号包含用户语音之前,所述方法还包括:
基于气导语音信号训练数据和骨导语音信号训练数据,构建第四训练数据集;
基于所述第四训练数据对所述骨导-气导融合特征的两级模型进行训练,生成语音活动检测器。
可选地,所述判定所述目标语音信号包含用户语音,包括:
将预设降噪模型输出的单通道降噪信号的频域特征与骨导语音信号的频域特征进行特征融合后输入至所述语音活动检测器进行预测,判定当前帧目标语音信号是否包含用户语音。
相应地,本申请还提供了一种语音信号处理装置,包括:
波束形成模块,用于对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;
信号降噪模块,用于通过预设降噪模型对所述单通道增强信号进行降噪,得到单通道降噪信号;
低频估计模块,用于估计所述单通道增强信号对应的低频噪音能量;
信号增强模块,用于在判断所述低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对所述单通道降噪信号进行信号增强,得到目标语音信号。
本申请实施例还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的语音信号处理方法的步骤。
本申请实施例还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音信号处理方法的步骤。
实施本申请实施例,具有如下有益效果:
如上所述,本申请提供的一种语音信号处理方法、装置、计算机设备及存储介质,其中方法包括:对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;通过预设降噪模型对单通道增强信号进行降噪,得到单通道降噪信号;估计单通道增强信号对应的低频噪音能量;在判断低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对单通道降噪信号进行信号增强,得到目标语音信号。本申请的语音信号处理方案,首先通过波束成形算法对实时收录的信号进行语音增强,得到增强后单通道语音信号;然后再使用个性化降噪模型进一步消除残留的环境噪音和背景人声的干扰语音信号;接着通过判定当前环境是否为强低频噪声环境,选择性使用骨导-气导融合的两级模型对语音信号进行处理,避免低频噪音没有消除干净或低频语音能量损失的问题,从而提升通话语音质量和用户通话体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语音信号处理方法的第一种实施方式的流程示意图;
图2是本申请实施例提供的步骤S1的流程示意图;
图3是本申请实施例提供的一种双麦克风阵列的结构示意图;
图4是本申请实施例提供的步骤S2的流程示意图;
图5是本申请实施例提供的声纹特征提取器的结构示意图;
图6是本申请实施例提供的个性化降噪模型的结构示意图;
图7是本申请实施例提供的步骤S3的流程示意图;
图8是本申请实施例提供的步骤S4的流程示意图;
图9是本申请实施例提供的骨导-气导融合特征的两级模型的结构示意图;
图10是本申请实施例提供的语音信号处理方法的第二种实施方式的流程示意图;
图11是本申请实施例提供的语音信号处理方法的第三种实施方式的流程示意图;
图12是本申请实施例提供的一种用于可穿戴设备的通话语音增强方法的流程示意图;
图13是本申请实施例提供的语音信号处理装置的结构示意图;
图14是本申请实施例提供的计算机设备的第一种实施方式的结构示意图;
图15是本申请实施例提供的计算机设备的第二种实施方式的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的,或意味着任一个或任何组合。例如,“包括以下至少一个:A、B、C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”,再如,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,在本文中,采用了诸如S1、S2等步骤代号,其目的是为了更清楚简要地表述相应内容,不构成顺序上的实质性限制,本领域技术人员在具体实施时,可能会先执行S2后执行S1等,但这些均应在本申请的保护范围之内。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或者“单元”可以混合地使用。
现有基于可穿戴设备的通话降噪方案通常由麦克风阵列、语音信号处理、深度学***衡方面有所欠缺,且通常无法消除背景人声干扰,导致通话体验不佳。
为了解决上述问题,本申请提出了一种语音信号处理方法、装置、计算机设备及存储介质,有效消除环境噪音和背景人声的干扰,提高通话降噪效果和用户通话体验。
可以理解的是,本申请实施例可应用于各种具有语音模块的可穿戴通话设备,可穿戴通话设备包括但不限于耳机和智能眼镜等,通信方式包括有线通信和无线通信等。
请参阅图1,图1是本申请实施例提供的语音信号处理方法的第一种实施方式的流程示意图。该语音信号处理方法具体可以包括:
S1.对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号。
具体的,对于步骤S1,通过用户的可穿戴设备的气导麦克风,在预设时间内持续接收语音信号,并对接收到的气导语音信号进行波束形成,以对气导语音信号进行语音增强,得到增强后的单通道增强信号。
可选地,如图2所示,在一些实施例中,步骤S1具体可以包括:
S11.通过气导麦克风持续接收气导语音信号,气导语音信号为多通道时域信号;
S12.对气导语音信号进行分帧、加窗和傅里叶变换处理,将气导语音信号转换至多通道频域信号;
S13.对多通道频域信号进行波束形成,得到单通道增强信号。
具体的,对于步骤S1,具体过程包括:通过可穿戴设备的气导麦克风持续接收信号,接收的信号为气导语音信号,该气导语音信号是一种多通道时域信号;对接收到的多通道时域信号进行分帧、加窗和傅里叶变换,从而将多通道时域信号转换至频域,对转换得到的多通道频域信号进行波束形成,得到对应的单通道增强信号。
需要说明的是,所述波束形成可采用包括但不限于最小方差无失真响应波束形成、线性约束最小方差波束形成、广义旁瓣相消器等波束形成技术实现。
在本实施例中以基于差分阵列的波束形成技术为例,可假设干扰源在边射方向,期望源固定在末端发射方向,沿阵列轴方向。阵列不限制麦克风数量,此处以双麦为例,在第m个传感器(m = 1,2)的时域内的观测信号为:
y
m
(t)=x(t)*s
m
(t)+v
m
(t)
其中,*代表卷积,x(t)是期望干净语音信号,v m (t)为噪音信号。s m (t)表示声波的传播延迟和房间脉冲响应(RIR)。如图3所示的一种双麦克风阵列结构,其中d为麦克风间距。
将短时傅里叶变换应用于观测信号,得到其时频域表达式为:
y(k,l)=X(k,l)s(k,l)+v(k,l)
=X
1
(k,l)d(k,l)+v(k,l)
其中,
k和l为频域和时间系数,X 1 (k,l)为参考麦克风目标信号的频域表达,目标信号为端射方向,且仅考虑传播延迟不考虑房间脉冲响应,其导向矢量可表示为:
对双麦克风的一阶差分阵列,有两个约束条件。1.在端射角度无失真,2.零陷区间在(0°,180°]。可假设零陷为180°,则约束可表示为下式:
转换为矩阵形式表示为:
求解可得:
当麦克风间距远小于信号波长时,可有e x ≈1+x,可得双麦克风滤波器系数分别为:
由于差分阵列的滤波器具有高通特性,故需要使用输出补偿滤波器对被抑制的低频成分进行补偿。输出补偿滤波器系数为:
使用双麦克风滤波器系数对信号进行滤波,得到波束形成后的语音频域信号,再使用输出补偿滤波器对波束形成后语音频域信号进行滤波,得到固定波束形成后的频域信号Y FBF (k,l)。
经固定波束形成后得到初步增强的语音信号,然后将原始语音信号通过自适应阻塞矩阵(ABM,AdaptiveBlock Matrix),消除带噪语音信号中的期望语音信号,只输出噪声信号,最后将初步增强的语音信号和噪声信号通过自适应噪声抵消器(ANC,AdaptiveNoise Cancellation),将初步增强语音信号中的噪声信号消除,得到干净的语音信号完成降噪。其中,阻塞矩阵可通过归一化最小均方算法(NLMS,NormalizedLeast MeanSquare)获得。记阻塞矩阵为G ABM ,其更新包含误差估计和滤波器抽头权系数更新两个步骤:
其中,y 1 (k,l)为参考麦克风收录音频的时频域向量,f VAD (l)为使用语音活动检测器得到的当前时刻是否为语音段的结果,有1和0两个取值。f VAD (l)=1表示当前时刻为语音段,f VAD (l)=0表示当前时刻无语音。μ 0 为步长因子,可取值为0.3等常数,为U(k,l)的共轭,/>是Y FBF (k,l)能量的一阶递归平滑。可通过下式计算,其中α 0 为[0,1]之间的常数:
将初步增强的语音信号和噪声信号通过自适应噪声抵消器消除语音信号中含有的噪声信号,自适应噪声抵消器为一组自适应滤波器,其权系数更新采用归一化最小均方算法,包含误差估计与滤波器抽头权系数更新两个步骤:
其中,G ANC (k,l)为滤波器抽头权系数,Y FBF (k,l)为固定波束形成输出的频域信号,μ ANC (k,l)为变步长因子,其大小受f VAD (l)的结果和信干比(SIR,Signal toInterferenceRatio )的影响。当语音活动检测器检测当前为非语音段时,步长因子使用较大值,快速更新系数;当语音活动检测器检测当前为语音段时,信干比越大,步长因子越小,系数更新速度越慢。信干比、μ ANC (k,l)的计算公式如下:
经自适应噪声抵消器处理后,得到单通道增强后频域信号Y OUT (k,l),即单通道增强信号。
S2.通过预设降噪模型对单通道增强信号进行降噪,得到单通道降噪信号。
具体的,对于步骤S2,对得到的单通道增强信号使用预设的个性化降噪模型进行降噪处理,得到对应的单通道降噪信号。
可选地,如图4所示,在一些实施例中,步骤S2具体可以包括:
S21.提取单通道增强信号的频域特征,获取当前用户的声纹特征;
S22.将频域特征与声纹特征输入至预设降噪模型,得到预测时频掩膜;
S23.基于预测时频掩膜对单通道增强信号进行处理,得到预测音频的频域特征;
S24.将预测音频的音频特征进行傅里叶反变换,得到预测时域音频后生成单通道降噪信号。
具体的,波束形成对噪音的抑制能力与麦克风的数量有关,在双麦克风的场景下,波束形成对噪音的抑制能力有限,得到的单通道增强信号会有较多的噪音残留。本实施例通过使用预设的个性化降噪模型进一步消除残留的噪音,个性化降噪模型除了消除掉环境噪音外,还可以消除掉可穿戴设备使用者以外的人声干扰信号,使得可穿戴设备使用者无论处在何种噪音环境下,都让通话双方有干净、流畅、无干扰的通话体验。
可选地,在一些实施例中,预设降噪模型的构建方式,具体可以包括:
获取多个用户的语音数据,构建第一训练数据集,
采用多层非线性层构建声纹模型,并基于第一训练数据集对声纹模型训练,得到声纹特征提取器;
基于声纹特征提取器提取多个用户对应的声纹特征;
基于第一训练数据集合和声纹特征,构建第二训练数据集;
构建降噪模型,并基于第二训练数据集对降噪模型进行训练。
在具体的实施例中,对于步骤S2使用预设降噪模型进行降噪的具体步骤包括:
2.1)训练个性化降噪模型。
2.1.1)训练得到声纹特征提取器,收集可穿戴设备使用者语音,提取可穿戴设备使用者的声纹信息。
其中,声纹特征提取器的训练包括数据准备、声纹模型搭建及训练等步骤。
2.1.1.1)数据准备,声纹特征提取器学习得到将不同说话人音频映射到具有区分度的特征空间的能力,因此,不依赖于特定用户的数据进行训练,使用开源的多说话人数据集即可进行模型训练。对包含多说话人的数据集,可应用幅度增扩、混响增扩、噪音增扩等多种增扩方式。不同说话人的音频,编码为不同标签,同一说话人的音频,编码为相同标签。将增扩后得到的语音数据,进行分帧、加窗、傅里叶变换、梅尔滤波和取对数,最后得到FBank特征。将FBank特征与其音频对应得说话人标签组对,方便后期训练。
2.1.1.2)声纹模型搭建及训练,本实施例使用多层非线性层来构建声纹模型,如卷积神经网络、循环神经网络、全连接神经网络等。
如图5所示,图5提供了一种用于声纹特征提取器的模型结构,该模型将输入网络的FBank特征映射到其对应的说话人类别。计算映射到的说话人类别与输入特征相对应得说话人标签之间的交叉熵损失,并通过反向传播、梯度下降算法训练模型。将训练好的模型去除掉最后一层分类器层,得到声纹特征提取器。
2.1.2)训练个性化降噪模型,包括数据准备、声纹特征提取、个性化降噪模型搭建及训练。
2.1.2.1)数据准备,个性化降噪模型除了消除掉环境噪音外,还会特定的增强目标说话人的语音信号,对气导麦克风同时收录的干扰说话人信号进行抑制。在可穿戴设备的通话场景,目标说话人指的是可穿戴设备使用者,干扰说话人信号指被麦克风共同收录的非目标说话人的人声信号。
个性化降噪模型学习得到对具有指定声纹特性的音频进行语音增强的能力,因此,不依赖于特定用户的数据进行训练,使用开源的多说话人数据集即可。对包含多说话人的数据集,可随机抽取单个说话人的音频作为目标说话人音频。目标说话人的音频按指定信噪比叠加噪音、干扰说话人语音中的一种或两种得到带噪音频。可假设目标说话人会比干扰说话人更接近麦克风(在可穿戴设备通话场景下,目标说话人指可穿戴设备使用者)。因此,当目标说话人叠加干扰说话人时,我们将目标说话人随机放置在距离麦克风0~0.1米的位置,将干扰说话人随机放置在大于0.3米的位置。将带噪音频分帧、加窗、傅里叶变换得到频域特征,以带噪音频所对应的目标说话人的干净音频的频域特征为训练标签,其中每个目标说话人都对应一段注册音频片段。
2.1.2.2)声纹特征提取,对上述步骤2.1.2.2)中所述每个目标说话人的注册音频片段,提取FBank特征后,使用声纹特征提取器提取得到对应的声纹特征。
2.1.2.3)本实施例采用编码器-解码器结构搭建降噪网络,可使用卷积神经网络、循环神经网络等构建模型。在训练时,对当前输入的带噪语音信号,引入其目标说话人对应的声纹特征作为辅助特征进行个性化降噪模型训练。对输入的声纹特征使用非线性层映射到指定维度后,与编码器的输出进行拼接或相加,作为瓶颈层的输入。对解码器层输出的时频掩膜,作用于带噪音频频域特征,得到预测音频的频域特征。计算预测音频的频域特征与目标说话人干净音频的频域特征之间的损失函数,损失函数可选均方误差损失、尺度不变信噪比损失等。利用损失函数通过反向传播和梯度下降算法,训练得到个性化降噪模型,个性化降噪模型结构如图6所示,包括编码器层、非线性层、瓶颈层、解码器层。
2.2)使用个性化降噪模型对得到的单通道增强信号做进一步降噪处理。
可穿戴设备使用者在初次使用时,需要按照设备指示进行录音,以获得可穿戴设备使用者的语音。获取可穿戴设备使用者的语音后,将语音数据进行分帧、加窗、傅里叶变换、梅尔滤波、取对数,得到FBank特征。将FBank特征送入步骤2.1.2)训练所得声纹特征提取器,得到用户的声纹特征,并保存,以便在个性化降噪模块中使用。
在用户使用可穿戴设备进行通话的过程中,可穿戴设备通过麦克风实时收录音频。收录音频经波束形成器进行语音增强后,得到单通道增强后语音信号的频域特征。将之与用户保存的声纹特征一起,送入个性化降噪模型,得到预测的时频掩膜。将预测所得时频掩膜作用在频域特征上,得到预测音频的频域特征。将预测音频的频域特征进行傅里叶反变换,得到预测时域音频。
S3.估计单通道增强信号对应的低频噪音能量。
具体的,对于步骤S3,估计单通道增强信号的低频噪音能量,即检测当前环境的低频噪音能量。若低频噪音能量大于或等于指定阈值,则认为可穿戴设备使用者处在强低频噪声的环境。强低频噪声在此处定义为噪声信号低频能量高于指定阈值的噪声,未对高频能量进行限制。
可选地,如图7所示,在一些实施例中,步骤S3具体可以包括:
S31.提取单通道增强信号的频域特征;
S32.将单通道增强信号的频域特征与预测音频的频域特征进行相减,得到噪音信号的频域特征;
S33.取噪音信号的低频段频域特征求和,得到噪音信号的低频噪音能量。
具体的,对单通道语音信号的频域特征,与预测音频的频域特征进行相减,得到噪音信号的频域特征。取噪音信号的低频段频域特征求和,得到噪音信号的低频能量。若连续数帧噪音信号的低频能量均大于指定阈值,则认为可穿戴设备使用者处在强低频噪声环境。所述阈值可以为通过强低频噪声数据集计算低频能量统计获取的经验值。
S4.在判断低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对单通道降噪信号进行信号增强,得到目标语音信号。
具体的,对于步骤S4,若判断低频噪音能量大于或等于指定阈值,则认为可穿戴设备使用者处在强低频噪声环境,使用骨导-气导融合特征的两级模型对单通道降噪信号进一步处理,再传递给后续模块。若低频噪音能量小于指定阈值,则将单通道降噪信号作为处理后语音信号传递给后续模块。
在具体的实施例中,若可穿戴设备使用者在通话过程中处在强低频噪声环境,对经过个性化降噪模型处理后的音频,可能会出现低频噪音没有消除的很干净或低频语音能量损失等现象,影响通话语音质量。在个性化降噪模型的基础上,本实施例提出了一种骨导-气导融合特征的两级模型。
其中,骨导语音信号由可穿戴设备的骨传导麦克风实时收录,相对气导语音信号,骨导语音信号具有更好的抗噪性能,几乎采集不到外部的噪音信号,但骨导语音信号也具有中高频信息缺失的缺点,导致骨导信号的语音可懂度低、听感不佳。骨导-气导融合特征用于模型训练,使得模型可以综合骨导信号、气导信号的优点,得到音质更佳的降噪后语音信号。
相对气导信号训练数据,骨导信号训练数据的获取难度更高,且模型训练需要配对的骨导、气导信号(此处配对指录音人员同时佩戴骨传导麦克风、气导麦克风进行收录的骨导、气导语音信号),使得用于训练的数据量较少。为使用小数据量亦可得到性能更优的模型,采用两级网络结构。其中一级网络为训练好的个性化降噪模型,二级网络为使用骨导-气导融合特征的模型,对一级网络的输出做进一步的处理。
可选地,如图8所示,在一些实施例中,步骤S4具体可以包括:
S41.在判断低频噪音能量大于预设阈值后,通过骨导麦克风采集骨导语音信号,并获取骨导语音信号的频域特征;
S42.将预设降噪模型作为两级模型的一级网络,并将预设降噪模型输出的单通道降噪信号的频域特征作为一级网络预测语音频域特征;
S43.将一级网络预测语音频域特征与骨导语音信号的频域特征进行特征融合后输入至两级模型的二级网络进行预测,得到预测语音频域特征;
S44.对预测语音频域特征进行傅里叶反变换,得到最终的预测语音信号后作为目标语音信号。
具体的,若可穿戴设备使用者处在强低频噪声环境,使用骨导-气导融合特征的两级模型对单通道降噪信号进一步处理。具体步骤如下:若判定可穿戴设备使用者当前处在强低频噪声环境,则将个性化降噪模型作为一级网络,经个性化降噪模型输出的频域特征作为一级网络预测语音频域特征。将骨传导麦克风实时收录的骨导语音信号进行分帧、加窗、傅里叶变换得到骨导语音的频域特征,将一级预测语音频域特征与骨导语音频域特征进行特征融合后经二级网络预测得到预测语音频域特征。对所得预测语音频域特征进行傅里叶反变换,得到最终的预测语音信号。若未判定可穿戴设备使用者处在强低频噪声环境,则使用步骤2.2)所得预测时域音频作为最终的预测语音信号。
可选地,在一些实施例中,骨导-气导融合特征的两级模型的构建方式,具体可以包括:
基于气导语音信号训练数据和骨导语音信号训练数据,构建第三训练数据集;
构建骨导-气导融合特征的两级模型,并基于第三训练数据集对骨导-气导融合特征的两级模型中的二级网络进行训练;其中,两级模型的一级网络为预设降噪模型,两级模型的二级网络为骨导-气导融合特征模型。
具体的,首先是数据准备,对骨导-气导配对的训练数据集,为模拟强低频噪声环境,将气导语音数据按指定信噪比添加噪音。噪音从强低频噪声数据集随机抽取,强低频噪声数据集为低频能量高的噪音数据集,例如地铁噪音、风噪、抽油烟机噪音、扫地机器人噪音等噪音类型。对加噪后的气导语音,按设定比例随机添加干扰说话人。将气导语音数据对应的说话人作为目标说话人,并使用步骤2)中训练好的声纹特征提取器提取目标说话人的声纹特征。将加噪前的干净气导数据的频域特征作为标签。
然后骨搭建及训练导-气导融合特征的两级模型,骨导-气导融合特征的两级模型可采用如图9所示结构。其中一级网络采用步骤S2的个性化降噪模型,二级网络也采用与一级网络相似的编码器-解码器结构,但网络深度更浅,参数量更少。对添加了强低频噪声的气导数据,联合数据对应的声纹特征,首先使用步骤2)中训练所得个性化降噪模型进行降噪处理,得到一级模型的预测语音频域特征。
将骨导语音信号进行傅里叶变换得到骨导语音信号的频域特征。将一级模型的预测语音频域特征与骨导语音信号的频域特征进行特征融合,将融合特征送入二级模型进行预测,得到二级模型的频域预测语谱图。特征融合方法可采用将一级预测语音频域特征与骨导语音频域特征进行拼接的方式,也可使用非线性层将一级预测语音频域特征映射到指定维度、使用非线性层将骨导语音频域特征映射到指定维度后进行拼接或相加。二级网络瓶颈层的输入包含一级网络瓶颈层的输出和二级网络编码器层的输出。计算二级模型输出的预测语音频域特征与加噪前干净气导数据之间的均方误差损失函数,利用损失函数通过反向传播和梯度下降算法,训练得到二级网络降噪模型。
可选地,如图10所示,在一些实施例中,在步骤S4之后,语音信号处理方法具体还可以包括:
S5.在判定目标语音信号包含用户语音后,对目标语音信号进行编码处理,将编码后的目标语音信号传输至接收端。
具体的,对于步骤S5,语音信号处理方法还包括判断目标语音信号是否包含用户语音,若判定当前目标语音信号包含用户语音,则判定判定可穿戴设备使用者处在强低频噪声环境,则将目标语音信号(预测语音时域信号)按实时音频通讯编码标准如OPUS等进行编码处理,将编码后的目标语音信号传输至接收端。
可选地,在一些实施例中,所述判定目标语音信号包含用户语音,具体可以包括:
将预设降噪模型输出的单通道降噪信号的频域特征与骨导语音信号的频域特征进行特征融合后输入至语音活动检测器进行预测,判定当前帧目标语音信号是否包含用户语音。
具体的,判定当前目标语音信号是否包含用户语音,主要通过语音活动检测器判定当前输入语音信号是否包含用户语音,将个性化降噪模型输出的频域特征与当前骨导麦克风收录的骨导语音的频域特征,进行特征融合后经语音活动检测器模型预测得到当前帧是否包含语音的结果。
可选地,在一些实施例中,在判定目标语音信号包含用户语音之前,所述方法具体还可以包括:
基于气导语音信号训练数据和骨导语音信号训练数据,构建第四训练数据集;
基于第四训练数据对骨导-气导融合特征的两级模型进行训练,生成语音活动检测器。
具体的,在本实施例中的语音活动检测器通过以下步骤构建:
数据准备,在语音活动检测器训练时,使用与构建骨导-气导融合特征的两级模型相同的数据集和数据增扩方式。将其加噪前气导信号作为干净语音,利用干净语音对应的语音开始、结束时间点,得到当前帧是否包含语音信号。若包含语音信号,则当前帧标签编码为1,否则,当前帧标签编码为0。
搭建及训练用户语音活动检测器模型,在本实施例中,使用训练好的二级网络的编码层作为语音活动检测器的编码层,冻结编码层参数,并在编码层后接数层非线性层,可选择长短时神经网络、门控逻辑单元、全连接神经网络等作为非线性层。在训练时,冻结骨导-气导融合特征两级模型的一级、二级网络参数,对加噪后气导数据,联合数据对应的声纹特征,首先使用训练所得个性化降噪模型进行降噪处理,得到一级模型的预测语音频域特征。将骨导语音信号进行傅里叶变换得到骨导语音信号的频域特征。将一级模型的预测语音频域特征与骨导语音信号的频域特征进行特征融合,将融合特征送入二级模型的编码层,将编码层的输出作为语音活动检测器添加的数层非线性层的输入,得到预测结果。计算预测结果与标签之间的交叉熵损失函数,进行反向传播训练,得到语音活动检测器。
其中,本实施例所提出的语音活动检测器使用二级网络的编码层作为自身编码层,只增加少量网络参数,适于在低资源端侧部署模型。同时,所提出的语音活动检测器结合了一级网络输出的个性化降噪后气导语音和骨导语音的相关信息,相比直接使用带噪气导语音的语音活动检测器更鲁棒,当用户周围存在干扰说话人语音、环境噪音时也能给出准确的用户语音活动检测结果。
可选地,如图11所示,在一些实施例中,在步骤S3之后,语音信号处理方法具体还可以包括:
S40.在判断低频噪音能量小于预设阈值后,将单通道降噪信号作为目标语音信号。
具体的,在步骤S3之后,若判断低频噪音能量小于预设阈值,即判定可穿戴设备使用者未处在强低频噪声环境,则使用所得预测时域音频作为最终的预测语音信号。
可选地,如图11所示,在一些实施例中,在步骤S40之后,语音信号处理方法具体还可以包括:
S50.在判断目标语音信号不包含用户语音后,对目标语音信号进行编码处理,将编码后的目标语音信号传输至接收端。
具体的,若判定当前目标语音信号不包含用户语音后,将降噪后语音时域信号按实时音频通讯编码标准如OPUS等进行编码后传输。例如,若语音活动检测器判定当前语音信号不包含用户语音,则只向通话方发送指示无语音的低码率信令,以降低通话时带宽占用和无线发射机的功耗,通话方接收到低码率信令后生成舒适噪音填充静音段。
如图12所示,本实施例还提供了一种用于可穿戴设备的通话语音增强方法,包括如下步骤:
可穿戴设备的气导麦克风持续接收信号,对接收信号进行波束形成;对波束形成处理后信号使用个性化降噪模型进行降噪,得到单通道降噪信号;估计低频噪音能量;若大于指定阈值,使用骨导-气导融合特征的两级模型对单通道降噪信号进一步处理;若小于指定阈值,将单通道降噪信号作为处理后语音信号传递给后续模块;最后,利用语音活动检测器判定当前语音信号是否包含用户语音,将处理后语音信号进行编码后发送至接收端。
本实施例主要解决环境噪音、人声干扰场景下用户通话体验不佳的问题,结合波束形成算法、个性化降噪、骨导-气导特征融合两级模型等策略,做到在普通噪音场景、可穿戴设备使用者身边有干扰说话人场景、强低频噪声场景下均有较好的通话降噪效果。在所提出的骨导-气导特征融合两级模型的基础上,又提出一种结合骨导-气导信号的语音活动检测方法,在只增加少量神经网络参数的基础上,给出鲁棒的语音活动检测结果,从而在不包含用户语音时,只向通话方发送指示无语音的低码率信令,以降低通话时带宽占用和无线发射机的功耗,通话方接收到低码率信令后生成舒适噪音填充静音段。
综上所述,本实施例提供的一种语音信号处理方法,包括:对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;通过预设降噪模型对单通道增强信号进行降噪,得到单通道降噪信号;估计单通道增强信号对应的低频噪音能量;在判断低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对单通道降噪信号进行信号增强,得到目标语音信号。
与现有技术相比,本实施例提供的语音信号处理方案,通过波束成形算法对实时收录的信号进行语音增强,得到增强后单通道语音信号。对增强了可穿戴设备使用者语音的单通道信号,再使用个性化降噪模型进一步消除残留的环境噪音、和除可穿戴设备使用者以外发声者的干扰语音信号。进一步的,本方案通过判定当前环境是否为强低频噪声环境,选择性使用骨导-气导融合的两级模型对语音信号进行处理。在强低频噪声环境中,经过个性化降噪模型处理后的音频,可能会出现低频噪音没有消除的很干净或低频语音能量损失等现象,通过使用骨导-气导融合特征的两级模型来减轻这种现象的发生,提升通话语音质量。为减少骨导-气导配对数据量较少对降噪模型训练的影响,首先使用数据量充足的气导语音数据进行个性化降噪模型训练作为一级模型,以保证模型在各种噪音情形下都保持良好的降噪性能,再针对特定噪音环境,使用骨导-气导融合特征训练二级小参数量模型,对一级模型的输出做进一步调整。
另外,在二级模型的基础上,利用二级模型的特征融合和编码器层,又提出了一种用户语音活动检测器的实现方法。该语音活动检测器只增加少量网络参数,适于在低资源端侧部署模型。由于传统的语音活动检测器使用带噪气导语音作为输入,易受环境噪音干扰,更无法应对用户周围存在干扰说话人的场景。本实施例提出的语音活动检测器结合了一级网络输出的个性化降噪后气导语音和骨导语音的相关信息,相比传统算法更加鲁棒,当用户周围存在干扰说话人语音、环境噪音时也能给出准确的用户语音活动检测结果。
为了更好的实施本申请实施例的语音信号处理方法,本申请实施例还提供一种基于上述语音信号处理方法的语音信号处理装置,其中名词的含义与上述语音信号处理方法中相同,具体实施细节可以参考方法实施例中的说明。
请参阅图13,图13为本申请实施例提供的语音信号处理装置的结构示意图,其中可以包括:
波束形成模块100,用于对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;
信号降噪模块200,用于通过预设降噪模型对单通道增强信号进行降噪,得到单通道降噪信号;
低频估计模块300,用于估计单通道增强信号对应的低频噪音能量;
信号增强模块400,用于在判断低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对单通道降噪信号进行信号增强,得到目标语音信号。
可选地,在一些实施例中,语音信号处理装置具体还可以包括:
编码模块,用于在判定目标语音信号包含用户语音后,对目标语音信号进行编码处理,将编码后的目标语音信号传输至接收端。
可选地,在一些实施例中,波束形成模块100具体可以包括:
采集单元,用于通过气导麦克风持续接收气导语音信号,气导语音信号为多通道时域信号;
转换单元,用于对气导语音信号进行分帧、加窗和傅里叶变换处理,将气导语音信号转换至多通道频域信号;
波束形成单元,用于对多通道频域信号进行波束形成,得到单通道增强信号。
可选地,在一些实施例中,信号降噪模块200具体可以包括:
第一降噪单元,用于提取单通道增强信号的频域特征,获取当前用户的声纹特征;
第二降噪单元,用于将频域特征与声纹特征输入至预设降噪模型,得到预测时频掩膜;
第三降噪单元,用于基于预测时频掩膜对单通道增强信号进行处理,得到预测音频的频域特征;
第四降噪单元,用于将预测音频的音频特征进行傅里叶反变换,得到预测时域音频后生成单通道降噪信号。
可选地,在一些实施例中,低频估计模块300具体可以包括:
第一低频估计单元,用于提取单通道增强信号的频域特征;
第二低频估计单元,用于将单通道增强信号的频域特征与预测音频的频域特征进行相减,得到噪音信号的频域特征;
第三低频估计单元,用于取噪音信号的低频段频域特征求和,得到噪音信号的低频噪音能量。
可选地,在一些实施例中,信号增强模块400具体可以包括:
第一增强单元,用于在判断低频噪音能量大于预设阈值后,通过骨导麦克风采集骨导语音信号,并获取骨导语音信号的频域特征;
第二增强单元,用于将预设降噪模型作为两级模型的一级网络,并将预设降噪模型输出的单通道降噪信号的频域特征作为一级网络预测语音频域特征;
第三增强单元,用于将一级网络预测语音频域特征与骨导语音信号的频域特征进行特征融合后输入至两级模型的二级网络进行预测,得到预测语音频域特征;
第四增强单元,用于对预测语音频域特征进行傅里叶反变换,得到最终的预测语音信号后作为目标语音信号。
综上所述,本申请实施例提供的语音信号处理装置,通过波束形成模块100对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;通过信号降噪模块200采用预设降噪模型对单通道增强信号进行降噪,得到单通道降噪信号;通过低频估计模块300估计单通道增强信号对应的低频噪音能量;通过信号增强模块400在判断低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对单通道降噪信号进行信号增强,得到目标语音信号。可见,本申请实施例的语音信号处理装置,首先通过波束成形算法对实时收录的信号进行语音增强,得到增强后单通道语音信号;然后再使用个性化降噪模型进一步消除残留的环境噪音和背景人声的干扰语音信号;接着通过判定当前环境是否为强低频噪声环境,选择性使用骨导-气导融合的两级模型对语音信号进行处理,避免低频噪音没有消除干净或低频语音能量损失的问题,从而提升通话语音质量和用户通话体验。
本申请实施例中还提供一种计算机设备,请参阅图14,图14是本申请实施例提供的计算机设备的第一种实施方式的结构示意图。该计算机设备包括存储器10和处理器20,该存储器10存储有计算机程序,该处理器20执行计算机程序时实现一种语音信号处理方法,包括:对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;通过预设降噪模型对单通道增强信号进行降噪,得到单通道降噪信号;估计单通道增强信号对应的低频噪音能量;在判断低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对单通道降噪信号进行信号增强,得到目标语音信号。
本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器。请参阅图15,图15是本申请实施例提供的计算机设备的第二种实施方式的结构示意图。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于储存语音信号处理方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。
该计算机程序被处理器执行时以实现一种语音信号处理方法。该语音信号处理方法,包括:对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;通过预设降噪模型对单通道增强信号进行降噪,得到单通道降噪信号;估计单通道增强信号对应的低频噪音能量;在判断低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对单通道降噪信号进行信号增强,得到目标语音信号。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音信号处理方法,包括步骤:对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;通过预设降噪模型对单通道增强信号进行降噪,得到单通道降噪信号;估计单通道增强信号对应的低频噪音能量;在判断低频噪音能量大于或等于预设阈值后,通过骨导-气导融合特征的两级模型对单通道降噪信号进行信号增强,得到目标语音信号。
上述执行的语音信号处理方法,本申请实施例中,首先通过波束成形算法对实时收录的信号进行语音增强,得到增强后单通道语音信号;然后再使用个性化降噪模型进一步消除残留的环境噪音和背景人声的干扰语音信号;接着通过判定当前环境是否为强低频噪声环境,选择性使用骨导-气导融合的两级模型对语音信号进行处理,避免低频噪音没有消除干净或低频语音能量损失的问题,从而提升通话语音质量和用户通话体验。
可以理解,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例设备中的单元可以根据实际需要进行合并、划分和删减。
在本申请中,对于相同或相似的术语概念、技术方案和/或应用场景描述,一般只在第一次出现时进行详细描述,后面再重复出现时,为了简洁,一般未再重复阐述,在理解本申请技术方案等内容时,对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等,可以参考其之前的相关详细描述。
在本申请中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本申请技术方案的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本申请记载的范围。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络,或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,DVD),或者半导体介质(例如固态存储盘Solid StateDisk (SSD))等。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种语音信号处理方法,其特征在于,包括如下步骤:
对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;
通过预设降噪模型对所述单通道增强信号进行降噪,得到单通道降噪信号;
估计所述单通道增强信号对应的低频噪音能量;
在判断所述低频噪音能量大于预设阈值后,通过骨导麦克风采集骨导语音信号,并获取所述骨导语音信号的频域特征;
将所述预设降噪模型作为两级模型的一级网络,并将所述预设降噪模型输出的单通道降噪信号的频域特征作为一级网络预测语音频域特征;
将所述一级网络预测语音频域特征与所述骨导语音信号的频域特征进行特征融合后输入至骨导-气导融合特征的两级模型的二级网络进行预测,得到预测语音频域特征;
对所述预测语音频域特征进行傅里叶反变换,得到最终的预测语音信号后作为目标语音信号。
2.根据权利要求1所述的语音信号处理方法,其特征在于,所述方法还包括:
在判定所述目标语音信号包含用户语音后,对所述目标语音信号进行编码处理,将编码后的目标语音信号传输至接收端。
3.根据权利要求1所述的语音信号处理方法,其特征在于,所述方法还包括:
在判断所述低频噪音能量小于预设阈值后,将所述单通道降噪信号作为目标语音信号。
4.根据权利要求3所述的语音信号处理方法,其特征在于,在所述将所述单通道降噪信号作为目标语音信号之后,所述方法还包括:
在判断所述目标语音信号不包含用户语音后,对所述目标语音信号进行编码处理,将编码后的目标语音信号传输至接收端。
5.根据权利要求1所述的语音信号处理方法,其特征在于,所述对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号,包括:
通过所述气导麦克风持续接收气导语音信号,所述气导语音信号为多通道时域信号;
对所述气导语音信号进行分帧、加窗和傅里叶变换处理,将所述气导语音信号转换至多通道频域信号;
对所述多通道频域信号进行波束形成,得到单通道增强信号。
6.根据权利要求1所述的语音信号处理方法,其特征在于,所述通过预设降噪模型对所述单通道增强信号进行降噪,得到单通道降噪信号,包括:
提取所述单通道增强信号的频域特征,获取当前用户的声纹特征;
将所述频域特征与所述声纹特征输入至所述预设降噪模型,得到预测时频掩膜;
基于所述预测时频掩膜对所述单通道增强信号进行处理,得到预测音频的频域特征;
将所述预测音频的音频特征进行傅里叶反变换,得到预测时域音频后生成单通道降噪信号。
7.根据权利要求6所述的语音信号处理方法,其特征在于,所述预设降噪模型的构建,包括:
获取多个用户的语音数据,构建第一训练数据集,
采用多层非线性层构建声纹模型,并基于所述第一训练数据集对声纹模型训练,得到声纹特征提取器;
基于所述声纹特征提取器提取所述多个用户对应的声纹特征;
基于所述第一训练数据集合和声纹特征,构建第二训练数据集;
构建降噪模型,并基于所述第二训练数据集对降噪模型进行训练。
8.根据权利要求1所述的语音信号处理方法,其特征在于,所述估计所述单通道增强信号对应的低频噪音能量,包括:
提取所述单通道增强信号的频域特征;
将所述单通道增强信号的频域特征与预测音频的频域特征进行相减,得到噪音信号的频域特征;
取所述噪音信号的低频段频域特征求和,得到所述噪音信号的低频噪音能量。
9.根据权利要求1所述的语音信号处理方法,其特征在于,所述骨导-气导融合特征的两级模型的构建,包括:
基于气导语音信号训练数据和骨导语音信号训练数据,构建第三训练数据集;
构建骨导-气导融合特征的两级模型,并基于所述第三训练数据集对所述骨导-气导融合特征的两级模型中的二级网络进行训练;其中,所述两级模型的一级网络为所述预设降噪模型,所述两级模型的二级网络为骨导-气导融合特征模型。
10.根据权利要求2所述的语音信号处理方法,其特征在于,所述在判定所述目标语音信号包含用户语音之前,所述方法还包括:
基于气导语音信号训练数据和骨导语音信号训练数据,构建第四训练数据集;
基于所述第四训练数据对所述骨导-气导融合特征的两级模型进行训练,生成语音活动检测器。
11.根据权利要求10所述的语音信号处理方法,其特征在于,所述判定所述目标语音信号包含用户语音,包括:
将预设降噪模型输出的单通道降噪信号的频域特征与骨导语音信号的频域特征进行特征融合后输入至所述语音活动检测器进行预测,判定当前帧目标语音信号是否包含用户语音。
12.一种语音信号处理装置,其特征在于,包括:
波束形成模块,用于对通过气导麦克风接收的气导语音信号进行波束形成,得到对应的单通道增强信号;
信号降噪模块,用于通过预设降噪模型对所述单通道增强信号进行降噪,得到单通道降噪信号;
低频估计模块,用于估计所述单通道增强信号对应的低频噪音能量;
信号增强模块,用于在判断所述低频噪音能量大于预设阈值后,通过骨导麦克风采集骨导语音信号,并获取所述骨导语音信号的频域特征;将所述预设降噪模型作为两级模型的一级网络,并将所述预设降噪模型输出的单通道降噪信号的频域特征作为一级网络预测语音频域特征;将所述一级网络预测语音频域特征与所述骨导语音信号的频域特征进行特征融合后输入至骨导-气导融合特征的两级模型的二级网络进行预测,得到预测语音频域特征;对所述预测语音频域特征进行傅里叶反变换,得到最终的预测语音信号后作为目标语音信号。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的语音信号处理方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的语音信号处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310327376.2A CN116030823B (zh) | 2023-03-30 | 2023-03-30 | 一种语音信号处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310327376.2A CN116030823B (zh) | 2023-03-30 | 2023-03-30 | 一种语音信号处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116030823A CN116030823A (zh) | 2023-04-28 |
CN116030823B true CN116030823B (zh) | 2023-06-16 |
Family
ID=86072720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310327376.2A Active CN116030823B (zh) | 2023-03-30 | 2023-03-30 | 一种语音信号处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116030823B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095691B (zh) * | 2023-10-13 | 2023-12-19 | 荣耀终端有限公司 | 语音数据集的构建方法、电子设备及存储介质 |
CN117953912A (zh) * | 2024-03-26 | 2024-04-30 | 荣耀终端有限公司 | 一种语音信号处理方法及相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185405A (zh) * | 2020-09-10 | 2021-01-05 | 中国科学技术大学 | 一种基于差分运算和联合字典学习的骨导语音增强方法 |
CN114495909A (zh) * | 2022-02-20 | 2022-05-13 | 西北工业大学 | 一种端到端的骨气导语音联合识别方法 |
CN115775564A (zh) * | 2023-01-29 | 2023-03-10 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022505997A (ja) * | 2019-10-09 | 2022-01-17 | 大象声科(深セン)科技有限公司 | 骨振動センサーとマイクの信号を融合するディープラーニング音声抽出及びノイズ低減方法 |
CN112767963B (zh) * | 2021-01-28 | 2022-11-25 | 歌尔科技有限公司 | 一种语音增强方法、装置、***及计算机可读存储介质 |
CN115497500B (zh) * | 2022-11-14 | 2023-03-24 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
-
2023
- 2023-03-30 CN CN202310327376.2A patent/CN116030823B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185405A (zh) * | 2020-09-10 | 2021-01-05 | 中国科学技术大学 | 一种基于差分运算和联合字典学习的骨导语音增强方法 |
CN114495909A (zh) * | 2022-02-20 | 2022-05-13 | 西北工业大学 | 一种端到端的骨气导语音联合识别方法 |
CN115775564A (zh) * | 2023-01-29 | 2023-03-10 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
Also Published As
Publication number | Publication date |
---|---|
CN116030823A (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
CN116030823B (zh) | 一种语音信号处理方法、装置、计算机设备及存储介质 | |
US10446171B2 (en) | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments | |
JP7258182B2 (ja) | 音声処理方法、装置、電子機器及びコンピュータプログラム | |
US10930298B2 (en) | Multiple input multiple output (MIMO) audio signal processing for speech de-reverberation | |
Vaseghi | Multimedia signal processing: theory and applications in speech, music and communications | |
CN108604452B (zh) | 声音信号增强装置 | |
US8392184B2 (en) | Filtering of beamformed speech signals | |
CN112581973B (zh) | 一种语音增强方法及*** | |
CN107993670A (zh) | 基于统计模型的麦克风阵列语音增强方法 | |
WO2022012206A1 (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN112820315A (zh) | 音频信号处理方法、装置、计算机设备及存储介质 | |
CN110383798A (zh) | 声学信号处理装置、声学信号处理方法和免提通话装置 | |
Kothapally et al. | Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking | |
CN111883135A (zh) | 语音转写方法、装置和电子设备 | |
CN114007157A (zh) | 一种智能降噪通信耳机 | |
Chhetri et al. | Speech Enhancement: A Survey of Approaches and Applications | |
JP2024502287A (ja) | 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム | |
CN114333892A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN108257607B (zh) | 一种多通道语音信号处理方法 | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
EP4350695A1 (en) | Apparatus, methods and computer programs for audio signal enhancement using a dataset | |
Hou et al. | Single-channel Speech Enhancement Using Multi-Task Learning and Attention Mechanism | |
Cherukuru et al. | CNN-based noise reduction for multi-channel speech enhancement system with discrete wavelet transform (DWT) preprocessing | |
CN108281154B (zh) | 一种语音信号的降噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A speech signal processing method, device, computer equipment, and storage medium Granted publication date: 20230616 Pledgee: Jiang Wei Pledgor: BEIJING INTENGINE TECHNOLOGY Co.,Ltd. Registration number: Y2024980019734 |