CN114023346A - 可分离循环注意力的语音增强方法及装置 - Google Patents
可分离循环注意力的语音增强方法及装置 Download PDFInfo
- Publication number
- CN114023346A CN114023346A CN202111285653.5A CN202111285653A CN114023346A CN 114023346 A CN114023346 A CN 114023346A CN 202111285653 A CN202111285653 A CN 202111285653A CN 114023346 A CN114023346 A CN 114023346A
- Authority
- CN
- China
- Prior art keywords
- signal
- amplitude
- phase
- module
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000009466 transformation Effects 0.000 claims description 46
- 125000004122 cyclic group Chemical group 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 6
- 238000000844 transformation Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000004913 activation Effects 0.000 description 7
- 230000001351 cycling effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 210000003040 circulating cell Anatomy 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明涉及一种可分离循环注意力的语音增强方法,包括步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;步骤2:将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块;步骤3:将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。本发明计算量小,能够有效保证语音降噪效果。
Description
技术领域
本发明涉及一种可分离循环注意力的语音增强方法及装置。
背景技术
语音识别前端降噪、音像制作领域人声提取、语音合成领域声音提纯等均涉及对语音信号降噪增强,现有语音降噪主要包括以下方式:
1.SEGAN:以UNet为基础结构进行降噪,采用对抗生成技术使得生成声音接近人声。该方法的缺点是模型结构简单,对复杂噪声处理不干净,容易模式坍塌。
2.WAVENET:以WaveNet为基础结构进行降噪,该方法的缺点是模型庞大,训练复杂,速度极慢(每1分钟语音需要10分钟处理时间),相位不对齐,难区分人声和有谐波的音乐噪声。
3.TasNet:以TCN为基础结构进行降噪,采用空洞卷积获得感受野的提升。该方法的缺点是没有确保空间的完备性,模型的频率分辨率差,对语音和噪声同时发声段的噪声去除不干净。
4.T-GSA:以transformer为基础结构进行降噪,采用高斯函数对感受野进行局部性约束。缺点是计算复杂度巨大,随着语音长度的变长处理时间呈O(N2)增长。
5.PHASEN:此方式是与本发明最相关的降噪方法。以TSB为基础结构进行降噪,采用频率变换块进行谐波增强。该方法虽然计算量较小,并能保证较好的降噪效果,但是缺点是只有固定的感受野,只能建模固定的谐波相关性,而实际上有时候我们需要看得较远才能确定当前音是语音还是噪音,需要通盘考虑上下前后关系才能确定当前谐波是真谐波还是伪谐波,因此,语音降噪效果还不十分理想。
发明内容
本发明的发明目的在于提供一种可分离循环注意力的语音增强方法及装置,计算量小,能够有效保证语音降噪效果。
基于同一发明构思,本发明具有三个独立的技术方案:
1、一种可分离循环注意力的语音增强方法,包括:
步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;
步骤2:将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块;
步骤3:将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。
进一步地,步骤2中,每级极坐标注意力模块用于执行如下步骤:
步骤2.1:利用幅度注意力模块对输入的幅度流信号进行处理,将调节后的幅度流信号输入到相位它调节模块;
步骤2.2:利用相位自调节模块对输入的相位流信号进行处理,将处理后得到的自调节相位流信号输入到相位它调节模块;
步骤2.3:利用相位它调节模块基于所述调节后的幅度流信号对所述自调节相位流信号进行它调节,输出调节后的相位流信号;
步骤2.4:输出所述调节后的幅度流信号和调节后的相位流信号。
进一步地,所述相位自调节模块由一层或多层二维卷积构成;
所述相位它调节模块包含一个或多个幅度感知相位变换,每个幅度感知相位变换利用幅度流信号对相位流信号进行调节,变换公式如下:
Po=Conv(Ao)o Pi
式中,Conv表示卷积,o表示点乘,Pi表示幅度流输出作为相位它调节输入,Po表示相位流输出,Ao表示幅度流输出作为相位它调节输入。
进一步地,所述步骤2.1包括如下步骤:
步骤2.1.1:将输入的幅度流信号分别输入至第一通道置换变换模块和第一时频可分离循环网模块,得到第一置换变换信号和第一循环信号;
步骤2.1.2:将第一置换变换信号输入至第二通道置换变换模块,输出第二置换变换信号;将第一置换变换信号、第一循环信号相乘后输入至所述第二时频可分离循环网模块,输出第二循环信号;
步骤2.1.3:将第二置换变换信号、第二循环信号拼接后输入至独立同分布卷积模块,输出所述调节后的幅度流信号。
进一步地,所述时频可分离循环网模块采用以下循环方式中的一种:单用时间循环、单用频率循环、先时间循环再频率循环、先频率循环再时间循环、时间和频率并行循环;
所述循环包括前向循环、后向循环、双向循环中的一种。
进一步地,所述独立同分布卷积模块由分布归一化层、二维卷积层、GELU层构成。
进一步地,所述前置网络单元包括短时傅里叶变换模块、幅度卷积模块和相位卷积模块,
所述短时傅里叶变换模块用于将语音信号变换成短时傅里叶系数;
所述幅度卷积模块用于对所述短时傅里叶变换模块输出的信号进行幅度卷积,输出第一幅度流信号;
所述相位卷积模块用于对所述短时傅里叶变换模块输出的信号进行相位卷积,输出第一相位流信号。
进一步地,所述后置网络单元包括幅度掩膜生成器、相位掩膜生成器、傅里叶系数生成器和逆短时傅里叶变换模块,
所述幅度掩膜生成器用于将第二幅度流信号生成单通道幅度信号;
所述相位掩膜生成器用于将第二相位流信号生成双通道相位信号;
所述傅里叶系数生成器用于根据所述单通道幅度信号和双通道相位信号生成傅里叶系数;
所述逆短时傅里叶变换模块用于根据所述生成的傅里叶系数,输出增强后的语音信号。
2、一种可分离循环注意力的语音增强方法,包括:
步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号;
步骤2:将所述第一幅度流信号输入注意力网络单元进行降噪,输出第二幅度流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个时频可分离循环网模块和一个独立同分布卷积模块;或者包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块;
步骤3:将所述第二幅度流信号,通过后置网络单元进行逆傅里叶变换,输出增强后的语音信号。
3、一种可分离循环注意力的语音增强装置,包括:
前置网络单元,用于对输入的语音信号进行傅里叶变换,输出第一幅度流信号和第一相位流信号;
注意力网络单元,用于对所述第一幅度流信号和第一相位流信号进行降噪,输出第二幅度流信号和第二相位流信号;和
后置网络单元,用于对所述第二幅度流信号和第二相位流信号进行逆傅里叶变换,输出增强后的语音信号;
其中,所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块。
本发明具有的有益效果:
本发明将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元由多级极坐标注意力模块串联组成,每级极坐标注意力模块由幅度注意力、相位自调节、相位它调节三个模块组成;将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。本发明采用注意力网络单元,并且注意力网络单元基于可分离的设计思想,采用扩展的循环神经网络结构,因此感受野不再固定,建模更复杂的谐波相关性。本发明结构参数量比现有PHASEN下降两个数量级,计算量更小,而且在6项国际评测指标上全面超越包括PHASEN在内的上述现有模型,语音降噪效果更好。
本发明每级极坐标注意力模块步骤2.1:利用幅度注意力模块对输入的幅度流信号进行处理,将调节后的幅度流信号输入到相位它调节模块;步骤2.2:利用相位自调节模块对输入的相位流信号进行处理,将处理后得到的自调节相位流信号输入到相位它调节模块;步骤2.3:利用相位它调节模块基于所述调节后的幅度流信号对所述自调节相位流信号进行它调节,输出调节后的相位流信号;步骤2.4:输出所述调节后的幅度流信号和调节后的相位流信号。本发明相位自调节模块由一到多层二维卷积构成;相位它调节模块,包含一到多个幅度感知相位变换,每个幅度感知相位变换通过利用幅度流输出调整相位。本发明幅度注意力模块包括通道置换变换模块、时频可分离循环网模块、独立同分布卷积模块。步骤2.1包括如下步骤:步骤2.1.1:将输入的幅度流信号分别输入至第一通道置换变换模块和第一时频可分离循环网模块,得到第一置换变换信号和第一循环信号;步骤2.1.2:将第一置换变换信号输入至第二通道置换变换模块,输出第二置换变换信号;将第一置换变换信号、第一循环信号叠加后输入至所述第二时频可分离循环网模块,输出第二循环信号;步骤2.1.3:将第二置换变换信号、第二循环信号叠加后输入至独立同分布卷积模块,输出所述调节后的幅度流信号。本发明通过上述注意力网络单元的循环神经网络结构设计,进一步保证本发明达到更优的语音降噪效果。
附图说明
图1是本发明可分离循环注意力的语音增强方法流程框图;
图2是本发明前置网络单元流程框图;
图3是本发明后置网络单元流程框图;
图4是本发明注意力网络单元流程框图;
图5是本发明注意力网络单元的极坐标注意力模块流程框图;
图6是本发明注意力网络单元极坐标注意力模块的幅度注意力模块流程框图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
实施例一:
可分离循环注意力的语音增强方法
如图1所示,本发明可分离循环注意力的语音增强方法,包括前置网络单元、注意力网络单元、后置网络单元,包括如下步骤:
步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;
步骤2:将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个时频可分离循环网模块和一个独立同分布卷积模块;或者包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块;本实施例中,包括两个通道置换变换模块。
步骤3:将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。
如图2所示,前置网络单元包括短时傅里叶变换模块、幅度卷积模块和相位卷积模块,所述短时傅里叶变换模块用于将语音信号变换成短时傅里叶系数;所述幅度卷积模块用于对所述短时傅里叶变换模块输出的信号进行幅度卷积,输出第一幅度流信号;所述相位卷积模块用于对所述短时傅里叶变换模块输出的信号进行相位卷积,输出第一相位流信号。所述幅度卷积包含一个1×1卷积和一个GELU激活。所述相位卷积包含了一个n×n卷积,没有激活。注意这里不能用任意激活,否则性能下降显著。
如图3所示,包括幅度掩膜生成器、相位掩膜生成器、傅里叶系数生成器和逆短时傅里叶变换模块,所述幅度掩膜生成器用于将第二幅度流信号生成单通道幅度信号;所述相位掩膜生成器用于将第二相位流信号生成双通道相位信号;所述傅里叶系数生成器用于根据所述单通道幅度信号和双通道相位信号生成傅里叶系数;所述逆短时傅里叶变换模块用于根据所述生成的傅里叶系数,输出增强后的语音信号。所述幅度掩膜生成器,由多层二维卷积组成,最后一层卷积输出为1通道,每两个卷积层之间可选择性地***层归一化和GELU激活函数,最后一层卷积层后接Sigmoid激活函数。所述相位掩膜生成器由多层二维卷积组成,最后一层卷积输出为2通道,每两个卷积层之间没有层归一化也没有激活函数,最后一层卷积层后接幅度归一化,使得每一个时频点的2个通道幅度平方和为1(即只有相位信息,没有幅度信息)。
如图4所示,所述注意力网络单元由多级极坐标注意力模块串联组成。如图5所示,每级极坐标注意力模块由幅度注意力、相位自调节、相位它调节三个模块组成。每级极坐标注意力模块用于执行如下步骤:
步骤2.1:利用幅度注意力模块对输入的幅度流信号进行处理,将调节后的幅度流信号输入到相位它调节模块;
步骤2.2:利用相位自调节模块对输入的相位流信号进行处理,将处理后得到的自调节相位流信号输入到相位它调节模块;
步骤2.3:利用相位它调节模块基于所述调节后的幅度流信号对所述自调节相位流信号进行它调节,输出调节后的相位流信号;
步骤2.4:输出所述调节后的幅度流信号和调节后的相位流信号。
所述相位自调节模块由一层或多层二维卷积构成;
所述相位它调节模块包含一个或多个幅度感知相位变换,每个幅度感知相位变换利用幅度流信号对相位流信号进行调节,变换公式如下:
Po=Conv(Ao)o Pi
式中,Conv表示卷积,o表示点乘,Pi表示幅度流输出作为相位它调节输入,Po表示相位流输出,Ao表示幅度流输出作为相位它调节输入。
如图6所示,幅度注意力模块包括通道置换变换模块、时频可分离循环网模块、独立同分布卷积模块,步骤2.1包括如下步骤:
步骤2.1.1:将输入的幅度流信号分别输入至第一通道置换变换模块和第一时频可分离循环网模块,得到第一置换变换信号和第一循环信号;
步骤2.1.2:将第一置换变换信号输入至第二通道置换变换模块,输出第二置换变换信号;将第一置换变换信号、第一循环信号相乘(信号矩阵的点对点相乘)后输入至所述第二时频可分离循环网模块,输出第二循环信号;
步骤2.1.3:将第二置换变换信号、第二循环信号拼接(通道拼接)后输入至独立同分布卷积模块,输出所述调节后的幅度流信号。
通道置换变换可以采用恒等变换、重排序变换或卷积变换,或上述三种变换之间的组合。独立同分布卷积由分布归一化层、二维卷积层、GELU层构成。GELU层也可以由ReLU,PReLU,ELU,sigmoid,softplus等激活函数替代。
第一时频可分离循环网模块、第二时频可分离循环网模块可采用单用时间循环、单用频率循环、先时间循环再频率循环、先频率循环再时间循环或者时间和频率并行循环,且所述循环可采用前向循环、后向循环或双向循环。
单用时间循环通过如下公式实现,
其中,表示通道维度数据拼接,Cell表示任意循环细胞结构,hb,f,t表示第b个语音片段第f个频率第t个时间的隐藏状态,cb,f,t表示第b个语音片段第f个频率第t个时间的细胞状态,xb,f,t表示第b个语音片段第f个频率第t个时间的输入值;
单用频率循环通过如下公式实现,
先时间循环再频率循环通过如下公式实现,
先频率循环再时间循环通过如下公式实现,
时间频率并行循环通过如下公式实现,
实施例二:
可分离循环注意力的语音增强方法
包括如下步骤:
步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号;
步骤2:将所述第一幅度流信号输入注意力网络单元进行降噪,输出第二幅度流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个时频可分离循环网模块和一个独立同分布卷积模块;或者包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块;
步骤3:基于所述第二幅度流信号,通过后置网络单元进行逆傅里叶变换,输出增强后的语音信号。
实施例二与实施例一的区别在于,仅对第一幅度流信号进行降噪,不对相位流信号进行降噪,降噪效果略弱于实施例一效果。其余工作原理同实施例一。
实施例三:
可分离循环注意力的语音增强装置
包括:
前置网络单元,用于对输入的语音信号进行傅里叶变换,输出第一幅度流信号和第一相位流信号;
注意力网络单元,用于对所述第一幅度流信号和第一相位流信号进行降噪,输出第二幅度流信号和第二相位流信号;和
后置网络单元,用于对所述第二幅度流信号和第二相位流信号进行逆傅里叶变换,输出增强后的语音信号;
其中,所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
Claims (10)
1.一种可分离循环注意力的语音增强方法,其特征在于,包括:
步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;
步骤2:将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个时频可分离循环网模块和一个独立同分布卷积模块;或者包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块;
步骤3:将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。
2.根据权利要求1所述的可分离循环注意力的语音增强方法,其特征在于:步骤2中,每级极坐标注意力模块用于执行如下步骤:
步骤2.1:利用幅度注意力模块对输入的幅度流信号进行处理,将调节后的幅度流信号输入到相位它调节模块;
步骤2.2:利用相位自调节模块对输入的相位流信号进行处理,将处理后得到的自调节相位流信号输入到相位它调节模块;
步骤2.3:利用相位它调节模块基于所述调节后的幅度流信号对所述自调节相位流信号进行它调节,输出调节后的相位流信号;
步骤2.4:输出所述调节后的幅度流信号和调节后的相位流信号。
3.根据权利要求2所述的可分离循环注意力的语音增强方法,其特征在于:
所述相位自调节模块由一层或多层二维卷积构成;
所述相位它调节模块包含一个或多个幅度感知相位变换,每个幅度感知相位变换利用幅度流信号对相位流信号进行调节,变换公式如下:
Po=Conv(Ao)o Pi
式中,Conv表示卷积,o表示点乘,Pi表示幅度流输出作为相位它调节输入,Po表示相位流输出,Ao表示幅度流输出作为相位它调节输入。
4.根据权利要求2所述的可分离循环注意力的语音增强方法,其特征在于,幅度注意力模块包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块情况下,所述步骤2.1包括如下步骤:
步骤2.1.1:将输入的幅度流信号分别输入至第一通道置换变换模块和第一时频可分离循环网模块,得到第一置换变换信号和第一循环信号;
步骤2.1.2:将第一置换变换信号输入至第二通道置换变换模块,输出第二置换变换信号;将第一置换变换信号、第一循环信号相乘后输入至所述第二时频可分离循环网模块,输出第二循环信号;
步骤2.1.3:将第二置换变换信号、第二循环信号拼接后输入至独立同分布卷积模块,输出所述调节后的幅度流信号。
5.根据权利要求1所述的可分离循环注意力的语音增强方法,其特征在于:
所述时频可分离循环网模块采用以下循环方式中的一种:单用时间循环、单用频率循环、先时间循环再频率循环、先频率循环再时间循环、时间和频率并行循环;
所述循环包括前向循环、后向循环、双向循环中的一种。
6.根据权利要求1所述的可分离循环注意力的语音增强方法,其特征在于:所述独立同分布卷积模块由分布归一化层、二维卷积层、GELU层构成。
7.根据权利要求1所述的可分离循环注意力的语音增强方法,其特征在于:所述前置网络单元包括短时傅里叶变换模块、幅度卷积模块和相位卷积模块,
所述短时傅里叶变换模块用于将语音信号变换成短时傅里叶系数;
所述幅度卷积模块用于对所述短时傅里叶变换模块输出的信号进行幅度卷积,输出第一幅度流信号;
所述相位卷积模块用于对所述短时傅里叶变换模块输出的信号进行相位卷积,输出第一相位流信号。
8.根据权利要求1所述的可分离循环注意力的语音增强方法,其特征在于:所述后置网络单元包括幅度掩膜生成器、相位掩膜生成器、傅里叶系数生成器和逆短时傅里叶变换模块,
所述幅度掩膜生成器用于将第二幅度流信号生成单通道幅度信号;
所述相位掩膜生成器用于将第二相位流信号生成双通道相位信号;
所述傅里叶系数生成器用于根据所述单通道幅度信号和双通道相位信号生成傅里叶系数;
所述逆短时傅里叶变换模块用于根据所述生成的傅里叶系数,输出增强后的语音信号。
9.一种可分离循环注意力的语音增强方法,其特征在于,包括:
步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号;
步骤2:将所述第一幅度流信号输入注意力网络单元进行降噪,输出第二幅度流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个时频可分离循环网模块和一个独立同分布卷积模块;或者包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块;
步骤3:基于所述第二幅度流信号,通过后置网络单元进行逆傅里叶变换,输出增强后的语音信号。
10.一种可分离循环注意力的语音增强装置,其特征在于,包括:
前置网络单元,用于对输入的语音信号进行傅里叶变换,输出第一幅度流信号和第一相位流信号;
注意力网络单元,用于对所述第一幅度流信号和第一相位流信号进行降噪,输出第二幅度流信号和第二相位流信号;和
后置网络单元,用于对所述第二幅度流信号和第二相位流信号进行逆傅里叶变换,输出增强后的语音信号;
其中,所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111285653.5A CN114023346B (zh) | 2021-11-01 | 2021-11-01 | 可分离循环注意力的语音增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111285653.5A CN114023346B (zh) | 2021-11-01 | 2021-11-01 | 可分离循环注意力的语音增强方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114023346A true CN114023346A (zh) | 2022-02-08 |
CN114023346B CN114023346B (zh) | 2024-05-31 |
Family
ID=80059604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111285653.5A Active CN114023346B (zh) | 2021-11-01 | 2021-11-01 | 可分离循环注意力的语音增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114023346B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092501A (zh) * | 2023-03-14 | 2023-05-09 | 澳克多普有限公司 | 语音增强方法、语音识别方法、说话人识别方法和*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4754449A (en) * | 1986-07-02 | 1988-06-28 | Hughes Aircraft Company | Wide bandwidth device for demodulating frequency division multiplexed signals |
WO2011026247A1 (en) * | 2009-09-04 | 2011-03-10 | Svox Ag | Speech enhancement techniques on the power spectrum |
EP2905774A1 (de) * | 2014-02-11 | 2015-08-12 | JoboMusic GmbH | Verfahren zur synthetischen Erzeugung eines digitalen Audiosignals |
US20210012767A1 (en) * | 2020-09-25 | 2021-01-14 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
US20210035590A1 (en) * | 2019-08-02 | 2021-02-04 | Audioshake, Inc. | Deep learning segmentation of audio using magnitude spectrogram |
CN113241092A (zh) * | 2021-06-15 | 2021-08-10 | 新疆大学 | 基于双注意力机制和多阶段混合卷积网络声源分离方法 |
-
2021
- 2021-11-01 CN CN202111285653.5A patent/CN114023346B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4754449A (en) * | 1986-07-02 | 1988-06-28 | Hughes Aircraft Company | Wide bandwidth device for demodulating frequency division multiplexed signals |
WO2011026247A1 (en) * | 2009-09-04 | 2011-03-10 | Svox Ag | Speech enhancement techniques on the power spectrum |
EP2905774A1 (de) * | 2014-02-11 | 2015-08-12 | JoboMusic GmbH | Verfahren zur synthetischen Erzeugung eines digitalen Audiosignals |
US20210035590A1 (en) * | 2019-08-02 | 2021-02-04 | Audioshake, Inc. | Deep learning segmentation of audio using magnitude spectrogram |
US20210012767A1 (en) * | 2020-09-25 | 2021-01-14 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
CN113241092A (zh) * | 2021-06-15 | 2021-08-10 | 新疆大学 | 基于双注意力机制和多阶段混合卷积网络声源分离方法 |
Non-Patent Citations (1)
Title |
---|
闫昭宇;王晶;: "结合深度卷积循环网络和时频注意力机制的单通道语音增强算法", 信号处理, no. 06, 25 June 2020 (2020-06-25) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092501A (zh) * | 2023-03-14 | 2023-05-09 | 澳克多普有限公司 | 语音增强方法、语音识别方法、说话人识别方法和*** |
CN116092501B (zh) * | 2023-03-14 | 2023-07-25 | 深圳市玮欧科技有限公司 | 语音增强方法、语音识别方法、说话人识别方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN114023346B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Deep audio priors emerge from harmonic convolutional networks | |
Venkataramani et al. | Adaptive front-ends for end-to-end source separation | |
CN114141238A (zh) | 一种融合Transformer和U-net网络的语音增强方法 | |
US11393443B2 (en) | Apparatuses and methods for creating noise environment noisy data and eliminating noise | |
CN114023346A (zh) | 可分离循环注意力的语音增强方法及装置 | |
Wang et al. | A path signature approach for speech emotion recognition | |
Du et al. | A joint framework of denoising autoencoder and generative vocoder for monaural speech enhancement | |
CN112151071A (zh) | 一种基于混合小波包特征深度学习的语音情感识别方法 | |
Lim et al. | Harmonic and percussive source separation using a convolutional auto encoder | |
Vuong et al. | Learnable spectro-temporal receptive fields for robust voice type discrimination | |
Takeuchi et al. | Invertible DNN-based nonlinear time-frequency transform for speech enhancement | |
Zhang et al. | Temporal Transformer Networks for Acoustic Scene Classification. | |
Narayanan et al. | Cross-attention conformer for context modeling in speech enhancement for ASR | |
Xu et al. | U-former: Improving monaural speech enhancement with multi-head self and cross attention | |
Dey et al. | Single channel blind source separation based on variational mode decomposition and PCA | |
CN113593588A (zh) | 一种基于生成对抗网络的多唱歌人歌声合成方法和*** | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
CN116682444A (zh) | 一种基于波形频谱融合网络的单通道语音增强方法 | |
CN116469404A (zh) | 一种视听跨模态融合语音分离方法 | |
Wang et al. | Unsupervised improvement of audio-text cross-modal representations | |
CN111028857B (zh) | 基于深度学习的多通道音视频会议降噪的方法及*** | |
US9478223B2 (en) | Method and apparatus for down-mixing multi-channel audio | |
Kim et al. | Light-Weight Speaker Verification with Global Context Information. | |
Liu et al. | Gated Convolutional Fusion for Time-Domain Target Speaker Extraction Network. | |
Jia et al. | CNN-based ringing effect attenuation of vibroseis data for first-break picking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |