CN117711417B - 一种基于频域自注意力网络的语音质量增强方法及*** - Google Patents
一种基于频域自注意力网络的语音质量增强方法及*** Download PDFInfo
- Publication number
- CN117711417B CN117711417B CN202410163875.7A CN202410163875A CN117711417B CN 117711417 B CN117711417 B CN 117711417B CN 202410163875 A CN202410163875 A CN 202410163875A CN 117711417 B CN117711417 B CN 117711417B
- Authority
- CN
- China
- Prior art keywords
- layer
- voice
- frequency response
- frequency domain
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000004044 response Effects 0.000 claims abstract description 80
- 238000010606 normalization Methods 0.000 claims abstract description 39
- 238000012805 post-processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims 3
- 238000004891 communication Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于频域自注意力网络的语音质量增强方法及***,首先输入原始语音并进行预处理;然后将处理后频率响应输入频域自注意力网络;最终输出信号并对输出的信号进行后处理得到语音增强信号;频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;位置编码模块包括位置编码层;基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;N个相同的基本单元模块,其中N由所需网络深度决定。本发明能够实现对语音信号中噪声的去除,在语音通信方具有重要意义。
Description
技术领域
本发明属于语音质量处理技术领域,涉及一种语音质量增强方法及***,尤其涉及一种基于频域自注意力网络的语音质量增强方法及***。
背景技术
20世纪60年代中期数字信号处理领域形成的诸多富有实践性的理论和算法,如快速傅立叶变换(FFT)以及各种数字滤波器等是语音信号数字处理的各项理论和技术基础。在70年中后期之后,线性预测技术(LPC)已经用于语音信号的信息压缩和特征提取,并已成为语音信号处理中非常重要的一个工具。80年代语音信号处理技术的重大发展是隐马尔可夫模型(HMM)描述语音信号过程的产生过程。进入上世纪90年代以来,语音信号采集与分析技术在实际应用方面取得了许多突破性的研究进展。
在商业、教育和医疗保健等需要远程工作领域,对电话会议***有着较大的需求。因此电话会议***的语音质量十分关键。因此能否极大程度去除噪声对语音质量提升有着决定性作用。在全双工通信中,当回声干扰双端通话(DT)场景时,这些问题变得更具挑战性。因此,能够解决声学回声、噪声和去混响的解决方案对于实现无缝通信至关重要。
近年来,随着科学技术的不断进步,人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项科学研究课题是促进其发展的催生力,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。近年来,人们已经开发了联合AEC和NS方法以简化通信流水线,同时提供良好的AEC和NS性能。例如,MTFAA-Net是一种用于联合AEC和NS的神经网络,基于多尺度时频处理和流轴向注意力。然而MTFAA-Net仍然依赖于经典的AEC组件。
然而,目前基于深度学习的方法对语音噪声的数学建模仍然不够完善。同时由于对语音通信来说,实时降噪能力也十分重要,因此想要提高用户语音通信体验的享受度,需要减少算法时间的复杂度以提高实时去噪效果。
发明内容
为了解决现有技术语音质量增强方法出现的实时性低问题,本发明提出了一种基于频域自注意力网络的语音质量增强方法及***,可以应用于商业、军事等领域语音质量的增强。
本发明的方法所采用的技术方案是:一种基于频域自注意力网络的语音质量增强方法,包括以下步骤:
步骤S1,输入原始语音并进行预处理,获得语音数据的频率响应;
步骤S2,将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
所述频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;
所述位置编码模块包括位置编码层,用于将位置信息添加到处理后的频率响应中;所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;
步骤S3,对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。
进一步的,步骤S1中,对输入的原始语音进行预处理,包括傅里叶变换、归一化和升维操作,所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应,包括幅度响应特性和相位响应特性,所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化,并将相位响应特性尺度变换为0到2Π的长度区间,所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列,并将这些序列按列堆叠成二维矩阵。
进一步的,步骤S2中,所述位置编码模块中的位置编码函数为:
其中,表示位置编码,/>表示单词在句子中的位置,/>表示/>的维度,/>表示偶数的维度,/>表示奇数维度。
进一步的,步骤S2中,将位置编码后的频率响应输入若干个并列的注意力头组成的多注意力头层,其中每个注意力头由三个可进行参数优化的权重矩阵/>、/>、/>组成,用于获得查询Q、键值K、值V,具体计算公式为:
得到矩阵Q、K、V之后计算出多注意力头层的输出,具体公式如下:
其中,是/>矩阵的列数,即向量维数,/>为转置运算,/>为归一化函数;
将多注意力头层的输出和位置编码后的频率响应输入到残差连接层,用于解决多层网络训练的问题,然后将残差连接层的输出进行层归一化,层归一化的结果输入到前馈层中,使最终输出矩阵维度与输入维度一致,最后再将前馈层的结果进行残差连接和层归一化,得到最终的频率响应。
进一步的,归一化函数的计算公式为:
其中,为求向量/>的最大值;
残差连接层由2个卷积层组成,具体公式如下:
其中,为残差连接层的输出,/>为残差连接层中第2个卷积层的输出,/>'为残差连接层的输入;
前馈层包括两层全连接层,第一层使用Relu激活函数,第二层不使用激活函数,具体公式如下:
其中是输入,/>和/>分别为两个全连接层参数,/>和/>分别为两个全连接层偏置。
进一步的,步骤S2中,所述频域自注意力网络是训练好的频域自注意力网络;训练过程包括以下子步骤:
步骤SS1,使用含原始语音和干净语音的VOICEBANK数据集;
步骤SS2,对数据集进行预处理,将预处理后的数据集输入到频域自注意力网络中进行训练,通过反向传播算法不断优化模型参数,使其能够达到较好的语音增强效果。
进一步的,步骤SS2中,所述预处理包括傅里叶变换、归一化和升维操作;首先对输入的原始语音进行傅里叶变换获得频率响应;然后对频率响应进行归一化处理;最后对归一化后的频率响应进行升维操作获得计算矩阵;训练过程中采用均方误差损失函数,训练至网络收敛,即训练损失函数曲线保持平稳不再下降。
进一步的,步骤S3中,所述后处理包括取正值、降维操作、傅里叶逆变换,所述取正值是将网络输出结果取正,所述降维操作,是指将取正后的结果按序拼接成一维的序列,从而得到语音质量增强后的一维频率响应,所述傅里叶逆变换,是利用逆快速傅里叶变换函数获得质量增强后的语音信号。
本发明还提供一种基于频域自注意力网络的语音质量增强***,包括以下单元:
预处理单元,用于输入原始语音并进行预处理,获得语音数据的频率响应;
语音质量增强单元,用于将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
所述频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;
所述位置编码模块包括位置编码层,用于将位置信息添加到处理后的频率响应中;所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;
后处理单元,用于对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。
本发明采用频域自注意力网络实现对原始语音质量进行增强。该技术结合了频域分析和深度学习算法,首先利用快速傅里叶变换获取原始语音信号的频率响应,这些信号包含了有效语音信号和无效噪声的特征。然后对原始语音信号频率响应使用升维操作,使其成为二维矩阵以输入网络处理。然后使用频域自注意力网络模型对升维后的频率响应进行特征提取。最终对输出的信号进行降维操作,从而实现对语音信号中噪声的去除。与传统的语音质量增强方法相比,本发明具有稳定性、独立性、快速高效等优点,能够大大提高语音质量增强的准确形和效率,为商业、军事等领域语音通信方面提供有力的保障。
附图说明
下面使用实施例,以及具体实施方式作进一步说明本文的技术方案。另外,在说明技术方案的过程中,也使用了一些附图。对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图以及本发明的意图。
图1为本发明实施例的方法流程图;
图2为本发明实施例的频域自注意力网络结构图;
图3为本发明实施例的频域自注意力网络训练流程图;
图4为本发明实施例的升维操作结构图;
图5为本发明实施例的降维操作结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本实施例以给定的待测语音数据集为例,对本发明做进一步的阐述。请见图1,本实施例提供的一种基于频域自注意力网络的语音质量增强方法,包括以下步骤:
步骤S1:将给定待测数据集中原始语音信号输入并进行预处理;
在一种实施方式中,对输入的原始语音进行预处理,包括傅里叶变换、归一化和升维操作,所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应,包括幅度响应特性和相位响应特性,所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化,并将相位响应特性尺度变换为0到2Π的长度区间,所述升维操作是将本为一维序列的频域信号裁剪为200个长度为512的序列,并将这些序列按列堆叠成512×200的二维矩阵。
步骤S2:将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
请见图2,所述入频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;所述位置编码模块,包括位置编码层;所述基本单元模块,包括多注意力头层、残差连接和层归一化层、前馈层;所述N个相同的基本单元模块,其中N由所需网络深度决定。
在一种实施方式中,所述位置编码模块,是将序列的位置信息添加到处理后的频率响应中,具体的位置编码函数为:
其中,表示单词在句子中的位置,/>表示该处的位置编码,/>表示/>的维度,表示偶数的维度,/>表示奇数维度(即/>≤/>,/>≤/>)。
在一种实施方式中,所述基本单元模块,将位置编码后的频率响应输入8个并列的注意力头组成的多注意力头层,其中每个注意力头由三个可进行参数优化的权重矩阵、/>、/>组成,用于获得Q(查询)、K(键值)、V(值),具体计算公式为:
得到矩阵Q、K、V之后可计算出多注意力头层的输出,具体公式如下:
其中,是/>矩阵的列数,即向量维数,/>为转置运算,/>为归一化函数,归一化计算公式为:
其中,为求集合/>中元素的最大值,/>和/>为集合z中的元素;
将多注意力头层的输出和位置编码后的频率响应输入到残差连接层,残差残差层由2个卷积层组成,用于解决多层网络训练的问题,让网络关注当前差异部分,具体公式如下:
其中,为残差连接层的输出,/>为残差连接层中第2个卷积层的输出,/>为残差连接层的输入,采用残差结构,使得网络在深度较深时“短路”某些层以防止网络退化;
将残差连接层的输出进行层归一化,将每一层神经元输入转化一致以加快收敛;
将层归一化的结果输入到前馈层中,使最终输出矩阵维度与输入维度一致,前馈层是一个两层的全连接层,第一层使用Relu激活函数,第二层不使用激活函数,具体公式如下:
其中是输入,/>和/>分别为两个全连接层参数,/>和/>分别为两个全连接层偏置;
最后将前馈层的结果进行残差连接和层归一化,得到最终的频率响应。
请见图3,在一种实施方式中,所述频域自注意力网络,是训练好的频域自注意力网络;训练过程包括以下子步骤:
步骤SS1:使用含原始语音和干净语音的VOICEBANK数据集;
在一种实施方式中,所述VOICEBANK数据集是深度学习常用的语音去噪数据集,使用该数据集是其常被引用具备代表性。
步骤SS2:对数据集进行预处理,将预处理后的数据集输入到频域自注意力网络模型中进行训练,通过反向传播算法不断优化模型参数,使其能够达到较好的语音增强效果;
在一种实施方式中,所述预处理,包括傅里叶变换、归一化和升维操作;首先对输入的原始语音进行傅里叶变换获得频率响应;然后对频率响应进行归一化处理;最后对归一化后的频率响应进行升维操作获得计算矩阵;训练过程中采用均方误差损失函数,训练至网络收敛,即训练损失函数曲线保持平稳不再下降。将语音去噪增强效果最好的作为最终的结果。
请见图4,所述升维操作是将本为一维序列的频域信号裁剪为200个长度为512的序列,并将这些序列按列堆叠成512×200的二维矩阵。
步骤S3:输出信号并对输出的信号进行后处理得到语音增强信号;
在一种实施方式中,对输出的信号进行后处理,包括取正值、降维操作、傅里叶逆变换,所述取正值是将网络输出结果取正,所述降维操作,是指将取正后的网络输出结构按序拼接成一维长度为512×200的序列,从而得到语音质量增强后的一维频率响应,所述傅里叶逆变换,是利用逆快速傅里叶变换函数获得质量增强后的语音。
请见图5,所述降维操作是将为512×200的二维矩阵按序拼接成一维长度为512×200的一维序列。
在一种实施方式中,对模型进行语音去噪或增强的执行效率进行客观评价,以反映本发明实施例的性能,具体使用的指标为每秒十亿浮点运算次数(GFLOPs)、内存需求(Memory)和执行时间(Time),具体公式为:
其中,是指以浮点运算为单位的模型计算量,/>是指以秒为单位的模型执行时间,/>是衡量计算性能的指标,表示每秒执行的十亿次浮点运算次数。
在一种实施方式中,在VOICEBANK数据集上对模型性能进行评估,得到的实验结果如表1所示,性能最高的指标加粗表示。通过与目前主流的语音去噪和增强方法进行对比,本发明的性能表现较为优秀。
表1.VOICEBANK数据集上各语音去噪和增强方法执行效率性能对比
其中,I表示在CPU上的计算,B表示在GPU上的计算。算法ConvTsaNet、Demucs、DPRNN、Two-Step TDCN分别参考文献Luo Y, Mesgarani N. Conv-tasnet: Surpassingideal time–frequency magnitude masking for speech separation[J]. IEEE/ACMtransactions on audio, speech, and language processing, 2019, 27(8): 1256-1266.、Défossez A, Usunier N, Bottou L, et al. Demucs: Deep extractor formusic sources with extra unlabeled data remixed[J]. arXiv preprint arXiv:1909.01174, 2019.、Tzinis E, Venkataramani S, Wang Z, et al. Two-step soundsource separation: Training on learned latent targets[C]//ICASSP 2020-2020IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). IEEE, 2020: 31-35。
本发明实施例还提供一种基于频域自注意力网络的语音质量增强***,包括以下单元:
预处理单元,用于输入原始语音并进行预处理,获得语音数据的频率响应;
语音质量增强单元,用于将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
所述频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;
所述位置编码模块包括位置编码层,用于将位置信息添加到处理后的频率响应中;所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;
后处理单元,用于对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。
各单元的具体实现方式与各步骤相同,本发明不予撰述。
本发明实施例还提供了一种基于频域自注意力网络的语音增强设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的基于频域自注意力网络的语音质量增强方法。
本发明能够实现对语音信号中噪声的去除。与传统的语音质量增强方法相比,本发明具有稳定性、独立性、快速高效等优点,能够大大提高语音质量增强的准确形和效率,为商业、军事等领域语音通信方面提供有力的保障,具有较好的推广应用前景。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (4)
1.一种基于频域自注意力网络的语音质量增强方法,其特征在于,包括以下步骤:
步骤S1,输入原始语音并进行预处理,获得语音数据的频率响应;
步骤S1中,对输入的原始语音进行预处理,包括傅里叶变换、归一化和升维操作,所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应,包括幅度响应特性和相位响应特性,所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化,并将相位响应特性尺度变换为0到2Π的长度区间,所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列,并将这些序列按列堆叠成二维矩阵;
步骤S2,将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
所述频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;
所述位置编码模块包括位置编码层,用于将位置信息添加到处理后的频率响应中;所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;
归一化函数的计算公式为:
其中,为求向量/>的最大值;
残差连接层由2个卷积层组成,具体公式如下:
其中,为残差连接层的输出,/>为残差连接层中第2个卷积层的输出,/>'为残差连接层的输入;
前馈层包括两层全连接层,第一层使用Relu激活函数,第二层不使用激活函数,具体公式如下:
其中是输入,/>和/>分别为两个全连接层参数,/>和/>分别为两个全连接层偏置;
步骤S2中,所述频域自注意力网络是训练好的频域自注意力网络;训练过程包括以下子步骤:
步骤SS1,使用含原始语音和干净语音的VOICEBANK数据集;
步骤SS2,对数据集进行预处理,将预处理后的数据集输入到频域自注意力网络中进行训练,通过反向传播算法不断优化模型参数,使其能够达到较好的语音增强效果;
步骤SS2中,所述预处理包括傅里叶变换、归一化和升维操作;首先对输入的原始语音进行傅里叶变换获得频率响应;然后对频率响应进行归一化处理;最后对归一化后的频率响应进行升维操作获得计算矩阵;训练过程中采用均方误差损失函数,训练至网络收敛,即训练损失函数曲线保持平稳不再下降;
步骤S3,对语音质量增强后的频率响应进行后处理得到最终的语音增强信号;
步骤S3中,所述后处理包括取正值、降维操作、傅里叶逆变换,所述取正值是将网络输出结果取正,所述降维操作,是指将取正后的结果按序拼接成一维的序列,从而得到语音质量增强后的一维频率响应,所述傅里叶逆变换,是利用逆快速傅里叶变换函数获得质量增强后的语音信号。
2.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法,其特征在于:步骤S2中,所述位置编码模块中的位置编码函数为:
其中,表示位置编码,/>表示单词在句子中的位置,/>表示/>的维度,/>表示偶数的维度,/>表示奇数维度。
3.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法,其特征在于:步骤S2中,将位置编码后的频率响应输入若干个并列的注意力头组成的多注意力头层,其中每个注意力头由三个可进行参数优化的权重矩阵/>、/>、/>组成,用于获得查询Q、键值K、值V,具体计算公式为:
得到矩阵Q、K、V之后计算出多注意力头层的输出,具体公式如下:
其中,是/>矩阵的列数,即向量维数,/>为转置运算,/>为归一化函数;
将多注意力头层的输出和位置编码后的频率响应输入到残差连接层,用于解决多层网络训练的问题,然后将残差连接层的输出进行层归一化,层归一化的结果输入到前馈层中,使最终输出矩阵维度与输入维度一致,最后再将前馈层的结果进行残差连接和层归一化,得到最终的频率响应。
4.一种基于频域自注意力网络的语音质量增强***,其特征在于,包括以下单元:
预处理单元,用于输入原始语音并进行预处理,获得语音数据的频率响应;
对输入的原始语音进行预处理,包括傅里叶变换、归一化和升维操作,所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应,包括幅度响应特性和相位响应特性,所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化,并将相位响应特性尺度变换为0到2Π的长度区间,所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列,并将这些序列按列堆叠成二维矩阵语音质量增强单元,用于将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
所述频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;
所述位置编码模块包括位置编码层,用于将位置信息添加到处理后的频率响应中;所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;
归一化函数的计算公式为:
其中,为求向量/>的最大值;
残差连接层由2个卷积层组成,具体公式如下:
其中,为残差连接层的输出,/>为残差连接层中第2个卷积层的输出,/>'为残差连接层的输入;
前馈层包括两层全连接层,第一层使用Relu激活函数,第二层不使用激活函数,具体公式如下:
其中是输入,/>和/>分别为两个全连接层参数,/>和/>分别为两个全连接层偏置;
步骤S2中,所述频域自注意力网络是训练好的频域自注意力网络;训练过程包括以下子步骤:
步骤SS1,使用含原始语音和干净语音的VOICEBANK数据集;
步骤SS2,对数据集进行预处理,将预处理后的数据集输入到频域自注意力网络中进行训练,通过反向传播算法不断优化模型参数,使其能够达到较好的语音增强效果;
步骤SS2中,所述预处理包括傅里叶变换、归一化和升维操作;首先对输入的原始语音进行傅里叶变换获得频率响应;然后对频率响应进行归一化处理;最后对归一化后的频率响应进行升维操作获得计算矩阵;训练过程中采用均方误差损失函数,训练至网络收敛,即训练损失函数曲线保持平稳不再下降;
后处理单元,用于对语音质量增强后的频率响应进行后处理得到最终的语音增强信号;
所述后处理包括取正值、降维操作、傅里叶逆变换,所述取正值是将网络输出结果取正,所述降维操作,是指将取正后的结果按序拼接成一维的序列,从而得到语音质量增强后的一维频率响应,所述傅里叶逆变换,是利用逆快速傅里叶变换函数获得质量增强后的语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410163875.7A CN117711417B (zh) | 2024-02-05 | 2024-02-05 | 一种基于频域自注意力网络的语音质量增强方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410163875.7A CN117711417B (zh) | 2024-02-05 | 2024-02-05 | 一种基于频域自注意力网络的语音质量增强方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117711417A CN117711417A (zh) | 2024-03-15 |
CN117711417B true CN117711417B (zh) | 2024-04-30 |
Family
ID=90151989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410163875.7A Active CN117711417B (zh) | 2024-02-05 | 2024-02-05 | 一种基于频域自注意力网络的语音质量增强方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117711417B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN111696567A (zh) * | 2020-06-12 | 2020-09-22 | 苏州思必驰信息科技有限公司 | 用于远场通话的噪声估计方法及*** |
CN112767959A (zh) * | 2020-12-31 | 2021-05-07 | 恒安嘉新(北京)科技股份公司 | 语音增强方法、装置、设备及介质 |
KR102287499B1 (ko) * | 2020-09-15 | 2021-08-09 | 주식회사 에이아이더뉴트리진 | 음소 단위 운율을 반영한 음성 합성 방법 및 장치 |
CN113936681A (zh) * | 2021-10-13 | 2022-01-14 | 东南大学 | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 |
CN114283795A (zh) * | 2021-12-24 | 2022-04-05 | 思必驰科技股份有限公司 | 语音增强模型的训练、识别方法、电子设备和存储介质 |
CN114678033A (zh) * | 2022-03-15 | 2022-06-28 | 南京邮电大学 | 一种基于只包含编码器的多头注意力机制的语音增强算法 |
WO2023044961A1 (zh) * | 2021-09-23 | 2023-03-30 | 武汉大学 | 基于自注意力变换网络的多特征融合回声消除方法及*** |
CN115881157A (zh) * | 2021-09-29 | 2023-03-31 | 北京三星通信技术研究有限公司 | 音频信号的处理方法及相关设备 |
CN116013344A (zh) * | 2022-12-17 | 2023-04-25 | 西安交通大学 | 一种多种噪声环境下的语音增强方法 |
CN116798410A (zh) * | 2023-07-31 | 2023-09-22 | 易方信息科技股份有限公司 | 局部特征增强的语音识别方法、***、设备及介质 |
CN116884426A (zh) * | 2023-07-11 | 2023-10-13 | 武汉大学 | 一种基于dfsmn模型的语音增强方法、装置和设备 |
CN117043861A (zh) * | 2021-03-23 | 2023-11-10 | 高通股份有限公司 | 基于上下文的语音增强 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220291328A1 (en) * | 2015-07-17 | 2022-09-15 | Muhammed Zahid Ozturk | Method, apparatus, and system for speech enhancement and separation based on audio and radio signals |
CN107346659B (zh) * | 2017-06-05 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法、装置及终端 |
US20230395087A1 (en) * | 2020-10-16 | 2023-12-07 | Google Llc | Machine Learning for Microphone Style Transfer |
CN114566180A (zh) * | 2020-11-27 | 2022-05-31 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
JP2022135451A (ja) * | 2021-03-05 | 2022-09-15 | 本田技研工業株式会社 | 音響処理装置、音響処理方法およびプログラム |
CN112687259B (zh) * | 2021-03-11 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 一种语音合成方法、装置以及可读存储介质 |
US20230162758A1 (en) * | 2021-11-19 | 2023-05-25 | Massachusetts Institute Of Technology | Systems and methods for speech enhancement using attention masking and end to end neural networks |
WO2023132932A1 (en) * | 2022-01-10 | 2023-07-13 | Intone Inc. | Real time correction of accent in speech audio signals |
-
2024
- 2024-02-05 CN CN202410163875.7A patent/CN117711417B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN111696567A (zh) * | 2020-06-12 | 2020-09-22 | 苏州思必驰信息科技有限公司 | 用于远场通话的噪声估计方法及*** |
KR102287499B1 (ko) * | 2020-09-15 | 2021-08-09 | 주식회사 에이아이더뉴트리진 | 음소 단위 운율을 반영한 음성 합성 방법 및 장치 |
CN112767959A (zh) * | 2020-12-31 | 2021-05-07 | 恒安嘉新(北京)科技股份公司 | 语音增强方法、装置、设备及介质 |
CN117043861A (zh) * | 2021-03-23 | 2023-11-10 | 高通股份有限公司 | 基于上下文的语音增强 |
WO2023044961A1 (zh) * | 2021-09-23 | 2023-03-30 | 武汉大学 | 基于自注意力变换网络的多特征融合回声消除方法及*** |
CN115881157A (zh) * | 2021-09-29 | 2023-03-31 | 北京三星通信技术研究有限公司 | 音频信号的处理方法及相关设备 |
CN113936681A (zh) * | 2021-10-13 | 2022-01-14 | 东南大学 | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 |
CN114283795A (zh) * | 2021-12-24 | 2022-04-05 | 思必驰科技股份有限公司 | 语音增强模型的训练、识别方法、电子设备和存储介质 |
CN114678033A (zh) * | 2022-03-15 | 2022-06-28 | 南京邮电大学 | 一种基于只包含编码器的多头注意力机制的语音增强算法 |
CN116013344A (zh) * | 2022-12-17 | 2023-04-25 | 西安交通大学 | 一种多种噪声环境下的语音增强方法 |
CN116884426A (zh) * | 2023-07-11 | 2023-10-13 | 武汉大学 | 一种基于dfsmn模型的语音增强方法、装置和设备 |
CN116798410A (zh) * | 2023-07-31 | 2023-09-22 | 易方信息科技股份有限公司 | 局部特征增强的语音识别方法、***、设备及介质 |
Non-Patent Citations (1)
Title |
---|
特征联合优化深度信念网络的语音增强算法;王雁;贾海蓉;吉慧芳;王卫梅;;计算机工程与应用;20181208(第09期);正文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117711417A (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qian et al. | Very deep convolutional neural networks for noise robust speech recognition | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN109272990B (zh) | 基于卷积神经网络的语音识别方法 | |
JP7258182B2 (ja) | 音声処理方法、装置、電子機器及びコンピュータプログラム | |
CN110739003B (zh) | 基于多头自注意力机制的语音增强方法 | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
Zezario et al. | Self-supervised denoising autoencoder with linear regression decoder for speech enhancement | |
CN117059103A (zh) | 基于低秩矩阵近似的语音识别微调任务的加速方法 | |
CN112435652A (zh) | 一种基于图卷积神经网络的语音关键词识别***及方法 | |
CN111429893A (zh) | 基于Transitive STARGAN的多对多说话人转换方法 | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
CN114373451A (zh) | 一种端到端中文语音识别方法 | |
Zhang et al. | Multi-Scale TCN: Exploring Better Temporal DNN Model for Causal Speech Enhancement. | |
CN115101085A (zh) | 一种卷积增强外部注意力的多说话人时域语音分离方法 | |
Wei et al. | EdgeCRNN: an edge-computing oriented model of acoustic feature enhancement for keyword spotting | |
Girirajan et al. | Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network. | |
AU2018100318A4 (en) | A method of generating raw music audio based on dilated causal convolution network | |
Jiang et al. | Speaker attractor network: Generalizing speech separation to unseen numbers of sources | |
CN117711417B (zh) | 一种基于频域自注意力网络的语音质量增强方法及*** | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
Tang et al. | Acoustic modeling with densely connected residual network for multichannel speech recognition | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
Shahnawazuddin et al. | Sparse coding over redundant dictionaries for fast adaptation of speech recognition system | |
CN116596031A (zh) | 一种去负样本的无监督句子表征学习方法 | |
Li et al. | A fast convolutional self-attention based speech dereverberation method for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |