CN117711417A - 一种基于频域自注意力网络的语音质量增强方法及*** - Google Patents

一种基于频域自注意力网络的语音质量增强方法及*** Download PDF

Info

Publication number
CN117711417A
CN117711417A CN202410163875.7A CN202410163875A CN117711417A CN 117711417 A CN117711417 A CN 117711417A CN 202410163875 A CN202410163875 A CN 202410163875A CN 117711417 A CN117711417 A CN 117711417A
Authority
CN
China
Prior art keywords
layer
voice
frequency domain
frequency response
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410163875.7A
Other languages
English (en)
Other versions
CN117711417B (zh
Inventor
袁程浩
归子涵
刘瑨玮
杨光义
贺威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202410163875.7A priority Critical patent/CN117711417B/zh
Publication of CN117711417A publication Critical patent/CN117711417A/zh
Application granted granted Critical
Publication of CN117711417B publication Critical patent/CN117711417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于频域自注意力网络的语音质量增强方法及***,首先输入原始语音并进行预处理;然后将处理后频率响应输入频域自注意力网络;最终输出信号并对输出的信号进行后处理得到语音增强信号;频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;位置编码模块包括位置编码层;基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;N个相同的基本单元模块,其中N由所需网络深度决定。本发明能够实现对语音信号中噪声的去除,在语音通信方具有重要意义。

Description

一种基于频域自注意力网络的语音质量增强方法及***
技术领域
本发明属于语音质量处理技术领域,涉及一种语音质量增强方法及***,尤其涉及一种基于频域自注意力网络的语音质量增强方法及***。
背景技术
20世纪60年代中期数字信号处理领域形成的诸多富有实践性的理论和算法,如快速傅立叶变换(FFT)以及各种数字滤波器等是语音信号数字处理的各项理论和技术基础。在70年中后期之后,线性预测技术(LPC)已经用于语音信号的信息压缩和特征提取,并已成为语音信号处理中非常重要的一个工具。80年代语音信号处理技术的重大发展是隐马尔可夫模型(HMM)描述语音信号过程的产生过程。进入上世纪90年代以来,语音信号采集与分析技术在实际应用方面取得了许多突破性的研究进展。
在商业、教育和医疗保健等需要远程工作领域,对电话会议***有着较大的需求。因此电话会议***的语音质量十分关键。因此能否极大程度去除噪声对语音质量提升有着决定性作用。在全双工通信中,当回声干扰双端通话(DT)场景时,这些问题变得更具挑战性。因此,能够解决声学回声、噪声和去混响的解决方案对于实现无缝通信至关重要。
近年来,随着科学技术的不断进步,人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项科学研究课题是促进其发展的催生力,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。近年来,人们已经开发了联合AEC和NS方法以简化通信流水线,同时提供良好的AEC和NS性能。例如,MTFAA-Net是一种用于联合AEC和NS的神经网络,基于多尺度时频处理和流轴向注意力。然而MTFAA-Net仍然依赖于经典的AEC组件。
然而,目前基于深度学习的方法对语音噪声的数学建模仍然不够完善。同时由于对语音通信来说,实时降噪能力也十分重要,因此想要提高用户语音通信体验的享受度,需要减少算法时间的复杂度以提高实时去噪效果。
发明内容
为了解决现有技术语音质量增强方法出现的实时性低问题,本发明提出了一种基于频域自注意力网络的语音质量增强方法及***,可以应用于商业、军事等领域语音质量的增强。
本发明的方法所采用的技术方案是:一种基于频域自注意力网络的语音质量增强方法,包括以下步骤:
步骤S1,输入原始语音并进行预处理,获得语音数据的频率响应;
步骤S2,将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
所述频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;
所述位置编码模块包括位置编码层,用于将位置信息添加到处理后的频率响应中;所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;
步骤S3,对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。
进一步的,步骤S1中,对输入的原始语音进行预处理,包括傅里叶变换、归一化和升维操作,所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应,包括幅度响应特性和相位响应特性,所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化,并将相位响应特性尺度变换为0到2Π的长度区间,所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列,并将这些序列按列堆叠成二维矩阵。
进一步的,步骤S2中,所述位置编码模块中的位置编码函数为:
其中,表示位置编码,/>表示单词在句子中的位置,/>表示/>的维度,/>表示偶数的维度,/>表示奇数维度。
进一步的,步骤S2中,将位置编码后的频率响应输入若干个并列的注意力头组成的多注意力头层,其中每个注意力头由三个可进行参数优化的权重矩阵/>、/>、/>组成,用于获得查询Q、键值K、值V,具体计算公式为:
得到矩阵Q、K、V之后计算出多注意力头层的输出,具体公式如下:
其中,是/>矩阵的列数,即向量维数,/>为转置运算,/>为归一化函数;
将多注意力头层的输出和位置编码后的频率响应输入到残差连接层,用于解决多层网络训练的问题,然后将残差连接层的输出进行层归一化,层归一化的结果输入到前馈层中,使最终输出矩阵维度与输入维度一致,最后再将前馈层的结果进行残差连接和层归一化,得到最终的频率响应。
进一步的,归一化函数的计算公式为:
其中,为求向量/>的最大值;
残差连接层由2个卷积层组成,具体公式如下:
其中,为残差连接层的输出,/>为残差连接层中第2个卷积层的输出,/>'为残差连接层的输入;
前馈层包括两层全连接层,第一层使用Relu激活函数,第二层不使用激活函数,具体公式如下:
其中是输入,/>和/>分别为两个全连接层参数,/>和/>分别为两个全连接层偏置。
进一步的,步骤S2中,所述频域自注意力网络是训练好的频域自注意力网络;训练过程包括以下子步骤:
步骤SS1,使用含原始语音和干净语音的VOICEBANK数据集;
步骤SS2,对数据集进行预处理,将预处理后的数据集输入到频域自注意力网络中进行训练,通过反向传播算法不断优化模型参数,使其能够达到较好的语音增强效果。
进一步的,步骤SS2中,所述预处理包括傅里叶变换、归一化和升维操作;首先对输入的原始语音进行傅里叶变换获得频率响应;然后对频率响应进行归一化处理;最后对归一化后的频率响应进行升维操作获得计算矩阵;训练过程中采用均方误差损失函数,训练至网络收敛,即训练损失函数曲线保持平稳不再下降。
进一步的,步骤S3中,所述后处理包括取正值、降维操作、傅里叶逆变换,所述取正值是将网络输出结果取正,所述降维操作,是指将取正后的结果按序拼接成一维的序列,从而得到语音质量增强后的一维频率响应,所述傅里叶逆变换,是利用逆快速傅里叶变换函数获得质量增强后的语音信号。
本发明还提供一种基于频域自注意力网络的语音质量增强***,包括以下单元:
预处理单元,用于输入原始语音并进行预处理,获得语音数据的频率响应;
语音质量增强单元,用于将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
所述频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;
所述位置编码模块包括位置编码层,用于将位置信息添加到处理后的频率响应中;所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;
后处理单元,用于对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。
本发明采用频域自注意力网络实现对原始语音质量进行增强。该技术结合了频域分析和深度学习算法,首先利用快速傅里叶变换获取原始语音信号的频率响应,这些信号包含了有效语音信号和无效噪声的特征。然后对原始语音信号频率响应使用升维操作,使其成为二维矩阵以输入网络处理。然后使用频域自注意力网络模型对升维后的频率响应进行特征提取。最终对输出的信号进行降维操作,从而实现对语音信号中噪声的去除。与传统的语音质量增强方法相比,本发明具有稳定性、独立性、快速高效等优点,能够大大提高语音质量增强的准确形和效率,为商业、军事等领域语音通信方面提供有力的保障。
附图说明
下面使用实施例,以及具体实施方式作进一步说明本文的技术方案。另外,在说明技术方案的过程中,也使用了一些附图。对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图以及本发明的意图。
图1为本发明实施例的方法流程图;
图2为本发明实施例的频域自注意力网络结构图;
图3为本发明实施例的频域自注意力网络训练流程图;
图4为本发明实施例的升维操作结构图;
图5为本发明实施例的降维操作结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本实施例以给定的待测语音数据集为例,对本发明做进一步的阐述。请见图1,本实施例提供的一种基于频域自注意力网络的语音质量增强方法,包括以下步骤:
步骤S1:将给定待测数据集中原始语音信号输入并进行预处理;
在一种实施方式中,对输入的原始语音进行预处理,包括傅里叶变换、归一化和升维操作,所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应,包括幅度响应特性和相位响应特性,所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化,并将相位响应特性尺度变换为0到2Π的长度区间,所述升维操作是将本为一维序列的频域信号裁剪为200个长度为512的序列,并将这些序列按列堆叠成512×200的二维矩阵。
步骤S2:将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
请见图2,所述入频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;所述位置编码模块,包括位置编码层;所述基本单元模块,包括多注意力头层、残差连接和层归一化层、前馈层;所述N个相同的基本单元模块,其中N由所需网络深度决定。
在一种实施方式中,所述位置编码模块,是将序列的位置信息添加到处理后的频率响应中,具体的位置编码函数为:
其中,表示单词在句子中的位置,/>表示该处的位置编码,/>表示/>的维度,表示偶数的维度,/>表示奇数维度(即/>≤/>,/>≤/>)。
在一种实施方式中,所述基本单元模块,将位置编码后的频率响应输入8个并列的注意力头组成的多注意力头层,其中每个注意力头由三个可进行参数优化的权重矩阵、/>、/>组成,用于获得Q(查询)、K(键值)、V(值),具体计算公式为:
得到矩阵Q、K、V之后可计算出多注意力头层的输出,具体公式如下:
其中,是/>矩阵的列数,即向量维数,/>为转置运算,/>为归一化函数,归一化计算公式为:
其中,为求集合/>中元素的最大值,/>和/>为集合z中的元素;
将多注意力头层的输出和位置编码后的频率响应输入到残差连接层,残差残差层由2个卷积层组成,用于解决多层网络训练的问题,让网络关注当前差异部分,具体公式如下:
其中,为残差连接层的输出,/>为残差连接层中第2个卷积层的输出,/>为残差连接层的输入,采用残差结构,使得网络在深度较深时“短路”某些层以防止网络退化;
将残差连接层的输出进行层归一化,将每一层神经元输入转化一致以加快收敛;
将层归一化的结果输入到前馈层中,使最终输出矩阵维度与输入维度一致,前馈层是一个两层的全连接层,第一层使用Relu激活函数,第二层不使用激活函数,具体公式如下:
其中是输入,/>和/>分别为两个全连接层参数,/>和/>分别为两个全连接层偏置;
最后将前馈层的结果进行残差连接和层归一化,得到最终的频率响应。
请见图3,在一种实施方式中,所述频域自注意力网络,是训练好的频域自注意力网络;训练过程包括以下子步骤:
步骤SS1:使用含原始语音和干净语音的VOICEBANK数据集;
在一种实施方式中,所述VOICEBANK数据集是深度学习常用的语音去噪数据集,使用该数据集是其常被引用具备代表性。
步骤SS2:对数据集进行预处理,将预处理后的数据集输入到频域自注意力网络模型中进行训练,通过反向传播算法不断优化模型参数,使其能够达到较好的语音增强效果;
在一种实施方式中,所述预处理,包括傅里叶变换、归一化和升维操作;首先对输入的原始语音进行傅里叶变换获得频率响应;然后对频率响应进行归一化处理;最后对归一化后的频率响应进行升维操作获得计算矩阵;训练过程中采用均方误差损失函数,训练至网络收敛,即训练损失函数曲线保持平稳不再下降。将语音去噪增强效果最好的作为最终的结果。
请见图4,所述升维操作是将本为一维序列的频域信号裁剪为200个长度为512的序列,并将这些序列按列堆叠成512×200的二维矩阵。
步骤S3:输出信号并对输出的信号进行后处理得到语音增强信号;
在一种实施方式中,对输出的信号进行后处理,包括取正值、降维操作、傅里叶逆变换,所述取正值是将网络输出结果取正,所述降维操作,是指将取正后的网络输出结构按序拼接成一维长度为512×200的序列,从而得到语音质量增强后的一维频率响应,所述傅里叶逆变换,是利用逆快速傅里叶变换函数获得质量增强后的语音。
请见图5,所述降维操作是将为512×200的二维矩阵按序拼接成一维长度为512×200的一维序列。
在一种实施方式中,对模型进行语音去噪或增强的执行效率进行客观评价,以反映本发明实施例的性能,具体使用的指标为每秒十亿浮点运算次数(GFLOPs)、内存需求(Memory)和执行时间(Time),具体公式为:
其中,是指以浮点运算为单位的模型计算量,/>是指以秒为单位的模型执行时间,/>是衡量计算性能的指标,表示每秒执行的十亿次浮点运算次数。
在一种实施方式中,在VOICEBANK数据集上对模型性能进行评估,得到的实验结果如表1所示,性能最高的指标加粗表示。通过与目前主流的语音去噪和增强方法进行对比,本发明的性能表现较为优秀。
表1.VOICEBANK数据集上各语音去噪和增强方法执行效率性能对比
其中,I表示在CPU上的计算,B表示在GPU上的计算。算法ConvTsaNet、Demucs、DPRNN、Two-Step TDCN分别参考文献Luo Y, Mesgarani N. Conv-tasnet: Surpassingideal time–frequency magnitude masking for speech separation[J]. IEEE/ACMtransactions on audio, speech, and language processing, 2019, 27(8): 1256-1266.、Défossez A, Usunier N, Bottou L, et al. Demucs: Deep extractor formusic sources with extra unlabeled data remixed[J]. arXiv preprint arXiv:1909.01174, 2019.、Tzinis E, Venkataramani S, Wang Z, et al. Two-step soundsource separation: Training on learned latent targets[C]//ICASSP 2020-2020IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). IEEE, 2020: 31-35。
本发明实施例还提供一种基于频域自注意力网络的语音质量增强***,包括以下单元:
预处理单元,用于输入原始语音并进行预处理,获得语音数据的频率响应;
语音质量增强单元,用于将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
所述频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;
所述位置编码模块包括位置编码层,用于将位置信息添加到处理后的频率响应中;所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;
后处理单元,用于对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。
各单元的具体实现方式与各步骤相同,本发明不予撰述。
本发明实施例还提供了一种基于频域自注意力网络的语音增强设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的基于频域自注意力网络的语音质量增强方法。
本发明能够实现对语音信号中噪声的去除。与传统的语音质量增强方法相比,本发明具有稳定性、独立性、快速高效等优点,能够大大提高语音质量增强的准确形和效率,为商业、军事等领域语音通信方面提供有力的保障,具有较好的推广应用前景。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (9)

1.一种基于频域自注意力网络的语音质量增强方法,其特征在于,包括以下步骤:
步骤S1,输入原始语音并进行预处理,获得语音数据的频率响应;
步骤S2,将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
所述频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;
所述位置编码模块包括位置编码层,用于将位置信息添加到处理后的频率响应中;所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;
步骤S3,对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。
2.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法,其特征在于:步骤S1中,对输入的原始语音进行预处理,包括傅里叶变换、归一化和升维操作,所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应,包括幅度响应特性和相位响应特性,所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化,并将相位响应特性尺度变换为0到2Π的长度区间,所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列,并将这些序列按列堆叠成二维矩阵。
3.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法,其特征在于:步骤S2中,所述位置编码模块中的位置编码函数为:
其中,表示位置编码,/>表示单词在句子中的位置,/>表示/>的维度,/>表示偶数的维度,/>表示奇数维度。
4.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法,其特征在于:步骤S2中,将位置编码后的频率响应输入若干个并列的注意力头组成的多注意力头层,其中每个注意力头由三个可进行参数优化的权重矩阵/>、/>、/>组成,用于获得查询Q、键值K、值V,具体计算公式为:
得到矩阵Q、K、V之后计算出多注意力头层的输出,具体公式如下:
其中,是/>矩阵的列数,即向量维数,/>为转置运算,/>为归一化函数;
将多注意力头层的输出和位置编码后的频率响应输入到残差连接层,用于解决多层网络训练的问题,然后将残差连接层的输出进行层归一化,层归一化的结果输入到前馈层中,使最终输出矩阵维度与输入维度一致,最后再将前馈层的结果进行残差连接和层归一化,得到最终的频率响应。
5.根据权利要求4所述的基于频域自注意力网络的语音质量增强方法,其特征在于:归一化函数的计算公式为:
其中,为求向量/>的最大值;
残差连接层由2个卷积层组成,具体公式如下:
其中,为残差连接层的输出,/>为残差连接层中第2个卷积层的输出,/>'为残差连接层的输入;
前馈层包括两层全连接层,第一层使用Relu激活函数,第二层不使用激活函数,具体公式如下:
其中是输入,/>和/>分别为两个全连接层参数,/>和/>分别为两个全连接层偏置。
6.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法,其特征在于:步骤S2中,所述频域自注意力网络是训练好的频域自注意力网络;训练过程包括以下子步骤:
步骤SS1,使用含原始语音和干净语音的VOICEBANK数据集;
步骤SS2,对数据集进行预处理,将预处理后的数据集输入到频域自注意力网络中进行训练,通过反向传播算法不断优化模型参数,使其能够达到较好的语音增强效果。
7.根据权利要求6所述的基于频域自注意力网络的语音质量增强方法,其特征在于:步骤SS2中,所述预处理包括傅里叶变换、归一化和升维操作;首先对输入的原始语音进行傅里叶变换获得频率响应;然后对频率响应进行归一化处理;最后对归一化后的频率响应进行升维操作获得计算矩阵;训练过程中采用均方误差损失函数,训练至网络收敛,即训练损失函数曲线保持平稳不再下降。
8.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法,其特征在于,步骤S3中,所述后处理包括取正值、降维操作、傅里叶逆变换,所述取正值是将网络输出结果取正,所述降维操作,是指将取正后的结果按序拼接成一维的序列,从而得到语音质量增强后的一维频率响应,所述傅里叶逆变换,是利用逆快速傅里叶变换函数获得质量增强后的语音信号。
9.一种基于频域自注意力网络的语音质量增强***,其特征在于,包括以下单元:
预处理单元,用于输入原始语音并进行预处理,获得语音数据的频率响应;
语音质量增强单元,用于将处理后频率响应输入频域自注意力网络,得到语音质量增强后的频率响应;
所述频域自注意力网络,包括位置编码模块、N个相同的基本单元模块;
所述位置编码模块包括位置编码层,用于将位置信息添加到处理后的频率响应中;所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层;
后处理单元,用于对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。
CN202410163875.7A 2024-02-05 2024-02-05 一种基于频域自注意力网络的语音质量增强方法及*** Active CN117711417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410163875.7A CN117711417B (zh) 2024-02-05 2024-02-05 一种基于频域自注意力网络的语音质量增强方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410163875.7A CN117711417B (zh) 2024-02-05 2024-02-05 一种基于频域自注意力网络的语音质量增强方法及***

Publications (2)

Publication Number Publication Date
CN117711417A true CN117711417A (zh) 2024-03-15
CN117711417B CN117711417B (zh) 2024-04-30

Family

ID=90151989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410163875.7A Active CN117711417B (zh) 2024-02-05 2024-02-05 一种基于频域自注意力网络的语音质量增强方法及***

Country Status (1)

Country Link
CN (1) CN117711417B (zh)

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180350346A1 (en) * 2017-06-05 2018-12-06 Baidu Online Network Technology (Beijing) Co., Ltd. Speech recognition method based on artifical intelligence and terminal
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN111696567A (zh) * 2020-06-12 2020-09-22 苏州思必驰信息科技有限公司 用于远场通话的噪声估计方法及***
CN112767959A (zh) * 2020-12-31 2021-05-07 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
KR102287499B1 (ko) * 2020-09-15 2021-08-09 주식회사 에이아이더뉴트리진 음소 단위 운율을 반영한 음성 합성 방법 및 장치
CN113936681A (zh) * 2021-10-13 2022-01-14 东南大学 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN114283795A (zh) * 2021-12-24 2022-04-05 思必驰科技股份有限公司 语音增强模型的训练、识别方法、电子设备和存储介质
CN114678033A (zh) * 2022-03-15 2022-06-28 南京邮电大学 一种基于只包含编码器的多头注意力机制的语音增强算法
US20220286775A1 (en) * 2021-03-05 2022-09-08 Honda Motor Co., Ltd. Acoustic processing device, acoustic processing method, and storage medium
US20220291328A1 (en) * 2015-07-17 2022-09-15 Muhammed Zahid Ozturk Method, apparatus, and system for speech enhancement and separation based on audio and radio signals
US20220310108A1 (en) * 2021-03-23 2022-09-29 Qualcomm Incorporated Context-based speech enhancement
US20230075891A1 (en) * 2021-03-11 2023-03-09 Tencent Technology (Shenzhen) Company Limited Speech synthesis method and apparatus, and readable storage medium
WO2023044961A1 (zh) * 2021-09-23 2023-03-30 武汉大学 基于自注意力变换网络的多特征融合回声消除方法及***
CN115881157A (zh) * 2021-09-29 2023-03-31 北京三星通信技术研究有限公司 音频信号的处理方法及相关设备
CN116013344A (zh) * 2022-12-17 2023-04-25 西安交通大学 一种多种噪声环境下的语音增强方法
US20230162758A1 (en) * 2021-11-19 2023-05-25 Massachusetts Institute Of Technology Systems and methods for speech enhancement using attention masking and end to end neural networks
US20230223011A1 (en) * 2022-01-10 2023-07-13 Intone Inc. Real time correction of accent in speech audio signals
US20230253003A1 (en) * 2020-11-27 2023-08-10 Beijing Sogou Technology Development Co., Ltd. Speech processing method and speech processing apparatus
CN116798410A (zh) * 2023-07-31 2023-09-22 易方信息科技股份有限公司 局部特征增强的语音识别方法、***、设备及介质
CN116884426A (zh) * 2023-07-11 2023-10-13 武汉大学 一种基于dfsmn模型的语音增强方法、装置和设备
US20230395087A1 (en) * 2020-10-16 2023-12-07 Google Llc Machine Learning for Microphone Style Transfer

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220291328A1 (en) * 2015-07-17 2022-09-15 Muhammed Zahid Ozturk Method, apparatus, and system for speech enhancement and separation based on audio and radio signals
US20180350346A1 (en) * 2017-06-05 2018-12-06 Baidu Online Network Technology (Beijing) Co., Ltd. Speech recognition method based on artifical intelligence and terminal
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN111696567A (zh) * 2020-06-12 2020-09-22 苏州思必驰信息科技有限公司 用于远场通话的噪声估计方法及***
KR102287499B1 (ko) * 2020-09-15 2021-08-09 주식회사 에이아이더뉴트리진 음소 단위 운율을 반영한 음성 합성 방법 및 장치
US20230395087A1 (en) * 2020-10-16 2023-12-07 Google Llc Machine Learning for Microphone Style Transfer
US20230253003A1 (en) * 2020-11-27 2023-08-10 Beijing Sogou Technology Development Co., Ltd. Speech processing method and speech processing apparatus
CN112767959A (zh) * 2020-12-31 2021-05-07 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
US20220286775A1 (en) * 2021-03-05 2022-09-08 Honda Motor Co., Ltd. Acoustic processing device, acoustic processing method, and storage medium
US20230075891A1 (en) * 2021-03-11 2023-03-09 Tencent Technology (Shenzhen) Company Limited Speech synthesis method and apparatus, and readable storage medium
CN117043861A (zh) * 2021-03-23 2023-11-10 高通股份有限公司 基于上下文的语音增强
US20220310108A1 (en) * 2021-03-23 2022-09-29 Qualcomm Incorporated Context-based speech enhancement
WO2023044961A1 (zh) * 2021-09-23 2023-03-30 武汉大学 基于自注意力变换网络的多特征融合回声消除方法及***
CN115881157A (zh) * 2021-09-29 2023-03-31 北京三星通信技术研究有限公司 音频信号的处理方法及相关设备
CN113936681A (zh) * 2021-10-13 2022-01-14 东南大学 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
US20230162758A1 (en) * 2021-11-19 2023-05-25 Massachusetts Institute Of Technology Systems and methods for speech enhancement using attention masking and end to end neural networks
CN114283795A (zh) * 2021-12-24 2022-04-05 思必驰科技股份有限公司 语音增强模型的训练、识别方法、电子设备和存储介质
US20230223011A1 (en) * 2022-01-10 2023-07-13 Intone Inc. Real time correction of accent in speech audio signals
CN114678033A (zh) * 2022-03-15 2022-06-28 南京邮电大学 一种基于只包含编码器的多头注意力机制的语音增强算法
CN116013344A (zh) * 2022-12-17 2023-04-25 西安交通大学 一种多种噪声环境下的语音增强方法
CN116884426A (zh) * 2023-07-11 2023-10-13 武汉大学 一种基于dfsmn模型的语音增强方法、装置和设备
CN116798410A (zh) * 2023-07-31 2023-09-22 易方信息科技股份有限公司 局部特征增强的语音识别方法、***、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王雁;贾海蓉;吉慧芳;王卫梅;: "特征联合优化深度信念网络的语音增强算法", 计算机工程与应用, no. 09, 8 December 2018 (2018-12-08) *

Also Published As

Publication number Publication date
CN117711417B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
Yen et al. Cold diffusion for speech enhancement
WO2021042870A1 (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
CN110739003B (zh) 基于多头自注意力机制的语音增强方法
Zezario et al. Self-supervised denoising autoencoder with linear regression decoder for speech enhancement
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN117059103A (zh) 基于低秩矩阵近似的语音识别微调任务的加速方法
CN112435652A (zh) 一种基于图卷积神经网络的语音关键词识别***及方法
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
Hasannezhad et al. PACDNN: A phase-aware composite deep neural network for speech enhancement
CN114373451A (zh) 一种端到端中文语音识别方法
Zhang et al. Multi-Scale TCN: Exploring Better Temporal DNN Model for Causal Speech Enhancement.
CN115101085A (zh) 一种卷积增强外部注意力的多说话人时域语音分离方法
Ju et al. Tea-pse 3.0: Tencent-ethereal-audio-lab personalized speech enhancement system for icassp 2023 dns-challenge
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
Jiang et al. Speaker attractor network: Generalizing speech separation to unseen numbers of sources
Li et al. Dual-path modeling with memory embedding model for continuous speech separation
CN117711417B (zh) 一种基于频域自注意力网络的语音质量增强方法及***
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
Shahnawazuddin et al. Sparse coding over redundant dictionaries for fast adaptation of speech recognition system
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
Tang et al. Acoustic modeling with densely connected residual network for multichannel speech recognition
Li et al. A fast convolutional self-attention based speech dereverberation method for robust speech recognition
CN113707172B (zh) 稀疏正交网络的单通道语音分离方法、***、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant