CN109785852A - 一种增强说话人语音的方法及*** - Google Patents
一种增强说话人语音的方法及*** Download PDFInfo
- Publication number
- CN109785852A CN109785852A CN201811536633.9A CN201811536633A CN109785852A CN 109785852 A CN109785852 A CN 109785852A CN 201811536633 A CN201811536633 A CN 201811536633A CN 109785852 A CN109785852 A CN 109785852A
- Authority
- CN
- China
- Prior art keywords
- voice
- speaker
- feature
- mixing
- enhancing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 29
- 239000000284 extract Substances 0.000 claims abstract description 19
- 239000000203 mixture Substances 0.000 claims abstract 2
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000001755 vocal effect Effects 0.000 claims description 8
- 239000004568 cement Substances 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种增强说话人语音的方法及***,其通过采集包含说话人的干净语音和噪音的训练用混合语音,并提取其混合STFT特征;并获取所述说话人的参考语音和对应的参考特征;根据所述混合STFT特征和所述参考特征,经三层全连接网络生成所述参考语音的掩膜;将所述掩膜与所述混合STFT特征相乘,得到所述说话人的增强STFT特征;最后通过ISTFT变换得到所述说话人的增强语音,完成模型的训练;使用时,只需将待增强说话人的混合语音和参考语音输入训练好的模型即可输出说话人的增强语音,抗噪效果更好,适用范围更广。
Description
技术领域
本发明涉及语音信号处理技术领域,特别是一种增强说话人语音的方法及其应用该方法的***。
背景技术
语音增强是语音处理领域的核心技术之一。在实际复杂环境中,麦克风在拾取语音信号时,不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声的话音干扰,因此拾取语音的质量受到影响。为了减少噪声对语音的影响,获得高质量的语音,对语音增强技术提出了要求。
传统的单通道语音增强方法通常实现简单,对非相干噪声效果明显;但是,实际环境中的噪声信号通常是高度非平稳信号,其噪声能量在频谱上分布极不均匀,且随时间快速变化,在此情况下对噪声的估计和相应的语音信号恢复都是十分困难的,难以增强目标语音。
发明内容
本发明为解决上述问题,提供了一种增强说话人语音的方法及***,只需将待增强说话人的混合语音和参考语音输入训练好的模型即可输出说话人的增强语音,抗噪效果更好,适用范围更广。
为实现上述目的,本发明采用的技术方案为:
一种增强说话人语音的方法,其包括以下步骤:
a.模型训练步骤:
a1.采集包含说话人的干净语音和噪音的训练用混合语音,并提取训练用混合语音的混合STFT特征;
a2.获取所述说话人的参考语音,并提取所述参考语音的参考特征;
a3.根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
a4.将所述掩膜与所述混合STFT特征相乘,得到所述说话人的增强STFT特征;
a5.将所述增强STFT特征通过ISTFT变换得到训练用混合语音中属于所述说话人的增强语音,完成模型的训练;
b.语音增强步骤:
将待增强说话人的混合语音和待增强说话人的参考语音输入所述模型中,输出待增强说话人的增强语音;或者,对待增强说话人的混合语音提取混合STFT特征,对所述待增强说话人的参考语音提取参考特征,并将所述待增强说话人的混合语音的混合STFT特征和所述待增强说话人的参考特征输入所述模型中,输出所述待增强说话人的增强STFT特征,并进一步通过ISTFT变换得到所述待增强说话人对应的增强语音。
优选的,所述的步骤a2和步骤b中,提取所述参考语音的参考特征,是采用声纹提取器进行提取所述参考语音的声纹特征;所述声纹特征为embedding特征。
优选的,进一步将所述训练用混合语音的混合STFT特征、所述说话人的参考语音的参考特征,以及所述待增强说话人的混合语音的混合STFT特征、所述待增强说话人的增强STFT特征,将其实数和虚数在通道维度上进行拼接处理。
优选的,所述的步骤a5中,进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征,并通过对比所述干净STFT特征和所述增强STFT特征进行构造损失函数,并根据所述损失函数进行优化模型参数,得到优化后的模型。
进一步的,使用均方误差作为损失函数,即,计算所述干净STFT特征和所述增强STFT特征之间的均方误差。
进一步的,根据所述损失函数进行优化模型参数,是通过随机梯度下降算法进行优化模型参数,使得均方误差的值下降到预设阈值。
优选的,所述的步骤a3进一步包括:
a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络,以提取深层次特征;
a32.将所述深层次特征输入LSTM网络,以提取时序信息特征;
a33.将所述时序信息特征和所述参考特征输入三层全连接网络,生成所述参考语音的掩膜。
与所述方法相对应的,本发明还提供一种增强说话人语音的***,其包括:
模型训练模块,其进一步包括:
STFT特征提取单元,用于采集包含说话人的干净语音和噪音的训练用混合语音,并提取训练用混合语音的混合STFT特征;
参考特征提取单元,其通过获取所述说话人的参考语音,并提取所述参考语音的参考特征;
掩膜生成单元,其根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
特征增强单元,其通过将所述掩膜与所述混合STFT特征相乘,得到所述说话人的增强STFT特征;
语音转换单元,其将所述增强STFT特征通过ISTFT变换得到训练用混合语音中属于所述说话人的增强语音,完成模型的训练;
语音增强模块:
用于将待增强说话人的混合语音和待增强说话人的参考语音输入所述模型中,输出待增强说话人的增强语音;或者,对待增强说话人的混合语音提取混合STFT特征,对所述待增强说话人的参考语音提取参考特征,并将所述待增强说话人的混合语音的混合STFT特征和所述待增强说话人的参考特征输入所述模型中,输出所述待增强说话人的增强STFT特征,并进一步通过ISTFT变换得到所述待增强说话人对应的增强语音。
本发明的有益效果是:
(1)本发明的语音增强方法,只需将待增强说话人的混合语音和参考语音输入训练好的模型即可输出说话人的增强语音,抗噪效果更好,适用范围更广;
(2)本发明通过采集大量的单人的干净语音和噪音,并将任意其中一个干净语音与噪音进行混合处理和重新分离的训练,得到训练好的模型,使得模型的性能更好,特别适用于周围环境嘈杂的干净语音的增强处理;
(3)本发明通过将单人的干净语音的干净STFT特征与增强训练的增强STFT特征进行比较和构造损失函数,从而对模型参数进行优化,使得模型更加准确;
(4)本发明通过CNN网络、LSTM网络、三层全连接网络进行特征的提取和增强,使得训练得到的模型具有更高的性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种增强说话人语音的方法的流程简图;
图2为本发明一种增强说话人语音的***的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种增强说话人语音的方法,其包括以下步骤:
a.模型训练步骤:
a1.采集包含说话人的干净语音和噪音的训练用混合语音,并提取训练用混合语音的混合STFT特征;
a2.获取所述说话人的参考语音,并提取所述参考语音的参考特征;
a3.根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
a4.将所述掩膜与所述混合STFT特征相乘,得到所述说话人的增强STFT特征;
a5.将所述增强STFT特征通过ISTFT变换得到训练用混合语音中属于所述说话人的增强语音,完成模型的训练;
b.语音增强步骤:
将待增强说话人的混合语音和待增强说话人的参考语音输入所述模型中,输出待增强说话人的增强语音;或者,对待增强说话人的混合语音提取混合STFT特征,对所述待增强说话人的参考语音提取参考特征,并将所述待增强说话人的混合语音的混合STFT特征和所述待增强说话人的参考特征输入所述模型中,输出所述待增强说话人的增强STFT特征,并进一步通过ISTFT变换得到所述待增强说话人对应的增强语音。
所述的步骤a1中,所述训练用混合语音包括所述说话人的干净语音和周围环境的噪音;所述噪音可以是其他说话人的声音或是机动车声或是自然环境中的其他声音等。训练时,通过采集大量的单人的干净语音和噪音,并将任意其中一个干净语音与噪音进行混合处理和重新分离的训练;例如,首先采集几千人的干净语音和各种场景类型的噪音,然后任意取其中一个说话人的干净语音与任意一种噪音进行混合,并且,所述参考语音的说话人与所述干净语音的说话人相对应,通过构建语音训练集、语音开发集、语音测试集,对模型进行训练和优化,得到训练好的模型。
所述的步骤a2和步骤b中,提取所述参考语音的参考特征,是采用声纹提取器进行提取所述参考语音的声纹特征;本实施例中,所述声纹特征为embedding特征。
短时傅里叶变换(STFT,short-time Fourier transform,或short-term Fouriertransform)),又称加窗傅里叶变换,是一种时频分析方法,它通过时间窗内的一段信号来表示某一时刻的信号特征。在短时傅里叶变换过程中,窗的长度决定频谱图的时间分辨率和频率分辨率,窗长越长,截取的信号越长,信号越长,傅里叶变换后频率分辨率越高,时间分辨率越差;相反,窗长越短,截取的信号就越短,频率分辨率越差,时间分辨率越好。时间窗口使得信号只在某一小区间内有效,这就避免了传统的傅里叶变换在时频局部表达能力上的不足,使得傅里叶变换有了局部定位的能力。
并且,由于STFT特征是一个复数,即a+bj,其中,a为实数部分,b为虚数部分;本实施例中,为了避免复数的运算,还进一步将所述训练用混合语音的混合STFT特征、所述说话人的参考语音的参考特征,以及所述待增强说话人的混合语音的混合STFT特征、所述待增强说话人的增强STFT特征,将其实数和虚数在通道维度上进行拼接处理,从而使得运算更简单高效。
所述的步骤a3中.根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜,是指先将所述混合STFT特征与所述参考特征融合后得到融合特征,再将融合特征经三层全连接网络生成掩膜;其中,所述特征融合是指将所述参考语音的参考特征(声纹特征)叠加在所述混合语音中提取的混合STFT特征上,将每个时间点上的混合STFT特征与所述参考特征进行匹配,根据匹配结果生成掩膜。所述掩膜采用复数掩膜,用于对所述混合语音中不属于所述说话人的语音进行屏蔽,从而得到属于所述说话人的增强语音。
具体的,所述的步骤a3进一步包括:
a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络,以提取深层次特征;其中,所述卷积神经网络(Convolutional Neural Network,CNN)是由卷积层、池化层、全连接层构成的具有局部感知和权值共享能力的深层神经网络;卷积层试图将神经网络中的每一小块进行更加深入的分析从而得到抽象程度更高的特征,经过卷积层之后的节点矩阵深度增加;池化层神经网络不会改变三维矩阵的深度,但是可以缩小矩阵的大小;除了采用所述CNN神经网络,还可以采用RNN、DNN等神经网络。
a32.将所述深层次特征输入LSTM网络,以提取时序信息特征;其中,所述LSTM(Long Short-Term Memory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件;
a33.将所述时序信息特征和所述参考特征输入三层全连接网络,生成所述参考语音的掩膜(masks);其中,所述三层全连接网络(fully connected layers,FC)包括输入层、隐含层、输出层;所述掩膜为所述三层全连接网络中提取的特征,并用于在提取所述增强STFT特征时进行屏蔽其他说话人语音对应的STFT特征。
其中,所述的步骤a32是可以省略的,即,可直接将所述步骤a31中提取的深层次特征和所述参考特征进行融合后输入三层全连接网络。
所述的步骤a5中,进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征,并通过对比所述干净STFT特征和所述增强STFT特征进行构造损失函数loss,并根据所述损失函数进行优化模型参数,得到优化后的模型。优选的,使用均方误差作为损失函数,即,计算所述干净STFT特征和所述增强STFT特征之间的均方误差(mean square error,MSE)。本实施例中,根据所述损失函数loss进行优化模型参数,是通过随机梯度下降算法(SGD)进行优化模型参数,使得所述均方误差(损失函数)越来越小,从而使得均方误差的值下降到预设阈值,即损失函数达到最小化,则完成模型训练。
如图2所示,本发明还提供一种增强说话人语音的***,其包括:
模型训练模块,其进一步包括:
STFT特征提取单元,用于采集包含说话人的干净语音和噪音的训练用混合语音,并提取训练用混合语音的混合STFT特征;
参考特征提取单元,其通过获取所述说话人的参考语音,并提取所述参考语音的参考特征;
掩膜生成单元,其根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
特征增强单元,其通过将所述掩膜与所述混合STFT特征相乘,得到所述说话人的增强STFT特征;
语音转换单元,其将所述增强STFT特征通过ISTFT变换得到训练用混合语音中属于所述说话人的增强语音,完成模型的训练;
语音增强模块:
用于将待增强说话人的混合语音和待增强说话人的参考语音输入所述模型中,输出待增强说话人的增强语音;或者,对待增强说话人的混合语音提取混合STFT特征,对所述待增强说话人的参考语音提取参考特征,并将所述待增强说话人的混合语音的混合STFT特征和所述待增强说话人的参考特征输入所述模型中,输出所述待增强说话人的增强STFT特征,并进一步通过ISTFT变换得到所述待增强说话人对应的增强语音。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于***实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (8)
1.一种增强说话人语音的方法,其特征在于,包括以下步骤:
a.模型训练步骤:
a1.采集包含说话人的干净语音和噪音的训练用混合语音,并提取训练用混合语音的混合STFT特征;
a2.获取所述说话人的参考语音,并提取所述参考语音的参考特征;
a3.根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
a4.将所述掩膜与所述混合STFT特征相乘,得到所述说话人的增强STFT特征;
a5.将所述增强STFT特征通过ISTFT变换得到训练用混合语音中属于所述说话人的增强语音,完成模型的训练;
b.语音增强步骤:
将待增强说话人的混合语音和待增强说话人的参考语音输入所述模型中,输出待增强说话人的增强语音;或者,对待增强说话人的混合语音提取混合STFT特征,对所述待增强说话人的参考语音提取参考特征,并将所述待增强说话人的混合语音的混合STFT特征和所述待增强说话人的参考特征输入所述模型中,输出所述待增强说话人的增强STFT特征,并进一步通过ISTFT变换得到所述待增强说话人对应的增强语音。
2.根据权利要求1所述的一种增强说话人语音的方法,其特征在于:所述的步骤a2和步骤b中,提取所述参考语音的参考特征,是采用声纹提取器进行提取所述参考语音的声纹特征;所述声纹特征为embedding特征。
3.根据权利要求1所述的一种增强说话人语音的方法,其特征在于:进一步将所述训练用混合语音的混合STFT特征、所述说话人的参考语音的参考特征,以及所述待增强说话人的混合语音的混合STFT特征、所述待增强说话人的增强STFT特征,将其实数和虚数在通道维度上进行拼接处理。
4.根据权利要求1所述的一种增强说话人语音的方法,其特征在于:所述的步骤a5中,进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征,并通过对比所述干净STFT特征和所述增强STFT特征进行构造损失函数,并根据所述损失函数进行优化模型参数,得到优化后的模型。
5.根据权利要求4所述的一种增强说话人语音的方法,其特征在于:使用均方误差作为损失函数,即,计算所述干净STFT特征和所述增强STFT特征之间的均方误差。
6.根据权利要求5所述的一种增强说话人语音的方法,其特征在于:根据所述损失函数进行优化模型参数,是通过随机梯度下降算法进行优化模型参数,使得均方误差的值下降到预设阈值。
7.根据权利要求1至6任一项所述的一种增强说话人语音的方法,其特征在于:所述的步骤a3进一步包括:
a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络,以提取深层次特征;
a32.将所述深层次特征输入LSTM网络,以提取时序信息特征;
a33.将所述时序信息特征和所述参考特征输入三层全连接网络,生成所述参考语音的掩膜。
8.一种增强说话人语音的***,其特征在于,包括:
a.模型训练模块,其进一步包括:
STFT特征提取单元,用于采集包含说话人的干净语音和噪音的训练用混合语音,并提取训练用混合语音的混合STFT特征;
参考特征提取单元,其通过获取所述说话人的参考语音,并提取所述参考语音的参考特征;
掩膜生成单元,其根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
特征增强单元,其通过将所述掩膜与所述混合STFT特征相乘,得到所述说话人的增强STFT特征;
语音转换单元,其将所述增强STFT特征通过ISTFT变换得到训练用混合语音中属于所述说话人的增强语音,完成模型的训练;
b.语音增强模块:
用于将待增强说话人的混合语音和待增强说话人的参考语音输入所述模型中,输出待增强说话人的增强语音;或者,对待增强说话人的混合语音提取混合STFT特征,对所述待增强说话人的参考语音提取参考特征,并将所述待增强说话人的混合语音的混合STFT特征和所述待增强说话人的参考特征输入所述模型中,输出所述待增强说话人的增强STFT特征,并进一步通过ISTFT变换得到所述待增强说话人对应的增强语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536633.9A CN109785852A (zh) | 2018-12-14 | 2018-12-14 | 一种增强说话人语音的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536633.9A CN109785852A (zh) | 2018-12-14 | 2018-12-14 | 一种增强说话人语音的方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109785852A true CN109785852A (zh) | 2019-05-21 |
Family
ID=66497072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811536633.9A Pending CN109785852A (zh) | 2018-12-14 | 2018-12-14 | 一种增强说话人语音的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109785852A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及*** |
CN111341304A (zh) * | 2020-02-28 | 2020-06-26 | 广州国音智能科技有限公司 | 一种基于gan的说话人语音特征训练方法、装置和设备 |
CN111583947A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音增强方法和装置以及设备 |
CN111833896A (zh) * | 2020-07-24 | 2020-10-27 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、***、装置和存储介质 |
CN112349291A (zh) * | 2020-09-29 | 2021-02-09 | 成都千立网络科技有限公司 | 基于ai降噪模型的扩声***及方法 |
WO2021042870A1 (zh) * | 2019-09-05 | 2021-03-11 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
CN112687275A (zh) * | 2020-12-25 | 2021-04-20 | 北京中科深智科技有限公司 | 一种语音过滤方法和过滤*** |
CN112927707A (zh) * | 2021-01-25 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113447570A (zh) * | 2021-06-29 | 2021-09-28 | 同济大学 | 一种基于车载声学传感的无砟轨道病害检测方法及*** |
CN113490115A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种基于声纹识别技术的声反馈抑制方法及*** |
CN114999508A (zh) * | 2022-07-29 | 2022-09-02 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400578A (zh) * | 2013-08-22 | 2013-11-20 | 厦门大学 | 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置 |
CN104103277A (zh) * | 2013-04-15 | 2014-10-15 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
CN104575511A (zh) * | 2013-10-22 | 2015-04-29 | 陈卓 | 语音增强方法及装置 |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别***的后端i‑vector增强方法 |
CN108766459A (zh) * | 2018-06-13 | 2018-11-06 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及*** |
-
2018
- 2018-12-14 CN CN201811536633.9A patent/CN109785852A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104103277A (zh) * | 2013-04-15 | 2014-10-15 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
CN103400578A (zh) * | 2013-08-22 | 2013-11-20 | 厦门大学 | 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置 |
CN104575511A (zh) * | 2013-10-22 | 2015-04-29 | 陈卓 | 语音增强方法及装置 |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别***的后端i‑vector增强方法 |
CN108766459A (zh) * | 2018-06-13 | 2018-11-06 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及*** |
Non-Patent Citations (4)
Title |
---|
QUAN WANG等: "VoiceFilter Targeted Voice Separation by Speaker Conditioned Spectrogram Masking", 《简书》 * |
QUAN WANG等: "VoiceFilter Targeted Voice Separation by Speaker Conditioned Spectrogram Masking", 《简书》, 31 October 2018 (2018-10-31) * |
俞一彪: "《数字信号处理理论与应用 第3版》", 东南大学出版社, pages: 50 * |
张雄伟等: "语音去混响技术的研究进展与展望", 《数据采集与处理》, no. 06, 15 November 2017 (2017-11-15) * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021042870A1 (zh) * | 2019-09-05 | 2021-03-11 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
US11948552B2 (en) | 2019-09-05 | 2024-04-02 | Tencent Technology (Shenzhen) Company Limited | Speech processing method, apparatus, electronic device, and computer-readable storage medium |
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及*** |
CN110956957B (zh) * | 2019-12-23 | 2022-05-17 | 思必驰科技股份有限公司 | 语音增强模型的训练方法及*** |
CN111341304A (zh) * | 2020-02-28 | 2020-06-26 | 广州国音智能科技有限公司 | 一种基于gan的说话人语音特征训练方法、装置和设备 |
CN111583947A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音增强方法和装置以及设备 |
CN111833896B (zh) * | 2020-07-24 | 2023-08-01 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、***、装置和存储介质 |
CN111833896A (zh) * | 2020-07-24 | 2020-10-27 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、***、装置和存储介质 |
CN112349291A (zh) * | 2020-09-29 | 2021-02-09 | 成都千立网络科技有限公司 | 基于ai降噪模型的扩声***及方法 |
CN112687275A (zh) * | 2020-12-25 | 2021-04-20 | 北京中科深智科技有限公司 | 一种语音过滤方法和过滤*** |
CN112927707A (zh) * | 2021-01-25 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN112927707B (zh) * | 2021-01-25 | 2023-10-03 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113447570A (zh) * | 2021-06-29 | 2021-09-28 | 同济大学 | 一种基于车载声学传感的无砟轨道病害检测方法及*** |
CN113490115A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种基于声纹识别技术的声反馈抑制方法及*** |
CN114999508B (zh) * | 2022-07-29 | 2022-11-08 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
CN114999508A (zh) * | 2022-07-29 | 2022-09-02 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109785852A (zh) | 一种增强说话人语音的方法及*** | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、***及装置 | |
Shinohara | Adversarial multi-task learning of deep neural networks for robust speech recognition. | |
CN109599109B (zh) | 针对白盒场景的对抗音频生成方法及*** | |
EP3933829A1 (en) | Speech processing method and apparatus, electronic device, and computer-readable storage medium | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN109545228A (zh) | 一种端到端说话人分割方法及*** | |
CN109841226A (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
KR100908121B1 (ko) | 음성 특징 벡터 변환 방법 및 장치 | |
CN110503971A (zh) | 用于语音处理的基于神经网络的时频掩模估计和波束形成 | |
CN109326302A (zh) | 一种基于声纹比对和生成对抗网络的语音增强方法 | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN110739003B (zh) | 基于多头自注意力机制的语音增强方法 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN106504768B (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN108899044A (zh) | 语音信号处理方法及装置 | |
CN109584896A (zh) | 一种语音芯片及电子设备 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN106898355B (zh) | 一种基于二次建模的说话人识别方法 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN113191178B (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
CN102324232A (zh) | 基于高斯混合模型的声纹识别方法及*** | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN112331218B (zh) | 一种针对多说话人的单通道语音分离方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190521 |