CN112331181A - 一种基于多说话人条件下目标说话人语音提取方法 - Google Patents
一种基于多说话人条件下目标说话人语音提取方法 Download PDFInfo
- Publication number
- CN112331181A CN112331181A CN201910694870.6A CN201910694870A CN112331181A CN 112331181 A CN112331181 A CN 112331181A CN 201910694870 A CN201910694870 A CN 201910694870A CN 112331181 A CN112331181 A CN 112331181A
- Authority
- CN
- China
- Prior art keywords
- voice
- speaker
- target speaker
- target
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 78
- 238000001228 spectrum Methods 0.000 claims abstract description 76
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 37
- 230000000873 masking effect Effects 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 238000009825 accumulation Methods 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明属于目标语音提取和自适应技术领域,具体涉及一种基于多说话人条件下目标说话人语音提取方法,该方法具体包括:实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;基于该目标说话人的语音频谱,获取目标说话人的语音。
Description
技术领域
本发明属于目标语音提取和自适应技术领域,特别涉及一种基于多说话人条件下目标说话人语音提取方法。
背景技术
近年来,受益于计算机技术与深度学***。但是,如果存在多个说话人或者噪声干扰的条件下,语音识别***的识别率大幅度下降。为了解决这一问题,通常在识别之前,对受干扰的语音信号进行前端的处理。其中,语音信号前端处理主要包括以下几个方面:移除信号中的复杂环境噪声并尽量减少语音信号的失真,多说话人语音分离,从混合语音中提取出感兴趣的目标语音。
在语音信号前端处理中,通常采用深度神经网络(deep neural network,以下简称DNN)将带噪语音的频谱映射成干净的语音的时频掩蔽(masking)。对于多说话人的语音分离的处理,国内外的学者提出了一些新的方法,主要包括:深度聚类网络,深度吸引子网络等,这些方法通常采用DNN来估计不同说话人的掩蔽,然后在高维空间中拉近同一说话人的距离,同时拉远不同说话人之间的距离。这些方法能一定程度上改善多说话人场景下语音识别的性能,但是,现有的方法仍然存在着一些局限性:这些方法需要已知混合语音中说话人的数量,并且对于训练数据中没有出现过的说话人,自适应能力较弱,这就很大程度上限制了模型的灵活性,造成了训练和测试说话人不匹配导致的性能下降。
另外,对于一个训练好的说话人无关的模型,说话人自适应的目的是针对不同的目标说话人,学习对应的说话人相关的数据分布,从而使得模型能够更好的适应对应说话人的语音。说话人自适应相比于其他的自适应更具挑战性,因为通常情况下,能够用来进行自适应的目标说话人数据十分有限,然而说话人无关的DNN模型通常有很多参数,这就很容易造成过拟合,从而限制自适应的效果。
发明内容
本发明的目的在于,为解决现有的方法存在的上述缺陷,本发明提出了一种基于多说话人条件下目标说话人语音提取方法,该方法提出一种针对目标说话人的语音提取框架,该框架只聚焦于感兴趣的目标说话人的语音,将其他说话人的语音作为干扰语音进行排除。本发明的方法对目标语音提取网络进行在线自适应,并且只对目标语音提取网络的小部分参数进行自适应调节,不需要额外的自适应数据,能够很好的解决过拟合的问题。具体地,该方法主要是从一句预先提供的锚语音中提取出目标说话人的特征向量,并将目标说话人的特征向量和多个说话人混合的语音频谱一起输入至预先训练的语音提取网络中,提取出目标说话人语音频谱,并依据该目标说话人语音频谱恢复目标说话人语音。
为了实现上述目的,本发明提出了一种多说话人条件下目标说话人语音获取方法,其特征在于,该方法具体包括:
实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;
将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;
将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;
基于该目标说话人的语音频谱,获取目标说话人的语音。
作为上述技术方案的改进之一,所述将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;具体包括:
从目标说话人的干净语音中任意选取一条干净语音作为锚语音,将该锚语音输入至预先训练的说话人识别模型中,所述说话人识别模型中还包括一统计累积层,用于统计目标说话人的语音片段在这一层的均值和标准差,再将二者拼接之后传给统计层之后的隐层,作为说话人特征向量的提取层,用于从该锚语音中提取目标说话人的特征向量。
作为上述技术方案的改进之一,所述说话人识别模型的建立和训练的步骤,具体包括:
建立说话人识别模型,其输入为训练语音的特征,其输出为说话人识别结果,即当前训练语音所对应的说话人;具体包括:
通过优化目标函数来更新说话人识别模型的参数,对说话人识别模型进行训练,其中,所述说话人识别模型的参数包括权重和偏置;目标函数见公式(1):
其中,E为目标函数;n表示语音片段数量;k表示说话人的数量;dnk为输入语音片段属于说话人k的概率;其中,在语音片段的标注是当前说话人的时候,dnk=1;否则,dnk=0;为训练语音的特征,具体为训练语音在1到T时刻的梅尔倒谱系数特征;spkrk为第k个说话人;
通过最小化目标函数,完成对说话人识别模型的训练;
将锚语音的特征输入到训练后的说话人识别模型中,从该说话人识别模型的中间的统计层之后的隐层中提取出目标说话人的特征向量。
作为上述技术方案的改进之一,所述将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;具体包括:
将多个说话人混合的语音的频谱输入至预先训练的目标说话人语音提取网络,同时,将获取的目标说话人的特征向量输入至目标说话人语音提取网络,获取目标说话人的语音频谱的相位敏感掩蔽;将该目标说话人的语音频谱的相位敏感掩蔽和输入的多个说话人混合的语音的频谱相乘,获取目标说话人的语音频谱。
作为上述技术方案的改进之一,所述目标说话人语音提取网络的建立和训练步骤,具体包括:
建立目标说话人语音提取网络,采用相位敏感掩蔽,对目标说话人语音提取网络进行训练;其中,相位敏感掩蔽见公式(2);
其中,S(t,f)是目标说话人的干净语音的频谱;Y(t,f)是混合语音的频谱;θ表示目标说话人的语音与混合语音的相位差;PSM(t,f)为目标说话人的语音频谱的相位敏感掩蔽;
目标说话人语音提取网络的输入为混合语音的频谱;其输出是目标说话人的语音频谱的相位敏感掩蔽。
作为上述技术方案的改进之一,所述基于该目标说话人的语音频谱,获取目标说话人的语音;具体包括:
基于该目标说话人的语音频谱,采用傅里叶逆变换,获取目标说话人的语音。
作为上述技术方案的改进之一,所述方法还包括:在目标说话人语音提取网络中增设说话人门(speaker gate),将目标说话人的特征向量输入说话人门,来获取一组与目标说话人相关的自适应参数;利用获取的该组与目标说话人相关的自适应参数,与目标说话人语音提取网络中最后一个全链接层的输出进行对应元素相乘,来调节语音提取网络中的每个节点对于不同说话人的贡献程度,对目标说话人语音提取网络的全链接层的输出值进行动态的自适应调节,再根据自适应调节之后的输出来生成相位敏感掩蔽,构成说话人门的参数和该目标说话人语音提取网络的参数同步更新。
本发明相比于现有技术的有益效果在于:
为了减少干扰说话人对于目标说话人语音的影响,本发明的方法从一句锚语音中提取目标说话人的特征向量,可以实现对目标说话人的语音的提取及对干扰声音的削弱,从而提取出相对干净的目标说话人的语音。针对不同说话人的差异对结果造成的影响,本发明的方法提出采用目标说话人的特征向量,经过说话人门来直接生成一组与目标说话人相关的自适应参数,对目标说话人语音提取网络进行自适应调节,从而提升目标说话人语音提取网络的说话人自适应的能力。
附图说明
图1为本发明的一种基于多说话人条件下目标说话人语音提取方法的流程示意图;
图2为图1的本发明的一种基于多说话人条件下目标说话人语音提取方法中增设说话人门的具体流程示意图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提出了一种基于多说话人条件下目标说话人语音提取方法;根据从锚语音中提取的目标说话人的特征向量,将目标说话人的特征向量和多个说话人混合的语音频谱一起输入至预先训练的语音提取网络中,提取出目标说话人语音频谱,并依据该目标说话人语音频谱恢复目标说话人语音,排除其他说话人的语音和噪声的干扰,同时为了提高语音提取网络对不同说话人的自适应能力,在语音提取网络中增设说话人门(speaker gate),在引入少量自适应参数量的情况下,提高语音提取网络的自适应能力;该方法具体包括:
步骤1)实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;
步骤2)将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;具体地,
从目标说话人的干净语音中任意选取一条干净语音作为锚语音,将该锚语音输入至预先训练的说话人识别模型中,所述说话人识别模型中还包括一统计累积层,用于统计目标说话人的语音片段在这一层的均值和标准差,再将二者拼接之后传给统计层之后的隐层,作为说话人特征向量的提取层,用于从该锚语音中提取目标说话人的特征向量。
所述说话人识别模型的建立和训练的步骤,具体包括:
建立说话人识别模型,其输入为训练语音的特征,具体为训练语音的梅尔频率倒谱系数特征,其输出为说话人识别结果,即当前训练语音所对应的说话人;具体包括:
通过优化目标函数来更新说话人识别模型的参数,即说话人识别模型的参数包括:权重和偏置;对说话人识别模型进行训练,其中,目标函数见公式(1):
其中,E为目标函数;n表示语音片段数量;k表示说话人的数量;dnk为输入语音片段属于说话人k的概率;其中,在语音片段的标注是当前说话人的时候,dnk=1;否则,dnk=0;为语音在1到T时刻的梅尔倒谱系数特征;spkrk为第k个说话人;
通过最小化目标函数,完成对说话人识别模型的训练;
将锚语音的特征输入到训练后的说话人识别模型中,从模型的中间的统计层之后的隐层中,提取出目标说话人的特征向量。
其中,所述说话人识别模型具备对不同的说话人的鉴别能力,能够识别出每个说话人的梅尔倒谱系数特征对应的说话人,具有很高的说话人区分特性;
步骤3)将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;具体包括:
将多个说话人混合的语音的频谱输入至预先训练的目标说话人语音提取网络,同时,将获取的目标说话人的特征向量输入至目标说话人语音提取网络;获取目标说话人的语音频谱的相位敏感掩蔽,将该目标说话人的语音频谱的相位敏感掩蔽和输入的多个说话人混合的语音的频谱相乘,获得目标说话人的语音频谱。
所述目标说话人语音提取网络的建立和训练步骤,具体包括:
建立目标说话人语音提取网络,采用相位敏感掩蔽,对目标说话人语音提取网络进行训练;其中,相位敏感掩蔽见公式(2);
其中,S(t,f)是目标说话人的干净语音的频谱;Y(t,f)是混合语音的频谱;θ表示目标说话人的语音与混合语音的相位差;PSM(t,f)为目标说话人的语音频谱的相位敏感掩蔽;
目标说话人语音提取网络的输入为混合语音的频谱;其输出是目标说话人的语音频谱的相位敏感掩蔽。
步骤4)基于该目标说话人的语音频谱,提取目标说话人的语音;
具体地,基于该目标说话人的语音频谱,采用傅里叶逆变换,获取目标说话人的语音。
步骤5)如图2所示,在目标说话人语音提取网络中增设说话人门(speaker gate),说话人门的参数用f(x)表示,将目标说话人的特征向量输入说话人门,来获取一组与目标说话人相关的自适应参数;利用获取的该组与目标说话人相关的自适应参数,与目标说话人语音提取网络中最后一个全链接层的输出进行对应元素相乘,来调节语音提取网络中的每个节点对于不同说话人的贡献程度,对目标说话人语音提取网络的全链接层的输出值进行动态的自适应调节,再根据自适应调节之后的输出来生成相位敏感掩蔽,构成说话人门的参数和该目标说话人语音提取网络的参数同步更新。
所述说话人门的参数和语音提取网络中的参数同步更新优化,这个自适应调节的过程在该语音提取网络的训练过程中就已经融合到该语音提取网络中,不需要在测试阶段再进行额外的自适应训练,很大程度上简化了目标说话人自适应的过程。为了克服训练和测试目标说话人不匹配导致的性能损失,根据目标说话人的特征向量,通过说话人门,对不同的说话人生成一组相应的自适应参数,通过这些自适应参数来对该语音提取网络中的参数进行微调,从而使得该语音提取网络能更好的适应目标说话人的语音分布特点,来达到提升目标说话人识别准确率的目的。
实施例1.
步骤1)实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;
步骤2)将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;具体地,
从目标说话人的干净语音中任意选取一条干净语音作为锚语音,将该锚语音输入至预先训练的说话人识别模型中,所述说话人识别模型中还包括一统计累积层,用于统计目标说话人的语音片段在这一层的均值和标准差,再将二者拼接之后传给统计层之后的隐层,作为说话人特征向量的提取层,用于从该锚语音中提取目标说话人的特征向量。
所述说话人识别模型的建立和训练的步骤,具体包括:
建立说话人识别模型,其输入为训练语音的特征,具体为训练语音的梅尔频率倒谱系数特征,其输出为说话人识别结果,即当前训练语音所对应的说话人;具体包括:
通过优化目标函数来更新说话人识别模型的参数,即说话人识别模型的参数包括:权重和偏置;对说话人识别模型进行训练,其中,目标函数见公式(1):
其中,E为目标函数;n表示语音片段数量;k表示说话人的数量;dnk为输入语音片段属于说话人k的概率;其中,在语音片段的标注是当前说话人的时候,dnk=1;否则,dnk=0;为语音在1到T时刻的梅尔倒谱系数特征;spkrk为第k个说话人;
通过最小化目标函数,完成对说话人识别模型的训练;
将锚语音的特征输入到训练后的说话人识别模型中,从模型的中间的统计层之后的隐层中提取出目标说话人的特征向量。
其中,在本实施例中,步骤1)中的说话人识别模型采用包括数据集Switchboard和NIST speaker recognition evaluation(SRE)数据集的数据进行训练,该数据包括大约6000个不同的说话人;其中,该说话人识别模型的输入是锚语音的特征,锚语音的特征具体为23维的梅尔倒谱系数特征;
如图1所示,该说话人识别模型包括七层时间延迟深度神经网络(Time delayDeep Neural Network,TDNN),每层TDNN包含512个节点,在第五个隐层之后加设一统计累积层,该统计累积层的输入是1500维,输出是3000维。将第六层的输出作为说话人的特征向量,因此,该说话人识别模型从该锚语音的特征中提取出的说话人特征向量的维度是512。
步骤3)将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;
对于步骤2)中的说语音提取网络,训练数据是采用Wall Street Journal(WSJ)数据,任意取两个不同说话人的语音混合得到的40小时混合语音的频谱,该混合过程将两句话以0-5dB的信噪比相加。
如图1和2所示,语音提取网络的输入是257维的混合语音的频谱,该语音提取网络结构包括两层卷积神经网络(Convolutional Neural Network,CNN),用来对混合语音的频谱进行处理提取高维的特征表示,之后是三层双向长短时记忆模型(Bi-long short termmemory model,BLSTM),最后是一层全链接(Full Connected layer,FC)层。其中,CNN的卷积核大小是9x9,两层CNN都包含64个卷积核,每层BLSTM包括640个节点,最后一层全链接是1280维。
语音提取网络的输出节点数是257,和频谱的维度相对应。CNN层的输入是混合语音的频谱,之后将CNN的输出和步骤1)提取的512维目标说话人的特征向量拼接,输入给BLSTM,之后全连接层再将BLSTM的输出映射成257维的频谱的目标说话人的语音频谱的相位敏感掩蔽。
将该目标说话人的语音频谱的相位敏感掩蔽和输入的多个说话人混合的语音的频谱相乘,获得目标说话人的干净语音频谱。
步骤4)基于该目标说话人的语音频谱,获取目标说话人的语音;
如图2所示,说话人门的输入是步骤1)提取的512维的目标说话人的特征向量,可训练参数f(x)是两个仿射变换矩阵,输出维度和步骤2)中语音提取网络的全链接的输出维度一致,是1280维,最后将说话人门的输出和语音提取网络的全链接层的输出进行对应元素相乘,进行自适应的调节。
为了评估本发明提出的方法在多说话人条件下对目标说话人语音提取的性能,以下提供了语音的信号失真比(signal-to-distortion ratio,SDR),包括目标语音提取网络,以及增加说话人门的结果。此外,还提供了没有经过语音提取的混合语音的SDR作为基线对比。测试数据为10小时混合语音,测试数据中的说话人在训练数据中没有出现过,结果如下:
方法 | SDR(dB) |
基线混合语音 | 1.12 |
前端目标语音提取网络 | 10.37 |
前端目标语音提取网络+speaker gate层 | 11.0 |
由表中结果可以看出,本发明提出的方法能大幅提升目标说话人语音的信号失真比;说话人门的引入也能提升目标语音提取网络对未知说话人的自适应能力,从而提升目标说话人语音的质量。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种多说话人条件下目标说话人语音提取方法,其特征在于,该方法具体包括:
实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;
将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;
将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;
基于该目标说话人的语音频谱,获取目标说话人的语音。
2.根据权利要求1所述的方法,其特征在于,所述将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;具体包括:
从目标说话人的干净语音中任意选取一条干净语音作为锚语音,将该锚语音输入至预先训练的说话人识别模型中,所述说话人识别模型中还包括一统计累积层,用于统计目标说话人的语音片段在这一层的均值和标准差,再将二者拼接之后传给统计层之后的隐层,作为说话人特征向量的提取层,用于从该锚语音中提取目标说话人的特征向量。
3.根据权利要求1或2所述的方法,其特征在于,所述说话人识别模型的建立和训练的步骤,具体包括:
建立说话人识别模型,其输入为训练语音的特征,其输出为说话人识别结果;具体包括:
通过优化目标函数来更新说话人识别模型的参数,对说话人识别模型进行训练,其中,所述说话人识别模型的参数包括权重和偏置;目标函数见公式(1):
其中,E为目标函数;n表示语音片段数量;k表示说话人的数量;dnk为输入语音片段属于说话人k的概率;其中,在语音片段的标注是当前说话人的时候,dnk=1;否则,dnk=0;为训练语音的特征,具体为训练语音在1到T时刻的梅尔倒谱系数特征;spkrk为第k个说话人;
通过最小化目标函数,完成对说话人识别模型的训练;
将锚语音的特征输入到训练后的说话人识别模型中,从该说话人识别模型的中间的统计层之后的隐层中提取出目标说话人的特征向量。
4.根据权利要求1所述的方法,其特征在于,所述将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;具体包括:
将多个说话人混合的语音的频谱输入至预先训练的目标说话人语音提取网络,同时,将获取的目标说话人的特征向量输入至目标说话人语音提取网络,获取目标说话人的语音频谱的相位敏感掩蔽;将该目标说话人的语音频谱的相位敏感掩蔽和输入的多个说话人混合的语音的频谱相乘,获取目标说话人的语音频谱。
6.根据权利要求1所述的方法,其特征在于,所述基于该目标说话人的语音频谱,获取目标说话人的语音;具体包括:
基于该目标说话人的语音频谱,采用傅里叶逆变换,获取目标说话人的语音。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:在目标说话人语音提取网络中增设说话人门,将目标说话人的特征向量输入说话人门,来获取一组与目标说话人相关的自适应参数;利用获取的该组与目标说话人相关的自适应参数,与目标说话人语音提取网络中最后一个全链接层的输出进行对应元素相乘,对目标说话人语音提取网络的全链接层的输出值进行动态的自适应调节,再根据自适应调节之后的输出来生成相位敏感掩蔽,构成说话人门的参数和该目标说话人语音提取网络的参数同步更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910694870.6A CN112331181B (zh) | 2019-07-30 | 2019-07-30 | 一种基于多说话人条件下目标说话人语音提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910694870.6A CN112331181B (zh) | 2019-07-30 | 2019-07-30 | 一种基于多说话人条件下目标说话人语音提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112331181A true CN112331181A (zh) | 2021-02-05 |
CN112331181B CN112331181B (zh) | 2024-07-05 |
Family
ID=74319934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910694870.6A Active CN112331181B (zh) | 2019-07-30 | 2019-07-30 | 一种基于多说话人条件下目标说话人语音提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112331181B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643714A (zh) * | 2021-10-14 | 2021-11-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频处理方法、装置、存储介质及计算机程序 |
CN113724713A (zh) * | 2021-09-07 | 2021-11-30 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
US20230095526A1 (en) * | 2021-09-24 | 2023-03-30 | Zoom Video Communications, Inc. | Target speaker mode |
CN118053443A (zh) * | 2024-01-11 | 2024-05-17 | 北京科技大学 | 一种具有选择性听觉的目标说话人追踪方法及*** |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN103280224A (zh) * | 2013-04-24 | 2013-09-04 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
CN103531207A (zh) * | 2013-10-15 | 2014-01-22 | 中国科学院自动化研究所 | 一种融合长跨度情感历史的语音情感识别方法 |
CN104217721A (zh) * | 2014-08-14 | 2014-12-17 | 东南大学 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
WO2017112466A1 (en) * | 2015-12-21 | 2017-06-29 | Microsoft Technology Licensing, Llc | Multi-speaker speech separation |
CN107240397A (zh) * | 2017-08-14 | 2017-10-10 | 广东工业大学 | 一种基于声纹识别的智能锁及其语音识别方法和*** |
GB201808118D0 (en) * | 2018-05-18 | 2018-07-04 | Emotech Ltd | Speaker Recognition |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN109545228A (zh) * | 2018-12-14 | 2019-03-29 | 厦门快商通信息技术有限公司 | 一种端到端说话人分割方法及*** |
CN109545227A (zh) * | 2018-04-28 | 2019-03-29 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及*** |
CN109584903A (zh) * | 2018-12-29 | 2019-04-05 | 中国科学院声学研究所 | 一种基于深度学习的多人语音分离方法 |
-
2019
- 2019-07-30 CN CN201910694870.6A patent/CN112331181B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN103280224A (zh) * | 2013-04-24 | 2013-09-04 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
CN103531207A (zh) * | 2013-10-15 | 2014-01-22 | 中国科学院自动化研究所 | 一种融合长跨度情感历史的语音情感识别方法 |
CN104217721A (zh) * | 2014-08-14 | 2014-12-17 | 东南大学 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
WO2017112466A1 (en) * | 2015-12-21 | 2017-06-29 | Microsoft Technology Licensing, Llc | Multi-speaker speech separation |
CN107240397A (zh) * | 2017-08-14 | 2017-10-10 | 广东工业大学 | 一种基于声纹识别的智能锁及其语音识别方法和*** |
CN109545227A (zh) * | 2018-04-28 | 2019-03-29 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及*** |
GB201808118D0 (en) * | 2018-05-18 | 2018-07-04 | Emotech Ltd | Speaker Recognition |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN109545228A (zh) * | 2018-12-14 | 2019-03-29 | 厦门快商通信息技术有限公司 | 一种端到端说话人分割方法及*** |
CN109584903A (zh) * | 2018-12-29 | 2019-04-05 | 中国科学院声学研究所 | 一种基于深度学习的多人语音分离方法 |
Non-Patent Citations (1)
Title |
---|
黄光许 等: "低资源条件下基于i-vector特征的LSTM递归神经网络语音识别***", 计算机应用研究, vol. 34, no. 02 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724713A (zh) * | 2021-09-07 | 2021-11-30 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
US20230095526A1 (en) * | 2021-09-24 | 2023-03-30 | Zoom Video Communications, Inc. | Target speaker mode |
CN113643714A (zh) * | 2021-10-14 | 2021-11-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频处理方法、装置、存储介质及计算机程序 |
CN113643714B (zh) * | 2021-10-14 | 2022-02-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频处理方法、装置、存储介质及计算机程序 |
CN118053443A (zh) * | 2024-01-11 | 2024-05-17 | 北京科技大学 | 一种具有选择性听觉的目标说话人追踪方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112331181B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107146601B (zh) | 一种用于说话人识别***的后端i-vector增强方法 | |
CN112331181A (zh) | 一种基于多说话人条件下目标说话人语音提取方法 | |
WO2020177371A1 (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质 | |
Zhang et al. | A speech enhancement algorithm by iterating single-and multi-microphone processing and its application to robust ASR | |
CN110634502B (zh) | 基于深度神经网络的单通道语音分离算法 | |
Heymann et al. | Neural network based spectral mask estimation for acoustic beamforming | |
Yu et al. | Feature learning in deep neural networks-studies on speech recognition tasks | |
Gao et al. | Joint training of front-end and back-end deep neural networks for robust speech recognition | |
Du et al. | Robust speech recognition with speech enhanced deep neural networks | |
Abdel-Hamid et al. | Fast speaker adaptation of hybrid NN/HMM model for speech recognition based on discriminative learning of speaker code | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
CN110610715A (zh) | 一种基于cnn-dnn混合神经网络的降噪方法 | |
JP6506074B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及*** | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别***及方法 | |
Liu et al. | Jointly Adversarial Enhancement Training for Robust End-to-End Speech Recognition. | |
Zhao et al. | Domain and speaker adaptation for cortana speech recognition | |
CN108962229A (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN111968666A (zh) | 基于深度域自适应网络的助听器语音增强方法 | |
Mun et al. | The sound of my voice: Speaker representation loss for target voice separation | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
CN114283829B (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
Tu et al. | DNN training based on classic gain function for single-channel speech enhancement and recognition | |
Bu et al. | Modeling speech structure to improve TF masks for speech enhancement and recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |