CN109545228A - 一种端到端说话人分割方法及*** - Google Patents
一种端到端说话人分割方法及*** Download PDFInfo
- Publication number
- CN109545228A CN109545228A CN201811536622.0A CN201811536622A CN109545228A CN 109545228 A CN109545228 A CN 109545228A CN 201811536622 A CN201811536622 A CN 201811536622A CN 109545228 A CN109545228 A CN 109545228A
- Authority
- CN
- China
- Prior art keywords
- voice
- speaker
- feature
- mixing
- split
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000001755 vocal effect Effects 0.000 claims description 8
- 241000208340 Araliaceae Species 0.000 claims description 6
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 6
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 6
- 235000008434 ginseng Nutrition 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000003709 image segmentation Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 abstract description 6
- 238000009825 accumulation Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种端到端说话人分割方法及***,其通过分别提取训练用混合语音的混合STFT特征和参考语音的参考特征;再经三层全连接网络生成参考语音的掩膜;将所述掩膜与所述混合STFT特征相乘得到待识别说话人的分割STFT特征;最后将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音,从而训练得到所需的模型;使用时,无需先将混合语音分割成多段短语音,再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音;而是直接将待分割的混合语音和待分割说话人的参考语音输入训练好的模型即可输出待分割说话人的分割语音,这种端到端的方法可以避免中间过程的误差积累,分割精度更高。
Description
技术领域
本发明涉及语音信号处理技术领域,特别是一种端到端说话人分割方法及其应用该方法的***。
背景技术
随着音频获取途径和数量的快速增加,音频管理变得越来越复杂,近几年说话人分割聚类在国际上逐渐成为热点研究问题,国外许多大学和研究机构都开展了相关研究工作,美国国家标准技术局(National Institute of Standards and Technology,NIST)在1999年组织的说话人识别评测任务中就增加了两人之间的电话语音的分割聚类项目,2002年NIST提出的富信息转写(Rich Transcription,RT)评测正式开展对说话人分割聚类的研究。
传统的说话人分割方法分为两个步骤:
1.分割步骤,将一段混合语音分割成多段短语音。目前主流的语音分割算法有距离度量法和模型法,其中,距离度量法需根据相邻语音段之间距离,确定两个音段之间是否存在说话人变换点;模型法常见使用GMM高斯混合模型和SVM支持向量机模型,通过计算相邻模型之间的相似度距离,根据经验阈值判别说话人变换点是否存在;根据说话人变换点对混合语音进行分段处理得到多个短语音。
2.聚类步骤,通过聚类算法将属于同一个人的多个短语音进行聚类处理,得到同一个人的长语音。
采用上述的传统说话人分割方法,需要先分割再重新聚合来得到属于同一个人的长语音,不仅算法较复杂,计算效率低,而且其纯度受分割和聚类两个步骤精度的影响。
发明内容
本发明为解决上述问题,提供了一种端到端说话人分割方法及***,只需将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音,这种端到端的方法可以避免中间过程的误差积累,分割精度更高。
为实现上述目的,本发明采用的技术方案为:
一种端到端说话人分割方法,其包括以下步骤:
a.模型训练步骤:
a1.提取训练用混合语音的混合STFT特征;
a2.获取所述混合语音中的待识别说话人的参考语音,并提取所述参考语音的参考特征;
a3.根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
a4.将所述掩膜与所述混合STFT特征相乘,得到待识别说话人的分割STFT特征;
a5.将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音,完成模型的训练;
b.说话人分割步骤:
将待分割的混合语音和待分割说话人的参考语音输入所述模型中,输出待分割说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,对所述待分割说话人的参考语音提取参考特征,并将所述待分割的混合语音的混合STFT特征和所述待分割说话人的参考特征输入所述模型中,输出所述待分割说话人的分割STFT特征,并进一步通过ISTFT变换得到所述待分割说话人对应的分割语音。
优选的,所述的步骤a1中,所述训练用混合语音包括待识别说话人的干净语音和一个以上其他说话人的干净语音,并将所述干净语音进行合成得到训练用混合语音;所述的步骤b中,所述待分割的混合语音,是指待分割说话人与一个以上其他说话人之间的对话语音。
优选的,所述的步骤a2和步骤b中,提取所述参考语音的参考特征,是采用声纹提取器进行提取所述参考语音的声纹特征;所述声纹特征为embedding特征。
优选的,进一步将所述训练用混合语音的混合STFT特征、所述待识别说话人的参考语音的参考特征,以及所述待分割的混合语音的混合STFT特征、所述待分割说话人的分割STFT特征,将其实数和虚数在通道维度上进行拼接处理。
优选的,所述的步骤a5中,进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征,并通过对比所述干净STFT特征和所述分割STFT特征进行构造损失函数,并根据所述损失函数进行优化模型参数,得到优化后的模型。
进一步的,使用均方误差作为损失函数,即,计算所述干净STFT特征和所述分割STFT特征之间的均方误差。
进一步的,根据所述损失函数进行优化模型参数,是通过随机梯度下降算法进行优化模型参数,使得均方误差的值下降到预设阈值。
优选的,所述的步骤a3进一步包括:
a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络,以提取深层次特征;
a32.将所述深层次特征输入LSTM网络,以提取时序信息特征;
a33.将所述时序信息特征和所述参考特征输入三层全连接网络,生成所述参考语音的掩膜。
与所述方法相对应的,本发明还提供一种端到端说话人分割***,其包括:
模型训练模块,其进一步包括:
STFT特征提取单元,用于提取训练用混合语音的混合STFT特征;
参考特征提取单元,其通过获取所述混合语音中的待识别说话人的参考语音,并提取所述参考语音的参考特征;
掩膜生成单元,其根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
特征分割单元,其通过将所述掩膜与所述混合STFT特征相乘,得到待识别说话人的分割STFT特征;
语音转换单元,其将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音,完成模型的训练;
说话人分割模块:
用于将待分割的混合语音和待分割说话人的参考语音输入所述模型中,输出待分割说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,对所述待分割说话人的参考语音提取参考特征,并将所述待分割的混合语音的混合STFT特征和所述待分割说话人的参考特征输入所述模型中,输出所述待分割说话人的分割STFT特征,并进一步通过ISTFT变换得到所述待分割说话人对应的分割语音。
本发明的有益效果是:
(1)本发明的说话人分割方法,无需先将混合语音分割成多段短语音,再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音;而是直接将待分割的混合语音和待分割说话人的参考语音输入训练好的模型即可输出待分割说话人的分割语音,这种端到端的方法可以避免中间过程的误差积累,分割精度更高;
(2)本发明通过采集大量的单人的干净语音,并将任意两个人的干净语音进行混合处理和重新分割的训练,得到训练好的模型,使得模型的性能更好,特别适用于两个以上说话人的对话录音的分割处理;
(3)本发明通过将单人的干净语音的干净STFT特征与分割训练的分割STFT特征进行比较和构造损失函数,从而对模型参数进行优化,使得模型更加准确;
(4)本发明通过CNN网络、LSTM网络、三层全连接网络进行特征的提取和分割,使得训练得到的模型具有更高的性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种端到端说话人分割方法的流程简图;
图2为本发明一种端到端说话人分割***的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种端到端说话人分割方法,其包括以下步骤:
a.模型训练步骤:
a1.提取训练用混合语音的混合STFT特征;
a2.获取所述混合语音中的待识别说话人的参考语音,并提取所述参考语音的参考特征;
a3.根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
a4.将所述掩膜与所述混合STFT特征相乘,得到待识别说话人的分割STFT特征;
a5.将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音,完成模型的训练;
b.说话人分割步骤:
将待分割的混合语音和待分割说话人的参考语音输入所述模型中,输出待分割说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,对所述待分割说话人的参考语音提取参考特征,并将所述待分割的混合语音的混合STFT特征和所述待分割说话人的参考特征输入所述模型中,输出所述待分割说话人的分割STFT特征,并进一步通过ISTFT变换得到所述待分割说话人对应的分割语音。
所述的步骤a1中,所述训练用混合语音包括待识别说话人的干净语音和一个以上其他说话人的干净语音,并将所述干净语音进行合成得到训练用混合语音;其中,所述干净语音为短语音,将所述短语音合成为长语音,得到所述训练用混合语音;所述的步骤b中,所述待分割的混合语音,是指待分割说话人与一个以上其他说话人之间的对话语音。训练时,采集大量的单人的干净语音,并对任意两个人的干净语音进行混合处理和重新分割的训练;例如,首先采集几千人的干净语音,然后任意取两个人的干净语音进行混合,并将两个人中的任一人作为待识别说话人提取其对应的参考语音,通过构建语音训练集、语音开发集、语音测试集,对模型进行训练和优化。
所述的步骤a2和步骤b中,提取所述参考语音的参考特征,是采用声纹提取器进行提取所述参考语音的声纹特征;本实施例中,所述声纹特征为embedding特征。
短时傅里叶变换(STFT,short-time Fourier transform,或short-term Fouriertransform)),又称加窗傅里叶变换,是一种时频分析方法,它通过时间窗内的一段信号来表示某一时刻的信号特征。在短时傅里叶变换过程中,窗的长度决定频谱图的时间分辨率和频率分辨率,窗长越长,截取的信号越长,信号越长,傅里叶变换后频率分辨率越高,时间分辨率越差;相反,窗长越短,截取的信号就越短,频率分辨率越差,时间分辨率越好。时间窗口使得信号只在某一小区间内有效,这就避免了传统的傅里叶变换在时频局部表达能力上的不足,使得傅里叶变换有了局部定位的能力。
并且,由于STFT特征是一个复数,即a+bj,其中,a为实数部分,b为虚数部分;本实施例中,为了避免复数的运算,还进一步将所述训练用混合语音的混合STFT特征、所述待识别说话人的参考语音的参考特征,以及所述待分割的混合语音的混合STFT特征、所述待分割说话人的分割STFT特征,将其实数和虚数在通道维度上进行拼接处理,从而使得运算更简单高效。
所述的步骤a3中.根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜,是指先将所述混合STFT特征与所述参考特征融合后得到融合特征,再将融合特征经三层全连接网络生成掩膜;其中,所述特征融合是指将所述参考语音的参考特征(声纹特征)叠加在所述混合语音中提取的混合STFT特征上,将每个时间点上的混合STFT特征与所述参考特征进行匹配,根据匹配结果生成掩膜。所述掩膜采用复数掩膜,用于对所述混合语音中不属于待识别说话人的语音进行屏蔽,从而得到属于待识别说话人的分割语音。
具体的,所述的步骤a3进一步包括:
a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络,以提取深层次特征;其中,所述卷积神经网络(Convolutional Neural Network,CNN)是由卷积层、池化层、全连接层构成的具有局部感知和权值共享能力的深层神经网络;卷积层试图将神经网络中的每一小块进行更加深入的分析从而得到抽象程度更高的特征,经过卷积层之后的节点矩阵深度增加;池化层神经网络不会改变三维矩阵的深度,但是可以缩小矩阵的大小;除了采用所述CNN神经网络,还可以采用RNN、DNN等神经网络。
a32.将所述深层次特征输入LSTM网络,以提取时序信息特征;其中,所述LSTM(Long Short-Term Memory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件;
a33.将所述时序信息特征和所述参考特征输入三层全连接网络,生成所述参考语音的掩膜(masks);其中,所述三层全连接网络(fully connected layers,FC)包括输入层、隐含层、输出层;所述掩膜为所述三层全连接网络中提取的特征,并用于在提取所述分割STFT特征时进行屏蔽其他说话人语音对应的STFT特征。
其中,所述的步骤a32是可以省略的,即,可直接将所述步骤a31中提取的深层次特征和所述参考特征进行融合后输入三层全连接网络。
所述的步骤a5中,进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征,并通过对比所述干净STFT特征和所述分割STFT特征进行构造损失函数loss,并根据所述损失函数进行优化模型参数,得到优化后的模型。优选的,使用均方误差作为损失函数,即,计算所述干净STFT特征和所述分割STFT特征之间的均方误差(mean square error,MSE)。本实施例中,根据所述损失函数loss进行优化模型参数,是通过随机梯度下降算法(SGD)进行优化模型参数,使得所述均方误差(损失函数)越来越小,从而使得均方误差的值下降到预设阈值,即损失函数达到最小化,则完成模型训练。
如图2所示,本发明还提供一种端到端说话人分割***,其包括:
模型训练模块,其进一步包括:
STFT特征提取单元,用于提取训练用混合语音的混合STFT特征;
参考特征提取单元,其通过获取所述混合语音中的待识别说话人的参考语音,并提取所述参考语音的参考特征;
掩膜生成单元,其根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
特征分割单元,其通过将所述掩膜与所述混合STFT特征相乘,得到待识别说话人的分割STFT特征;
语音转换单元,其将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音,完成模型的训练;
说话人分割模块:
用于将待分割的混合语音和待分割说话人的参考语音输入所述模型中,输出待分割说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,对所述待分割说话人的参考语音提取参考特征,并将所述待分割的混合语音的混合STFT特征和所述待分割说话人的参考特征输入所述模型中,输出所述待分割说话人的分割STFT特征,并进一步通过ISTFT变换得到所述待分割说话人对应的分割语音。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于***实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (9)
1.一种端到端说话人分割方法,其特征在于,包括以下步骤:
a.模型训练步骤:
a1.提取训练用混合语音的混合STFT特征;
a2.获取所述混合语音中的待识别说话人的参考语音,并提取所述参考语音的参考特征;
a3.根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
a4.将所述掩膜与所述混合STFT特征相乘,得到待识别说话人的分割STFT特征;
a5.将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音,完成模型的训练;
b.说话人分割步骤:
将待分割的混合语音和待分割说话人的参考语音输入所述模型中,输出待分割说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,对所述待分割说话人的参考语音提取参考特征,并将所述待分割的混合语音的混合STFT特征和所述待分割说话人的参考特征输入所述模型中,输出所述待分割说话人的分割STFT特征,并进一步通过ISTFT变换得到所述待分割说话人对应的分割语音。
2.根据权利要求1所述的一种端到端说话人分割方法,其特征在于:所述的步骤a1中,所述训练用混合语音包括待识别说话人的干净语音和一个以上其他说话人的干净语音,并将所述干净语音进行合成得到训练用混合语音;所述的步骤b中,所述待分割的混合语音,是指待分割说话人与一个以上其他说话人之间的对话语音。
3.根据权利要求1所述的一种端到端说话人分割方法,其特征在于:所述的步骤a2和步骤b中,提取所述参考语音的参考特征,是采用声纹提取器进行提取所述参考语音的声纹特征;所述声纹特征为embedding特征。
4.根据权利要求1所述的一种端到端说话人分割方法,其特征在于:进一步将所述训练用混合语音的混合STFT特征、所述待识别说话人的参考语音的参考特征,以及所述待分割的混合语音的混合STFT特征、所述待分割说话人的分割STFT特征,将其实数和虚数在通道维度上进行拼接处理。
5.根据权利要求2所述的一种端到端说话人分割方法,其特征在于:所述的步骤a5中,进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征,并通过对比所述干净STFT特征和所述分割STFT特征进行构造损失函数,并根据所述损失函数进行优化模型参数,得到优化后的模型。
6.根据权利要求5所述的一种端到端说话人分割方法,其特征在于:使用均方误差作为损失函数,即,计算所述干净STFT特征和所述分割STFT特征之间的均方误差。
7.根据权利要求6所述的一种端到端说话人分割方法,其特征在于:根据所述损失函数进行优化模型参数,是通过随机梯度下降算法进行优化模型参数,使得均方误差的值下降到预设阈值。
8.根据权利要求1至7任一项所述的一种端到端说话人分割方法,其特征在于:所述的步骤a3进一步包括:
a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络,以提取深层次特征;
a32.将所述深层次特征输入LSTM网络,以提取时序信息特征;
a33.将所述时序信息特征和所述参考特征输入三层全连接网络,生成所述参考语音的掩膜。
9.一种端到端说话人分割***,其特征在于,包括:
a.模型训练模块,其进一步包括:
STFT特征提取单元,用于提取训练用混合语音的混合STFT特征;
参考特征提取单元,其通过获取所述混合语音中的待识别说话人的参考语音,并提取所述参考语音的参考特征;
掩膜生成单元,其根据所述混合STFT特征和所述参考特征,经三层全连接网络,生成所述参考语音的掩膜;
特征分割单元,其通过将所述掩膜与所述混合STFT特征相乘,得到待识别说话人的分割STFT特征;
语音转换单元,其将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音,完成模型的训练;
b.说话人分割模块:
用于将待分割的混合语音和待分割说话人的参考语音输入所述模型中,输出待分割说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,对所述待分割说话人的参考语音提取参考特征,并将所述待分割的混合语音的混合STFT特征和所述待分割说话人的参考特征输入所述模型中,输出所述待分割说话人的分割STFT特征,并进一步通过ISTFT变换得到所述待分割说话人对应的分割语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536622.0A CN109545228A (zh) | 2018-12-14 | 2018-12-14 | 一种端到端说话人分割方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536622.0A CN109545228A (zh) | 2018-12-14 | 2018-12-14 | 一种端到端说话人分割方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109545228A true CN109545228A (zh) | 2019-03-29 |
Family
ID=65856330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811536622.0A Pending CN109545228A (zh) | 2018-12-14 | 2018-12-14 | 一种端到端说话人分割方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109545228A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110289002A (zh) * | 2019-06-28 | 2019-09-27 | 四川长虹电器股份有限公司 | 一种端到端的说话人聚类方法及*** |
CN110335621A (zh) * | 2019-05-28 | 2019-10-15 | 深圳追一科技有限公司 | 音频处理的方法、***及相关设备 |
CN110718228A (zh) * | 2019-10-22 | 2020-01-21 | 中信银行股份有限公司 | 语音分离方法、装置、电子设备及计算机可读存储介质 |
CN110910891A (zh) * | 2019-11-15 | 2020-03-24 | 复旦大学 | 基于长短时记忆神经网络的说话人分段标注方法及装置 |
CN111354364A (zh) * | 2020-04-23 | 2020-06-30 | 上海依图网络科技有限公司 | 一种基于rnn聚合方式的声纹识别方法与*** |
CN111899755A (zh) * | 2020-08-11 | 2020-11-06 | 华院数据技术(上海)有限公司 | 一种说话人语音分离方法及相关设备 |
WO2021012734A1 (zh) * | 2019-07-25 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN112331181A (zh) * | 2019-07-30 | 2021-02-05 | 中国科学院声学研究所 | 一种基于多说话人条件下目标说话人语音提取方法 |
CN112652293A (zh) * | 2020-12-24 | 2021-04-13 | 上海优扬新媒信息技术有限公司 | 语音合成模型训练及语音合成方法、装置及语音合成器 |
CN113447570A (zh) * | 2021-06-29 | 2021-09-28 | 同济大学 | 一种基于车载声学传感的无砟轨道病害检测方法及*** |
CN112331181B (zh) * | 2019-07-30 | 2024-07-05 | 中国科学院声学研究所 | 一种基于多说话人条件下目标说话人语音提取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2501989A1 (en) * | 2004-03-23 | 2005-09-23 | Harman Becker Automotive Systems-Wavemakers, Inc. | Isolating speech signals utilizing neural networks |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
US20180197557A1 (en) * | 2017-01-12 | 2018-07-12 | Qualcomm Incorporated | Characteristic-based speech codebook selection |
US20180254040A1 (en) * | 2017-03-03 | 2018-09-06 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
US20180261225A1 (en) * | 2017-03-13 | 2018-09-13 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Multichannel End-to-End Speech Recognition |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
-
2018
- 2018-12-14 CN CN201811536622.0A patent/CN109545228A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2501989A1 (en) * | 2004-03-23 | 2005-09-23 | Harman Becker Automotive Systems-Wavemakers, Inc. | Isolating speech signals utilizing neural networks |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
US20180197557A1 (en) * | 2017-01-12 | 2018-07-12 | Qualcomm Incorporated | Characteristic-based speech codebook selection |
US20180254040A1 (en) * | 2017-03-03 | 2018-09-06 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
US20180261225A1 (en) * | 2017-03-13 | 2018-09-13 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Multichannel End-to-End Speech Recognition |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
Non-Patent Citations (4)
Title |
---|
QUAN WANG: "VoiceFilter Targeted Voice Separation by Speaker Conditioned Spectrogram Masking", 《简书》, 24 October 2018 (2018-10-24) * |
俞一彪,: "《数字信号处理理论与应用 第3版》", 东南大学出版社, pages: 50 * |
张晴晴等: "卷积神经网络在语音识别中的应用", 《网络新媒体技术》 * |
张晴晴等: "卷积神经网络在语音识别中的应用", 《网络新媒体技术》, no. 06, 15 November 2014 (2014-11-15) * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335621A (zh) * | 2019-05-28 | 2019-10-15 | 深圳追一科技有限公司 | 音频处理的方法、***及相关设备 |
CN110289002A (zh) * | 2019-06-28 | 2019-09-27 | 四川长虹电器股份有限公司 | 一种端到端的说话人聚类方法及*** |
CN110289002B (zh) * | 2019-06-28 | 2021-04-27 | 四川长虹电器股份有限公司 | 一种端到端的说话人聚类方法及*** |
WO2021012734A1 (zh) * | 2019-07-25 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN112331181A (zh) * | 2019-07-30 | 2021-02-05 | 中国科学院声学研究所 | 一种基于多说话人条件下目标说话人语音提取方法 |
CN112331181B (zh) * | 2019-07-30 | 2024-07-05 | 中国科学院声学研究所 | 一种基于多说话人条件下目标说话人语音提取方法 |
CN110718228A (zh) * | 2019-10-22 | 2020-01-21 | 中信银行股份有限公司 | 语音分离方法、装置、电子设备及计算机可读存储介质 |
CN110910891A (zh) * | 2019-11-15 | 2020-03-24 | 复旦大学 | 基于长短时记忆神经网络的说话人分段标注方法及装置 |
CN110910891B (zh) * | 2019-11-15 | 2022-02-22 | 复旦大学 | 基于长短时记忆深度神经网络的说话人分段标注方法 |
CN111354364A (zh) * | 2020-04-23 | 2020-06-30 | 上海依图网络科技有限公司 | 一种基于rnn聚合方式的声纹识别方法与*** |
CN111354364B (zh) * | 2020-04-23 | 2023-05-02 | 上海依图网络科技有限公司 | 一种基于rnn聚合方式的声纹识别方法与*** |
CN111899755A (zh) * | 2020-08-11 | 2020-11-06 | 华院数据技术(上海)有限公司 | 一种说话人语音分离方法及相关设备 |
CN112652293A (zh) * | 2020-12-24 | 2021-04-13 | 上海优扬新媒信息技术有限公司 | 语音合成模型训练及语音合成方法、装置及语音合成器 |
CN113447570A (zh) * | 2021-06-29 | 2021-09-28 | 同济大学 | 一种基于车载声学传感的无砟轨道病害检测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109545228A (zh) | 一种端到端说话人分割方法及*** | |
CN107610707B (zh) | 一种声纹识别方法及装置 | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN104835498B (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN109785852A (zh) | 一种增强说话人语音的方法及*** | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及*** | |
CN106611604B (zh) | 一种基于深度神经网络的自动语音叠音检测方法 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及*** | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN112259104B (zh) | 一种声纹识别模型的训练装置 | |
CN105845140A (zh) | 应用于短语音条件下的说话人确认方法和装置 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN107093422A (zh) | 一种语音识别方法和语音识别*** | |
CN109461447A (zh) | 一种基于深度学习的端到端说话人分割方法及*** | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其*** | |
CN109920447B (zh) | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 | |
Ng et al. | Teacher-student training for text-independent speaker recognition | |
Devi et al. | Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn | |
CN112992155A (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
Koolagudi et al. | Speaker recognition in the case of emotional environment using transformation of speech features | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190329 |