CN111667836B - 基于深度学习的文本无关多标号说话人识别方法 - Google Patents

基于深度学习的文本无关多标号说话人识别方法 Download PDF

Info

Publication number
CN111667836B
CN111667836B CN202010563201.8A CN202010563201A CN111667836B CN 111667836 B CN111667836 B CN 111667836B CN 202010563201 A CN202010563201 A CN 202010563201A CN 111667836 B CN111667836 B CN 111667836B
Authority
CN
China
Prior art keywords
voice
marks
speaker
training
speaker recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010563201.8A
Other languages
English (en)
Other versions
CN111667836A (zh
Inventor
邓克琦
卢晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010563201.8A priority Critical patent/CN111667836B/zh
Publication of CN111667836A publication Critical patent/CN111667836A/zh
Application granted granted Critical
Publication of CN111667836B publication Critical patent/CN111667836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学***均分成N份,每份标记上不同的标号;(2)构建相应的神经网络模型,并保证输出层维度与训练数据集标号数一致;(3)将训练数据输入神经网络,并将输出层结果与数据对应的标号相比较,求出交叉熵损失函数,从而进行训练;(4)将测试集数据按照步骤1中训练数据集对应关系为每个说话人的语音数据预设好N个视为有效识别的标号,将测试数据集数据输入神经网络,将模型预测出的标号与预设好的N个标号相比较,只要满足其中之一即为正确识别。本发明的方法能够有效提升模型在纯净以及含噪环境下的说话人识别性能。

Description

基于深度学习的文本无关多标号说话人识别方法
技术领域
本发明涉及一种基于深度学习的文本无关多标号说话人识别方法。
背景技术
说话人识别又称话者识别、声纹识别,其目标是从说话人的语音特征中确认说话人的身份。说话人识别又分为说话人辨认和说话人确认两个过程,说话人辨认是指通过对说话人对应的语音处理分析后,辨认说话人是否在已记录的说话人集合中;说话人确认是指进一步确认输入语音对应的说话人是否是目标说话人的过程。
i-vector方法可以用来实现说话人识别(N.Dehak,P.J.Kenny,R.Dehak,P.Dumouchel and P.Ouellet,"Front-End Factor Analysis for SpeakerVerification,"in IEEE Transactions on Audio,Speech,and Language Processing,vol.19,no.4,pp.788-798,May 2011.)。文献(D.Snyder,P.Ghahremani,D.Povey,D.Garcia-Romero,and Y.Carmiel,“Deep Neural Network Embeddings for TextIndependent Speaker Verification,”in Interspeech,2017,pp.999-1003.)中指出在使用了大规模的数据,特别是通过数据增强后,深度学习的方法已经可以超过传统的i-vector方法了。然而,在含噪环境下的说话人识别仍然是一个充满挑战性的问题。
降噪自动编码器(DAE)可以用来从含噪语音中产生增强语音,从而提高含噪场景下的说话人识别性能(O.Plchot,L.Burget,H.Aronowitz and P.
Figure GDA0004085271920000011
"Audioenhancing with DNN autoencoder for speaker recognition,"2016IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP),Shanghai,2016,pp.5090-5094.)。然而,由于这种方法使用L2损失函数对数据先进行语音增强后,再进行说话人识别,会导致语音增强与说话人识别两个部分不匹配,从而无法取得很高的含噪语音识别率。文献(Suwon Shon,Hao Tang,and James Glass,“VoiceID Loss:Speech Enhancement for Speaker Verification,”in Interspeech,2019,pp.2888-2892.)使用了端到端的结构进行语音增强以及说话人识别,但是算法总体性能还有提升空间。
使用深度学习进行说话人识别时,需要大规模的数据进行训练,然而,随着数据量的进一步增加,模型区分能力的提升是很缓慢的。说话人与对应的语音数据的标号一一对应,这种方式并不是使用数据的最高效的方式。
发明内容
现有基于深度学习的说话人识别训练策略中,说话人与对应的语音数据的标号一一对应,并不能最大程度地利用数据。本发明提出了一种基于深度学习的文本无关多标号说话人识别方法,能够进一步提升模型的区分能力,并且无论在纯净环境下还是含噪环境下,都可以进一步提升模型的识别能力。
本发明采用的技术方案为:
基于深度学习的文本无关多标号说话人识别方法,包括以下步骤:
步骤1,将训练数据集中每个说话人的语音平均分成N份,并对每份语音标记上不同的标号,使得整个训练数据集的标号数是说话人数量的N倍,N≥2;
步骤2,构建神经网络模型,模型的输出层维度与训练数据集标号总数量一致;
步骤3,将步骤1的训练数据集输入步骤2的神经网络模型,并将输出结果与语音数据对应的标号相比较,求出交叉熵损失函数,从而进行有监督训练;
步骤4,将测试集数据按照步骤1中训练数据集的语音与标号的对应关系,为每个说话人的语音数据预设好N个视为有效识别的标号,然后将测试数据集数据输入所述神经网络模型,将模型预测出的标号与之前设置好的N个视为有效识别的标号相比较,只要预测出的标号为N个视为有效识别的标号中的一个,即为正确识别,从而得出模型的说话人识别率。
进一步地,所述神经网络模型包括语音增强网络和说话人识别网络,语音增强网络用于对含噪语音进行增强,提升神经网络模型的鲁棒性;所述步骤3中,先预训练说话人识别网络,训练至收敛后锁定参数,再端到端的训练包括语音增强网络和说话人识别网络的完整神经网络模型。
进一步地,所述步骤3中,交叉熵损失函数的具体公式为:
Figure GDA0004085271920000021
式中,C为说话人总数;pi指根据语音数据按照标号yi确认的真实身份,即在N×C个分类位置中只有一个位置为1,其他位置均为零;qi指的是在每个分类位置***预测的概率。
本发明改变了以往基于深度学习说话人识别方法中说话人语音与说话人标号一一对应的做法,采用了一种多标号的方式。该方法能够进一步提升模型在纯净环境和噪声环境下的说话人识别性能。
附图说明
图1是本发明实施例中神经网络的示意图;其中,N为训练数据集分割的份数。
图2是本发明实施例中语音增强网络具体结构。
图3是本发明基于深度学习的文本无关多标号说话人识别方法的流程图。
图4是本发明方法的具体算法流程图,其中n1和n2分别代表训练集和测试集总的语音数量;D为训练集,T为测试集,C为说话人数量。
图5是现有基于深度学习的说话人识别方案与本发明方法对于纯净语音以及各类型含噪语音的对比结果。
图6是现有基于深度学习的说话人识别方案与本发明方法对于纯净语音以及各类型含噪语音的对比结果的线状图。
具体实施方式
本发明基于深度学习的文本无关多标号说话人识别方法主要包括以下几个部分:
1、分割训练数据集
1)定义训练数据集
D={(x1,y1),...,(xn1,yn1)}, (1)
式中,D为训练集,x和y分别为语音和对应的原始标号,n1代表训练集总的语音数量;
2)训练集语音数据标号
将训练数据集中每个说话人的语音平均分成N份,对每份语音标记上不同的标号,使得整个训练数据集的标号数是说话人数量的N倍,具体可以表示为;
Figure GDA0004085271920000031
式中,yi为初始状态下训练集中语音数据的标号,
Figure GDA0004085271920000032
为修改后训练集中语音数据的标号,C为说话人总数,m在0到N-1之间取值。
2、构建神经网络
构建相应的神经网络模型,包括语音增强网络和说话人识别网络,并保证输出层维度与训练数据集标号总数一致。语音增强网络可以对含噪语音进行增强,输入说话人识别网络后可以得到对于增强后的含噪语音的识别性能。整个网络可以对比模型对于纯净语音、含噪语音以及增强后的含噪语音的识别性能,从得出模型的识别性能以及鲁棒性。
3、构建含噪语音数据集
将数据集(此时视为纯净语音数据集)分别与不同类型噪声语音数据按一定信噪比混合,得到含噪语音数据集。
4、训练
1)预训练
先使用纯净语音对说话人识别网络进行训练,将训练数据输入神经网络,并将输出层结果与数据对应的标号相比较,求出交叉熵损失函数,从而进行有监督训练,训练至收敛后锁定说话人识别网络的参数;其中,由于构建的神经网络所区分的类别数是数据集中说话人数量的N倍,因此计算交叉熵损失函数时所涉及的分类位置数也相应的变为初始状态的N倍,具体如下式:
Figure GDA0004085271920000041
式中,N为对训练数据集分割的份数,C为说话人总数,pi指根据按照前面所设置的
Figure GDA0004085271920000043
来确认的真实身份,即在N×C个分类位置中只有一个位置为1,其他位置均为零。而qi指的是在每个分类位置***预测的概率。
2)训练
引入语音增强网络,用含噪语音数据端到端地训练包括语音增强网络和参数锁定的说话人识别网络在内的神经网络模型。其中,语音增强网络使用SIGMOID函数计算出比值掩膜,与输入语音数据相乘后达到增强的效果,SIGMOID函数可以表示为:
Figure GDA0004085271920000042
其中,z为语音增强网络所输出的张量中任意一点处的值。
5、测试
1)定义测试数据集
T={(x1,y1),...,(xn2,yn2)},  (5)
式中,T为测试集,x和y分别为语音和对应的原始标号,n2代表训练集总的语音数量。
2)预设有效识别标号
按公式(2)将每个说话人预设好N个可视为有效识别的标号。
3)纯净语音识别
将纯净测试语音输入说话人识别网络,不需要经过语音增强网络,将网络的测试结果与预设好的有效识别标号比较,符合其中之一即为正确识别,反之则为错误识别,从而得出纯净语音识别率。
4)含噪语音识别
将含噪测试语音直接输入说话人识别网络,不经过语音增强网络,将网络的测试结果与预设好的有效识别标号比较,符合其中之一即为正确识别,反之则为错误识别,从而得出含噪语音识别率。
5)增强语音识别
将含噪语音输入语音增强网络,再将增强后的语音输入说话人识别网络,将得到的结果与预设好的有效识别标号比较,符合其中之一即为正确识别,反之则为错误识别,从而得出增强后的含噪语音识别率。
比较以上3)、4)、5)三种情况下的***识别性能,判断结果是否符合预期:纯净语音识别率最高,含噪语音数据识别率最低,增强后的含噪语音数据识别率介于两者之间。
因此,本发明在现有基于深度学习文本无关说话人识别方法基础上,改变了变了以往说话人语音与说话人标号一一对应的做法,采用了一种多标号的方式。
实施例
下面结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
1、测试样本及客观评价标准
本实施例的样本的纯净语音来源于Voxceleb1数据集,Voxceleb1数据从YouTube视频中提取出来,它包含1251个说话人和大约150000段语音,每一段的语音平均长度为7.8秒。为了测试模型的鲁棒性,本实施例使用了Noise-92噪声数据集。从Noise-92噪声数据集选取White、Babble、Leopard(军车噪声)、Volvo(车内噪音)、Factory、Tank、Gun(机枪声)七种不同类型的噪声,并与纯净语音以信噪比为10dB的比例混合,得到含噪语音,用于训练和测试***在含噪环境下的性能。并且将噪声数据与纯净语音混合时,先将噪声数据分割成两份,一份用于和训练集数据混合,另一份与测试集数据混合,以避免同一噪声数据集同时被训练集和测试集使用。
本发明采用Accuracy(Top-1 Accuracy)评分作为客观评价标准。计算多标号说话人识别方法的Accuracy时,只要输出结果满足预设的有效识别标号中的一个,就属于有效识别,满足Top-1 Accuracy的要求。
2、参数设置
1)说话人识别网络
参见图1,本实施例使用的说话人识别网络由四层一维卷积和一层全连接层(维度为1500)构成。4层一维卷积层的卷积核大小分别为:5、7、1、1;步长分别为:1、2、1、1;在最后的卷积层和和全连接层之间还要经过一层全局平均池化层。这里直接使用窗长为25ms帧移为10ms的窗函数取出257维的频谱当作输入。本实施例并没有对输入数据进行归一化,只是将幅度谱取0.3的指数倍。训练时使用298帧固定长度(每帧长为257)作为一段语音的输入。
2)语音增强网络
增强部分模型由11层膨胀卷积层构成,具体结构参见图2。对于最后一层卷积输出我们使用SIGMOID函数产生相同大小的比率掩码,将比率掩码与原始输入相乘,达到语音增强的目的。本实施例使用RELU作为非线性激活。最终输出层经过SOFTMAX后得出的预测结果。
3)数据集构成
此需要先将原数据集分割成训练集和测试集,并且训练集和测试集都需要含有相同数量的全部说话人,并且各组实施例的训练集和测试集大小的比例需要保持一致。在本实施例中,以1:3的比例构建测试集和训练集。在算法开始前,需先将训练数据集根据对应的说话人ID排个序,即属于同一个说话人的语音排在一起。
3)N值设定
由于在一个大小有限的数据集上,N过大会导致训练子集的数据过于稀疏,最终降低***总的识别性能。因此在本实施例中,仅仅测试N为2和3的情况。
3、方法的具体实现流程
1)参见图3和4,按照公式(1)、(5)和上述的参数设置对算法初始化,建立训练数据和测试数据缓存,用于缓存在说话人识别中使用的数据,建立说话人标号缓存,用于缓存在训练和测试中使用的标号,对于模型训练的任意时刻,按照下列方式计算:获取新的一条语音数据,对其加窗进行短时傅里叶变换,获得一组包含298帧,每帧257个频点的数据,并对幅度谱取0.3的指数倍,更新数据缓存。
2)参照图4步骤4中新设定的标号,获得此语音数据的对应标号,更新标号缓存。
3)将数据输入神经网络,并将输出结果与标号缓存中的标号比较,计算交叉熵损失函数,反向传播优化模型参数。
对于模型测试的任意时刻,按照下列方式计算:
1)获取新的一条语音数据,对其加窗进行短时傅里叶变换,获得一组包含298帧,每帧257个频点的数据,并对幅度谱取0.3的指数倍,更新数据缓存。
2)获得语音数据新设定的对应标号,更新标号缓存。
3)将数据输入神经网络,参照图4步骤11至13,将输出结果与标号缓存中的标号比较,判断是否满足其中之一:
31)若判定结果为是,则为正确识别;
32)若判定结果为否,则为错误识别;
4)参照图4步骤13至17,求出模型在测试集上的说话人识别率。
为了体现本发明方法在纯净环境和含噪环境下的说话人识别的性能,本实施例对现有基于深度学习的说话人识别和本发明方法进行对比。图5给出了现有基于深度学习的说话人识别和本发明方法在纯净环境下,以及各种类型含噪环境增强前后的Accuracy评分结果,图6给出了结果的线状图。
图5中,D表示使用纯净语音训练,DN使用含噪语音训练。“Baseline”表示现有的方案,“Proposed(N=3)”和“Proposed(N=2)”分别代表采用了本发明的方法,且N分别取值3和2。从结果可以看出,无论是对于纯净语音还是增强后的各类含噪语音,本发明的结果都要好于现有方案。且增强后的含噪语音识别率明显高于增强前,且本发明的提升效果更加明显。
图6中,“baseline(original)”、“proposed(N=3)(original)”和“proposed(N=2)(original)”分别代表未进行语音增强情况下的纯净语音以及含噪语音的说话人识别率,“baseline(enhanced)”、“proposed(N=3)(enhanced)”和“proposed(N=2)(enhanced)”则分别代表进行语音增强后的含噪语音的说话人识别率。从结果可以看出在本实施例所用的数据集上,对于未进行增强的含噪语音,本发明方法在N取值为2和3时,效果差别不大;对于增强后的含噪语音以及纯净语音,本发明方法在N取值为2时效果更好,且都很明显地优于现有方案。
从图5图6结果可以看出来,本发明基于深度学习的说话人识别方法在纯净环境和含噪环境下都可以进一步提升模型的识别性能。

Claims (3)

1.基于深度学习的文本无关多标号说话人识别方法,其特征在于,包括以下步骤:
步骤1,将训练数据集中每个说话人的语音平均分成N份,并对每份语音标记上不同的标号,使得整个训练数据集的标号数是说话人数量的N倍,N≥2;
步骤2,构建神经网络模型,模型的输出层维度与训练数据集标号总数量一致;
步骤3,将步骤1的训练数据集输入步骤2的神经网络模型,并将输出结果与语音数据对应的标号相比较,求出交叉熵损失函数,从而进行有监督训练;
步骤4,将测试集数据按照步骤1中训练数据集的语音与标号的对应关系,为每个说话人的语音数据预设好N个视为有效识别的标号,然后将测试数据集数据输入所述神经网络模型,将模型预测出的标号与之前设置好的N个视为有效识别的标号相比较,只要预测出的标号为N个视为有效识别的标号中的一个,即为正确识别,从而得出模型的说话人识别率。
2.根据权利要求1所述的基于深度学习的文本无关多标号说话人识别方法,其特征在于,所述神经网络模型包括语音增强网络和说话人识别网络,语音增强网络用于对含噪语音进行增强,提升神经网络模型的鲁棒性;所述步骤3中,先预训练说话人识别网络,训练至收敛后锁定参数,再端到端的训练包括语音增强网络和说话人识别网络的完整神经网络模型。
3.根据权利要求1所述的基于深度学习的文本无关多标号说话人识别方法,其特征在于,所述步骤3中,交叉熵损失函数的具体公式为:
Figure FDA0002546871850000011
式中,C为说话人总数;pi指根据语音数据按照标号yi确认的真实身份,即在N×C个分类位置中只有一个位置为1,其他位置均为零;qi指的是在每个分类位置***预测的概率。
CN202010563201.8A 2020-06-19 2020-06-19 基于深度学习的文本无关多标号说话人识别方法 Active CN111667836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010563201.8A CN111667836B (zh) 2020-06-19 2020-06-19 基于深度学习的文本无关多标号说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010563201.8A CN111667836B (zh) 2020-06-19 2020-06-19 基于深度学习的文本无关多标号说话人识别方法

Publications (2)

Publication Number Publication Date
CN111667836A CN111667836A (zh) 2020-09-15
CN111667836B true CN111667836B (zh) 2023-05-05

Family

ID=72388943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010563201.8A Active CN111667836B (zh) 2020-06-19 2020-06-19 基于深度学习的文本无关多标号说话人识别方法

Country Status (1)

Country Link
CN (1) CN111667836B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066507B (zh) * 2021-03-15 2024-04-19 上海明略人工智能(集团)有限公司 端到端说话人分离方法、***及设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049629B (zh) * 2011-10-17 2016-08-10 阿里巴巴集团控股有限公司 一种检测噪音数据的方法及装置
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法
CN107464568B (zh) * 2017-09-25 2020-06-30 四川长虹电器股份有限公司 基于三维卷积神经网络文本无关的说话人识别方法及***
US10720151B2 (en) * 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
CN109599117A (zh) * 2018-11-14 2019-04-09 厦门快商通信息技术有限公司 一种音频数据识别方法及人声语音防重放识别***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林舒都 ; 邵曦 ; .基于i-vector和深度学习的说话人识别.计算机技术与发展.(第06期), *

Also Published As

Publication number Publication date
CN111667836A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN103824557B (zh) 一种具有自定义功能的音频检测分类方法
US9595257B2 (en) Downsampling schemes in a hierarchical neural network structure for phoneme recognition
KR101807948B1 (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
US8301578B2 (en) System and method for tagging signals of interest in time variant data
US11100932B2 (en) Robust start-end point detection algorithm using neural network
Kim et al. Environmental noise embeddings for robust speech recognition
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
Hartmann et al. A direct masking approach to robust ASR
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
KR102406512B1 (ko) 음성인식 방법 및 그 장치
Mallidi et al. Autoencoder based multi-stream combination for noise robust speech recognition.
Mun et al. The sound of my voice: Speaker representation loss for target voice separation
Zou et al. Improved voice activity detection based on support vector machine with high separable speech feature vectors
CN111667836B (zh) 基于深度学习的文本无关多标号说话人识别方法
Kinoshita et al. Deep mixture density network for statistical model-based feature enhancement
KR20220047080A (ko) 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
WO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、および記録媒体
CN102237082B (zh) 语音识别***的自适应方法
Reshma et al. A survey on speech emotion recognition
Wang et al. Robust speech recognition from ratio masks
Nicolson et al. Sum-product networks for robust automatic speaker identification
US7912715B2 (en) Determining distortion measures in a pattern recognition process
Techini et al. Robust front-end based on MVA and HEQ post-processing for Arabic speech recognition using hidden Markov model toolkit (HTK)
Gu et al. Gaussian speaker embedding learning for text-independent speaker verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant