CN109256139A - 一种基于Triplet-Loss的说话人识别方法 - Google Patents

一种基于Triplet-Loss的说话人识别方法 Download PDF

Info

Publication number
CN109256139A
CN109256139A CN201810835179.0A CN201810835179A CN109256139A CN 109256139 A CN109256139 A CN 109256139A CN 201810835179 A CN201810835179 A CN 201810835179A CN 109256139 A CN109256139 A CN 109256139A
Authority
CN
China
Prior art keywords
neural network
loss
voice signal
triplet
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810835179.0A
Other languages
English (en)
Inventor
王艺航
熊晓明
刘祥
李辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201810835179.0A priority Critical patent/CN109256139A/zh
Publication of CN109256139A publication Critical patent/CN109256139A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种基于Triplet‑Loss的说话人识别方法,包括以下步骤:S1:获取语音信号,包括三组样本,分别为说话人的一组语音序列、同一说话人另一组的语音序列以及不同说话人的一组语音序列;S2:进行语音信号的预处理,去除语音采集过程中产生的信道噪声;S3:对去噪后的语音信号进行语音特征参数提取;S4:以LSTM神经网络为基础,构建RNN神经网络;S5:将提取到的90%的三组语音特征参数作为RNN神经网络的输入,用于训练RNN神经网络;S6:RNN神经网络训练好后,将其余的10%的三组语音特征参数作为RNN神经网络的输入进行说话人识别。本发明具有准确率高、识别效果好、可靠性高等优点。

Description

一种基于Triplet-Loss的说话人识别方法
技术领域
本发明涉及神经网络与深度学习的技术领域,尤其涉及到一种基于Triplet-Loss的说话人识别方法。
背景技术
随着信息安全问题日趋严重,造成的影响越来越大。“个人隐私保密”问题迫切需要解决。如何准确而安全的确定一个人的身份引起人们的思考。语音作为人机交互的一个关键接口,在身份认证上发挥着重要作用。声纹识别,即为说话人识别,声纹作为说话人独一无二的生物特征,正是克服传统认证方法的新手段。与其他方法相比,蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;声纹认证适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录。
常见的声纹识别方法比如早期的基于信号处理的声纹识别方法,使用信号处理技术中一些技术方法计算出语音数据在信号学的参数,然后进行模板匹配、统计方差分析等,该方法对语音数据极为敏感,准确率很低,识别效果很不理想。
基于高斯混合模型的识别方法能取得较好的效果且简单灵活,但其对语音数据量要求很大,对信道环境噪声非常敏感,无法满足真实场景下的要求。
现有的基于深度学习神经网络的方法并未考虑语音信号的上下文相关的本质,提取到的特征并不能很好地代表说话人,并没有完全发挥深度学习的优势。
发明内容
本发明的目的在于克服现有技术的不足,提供一种准确率高、识别效果好、可靠性高的基于Triplet-Loss的说话人识别方法。
为实现上述目的,本发明所提供的技术方案为:
一种基于Triplet-Loss的说话人识别方法,包括以下步骤:
S1:获取语音信号,该语音信号包括三组样本,分别为说话人的一组语音序列Xa、同一说话人另一组的语音序列Xp以及不同说话人的一组语音序列Xn;
S2:进行语音信号的预处理,去除语音采集过程中产生的信道噪声;
S3:对去噪后的语音信号进行语音特征参数提取;
S4:以LSTM神经网络为基础,构建RNN神经网络;
S5:将步骤S3所提取到的90%的三组语音特征参数作为RNN神经网络的输入,用于训练RNN神经网络;
S6:RNN神经网络训练好后,将其余的10%的三组语音特征参数作为RNN神经网络的输入进行说话人识别。
进一步地,所述步骤S2采用谱相减法对语音信号进行去噪处理,具体步骤如下:
S2-1:对语音信号进行滤波处理;
S2-2:对滤波后语音信号进行预加重,将语音信号分帧,对信号帧加汉明窗;
S2-3:对加窗后的信号进行快速傅里叶变换,对各帧语音信号求功率谱,然后求平均噪声功率;
S2-4:利用VAD进行噪声估计监测寂静段,进而组合递归平滑,更新噪声谱;
S2-5:进行谱减运算,得出估计出的语音信号功率谱;
S2-6:***相位谱,计算出语音谱,再进行快速傅里叶反变换,得到还原的语音帧;
S2-7:根据各个语音帧组合为语音信号,将语音信号加重得到去噪后的信号。
进一步地,所述步骤S3对去噪后的语音信号进行声学特征参数提取的具体步骤如下:
S3-1:对去噪后的三组语音信号均进行预加重处理,然后将信号分帧,每一帧乘以汉明窗;
S3-2:对每帧信号进行快速傅里叶变换,得到在频谱上的能量分布;
S3-3:将功率谱通过一组梅尔尺度的三角形滤波器组,计算出每个滤波器组输出的对数能量;
S3-4:经过离散余弦变换得到输出的特征参数。
进一步地,所述步骤步骤S4以LSTM神经网络为基础,在LSTM神经网络特征输出层后添加归一化层以及Triplet-Loss损失函数层,构建RNN神经网络。
进一步地,所述Triplet-Loss损失函数层通过学习,让Xa和Xp特征表达之间的距离尽可能小,而Xa和Xn的特征表达之间的距离尽可能大,并且要让Xa与Xn之间的距离和Xa与Xp之间的距离之间有一个最小的间隔α;
对应的目标函数为:
其中,表示Xa和Xp之间的欧式距离度量;
表示的是Xa和Xn之间的欧式距离度量;
此处距离用欧式距离度量,+[]内的值大于零的时候,取该值为损失,小于零的时候,损失为零。
进一步地,所述步骤S6进行说话人识别的具体步骤如下:
S6-1:通过LSTM神经网络得到三组样本的特征表达f(Xa),f(Xp),f(Xn);
S6-2:对得到的特征表达进行归一化处理;
S6-3:通过Triplet-Loss损失函数优化神经网络;
S6-4:比较Triplet-Loss损失函数的度量值和预设阈值,若度量值大于预设阈值,则说话人为同一人,否则说话人为不同人。
与现有技术相比,本方案原理和优点如下:
1.语音信号的预处理采用谱相减法,相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,从而可以有效提高识别的准确性。
2.基于Triplet-Loss(三元组损失函数)来训练模型,通过类间损失与类内损失的联合约束来对模型进行反向传播的优化训练,使得同类样本在特征空间尽可能接近,而异类样本在特征空间尽可能远离,提高模型的辨识力,从而提高识别的可靠性和准确性。
附图说明
图1为本发明一种基于Triplet-Loss的说话人识别方法的流程图;
图2为本发明中谱相减法的流程图。
图3为本发明中语音特征参数提取的流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
参见附图1所示,本实施例所述的一种基于Triplet-Loss的说话人识别方法,包括以下步骤:
S1:获取语音信号,该语音信号包括三组样本,分别为说话人的一组语音序列Xa、同一说话人另一组的语音序列Xp以及不同说话人的一组语音序列Xn;
S2:进行语音信号的预处理;语音采集过程中会产生较多的信道噪声,因此会给识别任务带来较大的困难,因此首先采用谱相减法对输入语音数据进行去噪处理,即从带噪语音估值中减去噪声频谱估值,从而得到纯净语音的频谱。此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;去除信道噪音的同时,完全保存了与说话人有关的所有信息。
如图2所示,采用谱相减法对语音信号进行去噪处理,具体步骤如下:
S2-1:对语音信号进行滤波处理;
S2-2:对滤波后语音信号进行预加重,将语音信号分帧,对信号帧加汉明窗;
具体来说,在信号处理过程中,加窗处理是一个必经的过程,因为计算机只能处理有限长度的信号,因此原始信号X(t)要以T(采样时间)截断,即有限化,成为XT(t)后再进一步处理,这个过程就是加窗处理,实际的信号处理过程中,一般用矩形窗,但矩形窗在边缘处将信号突然截断,窗外时域信息全部消失,导致在频域增加了频率分量的现象,即频谱泄漏,考虑如何减少加窗时造成的泄漏误差,主要的措施是使用合理的加窗函数,汉明窗就是信号窗口的一种,其主要部分的形状像sin(x)在0到pi区间的形状,而其余部分都是0,这样的函数乘上其他任何一个函数f,f都只有一部分有非零值;
S2-3:对加窗后的信号进行快速傅里叶变换,对各帧语音信号求功率谱,然后求平均噪声功率;
S2-4:利用VAD(Voice Activity Detection语音端点检测)进行噪声估计监测寂静段,进而组合递归平滑,更新噪声谱;
S2-5:进行谱减运算,得出估计出的语音信号功率谱;
S2-6:***相位谱,计算出语音谱,再进行快速傅里叶反变换,得到还原的语音帧;
S2-7:根据各个语音帧组合为语音信号,将语音信号加重得到去噪后的信号。
S3:如图3所示,对去噪后的语音信号进行语音特征参数提取,具体步骤如下:
S3-1:对去噪后的三组语音信号均进行预加重处理,然后对三组语音信号信号分别按照帧长25ms,帧移10ms进行分帧,每一帧乘以汉明窗;
S3-2:对每帧信号进行快速傅里叶变换,得到在频谱上的能量分布;
S3-3:将功率谱通过一组梅尔尺度的三角形滤波器组,计算出每个滤波器组输出的对数能量;
S3-4:经过离散余弦变换得到输出的语音特征参数。
S4:获取到语音特征参数后,以LSTM神经网络(长短时记忆神经网络)为基础,在LSTM神经网络特征输出层后添加归一化层以及Triplet-Loss损失函数层,构建RNN神经网络(循环神经网络);
采用到的Triplet-Loss损失函数层通过学习,让Xa和Xp特征表达之间的距离尽可能小,而Xa和Xn的特征表达之间的距离尽可能大,并且要让Xa与Xn之间的距离和Xa与Xp之间的距离之间有一个最小的间隔α;
对应的目标函数为:
其中,表示Xa和Xp之间的欧式距离度量;
表示的是Xa和Xn之间的欧式距离度量;
此处距离用欧式距离度量,+[]内的值大于零的时候,取该值为损失,小于零的时候,损失为零。
S5:将步骤S3所提取到的90%的三组语音特征参数作为RNN神经网络的输入,用于训练RNN神经网络;
S6:RNN神经网络训练好后,将其余的10%的三组语音特征参数作为RNN神经网络的输入进行说话人识别;识别的具体步骤如下:
S6-1:通过LSTM神经网络得到三组样本的特征表达f(Xa),f(Xp),f(Xn);
S6-2:对得到的特征表达进行归一化处理;
S6-3:通过Triplet-Loss损失函数优化神经网络;
S6-4:比较Triplet-Loss损失函数的度量值和预设阈值,若度量值大于预设阈值,则说话人为同一人,否则说话人为不同人。
本实施例中语音信号的预处理采用谱相减法,相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,从而可以有效提高识别的准确性。另外,本实施例基于Triplet-Loss(三元组损失函数)来训练模型,通过类间损失与类内损失的联合约束来对模型进行反向传播的优化训练,使得同类样本在特征空间尽可能接近,而异类样本在特征空间尽可能远离,提高模型的辨识力,从而提高识别的可靠性和准确性。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.一种基于Triplet-Loss的说话人识别方法,其特征在于,包括以下步骤:
S1:获取语音信号,该语音信号包括三组样本,分别为说话人的一组语音序列Xa、同一说话人另一组的语音序列Xp以及不同说话人的一组语音序列Xn;
S2:进行语音信号的预处理,去除语音采集过程中产生的信道噪声;
S3:对去噪后的语音信号进行语音特征参数提取;
S4:以LSTM神经网络为基础,构建RNN神经网络;
S5:将步骤S3所提取到的90%的三组语音特征参数作为RNN神经网络的输入,用于训练RNN神经网络;
S6:RNN神经网络训练好后,将其余的10%的三组语音特征参数作为RNN神经网络的输入进行说话人识别。
2.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法,其特征在于,所述步骤S2采用谱相减法对语音信号进行去噪处理,具体步骤如下:
S2-1:对语音信号进行滤波处理;
S2-2:对滤波后语音信号进行预加重,将语音信号分帧,对信号帧加汉明窗;
S2-3:对加窗后的信号进行快速傅里叶变换,对各帧语音信号求功率谱,然后求平均噪声功率;
S2-4:利用VAD进行噪声估计监测寂静段,进而组合递归平滑,更新噪声谱;
S2-5:进行谱减运算,得出估计出的语音信号功率谱;
S2-6:***相位谱,计算出语音谱,再进行快速傅里叶反变换,得到还原的语音帧;
S2-7:根据各个语音帧组合为语音信号,将语音信号加重得到去噪后的信号。
3.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法,其特征在于,所述步骤S3对去噪后的语音信号进行声学特征参数提取的具体步骤如下:
S3-1:对去噪后的三组语音信号均进行预加重处理,然后将信号分帧,每一帧乘以汉明窗;
S3-2:对每帧信号进行快速傅里叶变换,得到在频谱上的能量分布;
S3-3:将功率谱通过一组梅尔尺度的三角形滤波器组,计算出每个滤波器组输出的对数能量;
S3-4:经过离散余弦变换得到输出的特征参数。
4.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法,其特征在于,所述步骤步骤S4以LSTM神经网络为基础,在LSTM神经网络特征输出层后添加归一化层以及Triplet-Loss损失函数层,构建RNN神经网络。
5.根据权利要求4所述的一种基于Triplet-Loss的说话人识别方法,其特征在于,所述Triplet-Loss损失函数层通过学习,让Xa和Xp特征表达之间的距离尽可能小,而Xa和Xn的特征表达之间的距离尽可能大,并且要让Xa与Xn之间的距离和Xa与Xp之间的距离之间有一个最小的间隔α;
对应的目标函数为:
其中,表示Xa和Xp之间的欧式距离度量;
表示的是Xa和Xn之间的欧式距离度量;
此处距离用欧式距离度量,+[]内的值大于零的时候,取该值为损失,小于零的时候,损失为零。
6.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法,其特征在于,所述步骤S6进行说话人识别的具体步骤如下:
S6-1:通过LSTM神经网络得到三组样本的特征表达f(Xa),f(Xp),f(Xn);
S6-2:对得到的特征表达进行归一化处理;
S6-3:通过Triplet-Loss损失函数优化神经网络;
S6-4:比较Triplet-Loss损失函数的度量值和预设阈值,若度量值大于预设阈值,则说话人为同一人,否则说话人为不同人。
CN201810835179.0A 2018-07-26 2018-07-26 一种基于Triplet-Loss的说话人识别方法 Pending CN109256139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810835179.0A CN109256139A (zh) 2018-07-26 2018-07-26 一种基于Triplet-Loss的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810835179.0A CN109256139A (zh) 2018-07-26 2018-07-26 一种基于Triplet-Loss的说话人识别方法

Publications (1)

Publication Number Publication Date
CN109256139A true CN109256139A (zh) 2019-01-22

Family

ID=65049985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810835179.0A Pending CN109256139A (zh) 2018-07-26 2018-07-26 一种基于Triplet-Loss的说话人识别方法

Country Status (1)

Country Link
CN (1) CN109256139A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390937A (zh) * 2019-06-10 2019-10-29 南京硅基智能科技有限公司 一种基于ArcFace loss算法的跨信道声纹识别方法
CN110570870A (zh) * 2019-09-20 2019-12-13 平安科技(深圳)有限公司 一种文本无关的声纹识别方法、装置及设备
CN110570871A (zh) * 2019-09-20 2019-12-13 平安科技(深圳)有限公司 一种基于TristouNet的声纹识别方法、装置及设备
CN110838295A (zh) * 2019-11-17 2020-02-25 西北工业大学 一种模型生成方法、声纹识别方法及对应装置
CN111312259A (zh) * 2020-02-17 2020-06-19 厦门快商通科技股份有限公司 声纹识别方法、***、移动终端及存储介质
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
CN111418009A (zh) * 2019-10-31 2020-07-14 支付宝(杭州)信息技术有限公司 个性化说话者验证***和方法
WO2020156153A1 (zh) * 2019-01-29 2020-08-06 腾讯科技(深圳)有限公司 音频识别方法、***和机器设备
CN112613481A (zh) * 2021-01-04 2021-04-06 上海明略人工智能(集团)有限公司 一种基于频谱的轴承磨耗预警方法与***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637438A (zh) * 2012-03-23 2012-08-15 同济大学 一种语音滤波方法
US20170228641A1 (en) * 2016-02-04 2017-08-10 Nec Laboratories America, Inc. Distance metric learning with n-pair loss
CN107481736A (zh) * 2017-08-14 2017-12-15 广东工业大学 一种声纹身份认证装置及其认证优化方法和***
CN107731233A (zh) * 2017-11-03 2018-02-23 王华锋 一种基于rnn的声纹识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637438A (zh) * 2012-03-23 2012-08-15 同济大学 一种语音滤波方法
US20170228641A1 (en) * 2016-02-04 2017-08-10 Nec Laboratories America, Inc. Distance metric learning with n-pair loss
CN107481736A (zh) * 2017-08-14 2017-12-15 广东工业大学 一种声纹身份认证装置及其认证优化方法和***
CN107731233A (zh) * 2017-11-03 2018-02-23 王华锋 一种基于rnn的声纹识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUNLEI ZHANG等: "END-TO-END TEXT-INDEPENDENT SPEAKER VERIFICATION WITH FLEXIBILITY IN UTTERANCE DURATION", 《2017 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU)》 *
HERVÉ BREDIN: "TristouNet: Triplet loss for speaker turn embedding", 《2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020156153A1 (zh) * 2019-01-29 2020-08-06 腾讯科技(深圳)有限公司 音频识别方法、***和机器设备
CN110390937B (zh) * 2019-06-10 2021-12-24 南京硅基智能科技有限公司 一种基于ArcFace loss算法的跨信道声纹识别方法
CN110390937A (zh) * 2019-06-10 2019-10-29 南京硅基智能科技有限公司 一种基于ArcFace loss算法的跨信道声纹识别方法
CN110570870A (zh) * 2019-09-20 2019-12-13 平安科技(深圳)有限公司 一种文本无关的声纹识别方法、装置及设备
CN110570871A (zh) * 2019-09-20 2019-12-13 平安科技(深圳)有限公司 一种基于TristouNet的声纹识别方法、装置及设备
US11031018B2 (en) 2019-10-31 2021-06-08 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for personalized speaker verification
CN111418009B (zh) * 2019-10-31 2023-09-05 支付宝(杭州)信息技术有限公司 个性化说话者验证***和方法
US11244689B2 (en) 2019-10-31 2022-02-08 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics
CN111418009A (zh) * 2019-10-31 2020-07-14 支付宝(杭州)信息技术有限公司 个性化说话者验证***和方法
WO2020098828A3 (en) * 2019-10-31 2020-09-03 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for personalized speaker verification
US10997980B2 (en) 2019-10-31 2021-05-04 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics
CN110838295B (zh) * 2019-11-17 2021-11-23 西北工业大学 一种模型生成方法、声纹识别方法及对应装置
CN110838295A (zh) * 2019-11-17 2020-02-25 西北工业大学 一种模型生成方法、声纹识别方法及对应装置
CN111312259A (zh) * 2020-02-17 2020-06-19 厦门快商通科技股份有限公司 声纹识别方法、***、移动终端及存储介质
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
CN112613481A (zh) * 2021-01-04 2021-04-06 上海明略人工智能(集团)有限公司 一种基于频谱的轴承磨耗预警方法与***

Similar Documents

Publication Publication Date Title
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
EP2763134B1 (en) Method and apparatus for voice recognition
CN109215665A (zh) 一种基于3d卷积神经网络的声纹识别方法
CN102005070A (zh) 一种语音识别门禁***
CN102968990B (zh) 说话人识别方法和***
CN113823293B (zh) 一种基于语音增强的说话人识别方法及***
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
CN101930733B (zh) 一种用于语音情感识别的语音情感特征提取方法
CN111554302A (zh) 基于声纹识别的策略调整方法、装置、终端及存储介质
CN109473102A (zh) 一种机器人秘书智能会议记录方法及***
CN111508504B (zh) 基于听觉中枢感知机理的说话人识别方法
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
Charisma et al. Speaker recognition using mel-frequency cepstrum coefficients and sum square error
CN112017658A (zh) 一种基于智能人机交互的操作控制***
CN108172220A (zh) 一种新型语音除噪方法
Goh et al. Robust computer voice recognition using improved MFCC algorithm
Maazouzi et al. MFCC and similarity measurements for speaker identification systems
CN111105798B (zh) 基于语音识别的设备控制方法
CN116312561A (zh) 一种电力调度***人员声纹识别鉴权降噪和语音增强方法、***及装置
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN111862991A (zh) 一种婴儿哭声的识别方法及***
Nijhawan et al. A new design approach for speaker recognition using MFCC and VAD
Sukor et al. Speaker identification system using MFCC procedure and noise reduction method
CN106971712A (zh) 一种自适应的快速声纹识别方法及***
Khetri et al. Automatic speech recognition for marathi isolated words

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190122