CN109256139A - 一种基于Triplet-Loss的说话人识别方法 - Google Patents
一种基于Triplet-Loss的说话人识别方法 Download PDFInfo
- Publication number
- CN109256139A CN109256139A CN201810835179.0A CN201810835179A CN109256139A CN 109256139 A CN109256139 A CN 109256139A CN 201810835179 A CN201810835179 A CN 201810835179A CN 109256139 A CN109256139 A CN 109256139A
- Authority
- CN
- China
- Prior art keywords
- neural network
- loss
- voice signal
- triplet
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000001537 neural effect Effects 0.000 claims abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于Triplet‑Loss的说话人识别方法,包括以下步骤:S1:获取语音信号,包括三组样本,分别为说话人的一组语音序列、同一说话人另一组的语音序列以及不同说话人的一组语音序列;S2:进行语音信号的预处理,去除语音采集过程中产生的信道噪声;S3:对去噪后的语音信号进行语音特征参数提取;S4:以LSTM神经网络为基础,构建RNN神经网络;S5:将提取到的90%的三组语音特征参数作为RNN神经网络的输入,用于训练RNN神经网络;S6:RNN神经网络训练好后,将其余的10%的三组语音特征参数作为RNN神经网络的输入进行说话人识别。本发明具有准确率高、识别效果好、可靠性高等优点。
Description
技术领域
本发明涉及神经网络与深度学习的技术领域,尤其涉及到一种基于Triplet-Loss的说话人识别方法。
背景技术
随着信息安全问题日趋严重,造成的影响越来越大。“个人隐私保密”问题迫切需要解决。如何准确而安全的确定一个人的身份引起人们的思考。语音作为人机交互的一个关键接口,在身份认证上发挥着重要作用。声纹识别,即为说话人识别,声纹作为说话人独一无二的生物特征,正是克服传统认证方法的新手段。与其他方法相比,蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;声纹认证适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录。
常见的声纹识别方法比如早期的基于信号处理的声纹识别方法,使用信号处理技术中一些技术方法计算出语音数据在信号学的参数,然后进行模板匹配、统计方差分析等,该方法对语音数据极为敏感,准确率很低,识别效果很不理想。
基于高斯混合模型的识别方法能取得较好的效果且简单灵活,但其对语音数据量要求很大,对信道环境噪声非常敏感,无法满足真实场景下的要求。
现有的基于深度学习神经网络的方法并未考虑语音信号的上下文相关的本质,提取到的特征并不能很好地代表说话人,并没有完全发挥深度学习的优势。
发明内容
本发明的目的在于克服现有技术的不足,提供一种准确率高、识别效果好、可靠性高的基于Triplet-Loss的说话人识别方法。
为实现上述目的,本发明所提供的技术方案为:
一种基于Triplet-Loss的说话人识别方法,包括以下步骤:
S1:获取语音信号,该语音信号包括三组样本,分别为说话人的一组语音序列Xa、同一说话人另一组的语音序列Xp以及不同说话人的一组语音序列Xn;
S2:进行语音信号的预处理,去除语音采集过程中产生的信道噪声;
S3:对去噪后的语音信号进行语音特征参数提取;
S4:以LSTM神经网络为基础,构建RNN神经网络;
S5:将步骤S3所提取到的90%的三组语音特征参数作为RNN神经网络的输入,用于训练RNN神经网络;
S6:RNN神经网络训练好后,将其余的10%的三组语音特征参数作为RNN神经网络的输入进行说话人识别。
进一步地,所述步骤S2采用谱相减法对语音信号进行去噪处理,具体步骤如下:
S2-1:对语音信号进行滤波处理;
S2-2:对滤波后语音信号进行预加重,将语音信号分帧,对信号帧加汉明窗;
S2-3:对加窗后的信号进行快速傅里叶变换,对各帧语音信号求功率谱,然后求平均噪声功率;
S2-4:利用VAD进行噪声估计监测寂静段,进而组合递归平滑,更新噪声谱;
S2-5:进行谱减运算,得出估计出的语音信号功率谱;
S2-6:***相位谱,计算出语音谱,再进行快速傅里叶反变换,得到还原的语音帧;
S2-7:根据各个语音帧组合为语音信号,将语音信号加重得到去噪后的信号。
进一步地,所述步骤S3对去噪后的语音信号进行声学特征参数提取的具体步骤如下:
S3-1:对去噪后的三组语音信号均进行预加重处理,然后将信号分帧,每一帧乘以汉明窗;
S3-2:对每帧信号进行快速傅里叶变换,得到在频谱上的能量分布;
S3-3:将功率谱通过一组梅尔尺度的三角形滤波器组,计算出每个滤波器组输出的对数能量;
S3-4:经过离散余弦变换得到输出的特征参数。
进一步地,所述步骤步骤S4以LSTM神经网络为基础,在LSTM神经网络特征输出层后添加归一化层以及Triplet-Loss损失函数层,构建RNN神经网络。
进一步地,所述Triplet-Loss损失函数层通过学习,让Xa和Xp特征表达之间的距离尽可能小,而Xa和Xn的特征表达之间的距离尽可能大,并且要让Xa与Xn之间的距离和Xa与Xp之间的距离之间有一个最小的间隔α;
对应的目标函数为:
其中,表示Xa和Xp之间的欧式距离度量;
表示的是Xa和Xn之间的欧式距离度量;
此处距离用欧式距离度量,+[]内的值大于零的时候,取该值为损失,小于零的时候,损失为零。
进一步地,所述步骤S6进行说话人识别的具体步骤如下:
S6-1:通过LSTM神经网络得到三组样本的特征表达f(Xa),f(Xp),f(Xn);
S6-2:对得到的特征表达进行归一化处理;
S6-3:通过Triplet-Loss损失函数优化神经网络;
S6-4:比较Triplet-Loss损失函数的度量值和预设阈值,若度量值大于预设阈值,则说话人为同一人,否则说话人为不同人。
与现有技术相比,本方案原理和优点如下:
1.语音信号的预处理采用谱相减法,相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,从而可以有效提高识别的准确性。
2.基于Triplet-Loss(三元组损失函数)来训练模型,通过类间损失与类内损失的联合约束来对模型进行反向传播的优化训练,使得同类样本在特征空间尽可能接近,而异类样本在特征空间尽可能远离,提高模型的辨识力,从而提高识别的可靠性和准确性。
附图说明
图1为本发明一种基于Triplet-Loss的说话人识别方法的流程图;
图2为本发明中谱相减法的流程图。
图3为本发明中语音特征参数提取的流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
参见附图1所示,本实施例所述的一种基于Triplet-Loss的说话人识别方法,包括以下步骤:
S1:获取语音信号,该语音信号包括三组样本,分别为说话人的一组语音序列Xa、同一说话人另一组的语音序列Xp以及不同说话人的一组语音序列Xn;
S2:进行语音信号的预处理;语音采集过程中会产生较多的信道噪声,因此会给识别任务带来较大的困难,因此首先采用谱相减法对输入语音数据进行去噪处理,即从带噪语音估值中减去噪声频谱估值,从而得到纯净语音的频谱。此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;去除信道噪音的同时,完全保存了与说话人有关的所有信息。
如图2所示,采用谱相减法对语音信号进行去噪处理,具体步骤如下:
S2-1:对语音信号进行滤波处理;
S2-2:对滤波后语音信号进行预加重,将语音信号分帧,对信号帧加汉明窗;
具体来说,在信号处理过程中,加窗处理是一个必经的过程,因为计算机只能处理有限长度的信号,因此原始信号X(t)要以T(采样时间)截断,即有限化,成为XT(t)后再进一步处理,这个过程就是加窗处理,实际的信号处理过程中,一般用矩形窗,但矩形窗在边缘处将信号突然截断,窗外时域信息全部消失,导致在频域增加了频率分量的现象,即频谱泄漏,考虑如何减少加窗时造成的泄漏误差,主要的措施是使用合理的加窗函数,汉明窗就是信号窗口的一种,其主要部分的形状像sin(x)在0到pi区间的形状,而其余部分都是0,这样的函数乘上其他任何一个函数f,f都只有一部分有非零值;
S2-3:对加窗后的信号进行快速傅里叶变换,对各帧语音信号求功率谱,然后求平均噪声功率;
S2-4:利用VAD(Voice Activity Detection语音端点检测)进行噪声估计监测寂静段,进而组合递归平滑,更新噪声谱;
S2-5:进行谱减运算,得出估计出的语音信号功率谱;
S2-6:***相位谱,计算出语音谱,再进行快速傅里叶反变换,得到还原的语音帧;
S2-7:根据各个语音帧组合为语音信号,将语音信号加重得到去噪后的信号。
S3:如图3所示,对去噪后的语音信号进行语音特征参数提取,具体步骤如下:
S3-1:对去噪后的三组语音信号均进行预加重处理,然后对三组语音信号信号分别按照帧长25ms,帧移10ms进行分帧,每一帧乘以汉明窗;
S3-2:对每帧信号进行快速傅里叶变换,得到在频谱上的能量分布;
S3-3:将功率谱通过一组梅尔尺度的三角形滤波器组,计算出每个滤波器组输出的对数能量;
S3-4:经过离散余弦变换得到输出的语音特征参数。
S4:获取到语音特征参数后,以LSTM神经网络(长短时记忆神经网络)为基础,在LSTM神经网络特征输出层后添加归一化层以及Triplet-Loss损失函数层,构建RNN神经网络(循环神经网络);
采用到的Triplet-Loss损失函数层通过学习,让Xa和Xp特征表达之间的距离尽可能小,而Xa和Xn的特征表达之间的距离尽可能大,并且要让Xa与Xn之间的距离和Xa与Xp之间的距离之间有一个最小的间隔α;
对应的目标函数为:
其中,表示Xa和Xp之间的欧式距离度量;
表示的是Xa和Xn之间的欧式距离度量;
此处距离用欧式距离度量,+[]内的值大于零的时候,取该值为损失,小于零的时候,损失为零。
S5:将步骤S3所提取到的90%的三组语音特征参数作为RNN神经网络的输入,用于训练RNN神经网络;
S6:RNN神经网络训练好后,将其余的10%的三组语音特征参数作为RNN神经网络的输入进行说话人识别;识别的具体步骤如下:
S6-1:通过LSTM神经网络得到三组样本的特征表达f(Xa),f(Xp),f(Xn);
S6-2:对得到的特征表达进行归一化处理;
S6-3:通过Triplet-Loss损失函数优化神经网络;
S6-4:比较Triplet-Loss损失函数的度量值和预设阈值,若度量值大于预设阈值,则说话人为同一人,否则说话人为不同人。
本实施例中语音信号的预处理采用谱相减法,相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,从而可以有效提高识别的准确性。另外,本实施例基于Triplet-Loss(三元组损失函数)来训练模型,通过类间损失与类内损失的联合约束来对模型进行反向传播的优化训练,使得同类样本在特征空间尽可能接近,而异类样本在特征空间尽可能远离,提高模型的辨识力,从而提高识别的可靠性和准确性。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (6)
1.一种基于Triplet-Loss的说话人识别方法,其特征在于,包括以下步骤:
S1:获取语音信号,该语音信号包括三组样本,分别为说话人的一组语音序列Xa、同一说话人另一组的语音序列Xp以及不同说话人的一组语音序列Xn;
S2:进行语音信号的预处理,去除语音采集过程中产生的信道噪声;
S3:对去噪后的语音信号进行语音特征参数提取;
S4:以LSTM神经网络为基础,构建RNN神经网络;
S5:将步骤S3所提取到的90%的三组语音特征参数作为RNN神经网络的输入,用于训练RNN神经网络;
S6:RNN神经网络训练好后,将其余的10%的三组语音特征参数作为RNN神经网络的输入进行说话人识别。
2.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法,其特征在于,所述步骤S2采用谱相减法对语音信号进行去噪处理,具体步骤如下:
S2-1:对语音信号进行滤波处理;
S2-2:对滤波后语音信号进行预加重,将语音信号分帧,对信号帧加汉明窗;
S2-3:对加窗后的信号进行快速傅里叶变换,对各帧语音信号求功率谱,然后求平均噪声功率;
S2-4:利用VAD进行噪声估计监测寂静段,进而组合递归平滑,更新噪声谱;
S2-5:进行谱减运算,得出估计出的语音信号功率谱;
S2-6:***相位谱,计算出语音谱,再进行快速傅里叶反变换,得到还原的语音帧;
S2-7:根据各个语音帧组合为语音信号,将语音信号加重得到去噪后的信号。
3.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法,其特征在于,所述步骤S3对去噪后的语音信号进行声学特征参数提取的具体步骤如下:
S3-1:对去噪后的三组语音信号均进行预加重处理,然后将信号分帧,每一帧乘以汉明窗;
S3-2:对每帧信号进行快速傅里叶变换,得到在频谱上的能量分布;
S3-3:将功率谱通过一组梅尔尺度的三角形滤波器组,计算出每个滤波器组输出的对数能量;
S3-4:经过离散余弦变换得到输出的特征参数。
4.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法,其特征在于,所述步骤步骤S4以LSTM神经网络为基础,在LSTM神经网络特征输出层后添加归一化层以及Triplet-Loss损失函数层,构建RNN神经网络。
5.根据权利要求4所述的一种基于Triplet-Loss的说话人识别方法,其特征在于,所述Triplet-Loss损失函数层通过学习,让Xa和Xp特征表达之间的距离尽可能小,而Xa和Xn的特征表达之间的距离尽可能大,并且要让Xa与Xn之间的距离和Xa与Xp之间的距离之间有一个最小的间隔α;
对应的目标函数为:
其中,表示Xa和Xp之间的欧式距离度量;
表示的是Xa和Xn之间的欧式距离度量;
此处距离用欧式距离度量,+[]内的值大于零的时候,取该值为损失,小于零的时候,损失为零。
6.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法,其特征在于,所述步骤S6进行说话人识别的具体步骤如下:
S6-1:通过LSTM神经网络得到三组样本的特征表达f(Xa),f(Xp),f(Xn);
S6-2:对得到的特征表达进行归一化处理;
S6-3:通过Triplet-Loss损失函数优化神经网络;
S6-4:比较Triplet-Loss损失函数的度量值和预设阈值,若度量值大于预设阈值,则说话人为同一人,否则说话人为不同人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810835179.0A CN109256139A (zh) | 2018-07-26 | 2018-07-26 | 一种基于Triplet-Loss的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810835179.0A CN109256139A (zh) | 2018-07-26 | 2018-07-26 | 一种基于Triplet-Loss的说话人识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109256139A true CN109256139A (zh) | 2019-01-22 |
Family
ID=65049985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810835179.0A Pending CN109256139A (zh) | 2018-07-26 | 2018-07-26 | 一种基于Triplet-Loss的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109256139A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390937A (zh) * | 2019-06-10 | 2019-10-29 | 南京硅基智能科技有限公司 | 一种基于ArcFace loss算法的跨信道声纹识别方法 |
CN110570870A (zh) * | 2019-09-20 | 2019-12-13 | 平安科技(深圳)有限公司 | 一种文本无关的声纹识别方法、装置及设备 |
CN110570871A (zh) * | 2019-09-20 | 2019-12-13 | 平安科技(深圳)有限公司 | 一种基于TristouNet的声纹识别方法、装置及设备 |
CN110838295A (zh) * | 2019-11-17 | 2020-02-25 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN111312259A (zh) * | 2020-02-17 | 2020-06-19 | 厦门快商通科技股份有限公司 | 声纹识别方法、***、移动终端及存储介质 |
CN111341304A (zh) * | 2020-02-28 | 2020-06-26 | 广州国音智能科技有限公司 | 一种基于gan的说话人语音特征训练方法、装置和设备 |
CN111418009A (zh) * | 2019-10-31 | 2020-07-14 | 支付宝(杭州)信息技术有限公司 | 个性化说话者验证***和方法 |
WO2020156153A1 (zh) * | 2019-01-29 | 2020-08-06 | 腾讯科技(深圳)有限公司 | 音频识别方法、***和机器设备 |
CN112613481A (zh) * | 2021-01-04 | 2021-04-06 | 上海明略人工智能(集团)有限公司 | 一种基于频谱的轴承磨耗预警方法与*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637438A (zh) * | 2012-03-23 | 2012-08-15 | 同济大学 | 一种语音滤波方法 |
US20170228641A1 (en) * | 2016-02-04 | 2017-08-10 | Nec Laboratories America, Inc. | Distance metric learning with n-pair loss |
CN107481736A (zh) * | 2017-08-14 | 2017-12-15 | 广东工业大学 | 一种声纹身份认证装置及其认证优化方法和*** |
CN107731233A (zh) * | 2017-11-03 | 2018-02-23 | 王华锋 | 一种基于rnn的声纹识别方法 |
-
2018
- 2018-07-26 CN CN201810835179.0A patent/CN109256139A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637438A (zh) * | 2012-03-23 | 2012-08-15 | 同济大学 | 一种语音滤波方法 |
US20170228641A1 (en) * | 2016-02-04 | 2017-08-10 | Nec Laboratories America, Inc. | Distance metric learning with n-pair loss |
CN107481736A (zh) * | 2017-08-14 | 2017-12-15 | 广东工业大学 | 一种声纹身份认证装置及其认证优化方法和*** |
CN107731233A (zh) * | 2017-11-03 | 2018-02-23 | 王华锋 | 一种基于rnn的声纹识别方法 |
Non-Patent Citations (2)
Title |
---|
CHUNLEI ZHANG等: "END-TO-END TEXT-INDEPENDENT SPEAKER VERIFICATION WITH FLEXIBILITY IN UTTERANCE DURATION", 《2017 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU)》 * |
HERVÉ BREDIN: "TristouNet: Triplet loss for speaker turn embedding", 《2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020156153A1 (zh) * | 2019-01-29 | 2020-08-06 | 腾讯科技(深圳)有限公司 | 音频识别方法、***和机器设备 |
CN110390937B (zh) * | 2019-06-10 | 2021-12-24 | 南京硅基智能科技有限公司 | 一种基于ArcFace loss算法的跨信道声纹识别方法 |
CN110390937A (zh) * | 2019-06-10 | 2019-10-29 | 南京硅基智能科技有限公司 | 一种基于ArcFace loss算法的跨信道声纹识别方法 |
CN110570870A (zh) * | 2019-09-20 | 2019-12-13 | 平安科技(深圳)有限公司 | 一种文本无关的声纹识别方法、装置及设备 |
CN110570871A (zh) * | 2019-09-20 | 2019-12-13 | 平安科技(深圳)有限公司 | 一种基于TristouNet的声纹识别方法、装置及设备 |
US11031018B2 (en) | 2019-10-31 | 2021-06-08 | Alipay (Hangzhou) Information Technology Co., Ltd. | System and method for personalized speaker verification |
CN111418009B (zh) * | 2019-10-31 | 2023-09-05 | 支付宝(杭州)信息技术有限公司 | 个性化说话者验证***和方法 |
US11244689B2 (en) | 2019-10-31 | 2022-02-08 | Alipay (Hangzhou) Information Technology Co., Ltd. | System and method for determining voice characteristics |
CN111418009A (zh) * | 2019-10-31 | 2020-07-14 | 支付宝(杭州)信息技术有限公司 | 个性化说话者验证***和方法 |
WO2020098828A3 (en) * | 2019-10-31 | 2020-09-03 | Alipay (Hangzhou) Information Technology Co., Ltd. | System and method for personalized speaker verification |
US10997980B2 (en) | 2019-10-31 | 2021-05-04 | Alipay (Hangzhou) Information Technology Co., Ltd. | System and method for determining voice characteristics |
CN110838295B (zh) * | 2019-11-17 | 2021-11-23 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN110838295A (zh) * | 2019-11-17 | 2020-02-25 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN111312259A (zh) * | 2020-02-17 | 2020-06-19 | 厦门快商通科技股份有限公司 | 声纹识别方法、***、移动终端及存储介质 |
CN111341304A (zh) * | 2020-02-28 | 2020-06-26 | 广州国音智能科技有限公司 | 一种基于gan的说话人语音特征训练方法、装置和设备 |
CN112613481A (zh) * | 2021-01-04 | 2021-04-06 | 上海明略人工智能(集团)有限公司 | 一种基于频谱的轴承磨耗预警方法与*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109256139A (zh) | 一种基于Triplet-Loss的说话人识别方法 | |
EP2763134B1 (en) | Method and apparatus for voice recognition | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN102005070A (zh) | 一种语音识别门禁*** | |
CN102968990B (zh) | 说话人识别方法和*** | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及*** | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
CN101930733B (zh) | 一种用于语音情感识别的语音情感特征提取方法 | |
CN111554302A (zh) | 基于声纹识别的策略调整方法、装置、终端及存储介质 | |
CN109473102A (zh) | 一种机器人秘书智能会议记录方法及*** | |
CN111508504B (zh) | 基于听觉中枢感知机理的说话人识别方法 | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
Charisma et al. | Speaker recognition using mel-frequency cepstrum coefficients and sum square error | |
CN112017658A (zh) | 一种基于智能人机交互的操作控制*** | |
CN108172220A (zh) | 一种新型语音除噪方法 | |
Goh et al. | Robust computer voice recognition using improved MFCC algorithm | |
Maazouzi et al. | MFCC and similarity measurements for speaker identification systems | |
CN111105798B (zh) | 基于语音识别的设备控制方法 | |
CN116312561A (zh) | 一种电力调度***人员声纹识别鉴权降噪和语音增强方法、***及装置 | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
CN111862991A (zh) | 一种婴儿哭声的识别方法及*** | |
Nijhawan et al. | A new design approach for speaker recognition using MFCC and VAD | |
Sukor et al. | Speaker identification system using MFCC procedure and noise reduction method | |
CN106971712A (zh) | 一种自适应的快速声纹识别方法及*** | |
Khetri et al. | Automatic speech recognition for marathi isolated words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190122 |