CN108648759A - 一种文本无关的声纹识别方法 - Google Patents
一种文本无关的声纹识别方法 Download PDFInfo
- Publication number
- CN108648759A CN108648759A CN201810457528.XA CN201810457528A CN108648759A CN 108648759 A CN108648759 A CN 108648759A CN 201810457528 A CN201810457528 A CN 201810457528A CN 108648759 A CN108648759 A CN 108648759A
- Authority
- CN
- China
- Prior art keywords
- voice
- level
- frame
- groove
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000003780 insertion Methods 0.000 claims abstract description 27
- 230000037431 insertion Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 238000013527 convolutional neural network Methods 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种文本无关的声纹识别方法,包括声纹识别模型训练、提取嵌入、决策评分三个阶段。模型训练阶段步骤:1)语音信号预处理;2)语音帧级操作;3)统计汇聚层汇总帧级输出;4)一维卷积操作;5)全连接层输出说话人分类。模型训练完成后,在全连接层第一层非线性化之前提取嵌入。最后使用余弦距离决策评分,决定接受或拒绝。本发明结合神经网络嵌入技术和卷积神经网络,使用一维卷积,并使用最大值汇聚层进行降维,增加卷积层数,从而进行深层特征提取,这样提升了模型的性能。使用余弦距离作为评分标准使得该过程更快,更简单。
Description
技术领域
本发明涉及声纹识别的技术领域,尤其是指一种结合神经网络嵌入技术和卷积神经网络的文本无关的声纹识别方法。
背景技术
声纹是指人类语音中携带言语信息的声波频谱,它同指纹一样,具备独特的生物学特征,具有身份识别的作用,不仅具有特定性,而且具有相对的稳定性。声音信号是一维连续信号,将它进行离散化后,就可以得到我们现在常见的计算机可以处理的声音信号。
计算机可以处理的离散声音信号。声纹识别(也称说话人识别)技术也如同现在在智能手机上应用十分广泛的指纹识别技术一样,从说话人发出的语音信号中提取语音特征,并据此对说话人进行身份验证的生物识别技术。
声纹识别主流技术方案有基于i-vector的识别***。它在联合因子分析技术的基础上,提出说话人和会话差异可以通过一个单独的子空间进行表征。利用这个子空间,可以把从一个语音素材上获得的数字矢量,进一步转化为低维矢量,就是i-vector。
之后随着硬件设备性能提升,深度神经网络成功应用于声学建模,识别的能力也有了较大进步,也提出了合理的DNN和i-vector相结合的模型,在提取充分统计量的过程中,把原有的i-vector模型中的UBM替换为基于音素状态的DNN模型,从而获得每个帧对应每个类别的后验概率。
当前最新的技术有David Snyder等人提出的从时延神经网络网络中提取嵌入特征的声学识别模型,又称为x-vector。该模型用于计算变长语音的说话人嵌入(embedding)。其结构是一种端到端***。其步骤如下:
首先进行模型训练。对语音信号进行预处理,网络的前5层在帧级别上操作,统计汇聚层接收最后帧级层的输出作为输入,汇总一段语音所有帧输入并计算其均值和标准差。随后在语音段级别操作,连接全连接层并使用激活函数ReLU,最终全连接层Softmax输出N个说话人分类。
模型训练完成后,每段不定长的语音将直接映射到定长的说话人嵌入。随后成对的注册语音和测试语音使用基于PLDA的后端进行决策评分,做出最终决定接受或拒绝。。
当前的网络结构全部使用全连接层。我们知道网络层数越多其表达能力越强,但是通过梯度下降方法训练深度全连接神经网络很困难,因为全连接神经网络的梯度很难传递超过3层。因此,我们不可能得到一个很深的全连接神经网络,也就限制了它的能力。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种文本无关的声纹识别方法,使用卷积神经网络来改进该神经网络嵌入结构,对统计汇聚层输出的数据,尝试使用一维卷积操作,并使用最大值汇聚层进行降维,增加卷积层数,从而进行深层特征提取,这样提升了模型的性能,且使用余弦距离作为评分标准使得该过程更快,更简单。
为实现上述目的,本发明所提供的技术方案为:一种文本无关的声纹识别方法,包括以下步骤:
1)声纹识别模型训练
1.1)语音信号预处理;
1.2)语音帧级操作;
1.3)统计汇聚层汇总帧级输出;
1.4)一维卷积操作;
1.5)全连接层输出说话人分类;
2)提取嵌入:模型训练完成之后,将注册语音与测试语音输入声纹识别模型,提取嵌入;
3)决策评分:注册语音与测试语音的嵌入使用余弦距离计算其得分,做出最终决定接受或拒绝。
在步骤1.1)中,将语料库中每段语音以25ms分帧,并进行语音活动检测,从声音信号流里识别和消除长时间的静音期,生成20维梅尔频谱倒谱系数MFCC,附加一阶及二阶差分系数生成每帧共60维的MFCC特征向量作为输入。
在步骤1.2)中,模型训练网络结构的前5层在帧级别上操作,具有时延架构,假设t是当前的帧,在输入端,将{t-2,t-1,t,t+1,t+2}处的帧的梅尔频谱倒谱系数MFCC拼接在一起,接下来的两层分别拼接前一层在时间{t-2,t,t+2}和{t-3,t,t+3}处的输出,之后的两层也在帧级别进行操作,但没有任何附加的帧,总共该网络的帧级部分具有t-7到t+7共15帧。
在步骤1.3)中,统计汇聚层接收最后帧级层的输出作为输入,汇总一段语音所有帧输入并计算其均值,假设一段语音被分成总共T帧,统计汇聚层汇总来自帧级层第五层的所有T帧输出并计算其平均值,统计量为3200维向量,对于每个输入语音只计算一次,此过程在时间维度上聚合信息,以便后续层在整个语音上运行操作。
在步骤1.4)中,对统计汇聚层的输出,使用一维卷积进行处理,共5层卷积层,前两层卷积层使用256个大小为5的卷积核,步长为2,第三、四、五卷积层使用256个大小为3的核,步长为1,每个卷积层后接一个最大值汇聚层。
在步骤1.5)中,连接两个全连接层,两个全连接层的激活函数分别为ReLU和Softmax,最后一个全连接层的输出为N个说话人分类。
在步骤2)中,在模型训练完成之后,在全连接层第一层非线性化之前提取嵌入,即1024维向量输出。
在步骤3)中,注册语音与测试语音的嵌入使用余弦距离计算其得分,并与阈值进行比较,做出最终决定接受或拒绝,得分大于阈值则拒绝,小于阈值则接受,公式如下:
其中,w1,w2分别为注册语音和测试语音嵌入,score(w1,w2)表示余弦距离,<w1,w2>为注册语音嵌入和测试语音嵌入的点积,||w1||,||w2||分别为注册语音嵌入和测试语音嵌入的长度,θ为预设的阈值。
本发明与现有技术相比,具有如下优点与有益效果:
1、卷积网络中每个神经元不再和上一层的所有神经元相连,而只和一小部分神经元相连。这样就减少了很多参数。
2、一组连接可以共享同一个权重,而不是每个连接有一个不同的权重,这样又减少了很多参数。
3、使用最大值汇聚层来减少每层的样本维度,进一步减少参数数量,同时还可以提升模型的鲁棒性。
4、余弦距离作为说话人验证的决策评分使得该过程更快,更简单。
附图说明
图1为本发明方法的逻辑流程图。
图2为本发明的声纹识别模型训练流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的文本无关的声纹识别方法,分为三个阶段:声纹识别模型训练,提取嵌入,决策评分。
首先进行声纹识别模型的训练,选择合适的语料库,如使用AISHELL-ASR0009-OS1开源中文语音数据库,其中包含训练库与测试库。
如图2所示,声纹识别模型训练步骤如下:
1)语音信号预处理
将语料库中每段语音以25ms分帧,并进行语音活动检测,从声音信号流里识别和消除长时间的静音期,生成20维梅尔频谱倒谱系数MFCC,附加一阶及二阶差分系数,最终生成每帧共60维的MFCC特征向量作为输入。
2)语音帧级操作
该声纹模型网络结构的前5层在帧级别上操作,具有时延架构。假设t是当前的帧。在输入端,我们将{t-2,t-1,t,t+1,t+2}处的帧的MFCC拼接在一起。接下来的两层分别拼接前一层在时间{t-2,t,t+2}和{t-3,t,t+3}处的输出。之后的两层也在帧级别进行操作,但没有任何附加的帧。总共该网络的帧级部分具有t-7到t+7共15帧。
3)统计汇聚层汇总帧级输出
统计汇聚层接收最后帧级层的输出作为输入,汇总一段语音所有帧输入并计算其均值。假设一段语音被分成总共T帧,统计汇聚层汇总来自帧级层第五层的所有T帧输出并计算其平均值。统计量为3200维向量,对于每个输入语音只计算一次。此过程在时间维度上聚合信息,以便后续层在整个语音上运行操作。
4)一维卷积操作
对统计汇聚层的输出,使用一维卷积进行处理。前两层卷积层使用256个大小为5的卷积核,步长为2,第三、四、五卷积层使用256个大小为3的核,步长为1,每个卷积层后接一个最大值汇聚层。
5)全连接层输出说话人分类。
连接两个全连接层,两个全连接层的激活函数分别为ReLU和Softmax,最后一个全连接层的输出为N个说话人分类。
帧级别操作和统计汇聚层的网络结构如表1所示:
表1帧级别操作和统计汇聚层网络结构
层 | 每层所包含帧 | 总上下文帧数 | 输入→输出 |
帧级第一层 | [t-2,t+2] | 5 | 300→1024 |
帧级第二层 | {t-2,t,t+2} | 9 | 3072→1024 |
帧级第三层 | {t-3,t,t+3} | 15 | 3072→1024 |
帧级第四层 | {t} | 15 | 1024→1024 |
帧级第五层 | {t} | 15 | 1024→3200 |
统计汇聚层 | [0,T] | T | 3200T→3200 |
卷积层与全连接层网络结构如表2所示:
表2卷积层与全连接层网络结构
对每段语音的MFCC进行上面2)~5)步操作,不断更新卷积核以及全连接层参数,完成对声纹识别模型的训练。
提取嵌入:模型训练完成后,使用语料库中的测试库语音进行测试,将注册语音与测试语音输入声纹识别模型,在识别模型全连接层第一层非线性化之前提取嵌入,即1024维向量输出。
决策评分:注册语音与测试语音的嵌入使用余弦距离计算其得分,并与阈值进行比较,做出最终决定接受或拒绝,得分大于阈值则拒绝,小于阈值则接受。公式如下:
其中w1,w2分别为注册语音嵌入和测试语音嵌入,score(w1,w2)表示余弦距离,<w1,w2>为注册语音嵌入和测试语音嵌入的点积,||w1||,||w2||分别为注册语音嵌入和测试语音嵌入的长度,θ为预设的阈值。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (8)
1.一种文本无关的声纹识别方法,其特征在于,包括以下步骤:
1)声纹识别模型训练
1.1)语音信号预处理;
1.2)语音帧级操作;
1.3)统计汇聚层汇总帧级输出;
1.4)一维卷积操作;
1.5)全连接层输出说话人分类;
2)提取嵌入:模型训练完成之后,将注册语音与测试语音输入声纹识别模型,提取嵌入;
3)决策评分:注册语音与测试语音的嵌入使用余弦距离计算其得分,做出最终决定接受或拒绝。
2.根据权利要求1所述的一种文本无关的声纹识别方法,其特征在于:在步骤1.1)中,将语料库中每段语音以25ms分帧,并进行语音活动检测,从声音信号流里识别和消除时间长度超过预设值的静音期,生成20维梅尔频谱倒谱系数MFCC,附加一阶及二阶差分系数生成每帧共60维的MFCC特征向量作为输入。
3.根据权利要求1所述的一种文本无关的声纹识别方法,其特征在于:在步骤1.2)中,模型训练网络结构的前5层在帧级别上操作,具有时延架构,假设t是当前的帧,在输入端,将{t-2,t-1,t,t+1,t+2}处的帧的梅尔频谱倒谱系数MFCC拼接在一起,接下来的两层分别拼接前一层在时间{t-2,t,t+2}和{t-3,t,t+3}处的输出,之后的两层也在帧级别进行操作,但没有任何附加的帧,总共该网络的帧级部分具有t-7到t+7共15帧。
4.根据权利要求1所述的一种文本无关的声纹识别方法,其特征在于:在步骤1.3)中,统计汇聚层接收最后帧级层的输出作为输入,汇总一段语音所有帧输入并计算其均值,假设一段语音被分成总共T帧,统计汇聚层汇总来自帧级层第五层的所有T帧输出并计算其平均值,统计量为3200维向量,对于每个输入语音只计算一次,此过程在时间维度上聚合信息,以便后续层在整个语音上运行操作。
5.根据权利要求1所述的一种文本无关的声纹识别方法,其特征在于:在步骤1.4)中,对统计汇聚层的输出,使用一维卷积进行处理,共5层卷积层,前两层卷积层使用256个大小为5的卷积核,步长为2,第三、四、五卷积层使用256个大小为3的核,步长为1,每个卷积层后接一个最大值汇聚层。
6.根据权利要求1所述的一种文本无关的声纹识别方法,其特征在于:在步骤1.5)中,连接两个全连接层,两个全连接层的激活函数分别为ReLU和Softmax,最后一个全连接层的输出为N个说话人分类。
7.根据权利要求1所述的一种文本无关的声纹识别方法,其特征在于:在步骤2)中,在模型训练完成之后,在全连接层第一层非线性化之前提取嵌入,即1024维向量输出。
8.根据权利要求1所述的一种文本无关的声纹识别方法,其特征在于:在步骤3)中,注册语音与测试语音的嵌入使用余弦距离计算其得分,并与阈值进行比较,做出最终决定接受或拒绝,得分大于阈值则拒绝,小于阈值则接受,公式如下:
其中,w1,w2分别为注册语音和测试语音嵌入,score(w1,w2)表示余弦距离,<w1,w2>为注册语音嵌入和测试语音嵌入的点积,||w1||,||w2||分别为注册语音嵌入和测试语音嵌入的长度,θ为预设的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810457528.XA CN108648759A (zh) | 2018-05-14 | 2018-05-14 | 一种文本无关的声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810457528.XA CN108648759A (zh) | 2018-05-14 | 2018-05-14 | 一种文本无关的声纹识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108648759A true CN108648759A (zh) | 2018-10-12 |
Family
ID=63755316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810457528.XA Pending CN108648759A (zh) | 2018-05-14 | 2018-05-14 | 一种文本无关的声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108648759A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584887A (zh) * | 2018-12-24 | 2019-04-05 | 科大讯飞股份有限公司 | 一种声纹信息提取模型生成、声纹信息提取的方法和装置 |
CN110033757A (zh) * | 2019-04-04 | 2019-07-19 | 行知技术有限公司 | 一种人声识别算法 |
CN110120223A (zh) * | 2019-04-22 | 2019-08-13 | 南京硅基智能科技有限公司 | 一种基于时延神经网络tdnn的声纹识别方法 |
CN110136686A (zh) * | 2019-05-14 | 2019-08-16 | 南京邮电大学 | 基于STARGAN与i向量的多对多说话人转换方法 |
CN110189757A (zh) * | 2019-06-27 | 2019-08-30 | 电子科技大学 | 一种大熊猫个体识别方法、设备及计算机可读存储介质 |
CN110675878A (zh) * | 2019-09-23 | 2020-01-10 | 金瓜子科技发展(北京)有限公司 | 一种车商识别的方法、装置、存储介质及电子设备 |
CN110942777A (zh) * | 2019-12-05 | 2020-03-31 | 出门问问信息科技有限公司 | 一种声纹神经网络模型的训练方法、装置及存储介质 |
CN111081260A (zh) * | 2019-12-31 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 一种唤醒词声纹的识别方法及*** |
CN111429921A (zh) * | 2020-03-02 | 2020-07-17 | 厦门快商通科技股份有限公司 | 声纹识别方法、***、移动终端及存储介质 |
CN112382298A (zh) * | 2020-11-17 | 2021-02-19 | 北京清微智能科技有限公司 | 唤醒词声纹识别方法、唤醒词声纹识别模型及其训练方法 |
CN113360869A (zh) * | 2020-03-04 | 2021-09-07 | 北京嘉诚至盛科技有限公司 | 启动应用的方法、电子设备和计算机可读介质 |
CN113488060A (zh) * | 2021-06-25 | 2021-10-08 | 武汉理工大学 | 一种基于变分信息瓶颈的声纹识别方法及*** |
CN113488058A (zh) * | 2021-06-23 | 2021-10-08 | 武汉理工大学 | 一种基于短语音的声纹识别方法 |
CN114826709A (zh) * | 2022-04-15 | 2022-07-29 | 马上消费金融股份有限公司 | 身份认证和声学环境检测方法、***、电子设备及介质 |
CN115457968A (zh) * | 2022-08-26 | 2022-12-09 | 华南理工大学 | 基于混合分辨率深度可分卷积网络的声纹确认方法 |
US20230005486A1 (en) * | 2021-07-02 | 2023-01-05 | Pindrop Security, Inc. | Speaker embedding conversion for backward and cross-channel compatability |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060022492A (ko) * | 2004-09-07 | 2006-03-10 | 학교법인연세대학교 | 화자인식시스템 성능 향상을 위한 특징벡터 변환방법 |
CN107146624A (zh) * | 2017-04-01 | 2017-09-08 | 清华大学 | 一种说话人确认方法及装置 |
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及*** |
CN107492382A (zh) * | 2016-06-13 | 2017-12-19 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
-
2018
- 2018-05-14 CN CN201810457528.XA patent/CN108648759A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060022492A (ko) * | 2004-09-07 | 2006-03-10 | 학교법인연세대학교 | 화자인식시스템 성능 향상을 위한 특징벡터 변환방법 |
CN107492382A (zh) * | 2016-06-13 | 2017-12-19 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
CN107146624A (zh) * | 2017-04-01 | 2017-09-08 | 清华大学 | 一种说话人确认方法及装置 |
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及*** |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584887A (zh) * | 2018-12-24 | 2019-04-05 | 科大讯飞股份有限公司 | 一种声纹信息提取模型生成、声纹信息提取的方法和装置 |
CN109584887B (zh) * | 2018-12-24 | 2022-12-02 | 科大讯飞股份有限公司 | 一种声纹信息提取模型生成、声纹信息提取的方法和装置 |
CN110033757A (zh) * | 2019-04-04 | 2019-07-19 | 行知技术有限公司 | 一种人声识别算法 |
CN110120223A (zh) * | 2019-04-22 | 2019-08-13 | 南京硅基智能科技有限公司 | 一种基于时延神经网络tdnn的声纹识别方法 |
CN110136686A (zh) * | 2019-05-14 | 2019-08-16 | 南京邮电大学 | 基于STARGAN与i向量的多对多说话人转换方法 |
CN110189757A (zh) * | 2019-06-27 | 2019-08-30 | 电子科技大学 | 一种大熊猫个体识别方法、设备及计算机可读存储介质 |
CN110675878A (zh) * | 2019-09-23 | 2020-01-10 | 金瓜子科技发展(北京)有限公司 | 一种车商识别的方法、装置、存储介质及电子设备 |
CN110942777B (zh) * | 2019-12-05 | 2022-03-08 | 出门问问信息科技有限公司 | 一种声纹神经网络模型的训练方法、装置及存储介质 |
CN110942777A (zh) * | 2019-12-05 | 2020-03-31 | 出门问问信息科技有限公司 | 一种声纹神经网络模型的训练方法、装置及存储介质 |
CN111081260A (zh) * | 2019-12-31 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 一种唤醒词声纹的识别方法及*** |
CN111429921A (zh) * | 2020-03-02 | 2020-07-17 | 厦门快商通科技股份有限公司 | 声纹识别方法、***、移动终端及存储介质 |
CN111429921B (zh) * | 2020-03-02 | 2023-01-03 | 厦门快商通科技股份有限公司 | 声纹识别方法、***、移动终端及存储介质 |
CN113360869A (zh) * | 2020-03-04 | 2021-09-07 | 北京嘉诚至盛科技有限公司 | 启动应用的方法、电子设备和计算机可读介质 |
CN112382298A (zh) * | 2020-11-17 | 2021-02-19 | 北京清微智能科技有限公司 | 唤醒词声纹识别方法、唤醒词声纹识别模型及其训练方法 |
CN112382298B (zh) * | 2020-11-17 | 2024-03-08 | 北京清微智能科技有限公司 | 唤醒词声纹识别方法、唤醒词声纹识别模型及其训练方法 |
CN113488058A (zh) * | 2021-06-23 | 2021-10-08 | 武汉理工大学 | 一种基于短语音的声纹识别方法 |
CN113488060B (zh) * | 2021-06-25 | 2022-07-19 | 武汉理工大学 | 一种基于变分信息瓶颈的声纹识别方法及*** |
CN113488060A (zh) * | 2021-06-25 | 2021-10-08 | 武汉理工大学 | 一种基于变分信息瓶颈的声纹识别方法及*** |
US20230005486A1 (en) * | 2021-07-02 | 2023-01-05 | Pindrop Security, Inc. | Speaker embedding conversion for backward and cross-channel compatability |
CN114826709A (zh) * | 2022-04-15 | 2022-07-29 | 马上消费金融股份有限公司 | 身份认证和声学环境检测方法、***、电子设备及介质 |
CN115457968A (zh) * | 2022-08-26 | 2022-12-09 | 华南理工大学 | 基于混合分辨率深度可分卷积网络的声纹确认方法 |
CN115457968B (zh) * | 2022-08-26 | 2024-07-05 | 华南理工大学 | 基于混合分辨率深度可分卷积网络的声纹确认方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648759A (zh) | 一种文本无关的声纹识别方法 | |
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及*** | |
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN104036774B (zh) | 藏语方言识别方法及*** | |
CN110211574A (zh) | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 | |
CN110289003A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN109816092A (zh) | 深度神经网络训练方法、装置、电子设备及存储介质 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN110675859B (zh) | 结合语音与文本的多情感识别方法、***、介质及设备 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析***及其方法 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN110390955A (zh) | 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及*** | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN110428843A (zh) | 一种语音性别识别深度学习方法 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN107993664B (zh) | 一种基于竞争神经网络的鲁棒说话人识别方法 | |
CN111048097B (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN103578481A (zh) | 一种跨语言的语音情感识别方法 | |
CN108877812B (zh) | 一种声纹识别方法、装置及存储介质 | |
CN106898355A (zh) | 一种基于二次建模的说话人识别方法 | |
CN110085216A (zh) | 一种婴儿哭声检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181012 |
|
WD01 | Invention patent application deemed withdrawn after publication |