CN109243467A - 声纹模型构建方法、声纹识别方法及*** - Google Patents
声纹模型构建方法、声纹识别方法及*** Download PDFInfo
- Publication number
- CN109243467A CN109243467A CN201811351279.2A CN201811351279A CN109243467A CN 109243467 A CN109243467 A CN 109243467A CN 201811351279 A CN201811351279 A CN 201811351279A CN 109243467 A CN109243467 A CN 109243467A
- Authority
- CN
- China
- Prior art keywords
- audio file
- training
- vocal print
- group
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 137
- 230000001755 vocal effect Effects 0.000 claims abstract description 126
- 239000013598 vector Substances 0.000 claims abstract description 120
- 238000013528 artificial neural network Methods 0.000 claims abstract description 70
- 238000013139 quantization Methods 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 6
- 210000004218 nerve net Anatomy 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 210000005036 nerve Anatomy 0.000 description 3
- 101100102875 Arabidopsis thaliana WAV2 gene Proteins 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种声纹模型构建方法、声纹识别方法及***,该声纹模型构建方法包括:步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块;步骤S2:利用第一训练样本库、第一损失函数对所述创建的孪生神经网络进行第一训练;步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型。本发明采用孪生网络的思想对声纹模型的网络结构进行设计,并通过第一训练和第二训练实现声纹模型对不同人的音频声纹进行聚类,使训练后得到的声纹模型能够有效对音频文件进行声纹矢量化,从而有利于提高声纹识别的准确率。
Description
技术领域
本发明涉及声纹识别技术领域,特别是一种声纹模型构建方法、声纹识别方法及***。
背景技术
声纹类似于指纹,是一个人特有的信息,一个人说的不同的话,其声纹应该是一致的,因此,通过声纹识别可以对说话人进行识别,在目前的语音处理中,“声纹识别”是一项重要的研究内容,如何提高声纹识别的准确率是目前亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种声纹模型构建方法、声纹识别方法及***,有利于提高声纹识别的准确率。
为达到上述目的,本发明的技术方案提供了一种声纹模型构建方法,包括:
步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
步骤S2:利用第一训练样本库、第一损失函数对所述创建的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述创建的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
进一步地,所述步骤S2包括:
从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
对于所述L组音频文件中的每一组音频文件,在利用所述创建的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_1调整所述创建的孪生神经网络。
进一步地,所述步骤S3包括:
从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_2调整经过所述第一训练的孪生神经网络。
进一步地,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,...,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
为实现上述目的,本发明的技术方案还提供了一种声纹识别方法,包括:
将待识别的两个音频文件输入利用上述声纹模型构建方法构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算所述待识别的两个音频文件的声纹向量之间的相似度;
根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
为实现上述目的,本发明的技术方案还提供了一种声纹模型构建***,包括:
建立模块,用于建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
第一训练模块,用于利用第一训练样本库、第一损失函数对所述创建的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述创建的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
第二训练模块,用于利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
进一步地,所述第一训练模块包括:
第一抽取单元,用于从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
第一处理单元,用于对于所述L组音频文件中的每一组音频文件,在利用所述创建的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第一计算单元,用于利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第一调整单元,用于利用损失值loss_1调整所述创建的孪生神经网络。
进一步地,所述第二训练模块包括:
第二抽取单元,用于从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
第二处理单元,用于对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第二计算单元,用于利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第二调整单元,用于利用损失值loss_2调整经过所述第一训练的孪生神经网络。
进一步地,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,...,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
为实现上述目的,本发明的技术方案还提供了一种声纹识别***,包括:
输入模块,用于将待识别的两个音频文件输入利用上述声纹模型构建***构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算模块,用于计算所述待识别的两个音频文件的声纹向量之间的相似度;
判断模块,用于根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
本发明提供的声纹模型构建方法,采用孪生网络的思想对声纹模型的网络结构进行设计,并通过第一训练和第二训练实现声纹模型对不同人的音频声纹进行聚类,使训练后得到的声纹模型能够有效对音频文件进行声纹矢量化,从而有利于提高声纹识别的准确率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例提供的一种声纹模型构建方法的流程图;
图2是本发明实施例提供的一种孪生神经网络中子网的示意图;
图3是本发明实施例提供的对孪生神经网络进行第一训练的示意图;
图4是本发明实施例提供的对孪生神经网络进行第二训练的示意图;
图5是本发明实施例提供的一种声纹模型构建***的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
参见图1,图1是本发明实施例提供的一种声纹模型构建方法的流程图,该方法包括:
步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括用于特征提取的特征提取模块以及用于特征表达的特征表达模块,其中,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
例如,特征表达模块包括1、2或3个卷积层以及1、2或3个全连接层;
步骤S2:利用第一训练样本库、第一损失函数对所述创建的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述创建的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
本发明实施例提供的声纹模型构建方法,采用孪生网络的思想对声纹模型的网络结构进行设计,并通过第一训练和第二训练实现声纹模型对不同人的音频声纹进行聚类,使训练后得到的声纹模型能够有效对音频文件进行声纹矢量化,从而有利于提高声纹识别的准确率。
例如,本发明实施例提供的声纹模型构建方法可以具体包括:
步骤A:建立孪生神经网络,其中,该孪生神经网络包括两个相同的子网,子网采用SINCNET结构,如图2所示,每一个子网包括特征提取模块以及特征表达模块,每一个子网中的特征表达模块包括3个卷积层(CONV)和2个全连接层(FC)(包含一般的池化层、激活层、drop-out层等),每一个子网中的特征提取模块包括n个带通滤波器(g1,g2,…,gn),其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,...,n,滤波器参数f2、f1的初始化可以选用梅尔刻度滤波器组的截止频率(cut-off frequency)来作为滤波器的初始频率;
SINCNET的核心思想是使用多个带通滤波器过滤出有用的信息(即特征信息),带通滤波器作为网络的一部分与特征表达过程一起参与训练,其参数由训练得到,在本实施例中,通过SINCNET结构的子网从音频文件(wav文件)中提取特征信息,并进行特征表达,从而将wav数据转化成向量形式,即实现声纹矢量化;
其中,在本实施例中,带通滤波器的数量n为预设值,可根据实际情况进行调整,带通滤波器过滤后得到的数据(即特征信息)输入至特征表达模块,在特征表达模块中利用3个卷积层进行三次卷积运算后,再通过两层全连接层(包含一般的池化层、激活层、drop-out层等)最后输出向量v(即为声纹向量);
步骤B:利用第一训练样本库、第一损失函数对步骤A创建的孪生神经网络进行第一训练(即预训练),其中,该第一训练样本库由同一人的多个音频文件构成;
即在该步骤中,使用每个说话人的多个音频对孪生神经网络进行单人预训练,将同一个人的两段不同语音输入创建的孪生神经网络,loss函数(即损失函数)采用loss_1,即最大化从同一个人的不同音频文件中抽取的声纹向量之间的相似度,具体地,参见图3,该步骤包括:
步骤B1:从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件,L为不小于2的正整数;
步骤B2:对于所述L组音频文件中的每一组音频文件,在利用所述创建的孪生神经网络对其中的音频文件进行声纹矢量化后(即通过孪生神经网络中的一个子网对每一组音频文件中的一个音频文件WAV1进行声纹矢量化,通过另一个子网对每一组音频文件中的另一个音频文件WAV2进行声纹矢量化),采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度(即从两个音频文件中抽取的声纹向量之间的相似度);
Cosine相似度是计算向量空间中两个向量方向差异大小的方法,在本发明中,假设一个人的声纹特征随着声音的大小、环境、身体健康状况、年龄、心情等情况会有一定的变化,进而反应到向量空间上即是向量长度和相位角度的变化,但是不管情况如何变化,属于同一个人的一些固有的声纹特征是不会变的,因此,声纹向量的这种变化幅度应该是非常小的,则可以认为两个相近的声纹向量即为同一个说话人,其中,Cosine相似度的计算公式如下:
其中,v1为两个音频文件中一个音频文件的声纹向量,v2为另一个音频文件的声纹向量;
步骤B3:利用所述第一损失函数计算损失值loss_1,其中,该第一损失函数的公式如下:
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
步骤B4:利用损失值loss_1调整所述创建的孪生神经网络。
步骤C:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练(即再训练),得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成;
即在该步骤中,在对孪生神经网络预训练完成后采用不同人的不同音频文件继续对孪生神经网络进行训练,在该步骤中,可从所有的说话人中随机抽取一个人作为目标人,将目标人的所有音频视为正样本,得到正样本集,非目标人的所有音频视为负样本,得到负样本集,每次训练时从正样本集中抽取P_n个正样本,从负样本集中随机抽取N_n个负样本,P_n与N_n可以不相等但是差距不应该过大,正负样本的比例不要超过1∶5,以保证训练结果不受样本不均衡影响,Loss函数(即损失函数)采用loss_2,即最小化从不同人的不同音频中抽取的声纹向量之间的相似度,具体地,参见图4,该步骤具体包括:
步骤C1:从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件,M为不小于2的正整数;
步骤C2:对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后(即通过孪生神经网络中的一个子网对每一组音频文件中的一个音频文件WAV1′进行声纹矢量化,通过另一个子网对每一组音频文件中的另一个音频文件WAV2′进行声纹矢量化),采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
步骤C3:利用所述第二损失函数计算损失值loss_2,其中,该第二损失函数如下:
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
步骤C4:利用损失值loss_2调整经过所述第一训练的孪生神经网络,得到声纹模型。
本发明实施例提供的声纹模型构建方法在端对端的网络结构基础上结合孪生网络的思想,对声纹模型的网络结构进行了设计,并采取预训练和再训练两个步骤实现对不同人的音频声纹进行聚类,使训练后得到的声纹模型能够有效对音频文件进行声纹矢量化,能够判断不同音频是否来自同一个说话人,有利于提高声纹识别的准确率;且在本发明实施例中,通过两步训练和聚类,训练的过程清楚,结果可控性高,并且在使用SINECT结构模型的基础上进行设计,相对CNN等模型能够大大减少参数数量,训练速度更快。
通过上述声纹模型构建方法构建的声纹模型,其中每一个子网的特征提取模块可作为一个声纹特征提取器,再利用特征表达模块对提取的特征进行特征表达,从而实现对声纹的矢量化,得到声纹向量,可应用到声纹识别等场景任务中去。
本发明实施例还提供了一种音频文件矢量化方法,包括:利用上述声纹模型构建方法构建的声纹模型中的子网对待处理的音频文件进行声纹矢量化,得到所述待处理的音频文件的声纹向量。
通过上述声纹模型构建方法构建的声纹模型可对待识别的两个音频文件进行声纹矢量化,再通过待识别的两个音频文件的声纹向量之间的相似度可以判断两个音频文件是否来自同一个人;
本发明实施例还提供了一种声纹识别方法,包括:
步骤S101:将待识别的两个音频文件输入利用上述声纹模型构建方法构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
步骤S102:计算所述待识别的两个音频文件的声纹向量之间的相似度;
例如,可以采用Cosine相似度计算方式得到待识别的两个音频文件的声纹向量之间的相似度;
步骤S103:根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人;
例如,若待识别的两个音频文件的声纹向量之间的相似度大于预设值,则判断为同一个人,否则判断为不同的人。
参见图5,图5是本发明实施例提供的一种声纹模型构建***的示意图,该***包括:
建立模块1,用于建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
第一训练模块2,用于利用第一训练样本库、第一损失函数对所述创建的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述创建的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
第二训练模块3,用于利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
在一实施例中,所述第一训练模块包括:
第一抽取单元,用于从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
第一处理单元,用于对于所述L组音频文件中的每一组音频文件,在利用所述创建的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第一计算单元,用于利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第一调整单元,用于利用损失值loss_1调整所述创建的孪生神经网络。
在一实施例中,所述第二训练模块包括:
第二抽取单元,用于从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
第二处理单元,用于对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第二计算单元,用于利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第二调整单元,用于利用损失值loss_2调整经过所述第一训练的孪生神经网络。
在一实施例中,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,...,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
本发明实施例还提供了一种音频文件矢量化***,所述音频文件矢量化***利用上述声纹模型构建***构建的声纹模型中的子网对待处理的音频文件进行声纹矢量化,得到所述待处理的音频文件的声纹向量。
本发明实施例还提供了一种声纹识别***,包括:
输入模块,用于将待识别的两个音频文件输入上述声纹模型构建***构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算模块,用于计算所述待识别的两个音频文件的声纹向量之间的相似度;
判断模块,用于根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
本领域的技术人员容易理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。
Claims (10)
1.一种声纹模型构建方法,其特征在于,包括:
步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
步骤S2:利用第一训练样本库、第一损失函数对所述创建的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述创建的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
对于所述L组音频文件中的每一组音频文件,在利用所述创建的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_1调整所述创建的孪生神经网络。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_2调整经过所述第一训练的孪生神经网络。
4.根据权利要求1-3任一所述的方法,其特征在于,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,…,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
5.一种声纹识别方法,其特征在于,包括:
将待识别的两个音频文件输入利用权利要求1-4任一所述的方法构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算所述待识别的两个音频文件的声纹向量之间的相似度;
根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
6.一种声纹模型构建***,其特征在于,包括:
建立模块,用于建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
第一训练模块,用于利用第一训练样本库、第一损失函数对所述创建的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述创建的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
第二训练模块,用于利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
7.根据权利要求6所述的***,其特征在于,所述第一训练模块包括:
第一抽取单元,用于从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
第一处理单元,用于对于所述L组音频文件中的每一组音频文件,在利用所述创建的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第一计算单元,用于利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第一调整单元,用于利用损失值loss_1调整所述创建的孪生神经网络。
8.根据权利要求6所述的***,其特征在于,所述第二训练模块包括:
第二抽取单元,用于从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
第二处理单元,用于对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
第二计算单元,用于利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
第二调整单元,用于利用损失值loss_2调整经过所述第一训练的孪生神经网络。
9.根据权利要求6-8任一所述的***,其特征在于,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,…,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
10.一种声纹识别***,其特征在于,包括:
输入模块,用于将待识别的两个音频文件输入利用权利要求6-9任一所述的***构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算模块,用于计算所述待识别的两个音频文件的声纹向量之间的相似度;
判断模块,用于根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811351279.2A CN109243467B (zh) | 2018-11-14 | 2018-11-14 | 声纹模型构建方法、声纹识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811351279.2A CN109243467B (zh) | 2018-11-14 | 2018-11-14 | 声纹模型构建方法、声纹识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109243467A true CN109243467A (zh) | 2019-01-18 |
CN109243467B CN109243467B (zh) | 2019-11-05 |
Family
ID=65074614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811351279.2A Active CN109243467B (zh) | 2018-11-14 | 2018-11-14 | 声纹模型构建方法、声纹识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109243467B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211594A (zh) * | 2019-06-06 | 2019-09-06 | 杭州电子科技大学 | 一种基于孪生网络模型和knn算法的说话人识别方法 |
CN110223699A (zh) * | 2019-05-15 | 2019-09-10 | 桂林电子科技大学 | 一种说话人身份确认方法、装置及存储介质 |
CN110309359A (zh) * | 2019-05-20 | 2019-10-08 | 北京大学 | 视频相关性预测方法、装置、设备及存储介质 |
CN110491413A (zh) * | 2019-08-21 | 2019-11-22 | 中国传媒大学 | 一种基于孪生网络的音频内容一致性监测方法及*** |
CN110570873A (zh) * | 2019-09-12 | 2019-12-13 | Oppo广东移动通信有限公司 | 声纹唤醒方法、装置、计算机设备以及存储介质 |
CN110619889A (zh) * | 2019-09-19 | 2019-12-27 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN110660399A (zh) * | 2019-11-11 | 2020-01-07 | 广州国音智能科技有限公司 | 声纹识别的训练方法、装置、终端及计算机存储介质 |
CN110767239A (zh) * | 2019-09-20 | 2020-02-07 | 平安科技(深圳)有限公司 | 一种基于深度学习的声纹识别方法、装置及设备 |
CN111048097A (zh) * | 2019-12-19 | 2020-04-21 | 中国人民解放军空军研究院通信与导航研究所 | 一种基于3d卷积的孪生网络声纹识别方法 |
CN111145761A (zh) * | 2019-12-27 | 2020-05-12 | 携程计算机技术(上海)有限公司 | 模型训练的方法、声纹确认的方法、***、设备及介质 |
CN111223476A (zh) * | 2020-04-23 | 2020-06-02 | 深圳市友杰智新科技有限公司 | 语音特征向量的提取方法、装置、计算机设备和存储介质 |
CN111370003A (zh) * | 2020-02-27 | 2020-07-03 | 杭州雄迈集成电路技术股份有限公司 | 一种基于孪生神经网络的声纹比对方法 |
CN111429923A (zh) * | 2020-06-15 | 2020-07-17 | 深圳市友杰智新科技有限公司 | 说话人信息提取模型的训练方法、装置和计算机设备 |
CN111524521A (zh) * | 2020-04-22 | 2020-08-11 | 北京小米松果电子有限公司 | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 |
CN111583913A (zh) * | 2020-06-15 | 2020-08-25 | 深圳市友杰智新科技有限公司 | 语音识别和语音合成的模型训练方法、装置和计算机设备 |
CN111710340A (zh) * | 2020-06-05 | 2020-09-25 | 深圳市卡牛科技有限公司 | 基于语音识别用户身份的方法、装置、服务器及存储介质 |
CN111785287A (zh) * | 2020-07-06 | 2020-10-16 | 北京世纪好未来教育科技有限公司 | 说话人识别方法、装置、电子设备及存储介质 |
CN112017670A (zh) * | 2020-08-13 | 2020-12-01 | 北京达佳互联信息技术有限公司 | 一种目标账户音频的识别方法、装置、设备及介质 |
CN112185357A (zh) * | 2020-12-02 | 2021-01-05 | 成都启英泰伦科技有限公司 | 一种同时识别人声和非人声的装置及方法 |
CN112435673A (zh) * | 2020-12-15 | 2021-03-02 | 北京声智科技有限公司 | 一种模型训练方法及电子终端 |
CN113421575A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
CN113744721A (zh) * | 2021-09-07 | 2021-12-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 模型训练方法、音频处理方法、设备及可读存储介质 |
CN113763966A (zh) * | 2021-09-09 | 2021-12-07 | 武汉理工大学 | 一种端到端的文本无关声纹识别方法及*** |
CN113793615A (zh) * | 2021-09-15 | 2021-12-14 | 北京百度网讯科技有限公司 | 说话人识别方法、模型训练方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN105575394A (zh) * | 2016-01-04 | 2016-05-11 | 北京时代瑞朗科技有限公司 | 基于全局变化空间及深度学习混合建模的声纹识别方法 |
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
CN107221320A (zh) * | 2017-05-19 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 |
CN107610709A (zh) * | 2017-08-01 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 一种训练声纹识别模型的方法及*** |
US20180082691A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
CN108288470A (zh) * | 2017-01-10 | 2018-07-17 | 富士通株式会社 | 基于声纹的身份验证方法和装置 |
-
2018
- 2018-11-14 CN CN201811351279.2A patent/CN109243467B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN105575394A (zh) * | 2016-01-04 | 2016-05-11 | 北京时代瑞朗科技有限公司 | 基于全局变化空间及深度学习混合建模的声纹识别方法 |
US20180082691A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
CN108288470A (zh) * | 2017-01-10 | 2018-07-17 | 富士通株式会社 | 基于声纹的身份验证方法和装置 |
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
CN107221320A (zh) * | 2017-05-19 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 |
CN107610709A (zh) * | 2017-08-01 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 一种训练声纹识别模型的方法及*** |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223699A (zh) * | 2019-05-15 | 2019-09-10 | 桂林电子科技大学 | 一种说话人身份确认方法、装置及存储介质 |
CN110223699B (zh) * | 2019-05-15 | 2021-04-13 | 桂林电子科技大学 | 一种说话人身份确认方法、装置及存储介质 |
CN110309359A (zh) * | 2019-05-20 | 2019-10-08 | 北京大学 | 视频相关性预测方法、装置、设备及存储介质 |
CN110309359B (zh) * | 2019-05-20 | 2021-06-15 | 北京大学 | 视频相关性预测方法、装置、设备及存储介质 |
CN110211594B (zh) * | 2019-06-06 | 2021-05-04 | 杭州电子科技大学 | 一种基于孪生网络模型和knn算法的说话人识别方法 |
CN110211594A (zh) * | 2019-06-06 | 2019-09-06 | 杭州电子科技大学 | 一种基于孪生网络模型和knn算法的说话人识别方法 |
CN110491413A (zh) * | 2019-08-21 | 2019-11-22 | 中国传媒大学 | 一种基于孪生网络的音频内容一致性监测方法及*** |
CN110570873A (zh) * | 2019-09-12 | 2019-12-13 | Oppo广东移动通信有限公司 | 声纹唤醒方法、装置、计算机设备以及存储介质 |
CN110619889B (zh) * | 2019-09-19 | 2022-03-15 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN110619889A (zh) * | 2019-09-19 | 2019-12-27 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN110767239A (zh) * | 2019-09-20 | 2020-02-07 | 平安科技(深圳)有限公司 | 一种基于深度学习的声纹识别方法、装置及设备 |
CN110660399A (zh) * | 2019-11-11 | 2020-01-07 | 广州国音智能科技有限公司 | 声纹识别的训练方法、装置、终端及计算机存储介质 |
CN111048097A (zh) * | 2019-12-19 | 2020-04-21 | 中国人民解放军空军研究院通信与导航研究所 | 一种基于3d卷积的孪生网络声纹识别方法 |
CN111145761B (zh) * | 2019-12-27 | 2022-05-24 | 携程计算机技术(上海)有限公司 | 模型训练的方法、声纹确认的方法、***、设备及介质 |
CN111145761A (zh) * | 2019-12-27 | 2020-05-12 | 携程计算机技术(上海)有限公司 | 模型训练的方法、声纹确认的方法、***、设备及介质 |
CN111370003A (zh) * | 2020-02-27 | 2020-07-03 | 杭州雄迈集成电路技术股份有限公司 | 一种基于孪生神经网络的声纹比对方法 |
CN111524521A (zh) * | 2020-04-22 | 2020-08-11 | 北京小米松果电子有限公司 | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 |
CN111524521B (zh) * | 2020-04-22 | 2023-08-08 | 北京小米松果电子有限公司 | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 |
CN111223476A (zh) * | 2020-04-23 | 2020-06-02 | 深圳市友杰智新科技有限公司 | 语音特征向量的提取方法、装置、计算机设备和存储介质 |
CN111710340A (zh) * | 2020-06-05 | 2020-09-25 | 深圳市卡牛科技有限公司 | 基于语音识别用户身份的方法、装置、服务器及存储介质 |
CN111429923B (zh) * | 2020-06-15 | 2020-09-29 | 深圳市友杰智新科技有限公司 | 说话人信息提取模型的训练方法、装置和计算机设备 |
CN111429923A (zh) * | 2020-06-15 | 2020-07-17 | 深圳市友杰智新科技有限公司 | 说话人信息提取模型的训练方法、装置和计算机设备 |
CN111583913A (zh) * | 2020-06-15 | 2020-08-25 | 深圳市友杰智新科技有限公司 | 语音识别和语音合成的模型训练方法、装置和计算机设备 |
WO2022007766A1 (zh) * | 2020-07-06 | 2022-01-13 | 北京世纪好未来教育科技有限公司 | 说话人识别方法、装置、电子设备及存储介质 |
US11676609B2 (en) | 2020-07-06 | 2023-06-13 | Beijing Century Tal Education Technology Co. Ltd. | Speaker recognition method, electronic device, and storage medium |
CN111785287B (zh) * | 2020-07-06 | 2022-06-07 | 北京世纪好未来教育科技有限公司 | 说话人识别方法、装置、电子设备及存储介质 |
CN111785287A (zh) * | 2020-07-06 | 2020-10-16 | 北京世纪好未来教育科技有限公司 | 说话人识别方法、装置、电子设备及存储介质 |
CN112017670A (zh) * | 2020-08-13 | 2020-12-01 | 北京达佳互联信息技术有限公司 | 一种目标账户音频的识别方法、装置、设备及介质 |
CN112017670B (zh) * | 2020-08-13 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 一种目标账户音频的识别方法、装置、设备及介质 |
CN112185357A (zh) * | 2020-12-02 | 2021-01-05 | 成都启英泰伦科技有限公司 | 一种同时识别人声和非人声的装置及方法 |
CN112435673B (zh) * | 2020-12-15 | 2024-05-14 | 北京声智科技有限公司 | 一种模型训练方法及电子终端 |
CN112435673A (zh) * | 2020-12-15 | 2021-03-02 | 北京声智科技有限公司 | 一种模型训练方法及电子终端 |
CN113421575A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
CN113421575B (zh) * | 2021-06-30 | 2024-02-06 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
CN113744721A (zh) * | 2021-09-07 | 2021-12-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 模型训练方法、音频处理方法、设备及可读存储介质 |
CN113744721B (zh) * | 2021-09-07 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 模型训练方法、音频处理方法、设备及可读存储介质 |
CN113763966A (zh) * | 2021-09-09 | 2021-12-07 | 武汉理工大学 | 一种端到端的文本无关声纹识别方法及*** |
CN113763966B (zh) * | 2021-09-09 | 2024-03-19 | 武汉理工大学 | 一种端到端的文本无关声纹识别方法及*** |
CN113793615A (zh) * | 2021-09-15 | 2021-12-14 | 北京百度网讯科技有限公司 | 说话人识别方法、模型训练方法、装置、设备及存储介质 |
CN113793615B (zh) * | 2021-09-15 | 2024-02-27 | 北京百度网讯科技有限公司 | 说话人识别方法、模型训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109243467B (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109243467B (zh) | 声纹模型构建方法、声纹识别方法及*** | |
Ding et al. | Autospeech: Neural architecture search for speaker recognition | |
CN109817246B (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
Peng et al. | Efficient speech emotion recognition using multi-scale cnn and attention | |
Variani et al. | Deep neural networks for small footprint text-dependent speaker verification | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN108648759A (zh) | 一种文本无关的声纹识别方法 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
AU2020102038A4 (en) | A speaker identification method based on deep learning | |
Han et al. | Speech emotion recognition with a resnet-cnn-transformer parallel neural network | |
CN107068167A (zh) | 融合多种端到端神经网络结构的说话人感冒症状识别方法 | |
CN103578481B (zh) | 一种跨语言的语音情感识别方法 | |
CN111048097B (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN107195299A (zh) | 训练神经网络声学模型的方法和装置及语音识别方法和装置 | |
CN108364662A (zh) | 基于成对鉴别任务的语音情感识别方法与*** | |
Shahriar et al. | Classifying maqams of Qur’anic recitations using deep learning | |
CN114882914B (zh) | 混叠音处理方法、装置和存储介质 | |
Yue et al. | Acoustic modelling from raw source and filter components for dysarthric speech recognition | |
Dewa | Javanese vowels sound classification with convolutional neural network | |
Mansour et al. | Voice recognition Using back propagation algorithm in neural networks | |
CN113299297A (zh) | 深度神经网络模型和训练策略 | |
CN114220438B (zh) | 基于bottleneck和通道切分的轻量级说话人识别方法及*** | |
Jati et al. | An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings Using Recurrent Neural Networks. | |
CN108492821A (zh) | 一种减弱语音识别中说话人影响的方法 | |
Yadav et al. | Speech emotion classification using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |