CN115424621A - 声纹识别模型的训练方法、声纹识别方法、装置及设备 - Google Patents

声纹识别模型的训练方法、声纹识别方法、装置及设备 Download PDF

Info

Publication number
CN115424621A
CN115424621A CN202211349630.0A CN202211349630A CN115424621A CN 115424621 A CN115424621 A CN 115424621A CN 202211349630 A CN202211349630 A CN 202211349630A CN 115424621 A CN115424621 A CN 115424621A
Authority
CN
China
Prior art keywords
voice data
voice
speaker
voiceprint recognition
contrast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211349630.0A
Other languages
English (en)
Other versions
CN115424621B (zh
Inventor
刘艳
张传飞
张天昊
魏丽芳
陈松路
殷绪成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202211349630.0A priority Critical patent/CN115424621B/zh
Publication of CN115424621A publication Critical patent/CN115424621A/zh
Application granted granted Critical
Publication of CN115424621B publication Critical patent/CN115424621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备,涉及语音识别领域,通过迭代执行对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定第一对比正对和对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,并确定第二对比正对;根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型;即本发明的实施例通过额外引入的说话人嵌入队列,选取最近邻正实例来构成额外的对比正对,使得训练出的声纹识别模型准确性更高。

Description

声纹识别模型的训练方法、声纹识别方法、装置及设备
技术领域
本发明涉及语音识别领域,尤其涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备。
背景技术
声纹识别是一种将语音输入到声纹识别模型中,模型判断该语音是否为指定说话人的技术,在车载应用、语音唤醒、人机交流和智能家居等场景中有着广泛的应用。
目前,普遍基于对比学习生成图像表征( Simple Framework for ContrastiveLearning of Visual Representations,简称SimCLR)方法来获得声纹识别模型,该方法是将同一段语音切分成两段互不重叠的子语音,来自同一段语音的子语音被认为是正对,来自不同段语音的子语音被认为是负对,然后利用正对、负对进行模型的训练。
但是,因为正对语音都是来自同一语音,说话人的语速和情感等必然会比较单一,这极大限制了正对语音的多样性,此外,正对语音的通道信息和语义信息存在相似性,从而会让模型认为只要通道信息和语义信息相似,那么就是同一说话人。也就是说,目前训练出的声纹识别模型准确性有待提高。
发明内容
本发明的实施例提供了一种声纹识别模型的训练方法、声纹识别方法、装置及设备,以解决目前训练出的声纹识别模型准确性有待提高的技术问题。
第一方面,本发明的实施例提供了声纹识别模型的训练方法,包括:获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入;确定所述说话人嵌入对应的语音片段、最近邻正实例对应的历史语音片段构成第二对比正对;根据所述第一对比正对、第二对比正对和对比负对,对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型。
作为本发明的一实施例,所述对所述当前语音数据子集中的语音数据进行预处理,获得语音片段,包括:对所述当前语音数据子集中的每个语音数据进行分割处理,获得分割语音片段;对所述分割语音片段进行数据增强处理,获得所述语音片段。
作为本发明的一实施例,所述预设条件是预设损失函数收敛;其中,所述预设损失函数为角质原型损失函数和余弦距离损失函数的加权和,所述角质原型损失函数根据第一对比正对之间的距离和对比负对之间的距离确定,所述余弦距离损失函数根据第二对比正对之间的距离确定。
作为本发明的一实施例,所述角质原型损失函数L ap 如下:
Figure 642082DEST_PATH_IMAGE001
所述余弦距离损失函数L cos 如下:
Figure 661991DEST_PATH_IMAGE002
其中,N表示当前语音数据子集中的语音数据的数量,z i,1表示来自于第i个语音数据的第1个语音片段对应的说话人嵌入,z i,2表示来自于第i个语音数据的第2个语音片段对应的说话人嵌入;z j,2表示来自于第j个语音数据的第2个语音片段对应的说话人嵌入;τ是温度系数,e i,1表示z i,1对应的最近邻正实例,e i,2表示z i,2对应的最近邻正实例。
作为本发明的一实施例,所述方法还包括:将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾,并从所述预设说话人嵌入队列的队首依次删除与所述说话人嵌入对应数量的历史说话人嵌入。
作为本发明的一实施例,所述针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,包括:确定每个说话人嵌入与所述预设说话人嵌入队列中各历史说话人嵌入的余弦相似度;确定余弦相似度最大的历史说话人嵌入为所述最近邻正实例。
第二方面,本发明的实施例提供一种声纹识别方法,所述方法基于第一方面任一项所述的声纹识别模型的训练方法所获得的声纹识别模型;所述方法包括:获取待识别语音数据;将所述待识别语音数据输入到所述声纹识别模型中,输出对应的说话人。
第三方面,本发明的实施例提供一种声纹识别模型的训练装置,包括数据模块和训练模块;其中,所述数据模块用于获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;所述训练模块用于迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入;确定所述说话人嵌入对应的语音片段、所述最近邻正实例对应的历史语音片段构成第二对比正对;根据所述第一对比正对、第二对比正对和对比负对,对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型。
第四方面,本发明的实施例提供一种声纹识别装置,所述装置基于第一方面任一项所述的声纹识别模型的训练方法所获得的声纹识别模型;所述装置包括获取模块和处理模块;所述获取模块,用于获取待识别语音数据;所述处理模块,用于将所述待识别语音数据输入到所述声纹识别模型中,输出对应的说话人。
第五方面,本发明的实施例提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面任一项所述的声纹识别模型的训练方法或第二方面所述的声纹识别方法的步骤。
第六方面,本发明的实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的声纹识别模型的训练方法或第二方面所述的声纹识别方法的步骤。
本发明的实施例提供的声纹识别模型的训练方法、声纹识别方法、装置及设备,通过获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入;确定所述说话人嵌入对应的语音片段、最近邻正实例对应的历史语音片段构成第二对比正对;根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型;即本发明的实施例通过额外引入一个说话人嵌入队列,通过该队列,选取最近邻正实例来构成额外的对比正对,这些额外的对比正对因为来自不同的语音,可以增大正对语音的多样性,同时由于不同语音的通道信息和语义信息必然存在差异,因此可以减少对比对中通道信息和语义信息的相似性,从而降低它们的不良影响,使得训练出的声纹识别模型准确性更高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种声纹识别模型的训练方法的流程示意图;
图2为本发明实施例提供的一种语音数据预处理的示意图;
图3为本发明实施例提供的另一种声纹识别模型的训练方法的流程示意图;
图4为本发明实施例提供的一种声纹识别模型的训练方法的示意图;
图5为本发明实施例提供的一种声纹识别方法的流程示意图;
图6为本发明实施例提供的一种声纹识别模型的训练装置的结构示意图;
图7为本发明实施例提供的一种声纹识别装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
声纹识别是一种将语音输入到声纹识别模型中,模型判断该语音是否为指定说话人的技术,在车载应用、语音唤醒、人机交流和智能家居等场景中有着广泛的应用。
传统的声纹识别方法是有监督的,即需要使用大量有标签的语音数据进行网络训练,但有标签的语音数据需要较高的人工成本,而且现实生活中更多的语音数据是没有标签的,而传统方法无法利用这一部分数据进行网络训练。
相对的,对比学习自监督声纹识别方法可以利用无标签语音数据进行训练。目前基于对比学习自监督的声纹识别方法普遍基于SimCLR方法,该方法将输入的所有语音分别分为两段不重叠的子语音片段,然后对所有子语音片段进行数据增广,接着将增广后的子语音片段输入到神经网络中,最终输出每一个子语音片段的说话人嵌入。该方法假设训练所使用的每一段语音中都只有一位说话人讲话,且训练样本和说话人的类别足够多,因此来自同一语音的子语音片段(对比正对)被认为来自同一说话人,来自不同语音的子语音片段(对比负对)被认为来自不同说话人,训练的最终目标就是在最小化对比正对之间距离的同时最大化对比负对之间的距离。
但是,因为正对子语音都是来自同一语音,说话人的语速和情感等必然会比较单一,这极大限制了正对语音的多样性,此外,正对语音的通道信息和语义信息存在相似性,从而会让模型认为只要通道信息和语义信息相似,那么就是同一说话人。也就是说,目前训练出的声纹识别模型的准确性有待提高。
针对上述技术问题,本发明的技术构思在于:通过额外引入一个说话人嵌入队列,通过该队列,选取每个子语音对应的最近邻正实例来构成额外的对比正对进行模型训练。额外的对比正对因为来自不同的语音,可以增大正对语音的多样性,同时由于不同的语音的通道信息和语义信息必然存在差异,因此可以减少对比对中通道信息和语义信息的相似性,从而降低它们的影响。此外,说话人嵌入队列仅在训练时使用,因此在实际测试或识别时,模型的参数量和计算复杂度都不会增加。
图1为本发明实施例提供的一种声纹识别模型的训练方法的流程示意图,本发明实施例的执行主体为声纹识别模型的训练装置或者部署有声纹识别模型的训练装置的电子设备。如图1所示,该声纹识别模型的训练方法包括:
步骤S101、获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集。
具体地,语音数据集中包括若干个语音数据,语音数据可以是无标签的。将语音数据集中的语音数据按照预设数量(或训练批量batch size=N)划分为多个语音数据子集,即每个语音数据子集包括N个语音数据。多个语音数据子集用于对待训练的声纹识别模型进行多次迭代训练。
步骤S102、从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段。
具体地,本发明实施例会利用多个语音数据子集对声纹识别模型进行多次迭代训练,每一次迭代训练时,会从多个语音数据子集中确定一个语音数据子集作为当前迭代训练所使用的语音数据子集,即当前语音数据子集,并对当前语音数据子集中的语音数据进行预处理,获得语音片段。
在一些实施例中,所述步骤S102中的所述对所述当前语音数据子集中的语音数据进行预处理,获得语音片段,包括:对所述当前语音数据子集中的每个语音数据进行分割处理,获得分割语音片段;对所述分割语音片段进行数据增强处理,获得所述语音片段。
具体地,语音数据子集中的每个语音数据首先被截断为两个互不重叠的分割语音片段,并且每个分割语音片段都会被使用随机的数据增广(如加噪声和混响),以增强模型的鲁棒性。图2为本发明实施例提供的一种语音数据预处理的示意图,如图2所示,若语音数据子集中包括语音数据A和语音数据B,将语音数据A裁剪为A1和A2,对A1进行数据增广获得语音片段A3,对A2进行数据增广获得语音片段A4,同理,将语音数据B裁剪为B1和B2,对B1进行数据增广获得语音片段B3,对B2进行数据增广获得语音片段B4。
步骤S103、确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对。
具体地,若两个语音片段来自于同一语音数据,则确定这两个语音片段构成对比正对,若两个语音片段来自于不同语音数据,则确定这两个语音片段构成对比负对。继续参考图2所示,A3和A4来自于同一语音数据A,可以确定A3和A4构成一个正对样本,B3和B4来自于同一语音数据B,可以确定B3和B4构成另一个正对样本,如图中无箭头实线所示;A3和B3来自于不同的语音数据,可以确定A3和B3构成一个负对样本,同理,可确定A3和B4、A4和B3、A4和B4构成另外三个负对样本,如图中无箭头虚线所示。
步骤S104、将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入。
具体地,声纹识别模型可采用深度残差网络(Residual Network,简称ResNet),优选为Fast-ResNet34,除去通道数(即特征数)更少以及下采样时间更早之外,该网络结构和普遍采用的残差网络结构相同,主要由卷积和残差连接构成,即Fast-ResNet34具有性能强、参数少和结构简单的优点。通过该网络,将输入的二维(时间维度和通道维度)语音数据提取出对应的一维(通道维度)语音特征,并最终生成512维的说话人嵌入,整个网络可以端到端地进行训练和测试。本步骤中,将所有语音片段输入到上一迭代获得的深度残差网络,以最终生成对应的说话人嵌入。
步骤S105、针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例。
其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入。
具体地,预设说话人嵌入队列中存储有历史说话人嵌入,该历史说话人嵌入可以是深度残差网络之前提取的说话人嵌入,在训练开始时,预设说话人嵌入队列可以被初始化为一个二维的随机矩阵。通过比较当前迭代训练的每个说话人嵌入和预设说话人嵌入队列中所有历史说话人嵌入的相似性,选取最相似的历史说话人队列为最近邻正实例。
在一些实施例中,所述步骤S105包括:确定每个说话人嵌入与所述预设说话人嵌入队列中各历史说话人嵌入的余弦相似度;确定余弦相似度最大的历史说话人嵌入为所述最近邻正实例。
具体地,针对当前迭代训练获得的每一个说话人嵌入,使用余弦相似度来计算它们与预设说话人嵌入队列中各历史说话人嵌入的相似性,并选择最相似的历史说话人嵌入作为它们的最近邻正实例。其中,最近邻正实例的获取过程如公式(1)所示:
Figure DEST_PATH_IMAGE003
(1)
其中,e表示最近邻正实例,Q表示预设说话人嵌入队列,q表示预设说话人嵌入队列中的其中一个历史说话人嵌入,z表示语音片段对应的说话人嵌入。
步骤S106、确定所述说话人嵌入对应的语音片段、所述最近邻正实例对应的历史语音片段构成第二对比正对。
具体地,将最近邻正实例和当前迭代训练提取的说话人嵌入所对应的语音片段组合为额外的对比正对,即第二对比正对。
步骤S107、根据所述第一对比正对、第二对比正对和对比负对,对所述上一迭代轮次获得的深度残差网络模型进行训练,获得当前深度残差网络模型。
具体地,将从当前语音数据子集中提取的第一对比正对、第二对比正对、对比负对对深度残差网络进行训练,获得当前深度残差网络模型。
步骤S108、判断是否满足预设条件。
若不满足,则返回步骤S102以进入下一轮迭代;若满足,则执行步骤S109。
步骤S109、确定当前深度残差网络为训练好的声纹识别模型。
具体地,在根据当前语音数据子集完成对深度残差网络模型的当前迭代训练后,判断是否满足预设条件,若不满足,则可以更新深度残差网络模型的模型参数,并利用另一语音数据子集进行下一轮迭代训练,若满足,则将当前深度残差网络确定为声纹识别模型。
在一些实施例中,所述预设条件是预设损失函数收敛;其中,所述预设损失函数为角质原型损失函数和余弦距离损失函数的加权和,所述角质原型损失函数根据第一对比正对之间的距离和对比负对之间的距离确定,所述余弦距离损失函数根据第二对比正对之间的距离确定。
具体地,预设损失函数L包括两大部分,分别是角质原型(angular prototypical,ap)损失L ap 和余弦距离(cosine distance, cos)损失L cos ,角质原型损失的目的是最小化第一对比正对之间的距离,同时最大化对比负对之间的距离,余弦距离损失的目的是最小化最近邻实例e和它们对应的说话人嵌入z,即第二对比正对之间的距离,即预设损失函数收敛是指最小化第一对比正对、第二对比正对之间的距离,同时最大化对比负对之间的距离,其如
公式(2)所示:
Figure 867844DEST_PATH_IMAGE004
(2)
其中,λ为超参数,负责分配角质原型损失和余弦距离损失各自的权重。
在一些实施例中,所述角质原型损失函数L ap 如公式(3)所示:
Figure 391230DEST_PATH_IMAGE005
(3)
所述余弦距离损失函数L cos 如公式(4)所示:
Figure 647505DEST_PATH_IMAGE002
(4)
其中,N表示当前语音数据子集中的语音数据的数量(即batch size),可根据人为经验设置,z i,1表示来自于第i个语音数据的第1个语音片段对应的说话人嵌入,z i,2表示来自于第i个语音数据的第2个语音片段对应的说话人嵌入;z j,2表示来自于第j个语音数据的第2个语音片段对应的说话人嵌入;τ是softmax函数的温度系数,用于控制函数的平滑度,e i,1表示z i,1对应的最近邻正实例,e i,2表示z i,2对应的最近邻正实例。
本发明实施例提供的声纹识别模型的训练方法,通过获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入;确定所述说话人嵌入对应的语音片段、最近邻正实例对应的历史语音片段构成第二对比正对;根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型;即本发明的实施例通过额外引入一个说话人嵌入队列,通过该队列,选取最近邻正实例来构成额外的对比正对,这些额外的对比正对因为来自不同的语音,可以增大正对语音的多样性,同时由于不同语音的通道信息和语义信息必然存在差异,因此可以减少对比对中通道信息和语义信息的相似性,从而降低它们的不良影响,使得训练出的声纹识别模型准确性更高;此外,引入的说话人嵌入队列仅在训练时使用,在实际测试识别时,模型的参数量和计算复杂度都不会增加。
在上述实施例的基础上,图3为本发明实施例提供的另一种声纹识别模型的训练方法的流程示意图,如图3所示,该声纹识别模型的训练方法包括:
步骤S301、获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集。
步骤S302、从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段。
步骤S303、确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对。
步骤S304、将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入。
步骤S305、针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例。
步骤S306、确定所述说话人嵌入对应的语音片段、所述最近邻正实例对应的历史语音片段构成第二对比正对。
步骤S307、根据所述第一对比正对、第二对比正对和对比负对,对所述上一迭代轮次获得的深度残差网络模型进行训练,获得当前深度残差网络模型。
步骤S308、判断是否满足预设条件。
若否,则执行步骤S309,并返回到步骤S302;若是,则执行步骤S310。
步骤S309、将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾,并从所述预设说话人嵌入队列的队首依次删除与所述说话人嵌入对应数量的历史说话人嵌入。
步骤S310、确定当前深度残差网络为训练好的声纹识别模型。
本发明实施例中的步骤S301-S308、S310的实现方式与上述实施例中的步骤S101-S109的实现方式类似,此处不再赘述。
与上述实施例的区别在于,为了进一步提高训练出的声纹识别模型的准确性,本实施例中,每完成当前迭代训练后,将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾,并从所述预设说话人嵌入队列的队首依次删除与所述说话人嵌入对应数量的历史说话人嵌入。
具体地,说话人嵌入队列是一个先进先出的单向队列,当每完成一次迭代训练后,会将新生成的说话人嵌入写入到队列的末尾,并从说话人嵌入队列的队首依次删除对应数量的历史说话人嵌入,即将时间最久远的历史说话人嵌入删除。因此,说话人嵌入队列中的说话人嵌入就会一直更新,从而防止出现说话人嵌入队列队列中的历史说话人嵌入因过时而和当前的深度残差网络不匹配的情况。
本发明实施例提供的声纹识别模型的训练方法,每完成当前迭代训练后,将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾,并从所述预设说话人嵌入队列的队首依次删除与所述说话人嵌入对应数量的历史说话人嵌入;即本发明实施例通过实时更新说话人嵌入队列,防止出现说话人嵌入队列中的历史说话人嵌入过时而和当前的深度残差网络不匹配的情况,进一步提高了训练出的声纹识别模型的准确性。
图4为本发明实施例提供的一种声纹识别模型的训练方法的示意图,现结合图4,对本发明实施例进行进一步说明。
首先,确定语料库(即语音数据集)。在声纹识别领域中,使用率较高的一个大型声纹识别语料库为Voxceleb语料库,该语料库中的音频全部是从网上视频切除出对应的音轨,再根据说话人进行切分,属于完全真实的语音,而且说话内容不固定,是与文本无关的。说话人的范围广泛,具有多样的口音、职业和年龄。每句语音的平均时长8.2s,最大时长145s,最短时长4s,短语音较多。语料库男女性别较均衡,男性有690人(55%),女性有561人。采样率为16kHz,16bit,单声道,且语音带有真实噪声,非人造白噪声,噪声出现时间点无规律,噪声包括:环境突发噪声、背景人声、笑声、回声、室内噪音和录音设备噪音。该语料库分为VoxCeleb1和VoxCeleb2两个语料库,其中,Voxceleb1语料库包含145265个针对1,251个名人的语音片段(即语音数据是带标签的),可用于本发明实施例对训练好的声纹识别模型中进行测试;Voxceleb2语料库与VoxCeleb1语料库没有重叠的说话人身份,包含超过100万条的语音片段,总时长达到2000小时以上,可作为本发明实施例的语音数据集,对模型进行训练。
然后设置相关参数,比如采用Pytorch1.7.0深度学习框架,利用Adam优化策略和梯度累加策略训练,其中的动量参数设置为0.9,初始学习率设置为0.0001,训练批量为32。模型训练过程是在一台含有4块NVIDIA Titan XP GPU的机器上进行。
然后,将Voxceleb2语料库按照预先设置的训练批量32划分为多个批次的语音数据(即语音数据子集),并对每一批次的语音数据进行如图4所示的训练过程,即每个语音数据被裁剪为两个子语音(或称为语音片段),并且每个子语音都会被使用随机的数据增广(加噪声和混响),从同一语音数据中截断的语音片段被视为正对,从不同语音数据中截断的语音片段被视为负对。然后,将所有语音片段输入神经网络(即深度残差网络)中以生成对应的说话人嵌入,每个说话人嵌入都被用于从说话人嵌入队列中获取对应的最近邻正实例,在训练时,使用角质原型损失最小化对比正对之间的距离并最大化对比负对之间的距离,同时使用余弦距离损失以最小化说话人嵌入和它们对应的最近邻正实例之间的距离。
在训练完成后,为评估所训练出的声纹识别模型的有效性,可利用VoxCeleb1语料库进行声纹识别测试,并与采用其他方法训练出的声纹识别模型进行对比,对比结果如表1所示,其中,其他方法如基于跨模态自监督的去纠缠语音嵌入(Disentangled speechembeddings using cross-modal self-supervision,简称Disent),采用VGG-M神经网络模型,又如基于跨模态自我监督学习区分嵌入(learning discriminative embeddingsusing cross-modal selfsupervision,简称CDDL),采用VGG-M神经网络模型,又如SimCLR,采用X-vector模型,又如无监督视觉表征学习的动量对比(Momentum contrast forunsupervised visual representation learning,简称MOCO),采用X-vector模型。
表1
方法 模型 等错误率 最小检测代价 参数量(M)
Disent VGG-M 22.09 8.0
CDDL VGG-M 17.52 8.0
SimCLR X-vector 18.14 0.801 4.2
MOCO X-vector 8.23 0.590 4.2
本实施例 Fast-ResNet34 8.55 0.462 1.4
如表1所示,本实施例在参数量较小的情况下,等错误率和最小检测代价均达到了较低的水平。其中,等错误率和最小检测代价是声纹识别领域最常用的两个评价指标,等错误率是指在错误接受率和错误拒绝率相等时的错误率,而最小检测代价不仅考虑了错误接受率和错误拒绝率的不同代价,还考虑了两类错误率的先验概率,比等错误率更合理。
为了进一步验证本实施例采用最近邻正实例的效果,进行了使用最近邻正实例和不使用最近邻实例两种情况下的对比实验,如表2所示,使用最近邻正实例的效果明显要比不使用最近邻实例的情况要好,等错误率和最小检测代价分别降低了7.47%和7.04%,这充分证明了最近邻正实例的有效性。
表2
方法 等错误率 最小检测代价
不使用最近邻正实例 9.24 0.497
使用最近邻正实例 8.55 0.462
综上,本发明实施例通过最近邻正实例来构成额外的对比正对进行声纹识别,额外的对比正对因为来自不同的语音,可以增大正对语音的多样性,同时由于不同的语音的通道信息和语义信息必然存在差异,因此可以减少对比对中通道信息和语义信息的相似性,从而降低它们的影响。此外,本方法引入的说话人嵌入队列仅在训练时使用,因此在实际测试推理时,模型的参数量和计算复杂度都不会增加。
图5为本发明实施例提供的一种声纹识别方法的流程示意图,所述方法基于上述的声纹识别模型的训练方法所获得的声纹识别模型。如图5所示,该声纹识别方法包括:
步骤S501、获取待识别语音数据。
步骤S502、将所述待识别语音数据输入到所述声纹识别模型中,输出对应的说话人。
具体地,声纹识别模型中包括编码器和全连接层,全连接层用于训练使用,将待识别语音数据输入到声纹识别模型中,获得对应的语音特征,并根据语音特征确定对应的说话人,即通过上述的声纹识别模型,能够提高识别的准确性。
本发明的实施例提供的声纹识别方法与上述实施例的实现原理和技术效果一致,此处不再赘述。
图6为本发明实施例提供的一种声纹识别模型的训练装置的结构示意图,如图6所示,所述装置600包括数据模块601和训练模块602:
其中,所述数据模块601用于获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;所述训练模块602用于迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入;确定所述说话人嵌入对应的语音片段、所述最近邻正实例对应的历史语音片段构成第二对比正对;根据所述第一对比正对、第二对比正对和对比负对,对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型。
作为本发明的一实施例,所述训练模块602,具体用于:对所述当前语音数据子集中的每个语音数据进行分割处理,获得分割语音片段;对所述分割语音片段进行数据增强处理,获得所述语音片段。
作为本发明的一实施例,所述预设条件是预设损失函数收敛;其中,所述预设损失函数为角质原型损失函数和余弦距离损失函数的加权和,所述角质原型损失函数根据第一对比正对之间的距离和对比负对之间的距离确定,所述余弦距离损失函数根据第二对比正对之间的距离确定。
作为本发明的一实施例,所述角质原型损失函数L ap 如下:
Figure 154710DEST_PATH_IMAGE006
所述余弦距离损失函数L cos 如下:
Figure 633096DEST_PATH_IMAGE002
其中,N表示当前语音数据子集中的语音数据的数量,z i,1表示来自于第i个语音数据的第1个语音片段对应的说话人嵌入,z i,2表示来自于第i个语音数据的第2个语音片段对应的说话人嵌入;z j,2表示来自于第j个语音数据的第2个语音片段对应的说话人嵌入;τ是温度系数,e i,1表示来自于第i个语音数据的第1个语音片段对应的最近邻正实例,e i,2表示来自于第i个语音数据的第2个语音片段对应的最近邻正实例。
作为本发明的一实施例,所述训练模块602,还用于:将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾,并从所述预设说话人嵌入队列的队首依次删除与所述说话人嵌入对应数量的历史说话人嵌入。
作为本发明的一实施例,所述训练模块602,具体用于:确定每个说话人嵌入与所述预设说话人嵌入队列中各历史说话人嵌入的余弦相似度;确定余弦相似度最大的历史说话人嵌入为所述最近邻正实例。
本发明实施例提供的声纹识别模型的训练装置,其实现原理和技术效果与上述实施例类似,此处不再赘述。
图7为本发明实施例提供的一种声纹识别装置的结构示意图,所述声纹识别装置基于上述的声纹识别模型的训练方法所获得的声纹识别模型;所述声纹识别装置700包括获取模块701和处理模块702;
所述获取模块701,用于获取待识别语音数据;所述处理模块702,用于将所述待识别语音数据输入到所述声纹识别模型中,输出对应的说话人。
本发明实施例提供的声纹识别装置,其实现原理和技术效果与上述实施例类似,此处不再赘述。
如图8所示,本发明实施例提供了一种电子设备,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
在本发明一个实施例中,处理器801,用于执行存储器803上所存放的程序时,实现前述任意一个方法实施例提供的声纹识别模型的训练方法或声纹识别方法的步骤。
本发明实施例提供的电子设备,其实现原理和技术效果与上述实施例类似,此处不再赘述。
上述存储器803可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器803具有用于执行上述方法中的任何方法步骤的程序代码的存储空间。例如,用于程序代码的存储空间可以包括分别用于实现上面的方法中的各个步骤的各个程序代码。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,光盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与上述电子设备中的存储器803类似布置的存储段或者存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本发明的实施例的方法步骤的程序,即可以由例如诸如801之类的处理器读取的代码,这些代码当由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤。
本发明的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的声纹识别模型的训练方法或声纹识别方法的步骤。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种声纹识别模型的训练方法,其特征在于,包括:
获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;
迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:
从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;
确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对;
将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;
针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入;
确定所述说话人嵌入对应的语音片段、最近邻正实例对应的历史语音片段构成第二对比正对;
根据所述第一对比正对、第二对比正对和对比负对,对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型。
2.根据权利要求1所述的训练方法,其特征在于,所述对所述当前语音数据子集中的语音数据进行预处理,获得语音片段,包括:
对所述当前语音数据子集中的每个语音数据进行分割处理,获得分割语音片段;
对所述分割语音片段进行数据增强处理,获得所述语音片段。
3.根据权利要求2所述的训练方法,其特征在于,所述预设条件是预设损失函数收敛;
其中,所述预设损失函数为角质原型损失函数和余弦距离损失函数的加权和,所述角质原型损失函数根据第一对比正对之间的距离和对比负对之间的距离确定,所述余弦距离损失函数根据第二对比正对之间的距离确定。
4.根据权利要求3所述的训练方法,其特征在于,所述角质原型损失函数L ap 如下:
Figure 74933DEST_PATH_IMAGE001
所述余弦距离损失函数L cos 如下:
Figure 9391DEST_PATH_IMAGE002
其中,N表示当前语音数据子集中的语音数据的数量,z i,1表示来自于第i个语音数据的第1个语音片段对应的说话人嵌入,z i,2表示来自于第i个语音数据的第2个语音片段对应的说话人嵌入;z j,2表示来自于第j个语音数据的第2个语音片段对应的说话人嵌入;τ是温度系数,e i,1表示z i,1对应的最近邻正实例,e i,2表示z i,2对应的最近邻正实例。
5.根据权利要求1-4任一项所述的训练方法,其特征在于,所述方法还包括:
将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾,并从所述预设说话人嵌入队列的队首依次删除与所述说话人嵌入对应数量的历史说话人嵌入。
6.根据权利要求1-4任一项所述的训练方法,其特征在于,所述针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,包括:
确定每个说话人嵌入与所述预设说话人嵌入队列中各历史说话人嵌入的余弦相似度;
确定余弦相似度最大的历史说话人嵌入为所述最近邻正实例。
7.一种声纹识别方法,其特征在于,所述方法基于权利要求1-6任一项所述的声纹识别模型的训练方法所获得的声纹识别模型;所述方法包括:
获取待识别语音数据;
将所述待识别语音数据输入到所述声纹识别模型中,输出对应的说话人。
8.一种声纹识别模型的训练装置,其特征在于,包括数据模块和训练模块;
其中,所述数据模块用于获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;
所述训练模块用于迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:
从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;
确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对;
将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;
针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入;
确定所述说话人嵌入对应的语音片段、所述最近邻正实例对应的历史语音片段构成第二对比正对;
根据所述第一对比正对、第二对比正对和对比负对,对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型。
9.一种声纹识别装置,其特征在于,所述装置基于权利要求1-6任一项所述的声纹识别模型的训练方法所获得的声纹识别模型;所述装置包括获取模块和处理模块;
所述获取模块,用于获取待识别语音数据;
所述处理模块,用于将所述待识别语音数据输入到所述声纹识别模型中,输出对应的说话人。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一项所述的声纹识别模型的训练方法或如权利要求7所述的声纹识别方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的声纹识别模型的训练方法或如权利要求7所述的声纹识别方法的步骤。
CN202211349630.0A 2022-10-31 2022-10-31 声纹识别模型的训练方法、声纹识别方法、装置及设备 Active CN115424621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211349630.0A CN115424621B (zh) 2022-10-31 2022-10-31 声纹识别模型的训练方法、声纹识别方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211349630.0A CN115424621B (zh) 2022-10-31 2022-10-31 声纹识别模型的训练方法、声纹识别方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115424621A true CN115424621A (zh) 2022-12-02
CN115424621B CN115424621B (zh) 2023-04-07

Family

ID=84208277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211349630.0A Active CN115424621B (zh) 2022-10-31 2022-10-31 声纹识别模型的训练方法、声纹识别方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115424621B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830006A (zh) * 2023-02-03 2023-03-21 山东锋士信息技术有限公司 一种基于近邻对比的改进超球空间学习的异常检测方法
CN116434759A (zh) * 2023-04-11 2023-07-14 兰州交通大学 一种基于srs-cl网络的说话人识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009258A (zh) * 2020-03-11 2020-04-14 浙江百应科技有限公司 一种单声道说话人分离模型、训练方法和分离方法
CN113488058A (zh) * 2021-06-23 2021-10-08 武汉理工大学 一种基于短语音的声纹识别方法
US20220044688A1 (en) * 2020-08-04 2022-02-10 OTO Systems Inc. Sample-efficient representation learning for real-time latent speaker state characterization
CN114067803A (zh) * 2021-10-21 2022-02-18 北京工业大学 一种基于距离相关的度量学习的说话人确认方法
CN114613369A (zh) * 2022-03-07 2022-06-10 哈尔滨理工大学 一种基于特征差异最大化的说话人识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009258A (zh) * 2020-03-11 2020-04-14 浙江百应科技有限公司 一种单声道说话人分离模型、训练方法和分离方法
US20220044688A1 (en) * 2020-08-04 2022-02-10 OTO Systems Inc. Sample-efficient representation learning for real-time latent speaker state characterization
CN113488058A (zh) * 2021-06-23 2021-10-08 武汉理工大学 一种基于短语音的声纹识别方法
CN114067803A (zh) * 2021-10-21 2022-02-18 北京工业大学 一种基于距离相关的度量学习的说话人确认方法
CN114613369A (zh) * 2022-03-07 2022-06-10 哈尔滨理工大学 一种基于特征差异最大化的说话人识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴震东等: "基于CNN的连续语音说话人声纹识别", 《电信科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830006A (zh) * 2023-02-03 2023-03-21 山东锋士信息技术有限公司 一种基于近邻对比的改进超球空间学习的异常检测方法
CN116434759A (zh) * 2023-04-11 2023-07-14 兰州交通大学 一种基于srs-cl网络的说话人识别方法
CN116434759B (zh) * 2023-04-11 2024-03-01 兰州交通大学 一种基于srs-cl网络的说话人识别方法

Also Published As

Publication number Publication date
CN115424621B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN115424621B (zh) 声纹识别模型的训练方法、声纹识别方法、装置及设备
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN107564513A (zh) 语音识别方法及装置
JP2654917B2 (ja) ニューラル・ネットワークを使用する話者独立孤立単語音声認識システム
CN111243602A (zh) 基于性别、国籍和情感信息的声纹识别方法
CN111429948A (zh) 一种基于注意力卷积神经网络的语音情绪识别模型及方法
CN111653275B (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN110675862A (zh) 语料获取方法、电子装置及存储介质
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和***
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
EP3910625A2 (en) Method and apparatus for utterance time estimation
CN112074903A (zh) 用于口语中的声调识别的***和方法
CN109448732A (zh) 一种数字串语音处理方法及装置
CN110992943B (zh) 基于词混淆网络的语义理解方法及***
CN116013321A (zh) 一种基于知识蒸馏的平凡发音说话者识别方法及***
CN114020897A (zh) 一种对话情感识别方法及相关装置
CN113516987A (zh) 一种说话人识别方法、装置、存储介质及设备
CN110808036B (zh) 一种增量式语音命令词识别方法
Zheng et al. Contrastive auto-encoder for phoneme recognition
CN113282718B (zh) 一种基于自适应中心锚的语种识别方法及***
CN116304728A (zh) 一种基于句子表征的短文本相似度匹配方法及应用
CN112233668B (zh) 一种基于神经网络的语音指令及身份识别方法
CN112116165B (zh) 一种业务绩效确定方法和装置
CN113705671A (zh) 一种基于文本相关信息感知的说话人识别方法与***
CN114360507A (zh) 基于跨层连接注意力的语音识别网络、方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant