CN106297807A - 训练声纹识别***的方法和装置 - Google Patents

训练声纹识别***的方法和装置 Download PDF

Info

Publication number
CN106297807A
CN106297807A CN201610639606.9A CN201610639606A CN106297807A CN 106297807 A CN106297807 A CN 106297807A CN 201610639606 A CN201610639606 A CN 201610639606A CN 106297807 A CN106297807 A CN 106297807A
Authority
CN
China
Prior art keywords
regular
identity
vector
classification
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610639606.9A
Other languages
English (en)
Other versions
CN106297807B (zh
Inventor
李为
钱柄桦
金星明
李科
吴富章
吴永坚
黄飞跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610639606.9A priority Critical patent/CN106297807B/zh
Publication of CN106297807A publication Critical patent/CN106297807A/zh
Priority to EP17836440.2A priority patent/EP3477639B1/en
Priority to PCT/CN2017/096232 priority patent/WO2018024259A1/zh
Priority to US16/231,913 priority patent/US10854207B2/en
Application granted granted Critical
Publication of CN106297807B publication Critical patent/CN106297807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种训练声纹识别***的方法和装置,属于声纹识别技术领域。该方法包括:确定出语音训练集合中每段语音的身份向量,将确定出的身份向量中同一用户的语音的身份向量划分为一个类别;建立用于计算与每一类别对应的第一数值的第一函数,第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和;确定出使各个类别的第一数值的总和最大化的规整矩阵;利用确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。解决了相关技术中利用经过利用线性区分分析处理后的身份向量进行声纹识别准确率的提高程度低的问题,提高了声纹识别的准确率。

Description

训练声纹识别***的方法和装置
技术领域
本发明涉及声纹识别技术领域,特别涉及一种训练声纹识别***的方法和装置。
背景技术
声纹识别是生物识别技术的一种,通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量,可通过计算两段语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户。
语音易受到信道易变性和环境易变性的干扰导致其身份向量畸变。相关技术中,假设同一用户的若干段语音在空间中的分布为多维高斯分布,利用线性区分分析(英文:linear discriminant analysis,LDA)对身份向量进行处理,补偿身份向量的畸变进而提高声纹识别的准确率。
然而,在实际实现时,同一用户的若干段语音在空间中的分布难以呈现理想的多维高斯分布,因此利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低。
发明内容
为了解决现有技术中利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低的问题,本发明实施例提供了一种训练声纹识别***的方法和装置。所述技术方案如下:
第一方面,提供了一种训练声纹识别***的方法,所述方法包括:计算机***确定出语音训练集合中每段语音的身份向量,将所述确定出的身份向量中同一用户的语音的身份向量划分为一个类别;所述计算机***建立用于计算与每一类别对应的第一数值的第一函数,所述第一数值为对应类别内利用规整矩阵规整后的第一身份向量与所述对应类别内利用所述规整矩阵规整后的其他身份向量之间相似度的总和,所述第一函数的随机变量为所述规整矩阵,所述规整矩阵被用于左乘身份向量来规整所述身份向量;所述计算机***确定出使各个类别的第一数值的总和最大化的规整矩阵;所述计算机***利用确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。
由于计算机***确定出的规整矩阵使各个类别的第一数值的总和最大化,同一个用户的不同段的语音的身份向量在利用规整矩阵进行规整后相似度提高,解决了相关技术中利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低的问题,提高了声纹识别的准确率。
第二方面,提供了一种训练声纹识别***的装置,所述装置包括:分类模块,用于确定出语音训练集合中每段语音的身份向量,将所述确定出的身份向量中同一用户的语音的身份向量划分为一个类别;建立模块,用于建立用于计算与每一类别对应的第一数值的第一函数,所述第一数值为对应类别内利用规整矩阵规整后的第一身份向量与所述对应类别内利用所述规整矩阵规整后的其他身份向量之间相似度的总和,所述第一函数的随机变量为所述规整矩阵,所述规整矩阵被用于左乘身份向量来规整所述身份向量;确定模块,用于确定出使各个类别的第一数值的总和最大化的规整矩阵;规整模块,用于利用所述确定模块确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中提供的训练声纹识别***的方法流程图;
图2A是本发明另一个实施例中提供的训练声纹识别***的方法流程图;
图2B是本发明另一个实施例中提供的建立第一函数的流程图;
图2C是本发明另一个实施例中提供的确定出使各个类别的第一数值的总和最大化的规整矩阵的流程图;
图2D是本发明另一个实施例中提供的利用声纹识别***对语音的输入者的身份进行识别的流程图;
图2E是本发明另一个实施例中提供的声纹识别***的使用阶段示意图;
图3是本发明一个实施例中提供的训练声纹识别***的装置的框图;
图4是本发明一个实施例提供的声纹识别***的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
语音易受到信道易变性和环境易变性的干扰,导致声纹识别***为其生成的身份向量畸变,降低了声纹识别***的识别准确率。本发明实施例一和实施例二提供了训练声纹识别***的方法,为声纹识别***训练出规整矩阵。声纹识别***可利用训练出的规整矩阵对身份向量进行规整,来补偿身份向量的畸变。
实施例一
图1是本发明一个实施例中提供的训练声纹识别***的方法流程图,如图1所示,该训练声纹识别***的方法可以包括如下几个步骤:
步骤101,计算机***确定出语音训练集合中每段语音的身份向量,将确定出的身份向量中同一用户的语音的身份向量划分为一个类别。
步骤102,计算机***建立用于计算与每一类别对应的第一数值的第一函数,第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和,第一函数的随机变量为规整矩阵,规整矩阵被用于左乘身份向量来规整该身份向量。
步骤103,计算机***确定出使各个类别的第一数值的总和最大化的规整矩阵。
步骤104,计算机***在声纹识别***中利用确定出的规整矩阵规整每段语音的身份向量。
综上所述,本实施例中提供的训练声纹识别***的方法,通过将同一用户的语音的身份向量划分为一个类别,建立用于计算一个类别内规整后的第一身份向量与该类别内的规整后的其他身份向量之间相似度的总和的第一函数,第一函数的函数值为第一数值,确定出使各个类别的第一数值的总和最大化的规整矩阵,完成了声纹识别***的训练。由于确定出的规整矩阵使各个类别的第一数值的总和最大化,同一个用户的不同段的语音的身份向量在利用规整矩阵进行规整后相似度提高,解决了相关技术中利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低的问题,提高了声纹识别的准确率。
实施例二
图2A是本发明另一个实施例中提供的训练声纹识别***的方法流程图,如图2A所示,该训练声纹识别***的方法可以包括如下几个步骤:
步骤201,计算机***确定出语音训练集合中每段语音的身份向量,将确定出的身份向量中同一用户的语音的身份向量划分为一个类别。
一般来讲,对于一个用户,记录或收集该用户的至少两段语音,并将这些记录到或收集到的语音添加至语音训练集合中,该语音训练集合中至少包含两个用户的语音。
进一步的,计算机***对语音训练集合中的每段语音进行处理,生成用于指示该段语音输入者身份信息的身份向量,并将语音训练集合中同一个用户的语音的身份向量划分为一个类别。
计算机***从语音中提取特征,根据提取出的特征生成身份向量可通过多种方式实现,并且为本领域普通技术人员所能实现的,本实施对此不再赘述。
举例来讲,语音训练集合由m个用户的语音组成,这m个用户可以分别利用用户1、用户2…用户m-1以及用户m来表示。计算机***将用户1的各段语音所对应的身份向量划分至类别1,并利用C1表示类别1内的身份向量的集合;计算机***将用户2的各段语音所对应的身份向量划分至类别2,并利用C2表示类别2内的身份向量的集合;计算机***将用户m的各段语音所对应的身份向量划分至类别m,利用Cm表示类别m内的身份向量的集合,其他用户依次类推。
步骤202,计算机***建立用于计算与每一类别对应的第一数值的第一函数,第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和,该第一函数的随机变量为规整矩阵。
对于任一类别,计算机***需要为该类别建立用于计算该类别对应的第一数值的第一函数。举例来讲,对于类别1,需要建立用于计算类别1对应的第一数值的第一函数,类别1对应的第一数值为用户1内的第一身份向量与用户1内的其他身份向量之间的相似度的总和;再举例来讲,对于类别2,需要建立用于计算类别2对应的第一数值的第一函数,类别2对应的第一数值为用户2内的第一身份向量与用户2内的其他身份向量之间的相似度的总和,其他类别的对应的第一函数依次类推。
进一步的,计算机***在建立某一个类别对应的第一函数时,从该类别的身份向量中随机确定出一个身份向量作为第一身份向量,建立用于计算规整后的第一身份向量与该类别内规整后的其他身份向量之间的相似度总和的第一函数。
这里所讲的其他身份向量通常为该类别内与第一身份向量不相同的身份向量。
举例来讲,类别1内的身份向量包括w1、w2、…w6,当计算机***从类别1内选择身份向量w3作为第一身份向量时,这里所讲的其他身份向量包括身份向量w1、身份向量w2、身份向量w4、身份向量w5和身份向量w6
对应的,在建立类别1对应的第一函数时,在随机选择的结果为身份向量w3的情况下,建立用于计算规整后的w1与规整后的w3之间相似度、规整后的w2与规整后的w3之间相似度、规整后的w3与规整后的w4之间相似度、规整后的w3与规整后的w5之间相似度以及规整后的w3与规整后的w6之间相似度的总和的第一函数。
图2B是本发明提供的建立第一函数的流程图。可选的,本步骤可以通过如图2B所示的几个子步骤实现。
步骤202a,对于任一类别,计算机***从该类别内的其他身份向量中确定出至少一个第二身份向量,利用该类别内规整后的第一身份向量减去该类别内规整后的第二身份向量得到第一向量差,将该第一向量差的模的平方的相反数确定为第一指数函数的指数。
计算机***利用规整矩阵对身份向量进行规整。具体的,计算机***利用规整矩阵左乘身份向量完成对该身份向量的规整。
利用矩阵A表示规整矩阵,利用Cm表示类别m内的身份向量的集合,利用wi表示类别m内的第一身份向量,利用wj表示类别m内的第二身份向量,则第一身份向量wi∈Cm,第二身份向量wj∈Cm,规整后的第一身份向量为Awi,规整后的第二身份向量为Awj,利用规整后的第一身份向量Awi减去规整后的第二身份向量Awj得到第一向量差为Awi-Awj,则第一指数函数为
举例来讲,将类别1的身份向量w1确定为第二身份向量,则第二身份向量w1对应的第一指数函数为再举例来讲,将用户内的身份向量w2确定为第二身份向量,则第二身份向量w2对应的第一指数函数为
步骤202b,上述确定出的身份向量中与第二身份向量不同的身份向量确定为第三身份向量,对于每个确定出的第三身份向量,计算机***利用该类别内规整后的第一身份向量减去该类别内规整后的第三身份向量得到第二向量差,将该第二向量差的模的平方的相反数确定为第二指数函数的指数。
这里所讲的第三身份向量是与第二身份向量不同的身份向量。举例来讲,语音训练集合中包含k段语音,则从中确定出k个语音向量。在类别1中的第一身份向量为w3、类别1中的第二身份向量为w2的情况下,将上述k个身份向量中与第二身份向量为w2不同的身份向量确定为第三身份向量。
在利用wk表示第三身份向量时,规整后的第三身份向量为Awk,第二向量差为Awi-Awk,第二指数函数为举例来讲,将用户2内的身份向量w7确定为第三身份向量,则第三身份向量w7对应的第二指数函数为再举例来讲,将将用户1内的身份向量w4确定为第三身份向量,则第三身份向量w4对应的第二指数函数为
步骤202c,计算机***将第一指数函数确定为该第二身份向量对应的第二函数的分子,利用各个上述确定出的第三身份向量所对应的第二指数函数相加得到第二函数的分母。
其中,第二函数是用于计算规整后的第一身份向量和规整后的第二身份向量的相似度的函数。计算机***可从该类别内与第一身份向量不同的身份向量中确定出多个第二身份向量,建立与每个第二身份向量相对应的第二函数,该第二身份向量对应的第二函数的分子为该第二身份向量对应的第一指数函数。
另外,第二函数的分母是利用确定出的每个第三身份向量对应的第二指数函数相加得到的,则第二函数可以表示为也就是说各个第二身份向量对应的第二函数的分母均可以表示为
举例来讲,当第二身份向量为w1时,第二身份向量为w1对应的第二函数为当第二身份向量为w2时,第二身份向量为w2对应的第二函数为当第二身份向量为wj时,第二身份向量wj对应的第二函数为其他第二身份向量依次类推。
当利用f2(A)表示第二函数时,类别m的第二函数可以表示为其中,wi表示类别m内的第一身份向量,wj表示类别m内的第二身份向量,wk表示第三身份向量,Pij用于表示第一身份向量和第二身份向量的相似度。
步骤202d,计算机***将各个第二身份向量对应的第二函数相加得到第一函数。
利用f1(A)表示第一函数,利用Cm表示类别m内的身份向量的集合,则类别m的第一函数可以表示为Pi用于表示类别m的第一函数。
其中,第一函数的第一数值越高,表明该类别内的身份向量在空间中的位置的聚集程度更高。
步骤203,计算机***利用各个类别对应的第一函数相加得到第三函数,确定出第三函数的导函数,将导函数的数值确定为第二数值。
利用f3(A)表示第三函数,则本领域普通技术人员可利用第一函数推导出第三函数的导函数表示为其中wik=wi-wk,wij=wi-wj
需要说明的一点是,利用第一函数的表达式推导出第三函数的导函数的表达式是本领域普通技术人员所能实现的,本实施例不再对利用第一函数推导出第三函数的导函数的推导过程进行赘述。
步骤204,计算机***初始化规整矩阵,利用初始化的规整矩阵计算第一数值的初始值以及第二数值的初始值。
一般来讲,规整矩阵为列矩阵,且规整矩阵的行数与身份向量的列数相同。
进一步的,利用计算机***初始化规整矩阵,计算机***从语音训练集合对应的身份向量确定出第1个子训练集合,利用第1个子训练集合中的身份向量和初始化的规整矩阵,计算第一数值的初始值以及第二数值的初始值。
举例来讲,将第1个子训练集合中的身份向量和初始化规整矩阵A1带入第三函数,得到第三函数的第一数值的初始值f3(A1),将初始化规整矩阵A1带入第三函数的导函数,得到导函数的第二数值的初始值
步骤205,计算机***利用第二数值更新规整矩阵,利用更新后的规整矩阵迭代更新第一数值和第二数值,利用更新后的规整矩阵和更新后的第二数值进行下一次迭代,直到在预定个连续迭代更新的过程中,每次迭代得到的第一数值的变化数值均小于第一预定阈值时,将该过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。
可选的,计算机***利用上一次迭代更新过程中更新后的规整矩阵与上一次迭代更新过程中得到的更新后的第二数值相加得到更新后的规整矩阵。
可选的,计算机***将上一次迭代更新过程中得到的更新后的第二数值乘以预定系数的乘积,与上一次迭代更新过程中更新后的规整矩阵相加得到此次迭代更新后的规整矩阵。这里所讲的预定***通常为***开发人员设定的数值,用于控制规整矩阵的调整幅度。
图2C是本发明提供的确定出使各个类别的第一数值的总和最大化的规整矩阵的流程图可选的,本步骤可以通过如图2C所示的几个子步骤实现。
步骤205a,计算机***利用第n-2次更新得到的第二数值更新规整矩阵,得到第n-1次更新后的规整矩阵。
步骤205b,计算机***利用确定出的身份向量中第n个子训练集合和第n-1次更新后的规整矩阵,计算出第n-1次更新后的第一数值和第n-1次更新后的第二数值,n≥2。
其中,当n=2是,n-2次更新是指计算机***的初始化。
举例来讲,在完成第一数值的初始化和第二数值的初始化后,利用第二数值的初始值与初始化的矩阵A1相加得到第1次更新后的规整矩阵A2。从语音训练集合对应的身份向量确定出第2个子训练集合,第2个子训练集合与第1个子训练集合内的身份向量不完全相同,利用第2个子训练集合内的身份向量和第1次更新后的规整矩阵A2计算第一数值得到第1次更新后的第一数值f3(A2),利用第2个子训练集合内的身份向量和第1次更新后的规整矩阵A2计算第二数值得到第1次更新后的第二数值
再举例来讲,第n-2次更新得到的第二数值为与第n-2次更新后的An-1相加得到n-1次更新后的规整矩阵An。从语音训练集合对应的身份向量确定出第n个子训练集合,第n个子训练集合与前n-1个子训练集合中的任意一个集合的身份向量不完全相同。利用第n个子训练集合的身份向量和第n-1次更新后的规整矩阵An,计算出第n-1次更新后的第一数值f3(An)和第n-1次更新后的第二数值
另外,在每次迭代更新的过程中,计算更新后的第一数值和更新前的第一数值的差值。当在预定个连续迭代更新的过程中,每次迭代得到的第一数值的变化数值均小于第一预定阈值时,认为在预定个连续迭代更新的过程中第一数值的总和(也即,第三函数的数值)达到最大化,此时可将该过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。
一般来讲,预定个的具体数值和第一预定阈值由***开发人员设定。在预定个连续迭代更新的过程中,在任意一次迭代过程中第一数值的变化数值大于第一预定阈值的情况下,利用最后一次迭代更新过程中的得到规整矩阵和第二数值进行下一次迭代更新。
步骤206,计算机***在声纹识别***中利用确定出的规整矩阵规整每段语音的身份向量。
通过步骤201至步骤205完成了声纹识别***的训练,确定出声纹识***在实际使用过程中用于规整身份向量的规整矩阵。在实际使用时,利用确定出的规整矩阵左乘每段语音的身份向量,完成该身份向量的规整。
需要说明的一点是,本实施例中在建立第一函数时采用了近邻成分分析(英文:neighborhood components analysis,NCA)算法,利用第一指数函数计算规整后的第一身份向量和规整后的第二身份向量之间的距离,利用第二指数函数计算规整后的第一身份向量和规整后的第三身份向量之间的距离,利用第二函数表征第一身份向量和第二身份向量之间的相似度,第一函数用于表征第一身份向量与该类别内的其他身份向量之间的相似度的总和。
实验数据表明,以等错概率(英文:equal error rate,EER)作为衡量指标,声纹识别***利用未被规整的身份向量进行识别,EER为5.48%;声纹识别***利用LDA对身份向量进行规整,EER可以降低到5.37%;声纹识别***利用近邻区分性分析(英文:neighborhood discriminant analysis,NDA)对身份向量进行规整,EER可以降低到5.19%;利用NCA确定出的规整矩阵对身份向量进行规整,EER可以降低到4.9%。
综上所述,本实施例中提供的训练声纹识别***的方法,通过将同一用户的语音的身份向量划分为一个类别,建立用于计算一个类别内规整后的第一身份向量与该类别内的规整后的其他身份向量之间相似度的总和的第一函数,第一函数的函数值为第一数值,确定出使各个类别的第一数值的总和最大化的规整矩阵,完成了声纹识别***的训练。由于确定出的规整矩阵使各个类别的第一数值的总和最大化,同一个用户的不同段的语音的身份向量在利用规整矩阵进行规整后相似度提高,解决了相关技术中利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低的问题,提高了声纹识别的准确率。
另外,在完成声纹识别***的训练后,可利用该声纹识别***对语音的输入者的身份进行识别,可通过如图2D所示的几个步骤实现。图2D是本发明提供的利用声纹识别***对语音的输入者的身份进行识别的流程图。
步骤207,计算机***获取在用户进行身份注册过程中记录的语音的初始身份向量,利用确定出的规整矩阵规整该初始身份向量。
图2E是本发明提供的声纹识别***的使用阶段示意图,如图2E所示,声纹识别***的使用分为身份注册阶段和身份验证阶段。
一般来讲,当用户首次使用该声纹识别***时,需要在该声纹识别***中进行身份注册。
在用户进行身份注册的过程中,声纹识别***处于身份注册阶段。声纹识别***获取用于进行身份注册的语音,对该语音进行处理生成该语音的身份向量,并将该语音的身份向量确定为该用户的初始身份向量。利用确定出的规整矩阵左乘该初始身份向量完成对该初始身份向量规整,存储规整后的初始身份向量完成身份注册。
步骤208,计算机***获取在进行身份验证过程中发送的待验证语音的身份向量,利用确定出的规整矩阵规整待验证语音的身份向量。
在用户进行身份验证的过程中,声纹识别***处于身份验证阶段。声纹识别***获取用于身份验证的待验证语音,确定出待验证语音的身份向量。利用声纹识别***的规整矩阵左乘该待验证语音的身份向量,完成待验证语音的身份向量的规整。
步骤209,当规整后的待验证语音的身份向量与规整后的初始身份向量的相似度大于第二预定阈值时,则判定待验证语音的输入者的身份与用户的身份相同。
一般来讲,第二预定阈值通常由***开发人员设定。另外,计算规整后的待验证语音的身份向量与规整后的初始身份向量的相似度为本领域普通技术人员所能实现的,本实施例不再赘述。
当规整后的待验证语音的身份向量与规整后的初始身份向量的相似度大于第二预定阈值时,判定待验证语音的输入者的身份与用户的身份相同。
当规整后的待验证语音的身份向量与规整后的初始身份向量的相似度小于第二预定阈值时,判定待验证语音的输入者的身份与用户的身份不相同。
在声纹识别***的实际使用过程中,通过判定规整后的待验证语音的身份向量与规整后的初始身份向量的相似度是否第二预定阈值,实现了对待验证语音的输入者的身份的验证。
图3是本发明一个实施例中提供的训练声纹识别***的装置的框图,如图3所示,该训练声纹识别***的装置包括:分类模块310、建立模块320、确定模块330和规整模块340。
分类模块310,用于确定出语音训练集合中每段语音的身份向量,将确定出的身份向量中同一用户的语音的身份向量划分为一个类别。
建立模块320,用于建立用于计算与每一类别对应的第一数值的第一函数,第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和,第一函数的随机变量为规整矩阵,规整矩阵被用于左乘身份向量来规整该身份向量。
确定模块330,用于确定出使各个类别的第一数值的总和最大化的规整矩阵。
规整模块340,用于利用确定模块330确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。
在一种可选的实现方式中,建立模块320,包括:第一确定单元、第二确定单元、第三确定单元、第四确定单元和第五确定单元。
第一确定单元,用于对于任一类别,从该类别内其他身份向量中确定出至少一个第二身份向量,利用该类别内规整后的第一身份向量减去该类别内规整后的第二身份向量得到第一向量差,将第一向量差的模的平方的相反数确定为第一指数函数的指数。
第二确定单元,用于将第一确定单元确定出的第一指数函数确定为该第二身份向量对应的第二函数的分子,第二函数用于计算规整后的第一身份向量和规整后的第二身份向量的相似度的函数。
第三确定单元,用于将确定出的身份向量中与第二身份向量不同的身份向量确定为第三身份向量。
第四确定单元,用于对于第三确定单元确定出的每个第三身份向量,利用该类别内规整后的第一身份向量减去规整后的第三身份向量得到第二向量差,将第二向量差的模的平方的相反数确定为第二指数函数的指数。
第五确定单元,用于利用各个确定出的第三身份向量所对应的第二指数函数相加得到第二函数的分母,将各个第二身份向量对应的第二函数相加得到第一函数。
在一种可选的实现方式中,确定模块330,包括:第六确定单元、初始化单元和更新单元。
第六确定单元,用于利用各个类别对应的第一函数相加得到第三函数,确定出第三函数的导函数,将导函数的数值确定为第二数值。
初始化单元,用于初始化规整矩阵,利用初始化的规整矩阵计算第一数值的初始值以及第二数值的初始值。
更新单元,用于利用第二数值更新规整矩阵,利用更新后的规整矩阵迭代更新第一数值和第二数值,利用更新后的规整矩阵和更新后的第二数值进行下一次迭代,直到在预定个连续迭代更新的过程中,每次迭代得到的第一数值的变化数值均小于第一预定阈值时,将该过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。
在一种可选的实现方式中,初始化单元,还用于利用分类模块确定出的身份向量中第1个子训练集合和初始化的规整矩阵,计算第一数值的初始值以及第二数值的初始值。
在一种可选的实现方式中,更新单元,包括:第一更新子单元和第二更新子单元。
第一更新子单元,用于利用第n-2次更新得到的第二数值更新规整矩阵,得到第n-1次更新后的规整矩阵。
第二更新子单元,用于利用分类模块确定出的身份向量中第n个子训练集合和所述第n-1次更新后的规整矩阵,计算出第n-1次更新后的第一数值和第n-1次更新后的第二数值,n≥2。
在一种可选的实现方式中,该规整模块340,还包括:第一规整单元和第二规整单元。
第一规整单元,用于获取在用户进行身份注册过程中记录的语音的初始身份向量,利用确定模块确定出的规整矩阵规整初始身份向量。
第二规整单元,用于获取在进行身份验证过程中发送的待验证语音的身份向量,利用确定模块确定出的规整矩阵规整待验证语音的身份向量。
该训练声纹识别***的装置,还包括:
判定模块,用于当规整后的待验证语音的身份向量与规整后的初始身份向量的相似度大于第二预定阈值时,判定该待验证语音的输入者的身份与该用户的身份相同。
综上所述,本实施例中提供的训练声纹识别***的装置,通过将同一用户的语音的身份向量划分为一个类别,建立用于计算一个类别内规整后的第一身份向量与该类别内的规整后的其他身份向量之间相似度的总和的第一函数,第一函数的函数值为第一数值,确定出使各个类别的第一数值的总和最大化的规整矩阵,完成了声纹识别***的训练。由于确定出的规整矩阵使各个类别的第一数值的总和最大化,同一个用户的不同段的语音的身份向量在利用规整矩阵进行规整后相似度提高,解决了相关技术中利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低的问题,提高了声纹识别的准确率。
需要说明的是:上述实施例中提供的训练声纹识别***的装置在训练声纹识别***时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的训练声纹识别***的装置与训练声纹识别***的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是本发明一个实施例提供的声纹识别***的结构示意图。具体来讲:
服务器400包括中央处理单元(英文:central processing unit,CPU)401、包括随机存取存储器(英文:random-access memory,RAM)402和只读存储器(英文:read-onlymemory,ROM)403的***存储器404,以及连接***存储器404和中央处理单元401的***总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(英文:input/output,I/O)***406,和用于存储操作***413、应用程序414和其他程序模块415的大容量存储设备407。
基本输入/输出***406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到***总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出***406还可以包括输入/输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入/输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备407通过连接到***总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说,大容量存储设备407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括静态随机存取存储器(英文:static random access memory,SRAM),电可擦除可编程只读存储器(英文:electrically erasable programmable read-only memory,EEPROM),可擦除可编程只读存储器(英文:erasable programmable read only memory,EPROM),可编程只读存储器(英文:programmable read only memory,PROM)、RAM、ROM、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(英文:digital versatile disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器404和大容量存储设备407可以统称为存储器。
根据本发明的各种实施例,服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在***总线405上的网络接口单元411连接到网络412,或者说,也可以使用网络接口单元411来连接到其他类型的网络或远程计算机***(未示出)。
上述存储器还包括一个或者一个以上的程序,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令:
确定出语音训练集合中每段语音的身份向量,将所述确定出的身份向量中同一用户的语音的身份向量划分为一个类别;
建立用于计算与每一类别对应的第一数值的第一函数,所述第一数值为对应类别内利用规整矩阵规整后的第一身份向量与所述对应类别内利用所述规整矩阵规整后的其他身份向量之间相似度的总和,所述第一函数的随机变量为所述规整矩阵,所述规整矩阵被用于左乘身份向量来规整所述身份向量;
确定出使各个类别的第一数值的总和最大化的规整矩阵;
利用确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。
可选的,所述一个或多个程序还包含用于进行以下操作的指令:
对于任一类别,从所述类别内所述其他身份向量中确定出至少一个第二身份向量,利用所述类别内规整后的第一身份向量减去所述类别内规整后的第二身份向量得到第一向量差,将所述第一向量差的模的平方的相反数确定为第一指数函数的指数;
将所述第一指数函数确定为所述第二身份向量对应的第二函数的分子,所述第二函数用于计算所述规整后的第一身份向量和所述规整后的第二身份向量的相似度的函数;
将所述确定出的身份向量中与所述第二身份向量不同的身份向量确定为第三身份向量;
对于每个第三身份向量,利用所述类别内规整后的第一身份向量减去规整后的所述第三身份向量得到第二向量差,将所述第二向量差的模的平方的相反数确定为第二指数函数的指数;
利用各个所述确定出的第三身份向量所对应的第二指数函数相加得到所述第二函数的分母,将各个第二身份向量对应的第二函数相加得到所述第一函数。
可选的,所述一个或多个程序还包含用于进行以下操作的指令:
利用各个类别对应的第一函数相加得到第三函数,确定出所述第三函数的导函数,将所述导函数的数值确定为第二数值;
初始化规整矩阵,利用所述初始化的规整矩阵计算所述第一数值的初始值以及第二数值的初始值;
利用第二数值更新所述规整矩阵,利用更新后的规整矩阵迭代更新所述第一数值和所述第二数值,利用更新后的规整矩阵和更新后的第二数值进行下一次迭代,直到在预定个连续迭代更新的过程中,每次迭代得到的第一数值的变化数值均小于第一预定阈值时,将所述过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。
可选的,所述一个或多个程序还包含用于进行以下操作的指令:
利用所述确定出的身份向量中第1个子训练集合和所述初始化的规整矩阵,计算所述第一数值的初始值以及第二数值的初始值。
可选的,所述一个或多个程序还包含用于进行以下操作的指令:
利用第n-2次更新得到的第二数值更新所述规整矩阵,得到第n-1次更新后的规整矩阵;
利用所述确定出的身份向量中第n个子训练集合和所述第n-1次更新后的规整矩阵,计算出第n-1次更新后的第一数值和第n-1次更新后的第二数值,n≥2。
可选的,所述一个或多个程序还包含用于进行以下操作的指令:
获取在用户进行身份注册过程中记录的语音的初始身份向量,利用所述确定出的规整矩阵规整所述初始身份向量;
获取在进行身份验证过程中发送的待验证语音的身份向量,利用所述确定出的规整矩阵规整所述待验证语音的身份向量;
当规整后的所述待验证语音的身份向量与规整后的所述初始身份向量的相似度大于第二预定阈值时,判定所述待验证语音的输入者的身份与所述用户的身份相同。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由移动终端的处理器执行以完成上述弹幕发布方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
术语“第一”、“第二”和“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含所指示的技术特征的数量。由此,限定的“第一”、“第二”“第三”的特征可以明示或隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种训练声纹识别***的方法,其特征在于,所述方法包括:
计算机***确定出语音训练集合中每段语音的身份向量,将所述确定出的身份向量中同一用户的语音的身份向量划分为一个类别;
所述计算机***建立用于计算与每一类别对应的第一数值的第一函数,所述第一数值为对应类别内利用规整矩阵规整后的第一身份向量与所述对应类别内利用所述规整矩阵规整后的其他身份向量之间相似度的总和,所述第一函数的随机变量为所述规整矩阵,所述规整矩阵被用于左乘身份向量来规整所述身份向量;
所述计算机***确定出使各个类别的第一数值的总和最大化的规整矩阵;
所述计算机***利用确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。
2.根据权利要求1所述的方法,其特征在于,所述计算机***建立用于计算与每一类别对应的第一数值的第一函数,包括:
对于任一类别,所述计算机***从所述类别内所述其他身份向量中确定出至少一个第二身份向量,利用所述类别内规整后的第一身份向量减去所述类别内规整后的第二身份向量得到第一向量差,将所述第一向量差的模的平方的相反数确定为第一指数函数的指数;
所述计算机***将所述第一指数函数确定为所述第二身份向量对应的第二函数的分子,所述第二函数用于计算所述规整后的第一身份向量和所述规整后的第二身份向量的相似度的函数;
所述计算机***将所述确定出的身份向量中与所述第二身份向量不同的身份向量确定为第三身份向量;
对于每个第三身份向量,所述计算机***利用所述类别内规整后的第一身份向量减去规整后的所述第三身份向量得到第二向量差,将所述第二向量差的模的平方的相反数确定为第二指数函数的指数;
所述计算机***利用各个所述确定出的第三身份向量所对应的第二指数函数相加得到所述第二函数的分母,将各个第二身份向量对应的第二函数相加得到所述第一函数。
3.根据权利要求1所述的方法,其特征在于,所述计算机***确定出使各个类别的第一数值的总和最大化的规整矩阵,包括:
所述计算机***利用各个类别对应的第一函数相加得到第三函数,确定出所述第三函数的导函数,将所述导函数的数值确定为第二数值;
所述计算机***初始化规整矩阵,利用所述初始化的规整矩阵计算所述第一数值的初始值以及第二数值的初始值;
所述计算机***利用第二数值更新所述规整矩阵,利用更新后的规整矩阵迭代更新所述第一数值和所述第二数值,利用更新后的规整矩阵和更新后的第二数值进行下一次迭代,直到在预定个连续迭代更新的过程中,每次迭代得到的第一数值的变化数值均小于第一预定阈值时,将所述过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。
4.根据权利要求3所述的方法,其特征在于,所述利用所述初始化的规整矩阵计算所述第一数值的初始值以及第二数值的初始值,包括:
所述计算机***利用所述确定出的身份向量中第1个子训练集合和所述初始化的规整矩阵,计算所述第一数值的初始值以及第二数值的初始值。
5.根据权利要求3所述的方法,其特征在于,所述计算机***利用第二数值更新所述规整矩阵,利用更新后的规整矩阵迭代更新所述第一数值和所述第二数值,包括:
所述计算机***利用第n-2次更新得到的第二数值更新所述规整矩阵,得到第n-1次更新后的规整矩阵;
所述计算机***利用所述确定出的身份向量中第n个子训练集合和所述第n-1次更新后的规整矩阵,计算出第n-1次更新后的第一数值和第n-1次更新后的第二数值,n≥2。
6.根据权利要求1至5所述的方法,其特征在于,所述计算机***利用确定出的规整矩阵规整声纹识别***中获取的语音的身份向量,包括:
所述计算机***获取在用户进行身份注册过程中记录的语音的初始身份向量,利用所述确定出的规整矩阵规整所述初始身份向量;
所述计算机***获取在进行身份验证过程中发送的待验证语音的身份向量,利用所述确定出的规整矩阵规整所述待验证语音的身份向量;
所述方法还包括:
当规整后的所述待验证语音的身份向量与规整后的所述初始身份向量的相似度大于第二预定阈值时,所述计算机***判定所述待验证语音的输入者的身份与所述用户的身份相同。
7.一种训练声纹识别***的装置,其特征在于,所述装置包括:
分类模块,用于确定出语音训练集合中每段语音的身份向量,将所述确定出的身份向量中同一用户的语音的身份向量划分为一个类别;
建立模块,用于建立用于计算与每一类别对应的第一数值的第一函数,所述第一数值为对应类别内利用规整矩阵规整后的第一身份向量与所述对应类别内利用所述规整矩阵规整后的其他身份向量之间相似度的总和,所述第一函数的随机变量为所述规整矩阵,所述规整矩阵被用于左乘身份向量来规整所述身份向量;
确定模块,用于确定出使各个类别的第一数值的总和最大化的规整矩阵;
规整模块,用于利用所述确定模块确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。
8.根据权利要求7所述的装置,其特征在于,所述建立模块,包括:
第一确定单元,用于对于任一类别,从所述类别内所述其他身份向量中确定出至少一个第二身份向量,利用所述类别内规整后的第一身份向量减去所述类别内规整后的第二身份向量得到第一向量差,将所述第一向量差的模的平方的相反数确定为第一指数函数的指数;
第二确定单元,用于将所述第一确定单元确定出的第一指数函数确定为所述第二身份向量对应的第二函数的分子,所述第二函数用于计算所述规整后的第一身份向量和所述规整后的第二身份向量的相似度的函数;
第三确定单元,用于将所述确定出的身份向量中与所述第二身份向量不同的身份向量确定为第三身份向量;
第四确定单元,用于对于所述第三确定单元确定出的每个第三身份向量,利用所述类别内规整后的第一身份向量减去规整后的所述第三身份向量得到第二向量差,将所述第二向量差的模的平方的相反数确定为第二指数函数的指数;
第五确定单元,用于利用各个所述确定出的第三身份向量所对应的第二指数函数相加得到所述第二函数的分母,将各个第二身份向量对应的第二函数相加得到所述第一函数。
9.根据权利要求7所述的装置,其特征在于,所述确定模块,包括:
第六确定单元,用于利用各个类别对应的第一函数相加得到第三函数,确定出所述第三函数的导函数,将所述导函数的数值确定为第二数值;
初始化单元,用于初始化规整矩阵,利用所述初始化的规整矩阵计算所述第一数值的初始值以及第二数值的初始值;
更新单元,用于利用第二数值更新所述规整矩阵,利用更新后的规整矩阵迭代更新所述第一数值和所述第二数值,利用所述更新后的规整矩阵和更新后的第二数值进行下一次迭代,直到在预定个连续迭代更新的过程中,每次迭代得到的第一数值的变化数值均小于第一预定阈值时,将所述过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。
10.根据权利要求9所述的装置,其特征在于,所述初始化单元,还用于利用所述确定出的身份向量中第1个子训练集合和所述初始化的规整矩阵,计算所述第一数值的初始值以及第二数值的初始值。
11.根据权利要求9所述的装置,其特征在于,所述更新单元,包括:
第一更新子单元,用于利用第n-2次更新得到的第二数值更新所述规整矩阵,得到第n-1次更新后的规整矩阵;
第二更新子单元,用于利用所述分类模块确定出的身份向量中第n个子训练集合和所述第n-1次更新后的规整矩阵,计算出第n-1次更新后的第一数值和第n-1次更新后的第二数值,n≥2。
12.根据权利要求7至11所述的装置,其特征在于,所述规整模块,包括:
第一规整单元,用于获取在用户进行身份注册过程中记录的语音的初始身份向量,利用所述确定模块确定出的规整矩阵规整所述初始身份向量;
第二规整单元,用于获取在进行身份验证过程中发送的待验证语音的身份向量,利用所述确定模块确定出的规整矩阵规整所述待验证语音的身份向量;
所述装置还包括:
判定模块,用于当规整后的所述待验证语音的身份向量与规整后的所述初始身份向量的相似度大于第二预定阈值时,判定所述待验证语音的输入者的身份与所述用户的身份相同。
CN201610639606.9A 2016-08-05 2016-08-05 训练声纹识别***的方法和装置 Active CN106297807B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610639606.9A CN106297807B (zh) 2016-08-05 2016-08-05 训练声纹识别***的方法和装置
EP17836440.2A EP3477639B1 (en) 2016-08-05 2017-08-07 Training a voiceprint recognition system
PCT/CN2017/096232 WO2018024259A1 (zh) 2016-08-05 2017-08-07 训练声纹识别***的方法和装置
US16/231,913 US10854207B2 (en) 2016-08-05 2018-12-24 Method and apparatus for training voiceprint recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610639606.9A CN106297807B (zh) 2016-08-05 2016-08-05 训练声纹识别***的方法和装置

Publications (2)

Publication Number Publication Date
CN106297807A true CN106297807A (zh) 2017-01-04
CN106297807B CN106297807B (zh) 2019-03-01

Family

ID=57665887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610639606.9A Active CN106297807B (zh) 2016-08-05 2016-08-05 训练声纹识别***的方法和装置

Country Status (4)

Country Link
US (1) US10854207B2 (zh)
EP (1) EP3477639B1 (zh)
CN (1) CN106297807B (zh)
WO (1) WO2018024259A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018024259A1 (zh) * 2016-08-05 2018-02-08 腾讯科技(深圳)有限公司 训练声纹识别***的方法和装置
CN112908308A (zh) * 2021-02-02 2021-06-04 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675878A (zh) * 2019-09-23 2020-01-10 金瓜子科技发展(北京)有限公司 一种车商识别的方法、装置、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249774A1 (en) * 2007-04-03 2008-10-09 Samsung Electronics Co., Ltd. Method and apparatus for speech speaker recognition
CN103730114A (zh) * 2013-12-31 2014-04-16 上海交通大学无锡研究院 一种基于联合因子分析模型的移动设备声纹识别方法
CN104538035A (zh) * 2014-12-19 2015-04-22 深圳先进技术研究院 一种基于Fisher超向量的说话人识别方法及***
US20150127342A1 (en) * 2013-11-04 2015-05-07 Google Inc. Speaker identification
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105139856A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于先验知识规整协方差的概率线性鉴别说话人识别方法
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及***
CN105513597A (zh) * 2015-12-30 2016-04-20 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
US9373330B2 (en) * 2014-08-07 2016-06-21 Nuance Communications, Inc. Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis
CN107564513B (zh) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
CN106297807B (zh) * 2016-08-05 2019-03-01 腾讯科技(深圳)有限公司 训练声纹识别***的方法和装置
US10885920B2 (en) * 2018-12-31 2021-01-05 Nice Ltd Method and system for separating and authenticating speech of a speaker on an audio stream of speakers

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249774A1 (en) * 2007-04-03 2008-10-09 Samsung Electronics Co., Ltd. Method and apparatus for speech speaker recognition
US20150127342A1 (en) * 2013-11-04 2015-05-07 Google Inc. Speaker identification
CN103730114A (zh) * 2013-12-31 2014-04-16 上海交通大学无锡研究院 一种基于联合因子分析模型的移动设备声纹识别方法
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及***
CN104538035A (zh) * 2014-12-19 2015-04-22 深圳先进技术研究院 一种基于Fisher超向量的说话人识别方法及***
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105139856A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于先验知识规整协方差的概率线性鉴别说话人识别方法
CN105513597A (zh) * 2015-12-30 2016-04-20 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAJIM DEHAK ET AL.: "Front-End Factor Analysis for Speaker Verification", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
陈霄鹏 等: "基于PLDA的说话人识别时变鲁棒性问题研究", 《微型机与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018024259A1 (zh) * 2016-08-05 2018-02-08 腾讯科技(深圳)有限公司 训练声纹识别***的方法和装置
EP3477639A4 (en) * 2016-08-05 2019-06-05 Tencent Technology (Shenzhen) Company Limited METHOD AND DEVICE FOR TRAINING A VOTING PRINTER DETECTION SYSTEM
US10854207B2 (en) 2016-08-05 2020-12-01 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training voiceprint recognition system
CN112908308A (zh) * 2021-02-02 2021-06-04 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及介质
CN112908308B (zh) * 2021-02-02 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN106297807B (zh) 2019-03-01
EP3477639A1 (en) 2019-05-01
US20190130920A1 (en) 2019-05-02
WO2018024259A1 (zh) 2018-02-08
US10854207B2 (en) 2020-12-01
EP3477639B1 (en) 2021-06-23
EP3477639A4 (en) 2019-06-05

Similar Documents

Publication Publication Date Title
JP6429945B2 (ja) 音声データを処理するための方法及び装置
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
CN111679949A (zh) 基于设备指标数据的异常检测方法及相关设备
CN107978311A (zh) 一种语音数据处理方法、装置以及语音交互设备
CN111444967B (zh) 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN108346436A (zh) 语音情感检测方法、装置、计算机设备及存储介质
CN108280477A (zh) 用于聚类图像的方法和装置
CN107688823A (zh) 一种图像特征获取方法及装置,电子设备
CN110491393B (zh) 声纹表征模型的训练方法及相关装置
CN108269122B (zh) 广告的相似度处理方法和装置
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
US11935298B2 (en) System and method for predicting formation in sports
CN106250400A (zh) 一种音频数据处理方法、装置以及***
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN109992676B (zh) 一种跨媒体资源检索方法及检索***
CN106297807A (zh) 训练声纹识别***的方法和装置
CN114202123A (zh) 业务数据预测方法、装置、电子设备及存储介质
CN114419378B (zh) 图像分类的方法、装置、电子设备及介质
Somervuo Time–frequency warping of spectrograms applied to bird sound analyses
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN110389999A (zh) 一种信息抽取的方法、装置、存储介质及电子设备
CN113053395A (zh) 发音纠错学习方法、装置、存储介质及电子设备
CN111832402A (zh) 一种人脸识别方法及装置
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210917

Address after: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right