CN105931646A - 一种基于简单直接度量学习算法的说话人识别方法 - Google Patents

一种基于简单直接度量学习算法的说话人识别方法 Download PDF

Info

Publication number
CN105931646A
CN105931646A CN201610281884.1A CN201610281884A CN105931646A CN 105931646 A CN105931646 A CN 105931646A CN 201610281884 A CN201610281884 A CN 201610281884A CN 105931646 A CN105931646 A CN 105931646A
Authority
CN
China
Prior art keywords
vector
speaker
similar sample
mahalanobis distance
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610281884.1A
Other languages
English (en)
Inventor
雷震春
杨印根
朱明华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN201610281884.1A priority Critical patent/CN105931646A/zh
Publication of CN105931646A publication Critical patent/CN105931646A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于简单直接度量学习算法的说话人识别方法,包括:采集多个说话人的语音样本,提取所有样本的i‑vector,采用LDA或WCCN方法进行信道补偿处理,并进行长度规整,形成训练样本集;根据训练样本集的i‑vector和说话人身份,构造相似样本对集和非相似样本对集;采用KISS算法,在相似样本对集和非相似样本对集上训练得到度量矩阵;对于新的两条语音,先将它们的i‑vector提取出来,采用LDA或WCCN方法进行信道补偿处理,并进行长度规整,使用前面计算出来的度量矩阵,计算出两个i‑vector之间的马氏距离,并和阈值进行比较,判定这两条新的语音是否属于同一个说话人。本发明所得到的马氏距离度量矩阵更能真实反映样本空间的相似性和区分性,从而提高说话人识别***的性能。

Description

一种基于简单直接度量学习算法的说话人识别方法
技术领域
本发明是一种基于简单直接度量学习算法的说话人识别方法,可广泛用于说话人识别,模式识别,度量学习,机器学习等领域。
背景技术
说话人识别(Speaker Recognition,SR)又称声纹识别,是一种通过对说话人的语音进行处理和分析,从而对说话人身份进行鉴别的技术。如何有效衡量说话人语音样本间的相似度,是目前说话人识别研究领域的热点问题之一。模式识别领域中,对样本间相似度进行衡量的方法有很多,较常用的方法有距离打分法,如余弦距离打分(cosine distance scoring)和马氏距离打分(Mahalanobis distance scoring)等。
余弦距离打分法通过计算样本向量内积空间的夹角余弦值来衡量样本间的相似度,它根据向量方向上的差异进行区分,不能衡量向量维度上数值的差异。余弦距离dC(xi,xj)的计算公式为:
d C ( x i , x j ) = x i T x j x i T x i x i T x j
其中,余弦距离dC(xi,xj),xi为第i条语音的i-vector向量,T表示转置。
两个向量(xi,xj)之间的马氏距离dM(xi,xj)定义为:
d M ( x i , x j ) = ( x i - x j ) T M ( x i - x j )
其中,马氏距离dM(xi,xj),为第i条语音的i-vector向量,T表示转置。
只有获得能够反映样本空间同类样本相似性、非同类样本区分性的半正定度量矩阵M,计算的马氏距离才能有效衡量样本相似度,但训练样本有限使获得这种度量矩阵有难度。
度量学习方法一般根据训练样本含有的类别信息,通过自动学习得到一个距离度量矩阵,常用来计算目标样本间的马氏距离得分,从而对未知数据的相似度进行预测。度量学习算法的基本目标是利用训练样本的先验信息,在尽可能满足某些条件的前提下,通过最优化求解下式来找到一个全局的、线性的变换距离度量矩阵M:
m i n M 1 ( M ) + l R ( M )
1(M)是损失函数,R(M)是训练距离度量矩阵M过程中的规整项,当损失函数1(M)在训练过程中过拟合时进行约束修正,平衡参数l30。度量矩阵M用于计算样本(xi,xj)间的马氏距离:
dM(xi,xj)=(xi-xj)TM(xi-xj)
其中,马氏距离dM(xi,xj),xi为第i条语音的i-vector向量。
用于训练度量矩阵的训练样本的数目越来越大,巨大的数据量使得大规模数据的分析和处理带来了很大的麻烦,带来所谓的“维数灾难”。随着数据维数的升高,这些高维数据之间往往存在较大的相关性和冗余度。
发明内容
本发明的目的在于提供一种基于简单直接度量学习算法的说话人识别方法,该方法所得的度量矩阵可有效反映说话人空间中的相似性和区分性,同时将该度量矩阵用于测试目标说话人语音样本的马氏距离得分分类器,可使说话人识别***取得很好的识别效果。
为达到以上目的,本发明采取的技术方案是:
一种基于简单直接度量学习算法(Keep it simple and straight!,KISS)的说话人识别方法,其特征在于:采用KISS算法训练处理后的i-vector,计算说话人语音测试样本与目标样本之间的马氏距离;
保持简单直接度量学习算法(Keep it simple and straight!,KISS),简单有效,存在全局最优解,能快速求得满足条件的度量矩阵,用于训练的样本对只需知道是否属于同类。求解的度量矩阵不会出现过拟合,且易于获得。KISS算法的可扩展性好,无需最优化求解的迭代过程,只需计算两个很小的协方差矩阵。该度量矩阵可有效反映说话人空间中的相似性和区分性,将该度量矩阵用于测试目标说话人语音样本的马氏距离得分分类器,使说话人识别***取得了很好的识别效果。性能较优,且度量矩阵的训练过程的速度较快。
本发明的目的通过以下技术方案来具体实现:
采集多个说话人的语音样本,提取所有样本中的i-vector;
采用LDA或WCCN方法进行信道补偿处理所有样本中的i-vector,并进行长度规整,形成训练样本集;
构造基于训练样本集的i-vector和说话人身份的相似样本对集和非相似样本对集;
采用KISS算法,在相似样本对集和非相似样本对集上训练得到度量矩阵;
对于新的两条语音,将它们的i-vector经过以上所述提取、信道补偿处理和长度规整 的处理后,基于之前计算出来的度量矩阵,计算两个i-vector之间的马氏距离;
将所得的马氏距离和阈值进行比较,基于比较结果,对这两条新的语音是否属于同一说话人作出判断。
进一步的,采用LDA方法进行信道补偿处理所有样本中的i-vector,具体包括:
通过投影矩阵算法最小化同类样本间距离和最大化非同类样本间距离。
进一步的,采用WCCN方法进行信道补偿处理所有样本中的i-vector,具体包括:
使目标样本空间中的基尽可能正交。
进一步的,该方法还包括:
对提取所有样本中的i-vector进行长度规整。
进一步的,其特征在于,采用KISS算法,在相似样本对集和非相似样本对集上训练得到度量矩阵,具体包括:
分别求解出所述目标样本中相似样本对的协方差和非相似样本对的协方差;
计算所述相似样本对的协方差和非相似样本对的协方差的度量矩阵;
进一步的,该方法还包括:
根据所得的度量矩阵计算两个i-vector之间的马氏距离。
进一步的,将所得的马氏距离和阈值进行比较,基于比较结果,对这两条新的语音是否属于同一说话人作出判断,具体包括:
如果所得的马氏距离大于阈值,则说明这两条新的语音不是属于同一说话人;
如果所得的马氏距离在阈值之内,则说明这两条新的语音是属于同一说话人。
本发明公开一种基于简单直接度量学习算法的说话人识别方法。保持简单直接度量学习算法(KISS)利用成对训练样本的约束信息训练一个马氏距离度量矩阵,利用成对训练样本对的约束信息来指导度量学习过程,对已标记的相似样本对和非相似样本对进行度量矩阵训练时有效利用了训练样本数据间相似性与非相似性的指导信息,得到的度量矩阵更加真实反映说话人空间的区分性,使得马氏距离得分分类器对未知说话人语音样本间的相似性可以进行较好的预测。在度量矩阵训练过程中,对相似样本对和非相似样本对的协方差进行计算,并求出两个协方差的差,作为马氏距离度量矩阵,训练出来的度量矩阵用于说话人识别***,取得了很好的识别效果。
附图说明
图1为根据本发明的一种基于简单直接度量学习算法的说话人识别方法的一实施例的流程图。
具体实施方式
下面结合附图对本发明实施例的一种基于简单直接度量学习算法的说话人识别方法进行详细描述。参照图1,图1示出了本发明的方法的一实施例的流程图,该方法包括以下步骤:
在步骤S110中,采集多个说话人的语音样本,提取所有样本中的i-vector;
在步骤S120中,采用LDA或WCCN方法进行信道补偿处理所有样本中的i-vector,并进行长度规整,形成训练样本集;
在步骤S130中,构造基于训练样本集的i-vector和说话人身份的相似样本对集和非相似样本对集;
在步骤S140中,采用KISS算法,在相似样本对集和非相似样本对集上训练得到度量矩阵;
在步骤S150中,对于新的两条语音,将它们的i-vector经过以上所述提取、信道补偿处理和长度规整的处理后,基于之前计算出来的度量矩阵,计算两个i-vector之间的马氏距离;
在步骤160中,将所得的马氏距离和阈值进行比较,基于比较结果,对这两条新的语音是否属于同一说话人作出判断。
进一步的,采用线性判别分析(Linear Discriminant Analysis,LDA)方法进行信道补偿处理所有样本中的i-vector,具体包括:
线性判别分析(LDA)的目标为通过投影矩阵算法最小化同类样本间距离和最大化非同类样本间距离。
具体为:定义类间散度矩阵Sb和类内散度矩阵Sw
Sb为说话人类间散度矩阵,Sw为说话人类内散度矩阵,ns是说话人s对应的语音数;是所有说话人i-vector均值;是第s个说话人i-vector均值。
投影矩阵A由下式特征值l对应的特征向量组成。
Sbv=lSwv
Sb为说话人类间散度矩阵,Sw为说话人类内散度矩阵,l为说话人特征值对角阵,v是 说话人空间方向。
进一步的,采用类内方差规整(Within Class Covariance Normalization,WCCN)方法进行信道补偿处理所有样本中的i-vector,具体包括:
类内协方差规整(WCCN)的目标为使样本空间中的基尽可能正交。
类内协方差矩阵的计算如下:
共有s个说话人;ns是说话人s对应的语音数;是所有说话人i-vector均值;是第s个说话人i-vector均值。
对特征向量进行映射:其中B为W-1的乔莱斯基分解,即W-1=BBT
更进一步的,该方法还包括:
对提取所有样本中的i-vector进行长度规整。
进一步的,采用KISS算法,在相似样本对集和非相似样本对集上训练得到度量矩阵,具体包括:
分别求解出所述目标样本中相似样本对的协方差和非相似样本对的协方差,计算所述相似样本对的协方差和非相似样本对的协方差的度量矩阵。
具体为,首先分别求解出所有相似样本对的协方差和非相似样本对的协方差
Σ y i j = 1 = Σ y i j = 1 ( x i - x j ) ( x i - x j ) T
Σ y i j = 0 = Σ y i j = 0 ( x i - x j ) ( x i - x j ) T
xi表示第i条语音的i-vector向量,yij=0表示第i条语音和第j条语音来自不同说话人,yij=1表示第i条语音和第j条语音来自相同说话人,可求得度量矩阵M:
M = ( Σ y i j = 1 - 1 - Σ y i j = 0 - 1 )
为相似样本对的协方差,为非相似样本对的协方差,得到M作为最终所要求解的度量矩阵。
进一步的,根据所得的度量矩阵计算两个i-vector之间的马氏距离,具体包括:根据之前求得的度量矩阵M,计算两个i-vector(xi,xj)间的马氏距离:
dM(xi,xj)=(xi-xj)TM(xi-xj)
xi表示第i条语音的i-vector向量,M为度量矩阵,dM(xi,xj)为两个i-vector(xi,xj)间的马氏距离。
更进一步的,将所得的马氏距离和阈值进行比较,基于比较结果,对这两条新的语音是否属于同一说话人作出判断,具体包括:
根据所得的马氏距离计算为两个i-vector(xi,xj)间的相似度得分:
ScoreM(xi,xj)=-(xi-xj)TM(xi-xj)
其中,马氏距离得分ScoreM(xi,xj),M为度量矩阵,xi为第i条语音的i-vector向量。
将所得的马氏距离得分ScoreM(xi,xj)与阈值作比较,如果马氏距离得分大于阈值,则说明这两条新的语音不是属于同一说话人;如果马氏距离得分在阈值之内,则说明这两条新的语音是属于同一说话人。
本实施例中,s为说话人数量;ns是说话人s对应的语音数;是所有说话人i-vector均值;是第s个说话人i-vector均值。
为了便于理解本发明的技术方案,以下通过一个具体的实验测试应用场景为例进行说明实施例提供的方法达到的效果及可实施性:
实验在MATLAB环境下进行,说话人语音测试样本的实验语音数据均来自于美国国家标准与技术局(NIST)说话人评测(SRE)04、05、06、08年核心语音库。说话人识别***首先对采集的多个说话人的目标样本的语音数据进行去冗余和降噪处理,将语音模拟信号转换离散语音数字信号。用帧长20ms的窗函数将语音信号交叠分帧(帧移10ms)。提取13维梅尔频率倒谱系数(MFCC)与其一阶、二阶差分组合成39维特征向量对语音信号进行表示。采用NISTSRE04、05和06年语音数据集训练出512阶性别相关的UBM,在此基础上训练出所有说话人的目标样本的i-vector向量(400维),并对i-vector向量进行LDA、WCCN和长度规整等鲁棒性处理,用于后续过程。其中08年语音数据作为说话人的目标样本和语音测试样本进行相似度评测。
进行度量学习实验前,首先构造用于训练的相似样本对集和非相似样本对集。本实施例使用NIST SRE04、05、06年语音集中的491个男性6609条语音,及703个女性9136条语音来构造相似样本对集S与非相似样本对集D。
从语音中提取出的i-vector经过LDA或WCCN信道补偿处理后,采用KISS算法训练一 个马氏距离度量矩阵,计算马氏距离计算目标i-vector与测试i-vector间的相似度得分。
设s个说话人;ns是说话人s对应的语音数;是所有说话人i-vector均值;是各说话人i-vector均值。
其中,线性判别分析(LDA)的目标为通过投影最小化同类样本间距离和最大化非同类样本间距离。定义类间散度矩阵Sb和类内散度矩阵Sw
Sb为说话人类间散度矩阵,Sw为说话人类内散度矩阵,ns是说话人s对应的语音数;是所有说话人i-vector均值;是第s个说话人i-vector均值。
投影矩阵A由下式特征值l对应的特征向量组成。
Sbv=lSwv
Sb为说话人类间散度矩阵,Sw为说话人类内散度矩阵,l为说话人特征值对角阵,v是说话人空间方向。
类内协方差规整(WCCN)的目标为使样本空间的基尽可能正交。类内协方差矩阵的计算如下:
共有s个说话人;ns是说话人s对应的语音数;是所有说话人i-vector均值;是第s个说话人i-vector均值。
对特征向量进行映射:其中B为W-1的乔莱斯基分解,即W-1=B BT
对i-vector向量进行长度规整可提高***性能。
其中,KISS算法如下:
分别求解出所有相似样本对的协方差和非相似样本对的协方差
Σ y i j = 1 = Σ y i j = 1 ( x i - x j ) ( x i - x j ) T
Σ y i j = 0 = Σ y i j = 0 ( x i - x j ) ( x i - x j ) T
xi表示第i条语音的i-vector向量,yij=0表示第i条语音和第j条语音来自不同说话人,yij=1表示第i条语音和第j条语音来自相同说话人,可求得度量矩阵M:
M = ( Σ y i j = 1 - 1 - Σ y i j = 0 - 1 )
为相似样本对的协方差,为非相似样本对的协方差,得到M作为最终所要求解的度量矩阵,用于计算说话人语音测试样本和目标样本(xi,xj)间的马氏距离:
dM(xi,xj)=(xi-xj)TM(xi-xj)
xi表示第i条语音的i-vector向量,M为度量矩阵,dM(xi,xj)为说话人语音测试样本和目标样本(xi,xj)间的马氏距离。
根据该距离计算说话人样本(xi,xj)间的相似度得分:
ScoreM(xi,xj)=-(xi-xj)TM(xi-xj)
其中,马氏距离得分ScoreM(xi,xj),M为度量矩阵,xi为第i条语音的i-vector向量。
本实施例提供的方法,保持简单直接(KISS)算法,简单有效,存在全局最优解,能快速求得满足条件的距离度量矩阵,用于训练的样本对只需知道是否属于同类。要求解的度量矩阵不会出现过拟合,且易于获得,KISS算法的可扩展性好,无需最优化求解的迭代过程,只需计算两个很小的协方差矩阵。该度量矩阵可有效反映说话人空间中的相似性和区分性,将该度量矩阵用于测试目标说话人语音样本的马氏距离得分分类器,使说话人识别***取得了很好的识别效果。性能接近甚至优于目前流行的度量学习算法,且度量矩阵的训练过程的速度比其他算法快,训练出来的马氏距离度量矩阵更能真实反映样本空间的相似性和区分性,从而提高说话人识别***的性能。
需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多步骤,也可将两个或多个步骤部分操作组合成新的步骤,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通 用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种基于简单直接度量学习算法的说话人识别方法,其特征在于,该方法包括以下步骤:
采集多个说话人的语音样本,提取所有样本中的i-vector;
采用LDA或WCCN方法进行信道补偿处理所有样本中的i-vector,并进行长度规整,形成训练样本集;
构造基于训练样本集的i-vector和说话人身份的相似样本对集和非相似样本对集;
采用KISS算法,在相似样本对集和非相似样本对集上训练得到度量矩阵;
对于新的两条语音,将它们的i-vector经过以上所述提取、信道补偿处理和长度规整的处理后,基于之前计算出来的度量矩阵,计算两个i-vector之间的马氏距离;
将所得的马氏距离和阈值进行比较,基于比较结果,对这两条新的语音是否属于同一说话人作出判断。
2.如权利要求1所述的方法,其特征在于,采用LDA或WCCN方法进行信道补偿处理所有样本中的i-vector,具体包括:
通过投影矩阵算法最小化同类样本间距离和最大化非同类样本间距离。
3.如权利要求1所述的方法,其特征在于,采用LDA或WCCN方法进行信道补偿处理所有样本中的i-vector,具体包括:
使目标样本空间中的基尽可能正交。
4.如权利要求1所述的方法,其特征在于,该方法还包括:
对提取所有样本中的i-vector进行长度规整。
5.如权利要求1所述的方法,其特征在于,采用KISS算法,在相似样本对集和非相似样本对集上训练得到度量矩阵,具体包括:
分别求解出所有样本中相似样本对的协方差和非相似样本对的协方差;
计算所述相似样本对的协方差和非相似样本对的协方差的度量矩阵。
6.如权利要求1所述的方法,其特征在于,该方法还包括:
根据所得的度量矩阵计算两个i-vector之间的马氏距离。
7.如权利要求1所述的方法,其特征在于,将所得的马氏距离和阈值进行比较,基于比较结果,对这两条新的语音是否属于同一说话人作出判断,具体包括:
如果所得的马氏距离大于阈值,则说明这两条新的语音不是属于同一说话人;
如果所得的马氏距离在阈值之内,则说明这两条新的语音是属于同一说话人。
CN201610281884.1A 2016-04-29 2016-04-29 一种基于简单直接度量学习算法的说话人识别方法 Pending CN105931646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610281884.1A CN105931646A (zh) 2016-04-29 2016-04-29 一种基于简单直接度量学习算法的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610281884.1A CN105931646A (zh) 2016-04-29 2016-04-29 一种基于简单直接度量学习算法的说话人识别方法

Publications (1)

Publication Number Publication Date
CN105931646A true CN105931646A (zh) 2016-09-07

Family

ID=56837754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610281884.1A Pending CN105931646A (zh) 2016-04-29 2016-04-29 一种基于简单直接度量学习算法的说话人识别方法

Country Status (1)

Country Link
CN (1) CN105931646A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147799A (zh) * 2018-10-18 2019-01-04 广州势必可赢网络科技有限公司 一种语音识别的方法、装置、设备及计算机存储介质
CN109377984A (zh) * 2018-11-22 2019-02-22 北京中科智加科技有限公司 一种基于ArcFace的语音识别方法及装置
CN110188641A (zh) * 2019-05-20 2019-08-30 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和***
CN111179914A (zh) * 2019-12-04 2020-05-19 华南理工大学 一种基于改进动态时间规整算法的语音样本筛选方法
CN111462762A (zh) * 2020-03-25 2020-07-28 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103959323A (zh) * 2011-09-21 2014-07-30 搜诺思公司 共享媒体的方法和***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103959323A (zh) * 2011-09-21 2014-07-30 搜诺思公司 共享媒体的方法和***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHENCHUN LEI, JIAN LUO, YANHONG WAN, AND YINGEN YANG: "A Mahalanobis Distance Scoring with KISS Metric", 《BIOMETRIC RECOGNITION》 *
沈媛媛,严严,王菡子: "有监督的距离度量学习算法研究进展", 《自动化学报》 *
钱强,陈松灿: "基于矩形正态分布似然比测试的矩阵度量学习算法", 《山东大学学报(工学版)》 *
雷震春,万艳红,罗剑,朱明华: "基于Mahalanobis距离的说话人识别模型研究", 《第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147799A (zh) * 2018-10-18 2019-01-04 广州势必可赢网络科技有限公司 一种语音识别的方法、装置、设备及计算机存储介质
CN109377984A (zh) * 2018-11-22 2019-02-22 北京中科智加科技有限公司 一种基于ArcFace的语音识别方法及装置
CN109377984B (zh) * 2018-11-22 2022-05-03 北京中科智加科技有限公司 一种基于ArcFace的语音识别方法及装置
CN110188641A (zh) * 2019-05-20 2019-08-30 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和***
CN110188641B (zh) * 2019-05-20 2022-02-01 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和***
CN111179914A (zh) * 2019-12-04 2020-05-19 华南理工大学 一种基于改进动态时间规整算法的语音样本筛选方法
CN111179914B (zh) * 2019-12-04 2022-12-16 华南理工大学 一种基于改进动态时间规整算法的语音样本筛选方法
CN111462762A (zh) * 2020-03-25 2020-07-28 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
CN111462762B (zh) * 2020-03-25 2023-02-24 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN105931646A (zh) 一种基于简单直接度量学习算法的说话人识别方法
CN110120218B (zh) 基于gmm-hmm的高速公路大型车辆识别方法
CN110197502B (zh) 一种基于身份再识别的多目标跟踪方法及***
US20150199960A1 (en) I-Vector Based Clustering Training Data in Speech Recognition
CN105261367B (zh) 一种说话人识别方法
US9355642B2 (en) Speaker recognition method through emotional model synthesis based on neighbors preserving principle
CN103415825A (zh) 用于手势识别的***和方法
CN108648760A (zh) 实时声纹辨识***与方法
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN109977213B (zh) 一种面向智能问答***的最优答案选择方法
Senoussaoui et al. Efficient iterative mean shift based cosine dissimilarity for multi-recording speaker clustering
JP2014026455A (ja) メディアデータ解析装置、方法、及びプログラム
CN114519351A (zh) 一种基于用户意图嵌入图谱学习的主题文本快速检测方法
Ghaemmaghami et al. A study of speaker clustering for speaker attribution in large telephone conversation datasets
Shi et al. Visual speaker authentication by ensemble learning over static and dynamic lip details
Prasad et al. Improving the performance of speech clustering method
CN112052880A (zh) 一种基于更新权值支持向量机的水声目标识别方法
CN112465054B (zh) 一种基于fcn的多变量时间序列数据分类方法
Chandrakala et al. Combination of generative models and SVM based classifier for speech emotion recognition
CN113823326A (zh) 一种高效语音关键词检测器训练样本使用方法
Aronowitz Trainable speaker diarization.
CN116230012B (zh) 一种基于元数据对比学习预训练的两阶段异音检测方法
Pao et al. Audio-visual speech recognition with weighted KNN-based classification in mandarin database
Louradour et al. SVM speaker verification using a new sequence kernel
Yılmaz et al. Noise robust exemplar matching with alpha–beta divergence

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160907

RJ01 Rejection of invention patent application after publication