CN108091326A - 一种基于线性回归的声纹识别方法及*** - Google Patents

一种基于线性回归的声纹识别方法及*** Download PDF

Info

Publication number
CN108091326A
CN108091326A CN201810141059.0A CN201810141059A CN108091326A CN 108091326 A CN108091326 A CN 108091326A CN 201810141059 A CN201810141059 A CN 201810141059A CN 108091326 A CN108091326 A CN 108091326A
Authority
CN
China
Prior art keywords
vocal print
vector
print feature
linear regression
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810141059.0A
Other languages
English (en)
Other versions
CN108091326B (zh
Inventor
张晓雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810141059.0A priority Critical patent/CN108091326B/zh
Publication of CN108091326A publication Critical patent/CN108091326A/zh
Application granted granted Critical
Publication of CN108091326B publication Critical patent/CN108091326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于线性回归的声纹识别方法及***,从语音数据中获取第一声纹特征矢量,使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量,并对所述第二声纹特征矢量进行分类识别。创新地将线性回归模型引入声纹识别领域,实验证明,能够有效提高声纹识别的准确性。

Description

一种基于线性回归的声纹识别方法及***
技术领域
本申请涉及电子信息领域,尤其涉及一种基于线性回归的声纹识别方法及***。
背景技术
声纹识别***通常包括声纹特征提取前端和声纹识别后端两个部分。
声纹特征提取前端用于从说话人语句中抽取该说话人的声纹特征:即通过模型将一句任意长度的语音映射为一个固定长度的向量。常见的声纹特征提取前端使用的算法包括:基于高斯混合模型的通用背景模型(Gaussian mixture model based universalbackground model,GMM-UBM)/身份向量(identity vector,i-vector)算法(简称GMM/i-vector算法)、基于深度学习的语音识别声学模型的通用背景模型/i-vector算法(简称DNN/i-vector算法)、以及使用深度学习模型对说话人做分类,并将最顶层的隐层输出作为说话人的声纹向量的d-vector算法。
声纹识别后端通过有监督机器学习算法对该说话人的声纹矢量做分类。它可以分为两部分,第一个部分是通过有监督机器学习方法将声纹特征矢量映射为另一种新的声纹特征矢量,第二个部分是通过有监督机器学习方法对降维后的新声纹特征矢量做分类。对于第一个部分,常见的映射方法包括线性鉴别性分析(Linear discriminant analysis,LDA)、类内方差归一化(Within-class covariance normalization,WCCN)以及扰动属性投影(Nuisance attribute projection,NAP)等。对于第二个部分,常见的分类器包括cosine距离分类器、支持向量机(Support vector machine,SVM)分类器、概率线性鉴别性分析(Probabilistic linear discriminant analysis,PLDA)分类器等。上述后端算法中LDA+PLDA的方法在许多标准化测试中取得了最优性能,目前已被实际***广泛采用。
上述声纹特征提取前端和声纹识别后端可以任意组合形成声纹识别***。但是,目前的声纹识别的准确性还有待提高。
发明内容
本申请提供了一种基于线性回归的声纹识别方法及***,目的在于解决如何提高声纹识别的准确性的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种基于线性回归的声纹识别方法,包括:
从语音数据中获取第一声纹特征矢量;
使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量;
对所述第二声纹特征矢量进行分类识别。
可选的,所述将所述第一声纹特征矢量映射为第二声纹特征矢量包括:
使用映射关系z=ATx,将所述第一声纹特征矢量映射为第二声纹特征矢量,其中,A为所述预先训练的线性回归模型,x为所述第一声纹特征矢量,z为所述第二声纹特征矢量。
可选的,所述线性回归模型的训练过程包括:
从声纹数据库中获取训练数据其中,xi,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量,i=1,…,n,j=1,…,Mi,n为所述声纹数据库中的说话人的数量,任意一个说话人对应Mn句话;yi,j为第i个说话人的n维示性矢量yi,j=[0,...,1,...,0]T;d为预设数值;
使用A=(XXT)-1XYT,得到所述线性回归模型,其中,为训练数据的声纹矢量组成的的矩阵,为训练数据的示性矢量组成的的矩阵。
可选的,所述对所述第二声纹特征矢量进行分类识别包括:
使用余弦分类器,对所述第二声纹特征矢量进行分类识别。
可选的,所述从语音数据中获取第一声纹特征矢量包括:
使用GMM/i-vector算法、DNN/i-vector算法或者d-vector算法,从语音数据中获取第一声纹特征矢量。
一种基于线性回归的声纹识别***,包括:
声纹特征提取前端,用于从语音数据中获取第一声纹特征矢量;
声纹识别后端,所述声纹识别后端包括声纹特征映射模块和声纹分类器,所述声纹特征映射模块用于使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量;所述声纹分类器用于对所述第二声纹特征矢量进行分类识别。
可选的,所述声纹特征映射模块用于使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量包括:
所述声纹特征映射模块具体用于,使用映射关系z=ATx,将所述第一声纹特征矢量映射为第二声纹特征矢量,其中,A为所述预先训练的线性回归模型,x为所述第一声纹特征矢量,z为所述第二声纹特征矢量。
可选的,所述声纹特征映射模块还用于:
从声纹数据库中获取训练数据其中,xi,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量,i=1,...,n,j=1,...,Mi,n为所述声纹数据库中的说话人的数量,任意一个说话人对应Mn句话;yi,j为第i个说话人的n维示性矢量yi,j=[0,…,1,…,0]T;d为预设数值;
使用A=(XXT)-1XYT,得到所述线性回归模型,其中,为训练数据的声纹矢量组成的的矩阵,为训练数据的示性矢量组成的的矩阵。
可选的,所述声纹分类器包括:余弦分类器。
可选的,所述声纹特征提取前端包括:
GMM/i-vector前端、DNN/i-vector前端或者d-vector前端。
本申请所述的基于线性回归的声纹识别方法及***,从语音数据中获取第一声纹特征矢量,使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量,并对所述第二声纹特征矢量进行分类识别。创新地将线性回归模型引入声纹识别领域,实验证明,能够有效提高声纹识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为声纹识别***的结构示意图;
图2为本申请实施例公开的基于线性回归的声纹识别方法的流程图。
具体实施方式
图1为声纹识别***的示意图,其中包括声纹特征提取前端和声纹识别后端两个部分。声纹识别后端又包括声纹特征映射模块和声纹分类器。
为了提高声纹识别的准确性,本申请的实施例中,对声纹识别后端中的第一部分,即声纹特征映射模块进行改进。本申请的核心点在于,训练并使用训练后的线性回归(Linear Regression,LR)模型将声纹特征提取前端提取的声纹特征矢量映射为新的声纹特征矢量,新的声纹特征矢量作为声纹分类的基础,以提高后续声纹分类的准确性。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1所示的声纹识别***的后端的工作流程可以分成三个阶段:训练阶段、注册阶段和测试阶段。LR模型的训练在训练阶段进行,注册阶段和测试阶段均需要使用训练好的LR模型。
下面对上述三个阶段进行详细说明。图2为本申请实施例公开的基于线性回归的声纹识别方法,包括以下步骤:
一、训练阶段
S201:准备训练数据。
假设声纹数据库包含n个说话人的语音数据,每个说话人对应Mn句话,则声纹特征提取前端从每句话抽取一个d维的声纹特征矢量xi,j,其中i=1,…,n,j=1,...,Mi。d为预设数值。根据任务不同而不同,可以取值为200至800,本实施例中,设为400。
将n个说话人中的每个说话人分配编号,第一个说话人的编号为1,……第i个说话人的编号为i,第n个说话人的编号为n。因此,所有说话人的编号为序列1,...,i,...,n。将每个编号扩展成0和1编码的示性矢量,即第i个说话人的示性矢量为n维矢量yi,j=[0,...,1,...,0]T,其中1出现在第i个bit位上(例如,编号为2的说话人的示性矢量为y2,j=[0,1,...,0]T)。
本实施例中,有监督的训练数据为其中train表示训练阶段。
S202:使用上述得到的有监督的训练数据训练LR模型。
具体的,使用公式(1)得到LR模型:
A=(XXT)-1XYT (1)
其中为训练数据的声纹矢量组成的的矩阵,为训练数据的示性矢量组成的的矩阵。
二、注册阶段
S203:获取注册人员的语音数据,并从注册人员的语音数据中提取注册数据其中,enroll表示注册阶段。
注册数据的提取过程可以参数S201中训练数据的提取过程,这里不再赘述。
S204:使用训练得到的LR模型,将注册数据映射为新的声纹特征矢量,其中,新的声纹特征矢量可以看作注册人的声纹特征模型。
具体的,使用公式(2)进行映射:
z=ATx (2)
三、测试阶段
S205:获取测试语音数据,并从测试语音数据中提取测试数据其中,test表示测试阶段。
S206:使用训练得到的LR模型,将测试数据映射为新的声纹特征矢量。
S207:比较S206得到的新的声纹特征矢量与各个注册人的声纹特征模型,识别出测试语音数据对应的注册人。测试语音数据对应的注册人,即发出测试语音数据的注册人。
从图2的步骤可以看出,声纹识别***的后端(即声纹识别后端),采用先注册后识别的机制,用户可以在***中先进行注册,***使用训练好的LR模型得到注册人的声纹特征模型。在测试阶段,***可以识别出采集到的语音由哪个注册人发出,从而实现语音数据的识别。
申请人在研究的过程中,通过使用大量的机器学习模型进行试验,发现LR模型映射出的声纹特征矢量,使得后续的分类识别具有更高的准确性。
需要说明的是,采用图2所示流程的声纹识别后端可以与现有的声纹特征提取前端组合使用,构成图1所示的声纹识别***。下面将举例说明图2所示流程的声纹识别后端与不同的声纹特征提取前端组合成的三个声纹识别***的工作流程。
(一)GMM/i-vector+LR+cosine声纹识别***:
该***采用GMM/i-vector作为声纹识别前端,采用图2所示的LR作为声纹识别后端的声纹特征映射模块,采用余弦相似度作为声纹分类器。它的三个阶段具体如下:
1)训练阶段:
步骤1:声纹识别前端使用语音端点检测滤除每段音频的静音段和噪声段,保留只含有训练说话人语音的音频片段。
步骤2:声纹识别前端将训练数据库中的所有音频切分成长度为3秒至30秒的固定长度片段,本实施例将音频切分成15秒的片段。
步骤3:声纹识别前端将每个音频片段按照帧长为15毫秒至30毫秒、帧移为5毫秒至15毫秒的设置切分成若干帧,并从每一帧中抽取声学特征。本实施例的帧长设置为25毫秒,帧移设置为10毫秒。本实施例的声学特征采用的是20维MFCC特征(包含1维能量特征)+13维RASTA-PLP特征+一阶差分特征+二阶差分特征,共99维。
步骤4:声纹识别前端采用现有的GMM-UBM方法,训练U个高斯分量的高斯混合模型,得到Σ模型。本实施例训练包含2048个高斯分量的高斯混合模型。
步骤5:声纹识别前端采用GMM-UBM方法,应用该高斯混合模型Σ计算每个音频片段的零阶统计量和一阶统计量,该零阶统计量和一阶统计量组成一个高维特征矢量。本实施例抽取出的高维特征矢量为204800维。
步骤6:声纹识别前端采用现有的i-vector方法,训练i-vector模型,得到T矩阵。
步骤7:声纹识别前端采用i-vector方法,应用该T矩阵将GMM-UBM输出的高维特征矢量降维到低维空间。本实施例的特征输出空间为400,即将每个音频片段的204800维特征映射为400维特征。
步骤8:声纹特征映射模块采用本发明所提出的线性回归方法中的公式(1),训练线性回归模型,得到A矩阵。本实施例的A矩阵是400×n的矩阵。
2)注册阶段
步骤1:声纹识别前端使用语音端点检测滤除每段注册音频的静音段和噪声段,保留只含有注册说话人语音的音频片段。
步骤2:声纹识别前端将注册说话人中的所有音频切分成长度为3秒至30秒的固定长度片段,本实施例将音频切分成15秒的片段。
步骤3:声纹识别前端将每个音频片段按照帧长为15毫秒至30毫秒、帧移为5毫秒至15毫秒的设置切分成若干帧,并从每一帧中抽取声学特征。本实施例的帧长设置为25毫秒,帧移设置为10毫秒。本实施例的声学特征采用的是20维MFCC特征(包含1维能量特征)+13维RASTA-PLP特征+一阶差分特征+二阶差分特征,共99维。
步骤4:声纹识别前端采用GMM-UBM方法,应用训练阶段得到的高斯混合模型Σ计算每个音频片段的零阶统计量和一阶统计量,该零阶统计量和一阶统计量组成一个高维特征矢量。本实施例抽取出的高维特征矢量为204800维。
步骤5:声纹识别前端采用i-vector方法,应用训练阶段得到的T矩阵将GMM-UBM输出的高维特征矢量降维到低维空间。本实施例的特征输出空间为400,即将每个音频片段的204800维特征映射为400维特征。
步骤6:声纹特征映射模块采用本发明所提出的线性回归方法中的公式(2),应用训练阶段得到的A矩阵将i-vector特征进一步映射为n维声纹特征(n为训练集中说话人的数量)
步骤7:声纹特征映射模块将注册说话人所有的音频片段得到的声纹特征矢量求平均得到该注册说话人的声纹特征模型。
3)测试阶段
步骤1:声纹识别前端使用语音端点检测滤除每段测试音频的静音段和噪声段,保留只含有测试说话人语音的音频片段。
步骤2:声纹识别前端将测试说话人中的所有音频切分成长度为3秒至30秒的固定长度片段,本实施例将音频切分成15秒的片段。
步骤3:声纹识别前端将每个音频片段按照帧长为15毫秒至30毫秒、帧移为5毫秒至15毫秒的设置切分成若干帧,并从每一帧中抽取声学特征。本实施例的帧长设置为25毫秒,帧移设置为10毫秒。本实施例的声学特征采用的是20维MFCC特征(包含1维能量特征)+13维RASTA-PLP特征+一阶差分特征+二阶差分特征,共99维。
步骤4:声纹识别前端采用GMM-UBM方法,应用训练阶段得到的高斯混合模型Σ计算每个音频片段的零阶统计量和一阶统计量,该零阶统计量和一阶统计量组成一个高维特征矢量。本实施例抽取出的高维特征矢量为204800维。
步骤5:声纹识别前端采用i-vector方法,应用训练阶段得到的T矩阵将GMM-UBM输出的高维特征矢量降维到低维空间。本实施例的特征输出空间为400,即将每个音频片段的204800维特征映射为400维特征。
步骤6:声纹特征映射模块采用公式(2),应用训练阶段得到的A矩阵将i-vector特征进一步映射为n维声纹特征(n为训练集中说话人的数量)
步骤7:声纹特征映射模块将任意一个测试说话人所有的音频片段得到的声纹特征矢量求平均得到该测试说话人的声纹特征模型。
步骤8:声纹分类器采用余弦相似度分类器计算的相似性:
并与判决门限δ比较,以判断是否与为同一说话人。
(二)DNN/i-vector+LR+cosine声纹识别***:
该***采用DNN/i-vector作为声纹识别前端,采用图2所示的LR作为声纹识别后端的声纹特征映射模块,采用余弦相似度作为声纹分类器。它的三个阶段具体如下:
1)训练阶段:
步骤1:声纹识别前端使用语音端点检测滤除每段音频的静音段和噪声段,保留只含有训练说话人语音的音频片段。
步骤2:声纹识别前端将训练数据库中的所有音频切分成长度为3秒至30秒的固定长度片段,本实施例将音频切分成15秒的片段。
步骤3:声纹识别前端将每个音频片段按照帧长为15毫秒至30毫秒、帧移为5毫秒至15毫秒的设置切分成若干帧,并从每一帧中抽取声学特征。本实施例的帧长设置为25毫秒,帧移设置为10毫秒。本实施例的声学特征采用的是20维MFCC特征(包含1维能量特征)+13维RASTA-PLP特征+一阶差分特征+二阶差分特征,共99维。
步骤4:声纹识别前端采用DNN-UBM方法,用包含有语音内容标注信息的独立语音识别数据库训练包含UDNN个输出状态的深度神经网络声学模型Λ。本实施例所使用的声学模型输出8073个状态。
步骤5:声纹识别前端采用DNN-UBM方法,使用声学模型Λ对训练数据库中的音频片段做识别,抽取出每帧数据的UDNN维后验概率矢量。本实施例所得到的每帧数据的后验概率矢量为8073维。
步骤6:声纹识别前端采用DNN-UBM方法,丢弃后验概率较小的输出状态,只保留个后验概率较大的输出状态。相应地,每帧数据的后验概率矢量也调整为维。本实施例的设为3096。
步骤7:声纹识别前端采用DNN-UBM方法,训练包含个高斯分量的高斯混合模型,得到ΣDNN模型。本实施例训练包含3096个高斯分量的高斯混合模型。
步骤8:声纹识别前端采用GMM-UBM方法,应用该高斯混合模型ΣDNN计算每个音频片段的零阶统计量和一阶统计量,该零阶统计量和一阶统计量组成一个高维特征矢量。本实施例抽取出的高维特征矢量为309600维。
步骤9:声纹识别前端采用i-vector方法,训练i-vector模型,得到TDNN矩阵。
步骤10:声纹识别前端采用i-vector方法,应用该TDNN矩阵将DNN-UBM输出的高维特征矢量降维到低维空间。本实施例的特征输出空间为400,即将每个音频片段的309600维特征映射为400维特征。
步骤11:声纹特征映射模块采用公式(1),训练线性回归模型,得到ADNN矩阵。本实施例的ADNN矩阵是400×n的矩阵。
2)注册阶段
步骤1:声纹识别前端使用语音端点检测滤除每段注册音频的静音段和噪声段,保留只含有注册说话人语音的音频片段。
步骤2:声纹识别前端将注册说话人中的所有音频切分成长度为3秒至30秒的固定长度片段,本实施例将音频切分成15秒的片段。
步骤3:声纹识别前端将每个音频片段按照帧长为15毫秒至30毫秒、帧移为5毫秒至15毫秒的设置切分成若干帧,并从每一帧中抽取声学特征。本实施例的帧长设置为25毫秒,帧移设置为10毫秒。本实施例的声学特征采用的是20维MFCC特征(包含1维能量特征)+13维RASTA-PLP特征+一阶差分特征+二阶差分特征,共99维。
步骤4:声纹识别前端采用DNN-UBM方法,使用声学模型Λ对注册说话人中的音频片段做识别,抽取出每帧数据的UDNN维后验概率矢量。本实施例所得到的每帧数据的后验概率矢量为8073维。
步骤5:声纹识别前端采用DNN-UBM方法,丢弃后验概率较小的输出状态,只保留个后验概率较大的输出状态(由训练阶段决定具体保留哪些状态)。相应地,每帧数据的后验概率矢量也调整为维。本实施例的设为3096。
步骤6:声纹识别前端采用GMM-UBM方法,应用高斯混合模型ΣDNN计算每个音频片段的零阶统计量和一阶统计量,该零阶统计量和一阶统计量组成一个高维特征矢量。本实施例抽取出的高维特征矢量为309600维。
步骤7:声纹识别前端采用i-vector方法,应用TDNN矩阵将DNN-UBM输出的高维特征矢量降维到低维空间。本实施例的特征输出空间为400,即将每个音频片段的309600维特征映射为400维特征。
步骤8:声纹特征映射模块采用公式(2),应用训练阶段得到的ADNN矩阵将i-vector特征进一步映射为n维声纹特征(n为训练集中说话人的数量)
步骤9:声纹特征映射模块将任意一个注册说话人所有的音频片段得到的声纹特征矢量求平均得到该注册说话人的声纹特征模型。
3)测试阶段
步骤1:声纹识别前端使用语音端点检测滤除每段测试音频的静音段和噪声段,保留只含有测试说话人语音的音频片段。
步骤2:声纹识别前端将测试说话人中的所有音频切分成长度为3秒至30秒的固定长度片段,本实施例将音频切分成15秒的片段。
步骤3:声纹识别前端将每个音频片段按照帧长为15毫秒至30毫秒、帧移为5毫秒至15毫秒的设置切分成若干帧,并从每一帧中抽取声学特征。本实施例的帧长设置为25毫秒,帧移设置为10毫秒。本实施例的声学特征采用的是20维MFCC特征(包含1维能量特征)+13维RASTA-PLP特征+一阶差分特征+二阶差分特征,共99维。
步骤4:声纹识别前端采用DNN-UBM方法,使用声学模型Λ对测试说话人中的音频片段做识别,抽取出每帧数据的UDNN维后验概率矢量。本实施例所得到的每帧数据的后验概率矢量为8073维。
步骤5:声纹识别前端采用DNN-UBM方法,丢弃后验概率较小的输出状态,只保留个后验概率较大的输出状态(由训练阶段决定具体保留哪些状态)。相应地,每帧数据的后验概率矢量也调整为维。本实施例的设为3096。
步骤6:声纹识别前端采用GMM-UBM方法,应用高斯混合模型ΣDNN计算每个音频片段的零阶统计量和一阶统计量,该零阶统计量和一阶统计量组成一个高维特征矢量。本实施例抽取出的高维特征矢量为309600维。
步骤7:声纹识别前端采用i-vector方法,应用TDNN矩阵将DNN-UBM输出的高维特征矢量降维到低维空间。本实施例的特征输出空间为400,即将每个音频片段的309600维特征映射为400维特征。
步骤8:声纹特征映射模块采用公式(2),应用训练阶段得到的ADNN矩阵将i-vector特征进一步映射为n维声纹特征(n为训练集中说话人的数量)
步骤9:将任意一个测试说话人所有的音频片段得到的声纹特征矢量求平均得到该测试说话人的声纹特征模型。
步骤10:采用余弦相似度分类器计算的相似性:
并与判决门限δ比较,以判断是否与为同一说话人。
(三)d-vector+LR+cosine声纹识别***:
该***采用d-vector作为声纹识别前端,采用本发明LR作为声纹识别后端的声纹特征映射模块,采用余弦相似度作为声纹分类器。它的三个阶段具体如下:
1)训练阶段:
步骤1:声纹识别前端使用语音端点检测滤除每段音频的静音段和噪声段,保留只含有训练说话人语音的音频片段。
步骤2:声纹识别前端将训练数据库中的所有音频切分成长度为3秒至30秒的固定长度片段,本实施例将音频切分成15秒的片段。
步骤3:声纹识别前端将每个音频片段按照帧长为15毫秒至30毫秒、帧移为5毫秒至15毫秒的设置切分成若干帧,并从每一帧中抽取声学特征。本实施例的帧长设置为25毫秒,帧移设置为10毫秒。本实施例的声学特征采用的是20维MFCC特征(包含1维能量特征)+13维RASTA-PLP特征+一阶差分特征+二阶差分特征,共99维。
步骤4:声纹识别前端采用现有的d-vector方法,训练含有n个输出神经元的深度神经网络,得到Σd-vector模型,其中n为训练数据集中的说话人的数量。假设该Σd-vector模型的最高隐藏层含有Ud-vector个隐藏神经元。本实施例的Ud-vector设为400。
步骤5:声纹识别前端采用d-vector方法,使用Σd-vector模型对每帧语音做预测,并将Σd-vector模型的最高隐藏层的输出作为每帧语音的特征,并对每个音频片段的所有帧的特征求平均,得到每个音频片段的Ud-vector维特征矢量。本实施例的Ud-vector设为400。
步骤6:声纹特征映射模块采用本发明所提出的线性回归方法中的公式(1),训练线性回归模型,得到A矩阵。本实施例的A矩阵是400×n的矩阵。
2)注册阶段
步骤1:声纹识别前端使用语音端点检测滤除每段注册音频的静音段和噪声段,保留只含有注册说话人语音的音频片段。
步骤2:声纹识别前端将注册说话人中的所有音频切分成长度为3秒至30秒的固定长度片段,本实施例将音频切分成15秒的片段。
步骤3:声纹识别前端将每个音频片段按照帧长为15毫秒至30毫秒、帧移为5毫秒至15毫秒的设置切分成若干帧,并从每一帧中抽取声学特征。本实施例的帧长设置为25毫秒,帧移设置为10毫秒。本实施例的声学特征采用的是20维MFCC特征(包含1维能量特征)+13维RASTA-PLP特征+一阶差分特征+二阶差分特征,共99维。
步骤4:声纹识别前端采用d-vector方法,使用Σd-vector模型对每帧语音做预测,并将Σd-vector模型的最高隐藏层的输出作为每帧语音的特征,并对每个音频片段的所有帧的特征求平均,得到每个音频片段的Ud-vector维特征矢量。本实施例的Ud-vector设为400。
步骤6:声纹特征映射模块采用公式(2),应用训练阶段得到的A矩阵将i-vector特征进一步映射为n维声纹特征(n为训练集中说话人的数量)
步骤7:声纹特征映射模块将任意一个注册说话人所有的音频片段得到的声纹特征矢量求平均得到该注册说话人的声纹特征模型。
3)测试阶段
步骤1:声纹识别前端使用语音端点检测滤除每段测试音频的静音段和噪声段,保留只含有测试说话人语音的音频片段。
步骤2:声纹识别前端将测试说话人中的所有音频切分成长度为3秒至30秒的固定长度片段,本实施例将音频切分成15秒的片段。
步骤3:声纹识别前端将每个音频片段按照帧长为15毫秒至30毫秒、帧移为5毫秒至15毫秒的设置切分成若干帧,并从每一帧中抽取声学特征。本实施例的帧长设置为25毫秒,帧移设置为10毫秒。本实施例的声学特征采用的是20维MFCC特征(包含1维能量特征)+13维RASTA-PLP特征+一阶差分特征+二阶差分特征,共99维。
步骤4:声纹识别前端采用d-vector方法,使用Σd-vector模型对每帧语音做预测,并将Σd-vector模型的最高隐藏层的输出作为每帧语音的特征,并对每个音频片段的所有帧的特征求平均,得到每个音频片段的Ud-vector维特征矢量。本实施例的Ud-vector设为400。
步骤5:声纹特征映射模块采用公式(2),应用训练阶段得到的A矩阵将i-vector特征进一步映射为n维声纹特征(n为训练集中说话人的数量)
步骤6:声纹特征映射模块将任意一个测试说话人所有的音频片段得到的声纹特征矢量求平均得到该测试说话人的声纹特征模型。
步骤7:声纹分类器采用余弦相似度分类器计算的相似性:
并与判决门限δ比较,以判断是否与为同一说话人。
对上述三个示例在NIST SRE 2006和NIST SRE 2008数据集上进行了实验验证。采用NIST SRE 2006数据集中的8conversation的female数据做为训练集,总共402个说话人,有效语音约100个小时。采用NIST SRE 2008数据集中8conversation的female数据做为注册集和测试集,总共395个说话人。测试(Test)说话人的语音长度固定为30秒(切分成2个片段,每个片段15秒),注册(Enrollment)说话人的语音长度为150秒(切分成10个片段,每个片段15秒)。对任意的注册说话人和测试说话人构造了约15万个测试样例。第二个示例中的DNN声学模型使用Switchboard-1数据库进行训练,精确标注的语音约300小时。
使用以上试验样本,对以上三个示例中使用的LR+cosine的声纹识别后端与其它声纹识别后端的识别错误率进行对比,对比结果如表1所示:
表1
从表1可以看出,在前端相同的情况下,LR+cosine比现有的cosine、WCCN+cosine、LDA+cosine和LDA+PLDA分类器相比,具有更低的识别错误率。
在以上三个示例中,GMM/i-vector+LR+cosine在参与比较的所有方法中取得了最优性能,比参与比较的最优声纹识别***GMM/i-vector+LDA+PLDA相对提升27.19%。DNN/i-vector+LR+cosine比采用了相同声纹识别前端DNN/i-vector的最优声纹识别***DNN/i-vector+LDA+cosine相对提升23.39%。d-vector+LR+cosine比采用了相同声纹识别前端d-vector的最优声纹识别***相对提升7.31%。
需要说明的是,上述实施例仅是本专利公布方案的特例,凡是在声纹识别***中将线性回归算法用于得到声纹特征矢量的算法,均在本专利保护范围内。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于线性回归的声纹识别方法,其特征在于,包括:
从语音数据中获取第一声纹特征矢量;
使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量;
对所述第二声纹特征矢量进行分类识别。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一声纹特征矢量映射为第二声纹特征矢量包括:
使用映射关系z=ATx,将所述第一声纹特征矢量映射为第二声纹特征矢量,其中,A为所述预先训练的线性回归模型,x为所述第一声纹特征矢量,z为所述第二声纹特征矢量。
3.根据权利要求1或2所述的方法,其特征在于,所述线性回归模型的训练过程包括:
从声纹数据库中获取训练数据其中,xi,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量,i=1,…,n,j=1,…,Mi,n为所述声纹数据库中的说话人的数量,任意一个说话人对应Mn句话;yi,j为第i个说话人的n维示性矢量yi,j=[0,…,1,…,0]T;d为预设数值;
使用A=(XXT)-1XYT,得到所述线性回归模型,其中,为训练数据的声纹矢量组成的的矩阵,为训练数据的示性矢量组成的的矩阵。
4.根据权利要求1所述的方法,其特征在于,所述对所述第二声纹特征矢量进行分类识别包括:
使用余弦分类器,对所述第二声纹特征矢量进行分类识别。
5.根据权利要求1所述的方法,其特征在于,所述从语音数据中获取第一声纹特征矢量包括:
使用GMM/i-vector算法、DNN/i-vector算法或者d-vector算法,从语音数据中获取第一声纹特征矢量。
6.一种基于线性回归的声纹识别***,其特征在于,包括:
声纹特征提取前端,用于从语音数据中获取第一声纹特征矢量;
声纹识别后端,所述声纹识别后端包括声纹特征映射模块和声纹分类器,所述声纹特征映射模块用于使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量;所述声纹分类器用于对所述第二声纹特征矢量进行分类识别。
7.根据权利要求6所述的***,其特征在于,所述声纹特征映射模块用于使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量包括:
所述声纹特征映射模块具体用于,使用映射关系z=ATx,将所述第一声纹特征矢量映射为第二声纹特征矢量,其中,A为所述预先训练的线性回归模型,x为所述第一声纹特征矢量,z为所述第二声纹特征矢量。
8.根据权利要求6或7所述的***,其特征在于,所述声纹特征映射模块还用于:
从声纹数据库中获取训练数据其中,xi,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量,i=1,…,n,j=1,…,Mi,n为所述声纹数据库中的说话人的数量,任意一个说话人对应Mn句话;yi,j为第i个说话人的n维示性矢量yi,j=[0,…,1,…,0]T;d为预设数值;
使用A=(XXT)-1XYT,得到所述线性回归模型,其中,为训练数据的声纹矢量组成的的矩阵,为训练数据的示性矢量组成的的矩阵。
9.根据权利要求6所述的***,其特征在于,所述声纹分类器包括:余弦分类器。
10.根据权利要求6所述的***,其特征在于,所述声纹特征提取前端包括:
GMM/i-vector前端、DNN/i-vector前端或者d-vector前端。
CN201810141059.0A 2018-02-11 2018-02-11 一种基于线性回归的声纹识别方法及*** Active CN108091326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810141059.0A CN108091326B (zh) 2018-02-11 2018-02-11 一种基于线性回归的声纹识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810141059.0A CN108091326B (zh) 2018-02-11 2018-02-11 一种基于线性回归的声纹识别方法及***

Publications (2)

Publication Number Publication Date
CN108091326A true CN108091326A (zh) 2018-05-29
CN108091326B CN108091326B (zh) 2021-08-06

Family

ID=62194472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810141059.0A Active CN108091326B (zh) 2018-02-11 2018-02-11 一种基于线性回归的声纹识别方法及***

Country Status (1)

Country Link
CN (1) CN108091326B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065028A (zh) * 2018-06-11 2018-12-21 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
CN109367350A (zh) * 2018-10-11 2019-02-22 山东科技大学 车辆空调自动启动方法及其***
CN110517698A (zh) * 2019-09-05 2019-11-29 科大讯飞股份有限公司 一种声纹模型的确定方法、装置、设备及存储介质
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
WO2020019831A1 (zh) * 2018-07-23 2020-01-30 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN110853654A (zh) * 2019-11-17 2020-02-28 西北工业大学 一种模型生成方法、声纹识别方法及对应装置
CN111933147A (zh) * 2020-06-22 2020-11-13 厦门快商通科技股份有限公司 声纹识别方法、***、移动终端及存储介质
CN111462760B (zh) * 2019-01-21 2023-09-26 阿里巴巴集团控股有限公司 声纹识别***、方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1366295A (zh) * 2000-07-05 2002-08-28 松下电器产业株式会社 基于事先知识的说话者检验及说话者识别***和方法
US20100145697A1 (en) * 2004-07-06 2010-06-10 Iucf-Hyu Industry-University Cooperation Foundation Hanyang University Similar speaker recognition method and system using nonlinear analysis
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN106601258A (zh) * 2016-12-12 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于改进的lsda算法进行信道补偿的说话人识别方法
CN107517207A (zh) * 2017-03-13 2017-12-26 平安科技(深圳)有限公司 服务器、身份验证方法及计算机可读存储介质
CN107623614A (zh) * 2017-09-19 2018-01-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107633845A (zh) * 2017-09-11 2018-01-26 清华大学 一种鉴别式局部信息距离保持映射的说话人确认方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1366295A (zh) * 2000-07-05 2002-08-28 松下电器产业株式会社 基于事先知识的说话者检验及说话者识别***和方法
US20100145697A1 (en) * 2004-07-06 2010-06-10 Iucf-Hyu Industry-University Cooperation Foundation Hanyang University Similar speaker recognition method and system using nonlinear analysis
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN106601258A (zh) * 2016-12-12 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于改进的lsda算法进行信道补偿的说话人识别方法
CN107517207A (zh) * 2017-03-13 2017-12-26 平安科技(深圳)有限公司 服务器、身份验证方法及计算机可读存储介质
CN107633845A (zh) * 2017-09-11 2018-01-26 清华大学 一种鉴别式局部信息距离保持映射的说话人确认方法
CN107623614A (zh) * 2017-09-19 2018-01-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237517A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
CN109065028A (zh) * 2018-06-11 2018-12-21 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
WO2020019831A1 (zh) * 2018-07-23 2020-01-30 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN109367350A (zh) * 2018-10-11 2019-02-22 山东科技大学 车辆空调自动启动方法及其***
CN109367350B (zh) * 2018-10-11 2020-08-11 山东科技大学 车辆空调自动启动方法及其***
CN111462760B (zh) * 2019-01-21 2023-09-26 阿里巴巴集团控股有限公司 声纹识别***、方法、装置及电子设备
CN110517698B (zh) * 2019-09-05 2022-02-01 科大讯飞股份有限公司 一种声纹模型的确定方法、装置、设备及存储介质
CN110517698A (zh) * 2019-09-05 2019-11-29 科大讯飞股份有限公司 一种声纹模型的确定方法、装置、设备及存储介质
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN110853654A (zh) * 2019-11-17 2020-02-28 西北工业大学 一种模型生成方法、声纹识别方法及对应装置
CN110853654B (zh) * 2019-11-17 2021-12-21 西北工业大学 一种模型生成方法、声纹识别方法及对应装置
CN111933147B (zh) * 2020-06-22 2023-02-14 厦门快商通科技股份有限公司 声纹识别方法、***、移动终端及存储介质
CN111933147A (zh) * 2020-06-22 2020-11-13 厦门快商通科技股份有限公司 声纹识别方法、***、移动终端及存储介质

Also Published As

Publication number Publication date
CN108091326B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN108091326A (zh) 一种基于线性回归的声纹识别方法及***
CN108417217B (zh) 说话人识别网络模型训练方法、说话人识别方法及***
An et al. Deep CNNs with self-attention for speaker identification
CN105139857B (zh) 一种自动说话人识别中针对语音欺骗的对抗方法
Novoselov et al. Triplet Loss Based Cosine Similarity Metric Learning for Text-independent Speaker Recognition.
CN104167208B (zh) 一种说话人识别方法和装置
Chavan et al. An overview of speech recognition using HMM
Ji et al. Ensemble Learning for Countermeasure of Audio Replay Spoofing Attack in ASVspoof2017.
CN104538035B (zh) 一种基于Fisher超向量的说话人识别方法及***
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及***
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Sethu et al. Speaker variability in speech based emotion models-Analysis and normalisation
Biagetti et al. Speaker identification with short sequences of speech frames
Fagerlund et al. New parametric representations of bird sounds for automatic classification
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
CN111666996A (zh) 一种基于attention机制的高精度设备源识别方法
CN114220419A (zh) 一种语音评价方法、装置、介质及设备
Ghaemmaghami et al. Speaker attribution of australian broadcast news data
Gupta et al. Segment-level pyramid match kernels for the classification of varying length patterns of speech using SVMs
Bui et al. A non-linear GMM KL and GUMI kernel for SVM using GMM-UBM supervector in home acoustic event classification
Ghonem et al. Classification of stuttering events using i-vector

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant