CN109065022A - i-vector向量提取方法、说话人识别方法、装置、设备及介质 - Google Patents

i-vector向量提取方法、说话人识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN109065022A
CN109065022A CN201810574010.4A CN201810574010A CN109065022A CN 109065022 A CN109065022 A CN 109065022A CN 201810574010 A CN201810574010 A CN 201810574010A CN 109065022 A CN109065022 A CN 109065022A
Authority
CN
China
Prior art keywords
vector
speaker
voice data
training
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810574010.4A
Other languages
English (en)
Other versions
CN109065022B (zh
Inventor
涂宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810574010.4A priority Critical patent/CN109065022B/zh
Priority to PCT/CN2018/092589 priority patent/WO2019232826A1/zh
Publication of CN109065022A publication Critical patent/CN109065022A/zh
Application granted granted Critical
Publication of CN109065022B publication Critical patent/CN109065022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种i‑vector向量提取方法、说话人识别方法、装置、设备及介质,其中,该i‑vector向量提取方法包括:获取说话人的训练语音数据,并提取训练语音数据对应的训练语音特征;基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间;将训练语音特征投影在总体变化子空间上,获取第一i‑vector向量;将第一i‑vector向量投影在总体变化子空间上,获取与说话人对应的注册i‑vector向量。该方法使得训练语音特征数据经过两次投影也即降低维度后可去除更多的噪音特征,提高了提取说话人语音特征的纯净度,同时降维后减少计算空间也提高语音识别的识别效率。

Description

i-vector向量提取方法、说话人识别方法、装置、设备及介质
技术领域
本发明涉及语音识别领域,尤其涉及一种i-vector向量提取方法、说话人识别方法、装置、设备及介质。
背景技术
说话人识别又称声纹识别,是利用语音信号中含有的特定说话人信息来识别说话者身份的一种生物认证技术。近年来,基于向量分析的i-vector(identity-vector,身份认证向量)建模方法的引入使得说话人识别***的性能有了明显的提升。在对说话人语音的向量分析中,通常信道子空间中会包含说话人的信息。i-vector空间用一个低维的总变量空间来表示说话人子空间和信道子空间,将说话人语音通过降维投影到该空间,可得到一个固定长度的矢量表征(即i-vector向量)。然而,现有i-vector建模的所获取的i-vector向量还存在较多干扰因素,增加将i-vector向量用于说话人识别时的复杂性。
发明内容
基于此,有必要针对上述技术问题,提供一种可以去除较多干扰因素的i-vector向量提取方法、装置、计算机设备及存储介质。
一种i-vector向量提取方法,包括:
获取说话人的训练语音数据,并提取训练语音数据对应的训练语音特征;
基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间;
将训练语音特征投影在总体变化子空间上,获取第一i-vector向量;
将第一i-vector向量投影在总体变化子空间上,获取与说话人对应的注册i-vector向量。
一种i-vector向量提取装置,包括:
获取语音数据模块,用于获取说话人的训练语音数据,并提取训练语音数据对应的训练语音特征;
训练变化空间模块,用于基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间;
投影变化空间模块,用于将训练语音特征投影在总体变化子空间上,获取第一i-vector向量;
获取i-vector向量模块,用于将第一i-vector向量投影在总体变化子空间上,获取与说话人对应的注册i-vector向量。
一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现i-vector向量提取方法的步骤。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现i-vector向量提取方法的步骤。
本实施还提供一种说话人识别方法,包括:
获取测试语音数据,测试语音数据携带说话人标识;
基于测试语音数据,获取对应的测试i-vector向量;
基于说话人标识查询数据库,获取与说话人标识对应的注册i-vector向量;
采用余弦相似度算法获取测试i-vector向量和注册i-vector向量的相似度,根据相似度检测测试i-vector向量和注册i-vector是否对应同一说话人。
一种说话人识别装置,包括:
获取测试数据模块,用于获取测试语音数据,测试语音数据携带说话人标识;
获取测试向量模块,用于采用i-vector向量提取方法对测试语音数据进行处理,获取对应的测试i-vector向量;
获取注册向量模块,用于基于说话人标识查询数据库,获取与说话人标识对应的注册i-vector向量;
确定对应说话人模块,用于采用余弦相似度算法获取测试i-vector向量和注册i-vector向量的相似度,根据相似度检测测试i-vector向量和注册i-vector是否对应同一说话人。
一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现说话人识别方法的步骤。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现说话人识别方法的步骤。
本发明实施例提供的i-vector向量提取方法、说话人识别方法、装置、设备及介质,通过将训练语音特征投影在总体变化子空间上获取第一i-vector向量后,再将第一i-vector向量第二次投影在总体变化子空间上获取注册i-vector向量,使得训练语音特征数据经过两次投影也即降低维度后可去除更多的噪音特征,提高了提取说话人语音特征的纯净度,同时降维后减少计算空间也提高语音识别的识别效率,降低识别复杂度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中i-vector向量提取方法的应用环境示意图;
图2是本发明一实施例中i-vector向量提取方法的流程图;
图3是本发明一实施例中i-vector向量提取方法的另一具体流程图;
图4是本发明一实施例中i-vector向量提取方法的另一具体流程图;
图5是本发明一实施例中i-vector向量提取方法的另一具体流程图;
图6是本发明一实施例中说话人识别方法的一具体流程图;
图7是本发明一实施例中i-vector向量提取装置的一原理框图;
图8是本发明一实施例中说话人识别装置的一原理框图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的i-vector向量提取方法,可应用在如图1的应用环境中,其中,计算机设备通过网络与识别服务器进行通信。其中,计算机设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。识别服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种i-vector向量提取方法,以该方法应用在图1中的识别服务器为例进行说明,包括如下步骤:
S10.获取说话人的训练语音数据,并提取训练语音数据对应的训练语音特征。
其中,说话人的训练语音数据是说话人提供的原始语音数据。训练语音特征是代表说话人区别于他人的语音特征,应用于本实施例,可采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,以下简称MFCC特征)作为训练语音特征。
检测发现人耳像一个滤波器组,只关注某些特定的频率分量(人的听觉对频率是非线性的),也就是说人耳接收声音频率的信号是有限的。然而这些滤波器在频率坐标轴上却不是统一分布的,在低频区域有很多的滤波器,他们分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏。梅尔刻度滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
S20.基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间。
其中,预设UBM(Universal Background Model,通用背景模型)是一个表征大量非特定说话人语音特征分布的高斯混合模型(Gaussian Mixture Models,高斯混合模型)。UBM模型的训练通常采用大量的与特定说话人无关、信道无关的语音数据,因此通常可以认为UBM模型是与特定说话人无关的模型,它只是拟合人的语音特征分布,而并不代表某个具体的说话人。在识别服务器中预设UBM模型,是因为在声纹识别过程的声纹注册阶段中,训练特定说话人的语音数据通常非常少,使用GMM模型对说话人语音特征进行建模,训练特定说话人的语音数据通常无法覆盖到GMM所在的特征空间。因此,可根据训练语音的特征调整UBM模型的参数来表征特定说话人的个性信息,训练语音覆盖不到的特征可以用UBM模型中相似的特征分布来近似,这种方法可以较好地解决训练语音不足带来的***性能的问题。
总体变化子空间,也称T空间(Total Variability Space),是直接设置一个全局变化的投影矩阵,用以包含语音数据中说话人所有可能的信息,在T空间内不分开说话人空间和信道空间。T空间能把高维充分统计量(超矢量)投影到可以作为低维说话人表征的i-vector,起到降维作用。T空间的训练过程包括:根据预设UBM模型,利用向量分析和EM(Expectation Maximization Algorithm,最大期望)算法,从其中收敛计算出T空间。
本步骤中,基于预设UBM模型得到的总体变化子空间不区分说话人空间和信道空间,将声道空间的信息和信道空间的信息收敛于一个空间,以降低计算复杂度,便于进一步基于总体变化子空间获取i-vector向量。
S30.将训练语音特征投影在总体变化子空间上,获取第一i-vector向量。
其中,第一i-vector向量是将训练语音特征投影到低维的总体变化子空间,得到的一个固定长度的矢量表征的向量,即i-vector向量。
具体地,本步骤中采用公式s1=m+Tw1,可获取高维的训练语音特征投影在总体变化子空间后形成低维的第一i-vector向量,降低训练语音特征投影的维度和去除更多的噪声,便于基于第一i-vector向量对说话人进行识别。
S40.将第一i-vector向量投影在总体变化子空间上,获取与说话人对应的注册i-vector向量。
其中,总体变化子空间就是通过步骤S20得到的,该总体变化子空间不分开说话人空间和信道空间,且直接设置一个全局变化的T(Total Variability Space)空间,用以包含语音数据中所有可能的信息。
注册i-vector向量是将第一i-vector向量投影到低维的总体变化子空间,得到的一个用于记录在识别服务器的数据库中、用以与说话人ID关联作为身份标识的固定长度的矢量表征的向量,即i-vector。
在一具体实施方式中,在步骤S40中,即将训练语音特征投影在总体变化子空间上,获取第一i-vector向量,具体包括如下步骤:
S41.采用公式s2=m+Tw2将第一i-vector向量投影在总体变化子空间上,获取注册i-vector向量,其中,s2是D*G维的与注册i-vector向量相对应的均值超矢量;m是与说话人无关且信道无关的D*G维超向量;T是总体变化子空间,维度为DG*M;w2是注册i-vector向量,维度为M。
本实施例中,s2可采用步骤S30获取的第一i-vector向量的高斯均值超矢量;m是与说话人无关且与信道无关的D*G维超向量,由UBM模型对应的均值超矢量拼接而成;w2是一组服从标准正态分布的随机向量,就是注册i-vector向量,注册i-vector向量的维度为M。
进一步地,公式中T(总体变化子空间)的获取过程为:训练UBM模型的高维充分统计量,然后通过EM算法迭代更新上述高维充分统计量即可生成收敛的T空间。将T空间带入公式s2=m+Tw2,因s2、m和T都是已知的,即可获取w2,也即注册i-vector向量,其中,w2=(s2-m)/T。
本实施例提供的i-vector向量提取方法通过将训练语音特征投影在总体变化子空间上获取第一i-vector向量后,再将第一i-vector向量第二次投影在总体变化子空间上获取注册i-vector向量,使得训练语音特征数据经过两次投影也即降低维度后可去除更多的噪音特征,提高了提取说话人语音特征的纯净度,同时降维后减少计算空间也提高语音识别的识别效率,本实施了提供的说话人识别方法采用i-vector向量提取方法来进行识别,降低识别复杂度。
在一实施例中,如图3所示,步骤S10中,即提取训练语音数据对应的训练语音特征,具体包括如下步骤:
S11:对训练语音数据进行预处理,获取预处理语音数据。
在一具体实施方式中,步骤S11中,对训练语音数据进行预处理,获取预处理语音数据,具体包括如下步骤:
S111:对训练语音数据作预加重处理,预加重处理的计算公式为s'n=sn-a*sn-1,其中,sn为时域上的信号幅度,sn-1为与sn相对应的上一时刻的信号幅度,s'n为预加重后时域上的信号幅度,a为预加重系数,a的取值范围为0.9<a<1.0。
其中,预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加,信号在传输过程中受损很大,为了使接收端能得到比较好的信号波形,就需要对受损的信号进行补偿。预加重技术的思想就是在传输线的发送端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减,使得接收端能够得到较好的信号波形。预加重对噪声并没有影响,因此能够有效提高输出信噪比。
本实施例中,对训练语音数据作预加重处理,该预加重处理的公式为s'n=sn-a*sn-1,其中,sn为时域上的信号幅度,即语音数据在时域上表达的语音的幅值(幅度),sn-1为与sn相对的上一时刻的信号幅度,s'n为预加重后时域上的信号幅度,a为预加重系数,a的取值范围为0.9<a<1.0,这里取0.97预加重的效果比较好。采用该预加重处理能够消除发声过程中声带和嘴唇等造成的干扰,可以有效补偿训练语音数据被压抑的高频部分,并且能够突显训练语音数据高频的共振峰,加强训练语音数据的信号幅度,有助于提取训练语音特征。
S112:将预加重后的训练语音数据进行分帧处理。
具体地,在预加重训练语音数据后,还应进行分帧处理。分帧是指将整段的语音信号切分成若干段的语音处理技术,每帧的大小在10-30ms的范围内,以大概1/2帧长作为帧移。帧移是指相邻两帧间的重叠区域,能够避免相邻两帧变化过大的问题。对训练语音数据进行分帧处理,能够将训练语音数据分成若干段的语音数据,可以细分训练语音数据,便于训练语音特征的提取。
S113:将分帧后的训练语音数据进行加窗处理,获取预处理语音数据,加窗的计算公式为其中,N为窗长,n为时间,sn为时域上的信号幅度,s'n为加窗后时域上的信号幅度。
具体地,在对训练语音数据进行分帧处理后,每一帧的起始段和末尾端都会出现不连续的地方,所以分帧越多与训练语音数据的误差也就越大。采用加窗能够解决这个问题,可以使分帧后的训练语音数据变得连续,并且使得每一帧能够表现出周期函数的特征。加窗处理具体是指采用窗函数对训练语音数据进行处理,窗函数可以选择汉明窗,则该加窗的公式为N为汉明窗窗长,n为时间,sn为时域上的信号幅度,s'n为加窗后时域上的信号幅度。对训练语音数据进行加窗处理,获取预处理语音数据,能够使得分帧后的训练语音数据在时域上的信号变得连续,有助于提取训练语音数据的训练语音特征。
上述步骤S211-S213对训练语音数据的预处理操作,为提取训练语音数据的训练语音特征提供了基础,能够使得提取的训练语音特征更能代表该训练语音数据,并根据该训练语音特征训练出对应的GMM-UBM模型。
S12:对预处理语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据频谱获取训练语音数据的功率谱。
其中,快速傅里叶变换(Fast Fourier Transformation,简称FFT),指利用计算机计算离散傅里叶变换的高效、快速计算方法的统称。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少,特别是被变换的抽样点数越多,FFT算法计算量的节省就越显著。
具体地,对预处理语音数据进行快速傅里叶变换,以将预处理语音数据从时域上的信号幅度转换为在频域上的信号幅度(频谱)。该计算频谱的公式为1≤k≤N,N为帧的大小,s(k)为频域上的信号幅度,s(n)为时域上的信号幅度,n为时间,i为复数单位。在获取预处理语音数据的频谱后,可以根据该频谱直接求得预处理语音数据的功率谱,以下将预处理语音数据的功率谱称为训练语音数据的功率谱。该计算训练语音数据的功率谱的公式为1≤k≤N,N为帧的大小,s(k)为频域上的信号幅度。通过将预处理语音数据从时域上的信号幅度转换为频域上的信号幅度,再根据该频域上的信号幅度获取训练语音数据的功率谱,为从训练语音数据的功率谱中提取训练语音特征提供重要的技术基础。
S13:采用梅尔刻度滤波器组处理训练语音数据的功率谱,获取训练语音数据的梅尔功率谱。
其中,采用梅尔刻度滤波器组处理训练语音数据的功率谱是对功率谱进行的梅尔频率分析,梅尔频率分析是基于人类听觉感知的分析。检测发现,人耳就像一个滤波器组一样,只关注某些特定的频率分量(人的听觉对频率是非线性的),也就是说人耳接收声音频率的信号是有限的。然而这些滤波器在频率坐标轴上却不是统一分布的,在低频区域有很多的滤波器,他们分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏。可以理解地,梅尔刻度滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
本实施例中,采用梅尔刻度滤波器组处理训练语音数据的功率谱,获取训练语音数据的梅尔功率谱,通过采用梅尔刻度滤波器组对频域信号进行切分,使得最后每个频率段对应一个数值,若滤波器的个数为22,则可以得到训练语音数据的梅尔功率谱对应的22个能量值。通过对训练语音数据的功率谱进行梅尔频率分析,使得其分析后获取的梅尔功率谱保留着与人耳特性密切相关的频率部分,该频率部分能够很好地反映出训练语音数据的特征。
S14:在梅尔功率谱上进行倒谱分析,获取训练语音数据的MFCC特征。
其中,倒谱(cepstrum)是指一种信号的傅里叶变换谱经对数运算后再进行的傅里叶反变换,由于一般傅里叶谱是复数谱,因而倒谱又称复倒谱。
具体地,对梅尔功率谱进行倒谱分析,根据倒谱的结果,分析并获取训练语音数据的MFCC特征。通过该倒谱分析,可以将原本特征维度过高,难以直接使用的训练语音数据的梅尔功率谱中包含的特征,通过在梅尔功率谱上进行倒谱分析,转换成易于使用的特征(用来进行训练或识别的MFCC特征特征向量)。该MFCC特征能够作为训练语音特征对不同语音进行区分的系数,该训练语音特征可以反映语音之间的区别,可以用来识别和区分训练语音数据。
在一具体实施方式中,步骤S14中,在梅尔功率谱上进行倒谱分析,获取训练语音数据的MFCC特征,包括如下步骤:
S141:取梅尔功率谱的对数值,获取待变换梅尔功率谱。
具体地,根据倒谱的定义,对梅尔功率谱取对数值log,获取待变换梅尔功率谱m。
S142:对待变换梅尔功率谱作离散余弦变换,获取训练语音数据的MFCC特征。
具体地,对待变换梅尔功率谱m作离散余弦变换(Discrete Cosine Transform,DCT),获取相对应的训练语音数据的MFCC特征,一般取第2个到第13个系数作为训练语音特征,该训练语音特征能够反映语音数据间的区别。对待变换梅尔功率谱m作离散余弦变换的公式为i=0,1,2,...,N-1,N为帧长,m为待变换梅尔功率谱,j为待变换梅尔功率谱的自变量。由于梅尔滤波器之间是有重叠的,所以采用梅尔刻度滤波器获取的能量值之间是具有相关性的,离散余弦变换可以对待变换梅尔功率谱m进行降维压缩和抽象,并获取间接的训练语音特征,相比于傅里叶变换,离散余弦变换的结果没有虚部,在计算方面有明显的优势。
步骤S11-S14基于训练技术对训练语音数据进行特征提取的处理,最终获取的训练语音特征能够很好地体现训练语音数据,该训练语音特征能够训练出对应的GMM-UBM模型,进而获取注册i-vector向量,以使训练获取的注册i-vector向量在进行语音识别时的结果更为精确。
需要说明的是,以上提取的特征为MFCC特征,在这里不应将训练语音特征限定为只有MFCC特征一种,而应当认为采用训练技术获取的语音特征,只要能够有效反映语音数据特征,都是可以作为训练语音特征进行识别和模型训练的。本实施例中,对训练语音数据进行预处理,并获取相对应的预处理语音数据。对训练语音数据进行预处理能够更好地提取训练语音数据的训练语音特征,使得提取出的训练语音特征更能代表该训练语音数据,以采用该训练语音特征进行语音识别。
在一实施例中,如图4所示,步骤S20中,即基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间,具体包括如下步骤:
S21.获取预设UBM模型的高维充分统计量。
其中,UBM模型是采用多人、信道均衡且男女声均衡的足够多的语音训练出一个高阶的GMM模型,以描述与说话人无关的特征分布。UBM模型可根据训练语音特征调整UBM模型的参数来表征特定说话人的个性信息,训练语音特征覆盖不到的特征用UBM模型中相似的特征分布来近似,以解决训练语音不足带来的性能问题。
统计量是样本数据的函数,在统计学中,T(x)为未知分布P的参数θ的充分统计量,当且仅当T(x)可以提供θ的全部信息,也就是说,没有统计量可以提供关于θ的额外信息。统计量是实际上是一种对数据分布的压缩,在样本加工为统计量的过程中,样本中所含的信息可能有所损失,若在将样本加工为统计量时,信息毫无损失,则称此统计量为充分统计量。比如,对于高斯分布,期望和协方差矩阵就是它的两个充分统计量,因为如果这两个参数已知,就可以唯一确定一个高斯分布。
具体地,获取预设UBM模型的高维充分统计量的过程为:确定说话人样本X={x1,x2,...,xn},该样本服从预设UBM模型对应的分布F(x),参数为theta。对于该组样本的统计量为T,T=r(x1,x2,...,xn)。若T服从分布F(T),且样本X的分布F(x)的参数theta可以由F(T)求出来,即F(x)中包含的所有关于theta的信息都包含在了F(T)中,则T就是预设UBM模型的高维充分统计量。
本步骤中,识别服务器通过获取预设UBM模型的零阶充分统计量和一阶充分统计量,用以作为训练总体变化子空间的技术基础。
S22.采用最大期望算法对高维充分统计量进行迭代,获取对应的总体变化子空间。
其中,最大期望算法(Expectation Maximization Algorithm,最大期望em算法)是一种迭代算法,在统计学中被用于寻找,依赖于不可观察的隐性变量的概率模型中参数的最大似然估计。比如,初始化A和B两个参数,在初始状态下二者的数值都是未知的,但得到A的信息即可得到B的信息,同理获得B的信息也可得到A。若首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,直至持续到收敛为止。
EM的算法流程如下:1.初始化分布参数;2.重复E步骤和M步骤直到收敛:E步骤:估计未知参数的期望值,给出当前的参数估计;M步骤:重新估计分布参数,以使得数据的似然性最大,给出未知变量的期望估计。通过交替使用E步骤和M步骤,逐步改进模型的参数,使参数和训练样本的似然概率逐渐增大,最后终止于一个极大点。
具体地,迭代获取总体变化子空间是通过下述步骤实现的:
步骤一:根据高维充分统计量将M个高斯分量的均值矢量(每个矢量有D维),串接在一起形成一个高斯均值超矢量,即M*D维矢量,采用M*D维矢量构成F(x),F(x)是MD维矢量;同时利用零阶充分统计量构造N,N是MD x MD维对角矩阵,以后验概率作为主对角线元素拼接而成。其中,后验概率是指在得到结果的信息后重新修正的概率。比如:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,即为后验概率。
步骤二:初始化T空间,构造一个[MD,V]维矩阵,其中,V的维度远小于MD维度,V的维度就是第一i-vector向量的维度。
步骤三:固定T空间,采用最大期望算法对下述公式进行反复迭代,以估算隐变量w的零阶充分统计量和一阶充分统计量。当迭代计算达到指定次数(5-6次)后,即可认为T空间收敛,以固定T空间:
该公式中,w是隐变量,I是单位矩阵;∑是MD x MD维的UMM模型的协方差矩阵,其对角元素是∑1,...∑m;F是高维充分统计量中的一阶充分统计量;N是MD x MD维对角矩阵。
本实施例中,通过EM算法迭代,提供一个简单稳定的迭代算法计算后验密度函数获取总体变化子空间;获取总体变化子空间可将预设UBM模型的高维充分统计量(超矢量)投影到低维实现,利于降维后的矢量进一步进行语音识别。
在一实施例中,如图5所示,步骤S30中,即将训练语音特征投影在总体变化子空间上,获取第一i-vector向量,具体包括如下步骤:
S31.基于训练语音特征和预设UBM模型,采用均值MAP自适应方法获取GMM-UBM模型。
其中,训练语音特征是代表说话人区别于他人的语音特征,应用于本实施例,可采用梅尔频率倒谱系数MFCC特征(Mel-Frequency Cepstral Coefficients,以下简称MFCC特征)作为训练语音特征。
具体地,基于预设UBM模型,采用最大后验概率MAP来自适应训练语音特征的GMM模型,以更新每个高斯分量的均值矢量。然后生成M个分量的GMM模型,也即生成GMM-UBM模型。以GMM-UBM模型的每个高斯分量的均值矢量(每个矢量有D维)作为串接单元,形成M*D维的高斯均值超矢量。
S32.采用公式s1=m+Tw1将训练语音特征投影在总体变化子空间上,获取第一i-vector向量,其中,s1是C*F维的GMM-UBM模型中与训练语音特征相对应的均值超矢量;m是与说话人无关且信道无关的C*F维超向量;T是总体变化子空间,维度为CF*N;w1是第一i-vector向量,维度为N。
本实施例中,s1可采用步骤S31获取的高斯均值超矢量;m是与说话人无关且与信道无关的M*D维超向量,由UBM模型对应的均值超矢量拼接而成;w1是一组服从标准正态分布的随机向量,就是第一i-vector向量,第一i-vector向量的维度为N。
进一步地,公式中T(总体变化子空间)的获取过程为:训练UBM模型的高维充分统计量,然后通过EM算法迭代更新上述高维充分统计量即可生成收敛的T空间。将T空间带入公式s1=m+Tw1,因s1、m和T都是已知的,即可获取w1,也即第一i-vector向量,其中,w1=(s1-m)/T。
步骤S31至步骤S32中,通过采用公式s1=m+Tw1可将训练语音特征投影在总体变化子空间上,获取第一i-vector向量,可将训练语音特征进行初次降维简化训练语音特征的复杂度,也便于对低维的第一i-vector向量进行进一步处理或者用来进行语音识别。
在一实施例中,如图6所示,提供一种说话人识别方法,以该方法应用在图1中的识别服务器为例进行说明,包括如下步骤:
S50.获取测试语音数据,测试语音数据携带说话人标识。
其中,测试语音数据是待确认的、声称是发自携带的说话人标识对应的说话人的声音数据。说话人标识是用以表示说话人身份的唯一标识,包括但不限于用户名、身份证号码、手机号码等。
完成语音识别的过程需要两个基本要素:语音和身份,应用于本实施例,语音就是测试语音数据,身份就是说话人标识,以便识别服务器进一步判定测试语音数据声称的身份是否为真正对应的身份。
S60.采用i-vector向量提取方法对测试语音数据进行处理,获取对应的测试i-vector向量。
其中,测试i-vector向量是将测试语音特征投影到低维的总体变化子空间后,得到的一个用于验证身份的固定长度的矢量表征(即i-vector)。
本步骤中,可获取测试语音数据对应的测试i-vector向量,获取过程与基于训练语音特征获取对应的注册i-vector向量相同,此处不再赘述。
S70.基于说话人标识查询数据库,获取与说话人标识对应的注册i-vector向量。
其中,数据库是将说话人对应的注册i-vector向量和说话人标识进行关联记录的数据库。
注册i-vector向量是记录在识别服务器的数据库中、用以与说话人ID关联作为身份标识的固定长度的矢量表征(即i-vector)。
本步骤中,识别服务器可基于测试语音数据携带的说话人标识在数据库查找到对应的注册i-vector向量,以便进一步对注册i-vector向量和测试i-vector向量进行对比。
S80.采用余弦相似度算法获取测试i-vector向量和所述注册i-vector向量的相似度,根据相似度检测测试i-vector向量和注册i-vector是否对应同一说话人。
具体地,获取测试i-vector向量和注册i-vector向量的相似度可由以下公式进行判定:
其中,Ai和Bi分别代表向量A和向量B的各个分量。由上式可知,相似度范围从-1到1,其中-1表示两个向量方向相反,1表示两个向量指向相同;0表示两个向量是独立的。在-1和1之间表示两个向量之间的相似性或相异性,可以理解地,相似度越接近1表示两个向量越接近。应用于本实施例,可根据实际经验预先设定cosθ的阈值。若测试i-vector向量和注册i-vector向量的相似度大于阈值,则认为测试i-vector向量和注册i-vector向量相似,也即可判定测试语音数据在数据库中与说话人标识是对应的。
本实施例中,通过余弦相似度算法即可判定测试i-vector向量和注册i-vector向量的相似度,简单快捷,利于快速确认识别结果。
本发明实施例提供的i-vector向量提取方法通过将训练语音特征投影在总体变化子空间上获取第一i-vector向量后,再将第一i-vector向量第二次投影在总体变化子空间上获取注册i-vector向量,使得训练语音特征数据经过两次投影也即降低维度后可去除更多的噪音特征,提高了提取说话人语音特征的纯净度,同时降维后减少计算空间也提高语音识别的识别效率,降低识别复杂度。
进一步地,基于训练技术对训练语音数据进行特征提取的处理获取注册i-vector向量,能够很好地体现训练语音数据,使得训练获取的注册i-vector向量在进行语音识别时的结果更为精确;通过EM算法迭代,提供一个简单稳定的迭代算法计算后验密度函数获取总体变化子空间;获取总体变化子空间可将预设UBM模型的高维充分统计量投影到低维实现,利于降维后的矢量进一步进行语音识别。
本发明实施例提供的说话人识别方法通过采用i-vector向量提取方法对测试语音数据进行处理,获取对应的测试i-vector向量,可降低获取测试i-vector向量的复杂度;同时,通过余弦相似度算法即可判定测试i-vector向量和注册i-vector向量的相似度,简单快捷,利于快速确认识别结果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种i-vector向量提取装置,该i-vector向量提取装置与上述实施例中i-vector向量提取方法一一对应。如图7所示,该i-vector向量提取装置包括获取语音数据模块10、训练变化空间模块20、投影变化空间模块30和获取i-vector向量模块40。各功能模块详细说明如下:
获取语音数据模块10,用于获取说话人的训练语音数据,并提取训练语音数据对应的训练语音特征。
训练变化空间模块20,用于基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间。
投影变化空间模块30,用于将训练语音特征投影在总体变化子空间上,获取第一i-vector向量。
获取i-vector向量模块40,用于将第一i-vector向量投影在总体变化子空间上,获取与说话人对应的注册i-vector向量。
优选地,获取语音数据模块10包括获取语音数据单元11、获取数据功率谱单元12、获取梅尔功率谱单元13和获取MFCC特征单元14。
获取语音数据单元11,用于对训练语音数据进行预处理,获取预处理语音数据。
获取数据功率谱单元12,用于对预处理语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据频谱获取训练语音数据的功率谱。
获取梅尔功率谱单元13,用于采用梅尔刻度滤波器组处理训练语音数据的功率谱,获取训练语音数据的梅尔功率谱。
获取MFCC特征单元14,用于在梅尔功率谱上进行倒谱分析,获取训练语音数据的MFCC特征。
训练变化空间模块20包括获取高维统计量单元21和获取变化子空间单元22。
获取高维统计量单元21,用于获取预设UBM模型的高维充分统计量。
获取变化子空间单元22,用于采用最大期望算法对高维充分统计量进行迭代,获取对应的总体变化子空间。
投影变化空间模块30包括获取GMM-UBM模型单元31和获取第一向量单元32。
获取GMM-UBM模型单元31,用于基于训练语音特征和预设UBM模型,采用均值MAP自适应方法获取GMM-UBM模型。
获取第一向量单元32,用于采用公式s1=m+Tw1,获取第一i-vector向量,其中,s1是C*F维的GMM-UBM模型对应的均值超矢量;m是与说话人无关且信道无关的C*F维超向量;T是总体变化子空间,维度为CF*N;w1是第一i-vector向量,维度为N。
优选地,获取i-vector向量模块40包括获取注册向量单元41。
获取注册向量单元41,用于采用公式s2=m+Tw2将第一i-vector向量投影在总体变化子空间上,获取注册i-vector向量,其中,s2是D*G维的与注册i-vector向量相对应的均值超矢量;m是与说话人无关且信道无关的D*G维超向量;T是总体变化子空间,维度为DG*M;w2是注册i-vector向量,维度为M。
关于i-vector向量提取装置的具体限定可以参见上文中对于i-vector向量提取方法的限定,在此不再赘述。上述i-vector向量提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供一种说话人识别装置,该说话人识别装置与上述实施例中说话人识别方法一一对应。如图8所示,该说话人识别装置包括获取测试数据模块50、获取测试向量模块60、获取注册向量模块70和确定对应说话人模块80。各功能模块详细说明如下:
获取测试数据模块50,用于获取测试语音数据,测试语音数据携带说话人标识;
获取测试向量模块60,用于采用i-vector向量提取方法对测试语音数据进行处理,获取对应的测试i-vector向量;
获取注册向量模块70,用于基于说话人标识查询数据库,获取与说话人标识对应的注册i-vector向量;
确定对应说话人模块80,用于采用余弦相似度算法获取测试i-vector向量和注册i-vector向量的相似度,根据相似度检测测试i-vector向量和注册i-vector是否对应同一说话人。
关于说话人识别装置的具体限定可以参见上文中对于说话人识别方法的限定,在此不再赘述。上述说话人识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储与i-vector向量提取方法或说话人识别方法相关的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现i-vector向量提取方法或说话人识别方法。
在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取说话人的训练语音数据,并提取训练语音数据对应的训练语音特征;基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间;将训练语音特征投影在总体变化子空间上,获取第一i-vector向量;将第一i-vector向量投影在总体变化子空间上,获取与说话人对应的注册i-vector向量。
在一实施例中,提取训练语音数据对应的训练语音特征,处理器执行计算机程序时实现以下步骤:对训练语音数据进行预处理,获取预处理语音数据;对预处理语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据频谱获取训练语音数据的功率谱;采用梅尔刻度滤波器组处理训练语音数据的功率谱,获取训练语音数据的梅尔功率谱;在梅尔功率谱上进行倒谱分析,获取训练语音数据的MFCC特征。
在一实施例中,基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间,处理器执行计算机程序时实现以下步骤:获取预设UBM模型的高维充分统计量;采用最大期望算法对高维充分统计量进行迭代,获取对应的总体变化子空间。
在一实施例中,将训练语音特征投影在总体变化子空间上,获取第一i-vector向量,处理器执行计算机程序时实现以下步骤:基于训练语音特征和预设UBM模型,采用均值MAP自适应方法获取GMM-UBM模型;采用公式s1=m+Tw1将训练语音特征投影在所述总体变化子空间上,获取第一i-vector向量,其中,s1是C*F维的GMM-UBM模型中与训练语音特征相对应的均值超矢量;m是与说话人无关且信道无关的C*F维超向量;T是总体变化子空间,维度为CF*N;w1是第一i-vector向量,维度为N。
在一实施例中,将第一i-vector向量投影在总体变化子空间上,获取与说话人对应的注册i-vector向量,处理器执行计算机程序时实现以下步骤:
采用公式s2=m+Tw2将第一i-vector向量投影在总体变化子空间上,获取注册i-vector向量,其中,s2是D*G维的与注册i-vector向量相对应的均值超矢量;m是与说话人无关且信道无关的D*G维超向量;T是总体变化子空间,维度为DG*M;w2是注册i-vector向量,维度为M。
在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取测试语音数据,测试语音数据携带说话人标识;基于测试语音数据,获取对应的测试i-vector向量;基于说话人标识查询数据库,获取与说话人标识对应的注册i-vector向量;采用余弦相似度算法获取测试i-vector向量和注册i-vector向量的相似度,根据相似度检测测试i-vector向量和注册i-vector是否对应同一说话人。
在一实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取说话人的训练语音数据,并提取训练语音数据对应的训练语音特征;基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间;将训练语音特征投影在总体变化子空间上,获取第一i-vector向量;将第一i-vector向量投影在总体变化子空间上,获取与说话人对应的注册i-vector向量。
在一实施例中,提取训练语音数据对应的训练语音特征,计算机程序被处理器执行时实现以下步骤:对训练语音数据进行预处理,获取预处理语音数据;对预处理语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据频谱获取训练语音数据的功率谱;采用梅尔刻度滤波器组处理训练语音数据的功率谱,获取训练语音数据的梅尔功率谱;在梅尔功率谱上进行倒谱分析,获取训练语音数据的MFCC特征。
在一实施例中,基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间,计算机程序被处理器执行时实现以下步骤:获取预设UBM模型的高维充分统计量;采用最大期望算法对高维充分统计量进行迭代,获取对应的总体变化子空间。
在一实施例中,将训练语音特征投影在总体变化子空间上,获取第一i-vector向量,计算机程序被处理器执行时实现以下步骤:基于训练语音特征和预设UBM模型,采用均值MAP自适应方法获取GMM-UBM模型;采用公式s1=m+Tw1将训练语音特征投影在所述总体变化子空间上,获取第一i-vector向量,其中,s1是C*F维的GMM-UBM模型中与训练语音特征相对应的均值超矢量;m是与说话人无关且信道无关的C*F维超向量;T是总体变化子空间,维度为CF*N;w1是第一i-vector向量,维度为N。
在一实施例中,将第一i-vector向量投影在总体变化子空间上,获取与说话人对应的注册i-vector向量,计算机程序被处理器执行时实现以下步骤:
采用公式s2=m+Tw2将第一i-vector向量投影在总体变化子空间上,获取注册i-vector向量,其中,s2是D*G维的与注册i-vector向量相对应的均值超矢量;m是与说话人无关且信道无关的D*G维超向量;T是总体变化子空间,维度为DG*M;w2是注册i-vector向量,维度为M。
在一实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取测试语音数据,测试语音数据携带说话人标识;基于测试语音数据,获取对应的测试i-vector向量;基于说话人标识查询数据库,获取与说话人标识对应的注册i-vector向量;采用余弦相似度算法获取测试i-vector向量和注册i-vector向量的相似度,根据相似度检测测试i-vector向量和注册i-vector是否对应同一说话人。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种i-vector向量提取方法,其特征在于,包括:
获取说话人的训练语音数据,并提取所述训练语音数据对应的训练语音特征;
基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间;
将所述训练语音特征投影在所述总体变化子空间上,获取第一i-vector向量;
将所述第一i-vector向量投影在所述总体变化子空间上,获取与所述说话人对应的注册i-vector向量。
2.如权利要求1所述的i-vector向量提取方法,其特征在于,所述提取所述训练语音数据对应的训练语音特征,包括:
对所述训练语音数据进行预处理,获取预处理语音数据;
对所述预处理语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据所述频谱获取训练语音数据的功率谱;
采用梅尔刻度滤波器组处理所述训练语音数据的功率谱,获取训练语音数据的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取训练语音数据的MFCC特征。
3.如权利要求1所述的的i-vector向量提取方法,其特征在于,所述基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间,包括:
获取所述预设UBM模型的高维充分统计量;
采用最大期望算法对所述高维充分统计量进行迭代,获取对应的总体变化子空间。
4.如权利要求1所述的的i-vector向量提取方法,其特征在于,所述将所述训练语音特征投影在所述总体变化子空间上,获取第一i-vector向量,包括:
基于所述训练语音特征和所述预设UBM模型,采用均值MAP自适应方法获取GMM-UBM模型;
采用公式s1=m+Tw1将所述训练语音特征投影在所述总体变化子空间上,获取第一i-vector向量,其中,s1是C*F维的GMM-UBM模型中与所述训练语音特征相对应的均值超矢量;m是与说话人无关且信道无关的C*F维超向量;T是所述总体变化子空间,维度为CF*N;w1是第一i-vector向量,维度为N。
5.如权利要求1所述的的i-vector向量提取方法,其特征在于,所述将所述第一i-vector向量投影在所述总体变化子空间上,获取与所述说话人对应的注册i-vector向量,包括:
采用公式s2=m+Tw2将所述第一i-vector向量投影在所述总体变化子空间上,获取注册i-vector向量,其中,s2是D*G维的与所述注册i-vector向量相对应的均值超矢量;m是与说话人无关且信道无关的D*G维超向量;T是所述总体变化子空间,维度为DG*M;w2是注册i-vector向量,维度为M。
6.一种说话人识别方法,其特征在于,包括:
获取测试语音数据,所述测试语音数据携带说话人标识;
还包括采用权利要求1-5任一项所述i-vector向量提取方法对所述测试语音数据进行处理,获取对应的测试i-vector向量;
基于所述说话人标识查询数据库,获取与所述说话人标识对应的注册i-vector向量;
采用余弦相似度算法获取所述测试i-vector向量和所述注册i-vector向量的相似度,根据所述相似度检测所述测试i-vector向量和所述注册i-vector是否对应同一说话人。
7.一种i-vector向量提取装置,其特征在于,包括:
获取训练数据模块,用于获取说话人的训练语音数据,并提取所述训练语音数据对应的训练语音特征;
获取语音数据模块,用于获取说话人的训练语音数据,并提取所述训练语音数据对应的训练语音特征;
训练变化空间模块,用于基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间;
投影变化空间模块,用于将所述训练语音特征投影在所述总体变化子空间上,获取第一i-vector向量;
获取i-vector向量模块,用于将所述第一i-vector向量投影在所述总体变化子空间上,获取与所述说话人对应的注册i-vector向量。
8.一种说话人识别装置,其特征在于,包括:
获取测试数据模块,用于获取测试语音数据,所述测试语音数据携带说话人标识;
获取测试向量模块,用于采用权利要求1-5任一项所述i-vector向量提取方法对所述测试语音数据进行处理,获取对应的测试i-vector向量;
获取注册向量模块,用于基于所述说话人标识查询数据库,获取与所述说话人标识对应的注册i-vector向量;
确定对应说话人模块,用于采用余弦相似度算法获取所述测试i-vector向量和所述注册i-vector向量的相似度,根据所述相似度检测所述测试i-vector向量和所述注册i-vector是否对应同一说话人。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述i-vector向量提取方法或权利要求6所述说话人识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述i-vector向量提取方法或权利要求6所述说话人识别方法的步骤。
CN201810574010.4A 2018-06-06 2018-06-06 i-vector向量提取方法、说话人识别方法、装置、设备及介质 Active CN109065022B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810574010.4A CN109065022B (zh) 2018-06-06 2018-06-06 i-vector向量提取方法、说话人识别方法、装置、设备及介质
PCT/CN2018/092589 WO2019232826A1 (zh) 2018-06-06 2018-06-25 i-vector向量提取方法、说话人识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810574010.4A CN109065022B (zh) 2018-06-06 2018-06-06 i-vector向量提取方法、说话人识别方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN109065022A true CN109065022A (zh) 2018-12-21
CN109065022B CN109065022B (zh) 2022-08-09

Family

ID=64820489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810574010.4A Active CN109065022B (zh) 2018-06-06 2018-06-06 i-vector向量提取方法、说话人识别方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN109065022B (zh)
WO (1) WO2019232826A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827834A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 声纹注册方法、***及计算机可读存储介质
CN111161713A (zh) * 2019-12-20 2020-05-15 北京皮尔布莱尼软件有限公司 一种语音性别识别方法、装置及计算设备
CN111508505A (zh) * 2020-04-28 2020-08-07 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
WO2020098828A3 (en) * 2019-10-31 2020-09-03 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for personalized speaker verification
CN113056784A (zh) * 2019-01-29 2021-06-29 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备
CN114420142A (zh) * 2022-03-28 2022-04-29 北京沃丰时代数据科技有限公司 一种语音转换方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111700718B (zh) * 2020-07-13 2023-06-27 京东科技信息技术有限公司 一种识别握姿的方法、装置、假肢及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
US20150149165A1 (en) * 2013-11-27 2015-05-28 International Business Machines Corporation Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors
CN105810199A (zh) * 2014-12-30 2016-07-27 中国科学院深圳先进技术研究院 一种说话人的身份确认方法和装置
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与***
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别***的后端i‑vector增强方法
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN107633845A (zh) * 2017-09-11 2018-01-26 清华大学 一种鉴别式局部信息距离保持映射的说话人确认方法
WO2018053531A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240706B (zh) * 2014-09-12 2017-08-15 浙江大学 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN105933323B (zh) * 2016-06-01 2019-05-31 百度在线网络技术(北京)有限公司 声纹注册、认证方法及装置
DE102016115018B4 (de) * 2016-08-12 2018-10-11 Imra Europe S.A.S. Audiosignatur für Sprachbefehlbeobachtung
CN107240397A (zh) * 2017-08-14 2017-10-10 广东工业大学 一种基于声纹识别的智能锁及其语音识别方法和***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
US20150149165A1 (en) * 2013-11-27 2015-05-28 International Business Machines Corporation Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN105810199A (zh) * 2014-12-30 2016-07-27 中国科学院深圳先进技术研究院 一种说话人的身份确认方法和装置
WO2018053531A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与***
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别***的后端i‑vector增强方法
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN107633845A (zh) * 2017-09-11 2018-01-26 清华大学 一种鉴别式局部信息距离保持映射的说话人确认方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邢玉娟 等: "改进i-向量说话人识别算法研究", 《科学技术与工程》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113056784A (zh) * 2019-01-29 2021-06-29 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备
WO2020098828A3 (en) * 2019-10-31 2020-09-03 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for personalized speaker verification
US10997980B2 (en) 2019-10-31 2021-05-04 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics
US11031018B2 (en) 2019-10-31 2021-06-08 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for personalized speaker verification
US11244689B2 (en) 2019-10-31 2022-02-08 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics
CN110827834A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 声纹注册方法、***及计算机可读存储介质
CN110827834B (zh) * 2019-11-11 2022-07-12 广州国音智能科技有限公司 声纹注册方法、***及计算机可读存储介质
CN111161713A (zh) * 2019-12-20 2020-05-15 北京皮尔布莱尼软件有限公司 一种语音性别识别方法、装置及计算设备
CN111508505A (zh) * 2020-04-28 2020-08-07 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
CN111508505B (zh) * 2020-04-28 2023-11-03 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
CN114420142A (zh) * 2022-03-28 2022-04-29 北京沃丰时代数据科技有限公司 一种语音转换方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109065022B (zh) 2022-08-09
WO2019232826A1 (zh) 2019-12-12

Similar Documents

Publication Publication Date Title
CN109065022A (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN108922544A (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN107610707B (zh) 一种声纹识别方法及装置
US9502038B2 (en) Method and device for voiceprint recognition
Li et al. An overview of noise-robust automatic speech recognition
Krueger et al. Model-based feature enhancement for reverberant speech recognition
CN110232932B (zh) 基于残差时延网络的说话人确认方法、装置、设备及介质
CN107886943A (zh) 一种声纹识别方法及装置
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及***
CN109065028A (zh) 说话人聚类方法、装置、计算机设备及存储介质
WO2019200744A1 (zh) 自更新的反欺诈方法、装置、计算机设备和存储介质
CN108922543A (zh) 模型库建立方法、语音识别方法、装置、设备及介质
WO2014114116A1 (en) Method and system for voiceprint recognition
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN103794207A (zh) 一种双模语音身份识别方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
Abdelaziz et al. Twin-HMM-based audio-visual speech enhancement
Nidhyananthan et al. Language and text-independent speaker identification system using GMM
CN114283783A (zh) 语音合成方法、模型训练方法、设备及存储介质
CN111667839A (zh) 注册方法和设备、说话者识别方法和设备
Kudashev et al. A Speaker Recognition System for the SITW Challenge.
CN112992155A (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
Zi et al. Joint filter combination-based central difference feature extraction and attention-enhanced Dense-Res2Block network for short-utterance speaker recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant