CN110010137B - 一种基于张量结构及稀疏表示的说话人确认方法及*** - Google Patents

一种基于张量结构及稀疏表示的说话人确认方法及*** Download PDF

Info

Publication number
CN110010137B
CN110010137B CN201910272145.XA CN201910272145A CN110010137B CN 110010137 B CN110010137 B CN 110010137B CN 201910272145 A CN201910272145 A CN 201910272145A CN 110010137 B CN110010137 B CN 110010137B
Authority
CN
China
Prior art keywords
tensor
sparse
auditory
speaker
filters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910272145.XA
Other languages
English (en)
Other versions
CN110010137A (zh
Inventor
简志华
郭珊
徐剑
金易帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910272145.XA priority Critical patent/CN110010137B/zh
Publication of CN110010137A publication Critical patent/CN110010137A/zh
Application granted granted Critical
Publication of CN110010137B publication Critical patent/CN110010137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于张量结构及稀疏表示的说话人确认方法及***,该方法包括步骤:S1、构建听觉特征张量;S2、将所述听觉特征张量转换成稀疏矩阵;S3、降低所述稀疏矩阵的维度以生成最终的特征向量;S4、基于稀疏表示分类器进行说话人确认。本发明能够在保留数据的内在结构的基础上,减少计算的复杂度,提高说话人确认效率。

Description

一种基于张量结构及稀疏表示的说话人确认方法及***
技术领域
本发明涉及说话人识别技术领域,尤其涉及一种基于张量结构及稀疏表示的说话人确认方法及***。
背景技术
说话人识别的任务是识别说话人。说话人识别可分为说话人辨认和说话人确认两类。对于说话人辨认,就是从多个说话人当中找出正确的说话人,这是一个“多选一”的问题;而说话人确认则是验证这段语音是否是某个说话人说的,是“一对一”的问题。说话人确认是通过对话者语音提取个性特征,建立识别模型,从而对话者的身份进行验证的过程,是说话人识别研究的重要分支。在说话人确认中,有效特征参数的提取和高性能识别模型的建立是关键。
支持向量机(Support Vector Machine,SVM)和高斯混合模型(Gaussian MixtureModel,GMM)在该领域获得了成功的应用,二者的相互结合是近几年说话人确认研究的主流方法。然而,现有的支持向量机的方法超向量的维数较高,导致后续处理阶段的计算复杂度较高。在识别算法研究方面,用于数据信号表示和压缩的稀疏表示(SparseRepresentation,SR)算法,由于其在过完备字典中寻找输入样本的最简表示子集的过程具有良好的判别性,成为继SVM和GMM之后模式识别领域研究的热点之一。
公开号为CN 105845142A的专利公开了一种基于稀疏表示的信道鲁棒说话人确认方法,包括如下步骤:构建说话人的过完备字典Dtar;对测试语音进行身份认证矢量i-vector的提取,得到身份认证向量ωtest;所述身份认证向量ωtest通过所述过完备字典Dtar的稀疏求解,得到稀疏表示向量γtest的关联关系Γ(γtest);判断所述关联关系Γ(γtest)是否高于一阈值,如果是,表示确认,则接收;否则,拒绝。所述的基于稀疏表示的信道鲁棒说话人确认方法,在训练阶段就构建好过完备字典,因此无需花费很大的空间以及很多的时间。但是由于过完备字典,高维超向量的稀疏表示需要大量内存,这会限制训练样本数量并可能减慢识别过程。
因此,如何在保留数据的内在结构的基础上,提高说话人确认效率是本领域亟待解决的问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于张量结构及稀疏表示的说话人确认方法及***,能够在保留数据的内在结构的基础上,减少计算的复杂度,提高说话人确认效率。
为了实现以上目的,本发明采用以下技术方案:
一种基于张量结构及稀疏表示的说话人确认方法,包括步骤:
S1、构建听觉特征张量;
S2、将所述听觉特征张量转换成稀疏矩阵;
S3、降低所述稀疏矩阵的维度以生成最终的特征向量;
S4、基于稀疏表示分类器进行说话人确认。
进一步的,所述步骤S1包括:通过仿真人耳的听觉***来处理语音信号得到其功率谱图。
进一步的,所述步骤S2通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。
进一步的,所述步骤S3中通过离散余弦变换降低所述稀疏矩阵的维度。
进一步的,所述步骤S4中将提取的特征代替i矢量作为稀疏表示分类器的特征向量。
相应的,还提供一种基于张量结构及稀疏表示的说话人确认***,包括:
构建模块,用于构建听觉特征张量;
转换模块,用于将所述听觉特征张量转换成稀疏矩阵;
降维模块,用于降低所述稀疏矩阵的维度以生成最终的特征向量;
确认模块,基于稀疏表示分类器进行说话人确认。
进一步的,所述构建模块包括:通过仿真人耳的听觉***来处理语音信号得到其功率谱图。
进一步的,所述转换模块通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。
进一步的,所述降维模块通过离散余弦变换降低所述稀疏矩阵的维度。
进一步的,所述确认模块将提取的特征代替i矢量作为稀疏表示分类器的特征向量。
与现有技术相比,本发明语音信号的稀疏编码对于语音听觉建模和语音分类十分有效,因而稀疏分解可用于说话人识别中的建模部分,也可作为分类器用于说话人识别最后的判断。而高阶张量作为一种强大的模式识别数学建模的工具,可将其用于语音信号的特征提取,这样可以保留数据的内在结构。此外,本发明通过对稀疏矩阵降维,使用提取的特征代替i矢量作为稀疏表示分类器的特征,能够大大减小计算的复杂度,提高了说话人确认效率。
附图说明
图1是实施例一提供的一种基于张量结构及稀疏表示的说话人确认方法流程图;
图2是实施例二提供的一种基于张量结构及稀疏表示的说话人确认***结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明是以语音信息为研究对象,主要的着力点在于改善说话人确认的效率,提供了一种基于张量结构及稀疏表示的说话人确认方法及***,能够通过张量结构保留数据的内在结构,同时使用提取的特征代替i矢量作为稀疏表示分类器(SRC)的特征,以提高说话人确认效率。
实施例一
本实施例提供一种基于张量结构及稀疏表示的说话人确认方法,如图1所示,包括步骤:
S1、构建听觉特征张量;
本发明是通过仿真人耳的听觉***来处理语音信号得到其功率谱图,为了获取基于张量结构的鲁棒特征,本实施例将得到的不同说话人的功率谱建模为一个3阶张量。
具体地,人耳可以很轻松地完成说话人识别任务,并且对噪声不敏感。在我们的特征提取框架中,我们通过模仿人耳在听觉***和通路中执行的过程来获取频率选择性信息。
首先,本发明通过模仿听觉***和通路发生的过程,如外耳,中耳,基底膜,内毛细胞,听觉神经和耳蜗核来提取特征。因为我们人类的外耳和中耳的综合作用相当于一个带通函数,所以我们实施传统的预加重来模拟组合的外耳和中耳函数xpre(t)=x(t)-0.97x(t-1),其中x(t)是离散时间语音信号,t=1,2,…,xpre(t)是滤波后的输出信号。其目的是提高位于高频域的频率分量的能量,以便可以在高频域中提取这些共振频率。
周边听觉***(如基底膜)的频率选择性由一组耳蜗滤波器模拟。耳蜗滤波器组代表了沿耳蜗基底膜各个位置的频率选择性,本发明使用“Gammachirp”滤波器组来模拟耳蜗基底膜,它具有以下形式的脉冲响应:
Figure BDA0002018755050000041
其中n是滤波器的顺序,N是滤波器的数量。对于第i个滤波器,bi=24.7+0.108fi是听觉滤波器的等效矩形带宽(EBR),φi是相位,ai是常数。与GT滤波器相比,GC滤波器多了clnt这一项,c是一个额外的调频参数,并且fi是非对称的频率,其值或随着c的改变而改变。由此GC滤波器克服了GT滤波器不能模拟基底膜的非对称性以及自身的强度依赖性等缺点。
每个Gammachirp滤波器组的输出是:
Figure BDA0002018755050000042
为了模拟内毛细胞的非线性,我们用对数非线性计算每帧k中每个频带i的功率:
Figure BDA0002018755050000051
其中P(i,k)是输出功率,λ是比例常数。这个模型可以被认为是内毛细胞的平均纤维率,模拟更高级的听觉通路。
更进一步地,为了提取基于张量结构的鲁棒特征,我们将不同说话人的耳蜗功率特征建模为三阶张量
Figure BDA0002018755050000052
每个特征张量是具有三种模型频率、时间、说话人身份的阵列。其中不同说话人的耳蜗功率特征矩阵
Figure BDA0002018755050000053
S2、将所述听觉特征张量转换成稀疏矩阵;
本发明通过非负张量主成分分析方法(Nonnegative Tensor PrincipalComponent Analysis,NTPCA)将听觉特征张量转换成多个相互关联的子空间学习得到投影矩阵Ul(l=1,2,3)。与传统的子空间学习方法相比,提取的张量特征可以表征说话人的不同特征,并保留有用的判别信息。利用时频子空间中的稀疏局部投影矩阵U将听觉特征转化为稀疏特征子空间,其中d为稀疏特征子空间的维数。听觉稀疏特征表示Xs通过以下转换获得:
Xs=UX
非负张量主成分分析方法具体为:
Figure BDA0002018755050000054
X表示具有不同说话人特征构成的数据张量,Uk是通过交替投影过程计算的第k个投影矩阵。这里
Figure BDA0002018755050000055
是r阶张量,
Figure BDA0002018755050000056
得到如下优化问题:
Figure BDA0002018755050000057
上述优化问题被分解为如下不同的优化子问题:
Figure BDA0002018755050000058
Figure BDA0002018755050000061
更进一步地,定义:
Figure BDA0002018755050000062
Figure BDA0002018755050000063
得到简化后的优化子问题为:
Figure BDA0002018755050000064
其中
Figure BDA0002018755050000065
但是上述优化问题是一个凹二次规划,这是一个NP难题。因此,需要一个本地最大值来解决这个问题。因此,本发明给出ulqp的函数来实现优化目标:
Figure BDA0002018755050000066
其中const和ulqp不相关,并且:
Figure BDA0002018755050000067
Figure BDA0002018755050000068
设关于ulqp的导数为零,得到三次函数:
Figure BDA0002018755050000069
计算的所述三次函数的非负根和零作为f(ulqp)的非负全局最大值。
S3、降低所述稀疏矩阵的维度以生成最终的特征向量;
具体地,本发明对特征向量应用离散余弦变换(DCT)以减少维数和相关特征分量。
S4、基于稀疏表示分类器进行说话人确认。
稀疏表示中,对一个N维的信号用字典来(编码)表示时,给定一个K×N的矩阵D,如果N>>K,同时保证还能张成K维的欧式空间,则字典D是冗余的,也就是过完备的。
对一个N维的信号S用字典来(编码)表示时,给定一个K×N的矩阵D,这里的矩阵D的每一列表示冗余字典的原子,通常情况下N≥K,对一个信号S的稀疏分解需要解决的问题是找到一个N×1的向量γ使得S=Dγ,向量γ的求解如下:
γ=argminγ||γ||0s.t.S=Dγ
||·||0表示l0范数,它是通过计算向量γ里非零元素的个数得到的。l1范数是指向量中各个元素绝对值之和,也被称作稀疏规则算子(Lasso regularization),l2范数,它是指向量各元素的平方和然后求平方根,通常会被用来做优化目标函数的正则化项,后面我们也会用到l2范数)根据上式求解得到向量γ,但是直接解决这个欠定***的最优稀疏解是一个NP难题。如果向量γ足够稀疏,那么l0范数问题就变成了如下的l1范数问题,即两者等价。
γ=argminγ||γ||1s.t.S=Dγ
相对l0范数而言,这个l1范数比较容易通过数学方法解决。
在分类问题中,主要目标是正确地确定给定一组来自L个不同类别的标记训练样本的测试样本(S)的类别。首先,将来自第i类的li训练样本作为矩阵的列排列为矩阵
Figure BDA0002018755050000073
如果S来自第i类,那么S将近似地位于Di的训练样本的线性范围内:
Figure BDA0002018755050000071
由于在分类过程中测试样本的正确类别标识是未知的,所以新的矩阵D被定义为所有L类别的训练样本的级联:
Figure BDA0002018755050000072
然后S可以被重建为所有训练样本的线性组合S=Dγ。
系数矢量也就是稀疏系数
Figure BDA0002018755050000081
在使用求解方程S=Dγ后,除了与第i类相关的条目外,其他条目大多为零。在这种情况下,稀疏系数的索引对测试样本S的标识进行编码,这些非零项就形成了稀疏系数向量ψ。
例如,用少量的3维数据创建一个示例矩阵D,D矩阵的列是表示6个不同的类。求解得到γ=[0,0,-0.2499,0.8408,0,0.2136],可知测试向量S属于类别4,但是稀疏系数向量在类别3和6的值也不为零。理想状态下,ψ只会与单个类别i的样本相关。但是噪声等会导致其他类别相关的非零输入。
但对于更为实际的分类任务,或者是每个类有多个实验训练样本的问题,可以根据与每个类的所有训练样本相关的系数重建S的程度来对S进行分类。而不是简单地将S分配给γ条目中最大值的类。对于每个类i,令
Figure BDA0002018755050000082
为选择与第i类相关的系数的特征函数:
Figure BDA0002018755050000083
相应地,上述例子中,类别4的特征函数可写为δ4(γ)=[0,0,0,0.8408,0,0]T。只是用第i类的相关系数,给定样本S可近似为
Figure BDA0002018755050000084
然后将S分配给目标类别
Figure BDA0002018755050000085
然后可得到S和
Figure BDA0002018755050000086
的最小残差
Figure BDA0002018755050000087
由于过完备字典,高维超向量的稀疏表示需要大量内存,这会限制训练样本数量并可能减慢识别过程。因此本发明使用上述提取的特征代替i矢量作为SRC的特征向量进行说话人确认。
其基础结构和详细体系结构为:
D=[Dtar Dbg]
Figure BDA0002018755050000091
Figure BDA0002018755050000092
过完备词典(D)由目标说话人(Dtar)和背景说话人(Dbg)的特征参数组成。在说话人确认的条件下,lbg>>ltar。lbg和ltar分别是来自背景说话人和目标说话人的话语数量。
来自未知说话者的测试话语(S)的特征参数被表示为该过度完整词典的线性组合,该过程被称为用于说话者识别的稀疏表示分类,如S=Dγ。
实施例二
本实施例提供一种基于张量结构及稀疏表示的说话人确认***,如图2所示,包括:
构建模块,用于构建听觉特征张量;
本发明是通过仿真人耳的听觉***来处理语音信号得到其功率谱图,为了获取基于张量结构的鲁棒特征,本实施例将得到的不同说话人的功率谱建模为一个3阶张量。
具体地,人耳可以很轻松地完成说话人识别任务,并且对噪声不敏感。在我们的特征提取框架中,我们通过模仿人恩在听觉***和通路中执行的过程来获取频率选择性信息。
首先,本发明通过模仿听觉***和通路发生的过程,如外耳,中耳,基底膜,内毛细胞,听觉神经和耳蜗核来提取特征。因为我们人类的外耳和中耳的综合作用相当于一个带通函数,所以我们实施传统的预加重来模拟组合的外耳和中耳函数xpre(t)=x(t)-0.97x(t-1),其中x(t)是离散时间语音信号,t=1,2,…,xpre(t)是滤波后的输出信号。其目的是提高位于高频域的频率分量的能量,以便可以在高频域中提取这些共振频率。
周边听觉***(如基底膜)的频率选择性由一组耳蜗滤波器模拟。耳蜗滤波器组代表了沿耳蜗基底膜各个位置的频率选择性。一般会使用“Gammatone”滤波器组来模拟耳蜗基底膜,但本文使用“Gammachirp”滤波器,它具有以下形式的脉冲响应:
Figure BDA0002018755050000101
其中n是滤波器的顺序,N是滤波器的数量。对于第i个滤波器,bi=24.7+0.108fi是听觉滤波器的等效矩形带宽(EBR),φi是相位,ai是常数。与GT滤波器相比,GC滤波器多了clnt这一项,c是一个额外的调频参数,并且fi是非对称的频率,其值或随着c的改变而改变。由此GC滤波器克服了GT滤波器不能模拟基底膜的非对称性以及自身的强度依赖性等缺点。每个GC滤波器组的输出是:
Figure BDA0002018755050000102
为了模拟内毛细胞的非线性,我们用对数非线性计算每帧k中每个频带i的功率:
Figure BDA0002018755050000103
其中P(i,k)是输出功率,λ是比例常数。这个模型可以被认为是内毛细胞的平均纤维率,模拟更高级的听觉通路。
更进一步地,为了提取基于张量结构的鲁棒特征,我们将不同说话人的耳蜗功率特征建模为三阶张量
Figure BDA0002018755050000104
每个特征张量是具有三种模型频率、时间、说话人身份的阵列。其中不同说话人的耳蜗功率特征矩阵
Figure BDA0002018755050000105
转换模块,用于将所述听觉特征张量转换成稀疏矩阵;
本发明通过非负张量主成分分析方法(Nonnegative Tensor PrincipalComponent Analysis,NTPCA)将听觉特征张量转换成多个相互关联的子空间学习得到投影矩阵Ul(l=1,2,3)。与传统的子空间学习方法相比,提取的张量特征可以表征说话人的不同特征,并保留有用的判别信息。利用时频子空间中的稀疏局部投影矩阵U将听觉特征转化为稀疏特征子空间,其中d为稀疏特征子空间的维数。听觉稀疏特征表示Xs通过以下转换获得:
Xs=UX
非负张量主成分分析方法具体为:
Figure BDA0002018755050000106
X表示具有不同说话人特征构成的数据张量,Uk是通过交替投影过程计算的第k个投影矩阵。这里
Figure BDA0002018755050000111
是r阶张量,
Figure BDA0002018755050000112
得到如下优化问题:
Figure BDA0002018755050000113
上述优化问题被分解为如下不同的优化子问题:
Figure BDA0002018755050000114
更进一步地,定义:
Figure BDA0002018755050000115
Figure BDA0002018755050000116
得到简化后的优化子问题为:
Figure BDA0002018755050000117
其中
Figure BDA0002018755050000118
但是上述优化问题是一个凹二次规划,这是一个NP难题。因此,需要一个本地最大值来解决这个问题。因此,本发明给出ulqp的函数来实现优化目标:
Figure BDA0002018755050000119
其中const和ulqp不相关,并且:
Figure BDA0002018755050000121
Figure BDA0002018755050000122
设关于ulqp的导数为零,得到三次函数:
Figure BDA0002018755050000123
计算的所述三次函数的非负根和零作为f(ulqp)的非负全局最大值。
降维模块,用于降低所述稀疏矩阵的维度以生成最终的特征向量;
具体地,本发明对特征向量应用离散余弦变换(DCT)以减少维数和相关特征分量。
确认模块,基于稀疏表示分类器进行说话人确认。
稀疏表示中,对一个N维的信号用字典来(编码)表示时,给定一个K×N的矩阵D,如果N>>K,同时保证还能张成K维的欧式空间,则字典D是冗余的,也就是过完备的。
对一个N维的信号S用字典来(编码)表示时,给定一个K×N的矩阵D,这里的矩阵D的每一列表示冗余字典的原子,通常情况下N≥K,对一个信号S的稀疏分解需要解决的问题是找到一个N×1的向量γ使得S=Dγ,向量γ的求解如下:
γ=argminγ||γ||0s.t.S=Dγ
||·||0表示l0范数,它是通过计算向量γ里非零元素的个数得到的。l1范数是指向量中各个元素绝对值之和,也被称作稀疏规则算子(Lasso regularization),l2范数,它是指向量各元素的平方和然后求平方根,通常会被用来做优化目标函数的正则化项,后面我们也会用到l2范数)根据上式求解得到向量γ,但是直接解决这个欠定***的最优稀疏解是一个NP难题。如果向量γ足够稀疏,那么l0范数问题就变成了如下的l1范数问题,即两者等价。
γ=argminγ||γ||1s.t.S=Dγ
相对l0范数而言,这个l1范数比较容易通过数学方法解决。
在分类问题中,主要目标是正确地确定给定一组来自L个不同类别的标记训练样本的测试样本(S)的类别。首先,将来自第i类的li训练样本作为矩阵的列排列为矩阵
Figure BDA0002018755050000134
如果S来自第i类,那么S将近似地位于Di的训练样本的线性范围内:
Figure BDA0002018755050000135
由于在分类过程中测试样本的正确类别标识是未知的,所以新的矩阵D被定义为所有L类别的训练样本的级联:
Figure BDA0002018755050000136
然后S可以被重建为所有训练样本的线性组合S=Dγ。
系数矢量也就是稀疏系数
Figure BDA0002018755050000131
在使用求解方程S=Dγ后,除了与第i类相关的条目外,其他条目大多为零。在这种情况下,稀疏系数的索引对测试样本S的标识进行编码,这些非零项就形成了稀疏系数向量ψ。
例如,用少量的3维数据创建一个示例矩阵D,D矩阵的列是表示6个不同的类。求解得到γ=[0,0,-0.2499,0.8408,0,0.2136],可知测试向量S属于类别4,但是稀疏系数向量在类别3和6的值也不为零。理想状态下,ψ只会与单个类别i的样本相关。但是噪声等会导致其他类别相关的非零输入。
但对于更为实际的分类任务,或者是每个类有多个实验训练样本的问题,可以根据与每个类的所有训练样本相关的系数重建S的程度来对S进行分类。而不是简单地将S分配给γ条目中最大值的类。对于每个类i,令
Figure BDA0002018755050000132
为选择与第i类相关的系数的特征函数:
Figure BDA0002018755050000133
相应地,上述例子中,类别4的特征函数可写为δ4(γ)=[0,0,0,0.8408,0,0]T。只是用第i类的相关系数,给定样本S可近似为
Figure BDA0002018755050000141
然后将S分配给目标类别
Figure BDA0002018755050000142
然后可得到S和
Figure BDA0002018755050000143
的最小残差
Figure BDA0002018755050000144
由于过完备字典,高维超向量的稀疏表示需要大量内存,这会限制训练样本数量并可能减慢识别过程。因此本发明使用上述提取的特征代替i矢量作为SRC的特征向量进行说话人确认。
其基础结构和详细体系结构为:
D=[Dtar Dbg]
Figure BDA0002018755050000145
Figure BDA0002018755050000146
过完备词典(D)由目标说话人(Dtar)和背景说话人(Dbg)的特征参数组成。在说话人确认的条件下,lbg>>ltar。lbg和ltar分别是来自背景说话人和目标说话人的话语数量。
来自未知说话者的测试话语(S)的特征参数被表示为该过度完整词典的线性组合,该过程被称为用于说话者识别的稀疏表示分类,如S=Dγ。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种基于张量结构及稀疏表示的说话人确认方法,其特征在于,包括步骤:
S1、构建听觉特征张量;
S2、将所述听觉特征张量转换成稀疏矩阵;
S3、降低所述稀疏矩阵的维度以生成最终的特征向量;
S4、基于稀疏表示分类器进行说话人确认;
所述步骤S1包括:通过仿真人耳的听觉***来处理语音信号得到其功率谱图,具体包括:
采用预加重来模拟组合的外耳和中耳函数:
xpre(t)=x(t)-0.97x(t-1),其中x(t)是离散时间语音信号,t=1,2...,xpre(t)是滤波后的输出信号;
耳蜗基底膜的频率选择性由一组耳蜗滤波器模拟,且耳蜗滤波器采用Gammachirp滤波器组来模拟,其脉冲响应形式为:
Figure FDA0003012159560000011
其中,n是滤波器的顺序,N是滤波器的数量,对于第i个滤波器,bi=24.7+0.108fi是听觉滤波器的等效矩形带宽,φi是相位,ai是常数,每个Gammachirp滤波器组的输出是:
Figure FDA0003012159560000012
且为了模拟内毛细胞的非线性,用对数非线性计算每帧k中每个频带i的功率:
Figure FDA0003012159560000013
其中,P(i,k)是输出功率,λ是比例常数;
并将得到的不同说话人的功率谱建模为一个3阶张量。
2.根据权利要求1所述的说话人确认方法,其特征在于,通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。
3.根据权利要求1所述的说话人确认方法,其特征在于,通过离散余弦变换降低所述稀疏矩阵的维度。
4.根据权利要求3所述的说话人确认方法,其特征在于,所述步骤S4中将提取的特征代替i矢量作为稀疏表示分类器的特征向量。
5.一种基于张量结构及稀疏表示的说话人确认***,其特征在于,包括:
构建模块,用于构建听觉特征张量;
转换模块,用于将所述听觉特征张量转换成稀疏矩阵;
降维模块,用于降低所述稀疏矩阵的维度以生成最终的特征向量;
确认模块,基于稀疏表示分类器进行说话人确认;
所述构建模块包括:
通过仿真人耳的听觉***来处理语音信号得到其功率谱图,
具体包括:
采用预加重来模拟组合的外耳和中耳函数:
xpre(t)=x(t)-0.97x(t-1),其中x(t)是离散时间语音信号,t=1,2...,xpre(t)是滤波后的输出信号;
耳蜗基底膜的频率选择性由一组耳蜗滤波器模拟,且耳蜗滤波器采用Gammachirp滤波器组来模拟,其脉冲响应形式为:
Figure FDA0003012159560000021
其中,n是滤波器的顺序,N是滤波器的数量,对于第i个滤波器,bi=24.7+0.108fi是听觉滤波器的等效矩形带宽,φi是相位,ai是常数,每个Gammachirp滤波器组的输出是:
Figure FDA0003012159560000022
且为了模拟内毛细胞的非线性,用对数非线性计算每帧k中每个频带i的功率:
Figure FDA0003012159560000023
其中,P(i,k)是输出功率,λ是比例常数;
并将得到的不同说话人的功率谱建模为一个3阶张量。
6.根据权利要求5所述的说话人确认***,其特征在于,通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。
7.根据权利要求5所述的说话人确认***,其特征在于,通过离散余弦变换降低所述稀疏矩阵的维度。
8.根据权利要求7所述的说话人确认***,其特征在于,所述确认模块将提取的特征代替i矢量作为稀疏表示分类器的特征向量。
CN201910272145.XA 2019-04-04 2019-04-04 一种基于张量结构及稀疏表示的说话人确认方法及*** Active CN110010137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910272145.XA CN110010137B (zh) 2019-04-04 2019-04-04 一种基于张量结构及稀疏表示的说话人确认方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910272145.XA CN110010137B (zh) 2019-04-04 2019-04-04 一种基于张量结构及稀疏表示的说话人确认方法及***

Publications (2)

Publication Number Publication Date
CN110010137A CN110010137A (zh) 2019-07-12
CN110010137B true CN110010137B (zh) 2021-09-28

Family

ID=67170062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910272145.XA Active CN110010137B (zh) 2019-04-04 2019-04-04 一种基于张量结构及稀疏表示的说话人确认方法及***

Country Status (1)

Country Link
CN (1) CN110010137B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473553A (zh) * 2019-08-29 2019-11-19 南京理工大学 基于听觉***模型的老年人及残障人士说话人的识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664010A (zh) * 2012-05-04 2012-09-12 山东大学 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN103117059A (zh) * 2012-12-27 2013-05-22 北京理工大学 一种基于张量分解的语音信号特征提取方法
CN103413551A (zh) * 2013-07-16 2013-11-27 清华大学 基于稀疏降维的说话人识别方法
CN105810199A (zh) * 2014-12-30 2016-07-27 中国科学院深圳先进技术研究院 一种说话人的身份确认方法和装置
CN105845142A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于稀疏表示的信道鲁棒说话人确认方法及其***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664010A (zh) * 2012-05-04 2012-09-12 山东大学 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN103117059A (zh) * 2012-12-27 2013-05-22 北京理工大学 一种基于张量分解的语音信号特征提取方法
CN103413551A (zh) * 2013-07-16 2013-11-27 清华大学 基于稀疏降维的说话人识别方法
CN105810199A (zh) * 2014-12-30 2016-07-27 中国科学院深圳先进技术研究院 一种说话人的身份确认方法和装置
CN105845142A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于稀疏表示的信道鲁棒说话人确认方法及其***

Also Published As

Publication number Publication date
CN110010137A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
Agrawal et al. Novel TEO-based Gammatone features for environmental sound classification
CN107393554B (zh) 一种声场景分类中融合类间标准差的特征提取方法
Kwon et al. Phoneme recognition using ICA-based feature extraction and transformation
Thakur et al. Speech recognition using euclidean distance
CN106328123B (zh) 小数据库条件下正常语音流中耳语音的识别方法
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN111785285A (zh) 面向家居多特征参数融合的声纹识别方法
Sailor et al. Filterbank learning using convolutional restricted Boltzmann machine for speech recognition
CN102982351A (zh) 基于bp神经网络的瓷绝缘子振动声学检测数据分类方法
Huang et al. Intel Far-Field Speaker Recognition System for VOiCES Challenge 2019.
CN110010137B (zh) 一种基于张量结构及稀疏表示的说话人确认方法及***
CN113252323B (zh) 一种基于人耳听觉特性的断路器机械故障识别方法及***
Casebeer et al. Deep tensor factorization for spatially-aware scene decomposition
CN111524524A (zh) 声纹识别方法、装置、设备及存储介质
Khamsehashari et al. Voice privacy-leveraging multi-scale blocks with ECAPA-TDNN SE-res2next extension for speaker anonymization
Ambikairajah et al. PNCC-ivector-SRC based speaker verification
Chauhan et al. A review of automatic speaker recognition system
KR101094763B1 (ko) 사용자 인증을 위한 특징벡터 추출장치 및 방법
Nijhawan et al. Real time speaker recognition system for hindi words
Peng et al. Learnable Sparse Filterbank for Speaker Verification.
Gu et al. Memory storable network based feature aggregation for speaker representation learning
Koniaris et al. Selecting static and dynamic features using an advanced auditory model for speech recognition
Guo et al. DeltaVLAD: An efficient optimization algorithm to discriminate speaker embedding for text-independent speaker verification
Lokhande et al. MFCC based Robust features for English word Recognition
Indumathi et al. Speaker identification using bagging techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant