CN111445913B - 基于神经网络的声纹特征提取方法和装置 - Google Patents

基于神经网络的声纹特征提取方法和装置 Download PDF

Info

Publication number
CN111445913B
CN111445913B CN202010214245.XA CN202010214245A CN111445913B CN 111445913 B CN111445913 B CN 111445913B CN 202010214245 A CN202010214245 A CN 202010214245A CN 111445913 B CN111445913 B CN 111445913B
Authority
CN
China
Prior art keywords
feature vector
vector sequence
sequence
attention
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010214245.XA
Other languages
English (en)
Other versions
CN111445913A (zh
Inventor
许静
吴彦峰
过辰楷
高红灿
朱静雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202010214245.XA priority Critical patent/CN111445913B/zh
Publication of CN111445913A publication Critical patent/CN111445913A/zh
Application granted granted Critical
Publication of CN111445913B publication Critical patent/CN111445913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于神经网络的声纹特征提取方法和装置,解决了现有技术中声纹特征提取精度不够的问题。基于神经网络的声纹特征提取方法包括:利用卷积神经网络结合注意力机制对输入的目标语音数据进行特征提取,得到帧级特征向量序列;结合注意力机制对帧级特征向量序列进行降采样,以将帧级特征向量序列转化为预定维度的中间特征向量;对中间特征向量进行全连接操作,以获得句子级的声纹特征向量。

Description

基于神经网络的声纹特征提取方法和装置
技术领域
本发明涉及声纹特征提取技术领域,具体涉及一种基于神经网络的声纹特征提取方法、装置、文本无关说话人确认***、计算机可读存储介质,以及电子设备。
背景技术
声纹识别也称作说话人识别,是一种从语音信号中提取说话人的声纹特征进行身份验证的生物识别技术。从***的识别任务的角度来划分,声纹识别包括:说话人确认技术和说话人辨认技术。其中说话人确认技术的工作模式包括,将需要验证的语音信号的特征与模型库中本人的特征进行比较,判断两者是否一致,相应地,说话人确认***是个“一对一”的识别***。在说话人确认技术中,根据对语音文本内容是否有限制,说话人确认技术可以被划分为两类,即文本无关和文本相关。文本相关的***不仅判断声纹特征,同时也要判断说话内容是否满足要求,这样的***文本内容固定。文本无关的***只需要判断声纹特征是否满足要求,无需判断说话内容,用户可以说任何内容来进行匹配。文本无关说话人确认技术可以应用在刑事侦查、司法鉴定和电话识别等多个领域,因此,如何尽可能地提高声纹特征的提取精度一直是本领域技术人员不断探索的主要方向之一。
发明内容
有鉴于此,本发明实施例致力于提供一种用于基于神经网络的声纹特征提取方法、装置、文本无关说话人确认***、计算机可读存储介质,以及电子设备,以解决现有技术中声纹特征提取精度不够的问题。
本发明第一方面提供了一种基于神经网络的声纹特征提取方法,包括:利用卷积神经网络结合注意力机制对输入的目标语音数据进行特征提取,得到帧级特征向量序列;结合注意力机制对帧级特征向量序列进行降采样,以将帧级特征向量序列转化为预定维度的中间特征向量;对中间特征向量进行全连接操作,以获得句子级的声纹特征向量。
在一个实施例中,利用卷积神经网络结合注意力机制对输入的目标语音数据进行特征提取,得到帧级特征向量序列包括:对目标语音数据顺次执行至少一个卷积加整流操作,得到第一特征向量序列;根据第一特征向量序列计算通道注意力向量,利用通道注意力向量对第一特征向量序列进行加权,得到第二特征向量序列;根据第二特征向量序列计算时间注意力向量,利用时间注意力向量对第二特征向量序列进行加权,得到第三特征向量序列;对第三特征向量序列进行整流操作得到帧级特征向量序列。
在一个实施例中,根据第一特征向量序列计算通道注意力向量,利用通道注意力向量对第一特征向量序列进行加权,得到第二特征向量序列包括:分别利用平均池化操作和最大池化操作聚合第一特征向量序列的每个通道的时间信息;将平均池化操作和最大池化操作的结果分别输入多层感知机中;利用Sigmoid函数根据多层感知机输出的结果计算通道注意力向量;将第一特征向量序列和通道注意力向量逐元素相乘得到第二特征向量序列。
在一个实施例中,根据第二特征向量序列计算时间注意力向量,利用时间注意力向量对第二特征向量序列进行加权,得到第三特征向量序列包括:分别利用平均池化操作和最大池化操作聚合第二特征向量序列的每个时间点的通道信息;将平均池化操作和最大池化操作的结果合并成多维向量;采用预置卷积核对多维向量进行卷积处理得到时间注意力向量;将第二特征向量序列和时间注意力向量逐元素相乘得到第三特征向量序列。
在一个实施例中,在根据第二特征向量序列计算时间注意力向量,利用时间注意力向量对第二特征向量序列进行加权,得到第三特征向量序列之后,还包括:在第三特征向量序列的基础上加入残差;对第三特征向量序列进行整流操作得到帧级特征向量序列包括:对第三特征向量序列和残差的加和进行整流操作得到帧级特征向量序列。
在一个实施例中,残差包括目标语音数据。
在一个实施例中,在根据第二特征向量序列计算时间注意力向量,利用时间注意力向量对第二特征向量序列进行加权,得到第三特征向量序列之后,还包括:顺次执行至少一次如下操作,对第三特征向量序列进行整流操作得到第四特征向量序列;对第四特征向量序列顺次执行至少一次卷积加整流操作,得到第五特征向量序列;根据第五特征向量序列计算通道注意力向量,利用通道注意力向量对第五特征向量序列进行加权,得到第六特征向量序列;根据第六特征向量序列计算时间注意力向量,利用时间注意力向量对第六特征向量序列进行加权,得到第七特征向量序列。这种情况下,对第三特征向量序列进行整流操作得到帧级特征向量序列包括:对最后一次特征提取操作输出的第七特征向量序列进行整流操作得到帧级特征向量序列。
在一个实施例中,第七特征向量序列的维度随卷积神经网络的层级的升高而递增。
在一个实施例中,卷积加整流操作包括卷积操作,卷积操作的卷积核包括空洞卷积核
在一个实施例中,结合注意力机制对帧级特征向量序列进行降采样,以将帧级特征向量序列转化为预定维度的中间特征向量包括:根据预设的多个注意力头分别生成针对帧级特征向量序列中每个向量的权重向量;根据权重向量和帧级特征向量序列生成加权平均向量和加权标准差向量,将加权平均向量和加权标准差向量合并作为中间特征向量。
根据本发明第二方面,提供了一种基于神经网络的声纹特征提取装置,包括:帧级特征提取模块,用于利用卷积神经网络结合注意力机制对输入的目标语音数据进行特征提取,得到帧级特征向量序列;池化模块,用于结合注意力机制对帧级特征向量序列进行降采样,以将帧级特征向量序列转化为预定维度的中间特征向量;句子级特征提取模块,用于对中间特征向量进行全连接操作,以获得句子级的声纹特征向量。
本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述基于神经网络的声纹特征提取方法的步骤。
本发明第四方面提供了一种文本无关说话人确认***,包括:检测模块,用于实时检测目标说话人的语音信号;语音特征提取模块,用于对语音信号进行语音特征提取,得到目标语音数据;上述实施例提供的基于神经网络的声纹特征提取装置,用于对目标语音数据进行声纹特征提取;以及判决模块,用于将声纹特征向量与说话人模型库进行匹配,输出针对说话人身份的判决结果,说话人模型库包括目标声纹特征向量和目标说话人的对应关系。
本发明第五方面提供了一种电子设备,包括处理器;用于存储处理器可执行指令的存储器;处理器用于执行上述任一实施例提供的基于神经网络的声纹特征提取方法。
根据本发明提供的基于神经网络的声纹特征提取方法、装置、计算机可读存储介质,以及文本无关说话人确认***,同时在卷积加整流操作和池化操作中加入了注意力机制,相当于在常规卷积神经网络的卷积层和池化层同时加入注意力机制,增强了神经网络的特征提取能力,提高了声纹识别的精度。
附图说明
图1为本发明一实施例提供的基于神经网络的声纹特征提取方法的流程图。
图2为本发明一实施例提供的图1所示声纹特征提取方法的执行过程示意图。
图3为本发明第一实施例提供的步骤S110的流程图。
图4为本发明一实施例提供的步骤S112的执行过程示意图。
图5为本发明一实施例提供的步骤S113的执行过程示意图。
图6为本发明第二实施例提供的步骤S110的流程图。
图7为本发明一实施例提供的步骤S120的流程图。
图8为本发明一实施例提供的步骤S120的执行过程示意图。
图9为本发明一实施例提供的基于神经网络的声纹特提取装置的结构框图。
图10所示为本发明一实施例提供的基于神经网络的文本无关说话人确认***的结构框图。
图11图示了根据本申请实施例的电子设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的基于神经网络的声纹特征提取方法的流程图。适用于可进行声纹特征提取的神经网络模型。如图2所示,声纹特征提取方法100包括:
步骤S110,利用卷积神经网络结合注意力机制对输入的目标语音数据进行特征提取,得到帧级特征向量序列。
语音信号通常包括音色、音强、音高、音长四种声学特征,这里提到的目标语音数据是指待识别语音信号中的至少一种声学特征对应的特征向量,也即对目标说话人发出的语音信号进行语音特征提取后得到的数据。
卷积神经网络的计算过程包括顺次叠加的至少一组卷积计算操作和整流操作(以下合称卷积加整流操作)。注意力机制类似于一个加权操作,其与卷积神经网络结合时,位于卷积计算操作和整流操作之间,即在卷积神经网络中结合注意力机制相当于在卷积计算操作之后,对卷积计算操作的结果进行加权操作,然后将加权操作的结果作为整流操作的输入。
步骤S120,结合注意力机制对帧级特征向量序列进行降采样,以将帧级特征向量序列转化为预定维度的中间特征向量。
步骤S120类似于常规卷积神经网络中的池化操作,二者的区别仅在于,步骤S120引入了注意力机制,即将注意力机制与降采样操作相结合。注意力机制类似于一个加权操作,因此注意力机制与降采样操作结合相当于对降采样后获得的特征向量进行加权求和。
步骤S130,对中间特征向量进行全连接操作,以获得句子级的声纹特征向量。
上述四种声学特征又可以分解成九十余种特征,这些特征表现了不同声音的不同波长、频率、强度、节奏。从声学特征中分解出的表现波长、频率、强度、节奏的特征称为声纹特征。
全连接操作是卷积神经网络的常规操作,这里不予赘述。
根据本实施例提供的基于神经网络的声纹特征提取方法,同时在卷积加整流操作和池化操作中加入了注意力机制,相当于在常规卷积神经网络的卷积层和池化层同时加入注意力机制,增强了神经网络的特征提取能力,提高了声纹识别的精度。
图2为本发明一实施例提供的图1所示声纹特征提取方法的执行过程示意图。图3为本发明第一实施例提供的步骤S110的流程图。结合图2和图3可以看出,步骤S110具体包括:
步骤S111,对目标语音数据顺次执行至少一次卷积加整流操作,得到第一特征向量序列。
为了防止在训练中出现梯度***与梯度消失的问题,在完成卷积后与进行整流之前,可以增加归一化操作,例如BN批标准化。
步骤S112,根据第一特征向量序列计算通道注意力向量,利用通道注意力向量对第一特征向量序列进行加权,得到第二特征向量序列。
步骤S113,根据第二特征向量序列计算时间注意力向量,利用时间注意力向量对第二特征向量序列进行加权,得到第三特征向量序列。
步骤S114,对第三特征向量序列进行整流操作得到帧级特征向量序列。
根据本实施例提供的基于神经网络的声纹特征提取方法,分别在时间和通道两个维度使用注意力向量,从而进一步加强了神经网络对关键特征的提取能力,提高了声纹特征的提取精度。
图4为本发明一实施例提供的步骤S112的执行过程示意图。参阅图4,例如通道注意力模块的输入特征为X∈RT×C,其中T是时间维度,C是通道维度,步骤S112的执行过程包括:
第一步,分别利用平均池化操作和最大池化操作聚合卷积计算模块输出的第一特征向量序列的每个通道的时间信息,即:
Figure BDA0002423858640000071
其中,
Figure BDA0002423858640000072
Figure BDA0002423858640000073
分别代表平均池化操作和最大池化操作的输出结果中第c个通道的元素。
第二步,将平均池化操作和最大池化操作的结果分别输入多层感知机中。
第三步,利用Sigmoid函数根据多层感知机输出的结果计算通道注意力向量。具体而言,对多层感知机输出的结果做逐元素求和操作,将逐元素求和操作的结果作为Sigmoid函数的输入,得到通道注意力向量,即
Mc(X)=σ(W2δ(W1sAvg)+W2δ(W1sMax))
其中σ代表Sigmoid函数,δ代表ReLU函数,W1∈Rd×C和W2∈RC×d为两层全连接层的权重参数,d为超参数。
第四步,将第一特征向量序列和通道注意力向量相乘得到第二特征向量序列,即,
Figure BDA0002423858640000081
至此,步骤S112的单次执行过程结束。
图5为本发明一实施例提供的步骤S113的执行过程示意图。参阅图5,步骤S113的执行过程包括:
第一步,分别利用平均池化操作和最大池化操作聚合第二特征向量序列的每个时间点的通道信息。
该过程和通道注意力模块的第一步相同,生成两个向量Avgpool(X),Maxpool(X)。
第二步,将平均池化操作和最大池化操作的结果合并成多维向量。
第三步,采用预置卷积核对多维向量进行卷积处理得到时间注意力向量,即,
Mt(X)=σ(f7×1[Avgpool(X);Maxpool(X])),其中σ代表Sigmoid函数。
在一个实施例中,预置卷积核的大小为7的一维卷积核。
第四步,将第二特性向量序列和时间注意力向量逐元素相乘,得到第三特征向量序列,即:
Figure BDA0002423858640000082
至此,步骤S113的单次执行过程结束。
图6为本发明第二实施例提供的步骤S110的流程图。结合图2和图6所示,在本实施例中步骤S110的具体执行过程和图3所示步骤S110的具体执行过程的区别仅在于,本实施例中在步骤S113之后还包括步骤S115,在第三特征向量序列的基础上加入残差。这种情况下,步骤S114具体执行为,对第三特征向量序列和残差的加和进行整流操作得到帧级特征向量序列。
这种情况下,相当于采用残差连接方式连接所有帧的帧级特征向量序列,残差连接方式可以用公式表示为:
y=F(x,{Wi})+x,y=F(x,{Wi})+Wsx
其中x和y分别为相应层的输入向量和输出向量,函数F(x,{Wi})代表需要学习的残差连接参数。当F与x的维度相同时,使用第一个公式完成残差连接;当F与x的维度不同时,使用添加了线性映射Ws的第二个公式完成残差连接。
至此,连接模块单次执行过程结束。
在一个实施例中,如图3所示,残差包括目标语音数据。
根据本实施例提供的基于神经网络的声纹特征提取方法,使用残差连接方式连接神经网络的多层特征信息,从而减少了神经网络的参数数量和训练时间,提高了声纹特征的识别精度。
在一个实施例中,参阅图3,卷积加整流操作包括卷积操作,卷积操作的卷积核包括空洞卷积核。空洞卷积核相比常规卷积核多了一个超参数,称为空洞指数,指的是卷积核中相邻两个数值的间隔数。利用空洞卷积核提取帧级特征向量的时频上下文信息,相比常规卷积核而言,缩小了相邻两层之间的维度差,降低了特征信息丢失的风险,进一步提高声纹识别的精度。与此同时,空洞卷积核和残差连接相结合构成空洞卷积残差网络,利用空洞卷积核捕捉帧级特征向量的时频上下文信息,同时利用残差连接方式连接多个卷积层的输出,减少神经网络的参数数量的同时提升了声纹特征提取的准确率。
在一个实施例中,在声纹特征提取过程中重复执行多次图2或图5所示的执行步骤,并将最后一次执行过程的输出作为帧级特征向量序列。具体而言,在本实施例中,步骤S110的执行过程在步骤S113之后还包括,顺次执行至少一次如下操作:对第三特征向量序列进行整流操作得到第四特征向量序列;对第四特征向量序列顺次执行至少一次卷积加整流操作,得到第五特征向量序列;根据第五特征向量序列计算通道注意力向量,利用通道注意力向量对第五特征向量序列进行加权,得到第六特征向量序列;根据第六特征向量序列计算时间注意力向量,利用时间注意力向量对第六特征向量序列进行加权,得到第七特征向量序列。
应当理解,当上述过程被多次执行时,前一次操作中的第七特征向量序列将作为后一次操作中的第三特征向量序列。这种情况下,步骤S114具体执行为:对最后一次操作输出的第七特征向量序列进行整流操作得到帧级特征向量序列。
这种情况下,在一个实施例中,第七特征向量序列的维度随着卷积神经网络的层级的升高递增。这样,可以缩小相邻两层之间的维度差,降低了特征信息丢失的风险,进一步提高声纹识别的精度。
图7为本发明一实施例提供的步骤S120的流程图。图8为本发明一实施例提供的步骤S120的执行过程示意图。在步骤S120中,本实施例提出一种基于向量的注意力机制,并采用基于该机制的加权池化层处理帧级特征向量序列,以将所有帧输出的帧级特征向量序列合成为一个固定维度的特征向量。具体而言,结合图7和图8可以看出,步骤S120具体包括:
步骤S121,根据预设的多个注意力头分别生成针对帧级特征向量序列中每个向量的权重向量。
例如,帧级特征提取层次21的输出为一个向量序列H∈RT×l,其中T代表帧数,l代表每个输出向量的长度,基于向量的注意力机制可以表示为一个矩阵A∈RT×l,计算方法为:
A=(softmax(W2ReLU(W1HT+b1)+b2))T
其中,W1∈Ra×l和W2∈Rl×a为权重矩阵,b1∈Ra和b2∈Rl为偏置项,a为超参数。为了能够从多个方面提取特征的关键信息,将注意力机制延伸成多个注意力头的形式:
Figure BDA0002423858640000101
其中,
Figure BDA0002423858640000102
分别为第i个注意力头的相应参数,Ai为第i个注意力头生成的注意力矩阵,总共有I个注意力头。
步骤S122,根据权重向量和帧级特征向量序列生成加权平均向量和加权标准差向量。
具体而言,每个注意力头基于相应的注意力矩阵分别生成相应的加权平均值和加权标准差统计量:
Figure BDA0002423858640000114
Figure BDA0002423858640000111
其中,
Figure BDA0002423858640000112
代表第i个注意力头生成的注意力矩阵Ai中第t帧的注意力向量,ht代表帧层次输出矩阵H中第t帧的输出向量。
步骤S123,将加权平均向量和加权标准差向量合并作为中间特征向量。
最后池化层的输出为所有注意力头的两个统计量的合并:
E=[μ1;...;μi;σ1;...;σi]
需要说明的是,当注意力机制为多头形式时,为了增加不同注意力头生成的注意力矩阵的多样性,将一个惩罚项P添加到损失函数中:
Figure BDA0002423858640000113
至此,步骤S120的单次执行过程结束。
本发明还提供了一种基于神经网络的声纹特征提取装置。图9为本发明一实施例提供的基于神经网络的声纹特提取装置的结构框图。如图9所示,该基于神经网络的声纹特征提取装置90包括:帧级特征提取模块91,用于利用卷积神经网络结合注意力机制对输入的目标语音数据进行特征提取,得到帧级特征向量序列;池化模块92,用于结合注意力机制对帧级特征向量序列进行降采样,以将帧级特征向量序列转化为预定维度的中间特征向量;句子级特征提取模块93,用于对中间特征向量进行全连接操作,以获得句子级的声纹特征向量。
在一个实施例中,如图9所示,帧级特征提取模块91包括至少一个卷积层,每一个卷积层包括卷积加整流子模块911、通道注意力子模块912、时间注意力子模块913。其中卷积加整流子模块911用于对目标语音数据顺次执行至少一次卷积加整流操作,得到第一特征向量序列。通道注意力子模块912用于根据第一特征向量序列计算通道注意力向量,利用通道注意力向量对第一特征向量序列进行加权,得到第二特征向量序列。时间注意力子模块913用于根据第二特征向量序列计算时间注意力向量,利用时间注意力向量对第二特征向量序列进行加权,得到第三特征向量序列。卷积加整流子模块911还用于对第三特征向量序列进行整流操作得到帧级特征向量序列。
在一个实施例中,通道注意力子模块912具体用于:分别利用平均池化操作和最大池化操作聚合第一特征向量序列的每个通道的时间信息;将平均池化操作和最大池化操作的结果分别输入多层感知机中;利用Sigmoid函数根据多层感知机输出的结果计算通道注意力向量;将第一特征向量序列和通道注意力向量逐元素相乘得到第二特征向量序列。
在一个实施例中,时间注意力子模块913具体用于:分别利用平均池化操作和最大池化操作聚合第二特征向量序列的每个时间点的通道信息;将平均池化操作和最大池化操作的结果合并成多维向量;采用预置卷积核对多维向量进行卷积处理得到时间注意力向量;将第二特征向量序列和时间注意力向量逐元素相乘得到第三特征向量序列。
在一个实施例中,帧级特征提取模块91还包括残差子模块914,用于在第三特征向量序列的基础上加入残差。这种情况下,卷积加整流子模块911还用于对第三特征向量序列和残差的加和进行整流操作得到帧级特征向量序列。
在一个实施例中,残差包括目标语音数据。
在一个实施例中,卷积加整流操作包括卷积操作,卷积操作的卷积核包括空洞卷积核。
在一个实施例中,池化模块92包括:向量注意力子模块921,用于利用softmax函数根据帧级特征向量序列生成基于向量的注意力矩阵,并将基于向量的注意力矩阵转化为多个注意力头;降采样子模块922,用于根据多个注意力头和帧级特征向量序列生成加权平均值和加权标准差,将加权平均值和加权标准差合并作为中间特征向量。
本实施例提供的基于神经网络的声纹特征提取装置90,与本发明实施例所提供的基于神经网络的声纹特征提取方法属于同一发明构思,本实施例提供的声纹特征提取装置90可以执行上述任一实施例提供的声纹特征提取方法,具有实现声纹特征提取方法相应的功能模块,并带来相应的有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例提供的声纹特征提取方法实施例,此处不再加以赘述。
表1示出了本发明一实施例提供的可实现上述声纹特征提取方法的神经网络的参数设置情况。
表1神经网络的参数设置情况
Figure BDA0002423858640000131
Figure BDA0002423858640000141
如表1所示,帧级特征提取模块91包括四个卷积层,以卷积层1为例具体说明卷积层的参数设置。从“卷积核设置”一栏可以看出,在卷积层1中,包括三个一维卷积核,该三个卷积核的大小分别为[1]、[3]、[1],经过三次卷积操作后输出的特征向量的维数依次为32、32、128。该三个卷积核依次对应图3中的第一卷积核1、第二卷积核2和第三卷积核3。此外,需要说明的是,在卷积层3和卷积层4中分别设置了一个大小为3的空洞卷积核。句子级特征提取模块93包括两层全连接层,全连接层的维度为512。在提取说话人声纹特征时,提取第一层全连接层的输出向量作为说话人声纹特征。
采用表1所示参数设置的神经网络,四个卷积层输出向量的维度逐渐升高,降低了特征信息丢失的风险。与此同时,仅在卷积层3和卷积层4中采用了空洞卷积核,即将空洞卷积核应用于较高的层级,进一步降低了丢失的信息随着网络深度的增加而被放大的风险,确保神经网络具有较高的声纹识别精度。
图10所示为本发明一实施例提供的基于神经网络的文本无关说话人确认***的结构框图。如图10所示,该文本无关说话人确认***10包括检测模块11、语音特征提取模块12、声纹特征提取装置13以及判决模块14。
检测模块11用于实时检测目标说话人的语音信号。语音信号是指目标说话人说话的干净语音信号,如目标说话人语音对应的时域信号,语音信号的检测方法包括ITU-T的G.729Annex B。
语音特征提取模块12用于对语音信号进行语音特征提取,得到目标语音数据。目标语音数据是指目标说话人发出的干净语音信号,如目标说话人语音对应的时域信号,目标语音数据即为目标说话人的语音信号中的声学特征,语音信号通常包括音色、音强、音高、音长四种声学特征。声学特征提取方法包括梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients,MFCC)。
声纹特征提取装置13用于对目标语音数据进行声纹特征提取,得到声纹特征向量。四种声学特征又可以分解成九十余种特征,这些特征表现了不同声音的不同波长、频率、强度、节奏。从声学特征中分解出的表现波长、频率、强度、节奏的特征称为声纹特征。
判决模块14用于将声纹特征向量与说话人模型库进行匹配,输出针对说话人身份的判决结果,说话人模型库包括目标声纹特征向量和目标说话人的对应关系。该说话人模型库可以采用PLDA模型。
根据本实施例提供的基于神经网络的文本无关说话人确认***具备与声纹特征提取装置相应的技术效果,这里不再赘述。
图11图示了根据本申请实施例的电子设备的结构框图。如图11所示,电子设备100包括一个或多个处理器110和存储器120。该电子设备100可以是服务器或移动终端。
处理器110可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备100中的其他组件以执行期望的功能。
存储器120可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器110可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于神经网络的声纹特征提取方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备100还可以包括:输入装置130和输出装置140,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
例如,该输入装置130可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从服务器或移动终端接收所采集的输入信号。
此外,该输入设备130还可以包括例如键盘、鼠标等等。
该输出装置140可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备140可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图11中仅示出了该电子设备100中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备100还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于神经网络的声纹特征提取方法的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于神经网络的声纹特征提取方法的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (13)

1.一种基于神经网络的声纹特征提取方法,其特征在于,包括:
利用卷积神经网络结合注意力机制对输入的目标语音数据进行特征提取,得到帧级特征向量序列;
结合注意力机制对所述帧级特征向量序列进行降采样,以将所述帧级特征向量序列转化为预定维度的中间特征向量;
对所述中间特征向量进行全连接操作,以获得句子级的声纹特征向量;
其中,所述利用卷积神经网络结合注意力机制对输入的目标语音数据进行特征提取,得到帧级特征向量序列包括:
对所述目标语音数据顺次执行至少一次卷积加整流操作,得到第一特征向量序列;
根据所述第一特征向量序列计算通道注意力向量,利用所述通道注意力向量序列对所述第一特征向量序列进行加权,得到第二特征向量序列;
根据所述第二特征向量序列计算时间注意力向量,利用所述时间注意力向量序列对所述第二特征向量序列进行加权,得到第三特征向量序列;
对所述第三特征向量序列进行整流操作得到所述帧级特征向量序列。
2.根据权利要求1所述的基于神经网络的声纹特征提取方法,其特征在于,所述根据所述第一特征向量序列计算通道注意力向量,利用所述通道注意力向量对所述第一特征向量序列进行加权,得到第二特征向量序列包括:
分别利用平均池化操作和最大池化操作聚合所述第一特征向量序列的每个通道的时间信息;
将所述平均池化操作和所述最大池化操作的结果分别输入多层感知机中;
利用Sigmoid函数根据所述多层感知机输出的结果计算所述通道注意力向量;
将所述第一特征向量序列和所述通道注意力向量逐元素相乘得到所述第二特征向量序列。
3.根据权利要求1所述的基于神经网络的声纹特征提取方法,其特征在于,所述根据所述第二特征向量序列计算时间注意力向量,利用所述时间注意力向量对所述第二特征向量序列进行加权,得到第三特征向量序列包括:
分别利用平均池化操作和最大池化操作聚合所述第二特征向量序列的每个时间点的通道信息;
将所述平均池化操作和所述最大池化操作的结果合并成多维向量;
采用预置卷积核对所述多维向量进行卷积处理得到时间注意力向量;
将所述第二特征向量序列和所述时间注意力向量逐元素相乘得到所述第三特征向量序列。
4.根据权利要求1所述的基于神经网络的声纹特征提取方法,其特征在于,在根据所述第二特征向量序列计算时间注意力向量,利用所述时间注意力向量对所述第二特征向量序列进行加权,得到第三特征向量序列之后,还包括:
在所述第三特征向量序列的基础上加入残差;
所述对所述第三特征向量序列进行整流操作得到所述帧级特征向量序列包括:
对所述第三特征向量序列和所述残差的加和进行整流操作得到所述帧级特征向量序列。
5.根据权利要求4所述的基于神经网络的声纹特征提取方法,其特征在于,所述残差包括所述目标语音数据。
6.根据权利要求1所述的基于神经网络的声纹特征提取方法,其特征在于,在所述根据所述第二特征向量序列计算时间注意力向量,利用所述时间注意力向量对所述第二特征向量序列进行加权,得到第三特征向量序列之后,还包括:
顺次执行至少一次如下特征提取操作,
对所述第三特征向量序列进行整流操作得到第四特征向量序列;
对所述第四特征向量序列顺次执行至少一次卷积加整流操作,得到第五特征向量序列;
根据所述第五特征向量序列计算通道注意力向量,利用所述通道注意力向量对所述第五特征向量序列进行加权,得到第六特征向量序列;
根据所述第六特征向量序列计算时间注意力向量,利用所述时间注意力向量对所述第六特征向量序列进行加权,得到第七特征向量序列;
所述对所述第三特征向量序列进行整流操作得到所述帧级特征向量序列包括:
对最后一次特征提取操作输出的所述第七特征向量序列进行整流操作得到所述帧级特征向量序列。
7.根据权利要求6所述的基于神经网络的声纹特征提取方法,其特征在于,所述第七特征向量序列的维度随所述卷积神经网络的层级的升高递增。
8.根据权利要求1所述的基于神经网络的声纹特征提取方法,其特征在于,所述卷积加整流操作包括卷积操作,所述卷积操作的卷积核包括空洞卷积核。
9.根据权利要求1所述的基于神经网络的声纹特征提取方法,其特征在于,所述结合注意力机制对所述帧级特征进行降采样,以将所述帧级特征向量序列转化为预定维度的中间特征向量包括:
根据预设的多个注意力头分别生成针对所述帧级特征向量序列中每个向量的权重向量;
根据所述权重向量和所述帧级特征向量序列生成加权平均向量和加权标准差向量;
将所述加权平均向量和所述加权标准差向量合并作为所述中间特征向量。
10.一种基于神经网络的声纹特征提取装置,其特征在于,包括:
帧级特征提取模块,用于利用卷积神经网络结合注意力机制对输入的目标语音数据进行特征提取,得到帧级特征向量序列;
其中,所述利用卷积神经网络结合注意力机制对输入的目标语音数据进行特征提取,得到帧级特征向量序列包括:
对所述目标语音数据顺次执行至少一次卷积加整流操作,得到第一特征向量序列;
根据所述第一特征向量序列计算通道注意力向量,利用所述通道注意力向量序列对所述第一特征向量序列进行加权,得到第二特征向量序列;
根据所述第二特征向量序列计算时间注意力向量,利用所述时间注意力向量序列对所述第二特征向量序列进行加权,得到第三特征向量序列;
对所述第三特征向量序列进行整流操作得到所述帧级特征向量序列;
池化模块,用于结合注意力机制对所述帧级特征向量序列进行降采样,以将所述帧级特征向量序列转化为预定维度的中间特征向量;
句子级特征提取模块,用于对所述中间特征向量进行全连接操作,以获得句子级的声纹特征向量。
11.一种文本无关说话人确认***,包括:
检测模块,用于实时检测目标说话人的语音信号;
语音特征提取模块,用于对所述语音信号进行语音特征提取,得到所述目标语音数据;
权利要求10所述的基于神经网络的声纹特征提取装置,用于对所述目标语音数据进行声纹特征提取;以及
判决模块,用于将所述声纹特征向量与说话人模型库进行匹配,输出针对说话人身份的判决结果,所述说话人模型库包括目标声纹特征向量和目标说话人的对应关系。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述基于神经网络的声纹特征提取方法的步骤。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-9中任一项所述的基于神经网络的声纹特征提取方法。
CN202010214245.XA 2020-03-24 2020-03-24 基于神经网络的声纹特征提取方法和装置 Active CN111445913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010214245.XA CN111445913B (zh) 2020-03-24 2020-03-24 基于神经网络的声纹特征提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010214245.XA CN111445913B (zh) 2020-03-24 2020-03-24 基于神经网络的声纹特征提取方法和装置

Publications (2)

Publication Number Publication Date
CN111445913A CN111445913A (zh) 2020-07-24
CN111445913B true CN111445913B (zh) 2023-04-07

Family

ID=71652362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010214245.XA Active CN111445913B (zh) 2020-03-24 2020-03-24 基于神经网络的声纹特征提取方法和装置

Country Status (1)

Country Link
CN (1) CN111445913B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017632A (zh) * 2020-09-02 2020-12-01 浪潮云信息技术股份公司 一种自动化会议记录生成方法
CN112489677B (zh) * 2020-11-20 2023-09-22 平安科技(深圳)有限公司 基于神经网络的语音端点检测方法、装置、设备及介质
CN112634880A (zh) * 2020-12-22 2021-04-09 北京百度网讯科技有限公司 话者识别的方法、装置、设备、存储介质以及程序产品
CN112733821B (zh) * 2021-03-31 2021-07-02 成都西交智汇大数据科技有限公司 一种融合轻量级注意力模型的目标检测方法
CN113643709B (zh) * 2021-08-03 2023-07-18 成都理工大学 一种基于mean-SAP池化模型的说话人识别方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562243B2 (en) * 2017-11-17 2023-01-24 Meta Platforms, Inc. Machine-learning models based on non-local neural networks
CN110634489B (zh) * 2018-06-25 2022-01-14 科大讯飞股份有限公司 一种声纹确认方法、装置、设备及可读存储介质
CN109256135B (zh) * 2018-08-28 2021-05-18 桂林电子科技大学 一种端到端说话人确认方法、装置及存储介质
CN109376246B (zh) * 2018-11-07 2022-07-08 中山大学 一种基于卷积神经网络和局部注意力机制的句子分类方法
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置

Also Published As

Publication number Publication date
CN111445913A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111445913B (zh) 基于神经网络的声纹特征提取方法和装置
Lavrentyeva et al. Audio replay attack detection with deep learning frameworks.
Muckenhirn et al. Long-term spectral statistics for voice presentation attack detection
AU2006343470B2 (en) Intersession variability compensation for automatic extraction of information from voice
TW201419270A (zh) 詞語驗證的方法及裝置
CN113611315B (zh) 基于轻量化卷积神经网络的声纹识别方法和装置
Baloul et al. Challenge-based speaker recognition for mobile authentication
US11328733B2 (en) Generalized negative log-likelihood loss for speaker verification
Gao et al. Detection and evaluation of human and machine generated speech in spoofing attacks on automatic speaker verification systems
Zhang et al. Speech emotion recognition using combination of features
Poddar et al. Quality measures for speaker verification with short utterances
Soleymani et al. Prosodic-enhanced siamese convolutional neural networks for cross-device text-independent speaker verification
Chin et al. Speaker identification using discriminative features and sparse representation
Dimaunahan et al. MFCC and VQ voice recognition based ATM security for the visually disabled
Barbosa et al. Support vector machines, Mel-Frequency Cepstral Coefficients and the Discrete Cosine Transform applied on voice based biometric authentication
Sturim et al. Classification methods for speaker recognition
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
Mansour et al. Voice recognition Using back propagation algorithm in neural networks
CN114911449A (zh) 音量控制方法、装置、存储介质和电子设备
WO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
You et al. Device feature extraction based on parallel neural network training for replay spoofing detection
Bakır et al. Speech emotion classification and recognition with different methods for Turkish language
Nagakrishnan et al. Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models
Nijhawan et al. Real time speaker recognition system for hindi words
Shayamunda et al. Biometric authentication system for industrial applications using speaker recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant