CN114267363B - 语音对抗样本生成方法及装置、电子设备及存储介质 - Google Patents

语音对抗样本生成方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114267363B
CN114267363B CN202210201797.6A CN202210201797A CN114267363B CN 114267363 B CN114267363 B CN 114267363B CN 202210201797 A CN202210201797 A CN 202210201797A CN 114267363 B CN114267363 B CN 114267363B
Authority
CN
China
Prior art keywords
acoustic parameter
matrix
sequence
vector
multidimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210201797.6A
Other languages
English (en)
Other versions
CN114267363A (zh
Inventor
傅睿博
陶建华
易江燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210201797.6A priority Critical patent/CN114267363B/zh
Publication of CN114267363A publication Critical patent/CN114267363A/zh
Application granted granted Critical
Publication of CN114267363B publication Critical patent/CN114267363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质,所述方法包括:接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。

Description

语音对抗样本生成方法及装置、电子设备及存储介质
技术领域
本公开涉及语音技术领域,尤其涉及一种语音对抗样本生成方法及装置、电子设备及存储介质。
背景技术
目前,语音生成检测模型为了捕获更有区分度的信息,使用多种用于语音信号处理的声学特征,用于语音生成检测的声学特征直接送入模型或作为判别依据。在生成语音对抗样本时,语音合成模型通常只选取一种语音声学特征进行声学模型建模,并用声码器将该参数重构成语音波形,这就导致若语音合成模型采用的声学参数与语音生成检测模型所用的声学参数不一致情况下,由于生成语音所用的检测特征的参数与真实语音差异较大,极易被语音生成检测模型所检测,无法对语音生成检测***进行欺骗。
另外,现有技术主要通过对误差阈值增加随机扰动,对误差进行钳位等操作来生成语音对抗样本,属于被动加入对抗样本,虽然在一定程度可以欺骗语音生成检测模型,但加入的噪声易造成生成语音听感下降,从人类主观角度易被识别检测,且该方法未从语音生成检测机理出发,对抗样本生成过于局限性,只能有效欺骗部分给定的语音生成检测模型。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种语音对抗样本生成方法及装置、电子设备及存储介质。
第一方面,本公开的实施例提供了一种语音对抗样本生成方法,包括以下步骤:
接收目标文本,并从所述目标文本中提取文本特征序列;
将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本。
在一种可能的实施方式中,所述声学模型包括骨干网络、自注意力机制层和全连接层,所述将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列,包括:
将所述文本特征序列输入骨干网络中,得到中间多维声学参数序列;
将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵;
将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列。
在一种可能的实施方式中,所述将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵,包括:
对于中间多维声学参数序列
Figure 333505DEST_PATH_IMAGE001
中的向量
Figure 685989DEST_PATH_IMAGE002
,分别乘以三个权重系数
Figure DEST_PATH_IMAGE003
得到三个向量:
Figure 815488DEST_PATH_IMAGE004
根据中间多维声学参数序列中向量
Figure 253423DEST_PATH_IMAGE002
对应的
Figure DEST_PATH_IMAGE005
形成矩阵Q;
根据中间多维声学参数序列中向量
Figure 674040DEST_PATH_IMAGE002
对应的
Figure 146609DEST_PATH_IMAGE006
形成矩阵K;
根据中间多维声学参数序列中向量
Figure 932163DEST_PATH_IMAGE002
对应的
Figure DEST_PATH_IMAGE007
形成矩阵V,作为中间多维声学参数矩阵;
根据矩阵Q和矩阵K计算中间多维声学参数序列中每两个向量之间的相关性:
Figure 857393DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
为中间多维声学参数序列中第i个向量与第j个向量之间的相关性;
Figure 81701DEST_PATH_IMAGE005
为中间多维声学参数序列中第i个向量
Figure 97193DEST_PATH_IMAGE010
乘以
Figure DEST_PATH_IMAGE011
得到的向量,
Figure 381544DEST_PATH_IMAGE012
为中间多维声学参数序列中第j个向量
Figure DEST_PATH_IMAGE013
乘以
Figure 794071DEST_PATH_IMAGE014
得到的向量;
Figure 556490DEST_PATH_IMAGE009
形成的矩阵A进行归一化操作,得到矩阵
Figure DEST_PATH_IMAGE015
,作为向量相关性矩阵。
在一种可能的实施方式中,所述将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列,包括:
Figure 675756DEST_PATH_IMAGE016
其中,Y为多维声学参数序列,矩阵V为中间多维声学参数矩阵,矩阵
Figure DEST_PATH_IMAGE017
为向量相关性矩阵,FCN为全连接层。
在一种可能的实施方式中,所述声码器模型通过以下步骤训练得到:
以多维声学参数序列Y作为输入,以时域采样序列作为输出训练神经网络模型,得到声码器模型。
在一种可能的实施方式中,通过以下表达式训练所述声学模型:
Figure 131008DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE019
为声学模型训练损失函数,
Figure 217782DEST_PATH_IMAGE020
为权重系数,
Figure DEST_PATH_IMAGE021
为第k帧第q类声学参数的真实向量,
Figure 783892DEST_PATH_IMAGE022
为第k帧第q类声学参数的模型实际预测向量。
在一种可能的实施方式中,所述第k帧第q类声学参数的真实向量通过以下步骤得到:
对目标文本对应的真实语音提取声学参数,其中,所述声学参数包括梅尔频率倒谱系数、线性频率倒谱系数、线性预测系数和常数Q变换倒谱系数中的至少两种;
将不同种类的声学参数按帧为单位进行拼接操作,得到第j帧真实多维声学参数序列;
从第k帧真实多维声学参数序列中获取第q类声学参数的真实向量。
第二方面,本公开的实施例提供了一种语音对抗样本生成装置,包括:
提取模块,其用于接收目标文本,并从所述目标文本中提取文本特征序列;
输入模块,其用于将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
生成模块,其用于将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本。
第三方面,本公开的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的语音对抗样本生成方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的语音对抗样本生成方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
本公开实施例所述的语音对抗样本生成方法,接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开实施例的语音对抗样本生成方法的流程示意图;
图2示意性示出了根据本公开另一实施例的语音对抗样本生成方法的流程示意图;
图3示意性示出了根据本公开实施例的语音对抗样本生成装置的结构框图;以及
图4示意性示出了根据本公开实施例的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
参见图1,本公开的实施例提供了一种语音对抗样本生成方法,包括以下步骤:
S1,接收目标文本,并从所述目标文本中提取文本特征序列;
在实际应用中,针对待生成对抗样本的目标文本,经过文本正则化,文本转音素,多音字预测,韵律停顿等预测得到常规语音合成中的文本特征,对于每一个音素f,文本特征
Figure DEST_PATH_IMAGE023
包含音素信息,音调信息,词性信息,韵律停顿信息等一系列能有助于声学建模的特征。假定训练语料的一个样本文本中含有N个音素单元,将经过处理量化后的文本特征序列定义为
Figure 819981DEST_PATH_IMAGE024
S2,将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
S3,将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列(时域语音波形),作为目标文本对应的对抗样本,其中,声码器模型的结构可以采用深度神经网络,与WaveRNN结构类似。
参见图2,步骤S2中,所述声学模型包括骨干网络、自注意力机制层和全连接层,所述将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列,包括:
S21,将所述文本特征序列输入骨干网络中,得到中间多维声学参数序列;
在实际应用中,骨干网络可以采用编码器-解码器的神经网络网络结构,其中,编码器-解码器的结构可以应用LSTM、CNN等多种形式的深度神经网络。
S22,将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵;
S23,将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列。
在本实施例中,步骤S22中,所述将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵,包括:
对于中间多维声学参数序列
Figure 446135DEST_PATH_IMAGE001
中的向量
Figure 770937DEST_PATH_IMAGE002
,分别乘以三个权重系数
Figure 875159DEST_PATH_IMAGE003
得到三个向量:
Figure 31334DEST_PATH_IMAGE004
根据中间多维声学参数序列中向量
Figure 828389DEST_PATH_IMAGE002
对应的
Figure 437224DEST_PATH_IMAGE005
形成矩阵Q;
根据中间多维声学参数序列中向量
Figure 299132DEST_PATH_IMAGE002
对应的
Figure 309814DEST_PATH_IMAGE006
形成矩阵K;
根据中间多维声学参数序列中向量
Figure 277770DEST_PATH_IMAGE002
对应的
Figure 373902DEST_PATH_IMAGE007
形成矩阵V,作为中间多维声学参数矩阵;
根据矩阵Q和矩阵K计算中间多维声学参数序列中每两个向量之间的相关性:
Figure 819927DEST_PATH_IMAGE008
其中,
Figure 888377DEST_PATH_IMAGE009
为中间多维声学参数序列中第i个向量与第j个向量之间的相关性;
Figure 27234DEST_PATH_IMAGE005
为中间多维声学参数序列中第i个向量
Figure 610662DEST_PATH_IMAGE010
乘以
Figure 860378DEST_PATH_IMAGE011
得到的向量,
Figure 845651DEST_PATH_IMAGE012
为中间多维声学参数序列中第j个向量
Figure 155410DEST_PATH_IMAGE013
乘以
Figure 413085DEST_PATH_IMAGE014
得到的向量;
Figure 466491DEST_PATH_IMAGE009
形成的矩阵A进行归一化操作,得到矩阵
Figure 306271DEST_PATH_IMAGE015
,作为向量相关性矩阵。
在本实施例中,步骤S23中,所述将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列,包括:
Figure 786931DEST_PATH_IMAGE016
其中,Y为多维声学参数序列,矩阵V为中间多维声学参数矩阵,矩阵
Figure 79372DEST_PATH_IMAGE017
为向量相关性矩阵,FCN为全连接层。
在本实施例中,步骤S3中,所述声码器模型通过以下步骤训练得到:
以多维声学参数序列Y作为输入,以时域采样序列作为输出训练神经网络模型,得到声码器模型,其中,通过以下表达式训练所述声学模型:
Figure 936470DEST_PATH_IMAGE018
其中,
Figure 568440DEST_PATH_IMAGE019
为声学模型训练损失函数,
Figure 220001DEST_PATH_IMAGE020
为权重系数,其用于根据语音生成检测模型调整对各维声学参数生成的侧重程度,
Figure 265317DEST_PATH_IMAGE021
为第k帧第q类声学参数的真实向量,
Figure 660527DEST_PATH_IMAGE022
为第k帧第q类声学参数的模型实际预测向量,
Figure 209320DEST_PATH_IMAGE026
代表1阶范数计算公式,其中,所述第k帧第q类声学参数的真实向量通过以下步骤得到:
对目标文本对应的真实语音提取声学参数,其中,所述声学参数包括梅尔频率倒谱系数、线性频率倒谱系数、线性预测系数和常数Q变换倒谱系数中的至少两种;
将不同种类的声学参数按帧为单位进行拼接操作,得到第j帧真实多维声学参数序列;
从第k帧真实多维声学参数序列中获取第q类声学参数的真实向量。
本公开的语音对抗样本生成方法不同于常规对生成整句语音加入全局相对统一的对抗样本,根据生成的不同音素在生成语音过程中加入音素相关的对抗样本,更加有针对性地进行语音对抗样本生成,并在对抗样本生成过程中,将语音生成检测***常用的声学参数,如梅尔倒谱系数(Mel Frequency Cepstral Coefficient , MFCC),线性频率倒谱系数(Linear Frequency Cepstral Coefficient, LFCC),线性预测系数(LinearPredictive Coefficient,LPC),常数Q变换倒谱系数(CQCC)进行综合重构,使生成语音在参数分布上与真实语音更加接近,即为一种主动攻击手段,这种多维参数重构方法能够骗过多种语音生成检测模型,使生成的对抗样本无法正确被语音生成检测***所识别,被错误识别为真实语音,相比传统对抗样本生成方法,基于语音生成与检测机理出发,通过生成语音内容不同,采用音素细粒度手段生成音素相关的语音对抗样本,利用多维参数重构方法提升语音对抗样本的抗检测能力
本公开的语音对抗样本生成方法基于语音生成检测机理,可解释地提升了语音对抗样本生成效果,更加有效对语音生成检测模型进行欺骗,并且易于操作和实现。
参见图3,本公开的实施例提供了一种语音对抗样本生成装置,包括:
提取模块11,其用于接收目标文本,并从所述目标文本中提取文本特征序列;
输入模块12,其用于将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
生成模块13,其用于将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本实施例中,提取模块11、输入模块12和生成模块13中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。提取模块11、输入模块12和生成模块13中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,提取模块11、输入模块12和生成模块13中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
参照图4所示,本公开的实施例提供的电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示语音对抗样本生成方法:
接收目标文本,并从所述目标文本中提取文本特征序列;
将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本。
上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的语音对抗样本生成方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的语音对抗样本生成方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种语音对抗样本生成方法,其特征在于,包括以下步骤:
接收目标文本,并从所述目标文本中提取文本特征序列;
将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,
其中,所述声学模型包括骨干网络、自注意力机制层和全连接层,所述将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列,包括:
将所述文本特征序列输入骨干网络中,得到中间多维声学参数序列;
将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵;
将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列,
其中,所述将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵,包括:
对于中间多维声学参数序列
Figure 942202DEST_PATH_IMAGE001
中的向量
Figure 770481DEST_PATH_IMAGE002
,分别乘以三个权重系数
Figure 21332DEST_PATH_IMAGE003
得到三个向量:
Figure 505534DEST_PATH_IMAGE004
根据中间多维声学参数序列中向量
Figure 616710DEST_PATH_IMAGE002
对应的
Figure 63609DEST_PATH_IMAGE005
形成矩阵Q;
根据中间多维声学参数序列中向量
Figure 969248DEST_PATH_IMAGE002
对应的
Figure 3063DEST_PATH_IMAGE006
形成矩阵K;
根据中间多维声学参数序列中向量
Figure 652351DEST_PATH_IMAGE002
对应的
Figure 517538DEST_PATH_IMAGE007
形成矩阵V,作为中间多维声学参数矩阵;
根据矩阵Q和矩阵K计算中间多维声学参数序列中每两个向量之间的相关性:
Figure 92614DEST_PATH_IMAGE008
其中,
Figure 613725DEST_PATH_IMAGE009
为中间多维声学参数序列中第i个向量与第j个向量之间的相关性;
Figure 801124DEST_PATH_IMAGE005
为中间多维声学参数序列中第i个向量
Figure 160299DEST_PATH_IMAGE010
乘以
Figure 407741DEST_PATH_IMAGE011
得到的向量,
Figure 416148DEST_PATH_IMAGE012
为中间多维声学参数序列中第j个向量
Figure 407238DEST_PATH_IMAGE013
乘以
Figure 247018DEST_PATH_IMAGE014
得到的向量;
Figure 169755DEST_PATH_IMAGE009
形成的矩阵A进行归一化操作,得到矩阵
Figure 399880DEST_PATH_IMAGE015
,作为向量相关性矩阵。
2.根据权利要求1所述的方法,其特征在于,所述将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列,包括:
Figure 132343DEST_PATH_IMAGE016
其中,Y为多维声学参数序列,矩阵V为中间多维声学参数矩阵,矩阵
Figure 262848DEST_PATH_IMAGE017
为向量相关性矩阵,FCN为全连接层。
3.根据权利要求1所述的方法,其特征在于,所述声码器模型通过以下步骤训练得到:
以多维声学参数序列Y作为输入,以时域采样序列作为输出训练神经网络模型,得到声码器模型。
4.根据权利要求1所述的方法,其特征在于,通过以下表达式训练所述声学模型:
Figure 852092DEST_PATH_IMAGE018
其中,
Figure 835092DEST_PATH_IMAGE019
为声学模型训练损失函数,
Figure 167984DEST_PATH_IMAGE020
为权重系数,
Figure 152996DEST_PATH_IMAGE021
为第k帧第q类声学参数的真实向量,
Figure 178720DEST_PATH_IMAGE022
为第k帧第q类声学参数的模型实际预测向量。
5.根据权利要求4所述的方法,其特征在于,所述第k帧第q类声学参数的真实向量通过以下步骤得到:
对目标文本对应的真实语音提取声学参数,其中,所述声学参数包括梅尔频率倒谱系数、线性频率倒谱系数、线性预测系数和常数Q变换倒谱系数中的至少两种;
将不同种类的声学参数按帧为单位进行拼接操作,得到第k 帧真实多维声学参数序列;
从第k帧真实多维声学参数序列中获取第q类声学参数的真实向量。
6.一种语音对抗样本生成装置,其特征在于,包括:
提取模块,其用于接收目标文本,并从所述目标文本中提取文本特征序列;
输入模块,其用于将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
生成模块,其用于将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,
其中,所述声学模型包括骨干网络、自注意力机制层和全连接层,所述将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列,包括:
将所述文本特征序列输入骨干网络中,得到中间多维声学参数序列;
将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵;
将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列,
其中,所述将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵,包括:
对于中间多维声学参数序列
Figure 383437DEST_PATH_IMAGE001
中的向量
Figure 520020DEST_PATH_IMAGE023
,分别乘以三个权重系数
Figure 923320DEST_PATH_IMAGE024
得到三个向量:
Figure 618481DEST_PATH_IMAGE025
根据中间多维声学参数序列中向量
Figure 310493DEST_PATH_IMAGE023
对应的
Figure 985188DEST_PATH_IMAGE026
形成矩阵Q;
根据中间多维声学参数序列中向量
Figure 446257DEST_PATH_IMAGE023
对应的
Figure 306460DEST_PATH_IMAGE006
形成矩阵K;
根据中间多维声学参数序列中向量
Figure 220189DEST_PATH_IMAGE023
对应的
Figure 698575DEST_PATH_IMAGE007
形成矩阵V,作为中间多维声学参数矩阵;
根据矩阵Q和矩阵K计算中间多维声学参数序列中每两个向量之间的相关性:
Figure 279729DEST_PATH_IMAGE008
其中,
Figure 51114DEST_PATH_IMAGE009
为中间多维声学参数序列中第i个向量与第j个向量之间的相关性;
Figure 717718DEST_PATH_IMAGE026
为中间多维声学参数序列中第i个向量
Figure 734216DEST_PATH_IMAGE027
乘以
Figure 169877DEST_PATH_IMAGE011
得到的向量,
Figure 112162DEST_PATH_IMAGE012
为中间多维声学参数序列中第j个向量
Figure 266063DEST_PATH_IMAGE013
乘以
Figure 86252DEST_PATH_IMAGE014
得到的向量;
Figure 376419DEST_PATH_IMAGE009
形成的矩阵A进行归一化操作,得到矩阵
Figure 755185DEST_PATH_IMAGE015
,作为向量相关性矩阵。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5中任一项所述的语音对抗样本生成方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的语音对抗样本生成方法。
CN202210201797.6A 2022-03-03 2022-03-03 语音对抗样本生成方法及装置、电子设备及存储介质 Active CN114267363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210201797.6A CN114267363B (zh) 2022-03-03 2022-03-03 语音对抗样本生成方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210201797.6A CN114267363B (zh) 2022-03-03 2022-03-03 语音对抗样本生成方法及装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114267363A CN114267363A (zh) 2022-04-01
CN114267363B true CN114267363B (zh) 2022-05-24

Family

ID=80833816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210201797.6A Active CN114267363B (zh) 2022-03-03 2022-03-03 语音对抗样本生成方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114267363B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10593336B2 (en) * 2018-07-26 2020-03-17 Accenture Global Solutions Limited Machine learning for authenticating voice
CN109859736B (zh) * 2019-01-23 2021-05-25 北京光年无限科技有限公司 语音合成方法及***
CN111754976B (zh) * 2020-07-21 2023-03-07 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置
CN112786011B (zh) * 2021-01-13 2024-05-10 北京有竹居网络技术有限公司 语音合成方法、合成模型训练方法、装置、介质及设备
CN113205792A (zh) * 2021-04-08 2021-08-03 内蒙古工业大学 一种基于Transformer和WaveNet的蒙古语语音合成方法
CN114121010A (zh) * 2021-11-30 2022-03-01 阿里巴巴(中国)有限公司 模型训练、语音生成、语音交互方法、设备以及存储介质

Also Published As

Publication number Publication date
CN114267363A (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
Balamurali et al. Toward robust audio spoofing detection: A detailed comparison of traditional and learned features
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN111916111A (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Chatterjee et al. Auditory model-based design and optimization of feature vectors for automatic speech recognition
CN110648655B (zh) 一种语音识别方法、装置、***及存储介质
Poncelet et al. Low resource end-to-end spoken language understanding with capsule networks
Shahnawazuddin et al. Improvements in IITG Assamese spoken query system: Background noise suppression and alternate acoustic modeling
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
Radha et al. Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review
CN114267363B (zh) 语音对抗样本生成方法及装置、电子设备及存储介质
CN117037796A (zh) 基于多元特征的aigc语音欺诈风控方法、介质及设备
Rao Accent classification from an emotional speech in clean and noisy environments
Praveen et al. Text dependent speaker recognition using MFCC features and BPANN
Bawa et al. Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions
Harere et al. Mispronunciation detection of basic quranic recitation rules using deep learning
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
Nijhawan et al. Real time speaker recognition system for hindi words
Bhaskar et al. Analysis of language identification performance based on gender and hierarchial grouping approaches
Ehkan et al. Hardware implementation of MFCC-based feature extraction for speaker recognition
Bakshi et al. Spoken Indian language classification using GMM supervectors and artificial neural networks
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Srinivas LFBNN: robust and hybrid training algorithm to neural network for hybrid features-enabled speaker recognition system
CN116705036B (zh) 一种基于多层次特征融合的短语音说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant