CN114267363B - 语音对抗样本生成方法及装置、电子设备及存储介质 - Google Patents
语音对抗样本生成方法及装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114267363B CN114267363B CN202210201797.6A CN202210201797A CN114267363B CN 114267363 B CN114267363 B CN 114267363B CN 202210201797 A CN202210201797 A CN 202210201797A CN 114267363 B CN114267363 B CN 114267363B
- Authority
- CN
- China
- Prior art keywords
- acoustic parameter
- matrix
- sequence
- vector
- multidimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 82
- 239000011159 matrix material Substances 0.000 claims description 75
- 238000004891 communication Methods 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质,所述方法包括:接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。
Description
技术领域
本公开涉及语音技术领域,尤其涉及一种语音对抗样本生成方法及装置、电子设备及存储介质。
背景技术
目前,语音生成检测模型为了捕获更有区分度的信息,使用多种用于语音信号处理的声学特征,用于语音生成检测的声学特征直接送入模型或作为判别依据。在生成语音对抗样本时,语音合成模型通常只选取一种语音声学特征进行声学模型建模,并用声码器将该参数重构成语音波形,这就导致若语音合成模型采用的声学参数与语音生成检测模型所用的声学参数不一致情况下,由于生成语音所用的检测特征的参数与真实语音差异较大,极易被语音生成检测模型所检测,无法对语音生成检测***进行欺骗。
另外,现有技术主要通过对误差阈值增加随机扰动,对误差进行钳位等操作来生成语音对抗样本,属于被动加入对抗样本,虽然在一定程度可以欺骗语音生成检测模型,但加入的噪声易造成生成语音听感下降,从人类主观角度易被识别检测,且该方法未从语音生成检测机理出发,对抗样本生成过于局限性,只能有效欺骗部分给定的语音生成检测模型。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种语音对抗样本生成方法及装置、电子设备及存储介质。
第一方面,本公开的实施例提供了一种语音对抗样本生成方法,包括以下步骤:
接收目标文本,并从所述目标文本中提取文本特征序列;
将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本。
在一种可能的实施方式中,所述声学模型包括骨干网络、自注意力机制层和全连接层,所述将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列,包括:
将所述文本特征序列输入骨干网络中,得到中间多维声学参数序列;
将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵;
将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列。
在一种可能的实施方式中,所述将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵,包括:
根据矩阵Q和矩阵K计算中间多维声学参数序列中每两个向量之间的相关性:
在一种可能的实施方式中,所述将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列,包括:
在一种可能的实施方式中,所述声码器模型通过以下步骤训练得到:
以多维声学参数序列Y作为输入,以时域采样序列作为输出训练神经网络模型,得到声码器模型。
在一种可能的实施方式中,通过以下表达式训练所述声学模型:
在一种可能的实施方式中,所述第k帧第q类声学参数的真实向量通过以下步骤得到:
对目标文本对应的真实语音提取声学参数,其中,所述声学参数包括梅尔频率倒谱系数、线性频率倒谱系数、线性预测系数和常数Q变换倒谱系数中的至少两种;
将不同种类的声学参数按帧为单位进行拼接操作,得到第j帧真实多维声学参数序列;
从第k帧真实多维声学参数序列中获取第q类声学参数的真实向量。
第二方面,本公开的实施例提供了一种语音对抗样本生成装置,包括:
提取模块,其用于接收目标文本,并从所述目标文本中提取文本特征序列;
输入模块,其用于将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
生成模块,其用于将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本。
第三方面,本公开的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的语音对抗样本生成方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的语音对抗样本生成方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
本公开实施例所述的语音对抗样本生成方法,接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开实施例的语音对抗样本生成方法的流程示意图;
图2示意性示出了根据本公开另一实施例的语音对抗样本生成方法的流程示意图;
图3示意性示出了根据本公开实施例的语音对抗样本生成装置的结构框图;以及
图4示意性示出了根据本公开实施例的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
参见图1,本公开的实施例提供了一种语音对抗样本生成方法,包括以下步骤:
S1,接收目标文本,并从所述目标文本中提取文本特征序列;
在实际应用中,针对待生成对抗样本的目标文本,经过文本正则化,文本转音素,多音字预测,韵律停顿等预测得到常规语音合成中的文本特征,对于每一个音素f,文本特征包含音素信息,音调信息,词性信息,韵律停顿信息等一系列能有助于声学建模的特征。假定训练语料的一个样本文本中含有N个音素单元,将经过处理量化后的文本特征序列定义为。
S2,将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
S3,将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列(时域语音波形),作为目标文本对应的对抗样本,其中,声码器模型的结构可以采用深度神经网络,与WaveRNN结构类似。
参见图2,步骤S2中,所述声学模型包括骨干网络、自注意力机制层和全连接层,所述将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列,包括:
S21,将所述文本特征序列输入骨干网络中,得到中间多维声学参数序列;
在实际应用中,骨干网络可以采用编码器-解码器的神经网络网络结构,其中,编码器-解码器的结构可以应用LSTM、CNN等多种形式的深度神经网络。
S22,将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵;
S23,将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列。
在本实施例中,步骤S22中,所述将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵,包括:
根据矩阵Q和矩阵K计算中间多维声学参数序列中每两个向量之间的相关性:
在本实施例中,步骤S23中,所述将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列,包括:
在本实施例中,步骤S3中,所述声码器模型通过以下步骤训练得到:
以多维声学参数序列Y作为输入,以时域采样序列作为输出训练神经网络模型,得到声码器模型,其中,通过以下表达式训练所述声学模型:
其中,为声学模型训练损失函数,为权重系数,其用于根据语音生成检测模型调整对各维声学参数生成的侧重程度,为第k帧第q类声学参数的真实向量,为第k帧第q类声学参数的模型实际预测向量,代表1阶范数计算公式,其中,所述第k帧第q类声学参数的真实向量通过以下步骤得到:
对目标文本对应的真实语音提取声学参数,其中,所述声学参数包括梅尔频率倒谱系数、线性频率倒谱系数、线性预测系数和常数Q变换倒谱系数中的至少两种;
将不同种类的声学参数按帧为单位进行拼接操作,得到第j帧真实多维声学参数序列;
从第k帧真实多维声学参数序列中获取第q类声学参数的真实向量。
本公开的语音对抗样本生成方法不同于常规对生成整句语音加入全局相对统一的对抗样本,根据生成的不同音素在生成语音过程中加入音素相关的对抗样本,更加有针对性地进行语音对抗样本生成,并在对抗样本生成过程中,将语音生成检测***常用的声学参数,如梅尔倒谱系数(Mel Frequency Cepstral Coefficient , MFCC),线性频率倒谱系数(Linear Frequency Cepstral Coefficient, LFCC),线性预测系数(LinearPredictive Coefficient,LPC),常数Q变换倒谱系数(CQCC)进行综合重构,使生成语音在参数分布上与真实语音更加接近,即为一种主动攻击手段,这种多维参数重构方法能够骗过多种语音生成检测模型,使生成的对抗样本无法正确被语音生成检测***所识别,被错误识别为真实语音,相比传统对抗样本生成方法,基于语音生成与检测机理出发,通过生成语音内容不同,采用音素细粒度手段生成音素相关的语音对抗样本,利用多维参数重构方法提升语音对抗样本的抗检测能力
本公开的语音对抗样本生成方法基于语音生成检测机理,可解释地提升了语音对抗样本生成效果,更加有效对语音生成检测模型进行欺骗,并且易于操作和实现。
参见图3,本公开的实施例提供了一种语音对抗样本生成装置,包括:
提取模块11,其用于接收目标文本,并从所述目标文本中提取文本特征序列;
输入模块12,其用于将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
生成模块13,其用于将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本实施例中,提取模块11、输入模块12和生成模块13中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。提取模块11、输入模块12和生成模块13中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,提取模块11、输入模块12和生成模块13中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
参照图4所示,本公开的实施例提供的电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示语音对抗样本生成方法:
接收目标文本,并从所述目标文本中提取文本特征序列;
将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本。
上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的语音对抗样本生成方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的语音对抗样本生成方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种语音对抗样本生成方法,其特征在于,包括以下步骤:
接收目标文本,并从所述目标文本中提取文本特征序列;
将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,
其中,所述声学模型包括骨干网络、自注意力机制层和全连接层,所述将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列,包括:
将所述文本特征序列输入骨干网络中,得到中间多维声学参数序列;
将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵;
将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列,
其中,所述将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵,包括:
根据矩阵Q和矩阵K计算中间多维声学参数序列中每两个向量之间的相关性:
3.根据权利要求1所述的方法,其特征在于,所述声码器模型通过以下步骤训练得到:
以多维声学参数序列Y作为输入,以时域采样序列作为输出训练神经网络模型,得到声码器模型。
5.根据权利要求4所述的方法,其特征在于,所述第k帧第q类声学参数的真实向量通过以下步骤得到:
对目标文本对应的真实语音提取声学参数,其中,所述声学参数包括梅尔频率倒谱系数、线性频率倒谱系数、线性预测系数和常数Q变换倒谱系数中的至少两种;
将不同种类的声学参数按帧为单位进行拼接操作,得到第k 帧真实多维声学参数序列;
从第k帧真实多维声学参数序列中获取第q类声学参数的真实向量。
6.一种语音对抗样本生成装置,其特征在于,包括:
提取模块,其用于接收目标文本,并从所述目标文本中提取文本特征序列;
输入模块,其用于将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
生成模块,其用于将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,
其中,所述声学模型包括骨干网络、自注意力机制层和全连接层,所述将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列,包括:
将所述文本特征序列输入骨干网络中,得到中间多维声学参数序列;
将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵;
将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列,
其中,所述将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵,包括:
根据矩阵Q和矩阵K计算中间多维声学参数序列中每两个向量之间的相关性:
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5中任一项所述的语音对抗样本生成方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的语音对抗样本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201797.6A CN114267363B (zh) | 2022-03-03 | 2022-03-03 | 语音对抗样本生成方法及装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201797.6A CN114267363B (zh) | 2022-03-03 | 2022-03-03 | 语音对抗样本生成方法及装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114267363A CN114267363A (zh) | 2022-04-01 |
CN114267363B true CN114267363B (zh) | 2022-05-24 |
Family
ID=80833816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210201797.6A Active CN114267363B (zh) | 2022-03-03 | 2022-03-03 | 语音对抗样本生成方法及装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114267363B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10593336B2 (en) * | 2018-07-26 | 2020-03-17 | Accenture Global Solutions Limited | Machine learning for authenticating voice |
CN109859736B (zh) * | 2019-01-23 | 2021-05-25 | 北京光年无限科技有限公司 | 语音合成方法及*** |
CN111754976B (zh) * | 2020-07-21 | 2023-03-07 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、***及电子装置 |
CN112786011B (zh) * | 2021-01-13 | 2024-05-10 | 北京有竹居网络技术有限公司 | 语音合成方法、合成模型训练方法、装置、介质及设备 |
CN113205792A (zh) * | 2021-04-08 | 2021-08-03 | 内蒙古工业大学 | 一种基于Transformer和WaveNet的蒙古语语音合成方法 |
CN114121010A (zh) * | 2021-11-30 | 2022-03-01 | 阿里巴巴(中国)有限公司 | 模型训练、语音生成、语音交互方法、设备以及存储介质 |
-
2022
- 2022-03-03 CN CN202210201797.6A patent/CN114267363B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114267363A (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
Balamurali et al. | Toward robust audio spoofing detection: A detailed comparison of traditional and learned features | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
CN111916111A (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
JP2019215500A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
Chatterjee et al. | Auditory model-based design and optimization of feature vectors for automatic speech recognition | |
CN110648655B (zh) | 一种语音识别方法、装置、***及存储介质 | |
Poncelet et al. | Low resource end-to-end spoken language understanding with capsule networks | |
Shahnawazuddin et al. | Improvements in IITG Assamese spoken query system: Background noise suppression and alternate acoustic modeling | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
Radha et al. | Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review | |
CN114267363B (zh) | 语音对抗样本生成方法及装置、电子设备及存储介质 | |
CN117037796A (zh) | 基于多元特征的aigc语音欺诈风控方法、介质及设备 | |
Rao | Accent classification from an emotional speech in clean and noisy environments | |
Praveen et al. | Text dependent speaker recognition using MFCC features and BPANN | |
Bawa et al. | Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions | |
Harere et al. | Mispronunciation detection of basic quranic recitation rules using deep learning | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
Nijhawan et al. | Real time speaker recognition system for hindi words | |
Bhaskar et al. | Analysis of language identification performance based on gender and hierarchial grouping approaches | |
Ehkan et al. | Hardware implementation of MFCC-based feature extraction for speaker recognition | |
Bakshi et al. | Spoken Indian language classification using GMM supervectors and artificial neural networks | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach | |
Srinivas | LFBNN: robust and hybrid training algorithm to neural network for hybrid features-enabled speaker recognition system | |
CN116705036B (zh) | 一种基于多层次特征融合的短语音说话人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |