CN113808579B - 生成语音的检测方法、装置、电子设备及存储介质 - Google Patents

生成语音的检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113808579B
CN113808579B CN202111383856.8A CN202111383856A CN113808579B CN 113808579 B CN113808579 B CN 113808579B CN 202111383856 A CN202111383856 A CN 202111383856A CN 113808579 B CN113808579 B CN 113808579B
Authority
CN
China
Prior art keywords
voice
training
acoustic feature
model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111383856.8A
Other languages
English (en)
Other versions
CN113808579A (zh
Inventor
易江燕
陶建华
傅睿博
聂帅
梁山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111383856.8A priority Critical patent/CN113808579B/zh
Publication of CN113808579A publication Critical patent/CN113808579A/zh
Application granted granted Critical
Publication of CN113808579B publication Critical patent/CN113808579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种生成语音的检测方法、装置、电子设备及存储介质,上述方法包括:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果。

Description

生成语音的检测方法、装置、电子设备及存储介质
技术领域
本公开涉及语音识别领域,尤其涉及一种生成语音的检测方法、装置、电子设备及存储介质。
背景技术
随着深度学习的快速发展,语音合成技术也日趋成熟,已能生成与真人相媲美的语音,在人机交互、智能家居、娱乐、教育等领域有广泛的应用。但是不良用途的语音合成技术也给人民和社会带来危害,因此,对生成语音的检测技术成为了当今社会的迫切需求。现有技术往往使用声学特征检测生成语音或者音素时长特征检测生成语音,但是声学特征检测和音素时长特征检测生成语音的方法准确率不够高、检测过程中使用到的检测模型的泛化性不足。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:检测生成语音的准确率不够高,以及检测过程中使用到的检测模型的泛化性不足等问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种生成语音的检测方法、装置、电子设备及存储介质,以至少解决现有技术中,检测生成语音的准确率不够高,以及检测过程中使用到的检测模型的泛化性不足等问题。
本公开的目的是通过以下技术方案实现的:
第一方面,本公开的实施例提供了一种生成语音的检测方法,包括:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音。
在一个示例性实施例中,所述将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征之前,包括:获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并对所述第三融合特征进行第一标注处理;使用随机梯度下降算法,根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。
在一个示例性实施例中,所述韵律节奏预测模型包括:多层自注意力网络,其中,每层所述自注意力网络包括:多个自注意力头函数。
在一个示例性实施例中,所述将所述第二融合特征输入语音检测模型,输出语音检测结果之前,所述方法还包括:获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征和第四声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并将所述第三融合特征输入所述韵律节奏预测模型,输出训练语音韵律节奏特征;对所述训练语音韵律节奏特征和第四声学特征进行所述拼接处理,得到第四融合特征,并对所述第四融合特征进行第二标注处理;使用随机梯度下降算法,根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型。
在一个示例性实施例中,所述语音检测模型,包括:多个时延神经网络层、多个残差网络层和全连接层。
在一个示例性实施例中,所述分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量之前,包括:获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别对所述训练语音文本序列进行第三标注处理和第四标注处理,并通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型,通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型。
在一个示例性实施例中,所述将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列之前,包括:获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;对所述第三声学特征进行第五标注处理,并通过经过所述第五标注处理的第三声学特征训练所述语音识别模型。
第二方面,本公开的实施例提供了一种生成语音的检测装置,包括:第一提取模块,用于获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;第一模型模块,用于将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;第二提取模块,用于分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;第二模型模块,用于对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;第三模型模块,用于对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音。
第三方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的生成语音的检测方法或图像处理的方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的生成语音的检测方法或图像处理的方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音。因为语音检测模型检测的第二融合特征包括了所述韵律节奏特征,真实语音和生成语音存在韵律节奏分布的差异,同时,使用融合了第二声学特征和所述韵律节奏特征的第二融合特征训练的语音检测模型,对其他变量域也有良好的预测能力,因此,采用上述技术手段,可以解决现有技术中,检测生成语音的准确率不够高,以及检测过程中使用到的检测模型的泛化性不足等问题,进而提高检测生成语音的准确率以及检测过程中使用到的检测模型的泛化性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了本公开实施例一种生成语音的检测方法的计算机终端的硬件结构框图;
图2示意性示出了本公开实施例的一种生成语音的检测方法的流程图;
图3示意性示出了本公开实施例的一种生成语音的检测装置的结构框图;
图4示意性示出了本公开实施例提供的一种电子设备的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本公开。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本公开实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1示意性示出了本公开实施例的一种生成语音的检测方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(Microprocessor Unit,简称是MPU)或可编程逻辑器件(Programmable logic device,简称是PLD)等处理装置和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本公开实施例中的生成语音的检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本公开实施例中提供了一种生成语音的检测方法,图2示意性示出了本公开实施例的一种生成语音的检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;
步骤S204,将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;
步骤S206,分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;
步骤S208,对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;
步骤S210,对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音。因为语音检测模型检测的第二融合特征包括了所述韵律节奏特征,真实语音和生成语音存在韵律节奏分布的差异,同时,使用融合了第二声学特征和所述韵律节奏特征的第二融合特征训练的语音检测模型,对其他变量域也有良好的预测能力,因此,采用上述技术手段,可以解决现有技术中,检测生成语音的准确率不够高,以及检测过程中使用到的检测模型的泛化性不足等问题,进而提高检测生成语音的准确率以及检测过程中使用到的检测模型的泛化性。
本公开中的第一声学特征可以是梅尔频谱系数MFCC或FBank特征,第二声学特征可以是线性预测谱系数LFCC和线性功率谱系数LPC。
在步骤S208中,将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征之前,包括:获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并对所述第三融合特征进行第一标注处理;使用随机梯度下降算法,根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。
需要说明的是,第三声学特征同于第一声学特征,第四声学特征同于第二声学特征,这里只是为了区分提取的是待检测语音的声学特征,还是练语音数据集中训练语音的声学特征。将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列,也可以直接通过语音识别技术将所述第三声学特征转换为训练语音文本序列。同理,在上一个实施例中,将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列,也可以是直接通过语音识别技术将所述第一声学特征转换为文本序列。对所述第三融合特征进行第一标注处理,也就是对所述第三融合特征标注对应的韵律节奏标签,其中,韵律节奏标签也就是训练语音的韵律节奏特征。使用随机梯度下降算法,根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型,使得,所述韵律节奏预测模型经过训练,学习并保存有第三融合特征和训练语音的韵律节奏特征之间的对应关系。
训练语音词向量是所述词嵌入模型提取的训练语音的词向量,训练语音音向量是所述词嵌入模型提取的训练语音的音向量。
所述韵律节奏预测模型包括:多层自注意力网络,其中,每层所述自注意力网络包括:多个自注意力头函数。
可选地,所述韵律节奏预测模型包括:3层自注意力网络,其中,每层所述自注意力网络包括:8个自注意力函数。所述韵律节奏预测模型是自注意力编码模型。
在步骤S210中,将所述第二融合特征输入语音检测模型,输出语音检测结果之前,所述方法还包括:获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征和第四声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并将所述第三融合特征输入所述韵律节奏预测模型,输出训练语音韵律节奏特征;对所述训练语音韵律节奏特征和第四声学特征进行所述拼接处理,得到第四融合特征,并对所述第四融合特征进行第二标注处理;使用随机梯度下降算法,根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型。
对所述第四融合特征进行第二标注处理,也就是给第四融合特征标注所述训练语音是真实语音的标签,还是所述训练语音是生成语音的标签。使用随机梯度下降算法,根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型,使得,所述语音检测模型经过训练,学习并保存有所述训练语音和训练语音检测结果之间的对应关系,所述训练语音检测结果,包括:所述训练语音是真实语音和所述训练语音是生成语音。
所述语音检测模型,包括:多个时延神经网络层、多个残差网络层和全连接层。
可选地,所述语音检测模型,包括:2个时延神经网络层、6个残差网络层和1个全连接层。因此语音检测模型可以看做残差网络和时延神经网络的组合。语音检测模型的激活函数为Relu。
在步骤S206中,分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量之前,包括:获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别对所述训练语音文本序列进行第三标注处理和第四标注处理,并通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型,通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型。
分别对所述训练语音文本序列进行第三标注处理和第四标注处理,也就是分别对所述训练语音文本序列标注所述训练语音文本序列对应的训练语音词向量的标签,和对所述训练语音文本序列标注所述训练语音文本序列对应的训练语音音向量的标签。通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型,使得,所述词嵌入模型经过训练,学习并保存有所述训练语音文本序列和训练语音词向量之间的对应关系。通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型,使得所述词嵌入模型经过训练,学习并保存有所述训练语音文本序列和训练语音音向量之间的对应关系。
在步骤S204中,将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列之前,包括:获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;对所述第三声学特征进行第五标注处理,并通过经过所述第五标注处理的第三声学特征训练所述语音识别模型。
对所述第三声学特征进行第五标注处理,也就是对所述第三声学特征标注训练语音文本序列,通过经过所述第五标注处理的第三声学特征训练所述语音识别模型,使得所述语音识别模型经过训练,学习并保存有所述第三声学特征标和训练语音文本序列之间的对应关系。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(RandomAccessMemory,简称为RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,组件服务端,或者网络设备等)执行本公开各个实施例的方法。
在本实施例中还提供了一种生成语音的检测装置,该生成语音的检测装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3示意性示出了本公开可选实施例的一种生成语音的检测装置的结构框图,如图3所示,该装置包括:
第一提取模块302,用于获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;
第一模型模块304,用于将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;
第二提取模块306,用于分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;
第二模型模块308,用于对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;
第三模型模块310,用于对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音。因为语音检测模型检测的第二融合特征包括了所述韵律节奏特征,真实语音和生成语音存在韵律节奏分布的差异,同时,使用融合了第二声学特征和所述韵律节奏特征的第二融合特征训练的语音检测模型,对其他变量域也有良好的预测能力,因此,采用上述技术手段,可以解决现有技术中,检测生成语音的准确率不够高,以及检测过程中使用到的检测模型的泛化性不足等问题,进而提高检测生成语音的准确率以及检测过程中使用到的检测模型的泛化性。
第一声学特征可以是梅尔频谱系数MFCC或FBank特征,第二声学特征可以是线性预测谱系数LFCC和线性功率谱系数LPC。可选地,第二模型模块308还用于获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并对所述第三融合特征进行第一标注处理;使用随机梯度下降算法,根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。
需要说明的是,第三声学特征同于第一声学特征,第四声学特征同于第二声学特征,这里只是为了区分提取的是待检测语音的声学特征,还是练语音数据集中训练语音的声学特征。将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列,也可以直接通过语音识别技术将所述第三声学特征转换为训练语音文本序列。同理,在上一个实施例中,将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列,也可以是直接通过语音识别技术将所述第一声学特征转换为文本序列。对所述第三融合特征进行第一标注处理,也就是对所述第三融合特征标注对应的韵律节奏标签,其中,韵律节奏标签也就是训练语音的韵律节奏特征。使用随机梯度下降算法,根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型,使得,所述韵律节奏预测模型经过训练,学习并保存有第三融合特征和训练语音的韵律节奏特征之间的对应关系。
所述韵律节奏预测模型包括:多层自注意力网络,其中,每层所述自注意力网络包括:多个自注意力头函数。
可选地,所述韵律节奏预测模型包括:3层自注意力网络,其中,每层所述自注意力网络包括:8个自注意力函数。所述韵律节奏预测模型是自注意力编码模型。
可选地,第三模型模块310还用于获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征和第四声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并将所述第三融合特征输入所述韵律节奏预测模型,输出训练语音韵律节奏特征;对所述训练语音韵律节奏特征和第四声学特征进行所述拼接处理,得到第四融合特征,并对所述第四融合特征进行第二标注处理;使用随机梯度下降算法,根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型。
对所述第四融合特征进行第二标注处理,也就是给第四融合特征标注所述训练语音是真实语音的标签,还是所述训练语音是生成语音的标签。使用随机梯度下降算法,根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型,使得,所述语音检测模型经过训练,学习并保存有所述训练语音和训练语音检测结果之间的对应关系,所述训练语音检测结果,包括:所述训练语音是真实语音和所述训练语音是生成语音。
所述语音检测模型,包括:多个时延神经网络层、多个残差网络层和全连接层。
可选地,所述语音检测模型,包括:2个时延神经网络层、6个残差网络层和1个全连接层。因此语音检测模型可以看做残差网络和时延神经网络的组合。语音检测模型的激活函数为Relu。
可选地,第二提取模块还用于获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别对所述训练语音文本序列进行第三标注处理和第四标注处理,并通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型,通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型。
分别对所述训练语音文本序列进行第三标注处理和第四标注处理,也就是分别对所述训练语音文本序列标注所述训练语音文本序列对应的训练语音词向量的标签,和对所述训练语音文本序列标注所述训练语音文本序列对应的训练语音音向量的标签。通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型,使得,所述词嵌入模型经过训练,学习并保存有所述训练语音文本序列和训练语音词向量之间的对应关系。通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型,使得所述词嵌入模型经过训练,学习并保存有所述训练语音文本序列和训练语音音向量之间的对应关系。
可选地,第一模型模块304还用于获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;对所述第三声学特征进行第五标注处理,并通过经过所述第五标注处理的第三声学特征训练所述语音识别模型。
对所述第三声学特征进行第五标注处理,也就是对所述第三声学特征标注训练语音文本序列,通过经过所述第五标注处理的第三声学特征训练所述语音识别模型,使得所述语音识别模型经过训练,学习并保存有所述第三声学特征标和训练语音文本序列之间的对应关系。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本公开的实施例提供了一种电子设备。
图4示意性示出了本公开实施例提供的一种电子设备的结构框图。
参照图4所示,本公开实施例提供的电子设备400包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401、通信接口402和存储器403通过通信总线404完成相互间的通信;存储器403,用于存放计算机程序;处理器401,用于执行存储器上所存放的程序时,实现上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该输入输出设备与上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;
S2,将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;
S3,分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;
S4,对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;
S5,对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;
S2,将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;
S3,分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;
S4,对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;
S5,对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本公开的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本公开不限制于任何特定的硬件和软件结合。
以上所述仅为本公开的优选实施例而已,并不用于限制于本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (9)

1.一种生成语音的检测方法,其特征在于,包括:
获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;
将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;
分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;
对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;
对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音;
其中,所述将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征之前,包括:
获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;
提取所述训练语音数据集中每条训练语音的第三声学特征;
将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;
分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;
对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并对所述第三融合特征进行第一标注处理;
使用随机梯度下降算法,根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。
2.根据权利要求1所述的方法,其特征在于,所述韵律节奏预测模型包括:多层自注意力网络,其中,每层所述自注意力网络包括:多个自注意力头函数。
3.根据权利要求1所述的方法,其特征在于,所述将所述第二融合特征输入语音检测模型,输出语音检测结果之前,所述方法还包括:
获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;
提取所述训练语音数据集中每条训练语音的第三声学特征和第四声学特征;
将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;
分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;
对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并将所述第三融合特征输入所述韵律节奏预测模型,输出训练语音韵律节奏特征;
对所述训练语音韵律节奏特征和第四声学特征进行所述拼接处理,得到第四融合特征,并对所述第四融合特征进行第二标注处理;
使用随机梯度下降算法,根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型。
4.根据权利要求1或3所述的方法,其特征在于,所述语音检测模型,包括:多个时延神经网络层、多个残差网络层和全连接层。
5.根据权利要求1所述的方法,其特征在于,所述分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量之前,包括:
获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;
提取所述训练语音数据集中每条训练语音的第三声学特征;
将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;
分别对所述训练语音文本序列进行第三标注处理和第四标注处理,并通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型,通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列之前,包括:
获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;
提取所述训练语音数据集中每条训练语音的第三声学特征;
对所述第三声学特征进行第五标注处理,并通过经过所述第五标注处理的第三声学特征训练所述语音识别模型。
7.一种生成语音的检测装置,其特征在于,包括:
第一提取模块,用于获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;
第一模型模块,用于将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;
第二提取模块,用于分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;
第二模型模块,用于对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;
第三模型模块,用于对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音;
第二模型模块还用于获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并对所述第三融合特征进行第一标注处理;使用随机梯度下降算法,根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。
8.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
CN202111383856.8A 2021-11-22 2021-11-22 生成语音的检测方法、装置、电子设备及存储介质 Active CN113808579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111383856.8A CN113808579B (zh) 2021-11-22 2021-11-22 生成语音的检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111383856.8A CN113808579B (zh) 2021-11-22 2021-11-22 生成语音的检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113808579A CN113808579A (zh) 2021-12-17
CN113808579B true CN113808579B (zh) 2022-03-08

Family

ID=78937493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111383856.8A Active CN113808579B (zh) 2021-11-22 2021-11-22 生成语音的检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113808579B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551481A (zh) * 2015-12-21 2016-05-04 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN110782918A (zh) * 2019-10-12 2020-02-11 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律评估方法及装置
CN111754976A (zh) * 2020-07-21 2020-10-09 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
CN107464559B (zh) * 2017-07-11 2020-12-15 中国科学院自动化研究所 基于汉语韵律结构和重音的联合预测模型构建方法及***
KR20200015418A (ko) * 2018-08-02 2020-02-12 네오사피엔스 주식회사 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN110299131B (zh) * 2019-08-01 2021-12-10 苏州奇梦者网络科技有限公司 一种可控制韵律情感的语音合成方法、装置、存储介质
CN112464655A (zh) * 2020-11-27 2021-03-09 绍兴达道生涯教育信息咨询有限公司 中文字符和拼音相结合的词向量表示方法、装置、介质
CN113488073B (zh) * 2021-07-06 2023-11-24 浙江工业大学 一种基于多特征融合的伪造语音检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551481A (zh) * 2015-12-21 2016-05-04 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN110782918A (zh) * 2019-10-12 2020-02-11 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律评估方法及装置
CN111754976A (zh) * 2020-07-21 2020-10-09 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GFCC与韵律特征参数融合的语音情感识别;王华朋等;《中国刑警学院学报》;20200420(第02期);第125-129页 *

Also Published As

Publication number Publication date
CN113808579A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN107657017B (zh) 用于提供语音服务的方法和装置
CN111667814B (zh) 一种多语种的语音合成方法及装置
CN108520741A (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
CN106683677B (zh) 语音识别方法及装置
CN108428446A (zh) 语音识别方法和装置
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN113096634B (zh) 语音合成方法、装置、服务器及存储介质
CN111145733A (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
CN111344717B (zh) 交互行为预测方法、智能装置和计算机可读存储介质
CN115238045B (zh) 一种生成式事件论元抽取方法、***及存储介质
CN114637843A (zh) 数据处理方法、装置、电子设备及存储介质
CN113555007B (zh) 语音拼接点检测方法及存储介质
CN113178200B (zh) 语音转换方法、装置、服务器及存储介质
CN110059174A (zh) 问询指引方法及装置
CN114694637A (zh) 混合语音识别方法、装置、电子设备及存储介质
CN113808579B (zh) 生成语音的检测方法、装置、电子设备及存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN112786000B (zh) 语音合成方法、***、设备及存储介质
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN115238066A (zh) 用户意图识别方法、装置、对话***、设备以及存储介质
CN113724693A (zh) 语音判别方法、装置、电子设备及存储介质
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN111798849A (zh) 一种机器人指令识别方法、装置及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant