CN116129866A - 语音合成方法、网络训练方法、装置、设备及存储介质 - Google Patents

语音合成方法、网络训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116129866A
CN116129866A CN202310124566.4A CN202310124566A CN116129866A CN 116129866 A CN116129866 A CN 116129866A CN 202310124566 A CN202310124566 A CN 202310124566A CN 116129866 A CN116129866 A CN 116129866A
Authority
CN
China
Prior art keywords
network
text
acoustic model
synthesized
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310124566.4A
Other languages
English (en)
Inventor
黄良杰
原湉
陈泽裕
李晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310124566.4A priority Critical patent/CN116129866A/zh
Publication of CN116129866A publication Critical patent/CN116129866A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开提供了语音合成方法、网络训练方法、装置、设备及存储介质,涉及语音处理技术领域,尤其涉及人工智能、语音合成技术领域。具体实现方案为:响应于接收到待合成文本,采用前端网络获取待合成文本的韵律特征以及待合成文本对应的音素序列;采用声学模型网络根据韵律特征以及音素序列获取待合成文本对应的声学特征;采用声码器网络根据声学特征获取待合成文本对应的合成语音的音频波形;其中,前端网络、声学模型网络、声码器网络串行组成语音合成网络;前端网络、声学模型网络、声码器网络是通过对语音合成网络预先进行端到端训练获取的。

Description

语音合成方法、网络训练方法、装置、设备及存储介质
技术领域
本公开涉及语音处理技术领域,尤其涉及人工智能、语音合成技术领域,具体而言,本公开涉及一种语音合成方法、网络训练方法、装置、设备及存储介质。
背景技术
语音合成,是将文本信息转变为可以听得懂的、流利的口语输出的技术。语音合成过程是先将文本信息转换成语言学特征或音素,再将语言学特征或音素转换为音频波形的过程。
相比于其他外语,中文作为一种声调语言,合成的语音的抑扬顿挫感是衡量自然度的重要指标。
发明内容
本公开为了解决上述缺陷中的至少一项,提供了一种语音合成方法、网络训练方法、装置、设备及存储介质。
根据本公开的第一方面,提供了一种语音合成方法,该方法包括:
响应于接收到待合成文本,采用前端网络获取所述待合成文本的韵律特征以及所述待合成文本对应的音素序列;
采用声学模型网络根据所述韵律特征以及所述音素序列获取所述待合成文本对应的声学特征;
采用声码器网络根据所述声学特征获取所述待合成文本对应的合成语音的音频波形;
其中,所述前端网络是生成韵律特征和音素序列的神经网络,所述声学模型网络是生成声学特征的神经网络,所述声码器网络是生成音频波形的神经网络;所述前端网络、所述声学模型网络、所述声码器网络串行组成语音合成网络;所述前端网络、所述声学模型网络、所述声码器网络是通过对所述语音合成网络预先进行端到端训练获取的。
根据本公开的第二方面,提供了一种网络训练方法,用于对语音合成网络进行训练,所述语音合成网络包括串行连接的前端网络、声学模型网络、声码器网络,所述前端网络是生成韵律特征和音素序列的神经网络,所述声学模型网络是生成声学特征的神经网络,所述声码器网络是生成音频波形的神经网络,该方法包括:
将待训练文本输入所述前端网络,获取所述前端网络输出的韵律特征以及音素序列;
将所述待训练文本对应的韵律标签以及音素标签输入所述声学模型网络,获取所述声学模型网络输出的声学特征;将所述声学模型网络输出的声学特征输入所述声码器网络获取所述声码器网络输出的音频波形;
根据所述前端网络输出的韵律特征与所述待训练文本对应的韵律标签,以及所述前端网络输出的音素序列与所述待训练文本对应的音素标签构建第一损失函数;
根据所述声码器网络输出的音频波形与所述待训练文本对应的合成语音的音频波形构建第二损失函数;
基于所述第一损失函数和所述第二损失函数,调整所述语音合成网络的网络参数。
根据本公开的第三方面,提供了一种语音合成装置,该装置包括:
文本前端模块,用于响应于接收到待合成文本,采用前端网络获取所述待合成文本的韵律特征以及所述待合成文本对应的音素序列;
声学模型模块,用于采用声学模型网络根据所述韵律特征以及所述音素序列获取所述待合成文本对应的声学特征;
声码器模块,用于采用声码器网络根据所述声学特征获取所述待合成文本对应的合成语音的音频波形;
其中,所述前端网络是生成韵律特征和音素序列的神经网络,所述声学模型网络是生成声学特征的神经网络,所述声码器网络是生成音频波形的神经网络;所述前端网络、所述声学模型网络、所述声码器网络串行组成语音合成网络;所述前端网络、所述声学模型网络、所述声码器网络是通过对所述语音合成网络预先进行端到端训练获取的。
根据本公开的第四方面,提供了一种网络训练装置,用于对语音合成网络进行训练,所述语音合成网络包括串行连接的前端网络、声学模型网络、声码器网络,所述前端网络是生成韵律特征和音素序列的神经网络,所述声学模型网络是生成声学特征的神经网络,所述声码器网络是生成音频波形的神经网络,该装置包括:
前端训练模块,用于将待训练文本输入所述前端网络,获取所述前端网络输出的韵律特征以及音素序列;
声学训练模块,用于将所述待训练文本对应的韵律标签以及音素标签输入所述声学模型网络,获取所述声学模型网络输出的声学特征;将所述声学模型网络输出的声学特征输入所述声码器网络获取所述声码器网络输出的音频波形;
第一损失模块,用于根据所述前端网络输出的韵律特征与所述待训练文本对应的韵律标签,以及所述前端网络输出的音素序列与所述待训练文本对应的音素标签构建第一损失函数;
第二损失模块,用于根据所述声码器网络输出的音频波形与所述待训练文本对应的合成语音的音频波形构建第二损失函数;
反向传播模块,用于基于所述第一损失函数和所述第二损失函数,调整所述语音合成网络的网络参数。
根据本公开的第五方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与上述至少一个处理器通信连接的存储器;其中,
存储器存储有可被上述至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述语音合成方法和网络训练方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使计算机执行上述语音合成方法和网络训练方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述语音合成方法和网络训练方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的的一种语音合成方法的流程示意图;
图2是本公开实施例提供的另一种语音合成方法的部分步骤的流程示意图;
图3是本公开实施例提供的另一种语音合成方法的部分步骤的流程示意图;
图4是本公开实施例提供的一种网络训练方法的流程示意图;
图5是本公开实施例提供的一种语音合成装置的结构示意图;
图6是本公开实施例提供的一种网络训练装置的结构示意图;
图7是用来实现本公开实施例的语音合成方法和网络训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在一些相关技术中,通过设定规则的方式将文本信息转换为语言学特征或音素。
这种转换方式,要求设定规则的开发者具有极强的专业语言学知识,容易出错,维护困难,人力耗费极高。且由于不同语音的语法规则***,规则不能相互借鉴,因此,不同的语言都需要有相应语言的语言学专家参与开发,导致跨语音应用型不强。
在一些相关技术中,通过设定规则解决文本正则化问题后,使用神经网络对正则化后的文本分词、变调、多音字预测处理,获取文本信息对应的语言学特征或音素。
在一些相关技术中,通过声学模型将文本信息对应的语言学特征或音素转换为声学特征,如mel谱(梅尔谱)特征。
在一些相关技术中,通过声码器将文本信息对应的声学特征转换为音频波形。
通过引入神经网络,减少了对专业语言学知识的需求,降低的人力成本,且通过更换数据集就可以实现模型在不同语言之间的迁移。但将通过神经网络获取的文本信息对应的语言学特征或音素输入声学模型以及声码器后,合成的语音会有较强的机械感。
本公开实施例提供的语音合成方法、网络训练方法、装置、设备及存储介质,旨在解决现有技术的如上技术问题中的至少一个。
本公开实施例提供的语音合成方法、网络训练方法可以由终端设备或服务器等电子设备执行,终端设备可以为车载设备、用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者,可通过服务器执行所述方法。
图1示出了本公开实施例提供的一种语音合成方法的流程示意图,如图1中所示,该方法主要可以包括:
在步骤S110中,响应于接收到待合成文本,采用前端网络获取待合成文本的韵律特征以及待合成文本对应的音素序列;
在步骤S120中,采用声学模型网络根据韵律特征以及音素序列获取待合成文本对应的声学特征;
在步骤S130中,采用声码器网络根据声学特征获取待合成文本对应的合成语音的音频波形;
其中,前端网络是生成韵律特征和音素序列的神经网络,声学模型网络是生成声学特征的神经网络,声码器网络是生成音频波形的神经网络;前端网络、声学模型网络、声码器网络串行组成语音合成网络;前端网络、声学模型网络、声码器网络是通过对语音合成网络预先进行端到端训练获取的。
举例来说,在步骤S110中,待合成文本可以是用户通过人机交互装置输入的文本。
在一些可能的实现方式中,在人机交互装置获取用户输入的待合成文本后,可以通过有线或无线的方式与人机交互装置连接,从人机交互装置获取待合成文本。
在一些可能的实现方式中,待合成文本可以是中文文本,具体可以是由一个或多个中文句子组成的文本。
在一些可能的实现方式中,待合成文本可以包含其他类型的输入,如编码、基数词、序数词、数值范围、日期、温度、分数、小数、百分数和电话号码等。
在一些可能的实现方式中,对待合成文本进行文本正则化处理,将待合成文本中其他类型输入转换为纯文本输入。
其中,文本正则化(Text Normalization)是将文本中的数字、符号、缩写等转换成语言文字的过程
在一些可能的实现方式中,待合成文本对应的韵律特征可以是待合成文本包括的文本词汇、文本语句所属的韵律层级。
在一些可能的实现方式中,韵律层级为韵律词、韵律短语、语调短语、句末中的一种。
在一些可能的实现方式中,待合成文本对应的音素序列可以是按照顺序排列的待合成文本的每一个字对应的音素的集合。
在一些可能的实现方式中,基于前端网络对待合成文本进行分句、分词、词性标注、韵律预测、多音字预测,获取待合成文本对应的韵律特征以及音素序列。
在一些可能的实现方式中,前端模型可以由特征提取子网络和多个子任务对应的子网络组成。其中,特征提取子网络用于提取待合成文本的语义特征,每个子网络用于根据提取的语义特征,完成分句、分词、词性标注、韵律预测、字音转换、多音字预测中的一个任务。其中,韵律预测子网络是用于生成韵律特征的神经网络;字音转换子网络是用于生成音素序列的神经网络。
也就是说,对待合成文本进行分句、分词、词性标注、韵律预测、多音字预测、生成音素序列是并行完成的。
在一些可能的实现方式中,前端模型可以由串行连接的特征提取子网络、分句子网络、分词子网络、词性标注子网络、韵律预测子网络、字音转换子网络、多音字预测子网络组成。
也就是说,特征提取子网络提取待合成文本的语义特征,分句子网络用于根据提取的语义特征获取待合成文本对应的至少一个文本语句,分词子网络用于根据分句网络的输出获取待合成文本对应的多个文本词汇,词性标注子网络用于根据分句网络的输出获取多个文本词汇的词性,韵律预测子网络用于根据词性标注网络的输出获取待合成文本的韵律特征,字音转换子网络用语根据韵律预测网络的输出获取待合成文本的音素序列,多音字预测子网络用于确定待合成文本中多音字对应的音素。
在一些可能的实现方式中,可以采用基于规则和前端模型结合的方式获取待合成文本的韵律特征以及待合成文本对应的音素特征。
在一些可能的实现方式中,可以基于预设的规则,对待合成文本进行分句、分词、词性标注处理,获取待合成文本对应的多个文本词汇,基于前端模型,根据待合成文本对应的多个文本词汇获取待合成文本对应的韵律特征和音素序列,并基于预测的规则对获取的音素序列中的音素进行变调处理,最终确定待合成文本对应的音素序列。
其中,变调是指指汉语的音节在连续发出时,其中有一些音节的调值会受到后面的音调声调的影响,从而发生改变的现象。变调处理是是将声调变化之方法使用于字词音节并合上的处理。
在一些可能的实现方式中,在步骤S120中,声学模型网络可以是任何可以生成声学特征的神经网络。
在一些可能实现方式中,声学模型网络可以是自回归深度学习网络,也可以是非自回归深度学习网络。
在一些具体的实现方式中,声学模型网络可以是非自回归的FastSpeech2(快速语音)网络。
在一些可能的实现方式中,待合成文本对应的声学特征可以是待合成文本对应的Mel(梅尔)谱。
在一些可能的实现方式中,可以将声学模型网络(如FastSpeech2)的LN(LayerNormalization,层归一化)层使用可学习的自适应Tensor(张量)代替,该Tensor在声学模型网络的训练过程中也在变化,该Tensor在声学模型网络的训练的过程中,会自动朝着损失函数最优的角度去变化。
该Tensor用于对其连接的神经网络层输出的特征进行自适应的归一化处理,使声学网络模型可以在语音合成任务中表现更佳。
在一些可能的实现方式中,声码器网络可以是任何可以实现生成音频波形的神经网络。
在一些具体的实现方式中,声码器网络可以是预先训练的Multi-band MelGAN(多波段梅尔对抗网络)。
在一些可能的实现方式中,声码器网络输出的音频波形可以用于合成对应的语音,并提供给播放装置播放语音,以供用户获取待合成文本对应的合成语音。
在一些具体的实现方式中,播放装置可以是具体播放功能的装置,如智能音箱等。
在一些可能的实现方式中,前端网络、声学模型网络、声码器网络是串行连接的,且一起训练的。
也就是说,前端网络、声学模型网络、声码器网络组成一个端到端的语音合成网络,通过对语音合成网络进行端到端的训练来获取训练好的前端网络、声学模型网络、声码器网络。
在一些可能的方式中,将待训练文本输入前端网络,获取前端网络输出的韵律特征以及音素序列;将待训练文本对应的韵律标签以及音素标签输入声学模型网络,获取声学模型网络输出的声学特征;将声学模型网络输出的声学特征输入声码器网络获取声码器网络输出的音频波形;根据前端网络输出的韵律特征与待训练文本对应的韵律标签,以及前端网络输出的音素序列与待训练文本对应的音素标签构建第一损失函数;根据声码器网络输出的音频波形与待训练文本对应的合成语音的音频波形构建第二损失函数;基于第一损失函数和第二损失函数,调整语音合成网络的网络参数。
在本公开实施例提供的语音合成方法中,前端网络、声学模型网络、声码器网络串行组成一个端到端训练和端到端推理的语音合成网络,向语音合成网络提供文本,就可以直接获取该文本对应的合成语音的音频波形,而不需要用户或工程师进行其他处理,减少了人力物力的浪费,对用户和工程师来说,也更加友好和高效。
同时,通过前端网络获取待合成文本的韵律特征,声学模型网络学习文本待合成文本的韵律特征,增强了合成语音的韵律感,减少了合成语音的机械感,提升了获取的合成语音的质量,进一步提升了用户体验。
下面对本公开实施例提供的语音合成方法进行具体介绍。
如上所述,在一些可能的实现方式中,可以基于预设的规则,对待合成文本进行分句、分词、词性标注处理,获取待合成文本对应的多个文本词汇,基于前端模型,根据待合成文本对应的多个文本词汇获取待合成文本对应的韵律特征和音素序列,并基于预测的规则对获取的音素序列中的音素进行变调处理,最终确定待合成文本对应的音素序列。
图2示出了本公开实施例提供的一种语音合成方法中基于预设的规则和前端模型获取待合成文本的韵律特征以及待合成文本的音素序列步骤的流程示意图,如图2中所示,该步骤主要可以包括:
在步骤S210中,对待合成文本进行文本正则化处理,获取待合成文本对应的正则化文本;
在步骤S220中,根据正则化文本,确定待合成文本对应的多个文本词汇;
在步骤S230中,基于前端网络,根据待合成文本对应的多个文本词汇获取韵律特征以及音素序列;
在步骤S240中,对音素序列进行变调处理。
在一些可能的实现方式中,在步骤S210中,对待合成文本进行文本正则化处理可以是将待合成文本中的各种非标准类型的文本转换为纯文本输入。
在一些可能的实现方式中,将获取的纯文本输入确定为待合成文本对应的正则化文本。
在一些具体的实现方式中,使用纯规则的方式完成文本正则化,文本正则化单元的原始输入和正则化输出示例如下表所示。
Figure BDA0004081511150000101
在一些可能的实现方式中,在步骤S220中,根据待合成文本对应正则化文本确定待合成文本对应的多个文本词汇,可以是基于预设的规则,将正则化文本划分为至少一个文本语句;基于预设的规则,将文本语句划分为多个文本词汇。
在一些可能的实现方式中,基于预设的规则,将正则化文本划分为至少一个文本语句,可以是按照标点符号或其他规则,将正则化文本进行分句,获取待合成文本对应的文本语句。
在一些可能的实现方式中,基于预设的规则,将文本语句划分为多个文本词汇可以是对文本语句进行分词处理,将文本语句划分为多个文本词汇。
在一些可能的实现方式中,前端网络包括特征提取子网络、韵律预测子网络、字音转换子网络。
其中,特征提取子网络是用于提取语义特征;韵律预测子网络是用于生成韵律特征的神经网络;字音转换子网络是用于生成音素序列的神经网络。
在一些可能的实现方式中,韵律特征包括待合成文本对应的韵律层级序列;在一些可能的实现方式中,韵律层级为韵律词、韵律短语、语调短语、句末中的一种。
在一些可能的实现方式中,待合成文本对应的音素序列可以是按照顺序排列的待合成文本中每一个字对应的音素的集合。
在一些可能的实现方式中,在步骤S230中,基于前端网络,根据待合成文本对应的多个文本词汇获取韵律特征以及音素序列可以包括:将待合成文本对应的多个文本词汇输入特征提取子网络,获取待合成文本对应的语义特征;将语义特征输入韵律预测子网络,获取韵律特征;将语义特征输入字音转换子网络,获取音素序列。
在一些可能的实现方式中,特征提取子网络可以是ERNIE(EnhancedRepresentation from kNowledge IntEgration,知识增强语义表示)网络。
在一些可能的实现方式中,ERNIE网络之后可以同时并行接多个子任务对应的子神经网络,如韵律预测子网络、字音转换子网络。
相比于串行连接的方式,并行执行多个子任务(如韵律预测、字音转换),不仅可以提升处理的速度,还可以避免子任务间的相互依赖、相互影响,如韵律预测任务和字音转换任务间相互影响,提升韵律预测任务和字音转换任务的准确度和效率等,进而提升了获取的韵律特征和音素序列的准确性,提升语音合成的准确性。
同时,将韵律预测任务、字音转换任务与分句、分词、变调等任务串行处理,相当于对特征提取子网络的输入进行预处理,提升了特征提取子网络的输入的质量,进而提升了提取的语义特征的质量,也就提升了获取的韵律特征和音素序列的准确性,提升语音合成的准确性。
需要强调的是,在相关技术中,韵律预测任务与字音转换任务,以及与分句、分词、变调等任务的前后关系并没有一致结论,经过多组对照试验,在韵律预测任务与字音转换任务,以及与分句、分词、变调等任务的前后关系如本公开实施例提供的语音合成方法所示时,语音合成任务的性能和效果能够达到最优。
在一些可能的实现方式中,可以利用标贝和AISHLL3的文本语料作为训练集对特征提取子网络和韵律预测子网络进行预训练。
在一些可能的实现方式中,字音转换子网络可以是可以是G2P(Grapheme-to-Phoneme,文本转换音素)转换网络。
在一些可能的实现方式中,字音转换子网络可以包括多音字预测子网络;多音字预测子网络用于根据待合成文本的语义特征获取待合成文本中的多音字,并确定这些多音字对应的音素。
在一些可能的实现方式中,将语义特征输入字音转换子网络,获取音素序列,可以包括:将语义特征输入字音转换子网络,确定待合成文本中的多音字,并确定多音字对应的音素。
通过多音字预测子网络可以预测文本信息中的多音字对应的音素,提升多音字对应的音素的准确性,进而提升多音字对应的合成语音的准确性。
在一些可能的实现方式中,在步骤S240中,对音素序列进行变调处理可以是基于预设的规则,对音素序列进行变调处理。
变调是指汉语的音节在连续发出时,其中有一些音节的调值会受到后面的音调声调的影响,从而发生改变的现象。
变调处理是是将声调变化之方法使用于字词音节并合上的处理。
文本正则化、分句处理、分词处理、变调处理都是规则简单且明确的文本处理,相比于使用神经网络对待合成文本进行文本正则化、分句处理、分词处理、变调处理,基于规则对待合成文本进行文本正则化、分句处理、分词处理、变调处理获取的结果的准确性并不低,但实现要更加简单,占用的资源更少,且处理效率也更高。
而基于规则进行韵律预测和多音字预测获取的结果的准确性要远低于使用神经网络进行韵律预测和多音字预测获取的结果的准确性,因此,综合来说,基于规则对待合成文本进行文本正则化、分句处理、分词处理、变调处理,使用神经网络进行韵律预测和多音字预测可以在保证准确性的基础上,减少资源的占用,提升处理的效率。
下面以一个具体的例子展示本公开实施例提供的语音合成方法中如何采用前端网络获取待合成文本的韵律特征以及待合成文本对应的音素序列。
在原始输入,即待合成文本为“全国一共有112所211高校”的情况下,对待合成文本进行正则化处理,获取的正则化文本为“全国一共有一百一十二所二一一高校”;对正则化文本进行分句,获取的文本语句为“全国一共有一百一十二所二一一高校”(由于原始输入是一个句子,因此获取的文本语句和正则化文本没有区别);对文本语句进行分词,获取的文本词汇为“全国/一共/有/一百一十二/所/二一一/高校/”,其中,/为分割符,也就是说,输入被分割成了“全国”、“一共”、“一百一十二”、“所”、“二一一”、“高校”等多个文本词汇;基于前端网络,获取的音素序列“quan2 guo2 yi2 gong4 you3 yi4 bai3 yi1 shi2er4 suo3 er4 yao1 yao1 gao1 xiao4”,获取的韵律层级“全国#2一共有#2一百#1一十二所#2二一一#1高校#4”,其中,#1韵律词,#2韵律短语,#3语调短语,#4句末。
在一些可能的实现方式中,声学模型网络可以是任何可以根据韵律特征以及音素序列,获取待合成文本的声学特征的神经网络。
在一些具体的实现方式中,声学模型网络可以是非自回归的FastSpeech2(快速语音)网络。
FastSpeech2模型由Phoneme Embedding(音素嵌入),Encoder(编码器),Varianceadaptor(可变信息适配器),Mel-spectrogram(梅尔谱)等几个部分组成。其中,PhonemeEmbedding和Encoder是提取对应的音素特征,Variance adaptor对于音素特征进行时长、音高和能量的预测和处理,然后将这些特征送入到Decoder(解码器)中合成Mel谱。
任何可以实现功能的模块都可以用于本公开实施例,因此,本公开实施例不对Phoneme Embedding,Encoder,Variance adaptor,Mel-spectrogram的结构进行限制。
在一些可能的实现方式中,待合成文本对应的声学特征可以是待合成文本对应的Mel(梅尔)谱。
在一些可能的实现方式中,可以使用MFA(Montreal-Forced-Aligner,语音强制对齐器)对齐出标贝语料带时长的韵律标签,然后又利用原始语料的#1-4设计了标签不带时长的版本,分别使用标签带时长的训练数据以及标签不带时长的训练数据对FastSpeech2进行训练。
在一些具体的实现方式中,由于使用标签带时长的训练数据对FastSpeech2进行训练获取的声学模型网络的效果更好,因此,使用标签带时长的训练数据对FastSpeech2进行预先训练,获取声学模型网络。
在一些可能的实现方式中,可以将声学模型网络(如FastSpeech2)的LN(LayerNormalization,层归一化)层使用可学习的自适应Tensor(张量),即自适应参数代替,该Tensor在声学模型网络的训练过程中也在变化,该Tensor在声学模型网络的训练的过程中,会自动朝着损失函数最优的角度去变化。
图3示出了将声学模型网络(如FastSpeech2)的LN层使用可学习的自适应Tensor代替后,采用声学模型网络根据韵律特征以及音素序列获取待合成文本对应的声学特征步骤的流程示意图,如图3中所示,该步骤具体包括:
在步骤S310中,将韵律特征以及音素序列输入声学模型网络获取声学模型网络的神经网络层输出的特征;
在步骤S320中,使用自适应参数对声学模型网络的神经网络层输出的特征进行归一化处理,根据归一化处理后的特征确定待合成文本的声学特征。
在一些可能的实现方式中,在步骤S310中,获取声学模型网络的神经网络层输出的特征可以是获取与自适应参数相连的神经网络层输出的特征,也就是说,原FastSpeech2中与LN层相连的神经网络层输出的特征。
在一些可能的实现方式中,自适应参数可以是均值方差参数,其可以用于对神经网络层输出的特征进行归一化处理。
在一些可能的实现方式中,在步骤S320中,根据归一化处理后的特征确定待合成文本的声学特征可以是获取LN层被可学习的自适应Tensor代替的声学模型网络的输出作为待合成文本的声学特征。
通过使用自适应参数对其连接的神经网络层输出的特征进行自适应的归一化处理,可以是声学网络模型的学习更加灵活,使声学网络模型可以在语音合成任务中表现更佳。
同时,LN层被可学习的自适应Tensor代替的声学模型网络可以灵活对带时长的韵律标签和不带时长的韵律标签进行处理,使得声学模型网络的使用范围更广,更利用声学模型网络的应用。
在一些可能的实现方式中,声码器网络可以是任何可以实现根据声学特征获取音频波形的神经网络。
在一些具体的实现方式中,声码器网络可以是预先训练的Multi-band MelGAN(多波段梅尔对抗网络)。
Multi-band MelGAN模型主体结构分为两个部分,Generator(生成器)与Discriminator(判别器),Generator的输入为Mel谱,输出为音频波形,Discriminator用于判别Generator生成的音频波形是否为真,根据Discriminator的判别结果对Generator进行训练。
其中,Generator生成的音频波形在输入Discriminator之前,需要通过Avg Pool(平均池化)来获取不同带宽的音频波形,并将不同带宽的音频波形送入Analysis FilterBank(分析滤波器组)进行处理,如对高频部分进行抑制,对重叠部分进行处理等,获取处理后的不同带宽的音频波形输入Discriminator。
Generator主体部分由Conv1D(一维卷积层),Upsample(上采样层),ResidualBlock(残差块),Conv1D Tanh(一维卷积加双曲正切层)等模块组成,这些模块都是深度学习中的常用模块,在此不再进行具体解释。
在Multi-band MelGAN模型的推理过程中是需要使用训练好的生成器,不需要使用判别器。
在一些可能的实现方式中,声码器网络输出的音频波形可以用于合成对应的语音,并提供给播放装置播放语音,以供用户获取待合成文本对应的合成语音。
在一些具体的实现方式中,播放装置可以是具体播放功能的装置,如智能音箱等。
图4示出了本公开实施例提供的一种网络训练方法的流程示意图,如图4中所示,该方法包括:
在步骤S410中,将待训练文本输入前端网络,获取前端网络输出的韵律特征以及音素序列;
在步骤S420中,将待训练文本对应的韵律标签以及音素标签输入声学模型网络,获取声学模型网络输出的声学特征;将声学模型网络输出的声学特征输入声码器网络获取声码器网络输出的音频波形;
在步骤S430中,根据前端网络输出的韵律特征与待训练文本对应的韵律标签,以及前端网络输出的音素序列与待训练文本对应的音素标签构建第一损失函数;
在步骤S440中,根据声码器网络输出的音频波形与待训练文本对应的合成语音的音频波形构建第二损失函数;
在步骤S450中,基于第一损失函数和第二损失函数,调整语音合成网络的网络参数。
其中,前端网络、声学模型网络、声码器网络串行组成语音合成网络,前端网络是生成韵律特征和音素序列的神经网络,声学模型网络是生成声学特征的神经网络,声码器网络是生成音频波形的神经网络。
举例来说,在步骤S410中,待训练文本可以是标贝和AISHLL3的文本语料文本。
在一些可能的实现方式中,待训练文本对应的韵律标签可以是待训练文本对应的韵律层级的标签。
下表为标贝(csmsc)和AISHELL3的文本语料的韵律层级以及对应的标签。
ryh_token csmsc aishll3
#1
` #2
ˉ #3
$ #4 $
其中,标贝分4种韵律层级,即#1韵律词,#2韵律短语,#3语调短语,#4句末,而AISHELL3分为2种韵律层级,即#1韵律词和#4句末,rhy_token是个对应不同韵律层级的特殊占位符,rhy_token是真正训练和预测时的标签,然后用这个映射还原出对应的韵律层级。
也就是说,在训练过程中,标签%代表韵律词,标签`代表韵律短语,标签ˉ代表语调短语,标签$代表句末。
待训练文本对应的音素标签可以是按照顺序排列的待训练文本中每一个字实际对应的音素的标签的集合。
在一些可能的实现方式中,前端网络包括特征提取子网络、韵律预测子网络、字音转换子网络。
其中,特征提取子网络是用于提取语义特征的神经网络;韵律预测网络是用于生成韵律特征的神经网络;字音转换子网络是用于生成音素序列的神经网络。
在一些可能的实现方式中,将待训练文本输入前端网络,获取前端网络输出的韵律特征以及音素序列可以包括:获取待训练文本对应的多个文本词汇,将待训练文本对应的多个文本词汇输入特征提取子网络,获取待训练文本对应的语义特征;将语义特征输入韵律预测子网络,获取韵律特征;将语义特征输入字音转换子网络,获取音素序列。
在一些可能的实现方式中,特征提取子网络可以是ERNIE(EnhancedRepresentation from kNowledge IntEgration,知识增强语义表示)网络。
在一些可能的实现方式中,ERNIE网络之后可以同时并行接多个子任务对应的子神经网络,如韵律预测子网络、字音转换子网络。
在一些可能的实现方式中,在步骤S420中,可以使用MFA对齐出待训练文本的带时长的韵律标签,利用带时长的韵律标签来对语音合成模型进行训练。
在一些具体的实现方式中,使用MFA,确定待训练文本的韵律标签对应的时长信息;将待训练文本对应的韵律标签、待训练文本对应的音素标签以及待训练文本的韵律标签对应的时长信息输入声学模型网络,获取声学模型网络输出的声学特征。
在一些可能的实现方式中,将待训练文本对应的韵律标签以及音素标签融合在一起对语音合成模型进行训练。
在一些具体的实现方式中,将待训练文本对应的韵律标签以及待训练文本对应的音素标签输入声学模型网络获取训练融合特征;基于训练融合特征,获取声学模型网络输出的声学特征。
在一些可能的实现方式中,将待训练文本对应的韵律标签以及待训练文本对应的音素标签分别提取特征,然后对提取的特征进行融合,对语音合成模型进行训练。
在一些具体的实现方式中,将待训练文本对应的韵律标签输入声学模型网络获取训练韵律特征;将待训练文本对应的音素标签输入声学模型网络获取训练音素特征;将训练韵律特征以及训练音素特征进行特征融合,基于融合后的特征,获取声学模型网络输出的声学特征。
经过多组对比试验,这三种不同的训练方式中,使用MFA对齐出待训练文本的带时长的韵律标签,利用带时长的韵律标签来对语音合成模型进行训练获取的语音合成模型的效果更好。
在一些可能的实现方式中,在步骤S450中,基于第一损失函数和第二损失函数,调整语音合成网络的网络参数,可以包括:基于第一损失函数,调整前端网络的网络参数;基于第二损失函数,调整声学模型网络以及声码器网络的网络参数。
也就是说,语音合成模型端到端的训练过程可以是将待训练文本送入到前端网络,获取前端网络预测的韵律特征与音素序列,然后根据待训练文本真实的韵律标签以及音素序列与前端网络的预测做损失对齐,构建第一损失函数;同时将待训练文本真实的韵律标签以及音素序列送入串行的声学模型网络和声码器网络,获取声码器网络预测的音频波形,然后将该音频语音与真实的合成语音的音频波形进行损失对齐,构建第二损失函数;根据第一损失函数,通过反向传播,对前端网络的网络参数进行修改;根据第二损失函数,通过反向传播,对声学模型网络和声码器网络的网络参数进行修改。
在一些可能的实现方式中,可以将第一损失函数与第二损失函数的和作为总的损失函数,通过总的损失函数对语音合成网络的所有网络参数进行调整。
在一些可能的实现方式中,声学模型网络可以是任何可以生成声学特征的神经网络。
在一些具体的实现方式中,声学模型网络可以是非自回归的FastSpeech2(快速语音)网络。
FastSpeech2模型由Phoneme Embedding,Encoder,Variance adaptor,Mel-spectrogram等几个部分组成。其中,Phoneme Embedding和Encoder是提取对应的音素特征,Variance adaptor对于音素特征进行时长、音高和能量的预测和处理,然后将这些特征送入到Decoder中合成Mel谱。
任何可以实现功能的模块都可以用于本公开实施例,因此,本公开实施例不对Phoneme Embedding,Encoder,Variance adaptor,Mel-spectrogram的结构进行限制。
在一些可能的实现方式中,可以将声学模型网络(如FastSpeech2)的LN(LayerNormalization,层归一化)层使用可学习的自适应Tensor(张量),即自适应参数代替,该Tensor在声学模型网络的训练过程中也在变化,该Tensor在声学模型网络的训练的过程中,会自动朝着损失函数最优的角度去变化。
在一些可能的实现方式中,将待训练文本对应的韵律标签以及音素标签输入声学模型网络,获取声学模型网络输出的声学特征,可以包括:将待训练文本对应的韵律标签以及音素标签输入声学模型网络获取声学模型网络的神经网络层输出的特征;使用自适应参数对声学模型网络的神经网络层输出的特征进行归一化处理,根据归一化处理后的特征获取声学模型网络输出的声学特征。
在一些可能的实现方式中,获取声学模型网络的神经网络层输出的特征可以是获取与自适应参数相连的神经网络层输出的特征,也就是说,原FastSpeech2中与LN层相连的神经网络层输出的特征。
在一些可能的实现方式中,自适应参数可以是均值方差参数,其可以用于对神经网络层输出的特征进行归一化处理。
在一些可能的实现方式中,根据归一化处理后的特征确定待合成文本的声学特征可以是获取LN层被可学习的自适应Tensor代替的声学模型网络的输出作为待合成文本的声学特征。
通过使用自适应参数对其连接的神经网络层输出的特征进行自适应的归一化处理,可以是声学网络模型的学习更加灵活,使声学网络模型可以在语音合成任务中表现更佳。
同时,LN层被可学习的自适应Tensor代替的声学模型网络可以灵活对带时长的韵律标签和不带时长的韵律标签进行处理,使得声学模型网络的使用范围更广,更利用声学模型网络的应用。
在一些可能的实现方式中,声码器网络可以是任何可以生成音频波形的神经网络。
在一些具体的实现方式中,声码器网络可以是预先训练的Multi-band MelGAN(多波段梅尔对抗网络)。
Multi-band MelGAN模型主体结构分为两个部分,Generator(生成器)与Discriminator(判别器),Generator的输入为Mel谱,输出为音频波形,Discriminator用于判别Generator生成的音频波形是否为真,根据Discriminator的判别结果对Generator进行训练。
其中,Generator生成的音频波形在输入Discriminator之前,需要通过Avg Pool(平均池化)来获取不同带宽的音频波形,并将不同带宽的音频波形送入Analysis FilterBank进行处理,如对高频部分进行抑制,对重叠部分进行处理等,获取处理后的不同带宽的音频波形输入Discriminator。
Generator主体部分由Conv1D,Upsample,Residual Block,Conv1DTanh等模块组成,这些模块都是深度学习中的常用模块,在此不再进行具体解释。
在本公开实施例提供的网络训练方法中,前端网络、声学模型网络、声码器网络串行组成语音合成网络,实现了语音合成网络的端到端训练,也就是说,语音合成网络的训练过程中只需待训练文本以及对应的标签,而不需要进行其他处理,使语音合成网络的训练更加方便,减少了不同的处理过程中信息传递造成的资源浪费。
同时,通过前端网络获取待合成文本的韵律特征,声学模型网络学习文本待合成文本的韵律特征,增强了合成语音的韵律感,降低训练得到的模型生成的语音的机械感,提升了生成的语音的质量。
基于与图1中所示的方法相同的原理,图5示出了本公开实施例提供的一种语音合成装置的结构示意图,如图5所示,该语音合成装置50可以包括:
文本前端模块501,用于响应于接收到待合成文本,采用前端网络获取待合成文本的韵律特征以及待合成文本对应的音素序列;
声学模型模块502,用于采用声学模型网络根据韵律特征以及音素序列获取待合成文本对应的声学特征;
声码器模块503,用于采用声码器网络根据声学特征获取待合成文本对应的合成语音的音频波形;
其中,前端网络是生成韵律特征和音素序列的神经网络,声学模型网络是生成声学特征的神经网络,声码器网络是生成音频波形的神经网络;前端网络、声学模型网络、声码器网络串行组成语音合成网络;前端网络、声学模型网络、声码器网络是通过对语音合成网络预先进行端到端训练获取的。
在本公开实施例提供的语音合成装置中,前端网络、声学模型网络、声码器网络串行组成一个端到端训练和端到端推理的语音合成网络,向语音合成网络提供文本,就可以直接获取该文本对应的合成语音的音频波形,而不需要用户或工程师进行其他处理,减少了人力物力的浪费,对用户和工程师来说,也更加友好和高效。
同时,通过前端网络获取待合成文本的韵律特征,声学模型网络学习文本待合成文本的韵律特征,增强了合成语音的韵律感,减少了合成语音的机械感,提升了获取的合成语音的质量,进一步提升了用户体验。
可以理解的是,本公开实施例中的语音合成装置的上述各模块具有实现图1中所示的实施例中的语音合成方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述语音合成装置的各模块的功能描述具体可以参见图1中所示实施例中的语音合成方法的对应描述,在此不再赘述。
基于与图4中所示的方法相同的原理,图6示出了本公开实施例提供的一种网络训练装置的结构示意图,如图6所示,该网络训练装置60用于对语音合成网络进行训练,语音合成网络包括串行连接的前端网络、声学模型网络、声码器网络,前端网络是生成韵律特征和音素序列的神经网络,声学模型网络是生成声学特征的神经网络,声码器网络是生成音频波形的神经网络,该网络训练装置60可以包括:
前端训练模块601,用于将待训练文本输入前端网络,获取前端网络输出的韵律特征以及音素序列;
声学训练模块602,用于将待训练文本对应的韵律标签以及音素标签输入声学模型网络,获取声学模型网络输出的声学特征;将声学模型网络输出的声学特征输入声码器网络获取声码器网络输出的音频波形;
第一损失模块603,用于根据前端网络输出的韵律特征与待训练文本对应的韵律标签,以及前端网络输出的音素序列与待训练文本对应的音素标签构建第一损失函数;
第二损失模块604,用于根据声码器网络输出的音频波形与待训练文本对应的合成语音的音频波形构建第二损失函数;
反向传播模块605,用于基于第一损失函数和第二损失函数,调整语音合成网络的网络参数。
在本公开实施例提供的网络训练装置中,前端网络、声学模型网络、声码器网络串行组成语音合成网络,实现了语音合成网络的端到端训练,也就是说,语音合成网络的训练过程中只需待训练文本以及对应的标签,而不需要进行其他处理,使语音合成网络的训练更加方便,减少了不同的处理过程中信息传递造成的资源浪费。
同时,通过前端网络获取待合成文本的韵律特征,声学模型网络学习文本待合成文本的韵律特征,增强了合成语音的韵律感,降低训练得到的模型生成的语音的机械感,提升了生成的语音的质量。
可以理解的是,本公开实施例中的网络训练装置的上述各模块具有实现图4中所示的实施例中的网络训练方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述网络训练装置的各模块的功能描述具体可以参见图4中所示实施例中的网络训练方法的对应描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例提供的语音合成方法和网络训练方法。
该电子设备与现有技术相比,前端网络、声学模型网络、声码器网络串行组成一个端到端训练和端到端推理的语音合成网络,向语音合成网络提供文本,就可以直接获取该文本对应的合成语音的音频波形,而不需要用户或工程师进行其他处理,减少了人力物力的浪费,对用户和工程师来说,也更加友好和高效。
同时,通过前端网络获取待合成文本的韵律特征,声学模型网络学习文本待合成文本的韵律特征,增强了合成语音的韵律感,减少了合成语音的机械感,提升了获取的合成语音的质量,进一步提升了用户体验。
该可读存储介质为存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例提供的语音合成方法和网络训练方法。
该可读存储介质与现有技术相比,前端网络、声学模型网络、声码器网络串行组成一个端到端训练和端到端推理的语音合成网络,向语音合成网络提供文本,就可以直接获取该文本对应的合成语音的音频波形,而不需要用户或工程师进行其他处理,减少了人力物力的浪费,对用户和工程师来说,也更加友好和高效。
同时,通过前端网络获取待合成文本的韵律特征,声学模型网络学习文本待合成文本的韵律特征,增强了合成语音的韵律感,减少了合成语音的机械感,提升了获取的合成语音的质量,进一步提升了用户体验。
该计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例提供的语音合成方法和网络训练方法。
该计算机程序产品与现有技术相比,前端网络、声学模型网络、声码器网络串行组成一个端到端训练和端到端推理的语音合成网络,向语音合成网络提供文本,就可以直接获取该文本对应的合成语音的音频波形,而不需要用户或工程师进行其他处理,减少了人力物力的浪费,对用户和工程师来说,也更加友好和高效。
同时,通过前端网络获取待合成文本的韵律特征,声学模型网络学习文本待合成文本的韵律特征,增强了合成语音的韵律感,减少了合成语音的机械感,提升了获取的合成语音的质量,进一步提升了用户体验。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,电子设备700包括计算单元710,其可以根据存储在只读存储器(ROM)720中的计算机程序或者从存储单元780加载到随机访问存储器(RAM)730中的计算机程序,来执行各种适当的动作和处理。在RAM 730中,还可存储设备700操作所需的各种程序和数据。计算单元710、ROM 720以及RAM 730通过总线740彼此相连。输入/输出(I/O)接口750也连接至总线740。
设备700中的多个部件连接至I/O接口750,包括:输入单元760,例如键盘、鼠标等;输出单元770,例如各种类型的显示器、扬声器等;存储单元780,例如磁盘、光盘等;以及通信单元790,例如网卡、调制解调器、无线通信收发机等。通信单元790允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元710可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元710的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元710执行本公开实施例中所提供的语音合成方法和网络训练方法。例如,在一些实施例中,执行本公开实施例中所提供的语音合成方法和网络训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元780。在一些实施例中,计算机程序的部分或者全部可以经由ROM 720和/或通信单元790而被载入和/或安装到设备700上。当计算机程序加载到RAM 730并由计算单元710执行时,可以执行本公开实施例中所提供的语音合成方法和网络训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元710可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开实施例中所提供的语音合成方法和网络训练方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他音素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种语音合成方法,包括:
响应于接收到待合成文本,采用前端网络获取所述待合成文本的韵律特征以及所述待合成文本对应的音素序列;
采用声学模型网络根据所述韵律特征以及所述音素序列获取所述待合成文本对应的声学特征;
采用声码器网络根据所述声学特征获取所述待合成文本对应的合成语音的音频波形;
其中,所述前端网络是生成韵律特征和音素序列的神经网络,所述声学模型网络是生成声学特征的神经网络,所述声码器网络是生成音频波形的神经网络;所述前端网络、所述声学模型网络、所述声码器网络串行组成语音合成网络;所述前端网络、所述声学模型网络、所述声码器网络是通过对所述语音合成网络预先进行端到端训练获取的。
2.根据权利要求1所述的方法,其中,所述采用前端网络获取所述待合成文本的韵律特征以及所述待合成文本对应的音素序列,包括:
对所述待合成文本进行文本正则化处理,获取所述待合成文本对应的正则化文本;
根据所述正则化文本,确定所述待合成文本对应的多个文本词汇;
基于所述前端网络,根据所述待合成文本对应的多个文本词汇获取所述韵律特征以及所述音素序列;
对所述音素序列进行变调处理。
3.根据权利要求2所述的方法,其中,所述前端网络包括特征提取子网络、韵律预测子网络、字音转换子网络;
所述基于所述前端网络,根据所述待合成文本对应的多个文本词汇获取所述韵律特征以及所述音素序列包括:
将所述待合成文本对应的多个文本词汇输入所述特征提取子网络,获取所述待合成文本对应的语义特征;
将所述语义特征输入所述韵律预测子网络,获取所述韵律特征;所述韵律特征包括所述待合成文本对应的韵律层级序列;
将所述语义特征输入所述字音转换子网络,获取所述音素序列。
4.根据权利要求3所述的方法,其中,所述将所述语义特征输入所述字音转换子网络,获取所述音素序列,包括:
将所述语义特征输入所述字音转换子网络,确定所述待合成文本中的多音字,并确定所述多音字对应的音素。
5.根据权利要求2所述的方法,其中,
所述根据所述正则化文本,确定所述待合成文本对应的多个文本词汇,包括:
基于预设的规则,将所述正则化文本划分为至少一个文本语句;
基于预设的规则,将所述文本语句划分为多个文本词汇;
所述对所述音素序列进行变调处理,包括:
基于预设的规则,对所述音素序列进行变调处理。
6.根据权利要求1所述的方法,其中,所述声学模型网络的网络参数包括自适应参数;
所述采用声学模型网络根据所述韵律特征以及所述音素序列获取所述待合成文本对应的声学特征,包括:
将所述韵律特征以及所述音素序列输入所述声学模型网络获取所述声学模型网络的神经网络层输出的特征;
使用自适应参数对所述声学模型网络的神经网络层输出的特征进行归一化处理,根据归一化处理后的特征确定所述待合成文本的声学特征。
7.一种网络训练方法,用于对语音合成网络进行训练,所述语音合成网络包括串行连接的前端网络、声学模型网络、声码器网络,所述前端网络是生成韵律特征和音素序列的神经网络,所述声学模型网络是生成声学特征的神经网络,所述声码器网络是生成音频波形的神经网络,所述方法包括:
将待训练文本输入所述前端网络,获取所述前端网络输出的韵律特征以及音素序列;
将所述待训练文本对应的韵律标签以及音素标签输入所述声学模型网络,获取所述声学模型网络输出的声学特征;将所述声学模型网络输出的声学特征输入所述声码器网络获取所述声码器网络输出的音频波形;
根据所述前端网络输出的韵律特征与所述待训练文本对应的韵律标签,以及所述前端网络输出的音素序列与所述待训练文本对应的音素标签构建第一损失函数;
根据所述声码器网络输出的音频波形与所述待训练文本对应的合成语音的音频波形构建第二损失函数;
基于所述第一损失函数和所述第二损失函数,调整所述语音合成网络的网络参数。
8.根据权利要求7所述的方法,其中,所述将所述待训练文本对应的韵律标签以及音素标签输入所述声学模型网络,获取所述声学模型网络输出的声学特征,包括:
使用语音强制对齐器,确定所述待训练文本的韵律标签对应的时长信息;
将所述待训练文本对应的韵律标签、所述待训练文本对应的音素标签以及所述待训练文本的韵律标签对应的时长信息输入所述声学模型网络,获取所述声学模型网络输出的声学特征。
9.根据权利要求7所述的方法,其中,所述将所述待训练文本对应的韵律标签以及音素标签输入所述声学模型网络,获取所述声学模型网络输出的声学特征,包括:
将所述待训练文本对应的韵律标签输入所述声学模型网络获取训练韵律特征;
将所述待训练文本对应的音素标签输入所述声学模型网络获取训练音素特征;
将所述训练韵律特征以及所述训练音素特征进行特征融合,基于融合后的特征,获取所述声学模型网络输出的声学特征。
10.根据权利要求7所述的方法,其中,所述将所述待训练文本对应的韵律标签以及音素标签输入所述声学模型网络,获取所述声学模型网络输出的声学特征,包括:
将所述待训练文本对应的韵律标签以及所述待训练文本对应的音素标签输入所述声学模型网络获取训练融合特征;
基于所述训练融合特征,获取所述声学模型网络输出的声学特征。
11.根据权利要求7所述的方法,其中,所述声学模型网络的网络参数包括自适应参数;
所述将所述待训练文本对应的韵律标签以及音素标签输入所述声学模型网络,获取所述声学模型网络输出的声学特征,包括:
将所述待训练文本对应的韵律标签以及音素标签输入所述声学模型网络获取所述声学模型网络的神经网络层输出的特征;
使用自适应参数对所述声学模型网络的神经网络层输出的特征进行归一化处理,根据归一化处理后的特征获取所述声学模型网络输出的声学特征。
12.根据权利要求7所述的方法,其中,所述基于所述第一损失函数和所述第二损失函数,调整所述语音合成网络的网络参数,包括:
基于所述第一损失函数,调整所述前端网络的网络参数;
基于所述第二损失函数,调整所述声学模型网络以及所述声码器网络的网络参数。
13.一种语音合成装置,包括:
文本前端模块,用于响应于接收到待合成文本,采用前端网络获取所述待合成文本的韵律特征以及所述待合成文本对应的音素序列;
声学模型模块,用于采用声学模型网络根据所述韵律特征以及所述音素序列获取所述待合成文本对应的声学特征;
声码器模块,用于采用声码器网络根据所述声学特征获取所述待合成文本对应的合成语音的音频波形;
其中,所述前端网络是生成韵律特征和音素序列的神经网络,所述声学模型网络是生成声学特征的神经网络,所述声码器网络是生成音频波形的神经网络;所述前端网络、所述声学模型网络、所述声码器网络串行组成语音合成网络;所述前端网络、所述声学模型网络、所述声码器网络是通过对所述语音合成网络预先进行端到端训练获取的。
14.一种网络训练装置,用于对语音合成网络进行训练,所述语音合成网络包括串行连接的前端网络、声学模型网络、声码器网络,所述前端网络是生成韵律特征和音素序列的神经网络,所述声学模型网络是生成声学特征的神经网络,所述声码器网络是生成音频波形的神经网络,所述装置包括:
前端训练模块,用于将待训练文本输入所述前端网络,获取所述前端网络输出的韵律特征以及音素序列;
声学训练模块,用于将所述待训练文本对应的韵律标签以及音素标签输入所述声学模型网络,获取所述声学模型网络输出的声学特征;将所述声学模型网络输出的声学特征输入所述声码器网络获取所述声码器网络输出的音频波形;
第一损失模块,用于根据所述前端网络输出的韵律特征与所述待训练文本对应的韵律标签,以及所述前端网络输出的音素序列与所述待训练文本对应的音素标签构建第一损失函数;
第二损失模块,用于根据所述声码器网络输出的音频波形与所述待训练文本对应的合成语音的音频波形构建第二损失函数;
反向传播模块,用于基于所述第一损失函数和所述第二损失函数,调整所述语音合成网络的网络参数。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的语音合成方法以及权利要求7-12中任一项所述的网络训练方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的语音合成方法以及权利要求7-12中任一项所述的网络训练方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的语音合成方法以及权利要求7-12中任一项所述的网络训练方法。
CN202310124566.4A 2023-02-16 2023-02-16 语音合成方法、网络训练方法、装置、设备及存储介质 Pending CN116129866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310124566.4A CN116129866A (zh) 2023-02-16 2023-02-16 语音合成方法、网络训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310124566.4A CN116129866A (zh) 2023-02-16 2023-02-16 语音合成方法、网络训练方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116129866A true CN116129866A (zh) 2023-05-16

Family

ID=86307959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310124566.4A Pending CN116129866A (zh) 2023-02-16 2023-02-16 语音合成方法、网络训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116129866A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682413A (zh) * 2023-07-12 2023-09-01 内蒙古工业大学 一种基于Conformer和MelGAN的蒙古语语音合成方法
CN118053416A (zh) * 2024-03-12 2024-05-17 中邮消费金融有限公司 声音定制方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682413A (zh) * 2023-07-12 2023-09-01 内蒙古工业大学 一种基于Conformer和MelGAN的蒙古语语音合成方法
CN118053416A (zh) * 2024-03-12 2024-05-17 中邮消费金融有限公司 声音定制方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及***
CN111210807B (zh) 语音识别模型训练方法、***、移动终端及存储介质
CN115516552A (zh) 使用未说出的文本和语音合成的语音识别
US11488577B2 (en) Training method and apparatus for a speech synthesis model, and storage medium
CN109036371B (zh) 用于语音合成的音频数据生成方法及***
CN114416934B (zh) 多模态的对话生成模型的训练方法、装置及电子设备
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及***
CN116129866A (zh) 语音合成方法、网络训练方法、装置、设备及存储介质
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN114787913A (zh) 训练语音合成以生成不同的语音声音
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN111599339B (zh) 具有高自然度的语音拼接合成方法、***、设备及介质
CN116303966A (zh) 基于提示学习的对话行为识别***
CN113823265A (zh) 一种语音识别方法、装置和计算机设备
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
CN112071299B (zh) 神经网络模型训练方法、音频生成方法及装置和电子设备
CN114550692A (zh) 文本处理及其模型的训练方法、装置、设备和存储介质
CN114613351A (zh) 韵律预测方法、装置、可读介质及电子设备
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品
CN114519094A (zh) 基于随机状态的话术推荐方法、装置及电子设备
CN113763939A (zh) 基于端到端模型的混合语音识别***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination