CN113506562B - 基于声学特征与文本情感特征融合的端到端语音合成方法及*** - Google Patents

基于声学特征与文本情感特征融合的端到端语音合成方法及*** Download PDF

Info

Publication number
CN113506562B
CN113506562B CN202110812076.4A CN202110812076A CN113506562B CN 113506562 B CN113506562 B CN 113506562B CN 202110812076 A CN202110812076 A CN 202110812076A CN 113506562 B CN113506562 B CN 113506562B
Authority
CN
China
Prior art keywords
features
acoustic
phoneme
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110812076.4A
Other languages
English (en)
Other versions
CN113506562A (zh
Inventor
段鹏飞
冯莹
熊盛武
字云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110812076.4A priority Critical patent/CN113506562B/zh
Publication of CN113506562A publication Critical patent/CN113506562A/zh
Application granted granted Critical
Publication of CN113506562B publication Critical patent/CN113506562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于声学特征与文本情感特征融合的端到端语音合成方法及***,构建了端到端语音合成模型,可以根据音素序列的嵌入向量获得文本的韵律隐特征,进行音素与Mel频谱对齐,通过声学编码器从中分别获取音素级和句子级别的声学特征,并在声学特征中加入隐特征,与此同时从文本中获取文本情感特征;再次将声学特征与文本情感特征进行特征融合,输入到FastSpeech2的方差适配器进行特征增强与扩充;最后将方差适配器的输出输入到FastSpeech2的Mel解码器实现并行解码,得到合成语音的频谱图;使用声码器将频谱图特征映射为声音波形,得到合成的语音。本发明在保证效率的同时可以提高语音合成的自然度。

Description

基于声学特征与文本情感特征融合的端到端语音合成方法及 ***
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于声学特征与文本情感特征融合的端到端语音合成方法及***。
背景技术
语音合成(Speech Synthesis),又称文语转换技术是指计算机通过分析将任意文本转化为流畅语音的技术。语音合成作为实现人机语音交互***的核心技术之一;是语音处理技术中一个重要的方向,其应用价值越来越受到重视。语音合成***的质量评价一般分为以下几个方面,自然度,鲁棒性以及生成语音的准确性。在实际的应用场景下,整个***的延迟,计算复杂度以及合成耗时等也都是需要考虑的因素。传统的语音合成技术包括拼接法以及统计参数法。其中,拼接法通过事先录制好大量的语音,合成时根据文本内容选取大量的基本单元连接成流畅的语音,而这种方法对录制的语音有较高覆盖率的要求,所建立的数据库也较为庞大,在实际设备上使用时往往会受到设备容量的限制;统计参数法是根据统计模型来建立文本特征到声学特征的映射,再用这些声学特征还原成波形,此类方法不需要事先录制语音,但是合成语音的质量偏低。这些传统方法都是基于声学特征的分析以及合成来实现,这些方法由于具备鲁棒性强以及准确性强的特点,在工业界被较为广泛地使用。然而,这些方法共通的缺点是合成的语音在自然度上缺陷较大。
近年来,随着深度学习的飞速发展,端到端的语音合成方法越来越多,比起传统的方法,端到端的语音合成合成的语音自然度更高,并且能够直接对文本建模合成谱图,极大的简化了合成的流程。现在主流的方法有两种,一种是基于Google提出的Tacotron2,一种是基于微软浙大联合提出的FastSpeech。
本申请发明人在实施本发明的过程中,发现现有技术中存在如下技术问题:
上述两种模型在结构上有所差异,结构上的差异导致效率效果有所差异。基于Tacotron2的方法由于是自回归的结构,合成语音在自然度上更好,但是很难实现计算的并行,导致合成的效率较低;基于FastSpeech的方法由于是非自回归的结构,在GPU环境下合成效率能提高两个数量级,但是合成语音的自然度不如基于Tacotron2的方法。
由此可知,现有技术中的方法存在合成自然度不高的技术问题。
发明内容
本发明提出一种基于声学特征与文本情感特征融合的端到端语音合成方法及***,用于解决或者至少部分解决现有技术中的方法存在的合成自然度不高的技术问题。
为了解决上述技术问题,本发明第一方面提供了基于声学特征与文本情感特征融合的端到端语音合成方法,包括:
S1:获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据;
S2:构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
S3:将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
S4:利用训练好的端到端语音合成模型进行语音合成。
在一种实施方式中,步骤S2中声学编码器包括音素特征声学编码器和句子特征声学编码器,
音素特征声学编码器用于对音素与Mel频谱进行对齐后的谱图进行特征提取,并在提取过程中加入韵律隐特征,获得音素级别声学特征;
句子特征声学编码器用于根据样本的Mel频谱进行特征提取后加入韵律隐特征,得到句子级别声学特征。
在一种实施方式中,音素编码器为FastSpeech2音素编码器,文本情感特征提取模型为基于LSTM网络的模型,音素特征声学编码器为基于卷积层的声学编码器,句子特征声学编码器为基于卷积层的声学编码器。
在一种实施方式中,音素级别声学特征的提取方式为:
Pt=Aco_encoder1(Pt-1,Ct',ht),Ct'=align(Ct,P),
Ct和P分别表示t时刻的谱图与音素序列,ht表示t时刻的韵律隐特征,Pt为t时刻的音素级别声学特征,align()表示对齐函数,Aco_encoder1为音素级别声学编码器,Pt-1为t-1时刻的音素级别声学特征,Ct'表示对齐后的谱图。
在一种实施方式中,句子级别声学特征的提取方式为:
Ut=Aco_encoder2(Ut-1,Ct)+ht
Ut表示t时刻的句子级别特征,ht表示t时刻的韵律隐特征,Ct为谱图Aco_encoder为句子级别声学编码器,Ut-1表示t-1时刻的句子级别特征。
在一种实施方式中,文本情感特征的提取过程包括:
it=σ(Wiitt+bii+WhiHt-1+bhi),
ft=σ(Wiftt+bif+WhfHt-1+bhf)
gt=tanh(Wigtt+big+WhfHt-1+bhf)
ot=σ(Wiott+bio+WhoHt-1+bho)
ct=ft*ct-1+it*gt
h't=ottanh(ct)
Et=dropout(h't)
其中,tt为文本嵌入后向量,Ht-1为LSTM隐层向量,it为输入门,ft为遗忘门,gt为记忆单元用来备选更新内容,ot为输出门,ct为细胞更新,h't为经过LSTM网络的最后输出,Et为ht经过dropout后输出的文本情感特征,Wii,Whi为输入门和输入门隐藏层的权重,Wif,Whf为遗忘门门和遗忘门隐藏层的权重,Wig为记忆单元权重,Wio,Who为输出门和输出门隐藏层的权重,bhi,bhf,bhf,bho为输入门、遗忘门、记忆单元、输出门的偏置参数,σ(·)为sigmoid()函数。
在一种实施方式中,将声学特征与文本情感特征的融合采用早融合Concat技术,将句子级别声学特征、音素级别声学特征以及文本情感特征进行连接后,输出融合后的特征Tt,融合后的特征输入到方差适配器中,与方差适配器提取的特征Vt进行特征增强和扩充,处理过程包括:
Tt=concat(Pt,Ut,Et)
λ=Beta(α,β)
Vt'=λ×Tt+(1-λ)×Vt+Vt
其中,Tt为通过Concat技术得到的融合后的特征,Pt,Ut,Et分别为音素级别声学特征、句子级别声学特征、文本情感特征,Vt为Fastspeech2中方差适配器中提取的特征,Vt'为方差适配器输出的特征,即融合后的特征与方差适配器提取的特征进行增强和扩充后的特征,λ为经过Beta()函数得到的随机概率,α,β为开始输入参数。
基于同样的发明构思,本发明第二方面提供了基于声学特征与文本情感特征融合的端到端语音合成***,包括:
训练数据获取模块,用于获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据;
模型构建模块,用于构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
模型训练模块,用于将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
语音合成模块,用于利用训练好的端到端语音合成模型进行语音合成。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的基于声学特征与文本情感特征融合的端到端语音合成方法,构建了端到端语音合成模型,包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,通过声学编码器可以提取样本中的声学特征,通过文本情感提取模型可以提取文本情感特征,并将提取的声学特征与文本情感特征进行融合来增强和扩充韵律,提高了合成语音的自然度,由于采用基于FastSpeech的自回归方法,并行计算解码器,提高了合成效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于声学特征与文本情感特征融合的端到端语音合成方法整体流程图;
图2为本发明实施例中声学特征提取过程示意图;
图3为本发明实施中音素特征声学编码器和音素特征声学预测器的示意图;
图4为本发明实施例中句子级别声学编码器的结构示意图;
图5为本发明实施例中文本情感特征提取过程示意图。
具体实施方式
韵律,包括前端韵律和后端韵律。前端的韵律指的是文本中蕴含的除文本内容之外的信息,包括语调、重音、节奏以及说话的风格等。后端的韵律是从声学特征学习的具体表现形式,其内容包含情感,语速,语音质量等级等等信息。按照韵律调整的粒度分为两类:粗粒度和细粒度。粗粒度为句子级别的迁移调控,细粒度为phrase,word,phone的调控。在现有技术中,基于Tacotron2的方法中可以学习到较好的韵律,但是无法实现计算的并行;而基于FastSpeech的方法则因为无法对韵律进行较好的学习,导致合成的韵律感较差。
本发明的目的在于提供一种基于声学特征与文本情感特征融合的端到端语音合成方法,在保证计算效率的同时,提高语音合成中韵律感、自然度。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于声学特征与文本情感特征融合的端到端语音合成方法,包括:
S1:获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据;
S2:构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合作为输入,进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
S3:将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
S4:利用训练好的端到端语音合成模型进行语音合成。
具体来说,首先获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱;将音素序列经音素嵌入层后输入到音素编码器中获得文本的韵律隐特征;再将韵律隐特征输入到声学编码器中,同时进行音素与Mel频谱对齐,声学编码器从中分别获取音素级和句子级别的声学特征,并在声学特征中加入隐特征;与此同时从文本中获取文本情感特征;再次将声学特征与文本情感特征进行特征融合,输入到FastSpeech2的方差适配器进行特征增强与扩充;最后将方差适配器的输出输入到FastSpeech2的Mel解码器实现并行解码,得到合成语音的频谱图;使用声码器将频谱图特征映射为声音波形,得到合成的语音。
请参见图1,为基于声学特征与文本情感特征融合的端到端语音合成方法整体流程图。音素embedding为音素嵌入层,音素输入音素嵌入层后得到音素的向量表示,加入位置编码后,输入音素编码器。位置编码采用的是Fastspeech模型中的位置编码,主要是构造一个与输入embedding维度一样的矩阵,然后跟输入embedding相加得到multi-headattention(多头注意力机制)的输入。具体方法为:
Figure BDA0003168742880000071
Figure BDA0003168742880000072
其中,PE为二维矩阵,大小和输入的embedding的维度一样,pos表示词语在句子中的位置dmodel表示词向量的维度,i表示词向量的位置。上述公式表示在每个词语的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此来填满整个PE矩阵,然后加到inputembedding(音素的向量表示)中去,这样便完成位置编码的引入。
声学编码器提取的声学特征与文本情感提取模型提取的文本情感特征进行融合,然后输入方差适配器进行特征增强与扩充,再次引入位置编码后输入FastSeech2的解码器合成语音的Mel频谱,最后通过声码器将频谱图特征映射为声音波形,得到合成的语音。
文本情感特征提取模型和声码器是提前训练好的模型,因而在进行调参(参数更新)时,本发明只需要进行音素编码编码器,声学编码器,方差适配器,解码器,mel解码器部分的调参即可。
在一种实施方式中,步骤S2中声学编码器包括音素特征声学编码器和句子特征声学编码器,
音素特征声学编码器用于对音素与Mel频谱进行对齐后的谱图进行特征提取,并在提取过程中加入韵律隐特征,获得音素级别声学特征;
句子特征声学编码器用于根据样本的Mel频谱进行特征提取后加入韵律隐特征,得到句子级别声学特征。
具体实施过程中,请参见图2,为声学特征提取过程示意图,音素与Mel频谱的谱图对齐后输入音素级别声学编码器(音素特征声学编码器),韵律隐特征也输入音素特征声学编码器,从而得到音素特征声学编码器。Mel频谱的谱图输入句子级别声学编码器(句子特征声学编码器)提取得到特征后加入韵律隐特征,从而得到句子级别声学特征。
在一种实施方式中,音素编码器为FastSpeech2音素编码器,文本情感特征提取模型为基于LSTM网络的模型,音素特征声学编码器为基于卷积层的声学编码器,句子特征声学编码器为基于卷积层的声学编码器。
具体来说,音律隐特征是基于FastSpeech2音素编码器计算后得到的,句子级别声学特征是Mel谱图经过基于卷积层的两个声学编码器得到的,音素级别声学特征是Mel谱图与音素对齐后经过基于卷积层的两个声学编码器得到的;文本情感特征提取是基于LSTM网络提取得到的。通过FastSpeech2的方差适配器进行韵律特征的增强和扩充,再通过FastSpeech2的解码器生成频谱。
具体实施时,训练数据中样本形式为文本、音素序列、频谱。频谱转换为MFCC。频谱转换为MFCC(梅尔倒谱系数)。
MFCC提取过程部分过程及公式为:
(1)预加重:H(Z)=1-μz-1,μ为预加重系数,通常取0.9-1.0之间,z为语音信号,H(Z)表示预加重后的结果。
(2)分帧:先将N个采样点集合成一个观测单位。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音信号的采样频率为8KHz或16KHz。
(3)加窗:S'(n)=S(n)×W(n),
Figure BDA0003168742880000091
其中,S(n)为H(Z)分帧后信号,W(n)为汉明窗n为帧的大小,S'(n)为加窗处理后的语音信号,a为汉明窗产生系数,不同的a产生不同的汉明窗,一般取0.46。
(4)FFT(FastFouriertransform快速傅里叶变换):
Figure BDA0003168742880000092
N表示傅里叶变换点数,K是经过FFT计算后的点的下标,2π是傅里叶转换周期,j是欧拉公式中的虚数单位。
(5)三角带通滤波器:
Figure BDA0003168742880000093
其中
Figure BDA0003168742880000101
f(m)代表的是中心频率,f(m)之间的间隔随m值的减小而缩小,m为滤波器个数,k是经过FFT计算后的点的下标。
(6)取对数:每个滤波器组输出的对数能量
Figure BDA0003168742880000102
Xa(k)为进行FFT后的各帧的频谱,Hm(k)为三角带通滤波器,m为滤波器个数,N为FFT中的点数。
(7)DCT:经离散余弦变换(DCT)得到MFCC系数
Figure BDA0003168742880000103
s(m)为每组滤波器输出的对数能量,M表示三角滤波器的个数,L指的是MFCC系数阶数。
具体实施时,还包括模型的预测,主要包括:在音素级别特征提取时所需时长,由训练好的时长模型(FastSpeech中的时长预测模型)进行预测,其余流程与训练阶段相同,得到生成的频谱后使用预训练好的声码器模型得到最终的合成语音。
在一种实施方式中,音素级别声学特征的提取方式为:
Pt=Aco_encoder1(Pt-1,Ct',ht),Ct'=align(Ct,P),
Ct和P分别表示t时刻的谱图与音素序列,ht表示t时刻的韵律隐特征,Pt为t时刻的音素级别声学特征,align()表示对齐函数,Aco_encoder1为音素级别声学编码器,Pt-1为t-1时刻的音素级别声学特征,Ct'表示对齐后的谱图。
请参见图3,左边为音素特征声学编码器,右边为音素特征声学预测器,音素特征声学编码器将Mel谱图进行一维卷积、线性标准化、然后通过线性层进行线性化处理得到音素级别特征向量,音素特征声学预测器将音素隐特征(韵律隐特征)进行与音素特征声学编码器同样的操作,得到预测音素级别特征向量,即表征音素特征的向量。
在一种实施方式中,句子级别声学特征的提取方式为:
Ut=Aco_encoder2(Ut-1,Ct)+ht
Ut表示t时刻的句子级别特征,ht表示t时刻的韵律隐特征,Ct为谱图Aco_encoder为句子级别声学编码器,Ut-1表示t-1时刻的句子级别特征。
请参见图4,本发明实施例中句子级别声学编码器的结构示意图,将Mel谱图进行一维卷积、线性标准化、然后通过池化层处理得到句子级别特征向量,即表征句子特征的向量。
在一种实施方式中,文本情感特征的提取过程包括:
it=σ(Wiitt+bii+WhiHt-1+bhi),
ft=σ(Wiftt+bif+WhfHt-1+bhf)
gt=tanh(Wigtt+big+WhfHt-1+bhf)
ot=σ(Wiott+bio+WhoHt-1+bho)
ct=ft*ct-1+it*gt
h't=ottanh(ct)
Et=dropout(h't)
其中,tt为文本嵌入后向量,Ht-1为LSTM隐层向量,it为输入门,ft为遗忘门,gt为记忆单元用来备选更新内容,ot为输出门,ct为细胞更新,h't为经过LSTM网络的最后输出,Et为ht经过Dropout后输出的文本情感特征,Wii,Whi为输入门和输入门隐藏层的权重,Wif,Whf为遗忘门门和遗忘门隐藏层的权重,Wig为记忆单元权重,Wio,Who为输出门和输出门隐藏层的权重,bhi,bhf,bhf,bho为输入门、遗忘门、记忆单元、输出门的偏置参数,σ(·)为sigmoid()函数。
请参见图5,为本发明实施例中文本情感特征提取过程示意图。文本通过词嵌入层得到文本嵌入后向量,然后通过LSTM网络进行处理得到h't,再通过Dropout层得到情感特征向量,即表征文本情感特征的向量。
在一种实施方式中,将声学特征与文本情感特征的融合采用早融合Concat技术,将句子级别声学特征、音素级别声学特征以及文本情感特征进行连接后,输出融合后的特征Tt,融合后的特征输入到方差适配器中,与方差适配器提取的特征Vt进行特征增强和扩充,处理过程包括:
Tt=concat(Pt,Ut,Et)
λ=Beta(α,β)
Vt'=λ×Tt+(1-λ)×Vt+Vt
其中,Tt为通过Concat技术得到的融合后的特征,Pt,Ut,Et分别为音素级别声学特征、句子级别声学特征、文本情感特征,Vt为Fastspeech2中方差适配器中提取的特征,Vt'为方差适配器输出的特征,即融合后的特征与方差适配器提取的特征进行增强和扩充后的特征,λ为经过Beta()函数得到的随机概率,α,β为开始输入参数。
具体实施过程中,方差适配器中提取的特征包括时长、能量、音高等特征。
相对于现有技术,本发明的有益效果是:
1、相比基于Tactron2的方法,由于采用基于FastSpeech的自回归方法,并行计算解码器,提高了合成效率。
2、相比基于FastSpeech的方法,通过引入文本情感特征与声学特征的特征融合来增强和扩充韵律,提高合成语音的自然度。
实施例二
基于同样的发明构思,本实施例提供了基于声学特征与文本情感特征融合的端到端语音合成***,包括:
训练数据获取模块,用于获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据;
模型构建模块,用于构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合作为输入,进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
模型训练模块,用于将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
语音合成模块,用于利用训练好的端到端语音合成模型进行语音合成。
由于本发明实施例二所介绍的***,为实施本发明实施例一中基于声学特征与文本情感特征融合的端到端语音合成方法所采用的***,故而基于本发明实施例一所介绍的方法,本领域所属技术人员能够了解该***的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的***都属于本发明所欲保护的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.基于声学特征与文本情感特征融合的端到端语音合成方法,其特征在于,包括:
S1:获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据;
S2:构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
S3:将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
S4:利用训练好的端到端语音合成模型进行语音合成。
2.如权利要求1所述的语音合成方法,其特征在于,步骤S2中声学编码器包括音素特征声学编码器和句子特征声学编码器,
音素特征声学编码器用于对音素与Mel频谱进行对齐后的谱图进行特征提取,并在提取过程中加入韵律隐特征,获得音素级别声学特征;
句子特征声学编码器用于根据样本的Mel频谱进行特征提取后加入韵律隐特征,得到句子级别声学特征。
3.如权利要求2所述的语音合成方法,其特征在于,音素编码器为FastSpeech2音素编码器,文本情感特征提取模型为基于LSTM网络的模型,音素特征声学编码器为基于卷积层的声学编码器,句子特征声学编码器为基于卷积层的声学编码器。
4.如权利要求2所述的语音合成方法,其特征在于,音素级别声学特征的提取方式为:
Pt=Aco_encoder1(Pt-1,Ct',ht),Ct'=align(Ct,P),
Ct和P分别表示t时刻的谱图与音素序列,ht表示t时刻的韵律隐特征,Pt为t时刻的音素级别声学特征,align()表示对齐函数,Aco_encoder1为音素级别声学编码器,Pt-1为t-1时刻的音素级别声学特征,Ct'表示对齐后的谱图。
5.如权利要求2所述的语音合成方法,其特征在于,句子级别声学特征的提取方式为:
Ut=Aco_encoder2(Ut-1,Ct)+ht
Ut表示t时刻的句子级别特征,ht表示t时刻的韵律隐特征,Ct为谱图,Aco_encoder2为句子级别声学编码器,Ut-1表示t-1时刻的句子级别特征。
6.如权利要求2所述的语音合成方法,其特征在于,将声学特征与文本情感特征的融合采用早融合Concat技术,将句子级别声学特征、音素级别声学特征以及文本情感特征进行连接后,输出融合后的特征Tt,融合后的特征输入到方差适配器中,与方差适配器提取的特征Vt进行特征增强和扩充,处理过程包括:
Tt=concat(Pt,Ut,Et)
λ=Beta(α,β)
Vt'=λ×Tt+(1-λ)×Vt+Vt
其中,Tt为通过Concat技术得到的融合后的特征,Pt,Ut,Et分别为音素级别声学特征、句子级别声学特征、文本情感特征,Vt为Fastspeech2中方差适配器中提取的特征,Vt'为方差适配器输出的特征,即融合后的特征与方差适配器提取的特征进行增强和扩充后的特征,λ为经过Beta()函数得到的随机概率,α,β为开始输入参数。
7.基于声学特征与文本情感特征融合的端到端语音合成***,其特征在于,包括:
训练数据获取模块,用于获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据;
模型构建模块,用于构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
模型训练模块,用于将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
语音合成模块,用于利用训练好的端到端语音合成模型进行语音合成。
CN202110812076.4A 2021-07-19 2021-07-19 基于声学特征与文本情感特征融合的端到端语音合成方法及*** Active CN113506562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110812076.4A CN113506562B (zh) 2021-07-19 2021-07-19 基于声学特征与文本情感特征融合的端到端语音合成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110812076.4A CN113506562B (zh) 2021-07-19 2021-07-19 基于声学特征与文本情感特征融合的端到端语音合成方法及***

Publications (2)

Publication Number Publication Date
CN113506562A CN113506562A (zh) 2021-10-15
CN113506562B true CN113506562B (zh) 2022-07-19

Family

ID=78013734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110812076.4A Active CN113506562B (zh) 2021-07-19 2021-07-19 基于声学特征与文本情感特征融合的端到端语音合成方法及***

Country Status (1)

Country Link
CN (1) CN113506562B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005446A (zh) * 2021-11-01 2022-02-01 科大讯飞股份有限公司 情感分析方法、相关设备及可读存储介质
US11908454B2 (en) * 2021-12-01 2024-02-20 International Business Machines Corporation Integrating text inputs for training and adapting neural network transducer ASR models
CN113948062B (zh) * 2021-12-20 2022-08-16 阿里巴巴达摩院(杭州)科技有限公司 数据转换方法及计算机存储介质
CN115831089B (zh) * 2021-12-27 2023-12-01 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品
CN116863909B (zh) * 2023-09-04 2023-11-07 世优(北京)科技有限公司 基于因子图的语音合成方法、装置及***
CN117877460A (zh) * 2024-01-12 2024-04-12 汉王科技股份有限公司 语音合成方法、装置、语音合成模型训练方法、装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597492A (zh) * 2018-05-02 2018-09-28 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN110570845A (zh) * 2019-08-15 2019-12-13 武汉理工大学 一种基于域不变特征的语音识别方法
US10741169B1 (en) * 2018-09-25 2020-08-11 Amazon Technologies, Inc. Text-to-speech (TTS) processing
CN111667816A (zh) * 2020-06-15 2020-09-15 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质
CN111754976A (zh) * 2020-07-21 2020-10-09 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置
CN112786007A (zh) * 2021-01-20 2021-05-11 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN112786009A (zh) * 2021-02-26 2021-05-11 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN113096640A (zh) * 2021-03-08 2021-07-09 北京达佳互联信息技术有限公司 一种语音合成方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
KR101160193B1 (ko) * 2010-10-28 2012-06-26 (주)엠씨에스로직 감성적 음성합성 장치 및 그 방법
US11264010B2 (en) * 2018-05-11 2022-03-01 Google Llc Clockwork hierarchical variational encoder

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597492A (zh) * 2018-05-02 2018-09-28 百度在线网络技术(北京)有限公司 语音合成方法和装置
US10741169B1 (en) * 2018-09-25 2020-08-11 Amazon Technologies, Inc. Text-to-speech (TTS) processing
CN110570845A (zh) * 2019-08-15 2019-12-13 武汉理工大学 一种基于域不变特征的语音识别方法
CN111667816A (zh) * 2020-06-15 2020-09-15 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质
CN111754976A (zh) * 2020-07-21 2020-10-09 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置
CN112786007A (zh) * 2021-01-20 2021-05-11 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN112786009A (zh) * 2021-02-26 2021-05-11 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN113096640A (zh) * 2021-03-08 2021-07-09 北京达佳互联信息技术有限公司 一种语音合成方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用说话人自适应实现基于DNN的情感语音合成;智鹏鹏等;《重庆邮电大学学报(自然科学版)》;20181015(第05期);全文 *

Also Published As

Publication number Publication date
CN113506562A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN113506562B (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及***
CN111754976B (zh) 一种韵律控制语音合成方法、***及电子装置
Sun et al. Voice conversion using deep bidirectional long short-term memory based recurrent neural networks
McAuliffe et al. Montreal forced aligner: Trainable text-speech alignment using kaldi.
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及***
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
Sheikhan et al. Using DTW neural–based MFCC warping to improve emotional speech recognition
CN109147774B (zh) 一种改进的延时神经网络声学模型
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
Bhatt et al. Feature extraction techniques with analysis of confusing words for speech recognition in the Hindi language
Niwa et al. Statistical voice conversion based on WaveNet
CN109326278B (zh) 一种声学模型构建方法及装置、电子设备
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
CN113436607B (zh) 一种快速语音克隆方法
Gao et al. Articulatory copy synthesis using long-short term memory networks
CN112216293A (zh) 一种音色转换方法和装置
Zhao et al. Research on voice cloning with a few samples
CN113112985B (zh) 一种基于深度学习的语音合成方法
Wisesty et al. Feature extraction analysis on Indonesian speech recognition system
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
Lekshmi et al. An ASR system for Malayalam short stories using deep neural network in KALDI
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
Gao et al. Improving F0 prediction using bidirectional associative memories and syllable-level F0 features for HMM-based Mandarin speech synthesis
Bozorg et al. Autoregressive articulatory wavenet flow for speaker-independent acoustic-to-articulatory inversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant