CN113053353B - 一种语音合成模型的训练方法及装置 - Google Patents

一种语音合成模型的训练方法及装置 Download PDF

Info

Publication number
CN113053353B
CN113053353B CN202110259482.2A CN202110259482A CN113053353B CN 113053353 B CN113053353 B CN 113053353B CN 202110259482 A CN202110259482 A CN 202110259482A CN 113053353 B CN113053353 B CN 113053353B
Authority
CN
China
Prior art keywords
current
speaker
historical
training
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110259482.2A
Other languages
English (en)
Other versions
CN113053353A (zh
Inventor
***
马达标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202110259482.2A priority Critical patent/CN113053353B/zh
Publication of CN113053353A publication Critical patent/CN113053353A/zh
Application granted granted Critical
Publication of CN113053353B publication Critical patent/CN113053353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例中一种语音合成模型的训练方法及装置,包括:对历史语音合成模型进行训练,得到多说话人模型;获取当前训练数据中的当前说话人ID和当前输入文本,其中,当前输入文本的数据量少于多说话人模型在训练过程中历史输入文本的数据量,当前输入文本的音素以韵母为单位;基于多说话人模型、当前说话人ID和当前输入文本对当前语音合成模型进行训练。上述的训练过程中,由于多说话人模型已经预先经过训练可以提高训练过程中的准确度,即使在输入文本数据量减少时,由于输入文本以韵母为单位,输入文本的音素数量不会减少,进一步保证了语音识别的精度,避免了现有技术中由于输入文本包含的因素音素特征少,导致语音合成的精度低的问题。

Description

一种语音合成模型的训练方法及装置
技术领域
本发明涉及智能语音技术领域,尤其涉及一种语音合成模型的训练方法及装置。
背景技术
语音合成是从文本到语音的过程,文本输入到声学模型得到声学特征,再输入到合成器,得到音频,其中,现有技术中采用高并行声学模型FPUTS(Fully Parallel UFANS-based End-to-End Text-to-Speech System)进行语音合成,FTPUS声学模型的示意图如图1所示,其中,编码器,对齐模块,解码器均为神经网络构成。一般的生成音频过程为:从说话人的ID(例如0-100)得到说话人矢量(是一个N维的向量,不同说话人有不同的说话人矢量);说话人矢量和文本输入编码器进行编码;说话人和文本输入对齐模块得到音频的发音时长信息(这个模块决定了最终音频的发音时长,说话语速等);发音时间信息以及编码器出来的编码进入到解码器进行解码,得到最终音频。
FPTUS模型需要预先进行训练,训练完成后,才可以进行语音识别,针对PTPUS的训练过程如图2所示,第一步是训练对齐模块。见图2(a)。此时模型主要结构为说话人矢量,编码器,对齐模块和一个结构非常简单的解码器(解码器结构简单对训练对齐模块非常重要)。配合数据进行训练得到训练好的对齐模块;第二步是训练说话人矢量,编码器和解码器。见图2(b),模型主要构成为编码器,从第一步中训练好的对齐模块,(复杂以及最终的)解码器。此处对齐模块固定,不参与训练。
发明人对FPTUS模型的训练过程进行研究发现,当输入文本较短时,由于输入文本的数据量少,在以字为单位划分音素时,输入文本包含的音素特征少,导致训练过程中,语音合成的精度低。
发明内容
有鉴于此,本发明提供了一种语音合成模型的训练方法及装置,用以解决现有技术中对FPTUS模型的训练过程中,当输入文本较短时,由于输入文本的数据量少,在以字为单位划分音素时,输入文本包含的音素特征少,导致语音合成的精度低的问题。具体方案如下:
一种语音合成模型的训练方法,包括:
对历史语音合成模型进行训练,得到多说话人模型;
获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;
基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。
上述的方法,可选的,对历史语音合成模型进行训练,得到多说话人模型,其中,所述历史语音合成模型包括:历史编码器、历史解码器和历史对齐模块,所述解码器包括第一历史解码器和第二历史解码器;所述多说话人模型包括:第一说话人模型和第二说话人模型,训练过程包括:
获取训练数据中的历史说话人ID和历史输入文本;
基于所述历史说话人ID,确定历史说话人矢量,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器和所述历史第一解码器对所述历史对齐模块进行训练,得到第一说话人模型,其中,所述第一说话人模型中包括:历史目标对齐模块;
基于所述历史说话人矢量,所述历史输入文本,所述历史编码器、所述第二历史解码器和所述目标历史对齐模块进行训练,得到第二说话人模型。
上述的方法,可选的,还包括:
所述历史输入文本中的音素以字为单位。
上述的方法,可选的,基于所述多说话人模型、所述说话人ID和所述输入文本对当前语音合成模型进行训练,其中,所述当前语音合成模型包括:当前编码器、当前解码器和当前对齐模块,所述解码器包括第一当前解码器和第二当前解码器,训练过程包括:
对所述第一说话人模型和所述当前说话人ID进行线性组合,确定第一说话人矢量;
采用所述第一说话人矢量,所述当前输入文本,所述当前编码器和所述第一当前解码器对所述当前对齐模块进行训练,得到目标当前对齐模块;
基于所述第二说话人模型和所述当前说话人ID,确定第二说话人矢量,采用所述第二说话人矢量,所述当前输入文本,所述当前编码器、所述第二当前解码器和所述目标当前对齐模块训练所述第二说话人矢量、所述当前编码器和所述第二当前解码器。
上述的方法,可选的,还包括:
获取所述第一说话人模型中的第一历史解码器第一训练结果和所述第二说话人模型中第二历史解码器的第二训练结果;
将所述第一训练结果赋给所述第一当前解码器作为初始值;
将所述第二训练结果赋给所述第二当前解码器作为初始值。
一种语音合成模型的训练装置,包括:
第一训练模块,用于对历史语音合成模型进行训练,得到多说话人模型;
获取模块,用于获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;
第二训练模块,用于基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。
上述的装置,可选的,所述历史语音合成模型包括:历史编码器、历史解码器和历史对齐模块,所述解码器包括第一历史解码器和第二历史解码器;所述多说话人模型包括:第一说话人模型和第二说话人模型,所述第一训练模块包括:
第一获取单元,用于获取训练数据中的历史说话人ID和历史输入文本;
第一训练单元,用于基于所述历史说话人ID,确定历史说话人矢量,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器和所述历史第一解码器对所述历史对齐模块进行训练,得到第一说话人模型,其中,所述第一说话人模型中包括:历史目标对齐模块;
第二训练单元,用于基于所述历史说话人矢量,所述历史输入文本,所述历史编码器、所述第二历史解码器和所述目标历史对齐模块进行训练,得到第二说话人模型。
上述的装置,可选的,还包括:
所述历史输入文本中的音素以字为单位。
上述的装置,可选的,所述当前语音合成模型包括:当前编码器、当前解码器和当前对齐模块,所述解码器包括第一当前解码器和第二当前解码器,所述第二训练模块包括:
确定单元,用于对所述第一说话人模型和所述当前说话人ID进行线性组合,确定第一说话人矢量;
第三训练单元,用于采用所述第一说话人矢量,所述当前输入文本,所述当前编码器和所述第一当前解码器对所述当前对齐模块进行训练,得到目标当前对齐模块;
第四训练单元,用于基于所述第二说话人模型和所述当前说话人ID,确定第二说话人矢量,采用所述第二说话人矢量,所述当前输入文本,所述当前编码器、所述第二当前解码器和所述目标当前对齐模块训练所述第二说话人矢量、所述当前编码器和所述第二当前解码器。
上述的装置,可选的,还包括:
第二获取单元,用于获取所述第一说话人模型中的第一历史解码器第一训练结果和所述第二说话人模型中第二历史解码器的第二训练结果;
第一赋值单元,用于将所述第一训练结果赋给所述第一当前解码器作为初始值;
第二赋值单元,用于将所述第二训练结果赋给所述第二当前解码器作为初始值。
与现有技术相比,本发明包括以下优点:
本发明实施例中一种语音合成模型的训练方法及装置,包括:对历史语音合成模型进行训练,得到多说话人模型;获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。上述的训练过程中,在所述输入文本的音素数量少于所述多说话人模型在训练过程中历史输入文本的音素数量的前提下,基于多说话人模型、当前说话人ID和当前输入文本对当前语音合成模型进行训练,由于多说话人模型已经预先经过训练可以提高训练过程中的准确度,进一步的,在输入文本数据量减少时,由于输入文本以韵母为单位,输入文本的音素数量不会减少,进一步保证了语音识别的精度,避免了现有技术中由于输入文本包含的因素音素特征少,导致语音合成的精度低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的一种FPTUS模型示意图;
图2为现有技术中的一种FPTUS模型训练过程示意图;
图3为本申请实施例公开的一种语音合成模型的训练方法流程图;
图4为本申请实施例公开的一种FPTUS模型训练过程示意图;
图5为本申请实施例公开的一种语音合成模型的训练装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种语音合成模型的训练方法及装置,应用于基于FPUTS的语音合成模型的训练过程中,现有技术中,FPTUS模型的训练过程中当输入文本较短时,由于输入文本的数据量少,在以字为单位划分音素时,输入文本包含的音素特征少,导致训练过程中,语音合成的精度低。为了解决上述问题,本发明提供了一种语音合成模型的训练方法,所述训练方法的执行流程如图3所示,包括步骤:
S101、对历史语音合成模型进行训练,得到多说话人模型;
本发明实施例中,语音合成是将文本合成语音的过程,所述历史语音合成模型(FPTUS模型)包括:历史编码器、历史解码器和历史对齐模块,所述解码器包括第一历史解码器和第二历史解码器;所述多说话人模型包括:第一说话人模型和第二说话人模型,对所述历史语音合成模型进行训练的过程与图2所示训练过程相同,第一步是训练对齐模块,获取训练数据中的历史说话人ID和历史输入文本,其中,所述训练数据是预先给定的,所述训练数据包括历史说话人ID和与该ID对应的历史输入文本,所述历史说话人ID是基于经验或者具体情况预先分配,基于所述历史说话人ID,确定历史说话人矢量,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器和所述历史第一解码器对所述历史对齐模块进行训练,得到第一说话人模型,其中,所述第一说话人模型中包括:历史目标对齐模块;第二步是训练说话人矢量,编码器和解码器,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器、所述第二历史解码器和所述目标历史对齐模块进行训练,得到第二说话人模型。
S102、获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;
本发明实施例中,所述当前训练数据是预先给定的,所述当前训练数据包括当前说话人ID和该ID对应的当前输入文本,获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前说话人ID可以基于经验或者具体情况进行设定,所述当前输入文本的数据量所述多说话人模型在训练过程中历史输入文本的数据量,输所述当前输入文本是一系列音素,例如,所述当前输入文本为“yi xi lie yin su”,在所述历史语音合成模型的使用场景中,是以拼音为单位,此例中’yi’,’xi’,‘lie’,‘yin’,‘su’为五个不同的音素单元,这种因素***共有460个左右不同因素。对于高数量数据,自然可以使用这种音素***,但对于低数量数据,可能无法覆盖完全,因此,本发明实施例中,修改音素***为以声韵母为单位。上例变为’y i x i l ie y in s u’。这种音素***下,只有80多个不同的音素,低数量数据仍然可以完全覆盖,但对模型训练的精度要求变大。
S103、基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。
本发明实施例中,如图4所示,所述多说话人模型包括:第一说话人模型和第二说话人模型,所述第一说话人模型为如图2所示第一个训练步骤得到的说话人矢量,编码器,对齐模块,(简单)解码器,标记为多说话人矢量mul,1,编码器mul,1,对齐模块mul,1,(简单)解码器mul,1。所述第二说话人模型包括第二个训练步骤中得到的说话人矢量,编码器,对齐模块,(复杂)解码器,标记为多说话人矢量mul,2,编码器mul,2,对齐模块mul,2,(复杂)解码器mul,2。注意对齐模块mul,1和对齐模块mul,2是一样的。
说话人矢量决定合成音频的发音时长,语速及音调等特征。在编码器,对齐模块,解码器一样的情况下,不同的说话人矢量合成不同的声音。在多说话人模型中,假设共有N个说话人的数据参与了训练,那么共有N个不同的说话人矢量hi,i=1...N。
因此,首先需要确定所述当前输入文本的说话人矢量。为充分利用所述多说话人的模型,定义此说话人的说话人矢量为
l=∑pi×hi (1)
其中,pi是可训练变量,l是多说话人矢量的线性组合。在图4中标为线型组合。
如图4(a)所示,说话人矢量为如图2所示所述多说话人模型第一训练步骤中的说话人矢量的线性组合。
多说话人模型中的编码器(当前编码器)部分,是对所述当前输入文本进行抽象的过程,此模块在训练中未接收到说话人矢量信息,在训练少数据量数据时,此部分直接从多说话人模型中取得,并保持固定。
对齐模块(当前对齐模块)和(简单)解码器(第一当前解码器)则使用图2所示多说话人模型中第一训练步骤中的对应部分作为初始值,但仍需要训练。这样可以加速收敛,并且使得最终精度提升。
如图4(b)所示,
第二训练步骤中的说话人矢量为图2所示所述多说话人模型第二训练步骤中的说话人矢量的线性组合。
多说话人模型中的编码器(当前编码器)部分,是对输入的文本进行抽象的过程,此模块在训练中未接收到说话人矢量信息,在训练少数据量数据时,此部分直接从多说话人模型中取得,并保持固定。
对齐模块使用图4(a)训练得到的对齐模块并保持固定。
(复杂)解码器(第二当前解码器)使用图2所示多说话人模型中第二训练步骤中的对应部分作为初始值,但仍需要训练
本发明实施例中一种语音合成模型的训练方法,包括:对历史语音合成模型进行训练,得到多说话人模型;获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。上述的训练过程中,在所述输入文本的音素数量少于所述多说话人模型在训练过程中历史输入文本的音素数量的前提下,基于多说话人模型、当前说话人ID和当前输入文本对当前语音合成模型进行训练,由于多说话人模型已经预先经过训练可以提高训练过程中的准确度,进一步的,在输入文本数据量减少时,由于输入文本以韵母为单位,输入文本的音素数量不会减少,进一步保证了语音识别的精度,避免了现有技术中由于输入文本包含的因素音素特征少,导致语音合成的精度低的问题。
本发明实施例中,通过现有的成熟的基于FPUTS的合成算法结合特定的迁移算法,实现了数据成本降低到至多五分之一,并且可以保证合成质量基本不受影响。
基于上述的一种语音合成模型训练方法,本发明实施例中,提供了一种语音合成模型训练装置,所述训练装置的结构框图如图5所示,包括:
第一训练模块201、获取模块202和第二训练模块203。
其中,
所述第一训练模块201,用于对历史语音合成模型进行训练,得到多说话人模型;
所述获取模块202,用于获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;
所述第二训练模块203,用于基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。
本发明实施例中一种语音合成模型的训练装置,包括:对历史语音合成模型进行训练,得到多说话人模型;获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。上述的训练过程中,在所述输入文本的音素数量少于所述多说话人模型在训练过程中历史输入文本的音素数量的前提下,基于多说话人模型、当前说话人ID和当前输入文本对当前语音合成模型进行训练,由于多说话人模型已经预先经过训练可以提高训练过程中的准确度,进一步的,在输入文本数据量减少时,由于输入文本以韵母为单位,输入文本的音素数量不会减少,进一步保证了语音识别的精度,避免了现有技术中由于输入文本包含的因素音素特征少,导致训练过程中,语音合成的精度低的问题。
本发明实施例中,所述历史语音合成模型包括:历史编码器、历史解码器和历史对齐模块,所述解码器包括第一历史解码器和第二历史解码器;所述多说话人模型包括:第一说话人模型和第二说话人模型,所述第一训练模块201包括:
第一获取单元204、第一训练单元205和第二训练单元206。
其中,
所述第一获取单元204,用于获取训练数据中的历史说话人ID和历史输入文本;
所述第一训练单元205,用于基于所述历史说话人ID,确定历史说话人矢量,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器和所述历史第一解码器对所述历史对齐模块进行训练,得到第一说话人模型,其中,所述第一说话人模型中包括:历史目标对齐模块;
所述第二训练单元206,用于基于所述历史说话人矢量,所述历史输入文本,所述历史编码器、所述第二历史解码器和所述目标历史对齐模块进行训练,得到第二说话人模型。
本发明实施例中,所述第一训练模块201还包括:
所述历史输入文本中的音素以字为单位。
本发明实施例中,所述当前语音合成模型包括:当前编码器、当前解码器和当前对齐模块,所述解码器包括第一当前解码器和第二当前解码器,所述第二训练模块203包括:
确定单元207、第三训练单元208和第四训练单元209。
其中,
所述确定单元207,用于对所述第一说话人模型和所述当前说话人ID进行线性组合,确定第一说话人矢量;
所述第三训练单元208,用于采用所述第一说话人矢量,所述当前输入文本,所述当前编码器和所述第一当前解码器对所述当前对齐模块进行训练,得到目标当前对齐模块;
所述第四训练单元209,用于基于所述第二说话人模型和所述当前说话人ID,确定第二说话人矢量,采用所述第二说话人矢量,所述当前输入文本,所述当前编码器、所述第二当前解码器和所述目标当前对齐模块训练所述第二说话人矢量、所述当前编码器和所述第二当前解码器。
本发明实施例中,所述第二训练模块203还包括:
第二获取单元210、第一赋值单元211和第二赋值单元212。
其中,
所述第二获取单元210,用于获取所述第一说话人模型中的第一历史解码器第一训练结果和所述第二说话人模型中第二历史解码器的第二训练结果;
所述第一赋值单元211,用于将所述第一训练结果赋给所述第一当前解码器作为初始值;
所述第二赋值单元212,用于将所述第二训练结果赋给所述第二当前解码器作为初始值。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种语音合成模型的训练方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种语音合成模型的训练方法,其特征在于,包括:
对历史语音合成模型进行训练,得到多说话人模型;
获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;
基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练;
所述历史语音合成模型包括:历史编码器、历史解码器和历史对齐模块,所述解码器包括第一历史解码器和第二历史解码器;所述多说话人模型包括:第一说话人模型和第二说话人模型,训练过程包括:
获取训练数据中的历史说话人ID和历史输入文本;
基于所述历史说话人ID,确定历史说话人矢量,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器和所述第一历史解码器对所述历史对齐模块进行训练,得到第一说话人模型,其中,所述第一说话人模型中包括:历史目标对齐模块;
基于所述历史说话人矢量,所述历史输入文本,所述历史编码器、所述第二历史解码器和所述历史目标对齐模块进行训练,得到第二说话人模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
所述历史输入文本中的音素以字为单位。
3.根据权利要求1所述的方法,其特征在于,基于所述多说话人模型、所述说话人ID和所述输入文本对当前语音合成模型进行训练,其中,所述当前语音合成模型包括:当前编码器、当前解码器和当前对齐模块,所述解码器包括第一当前解码器和第二当前解码器,训练过程包括:
对所述第一说话人模型和所述当前说话人ID进行线性组合,确定第一说话人矢量;
采用所述第一说话人矢量,所述当前输入文本,所述当前编码器和所述第一当前解码器对所述当前对齐模块进行训练,得到目标当前对齐模块;
基于所述第二说话人模型和所述当前说话人ID,确定第二说话人矢量,采用所述第二说话人矢量,所述当前输入文本,所述当前编码器、所述第二当前解码器和所述目标当前对齐模块训练所述第二说话人矢量、所述当前编码器和所述第二当前解码器。
4.根据权利要求3所述的方法,其特征在于,还包括:
获取所述第一说话人模型中的第一历史解码器第一训练结果和所述第二说话人模型中第二历史解码器的第二训练结果;
将所述第一训练结果赋给所述第一当前解码器作为初始值;
将所述第二训练结果赋给所述第二当前解码器作为初始值。
5.一种语音合成模型的训练装置,其特征在于,包括:
第一训练模块,用于对历史语音合成模型进行训练,得到多说话人模型;
获取模块,用于获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;
第二训练模块,用于基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练;
所述历史语音合成模型包括:历史编码器、历史解码器和历史对齐模块,所述解码器包括第一历史解码器和第二历史解码器;所述多说话人模型包括:第一说话人模型和第二说话人模型,所述第一训练模块包括:
第一获取单元,用于获取训练数据中的历史说话人ID和历史输入文本;
第一训练单元,用于基于所述历史说话人ID,确定历史说话人矢量,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器和所述第一历史解码器对所述历史对齐模块进行训练,得到第一说话人模型,其中,所述第一说话人模型中包括:历史目标对齐模块;
第二训练单元,用于基于所述历史说话人矢量,所述历史输入文本,所述历史编码器、所述第二历史解码器和所述历史目标对齐模块进行训练,得到第二说话人模型。
6.根据权利要求5所述的装置,其特征在于,还包括:
所述历史输入文本中的音素以字为单位。
7.根据权利要求5所述的装置,其特征在于,所述当前语音合成模型包括:当前编码器、当前解码器和当前对齐模块,所述解码器包括第一当前解码器和第二当前解码器,所述第二训练模块包括:
确定单元,用于对所述第一说话人模型和所述当前说话人ID进行线性组合,确定第一说话人矢量;
第三训练单元,用于采用所述第一说话人矢量,所述当前输入文本,所述当前编码器和所述第一当前解码器对所述当前对齐模块进行训练,得到目标当前对齐模块;
第四训练单元,用于基于所述第二说话人模型和所述当前说话人ID,确定第二说话人矢量,采用所述第二说话人矢量,所述当前输入文本,所述当前编码器、所述第二当前解码器和所述目标当前对齐模块训练所述第二说话人矢量、所述当前编码器和所述第二当前解码器。
8.根据权利要求7所述的装置,其特征在于,还包括:
第二获取单元,用于获取所述第一说话人模型中的第一历史解码器第一训练结果和所述第二说话人模型中第二历史解码器的第二训练结果;
第一赋值单元,用于将所述第一训练结果赋给所述第一当前解码器作为初始值;
第二赋值单元,用于将所述第二训练结果赋给所述第二当前解码器作为初始值。
CN202110259482.2A 2021-03-10 2021-03-10 一种语音合成模型的训练方法及装置 Active CN113053353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110259482.2A CN113053353B (zh) 2021-03-10 2021-03-10 一种语音合成模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110259482.2A CN113053353B (zh) 2021-03-10 2021-03-10 一种语音合成模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN113053353A CN113053353A (zh) 2021-06-29
CN113053353B true CN113053353B (zh) 2022-10-04

Family

ID=76511007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110259482.2A Active CN113053353B (zh) 2021-03-10 2021-03-10 一种语音合成模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN113053353B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102598057B1 (ko) * 2018-09-10 2023-11-06 삼성전자주식회사 음소기반 화자모델 적응 방법 및 장치
CN113781996B (zh) * 2021-08-20 2023-06-27 北京淇瑀信息科技有限公司 一种语音合成模型训练方法、装置及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101116135A (zh) * 2005-02-10 2008-01-30 皇家飞利浦电子股份有限公司 声音合成
CN109036375A (zh) * 2018-07-25 2018-12-18 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
WO2019175574A1 (en) * 2018-03-14 2019-09-19 Papercup Technologies Limited A speech processing system and a method of processing a speech signal
CN111048064A (zh) * 2020-03-13 2020-04-21 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
CN111489734A (zh) * 2020-04-03 2020-08-04 支付宝(杭州)信息技术有限公司 基于多说话人的模型训练方法以及装置
CN111681639A (zh) * 2020-05-28 2020-09-18 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备
CN111724765A (zh) * 2020-06-30 2020-09-29 上海优扬新媒信息技术有限公司 一种文本转语音的方法、装置及计算机设备
EP3739572A1 (en) * 2018-01-11 2020-11-18 Neosapience, Inc. Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
CN112133282A (zh) * 2020-10-26 2020-12-25 厦门大学 轻量级多说话人语音合成***及电子设备
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及***
CN112466276A (zh) * 2020-11-27 2021-03-09 出门问问(苏州)信息科技有限公司 一种语音合成***训练方法、装置以及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US20190019500A1 (en) * 2017-07-13 2019-01-17 Electronics And Telecommunications Research Institute Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101116135A (zh) * 2005-02-10 2008-01-30 皇家飞利浦电子股份有限公司 声音合成
EP3739572A1 (en) * 2018-01-11 2020-11-18 Neosapience, Inc. Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
WO2019175574A1 (en) * 2018-03-14 2019-09-19 Papercup Technologies Limited A speech processing system and a method of processing a speech signal
CN109036375A (zh) * 2018-07-25 2018-12-18 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN111048064A (zh) * 2020-03-13 2020-04-21 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
CN111489734A (zh) * 2020-04-03 2020-08-04 支付宝(杭州)信息技术有限公司 基于多说话人的模型训练方法以及装置
CN111681639A (zh) * 2020-05-28 2020-09-18 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备
CN111724765A (zh) * 2020-06-30 2020-09-29 上海优扬新媒信息技术有限公司 一种文本转语音的方法、装置及计算机设备
CN112133282A (zh) * 2020-10-26 2020-12-25 厦门大学 轻量级多说话人语音合成***及电子设备
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及***
CN112466276A (zh) * 2020-11-27 2021-03-09 出门问问(苏州)信息科技有限公司 一种语音合成***训练方法、装置以及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DNN based multi-speaker speech synthesis with temporal auxiliary speaker ID embedding;Junmo Lee,et al.;《2019 International Conference on Electronics, Information, and Communication (ICEIC)》;IEEE;20190506;全文 *
基于少量数据集的端到端语音合成技术研究;谢永斌;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;中国学术期刊(光盘版)电子杂志社;20210215(第2期);全文 *
嵌入式语音合成***的研究与实现;张鹏;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;中国学术期刊(光盘版)电子杂志社;20060815(第8期);全文 *

Also Published As

Publication number Publication date
CN113053353A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
US11823656B2 (en) Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech
US11205444B2 (en) Utilizing bi-directional recurrent encoders with multi-hop attention for speech emotion recognition
US11361753B2 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
WO2021061484A1 (en) Text-to-speech processing
US11908448B2 (en) Parallel tacotron non-autoregressive and controllable TTS
US11763797B2 (en) Text-to-speech (TTS) processing
JP2006084715A (ja) 素片セット作成方法および装置
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
CN113053353B (zh) 一种语音合成模型的训练方法及装置
EP4078571A1 (en) A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
US20240087558A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
CN113781995A (zh) 语音合成方法、装置、电子设备及可读存储介质
US11600261B2 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
WO2022043712A1 (en) A text-to-speech synthesis method and system, and a method of training a text-to-speech synthesis system
CN112802444A (zh) 语音合成方法、装置、设备及存储介质
CN112509550A (zh) 语音合成模型训练方法、语音合成方法、装置及电子设备
CN113450758B (zh) 语音合成方法、装置、设备及介质
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
CN114299989A (zh) 一种语音过滤方法、装置、电子设备及存储介质
CN115206281A (zh) 一种语音合成模型训练方法、装置、电子设备及介质
Zhou et al. Learning and modeling unit embeddings using deep neural networks for unit-selection-based mandarin speech synthesis
Ronanki Prosody generation for text-to-speech synthesis
CN113628609A (zh) 自动音频内容生成
CN117558263B (zh) 语音识别方法、装置、设备及可读存储介质
CN112542160B (zh) 声学模型的建模单元的编码方法、声学模型的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220916

Address after: 100193 Room 606, 6 / F, building 4, West District, courtyard 10, northwest Wangdong Road, Haidian District, Beijing

Applicant after: Du Xiaoman Technology (Beijing) Co.,Ltd.

Address before: 401120 b7-7-2, Yuxing Plaza, No.5, Huangyang Road, Yubei District, Chongqing

Applicant before: Chongqing duxiaoman Youyang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant