CN112365874B - 语音合成模型的属性注册、装置、电子设备与介质 - Google Patents

语音合成模型的属性注册、装置、电子设备与介质 Download PDF

Info

Publication number
CN112365874B
CN112365874B CN202011285796.1A CN202011285796A CN112365874B CN 112365874 B CN112365874 B CN 112365874B CN 202011285796 A CN202011285796 A CN 202011285796A CN 112365874 B CN112365874 B CN 112365874B
Authority
CN
China
Prior art keywords
style
synthesis model
speech synthesis
registered
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011285796.1A
Other languages
English (en)
Other versions
CN112365874A (zh
Inventor
王文富
王锡磊
孙涛
袁瀚
高正坤
贾磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011285796.1A priority Critical patent/CN112365874B/zh
Publication of CN112365874A publication Critical patent/CN112365874A/zh
Priority to JP2021144165A priority patent/JP7335298B2/ja
Priority to KR1020210117979A priority patent/KR102523797B1/ko
Application granted granted Critical
Publication of CN112365874B publication Critical patent/CN112365874B/zh
Priority to US17/455,156 priority patent/US20220076657A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语音合成模型的属性注册、装置、电子设备与介质,涉及深度学习和智能语音等人工智能技术领域。具体实现方案为:采集待注册的属性对应的多条数据;采用所述属性对应的多条数据,在语音合成模型中注册所述属性;所述语音合成模型已预先采用训练数据集内的训练数据训练。本申请的技术方案,可以实现在语音合成模型中注册属性,进而可以使得语音合成模型能够基于注册的属性进行语音合成,满足用户的个性化需求;而且能够极大地丰富用户场景的语音合成的多样性、趣味性,提升产品贴近度、拟人度,显著提升用户的使用体验度;再者本申请的技术方案可应用于各类个性化语音交互场景,具有普遍推广性。

Description

语音合成模型的属性注册、装置、电子设备与介质
技术领域
本申请涉及计算机技术,具体涉及深度学习和智能语音等人工智能技术领域,尤其涉及一种语音合成模型的属性注册、装置、电子设备与介质。
背景技术
语音合成,又称为文语转换(Text-to-Speech;TTS),是指通过计算机把文本信息转换为音质好、自然流畅度高的语音信息的过程,是智能语音交互技术的核心技术之一。
近年来随着深度学习技术的发展以及在语音合成领域的广泛应用,语音合成的音质以及自然流畅度都得到了前所未有的提升。当前主流的语音合成模型主要用于实现单一发音人(即单一音色)、单一风格的语音合成。而若要实现多风格、多音色合成,可以采集每个发音人录制的多种风格的训练数据,对语音合成模型进行训练。
发明内容
本申请提供了一种语音合成模型的属性注册、装置、电子设备与介质。
根据本申请的一方面,提供了一种语音合成模型的属性注册方法,其中,所述方法包括:
采集待注册的属性对应的多条数据;
采用所述属性对应的多条数据,在语音合成模型中注册所述属性;所述语音合成模型已预先采用训练数据集内的训练数据训练。
根据本申请的另一方面,提供了一种语音合成模型的属性注册装置,其中,所述装置包括:
采集模块,用于采集待注册的属性对应的多条数据;
注册模块,用于采用所述属性对应的多条数据,在语音合成模型中注册所述属性;所述语音合成模型已预先采用训练数据集内的训练数据训练。
根据本申请的再一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本申请的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本申请的再另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
根据本申请的技术,可以实现在语音合成模型中注册属性,进而可以使得语义合成模型能够基于注册的属性进行语音合成,满足用户的个性化需求;而且能够极大地丰富用户场景的语音合成的多样性、趣味性,提升产品贴近度、拟人度,显著提升用户的使用体验度;再者本申请的技术方案可应用于各类个性化语音交互场景,具有普遍推广性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是本实施例的语音合成模型的训练架构示意图;
图4是本实施例的语音合成模型的应用架构示意图;
图5是本实施例的语音合成模型中的风格编码器的示意图;
图6是根据本申请第三实施例的示意图;
图7是根据本申请第四实施例的示意图;
图8是根据本申请第五实施例的示意图;
图9是根据本申请第六实施例的示意图;
图10是根据本申请第七实施例的示意图;
图11是根据本申请第八实施例的示意图;
图12是用来实现本申请实施例的语音合成模型的属性注册方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
近年来随着语音合成技术在各领域的广泛使用以及应用场景的不断丰富,语音合成的多样化越来越受到用户的追捧,比如多风格、多音色合成。但是,很显然,现有的语音合成模型仅支持合成训练数据集内的风格和音色,很难满足诸多应用场景的需要,比如:使用训练数据集外的新风格、新音色进行语音播报,尤其是当跨风格、跨音色合成面向普通用户时,普通用户无法实现使用自己的风格和音色进行语音播报。
基于上述技术问题,本申请提供一种使用用户少量数据进行风格注册和/或音色注册,进而实现风格、音色多样化个性化订制,能够满足用户的个性化需求,非常具有实用价值。本申请的风格注册和/或音色注册,其基本思想是采用用户少量的数据如上百条的数据,对基于训练数据集预训练好的语音合成模型进行微调,使得语音合成模型能够识别要注册的风格和/或音色,进而可以使得语音合成模型能够采用注册的语音和/风格进行语音合成,满足用户的个性化需求。通过在语音合成模型中注册风格和/或音色,能极大丰富用户场景语音合成的多样性、趣味性,提升产品贴近度、拟人度,显著提升用户的使用体验度,可应用于各类个性化语音交互场景,具有普遍推广性。
首先,介绍一下本实施例的跨语言、跨风格、跨音色的语音合成模型的训练方案。
图1是根据本申请第一实施例的示意图;如图1所示,本实施例提供一种语音合成模型的训练方法,具体可以包括如下步骤:
S101、采集包括数条训练数据的训练数据集,各训练数据中包括待合成语音的训练风格信息、训练音色信息、训练文本的内容信息、以及采用训练风格信息对应的训练风格描述训练文本的内容信息的风格特征信息、和采用训练风格信息对应的训练风格和训练音色信息对应的训练音色描述训练文本的内容信息的目标声学特征信息;
S102、采用训练数据集中的数条训练数据,对语音合成模型进行训练。
本实施例的语音合成模型的训练方法的执行主体为语音合成模型的训练装置,该装置可以为一电子实体;或者也可以为采用软件集成的应用,使用时运行在计算机设备上,以对语音合成模型进行训练。
本实施例的训练中,采集的训练数据的条数可以达到百万量级以上,以对语音合成模型进行更加精准的训练。各训练数据中可以包括待合成语音的训练风格信息、训练音色信息、训练文本的内容信息。
本实施例的训练风格信息可以为风格标识如风格ID;或者还可以为从采用该风格描述的音频信息中提取到的其他格式。但是,在实际应用中,使用时,采用风格描述的音频信息可以为采用梅尔(mel)谱序列的形式来表示。本实施例的训练音色信息,也可以基于采用该音色描述的音频信息来提取,该训练音色信息也可以采用mel谱序列的形式来表示。
本实施例的训练风格信息用于限定语音描述的风格如可以包括幽默、欢乐、忧伤、传统等等。本实施例训练音色信息用于限定描述语音的声音的音色。例如可以为明星A、播音员B、卡通动物C等等。
本实施例的训练文本的内容信息为文字形式。训练文本的内容信息具体可以为训练文本的音子序列。例如,若训练文本为中文时,该内容信息可以为训练文本的带调音子序列;由于中文文字的发音都携带有音调,所以对于中文而言,需要获取到带调音子序列。而对于其他语言,训练文本内容信息为训练文本的音子序列。例如,训练文本为中文时,音子可以为中文拼音中的一个音节,如一个声母或者韵母。
另外,各训练数据中可以包括采用训练风格信息对应的训练风格描述训练文本的内容信息的风格特征信息、和采用训练风格信息对应的训练风格和训练音色信息对应的训练音色描述训练文本的内容信息的目标声学特征信息,这两个信息作为有监督训练的参考,以使得语音合成模型可以更加有效地学习。
本实施例的语音合成模型的训练方法,通过采用上述方案,可以对语音合成模型进行有效地训练,使得语音合成模型基于训练数据,学习根据内容、风格和音色,合成语音的过程,进而可以使得学习后的语音合成模型可以丰富语音合成的多样性。
图2是根据本申请第二实施例的示意图;如图2所示,本实施例的语音合成模型的训练方法,在上述图1所示实施例的技术方案的基础上,进一步更加详细地描述本申请的技术方案。如图2所示,本实施例的语音合成模型的训练方法,具体可以包括如下步骤:
S201、采集数条训练数据,各训练数据中包括待合成语音的训练风格信息、训练音色信息、训练文本的内容信息、以及采用训练风格信息对应的训练风格描述训练文本的内容信息的风格特征信息、和采用训练风格信息对应的训练风格和训练音色信息对应的训练音色描述训练文本的内容信息的目标声学特征信息;
S202、对于各训练数据,采用语音合成模型中的内容编码器、风格编码器和音色编码器,分别对训练数据中的训练文本的内容信息、训练风格信息和训练音色信息进行编码,依次得到训练内容编码特征、训练风格编码特征和训练音色编码特征;
具体地,采用语音合成模型中的内容编码器对训练数据中的训练文本的内容信息进行编码,得到训练内容编码特征。采用语音合成模型中的风格编码器对训练数据中的训练风格信息和训练文本的内容信息进行编码,得到训练风格编码特征。采用语音合成模型中的音色编码器对训练数据中的训练音色信息进行编码,得到训练音色编码特征。
实现过程中,具体可以采用语音合成模型中的内容编码器对训练数据中的训练文本的内容信息进行编码,得到训练内容编码特征;由于待处理文本的内容信息采用音子序列的形式,对应地得到的训练内容编码特征也可以对应采用序列的形式,可以称之为训练内容编码序列。其中每个音子对应一个编码向量。该内容编码器决定每个音子如何发音。具体可以采用语音合成模型中的风格编码器对训练文本的内容信息和训练风格信息进行编码,得到训练风格编码特征;也就是说,该风格编码器对训练文本的内容信息进行编码,同时使用训练风格信息控制编码的风格,生成对应的训练风格编码矩阵,同理也可以称之为训练风格编码序列。每个音子对应一个编码向量。该风格编码器决定每个音子的发音方式,也就是风格。并具体可以采用语音合成模型中的音色编码器对训练音色信息进行编码,得到训练音色编码特征;由于训练音色信息也可以采用mel谱序列。即音色编码器可以对mel谱序列进行编码,生成相应的音色向量。该音色编码器决定要合成语音的音色,如音色A、音色B或者音色C等。
S203、采用语音合成模型中的风格提取器,基于训练文本的内容信息和采用训练风格信息对应的训练风格描述训练文本的内容信息的风格特征信息,提取目标训练风格编码特征;
需要说明的时,该训练文本的内容信息与上述风格编码器训练时输入的训练文本的内容信息相同。采用训练风格信息对应的训练风格描述训练文本的内容信息的风格特征信息可以为mel谱序列的形式。
图3是本实施例的语音合成模型的训练架构示意图;图4是本实施例的语音合成模型的应用架构示意图。如图4所示,本实施例的语音合成模型中,可以包括内容编码器、风格编码器、音色编码器和解码器几部分构成。与传统的语音合成模型Tacotron相比,图4所示的语音合成模型中,内容编码器和风格编码器、音色编码器为单独的三个单元,三个单元以解耦的状态各自扮演不同角色,各自承担相应的功能,是实现跨风格、跨音色、跨语言合成的关键所在。所以本实施例不再局限于仅能够合成单一音色或者单一风格的语音,可以实现跨语言、跨风格、跨音色的语音合成。例如,可以实现采用歌星A使用幽默风格播报的英语片段X,也可以实现采用卡通动物C使用忧伤风格播报的中文片段Y,等等。
如图3所示,与上述图4所示的该语音合成模型的应用架构示意图相比,该语音合成模型在训练时,增加了风格提取器,以增强训练效果。而在使用时,并不需要该风格提取器,而直接采用图4所示的架构。如图3所示,该风格提取器中可以包括参考风格编码器、参考内容编码器以及注意力机制模块,以实现将风格向量压缩到文本层面上,得到的目标训练风格编码特征为风格编码器的学习目标。
其中,内容编码器由带残差连接的多层卷积神经网络(Convolutional NeuralNetworks;CNN)以及一层双向长短期记忆网络(Long Short-Term Memory;LSTM)构成。音色编码器由多层CNN以及一层门控循环单元(Gated Recurrent Unit;GRU)构成。解码器是基于注意力机制的自回归结构。风格编码器由多层CNN和多层双向GRU层构成。例如,图5是本实施例的语音合成模型中的风格编码器的示意图。如图5所示,以风格编码器包括N层的CNN和N层的GRU为例,风格编码器在编码时,待处理文本的内容信息如待处理文本为中文时,该内容信息可以为带调音子序列,直接输入至CNN中,而风格信息如风格ID直接输入至GRU中,经过风格编码器的编码,最终可以输出风格编码特征,由于对应输入的带调音子序列,也可以称之为风格编码序列。
具体地,在训练阶段,风格提取器以无监督的方式学习风格表示,该风格表示同时作为风格编码器的目标驱动风格编码器学习。一旦语音合成模型训练完毕,风格编码器就具有与风格提取器相同的功能。在应用阶段,风格编码器将取代风格提取器。因此,风格提取器只存在于训练阶段。需要注意的是,由于风格提取器的强大作用,使得整个语音合成模型具有良好的解耦性能,也就是内容编码器、风格编码器、音色编码器各司其职,分工明确。内容编码器负责如何发音,风格编码器负责发音的风格方式,音色编码器负责以谁的音色发音。
S204、采用语音合成模型中的解码器,基于训练内容编码特征、目标训练风格编码特征和训练音色编码特征,进行解码,生成训练文本的预测声学特征信息;
S205、基于训练风格编码特征、目标训练风格编码特征、预测声学特征信息和目标声学特征信息,构建综合损失函数;
例如,该步骤具体实现时,可以包括如下步骤:
(a1)基于训练风格编码特征和目标训练风格编码特征,构建风格损失函数;
(b1)基于预测声学特征信息和目标声学特征信息,构建声学特征损失函数;
(c1)基于风格损失函数和重构损失函数,生成综合损失函数。
具体地,可以为风格损失函数和重构损失函数配置一定的权重,并取两者的权重和作为最终的综合损失函数。具体地权重的比例可以根据实际需求来设置。例如,若要突出风格,可以设置相对较大的权重。例如在将重构损失函数的权重设置1时,可以将风格损失函数的权重设置为1-10之间的某个值,值越大,风格的损失函数的比重越大,训练中风格对整体的影响越大。
S206、判断综合损失函数是否收敛;若不收敛,执行步骤S207;若收敛,执行步骤S208;
S207、调整内容编码器、风格编码器、音色编码器、风格提取器和解码器的参数,使得综合损失函数趋于收敛;返回步骤S202获取下一条训练数据,继续训练;
S208、判断在连续预设轮数的训练中,综合损失函数是否始终收敛;若不是,返回步骤S202获取下一条训练数据,继续训练;否则,若是始终收敛,确定语音合成模型的参数,进而确定语音合成模型,训练结束。
该步骤可以作为训练终止的条件,其中连续预设轮数可以根据实际经验来设置,如连续的100轮、200轮或者其他数量。在连续的预设轮数的训练中,综合损失函数始终收敛,则说明该语音合成模型已经训练的非常完美,可以结束训练。另外,可选地,在实际训练中,语音合成模型也有可能在无限趋于收敛的过程中,但又没有在连续预设轮数的训练中绝对收敛,此时也可以设置训练终止条件为设置预设轮数阈值的训练,当训练轮数达到预设轮数阈值,可以终止训练,并获取训练终止时语音合成模型的参数,作为该语音合成模型的最终参数,并基于最终的参数使用该语音合成模型;否则继续训练,直至训练轮数达到预设轮数阈值。
上述步骤S202-S207为上述图1所示实施例的步骤S102的一种实现方式。
本实施例虽然在训练过程中介绍语音合成模型内的各个单元,但是整个语音合成模型的训练过程为端到端训练。该语音合成模型的训练中,共包括两部分损失函数,一个是基于解码器的输出,构建的重构损失函数;另一个是基于风格编码器的输出和风格提取器的输出,构建的风格损失函数。两部分损失函数可以均采用L2范数的损失函数。
本实施例的语音合成模型的训练方法,通过采用上述方案,可以在训练过程中,有效地保证内容、风格和音色的完全解耦,进而可以使得训练后的语音合成模型可以实现跨风格、跨音色、跨语言的语音合成,可以极大地丰富语音合成的多样性,降低长时间播报的枯燥感,显著提升用户体验。
上述为采用训练数据集内的训练数据对语音合成模型进行训练的原理。且上述训练的语音合成模型在合成语音时,仅能够支持合成在训练集内的音色、风格以及语言的基础上,实现跨语言、跨风格以及跨音色的语音合成。进一步地,为了使用训练数据集外的新风格、新音色进行语音播报,尤其是当跨风格、跨音色合成面向普通用户时,要使得普通用户实现使用自己的风格和音色进行语音播报,需要进一步在语音合成模型中注册想要使用的音色和/或风格。
图6是根据本申请第三实施例的示意图;如图6所示,本实施例提供一种语音合成模型的属性注册方法,具体可以包括如下步骤:
S601、采集待注册的属性对应的多条注册数据;
S602、采用该属性对应的多条注册数据,在语音合成模型中注册该属性;该语音合成模型已预先采用训练数据集内的训练数据训练。
本实施例的语音合成模型的属性注册方法的执行主体为语音合成模型的属性注册装置,该装置可以为电子实体,或者也可以为应用集成的实体,用于实现在语音合成模型中进行属性注册。
本实施例的属性注册可以包括音色注册和/或风格注册。本实施例的属性注册过程,类似于训练过程,即采用该属性对应的多条数据,对已预先采用训练数据集内的训练数据训练的语音合成模型进行微调的过程,从而实现在语音合成模型内注册相应的属性如音色和/或风格,进而可以采用语音合成模型采用注册的该音色和/或风格进行语音合成。
本实施例的属性注册过程对待注册属性的数据量的要求,不同于语音合成模型的训练数据集内的训练数据的数据量。例如,要训练好语音合成模型,要求训练数据集内的训练数据的数据量要达到百万量级甚至更大的量级之上。而经实验验证,在语音合成模型内注册音色和/或风格属性时,仅需要采集该属性的较少量的注册数据的数据量即可,例如,有些场景下可能仅需要10句话的注册数据便能实现注册。
本实施例的语音合成模型的属性注册方法,通过采集待注册的属性对应的多条注册数据;采用该属性对应的多条注册数据,在语音合成模型中注册该属性;该语音合成模型已预先采用训练数据集内的训练数据训练,可以实现在语音合成模型中注册属性,进而可以使得语义合成模型能够基于注册的属性进行语音合成,满足用户的个性化需求;而且能够极大地丰富用户场景的语音合成的多样性、趣味性,提升产品贴近度、拟人度,显著提升用户的使用体验度;再者本实施例的技术方案可应用于各类个性化语音交互场景,具有普遍推广性。
图7是根据本申请第四实施例的示意图;如图7所示,本实施例的语音合成模型的属性注册方法,在上述图6所示实施例的技术方案的基础上,以在语音合成模型中注册音色为例,进一步更加详细地描述本申请的技术方案。如图7所示,本实施例的语音合成模型的属性注册方法,具体可以包括如下步骤:
S701、采集待注册音色对应的多条注册数据,各条注册数据包括文本内容、待注册音色的音色信息、文本内容的音频信息、以及采用待注册音色描述文本内容的目标声学特征信息;
具体地,本实施例中,各条注册数据用于实现同一音色的注册,所以各条注册数据中包括的待注册音色的音色信息相同。另外,可以参考图3所示的语音合成模型的训练架构图来描述本实施例的音色注册。如图3所示,在音色注册时,不用考虑风格,所以,在采集数据时,不用考虑风格编码器相关的输入信息。所以,本实施例采集的各条注册数据中,可以包括待注册音色的音色信息,例如,该待注册音色的音色信息可以为从待注册音色的用户的一句语音中提取相应的mel频谱序列。具体地,该句语音可以是待注册音色的用户描述文本内容或者其他内容。该待注册音色的音色信息作为音色编码器的输入。
另外,为了保证语音合成模型的正常工作,还需要考虑风格提取器和内容编码器的输入信息。其中内容编码器的输入为文本内容。风格提取器的输入为文本内容和文本内容的音频信息,此处不考虑风格信息。具体地,该文本内容的音频信息,也可以为mel频谱序列的形式。
其中注册数据中的采用待注册音色描述文本内容的目标声学特征信息,可以为从采用该音色描述的文本内容的音频中提取的mel频谱序列,用于实现有监督的训练。
该步骤S701为上述图6所示实施例的步骤S601的一种实现方式。
S702、对于各文本内容、各文本内容的音频信息、音色信息,采用语音合成模型中的内容编码器、风格提取器、音色编码器以及解码器,生成预测声学特征信息;
例如,具体可以参考图3所示的训练结构,内容编码器对输入的文本内容进行编码得到内容编码特征。音色编码器对输入的音色信息进行编码得到音色编码特征。风格提取器基于输入的文本内容和文本内容的音频信息,提取目标风格编码特征。虽然此处称为目标风格编码特征,但是其特征此时与风格无关,而只是参考该风格提取器的提取的特征来命名而已。解码器可以基于内容编码器得到的内容编码特征、音色编码器得到的音色编码特征以及风格提取器提取的目标风格编码特征拼接后的综合特征,进行解码,得到预测声学特征信息。同理,该预测声学特征信息也可以采用mel频谱序列的形式,即表示预测的采用该音色描述该文本内容的音频中抽取的mel频谱序列。
S703、基于预测声学特征信息和目标声学特征信息,构建重构损失函数;
S704、调整语音合成模型中的音色编码器和解码器的参数,使得重构损失函数趋于收敛的方向。
可选地,该步骤S704之前,还可以包括判断重构损失函数是否收敛,若确定未收敛,执行该步骤S704。另外,由于采集的注册数据量非常少,例如可以为百条级别,甚至小于一百条,少量的注册数据在调整语音合成模型时,理论上不会是的模型快速收敛,考虑到本实施例的语音注册是在采用训练数据集预先训练好的语音合成模型上注册,该注册过程仅对语音合成模型做微调,所以可以不对损失函数是否收敛进行判断,而直接调整语音合成模型中的音色编码器和解码器的参数,使得重构损失函数趋于收敛的方向即可。
该步骤S702-S704为上述图6所示实施例的步骤S602的一种实现方式。
本实施例的该模式只注册用户的音色,也就是只需要用户的音色,不考虑其风格。一个典型应用场景可以是用户模仿训练数据集内的人说话。一般情况下,训练数据集内人的风格迥异,如故事风格、新闻风格、情感风格等。如果用户想要以众多风格进行播报,那么只需要注册该用户的音色,就能实现该用户的“单人千面”合成,也即用户模仿训练数据集内任意风格。
本实施例的语音合成模型的属性注册方法,通过采用上述方案可以实现在语音合成模型中注册音色,进而可以使得语义合成模型能够基于注册的音色进行语音合成,满足用户的个性化需求;而且能够极大地丰富用户场景的语音合成的多样性、趣味性,提升产品贴近度、拟人度,显著提升用户的使用体验度。
图8是根据本申请第五实施例的示意图;如图8所示,本实施例的语音合成模型的属性注册方法,在上述图6所示实施例的技术方案的基础上,以在语音合成模型中注册风格为例,进一步更加详细地描述本申请的技术方案。如图8所示,本实施例的语音合成模型的属性注册方法,具体可以包括如下步骤:
S801、采集待注册风格对应的多条注册数据,各条注册数据包括文本内容、为待注册风格预定义的风格标识以及采用风格描述文本内容的音频信息;
具体地,本实施例中,各条注册数据用于实现同一风格的注册,所以各条注册数据中包括的为待注册风格预定义的风格标识相同。另外,可以参考图3所示的语音合成模型的训练架构图来描述本实施例的风格注册。如图3所示,在风格注册时,不用考虑音色,所以,在采集数据时,不用考虑音色编码器相关的输入信息。所以,本实施例采集的各条注册数据中,可以包括文本内容、为待注册的风格预定义的风格标识、以及采用风格描述的文本内容的音频信息,例如,采用风格描述的文本内容的音频信息可以为从待注册风格描述该文本内容的语音中提取相应的mel频谱序列,与文本内容一起作为风格提取器的输入。
该步骤S801为上述图6所示实施例的步骤S601的一种实现方式。
S802、对于各条注册数据中的文本内容、风格标识和风格描述对应的文本内容的音频信息,分别采用语音合成模型的风格提取器和风格编码器,生成目标风格编码特征和预测风格编码特征;
例如,具体可以参考图3所示的训练结构,风格编码器基于输入的文本内容和风格标识进行编码得到预测风格编码特征。风格提取器基于输入的文本内容和风格描述对应的文本内容的音频信息,提取目标风格编码特征。
S803、基于预测风格编码特征和目标风格编码特征,构建风格损失函数;
S804、调整语音合成模型中的风格提取器和风格编码器的参数,使得风格损失函数趋于收敛的方向。
同理,可选地,该步骤S804之前,还可以包括判断风格损失函数是否收敛,若确定未收敛,执行该步骤S804。另外,由于采集的注册数据量非常少,例如可以为百条级别,甚至小于一百条,少量的注册数据在调整语音合成模型时,理论上不会使得模型快速收敛,考虑到本实施例的风格注册是在采用训练数据集预先训练好的语音合成模型上注册,该注册过程仅对语音合成模型做微调,所以可以不对风格损失函数是否收敛进行判断,而直接调整语音合成模型中的风格提取器和风格编码器的参数,使得风格损失函数趋于收敛的方向即可。但是,需要说明的是,与语音合成模型的训练和使用同理,在语音合成模型使用时,仅使用风格编码器,而不使用风格提取器的部分。
该步骤S802-S804为上述图6所示实施例的步骤S602的一种实现方式。
本实施例的该模式只注册用户的风格,也就是只需要用户的风格,不考虑其音色。一个典型应用场景是训练数据集内的人模仿用户说话。一般情况下,训练数据集内的人拥有众多音色,如每个发音人就是一种音色,或清亮,或低沉,或甜美,或成熟。如果用户想要这么多音色以自己的风格进行播报,那么只需要注册该用户的风格,就能实现该用户的“千人一面”合成,也即训练数据集内人模仿用户的风格。
本实施例的语音合成模型的属性注册方法,通过采用上述方案可以实现在语音合成模型中风格音色,进而可以使得语义合成模型能够基于注册的风格进行语音合成,满足用户的个性化需求;而且能够极大地丰富用户场景的语音合成的多样性、趣味性,提升产品贴近度、拟人度,显著提升用户的使用体验度。
图9是根据本申请第六实施例的示意图;如图9所示,本实施例的语音合成模型的属性注册方法,在上述图6所示实施例的技术方案的基础上,以在语音合成模型中同时注册风格和音色为例,进一步更加详细地描述本申请的技术方案。如图9所示,本实施例的语音合成模型的属性注册方法,具体可以包括如下步骤:
S901、采集待注册风格和待注册风格对应的多条注册数据,各条注册数据包括文本内容、为待注册风格预定义的风格标识、待注册音色的音色信息、采用风格描述所述文本内容的音频信息、以及采用待注册音色和待注册风格描述文本内容的目标声学特征信息;
具体地,本实施例中实现音色和风格的同时注册。其中各参数的解释可以参考上述图7和图8所示实施例相关参数的解释。并可以将上述图7和图8所示实施例结合一起,一起实现音色和风格的同时注册。或者该音色和风格的同时注册的流程与上述图2所示实施例记载的模型训练过程原理相同,详细亦可以参考上述图2所示实施例的记载。
S902、对于各条注册数据中的文本内容、风格描述文本内容的音频信息、风格标识、音色信息,采用语音合成模型中的内容编码器、风格编码器、音色编码器、风格提取器以及解码器,生成目标风格编码特征、预测风格编码特征和预测声学特征信息;
其中,可选地,目标风格编码特征为风格提取器提取的,预测风格编码特征为风格编码器编码得到的,预测声学特征信息为解码器解码得到的,该步骤的具体实现过程也可以参考上述图7和图8所示实施例的相关记载,在此不再赘述。
S903、基于目标风格编码特征、预测风格编码特征、预测声学特征信息和目标声学特征信息,构建综合损失函数;
例如,该步骤具体实现时,可以参考上述图2所示实施例中的步骤s205中的综合损失函数的构建过程,在此不再赘述。
S904、调整语音合成模型中的音色编码器、风格编码器、风格提取器以及解码器的参数,使得综合损失函数趋于收敛的方向。
同理,可选地,该步骤S904之前,还可以包括判断风格损失函数是否收敛,若确定未收敛,执行该步骤S904。另外,由于采集的注册数据量非常少,例如可以为百条级别,甚至小于一百条,少量的注册数据在调整语音合成模型时,理论上不会是的模型快速收敛,考虑到本实施例的风格注册和音色注册是在采用训练数据集预先训练好的语音合成模型上注册,该注册过程仅对语音合成模型做微调,所以可以不对综合损失函数是否收敛进行判断,而直接调整语音合成模型中的音色编码器、风格编码器、风格提取器以及解码器的参数,使得综合损失函数趋于收敛的方向即可。同理,与语音合成模型的训练和使用同理,在语音合成模型使用时,仅使用风格编码器,而不使用风格提取器的部分。
该步骤S902-S904为上述图6所示实施例的步骤S602的一种实现方式。
本实施例的该模式同时注册用户的音色跟风格。一个典型的应用是用户既能模仿训练数据集内的人说话,训练数据集内的人又能模仿用户说话,同时也支持以用户本身的音色、本身的风格播报。该模式是上述图7所示的音色注册模式和图8所示的风格注册模式的综合与泛化,该模式同时实现该用户的“单人千面”“千人一面”合成,也即训练数据集内人与用户的互相模仿。
本实施例的语音合成模型的属性注册方法,通过采用上述方案可以实现在语音合成模型中风格音色和风格注册,进而可以使得语义合成模型能够基于注册的音色和风格进行语音合成,满足用户的个性化需求;而且能够极大地丰富用户场景的语音合成的多样性、趣味性,提升产品贴近度、拟人度,显著提升用户的使用体验度。
图10是根据本申请第七实施例的示意图;如图10所示,本实施例提供一种语音合成模型的属性注册装置1000,具体可以包括:
采集模块1001,用于采集待注册的属性对应的多条数据;
注册模块1002,用于采用属性对应的多条数据,在语音合成模型中注册属性;语音合成模型已预先采用训练数据集内的训练数据训练。
本实施例的语音合成模型的属性注册装置1000,通过采用上述模块实现语音合成模型的属性注册的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图11是根据本申请第七实施例的示意图;如图11所示,本实施例的语音合成模型的属性注册装置1000,用于在上述图10所示实施例的基础上,进一步更加详细地描述本申请的技术方案。
本实施例的语音合成模型的属性注册装置1000中,采集模块1001,用于:
属性包括音色时,采集待注册音色对应的多条注册数据,各条注册数据包括文本内容、待注册音色的音色信息、文本内容的音频信息、以及采用待注册音色描述文本内容的目标声学特征信息。
进一步可选地,如图11所示,本实施例的语音合成模型的属性注册装置1000中,注册模块1002,包括:
生成单元1002a,用于对于各条注册数据中的文本内容、文本内容的音频信息、音色信息,采用语音合成模型中的内容编码器、风格提取器、音色编码器以及解码器,生成预测声学特征信息;
构建单元1002b,用于基于预测声学特征信息和目标声学特征信息,构建重构损失函数;
调整单元1002c,用于调整语音合成模型中的音色编码器和解码器的参数,使得重构损失函数趋于收敛的方向。
进一步可选地,采集模块1001,还用于:
属性包括风格时,采集待注册风格对应的多条注册数据,各条注册数据包括文本内容、为待注册风格预定义的风格标识以及采用风格描述文本内容的音频信息。
对应地,生成单元1002a,还用于对于各条注册数据中的文本内容、风格标识和风格描述对应的文本内容的音频信息,分别采用语音合成模型的风格提取器和风格编码器,生成目标风格编码特征和预测风格编码特征;
构建单元1002b,还用于基于预测风格编码特征和目标风格编码特征,构建风格损失函数;
调整单元1002c,还用于调整语音合成模型中的风格提取器和风格编码器的参数,使得风格损失函数趋于收敛的方向。
进一步可选地,采集模块1001,还用于:
采集待注册风格和待注册风格对应的多条注册数据,各条注册数据包括文本内容、为待注册风格预定义的风格标识、待注册音色的音色信息、采用风格描述文本内容的音频信息、以及采用待注册音色和待注册风格描述文本内容的目标声学特征信息。
对应地,生成单元1002a,还用于对于各条注册数据中的文本内容、风格描述文本内容的音频信息、风格标识、音色信息,采用语音合成模型中的内容编码器、风格编码器、音色编码器、风格提取器以及解码器,生成目标风格编码特征、预测风格编码特征和预测声学特征信息;
构建单元1002b,还用于基于目标风格编码特征、预测风格编码特征、预测声学特征信息和目标声学特征信息,构建综合损失函数;
调整单元1002c,还用于调整语音合成模型中的音色编码器、风格编码器、风格提取器以及解码器的参数,使得综合损失函数趋于收敛的方向。
进一步可选地,构建单元1002b,具体用于:
基于目标风格编码特征和预测风格编码特征,构建风格损失函数;
基于预测声学特征信息和目标声学特征信息,构建重构损失函数;
基于风格损失函数和重构损失函数,构建综合损失函数。
本实施例的语音合成模型的属性注册装置1000,通过采用上述模块实现语音合成模型的属性注册的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图12所示,是本申请实施例的实现语音合成模型的属性注册方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图12所示,该电子设备包括:一个或多个处理器1201、存储器1202,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图12中以一个处理器1201为例。
存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语音合成模型的属性注册方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音合成模型的属性注册方法。
存储器1202作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音合成模型的属性注册方法对应的程序指令/模块(例如,附图10和附图11所示的相关模块)。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音合成模型的属性注册方法。
存储器1202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据实现语音合成模型的属性注册方法的电子设备的使用所创建的数据等。此外,存储器1202可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1202可选包括相对于处理器1201远程设置的存储器,这些远程存储器可以通过网络连接至实现语音合成模型的属性注册方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现语音合成模型的属性注册方法的电子设备还可以包括:输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接,图12中以通过总线连接为例。
输入装置1203可接收输入的数字或字符信息,以及产生与实现语音合成模型的属性注册方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("VirtualPrivate Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。
根据本申请实施例的技术方案,通过采集待注册的属性对应的多条注册数据;采用该属性对应的多条注册数据,在语音合成模型中注册该属性;该语音合成模型已预先采用训练数据集内的训练数据训练,可以实现在语音合成模型中注册属性,进而可以使得语义合成模型能够基于注册的属性进行语音合成,满足用户的个性化需求;而且能够极大地丰富用户场景的语音合成的多样性、趣味性,提升产品贴近度、拟人度,显著提升用户的使用体验度;再者本申请实施例的技术方案可应用于各类个性化语音交互场景,具有普遍推广性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种语音合成模型的属性注册方法,其中,所述方法包括:
采集待注册的属性对应的多条数据,各条数据用于实现同一属性的注册;
采用所述属性对应的多条数据,在语音合成模型中注册所述属性;所述语音合成模型已预先采用训练数据集内的训练数据训练;
其中,所述属性包括风格和音色时,通过使得基于风格损失函数和重构损失函数构建的综合损失函数趋于收敛的方向,以在语音合成模型中注册所述属性。
2.根据权利要求1所述的方法,其中,所述属性包括音色时,采集待注册的属性对应的多条数据,包括:
采集待注册音色对应的多条注册数据,各条所述注册数据包括文本内容、所述待注册音色的音色信息、所述文本内容的音频信息、以及采用所述待注册音色描述所述文本内容的目标声学特征信息。
3.根据权利要求2所述的方法,其中,采用所述属性对应的多条数据,在语音合成模型中注册所述属性,包括:
对于各条所述注册数据中的所述文本内容、所述文本内容的音频信息、所述音色信息,采用所述语音合成模型中的内容编码器、风格提取器、音色编码器以及解码器,生成预测声学特征信息;
基于所述预测声学特征信息和所述目标声学特征信息,构建重构损失函数;
调整所述语音合成模型中的所述音色编码器和所述解码器的参数,使得重构损失函数趋于收敛的方向。
4.根据权利要求1所述的方法,其中,所述属性包括风格时,采集待注册的属性对应的多条数据,包括:
采集待注册风格对应的多条注册数据,各条所述注册数据包括文本内容、为所述待注册风格预定义的风格标识以及采用所述风格描述所述文本内容的音频信息。
5.根据权利要求4所述的方法,其中,采用所述属性对应的多条数据,在语音合成模型中注册所述属性,包括:
对于各条所述注册数据中的所述文本内容、所述风格标识和所述风格描述对应的所述文本内容的音频信息,分别采用所述语音合成模型的风格提取器和风格编码器,生成目标风格编码特征和预测风格编码特征;
基于所述预测风格编码特征和所述目标风格编码特征,构建风格损失函数;
调整所述语音合成模型中的所述风格提取器和所述风格编码器的参数,使得所述风格损失函数趋于收敛的方向。
6.根据权利要求1所述的方法,其中,所述属性包括风格和音色时,采集待注册的属性对应的多条数据,包括:
采集待注册风格和待注册音色对应的多条注册数据,各条所述注册数据包括文本内容、为所述待注册风格预定义的风格标识、所述待注册音色的音色信息、采用所述风格描述所述文本内容的音频信息、以及采用所述待注册所述音色和所述待注册风格描述所述文本内容的目标声学特征信息。
7.根据权利要求6所述的方法,其中,采用所述属性对应的多条数据,在语音合成模型中注册所述属性,包括:
对于各条所述注册数据中的所述文本内容、所述风格描述所述文本内容的音频信息、所述风格标识、所述音色信息,采用所述语音合成模型中的内容编码器、风格编码器、音色编码器、风格提取器以及解码器,生成目标风格编码特征、预测风格编码特征和预测声学特征信息;其中,采用风格提取器生成目标风格编码特征,采用风格编码器生成预测风格编码特征,采用内容编码器、风格提取器、音色编码器以及解码器,生成预测声学特征信息;
基于所述目标风格编码特征和所述预测风格编码特征,构建风格损失函数,基于所述预测声学特征信息和所述目标声学特征信息,构建重构损失函数,基于所述风格损失函数和所述重构损失函数,构建综合损失函数;
调整所述语音合成模型中的所述音色编码器、所述风格编码器、所述风格提取器以及所述解码器的参数,使得所述综合损失函数趋于收敛的方向。
8.一种语音合成模型的属性注册装置,其中,所述装置包括:
采集模块,用于采集待注册的属性对应的多条数据,各条数据用于实现同一属性的注册;
注册模块,用于采用所述属性对应的多条数据,在语音合成模型中注册所述属性;所述语音合成模型已预先采用训练数据集内的训练数据训练;
其中,所述属性包括风格和音色时,所述注册模块还用于,通过使得基于风格损失函数和重构损失函数构建的综合损失函数趋于收敛的方向,以在语音合成模型中注册所述属性。
9.根据权利要求8所述的装置,其中,所述采集模块,用于:
所述属性包括音色时,采集待注册音色对应的多条注册数据,各条所述注册数据包括文本内容、所述待注册音色的音色信息、所述文本内容的音频信息、以及采用所述待注册音色描述所述文本内容的目标声学特征信息。
10.根据权利要求9所述的装置,其中,所述注册模块,包括:
生成单元,用于对于各条所述注册数据中的所述文本内容、所述文本内容的音频信息、所述音色信息,采用所述语音合成模型中的内容编码器、风格提取器、音色编码器以及解码器,生成预测声学特征信息;
构建单元,用于基于所述预测声学特征信息和所述目标声学特征信息,构建重构损失函数;
调整单元,用于调整所述语音合成模型中的所述音色编码器和所述解码器的参数,使得重构损失函数趋于收敛的方向。
11.根据权利要求10所述的装置,其中,所述采集模块,还用于:
所述属性包括风格时,采集待注册风格对应的多条注册数据,各条所述注册数据包括文本内容、为所述待注册风格预定义的风格标识以及采用所述风格描述所述文本内容的音频信息。
12.根据权利要求11所述的装置,其中:
所述生成单元,还用于对于各条所述注册数据中的所述文本内容、所述风格标识和所述风格描述对应的所述文本内容的音频信息,分别采用所述语音合成模型的风格提取器和风格编码器,生成目标风格编码特征和预测风格编码特征;
所述构建单元,还用于基于所述预测风格编码特征和所述目标风格编码特征,构建风格损失函数;
所述调整单元,还用于调整所述语音合成模型中的所述风格提取器和所述风格编码器的参数,使得所述风格损失函数趋于收敛的方向。
13.根据权利要求10所述的装置,其中,所述采集模块,还用于:
采集待注册风格和待注册音色对应的多条注册数据,各条所述注册数据包括文本内容、为所述待注册风格预定义的风格标识、所述待注册音色的音色信息、采用所述风格描述所述文本内容的音频信息、以及采用所述待注册所述音色和所述待注册风格描述所述文本内容的目标声学特征信息。
14.根据权利要求13所述的装置,其中:
所述生成单元,还用于对于各条所述注册数据中的所述文本内容、所述风格描述所述文本内容的音频信息、所述风格标识、所述音色信息,采用所述语音合成模型中的内容编码器、风格编码器、音色编码器、风格提取器以及解码器,生成目标风格编码特征、预测风格编码特征和预测声学特征信息;其中,采用风格提取器生成目标风格编码特征,采用风格编码器生成预测风格编码特征,采用内容编码器、风格提取器、音色编码器以及解码器,生成预测声学特征信息;
所述构建单元,还用于基于所述目标风格编码特征和所述预测风格编码特征,构建风格损失函数,基于所述预测声学特征信息和所述目标声学特征信息,构建重构损失函数,基于所述风格损失函数和所述重构损失函数,构建综合损失函数;
所述调整单元,还用于调整所述语音合成模型中的所述音色编码器、所述风格编码器、所述风格提取器以及所述解码器的参数,使得所述综合损失函数趋于收敛的方向。
15.一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
CN202011285796.1A 2020-11-17 2020-11-17 语音合成模型的属性注册、装置、电子设备与介质 Active CN112365874B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202011285796.1A CN112365874B (zh) 2020-11-17 2020-11-17 语音合成模型的属性注册、装置、电子设备与介质
JP2021144165A JP7335298B2 (ja) 2020-11-17 2021-09-03 音声合成モデルの属性登録方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR1020210117979A KR102523797B1 (ko) 2020-11-17 2021-09-03 음성 합성 모델의 속성 등록 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
US17/455,156 US20220076657A1 (en) 2020-11-17 2021-11-16 Method of registering attribute in speech synthesis model, apparatus of registering attribute in speech synthesis model, electronic device, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011285796.1A CN112365874B (zh) 2020-11-17 2020-11-17 语音合成模型的属性注册、装置、电子设备与介质

Publications (2)

Publication Number Publication Date
CN112365874A CN112365874A (zh) 2021-02-12
CN112365874B true CN112365874B (zh) 2021-10-26

Family

ID=74515268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011285796.1A Active CN112365874B (zh) 2020-11-17 2020-11-17 语音合成模型的属性注册、装置、电子设备与介质

Country Status (4)

Country Link
US (1) US20220076657A1 (zh)
JP (1) JP7335298B2 (zh)
KR (1) KR102523797B1 (zh)
CN (1) CN112365874B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689868B (zh) * 2021-08-18 2022-09-13 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质
KR102639322B1 (ko) * 2021-11-22 2024-02-21 포항공과대학교 산학협력단 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
CN113920989B (zh) * 2021-12-13 2022-04-01 中国科学院自动化研究所 一种语音识别与语音翻译端到端***及设备
CN114758645A (zh) * 2022-04-29 2022-07-15 建信金融科技有限责任公司 语音合成模型的训练方法、装置、设备及存储介质
CN114822495B (zh) * 2022-06-29 2022-10-14 杭州同花顺数据开发有限公司 声学模型训练方法、装置及语音合成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261355A (zh) * 2015-09-02 2016-01-20 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN111508470A (zh) * 2020-04-26 2020-08-07 北京声智科技有限公司 一种语音合成模型的训练方法及装置
CN111899719A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705783B (zh) * 2017-11-27 2022-04-26 北京搜狗科技发展有限公司 一种语音合成方法及装置
EP3739572A4 (en) 2018-01-11 2021-09-08 Neosapience, Inc. METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM
CN110599998B (zh) * 2018-05-25 2023-08-18 阿里巴巴集团控股有限公司 一种语音数据生成方法及装置
US10706837B1 (en) * 2018-06-13 2020-07-07 Amazon Technologies, Inc. Text-to-speech (TTS) processing
KR20200027331A (ko) * 2018-09-04 2020-03-12 엘지전자 주식회사 음성 합성 장치
CN109147758B (zh) * 2018-09-12 2020-02-14 科大讯飞股份有限公司 一种说话人声音转换方法及装置
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
CN109523986B (zh) * 2018-12-20 2022-03-08 百度在线网络技术(北京)有限公司 语音合成方法、装置、设备以及存储介质
CN111276120B (zh) * 2020-01-21 2022-08-19 华为技术有限公司 语音合成方法、装置和计算机可读存储介质
CN111667811B (zh) * 2020-06-15 2021-09-07 北京百度网讯科技有限公司 语音合成方法、装置、设备和介质
CN111883101B (zh) * 2020-07-13 2024-02-23 北京百度网讯科技有限公司 一种模型训练及语音合成方法、装置、设备和介质
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261355A (zh) * 2015-09-02 2016-01-20 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN111508470A (zh) * 2020-04-26 2020-08-07 北京声智科技有限公司 一种语音合成模型的训练方法及装置
CN111899719A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质

Also Published As

Publication number Publication date
KR20210124103A (ko) 2021-10-14
KR102523797B1 (ko) 2023-04-19
JP7335298B2 (ja) 2023-08-29
US20220076657A1 (en) 2022-03-10
JP2021192119A (ja) 2021-12-16
CN112365874A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN112365874B (zh) 语音合成模型的属性注册、装置、电子设备与介质
JP7194779B2 (ja) 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN112365882B (zh) 语音合成方法及模型训练方法、装置、设备及存储介质
CN109859736B (zh) 语音合成方法及***
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN110619867B (zh) 语音合成模型的训练方法、装置、电子设备及存储介质
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
CN111667816A (zh) 模型训练方法、语音合成方法、装置、设备和存储介质
JP7181332B2 (ja) 音声変換方法、装置及び電子機器
CN112767910B (zh) 音频信息合成方法、装置、计算机可读介质及电子设备
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112365880A (zh) 语音合成方法、装置、电子设备及存储介质
CN112542155B (zh) 歌曲合成方法及模型训练方法、装置、设备与存储介质
CN112365877A (zh) 语音合成方法、装置、电子设备和存储介质
Javed et al. Towards building asr systems for the next billion users
CN112382278B (zh) 流式语音识别结果显示方法、装置、电子设备和存储介质
WO2024088262A1 (zh) 语音识别模型的数据处理***及方法、语音识别方法
JP2022133392A (ja) 音声合成方法、装置、電子機器及び記憶媒体
CN115937369A (zh) 一种表情动画生成方法、***、电子设备及存储介质
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质
CN111353035B (zh) 人机对话方法、装置、可读存储介质及电子设备
CN115050351A (zh) 生成时间戳的方法、装置及计算机设备
Soni et al. Deep Learning Technique to generate lip-sync for live 2-D Animation
CN112259072B (zh) 语音转换方法、装置和电子设备
CN118334187A (zh) 动作生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant