CN111785249A - 语音合成的输入音素的训练方法、装置及获得方法 - Google Patents
语音合成的输入音素的训练方法、装置及获得方法 Download PDFInfo
- Publication number
- CN111785249A CN111785249A CN202010663237.3A CN202010663237A CN111785249A CN 111785249 A CN111785249 A CN 111785249A CN 202010663237 A CN202010663237 A CN 202010663237A CN 111785249 A CN111785249 A CN 111785249A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- chinese
- vectors
- phonemes
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 29
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 159
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了语音合成的输入音素的训练方法、装置及获得方法,训练方法包括:将中文文本中的中文句子拆分成汉字;将汉字转化成拼音,该拼音包括声调;将拼音转化为音素;将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;形成拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。本申请训练和获得的输入音素包含了汉字的信息和拼音的结构信息以及声调信息,作为语音合成模型的输入,因此语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种语音合成的输入音素的训练方法、装置及获得方法。
背景技术
现有技术中,在中文语音合成时,将中文句子转成音素序列时,一个汉字对应一个拼音,一个拼音对应多个音素。在上述两个步骤中,在汉字-拼音的转化中,去掉了汉字的信息。在拼音-音素的转化中,丢掉了拼音的结构信息。这些信息对中文语音合成很必要,是判断在何处‘停顿’、用什么‘语气’、用什么‘情感’等等的主要依据。尽管这些信息有可能仍然包含在音素序列中,但挖掘这些信息,语音合成模型需要更多的训练数据,也需要更大的语音合成模型。
因此,现有的语音合成模型的输入只包含汉语拼音的音素(比如BOPOMOFO中文注音格式)序列,减少了信息量,给模型学习增加了难度。
发明内容
本申请的目的在于提供一种语音合成的输入音素的训练方法、装置及获得方法,用于解决现有的语音合成模型的输入音素给模型学习增加了难度的技术问题。
本申请提供一种语音合成的输入音素的训练方法,包括:将中文文本中的中文句子拆分成汉字;将汉字转化成拼音,该拼音包括声调;将拼音转化为音素;将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;形成拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。
优选地,通过发音词典将拼音转化为音素。
优选地,词嵌入模型的输出中,汉字向量集与声调向量集之间存在一一对应关系。
优选地,根据音素间的关联关系形成单个拼音向量。
优选地,依据音素所在的拼音确定音素间的关联关系,并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。
本申请还提供一种基于上述训练方法的输入音素的获得方法,包括:将中文文本中的中文句子拆分成汉字;将汉字转化成拼音,该拼音包括声调;将汉字、拼音以及声调输入词嵌入模型,获得汉字向量、声调向量以及单个拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。
优选地,将中文句子拆分成汉字时将中文句子中的相邻汉字间隔开。
优选地,根据音素间的关联关系形成单个拼音向量。
优选地,依据音素所在的拼音确定音素间的关联关系,并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。
本申请还提供一种语音合成的输入音素的训练装置,包括拆分模块、汉字转拼音模块、拼音转音素模块、词嵌入模块、拼音获得模块;其中,拆分模块将中文文本中的中文句子拆分成汉字;汉字转拼音模块将汉字转化成拼音,该拼音包括声调;拼音转音素模块将拼音转化为音素;词嵌入模块将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;拼音获得模块形成单个拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。
本申请训练和获得的输入音素包含了汉字的信息和拼音的结构信息以及声调信息,作为语音合成模型的输入,因此语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语音合成的输入音素的训练方法及其获得方法的流程图;
图2是本申请实施例提供的语音合成的输入音素的训练装置的结构图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本申请提供了一种语音合成的输入音素的训练方法,保留了汉字的信息和拼音的结构信息。
图1中虚线所示流程为语音合成的输入音素的训练方法的流程图。如图1所示,语音合成的输入音素的训练方法包括如下步骤:
S110:将中文文本中的中文句子拆分成汉字。具体地,将中文句子中的相邻汉字间隔开。
S120:将汉字转化成拼音,该拼音包括声调。具体地,可以通过现有的软件将汉字转化为拼音。
S130:将拼音转化为音素。具体地,通过发音词典将拼音转化为音素。作为一个实施例,音素包括声母和韵母。
S140:将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量,形成汉字向量集、音素序列向量集和声调向量集。具体地,在词嵌入模型中,将汉字转化为汉字向量,将声调转化成声调向量,将单个的音素转化为音素序列向量。
其中,与S110中的中文文本对应的多个汉字向量组成汉字向量集,与S110中的中文文本对应的多个声调向量组成声调向量集,与S110中的中文文本对应的多个音素序列向量组成音素序列向量集,并且汉字向量集与声调向量集之间存在一一对应关系。
S150:根据音素间的关联关系形成单个拼音向量,形成拼音向量集,并且单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。具体地,依据音素所在的拼音确定音素的相邻音素(具有关联关系的音素),并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。与S110中的中文文本对应的多个单个拼音向量组成拼音向量集,并且单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。作为一个实施例,通过训练网络实现该步骤,例如神经网络等。
S160:按照单个拼音向量包含的音素的数量对汉字向量和声调向量进行复制,使汉字向量的数量、声调向量的数量与音素的数量相同,并将这些汉字向量、声调向量与该单个拼音向量建立对应关系。
依据汉字的拼音结构,音素的数量可能是1-4个,因此,同一个汉字向量和同一个声调向量的数量可能是1-4,如图1所示。
实施例二
本申请还提供一种输入音素的获得方法,利用了实施例一获得的汉字向量集、声调向量集以及拼音向量集,获得的输入音素将作为语音合成模型的输入,输入音素包含了汉字的信息和拼音的结构信息以及声调信息,语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。
图1中实线所示流程为语音合成的输入音素的获得方法的流程图。如图1所示,输入音素的获得方法包括如下步骤:
S210:将中文文本中的中文句子拆分成汉字。具体地,将中文句子中的相邻汉字间隔开。
S220:将汉字转化成拼音,该拼音包括声调。具体地,可以通过现有的软件将汉字转化为拼音。
S230:将汉字、拼音以及声调输入词嵌入模型,利用实施例一获得的汉字向量、声调向量以及拼音向量及其对应关系获得与中文文本对应的汉字向量、声调向量以及单个拼音向量。
S240:按照获得的单个拼音向量包含的音素的数量对汉字向量和声调向量进行复制,使汉字向量的数量、声调向量的数量与音素的数量相同,并将这些汉字向量、声调向量与该单个拼音向量建立对应关系。
将与单个拼音向量包含的音素数量相同的汉字向量、声调向量以及该单个拼音向量作为语音合成模型的输入进行语音合成。
实施例三
本申请还提供一种与实施例一匹配的语音合成的输入音素的训练装置。如图2所示,训练装置包括拆分模块210、汉字转拼音模块220、拼音转音素模块230、词嵌入模块240、拼音获得模块250以及重排模块260。
拆分模块210将中文文本中的中文句子拆分成汉字。具体地,将中文句子中的相邻汉字间隔开。
汉字转拼音模块220将汉字转化成拼音,该拼音包括声调。具体地,可以通过现有的软件将汉字转化为拼音。
拼音转音素模块230将拼音转化为音素。具体地,通过发音词典将拼音转化为音素。作为一个实施例,音素包括声母和韵母。
词嵌入模块240将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量。具体地,在词嵌入模型中,将汉字转化为汉字向量,将声调转化成声调向量,将单个的音素转化为音素序列向量。
其中,与中文文本对应的多个汉字向量组成汉字向量集,与中文文本对应的多个声调向量组成声调向量集,与中文文本对应的多个音素序列向量组成音素序列向量集,并且汉字向量集与声调向量集之间存在一一对应关系。
拼音获得模块250根据音素间的关联关系形成单个拼音向量。具体地,以依据音素所在的拼音确定音素的相邻音素(具有关联关系的音素),并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。与中文文本对应的多个单个拼音向量组成拼音向量集,并且单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。
重排模块260按照单个拼音向量包含的音素的数量对汉字向量和声调向量进行复制,使汉字向量的数量、声调向量的数量与音素的数量相同,并将这些汉字向量、声调向量与该单个拼音向量建立对应关系。
依据汉字的拼音结构,音素的数量可能是1-4个,因此,同一个汉字向量和同一个声调向量的数量可能是1-4,如图1所示。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种语音合成的输入音素的训练方法,其特征在于,包括:
将中文文本中的中文句子拆分成汉字;
将汉字转化成拼音,该拼音包括声调;
将拼音转化为音素;
将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;
形成拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。
2.如权利要求1所述的训练方法,其特征在于,通过发音词典将拼音转化为音素。
3.如权利要求1所述的训练方法,其特征在于,词嵌入模型的输出中,汉字向量集与声调向量集之间存在一一对应关系。
4.如权利要求1所述的训练方法,其特征在于,根据音素间的关联关系形成单个拼音向量。
5.如权利要求4所述的训练方法,其特征在于,依据音素所在的拼音确定音素间的关联关系,并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。
6.一种基于权利要求1-5所述的训练方法的输入音素的获得方法,其特征在于,包括:
将中文文本中的中文句子拆分成汉字;
将汉字转化成拼音,该拼音包括声调;
将汉字、拼音以及声调输入词嵌入模型,获得汉字向量、声调向量以及单个拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。
7.如权利要求6所述的获得方法,其特征在于,将中文句子拆分成汉字时将中文句子中的相邻汉字间隔开。
8.如权利要求6所述的获得方法,其特征在于,根据音素间的关联关系形成单个拼音向量。
9.如权利要求8所述的获得方法,其特征在于,依据音素所在的拼音确定音素间的关联关系,并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。
10.一种语音合成的输入音素的训练装置,其特征在于,包括拆分模块、汉字转拼音模块、拼音转音素模块、词嵌入模块、拼音获得模块;
其中,拆分模块将中文文本中的中文句子拆分成汉字;
汉字转拼音模块将汉字转化成拼音,该拼音包括声调;
拼音转音素模块将拼音转化为音素;
词嵌入模块将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;
拼音获得模块形成单个拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010663237.3A CN111785249A (zh) | 2020-07-10 | 2020-07-10 | 语音合成的输入音素的训练方法、装置及获得方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010663237.3A CN111785249A (zh) | 2020-07-10 | 2020-07-10 | 语音合成的输入音素的训练方法、装置及获得方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111785249A true CN111785249A (zh) | 2020-10-16 |
Family
ID=72768376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010663237.3A Pending CN111785249A (zh) | 2020-07-10 | 2020-07-10 | 语音合成的输入音素的训练方法、装置及获得方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785249A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549627A (zh) * | 2018-03-08 | 2018-09-18 | 北京达佳互联信息技术有限公司 | 汉字处理方法及装置 |
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和*** |
CN109800440A (zh) * | 2019-02-26 | 2019-05-24 | 京东方科技集团股份有限公司 | 汉字的序列标注方法及***、计算机设备及可读存储介质 |
US20190172443A1 (en) * | 2017-12-06 | 2019-06-06 | International Business Machines Corporation | System and method for generating expressive prosody for speech synthesis |
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其*** |
CN110956948A (zh) * | 2020-01-03 | 2020-04-03 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
CN111145719A (zh) * | 2019-12-31 | 2020-05-12 | 北京太极华保科技股份有限公司 | 将中英混合及语气标签化的数据标注方法及装置 |
-
2020
- 2020-07-10 CN CN202010663237.3A patent/CN111785249A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190172443A1 (en) * | 2017-12-06 | 2019-06-06 | International Business Machines Corporation | System and method for generating expressive prosody for speech synthesis |
CN108549627A (zh) * | 2018-03-08 | 2018-09-18 | 北京达佳互联信息技术有限公司 | 汉字处理方法及装置 |
CN109800440A (zh) * | 2019-02-26 | 2019-05-24 | 京东方科技集团股份有限公司 | 汉字的序列标注方法及***、计算机设备及可读存储介质 |
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和*** |
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其*** |
CN111145719A (zh) * | 2019-12-31 | 2020-05-12 | 北京太极华保科技股份有限公司 | 将中英混合及语气标签化的数据标注方法及装置 |
CN110956948A (zh) * | 2020-01-03 | 2020-04-03 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
章森;刘磊;刁麓弘;: "大规模语音语料库及其在TTS中应用的几个问题", 计算机学报, no. 04 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113439301B (zh) | 用于机器学习的方法和*** | |
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
EP2958105B1 (en) | Method and apparatus for speech synthesis based on large corpus | |
CN101000764B (zh) | 基于韵律结构的语音合成文本处理方法 | |
EP1267326B1 (en) | Artificial language generation | |
CN115516552A (zh) | 使用未说出的文本和语音合成的语音识别 | |
El-Imam | Phonetization of Arabic: rules and algorithms | |
EP1251490A1 (en) | Compact phonetic model for arabic languages recognition | |
CN110197655B (zh) | 用于合成语音的方法和装置 | |
CN104899192B (zh) | 用于自动通译的设备和方法 | |
KR20220148245A (ko) | 스트리밍 시퀀스 모델에 대한 일관성 예측 | |
JP2020034883A (ja) | 音声合成装置及びプログラム | |
CN112365878A (zh) | 语音合成方法、装置、设备及计算机可读存储介质 | |
CN110083711A (zh) | 一种汉字拼音转换方法及转换*** | |
US20020087317A1 (en) | Computer-implemented dynamic pronunciation method and system | |
US20020198712A1 (en) | Artificial language generation and evaluation | |
KR20240051176A (ko) | 스피치 합성 기반 모델 적응을 통한 스피치 인식 개선하기 | |
Yoo et al. | The performance evaluation of continuous speech recognition based on Korean phonological rules of cloud-based speech recognition open API | |
CN108109610B (zh) | 一种模拟发声方法及模拟发声*** | |
KR20180025559A (ko) | 발음 사전 학습 방법 및 장치 | |
JP2023546930A (ja) | 言語間音声合成を改良するための音声認識の使用 | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
CN112002304A (zh) | 语音合成方法及装置 | |
US20220189455A1 (en) | Method and system for synthesizing cross-lingual speech | |
CN111785249A (zh) | 语音合成的输入音素的训练方法、装置及获得方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |