CN110956948A - 端到端的语音合成方法、装置及存储介质 - Google Patents

端到端的语音合成方法、装置及存储介质 Download PDF

Info

Publication number
CN110956948A
CN110956948A CN202010007126.7A CN202010007126A CN110956948A CN 110956948 A CN110956948 A CN 110956948A CN 202010007126 A CN202010007126 A CN 202010007126A CN 110956948 A CN110956948 A CN 110956948A
Authority
CN
China
Prior art keywords
text
speech synthesis
processed
pinyin
wave data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010007126.7A
Other languages
English (en)
Inventor
邵志明
郝玉峰
黄宇凯
曹琼
李科
宋琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Speechocean Technology Co ltd
Original Assignee
Beijing Speechocean Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Speechocean Technology Co ltd filed Critical Beijing Speechocean Technology Co ltd
Priority to CN202010007126.7A priority Critical patent/CN110956948A/zh
Publication of CN110956948A publication Critical patent/CN110956948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及互联网技术领域,提供端到端的语音合成方法、端到端的语音合成装置、端到端的语音合成模型训练方法、端到端的语音合成模型训练装置及存储介质,该端到端的语音合成方法包括:获取待处理文本;基于待处理文本,生成待处理文本对应的拼音序列;基于拼音序列,根据拼音的声母、韵母及声调得到拼音序列的模型数据;将模型数据输入端到端的语音合成模型,得到待处理文本对应的声波数据;合成声波数据,得到待处理文本对应的语音数据。该方法将待处理文本拆分为拼音的声母、韵母及声调分别作为整体得到模型数据,将模型数据输入端到端的语音合成模型得到待处理文本对应的声波数据,更符合中文文本发音规律,使语音合成的结果更加准确。

Description

端到端的语音合成方法、装置及存储介质
技术领域
本发明涉及互联网技术领域,特别是端到端的语音合成方法、端到端的语音合成装置、端到端的语音合成模型训练方法、端到端的语音合成模型训练装置及存储介质。
背景技术
语音合成,又称文语转换(TTS,Text To Speech)技术,能将任意文本转化为标准语音,即将文字信息转化为可听的声音信息,涉及声学、语言学、数字信号处理以及计算机科学。
在使用端到端语音合成技术时,前端处理十分重要,需要分析、学习文本中包含的语言学信息,以便为后续语音合成打下基础。利用神经网络进行前端处理,输入对象的选取关系着神经网络的优劣程度。
发明内容
为了解决现有技术中存在的上述问题,本发明提供端到端的语音合成方法、端到端的语音合成装置、端到端的语音合成模型训练方法、端到端的语音合成模型训练装置及存储介质。
一方面,本发明实施例提供端到端的语音合成方法,包括:获取待处理文本;基于待处理文本,生成待处理文本对应的拼音序列;基于拼音序列,根据拼音的声母、韵母及声调得到拼音序列的模型数据;将模型数据输入端到端的语音合成模型,得到待处理文本对应的声波数据;合成声波数据,得到待处理文本对应的语音数据。
在一实施例中,模型数据包括编码序列;基于拼音序列,根据拼音的声母、韵母及声调得到拼音序列的模型数据,包括:基于拼音序列,得到对应的音素序列,其中音素包括声母和带调韵母;基于音素序列,得到编码序列。
在一实施例中,基于待处理文本,生成待处理文本对应的拼音序列,包括:基于待处理文本,转换得到纯字文本;基于纯字文本,生成拼音序列。
在一实施例中,基于纯字文本,生成所述拼音序列,包括:对纯字文本进行分词,得到分词文本;基于分词文本,生成拼音序列。
在一实施例中,基于分词文本,生成拼音序列,包括:根据分词文本进行发音预测,得到拼音序列。
本发明实施例的又一方面提供端到端的语音合成模型训练方法,端到端的语音合成模型用于如前任一项所述的端到端的语音合成方法,端到端的语音合成模型训练方法包括:获取训练集,其中训练集包括多个文本以及与多个文本对应的多个语音;将语音转换为标准声波数据;将文本输入端到端的语音合成模型,得到待测声波数据;根据标准声波数据和待测声波数据,训练端到端的语音合成模型。
本发明实施例的又一方面提供端到端的语音合成装置,端到端的语音合成装置包括:获取模块,用于获取待处理文本;生成模块,用于基于待处理文本,生成待处理文本对应的拼音序列;模型数据生成模块,用于基于拼音序列,根据拼音的声母、韵母及声调得到拼音序列的模型数据;声波数据生成模块,用于将模型数据输入端到端的语音合成模型,得到待处理文本对应的声波数据;合成模块,用于合成声波数据,得到待处理文本对应的语音数据。
本发明实施例的又一方面提供端到端的语音合成模型训练装置,端到端的语音合成模型用于如前任一项所述的端到端的语音合成方法,端到端的语音合成模型训练装置包括:获取模块,用于获取训练集,其中训练集包括多个文本以及与多个文本对应的多个语音;转换模块,用于将语音转换为标准声波数据;数据生成模块,用于将文本输入端到端的语音合成模型,得到待测声波数据;训练模块,用于根据标准声波数据和待测声波数据,训练端到端的语音合成模型。
本发明实施例的又一方面提供一种电子设备,其中,电子设备包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行端到端的语音合成方法或端到端的语音合成模型训练方法。
本发明实施例的又一方面提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行端到端的语音合成方法或端到端的语音合成模型训练方法。
本发明实施例将待处理文本拆分为拼音的声母、韵母及声调分别作为整体得到模型数据,将模型数据输入端到端的语音合成模型得到待处理文本对应的声波数据,更符合中文文本发音规律,使端到端的语音合成模型对文本的语音合成更加准确。
附图说明
通过参考附图阅读下文的详细描述,本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示出了本发明实施例提供的一种端到端的语音合成方法示意图;
图2示出了本发明实施例提供的一种端到端的语音合成方法的流程图;
图3示出了本发明实施例提供的一种端到端的语音合成模型训练方法示意图;
图4示出了本发明实施例提供的一种端到端的语音合成装置示意图;
图5示出了本发明实施例提供的一种端到端的语音合成模型训练装置示意图;
图6示出了本发明实施例提供的一种电子设备示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
需要注意,虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。
图1示出了本发明实施例提供的一种端到端的语音合成方法的流程图。如图1所示,该方法包括:
在步骤S101中,获取待处理文本。
待处理文本可以是包括汉字短语、语句或多条语句,例如“你好”、“中国人”、“我爱祖国”。待处理文本可以是实时获取也可以来自存储设备中。
在步骤S102中,基于待处理文本,生成待处理文本对应的拼音序列。
每个汉字对应自己的读音,用拼音来表征汉字的读音。拼音用到的字母称拼音字母,拼音字母包括声母、韵母以及声调,每个汉字对应一个或多个拼音字母。待处理文本可以包括多个汉字,将多个汉字中的每个汉字对应拼音字母按照汉字的排列顺序排列,多个按顺序的拼音字母构成待处理文本对应的拼音序列。
例如上述待处理文本为“你好”,对应的拼音序列为“nǐhāo”。待处理文本为“中国人”,对应的拼音序列为“zhōngguórén”。可以理解地,拼音序列中的音调可以以其所在顺序及音调对应的数字表示。仍以上述待处理文本为例,“你好”对应的拼音序列可以是“ni3hao3”。“中国人”对应的拼音序列可以是“zhong1 guo2 ren2”。汉字之间可以包括空格以间隔不同的文字。进一步地,“你好”对应的拼音序列可以是“ni3空格hao3”。“中国人”对应的拼音序列可以是“zhong1空格guo2空格 ren2”。
在步骤S103中,基于拼音序列,根据拼音的声母、韵母及声调得到拼音序列的模型数据。
将待处理文本对应的拼音序列进行拆分,拆分成声母、韵母以及声调,作为拼音序列的模型数据。可以理解地,根据汉字的拼音的声母以及韵母的发音习惯,在构建拼音序列的模型数据时,根据拼音的声母、韵母及声调的规则进行拆分,符合中文文本发音中的声母、韵母的结构划分。
仍以上述待处理文本为“你好”、“中国人”为例,根据上述拆分原则,“你”被拆分成n、i、3,“好”被拆分成h、ao、3,则“你好”对应的拼音序列可以是“n i 3空格h ao 3”。“中国人”对应的拼音序列可以是“zh ong 1空格g uo 2 空格r en2”。
在步骤S104中,将模型数据输入端到端的语音合成模型,得到待处理文本对应的声波数据。
将上述待处理文本对应的拼音序列作为模型数据输入端到端的语音合成模型,得到待处理文本对应的声波数据。语音合成模型为端到端的模型,其输入为待处理文本或待处理文本对应的拼音序列,输出为待处理文本对应的声波数据。
本公开的端到端语音合成方法中,直接输入文本或者拼音序列,输出音频波形,对分词、词性、多音字标注等文本特征信息提取过程得到极大简化、降低语言学知识的要求、减少人工干预,语音合成效果好。
根据拼音的声母、韵母及声调得到拼音序列的模型数据,有利于端到端的语音合成模型学习拼音序列中每个单元的声音特征,使端到端的语音合成模型的学习更加有效。
在步骤S105中,合成声波数据,得到待处理文本对应的语音数据。
本发明实施例将待处理文本拆分为拼音的声母、韵母及声调分别作为整体得到模型数据,将模型数据输入端到端的语音合成模型得到待处理文本对应的声波数据,更符合中文文本发音规律,使端到端的语音合成模型对文本的语音合成更加准确。
在一实施例中,模型数据包括编码序列。基于拼音序列,得到对应的音素序列,其中音素包括声母和带调韵母。基于音素序列,得到编码序列。
将汉语拼音韵母和声调划分在一起,组成带调韵母,符合中文文本发音中的声母、韵母的结构划分。声母和带调韵母构成音素。每个拼音字母在语音中是没有严格对应的语音波形片段,每个音素对应语音波形中的一个片段。
将待处理文本的拼音序列转换成音素序列,拆分规则可以是划分23个声母:b、p、m、f、d、……c、s、y、w,24个韵母:a、o、e、i、u…… eng、ing、ong,以及声调标识1-5,其中5表示轻声。将汉字对应的拼音的声调标识放在拼音韵母后面,组成带调韵母,例如“ong1”“uo2”来表示文本“中”“国”对应的拼音的带调韵母。
进一步地,还可以是根据预设编码规则,对上述音素进行编码,每个编码ID对应一个音素,建立音素与编码ID之间的映射关系,映射关系可以以表格的方式进行记录以及存储。
表1
编码ID 音素
1 a1
2 a2
…… ……
18 g
23 zh
56 ong1
78 uo2
98 空格
示例性地,参见表1中的音素编码表。文本“中”“国”对应的音素为“zh”“ong1”“g”“uo2”,根据表1中,音素与编码ID对的对应关系,上述音素对应的编码ID分别为23、56和18、78。文本之间可以包括空格以表示间隔,则文本“中国”对应的编码序列分别为23、56、98、18和78。
将编码序列作为模型数据作为端到端的语音合成模型的输入,可以简便模型数据的输入,使得端到端的语音合成模型对文本的处理更加有效。
在一实施例中,基于待处理文本,转换得到纯字文本。基于纯字文本,生成拼音序列。
待处理文本中可以是包括一些特殊字符或者数字,例如“36℃”,即非纯文字文本。在将待处理文本转换为拼音序列之前,可以是先对存在的特殊字符或者数字进行转换,得到纯字文本。
仍以“36℃”为例,可以将其转换成“三十六摄氏度”的纯字文本,可以为后续拼音序列的处理做准备,使端到端的语音合成模型的输入对象更准确,改善语音合成效果。
处理纯字文本得到其对应的拼音序列,拼音序列的生成方式与上述实施例中类似,在此不再赘述。
在一实施例中,对纯字文本进行分词,得到分词文本。基于分词文本,生成拼音序列。
对纯字文本进行分词,例如对纯字文本进行语义解析,根据词性、词义、在语句中的成分,将语句划分为词组,例如,纯字文本为“我爱祖国”,得到的分词文本为“我”“爱”“祖国”。
基于分词文本“我”“爱”“祖国”,生成拼音序列,进一步使端到端的语音合成模型的输入对象更准确,可以达到良好的语音合成效果。
基于分词文本,生成拼音序列的方式与上述实施例中类似,在此不再赘述。
在一实施例中,根据分词文本进行发音预测,得到拼音序列。
汉字中的多音字,即一个汉字可以是对应多个读音,其读法可以根据语义确定。为了得到待处理文本对应的准确的语音数据,对分词文本进行发音预测,即对可能包括多音字的待处理文本中的多音字确定其读音。
例如,纯字文本为“出门当心上当”,得到的分词文本为“出门”“当心”“上当”。其中,“当心”与“上当”中的当的声调为别为1和4。纯字文本“出门在外当心上当”对应的拼音依次为“chu1空格 men2”,“dang1空格 xin1”,“shang4空格dang4”,由这些拼音按照汉字出现的先后顺序,组成拼音序列。
图3示出了本发明实施例提供的一种端到端的语音合成方法的流程图,即将待处理文本对应的拼音序列拆分成对应的声母和带调韵母,并按照上述表1进行编码,得到编码序列的方法。
待处理文本为“中国”,根据待处理文本“中国”,生成其对应的拼音序列“zhong1guo2”。
对上述拼音序列进行声母和带调韵母的音素拆分,得到音素序列“zh”“ong1”空格“g”“uo2”,每个音素作为一个整体生成建模单元进行建模。
对每个建模单元对应编码,得到编码序列,将编码序列作为模型数据输入端到端的语音合成模型。
图2示出了本发明实施例提供的一种端到端的语音合成模型训练方法的流程图,端到端的语音合成模型用于如前任一所述的端到端的语音合成方法。语音合成模型是一个端到端的神经网络模型,输入为文本,输出的是文本对应的声音波形。如图2所示,该端到端的语音合成模型训练方法包括:
在步骤S201中,获取训练集,其中训练集包括多个文本以及与多个文本对应的多个语音。
多个文本对应的多个语音可以是来自标准文本语音库,也可以是采用人工标注的方法,标注多个文本对应的多个语音。
在步骤S202中,将语音转换为标准声波数据。将语音转换成标准声波数据可以采用当前技术中各种处理方法,本公开实施例对此不作限定。
在步骤S203中,将文本输入端到端的语音合成模型,得到待测声波数据。
将多个文本输入端到端的语音合成模型,得到待测声波数据。
在步骤S204中,根据标准声波数据和待测声波数据,训练端到端的语音合成模型。可以理解的是,对标准声波数据和待测声波数据的训练次数越多,得到的端到端的语音合成模型越优化。
图4示出了本发明实施例提供的一种端到端的语音合成装置框图。参照图4,该端到端的语音合成装置300包括获取模块310、生成模块320、模型数据生成模块330、声波数据生成模块340和合成模块350。
所述各个模块可分别执行上文中描述的端到端的语音合成方法的各个步骤/功能。以下仅对该端到端的语音合成装置300的各部件的主要功能进行描述,而省略以上已经描述过的细节内容。
获取模块310,用于获取待处理文本。
生成模块320,用于基于待处理文本,生成待处理文本对应的拼音序列。
模型数据生成模块330,用于基于拼音序列,根据拼音的声母、韵母及声调得到拼音序列的模型数据。
声波数据生成模块340,用于将模型数据输入端到端的语音合成模型,得到待处理文本对应的声波数据。
合成模块350,用于合成声波数据,得到待处理文本对应的语音数据。
在一实施例中,模型数据包括编码序列。模型数据生成模块330采用如下方式基于拼音序列,根据拼音的声母、韵母及声调得到拼音序列的模型数据。基于拼音序列,得到对应的音素序列,其中音素包括声母和带调韵母。基于音素序列,得到编码序列。
在一实施例中,生成模块320还用于基于待处理文本,转换得到纯字文本,基于纯字文本,生成拼音序列。
在一实施例中,生成模块320还用于对纯字文本进行分词,得到分词文本,基于分词文本,生成拼音序列。
在一实施例中,生成模块320还用于根据分词文本进行发音预测,得到拼音序列。
图5示出了本发明实施例提供的一种端到端的语音合成模型训练装置框图。参照图5,该端到端的语音合成模型训练装置400包括:获取模块410、转换模块420、数据生成模块430和训练模块440。
所述各个模块可分别执行上文中描述的端到端的语音合成模型训练方法的各个步骤/功能。以下仅对该端到端的语音合成模型训练装置400的各部件的主要功能进行描述,而省略以上已经描述过的细节内容。
获取模块410,用于获取训练集,其中训练集包括多个文本以及与多个文本对应的多个语音。
转换模块420,用于将语音转换为标准声波数据。
数据生成模块430,用于将文本输入端到端的语音合成模型,得到待测声波数据。
训练模块440,用于根据标准声波数据和待测声波数据,训练端到端的语音合成模型。
装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应,其具体实现和技术效果请参见上文对于方法步骤的描述,在此不再赘述。
如图6所示,本发明的一个实施方式提供了一种电子设备50。其中,该电子设备50包括存储器510、处理器520、输入/输出(Input/Output,I/O)接口530。其中,存储器510,用于存储指令。处理器520,用于调用存储器510存储的指令执行本发明实施例的用于端到端的语音合成方法或端到端的语音合成模型训练方法。其中,处理器520分别与存储器510、I/O接口530连接,例如可通过总线***和/或其他形式的连接机构(未示出)进行连接。存储器510可用于存储程序和数据,包括本发明实施例中涉及的用于端到端的语音合成方法或端到端的语音合成模型训练方法的程序,处理器520通过运行存储在存储器510的程序从而执行电子设备50的各种功能应用以及数据处理。
本发明实施例中处理器520可以采用数字信号处理器(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现,所述处理器520可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。
本发明实施例中的存储器510可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等。
本发明实施例中,I/O接口530可用于接收输入的指令(例如数字或字符信息,以及产生与电子设备50的用户设置以及功能控制有关的键信号输入等),也可向外部输出各种信息(例如,图像或声音等)。本发明实施例中I/O接口530可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。
在一些实施方式中,本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行上文所述的任何方法。
尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本发明的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims (9)

1.一种端到端的语音合成方法,其特征在于,包括:
获取待处理文本;
基于所述待处理文本,生成所述待处理文本对应的拼音序列;
基于所述拼音序列,得到对应的音素序列,其中所述音素包括声母和带调韵母;
基于所述音素序列,得到编码序列;
将所述编码序列输入端到端的语音合成模型,得到所述待处理文本对应的声波数据;
合成所述声波数据,得到所述待处理文本对应的语音数据。
2.根据权利要求1所述的端到端的语音合成方法,其特征在于,所述基于所述待处理文本,生成所述待处理文本对应的拼音序列,包括:
基于所述待处理文本,转换得到纯字文本;
基于所述纯字文本,生成所述拼音序列。
3.根据权利要求2所述的端到端的语音合成方法,其特征在于,所述基于所述纯字文本,生成所述拼音序列,包括:
对所述纯字文本进行分词,得到分词文本;
基于所述分词文本,生成所述拼音序列。
4.根据权利要求3所述的端到端的语音合成方法,其特征在于,所述基于所述分词文本,生成所述拼音序列,包括:
根据所述分词文本进行发音预测,得到所述拼音序列。
5.一种端到端的语音合成模型训练方法,其特征在于,所述端到端的语音合成模型用于如权利要求1-4任一项所述的端到端的语音合成方法,所述端到端的语音合成模型训练方法包括:
获取训练集,其中所述训练集包括多个文本以及与所述多个文本对应的多个语音;
将所述语音转换为标准声波数据;
将所述文本输入所述端到端的语音合成模型,得到待测声波数据;
根据所述标准声波数据和所述待测声波数据,训练所述端到端的语音合成模型。
6.一种端到端的语音合成装置,其特征在于,包括:
获取模块,用于获取待处理文本;
生成模块,用于基于所述待处理文本,生成所述待处理文本对应的拼音序列;
模型数据生成模块,用于基于所述拼音序列,得到对应的音素序列,其中所述音素包括声母和带调韵母,且基于所述音素序列,得到编码序列;
声波数据生成模块,用于将所述编码序列输入端到端的语音合成模型,得到所述待处理文本对应的声波数据;
合成模块,用于合成所述声波数据,得到所述待处理文本对应的语音数据。
7.一种端到端的语音合成模型训练装置,其特征在于,所述端到端的语音合成模型用于如权利要求1-4任一项所述的端到端的语音合成方法,所述端到端的语音合成模型训练装置包括:
获取模块,用于获取训练集,其中所述训练集包括多个文本以及与所述多个文本对应的多个语音;
转换模块,用于将所述语音转换为标准声波数据;
数据生成模块,用于将所述文本输入所述端到端的语音合成模型,得到待测声波数据;
训练模块,用于根据所述标准声波数据和所述待测声波数据,训练所述端到端的语音合成模型。
8.一种电子设备,其中,所述电子设备包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行权利要求1-4中任一项所述的端到端的语音合成方法以及权利要求5所述的端到端的语音合成模型训练方法。
9.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-4中任一项所述的端到端的语音合成方法以及权利要求5所述的端到端的语音合成模型训练方法。
CN202010007126.7A 2020-01-03 2020-01-03 端到端的语音合成方法、装置及存储介质 Pending CN110956948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010007126.7A CN110956948A (zh) 2020-01-03 2020-01-03 端到端的语音合成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010007126.7A CN110956948A (zh) 2020-01-03 2020-01-03 端到端的语音合成方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110956948A true CN110956948A (zh) 2020-04-03

Family

ID=69985490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010007126.7A Pending CN110956948A (zh) 2020-01-03 2020-01-03 端到端的语音合成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110956948A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667810A (zh) * 2020-06-08 2020-09-15 北京有竹居网络技术有限公司 多音字语料的获取方法、装置、可读介质和电子设备
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN111696517A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
CN111785249A (zh) * 2020-07-10 2020-10-16 恒信东方文化股份有限公司 语音合成的输入音素的训练方法、装置及获得方法
CN111798834A (zh) * 2020-07-03 2020-10-20 北京字节跳动网络技术有限公司 多音字的识别方法、装置、可读介质和电子设备
CN112102810A (zh) * 2020-09-22 2020-12-18 深圳追一科技有限公司 一种语音合成方法、***及相关设备
CN112151008A (zh) * 2020-09-22 2020-12-29 中用科技有限公司 一种语音合成方法、***及计算机设备
CN112541957A (zh) * 2020-12-09 2021-03-23 北京百度网讯科技有限公司 动画生成方法、装置、电子设备以及计算机可读介质
CN113053355A (zh) * 2021-03-17 2021-06-29 平安科技(深圳)有限公司 佛乐的人声合成方法、装置、设备及存储介质
CN113689880A (zh) * 2020-05-18 2021-11-23 北京搜狗科技发展有限公司 实时驱动虚拟人的方法、装置、电子设备及介质
CN114049872A (zh) * 2021-10-20 2022-02-15 深圳航天智慧城市***技术研究院有限公司 基于边缘计算的消费提醒方法、***、存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000764A (zh) * 2006-12-18 2007-07-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
US20160049144A1 (en) * 2014-08-18 2016-02-18 At&T Intellectual Property I, L.P. System and method for unified normalization in text-to-speech and automatic speech recognition
CN107945786A (zh) * 2017-11-27 2018-04-20 北京百度网讯科技有限公司 语音合成方法和装置
CN109036377A (zh) * 2018-07-26 2018-12-18 ***股份有限公司 一种语音合成方法及装置
CN109389968A (zh) * 2018-09-30 2019-02-26 平安科技(深圳)有限公司 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN109686361A (zh) * 2018-12-19 2019-04-26 深圳前海达闼云端智能科技有限公司 一种语音合成的方法、装置、计算设备及计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000764A (zh) * 2006-12-18 2007-07-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
US20160049144A1 (en) * 2014-08-18 2016-02-18 At&T Intellectual Property I, L.P. System and method for unified normalization in text-to-speech and automatic speech recognition
CN107945786A (zh) * 2017-11-27 2018-04-20 北京百度网讯科技有限公司 语音合成方法和装置
CN109036377A (zh) * 2018-07-26 2018-12-18 ***股份有限公司 一种语音合成方法及装置
CN109389968A (zh) * 2018-09-30 2019-02-26 平安科技(深圳)有限公司 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN109686361A (zh) * 2018-12-19 2019-04-26 深圳前海达闼云端智能科技有限公司 一种语音合成的方法、装置、计算设备及计算机存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN113689880B (zh) * 2020-05-18 2024-05-28 北京搜狗科技发展有限公司 实时驱动虚拟人的方法、装置、电子设备及介质
CN113689880A (zh) * 2020-05-18 2021-11-23 北京搜狗科技发展有限公司 实时驱动虚拟人的方法、装置、电子设备及介质
CN111696517A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
CN111667810B (zh) * 2020-06-08 2021-10-15 北京有竹居网络技术有限公司 多音字语料的获取方法、装置、可读介质和电子设备
CN111667810A (zh) * 2020-06-08 2020-09-15 北京有竹居网络技术有限公司 多音字语料的获取方法、装置、可读介质和电子设备
CN111798834A (zh) * 2020-07-03 2020-10-20 北京字节跳动网络技术有限公司 多音字的识别方法、装置、可读介质和电子设备
CN111785249A (zh) * 2020-07-10 2020-10-16 恒信东方文化股份有限公司 语音合成的输入音素的训练方法、装置及获得方法
CN112151008A (zh) * 2020-09-22 2020-12-29 中用科技有限公司 一种语音合成方法、***及计算机设备
CN112102810A (zh) * 2020-09-22 2020-12-18 深圳追一科技有限公司 一种语音合成方法、***及相关设备
CN112541957A (zh) * 2020-12-09 2021-03-23 北京百度网讯科技有限公司 动画生成方法、装置、电子设备以及计算机可读介质
CN112541957B (zh) * 2020-12-09 2024-05-21 北京百度网讯科技有限公司 动画生成方法、装置、电子设备以及计算机可读介质
CN113053355A (zh) * 2021-03-17 2021-06-29 平安科技(深圳)有限公司 佛乐的人声合成方法、装置、设备及存储介质
CN114049872A (zh) * 2021-10-20 2022-02-15 深圳航天智慧城市***技术研究院有限公司 基于边缘计算的消费提醒方法、***、存储介质及设备

Similar Documents

Publication Publication Date Title
CN110956948A (zh) 端到端的语音合成方法、装置及存储介质
CN110797006B (zh) 端到端的语音合成方法、装置及存储介质
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
JP7500020B2 (ja) 多言語テキスト音声合成方法
CN108447486B (zh) 一种语音翻译方法及装置
CN108899009B (zh) 一种基于音素的中文语音合成***
CN114038447A (zh) 语音合成模型的训练方法、语音合成方法、装置及介质
JP7379756B2 (ja) 韻律的特徴からのパラメトリックボコーダパラメータの予測
JP6806662B2 (ja) 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法
CN111899716A (zh) 一种语音合成方法和***
CN113327574B (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN112634865B (zh) 语音合成方法、装置、计算机设备和存储介质
Sefara et al. HMM-based speech synthesis system incorporated with language identification for low-resourced languages
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
JP7190283B2 (ja) 音声認識結果整形モデル学習装置およびそのプログラム
CN108109610B (zh) 一种模拟发声方法及模拟发声***
JP6366179B2 (ja) 発話評価装置、発話評価方法、及びプログラム
CN114822489A (zh) 文本转写方法和文本转写装置
CN110310620B (zh) 基于原生发音强化学习的语音融合方法
Russell et al. BU-TTS: An Open-Source, Bilingual Welsh-English, Text-to-Speech Corpus
Taylor Pronunciation modelling in end-to-end text-to-speech synthesis
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
Jangtjik et al. The Indonesian Language speech synthesizer based on the hidden Markov model
Vineeth et al. Identification of vowel phonemes for speech correction using PRAAT scripting and SPPAS
CN114566143B (zh) 一种可局部修改内容的语音合成方法及语音合成***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200403

RJ01 Rejection of invention patent application after publication