CN110600004A

CN110600004A - 一种语音合成播放方法、装置和存储介质

Info

Publication number: CN110600004A
Application number: CN201910848598.2A
Authority: CN
Inventors: 杨木文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2019-12-20

Abstract

本发明实施例公开了一种语音合成播放方法、装置和存储介质，其中，用户终端可以接收语音合成请求，并根据语音合成请求获取需要进行语音合成的待合成文本，然后将待合成文本发送至语音合成服务器进行语音合成，得到对应的合成语音，然后播放该合成语音，并接收对合成语音的发音校正请求，根据发音校正请求接收对应于合成语音的校正数据，将该校正数据发送至语音合成服务器用于更新合成语音，从而得到更新后的合成语音，将当前播放的合成语音替换为更新后的合成语音进行播放。相比于相关技术，本发明在播放合成语音的过程中，能够实时对播放的合成语音进行校正、更新，由此，即使在多音字的发音预测错误时，也能够及时校正其发音。

Description

一种语音合成播放方法、装置和存储介质

技术领域

本发明涉及语音技术领域，具体涉及一种语音合成播放方法、装置和存储介质。

背景技术

语音合成技术，也被称为文语转换技术(Text To Speech，TTS)，其目标是让机器通过识别和理解，把文本信息转换成语音输出，从而让机器能够说话，是未来人机交互的重要分支。

语音合成技术应用广泛，比如网页内容朗读、小说有声阅读、电子邮件的阅读等。以小说有声阅读为例，通过语音合成，手机、平板电脑等用户终端能够将用户阅读的小说朗读出来，使得用户能够闭眼“看”小说。

在对现有技术的研究和实践过程中，本发明的发明人发现，现有语音合成技术的多音字处理能力存在缺陷，在面临不常见的上下文语境时，往往无法准确的预测出多音字的发音。

发明内容

本发明实施例提供一种语音合成播放方法、装置和存储介质，能够在多音字的发音预测错误时，及时校正其发音。

本发明实施例提供一种语音合成播放方法，包括：

接收语音合成请求，并根据所述语音合成请求获取需要进行语音合成的待合成文本；

将所述待合成文本发送至语音合成服务器进行语音合成，使得所述语音合成服务器返回对应所述待合成文本的合成语音；

播放所述合成语音，并接收对所述合成语音的发音校正请求；

根据所述发音校正请求接收输入的对应于所述合成语音的校正数据，并将所述校正数据发送至所述语音合成服务器，使得所述语音合成服务器根据所述校正数据更新所述合成语音，并返回更新后的合成语音；

将当前播放的所述合成语音替换为所述更新后的合成语音进行播放。

本发明实施例还提供一种语音合成播放方法，包括：

当接收到来自于用户终端的待合成文本时，根据预先训练的语音合成模型对所述待合成文本进行语音合成，得到合成语音；

将所述合成语音返回至所述用户终端进行播放，并接收所述用户终端返回的对应所述合成语音的校正数据；

根据所述校正数据更新所述合成语音，得到更新后的合成语音；

将所述更新后的合成语音返回至所述用户终端，使得所述用户终端将所述合成语音替换为所述更新后的合成语音进行播放。

本发明实施例还提供一种语音合成播放装置，包括：

文本获取模块，用于接收语音合成请求，并根据所述语音合成请求获取需要进行语音合成的待合成文本；

语音合成模块，用于将所述待合成文本发送至语音合成服务器进行语音合成，使得所述语音合成服务器返回对应所述待合成文本的合成语音；

语音播放模块，用于播放所述合成语音，并接收对所述合成语音的发音校正请求；

文本校正模块，用于根据所述发音校正请求接收输入的对应于所述合成语音的校正数据，并将所述校正数据发送至所述语音合成服务器，使得所述语音合成服务器根据所述校正数据更新所述合成语音，并返回更新后的合成语音；

所述语音播放模块还用于将当前播放的所述合成语音替换为所述更新后的合成语音进行播放。

在一实施例中，在根据发音校正请求接收对应于合成语音的校正数据，所述文本校正模块用于：

根据所述发音校正请求展示发音校正界面，所述发音校正界面包括字输入控件和发音控件；

基于所述字输入控件接收所述待合成文本中需要校正的目标字；

基于所述发音控件接收对应所述目标字的目标发音；

将所述目标字和所述目标发音设为所述校正数据。

在一实施例中，在基于发音控件接收对应目标字的目标发音时，所述文本校正模块用于：

校验所述目标字是否为多音字；

当判定所述目标字为多音字时，根据预设的多音字和发音的对应关系，获取所述目标字对应的多个发音；

基于所述发音控件展示所述多个发音，并接收对展示的发音的选择操作；

将所述选择操作对应的发音设为所述目标字的目标发音。

在一实施例中，在根据语音合成请求获取需要进行语音合成的待合成文本时，所述文本获取模块用于：

根据所述语音合成请求提取前台应用的展示内容中的文本，得到提取文本；

按照预设分句策略，将所述提取文本划分为多个分句；

将所述分句设为所述待合成文本。

在一实施例中，在播放合成语音的过程中，所述语音播放模块还用于：

按照预设规则对所述合成语音对应的分句进行标识。

在一实施例中，在接收对合成语音的发音校正请求时，所述语音播放模块用于：

在所述合成语音对应的分句的预设范围内展示发音校正控件；

基于所述发音校正控件接收对合成语音的发音校正请求。

在一实施例中，本发明实施例提供的语音合成播放装置还包括数据存储模块，用于：

将所述待合成文本、所述合成语音和/或所述更新后的合成语音存储至分布式***中。

本发明实施例还提供一种语音合成播放装置，包括语音合成模块、语音下发模块以及语音更新模块，其中，

所述语音合成模块，用于在接收到来自于用户终端的待合成文本时，根据预先训练的语音合成模型对所述待合成文本进行语音合成，得到合成语音；

所述语音下发模块，用于将所述合成语音返回至所述用户终端进行播放，并接收所述用户终端返回的对应所述待合成文本的校正数据；

所述语音更新模块，用于根据所述校正数据更新所述合成语音，得到更新后的合成语音；

所述语音下发模块，还用于所述将所述更新后的合成语音返回至所述用户终端，使得所述用户终端将所述合成语音替换为所述更新后的合成语音进行播放。

在一实施例中，本发明实施例提供的语音合成播放装置还包括模型更新模块，用于：

根据所述待合成文本以及所述校正数据对所述语音合成模型进行更新。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种语音合成播放方法。

本发明中，通过用户终端接收语音合成请求，并根据语音合成请求获取需要进行语音合成的待合成文本，然后将待合成文本发送至语音合成服务器进行语音合成，得到对应的合成语音，然后播放该合成语音，并接收对合成语音的发音校正请求，根据发音校正请求接收对应于合成语音的校正数据，将该校正数据发送至语音合成服务器用于更新合成语音，从而得到更新后的合成语音，将当前播放的合成语音替换为更新后的合成语音进行播放。相比于相关技术，本发明在播放合成语音的过程中，能够实时对播放的合成语音进行校正、更新，由此，即使在多音字的发音预测错误时，也能够及时校正其发音。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的语音合成播放***的架构示意图；

图2a是本发明实施例提供的语音合成播放方法的一流程示意图；

图2b是本发明实施例中展示语音合成控件的示意图；

图2c是本发明实施例中标识合成语音对应的分句一示意图；

图2d是本发明实施例中标识合成语音对应的分句另一示意图；

图2e是本发明实施例中展示发音校正控件的示意图；

图2f是本发明实施例中展示发音校正界面的示意图；

图2g是本发明实施例中分布式***的结构示意图；

图2h是本发明实施例中区块结构的示意图；

图3是本发明实施例提供的语音合成播放方法另一流程示意图；

图4是本发明实施例提供的语音合成播放方法另一流程示意图；

图5是本发明实施例提供的语音合成播放装置的一结构示意图；

图6是本发明实施例提供的语音合成播放装置的一结构示意图；

图7是本发明实施例中用户终端的结构示意图；

图8是本发明实施例中语音合成服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音技术(Speech Technology)的关键分支有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中，语音合成技术成为未来最被看好的人机交互方式之一。

早期的语音合成一般采用专用的芯片实现，如德州仪器公司的TMS50C10/TMS50C57、飞利浦的PH84H36等，但主要应用在家用电器和儿童玩具中。

如今的语音合成一般采用纯软件实现，其文本到语音的转换过程为：首先对文本进行预处理、分词、词性标注、多音字预测、韵律层级预测等处理，然后再通过声学模型，预测各个单元对应的声学特征，最后利用声学参数直接通过声码器合成声音，或者从录音词库中挑选单元进行拼接，以生成与文本对应的语音。

对于中文语音合成而言，目前比较关键的研究方向就是中文韵律处理、符号数字、多音字预测、以及构词等，需要不断研究，以使得中文语音合成的自然化程度提高。

其中多音字预测是中文语音合成的基础之一，多音字发音的正确与否，极大地影响了听者对合成声音的语义理解情况，如果多音字预测准确率高，将极大改善用户体验，使合成出来的语音易于理解，听起来也更加自然流畅。

目前，针对于多音字，现有的语音合成多采用如下合成策略：

若多音字可以和上下文组成词语，则按照固定搭配中的多音字来进行语音合成，比如重(zhong4)点、重(chong2)新，其中，拼音后的数字表示声调；

若多音字以单字形式出现，则利用预先采用大量样本数据训练得到的语音合成模型来预测其发音，比如为(wei4)人民服务、结果为(wei2)零。

其中，常用的语音合成模型的训练方法包括但不限于：条件随机场(ConditionalRandom Field，CRF)方法，隐马尔科夫模型(Hidden Markov Model，HMM)方法，决策树方法等等。这些方法的特点是需要大量多音字的发音来进行训练。优点是可以仅凭文本来预测多音字的发音，且对于出现在常见上下文语境中的多音字预测准确率较高，缺点是对于不常见上下文语境中的多音字的处理能力很差。

基于现有技术中的以上缺陷，本发明实施例提供一种语音合成播放方法、装置和存储介质。其中，包括适用于用户终端的语音合成播放方法、装置和存储介质，以及适用于语音合成服务器的语音合成播放方法、装置和存储介质。

请参阅图1，本发明实施例还提供一种语音合成播放***，该语音合成播放***包括用户终端10、语音合成服务器20以及网络30(可以为有线网络，也可以为无线网络)，用户终端10通过网络30与语音合成服务器20进行交互。其中，网络30中包括路由器、网关等等网络实体，图1中并未一一示意出。

基于图1所示的语音合成播放***，用户终端10可以接收语音合成请求，并根据语音合成请求获取需要进行语音合成的待合成文本，然后将待合成文本发送至语音合成服务器20；语音合成服务器20在接收到来自于用户终端10的待合成文本之后，对待合成文本进行语音合成，得到对应的合成语音，并将该合成语音返回至用户终端10；用户终端10在接收到语音合成服务器20返回的合成语音之后，播放该合成语音，并接收对合成语音的发音校正请求，然后根据发音校正请求接收对应于合成语音的校正数据，并将该校正数据发送至语音合成服务器20；语音合成服务器20在接收到来自于用户终端10的校正数据之后，根据该校正数据更新合成语音，并将更新后的合成语音返回至用户终端10；用户终端10在接收到语音合成服务器20返回的更新后的合成语音之后，将当前播放的合成语音替换为更新后的合成语音进行播放。

需要说明的是，上述图1示出的仅是实现本发明实施例的一个***架构实例，本发明实施例并不限于上述图1所示的***架构。基于该***架构，以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。

实施例一、

本发明实施例提供一种语音合成播放方法，适用于用户终端，包括：接收语音合成请求，并根据语音合成请求获取需要进行语音合成的待合成文本；将待合成文本发送至语音合成服务器进行语音合成，使得语音合成服务器返回对应待合成文本的合成语音；播放合成语音，并接收对合成语音的发音校正请求；根据发音校正请求接收对应于合成语音的校正数据，并将校正数据发送至语音合成服务器，使得语音合成服务器根据校正数据更新合成语音，并返回更新后的合成语音；将当前播放的合成语音替换为更新后的合成语音进行播放。

请参照图2a，该语音合成播放方法的流程可以如下：

201，接收语音合成请求，并根据语音合成请求获取需要进行语音合成的待合成文本。

本发明实施例中，用户终端可以实时接收外部输入的语音合成请求，从而触发进行语音合成，将对应的文本转换为语音进行输出。其中，用户终端可以接收用户直接输入的语音合成请求，也可以接收其它用户终端输入的语音合成请求。

示例性的，对用户而言，可以通过多种不同的方式向用户终端输入语音合成请求。

比如，用户可以采用语音指令的方式说出“请朗读当前界面/全文”等，从而向用户终端输入用于指示对当前界面(比如，网页浏览界面、文本浏览界面等)或全文中的文本进行语音合成的语音合成请求。

又比如，用户终端提供有输入语音合成请求的语音合成控件，如图2b所示，该语音合成控件可以为按钮形式，并通过“朗读”标识，使得用户可以直接点击该语音合成控件以向用户终端输入用于指示对当前界面中的文本进行语音合成的语音合成请求。

应当说明的是，本领域普通技术人员可以根据实际需要对用户终端进行配置，使得用户终端还能够接收以上未示出的其它方式所输入的语音合成请求。

当接收到语音合成请求之后，用户终端进一步根据该语音合成请求获取需要进行语音合成的待合成文本。

在一实施例中，“根据语音合成请求获取需要进行语音合成的待合成文本”，包括：

(1)根据语音合成请求提取前台应用的展示内容中的文本，得到提取文本；

(2)按照预设分句策略，将提取文本划分为多个分句；

(3)将分句设为待合成文本。

本发明实施例中，语音合成请求用于指示用户终端对其前台应用中的文本进行语音合成，前台应用即用户当前正在展示的应用。

相应的，用户终端在根据语音合成请求获取需要进行语音合成的待合成文本时，首先根据接收到语音合成请求，对前台应用的展示内容中的文本进行提取，将提取出的文本记为提取文本。

比如，当用户终端在通过浏览器应用浏览网页期间接收到语音合成请求，则根据该语音合成请求接收网页的DOM树，并基于文本密度计算方法抽取出网页中的文本，如资讯文章正文或小说章节内容等；

又比如，当用户终端在通过文本阅读应用浏览本地的文档(比如txt、word等格式文件)期间接收到语音合成请求，则根据该语音合成请求对本地文档进行编解码，解析出以GB2312编码的纯文本内容。

当提取得到对应前台应用的提取文本之后，用户终端进一步按照预设分句策略，将提取文本划分为多个分句。应当说明的是，本发明实施例对该预设分句策略的配置不做具体限制，可由本领域普通技术人员根据实际需要进行配置，比如，本发明实施例中，配置的预设分句策略为根据标点符号和长度进行分句。

对于划分得到的多个分句，用户终端依次将每一分句设为待合成文本，以对每一分句进行语音合成。

202，将待合成文本发送至语音合成服务器进行语音合成，使得语音合成服务器返回对应待合成文本的合成语音。

用户终端在获取到需要进行语音合成的待合成文本之后，按照预先预定的数据格式，构建携带待合成文本的语音合成能力请求，并将该语音合成能量请求发送至语音合成服务器，指示语音合成服务器进行语音合成。

示例性的，以下为一语音合成能力请求的数据格式示意：

其中，header表示语音合成能力请求的请求头，header.guid表示用户终端的唯一标识，header.qua表示用户终端的设备及应用信息，header.user表示用户信息，header.user.user_id表示用户的唯一标识，header.lbs表示用户位置信息，header.lbs.longitude表示经度，header.lbs.latitude表示维度，header.ip表示用户终端的IP地址，header.device.network表示用户终端的网络类型。

payload表示语音合成能力请求的请求内容，payload.speech_meta表示语音配置信息，payload.speech_meta.compress表示压缩类型，payload.speech_meta.person表示发音人，payload.speech_meta.volume表示发音音量，payload.speech_meta.speed表示发音语速，payload.speech_meta.pitch表示音调，payload.session_id表示会话ID，payload.index表示请求的语音片序号，payload.single_request表示语音合成类型，payload.content表示语音合成的内容，payload.content.text用于填充待合成文本。

另一方面，语音合成服务器在接收到来自于用户终端的语音合成能力请求时，根据该语音合成能量请求进行语音合成，得到对应待合成文本的合成语音，并将该合成语音返回用户终端。

比如，对应于以上示出的语音合成能量请求的数据格式，语音合成服务器返回合成语音的数据格式如下：

其中，header表示消息头，header.session表示会话，header.session.session_id表示会话ID，payload表示消息体，payload.speech_finished表示是否结束，payload.speech_base64表示合成语音的Base64数据。

203，播放合成语音，并接收对合成语音的发音校正请求。

用户终端在接收到语音合成服务器返回的合成语音之后，播放该合成语音，并在播放该合成语音的过程中接收对该合成语音的发音校正请求。

在一实施例中，在播放合成语音的过程中，本发明实施例提供的语音合成播放方法还包括：

按照预设规则对合成语音对应的分句进行标识。

本发明实施例中，用户终端可以在提取得到前台应用的提取文本之后，创建一个覆盖前台应用的语音合成播放界面，并在该语音合成播放界面中展示提取文本。

在播放合成语音的过程中，用户终端按照预设规则对合成语音对应的分句进行标识，其中，通过对合成语音对应的分句进行标识，目的在于突出展示该分句，使得该分句区别展示于其它分句，进而使得用户能够从提取文本中快速定位到正在播放的分句。应当说明的是，本发明实施例中对于预设规则的配置方式不做具体限制，可由本领域普通技术人员根据实际需要进行配置。

比如，预设规则可以配置为增大展示比例，如图2c所示，被设为待合成文本的分句为“开始的时候王宝乐不懂”，该分句相较于其它分句具有更大的展示比例，使得其明显区别于其它分句。

又比如，预设规则可以配置为调整展示颜色，如图2d所示，被设为待合成文本的分句为“开始的时候王宝乐不懂”，该分句相较于其它分句具有不同的展示颜色，使得其明显区别于其它分句。

在一实施例中，“接收对合成语音的发音校正请求”，包括：

(1)在合成语音对应的分句的预设范围内展示发音校正控件；

(2)基于发音校正控件接收对合成语音的发音校正请求。

本发明实施例中，用户终端在播放合成语音的过程中，除了按照预设规则对合成语音对应的分句进行标识之外，还在合成语音对应的分句的预设范围内展示发音校正控件，从而通过该发音校正控件接收对播放的合成语音的发音校正请求。应当说明的是，对于预设范围的配置，本发明实施例中不做具体限制，可由本领域普通技术人员根据实际需要进行配置。

比如，如图2e所示，分句“开始的时候王宝乐不懂”被设为待合成文本，用户终端在播放“开始的时候王宝乐不懂”对应的合成语音的过程中，通过改变展示颜色的方式对“开始的时候王宝乐不懂”进行标识，与此同时，用户终端在“开始的时候王宝乐不懂”的末尾展示发音校正控件，使得用户可以通过点击该发音校正控件来向用户终端输入发音校正请求。

204，根据发音校正请求接收对应于合成语音的校正数据，并将校正数据发送至语音合成服务器，使得语音合成服务器根据校正数据更新合成语音，并返回更新后的合成语音。

本发明实施例中，用户终端在接收输入的发音校正请求之后，进一步根据该发音校正请求接收对应于合成语音的校正数据，并在接收到对应于合成语音的校正数据之后，将该校正数据发送至语音合成服务器，使得语音合成服务器根据校正数据更新合成语音，并返回更新后的合成语音。其中，校正数据包括需要校正的字，以及正确的发音。

比如，用户终端可以采用语音合成能力请求的方式发送校正数据，但与以上所示的语音合成能力请求的数据格式的区别在于，此处额外增加了两个字段，分别为"report_correction"和"correct_phonetic"，其中，report_correction用于表示此次发送的语音合成能力请求是否用于更新合成语音，当写入值为“true”时，表示更新，当写入值为“false”时，表示正常进行语音合成，correct_phonetic用于写入校正数据。当语音合成服务器接收到来自于用户终端的语音合成能力请求时，根据其中"report_correction"确定是否为更新合成语音，若是，则从“correct_phonetic”中提取出校正数据和待合成文本，并根据该校正数据以及待合成文本重新合成得到新的合成语音，设为更新后的合成语音返回至用户终端。

在一实施例中“根据发音校正请求接收对应于合成语音的校正数据”，包括：

(1)根据发音校正请求展示发音校正界面，发音校正界面包括字输入控件和发音控件；

(2)基于字输入控件接收待合成文本中需要校正的目标字；

(3)基于发音控件接收对应目标字的目标发音；

(4)将目标字和目标发音设为校正数据。

本发明实施例中，在根据发音校正请求接收对应于合成语音的校正数据时，用户终端首先根据接收到的发音校正请求展示发音校正界面，该发音校正界面包括字输入控件和发音控件，其中，字输入控件用于接收待合成文本中需要校正的目标字，发音控件用于接收接收对目标字的目标发音。

由此，用户终端可以基于字输入控件接收用户输入的需要校正的目标字，以及基于发音控件接收对应该目标字的目标发音，并将目标字及其对应目标发音设为校正数据。

其中，在将目标字及其对应的目标发音设为校正数据之前，用户终端还识别目标字是否归属于合成语音对应的待合成文本，在且仅在目标字归属于待合成文本时，才将接收到的目标字和目标发音设为对应于播放的合成语音的校正数据，由此来确保对合成语音校正的准确性。

在一实施例中，“基于发音控件接收对应目标字的目标发音”，包括：

(1)校验目标字是否为多音字；

(2)当判定目标字为多音字时，根据预设的多音字和发音的对应关系，获取目标字对应的多个发音；

(3)基于发音控件展示多个发音，并接收对展示的发音的选择操作；

(4)将选择操作对应的发音设为目标字的目标发音。

本发明实施例中，为了进一步确保对合成语音校正的准确性，用户终端在基于发音控件接收对应目标字的目标发音时，首先校验目标字是否为多音字，以在源头排除用户误输入而导致的误校正。

比如，用户终端中预先配置有多音字数据库，该多音字数据库存储有已知的多音字，在校验目标字是否为多音字，用户终端可以查询多音字数据库中是否存在用户输入的目标字，如存在，则校验通过，判定用户输入的目标字为多音字。

当判断输入的目标字为多音字时，用户终端进一步根据预设的多音字和发音的对应关系，获取目标字对应的多个发音。然后，用户终端基于发音控件展示获取到的对应于目标字的多个发音，并接收对展示的发音的选择操作，将选择操作对应的发音设为目标字的目标发音。

示例性的，请参照图2f，发音校正界面展示有：

被设为待合成文本的分句“开始的时候王宝乐不懂”；

输入框形式的字输入控件以及第一提示信息“请输入需要校正的字”，提示用户输入需要校正的目标字，比如图示中用户输入了“乐”；

选择框形式的发音控件以及第二提示信息“请勾选正确发音”，提示用户选择正确的发音作为目标发音，其中，发音控件的个数与获取到的对应目标字发音个数相同，比如图示中展示发音“le4”的发音控件和展示发音“yue4”的发音控件；

用于指示输入完成的“上报校正”控件，当用户输入完成时，可点击该“上报校正”控件，使得用户终端获取到目标字“乐”以及对应的目标发音“le4”。

205，将当前播放的合成语音替换为更新后的合成语音进行播放。

其中，用户终端在接收到语音合成服务器所返回的更新后的合成语音时，即将当前播放的合成语音替换为更新后的合成语音进行播放，实现对合成语音的发音校正。

在一实施例中，本发明实施例提供的语音合成播放方法，还包括：

将待合成文本、合成语音和/或更新后的合成语音存储至分布式***中。

以分布式***为区块链***为例，请参照图2g，图2g是本发明实施例提供的分布式***100应用于区块链的一个可选的结构示意图，其由多个节点(本发明以上实施例提及的用户终端、其它用户终端和语音合成服务器)和客户端形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，TransmissionControl Protocol)协议之上的应用层协议。节点包括硬件层、中间层、操作***层和应用层。

参照图2g示出的区块链***中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链***中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链***中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链***中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链***中节点提交的记录数据。

参照图2h，图2h是本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本发明实施例中，用户终端还可以将以上语音合成过程中的待合成文本及其对应的合成语音和/或更新后的合成语音存储至其所在的分布式***中，以作记录。

由上可知，本发明实施例中，用户终端可以接收语音合成请求，并根据语音合成请求获取需要进行语音合成的待合成文本，然后将待合成文本发送至语音合成服务器进行语音合成，得到对应的合成语音，然后播放该合成语音，并接收对合成语音的发音校正请求，根据发音校正请求接收对应于合成语音的校正数据，将该校正数据发送至语音合成服务器用于更新合成语音，从而得到更新后的合成语音，将当前播放的合成语音替换为更新后的合成语音进行播放。相比于相关技术，本发明在播放合成语音的过程中，能够实时对播放的合成语音进行校正、更新，由此，即使在多音字的发音预测错误时，也能够及时校正其发音。

实施例二、

本发明实施例中还提供一种语音合成播放方法，适用于语音合成服务器，包括：当接收到来自于用户终端的待合成文本时，根据预先训练的语音合成模型对待合成文本进行语音合成，得到合成语音；将合成语音返回至用户终端进行播放，并接收用户终端返回的对应合成语音的校正数据；根据校正数据更新合成语音，得到更新后的合成语音；将更新后的合成语音返回至用户终端，使得用户终端将合成语音替换为更新后的合成语音进行播放。

请参照图3，该语音合成播放方法的流程可以如下：

301，当接收到来自于用户终端的待合成文本时，根据预先训练的语音合成模型对待合成文本进行语音合成，得到合成语音。

其中，用户终端在接收到输入的语音合成请求时，根据该语音合成请求获取需要进行语音合成的待合成文本。相应的，语音合成服务器接收来自于用户终端的待合成文本，当接收到来自于用户终端的待合成文本时，根据预先训练的语音合成模型对待合成文本进行语音合成，得到合成语音。

应当说明的是，语音合成模型可以采用条件随机场(Conditional Random Field，CRF)方法，隐马尔科夫模型(Hidden Markov Model，HMM)方法，决策树方法等方法预先训练得到，本发明对此不做赘述。

302，将合成语音返回至用户终端进行播放，并接收用户终端返回的对应合成语音的校正数据。

语音合成服务器在合成得到合成语音后，将该合成语音返回至用户终端进行播放。

另一方面，用户终端在播放合成语音的过程中，接收对合成语音的发音校正请求，并根据该发音校正请求接收输入的校正数据，将该校正数据发送至语音合成服务器。相应的，语音合成服务器还接收用户终端返回的对应待合成文本的校正数据。

303，根据校正数据更新合成语音，得到更新后的合成语音。

在接收到用户终端返回的校正数据之后，语音合成服务器根据该校正数据更新之前合成得的合成语音，得到更新后的合成语音。

比如，对于待合成文本“开始的时候王宝乐不懂”，合成语音中“乐”的发音为“yue4”，经过更新，更新后的合成语音中“乐”的发音为“le4”。

304，将更新后的合成语音返回至用户终端，使得用户终端将合成语音替换为更新后的合成语音进行播放。

在得到更新后的合成语音之后，语音合成服务器将该更新后的合成语音返回至电子设备，使得电子设备将当前播放的合成语音替换为更新后的合成语音机械能播放，实现发音校正。

应当说明的是，对于本发明实施例为具体说明的部分，可参照以上适用于用户终端的语音合成播放方法的实施例中的相关描述，此处不再赘述。

根据待合成文本以及校正数据对语音合成模型进行更新。

比如，语音合成服务器在每次接收到来自于用户终端的校正数据后，将该校正数据及其对应待合成文本作为训练语料存储至预先创建的数据库中，不断丰富训练语料，等数据库中训练语料累积到预设数量时，根据其中已存储的训练语料采用监督学习的方式对语音合成模型进行更新，使得语音合成模型能够更准确的预测多音字的发音。

在一实施例中，本发明实施例提供的语音合成方法，还包括：

其中，以分布式***为区块链***为例，其由多个节点(本发明以上实施例提及的用户终端和语音合成服务器等)和客户端形成。

本发明实施例中语音合成服务器还可以将语音合成过程中的待合成文本及其对应的合成语音和/或更新后的合成语音存储至其所在的分布式***中，以作记录。

实施例三、

根据前面实施例所描述的方法，以下将举例作进一步说明。

如图4所示，该语音合成播放方法的流程可以如下：

401，用户终端接收语音合成请求，并根据语音合成请求提取前台应用的展示内容中的文本，得到提取文本，以及按照预设分句策略，将提取文本划分为多个分句，并依次将划分得到分句设为待合成文本，发送至语音合成服务器。

本发明实施例中，用户终端可以实时接收外部输入的语音合成请求，从而触发进行语音合成，将对应的文本转换为语音进行输出。

当接收到语音合成请求之后，用户终端进一步根据该语音合成请求获取需要进行语音合成的待合成文本。其中，首先根据接收到语音合成请求，对前台应用的展示内容中的文本进行提取，将提取出的文本记为提取文本。

402，语音合成服务器根据预先训练的语音合成模型对待合成文本进行语音合成，得到合成语音，返回至用户终端。

其中，语音合成服务器接收来自于用户终端的待合成文本，当接收到来自于用户终端的待合成文本时，根据预先训练的语音合成模型对待合成文本进行语音合成，得到合成语音，返回至用户终端。

403，用户终端播放合成语音，并按照预设规则对合成语音对应的分句进行标识，以及在该分句的预设范围内展示发音校正控件。

404，用户终端基于发音校正控件接收对合成语音的发音校正请求。

用户终端在接收到语音合成服务器返回的合成语音之后，播放该合成语音，并在播放合成语音的过程中，按照预设规则对合成语音对应的分句进行标识。

其中，通过对合成语音对应的分句进行标识，目的在于突出展示该分句，使得该分句区别展示于其它分句，进而使得用户能够从提取文本中快速定位到正在播放的分句。应当说明的是，本发明实施例中对于预设规则的配置方式不做具体限制，可由本领域普通技术人员根据实际需要进行配置。

用户终端除了按照预设规则对合成语音对应的分句进行标识之外，还在合成语音对应的分句的预设范围内展示发音校正控件，从而通过该发音校正控件接收对播放的合成语音的发音校正请求。应当说明的是，对于预设范围的配置，本发明实施例中不做具体限制，可由本领域普通技术人员根据实际需要进行配置。

405，用户终端根据发音校正请求展示发音校正界面，发音校正界面包括字输入控件和发音控件；

406，用户终端基于字输入控件接收待合成文本中需要校正的目标字，以及基于发音控件接收对应目标字的目标发音，将目标字和目标发音设为校正数据发送至语音合成服务器。

比如，请参照图2f，发音校正界面展示有：

被设为待合成文本的分句“开始的时候王宝乐不懂”；

用户终端在基于字输入控件接收到用户输入的需要校正的目标字，以及基于发音控件接收到对应该目标字的目标发音后，将目标字及其对应目标发音设为校正数据，发送至语音合成服务器。

407，语音合成服务器根据校正数据更新合成语音，得到更新后的合成语音，返回至用户终端。

在接收到用户终端返回的校正数据之后，语音合成服务器根据该校正数据更新之前合成得的合成语音，得到更新后的合成语音，返回至用户终端。、

408，用户终端将当前播放的合成语音替换为更新后的合成语音进行播放。

实施例四、

为了更好地实施以上语音合成播放方法，本发明实施例还提供一种语音合成播放装置，该语音合成播放装置具体可以集成在用户终端中。

例如，如图5所示，该语音合成播放装置可以包括文本获取模块501、语音合成模块502、语音播放模块503以及文本校正模块504，如下：

文本获取模块501，用于接收语音合成请求，并根据语音合成请求获取需要进行语音合成的待合成文本。

语音合成模块502，用于将待合成文本发送至语音合成服务器进行语音合成，使得语音合成服务器返回对应待合成文本的合成语音；

语音播放模块503，用于播放合成语音，并接收对合成语音的发音校正请求；

文本校正模块504，用于根据发音校正请求接收对应于合成语音的校正数据，并将校正数据发送至语音合成服务器，使得语音合成服务器根据校正数据更新合成语音，并返回更新后的合成语音；

语音播放模块503还用于将当前播放的合成语音替换为更新后的合成语音进行播放。

在一实施例中，在根据发音校正请求接收对应于合成语音的校正数据，文本校正模块504用于：

根据发音校正请求展示发音校正界面，发音校正界面包括字输入控件和发音控件；

基于字输入控件接收待合成文本中需要校正的目标字；

基于发音控件接收对应目标字的目标发音；

将目标字和目标发音设为校正数据。

在一实施例中，在基于发音控件接收对应目标字的目标发音时，文本校正模块504用于：

校验目标字是否为多音字；

当判定目标字为多音字时，根据预设的多音字和发音的对应关系，获取目标字对应的多个发音；

基于发音控件展示多个发音，并接收对展示的发音的选择操作；

将选择操作对应的发音设为目标字的目标发音。

在一实施例中，在根据语音合成请求获取需要进行语音合成的待合成文本时，文本获取模块501用于：

根据语音合成请求提取前台应用的展示内容中的文本，得到提取文本；

按照预设分句策略，将提取文本划分为多个分句；

将分句设为待合成文本。

在一实施例中，在播放合成语音的过程中，语音播放模块503还用于：

按照预设规则对合成语音对应的分句进行标识。

在一实施例中，在接收对合成语音的发音校正请求时，语音播放模块503用于：

在合成语音对应的分句的预设范围内展示发音校正控件；

基于发音校正控件接收对合成语音的发音校正请求。

实施例五、

为了更好地实施以上智能检索方法，本发明实施例还提供一种语音合成播放装置，该语音合成播放装置具体可以集成在语音合成服务器中。

例如，如图6所示，该语音合成播放装置可以包括语音合成模块601、语音下发模块602以及语音更新模块603，如下：

语音合成模块601，用于在当接收到来自于用户终端的待合成文本时，根据预先训练的语音合成模型对待合成文本进行语音合成，得到合成语音；

语音下发模块602，用于将合成语音返回至用户终端进行播放，并接收用户终端返回的对应合成语音的校正数据；

语音更新模块603，用于根据校正数据更新合成语音，得到更新后的合成语音；

语音下发模块602还用于将更新后的合成语音返回至用户终端，使得用户终端将合成语音替换为更新后的合成语音进行播放。

根据待合成文本以及校正数据对语音合成模型进行更新。

实施例六、

本发明实施例还提供一种用户终端，该用户终端可以为手机、平板电脑、笔记本电脑等设备。如图7所示，其示出了本发明实施例所涉及的用户终端的结构示意图，具体来讲：

该用户终端可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解，图7中示出的用户终端结构并不构成对用户终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器701是该用户终端的控制中心，利用各种接口和线路连接整个用户终端的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行用户终端的各种功能和处理数据。

存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器702还可以包括存储器控制器，以提供处理器701对存储器702的访问。

用户终端还包括给各个部件供电的电源703，优选的，电源703可以通过电源管理***与处理器701逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

该用户终端还可包括输入单元704，该输入单元704可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，用户终端还可以包括显示单元等，在此不再赘述。具体在本实施例中，用户终端中的处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现各种功能，如下：

接收语音合成请求，并根据语音合成请求获取需要进行语音合成的待合成文本；将待合成文本发送至语音合成服务器进行语音合成，使得语音合成服务器返回对应待合成文本的合成语音；播放合成语音，并接收对合成语音的发音校正请求；根据发音校正请求接收对应于合成语音的校正数据，并将校正数据发送至语音合成服务器，使得语音合成服务器根据校正数据更新合成语音，并返回更新后的合成语音；将当前播放的合成语音替换为更新后的合成语音进行播放。

应当说明的是，本发明实施例提供的用户终端与上文实施例中的适用于用户终端的语音合成播放方法属于同一构思，其具体实现过程详见以上方法实施例，此处不再赘述。

实施例七、

本发明实施例还提供一种语音合成服务器，如图8所示，其示出了本发明实施例所涉及的用户终端的结构示意图，具体来讲：

该语音合成服务器可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、电源803和输入单元804等部件。本领域技术人员可以理解，图8中示出的语音合成服务器结构并不构成对语音合成服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器801是该语音合成服务器的控制中心，利用各种接口和线路连接整个语音合成服务器的各个部分，通过运行或执行存储在存储器802内的软件程序和/或模块，以及调用存储在存储器802内的数据，执行语音合成服务器的各种功能和处理数据。

存储器802可用于存储软件程序以及模块，处理器801通过运行存储在存储器802的软件程序以及模块，从而执行各种功能应用以及数据处理。此外，存储器802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器802还可以包括存储器控制器，以提供处理器801对存储器802的访问。

语音合成服务器还包括给各个部件供电的电源803，优选的，电源803可以通过电源管理***与处理器801逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

具体在本实施例中，语音合成服务器中的处理器801会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序，从而实现各种功能，如下：

当接收到来自于用户终端的待合成文本时，根据预先训练的语音合成模型对待合成文本进行语音合成，得到合成语音；将合成语音返回至用户终端进行播放，并接收用户终端返回的对应合成语音的校正数据；根据校正数据更新合成语音，得到更新后的合成语音；将更新后的合成语音返回至用户终端，使得用户终端将合成语音替换为更新后的合成语音进行播放。

应当说明的是，本发明实施例提供的语音合成服务器与上文实施例中的适用于语音合成服务器的语音合成播放方法属于同一构思，其具体实现过程详见以上方法实施例，此处不再赘述。

实施例八、

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被用户终端的处理器进行加载，以执行本发明实施例所提供的适用于用户终端的语音合成播放方法，例如，该指令可以执行如下步骤：

此外，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被语音合成服务器的处理器进行加载，以执行本发明实施例所提供的适用于服务器的语音合成播放方法，例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

本发明实施例所提供的存储介质能够实现本发明实施例所提供的对应语音合成播放方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种语音合成播放方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成播放方法，其特征在于，包括：

2.根据权利要求1所述的语音合成播放方法，其特征在于，所述根据所述发音校正请求接收输入的对应于所述合成语音的校正数据的步骤，包括：

基于所述发音控件接收对应所述目标字的目标发音；

将所述目标字和所述目标发音设为所述校正数据。

3.根据权利要求2所述的语音合成播放方法，其特征在于，所述基于所述发音控件接收对应所述目标字的目标发音的步骤，包括：

校验所述目标字是否为多音字；

将所述选择操作对应的发音设为所述目标字的目标发音。

4.根据权利要求1-3所述的语音合成播放方法，所述根据所述语音合成请求获取需要进行语音合成的待合成文本的步骤，包括：

按照预设分句策略，将所述提取文本划分为多个分句；

将所述分句设为所述待合成文本。

5.根据权利要求1-3任一项所述的语音合成播放方法，其特征在于，所述语音合成播放方法还包括：

6.一种语音合成播放方法，其特征在于，包括：

7.根据权利要求6所述的语音合成播放方法，其特征在于，所述语音合成播放方法，还包括：

8.一种语音合成播放装置，其特征在于，包括：

9.一种语音合成播放装置，其特征在于，包括语音合成模块、语音下发模块以及语音更新模块，其中，

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如权利要求1至5任一项所述的语音合成播放方法，或者执行如权利要求6或7所述的语音合成播放方法。