CN112750423B

CN112750423B - 个性化语音合成模型构建方法、装置、***及电子设备

Info

Publication number: CN112750423B
Application number: CN201911039684.5A
Authority: CN
Inventors: 霍媛圆; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-11-17
Anticipated expiration: 2039-10-29
Also published as: CN112750423A; WO2021083113A1

Abstract

本申请公开了个性化语音合成模型构建方法、装置和***，个性化语音合成方法、装置和***，以及电子设备。其中，模型构建方法包括：将录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；向服务端发送采集到的用户录音数据，以使得服务端根据所述用户录音数据，构建所述用户的个性化语音合成模型。采用这种处理方式，使得控制用户录音中句子与句子之间的停顿，避免在句子中间的非正常停顿，由此可确保用户录音质量，以便于从整段录音中获得较好的录音分句结果；因此，可以有效提升个性化语音合成模型的准确度，进而提升个性化语音合成的语音自然度和音色。

Description

个性化语音合成模型构建方法、装置、***及电子设备

技术领域

本申请涉及数据处理技术领域，具体涉及个性化语音合成模型构建方法、装置及***，个性化语音合成方法、装置及***，以及电子设备。

背景技术

所谓个性化语音合成，就是通过身边的一些录音设备，录取某个人的某些语音片段后，让TTS(Text To Speech，文本到语音，语音合成)语音技术，合成出像某个特定人的说话语音，说话方式，和说话情感。

个性化语音合成技术，涉及到语音学方面许多现代发展起来的新技术，包括：语音频谱特征转换技术、韵律特征转换技术、个性化语音合成模型的构建技术、和个性化参数自适应技术等等。其中，个性化语音合成模型的构建技术是个性化语音合成技术的核心技术之一，该技术可采用多种方式实现技术。其中，一种方式是直接根据录音数据训练个性化语音合成模型，该方式具有简单易行的优点；另一方式是从由每句录音与句子间对应关系构成的训练数据中，学习得到个性化语音合成模型，该方式可以合成出自然度很高、音色很好的文本语音，因此成为目前常用的个性化语音合成模型的构建技术。

然而，在实现本发明过程中，发明人发现现有技术方案至少存在如下问题：由于无法从整段录音中获得较好的录音分句结果，因此无法得到质量较高的个性化语音合成模型，进而无法利用该模型合成出自然度很高、音色很好的文本语音。

发明内容

本申请提供个性化语音合成模型构建方法，以解决现有技术存在的个性化语音合成模型的准确度较低的问题。本申请另外提供个性化语音合成模型构建装置和***，个性化语音合成方法、装置和***，以及电子设备。

本申请提供一种个性化语音合成模型构建方法，包括：

将录音文本分割为多个句子文本；

在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；

向服务端发送采集到的用户录音数据，以使得服务端根据所述用户录音数据，构建所述用户的个性化语音合成模型。

可选的，所述第一显示方式包括：高亮显示方式；

所述第二显示方式包括：非高亮显示方式。

可选的，所述第一显示方式与所述第二显示方式具有不同的颜色、字体和/或字号。

可选的，所述第二显示方式包括：录音进度条方式，以便于用户根据录音进度条调整录音速度。

可选的，所述当前阅读句子文本后的文本信息包括：用户正在录制句子的序号，和/或未阅读句子的数量。

可选的，所述以第一显示方式显示当前阅读句子文本，包括：

根据所述当前阅读句子文本的文本长度，确定所述当前阅读句子文本的显示时长；

以第一显示方式，持续所述显示时长显示当前阅读句子文本。

可选的，所述根据所述当前阅读句子文本的文本长度，并确定所述当前阅读句子文本的显示时长，包括：

根据所述当前阅读句子文本的文本长度和字阅读时长，确定所述当前阅读句子文本的第一显示时长；

将大于所述第一显示时长的时长作为所述当前阅读句子文本的第二显示时长。

可选的，还包括：

至少根据不同区域用户发音方式不同的字，生成文本长度小于长度阈值的录音文本。

可选的，还包括：

从所述用户录音数据中滤除与所述录音文本无关的语音数据。

本申请还提供一种个性化语音合成模型构建装置，包括：

文本分割单元，用于将录音文本分割为多个句子文本；

文本显示单元，用于在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；

录音数据发送单元，用于向服务端发送采集到的用户录音数据，以使得服务端根据所述用户录音数据，构建所述用户的个性化语音合成模型。

本申请还提供一种电子设备，包括：

处理器；

存储器；

所述存储器，用于存储实现个性化语音合成模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：将录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；向服务端发送采集到的用户录音数据，以使得服务端根据所述用户录音数据，构建所述用户的个性化语音合成模型。

本申请还提供一种个性化语音合成模型构建方法，包括：

接收客户端发送的用户录音数据；

获取与所述用户录音数据对应的录音文本；

根据所述用户录音数据和所述录音文本，构建所述用户的个性化语音合成模型。

可选的，所述根据所述用户录音数据和所述录音文本，并构建所述用户的个性化语音合成模型，包括：

将所述用户录音数据分割为多个句子录音数据；

确定与句子录音数据对应的句子文本；

构建所述个性化语音合成模型的网络结构；

从句子录音数据与句子文本间的对应关系集中，学习得到所述个性化语音合成模型。

可选的，所述网络结构包括神经网络结构。

可选的，所述将所述用户录音数据分割为多个句子录音数据，包括：

通过语音活动检测算法，将所述用户录音数据分割为多个句子录音数据。

可选的，还包括：

获取所述录音文本中不同区域用户发音方式不同的字；

获取所述用户录音数据中与所述字对应的录音片段数据；

根据所述用户录音数据、所述录音文本、所述字与所述录音片段数据间的对应关系，构建所述用户的个性化语音合成模型。

可选的，还包括：

本申请还提供一种个性化语音合成模型构建装置，包括：

录音数据接收单元，用于接收客户端发送的用户录音数据；

录音文本获取单元，用于获取与所述用户录音数据对应的录音文本；

模型构建单元，用于根据所述用户录音数据和所述录音文本，构建所述用户的个性化语音合成模型。

本申请还提供一种电子设备，包括：

处理器；

存储器；

所述存储器，用于存储实现个性化语音合成模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收客户端发送的用户录音数据；获取与所述用户录音数据对应的录音文本；根据所述用户录音数据和所述录音文本，构建所述用户的个性化语音合成模型。

本申请还提供一种个性化语音合成模型构建***，包括：

根据上述客户端侧的个性化语音合成模型构建装置；以及，根据上述服务端侧的个性化语音合成模型构建装置。

本申请还提供一种个性化语音合成方法，包括：

接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；

根据所述用户录音数据，构建所述目标用户的个性化语音合成模型；

接收客户端发送的针对目标用户的个性化语音合成请求；所述合成请求包括第二录音文本信息；

根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据。

本申请还提供一种个性化语音合成装置，包括：

第一请求接收单元，用于接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；

模型构建单元，用于根据所述用户录音数据，构建所述目标用户的个性化语音合成模型；

第二请求接收单元，用于接收客户端发送的针对目标用户的个性化语音合成请求；所述合成请求包括第二录音文本信息；

语音合成单元，用于根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据。

本申请还提供一种电子设备，包括：

处理器；

存储器；

所述存储器，用于存储实现个性化语音合成方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述用户录音数据，构建所述目标用户的个性化语音合成模型；接收客户端发送的针对目标用户的个性化语音合成请求；所述合成请求包括第二录音文本信息；根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据。

本申请还提供一种个性化语音合成方法，包括：

确定目标用户的待语音合成的第二录音文本；

向服务端发送针对目标用户的个性化语音合成请求，所述合成请求包括第二录音文本信息，以使得所述服务端执行如下步骤：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述录音数据，构建所述目标用户的个性化语音合成模型。

本申请还提供一种个性化语音合成装置，包括：

录音文本确定单元，用于确定目标用户的待语音合成的第二录音文本；

请求发送单元，用于向服务端发送针对目标用户的个性化语音合成请求，所述合成请求包括第二录音文本信息，以使得所述服务端执行如下步骤：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述录音数据，构建所述目标用户的个性化语音合成模型。

本申请还提供一种电子设备，包括：

处理器；

存储器；

所述存储器，用于存储实现个性化语音合成方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定目标用户的待语音合成的第二录音文本；向服务端发送针对目标用户的个性化语音合成请求，所述合成请求包括第二录音文本信息，以使得所述服务端执行如下步骤：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收所述电子设备发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述录音数据，构建所述目标用户的个性化语音合成模型。

可选的，所述设备包括智能音箱；

所述智能音箱包括：声音采集装置、声音播放装置和显示装置；

所述智能音箱，具体用于通过声音采集装置采集所述用户录音数据，通过显示装置显示所述第一录音文本，通过声音播放装置播放所述个性化语音数据。

本申请还提供一种个性化语音合成***，包括：

根据上述位于客户端侧的个性化语音合成装置；以及，根据位于服务端侧的个性化语音合成装置。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的个性化语音合成模型构建方法，通过将录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；向服务端发送采集到的用户录音数据，以使得服务端根据所述用户录音数据，构建所述用户的个性化语音合成模型；这种处理方式，使得控制用户录音中句子与句子之间的停顿，避免在句子中间的非正常停顿，由此可确保用户录音质量，以便于从整段录音中获得较好的录音分句结果；因此，可以有效提升个性化语音合成模型的准确度，进而提升个性化语音合成的语音自然度和音色。

附图说明

图1是本申请提供的一种个性化语音合成模型构建方法的实施例的流程图；

图2是本申请提供的一种个性化语音合成模型构建方法的实施例的录音文本显示示意图；

图3是本申请提供的一种个性化语音合成模型构建装置的实施例的示意图；

图4是本申请提供的电子设备的实施例的示意图；

图5是本申请提供的一种个性化语音合成模型构建方法的实施例的流程图；

图6是本申请提供的一种个性化语音合成模型构建装置的实施例的示意图；

图7是本申请提供的电子设备的实施例的示意图；

图8是本申请提供的一种个性化语音合成模型构建***的实施例的示意图；

图9是本申请提供的一种个性化语音合成方法的实施例的流程图；

图10是本申请提供的一种个性化语音合成装置的实施例的示意图；

图11是本申请提供的电子设备的实施例的示意图；

图12是本申请提供的一种个性化语音合成方法的实施例的流程图；

图13是本申请提供的一种个性化语音合成装置的实施例的示意图；

图14是本申请提供的电子设备的实施例的示意图；

图15是本申请提供的一种个性化语音合成***的实施例的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了个性化语音合成模型构建方法、装置和***，个性化语音合成方法、装置和***，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请提供的一种个性化语音合成模型构建方法实施例的流程图，该方法的执行主体包括但不限于终端设备。本申请所述的终端设备包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括个人电脑、PAD、iPad等终端设备。

本申请提供的一种个性化语音合成模型构建方法包括：

步骤S101：将录音文本分割为多个句子文本。

所述录音文本，又称为录音文案，是个性化TTS产品中提供给用户录音朗读的文案。

在一个示例中，所述方法还可包括如下步骤：至少根据不同区域用户发音方式不同的字，生成文本长度小于长度阈值的所述录音文本。所述长度阈值，可根据录音文本包括的所述不同区域用户发音方式不同的字的数量确定。通常，这种字的数量越多，则长度阈值越低。

以中文录音文本为例，南方人(如浙江，广东)讲普通话，比较拗口、比如“热”字，北方人念起来很容易，浙江人念起来一般会念成偏向“饿”的发音，那么类似这样的字就属于所述不同区域用户发音方式不同的字。在本实施例中，通过在录音文本中包括这些特定的字，使得在录音文本有限的情况下，录音数据中会包括更多能够体现用户声纹特征的数据，根据这样的录音数据可以更加容易地获得丰富的用户声纹特征数据，这样就可以有效降低录音文本长度，特别是在录音环境较为嘈杂的环境中，有效减少录音文本长度，以缩短录音时间，减少录音干扰，可以有效提升录音质量，从而提升个性化语音合成模型的准确度。此外，由于录音文本长度的减少会降低录音数据的数据量，这样就可以减少服务端同期处理压力；因此，可以有效节约服务端计算资源，以及节约网络资源。

步骤S103：在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息。

用户录音的质量对个性化TTS最后的效果非常重要，所以如何让用户完成符合要求的录音非常重要。为了降低用户交互的难度，录音文案一般会分段，每一段内会有若干句话。本申请实施例提供的个性化语音合成模型构建方法，要按句划分录音数据，所以需要对每一个录音段落分句。本实施例利用字幕刷新的方式，来指导用户保持句子与句子之间的合理停顿，以便于后台可以简单的实现段落分句，满足模型生产的要求。

在本实施例中，对用户当前正在阅读的句子文本、及其后的句子文本信息，采用不同的显示方式。以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息。

如图2所示，在一个示例中，所述当前阅读句子文本后的文本信息就是待阅读的句子文本；所述第一显示方式为高亮显示方式，如黄色高亮显示方式；所述第二显示方式为非高亮显示方式，如非黄色高亮显示。这样，既可以指导用户保持句子与句子之间的合理停顿，又使得用户可以预知将要阅读的文本量等等方面。

在另一个示例中，所述当前阅读句子文本后的文本信息包括：用户正在录制句子的序号，和/或未阅读句子的数量；所述第一显示方式与所述第二显示方式具有不同的颜色、字体和/或字号。例如，第一显示方式的颜色为红色，字体为宋体，字号为三号，以该方式显示当前阅读的句子文本；第二显示方式的颜色为黑色，字体为楷体，字号为五号，以该方式显示未阅读句子的数量。同样的，这种处理方式仍然可以指导用户保持句子与句子之间的合理停顿，避免在句子中间的非正常停顿，又使得用户可以预知将要阅读的文本量等等方面。

在又一个示例中，所述第二显示方式包括：录音进度条方式。所述录音进度条，可以根据用户已录制句子的数量、未阅读句子的数量等等与录音进度有关的数据进行录音进度的调整。采用这种处理方式，可以提醒用户当前的录音进度，以便于用户调整录音速度，这样就可以有效降低录音文本长度，特别是在录音环境较为嘈杂的环境中，有效减少录音文本长度，以缩短录音时间，减少录音干扰，可以有效提升录音质量，从而提升个性化语音合成模型的准确度。此外，由于录音速度的提升会降低录音数据的数据量，这样就可以减少服务端同期处理压力；因此，可以有效节约服务端计算资源，以及节约网络资源。

需要说明的是，在以不同显示方式区分显示当前阅读的句子文本和待阅读的句子文本时，可以以固定时长持续显示当前阅读句子文本，以确保用户保持句子与句子之间的合理停顿。此外，还可以根据当前阅读句子文本的实际长度，控制该句子的显示时间，这样既可以确保用户保持句子与句子之间的合理停顿，又可避免显示过长时间，降低阅读速度，从而影响用户录音体验。

在本实施例中，所述以第一显示方式显示当前阅读句子文本，可包括如下子步骤：1)根据所述当前阅读句子文本的文本长度，确定所述当前阅读句子文本的显示时长；2)以第一显示方式，持续所述显示时长显示当前阅读句子文本。例如，包括10个字的句子的显示时间要短于包括15个字的句子显示时间。

具体实施时，所述根据所述当前阅读句子文本的文本长度，并确定所述当前阅读句子文本的显示时长，可包括如下子步骤：1.1)根据所述当前阅读句子文本的文本长度和一个字的阅读时长，确定所述当前阅读句子文本的第一显示时长；1.2)将大于所述第一显示时长的时长作为所述当前阅读句子文本的第二显示时长。例如，每个字的显示时间为1秒，包括10个字的句子的显示时间要长于10秒。所述阅读时长，可以是预先设定的时间长度，也可以是根据用户当前阅读速度确定得到的时间长度，例如，用户因为赶时间加快阅读时，字阅读时长可以相应减小；用户疲惫想要减慢阅读速度时，字阅读时长可以相应增大。

下面给出两种具体的实施方式。

方式一、通过逐句高亮的显示方式，引导用户朗读对应句子，并且停顿足够长的时间。该方式的段落内文案显示方式如下所述：

1)如果当前阅读段落内有N句，第i句(i＝1...N)在屏幕上的显示持续时间为Ti(该时间大于正常用户朗读完该句的时间)。

2)从用户开始录音时间算起，按每一句的显示时间Ti，逐句高亮文案，引导用户朗读文案。

3)非高亮文案(待阅读句子文本)均模糊处理，但是用户能感知到当前阅读句子之前及之后文案的存在，以保持后续文案的阅读心理预期。

方式二、通过逐句显示，引导用户朗读对应句子，并且停顿足够长的时间。

2.通过逐句显示，引导用户朗读对应句子，并且停顿足够长的时间。该方式的段落内文案显示方式如下所述：

1)如果段落内有N句，第i句(i＝1...N)的显示时间为Ti(该时间大于正常用户朗读完该句的时间)。

2)从用户开始录音时间算起，按每一句的显示时间Ti，每次只显示第i条文案，引导用户朗读文案。

3)通过计数显示，表明用户正在录制N句中的第几句，来提示用户正在录制第几句，还需要录制多少句。

在采集到用于生成个性化语音合成模型的用户录音数据后，就可以进入下一步骤，向服务端发送采集到的用户录音数据。

步骤S105：向服务端发送采集到的用户录音数据，以使得服务端根据所述用户录音数据，构建所述用户的个性化语音合成模型。

所述服务端针对终端设备上传的用户录音数据，可通过语音活动检测算法(VAD)，将所述用户录音数据分割为多个句子录音数据，作为训练数据，再从训练数据中学习得到该用户的个性化语音合成模型。

在一个示例中，所述方法还可包括如下步骤：从所述用户录音数据中滤除与所述录音文本无关的语音数据。采用这种处理方式，可以有效简化服务端的处理方式；因此，可以有效降低服务器同期处理压力。

具体实施时，所述从所述用户录音数据中滤除与所述录音文本无关的语音数据的步骤，可以采用如下方式实现：确定用户位置，从所述用户录音数据中识别各个声源的语音数据，根据各个声源的位置和用户位置，将真正录音用户的语音数据提取出来。由于不同声源录音数据的识别属于较为成熟的现有技术，因此此处不再赘述。

从上述实施例可见，本申请实施例提供的个性化语音合成模型构建方法，通过将录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；向服务端发送采集到的用户录音数据，以使得服务端根据所述用户录音数据，构建所述用户的个性化语音合成模型；这种处理方式，使得控制用户录音中句子与句子之间的停顿，避免在句子中间的非正常停顿，由此可确保用户录音质量，以便于从整段录音中获得较好的录音分句结果；因此，可以有效提升个性化语音合成模型的准确度，进而提升个性化语音合成的语音自然度和音色。

在上述的实施例中，提供了一种个性化语音合成模型构建方法，与之相对应的，本申请还提供一种个性化语音合成模型构建装置。该装置是与上述方法的实施例相对应。

第二实施例

请参看图3，其为本申请的个性化语音合成模型构建装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种个性化语音合成模型构建装置，包括：

文本分割单元301，用于将录音文本分割为多个句子文本；

文本显示单元303，用于在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；

录音数据发送单元305，用于向服务端发送采集到的用户录音数据，以使得服务端根据所述用户录音数据，构建所述用户的个性化语音合成模型。

可选的，所述第一显示方式包括：高亮显示方式；所述第二显示方式包括：非高亮显示方式。

可选的，文本显示单元303，具体用于根据所述当前阅读句子文本的文本长度，确定所述当前阅读句子文本的显示时长；以第一显示方式，持续所述显示时长显示当前阅读句子文本。

可选的，文本显示单元303，具体用于根据所述当前阅读句子文本的文本长度和字阅读时长，确定所述当前阅读句子文本的第一显示时长；将大于所述第一显示时长的时长作为所述当前阅读句子文本的第二显示时长。

可选的，还包括：

录音文本生成单元，用于至少根据不同区域用户发音方式不同的字，生成文本长度小于长度阈值的录音文本。

可选的，还包括：

语音数据过滤单元，用于从所述用户录音数据中滤除与所述录音文本无关的语音数据。

第三实施例

请参考图4，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器401和存储器402；所述存储器，用于存储实现个性化语音合成模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：将录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；向服务端发送采集到的用户录音数据，以使得服务端根据所述用户录音数据，构建所述用户的个性化语音合成模型。

所述电子设备，可以是智能音箱、智能手机等等。

在一个示例中，所述智能音箱包括：声音采集装置、声音播放装置和显示装置；所述智能音箱，具体用于通过声音采集装置采集所述用户录音数据，通过显示装置显示所述第一录音文本，通过声音播放装置播放根据所述模型合成的该用户针对目标文本的个性化语音数据。

第四实施例

请参考图5，其为本申请提供的一种个性化语音合成模型构建方法实施例的流程图，该方法的执行主体包括服务端。本申请提供的一种个性化语音合成模型构建方法包括：

步骤S501：接收客户端发送的用户录音数据。

所述客户端包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括个人电脑、PAD、iPad等终端设备。

所述用户录音数据，包括通过方法实施例一采集的确保句子与句子之间正常停顿的录音数据。

具体实施时，所述客户端接收到针对目标录音文本的个性化语音合成模型构建请求。该请求可包括目标录音文本的标识及与该目标录音文本对应的用户录音数据，还可包括用于标识。

步骤S503：获取与所述用户录音数据对应的录音文本。

要构建该用户的个性化语音合成模型，不仅需要采集用户录音数据，还需要获取与所述用户录音数据对应的录音文本。

具体实施时，可根据所述请求携带的目标录音文本的标识，从录音文本库中查询得到录音文本。

步骤S505：根据所述用户录音数据和所述录音文本，构建所述用户的个性化语音合成模型。

在获得用户录音数据及对应的录音文本后，就可以根据这方面数据，构建所述用户的个性化语音合成模型，并可以以用户标识对该模型进行存储。

在本实施例中，步骤S505可包括如下子步骤：1)将所述用户录音数据分割为多个句子录音数据；2)确定与句子录音数据对应的句子文本；3)构建所述个性化语音合成模型的网络结构；4)从句子录音数据与句子文本间的对应关系集中，学习得到所述个性化语音合成模型。

1)将所述用户录音数据分割为多个句子录音数据。

由于所述用户录音数据包括通过方法实施例一采集的确保句子与句子之间正常停顿的录音数据，因此本实施例通过语音活动检测算法(VAD)，将所述用户录音数据分割为多个句子录音数据；这种处理方式，既简单易行，可以有效降低服务器处理压力，同时又可确保分离出质量较高的句子录音。

2)确定与句子录音数据对应的句子文本。

在将用户录音数据中各个段的各个句子的录音数据全部分离后，再结合文本分句技术，就可以生成句子录音数据与句子文本间的对应关系集。

3)构建所述个性化语音合成模型的网络结构。

4)从句子录音数据与句子文本间的对应关系集中，学习得到所述个性化语音合成模型。

本申请实施例提供的方法，通过机器学习算法，从该对应关系集中学习得到所述个性化语音合成模型。所述个性化语音合成模型的网络结构包括神经网络结构，如卷积神经网络等等。由于该类模型及其训练方法属于较为成熟的现有技术，因此此处不再赘述。

在本实施例中，所述方法还可包括如下步骤：1)获取所述录音文本中不同区域用户发音方式不同的字；2)获取所述用户录音数据中与所述字对应的录音片段数据；3)根据所述用户录音数据、所述录音文本、所述字与所述录音片段数据间的对应关系，构建所述用户的个性化语音合成模型。

具体实施时，可以首先在字典中标注出哪些数据属于所述不同区域用户发音方式不同的字，将录音文本中的字与词典进行匹配，确定录音文本中的所述不同区域用户发音方式不同的字；然后，通过语音处理算法，确定录音数据中哪些部分与哪个字对应，由此获得所述用户录音数据中与所述字对应的录音片段数据；最后，根据所述用户录音数据、所述录音文本、所述字与所述录音片段数据间的对应关系，构建所述用户的个性化语音合成模型。采用这种处理方式，使得构建出的模型不仅包括用户的声音特征数据，如与音高、音强、音长、音色有关的特征数据，还可以包括用户对特定字的发音方式等等。

在一个示例中，所述方法还可包括如下步骤：从所述用户录音数据中滤除与所述录音文本无关的语音数据。采用这种处理方式，可以有效简化客户端的处理方式；因此，可以有效节约客户端的计算资源。

从上述实施例可见，本申请实施例提供的个性化语音合成模型构建方法，通过接收客户端发送的用户录音数据；获取与所述用户录音数据对应的录音文本；根据所述用户录音数据和所述录音文本，构建所述用户的个性化语音合成模型；这种处理方式，使得控制用户录音中句子与句子之间的停顿，避免在句子中间的非正常停顿，由此可确保用户录音质量，以便于从整段录音中获得较好的录音分句结果；因此，可以有效提升个性化语音合成模型的准确度，进而提升个性化语音合成的语音自然度和音色。

第五实施例

请参看图6，其为本申请的个性化语音合成模型构建装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种个性化语音合成模型构建装置，包括：

录音数据接收单元601，用于接收客户端发送的用户录音数据；

录音文本获取单元603，用于获取与所述用户录音数据对应的录音文本；

模型构建单元605，用于根据所述用户录音数据和所述录音文本，构建所述用户的个性化语音合成模型。

可选的，所述模型构建单元605，具体用于将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；构建所述个性化语音合成模型的网络结构；从句子录音数据与句子文本间的对应关系集中，学习得到所述个性化语音合成模型。

可选的，所述网络结构包括神经网络结构。

可选的，所述模型构建单元605，具体用于通过语音活动检测算法，将所述用户录音数据分割为多个句子录音数据。

可选的，还包括：

特定字获取单元，用于获取所述录音文本中不同区域用户发音方式不同的字；

录音片段获取单元，用于获取所述用户录音数据中与所述字对应的录音片段数据；

所述模型构建单元605，具体用于根据所述用户录音数据、所述录音文本、所述字与所述录音片段数据间的对应关系，构建所述用户的个性化语音合成模型。

可选的，还包括：

第六实施例

请参考图7，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器701和存储器702；所述存储器，用于存储实现个性化语音合成模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收客户端发送的用户录音数据；获取与所述用户录音数据对应的录音文本；根据所述用户录音数据和所述录音文本，构建所述用户的个性化语音合成模型。

第七实施例

请参看图8，其为本申请的个性化语音合成模型构建***的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的***实施例仅仅是示意性的。

本申请另外提供一种个性化语音合成模型构建***，包括：

客户端801，所述客户端801部署有上述实施例五所述的个性化语音合成模型构建装置，该装置用于将录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；向服务端发送采集到的用户录音数据，以使得服务端根据所述用户录音数据，构建所述用户的个性化语音合成模型；

服务端802，所述服务端802部署有上述实施例二所述的个性化语音合成模型构建装置，该装置用于接收客户端发送的用户录音数据；根据所述用户录音数据，构建所述用户的个性化语音合成模型。

从上述实施例可见，本申请实施例提供的个性化语音合成模型构建***，通过客户端将录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式向用户显示当前阅读句子文本，以第二显示方式向用户显示当前阅读句子文本后的文本信息；向服务端发送采集到的用户录音数据；通过服务端接收客户端发送的用户录音数据；根据所述用户录音数据，构建所述用户的个性化语音合成模型；这种处理方式，使得控制用户录音中句子与句子之间的停顿，避免在句子中间的非正常停顿，由此可确保用户录音质量，以便于服务器从整段录音中获得较好的录音分句结果，进而构建出质量较高的个性化语音合成模型；因此，可以有效提升个性化语音合成模型的准确度，进而提升个性化语音合成的语音自然度和音色。

第八实施例

请参考图9，其为本申请提供的一种个性化语音合成方法实施例的流程图，该方法的执行主体包括终端设备。本申请提供的一种个性化语音合成方法包括：

步骤S901：接收客户端发送的针对目标用户的个性化语音合成模型构建请求。

所述模型构建请求，包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息。所述模型构建请求，还包括目标用户的标识和第一录音文本的标识。

步骤S903：根据所述用户录音数据，构建所述目标用户的个性化语音合成模型。

步骤S905：接收客户端发送的针对目标用户的个性化语音合成请求。

所述合成请求，可包括第二录音文本的标识，第二录音文本预先存储在服务端；还可包括第二录音文本的内容，这样的录音文本可以是用户输入的文本。

步骤S907：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据。

在构建所述目标用户的个性化语音合成模型后，就可以应用该模型，根据用户指定的第二录音文本，生成所述第二录音文本对应的个性化语音数据。例如，用户指定的第二录音文本是一个故事，则可以利用所述模型包括的用户声音特征，合成出像该用户的说话语音、说话方式、说话情感的故事音频数据。

从上述实施例可见，本申请实施例提供的个性化语音合成方法，通过接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述用户录音数据，构建所述目标用户的个性化语音合成模型；接收客户端发送的针对目标用户的个性化语音合成请求；所述合成请求包括第二录音文本信息；根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；这种处理方式，使得控制用户录音中句子与句子之间的停顿，避免在句子中间的非正常停顿，由此可确保用户录音质量，以便于从整段录音中获得较好的录音分句结果，并基于该分句结果构建出高质量的个性化语音合成模型，再利用该模型合成具有用户声音特征的语音数据；因此，可以有效提升个性化语音合成的语音自然度和音色。

在上述的实施例中，提供了一种个性化语音合成方法，与之相对应的，本申请还提供一种个性化语音合成装置。该装置是与上述方法的实施例相对应。

第九实施例

请参看图10，其为本申请的个性化语音合成装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种个性化语音合成装置，包括：

第一请求接收单元1001，用于接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；

模型构建单元1003，用于根据所述用户录音数据，构建所述目标用户的个性化语音合成模型；

第二请求接收单元1005，用于接收客户端发送的针对目标用户的个性化语音合成请求；所述合成请求包括第二录音文本信息；

语音合成单元1007，用于根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据。

第十实施例

请参考图11，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器1101和存储器1102；所述存储器，用于存储实现个性化语音合成方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述用户录音数据，构建所述目标用户的个性化语音合成模型；接收客户端发送的针对目标用户的个性化语音合成请求；所述合成请求包括第二录音文本信息；根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据。

第十一实施例

请参考图12，其为本申请提供的一种个性化语音合成方法实施例的流程图，该方法的执行主体包括服务端。本申请提供的一种个性化语音合成法包括：

步骤S1201：确定目标用户的待语音合成的第二录音文本；

步骤S1203：向服务端发送针对目标用户的个性化语音合成请求，所述合成请求包括第二录音文本信息，以使得所述服务端执行如下步骤：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述录音数据，构建所述目标用户的个性化语音合成模型。

从上述实施例可见，本申请实施例提供的个性化语音合成方法，通过确定目标用户的待语音合成的第二录音文本；向服务端发送针对目标用户的个性化语音合成请求，所述合成请求包括第二录音文本信息，以使得所述服务端执行如下步骤：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述录音数据，构建所述目标用户的个性化语音合成模型；这种处理方式，使得控制用户录音中句子与句子之间的停顿，避免在句子中间的非正常停顿，由此可确保用户录音质量，以便于从整段录音中获得较好的录音分句结果，并基于该分句结果构建出高质量的个性化语音合成模型，在利用该模型合成具有用户声音特征的语音数据；因此，可以有效提升个性化语音合成的语音自然度和音色。

第十二实施例

请参看图13，其为本申请的个性化语音合成装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种个性化语音合成装置，包括：

录音文本确定单元1301，用于确定目标用户的待语音合成的第二录音文本；

请求发送单元1303，用于向服务端发送针对目标用户的个性化语音合成请求，所述合成请求包括第二录音文本信息，以使得所述服务端执行如下步骤：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述录音数据，构建所述目标用户的个性化语音合成模型。

第十三实施例

请参考图14，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器1401和存储器1402；所述存储器，用于存储实现个性化语音合成方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定目标用户的待语音合成的第二录音文本；向服务端发送针对目标用户的个性化语音合成请求，所述合成请求包括第二录音文本信息，以使得所述服务端执行如下步骤：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述录音数据，构建所述目标用户的个性化语音合成模型。

所述电子设备，可以是智能音箱、智能手机等等。

在一个示例中，所述智能音箱包括：声音采集装置、声音播放装置和显示装置；所述智能音箱，具体用于通过声音采集装置采集所述用户录音数据，通过显示装置显示所述第一录音文本，通过声音播放装置播放所述个性化语音数据。

第十四实施例

请参看图15，其为本申请的个性化语音合成***的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的***实施例仅仅是示意性的。

本申请另外提供一种个性化语音合成***，包括：客户端1501和服务端1502。

所述客户端1501部署有上述实施例十二所述的个性化语音合成模型构建装置，该装置用于确定目标用户的待语音合成的第二录音文本；向服务端发送针对目标用户的个性化语音合成请求,所述语音合成请求包括第二录音文本信息；相应的，所述服务端1502部署有上述实施例九所述的个性化语音合成模型构建装置，该装置用于接收客户端发送的所述语音合成请求；根据该目标用户的个性化语音合成模型,生成与所述第二录音文本对应的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述录音数据，构建所述目标用户的个性化语音合成模型。

从上述实施例可见，本申请实施例提供的个性化语音合成***，通过客户端确定待语音合成的第二录音文本；向服务端发送针对第二录音文本的个性化语音合成请求，通过服务端根据所述个性化语音合成模型,生成与所述第二录音文本对应的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收客户端发送的针对第一录音文本的个性化语音合成模型构建请求；所述模型构建请求包括与所述第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息；根据所述用户录音数据，构建所述用户的个性化语音合成模型；这种处理方式，使得控制用户录音中句子与句子之间的停顿，避免在句子中间的非正常停顿，由此可确保用户录音质量，以便于从整段录音中获得较好的录音分句结果，并基于该分句结果构建出高质量的个性化语音合成模型，在利用该模型合成具有用户声音特征的语音数据；因此，可以有效提升个性化语音合成的语音自然度和音色。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种个性化语音合成模型构建方法，其特征在于，包括：

将提供给用户录音朗读的录音文本分割为多个句子文本；

在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；

向服务端发送采集到的用户录音数据，以使得服务端将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；从句子录音数据与句子文本间的对应关系集中，学习得到所述用户的个性化语音合成模型。

2.根据权利要求1所述的方法，其特征在于，

所述第一显示方式包括：高亮显示方式；

所述第二显示方式包括：非高亮显示方式。

3.根据权利要求1所述的方法，其特征在于，

所述第一显示方式与所述第二显示方式具有不同的颜色、字体和/或字号。

4.根据权利要求1所述的方法，其特征在于，

所述第二显示方式包括：录音进度条方式，以便于用户根据录音进度条调整录音速度。

5.根据权利要求1所述的方法，其特征在于，

所述当前阅读句子文本后的文本信息包括：用户正在录制句子的序号，和/或未阅读句子的数量。

6.根据权利要求1所述的方法，其特征在于，所述以第一显示方式显示当前阅读句子文本，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述当前阅读句子文本的文本长度，并确定所述当前阅读句子文本的显示时长，包括：

8.根据权利要求1所述的方法，其特征在于，还包括：

9.根据权利要求1所述的方法，其特征在于，还包括：

10.一种个性化语音合成模型构建装置，其特征在于，包括：

文本分割单元，用于将提供给用户录音朗读的录音文本分割为多个句子文本；

文本显示单元，用于在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；

录音数据发送单元，用于向服务端发送采集到的用户录音数据，以使得服务端将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；从句子录音数据与句子文本间的对应关系集中，学习得到所述用户的个性化语音合成模型。

11.一种电子设备，其特征在于，包括：

处理器；

存储器；

所述存储器，用于存储实现个性化语音合成模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：将提供给用户录音朗读的录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；向服务端发送采集到的用户录音数据，以使得服务端将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；从句子录音数据与句子文本间的对应关系集中，学习得到所述用户的个性化语音合成模型。

12.一种个性化语音合成模型构建方法，其特征在于，包括：

接收客户端发送的用户录音数据；

获取与所述用户录音数据对应的提供给用户录音朗读的录音文本；所述用户录音数据是由所述客户端采用如下方式获取的：将提供给用户录音朗读的录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；

将所述用户录音数据分割为多个句子录音数据；

确定与句子录音数据对应的句子文本；

从句子录音数据与句子文本间的对应关系集中，学习得到所述用户的个性化语音合成模型。

13.根据权利要求12所述的方法，其特征在于，还包括：

构建所述个性化语音合成模型的网络结构。

14.根据权利要求13所述的方法，其特征在于，所述网络结构包括神经网络结构。

15.根据权利要求13所述的方法，其特征在于，所述将所述用户录音数据分割为多个句子录音数据，包括：

16.根据权利要求12所述的方法，其特征在于，还包括：

获取所述录音文本中不同区域用户发音方式不同的字；

获取所述用户录音数据中与所述字对应的录音片段数据；

17.根据权利要求12所述的方法，其特征在于，还包括：

18.一种个性化语音合成模型构建装置，其特征在于，包括：

录音数据接收单元，用于接收客户端发送的用户录音数据；

录音文本获取单元，用于获取与所述用户录音数据对应的提供给用户录音朗读的录音文本；所述用户录音数据是由所述客户端采用如下方式获取的：将提供给用户录音朗读的录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；

模型构建单元，用于将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；从句子录音数据与句子文本间的对应关系集中，学习得到所述用户的个性化语音合成模型。

19.一种电子设备，其特征在于，包括：

处理器；

存储器；

所述存储器，用于存储实现个性化语音合成模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收客户端发送的用户录音数据；获取与所述用户录音数据对应的提供给用户录音朗读的录音文本；所述用户录音数据是由所述客户端采用如下方式获取的：将提供给用户录音朗读的录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；从句子录音数据与句子文本间的对应关系集中，学习得到所述用户的个性化语音合成模型。

20.一种个性化语音合成模型构建***，其特征在于，包括：

根据上述权利要求10所述的个性化语音合成模型构建装置；以及，根据上述权利要求18所述的个性化语音合成模型构建装置。

21.一种个性化语音合成方法，其特征在于，包括：

接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与提供给用户录音朗读的第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将所述第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；

将所述用户录音数据分割为多个句子录音数据；

确定与句子录音数据对应的句子文本；

从句子录音数据与句子文本间的对应关系集中，学习得到所述目标用户的个性化语音合成模型；

22.一种个性化语音合成装置，其特征在于，包括：

第一请求接收单元，用于接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与提供给用户录音朗读的第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将所述第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；

模型构建单元，用于将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；从句子录音数据与句子文本间的对应关系集中，学习得到所述目标用户的个性化语音合成模型；

23.一种电子设备，其特征在于，包括：

处理器；

存储器；

所述存储器，用于存储实现个性化语音合成方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与提供给用户录音朗读的第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集用户录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；从句子录音数据与句子文本间的对应关系集中，学习得到所述目标用户的个性化语音合成模型；接收客户端发送的针对目标用户的个性化语音合成请求；所述合成请求包括第二录音文本信息；根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据。

24.一种个性化语音合成方法，其特征在于，包括：

确定目标用户的待语音合成的第二录音文本；

向服务端发送针对目标用户的个性化语音合成请求，所述合成请求包括第二录音文本信息，以使得所述服务端执行如下步骤：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与提供给用户录音朗读的第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；从句子录音数据与句子文本间的对应关系集中，学习得到所述目标用户的个性化语音合成模型。

25.一种个性化语音合成装置，其特征在于，包括：

请求发送单元，用于向服务端发送针对目标用户的个性化语音合成请求，所述合成请求包括第二录音文本信息，以使得所述服务端执行如下步骤：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收客户端发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与提供给用户录音朗读的第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；从句子录音数据与句子文本间的对应关系集中，学习得到所述目标用户的个性化语音合成模型。

26.一种电子设备，其特征在于，包括：

处理器；

存储器；

所述存储器，用于存储实现个性化语音合成方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定目标用户的待语音合成的第二录音文本；向服务端发送针对目标用户的个性化语音合成请求，所述合成请求包括第二录音文本信息，以使得所述服务端执行如下步骤：根据所述目标用户的个性化语音合成模型,生成与所述第二录音文本对应的所述目标用户的个性化语音数据；其中，所述个性化语音合成模型采用如下方式构建：接收所述电子设备发送的针对目标用户的个性化语音合成模型构建请求；所述模型构建请求包括与提供给用户录音朗读的第一录音文本对应的用户录音数据；所述用户录音数据采用如下方式采集：将第一录音文本分割为多个句子文本；在采集录音数据时，以第一显示方式显示当前阅读句子文本，以第二显示方式显示当前阅读句子文本后的文本信息，以控制用户录音中句子与句子之间的停顿；将所述用户录音数据分割为多个句子录音数据；确定与句子录音数据对应的句子文本；从句子录音数据与句子文本间的对应关系集中，学习得到所述目标用户的个性化语音合成模型。

27.根据权利要求26所述的设备，其特征在于，

所述设备包括智能音箱；

28.一种个性化语音合成***，其特征在于，包括：

根据上述权利要求22所述的个性化语音合成装置；以及，根据上述权利要求25所述的个性化语音合成装置。