CN108847214B

CN108847214B - 语音处理方法、客户端、装置、终端、服务器和存储介质

Info

Publication number: CN108847214B
Application number: CN201810680032.9A
Authority: CN
Inventors: 郦橙; 王成语; 李艺璇; 汤静静; 尚朝阳
Original assignee: Beijing Microlive Vision Technology Co Ltd
Current assignee: Beijing Microlive Vision Technology Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2021-03-26
Anticipated expiration: 2038-06-27
Also published as: CN108847214A

Abstract

本公开实施例公开了一种语音处理方法、客户端、装置、终端、服务器和存储介质，所述方法包括：获取用户通过真人语音选择面板选择的目标真人语音类型；播放基于目标真人语音类型合成的与待播放文本对应的语音信息，其中，所述真人语音选择面板位于终端的文本播放界面上，并且所述真人语音选择面板上包括至少一种真人语音类型。本公开实施例的技术方案解决了现有的向用户提供新闻等阅读资源的方式，受限于阅读环境和用户自身的条件，无法满足个性化阅读需要的问题。

Description

语音处理方法、客户端、装置、终端、服务器和存储介质

技术领域

本公开实施例涉及互联网领域，尤其涉及一种语音处理方法、客户端、装置、终端、服务器和存储介质。

背景技术

现有的新闻推荐类APP中，通常为文字新闻，需要用户自己阅读获取文字内容。对于一些不方便用眼睛阅读的情形，例如，在拥挤的环境中会不便于手持终端举到面前进行阅读；在环境昏暗的空间中，观看会造成视力受损；对于一些视力残障类人士，更加无法实现自己阅读，这时，用耳朵听则能更好的满足用户需求。

然而，现有的很多应用中，涉及到的语音播放功能都是不带有人类情感的机器合成的语音，不论播放的内容、对象是什么，声音都是千篇一律的，无法让用户从中体会到人类交流的乐趣，造成不好的用户体验。

因此，现有的向用户提供新闻等阅读资源的方式，受限于阅读环境和用户自身的条件，无法满足个性化阅读需要。

发明内容

本公开实施例提供一种语音处理方法、客户端、装置终端、服务器和存储介质，以解决现有的向用户提供新闻等阅读资源的方式，受限于阅读环境和用户自身的条件，无法满足个性化阅读需要的问题。

第一方面，本公开实施例提供了一种语音处理方法，应用于终端，该方法包括：

获取用户通过真人语音选择面板选择的目标真人语音类型；

播放基于目标真人语音类型合成的与待播放文本对应的语音信息；

其中，所述真人语音选择面板位于终端的文本播放界面上，并且所述真人语音选择面板上包括至少一种真人语音类型。

可选的，在获取用户通过真人语音选择面板选择的目标真人语音类型之前，所述方法还包括：

向用户推送真人语音收集邀请页，其中，所述真人语音收集邀请页上显示有录音按钮和预设文本；

响应于用户对所述录音按钮的触发操作，并收集用户朗读该预设文本的原始语音信息，其中，所述原始语音信息用于合成真人语音；

获取经合成的真人语音所属的类型，并将该类型显示在所述真人语音选择面板上。

可选的，所述方法还包括：

获取经分析得到的所述原始语音信息的属性评测结果，并将所述属性评测结果推送给对应的用户。

可选的，所述真人语音选择面板是响应于用户对所述文本播放界面上的真人语音选择控件的触发操作而显示在所述文本播放界面上。

第二方面，本公开实施例提供了一种语音处理方法，应用于服务器，该方法包括：

获取终端发送的目标真人语音类型，和当前的待播放文本；

基于目标真人语音类型合成与所述待播放文本对应的语音信息；

将所述语音信息下发到所述终端。

可选的，在获取终端发送的目标真人语音类型之前，所述方法还包括：

获取不同用户朗读预设文本的多个原始语音信息；

从所述多个原始语音信息中分别提取出不同用户各自的声音属性特征；

基于所述声音属性特征确定至少一种真人语音类型。

可选的，所述方法还包括：

如果所述终端未发送目标真人语音类型，则识别所述待播放文本所属的类型；

根据当前的待播放文本所属的类型匹配与之相应的真人语音类型，并基于该真人语音类型合成与所述待播放文本对应的语音信息，将该语音信息下发至所述终端。

可选的，所述方法还包括：

分析所述多个原始语音信息，得到每个原始语音信息的属性评测结果，并将所述属性评测结果下发至所述终端。

第三方面，本公开实施例还提供了一种客户端，配置于终端，该客户端包括：

获取模块，用于获取用户通过真人语音选择面板选择的目标真人语音类型；

播放模块，用于播放基于目标真人语音类型合成的与待播放文本对应的语音信息，其中，所述真人语音选择面板位于终端的文本播放界面上，并且所述真人语音选择面板上包括至少一种真人语音类型。

可选的，该客户端还包括：

推送模块，用于向用户推送真人语音收集邀请页，其中，所述真人语音收集邀请页上显示有录音按钮和预设文本；

语音收集模块，用于响应于用户对所述录音按钮的触发操作，并收集用户朗读该预设文本的原始语音信息，其中，所述原始语音信息用于合成真人语音；

语音类型显示模块，用于获取经合成的真人语音所属的类型，并将该类型显示在所述真人语音选择面板上。

可选的，该客户端还包括：

属性评测结果显示模块，用于获取经分析得到的所述原始语音信息的属性评测结果，并将所述属性评测结果推送给对应的用户。

第四方面，本公开实施例还提供了一种语音处理装置，配置于服务器，该装置包括：

获取模块，用于获取终端发送的目标真人语音类型，和当前的待播放文本；

合成模块，用于基于目标真人语音类型合成与所述待播放文本对应的语音信息；

下发模块，用于将所述语音信息下发到所述终端。

可选的，该语音处理装置还包括：

原始语音获取模块，用于获取不同用户朗读预设文本的多个原始语音信息；

提取模块，用于从所述多个原始语音信息中分别提取出不同用户各自的声音属性特征；

确定模块，用于基于所述声音属性特征确定至少一种真人语音类型。

可选的，该语音处理装置还包括：

识别模块，用于如果所述终端未发送目标真人语音类型，则识别所述待播放文本所属的类型；

匹配合成模块，用于根据当前的待播放文本所属的类型匹配与之相应的真人语音类型，并基于该真人语音类型合成与所述待播放文本对应的语音信息，将该语音信息下发至所述终端。

可选的，该语音处理装置还包括：

分析模块，用于分析所述多个原始语音信息，得到每个原始语音信息的属性评测结果，并将所述属性评测结果下发至所述终端。

第五方面，本公开实施例还提供了一种终端，该终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开实施例中应用于终端的语音处理方法。

第六方面，本公开实施例还提供了一种服务器，该服务器包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开实施例中应用于服务器的语音处理方法。

第七方面，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例中应用于终端的语音处理方法。

第八方面，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例中应用于服务器的语音处理方法。

本公开实施例中提供了一种语音处理方法、客户端、装置、终端、服务器和存储介质，能够获取用户通过真人语音选择面板选择的目标真人语音类型，然后播放基于目标真人语音类型合成的与待播放文本对应的语音信息，真人语音选择面板位于终端的文本播放界面上，并且真人语音选择面板上包括至少一种真人语音类型。本公开实施例解决了现有的向用户提供新闻等阅读资源的方式，受限于阅读环境和用户自身的条件，无法满足个性化阅读需要的问题。

附图说明

图1示出了本公开实施例一提供的一种语音处理方法的流程示意图；

图2a示出了本公开实施例一提供的客户端界面跳转的示意图；

图2b示出了本公开实施例一提供的文本播放界面的真人语音选择面板的展示示意图；

图3示出了本公开实施例二提供的语音处理方法的流程示意图；

图4a示出了本公开实施例二提供的向用户推送的未开始录音的真人语音收集邀请页的示意图；

图4b示出了本公开实施例二提供的正在进行录音的真人语音收集邀请页的示意图；

图4c示出了本公开实施例二提供的向用户推送的真人语音授权页的示意图；

图5示出了本公开实施例三提供的一种语音处理方法的流程示意图；

图6示出了本公开实施例四提供的一种语音处理方法的流程示意图；

图7示出了本公开实施例五提供的一种客户端的结构示意图；

图8示出了本公开实施例六提供的一种语音处理装置的结构示意图；

图9示出了本公开实施例七提供的一种终端的硬件结构示意图；

图10示出了本公开实施例八提供的一种服务器的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

实施例一

图1示出了本公开实施例一提供的一种语音处理方法的流程示意图，本公开实施例可适用于对用户正在看的文本进行语音播放或者将为用户推荐的文本进行语音播放的情形，该方法可以由相应的客户端执行，该客户端可以采用软件和/或硬件的方式实现，并可配置于任何具有网络通信功能的终端上，例如智能手机、平板电脑等。

如图1所示，本公开实施例中提供的语音处理方法可以包括：

S101、获取用户通过真人语音选择面板选择的目标真人语音类型。

在本公开实施例中，客户端应用中可以包含多个客户端界面，为了方便用户在客户端应用中从某一个客户端界面跳转到另外一个客户端界面，可以在客户端界面上设置界面跳转控件。当用户需要在客户端应用的当前客户端界面跳转到客户端应用的其他客户端界面时，可以通过触发客户端界面上设置的界面跳转控件实现从当前客户端界面跳转到客户端应用的其他客户端界面。图2a示出了本公开实施例一提供的一种客户端界面跳转的示意图。参见图2a，图2a所示的终端屏幕上显示的客户端应用中可以包括4个客户端界面，分别为：首页客户端界面、A客户端界面、B客户端界面和C客户端界面，首页客户端界面上可以设置一系列的页面跳转控件，分别为：首页控件、A控件、B控件和C控件，页面跳转控件可以关联的客户端界面。当用户触发首页客户端界面上的C控件时，客户端可以响应用户的触发操作，在终端屏幕上显示C控件关联的C客户端界面。比如，C客户端界面可以是本公开实施例中的文本播放界面，更具体的文本播放界面可以是类似XXX应用中的YYY界面，或者其它类似的新闻播放界面。

在本公开实施例中，语音的物理基础主要包括音高、音强、音长、音色四个要素，根据音高、音强、音长、音色可以对语音类型进行划分。同样的，用户在确定目标真人语音类型时，也可以根据音高、音强、音长、音色选择确定符合用户自身需求的真人语音类型。不同的真人语音类型对应不同的真人语音，换言之，每一个真人语音都存在真人语音所属的真人语音类型标签。例如，真人语音类型可以根据真人语音人物信息、真人语音口吻信息或者真人语音腔调信息进行划分。其中，真人语音人物可以包括指定公众人物，也可以包括指定的非公众人物，例如用户自己或者用户的朋友等；真人语音口吻可以包括类似小萝莉、女王范、大叔范等特征的说话口吻；真人语音腔调可以包括类似低沉、有磁性、沙哑等特征。用户可以根据真人语音人物信息、真人语音口吻信息或者真人语音腔调信息选择符合自身需求的真人语音，作为目标真人语音，在确定目标任务语音的同时也可以确定目标真人语音类型。

在本公开实施例中，真人语音选择面板可以位于终端的文本播放界面上，并且真人语音选择面板上包括至少一种真人语音类型。具体的，为了方便在文本播放界面上确定用户所需要的目标真人语音类型，可以在文本播放界面上设置真人语音选择面板。真人语音选择面板可以包括至少一种真人语音类型，每一种语音类型都对应一种真人语音。用户可以在真人语音选择面板进行选择，确定满足用户自身需求的目标真人语音类型。

真人语音选择面板可以采用下拉列表、弹框列表或者链接界面的形式出现，用户可以在下拉列表、弹框列表或者链接界面上进行真人语音类型选择，从而选择确定用户自身需求的目标真人语音类型。图2b示出了本公开实施例一提供的文本播放界面的真人语音选择面板的展示示意图。参见图2b，当用户触发真人语音选择面板的相关控件后，会在文本播放界面上弹出真人语音选择面板，真人语音选择面板中可以设置人物、口吻和腔调等真人语音类型，当用户希望采用“ABC”的声音播放待播放文本时可以在“人物”所在的栏目选择“ABC”标签；当用户希望小萝莉声音播放待播放文本时可以在“口吻”所在的栏目选择“小萝莉”标签。可以理解的是，真人语音选择面板上可以包含更多的真人语音类型，此处不再一一赘述。

可选的，真人语音选择面板可以是响应于用户对文本播放界面上的真人语音选择控件的触发操作而显示在文本播放界面上。为了方便用户选择真人语音类型，可以在文本播放界面设置真人语音选择控件，当用户对真人语音选择控件执行触发操作时，在终端屏幕上可以出现真人语音选择面板，用户可以通过真人语音选择面板选择的目标真人语音类型。参见图2b，用户可以根据需求在文本播放界面上点击真人语音选择控件，客户端响应于用户的真人语音选择控件触发操作在终端屏幕上可以出现真人语音选择面板，用户可以通过真人语音选择面板选择的目标真人语音类型。

S102、播放基于目标真人语音类型合成的与待播放文本对应的语音信息。

在本公开实施例中，当用户通过真人语音选择面板选择的目标真人语音类型之后，客户端可以根据选择的目标真人语音类型向语音处理的服务器发送真人语音播放指令。其中，客户端发送的真人语音播放指令中可以携带用户选择的目标真人语音类型和待播放文本信息。服务器可以基于目标真人语音类型将待播放文本信息合成为与目标真人语音类型匹配的语音信息。其中，与目标真人语音类型匹配的语音信息可以是指采用了目标真人语音类型的语音发声特点的语音。例如，如果目标真人语音类型为小萝莉类型，那么合成的语音信息就可以具备小萝莉卡哇伊的发声特点；如果目标真人语音类型为沙哑类型，那么合成的语音信息就是沙哑发声方式。当用户需要在文本播放界面上听文本(比如听新闻)时，可以在真人语音选择模板选择满足用户需求的目标真人语音类型，以便服务器基于目标真人语音类型将待播放文本合成为满足该目标真人语音类型的发声特点的语音信息。

在本公开实施例中，服务器将待播放文本合成为基于目标真人语音类型的语音信息之后，可以将其发送到客户端，客户端可以通过无线网络接收并在文本播放界面上播放。无线网络可以采用无线WIFI、3G、4G或者5G网络等。

本公开实施例提供了一种语音处理方法，能够获取用户通过真人语音选择面板选择的目标真人语音类型，然后播放基于目标真人语音类型合成的与待播放文本对应的语音信息，真人语音选择面板位于终端的文本播放界面上，并且真人语音选择面板上包括至少一种真人语音类型。本公开实施例的技术方案可以在播放新闻时为用户提供真人语音播放选择，以便用户根据自身的喜好选择用户喜欢的真人语音在文本播放界面播放新闻，解决了现有技术的语音播放方式无法满足个性化阅读需要的问题。

实施例二

图3示出了本公开实施例二提供的语音处理方法的流程示意图，该方法可以由相应的客户端执行。本实施例在上述实施例的基础上进一步地优化。

如图3所示，本公开实施例中提供的语音处理方法可以包括：

S301、向用户推送真人语音收集邀请页，其中，真人语音收集邀请页上显示有录音按钮和预设文本。

在本公开实施例中，当用户在使用真人语音时，用户可以向真人语音的后台管理服务器发送真人语音使用指令，此时真人语音的后台管理服务器可以响应于客户端发送的指令向用户推送真人语音收集邀请页。或者，真人语音的后台管理服务器主动向用户推送真人语音收集邀请页。用户在自身的终端设备中启动真人语音收集邀请页对应的客户端应用时，客户端可以在终端屏幕上显示该真人语音收集邀请页，并在该真人语音收集邀请页上显示录音按钮控件和相应的预设文本。图4a示出了本公开实施例二提供的向用户推送的未开始录音的真人语音收集邀请页的示意图。参见图4a，可以在终端屏幕上显示该真人语音收集邀请页，比如该真人语音收集邀请页为真人语音报名，此时在真人语音报名页面上可以显示录音按钮控件401和预设文本403。

S302、响应于用户对录音按钮的触发操作，并收集用户朗读该预设文本的原始语音信息，其中，原始语音信息用于合成真人语音。

在本公开实施例中，通过预设文本可以引导用户朗读预设文本的内容以获取用户在朗读过程中的原始语音信息。用户可以点击真人语音收集邀请页上的录音按钮以触发录音操作。当用户点击录音按钮时，客户端可以响应于用户对录音按钮的触发操作，并收集用户朗读预设文本的原始语音信息。其中，原始语音信息可以作为语音合成的标准数据用于合成真人语音。图4b示出了本公开实施例二提供的正在进行录音的真人语音收集邀请页的示意图。参见4b，此时录音按钮控件401被触发，用户在触发录音按钮控件401之后，可以朗读真人语音收集邀请页上预设文本402，客户端可以获取用户朗读预设文本402的原始语音信息。

S303、获取经合成的真人语音所属的类型，并将该类型显示在真人语音选择面板上。

在本公开实施例中，客户端响应于用户对录音按钮的触发操作，并收集用户朗读该预设文本的原始语音信息之后，客户端可以将收集得到的原始语音信息发送到服务器。服务器接收客户端发送的原始语音信息，然后对接收的原始语音信息进行分析处理，确定通过该原始语音信息将要合成的真人语音的真人语音类型。换言之，可以是确定将要合成的真人语音具有什么样的发声特点，就是类似小萝莉卡哇伊发声、还是女王范发声、沙哑发声等。客户端可以获取经服务器分析得到的原始语音信息所属的真人语音类型，并将接收到的真人语音类型显示在真人语音选择模板上，以便用户通过真人语音选择模板选择目标真人语音类型。具体地，本实施例中的真人语音类型与上述实施例中对真人语音类型的解释说明相同，此处不再赘述。

在本公开实施例中，服务器还可以收集不同用户的原始语音信息，然后根据不同用户的原始语音信息，并分别确定采用不同用户的原始语音信息所属的真人语音类型。可以理解的是，通过不同用户的原始语音信息合成的真人语音的发生特点可能有相似之处，即不同用户的原始语音信息合成的真人语音的所属的真人语音类型可能是相同或相似的。可选的，服务器还可以对接收到的各个用户的原始语音信息进行筛选和过滤处理，将不符合要求的原始语音信息剔除，保留符合要求的原始语音，进一步在对保留后的原始语音信息确定保留后的原始语音信息所属的真人语音类型。例如，筛选和过滤掉不文明的语音内容、或者不符合法律规定的原始语音信息。

在本公开实施例中，由于收集到的用户朗读该预设文本的原始语音信息具有一定的私密性，服务器在使用用户收集的原始语音信息时需要得到用户的授权才可以使用。为此，客户端响在应于用户对录音按钮的触发操作，并收集用户朗读该预设文本的原始语音信息之后，可以向用户推送真人语音授权页，并在向用户推送真人语音授权页对应的终端屏幕上显示该真人语音授权页，用户通过在真人语音授权页的操作对收集到的原始语音信息进行授权。可选的，在用户通过真人语音收集邀请页收集完原始语音信息之后，自动跳转到该真人语音授权页，以使该真人语音授权页在终端屏幕上进行显示。

可选的，终端屏幕上的真人语音授权页上可以设置授权控件，用户可以直接点击授权控件对原始语音信息进行授权。图4c示出了本公开实施例二提供的向用户推送的真人语音授权页的示意图。参见图4c，在向用户推送的真人授权页上显示的授权控件为申请成为语音志愿者控件403，通过点击语音志愿者控件403对原始语音信息进行授权。

S304、获取用户通过真人语音选择面板选择的目标真人语音类型。

S305、播放基于目标真人语音类型合成的与待播放文本对应的语音信息。

其中，真人语音选择面板位于终端的文本播放界面上，并且真人语音选择面板上包括至少一种真人语音类型。

在本公开实施例中，可选的，真人语音选择面板是响应于用户对文本播放界面上的真人语音选择控件的触发操作而显示在文本播放界面上。

在上述方案的基础上，可选的，该语音处理方法还可以包括：

获取经分析得到的原始语音信息的属性评测结果，并将属性评测结果推送给对应的用户。

在本公开实施例中，服务器在确定原始语音信息所属的真人语音类型时，还可以对原始语音进行属性分析，并得到原始语音信息的属性评测结果，并将评测结果推送个原始语音信息对应的客户端。客户端可以接收获取获取经分析得到的原始语音信息的属性评测结果，并将属性评测结果推送给对应的用户。

另外，真人语音授权页上还可以设置属性评测结果分享控件，通过分享属性评测结果可以方便其他用户查看，如果该属性评测结果满足其他用户的需求，其他用户可以根据分享链接向该属性评测结果所属的用户申请使用该属性评测结果对应的原始语音信息，在得到用户确认后可以向申请该原始语音信息的用户推送该原始语音信息。参见图4c，真人语音授权页上还可以设置属性评测结果的分享控价为分享测试结果404。

本公开实施例提供了一种语音处理方法，能够通过用户收集原始语音信息，并将原始语音信息推送到相应的语音处理装置确定原始语音信息所属的真人语音类型，并将确定的真人语音类型显示在真人语音选择面板上，进而当用户在使用时可以获取用户通过真人语音选择面板选择的目标真人语音类型，然后接收基于目标真人语音类型合成的与待播放文本对应的语音信息，并播放该语音信息。本公开实施例的技术方案可以通过不同的用户收集的真人语音信息，获取用户专属的真人语音类型，并将根据用户专属的真人语音类型确定对应的真人语音，以便在文本播放界面播放新闻，解决了现有技术的语音播放方式无法满足个性化阅读需要的问题。

实施例三

图5示出了本公开实施例三提供的语音处理方法的流程示意图，本公开实施例可适用于对用户正在看的文本进行语音播放或者将为用户推荐的文本进行语音播放的情形，该方法可以由相应的语音处理装置执行，该语音处理装置可配置于任何具有网络通信功能的服务器上。

如图5所示，本公开实施例中提供的语音处理方法可以包括：

S501、获取终端发送的目标真人语音类型，和当前的待播放文本。

在本公开实施例中，客户端可以获取用户通过真人语音选择面板选择的目标真人语音类型。其中，真人语音选择面板位于终端的文本播放界面上，并且真人语音选择面板上包括至少一种真人语音类型。客户端响应用户的选择操作通过客户端所在的终端将选择的目标真人语音类型和当前需要在文本播放界面上播放的当前的待播放文本发送到相应的语音处理装置。语音处理装置可以获取终端发送的目标真人语音类型和当前的待播放文本。具体地，与上述实施例中对目标真人语音类型和当前的待播放文本操作相似，此处不再赘述。

S502、基于目标真人语音类型合成与待播放文本对应的语音信息。

在本公开实施例中，每一种真人语音类型均可以关联相应的真人语音发声特点，即每一种真人语音类型均可以作为将待播放文本合成为真人语音的一种声音素材。语音处理装置可以基于用户选择的目标真人语音类型语将待播放文本合成为满足该目标真人语音类型的发声特点的语音信息。

在本公开实施例中，由于待播放文本可能有很多个文本短句组成，并且每一个文本短句的长短可能并不相同，而且语音处理装置将待播放文本信息合成为语音信息也需要占用一定的资源。为此，客户端所在终端发送的待播放文本可以是按照待播放文本的字数和标点符号已经进行切分处理的多个待播放文本段。将待播放文本分为多个待播放文本段，有利于后续可以对得到的多个待播放文本段分别进行语音合成以生成相应的语音信息，既保证了语音信息的时长，又不会占用过多的资源。

可以理解的是，按照字数划分目的是确保每一个段落对应的语音的时长均可以在一个预设的时长范围内；按照标点符号划分的目的是确保每一个段落都是一个完整的段落。如果只按照字数划分，可能正好划到一句话的中间，或者一个逗号处，造成得到的文本段不完整，如果只按照标点符号划分，那么得到的文本段的语音时长不相同。而通过字数和标点符号作为切分依据对待播放文本信息进行切分处理可以得到同时满足语音时长和段落完整两个要求的待播放文本段。可选的，语音处理装置可以基于目标真人语音类型将待播放文本中的多个待播放文本分别合成为相应的多个语音段，并将得到的多个语音段作为与待播放文本对应的语音信息。

S503、将语音信息下发到终端。

在本公开实施例中，语音处理服务器在将待播放文本合成为相应的语音信息之后可以将语音信息下发到发送待播放文本的客户端所在的终端。

在本公开实施例中，可选的，当终端发送的待播放文本被切分成多个待播放文本段之后，语音处理装置可以将多个待播放文本段放入预先设定的待执行队列中，然后通过语音合成技术基于目标真人语音类型依次对多个待播放文本段进行语音合成处理，生成待播放文本信息对应的真人语音信息。可选的，在基于目标真人语音类型通过语音合成技术合成与待播放文本信息对应的语音信息的过程中，可以采用语音数据流的方式依次将已经合成完毕的待播放文本信息中的各个待播放文本段的真人语音段，分别下发到发送待播放文本的客户端所在的终端。客户端可以流式接收待播放文本段中每一个待播放文本段对应的真人语音信息，并依次在文本播放界面中进行真人语音播放。

在上述方案的基础上，可选的，该文本处理方法还可以包括：

如果终端未发送目标真人语音类型，则识别待播放文本所属的类型；根据当前的待播放文本所属的类型匹配与之相应的真人语音类型，并基于该真人语音类型合成与待播放文本对应的语音信息，将该语音信息下发至终端。

在本公开实施例中，当用户需要在文本播放界面上选择使用真人语音听新闻或者其他文本信息时，用户可能忘记在文本播放界面上设置的真人语音选择面板中选择的目标真人语音类型，也可能是在真人语音选择面板没有用户喜好的真人语言类型，那么终端只会发送待播放文本，而不发送目标真人语音类型。可选的，语音处理装置可以对终端发送的信息进行检测，检测发送的信息中是否包含目标真人语音类型，如果检测到终端未发送目标真人语音类型，则识别待播放文本所属的真人语音类型。

具体的，在识别待播放文本所属的真人语音类型时，可以从待播放文本中提取关键词，根据关键词确定当前的待播放文本所属的文本类型，也可以根据大数据统计分析确定当前的待播放文本所属的文本类型。其中，文本类型可以是用于区别是什么样类型的标识信息，例如待播放文本时娱乐文本、还是新闻信息、还是相声信息、又或者是其他类型的信息，这里不再一一赘述。

在确定待播放文本的文本类型之后，可以根据文本类型与真人语音类型的关联关系，为待播放文本分配匹配的真人语音类型。例如，待播放文本为新闻信息可以确定真人语音类型为洪亮的真人语音类型。进一步，语音处理装置可以基于该真人语音类型合成与待播放文本对应的语音信息，将该语音信息下发至终端。具体地，与本实施例中基于该真人语音类型合成与待播放文本对应的语音信息，将该语音信息下发至终端操作与上述实施例的操作相似，此处不再赘述。

本公开实施例提供了一种语音处理方法，能够获取终端发送的目标真人语音类型，和当前的待播放文本，基于目标真人语音类型合成与待播放文本对应的语音信息，将所述语音信息下发到终端，以便在终端的文本播放界面上进行真人呢语音播放。本公开实施例的技术方案可以根据用户在文本播放界面上选择的用户自身喜好的真人语音类型，将待播放文本合成用户喜欢的真人语音在文本播放界面播放新闻，解决了现有技术的语音播放方式无法满足个性化阅读需要的问题。

实施例四

图6示出了本公开实施例四提供的语音处理方法的流程示意图，该方法可以由相应的语音处理装置执行。本实施例在上述实施例的基础上进一步地优化。

如图6所示，本公开实施例中提供的语音处理方法可以包括：

S601、获取不同用户朗读预设文本的多个原始语音信息。

在本公开实施例中，语音处理装置可以接收不同用户从各个终端收集的不同用户朗读预设文本的多个原始语音信息。具体终端如何获取可以参考上述实施例的原始语音信息获取的操作，这里不再赘述。

S602、从多个原始语音信息中分别提取出不同用户各自的声音属性特征。

S603、基于声音属性特征确定至少一种真人语音类型。

在本公开实施例中，声音属性特征可以包括音高、音强、音长、音色等特征，根据音高、音强、音长、音色可以对语音类型进行划分。原始语音信息中不同用户的声音属性特征是具有一定差异性的，每个人在对同一预设文本朗读时的发音是不一样的，有长短、轻重、平抑等变化，尤其是音色特征可以用于区分不同的用户征。为了保证后续合成的待播放文本的语音信息符合相应的声音属性特征，需要从多个原始语音信息中分别提取出不同用户各自的声音属性特征，然后根据声音属性特征为不同的声音属性特征匹配设置对应的真人语音类型。当那通过选择目标真人语音类型时，就可以确定目标真人语音类型对应的声音属性特征，方便语音处理装置基于目标真人语音类型对应的声音属性特征合成将待播放文本合成为满足该目标真人语音类型对应的声音属性特征的语音信息。语音处理装置从多个原始语音信息中分别提取出不同用户各自的声音属性特征，可以收集到不同用户的声音属性特征，并基于声音属性特征确定真人语音类型，并将确定的真人语音类型发送到终端，并显示在文本播放界面的真人语音选择面板。

S604、获取终端发送的目标真人语音类型，和当前的待播放文本。

S605、基于目标真人语音类型合成与待播放文本对应的语音信息。

在本公开实施例中，可选的，该语音处理方法还可以包括：如果终端未发送目标真人语音类型，则识别待播放文本所属的类型；根据当前的待播放文本所属的类型匹配与之相应的真人语音类型，并基于该真人语音类型合成与待播放文本对应的语音信息，将该语音信息下发至终端。

S606、将语音信息下发到终端。

在上述方案的基础上，可选的，语音处理装置在从多个原始语音信息中分别提取出不同用户各自的声音属性特征时，还可以分析多个原始语音信息，得到每个原始语音信息的属性评测结果，并将属性评测结果下发至终端。

本公开实施例提供了一种语音处理方法，能够获取不同用户的原始语音信息，并对原始语音信息进行分析处理得到各个用户各自的声音属性特征，根据确定的声音属性特征确定至少一种真人语音类型，并显示在真人语音选择面板，并在获取终端发送的目标真人语音类型和当前的待播放文本时，基于目标真人语音类型合成与待播放文本对应的语音信息，将所述语音信息下发到终端，以便在终端的文本播放界面上进行真人呢语音播放。本公开实施例的技术方案可以获取不同的用户收集的真人语音信息，为用户制定专属的真人语音类型，并将制定的用户专属的真人语音类型发送给用户，以便用户根据专属的语音类型确定对应的真人语音并在文本播放界面播放新闻，解决了现有技术的语音播放方式无法满足个性化阅读需要的问题。

实施例五

图7示出了本公开实施例五提供的一种客户端的结构示意图，本公开实施例可适用于对用户正在看的文本进行语音播放或者将为用户推荐的文本进行语音播放的情形，该客户端可以采用软件和/或硬件的方式实现，并可配置于任何具有网络通信功能的终端上，例如智能手机、平板电脑等。

如图7所示，本公开实施例中提供的该客户端可以包括：获取模块701和接收播放模块702，其中：

获取模块701，用于获取用户通过真人语音选择面板选择的目标真人语音类型。

播放模块702，用于播放基于目标真人语音类型合成的与待播放文本对应的语音信息；其中，所述真人语音选择面板位于终端的文本播放界面上，并且所述真人语音选择面板上包括至少一种真人语音类型。

在上述方案的基础上，可选的，该客户端可以包括：推送模块703、语音收集模块704和语音类型显示模块705，其中：

推送模块703，用于向用户推送真人语音收集邀请页，其中，所述真人语音收集邀请页上显示有录音按钮和预设文本。

语音收集模块704，用于响应于用户对所述录音按钮的触发操作，并收集用户朗读该预设文本的原始语音信息，其中，所述原始语音信息用于合成真人语音。

语音类型显示模块705，用于获取经合成的真人语音所属的类型，并将该类型显示在所述真人语音选择面板上。

在上述方案的基础上，可选的，该客户端可以包括：

属性评测结果显示模块706，用于获取经分析得到的所述原始语音信息的属性评测结果，并将所述属性评测结果推送给对应的用户。

在上述方案的基础上，可选的，真人语音选择面板是响应于用户对所述文本播放界面上的真人语音选择控件的触发操作而显示在所述文本播放界面上。

上述客户端可执行本公开任意实施例所提供的语音处理方法，具备执行方法相应的功能模块和有益效果。

实施例六

图8示出了本公开实施例六提供的一种语音处理装置的结构示意图，本公开实施例可适用于对用户正在看的文本进行语音播放或者将为用户推荐的文本进行语音播放的情形，该语音处理装置可以采用软件和/或硬件的方式实现，并可配置于任何具有网络通信功能的服务器上。

如图8所示，本公开实施例中提供的语音处理装置可以包括：获取模块801、合成模块802和下发模块803，其中：

获取模块801，用于获取终端发送的目标真人语音类型，和当前的待播放文本。

合成模块802，用于基于目标真人语音类型合成与所述待播放文本对应的语音信息。

下发模块803，用于将所述语音信息下发到所述终端。

在上述方案的基础上，可选的，该语音处理装置可以包括：原始语音获取模块804、提取模块805和确定模块806，其中：

原始语音获取模块804，用于获取不同用户朗读预设文本的多个原始语音信息。

提取模块805，用于从所述多个原始语音信息中分别提取出不同用户各自的声音属性特征。

确定模块806，用于基于所述声音属性特征确定至少一种真人语音类型。

在上述方案的基础上，可选的，该语音处理装置可以包括：

识别模块807，用于如果所述终端未发送目标真人语音类型，则识别所述待播放文本所属的类型。

匹配合成模块808，用于根据当前的待播放文本所属的类型匹配与之相应的真人语音类型，并基于该真人语音类型合成与所述待播放文本对应的语音信息，将该语音信息下发至所述终端。

在上述方案的基础上，可选的，该语音处理装置可以包括：

分析模块809，用于分析所述多个原始语音信息，得到每个原始语音信息的属性评测结果，并将所述属性评测结果下发至所述终端。

上述语音处理装置可执行本公开任意实施例所提供的语音处理方法，具备执行方法相应的功能模块和有益效果。

实施例七

图9示出了本公开实施例七提供的一种终端的硬件结构示意图。终端可以以各种形式来实施，本公开实施例中的终端可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端、车载显示终端、车载电子后视镜等等的移动终端设备以及诸如数字TV、台式计算机等等的固定终端。

如图9所示，终端900可以包括无线通信单元910、A/V(音频/视频)输入单元920、用户输入单元930、感测单元940、输出单元950、存储器960、接口单元970、处理器980和电源单元990等等。图9示出了具有各种组件的终端，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。

其中，无线通信单元910允许终端900与无线通信***或网络之间的无线电通信。A/V输入单元920用于接收音频或视频信号。用户输入单元930可以根据用户输入的命令生成键输入数据以控制终端设备的各种操作。感测单元940检测终端900的当前状态、终端900的位置、用户对于终端900的触摸输入的有无、终端900的取向、终端900的加速或减速移动和方向等等，并且生成用于控制终端900的操作的命令或信号。接口单元970用作至少一个外部装置与终端900连接可以通过的接口。输出单元950被构造为以视觉、音频和/或触觉方式提供输出信号。存储器960可以存储由处理器980执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据。存储器960可以包括至少一种类型的存储介质。而且，终端900可以与通过网络连接执行存储器960的存储功能的网络存储装置协作。处理器980通常控制终端设备的总体操作。另外，处理器980可以包括用于再现或回放多媒体数据的多媒体模块。处理器980可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元990在处理器980的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。当上述终端所包括一个或者多个程序被所述一个或者多个处理器980执行时，可以进行如下操作：

获取用户通过真人语音选择面板选择的目标真人语音类型；

实施例八

图10示出了本公开实施例八提供的一种服务器的硬件结构示意图。服务器可以以各种形式来实施，本公开实施例中的服务器可以包括但不限于诸如笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、车载服务器等移动服务器以及诸如数字TV、台式计算机等等的固定服务器。

如图10所示，服务器1000可以包括无线通信单元1010、A/V(音频/视频)输入单元1020、用户输入单元1030、感测单元1040、输出单元1050、存储器1060、接口单元1070、处理器1080和电源单元1090等等。图10示出了具有各种组件的服务器，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。

其中，无线通信单元1010允许服务器1000与无线通信***或网络之间的无线电通信。A/V输入单元1020用于接收音频或视频信号。用户输入单元1030可以根据用户输入的命令生成键输入数据以控制服务器的各种操作。感测单元1040检测服务器1000的当前状态、服务器1000的位置、用户对于服务器1000的触摸输入的有无、服务器1000的取向、服务器1000的加速或减速移动和方向等等，并且生成用于控制服务器1000的操作的命令或信号。接口单元1070用作至少一个外部装置与服务器1000连接可以通过的接口。输出单元1050被构造为以视觉、音频和/或触觉方式提供输出信号。存储器1060可以存储由处理器1080执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据。存储器1060可以包括至少一种类型的存储介质。而且，服务器1000可以与通过网络连接执行存储器1060的存储功能的网络存储装置协作。处理器1080通常控制服务器的总体操作。另外，处理器1080可以包括用于再现或回放多媒体数据的多媒体模块。处理器1080可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元1090在处理器1080的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。当上述终端所包括一个或者多个程序被所述一个或者多个处理器1080执行时，可以进行如下操作：

获取终端发送的目标真人语音类型，和当前的待播放文本；

将所述语音信息下发到所述终端。

实施例九

本公开实施例提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种应用于终端的语音处理方法，该方法包括：

获取用户通过真人语音选择面板选择的目标真人语音类型；

当然，本公开实施例中所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本公开任意实施例所提供的应用于终端的语音处理方法中的相关操作。

本公开实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本公开实施例中还提供了另一种计算机可读存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种应用于服务器的语音处理方法，该方法包括：

获取终端发送的目标真人语音类型，和当前的待播放文本；

将所述语音信息下发到所述终端。

当然，本公开实施例中所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本公开任意实施例所提供的应用于服务器的语音处理方法中的相关操作。对存储介质的介绍可参见实施例八中的内容解释。

注意，上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解，本公开不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此，虽然通过以上实施例对本公开进行了较为详细的说明，但是本公开不仅仅限于以上实施例，在不脱离本公开构思的情况下，还可以包括更多其他等效实施例，而本公开的范围由所附的权利要求范围决定。

Claims

1.一种语音处理方法，应用于终端，其特征在于，所述方法包括：

获取用户通过真人语音选择面板选择的目标真人语音类型；其中所述目标真人语音类型是通过向用户推送的真人语音收集邀请页上的录音按钮被触发之后收集到原始语音信息所合成的真人语音类型；

2.根据权利要求1所述的方法，其特征在于，在获取用户通过真人语音选择面板选择的目标真人语音类型之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述真人语音选择面板是响应于用户对所述文本播放界面上的真人语音选择控件的触发操作而显示在所述文本播放界面上。

5.一种语音处理方法，应用于服务器，其特征在于，所述方法包括：

获取通过各个终端向用户推送的真人语音收集邀请页上的录音按钮被触发后收集的不同用户朗读预设文本的多个原始语音信息；

基于所述声音属性特征确定至少一种真人语音类型，并将确定的真人语音类型发送到终端，以显示在终端文本播放界面的真人语音面板；

获取终端发送的从真人语音面板上选择的目标真人语音类型，和当前的待播放文本；

将所述语音信息下发到所述终端。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

8.一种客户端，配置于终端，其特征在于，所述客户端包括：

获取模块，用于获取用户通过真人语音选择面板选择的目标真人语音类型；其中所述目标真人语音类型是通过向用户推送的真人语音收集邀请页上的录音按钮被触发之后收集到原始语音信息所合成的真人语音类型；

播放模块，用于播放基于目标真人语音类型合成的与待播放文本对应的语音信息；其中，所述真人语音选择面板位于终端的文本播放界面上，并且所述真人语音选择面板上包括至少一种真人语音类型。

9.一种语音处理装置，配置于服务器，其特征在于，所述装置包括：

原始语音获取模块，用于获取通过各个终端向用户推送的真人语音收集邀请页上的录音按钮被触发后收集的不同用户朗读预设文本的多个原始语音信息；

确定模块，用于基于所述声音属性特征确定至少一种真人语音类型，并将确定的真人语音类型发送到终端，以显示在终端文本播放界面的真人语音面板；

获取模块，用于获取终端发送的从真人语音面板上选择的目标真人语音类型，和当前的待播放文本；

下发模块，用于将所述语音信息下发到所述终端。

10.一种终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的语音处理方法。

11.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求5-7中任一所述的语音处理方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的语音处理方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求5-7中任一所述的语音处理方法。