CN111105779B

CN111105779B - 用于移动客户端的文本播放方法和装置

Info

Publication number: CN111105779B
Application number: CN202010000741.5A
Authority: CN
Inventors: 胡帅君; 李世龙; 林喜; 闫腾; 李明辉
Original assignee: Databaker Beijng Technology Co ltd
Current assignee: Beibei (Qingdao) Technology Co.,Ltd.
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2022-07-08
Anticipated expiration: 2040-01-02
Also published as: CN111105779A

Abstract

本发明实施例提供了用于移动客户端的文本播放方法、装置、移动客户端和存储介质，文本包括多个文本句，方法包括：播放根据服务器实时合成的第一合成语音确定的第一播放语音，第一合成语音与文本播放请求中的第一文本句对应；在开始播放第一播放语音的同时，将第一文本句之后的下一个文本句发送至服务器，以供服务器实时合成与下一个文本句对应的第二合成语音；接收服务器返回的第二合成语音；基于第二合成语音确定第二播放语音；将第二播放语音存储到播放列表，其中播放列表用于按顺序存储播放语音；在播放完根据第一合成语音确定的所有播放语音的情况下，播放第二播放语音。上述方案实现了对篇幅较长的文本进行语音合成时的实时且不间断播放。

Description

用于移动客户端的文本播放方法和装置

技术领域

本发明涉及文语转换(TTS)技术领域，更具体地涉及一种用于移动客户端的文本播放方法、装置、移动客户端和存储介质。

背景技术

文语转换技术是一种将文字信息转化为声音信息的技术。文语转换技术可以为广大用户及第三方应用提供语音合成服务。结合语音合成服务，市场上逐渐涌现出一些落地的应用场景，比如用户用语音合成技术实现用自己的声音给宝宝讲故事，用自己的声音导航等。

考虑到移动客户端在网络连接、存储资源等方面的局限性，现有的在移动客户端播放利用语音合成技术实时合成的语音的场景多是播放单句的情况，例如通过siri、小爱同学等智能语音助手进行人机交互。上述人机交互通常是以问答的形式进行的。智能语音助手每次接收到询问之后，从数据库查找对应的文本句，并通过实时语音合成技术将查找到的文本句转换为对应的合成语音后播出。对于需要在移动客户端播放篇幅较长的文本的情况，现有技术一般是通过语音合成技术获取到与整个文本相对应的合成语音，然后基于播放请求播放合成语音。

对于篇幅较长的文本来说，如何在对其进行语音合成的同时实时且不间断地在移动客户端播放其语音，成为本领域技术人员亟待解决的技术问题。

发明内容

考虑到上述问题而提出了本发明。

根据本发明一个方面，提供了一种用于移动客户端的文本播放方法，所述文本包括多个文本句，所述方法包括：

S100:播放根据服务器实时合成的第一合成语音确定的第一播放语音，所述第一合成语音与文本播放请求中的第一文本句对应；

S200:在开始播放所述第一播放语音的同时，将所述第一文本句之后的下一个文本句发送至所述服务器，以供所述服务器实时合成与所述下一个文本句对应的第二合成语音；

S300:接收所述服务器返回的所述第二合成语音；

S400:基于所述第二合成语音确定第二播放语音；

S500:将所述第二播放语音存储到播放列表，其中所述播放列表用于按顺序存储播放语音；

S600:在播放完根据所述第一合成语音确定的所有播放语音的情况下，播放所述第二播放语音。

示例性地，所述步骤S400包括：将所述第二合成语音转换为具有固定时长的一个或多个第二播放语音；

所述步骤S500包括：将所述一个或多个第二播放语音按顺序存储到所述播放列表的对应位置中；

所述方法还包括：

根据当前播放的第二播放语音在所述播放列表中的位置计算已播放时长；

确定所述文本的播放总时长；

基于所述已播放时长和所述播放总时长的比率，确定所述文本的播放进度；

基于所述缓存时长和所述播放总时长的比率，确定所述文本的缓存进度；

在播放第二播放语音的同时显示所述播放进度和所述缓存进度。

示例性地，所述将所述第二合成语音转换为具有固定时长的一个或多个第二播放语音包括：

获取所述第二合成语音的采样频率；

基于所述采样频率计算具有所述固定时长的语音的数据量；

根据所述数据量分割所述第二合成语音，以得到第二播放语音。

示例性地，所述根据所述数据量分割所述第二合成语音以得到第二播放语音包括：

自所述第二合成语音的起始位置，根据所述数据量切分所述第二合成语音，直至所剩的语音不足所述数据量；

对所述所剩的语音增加静音部分，以将所述所剩的语音的时长补充为所述固定时长并将所述所剩的语音作为第二播放语音之一。

示例性地，所述确定所述文本的播放总时长包括：

判断当前是否已接收到所述文本的所有文本句对应的合成语音；

在当前尚未接收到所有文本句对应的合成语音的情况下，

获取所述文本的总字数和已接收到的合成语音的音速；

将所述总字数和所述音速相乘，以将乘积作为所述文本的播放总时长；

在当前已接收到所有文本句对应的合成语音的情况下，

根据所有文本句对应的合成语音的时长确定所述文本的播放总时长。

示例性地，所述在播放第二播放语音的同时显示所述播放进度还包括：基于固定频率更新所述播放进度。

示例性地，所述方法还包括：响应于调整播放进度指令，重新确定并播放当前待播放的播放语音。

示例性地，所述响应于调整播放进度指令，重新确定并播放当前待播放的播放语音包括：

获取所述调整播放进度指令中的调整进度；

判断所述播放列表中是否包含满足所述调整进度的播放语音；

若是，将满足所述调整进度的播放语音确定为所述当前待播放的播放语音并进行播放；

若否，对当前播放的播放语音不做更改。

示例性地，所述方法还包括：

获取与所述文本播放请求中的背景对象相对应的背景音；

将所述背景音分割为具有所述固定时长的背景单元；

所述将所述第二合成语音转换为具有固定时长的一个或多个第二播放语音包括：

将所述第二合成语音分割为具有所述固定时长的一个或多个合成单元；

将所述合成单元与对应的背景单元合并，以生成所述第二播放语音。

示例性地，所述将所述合成单元与对应的背景单元合并，以生成所述第二播放语音包括：

确定所述合成单元和所述对应的背景单元各自的权重；

根据所述各自的权重将所述合成单元和所述对应的背景单元加权求和，以得到所述第二播放语音。

示例性地，所述第二播放语音为PCM编码格式的数据，所述第二播放语音的固定时长为1至2秒。

示例性地，所述步骤S100-S600是在所述文本播放请求中指定的播放类型为个性化播放的情况下执行；

所述方法还包括：

在所述文本播放请求中指定的播放类型为原音播放的情况下，播放所述服务器预先合成的与所述文本对应的标准语音。

根据本发明另一方面，还提供了一种用于移动客户端的文本的播放装置，包括：

第一播放单元，用于播放根据服务器实时合成的第一合成语音确定的第一播放语音，所述第一合成语音与文本播放请求中的第一文本句对应；

文本句发送单元，用于在开始播放所述第一播放语音的同时，将所述第一文本句之后的下一个文本句发送至所述服务器，以供所述服务器实时合成与所述下一个文本句对应的第二合成语音；

语音接收单元，用于接收所述服务器返回的所述第二合成语音；

语音确定单元，用于基于所述第二合成语音确定第二播放语音；

存储单元，用于将所述第二播放语音存储到播放列表，其中所述播放列表用于按顺序存储播放语音；

第二播放单元，用于在播放完根据第一合成语音确定的所有播放语音的情况下，播放所述第二播放语音。

根据本发明再一方面，还提供了一种移动客户端，包括：处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的文本播放方法。

根据本发明又一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述的文本播放方法。

根据本发明实施例的技术方案，实现了对篇幅较长的文本进行语音合成时的实时且不间断的播放。通过依次向服务器发送文本中的文本句的方式使服务器进行实时语音合成，可以避免服务器由于合成大篇幅文本而造成用户等待时间过长的问题。通过在开始播放与前一文本句相对应的语音的同时将下一文本句发送给服务器进行语音合成，并将与该下一文本句对应的语音存储至播放列表，可以实现文本的不间断播放。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本发明一个实施例的用于移动客户端的文本播放方法的示意性流程图；

图2示出了根据本发明一个实施例的提供文本的播放进度的示意性流程图；

图3示出了根据本发明一个实施例将第二合成语音转换为第二播放语音的示意性流程图；

图4示出了根据本发明一个实施例确定播放总时长的示意性流程图；

图5示出了根据本发明一个实施例调整播放进度的示意性流程图；

图6示出了根据本发明再一个实施例将第二合成语音转换为第二播放语音的示意图；

图7示出了根据本发明再一个实施例生成第二播放语音的示意性流程图；

图8示出了根据本发明一个实施例的播放器的架构图；

图9示出了根据本发明一个实施例的文本播放装置的示意性框图；

图10示出了根据本发明一个实施例的移动客户端的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明适用于在移动客户端播放实时语音合成的文本的场景。移动客户端可以是智能手机、平板电脑、笔记本电脑等各种智能设备。该移动客户端可以与服务器进行有线或无线通信。移动客户端可以响应于用户的文本播放请求，经由与服务器的通信，播放由服务器据此合成的语音。上述文本可以包含多个文本句。该文本句可以是以句号结尾的一句话、以逗号、分号等标点符号结尾的一句话中的一部分、或者多句话，等等。总之，上述文本不是简短的单句，而是具有一定篇幅的短文或长文，例如一篇故事、一首诗、一本书等。

图1示出了根据本发明一个实施例的用于移动客户端的文本播放方法的示意性流程图。如图1所示，文本播放方法包括以下步骤。

S100:播放根据服务器实时合成的第一合成语音确定的第一播放语音，所述第一合成语音与文本播放请求中的第一文本句对应。

如前所述，移动客户端用于响应于用户发出的文本播放请求播放与文本相对应的语音。该文本播放请求中可以包含待播放的文本的信息。移动客户端基于文本播放请求中的文本的信息，将文本中包含的多个文本句按顺序逐个发送给远程的服务器进行实时语音合成。远程服务器以文本句为单元进行语音合成。

上述第一文本句可以是文本中除最后一个文本句之外的任一个文本句，例如文本中的第一句话、第二句话或第n句话。上述第一合成语音可以是远程服务器对第一文本句进行实时语音合成得到的，其与第一文本句对应。上述根据第一合成语音确定的第一播放语音，可以是第一合成语音本身，也可以是对第一合成语音进行处理之后得到的语音。

在此步骤S100中，移动客户端播放第一播放语音，第一播放语音是根据自服务器接收的、其实时合成的第一合成语音所确定的。

S200:在开始播放所述第一播放语音的同时，将所述第一文本句之后的下一个文本句发送至所述服务器，以供所述服务器实时合成与所述下一个文本句对应的第二合成语音。

上述下一个文本句是指在上述文本中排序在第一文本句之后且与第一文本句相邻的文本句。例如，当第一文本句为文本中的第一句话时，下一个文本句是文本中的第二句话；当第一文本句为文本中的第二句话时，下一个文本句是文本中的第三句话；以此类推，当第一文本句为文本中的第n句话时，下一个文本句就是文本中的第n+1句话。

本领域普通技术人员理解，服务器将一个文本句实时合成为对应的语音需要一定的合成时间，移动客户端播放已经合成的语音需要一定的播放时间。对于同一个文本句而言，合成时间远小于播放时间。即使是不同的文本句，由于不同文本句之间的长度大致相当，因此也能大体保证合成时间远小于播放时间。这样，在开始播放第一播放语音的同时，将下一个文本句发送至服务器，以由服务器对下一个文本句进行语音合成，那么在根据第一合成语音确定的播放语音播放完之前，服务器就可以对下一个文本句的语音合成。因此，对于包含多个文本句的文本来说，只有在播放文本的第一个文本句之前，需要等待远程服务器实时合成第一个文本句相对应的合成语音的合成时间，才能播放其语音。在开始播放语音之后，由于后续的每一文本句的合成时间小于播放时间，因此在开始播放前一文本句的同时，就可以完成对后一文本句的实时语音合成，从而避免了对合成时间的等待。

S300:接收所述服务器返回的所述第二合成语音。上述第二合成语音即为服务器实时合成的、与步骤S200所发送的下一个文本句相对应的语音。

S400:基于所述第二合成语音确定第二播放语音。示例性地，第二播放语音是第二合成语音本身。替代地，第二播放语音是对第二合成语音进行处理之后得到的语音。该处理操作可以包括对第二合成语音进行滤波操作等过程，本发明对具体处理操作不做限制。

S500:将所述第二播放语音存储到播放列表，其中所述播放列表用于按顺序存储播放语音。

上述播放列表可以用于按顺序缓存移动客户端已经确定的播放语音。示例性地，播放列表可以基于先入先出机制。上述顺序可以是基于播放语音的确定时间的。例如，在根据第一合成语音确定了第一播放语音之后，又根据第二合成语音确定了第二播放语音。那么在播放列表中，第二播放语音是在第一播放语音之后存储的。

S600:在播放完根据第一合成语音确定的所有播放语音的情况下，播放所述第二播放语音。

由于播放列表中的语音是按顺序存储的，因此在播放时也可以按顺序播放。即在播放完根据第一合成语音确定的所有播放语音的情况下，紧接着播放基于第二合成语音确定的第二播放语音。可以理解，只要播放列表中存在未播放的语音，那么就可以达到连续不间断播放的效果。

通过上述实施例，本发明可以实现对篇幅较长的文本进行语音合成时的实时且不间断的播放。通过依次向服务器发送文本中的文本句的方式使服务器进行实时语音合成，可以避免服务器由于合成大篇幅文本而造成用户等待时间过长的问题。通过在开始播放与前一文本句相对应的语音的同时将下一文本句发送给服务器进行语音合成，并将与该下一文本句对应的语音存储至播放列表，可以实现文本的不间断播放。

上述步骤S400中，基于第二合成语音确定第二播放语音。在一个示例中，上述步骤包括：S410，将所述第二合成语音转换为具有固定时长的一个或多个第二播放语音。

在本示例中，可以对第二合成语音进行补充、分割等多种处理方式，以得到具有固定时长的一个或多个第二播放语音。上述固定时长可以是根据需要设置的任意时长，例如1秒、2秒、5秒等。可以理解，第二合成语音具有特定的发音时长，该特定的发音时长与对应文本句的字数有关。当第二合成语音的发音时长小于上述固定时长时，可以在第二合成语音的基础上补充一定时长的静音，使得第二合成语音与补充的静音的总时长等于上述固定时长。当第二合成语音的发音时长大于上述固定时长时，可以将第二合成语音分割为具有上述固定时长的第二播放语音。例如，假设第二合成语音的发音时长为10秒，那么可以将第二合成语音分割为5个固定时长为2秒的第二播放语音，或者将第二合成语音分割为10个固定时长为1秒的第二播放语音。

在步骤S410的基础上，上述步骤S500将所述第二播放语音存储到播放列表包括：S510，将所述一个或多个第二播放语音按顺序存储到所述播放列表的对应位置中。

根据前文所述，播放列表用于按顺序存储播放语音。因此，在将第二合成语音转换为一个或多个第二播放语音的基础上，进一步可以将所述一个或多个第二播放语音按其在第二合成语音中的位置的顺序存储到所述播放列表的对应位置中。例如，第二合成语音转换后得到的第二播放语音包括S1、S2、S3和S4。那么可以分别将上述第二播放语音S1、S2、S3和S4按顺序存储到播放列表中的、当前的最后空位置。

在根据本发明的另一个实施例的文本播放方法中，能够提供文本的播放进度给用户。图2示出了根据本发明另一个实施例的文本播放方法中提供文本的播放进度的示意性流程图。在步骤S410和步骤S510的基础上，如图2所示，提供文本的播放进度包括以下步骤。

S710:根据当前播放的第二播放语音在所述播放列表中的位置计算已播放时长。

所述已播放时长指的是当前播放的文本自起始句开始已经播放的语音的时长。由于播放列表中的播放语音是按顺序存储的，因此可以通过当前播放的第二播放语音在所述播放列表中的位置来计算已播放时长。例如，假设播放列表中存储的播放语音根据存储位置按照从1开始的顺序号进行排序，每个顺序号对应一个具有固定时长的播放语音。那么用当前播放的第二播放语音对应的顺序号乘以固定时长，即为当前已播放时长。例如，当前播放的第二播放语音的顺序号为50，每个播放语音的固定时长为2s，那么当前已播放时长为50×2＝100s。

另外在步骤S710之前可以根据播放列表中存储的所有播放语音计算缓存时长。例如，假设播放列表中当前共存储了100个播放语音，每个播放语音的固定时长为2s，那么当前缓存时长为100×2＝200s。

S720:确定所述文本的播放总时长。

文本的播放总时长指的是播放完整文本所需要的时长。可以理解，播放总时长与文本的字数有关。字数越多，播放总时长越长；字数越少，播放总时长越短。

S730:基于所述已播放时长和所述播放总时长的比率，确定所述文本的播放进度。该比率表示了已播放的语音的时长与整个文本所对应的语音的时长的比值，因此，其能够表征文本的当前播放进度。

另外，还可以基于所述缓存时长和所述播放总时长的比率，确定所述文本的缓存进度。该比率表示了已经确定的播放语音的时长与整个文本所对应的语音的时长的比值，因此，其能够表征文本的当前缓存进度。

S740:在播放第二播放语音的同时显示所述播放进度。示例性地，可以利用人机交互界面的可操作控件来显示播放进度，例如，滑动条。另外，还可以在播放第二播放语音的同时显示所述播放进度和缓存进度。示例性地，可以用与播放进度不同颜色的滑动条来显示缓存进度。

可以理解，虽然上面的操作是针对第二播放语音进行的，但是实际中，可以针对每个合成语音都执行上述操作。通过将合成语音转换为具有固定时长的一个或多个播放语音，并且将播放语音按顺序存储到播放列表中，有利于准确快速地计算播放时长。因为每个播放语音的时长都是固定的，只要获取播放语音在播放列表中的位置就可以直接计算得到每个播放语音对应的播放时间段。与直接存储合成语音相比，存储具有固定时长的播放语音可以更加简便迅速地获取播放时长信息。进一步，基于播放时长显示文本的播放进度，可以为用户提供直观的视觉展示效果，提升用户体验。

如前所述，步骤S410将所述第二合成语音转换为具有固定时长的一个或多个第二播放语音。图3示出了根据本发明一个实施例将第二合成语音转换为第二播放语音的示意性流程图。所述将所述第二合成语音转换为具有固定时长的一个或多个第二播放语音包括以下步骤。

S411:获取所述第二合成语音的采样频率。

采样频率与服务器进行语音合成时的参数有关，可以通过服务器直接获取。例如，PCM格式的16k单声道音频数据的采样频率可以为16kHz。

S412:基于所述采样频率计算具有所述固定时长的语音的数据量。

可以将采样频率乘以固定时长，以获得对应时长的语音的数据量。如果语音是双声道音频数据，则需要将上述乘积再乘以2。如果数据为双声道音频数据，单个声道的采样频率为16kHz，固定时长为1秒，每个量化采样值对应一个8位二进制码(即占用一个字节)，那么每个播放语音的数据量为16000×2×1＝32000字节。

S413:根据所述数据量分割所述第二合成语音，以得到第二播放语音。

已知具有固定时长的语音的数据量，即每个第二播放语音的数据量，可以根据该数据量对第二合成语音进行分割，即可得到具有固定时长的一个或多个第二播放语音。

基于采样频率和固定时长计算每个第二播放语音的数据量，基于数据量对第二合成语音进行分割，易于操作，并且可以提高准确性，保证分割后的第二播放语音严格符合预设的固定时长。

可以理解，第二合成语音的发音时长与上述固定时长之间未必是整数倍的关系，此时无法将第二合成语音恰好分割为具有固定时长的多个第二播放语音。例如，第二合成语音的发音时长为10秒，设定的固定时长为3秒。这种情况下第二合成语音包括3个固定时长为3秒的第二播放语音和最后一个时长为1秒的播放语音，最后一个播放语音的时长不足够上述固定时长。在此情况下，步骤S413可以包括以下步骤。

首先，自所述第二合成语音的起始位置，根据所述数据量切分所述第二合成语音，直至所剩的语音不足所述数据量。每执行一次切分操作，则可以获得一个第二播放语音。例如在上述示例中，针对10秒的第二合成语音，可以执行3次切分操作，每次切分出1个固定时长为3秒的第二播放语音。最后，剩余一个时长为1秒的播放语音，其不足3秒时长的数据量。

然后，对所述所剩的语音增加静音部分，以将所述所剩的语音的时长补充为所述固定时长并将所述所剩的语音作为第二播放语音之一。在上述示例中，可以将最后所剩的时长为1秒的播放语音增加2秒的静音部分，以使其时长延长至3秒。则补充后的语音可以作为前述10秒的第二合成语音的最后一个第二播放语音。

由此，可以将发音时长为10秒的第二合成语音转换为4个固定时长为3秒的第二播放语音，其中最后一个第二播放语音中包含2秒的静音时长。通过增加静音时长的方式，可以将每个合成语音都恰好转换为多个固定时长的第二播放语音，便于后续对播放语音进行统计管理，有利于减少计算量，提高响应速度。

如前所述，在步骤S720中确定所述文本的播放总时长。图4示出了根据本发明一个实施例确定播放总时长的示意性流程图。如图4所述，步骤S720包括：

S721:判断当前是否已接收到所述文本的所有文本句对应的合成语音。

例如，所述文本共包括10个文本句，本步骤用于判断移动客户端是否已经接收到服务器返回的分别与10个文本句对应的合成语音。

S722:在当前尚未接收到所有文本句对应的合成语音的情况下，获取所述文本的总字数和已接收到的合成语音的音速，转步骤S723。

S723:将所述总字数和所述音速相乘，以将乘积作为所述文本的播放总时长。

若尚未接收到所有文本句对应的合成语音，表示当前服务器还未完成所有文本句的语音合成，此时可以根据文本的总字数和合成语音的音速估计上述文本的播放总时长。其中文本的总字数可以根据文本播放请求中的文本信息直接统计，合成语音的音速可以根据服务器返回参数直接获得。

已知合成语音的音速以及文本的总字数，将两者相乘即为文本的估计播放总时长。可以理解，根据上述方法计算得到的播放总时长是不精确的。考虑到文本中的韵律、标点符号的停顿等因素，实际上合成语音的音速也不是一直不变的，因此根据音速和字数相乘得到的估计播放总时长与实际播放总时长之间可能会存在误差。

S724:在当前已接收到所有文本句对应的合成语音的情况下，根据所有文本句对应的合成语音的时长确定所述文本的播放总时长。

如果已经接收到所有文本句对应的合成语音，那么所有合成语音的总时长是可以确定的。例如根据存储在播放列表中的所有播放语音的个数确定播放总时长。此时得到的播放总时长是更精确的。

上述步骤能够在尚未接收到所有文本句对应的合成语音的情况下，提供有参考价值的播放总时长，并且在已接收到所有文本句对应的合成语音的情况下，提供精确的播放总时长。基于此，用户无需等待就可以随时了解文本相关的播放时长信息，从而可以根据播放总时长获取更多的选择权，提升用户收听体验。

在一个示例中，步骤S740在播放第二播放语音的同时显示所述播放进度和所述缓存进度还包括：基于固定频率更新所述播放进度和所述缓存进度。示例性地，可以每秒更新一下播放进度和缓存进度。由此，可以即时用精确的实际播放总时长替换估计的播放总时长来确定更准确的播放进度，也可以根据当前播放的不同的播放语音及时调整播放进度条的位置，以及根据当前已缓存的所有播放语音即时调整缓存进度条的位置，使用户更加准确地了解当前播放进度和缓存进度，提升体验。

如前所述，本发明在播放语音的同时显示播放进度。基于此，本发明还可以包含调整播放进度的步骤。在一个示例中，文本播放方法还包括：

S800:响应于调整播放进度指令，重新确定并播放当前待播放的播放语音。

由此，用户可以根据实际需求灵活设置播放位置，例如重复播放重要部分的语音或者跳过不重要部分的语音以节省时间等，赋予用户更多的自主选择权利。

图5示出了根据本发明一个实施例调整播放进度的示意性流程图。如图5所示，步骤S800包括：

S810:获取所述调整播放进度指令中的调整进度。

调整播放进度指令的调整进度可以用播放时刻表示，该播放时刻可以是用户手动输入的时刻，也可以是拖动进度条上的进度块对应的时刻。

S820:判断所述播放列表中是否包含满足所述调整进度的播放语音。

如前所述，播放列表中按顺序存储具有固定时长的播放语音。由此，可以根据每个播放语音在播放列表中的位置以及固定时长计算出该播放语音对应的播放时刻。例如，对于存储列表中存储的顺序号为20、固定时长为1秒的播放语音，其对应的播放时刻为20×1＝20秒，即该语音从第20秒开始播放。

判断所述播放列表中是否包含满足所述调整进度的播放语音，可以是判断播放列表中是否存储了与播放时刻相对应的播放语音。例如，期望的播放时刻为第30秒，仍以每个语音的固定时长为1秒为例，若播放列表中已经存储了35个播放语音，可以理解其中必然存在播放时刻为30秒的播放语音，即播放列表中包含满足调整进度的播放语音。若播放列表中只存储了20个播放语音，说明后续的播放语音还处于语音合成或者传输的过程中，尚未存储到播放列表中，此时播放列表中不包含满足调整进度的播放语音。

S830:若播放列表中包含满足调整进度的播放语音，将满足所述调整进度的播放语音确定为所述当前待播放的播放语音并进行播放。

这种情况下，可以直接播放满足调整进度的播放语音，例如上文中第30秒的语音，从而实现根据用户发出的调整播放进度指令而调整当前播放的播放语音的目的。

S840:若播放列表中不包含满足调整进度的播放语音，对当前播放的播放语音不做更改。

如果播放列表中没有满足调整进度的播放语音，为了不影响播放效果，本示例中对当前播放的播放语音不做更改。例如当前播放的是与文本对应的第5秒的播放语音，而满足调整进度的播放语音为第30秒的播放语音。若播放列表中尚未存储播放时刻为30秒的播放语音，则当前仍然继续播放第5秒的播放语音，以保证当前播放内容的流畅性。

本示例中，根据播放列表中是否存储有满足播放进度的播放语音来确定当前待播放的播放语音，一方面可以在满足条件的情况下根据用户指令进行播放内容的跳转，提升用户收听体验；另一方面在不满足条件的情况下仍然保持播放的语音的流畅性，避免受到不必要的干扰。

在一个示例中，所述播放语音为PCM编码格式的数据，所述播放语音的固定时长为1至2秒。PCM编码是目前计算机应用中能够达到的最高保真水平的音频数据编码方案。与MP3格式的数据相比，PCM编码格式的数据没有经过任何封装压缩等处理，因此在播放PCM编码格式的数据时可以省略解压缩过程，提高播放效率。

通过将播放语音的固定时长设定为1至2秒，可以进一步简化计算，方便统计。尤其是当播放语音的固定时长设定为1秒时，播放列表中存储的播放语音的顺序号即为该播放语音对应的播放时间段，在显示播放进度或调整播放进度时更加易于统计。例如，当接收到调整进度指令时，直接根据调整进度包含的播放时刻去检测播放列表中是否存储了对应顺序号的语音，能够提高检测效率，减少响应时间。另外，将播放语音的固定时长设定为1秒还具有降低语音粒度，提高调整进度时定位的准确性的技术效果。可以理解，每次调整进度是从与调整进度对应的播放语音的起始位置开始播放的，因此播放语音的固定时长决定了调整进度时的最小粒度。如果固定时长为2秒，则调整后的播放时刻为2的倍数；如果固定时长为5秒，则调整后的播放时刻为5的倍数；等等。将固定时长设定为1秒，就可以根据调整进度播放任一秒对应的语音单元，因此定位更加精确，有利于满足用户的高标准定位需求，例如精确定位到某个字或者某个词。

在一个示例中，用户发出的文本播放请求中还可以包含背景对象，可以将背景对象对应的背景音添加到播放语音中，由此，实现在播放文本的播放语音的同时，播放背景音。根据本发明一个实施例，文本的播放方法还可以包括以下步骤。

S900:获取与所述文本播放请求中的背景对象相对应的背景音。

背景对象可以是关于背景音的描述信息，例如雨声、吆喝声、音乐1等等，背景音可以是与背景对象相对应的音频文件，该音频文件可以存储在服务器中，也可以存储在移动客户端。本步骤中的获取相对应的背景音，即为从对应的存储地址获取对应的音频文件。

S1000:将所述背景音分割为具有所述固定时长的背景单元。

本步骤将背景音分割为背景单元与步骤S411至S413类似，可以包括：获取所述背景音的采样频率；基于所述背景音的采样频率计算具有所述固定时长的背景单元的数据量；根据所述数据量分割所述背景音，以得到所述背景单元。具体细节不再详细阐述。

在S900和S1000的基础上，前述步骤S410可以包括以下步骤。

S416:将所述第二合成语音分割为具有所述固定时长的一个或多个合成单元。

本步骤与步骤S411至S413类似，这里不再详细阐述。

S417:将所述合成单元与对应的背景单元合并，以生成所述第二播放语音。

本步骤所述的合并，可以是将合成单元和背景单元叠加，使得叠加后生成的第二播放语音中即包含背景音，又包含第二合成语音。为了保证合成单元和背景单元之间可以顺利合并，可以将两者的固定时长设置为相等，即合成单元的固定时长等于背景单元的固定时长。可以理解，当播放第二播放语音时，会同时播放对应的背景单元和合成单元，因此可以达到在第二合成语音的基础上添加背景音的效果。

图6示出了根据本发明一个实施例将合成语音转换为播放语音的示意图。如图6所示，第三行代表对背景音进行分割而获得的背景单元，第二行代表对合成语音进行分割而获得的合成单元，第一行代表根据背景单元和合成单元生成的播放语音。其中背景单元和合成单元对应的固定时长均为1秒，对应的数据量为32000字节。由图6中可以看出，背景单元和合成单元相结合得到播放语音。在图6的示例中，播放语音中的起始位置处还包括一段片头语音。该片头语音可以包括产品介绍、招呼用语、推广文案等内容，由厂商自行设定，本发明对此不做限制。

本示例通过将背景音和合成语音合并，可以在播放与文本对应的合成语音的同时播放背景音，使文本的播放效果更加丰富生动。用户还可以根据天气、心情、个人喜好等为合成语音添加不同的背景音，从而进行个性化播放，提升用户的收听体验。

如前所述，步骤S417中将所述合成单元与对应的背景单元合并，以生成所述播放语音。图7示出了根据本发明一个实施例生成播放语音的示意性流程图。如图7所示，步骤S417包括：

S4171:确定所述合成单元和所述对应的背景单元各自的权重。

可以根据不同需求设置合成单元和背景单元的权重。可以将合成单元的权重和背景单元的权重设置为相等数值，即分别为0.5；或者使合成单元的权重大于背景单元的权重，以重点突出合成语音，例如合成单元的权重为0.6，背景单元的权重为0.4；在某些特殊应用场景，还可以使合成单元的权重小于背景单元的权重，例如合成单元的权重为0.3，背景单元的权重为0.7。本发明对此不做限制。

S4172:根据所述各自的权重将所述合成单元和所述对应的背景单元加权求和，以得到所述播放语音。

例如合成单元用T1表示，对应的权重为a1；背景单元用B1表示，对应地权重为a2。那么对应的第二播放语音可以用T1 a1+B1 a2表示。

基于不同权重将合成单元和背景单元加权求和以得到播放语音，易于操作，能够定量控制背景音和合成语音的各自占比，保证播放语音的播放效果。

本领域普通技术人员可以理解，现有的语音合成技术可以生成具有个性化声音的合成语音，例如磁性男声、知性女声、稚嫩童声，或者如唐老鸭、樱桃小丸子等特定形象的声音，甚至自己的声音。根据本发明实施例的在上文中提出的文本播放方法中的步骤S100-S600，可以用于用户在所述文本播放请求中指定的播放类型为个性化播放的情况。也就是说，当用户请求通过个性化声音对文本进行个性化播放时，基于在线语音合成进行文本的播放，以实时合成满足个性化需求的合成语音。

除了实时合成与文本对应的个性化合成语音之外，还可以预先合成与文本相对应的标准语音。该标准语音的音色可以是比较普遍的男中音或女中音等，为了简洁在这里称为原音。除了个性化播放之外，根据本发明的实施例，还可以进行原音播放。原音播放时播放的可以是预先合成好的标准语音，该标准语音的URL地址由服务器提供给移动客户端。如果用户在文本播放请求中指定的播放类型为原音播放，那么移动客户端可以根据所接收的、与文本对应的URL地址获取到预先合成的标准语音进行播放。在一个示例中，预先合成的标准语音为MP3格式的数据。

播放预先合成好的标准语音，无需进行在线语音合成，具有响应速度快、播放流畅性高的优点，可以使文本的播放过程更加稳定可靠。

上述文本播放方法，可以利用移动客户端上的播放器APP来实现。图8示出了根据本发明一个实施例的播放器的架构图。如图所示，播放器可以包括以下模块。

声音切换模块，用于为用户提供文本播放时不同的播放声音选项，例如原音播放或个性化播放。其中原音播放可以是利用预先合成好MP3格式的标准语音(即MP3原音)播放，个性化播放可以是利用不同于标准语音的PCM格式的个性化声音(即PCM TTS合成声音)进行播放。其中，当用户选择个性化播放时，需要通过远程服务器进行在线实时语音合成。

播放列表模块，用于存储待播放的MP3原音文件的URL地址，或者是服务器实时合成后确定的PCM播放语音。

控制模块，用于与远程服务器交互，维护播放文本切换、播放声音切换以及播放进度信息等内容。

图形用户接口，用于显示相应的画面以及播放状态、播放进度等内容。

MP3播放模块用于播放MP3格式的标准语音，PCM模块用于播放根据实时合成的PCM语音确定的播放语音。

以下说明各模块的工作流程：

声音切换模块接收用户选择的播放声音类型，如果是MP3原音，则从播放列表中查找对应MP3原音文件的URL地址，基于URL地址通过MP3播放模块播放对应的MP3原音文件；

如果用户选择的是PCM TTS合成声音，控制模块将文本中的第一个文本句发送至远程服务器，以供远程服务器实时合成与第一个文本句对应的第一合成语音；

控制模块接收第一合成语音，根据第一合成语音确定一个或多个第一播放语音，并将第一播放语音按顺序存储至播放列表，开始通过PCM播放模块播放第一播放语音；

在开始播放所述第一播放语音的同时，控制模块将第二个文本句发送至所述服务器，以供所述服务器实时合成与所述第二个文本句对应的第二合成语音；

控制模块接收所述服务器返回的所述第二合成语音；

控制模块基于所述第二合成语音确定第二播放语音；

控制模块将所述第二播放语音存储到播放列表；

PCM播放模块在播放完根据第一合成语音确定的所有播放语音的情况下，播放所述第二播放语音。

根据本发明另一方面，还提供了一种用于移动客户端的文本的播放装置。图9示出了根据本发明一个实施例的文本的播放装置的示意性框图。

如图9所示，装置900包括第一文本播放单元910、文本句发送单元920、语音接收单元930、语音确定单元940、存储单元950和第二播放单元960。

所述各个模块可分别执行上文中所述的用于移动客户端的文本播放方法的各个步骤/功能。以下仅对该装置900的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

第一播放单元910，用于播放根据服务器实时合成的第一合成语音确定的第一播放语音，所述第一合成语音与文本播放请求中的第一文本句对应；

文本句发送单元920，用于在开始播放所述第一播放语音的同时，将所述第一文本句之后的下一个文本句发送至所述服务器，以供所述服务器实时合成与所述下一个文本句对应的第二合成语音；

语音接收单元930，用于接收所述服务器返回的所述第二合成语音；

语音确定单元940，用于基于所述第二合成语音确定第二播放语音；

存储单元950，用于将所述第二播放语音存储到播放列表，其中所述播放列表用于按顺序存储播放语音；

第二播放单元960，用于在播放完根据第一合成语音确定的所有播放语音的情况下，播放所述第二播放语音。

图10示出了根据本发明一个实施例的移动客户端1000的示意性框图。该如图10所示，移动客户端1000包括输入装置1010、存储装置1020、处理器1030以及输出装置1040。

所述输入装置1010用于接收用户所输入的操作指令以及采集数据。输入装置1010可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。

所述存储装置1020存储用于实现根据本发明实施例的文本播放方法中的相应步骤的计算机程序指令。

所述处理器1030用于运行所述存储装置1020中存储的计算机程序指令，以执行根据本发明实施例的文本播放方法的相应步骤，并且用于实现根据本发明实施例的文本播放装置中的第一文本播放单元910、文本句发送单元920、语音接收单元930、语音确定单元940、存储单元950和第二播放单元960。

所述输出装置1040用于向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

在一个实施例中，在所述计算机程序指令被所述处理器1030运行时使所述移动客户端1000执行以下步骤：

播放根据服务器实时合成的第一合成语音确定的第一播放语音，所述第一合成语音与文本播放请求中的第一文本句对应；

在开始播放所述第一播放语音的同时，将所述第一文本句之后的下一个文本句发送至所述服务器，以供所述服务器实时合成与所述下一个文本句对应的第二合成语音；

接收所述服务器返回的所述第二合成语音；

基于所述第二合成语音确定第二播放语音；

将所述第二播放语音存储到播放列表，其中所述播放列表用于按顺序存储播放语音；

在播放完根据第一合成语音确定的所有播放语音的情况下，播放所述第二播放语音。

此外，根据本发明又一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的上述文本播放方法的相应步骤，并且用于实现根据本发明实施例的上述用于移动客户端的文本播放装置中的相应模块或上述移动客户端中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行以下步骤：

接收所述服务器返回的所述第二合成语音；

基于所述第二合成语音确定第二播放语音；

本领域普通技术人员通过阅读上述关于用于移动客户端的文本播放方法的详细描述，可以理解上述文本播放装置、移动客户端和存储介质的具体实现、组成部分和有益效果，为了简洁，在此不再赘述。上述用于移动客户端的文本的播放的技术方案，实现了对篇幅较长的文本进行实时语音合成时的不间断播放。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于文本的播放装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于移动客户端的文本播放方法，其特征在于，所述文本包括多个文本句，所述方法包括：

S300:接收所述服务器返回的所述第二合成语音；

S400:基于所述第二合成语音确定第二播放语音，其中，具体包括：

将所述第二合成语音转换为具有固定时长的一个或多个第二播放语音；

S500:将所述第二播放语音存储到播放列表，其中所述播放列表用于按顺序存储播放语音，其中，具体包括：

将所述一个或多个第二播放语音按顺序存储到所述播放列表的对应位置中；

S600:在播放完根据所述第一合成语音确定的所有播放语音的情况下，播放所述第二播放语音；

所述方法还包括：

确定所述文本的播放总时长；

在播放第二播放语音的同时显示所述播放进度。

2.根据权利要求1所述的文本播放方法，其特征在于，

所述方法还包括：

根据所述播放列表中存储的所有播放语音计算缓存时长；

在播放第二播放语音的同时显示所述缓存进度。

3.根据权利要求1或2所述的文本播放方法，其特征在于，所述将所述第二合成语音转换为具有固定时长的一个或多个第二播放语音包括：

获取所述第二合成语音的采样频率；

基于所述采样频率计算具有所述固定时长的语音的数据量；

4.根据权利要求3所述的文本播放方法，其特征在于，所述根据所述数据量分割所述第二合成语音以得到第二播放语音包括：

自所述第二合成语音的起始位置，根据所述数据量切分所述第二合成语音，直至所剩的语音不足所述数据量，其中，每执行一次切分操作获得一个第二播放语音；

5.根据权利要求1或2所述的文本播放方法，其特征在于，所述确定所述文本的播放总时长包括：

在当前尚未接收到所有文本句对应的合成语音的情况下，

获取所述文本的总字数和已接收到的合成语音的音速；

将所述总字数和所述音速相乘，以将乘积作为所述文本的播放总时长；在当前已接收到所有文本句对应的合成语音的情况下，

6.根据权利要求5所述的文本播放方法，其特征在于，所述在播放第二播放语音的同时显示所述播放进度还包括：

基于固定频率更新所述播放进度。

7.根据权利要求1或2所述的文本播放方法，其特征在于，所述方法还包括：

响应于调整播放进度指令，重新确定并播放当前待播放的播放语音。

8.根据权利要求7所述的文本播放方法，其特征在于，所述响应于调整播放进度指令，重新确定并播放当前待播放的播放语音包括：

获取所述调整播放进度指令中的调整进度；

若否，对当前播放的播放语音不做更改。

9.根据权利要求1或2所述的文本播放方法，其特征在于，所述方法还包括：

获取与所述文本播放请求中的背景对象相对应的背景音；

将所述背景音分割为具有所述固定时长的背景单元；

10.根据权利要求9所述的文本播放方法，其特征在于，所述将所述合成单元与对应的背景单元合并，以生成所述第二播放语音包括：

确定所述合成单元和所述对应的背景单元各自的权重；

11.根据权利要求1或2所述的文本播放方法，其特征在于，所述第二播放语音为PCM编码格式的数据，所述第二播放语音的固定时长为1至2秒。

12.根据权利要求1所述的文本播放方法，其特征在于，所述步骤S100-S600是在所述文本播放请求中指定的播放类型为个性化播放的情况下执行；

所述方法还包括：

13.一种用于移动客户端的文本播放装置，其特征在于，包括：

语音确定单元，用于基于所述第二合成语音确定第二播放语音，具体用于将所述第二合成语音转换为具有固定时长的一个或多个第二播放语音；

存储单元，用于将所述第二播放语音存储到播放列表，其中所述播放列表用于按顺序存储播放语音，具体用于将所述一个或多个第二播放语音按顺序存储到所述播放列表的对应位置中；

第二播放单元，用于在播放完根据第一合成语音确定的所有播放语音的情况下，播放所述第二播放语音；

计算单元，用于根据当前播放的第二播放语音在所述播放列表中的位置计算已播放时长；

总时长确定单元，用于确定所述文本的播放总时长；

播放进度确定单元，用于基于所述已播放时长和所述播放总时长的比率，确定所述文本的播放进度；

显示单元，用于在播放第二播放语音的同时显示所述播放进度。

14.一种移动客户端，包括：处理器和存储器，其中，所述存储器中存储有计算机程序指令，其特征在于，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至12任一项所述的文本播放方法。

15.一种存储介质，在所述存储介质上存储了程序指令，其特征在于，所述程序指令在运行时用于执行如权利要求1至12任一项所述的文本播放方法。