CN111312207A

CN111312207A - 文本转音频方法、装置、计算机设备及存储介质

Info

Publication number: CN111312207A
Application number: CN202010084260.7A
Authority: CN
Inventors: 刘佳泽; 罗忠岚
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-19
Anticipated expiration: 2040-02-10
Also published as: CN111312207B

Abstract

本申请公开了一种文本转音频方法、装置、计算机设备及存储介质，属于语音信号处理领域。方法包括：获取待转换文本；根据最优拆分粒度对待转换文本进行拆分，得到至少一段待转换文本片段，其中，对采用最优拆分粒度的文本进行音频转换时，单位文字的音频转换时间最短；对各段待转换文本片段进行音频转换，得到各段待转换文本片段对应的音频片段；对各段音频片段进行拼接，生成待转换文本对应的目标音频。采用本申请的文本转音频方法，能够通过最优拆分粒度对待转换文本进行拆分，使得拆分得到的待转换文本片段的音频转换效率得到提高，继而提高大段文本的音频转换效率，进一步减少音频转换过程中出现卡顿的概率，使得文本转音频过程更为流畅。

Description

文本转音频方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及语音信号处理领域，特别涉及一种文本转音频方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的不断发展，人类基于智能电子设备所实现的娱乐活动越来越丰富，且给人类的生活带来了极大的便利。

如在终端具备的传统阅读功能的基础上，还实现有声阅读的阅读方式，进一步丰富了终端的阅读场景；又如对于盲人、儿童、老人等文字阅读能力较低的特殊群体而言，可通过具备文本转音频功能的终端来实现对文本信息的获取。

然而，在相关技术所提供的文本转音频过程中，存在着不能快速地将大段文本转换成音频的问题，且转换时长与文本字数呈现正相关的关系，即文本内容越多，转换的时间就越久。

发明内容

本申请实施例提供了一种文本转音频方法、装置、计算机设备及存储介质，所述技术方案如下：

一方面，提供了一种文本转音频方法，所述方法包括：

获取待转换文本；

根据最优拆分粒度对所述待转换文本进行拆分，得到至少一段待转换文本片段，其中，对采用所述最优拆分粒度的文本进行音频转换时，单位文字的音频转换时间最短；

对各段所述待转换文本片段进行音频转换，得到各段所述待转换文本片段对应的音频片段；

对各段所述音频片段进行拼接，生成所述待转换文本对应的目标音频。

另一方面，提供了一种文本转音频装置，所述装置包括：

文本获取模块，用于获取待转换文本；

文本拆分模块，用于根据最优拆分粒度对所述待转换文本进行拆分，得到至少一段待转换文本片段，其中，对采用所述最优拆分粒度的文本进行音频转换时，单位文字的音频转换时间最短；

音频转换模块，用于对各段所述待转换文本片段进行音频转换，得到各段所述待转换文本片段对应的音频片段；

音频拼接模块，用于对各段所述音频片段进行拼接，生成所述待转换文本对应的目标音频。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如上述方面所述的文本转音频方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如上述方面所述的文本转音频方法。

另一方面，还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述方面所述的文本转音频方法。

本申请实施例中，计算机设备根据最优拆分粒度对待转换文本进行拆分，并对拆分后的各段待转换文本片段进行音频转换，得到各段待转换文本片段对应的音频片段，进一步的，计算机设备对各段音频片段进行拼接，最终生成待转换文本对应的目标音频。基于本申请实施例提供的文本转音频方法，能够通过最优拆分粒度对待转换文本进行拆分，使得拆分得到的待转换文本片段的音频转换效率得到提高，继而提高大段文本的音频转换效率，进一步减少音频转换过程中出现卡顿的概率，使得文本转音频过程更为流畅。

附图说明

图1示出了本申请一示例性实施例提供的文本转音频方法的流程图；

图2示出了本申请另一示例性实施例提供的文本转音频方法的流程图；

图3示出了本申请另一示例性实施例提供的文本转音频方法的流程图；

图4示出了本申请另一示例性实施例提供的文本转音频方法的流程图；

图5示出了图4示例性实施例对应的实施过程原理图；

图6示出了本申请一示例性实施例提供的文本转音频装置的结构框图；

图7示出了本申请一示例性实施例提供的计算机设备的结构方框图；

图8示出了本申请另一示例性实施例提供的计算机设备的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供的文本转音频方法能够广泛应用于需要进行音频转换的场景中，且能够提高大段文本的音频转换效率，进一步缩短文本的转音频时长。在一个可能的应用场景中，在计算机设备具备的有声阅读模式下，本申请提供的文本转音频方法能够实现当前阅读内容的快速朗读，减少有声阅读时的停顿时间；在一个可能的应用场景中，对于盲人、儿童、老人等文字阅读能力较低的特殊群体而言，本申请提供的文本转音频方法能够实现计算机设备的文本转音频功能，且在提高音频转换效率的基础上，进一步提高上述特殊群体在实时交流过程中信息获取的及时性；在一个可能的应用场景中，在配音领域，本申请提供的文本转音频方法能够实现将文本内容转换成与配音演员音色相近的音频，使得在该配音演员不方便工作时，可将所转换的音频替换为该配音演员的实际配音音频，以方便后续工作的展开。

可选的，上述可能的应用场景仅为示例性的举出，并不对本申请提供的文本转音频方法可能的应用场景造成限定。

此外，在各个可能的应用场景中，包括本申请提供的计算机设备，该计算机设备具备存储功能以及文本转音频功能，可选的，文本转音频功能可以是计算机设备自带的功能，也可以是通过安装具备文本转音频功能的软件来实现的。在一种可能的实施方式中，计算机设备获取待转换文本并进行存储，当接收到对待转换文本的转换指令之后，计算机设备根据最优拆分粒度对待转换文本进行拆分，得到多段待转换文本片段，其中，采用最优拆分粒度的文本进行音频转换时，单位文字的音频转换时间最短，使得拆分后的待转换文本片段能够在较短的时间内完成音频转换，完成音频转换后的待转换文本片段为音频片段，最终，计算机设备对各段音频片段进行拼接，生成待转换文本对应的目标音频。

可选的，计算机设备可以是具备上述音频转换功能的一种终端，或者，是指一种服务器。且对于计算机设备为服务器而言，该服务器可以是服务于某一终端的服务器，在一个示例中，终端将待转换文本发送至对应的服务器，服务器接收到后实施本申请中文本转音频方法。需要说明的是，在本申请各个实施例中以终端执行为例进行示意性的说明。

请参考图1，其示出了本申请一示例性实施例提供的文本转音频方法的流程图。该方法包括：

步骤101，获取待转换文本。

可选的，本申请实施例中的待转换文本可以是预先存储于终端的文本，也可以是实时获取的文本。如将当前文本形式的文章进行有声阅读时，该文章对应的文本内容已预先存储于终端内；又如在即时通讯过程中，用户甲通过终端获取用户乙实时发送的文本信息，并通过终端具备的文本转音频功能对实时接收到的文本信息进行音频转换，用户乙则可以实时地获取音频格式的聊天内容，其中，用户乙实时发送的文本信息即为一种实时获取的文本。

此外，根据用户对待转换文本转音频的需求程度而言，还可以对待转换文本的当前转换场景进行分类，如分为实时转换场景和非实时转换场景。实时转换场景是指，终端用户有实时获取音频转换结果的需要，如上述的有声阅读场景中，无论是用户在当前终端界面浏览对应的待转换文本，并收听有声阅读内容，还是在终端界面浏览其他信息时，在后台收听有声阅读内容，用户对待转换文本转音频的即时需求程度是较高的，即需要实时获取音频转换结果；而非实时转换场景是指，终端用户没有实时获取音频转换结果的需要，而是可以在待转换文本全部完成音频转换之后，获取待转换文本转换的音频转换结果，如有声阅读一类的实时转换场景中，用户需要获取文章内容中的每一句文本对应的有声阅读内容，而在非实时转换场景中，用户对待转换文本转音频的即时需求程度是较低的，如用户希望通过终端将文章内容进行音频转换之后，生成音频文件直接存储于终端，用户可以在下次希望阅读该文章时，直接打开该音频文件，而无需再次对该文章进行音频转换，则该情况下，用户对待转换文本转音频的即时需求程度是较低的。

步骤102，根据最优拆分粒度对待转换文本进行拆分，得到至少一段待转换文本片段。

相关技术所提供的文本转音频技术在针对大段文本的音频转换时，存在转换时间过长的问题，如以标点符号为拆分依据，将待转换文本拆分为长短不一的待转换文本片段，对于较长的句式而言，会在转换的过程中出现卡顿现象，继而延长音频转换时间。

而本申请实施例中，通过确定最优拆分粒度来实现对待转换文本的合理拆分，即所拆分后的待转换文本片段包括的文字长度一致或接近，继而避免出现文字长度较长的待转换文本片段在实时转换场景中出现的卡顿现象；此外，对采用最优拆分粒度的文本进行音频转换时，单位文字的音频转换时间最短，即最优拆分粒度是终端基于提高音频转换效率的角度确定的。

在一种可能的情况中，不同音频转换工具的效率并不相同，对于最优拆分粒度的确定而言，可选的，终端通过对大量的样本文本进行同一音频转换工具的转音频测试，根据各个样本文本在当前音频转换工具下的基于不同拆分粒度的转音频时长，以及各个样本文本的字数，确定出音频转换效率最高的拆分粒度，则该拆分粒度为当前音频转换工具对应的最优拆分粒度。

在本申请实施例中，还可以基于多个音频转换工具对应的最优拆分粒度确定出一个规范的最优拆分粒度，如将多个音频转换工具对应的最优拆分粒度的平均值确定为该规范的最优拆分粒度，使得该规范的最优拆分粒度能够适用于大多数的音频转换工具。可选的，本申请实施例对涉及的音频转换工具的实际产品类型并不做限定。

本申请实施例中，终端根据最优拆分粒度对待转换文本进行拆分，得到至少一段待转换文本片段。

步骤103，对各段待转换文本片段进行音频转换，得到各段待转换文本片段对应的音频片段。

进一步的，当完成对待转换文本的拆分后，终端对各段待转换文本片段进行音频转换，得到各段待转换文本片段对应的音频片段。

可选的，终端可以对各段待转换文本片段进行串行方式下的音频处理，即通过单线程顺序处理各段待转换文本片段的音频转换任务，但为了进一步提高音频处理效率，终端可以在步骤102中对实时拆分出的待转换文本片段进行音频转换，而无需在拆分结束后才开始对所有的待转换文本片段进行音频转换；可选的，终端还可以对各段待转换文本片段进行并行方式下的音频处理，即通过多线程并行处理各段待转换文本片段的音频转换任务。

步骤104，对各段音频片段进行拼接，生成待转换文本对应的目标音频。

在一种可能的实施方式中，对于实时转换场景而言，用户对音频转换结果的即时性存在着较高的需求，因此，实时转换场景下，终端对各段音频片段进行拼接的过程可以省去，而是按拼接顺序将即时生成的音频片段进行播放或传输，相较于终端获取所有的音频片段进行拼接、并生成待转换文本对应的目标音频的方法而言，实时转换场景下的该实施方式更方便于用户即时获取音频转换结果。通过下述示例进行说明。

在一个示例中，用户甲与用户乙进行即时通讯，用户乙通过发送文本信息的方式与用户甲进行沟通，而用户甲需要对用户乙所发送的文本信息进行音频转换处理，继而通过扬声器的播放获取该文本信息的内容，在该场景下，用户甲的终端确定出最优拆分粒度为8(即每隔8个文字对待转换文本进行拆分)，则用户甲的终端将用户乙对应终端发送的文本信息进行拆分，得到4段待转换文本片段(待转换文本片段1至4)。当生成待转换文本片段1对应的音频片段1，用户甲的终端通过扬声器播放出该实时生成的音频片段1，当生成待转换文本片段2对应的音频片段2，用户甲的终端通过扬声器播放出该实时生成的音频片段2，以此类推，用户甲的终端完成对所有的待转换文本片段的音频转换。

可选的，若上述示例中，音频片段1和音频片段2是通过多线程方式并行处理得到的，则终端通过扬声器顺序播放出音频片段1和音频片段2。

在另一种可能的实施方式中，对于非实时转换场景而言，用户对音频转换结果的即时性并非存在着较高的需求，因此，非实时转换场景下，终端可执行对所有音频片段进行拼接、并生成待转换文本对应的目标音频的方法，且在该方法下，音频转换任务可以在终端后台执行，进一步节约当前所占的中央处理器(Central Processing Unit，CPU)资源。

综上所述，本申请实施例中，终端根据最优拆分粒度对待转换文本进行拆分，并对拆分后的各段待转换文本片段进行音频转换，得到各段待转换文本片段对应的音频片段，进一步的，终端对各段音频片段进行拼接，最终生成待转换文本对应的目标音频。基于本申请实施例提供的文本转音频方法，能够通过最优拆分粒度对待转换文本进行拆分，使得拆分得到的待转换文本片段的音频转换效率得到提高，继而提高大段文本的音频转换效率，进一步减少音频转换过程中出现卡顿的概率，使得文本转音频过程更为流畅。

本申请中，还包括有确定最优拆分粒度的内容。在终端根据最优拆分粒度对待转换文本进行拆分之前，终端需要通过大数量的转音频测试确定出该最优拆分粒度。

请参考图2，其示出了本申请另一示例性实施例提供的文本转音频方法的流程图。该方法包括：

步骤201，对样本文本进行转音频测试。

针对终端当前所使用的音频转换工具，终端通过大量的样本文本对该音频转换工具进行转音频测试，转音频测试用于测试样本文本在不同拆分粒度下的转音频时长。

可选的，终端设定用于测试的至少两种拆分粒度，对各个样本文本进行不同拆分粒度下的拆分，并通过终端当前所使用的音频转换工具对拆分后的各段待转换文本频段进行音频转换，得到各个样本文本在不同拆分粒度下的转音频时长。

步骤202，根据转音频时长和样本文字的字数，确定出不同拆分粒度下单位文字的音频转换时间。

进一步的，对于各个样本文本而言，终端根据转音频时长和样本文字的字数，确定出不同拆分粒度下单位文字的音频转换时间。

在一个示例中，如表1至表3所示。表1示出了文字字数为50的样本文本1在不同拆分粒度下的转音频时长(其中拆分粒度4至拆分粒度19对应的数据略)，因此，终端根据样本文本1对应的转音频时长和样本文字的字数，能够确定出样本文本1的不同拆分粒度下单位文字的音频转换时间；表2示出了文字字数为100的样本文本2在不同拆分粒度下的转音频时长(其中拆分粒度4至拆分粒度19对应的数据略)，因此，终端根据样本文本2对应的转音频时长和样本文字的字数，能够确定出样本文本2的不同拆分粒度下单位文字的音频转换时间；表3示出了文字字数为200的样本文本3在不同拆分粒度下的转音频时长(其中拆分粒度4至拆分粒度19对应的数据略)，因此，终端根据样本文本3对应的转音频时长和样本文字的字数，能够确定出样本文本3的不同拆分粒度下单位文字的音频转换时间。

需要说明的是，该示例中的样本文本的数量仅为示例性的举例，实际的转音频测试中，终端会通过大数量的样本文本来进行转音频测试，以提高最优拆分粒度的合理性。

表1

表2

表3

步骤203，将最低音频转换时间对应的拆分粒度确定为最优拆分粒度。

终端将最低音频转换时间对应的拆分粒度确定为最优拆分粒度。然而，在转音频测试中，若各个样本文本对应的最优拆分粒度不一致，则在一种可能的实施方式中，终端取各个样本文本对应的最优拆分粒度的平均值作为最终的最优拆分粒度。

在上述示例中，如表1至表3所示。表1对应的最优拆分粒度为10，而表2对应的最优拆分粒度为11，以及表3对应的最优拆分粒度为9，因此，终端取各个样本文本对应的最优拆分粒度的平均值作为最终的最优拆分粒度，即最终的最优拆分粒度为10。

本申请实施例中，包括有如何确定最优拆分粒度的内容，终端通过较大数量的样本文本来进行转音频测试，提高了最优拆分粒度的正确性，可选的，终端将最低音频转换时间对应的拆分粒度确定为最优拆分粒度，使得终端后续根据最优拆分粒度对待转换文本进行拆分时，所拆分得到的待转换文本片段的转音频效率得到提高。

然而，与音频转文本过程不同的是，文本转音频过程中，文本提供的文字信息不一定包含文本对应的发音信息，即在对待转换文本进行拆分的过程中，若将完整的词汇拆离，且词汇拆分后的文字包含有多音文字，则终端易出现音频转换后文字发音不准确的问题。因此，在上述实施例的基础上，本申请还通过下述实施例来解决音频转换后文本文字发音不准确的问题。

请参考图3，其示出了本申请另一示例性实施例提供的文本转音频方法的流程图。该方法包括：

步骤301，获取待转换文本。

本步骤请参考步骤101，本申请实施例在此不再赘述。

步骤302，根据最优拆分粒度，通过折半法对待转换文本进行拆分，得到至少一段待转换文本片段。

在一种可能的情况中，待转换文本对应的文本字数不一定是最优拆分粒度的整数倍。如，利用上述示例得到的最优拆分粒度10，对于文本字数为81的待转换文本而言，可以通过最优拆分粒度10对待转换文本进行拆分，得到8段文本字数为10的待转换文本片段和1段文本字数为1的待转换文本片段；也可以通过拆分粒度9对待转换文本进行拆分，得到9段文本字数为9的待转换文本片段，且拆分粒度9对应的待转换文本片段的音频转换时间小于最优拆分粒度10对应的待转换文本片段的音频转换时间。因此，在一种可能的情况中，当待转换文本拆分后的待转换文本片段的段数较多时，在后者的拆分粒度下(即拆分粒度9)，待转换文本整体的音频转换效率会优于最优拆分粒度下的待转换文本整体的音频转换效率。

因此，针对上述可能出现的情况，为了进一步提高待转换文本划分的合理性，在本申请实施例中，终端还通过折半法确定出与最优拆分粒度最接近的拆分粒度，折半法用于确定出能够实现待转换文本均匀拆分，得到与最优拆分粒度最接近的拆分粒度，记为目标拆分粒度。采用目标拆分粒度对文本进行音频转换与采用最优拆分粒度对文本进行音频转换相比，前者对应的单位文字的音频转换时间更短，其中，在目标拆分粒度下，待转换文本片段包含的文字数小于或等于最优拆分粒度。

在一个示例中，最优拆分粒度为10，待转换文本的文本字数为81(文本文字编号为0至80)。在本申请实施例中，通过折半法查找的并不是某一数值，而是在通过折半法对待转换文本的文本字数进行折半的过程中，根据折半文本字数与拆分粒度的数量关系来看，从最优拆分粒度接近的拆分粒度中确定出与折半文本字数存在数量关系的拆分粒度，并从该拆分粒度中确定出与最优拆分粒度最接近的拆分粒度。如对文本字数为81的待转换文本进行折半查找，得到可能的拆分粒度为1、拆分粒度3和拆分粒度9，在这些可能的拆分粒度下，可实现对待转换文本的均匀拆分，其中与最优拆分粒度最接近的拆分粒度为拆分粒度9，继而终端通过折半法将待转换文本分为9段。

本申请实施例中，为了解决音频转换后文字发音不准确的问题，在对各段待转换文本片段进行音频转换之前，还包括有步骤206和步骤207的内容。

步骤303，获取相邻的第k待转换文本片段和第k+1待转换文本片段。

通过上述拆分方法，待转换文本被拆分为n个待转换文本片段，n为大于等于2的整数。

进一步的，终端获取相邻的第k待转换文本片段和第k+1待转换文本片段，其中，k为大于等于1且小于等于n-1的整数。终端通过获取相邻的待转换文本片段，来检测是否存在将同一词汇进行拆离的情况。

步骤304，若第k待转换文本片段的片尾文字与第k+1待转换文本片段的片头文字属于同一词汇，则对第k待转换文本片段和第k+1待转换文本片段进行调整。

在一种可能的实施方式中，终端获取第k待转换文本片段的片尾文字与第k+1待转换文本片段的片头文字，并判断该片尾文字与该片头文字是否属于同一词汇，若是，则对第k待转换文本片段和第k+1待转换文本片段进行调整，其中，调整后第k待转换文本片段的片尾文字与第k+1待转换文本片段的片头文字不属于同一词汇。

在本申请实施例中，对于具体的调整方式并不作限定。可选的，终端可以将第k待转换文本片段的片尾文字进行补充，使得该同一词汇存在于该片尾文字中，而第k+1待转换文本片段的片头文字中将删去包含该同一词汇内容的部分；可选的，终端可以将第k+1待转换文本片段的片头文字进行补充，使得该同一词汇存在于该片头文字中，而第k待转换文本片段的片尾文字中将删去包含该同一词汇内容的部分。

步骤305，对各段待转换文本片段进行音频转换，得到各段待转换文本片段对应的音频片段。

本步骤请参考步骤103，本申请实施例在此不再赘述。

步骤306，根据待转换文本片段的顺序标签，确定出音频片段对应的拼接顺序。

可选的，待转换文本片段包含有顺序标签。终端按照各个文本文字在待转换文本中的顺序对待转换文本进行拆分，因此，终端在完成对待转换文本的拆分后，所拆分得到的待转换文本片段是有顺序的，可选的，终端通过顺序标签对各段待转换文本片段的顺序进行唯一标记。

步骤307，按拼接顺序对音频片段进行拼接，生成待转换文本对应的目标音频。

可选的，终端可以在对待转换文本片段进行音频转换的过程中，同时按拼接顺序执行音频片段的拼接，则终端在完成对各段待转换文本片段的音频转换时，也相应地完成了音频片段的拼接，即生成待转换文本对应的目标音频，如终端在完成第二段待转换文本片段的音频转换时便实现了与第一段音频片段的拼接；可选的，终端也可以是并行完成对各段待转换文本片段的音频转换，并在完成后，按拼接顺序对音频片段进行拼接，生成待转换文本对应的目标音频。

在上述实施例的基础上，本申请实施例中还包括有如何确定最优拆分粒度的内容，终端通过较大数量的样本文本来进行转音频测试，提高了最优拆分粒度的合理性；此外，终端通过获取相邻的待转换文本片段的片尾文字和片头文字，来检测是否存在将同一词汇进行拆离的情况，来解决音频转换后文本文字发音不准确的问题；在最终的音频片段的拼接过程中，终端还根据待转换文本片段的顺序标签，确定出音频片段对应的拼接顺序，继而保证了音频片段拼接的正确性。

在上述实施例的基础上，终端还可以对各段待转换文本片段进行并行方式下的音频处理，即通过多线程并行处理各段待转换文本片段的音频转换任务，通过下述实施例对该内容做进一步的阐述。

请参考图4，其示出了本申请另一示例性实施例提供的文本转音频方法的流程图。该方法包括：

步骤401，获取待转换文本。

本步骤请参考步骤101，本申请实施例在此不再赘述。

步骤402，根据最优拆分粒度，通过折半法对待转换文本进行拆分，得到至少一段待转换文本片段。

本步骤请参考步骤302，本申请实施例在此不再赘述。

步骤403，获取相邻的第k待转换文本片段和第k+1待转换文本片段。

本步骤请参考步骤303，本申请实施例在此不再赘述。

步骤404，若第k待转换文本片段的片尾文字与第k+1待转换文本片段的片头文字属于同一词汇，则对第k待转换文本片段和第k+1待转换文本片段进行调整。

本步骤请参考步骤304，本申请实施例在此不再赘述。

步骤405，通过线程并发方式对各段待转换文本片段进行音频转换，得到各段待转换文本片段对应的音频片段。

在终端运行程序时，存在(Input Output，IO)输入输出密集型任务和计算密集型任务。IO密集型任务是指磁盘IO、网络IO主要涉及的任务，计算量较小，比如请求网页、读写文件等；计算密集型任务是指CPU计算占主要的任务，计算量较大且CPU运作时将一直处于满负荷状态。因此，相较于IO密集型任务而言，线程并发方式适用于计算密集型任务。

而在本申请中，待转换文本的音频转换任务是一种计算密集型任务，因此，终端通过线程并发方式对各段待转换文本片段进行音频转换，得到各段待转换文本片段对应的音频片段。

可选的，本步骤405包括如下内容。

内容一、终端根据CPU的当前可用核心数确定并发线程数m，m为大于等于2的整数。

在一种可能的实施方式中，对于终端内执行应用程序对应的计算密集型任务时，并发线程数m的最小数量应该等于CPU的当前可用核心数，优选的，若发线程数m等于CPU的当前可用核心数加1，则能实现最优的处理效率，如当计算密集型任务对应的线程由于缺失故障或者其他原因而暂停时，这一额外的线程能确保CPU时钟周期的合理利用。

因此，终端可根据CPU的当前可用核心数确定并发线程数m，m为大于等于2的整数。

内容二、终端通过m个线程对m个待转换文本片段进行并行音频转换，得到各段待转换文本片段对应的音频片段。

进一步的，终端根据CPU的当前可用核心数确定出并发线程数m后，通过线程并发方式对各段待转换文本片段进行音频转换，得到各段待转换文本片段对应的音频片段。其中，终端通过m个线程对m个待转换文本片段进行并行音频转换，即每一个待转换文本片段的音频转换任务对应有各自的线程执行，且各个线程处于并发执行状态。

在一个示例中，假定待转换文本拆分成了n个待转换文本片段，且每一个待转换文本片段所需的音频转换时间为T，当前终端的并发线程数为m，则该待转换文本转换成音频所需的音频转换时间由原来的n×T，减少为(n/m)×T。

进一步的，若CPU的当前可用核心数越多，则在上述示例中，音频转换时间减少越明显。

步骤406，根据待转换文本片段的顺序标签，确定出音频片段对应的拼接顺序。

本步骤请参考步骤306，本申请实施例在此不再赘述。

步骤407，按拼接顺序对音频片段进行拼接，生成待转换文本对应的目标音频。

本步骤请参考步骤307，本申请实施例在此不再赘述。

示意性的，如图5所示，其示出了本申请实施例对应的实施过程原理图。首选，终端在最优拆分粒度下对获取的待转换文本进行拆分，得到至少一段待转换文本片段；其次，终端对待转换文本片段进行同一词汇检测，根据检测结果对待转换文本片段进行调整，得到调整后的待转换文本片段；进一步的，终端在线程并发方式下对待转换文本片段进行音频转换，得到各段待转换文本片段对应的音频片段；最终，终端根据待转换文本片段的顺序标签，确定出音频片段对应的拼接顺序，继而终端按拼接顺序对音频片段进行拼接，生成待转换文本对应的目标音频。

本申请实施例中，终端不仅通过最优拆分粒度对待转换文本进行拆分，提高各段待转换文本片段的转音频效率，还通过线程并发方式对各段待转换文本片段进行音频转换，即根据CPU的当前可用核心数确定并发线程数，使得音频转换任务得到最优的处理效率，进一步减少了待转换文本的音频转换时间。

在上述实施例中，优选的，若并发线程数m等于CPU的当前可用核心数加1，则能实现最优的处理效率。而实际的终端运行过程中，用户随时可能打开新的应用程序进行操作，若将CPU的当前可用核心数都被当前的音频转换任务占用，则终端***易出现运行卡顿的现象。

因此，在一种可能的实施方式中，终端在确定并发线程数m的同时，还可以确定出CPU的当前预留核心，为可能运行的应用程序预留出一定的CPU资源，尽量避免终端***出现运行卡顿的现象。

请参考图6，其示出了本申请一示例性实施例提供的文本转音频装置的结构框图，所述装置包括：

文本获取模块601，用于获取待转换文本；

文本拆分模块602，用于根据最优拆分粒度对所述待转换文本进行拆分，得到至少一段待转换文本片段，其中，对采用所述最优拆分粒度的文本进行音频转换时，单位文字的音频转换时间最短；

音频转换模块603，用于对各段所述待转换文本片段进行音频转换，得到各段所述待转换文本片段对应的音频片段；

音频拼接模块604，用于对各段所述音频片段进行拼接，生成所述待转换文本对应的目标音频。

可选的，所述文本拆分模块602，包括：

文本拆分单元，用于根据所述最优拆分粒度，通过折半法对所述待转换文本进行拆分，得到至少一段所述待转换文本片段，所述待转换文本片段包含的文字数小于或等于所述最优拆分粒度，所述折半法用于确定出能够实现所述待转换文本均匀拆分、且与所述最优拆分粒度最接近的拆分粒度。

可选的，所述待转换文本被拆分为n个所述待转换文本片段，n为大于等于2的整数；

可选的，所述装置还包括：

片段获取模块，用于获取相邻的第k待转换文本片段和第k+1待转换文本片段，k为大于等于1且小于等于n-1的整数；

片段调整模块，用于若所述第k待转换文本片段的片尾文字与所述第k+1待转换文本片段的片头文字属于同一词汇，则对所述第k待转换文本片段和所述第k+1待转换文本片段进行调整，其中，调整后所述第k待转换文本片段的片尾文字与所述第k+1待转换文本片段的片头文字不属于同一词汇。

可选的，所述装置还包括：

第一测试模块，用于对样本文本进行转音频测试，所述转音频测试用于测试所述样本文本在不同拆分粒度下的转音频时长；

第二测试模块，用于根据所述转音频时长和所述样本文字的字数，确定出不同拆分粒度下单位文字的音频转换时间；

第三测试模块，用于将最低音频转换时间对应的拆分粒度确定为所述最优拆分粒度。

可选的，所述音频转换模块603，包括：

音频转换单元，用于通过线程并发方式对各段所述待转换文本片段进行音频转换，得到各段所述待转换文本片段对应的所述音频片段。

可选的，所述音频转换单元，还用于：

根据CPU的当前可用核心数确定并发线程数m，m为大于等于2的整数；

通过m个线程对m个所述待转换文本片段进行并行音频转换，得到各段所述待转换文本片段对应的所述音频片段。

可选的，所述待转换文本片段包含有顺序标签；

可选的，所述音频拼接模块604，包括：

第一拼接单元，用于根据所述待转换文本片段的所述顺序标签，确定出所述音频片段对应的拼接顺序；

第二拼接单元，用于按所述拼接顺序对所述音频片段进行拼接，生成所述待转换文本对应的所述目标音频。

请参考图7，其示出了本申请一示例性实施例提供的计算机设备700的结构方框图。该计算机设备700可以是便携式移动设备，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudIO Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudIO Layer IV，动态影像专家压缩标准音频层面4)播放器。计算机设备700还可能被称为用户设备、便携式终端等其他名称。

通常，计算机设备700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中提供的计算机设备700的文本转音频方法。

在一些实施例中，计算机设备700还可选包括有：***设备接口703和至少一个***设备。具体地，***设备包括：射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

***设备接口703可被用于将IO(Input/Output，输入/输出)相关的至少一个***设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和***设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和***设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(RadIO Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field CommunicatIOn，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏705还具有采集在触摸显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。触摸显示屏705用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏705可以为一个，设置计算机设备700的前面板；在另一些实施例中，触摸显示屏705可以为至少两个，分别设置在计算机设备700的不同表面或呈折叠设计；在一些实施例中，触摸显示屏705可以是柔性显示屏，设置在计算机设备700的弯曲表面上或折叠面上。甚至，触摸显示屏705还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏705可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-EmittingDIOde,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707用于提供用户和计算机设备700之间的音频接口。音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位计算机设备700的当前地理位置，以实现导航或LBS(LocatIOn Based Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositIOning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源709用于为计算机设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以计算机设备700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测计算机设备700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对计算机设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在计算机设备700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在计算机设备700的侧边框时，可以检测用户对计算机设备700的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，可以根据用户对触摸显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置计算机设备700的正面、背面或侧面。当计算机设备700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在计算机设备700的正面。接近传感器716用于采集用户与计算机设备700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对计算机设备700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

请参考图8，其示出了本申请另一示例性实施例提供的计算机设备800的结构方框图。该计算机设备800可以是服务器，该服务器可用于实施于上述实施例中提供的文本转音频方法。具体来讲：

所述服务器包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的***存储器804，以及连接***存储器804和中央处理单元801的***总线805。所述服务器还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)806，和用于存储操作***813、应用程序814和其他程序模块815的大容量存储设备807。

所述基本输入/输出***806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到***总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出***806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备807通过连接到***总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为服务器提供非易失性存储。也就是说，所述大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，所述服务器还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器可以通过连接在所述***总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机***(未示出)。

所述存储器中存储有至少一条指令，所述至少一条指令经配置以由一个或者一个以上处理器执行，以实现上述文本转音频方法中各个步骤的功能。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述各个实施例提供的文本转音频方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本转音频方法，其特征在于，所述方法包括：

获取待转换文本；

2.根据权利要求1所述的方法，其特征在于，所述根据最优拆分粒度对所述待转换文本进行拆分，得到至少一段待转换文本片段，包括：

根据所述最优拆分粒度，通过折半法对所述待转换文本进行拆分，得到至少一段所述待转换文本片段，所述待转换文本片段包含的文字数小于或等于所述最优拆分粒度，所述折半法用于对所述待转换文本进行均匀拆分，得到与所述最优拆分粒度最接近的拆分粒度。

3.根据权利要求2所述的方法，其特征在于，所述待转换文本被拆分为n个所述待转换文本片段，n为大于等于2的整数；

所述得到至少一段所述待转换文本片段之后，所述方法还包括：

获取相邻的第k待转换文本片段和第k+1待转换文本片段，k为大于等于1且小于等于n-1的整数；

若所述第k待转换文本片段的片尾文字与所述第k+1待转换文本片段的片头文字属于同一词汇，则对所述第k待转换文本片段和所述第k+1待转换文本片段进行调整，其中，调整后所述第k待转换文本片段的片尾文字与所述第k+1待转换文本片段的片头文字不属于同一词汇。

4.根据权利要求1至3任一所述的方法，其特征在于，所述获取待转换文本之前，所述方法还包括：

对样本文本进行转音频测试，所述转音频测试用于测试所述样本文本在不同拆分粒度下的转音频时长；

根据所述转音频时长和所述样本文字的字数，确定出不同拆分粒度下单位文字的音频转换时间；

将最低音频转换时间对应的拆分粒度确定为所述最优拆分粒度。

5.根据权利要求1至3任一所述的方法，其特征在于，所述对各段所述待转换文本片段进行音频转换，得到各段所述待转换文本片段对应的音频片段，包括：

通过线程并发方式对各段所述待转换文本片段进行音频转换，得到各段所述待转换文本片段对应的所述音频片段。

6.根据权利要求5所述的方法，其特征在于，所述通过线程并发方式对各段所述待转换文本片段进行音频转换，得到各段所述待转换文本片段对应的所述音频片段，包括：

根据中央处理器CPU的当前可用核心数确定并发线程数m，m为大于等于2的整数；

7.根据权利要求1至3任一所述的方法，其特征在于，所述待转换文本片段包含有顺序标签；

所述对各段所述音频片段进行拼接，生成所述待转换文本对应的目标音频，包括：

根据所述待转换文本片段的所述顺序标签，确定出所述音频片段对应的拼接顺序；

按所述拼接顺序对所述音频片段进行拼接，生成所述待转换文本对应的所述目标音频。

8.一种文本转音频装置，其特征在于，所述装置包括：

文本获取模块，用于获取待转换文本；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至7任一所述的文本转音频方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至7任一所述的文本转音频方法。