CN109801618B

CN109801618B - 一种音频信息的生成方法和装置

Info

Publication number: CN109801618B
Application number: CN201711137172.3A
Authority: CN
Inventors: 李廣之; 王楠; 康世胤; 陀得意; 朱晓龙; 张友谊; 林少彬; 郑永森; 邹子馨; 何静; 陈在真
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2022-09-13
Anticipated expiration: 2037-11-16
Also published as: CN109801618A

Abstract

本发明实施例公开了一种音频信息的生成方法和装置，用于通过输入文本就可以生成语音与节奏匹配的融合音频。本发明实施例提供一种音频信息的生成方法，其特征在于，所述方法包括：获取文本信息和第一音频信息，所述文本信息包括至少一个词；对文本信息进行语言学分析，分别得到至少一个词的语言学特征；通过时长预测模型分别对所述至少一个词进行音素级别的时长预测和时长自适应调整，得到所述至少一个词的音素时长预测值；根据所述至少一个词的音素时长预测值和相应的语言学特征生成对应于所述至少一个词的第二音频信息；将所述第一音频信息和所述第二音频信息合成得到融合音频信息。

Description

一种音频信息的生成方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种音频信息的生成方法和装置。

背景技术

音乐在人们的生活中发挥着不可替代的作用，音乐根据节奏感不同又可分为多种音乐类型，其中嘻哈音乐(Rap music或Hip hop)是一种跟着伴奏、带着韵律吟诵(饶舌)的音乐风格，所用的伴奏多产生于音乐取样手段。目前音频信息的生成方式主要是由人们进行人工创作来完成，例如嘻哈音乐可以由专业嘻哈歌手编制嘻哈音乐。但对于没有音乐基础的人们来说，根本不具备创作音乐的能力。

为了实现音乐的无门槛创作，需要生成可供普通用户欣赏的音乐，现有技术中产生了如下的两种音乐生成方式：第一种是将视频的声音转为音乐的方法，第二种是将用户录制的语音转为音乐的方法。对于第一种通过视频的声音生成音乐的方法，需要处理视频数据，以提取出该视频携带的声音数据，再为该声音配上背景音乐，从而生成可供用户欣赏的音乐。对于第二种通过语音生成音乐的方法，不需要处理视频数据，只需要将语音和背景音乐进行合成，就可以生成可供用户欣赏的音乐。

上述生成音乐的技术方案中，只能简单的为视频的声音或者语音配上背景音乐，这种音乐生成方式并不没有考虑到声音或者语音自身的音频特征，造成生成的音乐不能和用户输入的内容匹配。

发明内容

本发明实施例提供了一种音频信息的生成方法和装置，用于通过输入文本就可以生成语音与节奏匹配的音频信息。

为解决上述技术问题，本发明实施例提供以下技术方案：

第一方面，本发明实施例提供一种音频信息的生成方法，其特征在于，所述方法包括：

获取文本信息和第一音频信息，所述文本信息包括至少一个词；

对文本信息进行语言学分析，分别得到至少一个词的语言学特征；

通过时长预测模型分别对所述至少一个词进行音素级别的时长预测和时长自适应调整，得到所述至少一个词的音素时长预测值；

根据所述至少一个词的音素时长预测值和相应的语言学特征生成对应于所述至少一个词的第二音频信息；

将所述第一音频信息和所述第二音频信息合成得到融合音频信息。

第二方面，本发明实施例还提供一种音频信息的生成装置，所述装置包括：

获取模块，用于获取文本信息和第一音频信息，所述文本信息包括至少一个词；

语言学分析模块，用于对文本信息进行语言学分析，分别得到至少一个词的语言学特征；

时长预测模块，用于通过时长预测模型分别对所述至少一个词进行音素级别的时长预测和时长自适应调整，得到所述至少一个词的音素时长预测值；

音频生成模块，用于根据所述至少一个词的音素时长预测值和相应的语言学特征生成对应于所述至少一个词的第二音频信息；

音频融合模块，用于将所述第一音频信息和所述第二音频信息合成得到融合音频信息。

第三方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，获取文本信息和第一音频信息，对文本信息进行语言学分析，分别得到至少一个词的语言学特征。通过时长预测模型分别对至少一个词进行音素级别的时长预测和时长自适应调整，得到至少一个词的音素时长预测值。根据至少一个词的音素时长预测值和相应的语言学特征生成对应于至少一个词的第二音频信息在，最后将第一音频信息和第二音频信息合成得到融合音频信息。本发明实施例中只需要获取到文本信息，就可以对该文本信息进行语言学分析，通过音素时长预测值和语言学特征所生成的第二音频信息已经通过时长预测模型进行了时长预测和时长自适应调整，因此该第二音频信息更容易与第一音频信息的节奏感相适配，从而能够形成更具节奏感的融合音频信息。本发明实施例中最终生成的融合音频信息可与获取到文本信息和第一音频信息紧密关联起来，通过文本信息的自动处理就可以生成语音与节奏匹配的融合音频信息。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频信息的生成方法的流程方框示意图；

图2为本发明实施例提供的基于时长预测模型的音乐生成过程示意图；

图3-a为本发明实施例提供的一种音频信息的生成装置的组成结构示意图；

图3-b为本发明实施例提供的一种语言学分析模块的组成结构示意图；

图3-c为本发明实施例提供的一种音频生成模块的组成结构示意图；

图3-d为本发明实施例提供的另一种音频信息的生成装置的组成结构示意图；

图3-e为本发明实施例提供的另一种音频信息的生成装置的组成结构示意图；

图4为本发明实施例提供的音频信息的生成方法应用于终端的组成结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明音频信息的生成方法的一个实施例，具体可以应用于基于文本信息生成与该文本匹配的、具有节奏感的融合音频信息。请参阅图1所示，本发明一个实施例提供的音频信息的生成方法，可以包括如下步骤：

101、获取文本信息和第一音频信息，文本信息包括至少一个词。

在本发明实施例中，终端可以首先获取到文本信息和第一音频信息，该文本信息可以是用户输入到终端的文本信息，该文本信息可用于与第一音频信息合成融合音频，其中，终端中已输入的文本信息可以是用户预先保存到终端的，也可以是用户通过浏览网页得到的，或者用户通过输入语音转换成的文本。第一音频信息具体可以是终端中存储的背景音乐，或者是终端中存储的歌曲曲目、电台音频内容等，此处不做限定。

102、对文本信息进行语言学分析，分别得到至少一个词的语言学特征。

在本发明实施例中，读取到文本信息和第一音频信息之后，可以对该文本信息进行语言学分析，从该文本信息中切分出至少一个词，对每个词都生成相应的语言学特征。其中，语言学特征是指在语言上对文字内容所描述出的特征。举例说明，对终端中存储的文本信息进行语言学分析，可以逐句进行词汇的、语法的和语义的分析，以确定句子的低层结构和每个字的音素的组成。

在本发明的一些实施例中，步骤102对文本信息进行语言学分析，分别得到至少一个词的语言学特征，包括：

对文本信息进行断句，得到至少一句的子文本；

按照词性和韵律对每句的子文本进行词切分，得到每个子文本对应的词语；

对每个子文本对应的词语分别提取到语言学特征，得到至少一个词的语言学特征。

其中，终端可以对文本信息进行断句处理，即可以将一段文本信息断开为至少一句的子文本，对于每个子文本进行词切分，例如按照词性特征和韵律特征进行子文本的切分，则每个子文本可以被切分为一个或多个词语，最后针对每个词语可以提取出语言学特征。其中，对于至少一个词可以提取到语言学特征，还可以执行对多音字的处理等，从而通过对词语进行文本分析，为后续特征提取提供信息，例如主要包括如下处理过程：发音生成、韵律预测、词性预测等。

103、通过时长预测模型分别对至少一个词进行音素级别的时长预测和时长自适应调整，得到至少一个词的音素时长预测值。

在本发明实施例中，提取出至少一个词的语言学特征之后，可以使用至少一个词的语言学特征来对至少一个词的音素时长进行预测，例如可以将至少一个词的语言学特征输入到时长预测模型，该时长预测模型可以基于已知音素时长的词语，通过神经网络算法来生成。本发明实施例中预先生成的时长预测模型可以用于来进行音素级别的时长预测与时长自使用调整。其中，音素是指构成词的发音元素，音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的语音单位。如汉语音节wén(文)有两个音素，jiàn(件)有四个音素。本发明实施例中词可以包括至少一个音素，音素级别的时长预测是指通过时长预测模型对词的时长预测是以音素为时长单位，若一个词由多个音素构成，则对该词进行时长预测后可以得到组成该词的所有音素的时长之和。由于音乐与普通说话不同，具有节奏性，因此在时长预测的结果上做了一个自适应调整，使每个字都能在节拍上，同时保证原始的发音不改变。本发明实施例中可以在时长预测模型中输入至少一个词的语言学特征，则该时长预测模型可以输出至少一个词的音素时长预测值。本发明实施例中采用时长预测模型可以预测每个词的音素时长，词的音素时长通过时长预测模型进行了自适应调整，从而使得从文本中切分出的至少一个词所包括的音素都具有时长预测值，因此至少一个词的音素时长预测值可以用于生成更容易匹配节奏的音频信息。

本发明的一些实施例中，时长预测模型的生成过程可以通过如下方式来完成。本发明实施例提供的音频信息的生成方法还包括如下步骤：

从训练语料库中的训练样本中提取出音素时长；

将提取出的音素时长作为神经网络的输入参数，对时长预测模型进行音素时长的训练；

在时长预测模型训练完成后，使用测试语料库中的测试样本对时长预测模型进行音素时长的测试；

输出测试完成后的时长预测模型。

其中，本发明实施例中可以先获取文本语料来生成时长预测模型，例如获取训练语料库，在该训练语料库中存储训练样本，针对训练样本获取每个样本中的词语的音素时长，该音素时长作为已知值来训练时长预测模型，例如可以采用神经网络学习的方式来完成模型训练。其中，使用音素时长的已知值训练模型，主要就是训练模型参数，使得语音能够与节奏自适应。本发明实施例中还可以提供测试语料库，在该测试语料库中存储测试样本，在时长预测模型训练完成后，使用测试语料库中的测试样本对时长预测模型进行音素时长的测试，在该时长预测模型收敛之后，再输出测试完成后的时长预测模型。

104、根据至少一个词的音素时长预测值和相应的语言学特征生成对应于至少一个词的第二音频信息。

在本发明实施例中，通过前述步骤103获取到至少一个词的音素时长预测值之后，可以基于至少一个词的音素时长预测值和相应词的语言学特征生成音频信息，为区别于步骤101获取到的第一音频信息，这里将通过至少一个词的音素时长预测值和语言学特征生成的音频信息定义为第二音频信息。例如参考每个音素的时长预测值，将每个音素的语言学特征从文字转换为语音，其中，具体可以使用文本转为语音(Text To Speech，TTS)，将通过前述步骤得到的音素时长预测值和词的语言学特征转为语音。

在本发明的一些实施例中，步骤104根据至少一个词的音素时长预测值和相应的语言学特征生成对应于至少一个词的第二音频信息，包括：

根据至少一个词的音素时长预测值和相应的语言学特征分别对至少一个词进行声学特征预测，得到至少一个词分别对应的声学特征；

将至少一个词分别对应的声学特征转换为至少一个词分别对应的声音片段；

将至少一个词分别对应的声音片段合成在一起，得到第二音频信息。

其中，对于每个词的音素时长预测值和该词的语言学特征可以预测该词的声学特征，声学特征也可以称为声音特征，然后对该词的声学特征通过语言合成工具转换为该词对应的声音片段。例如，把单字或短语从语音合成中提取，把语言学描述转化为言语波形。每个词都生成相应的声音片段之后，再将所有词分别对应的声音片段合成在一起，得到完整的第二音频信息。

105、将第一音频信息和第二音频信息合成得到融合音频信息。

在本发明实施例中，通过步骤104可以将文本信息转换为第二音频信息，该第二音频信息是包括有文本信息对应的歌词内容的语音，再将该第二音频信息和第一音频信息结合生成最终的融合音频信息，例如第一音频信息具体可以是背景音乐，则终端可以将第二音频信息和背景音乐合成在一起得到融合音频信息。本发明实施例中融合音频信息是通过文本信息转换成的第二音频信息和第一音频信息合成得到，因此该融合音频信息在播放时用户可以听到有歌词、有节奏的融合音频。例如通过文本信息转换成的第二音频信息和嘻哈背景音乐合成，得到嘻哈音乐，从而完成文字转嘻哈音乐(Text To Rap，TTR)的处理。

在本发明的一些实施例中，步骤104根据至少一个词的音素时长预测值和相应的语言学特征生成对应于至少一个词的第二音频信息之后，本发明实施例除了执行前述步骤105，还可以包括如下步骤：

根据第二音频信息的音素时长预测值判断第二音频信息与第一音频信息之间是否满足韵律匹配；

若第二音频信息与第一音频信息之间满足韵律匹配，触发执行前述步骤105:将第一音频信息和第二音频信息合成得到融合音频信息。

其中，本发明实施例中可以为第一音频信息设置对应的韵律特征。针对第二音频信息的音素时长预测值判断第二音频信息与第一音频信息之间是否满足韵律匹配，其中，韵律特征是是音频信息本身所具有的韵律方面的特征，该韵律特征可以通过神经网络模型检测方式来输出。例如第一音频信息在检测出韵律特征之后，可以将该第一音频信息保存在音频数据库中，前述步骤101中获取到该第一音频信息时可以获取到该第一音频信息对应的韵律特征。只有在第二音频信息和第一音频信息的韵律匹配，可以保证歌词中的每个词都能在节拍上，同时保证原始的发音不改变。

在本发明的一些实施例中，本发明实施例提供的音频信息的生成方法除了执行前述步骤，还可以包括如下步骤：

若第二音频信息与第一音频信息之间不满足韵律匹配，将第二音频信息的音素时长预测值与音频数据库中的音频数据进行韵律匹配，从音频数据库中筛选出的音频数据，音频数据库中的每个音频数据都对应有韵律特征；

将生成的第二音频信息和从音频数据库中筛选出的音频数据合成，得到融合音频信息。

其中，本发明实施例中可以设置音频数据库，例如该音频数据库具体可以为背景音乐库。音频数据库中保存有多个音频数据，每个音频数据都对应有韵律特征。针对第二音频信的音素时长预测值与音频信息库中的音频信息进行韵律匹配，得到从音频数据库中筛选出的音频数据，和第二音频信息的韵律匹配的音频数据可以用于最终融合音频信息的生成，由于筛选出的音频数据可以和第二音频信息的韵律匹配，可以保证歌词中的每个词都能在节拍上，同时保证原始的发音不改变。

通过以上实施例对本发明实施例的描述可知，获取到文本信息和第一音频信息，然后对文本信息进行语言学分析，分别得到至少一个词的语言学特征，至少一个词是对文本进行切分后得到的词语。通过时长预测模型分别对至少一个词进行音素级别的时长预测和时长自适应调整，得到至少一个词的音素时长预测值。根据至少一个词的音素时长预测值和相应的语言学特征生成对应于至少一个词的第二音频信息。将第二音频信息和第一音频信息合成得到融合音频信息。本发明实施例中只需要获取到文本信息，就可以对该文本信息进行语言学分析，通过音素时长预测值和语言学特征所生成的第二音频信息已经通过时长预测模型进行了时长预测和时长自适应调整，因此该第二音频信息更容易与第一音频信息的节奏感相适配，从而能够形成更具节奏感的融合音频信息。本发明实施例中最终生成的融合音频信息可与获取到文本信息和第一音频信息紧密关联起来，通过文本信息的自动处理就可以生成语音与节奏匹配的融合音频信息。

为便于更好的理解和实施本发明实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本发明实施例中，可以通过人工智能(Artificial Intelligence)编织歌曲，是一种具有前瞻性的尝试，为以后AI应用在更大场景提供了借鉴的价值。接下来以嘻哈音乐的生成为例，TTR(Text To Rap)即文本转为Rap Music，对于用户输入的文本信息，在提取到语言学特征之后，可以进行音素级别的时长预测与时长自适应调整，将文本信息转为语音，后续加入特定节奏的背景音乐，将背景音乐和文本语音无缝连接以完成嘻哈音乐，最终生成一段具有嘻哈特性的美妙音乐。

本发明实施例中主要基于用户输入的一段文本，然后将这些文本切分为单个的词或短语，针对这些词可以分别进行音素级别的时长预测与时长自适应调整，最后通过TTS技术将词语转为语音。如图2所示，为本发明实施例提供的基于时长预测模型的音乐生成过程示意图，主要包含如下步骤：

步骤1、从语料库A中提取参数。

其中，语料库A为训练语料库，语料库A中存储有训练语料文本。

步骤2、从语料库A的文本中提取音素时长。

步骤3、进行参数化建模。

步骤4、模型训练。

步骤5、生成时长预测模型。

其中，语料库A中的训练语料文本可以用于时长预测模型的训练，步骤2中提取到的音素时长是词语所包括的音素实际时长，该音素实际时长可用于训练模型的参数、使得语音的节奏自适应，得到会更具节奏感的语音。

本发明实施例生成的时长预测模型，可以主要进行音素级别的时长预测。根据时长来判断其的节奏，由于嘻哈与普通说话不同，具有节奏性，因此在时长预测的结果上做了一个时长自适应的调整，使每个字都能在节拍上的同时保证原始的发音不改变。

在本发明实施例中，时长预测模型可以使用损失函数(cost function)来判断模型是否收敛。损失函数是模型对数据拟合程度的反应，拟合得越差，损失函数的值就应该越大。损失函数在比较大时、它对应的梯度也要比较大，这样的话更新变量就可以更新得快一点。在我们本发明中，使用的损失函数就是最小平方误差准则(Mean Squared Error，MSE)：

其中，C用于表示损失函数。G是时长预测模型，它是根据输入矩阵X输出一个预测向量G(x)，Y是真实值。

因此，通过该这个损失函数可知，预测值G(x)和真值Y的欧式距离越大，损失就越大，反之就越小。它的求导过程如下：

其中，w是模型G中的一个待训练的参数。这个参数w的含义就是权重，主要对模型权重的更新，是模型的核心参数。

接下来结合神经网络模型进行阐述。以反向传播(Back Propagation，BP)神经网络为例，后向传递的值可以通过如下方式计算：

其中，

表示BP神经网络的后向传递的值的表示，

表示的是学习率。

可以表示前述的G(x),在神经网络中，通过最后一层的损失层利用

和真值Y得出一个损失，然后神经网络通过最小化这个损失函数的值来训练时长预测模型。

步骤6、从语料库B中提取参数。

其中，语料库B为测试语料库，语料库B中存储有测试语料文本。

步骤7、从语料库B的文本中提取音素时长。

步骤8、进行语音自适应。

在时长预测模型生成之后可以对测试文本的音素时长进行预测，以取得最佳的音素时长预测结果。

步骤9、对文本进行语言学特征提取。

其中，用户可输入一段文本作为歌词，然后对歌词进行文本分析，为后续特征提取提供信息，主要包括：发音生成、韵律预测、词性预测等，然后进行语言学特征提取，得到文本分析的结果后，对该结果进行中文的语言特征语言特征提取并转化成神经网络的输入向量。

步骤10、根据语言学特征进行音素时长调整，得到音素时长预测结果。

其中，可以使用前述生成的时长预测模型进行音素级别的时长预测，由于嘻哈音乐与普通说话不同，具有节奏性，因此在时长预测的结果上做了一个时长自适应的调整，使每个字都能在节拍上，同时保证原始的发音不改变。

步骤11、根据语言学特征和音素时长预测结果进行声学特征预测。

步骤12、生成语音。

其中，声学特征可以通过时长预测模型预测到的结果结合之前的语言学特征进行预测，并在此结果基础上合成声音。

步骤13、语音和背景音乐的合成，输出音乐。

最后，可以将语音和背景音乐合成一段音乐，因此可以生成最终的歌曲。

本发明实施例中，合成音质是指语音合成***所输出的语音的质量，一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。将语音合成改进为嘻哈音乐合成，由于嘻哈与普通说话不同，具有节奏性，因此在时长预测的结果上做了一个自适应的调整，使每个字都能在节拍上的同时保证原始的发音不改变。就是加上音乐的那个步骤，有了语音，那么语音转为音乐需要节奏感，因此加入了时长预测，也就是将语音的节奏感和音乐进行合成，这样才能形成更具节奏感的音乐。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图3-a所示，本发明实施例提供的一种音频信息的生成装置300，可以包括：获取模块301、语言学分析模块302、时长预测模块303、音频生成模块304、音频融合模块305，其中，

语言学分析模块302，用于对文本信息进行语言学分析，分别得到至少一个词的语言学特征；

时长预测模块303，用于通过时长预测模型分别对所述至少一个词进行音素级别的时长预测和时长自适应调整，得到所述至少一个词的音素时长预测值；

音频生成模块304，用于根据所述至少一个词的音素时长预测值和相应的语言学特征生成对应于所述至少一个词的第二音频信息；

音频融合模块305，用于将所述第一音频信息和所述第二音频信息合成得到融合音频信息。

在本发明的一些实施例中，请参阅图3-b所示，所述语言学分析模块302，包括：

断句模块3021，用于对所述文本信息进行断句，得到至少一句的子文本；

切分模块3022，用于按照词性和韵律对每句的子文本进行词切分，得到每个子文本对应的词语；

特征提取模块3023，用于对所述每个子文本对应的词语分别提取到语言学特征，得到所述至少一个词的语言学特征。

在本发明的一些实施例中，请参阅图3-c所示，所述音频生成模块304，包括：

声学预测模块3041，用于根据所述至少一个词的音素时长预测值和相应的语言学特征分别对所述至少一个词进行声学特征预测，得到所述至少一个词分别对应的声学特征；

特征转换模块3042，用于将所述至少一个词分别对应的声学特征转换为所述至少一个词分别对应的声音片段；

片段合成模块3043，用于将所述至少一个词分别对应的声音片段合成在一起，得到第二音频信。

在本发明的一些实施例中，请参阅图3-d所示，所述音频信息的生成装置300，还包括：

韵律匹配模块306，用于根据所述第二音频信息的音素时长预测值判断所述第二音频信息与所述第一音频信息之间是否满足韵律匹配；若所述第二音频信息与所述第一音频信息之间满足韵律匹配，触发所述音频融合模块305执行。

在本发明的一些实施例中，所述韵律匹配模块306，还用于若所述第二音频信息与所述第一音频信息之间不满足韵律匹配，将所述第二音频信息的音素时长预测值与音频数据库中的音频数据进行韵律匹配，得到从所述音频数据库中筛选出的音频数据，所述音频数据库中的每个音频数据都对应有韵律特征；

所述音频融合模块305，还用于将生成的所述第二音频信息和从所述音频数据库中筛选出的音频数据合成，得到融合音频信息。

在本发明的一些实施例中，请参阅图3-e所示，所述音频信息的生成装置300还包括：

样本提取模块307，用于从训练语料库中的训练样本中提取出音素时长；

模型训练模块308，用于将提取出的音素时长作为神经网络的输入参数，对时长预测模型进行音素时长的训练；

模型测试模块309，用于在所述时长预测模型训练完成后，使用测试语料库中的测试样本对所述时长预测模型进行音素时长的测试；

输出模块310，用于输出测试完成后的所述时长预测模型。

本发明实施例还提供了另一种终端，如图4所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point ofSales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图4示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图4，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图4中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图4对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图4中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理***与处理器1080逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器1080还具有控制执行以上由终端执行的方法流程。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频信息的生成方法，其特征在于，所述方法包括：

对所述文本信息进行语言学分析，分别得到所述至少一个词的语言学特征；

通过时长预测模型分别对所述至少一个词进行音素级别的时长预测和时长自适应调整，得到所述至少一个词的音素时长预测值，所述时长自适应调整用于使每个字都在节拍上；

2.根据权利要求1所述的方法，其特征在于，所述对所述文本信息进行语言学分析，分别得到所述至少一个词的语言学特征，包括：

对所述文本信息进行断句，得到至少一句的子文本；

对所述每个子文本对应的词语分别提取到语言学特征，得到所述至少一个词的语言学特征。

3.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个词的音素时长预测值和相应的语言学特征生成对应于所述至少一个词的第二音频信息，包括：

根据所述至少一个词的音素时长预测值和相应的语言学特征分别对所述至少一个词进行声学特征预测，得到所述至少一个词分别对应的声学特征；

将所述至少一个词分别对应的声学特征转换为所述至少一个词分别对应的声音片段；

将所述至少一个词分别对应的声音片段合成在一起，得到所述第二音频信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个词的音素时长预测值和相应的语言学特征生成对应于所述至少一个词的第二音频信息之后，所述方法还包括：

根据所述第二音频信息的音素时长预测值判断所述第二音频信息与所述第一音频信息之间是否满足韵律匹配；

若所述第二音频信息与所述第一音频信息之间满足韵律匹配，触发执行如下步骤:将所述第一音频信息和所述第二音频信息合成得到融合音频信息。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

若所述第二音频信息与所述第一音频信息之间不满足韵律匹配，将所述第二音频信息的音素时长预测值与音频数据库中的音频数据进行韵律匹配，从所述音频数据库中筛选出的音频数据，所述音频数据库中的每个音频数据都对应有韵律特征；

将生成的所述第二音频信息和从所述音频数据库中筛选出的音频数据合成，得到融合音频信息。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

从训练语料库中的训练样本中提取出音素时长；

在所述时长预测模型训练完成后，使用测试语料库中的测试样本对所述时长预测模型进行音素时长的测试；

输出测试完成后的所述时长预测模型。

7.一种音频信息的生成装置，其特征在于，所述装置包括：

语言学分析模块，用于对文本信息进行语言学分析，分别得到所述至少一个词的语言学特征；

时长预测模块，用于通过时长预测模型分别对所述至少一个词进行音素级别的时长预测和时长自适应调整，得到所述至少一个词的音素时长预测值，所述时长自适应调整用于使每个字都在节拍上；

8.根据权利要求7所述的装置，其特征在于，所述语言学分析模块，包括：

断句模块，用于对所述文本信息进行断句，得到至少一句的子文本；

切分模块，用于按照词性和韵律对每句的子文本进行词切分，得到每个子文本对应的词语；

特征提取模块，用于对所述每个子文本对应的词语分别提取到语言学特征，得到所述至少一个词的语言学特征。

9.根据权利要求7所述的装置，其特征在于，所述音频生成模块，包括：

声学预测模块，用于根据所述至少一个词的音素时长预测值和相应的语言学特征分别对所述至少一个词进行声学特征预测，得到所述至少一个词分别对应的声学特征；

特征转换模块，用于将所述至少一个词分别对应的声学特征转换为所述至少一个词分别对应的声音片段；

片段合成模块，用于将所述至少一个词分别对应的声音片段合成在一起，得到所述第二音频信息。

10.根据权利要求7所述的装置，其特征在于，所述音频信息的生成装置，还包括：

韵律匹配模块，用于根据所述第二音频信息的音素时长预测值判断所述第二音频信息与所述第一音频信息之间是否满足韵律匹配；若所述第二音频信息与所述第一音频信息之间满足韵律匹配，触发所述音频融合模块执行。

11.根据权利要求10所述的装置，其特征在于，所述韵律匹配模块，还用于若所述第二音频信息与所述第一音频信息之间不满足韵律匹配，将所述第二音频信息的音素时长预测值与音频数据库中的音频数据进行韵律匹配，得到从所述音频数据库中筛选出的音频数据，所述音频数据库中的每个音频数据都对应有韵律特征；

所述音频融合模块，还用于将生成的所述第二音频信息和从所述音频数据库中筛选出的音频数据合成，得到融合音频信息。

12.根据权利要求7至11中任一项所述的装置，其特征在于，所述音频信息的生成装置还包括：

样本提取模块，用于从训练语料库中的训练样本中提取出音素时长；

模型训练模块，用于将提取出的音素时长作为神经网络的输入参数，对时长预测模型进行音素时长的训练；

模型测试模块，用于在所述时长预测模型训练完成后，使用测试语料库中的测试样本对所述时长预测模型进行音素时长的测试；

输出模块，用于输出测试完成后的所述时长预测模型。

13.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-6任意一项所述的方法。