CN110930975A

CN110930975A - 用于输出信息的方法和装置

Info

Publication number: CN110930975A
Application number: CN201811597465.4A
Authority: CN
Inventors: 周志平; 盖于涛; 陈昌滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-31
Filing date: 2018-12-26
Publication date: 2020-03-27
Anticipated expiration: 2038-12-26
Also published as: CN110930975B

Abstract

本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括：获取待标注的样本音节对应的基频曲线；从基频曲线中提取出基频序列；将基频序列转换成样本值序列；将样本值序列与已知边界调类型的基准序列进行聚类，得到样本值序列的边界调类型作为待标注的样本音节的边界调类型，以及输出待标注的样本音节的边界调类型。该实施方式实现了在英文语音合成***中的边界调的自动标注，从而缩短了标注时间并节约了成本。

Description

用于输出信息的方法和装置

技术领域

本申请实施例涉及语音合成技术领域，具体涉及用于输出信息的方法和装置。

背景技术

英语的发音中没有声调，主要通过语调的变化来表达情感，如疑问语句的句尾一般用上扬的语调来表示疑问语气。因此，英文合成***中，需要加入语调信息才能较好的合成带情感的声音，目前的英文情感合成***中，大部分都加入了边界调信息来表征语调的变化类型。

相关的英文情感合成***已经能较好的合成带情感的语音，但是训练数据的情感类型需要进行人工标注，不仅要求标注人员有较强的英语专业知识，还需要耗费较大的人力和财力。

发明内容

本申请实施例提出了用于输出信息的方法和装置。

第一方面，本申请实施例提供了一种用于输出信息的方法，包括：获取待标注的样本音节对应的基频曲线；从基频曲线中提取出基频序列；将基频序列转换成样本值序列；将样本值序列与已知边界调类型的基准序列进行聚类，得到样本值序列的边界调类型作为待标注的样本音节的边界调类型。输出待标注的样本音节的边界调类型。

在一些实施例中，将基频序列转换成样本值序列，包括：对基频序列进行采样和插值得到预定长度的基频对数序列作为样本值序列。

在一些实施例中，将基频序列转换成样本值序列，包括：对基频序列进行离散余弦变换，将离散余弦变换系数作为样本值序列。

在一些实施例中，将样本值序列与已知边界调类型的基准序列进行聚类，包括：通过皮尔逊相关系数将样本值序列与第一基准序列进行聚类，按相关系数的正负将样本值序列聚为两类，斜率为正的类记为第一类，为负的类记为第二类；通过欧式距离将样本值序列与第二基准序列进行聚类，按基频整体的高低将第一类聚类为第三类和第四类，将第二类聚类为第五类和第六类；通过欧式距离将样本值序列与第三基准序列进行聚类，按基频的变化幅度将第三类、第四类、第五类、第六类分别聚为两类。

在一些实施例中，该方法还包括：获取待合成的英文文本，其中，英文文本包括至少一个单词，单词包括至少一个音节；对于至少一个单词中的单词，提取出该单词的特征，以及将该单词的特征输入预先训练的前端预测模型，输出该单词的最后一个音节的边界调类型；将英文文本和英文文本中各单词的最后一个音节的边界调类型输入预先训练的后端声学模型，输出声学参数；基于输出的声学参数将英文文本合成英文语音。

在一些实施例中，前端预测模型通过如下方式训练得到的：获取第一训练样本集合，第一训练样本包括样本单词和与样本单词的最后一个样本音节对应的边界调类型；将第一训练样本集合中的第一训练样本的样本单词作为输入，将与输入的样本单词的最后一个样本音节对应的边界调类型作为输出，训练得到前端预测模型。

在一些实施例中，后端声学模型通过如下方式训练得到的：获取第二训练样本集合，第二训练样本包括样本音素序列对应的样本音节的边界调类型和与样本音素序列对应的声学参数；将第二训练样本集合中的第二训练样本的样本音素序列和样本音素序列对应的样本音节的边界调类型作为输入，将与输入的样本音素序列对应的声学参数作为输出，训练得到后端声学模型。

第二方面，本申请实施例提供了一种用于输出信息的装置，包括：获取单元，被配置成获取待标注的样本音节对应的基频曲线；提取单元，被配置成从基频曲线中提取出基频序列；转换单元，被配置成将基频序列转换成样本值序列；聚类单元，被配置成将样本值序列与已知边界调类型的基准序列进行聚类，得到样本值序列的边界调类型作为待标注的样本音节的边界调类型。输出单元，被配置成输出待标注的样本音节的边界调类型。

在一些实施例中，转换单元进一步被配置成：对基频序列进行采样和插值得到预定长度的基频对数序列作为样本值序列。

在一些实施例中，转换单元进一步被配置成：对基频序列进行离散余弦变换，将离散余弦变换系数作为样本值序列。

在一些实施例中，聚类单元进一步被配置成：通过皮尔逊相关系数将样本值序列与第一基准序列进行聚类，按相关系数的正负将样本值序列聚为两类，斜率为正的类记为第一类，为负的类记为第二类；通过欧式距离将样本值序列与第二基准序列进行聚类，按基频整体的高低将第一类聚类为第三类和第四类，将第二类聚类为第五类和第六类；通过欧式距离将样本值序列与第三基准序列进行聚类，按基频的变化幅度将第三类、第四类、第五类、第六类分别聚为两类。

在一些实施例中，该装置还包括合成单元，被配置成：获取待合成的英文文本，其中，英文文本包括至少一个单词，单词包括至少一个音节；对于至少一个单词中的单词，提取出该单词的特征，以及将该单词的特征输入预先训练的前端预测模型，输出该单词的最后一个音节的边界调类型；将英文文本和英文文本中各单词的最后一个音节的边界调类型输入预先训练的后端声学模型，输出声学参数；基于输出的声学参数将英文文本合成英文语音。

在一些实施例中，该装置还包括第一训练单元，被配置成：获取第一训练样本集合，第一训练样本包括样本单词和与样本单词的最后一个样本音节对应的边界调类型；将第一训练样本集合中的第一训练样本的样本单词作为输入，将与输入的样本单词的最后一个样本音节对应的边界调类型作为输出，训练得到前端预测模型。

在一些实施例中，该装置还包括第二训练单元，被配置成：获取第二训练样本集合，第二训练样本包括样本音素序列对应的样本音节的边界调类型和与样本音素序列对应的声学参数；将第二训练样本集合中的第二训练样本的样本音素序列和样本音素序列对应的样本音节的边界调类型作为输入，将与输入的样本音素序列对应的声学参数作为输出，训练得到后端声学模型。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一方面中任一的方法。

本申请实施例提供的用于输出信息的方法和装置，通过从音节的基频曲线中提取基频序列，然后将基频序列转换成样本值序列后进行聚类，得到音节的边界调类型。实现了在英文语音合成***中的边界调的自动标注，从而缩短了标注时间并节约了成本。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性***架构图；

图2是根据本申请的用于输出信息的方法的一个实施例的流程图；

图3是根据本申请的用于输出信息的方法的一个应用场景的示意图；

图4是根据本申请的用于输出信息的方法的又一个实施例的流程图；

图5是根据本申请的用于输出信息的方法的又一个应用场景的示意图；

图6是根据本申请的用于输出信息的装置的一个实施例的结构示意图；

图7是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如语音合成类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持音频播放的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上播放的音频提供支持的后台语音合成服务器。后台语音合成服务器可以对接收到的样本音节等数据进行分析等处理，得到音节的边界调类型。然后可根据大量样本音节的边界调类型训练出用于预测边界调类型的前端预测模型和生成声学参数的后端声学模型。然后服务器在接收到待合成的英文文本时，可通过前端预测模型和后端声学模型合成带语调的语音，并将合成后的语音反馈给终端设备。终端设备也可从服务器获得前端预测模型和后端声学模型，然后在本地进行语音合成。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的用于输出信息的方法一般由服务器105执行，相应地，用于输出信息的装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法，包括以下步骤：

步骤201，获取待标注的样本音节对应的基频曲线。

在本实施例中，用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从第三方服务器的声音库中获取待标注的样本音节对应的基频曲线。也可由本地服务器从样本音节中提取出基频曲线。音节是英语读音的基本单位，任何单词的读音，都是分解为一个个音节朗读。在英语中元音(a e i o u共五个)特别响亮，一个元音音素可构成一个音节，一个元音音素和一个或几个辅音音素结合也可以构成一个音节。元音音素是构成音节的主体，辅音是音节的分界线。在声音中，基频是指一个复音中基音的频率。在构成一个复音的若干个音中，基音的频率最低，强度最大。基频的高低决定一个音的高低。平常所谓语音的频率，就是指基音的频率。在声码器和各种语言信号处理***中一般都具有提取基频的基本部件。语言基频识别就是将语音信号的基频提取出来，以彩色动态图形的方式显示其大小和变化形状，即，形成基频曲线。本实例可采用基于STRAIGHT的基频提取算法。

步骤202，从基频曲线中提取出基频序列。

在本实施例中，可根据音节的边界范围将基频曲线进行分段量化。可按固定的时长分段，例如从基频曲线中每隔5毫秒取一个基频值，形成基频序列。

步骤203，将基频序列转换成样本值序列。

在本实施例中，由于基频的值很大，为了方便后续的聚类处理，需要将基频序列转换成预定长度的样本值序列。可通过采样和插值的方法得到统一长度的样本值序列。例如，将长度50的基频序列降采样后转换成长度为30的样本值序列。将长度20的基频序列插值后转换成长度为30的样本值序列。

在本实施例的一些可选的实现方式中，将基频序列转换成样本值序列，包括：对基频序列进行采样和插值得到预定长度的基频对数序列作为样本值序列。可先将基频序列进行对数运算后再转换成预定长度的基频对数序列作为样本值序列。这样可以减少运算数据量。

在本实施例的一些可选的实现方式中，将基频序列转换成样本值序列，包括：对基频序列进行离散余弦变换，将离散余弦变换系数作为样本值序列。离散余弦变换(DCT forDiscrete Cosine Transform)是与傅里叶变换相关的一种变换，它类似于离散傅里叶变换,但是只使用实数。离散余弦变换具有很强的"能量集中"特性:大多数的自然信号(包括声音和图像)的能量都集中在离散余弦变换后的低频部分，而且当信号具有接近马尔科夫过程(Markov processes)的统计特性时，离散余弦变换的去相关性接近于K-L变换(Karhunen-Loève变换--它具有最优的去相关性)的性能。可按照从前到后的顺序取预定长度的离散余弦变换系数作为样本值序列。

步骤204，将样本值序列与已知边界调类型的基准序列进行聚类，得到样本值序列的边界调类型作为待标注的样本音节的边界调类型。

在本实施例中，边界调为音节边界的语调。不同的情感类型有相应的语调变化，因而边界调可以分为L-L，L-H，H-L，H-H四种类型，分别对应基频大体的变化趋势，L-H表示基频从低升高，一般对应疑问语气，H-H表示基频整体较高，一般对应祈使语气，H-L和L-L则表示一般情况。可采用基于K-means等聚类方法进行分类。可预先准备已知边界调类型的基准基频序列，通过上述与样本值序列的生成方法相同的方式得到基准序列。将样本值序列与已知边界调类型的基准序列进行聚类，样本值序列和哪个基准序列一类，则该基准序列的边界调类型即为该样本值序列的边界调类型。可将样本值序列与L-L，L-H，H-L，H-H四种类型的基准序列进行聚类，如果样本值序列与L-L类型的基准序列是同一类，则该样本值序列为L-L类型。

在本实施例的一些可选的实现方式中，将样本值序列与已知边界调类型的基准序列进行聚类，可选择3层的分层聚类方法，如图3所示：

步骤2041，通过皮尔逊相关系数将样本值序列与第一基准序列进行聚类，按相关系数的正负将样本值序列聚为两类，斜率为正的类记为第一类，为负的类记为第二类。

在本实施例中，斜率即为相关系数。第一基准序列是已知边界调类型的基准基频序列通过上述与样本值序列的生成方法相同的方式得到的基准序列。将样本值序列与已知边界调类型的第一基准序列进行聚类，如果斜率为正，将该样本值序列归类为第一类，图3中圆圈1表示第一类。如果斜率为负，将该样本值序列归类为第二类，图3中圆圈2表示第一类。

步骤2042，通过欧式距离将样本值序列与第二基准序列进行聚类，按基频整体的高低将第一类聚类为第三类和第四类，将第二类聚类为第五类和第六类。

在本实施例中，第二基准序列是基频整体为高的基准基频序列或基频整体为低的基准基频序列通过上述与样本值序列的生成方法相同的方式得到的基准序列，简称为高频序列和低频序列。分别计算样本值序列与高频序列和低频序列之间的欧氏距离，如果样本值序列与高频序列之间的欧氏距离小于样本值序列与低频序列之间的欧氏距离，则认为样本值序列属于高频类别。如果样本值序列与高频序列之间的欧氏距离大于样本值序列与低频序列之间的欧氏距离，则认为样本值序列属于低频类别。如果距离相等，则更换第二基准序列继续进行迭代比较。如图3所示，将第一类中与低频序列之间的欧氏距离更近的样本值序列归为第三类，图3中圆圈3表示第三类。将第一类中与高频序列之间的欧氏距离更近的样本值序列归为第四类，图3中圆圈4表示第四类。将第二类中与低频序列之间的欧氏距离更近的样本值序列归为第五类，图3中圆圈5表示第五类。将第二类中与高频序列之间的欧氏距离更近的样本值序列归为第六类，图3中圆圈6表示第六类。

步骤2043，通过欧式距离将样本值序列与第三基准序列进行聚类，按基频的变化幅度将第三类、第四类、第五类、第六类分别聚为两类。

在本实施例中，第三基准序列是基频变化幅度为L-H、L-L、H-H、H-L四种类型的基准基频序列通过上述与样本值序列的生成方法相同的方式得到的基准序列，简称为L-H序列、L-L序列、H-H序列、H-L序列。

对于图3中节点3，分别计算第三类样本值序列与L-H序列、L-L序列之间的欧氏距离。如果第三类样本值序列与L-H序列之间的欧氏距离小于第三类样本值序列与L-L序列之间的欧氏距离，则认为该第三类样本值序列属于L-H类别，否则，认为该第三类样本值序列属于L-L类别。如果距离相等，则更换第三基准序列继续进行迭代比较。

对于图3中节点4，分别计算第四类样本值序列与L-H序列、H-H序列之间的欧氏距离。如果第四类样本值序列与L-H序列之间的欧氏距离小于第四类样本值序列与H-H序列之间的欧氏距离，则认为该第四类样本值序列属于L-H类别，否则，认为该第四类样本值序列属于H-H类别。如果距离相等，则更换第三基准序列继续进行迭代比较。

对于图3中节点5，分别计算第五类样本值序列与L-L序列、H-L序列之间的欧氏距离。如果第五类样本值序列与L-L序列之间的欧氏距离小于第五类样本值序列与H-L序列之间的欧氏距离，则认为该第五类样本值序列属于L-L类别，否则，认为该第三类样本值序列属于H-L类别。如果距离相等，则更换第三基准序列继续进行迭代比较。

对于图3中节点6，分别计算第六类样本值序列与H-H序列、H-L序列之间的欧氏距离。如果第六类样本值序列与H-H序列之间的欧氏距离小于第六类样本值序列与H-L序列之间的欧氏距离，则认为该第六类样本值序列属于H-H类别，否则，认为该第六类样本值序列属于H-L类别。如果距离相等，则更换第三基准序列继续进行迭代比较。

步骤205，输出待标注的样本音节的边界调类型。

在本实施例中，聚类完成后，可将聚类结果标注到训练数据的文本里，以便后续分别用于前端预测模型和后端声学模型的训练。

本申请的上述实施例提供的方法通过将样本音节的基频序列与已知边界调类型的基准序列进行聚类，得到音节的边界调类型，从而实现样本音节的边界调类型的自动标注。

进一步参考图4，其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400，包括以下步骤：

步骤401，获取待合成的英文文本。

在本实施例中，用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从终端获取待合成的英文文本。其中，英文文本包括至少一个单词，单词包括至少一个音节。一个音节可包括至少一个音素，音素分为元音音素和辅音音素。

步骤402，对于至少一个单词中的单词，提取出该单词的特征，以及将该单词的特征输入前端预测模型，输出该单词的最后一个音节的边界调类型。

在本实施例中，前端预测模型可由本服务器训练，也可由第三方服务器训练。对于英文文本中的每个单词，提取出该单词的特征。特征可包括词向量、词性、大小写特征、韵律停顿类型、标点信息和单词的音节数。这里的词向量指的是通过词嵌入技术将一个单词转换成的向量。词嵌入是自然语言处理中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。词性指的是名词、形容词、动词、过去分词等。英语中相同单词在不同词性时可能读音不同。例如read在过去分词中与原形中读音不同。大小写特征用来表示单词为大写为或小。韵律停顿类型可分为三种，无停顿、短停顿、长停顿。可根据句子结构或者标点符号判断出停顿类型，例如，一个短语之内没有停顿，take off之间无停顿，但在off之后有短停顿。如果单词之后是标点符号，则为长停顿。标点信息指的单词之后是否有标点符号，以及何种标点符号。单词的音节数指的是单词所包括的音节的数量。

前端预测模型的输出为该单词的最后一个音节的边界调类型。可用7维one-hot向量，表示6种边界调类型和无边界调。其中，6种边界调类型中除了包括L-L，L-H，H-L，H-H4种类型之外，还包括H类型和L类型。H类型为L-H类型或H-H类型与短停顿的组合，即当L-H类型或H-H类型遇到短停顿时合并成H类型。L类型为L-L类型或H-L类型与短停顿的组合，即当L-L类型或H-L类型遇到短停顿时合并成L类型。模型选择包含DNN(Deep Neural Networks，深度神经网络)，SVM(Support Vector Machine，支持向量机)，LSTM(Long Short-TermMemory，长短期记忆网络)，CRF(Conditional Random Field，条件随机场)，AttentionModel(注意力模型)，wavenet(语音生成模型)等。

前端预测模型可通过如下步骤训练得到。

步骤4021，获取第一训练样本集合。

在本实施例中，训练步骤的执行主体可以本地或者远程地从与上述执行主体网络连接的其他电子设备获取第一训练样本集。其中，每个第一训练样本包括样本单词和与样本单词的最后一个样本音节对应的边界调类型。例如，可以通过步骤201-205自动标注与样本单词的最后一个样本音节对应的边界调类型。

步骤4022，将第一训练样本集合中的第一训练样本的样本单词作为输入，将与输入的样本单词的最后一个样本音节对应的边界调类型作为输出，训练得到前端预测模型。

在本实施例中，训练步骤的执行主体可以将第一训练样本集中的第一训练样本中的样本单词输入初始神经网络，得到该样本单词的最后一个样本音节对应的边界调类型，以该第一训练样本中的标注的边界调类型作为初始神经网络的期望输出，利用机器学习方法训练初始神经网络。初始神经网络可以包括但不限于以下至少一项：DNN，SVM，LSTM，CRF，attention，wavenet。具体地，可以首先利用预设的损失函数计算所得到的边界调类型与该第一训练样本中的边界调类型之间的差异，例如，可以采用L2范数作为损失函数计算所得到的边界调类型与该第一训练样本中的边界调类型之间的差异。然后，可以基于计算所得的差异，调整初始神经网络的网络参数，并在满足预设的训练结束条件的情况下，结束训练。例如，这里预设的训练结束条件可以包括但不限于以下至少一项：训练时间超过预设时长；训练次数超过预设次数；计算所得的差异小于预设差异阈值。

这里，可以采用各种实现方式基于所生成的边界调类型与该第一训练样本中的边界调类型之间的差异调整初始神经网络的网络参数。例如，可以采用BP(BackPropagation，反向传播)算法或者SGD(Stochastic Gradient Descent，随机梯度下降)算法来调整初始神经网络的网络参数。

将训练得到的初始神经网络确定为前端预测模型。

步骤403，将英文文本和英文文本中各单词的最后一个音节的边界调类型输入后端声学模型，输出声学参数。

在本实施例中，后端声学模型的输入为加入边界调的特征的英文文本，输出为声学参数，声学参数包括基频和频谱。模型选择包括HMM(Hidden Markov Model，隐马尔科夫模型)，DNN，LSTM，CBHG，attention model，wavenet等。

后端声学模型可通过如下步骤训练得到：

步骤4031，获取第二训练样本集合。

在本实施例中，训练步骤的执行主体可以本地或者远程地从与上述执行主体网络连接的其他电子设备获取第二训练样本集。其中，每个第二训练样本包括样本音素序列对应的样本音节的边界调类型和与样本音素序列对应的声学参数。

步骤4032，将所述第二训练样本集合中的第二训练样本的样本音素序列和样本音素序列对应的样本音节的边界调类型作为输入，将与输入的样本音素序列对应的声学参数作为输出，训练得到后端声学模型。

在本实施例中，训练步骤的执行主体可以将第二训练样本集中的第二训练样本中的样本音素序列和样本音素序列对应的样本音节的边界调类型输入初始神经网络，得到样本音素序列对应的声学参数，以该第二训练样本中的标注的声学参数作为初始神经网络的期望输出，利用机器学习方法训练初始神经网络。初始神经网络可以包括但不限于以下至少一项：HMM，DNN，LSTM，CBHG，attention model，wavenet。具体的训练步骤可参考4022，在此不再赘述。

将训练得到的初始神经网络确定为后端声学模型。

步骤404，基于输出的声学参数将英文文本合成英文语音。

在本实施例中，通过声码器或者单元拼接的方法合成情感语音。合成时还可考虑韵律停顿。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于输出信息的方法的流程400体现了利用边界调进行语音合成的步骤。由此，本实施例描述的方案可以在语音合成时加入边界调信息，达到较好的英文情感语音合成效果。

继续参见图5，图5是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图5的应用场景中，在训练阶段，服务器将原始音库中的音节通过步骤201-205自动标注了样本音节的边界调类型。将已经标注的音节存入已标注音库中。再利用已标注音库中已经标注的音节通过步骤4021和4022训练出前端预测模型和后端声学模型。在合成阶段，将待合成的文本中每个单词进行特征提取后分别输入前端预测模型，得到每个单词的最后一个音节的边界调类型。然后将待合成的文本和每个单词的最后一个音节的边界调类型一起输入后端声学模型，得到声学参数。最终通过声码器将声学参数转换成参数语音。还可通过单元拼接的方法得到拼接语音。

本申请的上述实施例提供的方法通过将标注了边界调类型的样本音节训练出前端预测模型和后端声学模型。以便在语音合成阶段使用前端预测模型和后端声学模型合成带语调的语音。相对于人工标注，大大降低了语音合成的***周期和人力成本，经实验验证取得了较好的英文情感语音合成效果。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种用于输出信息的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于输出信息的装置600包括：获取单元601、提取单元602、转换单元603、聚类单元604和输出单元605。其中，获取单元601被配置成获取待标注的样本音节对应的基频曲线。提取单元602被配置成从基频曲线中提取出基频序列。转换单元603被配置成将基频序列转换成样本值序列。聚类单元604被配置成将样本值序列与已知边界调类型的基准序列进行聚类，得到样本值序列的边界调类型作为待标注的样本音节的边界调类型。输出单元605被配置成输出待标注的样本音节的边界调类型。

在本实施例中，用于输出信息的装置600的获取单元601、提取单元602、转换单元603、聚类单元604和输出单元605的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204和步骤205。

在本实施例的一些可选的实现方式中，转换单元603进一步被配置成：对基频序列进行采样和插值得到预定长度的基频对数序列作为样本值序列。

在本实施例的一些可选的实现方式中，转换单元603进一步被配置成：对基频序列进行离散余弦变换，将离散余弦变换系数作为样本值序列。

在本实施例的一些可选的实现方式中，聚类单元604进一步被配置成：通过皮尔逊相关系数将样本值序列与第一基准序列进行聚类，按相关系数的正负将样本值序列聚为两类，斜率为正的类记为第一类，为负的类记为第二类；通过欧式距离将样本值序列与第二基准序列进行聚类，按基频整体的高低将第一类聚类为第三类和第四类，将第二类聚类为第五类和第六类；通过欧式距离将样本值序列与第三基准序列进行聚类，按基频的变化幅度将第三类、第四类、第五类、第六类分别聚为两类。

在本实施例的一些可选的实现方式中，装置600还包括合成单元，被配置成：获取待合成的英文文本，其中，英文文本包括至少一个单词，单词包括至少一个音节。对于至少一个单词中的单词，提取出该单词的特征，以及将该单词的特征输入预先训练的前端预测模型，输出该单词的最后一个音节的边界调类型。将英文文本和英文文本中各单词的最后一个音节的边界调类型输入预先训练的后端声学模型，输出声学参数。基于输出的声学参数将英文文本合成英文语音。

在本实施例的一些可选的实现方式中，装置600还包括第一训练单元(未示出)，被配置成：获取第一训练样本集合，第一训练样本包括样本单词和与样本单词的最后一个样本音节对应的边界调类型。将第一训练样本集合中的第一训练样本的样本单词作为输入，将与输入的样本单词的最后一个样本音节对应的边界调类型作为输出，训练得到前端预测模型。

在本实施例的一些可选的实现方式中，装置600还包括第二训练单元(未示出)，被配置成：获取第二训练样本集合，第二训练样本包括样本音素序列对应的样本音节的边界调类型和与样本音素序列对应的声学参数。将第二训练样本集合中的第二训练样本的样本音素序列和样本音素序列对应的样本音节的边界调类型作为输入，将与输入的样本音素序列对应的声学参数作为输出，训练得到后端声学模型。

下面参考图7，其示出了适于用来实现本申请实施例的电子设备(如图1所示的终端设备/服务器)的计算机***700的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机***700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、提取单元、转换单元、聚类单元和输出单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待标注的样本音节对应的基频曲线的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取待标注的样本音节对应的基频曲线；从基频曲线中提取出基频序列；将基频序列转换成样本值序列；将样本值序列与已知边界调类型的基准序列进行聚类，得到样本值序列的边界调类型作为待标注的样本音节的边界调类型，以及输出待标注的样本音节的边界调类型。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于输出信息的方法，包括：

获取待标注的样本音节对应的基频曲线；

从所述基频曲线中提取出基频序列；

将所述基频序列转换成样本值序列；

将所述样本值序列与已知边界调类型的基准序列进行聚类，得到所述样本值序列的边界调类型作为所述待标注的样本音节的边界调类型；

输出所述待标注的样本音节的边界调类型。

2.根据权利要求1所述的方法，其中，所述将所述基频序列转换成样本值序列，包括：

对所述基频序列进行采样和插值得到预定长度的基频对数序列作为样本值序列。

3.根据权利要求1所述的方法，其中，所述将所述基频序列转换成样本值序列，包括：

对所述基频序列进行离散余弦变换，将离散余弦变换系数作为样本值序列。

4.根据权利要求1所述的方法，其中，所述将所述样本值序列与已知边界调类型的基准序列进行聚类，包括：

通过皮尔逊相关系数将所述样本值序列与第一基准序列进行聚类，按相关系数的正负将所述样本值序列聚为两类，斜率为正的类记为第一类，为负的类记为第二类；

通过欧式距离将所述样本值序列与第二基准序列进行聚类，按基频整体的高低将第一类聚类为第三类和第四类，将第二类聚类为第五类和第六类；

通过欧式距离将所述样本值序列与第三基准序列进行聚类，按基频的变化幅度将所述第三类、所述第四类、所述第五类、所述第六类分别聚为两类。

5.根据权利要求1-4之一所述的方法，其中，所述方法还包括：

获取待合成的英文文本，其中，所述英文文本包括至少一个单词，单词包括至少一个音节；

对于所述至少一个单词中的单词，提取出该单词的特征，以及将该单词的特征输入预先训练的前端预测模型，输出该单词的最后一个音节的边界调类型；

将所述英文文本和所述英文文本中各单词的最后一个音节的边界调类型输入预先训练的后端声学模型，输出声学参数；

基于输出的声学参数将所述英文文本合成英文语音。

6.根据权利要求5所述的方法，其中，所述前端预测模型通过如下方式训练得到的：

获取第一训练样本集合，第一训练样本包括样本单词和与样本单词的最后一个样本音节对应的边界调类型；

将所述第一训练样本集合中的第一训练样本的样本单词作为输入，将与输入的样本单词的最后一个样本音节对应的边界调类型作为输出，训练得到前端预测模型。

7.根据权利要求5所述的方法，其中，所述后端声学模型通过如下方式训练得到的：

获取第二训练样本集合，第二训练样本包括样本音素序列对应的样本音节的边界调类型和与样本音素序列对应的声学参数；

将所述第二训练样本集合中的第二训练样本的样本音素序列和样本音素序列对应的样本音节的边界调类型作为输入，将与输入的样本音素序列对应的声学参数作为输出，训练得到后端声学模型。

8.一种用于输出信息的装置，包括：

获取单元，被配置成获取待标注的样本音节对应的基频曲线；

提取单元，被配置成从所述基频曲线中提取出基频序列；

转换单元，被配置成将所述基频序列转换成样本值序列；

聚类单元，被配置成将所述样本值序列与已知边界调类型的基准序列进行聚类，得到所述样本值序列的边界调类型作为所述待标注的样本音节的边界调类型；

输出单元，被配置成输出所述待标注的样本音节的边界调类型。

9.根据权利要求8所述的装置，其中，所述转换单元进一步被配置成：

10.根据权利要求8所述的装置，其中，所述转换单元进一步被配置成：

11.根据权利要求8所述的装置，其中，所述聚类单元进一步被配置成：

12.根据权利要求8-12之一所述的装置，其中，所述装置还包括合成单元，被配置成：

基于输出的声学参数将所述英文文本合成英文语音。

13.根据权利要求12所述的装置，其中，所述装置还包括第一训练单元，被配置成：

14.根据权利要求12所述的装置，其中，所述装置还包括第二训练单元，被配置成：

15.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。