CN107705782B

CN107705782B - 用于确定音素发音时长的方法和装置

Info

Publication number: CN107705782B
Application number: CN201710911991.2A
Authority: CN
Inventors: 张黄斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2021-01-05
Anticipated expiration: 2037-09-29
Also published as: CN107705782A

Abstract

本申请实施例公开了用于确定音素发音时长的方法和装置。该方法的一具体实施方式包括：获取待合成语音对应的文本；提取该文本的文本特征；将该文本特征导入预先建立的第一时长确定模型，生成发音时长类型序列，其中，该发音时长类型序列中的发音时长类型与该文本对应的音素序列中的音素对应，该第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系；根据所生成的发音时长类型序列和预先设置的对应关系信息，确定该文本对应的音素序列中各个音素的发音时长，其中，该对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。该实施方式提高了所确定的音素的发音时长准确性。

Description

用于确定音素发音时长的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及语音合成技术领域，尤其涉及用于确定音素发音时长的方法和装置。

背景技术

语音合成技术，又称文语转换技术，是通过机械的、电子的方法产生人造语音的技术。它是将计算机本地产生的或外部输入的文字信息转变为可以被人听得懂的、流利的语音的技术。在语音合成的过程中，需要对拼接多个语音单元对应的音频，语音单元可以是拼音，也可以是音素。

然而，现有的语音合成的方法，通常是对语音单元的发音时长不做区分。

发明内容

本申请实施例的目的在于提出一种用于确定音素发音时长的方法和装置。

第一方面，本申请实施例提供了一种用于确定音素发音时长的方法，上述方法包括：获取待合成语音对应的文本；提取上述文本的文本特征；将上述文本特征导入预先建立的第一时长确定模型，生成发音时长类型序列，其中，上述发音时长类型序列中的发音时长类型与上述文本对应的音素序列中的音素对应，上述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系；根据所生成的发音时长类型序列和预先设置的对应关系信息，确定上述文本对应的音素序列中各个音素的发音时长，其中，上述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。

第二方面，本申请实施例提供了一种用于确定音素发音时长的装置，上述装置包括：获取单元，用于获取待合成语音对应的文本；提取单元，用于提取上述文本的文本特征；第一生成单元，用于将上述文本特征导入预先建立的第一时长确定模型，生成发音时长类型序列，其中，上述发音时长类型序列中的发音时长类型与上述文本对应的音素序列中的音素对应，上述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系；确定单元，用于根据所生成的发音时长类型序列和预先设置的对应关系信息，确定上述文本对应的音素序列中各个音素的发音时长，其中，上述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。

第三方面，本申请实施例提供了一种电子设备，上述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的方法。

本申请实施例提供的用于确定音素发音时长的方法和装置，通过首先提取待合成语音对应的文本的文本特征，然后利用第一时长确定模型确定发音时长类型序列，再根据用于指示发音时长类型与发音时长的之间的对应关系的对应关系信息，得到上述文本对应的音素序列中各个音素的发音时长，由此，可以确定更为准确的音素发音时长。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性***架构图；

图2是根据本申请的用于确定音素发音时长的方法的一个实施例的流程图；

图3是根据本申请的用于确定音素发音时长的方法的一个应用场景的示意图；

图4是根据本申请的用于确定音素发音时长的方法的一个示例性实现方式的流程图；

图5A是根据本申请的用于确定音素发音时长的方法的又一个实施例的流程图；

图5B是图5A所示的流程中步骤506的示例性实现方式的流程图；

图6是根据本申请的用于确定音素发音时长的装置的一个实施例的结构示意图；

图7是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于确定音素发音时长的方法或用于确定音素发音时长的装置的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如语音助手类应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有语音播放功能的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上语音助手类应用提供支持的后台服务器。后台服务器可以对接收到的语音合成请求等数据进行分析等处理，并将处理结果(例如合成的语音数据)反馈给终端设备。

需要说明的是，本申请实施例所提供的用于确定音素发音时长的方法一般由服务器105执行，相应地，用于确定音素发音时长的装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。需要说明的是，在一些应用场景中，***架构100也可以不包括终端设备和网络。

继续参考图2，其示出了根据本申请的用于确定音素发音时长的方法的一个实施例的流程200。上述的用于确定音素发音时长的方法，包括以下步骤：

步骤201，获取待合成语音对应的文本。

在本实施例中，用于确定音素发音时长的方法运行于其上的电子设备(例如图1所示的服务器)可以获取待合成语音对应的文本。

在本实施例中，上述电子设备可以通过各种方式，例如本地生成或者从其它电子设备接收，获取待合成语音对应的文本。

作为示例，在自动问答的场景中，用户的问题是“1加1等于几”，上述电子设备在确定答案是“2”之后，可以生成文本“二”，即待合成语音为文本“二”对应的语音。

作为示例，用户使用终端输入文本“我吃饭”，终端将上述文本发送至服务器，服务器可以合成文本“我吃饭”对应的语音。

步骤202，提取文本的文本特征。

在本实施例中，上述电子设备可以提取上述文本的文本特征。

在本实施例中，提取文本的何种文本特征可以在实际应用中灵活调整。作为示例，提取的文本特征可以包括但不限于：文本对应的各个音素、音调信息、词向量、词性信息、标点符号信息等。

作为示出，对于文本“我吃饭”，文本对应的各个音素可以是“wochifan”,音调信息为“三声、一声、四声”等。需要说明的是，文本特征的表示形式可以根据实际情况进行设置，例如，可以是利用独热码形式来进行特征表示，在此不再赘述。

在本实施例中，以音素为基本单位进行语音的合成。音素，是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。确定各个音素的发音时长，是语音合成的基础。所确定的音素的发音时长更准确，才能合成出更为自然的语音。

步骤203，将文本特征导入预先建立的第一时长确定模型，生成发音时长类型序列。

在本实施例中，上述电子设备可以将上述文本特征导入预先建立的第一时长确定模型，生成发音时长类型序列。在这里，上述发音时长类型序列中的发音时长类型与上述文本对应的音素序列中的音素对应。上述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系。

作为示例，文本“我吃饭”对应的音素序列为“wochifan”，生成的发音时长类型序列可以是“1，2，3，4，5，6，7，8”，其中，“1”与音素“w”对应，表示第一发音时长类型，即音素“w”的发音时长类型为第一类型。“2”与音素“o”对应，表示第二发音时长类型，即音素“o”的发音时长类型为第二发音时长类型。发音时长类型序列中的“3，4，5，6，7，8”对应的音素依次类推。

在本实施例的一些可选的实现方式中，上述第一时长确定模型可以是关系对照表，上述关系对照表记载了文本特征与发音时长类型之间的对应关系。作为示例，文本对应的文本特征可以包括音调特征，例如对于三声可以对应于第三发音时长类型，即对三声的“wo”，音素“w”和“o”的发音时长类型均为第三发音时长类型，如果第三发音时长类型对应的发音时长为10毫秒，那么，音素“w”和“o”的发音时长为10毫秒。

步骤204，根据所生成的发音时长类型序列和预先设置的对应关系信息，确定文本对应的音素序列中各个音素的发音时长。

在本实施例中，上述电子设备可以根据所生成的发音时长类型序列和预先设置的对应关系信息，确定上述文本对应的音素序列中各个音素的发音时长。在这里，上述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。

作为示例，文本“我吃饭”对应的音素序列为“wochifan”，生成的发音时长类型序列可以是“1，2，3，4，5，6，7，8”，其中，“1”与音素“w”对应，表示第一发音时长类型，即音素“w”的发音时长类型为第一类型。“2”与音素“o”对应，表示第二发音时长类型，即音素“o”的发音时长类型为第二发音时长类型。发音时长类型序列中的“3，4，5，6，7，8”对应的音素，依次类推。第一发音时长类型对应的发音时长为5毫秒，第二发音时长类型对应的发音时长为6毫秒，以此类推，那么，可以确定文本“我吃饭”对应的音素序列“wochifan”中，“w”的发音时长为5毫秒，“o”的发音时长为6毫秒，以此类推。

继续参见图3，图3是根据本实施例的用于确定音素发音时长的方法的应用场景的一个示意图。在图3的应用场景中，用户首先通过终端301向服务器302发送了语音合成请求303，语音合成请求中包括待合成语音对应的文本“我吃饭”；之后，服务器可以获取文本，并提取出文本特征，如304所示；然后，上述服务器可以利用第一时长确定模型，生成发音时长类型序列，如305所示，例如“1，2，3，4，5，6，7，8”；然后，上述服务器可以根据对应关系信息，确定上述文本对应的音素序列(“wochifan”)中各个音素的发音时长，如306所示。再后，上述服务器可以根据所确定的各个发音时长合成语音，如307所示，再将合成的语音308发送至上述终端。

本申请的上述实施例提供的方法，通过首先提取待合成语音对应的文本的文本特征，然后利用第一时长确定模型确定发音时长类型序列，再根据用于指示发音时长类型与发音时长的之间的对应关系的对应关系信息，得到上述文本对应的音素序列中各个音素的发音时长，由此，可以确定更为准确的音素发音时长。

在本实施例的一些可选的实现方式中，上述第一时长确定模型可以是通过以下步骤得到的：获取第一训练样本集，在这里，第一训练样本是关联设置有音素的发音时长的音频信息。利用上述第一训练样本集训练第一神经网络和条件随机场模型，得到第一时长确定模型，在这里，第一神经网络的输出是条件随机场模型的输入。

作为示例，第一训练样本可以是“我吃饭”对应的音频信息，这个音频信息关联设置有音素的发音时长，即“wochifan”这个音素序列中各个音素的发音时长。

在本实现方式中，利用上述第一训练样本集训练第一神经网络和条件随机场模型，得到第一时长确定模型，可以通过以下方式实现：对每个第一训练样本，提取该训练样本对应的文本的文本特征，将提取出的文本特征导入第一神经网络，将第一神经网络的输入作为条件随机场模型的输入。条件随机场模型的输出为发音时长类型序列。根据发音时长类型序列对应的各个发音时长、该第一训练样本关联设置的发音时长，调整第一神经网络和条件随机场模型，得到包括调整后的第一神经网络和条件随机场模型的第一时长确定模型。

在本实现方式中，第一神经网络的输出包括上述音素序列中每个音素对应的概率序列。在这里，该音素对应的概率序列中的概率为该音素的发音时长属于预先设置的发音时长类型的概率。

作为示例，预先设置的发音时长类型包括A类型和B类型。文本“我饿了”对应的音素序列为“woele”。

对于这个音素序列中的音素“w”，第一神经网络输出音素“w”对于的概率序列(P1，P2)，其中，P1是音素“w”的发音时长属于A类型的概率，P2是音素“w”的发音时长属于B类型的概率。

对于这个音素序列中的音素“o”，第一神经网络输出音素“o”对于的概率序列(P3，P4)，其中，P3是音素“o”的发音时长属于A类型的概率，P4是音素“o”的发音时长属于B类型的概率。

对于这个音素序列中的第一个“e”音素，第一神经网络输出第一个“e”音素对于的概率序列(P5，P6)，其中，P5是第一个“e”音素的发音时长属于A类型的概率，P6是第一个“e”音素的发音时长属于B类型的概率。

对于这个音素序列中的音素“l”，第一神经网络输出音素“l”对于的概率序列(P7，P8)，其中，P7是音素“l”的发音时长属于A类型的概率，P8是音素“l”的发音时长属于B类型的概率。

对于这个音素序列中的第二个“e”音素，第一神经网络输出第二个“e”音素对于的概率序列(P9，P10)，其中，P9是第二个“e”音素的发音时长属于A类型的概率，P10是第二个“e”音素的发音时长属于B类型的概率。

在本实施例的一些可选的实现方式中，请参考图4，上述发音时长类型是通过图4所示流程400得到的：

步骤401，确定音素的最短发音时长和最长发音时长。

需要说明的是流程400的执行主体，可以与流程200的执行主体相同，也可以不同。

在本实现方式中，音素可以是任一音素。上述最短发音时长和最长发音时长可以是从大量的语音样本中统计得到的，也可以是人工设置的。

作为示例，上述最短发音时长可以是7毫秒，最长发音时长可以是250毫秒。

步骤402，将最短发音时长取对数得到第一对数值，并且将最长发音时长取对数得到第二对数值。

作为示例，可以对7取以10为底的对数，得到第一对数值lg7。可以对250取以10为底的对数，得到第二对数值lg250。

步骤403，确定第二对数值与第一对数值之间的差值，并且确定差值与预设数目的比值。

在本实现方式中，上述预设数目是预设的发音时长类型的个数。

步骤404，生成包括预设数目个发音时长类型的发音时长类型序列。

在本实现方式中，对于上述发音时长类型序列中的每个发音时长类型，该发音时长类型对应的发音时长是根据发音时长类型在上述发音时长类型序列中的位次信息和上述比值确定的。

作为示例，如果上述比值为t，那么上述对于发音时长类型序列中位于第一位的发音时长类型一，该发音时长类型对应的时长为(lg7+1×t)；上述对于发音时长类型序列中位于第二位的发音时长类型二，该发音时长类型对应的时长为(lg7+2×t)。

在本实施例的一些可选的实现方式中，上述第一训练样本集是通过以下步骤得到的：对于上述发音时长类型序列中的每个发音时长类型对应的发音时长，确定初始样本集中是否包括关联设置有该发音时长的样本。在这里，初始样本是关联设置有音素的发音时长的音频信息。响应于确定上述初始样本集中不包括关联设置有该发音时长的样本，调整关联设置有与该发音时长差值最小的发音时长的样本，得到该发音时长的样本。将经调整得到的样本加入上述初始样本集，得到上述第一训练样本集。

进一步参考图5A，其示出了用于确定音素发音时长的方法的又一个实施例的流程500。该用于确定音素发音时长的方法的流程500，包括以下步骤：

步骤501，获取待合成语音对应的文本。

在本实施例中，上述电子设备可以在通过本地生成或者从其它电子设备接收的方式，获取待合成语音对应的文本。

步骤502，提取文本的文本特征。

在本实施例中，上述电子设备可以提取文本的文本特征。

步骤503，将文本特征导入预先建立的第一时长确定模型，生成发音时长类型序列。

步骤501、步骤502以及步骤503的实现细节和技术效果可以参考步骤201、步骤202以及步骤203中的说明，在此不再赘述。

步骤504，将文本特征导入预先建立的第二时长确定模型，生成与上述文本对应的第二发音时长序列。

在本实施例中，上述电子设备可以将上述文本特征导入预先建立的第二时长确定模型，生成上述文本对应的第二发音时长序列。在这里，上述第二发音时长序列包括上述文本对应的音素序列中各个音素的发音时长。上述第二时长时长确定模型用于表征文本特征与第二发音时长序列之间的对应关系。

在本实施例的一些可选的实现方式中，上述第二时长确定模型可以是通过以下步骤得到的：获取第二训练样本集，第二训练样本是关联设置有音素的发音时长的音频信息。利用上述第二训练样本集训练第二神经网络，得到第二时长确定模型。

在本实现方式中，利用上述第二训练样本集训练第二神经网络，得到第二时长确定模型，可以通过以下方式实现：对每个第二训练样本，提取该训练样本对应的文本的文本特征，将提取出的文本特征导入第二神经网络，第二神经网络输出为发音时长序列。根据发音时长序列中各个发音时长和该第二训练样本关联设置的发音时长，调整第二神经网络，得到包括调整后的第二神经网络的第二时长确定模型。

在本实现方式中，上述第二训练样本集与上述第一训练样本集，可以相同，也可以不同。

在本实现方式中，上述第二神经网络可以是任意种类任意结构的神经网络，作为示例，可以是两层时间递归神经网络级联。

在本实施例的一些可选的实现方式中，上述第二时长确定模型还可以是关系对照表。上述关系对照表记载了文本特征与发音时长类型之间的对应关系。作为示例，文本对应的文本特征可以包括音调特征，例如对于三声可以对应于第三发音时长类型，即对三声的“wo”，音素“w”和“o”的发音时长类型均为第三发音时长类型，如果第三发音时长类型对应的发音时长为10毫秒，那么，音素“w”和“o”的发音时长为10毫秒。

步骤505，根据所生成的发音时长类型序列和对应关系信息，生成第一发音时长序列。

在本实施例中，上述电子设备可以根据所生成的发音时长类型序列和上述对应关系信息，生成第一发音时长序列。

步骤506，根据第一发音时长序列和第二发音时长序列，确定文本对应的音素序列中各个音素的发音时长。

在本实施例中，上述电子设备可以根据上述第一发音时长序列和上述第二发音时长序列，确定上述文本对应的音素序列中各个音素的发音时长。

在本实施例的一些可选的实现方式中，步骤506可以通过以下方式实现：可以预先设置分别为第一发音时长序列和第二发音时长序列设置权重，即设置第一权重和第二权重。利用第一权重和第二权重对第一发音时长序列和第一发音时长序列加权求和，得到各个因素的发音时长。

在本实施例的一些可选的实现方式中，请参考图5B，其示出了流程506：

步骤5061，将文本特征导入预先建立的调整参数确定模型。得到调整参数序列。

在本实现方式中，上述调整参数序列中的调整参数个数与上述文本对应的音素序列中的音素个数匹配。

在本实现方式中，上述调整参数确定模型用于表征文本特征与调整参数序列之间的对应关系。

步骤5062，根据第一发音时长序列、第二发音时长序列以及调整参数序列，确定文本对应的音素序列中的各个音素的发音时长。

在本实现方式中，对于文本“我”对应的音素序列“wo”，对应的第一发音时长序列为(5,6)，第二发音时长序列为(7,8)，单位均为毫秒，调整参数序列为(0.3,0.4)，那么，音素“w”的发音时长可以是7×0.3+(1-0.3)5＝5.6；音素“o”的发音时长可以是8×0.4+(1-0.4)×6＝6.8。

在本实施例的一些可选的实现方式中，上述调整参数确定模型可以是通过以下步骤得到的：获取第三训练样本集，在这里，第三训练样本是关联设置有音素的发音时长的音频信息。基于上述第一时长确定模型、上述第二时长确定模型和上述第三训练样本集，训练第三神经网络，得到调整参数确定模型。

在本实现方式中，基于上述第一时长确定模型、上述第二时长确定模型和上述第三训练样本集，训练第三神经网络，得到调整参数确定模型，可以包括：确定第三训练样本对应的训练用文本，并提取训练用文本的训练用文本特征。将上述训练用文本特征导入上述第一时长确定模型，得到训练用第一发音时长序列；将上述训练用文本特征导入上述第二时长确定模型，得到训练用第二发音时长序列；将上述训练用文本特征导入训练中的第三神经网络，得到训练用调整参数序列。根据上述训练用第一发音时长序列、训练用第二发音时长序列和训练用调整参数序列，确定训练用发音时长序列。根据训练用发音时长序列和与第三训练样本关联设置的音素的发音时长，调整上述训练中的第三神经网络。

在本实现方式中，上述第三神经网络可以是任意结构的神经网络，作为示例，上述第三神经网络可以是两层的时间递归神经网络。

从图5A中可以看出，与图2对应的实施例相比，本实施例中的用于确定音素发音时长的方法的流程500突出了根据第二时长确定模型以及第一时长确定模型确定音素的发音时长的步骤。由此，本实施例描述的方案可以提高所确定发音时长的准确性。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种用于确定音素发音时长的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例上述的用于确定音素发音时长的装置500包括：获取单元601、提取单元602、第一生成单元603和确定单元604。其中，获取单元，用于获取待合成语音对应的文本；提取单元，用于提取上述文本的文本特征；第一生成单元，用于将上述文本特征导入预先建立的第一时长确定模型，生成发音时长类型序列，其中，上述发音时长类型序列中的发音时长类型与上述文本对应的音素序列中的音素对应，上述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系；确定单元，用于根据所生成的发音时长类型序列和预先设置的对应关系信息，确定上述文本对应的音素序列中各个音素的发音时长，其中，上述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。

在本实施例中，获取单元601、提取单元602、第一生成单元603和确定单元604的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203以及步骤204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述第一时长确定模型是通过以下步骤得到的：获取第一训练样本集，其中，第一训练样本是关联设置有音素的发音时长的音频信息；利用上述第一训练样本集训练第一神经网络和条件随机场模型，得到第一时长确定模型，其中，第一神经网络的输出是条件随机场模型的输入。

在本实施例的一些可选的实现方式中，上述第一神经网络的输出包括上述音素序列中的每个音素对应的概率序列，其中，该音素对应的概率序列中的概率为该音素的发音时长属于预先设置的发音时长类型的概率。

在本实施例的一些可选的实现方式中，上述发音时长类型是通过以下步骤得到的：确定音素的最短发音时长和最长发音时长；将上述最短发音时长取对数得到第一对数值，并且将上述最长发音时长取对数得到第二对数值；确定上述第二对数值与上述第一对数值之间的差值，并且确定上述差值与预设数目的比值；生成包括预设数目个发音时长类型的发音时长类型序列，其中，对于上述发音时长序列中的每个发音时长类型，该发音时长类型对应的发音时长是根据该发音时长类型在上述发音时长类型序列的位次信息和上述比值确定的。

在本实施例的一些可选的实现方式中，上述第一训练样本集是通过以下步骤得到的：对于上述发音时长类型序列中的每个发音时长类型对应的发音时长，确定初始样本集中是否包括关联设置有该发音时长的样本，其中，初始样本是关联设置有音素的发音时长的音频信息；响应于确定上述初始样本集中不包括关联设置有该发音时长的样本，调整关联设置有与该发音时长差值最小的发音时长的样本，得到该发音时长的样本；将经调整得到的样本加入上述初始样本集，得到上述第一训练样本集。

在本实施例的一些可选的实现方式中，上述装置还包括：第二生成单元(未示出)，用于将上述文本特征导入预先建立的第二时长确定模型，生成上述文本对应的第二发音时长序列，其中，上述第二发音时长序列包括上述文本对应的音素序列中各个音素的发音时长，上述第二时长时长确定模型用于表征文本特征与第二发音时长序列之间的对应关系。

在本实施例的一些可选的实现方式中，上述第二时长确定模型是通过以下步骤得到的：获取第二训练样本集,第二训练样本是关联设置有音素的发音时长的音频信息；利用上述第二训练样本集训练第二神经网络，得到第二时长确定模型。

在本实施例的一些可选的实现方式中，上述确定单元，还用于：根据所生成的发音时长类型序列和上述对应关系信息，生成第一发音时长序列；基于上述第一发音时长序列和上述第二发音时长序列，确定上述文本对应的音素序列中各个音素的发音时长。

在本实施例的一些可选的实现方式中，上述确定单元，还用于：将上述文本特征导入预先建立的调整参数确定模型，得到调整参数序列，其中，上述调整参数序列中的调整参数个数与上述文本对应的音素序列中的音素个数匹配，上述调整参数确定模型用于表征文本特征与调整参数序列之间的对应关系；根据上述第一发音时长序列、上述第二发音时长序列以及上述调整参数序列，确定上述文本对应的音素序列中各个音素的发音时长。

在本实施例的一些可选的实现方式中，上述调整参数确定模型通过以下步骤得到：获取第三训练样本集，其中，第三训练样本是关联设置有音素的发音时长的音频信息；基于上述第一时长确定模型、上述第二时长确定模型和上述第三训练样本集，训练第三神经网络，得到调整参数确定模型。

需要说明的是，本实施例提供的用于确定音素发音时长的装置中各单元的实现细节和技术效果可以参考本申请中其它实施例的说明，在此不再赘述。

下面参考图7，其示出了适于用来实现本申请实施例的电子设备的计算机***700的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机***700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、提取单元、第一生成单元和确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待合成语音对应的文本的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取待合成语音对应的文本；提取上述文本的文本特征；将上述文本特征导入预先建立的第一时长确定模型，生成发音时长类型序列，其中，上述发音时长类型序列中的发音时长类型与上述文本对应的音素序列中的音素对应，上述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系；根据所生成的发音时长类型序列和预先设置的对应关系信息，确定上述文本对应的音素序列中各个音素的发音时长，其中，上述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于确定音素发音时长的方法，其特征在于，所述方法包括：

获取待合成语音对应的文本；

提取所述文本的文本特征；

将所述文本特征导入预先建立的第一时长确定模型，生成发音时长类型序列，其中，所述发音时长类型序列中的发音时长类型与所述文本对应的音素序列中的音素对应，所述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系；

根据所生成的发音时长类型序列和预先设置的对应关系信息，确定所述文本对应的音素序列中各个音素的发音时长，其中，所述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。

2.根据权利要求1所述的方法，其特征在于，所述第一时长确定模型是通过以下步骤得到的：

获取第一训练样本集，其中，第一训练样本是关联设置有音素的发音时长的音频信息；

利用所述第一训练样本集训练第一神经网络和条件随机场模型，得到第一时长确定模型，其中，第一神经网络的输出是条件随机场模型的输入。

3.根据权利要求2所述的方法，其特征在于，所述第一神经网络的输出包括所述音素序列中的每个音素对应的概率序列，其中，该音素对应的概率序列中的概率为该音素的发音时长属于预先设置的发音时长类型的概率。

4.根据权利要求1所述的方法，其特征在于，所述发音时长类型是通过以下步骤得到的：

确定音素的最短发音时长和最长发音时长；

将所述最短发音时长取对数得到第一对数值，并且将所述最长发音时长取对数得到第二对数值；

确定所述第二对数值与所述第一对数值之间的差值，并且确定所述差值与预设数目的比值；

生成包括预设数目个发音时长类型的发音时长类型序列，其中，对于所述发音时长序列中的每个发音时长类型，该发音时长类型对应的发音时长是根据该发音时长类型在所述发音时长类型序列的位次信息和所述比值确定的。

5.根据权利要求4所述的方法，其特征在于，所述第一训练样本集是通过以下步骤得到的：

对于所述发音时长类型序列中的每个发音时长类型对应的发音时长，确定初始样本集中是否包括关联设置有该发音时长的样本，其中，初始样本是关联设置有音素的发音时长的音频信息；响应于确定所述初始样本集中不包括关联设置有该发音时长的样本，调整关联设置有与该发音时长差值最小的发音时长的样本，得到该发音时长的样本；将经调整得到的样本加入所述初始样本集，得到所述第一训练样本集。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

将所述文本特征导入预先建立的第二时长确定模型，生成所述文本对应的第二发音时长序列，其中，所述第二发音时长序列包括所述文本对应的音素序列中各个音素的发音时长，所述第二时长时长确定模型用于表征文本特征与第二发音时长序列之间的对应关系。

7.根据权利要求6所述的方法，其特征在于，所述第二时长确定模型是通过以下步骤得到的：

获取第二训练样本集,第二训练样本是关联设置有音素的发音时长的音频信息；

利用所述第二训练样本集训练第二神经网络，得到第二时长确定模型。

8.根据权利要求7所述的方法，其特征在于，所述根据所生成发音时长类型序列和预先设置的对应关系信息，确定所述文本对应的音素序列中各个音素的发音时长，包括：

根据所生成的发音时长类型序列和所述对应关系信息，生成第一发音时长序列；

基于所述第一发音时长序列和所述第二发音时长序列，确定所述文本对应的音素序列中各个音素的发音时长。

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一发音时长序列和所述第二发音时长序列，确定所述文本对应的音素序列中各个音素的发音时长，包括：

将所述文本特征导入预先建立的调整参数确定模型，得到调整参数序列，其中，所述调整参数序列中的调整参数个数与所述文本对应的音素序列中的音素个数匹配，所述调整参数确定模型用于表征文本特征与调整参数序列之间的对应关系；

根据所述第一发音时长序列、所述第二发音时长序列以及所述调整参数序列，确定所述文本对应的音素序列中各个音素的发音时长。

10.根据权利要求9所述的方法，其特征在于，所述调整参数确定模型通过以下步骤得到：

获取第三训练样本集，其中，第三训练样本是关联设置有音素的发音时长的音频信息；

基于所述第一时长确定模型、所述第二时长确定模型和所述第三训练样本集，训练第三神经网络，得到调整参数确定模型。

11.一种用于确定音素发音时长的装置，其特征在于，所述装置包括：

获取单元，用于获取待合成语音对应的文本；

提取单元，用于提取所述文本的文本特征；

第一生成单元，用于将所述文本特征导入预先建立的第一时长确定模型，生成发音时长类型序列，其中，所述发音时长类型序列中的发音时长类型与所述文本对应的音素序列中的音素对应，所述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系；

确定单元，用于根据所生成的发音时长类型序列和预先设置的对应关系信息，确定所述文本对应的音素序列中各个音素的发音时长，其中，所述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。

12.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的方法。