CN113793590A

CN113793590A - 语音合成方法及装置

Info

Publication number: CN113793590A
Application number: CN202010457474.4A
Authority: CN
Inventors: 别凡虎
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2021-12-14
Anticipated expiration: 2040-05-26

Abstract

本申请适用于终端人工智能技术领域，提供了一种语音合成方法及装置，所述方法包括：获取身份编码，所述身份编码用于指示进行语音转换的第三方的身份；确定待转换文本对应的各个音素的音素时长，其中，至少一个所述音素的音素时长是根据所述身份编码确定的；根据各个所述音素的音素时长，对所述待转换文本进行转换，得到语音数据，使得语音数据中可以包括指示第三方身份的数字签名，也即是由身份编码确定的音素时长，可以通过该音素时长确定身份编码，从而确定第三方公司的身份，解决了无法确定合成语音数据的第三方的身份的问题，并且在二次转录的情况下也能够根据语音数据确定第三方身份，因而提高了数字签名的稳定性。

Description

语音合成方法及装置

技术领域

本申请属于终端人工智能技术领域，尤其涉及一种语音合成方法及装置。

背景技术

随着终端设备的不断发展，终端设备可以合成语音数据，并在合成的语音数据中添加数字签名，从而可以确定合成语音数据的第三方的身份。

相关技术中，第三方可以采用语音合成技术合成语音数据，并在合成语音数据的过程中，向语音数据中添加表示第三方身份的数字签名，以便可以根据该数字签名确定合成语音数据的第三方的身份。

但是，当无法获取语音数据的源文件时，则无法获取语音数据中的数字签名，也无法确定合成语音数据的第三方身份。

发明内容

本申请实施例提供了一种语音合成方法及装置，可以解决无法确定合成语音数据的第三方身份的问题。

第一方面，本申请实施例提供了一种语音合成方法，包括：

获取身份编码，所述身份编码用于指示进行语音转换的第三方的身份；

确定待转换文本对应的各个音素的音素时长，其中，至少一个所述音素的音素时长是根据所述身份编码确定的；

根据各个所述音素的音素时长，对所述待转换文本进行转换，得到语音数据。

在第一方面的第一种可能的实现方式中，所述获取身份编码，包括：

基于预先设置的配置信息，获取所述第三方的身份签名；

从预先设置的身份签名与身份编码之间的对应关系中，查找与所述身份签名相对应的身份编码。

在第一方面的第二种可能的实现方式中，所述确定待转换文本对应的各个音素的音素时长，包括：

将所述待转换文本输入预先设置的时长模型，得到每个所述音素的初始时长；

从所述待转换文本对应的各个音素中选取至少一个目标音素；

根据所述身份编码确定每个所述目标音素的时长增量；

根据每个所述目标音素的初始时长和时长增量，确定每个所述目标音素的音素时长；

对于所述待转换文本对应的各个所述音素中除所述目标音素之外的每个音素，将所述音素的初始时长确定为所述音素的音素时长。

基于第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，每个所述目标音素的时长增量是相同的。

基于第一方面的第二种可能的实现方式，在第一方面的第四种可能的实现方式中，所述根据所述身份编码确定每个所述目标音素的时长增量，包括：

根据所述身份编码和预先设置的增量因子确定每个所述目标音素的时长增量。

在第一方面的第五种可能的实现方式中，所述方法还包括：

获取标准语音数据和异常语音数据；

分别提取所述标准语音数据和所述异常语音数据中的各个音素；

对于所述异常语音数据中的每个音素，将所述音素与所述标准语音数据中相匹配的音素进行比较，得到所述音素对应的时长差值；

根据各个所述时长差值，确定身份签名。

基于第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述根据各个所述时长差值，确定身份签名，包括：

根据每个所述时长差值和预先设置的增量因子，确定与所述异常语音数据对应的身份编码；

根据与所述异常语音数据对应的身份编码、以及预先设置的身份签名与身份编码之间的对应关系，确定所述身份签名。

基于第一方面的第五种或第六种可能的实现方式，在第一方面的第七种可能的实现方式中，所述分别提取所述标准语音数据和所述异常语音数据中的各个音素，包括：

在所述异常语音数据为完整语音数据的情况下，分别提取所述标准语音数据和所述异常语音数据中的各个音素。

第二方面，本申请实施例提供了一种语音合成装置，包括：

第一获取模块，用于获取身份编码，所述身份编码用于指示进行语音转换的第三方的身份；

第一确定模块，用于确定待转换文本对应的各个音素的音素时长，其中，至少一个所述音素的音素时长是根据所述身份编码确定的；

转换模块，用于根据各个所述音素的音素时长，对所述待转换文本进行转换，得到语音数据。

在第二方面的第一种可能的实现方式中，所述第一获取模块，具体用于基于预先设置的配置信息，获取所述第三方的身份签名；从预先设置的身份签名与身份编码之间的对应关系中，查找与所述身份签名相对应的身份编码。

在第二方面的第二种可能的实现方式中，所述第一确定模块，具体用于将所述待转换文本输入预先设置的时长模型，得到每个所述音素的初始时长；从所述待转换文本对应的各个音素中选取至少一个目标音素；根据所述身份编码确定每个所述目标音素的时长增量；根据每个所述目标音素的初始时长和时长增量，确定每个所述目标音素的音素时长；对于所述待转换文本对应的各个所述音素中除所述目标音素之外的每个音素，将所述音素的初始时长确定为所述音素的音素时长。

基于第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，每个所述目标音素的时长增量是相同的。

基于第二方面的第二种可能的实现方式，在第二方面的第四种可能的实现方式中，所述第一确定模块，还具体用于根据所述身份编码和预先设置的增量因子确定每个所述目标音素的时长增量。

在第二方面的第五种可能的实现方式中，所述装置还包括：

第二获取模块，用于获取标准语音数据和异常语音数据；

提取模块，用于分别提取所述标准语音数据和所述异常语音数据中的各个音素；

比较模块，用于对于所述异常语音数据中的每个音素，将所述音素与所述标准语音数据中相匹配的音素进行比较，得到所述音素对应的时长差值；

第二确定模块，用于根据各个所述时长差值，确定身份签名。

基于第二方面的第五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述第二确定模块，具体用于根据每个所述时长差值和预先设置的增量因子，确定与所述异常语音数据对应的身份编码；根据与所述异常语音数据对应的身份编码、以及预先设置的身份签名与身份编码之间的对应关系，确定所述身份签名。

基于第二方面的第五种或第六种可能的实现方式，在第二方面的第七种可能的实现方式中，所述提取模块，具体用于在所述异常语音数据为完整语音数据的情况下，分别提取所述标准语音数据和所述异常语音数据中的各个音素。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的语音合成方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的语音合成方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的语音合成方法。

第六方面，本申请实施例提供了一种芯片***，所述芯片***包括处理器，所述处理器与存储器耦合，所述处理器执行存储器中存储的计算机程序，以实现如上述第一方面中任一项所述的语音合成方法。

其中，所述芯片***可以为单个芯片，或者多个芯片组成的芯片模组。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例通过获取用于指示进行语音转换的第三方身份的身份编码，并根据该身份编码，确定待转换文本对应的各个音素的音素时长，其中，至少一个音素的音素时长是根据身份编码确定的，再根据各个音素的音素时长，对待转换文本进行转换，得到语音数据，使得语音数据中可以包括指示第三方身份的数字签名，也即是由身份编码确定的音素时长，可以通过该音素时长确定身份编码，从而确定第三方公司的身份，解决了无法确定合成语音数据的第三方的身份的问题，并且在二次转录的情况下也能够根据语音数据确定第三方身份，因而提高了数字签名的稳定性。

附图说明

图1是是本申请实施例提供的一种语音合成方法所涉及的语音合成场景的场景示意图；

图2是是本申请实施例提供的另一种语音合成方法所涉及的语音合成场景的场景示意图；

图3是本申请实施例提供的一种终端设备的结构框图；

图4是本申请实施例提供的一种语音合成方法的示意性流程图；

图5是本申请实施例提供的另一种身份识别方法的示意性流程图；

图6是本申请实施例提供的一种语音合成装置的结构框图；

图7是本申请实施例提供的另一种语音合成装置的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请实施例中，“一个或多个”是指一个、两个或两个以上；“和/或”，描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的语音合成方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STATION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

图1是本申请实施例提供的一种语音合成方法所涉及的语音合成场景的场景示意图，参见图1，该语音合成场景中可以包括终端设备110，终端设备110可以获取待转换文本，并结合第三方的身份编码，生成与第三方相对应的语音数据。

在一种可能的实现方式中，终端设备110可以获取待转换文本，并通过预先训练的时长模型，确定待转换文本中每个音素的初始时长，并根据预先存储的配置信息，获取用于标识第三方的身份签名，从而可以根据该身份签名确定用于生成语音数据的身份编码。

之后，终端设备110可以根据身份编码计算得到时长增量，并按照预先设置的选取方式，从待转换文本的多个音素中选取至少一个音素作为目标音素，再根据时长增量和目标音素的初始时长，计算得到目标音素的音素时长，则可以根据目标音素的音素时长和其他各个音素的音素时长，对待转换文本进行转换，得到与第三方相对应的语音数据。

其中，第三方可以为终端设备110的供应商，也可以为终端设备110中应用程序的开发者，还可以为其他应用本申请实施例中提供的语音合成方法的用户，本申请实施例对此不做限定。

例如，若终端设备110为车载设备，则车载设备在导航过程中，可以基于车辆所在的位置，生成待转换文本，并结合车载设备或导航应用程序所对应的第三方身份编码，生成用于指示驾驶路径的语音数据。

另外，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。例如，以拼音的发音规则为例，可以将每个文字的拼音所对应的声母作为一个音素，拼音的韵母作为另一个音素，如“天气”中，文字“天”对应的音素可以包括“t”和“ian”，文字“气”对应的音素可以包括“q”和“i”。

当然，本申请实施例提供的语音合成方法，还可以应用于其他终端人工智能领域，如智能家居、可穿戴设备等领域，本申请实施例对此不做限定。

需要说明的是，在实际应用中，参见图2，语音合成场景中还可以包括服务器120，终端设备110可以与服务器120连接，使得服务器120可以对待转换文本进行转换，得到语音数据。

相应的，在生成语音数据的过程中，终端设备110可以先向服务器120发送待转换文本和配置信息，服务器120可以根据待转换文本确定各个音素的初始时长，再根据配置信息中的身份签名、以及存储的身份签名与身份编码之间的对应关系，确定与身份签名相对应的身份编码；然后根据身份编码计算得到时长增量，再根据时长增量进行计算，得到各个音素中目标音素的音素时长；最后根据各个目标音素的音素时长和其他各个音素的初始时长，对待转换文本进行转换，生成语音数据。

为了简便说明，下述实施例仅是以语音合成场景中包括终端设备110，不包括服务器120为例进行说明，而在实际应用中，不但可以通过终端设备110转换得到语音数据，还可以通过服务器120转换得到语音数据，本申请实施例对此不做限定。

图3是本申请实施例提供的一种终端设备的结构框图。参考图3，终端设备可以包括处理器310，外部存储器接口320，内部存储器321，通用串行总线(universal serialbus，USB)接口330，充电管理模块340，电源管理模块341，电池342，天线1，天线2，移动通信模块350，无线通信模块360，音频模块370，扬声器370A，受话器370B，麦克风370C，耳机接口370D，传感器模块380，按键390，马达391，指示器392，摄像头393，显示屏394，以及用户标识模块(subscriber identification module，SIM)卡接口395等。其中传感器模块380可以包括压力传感器380A，陀螺仪传感器380B，气压传感器380C，磁传感器380D，加速度传感器380E，距离传感器380F，接近光传感器380G，指纹传感器380H，温度传感器380J，触摸传感器380K，环境光传感器380L，骨传导传感器380M等。

可以理解的是，本发明实施例示意的结构并不构成对终端设备的具体限定。在本申请另一些实施例中，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器310可以包括一个或多个处理单元，例如：处理器310可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是终端设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器310中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器310中的存储器为高速缓冲存储器。该存储器可以保存处理器310刚用过或循环使用的指令或数据。如果处理器310需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器310的等待时间，因而提高了***的效率。

在一些实施例中，处理器310可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器310可以包含多组I2C总线。处理器310可以通过不同的I2C总线接口分别耦合触摸传感器380K，充电器，闪光灯，摄像头393等。例如：处理器310可以通过I2C接口耦合触摸传感器380K，使处理器310与触摸传感器380K通过I2C总线接口通信，实现终端设备的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器310可以包含多组I2S总线。处理器310可以通过I2S总线与音频模块370耦合，实现处理器310与音频模块370之间的通信。在一些实施例中，音频模块370可以通过I2S接口向无线通信模块360传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块370与无线通信模块360可以通过PCM总线接口耦合。在一些实施例中，音频模块370也可以通过PCM接口向无线通信模块360传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器310与无线通信模块360。例如：处理器310通过UART接口与无线通信模块360中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块370可以通过UART接口向无线通信模块360传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器310与显示屏394，摄像头393等***器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器310和摄像头393通过CSI接口通信，实现终端设备的拍摄功能。处理器310和显示屏394通过DSI接口通信，实现终端设备的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器310与摄像头393，显示屏394，无线通信模块360，音频模块370，传感器模块380等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口330是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口330可以用于连接充电器为终端设备充电，也可以用于终端设备与***设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端设备的结构限定。在本申请另一些实施例中，终端设备也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块340用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块340可以通过USB接口330接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块340可以通过终端设备的无线充电线圈接收无线充电输入。充电管理模块340为电池342充电的同时，还可以通过电源管理模块341为电子设备供电。

电源管理模块341用于连接电池342，充电管理模块340与处理器310。电源管理模块341接收电池342和/或充电管理模块340的输入，为处理器310，内部存储器321，外部存储器，显示屏394，摄像头393，和无线通信模块360等供电。电源管理模块341还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块341也可以设置于处理器310中。在另一些实施例中，电源管理模块341和充电管理模块340也可以设置于同一个器件中。

终端设备的无线通信功能可以通过天线1，天线2，移动通信模块350，无线通信模块360，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块350可以提供应用在终端设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块350可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noiseamplifier，LNA)等。移动通信模块350可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块350还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块350的至少部分功能模块可以被设置于处理器310中。在一些实施例中，移动通信模块350的至少部分功能模块可以与处理器310的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器370A，受话器370B等)输出声音信号，或通过显示屏394显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器310，与移动通信模块350或其他功能模块设置在同一个器件中。

无线通信模块360可以提供应用在终端设备上的包括无线局域网(wirelesslocal areanetworks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块360可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块360经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器310。无线通信模块360还可以从处理器310接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备的天线1和移动通信模块350耦合，天线2和无线通信模块360耦合，使得终端设备可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯***(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code divisionmultiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位***(global positioning system，GPS)，全球导航卫星***(globalnavigation satellitesystem，GLONASS)，北斗卫星导航***(beidou navigationsatellite system，BDS)，准天顶卫星***(quasi-zenith satellite system，QZSS)和/或星基增强***(satellite based augmentation systems，SBAS)。

终端设备通过GPU，显示屏394，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏394和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器310可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏394用于显示图像，视频等。显示屏394包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，终端设备可以包括1个或N个显示屏394，N为大于1的正整数。

终端设备可以通过ISP，摄像头393，视频编解码器，GPU，显示屏394以及应用处理器等实现拍摄功能。

ISP用于处理摄像头393反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头393中。

摄像头393用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端设备可以包括1个或N个摄像头393，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端设备可以支持一种或多种视频编解码器。这样，终端设备可以播放或录制多种编码格式的视频，例如：动态图像专家组(movingpicture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端设备的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口320可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备的存储能力。外部存储卡通过外部存储器接口320与处理器310通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器321可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器310通过运行存储在内部存储器321的指令，从而执行终端设备的各种功能应用以及数据处理。内部存储器321可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端设备使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器321可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

终端设备可以通过音频模块370，扬声器370A，受话器370B，麦克风370C，耳机接口370D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块370用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块370还可以用于对音频信号编码和解码。在一些实施例中，音频模块370可以设置于处理器310中，或将音频模块370的部分功能模块设置于处理器310中。

扬声器370A，也称“喇叭”，用于将音频电信号转换为声音信号。终端设备可以通过扬声器370A收听音乐，或收听免提通话。

受话器370B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备接听电话或语音信息时，可以通过将受话器370B靠近人耳接听语音。

麦克风370C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风370C发声，将声音信号输入到麦克风370C。终端设备可以设置至少一个麦克风370C。在另一些实施例中，终端设备可以设置两个麦克风370C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备还可以设置三个，四个或更多麦克风370C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口370D用于连接有线耳机。耳机接口370D可以是USB接口330，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器380A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器380A可以设置于显示屏394。压力传感器380A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器380A，电极之间的电容改变。终端设备根据电容的变化确定压力的强度。当有触摸操作作用于显示屏394，终端设备根据压力传感器380A检测所述触摸操作强度。终端设备也可以根据压力传感器380A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器380B可以用于确定终端设备的运动姿态。在一些实施例中，可以通过陀螺仪传感器380B确定终端设备围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器380B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器380B检测终端设备抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端设备的抖动，实现防抖。陀螺仪传感器380B还可以用于导航，体感游戏场景。

气压传感器380C用于测量气压。在一些实施例中，终端设备通过气压传感器380C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器380D包括霍尔传感器。终端设备可以利用磁传感器380D检测翻盖皮套的开合。在一些实施例中，当终端设备是翻盖机时，终端设备可以根据磁传感器380D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器380E可检测终端设备在各个方向上(一般为三轴)加速度的大小。当终端设备静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器380F，用于测量距离。终端设备可以通过红外或激光测量距离。在一些实施例中，拍摄场景，终端设备可以利用距离传感器380F测距以实现快速对焦。

接近光传感器380G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端设备通过发光二极管向外发射红外光。终端设备使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端设备附近有物体。当检测到不充分的反射光时，终端设备可以确定终端设备附近没有物体。终端设备可以利用接近光传感器380G检测用户手持终端设备贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器380G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器380L用于感知环境光亮度。终端设备可以根据感知的环境光亮度自适应调节显示屏394亮度。环境光传感器380L也可用于拍照时自动调节白平衡。环境光传感器380L还可以与接近光传感器380G配合，检测终端设备是否在口袋里，以防误触。

指纹传感器380H用于采集指纹。终端设备可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器380J用于检测温度。在一些实施例中，终端设备利用温度传感器380J检测的温度，执行温度处理策略。例如，当温度传感器380J上报的温度超过阈值，终端设备执行降低位于温度传感器380J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端设备对电池342加热，以避免低温导致终端设备异常关机。在其他一些实施例中，当温度低于又一阈值时，终端设备对电池342的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器380K，也称“触控面板”。触摸传感器380K可以设置于显示屏394，由触摸传感器380K与显示屏394组成触摸屏，也称“触控屏”。触摸传感器380K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏394提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器380K也可以设置于终端设备的表面，与显示屏394所处的位置不同。

骨传导传感器380M可以获取振动信号。在一些实施例中，骨传导传感器380M可以获取人体声部振动骨块的振动信号。骨传导传感器380M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器380M也可以设置于耳机中，结合成骨传导耳机。音频模块370可以基于所述骨传导传感器380M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器380M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键390包括开机键，音量键等。按键390可以是机械按键。也可以是触摸式按键。终端设备可以接收按键输入，产生与终端设备的用户设置以及功能控制有关的键信号输入。

马达391可以产生振动提示。马达391可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏394不同区域的触摸操作，马达391也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器392可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口395用于连接SIM卡。SIM卡可以通过***SIM卡接口395，或从SIM卡接口395拔出，实现和终端设备的接触和分离。终端设备可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口395可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口395可以同时***多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口395也可以兼容不同类型的SIM卡。SIM卡接口395也可以兼容外部存储卡。终端设备通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端设备采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端设备中，不能和终端设备分离。

图4是本申请实施例提供的一种语音合成方法的示意性流程图，作为示例而非限定，该方法可以应用于上述终端设备中，参见图4，该方法包括：

步骤401、获取身份编码。

其中，身份编码用于指示进行语音转换的第三方的身份。

终端设备在生成语音数据的过程中，可以获取表示第三方身份的身份编码，并根据身份编码，随机对待转换文本中至少一个音素的音素时长进行调整，使得生成的语音数据中至少一个音素的音素时长是基于身份编码调整的，从而可以根据调整后的音素时长确定第三方身份。

在一种可能的实现方式中，终端设备可以在预先设置的存储空间中，查找终端设备或应用程序的配置文件，再从配置文件中查找用于标识第三方身份的身份编码，以便在后续步骤中，可以根据身份编码调整语音数据中至少一个音素的音素时长。

进一步地，终端设备中可以存储有第三方的数字签名，也即是第三方的身份签名，则终端设备在获取身份编码的过程中，可以基于预先设置的配置信息，获取第三方的身份签名，再根据该身份签名，结合预先设置的身份签名与身份编码之间的对应关系，从对应关系中查找与身份签名相对应的身份编码。

具体地，终端设备可以先从配置文件中提取用于表示第三方身份的配置信息，再基于该配置信息，查找得到第三方的身份签名，再根据身份签名，从身份签名与身份编码之间的对应关系中查找与该身份签名相一致的身份签名，最后可以将查找的对应关系中相一致的身份签名所对应的身份编码作为第三方的身份编码。

另外，第三方的身份编码可以由N位数字组成，每位数字的参数可以包括M个备选参数值，则可以对M的N次方个第三方进行编码。例如，N为4，M为3，则可以对3*3*3*3＝81个第三方进行编码，若3个备选参数值分别为0、1和2，则4位身份编码可以为0121、2301或1132等多个身份编码。

需要说明的是，上述第三方的身份编码的位数N和每位数字的参数的参数值数目M可以根据第三方的数量进行调整，本申请实施例对此不做限定。

步骤402、确定待转换文本对应的各个音素的音素时长。

其中，待转换文本可以为终端设备预先存储的文本信息，也可以为终端设备根据用户触发的操作生成的文本信息。例如，终端设备在检测到用户发出的提问语音后，可以根据用户的提问语音，生成用于回答的待转换文本，再对待转换文本进行转换，生成并播放待转换文本对应的语音数据。

而且，至少一个音素的音素时长是根据身份编码确定的。音素时长用于表示生成语音数据时，该音素的发音时长。该音素时长可以为音素的初始时长，也可以为音素的初始时长与时长增量的和值，该初始时长可以为将待转换文本输入预先训练的时长模型后，时长模型输出的各个音素的时长，该时长增量可以为根据身份编码进行计算得到的时长。

例如，待转换文本可以对应10个音素，终端设备可以按照预先设置的选取方式，从10个音素中选取预设数目的音素作为目标音素，则该目标音素的音素时长可以为初始时长与时长增量的和值，而剩余的其他各个音素的音素时长可以为初始时长。

终端设备获取身份编码后，可以将待转换文本输入预先设置的时长模型，得到每个音素的初始时长，再从待转换文本对应的各个音素中选取至少一个目标音素，并根据身份编码确定每个目标音素的时长增量，再根据每个目标音素的初始时长和时长增量，确定每个目标音素的音素时长。同时，对于待转换文本对应的各个音素中除目标音素之外的每个音素，可以将该音素的初始时长确定为音素的音素时长。

在一种可能的实现方式中，终端设备可以将待转换文本输入时长模型，通过时长模型确定待转换文本中每个文字对应的声母和韵母，并根据时长模型中的神经网络，确定每个声母和每个韵母对应的时长，也即是，确定每个音素的初始时长。

之后，终端设备可以根据身份编码计算时长增量，并从待转换文本对应的多个音素中选取至少一个目标音素，再将目标音素的初始时长与计算得到的增量时长相加，得到初始时长与增量时长的和值，则可以将该和值作为该目标音素的音素时长。

但是，对于多个音素中除目标音素之外的其他音素，可以将该音素的初始时长作为该音素的音素时长。

例如，多个音素中第n个音素的初始时长可以为t_n，计算得到的增量时长为Δt，若第n个音素被选取为目标音素，则第n个音素对应的音素时长可以为T_n＝t_n+Δt。

需要说明的是，终端设备在根据身份编码计算时长增量的过程中，可以根据身份编码和预先设置的增量因子确定目标音素的时长增量。可选的，终端设备可以将身份编码与增量因子相乘，并将计算得到的乘积作为时长增量。

例如，身份编码为0121，增量因子为5，则时长增量Δt＝0121*5＝605，时长单位可以取毫秒。

另外，每个目标音素的时长增量可以是相同的。

但是，在实际应用中，还可以根据身份编码采用其他方式对各个音素的音素时长进行调整，本申请实施例对此不做限定。可选的，可以根据身份编码的位数以及每位数字的参数，从多个音素中选取数量与身份编码的位数相一致的音素作为目标音素，并按照各个目标音素的先后顺序，结合身份编码的每一位数字的参数，计算得到不同目标音素对应的增量时长，从而根据各个目标音素分别对应的增量时长、以及每个目标音素的初始时长，确定每个目标音素的音素时长。

例如，若多个音素分别为“n”、“i”、“h”、“ao”、“h”、“ua”、“w”和“ei”，且身份编码为2131，身份编码包括4位，则可以预先设置的选取方式，从多个音素中选取4个音素作为目标音素，若选取的目标音素分别为“n”、“ao”、“h”和“w”，则可以根据各个目标音素的先后顺序，并结合身份编码中每一位数字对应的参数，计算得到每个目标音素对应的增量时长，如目标音素“n”对应的增量时长由身份编码第一位数字的参数“2”计算得到，目标音素“ao”对应的增量时长由身份编码第二位数字的参数“1”计算得到，目标音素“h”对应的增量时长由身份编码第三位数字的参数“3”计算得到，目标音素“w”对应的增量时长由身份编码第四位数字的参数“1”计算得到。

步骤403、根据各个音素的音素时长，对待转换文本进行转换，得到语音数据。

终端设备在确定音素时长后，即可将待转换文本中的各个文字转换为语音，从而得到待转换文本对应的语音数据，以便在确定合成语音数据的第三方身份的过程中，可以根据语音数据中至少一个目标音素的音素时长进行确定。

在一种可能的实现方式中，终端设备在确定音素时长后，可以采用参数法的方式，将各个音素的音素时长输入声学模型，通过声学模型确定并向声码器发送基频等参数，从而通过声码器生成与待转换文本相对应的语音数据。

当然，终端设备还可以采用拼接法或端到端的方式，基于确定的音素时长生成语音数据，本申请实施例对生成语音数据所采用的方式不做限定。

综上所述，本申请实施例提供的语音合成方法，通过获取用于指示进行语音转换的第三方身份的身份编码，并根据该身份编码，确定待转换文本对应的各个音素的音素时长，其中，至少一个音素的音素时长是根据身份编码确定的，再根据各个音素的音素时长，对待转换文本进行转换，得到语音数据，使得语音数据中可以包括指示第三方身份的数字签名，也即是由身份编码确定的音素时长，可以通过该音素时长确定身份编码，从而确定第三方公司的身份，解决了无法确定合成语音数据的第三方的身份的问题，并且在二次转录的情况下也能够根据语音数据确定第三方身份，因而提高了数字签名的稳定性。

上述实施例描述了终端设备基于第三方的身份编码生成语音数据的过程，而在下述实施例中，终端设备基于需要确认第三方身份的异常语音数据、以及与异常语音数据相匹配的标准语音数据为例进行说明，描述了终端设备基于上述实施例生成的异常语音数据确定第三方身份的过程。

图5是本申请实施例提供的一种身份识别方法的示意性流程图，作为示例而非限定，该方法可以应用于上述终端设备中，参见图5，该方法包括：

步骤501、分别提取标准语音数据和异常语音数据中的各个音素。

其中，该标准语音数据为终端设备并未结合身份编码、仅根据待转换文本生成的语音数据，异常语音数据为终端设备根据待转换文本，结合身份编码生成的语音数据。也即是，异常语音数据中的至少一个音素的音素时长与标准语音数据中的至少一个音素的音素时长存在差异。

在确定合成异常语音数据的第三方的身份时，可以分别对标准语音数据的音素和异常语音数据的音素进行提取，确定每个音素的音素时长，以便在后续步骤中，可以根据各个音素时长，确定第三方的身份签名。

需要说明的是，在实际应用中，终端设备在提取各个音素之前，可以先获取标准语音数据和异常语音数据。例如，终端设备可以接收服务器发送的异常语音数据，并根据异常语音数据获取待转换文本，再对待转换文本进行转换，得到标准语音数据。或者，终端设备也可以接收服务器发送的异常语音数据、以及基于异常语音数据向终端设备发送的标准语音数据，本申请实施例对终端设备获取标准语音数据和异常语音数据的方式不做限定。

另外，终端设备在对异常语音数据提取音素之前，可以检测异常语音数据的完整性，避免异常语音数据是通过剪辑合成得到的非法语音，则终端设备可以先检测异常语音数据是否为完整语音数据，在异常语音数据为完整语音数据的情况下，分别提取标准语音数据和异常语音数据中的各个音素。

例如，终端设备可以通过媒体面数据的方式，对异常语音数据中出现的丢包、断续和吞字现象进行评估，从而根据评估结果确定异常语音数据是否为完整语音数据，若异常语音数据为完整语音数据，则可以对标准语音数据和异常语音数据的音素进行提取；但是，若异常语音数据不是完整语音数据，则不再对标准语音数据和异常语音数据的音素进行提取。

步骤502、对于异常语音数据中的每个音素，将该音素与标准语音数据中相匹配的音素进行比较，得到该音素对应的时长差值。

终端设备在提取得到各个音素后，可以将异常语音数据中的各个音素，与标准语音数据中相对应的音素进行比较，得到音素时长之间的时长差值，以便终端设备可以根据至少一个时长差值，确定身份签名。

在一种可能的实现方式中，对于异常语音数据中的每个音素，终端设备可以先确定该音素在待转换文本中对应的文字、以及该文字在待转换文本中所在的位置，再根据确定的文字以及文字的位置，在标准语音数据中查找相对应的音素。

之后，终端设备可以将异常语音数据中当前音素的音素时长，与查找得到的音素的音素时长进行计算，将当前音素的音素时长与查找得到的音素的音素时长之间的差值作为时长差值。在对异常语音数据中的每个音素与标准语音数据中相对应的各个音素比较完毕后，可以获取至少一个时长差值。

其中，上述计算得到的时长差值的绝对值可能为0，也可能大于0，则可以根据各个大于0的时长差值确定第三方的身份签名。

需要说明的是，在实际应用中，可以根据预先设置的选取方式确定目标音素，则在确定第三方身份的过程中，也可以结合预先设置的选取方式，确定异常语音数据中的目标音素，并获取标注语音数据中相匹配的音素，再对两个音素的音素时长进行比较，得到时长差值。

步骤503、根据各个时长差值，确定身份签名。

终端设备在计算得到时长差值后，可以根据各个时长差值对应的参数进行进一步计算，从而得到第三方对应的身份编码，从而可以根据身份编码查找得到相对应的身份签名，进而确定第三方身份。

可选的，终端设备可以根据每个时长差值和预先设置的增量因子，确定与异常语音数据对应的身份编码，再根据该与异常语音数据对应的身份编码、以及预先设置的身份签名与身份编码之间的对应关系，确定身份签名。

在一种可能的实现方式中，终端设备可以获取预先设置的增量因子，并结合用于计算增量时长的公式，根据时长差值和增量因子进行计算，得到第三方对应的身份编码，再从预先设置的身份签名与身份编码之间的对应关系中，查找与计算得到的身份编码相一致的身份编码，进而可以确定与身份编码对应的身份签名，也即是合成该异常语音数据的第三方所对应的身份签名。

例如，计算得到的时长差值为615毫秒，增量因子为5，则计算得到的身份编码可以为615/5＝123，则可以根据该身份编码615，从身份编码与身份签名之间的对应关系中，查找得到第三方的身份签名，完成对第三方的确认。

综上所述，本申请实施例提供的身份识别方法，通过分别提取标准语音数据和异常语音数据中的各个音素，针对异常语音数据中的每个音素，可以将音素与标准语音数据中相匹配的音素进行比较，得到至少一个时长差值，再根据至少一个时长差值，确定身份签名，从而可以根据身份签名确定第三方的身份，避免了无法确定合成语音数据的第三方的身份，在二次转录的情况下也能够根据语音数据中目标音素的音素时长确定第三方身份，提高了数字签名的稳定性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的语音合成方法，图6是本申请实施例提供的一种语音合成装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图6，该装置包括：

第一获取模块601，用于获取身份编码，该身份编码用于指示进行语音转换的第三方的身份；

第一确定模块602，用于确定待转换文本对应的各个音素的音素时长，其中，至少一个该音素的音素时长是根据该身份编码确定的；

转换模块603，用于根据各个该音素的音素时长，对该待转换文本进行转换，得到语音数据。

可选的，该第一获取模块601，具体用于基于预先设置的配置信息，获取该第三方的身份签名；从预先设置的身份签名与身份编码之间的对应关系中，查找与该身份签名相对应的身份编码。

可选的，该第一确定模块602，具体用于将该待转换文本输入预先设置的时长模型，得到每个该音素的初始时长；从该待转换文本对应的各个音素中选取至少一个目标音素；根据该身份编码确定每个目标音素的时长增量；根据每个该目标音素的初始时长和时长增量，确定每个该目标音素的音素时长；对于该待转换文本对应的各个该音素中除该目标音素之外的每个音素，将该音素的初始时长确定为该音素的音素时长。

可选的，每个该目标音素的时长增量是相同的，该目标音素是随机选取的。

可选的，该第一确定模块602，还具体用于根据该身份编码和预先设置的增量因子确定每个该目标音素的时长增量。

可选的，参见图7，该装置还包括：

第二获取模块604，用于获取标准语音数据和异常语音数据；

提取模块605，用于分别提取该标准语音数据和该异常语音数据中的各个音素；

比较模块606，用于对于该异常语音数据中的每个音素，将该音素与该标准语音数据中相匹配的音素进行比较，得到该音素对应的时长差值；

第二确定模块607，用于根据各个该时长差值，确定身份签名。

可选的，该第二确定模块607，具体用于根据每个该时长差值和预先设置的增量因子，确定与该异常语音数据对应的身份编码；根据与该异常语音数据对应的身份编码、以及预先设置的身份签名与身份编码之间的对应关系，确定该身份签名。

可选的，该提取模块605，具体用于在该异常语音数据为完整语音数据的情况下，分别提取该标准语音数据和该异常语音数据中的各个音素。

综上所述，本申请实施例提供的语音合成装置，通过获取用于指示进行语音转换的第三方身份的身份编码，并根据该身份编码，确定待转换文本对应的各个音素的音素时长，其中，至少一个音素的音素时长是根据身份编码确定的，再根据各个音素的音素时长，对待转换文本进行转换，得到语音数据，使得语音数据中可以包括指示第三方身份的数字签名，也即是由身份编码确定的音素时长，可以通过该音素时长确定身份编码，从而确定第三方公司的身份，解决了无法确定合成语音数据的第三方的身份的问题，并且在二次转录的情况下也能够根据语音数据确定第三方身份，因而提高了数字签名的稳定性。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带的终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

2.如权利要求1所述的语音合成方法，其特征在于，所述获取身份编码，包括：

基于预先设置的配置信息，获取所述第三方的身份签名；

3.如权利要求1所述的语音合成方法，其特征在于，所述确定待转换文本对应的各个音素的音素时长，包括：

根据所述身份编码确定每个所述目标音素的时长增量；

4.如权利要求3所述的语音合成方法，其特征在于，每个所述目标音素的时长增量是相同的。

5.如权利要求3所述的语音合成方法，其特征在于，所述根据所述身份编码确定每个所述目标音素的时长增量，包括：

6.如权利要求1所述的语音合成方法，其特征在于，所述方法还包括：

获取标准语音数据和异常语音数据；

根据各个所述时长差值，确定身份签名。

7.如权利要求6所述的语音合成方法，其特征在于，所述根据各个所述时长差值，确定身份签名，包括：

8.如权利要求6或7所述的语音合成方法，其特征在于，所述分别提取所述标准语音数据和所述异常语音数据中的各个音素，包括：

9.一种语音合成装置，其特征在于，包括：

10.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。