CN110634466A

CN110634466A - 具有高感染力的tts处理技术

Info

Publication number: CN110634466A
Application number: CN201810551651.8A
Authority: CN
Inventors: 刘诗慧; 栾剑
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2019-12-31
Anticipated expiration: 2038-05-31
Also published as: US11423875B2; WO2019231638A1; EP3803855A1; US20210082396A1; CN110634466B

Abstract

本文公开的具有高感染力的TTS处理技术，除了考虑语义学特征、语言学特征之外，还对训练文本中的各个句子赋予了句子ID以区分训练文本中的各个句子，这些句子ID也被作为训练特征，引入到机器学习模型训练的过程中，从而使得机器学习模型能够学习到句子声学编码随着句子的上下文的变化规律。在使用训练后的模型进行TTS处理时，能够在韵律、语气方面具有自然的变化的输出语音，增强TTS的感染力。利用本文提供的TTS处理技术，可以生成具有高感染力有声读物，以该TTS处理技术作为核心，可以构建出具有高感染力的有声读物的在线生成***。

Description

具有高感染力的TTS处理技术

背景技术

TTS(Text To Speech，从文本到语音)是一种语音转换合成技术，可以将文本文件转换为自然语言的语音输出。TTS广泛应用于智能聊天机器人、语音导航、在线翻译、在线教育等多个领域，TTS不仅能帮助有视觉障碍的人阅读计算机上的信息，还能够通过朗读文本而增加文本文档的可读性，解决用户在不方便进行视觉阅读的情况下，仍然能够获知文本的内容。

发明内容

提供本发明实施例内容是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

本文公开的具有高感染力的(highly empathetic)TTS处理技术，除了考虑语义学特征、语言学特征之外，还对训练文本中的各个句子赋予了句子ID以区分训练文本中的各个句子，这些句子ID也被作为训练特征，引入到机器学习模型训练的过程中，从而使得机器学习模型能够学习到句子声学编码随着句子的上下文的变化规律。在使用训练后的模型进行TTS处理时，能够在韵律、语气方面具有自然的变化的输出语音，增强TTS的感染力。利用本文提供的TTS处理技术，可以生成具有高感染力有声读物(Audio Book)，以该TTS处理技术作为核心，可以构建出具有高感染力的有声读物的在线生成***。

上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。

附图说明

图1为描述本文的TTS处理装置示例结构之一的应用环境的示例框图；

图2为与图1中TTS处理装置对应的机器学习训练装置的结构示例框图；

图3为描述本文提出的TTS处理装置的示例结构之二的框图；

图4为与图3中TTS处理装置对应的机器学习训练装置的结构示意框图；

图5为描述本文提出的TTS处理装置的示例结构之三的框图；

图6为描绘本文声学模型示例之一的结构框图；

图7为描绘本文声学模型示例之二的结构框图；

图8为描绘本文的TTS处理方法之一的流程示意图；

图9为描绘本文的TTS处理方法之二的流程示意图；

图10为描绘本文的TTS处理方法之三的流程示意图；

图11为描绘本文的机器学习训练方法之一的流程示意图；

图12为描绘本文的机器学习训练方法之二的流程示意图；

图13为示例性的具有可移动性的电子设备的结构框图；

图14为示例性的计算设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本文中，术语“技术”、“机制”可以指代例如(一个或多个)***、(一个或多个)方法、计算机可读指令、(一个或多个)模块、算法、硬件逻辑(例如，现场可编程门阵列(FPGA))、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)和/或上述上下文以及在本文档通篇中所允许的(一项或多项)其它技术。

概览

TTS技术是基于输入文本来生成输出语音的技术，应用于多个技术领域。在现有技术的TTS技术中，通过TTS输出的语音，在风格方面比较单一，缺乏多样性，缺少语气变化和表现力。例如，现有的一般智能聊天机器人在基于TTS技术讲述一个故事时，在朗读过程中，输出的各个句子的韵律都是相同的，类似于逐句地进行简单的语音转换，生成的输出语音无法随着故事的上下文而变动，因此，缺乏感染力，无法表现出真人朗读的感觉。即使有些TTS输出的语音风格存在一定的变化，但是，其风格变化比较突兀，无法形成自然过渡，与真实的人类的语言风格相差较远。

在人类讲述一段故事或者朗读一篇文章时，句子的韵律会随着故事或者文章的展开、上下文内容的变化而变化，从而体现出一定的情感，并且这种变化是自然的并且平滑衔接的。本文提出的TTS技术就是要通过机器学习的方式去学习这种变化规律，从而实现具有感染力的TTS的语音输出。

具体地，在进行机器学习模型训练的过程中，除了考虑语义学特征、语言学特征之外，还将句子在训练文本中的对各个句子赋予了句子ID以区分训练文本中的各个句子，这些句子ID也被作为训练特征，引入到机器学习模型训练的过程中，从而使得机器学习模型能够学习到每一个句子对应的句子声学编码，并且还能够学习到句子声学编码随着句子的上下文的语义学特征和/或语言学特征和/或句子声学编码的变化规律。在使用训练后的机器学习模型进行文本到语音的转换过程中，能够将句子的上下文与语义学和/或语言学和/或声学编码特征相结合，从而输出能够在韵律、语气方面具有自然的变化的输出语音，增强TTS的表现力和感染力。

本文涉及到的机器学习模型，从功能上来说，主要包括：用于生成句子声学特征参数的声学模型和用于预测句子声学编码的贯序模型，此外，除了机器学习模型之外，通过对机器学习模型的训练过程，还能够生成句子声学编码字典。

声学模型：其包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，相应地，通过声学模型的处理，所生成句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数。在这些句子声学特征参数中，音素持续时长参数、U/V参数、F0参数属于与韵律相关的参数，不同人说话的语气主要和这些韵律方面的参数有关，而能量谱参数与声音的音色相关。

贯序模型：用于根据前文的句子声学编码和当前句子的句子语义学编码预测当前句子的句子声学编码的贯序模型。在贯序模型的训练过程以及在线使用过程中，均要使用前文的句子声学编码，使得生成的句子声学编码具有随着文本内容的展开，自然地进行变化和过度的效果。

句子声学编码字典：包括多个由具有映射关系的句子语义学编码、句子ID以及句子声学编码构成的条目。在句子声学编码字典中，句子语义学编码和句子ID相当于索引项，通过句子语义学编码和/或句子ID可以找到对应的句子声学编码。

在进行TTS处理时，根据获取句子声学编码的方式不同，上述的机器学习模型以及句子声学编码字典的使用方式也有所不同，具体包括如下三种方式：

方式一：基于句子语义学编码在句子声学编码字典中检索

以输入文本中的各个句子的句子语义学编码，在句子声学编码字典中进行相似度检索，找到满足相似度条件的句子对应的句子声学编码。如果出现多个满足相似度条件的句子，再根据上下文句子的句子语义学编码或者结合句子ID来进行筛选。

方式二：基于贯序模型进行预测

基于贯序模型来预测句子声学编码，可以不使用句子声学编码字典，仅根据前文中多个句子的句子声学编码结合当前句子的句子语义学编码就可以生成当前句子的句子声学编码。

方式三：基于句子ID在句子声学编码字典中检索

以训练文本作为模板，输入根据文本中各个句子与训练文本中各个句子的位置对应关系，获取对应的句子ID，然后再根据获取到的句子ID去句子声学编码字典中进行检索，获取句子声学编码。输入文本的句子数量与训练文本的句子数量可能会存在差别，可以通过插值计算的方式来获取对应的句子ID。

下面通过一些应用示例详细介绍一下本文的TTS处理技术。

具体应用示例

如图1所示，其为描述本文的TTS处理装置示例结构之一的应用环境的示例框图100。图1中的TTS处理装置101设置于服务器102中，该服务器102可以通过通信网络103与多种类型的用户终端104通信连接。其中，用户终端104可以为小型因素便携式(或移动)电子装置，例如，蜂窝电话、个人数据助理(PDA)、笔记本电脑、平板电脑、个人媒体播放器装置、无线网络观看装置、个人头戴装置、专用装置或包括以上功能中的任何一个的混合装置。用户终端104也可以是台式计算机、专用服务器等计算设备等。

在用户终端104中可以安装有具有播放语音功能的应用，这些应用可以是，例如用于进行人机对话的聊天机器人应用，或者具有语音播放功能的新闻客户端应用，或者是用于在线朗读故事的应用等，这些应用可以将待转换为输出语音的文本文件作为输入文本，提供给服务器102中的TTS处理装置101进行处理，生成输入文本中各个句子对应的句子声学特征参数，并通过通信网络103发送给用户终端104中的应用，应用通过调用设置于本地的语音声码器，根据句子声学特征参数生成输出语音并向用户进行播放。当然，语音声码器也可以作为TTS处理装置101的一部分而设置在服务器102中(如图1所示)，直接生成输出语音并通过通信网络103发送给用户终端104进行播放。

此外，作为一种应用示例，本文提出的TTS处理装置101也可以被实现为上述的小型因素便携式(或移动)电子装置或者设置于小型因素便携式(或移动)电子装置中。另外，上述的TTS处理装置101还可以被实现为台式计算机、笔记本电脑、平板电脑、专用服务器等计算机设备，或者设置于这些计算机设备中。在这些计算设备或者电子装置中，可以同时设置有上述具有播放语音功能的应用，从而直接利用本机的TTS处理装置来生成输出语音。

TTS处理装置的示例结构之一

如图1所示，作为示例结构之一，上述的TTS处理装置101可以包括：输入文本特征提取单元105、第一检索单元106、声学模型108以及语音声码器109。

输入文本特征提取单元105，用于对输入文本110的各个句子进行文本特征提取，获取输入文本的各个句子的句子语义学编码111和句子语言学特征112。

句子语义学编码(Semantic code)111是对句子的语义学方面的特征进行的特征提取，具体可以采用词嵌入(Word embedding)或者采用词到向量(Word2vector)的方式生成句子语义学编码。

句子语言学特征(linguistic features)112是对句子的语言学方面的特征进行的特征提取，这些特征可以包括：三元音素(Tri-phoneme)、声调类型(tone type)，词性(Part of Speech)，韵律结构(Prosodic structure)等，以及词、短语、句子、段落以及会话的嵌入向量(word、phrase、sentence、paragraph and session embedding vector)。

第一检索单元106，用于根据输入文本110的各个句子的句子语义学编码111，在句子声学编码字典107中进行相似度匹配检索，获取与该句子语义学编码匹配的句子声学编码113。其中，句子声学编码字典107包括多个由具有映射关系的句子语义学编码、句子ID以及句子声学编码构成的条目。其中，句子声学编码字典107是基于训练文本的训练而获得的，在进行训练的过程中，将句子上下文顺序关系也作为训练特征进行训练，使得句子声学编码字典107的各条目中的句子声学编码具有按照句子的上下文关系而自然变化的特性。

进一步地，基于句子语义学编码在句子声学编码字典107进行相似度匹配检索的结果可能是多个，即检索到多个匹配的条目。针对这种情况，可以根据输入文本的各个句子的句子语义学编码以及各个句子的预设数量的上下文句子的句子语义学编码，在句子声学编码字典107中进行相似度匹配检索，获取与输入文本的各个句子语义学编码匹配的句子声学编码。

例如，输入文本中某一句话为“我发现今天天气不错”，而在句子声学编码字典107中，由于文本中句子的重复性，与这句话在句子语义学编码方面相似度较高或者完全一样的句子可能存在多个，对应的句子声学编码也可能是多个，有的句子声学编码对应于欢快的韵律，而有的句子声学编码对应于悲伤的韵律。

如果“我发现今天天气不错”的上下文是表示较为高兴的句子，例如相关上下文为：“今天考试通过了，我发现今天天气不错，顺便去公园走走吧”，那么“我发现今天天气不错”这句话对应的句子声学编码应该对应于较为欢快的韵律，而如果“我发现今天天气不错”的上下文是表示失落的句子，例如上下文为“今天考试没通过，我发现今天天气不错，但是却完全不想出门”，那么“我发现今天天气不错”对应的句子声学编码应该对应于较为悲伤的韵律。通过在句子声学编码字典107中进一步比较“我发现今天天气不错”的上下文的句子声学编码的相似度，就可以确定出合适的句子声学编码。

需要说明的是，上述的将当前句子的句子语义学编码和结合上下文句子的句子语义学编码相结合的检索方式，不一定只出现多个匹配的条目之后再执行，可以从一开始就使用这种方式进行检索，例如，可以将当前句子的句子语义学编码与上下文句子的句子语义学编码赋予不同的权重值，然后计算句子和上下文句子与句子语义学编码字典中的各个句子的整体上的相似度，依据该整体上的相似度进行排名，选择排名最高的作为检索结果即可。

另外，针对上述的检索到多个匹配的条目的情形，还可以通过句子的位置信息来进行筛选。可以以训练句子声学编码字典107的训练文本作为模板，确定输入文本中各个句子对应的句子ID，根据输入文本的各个句子的句子语义学编码以及确定的句子ID，在句子声学编码字典进行相似度匹配检索，获取与输入文本的各个句子语义学编码匹配的句子声学编码。输入文本的句子数量与作为模板的训练文本的句子数量可能会存在差别，可以通过插值计算的方式来获取对应的句子ID。插值计算的方式来获取句子ID的具体示例将在下文进行详细说明。

声学模型108，用于根据输入文本110的各个句子的句子声学编码113和句子语言学特征112，生成输入文本110的各个句子的句子声学特征参数114。

句子声学编码是对句子音频整体的描述，表示的是句子音频整体的风格，假设声学编码的维度是16维，句子音频就对应一组16维的向量。

句子声学特征参数是通过对句子的音频信号进行采样，把音频信号用数字的方式表示出来，每一帧对应一组声学参数，一个句子能对应于多帧的采样。反过来，在确定了句子声学特征参数后，可以通过相反的过程，还原出句子的音频信号，生成输出语音，具体可以使用语音声码器109来实现。

语音声码器109，用于根据输入文本110的各个句子的句子声学特征参数，生成输出语音115。声码器109可以设置于服务器102上也可以设置于用户终端104中。

TTS处理装置101对应的机器学习训练装置

如图2所示，其为与图1中TTS处理装置对应的机器学习训练装置的结构示例框图200，该机器学习训练装置通过使用训练文本以及与训练文本对应的训练语音作为训练数据，对声学训练模型进行训练(可以进行在线训练或者离线训练)，生成图1中的句子声学编码字典107和声学模型108。所使用的声学训练模型可以采用GRU(Gated Recurrent Unit，门控循环单元)或者LSTM(Long Short-Term Memory，长短期记忆网络)的机器学习模型结构。

具体地，该训练装置201包括：

训练文本特征提取单元202，用于对训练文本206的各个句子进行文本特征提取，获取各个句子的句子语义学编码207、句子ID 208以及句子语言学特征209；

训练语音特征提取单元203，用于对训练语音210进行语音特征提取，获取各个句子的句子声学特征参数特征211；

声学模型训练单元204，用于将各个句子的句子ID 208、句子语言学特征209以及各个句子的句子声学特征参数211作为第一训练数据，输入到声学训练模型进行训练，生成训练后的声学模型108以及各个句子的句子声学编码212；

字典生成单元205，用于将各个句子的句子语义学编码207、句子ID208与句子声学编码212建立映射关系，形成句子声学编码字典107的各个条目。

从训练装置201执行的训练处理可以看出，其训练产生的句子声学编码字典107以及声学模型108，不是单纯地与句子的句子语义学编码关联，还与句子在训练文本中的位置以及上下文关系相互关联，从而使得生成的输出语音能够随着输入文本的展开，在韵律方面，自然地进行变化和过渡。

TTS处理装置的示例结构之二

如图3所示，其为描述本文提出的TTS处理装置的示例结构之二的框图300。TTS处理装置301可以包括输入文本特征提取单元105、贯序模型302、声学模型108以及语音声码器109。

输入文本特征提取单元105，用于对输入文本110的各个句子进行文本特征提取，获取输入文本110的各个句子的句子语义学编码111和句子语言学特征112。

贯序模型302，用于根据输入文本110的各个句子的句子语义学编码111各个句子之前预设数量句子的句子声学编码(图中表示为前文句子的声学编码116)，预测输入文本的各个句子的句子声学编码。对于输入文本开始的数个句子，可以将句子声学编码赋予一些预设值，或者采用非预测的方式根据句子语义学编码来生成句子声学编码。

声学模型108，用于根据输入文本的各个句子的句子声学编码113和句子语言学特征112，生成输入文本的各个句子的句子声学特征参数114。

语音声码器109，用于根据输入文本的各个句子的句子声学特征参数114，生成输出语音115。

图3所示的TTS处理装置与图1所示的TTS处理装置不同之处在于，句子声学编码不是通过检索句子声学编码字典的方式，而是通过贯序模型302来进行预测。贯序模型302基于训练文本的训练而获得的，在进行训练的过程中，将训练文中各个句子的句子语义学编码和前文多个句子的句子声学编码作为训练特征进行训练，从而使得训练后的贯序模型302具备了句子声学编码的预测功能，使得生成的句子声学编码具有随着文本内容的展开，自然地进行变化和过度的效果。

TTS处理装置301对应的机器学习训练装置

如图4所示，其为与图3中TTS处理装置对应的机器学习训练装置的结构示意框图400。图4中的训练装置401在图2所示的训练装置201的基础上，增加了句子声学编码获取单元402和贯序模型训练单元403。

句子声学编码获取单元402，用于获取每个句子之前预定数量句子的句子声学编码(图中表示为前文句子的句子声学编码404)。具体的，在训练装置401中，可以先生成句子声学编码字典107，然后基于句子声学编码字典107来获取每个句子之前预定数量句子的句子声学编码。也可以不生成句子声学编码字典107，仅对每个句子之前预定数量句子的句子声学编码进行记录，以用户后续的句子的训练。

贯序模型训练单元403，用于将各个句子的句子语义学编码207、句子声学编码212以及每个句子之前预设数量句子的句子声学编码(图中表示为前文句子的句子声学编码404)作为第二训练数据，输入到贯序训练模型进行训练，生成训练后的贯序模型302。

从训练装置301执行的训练处理可以看出，其训练产生的贯序模型302，不是单纯地基于句子的句子语义学编码生成句子语义学编码，还能够结合前文的句子声学编码来进行预测，从而使得生成的输出语音能够随着输入文本的展开，在韵律方面，自然地进行变化和过度。

TTS处理装置的示例结构之三

如图5所示，其为描述本文提出的TTS处理装置的示例结构之三的框图500。TTS处理装置501可以包括：输入文本特征提取单元105、句子ID确定单元502、第二检索单元503、声学模型108以及语音声码器109。与图1中的TTS处理装置101不同之处在于，TTS处理装置501是通过句子ID在句子声学编码字典107来获取句子声学编码的，获取句子声学编码的过程通过句子ID确定单元502和第二检索单元503来完成。

其中，图5中的输入文本特征提取单元105可以仅提取句子语言学特征112即可，而不需要提取句子语义学编码。

句子ID确定单元502，用于根据输入文本中各个句子的位置信息，结合句子声学编码字典匹配的训练文本模板，确定输入文本中各个句子对应的句子ID 504。输入文本的句子数量与作为模板的训练文本的句子数量可能会存在差别，可以通过插值计算的方式来获取对应的句子ID504。例如，训练文本模板的句子数量为100句，而输入文本的句子数量为50句，将输入文本的第一句子对应于训练文本模板的第一个句子，将输入文本的第二句子对应于训练文本模板的第四个句子，将输入文本的第三句子对应于训练文本模板的第六个句子，以此类推，输入文本中的句子编号之间的插值从原来1变为2，从而建立起输入文本与训练文本中句子间的对应关系，从而确定对应的句子ID。

第二检索单元503，根据输入文本的各个句子对应的句子ID 504，在句子声学编码字典107中进行检索，获取与句子ID 504对应的句子声学编码113；句子声学编码字典包括多个由具有映射关系的句子语义学编码、句子ID以及句子声学编码构成的条目。

TTS处理装置501对应的机器学习训练装置

TTS处理装置501中所使用的句子声学编码字典107和声学模型108与TTS处理装置101是相同的，因此，可以采用TTS处理装置101对应的训练装置201来进行机器学习模型的训练。

声学模型的具体结构示例之一

如图6所示，其为描绘本文声学模型示例之一的结构框图600。如图6所示，上述各示例的声学模型可以包括：音素持续时长模型601、U/V模型602、F0模型603以及能量谱模型604。相应地，句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数。

其中，音素持续时长(Phoneme duration)指句子中各个音素的音素持续时长。U/V参数(Unvoice/Voice parameters)指标识句子中的各个语音帧是否发音(是清音还是浊音)的相关参数。F0参数指句子中的各个语音帧的音调(音高或者基频)的相关参数。能量谱参数指句子中各个语音帧的能量谱形态的相关参数。其中，音素持续时长参数、U/V参数、F0参数这三个参数与输出语音的韵律有关，而能量谱参数与输出语音的音色有关。

音素持续时长模型601，用于根据输入文本的各个句子的句子声学编码113和句子语言学特征112，生成输入文本的各个句子的音素持续时长参数605；

U/V模型602，用于根据输入文本的各个句子的音素持续时长参数605、句子声学编码113和句子语言学特征112，生成输入文本的各个句子的U/V参数606；

F0模型603，用于根据输入文本的各个句子的音素持续时长参数605、U/V参数606、句子声学编码113和句子语言学特征112，生成输入文本的各个句子的F0参数607；

能量谱模型604，用于根据输入文本的各个句子的音素持续时长参数605、U/V参数606、F0参数607、句子声学编码113和句子语言学特征112，生成输入文本的各个句子的能量谱参数608。

声学模型的具体结构示例之二

如图7所示，其为描绘本文声学模型示例之二的结构框图700。与图6所示的声学模型结构不同在于，在图7中，音素持续时长模型701、U/V模型702、F0模型703为基于第一类型的训练语音进行训练生成的模型，能量谱模型704为基于第二类型的训练语音进行训练生成的模型。

如前文说明的，音素持续时长参数、U/V参数、F0参数这三个参数与输出语音的韵律有关，而能量谱参数与输出语音的音色有关。在图7的示例中，在使用相同的训练文档的情况下，音素持续时长模型701、U/V模型702、F0模型703可以是使用人物A的语音作为训练语音进行训练而生成，而能量谱模型704是使用人物B的语音作为训练语音进行训练而生成，从而可以实现用人物A的韵律结合人物B的音色来形成输出语音。

说明性过程

如图8所示，其为描绘本文的TTS处理方法之一的流程示意图800。图8所示的方法流程对应于前述的方式一(基于句子语义学编码在句子声学编码字典中检索句子声学编码)，该方法流程可以通过图1中的TTS处理装置来完成。其中，该处理方法包括：

S801：对输入文本的各个句子进行文本特征提取，获取输入文本的各个句子的句子语义学编码和句子语言学特征。

S802：根据输入文本的各个句子的句子语义学编码，在句子声学编码字典中进行相似度匹配检索，获取与该句子语义学编码匹配的句子声学编码。句子声学编码字典包括多个由具有映射关系的句子语义学编码、句子ID以及句子声学编码构成的条目。

其中，针对可能出现多个检索到多个匹配的条目的情形，S802可以具体为：根据输入文本的各个句子的句子语义学编码以及各个句子的预设数量的上下文句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与输入文本的各个句子语义学编码匹配的句子声学编码。需要说明的是，上述的将当前句子的句子语义学编码和结合上下文句子的句子语义学编码相结合的检索方式，不一定只出现多个匹配的条目之后再执行，可以从一开始就使用这种方式进行检索，例如，可以将当前句子的句子语义学编码与上下文句子的句子语义学编码赋予不同的权重值，然后计算句子和上下文句子与句子语义学编码字典中的各个句子的整体上的相似度，依据该整体上的相似度进行排名，选择排名最高的作为检索结果即可。

此外，针对可能出现多个检索到多个匹配的条目的情形，S802还可以具体为：

根据输入文本中各个句子的位置信息，结合句子声学编码字典匹配的训练文本模板，确定输入文本中各个句子对应的句子ID。

根据输入文本的各个句子的句子语义学编码以及确定的句子ID，在句子声学编码字典进行相似度匹配检索，获取与输入文本的各个句子语义学编码匹配的句子声学编码。

S803：将输入文本的各个句子的句子声学编码和句子语言学特征输入到声学模型中，获取输入文本的各个句子的句子声学特征参数。其中，声学模型包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数。相对应地，S803可以具体包括：

将输入文本的各个句子的句子声学编码和句子语言学特征输入到声学模型中，获取输入文本的各个句子的句子声学特征参数包括：

将输入文本的各个句子的句子声学编码和句子语言学特征输入到音素持续时长模型中，获取输入文本的各个句子的音素持续时长参数；

将输入文本的各个句子的音素持续时长参数、句子声学编码和句子语言学特征输入到U/V模型中，获取输入文本的各个句子的U/V参数。

将输入文本的各个句子的音素持续时长参数、U/V参数、句子声学编码和句子语言学特征输入到F0模型中，获取输入文本的各个句子的F0参数.

将输入文本的各个句子的音素持续时长参数、U/V参数、F0参数、句子声学编码和句子语言学特征输入到能量谱模型中，获取输入文本的各个句子的能量谱参数。

此外，在生成句子声学特征参数还可以包括：

S804：将输入文本的各个句子的句子声学特征参数输入到语音声码器，生成输出语音。

如图9所示，其为描绘本文的TTS处理方法之二的流程示意图900。图9所示的方法流程对应于前述的方式二(基于贯序模型对句子声学编码进行预测)，该方法流程可以通过图3中的TTS处理装置来完成。其中，该处理方法包括：

S901：对输入文本的各个句子进行文本特征提取，获取输入文本的各个句子的句子语义学编码和句子语言学特征。

S902：将输入文本的各个句子的句子语义学编码和各个句子之前预设数量句子的句子声学编码输入到贯序模型中，获取输入文本的各个句子的句子声学编码。对于输入文本开始的数个句子，可以将句子声学编码赋予一些预设值，或者采用非预测的方式根据句子语义学编码来生成句子声学编码。

S903：将输入文本的各个句子的句子声学编码和句子语言学特征输入到声学模型中，获取输入文本的各个句子的句子声学特征参数。基于声学模型具体内部结构而执行的获取输入文本的各个句子的句子声学特征参数的处理过程可以采用图7中描述的具体处理过程。

此外，在生成句子声学特征参数还可以包括：

S904：将输入文本的各个句子的句子声学特征参数输入到语音声码器，生成输出语音。

如图10所示，其为描绘本文的TTS处理方法之三的流程示意图1000。图10所示的方法流程对应于前述的方式三(基于句子ID在句子声学编码字典中检索句子声学编码)，该方法流程可以通过图5中的TTS处理装置来完成。其中，该处理方法包括：

S1001：对输入文本的各个句子进行文本特征提取，获取输入文本的各个句子的句子语言学特征。

S1002：根据输入文本中各个句子的位置信息，结合句子声学编码字典匹配的训练文本模板，确定输入文本中各个句子对应的句子ID。输入文本的句子数量与作为模板的训练文本的句子数量可能会存在差别，可以通过插值计算的方式来获取对应的句子ID。

S1003：根据输入文本的各个句子对应的句子ID，在句子声学编码字典中进行检索，获取与句子ID对应的句子声学编码。句子声学编码字典包括多个由具有映射关系的句子语义学编码、句子ID以及句子声学编码构成的条目。

S1004：将输入文本的各个句子的句子声学编码和句子语言学特征输入到声学模型中，获取输入文本的各个句子的句子声学特征参数。基于声学模型具体内部结构而执行的获取输入文本的各个句子的句子声学特征参数的处理过程可以采用图7中描述的具体处理过程。

此外，在生成句子声学特征参数还可以包括：

S1005：将输入文本的各个句子的句子声学特征参数输入到语音声码器，生成输出语音。

如图11所示，其为描绘本文的机器学习训练方法之一的流程示意图1100。图11所示的训练方法训练处的声学模型和句子声学编码字典可以应用于上述的图8和图10的TTS处理方法。图11所示的方法流程可以通过图2中的机器学习装置来完成。其中，该处理方法包括：

S1101：对训练文本的各个句子进行文本特征提取，获取各个句子的句子语义学编码、句子ID以及句子语言学特征。

S1102：对训练语音进行语音特征提取，获取各个句子的句子声学特征参数特征。

S1103：将各个句子的句子ID、句子语言学特征以及各个句子的句子声学特征参数作为第一训练数据，输入到声学训练模型进行训练，生成训练后的声学模型以及各个句子的句子声学编码。

S1104：将各个句子的句子语义学编码、句子ID以及句子声学编码建立映射关系，形成句子声学编码字典的各个条目。

如图12所示，其为描绘本文的机器学习训练方法之二的流程示意图1200。图12所示的训练方法训练处的声学模型和句子声学编码字典可以应用于上述的图9的TTS处理方法。图12所示的方法流程可以通过图4中的机器学习装置来完成。其中，该处理方法包括：

S1201：对训练文本的各个句子进行文本特征提取，获取各个句子的句子语义学编码、句子ID以及句子语言学特征。

S1202：对训练语音进行语音特征提取，获取各个句子的句子声学特征参数特征。

S1203：将各个句子的句子ID、句子语言学特征以及各个句子的句子声学特征参数作为第一训练数据，输入到声学训练模型进行训练，生成训练后的声学模型以及各个句子的句子声学编码。

S1204：将各个句子的句子语义学编码、句子ID以及句子声学编码建立映射关系，形成句子声学编码字典的各个条目。

S1205：根据句子声学编码字典，获取每个句子之前预定数量句子的句子声学编码。

S1206：将各个句子的句子语义学编码、句子声学编码以及每个句子之前预设数量句子的句子声学编码作为第二训练数据，输入到贯序训练模型进行训练，生成训练后的贯序模型。

在图12所示的方法流程中，也可以不包括S1204和S1206的句子声学编码字典生成过程以及基于句子声学编码字典获取前文句子的句子声学编码的过程，而是通过在生成各个句子的句子声学编码的过程中，对一定数量的前文句子的句子声学编码进行缓存记录，以供后续句子训练的需要。

需要说明的是，上述的TTS处理方法以及相应的训练方法，可以基于上述的TTS处理装置以及训练装置来实现，也可以作为方法流程而独立实现，或者通过其他的软件或者硬件设计，在本发明实施例的发明思想之下，进行实现。

以上介绍了本发明实施例的TTS处理方法以及相应的训练方法的各个流程，其技术细节以及相应的技术效果在之前针对TTS处理装置以及训练装置的介绍中进行了详细说明，在此不再赘述。

电子装置示例

本公开的电子装置可以是具有可移动性的电子设备，也可以是较少移动的或者非移动的计算设备。本公开的电子装置至少具有处理单元和存储器，存储器上存储有指令，处理单元从存储器上获取指令，并执行处理，以使电子装置执行动作。

在一些例子中，上述图1至图12涉及的一个或多个模块或者一个或多个步骤或者一个或多个处理过程，可以通过软件程序、硬件电路，也可以通过软件程序和硬件电路相结合的方式来实现。例如，上述各个组件或者模块以及一个或多个步骤都可在芯片上***(SoC)中实现。SoC可包括：集成电路芯片，该集成电路芯片包括以下一个或多个：处理单元(如中央处理单元(CPU)、微控制器、微处理单元、数字信号处理单元(DSP)等)、存储器、一个或多个通信接口、和/或用于执行其功能的进一步的电路和可任选的嵌入的固件。

如图13所示，其为示例性的具有可移动性的电子设备1300的结构框图。该电子设备1300可以是小型因素便携式(或移动)电子设备。这里所说的小型因素便携式(或移动)电子设备可以是：例如，蜂窝电话、个人数据助理(PDA)、笔记本电脑、平板电脑、个人媒体播放器装置、无线网络观看装置、个人头戴装置、专用装置或包括以上功能中的任何一个的混合装置。电子设备1300至少包括：存储器1301和处理器1302。

存储器1301，用于存储程序。除上述程序之外，存储器1301还可被配置为存储其它各种数据以支持在电子设备1300上的操作。这些数据的示例包括用于在电子设备1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器1301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

存储器1301耦合至处理器1302并且包含存储于其上的指令，所说的指令在由处理器1302执行时使电子设备执行动作，作为一种电子设备的实施例，该动作可以包括：执行图8至图12对应的示例所执行的相关处理流程，或者执行图1至图7所示的TTS处理装置的处理逻辑。

对于上述的处理操作，在前面方法和装置的实施例中已经进行了详细说明，对于上述的处理操作的详细内容同样也适用于电子设备1300中，即可以将前面实施例中提到的具体处理操作，以程序的方式写入在存储器1301，并通过处理器1302来进行执行。

进一步，如图13所示，电子设备1300还可以包括：通信组件1303、电源组件1304、音频组件1305、显示器1306、芯片组1307等其它组件。图13中仅示意性给出部分组件，并不意味着电子设备1300只包括图13所示组件。

通信组件1303被配置为便于电子设备1300和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G以及5G或它们的组合。在一个示例性实施例中，通信组件1303经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件1303还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件1304，为电子设备的各种组件提供电力。电源组件1304可以包括电源管理***，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件1305被配置为输出和/或输入音频信号。例如，音频组件1305包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1301或经由通信组件1303发送。在一些实施例中，音频组件1305还包括一个扬声器，用于输出音频信号。

显示器1306包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述的存储器1301、处理器1302、通信组件1303、电源组件1304、音频组件1305以及显示器1306可以与芯片组1307连接。芯片组1307可以提供处理器1302与电子设备1300中的其余组件之间的接口。此外，芯片组1307还可以提供电子设备1300中的各个组件对存储器1301的访问接口以及各个组件间相互访问的通讯接口。

在一些例子中，上述图1至图12涉及的一个或多个单元、模型或者一个或多个步骤或者一个或多个处理过程，可以通过具有操作***和硬件配置的计算设备来实现。

图14其为示例性的计算设备1400的结构框图。此处所提供的对计算机1400的描述只是为了说明，并不是限制性的。实施例也可以在相关领域的技术人员所知的其它类型的计算机***中实现。

如图14所示，计算设备1400包括一个或多个处理器1402、***存储器1404，以及将包括***存储器1404的各种***组件耦合到处理器1402的总线1406。总线1406表示若干类型的总线结构中的任何一种总线结构的一个或多个，包括存储器总线或存储器控制器、***总线、加速图形端口，以及处理器或使用各种总线体系结构中的任何一种的局部总线。***存储器1404包括只读存储器(ROM)1408和随机存取存储器(RAM)1410。基本输入/输出***1412(BIOS)储存在ROM 1408中。

计算机***1400还具有一个或多个以下驱动器：用于读写硬盘的硬盘驱动器1414、用于读或写可移动磁盘1418的磁盘驱动器1416、以及用于读或写诸如CD ROM、DVDROM或其他光介质之类的可移动光盘1422的光盘驱动器1420。硬盘驱动器1414、磁盘驱动器1416，以及光驱动器1420分别通过硬盘驱动器接口1424、磁盘驱动器接口1426，以及光学驱动器接口1428连接到总线1406。驱动器以及它们相关联的计算机可读介质为计算机提供了对计算机可读指令、数据结构、程序模块，及其他数据的非易失存储器。虽然描述了硬盘、可移动磁盘和可移动光盘，但是，也可以使用诸如闪存卡、数字视频盘、随机存取存储器(RAM)、只读存储器(ROM)等等之类的其他类型的计算机可读存储介质来储存数据。

数个程序模块可被储存在硬盘、磁盘、光盘、ROM或RAM上。这些程序包括操作***1430、一个或多个应用程序1432、其他程序1434以及程序数据1436。这些程序可包括例如执行图1至图7对应的示例的处理流程，或者执行图8至图12所示的TTS处理装置的处理逻辑。

用户可以通过诸如键盘1438和指点设备1440之类的输入设备向计算设备1400中输入命令和信息。其它输入设备(未示出)可包括话筒、控制杆、游戏手柄、卫星天线、扫描仪、触摸屏和/或触摸平板、用于接收语音输入的语音识别***、用于接收手势输入的手势识别***、诸如此类。这些及其他输入设备可通过耦合到总线1406的串行端口接口1442连接到处理器1402，但也可以通过其他接口(诸如并行端口、游戏端口、通用串行总线(USB)端口)来进行连接。

显示屏1444也通过诸如视频适配器1446之类的接口连接到总线1406。显示屏1444可在计算设备1400外部或纳入其中。显示屏1444可显示信息，以及作为用于接收用户命令和/或其它信息(例如，通过触摸、手指姿势、虚拟键盘等等)的用户界面。除了显示屏1444之外，计算设备1400还可包括其他***输出设备(未示出)，如扬声器和打印机。

计算机1400通过适配器或网络接口1450、调制解调器1452、或用于通过网络建立通信的其他手段连接到网络1448(例如，因特网)。可以是内置的或外置的调制解调器1452可以经由串行端口接口1442连接到总线1406，如图14所示，或者可以使用包括并行接口的另一接口类型连接到总线1406。

如此处所用的，术语“计算机程序介质”、“计算机可读介质”以及“计算机可读存储介质”被用于泛指介质，诸如与硬盘驱动器1414相关联的硬盘、可移动磁盘1418、可移动光盘1422、***存储器1404、闪存卡、数字视频盘、随机读取存储器(RAM)、只读存储器(ROM)以及其它类型的物理/有形存储介质等。这些计算机可读存储介质与通信介质(不包括通信介质)相区别且不重叠。通信介质通常在诸如载波等已调制数据信号中承载计算机可读指令、数据结构、程序模块或者其它数据。术语“已调制数据信号”是指使得以在信号中编码信息的方式来设定或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如声学、RF、红外线的无线介质和其它无线介质以及有线介质。各个实施例也针对这些通信介质。

如上文所指示的，计算机程序和模块(包括应用程序1432及其他程序1434)可被储存在硬盘、磁盘、光盘、ROM或RAM上。这样的计算机程序也可以通过网络接口1450、串行端口接口1442或任何其他接口类型来接收。这些计算机程序在由应用程序执行或加载时使得计算机1400能够实现此处所讨论的实施例的特征。因此，这些计算机程序表示计算机***1400的控制器。

这样，各个实施例还涉及包括储存在任何计算机可用存储介质上的计算机指令/代码的计算机程序产品。这样的代码/指令当在一个或多个数据处理设备中执行时，使数据处理设备如此处所描述的那样操作。可包括计算机可读存储介质的计算机可读存储设备的示例包括诸如RAM、硬盘驱动器、软盘驱动器、CD ROM驱动器、DVD DOM驱动器、压缩盘驱动器、磁带驱动器、磁性存储设备驱动器、光学存储设备驱动器、MEM设备、基于纳米技术的存储设备等的存储设备以及其它类型的物理/有形计算机可读存储设备。

示例条款

A1：一种方法，包括：

对输入文本的各个句子进行文本特征提取，获取所述输入文本的各个句子的句子语义学编码和句子语言学特征；

根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典中进行相似度匹配检索，获取与该句子语义学编码匹配的句子声学编码；所述句子声学编码字典包括多个由具有映射关系的句子语义学编码、句子ID以及句子声学编码构成的条目；

将所述输入文本的各个句子的句子声学编码和句子语言学特征输入到声学模型中，获取所述输入文本的各个句子的句子声学特征参数。

A2：根据段落A1所述的方法，其中，所述根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码包括：

根据所述输入文本的各个句子的句子语义学编码以及各个句子的预设数量的上下文句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码。

A3：根据段落A1所述的方法，其中，所述根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码包括：

根据输入文本中各个句子的位置信息，结合所述句子声学编码字典匹配的训练文本模板，确定所述输入文本中各个句子对应的句子ID；

根据所述输入文本的各个句子的句子语义学编码以及确定的句子ID，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码。

A4：根据段落A1所述的方法，其中，所述声学模型包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，所述句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数，

将所述输入文本的各个句子的句子声学编码和句子语言学特征输入到声学模型中，获取所述输入文本的各个句子的句子声学特征参数包括：

将所述输入文本的各个句子的句子声学编码和句子语言学特征输入到音素持续时长模型中，获取所述输入文本的各个句子的音素持续时长参数；

将所述输入文本的各个句子的音素持续时长参数、句子声学编码和句子语言学特征输入到所述U/V模型中，获取所述输入文本的各个句子的U/V参数；

将所述输入文本的各个句子的音素持续时长参数、U/V参数、句子声学编码和句子语言学特征输入到所述F0模型中，获取所述输入文本的各个句子的F0参数；

将所述输入文本的各个句子的音素持续时长参数、U/V参数、F0参数、句子声学编码和句子语言学特征输入到所述能量谱模型中，获取所述输入文本的各个句子的能量谱参数。

A5：根据段落A1所述的方法，其中，还包括：

将所述输入文本的各个句子的句子声学特征参数输入到语音声码器，生成输出语音。

A6：根据段落A1所述的方法，其中，还包括生成声学模型的训练处理：

对训练文本的各个句子进行文本特征提取，获取训练文本的各个句子的句子语义学编码、句子ID以及句子语言学特征；

对训练语音进行语音特征提取，获取所述训练文本的各个句子的句子声学特征参数特征；

将所述训练文本的各个句子的句子ID、句子语言学特征以及各个句子的句子声学特征参数作为第一训练数据，输入到声学训练模型进行训练，生成训练后的声学模型以及所述训练文本的各个句子的句子声学编码；

将所述训练文本的各个句子的句子语义学编码、句子ID与所述句子声学编码建立映射关系，形成所述句子声学编码字典的各个条目。

A7：根据段落A4所述的方法，其中，所述音素持续时长模型、U/V模型、F0模型为基于第一类型的训练语音进行训练生成的模型，所述能量谱模型为基于第二类型的训练语音进行训练生成的模型。

B1：一种方法，包括：

将所述输入文本的各个句子的句子语义学编码和各个句子之前预设数量句子的句子声学编码输入到贯序模型中，获取所述输入文本的各个句子的句子声学编码；

B2：根据段落B1所述的方法，其中，所述声学模型包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，所述句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数，

B3：根据段落B1所述的方法，其中，还包括：

B4：根据段落B1所述的方法，其中，还包括生成所述声学模型和所述贯序模型的训练处理：

将所述训练文本的各个句子的句子语义学编码、句子ID与所述句子声学编码建立映射关系，形成所述句子声学编码字典的各个条目；

根据所述句子声学编码字典，获取所述训练文本的各个句子之前预定数量句子的句子声学编码；

将各个句子的句子语义学编码、句子声学编码以及每个句子之前预设数量句子的句子声学编码作为第二训练数据，输入到贯序训练模型进行训练，生成训练后的贯序模型。

B5：根据段落B2所述的方法，其中，所述音素持续时长模型、U/V模型、F0模型为基于第一类型的训练语音进行训练生成的模型，所述能量谱模型为基于第二类型的训练语音进行训练生成的模型。

C1：一种方法，包括：

对输入文本的各个句子进行文本特征提取，获取所述输入文本的各个句子的句子语言学特征；

根据输入文本的各个句子对应的句子ID，在句子声学编码字典中进行检索，获取与所述句子ID对应的句子声学编码；所述句子声学编码字典包括多个由具有映射关系的句子语义学编码、句子ID以及句子声学编码构成的条目；

C2：根据段落C1所述的方法，其中，还包括：

D1：一种方法，包括：

对训练文本的各个句子进行文本特征提取，获取各个句子的句子语义学编码、句子ID以及句子语言学特征；

对训练语音进行语音特征提取，获取各个句子的句子声学特征参数特征；

将各个句子的句子ID、句子语言学特征以及各个句子的句子声学特征参数作为第一训练数据，输入到声学训练模型进行训练，生成训练后的声学模型以及各个句子的句子声学编码；

将各个句子的句子语义学编码、句子ID与所述句子声学编码建立映射关系，形成句子声学编码字典的各个条目。

D2：根据段落D1所述的方法，其中，还包括：

根据所述句子声学编码字典，获取每个句子之前预定数量句子的句子声学编码；

E1：一种装置，包括：

输入文本特征提取单元，用于对输入文本的各个句子进行文本特征提取，获取所述输入文本的各个句子的句子语义学编码和句子语言学特征；

第一检索单元，用于根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典中进行相似度匹配检索，获取与该句子语义学编码匹配的句子声学编码；所述句子声学编码字典包括多个由具有映射关系的句子语义学编码、句子ID以及句子声学编码构成的条目；

声学模型，用于根据所述输入文本的各个句子的句子声学编码和句子语言学特征，生成所述输入文本的各个句子的句子声学特征参数。

E2：根据段落E1所述的装置，其中，所述根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码包括：

E3：根据段落1所述的装置，其中，所述根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码包括：

E4：根据段落E1所述的装置，其中，所述声学模型包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，所述句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数，

所述音素持续时长模型，用于根据输入文本的各个句子的句子声学编码和句子语言学特征，生成所述输入文本的各个句子的音素持续时长参数；

所述U/V模型，用于根据所述输入文本的各个句子的音素持续时长参数、句子声学编码和句子语言学特征，生成所述输入文本的各个句子的U/V参数；

所述F0模型，用于根据所述输入文本的各个句子的音素持续时长参数、U/V参数、句子声学编码和句子语言学特征，生成所述输入文本的各个句子的F0参数；

所述能量谱模型，用于根据所述输入文本的各个句子的音素持续时长参数、U/V参数、F0参数、句子声学编码和句子语言学特征，生成所述输入文本的各个句子的能量谱参数。

E5：根据段落E1所述的装置，其中，所述装置还包括：

语音声码器，用于根据所述输入文本的各个句子的句子声学特征参数，生成输出语音。

E6：根据段落E4所述的装置，其中，所述音素持续时长模型、U/V模型、F0模型为基于第一类型的训练语音进行训练生成的模型，所述能量谱模型为基于第二类型的训练语音进行训练生成的模型。

F1：一种装置，包括：

贯序模型，用于根据所述输入文本的各个句子的句子语义学编码和各个句子之前预设数量句子的句子声学编码，预测所述输入文本的各个句子的句子声学编码；

F2：根据段落F1所述的装置，其中，所述声学模型包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，所述句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数，

F3：根据段落F1所述的装置，其中，所述装置还包括：

F4：根据段落F2所述的装置，其中，所述音素持续时长模型、U/V模型、F0模型为基于第一类型的训练语音进行训练生成的模型，所述能量谱模型为基于第二类型的训练语音进行训练生成的模型。

G1：一种装置，包括：

输入文本特征提取单元，用于对输入文本的各个句子进行文本特征提取，获取所述输入文本的各个句子的句子语言学特征；

句子ID确定单元，用于根据输入文本中各个句子的位置信息，结合所述句子声学编码字典匹配的训练文本模板，确定所述输入文本中各个句子对应的句子ID；

第二检索单元，根据输入文本的各个句子对应的句子ID，在句子声学编码字典中进行检索，获取与所述句子ID对应的句子声学编码；所述句子声学编码字典包括多个由具有映射关系的句子语义学编码、句子ID以及句子声学编码构成的条目；

G2：根据段落G1所述的装置，其中，所述装置还包括：

H1：一种装置，包括：

训练文本特征提取单元，用于对训练文本的各个句子进行文本特征提取，获取各个句子的句子语义学编码、句子ID以及句子语言学特征；

训练语音特征提取单元，用于对训练语音进行语音特征提取，获取各个句子的句子声学特征参数特征；

声学模型训练单元，用于将各个句子的句子ID、句子语言学特征以及各个句子的句子声学特征参数作为第一训练数据，输入到声学训练模型进行训练，生成训练后的声学模型以及各个句子的句子声学编码；

字典生成单元，用于将各个句子的句子语义学编码、句子ID与所述句子声学编码建立映射关系，形成句子声学编码字典的各个条目。

H2：根据段落H1所述的装置，其中，还包括：

句子声学编码获取单元，用于根据所述句子声学编码字典，获取每个句子之前预定数量句子的句子声学编码；

贯序模型训练单元，用于将各个句子的句子语义学编码、句子声学编码以及每个句子之前预设数量句子的句子声学编码作为第二训练数据，输入到贯序训练模型进行训练，生成训练后的贯序模型。

I1：一种电子设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行动作，所述动作包括：

I2：根据段落I1所述的电子设备，其中，所述根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码包括：

I3：根据段落I1所述的电子设备，其中，所述根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码包括：

I4：根据段落I1所述的电子设备，其中，所述声学模型包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，所述句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数，

I5：根据段落I1所述的电子设备，其中，所述动作还包括：

I6：根据段落I1所述的电子设备，其中，所述动作还包括生成声学模型的训练处理：

I7：根据段落I4所述的电子设备，其中，所述音素持续时长模型、U/V模型、F0模型为基于第一类型的训练语音进行训练生成的模型，所述能量谱模型为基于第二类型的训练语音进行训练生成的模型。

J1：一种电子设备，包括：

处理单元；以及

J2：根据段落J1所述的电子设备，其中，所述声学模型包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，所述句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数，

J3：根据段落J1所述的电子设备，其中，所述动作还包括：

K1：一种电子设备，包括：

处理单元；以及

K2、根据段落K1所述的电子设备，其中，所述动作还包括：

L1：一种电子设备，包括：

处理单元；以及

L2：根据段落L1所述的电子设备，其中，所述还包括：

结语

***在各个方面的硬件与软件的实现上并没有太大的区别；使用硬件还是软件通常是权衡了成本与效率的设计上的选择结果，但在某些情况下，选择硬件还是软件可能是比较显而易见的决定。存在可以实现在此描述的处理和/或***和/或其它技术(例如，硬件、软件，以及/或固件)的各种承载工具，并且优选的是，可以根据使用该处理和/或***和/或其它技术的情况来改变承载工具。例如，如果实现方确定速度和准确度最重要，则该实现方可以选择主要由硬件和/或固件承载工具来实现；如果灵活性最重要，则该实现方可以选择主要软件来实现；或者，此外，该实现方可以选择硬件、软件，以及/或固件的一些组合来实现。

前述详细描述已经通过使用框图、流程图，以及/或示例阐述了该装置和/或处理的各种实施方式。这种框图、流程图，以及/或示例包含一个或更多个功能和/或操作，并且本领域技术人员应当明白，这种框图、流程图，或示例内的每一个功能和/或操作可以单独地和/或共同地，通过各种硬件、软件、固件，或者实际上其任何组合来实现。在一个实施方式中，在此描述的主旨的几个部分可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)，或其它集成格式来实现。然而，本领域技术人员应当认识到，在此公开的实施方式的一些方面整个地或者部分地可以等同地在集成电路中实现，或者实现为运行在一个或更多个计算机上的一个或更多个计算机程序(例如，实现为运行在一个或更多个计算机***上的一个或更多个程序)，实现为运行在一个或更多个处理器上的一个或更多个程序(例如，实现为运行在一个或更多个微处理器上的一个或更多个程序)，实现为固件，或者实际上实现为其任何组合，并且根据本公开，设计电路和/或编写用于软件和/或固件的代码完全处于本领域技术人员的技术范围内。另外，本领域技术人员应当清楚的是，在此描述的主题的机制能够以多种形式作为程序产品分发，并且在此描述的主题的例示性实施方式适用，而与被用于实际执行该分配的特定类型的信号承载介质无关。信号承载介质的示例包括但不限于：可记录型介质，如软盘、硬盘驱动器(HDD)、质密盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等；和传输型介质，如数字和/或模拟通信媒介(例如，光纤线缆、波导管、有线通信链路、无线通信链路等)。

本领域技术人员应当认识到，按在此阐述的方式来描述装置和/或处理，并且此后，使用技术实践将这样描述的装置和/或处理集成到数据处理***中是本领域内常见的。即，在此描述的装置和/或处理的至少一部分可以经由合理次数的实验而集成到数据处理***中。本领域技术人员应当认识到的是，通常的数据处理***通常包括以下中的一个或更多个：***单元外壳、视频显示装置、诸如易失性和非易失性存储器的存储器、诸如微处理器和数字信号处理器的处理器、诸如操作***、驱动器、图形用户接口，以及应用程序的计算实体、诸如触摸板或触摸屏的一个或更多个交互式装置，以及/或包括反馈回路和控制电动机的控制***(例如，用于感测位置和/或速度的反馈；用于移动和/或调节组件和/或数量的控制马达)。通常的数据处理***可以利用任何合适商业可获组件来实现，如通常在数据计算/通信和/或网络通信/计算***中找到的那些。

在此描述的主题有时例示了包含在不同的其它组件内或与其相连接的不同组件。本领域技术人员能够理解的是，这样描绘的架构仅仅是示例性的，并且实际上，可以实现获得相同功能的许多其它架构。在概念意义上，用于获得相同功能的组件的任何排布结构都有效地“关联”，以获得所需要的功能。因此，在此为获得特定功能而组合的任两个组件都可以被看作彼此“相关联”，以使获得所需要的功能，而与架构或中间组件无关。同样地，这样关联的任两个组件还可以被视作彼此“可操作地连接”，或“可操作地耦接”，以获得所需要的功能，并且能够这样关联的任两个组件也可以被视作可彼此“操作地耦接”，以获得所需要的功能。可操作地耦接的具体示例包括但不限于，物理上可配合和/或物理上交互的组件和/或可无线地交互和/或无线地交互的组件和/或逻辑上交互和/或逻辑上可交互组件。

针对在此实质上使用的任何术语，本领域技术人员可以针对背景和/或应用根据情况将其理解为单数和/或复数。为清楚起见，在此阐述了各种单数/复数的改变。

本领域技术人员应当明白，一般来说，在此使用的，而且尤其是在所附权利要求书中(例如，所附权利要求书的主体)使用的术语通常旨在作为“开放式”表述(例如，表述“包括(including)”应当解释为“包括但不限于”，表述“具有(having)”应当解释为“至少具有”等)。本领域技术人员还应当明白，如果想要特定数量的权利要求列举，则这种意图将明确地在该权利要求中陈述，并且在没有这些列举的情况下，不存在这种意图。例如，为帮助理解，下面所附权利要求书可以包含使用介绍性短语“至少一个”和“一个或更多个”来介绍权利要求列举。然而，使用这种短语不应被认作，权利要求列举将包含这种介绍权利要求列举的任何特定权利要求限制于仅包含一个这种列举的发明，即使同一权利要求包括介绍性短语“一个或更多个”或“至少一个”；其对于使用为介绍权利要求列举而使用的限定来说同样成立。另外，即使明确地陈述特定数量的权利要求列举，本领域技术人员也应当认识到，这种列举通常应当被解释成，或者至少表示所陈述的数量(例如，“列举两个”的这样的具体列举在没有其它修饰语的情况下通常意指至少两个，或者两个或更多个)。而且，在使用类似于“A、B，以及C等中的至少一个”的表述的那些实例中，一般来说，这种句法结构希望本领域技术人员在意义上应当理解这种表述(例如，“具有A、B，以及C中的至少一个的***”应当包括但不限于具有单独A、单独B、单独C、A和B一起、A和C一起、B和C一起，以及/或A、B以及C一起等的***)。在使用类似于“A、B，或C等中的至少一个”的惯例的那些实例中，一般来说，这种句法结构希望本领域技术人员在意义上应当理解这种惯例(例如，“具有A、B，或C中的至少一个的***”应当包括但不限于具有单独A、单独B、单独C、A和B一起、A和C一起、B和C一起，以及/或A、B以及C一起等的***)。本领域技术人员还应当明白的是，实际上，呈现两个或更多个另选术语的任何转折词和/短语(无论处于描述、权利要求书中，还是在附图中)应当被理解成，设想包括这些术语、这些术语中的任一个，或者两个术语的可能性。例如，短语“A或B”应当被理解成，包括“A”或“B”或“A和B”的可能性。

本说明书中针对“实现方式”、“一个实现方式”、“一些实现方式”，或“其它实现方式”的引用可以意指，结合一个或更多个实现方式描述的特定特征、结构，或特性可以被包括在至少一些实现方式中，但不必被包括在所有实现方式中。前述描述中不同出现的“实现方式”、“一个实现方式”，或“一些实现方式”不必全部针对同一实现方式而引用。

虽然利用不同方法和***描述和示出了特定示例性技术，但本领域技术人员应当明白，在不脱离要求保护的主题的情况下，可以进行各种其它修改，并且可以代替等同物。另外，在不脱离在此描述的中心概念的情况下，可以进行许多修改以使适应针对要求保护的主题的教导的特定情况。因此，要求保护的主题不限于所公开的特定示例，而是这种要求保护的主题还可以包括落入所附权利要求书及其等同物的范围内的所有实现。

尽管已经用结构特征和/或方法动作专用的语言描述了本主题，但要理解，所附权利要求书中定义的主题不必限于所描述的具体特征或动作。而是，这些具体特征和动作是作为实现该权利要求的解说性形式而公开的。

除非另外具体声明，否则在上下文中可以理解并一般地使用条件语言(诸如“能”、“能够”、“可能”或“可以”)表示特定示例包括而其他示例不包括特定特征、元素和/或步骤。因此，这样的条件语言一般并非旨在暗示对于一个或多个示例以任何方式要求特征、元素和/或步骤，或者一个或多个示例必然包括用于决定的逻辑、具有或不具有用户输入或提示、在任何特定实施例中是否要包括或要执行这些特征、元素和/或步骤。

除非另外具体声明，应理解连词(诸如短语“X、Y或Z中至少一个”)表示所列出的条目、词语等可以是X、Y或Z中的任一者、或其组合。

本公开所述和/或附图中描述的流程图中任何例行描述、元素或框应理解成潜在地表示包括用于实现该例程中具体逻辑功能或元素的一个或多个可执行指令的代码的模块、片段或部分。替换示例被包括在本公开描述的示例的范围内，其中各元素或功能可被删除，或与所示出或讨论的顺序不一致地执行，包括基本上同步地执行或按相反顺序执行，这取决于所涉及的功能，如本领域技术人也将理解的。

应当强调，可对上述示例作出许多变型和修改，其中的元素如同其他可接受的示例那样应被理解。所有这样的修改和变型在此旨在包括在本公开的范围内并且由以下权利要求书保护。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码包括：

3.根据权利要求1所述的方法，其中，所述根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码包括：

4.根据权利要求1所述的方法，其中，所述声学模型包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，所述句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数，

5.根据权利要求1所述的方法，其中，还包括：

6.根据权利要求1所述的方法，其中，还包括生成声学模型的训练处理：

将所述训练文本的各个句子的句子语义学编码、句子ID以及所述句子声学编码建立映射关系，形成所述句子声学编码字典的各个条目。

7.根据权利要求4所述的方法，其中，所述音素持续时长模型、U/V模型、F0模型为基于第一类型的训练语音进行训练生成的模型，所述能量谱模型为基于第二类型的训练语音进行训练生成的模型。

8.一种方法，包括：

9.根据权利要求8所述的方法，其中，所述声学模型包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，所述句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数，

10.根据权利要求8所述的方法，其中，还包括：

11.根据权利要求8所述的方法，其中，还包括生成所述声学模型和所述贯序模型的训练处理：

12.根据权利要求9所述的方法，其中，所述音素持续时长模型、U/V模型、F0模型为基于第一类型的训练语音进行训练生成的模型，所述能量谱模型为基于第二类型的训练语音进行训练生成的模型。

13.一种电子设备，包括：

处理单元；以及

14.根据权利要求13所述的电子设备，其中，所述根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码包括：

15.根据权利要求13所述的电子设备，其中，所述根据所述输入文本的各个句子的句子语义学编码，在句子声学编码字典进行相似度匹配检索，获取与所述输入文本的各个句子语义学编码匹配的句子声学编码包括：

16.根据权利要求13所述的电子设备，其中，所述声学模型包括音素持续时长模型、U/V模型、F0模型以及能量谱模型，所述句子声学特征参数包括音素持续时长参数、U/V参数、F0参数以及能量谱参数，

17.根据权利要求13所述的电子设备，其中，所述动作还包括：

18.根据权利要求13所述的电子设备，其中，所述动作还包括生成声学模型的训练处理：

19.根据权利要求16所述的电子设备，其中，所述音素持续时长模型、U/V模型、F0模型为基于第一类型的训练语音进行训练生成的模型，所述能量谱模型为基于第二类型的训练语音进行训练生成的模型。