CN112767910A

CN112767910A - 音频信息合成方法、装置、计算机可读介质及电子设备

Info

Publication number: CN112767910A
Application number: CN202010402599.7A
Authority: CN
Inventors: 林诗伦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2021-05-07
Anticipated expiration: 2040-05-13
Also published as: CN112767910B; US20220215827A1; WO2021227707A1

Abstract

本申请属于人工智能技术领域，并涉及机器学习技术。具体而言，本申请涉及一种音频信息合成方法、音频信息合成装置、计算机可读介质以及电子设备。该方法包括：获取包括至少两个语种类型的混合语种文本信息；基于至少两个语种类型对混合语种文本信息进行文本编码处理以得到混合语种文本信息的中间语义编码特征；获取对应于目标音色主体的目标音色特征，并基于目标音色特征对中间语义编码特征进行解码处理以得到声学特征；对声学特征进行声学编码处理以得到与混合语种文本信息相对应的音频信息。该方法解决了现有混合语种音频合成技术中存在的因语种差异而出现的音色跳变问题，可稳定输出自然顺畅且音色统一的混合语种音频。

Description

音频信息合成方法、装置、计算机可读介质及电子设备

技术领域

本申请涉及人工智能技术领域，并涉及机器学习技术。具体而言，本申请涉及一种音频信息合成方法、音频信息合成装置、计算机可读介质以及电子设备。

背景技术

随着人工智能技术和智能硬件设备(如智能手机、智能音箱等)的快速发展，语音交互技术作为一种自然的交互方式得到越来越多的应用。作为语音交互技术中重要的一环，语音合成技术也取得了长足的进步。语音合成技术也被称为文字转语音技术(Text toSpeech，TTS)，其作用是将计算机自己产生的或外部输入的文字信息转变为用户可以听得懂的、流利的语音并将其播放出来。

在语音合成技术的应用中，往往会遇到多种语言类型相互混杂的情况，例如中文句子中夹杂着英文单词或英文短语。在这种情形下，一般会在两种语言相切换的语音部分出现较大的音色差异，导致合成语音整体出现跳变，影响合成语音的播放效果。因此，如何克服因多种语言类型混合而导致的音色差异是目前亟待解决的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请的目的在于提供一种音频信息合成方法、音频信息合成装置、计算机可读介质以及电子设备，至少在一定程度上克服合成音频中不同语言类型存在音色差异的技术问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种音频信息合成方法，该方法包括：

获取包括至少两个语种类型的混合语种文本信息；

基于所述至少两个语种类型对所述混合语种文本信息进行文本编码处理以得到所述混合语种文本信息的中间语义编码特征；

获取对应于目标音色主体的目标音色特征，并基于所述目标音色特征对所述中间语义编码特征进行解码处理以得到声学特征；

对所述声学特征进行声学编码处理以得到与所述混合语种文本信息相对应的音频信息。

根据本申请实施例的一个方面，提供一种音频信息合成装置，该装置包括：

信息获取模块，被配置为获取包括至少两个语种类型的混合语种文本信息；

信息编码模块，被配置为基于所述至少两个语种类型对所述混合语种文本信息进行文本编码处理以得到所述混合语种文本信息的中间语义编码特征；

信息解码模块，被配置为获取对应于目标音色主体的目标音色特征，并基于所述目标音色特征对所述中间语义编码特征进行解码处理以得到声学特征；

声学编码模块，被配置为对所述声学特征进行声学编码处理以得到与所述混合语种文本信息相对应的音频信息。

在本申请的一些实施例中，基于以上技术方案，所述信息编码模块包括：

单语种编码单元，被配置为通过与各个所述语种类型相对应的单语种文本编码器分别对所述混合语种文本信息进行文本编码处理以得到所述混合语种文本信息的至少两个单语种编码特征；

编码特征融合单元，被配置为对所述至少两个单语种编码特征进行融合处理以得到所述混合语种文本信息的混合语种编码特征；

编码特征确定单元，被配置为根据所述混合语种编码特征确定所述混合语种文本信息的中间语义编码特征。

在本申请的一些实施例中，基于以上技术方案，所述单语种编码单元包括：

字符嵌入子单元，被配置为通过与各个所述语种类型相对应的字符嵌入矩阵分别对所述混合语种文本信息进行映射变换处理以得到所述混合语种文本信息的至少两个嵌入字符特征；

嵌入编码子单元，被配置为通过与各个所述语种类型相对应的单语种文本编码器分别对所述嵌入字符特征进行文本编码处理以得到所述混合语种文本信息的至少两个单语种编码特征。

在本申请的一些实施例中，基于以上技术方案，所述嵌入编码子单元包括：

残差编码子单元，被配置为通过与各个所述语种类型相对应的单语种文本编码器分别对所述嵌入字符特征进行残差编码以得到所述混合语种文本信息的至少两个残差编码特征；

残差融合子单元，被配置为将所述嵌入字符特征分别与各个所述残差编码特征进行融合处理以得到所述混合语种文本信息的至少两个单语种编码特征。

在本申请的一些实施例中，基于以上技术方案，所述单语种编码特征是对所述嵌入字符特征进行残差编码得到的残差编码特征；所述编码特征融合单元包括：

编码特征融合子单元，被配置为对所述至少两个单语种编码特征以及所述嵌入字符特征进行融合处理以得到所述混合语种文本信息的混合语种编码特征。

在本申请的一些实施例中，基于以上技术方案，所述编码特征确定单元包括：

语种嵌入子单元，被配置为通过基于所述至少两个语种类型的语种嵌入矩阵对所述混合语种文本信息进行映射变换处理以得到所述混合语种文本信息的嵌入语种特征；

语种融合子单元，被配置为对所述混合语种编码特征和所述嵌入语种特征进行融合处理以得到所述混合语种文本信息的中间语义编码特征。

字符编码单元，被配置为基于所述至少两个语种类型对所述混合语种文本信息中的各个文本字符进行文本编码处理以得到对应于各个所述文本字符的字符编码特征；

权重获取单元，被配置为获取与各个所述文本字符相对应的注意力分配权重；

特征加权单元，被配置为根据所述注意力分配权重对各个所述文本字符的字符编码特征进行加权映射以得到所述混合语种文本信息的中间语义编码特征。

在本申请的一些实施例中，基于以上技术方案，所述权重获取单元包括：

序列位置获取子单元，被配置为获取各个所述文本字符在所述混合语种文本信息中的序列位置信息；

第一权重确定子单元，被配置为根据所述序列位置信息确定与各个所述文本字符相对应的位置注意力分配权重。

在本申请的一些实施例中，基于以上技术方案，所述权重获取单元还包括：

语种类型获取子单元，被配置为获取各个所述文本字符的语种类型信息；

语种权重确定子单元，被配置为根据所述语种类型信息确定与各个所述文本字符相对应的语种注意力分配权重；

第二权重确定子单元，被配置为根据所述位置注意力分配权重和所述语种注意力分配权重确定与各个所述文本字符相对应的多重注意力分配权重。

在本申请的一些实施例中，基于以上技术方案，所述第二权重确定子单元包括：

音色标识获取子单元，被配置为获取与各个所述文本字符相对应的目标音色主体的音色标识信息；

音色权重确定子单元，被配置为根据所述音色标识信息确定与各个所述文本字符相对应的音色注意力分配权重；

第三权重确定子单元，被配置为根据所述位置注意力分配权重、所述语种注意力分配权重以及所述音色注意力分配权重确定与各个所述文本字符相对应的多重注意力分配权重。

在本申请的一些实施例中，基于以上技术方案，所述信息解码模块包括：

音色标识获取单元，被配置为获取目标音色主体的音色标识信息；

音色标识嵌入单元，被配置为通过音色嵌入矩阵对所述音色标识信息进行映射变换处理以得到所述目标音色主体的目标音色特征。

在本申请的一些实施例中，基于以上技术方案，所述音频信息合成装置还包括：

模型获取模块，被配置为获取利用所述目标音色主体的音色数据样本训练得到音色转换模型；

音色转换模块，被配置为通过所述音色转换模型对所述音频信息进行音色转换处理以得到对应于所述目标音色主体的音频信息。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的音频信息合成方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的音频信息合成方法。

在本申请实施例提供的技术方案中，通过基于多种语言类型的编码器对混合语种文本信息进行编码处理，并通过结合目标音色主体的解码器对编码信息进行解码处理，可以转换形成对应于单一音色和多个语种类型的音频信息。解决了现有混合语种音频合成技术中存在的因语种差异而出现的音色跳变问题，可稳定输出自然顺畅且音色统一的混合语种音频。本申请实施例既可部署于云端为各种设备提供通用合成服务，也可根据不同应用自身需求定制专属音色。由于可以使用不同目标音色主体的单语种音频数据库实现多种语言类型的混合合成，大大降低了训练数据采集的成本。同时，本申请实施例能够兼容已录制的单语种音频数据库，使得可用音色更为丰富。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性地示出了本申请技术方案在一个应用场景中的示例性***架构示意图。

图2示意性地示出了本申请技术方案在另一个应用场景中的示例性***架构以及定制化音频合成服务流程。

图3示意性地示出了本申请实施例中提供的音频信息合成方法的步骤流程图。

图4示意性地示出了本申请实施例中通过多路编码器进行编码处理的方法步骤流程图。

图5示意性地示出了本申请实施例中基于注意力机制(Attention)进行编码处理的方法步骤流程图。

图6示意性地示出了基于本申请实施例实现对中英混合文本进行音频信息合成的原理示意图。

图7示意性地示出了本申请实施例中音频信息合成装置的组成框图。

图8示意性地示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在对本申请提供的音频信息合成方法、音频信息合成装置、计算机可读介质以及电子设备等技术方案进行说明之前，首先对本申请技术方案中涉及的云技术和人工智能技术做简要说明。

云计算(Cloud Computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请应用场景广泛，可以将多个语种类型混合的音频合成方案配置为云服务，作为一种基础技术赋能于使用该云服务的用户，也可将该方案用于垂直领域下的个性化场景。例如，可以应用于阅读类APP智能朗读、智能客服、新闻播报、智能设备交互等场景，实现在各种场景下的智能化音频合成。

如图1所示，***架构100可以包括客户端110、网络120和服务端130。客户端110可以包括智能手机、智能机器人、智能音箱、平板电脑、笔记本电脑、台式电脑等各种终端设备。服务端130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。网络120可以是能够在客户端110和服务端130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路、无线通信链路等等。

根据实现需要，本申请实施例提供的技术方案可以应用于客户端110，也可以应用于服务端130，或者可以由客户端110和服务端130共同实施，本申请对此不做特殊限定。

举例而言，智能机器人、智能手机等各种智能设备均可通过无线网络接入到云服务器上的混合语种音频合成服务，如中英混合语音合成服务。客户端110将需要合成的中英混合文本通过网络120发送至服务端130，服务端130进行快速合成后，可通过流式或整句返回的形式，向客户端110发送对应的合成音频。一次完整的语音合成流程例如可以包括：

客户端110将需要合成的中英混合文本上传至服务端130，服务端130接收到文本后进行相应的规整化处理；

服务端130将规整化后的文本信息输入到中英混合语音合成***中，快速合成出文本对应的音频，并完成音频压缩等后处理操作；

服务端130通过流式或整句返回的方式将音频返回到客户端110，客户端110在接收到音频后可对其进行流畅自然的语音播放。

在以上语音合成过程中，服务端130提供的语音合成服务延迟很小，客户端110基本可以立即获得返回结果。用户可以在短时间内听到所需内容，解放双眼，交互自然便捷。

图2示意性地示出了本申请技术方案在另一个应用场景中的示例性***架构以及定制化音频合成服务流程。该***架构及流程主要是应用于小说朗读、新闻播报等需要定制专属音色语音合成服务的垂直领域中。

在该***架构下实现定制化音频合成服务的流程主要可以包括：

前端需求方210提交其产品所需语音合成的音色需求清单，如发音人性别，音色类型等各种需求。

后台服务方220收到需求方的清单后，根据所需音色情况采集音频数据库，训练对应的音频合成模型230。

后台服务方220利用音频合成模型230合成样例，在将样例交付给前端需求方210检验确认后，可以将定制得到的音频合成模型230部署上线；

前端需求方210的应用程序(如阅读类APP，新闻客户端等)将需要合成音频的文本发送至后台服务方220上部署的音频合成模型230；

前端需求方210的用户可以在应用程序中听到用对应的定制音色朗读的文本内容，具体的音频合成流程与图1所示***架构中使用的在线合成服务相同。

在该应用场景中，前端需求方210在提供需求后，后台服务方220仅需采集符合需求的一种语言类型(如中文)发音人音频数据库并结合原有的其他发音人在另一种语言类型(如英文)的音频数据库进行语种混合的音频合成模型230的定制化训练，最终以满足前端需求方210要求的音色进行语种混合音频合成，大大降低了定制音频合成服务的成本。

下面结合具体实施方式对本申请提供的技术方案做出详细说明。

图3示意性地示出了本申请实施例中提供的音频信息合成方法的步骤流程图。该音频信息合成方法的执行主体可以是作为客户端的智能手机、智能音箱等各种终端设备，也可以是作为服务端的物理服务器、云服务器等各种服务器设备。如图3所示，该音频信息合成方法主要可以包括以下步骤S310～步骤S340：

步骤S310.获取包括至少两个语种类型的混合语种文本信息。

混合语种文本信息由任意数量的文本字符组成，其中各个文本字符对应于至少两个不同的语种类型。例如，混合语种文本信息可以是由中文字符和英文字符混合组成的文本。本步骤可以通过实时接收的方式获取用户通过输入设备输入的混合语种文本信息，也可以通过逐项采集的方式从文本信息的存储文件中逐句或者逐段地提取混合语种文本信息。除此之外，本步骤还可以通过对用户输入的包含两种或者两种以上不同语种类型的语音信息进行语音识别，基于语音识别结果得到包括至少两个语种类型的混合语种文本信息；例如，本步骤可以通过预先训练的语音识别模型对接收到的语音信息进行语音识别处理得到相应的文本信息，再经过后续步骤对文本信息进行音频合成，整体上达到音色转换的效果，实现对一个或者多个说话人进行音色统一的变声处理。

步骤S320.基于至少两个语种类型对混合语种文本信息进行文本编码处理以得到混合语种文本信息的中间语义编码特征。

本步骤可以利用预先训练的编码器(encoder)对混合语种文本信息进行文本编码处理，得到与该文本信息的自然语义相关的中间语义编码特征。其中，编码器的数量和类型可以与混合语种文本信息中的语种类型一一对应，例如混合语种文本信息中同时包含了中文字符和英文字符，那么本步骤可以利用中文和英文两路编码器对混合语种文本信息进行文本编码处理，得到中间语义编码特征，然后中间语义编码特征可以在后续步骤中再通过与编码器相对应的解码器(decoder)进行解码处理，并最终形成可供用户理解的具有音频形式的自然语言。

编码器可以是基于卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短时记忆网络(Long Short-Term Memory，LSTM)或者循环门单元(Gate Recurrent Unit，GRU)等各种类型的神经网络训练得到的模型。CNN是一种前馈神经网络，其神经元可对感受野内的单元进行响应；CNN通常由多个卷积层和顶端的全连接层组成，其通过共享参数降低模型的参数量，使之在图像和语音识别方面得到广泛应用。RNN是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(Recursive NeuralNetwork)。LSTM是一种循环神经网络，它在算法中加入了一个判断信息有用与否的单元，一个单元中放置了输入门、遗忘门和输出门；信息进入LSTM后，根据规则来判断是否有用，符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘；LSTM适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。GRU是循环神经网络的一种，和LSTM一样，GRU也是为了解决长期记忆和反向传播中的梯度等问题而提出的；与LSTM相比，GRU内部少了一个“门控”，参数比LSTM少，在多数情况下能够达到与LSTM相当的效果并有效降低计算耗时。

步骤S330.获取对应于目标音色主体的目标音色特征，并基于目标音色特征对中间语义编码特征进行解码处理以得到声学特征。

目标音色主体是用于确定合成音频信息音色特点的主体对象，该主体对象可以是通过采集声音样本形成音频数据库的说话人。在一些实施例中，目标音色主体可以是真实的实体对象，例如可以是具有明显音色特点的主播、配音演员等真实人物；另外，目标音色主体也可以是由计算机模拟合成的虚拟对象，例如可以是利用语音合成软件VOCALOID生成的初音未来、洛天依等虚拟人物。

本步骤可以预先获取用户需求的音色特点，如男声、情感类发声等等，然后选取符合这些音色特点的目标音色主体。针对一个确定的目标音色主体，可以通过特征提取或者映射等方式获取能够体现和标识其音色特点的目标音色特征。然后基于该目标音色特征可以利用预先训练的解码器对步骤S320得到的中间语义编码特征进行解码处理，以得到相应的声学特征。声学特征例如可以是以频谱(Spectrograms)或者其他形式呈现的具有音色特点和声音内容的特征。频谱是指一个时域的信号在频域下的表示方式，可以针对声音信号进行傅里叶变换而得，所得的结果是分别以幅度及相位为纵轴、频率为横轴的两种图像，语音合成技术应用中多会省略相位的信息，而只保留不同频率下对应的幅度信息。

步骤S340.对声学特征进行声学编码处理以得到与混合语种文本信息相对应的音频信息。

本步骤可以将声学特征输入至声码器(Vocoder)，通过声码器对其进行转换处理后形成可以通过扬声器等音频输出设备进行输出播放的音频信息。声码器源自人声编码器(Voice Encoder)的缩写，也被称作语音信号分析合成***，声码器的作用便是将声学特征转换为声音。

在本申请实施例提供的音频信息合成方法中，通过基于多种语言类型的编码器对混合语种文本信息进行编码处理，并通过结合目标音色主体的解码器对编码信息进行解码处理，可以转换形成对应于单一音色和多个语种类型的音频信息。解决了现有混合语种音频合成技术中存在的因语种差异而出现的音色跳变问题，可稳定输出自然顺畅且音色统一的混合语种音频。本申请实施例既可部署于云端为各种设备提供通用合成服务，也可根据不同应用自身需求定制专属音色。由于可以使用不同目标音色主体的单语种音频数据库实现中英混合合成，大大降低了训练数据采集的成本。同时，本申请实施例能够兼容已录制的单语种音频数据库，使得可用音色更为丰富。

下面结合图4至图5对以上实施例中部分步骤的实现方式做出详细说明。

图4示意性地示出了本申请实施例中通过多路编码器进行编码处理的方法步骤流程图。如图4所示，在以上实施例的基础上，步骤S320.基于至少两个语种类型对混合语种文本信息进行编码处理以得到混合语种文本信息的中间语义编码特征，可以包括以下步骤S410～步骤S430：

步骤S410.通过与各个语种类型相对应的单语种文本编码器分别对混合语种文本信息进行文本编码处理以得到混合语种文本信息的至少两个单语种编码特征。

本步骤可以预先对混合语种文本信息进行映射变换，形成编码器可识别的向量特征。映射变换方式例如可以是通过与各个语种类型相对应的字符嵌入矩阵分别对混合语种文本信息进行映射变换处理以得到混合语种文本信息的至少两个嵌入字符特征。字符嵌入矩阵的数量和类型可以与语种类型一一对应，例如，混合语种文本信息中同时包含中文字符和英文字符，那么本步骤可以通过对应于中文字符的字符嵌入矩阵对混合语种文本信息进行映射变换处理以得到对应于中文字符的嵌入字符特征，同时可以通过对应于英文字符的字符嵌入矩阵对混合语种文本信息进行映射变换处理以得到对应于英文字符的嵌入字符特征。通过字符嵌入矩阵可以先对混合语种文本信息进行线性映射，然后再利用激活函数或者其他方式对其进行非线性变换得到相应的嵌入字符特征。

在混合语种文本信息中存在几个语种类型，那么本步骤便可以使用几个相应的单语种文本编码器。通过与各个语种类型相对应的单语种文本编码器分别对嵌入字符特征进行编码处理可以得到混合语种文本信息的至少两个单语种编码特征。例如，混合语种文本信息中同时包含中文字符和英文字符，在得到相应的嵌入字符特征后，可以通过对应于中文语种的单语种文本编码器对嵌入字符特征进行编码处理得到对应于中文语种的单语种编码特征，同时可以通过对应于英文语种的单语种文本编码器对嵌入字符特征进行编码处理得到对应于英文语种的单语种编码特征。

本申请实施例中使用的单语种文本编码器可以是具有残差网络结构的编码器，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。在此基础上，可以通过与各个语种类型相对应的单语种文本编码器分别对嵌入字符特征进行残差编码以得到混合语种文本信息的至少两个残差编码特征；然后将嵌入字符特征分别与各个残差编码特征进行融合处理以得到混合语种文本信息的至少两个单语种编码特征。

残差编码特征是编码器输入数据和输出数据的差异部分，将残差编码特征与输入的嵌入字符特征进行融合即可得到输出的单语种编码特征，这里的融合方式可以是将残差编码特征与嵌入字符特征直接相加。基于残差网络结构的编码方式对编码输出数据的数据变化具有更强的敏感性，在训练过程中，编码输出数据的数据变化对网络权重的调整作用更大，因此能够获得更好的训练效果。

步骤S420.对至少两个单语种编码特征进行融合处理以得到混合语种文本信息的混合语种编码特征。

由各个单语种文本编码器输出得到的单语种编码特征可以通过融合处理得到混合语种文本信息的混合语种编码特征。例如，对于两个单语种编码特征，可以对其进行向量计算，如通过直接相加的方式得到混合语种编码特征。另外，也可以将两个单语种编码特征进行拼接处理，并通过全连接层或者其他网络结构进行映射处理后得到混合语种编码特征。本申请实施例对此不做特殊限定。

在本申请的一些实施例中，可以基于残差网络结构在对应于不同语种类型的单语种文本编码器中分别对各个残差编码特征与嵌入字符特征进行融合处理得到单语种编码特征，然后再对单语种编码特征进行融合处理得到混合语种文本信息的混合语种编码特征。

在本申请的另外一些实施例中，也可以基于残差网络结构在对应于不同语种类型的单语种编码器中仅对各个嵌入字符特征进行残差编码得到残差编码特征，亦即直接以残差编码特征作为各个单语种文本编码器输出的单语种编码特征，然后将各个单语种编码特征再共同与嵌入字符特征进行融合处理以得到混合语种文本信息的混合语种编码特征，这种处理方式相比于上一种实施方式可以减少一次融合处理，从而可以提交计算效率、节约计算成本。

步骤S430.根据混合语种编码特征确定混合语种文本信息的中间语义编码特征。

在本申请的一些实施例中，可以直接将混合语种编码特征确定为混合语种文本信息的中间语义编码特征，也可以通过预设函数对混合语种编码特征进行变换处理后得到中间语义编码特征。

在本申请的另一些实施例中，可以向混合语种文本信息中嵌入语种类型的标识信息以得到混合语种文本信息的中间语义编码特征。

举例而言，本步骤可以通过基于至少两个语种类型的语种嵌入矩阵对混合语种文本信息进行映射变换处理以得到混合语种文本信息的嵌入语种特征；然后，对混合语种编码特征和嵌入语种特征进行融合处理以得到混合语种文本信息的中间语义编码特征。

通过语种嵌入矩阵对混合语种文本信息进行的映射变换处理可以是按照语种嵌入矩阵中预设的矩阵参数对混合语种文本信息进行线性映射，然后在通过激活函数或者其他方式对其进行非线性变换，从而得到相应的嵌入语种特征。例如，混合语种文本信息是一个具有一定字符数量的字符序列，那么对其进行映射变换后得到的嵌入语种特征可以是一个与该字符序列具有相同序列长度的特征向量，该特征向量中的每个元素分别对应表示字符序列中每个字符对应的语种类型。

对混合语种编码特征和嵌入语种特征进行的融合处理可以是对二者进行向量计算，如通过直接相加的方式得到混合语种文本信息的中间语义编码特征。另外，也可以对混合语种编码特征和嵌入语种特征进行拼接处理，然后再通过全连接层或者其他网络结构对其进行映射处理以得到混合语种文本信息的中间语义编码特征。

通过执行步骤S410～步骤S430，可以实现利用各个语种类型对应的单语种文本编码器通过不同语种的相互独立的符号集对混合语种文本信息进行的独立编码，并经过融合处理后得到包含语种类型信息的中间语义编码特征。

图5示意性地示出了本申请实施例中基于注意力机制(Attention)进行编码处理的方法步骤流程图。如图5所示，在以上各实施例的基础上，步骤S320.基于至少两个语种类型对混合语种文本信息进行编码处理以得到混合语种文本信息的中间语义编码特征，可以包括以下步骤S510～步骤S530：

步骤S510.基于至少两个语种类型对混合语种文本信息中的各个文本字符进行文本编码处理以得到对应于各个文本字符的字符编码特征。

混合语种文本信息是由多个文本字符组成的字符序列，在利用以上各实施例提供的编码方法对混合语种文本信息进行文本编码处理时，可以对其中的各个文本字符依次进行编码处理，得到与各个文本字符相对应的字符编码特征。

步骤S520.获取与各个文本字符相对应的注意力分配权重。

由于混合语种文本信息中的各个文本字符除了自身的字符语义差别之外，还存在其他多个方面的对语义编解码会产生影响的因素，因此本步骤可以根据不同维度的影响因素获取与各个文本字符相对应的注意力分配权重。

步骤S530.根据注意力分配权重对各个文本字符的字符编码特征进行加权映射以得到混合语种文本信息的中间语义编码特征。

注意力分配权重的大小决定了在编解码过程中每个文本字符的语义重要程度，因此根据注意力分配权重对各个文本字符的字符编码特征进行加权映射，可以提高得到中间语义编码特征的语义表达能力。

在本申请的一些实施例中，一个注意力维度可以是各个文本字符在混合语种文本信息中的序列位置信息。例如，本申请实施例可以先获取各个文本字符在混合语种文本信息中的序列位置信息，然后根据序列位置信息确定与各个文本字符相对应的位置注意力分配权重。

在此基础上，本申请实施例还可以获取各个文本字符的语种类型信息，然后根据语种类型信息确定与各个文本字符相对应的语种注意力分配权重，进而根据位置注意力分配权重和语种注意力分配权重确定与各个文本字符相对应的多重注意力分配权重。

在此基础上，本申请实施例还可以获取与各个文本字符相对应的目标音色主体的音色标识信息，然后根据音色标识信息确定与各个文本字符相对应的音色注意力分配权重，进而根据位置注意力分配权重、语种注意力分配权重以及音色注意力分配权重确定与各个文本字符相对应的多重注意力分配权重。

通过执行步骤S510～步骤S530，可以实现基于注意力机制的编码效果，尤其是通过多重注意力机制，可以将多种不同的影响因素引入到混合语种文本信息的编码过程中，提高编码结果的语义表达能力。

在步骤S330中，获取对应于目标音色主体的目标音色特征，并基于目标音色特征对中间语义编码特征进行解码处理以得到声学特征。

本步骤可以预先配置对应于不同音色主体的音频数据库，同时可以通过编号等方式为不同的音色主体分配相应的音色标识信息。本步骤可以先获取目标音色主体的音色标识信息，然后通过音色嵌入矩阵对音色标识信息进行映射变换处理以得到目标音色主体的目标音色特征。然后可以将目标音色特征和中间语义编码特征共同输入至解码器中，由解码器进行解码处理后得到具有目标音色主体的音色特点的声学特征。

在通过解码器进行解码处理时，也可以使用与以上实施例中的编码器相似的多重注意力机制，例如在步骤S320和步骤S330中可以使用基于注意力机制的RNN网络结构作为编码器-解码器模型实现对混合语种文本信息的编解码处理，另外也可以使用变形器(Transformer)作为编码器-解码器模型进行编解码处理，Transformer模型是基于全注意机制的网络结构，可以提高模型的并行能力。

在步骤S340.对声学特征进行声学编码处理以得到与混合语种文本信息相对应的音频信息之后，本申请实施例还可以获取利用目标音色主体的音色数据样本训练得到音色转换模型，然后通过音色转换模型对音频信息进行音色转换处理以得到对应于目标音色主体的音频信息。

通过训练音色转换模型，并利用音色转换模型对输出的音频信息再进行一次音色转换，可以在不增加数据采集成本的前提下，使得混合语种的音频音色更为统一。

图6示意性地示出了基于本申请实施例实现对中英混合文本进行音频信息合成的原理示意图。如图6所示，实现音频信息合成的整体***主要可以包括多路残差编码器610、语种嵌入生成器620、多重注意力机制模块630和说话人嵌入生成器640四个部分，另外还包括解码器650和声码器660等部分。

多路残差编码器610(Multipath-Res-Encoder)可以通过中英两路编码器对输入的混合语种文本进行残差编码并与输入的混合语种文本进行相加，得到文本编码表征(Encode Representation)，在增强文本编码表征的可区分性的同时降低了中英语种边界处的割裂。

语种嵌入生成器620可以通过语种嵌入(Language Embedding)对输入的混合语种文本的每个字符所属类别进行映射及非线性变换得到语种嵌入。这样一来，输入的每个字符都有对应的语种嵌入对其进行标明，与文本编码表征结合，可以进一步增强编码器输出的可区分性。

多重注意力机制模块630(Multi-Attention)除了关注文本编码表征之外，还要关注语种嵌入。注意力机制作为连接多路残差编码器610和解码器650的桥梁，准确地判断每个解码时刻需要关注编码中的哪个位置对最终合成质量起决定性作用。多重注意力机制既关注文本编码表征，对当前需要解码的内容有明确的认知。与此同时，还关注语种嵌入，对当前解码内容属于哪个语种有明确的判别。二者结合，能够使得解码更为稳定顺畅。

说话人嵌入生成器640(Speaker Embedding)将不同音频数据库所属的说话人序号，通过映射和非线性变换得到说话人嵌入信息，并参与到每一个解码时刻中。由于解码器650的作用是将文本编码表征转换为声学特征，对最终合成音频的音色起关键性作用。将说话人嵌入引入到每个解码时刻中，能有效地控制解码器650输出的音频特征属性，进而控制最终合成音频的音色为对应说话人的音色。

解码器650输出的声学特征在经过声码器660进行声音编码后即可得到与混合语种文本相对应的中文和英文混合的音频。该***包含了端到端学习带来的好处，并通过对模型编码端和解码端的精细化设计，保证了合成的中英混合音频自然顺畅且音色一致。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的音频信息合成方法。图7示意性地示出了本申请实施例中音频信息合成装置的组成框图。如图7所示，音频信息合成装置700主要可以包括：

信息获取模块710，被配置为获取包括至少两个语种类型的混合语种文本信息；

信息编码模块720，被配置为基于至少两个语种类型对混合语种文本信息进行文本编码处理以得到混合语种文本信息的中间语义编码特征；

信息解码模块730，被配置为获取对应于目标音色主体的目标音色特征，并基于目标音色特征对中间语义编码特征进行解码处理以得到声学特征；

声学编码模块740，被配置为对声学特征进行声学编码处理以得到与混合语种文本信息相对应的音频信息。

在本申请的一些实施例中，基于以上各实施例，信息编码模块720包括：

单语种编码单元，被配置为通过与各个语种类型相对应的单语种文本编码器分别对混合语种文本信息进行文本编码处理以得到混合语种文本信息的至少两个单语种编码特征；

编码特征融合单元，被配置为对至少两个单语种编码特征进行融合处理以得到混合语种文本信息的混合语种编码特征；

编码特征确定单元，被配置为根据混合语种编码特征确定混合语种文本信息的中间语义编码特征。

在本申请的一些实施例中，基于以上各实施例，单语种编码单元包括：

字符嵌入子单元，被配置为通过与各个语种类型相对应的字符嵌入矩阵分别对混合语种文本信息进行映射变换处理以得到混合语种文本信息的至少两个嵌入字符特征；

嵌入编码子单元，被配置为通过与各个语种类型相对应的单语种文本编码器分别对嵌入字符特征进行文本编码处理以得到混合语种文本信息的至少两个单语种编码特征。

在本申请的一些实施例中，基于以上各实施例，嵌入编码子单元包括：

残差编码子单元，被配置为通过与各个语种类型相对应的单语种文本编码器分别对嵌入字符特征进行残差编码以得到混合语种文本信息的至少两个残差编码特征；

残差融合子单元，被配置为将嵌入字符特征分别与各个残差编码特征进行融合处理以得到混合语种文本信息的至少两个单语种编码特征。

在本申请的一些实施例中，基于以上各实施例，单语种编码特征是对嵌入字符特征进行残差编码得到的残差编码特征；编码特征融合单元包括：

编码特征融合子单元，被配置为对至少两个单语种编码特征以及嵌入字符特征进行融合处理以得到混合语种文本信息的混合语种编码特征。

在本申请的一些实施例中，基于以上各实施例，编码特征确定单元包括：

语种嵌入子单元，被配置为通过基于至少两个语种类型的语种嵌入矩阵对混合语种文本信息进行映射变换处理以得到混合语种文本信息的嵌入语种特征；

语种融合子单元，被配置为对混合语种编码特征和嵌入语种特征进行融合处理以得到混合语种文本信息的中间语义编码特征。

字符编码单元，被配置为基于至少两个语种类型对混合语种文本信息中的各个文本字符进行文本编码处理以得到对应于各个文本字符的字符编码特征；

权重获取单元，被配置为获取与各个文本字符相对应的注意力分配权重；

特征加权单元，被配置为根据注意力分配权重对各个文本字符的字符编码特征进行加权映射以得到混合语种文本信息的中间语义编码特征。

在本申请的一些实施例中，基于以上各实施例，权重获取单元包括：

序列位置获取子单元，被配置为获取各个文本字符在混合语种文本信息中的序列位置信息；

第一权重确定子单元，被配置为根据序列位置信息确定与各个文本字符相对应的位置注意力分配权重。

在本申请的一些实施例中，基于以上各实施例，权重获取单元还包括：

语种类型获取子单元，被配置为获取各个文本字符的语种类型信息；

语种权重确定子单元，被配置为根据语种类型信息确定与各个文本字符相对应的语种注意力分配权重；

第二权重确定子单元，被配置为根据位置注意力分配权重和语种注意力分配权重确定与各个文本字符相对应的多重注意力分配权重。

在本申请的一些实施例中，基于以上各实施例，第二权重确定子单元包括：

音色标识获取子单元，被配置为获取与各个文本字符相对应的目标音色主体的音色标识信息；

音色权重确定子单元，被配置为根据音色标识信息确定与各个文本字符相对应的音色注意力分配权重；

第三权重确定子单元，被配置为根据位置注意力分配权重、语种注意力分配权重以及音色注意力分配权重确定与各个文本字符相对应的多重注意力分配权重。

在本申请的一些实施例中，基于以上各实施例，信息解码模块730包括：

音色标识嵌入单元，被配置为通过音色嵌入矩阵对音色标识信息进行映射变换处理以得到目标音色主体的目标音色特征。

在本申请的一些实施例中，基于以上各实施例，音频信息合成装置700还包括：

模型获取模块，被配置为获取利用目标音色主体的音色数据样本训练得到音色转换模型；

音色转换模块，被配置为通过音色转换模型对音频信息进行音色转换处理以得到对应于目标音色特征的音频信息。

本申请各实施例中提供的音频信息合成装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图8示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

需要说明的是，图8示出的电子设备的计算机***800仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机***800包括中央处理单元(Central Processing Unit，CPU)801，其可以根据存储在只读存储器(Read-Only Memory，ROM)802中的程序或者从存储部分808加载到随机访问存储器(Random Access Memory，RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有***操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output，I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的***中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种音频信息合成方法，其特征在于，包括：

获取包括至少两个语种类型的混合语种文本信息；

2.根据权利要求1所述的音频信息合成方法，其特征在于，所述基于所述至少两个语种类型对所述混合语种文本信息进行文本编码处理以得到所述混合语种文本信息的中间语义编码特征，包括：

通过与各个所述语种类型相对应的单语种文本编码器分别对所述混合语种文本信息进行文本编码处理以得到所述混合语种文本信息的至少两个单语种编码特征；

对所述至少两个单语种编码特征进行融合处理以得到所述混合语种文本信息的混合语种编码特征；

根据所述混合语种编码特征确定所述混合语种文本信息的中间语义编码特征。

3.根据权利要求2所述的音频信息合成方法，其特征在于，所述通过与各个所述语种类型相对应的单语种文本编码器分别对所述混合语种文本信息进行文本编码处理以得到所述混合语种文本信息的至少两个单语种编码特征，包括：

通过与各个所述语种类型相对应的字符嵌入矩阵分别对所述混合语种文本信息进行映射变换处理以得到所述混合语种文本信息的至少两个嵌入字符特征；

通过与各个所述语种类型相对应的单语种文本编码器分别对所述嵌入字符特征进行文本编码处理以得到所述混合语种文本信息的至少两个单语种编码特征。

4.根据权利要求3所述的音频信息合成方法，其特征在于，所述通过与各个所述语种类型相对应的单语种文本编码器分别对所述嵌入字符特征进行文本编码处理以得到所述混合语种文本信息的至少两个单语种编码特征，包括：

通过与各个所述语种类型相对应的单语种文本编码器分别对所述嵌入字符特征进行残差编码以得到所述混合语种文本信息的至少两个残差编码特征；

将所述嵌入字符特征分别与各个所述残差编码特征进行融合处理以得到所述混合语种文本信息的至少两个单语种编码特征。

5.根据权利要求3所述的音频信息合成方法，其特征在于，所述单语种编码特征是对所述嵌入字符特征进行残差编码得到的残差编码特征；所述对所述至少两个单语种编码特征进行融合处理以得到所述混合语种文本信息的混合语种编码特征，包括：

对所述至少两个单语种编码特征以及所述嵌入字符特征进行融合处理以得到所述混合语种文本信息的混合语种编码特征。

6.根据权利要求2所述的音频信息合成方法，其特征在于，所述根据所述混合语种编码特征确定所述混合语种文本信息的中间语义编码特征，包括：

通过基于所述至少两个语种类型的语种嵌入矩阵对所述混合语种文本信息进行映射变换处理以得到所述混合语种文本信息的嵌入语种特征；

对所述混合语种编码特征和所述嵌入语种特征进行融合处理以得到所述混合语种文本信息的中间语义编码特征。

7.根据权利要求1所述的音频信息合成方法，其特征在于，所述基于所述至少两个语种类型对所述混合语种文本信息进行文本编码处理以得到所述混合语种文本信息的中间语义编码特征，包括：

基于所述至少两个语种类型对所述混合语种文本信息中的各个文本字符进行文本编码处理以得到对应于各个所述文本字符的字符编码特征；

获取与各个所述文本字符相对应的注意力分配权重；

根据所述注意力分配权重对各个所述文本字符的字符编码特征进行加权映射以得到所述混合语种文本信息的中间语义编码特征。

8.根据权利要求7所述的音频信息合成方法，其特征在于，所述获取与各个所述文本字符相对应的注意力分配权重，包括：

获取各个所述文本字符在所述混合语种文本信息中的序列位置信息；

根据所述序列位置信息确定与各个所述文本字符相对应的位置注意力分配权重。

9.根据权利要求8所述的音频信息合成方法，其特征在于，所述获取与各个所述文本字符相对应的注意力分配权重，还包括：

获取各个所述文本字符的语种类型信息；

根据所述语种类型信息确定与各个所述文本字符相对应的语种注意力分配权重；

根据所述位置注意力分配权重和所述语种注意力分配权重确定与各个所述文本字符相对应的多重注意力分配权重。

10.根据权利要求9所述的音频信息合成方法，其特征在于，所述根据所述位置注意力分配权重和所述语种注意力分配权重确定与各个所述文本字符相对应的多重注意力分配权重，包括：

获取与各个所述文本字符相对应的目标音色主体的音色标识信息；

根据所述音色标识信息确定与各个所述文本字符相对应的音色注意力分配权重；

根据所述位置注意力分配权重、所述语种注意力分配权重以及所述音色注意力分配权重确定与各个所述文本字符相对应的多重注意力分配权重。

11.根据权利要求1所述的音频信息合成方法，其特征在于，所述获取对应于目标音色主体的目标音色特征，包括：

获取目标音色主体的音色标识信息；

通过音色嵌入矩阵对所述音色标识信息进行映射变换处理以得到所述目标音色主体的目标音色特征。

12.根据权利要求1所述的音频信息合成方法，其特征在于，在对所述声学特征进行声学编码处理以得到与所述混合语种文本信息相对应的音频信息之后，所述方法还包括：

获取利用所述目标音色主体的音色数据样本训练得到音色转换模型；

通过所述音色转换模型对所述音频信息进行音色转换处理以得到对应于所述目标音色主体的音频信息。

13.一种音频信息合成装置，其特征在于，包括：

14.一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至13中任意一项所述的音频信息合成方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的音频信息合成方法。