CN113191143B

CN113191143B - 多音字消歧和韵律控制联合方法、***以及电子设备

Info

Publication number: CN113191143B
Application number: CN202110568660.XA
Authority: CN
Inventors: 马明; 刘宇
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-09-16
Anticipated expiration: 2041-05-25
Also published as: CN113191143A

Abstract

本申请提供多音字消歧和韵律控制联合方法、***以及电子设备；获取待处理文本和其词性，转换为字符向量和词性向量并拼接得到成拼接向量；通过交替训练策略训练获取联合模型、第一组权重和第二组权重；联合模型包括第一神经网络和第二神经网络，通过联合模型对拼接向量进行编码，得到字符的第一句中编码和第二句中编码；按照第一组权重得到多音加权和，通过第一全连接层，得到多音字的读音概率分布；通过掩码去除多音字的读音概率分布中不正确的读音，得到最终读音预测；按照第二组权重得到韵律加权和，通过第二全连接层和条件随机场，得到韵律停顿等级。消除流式结构处理导致误差累积，提高文本转语音的计算速度。

Description

多音字消歧和韵律控制联合方法、***以及电子设备

技术领域

本申请涉及中文语音合成技术领域，尤其涉及一种多音字消歧和韵律控制联合方法、***以及电子设备。

背景技术

为了避免使用文本转语音技术所生成的多音字读音错误或语音过于平淡，使合成的语音更加准确且更加“拟人化”，往往会在处理过程中加入控制语音的多音字消歧和韵律停顿。

传统的处理方式中，文本转语音主要包括前端的文本/音素转换处理和后端的音素/语音信号转换处理两部分。后端的处理以声学特征为过度，用于实现端到端的训练与合成；而前端依次包括子句切分模型、文本正则模型、自然变调模型、多音字消歧模型和韵律预测模型，前端的处理是多模块构成的流式结构，如子句切分模型的输出作为文本正则模型的输入，其中子句切分模型、文本正则模型、自然变调模型通常可基于规则实现，而多音字消歧模型和韵律预测模型多为数据驱动的深度学习统计。

目前，通用的做法是在前端的处理中使用两个独立的多音字消歧模型和韵律预测模型分别实现多音字消歧和韵律预测，由于前端的各个模型之间为流式结构，通过流式结构处理导致各个模块误差产生累积，影响最终的语音合成效果。

发明内容

本申请提供了一种多音字消歧和韵律控制联合方法及***，可用于解决两个独立的多音字消歧和韵律预测模型计算量大、流式结构处理导致误差累积的技术问题。

第一方面，本申请提供一种多音字消歧和韵律控制联合方法，所述多音字消歧和韵律控制联合方法包括：

获取待处理文本，以及，文本的词性；

将所述待处理文本转换为字符向量，所述词性转换为词性向量；

将所述字符向量和所述词性向量拼接，得到拼接向量；

通过交替训练策略训练获取联合模型，以及第一组权重和第二组权重，所述联合模型具有多音字消歧分支和韵律预测分支，所述第一组权重对应所述多音字消歧分支，所述第二组权重对应所述韵律预测分支；

所述联合模型包括第一神经网络和第二神经网络，通过联合模型对所述拼接向量进行编码，将所述拼接向量传入所述第一神经网络得到第一句中编码，将所述拼接向量传入所述第二神经网络得到第二句中编码；

按照第一组权重将第一句中编码和第二句中编码求和，得到所述多音字消歧分支中拼接向量的多音加权和；

将所述多音加权和通过第一全连接层，得到多音字的读音概率分布；

通过掩码去除所述多音字的读音概率分布中不正确的读音，得到拼接向量的最终读音预测结果；

按照第二组权重将第一句中编码和第二句中编码求和，得到所述韵律预测分支中拼接向量的韵律加权和；

将所述韵律加权和通过第二全连接层和条件随机场，得到拼接向量的韵律停顿等级；

在通过交替训练策略训练获取联合模型时，第一组权重和第二组权重作为模型参数参与迭代更新；在训练多音字消歧分支时，第二全连层不参与参数更新；在训练韵律预测分支时，第一全连层不参与参数更新。

结合第一方面，在一种可能的实现方式中，通过交替训练策略训练获取联合模型，包括：

预训练多音字消歧分支，得到预训练权重；

将训练数据划分为多组数据；

通过单组数据和预训练权重依次训练所述多音字消歧分支和所述韵律预测分支，得到多音字误差和韵律误差；

当相邻两组的多音字误差和韵律误差均小于预设误差值时，得到联合模型。

结合第一方面，在一种可能的实现方式中，所述预训练多音字消歧分支，包括：将训练数据根据预设值迭代训练。

结合第一方面，在一种可能的实现方式中，所述多音字消歧和韵律控制联合方法还包括：

根据韵律停顿等级确定停顿类型，所述停顿类型包括短停顿和一般停顿。

结合第一方面，在一种可能的实现方式中，所述停顿类型通过韵律停顿等级得到的分数值确定，所述分数值score与韵律停顿等级L的关系如下：

score＝(N-p)×w+L

式中，p是惩罚参数，N为当前累积的无停顿字数，w是累计无静音长度的权重，L为停顿等级；

若分数值score大于等于第一阈值时，***一般停顿；若分数值score小于第一阈值且大于等于第二阈值时，***短停顿。

结合第一方面，在一种可能的实现方式中，将所述多音加权和通过第一全连接层，得到多音字的读音概率分布，包括；

将所述多音加权和通过第一全连接层，得到第一关键特征；

根据第一关键特征，得到多音字的读音概率分布。

结合第一方面，在一种可能的实现方式中，将所述韵律加权和通过第二全连接层，包括：

将所述韵律加权和通过第二全连接层，得到第二关键特征，所述第二关键特征为条件随机场的输入项。

结合第一方面，在一种可能的实现方式中，所述第一神经网络为双向长短记忆神经网络，所述第二神经网络为卷积神经网络。

由以上技术方案可知，本申请提供一种多音字消歧和韵律控制联合方法，所述多音字消歧和韵律控制联合方法包括：获取获取待处理文本和文本的词性；将所述待处理文本转换为字符向量，所述词性转换为词性向量；将所述字符向量和所述词性向量拼接，得到拼接向量；通过联合模型对所述拼接向量进行编码，得到字符的第一句中编码和第二句中编码；其中，所述联合模型包括第一神经网络和第二神经网络，且具有多音字消歧分支和韵律预测分支；所述联合模型通过交替训练策略训练获得，且得到所述多音字消歧分支对应的第一组权重和所述韵律预测分支对应的第二组权重；在多音字消歧分支中，按照第一组权重将第一句中编码和第二句中编码求和，得到多音加权和；将所述多音加权和通过第一全连接层，得到多音字的读音概率分布；通过掩码去除所述多音字的读音概率分布中不正确的读音，得到最终读音预测结果；在韵律预测分支中，按照第二组权重将第一句中编码和第二句中编码求和，得到韵律加权和；将所述韵律加权和通过第二全连接层和条件随机场，得到韵律停顿等级。消除流式结构处理导致误差累积，提高文本转语音的计算速度。

第二方面，本申请还提供一种多音字消歧和韵律控制联合***，包括：

数据输入单元，用于获取待处理文本和文本的词性，将所述待处理文本转换为字符向量，所述词性转换为词性向量；

向量频接单元，用于将所述字符向量和所述词性向量拼接，得到拼接向量；

联合模型控制单元，用于通过交替训练策略训练获取联合模型，以及第一组权重和第二组权重，第一组权重和第二组权重作为模型参数参与迭代更新，所述联合模型具有多音字消歧分支和韵律预测分支，所述第一组权重对应所述多音字消歧分支，所述第二组权重对应所述韵律预测分支；所述联合模型包括第一神经网络和第二神经网络，通过联合模型对所述拼接向量进行编码，将所述拼接向量传入所述第一神经网络得到第一句中编码，将所述拼接向量传入所述第二神经网络得到第二句中编码；

联合模型控制单元包括多音字消歧分支子单元和韵律预测分支子单元；

多音字消歧分支子单元，用于按照第一组权重将第一句中编码和第二句中编码求和，得到所述多音字消歧分支中拼接向量的多音加权和；将所述多音加权和通过第一全连接层，得到多音字的读音概率分布；通过掩码去除所述多音字的读音概率分布中不正确的读音，得到拼接向量的最终读音预测结果；

韵律预测分支子单元，用于按照第二组权重将第一句中编码和第二句中编码求和，得到所述韵律预测分支中拼接向量的韵律加权和；将所述韵律加权和通过第二全连接层和条件随机场，得到拼接向量的韵律停顿等级；在训练多音字消歧分支时，第二全连层不参与参数更新；在训练韵律预测分支时，第一全连层不参与参数更新。

由以上技术方案可知，本申请提供一种多音字消歧和韵律控制联合***，包括：数据输入单元用于获取待处理文本和文本的词性，将所述待处理文本转换为字符向量，所述词性转换为词性向量；向量频接单元用于将所述字符向量和所述词性向量拼接，得到拼接向量；联合模型控制单元用于通过联合模型对所述拼接向量进行编码，得到字符的第一句中编码和第二句中编码；其中，所述联合模型包括第一神经网络和第二神经网络，且具有多音字消歧分支和韵律预测分支；所述联合模型通过交替训练策略训练获得，且得到所述多音字消歧分支对应的第一组权重和所述韵律预测分支对应的第二组权重；多音字消歧分支单元用于按照第一组权重将第一句中编码和第二句中编码求和，得到多音加权和；将所述多音加权和通过第一全连接层，得到多音字的读音概率分布；通过掩码去除所述多音字的读音概率分布中不正确的读音，得到最终读音预测结果；韵律预测分支单元用于按照第二组权重将第一句中编码和第二句中编码求和，得到韵律加权和；将所述韵律加权和通过第二全连接层和条件随机场，得到韵律停顿等级。消除流式结构处理导致误差累积，提高文本转语音的计算速度。

第三方面，本申请还提供一种电子设备，所述电子设备包括存储器和处理器，所述处理器与所述存储器通信连接，所述处理器被配置为调用所述存储器中的程序指令，以执行第一方面多音字消歧和韵律控制联合方法。

由以上技术方案可知，本申请提供一种电子设备，所述电子设备包括存储器和处理器，所述处理器与所述存储器通信连接，所述处理器被配置为调用所述存储器中的程序指令，以执行第一方面多音字消歧和韵律控制联合方法。消除流式结构处理导致误差累积，提高文本转语音的计算速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种多音字消歧和韵律控制联合方法的流程示意图；

图2为本申请实施例中交替训练策略训练联合模型的流程示意图；

图3为本申请实施例中通过停顿等级得到停顿时长的流程示意图；

图4为本申请实施例中种多音字消歧和韵律控制联合***的结构示意图；

图5为本申请实施例中电子设备的结构示意图；

图6为本申请实施例中电子设备的软件架构示意图。

具体实施方式

为使本申请示例性实施例的目的、技术方案和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施例中的技术方案进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请中示出的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。

应当理解，本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本说明书通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等，意味着结合该实施例描述的具体特征、结构或特性包括在至少一个实施例中。因此，本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、结构或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、结构或特性可全部或部分地与一个或多个其他实施例的特征、结构或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。

如图1所示，本申请的部分实施例中提供一种多音字消歧和韵律控制联合方法，包括以下步骤：

S1：获取待处理文本，以及，文本的词性。

获取待处理文本，提取待处理文本的词性。

S2：将所述待处理文本转换为字符向量，所述词性转换为词性向量。

实际应用中，将文本嵌入向量空间得到字符向量，将词性嵌入向量空间得到词性向量，词性嵌入为随机生成。通过将一个字符表示为一个向量，每个字符的向量不同。将文字采用向量空间模型表示。

S3：将所述字符向量和所述词性向量拼接，得到拼接向量。

通过首尾相连将所述字符向量和所述词性向量拼接进行拼接，拼接后的拼接向量作为联合模型的输入。

S4：通过交替训练策略训练获取联合模型，以及，所述多音字消歧分支对应的第一组权重和所述韵律预测分支对应的第二组权重。

所述联合模型包括第一神经网络和第二神经网络，且具有多音字消歧分支和韵律预测分支；所述联合模型通过交替训练策略训练获得，且得到所述多音字消歧分支对应的第一组权重和所述韵律预测分支对应的第二组权重。

实际应用中，建立计算模型，通过数据求解参数，本申请的联合模型为数据驱动模型，通过神经网络驱动；现有基于深度神经的模型训练多通过误差反向传递来求解模型参数。

在一些具体的实施例中，第一神经网络采为双向长短记忆神经网络(Bi-LSTM)，第二神经网络为卷积神经网络(CNN)。Bi-LSTM和CNN是文本处理中两种常用结构，对于单独的多音字消歧模型和韵律预测模型，都需要用到Bi-LSTM和CNN结构，而Bi-LSTM和CNN的计算量非常大，本申请通过联合模型，通过一套基于Bi-LSTM和CNN的联合模型对文本进行编码。由于多音字消歧和韵律预测所需的信息并不完全相同，不能确定两个分支对长距离信息和局部信息的依赖程度，本申请通过训练来求取两个分支任务各自的权重，即第一组权重和第二组权重。在训练时，权重将作为模型参数参与迭代更新。

S5：通过联合模型对所述拼接向量进行编码，得到字符的第一句中编码和第二句中编码。

所述字符的第一句中编码通过第一神经网络所述拼接向量进行编码获得；字符的第二句中编码通过第二神经网络所述拼接向量进行编码获得。在一些具体的实施例中，将拼接向量传入Bi-LSTM得到字符的第一句中编码，将拼接向量传入CNN得到字符的第二句中编码。

S6：按照第一组权重将第一句中编码和第二句中编码求和，得到所述多音字消歧分支中拼接向量的多音加权和。

在一些实施例中，所述多音字消歧分支对应的第一组权重，所述第一组权重包括对应于不用神经网络得到的权重值，通过Bi-LSTM和CNN分别得到的权重值构成第一组权重，分别按照第一组权重将Bi-LSTM得到字符的第一句中编码和CNN得到字符的第二句中编码求和，得到多音加权和。

S7：将所述多音加权和通过第一全连接层，得到多音字的读音概率分布。

将所述多音加权和通过第一全连接层，得到第一关键特征；根据第一关键特征，得到多音字的读音概率分布。第一全连接层是指神经网络，即线性变换后接非线性激活函数。

S8：通过掩码去除所述多音字的读音概率分布中不正确的读音，得到拼接向量的最终读音预测结果。

掩码(mask)是多音字消歧分支最终会输出一个分布，即每种读音的概率。但是我们已经知道了这个汉字，例如，“中”，它可能的读音只有“zhong1”和“zhong4”，因此需要把其它的读音屏蔽掉。在一些实施方式中，对于多音字中读音概率分布中不正确的读音的去除方法，可以是通过排除法等。

S9：按照第二组权重将第一句中编码和第二句中编码求和，得到所述韵律预测分支中拼接向量的韵律加权和；

在一些实施例中，所述韵律预测分支对应的第二组权重，所述第二组权重包括对应于不用神经网络得到的权重值，通过Bi-LSTM和CNN分别得到的权重值构成第二组权重，分别按照第二组权重将Bi-LSTM得到字符的第一句中编码和CNN得到字符的第二句中编码求和，得到韵律加权和。

S10：将所述韵律加权和通过第二全连接层和条件随机场，得到拼接向量的韵律停顿等级。

将所述韵律加权和通过第二全连接层，得到第二关键特征；根据第二关键特征，所述第二关键特征通过条件随机场(CRF)得到拼接向量的韵律停顿等级。第二全连接层是指神经网络，即线性变换后接非线性激活函数。第一第二全连接层和第二全连接层为不同的全连接层。

例如，条件随机场是一种序列标注算法，能够充分考虑全句信息，此处选用CRF的目的是避免不符合常理的结果，比方说连续的停顿。

由以上技术方案可知，本申请提供一种多音字消歧和韵律控制联合方法，包括获取待处理文本和文本的词性；将所述待处理文本转换为字符向量，所述词性转换为词性向量；将所述字符向量和所述词性向量拼接，得到拼接向量；通过联合模型对所述拼接向量进行编码，得到字符的第一句中编码和第二句中编码；其中，所述联合模型包括第一神经网络和第二神经网络，且具有多音字消歧分支和韵律预测分支；所述联合模型通过交替训练策略训练获得，且得到所述多音字消歧分支对应的第一组权重和所述韵律预测分支对应的第二组权重；当在多音字消歧分支时，按照第一组权重将第一句中编码和第二句中编码求和，得到多音加权和；将所述多音加权和通过第一全连接层，得到多音字的读音概率分布；通过掩码去除所述多音字的读音概率分布中不正确的读音，得到最终读音预测结果；当在韵律预测分支时，按照第二组权重将第一句中编码和第二句中编码求和，得到韵律加权和；将所述韵律加权和通过第二全连接层和条件随机场，得到韵律停顿等级。消除流式结构处理导致误差累积，提高文本转语音的计算速度。

在一种实现方式中，多音字消歧和韵律预测两个难度不同，多音字预测需要充分理解语义，以消除读音的歧义，较难训练，而韵律预测模型可以通过词性，较容易地判断出韵律边界。因此，如图2所示，通过有侧重的交替训练策略训练联合模型，包括如下步骤：

S301：预训练多音字消歧分支，得到预训练权重。

实际应用中，多音字消歧的难度大于韵律预测，因此先对多音字消歧分支进行预训练，将训练数据根据预设值迭代训练。例如，预设值为5次，将训练数据迭代5次，其中，每次训练得到的权重，作为参数参与下一次训练。

S302：将训练数据划分为多组数据。

在训练联合模型中，训练数据包括多音字标注数据和韵律预测数据，将训练数据划分为多组数据，可以是10句为一组，也可以是20句为一组。每组的数据量，通过不断地训练得到。

S303：通过单组数据和预训练权重依次训练所述多音字消歧分支和所述韵律预测分支，得到多音字误差和韵律误差。

判定多音字误差和韵律误差与预设误差值的大小，当相邻两组的多音字误差和韵律误差均小于预设误差值时，S304：得到联合模型。当相邻两组的多音字误差和韵律误差有一个不满足小于预设误差值时，重复步骤S303。

在一种实现方式中，在训练多音字消歧分支时，韵律预测分支的全连层不参与参数更新，同理在训练韵律预测分支时，多音字消歧分支的全连层不参与参数更新。通过有侧重的交替训练策略训练联合模型，消除流式结构处理导致误差累积，提高文本转语音的计算速度。

得到拼接向量的韵律停顿等级之后，需要对停顿的时长进行判定和设定，在一种可能的实现方式中，根据韵律停顿等级确定停顿类型，所述停顿类型包括短停顿(SP)和一般停顿(NP)。

实际应用中，所述停顿类型通过韵律停顿等级得到的分数值确定，停顿等级L包括0-4五个停顿等级，结合当前累计的无停顿字数N，所述分数值score与韵律停顿等级L的关系如下：

score＝(N-p)×w+L

式中，p是惩罚参数，N为当前累积的无停顿字数，w是累计无静音长度的权重，L为停顿等级；其中，p为正整数，当N小于p这个参数时，会使得分数值score变小；w为正实数，惩罚参数p和累计无静音长度的权重w根据实际情况进行调节。在一些实施例中，如图3所示，惩罚参数p可以设为0-6，累计无静音长度的权重w可以设为0.1，若分数值score大于等于3.5时，***一般停顿(NP)；若分数值score小于3.5且大于等于2时，***短停顿(SP)。

本申请通过***长短不同的停顿来控制韵律，实际应用中，可以设定短停顿(SP)小于0.05秒，一般停顿(NP)大于等于0.05秒，通过联合模型中的韵律预测分支输出的停顿等级通过公式，转换为停顿类型；公式中考虑累计无停顿字数，使得当说了很多字时，就尽量停顿；当刚刚停顿完，就尽量不停顿，使得合成的语音更加自然。

本申请还提供一种多音字消歧和韵律控制联合***，如图4所示，所述***包括数据输入单元、向量频接单元和联合模型控制单元，所述联合模型控制单元包括多音字消歧分支子单元和韵律预测分支子单元。

联合模型控制单元，用于通过交替训练策略训练获取联合模型，以及第一组权重和第二组权重，所述联合模型具有多音字消歧分支和韵律预测分支，所述第一组权重对应所述多音字消歧分支，所述第二组权重对应所述韵律预测分支；所述联合模型包括第一神经网络和第二神经网络，通过联合模型对所述拼接向量进行编码，通过所述第一神经网络得到第一句中编码，通过所述第二神经网络得到第二句中编码；

韵律预测分支子单元，用于按照第二组权重将第一句中编码和第二句中编码求和，得到所述韵律预测分支中拼接向量的韵律加权和；将所述韵律加权和通过第二全连接层和条件随机场，得到拼接向量的韵律停顿等级。

由以上技术方案可知，本申请提供一种多音字消歧和韵律控制联合***，所述***包括数据输入单元、向量频接单元和联合模型控制单元，所述联合模型控制单元包括多音字消歧分支子单元和韵律预测分支子单元。通过多音字消歧和韵律控制联合联合***，消除流式结构处理导致误差累积，提高文本转语音的计算速度。

本申请的部分实施例中还提供一种电子设备，用于执行多音字消歧和韵律控制联合方法。

在一些实施例中，所述电子设备可以包括手机、平板电脑、计算机、笔记本电脑，AR/VR设备等中的任意一种。

如图5示出了电子设备的结构示意图。

下面以电子设备为例对实施例进行具体说明。应该理解的是，图5所示电子设备仅是一个范例，并且电子设备可以具有比图5中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

如图5所示，电子设备包括：射频(radio frequency，RF)电路110、存储器120、显示单元130、摄像头140、传感器150、音频电路160、无线保真(Wireless Fidelity，Wi-Fi)电路170、处理器180、蓝牙电路181、以及电源190等部件。

RF电路110可用于在收发信息或通话过程中信号的接收和发送，可以接收基站的下行数据后交给处理器180处理；可以将上行数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等器件。

存储器120可用于存储软件程序及数据。处理器180通过运行存储在存储器120的软件程序或数据，从而执行电子设备的各种功能以及数据处理。存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器120存储有使得电子设备能运行的操作***。本申请中存储器120可以存储操作***及各种应用程序，还可以存储执行本申请实施例所述方法的代码。

显示单元130可用于接收输入的数字或字符信息，产生与电子设备的用户设置以及功能控制有关的信号输入，具体地，显示单元130可以包括设置在电子设备正面的触摸屏131，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

显示单元130还可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种菜单的图形用户界面(graphical user interface，GUI)。具体地，显示单元130可以包括设置在电子设备正面的显示屏132。其中，显示屏132可以采用液晶显示器、发光二极管等形式来配置。显示单元130可以用于显示本申请中所述的各种图形用户界面。

其中，触摸屏131可以覆盖在显示屏132之上，也可以将触摸屏131与显示屏132集成而实现电子设备的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元130可以显示应用程序以及对应的操作步骤。

摄像头140可用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器180转换成数字图像信号。

电子设备还可以包括至少一种传感器150，比如加速度传感器151、距离传感器152、指纹传感器153、温度传感器154。电子设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路160、扬声器161、麦克风162可提供用户与电子设备之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出。电子设备还可配置音量按钮，用于调节声音信号的音量。另一方面，麦克风162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出至RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。本申请中麦克风162可以获取用户的语音。

Wi-Fi属于短距离无线传输技术，电子设备可以通过Wi-Fi电路170帮助用户收发电子邮件、浏览网页和访问流媒体等，它为用户提供了无线的宽带互联网访问。

处理器180是电子设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序，以及调用存储在存储器120内的数据，执行电子设备的各种功能和处理数据。在一些实施例中，处理器180可包括一个或多个处理单元；处理器180还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器180中。本申请中处理器180可以运行操作***、应用程序、用户界面显示及触控响应，以及本申请实施例所述的处理方法。另外，处理器180与输入单元130和显示单元140耦接。

蓝牙电路181，用于通过蓝牙协议来与其他具有蓝牙电路的蓝牙设备进行信息交互。例如，电子设备可以通过蓝牙电路181与同样具备蓝牙电路的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

电子设备还包括给各个部件供电的电源190(比如电池)。电源可以通过电源管理***与处理器180逻辑相连，从而通过电源管理***实现管理充电、放电以及功耗等功能。电子设备还可配置有电源按钮，用于终端的开机和关机，以及锁屏等功能。

图6是本发明实施例的电子设备的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android***分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和***库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图6所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图6所示，应用程序框架层可以包括窗口管理器，内容提供器，视图***，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图***包括可视控件，例如显示文字的控件，显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，移动终端振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

***库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子***进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明电子设备软件以及硬件的工作流程。

当触摸屏131接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头140捕获静态图像或视频。

电子设备中的处理器180调用存储器120中的程序指令，用于所述多音字消歧和韵律控制联合方法。

由以上技术方案可知，本申请提供一种电子设备，包括相互通信连接的处理器180和存储器120，所述处理器180根据所述存储器120的程序指令，实现获取待处理文本和文本的词性，将所述待处理文本转换为字符向量，所述词性转换为词性向量；将所述字符向量和所述词性向量拼接，得到拼接向量；通过联合模型对所述拼接向量进行编码，得到字符的第一句中编码和第二句中编码；其中，所述联合模型包括第一神经网络和第二神经网络，且具有多音字消歧分支和韵律预测分支；所述联合模型通过交替训练策略训练获得，且得到所述多音字消歧分支对应的第一组权重和所述韵律预测分支对应的第二组权重；当在多音字消歧分支时，按照第一组权重将第一句中编码和第二句中编码求和，得到多音加权和；将所述多音加权和通过第一全连接层，得到多音字的读音概率分布；通过掩码去除所述多音字的读音概率分布中不正确的读音，得到最终读音预测结果；当在韵律预测分支时，按照第二组权重将第一句中编码和第二句中编码求和，得到韵律加权和；将所述韵律加权和通过第二全连接层和条件随机场，得到韵律停顿等级。消除流式结构处理导致误差累积，提高文本转语音的计算速度。

具体实现中，本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本申请提供的方法的各实施例中的部分或全部步骤，当本申请提供的电子设备的控制器运行所述计算机程序指令时，所述控制器执行本申请所述的处理器被配置的步骤。所述的存储器可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种多音字消歧和韵律控制联合方法，其特征在于，所述多音字消歧和韵律控制联合方法包括：

获取待处理文本，以及，文本的词性；

将所述字符向量和所述词性向量拼接，得到拼接向量；

在通过交替训练策略训练获取联合模型时，第一组权重和第二组权重作为模型参数参与迭代更新；在训练多音字消歧分支时，第二全连层不参与参数更新；在训练韵律预测分支时，第一全连层不参与参数更新；

通过交替训练策略训练获取联合模型，包括：预训练多音字消歧分支，得到预训练权重；将训练数据划分为多组数据；通过单组数据和预训练权重依次训练所述多音字消歧分支和所述韵律预测分支，得到多音字误差和韵律误差；当相邻两组的多音字误差和韵律误差均小于预设误差值时，得到联合模型。

2.根据权利要求1所述的一种多音字消歧和韵律控制联合方法，其特征在于，所述预训练多音字消歧分支，包括：

将训练数据根据预设值迭代训练。

3.根据权利要求1所述的一种多音字消歧和韵律控制联合方法，其特征在于，所述多音字消歧和韵律控制联合方法还包括：

4.根据权利要求3所述的一种多音字消歧和韵律控制联合方法，其特征在于，所述停顿类型通过韵律停顿等级得到的分数值确定，所述分数值score与韵律停顿等级L的关系如下：

score＝(N-p)×w+L

若分数值score大于等于第一阈值时，***一般停顿；

若分数值score小于第一阈值且大于等于第二阈值时，***短停顿。

5.根据权利要求1所述的一种多音字消歧和韵律控制联合方法，其特征在于，将所述多音加权和通过第一全连接层，得到多音字的读音概率分布，包括：

将所述多音加权和通过第一全连接层，得到第一关键特征；

根据第一关键特征，得到多音字的读音概率分布。

6.根据权利要求1所述的一种多音字消歧和韵律控制联合方法，其特征在于，将所述韵律加权和通过第二全连接层，包括：

7.根据权利要求1所述的一种多音字消歧和韵律控制联合方法，其特征在于，所述第一神经网络为双向长短记忆神经网络，所述第二神经网络为卷积神经网络。

8.一种多音字消歧和韵律控制联合***，其特征在于，包括：

联合模型控制单元获取联合模型时，包括：预训练多音字消歧分支，得到预训练权重；将训练数据划分为多组数据；通过单组数据和预训练权重依次训练所述多音字消歧分支和所述韵律预测分支，得到多音字误差和韵律误差；当相邻两组的多音字误差和韵律误差均小于预设误差值时，得到联合模型；

9.一种电子设备，其特征在于，所述电子设备包括：

存储器；

处理器，所述处理器与所述存储器通信连接，被配置为调用所述存储器中的程序指令，以执行权利要求1至权利要求7中任一项所述多音字消歧和韵律控制联合方法。