CN116778907A

CN116778907A - 基于多模态的语音合成方法、装置、设备及存储介质

Info

Publication number: CN116778907A
Application number: CN202310688242.3A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-19

Abstract

本发明涉及人工智能技术领域，公开了一种基于多模态的语音合成方法、装置、设备及存储介质，其方法通过对待合成文本进行预处理，获得字符序列信息、字符级图序列信息和单词级图序列信息作为输入序列信息；对字符序列信息进行编码处理，获得时域编码向量；对字符级图序列信息和单词级图序列信息进行编码处理，获得第一空间域编码向量和第二空间域编码向量；对时域编码向量和第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量；对第一解码向量和第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量；根据第二解码向量获得语音谱图，以生成合成语音。本发明保证了合成语音的韵律感和准确度，有效改善了金融服务水平。

Description

基于多模态的语音合成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于多模态的语音合成方法、装置、设备及存储介质。

背景技术

语音合成是文本到语音转换(Text To Speech，TTS)的技术，包括文本分析、声学模型、声音合成模块等多个步骤。在金融领域中，金融机构在接待问候、业务咨询、宣传播报和讲解问答等业务场景中，广泛引入语音合成技术。为了简化语音合成过程，减少人工干预和降低对语言学相关背景知识的要求，端到端语音合成***通过在输入端直接输入文本或者注音字符，在输出端输出音频波形实现语音合成。现有的端到端语音合成方法忽略了视觉信息的重要性，只利用了单模态的文本信息特征，无法准确全面地实现语音合成。

韵律表示语音中的节奏、强调、语调等信息，韵律信息决定了合成语音的自然度和流畅度，在语音合成中具有十分重要的作用。现有的端到端语音合成方法中，使用文本与语音一一对应的标准数据库训练语音合成模型，由于标准数据库中的容量有限，使语音合成模型无法学***，例如语音客服语气生硬会降低客户满意度。

发明内容

基于此，有必要针对上述技术问题，提供一种基于多模态的语音合成方法、装置、设备及存储介质，以解决语音合成的模态特征单一，韵律感差的问题。

一种基于多模态的语音合成方法，包括：

对待合成文本进行预处理，获得输入序列信息；所述输入序列信息包括字符序列信息、字符级图序列信息和单词级图序列信息；

对所述字符序列信息进行编码处理，获得时域编码向量；对所述字符级图序列信息进行编码处理，获得第一空间域编码向量；对所述单词级图序列信息进行编码处理，获得第二空间域编码向量；

对所述时域编码向量和所述第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量；

对所述第一解码向量和所述第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量；

根据所述第二解码向量获得语音谱图，以生成所述待合成文本的合成语音。

一种基于多模态的语音合成装置，包括：

预处理模块，用于对待合成文本进行预处理，获得输入序列信息；所述输入序列信息包括字符序列信息、字符级图序列信息和单词级图序列信息；

编码处理模块，用于对所述字符序列信息进行编码处理，获得时域编码向量；对所述字符级图序列信息进行编码处理，获得第一空间域编码向量；对所述单词级图序列信息进行编码处理，获得第二空间域编码向量；

第一注意力计算模块，用于对所述时域编码向量和所述第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量；

第二注意力计算模块，用于对所述第一解码向量和所述第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量；

合成语音生成模块，用于根据所述第二解码向量获得语音谱图，以生成所述待合成文本的合成语音。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述基于多模态的语音合成方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述基于多模态的语音合成方法。

上述基于多模态的语音合成方法、装置、设备及存储介质，通过对待合成文本进行预处理，获得输入序列信息；输入序列信息包括字符序列信息、字符级图序列信息和单词级图序列信息；对字符序列信息进行编码处理，获得时域编码向量；对字符级图序列信息进行编码处理，获得第一空间域编码向量；对单词级图序列信息进行编码处理，获得第二空间域编码向量；对时域编码向量和第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量；对第一解码向量和第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量；根据第二解码向量获得语音谱图，以生成待合成文本的合成语音。本发明利用字符级图嵌入编码方式计算字符级图嵌入的隐状态，利用单词级图嵌入编码方式计算单词级图嵌入的隐状态，能够从多层次提取文本的语义信息，提高了合成语音的韵律感；同时利用跨模态注意力机制进行多模态特征融合，通过计算注意力权重使时域模态编码向量分别从两种不同的空间域模态编码向量接收信息并进行特征选择，保证了合成语音的韵律感和准确度，有效改善了金融服务水平。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于多模态的语音合成方法的一流程示意图；

图2是本发明一实施例中基于多模态的语音合成方法的一流程示意图；

图3是本发明一实施例中基于多模态的语音合成装置的一结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例可以基于人工智能技术对语音数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音合成技术又称文语转换技术，是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。文语转换***实际上是一个人工智能***，为了合成高质量的语言，除了依赖于包括语义学规则、词汇规则、语音学规则的各种规则，还必须对文字的语义内容有很好的理解。本实施例的基于多模态的语音合成方法应用在金融服务业务场景中，改善金融服务水平。具体地，银行在自助业务***中内置智能语音交互机器人，通过高质量的合成语音引导客户办理开卡、转账、汇款等业务；保险公司在理赔业务中采用智能人工客服，通过高质量的合成语音帮助客户了解理赔流程、解决理赔问题。

在一实施例中，如图1所示，提供一种基于多模态的语音合成方法，包括如下步骤S10-S50。

S10、对待合成文本进行预处理，获得输入序列信息；所述输入序列信息包括字符序列信息、字符级图序列信息和单词级图序列信息。

可理解地，语音合成的预处理包括语言处理，在文语转换过程中具有重要的作用。语言处理是对待合成文本进行文本分析处理，通过模拟人对自然语言的理解过程进行文本规整、字词切分、语法分析和语义分析，使计算机对待合成文本能完全理解，生成输入序列信息。语音合成的预处理还包括韵律处理，韵律处理为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。图-序列(Graph-to-Sequence)通过将输入文本序列转化为图结构的形式进行嵌入(Embedding)，以表示文本内容、语法关系和文本之间的语义连接，保留韵律信息。在一实施例中，通过对输入的待合成文本进行字符嵌入处理，得到字符序列信息；通过对待合成文本分别进行字符级图嵌入与单词级图嵌入处理，得到字符级图序列信息和单词级图序列信息。

S20、对所述字符序列信息进行编码处理，获得时域编码向量；对所述字符级图序列信息进行编码处理，获得第一空间域编码向量；对所述单词级图序列信息进行编码处理，获得第二空间域编码向量。

可理解地，时域编码向量是由字符序列信息得到的编码向量，用于表示待合成文本的字符之间的时间步顺序；空间域编码向量是由图序列信息得到的编码向量，用于表示待合成文本的字符之间的语义关联关系。端到端的语音合成是序列到序列(Sequence-To-Sequence，Seq2Seq)模型，包括编码器(Encoder)和解码器(Decoder)。编码器是一个用于文本理解的循环神经网络，用于将输入序列信息编码成一个隐状态向量；解码器是一个用于文本生成的循环神经网络，用于对每一时间步编码器输出的隐状态向量进行解码翻译。编码向量具体为One-Hot编码向量，又称一位有效编码，通过使用N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器位。One-Hot编码向量是有且只有一个元素为1，其余元素都为0的向量。编码器将字符序列信息的每个字符序列数据映射到离散的One-Hot编码向量，再编码到低维连续的嵌入形式，获得时域编码向量；编码器将字符级图序列信息和单词级图序列信息的每个图序列数据分别映射到离散的One-Hot编码向量，再编码到低维连续的嵌入形式表示，获得第一空间域编码向量和第二空间域编码向量。

S30、对所述时域编码向量和所述第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量。

可理解地，在端到端的语音合成过程中，解码器是逐字解码的，如果在每次解码过程中接收到的信息过多，可能会导致内部混乱，而出现解码错误结果的出现。例如编码器对“今天天气很好”进行编码，然后将编码向量传递给解码器，解码出“今天气很好”。神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下，将计算资源分配给更重要的任务，同时解决信息超载问题的一种资源分配方案。通过在解码器中引入注意力机制可以避免内容混乱，例如，在解码“今”的时候和“天”的关系更大，和“气”的关系不大，通过注意力机制将更多的注意力放到“今天”上，而不要太多关注“天气”。特征向量代表了一个实体数据，实体可以是一个图像、单个词或一个句子。多模态的特征向量来自实体的多方面代表信息，具有平滑性、时间和空间一致性、稀疏性和自然聚类等特性。在应用神经网络构造多模态特征时，每个模态数据都分别经过单独的神经网络层，然后经过一个或多个隐藏层将多个模态映射到联合空间，得到跨模态的联合特征。在一实施例中，字符序列信息经过编码器得到时域编码向量，字符级图序列信息经过编码器得到第一空间域编码向量，对时域编码向量和第一空间域编码向量进行第一跨模态注意力计算，将字符序列信息的特征和字符级图序列信息的特征进行联合，获得第一解码向量。

S40、对所述第一解码向量和所述第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量。

可理解地，待合成文本除了在字符之间存在语义连接，单词之间也存在语义连接。第一解码向量是字符序列信息和字符级图序列信息进行特征联合的向量表示，第二解码向量是第一解码向量和单词级图序列信息进行特征联合的向量表示。在一实施例中，单词级图序列信息经过编码器得到第二空间域编码向量，对第一解码向量和第二空间域编码向量进行第二跨模态注意力计算，将字符序列信息的特征、字符级图序列信息和单词级图序列信息的特征进行联合，获得第二解码向量。

S50、根据所述第二解码向量获得语音谱图，以生成所述待合成文本的合成语音。

可理解地，语音合成过程还包括在解码器之后添加后处理网络。解码器经过多个时间步的注意力计算后获得多个第二解码向量，通过后处理网络对第二解码向量进行优化，获得语音梅尔谱特征。根据语音梅尔谱特征生成语音梅尔谱，对语音梅尔谱进行波谱转换，将语音梅尔谱逆变换为波形样本，从而得到合成语音。

本实施例通过对待合成文本进行预处理，获得输入序列信息；输入序列信息包括字符序列信息、字符级图序列信息和单词级图序列信息；对字符序列信息进行编码处理，获得时域编码向量；对字符级图序列信息进行编码处理，获得第一空间域编码向量；对单词级图序列信息进行编码处理，获得第二空间域编码向量；对时域编码向量和第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量；对第一解码向量和第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量；根据第二解码向量获得语音谱图，以生成待合成文本的合成语音。本发明利用字符级图嵌入编码方式计算字符级图嵌入的隐状态，利用单词级图嵌入编码方式计算单词级图嵌入的隐状态，能够从多层次提取文本的语义信息，提高了合成语音的韵律感；同时利用跨模态注意力机制进行多模态特征融合，通过计算注意力权重使时域模态编码向量分别从两种不同的空间域模态编码向量接收信息并进行特征选择，提高了合成语音的准确度。

可选的，步骤S10中，即所述对待合成文本进行预处理，获得输入序列信息，包括：

S101、提取所述待合成文本的字符特征数据；

S102、对所述字符特征数据进行音素嵌入，生成字符序列信息。

可理解地，字符是待合成文本中的类字形单位或符号，包括字母、数字、运算符号、标点符号以及功能性符号。音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。嵌入(Embedding)模式是一种数据表示模式，通过新增神经网络的隐藏层，保留数据间的关联关系，控制隐藏层的输出维度，实现高基数分类数据的降维。本实施例提取待合成文本的字符特征数据，对字符特征数据进行音素嵌入，获得字符序列信息。

本实施例将待合成文本的字符特征数据转换为字符序列信息，以便于编码器对字符序列信息进行编码处理，获得时域的隐状态向量。

可选的，步骤S10中，即所述对待合成文本进行预处理，获得输入序列信息，还包括：

S103、提取所述待合成文本的字符特征数据；

S104、对所述字符特征数据进行图嵌入，获得字符级图节点信息和字符级图边界信息；

S105、根据所述字符级图节点信息和所述字符级图边界信息生成所述字符级图序列信息。

可理解地，本实施例提取待合成文本的字符特征数据；对字符特征数据进行图嵌入：将字符特征数据(各个字母、符号等)用图的节点表示，获得字符级图节点信息；将字符特征数据之间的邻接关系用图的边界来建模，即相邻图节点之间由有向边连接，获得字符级图边界信息；将字符级图节点信息和字符级图边界信息进行拼接，生成字符级图序列信息。

本实施例将待合成文本的字符特征数据转化为图结构的形式进行嵌入，以节点嵌入来表示文本内容，丰富了模态特征；以边界嵌入来表示语法关系和文本字符之间的语义连接，保留了韵律信息；同时便于编码器对字符级图序列信息进行编码处理，以获得空间域的字符级隐状态向量。

S106、提取所述待合成文本的单词特征数据；

S107、对所述单词特征数据进行图嵌入，获得单词级图节点信息和单词级图边界信息；

S108、根据所述单词级图节点信息和所述单词级图边界信息生成所述单词级图序列信息。

可理解地，句法分析树是一种树状数据结构，用于判断单词序列的句法结构是否符合给定的语法。本实施例通过预设的句法分析树对待合成文本进行语法处理，提取待合成文本的单词特征数据；对单词特征数据进行图嵌入：将单词特征数据(各个词)用图的节点表示，获得单词级图节点信息；将单词特征数据之间的邻接关系用图的边界来建模，即相邻图节点之间由有向边连接，获得单词级图边界信息；将单词级图节点信息和单词级图边界信息进行拼接，生成单词级图序列信息。

本实施例将待合成文本的单词特征数据转化为图结构的形式进行嵌入，以节点嵌入来表示文本内容，丰富了模态特征；以边界嵌入来表示语法关系和文本单词之间的语义连接，保留了韵律信息；同时便于编码器对单词级图序列信息进行编码处理，以获得空间域的单词级隐状态向量。

可选的，步骤S30中，即所述对所述时域编码向量和所述第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量，包括：

S301、获取与所述第一空间域编码向量对应的第一查询空间向量；

S302、获取与所述时域编码向量对应的第一键空间向量和第一值空间向量；

S303、根据所述第一查询空间向量和所述第一键空间向量计算第一注意力权值；

S304、根据所述第一注意力权值对所述第一值空间向量进行加权计算，获得所述第一解码向量。

可理解地，自注意力机制往往采用查询-键-值的模式，在单模态的自注意力机制中，查询空间向量(Query，Q)、键空间向量(Key，K)和值空间向量(Value，V)由同一编码向量分别乘以三个对应的可训练的参数矩阵得到。首先由Q和K进行点乘计算相似度，得到的相似度权重矩阵经过归一化处理后再与V相乘计算加权和，获得解码向量。本实施例采用跨模态注意力机制，Q、K和V并不是来自同编码一向量，Q来自空间域编码向量，而K和V来自时域编码向量，通过计算空间域编码向量和时域编码向量的相似度来对模态特征进行联合。跨模态注意力解码器共有两个不同的注意力层，在第一个注意力层中，获取与第一空间域编码向量对应的第一查询空间向量Q₁；获取与时域编码向量对应的第一键空间向量K₁和第一值空间向量V₁；根据第一查询空间向量Q₁和第一键空间向量K₁计算第一注意力权值a₁；根据第一注意力权值a₁对第一值空间向量V₁进行加权计算，获得第一解码向量context₁。

本实施例在第一空间域编码向量和时域编码向量之间进行跨模态注意力计算，丰富了模态特征，同时保留了字符序列和字符级图序列之间的韵律信息特征。

可选的，步骤S40中，即所述对所述第一解码向量和所述第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量，包括：

S401、获取与所述第二空间域编码向量对应的第二查询空间向量；

S402、获取与所述第一解码向量对应的第二键空间向量和第二值空间向量；

S403、根据所述第二查询空间向量和所述第二键空间向量计算第二注意力权值；

S404、根据所述第二注意力权值对所述第二值空间向量进行加权计算，获得所述第二解码向量。

可理解地，本实施例的跨模态注意力解码器共有两个不同的注意力层，在第二个注意力层中，获取与第二空间域编码向量对应的第二查询空间向量Q₂；获取与第一解码向量对应的第二键空间向量K₂和第二值空间向量V₂；根据第二查询空间向量Q₂和第二键空间向量K₂计算第二注意力权值a₂；根据第二注意力权值a₂对第二值空间向量V₂进行加权计算，获得第二解码向量context₂。

本实施例在第二空间域编码向量和第一解码向量之间进行跨模态注意力计算，丰富了模态特征，同时保留了字符序列、字符级图序列和单词级图序列之间的韵律信息特征，提高了语音合成的准确度。

可选的，步骤S50中，即所述根据所述第二解码向量获得语音谱图序列，以生成所述待合成文本的合成语音，包括：

S501、根据所述第二解码向量生成语音梅尔谱；

S502、对所述语音梅尔谱进行波谱转换，获得所述待合成文本的合成语音。

可理解地，语音梅尔谱包含时域-频域信息、与感知相关的振幅信息和与感知相关的频域信息。根据人耳听觉对低频声音敏感、对高频声音不敏感的特性，对解码向量进行优化生成语音梅尔谱。在一实施例中，解码器经过多个时间步的跨模态注意力计算后获得多个第二解码向量，通过后处理网络对第二解码向量进行优化，获得语音梅尔谱特征，根据语音梅尔谱特征生成语音梅尔谱；在生成待合成文本对应的语音梅尔谱后，使用WaveNet对语音梅尔谱进行波谱转换，将语音梅尔谱特征表达逆变换为波形样本，生成待合成文本对应的合成语音。

本实施例通过对语音梅尔谱进行波谱转换，生成待合成文本对应的合成语音，保证了合成语音的自然度和准确度。

如图2所示的基于多模态的语音合成方法的流程示意图，输入待合成文本；经过三个单独的编码器循环神经网络(字符嵌入-字符编码器、字符级图嵌入-字符级图编码器和单词级图嵌入-单词级图编码器)进行编码处理，获得字符级空间域编码向量、单词级空间域编码向量和时域编码向量；通过跨模态注意力解码器的两层注意力层进行解码，获得梅尔谱图；以根据梅尔谱图生成合成语音。其中，两个空间域的处理过程均为辅助处理，即在跨模态注意力解码器中两个空间域模态用于辅助时域模态的注意力计算，时域编码向量可以从两种空间域编码向量接收韵律信息并进行空间上的特征联合。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于多模态的语音合成装置，该基于多模态的语音合成装置与上述实施例中基于多模态的语音合成方法一一对应。如图3所示，该基于多模态的语音合成装置包括预处理模块10、编码处理模块20、第一注意力计算模块30、第二注意力计算模块40和合成语音生成模块50。各功能模块详细说明如下：

预处理模块10，用于对待合成文本进行预处理，获得输入序列信息；所述输入序列信息包括字符序列信息、字符级图序列信息和单词级图序列信息；

编码处理模块20，用于对所述字符序列信息进行编码处理，获得时域编码向量；对所述字符级图序列信息进行编码处理，获得第一空间域编码向量；对所述单词级图序列信息进行编码处理，获得第二空间域编码向量；

第一注意力计算模块30，用于对所述时域编码向量和所述第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量；

第二注意力计算模块40，用于对所述第一解码向量和所述第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量；

合成语音生成模块50，用于根据所述第二解码向量获得语音谱图，以生成所述待合成文本的合成语音。

可选的，预处理模块10包括：

第一字符特征数据提取单元，用于提取所述待合成文本的字符特征数据；

字符序列信息生成单元，用于对所述字符特征数据进行音素嵌入，生成字符序列信息。

可选的，预处理模块10还包括：

第二字符特征数据提取单元，用于提取所述待合成文本的字符特征数据；

字符特征数据图嵌入单元，用于对所述字符特征数据进行图嵌入，获得字符级图节点信息和字符级图边界信息；

字符级图序列信息生成单元，用于根据所述字符级图节点信息和所述字符级图边界信息生成所述字符级图序列信息。

可选的，预处理模块10还包括：

单词特征数据提取单元，用于提取所述待合成文本的单词特征数据；

单词特征数据图嵌入单元，用于对所述单词特征数据进行图嵌入，获得单词级图节点信息和单词级图边界信息；

单词级图序列信息生成单元，用于根据所述单词级图节点信息和所述单词级图边界信息生成所述单词级图序列信息。

可选的，第一注意力计算模块30包括：

第一空间域编码向量处理单元，用于获取与所述第一空间域编码向量对应的第一查询空间向量；

时域编码向量处理单元，用于获取与所述时域编码向量对应的第一键空间向量和第一值空间向量；

第一注意力权值计算单元，用于根据所述第一查询空间向量和所述第一键空间向量计算第一注意力权值；

第一解码向量计算单元，用于根据所述第一注意力权值对所述第一值空间向量进行加权计算，获得所述第一解码向量。

可选的，第二注意力计算模块40包括：

第二空间域编码向量处理单元，用于获取与所述第二空间域编码向量对应的第二查询空间向量；

第一解码向量处理单元，用于获取与所述第一解码向量对应的第二键空间向量和第二值空间向量；

第二注意力权值计算单元，用于根据所述第二查询空间向量和所述第二键空间向量计算第二注意力权值；

第二解码向量计算单元，用于根据所述第二注意力权值对所述第二值空间向量进行加权计算，获得所述第二解码向量。

可选的，合成语音生成模块50包括：

语音梅尔谱生成单元，用于根据所述第二解码向量生成语音梅尔谱；

语音合成单元，用于对所述语音梅尔谱进行波谱转换，获得所述待合成文本的合成语音。

关于基于多模态的语音合成装置的具体限定可以参见上文中对于基于多模态的语音合成方法的限定，在此不再赘述。上述基于多模态的语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作***、计算机可读指令和数据库。该内存储器为可读存储介质中的操作***和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储基于多模态的语音合成方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于多模态的语音合成方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态的语音合成方法，其特征在于，包括：

2.如权利要求1所述的基于多模态的语音合成方法，其特征在于，所述对待合成文本进行预处理，获得输入序列信息，包括：

提取所述待合成文本的字符特征数据；

对所述字符特征数据进行音素嵌入，生成字符序列信息。

3.如权利要求1所述的基于多模态的语音合成方法，其特征在于，所述对待合成文本进行预处理，获得输入序列信息，还包括：

提取所述待合成文本的字符特征数据；

对所述字符特征数据进行图嵌入，获得字符级图节点信息和字符级图边界信息；

根据所述字符级图节点信息和所述字符级图边界信息生成所述字符级图序列信息。

4.如权利要求1所述的基于多模态的语音合成方法，其特征在于，所述对待合成文本进行预处理，获得输入序列信息，还包括：

提取所述待合成文本的单词特征数据；

对所述单词特征数据进行图嵌入，获得单词级图节点信息和单词级图边界信息；

根据所述单词级图节点信息和所述单词级图边界信息生成所述单词级图序列信息。

5.如权利要求1所述的基于多模态的语音合成方法，其特征在于，所述对所述时域编码向量和所述第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量，包括：

获取与所述第一空间域编码向量对应的第一查询空间向量；

获取与所述时域编码向量对应的第一键空间向量和第一值空间向量；

根据所述第一查询空间向量和所述第一键空间向量计算第一注意力权值；

根据所述第一注意力权值对所述第一值空间向量进行加权计算，获得所述第一解码向量。

6.如权利要求1所述的基于多模态的语音合成方法，其特征在于，所述对所述第一解码向量和所述第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量，包括：

获取与所述第二空间域编码向量对应的第二查询空间向量；

获取与所述第一解码向量对应的第二键空间向量和第二值空间向量；

根据所述第二查询空间向量和所述第二键空间向量计算第二注意力权值；

根据所述第二注意力权值对所述第二值空间向量进行加权计算，获得所述第二解码向量。

7.如权利要求1所述的基于多模态的语音合成方法，其特征在于，所述根据所述第二解码向量获得语音谱图序列，以生成所述待合成文本的合成语音，包括：

根据所述第二解码向量生成语音梅尔谱；

对所述语音梅尔谱进行波谱转换，获得所述待合成文本的合成语音。

8.一种基于多模态的语音合成装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述基于多模态的语音合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项所述基于多模态的语音合成方法。