CN113379875B

CN113379875B - 卡通角色动画的生成方法、装置、设备及存储介质

Info

Publication number: CN113379875B
Application number: CN202110301883.XA
Authority: CN
Inventors: 陈聪; 侯翠琴; 李剑锋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2023-09-29
Anticipated expiration: 2041-03-22
Also published as: CN113379875A

Abstract

本发明涉及人工智能领域，公开了卡通角色动画的生成方法、装置、设备及存储介质，用于提高音乐卡通角色动画与音乐场景之间的相关性。卡通角色动画的生成方法包括：对音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将音乐内容数据转化为音乐语音数据；通过神经网络自注意力机制对音乐角色图像数据的基础向量特征中的微表情向量特征、手势向量特征和肢体动向量特征进行加权处理，生成基础卡通角色图像；基于预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音；联合音乐内容数据、目标卡通角色图像和目标音乐语音，得到音乐卡通角色动画。本发明还涉及区块链技术，音乐参数数据可存储于区块链中。

Description

卡通角色动画的生成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种卡通角色动画的生成方法、装置、设备及存储介质。

背景技术

随着物质生活的不断满足，越来越多的人开始追求精神上的满足，而历史悠久的音乐文化正好填补了人们精神上的空缺。从最早吟唱的《诗经》到现如今的流行音乐，音乐作为一种表现形式可以直接传达音乐者的思想和情感，现如今随着科技的进步与时代的发展，推广或传播音乐文化的方式也更加科技化，其中最主要的传播方式是利用音乐卡通人物动画对音乐文化进行传播。

在音乐卡通动画制作的过程，其往往直接通过现有的音乐卡通角色的原画，绘制指定动作的关键帧，然后，依据相邻两张关键帧之间的差异，通过手绘的方式相应地***动作的过渡帧，生成对应的音乐卡通动画，但是通过这样的方式生成的音乐卡通角色动画与音乐场景的相关性低下。

发明内容

本发明提供了一种卡通角色动画的生成方法、装置、设备及存储介质，用于提高音乐卡通角色动画与音乐场景之间的相关性。

本发明第一方面提供了一种卡通角色动画的生成方法，包括：获取音乐参数数据，利用预置的统一码字符表对所述音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将所述音乐内容数据转化为音乐语音数据；在所述预置的卡通角色生成模型中提取所述音乐参数数据中音乐角色图像数据对应的卡通角色的基础向量特征，通过神经网络自注意力机制对所述基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，并计算所述基础向量特征的汇总向量特征，根据所述汇总向量特征生成基础卡通角色图像；分别将所述基础卡通角色图像和所述音乐语音数据输入预置的时序神经网络，基于所述预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音；联合所述音乐内容数据、所述目标卡通角色图像和所述目标音乐语音，得到音乐卡通角色动画。

可选的，在本发明第一方面的第一种实现方式中，所述获取音乐参数数据，利用预置的统一码字符表对所述音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将所述音乐内容数据转化为音乐语音数据包括：获取音乐参数数据中的音乐文本数据，提取所述音乐文本数据中的文本字符；在预置的统一码字符表中查找与所述文本字符相同的标准字符，将所述标准字符对应的字节编码作为对应文本字符的编码数据，将所述音乐文本数据中的文本字符对应的编码数据确定为音乐内容数据，每个标准字符对应一个字节编码；采用语音生成模型将所述音乐内容数据转化为音乐语音数据。

可选的，在本发明第一方面的第二种实现方式中，所述采用语音生成模型将所述音乐内容数据转化为音乐语音数据包括：采用语音生成模型中的注音算法将所述音乐内容数据中每个文本字符转化为对应的音素信息；利用所述语音生成模型中的切分函数对所述音素信息进行切分，得到分节音素，并采用所述语音生成模型中的对齐函数对所述分节音素进行对齐，得到对齐音素；将所述对齐音素输入至所述语音生成模型中的时长预测模型中，通过所述时长预测模型对所述对齐音素进行音素时长的预测，得到预测时长；将所述音素信息以及所述预测时长输入至所述语音生成模型中的声学模型中，生成每个文本字符对应的声音波形，将多个声音波形进行拼接，得到音乐语音数据。

可选的，在本发明第一方面的第三种实现方式中，所述在所述预置的卡通角色生成模型中提取所述音乐参数数据中音乐角色图像数据对应的卡通角色的基础向量特征，通过神经网络自注意力机制对所述基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，并计算所述基础向量特征的汇总向量特征，根据所述汇总向量特征生成基础卡通角色图像包括：将所述音乐参数数据中的音乐角色图像数据输入至预置的卡通角色生成模型中，在所述预置的卡通角色生成模型中提取所述音乐角色图像数据中的基础向量特征，所述基础向量特征至少包括卡通角色的微表情向量特征、手势向量特征和肢体动作向量特征；通过所述预置的卡通角色生成模型中的神经网络自注意力机制计算所述基础向量特征的注意力分布；在增加所述微表情向量特征、所述手势向量特征和所述肢体动作向量特征的注意力分布所占权重的条件下，利用汇总公式对所述基础向量特征的注意力分布进行汇总，得到汇总向量特征，所述汇总公式为：

其中，表示汇总向量特征，/>表示微表情向量特征对应的注意力分布值，表示微表情向量特征对应加权注意力分布值，/>表示微表情向量特征，/>表示手势向量特征对应的注意力分布值，/>表示手势向量特征对应加权注意力分布值，/>表示手势向量特征，/>表示肢体动作向量特征对应的注意力分布值，/>表示肢体动作向量特征对应加权注意力分布值，/>表示肢体动作向量特征，/>表示第/>个剩余向量特征对应的注意力分布值，/>表示第/>个剩余向量特征对应加权注意力分布值，/>表示第/>个剩余向量特征，/>为正整数，所述剩余向量特征为除所述微表情向量特征、所述手势向量特征和所述肢体动作向量特征之外的基础向量特征；采用交叉熵损失函数计算所述汇总向量特征的损失函数值，并通过所述损失函数值对所述汇总向量特征进行调整，利用调整后的汇总向量特征生成对应的基础卡通角色图像。

可选的，在本发明第一方面的第四种实现方式中，所述通过所述预置的卡通角色生成模型中的神经网络自注意力机制计算所述基础向量特征的注意力分布包括：获取所述音乐角色图像数据中的查询向量特征，所述查询向量特征用于表示所述音乐角色图像中与卡通角色相关的基础向量特征；利用所述预置的卡通角色生成模型中神经网络自注意力机制的计算公式计算在设定所述查询向量特征的条件下每个基础向量特征的注意力分布，所述计算公式为：

其中，表示第/>个基础向量特征对应的注意力分布值，/>，/>表示注意力打分函数，/>表示第/>个基础向量特征，/>表示第/>个基础向量特征，/>表示查询向量，/>为正整数。

可选的，在本发明第一方面的第五种实现方式中，所述分别将所述基础卡通角色图像和所述音乐语音数据输入预置的时序神经网络，基于所述预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音包括：按照预置的输入时序分别对所述基础卡通角色图像和所述音乐语音数据进行排序，并将排序后的基础卡通角色图像和音乐语音数据整合为待预测数据；获取上一时刻待预测数据与当前时刻待预测数据，并将所述上一时刻待预测数据与所述当前时刻待预测数据输入预置的时序神经网络的隐藏层中，通过所述隐藏层、所述上一时刻待预测数据与当前时刻待预测数据对带预测数据进行卷积迭代计算，生成下一时刻待预测数据；对多个所述下一时刻待预测数据进行合并，得到目标预测数据，所述目标预测数据包括目标卡通角色图像和目标音乐语音。

可选的，在本发明第一方面的第六种实现方式中，在所述获取音乐参数数据，利用预置的统一码字符表对所述音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将所述音乐内容数据转化为音乐语音数据之前，所述卡通角色动画的生成方法还包括：获取音乐角色动画数据，利用神经网络自注意力机制对所述音乐角色动画数据进行训练，生成预置的卡通角色生成模型。

本发明第二方面提供了一种卡通角色动画的生成装置，包括：获取模块，用于获取音乐参数数据，利用预置的统一码字符表对所述音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将所述音乐内容数据转化为音乐语音数据；计算模块，用于在所述预置的卡通角色生成模型中提取所述音乐参数数据中音乐角色图像数据对应卡通角色的基础向量特征，通过神经网络自注意力机制对所述基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，并计算所述基础向量特征的汇总向量特征，根据所述汇总向量特征生成基础卡通角色图像；预测模块，用于分别将所述基础卡通角色图像和所述音乐语音数据输入预置的时序神经网络，基于所述预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音；联合模块，用于联合所述音乐内容数据、所述目标卡通角色图像和所述目标音乐语音，得到音乐卡通角色动画。

可选的，在本发明第二方面的第一种实现方式中，所述获取模块包括：提取单元，用于获取音乐参数数据中的音乐文本数据，提取所述音乐文本数据中的文本字符；确定单元，用于在预置的统一码字符表中查找与所述文本字符相同的标准字符，将所述标准字符对应的字节编码作为对应文本字符的编码数据，将所述音乐文本数据中的文本字符对应的编码数据确定为音乐内容数据，每个标准字符对应一个字节编码；转化单元，用于采用语音生成模型将所述音乐内容数据转化为音乐语音数据。

可选的，在本发明第二方面的第二种实现方式中，所述转化单元具体用于：采用语音生成模型中的注音算法将所述音乐内容数据中每个文本字符转化为对应的音素信息；利用所述语音生成模型中的切分函数对所述音素信息进行切分，得到分节音素，并采用所述语音生成模型中的对齐函数对所述分节音素进行对齐，得到对齐音素；将所述对齐音素输入至所述语音生成模型中的时长预测模型中，通过所述时长预测模型对所述对齐音素进行音素时长的预测，得到预测时长；将所述音素信息以及所述预测时长输入至所述语音生成模型中的声学模型中，生成每个文本字符对应的声音波形，将多个声音波形进行拼接，得到音乐语音数据。

可选的，在本发明第二方面的第三种实现方式中，所述计算模块包括：输入单元，用于将所述音乐参数数据中的音乐角色图像数据输入至预置的卡通角色生成模型中，在所述预置的卡通角色生成模型中提取所述音乐角色图像数据中的基础向量特征，所述基础向量特征至少包括卡通角色的微表情向量特征、手势向量特征和肢体动作向量特征；计算单元，用于通过所述预置的卡通角色生成模型中的神经网络自注意力机制计算所述基础向量特征的注意力分布；汇总单元，用于在增加所述微表情向量特征、所述手势向量特征和所述肢体动作向量特征的注意力分布所占权重的条件下，利用汇总公式对所述基础向量特征的注意力分布进行汇总，得到汇总向量特征，所述汇总公式为：

其中，表示汇总向量特征，/>表示微表情向量特征对应的注意力分布值，表示微表情向量特征对应加权注意力分布值，/>表示微表情向量特征，/>表示手势向量特征对应的注意力分布值，/>表示手势向量特征对应加权注意力分布值，/>表示手势向量特征，/>表示肢体动作向量特征对应的注意力分布值，/>表示肢体动作向量特征对应加权注意力分布值，/>表示肢体动作向量特征，/>表示第/>个剩余向量特征对应的注意力分布值，/>表示第/>个剩余向量特征对应加权注意力分布值，/>表示第/>个剩余向量特征，/>为正整数，所述剩余向量特征为除所述微表情向量特征、所述手势向量特征和所述肢体动作向量特征之外的基础向量特征；调整单元，用于采用交叉熵损失函数计算所述汇总向量特征的损失函数值，并通过所述损失函数值对所述汇总向量特征进行调整，利用调整后的汇总向量特征生成对应的基础卡通角色图像。

可选的，在本发明第二方面的第四种实现方式中，所述计算单元具体用于：获取所述音乐角色图像数据中的查询向量特征，所述查询向量特征用于表示所述音乐角色图像中与卡通角色相关的基础向量特征；利用所述预置的卡通角色生成模型中神经网络自注意力机制的计算公式计算在设定所述查询向量特征的条件下每个基础向量特征的注意力分布，所述计算公式为：

可选的，在本发明第二方面的第五种实现方式中，所述预测模块具体用于：按照预置的输入时序分别对所述基础卡通角色图像和所述音乐语音数据进行排序，并将排序后的基础卡通角色图像和音乐语音数据整合为待预测数据；获取上一时刻待预测数据与当前时刻待预测数据，并将所述上一时刻待预测数据与所述当前时刻待预测数据输入预置的时序神经网络的隐藏层中，通过所述隐藏层、所述上一时刻待预测数据与当前时刻待预测数据对带预测数据进行卷积迭代计算，生成下一时刻待预测数据；对多个所述下一时刻待预测数据进行合并，得到目标预测数据，所述目标预测数据包括目标卡通角色图像和目标音乐语音。

可选的，在本发明第二方面的第六种实现方式中，所述卡通角色动画的生成装置还包括：生成模块，用于获取音乐角色动画数据，利用神经网络自注意力机制对所述音乐角色动画数据进行训练，生成预置的卡通角色生成模型。

本发明第三方面提供了一种卡通角色动画的生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述卡通角色动画的生成设备执行上述的卡通角色动画的生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的卡通角色动画的生成方法。

本发明提供的技术方案中，获取音乐参数数据，利用预置的统一码字符表对所述音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将所述音乐内容数据转化为音乐语音数据；在所述预置的卡通角色生成模型中提取所述音乐参数数据中音乐角色图像数据对应的卡通角色的基础向量特征，通过神经网络自注意力机制对所述基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，并计算所述基础向量特征的汇总向量特征，根据所述汇总向量特征生成基础卡通角色图像；分别将所述基础卡通角色图像和所述音乐语音数据输入预置的时序神经网络，基于所述预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音；联合所述音乐内容数据、所述目标卡通角色图像和所述目标音乐语音，得到音乐卡通角色动画。本发明实施例中，通过将音乐参数数据进行编码与转化，生成音乐内容数据与音乐语音数据，利用神经网络自注意力机制对音乐参数数据中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，生成基础卡通角色图像，最后将音乐内容数据、音乐语音数据和基础卡通角色图像进行整合，得到音乐卡通角色动画，提高了音乐卡通角色动画与音乐场景之间的相关性。

附图说明

图1为本发明实施例中卡通角色动画的生成方法的一个实施例示意图；

图2为本发明实施例中卡通角色动画的生成方法的另一个实施例示意图；

图3为本发明实施例中卡通角色动画的生成装置的一个实施例示意图；

图4为本发明实施例中卡通角色动画的生成装置的另一个实施例示意图；

图5为本发明实施例中卡通角色动画的生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种卡通角色动画的生成方法、装置、设备及存储介质，用于提高音乐卡通角色动画与音乐场景之间的相关性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中卡通角色动画的生成方法的一个实施例包括：

101、获取音乐参数数据，利用预置的统一码字符表对音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将音乐内容数据转化为音乐语音数据；

可以理解的是，本发明的执行主体可以为卡通角色动画的生成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器获取的音乐参数数据具体包括两种类型的数据：

1.音乐文本数据：具体为与音乐相关且内容类型为文本形式的数据。

2.音乐角色图像数据：具体为与音乐相关且内容类型为图像形式的数据，其中，音乐角色图像的格式可以为JPEG、TIFF、RAW等，本申请并不对音乐角色图像的格式进行限定。

服务器在获得音乐参数数据之后，需要利用预置的统一码字符表将音乐参数数据中的音乐文本数据进行编码，将音乐本文数据转化成计算机能够识别的字符，其中预置的统一码字符表为统一码（Unicode）对应的字符编码表，其为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

需要说明的是，服务器得到音乐内容数据后，采用语音生成模型将音乐内容数据转化为音乐语音数据，这里语音生成模型指的是语音合成（text to speech，TTS），其是一种可以将任意输入文本转换成相应语音的技术。语音生成模型主要包括前端和后端两个部分，在本申请中前端部分主要是对输入的音乐文本数据进行分析，从音乐文本数据提取后端建模需要的信息，例如：对音乐文本数据分词、词性标注、韵律结构预测、多音字消岐等。而后端部分读入前端对音乐文本数据进行解析后的分析结果，并且对语音部分结合分析结果进行建模，在合成过程中，后端会利用音乐文本数据和提前训练好的声学模型，生成用于输出的语音信号。

需要强调的是，为进一步保证上述音乐参数数据的私密和安全性，上述音乐参数数据还可以存储于一区块链的节点中。

102、在预置的卡通角色生成模型中提取音乐参数数据中音乐角色图像数据对应的卡通角色的基础向量特征，通过神经网络自注意力机制对基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，并计算基础向量特征的汇总向量特征，根据汇总向量特征生成基础卡通角色图像；

服务器得到音乐内容数据和音乐语音数据之后，服务器需要对音乐参数数据中音乐角色图像数据进行处理，这里利用到的是预置的卡通角色生成模型，在预置的卡通角色生成模型中提取音乐角色图像数据中的基础向量特征，并通过神经网络自注意力机制计算基础向量特征的注意力分布，在计算的过程中对基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，从而计算得到基础向量特征的汇总向量特征，最后服务器根据根据汇总向量特征生成基础卡通角色图像。

需要说明的是，这里的基础向量特征指的是音乐角色图像数据中的像素向量特征，一个音乐角色图像数据中存在多个基础向量特征，服务器在利用神经网络自注意力机制计算注意力分布时，对微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理的目的是为了对卡通角色进行具体分析，使得通过计算得到的基础卡通角色图像与音乐场景之间相关性更加紧密。

103、分别将基础卡通角色图像和音乐语音数据输入预置的时序神经网络，基于预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音；

服务器此时得到的基础卡通角色图像和音乐语音数据是无时序，因此服务器需要利用预置的时序神经网络生成按照一定时序排列的目标卡通角色图像和目标音乐语音。这里预置的时序神经网络指的是循环神经网络（recurrent neural network，RNN），其是一种处理时序型输入的神经网络，输入循环神经网络中的时序型数据的长度是不同的，并且输入的时序型数据的上下文是存在关联的，通过循环神经网络中多个隐藏层对输入数据进行卷积计算，最后通过输出层输出卷积后的数据，即可生成按照一定时序顺序排列的数据。

104、联合音乐内容数据、目标卡通角色图像和目标音乐语音，得到音乐卡通角色动画。

当服务器获取到按照时序排列的目标卡通角色图像和目标音乐语音后，将音乐内容数据、目标卡通角色图像和目标音乐语音合并在一起，即可得到音乐卡通角色动画，音乐卡通角色动画播放的过程中，播放音乐卡通角色图像时，会显示对应的音乐内容数据同时播放对应的目标音乐语音。

本发明实施例中，通过将音乐参数数据进行编码与转化，生成音乐内容数据与音乐语音数据，利用神经网络自注意力机制对音乐参数数据中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，生成基础卡通角色图像，最后将音乐内容数据、音乐语音数据和基础卡通角色图像进行整合，得到音乐卡通角色动画，提高了音乐卡通角色动画与音乐场景之间的相关性。

请参阅图2，本发明实施例中卡通角色动画的生成方法的另一个实施例包括：

201、获取音乐角色动画数据，利用神经网络自注意力机制对音乐角色动画数据进行训练，生成预置的卡通角色生成模型；

服务器在对音乐参数数据进行处理之前，需要收集大量的音乐角色动画数据，对大量的音乐角色动画数据进行训练，生成预置的卡通角色生成模型。其中，音乐角色动画数据至少包括：音乐动画之《Symphony Orchestra》、音乐动画之《幻想曲》、音乐动画之《幻想曲2000》、音乐动画之《金色琴弦》等。

在对大量的音乐角色动画数据进行训练时，所采用到的方式为神经网络自主力机制，训练得到预置的卡通角色生成模型可以根据输入该模型中的动画或图像生成对应的卡通角色图像，音乐角色动画数据训练过程与步骤203的过程相同，故在此不进行赘述。

202、获取音乐参数数据，利用预置的统一码字符表对音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将音乐内容数据转化为音乐语音数据；

需要说明的是，这里预置的统一码字符表用于记录标准字符与之对应的字节编码，例如：标准字符“A”对应的字节编码为“&#x0041”，标准字符“叶”对应的字节编码为“&#x53F6”，因此在预置的统一码字符表中可以查找与音乐文本数据中文本字符相同的标准字符，当服务器查找到标准字符后，即可从预置的统一码字符表中明确该文本字符对应的编码数据，由此将音乐文本数据中的文本字符转化为计算机可读写语言。

这里是采用语音合成技术将音乐内容数据转化为音乐语音数据，语音合成技术将音乐文本数据分成4个部分进行语音的合成，具体步骤如下：

1.文本转音素

服务器将音乐内容数据输入至语音生成模型中，但由于不同语言存在“同字不同音”的现象，因此需要利用注音算法将音乐内容数据中的每个文本字符转化为对应的音素信息，对中文文本字符来讲，即为将汉字转化为拼音。

2.音频切分

服务器得到音素信息后，需要采用切分函数将音素信息进行切分，明确音素信息的起始，得到分节音素，也就是明确哪些音素可以组成一个完整的字符音标，服务器明确音素信息的起始后，需要利用对齐函数将分节音素进行对其处理，得到对齐音素，便于后续对音素时长进行预测。

3.音素时长预测

服务器将对齐音素输入至时长预测模型中，即可输出对齐音素对应的预测时长，这里服务器计算预测时长便于后续生成声音波形。

4.声学模型

服务器将预测好时长的音素信息输入至声学模型中，声学模型相当于声码器用于将输入的音素信息转化成对应的声音波形，由此可以得到每个文本字符对应的声音波形，将多个声音波形拼接起来，即可得到音乐语音数据。需要说明的是，这里对声学模型有进一步的改善，例如：增加网络层数、增加残差通道数量、利用矩阵乘代替上采样卷积、优化CPU、优化GPU等。

203、在预置的卡通角色生成模型中提取音乐参数数据中音乐角色图像数据对应的卡通角色的基础向量特征，通过神经网络自注意力机制对基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，并计算基础向量特征的汇总向量特征，根据汇总向量特征生成基础卡通角色图像；

具体的，将音乐参数数据中的音乐角色图像数据输入至预置的卡通角色生成模型中，在预置的卡通角色生成模型中提取音乐角色图像数据中的基础向量特征，基础向量特征至少包括卡通角色的微表情向量特征、手势向量特征和肢体动作向量特征；通过预置的卡通角色生成模型中的神经网络自注意力机制计算基础向量特征的注意力分布；在增加微表情向量特征、手势向量特征和肢体动作向量特征的注意力分布所占权重的条件下，利用汇总公式对基础向量特征的注意力分布进行汇总，得到汇总向量特征，汇总公式为：

其中，表示汇总向量特征，/>表示微表情向量特征对应的注意力分布值，表示微表情向量特征对应加权注意力分布值，/>表示微表情向量特征，/>表示手势向量特征对应的注意力分布值，/>表示手势向量特征对应加权注意力分布值，/>表示手势向量特征，/>表示肢体动作向量特征对应的注意力分布值，/>表示肢体动作向量特征对应加权注意力分布值，/>表示肢体动作向量特征，/>表示第/>个剩余向量特征对应的注意力分布值，/>表示第/>个剩余向量特征对应加权注意力分布值，/>表示第/>个剩余向量特征，/>为正整数，剩余向量特征为除微表情向量特征、手势向量特征和肢体动作向量特征之外的基础向量特征；采用交叉熵损失函数计算汇总向量特征的损失函数值，并通过损失函数值对汇总向量特征进行调整，利用调整后的汇总向量特征生成对应的基础卡通角色图像。

服务器通过预置的卡通角色生成模型中的神经网络自注意力机制计算基础向量特征的注意力分布的过程如下：服务器获取音乐角色图像数据中的查询向量特征，查询向量特征用于表示音乐角色图像中与卡通角色相关的基础向量特征；服务器利用预置的卡通角色生成模型中神经网络自注意力机制的计算公式计算在设定查询向量特征的条件下每个基础向量特征的注意力分布，计算公式为：

这里音乐角色图像数据中的查询向量特征用于指示与查询任务相关的信息，例如在本申请中，查询任务指的是根据音乐角色图像数据生成卡通角色，也就是查询向量特征应为与音乐角色图像数据中卡通角色相关的向量特征。

进一步说明的是，在本申请中注意力打分函数为点积模型，此外，注意力打分函数还可以为：

1.双线性模型：

，其中，/>表示注意力打分函数，/>表示第/>个基础向量特征，/>表示查询向量，/>表示学习参数，/>为正整数。

2.缩放点积模型：

其中，表示注意力打分函数，/>表示第/>个基础向量特征，/>表示查询向量，/>表示基础向量特征的维度，/>为正整数。

204、分别将基础卡通角色图像和音乐语音数据输入预置的时序神经网络，基于预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音；

由于生成的基础卡通角色图像与音乐语音数据均以一帧为生成单位，并无对应的时序顺序，无法生成连贯的动画，因此服务器利用预置的时序神经网络对基础卡通角色图像与音乐语音数据进行时序处理。预置的时序神经网络进行时序处理的具体过程如下：

输入层：将上一时刻待预测数据与当前待预测数据进行卷积计算，将得到第一卷积结果输入至第一隐藏层；

第一隐藏层：将上一时刻第一卷积结果与下一时刻第一卷积结果（中间间隔一个当前第一卷积结果）进行卷积计算，将得到的第二卷积结果输入至第二隐藏层；

第二隐藏层：将中间间隔三个第二卷积结果的前后两个第二卷积结果进行卷积计算，将得到的第三卷积结果输入至第三隐藏层；

第三隐藏层：将中间间隔七个第三卷积结果的前后两个第三卷积结果进行卷积计算，将得到的目标预测数据输入至输出层中；

输出层：将目标预测数据输出。

进一步说明的是，这里是分别对基础卡通角色图像与音乐语音数据进行时序处理，将得到的目标卡通角色图像和目标音乐语音进行合并，即得到了目标预测数据。

205、联合音乐内容数据、目标卡通角色图像和目标音乐语音，得到音乐卡通角色动画。

上面对本发明实施例中卡通角色动画的生成方法进行了描述，下面对本发明实施例中卡通角色动画的生成装置进行描述，请参阅图3，本发明实施例中卡通角色动画的生成装置一个实施例包括：

获取模块301，用于获取音乐参数数据，利用预置的统一码字符表对音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将音乐内容数据转化为音乐语音数据；计算模块302，用于在预置的卡通角色生成模型中提取音乐参数数据中音乐角色图像数据对应的卡通角色的基础向量特征，通过神经网络自注意力机制对基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，并计算基础向量特征的汇总向量特征，根据汇总向量特征生成基础卡通角色图像；预测模块303，用于分别将基础卡通角色图像和音乐语音数据输入预置的时序神经网络，基于预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音；联合模块304，用于联合音乐内容数据、目标卡通角色图像和目标音乐语音，得到音乐卡通角色动画。

请参阅图4，本发明实施例中卡通角色动画的生成装置的另一个实施例包括：

可选的，获取模块301包括：提取单元3011，用于获取音乐参数数据中的音乐文本数据，提取音乐文本数据中的文本字符；确定单元3012，用于在预置的统一码字符表中查找与文本字符相同的标准字符，将标准字符对应的字节编码作为对应文本字符的编码数据，将音乐文本数据中的文本字符对应的编码数据确定为音乐内容数据，每个标准字符对应一个字节编码；转化单元3013，用于采用语音生成模型将音乐内容数据转化为音乐语音数据。

可选的，转化单元3013具体用于：采用语音生成模型中的注音算法将音乐内容数据中每个文本字符转化为对应的音素信息；利用语音生成模型中的切分函数对音素信息进行切分，得到分节音素，并采用语音生成模型中的对齐函数对分节音素进行对齐，得到对齐音素；将对齐音素输入至语音生成模型中的时长预测模型中，通过时长预测模型对对齐音素进行音素时长的预测，得到预测时长；将音素信息以及预测时长输入至语音生成模型中的声学模型中，生成每个文本字符对应的声音波形，将多个声音波形进行拼接，得到音乐语音数据。

可选的，计算模块302包括：输入单元3021，用于将音乐参数数据中的音乐角色图像数据输入至预置的卡通角色生成模型中，在预置的卡通角色生成模型中提取音乐角色图像数据中的基础向量特征，基础向量特征至少包括卡通角色的微表情向量特征、手势向量特征和肢体动作向量特征；计算单元3022，用于通过预置的卡通角色生成模型中的神经网络自注意力机制计算基础向量特征的注意力分布；汇总单元3023，用于在增加微表情向量特征、手势向量特征和肢体动作向量特征的注意力分布所占权重的条件下，利用汇总公式对基础向量特征的注意力分布进行汇总，得到汇总向量特征，汇总公式为：

其中，表示汇总向量特征，/>表示微表情向量特征对应的注意力分布值，表示微表情向量特征对应加权注意力分布值，/>表示微表情向量特征，/>表示手势向量特征对应的注意力分布值，/>表示手势向量特征对应加权注意力分布值，/>表示手势向量特征，/>表示肢体动作向量特征对应的注意力分布值，/>表示肢体动作向量特征对应加权注意力分布值，/>表示肢体动作向量特征，/>表示第/>个剩余向量特征对应的注意力分布值，/>表示第/>个剩余向量特征对应加权注意力分布值，/>表示第/>个剩余向量特征，/>为正整数，剩余向量特征为除微表情向量特征、手势向量特征和肢体动作向量特征之外的基础向量特征；调整单元3024，用于采用交叉熵损失函数计算汇总向量特征的损失函数值，并通过损失函数值对汇总向量特征进行调整，利用调整后的汇总向量特征生成对应的基础卡通角色图像。

可选的，计算单元3022具体用于：获取音乐角色图像数据中的查询向量特征，查询向量特征用于表示音乐角色图像中与卡通角色相关的基础向量特征；利用预置的卡通角色生成模型中神经网络自注意力机制的计算公式计算在设定查询向量特征的条件下每个基础向量特征的注意力分布，计算公式为：

可选的，预测模块303具体用于：按照预置的输入时序分别对基础卡通角色图像和音乐语音数据进行排序，并将排序后的基础卡通角色图像和音乐语音数据整合为待预测数据；获取上一时刻待预测数据与当前时刻待预测数据，并将上一时刻待预测数据与当前时刻待预测数据输入预置的时序神经网络的隐藏层中，通过隐藏层、上一时刻待预测数据与当前时刻待预测数据对带预测数据进行卷积迭代计算，生成下一时刻待预测数据；对多个下一时刻待预测数据进行合并，得到目标预测数据，目标预测数据包括目标卡通角色图像和目标音乐语音。

可选的，卡通角色动画的生成装置还包括：生成模块305，用于获取音乐角色动画数据，利用神经网络自注意力机制对音乐角色动画数据进行训练，生成预置的卡通角色生成模型。

上面图3和图4从模块化功能实体的角度对本发明实施例中的卡通角色动画的生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中卡通角色动画的生成设备进行详细描述。

图5是本发明实施例提供的一种卡通角色动画的生成设备的结构示意图，该卡通角色动画的生成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）510（例如，一个或一个以上处理器）和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对卡通角色动画的生成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在卡通角色动画的生成设备500上执行存储介质530中的一系列指令操作。

卡通角色动画的生成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作***531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的卡通角色动画的生成设备结构并不构成对卡通角色动画的生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种卡通角色动画的生成设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述卡通角色动画的生成方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述卡通角色动画的生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种卡通角色动画的生成方法，其特征在于，所述卡通角色动画的生成方法包括：

获取音乐参数数据，利用预置的统一码字符表对所述音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将所述音乐内容数据转化为音乐语音数据；

在所述预置的卡通角色生成模型中提取所述音乐参数数据中音乐角色图像数据对应的卡通角色的基础向量特征，通过神经网络自注意力机制对所述基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，并计算所述基础向量特征的汇总向量特征，根据所述汇总向量特征生成基础卡通角色图像；

分别将所述基础卡通角色图像和所述音乐语音数据输入预置的时序神经网络，基于所述预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音；

联合所述音乐内容数据、所述目标卡通角色图像和所述目标音乐语音，得到音乐卡通角色动画；

所述在所述预置的卡通角色生成模型中提取所述音乐参数数据中音乐角色图像数据对应的卡通角色的基础向量特征，通过神经网络自注意力机制对所述基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，并计算所述基础向量特征的汇总向量特征，根据所述汇总向量特征生成基础卡通角色图像包括：

将所述音乐参数数据中的音乐角色图像数据输入至预置的卡通角色生成模型中，在所述预置的卡通角色生成模型中提取所述音乐角色图像数据中的基础向量特征，所述基础向量特征至少包括卡通角色的微表情向量特征、手势向量特征和肢体动作向量特征；

通过所述预置的卡通角色生成模型中的神经网络自注意力机制计算所述基础向量特征的注意力分布；

在增加所述微表情向量特征、所述手势向量特征和所述肢体动作向量特征的注意力分布所占权重的条件下，利用汇总公式对所述基础向量特征的注意力分布进行汇总，得到汇总向量特征，所述汇总公式为：

其中，表示汇总向量特征，/>表示微表情向量特征对应的注意力分布值，/>表示微表情向量特征对应加权注意力分布值，/>表示微表情向量特征，/>表示手势向量特征对应的注意力分布值，/>表示手势向量特征对应加权注意力分布值，/>表示手势向量特征，/>表示肢体动作向量特征对应的注意力分布值，/>表示肢体动作向量特征对应加权注意力分布值，/>表示肢体动作向量特征，/>表示第/>个剩余向量特征对应的注意力分布值，表示第/>个剩余向量特征，/>为正整数，所述剩余向量特征为除所述微表情向量特征、所述手势向量特征和所述肢体动作向量特征之外的基础向量特征。

2.根据权利要求1所述的卡通角色动画的生成方法，其特征在于，所述获取音乐参数数据，利用预置的统一码字符表对所述音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将所述音乐内容数据转化为音乐语音数据包括：

获取音乐参数数据中的音乐文本数据，提取所述音乐文本数据中的文本字符；

在预置的统一码字符表中查找与所述文本字符相同的标准字符，将所述标准字符对应的字节编码作为对应文本字符的编码数据，将所述音乐文本数据中的文本字符对应的编码数据确定为音乐内容数据，每个标准字符对应一个字节编码；

采用语音生成模型将所述音乐内容数据转化为音乐语音数据。

3.根据权利要求2所述的卡通角色动画的生成方法，其特征在于，所述采用语音生成模型将所述音乐内容数据转化为音乐语音数据包括：

采用语音生成模型中的注音算法将所述音乐内容数据中每个文本字符转化为对应的音素信息；

利用所述语音生成模型中的切分函数对所述音素信息进行切分，得到分节音素，并采用所述语音生成模型中的对齐函数对所述分节音素进行对齐，得到对齐音素；

将所述对齐音素输入至所述语音生成模型中的时长预测模型中，通过所述时长预测模型对所述对齐音素进行音素时长的预测，得到预测时长；

将所述音素信息以及所述预测时长输入至所述语音生成模型中的声学模型中，生成每个文本字符对应的声音波形，将多个声音波形进行拼接，得到音乐语音数据。

4.根据权利要求1所述的卡通角色动画的生成方法，其特征在于，在所述利用汇总公式对所述基础向量特征的注意力分布进行汇总，得到汇总向量特征之后，还包括：

采用交叉熵损失函数计算所述汇总向量特征的损失函数值，并通过所述损失函数值对所述汇总向量特征进行调整，利用调整后的汇总向量特征生成对应的基础卡通角色图像。

5.根据权利要求4所述的卡通角色动画的生成方法，其特征在于，所述通过所述预置的卡通角色生成模型中的神经网络自注意力机制计算所述基础向量特征的注意力分布包括：

获取所述音乐角色图像数据中的查询向量特征，所述查询向量特征用于表示所述音乐角色图像中与卡通角色相关的基础向量特征；

利用所述预置的卡通角色生成模型中神经网络自注意力机制的计算公式计算在设定所述查询向量特征的条件下每个基础向量特征的注意力分布，所述计算公式为：

其中，表示第/>个基础向量特征对应的注意力分布值，/>，/>表示注意力打分函数，/>表示第/>个基础向量特征，/>表示第/>个基础向量特征，/>表示查询向量，/>为正整数，所述基础向量特征包括微表情向量特征、手势向量特征、肢体动作向量特征和剩余向量特征。

6.根据权利要求1所述的卡通角色动画的生成方法，其特征在于，所述分别将所述基础卡通角色图像和所述音乐语音数据输入预置的时序神经网络，基于所述预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音包括：

按照预置的输入时序分别对所述基础卡通角色图像和所述音乐语音数据进行排序，并将排序后的基础卡通角色图像和音乐语音数据整合为待预测数据；

获取上一时刻待预测数据与当前时刻待预测数据，并将所述上一时刻待预测数据与所述当前时刻待预测数据输入预置的时序神经网络的隐藏层中，通过所述隐藏层、所述上一时刻待预测数据与当前时刻待预测数据对带预测数据进行卷积迭代计算，生成下一时刻待预测数据；

对多个所述下一时刻待预测数据进行合并，得到目标预测数据，所述目标预测数据包括目标卡通角色图像和目标音乐语音。

7.根据权利要求1-6中任一项所述的卡通角色动画的生成方法，其特征在于，在所述获取音乐参数数据，利用预置的统一码字符表对所述音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将所述音乐内容数据转化为音乐语音数据之前，所述卡通角色动画的生成方法还包括：

获取音乐角色动画数据，利用神经网络自注意力机制对所述音乐角色动画数据进行训练，生成预置的卡通角色生成模型。

8.一种卡通角色动画的生成装置，其特征在于，所述卡通角色动画的生成装置包括：

获取模块，用于获取音乐参数数据，利用预置的统一码字符表对所述音乐参数数据中的音乐文本数据进行编码，得到音乐内容数据，并采用语音生成模型将所述音乐内容数据转化为音乐语音数据；

计算模块，用于在所述预置的卡通角色生成模型中提取所述音乐参数数据中音乐角色图像数据对应的卡通角色的基础向量特征，通过神经网络自注意力机制对所述基础向量特征中的微表情向量特征、手势向量特征和肢体动作向量特征进行加权处理，并计算所述基础向量特征的汇总向量特征，根据所述汇总向量特征生成基础卡通角色图像；

预测模块，用于分别将所述基础卡通角色图像和所述音乐语音数据输入预置的时序神经网络，基于所述预置的时序神经网络分别生成目标卡通角色图像和目标音乐语音；

联合模块，用于联合所述音乐内容数据、所述目标卡通角色图像和所述目标音乐语音，得到音乐卡通角色动画；

所述计算模块，包括：

输入单元，用于将所述音乐参数数据中的音乐角色图像数据输入至预置的卡通角色生成模型中，在所述预置的卡通角色生成模型中提取所述音乐角色图像数据中的基础向量特征，所述基础向量特征至少包括卡通角色的微表情向量特征、手势向量特征和肢体动作向量特征；

计算单元，用于通过所述预置的卡通角色生成模型中的神经网络自注意力机制计算所述基础向量特征的注意力分布；

汇总单元，用于在增加所述微表情向量特征、所述手势向量特征和所述肢体动作向量特征的注意力分布所占权重的条件下，利用汇总公式对所述基础向量特征的注意力分布进行汇总，得到汇总向量特征，所述汇总公式为：

9.一种卡通角色动画的生成设备，其特征在于，所述卡通角色动画的生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述卡通角色动画的生成设备执行如权利要求1-7中任意一项所述的卡通角色动画的生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述卡通角色动画的生成方法。