CN110930481A

CN110930481A - 一种口型控制参数的预测方法和***

Info

Publication number: CN110930481A
Application number: CN201911266594.XA
Authority: CN
Inventors: 赵永驰; 李步宇; 渠思源
Original assignee: Beijing Huiye Technology Co Ltd
Current assignee: Beijing Huiye Technology Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-03-27
Anticipated expiration: 2039-12-11
Also published as: CN110930481B

Abstract

本申请实施例公开了一种口型控制参数的预测方法和***。所述方法包括：获取音频数据；至少基于音频数据以及机器学习模型确定口型控制参数；其中，口型控制参数至少能够反映与音频数据对应的动画人物的口型。

Description

一种口型控制参数的预测方法和***

技术领域

本申请涉及智能语音分析领域，特别涉及一种口型控制参数的预测方法和***。

背景技术

在动漫影视等领域，动画角色说话时的口型和/或面部表情是角色行为展示中的重要问题。为了使动画角色在说话时更生动形象，动画角色说话时的口型和/或面部表情往往基于其说话的音频由动画角色口型的各个控制器来确定。

目前，动画角色口型和/或面部表情的生成通常采用动画制作人员根据角色音频的内容、语气等信息来逐帧调整口型控制器参数，这样工作效率极低，对动画制作人员的要求也较高。还有一种方法是由表情捕捉设备捕捉配音演员在对动画角色配音时的口型和/或面部表情，再将数据导入动画制作软件由动画制作人员修正、调整，这样虽然提高了制作效率，但也增加了制作成本。

发明内容

本申请实施例之一提供一种口型控制参数的预测方法，所述方法包括：获取音频数据；至少基于音频数据以及机器学习模型确定口型控制参数，其中，所述口型控制参数至少能够反映与所述音频数据对应的动画人物的口型。

本申请实施例之一提供一种口型控制参数的预测***，所述***包括：音频数据模块，用于获取音频数据；口型控制参数确定模块，用于至少基于音频数据以及机器学习模型确定口型控制参数；其中，所述口型控制参数至少能够反映与所述音频数据对应的动画人物的口型。

本申请实施例之一提供一种口型控制参数的预测装置，包括处理器，所述处理器用于执行上述的口型控制参数的预测方法。

本申请实施例之一提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行上述口型控制参数的预测方法。

附图说明

本申请将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本申请一些实施例所示的口型控制参数的预测***的应用场景示意图；

图2是根据本申请一些实施例所示的口型控制参数的预测***的模块图；

图3是根据本申请一些实施例所示的口型控制参数的预测方法的示例性流程图；

图4是根据本申请一些实施例所示的确定口型控制参数的示例性子流程图；

图5是根据本申请一些实施例所示的机器学习模型使用过程的示例性示意图；

图6是根据本申请一些实施例所示的机器学习模型使用过程的示例性示意图；

图7是根据本申请一些实施例所示的机器学习模型使用过程的示例性示意图。

具体实施方式

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“***”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

通常，在游戏、电影、动漫等领域会出现一些动画角色，为了让这些动画角色能够生动地呈现出来，常会让不同的动画角色在说话时带有对应的面部表情和/或口型，其中，动画角色的面部表情和/或口型与它们的说话内容、语气、角色性格特征等相关联。在一些实施例中，动画角色的面部表情和/或口型可以由动画角色的嘴角、唇部、下巴、下颚等中的一个或多个面部位置的变化来确定。

在一些实施例中，动画制作人员可以通过角色音频里的说话内容、语气等信息，结合自己的经验，逐帧调整嘴型控制器的参数，最后生成动画角色说话时的面部表情和/或口型。采用这种方法会导致动画制作人员的工作量极大，动画制作效率低，往往一天只能做出几秒的精细动画。

在一些实施例中，可以通过配音演员来对动画角色进行配音，然后使用表情捕捉设备捕捉配音演员的嘴部动作，再将配音演员的嘴部动作数据导入动画制作软件，之后再由动画制作人员进行修正、调整，从而生成动画角色说话时的面部表情和/或口型。此方法和上述方法相比，动画效率提高了许多，但增加了配音演员和表情捕捉设备的经济成本，并且对配音演员的表演也会有较高的要求，从而会增加新的时间成本。

需要说明的是，本申请所披露的技术方案是利用机器学习模型对角色说话时对应的口型控制参数进行预测，最后根据口型控制参数自动生成动画角色说话时的面部表情和/或口型。本申请的技术方案可以由计算机执行，大大降低了人工成本，增加了动画制作的效率，并且提高了生成动画角色说话时面部表情和/或口型结果的精确度。

图1是根据本申请一些实施例所示的口型控制参数的预测***的应用场景示意图。

图1是根据本申请一些实施例所示的口型控制参数的预测***的应用场景示意图。如图1所示，预测***100可以包括处理设备110、网络120、终端130、存储设备140、播放器150。

在一些实施例中，处理设备110可以用于执行本说明书中披露的一个或以上功能。例如，处理设备110可以基于音频数据确定口型控制参数，又例如，处理设备110可以同时向终端输出一个或以上口型控制参数。在一些实施例中，处理设备110可以位于服务器侧；在一些实施例中，处理设备110可以位于终端130侧。在一些实施例中，处理设备可以包括一个或多个处理引擎(例如，单核心处理引擎或多核心处理器)。

在一些实施例中，网络120可促进数据和/或信息的交换。在一些实施例中，预测***100中的一个或多个组件(例如，处理设备110、显示终端130、存储设备140、播放器150)可通过网络120发送数据和/或信息给预测***100中的其他组件。例如，播放器150播放可以通过网络120读取或播放存储在存储设备140中的音频数据。又例如，处理设备110可以通过网络120获取存储设备140中的音频数据。在一些实施例中，网络120可是任意类型的有线或无线网络。预测***100的一个或多个组件可连接到网络120上以交换数据和/或信息。

在一些实施例中，终端130可以是带有数据获取、存储和/或显示功能的设备。在一些实施例中，终端130可以用于获取处理设备110输出的口型控制参数。在一些实施例中，终端130可以包括至少一个动画处理器，该至少一个动画处理器可以用于将口型控制参数处理生成为相应动画角色说话时的面部表情和/或口型。在一些实施例中，终端130可以包括显示装置，该显示器可以用于显示上述相应动画角色说话时的面部表情和/或口型。在一些实施例中，终端130可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等或其任意组合。

在一些实施例中，存储设备140可存储数据和/或指令。在一些实施例中，存储设备140可以存储供处理设备110执行或使用的数据和/或指令，处理设备110可以执行和/或使用所述数据和/或指令以实现本申请中描述的示例性方法。在一些实施例中，存储设备140可以存储播放器150正在播放或播放过的音频数据。在一些实施例中，存储设备可以存储历史音频数据和/或历史动画帧数。在一些实施例中，存储设备140的一部分可以设置在处理设备110上。例如，存储设备中用于存储操作指令和/或音频数据和/或历史动画帧数的那一部分可以设置在处理设备上。在一些实施例中，存储设备140的一部分也可以设置在播放器150上。例如，存储设备140中用于存储待播放的音频数据的那一部分可以设置在处理设备上。在一些实施例中，存储设备140可包括大容量存储器、可移动存储器、挥发性读写存储器(例如，随机存取存储器RAM)、只读存储器(ROM)等或以上任意组合。

在一些实施例中，播放器150至少包括音频播放器。在一些实施例中，播放器150可以仅播放音频数据，也可以播放带有声音的动画视频。在一些实施例中，音频数据可以通过播放器的播放出来，进而由处理设备110获取播放器播放的音频数据；在一些实施例中，存储在播放器150中的音频数据也可以通过网络发送给处理设备110。

图2是根据本申请一些实施例所示的口型控制参数的预测***的模块图。如图2所示，该预测***200可以包括音频数据获取模块210、口型控制参数确定模块220、输出模块230和训练模块240。

在一些实施例中，音频数据获取模块可以用于获取音频数据。

在一些实施例中，口型控制参数确定模块220可以用于至少基于音频数据以及机器学习模型确定口型控制参数；其中，所述口型控制参数至少能够反映与所述音频数据对应的动画人物的口型。在一些实施例中，所述口型控制参数包括嘴角控制参数、唇部控制参数、下巴控制参数、下颚控制参数中的一种或多种。在一些实施例中，口型控制参数确定模块220还可以用于基于预设算法对音频数据进行特征编码，确定编码特征。

在一些实施例中，口型控制参数确定模块220还可以用于基于音频数据确定目标音频单元，基于目标音频单元以及与其相邻的一个或多个相邻音频单元确定音频单元组；基于音频单元组以及机器学***均处理，处理结果作为目标音频单元对应的目标口型控制参数。

在一些实施例中，口型控制参数确定模块220还可以用于通过机器学习模型处理音频数据，以确定与口型控制参数对应的分类区间与偏差值。

在一些实施例中，输出模块230可以用于输出口型控制参数。

在一些实施例中，训练模块240可以用于获取确定口型控制参数的机器学习模型。在一些实施例中，训练模块240可以用于获取训练样本集，所述训练样本集包括历史音频数据以及与所述音频数据对应的历史口型控制参数；基于所述历史音频数据确定与所述历史口型控制参数对应的历史音频特征，并将其作为输入数据；把历史口型控制参数作为输出数据或参考标准；利用输入数据及对应的输出数据或参考标准训练初始机器学习模型，获得训练好的机器学习模型。

在一些实施例中，预测***200还包括动画帧数获取模块，所述动画帧数获取模块用于获取与所述音频数据对应的动画帧数；所述音频特征的个数与所述动画帧数相对应。

应当理解，图2所示的***及其模块可以利用各种方式来实现。例如，在一些实施例中，***及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行***，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和***可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的***及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

在一些实施例中，训练模块240可以设置在服务器侧的处理设备中，也可以设置在客户端的处理设备中，或者，部分训练模块设置在服务器侧的处理设备中，另一部分训练模块设置在客户端侧的处理设备中，因此用虚线表示。

需要注意的是，以上对于候选项显示、确定***及其模块的描述，仅为描述方便，并不能把本申请限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该***的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子***与其他模块连接。例如，在一些实施例中，例如，图2中披露的音频数据获取模块210、口型控制参数确定模块220、输出模块230和训练模块240可以是一个***中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，音频数据获取模块210、训练模块240可以是两个模块，也可以是一个模块同时具有获取和训练功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本申请的保护范围之内。

图3是根据本申请一些实施例所示的口型控制参数的预测方法的示例性流程图。

步骤310，获取音频数据。

在一些实施例中，步骤310可以由音频数据获取模块210执行。

在一些实施例中，音频数据可以理解为能够反映语音内容的数据信息。在一些实施例中，音频数据可以是一段声音信息。例如，播放器播放的声音或配音员在录音现场的配音。在一些实施例中，音频数据可以包括存储在存储设备中与对应某一段语音内容的音频文件。在一些实施例中，音频数据还可以包括与某一段语音内容对应的音频特征，所述音频特征可以直接输入机器学习模型进行使用。在一些实施例中，如果获取到的音频数据为声音信息，在输入机器学习模型或结合某些算法使用时需要先将其转化为对应的音频特征。

在一些实施例中，获取音频数据的方式可以包括处理设备直接获取存储设备中的音频数据，所述音频数据可以包括声音信息或音频特征。在一些实施例中，也可以包括获取配音员在录音现场配音的声音信息，后续将获取到的声音信息转化为对应的音频特征。在一些实施例中，也可以包括获取从播放器中播放出的声音信息，后续再经过处理转化为对应的音频特征。

步骤320，至少基于音频数据以及机器学习模型确定口型控制参数。

在一些实施例中，步骤320可以由口型控制参数确定模块220执行。

在一些实施例中，口型控制参数可以理解为能够反映动画中人物表情的参数信息，例如，指动画制作软件中口型或表情控制器的数值，在一些实施例中，该控制器的不同数值能够体现人物的不同表情。在一些实施例中，该控制器的数值可以是在空间上(例如X、Y、Z轴上)位置信息，在一些实施例中，该位置信息可以是坐标值。在一些实施例中，所述控制器至少包括嘴角控制器，用于反映人物的口型。在一些实施例中，所述控制器还包括唇部控制器、下巴控制器、下颚控制器等中的一个或多个，用于丰富人物的表情，以展示动画人物说话的内容、语气以及角色性格等。对应地，在一些实施例中，口型控制参数可以包括嘴角控制参数、唇部控制参数、下巴控制参数、下颚控制参数等中的一个或其任意组合。在一些实施例中，口型控制参数的形式可以包括字母、数字和符号中的一种或其组合，本说明书一个或多个实施例对此不做限定，只要其能够反映动画人物的表情即可。在一些实施例中，动画制作软件可以包括3DMAX、MAYA、LIGHTWAVE等，本发明对所采用的动画制作软件不作限制。

在一些实施例中，口型控制参数可以通过各控制器的数值来确定嘴角、唇部、以及下颚等一个或多个的位置，进而反映动画角色说话时的口型或表情。在一些实施例中，口型控制参数可以基于音频数据和机器学习模型来确定，也可以由动画制作人员在动画制作软件中直接输入或修改。

在一些实施例中，获取的音频数据是未进行特征编码的声音信息，就需要基于预设算法对所述音频数据进行特征编码，确定音频特征；然后将音频特征输入机器学习模型，以确定与所述音频特征对应的口型控制参数。在一些实施例中，可以基于预设算法对音频数据进行特征编码，确定音频特征。在一些实施例中，音频数据特征编码可以包括波形编码、参数编码和混合编码中的一种或其组合。在一些实施例中，音频数据特征编码的格式可以包括PCM编码、WAV格式、MPC编码、WMA格式等或其组合。在一些实施例中，音频特征是指由音频数据通过特征编码获得并且计算机能够处理的数字特征向量。在一些实施例中，音频特征可以包括但不限于感知线性预测系数(PLP)、线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)等特征参数。在一些实施例中，音频数据特征编码所采用的预设算法可以包括但不限于短时傅里叶变换(STFT)、小波变换、W-V变换等信号处理算法，本发明对音频数据特征编码所采用的算法不作限制。

在一些实施例中，至少基于音频特征和机器学习模型确定相应的口型控制参数可以包括：利用训练好的机器学习模型中对一个或以上音频特征进行预测，从而得到相应的口型控制参数。例如，把一段音频数据进行编码后的多个连续的音频特征输入到机器学习模型，可以得到与该段音频数据对应的多个或多组口型控制参数。在一些实施例中，机器学习模型可以包括监督学习模型、无监督学习模型和强化学习模型的一种或其组合。在一些实施例中，监督学习模型可以包括决策树、深度神经网络、SVM等或其组合。在一些实施例中，机器学习模型可以包括深度神经网络模型，例如MobileNet-V2网络模型。

在一些动画帧数确定的场景中，为了与每帧动画相匹配，可以获取与动画帧数对应个数的口型控制参数，即需要提前把该段动画对应的音频数据处理成与所述动画的帧数对应个数的音频特征。对应地，在一些实施例中，需要处理设备需要获取与所述音频数据对应的动画的帧数，然后基于预设算法对所述音频数据进行特征编码来确定音频特征时，音频特征的数量与所述动画的帧数相对应，在一些实施例中，相对应可以包括音频特征的数量与动画帧数的数量相同。

在一些实施例中，动画帧数可以从存储设备中获取。在一些实施例中，动画帧数为一段连续动画所包括帧的数量，其中，每一帧都是静止的图像。在一些实施例中，一段音频数据对应的动画是确定的，该动画的帧数也是确定的。为了预测出该动画在各帧画面中人物的面部表情，在进行特征编码时会将该段音频数据处理成与所述动画帧数相同数量的音频特征，以获得与各帧画面对应的口型控制参数。

在一些实施例中，可以直接获取一段音频数据对其进行特征编码，获得至少一个音频特征，再基于音频特征确定相应的口型控制参数，最后在根据口型控制参数确定与音频特征数量相同的动画帧数。

在一些实施例中，基于音频数据以及机器学习模型确定口型控制参数可以基于音频数据以及机器学习模型直接预测相应的口型控制参数；在一些实施例中，也可以基于音频数据以及机器学习模型还可以包括间接预测音频数据对应的口型控制参数的分类区间和偏差值，然后通过这两个值进一步确定口型控制参数。

在一些实施例中，如图5所示，将一帧或以上画面对应的音频数据和/或音频特征输入到训练好的机器学习模型一中进行预测，便可直接输出相应的口型控制参数。

在一些实施例中，可以采用同一个机器学习模型(例如，机器学习模型三)确定所要预测的口型控制参数对应的分类区间和偏差值。在一些实施例中，口型控制参数对应的分类区间可以是指口型控制参数值的取值范围。例如，根据口型控制参数的一般数值范围将分类区间设定为[0,1]；[1,2]；[2,3]；[3,4]；[4,5]。在一些实施例中，口型控制参数对应的偏差值可以是该口型控制参数的真实值与其分类区间的中心值的差值。在一些实施例中，口型控制参数对应的偏差值可以是正的，也可以是负的。在一些实施例中，口型在一些实施例中，口型控制参数对应的分类区间的中心值可以是分布在此区间中心的一个值，例如，分类区间[0,1]、[1,2]、[2,3]的中心值分别为0.5、1.5、2.5。在一些实施例中，预测的分类区间与偏差值确定后，可以将所在分类区间的中心值与偏差值的和作为口型控制参数的最终预测值。例如，一个音频特征输入机器学习模型后，预测的分类区间为[1,2]；预测的偏差值为0.8，则表示，该机器学习模型预测该音频特征对应的口型控制参数的值会落在[1,2]区间内，且该口型控制参数的值与该区间的中心值1.5的偏差为0.8，那么该口型控制参数的真实值为1.5与0.8的和，即2.3。

具体的，如图7所示，向机器学习模型三输入一帧或以上动画对应的音频数据或音频特征，得到相应的口型控制参数分类区间和偏差值，然后将口型控制参数的偏差值与其分类区间的中心值相加，便可以输出口型控制参数的真实值，该方案进行两次预测，一是大概预测口型控制参数的分布区间；二是预测口型控制参数与该分布区间的中心值的偏差，这样得到的口型控制参数更为准确，与对应的音频数据或音频特征更加匹配，从而可以提高生成面部表情和/或口型结果的精确度。

在一些实施例中，上述分类区间以及偏差值的预测也可以采用两个机器学习模型来分别预测。在一些实施例中，两个机器学习模型可以同时预测分类区间和偏差值；也可以其中一个先预测分类区间，另一个再预测偏差值。具体地，输入相同的音频数据或音频特征到两个训练好的机器学习模型，一个机器学习模型预测对应口型控制参数的分类区间，另一个机器学习模型预测对应口型控制参数的偏差值，然后将口型控制参数的偏差值与其分类区间的中心值相加，便可以输出口型控制参数的真实值。在一些实施例中，这两个机器学习模型可以是相同的，也可以是不同的。所述机器学习模型的类型在本说明书的其他部分介绍，在此不再赘述。

步骤330，输出口型控制参数。

在一些实施例中，步骤330可以由输出模块230执行。

在一些实施例中，处理设备确定口型控制参数后，可以把口型控制参数输出给终端以备使用，也可以把口型控制参数输出给存储器进行存储，终端需要使用时可以通过网络从存储器中获取。在一些实施例中，终端上至少包括一个数据接口，该数据接口可以用于接收由处理设备发送给终端的口型控制参数；在一些实施例中，终端也可以通过该数据接口从存储器中获取口型控制参数。

在一些实施例中，设置在终端上的动画制作软件包括一个或多个表情控制器，该控制器可以根据终端获取的口型控制参数来确定对应帧的动画图像中的人物表情。在一些实施例中，处理设备可以直接通过数据接口将口型控制参数输出至动画制作软件的控制器中；也可以通过数据接口把口型控制参数输出给终端设备，然后再由终端设备传输给动画制作软件。在一些实施例中，终端上的显示装置可以用于显示相应动画角色说话时每帧对应的口型或表情，还可以用于显示动画人物说对应语音内容时口型及表情的变化过程。

在一些实施例中，处理设备设置在服务器侧时，处理设备确定的口型控制参数可以通过网络以二进制代码形式传输给终端。在一些实施例中，处理设备设置在终端侧时，处理设备可以直接把口型控制参数发送到终端上动画制作软件的各表情控制器中。

应当注意的是，上述有关流程300的描述仅仅是为了示例和说明，而不限定本说明书一个或多个实施例的适用范围。对于本领域技术人员来说，在本说明书一个或多个实施例的指导下可以对流程300进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。例如，步骤320可以拆分为多个步骤；又例如，流程300中的所有步骤可以在包括一组指令的计算机可读介质中实现，指令可以以电子流或电信号的形式传输。

图4是根据本申请一些实施例所示的确定口型控制参数方法的示例性流程图。

在一些实施例中，为了获得更加稳定和准确的预测结果，可以对连续的几个音频特征进行同时预测，然后将多个预测结果取加权平均作为其中一个音频特征对应的预测值。在一些实施例中，可以将一段音频数据进行特征编码，选取其中连续的几个音频特征，并将同时输入到训练好的机器学***均处理，所得结果作为其中一个音频特征对应的口型控制参数。这样得到的口型控制参数稳定而准确，从而可以提高动画角色面部表情或口型生成的稳定性和准确性。

步骤410，基于所述音频数据确定目标音频单元。

在一些实施例中，可以基于音频数据确定目标音频单元。在一些实施例中，目标音频单元可以理解为想要预测对应口型控制参数的音频单元。目标音频单元可以是整段音频数据中任何一个音频单元。在一些实施例中，一段音频数据可以按时间分割成的多个单位音频片段，每个单位音频片段经特征编码后得到的音频特征便是音频单元。例如，1秒的音频数据可以按0.1秒分割成10个单位音频片段，对应就有10个音频单元。在一些实施例中，单位音频片段可以对应一帧画面。例如，一秒钟的动画可以包括30帧画面，一秒钟动画对应的音频数据经特征编码后可以得到30个连续的音频单元。

步骤420，基于所述目标音频单元以及与其相邻的一个或多个相邻音频单元确定音频单元组。

在一些实施例中，可以基于目标音频单元确定目标音频单元的相邻音频单元。在一些实施例中，相邻音频单元可以理解为在时间上与目标音频单元相邻的音频单元。例如，一段音频数据包括多个按照该音频的时间顺序进行排列的音频单元，其中，与目标音频单元相邻的一个或多个音频单元可以视为相邻音频单元。在一些实施例中，相邻音频单元可以包括与目标音频单元相邻的在目标音频单元前面的一个或以上音频单元和/或在目标音频单元后面的一个或以上音频单元。

在一些实施例中，目标音频单元和其相邻音频单元所构成的连续的音频单元可以作为音频单元组。在一些实施例中，音频单元组可以包括目标音频单元和在其前面的一个或以上相邻音频单元，也可以包括目标音频单元和在其前面的一个或以上相邻音频单元，还可以包括目标音频单元与在其前后的一个或以上相邻音频单元。例如，目标音频单元为音频单元i，音频单元组可以是音频单元i-1、音频单元i；也可以是音频单元i-2、音频单元i-1、音频单元i；也可以是音频单元i、音频单元i+1；也可以是音频单元i、音频单元i+1、音频单元i+2；也可以是音频单元i-1、音频单元i、音频单元i+1；也可以是音频单元i-2、音频单元i-1、音频单元i、音频单元i+1、音频单元i+2(i＝1,2,3……)。

步骤430，基于所述音频单元组以及所述机器学习模型确定与所述音频单元组中各音频单元对应的多个口型控制参数。

在一些实施例中，可以利用机器学习模型分别预测音频单元组中每个音频单元对应的口型控制参数，进而确定音频单元组中各音频单元对应的多个口型控制参数。具体地，在一些实施例中，可以把确定好的音频单元组输入机器学习模型，经过机器学习模型的处理输出多个口型控制参数，所述多个口型控制参数分别对应输入的音频单元组中各音频单元。例如，参照图6所示，某一音频单元组中各音频单元及其顺序包括：音频单元i-1、音频单元i、音频单元i+1，将该音频单元组输入机器学习模型二后，可以输出口型控制参数j-1、口型控制参数j、口型控制参数j+1，其中，口型控制参数j-1对应音频单元i-1，口型控制参数j对应音频单元i，口型控制参数j-1对应音频单元i+1。

步骤440，对所述多个口型控制参数做加权平均处理，处理结果作为所述目标音频单元对应的目标口型控制参数。

在一些实施例中，将音频单元组中各音频单元对应的多个口型控制参数进行加权平均处理，处理结果作为该音频单元组中目标音频单元对应的口型控制参数的最终预测值，即目标口型控制参数。这样可以减小每帧画面的口型控制参数偏差，使口型控制参数更加准确，提高动画角色面部表情和/或口型生成的稳定性。

在一些实施例中，在对音频单元组中各音频单元对应的多个口型控制参数进行加权平均处理时，可以对目标音频单元设置较大的权重，而对相邻音频单元设置相对较小的权重，另外，离目标音频单元越远的相邻音频单元权重越小。在一些实施例中，音频单元组中目标音频单元和相邻音频单元权重也可以相同，即对该音频单元组对应的多个口型控制参数进行算数平均处理，所得平均值为该音频单元组中目标音频单元对应的目标口型控制参数。

在一些实施例中，对音频单元组中各音频单元对应的多个口型控制参数进行加权平均处理和进行口型控制参数预测可以由同一个机器学***均处理，处理结果作为目标音频单元的目标口型控制参数。下面将对机器学习模型的训练过程进行介绍。在前文所述的一个或多个实施例中，所述机器学习模型可以通过如下方法获得：

获取训练样本集；利用训练样本集对初始机器学习模型进行训练，获得训练好的机器学习模型。训练样本集可以包括历史音频数据和所述历史音频数据对应的历史口型控制参数。在一些实施例中，将历史音频数据进行特征编码获得历史音频特征，并且将历史音频特征作为输入数据。在不同机器学习模型的实施例中，可以根据不同类型的机器学习模型来调整获得的历史口型控制参数以获得与不同机器学习模型对应的输出数据或参考标准。

在一些实施例中，训练的机器学习模型包括机器学习模型一时，可以直接把与所述历史音频特征对应的历史口型控制参数作为输出数据，把历史音频特征作为输入数据，并利用上述输入数据和输出数据开始训练初始机器学习模型一。在一些实施例中，经过一定数量的样本数据的训练可以获得训练好的机器学习模型。在一些实施例中，初始机器学习模型可以是的深度神经网络模型，例如，初始机器学习模型可以是MobileNet-V2网络模型。

在一些实施例中，训练的机器学习模型包括机器学习模型二时，可以将连续的三个历史音频特征作为历史音频特征组，将所述历史音频特征组作为输入数据。将与所述连续的三个历史音频特征对应的历史口型控制参数确定为历史口型控制参数组，并作为输出数据。利用所述输入数据和输出数据训练初始机器学习模型二。

在一些实施例中，训练的机器学习模型包括机器学习模型三时，可以将历史音频特征作为输入数据，基于与所述历史音频特征对应的历史口型控制参数确定分类区间以及偏差值，将所述分类区间作为参考标准，将偏差值作为输出数据，利用所述输入数据和所述输出数据、参考标准训练初始机器学习模型三。例如，在一些实施例中，历史口型控制参数为1.8，则可以确定所述历史口型控制参数所在的分类区间为[1,2]，且分类区间的中心值为1.5；所述历史口型控制参数与所述分类区间的中心点1.5的偏差值为0.3。

本申请实施例可能带来的有益效果包括但不限于：(1)减少了动画制作成本，增加了动画制作效率；(2)提高了口型控制参数的准确性和稳定性，使动画角色说话时的口型和/或面部表情更加生动自然。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的***组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的***。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims

1.一种口型控制参数的预测方法，所述方法由至少一个处理器执行，其特征在于，所述方法包括：

获取音频数据；

至少基于音频数据以及机器学习模型确定口型控制参数；其中，所述口型控制参数至少能够反映与所述音频数据对应的动画人物的口型。

2.根据权利要求1所述的方法，其特征在于，所述口型控制参数包括嘴角控制参数、唇部控制参数、下巴控制参数、下颚控制参数中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，所述至少基于音频数据以及机器学习模型确定口型控制参数包括：

基于预设算法对所述音频数据进行特征编码，确定音频特征；

基于所述音频特征以及机器学习模型确定与所述音频特征对应的口型控制参数。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：获取与所述音频数据对应的动画帧数；

所述音频特征的个数与所述动画帧数相等。

5.根据权利要求1所述的方法，其特征在于，所述至少基于音频数据以及机器学习模型确定口型控制参数包括：

基于所述音频数据确定目标音频单元；

基于所述目标音频单元以及与其相邻的一个或多个相邻音频单元确定音频单元组；

基于所述音频单元组以及所述机器学习模型确定与所述音频单元组中各音频单元对应的多个口型控制参数；

对所述多个口型控制参数做加权平均处理，处理结果作为所述目标音频单元对应的目标口型控制参数。

6.根据权利要求1所述的方法，其特征在于，所述至少基于音频数据以及机器学习模型确定口型控制参数包括：

通过机器学习模型处理所述音频数据，以确定与所述口型控制参数对应的分类区间与偏差值；

基于所述分类区间与所述偏差值确定所述口型控制参数。

7.根据权利要求1所述的方法，其特征在于，所述机器学习模型通过如下方法获取：

获取训练样本集，所述训练样本集包括历史音频数据以及与所述音频数据对应的历史口型控制参数；

基于所述历史音频数据确定与所述历史口型控制参数对应的历史音频特征，并基于所述历史音频特征作为输入数据；基于所述历史口型控制参数确定输出数据或参考标准；

利用输入数据及对应的输出数据和/或参考标准训练初始机器学习模型。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

输出所述口型控制参数。

9.一种口型控制参数的预测***，其特征在于，所述***包括：

音频数据模块，用于获取音频数据；

口型控制参数确定模块，用于至少基于音频数据以及机器学习模型确定口型控制参数；

其中，所述口型控制参数至少能够反映与所述音频数据对应的动画人物的口型。

10.根据权利要求9所述的***，其特征在于，所述口型控制参数包括嘴角控制参数、唇部控制参数、下巴控制参数、下颚控制参数中的一种或多种。

11.根据权利要求9所述的***，其特征在于，所述口型控制参数确定模块还用于：

12.根据权利要求11所述的***，其特征在于，所述***还包括动画帧数获取模块，用于获取与所述音频数据对应的动画帧数；

所述音频特征的个数与所述动画帧数相等。

13.根据权利要求9所述的***，其特征在于，所述口型控制参数确定模块还用于：

基于所述音频数据确定目标音频单元；

14.根据权利要求9所述的***，其特征在于，所述口型控制参数确定模块还用于：

基于所述分类区间与所述偏差值确定所述口型控制参数。

15.根据权利要求9所述的***，其特征在于，所述***包括训练模块，用于：

利用输入数据及对应的输出数据或参考标准训练初始机器学习模型。

16.根据权利要求9所述的***，其特征在于，所述***还包括输出模块，用于输出所述口型控制参数。

17.一种口型控制参数的预测装置，包括处理器，其特征在于，所述处理器用于执行如权利要求1～8任一项所述的口型控制参数的预测方法。

18.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1～8任一项所述的口型控制参数的预测方法。