CN117857892A - 基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质 - Google Patents
基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117857892A CN117857892A CN202410147225.3A CN202410147225A CN117857892A CN 117857892 A CN117857892 A CN 117857892A CN 202410147225 A CN202410147225 A CN 202410147225A CN 117857892 A CN117857892 A CN 117857892A
- Authority
- CN
- China
- Prior art keywords
- voice
- emotion
- processing
- sample
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 53
- 238000003672 processing method Methods 0.000 title claims abstract description 37
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000004590 computer program Methods 0.000 title claims abstract description 14
- 230000008451 emotion Effects 0.000 claims abstract description 423
- 238000012545 processing Methods 0.000 claims abstract description 188
- 238000000605 extraction Methods 0.000 claims abstract description 130
- 238000013507 mapping Methods 0.000 claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 62
- 230000004927 fusion Effects 0.000 claims abstract description 46
- 238000007499 fusion processing Methods 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000013506 data mapping Methods 0.000 claims description 15
- 230000036651 mood Effects 0.000 claims description 14
- 238000007476 Maximum Likelihood Methods 0.000 claims description 8
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 25
- 230000001815 facial effect Effects 0.000 description 38
- 230000002996 emotional effect Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 10
- 230000008921 facial expression Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 6
- 230000008909 emotion recognition Effects 0.000 description 6
- 206010002091 Anaesthesia Diseases 0.000 description 5
- 238000001949 anaesthesia Methods 0.000 description 5
- 230000037005 anaesthesia Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 206010063659 Aversion Diseases 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 208000007502 anemia Diseases 0.000 description 2
- 235000021016 apples Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000002027 skeletal muscle Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请提供了一种基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质,本申请实施例涉及语音处理技术,该方法包括:获取语音,并获取对应语音的情绪数据;对语音进行第一语音内容特征提取处理,得到对应语音的第一语音内容特征,并对情绪数据进行情绪特征提取处理,得到对应语音的情绪特征;对第一语音内容特征和情绪特征进行融合处理,得到对应语音的融合特征;对融合特征进行动画参数映射处理,得到对应语音的控制器参数;其中,控制器参数用于控制虚拟对象模型以目标形象进行呈现,目标形象与语音的内容以及情绪数据匹配。通过本申请,能够提高针对虚拟对象模型的目标形象驱动效率以及驱动准确度。
Description
技术领域
本申请涉及语音处理领域,尤其涉及一种基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
相关技术中为了实现虚拟对象的面部表情驱动,需要提前制作好对应不同音素的表情基,然后将语音转换成相应的音素,并通过复杂的规则将不同的表情基联合成完整的动画,相关技术仅能够实现基于音素的面部表情驱动,并且联合表情基的过程较为复杂,面部表情驱动效率较低且驱动准确度较低。
发明内容
本申请实施例提供一种基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质,能够提高针对虚拟对象模型的目标形象驱动效率以及驱动准确度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的数据处理方法,所述方法包括:
获取语音,并获取对应所述语音的情绪数据;
对所述语音进行第一语音内容特征提取处理,得到对应所述语音的第一语音内容特征,并对所述情绪数据进行情绪特征提取处理,得到对应所述语音的情绪特征;
对所述第一语音内容特征和所述情绪特征进行融合处理,得到对应所述语音的融合特征;
对所述融合特征进行动画参数映射处理,得到对应所述语音的控制器参数;
其中,所述控制器参数用于控制虚拟对象模型以目标形象进行呈现,所述目标形象与所述语音的内容以及所述情绪数据匹配。
本申请实施例提供一种基于人工智能的数据处理装置,包括:
获取模块,用于获取语音,并获取对应所述语音的情绪数据;
特征提取模块,用于对所述语音进行第一语音内容特征提取处理,得到对应所述语音的第一语音内容特征,并对所述情绪数据进行情绪特征提取处理,得到对应所述语音的情绪特征;
叠加处理模块,用于对所述第一语音内容特征和所述情绪特征进行融合处理,得到对应所述语音的融合特征;
映射处理模块,用于对所述融合特征进行动画参数映射处理,得到对应所述语音的控制器参数,其中,所述控制器参数用于控制虚拟对象模型以目标形象进行呈现,所述目标形象与所述语音的内容以及所述情绪数据匹配。
在上述方案中,所述获取模块,还用于执行以下处理中任意一种:获取对象输入的情绪数据;对所述语音进行第二语音内容特征提取处理,得到对应所述语音的第二语音内容特征,对所述第二语音内容特征进行情绪数据映射处理,得到对应所述语音的情绪数据。
在上述方案中,所述获取模块,还用于获取第一语音样本,并获取对应所述第一语音样本的情绪数据标签;通过初始化的情绪提取网络对所述第一语音样本进行第二语音内容特征提取处理,得到对应所述第一语音样本的第一样本语音内容特征;通过所述初始化的情绪提取网络对所述第一样本语音内容特征进行情绪数据映射处理,得到对应所述第一语音样本的预测情绪数据;基于对应所述第一语音样本的情绪数据标签和所述预测情绪数据,确定第一损失函数;基于所述第一损失函数,对所述初始化的情绪提取网络进行更新处理,得到经过训练的情绪提取网络。
在上述方案中,所述获取模块,还用于对所述第二语音内容特征进行全连接处理,得到第一线性映射结果;对所述第一线性映射结果进行最大似然处理,得到对应所述语音的情绪数据。
在上述方法中,所述特征提取模块,还用于获取训练样本以及所述训练样本的真实控制器参数,其中,所述训练样本包括第二语音样本以及对应所述第二语音样本的情绪数据样本;通过初始化的参数驱动模型执行以下处理:对所述第二语音样本进行第一语音内容特征提取处理,得到对应所述第二语音样本的第二样本语音内容特征,并对所述情绪数据样本进行情绪特征提取处理,得到对应所述第二语音样本的样本情绪特征;对所述第二样本语音内容特征和所述样本情绪特征进行融合处理,得到对应所述第二语音样本的样本融合特征;对所述样本融合特征进行动画参数映射处理,得到对应所述第二语音样本的预测控制器参数;基于所述预测控制器参数与所述真实控制器参数,确定第二损失函数,并基于所述第二损失函数对所述初始化的参数驱动模型进行更新处理,得到经过训练的参数驱动模型。
在上述方法中,所述特征提取模块,还用于从所述真实控制器参数中提取对应每个动画帧的真实控制参数;从所述预测控制器参数中提取对应每个所述动画帧的预测控制参数;针对每个所述动画帧执行以下处理:确定对应所述动画帧的真实控制参数与对应所述动画帧的预测控制参数之间的差值;对多个所述动画帧分别对应的差值进行融合处理,得到所述第二损失函数。
在上述方案中,所述映射处理模块,用于对所述融合特征进行基于注意力机制的前馈处理,得到对应所述语音的动画参数特征;对所述动画参数特征进行全连接处理,得到对应所述语音的控制器参数。
在上述方案中,所述映射处理模块,还用于通过N个级联的前馈网络中的第n前馈网络,对所述第n前馈网络的输入进行基于注意力机制的映射处理,得到第n映射结果,并将所述第n前馈网络输出的第n映射结果传输到第n+1前馈网络以继续进行基于注意力机制的映射处理,得到对应所述第n+1前馈网络的第n+1映射结果;将第N前馈网络输出的第N映射结果作为对应所述语音的所述动画参数特征;其中,n为取值从1开始递增的整数变量,n不小于1且小于N,当n取值为1时,所述第n前馈网络的输入为所述融合特征,当n取值不小于2且小于N时,所述第n前馈网络的输入为第n-1前馈网络输出的第n-1映射结果;所述基于注意力机制的前馈处理是通过注意力前馈网络实现的,所述注意力前馈网络包括N个级联的前馈网络,N是大于1的整数。
在上述方案中,当n取值不小于2且小于N时,所述映射处理模块,还用于对所述第n-1映射结果进行注意力处理,得到第n注意力特征;对所述第n-1映射结果和所述第n注意力特征进行相加处理,得到第n中间特征;对所述第n中间特征进行卷积处理,得到第n卷积特征;对所述第n卷积特征和所述第n中间特征进行相加处理,得到所述第n映射结果。
在上述方案中,所述映射处理模块,还用于获取每个所述注意力网络的查询矩阵、键矩阵以及值矩阵;通过每个所述注意力网络执行以下处理:基于所述注意力网络的查询矩阵、键矩阵以及值矩阵,对所述第n-1映射结果进行单头注意力处理,得到所述注意力网络对应的单头注意力结果;对多个所述注意力网络分别对应的单头注意力结果进行融合处理,得到所述第n注意力特征;所述第n前馈网络包括多个注意力网络。
本申请实施例提供一种电子设备,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的基于人工智能的数据处理方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时实现本申请实施例提供的基于人工智能的数据处理方法。
本申请实施例提供一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令被处理器执行时,实现本申请实施例提供的基于人工智能的数据处理方法。
本申请实施例具有以下有益效果:
通过获取语音,并获取对应语音的情绪数据,得到语音的内容和对应语音的情绪,对语音进行第一语音内容特征提取处理,得到对应语音的第一语音内容特征,用于对语音本身进行表征,并对情绪数据进行情绪特征提取处理,得到对应语音的情绪特征,用于对语音情绪进行表征,对语音内容特征和情绪特征进行融合处理,得到对应语音的融合特征,即同时可以表征语音本身特性以及情绪特性,并对融合特征进行动画参数映射处理,得到对应语音的控制器参数,控制器参数用于控制虚拟对象模型以目标形象进行呈现,目标形象与语音的内容以及情绪数据匹配,这里直接建立了特征到控制器参数的映射过程,从而可以直接得到用于驱动虚拟对象模型以目标形象进行呈现的控制器参数,提高驱动效率的同时,还从语音和情绪两个维度提高针对虚拟对象模型的目标形象的驱动效率。
附图说明
图1是本申请实施例提供的数据处理***的架构示意图;
图2是本申请实施例提供的服务器的结构示意图;
图3A是本申请实施例提供的基于人工智能的数据处理方法的流程示意图;
图3B是本申请实施例提供的基于人工智能的数据处理方法的可选流程图;
图4是本申请实施例提供的情绪提取网络的训练流程示意图;
图5A是本申请实施例提供的参数驱动模型的训练流程图;
图5B是本申请实施例提供的参数驱动模型的可选训练流程图;
图6是本申请实施例提供的语音面部驱动服务的后台服务流程图;
图7是本申请实施例提供的虚拟人直播的后台服务流程图;
图8是本申请实施例提供的参数驱动模型的架构示意图;
图9是本申请实施例提供的角色面部动画制作页面示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
除非另有定义,本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)四维扫描(4D Scan):在三维扫描的基础上,加上时间轴,每一帧都是一个扫描出来的三维模型。四维扫描介于三维扫描和动作捕捉之间,正常动画制作流程是三维扫描,清理模型,骨骼肌肉绑定,手动调试或利用动作捕捉数据制作动画。
2)人工智能生成内容(Artificial Intelligence Generative Content,AIGC):人工智能自动创作生成的内容,比如图片、视频、音乐、文字等。利用人工智能的理解力、想象力和创作力,根据指定的需求和风格,创作出各种内容,文章、短篇小说、报告、音乐、图像,甚至是视频。
3)波形转向量(wav2vec2)模型:是自动语音识别的预训练模型,通过预测语音被掩盖部分的语音单元来完成语音识别任务,首先使用多层卷积神经网络处理语音音频的原始波形,这些原始波形输入量化器和自注意力模型(transformer)中,量化器从学习的单元清单中选择一个语音单元作为潜在音频表征向量,自注意力模型从整个音频序列中添加信息,输出用于计算损失函数。波形转向量模型需要通过掩盖位置识别正确的量化语音单位。
4)语音操作角色动画(Voice Operated Character Animation,VOCA):可以让用户输入文本或语音,通过某种规则或者深度学习算法生成对应的虚拟对象人脸表情系数,从而完成虚拟对象的口型和面部表情的精准驱动,产生虚拟对象人脸动画。
近年来,虚拟人直播和生成式人工智能等相关技术爆火,相关技术在游戏制作领域也有很多的应用,比如语音合成,动作生成,三维面部动画生成等等。语音驱动面部方案是指将输入的语音信号转换成与之相关的面部表情和口型,这项技术可以应用于语音助手、虚拟人物、游戏等领域,使得人机交互更加智能化和人性化。通过语音驱动口型,可以使虚拟人物或动画角色的口型与语音同步,增加了人机交互的趣味性和真实感。
相关技术的语音驱动口型方案分为基于音视素的专家***方案和近些年比较流行的基于深度学习的方案。基于专家***的方案需要专业动画师提前制作好对应不同音素的表情基,然后将语音转换成相应的音素,并通过复杂的规则将不同的表情基联合成完整的动画。基于深度学习的方案获得语音信号的音频向量,将音频向量输入深度学习模型,输出三维人脸头模的三维顶点坐标变化。
申请人在实施本申请实施例时,发现相关技术存在以下问题:
1)基于音视素的专家***方法需要动画专家根据实际的人脸运动规律,对语音的音素和三维口型的做出详细的映射规则,费时费力,而且受限于动画专家的专业水平。
2)深度学习的方法直接将信号映射到三维模型的顶点云上,导致动画师对三维动画进行修改时,需要对三维模型的顶点进行修改,不利于三维动画进行二次修改,并且该方法没有针对语音中的情绪作额外的处理,导致无法合成与语音情绪相近的表情。
本申请实施例提供一种基于人工智能的数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品,能够提高针对虚拟对象模型的目标形象驱动效率以及驱动准确度。
本申请实施例所提供的基于人工智能的数据处理方法,可以由终端/服务器独自实现;也可以由终端和服务器协同实现,例如服务器独自承担下文的基于人工智能的数据处理方法,或者,终端获取语音以及情绪数据后,将语音以及情绪数据发送至服务器,服务器根据接收的语音以及情绪数据执行基于人工智能的数据处理方法。
参见图1,图1是本申请实施例提供的数据处理***100的架构示意图,为实现支撑一个基于人工智能的数据处理应用,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,终端400用于生成数据处理请求,例如,用户通过在终端400的图形界面410输入语音,终端400生成对应语音的数据处理请求,服务器200用于根据对应语音的数据处理请求,获取语音,并获取对应语音的情绪数据,对语音进行语音内容特征提取处理,得到对应语音的语音内容特征,并对情绪数据进行情绪特征提取处理,得到对应语音的情绪特征,对语音内容特征和情绪特征进行叠加处理,得到对应语音的叠加特征,对叠加特征进行动画参数映射处理,得到对应语音的控制器参数,其中,控制器参数用于控制虚拟对象模型以目标形象进行呈现,目标形象与语音的内容以及情绪数据匹配,服务器200将对应语音的控制器参数反馈至终端400,终端400根据对应语音的控制器参数,控制虚拟对象模型以目标形象进行呈现。
在一些实施例中,终端400用于生成数据处理请求,例如,用户通过在终端400的图形界面410输入语音以及情绪数据,终端400生成携带有语音以及情绪数据的数据处理请求,发送至服务器200,服务器200获取语音,并获取对应语音的情绪数据,对语音进行语音内容特征提取处理,得到对应语音的语音内容特征,并对情绪数据进行情绪特征提取处理,得到对应语音的情绪特征,对语音内容特征和情绪特征进行叠加处理,得到对应语音的叠加特征,对叠加特征进行动画参数映射处理,得到对应语音的控制器参数,其中,控制器参数用于控制虚拟对象模型以目标形象进行呈现,目标形象与语音的内容以及情绪数据匹配,服务器200将对应语音的控制器参数反馈至终端400,终端400根据对应语音的控制器参数,控制虚拟对象模型以目标形象进行呈现。
在一些实施例中,本申请实施例提供的数据处理方法可以应用于游戏领域,例如,在游戏开发阶段,通过本申请实施例提供的数据处理方法可以直接输入语音来控制虚拟对象模型以目标形象进行呈现,由于游戏中虚拟对象的展示形象迭代变化较快(例如,游戏人物A念出他的经典台词的过程即为该游戏人物A的动态展示形象),通过本申请实施例提供的数据处理方法可以伴随着语音的调整,随时控制虚拟对象模型以不同的目标形象进行呈现,从而提高了虚拟对象的展示形象迭代效率以及迭代准确度。例如,本申请实施例提供的数据处理方法还可以应用于游戏中的用户生成内容场景(User Generated Content,UGC)。例如,在UGC场景中,通过本申请实施例提供的数据处理方法,获取用户输入的语音以及情绪数据,可以自动控制虚拟对象模型以目标形象进行呈现,这里的目标形象与语音的内容以及情绪数据匹配,从而用户可以自主定制虚拟对象模型的目标形象,提高人机交互效率。例如,本申请实施例提供的数据处理方法还可以应用于游戏中的用户智能交互场景,例如,在用户智能交互场景中,获取用户输入的对话语音,生成用于答复对话语音的答复语音以及情绪数据,通过本申请实施例提供的数据处理方法,基于答复语音以及情绪数据,可以自动控制游戏中的智能非玩家角色(Non-Player Character,NPC)的虚拟对象模型以目标形象进行呈现并同时输出答复语音,这里的目标形象与答复语音的内容以及情绪数据匹配,即智能非玩家角色的口型符合答复语音的内容,智能非玩家角色的表情与动作与情绪数据匹配,从而形成NPC与用户进行智能对话的游戏效果,可以有效丰富人机交互方式并提高人机交互效率。
本申请实施例提供的数据处理方法还可以应用于直播场景,例如,在新闻直播场景中,通过虚拟主播进行直播,通过输入语音的方式可以自动控制虚拟主播的虚拟对象模型,使得虚拟主播以目标形象进行呈现,从而实现兼顾语音以及情绪的主播形象构建,提高直播过程中针对虚拟对象模型的驱动准确度以及驱动效率。
本申请实施例提供的用于执行数据处理方法的电子设备可以是各种类型的终端设备或服务器,在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
本申请实施例可应用于各种场景,包括但不限于人工智能等。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
参见图2,图2是本申请实施例提供的服务器200的结构示意图,图2所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线***240耦合在一起。可理解,总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(Digital Signal Processor,DSP),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(Random Access Memory,RAM)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***251,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他电子设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus,USB)等;
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器250中的基于人工智能的数据处理装置253,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2531、特征提取模块2532、叠加处理模块2533和映射处理模块2534,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,终端或服务器可以通过运行各种计算机可执行指令或计算机程序来实现本申请实施例提供的基于人工智能的数据处理方法。举例来说,计算机可执行指令可以是微程序级的命令、机器指令或软件指令。计算机程序可以是操作***中的原生程序或软件模块;可以是本地(Native)应用程序(Application,APP),即需要在操作***中安装才能运行的程序,如直播APP;也可以是可以嵌入至任意APP中的小程序,即只需要下载到浏览器环境中就可以运行的程序。总而言之,上述的计算机可执行指令可以是任意形式的指令,上述计算机程序可以是任意形式的应用程序、模块或插件。
下面,将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的基于人工智能的数据处理方法。如前所述,实现本申请实施例基于人工智能的数据处理方法的电子设备可以是终端、服务器,又或者是二者的结合。因此下文中不再重复说明各个步骤的执行主体。
需要说明的是,下文中的基于人工智能的数据处理方法的示例中,是以面部动画为例说明的,本领域技术人员根据对下文的理解,可以将本申请实施例提供的基于人工智能的数据处理方法应用于包括其他类型对象的动画处理。
参见图3A,图3A是本申请实施例提供的基于人工智能的数据处理方法的流程示意图,将结合图3A示出的步骤101至步骤104进行说明。
在步骤101中,获取语音,并获取对应语音的情绪数据。
作为示例,语音可以为一段含有语音的音频文件,也可以为一段即时语音,在虚拟对象形象动画制作应用场景中,语音通常为一个通过前置模块处理得到的语音,前置模块可以为能够实现文本转语音的处理模块,也可以为其他输出为语音的处理模块。对应语音的情绪数据为对语音内容所表达的各种情绪进行表征的矩阵。
作为示例,情绪数据可以是情绪强度矩阵,情绪强度矩阵是一维矩阵,每个位置对应不同的情绪类型,每个位置的数值表征对应情绪类型的情绪强度。例如,情绪强度矩阵为[1,0,0,0,0,0,0],第一个位置代表喜、第二个位置代表怒,第三个位置代表哀,第四个位置代表惊,第五个位置代表恐,第六个位置代表厌,第七个位置代表无情绪,这里相当于仅有喜这种情绪,且强度为1,强度的数值越高表征该类型的情绪越强烈。
在一些实施例中,步骤101中的获取对应语音的情绪数据,可以通过以下方式实现:执行以下处理中任意一种:获取对象输入的情绪数据;对语音进行第二语音内容特征提取处理,得到对应语音的第二语音内容特征,对第二语音内容特征进行情绪数据映射处理,得到对应语音的情绪数据。
作为示例,对应语音的情绪数据,可以是对象输入的情绪数据,例如,用户根据语音内容对应的情绪,自定义对应语音的情绪数据,也可以是对语音进行情绪提取得到的情绪数据,还可以是以对语音进行情绪提取得到的情绪数据为基础,由用户进行调整后得到的情绪数据,具体方式根据实际需要选择,本申请在此不作限制。
作为示例,当通过对语音进行情绪提取的方式获取情绪数据时,首先,通过情绪提
取网络中的第二语音内容特征提取网络对语音进行第二语音内容特征提取处理,得到对应
语音的第二语音内容特征,再通过情绪提取网络中的情绪识别网络对第二语音内容特征进
行情绪数据映射处理,得到对应语音的情绪数据,此处的第二语音内容特征提取网络可以
为wav2vec2模型,也可以为其他能够用于提取语音内容特征的模型,例如,对于语音A1“我
怎么会在这里?”,根据公式(1),通过wav2vec2模型对语音A1进行第二语音内容特征提取处
理,得到对应语音A1的第二语音内容特征:
(1)
其中,为wav2vec2模型的输出。再通过情绪识别网络对第二语音内容特
征进行情绪数据映射,得到对应语音A1的情绪数据,其中,情绪数据,对应语音A1的情绪数据={0,0,0,0.8,0.2,0},其中,为对应情绪“喜”的情
绪强度,为对应情绪“怒”的情绪强度,为对应情绪“哀”的情绪强度,为对应情绪
“惊”的情绪强度,为对应情绪“恐”的情绪强度,为对应情绪“厌”的情绪强度。
通过以用户自定义或语音情绪提取的方式,获取对应语音的情绪数据,一方面可以根据实际需要手动或者自动获取语音对应的情绪数据,另一方面使情绪数据所表征的情绪符合用户预期,进而使得根据情绪数据和语音所得到的控制器参数能够符合实际需要,从而使最终生成的面部动画与语音和语音情绪相匹配。
在一些实施例中,步骤101中的对第二语音内容特征进行情绪数据映射处理,得到对应语音的情绪数据,可以通过以下方式实现:对第二语音内容特征进行全连接处理,得到第一线性映射结果;对第一线性映射结果进行最大似然处理,得到对应语音的情绪数据。
作为示例,通过情绪识别网络对第二语音内容特征进行情绪数据映射处理,此
处的情绪识别网络由全连接层和归一化层组成,根据公式(2),通过全连接层和归一化层将
第二语音内容特征映射为对应语音A1的情绪数据:
(2)
其中,为全连接层对第二语音内容特征进行全连接处理得到的第
一线性映射结果,为归一化层(softmax层)对第一线性映射结果进行最大似然处理得到的输出结果,即对应语音A1的情绪数据。
通过对第二语音内容特征进行全连接处理和最大似然处理,对应语音的情绪数据,使得用于预测控制器参数的情绪数据能够作为一个预测结果输出,以保证能够根据实际需要,对预测得到的情绪数据进行调整,进而使得根据情绪数据和语音所得到的控制器参数能够符合实际需要,从而使最终生成的面部动画与语音和语音情绪相匹配。
在步骤102中,对语音进行第一语音内容特征提取处理,得到对应语音的第一语音内容特征,并对情绪数据进行情绪特征提取处理,得到对应语音的情绪特征。
作为示例,通过参数驱动模型中的第一语音内容特征提取网络,对语音A1进行第
一语音内容特征提取处理,此处的第一语音内容特征提取网络可以为wav2vec2模型,也可
以为其他能够用于提取语音内容特征的模型,此处以第一语音内容特征提取网络为
wav2vec2模型为例,通过公式(3),对语音A1进行第一语音内容特征提取处理,得到对应语
音A1的第一语音内容特征:
(3)
其中,为wav2vec2模型对语音A1进行第一语音内容特征提取处理
得到的输出。
作为示例,通过参数驱动模型中的情绪特征提取网络,根据公式(4),对对应语音
A1的情绪数据进行情绪特征提取处理,得到对应语音的情绪特征:
(4)
其中,为情绪数据的q维情绪数据中的第i维情绪数据,为情绪特征
提取网络对应的情绪特征提取结果,将q个情绪特征提取结果进行融合后,即得到情绪特
征。
在步骤103中,对第一语音内容特征和情绪特征进行融合处理,得到对应语音的融合特征。
作为示例,将对应语音A1的第一语音内容特征和情绪特征进行融合处理,得
到对应语音A1的融合特征。这里的融合处理,可以为叠加处理,也可以为拼接处理,
还可以为其他能够将不同特征进行融合的处理方法,本申请在此不作限制。
在步骤104中,对融合特征进行动画参数映射处理,得到对应语音的控制器参数。
作为示例,控制器参数用于控制虚拟对象模型以目标形象进行呈现,目标形象与语音的内容以及情绪数据匹配。
作为示例,这里的目标形象包括但是不限于面部形象、肢体形象等等。
作为示例,这里与情绪数据进行匹配,即为目标形象与情绪数据所表征的各个情绪类型对应的情绪强度匹配,例如,情绪数据中对应愤怒以及忧伤的强度分别是0.5和0.7,对应其他情绪类型的强度是0,目标形象会体现出适度的愤怒情绪以及较强的优势情绪。这里与语音匹配,可以有两种情况,可以是目标形象的口型与语音匹配,即目标形象看起来是在播报语音,还可以是目标形象整体与语音表征的指令含义匹配,即目标形象是响应于语音的动作或者表情,例如,语音是“抬手”,这里的目标形象则会呈现抬手的动作。
参见图3B,图3B是本申请实施例提供的基于人工智能的数据处理方法的可选流程图。在一些实施例中,图3A示出的步骤104可以通过图3B示出的步骤1041和步骤1042实现,下面进行详细说明。
在步骤1041中,对融合特征进行基于注意力机制的前馈处理,得到对应语音的动画参数特征。
在一些实施例中,步骤1041可以通过以下方式实现:通过N个级联的前馈网络中的第n前馈网络,对第n前馈网络的输入进行基于注意力机制的映射处理,得到第n映射结果,并将第n前馈网络输出的第n映射结果传输到第n+1前馈网络以继续进行基于注意力机制的映射处理,得到对应第n+1前馈网络的第n+1映射结果;将第N前馈网络输出的第N映射结果作为对应语音的动画参数特征。
作为示例,基于注意力机制的前馈处理是通过注意力前馈网络实现的,注意力前馈网络包括N个级联的前馈网络,N是大于1的整数,n为取值从1开始递增的整数变量,n不小于1且小于N,当n取值为1时,第n前馈网络的输入为融合特征,当n取值不小于2且小于N时,第n前馈网络的输入为第n-1前馈网络输出的第n-1映射结果。
作为示例,对于第1前馈网络,对第1前馈网络的输入(对于第1前馈网络,其输入为
对应语音A1的融合特征)进行基于注意力机制的前馈处理,得到第1前馈结果,并将
第1前馈网络输出的第1前馈结果,传输到第2前馈网络以继续进行基于注意力机制的映射
处理,得到对应第2前馈网络的第2前馈结果,以此类推,将第N前馈网络输出的第N映射结果
作为对应语音A1的动画参数特征。此处的前馈网络可以为前馈自注意力(Feed-Forward
Transformer,FFT)网络。
通过使用N个级联的注意力前馈网络,对融合特征进行多次基于注意力机制的前馈处理,得到对应语音的动画参数特征,使动画参数特征中蕴含的语音信息和情绪信息更加丰富且准确,进而使得根据情绪数据和语音所得到的控制器参数能够符合实际需要,从而使最终生成的面部动画与语音和语音情绪相匹配。
在一些实施例中,当n取值不小于2且小于N时,上述对第n前馈网络的输入进行基于注意力机制的映射处理,得到第n映射结果,可以通过以下方式实现:对第n-1映射结果进行注意力处理,得到第n注意力特征;对第n-1映射结果和第n注意力特征进行相加处理,得到第n中间特征;对第n中间特征进行卷积处理,得到第n卷积特征;对第n卷积特征和第n中间特征进行相加处理,得到第n映射结果。
作为示例,对于第1前馈网络,对融合特征进行注意力处理,得到第1注意
力特征,对融合特征和第1注意力特征进行相加处理,得到第1中间特征;对第1中间
特征进行卷积处理,得到第1卷积特征;对第1卷积特征和第1中间特征进行相加处理,得到
第1前馈结果;将第1前馈结果输入第2前馈网络,第2前馈网络则执行以下处理:对第1前馈
结果进行注意力处理,得到第2注意力特征,对第1前馈结果和第2注意力特征进行相加处
理,得到第2中间特征,对第2中间特征进行卷积处理,得到第2卷积特征;对第2卷积特征和
第2中间特征进行相加处理,得到第2前馈结果。
通过在前馈网络中,在进行注意力处理后,对第n-1映射结果和第n注意力特征进行残差处理,在进行卷积处理后,对第n中间特征和第n卷积特征进行残差处理,避免出现梯度消失问题,提高前馈网络的表达能力,使最终得到的动画参数特征中蕴含的语音信息和情绪信息更加准确,进而使得根据情绪数据和语音所得到的控制器参数能够符合实际要求,从而使最终生成的面部动画与语音和语音情绪相匹配。
在一些实施例中,当n取值不小于2且小于N时,上述对第n-1映射结果进行注意力处理,得到第n注意力特征,可以通过以下方式实现:获取每个注意力网络的查询矩阵、键矩阵以及值矩阵;通过每个注意力网络执行以下处理:基于注意力网络的查询矩阵、键矩阵以及值矩阵,对第n-1映射结果进行单头注意力处理,得到注意力网络对应的单头注意力结果;对多个注意力网络分别对应的单头注意力结果进行融合处理,得到第n注意力特征。
作为示例,第n前馈网络包括多个注意力网络。对于每个注意力网络,获取该注意力矩阵的查询权重矩阵、键权重矩阵以及值权重矩阵,将查询权重矩阵、键权重矩阵以及值权重矩阵分别与第n-1映射结果进行相乘,得到该注意力网络的查询矩阵、键矩阵以及值矩阵,首先计算查询矩阵和键矩阵的点积,然后将查询矩阵和键矩阵的点积除以键矩阵中的键向量的维度的平方根,得到相似度分数矩阵,对相似度分数矩阵进行归一化处理,得到归一化矩阵,以归一化矩阵与值矩阵进行矩阵乘法处理,得到该注意力网络对应的单头注意力结果。将第n前馈网络中的多个注意力网络分别对应的单头注意力结果进行融合处理,得到第n前馈网络的第n注意力特征。
通过在前馈网络中设置多个注意力网络,对前馈结果进行多头注意力处理,计算多个注意力矩阵,将对应多个注意力网络的注意力结果融合,提高注意力特征的准确性,使最终得到的动画参数特征中蕴含的语音信息和情绪信息更加准确,进而使得根据情绪数据和语音所得到的控制器参数能够符合实际要求,从而使最终生成的面部动画与语音和语音情绪相匹配。
在步骤1042中,对动画参数特征进行全连接处理,得到对应语音的控制器参数。
作为示例,控制器参数用于控制虚拟对象模型以目标形象进行呈现,目标形象与
语音的内容以及情绪数据匹配。通过参数驱动模型的全连接层,根据公式(5),对对应语音
A1的动画参数特征进行全连接处理,得到对应语音A1的控制器参数:
(5)
其中,为对应语音A1的动画参数特征,为全连接层对动画参数特
征进行全连接处理得到的输出结果。
通过对融合特征进行多头自注意力前馈处理,得到蕴含对应语音内容和语音情绪的准确信息的动画参数特征,再将动画参数特征映射为对应语音的控制器参数,从而根据控制器参数直接对虚拟对象模型的面部表情进行调整,而无需对虚拟对象模型的顶点进行调整,一方面能够生成与语音和情绪数据对应的面部动画,另一方面,便于动画制作人员操作,提高面部动画制作效率。
在一些实施例中,基于多个语音帧在语音中的时间序列,将多个语音帧划分为多个语音帧序列。
作为示例,语音包括多个语音帧,情绪数据包括多个情绪强度子矩阵,控制器参数
包括多个参数组合,每个所述语音帧序列与每个所述情绪强度子矩阵一一对应,每个所述
语音帧序列与每个所述控制参数一一对应。例如,对于语音为,其中,T为音
频的采样数,以16千赫兹音频为例,1秒语音的语音帧数为16000,(x=1,…,T)为第x个采
样点的语音信号,对应语音的真实控制器参数为,M为动画帧数,一般一秒
为50帧,(i=1,…,M)为第i帧动画帧对应的真实控制器参数,可见语音帧与真实控制参数
并非是一一对应的关系,由于语音帧数多于动画帧数,需要将语音帧根据时间序列进行划
分,将语音帧划分为与动画帧相对应的语音帧序列,并且每一个语音帧序列都具有对应的
用于表征情绪强度的情绪强度子矩阵,如此,即可将根据语音和对应语音的情绪数据预测
控制器参数的问题,细化为根据每个语音帧序列和对应每个语音帧序列的情绪强度子矩阵
预测对应的动画帧的真实控制参数的问题。
通过将语音的多个语音帧划分为与动画帧对应的语音帧序列,并根据每个语音帧序列和对应每个语音帧序列的情绪强度子矩阵预测对应的动画帧的真实控制参数,使每一个动画帧都能体现语音帧序列包含的语音内容和语音情绪,使生成的虚拟对象形象的面部动画更细致,更流畅,提高面部动画的表现效果。
在一些实施例中,获取对应每个语音帧序列的多个情绪强度值;对多个情绪强度值进行矩阵化处理,得到对应每个语音帧序列的情绪强度子矩阵;以对应多个语音帧序列的多个情绪强度子矩阵组合为情绪数据。
作为示例,每个情绪强度子矩阵包括对应每个语音帧序列的多个情绪的多个情绪
强度值,例如,每个情绪强度子矩阵表征对应喜,怒,哀,惊,恐,厌六种情绪,则其有对应这
六种情绪的六个情绪强度值、、、、、,将六个情绪强度值根据一定的规则
进行矩阵化处理,即可得到情绪强度子矩阵;再根据
情绪强度子矩阵对应的语音帧序列之间的时间序列关系,将多个情绪强度子矩阵进行组
合,即可得到对应语音的情绪数据。
通过以对应不同情绪的情绪强度值对情绪强度子矩阵进行表征,一方面能够以矩阵形式将复杂的情绪进行组合表征,使语音帧序列对应的情绪强度子矩阵表征的情绪更丰富且更准确,另一方面,以矩阵方式对情绪强度进行表征,易于理解,便于根据实际需要对情绪数据进行调整,进而使得根据情绪数据和语音所得到的控制器参数能够符合实际需要,从而使最终生成的面部动画与语音和语音情绪相匹配。
参见图4,图4是本申请实施例提供的情绪提取网络的训练流程示意图。在一些实施例中,在执行步骤101之前,还可以执行图4中示出的步骤201至步骤205,下面进行详细说明。
在步骤201中,获取第一语音样本,并获取对应第一语音样本的情绪数据标签。
作为示例,第一语音样本可以为一个包含语音内容的音频文件,对应第一语音样
本的情绪数据标签用于表征第一语音样本的对应的情绪,例如,对于第一语音样本A2“我不
喜欢吃苹果”,其所表达的情绪为厌恶,因此对应第一语音样本A2的情绪数据标签为={0,0,0,0,0,1},此处情绪数据标签表征了仅对
应一种情绪的情绪强度,即厌恶情绪的情绪强度(=1,其他情绪对应的情绪强度为0),在
实际使用中,也可以在情绪数据标签表征对应多种情绪的情绪强度,本申请在此不作限
制。
在步骤202中,通过初始化的情绪提取网络对第一语音样本进行第二语音内容特征提取处理,得到对应第一语音样本的第一样本语音内容特征。
作为示例,通过初始化的情绪提取网络中的第二语音内容特征提取网络对第一语
音样本A2进行第二语音内容特征提取处理,得到对应第一语音样本A2的第一样本语音内容
特征,该步骤的实现方式与步骤101中相同,此处不再赘述。
在步骤203中,通过初始化的情绪提取网络对第一样本语音内容特征进行情绪数据映射处理,得到对应第一语音样本的预测情绪数据。
作为示例,通过初始化的情绪提取网络中的情绪识别网络对第一样本语音内容特
征进行情绪数据映射处理,根据公式(6)得到对应第一语音样本A2的预测情绪数据:
(6)
其中,为全连接层对第一样本语音内容特征进行全连接处理得到
的第二线性映射结果,为归一化层(softmax层)对第二线性映射结
果进行最大似然处理得到的输出结果,即对应第一语音样本A2的预测情绪数据。
在步骤204中,基于对应第一语音样本的情绪数据标签和预测情绪数据,确定第一损失函数。
作为示例,根据公式(7),基于对应第一语音样本A2的情绪数据标签和预测情
绪数据,确定第一损失函数:
(7)
其中,为基于情绪数据标签和预测情绪数据计算的交叉熵损失函
数,第一损失函数也可以为其他类型的损失函数,本申请在此不作限制。
在步骤205中,基于第一损失函数,对初始化的情绪提取网络进行更新处理,得到经过训练的情绪提取网络。
作为示例,基于第一损失函数,对初始化的情绪提取网络进行更新处理,得到经
过训练的情绪提取网络,经过训练的情绪提取网络即可执行步骤101中的对语音进行第二
语音内容特征提取处理,得到对应语音的第二语音内容特征,对第二语音内容特征进行情
绪数据映射处理,得到对应语音的情绪数据,本申请实施例对于情绪提取网络的网络结构
不进行限定,即还可以是其他网络结构。
通过使用第一语音样本,对初始化的情绪提取网络进行更新处理,使得经过训练的情绪提取网络能够自动从语音中提取对应的情绪数据,以用于生成与语音和情绪匹配的虚拟对象形象的面部动画。
参见图5A,图5A是本申请实施例提供的参数驱动模型的训练流程图。在一些实施例中,在执行步骤101之前,还可以执行图5A示出的步骤301至步骤305,下面进行详细说明。
在步骤301中,获取训练样本以及训练样本的真实控制器参数。
作为示例,训练样本包括第二语音样本以及对应第二语音样本的情绪数据样本。
第二语音样本A3可以为一个包含语音内容的音频文件,对应第二语音样本A3的情绪数据样
本用于表征第二语音样本A3的对应的情绪,例如,对于第二语音样本A3“我不喜欢吃苹果”,
其所表达的情绪为厌恶,因此对应第二语音样本A3的情绪数据样本为={0,0,0,0,0,1},此处情绪数据样本表征了仅对
应一种情绪的情绪强度,即厌恶情绪的情绪强度(=1,其他情绪对应的情绪强度为0),在
实际使用中,也可以在情绪数据样本表征对应多种情绪的情绪强度,本申请在此不作限
制。对应第二语音样本A3和情绪数据样本的真实控制器参数,是能够体现第二语音样本
A3的语音内容和情绪的标准控制器参数。
通过初始化的参数驱动模型执行以下处理:
在步骤302中,对第二语音样本进行第一语音内容特征提取处理,得到对应第二语音样本的第二样本语音内容特征,并对情绪数据样本进行情绪特征提取处理,得到对应第二语音样本的样本情绪特征。
作为示例,通过初始化的参数驱动模型中的第一语音内容特征提取网络,对第二
语音样本A3进行第一语音内容特征提取处理,此处的第一语音内容特征提取网络可以为
wav2vec2模型,也可以为其他能够用于提取语音内容特征的模型,此处以第一语音内容特
征提取网络为wav2vec2模型为例,通过公式(8),对第二语音样本A3进行第一语音内容特征
提取处理,得到对应第二语音样本A3的第二样本语音内容特征:
(8)
其中,为wav2vec2模型对第二语音样本A3进行第一语音内容特征
提取处理得到的输出。
作为示例,通过初始化的参数驱动模型中的情绪特征提取网络,根据公式(9),对
对应第二语音样本A3的情绪数据样本进行情绪特征提取处理,得到对应第二语音样本
A3的样本情绪特征:
(9)
其中,为情绪数据样本的q维情绪数据中的第i维情绪数据,为情绪
特征提取网络对应的情绪特征提取结果,将q个情绪特征提取结果进行融合后,即得到样
本情绪特征。
在步骤303中,对第二样本语音内容特征和样本情绪特征进行融合处理,得到对应第二语音样本的样本融合特征。
作为示例,将对应第二语音样本A3的第二样本语音内容特征和样本情绪特征进行融合处理,得到对应第二语音样本A3的样本融合特征。这里的融合处理,
可以为叠加处理,也可以为拼接处理,还可以为其他能够将不同特征进行融合的处理方法,
本申请在此不作限制。
在步骤304中,对样本融合特征进行动画参数映射处理,得到对应第二语音样本的预测控制器参数。
作为示例,对样本融合特征。进行基于注意力机制的前馈处理,得到对应
第二语音样本A3的动画参数特征,对动画参数特征进行全连接处理,得到对应第二语音样
本A3的预测控制器参数。
在步骤305中,基于预测控制器参数与真实控制器参数,确定第二损失函数,并基于第二损失函数对初始化的参数驱动模型进行更新处理,得到经过训练的参数驱动模型。
参见图5B,图5B是本申请实施例提供的参数驱动模型的可选训练流程图。在一些实施例中,图5A的步骤305中的基于预测控制器参数与真实控制器参数,确定第二损失函数,可以通过图5B示出的步骤3051至步骤3054实现,下面进行详细说明。
在步骤3051中,从真实控制器参数中提取对应每个动画帧的真实控制参数。
作为示例,真实控制器参数为,其中,为动画帧数,为真实控制
器参数中对应第i个动画帧的真实控制参数。
在步骤3052中,从预测控制器参数中提取对应每个动画帧的预测控制参数。
作为示例,预测控制器参数为,其中,为动画帧数,为预测控制
器参数中对应第i个动画帧的预测控制参数。
在步骤3053中,针对每个动画帧执行以下处理:确定对应动画帧的真实控制参数与对应动画帧的预测控制参数之间的差值。
作为示例,计算第i个动画帧的真实控制参数和预测控制参数之间的差值=,依次类推,得到多个动画帧的真实控制参数与预测控制参数之间的多个差值。
作为示例,这里的差值可以是L1范数差值,还可以是L2范数差值,L1范数差值是绝对值,L2范数差值是对应各个类型的控制参数的差值的平方和。
在步骤3054中,对多个动画帧分别对应的差值进行融合处理,得到第二损失函数。
作为示例,这里可以直接对差值进行融合处理,得到第二损失函数,还可以对差值的平方进行融合处理,得到第二损失函数。
作为示例,将多个动画帧的真实控制参数与预测控制参数之间的多个差值进入融
合处理,得到第二损失函数,由于,,将对应多个动画帧的
差值=进行融合处理,可以用公式(10)进行表示:
(10)
其中,为对应第二语音样本A3的真实控制器参数,为对应第二语音样本A3的预
测控制器参数。基于第二损失函数对初始化的参数驱动模型进行更新处理,得到经过训
练的参数驱动模型。
通过基于每一个动画帧的真实控制参数和预测控制参数的差值,计算第二损失函数,以对初始化的参数驱动模型进行更新训练,相当于一次性使用多个子样本对初始化得到参数驱动模型进行训练,提高参数驱动模型的训练效率与准确度,以保证参数驱动模型根据语音和情绪数据所预测得到的控制器参数与语音和情绪数据匹配,进而生成与语音和情绪数据匹配的虚拟对象形象的面部动画。
通过使用第二语音样本对初始化的参数驱动模型进行训练,并根据预测控制器参数与真实控制器参数确定第二损失函数,以对初始化的参数驱动模型进行更新,得到参数驱动模型,以保证参数驱动模型根据语音和情绪数据所预测得到的控制器参数与语音和情绪数据匹配,进而生成与语音和情绪数据匹配的虚拟对象形象的面部动画。
下面,将说明本申请实施例在一个实际的虚拟人直播应用场景中的示例性应用。
参见图6,图6是本申请实施例提供的语音面部驱动服务的后台服务流程图。如图6所示,前置模块根据输入生成语音,语音驱动面部服务平台通过调用本申请实施例提供的参数驱动模型,对语音进行控制器参数预测处理,得到对应虚拟对象模型的控制器参数,其中,前置模块的类型根据实际需要确定,例如,在下述虚拟人直播的应用场景中,前置模块可以为集成了对话生成服务模块和语音合成服务模块的模块,在下述面部动画制作的应用场景中,前置模块还可以为语音文件输入模块。前置模块的类型根据上游任务的类型而选择,只要其输出为语音即可,本申请在此不作限制。
参见图7,图7是本申请实施例提供的虚拟人直播的后台服务流程图。如图7所示,在虚拟人直播场景中,抓取直播场景中的弹幕,经过对话生成服务模块生成回应弹幕的对话内容,经由语音合成服务模块将对话内容转换为语音,经由语音驱动面部服务模块生成对应语音的面部动画参数,即控制器参数,最终根据面部动画参数驱动虚拟人做出相应的面部动画,并配合语音,在客户端与弹幕进行交互。其中,语音驱动面部服务模块包括本申请实施例提供的参数驱动模型。
参见图8,图8是本申请实施例提供的参数驱动模型的架构示意图。如图8所示,参数驱动模型的输入为语音信号与情绪数据,一条语音信号对应一条情绪数据,例如,对于语音信号a1,对应情绪数据为[0.1,0.2,0.3,0.4,0.1,0.05],情绪数据是1维的。参数驱动模型的输出为绑定动画驱动***对应的面部动画参数,具体为控制器参数。其中,输入的情绪数据可以通过用户手动指定,也可以直接使用情绪识别模块从语音中提取。对于输入的语音信号,先通过语音内容特征提取网络从语音信号中提取语音内容特征。然后通过情绪特征提取网络,将情绪数据转化为情绪特征。将语音内容特征和情绪特征进行叠加处理,得到叠加特征,将叠加特征输入多层神经网络模型,该多层神经网络模型包括N个级联的前馈自注意力(Feed-Forward Transformer,FFT)模块,多层神经网络模型对叠加特征进行前馈自注意力处理,最终通过线性预测层对前馈自注意力处理结果进行回归,得到最后的面部动画参数,即控制器参数,动画驱动***根据控制器参数对多个虚拟人角色的面部进行驱动,从而实现多个不同角色的驱动效果。下面,对参数驱动模型的运算过程进行详细说明。
参数驱动模型主要由第一语音内容特征提取网络、情绪特征提取网络两部分构
成。在模型训练过程,输入情绪特征提取网络的情绪数据样本是人工根据语音和动画数据
标注的,训练阶段每个第二语音样本只有一个情绪,且强度为1,即人工只对语音标注[喜,
怒,哀,惊,恐,厌,无]中的一种情绪,如果标注的是喜,对应的情绪数据样本为[1,0,0,0,0,
0,0],其他以此类推。设与第二语音样本对应的语音信号为,其中,T为音频
的采样点数,以16千赫兹音频为例,1秒音频的采样数为16000,(x=1,…,T)为第x个采样
点的语音信号,对应语音信号的真实控制器参数为,M为动画帧数,一般一
秒为50帧,(i=1,…,M)为第i帧动画帧对应的真实控制器参数。将与第二语音样本对应的
语音信号输入第一语音内容特征提取网络(第一语音内容特征提取网络可以为wav2vec2模
型,也可以为其他可以用于提取语音内容特征的模型),通过公式(11)得到第二样本语音内
容特征:
(11)
其中,,(i=1,…,M)为第i帧动画帧对应的第二样本语音内容特
征,为wav2vec2模型对语音信号进行处理得到的输出。在得到
第二样本语音内容特征后,需要将人工标注的情绪数据样本输入情绪特征提取网络,,对应6种情绪,通过公式(12)得到样本情绪特征,其中,
情绪特征提取网络只有全连接层,情绪特征提取网络的输出为样本情绪特征:
(12)
其中,为情绪数据样本的6维情绪数据中的第i维情绪数据,为情绪特
征提取网络对应的情绪特征提取结果,将6个情绪特征提取结果进行融合后,即得到样本
情绪特征。
由于人工标注的情绪数据样本中只有一个非零数值,因此在训练阶段,可以将公
式(12)写作公式(13):
(13)
其中,为以情绪数据样本为输入的情绪特征提取网络的输出。
然后,将第二样本语音内容特征和样本情绪特征相融合,此处的融合可以是相加,
也可以是拼接,得到样本融合特征,并且将样本融合特征输入多层的前馈
自注意力(Feed-Forward Transformer,FFT)模块,获得样本动画特征。最终通过全连接层,
根据公式(14)将样本动画特征映射为预测控制器参数:
(14)
其中,为FFT模块的输出,为全连接层的输出。继续参见图8,前馈自注
意力(FFT)模块的架构如图8右侧所示,每个FFT模块主要包括多头注意力层和卷积层,FFT
模块的原始输入首先通过多头注意力层进行多头注意力处理,得到中间结果后,将原始输
入与中间结果进行残差处理,得到一个中间输入,中间输入通过卷积层进行卷积处理,得到
卷积结果,将卷积结果与中间输入进行残差处理,即得到该FFT模块的最终输出。
得到预测控制器参数后,通过公式(15)计算损失函数,并根据第二损失函数对参数驱动模型进行训练:
(15)
其中,为对应语音信号的真实控制器参数,为对应语音信号的预测控制器
参数。通过更新参数驱动模型的参数,最终得到一个输入为情绪标签(即情绪数据)和语音
信号,输出是控制器参数的参数驱动模型。
在上述训练过程中,所使用的情绪数据样本是人工标注的,而在应用过程中,有时并不能通过人工标注提供与语音对应的情绪数据,此时可以通过使用情绪提取网络对语音自动进行情绪提取,得到与语音对应的情绪数据,下面进行详细说明。
需要构建一个用于语音情绪自动提取的情绪提取网络,情绪提取网络包括一个用
于提取语音内容特征的wav2vec2模块作为第二语音内容特征提取网络(该部分也可以为其
他可以用于提取语音内容特征的模型)、全连接层以及归一化层(softmax层)。在情绪提取
网络训练过程中,首先需要构建一个第一语音样本和情绪数据标签的平行数据对,
其中是第一语音样本,是第一语音样本对应的情绪数据标签,,将语音输入情绪提取网络的wav2vec2模块,根据公式
(16)得到第一样本语音内容特征:
(16)
其中,为wav2vec2模块的输出。
然后,将第一样本语音内容特征输入全连接层和归一化层(softmax层),根据公
式(17)得到6种情绪的分布概率,即预测情绪数据:
(17)
其中,为全连接层对第一样本语音内容特征进行全连接处理得到的
第二线性映射结果,为对第二线性映射结果进行最大似
然处理得到的输出结果,即对应第一语音样本的预测情绪数据,。
最后,通过公式(18)计算交叉熵损失函数(即第一损失函数),以对情绪提取网
络进行训练,实现网络优化:
(18)
其中,是第一语言样本对应的情绪数据标签,
为第一语言样本所对应的预测情绪数据,,
为根据情绪数据标签和预测情绪数据计算的交叉熵损失函数。
最终的预测情绪数据即可作为应用侧中输入参数驱动模型的情绪数据。
在实际应用过程中,可以直接向参数驱动模型输入一条语音,以及与语音对应的情绪数据,情绪数据可以是通过情绪提取网络提取得到的情绪数据,也可以是用户对通过情绪提取网络提取得到的结果进行自定义调整后的情绪数据,还可以是用户自定义的情绪数据,表1为情绪数据示例表。
表1:情绪数据示例表
通过情绪特征提取网络,对情绪数据进行情绪特征提取处理,根据公式(19),得到
对应情绪数据的情绪特征:
(19)
其中,为情绪数据的6维情绪数据中的第i维情绪数据,为情绪特征提取
网络对应的情绪特征提取结果,将6个情绪特征提取结果进行融合后,即得到情绪特征。
至此,得到与语音对应的第一语音内容特征和情绪特征,将第一语音内容特征和情绪特征进行融合处理后,输入多层的FFT模块中进行前馈自注意力处理,并通过全连接层进行映射,最终得到与语音对应的控制器参数。
下面,将说明本申请实施例在一个实际的面部动画制作应用场景中的示例性应用。
获取语音以及对应的情绪数据后,调用参数驱动模型对语音以及对应的情绪数据进行控制器参数预测处理,得到对应语音的控制器参数,动画驱动***根据控制器参数,对虚拟对象面部模型的控制器参数进行调整,控制虚拟对象模型以目标形象进行呈现,得到与语音以及情绪数据匹配的目标面部表情。
参见图9,图9是本申请实施例提供的角色动画制作页面示意图。如图9所示,通过上传音频文件将语音A发送至服务器,服务器中部署的情绪提取网络和参数驱动模型对语音A进行处理,得到对应语音A的控制器参数,并将控制器参数反馈至终端,终端的角色动画制作页面中显示对应不同情绪的控制器,包括分别对应喜、怒、哀、惊、恐、厌的六个控制器,对应情绪数据中的喜、怒、哀、惊、恐、厌的六种情绪,根据对应语音的控制器参数,对六个控制器分别进行调整,从而实现对角色动画的调整。具体而言,终端接收用户针对语音A的上传操作,获取语音A,并在角色动画制作页面中的交互界面901显示音频文件为语音A。交互界面901的动画生成面板中包括手动模式控件902和自动模式控件903。响应于针对手动模式控件902的选中操作,手动模式控件902处于选中状态,面部动画生成面板中的情绪控制器904进入可编辑状态,此时用户可以针对任一情绪的情绪控制器的进度条进行滑动操作,例如,响应于分别对应喜、怒、哀、惊、恐、厌六种情绪的六个情绪控制器的进度条的滑动操作,显示分别对应喜、怒、哀、惊、恐、厌六种情绪的六个情绪强度数据,以六个情绪强度数据组成对应语音A的情绪数据。终端获取将语音A和情绪数据发送至服务器,服务器调用参数驱动模型,对语音A和情绪数据进行参数预测处理,得到对应语音A和情绪数据的控制器参数,终端根据控制器参数驱动角色面部模型呈现与语音A和情绪数据对应的目标形象(此时的目标形象为角色面部模型的目标面部表情以及口型),并在交互界面901的显示区域中呈现角色面部模型的目标形象。响应于针对自动模式控件903的选中操作,自动模式控件903处于选中状态,终端将语音A发送至服务器,服务器调用情绪提取网络对语音A进行情绪提取处理,得到对应语音A的情绪数据,服务器调用参数驱动模型,对语音A和情绪数据进行参数预测处理,得到对应语音A和情绪数据的控制器参数,终端根据控制器参数,驱动角色面部模型呈现与语音A和情绪数据对应的目标形象,并在交互界面901的显示区域中进行显示,响应于针对生成面部动画控件的触发操作,生成角色面部模型的面部动画,即还可以生成角色面部模型的头部动画。在生成面部动画时,控制器参数包括角色面部模型的表情以及口型的控制参数,而在生成角色面部模型的头部动画时,控制器参数则是还包括对应角色面部模型的头部动作的控制参数,如点头、摇头、歪头等头部动作,并在交互界面901的显示区域中呈现角色面部模型的目标形象,响应于针对生成头部动画控件的触发操作,生成头部动画。
本申请实施例在驱动效果上更流畅,并且采用输出控制器参数的方案,可以有效提高开发者的用户体验,通过语音自动情绪提取,可以根据输入的语音自动适配不同的情绪动画。
下面继续说明本申请实施例提供的基于人工智能的数据处理装置253的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的基于人工智能的数据处理装置253中的软件模块可以包括:获取模块2531,用于获取语音,并获取对应语音的情绪数据;特征提取模块2532,用于对语音进行第一语音内容特征提取处理,得到对应语音的第一语音内容特征,并对情绪数据进行情绪特征提取处理,得到对应语音的情绪特征;叠加处理模块2533,用于对第一语音内容特征和情绪特征进行融合处理,得到对应语音的融合特征;映射处理模块2534,用于对融合特征进行动画参数映射处理,得到对应语音的控制器参数,其中,控制器参数用于控制虚拟对象模型以目标形象进行呈现,目标形象与语音的内容以及情绪数据匹配。
在一些实施例中,获取模块2531,还用于执行以下处理中任意一种:获取对象输入的情绪数据;对语音进行第二语音内容特征提取处理,得到对应语音的第二语音内容特征,对第二语音内容特征进行情绪数据映射处理,得到对应语音的情绪数据。
在一些实施例中,获取模块2531,还用于获取第一语音样本,并获取对应第一语音样本的情绪数据标签;通过初始化的情绪提取网络对第一语音样本进行第二语音内容特征提取处理,得到对应第一语音样本的第一样本语音内容特征;通过初始化的情绪提取网络对第一样本语音内容特征进行情绪数据映射处理,得到对应第一语音样本的预测情绪数据;基于对应第一语音样本的情绪数据标签和预测情绪数据,确定第一损失函数;基于第一损失函数,对初始化的情绪提取网络进行更新处理,得到经过训练的情绪提取网络。
在一些实施例中,获取模块2531,还用于对第二语音内容特征进行全连接处理,得到第一线性映射结果;对第一线性映射结果进行最大似然处理,得到对应语音的情绪数据。
在一些实施例中,特征提取模块2532,还用于获取训练样本以及训练样本的真实控制器参数,其中,训练样本包括第二语音样本以及对应第二语音样本的情绪数据样本;通过初始化的参数驱动模型执行以下处理:对第二语音样本进行第一语音内容特征提取处理,得到对应第二语音样本的第二样本语音内容特征,并对情绪数据样本进行情绪特征提取处理,得到对应第二语音样本的样本情绪特征;对第二样本语音内容特征和样本情绪特征进行融合处理,得到对应第二语音样本的样本融合特征;对样本融合特征进行动画参数映射处理,得到对应第二语音样本的预测控制器参数;基于预测控制器参数与真实控制器参数,确定第二损失函数,并基于第二损失函数对初始化的参数驱动模型进行更新处理,得到经过训练的参数驱动模型。
在一些实施例中,特征提取模块2532,还用于从真实控制器参数中提取对应每个动画帧的真实控制参数;从预测控制器参数中提取对应每个动画帧的预测控制参数;针对每个动画帧执行以下处理:确定对应动画帧的真实控制参数与对应动画帧的预测控制参数之间的差值;对多个动画帧分别对应的差值进行融合处理,得到第二损失函数。
在一些实施例中,映射处理模块2534,用于对融合特征进行基于注意力机制的前馈处理,得到对应语音的动画参数特征;对动画参数特征进行全连接处理,得到对应语音的控制器参数。
在一些实施例中,映射处理模块2534,还用于通过N个级联的前馈网络中的第n前馈网络,对第n前馈网络的输入进行基于注意力机制的映射处理,得到第n映射结果,并将第n前馈网络输出的第n映射结果传输到第n+1前馈网络以继续进行基于注意力机制的映射处理,得到对应第n+1前馈网络的第n+1映射结果;将第N前馈网络输出的第N映射结果作为对应语音的动画参数特征;其中,n为取值从1开始递增的整数变量,n不小于1且小于N,当n取值为1时,第n前馈网络的输入为融合特征,当n取值不小于2且小于N时,第n前馈网络的输入为第n-1前馈网络输出的第n-1映射结果;基于注意力机制的前馈处理是通过注意力前馈网络实现的,注意力前馈网络包括N个级联的前馈网络,N是大于1的整数。
在一些实施例中,当n取值不小于2且小于N时,映射处理模块2534,还用于对第n-1映射结果进行注意力处理,得到第n注意力特征;对第n-1映射结果和第n注意力特征进行相加处理,得到第n中间特征;对第n中间特征进行卷积处理,得到第n卷积特征;对第n卷积特征和第n中间特征进行相加处理,得到第n映射结果。
在一些实施例中,映射处理模块2534,还用于获取每个注意力网络的查询矩阵、键矩阵以及值矩阵;通过每个注意力网络执行以下处理:基于注意力网络的查询矩阵、键矩阵以及值矩阵,对第n-1映射结果进行单头注意力处理,得到注意力网络对应的单头注意力结果;对多个注意力网络分别对应的单头注意力结果进行融合处理,得到第n注意力特征;第n前馈网络包括多个注意力网络。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机可执行指令,该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的基于人工智能的数据处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于人工智能的数据处理方法,例如,如图3A示出的基于人工智能的数据处理方法。
在一些实施例中,计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(Hyper TextMarkup Language,HTML)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过获取语音,并获取对应语音的情绪数据,得到语音的内容和对应语音的情绪,对语音进行第一语音内容特征提取处理,得到对应语音的第一语音内容特征,用于对语音本身进行表征,并对情绪数据进行情绪特征提取处理,得到对应语音的情绪特征,用于对语音情绪进行表征,对语音内容特征和情绪特征进行融合处理,得到对应语音的融合特征,即同时可以表征语音本身特性以及情绪特性,并对融合特征进行动画参数映射处理,得到对应语音的控制器参数,控制器参数用于控制虚拟对象模型以目标形象进行呈现,目标形象与语音的内容以及情绪数据匹配,这里直接建立了特征到控制器参数的映射过程,从而可以直接得到用于驱动虚拟对象模型以目标形象进行呈现的控制器参数,提高驱动效率的同时,还从语音和情绪两个维度提高针对虚拟对象模型的目标形象的驱动效率。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (14)
1.一种基于人工智能的数据处理方法,其特征在于,所述方法包括:
获取语音,并获取对应所述语音的情绪数据;
对所述语音进行第一语音内容特征提取处理,得到对应所述语音的第一语音内容特征,并对所述情绪数据进行情绪特征提取处理,得到对应所述语音的情绪特征;
对所述第一语音内容特征和所述情绪特征进行融合处理,得到对应所述语音的融合特征;
对所述融合特征进行动画参数映射处理,得到对应所述语音的控制器参数;
其中,所述控制器参数用于控制虚拟对象模型以目标形象进行呈现,所述目标形象与所述语音的内容以及所述情绪数据匹配。
2.根据权利要求1所述的方法,其特征在于,所述获取对应所述语音的情绪数据,包括:
执行以下处理中任意一种:
获取对象输入的情绪数据;
对所述语音进行第二语音内容特征提取处理,得到对应所述语音的第二语音内容特征,对所述第二语音内容特征进行情绪数据映射处理,得到对应所述语音的情绪数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述第二语音内容特征进行情绪数据映射处理,得到对应所述语音的情绪数据,包括:
对所述第二语音内容特征进行全连接处理,得到第一线性映射结果;
对所述第一线性映射结果进行最大似然处理,得到对应所述语音的情绪数据。
4.根据权利要求1所述的方法,其特征在于,所述情绪数据是通过调用经过训练的情绪提取网络得到的;所述方法还包括:
获取第一语音样本,并获取对应所述第一语音样本的情绪数据标签;
通过初始化的情绪提取网络对所述第一语音样本进行第二语音内容特征提取处理,得到对应所述第一语音样本的第一样本语音内容特征;
通过所述初始化的情绪提取网络对所述第一样本语音内容特征进行情绪数据映射处理,得到对应所述第一语音样本的预测情绪数据;
基于对应所述第一语音样本的情绪数据标签和所述预测情绪数据,确定第一损失函数;
基于所述第一损失函数,对所述初始化的情绪提取网络进行更新处理,得到经过训练的情绪提取网络。
5.根据权利要求1所述的方法,其特征在于,所述控制器参数是通过调用经过训练的参数驱动模型得到的;所述方法还包括:
获取训练样本以及所述训练样本的真实控制器参数,其中,所述训练样本包括第二语音样本以及对应所述第二语音样本的情绪数据样本;
通过初始化的参数驱动模型执行以下处理:
对所述第二语音样本进行第一语音内容特征提取处理,得到对应所述第二语音样本的第二样本语音内容特征,并对所述情绪数据样本进行情绪特征提取处理,得到对应所述第二语音样本的样本情绪特征;
对所述第二样本语音内容特征和所述样本情绪特征进行融合处理,得到对应所述第二语音样本的样本融合特征;
对所述样本融合特征进行动画参数映射处理,得到对应所述第二语音样本的预测控制器参数;
基于所述预测控制器参数与所述真实控制器参数,确定第二损失函数,并基于所述第二损失函数对所述初始化的参数驱动模型进行更新处理,得到经过训练的参数驱动模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述预测控制器参数与所述真实控制器参数,确定第二损失函数,包括:
从所述真实控制器参数中提取对应每个动画帧的真实控制参数;
从所述预测控制器参数中提取对应每个所述动画帧的预测控制参数;
针对每个所述动画帧执行以下处理:确定对应所述动画帧的真实控制参数与对应所述动画帧的预测控制参数之间的差值;
对多个所述动画帧分别对应的差值进行融合处理,得到所述第二损失函数。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述对所述融合特征进行动画参数映射处理,得到对应所述语音的控制器参数,包括:
对所述融合特征进行基于注意力机制的前馈处理,得到对应所述语音的动画参数特征;
对所述动画参数特征进行全连接处理,得到对应所述语音的控制器参数。
8.根据权利要求7所述的方法,其特征在于,所述基于注意力机制的前馈处理是通过注意力前馈网络实现的,所述注意力前馈网络包括N个级联的前馈网络,N是大于1的整数;
所述对所述融合特征进行基于注意力机制的前馈处理,得到对应所述语音的动画参数特征,包括:
通过N个级联的前馈网络中的第n前馈网络,对所述第n前馈网络的输入进行基于注意力机制的映射处理,得到第n映射结果,并将所述第n前馈网络输出的第n映射结果传输到第n+1前馈网络以继续进行基于注意力机制的映射处理,得到对应所述第n+1前馈网络的第n+1映射结果;
将第N前馈网络输出的第N映射结果作为对应所述语音的所述动画参数特征;
其中,n为取值从1开始递增的整数变量,n不小于1且小于N,当n取值为1时,所述第n前馈网络的输入为所述融合特征,当n取值不小于2且小于N时,所述第n前馈网络的输入为第n-1前馈网络输出的第n-1映射结果。
9.根据权利要求8所述的方法,其特征在于,当n取值不小于2且小于N时,所述对所述第n前馈网络的输入进行基于注意力机制的映射处理,得到第n映射结果,包括:
对所述第n-1映射结果进行注意力处理,得到第n注意力特征;
对所述第n-1映射结果和所述第n注意力特征进行相加处理,得到第n中间特征;
对所述第n中间特征进行卷积处理,得到第n卷积特征;
对所述第n卷积特征和所述第n中间特征进行相加处理,得到所述第n映射结果。
10.根据权利要求9所述的方法,其特征在于,所述第n前馈网络包括多个注意力网络,所述对所述第n-1映射结果进行注意力处理,得到第n注意力特征,包括:
获取每个所述注意力网络的查询矩阵、键矩阵以及值矩阵;
通过每个所述注意力网络执行以下处理:基于所述注意力网络的查询矩阵、键矩阵以及值矩阵,对所述第n-1映射结果进行单头注意力处理,得到所述注意力网络对应的单头注意力结果;
对多个所述注意力网络分别对应的单头注意力结果进行融合处理,得到所述第n注意力特征。
11.一种基于人工智能的数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取语音,并获取对应所述语音的情绪数据;
特征提取模块,用于对所述语音进行第一语音内容特征提取处理,得到对应所述语音的第一语音内容特征,并对所述情绪数据进行情绪特征提取处理,得到对应所述语音的情绪特征;
叠加处理模块,用于对所述第一语音内容特征和所述情绪特征进行融合处理,得到对应所述语音的融合特征;
映射处理模块,用于对所述融合特征进行动画参数映射处理,得到对应所述语音的控制器参数,其中,所述控制器参数用于控制虚拟对象模型以目标形象进行呈现,所述目标形象与所述语音的内容以及所述情绪数据匹配。
12.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至10任一项所述的基于人工智能的数据处理方法。
13.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的基于人工智能的数据处理方法。
14.一种计算机程序产品,包括计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的基于人工智能的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410147225.3A CN117857892B (zh) | 2024-02-02 | 2024-02-02 | 基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410147225.3A CN117857892B (zh) | 2024-02-02 | 2024-02-02 | 基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117857892A true CN117857892A (zh) | 2024-04-09 |
CN117857892B CN117857892B (zh) | 2024-05-14 |
Family
ID=90540390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410147225.3A Active CN117857892B (zh) | 2024-02-02 | 2024-02-02 | 基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117857892B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420168A (zh) * | 2022-02-14 | 2022-04-29 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN115358212A (zh) * | 2022-08-09 | 2022-11-18 | 南京工业大学 | 一种基于文本和语音置信度的多模态情绪识别模型与方法 |
WO2022252904A1 (zh) * | 2021-06-03 | 2022-12-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品 |
CN115810071A (zh) * | 2022-11-29 | 2023-03-17 | 网易(杭州)网络有限公司 | 动画参数处理方法、装置、计算机设备及可读存储介质 |
CN116011457A (zh) * | 2022-12-08 | 2023-04-25 | 山东大学 | 一种基于数据增强及跨模态特征融合的情绪智能识别方法 |
CN116863038A (zh) * | 2023-07-07 | 2023-10-10 | 东博未来人工智能研究院(厦门)有限公司 | 一种文本生成数字人语音及面部动画的方法 |
-
2024
- 2024-02-02 CN CN202410147225.3A patent/CN117857892B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022252904A1 (zh) * | 2021-06-03 | 2022-12-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品 |
CN114420168A (zh) * | 2022-02-14 | 2022-04-29 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN115358212A (zh) * | 2022-08-09 | 2022-11-18 | 南京工业大学 | 一种基于文本和语音置信度的多模态情绪识别模型与方法 |
CN115810071A (zh) * | 2022-11-29 | 2023-03-17 | 网易(杭州)网络有限公司 | 动画参数处理方法、装置、计算机设备及可读存储介质 |
CN116011457A (zh) * | 2022-12-08 | 2023-04-25 | 山东大学 | 一种基于数据增强及跨模态特征融合的情绪智能识别方法 |
CN116863038A (zh) * | 2023-07-07 | 2023-10-10 | 东博未来人工智能研究院(厦门)有限公司 | 一种文本生成数字人语音及面部动画的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117857892B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102503413B1 (ko) | 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체 | |
CN111897933B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN112162628A (zh) | 基于虚拟角色的多模态交互方法、装置及***、存储介质、终端 | |
JP2021168139A (ja) | マンマシンインタラクションのための方法、装置、機器および媒体 | |
WO2023284435A1 (zh) | 生成动画的方法及装置 | |
CN110874859A (zh) | 一种生成动画的方法和设备 | |
US11544886B2 (en) | Generating digital avatar | |
CN111414506B (zh) | 基于人工智能情绪处理方法、装置、电子设备及存储介质 | |
CN114357135A (zh) | 交互方法、交互装置、电子设备以及存储介质 | |
CN113704419A (zh) | 对话处理方法及装置 | |
CN116704085B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
Ye et al. | Audio-driven stylized gesture generation with flow-based model | |
Huang et al. | Recent advances in artificial intelligence for video production system | |
CN116468826B (zh) | 表情生成模型的训练方法、表情生成的方法及装置 | |
CN117078816A (zh) | 一种虚拟形象的生成方法、装置、终端设备和存储介质 | |
CN117453880A (zh) | 多模态数据的处理方法、装置、电子设备及存储介质 | |
He et al. | LLMs Meet Multimodal Generation and Editing: A Survey | |
CN116966574A (zh) | 非玩家角色的交互处理方法、装置、电子设备及存储介质 | |
CN117857892B (zh) | 基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质 | |
Jing et al. | Amd: Anatomical motion diffusion with interpretable motion decomposition and fusion | |
CN110826510A (zh) | 一种基于表情情感计算的三维教学课堂实现方法 | |
CN116485962A (zh) | 一种基于对比学习的动画生成方法及*** | |
Arias et al. | A ConvNet-based approach applied to the gesticulation control of a social robot | |
Arias et al. | Convolutional neural network applied to the gesticulation control of an interactive social robot with humanoid aspect | |
CN117877125B (zh) | 动作识别及其模型训练方法、装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |