CN116883608B - 一种多模态数字人社交属性控制方法及相关装置 - Google Patents
一种多模态数字人社交属性控制方法及相关装置 Download PDFInfo
- Publication number
- CN116883608B CN116883608B CN202311144505.0A CN202311144505A CN116883608B CN 116883608 B CN116883608 B CN 116883608B CN 202311144505 A CN202311144505 A CN 202311144505A CN 116883608 B CN116883608 B CN 116883608B
- Authority
- CN
- China
- Prior art keywords
- data
- human body
- module
- social attribute
- digital person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 241000282414 Homo sapiens Species 0.000 claims abstract description 132
- 238000004458 analytical method Methods 0.000 claims abstract description 107
- 230000002452 interceptive effect Effects 0.000 claims abstract description 65
- 230000003993 interaction Effects 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 37
- 230000006399 behavior Effects 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000017531 blood circulation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000002503 metabolic effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 210000004373 mandible Anatomy 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 210000002659 acromion Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000001595 mastoid Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 210000001562 sternum Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Computer Graphics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Geometry (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供一种多模态数字人社交属性控制方法及相关装置,所述控制方法包括以下步骤:S1:采集人体特征的多模态数据,所述多模态数据包括人体3D数据、红外数据和语音数据;S2:将所述多模态数据输入多模态数字人社交属性控制模型进行处理,得到数字人的社交属性信息参数;其中所述多模态数字人社交属性控制模型姿态行为分析模块、语音识别模块和变分交互式语义分析模块;S3:根据所述数字人社交属性信息参数控制数字人的交互。本申请采用多模态数字人社交属性控制模型提高了数字人的交互社交的真实性,使数字人自适应地根据计算处理设备性能指数调整对话生成时间的上界,使数字人的交互更加流畅、自然。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种多模态数字人社交属性控制方法及相关装置。
背景技术
随着计算机计算能力的逐步提升和AI领域的爆发式增长,数字化社会成为了AI时代的热点研究对象。数字人在元宇宙以及数字化社会中显得尤为重要。数字人的应用领域也越来越广泛,如虚拟客服,聊天机器人,虚拟教师,可视化AI助手等领域。在计算机图形学领域,早期的3D建模和渲染技术已经可以创建一些虚拟的角色和场景;在人工智能领域,先代的规则引擎和专家***技术已经可以模拟一些人类的思维和行为。但是,这些传统的技术都存在着很大的局限性,无法真正地模拟人类的思维和行为。
深度学习使用了大量用于模拟人类大脑的神经元结构,和海量的类电信号参数信息,通过大量的数据和强大的计算能力,可以从与人交互的过程中提取出隐含的特征和规律,从而帮助数字人更好地理解和响应人类社交行为。现代数字人技术的发展,使得先前独立于现实世界的虚拟角色可以更加逼真地模拟人类的情感、思维和行为,为人类带来更多的创新和便利。在此基础上,数字人社交属性便成为了一个重要的研究方向。
然而,现有的数字人社交方法和***存在着一些限制和不足,例如缺乏真实性、表现力不足、缺乏智能化,语义判断不够精细等问题。因此,我们希望通过深度学习技术的应用,提出一种新的数字人变分社交属性方法及***,以实现表现力更强、更具智能化的符合数字化社会的基本伦理准则的基于深度学习的多模态数字人变分社交属性控制方法及***。
在现有技术中,公开号为CN115035220A的中国专利公开了“一种3D虚拟数字人社交方法及***”,该方法使用3D成像终端设备,在虚拟社交场景中生成用户的形象进行沟通,通过语音信息确认用户情绪并调整3D虚拟数字人的情绪、表情和肢体动作信息。但对于与数字人交互的具体场景而言,如何正确的识别人与数字人交互的社交属性,与如何在数字人中高精度和高性能的体现社交属性,则需要一定的深度学习方法及***去控制与实现。
因此,寻找一种不仅能够提高数字人的响应性能和对话精度,同时实现个性化社交属***互的数字人社交属性控制方法,是本领域技术人员亟待解决的技术问题。
发明内容
本申请的主要目的在于提供一种,旨在解决现有数字人不能高精度和高性能体现社交属性的技术问题。
为实现上述技术目的,本申请提供一种多模态数字人社交属性控制方法,所述控制方法包括以下步骤:
S1、采集人体特征的多模态数据,所述多模态数据包括人体3D数据、红外数据和语音数据;
S2、将所述多模态数据输入多模态数字人社交属性控制模型进行处理,得到数字人的社交属性信息参数;其中所述多模态数字人社交属性控制模型包括姿态行为分析模块、语音识别模块和变分交互式语义分析模块;
S3、根据所述数字人社交属性信息参数控制数字人的交互。
在本申请的一实施例中,所述步骤S2具体包括:
将所述多模态数据输入多模态数字人社交属性控制模型,姿态行为分析模块根据所述人体3D数据和红外数据计算人体表面的温度分布,并提取特征信息进行姿态行为分析;所述姿态行为分析模块包括人体3D数据重建模块和人体红外数据重建模块;
所述语音识别模块和变分交互式语义分析模块根据所述语音数据进行语音识别和变分交互式语义分析;
对所述姿态行为分析模块、语音识别模块和变分交互式语义分析模块分别进行训练,得到所述多模态数字人社交属性控制模型。
在本申请的一实施例中,所述姿态行为分析模块根据所述3D数据和红外数据计算人体表面的温度分布,并提取特征信息进行姿态行为分析,具体包括:
将所述3D数据和红外数据作为热力学模型中方程的初始条件;
使用数值方法求解方程,得到人体表面的温度分布;
根据所述人体表面的温度分布,提取特征信息,基于所述特征信息对人体特征进行姿态行为分析;所述特征信息包括人体表面的最高温度、最低温度、平均温度、热区分布和温度梯度。
在本申请的一实施例中,所述热力学模型中方程的公式如下:
;
表示在第/>个时间片时第/>行与第/>列的温度,/>表示时间,/>和/>分别表示人体在水平和竖直方向上的离散化步长,/>表示人体组织的热导率,/>和/>分别表示人体组织的密度和比热容,/>和/>分别表示代谢热和血液流动的源项。
在本申请的一实施例中,所述语音识别模块和变分交互式语义分析模块根据所述语音数据进行语音识别和变分交互式语义分析,具体包括:
将所述语音数据分别输入至语音识别模块和变分交互式语义分析模块,分别得到语音识别结果和语义分析结果;
根据所述语音识别结果调整语义分析结果。
在本申请的一实施例中,所述变分交互式语义分析模型具体包括嵌入层、至少一个变分交互式编码器-解码器层、密集层前馈层和输出层,其中变分交互式编码器-解码器公式如下:
,
;
和/>分别表示注意力机制中的查询和键,/>表示查询的数量,/>表示键的数量,/>表示第/>个查询,/>表示打分函数,/>表示查询/>的所有键值对,/>表示与/>对应的一个键值对;/>表示查询与邻居节点/>的内积,/>表示文本的键的向量;在变分交互式编码器-解码器层中/>表示第/>个查询对应的键的集合,其中/>,/>表示变分区间;
其中,;
;
是自适应区间的上界,/>和/>分别是对话生成时间的下界和上界,/>是计算处理设备性能指数,从计算处理设备的性能指标中搜集,/>、/>和/>均为常数。
在本申请的一实施例中,所述步骤S3之后,还包括:
将所述数字人的交互发送至显示设备进行展示。
本申请还提供一种多模态数字人社交属性控制***,包括:
采集模块,用于采集人体特征的多模态数据,所述多模态数据包括人体3D数据、红外数据和语音数据;
处理模块,用于将所述人体特征的多模态数据输入多模态数字人社交属性控制模型,得到数字人的社交属性信息参数,其中所述多模态数字人社交属性控制模型包括姿态行为分析模块、语音识别模块和变分交互式语义分析模块;姿态行为分析模块包括人体3D数据重建模块和人体红外数据重建模块;
控制模块,用于根据所述数字人的社交属性信息参数控制数字人的交互。
本申请还提供一种计算机设备,包括存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如上述任一项所述的多模态数字人社交属性控制方法。
本申请还提供一种计算机可读存储介质,其包括程序代码,当程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任一项所述的多模态数字人社交属性控制方法的步骤。
与现有技术相比,本申请具有以下有益效果:
1、本申请通过外部硬件设备采集人体特征的多模态数据,增加数字人计算处理时可用于判断的信息维度,使数字人交互更加逼真。
2、本申请通过人体3D重建模块、人体红外重建模块和热力学模型计算出人体表面的温度分布,并提取特征信息进行姿态行为分析,提高数字人交互真实性的同时,还提高了数字人的个性化控制能力,更加精细地控制数字人的社交属性,包括情感、口音、语速等。
3、通过使用语音识别模块和变分交互式语义分析模块对语音数据进行语义识别和语义分析并根据语音识别结果调整语义分析结果,提高语义分析的准确度。通过对姿态行为分析模块、语音识别模块和变分交互式语义分析模块分别进行训练,生成变分交互式语义分析模型,在保证语义分析高精度的同时自适应地根据性能指数调整对话生成时间的上界,控制对话生成时间的变化速率和平滑过渡,并且可以根据实际需求进行调整和优化,提供更好的用户体验,使数字人的表现更加符合用户的需求和预期。
附图说明
为了更清楚地说明本实用新型实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本实用新型的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的多模态数字人社交属性控制方法流程图;
图2为本申请实施例提供的多模态数字人社交属性控制方法框图;
图3为本申请实施例提供的变分交互式语义分析模型框图;
图4为本申请实施例提供的多模态数字人社交属性控制***框图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地描述。
本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等仅用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备等,没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元等,或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。
在本申请中提及的“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是,本申请描述的实施例可以与其它实施例相结合。
在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”。
如图1所示,本申请提供一种多模态数字人社交属性控制方法,所述控制方法包括以下步骤:
S1、采集人体特征的多模态数据,所述多模态数据包括人体3D数据、红外数据和语音数据;
S2、将所述多模态数据输入多模态数字人社交属性控制模型进行处理,得到数字人的社交属性信息参数;其中所述多模态数字人社交属性控制模型包括姿态行为分析模块、语音识别模块和变分交互式语义分析模块,所述姿态行为分析模块包括人体3D数据重建模块和人体红外数据重建模块;
S3、根据所述数字人社交属性信息参数控制数字人的交互;
S4:将所述数字人的交互发送至显示设备进行展示。
如图2所示,在本申请实施例中,多模态数字人社交属性控制模型的建立,首先,通过外部硬件设备采集人体的多模态数据,并将多模态数据转化为计算处理设备可读格式,以支持数字人的综合交互,采集的多模态数据构成训练集和测试集,使用训练集对深度网络模型进行训练,生成多模态数字人社交属性控制模型,并使用测试集对多模态数字人社交属性控制模型进行测试,提高多模态数字人社交属性控制模型识别的精准度。
通过外部硬件设备采集人体特征的多模态数据,依据建立的多模态数字人社交属性控制模型得到数字人的社交属性信息参数,控制数字人的交互,如肢体行为、脸部特征以及语态音色等,以实现数字人的自然、逼真的交互效果,提高数字人的交互真实性,将数字人的社交属性信息参数发送至显示设备进行展示,使交互场景更为流畅、真实且使应用场景更加宽泛。
其中外部硬件设备包括RGB摄像机、深度摄像机、红外摄像机、360°全幅麦克风阵列、环绕音响***、灯光设备、弧面显示器以及连接上述设备的基础支架设备等,显示设备为音视频输出设备,本申请并不对外部硬件设备以及显示设备做具体限制。
优选的,计算处理设备使用动画控制算法和人机交互技术通过数字人的社交属性信息参数实现数字人的肢体动作、表情以及语音控制,以实现数字人的自然、逼真的交互效果。
作为本申请的一实施例,所述步骤S2具体包括:
将所述多模态数据输入多模态数字人社交属性控制模型,姿态行为分析模块根据所述人体3D数据和红外数据计算人体表面的温度分布,并提取特征信息进行姿态行为分析;所述姿态行为分析模块包括人体3D数据重建模块和人体红外数据重建模块;
所述语音识别模块和变分交互式语义分析模块根据所述语音数据进行语音识别和变分交互式语义分析;
对所述姿态行为分析模块、语音识别模块和变分交互式语义分析模块分别进行训练,得到所述多模态数字人社交属性控制模型。
通过基于点云的人体3D重建模块将采集到的人体3D数据进行重建和处理,以生成真实且逼真的3D数字人形象,增加数字人计算处理时可用于判断的信息维度,大大提高数字人的交互真实性,其中人体3D重建模块包括点云预处理模型、点云配准模型以及人体点云重建模型;使用人体红外数据重建模块将采集到的人体3D数据和红外数据计算人体表面的温度分度,语音识别模块使用语音识别技术和自然语言处理算法实时识别采集到的用户语音数据,变分交互式语义分析模块对语音识别的结果进行语义分析,以支持数字人的语义交互,提高数字人交互性能。具体的,语音识别模块将语音数据中的语音指令和对话内容转化为数字人的语音控制文本序列,以实现数字人的文本模态获取。
可以理解的,人体3D数据重建模块可以使用深度学习技术和计算机视觉算法,将用户拍摄具有深度信息的深度图像转化为3D模型,以实现数字人重建,所述人体3D数据包含人体的脖颈部;其中脖颈部的下界为下颌骨下缘、下颌支后缘、乳突和枕外隆突连线的头侧;脖颈部的上界为胸骨上缘、锁骨、肩峰和第七颈椎棘突间连线的体侧。
作为本申请的进一步实施例,所述根据所述人体3D数据和红外数据计算人体表面的温度分布,并提取特征信息进行姿态行为分析,具体包括:
将所述3D数据和红外数据作为热力学模型中方程的初始条件;
使用数值方法求解方程,得到人体表面的温度分布;
根据所述人体表面的温度分布,提取特征信息,基于所述特征信息对人体特征进行姿态行为分析。其中,所述特征信息包括人体表面的最高温度、最低温度、平均温度、热区分布和温度梯度。
在本申请实施例中,将采集到的人体3D数据和红外数据作为热力学模型中方程的初始条件,使用有限差分或有限元等数值方法求解方程,得到人体表面的温度分布,提取最高温度、最低温度、平均温度、热区分布以及温度梯度等特征信息,进行人体姿态识别以及行为分析。通过将人体3D数据和红外数据使用热力学模型作为旁侧源信息,即将人体3D数据和红外数据与热力学模型进行结合,并使用深度神经网络进行训练,得到多模态数字人社交属性控制模型,提高数字人的交互真实性和更高的个性化控制能力,更加精细地控制数字人的社交属性,包括情感、口音、语速等,从而实现更高程度的个性化提供有力的信息侧支持。
其中,热力学模型中方程的公式如下:
;
表示在第/>个时间片时第/>行与第/>列的温度,/>和/>,/>分别表示时间和空间的离散化步长,/>表示人体组织的热导率,/>和/>分别表示人体组织的密度和比热容,/>和/>分别表示代谢热和血液流动的源项。
热力学模型中方程引入了时间、步长与红外摄像机的源数据,并以时间序列n和相机的CMOS点阵分布的形式体现在公式中。
在本申请的进一步实施例中,所述语音识别模块和变分交互式语义分析模块根据所述语音数据进行语音识别和变分交互式语义分析,具体包括:
将所述语音数据分别输入至语音识别模块和变分交互式语义分析模块,分别得到语音识别结果和语义分析结果;
根据所述语音识别结果调整语义分析结果。
可以理解的,语音识别模块由至少一个深度神经网络组成,其中语音识别模块作为变分交互式语义分析模块的前置模块,语音识别模块对语音数据进行处理,得到语音识别结果,将语音识别结果输入至变分交互式模块进行语义分析得到语义分析结果,在计算处理设备性能有限的情况下充分发挥***性能的同时保证对话的精度,提高语义分析的准确度。
将基于人体表面的温度分布提取的特征信息分析的中间结果,作为变分交互式分析的旁侧源信息,通过深度神经网络对大量语音数据进行训练和学***滑过渡,从而实现高精度的语音识别效果,为用户提供更好的体验,使数字人的表现更加符合用户的需求和预期。
可以理解的,在完成语音识别后,变分交互式语义分析模块首先对语音识别模块输出的文本信息进行语义分析,经过深度神经网络的判断,给出合适的文字,在语音和肢体上给予答复。变分交互式语音分析模块可以实现对话生成的个性化和自然化,在提高语义分析精度的同时控制对话生成的变化速率和平滑过渡,同时可根据实际需求的计算设备处理器的性能指数变分控制对话生成时间,最优化对话流畅性和精确性的配平,使数字人的交互场景更为流畅、真实。
如图3所示,作为本申请的进一步实施例,所述变分交互式语义分析模型具体包括嵌入层、至少一个变分交互式编码器-解码器层、密集层前馈层和输出层。
其中嵌入层后设置一个激活层,密集层前馈层后设置一个激活层,每个变分交互是编码器-解码器层包含多维度的语义信息处理向量,变分交互式编码器-解码器公式如下:
,
;
和/>分别表示注意力机制中的查询和键,/>表示查询的数量,/>表示键的数量,表示第/>个查询,/>表示打分函数,/>表示查询/>的所有键值对,/>表示与/>对应的一个键值对;/>表示/>查询与邻居节点/>的内积,/>表示文本的键的向量;在变分交互式编码器-解码器层中/>表示第/>个查询对应的键的集合,其中/>,/>表示变分区间;
;
是自适应区间的上界,/>和/>分别是对话生成时间的下界和上界,/>是计算处理设备性能指数,从计算处理设备的性能指标中搜集,/>是一个常数,可以根据实际需要进行设置,其中/>函数如下:
;
其中,和/>是常数,用于调整/>函数的斜率和位置,可以根据实际需要进行设置。/>函数的作用是将计算处理设备性能指数映射到[0,1]之间的值,以便于控制对话生成时间的变化速率和平滑过渡。
在本申请实施例中,变分交互式编码器-解码器公式主要用于计算查询与文档之间的交互式注意力权重,以加强查询与文档之间的语义匹配,从而提高文本匹配任务的准确性。即变分交互式编码器-解码器可以交互式地学习到查询和文档之间的语义关系,同时融入变分区间,对于该多模态***中的变分语义部分十分契合。
可以理解的,含义是自适应局部注意力根据计算处理设备性能指数控制对话生成时间,当计算处理设备性能指数为0时,对话生成时间等于a,当***性能指数趋近于无穷大时,对话生成时间趋近于b,其中自适应区间由计算处理设备的性能指标组成,计算处理设备的性能指标指的是用于与***中对***运行效率有影响的计算处理设备,包括但不限于CPU***的tps、基于GPU***的神经网络的it/s,以及储存芯片中主控芯片的iops指标。常数c和指数函数/>的作用是将计算处理设备性能指数映射到一个(0,1)之间的值,以便于控制对话生成时间的变化速率和平滑过渡。具体来说,当计算处理设备性能指数较低时,指数函数/>的值接近于0,对话生成时间变化较缓慢;当计算处理设备性能指数较高时,指数函数/>的值接近于1,对话生成时间变化较快。整个公式的意义是,根据计算处理设备性能指数/>,自适应地调整对话生成时间的上界/>,使其在时间区间/>内,并且可以根据实际需求进行调整和优化。
具体的,语音识别模块将语音数据转换为文本序列后,文本序列首先经过输入嵌入层,将文本序列转换为向量表示;然后通过多个编码器层进行语义建模。在编解码器层中,每个单词都会与序列中的先前的单词进行变分式交互,产生一个新的上下文表示,保证语义分析精度的同时提高语义分析效率;在密集前馈层中,每个位置的向量都将被传递给一个包含激活函数的前馈神经网络,最终输出为每一个单词的概率。
在本申请实施例中,通过外部硬件设备采集人体特征的多模态数据,增加数字人计算处理时可用于判断的信息维度,将外部硬件设备采集的人体3D数据和红外数据经人体3D数据重建模块和人体红外数据重建模块以及热力学模型计算出人体表面的温度分布,并提取特征信息,使用语音识别模块对外部硬件设备采集的语音数据进行语音识别和自然语言处理,将对特征信息分析的中间结果作为变分交互式语义分析模型的旁侧源信息,提高数字人交互的准确性,将所述姿态行为分析模块、语音识别模块和变分交互式语义分析模块分别进行训练,得到多模态数字人社交属性控制模型,根据多模态数字人社交属性控制模型得到数字人的社交属性信息参数,根据数字人的社交属性信息参数控制数字人的交互,并发送至显示设备进行展示,提高数字人交互的真实性,提高用户体验,使数字人的表现更加符合用户的需求和预期。
可以理解的,在本申请一实施例中,人体红外数据重建模块的最终结果是一个带有红外信息的3D人体模型,3D模型数据不能作为变分交互式语义分析模块中的源信息,但是可以作为姿态行为分析模块的影响因子,提高数字人交互的真实性。
如图4所示,本申请还提供一种多模态数字人社交属性控制***,包括采集模块、处理模块、控制模块和显示模块,其中所述多模态数字人社交属性控制模型包括姿态行为分析模块、语音识别模块和变分交互式语义分析模块;姿态行为分析模块包括人体3D数据重建模块和人体红外数据重建模块;处理模块用于将所述人体特征的多模态数据输入多模态数字人社交属性控制模型,得到数字人的社交属性信息参数,所述社交属性信息包括肢体动作、表情和语音控制;控制模块用于根据所述数字人的社交属性信息参数控制数字人的交互;显示模块用于将所述数字人的交互发送至显示设备进行展示。
通过外部硬件设备获取人体的多模态数据,处理模块利用人体3D数据重建模块和人体红外数据重建模块以及热力学模型中的方程将外部硬件设备采集的人体3D数据和人体红外数据计算出人体表面的温度分布,使用语音识别模块对外部硬件采集设备采集的语音数据进行语音识别分析,得到语音识别结果,并使用变分交互式语义分析模块进行语义分析得到语义分析结果,提高语义分析的准确度。通过对姿态行为分析模块、语音识别模块和变分交互式语义分析模块分别进行训练,得到多模态数字人社交属性控制模型,根据多模态数字人社交属性控制模型得到数字人的社交属性信息参数,控制模块根据数字人的社交属性参数控制数字人的交互,显示模块显示数字人的交互,提高数字人交互的真实性,使交互场景更加流畅、真实。
本申请多模态数字人社交属性控制模型可以应用于人机交互、虚拟客服、教育培训等领域中。
本申请还提供一种计算机设备,包括存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述任一项所述的多模态数字人社交属性控制方法。
本申请还提供一种计算机可读存储介质,其包括程序代码,当程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任一项所述的多模态数字人社交属性控制方法的步骤。
其中,本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (7)
1.一种多模态数字人社交属性控制方法,其特征在于,所述控制方法包括以下步骤:
S1、采集人体特征的多模态数据,所述多模态数据包括人体3D数据、红外数据和语音数据;
S2、将所述多模态数据输入多模态数字人社交属性控制模型进行处理,得到数字人的社交属性信息参数;其中所述多模态数字人社交属性控制模型包括姿态行为分析模块、语音识别模块和变分交互式语义分析模块;
S3、根据所述数字人社交属性信息参数控制数字人的交互;
所述姿态行为分析模块根据所述人体3D数据和红外数据计算人体表面的温度分布,并提取特征信息进行姿态行为分析;所述姿态行为分析模块包括人体3D数据重建模块和人体红外数据重建模块;
所述语音识别模块和变分交互式语义分析模块根据所述语音数据进行语音识别和变分交互式语义分析;
对所述姿态行为分析模块、语音识别模块和变分交互式语义分析模块分别进行训练,得到所述多模态数字人社交属性控制模型;
所述语音识别模块和变分交互式语义分析模块根据所述语音数据进行语音识别和变分交互式语义分析,具体包括:
将所述语音数据输入至语音识别模块,得到语音识别结果;
将所述语音识别结果输入至变分交互式语义分析模块,得到语义分析结果;
所述变分交互式语义分析模块具体包括嵌入层、至少一个变分交互式编码器-解码器层、密集层前馈层和输出层,其中变分交互式编码器-解码器公式如下:
;
表示注意力机制中的查询,/>表示查询的数量,/>表示键的数量,/>表示第/>个查询,表示打分函数,/>表示查询/>的所有键值对,/>表示与/>对应的一个键值对;/>表示/>查询与邻居节点/>的内积,在变分交互式编码器-解码器层中/>表示第/>个查询对应的键的集合,其中/>,/>表示变分区间;
其中,;
;
是自适应区间的上界,/>和/>分别是对话生成时间的下界和上界,/>是计算处理设备性能指数,从计算处理设备的性能指标中搜集,/>、/>和/>均为常数。
2.根据权利要求1所述的一种多模态数字人社交属性控制方法,其特征在于,所述姿态行为分析模块根据所述3D数据和红外数据计算人体表面的温度分布,并提取特征信息进行姿态行为分析,具体包括:
将所述3D数据和红外数据作为热力学模型中方程的初始条件;
使用数值方法求解方程,得到人体表面的温度分布;
根据所述人体表面的温度分布,提取特征信息,基于所述特征信息对人体特征进行姿态行为分析;所述特征信息包括人体表面的最高温度、最低温度、平均温度、热区分布和温度梯度。
3.根据权利要求2所述的一种多模态数字人社交属性控制方法,其特征在于,所述热力学模型中方程的公式如下:
;
其中,表示在第/>个时间片时第/>行与第/>列的温度,/>表示时间,/>和/>分别表示人体在水平和竖直方向上的离散化步长,/>表示人体组织的热导率,/>和/>分别表示人体组织的密度和比热容,/>和/>分别表示代谢热和血液流动的源项。
4.根据权利要求1所述的一种多模态数字人社交属性控制方法,其特征在于,所述步骤S3之后,还包括:
将所述数字人的交互发送至显示设备进行展示。
5.一种多模态数字人社交属性控制***,其特征在于,包括:
采集模块,用于采集人体特征的多模态数据,所述多模态数据包括人体3D数据、红外数据和语音数据;
处理模块,用于将所述人体特征的多模态数据输入多模态数字人社交属性控制模型,得到数字人的社交属性信息参数,其中所述多模态数字人社交属性控制模型包括姿态行为分析模块、语音识别模块和变分交互式语义分析模块;姿态行为分析模块包括人体3D数据重建模块和人体红外数据重建模块;
控制模块,用于根据所述数字人的社交属性信息参数控制数字人的交互;
所述语音识别模块和变分交互式语义分析模块根据所述语音数据进行语音识别和变分交互式语义分析,具体包括:
将所述语音数据输入至语音识别模块,得到语音识别结果;
将所述语音识别结果输入至变分交互式语义分析模块,得到语义分析结果;
所述变分交互式语义分析模块具体包括嵌入层、至少一个变分交互式编码器-解码器层、密集层前馈层和输出层,其中变分交互式编码器-解码器公式如下:
;
表示注意力机制中的查询,/>表示查询的数量,/>表示键的数量,/>表示第/>个查询,表示打分函数,/>表示查询/>的所有键值对,/>表示与/>对应的一个键值对;/>表示/>查询与邻居节点/>的内积,在变分交互式编码器-解码器层中/>表示第/>个查询对应的键的集合,其中/>,/>表示变分区间;
其中,;
;
是自适应区间的上界,/>和/>分别是对话生成时间的下界和上界,/>是计算处理设备性能指数,从计算处理设备的性能指标中搜集,/>、/>和/>均为常数。
6.一种计算机设备,其特征在于,包括存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如权利要求1-4任一项所述的多模态数字人社交属性控制方法。
7.一种计算机可读存储介质,其特征在于,其包括程序代码,当程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1-4任一项所述的多模态数字人社交属性控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311144505.0A CN116883608B (zh) | 2023-09-05 | 2023-09-05 | 一种多模态数字人社交属性控制方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311144505.0A CN116883608B (zh) | 2023-09-05 | 2023-09-05 | 一种多模态数字人社交属性控制方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116883608A CN116883608A (zh) | 2023-10-13 |
CN116883608B true CN116883608B (zh) | 2023-12-12 |
Family
ID=88272003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311144505.0A Active CN116883608B (zh) | 2023-09-05 | 2023-09-05 | 一种多模态数字人社交属性控制方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883608B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576279B (zh) * | 2023-11-28 | 2024-04-19 | 世优(北京)科技有限公司 | 基于多模态数据的数字人驱动方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357416A (zh) * | 2016-12-30 | 2017-11-17 | 长春市睿鑫博冠科技发展有限公司 | 一种人机交互装置及交互方法 |
CN111736799A (zh) * | 2020-06-18 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 基于人机交互的语音交互方法、装置、设备和介质 |
CN113191154A (zh) * | 2021-03-04 | 2021-07-30 | 浙江师范大学 | 基于多模态图神经网络的语义分析方法、***和存储介质 |
CN113821527A (zh) * | 2021-06-30 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 哈希码的生成方法、装置、计算机设备及存储介质 |
CN114495927A (zh) * | 2021-12-31 | 2022-05-13 | 魔珐(上海)信息科技有限公司 | 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端 |
CN115312052A (zh) * | 2022-07-11 | 2022-11-08 | 深圳思力数字创意科技有限公司 | 一种基于数字人的处理*** |
CN115337634A (zh) * | 2021-05-12 | 2022-11-15 | 智慧式有限公司 | 一种应用于餐食游戏类的vr***及方法 |
CN116572260A (zh) * | 2023-03-15 | 2023-08-11 | 浙江工业大学 | 基于人工智能生成内容的情感交流陪护养老机器人*** |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2013214801B2 (en) * | 2012-02-02 | 2018-06-21 | Visa International Service Association | Multi-source, multi-dimensional, cross-entity, multimedia database platform apparatuses, methods and systems |
US20150213002A1 (en) * | 2014-01-24 | 2015-07-30 | International Business Machines Corporation | Personal emotion state monitoring from social media |
US11652815B2 (en) * | 2019-12-10 | 2023-05-16 | Winkk, Inc. | Security platform architecture |
US11769018B2 (en) * | 2020-11-24 | 2023-09-26 | Openstream Inc. | System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system |
US11942075B2 (en) * | 2021-09-24 | 2024-03-26 | Openstream Inc. | System and method for automated digital twin behavior modeling for multimodal conversations |
-
2023
- 2023-09-05 CN CN202311144505.0A patent/CN116883608B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357416A (zh) * | 2016-12-30 | 2017-11-17 | 长春市睿鑫博冠科技发展有限公司 | 一种人机交互装置及交互方法 |
CN111736799A (zh) * | 2020-06-18 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 基于人机交互的语音交互方法、装置、设备和介质 |
CN113191154A (zh) * | 2021-03-04 | 2021-07-30 | 浙江师范大学 | 基于多模态图神经网络的语义分析方法、***和存储介质 |
CN115337634A (zh) * | 2021-05-12 | 2022-11-15 | 智慧式有限公司 | 一种应用于餐食游戏类的vr***及方法 |
CN113821527A (zh) * | 2021-06-30 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 哈希码的生成方法、装置、计算机设备及存储介质 |
CN114495927A (zh) * | 2021-12-31 | 2022-05-13 | 魔珐(上海)信息科技有限公司 | 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端 |
CN115312052A (zh) * | 2022-07-11 | 2022-11-08 | 深圳思力数字创意科技有限公司 | 一种基于数字人的处理*** |
CN116572260A (zh) * | 2023-03-15 | 2023-08-11 | 浙江工业大学 | 基于人工智能生成内容的情感交流陪护养老机器人*** |
Non-Patent Citations (1)
Title |
---|
基于多模态智能交互的虚拟数字人;李晓明等;《电力大数据》;正文第36-41页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116883608A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108665492B (zh) | 一种基于虚拟人的舞蹈教学数据处理方法及*** | |
Qian | Research on artificial intelligence technology of virtual reality teaching method in digital media art creation | |
Zhang et al. | Intelligent facial emotion recognition and semantic-based topic detection for a humanoid robot | |
WO2023284435A1 (zh) | 生成动画的方法及装置 | |
CN113380271B (zh) | 情绪识别方法、***、设备及介质 | |
CN116883608B (zh) | 一种多模态数字人社交属性控制方法及相关装置 | |
CN111967334B (zh) | 一种人体意图识别方法、***以及存储介质 | |
CN109343695A (zh) | 基于虚拟人行为标准的交互方法及*** | |
Basori | Emotion walking for humanoid avatars using brain signals | |
Liang | Intelligent emotion evaluation method of classroom teaching based on expression recognition | |
CN117251057A (zh) | 一种基于aigc构建ai数智人的方法及*** | |
CN115049016A (zh) | 基于情绪识别的模型驱动方法及设备 | |
Gao | A two-channel attention mechanism-based MobileNetV2 and bidirectional long short memory network for multi-modal dimension dance emotion recognition | |
CN109086351A (zh) | 一种获取用户标签的方法及用户标签*** | |
CN115953521A (zh) | 远程数字人渲染方法、装置及*** | |
Vasudevan et al. | SL-Animals-DVS: event-driven sign language animals dataset | |
Sosa-Jiménez et al. | A prototype for Mexican sign language recognition and synthesis in support of a primary care physician | |
CN117935339A (zh) | 一种基于多模态融合的微表情识别方法 | |
Schuller | Acquisition of affect | |
Enikeev et al. | Sign language recognition through Leap Motion controller and input prediction algorithm | |
Schuller | Multimodal user state and trait recognition: An overview | |
CN111062207A (zh) | 表情图像处理方法、装置、计算机存储介质及电子设备 | |
Xu et al. | Research on continuous sign language sentence recognition algorithm based on weighted key-frame | |
CN117590944B (zh) | 实体人对象和数字虚拟人对象的绑定*** | |
Alam et al. | ASL champ!: a virtual reality game with deep-learning driven sign recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |