CN115965836A - 一种语义可控的人体行为姿态视频数据扩增***及方法 - Google Patents

一种语义可控的人体行为姿态视频数据扩增***及方法 Download PDF

Info

Publication number
CN115965836A
CN115965836A CN202310040198.5A CN202310040198A CN115965836A CN 115965836 A CN115965836 A CN 115965836A CN 202310040198 A CN202310040198 A CN 202310040198A CN 115965836 A CN115965836 A CN 115965836A
Authority
CN
China
Prior art keywords
data
behavior
posture
sequence
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310040198.5A
Other languages
English (en)
Inventor
林璐
洪学敏
石江宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202310040198.5A priority Critical patent/CN115965836A/zh
Publication of CN115965836A publication Critical patent/CN115965836A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种语义可控的人体行为姿态视频数据扩增***及方法,其针对应用场景中的目标人物行为,进行规范化定义与采集,通过视频逐帧分析进行3D人体姿态估计;利用人体姿态运动学知识对估计模型进行表示,约束各关键点和自由度,构建人体姿态关键点嵌入表达;利用预训练的对抗生成网络对提取信息进行博弈生成,产生尽可能逼真的新数据;对生成数据进行3D姿态重建,通过姿态迁移算法实现人体姿态在不同目标人物上的迁移,实现人体行为数据的扩增。

Description

一种语义可控的人体行为姿态视频数据扩增***及方法
技术领域
本发明涉及人体姿态分析与数据扩增技术领域,具体涉及一种语义可控的人体行为姿态视频数据扩增***及方法,可适用于公共安全、健康监护、智慧教育等应用场景,构建相应数据资源池,服务于多样化下游检测任务。
背景技术
深度神经网络的方法作为强大的工具之一需要足够的训练数据作支撑。如何有效地训练样本不足的网络一直是深度学习的一大挑战。在一些特殊的应用场景中,面临异常行为数据难以采集;行为数据标注成本高、带标签行为数据少;样本数量分布不均衡等问题,使针对该场景中的检测分类任务难以从数据中获得足够的有效信息,从而得到满意的分类结果。基于不足的数据样本训练的视频分类网络运用深度特征抽取网络提取视频数据的深度信息,容易导致过拟合现象。
在实际场景中,如公共安全、健康监护、智慧教育等应用场景中的人体行为信息多受场景约束,采样参数、视野范围、数据格式和数据质量等均有不同程度的影响。数据集的分布往往遵循长尾分布,异常的人体姿势只占所有数据中的一小部分,这进一步导致罕见姿势缺乏多样性,和现有的姿态估计网络的泛化能力有待提升。故罕见的异常行为存在采样数量少、数据丰富度低、行为特征单一等现象。以上事实共同造成了在具体的应用场景中,低频异常人体行为信息存在数据量少、数据丰富度低和数据采集困难的问题,且难以应用通用数据集和直接迁移模型的方法解决。一些异常检测模型是基于目标检测技术开发的,以单帧图像上的信息作为异常行为识别的基础,在部分场景下并不适用,造成误检。而视频数据检测和视频数据生成的难度更大于针对单帧静态图像的目标检测和图像生成,所以针对人体行为数据的扩增存在研究意义。
数据扩增技术以人为地生成不同版本、不同类型的真实数据集的方式增加其数据量和数据相关的信息。数据扩增的策略多应用于机器智能领域来处理数据稀缺和数据多样性不足的问题。而在面向不同任务的数据扩增策略中,对于图像类的数据扩增有一些被证明有效的方法,如几何变换、色彩增强和裁剪等,然而针对如人体姿态序列这类同时具有时空特性的高维信息,则少见相关数据扩增的研究。同时,大部分数据扩增算法更多旨在当前既有数据的基础上进行泛化加工,而鲜有基于数据含义作可控编辑生成的数据扩增方法。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种语义可控的人体行为姿态视频数据扩增方法,其可自主生成对应行为数据的新数据样本,从而提升人体行为数据的内容丰富度与姿态丰富度。
为实现上述目的,本发明采用的技术方案是:
一种语义可控的人体行为姿态视频数据扩增***,所述***包括数据规范化模块、姿态估计模块、行为生成模块、姿态重建模块和姿态迁移模块;
所述数据规范化模块用于对原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段;所述初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r),其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整;
所述姿态估计模块用于对规范化后的行为视频数据片段进行如下处理:
(1)采用J个关键点对人体姿态进行标注及定义;
(2)利用姿态估计网络对行为视频数据片段进行标注及定义,得到带有3D姿态关键点的标注及其坐标,以及估计姿态数据,该估计姿态数据视为一串真实的人体姿态行为序列;
带有3D姿态关键点的标注及其坐标表示为:
{Jointi|(X1,Y1,Z1),(X2,Y2,Z2)...(XJ,YJ,ZJ),i=0,1,2...J};
姿态估计数据表示给定语义标签的真实动作序列,具体表示为:
Figure BDA0004050601080000031
其中,J为人体3D姿态估计关键点个数,L为序列长度;
(3)设定映射编码器Pe,将人体姿态行为序列逐帧投影为一维向量
Figure BDA0004050601080000032
后,根据帧数进行组合,最终映射得重构行为序列数据
Figure BDA0004050601080000033
H为嵌入空间的维数,得到转化后的重构行为序列数据;一维向量
Figure BDA0004050601080000034
表示为:
Figure BDA0004050601080000035
其中,i为序列S在x轴上的索引;
所述行为生成模块,以姿态估计模块中转化后的重构行为序列数据作为输入数据,根据扩增需求,判断是否需要对数据进行语义属性编辑生成;如果判断为否,则重构行为序列数据作为预训练后的模型生成器G1的输入数据,生成新的序列样本数据;如果判断为是,则重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量,将隐空间向量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据;
姿态重建模块,用于对行为生成模块中行为生成的新样本数据进行解析重建,根据人体关键点标签与坐标数据格式和映射编码器Pe构建解码器Pd,并进行还原,得到重建人体姿态行为序列;
姿态迁移模块,用于根据姿态重建模块中重建得到的重建人体姿态行为序列,利用姿态投影算法、姿态迁移算法对该姿态序列进行目标人物迁移,通过调整目标人物参数char,实现对该姿态在不同人物身上的映射,达到数据扩增的目的。
所述模型生成器G1的预训练过程如下:
(1)利用公开数据集预训练对抗生成网络;
具体地,将公开数据集的数据经过数据规范化与姿态估计处理得到的重构行为序列
Figure BDA0004050601080000041
并将其作为真实数据;以随机噪声z作为模型生成器G1的输入映射为生成数据G(z);以真实数据与生成数据G(z)作为判别器的输入,由判别器判断数据生成效果是否真实;
(2)模型生成器G1预训练过程中,利用判别器衡量重建数据和原数据之间的分布差异,通过反向传播将生成器损失与判别器损失反馈回生成器与判别器,进行迭代训练,训练过程交替训练生成器和判别器,判别器训练的损失函数为:
Figure BDA0004050601080000042
模型生成器G1的损失函数为:
Figure BDA0004050601080000051
(3)模型生成器G1预训练模块训练过程中的感知损失为将生成样本和真实值分别送入VGG16网络提取特征,计算其在VGG16网络N个层中M个特征值的L1距离如式(1-4):
Figure BDA0004050601080000052
其中,z指模型输入,x为对应真实数据
Figure BDA0004050601080000053
G(z)为生成数据;
(4)将关键点对的集合ε={i,j}的误差Llimb作为约束条件,优化对抗生成网络的目标函数,误差Llimb如下:
Figure BDA0004050601080000054
所述语义可控模型生成器G2的预训练包括第一训练阶段和第二训练阶段:第一训练阶段如下:
(1)针对真实数据
Figure BDA0004050601080000055
的数据隐空间进行结构化语义划分;将隐空间Z与W划分为多个子空间,每个子空间编码不同的语义属性;划分规则如下:假设每段数据序列有N个语义属性,则把隐空间划分为N+1个子空间,最后一个子空间包括所有其余属性;将隐空间Z与W表示为两个潜在空间中子向量的级联,将组合后的隐空间向量w输入语义可控模型生成器G2;
(2)基于组合后的隐空间向量w,语义可控模型生成器G2生成含有各组合语义属性的生成数据;采用对比学习的方法对隐空间进行解耦,在一个对比训练的分支里取两个不同的隐向量,计算两个向量对第k个属性的对比损失,让两个向量生成的图片在同一个属性时相互靠近,属性不同则相互远离;
同时,将关键点对间的误差Llimb作为约束条件,优化对抗生成网络的目标函数Loss,误差Llimb如下:
Figure BDA0004050601080000061
(3)对比训练的过程中,为了使得生成数据的一个特定属性可控,对属性k定义一个可微函数Mk将二维图像数据I映射到D维空间中,具有相似属性的数据在D维空间中相互接近,不同属性的数据相互远离,将两幅图像Ii和Ij之间的k的属性距离定义为它们在相应隐空间中的距离如式(1-6):
dk(Ii,Ij)=dist(Mk(Ii),Mk(Ij)) (1-6)
(4)通过上述第一阶段的训练,在GAN的隐空间中实现解纠缠;
第二阶段训练如下:
(1)设计多层感知机属性编码器将各语义属性映射为相应的隐空间子向量,对每个属性进行显式控制;对每一个语义属性k训练一个属性编码器Ek:yk→wk,其中yk为属性的可解释表示,Wk为该语义属性的在隐空间中的子向量表达;
(2)通过训练后的各个属性的映射编码器Ek:yk→wk,生成对应的隐空间子向量,可以使用子向量的任意组合来控制生成包含不同语义属性内容的隐空间向量
Figure BDA0004050601080000062
一种语义可控的人体行为姿态视频数据扩增方法,所述方法采用如上所述的***实现,所述方法包括以下步骤:
步骤1、对原始视频数据进行统一的规范化处理。
具体地,对拟扩增的原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段;初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r),其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整;
步骤2、根据初始化定义信息和各单位数据的始末视频帧,对原始视频数据进行裁剪,得到视频数据片段Xi={X1,X2,...Xt},i=0,1,2...L(L为视频片段总数),即包含该行为的完整表达;
步骤3、基于规范化后的行为视频数据片段,将上述数据进行人体姿态估计并提取姿态关键点坐标数据;
在进行人体3D姿态表示前,通过姿态估计网络对行为视频数据片段进行标注及定义,输出带有3D姿态关键点的标注及其坐标,得到的估计姿态数据视为一串真实的人体姿态行为序列;姿态估计模块将输出带有3D姿态关键点的标注及其坐标{Jointi|(X1,Y1,Z1),(X2,Y2,Z2)...(XJ,YJ,ZJ),i=0,1,2...L};该姿态估计数据表示给定语义标签的真实动作序列
Figure BDA0004050601080000071
Figure BDA0004050601080000072
其中J为人体3D姿态估计关键点个数,L为序列长度。
步骤4、定义映射编码器P,将人体姿态行为序列
Figure BDA0004050601080000073
逐帧投影为一维向量
Figure BDA0004050601080000074
Figure BDA0004050601080000075
后根据帧数进行组合,如式(1-1)所示,其中,i为序列S在x轴上的索引;最终映射得重构行为序列数据
Figure BDA0004050601080000076
H为嵌入空间的维数,得到转化后的重构行为序列数据;
Figure BDA0004050601080000077
步骤5、利用训练后得到的模型生成器G1和语义可控模型生成器G2,以姿态估计模块中转化后的重构行为序列数据作为输入数据,输出生成数据;
具体如下:
步骤5-1、根据扩增需求,判断是否需要对数据进行语义属性编辑生成;如果判断为否,则步骤4中转化后的重构行为序列数据作为预训练生成器G1的输入数据,生成新的序列样本数据;
步骤5-2、如果判断为是,则步骤4中转化后的重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量;
步骤5-3、将步骤5-2中的隐空间向量量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据;
步骤6、在姿态序列重建模块中,需要将在步骤5获得的新序列样本进行解析重建,对于步骤4中的编码器Pe,遵循步骤2与步骤4中的关键点标签与坐标格式标准构建解码器Pd,通过解码得到重建人体姿态行为序列;
步骤7、将在步骤6中获得的重建人体姿态行为序列,利用相机焦距f实现相机坐标系、像素坐标系与图像坐标系之间的转换,得到对应的2D人体姿态表示,转换式如1-9所示:
Figure BDA0004050601080000081
步骤8、利用姿态迁移网络生成器G3对步骤7转换的2D人体姿态序列表示
Figure BDA0004050601080000082
将对应的真实序列
Figure BDA0004050601080000083
根据目标人物参数char,映射到生成的视频图像帧组
Figure BDA0004050601080000084
生成模型如式(1-10)所示:
Figure BDA0004050601080000085
其中,G对应序列生成函数,当前帧的生成图像
Figure BDA0004050601080000086
基于前几帧的生成图像
Figure BDA0004050601080000087
和语义标签
Figure BDA0004050601080000088
输出;通过改变对应人物数据参数,实现生成姿态在不同人物上的迁移,最终得到生成数据,实现数据扩增。
采用上述方案后,针对应用场景中的目标人物行为,进行规范化定义与采集,通过视频逐帧分析进行3D人体姿态估计;利用人体姿态运动学知识对估计模型进行表示,约束各关键点和自由度,构建人体姿态关键点嵌入表达;利用预训练的对抗生成网络对提取信息进行博弈生成,产生尽可能逼真的新数据;对生成数据进行3D姿态重建,通过姿态迁移技术实现人体姿态在不同目标人物上的迁移,实现人体行为数据的扩增。相较于现有技术,本发明具有以下有益效果:
1、本发明利用构建序列编码器的方法,将动作序列S映射为可被卷积神经网络直接处理的运动序列二维嵌入,作为生成模型的输入,生成全新的动作序列数据。缓解在生成模型中单帧生成连续帧图像时,生成序列缺乏空间连续性的问题。
2、本发明利用附加对比学习的隐空间编辑方法,构建语义可控生成模块,通过结构化数据隐空间,对不同人体姿态序列数据中不同的语义属性进行对比划分,最终达到对行为序列中不同的运动特征属性可控编辑的效果,进而生成语义可控的行为序列数据。该方法可以对运动序列数据的语义属性进行可监督划分,在一定程度上解耦数据隐空间,为每一个定义属性训练显性控制参数,通过调节参数达成语义可控的姿态序列数据扩增的目的。
3、本发明主要采用对抗生成网络技术对3D人体姿态与动作数据进行生成与扩增,同时结合姿态迁移技术,实现人物内容上的风格迁移,***性提升了人体行为在内容层面与动作层面的丰富度。
4、本发明所提方法通过该数据扩增算法,可提升人体行为数据的内容丰富度与姿态丰富度,自主生成新的训练样本,构建相应数据资源池,服务于下游检测任务。本发明具有减少人力劳动、资源优化、生成数据多样化和运行负载小等特点。
附图说明
图1为本发明的总流程结构;
图2为本发明的具体流程结构。
下面将结合附图对本发明作进一步的详细说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明公开了一种语义可控的人体行为姿态视频数据扩增***,其包括数据规范化模块、姿态估计模块、行为生成模块、姿态重建模块和姿态迁移模块。
数据规范化模块用于对原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段。初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r)。其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整。本实施例中,数据规范化模块中对原视频数据进行裁剪,并调整画幅为(512,512)固定大小,得到行为视频数据片段。
姿态估计模块用于对规范化后的行为视频数据片段进行如下处理:
(1)采用J个关键点对人体姿态进行标注及定义。本实施例,全局人体3D姿态估计关键点定义为J=32个,局部人体3D姿态估计关键点定义为J=13个。
(2)利用姿态估计网络对行为视频数据片段进行标注及定义,得到带有3D姿态关键点的标注及其坐标,以及估计姿态数据,该估计姿态数据视为一串真实的人体姿态行为序列。
带有3D姿态关键点的标注及其坐标表示为:
{Jointi|(X1,Y1,Z1),(X2,Y2,Z2)...(XJ,YJ,ZJ),i=0,1,2...J};
姿态估计数据表示给定语义标签的真实动作序列,具体表示为:
Figure BDA0004050601080000111
其中,J为人体3D姿态估计关键点个数,L为序列长度。
(3)设定映射编码器Pe,将人体姿态行为序列逐帧投影为一维向量
Figure BDA0004050601080000112
后,根据帧数进行组合,最终映射得重构行为序列数据
Figure BDA0004050601080000113
H为嵌入空间的维数,得到转化后的重构行为序列数据。一维向量
Figure BDA0004050601080000114
表示为:
Figure BDA0004050601080000115
其中,i为序列S在x轴上的索引。
行为生成模块,以姿态估计模块中转化后的重构行为序列数据作为输入数据,根据扩增需求,判断是否需要对数据进行语义属性编辑生成;如果判断为否(不需要控制语义属性生成),则重构行为序列数据作为预训练后的模型生成器G1的输入数据,生成新的序列样本数据;如果判断为是(需要控制语义属性生成),则重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量,将隐空间向量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据。
其中,模型生成器G1的预训练过程如下:
(1)利用公开数据集预训练对抗生成网络。
具体地,将公开数据集的数据经过数据规范化与姿态估计处理得到的重构行为序列
Figure BDA0004050601080000121
并将其作为真实数据。以随机噪声z作为模型生成器G1的输入映射为生成数据G(z)。以真实数据与生成数据G(z)作为判别器的输入,由判别器判断数据生成效果是否真实。
(2)模型生成器G1预训练过程中,需利用判别器衡量重建数据和原数据之间的分布差异,通过反向传播将生成器损失与判别器损失反馈回生成器与判别器,进行迭代训练,训练过程交替训练生成器和判别器,判别器训练的损失函数为:
Figure BDA0004050601080000122
模型生成器G1的损失函数为:
Figure BDA0004050601080000123
(3)模型生成器G1预训练模块训练过程中的感知损失为将生成样本和真实值分别送入VGG16网络提取特征,计算其在VGG16网络N个层中M个特征值的L1距离如式(1-4):
Figure BDA0004050601080000124
其中,z指模型输入,x为对应真实数据
Figure BDA0004050601080000125
G(z)为生成数据。
(4)由于人体姿态结构可视为内部运动链相互独立稳定的刚体,这些语义上重要的关键点间的相对距离应保持稳定。因此,关键点对的集合ε={i,j}的误差Llimb将被作为约束条件,优化对抗生成网络的目标函数。误差Llimb如下:
Figure BDA0004050601080000126
语义可控模型生成器G2的预训练包括第一训练阶段和第二训练阶段:第一训练阶段如下:
(1)针对真实数据
Figure BDA0004050601080000131
的数据隐空间进行结构化语义划分。将隐空间Z与W划分为多个子空间,每个子空间编码不同的语义属性。划分规则如下:假设每段数据序列有N个语义属性,则把隐空间划分为N+1个子空间,最后一个子空间(即第N+1个子空间)包括所有其余属性。将隐空间Z与W表示为两个潜在空间中子向量的级联,将组合后的隐空间向量w输入语义可控模型生成器G2。
(2)基于组合后的隐空间向量w,语义可控模型生成器G2生成含有各组合语义属性的生成数据。采用对比学习的方法对隐空间进行解耦,在一个对比训练的分支里取两个不同的隐向量,计算两个向量对第k个属性的对比损失,目的是要让两个向量生成的图片在同一个属性时相互靠近(相似性更高),属性不同则相互远离。
同时,由于人体姿态结构可视为内部运动链相互独立稳定的刚体,这些语义上重要的关键点间的相对距离应保持稳定。因此,关键点对间的误差Llimb将被作为约束条件,优化对抗生成网络的目标函数Loss。误差Llimb如下:
Figure BDA0004050601080000132
(3)对比训练的过程中,为了使得生成数据的一个特定属性可控,对属性k定义一个可微函数Mk将二维图像数据I映射到D维空间中,具有相似属性的数据在D维空间中相互接近,不同属性的数据相互远离,将两幅图像Ii和Ij之间的k的属性距离定义为它们在相应隐空间中的距离如式(1-6):
dk(Ii,Ij)=dist(Mk(Ii),Mk(Ij)) (1-6)
(4)通过上述第一阶段的训练,在GAN的隐空间中实现解纠缠。
第二阶段训练如下:
(1)设计多层感知机属性编码器将各语义属性映射为相应的隐空间子向量,进而对每个属性进行显式控制。对每一个语义属性k训练一个属性编码器Ek:yk→wk,其中yk为属性的可解释表示,wk为该语义属性的在隐空间中的子向量表达。
(2)通过训练后的各个属性的映射编码器Ek:yk→wk,生成对应的隐空间子向量,可以使用子向量的任意组合来控制生成包含不同语义属性内容的隐空间向量
Figure BDA0004050601080000141
姿态重建模块,用于对行为生成模块中行为生成的新样本数据进行解析重建,根据人体关键点标签与坐标数据格式和映射编码器Pe构建解码器Pd,并进行还原,得到重建人体姿态行为序列。
姿态迁移模块,用于根据姿态重建模块中重建得到的重建人体姿态行为序列,利用姿态投影算法、姿态迁移算法对该姿态序列进行目标人物迁移,通过调整目标人物参数char,实现对该姿态在不同人物身上的映射,达到数据扩增的目的。
如图2所示,基于以上***,本发明还公开了一种语义可控的人体行为姿态视频数据扩增方法,其包括以下步骤:
步骤1、对原始视频数据进行统一的规范化处理。
具体地,对拟扩增的原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段。初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r)。其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整。
步骤2、根据初始化定义信息和各单位数据的始末视频帧,对原始视频数据进行裁剪,得到视频数据片段Xi={X1,X2,...Xt},i=0,1,2...L(L为视频片段总数),即包含该行为的完整表达。
本实施例中,数据规范化模块中对原视频数据进行裁剪,并调整画幅为(512,512)固定大小,得到行为视频数据片段。
步骤3、基于规范化后的行为视频数据片段,本发明将上述数据进行人体姿态估计并提取姿态关键点坐标数据。在进行人体3D姿态表示前,采用J个关键点对人体姿态进行标注及定义。其中全局人体3D姿态估计关键点为J=32个,局部人体3D姿态估计关键点定义为J=13个。
通过姿态估计网络对行为视频数据片段进行标注及定义,输出带有3D姿态关键点的标注及其坐标,得到的估计姿态数据视为一串真实的人体姿态行为序列。姿态估计模块将输出带有3D姿态关键点的标注及其坐标{Jointi|(X1,Y1,Z1),(X2,Y2,Z2)...(XJ,YJ,ZJ),i=0,1,2...L}。该姿态估计数据表示给定语义标签的真实动作序列
Figure BDA0004050601080000151
Figure BDA0004050601080000152
其中J为人体3D姿态估计关键点个数,L为序列长度。
步骤4、定义映射编码器P,将人体姿态行为序列
Figure BDA0004050601080000153
逐帧投影为一维向量
Figure BDA0004050601080000154
Figure BDA0004050601080000155
后根据帧数进行组合。如式(1-1)所示,其中,i为序列S在x轴上的索引。最终映射得重构行为序列数据
Figure BDA0004050601080000156
H为嵌入空间的维数,得到转化后的重构行为序列数据。
Figure BDA0004050601080000157
步骤5、利用训练后得到的模型生成器G1和语义可控模型生成器G2,以姿态估计模块中转化后的重构行为序列数据作为输入数据,输出生成数据。
具体如下:
步骤5-1、根据扩增需求,判断是否需要对数据进行语义属性编辑生成。如果判断为否(不需要控制语义属性生成),则步骤4中转化后的重构行为序列数据作为预训练生成器G1的输入数据,生成新的序列样本数据。
步骤5-2、如果判断为是(需要控制语义属性生成),则步骤4中转化后的重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量。
步骤5-3、将步骤5-2中的隐空间向量量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据。
模型生成器G1的训练过程如下:
(1)首先利用公开数据集预训练对抗生成网络;
具体地,将公开数据经过步骤1~4,得到经过数据规范化与姿态估计处理得到的重构行为序列
Figure BDA0004050601080000163
以随机噪声z作为对抗生成网络G1的输入映射为生成数据G(z)。以真实数据与生成数据作为判别器的输入,由判别器判断数据生成效果是否真实。
(2)模型生成器G1预训练模块训练过程中,需利用判别器衡量重建数据和原数据之间的分布差异,由通过反向传播将生成器损失与判别器损失反馈回生成器与判别器,进行迭代训练,训练过程交替训练生成器和判别器,判别器训练的损失函数为:
Figure BDA0004050601080000161
模型生成器的损失函数为:
Figure BDA0004050601080000162
(2)模型生成器G1预训练模块训练过程中的感知损失如(式1-4所示),将生成样本和真实值分别送入VGG16网络提取特征,计算他们在网络中N个层中M个特征值的L1距离如下式,其中z指模型输入,x为对应真实数据Se,G(z)为生成数据。
Figure BDA0004050601080000171
其中,z指模型输入,x为对应真实数据
Figure BDA0004050601080000172
G(z)为生成数据。
(4)同时,由于人体姿态结构可视为内部运动链相互独立稳定的刚体,这些语义上重要的关键点间的相对距离应保持稳定。因此,关键点对集合ε={i,j}的误差Llimb将被作为约束条件,优化对抗生成网络的目标函数。
Figure BDA0004050601080000173
语义可控模型生成器G2的训练包括第一训练阶段和第二训练段,第一训练阶段如下:
(1)针对真实数据
Figure BDA0004050601080000174
的数据隐空间进行结构化语义划分。将隐空间Z与W划分为多个子空间,每个子空间编码不同的语义属性。划分规则如下:假设每段数据序列有N个语义属性,则把隐空间划分为N+1个子空间,最后一个子空间(即第N+1个子空间)包括所有其余属性。将隐空间Z与W表示为两个潜在空间中子向量的级联,将组合后的隐空间向量w输入语义可控模型生成器G2。
(2)基于组合后的隐空间向量w,语义可控模型生成器G2生成含有各组合语义属性的生成数据。通过对比学习的方法对隐空间进行解耦,其中对比学习的损失函数为:
Figure BDA0004050601080000175
其中,lk为语义属性k的对比损失分量。在一个对比训练分支里取两个不同的隐向量zi和zj,计算两个向量对第k个属性的对比损失,目的是要让zi和zj生成的图片Ii和Ij在同一个属性时
Figure BDA0004050601080000181
相互靠近,属性不同则相互远离。
针对各个属性的对比损失为:
Figure BDA0004050601080000182
其中,Ii=G(zi)表示由隐空间向量zi生成的图像,
Figure BDA0004050601080000183
是zi的k个子向量,dk是第k个属性的距离函数,
Figure BDA0004050601080000184
是相同与不同子向量相关的每个属性的阈值,
Figure BDA0004050601080000185
是根据相同和不同损失分量的个数对损失进行归一化的常数。通过判别,在训练过程中可以逐渐对生成图像Ii,Ij和其他图像之间的相似度进行反馈与惩罚。
(3)同时,由于人体姿态结构可视为内部运动链相互独立稳定的刚体,这些语义上重要的关键点间的相对距离应保持稳定。因此关键点对ε={i,j}的误差Llimb将被作为约束条件,优化对抗生成网络的目标函数。
Figure BDA0004050601080000186
(4)对比训练的过程中,为了使得生成图像的一个特定属性可控,对属性k定义一个可微函数Mk将二维图像数据I映射到D维空间中,具有相似属性的数据在D维空间中相互接近,不同属性的数据相互远离,将两幅图像Ii和Ij之间的k的属性距离定义为它们在相应隐空间中的距离如式(1-6)所示:
dk(Ii,Ij)=dist(Mk(Ii),Mk(Ij)) (1-6)
(4)通过上述第一阶段训练,在GAN的潜在空间中实现解纠缠。
第二训练阶段如下:
(1)设计多层感知机属性编码器将各语义属性映射为相应的隐空间子向量,进而对每个属性进行显式控制。对每一个语义属性k训练一个属性编码器Ek:yk→wk,其中yk为属性的可解释表示,wk为该语义属性的在隐空间中的子向量表达。
(2)通过训练后的各个属性的映射编码器Ek:yk→wk,生成对应的隐空间子向量,可以使用子向量的任意组合来控制生成包含不同语义属性内容的隐空间向量
Figure BDA0004050601080000191
步骤6、在姿态序列重建模块中,需要将在步骤5获得的新序列样本进行解析重建,对于步骤4中的编码器Pe,遵循步骤2与步骤4中的关键点标签与坐标格式标准构建解码器Pd,通过解码得到重建人体姿态行为序列。
步骤7、将在步骤6中获得的重建人体姿态行为序列,利用相机焦距f实现相机坐标系、像素坐标系与图像坐标系之间的转换,得到对应的2D人体姿态表示,转换式如1-9所示:
Figure BDA0004050601080000192
步骤8、利用姿态迁移网络生成器G3对步骤7转换的2D人体姿态序列表示
Figure BDA0004050601080000193
将对应的真实序列
Figure BDA0004050601080000194
根据目标人物参数char,映射到生成的视频图像帧组
Figure BDA0004050601080000195
生成模型如式(1-10)所示:
Figure BDA0004050601080000196
其中,G对应序列生成函数,当前帧的生成图像
Figure BDA0004050601080000197
基于前几帧的生成图像
Figure BDA0004050601080000198
和语义标签
Figure BDA0004050601080000199
输出。通过改变对应人物数据参数,实现生成姿态在不同人物上的迁移,最终得到生成数据,实现数据扩增。
综上所述,本发明针对应用场景中的目标人物行为,进行规范化定义与采集,通过视频逐帧分析进行3D人体姿态估计;利用人体姿态运动学知识对估计模型进行表示,约束各关键点和自由度,构建人体姿态关键点嵌入表达;利用预训练的对抗生成网络对提取信息进行博弈生成,产生尽可能逼真的新数据;对生成数据进行3D姿态重建,通过姿态迁移技术实现人体姿态在不同目标人物上的迁移,实现人体行为数据的扩增。相较于现有技术,本发明具有以下有益效果:
1、本发明利用构建序列编码器的方法,将动作序列S映射为可被卷积神经网络直接处理的运动序列二维嵌入,作为生成模型的输入,生成全新的动作序列数据。缓解在生成模型中单帧生成连续帧图像时,生成序列缺乏空间连续性的问题。
2、本发明利用附加对比学习的隐空间编辑方法,构建语义可控生成模块,通过结构化数据隐空间,对不同人体姿态序列数据中不同的语义属性进行对比划分,最终达到对行为序列中不同的运动特征属性可控编辑的效果,进而生成语义可控的行为序列数据。该方法可以对运动序列数据的语义属性进行可监督划分,在一定程度上解耦数据隐空间,为每一个定义属性训练显性控制参数,通过调节参数达成语义可控的姿态序列数据扩增的目的。
3、本发明主要采用对抗生成网络技术对3D人体姿态与动作数据进行生成与扩增,同时结合姿态迁移技术,实现人物内容上的风格迁移,***性提升了人体行为在内容层面与动作层面的丰富度。
4、本发明所提方法通过该数据扩增算法,可提升人体行为数据的内容丰富度与姿态丰富度,自主生成新的训练样本,构建相应数据资源池,服务于下游检测任务。本发明具有减少人力劳动、资源优化、生成数据多样化和运行负载小等特点。
以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (4)

1.一种语义可控的人体行为姿态视频数据扩增***,其特征在于:所述***包括数据规范化模块、姿态估计模块、行为生成模块、姿态重建模块和姿态迁移模块;
所述数据规范化模块用于对原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段;所述初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r),其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整;
所述姿态估计模块用于对规范化后的行为视频数据片段进行如下处理:
(1)采用J个关键点对人体姿态进行标注及定义;
(2)利用姿态估计网络对行为视频数据片段进行标注及定义,得到带有3D姿态关键点的标注及其坐标,以及估计姿态数据,该估计姿态数据视为一串真实的人体姿态行为序列;
带有3D姿态关键点的标注及其坐标表示为:
{Jointi|(X1,Y1,Z1),(X2,Y2,Z2)…(XJ,YJ,ZJ),i=0,1,2…J};
姿态估计数据表示给定语义标签的真实动作序列,具体表示为:
Figure FDA0004050601070000011
其中,J为人体3D姿态估计关键点个数,L为序列长度;
(3)设定映射编码器Pe,将人体姿态行为序列逐帧投影为一维向量
Figure FDA0004050601070000012
后,根据帧数进行组合,最终映射得重构行为序列数据
Figure FDA0004050601070000013
H为嵌入空间的维数,得到转化后的重构行为序列数据;一维向量
Figure FDA0004050601070000014
表示为:
Figure FDA0004050601070000021
其中,i为序列S在x轴上的索引;
所述行为生成模块,以姿态估计模块中转化后的重构行为序列数据作为输入数据,根据扩增需求,判断是否需要对数据进行语义属性编辑生成;如果判断为否,则重构行为序列数据作为预训练后的模型生成器G1的输入数据,生成新的序列样本数据;如果判断为是,则重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量,将隐空间向量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据;
姿态重建模块,用于对行为生成模块中行为生成的新样本数据进行解析重建,根据人体关键点标签与坐标数据格式和映射编码器Pe构建解码器Pd,并进行还原,得到重建人体姿态行为序列;
姿态迁移模块,用于根据姿态重建模块中重建得到的重建人体姿态行为序列,利用姿态投影算法、姿态迁移算法对该姿态序列进行目标人物迁移,通过调整目标人物参数char,实现对该姿态在不同人物身上的映射,达到数据扩增的目的。
2.根据权利要求1所述的一种语义可控的人体行为姿态视频数据扩增***,其特征在于:所述模型生成器G1的预训练过程如下:
(1)利用公开数据集预训练对抗生成网络;
具体地,将公开数据集的数据经过数据规范化与姿态估计处理得到的重构行为序列
Figure FDA0004050601070000022
并将其作为真实数据;以随机噪声z作为模型生成器G1的输入映射为生成数据G(z);以真实数据与生成数据G(z)作为判别器的输入,由判别器判断数据生成效果是否真实;
(2)模型生成器G1预训练过程中,利用判别器衡量重建数据和原数据之间的分布差异,通过反向传播将生成器损失与判别器损失反馈回生成器与判别器,进行迭代训练,训练过程交替训练生成器和判别器,判别器训练的损失函数为:
Figure FDA0004050601070000031
模型生成器G1的损失函数为:
Figure FDA0004050601070000032
(3)模型生成器G1预训练模块训练过程中的感知损失为将生成样本和真实值分别送入VGG16网络提取特征,计算其在VGG16网络N个层中M个特征值的L1距离如式(1-4):
Figure FDA0004050601070000033
其中,z指模型输入,x为对应真实数据
Figure FDA0004050601070000034
G(z)为生成数据;
(4)将关键点对的集合ε={i,j}的误差Llimb作为约束条件,优化对抗生成网络的目标函数,误差Llimb如下:
Figure FDA0004050601070000035
3.根据权利要求1所述的一种语义可控的人体行为姿态视频数据扩增***,其特征在于:所述语义可控模型生成器G2的预训练包括第一训练阶段和第二训练阶段:第一训练阶段如下:
(1)针对真实数据
Figure FDA0004050601070000036
的数据隐空间进行结构化语义划分;将隐空间Z与W划分为多个子空间,每个子空间编码不同的语义属性;划分规则如下:假设每段数据序列有N个语义属性,则把隐空间划分为N+1个子空间,最后一个子空间包括所有其余属性;将隐空间Z与W表示为两个潜在空间中子向量的级联,将组合后的隐空间向量w输入语义可控模型生成器G2;
(2)基于组合后的隐空间向量w,语义可控模型生成器G2生成含有各组合语义属性的生成数据;采用对比学习的方法对隐空间进行解耦,在一个对比训练的分支里取两个不同的隐向量,计算两个向量对第k个属性的对比损失,让两个向量生成的图片在同一个属性时相互靠近,属性不同则相互远离;
同时,将关键点对间的误差Llimb作为约束条件,优化对抗生成网络的目标函数Loss,误差Llimb如下:
Figure FDA0004050601070000041
(3)对比训练的过程中,为了使得生成数据的一个特定属性可控,对属性k定义一个可微函数Mk将二维图像数据I映射到D维空间中,具有相似属性的数据在D维空间中相互接近,不同属性的数据相互远离,将两幅图像Ii和Ij之间的k的属性距离定义为它们在相应隐空间中的距离如式(1-6):
dk(Ii,Ij)=dist(Mk(Ii),Mk(Ij))             (1-6)
(4)通过上述第一阶段的训练,在GAN的隐空间中实现解纠缠;
第二阶段训练如下:
(1)设计多层感知机属性编码器将各语义属性映射为相应的隐空间子向量,对每个属性进行显式控制;对每一个语义属性k训练一个属性编码器Ek:yk→wk,其中yk为属性的可解释表示,wk为该语义属性的在隐空间中的子向量表达;
(2)通过训练后的各个属性的映射编码器Ek:yk→wk,生成对应的隐空间子向量,可以使用子向量的任意组合来控制生成包含不同语义属性内容的隐空间向量
Figure FDA0004050601070000051
4.一种语义可控的人体行为姿态视频数据扩增方法,其特征在于:所述方法采用如权利要求1-3任一所述的***实现,所述方法包括以下步骤:
步骤1、对原始视频数据进行统一的规范化处理。
具体地,对拟扩增的原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段;初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r),其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整;
步骤2、根据初始化定义信息和各单位数据的始末视频帧,对原始视频数据进行裁剪,得到视频数据片段Xi={X1,X2,…Xt},i=0,1,2…L(L为视频片段总数),即包含该行为的完整表达;
步骤3、基于规范化后的行为视频数据片段,将上述数据进行人体姿态估计并提取姿态关键点坐标数据;
在进行人体3D姿态表示前,通过姿态估计网络对行为视频数据片段进行标注及定义,输出带有3D姿态关键点的标注及其坐标,得到的估计姿态数据视为一串真实的人体姿态行为序列;姿态估计模块将输出带有3D姿态关键点的标注及其坐标{Jointi|(X1,Y1,Z1),(X2,Y2,Z2)…(XJ,YJ,ZJ),i=0,1,2…L};该姿态估计数据表示给定语义标签的真实动作序列
Figure FDA0004050601070000052
Figure FDA0004050601070000053
其中J为人体3D姿态估计关键点个数,L为序列长度。
步骤4、定义映射编码器P,将人体姿态行为序列
Figure FDA0004050601070000054
逐帧投影为一维向量
Figure FDA0004050601070000055
Figure FDA0004050601070000056
后根据帧数进行组合,如式(1-1)所示,其中,i为序列S在x轴上的索引;最终映射得重构行为序列数据
Figure FDA0004050601070000061
H为嵌入空间的维数,得到转化后的重构行为序列数据;
Figure FDA0004050601070000062
步骤5、利用训练后得到的模型生成器G1和语义可控模型生成器G2,以姿态估计模块中转化后的重构行为序列数据作为输入数据,输出生成数据;
具体如下:
步骤5-1、根据扩增需求,判断是否需要对数据进行语义属性编辑生成;如果判断为否,则步骤4中转化后的重构行为序列数据作为预训练生成器G1的输入数据,生成新的序列样本数据;
步骤5-2、如果判断为是,则步骤4中转化后的重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量;
步骤5-3、将步骤5-2中的隐空间向量量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据;
步骤6、在姿态序列重建模块中,需要将在步骤5获得的新序列样本进行解析重建,对于步骤4中的编码器Pe,遵循步骤2与步骤4中的关键点标签与坐标格式标准构建解码器Pd,通过解码得到重建人体姿态行为序列;
步骤7、将在步骤6中获得的重建人体姿态行为序列,利用相机焦距f实现相机坐标系、像素坐标系与图像坐标系之间的转换,得到对应的2D人体姿态表示,转换式如1-9所示:
Figure FDA0004050601070000071
步骤8、利用姿态迁移网络生成器G3对步骤7转换的2D人体姿态序列表示
Figure FDA0004050601070000072
将对应的真实序列
Figure FDA0004050601070000073
根据目标人物参数char,映射到生成的视频图像帧组
Figure FDA0004050601070000074
生成模型如式(1-10)所示:
Figure FDA0004050601070000075
其中,G对应序列生成函数,当前帧的生成图像
Figure FDA0004050601070000076
基于前几帧的生成图像
Figure FDA0004050601070000077
和语义标签
Figure FDA0004050601070000078
输出;通过改变对应人物数据参数,实现生成姿态在不同人物上的迁移,最终得到生成数据,实现数据扩增。
CN202310040198.5A 2023-01-12 2023-01-12 一种语义可控的人体行为姿态视频数据扩增***及方法 Pending CN115965836A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310040198.5A CN115965836A (zh) 2023-01-12 2023-01-12 一种语义可控的人体行为姿态视频数据扩增***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310040198.5A CN115965836A (zh) 2023-01-12 2023-01-12 一种语义可控的人体行为姿态视频数据扩增***及方法

Publications (1)

Publication Number Publication Date
CN115965836A true CN115965836A (zh) 2023-04-14

Family

ID=87359892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310040198.5A Pending CN115965836A (zh) 2023-01-12 2023-01-12 一种语义可控的人体行为姿态视频数据扩增***及方法

Country Status (1)

Country Link
CN (1) CN115965836A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994708A (zh) * 2024-04-03 2024-05-07 哈尔滨工业大学(威海) 基于时序一致隐空间引导扩散模型的人体视频生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994708A (zh) * 2024-04-03 2024-05-07 哈尔滨工业大学(威海) 基于时序一致隐空间引导扩散模型的人体视频生成方法
CN117994708B (zh) * 2024-04-03 2024-05-31 哈尔滨工业大学(威海) 基于时序一致隐空间引导扩散模型的人体视频生成方法

Similar Documents

Publication Publication Date Title
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN109492662B (zh) 一种基于对抗自编码器模型的零样本图像分类方法
CN110378334B (zh) 一种基于二维特征注意力机制的自然场景文本识别方法
CN110659582A (zh) 图像转换模型训练方法、异质人脸识别方法、装置及设备
CN111832516B (zh) 基于无监督视频表示学习的视频行为识别方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及***
Akhtar et al. Attack to fool and explain deep networks
CN113705290A (zh) 图像处理方法、装置、计算机设备和存储介质
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN115761900B (zh) 用于实训基地管理的物联网云平台
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN113033276B (zh) 一种基于转换模块的行为识别方法
CN111291695B (zh) 人员违章行为识别模型训练方法、识别方法及计算机设备
CN116977457A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN117315070A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN114529785B (zh) 模型的训练方法、视频生成方法和装置、设备、介质
CN115965836A (zh) 一种语义可控的人体行为姿态视频数据扩增***及方法
CN116129013A (zh) 一种生成虚拟人动画视频的方法、装置及存储介质
CN117496567A (zh) 基于特征增强的面部表情识别方法及***
US20230254230A1 (en) Processing a time-varying signal
CN115798055A (zh) 一种基于cornersort跟踪算法的暴力行为检测方法
CN114821424A (zh) 视频分析方法、视频分析装置、计算机设备、存储介质
CN113052132A (zh) 基于面部关键点轨迹特征图的视频情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination