CN112101102A - 一种基于人工智能获取rgb视频中3d肢体动作的方法 - Google Patents
一种基于人工智能获取rgb视频中3d肢体动作的方法 Download PDFInfo
- Publication number
- CN112101102A CN112101102A CN202010789617.1A CN202010789617A CN112101102A CN 112101102 A CN112101102 A CN 112101102A CN 202010789617 A CN202010789617 A CN 202010789617A CN 112101102 A CN112101102 A CN 112101102A
- Authority
- CN
- China
- Prior art keywords
- human body
- limb
- acquiring
- artificial intelligence
- rgb video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 16
- 238000013136 deep learning model Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人体动作识别获取技术领域,尤指一种基于人工智能获取RGB视频中3D肢体动作的方法。本发明基于人工智能获取RGB视频中3D肢体动作的方法通过服务器端接收包含人体的RGB视信息,进而从视频中计算出人体的位置,对人体信息进行数据标准化,再从视频中人体的位置及人体关键点的位置计算出特征数据,然后将特征数据输入到本地存储的深度学习模型,该深度学习模型利用本发明所收集的大量包含人体的RGB视频数据训练而成,深度学习模型输出肢体关键点相对应的三维数值,最后通过自动优化肢体关键点相对应的三维数值为最终结果,从而实现输出更加细致的肢体动作。
Description
技术领域
本发明涉及人体动作识别获取技术领域,尤指一种基于人工智能获取RGB 视频中3D肢体动作的方法。
背景技术
随着计算机视觉技术的发展,利用视频采集设备进行动作识别成为研究重点。现有的动作识别方法需要从视频流中提取关节位置等数据,并将这些数据输入至三层双向长短时记忆循环人工神经网络中,由该神经网络提取数据的动态特征。随后,将提取出来的动态特征输入至分类器网络,最终获取与视频流的数据相应的动作类型。
目前,以深度学习为基础的视频分析技术发展迅速,如:姿态估计,动作跟踪,人脸特征点检测等,大量重要讯息都可从视频及图像中以计算器视觉算法抽取出来。对于从视频中对肢体动作进行识别,现在的技术一般只输出简陋的信息(如:站立,坐着等)作肢体动作的标签,无法输出比较细致的肢体动作。
发明内容
为解决上述问题,本发明提供一种基于人工智能获取RGB视频中3D肢体动作的方法,主要针对肢体动作识别实用性,研发深度学习模型直接从RGB视频中的肢体动作进行分析,并输出肢体关键点相对应的三维数值数值表达细致的肢体动作。
为实现上述目的,本发明采用的技术方案是:一种基于人工智能获取RGB 视频中3D肢体动作的方法,其算法步骤如下:
S1.服务器端接收包含人体的RGB视频信息;
S2.从视频中计算出人体的位置:从视频中取出每一帧并以图像格式作暂存,并把每一张图片输入人体关键点侦测***以取得关键点的X及Y坐标;
S3.从视频中计算出人体特征点检测:基于取得的关键点坐标抽取人体特征,并且以人体不同部份区分特征点群;
S4.对人体信息进行数据标准化:对每一个特征点群进行数据标准化;
S5.提取人体信息的特征数据:已标准化的特征点群将成为不同的特征数据;
S6.将特征数据输入到本地存储的深度学习模型;
S7.深度学习模型计算出肢体关键点相对应的三维数值;
S8.对输出的肢体关键点相对应的三维数值进行自动优化。
进一步地,在S1中,用户经网络接口上传视频到服务器,服务器接收的人体信息为用户选择的人体信息。
进一步地,在S1中,包含人体的RGB视频的获取方式为拍摄或从本地获取。
其中,在S3中,人体部分包括左手臂、右手臂、左腿、右腿、躯干及头部。
进一步地,在S4中,以P={p1,p2,...,pn}为所有(n个)特征点,标准化的特征点群P’计算方法如下:
Q=P/(max(P)–min(P))
P’=Q-mean(Q)。
进一步地,在S7中,以特征数据P’作输入并计算出肢体关键点相对应的三维数值bs=P’*M+b,其中M及b分别为深度网络的卷积核参数与偏置层参数,该参数将从深度学习训练过程中求取。
进一步地,在S7中,深度学习模型利用多层神经网络,在训练数据中学习人体信息的特征数据与肢体关键点相对应的三维数值的相关性。
本发明的有益效果在于:本发明基于人工智能获取RGB视频中3D肢体动作的方法通过服务器端接收包含人体的RGB视信息,进而从视频中计算出人体的位置,对人体信息进行数据标准化,再从视频中人体的位置及人体关键点的位置计算出特征数据,然后将特征数据输入到本地存储的深度学习模型,该深度学习模型利用本发明所收集的大量包含人体的RGB视频数据训练而成,深度学习模型输出肢体关键点相对应的三维数值,最后通过自动优化肢体关键点相对应的三维数值为最终结果,从而实现输出更加细致的肢体动作。
附图说明
图1是本实施例的流程框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。本申请可以以多种不同的形式来实现,并不限于本实施例所描述的实施方式。提供以下具体实施方式的目的是便于对本申请公开内容更清楚透彻的理解。
请参阅图1所示,本发明关于一种基于人工智能获取RGB视频中3D肢体动作的方法,其算法步骤如下:
S1.服务器端接收包含人体的RGB视频信息:用户经网络接口(如网站以 HTTP超文本传输协议)上传视频到服务器,服务器接收的人体信息为用户选择的人体信息,其中包含人体的RGB视频的获取方式为拍摄或从本地获取;
S2.从视频中计算出人体的位置:从视频中取出每一帧并以图像格式作暂存,并把每一张图片输入人体关键点侦测***以取得关键点的X及Y坐标;
S3.从视频中计算出人体特征点检测:基于取得的关键点坐标抽取人体特征,我们以人体不同部份区分特征点群,当中包括左手臂、右手臂、左腿、右腿、躯干及头部;
S4.对人体信息进行数据标准化:对每一个特征点群进行数据标准化,以P ={p1,p2,...,pn}为所有(n个)特征点为例,标准化的特征点群P’计算方法如下:
Q=P/(max(P)–min(P))
P’=Q-mean(Q);
S5.提取人体信息的特征数据:已标准化的特征点群将成为不同的特征数据;
S6.将特征数据输入到本地存储的深度学习模型;
S7.深度学习模型计算出肢体关键点相对应的三维数值:深度学习模型利用多层神经网络,在训练数据中学习人体信息的特征数据与肢体关键点相对应的三维数值的相关性,以特征数据P’作输入并计算出肢体关键点相对应的三维数值bs=P’*M+b,其中M及b分别为深度网络的卷积核参数与偏置层参数,该参数将从深度学习训练过程中求取;
S8.对输出的肢体关键点相对应的三维数值自动优化。
从上可知,本实施例获取RGB视频中3D肢体动作的方法主要包括以下步骤:从视频中计算出人体的位置;从视频中计算出人体关键点检测;提取人体关键点的特征数据;将特征数据输入到深度学习模型,计算出肢体关键点相对应的三维数值数值。其中,本实施例深度学习模型利用多层神经网络,在训练数据中学习人体关键点的特征数据与肢体关键点相对应的三维数值的相关性。此外,本实施例还收集大量包含人体的RGB视频数据,并对每段视频标注肢体关键点相对应的三维数值,供深度学习模型训练之用。
与现有技术相比,本实施例获取RGB视频中3D肢体动作的方法为:首先,通过RGB视频中的肢体影像分析人体的微小变化及动作,并利用深度学习模型识别肢体动作;当分析肢体动作中肢体部位的微小变化时,获取人体关键点信息,并提取该人体关键点信息的特征码;然后,将提取的特征码作为深度学习模型的输入信息;最后,通过深度学习模型将接收的特征码进行分析,并计算出肢体关键点相对应的三维数值作为反馈。本实施例在肢体动作识别过程中,直接使用RGB视频,无需其他的硬件如深度摄影机或某一品牌的智能电话,并输出详细的肢体关键点相对应的三维数值表达细致的动作,可应用于影视、3D 动画、虚拟角色等。
需要进一步说明的是,除非另有明确的规定和限定,术语“获取”“提取”“输出”等术语应做广义理解,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本实用中的具体含义。
以上实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (7)
1.一种基于人工智能获取RGB视频中3D肢体动作的方法,其特征在于:其算法步骤如下:
S1.服务器端接收包含人体的RGB视频信息;
S2.从视频中计算出人体的位置:从视频中取出每一帧并以图像格式作暂存,并把每一张图片输入人体关键点侦测***以取得关键点的X及Y坐标;
S3.从视频中计算出人体特征点检测:基于取得的关键点坐标抽取人体特征,并且以人体不同部份区分特征点群;
S4.对人体信息进行数据标准化:对每一个特征点群进行数据标准化;
S5.提取人体信息的特征数据:已标准化的特征点群将成为不同的特征数据;
S6.将特征数据输入到本地存储的深度学习模型;
S7.深度学习模型计算出肢体关键点相对应的三维数值;
S8.对输出的肢体关键点相对应的三维数值进行自动优化。
2.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法,其特征在于:在S1中,用户经网络接口上传视频到服务器,服务器接收的人体信息为用户选择的人体信息。
3.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法,其特征在于:在S1中,包含人体的RGB视频的获取方式为拍摄或从本地获取。
4.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法,其特征在于:在S3中,人体部分包括左手臂、右手臂、左腿、右腿、躯干及头部。
5.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法,其特征在于:在S4中,以P={p1,p2,...,pn}为所有(n个)特征点,标准化的特征点群P’计算方法如下:
Q=P/(max(P)–min(P))
P’=Q-mean(Q)。
6.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法,其特征在于:在S7中,以特征数据P’作输入并计算出肢体关键点相对应的三维数值bs=P’*M+b,其中M及b分别为深度网络的卷积核参数与偏置层参数,该参数将从深度学习训练过程中求取。
7.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法,其特征在于:在S7中,深度学习模型利用多层神经网络,在训练数据中学习人体信息的特征数据与肢体关键点相对应的三维数值的相关性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010789617.1A CN112101102A (zh) | 2020-08-07 | 2020-08-07 | 一种基于人工智能获取rgb视频中3d肢体动作的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010789617.1A CN112101102A (zh) | 2020-08-07 | 2020-08-07 | 一种基于人工智能获取rgb视频中3d肢体动作的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112101102A true CN112101102A (zh) | 2020-12-18 |
Family
ID=73752698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010789617.1A Pending CN112101102A (zh) | 2020-08-07 | 2020-08-07 | 一种基于人工智能获取rgb视频中3d肢体动作的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101102A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460945A (zh) * | 2020-03-25 | 2020-07-28 | 亿匀智行(深圳)科技有限公司 | 一种基于人工智能获取rgb视频中3d表情的算法 |
CN111488824A (zh) * | 2020-04-09 | 2020-08-04 | 北京百度网讯科技有限公司 | 运动提示方法、装置、电子设备和存储介质 |
-
2020
- 2020-08-07 CN CN202010789617.1A patent/CN112101102A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460945A (zh) * | 2020-03-25 | 2020-07-28 | 亿匀智行(深圳)科技有限公司 | 一种基于人工智能获取rgb视频中3d表情的算法 |
CN111488824A (zh) * | 2020-04-09 | 2020-08-04 | 北京百度网讯科技有限公司 | 运动提示方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
Du et al. | Representation learning of temporal dynamics for skeleton-based action recognition | |
Zhou et al. | Activity analysis, summarization, and visualization for indoor human activity monitoring | |
WO2019174439A1 (zh) | 图像识别方法、装置、终端和存储介质 | |
KR102174595B1 (ko) | 비제약형 매체에 있어서 얼굴을 식별하는 시스템 및 방법 | |
CN110889672B (zh) | 一种基于深度学习的学生打卡及上课状态的检测*** | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及*** | |
CN112418095A (zh) | 一种结合注意力机制的面部表情识别方法及*** | |
CN111770299B (zh) | 一种智能视频会议终端的实时人脸摘要服务的方法及*** | |
Murtaza et al. | Analysis of face recognition under varying facial expression: a survey. | |
CN109635727A (zh) | 一种人脸表情识别方法及装置 | |
Nguyen et al. | Static hand gesture recognition using artificial neural network | |
KR101563297B1 (ko) | 영상에서 행동을 인식하는 방법 및 장치 | |
Rao et al. | Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera. | |
CN110458235B (zh) | 一种视频中运动姿势相似度比对方法 | |
CN113989928B (zh) | 一种动作捕捉和重定向方法 | |
CN113255522A (zh) | 基于时间一致性的个性化运动姿态估计与分析方法及*** | |
CN111460945A (zh) | 一种基于人工智能获取rgb视频中3d表情的算法 | |
CN111898571A (zh) | 动作识别***及方法 | |
CN112489129A (zh) | 位姿识别模型训练方法、装置、位姿识别方法和终端设备 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN114120389A (zh) | 网络训练及视频帧处理的方法、装置、设备及存储介质 | |
Megalingam | Human action recognition: a review | |
CN110348395B (zh) | 一种基于时空关系的骨架行为识别方法 | |
CN116229507A (zh) | 人体姿态检测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518000 717, building r2-a, Gaoxin industrial village, No. 020, Gaoxin South seventh Road, Gaoxin community, Yuehai street, Nanshan District, Shenzhen, Guangdong Applicant after: Yiyun Zhixing (Shenzhen) Technology Co.,Ltd. Address before: 518000 1403a-1005, east block, Coast Building, No. 15, Haide Third Road, Haizhu community, Yuehai street, Nanshan District, Shenzhen, Guangdong Applicant before: Yiyun Zhixing (Shenzhen) Technology Co.,Ltd. |