CN115661916A - 信息处理方法和装置 - Google Patents

信息处理方法和装置 Download PDF

Info

Publication number
CN115661916A
CN115661916A CN202110770435.4A CN202110770435A CN115661916A CN 115661916 A CN115661916 A CN 115661916A CN 202110770435 A CN202110770435 A CN 202110770435A CN 115661916 A CN115661916 A CN 115661916A
Authority
CN
China
Prior art keywords
directed graph
human body
frame
result
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110770435.4A
Other languages
English (en)
Inventor
胡文博
张长弓
马菲莹
谢宣松
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Innovation Co
Original Assignee
Alibaba Singapore Holdings Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Singapore Holdings Pte Ltd filed Critical Alibaba Singapore Holdings Pte Ltd
Priority to CN202110770435.4A priority Critical patent/CN115661916A/zh
Publication of CN115661916A publication Critical patent/CN115661916A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

本发明公开了一种信息处理方法和装置。其中,该方法包括:获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;识别至少一帧图像帧中人体对象的人体关键点的像素坐标;根据人体关键点的像素坐标,确定有向图序列;将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息。本发明解决了相关技术中的人体姿态识别方法识别出的人体姿态信息的准确性较低的技术问题。

Description

信息处理方法和装置
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种信息处理方法和装置。
背景技术
在虚拟形象驱动等计算机动画的任务中,需要捕捉真实的人体姿态来将真实感的动作序列迁移到虚拟人物形象上。但是由于深度歧义性的存在,根据关键点在2D图像中的像素坐标来估算关键点在三维物理空间中的坐标是一个病态问题。因此,常常需要借助人体骨骼的一些先验信息来辅助该任务,其中,较为常见的方法是将人体的骨架结构表达成无向图并应用图卷积网络。然而该方法并不能准确的表达人体骨架结构的层级特性,因此识别出的人体姿态的准确性较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种信息处理方法和装置,以至少解决相关技术中的人体姿态识别方法识别出的人体姿态的准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种信息处理方法,包括:获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;识别至少一帧图像帧中人体对象的人体关键点的像素坐标;根据人体关键点的像素坐标,确定有向图序列;将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息。
进一步地,根据人体关键点的像素坐标,确定有向图序列包括:根据据至少一帧图像帧中的人体关键点的像素坐标,确定人体对象的骨架图拓扑结构;根据至少一帧图像帧中的人体对象的骨架图拓扑结构,构建出有向图结构;将每一帧的有向图结构相连接,形成有向图序列。
进一步地,有向图序列中包括:多个节点的二维坐标,多条边和邻接矩阵,其中,边为节点与节点之间的有向连接关系组成的向量,将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息包括:采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边;将卷积处理后的节点和边,通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标;将各个节点的三维坐标确定至少一帧图像帧中人体对象的三维人体姿态信息。
进一步地,在采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边之后,该方法还包括:采用预设降采样倍数对卷积处理后的节点和边进行下采样,得到下采样结果一;采用预设降采样倍数对下采样结果一进行下采样,得到下采样结果二;采用预设降采样倍数对下采样结果二进行下采样,得到下采样结果三。
进一步地,在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,该方法还包括:将下采样结果三经过空间时间有向图卷积模块进行处理,得到处理后的下采样结果三;将处理后的下采样结果三与经过空间时间有向图卷积模块处理后的下采样结果三进行融合,得到融合结果一;将融合结果一进行上采样,得到上采样后的融合结果一;将上采样后的融合结果一与经过空间时间有向图卷积模块处理后的下采样结果二进行融合,得到融合结果二;将融合结果二进行上采样,得到上采样后的融合结果二;将上采样后的融合结果二与经过空间时间有向图卷积模块处理后的下采样结果一进行融合,得到融合结果三;将融合结果三与卷积处理后的节点和边进行融合,得到融合结果四;将融合结果四作为空间时间条件有向图卷积模块的输入。
进一步地,在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,该方法还包括:通过路由函数确定预设数量的权重值;基于有向图序列中节点的有向连接关系,确定邻接矩阵基函数,其中,邻接矩阵基函数中的数据个数为预设数量;将预设数量的权重值作用在邻接矩阵基函数上进行线性组合,得到条件邻接矩阵。
进一步地,将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,该方法还包括:采用邻接矩阵基函数对有向图序列中各个节点的二维坐标进行更新;使用条件邻接矩阵,对更新后的节点再次进行坐标更新,得到节点的目标坐标;采用邻接矩阵基函数对有向图序列中的边进行更新,得到各个图像帧中人体的拓扑结构,其中,拓扑结构作为空间时间条件有向图卷积模块的输入。
根据本发明实施例的另一个方面,还提供了一种信息处理方法,包括:云服务器接收来自于客户端的待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;在云服务器中识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息;将至少一帧图像帧中人体对象的姿态信息输出至客户端。
根据本发明实施例的另一个方面,还提供了一种信息处理方法,包括:接收用于识别任务的图像处理指令,其中,图像处理指令包括目标视频,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;响应图像处理指令,对目标视频中的至少一帧图像帧进行处理得到的识别结果,其中,识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息,将至少一帧图像帧中人体对象的姿态信息作为识别结果;基于识别结果,确定对人体对象执行疾病检测任务的策略。
根据本发明实施例的另一方面,还提供了一种信息处理装置,包括:第一获取单元,用于获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;第一识别单元,用于识别至少一帧图像帧中人体对象的人体关键点的像素坐标;第一确定单元,用于根据人体关键点的像素坐标,确定有向图序列;第一处理单元,用于将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息。
进一步地,第一确定单元包括:第一确定模块,用于根据据至少一帧图像帧中的人体关键点的像素坐标,确定人体对象的骨架图拓扑结构;第一构建模块,用于根据至少一帧图像帧中的人体对象的骨架图拓扑结构,构建出有向图结构;第一获取模块,用于将每一帧的有向图结构相连接,形成有向图序列。
进一步地,有向图序列中包括:多个节点的二维坐标,多条边和邻接矩阵,其中,边为节点与节点之间的有向连接关系组成的向量,第一处理单元包括:第一处理模块,用于采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边;第二处理模块,用于将卷积处理后的节点和边,通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标;第二确定模块,用于将各个节点的三维坐标确定至少一帧图像帧中人体对象的三维人体姿态信息。
进一步地,该装置还包括:第二处理单元,用于在采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边之后,采用预设降采样倍数对卷积处理后的节点和边进行下采样,得到下采样结果一;第二获取单元,用于采用预设降采样倍数对下采样结果一进行下采样,得到下采样结果二;第三获取单元,用于采用预设降采样倍数对下采样结果二进行下采样,得到下采样结果三。
进一步地,该装置还包括:第四获取单元,用于将下采样结果三经过空间时间有向图卷积模块进行处理,得到处理后的下采样结果三;第五获取单元,用于将处理后的下采样结果三与经过空间时间有向图卷积模块处理后的下采样结果三进行融合,得到融合结果一;第六获取单元,用于将融合结果一进行上采样,得到上采样后的融合结果一;第七获取单元,用于将上采样后的融合结果一与经过空间时间有向图卷积模块处理后的下采样结果二进行融合,得到融合结果二;第八获取单元,用于将融合结果二进行上采样,得到上采样后的融合结果二;第九获取单元,用于将上采样后的融合结果二与经过空间时间有向图卷积模块处理后的下采样结果一进行融合,得到融合结果三;第十获取单元,用于将融合结果三与卷积处理后的节点和边进行融合,得到融合结果四;输入单元,用于将融合结果四作为空间时间条件有向图卷积模块的输入。
进一步地,该装置还包括:第二确定单元,用于在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,通过路由函数确定预设数量的权重值;第三确定单元,用于基于有向图序列中节点的有向连接关系,确定邻接矩阵基函数,其中,邻接矩阵基函数中的数据个数为预设数量;第九获取单元,用于将预设数量的权重值作用在邻接矩阵基函数上进行线性组合,得到条件邻接矩阵。
进一步地,第二处理模块包括:第一更新子模块,用于采用邻接矩阵基函数对有向图序列中各个节点的二维坐标进行更新;第二更新子模块,用于使用条件邻接矩阵,对更新后的节点再次进行坐标更新,得到节点的目标坐标;第三更新子模块,用于采用邻接矩阵基函数对有向图序列中的边进行更新,得到各个图像帧中人体的拓扑结构,其中,拓扑结构作为空间时间条件有向图卷积模块的输入。
根据本发明实施例的另一方面,还提供了一种信息处理装置,包括:第一接收单元,用于云服务器接收来自于客户端的待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;第四确定单元,用于在云服务器中识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息;第一输出单元,用于将至少一帧图像帧中人体对象的姿态信息输出至客户端。
根据本发明实施例的另一方面,还提供了一种信息处理装置,包括:第二接收单元,用于接收用于识别任务的图像处理指令,其中,图像处理指令包括目标视频,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;第一响应单元,用于响应图像处理指令,对目标视频中的至少一帧图像帧进行处理得到的识别结果,其中,识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息,将至少一帧图像帧中人体对象的姿态信息作为识别结果;第五确定单元,用于基于识别结果,确定对人体对象执行疾病检测任务的策略。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时执行上述任意一项的方法。
在本发明实施例中,采用U型条件有向图卷积网络来估计人体姿态的方式,通过获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;识别至少一帧图像帧中人体对象的人体关键点的像素坐标;根据人体关键点的像素坐标,确定有向图序列;将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息,达到了使用条件有向图卷积技术来让不同种类的动作使用合适的拓扑连接关系,更好地利用人体关键点之间的非局部依赖关系的目的,从而实现了提升识别人体姿态的准确性的技术效果,进而解决了相关技术中的人体姿态识别方法识别出的人体姿态的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的计算机终端的硬件结构框图;
图2是根据本发明实施例一提供的信息处理方法的流程图;
图3是根据本发明实施例一提供的U型条件有向图卷积网络中空间时间有向图卷积模块的示意图;
图4是根据本发明实施例一提供的U型条件有向图卷积网络中空间-时间条件有向图卷积模块的示意图;
图5是根据本发明实施例一提供的可选的信息处理方法的示意图;
图6是根据本发明实施例一提供的信息处理方法中节点和边的示意图;
图7是根据本发明实施例一提供的信息处理方法中节点更新的示意图;
图8是根据本发明实施例一提供的信息处理方法中使用条件邻接矩阵更新的节点的示意图;
图9是根据本发明实施例一提供的信息处理方法中边更新的示意图;
图10是根据本发明实施例二提供的信息处理方法的流程图一;
图11是根据本发明实施例三提供的信息处理方法的流程图二;
图12是根据本发明实施例四提供的信息处理装置的示意图;以及
图13是根据本发明实施例的可选的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
2D人体姿态:人体关键点在2D图像平面中的位置。
3D人体姿态:人体关键点在3D物理空间中的位置。
有向图序列:包含了节点和有向边的集合,区别于无向图,有向图中的边具有指向性,其方向决定了节点间的父子连接关系。
有向图卷积:定义在欧式空间上的常规卷积操作在非欧式空间的有向图上的推广。
条件有向图卷积:定于在根据输入自适应生成有向图的拓扑结构上的卷积操作。
虚拟形象驱动:从RGB视频流中得到人体关键点的源数据,并用于驱动任意的虚拟人物形象。
实施例1
根据本发明实施例,提供了一种信息处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现信息处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本发明实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的信息处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的信息处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本发明提供了如图2所示的信息处理方法。图2是根据本发明实施例一的信息处理方法的流程图。
步骤S201,获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息。
步骤S202,识别至少一帧图像帧中人体对象的人体关键点的像素坐标。
采用姿态估计器估计出每一帧图像的人体关键点在图像空间中的像素位置,得到各个人体关键点的二维像素坐标,也可以理解为2D人体姿势。
步骤S203,根据人体关键点的像素坐标,确定有向图序列。
可选地,根据据至少一帧图像帧中的人体关键点的像素坐标,确定人体对象的骨架图拓扑结构;根据至少一帧图像帧中的人体对象的骨架图拓扑结构,构建出有向图结构;将每一帧的有向图结构相连接,形成有向图序列。
例如,人体关键点的个数为J,目标视频中包括的图像帧的数量为T。形成的有向图序列的表达方式为:节点+边+邻接矩阵。训练过程中可以使用batch训练,batch的大小为B。因此有向图序列的向量为:节点:Bx2xJxT(2是节点的二维坐标x,y);边:Bx2xExT(2是边的二维向量x,y,E是边的个数);以及节点和边确定的邻接矩阵。
步骤S204,将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息。
将有向图序列(例如,节点:B×2×J×T和边:B×2×E×T)输入至U型条件有向图卷积网络进行处理,U型条件有向图卷积网络输出的是B×3×J×T,其中,3代表节点的三维坐标,从而基于至少一帧图像帧中各个人体关键点的三维坐标,也可以理解为3D人体姿势,从而确定人体对象的姿态信息。
需要说明的是,在处理流程中,对于上述的有向图序列,可以在界面进行显示,有向图序列的示意图可以如后续图5中所示。方便用户直观看到整个处理过程中,视频帧图像转换为的有向图序列,以及后续输出的人体对象的三维姿态信息。
通过上述步骤S201至步骤S204,使用条件有向图卷积技术来让不同种类的动作使用合适的拓扑连接关系,更好地利用人体关键点之间的非局部依赖关系的目的,从而实现了提升识别人体姿态的准确性的技术效果,进而解决了相关技术中的人体姿态识别方法识别出的人体姿态的准确性较低的技术问题。从而后续才能够基于准确识别出的人体姿态迁移到虚拟人物形象上,执行虚拟形象驱动等计算机动画的任务。
可选地,在本申请实施例提供的信息处理方法中,有向图序列中包括:多个节点的二维坐标,多条边和邻接矩阵,其中,边为节点与节点之间的有向连接关系组成的向量,将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息包括:采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边;将卷积处理后的节点和边,通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标;将各个节点的三维坐标确定至少一帧图像帧中人体对象的三维人体姿态信息。
需要说明的是,U型条件有向图卷积网络它由以下五种基本模块组成:
(1)ST-DGConv(Spatial-Temporal Directed Graph Convolution):空间-时间有向图卷积模块,如下图3所示,其包括空间域的有向图卷积操作和时间域的普通卷积操作。如图3所示,PREV LAYER OUTPUT是前一层的输入,例如,节点:B×C×J×T和边:B×C×E×T通过DGConv后,相邻的形状依旧为B×C×J×T和B×C×E×T;TemporalConv是常规的一维卷积和多项式相乘,经过它后形状为B×C'×J×T'和B×C'×E×T'。
(2)ST-CondDGconv(Spatial-Temporal Conditional Directed GraphConvolution):空间-时间条件有向图卷积模块,用于为不同类型的动作自适应的选择不同的图拓扑结构。如下图4所示,它包含一个路由函数来从前一层的输出中预测拓扑结构基的权重,然后基于这些权重和拓扑基函数,通过线性组合得出适合该动作的拓扑结构(对应图4中的CondE),将该预测的拓扑结构被用来作条件图卷积CondDGConv操作的输入,将CondDGConv的输出,通过TemporalConv经过它后形状为B×C'×J×T'和B×C'×E×T'。
(3)时序下采样模块、时序上采样模块和全连接层,这三个模块是卷积神经网络里的常见操作,在此不作赘述。
通过上述方案中,通过空间时间有向图卷积模块以及空间时间条件有向图卷积模块等模块进行处理后输出各个节点的三维坐标;由各个节点的三维坐标可以准确确定至少一帧图像帧中人体对象的三维人体姿态信息。
可选地,在本申请实施例提供的信息处理方法中,在采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边之后,该方法还包括:采用预设降采样倍数对卷积处理后的节点和边进行下采样,得到下采样结果一;采用预设降采样倍数对下采样结果一进行下采样,得到下采样结果二;采用预设降采样倍数对下采样结果二进行下采样,得到下采样结果三。
如图5所示,在采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理后输出的是B×16×J×T和B×16×E×T,例如,预设降采样倍数为1/2,则采用1/2采样倍数对卷积处理后的节点和边进行下采样,得到下采样结果一:B×32×J×T/2和B×32×E×T/2;采用1/2采样倍数对采样结果一:B×32×J×T/2和B×32×E×T/2进行下采样,得到下采样结果二:B×64×J×T/4和B×64×E×T/4;采用1/2采样倍数对采样结果二:B×64×J×T/4和B×64×E×T/4进行下采样,得到下采样结果三:B×128×J×T/8和B×128×E×T/8。
可选地,在本申请实施例提供的信息处理方法中,在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,该方法还包括:将下采样结果三经过空间时间有向图卷积模块进行处理,得到处理后的下采样结果三;将处理后的下采样结果三与经过空间时间有向图卷积模块处理后的下采样结果三进行融合,得到融合结果一;将融合结果一进行上采样,得到上采样后的融合结果一;将上采样后的融合结果一与经过空间时间有向图卷积模块处理后的下采样结果二进行融合,得到融合结果二;将融合结果二进行上采样,得到上采样后的融合结果二;将上采样后的融合结果二与经过空间时间有向图卷积模块处理后的下采样结果一进行融合,得到融合结果三;将融合结果三与卷积处理后的节点和边进行融合,得到融合结果四;将融合结果四作为空间时间条件有向图卷积模块的输入。
如图5所示,例如,将下采样结果三(B×128×J×T/8和B×128×E×T/8)经过空间时间有向图卷积模块进行处理,得到处理后的下采样结果三;将处理后的下采样结果三与经过空间时间有向图卷积模块处理后的下采样结果三(B×128×J×T/8和B×128×E×T/8)进行融合,得到融合结果一;将融合结果一进行上采样,得到上采样后的融合结果一(B×64×J×T/4和B×64×E×T/4)。将上采样后的融合结果一与经过空间时间有向图卷积模块处理后的下采样结果二(B×64×J×T/4和B×64×E×T/4)进行融合,得到融合结果二;将融合结果二进行上采样,得到上采样后的融合结果二(B×32×J×T/2和B×32×E×T/2);将上采样后的融合结果二与经过空间时间有向图卷积模块处理后的下采样结果一进行融合,得到融合结果三(B×16×J×T和B×16×E×T);将融合结果三与卷积处理后的节点和边(B×16×J×T和B×16×E×T)进行融合,得到融合结果四(B×16×J×T和B×16×E×T);将融合结果四作为空间时间条件有向图卷积模块的输入。
可选地,在本申请实施例提供的信息处理方法中,在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,该方法还包括:通过路由函数确定预设数量的权重值;基于有向图序列中节点的有向连接关系,确定邻接矩阵基函数,其中,邻接矩阵基函数中的数据个数为预设数量;将预设数量的权重值作用在邻接矩阵基函数上进行线性组合,得到条件邻接矩阵。
如图4所示,PREV LAYER OUTPUT是前一层的输入,输入节点:B×C×J×T和边:B×C×E×T,图4中的ROUTE FN是路由函数,输出为m个权重。它的网络结构可以为:globalaverage pooling+fully connected layer+Sigmoid activation;{E1,E2,E3,...,Em}是邻接矩阵基函数,个数为m,每一个邻接矩阵的形状为JxJ,代表了有向图中节点的有向连接关系,正负号代表子父节点。这些邻接矩阵基函数是可训练的,使用稀疏初始化并在训练过程中进行更新。然后将路由函数输出的m个权重作用于m个邻接矩阵基函数上进行线性组合,得到条件邻接矩阵(对应图4中的CondE)。
另外,将PREV LAYER OUTPUT输入的节点:B×C×J×T,边:B×C×E×T和条件邻接矩阵CondE作为CondDGConv的输入,经过处理后,节点和边的形状依旧为B×C×J×T和B×C×E×T。
可选地,在本申请实施例提供的信息处理方法中,将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,该方法还包括:采用邻接矩阵基函数对有向图序列中各个节点的二维坐标进行更新;使用条件邻接矩阵,对更新后的节点再次进行坐标更新,得到节点的目标坐标;采用邻接矩阵基函数对有向图序列中的边进行更新,得到各个图像帧中人体的拓扑结构,其中,拓扑结构作为空间时间条件有向图卷积模块的输入。
例如,输入的有向图序列如图6所示,ni代表节点,ei代表预定义邻接矩阵里的边,Condei代表上文得到的条件邻接矩阵中的边。
首先,使用预定义邻接矩阵进行节点更新。如图7所示,以节点n4为例,节点n4连接有输入边e3,输出边:(e4,e5).将此步定义为输入边,节点本身,输出边三者的卷积。其中,输出边数目可能不为1,因此可以使用求平均来得到输出边的聚合特征。更新后节点n将会更新为n'。
然后,如图8所示,以使用条件邻接矩阵更新节点。以n'4为例,基于条件连接,能得到其父节点集合为n'2,子节点集合为n'3。同样由于条件连接是可训练的,因此也可以用求平均的方式来聚合父节点集合的特征和子节点集合的特征,然后计算父节点集合,节点本申请,子节点集合的卷积。此步更新后节点n'将会更新为n”。
最后,如图9所示,使用预定义邻接矩阵(例如,邻接矩阵基函数)对边进行更新。以边e3为例,其源节点为n”1,目标节点为n”4,且数目都为1。因此可以定义为源节点,边自身,目标节点的卷积。此步更新后边e将会更新为e'。经过以上三步后就完成了CondDGConv的操作,从而得到各个图像帧中人体的拓扑结构,其中,拓扑结构作为空间时间条件有向图卷积模块的输入。通过上述操作,可以使得不同类型的动作使用合适的拓扑结构来最优地利用不同节点间的非局部依赖关系信息进行三维姿态估计。
另外需要说明的是,DGConv的具体操作为:使用预定义邻接矩阵进行节点更新,使用预定义邻接矩阵(例如,邻接矩阵基函数)对边进行更新。具体过程与上述描述相同,具体内容不再赘述。
综上,通过本申请提供的信息处理方法,通过获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;识别至少一帧图像帧中人体对象的人体关键点的像素坐标;根据人体关键点的像素坐标,确定有向图序列;将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息,达到了使用条件有向图卷积技术来让不同种类的动作使用合适的拓扑连接关系,更好地利用人体关键点之间的非局部依赖关系的目的,从而实现了提升识别人体姿态的准确性的技术效果,进而解决了相关技术中的人体姿态识别方法识别出的人体姿态的准确性较低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
本发明还提供了如图10所示的信息处理方法。图10是根据本发明实施例一的信息处理方法的流程图。
步骤S1001,云服务器接收来自于客户端的待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;
步骤S1002,在云服务器中识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息;
步骤S1003,将至少一帧图像帧中人体对象的姿态信息输出至客户端。
通过上述步骤,可以在云服务器中快速准确的使用条件有向图卷积技术来让不同种类的动作使用合适的拓扑连接关系,更好地利用人体关键点之间的非局部依赖关系的目的,从而实现了提升识别人体姿态的准确性的技术效果,进而解决了相关技术中的人体姿态识别方法识别出的人体姿态的准确性较低的技术问题。
在服务器中执行的具体方法步骤,与上述实施例一中的方法相同,在此不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例3
本发明提供了如图11所示的信息处理方法。图11是根据本发明实施例一的信息处理方法的流程图。
步骤S1101,接收用于识别任务的图像处理指令,其中,图像处理指令包括目标视频,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;
步骤S1102,响应图像处理指令,对目标视频中的至少一帧图像帧进行处理得到的识别结果,其中,识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息,将至少一帧图像帧中人体对象的姿态信息作为识别结果;
步骤S1103,基于识别结果,确定对人体对象执行疾病检测任务的策略。
通过上述步骤,可以使用条件有向图卷积技术来让不同种类的动作使用合适的拓扑连接关系,更好地利用人体关键点之间的非局部依赖关系的目的,从而实现了提升识别人体姿态的准确性的技术效果,进而还可以基于人体的姿态信息去分析是否需要对人体对象执行疾病检测。例如,若识别出人体对象的姿态信息中左腿走路的姿势不太符合正常姿势,会考虑后续检测该人体对象的左腿是否麻木,是否存在腰椎间盘突出等等,从而可以自动的反馈检测信息,方便用户参考,从而使得用户快速获取到有效信息。
需要说明的是,对目标视频中的至少一帧图像帧进行处理得到的识别结果中执行的具体方法步骤,与上述实施例一中的方法相同,在此不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例4
根据本发明实施例,还提供了一种用于实施上述信息处理方法的装置,如图12所示,该装置包括:第一获取单元1201、第一识别单元1202、第一确定单元1203、第一处理单元1204。
具体的,第一获取单元1201,用于获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;
第一识别单元1202,用于识别至少一帧图像帧中人体对象的人体关键点的像素坐标;
第一确定单元1203,用于根据人体关键点的像素坐标,确定有向图序列;
第一处理单元1204,用于将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息。
通过本申请实施例四提供的信息处理装置,使用条件有向图卷积技术来让不同种类的动作使用合适的拓扑连接关系,更好地利用人体关键点之间的非局部依赖关系的目的,从而实现了提升识别人体姿态的准确性的技术效果,进而解决了相关技术中的人体姿态识别方法识别出的人体姿态的准确性较低的技术问题。
可选地,在本发明实施例四提供的信息处理装置中,第一确定单元1203包括:第一确定模块,用于根据据至少一帧图像帧中的人体关键点的像素坐标,确定人体对象的骨架图拓扑结构;第一构建模块,用于根据至少一帧图像帧中的人体对象的骨架图拓扑结构,构建出有向图结构;第一获取模块,用于将每一帧的有向图结构相连接,形成有向图序列。
可选地,在本发明实施例四提供的信息处理装置中,其中,有向图序列中包括:多个节点的二维坐标,多条边和邻接矩阵,其中,边为节点与节点之间的有向连接关系组成的向量,第一处理单元包括:第一处理模块,用于采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边;第二处理模块,用于将卷积处理后的节点和边,通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标;第二确定模块,用于将各个节点的三维坐标确定至少一帧图像帧中人体对象的三维人体姿态信息。
可选地,在本发明实施例四提供的信息处理装置中,该装置还包括:第二处理单元,用于在采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边之后,采用预设降采样倍数对卷积处理后的节点和边进行下采样,得到下采样结果一;第二获取单元,用于采用预设降采样倍数对下采样结果一进行下采样,得到下采样结果二;第三获取单元,用于采用预设降采样倍数对下采样结果二进行下采样,得到下采样结果三。
可选地,在本发明实施例四提供的信息处理装置中,该装置还包括:第四获取单元,用于将下采样结果三经过空间时间有向图卷积模块进行处理,得到处理后的下采样结果三;第五获取单元,用于将处理后的下采样结果三与经过空间时间有向图卷积模块处理后的下采样结果三进行融合,得到融合结果一;第六获取单元,用于将融合结果一进行上采样,得到上采样后的融合结果一;第七获取单元,用于将上采样后的融合结果一与经过空间时间有向图卷积模块处理后的下采样结果二进行融合,得到融合结果二;第八获取单元,用于将融合结果二进行上采样,得到上采样后的融合结果二;第九获取单元,用于将上采样后的融合结果二与经过空间时间有向图卷积模块处理后的下采样结果一进行融合,得到融合结果三;第十获取单元,用于将融合结果三与卷积处理后的节点和边进行融合,得到融合结果四;输入单元,用于将融合结果四作为空间时间条件有向图卷积模块的输入。
可选地,在本发明实施例四提供的信息处理装置中,该装置还包括:第二确定单元,用于在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,通过路由函数确定预设数量的权重值;第三确定单元,用于基于有向图序列中节点的有向连接关系,确定邻接矩阵基函数,其中,邻接矩阵基函数中的数据个数为预设数量;第九获取单元,用于将预设数量的权重值作用在邻接矩阵基函数上进行线性组合,得到条件邻接矩阵。
可选地,在本发明实施例四提供的信息处理装置中,第二处理模块包括:第一更新子模块,用于采用邻接矩阵基函数对有向图序列中各个节点的二维坐标进行更新;第二更新子模块,用于使用条件邻接矩阵,对更新后的节点再次进行坐标更新,得到节点的目标坐标;第三更新子模块,用于采用邻接矩阵基函数对有向图序列中的边进行更新,得到各个图像帧中人体的拓扑结构,其中,拓扑结构作为空间时间条件有向图卷积模块的输入。
可选地,在本发明实施例四提供的信息处理装置中,还提供了一种实施上述信息处理的装置,包括:第一接收单元,用于云服务器接收来自于客户端的待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;第四确定单元,用于在云服务器中识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息;第一输出单元,用于将至少一帧图像帧中人体对象的姿态信息输出至客户端。
可选地,在本发明实施例四提供的信息处理装置中,还提供了一种实施上述信息处理的装置,包括:第二接收单元,用于接收用于识别任务的图像处理指令,其中,图像处理指令包括目标视频,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;第一响应单元,用于响应图像处理指令,对目标视频中的至少一帧图像帧进行处理得到的识别结果,其中,识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息,将至少一帧图像帧中人体对象的姿态信息作为识别结果;第五确定单元,用于基于识别结果,确定对人体对象执行疾病检测任务的策略。
此处需要说明的是,上述的一获取单元1201、第一识别单元1202、第一确定单元1203、第一处理单元1204对应于实施例1中的步骤S201至步骤S204,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例5
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的信息处理方法中以下步骤的程序代码:获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;识别至少一帧图像帧中人体对象的人体关键点的像素坐标;根据人体关键点的像素坐标,确定有向图序列;将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息。
上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:根据据至少一帧图像帧中的人体关键点的像素坐标,确定人体对象的骨架图拓扑结构;根据至少一帧图像帧中的人体对象的骨架图拓扑结构,构建出有向图结构;将每一帧的有向图结构相连接,形成有向图序列。
上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:多个节点的二维坐标,多条边和邻接矩阵,其中,边为节点与节点之间的有向连接关系组成的向量,采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边;将卷积处理后的节点和边,通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标;将各个节点的三维坐标确定至少一帧图像帧中人体对象的三维人体姿态信息。
上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:其中,在采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边之后,采用预设降采样倍数对卷积处理后的节点和边进行下采样,得到下采样结果一;采用预设降采样倍数对下采样结果一进行下采样,得到下采样结果二;采用预设降采样倍数对下采样结果二进行下采样,得到下采样结果三。
上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:将下采样结果三经过空间时间有向图卷积模块进行处理,得到处理后的下采样结果三;将处理后的下采样结果三与经过空间时间有向图卷积模块处理后的下采样结果三进行融合,得到融合结果一;将融合结果一进行上采样,得到上采样后的融合结果一;将上采样后的融合结果一与经过空间时间有向图卷积模块处理后的下采样结果二进行融合,得到融合结果二;将融合结果二进行上采样,得到上采样后的融合结果二;将上采样后的融合结果二与经过空间时间有向图卷积模块处理后的下采样结果一进行融合,得到融合结果三;将融合结果三与卷积处理后的节点和边进行融合,得到融合结果四;将融合结果四作为空间时间条件有向图卷积模块的输入。
上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:其中,在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,通过路由函数确定预设数量的权重值;基于有向图序列中节点的有向连接关系,确定邻接矩阵基函数,其中,邻接矩阵基函数中的数据个数为预设数量;将预设数量的权重值作用在邻接矩阵基函数上进行线性组合,得到条件邻接矩阵。
上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:其中,采用邻接矩阵基函数对有向图序列中各个节点的二维坐标进行更新;使用条件邻接矩阵,对更新后的节点再次进行坐标更新,得到节点的目标坐标;采用邻接矩阵基函数对有向图序列中的边进行更新,得到各个图像帧中人体的拓扑结构,其中,拓扑结构作为空间时间条件有向图卷积模块的输入。
上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:云服务器接收来自于客户端的待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;在云服务器中识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息;将至少一帧图像帧中人体对象的姿态信息输出至客户端。
上述计算机终端还可以执行应用程序的信息处理方法中以下步骤的程序代码:接收用于识别任务的图像处理指令,其中,图像处理指令包括目标视频,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;响应图像处理指令,对目标视频中的至少一帧图像帧进行处理得到的识别结果,其中,识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息,将至少一帧图像帧中人体对象的姿态信息作为识别结果;基于识别结果,确定对人体对象执行疾病检测任务的策略。
可选地,图13是根据本发明实施例的一种计算机终端的结构框图。如图13所示,该计算机终端可以包括:一个或多个(图13中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的信息处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的信息处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;识别至少一帧图像帧中人体对象的人体关键点的像素坐标;根据人体关键点的像素坐标,确定有向图序列;将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息。
可选的,上述处理器还可以执行如下步骤的程序代码:根据据至少一帧图像帧中的人体关键点的像素坐标,确定人体对象的骨架图拓扑结构;根据至少一帧图像帧中的人体对象的骨架图拓扑结构,构建出有向图结构;将每一帧的有向图结构相连接,形成有向图序列。
可选的,上述处理器还可以执行如下步骤的程序代码:多个节点的二维坐标,多条边和邻接矩阵,其中,边为节点与节点之间的有向连接关系组成的向量,采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边;将卷积处理后的节点和边,通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标;将各个节点的三维坐标确定至少一帧图像帧中人体对象的三维人体姿态信息。
可选的,上述处理器还可以执行如下步骤的程序代码:其中,在采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边之后,采用预设降采样倍数对卷积处理后的节点和边进行下采样,得到下采样结果一;采用预设降采样倍数对下采样结果一进行下采样,得到下采样结果二;采用预设降采样倍数对下采样结果二进行下采样,得到下采样结果三。
可选的,上述处理器还可以执行如下步骤的程序代码:其中,在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,将下采样结果三经过空间时间有向图卷积模块进行处理,得到处理后的下采样结果三;将处理后的下采样结果三与经过空间时间有向图卷积模块处理后的下采样结果三进行融合,得到融合结果一;将融合结果一进行上采样,得到上采样后的融合结果一;将上采样后的融合结果一与经过空间时间有向图卷积模块处理后的下采样结果二进行融合,得到融合结果二;将融合结果二进行上采样,得到上采样后的融合结果二;将上采样后的融合结果二与经过空间时间有向图卷积模块处理后的下采样结果一进行融合,得到融合结果三;将融合结果三与卷积处理后的节点和边进行融合,得到融合结果四;将融合结果四作为空间时间条件有向图卷积模块的输入。
可选的,上述处理器还可以执行如下步骤的程序代码:其中,在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,通过路由函数确定预设数量的权重值;基于有向图序列中节点的有向连接关系,确定邻接矩阵基函数,其中,邻接矩阵基函数中的数据个数为预设数量;将预设数量的权重值作用在邻接矩阵基函数上进行线性组合,得到条件邻接矩阵。
可选的,上述处理器还可以执行如下步骤的程序代码:其中,采用邻接矩阵基函数对有向图序列中各个节点的二维坐标进行更新;使用条件邻接矩阵,对更新后的节点再次进行坐标更新,得到节点的目标坐标;采用邻接矩阵基函数对有向图序列中的边进行更新,得到各个图像帧中人体的拓扑结构,其中,拓扑结构作为空间时间条件有向图卷积模块的输入。
可选的,上述处理器还可以执行如下步骤的程序代码:云服务器接收来自于客户端的待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;在云服务器中识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息;将至少一帧图像帧中人体对象的姿态信息输出至客户端。
可选的,上述处理器还可以执行如下步骤的程序代码:接收用于识别任务的图像处理指令,其中,图像处理指令包括目标视频,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;响应图像处理指令,对目标视频中的至少一帧图像帧进行处理得到的识别结果,其中,识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息,将至少一帧图像帧中人体对象的姿态信息作为识别结果;基于识别结果,确定对人体对象执行疾病检测任务的策略。
采用本发明实施例,提供了一种信息处理方法的方案。通过采用U型条件有向图卷积网络来估计人体姿态的方式,通过获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;识别至少一帧图像帧中人体对象的人体关键点的像素坐标;根据人体关键点的像素坐标,确定有向图序列;将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息,达到了使用条件有向图卷积技术来让不同种类的动作使用合适的拓扑连接关系,更好地利用人体关键点之间的非局部依赖关系的目的,从而实现了提升识别人体姿态的准确性的技术效果,进而解决了相关技术中的人体姿态识别方法识别出的人体姿态的准确性较低的技术问题。
本领域普通技术人员可以理解,图13所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图13所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的信息处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;识别至少一帧图像帧中人体对象的人体关键点的像素坐标;根据人体关键点的像素坐标,确定有向图序列;将有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:根据据至少一帧图像帧中的人体关键点的像素坐标,确定人体对象的骨架图拓扑结构;根据至少一帧图像帧中的人体对象的骨架图拓扑结构,构建出有向图结构;将每一帧的有向图结构相连接,形成有向图序列。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:多个节点的二维坐标,多条边和邻接矩阵,其中,边为节点与节点之间的有向连接关系组成的向量,采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边;将卷积处理后的节点和边,通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标;将各个节点的三维坐标确定至少一帧图像帧中人体对象的三维人体姿态信息。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:其中,在采用空间时间有向图卷积模块对有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边之后,采用预设降采样倍数对卷积处理后的节点和边进行下采样,得到下采样结果一;采用预设降采样倍数对下采样结果一进行下采样,得到下采样结果二;采用预设降采样倍数对下采样结果二进行下采样,得到下采样结果三。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:其中,在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,将下采样结果三经过空间时间有向图卷积模块进行处理,得到处理后的下采样结果三;将处理后的下采样结果三与经过空间时间有向图卷积模块处理后的下采样结果三进行融合,得到融合结果一;将融合结果一进行上采样,得到上采样后的融合结果一;将上采样后的融合结果一与经过空间时间有向图卷积模块处理后的下采样结果二进行融合,得到融合结果二;将融合结果二进行上采样,得到上采样后的融合结果二;将上采样后的融合结果二与经过空间时间有向图卷积模块处理后的下采样结果一进行融合,得到融合结果三;将融合结果三与卷积处理后的节点和边进行融合,得到融合结果四;将融合结果四作为空间时间条件有向图卷积模块的输入。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:其中,在将卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,通过路由函数确定预设数量的权重值;基于有向图序列中节点的有向连接关系,确定邻接矩阵基函数,其中,邻接矩阵基函数中的数据个数为预设数量;将预设数量的权重值作用在邻接矩阵基函数上进行线性组合,得到条件邻接矩阵。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:其中,采用邻接矩阵基函数对有向图序列中各个节点的二维坐标进行更新;使用条件邻接矩阵,对更新后的节点再次进行坐标更新,得到节点的目标坐标;采用邻接矩阵基函数对有向图序列中的边进行更新,得到各个图像帧中人体的拓扑结构,其中,拓扑结构作为空间时间条件有向图卷积模块的输入。
可选的,上述处理器还可以执行如下步骤的程序代码:云服务器接收来自于客户端的待分析的目标视频,其中,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;在云服务器中识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息;将至少一帧图像帧中人体对象的姿态信息输出至客户端。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:接收用于识别任务的图像处理指令,其中,图像处理指令包括目标视频,目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;响应图像处理指令,对目标视频中的至少一帧图像帧进行处理得到的识别结果,其中,识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据人体关键点的像素坐标,确定有向图序列,将有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息,将至少一帧图像帧中人体对象的姿态信息作为识别结果;基于识别结果,确定对人体对象执行疾病检测任务的策略。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本发明所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
获取待分析的目标视频,其中,所述目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;
识别至少一帧图像帧中人体对象的人体关键点的像素坐标;
根据所述人体关键点的像素坐标,确定有向图序列;
将所述有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息。
2.根据权利要求1所述的方法,其特征在于,根据所述人体关键点的像素坐标,确定有向图序列包括:
根据据至少一帧图像帧中的所述人体关键点的像素坐标,确定所述人体对象的骨架图拓扑结构;
根据至少一帧图像帧中的所述人体对象的骨架图拓扑结构,构建出有向图结构;
将每一帧的有向图结构相连接,形成所述有向图序列。
3.根据权利要求1所述的方法,其特征在于,其中,所述有向图序列中包括:多个节点的二维坐标,多条边和邻接矩阵,其中,所述边为节点与节点之间的有向连接关系组成的向量,将所述有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息包括:
采用空间时间有向图卷积模块对所述有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边;
将所述卷积处理后的节点和边,通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标;
将所述各个节点的三维坐标确定至少一帧图像帧中人体对象的三维人体姿态信息。
4.根据权利要求3所述的方法,其特征在于,其中,在采用空间时间有向图卷积模块对所述有向图序列中的多个节点和多条边进行卷积处理,得到卷积处理后的节点和边之后,所述方法还包括:
采用预设降采样倍数对卷积处理后的节点和边进行下采样,得到下采样结果一;
采用所述预设降采样倍数对所述下采样结果一进行下采样,得到下采样结果二;
采用所述预设降采样倍数对所述下采样结果二进行下采样,得到下采样结果三。
5.根据权利要求4所述的方法,其特征在于,其中,在将所述卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,所述方法还包括:
将所述下采样结果三经过所述空间时间有向图卷积模块进行处理,得到处理后的下采样结果三;
将所述处理后的下采样结果三与经过所述空间时间有向图卷积模块处理后的下采样结果三进行融合,得到融合结果一;
将所述融合结果一进行上采样,得到上采样后的融合结果一;
将所述上采样后的融合结果一与经过所述空间时间有向图卷积模块处理后的下采样结果二进行融合,得到融合结果二;
将所述融合结果二进行上采样,得到上采样后的融合结果二;
将所述上采样后的融合结果二与经过所述空间时间有向图卷积模块处理后的下采样结果一进行融合,得到融合结果三;
将所述融合结果三与卷积处理后的节点和边进行融合,得到融合结果四;
将所述融合结果四作为所述空间时间条件有向图卷积模块的输入。
6.根据权利要求3所述的方法,其特征在于,其中,在将所述卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,所述方法还包括:
通过路由函数确定预设数量的权重值;
基于所述有向图序列中节点的有向连接关系,确定邻接矩阵基函数,其中,邻接矩阵基函数中的数据个数为所述预设数量;
将所述预设数量的权重值作用在所述邻接矩阵基函数上进行线性组合,得到条件邻接矩阵。
7.根据权利要求6所述的方法,其特征在于,其中,将所述卷积处理后的节点和边通过空间时间条件有向图卷积模块进行卷积处理,输出各个节点的三维坐标之前,所述方法还包括:
采用所述邻接矩阵基函数对所述有向图序列中各个节点的二维坐标进行更新;
使用所述条件邻接矩阵,对更新后的节点再次进行坐标更新,得到节点的目标坐标;
采用所述邻接矩阵基函数对所述有向图序列中的边进行更新,得到各个图像帧中人体的拓扑结构,其中,所述拓扑结构作为所述空间时间条件有向图卷积模块的输入。
8.一种信息处理方法,其特征在于,包括:
云服务器接收来自于客户端的待分析的目标视频,其中,所述目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;
在所述云服务器中识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据所述人体关键点的像素坐标,确定有向图序列,将所述有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息;
将至少一帧图像帧中人体对象的姿态信息输出至所述客户端。
9.一种信息处理方法,其特征在于,包括:
接收用于识别任务的图像处理指令,其中,所述图像处理指令包括目标视频,所述目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;
响应所述图像处理指令,对所述目标视频中的至少一帧图像帧进行处理得到的识别结果,其中,识别至少一帧图像帧中人体对象的人体关键点的像素坐标,根据所述人体关键点的像素坐标,确定有向图序列,将所述有向图序列输入U型条件有向图卷积网络进行处理,得到至少一帧图像帧中人体对象的姿态信息,将所述至少一帧图像帧中人体对象的姿态信息作为所述识别结果;
基于识别结果,确定对所述人体对象执行疾病检测任务的策略。
10.一种信息处理装置,其特征在于,包括:
第一获取单元,用于获取待分析的目标视频,其中,所述目标视频中包括多帧图像帧,至少一帧图像帧上包括人体对象的信息;
第一识别单元,用于识别至少一帧图像帧中人体对象的人体关键点的像素坐标;
第一确定单元,用于根据所述人体关键点的像素坐标,确定有向图序列;
第一处理单元,用于将所述有向图序列输入U型条件有向图卷积网络进行处理,输出至少一帧图像帧中人体对象的姿态信息。
CN202110770435.4A 2021-07-07 2021-07-07 信息处理方法和装置 Pending CN115661916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110770435.4A CN115661916A (zh) 2021-07-07 2021-07-07 信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110770435.4A CN115661916A (zh) 2021-07-07 2021-07-07 信息处理方法和装置

Publications (1)

Publication Number Publication Date
CN115661916A true CN115661916A (zh) 2023-01-31

Family

ID=85015065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110770435.4A Pending CN115661916A (zh) 2021-07-07 2021-07-07 信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN115661916A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908574A (zh) * 2023-02-28 2023-04-04 深圳联和智慧科技有限公司 基于无人机监测的河堤侵占定位推送方法及***
CN116386087A (zh) * 2023-03-31 2023-07-04 阿里巴巴(中国)有限公司 目标对象处理方法以及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908574A (zh) * 2023-02-28 2023-04-04 深圳联和智慧科技有限公司 基于无人机监测的河堤侵占定位推送方法及***
CN115908574B (zh) * 2023-02-28 2023-05-09 深圳联和智慧科技有限公司 基于无人机监测的河堤侵占定位推送方法及***
CN116386087A (zh) * 2023-03-31 2023-07-04 阿里巴巴(中国)有限公司 目标对象处理方法以及装置
CN116386087B (zh) * 2023-03-31 2024-01-09 阿里巴巴(中国)有限公司 目标对象处理方法以及装置

Similar Documents

Publication Publication Date Title
CN110705448B (zh) 一种人体检测方法及装置
JP7032536B2 (ja) インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体
CN109671115B (zh) 使用深度值估计的图像处理方法和装置
CN108681743B (zh) 图像对象识别方法和装置、存储介质
CN107784372B (zh) 目标对象属性的预测方法、装置和***
CN110009691B (zh) 基于双目立体视觉匹配的视差图像生成方法及***
Sun et al. Learning scene structure guidance via cross-task knowledge transfer for single depth super-resolution
CN109035319A (zh) 单目图像深度估计方法及装置、设备、程序及存储介质
CN109821239B (zh) 体感游戏的实现方法、装置、设备及存储介质
CN115661916A (zh) 信息处理方法和装置
KR20220038475A (ko) 비디오 콘텐츠 인식 방법 및 장치, 저장 매체, 및 컴퓨터 디바이스
CN112308770B (zh) 人像转换模型生成方法及人像转换方法
JP6902811B2 (ja) 視差推定システムと方法、電子機器及びコンピュータ可読記憶媒体
CN109919110A (zh) 视频关注区域检测方法、装置及设备
CN111028279A (zh) 点云数据处理方法及装置、电子设备和存储介质
Liu et al. Graphcspn: Geometry-aware depth completion via dynamic gcns
CN113313832A (zh) 三维模型的语义生成方法、装置、存储介质与电子设备
CN113470112A (zh) 图像处理方法、装置、存储介质以及终端
CN114170290A (zh) 图像的处理方法及相关设备
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
KR20230083212A (ko) 객체 자세 추정 장치 및 방법
CN114973424A (zh) 特征提取模型训练、手部动作识别方法、装置及电子设备
CN110633595A (zh) 一种利用双线性插值的目标检测方法和装置
CN115346275A (zh) 基于光流及图的双分支人体行为预测方法、装置及设备
CN114627488A (zh) 图像处理方法和***、模型训练方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240315

Address after: # 03-06, Lai Zan Da Building 1, 51 Belarusian Road, Singapore

Applicant after: Alibaba Innovation Co.

Country or region after: Singapore

Address before: Room 01, 45th Floor, AXA Building, 8 Shanton Road, Singapore

Applicant before: Alibaba Singapore Holdings Ltd.

Country or region before: Singapore

TA01 Transfer of patent application right