CN113688804B

CN113688804B - 基于多角度视频的动作识别方法及相关设备

Info

Publication number: CN113688804B
Application number: CN202111241878.0A
Authority: CN
Inventors: 丁强刚; 黄予
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-02-11
Anticipated expiration: 2041-10-25
Also published as: CN113688804A

Abstract

本发明实施例公开了一种基于多角度视频的动作识别方法及相关设备，相关实施例可应用于云技术、云安全、人工智能、智慧交通等各种场景。其中，该方法包括：获取对目标对象采集的多角度的N个检测视频，并在对每个检测视频进行图像帧抽取处理和加权融合处理后，得到用于对检测视频中的目标对象在相应拍摄角度下执行的动作信息进行记录的动作描述图，那么，通过对动作描述图的信息融合处理，可得到记录了目标对象在多个不同拍摄角度下的动作信息的动作融合描述图，进而基于对该动作融合描述图的识别处理，可得到针对目标对象是否执行了目标动作的识别结果，基于对多角度的动作信息的结合识别过程，可提升对目标动作进行动作识别的准确度。

Description

基于多角度视频的动作识别方法及相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于多角度视频的动作识别方法及相关设备。

背景技术

随着互联网技术的不断深入发展，可采用计算机技术辅助用户的生产和生活，如可基于计算机技术辅助用户进行动作的判别等。而当前在基于计算机技术进行动作判别时，主要是通过对用户佩戴设备的传感器的采集数据的分析进行确定的，而由于用户佩戴设备中的传感器的精度较低，且在环境中受到干扰能力差，那么自然地，基于对传感器的采集数据进行分析，从而进行动作判别的方式存在准确度较低的问题。

发明内容

本申请实施例提供了一种基于多角度视频的动作识别方法及相关设备，可提升对目标视频数据中的对象进行目标动作识别时的准确度。

一方面，本发明实施例提供了一种基于多角度视频的动作识别方法，包括：

获取针对目标对象采用多个不同的拍摄角度拍摄得到的N个检测视频，其中，所述N为大于等于2的正整数；

对所述N个检测视频进行图像帧抽取处理和加权融合处理，得到M个动作描述图，其中，所述M为正整数，一个动作描述图用于对检测视频中的目标对象在相应拍摄角度下执行的动作信息进行记录；

对每个动作描述图记录的动作信息进行信息融合处理，得到用于描述所述目标对象在多个不同拍摄角度的动作信息的动作融合描述图；

根据所述动作融合描述图对所述目标对象执行的动作进行识别处理，得到针对所述目标对象的动作识别结果，所述动作识别结果用于表征所述目标对象是否执行目标动作。

再一方面，本发明实施例提供了一种基于多角度视频的动作识别装置，包括：

获取单元，用于获取针对目标对象采用多个不同的拍摄角度拍摄得到的N个检测视频，其中，所述N为大于等于2的正整数；

处理单元，用于对所述N个检测视频进行图像帧抽取处理和加权融合处理，得到M个动作描述图，其中，所述M为正整数，一个动作描述图用于对检测视频中的目标对象在相应拍摄角度下执行的动作信息进行记录；

所述处理单元，还用于对每个动作描述图记录的动作信息进行信息融合处理，得到用于描述所述目标对象在多个不同拍摄角度的动作信息的动作融合描述图；

识别单元，用于根据所述动作融合描述图对所述目标对象执行的动作进行识别处理，得到针对所述目标对象的动作识别结果，所述动作识别结果用于表征所述目标对象是否执行目标动作。

再一方面，本发明实施例提供了一种计算机设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持计算机设备执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如下步骤：

再一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，所述程序指令被处理器执行时，所述程序指令被处理器执行时，用于执行如第一方面所述的基于多角度视频的动作识别方法。

在本申请实施例中，计算机设备在对目标对象进行动作识别，以确定该目标对象执行的动作是否为目标动作的过程中，可先获取对该目标对象采用不同的角度进行拍摄所得到的多个检测视频，进而可对获取到的多个检测视频中的每个检测视频进行图像帧抽取处理和加权融合处理，并得到多个动作描述图，在得到每个检测视频的动作描述图后，基于动作描述图中对该目标对象在相应拍摄角度下执行的动作的相关信息的记录，可使计算机设备进一步地可对得到的动作描述图进行信息融合处理，从而得到该目标对象的动作融合描述图，以使计算机设备可获取到目标对象在不同角度下的动作信息，那么，基于计算机设备对动作融合描述图的识别处理，可使计算机设备获取到目标对象在不同拍摄角度下对应的动作信息，从而可实现对目标对象在不同角度的动作进行识别，从而可使计算机设备基于对动作融合描述图的识别处理，实现对目标对象在多角度执行动作的识别，也就可提升计算机设备在对目标对象进行动作判别的准确度和置信度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种针对对象的动作识别***的示意图；

图2是本发明实施例提供的一种基于多角度视频的动作识别方法的示意流程图；

图3是本发明实施例提供的一种动作的示意图；

图4是本发明实施例提供的另一种基于多角度视频的动作识别方法的示意流程图；

图5a是本发明实施例提供的一种第一算法对应执行代码的示意图；

图5b是本发明实施例提供的一种第二算法对应执行代码的示意图；

图5c是本发明实施例提供的一种基于多角度视频的动作识别方法的示意图；

图5d是本发明实施例提供的一种采用不同方法进行动作检测的对比结果的示意图；

图5e是本发明实施例提供的一种目标动作检测输出结果的示意图；

图6是本发明实施例提供的一种动作识别装置的示意性框图；

图7是本发明实施例提供的一种计算机设备的示意性框图。

具体实施方式

本申请实施例提出了一种基于多角度视频的动作识别方法，使计算机设备可在检测目标对象是否执行目标动作时，先获取对目标对象进行不同角度拍摄，从而得到多个检测视频，从而可进一步对每个检测视频对应的动作描述图中记录的动作信息进行信息融合处理，得到用于描述该目标对象在多个不同角度的动作信息的动作融合描述图，进而使得计算机设备可根据对动作融合描述图中记录的，该目标对象在多个不同角度的动作信息的识别结果，确定目标对象是否执行目标动作，从而也就使计算机设备实现了在对目标对象进行目标动作检测时，是基于该目标对象的多视角拍摄信息进行目标动作检测的，也就可提升计算机设备在进行目标动作判别时的准确性和可信性。其中，该目标对象可以指某个类型下的随机对象，如任意的人物和/或任意的动物等；或，该目标对象也可以是指特定类型的对象，如60岁（或70岁等）以上的老年人和/或爬行动物等，而在本申请实施例中，主要以目标对象为人物进行详细说明。此外，该目标动作可以是摔倒动作，跑步动作，或者违规动作等，因此，基于对目标对象的目标动作检测，可确定该目标对象当前所处的对象状态，如可根据摔倒动作确定目标对象是否摔跤，根据跑步动作确定目标对象是否进行身体锻炼，而基于违规动作确定目标对象是否正在执行不合规的行为等等，基于计算机设备对该对象状态的确定，可使计算机设备基于对象状态为目标对象推送后续的相关服务，如在确定目标对象摔跤时，为该目标对象的关联对象发送提示信息，或者在确定目标对象未进行身体锻炼时，为该目标对象发送按期进行锻炼的提示信息，又或者在确定目标对象正在执行违规动作时，向相应的行为管理机构（或个人）发送提示信息等，在本申请实施例中，主要以该目标动作为摔倒动作进行详细阐述，在该目标动作为其他动作时可参见本申请实施例。

在一个实施例中，计算机设备在对目标对象进行目标动作的检测时，所获取的针对目标对象的不同角度的检测视频，可以由一个图像采集设备基于不同角度对目标对象进行拍摄所得到的视频确定，或者，该检测视频也可以是由多个不同的图像采集设备按照不同角度对目标对象进行拍摄得到的视频确定，也就可以理解，该计算机设备采集到的多个检测视频中的每个检测视频是均包括了目标对象的，那么，该计算机设备则可进一步对该检测视频进行处理，从而确定出检测视频中所包括的目标对象是否执行了目标动作。在一个实施例中，该计算机设备在获取到多个检测视频后，则可将任一检测视频转换成对应的动作描述图，从而得到多个动作描述图，再将得到的多个动作描述图进行融合后，对动作融合描述图进行识别处理，确定出该目标对象是否执行了目标动作。具体可如图1所示，若计算机设备获取到的检测视频的数量为N，则该计算机设备可分别获取检测视频1~检测视频N对应的动作描述图，进而则可对由动作描述图进行融合后得到的动作融合描述图的识别结果，确定目标对象是否执行了目标动作，其中，一个动作描述图是由一个检测视频得到的，而一个检测视频可对应得到一个或多个动作描述图，如可将一个检测视频输入到多分支卷积神经网络不同的分支网络中，从而得到对应的多个不同的动作描述图，而在本申请实施例中，主要以将一个检测视频输入到一个分支网络，并得到一个对应的动作描述图的情况进行详细说明。该多分支卷积神经网络是通过机器学习（Machine Learning, ML）生成的网络模型，其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，机器学习是人工智能（Artificial Intelligence，AI）的核心，是使计算机设备具有智能的根本途径，其应用遍及人工智能的各个领域。

在一个实施例中，计算机设备得到各检测视频的动作描述图，对得到的动作描述图进行融合的过程可通过调用多分枝卷积神经网络进行实现，其中，该多分枝卷积神经网络包括多个分枝网络和一个主干网络，那么，该计算机设备则可将一个检测视频输入到一个分枝网络中，从而可调用相应的分枝网络对输入的检测视频进行处理，得到相应检测视频的动作描述图，而在各分枝网络分别得到相应检测视频的动作描述图后，则可进一步将各分枝网络得到的动作描述图输入到该多分枝卷积神经网络的主干网络中，由主干网络对各分枝网络得到的动作描述图进行信息融合处理，得到动作融合描述图。在一个实施例中，该多分枝卷积神经网络可由深度卷积神经网络实现，如可将多分支卷积神经网络的第一个残差卷积模块作为多分枝网络的处理模块，而将后续的残差卷积模块作为主干网络的处理模块，也就是说，计算机设备在调用某个分枝网络对相应的检测视频进行处理，从而得到相应的检测视频的动作描述图的过程，即是调用该深度卷积神经网络的第一个残差卷积模块对相应检测视频进行处理的过程，而调用主干网络对得到的动作描述图进行融合的过程，即是调用该深度卷积神经网络的后续残差卷积模块进行处理的过程。

其中，该深度卷积神经网络可以是ResNet-18（一种深度卷积网络），或者也可以是VGGNet（一种深度卷积网络）、InceptionNet（一种深度卷积网络）、ResNet（一种深度卷积网络）等。由于计算机设备在调用不同分枝网络对不同检测视频进行处理时，是通过调用同一卷积模块执行的，由此可保证计算机设备在基于检测视频进行动作描述图提取过程中的算法一致性，从而也就可避免由于对检测视频进行动作描述图提取过程中的算法不一致问题所导致的后续无法进行融合的问题。

请参见图2，是本申请实施例提供的一种基于多角度视频的动作识别方法的示意流程图，如图2所示，该方法可包括：

S201，获取针对目标对象采用多个不同的拍摄角度拍摄得到的N个检测视频，其中，N为大于等于2的正整数。

计算机设备获取的N个检测视频包括：采用图像采集设备对目标对象进行拍摄得到的不同角度的拍摄视频，而在图像采集设备采集到针对目标对象的不同角度的拍摄视频后，该计算机设备可直接将该拍摄视频作为检测视频，以实现对目标对象是否执行目标动作进行实时检测，或者，该计算机设备也可在图像采集设备采集到针对目标对象的不同角度的拍摄视频后，先将该拍摄视频作为待处理的检测视频进行缓存，并在后续确定需要对目标对象进行目标动作的检测时，从缓存中获取出检测视频并执行后续的检测处理过程。在一个实施例中，计算机设备从图像采集设备获取的检测视频的数量为N，且N为大于等于2的正整数，也就是说，计算机设备将至少基于针对目标对象的两个拍摄角度的检测视频对目标对象进行目标动作检测，以提升计算机设备对目标对象进行检测的准确性，且基于不同拍摄角度拍摄的检测视频执行的目标动作检测，相比于根据单一拍摄角度的检测视频执行的目标动作检测更具鲁棒性。

在一个实施例中，该N个检测视频可以是由同一个图像采集设备采用不同拍摄角度采集得到的，或者也可以是由不同图像采集设备采集得到的，而在本申请实施例中，计算机设备获取到的检测视频主要是由不同图像采集设备在同一时段对目标对象进行不同角度的拍摄得到的，从而使计算机设备可分析在该时段内该目标对象是否执行了目标动作。在该检测视频是由同一图像采集设备采用不同拍摄角度拍摄得到时，由于同一图像采集设备无法在同一时间进行不同角度的拍摄得到不同角度的拍摄视频，那么，如果计算机设备获取到的检测视频是基于不同角度的拍摄视频时，该计算机设备则可基于得到的不同角度的拍摄视频对该目标对象在进行拍摄的时间段内是否执行目标动作进行检测。其中，该图像采集设备可以是摄像头等，而该计算机设备则可以是服务器或终端设备，且该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视、智能语音交互设备等，但并不局限于此。在计算机设备获取到N个检测视频后，该计算机设备则可进一步得到每个检测视频的动作描述图，从而基于得到的多个动作描述图确定目标对象是否执行了目标动作，即该计算机设备可转而执行步骤S202。

S202，对N个检测视频进行图像帧抽取处理和加权融合处理，得到M个动作描述图，其中，M为正整数，一个动作描述图用于对检测视频中的目标对象在相应拍摄角度下执行的动作信息进行记录。

动作描述图也可称之为动态图，一个动作描述图是用于对检测视频中的目标对象在一个拍摄角度下执行的动作信息进行记录的图像，可以理解，该动作描述图在对动作信息进行记录时，将在该动作描述图中对在相应拍摄角度下执行的动作突出显示在对应的执行位置，而该动作描述图中其他未执行动作的位置则不会进行突出显示，那么也就可以理解，该动作描述图可对检测视频中目标对象在相应拍摄角度下所执行的动作的相关信息进行有效反映，从而使得计算机设备可通过对动作描述图的识别处理，确定该目标对象是否执行了动作，以及所执行的动作的具体类型。在一个实施例中，对象（如上述的目标对象）的动作是指对象的肢体在某个时间范围内相对所处环境的位置变化，如走路的动作是对象在特定时间范围内的脚相对于地面的位置变化，而摔倒的动作是对象的身体部分在较短时间范围内相对于地面的位置变化等等，由此可见，对象的动作与时间（或时序）的先后顺序息息相关，如图3所示，若对象在t1时刻如图3中由301标记所示，而在t2时刻则如图3中302标记所示，那么，该对象执行的动作为抬手的动作，而如果该对象在t1时刻如图3中由302标记所示，而在t2时刻则如图3中301标记所示，则该对象执行的动作则为放下手的动作。那么，基于动作与时序的关系，该计算机设备在基于图像帧抽取出来和加权融合处理将检测视频转换成对应的动作描述图时，将基于该检测视频中各图像帧对应的显示时间进行确定，其中，如果计算机设备获取到的检测视频的数量为N个，且N为大于等于2的正整数，那么，计算机设备在基于图像帧抽取处理和加权融合处理对N个检测视频进行处理后，可得到M个动作描述图，其中，该M为大于等于N的正整数，也就是说，基于针对一个检测视频的图像帧抽取处理和加权融合处理，可得到该一个或多个动作描述图，但一个动作描述图是与一个检测视频相对应的，在本申请实施例中，主要以计算机设备对一个检测视频进行图像帧抽取处理和加权融合处理得到一个动作描述图的情况进行详细说明。

在一个实施例中，计算机设备在将任一检测视频进行转换，并得到对应的动作描述图时，可先对任一检测视频进行图像帧抽取处理，得到一个或多个参考图像帧，其中，从该任一检测视频中抽取出的每个参考图像帧均包括目标对象，且抽取出的参考图像帧可以是该检测视频中的部分或全部的图像帧，而在计算机设备从该任一检测视频中抽取出一个或多个参考图像帧后，则可基于抽取出的每个参考图像帧的显示时间，确定任一参考图像帧的显示时间的时间重要度，其中，由于任一参考图像帧对应显示时间的时间重要度可指示相应显示时间在进行动作描述时的重要程度，也就是说，某个显示时间的时间重要度越大，则说明该显示时间对应的参考图像帧在进行动作判别时的作用越大，那么，也就说明该显示时间对应的参考图像帧在进行动作判别时的重要程度越高，即是该显示时间对应的参考图像帧的重要度分数也就越大。因此，计算机设备在从任一检测视频中抽取出一个或多个参考图像帧后，则可基于任一参考图像帧的重要度分数，对相应的参考图像帧进行加权融合处理，从而得到任一检测视频的动作描述图。

计算机设备在确定一个或多个参考图像帧中的任一参考图像帧对应显示时间的时间重要度时，该计算机设备可通过获取该任一参考图像帧对应的显示时间，假设为t，并获取该一个或多个参考图像帧的显示时长，假设为T，那么，该计算机设备则可基于任一参考图像帧的显示时间（t）及所在的图像帧序列的显示时长（T），对该任一参考图像帧的显示时间进行调和运算，从而使计算机设备得到确定出该任一参考图像帧的显示时间的时间重要度。而在计算机设备得到该时间重要度后，可直接将该时间重要度作为相应参考图像帧的重要度分数，或者，该计算机设备也可先对时间重要度进行预处理，并将处理后的时间重要度作为相应参考图像帧的重要度分数。在计算机设备得到该检测视频中任一参考图像帧的重要度分数后，则可基于该重要度分数对相应参考图像帧进行加权求和（或加权融合），从而得到该检测视频对应的动作描述图，其中，计算机设备获取到的一个检测视频将可转换得到一个对应的动作描述图，那么，基于获取到的N个检测视频，该计算机设备可转换得到N个对应的动作描述图。

S203，对每个动作描述图记录的动作信息进行信息融合处理，得到用于描述目标对象在多个不同拍摄角度的动作信息的动作融合描述图。

S204，根据动作融合描述图对目标对象执行的动作进行识别处理，得到针对目标对象的动作识别结果，动作识别结果用于表征目标对象是否执行目标动作。

在步骤S203和步骤S204中，计算机设备得到N个检测视频分别对应的一个或多个动作描述图后，如果该N个检测视频是由不同图像采集设备在同一时间对目标对象进行不同角度的拍摄得到的，也就使计算机设备可获得针对目标对象的同一时间不同角度的拍摄视频，那么基于获取到的不同角度的拍摄视频，也就是说，计算机设备获取到的多个检测视频是不同视角的对象检测视频，那么对应地，该计算机设备基于检测视频转换得到的动作描述图中包括的动作信息，也是目标对象在不同视角下的动作信息，所以，该计算机设备在得到各检测视频对应的动作描述图后，可通过对得到的多个动作描述图进行信息融合处理，从而得到该目标对象的动作融合描述图，而该动作融合描述图则可对目标对象在多个不同视角的动作进行指示。在一个实施例中，该计算机设备在将得到的多个动作描述图进行信息融合处理，得到对应的动作融合描述图时，可通过池化（pooling）操作对得到的动作描述图中的动作信息进行的融合合并，而计算机设备在基于池化操作对动作描述图进行信息融合处理时，将先从动作描述图中提取有效的用于对目标对象的动作进行描述的信息（即该目标对象的动作信息），并对提取的信息进行信息融合处理，从而得到目标对象的动作融合描述图，其中，该计算机设备提取的信息包括该动作描述图中记录有动作信息的像素区域。

在一个实施例中，计算机设备在将得到的动作描述图进行信息融合处理，得到目标对象的动作融合描述图后，则可采用该动作融合描述图进行特征识别，进而得到针对该目标对象的动作执行结果，可以理解，由于计算机设备得到的针对目标对象的一个动作描述图用于表征目标对象在一个拍摄角度下执行的动作，那么，该动作融合描述图则可对目标对象在不同拍摄角度下执行的动作进行描述，也就是说，该动作融合描述图中记录了目标对象在不同拍摄角度下的动作信息。进而可以理解，计算机设备对动作融合描述图进行特征识别的过程，即是对目标对象在多个不同角度下的动作信息进行识别的过程，从而使计算机设备在对目标对象进行判别时，可结合目标对象执行的动作在不同角度下的描述，也就使计算机设备可实现结合多角度的动作信息对执行的动作进行结合判别，基于计算机设备对目标对象在不同角度下的动作信息的获取，使得计算机设备在对目标对象进行动作检测的过程中，可获取到不同感受野下的针对目标对象的判别信息，从而也就可提升计算机设备对目标对象进行动作检测的准确性。

请参见图4，是本申请实施例提出的另一种基于多角度视频的动作识别方法的示意流程图，如图4所示，该方法可包括：

S401，获取针对目标对象采用多个不同的拍摄角度拍摄得到的N个检测视频，其中，N为大于等于2的正整数。

在一个实施例中，该检测视频是图像采集设备对目标对象进行拍摄得到的，该目标对象是该图像采集设备所拍摄环境中的任意一个对象，该图像采集设备可通过对拍摄环境进行图像采集处理，从而得到该拍摄环境对应的拍摄视频。在该图像采集设备得到该拍摄环境对应的拍摄视频后，则可对该拍摄视频进行图像帧抽取处理和对象识别处理，以从该拍摄视频包括的多个对象中确定出包括该目标对象的视频帧，从而可将包括该目标对象的视频帧作为该目标对象的一个检测视频。在一种实现方式中，该图像采集设备在得到该拍摄环境对应的拍摄视频后，可直接由该图像采集设备对该拍摄视频进行图像帧抽取处理和对象识别处理，以从该拍摄视频中确定出目标对象对应的一个检测视频，那么，该计算机设备则可从不同图像采集设备获取到针对目标对象的多个检测视频，并基于获取到的多个检测视频对目标对象进行动作判别。而在另一种实现方式中，图像采集设备可在得到拍摄环境的拍摄视频后，可直接将采集到的拍摄视频发送给计算机设备，从而由计算机设备对该拍摄视频进行图像帧抽取处理和对象识别处理，并得到针对目标对象的一个检测视频。

在一个实施例中，该目标对象可以是计算机设备（或图像采集设备）中预设的对象，如在针对老年人进行摔倒检测时，该目标对象为老年人（即对应年龄大于年龄阈值的人物对象），或者，该目标对象也可以是由用户进行设置的，其中，该用户在对目标对象进行设置时，可将目标对象的图像输入到计算机设备（或图像采集设备）中，从而使计算机设备（或图像采集设备）可通过输入的图像确定出目标对象，并进而实现对目标对象的检测视频进行获取。在一个实施例中，计算机设备在获取该目标对象的检测视频的过程中，若图像采集设备对拍摄环境进行拍摄得到的拍摄视频中包括了多个不同的对象，则可对采集到的包括多个不同对象的拍摄视频进行对象识别处理和视频帧抽取处理，从而得到仅包括了目标对象的检测视频，或者，在另一种实现方式中，如果图像采集设备获取到的检测视频中包括多个不同的对象，也可通过为该检测视频中包括的目标对象进行标记，以将该检测视频中的目标对象和其他对象进行区分，从而将为目标对象进行标记后的检测视频作为该目标对象的检测视频。

在一个实施例中，计算机设备获取到的针对目标对象的检测视频的数量为至少两个，该至少两个检测视频是针对不同的拍摄角度得到的，而该不同拍摄角度的检测视频可以是计算机设备从同一图像采集设备中获取的，也可以是计算机设备从不同图像采集设备中获取得到的，在针对该目标对象的多个检测视频是从不同的图像采集设备中获取得到时，该多个图像采集设备在对拍摄环境进行拍摄时，是采用固定不动的角度对拍摄环境进行拍摄得到的，且不同的两个图像采集设备之间将基于目标对象在拍摄环境中的移动执行采集设备的切换操作，从而由多个图像采集设备得到针对目标对象的多个检测视频。举例来说，若基于目标对象当前所处的拍摄环境的位置，及针对该拍摄环境部署的多个图像采集设备中的任一图像采集设备对应的采集范围，若确定当前对目标对象进行拍摄视频的获取的设备为图像采集设备1，那么，随着目标对象在拍摄环境中的移动，假设该目标对象移动到图像采集设备2对应的采集范围时，则该图像采集设备1可向图像采集设备2发送采集指令，并由图像采集设备2进行拍摄视频的获取，并停止图像采集设备1进行拍摄视频的获取。或者，在目标对象移动到该图像采集设备2对应的采集范围时，由图像采集设备1和该图像采集设备2对应的控制设备（如上述的计算机设备）控制图像采集设备2对目标对象进行拍摄，从而得到该目标对象对应的多个检测视频，需要说明的是，在本申请实施例中，对获取得到目标对象对应的多个检测视频的方式不做限定。

S402，对N个检测视频中的任一检测视频进行图像帧抽取处理，得到任一检测视频的一个或多个参考图像帧。

S403，获取任一参考图像帧对应的重要度分数，重要度分数用于表征相应参考图像帧的重要程度。

S404，采用重要度分数对相应参考图像帧进行加权求和，得到任一检测视频对应的动作描述图，从而得到M个动作描述图，一个动作描述图用于对检测视频中的目标对象在相应拍摄角度下执行的动作信息进行记录。

在步骤S402~步骤S404中，计算机设备在得到针对目标对象的多个检测视频后，进一步地，可得到每个检测视频对应的一个或多个动作描述图，在具体实现中，该计算机设备可通过对每个检测视频进行图像帧抽取处理和加权融合处理，从而得到每个检测视频对应的动作描述图，而计算机设备在对任一检测视频进行图像帧抽取处理，从而得到该任一检测视频的一个或多个参考图像帧时，可先基于任一检测视频中各图像帧的显示顺序对该任一检测视频进行图像帧抽取处理，从而得到该任一检测视频对应的表征序列，可以理解，该表征序列是从该检测视频中抽取出的能对目标对象执行的动作进行表示的图像帧序列，也就是说，该表征序列即是目标对象在相应检测视频中的动作描述序列。那么，计算机设备在得到该表征序列后，则可将该表征序列中包括的图像帧作为抽取出的一个或多个参考图像帧，其中，计算机设备基于图像帧抽取处理从该任一检测视频中确定出的表征序列所包括的一个或多个图像帧是连续的，如抽取出的表征序列所包括的图像帧可以分别是该检测视频的第2、3、4帧等，或者，该计算机设备通过图像帧抽取处理从任一检测视频中确定出的表征序列所包括的一个或多个图像帧也可以是非连续的，如抽取出的表征序列所包括的图像帧也可以分别是检测视频的第1、3、4帧等。即是说，从检测视频中抽取出的表征序列中的各图像帧是连续或非连续的图像帧，但该表征序列中的各图像帧必然是包括目标对象的图像帧。而在一个实施例中，计算机设备可预先基于经验值对该任一检测视频进行图像帧抽取处理，并从检测视频中抽取出某个部分的图像帧作为表征序列，此外，该计算机设备在对该任一检测视频进行图像帧抽取处理，并得到一个或多个参考图像帧时，还可获取滑动窗口，并采用该滑动窗口对该任一检测视频进行图像帧抽取处理，在这种情况下，该计算机设备可将处于该滑动窗口内的图像帧作为参考图像帧。

在一个实施例中，由于计算机设备在计算动作描述图时，在计算形式上等价于对原始的多个图像帧的线性求和，因此，在计算机设备抽取出一个或多个参考图像帧后，则可通过对抽取出的参考图像帧进行加权求和，从而得到检测视频的动作描述图，而在对抽取出的参考图像帧进行加权求和时，计算机设备需先获取到任一参考图像帧的重要度分数，从而采用重要度分数对相应的参考图像帧进行加权求和。而计算机设备在获取任一参考图像帧的重要度分数时，可先获取用于表征任一参考图像帧在对应检测视频中的显示时间的时间序列，其中，该时间序列包括的一个显示时间与一个参考图像帧相对应，也就是说，计算机设备获取的时间序列是由一个或多个参考图像帧在检测视频中对应的显示时间构成的，那么在计算机设备获取到该时间序列后，则可基于该时间序列对任一参考图像帧的显示时间进行调和处理，得到显示时间的时间重要度，从而可将时间重要度作为与相应显示时间对应的任一参考图像帧的重要度分数；其中，时间重要度用于表征相应显示时间在进行动作描述时的时间重要度，可以理解，一个显示时间对应的时间重要度越大，说明该显示时间在进行动作描述时越重要，也就说明，与该显示时间关联的参考图像帧在进行动作描述时的重要程度越高。

在一个实施例中，若计算机设备基于时间序列确定任一参考图像帧的显示时间为 t，若显示时间的时间重要度由

表示，那么计算机设备在对该显示时间进行调和处理，并得到该显示时间的时间重要度时，可采用式1所示的公式得到。

式1

其中，H_t可由是指基于显示时间t进行调和处理得到的调和级数（Harmonicnumber）的第t项，具体可由式2计算得到，且H₀=0。此外，T表示被抽取出的一个或多个参考图像帧的显示时长，也即是该时间序列对应的时间总长。

式2

计算机设备得到任一参考图像帧的重要度分数

后，在采用重要度分数对相应参考图像帧进行加权求和，得到任一检测视频的动作描述图时，该计算机设备可先确定进行动作描述图计算所采用的算法，在一种实现方式中，若计算机设备采用第一算法进行动作描述图的计算，该计算机设备则可获取一个或多个参考图像帧中每个参考图像帧的特征向量，从而使得计算机设备可采用任一参考图像帧的重要度分数，对相应特征向量进行加权求和，得到任一检测视频的表征向量，并进一步可通过多对该表征特征进行还原重构处理，得到该任一检测视频的动作描述图。其中，由第一算法进行动作描述图计算的计算公式是一种基于参考图像帧的特征向量构建的，该第一算法的第一表达式为式3。

式3

其中，d^*表示动作描述图，I_t表示计算机设备从检测视频中获得的一个或多个参考图像帧中的任一参考图像帧，

表示从该任一参考图像帧I_t中抽取的特征向量，由式3可知，任一检测视频的动作描述图等价于对基于该任一检测视频抽取出的一个或多个参考图像帧对应的重要度分数，对相应的参考图像帧的特征向量进行加权求和处理后的特征向量，即是说，基于每个参考图像帧对应的重要度分数，可对相应的参考图像帧的特征向量进行加权处理，并可进一步执行求和处理，得到与检测视频对应的表征向量，那么可以理解，该表征向量即是该检测视频对应动作描述图对应的特征向量，通过对表征向量的还原重构，即可得到该检测视频对应的动作描述图。

在一个实施例中，计算机设备在获取到一个或多个参考图像帧，及对应的重要度分数后，在确定采用第一算法进行动作描述图的确定时，可通过调用如图5a所示的代码进行实现。在另一种实现方式中，若计算机设备采用第二算法进行动作描述图的计算，该计算机设备可对重要度分数进行相似转换，得到重要度分数的相似分数，进而可采用任一参考图像帧对应重要度分数的相似分数，对相应参考图像帧进行加权求和，得到任一检测视频的动作描述图，可以理解，由于重要度分数的相似分数相比于原重要度分数而言，该相似分数是更容易被获取到的，那么，计算机设备采用相似分数进行动作描述图的确定时，能有效提升该计算机设备在确定检测视频对应动作描述图的速率，并实现对计算机设备的计算资源的有效节省。

在具体实现中，基于上述式1中重要度分数的表达式，该计算机设备可基于t的取值，对该重要度分数进行相似转换，得到对应的相似分数，其中，得到的相似分数可由

表示，并具体可如式4所示。

式4

其中，

表示得到的重要度分数的相似分数。那么，基于上述式4方程的平移不变性，计算机设备可实现动态地更新动作描述图，从而得到用于快速进行动态图（即动作描述图）计算的第二算法，该第二算法对应的第二表达式可如式5所示。

式5

其中，L表示抽取的参考图像帧的数量，或者滑动窗口的窗口大小，而在滑动窗口的窗口大小为L时，确定出的参考图像帧可表示为

。同样的，计算机设备若确定采用第二算法进行动作描述图的计算，可通过如图5b所示的代码实现。

经实践表明，由于计算机设备在采用第一算法得到检测视频对应的动作描述图时，是采用从该检测视频中抽取出的参考图像帧对应的准确的重要度分数对相应参考图像帧的特征向量进行加权求和后得到的，而在采用第二算法得到该检测视频对应的动作描述图时，则是采用从该检测视频中抽取出的参考图像帧对应重要度分数的相似分数对相应参考图像帧进行加权求和后得到的，因此，由于准确的重要度分数相比于相似分数而言的精确度更高，但计算机设备进行相似分数的获取相比于对准确的重要度分数进行获取而言，进行相似分数的获取的速度更快，由此可见，采用第一算法得到的检测视频的动作描述图在对目标对象的动作进行描述时的准确度相比于采用第二算法得到的动作描述图对目标对象的动作进行描述的准确度更高，但采用第一算法得到检测视频的动作描述图的速度相比于采用第二算法得到检测视频的动作描述图的速度更慢。也就是说，计算机设备通过对由第一算法得到的动作描述图的识别得到的针对目标对象的动作判别结果，相比于对由第二算法得到的动作描述图的识别得到的针对目标对象的动作判别结果更准确。那么，该计算机设备在得到针对目标对象的多个检测视频后，在得到检测视频对应的动作描述图时，可通过当前针对目标对象的动作判别的准确度要求（或针对动作描述图的运算能力要求），选择第一算法或第二算法生成检测视频对应的动作描述图，其中，该计算机设备可在当前对目标对象进行动作判别时的准确度要求较低，但对运算速度要求高时，采用第二算法进行动作描述图的计算，而在当前对目标对象进行动作判别的准确度要求较高，却对速度要求相对较低时，则可抽取第一算法进行动作描述图的计算。

下面对式3所示的动作描述图的第一表达式的推理过程进行说明。由于视频（如上述的检测视频）可由静态图像的时间序列进行表示，所以，检测视频可由帧序列

的排序函数进行表示，其中，I_i表示检测视频中的第i个（或对应显示时间为i）图像帧，而在基于检测视频对目标对象进行目标动作检测时，上述帧序列的排序函数即用于表示采用图像帧抽取处理从该检测视频中抽取出的一个或多个参考图像帧。此外，计算机设备还可用

表示从视频中每个独立的帧I_t中抽取的特征向量，其中，

表示实数集，那么，基于确定的针对参考图像帧的表示，及对应特征向量的表示，该计算机设备可在确定动作描述图的第一表达式时，先确定该动作描述图的理论表达式，进而基于动作描述图的理论表达式推理得到该动作描述图的第一表达式。

在一个实施例中，计算机设备在获取动作描述图的第一表达式时，可先根据任一参考图像帧的显示时间，对任一参考图像帧进行时间平均处理，得到任一参考图像帧与对应特征向量之间的转换关系，其中，该计算机设备得到的参考图像帧与对应特征向量之间的转换关系可如式6所示。

式6

其中，V_t表示对任一参考图像帧进行时间平均处理后得到的图像帧，

表示原始参考图像帧I_t的特征向量。

在计算机设备得到该转换关系后，由于，一个动作描述图用于对相应的检测视频中的目标对象在对应的拍摄角度下执行的动作信息进行记录，基于动作和时序（或时间）之间的关联关系，同一动作在不同时序下的动作信息必然是不同的，也即是说，检测视频中各图像帧之间的时序关系，将影响对应得到的动作描述图中记录的动作信息。那么计算机设备在得到参考图像帧与对应特征相关之间的转换关系后，则可基于该一个或多个参考图像帧中各图像帧之间的时序关系构建针对动作描述图的约束函数，该约束函数用于指示：若一个参考图像帧在任一检测视频中的显示时间大于另一参考图像帧在该任一检测视频中的显示时间，则在构建该任一检测视频对应的动作描述图的过程中，该一个参考图像帧中对应的分值大于另一参考图像帧中对应的分值；进而可求解约束函数，得到动作描述图的理论表达式。在一个实施例中，计算机设备基于一个或多个参考图像帧中各图像帧之间的时序关系构建的约束函数可以是

，而由于计算机设备需要获取的动作描述图是从检测视频中提取时序上的动态特征，所以，为了引入动态信息，该约束函数等价于式7。

式7

其中，s.t.表示使得运算，即定义一个时间上大于t的q值，S(q|d)表示在构建动作描述图（即上述式7中的参数d所指代的图像）的过程中，对应显示时间为q的参考图像帧对应的分值，而S(t|d)则表示在构建动作描述图的过程中，对应显示时间为t的参考图像帧对应的分值。那么由此可见，通过求解式7所示的约束函数即可得到动作描述图的理论表达式，在一个实施例中，该计算机设备可采用RankSVM方法（一种机器学习方法）求解得到动作描述图的理论表达式d，其中，求解得到的动作描述图的理论表达式如式8所示。

式8

其中，||.||指范数计算，且L(d)的具体计算公式可由式9计算得到。

式9

上述的推导过程可成为排序池化操作，使计算机设备可实现将T个参考图像帧的序列映射到一个特征向量d^*中，那么通过对映射得到的特征向量进行还原重构处理，即可得到该参考图像帧所在检测视频的动作描述图。由于采用上述的动作描述图的理论表达式进行动作描述图的获取会消耗计算机设备大量的运算资源，所以计算机设备为了提升获得动态图的速度，以满足对目标对象进行动作判别的实时性要求，所以，计算机设备在得到动作描述图的理论表达式后，则可基于该理论表达式进行近似求导，从而可根据近似求导得到的近似表达式确定出用于计算该动作描述图的第一表达式。在具体实现中，该计算机设备可在确定动作描述图的第一表达式时，先获取进行动作描述图计算的理论表达式，并对理论表达式进行一步近似求导处理，得到动作描述图的近似表达式，该近似表达式用于指示动作描述图的像素的梯度变化。其中，在计算机设备基于理论表达式进行一步近似求导处理时，可从

开始处理，因此，进行一步近似求导处理得到的近似表达式可如式10所示。

式10

其中，

为任意大于0的极小值，

表示用于表征该动作描述图中对应像素的梯度变化，由于动作描述图中对应像素的像素值为记录的参考图像帧中目标对象执行的动作信息，那么可以理解，该动作描述图中对应像素的梯度变化可由相应的不同参考图像帧之间的图像差异确定，因此，该计算机设备在得到该动作描述图的近似表达式后，可基于该一个或多个参考图像帧中各参考图像帧对应的显示时间，从该一个或多个参考图像帧中确定出对应显示时间具备先后关系的参考图像帧，并计算该对应显示时间具备先后关系的参考图像帧之间的图像差值。在计算机设备确定出对应显示时间具备先后关系的参考图像帧之间的图像差值后，则可采用对应显示时间具备先后关系的参考图像帧之间的图像差值，对该动作描述图的近似表达式中用于表征动作描述图中对应像素的梯度变化进行替换，从而可根据替换后的表达式确定该动作描述图的第一表达式。其中，采用对应显示时间具备先后关系的参考图像帧之间的图像差值的表达式满足式11。

式11

其中，

为正比例运算符，那么上述式11可知，该动作描述图中像素变化的梯度变化，与对该一个或多个参考图像帧中对应显示时间具备先后关系的参考图像帧之间的图像差值的和成正比例。那么，计算机设备则可采用如式11所表示的对应显示时间具备先后关系的参考图像帧之间的图像差值的表达式，对动作描述图的近似表达式进行相似替换，得到该动作描述图的第一表达式。

在一个实施例中，计算机设备在采用图像差值的表达式对近似表达式中表征的梯度变化进行相似替换，得到动作描述图的第一表达式时，该计算机设备可先采用图像差值的表达式对近似表达式中表征的梯度变化进行相似替换，得到该动作描述图的等同表达式，其中，该等同表达式用于表征基于对各参考图像帧的加权求和处理得到动作描述图，其中，该等同表达式可如式12所示。

式12

其中，

，那么，该计算机设备在得到该等同表达式后，该计算机设备则可进一步地基于如式6所示的任一参考图像帧与对应特征向量之间的转换关系，对等同表达式进行等式转换，得到该动作描述图的第一表达式。

S405，对每个动作描述图记录的动作信息进行信息融合处理，得到用于描述目标对象在多个不同拍摄角度的动作信息的动作融合描述图。

S406，根据动作融合描述图对目标对象执行的动作进行识别处理，得到针对目标对象的动作识别结果，动作识别结果用于表征目标对象是否执行目标动作。

在步骤S405和步骤S406中，计算机设备在得到采集到的任一检测视频是对应的动作描述图后，则可通过调用多分枝卷积神经网络的一个分枝网络对任一检测视频的动作描述图进行处理，并将处理后得到的动作描述图传输到主干网络从而得到目标对象的动作融合描述图。在一个实施例中，计算机设备在得到任一检测视频对应的动作描述图时，可将该任一检测视频输入到多分支卷积神经网络的一个或多个分支网络中，从而得到该检测视频对应的一个或多个动作描述图，其中，该计算机设备将检测视频输入到一个分支网络后，可由该一个分支网络输出针对该检测视频的一个动作描述图，那么，如果计算机设备将一个检测视频输入到多个分支网络，则可从多个分支网络中得到该一个检测视频的多个动作描述图，也就是说，如果计算机设备获取到的检测视频的数量为N，那么在通过多分支卷积神经网络后得到的动作描述图的数量M是必然大于等于N的。

在一个实施例中，如果计算机设备将一个检测视频输入到多个不同的分支网络，并得到该一个检测视频的多个动作描述图后，该计算机设备可从得到的多个动作描述图中任意选取一个动作描述图作为后续进行信息融合处理的动作描述图，或者，该计算机设备也可按照某种特定的选取规则从该多个动作描述图中选取出一个后续进行信息融合处理的动作描述图，又或者，该计算机设备也可将得到的多个动作描述图均作为后续进行信息融合处理的动作描述图，在本申请实施例中，对计算机设备得到每个检测视频对应的一个或多个动作描述图后，后续对每个检测视频后续进行融合的动作描述图的数量及确定方式均不做限定，但在本申请实施例中，主要以将获取的一个检测视频输入到一个分支网络并得到对应的一个动作描述图的情况进行说明，即以该计算机设备获取到的检测视频的数量为N，在对N个检测视频进行图像帧抽取处理和加权融合处理后，得到与N数量相等的M个动作描述图的情况进行说明，在这种情况下，计算机设备得到的任一动作描述图是通过调用多分支卷积神经网的一个分支网络，对相应检测视频进行图像帧抽取处理和加权融合处理后得到的。

在一个实施例中，由于该多分支卷积神经网络还包括主干网络，因此，计算机设备在得到检测视频对应的动作描述图，并在对每个动作描述图中记录的动作信息进行信息融合处理时，可调用任一分枝网络对M个动作描述图中的任一动作描述图所记录的动作信息进行提取，得到任一动作描述图在对应拍摄角度下的动作信息；进一步地，该计算机设备可调用主干网络对由每个动作描述图提取到的对应拍摄角度下的动作信息进行信息融合处理，得到用于描述目标对象在多个不同拍摄角度动作信息的动作融合描述图。其中，如图5c所示，该多分枝卷积神经网络的每个分枝可处理来自一个图像采集设备的检测视频，也就是说，计算机设备可利用浅层卷积对检测视频进行处理，以提取特征图像中的低频信号，再利用池化操作将每个分枝网络处理后的视觉特征进行融合合并，并输入到主干网络中，进而使主干网络可基于融合的动作信息（即上述的动作融合描述图）确定目标对象是否执行了目标动作。

在一个实施例中，该多分枝卷积神经网络是训练完成的深度学习网络，由于目标动作的帧数可能占据被抽取出的参考图像帧中的较小比例，所以，在对多分枝卷积神经网络进行训练时，可采用类别加权的focal损失（中心损失）函数进行模型训练，从而提升训练的模型在进行动作判别时的准确度。

针对检测视频中的目标对象是否由目标动作这样的二分类的问题，可采用常见的特异度（specificity，TN/（TN+FP））和灵敏度（sensitivity，TP/(TP+FN)）两个指标来对判别结果进行评估，其中，特异性表示的是所有负例中被分对的比例，衡量了分类器对负例的识别能力；灵敏度表示的是所有正例中被分对的比例，衡量了分类器对正例的识别能力，两个指标均为越大越好，如图5d所示，基于本方案对目标对象进行目标动作的检测的性能相较于其他方案而言是最佳的，而该计算机设备在对目标对象进行目标动作检测后，还可输入如图5e所示的检测结果，该计算机设备基于对目标对象是否执行目标动作的检测判别，可在确定目标对象执行了目标动作时，采用如图5e的矩形实线框进行标注，而在确定该目标对象未执行目标动作时，采用如图5e中所示的矩形虚线框对目标对象进行标注。

在本申请实施例中，计算机设备在对目标对象进行目标动作检测的过程中，可从不同的图像采集设备中获取针对目标对象不同角度的多个检测视频，从而可使计算机设备获取到针对目标对象的多视角拍摄的图像信息，以可有效避免后续在进行动作检测过程中由于画面遮挡所导致的检测出错的问题，且基于不同角度的检测视频的获取，可减少画面阴影情况的产生，能保证在部分图像采集设备故障的情况下，该计算机设备可基于其他正常图像采集设备所采集到的检测视频对目标对象进行动作判别。而在计算机设备获取到针对目标对象的多个检测视频后，可通过对任一检测视频进行图像帧抽取处理，得到对应的一个或多个参考图像帧，并在确定出每个参考图像帧对应的重要度分数后，采用该对应的重要度分数对相应参考图像帧进行加权融合处理，得到检测视频的动作描述图，并进一步地，该计算机设备可基于对多个动作描述图中的动作信息的信息融合处理，得到用于描述该目标对象在多个不同角度的动作信息的动作融合描述图，该计算机设备进而可识别该动作融合描述图，得到针对目标对象的动作判别结果，基于计算机设备对多个动作描述图的融合，可使计算机设备获取到针对目标对象的多拍摄角度的动作信息，从而通过对该多拍摄角度的动作信息的识别处理，可有效提升计算机设备进行动作识别的准确性。

基于上述基于多角度视频的动作识别方法实施例的描述，本发明实施例还提出了一种动作识别装置，该动作识别装置可以是运行于上述计算机设备中的一个计算机程序（包括程序代码）。该动作识别装置可用于执行如图2和图4所述的针对对象的动作识别方法，请参见图6，该针对对象的动作识别装置包括：获取单元601，处理单元602和识别单元603。

获取单元601，用于获取针对目标对象采用多个不同的拍摄角度拍摄得到的N个检测视频，其中，所述N为大于等于2的正整数；

处理单元602，用于对所述N个检测视频进行图像帧抽取处理和加权融合处理，得到M个动作描述图，其中，所述M为正整数，一个动作描述图用于对检测视频中的目标对象在相应拍摄角度下执行的动作信息进行记录；

所述处理单元602，还用于对每个动作描述图记录的动作信息进行信息融合处理，得到用于描述所述目标对象在多个不同拍摄角度的动作信息的动作融合描述图；

识别单元603，用于根据所述动作融合描述图对所述目标对象执行的动作进行识别处理，得到针对所述目标对象的动作识别结果，所述动作识别结果用于表征所述目标对象是否执行目标动作。

在一个实施例中，任一动作描述图是通过调用多分枝卷积神经网络的一个分枝网络，对任一检测视频进行图像帧抽取处理和加权融合处理后得到的，所述多分枝卷积神经网络还包括主干网络；所述处理单元602，还用于：

调用任一分枝网络对所述M个动作描述图中的任一动作描述图所记录的动作信息进行提取，得到所述任一动作描述图在对应拍摄角度下的动作信息；

调用所述主干网络对由每个动作描述图提取到的对应拍摄角度下的动作信息进行信息融合处理，得到用于描述所述目标对象在多个不同拍摄角度动作信息的动作融合描述图。

在一个实施例中，一个动作描述图是对一个检测视频进行图像帧抽取处理和加权融合处理得到的；

所述处理单元602，还用于对任一检测视频进行图像帧抽取处理，得到所述任一检测视频的一个或多个参考图像帧；

所述获取单元601，还用于获取任一参考图像帧对应的重要度分数，所述重要度分数用于表征相应参考图像帧的重要程度；

所述处理单元602，还用于采用重要度分数对相应参考图像帧进行加权求和，得到所述任一检测视频对应的动作描述图。

在一个实施例中，所述处理单元602，具体用于：

基于任一检测视频中各图像帧的显示顺序对所述任一检测视频进行图像帧抽取处理，得到所述任一检测视频对应的表征序列，将所述表征序列中包括的图像帧作为参考图像帧，或者；

获取滑动窗口，并基于所述滑动窗口对所述任一检测视频进行图像帧抽取处理，将处于所述滑动窗口内的图像帧作为参考图像帧。

在一个实施例中，所述获取单元601，具体用于：

获取用于表征所述一个或多个参考图像帧中的任一参考图像帧在对应检测视频中的显示时间的时间序列，所述时间序列包括的一个显示时间与一个参考图像帧相对应；

基于所述时间序列，对所述任一参考图像帧的显示时间进行调和处理，得到用于表征相应显示时间在进行动作描述时的时间重要度；

将所述时间重要度作为与相应显示时间对应的任一参考图像帧的重要度分数。

在一个实施例中，所述处理单元602，具体用于：

若采用第一算法得到动作描述图，则获取所述一个或多个参考图像帧中每个参考图像帧的特征向量；

采用任一参考图像帧的重要度分数，对相应特征向量进行加权求和，得到所述任一检测视频的表征向量；

对所述表征向量进行还原重构处理，得到所述任一检测视频的动作描述图。

在一个实施例中，所述第一算法由第一表达式进行表示；所述获取单元601，还用于获取动作描述图的理论表达式，并对所述理论表达式进行一步近似求导处理，得到所述动作描述图的近似表达式，所述近似表达式用于表征在所述动作描述图中对应像素变化的梯度变化；

所述处理单元602，还用于基于所述一个或多个参考图像帧中各参考图像帧对应的显示时间，从所述一个或多个参考图像帧中确定出对应显示时间具备先后关系的参考图像帧，并计算所述对应显示时间具备先后关系的参考图像帧之间的图像差值；

所述处理单元602，还用于采用所述图像差值的表达式对所述近似表达式中表征的梯度变化进行相似替换，并根据相似替换后的表达式确定所述动作描述图的第一表达式。

在一个实施例中，所述处理单元602，具体用于：

采用所述图像差值的表达式对所述近似表达式中表征的梯度变化进行相似替换，得到所述动作描述图的等同表达式，所述等同表达式用于表征对各参考图像帧进行加权求和处理得到动作描述图；

基于任一参考图像帧与对应特征向量之间的转换关系，对所述等同表达式进行等式转换，得到动作描述图的第一表达式。

在一个实施例中，所述获取单元601，具体用于：

根据任一参考图像帧的显示时间，对所述任一参考图像帧进行时间平均处理，得到所述任一参考图像帧与对应特征向量之间的转换关系；

基于所述一个或多个参考图像帧中各图像帧之间的时序关系构建针对动作描述图的约束函数，所述约束函数用于指示：若一个参考图像帧在所述任一检测视频中的显示时间大于另一参考图像帧在所述任一检测视频中的显示时间，则在构建任一检测视频对应的动作描述图的过程中，所述一个参考图像帧对应的分值大于所述另一参考图像帧对应的分值；

求解所述约束函数，得到所述动作描述图的理论表达式。

在一个实施例中，所述处理单元601，具体用于：

若采用第二算法得到动作描述图，则对所述重要度分数进行相似转换，得到所述重要度分数的相似分数；

采用任一参考图像帧对应重要度分数的相似分数，对相应参考图像帧进行加权求和，得到所述任一检测视频的动作描述图。

在本申请实施例中，在对目标对象进行动作识别，以确定该目标对象执行的动作是否为目标动作的过程中，获取单元601可先获取对该目标对象采用不同的角度进行拍摄所得到的多个检测视频，进而处理单元602可对获取到的多个检测视频中的每个检测视频进行图像帧抽取处理和加权融合处理，并得到多个动作描述图，在得到每个检测视频的动作描述图后，基于动作描述图中对该目标对象在相应拍摄角度下执行的动作的相关信息的记录，可使处理单元602进一步地可对得到的动作描述图进行信息融合处理，从而得到该目标对象的动作融合描述图，以使识别单元603可获取到目标对象在不同角度下的动作信息，那么，基于识别单元603对动作融合描述图的识别处理，可使识别单元603获取到目标对象在不同拍摄角度下对应的动作信息，从而可实现对目标对象在不同角度的动作进行识别，从而可基于对动作融合描述图的识别处理，实现对目标对象在多角度执行动作的识别，也就可提升在对目标对象进行动作判别的准确度和置信度。

请参见图7，是本发明实施例提供的一种计算机设备的结构示意性框图。如图7所示的本实施例中的计算机设备可包括：一个或多个处理器701；一个或多个输入设备702，一个或多个输出设备703和存储器704。上述处理器701、输入设备702、输出设备703和存储器704通过总线705连接。存储器704用于存储计算机程序，所述计算机程序包括程序指令，处理器701 用于执行所述存储器704存储的程序指令。

所述存储器704可以包括易失性存储器（volatile memory），如随机存取存储器（random-access memory，RAM）；存储器704也可以包括非易失性存储器（non-volatilememory），如快闪存储器（flash memory），固态硬盘（solid-state drive，SSD）等；存储器704还可以包括上述种类的存储器的组合。

所述处理器701可以是中央处理器（central processing unit，CPU）。所述处理器701还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路（application-specific integrated circuit，ASIC），可编程逻辑器件（programmable logic device，PLD）等。该PLD可以是现场可编程逻辑门阵列（field-programmable gate array，FPGA），通用阵列逻辑（generic array logic，GAL）等。所述处理器701也可以为上述结构的组合。

本发明实施例中，所述存储器704用于存储计算机程序，所述计算机程序包括程序指令，处理器701用于执行存储器704存储的程序指令，用来实现上述如图2和图4中相应方法的步骤。

在一个实施例中，所述处理器701被配置调用所述程序指令，用于执行：

在一个实施例中，任一动作描述图是通过调用多分枝卷积神经网络的一个分枝网络，对任一检测视频进行图像帧抽取处理和加权融合处理后得到的，所述多分枝卷积神经网络还包括主干网络；所述处理器701被配置调用所述程序指令，用于执行：

在一个实施例中，一个动作描述图是对一个检测视频进行图像帧抽取处理和加权融合处理得到的；所述处理器701被配置调用所述程序指令，用于执行：

对任一检测视频进行图像帧抽取处理，得到所述任一检测视频的一个或多个参考图像帧；

获取所述任一参考图像帧对应的重要度分数，所述重要度分数用于表征相应参考图像帧的重要程度；

采用重要度分数对相应参考图像帧进行加权求和，得到所述任一检测视频对应的动作描述图。

在一个实施例中，所述第一算法由第一表达式进行表示；所述处理器701被配置调用所述程序指令，用于执行：

获取动作描述图的理论表达式，并对所述理论表达式进行一步近似求导处理，得到所述动作描述图的近似表达式，所述近似表达式用于表征在所述动作描述图中对应像素变化的梯度变化；

基于所述一个或多个参考图像帧中各参考图像帧对应的显示时间，从所述一个或多个参考图像帧中确定出对应显示时间具备先后关系的参考图像帧，并计算所述对应显示时间具备先后关系的参考图像帧之间的图像差值；

采用所述图像差值的表达式对所述近似表达式中表征的梯度变化进行相似替换，并根据相似替换后的表达式确定所述动作描述图的第一表达式。

求解所述约束函数，得到所述动作描述图的理论表达式。

本发明实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述如图2或图4所示的方法实施例。其中，所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所揭露的仅为本发明的局部实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于多角度视频的动作识别方法，其特征在于，包括：

获取针对目标对象采用多个不同的拍摄角度拍摄得到的N个检测视频，其中，N为大于等于2的正整数；

对所述N个检测视频中的任一检测视频进行图像帧抽取处理，得到所述任一检测视频的一个或多个参考图像帧，并根据任一参考图像帧的重要度分数，对相应参考图像帧进行加权融合处理，得到M个动作描述图，其中，M为正整数，一个动作描述图用于对检测视频中的目标对象在相应拍摄角度下执行的动作信息进行记录；

根据所述动作融合描述图对所述目标对象执行的动作进行识别处理，得到针对所述目标对象的动作识别结果，所述动作识别结果用于表征所述目标对象是否执行目标动作；

其中，得到任一参考图像帧的重要度分数包括：获取用于表征所述一个或多个参考图像帧中的任一参考图像帧在对应检测视频中的显示时间的时间序列，所述时间序列包括的一个显示时间与一个参考图像帧相对应；基于所述时间序列，对所述任一参考图像帧的显示时间进行调和处理，得到用于表征相应显示时间在进行动作描述时的时间重要度；将所述时间重要度作为与相应显示时间对应的任一参考图像帧的重要度分数。

2.如权利要求1所述的方法，其特征在于，任一动作描述图是通过调用多分支卷积神经网络的一个分支网络，对任一检测视频进行图像帧抽取处理和加权融合处理后得到的，所述多分支卷积神经网络还包括主干网络；所述对每个动作描述图记录的动作信息进行信息融合处理，得到用于描述所述目标对象在多个不同拍摄角度的动作信息的动作融合描述图，包括：

调用任一分支网络对所述M个动作描述图中的任一动作描述图所记录的动作信息进行提取，得到所述任一动作描述图在对应拍摄角度下的动作信息；

调用所述主干网络对由每个动作描述图提取到的对应拍摄角度下的动作信息进行信息融合处理，得到用于描述所述目标对象在多个不同拍摄角度的动作信息的动作融合描述图。

3.如权利要求1所述的方法，其特征在于，一个动作描述图是对一个检测视频进行图像帧抽取处理和加权融合处理得到的；所述重要度分数用于表征相应参考图像帧的重要程度。

4.如权利要求3所述的方法，其特征在于，所述对任一检测视频进行图像帧抽取处理，得到所述任一检测视频的一个或多个参考图像帧，包括：

5.如权利要求3所述的方法，其特征在于，采用重要度分数对相应参考图像帧进行加权求和，得到所述任一检测视频对应的动作描述图的方式包括：

若采用第一算法得到动作描述图，则步骤为：获取所述一个或多个参考图像帧中每个参考图像帧的特征向量；

6.如权利要求5所述的方法，其特征在于，所述第一算法由第一表达式进行表示；所述方法还包括：

7.如权利要求6所述的方法，其特征在于，所述采用所述图像差值的表达式对所述近似表达式中表征的梯度变化进行相似替换，并根据相似替换后的表达式确定所述动作描述图的第一表达式，包括：

8.如权利要求6所述的方法，其特征在于，所述获取动作描述图的理论表达式，包括：

求解所述约束函数，得到所述动作描述图的理论表达式。

9.如权利要求1所述的方法，其特征在于，所述根据任一参考图像帧的重要度分数，对相应参考图像帧进行加权融合处理，包括：

若采用第二算法得到动作描述图，则步骤为：对所述重要度分数进行相似转换，得到所述重要度分数的相似分数；

采用任一参考图像帧对应重要度分数的相似分数，对相应参考图像帧进行加权求和。

10.一种基于多角度视频的动作识别装置，其特征在于，包括：

获取单元，用于获取针对目标对象采用多个不同的拍摄角度拍摄得到的N个检测视频，其中，N为大于等于2的正整数；

处理单元，用于对所述N个检测视频中的任一检测视频进行图像帧抽取处理，得到所述任一检测视频的一个或多个参考图像帧，并根据任一参考图像帧的重要度分数，对相应参考图像帧进行加权融合处理，得到M个动作描述图，其中，M为正整数，一个动作描述图用于对检测视频中的目标对象在相应拍摄角度下执行的动作信息进行记录；

识别单元，用于根据所述动作融合描述图对所述目标对象执行的动作进行识别处理，得到针对所述目标对象的动作识别结果，所述动作识别结果用于表征所述目标对象是否执行目标动作；

11.一种计算机设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、所述输入设备、所述输出设备和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1~9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1~9任一项所述的方法。