CN108875525A

CN108875525A - 行为预测方法、装置、***和存储介质

Info

Publication number: CN108875525A
Application number: CN201810008835.XA
Authority: CN
Inventors: 朱延俊; 俞刚
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2018-11-23
Also published as: US11055516B2; US20190205629A1

Abstract

本发明提供了一种行为预测方法、装置、***和存储介质，所述行为预测方法包括：获取部分行为动作视频帧序列，所述部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部；从所述部分行为动作视频帧序列中选择关键信息帧，所述关键信息帧在所述部分行为动作视频帧序列中具有显著区分性；以及基于所述关键信息帧预测所述行为动作的类别。根据本发明实施例的行为预测方法、装置、***和存储介质可在仅观测到行为动作的部分视频时通过提取关键信息帧来预测行为动作的类别，极大地提升了当观测到的视频在整个行为动作中占比很低时对该行为动作的预测的准确率。

Description

行为预测方法、装置、***和存储介质

技术领域

本发明涉及图像和视频识别技术领域，更具体地涉及一种行为预测方法、装置、***和存储介质。

背景技术

人类行为识别在视频监控、视频检索中有巨大的应用价值。越来越多的算法被提出用于识别特定的行为，但是这些方法只能用来识别已经完全发生的行为动作，即只有当某个行为动作发生完全时才能给出准确的判断。

对于一个合格的行为识别智能***来说，它需要具备防患于未然的能力，即在行为完全发生之前将其准确识别出来，从而避免不必要的损失，比如自动驾驶***，在车祸发生之前准确预测并及时采取相应措施就显得尤为重要。

目前在视频中做行为预测的算法要么使用所有观测到的帧，要么随机选择部分帧来表征视频，这些算法的预测准确率不高，尤其是在在动作刚发生时(比如完整行为动作区间的前10％)的预测准确率非常低。

发明内容

本发明提出了一种关于行为预测的方案，其旨在解决观测到部分视频时的行为预测问题，其选择观测到的部分视频帧中的关键信息帧来表征该视频，对于观测到的视频在整个行为动作中占比很低的场景可显著提高其行为预测的准确率。下面简要描述本发明提出的关于行为预测的方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明一方面，提供了一种行为预测方法，所述行为预测方法包括：获取部分行为动作视频帧序列，所述部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部；从所述部分行为动作视频帧序列中选择关键信息帧，所述关键信息帧在所述部分行为动作视频帧序列中具有显著区分性；以及基于所述关键信息帧预测所述行为动作的类别。

在一个实施例中，所述关键信息帧包括关键信息图像和/或关键信息光流。

在一个实施例中，所述关键信息图像的选择包括：计算所述部分行为动作视频帧序列中每一帧的分类得分值，所述分类得分值为所述每一帧的分类得分向量中得分值最高的类别的值或者为所述每一帧的分类得分向量中各类别得分值之间的方差；以及将所述部分行为动作视频帧序列按照所述分类得分值从高到低排序，并将排序后得到的前m帧图像作为所述关键信息图像，m为自然数。

在一个实施例中，所述关键信息光流的选择包括：计算所述部分行为动作视频帧序列中所有连续两帧之间的光流以形成多个堆叠光流；计算所述多个堆叠光流中每个堆叠光流的分类得分值，所述分类得分值为所述每个堆叠光流的分类得分向量中得分值最高的类别的值或者为所述每个堆叠光流的分类得分向量中各类别得分值之间的方差；以及将所述多个堆叠光流按照所述分类得分值从高到低排序，并将排序后得到的前n个堆叠光流作为所述关键信息光流，n为自然数。

在一个实施例中，所述类别包括待预测的行为动作的类别。

在一个实施例中，所述形成多个堆叠光流包括：将所述部分行为动作视频帧序列中所有连续两帧之间的光流分别分解为水平和竖直两个方向作为两个通道的光流图；以及将所述部分行为动作视频帧序列中任意连续p帧的光流图堆叠在一起构成2p个通道的堆叠光流图作为一个堆叠光流，多个连续p帧的光流图堆叠在一起形成所述多个堆叠光流，其中p为自然数。

在一个实施例中，所述关键信息图像的选择是基于第一神经网络来实施的，所述关键信息光流的选择是基于第二神经网络来实施的，所述第一神经网络和所述第二神经网络为具有相同的网络结构且均为小型神经网络。

在一个实施例中，所述基于所述关键信息帧预测所述行为动作的类别包括：基于所述关键信息图像进行分析识别，得到第一预测结果；基于所述关键信息光流进行分析识别，得到第二预测结果；以及融合所述第一预测结果和所述第二预测结果，以得到所述行为动作的类别的最终预测结果。

在一个实施例中，所述融合所述第一预测结果和所述第二预测结果包括：将所述第一预测结果和所述第二预测结果按照预定的权重比例进行加权平均。

在一个实施例中，所述预定的权重比例为1:1或1:1.5。

在一个实施例中，所述基于所述关键信息图像进行分析识别是由第三神经网络来实施的，所述基于所述关键信息光流进行分析识别是由第四神经网络来实施的，所述第三神经网络和所述第四神经网络具有相同的网格结构且均为大型神经网络。

根据本发明另一方面，提供了一种行为预测装置，所述行为预测装置包括：获取模块，用于获取部分行为动作视频帧序列，所述部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部；选择模块，用于从所述部分行为动作视频帧序列中选择关键信息帧，所述关键信息帧在所述部分行为动作视频帧序列中具有显著区分性；以及预测模块，用于基于所述关键信息帧预测所述行为动作的类别。

在一个实施例中，所述选择模块对所述关键信息图像的选择包括：计算所述部分行为动作视频帧序列中每一帧的分类得分值，所述分类得分值为所述每一帧的分类得分向量中得分值最高的类别的值或者为所述每一帧的分类得分向量中各类别得分值之间的方差；以及将所述部分行为动作视频帧序列按照所述分类得分值从高到低排序，并将排序后得到的前m帧图像作为所述关键信息图像，m为自然数。

在一个实施例中，所述选择模块对所述关键信息光流的选择包括：计算所述部分行为动作视频帧序列中所有连续两帧之间的光流以形成多个堆叠光流；计算所述多个堆叠光流中每个堆叠光流的分类得分值，所述分类得分值为所述每个堆叠光流的分类得分向量中得分值最高的类别的值或者为所述每个堆叠光流的分类得分向量中各类别得分值之间的方差；以及将所述多个堆叠光流按照所述分类得分值从高到低排序，并将排序后得到的前n个堆叠光流作为所述关键信息光流，n为自然数。

在一个实施例中，所述类别包括待预测的行为动作的类别。

在一个实施例中，所述选择模块对所述关键信息图像的选择是基于第一神经网络来实施的，所述选择模块对所述关键信息光流的选择是基于第二神经网络来实施的，所述第一神经网络和所述第二神经网络具有相同的网络结构且均为小型神经网络。

在一个实施例中，所述预测模块基于所述关键信息帧预测所述行为动作的类别包括：基于所述关键信息图像进行分析识别，得到第一预测结果；基于所述关键信息光流进行分析识别，得到第二预测结果；以及融合所述第一预测结果和所述第二预测结果，以得到所述行为动作的类别的最终预测结果。

在一个实施例中，所述预测模块融合所述第一预测结果和所述第二预测结果包括：将所述第一预测结果和所述第二预测结果按照预定的权重比例进行加权平均。

在一个实施例中，所述预定的权重比例为1:1或1:1.5。

在一个实施例中，所述预测模块基于所述关键信息图像进行分析识别是由第三神经网络来实施的，所述预测模块基于所述关键信息光流进行分析识别是由第四神经网络来实施的，所述第三神经网络和所述第四神经网络具有相同的网络结构且均为大型神经网络。

根据本发明又一方面，提供了一种行为预测***，所述行为预测***包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行上述任一项所述的行为预测方法。

根据本发明再一方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行上述任一项所述的行为预测方法。

根据本发明实施例的行为预测方法、装置、***和存储介质可在仅观测到行为动作的部分视频时通过提取关键信息帧来预测行为动作的类别，极大地提升了当观测到的视频在整个行为动作中占比很低时对该行为动作的预测的准确率。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的行为预测方法、装置、***和存储介质的示例电子设备的示意性框图；

图2示出根据本发明实施例的行为预测方法的示意性流程图；

图3示出根据本发明实施例的行为预测方法所采用的网络结构的示例性示意图；

图4示出采用根据本发明实施例的行为预测方法进行行为预测的示例性示意图；

图5示出根据本发明实施例的行为预测装置的示意性框图；以及

图6示出根据本发明实施例的行为预测***的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的行为预测方法、装置、***和存储介质的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集用户期望的图像(例如照片、视频等)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用具有图像采集能力的部件采集待处理图像，并将采集的待处理图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的行为预测方法和装置的示例电子设备可以被实现诸如智能手机、平板电脑等等移动终端。

下面，将参考图2描述根据本发明实施例的行为预测方法200。如图2所示，行为预测方法200可以包括如下步骤：

在步骤S210，获取部分行为动作视频帧序列，所述部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部。

一个完整的行为动作从发生到结束会持续一段时间，传统的行为识别方法需要分析整个动作持续时间内的所有帧，这样就使得算法具有滞后性，难以应用在实时性要求较强的场景下。在本发明的实施例的行为预测方案中，无需等待整个行为结束，在获取部分行为动作视频帧序列时，即可实现对该行为动作的预测。例如，所述的部分行为动作视频帧序列可以为行为动作最开始的一部分视频。再如，所述的部分行为动作视频帧序列可以为完整的行为动作所包括的所有帧的前10％、前15％的帧等等。总体上，在步骤S210所获取的部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部。在一个示例中，所述的部分行为动作视频帧序列可以为目前实时观测到的视频帧。在另一个示例中，所述的部分行为动作视频帧序列可以为来自任何源的视频帧。

在步骤S220，从所述部分行为动作视频帧序列中选择关键信息帧，所述关键信息帧在所述部分行为动作视频帧序列中具有显著区分性。

在本发明的实施例中，从步骤S210获取的视频帧中选择的关键信息帧为能够表征该段视频的信息帧，其在所获取的视频帧中与其他帧相比是具有显著区分性的，使得能够基于该关键信息帧实施该段视频中行为动作的识别和预测。在一个示例中，所选择的关键信息帧可以包括关键信息图像，即空间域的关键信息。空间域的信息可体现行为的外观特征，关注目标和场景。在另一个示例中，所选择的关键信息帧可以包括关键信息光流，即时间域的关键信息。时间域的信息可体现行为运动特征，抓取运动上的差异性。在又一个示例中，所选择的关键信息帧可以包括关键信息图像和关键信息光流这两者，即同时选择时空域的关键信息，这样可以使得后续的行为预测更为准确。

在一个实施例中，所述关键信息图像的选择可以包括：计算所述部分行为动作视频帧序列中每一帧的分类得分值，所述分类得分值为所述每一帧的分类得分向量中得分值最高的类别的值或者为所述每一帧的分类得分向量中各类别得分值之间的方差；以及将所述部分行为动作视频帧序列按照所述分类得分值从高到低排序，并将排序后得到的前m帧图像作为所述关键信息图像，m为自然数。

示例性地，关键信息图像的选择可以基于第一神经网络(例如RGB图选择网络)来实施。例如，第一神经网络可以对步骤S210所获取的视频帧中的每一帧实施简单的分类识别，输出分类得分向量，该分类得分向量中的每个元素即为该第一神经网络能够分类的各类别的得分值。得分值较高的类别则可能是该帧中行为动作的类别。其中，所述类别可以包括待预测的行为动作的类别。

在一个示例中，对于每一帧，可以将第一神经网络输出的分类得分向量中得分值最高的类别的值作为该帧的分类得分值，然后根据该分类得分值从高到低的顺序将步骤S210所获取的视频帧进行排序，取前m帧图像作为关键信息图像。在另一个示例中，对于每一帧，可以将第一神经网络输出的分类得分向量中各类别得分值之间的方差作为该帧的分类得分值，然后根据该分类得分值从高到低的顺序将步骤S210所获取的视频帧进行排序，取前m帧图像作为关键信息图像。在这两个示例中，分类得分值越高表示该帧的信息越具有区分性。其中，m的取值可以根据实际需要而定。示例性地，m的取值可以为步骤S210中所获取的视频帧的总数的10％。

在一个实施例中，所述关键信息光流的选择可以包括：计算所述部分行为动作视频帧序列中所有连续两帧之间的光流以形成多个堆叠光流；计算所述多个堆叠光流中每个堆叠光流的分类得分值，所述分类得分值为所述每个堆叠光流的分类得分向量中得分值最高的类别的值或者为所述每个堆叠光流的分类得分向量中各类别得分值之间的方差；以及将所述多个堆叠光流按照所述分类得分值从高到低排序，并将排序后得到的前n个堆叠光流作为所述关键信息光流，n为自然数。

示例性地，关键信息光流的选择可以基于第二神经网络(例如光流图选择网络)来实施。例如，可以首先计算步骤S210所获取的视频帧的每连续两帧之间的光流。其中，光流可以表示连续两帧之间的运动场，可分解为水平(x)和竖直(y)两个方向，将其两个方向上的数值分别保存为两个灰度图，可看做是图片的两个通道，即可以将每连续两帧之间的光流分解为水平和竖直两个方向作为两个通道的光流图。连续若干帧光流图按照通道增广的方式堆叠在一起，作为一个堆叠光流。例如，连续p帧光流图堆叠在一起，构成了2p通道的堆叠光流图，作为一个堆叠光流。多个连续p帧的光流图堆叠在一起形成多个堆叠光流，其中p为自然数，例如p可以等于10。可构成多个堆叠光流作为第二神经网络的输入，由第二神经网络对每个堆叠光流实施简单的分类识别，输出分类得分向量，该分类得分向量中的每个元素即为该第二神经网络能够分类的各类别的得分值。得分值较高的类别则可能是该堆叠光流中行为动作的类别。其中，所述类别可以包括待预测的行为动作的类别。

在一个示例中，对于每个堆叠光流，可以将第二神经网络输出的分类得分向量中得分值最高的类别的值作为该堆叠光流的分类得分值，然后根据该分类得分值从高到低的顺序将所述多个堆叠光流进行排序，取前n个堆叠光流作为关键信息光流。在另一个示例中，对于每个堆叠光流，可以将第二神经网络输出的分类得分向量中各类别得分值之间的方差作为该堆叠光流的分类得分值，然后根据该分类得分值从高到低的顺序将所述多个堆叠光流进行排序，取前n个堆叠光流作为关键信息光流。在这两个示例中，分类得分值越高表示该堆叠光流的信息越具有区分性。其中，n的取值可以根据实际需要而定。

在一个实施例中，前述的第一神经网络(例如RGB图选择网络)和前述的第二神经网络(例如光流图选择网络)可以具有相同的网络结构且均为小型神经网络。此外，前述的第一神经网络和前述的第二神经网络可以构成一个卷积神经网络(例如称为S-net)，该卷积神经网络为双路卷积神经网络，一路输入视频帧经由前述的第一神经网络处理得到关键信息图像，另一路输入堆叠光流经由前述的第二神经网络处理得到关键信息光流，正如图3所示的。

基于步骤S220所选择的关键信息帧，可基于该关键信息帧进行行为预测，正如下面将描述的步骤所述的。

在步骤S230，基于所述关键信息帧预测所述行为动作的类别。

在一个实施例中，当关键信息帧仅包括关键信息图像时，可以通过对关键信息图像进行分析识别得到行为动作的预测结果。例如，可以基于第三神经网络(例如RGB图预测网络)来实施对关键信息图像的分析识别。例如，第三神经网络可以对步骤S220所选择的关键信息图像实施精确的分类识别，输出分类得分向量，该分类得分向量中的每个元素即为该第三神经网络能够分类的各类别的得分值，可将得分值最高的类别作为最终得到的行为动作的类别的预测结果。

在另一个实施例中，当关键信息帧仅包括关键信息光流时，可以通过对关键信息光流进行分析识别得到行为动作的预测结果。例如，可以基于第四神经网络(例如光流图预测网络)来实施对关键信息光流的分析识别。例如，第四神经网络可以对步骤S220所选择的关键信息光流实施精确的分类识别，输出分类得分向量，该分类得分向量中的每个元素即为该第四神经网络能够分类的各类别的得分值，可将得分值最高的类别作为最终得到的行为动作的类别的预测结果。

在又一个实施例中，当关键信息帧同时包括关键信息图像和关键信息光流时，可以基于所述关键信息图像进行分析识别，得到第一预测结果；并基于所述关键信息光流进行分析识别，得到第二预测结果；然后融合所述第一预测结果和所述第二预测结果，以得到行为动作的类别的最终预测结果。

示例性地，对所述第一预测结果和所述第二预测结果进行融合可以包括：将所述第一预测结果和所述第二预测结果按照预定的权重比例进行加权平均。其中，所述第一预测结果和所述第二预测结果的权重比例可以为1:1或1:1.5。可以根据实际需要来设置它们的权重比例。基于对时空域两路预测结果的融合，可以进一步提升行为预测的准确性。

在该实施例中，前述的第三神经网络(例如RGB图预测网络)和前述的第四神经网络(例如光流图预测网络)可以具有相同的网络结构且均为大型神经网络。此外，前述的第三神经网络和前述的第四神经网络可以构成一个卷积神经网络(例如称为R-net)，该卷积神经网络为双路卷积神经网络，一路输入关键信息图像经由前述的第三神经网络处理得到第一预测结果，另一路输入关键信息光流经由前述的第四神经网络处理得到第二预测结果。第一预测结果和第二预测结果进行融合后即得到行为动作的最终预测结果，正如图3所示的。

现在，可结合图4整体描述根据本发明实施例的行为预测方法的流程并体会本发明实施例的行为预测方法的行为预测效果。如图4所示，体现打高尔夫球这套完整的行为动作的应该是图4左下角示出的完整动作视频，但基于本发明的方法，可无需得到该完整动作视频的全部而预测到打高尔夫球的行为。例如，仅获取前10％的视频帧，如图4左上方示出的部分视频帧，其仅示出部分行为动作，通过前述的S-net可选择关键信息帧，然后再把该关键信息帧作为R-net的输入，经由R-net的识别，可得到预测结果是打高尔夫球，很明显，该预测结果是准确的。

基于上面的描述，根据本发明实施例的行为预测方法可在仅观测到行为动作的部分视频时通过提取关键信息帧来预测行为动作的类别，极大地提升了当观测到的视频在整个行为动作中占比很低时对该行为动作的预测的准确率。

以上示例性地描述了根据本发明实施例的行为预测方法。示例性地，根据本发明实施例的行为预测方法可以在具有存储器和处理器的设备、装置或者***中实现。

此外，根据本发明实施例的行为预测方法可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地，根据本发明实施例的行为预测方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的行为预测方法还可以分布地部署在服务器端(或云端)和个人终端处。

下面结合图5描述本发明另一方面提供的行为预测装置。图5示出了根据本发明实施例的行为预测装置500的示意性框图。

如图5所示，根据本发明实施例的行为预测装置500包括获取模块510、选择模块520和预测模块530。所述各个模块可分别执行上文中结合图2描述的行为预测方法的各个步骤/功能。以下仅对行为预测装置500的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块510用于获取部分行为动作视频帧序列，所述部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部。选择模块520用于从所述部分行为动作视频帧序列中选择关键信息帧，所述关键信息帧在所述部分行为动作视频帧序列中具有显著区分性。预测模块530用于基于所述关键信息帧预测所述行为动作的类别。获取模块510、选择模块520和预测模块530均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

一个完整的行为动作从发生到结束会持续一段时间，传统的行为识别方案需要分析整个动作持续时间内的所有帧，这样就使得算法具有滞后性，难以应用在实时性要求较强的场景下。在本发明的实施例的行为预测方案中，无需等待整个行为结束，在获取部分行为动作视频帧序列时，即可实现对该行为动作的预测。例如，所述的部分行为动作视频帧序列可以为行为动作最开始的一部分视频。再如，所述的部分行为动作视频帧序列可以为完整的行为动作所包括的所有帧的前10％、前15％的帧等等。总体上，获取模块510所获取的部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部。在一个示例中，所述的部分行为动作视频帧序列可以为目前实时观测到的视频帧。在另一个示例中，所述的部分行为动作视频帧序列可以为来自任何源的视频帧。

在本发明的实施例中，选择模块520从获取模块510获取的视频帧中选择的关键信息帧为能够表征该段视频的信息帧，其在所获取的视频帧中与其他帧相比是具有显著区分性的，使得预测模块530能够基于该关键信息帧实施该段视频中行为动作的识别和预测。在一个示例中，选择模块520所选择的关键信息帧可以包括关键信息图像，即空间域的关键信息。空间域的信息可体现行为的外观特征，关注目标和场景。在另一个示例中，选择模块520所选择的关键信息帧可以包括关键信息光流，即时间域的关键信息。时间域的信息可体现行为运动特征，抓取运动上的差异性。在又一个示例中，选择模块520所选择的关键信息帧可以包括关键信息图像和关键信息光流这两者，即同时选择时空域的关键信息，这样可以使得预测模块530后续的行为预测更为准确。

在一个实施例中，选择模块520对所述关键信息图像的选择可以包括：计算所述部分行为动作视频帧序列中每一帧的分类得分值，所述分类得分值为所述每一帧的分类得分向量中得分值最高的类别的值或者为所述每一帧的分类得分向量中各类别得分值之间的方差；以及将所述部分行为动作视频帧序列按照所述分类得分值从高到低排序，并将排序后得到的前m帧图像作为所述关键信息图像，m为自然数。

示例性地，选择模块520对关键信息图像的选择可以基于第一神经网络(例如RGB图选择网络)来实施。例如，第一神经网络可以对获取模块510所获取的视频帧中的每一帧实施简单的分类识别，输出分类得分向量，该分类得分向量中的每个元素即为该第一神经网络能够分类的各类别的得分值。得分值较高的类别则可能是该帧中行为动作的类别。其中，所述类别可以包括待预测的行为动作的类别。

在一个示例中，对于每一帧，选择模块520可以将第一神经网络输出的分类得分向量中得分值最高的类别的值作为该帧的分类得分值，然后根据该分类得分值从高到低的顺序将获取模块510所获取的视频帧进行排序，取前m帧图像作为关键信息图像。在另一个示例中，对于每一帧，选择模块520可以将第一神经网络输出的分类得分向量中各类别得分值之间的方差作为该帧的分类得分值，然后根据该分类得分值从高到低的顺序将获取模块510所获取的视频帧进行排序，取前m帧图像作为关键信息图像。在这两个示例中，分类得分值越高表示该帧的信息越具有区分性。其中，m的取值可以根据实际需要而定。示例性地，m的取值可以为获取模块510所获取的视频帧的总数的10％。

在一个实施例中，选择模块520对所述关键信息光流的选择可以包括：计算所述部分行为动作视频帧序列中所有连续两帧之间的光流以形成多个堆叠光流；计算所述多个堆叠光流中每个堆叠光流的分类得分值，所述分类得分值为所述每个堆叠光流的分类得分向量中得分值最高的类别的值或者为所述每个堆叠光流的分类得分向量中各类别得分值之间的方差；以及将所述多个堆叠光流按照所述分类得分值从高到低排序，并将排序后得到的前n个堆叠光流作为所述关键信息光流，n为自然数。

示例性地，选择模块520对关键信息光流的选择可以基于第二神经网络(例如光流图选择网络)来实施。例如，可以首先计算获取模块510所获取的视频帧的每连续两帧之间的光流。其中，光流可以表示连续两帧之间的运动场，可分解为水平(x)和竖直(y)两个方向，将其两个方向上的数值分别保存为两个灰度图，可看做是图片的两个通道，即可以将每连续两帧之间的光流分解为水平和竖直两个方向作为两个通道的光流图。连续若干帧光流图按照通道增广的方式堆叠在一起，作为一个堆叠光流。例如，连续p帧光流图堆叠在一起，构成了2p通道的堆叠光流图，作为一个堆叠光流。多个连续p帧的光流图堆叠在一起形成多个堆叠光流，其中p为自然数，例如p可以等于10。可构成多个堆叠光流作为第二神经网络的输入，由第二神经网络对每个堆叠光流实施简单的分类识别，输出分类得分向量，该分类得分向量中的每个元素即为该第二神经网络能够分类的各类别的得分值。得分值较高的类别则可能是该堆叠光流中行为动作的类别。其中，所述类别可以包括待预测的行为动作的类别。

在一个示例中，对于每个堆叠光流，选择模块520可以将第二神经网络输出的分类得分向量中得分值最高的类别的值作为该堆叠光流的分类得分值，然后根据该分类得分值从高到低的顺序将所述多个堆叠光流进行排序，取前n个堆叠光流作为关键信息光流。在另一个示例中，对于每个堆叠光流，选择模块520可以将第二神经网络输出的分类得分向量中各类别得分值之间的方差作为该堆叠光流的分类得分值，然后根据该分类得分值从高到低的顺序将所述多个堆叠光流进行排序，取前n个堆叠光流作为关键信息光流。在这两个示例中，分类得分值越高表示该堆叠光流的信息越具有区分性。其中，n的取值可以根据实际需要而定。

在一个实施例中，当关键信息帧仅包括关键信息图像时，预测模块530可以通过对关键信息图像进行分析识别得到行为动作的预测结果。例如，预测模块530可以基于第三神经网络(例如RGB图预测网络)来实施对关键信息图像的分析识别。例如，第三神经网络可以对选择模块520所选择的关键信息图像实施精确的分类识别，输出分类得分向量，该分类得分向量中的每个元素即为该第三神经网络能够分类的各类别的得分值，可将得分值最高的类别作为最终得到的行为动作的类别的预测结果。

在另一个实施例中，当关键信息帧仅包括关键信息光流时，预测模块530可以通过对关键信息光流进行分析识别得到行为动作的预测结果。例如，预测模块530可以基于第四神经网络(例如光流图预测网络)来实施对关键信息光流的分析识别。例如，第四神经网络可以对选择模块520所选择的关键信息光流实施精确的分类识别，输出分类得分向量，该分类得分向量中的每个元素即为该第四神经网络能够分类的各类别的得分值，可将得分值最高的类别作为最终得到的行为动作的类别的预测结果。

在又一个实施例中，当关键信息帧同时包括关键信息图像和关键信息光流时，预测模块530可以基于所述关键信息图像进行分析识别，得到第一预测结果；并基于所述关键信息光流进行分析识别，得到第二预测结果；然后融合所述第一预测结果和所述第二预测结果，以得到行为动作的类别的最终预测结果。

示例性地，预测模块530对所述第一预测结果和所述第二预测结果进行融合可以包括：将所述第一预测结果和所述第二预测结果按照预定的权重比例进行加权平均。其中，所述第一预测结果和所述第二预测结果的权重比例可以为1:1或1:1.5。可以根据实际需要来设置它们的权重比例。基于对时空域两路预测结果的融合，可以进一步提升行为预测的准确性。

基于上面的描述，根据本发明实施例的行为预测装置可在仅观测到行为动作的部分视频时通过提取关键信息帧来预测行为动作的类别，极大地提升了当观测到的视频在整个行为动作中占比很低时对该行为动作的预测的准确率。

图6示出了根据本发明实施例的行为预测***600的示意性框图。行为预测***600包括存储装置610以及处理器620。

其中，存储装置610存储用于实现根据本发明实施例的行为预测方法中的相应步骤的程序代码。处理器620用于运行存储装置610中存储的程序代码，以执行根据本发明实施例的行为预测方法的相应步骤，并且用于实现根据本发明实施例的行为预测装置中的相应模块。此外，行为预测***600还可以包括图像采集装置(未在图6中示出)，其可以用于采集行为动作视频帧。当然，图像采集装置不是必需的，可直接接收来自其他源的行为动作视频帧的输入。

在一个实施例中，在所述程序代码被处理器620运行时使得行为预测***600执行以下步骤：获取部分行为动作视频帧序列，所述部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部；从所述部分行为动作视频帧序列中选择关键信息帧，所述关键信息帧在所述部分行为动作视频帧序列中具有显著区分性；以及基于所述关键信息帧预测所述行为动作的类别。

在一个实施例中，在所述程序代码被处理器620运行时使得行为预测***600执行的对所述关键信息图像的选择包括：计算所述部分行为动作视频帧序列中每一帧的分类得分值，所述分类得分值为所述每一帧的分类得分向量中得分值最高的类别的值或者为所述每一帧的分类得分向量中各类别得分值之间的方差；以及将所述部分行为动作视频帧序列按照所述分类得分值从高到低排序，并将排序后得到的前m帧图像作为所述关键信息图像，m为自然数。

在一个实施例中，在所述程序代码被处理器620运行时使得行为预测***600执行的对所述关键信息光流的选择包括：计算所述部分行为动作视频帧序列中所有连续两帧之间的光流以形成多个堆叠光流；计算所述多个堆叠光流中每个堆叠光流的分类得分值，所述分类得分值为所述每个堆叠光流的分类得分向量中得分值最高的类别的值或者为所述每个堆叠光流的分类得分向量中各类别得分值之间的方差；以及将所述多个堆叠光流按照所述分类得分值从高到低排序，并将排序后得到的前n个堆叠光流作为所述关键信息光流，n为自然数。

在一个实施例中，所述类别包括待预测的行为动作的类别。

在一个实施例中，在所述程序代码被处理器620运行时使得行为预测***600执行的对所述关键信息图像的选择是基于第一神经网络来实施的，在所述程序代码被处理器620运行时使得行为预测***600执行的对所述关键信息光流的选择是基于第二神经网络来实施的，所述第一神经网络和所述第二神经网络具有相同的网络结构且均为小型神经网络。

在一个实施例中，在所述程序代码被处理器620运行时使得行为预测***600执行的所述基于所述关键信息帧预测所述行为动作的类别包括：基于所述关键信息图像进行分析识别，得到第一预测结果；基于所述关键信息光流进行分析识别，得到第二预测结果；以及融合所述第一预测结果和所述第二预测结果，以得到所述行为动作的类别的最终预测结果。

在一个实施例中，在所述程序代码被处理器620运行时使得行为预测***600执行的所述融合所述第一预测结果和所述第二预测结果包括：将所述第一预测结果和所述第二预测结果按照预定的权重比例进行加权平均。

在一个实施例中，所述预定的权重比例为1:1或1:1.5。

在一个实施例中，在所述程序代码被处理器620运行时使得行为预测***600执行的所述基于所述关键信息图像进行分析识别是由第三神经网络来实施的，在所述程序代码被处理器620运行时使得行为预测***600执行的所述基于所述关键信息光流进行分析识别是由第四神经网络来实施的，所述第三神经网络和所述第四神经网络具有相同的网络结构且均为大型神经网络。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的行为预测方法的相应步骤，并且用于实现根据本发明实施例的行为预测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的行为预测装置的各个功能模块，并且/或者可以执行根据本发明实施例的行为预测方法。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：获取部分行为动作视频帧序列，所述部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部；从所述部分行为动作视频帧序列中选择关键信息帧，所述关键信息帧在所述部分行为动作视频帧序列中具有显著区分性；以及基于所述关键信息帧预测所述行为动作的类别。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的对所述关键信息图像的选择包括：计算所述部分行为动作视频帧序列中每一帧的分类得分值，所述分类得分值为所述每一帧的分类得分向量中得分值最高的类别的值或者为所述每一帧的分类得分向量中各类别得分值之间的方差；以及将所述部分行为动作视频帧序列按照所述分类得分值从高到低排序，并将排序后得到的前m帧图像作为所述关键信息图像，m为自然数。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的对所述关键信息光流的选择包括：计算所述部分行为动作视频帧序列中所有连续两帧之间的光流以形成多个堆叠光流；计算所述多个堆叠光流中每个堆叠光流的分类得分值，所述分类得分值为所述每个堆叠光流的分类得分向量中得分值最高的类别的值或者为所述每个堆叠光流的分类得分向量中各类别得分值之间的方差；以及将所述多个堆叠光流按照所述分类得分值从高到低排序，并将排序后得到的前n个堆叠光流作为所述关键信息光流，n为自然数。

在一个实施例中，所述类别包括待预测的行为动作的类别。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的对所述关键信息图像的选择是基于第一神经网络来实施的，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的对所述关键信息光流的选择是基于第二神经网络来实施的，所述第一神经网络和所述第二神经网络具有相同的网络结构且均为小型神经网络。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述关键信息帧预测所述行为动作的类别包括：基于所述关键信息图像进行分析识别，得到第一预测结果；基于所述关键信息光流进行分析识别，得到第二预测结果；以及融合所述第一预测结果和所述第二预测结果，以得到所述行为动作的类别的最终预测结果。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述融合所述第一预测结果和所述第二预测结果包括：将所述第一预测结果和所述第二预测结果按照预定的权重比例进行加权平均。

在一个实施例中，所述预定的权重比例为1:1或1:1.5。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述关键信息图像进行分析识别是由第三神经网络来实施的，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述关键信息光流进行分析识别是由第四神经网络来实施的，所述第三神经网络和所述第四神经网络具有相同的网络结构且均为大型神经网络。

根据本发明实施例的行为预测装置中的各模块可以通过根据本发明实施例的行为预测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种行为预测方法，其特征在于，所述行为预测方法包括：

获取部分行为动作视频帧序列，所述部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部；

从所述部分行为动作视频帧序列中选择关键信息帧，所述关键信息帧在所述部分行为动作视频帧序列中具有显著区分性；以及

基于所述关键信息帧预测所述行为动作的类别。

2.根据权利要求1所述的行为预测方法，其特征在于，所述关键信息帧包括关键信息图像和/或关键信息光流。

3.根据权利要求2所述的行为预测方法，其特征在于，所述关键信息图像的选择包括：

计算所述部分行为动作视频帧序列中每一帧的分类得分值，所述分类得分值为所述每一帧的分类得分向量中得分值最高的类别的值或者为所述每一帧的分类得分向量中各类别得分值之间的方差；以及

将所述部分行为动作视频帧序列按照所述分类得分值从高到低排序，并将排序后得到的前m帧图像作为所述关键信息图像，m为自然数。

4.根据权利要求2所述的行为预测方法，其特征在于，所述关键信息光流的选择包括：

计算所述部分行为动作视频帧序列中所有连续两帧之间的光流以形成多个堆叠光流；

计算所述多个堆叠光流中每个堆叠光流的分类得分值，所述分类得分值为所述每个堆叠光流的分类得分向量中得分值最高的类别的值或者为所述每个堆叠光流的分类得分向量中各类别得分值之间的方差；以及

将所述多个堆叠光流按照所述分类得分值从高到低排序，并将排序后得到的前n个堆叠光流作为所述关键信息光流，n为自然数。

5.根据权利要求3或4所述的行为预测方法，所述类别包括待预测的行为动作的类别。

6.根据权利要求4所述的行为预测方法，其特征在于，所述形成多个堆叠光流包括：

将所述部分行为动作视频帧序列中所有连续两帧之间的光流分别分解为水平和竖直两个方向作为两个通道的光流图；以及

将所述部分行为动作视频帧序列中任意连续p帧的光流图堆叠在一起构成2p个通道的堆叠光流图作为一个堆叠光流，多个连续p帧的光流图堆叠在一起形成所述多个堆叠光流，其中p为自然数。

7.根据权利要求3或4所述的行为预测方法，其特征在于，所述关键信息图像的选择是基于第一神经网络来实施的，所述关键信息光流的选择是基于第二神经网络来实施的，所述第一神经网络和所述第二神经网络具有相同的网络结构且均为小型神经网络。

8.根据权利要求2所述的行为预测方法，其特征在于，所述基于所述关键信息帧预测所述行为动作的类别包括：

基于所述关键信息图像进行分析识别，得到第一预测结果；

基于所述关键信息光流进行分析识别，得到第二预测结果；以及

融合所述第一预测结果和所述第二预测结果，以得到所述行为动作的类别的最终预测结果。

9.根据权利要求8所述的行为预测方法，其特征在于，所述融合所述第一预测结果和所述第二预测结果包括：

将所述第一预测结果和所述第二预测结果按照预定的权重比例进行加权平均。

10.根据权利要求9所述的行为预测方法，其特征在于，所述预定的权重比例为1:1或1:1.5。

11.根据权利要求8所述的行为预测方法，其特征在于，所述基于所述关键信息图像进行分析识别是由第三神经网络来实施的，所述基于所述关键信息光流进行分析识别是由第四神经网络来实施的，所述第三神经网络和所述第四神经网络具有相同的网格结构且均为大型神经网络。

12.一种行为预测装置，其特征在于，所述行为预测装置包括：

获取模块，用于获取部分行为动作视频帧序列，所述部分行为动作视频帧序列仅体现行为动作的部分而未体现所述行为动作的全部；

选择模块，用于从所述部分行为动作视频帧序列中选择关键信息帧，所述关键信息帧在所述部分行为动作视频帧序列中具有显著区分性；以及

预测模块，用于基于所述关键信息帧预测所述行为动作的类别。

13.一种行为预测***，其特征在于，所述行为预测***包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-11中的任一项所述的行为预测方法。

14.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-11中的任一项所述的行为预测方法。