CN113487247B

CN113487247B - 数字化生产管理***、视频处理方法、设备及存储介质

Info

Publication number: CN113487247B
Application number: CN202111039654.1A
Authority: CN
Inventors: 方无迪; 任文婷; 孙熠; 孙凯
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2022-02-01
Anticipated expiration: 2041-09-06
Also published as: CN113487247A

Abstract

本申请实施例提供一种数字化生产管理***、视频处理方法、设备及存储介质。在本申请实施例中，数字化生产管理***包括中心管控节点、边缘网关节点以及部署在生产环境中的图像采集设备和各生产线上的生产设备。其中，图像采集设备可以对生产环境中的生产行为进行视频采集，并通过边缘网关节点将采集到的视频流上报给中心管控节点进行事件识别。其中，中心管控节点在事件识别处理过程中，融入了能够考虑历史视频帧中特征信息的因果卷积处理，使得能够以当前视频帧为输入进行事件识别，既可以提高视频流实时分析能力，又能实现对长时动作的兼顾；而且在事件识别过程中，同时结合瞬时状态和长时动作进行事件识别，提高了事件识别的准确度。

Description

数字化生产管理***、视频处理方法、设备及存储介质

技术领域

本申请涉及智能制造技术领域，尤其涉及一种数字化生产管理***、视频处理方法、设备及存储介质。

背景技术

随着云计算、物联网、人工智能等技术的不断发展，涌现出越来越多的数字化工厂。数字化工厂能够实现产品从原料采购、产品设计以及生产加工等全生产链条的数据化处理；还能够按照柔性制造模式进行生产制造。在柔性制造模式下，数字化工厂以消费者需求为核心，重构传统以产定销的生产模式，实现按需智造。

在数字化生产过程中，难免发生一些异常事件。例如在服装制造行业中，吊挂设备可能停转、裁片可能从吊挂设备上掉落等，这些异常事件可能会对数字化生产过程造成不利影响，因此需要一种能够及时了解生产过程中出现的异常事件的解决方案。

发明内容

本申请的多个方面提供一种数字化生产管理***、视频处理方法、设备及存储介质，用以能够及时且准确地识别生产过程中出现的一些事件。

本申请实施例提供一种数字化生产管理***，包括：中心管控节点、边缘网关节点以及部署在生产环境中的图像采集设备和各生产线上的生产设备；

图像采集设备，用于采集生产环境中产生的包含生产行为的视频流，并经边缘网关节点将视频流上报给中心管控节点，视频流包括连续的视频帧；

中心管控节点，用于针对接收到的当前视频帧，基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签；根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，得到事件识别结果；经边缘网关节点将事件识别结果发送给对应的生产设备；

生产设备，用于接收事件识别结果，并输出事件识别结果；事件识别结果中包括生产过程中是否发生指定事件。

本申请实施例提供还一种视频处理方法，包括：

接收当前视频帧，基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签；

根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，以得到事件识别结果；

其中，事件识别结果中包括是否发生指定事件。

本申请实施例提供还一种视频处理设备，包括：存储器和处理器；

存储器，用于存储计算机程序；

处理器耦合至存储器，用于执行计算机程序以用于执行视频处理方法中的步骤。

本申请实施例提供还一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器实现视频处理方法中的步骤。

在本申请实施例中，数字化生产管理***包括中心管控节点、边缘网关节点以及部署在生产环境中的图像采集设备和各生产线上的生产设备。其中，图像采集设备可以对生产环境中产生的生产行为进行视频采集，并通过边缘网关节点将采集到的视频流上报给中心管控节点进行事件识别。其中，中心管控节点在事件识别处理过程中，融入了能够考虑历史视频帧中特征信息的因果卷积处理，使得能够以当前视频帧为输入进行事件识别，既可以提高视频流实时分析能力，又能实现对长时动作的兼顾；而且在事件识别过程中，不仅考虑长时动作还考虑了瞬时状态，可同时结合瞬时状态和长时动作进行事件识别，有利于提高事件识别的准确度，事件识别结果更加可靠。当然，基于更加准确可靠的事件识别结果，还能够帮助数字化工厂优化对生产环境的生产现场管理，改善生产效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例提供的一种数字化生产管理***的结构示意图；

图2为本申请一示例性实施例提供的一种因果卷积网络的结构示意图；

图3为本申请一示例性实施例提供的一种状态-动作识别模型的结构示意图；

图4为本申请一示例性实施例提供的一种基于状态-动作识别模型和事件决策模型进行事件识别的整体过程示意图；

图5为本申请一示例性实施例提供的事件决策模型进行事件识别的过程示意图；

图6为本申请一示例性实施例提供的一种对样本标注动作标签和状态标签的示意图；

图7为本申请一示例性实施例提供的一种视频处理方法的流程示意图；

图8为本申请一示例性实施例提供的一种视频处理装置的结构示意图；

图9为本申请一示例性实施例提供的一种视频处理设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在数字化工厂的日常生产现场管理中，需要及时了解生产过程中出现的一些事件，例如异常事件。为此，本申请实施例提供一种数字化生产管理***，包括中心管控节点、边缘网关节点以及部署在生产环境中的图像采集设备和各生产线上的生产设备。其中，图像采集设备可以对生产环境中的生产行为进行视频采集，并通过边缘网关节点将采集到的视频流上报给中心管控节点进行事件识别。其中，中心管控节点在事件识别处理过程中，融入了能够考虑历史视频帧中特征信息的因果卷积处理，使得能够以当前视频帧为输入进行事件识别，既可以提高视频流实时分析能力，又能实现对长时动作的兼顾；而且在事件识别过程中，不仅考虑长时动作还考虑了瞬时状态，可同时结合瞬时状态和长时动作进行事件识别，有利于提高事件识别的准确度，事件识别结果更加可靠。当然，基于更加准确可靠的事件识别结果，还能够帮助数字化工厂优化对生产环境的生产现场管理，改善生产效率。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请一示例性实施例提供的一种数字化生产管理***的结构示意图。如图1所示，该***包括：中心管控节点10、边缘网关节点20以及部署在生产环境中的图像采集设备30和各生产线上的生产设备40。其中，中心管控节点10可以通过有线网络、或者无线网络与边缘网关节点20通信连接。边缘网关节点20也可以通过有线网络、或者无线网络分别与图像采集设备30和生产设备40通信连接。例如，有线网络可以包括同轴电缆、双绞线和光纤等，无线网络可以是2G网络、3G网络、4G网络或者5G网络、无线保真(WirelessFidelity，简称WIFI)网络等，本申请对此不做限制。

在本申请实施例中，中心管控节点10位于云端，例如部署在中心云或者传统的数据中心中，在实现形态上可以是云服务器、服务器阵列或虚拟机等。

在本申请实施例中，边缘网关节点20是部署在生产环境中能够进行数据转发和处理的网关设备。其中，边缘网关节点20可以部署在边缘集群中，边缘集群部署在靠近物或数据源头的一侧，例如部署在数据化工厂内部或靠近数据化工厂的其它位置，采用网络、计算、存储以及应用核心能力为一体的开放平台，就近提供各种数据分析处理服务。边缘网关节点20可以在无需联网的情况实现设备的本地联动以及数据处理分析，还可以有效分担云端（例如中心管控节点）负荷。

在本申请实施例中，图像采集设备30可以是任意具有图像采集功能的设备。例如，从传感器的结构特性来看，本实施例的图像采集设备30可以采用面阵相机或线阵相机。又例如，从相机所支持的画面分辨率来看，本实施例的图像采集设备30可以采用标清相机或高清相机。又例如，从所支持的信号类型来看，本实施例的图像采集设备30可以采用模拟摄像机或数字摄像机。又例如，从相机包括的摄像头的个数来看，本实施例的图像采集设备30可以采用单目摄像头或双目摄像头。

考虑到线阵相机容易导致成像光线不均匀，且采集到的图像中间亮、两边较暗的情形，需要对采集到的图像进行亮度调整，而亮度预调整过程会加重图像噪声，于是，在本申请的上述或下述实施例中，优选地，图像采集设备30可以选用成像光线相对均匀的面阵相机，但并不限于此。

另外，考虑到图像清晰度与事件识别结果的检测精度息息相关，于是，在本申请的上述或下述实施例中，优选地，图像采集设备30可以选用分辨率为1280×720的HD 720P的高清摄像头，或者分辨率为1280×960的HD 960P的高清摄像头，但并不限于此。

在本申请实施例中，生产设备40是指部署在生产环境中生产产品的设备。生产环境是指产品生产场所，例如为生产工厂。通常，生产工厂部署有多条生产线，生产线上可以部署多个工作站，如图1所示，每个工作站上部署有生产设备40和生产人员。因生产设备40负责的生产工序不同，生产设备40的实现形态会有所不同，同样地，生产设备40生产的产品的形态可以是半成品或成品。应理解，半成品是指尚需要按照整个生产过程中剩余的生产工序继续加工的产品，成品是指按照整个生产过程所涉及的全部生产工序加工出来的产品。例如，一件衣服从面料到成衣的整个生产过程中，通常会涉及验布、裁剪、印花、缝制、整烫等多个生产工序，相应地，生产设备40包括负责验布工序的验布机、负责裁剪工序的裁剪机、负责印花工序的印花机、负责缝制工序的缝纫机以及负责整烫工序的熨烫机。以整烫是整个生产过程的最后一个生产工序为例，熨烫机熨烫完的衣服为成衣，也即成品，验布机、裁剪机、印花机以及缝纫机等加工完的衣服为半成品。

在本申请实施例中，中心管控节点10可以提供各种服务，例如，对生产环境的视频流进行分析处理，基于分析结果优化生产环境的生产现场管理，以改善生产效率。例如，对生产环境的视频流进行分析处理，基于分析结果优化生产环境的质量管控，以改善生产产品的质量。又例如，对生产环境的生产状态数据进行大数据分析，并基于大数据分析结果优化生产环境的生产排程，以改善生产效率。又例如，还可以结合生产现场数据以及排产结果数据，对生产环境中的各种设备、人员等资源进行合理地资源调度，以提高资源利用率，改善生产效率。应理解，中心管控节点10可以根据实际应用需求提供其它相匹配的服务。

在本申请实施例中，生产环境中可以部署一个或多个图像采集设备30，在图1中，以生产环境中部署多个图像采集设备30为例进行图示。图像采集设备30用于采集生产环境中产生的包含生产行为的视频流，并经边缘网关节点20将视频流上报给中心管控节点10，视频流包括连续的视频帧。其中，图像采集设备30可以实时将采集到的视频流经边缘网关节点20将视频流上报给中心管控节点10，也可以周期性地将采集到的视频流经边缘网关节点20将视频流上报给中心管控节点10。

其中，生产行为可以是指生产环境中的人、机器、物料或生产线等目标对象产生的行为。其中，人包括但不限于生产人员或管理人员。机器包括但不限于生产设备40、工具、工位器具、工装夹具。物料包括但不限于原材料或辅料。

值得注意的是，目标对象以及目标对象的生产行为根据具体生产场景进行定义。为了便于理解，以图1所示的吊挂线、衣物以及生产人员等为目标对象为例进行说明。吊挂线的生产行为例如为吊挂线是否在正常转动。衣物的生产行为包括但不限于：衣物是否挂在吊挂线上、衣物是否位于生产设备40的台面上或者衣物是否掉落在地面上。生产人员的生产行为包括但不限于：生产人员是否在工作站上进行生产作业、生产人员是否在走动、生产人员是否按照生产工序要求进行生产作业等。吊挂线的生产行为包括但不限于：吊挂线是否正常运行、吊挂线位于工作站上，吊挂线是否处于悬停状态等。

中心管控节点10接收到边缘网关节点20发送的由图像采集设备30采集的视频流之后，以单帧视频帧为粒度，结合因果卷积神经网络同时从瞬时状态和长时动作两个维度对生产行为中的事件进行识别，这能够实时分析时间跨度大且重复度较高的大规模视频流，准确地识别是否发生指定事件。关于中心管控节点10以单帧视频帧为粒度结合因果卷积神经网络同时从瞬时状态和长时动作两个维度对生产行为中的事件进行识别的过程介绍详见后文。

其中，瞬时状态可以理解为生产环境中目标对象发生的短时生产行为，长时动作可以理解为生产环境中目标对象发生的长时生产行为。在一定程度上，瞬时状态可以通过目标对象在短时间内的动作姿态进行识别。长时动作可以通过目标对象在长时间内的多个动作姿态进行识别。

例如，服装智造行业在印花工序中，需要依靠吊挂线将需要印花的裁片运输到印花机所在区域供印花机进行印花。此时，生产现场管理需要关注的目标对象可以有吊挂线、裁片、生产人员以及印花机。吊挂线的瞬时状态包括吊挂线在转动或吊挂线停止转动。吊挂线的长时动作（通过多个时刻的吊挂线的瞬时状态进行识别）包括吊挂线一直在转动、吊挂线先转动片刻后一直停止转动或者吊挂线一直停止转动。裁片的瞬时状态包括裁片在吊挂线上挂着或者裁片在地面上。裁片的长时动作（通过多个时刻的裁片的瞬时状态进行识别）包括裁片在吊挂线上一直挂着或者裁片从吊挂线掉落到地面上。生产人员的瞬时状态包括生产人员在印花机侧执行印花操作或者生产人员不在印花机侧执行印花操作。生产人员的长时动作（通过多个时刻的生产人员的瞬时状态进行识别）包括生产人员一直停留在印花机侧、生产人员一直没有停留在印花机侧、生产人员先停留在印花机侧后又没有停留在印花机侧。印花机的瞬时状态包括印花机在对裁片进行印花、印花机没有对裁片进行印花。印花机的长时动作包括印花机一直对裁片进行印花、印花机一直没有对裁片进行印花、印花机先对裁片进行印花后又没有对裁片进行印花。

进一步可选的，如图1所示，中心管控节点10经边缘网关节点20将事件识别结果发送给对应的生产设备40。生产设备40接收事件识别结果，并输出事件识别结果。其中，事件识别结果中包括生产过程中是否发生指定事件。其中，指定事件根据实际应用需求灵活设置。指定事件是指生产现场管理中需要关注的事件，可以是一个事件，也可以是多个事件。

进一步可选地，在本申请实施例中，还可以根据应用需求对指定事件进行分类，并通过指定事件的事件类别来标识一个指定事件所属的类别。可选地，可以根据事件在生产过程中发挥的作用属性，将指定事件区分为正常事件和异常事件。可选地，可以从指定事件关联的目标对象的维度对指定事件进行分类，或者，也可以从指定事件的发生时间的维度对指定事件进行分类。以基于指定事件关联的目标对象对指定事件进行分类为例，衣物S从吊挂线上异常掉落的事件、衣物S从工作站A被运输到工作站B的事件，以及衣物S被生产人员用剪刀裁剪的事件，均属于衣物S对应的事件类别；相应地，生产工具镊子P处于工作站的台面上的事件，镊子P掉落到地上的事件，镊子P被生产人员使用的事件，均属于镊子P对应的事件类别。以基于指定事件的发生时间对指定事件分类为例，在同一时段内发生的衣服从吊挂线上异常掉落事件，衣物从工作站A被运输到工作站B的事件，以及镊子P被生产人员使用的事件，均属于该时间段对应的同一事件类别。基于此，事件识别结果中除了包括生产过程中是否发生指定事件这一信息之外，还可以包括在发生指定事件时指定事件所属的事件类别。

进一步可选的，在生产环境中发生指定事件的情况下，中心管控节点10将事件识别结果输出至生产环境中与指定事件适配的生产设备40；生产设备40还用于：将事件识别结果显示在其显示屏幕上，以提供给相应生产人员。其中，生产人员根据事件识别结果可以获知工厂中是否存在或出现了哪些异常事件，以便于进行及时处理或调整。例如，若发生吊挂线悬停事件，则生产人员可以及时对生产线进行故障排查；又例如，若发生衣物从吊挂线上异常跌落事件，需要及时将跌落的衣物收回，并对衣物进行质量检查，同时也可以对吊挂线上用于悬挂该衣物的挂载部件进行状态检查；又例如，若发现生产人员长时间离开工位的事件，可以管理人员可以及时联系生产人员了解事情缘由。又例如，若发生印花机在生产时段没有执行印花操作的事件，生产人员或管理人员可以及时排查印花机是否发生故障。或者，生产设备40也可以将事件识别结果给到产线管理人员做异常事件统计报表，根据异常事件统计报表对数字化工厂里面的产线、设备、人员等的管理进行改进，提升数字化工厂异常管理水平。

进一步可选的，如图1所示，数字化生产管理***还包括：用于对待产订单进行排产的排产***50。图1中排产***50用虚线框包围，表明排产***是数字化生产管理***的可选组件。

排产，也即生产排程，是指将生产任务（具体是指待产订单）分配到各生产线的过程。在考虑能力和设备的前提下，在物料数量一定的情况下，安排各生产任务的生产顺序，优化生产顺序，优化选择生产设备40，使得减少等待时间，平衡各生产设备40和生产人员的生产负荷。从而优化产能，提高生产效率，缩短生产周期。

其中，排产***可以提供排产服务，当然，排产***还可以提供数据存储以及数据计算等各种服务。排产***可以是硬件实现也可以是软件实现。当排产***为硬件实现时，该排产***可以包括单个服务器或包括由多个服务器组成的分布式服务器集群。当排产***为软件实现时，可以为多个软件模块或单个软件模块等，并且这些软件模块可以部署在虚拟机、容器、物理机或服务器集群等中，本申请实施例并不限制。

排产***在对待产订单进行排产时，主要承担但不限于以下生产排产任务：针对待产订单要求生产的产品，确定生产待产订单要求生产的产品的生产线；确定生产线可以生产待产订单要求生产的产品的生产时段。

排产***在对待产订单进行排产时，可以采用多种的排产策略对待产订单进行排产以得到排产计划信息。例如，排产策略可以是综合待产订单的交付时间、所需的生产资源、所需的原材料以及所需生产的产品的制造复杂度等订单属性信息对待产订单进行排产。

进一步可选的，中心管控节点10还用于：从事件识别结果中获取生产过程中发生的指定事件；根据生产过程中发生的指定事件，分析设备维度、产线维度、人员维度和/或物料维度上的生产状态数据；根据设备维度、产线维度、人员维度和/或物料维度上的生产状态数据，生成排产引导信息，并将排产引导信息发送给排产***，以引导排产***对待产订单进行排产。其中，设备维度的生产状态数据是指从生产设备40的维度来看哪些生产设备40发生了指定事件以及发生指定事件的频率、时间、类别等数据；产线维度的生产状态数据是指从产线的维度来看哪些生产线发生了指定事件以及发生指定事件的频率、时间、类别等数据；人员维度的生产状态数据是指从人员的维度来看哪些生产人员或管理人员发生了指定事件以及发生指定事件的频率、时间、类别等数据；物料维度的生产状态数据是指从物料的维度来看哪些物料发生了指定事件以及发生指定事件的频率、时间、类别等数据。其中，可以根据这些维度中至少一个维度上的生产状态数据生成排产引导信息。例如，根据设备维度上的生产状态数据，可以生成哪些生产设备40容易发生故障信息作为排产引导信息；又例如，根据物料维度上的生产状态数据，可以生成哪些物料容易发生损坏的信息作为排产引导信息；又例如，根据人员维度上的生产状态数据，可以生成哪些生产人员容易出现生产事故的信息作为排产引导信息；又例如，根据产线维度上的生产状态数据，可以生成哪些生产线的日剩余产能比较大的信息作为排产引导信息；又例如，同时根据设备维度上的和产线维度上的生产状态数据，可以生成包括生产线的日剩余产能以及生产线上哪些生产设备40容易发生故障的信息作为排产引导信息。对于排产***来说，在接收到排产引导信息后，可以根据排产引导信息对待产订单进行排产。例如，在排产引导信息包括生产线的日剩余产能以及生产线上哪些生产设备40容易发生故障的信息的情况下，优先将待产订单安排到日剩余产能较大生产线且生产线上不容易发生故障的生产设备40上生产。又例如，在排产引导信息包括哪些生产人员不容易出现生产事故的信息的情况下，优先将待产订单安排到由不容易出现生产事故的生产人员进行生产。或者，在排产引导信息包括哪些物料容易发生损坏的信息的情况下，对于容易发生损坏的物料，可以采用特殊产线进行处理等等。

在本实施例中，通过生产状态数据反馈到排产***，实现生产状态数据对排产***的指导，促进排产合理性，提高数字化工厂的整体产能和效率。

在本申请上述或下述实施例中，并不限定中心管控节点10以单个视频帧为输入，采用因果卷积神经网络同时从瞬时状态和长时动作维度进行事件识别的具体实施方式。下面对中心管控节点10以单个视频帧为输入，采用因果卷积神经网络同时从瞬时状态和长时动作维度进行事件识别的一种实施方式进行详细介绍。

具体地，中心管控节点10在接收到图像采集设备30发送的包括连续的视频帧的视频流时，针对接收到的当前视频帧，基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签；根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，得到事件识别结果。

在本申请实施例中，因果卷积（Causal Convolutions）神经网络主要承担但不限于对单帧视频帧进行瞬时状态和长时动作识别。因果卷积神经网络的网络结构中至少包括一个因果卷积层，至于因果卷积神经网络的具体网络结构可以根据实际应用需求灵活设置，本申请对此不做限制。

另外，本申请实施例对因果卷积层的网络结构也不做限制。参见图2示出的一种因果卷积层，该因果卷积层包括一个输入层（Input）、多个隐藏层（Hidden Layer）和一个输出层（Output）。值得注意的是，可以因果卷积层处理序列问题(Sequence Modeling)，例如处理一段视频/音频，往往会沿着时间方向（时序）进行操作。因果卷积层在处理序列问题时，通过学习t-1时刻之前的输入数据并结合当前时刻即t时刻的输入数据，来共同决策t时刻的输出数据，也即t时刻的输出数据除了依赖t时刻的输入数据，还会依赖一个或多个历史时刻（如1，2，…，t-1时刻）的输入数据。

假设给定输入序列x ₀、x ₁、……x _T，根据输入序列x ₀、x ₁、……x _T分别输出y ₀、y ₁、……y _T。其中，在输出y _t时依靠观测得到的x ₀、x ₁、……x _t，t和T为正整数，t∈T。因此，由于因果卷积层从当前时刻的输入数据开始处理，并追溯历史时刻的输入数据，并不考虑未来时刻的输入数据，所以因果卷积层具有单边倾斜式特点。

值得注意的是，在事件识别处理过程中，融入了能够考虑历史视频帧中特征信息的因果卷积处理，使得能够以当前视频帧为输入进行事件识别，既可以提高视频流实时分析能力，又能实现对长时动作的兼顾；而且在事件识别过程中，不仅考虑长时动作还考虑了瞬时状态，可同时结合瞬时状态和长时动作进行事件识别，有利于提高事件识别的准确度，事件识别结果更加可靠。

应理解，长时动作的时间跨度大，瞬时状态可以帮助监督长时动作，生产行为的瞬时状态和长时动作丰富了事件决策的信息，能够帮助提高事件识别的准确度。另外，中心管控节点无需输入大量的视频帧，只需输入单帧视频帧，并结合少量的历史视频帧便可实现生产行为的瞬时状态和长时动作的多维度识别，减少了因处理大量视频帧带来的计算资源的消耗，提高了事件识别整体效率。

进一步可选的，可以在中心管控节点部署一个训练好的状态-动作识别模型，该状态-动作识别模型可以包括因果卷积神经网络、状态识别网络和动作识别网络，其中，状态-动作识别模型的训练过程详见后文介绍。具体应用时，可以将视频流中待识别的当前视频帧输入至因果卷积神经网络中，因果卷积神经网络分别输出当前视频帧中的反映瞬时状态的第一特征信息和反映长时动作的第二特征信息；将第一特征信息输入至状态识别网络中进行瞬时状态识别，得到当前视频帧中的状态标签；将第二特征信息输入至动作识别网络中进行长时动作识别，得到当前视频帧中的动作标签。

于是，在本申请的上述或下述实施例中，基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签的一种实施过程是：将当前视频帧输入状态-动作识别模型，在状态-动作识别模型内部，对当前视频帧进行K次卷积处理，得到第N次卷积处理输出的第一特征信息和第K次卷积处理输出的第二特征信息；根据第一特征信息识别当前视频帧中的状态标签，并根据第二特征信息识别当前视频帧中的动作标签；其中，K、N是正整数，1≤N＜K，K≥2，且第N次卷积处理之后存在至少一次因果卷积处理。

具体而言，因果卷积神经网络共包括K个卷积层，其中，K个卷积层中包括一个或多个因果卷积层，当然，K个卷积层还可以包括一个或多个空间卷积（Spatial convolution）层。值得注意的是，空间卷积层为2D卷积层（也即二维卷积层），2D卷积层的卷积核（k_t,k_w,k_h）中的k_t=1。因果卷积层是一种3D时空卷积层（也即三维时空卷积层），3D时空卷积层的卷积核（k_t,k_w,k_h）中的k_t>1。其中，k_t为时间维度上的卷积核尺寸、k_w和k_h为空间维度上的卷积核尺寸。其中，k_t=1说明在做卷积处理时，只考虑当前视频帧。k_t>1说明在做卷积处理时，考虑当前视频帧并追溯至少一个历史视频帧，其中，历史视频帧的帧数为k_t-1。另外，k_t的数值越大，时间感受野越大。例如，k_t=1的时间感受野覆盖当前时刻；k_t=3的时间感受野覆盖当前时刻以及早于当前时刻的前两个时刻；k_t=5的时间感受野覆盖当前时刻以及早于当前时刻的前四个时刻；也即k_t=5的时间感受野大于k_t=3的时间感受野；k_t=3的时间感受野大于k_t=1的时间感受野。

值得注意的是，反映瞬时状态的第一特征信息是因果卷积神经网络输出的中层特征，反映长时动作的第二特征信息是因果卷积神经网络输出的高层特征，且高层特征至少是基于对中层特征进行至少一次因果卷积处理得到的。

具体应用时，可以灵活设置因果卷积神经网络中的空间卷积层和因果卷积层的布局。例如，在因果卷积神经网络中，按照层次从低到高的顺序，依次设置空间卷积层和因果卷积层。在一具体实施例中，前N个卷积层均为空间卷积层，对当前视频帧进行N次空间卷积，得到第一特征信息；后面K-N个卷积层均为因果卷积层，对第一特征信息进行K次因果卷积，得到第二特征信息。又例如，在因果卷积神经网络中，前N个卷积层中可以包括N1个空间卷积层和N2个因果卷积层，N1、N2是≥0的自然数，且N1+N2=N。也即，在N1和N2均不为0的情况下，前N个卷积层中同时包括空间卷积层和因果卷积层。在N1为0，N2不为0的情况下，前N个卷积层只包括因果卷积层。在N1不为0，N2为0的情况下，前N个卷积层只包括空间卷积层。

另外，在第N个卷积层到第K个卷积层之间的K-N个卷积层中，至少需要包括一个因果卷积层，可以包括空间卷积层，也可以不包括空间卷积层。假设K-N个卷积层中的空间卷积层的个数记为L1，因果卷积层的个数记为L2，L1是≥0的自然数，L2是正整数，且L1+L2+N=K。例如，L1等于0时，第K-N个卷积层中不包括空间卷积层。在L1不等于0时，第K-N个卷积层中包括空间卷积层。

基于上述，在本申请一可选实施例中，对当前视频帧进行K次卷积处理，得到第N次卷积处理输出的第一特征信息和第K次卷积处理输出的第二特征信息的一种实施过程是：对当前视频帧进行N1次空间卷积处理和N2次因果卷积处理，得到第一特征信息；对第一特征信息进行L1次空间卷积处理和L2次因果卷积处理，得到第二特征信息。

进一步可选的，在设置因果卷积神经网络的前N个卷积层时，为了让空间卷积层和因果卷积层的个数更加均衡，可以交替设置空间卷积层和因果卷积层。具体的，N1=N2=N/2，则对当前视频帧进行N1次空间卷积处理和N2次因果卷积处理，得到第一特征信息的一种实施过程是：对当前视频帧交替进行N/2次空间卷积处理和因果卷积处理，得到第一特征信息。例如，N=4。则前N个卷积层依次为空间卷积层、因果卷积层、空间卷积层以及因果卷积层；或者，前N个卷积层依次为因果卷积层、空间卷积层、因果卷积层以及空间卷积层。

进一步可选的，在设置位于前N个卷积层之后的K-N个卷积层时，为了让空间卷积层和因果卷积层的个数更加均衡，可以交替设置空间卷积层和因果卷积层。具体的，L1=L2=（K-N）/2，则对第一特征信息进行L1次空间卷积处理和L2次因果卷积处理，得到第二特征信息的一种实施过程是：对第一特征信息交替进行（K-N）/2次空间卷积处理和因果卷积处理，得到第二特征信息。例如，N=4，K=10，位于前N个卷积层之后的6个卷积层依次是空间卷积层、因果卷积层、空间卷积层、因果卷积层、空间卷积层以及因果卷积层；或者，位于前N个卷积层之后的6个卷积层依次是因果卷积层、空间卷积层、因果卷积层、空间卷积层、因果卷积层以及空间卷积层。

在本申请的上述或下述实施例中，针对每次的因果卷积处理，从该次因果卷积处理对应的特征缓存队列中，获取多个历史视频帧在前一次卷积处理中得到的特征信息作为多个历史中间特征信息；将当前视频帧在前一次卷积处理中得到的特征信息作为当前中间特征信息，对当前中间特征信息和多个历史中间特征信息进行因果卷积处理，得到该次因果卷积处理输出的特征信息。需要说明的是，若该次因果卷积处理是第N次卷积处理，则该次因果卷积处理输出的特征信息为第一特征信息。若该次因果卷积处理为第K次卷积处理，则该次因果卷积处理输出的特征信息为第二特征信息。

值得注意的是，每个因果卷积层配置有自身的特征缓存队列，该特征缓存队列的队列长度受因果卷积层的卷积核在时间维度上的尺寸的约束，优选地，队列长度等于卷积核在时间维度上的尺寸；当然，该特征缓存队列的长度也可以大于卷积核在时间维度上的尺寸。针对输入至因果卷积神经网络中的任一视频帧，在该视频帧经过一次或多次卷积处理之后，若下一次卷积处理为因果卷积处理，则将该视频帧在前一次卷积处理中得到的特征信息***至下一次因果卷积处理的特征缓存队列中。随着时间推移，下一次因果卷积处理的特征缓存队列中存储的历史视频帧的特征信息越来越多。若特征缓存队列中存储的历史视频帧的特征信息的条数等于队列长度，则按照先进先出原则，先将特征缓存队列的队尾的历史视频帧的特征信息丢弃，再将当前视频帧的特征信息***至特征缓存队列的队头。

为了便于理解，结合图4进行举例说明。在图4中，某个因果卷积层的特征缓存队列的长度为k_t，k_t也是某个因果卷积层的卷积核在时间维度上的尺寸。当前视频帧经过一次或多次卷积处理得到的特征数据***到某个因果卷积层的特征缓存队列的队头，再从特征缓存队列中获取k_t个特征数据进行时空卷积计算（也即因果卷积计算）。需要指出的是，在将当前视频帧经过一次或多次卷积处理得到的特征数据***到某个因果卷积层的特征缓存队列的队头之前，首先判断某个因果卷积层的特征缓存队列是否已满，若某个因果卷积层的特征缓存队列已满，则先丢弃某个因果卷积层的特征缓存队列中队尾的数据，再在将当前视频帧经过一次或多次卷积处理得到的特征数据***到某个因果卷积层的特征缓存队列的队头。当然，若某个因果卷积层的特征缓存队列未满，则直接将当前视频帧经过一次或多次卷积处理得到的特征数据***到某个因果卷积层的特征缓存队列的队头。

值得注意的是，如果因果卷积神经网络的首次卷积处理是因果卷积处理，则将特征缓存队列中的初始值作为多个历史中间特征信息。

进一步可选的，在因果卷积处理的次数≥2的情况下，随着因果卷积处理次数的增多，因果卷积处理使用的卷积核在时间维度上的尺寸逐渐增大，对应的特征缓存队列的长度逐渐增长。应理解，因果卷积处理使用的卷积核在时间维度上的尺寸越大，则因果卷积处理时考虑的历史视频帧越多，模型的感受野越大，越能够提高瞬时状态或长时动作的识别准确度。

在本申请的上述或下述实施例中，在假设动作-状态识别模型中的因果卷积神经网络包括K个卷积层的前提下，可以在第N次卷积处理对应的卷积层连接状态识别网络，在第K次卷积处理对应的卷积层连接动作识别网络。应理解，状态识别网络连接在因果卷积神经网络的中部，状态识别网络的输入参数为因果卷积神经网络的中层特征。动作识别网络连接在因果卷积神经网络的后部，动作识别网络的输入参数为因果卷积神经网络的高层特征。

值得注意的是，输入给状态识别网络的中层特征可以是对当前视频帧如图3中的t₀时刻的视频帧经过空间卷积处理后的特征数据。考虑到运动模糊、物体遮挡、视频编解码损失和时序相关性等因素，输入给状态识别网络的中层特征可以是对当前视频帧和少量的历史视频帧经过空间卷积和因果卷积处理获取的。此时，输入给状态识别网络的中层特征的时间感受野与当前视频帧和少量的历史视频帧相关。如图3所示，输入给状态识别网络的中层特征的时间感受野为图3中的t₀至t_-s时刻，s为正整数，负号表示历史时刻。

另外，输入给动作识别网络的高层特征的时间感受野覆盖的时间段较长。如图3所示，输入给动作识别网络的高层特征的时间感受野为图3中的t₀至t_-l时刻，l为正整数，且l大于s。其中，l和s的取值可根据应用场景灵活设置，对此不做限定。例如，s可以取8，l可以取15。

值得注意的是，由于输入给动作识别网络的高层特征的时间感受野覆盖的时间段较长，可以满足长时动作对时间长度的要求，提高了长时动作的识别准确度。另外，常规的3D卷积视频识别模型识别长时动作时，受限于计算能力的限制，往往只能输入较少帧数的视频帧进行推理。例如，常规的3D卷积视频识别模型只能输入32帧视频帧进行推理，假设帧率(FPS)为4FPS，32帧视频帧对应的时间长度为8秒钟，8秒钟的视频帧难以满足长时动作对时间长度的要求，也即常规的3D卷积视频识别模型对长时动作的识别准确度较低。然而，尽管本申请实施例提供的动作-状态识别模型，单次推理只需使用当前视频帧，但时间感受野受益于因果卷积的堆叠作用，可以覆盖的较长时间段的视频帧，突破了计算算力和输入帧数的限制，提高了长时动作的识别准确度。

在本申请的上述或下述实施例中，根据第一特征信息识别当前视频帧中的状态标签的一种实施过程是：将第一特征信息输入状态识别网络，对第一特征信息进行池化处理，得到第三特征信息，并利用多层感知机对第三特征信息进行分类处理，得到当前视频帧中的状态标签；相应地，根据第二特征信息识别当前视频帧中的动作标签的一种实施过程是：将第二特征信息输入动作识别网络，对第二特征信息进行池化处理，得到第四特征信息，并利用多层感知机对第四特征信息进行分类处理，得到当前视频帧中的动作标签。

具体应用时，参见图3所示，可以在状态识别网络和动作识别网络分别设置池化层和多层感知机（MLP，Multilayer Perceptron）；池化层可以用于压缩数据和参数的量，减小过拟合；多层感知机可以用于分类处理。

在本申请的上述或下述实施例中，参见图4和图5，可以预先训练一个事件决策模型，通过事件决策模型对动作-状态识别模型输出的状态序列和动作序列进行事件识别。于是，根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，以得到事件识别结果的一种实施过程是：将当前视频帧中的状态标签和动作标签，分别与多个历史视频帧中的状态标签和动作标签进行组合，得到状态序列和动作序列；将状态序列和动作序列输入事件决策模型，基于预先学习到的指定事件与状态和动作的对应关系，采用决策算法分析是否存在与状态序列和动作序列对应的指定事件，并在存在的情况下，确定指定事件的事件类别。

在图4和5中，以事件类别为正常事件和异常事件两种类型进行了示意。其中，事件识别结果包括是否发生指定事件，指定事件是正常事件还是异常事件。若指定事件为异常事件，还会进一步判断异常事件属于哪个类型的异常事件。

在本申请实施例中，在组合状态序列或动作序列时，可以根据实际应用需求确定历史视频帧的帧数。进一步可选的，考虑到因果卷积层的特征缓存队列的长度与历史视频帧的帧数息息相关，在确定历史视频帧的帧数时，应该不能超过对应的因果卷积层的特征缓存队列的长度。进一步可选的，可以基于模型识别精度和计算量灵活设置历史视频帧的帧数。其中，状态序列所需的历史视频帧的帧数和状态序列所需的历史视频帧的帧数可以相同，也可以不同。在图5中，以状态序列所需的历史视频帧的帧数和状态序列所需的历史视频帧的帧数相同为例进行了图示。图5中状态序列和动作序列所需的历史视频帧的帧数均为d+1帧，即状态序列是由t₀时刻的视频帧对应的状态标签和早于t₀时刻的d个历史视频帧对应的状态标签组成的，状态序列中包括d+1个状态标签。即动作序列是由t₀时刻的视频帧对应的动作标签和早于t₀时刻的d个历史视频帧对应的动作标签组成的，动作序列中包括d+1个动作标签，d是正整数。

在本申请实施例中，兼顾考虑动作序列和状态序列，可以使得事件识别更具鲁棒性。受益于较大的时间感受野，对长时动作仍具有较好的识别能力；通过状态中层监督，获得相对稳定的中层特征，动作识别对于快速切换的动作仍具备较好的鲁棒性，且动作序列和状态序列的结合利用，使得事件判断更为可靠。受益于因果卷积，使得单次推理仅输入当前帧，使得模型具备视频流实时分析能力，且数据利用与计算更为高效。

本申请实施例对决策算法不做限制。例如决策算法可以是启发规则算法、LSTM(Long Short Term Memory Network，长短时记忆网络)算法或者随机森林算法。其中，启发规则算法例如包括但不限于模拟退火算法、遗传算法、列表搜索算法、进化规划、进化策略、蚁群算法、人工神经网络。

LSTM算法引入输入门（input gate）、遗忘门（forget gate）和输出门（outputgate）等三个控制门控制细胞状态。在t时刻，LSTM的输入参数有三个：当前时刻网络的输入值x_t、上一时刻LSTM的输出值h_t-1、以及上一时刻的细胞状态C_t-1；LSTM的输出结果有两个：当前时刻LSTM输出值h_t和当前时刻的细胞状态C_t。其中，遗忘门控制上一时刻的细胞状态C_t-1有多少信息保留到当前时刻的细胞状态C_t中。输入门（input gate）控制当前时刻网络的输入x_t有多少信息保存到当前时刻的细胞状态Ct中。输出门（output gate）控制细胞状态C_t有多少输出到LSTM的当前输出值h_t中。

在随机森林算法中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林中每棵决策树的建立依赖于一个独立抽取的样本集。具体的，从样本总数为N的原始训练样本集中有放回地重复随机抽取N个样本生成新的n个自助样本集，然后根据n个自助样本集生成n个决策树以组成随机森林。

在本申请实施例中，以随机森林算法为例，在训练事件决策模型时，首先准备样本总数为N的原始训练样本集，N个样本中每个样本标注了状态标签、动作标签以及指定事件及其类别。从N个样本中有放回地重复随机抽取N个样本，生成新的n个自助样本集，每个自助样本集包括N个样本。利用每个自助样本集训练一个子事件决策模型，其中，在训练时，以每个样本的状态标签、动作标签作为模型输入，以每个样本所标注的指定事件及其类别作为模型输出，进行迭代训练，直至损失函数收敛。在构建出n个子事件决策模型之后，便可基于n个子事件决策模型构建事件决策模型。事件决策模型输出的事件识别结果是n个子事件决策模型的事件识别结果中出现次数最多的事件识别结果。例如，事件决策模型包括5个子事件决策模型，其中，3个子事件决策模型输出衣物从吊挂线掉落的事件，2个子事件决策模型输出衣物在吊挂线悬挂的事件，则事件决策模型输出的事件识别结果为衣物从吊挂线掉落的事件。

在本申请的上述或下述实施例中，在模型训练阶段，可以获取已标注动作标签、状态标签和指定事件的样本视频；将样本视频进行切分，得到多个样本片段，利用多个样本片段进行两阶段的模型训练，得到状态-动作识别模型和事件决策模型；在针对当前样本片段进行模型训练时，将对前一样本片段进行模型训练时产生的特征缓存队列、状态队列和动作队列中的值分别作为当前训练过程中相应队列的初始值。

其中，在样本标注阶段，可以对一段长视频同时进行动作与瞬时状态的标注，并确定各个长时动作和瞬时状态的起止时间。针对长时动作，采用单标签多分类（Multi-ClassClassification）模式进行分类，也即一个样本只有一个标签，但是标签的类别数量是多个；针对瞬时状态，采用多标签多分类（Multi-Label Classification）模式进行分类，也即一个样本中多个目标对象都需要打一个标签，一个样本被打上多个标签。例如，图6中长样本1的动作标签包括动作A，即在动作维度上长样本1只打一个标签；长样本1的状态标签包括状态1、状态2以及状态3，即在状态维度上长样本1打了三个标签。

值得注意的是，动作标签维度较为稀疏，仅仅从动作标签进行训练容易出现学习特征不稳定的情况；而状态标签一般是物理意义比较明显、易于学习，使得监督信号较为强烈；联合训练，可使模型获得较好且相对稳定的底层、中层特征表达能力。如果没有增加状态标签，动作标签的维度是比较稀疏，几类几十类，维度比较稀疏，学习的时候特征不够稳定；一个是时间维度上的稀疏，一个是空间维度上，可以标注的对象相对比较稀疏。而状态可标注的对象相对来说是比较丰富的。例如，一个手持剪刀抬起的动作，需要同时包括手、剪刀和抬起等进行标注；另外，状态标注的话，可以单独对手、剪刀分别进行标注，形成不同的状态标签；将动作标签和状态标签进行融合，能够帮助事件识别。

一般情况下，新长时动作的开始意味着会有一个新的瞬时状态，也允许一个长时动作中出现多个瞬时状态变化（比如单次车缝动作可能包含了多次的裁片位置变化）。于是，在样本标注阶段中，也允许较小比例的情况为仅有瞬时状态或长时动作标注，在该情况下模型训练时会设置为未标注的瞬时状态/长时动作不产生相应的反向传播的损失，仅产生相对较近标签的差异损失。

在对原始长视频标注得到样本视频之后，对样本视频进行切分，得到多个样本片段。其中，可以等间隔对样本视频进行切分，得到长度相同的多个样本片段；也可以采用随机切分的方式对样本视频进行切分，得到长度不一的多个样本片段，以增强样本随机性。

针对每个样本片段，对样本片段进行视频抽帧得到多个样本视频帧。在进行视频抽帧时每间隔Δt时间抽取1帧。例如，对样本片段的每5帧中抽取1帧，以得到n帧。理论上n可以是无穷大，一般情况下也确实是越大越好，但考虑到方案实施的简便性和规整性，可以采取固定帧数，n是正整数，例如n可以为96帧。另外，考虑到识别处理一般至少需要达到数帧以上，n帧中的前m帧的标签无视，也就是前m帧不产生相应的反向传播损失。可选地，m是正整数，m可设为4，但不限于此。

若当前样本片段抽样得到的样本视频帧大于或等于设定帧数阈值，则可以不用考虑前一样本片段产生的影响，此时，将当前训练过程中相应队列的初始值初始化任意值，任意值例如为0或其他数值。若当前样本片段抽样得到的样本视频帧大于或等于设定帧数阈值，则可以考虑前一样本片段产生的影响，此时，可以对前一样本片段进行模型训练时产生的特征缓存队列、状态队列和动作队列中的值分别作为当前训练过程中相应队列的初始值。其中，设定帧数阈值根据实际应用需求灵活设置。

图7为本申请一示例性实施例提供的一种视频处理方法的流程示意图。如图7所示，该方法可以包括以下步骤：

701、接收当前视频帧，基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签。

702、根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，以得到事件识别结果。

其中，事件识别结果中包括是否发生指定事件。

进一步可选的，基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签，包括：

将当前视频帧输入状态-动作识别模型中，对当前视频帧进行K次卷积处理，得到第N次卷积处理输出的第一特征信息和第K次卷积处理输出的第二特征信息；

根据第一特征信息识别当前视频帧中的状态标签，并根据第二特征信息识别当前视频帧中的动作标签；

其中，K、N是正整数，1≤N＜K，K≥2，且第N次卷积处理之后存在至少一次因果卷积处理。

进一步可选的，对当前视频帧进行K次卷积处理，得到第N次卷积处理输出的第一特征信息和第K次卷积处理输出的第二特征信息，包括：

对当前视频帧进行N1次空间卷积处理和N2次因果卷积处理，得到第一特征信息；N1、N2是≥0的自然数，且N1+N2=N；

对第一特征信息进行L1次空间卷积处理和L2次因果卷积处理，得到第二特征信息；L1是≥0的自然数，L2是正整数，且L1+L2+N=K。

进一步可选的，N1=N2=N/2，则对当前视频帧进行N1次空间卷积处理和N2次因果卷积处理，得到第一特征信息，包括：

对当前视频帧交替进行N/2次空间卷积处理和因果卷积处理，得到第一特征信息。

进一步可选的，L1=L2=（K-N）/2，则对第一特征信息进行L1次空间卷积处理和L2次因果卷积处理，得到第二特征信息，包括：

对第一特征信息交替进行（K-N）/2次空间卷积处理和因果卷积处理，得到第二特征信息。

进一步可选的，上述方法还包括：针对每次的因果卷积处理，从该次因果卷积处理对应的特征缓存队列中，获取多个历史视频帧在前一次卷积处理中得到的特征信息作为多个历史中间特征信息；将当前视频帧在前一次卷积处理中得到的特征信息作为当前中间特征信息，对当前中间特征信息和多个历史中间特征信息进行因果卷积处理，得到该次因果卷积处理输出的特征信息。

进一步可选的，在因果卷积处理的次数≥2的情况下，随着因果卷积处理次数的增多，因果卷积处理使用的卷积核在时间维度上的尺寸逐渐增大，对应的特征缓存队列的长度逐渐增长。

进一步可选的，第N次卷积处理对应的卷积层连接有状态识别网络，第K次卷积处理对应的卷积层连接有动作识别网络；则，根据第一特征信息识别当前视频帧中的状态标签，包括：将第一特征信息输入状态识别网络，对第一特征信息进行池化处理，得到第三特征信息，并利用多层感知机对第三特征信息进行分类处理，得到当前视频帧中的状态标签。相应地，根据第二特征信息识别当前视频帧中的动作标签，包括：将第二特征信息输入动作识别网络，对第二特征信息进行池化处理，得到第四特征信息，并利用多层感知机对第四特征信息进行分类处理，得到当前视频帧中的动作标签。

进一步可选的，根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，以得到事件识别结果，包括：将当前视频帧中的状态标签和动作标签，分别与多个历史视频帧中的状态标签和动作标签进行组合，得到状态序列和动作序列；将状态序列和动作序列输入事件决策模型，基于预先学习到的指定事件与状态和动作的对应关系，采用决策算法分析是否存在与状态序列和动作序列对应的指定事件，并在存在的情况下，确定指定事件的事件类别。

进一步可选的，上述方法还包括：获取已标注动作标签、状态标签和指定事件的样本视频；将样本视频进行切分，得到多个样本片段，利用多个样本片段进行两阶段的模型训练，得到状态-动作识别模型和事件决策模型；在针对当前样本片段进行模型训练时，将对前一样本片段进行模型训练时产生的特征缓存队列、状态队列和动作队列中的值分别作为当前训练过程中相应队列的初始值。

进一步可选的，在针对当前样本片段进行模型训练时，对当前样本片段进行抽样得到多个样本视频帧；若样本视频帧的总帧数小于设定帧数阈值，则将对前一样本片段进行模型训练时产生的特征缓存队列、状态队列和动作队列中的值分别作为当前训练过程中相应队列的初始值。

关于视频处理方法的具体实现方式已经在有关该数字化生产管理***的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤701至步骤702的执行主体可以为设备A；又比如，步骤701的执行主体可以为设备A，步骤702的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如701、702等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图8为本申请一示例性实施例提供的一种视频处理装置的结构示意图。如图8所示，该装置可以包括：

接收模块81，用于接收当前视频帧；处理模块82，用于基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签；根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，以得到事件识别结果。其中，事件识别结果中包括是否发生指定事件。

进一步可选的，处理模块82对当前视频帧进行瞬时状态和长时动作识别时，具体用于：将当前视频帧输入状态-动作识别模型中，对当前视频帧进行K次卷积处理，得到第N次卷积处理输出的第一特征信息和第K次卷积处理输出的第二特征信息；根据第一特征信息识别当前视频帧中的状态标签，并根据第二特征信息识别当前视频帧中的动作标签；其中，K、N是正整数，1≤N＜K，K≥2，且第N次卷积处理之后存在至少一次因果卷积处理。

进一步可选的，处理模块82得到第二特征信息时，具体用于：对当前视频帧进行N1次空间卷积处理和N2次因果卷积处理，得到第一特征信息；N1、N2是≥0的自然数，且N1+N2=N；对第一特征信息进行L1次空间卷积处理和L2次因果卷积处理，得到第二特征信息；L1是≥0的自然数，L2是正整数，且L1+L2+N=K。

进一步可选的，N1=N2=N/2，则处理模块得到第一特征信息时，具体用于：对当前视频帧交替进行N/2次空间卷积处理和因果卷积处理，得到第一特征信息。

进一步可选的，L1=L2=（K-N）/2，则处理模块得到第二特征信息时，具体用于：对第一特征信息交替进行（K-N）/2次空间卷积处理和因果卷积处理，得到第二特征信息。

进一步可选的，处理模块82还用于：针对每次的因果卷积处理，从该次因果卷积处理对应的特征缓存队列中，获取多个历史视频帧在前一次卷积处理中得到的特征信息作为多个历史中间特征信息；将当前视频帧在前一次卷积处理中得到的特征信息作为当前中间特征信息，对当前中间特征信息和多个历史中间特征信息进行因果卷积处理，得到该次因果卷积处理输出的特征信息。

进一步可选的，第N次卷积处理对应的卷积层连接有状态识别网络，第K次卷积处理对应的卷积层连接有动作识别网络；则，处理模块82识别当前视频帧中的状态标签时，具体用于：将第一特征信息输入状态识别网络，对第一特征信息进行池化处理，得到第三特征信息，并利用多层感知机对第三特征信息进行分类处理，得到当前视频帧中的状态标签；

相应地，处理模块82识别当前视频帧中的动作标签时，具体用于：将第二特征信息输入动作识别网络，对第二特征信息进行池化处理，得到第四特征信息，并利用多层感知机对第四特征信息进行分类处理，得到当前视频帧中的动作标签。

进一步可选的，处理模块82进行事件识别时，具体用于：将当前视频帧中的状态标签和动作标签，分别与多个历史视频帧中的状态标签和动作标签进行组合，得到状态序列和动作序列；

将状态序列和动作序列输入事件决策模型，基于预先学习到的指定事件与状态和动作的对应关系，采用决策算法分析是否存在与状态序列和动作序列对应的指定事件，并在存在的情况下，确定指定事件的事件类别。

进一步可选的，处理模块82还用于：获取已标注动作标签、状态标签和指定事件的样本视频；将样本视频进行切分，得到多个样本片段，利用多个样本片段进行两阶段的模型训练，得到状态-动作识别模型和事件决策模型；在针对当前样本片段进行模型训练时，将对前一样本片段进行模型训练时产生的特征缓存队列、状态队列和动作队列中的值分别作为当前训练过程中相应队列的初始值。

进一步可选的，在针对当前样本片段进行模型训练时，处理模块82还用于：对当前样本片段进行抽样得到多个样本视频帧；若样本视频帧的总帧数小于设定帧数阈值，则将对前一样本片段进行模型训练时产生的特征缓存队列、状态队列和动作队列中的值分别作为当前训练过程中相应队列的初始值。

图8的视频处理装置可以执行图7所示实施例的视频处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的视频处理装置其中各个模块、单元执行操作的具体方式已经在有关该数字化生产管理***的实施例中进行了详细描述，此处将不做详细阐述说明。

图9为本申请一示例性实施例提供的一种视频处理设备的结构示意图。如图9所示，该视频处理设备包括：存储器91和处理器92。

存储器91，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器91可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器92，与存储器91耦合，用于执行存储器91中的计算机程序，以用于：接收当前视频帧；基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签；根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，以得到事件识别结果。其中，事件识别结果中包括是否发生指定事件。

进一步可选的，处理器92对当前视频帧进行瞬时状态和长时动作识别时，具体用于：将当前视频帧输入状态-动作识别模型中，对当前视频帧进行K次卷积处理，得到第N次卷积处理输出的第一特征信息和第K次卷积处理输出的第二特征信息；根据第一特征信息识别当前视频帧中的状态标签，并根据第二特征信息识别当前视频帧中的动作标签；其中，K、N是正整数，1≤N＜K，K≥2，且第N次卷积处理之后存在至少一次因果卷积处理。

进一步可选的，处理器92得到第二特征信息时，具体用于：对当前视频帧进行N1次空间卷积处理和N2次因果卷积处理，得到第一特征信息；N1、N2是≥0的自然数，且N1+N2=N；对第一特征信息进行L1次空间卷积处理和L2次因果卷积处理，得到第二特征信息；L1是≥0的自然数，L2是正整数，且L1+L2+N=K。

进一步可选的，N1=N2=N/2，则处理器92得到第一特征信息时，具体用于：对当前视频帧交替进行N/2次空间卷积处理和因果卷积处理，得到第一特征信息。

进一步可选的，L1=L2=（K-N）/2，则处理器92得到第二特征信息时，具体用于：对第一特征信息交替进行（K-N）/2次空间卷积处理和因果卷积处理，得到第二特征信息。

进一步可选的，处理器92还用于：针对每次的因果卷积处理，从该次因果卷积处理对应的特征缓存队列中，获取多个历史视频帧在前一次卷积处理中得到的特征信息作为多个历史中间特征信息；将当前视频帧在前一次卷积处理中得到的特征信息作为当前中间特征信息，对当前中间特征信息和多个历史中间特征信息进行因果卷积处理，得到该次因果卷积处理输出的特征信息。

进一步可选的，第N次卷积处理对应的卷积层连接有状态识别网络，第K次卷积处理对应的卷积层连接有动作识别网络；则，处理器92识别当前视频帧中的状态标签时，具体用于：将第一特征信息输入状态识别网络，对第一特征信息进行池化处理，得到第三特征信息，并利用多层感知机对第三特征信息进行分类处理，得到当前视频帧中的状态标签。相应地，处理器92识别当前视频帧中的动作标签时，具体用于：将第二特征信息输入动作识别网络，对第二特征信息进行池化处理，得到第四特征信息，并利用多层感知机对第四特征信息进行分类处理，得到当前视频帧中的动作标签。

进一步可选的，处理器92进行事件识别时，具体用于：将当前视频帧中的状态标签和动作标签，分别与多个历史视频帧中的状态标签和动作标签进行组合，得到状态序列和动作序列；将状态序列和动作序列输入事件决策模型，基于预先学习到的指定事件与状态和动作的对应关系，采用决策算法分析是否存在与状态序列和动作序列对应的指定事件，并在存在的情况下，确定指定事件的事件类别。

进一步可选的，处理器92还用于：获取已标注动作标签、状态标签和指定事件的样本视频；将样本视频进行切分，得到多个样本片段，利用多个样本片段进行两阶段的模型训练，得到状态-动作识别模型和事件决策模型；在针对当前样本片段进行模型训练时，将对前一样本片段进行模型训练时产生的特征缓存队列、状态队列和动作队列中的值分别作为当前训练过程中相应队列的初始值。

进一步可选的，在针对当前样本片段进行模型训练时，处理器92还用于：对当前样本片段进行抽样得到多个样本视频帧；若样本视频帧的总帧数小于设定帧数阈值，则将对前一样本片段进行模型训练时产生的特征缓存队列、状态队列和动作队列中的值分别作为当前训练过程中相应队列的初始值。

进一步，如图9所示，该视频处理设备还包括：通信组件93、显示器94、电源组件95、音频组件96等其它组件。图9中仅示意性给出部分组件，并不意味着视频处理设备只包括图9所示组件。另外，图9中虚线框内的组件为可选组件，而非必选组件，具体可视视频处理设备的产品形态而定。本实施例的视频处理设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的视频处理设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图9中虚线框内的组件；若本实施例的视频处理设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图9中虚线框内的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器能够实现上述方法实施例中的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器能够实现上述方法实施例中的各步骤。

上述图9中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、9G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述图9中的显示器包括屏幕，其屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述图9中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理***，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图9中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风（MIC），当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数字化生产管理***，其特征在于，包括：中心管控节点、边缘网关节点以及部署在生产环境中的图像采集设备和各生产线上的生产设备；

所述图像采集设备，用于采集生产环境中产生的包含生产行为的视频流，并经所述边缘网关节点将所述视频流上报给所述中心管控节点，所述视频流包括连续的视频帧；

所述中心管控节点，用于针对接收到的当前视频帧，基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签；根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，得到事件识别结果；经所述边缘网关节点将所述事件识别结果发送给对应的生产设备；所述因果卷积神经网络包括由空间卷积层和因果卷积层形成的K个卷积层，前N个卷积层用于进行瞬时状态的识别，后K-N个卷积层至少包括一个因果卷积层，用于进行长时动作的识别；其中，K、N是正整数，1≤N＜K，K≥2；

所述生产设备，用于接收所述事件识别结果，并输出所述事件识别结果；所述事件识别结果中包括生产过程中是否发生指定事件。

2.根据权利要求1所述的***，其特征在于，所述中心管控节点在得到当前视频帧中的状态标签和动作标签时，具体用于：

对当前视频帧进行K次卷积处理，得到第N次卷积处理输出的第一特征信息和第K次卷积处理输出的第二特征信息；

其中，第N次卷积处理之后存在至少一次因果卷积处理。

3.根据权利要求1所述的***，其特征在于，还包括：用于对待产订单进行排产的排产***；

所述中心管控节点还用于：从所述事件识别结果中获取生产过程中发生的指定事件；根据所述生产过程中发生的指定事件，分析设备维度、产线维度、人员维度和/或物料维度上的生产状态数据；根据所述设备维度、产线维度、人员维度和/或物料维度上的生产状态数据，生成排产引导信息，并将所述排产引导信息发送给所述排产***，以引导所述排产***对待产订单进行排产。

4.一种视频处理方法，其特征在于，包括：

接收当前视频帧，基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签；所述因果卷积神经网络包括由空间卷积层和因果卷积层形成的K个卷积层，前N个卷积层用于进行瞬时状态的识别，后K-N个卷积层至少包括一个因果卷积层，用于进行长时动作的识别；其中，K、N是正整数，1≤N＜K，K≥2；根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，以得到事件识别结果；

其中，所述事件识别结果中包括是否发生指定事件。

5.根据权利要求4所述的方法，其特征在于，基于因果卷积神经网络对当前视频帧进行瞬时状态和长时动作识别，得到当前视频帧中的状态标签和动作标签，包括：

根据所述第一特征信息识别当前视频帧中的状态标签，并根据所述第二特征信息识别当前视频帧中的动作标签；

其中，第N次卷积处理之后存在至少一次因果卷积处理。

6.根据权利要求5所述的方法，其特征在于，对当前视频帧进行K次卷积处理，得到第N次卷积处理输出的第一特征信息和第K次卷积处理输出的第二特征信息，包括：

对所述第一特征信息进行L1次空间卷积处理和L2次因果卷积处理，得到第二特征信息；L1是≥0的自然数，L2是正整数，且L1+L2+N=K。

7.根据权利要求5或6所述的方法，其特征在于，还包括：

针对每次的因果卷积处理，从该次因果卷积处理对应的特征缓存队列中，获取多个历史视频帧在前一次卷积处理中得到的特征信息作为多个历史中间特征信息；

将当前视频帧在前一次卷积处理中得到的特征信息作为当前中间特征信息，对当前中间特征信息和多个历史中间特征信息进行因果卷积处理，得到该次因果卷积处理输出的特征信息。

8.根据权利要求7所述的方法，其特征在于，在因果卷积处理的次数≥2的情况下，随着因果卷积处理次数的增多，因果卷积处理使用的卷积核在时间维度上的尺寸逐渐增大，对应的特征缓存队列的长度逐渐增长。

9.根据权利要求5或6所述的方法，其特征在于，所述第N次卷积处理对应的卷积层连接有状态识别网络，所述第K次卷积处理对应的卷积层连接有动作识别网络；

则，根据所述第一特征信息识别当前视频帧中的状态标签，包括：将所述第一特征信息输入所述状态识别网络，对所述第一特征信息进行池化处理，得到第三特征信息，并利用多层感知机对所述第三特征信息进行分类处理，得到当前视频帧中的状态标签；

相应地，根据所述第二特征信息识别当前视频帧中的动作标签，包括：将所述第二特征信息输入所述动作识别网络，对所述第二特征信息进行池化处理，得到第四特征信息，并利用多层感知机对所述第四特征信息进行分类处理，得到当前视频帧中的动作标签。

10.根据权利要求5或6所述的方法，其特征在于，根据当前视频帧中的状态标签和动作标签，结合多个历史视频帧中的状态标签和动作标签进行事件识别，以得到事件识别结果，包括：

将当前视频帧中的状态标签和动作标签，分别与所述多个历史视频帧中的状态标签和动作标签进行组合，得到状态序列和动作序列；

将所述状态序列和动作序列输入事件决策模型，基于预先学习到的指定事件与状态和动作的对应关系，采用决策算法分析是否存在与所述状态序列和动作序列对应的指定事件，并在存在的情况下，确定指定事件的事件类别。

11.根据权利要求10所述的方法，其特征在于，还包括：

获取已标注动作标签、状态标签和指定事件的样本视频；

将所述样本视频进行切分，得到多个样本片段，利用所述多个样本片段进行两阶段的模型训练，得到状态-动作识别模型和事件决策模型；

在针对当前样本片段进行模型训练时，将对前一样本片段进行模型训练时产生的特征缓存队列、状态队列和动作队列中的值分别作为当前训练过程中相应队列的初始值。

12.根据权利要求11所述的方法，其特征在于，在针对当前样本片段进行模型训练时，对当前样本片段进行抽样得到多个样本视频帧；若样本视频帧的总帧数小于设定帧数阈值，则将对前一样本片段进行模型训练时产生的特征缓存队列、状态队列和动作队列中的值分别作为当前训练过程中相应队列的初始值。

13.一种视频处理设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求4-12任一项所述方法中的步骤。

14.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求4-12任一项所述方法中的步骤。