CN112424789A

CN112424789A - 利用神经网络的视频监视

Info

Publication number: CN112424789A
Application number: CN201980045392.4A
Authority: CN
Inventors: D·莫洛尼
Original assignee: Movidius Ltd Netherland
Current assignee: Movidius Ltd Netherland
Priority date: 2018-07-05
Filing date: 2019-07-05
Publication date: 2021-02-26
Anticipated expiration: 2039-07-05
Also published as: JP2024012583A; US11430312B2; JP2021529384A; DE112019003414T5; JP7413641B2; CN112424789B; WO2020008025A1; US20230056418A1; CN117456419A; US20200013265A1

Abstract

公开了用于利用神经网络实现视频监视的示例方法、装置、***和制品(例如，物理存储介质)。本文公开的示例***包括用于存储操作员标记的视频片段的记录(例如，作为操作员标记的视频片段的记录)的数据库。操作员标记的视频片段包括参考视频片段和描述视频片段的对应参考事件标签。公开的示例***还包括：神经网络，其包括推理引擎的第一实例；以及训练引擎，其用于基于从数据库获得的操作员标记的视频片段的训练集来训练推理引擎的第一实例，该推理引擎的第一实例用于从训练集中包括的操作员标记的视频片段中推断事件。公开的示例***还包括推理引擎的第二实例，其用于从受监控视频馈送中推断事件，推理引擎的第二实例基于推理引擎的第一实例。

Description

利用神经网络的视频监视

技术领域

本公开总体上涉及视频监视，并且更具体地，涉及利用神经网络的视频监视。

背景技术

传统上，视频监视***已被大型机构(例如，大型商业企业、政府机关、教育机构等)用于安全监控。这样的视频监视***通常采用摄像机来覆盖要监控的区域，并将视频馈送提供给中央监控设施，例如安全办公室。中央监控设施通常包括一个或多个由一个或多个人类操作员操纵的监控站，这些操作员查看受监控的视频馈送并标记感兴趣的事件。在一些示例中，监控站允许人类操作员记录感兴趣的事件并采取适当的补救措施，例如启动警报、联系急救人员等。

最近，随着视频监视摄像机的成本降低，在其他环境中视频监视***的使用也增加了。例如，装备有视频监视***以进行监控的家庭、较小型企业、公园、公共区域等已变得司空见惯。例如，这样的视频监视***可能依赖于低成本相机和/或任何其他成像传感器来监控关注区域。这些摄像机通常包括网络接口，使摄像机能够连接到网络，这允许摄像机将其相应的视频馈送传输到一个或多个远程监控设施。这些远程监控设施再次依赖于由人类操作员操纵的监控站来查看监控的视频馈送、标记感兴趣的事件并响应于感兴趣的事件采取适当的措施。

附图说明

图1是示例视频监视***的框图。

图2是根据本公开内容的教导的第一示例视频监视***的框图，该***包括被构造为支持视频监视的可训练神经网络。

图3是根据本公开内容的教导的第二示例视频监视***的框图，该***包括可训练的神经网络和被构造为支持视频监视的经训练的推理引擎。

图4是根据本公开内容的教导的第三示例视频监视***的框图，该第三示例视频监视***包括可训练的神经网络和被构造为支持视频监视的经训练的推理引擎。

图5-8示出了代表示例机器可读指令的流程图，该示例机器可读指令可以被执行以实现图2-4的示例视频监视***。

图9是示例处理器平台的框图，该示例处理器平台被构造为执行来自图5-8中的一个或多个的示例机器可读指令，以实现被包括在图2-4的示例视频监视***中的示例监控站。

图10是示例处理器平台的框图，该示例处理器平台被构造为执行来自图5-8中的一个或多个的示例机器可读指令，以实现被包括在图2-4的示例视频监视***中的示例数据库。

图11是示例处理器平台的框图，该示例处理器平台被构造为执行来自图5-8中的一个或多个的示例机器可读指令，以实现被包括在图2-4的示例视频监视***中的示例神经网络。

各个图未按比例绘制。在可能的情况下，将贯穿附图和随附的书面描述使用相同的附图标记来表示相同或相似的部件、元素等。

具体实施方式

本文公开了用于利用神经网络实现视频监视的示例方法、装置、***和制品(例如，物理存储介质)。本文公开的示例视频监视***包括用于存储操作员标记的视频片段(例如，作为操作员标记的视频片段的记录)的数据库。操作员标记的视频片段包括参考视频片段和用于描述参考视频片段的对应的参考事件标签。公开的示例视频监视***还包括神经网络，该神经网络包括推理引擎的第一实例，以及训练引擎，该训练引擎用于基于从数据库获得的操作员标记的视频片段的训练集来训练推理引擎的第一实例。在公开的示例中，推理引擎的第一实例用于从训练集中包括的操作员标记的视频片段中推断事件。公开的示例视频监视***还包括推理引擎的第二实例，以从监控的视频馈送中推断事件，其中推理引擎的第二实例基于推理引擎的第一实例(例如，最初是其副本)。

在一些公开的示例中，参考事件标签指示对应的参考视频片段是否描绘了定义的事件。

在一些公开的示例中，与参考视频片段中的第一参考视频片段相对应的参考事件标签中的第一参考事件标签指示(i)事件类型，以及(ii)参考视频片段中的第一参考视频片段是否描绘了该事件类型。

一些公开的示例视频监视***包括监控站。在一些公开的示例中，监控站包括用于呈现受监控视频馈送中的第一受监控视频馈送的显示器，以及用于基于与受监控视频馈送中的第一受监控视频馈送的监控视频片段相对应的操作员决定来生成操作员事件标签的监控接口。

在一些这样公开的示例中，数据库与监控站通信以接收受监控的视频片段中的第一受监控的视频片段和与受监控的视频片段中的第一受监控的视频片段相对应的操作员事件标签中的第一操作员事件标签。在一些这样的示例中，数据库将受监控的视频片段中的第一受监控的视频片段和操作员事件标签中的对应的第一操作员事件标签存储为操作员标记的视频片段中的第一操作员标记的视频片段中包括的参考视频片段中的第一参考视频片段和参考事件标签中的对应的第一参考事件标签。

附加地或可替代地，在一些这样公开的示例中，监控站还用于实现推理引擎的第二实例。例如，推理引擎的第二实例可以输出针对由监控站的显示器呈现的受监控视频馈送中的第一受监控视频馈送的监控视频片段中的第二监控视频片段的推断事件。在一些这样的示例中，监控站的监控接口将根据针对受监控的视频片段中的第二受监控的视频片段检测到的操作员决定来生成操作员事件标签中的第二操作员事件标签。在一些这样的示例中，监控站还包括比较器，用于比较推断出的事件和操作员事件标签中的第二操作员事件标签，以获得更新的训练数据。在一些公开的示例中，神经网络与监控站通信以接收更新的训练数据，并且神经网络的训练引擎基于更新的训练数据来重新训练推理引擎的第一实例。

下面将更详细地公开这些和其他示例方法、装置、***和制品(例如，物理存储介质)，以利用神经网络来实现视频监视。

视频监视***通常由大型机构(例如，大型商业企业、政府机关、教育机构等)用于安全监控。最近，随着视频监视摄像机的成本降低，在其他环境中视频监视***的使用也增加了。例如，装备有视频监视***以进行监控的家庭、较小型企业、公园、公共区域等已变得司空见惯。这样的较新的视频监视***可能依赖于低成本摄像机和/或能够连接到诸如互联网之类的网络、可经由互联网和/或其他网络访问的一个或多个云服务等的任何其他成像传感器。这样的网络访问使摄像机和/或其他成像传感器能够将其相应的视频馈送传输到一个或多个远程监控设施。这些远程监控设施通常依靠人类操作员操纵的监控站来查看监控的视频馈送、标记感兴趣的事件并响应于感兴趣的事件采取适当的措施。随着视频监视摄像机/传感器和相关联的网络技术的成本不断降低，视频监视的使用有望继续增长，并可能呈指数增长。但是，依靠由人类操作员操纵的监控站来监控视频监视***生成的视频馈送限制了视频监视的可扩展性，并且可能影响事件检测的准确性，尤其是当人类操作员由于要监控的视频馈送数量过多而超负荷时。

如本文所公开的用神经网络实现的视频监视***为与依赖于人类操作员进行视频馈送监控的现有视频监视***相关的可扩展性和准确性问题提供了技术解决方案。本文公开的示例视频监视***包括具有推理引擎的神经网络，该神经网络经过训练以检测或推断监控的视频馈送中的事件。如下面进一步详细公开的那样，使用参考视频片段的训练集来训练神经网络，参考事件标签是基于人类操作员的决定而确定的。例如，参考事件标签可以描述对应的参考视频片段是否描绘了已定义的事件(例如，安全违规、个体的在场、包裹的到达、任何指定/预定的事件等)。在一些示例中，参考事件标签还可以包括感兴趣的事件类型的描述(例如，安全违规、个体的在场、包裹的到达等)以及对对应的参考视频片段是否描绘了所描述的事件的指示。

如下面进一步详细描述的，一些公开的示例视频监视***将经训练的推理引擎的实例部署到一个或多个监控位置，以从相应监控的视频馈送中推断事件。例如，经训练的推理引擎可以操作(例如，并行、异步、协作地等)来推断在他们监控的对应视频馈送中是否表示了一个或多个经训练的事件(例如，安全违规、个体的在场，包裹的到达等)。在一些这样的示例中，可以将经训练的推理引擎部署为通过由人类操作员操纵的监控站执行或与由人类操作员操纵的监控站一起操作，以增强由人类操作员执行的监控。在一些这样的示例中，可以将结合有人操纵的监控站操作的经训练的推理引擎输出的推断事件与人类操作员做出的对应决定进行比较，以确定可以用于完善推理引擎操作的更新的训练数据。例如，视频监视***中的神经网络可以接收更新的训练数据、重新训练其推理引擎、并且然后将重新训练的推理引擎的实例重新部署到一个或多个监控位置。在一些示例中，可以将经训练/重新训练的推理引擎的实例部署到无人操纵监控位置，或者在有人操纵的位置提供额外的容量，从而允许视频监视***的容量随需求增加而容易地扩展。如本文所公开的利用神经网络的视频监视的这些和其他方面在下面进一步详细描述。

转向附图，图1中示出了示例视频监视***100的框图。图1的示例视频监视***100包括示例成像传感器105A-D、示例网络110和示例监控站115A-B。在图1的图示示例中，成像传感器105A-D被配置为监控感兴趣的区域，例如但不限于一个或多个商业企业、小型企业、政府办公室、教育机构、家庭、公园、公共区域等中的区域，和/或其任何组合。示例成像传感器105A-D可以包括任何数量、类型和/或组合的成像传感器。例如，成像传感器105A-D可以由一个或多个摄像机、智能电话、光电二极管、光检测器等实现。

在图1的示例视频监视***100中，成像传感器105A-D包括能够与示例网络110通信的网络接口。示例网络110可以由任何数量、类型和/或组合的网络来实现。例如，网络110可以由互联网和/或可经由互联网访问的一个或多个云服务来实现。在一些示例中，成像传感器105A-D包括能够经由一个或多个无线接入点(例如，蜂窝接入点/基站、无线局域网接入点、蓝牙接入点等等)、有线接入点(例如，以太网接入点、有线通信链路等)或其任意组合访问网络110的网络接口。

在图1的示例视频监视***100中，成像传感器105A-D将其相应的视频馈送传送到监控站115A-B，监控站115A-B包括能够与网络110通信的相应网络接口。这样，监控站115A-B经由网络110与成像传感器105A-D进行通信。如本文所使用的，短语“与……通信”包括其变型涵盖直接通信和/或通过一个或多个中间组件的间接通信，并且不需要直接的物理(例如，有线)通信和/或持续通信，但另外还包括定期或非定期间隔的选择性通信以及一次性事件。

所示示例的监控站115A-B可以由能够呈现监控的视频馈送并接受与监控的视频馈送有关的用户输入的任何***/设备来实现。例如，监控站115A-B可以由任何数量、类型和/或组合的计算***/设备(例如，一个或多个计算机、工作站、智能电话、平板计算机、个人数字助理(PDA)等)来实现。在一些示例中，监控站115A-B由处理器平台实现，例如图9中所示的示例处理器平台900，其将在下面进一步详细描述。

在图1的所示示例中，监控站115A-B包括相应的示例显示器120A-B和相应的示例监控接口125A-B，以使得由成像传感器105A-D报告的视频馈送能够***作员130A-B监控。在所示示例中，相应监控站115A-B的显示器120A-B被配置为呈现由成像传感器105A-D报告的一个或多个视频馈送。例如，显示器120A-B可以呈现一个视频馈送，一次一个地循环呈现多个视频馈送，以平铺方式(tiled manner)同时呈现多个视频馈送，等等。

相应监控站115A-B的监控接口125A-B被配置为接受来自人类操作员130A-B的输入，该输入反映了人类操作员130A-B关于是否在由显示器120A-B所呈现的视频馈送中描绘事件的决定。例如，监控接口125A-B可以包括输入按钮或键(在图1中标记为“Y”和“N”)以允许人类操作员130A-B指示受监控视频馈送的视频片段是否描绘或以其他方式代表感兴趣的事件(例如，其中“Y”指示描绘/表示了感兴趣的事件，而“N”指示未描绘/表示感兴趣的事件)。例如，可以对人类操作员130A-B进行训练，以检测感兴趣的事件，例如但不限于安全违规、个人的在场、包裹的到达等。在一些这样的示例中，人类操作员130A-B可以使用监控接口125A-B的“Y”和“N”输入来指示是否在监控的视频馈送的视频片段中描绘了感兴趣的事件或以其他方式表示了感兴趣的事件。在一些示例中，监控接口125A-B可以包括其他输入/输出功能(在图1中标记为“I/O”)，以通过允许人类操作员130A-B输入事件类型的描述来提供更大的灵活性。在这样的示例中，人类操作员130A-B不限于仅监控一个或多个感兴趣的事件，而是可以输入任何类型的感兴趣的事件的描述。这样，该附加能力允许感兴趣的事件随时间变化。在一些示例中，人类操作员130A-B可以使用“I/O”接口来输入在监控的视频馈送的特定视频片段中针对监控的事件的类型的描述，并且可以使用“Y”和“N”输入指示是否确实在受监控的视频片段中描绘了或以其他方式表示了该事件。

尽管图1的示例视频监视***100被图示为包括四个成像传感器105A-D、一个网络110和两个监控站115A-B，但是视频监视***100不限于此。相反，示例视频监视***100可以包括任何数量的成像传感器105A-D、任何数量的网络110和任何数量的监控站115A-B。

在图2中示出了根据本公开的教导的利用神经网络实现视频监视的第一示例视频监视***200的框图。图2的示例视频监视***200包括图1的视频监视***100的示例成像传感器105A-D、示例网络110和示例监控站115A-B。这样，以上结合图1的描述描述了视频监视***200的这些元素的各方面。

图2的示例视频监视***200还包括根据本公开的教导实现的示例神经网络205和示例数据库210。示例数据库210包括能够与示例网络110通信的一个或多个网络接口。在图2的所示示例中，数据库210经由网络110与监控站115A-B通信，并从监控站115A-B接收具有描述视频片段的对应事件标签的视频片段。从监控站115A-B接收的视频片段是从受监控的视频馈送中获取的。事件标签基于人类操作员130A-B输入的决定信息指示对应的视频片段是否描绘或以其他方式表示感兴趣的事件。在一些示例中，对应视频片段的事件标签指示该视频片段是否描绘或以其他方式表示定义的事件。在一些示例中，用于对应视频片段的事件标签包括事件类型的描述或以其他方式指示事件类型，并且还指示视频片段是否描绘或以其他方式表示该事件类型。

在所示的示例中，数据库210将从监控站115A-B接收到的具有对应事件标签的视频片段视为操作员标记的视频片段，以用于训练神经网络205。例如，数据库210将从监控站115A-B接收到的视频片段视为操作员标记的视频片段的示例参考视频片段215，以及将从监控站115A-B接收到的对应事件标签视为与操作员标记的视频片段的参考视频片段215相对应的参考事件标签218。此外，数据库210创建操作员标记的视频片段的示例记录220，其包括由记录220表示的参考视频片段215和操作员标记的视频片段的对应参考事件标签218。因此，操作员标记的视频片段的每个记录220包括该记录220表示的操作员标记的视频片段的参考视频片段215和对应参考事件标签218。因此，在一些示例中，数据库210实现了用于获取操作员标记的视频片段的方式，其中，操作员标记的视频片段包括参考视频片段和描述参考视频片段的对应参考事件标签。用于获得操作员标记的视频片段的其他方式可以包括但不限于计算设备、服务器、基于云的服务、网站等，其构造为收集视频片段并将其与描述视频片段的对应事件标签组合在一起以形成操作员标记的视频片段。

所示示例的数据库210还包括示例记录存储装置225，该示例记录存储装置225存储由数据库210根据从监控站115A-B接收的视频片段和对应事件标签创建的操作员标记的视频片段的记录220。示出的示例的数据库210的记录存储装置225可以通过任何数量和/或类型的存储技术、存储器技术等来实现。例如，数据库210可以通过任何计算***/设备来实现，例如图10所示的示例处理器平台1000，其在下面被进一步详细描述。在这样的示例中，记录存储装置225可以由示例处理器平台1000的示例大容量存储设备1028和/或易失性存储器1014中的一个或多个来实现。

所示示例的神经网络205包括示例推理引擎230，以从视频片段中推断事件，例如来自从成像传感器105A-D获得的受监控视频馈送的视频片段。在所示的示例中，推理引擎230由卷积神经网络(CNN)推理引擎实现，该卷积神经网络推理引擎包括被训练从视频片段中推断事件的一层或多层权重，也称为神经元。例如，推理引擎230可以被构造成包括：输入层，用于接受一个或多个输入视频片段235作为输入数据；一个或多个隐藏层，用于处理输入数据；以及输出层，用于提供一个或多个输出，以指示给定输入视频片段235是否描绘或以其他方式表示推理引擎230已针对其进行训练以检测的一个或多个事件。在一些示例中，推理引擎230的输出可以附加地或可替代地提供给定输入视频片段235描绘或以其他方式表示推理引擎230已经针对其进行训练以检测的一个或多个事件的可能性(例如，概率)。尽管所示示例神经网络205的推理引擎230由CNN实现，但其他神经网络解决方案也可以用于实现推理引擎230。

所示示例的神经网络205还包括示例训练引擎240、示例比较器245和示例训练数据取回器250，以训练推理引擎230从输入视频片段235中推断事件。在图示的示例中，训练数据取回器250从数据库210取回操作员标记的视频片段的记录集220，以用作训练数据以训练推理引擎230。例如，训练数据取回器250可以向数据库210发送针对操作员标记的视频片段的记录集220的请求。在一些示例中，该请求包括被请求的记录220的数量。在一些示例中，该请求附加地或可替代地包括要由训练集中包括的操作员标记的视频片段的记录220描绘或以其他方式表示的事件的类型。在这样的示例中，数据库210可以通过从记录存储装置225中取回操作员标记的视频片段的记录220的所请求的集合，并将所取回的记录220集合发送到训练数据取回器250，来响应该请求。

在所示的示例中，在从数据库210获得请求的训练记录220集合之后，训练数据取回器250将训练记录220应用于推理引擎230以训练推理引擎230从训练记录220集合中包括的操作员标记的视频片段中推断事件。例如，对于给定的训练记录220，训练数据取回器250将该训练记录220的参考视频片段作为输入视频片段235应用于推理引擎230。训练数据取回器250还将该训练记录的对应参考事件标签作为示例训练事件标签255进行应用，以供比较器245与从推理引擎230输出的推断事件决定进行比较。理想地，当被训练时，从推理引擎230输出的推断事件决定将与对应于输入视频片段235的训练事件标签255相匹配(例如，产生零误差)。然而，当训练推理引擎230时，比较器245可能检测到训练事件标签255和从推理引擎230输出的推断事件决定之间的误差。在所示的示例中，比较器245的输出被提供给训练引擎240，该引擎以任何适当的方式反馈错误以将推理引擎230的权重的层更新为推理引擎230从输入片段235中推断事件的精度。例如，训练引擎240被示出为反向传播器，该反向传播器执行反向传播以训练推理引擎230。但是，训练引擎240可以实现任何其他适当的训练机制。因此，在一些示例中，训练引擎240实现了用于基于操作员标记的视频片段的训练集训练推理引擎的第一实例的单元，其中推理引擎的第一实例用于从训练集中包括的操作员标记的视频片段中推断事件。用于基于操作员标记的视频片段的训练集来训练推理引擎的第一实例的其他单元可以包括但不限于计算设备、服务器、基于云的服务、网站等，其被构造为获得操作员标记的视频片段的训练集，并将训练集应用于任何类型的机器学习推理引擎以训练推理引擎。

在一些示例中，训练数据取回器250继续将训练记录220中的不同训练记录应用于推理引擎230，直到比较器245指示已达到期望的推理精度为止。例如，推理精度可以被指定为正确事件检测的阈值比率(例如，对应于推理引擎230正确推断出是否存在对应事件(如由参考事件标签表示的)的输入参考视频片段的数量的百分比)、错误事件检测的阈值比率(例如，对应于当事件实际上不存在(如由对应于参考视频片段的参考事件标签所指示的)时由推理引擎230错误地推断出对应事件存在的输入参考视频片段的数量的百分比)、阈值遗漏事件检测(例如，对应于当事件实际存在时(如与参考视频片段相对应的参考事件标签所指示的)推理引擎230错误地推断出对应事件不存在的输入参考视频片段的示例的百分比)等等。

尽管图2的示例视频监视***200被示为包括四个成像传感器105A-D、一个网络110、两个监控站115A-B、一个神经网络205和一个数据库210，但是视频监视***200不限于此。相反，示例视频监视***200可以包括任何数量的成像传感器105A-D、任何数量的网络110、任何数量的监控站115A-B、任何数量的神经网络205和任何数量的数据库210。

在图3中示出了根据本公开的教导的利用神经网络实现视频监视的第二示例视频监视***300的框图。图3的示例视频监视***300包括图1和图2的视频监视***100和200的示例成像传感器105A-D、示例网络110和示例监控站115A-B。这样，以上结合图1和图2的描述描述了视频监视***300的这些元素的各方面。图3的示例视频监视***300还包括图2的视频监视***200的示例神经网络205和示例数据库210。这样，以上结合图2的描述描述了视频监视***300的这些元素的各方面。

在图3的所示示例视频监视***300中，神经网络205还包括示例部署器305，用于部署经训练的推理引擎230的实例以从监控的视频馈送中推断事件。这样，在所示的示例中，推理引擎230对应于推理引擎230的第一实例或参考实例，并且部署器部署基于推理引擎230的第一实例或参考实例(例如，最初的副本)的推理引擎230的其他实例。例如，部署器305部署推理引擎230的第二示例实例310A，以由示例监控站115A执行或结合示例监控站115A执行，并部署推理引擎230的第三示例实例310B，以由示例监控站115B执行或结合示例监控站115B执行。

在一些示例中，部署器305部署推理引擎230的实例，例如第二实例310A和第三实例310B，作为表示通过训练神经网络205中包括的推理引擎230的第一实例而获得的经训练权重层的数据。在这样的示例中，部署器305(例如，经由网络110)将表示经训练权重层的数据下载到已经存在于目标监控位置处的推理引擎230的实例(例如，第二实例310A和第三实例310B)。在一些示例中，部署器305将推理引擎230的实例(例如，第二实例310A和第三实例310B)部署为由计算设备(例如，监控站115A-B)执行的可下载的可执行文件(例如，经由网络110下载)。因此，在一些示例中，部署器305实现用于部署推理引擎的实例以从受监控视频馈送中推断事件的单元，其中，推理引擎的部署的实例基于推理引擎的经训练实例(例如，最初是其副本)。用于部署推理引擎实例的其他单元可以包括但不限于计算设备、服务器、基于云的服务、网站等，其被构造为获得并部署推理引擎的经训练的实例的副本。

在图3的示例视频监视***300中，推理引擎230的第二实例310A和推理引擎230的第三实例310B是由相应的监控站115A-B执行或以其他方式实现以结合相应的监控站115A-B操作的相应增强型推理引擎315A和315B的一部分。在所示示例中，增强型推理引擎315A由监控站115A执行或以其他方式实现，以从由监控站115A正在处理的受监控视频馈送中推断事件。例如，被包括在增强型推理引擎315A中的推理引擎230的第二实例310A接受由监控站115A监控的视频馈送的视频片段，并输出针对所受监控的视频片段的推断事件(例如，对是否特定事件在受监控视频片段中的相应受监控视频片段中被描绘的指示)。增强型推理引擎315A还包括示例比较器320A，该示例比较器320A通过将由推理引擎230的第二实例310A针对对应的受监控视频片段输出的推断事件与由监控站115A根据各监控站115A针对对应的受监控视频片段检测到的操作员决定(例如，如人类操作员130A经由监控接口125A所输入的，如上所述)所生成的相应操作员事件标签进行比较来确定更新的训练数据。比较器320A将该更新的训练数据报告给神经网络205(例如，经由网络110)。

类似地，在图3的所示示例中，增强型推理引擎315B由监控站115B执行或以其他方式实现，以从监控站115B正在处理的受监控视频馈送中推断事件。例如，被包括在增强型推理引擎315B中的推理引擎230的第三实例310B接受由监控站115B监控的视频馈送的视频片段，并输出针对所受监控的视频片段的推断事件(例如，对是否特定事件在受监控视频片段中的相应受监控视频片段中被描绘的指示)。增强型推理引擎315B还包括示例比较器320B，以通过将由推理引擎230的第三实例310B针对对应的受监控视频片段输出的推断事件与由监控站115B根据相应监控站115B针对对应的受监控视频片段检测到的操作员决定(例如，如人类操作员130B经由监控接口125B所输入的，如上所述)生成的相应操作员事件标签进行比较来确定更新的训练数据。比较器320B(例如，经由网络110)将该更新的训练数据报告给神经网络205。

在图3的所示示例中，神经网络205使用从由相应监控站115A-B实现的增强型推理引擎315A-B接收的更新的训练数据来重新训练神经网络205中包括的推理引擎230的第一实例，以提高事件推断精度。例如，神经网络205可以基于一个或多个事件(例如，当已经从由相应监控站115A-B实现的增强型推理引擎315A-B接收到阈值量的更新的训练数据时)，基于操作员的输入等，或者它们的任意组合来以周期性的间隔重新训练推理引擎230的第一实例。在一些示例中，示出的示例神经网络205的部署器305然后将重新训练的推理引擎230的实例重新部署到目标监控位置中的一个或多个。例如，部署器305可以重新部署重新训练的推理引擎230的实例，以更新/替换由监控站115A实现的推理引擎230的第二实例310A和/或由监控站115B实现的推理引擎230的第三实例310B。

尽管图3的示例视频监视***300包括四个成像传感器105A-D、一个网络110、实现两个增强型推理引擎315A-B的两个监控站115A-B、一个神经网络205和一个数据库210，但是视频监视***200不限于此。相反，示例视频监视***200可以包括任何数量的成像传感器105A-D、任何数量的网络110、实现任何数量的增强型推理引擎315A-B的任何数量的监控站115A-B、任何数量的神经网络205和任何数量的数据库210。

在图4中示出了根据本公开的教导的利用神经网络实现视频监视的第三示例视频监视***400的框图。图4的示例视频监视***400包括图1-3的视频监视***100、200和300的示例成像传感器105A-D、示例网络110和示例监控站115A-B。这样，视频监视***400的这些元素的各方面在上面结合图1-3的描述进行了描述。图3的示例视频监视***400还包括图2-3的视频监视***200和300的示例神经网络205和示例数据库210。这样，视频监视***400的这些元素的各方面在上面结合图2-3的描述进行了描述。

在图4的所示的示例视频监视***400中，神经网络205的部署器305还部署经训练的推理引擎230的实例，以用于不与监控站115A-B结合地监控视频馈送。例如，在视频监视***400中，神经网络205的部署器305可以将经训练的推理引擎230的实例部署到无人操纵的监控位置。附加地或可替代地，神经网络205的部署器305可以将经训练的推理引擎230的实例部署到具有监控站(例如，监控站115A-B)的监控位置，但是独立于监控站进行操作。举例来说，在图4的视频监视***400中，神经网络205的部署器305部署推理引擎230的第四示例实例410A和推理引擎230的第五示例实例410B以独立于监控站115A-B来监控视频馈送。这样，推理引擎230的附加实例可以被部署为以成本有效的方式增加视频监视***400中的监控能力。

尽管图4的示例视频监视***400被示为包括四个成像传感器105A-D、一个网络110、实现两个增强型推理引擎315A-B的两个监控站115A-B、一个神经网络205、一个数据库210以及推理引擎230的两个单独实例410A-B，但视频监视***200不限于此。相反，示例视频监视***200可以包括任何数量的成像传感器105A-D、任何数量的网络110、实现任何数量的增强型推理引擎315A-B的任何数量的监控站115A-B、任何数量的神经网络205、任何数量的数据库210和推理引擎230的任何数量的实例410A-B。

而且，尽管所示的示例视频监视***200、300和400包括成像传感器105A-D，但是本文所公开的利用神经网络的监视监控不仅限于视频监视。例如，本文公开的神经网络技术可以适于与其他监控传感器一起使用。例如，附加于或替代成像传感器105A-D，视频监视***100、200和/或300可以包括其他传感器。这样的其他传感器可以包括但不限于运动传感器、热/温度传感器、声学传感器(例如，麦克风)、电磁传感器等。在这样的示例中，这些传感器经由网络110传输其相应的数据馈送以通过一个或多个推理引擎230、310A、310B、410A和/或410B进行监控，可能与监控站115A-B中的一个或多个结合。

尽管在图1-4中示出了实施视频监视***100、200、300和400的示例方式，但图1-4中示出的元素、过程和/或设备中的一个或多个可以以任何其他方式来组合、划分、重新布置、省略、消除和/或实现。此外，图1-4的示例视频监视***100、200、300和/或400、示例成像传感器105A-D、示例网络110、示例监控站115A-B、示例神经网络205、示例数据库210、示例实例增强型推理引擎315A-B和/或推理引擎230的示例实例310A-B和/或410A-B可以由硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此，例如，示例视频监视***100、200、300和/或400、示例成像传感器105A-D、示例网络110、示例监控站115A-B、示例神经网络205、示例数据库210、示例增强型推理引擎315A-B和/或推理引擎230的示例实例310A-B和/或410A-B中的任何一个可以由一个或多个模拟或数字电路、逻辑电路、可编程处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)和/或现场可编程逻辑器件(FPLD)来实现。当阅读用于涵盖纯软件和/或固件实施方式的本专利的任何装置或***权利要求时，示例视频监视***100、200、300和/或400、示例成像传感器105A-D、示例网络110、示例监控站115A-B、示例神经网络205、示例数据库210、示例增强型推理引擎315A-B和/或推理引擎230的示例实例310A-B和/或410A-B中的至少一个在此明确定义为包括非暂时性计算机可读存储设备或存储磁盘，例如存储器、数字多功能盘(DVD)、压缩盘(CD)、蓝光盘等，包括软件和/或固件。更进一步，示例视频监视***100、200、300和/或400可以包括一个或多个元素、过程和/或设备以附加于或代替图1-4中所示的那些，和/或可以包括示出的元素、过程和设备中的任何或全部中的一个以上。

在图5-8中示出了流程图，其表示用于实现示例视频监视***100、200、300和/或400、示例成像传感器105A-D、示例网络110、示例监控站115A-B、示例神经网络205、示例数据库210、示例增强型推理引擎315A-B和/或推理引擎230的示例实例310A-B和/或410A-B的示例机器可读指令。在这些示例中，机器可读指令包括由处理器执行的一个或多个程序，例如以下结合图9-11讨论的示例处理器平台900、1000和1100中所示的处理器912、1012和/或1112。一个或多个程序或其部分可以体现在被存储在非暂时性计算机可读存储介质上的软件中，非暂时性计算机可读存储介质例如CD-ROM、软盘、硬盘驱动器、数字多功能盘(DVD)、Blu-ray disk^TM或与处理器912、1012和/或1112相关联的存储器，但是整个的一个或多个程序和/或其部分可以替代地由处理器912、1012和/1112以外的设备执行，和/或体现在固件或专用硬件中(例如，由ASIC、PLD、FPLD、分立逻辑等实现)。此外，尽管参照图5-8所示的流程图描述了示例程序，可以替代地使用实现示例视频监视***100、200、300和/或400、示例成像传感器105A-D、示例网络110、示例监控站115A-B、示例神经网络205、示例数据库210、示例增强型推理引擎315A-B和/或推理引擎230的示例实例310A-B和/或410A-B的许多其他方法。例如，参考图5-8所示的流程图，可以改变框的执行顺序，和/或可以改变、消除、组合所描述的一些框和/或将所描述的一些框细分成多个框。附加地或可替代地，任何或所有框可以由一个或多个硬件电路(例如，分立和/或集成的模拟和/或数字电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、比较器、运算放大器(op-amp)、逻辑电路等)来实现，其被构造为在不执行软件或固件的情况下执行对应的操作。

如上所述，图5-8的示例过程可以使用存储在非暂时性计算机和/或机器可读介质(例如，硬盘驱动器、闪存、只读存储器、压缩盘、数字多功能盘、高速缓存、随机存取存储器和/或任何其他存储设备或存储磁盘，在其中信息被存储任何持续时间(例如，延长的时间段、永久地、短暂地，例如临时缓冲和/或用于信息缓存))上的编码的指令(例如，计算机和/或机器可读指令)来实现。如本文所使用的，术语非暂时性计算机可读介质被明确定义为包括任何类型的计算机可读存储设备和/或存储盘，并且排除传播信号并排除传输介质。

“包含”和“包括”(及其所有形式和时态)在本文中用作开放式术语。因此，每当权利要求列出任何形式的“包括”或“包含”(例如，包括有、包含有、包括了、包含了等)之后的任何内容时，应理解的是，可以存在附加元素、术语等，而不落在对应权利要求的范围之外。如本文中所使用的，当短语“至少”用作权利要求的前序中的过渡术语时，其以与术语“包括”和“包含”是开放式的相同的方式是开放式的。此外，如本文所使用，除非另外指示，否则术语“计算机可读”和“机器可读”被认为是等同的。

图5示出了可被执行以实现图1-4的示例视频监视***100、200、300和400中包括的示例监控站115A-B中的一个或多个的示例程序500。为了方便起见且不失一般性，从在图4的示例视频监视***400中操作的示例监控站115A的角度描述了示例程序500的执行。参考前面的附图和相关联的书面描述，图5的示例程序500在框505处开始执行，在框505处，监控站115A经由网络110访问从成像传感器105A-D之一接收的视频馈送，并经由监控站115A的显示器120A呈现所访问的视频馈送。在框510处，监控站115A检测由人类操作员130A经由监控站105A的监控接口125A输入的操作员决定。如上所述，在框510处检测到的操作员决定指示在监控的视频馈送中是否描绘了感兴趣的事件或以其他方式表示了感兴趣的事件。例如，监控站115A可以基于任何分段标准将所访问的视频馈送分段为受监控的视频分段。例如，监控站115A可以基于视频馈送中检测到的转变，基于提供馈送的成像传感器105A-D的特性(例如，诸如传感器的扫描速率、传感器的图像捕获率等)将受监控视频馈送分段为具有给定持续时间(例如，15秒、30秒、60秒等，或任何持续时间)的连续视频片段。在这样的示例中，监控接口125A将输入操作员决定与显示器120A当时呈现的特定受监控的视频片段相关联。在一些示例中，如果在呈现给定视频片段的同时没有检测到输入操作员决定，则监控接口125A确定操作员决定是在该给定视频片段中没有描述感兴趣的事件。如上所述，在一些示例中，输入操作员决定是关于是否在受监控视频片段中描绘了预定的感兴趣的事件的是或否指示。但是，在一些示例中，输入操作员决定还可以包括对感兴趣事件的类型的描述，以及关于是否在受监控的视频片段中描绘了所描述的感兴趣事件的是或否指示。

在框515处，监控站115A的监控接口125A确定是否已检测到输入操作员决定。如果检测到操作员决定(框515)，则在框520处，监控接口125A访问将与当前受监控的视频片段相关联的事件标签，并更新事件标签以反映输入的操作员决定。例如，事件标签可以指示在对应的受监控视频片段中是否描绘感兴趣的预定义事件。在一些示例中，事件标签包括对感兴趣的事件的类型的描述，以及关于所描述的感兴趣的事件是否在对应的受监控视频片段中被描绘的指示。在一些示例中，如果在呈现给定视频片段的同时没有检测到输入的操作员决定，则在框520，监控接口125A更新该视频片段的事件标签以指示在对应的视频片段中没有描述感兴趣的事件。如图5的示例中所示，监控站105A还将在框505处访问的视频的视频片段和在框520处访问的对应事件标签提供给数据库210，以使数据库210能够创建上述操作员标记的视频片段的记录220。

在图5的示出的示例中，在框525处，监控站115A的监控接口125A确定针对当前受监控的视频片段检测到的输入操作员决定是否对应于要针对其触发警报的事件的检测。如果要触发警报(框525)，则在框530处，监控接口125A使警报被触发。例如，在框530处，监控接口125A可以自动触发听觉和/或视觉警报，可以联系紧急响应***以召唤第一响应者，等等。在框535处，监控站115A确定视频监视监控是否要继续。如果视频监视监控要继续(框535)，则处理返回到框505及其之后的框，以使监控站115A能够继续监控当前视频馈送和/或由监控站115A正经由网络110从成像传感器105A-D接收到的其他视频馈送。

图6中示出了可以被执行以实现被包括在图2-4的示例视频监视***200、300和400中的示例神经网络205和示例数据库210的示例程序600。为了方便起见且不失一般性，从在图4的示例视频监视***400中操作的示例神经网络205和示例数据库210的角度描述了示例程序600的执行。参考前面的附图和相关联的书面描述，图6的示例程序600在框605处开始执行，数据库210将经由网络110从监控站115A-B接收到的受监控视频片段和接收到的对应事件标签存储为操作员标记的视频片段的记录220，如上所述。在框610处，神经网络205使用由数据库210创建和存储的操作员标记的视频片段的记录220来训练其示例推理引擎230的第一实例或参考实例，以从视频片段中推断事件，如以上所描述的。在框615处，神经网络205将经训练的推理引擎230的实例部署到监控站点以从监控的视频馈送中推断事件，如上所述。

在图7示出了示例程序700，其可以被执行以实现包括在图2-4的示例视频监视***200、300和400中的示例数据库210和/或执行图6的框605处的处理。为了方便起见且不失一般性，从在图4的示例视频监视***400中操作的示例数据库210的角度描述了示例程序700的执行。参考前面的附图和相关联的书面描述，图7的示例程序700在框705处开始执行，在框705处，如上所述，数据库210经由网络110从监控站115A-B接收受监控视频片段和对应的事件标签。如上所述，事件标签反映了由人类操作员输入的关于以下方面的决定：是否在对应的受监控视频片段中描绘了感兴趣的事件或以其他方式表示了感兴趣的事件。在框710处，如上所述，数据库210根据在框705处接收到的所接收的视频片段以及对应事件标签创建操作员标记的视频片段的记录220，并将记录220存储在数据库210的示例记录存储装置225中。

在框715处，数据库210确定是否已经从神经网络205接收到对训练数据集的请求。如上所述，在一些示例中，该请求包括被请求以包括在该训练数据集中的记录220的数量。在一些示例中，该请求附加地或可替代地包括要由要被包括在训练数据集合中的记录220描绘或以其他方式由其表示的事件的类型。如果接收到针对训练数据的请求(框715)，则数据库210从满足该请求的记录存储装置225中取回记录220的训练集，并且将记录220的训练集输出至神经网络205(例如，经由网络110)来促进神经网络的训练。

在图8中示出了可被执行以实现包括在图2-4的示例视频监视***200、300和400中的示例神经网络205和/或执行图6的框610和615的处理的示例程序800。为了方便起见且不失一般性，从在图4的示例视频监视***400中操作的示例神经网络205的角度描述了示例程序800的执行。参考前面的附图和相关联的书面描述，图8的示例程序800在框805处开始执行，在框805处，神经网络205的示例训练数据取回器250请求并从数据库210获得操作员标记的视频片段的训练记录220集合。如上所述，在一些示例中，该请求包括被请求以包括在训练数据集合中的记录220的数量。在一些示例中，该请求附加地或可替代地包括要由要被包括在训练数据集合中的记录220描绘或以其他方式由其表示的事件的类型。

在框810处，如上所述，示例训练引擎240和示例比较器245使用获得的记录220训练集来训练神经网络205的示例推理引擎230以从包括训练记录220集合中的参考视频片段中推断事件。在框815处，神经网络205的示例部署器305如上所述将经训练的推理引擎230的实例部署到一个或多个目标监控位置，以从受监控视频馈送中推断事件。例如，在框815处，部署器305可以部署经训练的推理引擎230的示例实例310A-B，以由示例监控站105A-B执行或与示例监控站105A-B结合执行。附加地或可替代地，在一些示例中，部署器305可以将经训练的推理引擎230的示例实例410A-B部署到监控位置，以独立于监控站105A-B来执行视频监视监控。

在框820处，神经网络205获取(例如，经由网络110)由执行经训练的推理引擎230的实例310A-B或与其结合操作的监控站105A-B中的一个或多个确定的更新的训练数据。例如，并且如上所述，监控站105A-B可以将经训练的推理引擎230的实例310A-B的实例针对对应的受监控视频片段输出的推断事件与由监控站115A-B根据由人类操作员130A-B针对对应的受监控视频片段输入的操作员决定生成的对应操作员事件标签进行比较，来确定更新的训练数据。在框825处，如上所述，神经网络使用更新的训练数据来重新训练其推理引擎230的第一实例或参考实例。在框830处，如上所述，部署器305将重新训练的推理引擎230的实例重新部署到目标监控位置中的一个或多个。在框835处，神经网络205确定其推理引擎230的重新训练是否要继续。如果重新训练要继续，则处理返回到框820及其之后的框，以使得神经网络205能够基于从监控站105A-B接收到的更新的训练数据来继续对其推理引擎230进行重新训练。

图9是被构造为执行图5、图6、图7和/或图8的指令以实现图1-4的示例监控站115A-B的示例处理器平台900的框图。为了方便并且不失一般性，从实现示例监控站115A的角度描述了示例处理器平台900。处理器平台900可以是例如服务器、个人计算机、移动设备(例如，蜂窝电话、智能电话、诸如iPad^TM的平板电脑)、个人数字助理(PDA)、互联网设备等等，或任何其他类型的计算设备。

所示示例的处理器平台900包括处理器912。所示示例的处理器912是硬件。例如，处理器912可以由来自任何期望的系列或制造商的一个或多个集成电路、逻辑电路、微处理器或控制器来实现。硬件处理器912可以是基于半导体的(例如，基于硅的)设备。

所示示例的处理器912包括本地存储器913(例如，高速缓存)。所示示例的处理器912经由链路918与包括易失性存储器914和非易失性存储器916的主存储器通信。链路918可以由总线、一个或多个点对点连接等等或其组合来实现。易失性存储器914可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、RAMBUS动态随机存取存储器(RDRAM)和/或任何其他类型的随机存取存储器设备来实现。非易失性存储器916可以由闪存和/或任何其他期望类型的存储器设备来实现。对主存储器914、916的访问由存储器控制器控制。

所示示例的处理器平台900还包括接口电路920。接口电路920可以通过任何类型的接口标准来实现，例如以太网接口、通用串行总线(USB)和/或PCI express接口。

在示出的示例中，一个或多个输入设备922连接到接口电路920。输入设备922允许用户向处理器912中输入数据和命令。输入设备可以通过例如音频传感器、麦克风、相机(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、轨迹栏(例如，等值点)、语音识别***和/或其他任何人机接口来实现。同样，许多***(例如，处理器平台900)可以允许用户控制计算机***并使用物理手势(例如但不限于手或身体运动、面部表情和面部识别)向计算机提供数据。在一些示例中，输入数据设备922实现示例监控接口125A。

一个或多个输出设备924也连接到所示示例的接口电路920。输出设备924可以例如由显示设备(例如，发光二极管(LED)、有机发光二极管(OLED)、液晶显示器、阴极射线管显示器(CRT)、触摸屏、触觉输出设备、打印机和/或扬声器)来实现。因此，所示示例的接口电路920通常包括图形驱动器卡、图形驱动器芯片或图形驱动器处理器。在一些示例中，输出设备924实现示例显示器120A。

所示示例的接口电路920还包括通信设备，例如发射机、接收机、收发机、调制解调器和/或网络接口卡，以促进经由诸如示例网络110之类的网络926(例如，以太网连接、数字用户线(DSL)、电话线、同轴电缆、蜂窝电话***等)与外部机器(例如，任何计算机设备的计算设备)的数据交换。

所示示例的处理器平台900还包括用于存储软件和/或数据的一个或多个大容量存储设备928。这种大容量存储设备928的示例包括软盘驱动器、硬盘驱动器、压缩盘驱动器、蓝光盘驱动器、RAID(独立磁盘冗余阵列)***和数字多功能盘(DVD)驱动器。

对应于图5、6、7和/或8的指令的编码指令932可以存储在大容量存储设备928中、易失性存储器914中、非易失性存储器916中、本地存储器913中和/或可移动有形计算机可读存储介质中，例如CD或DVD 936。

图10是被构造为执行图5、图6、图7和/或图8的指令来实现图2-4的示例数据库210的示例处理器平台1000的框图。处理器平台1000可以是例如服务器、个人计算机、移动设备(例如，蜂窝电话、智能电话、诸如iPad^TM之类的平板电脑)、PDA、互联网设备等，或者任何其他类型的计算设备。

所示示例的处理器平台1000包括处理器1012。所示示例的处理器1012是硬件。例如，处理器1012可以由来自任何期望系列或制造商的一个或多个集成电路、逻辑电路、微处理器或控制器来实现。硬件处理器1012可以是基于半导体的(例如，基于硅的)设备。

所示示例的处理器1012包括本地存储器1013(例如，高速缓存)。所示示例的处理器1012经由链路1018与包括易失性存储器1014和非易失性存储器1016的主存储器通信。链路1018可以由总线、一个或多个点对点连接等等或其组合来实现。易失性存储器1014可以由SDRAM、DRAM、RDRAM和/或任何其他类型的随机存取存储器设备实现。非易失性存储器1016可以由闪存和/或任何其他期望类型的存储器设备来实现。对主存储器1014、1016的访问由存储器控制器控制。

所示示例的处理器平台1000还包括接口电路1020。接口电路1020可以通过任何类型的接口标准来实现，例如以太网接口、USB和/或PCI express接口。

在示出的示例中，一个或多个输入设备1022连接到接口电路1020。输入设备1022允许用户将数据和命令输入到处理器1012中。可以通过例如音频传感器、麦克风、相机(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、轨迹栏(例如，等值点)、语音识别***和/或其他任何人机接口来实现输入设备。而且，许多***(例如，处理器平台1000)可以允许用户使用物理手势来控制计算机***并向计算机提供数据，所述物理手势例如但不限于手或身体的运动、面部表情和面部识别。

一个或多个输出设备1024也连接到所示示例的接口电路1020。输出设备1024可以例如由显示设备(例如，LED、OLED、液晶显示器、CRT显示器、触摸屏、触觉输出设备、打印机和/或扬声器)实现。因此，所示示例的接口电路1020通常包括图形驱动器卡、图形驱动器芯片或图形驱动器处理器。

所示示例的接口电路1020还包括通信设备，例如发射机、接收机、收发机、调制解调器和/或网络接口卡，以促进经由诸如示例网络110之类的网络1026(例如，以太网连接、DSL、电话线、同轴电缆、蜂窝电话***等)与外部机器(例如，任何种类的计算设备)的数据交换。

所示示例的处理器平台1000还包括一个或多个用于存储软件和/或数据的大容量存储设备1028。这种大容量存储设备1028的示例包括软盘驱动器、硬盘驱动器、压缩盘驱动器、蓝光盘驱动器、RAID***和DVD驱动器。在一些示例中，大容量存储设备1028可以实现示例记录存储装置225。附加地或可替代地，在一些示例中，易失性存储器1014可以实现示例记录存储装置225。

对应于图5、6、7和/或8的指令的编码指令1032可以存储在大容量存储设备1028中、易失性存储器1014中、非易失性存储器1016中、本地存储器1013中和/或可移动有形计算机可读存储介质中，例如CD或DVD 1036。

图11是被构造为执行图5、图6、图7和/或图8的指令来实现图2-4的示例神经网络205的示例处理器平台1100的框图。处理器平台1100可以是例如服务器、个人计算机、移动设备(例如，蜂窝电话、智能电话、诸如iPad^TM之类的平板电脑)、PDA、互联网设备等，或者任何其他类型的计算设备。

所示示例的处理器平台1100包括处理器1112。所示示例的处理器1112是硬件。例如，处理器1112可以由来自任何期望系列或制造商的一个或多个集成电路、逻辑电路、微处理器或控制器来实现。硬件处理器1112可以是基于半导体的(例如，基于硅的)设备。在该示例中，处理器1112实现示例推理引擎230、示例训练引擎240、示例比较器245、示例训练数据取回器250和/或示例部署器305。

所示示例的处理器1112包括本地存储器1113(例如，高速缓存)。所示示例的处理器1112经由链路1118与包括易失性存储器1114和非易失性存储器1116的主存储器通信。链路1118可以由总线、一个或多个点对点连接等等或其组合来实现。易失性存储器1114可以由SDRAM、DRAM、RDRAM和/或任何其他类型的随机存取存储器设备实现。非易失性存储器1116可以由闪存和/或任何其他期望类型的存储器设备来实现。对主存储器1114、1116的访问由存储器控制器控制。

所示示例的处理器平台1100还包括接口电路1120。接口电路1120可以通过任何类型的接口标准来实现，例如以太网接口、USB和/或PCI express接口。

在所说明的示例中，一个或多个输入设备1122连接到接口电路1120。输入设备1122允许用户将数据和命令输入到处理器1112中。可以通过例如音频传感器、麦克风、相机(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、轨迹栏(例如，等值点)、语音识别***和/或其他任何人机接口来实现输入设备。而且，许多***(例如，处理器平台1100)可以允许用户使用物理手势来控制计算机***并向计算机提供数据，所述物理手势例如但不限于手或身体的运动、面部表情和面部识别。

一个或多个输出设备1124也连接到所示示例的接口电路1120。输出设备1124可以例如由显示设备(例如，LED、OLED、液晶显示器、CRT显示器、触摸屏、触觉输出设备、打印机和/或扬声器)实现。因此，所示示例的接口电路1120通常包括图形驱动器卡、图形驱动器芯片或图形驱动器处理器。

所示示例的接口电路1120还包括通信设备，例如发射机、接收机、收发机、调制解调器和/或网络接口卡，以促进经由诸如示例网络110之类的网络1126(例如，以太网连接、DSL、电话线、同轴电缆、蜂窝电话***等)与外部机器(例如，任何种类的计算设备)的数据交换。

所示示例的处理器平台1100还包括一个或多个用于存储软件和/或数据的大容量存储设备1128。这种大容量存储设备1128的示例包括软盘驱动器、硬盘驱动器、压缩盘驱动器、蓝光盘驱动器、RAID***和DVD驱动器。

对应于图5、6、7和/或8的指令的编码指令1132可以被存储在大容量存储设备1128中、在易失性存储器1114中、在非易失性存储器1116中、在本地存储器1113中和/或在可移动有形计算机可读存储介质上，例如CD或DVD 1136。

前述公开提供了利用神经网络的视频监视的示例。本文公开了以下另外的示例，其包括以下主题：诸如用于利用神经网络实现视频监视的视频监视***，包括指令的至少一个计算机可读存储介质(当由至少一个处理器执行时，该指令使得至少一个处理器利用神经网络实现视频监视)，用于利用神经网络实现视频监视的单元，以及用于利用神经网络执行视频监视的视频监视方法。所公开的示例可以单独地和/或以一种或多种组合来实现。

根据前述内容，将认识到，本文已经公开了用于利用神经网络实现视频监视的示例方法、装置、***和制品(例如，物理存储介质)。公开的示例包括具有推理引擎的神经网络，该神经网络被训练以检测或推断监控的视频馈送中的事件。使用具有参考事件标签的参考视频片段的训练集来训练神经网络推理引擎，该参考事件标签指示参考视频片段是否描绘了定义的事件。然后将经训练的推理引擎部署到一个或多个监控位置，并进行操作(例如，并行、异步、协作等)，以推断一个或多个训练的事件(例如，安全违规、个体的存在、包裹的到达等)是否在其监控的对应视频馈送中被表示。在一些示例中，可以将经训练/重新训练的推理引擎的实例部署到无人操纵监控位置，或者在有人操纵的位置处提供附加的容量，从而允许视频监视***的容量随需求增加而容易地扩展。

前述公开提供了利用神经网络实现视频监视的示例。下文公开了利用神经网络实现视频监视的其他示例。所公开的示例可以个别地和/或以一种或多种组合来实现。

示例1是一种视频监视***，包括数据库，其用于存储操作员标记的视频片段，所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签。示例1的***还包括神经网络，所述神经网络包括：推理引擎的第一实例；以及训练引擎，其用于基于从所述数据库中获得的所述操作员标记的视频片段的训练集来训练所述推理引擎的第一实例，所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件。示例1的***还包括所述推理引擎的第二实例，其用于从受监控视频馈送中推断事件，所述推理引擎的第二实例基于所述推理引擎的第一实例。

示例2包括示例1的主题，其中，所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。

示例3包括示例1和/或2的主题，其中，与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘所述事件类型。

示例4包括示例1-3中的一个或多个的主题，并且还包括监控站，所述监控站包括：显示器，其用于呈现所述受监控视频馈送中的第一受监控视频馈送；以及监控接口，其用于基于与所述受监控视频馈送中的第一受监控视频馈送的受监控视频片段相对应的操作员决定来生成操作员事件标签。

示例5包括示例4的主题，其中，所述数据库与所述监控站通信，以接收所述受监控视频片段中的第一受监控视频片段以及与所述受监控视频片段中的第一受监控视频片段相对应的所述操作员事件标签中的第一操作员事件标签，所述数据库用于将所述受监控视频片段中的第一受监控视频片段以及所述操作员事件标签中的对应的第一操作员事件标签存储为所述参考视频片段中的第一参考视频片段以及所述操作员标记的视频片段中的第一操作员标记的视频片段中包括的所述参考事件标签中的对应的第一参考事件标签。

示例6包括示例5的主题，其中，所述监控站还用于实现所述推理引擎的第二实例。

示例7包括示例6的主题，其中，所述推理引擎的第二实例用于针对所述受监控视频馈送中的第一受监控视频馈送的受监控视频片段中的第二受监控视频片段输出推断事件，所述监控接口用于根据针对受监控视频片段中的第二受监控视频片段检测到的操作员决定来生成所述操作员事件标签中的第二操作员事件标签，并且所述监控站还包括比较器，以用于比较所述推断事件和所述操作员事件标签中的第二操作员事件标签以获得更新的训练数据。

示例8包括示例7的主题，其中，所述神经网络与所述监控站通信以接收所述更新的训练数据，并且所述训练引擎用于基于所述更新的训练数据来重新训练所述推理引擎的第一实例。

示例9包括至少一种非暂时性计算机可读存储介质，包括计算机可读指令，所述计算机可读指令在被执行时使一个或多个处理器至少：基于操作员标记的视频片段的训练集来训练推理引擎的第一实例，所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签，所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件；以及部署所述推理引擎的第二实例以从受监控视频馈送中推断事件，所述推理引擎的第二实例基于所述推理引擎的第一实例。

示例10包括示例9的主题，其中，所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。

示例11包括示例9和/或10的主题，其中，与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘了所述事件类型。

示例12包括示例9-11中的一个或多个的主题，其中，所述计算机可读指令在被执行时使所述一个或多个处理器从监控站获取所述参考视频片段中的第一参考视频片段以及所述参考事件标签中的对应的第一参考事件标签。

示例13包括示例12的主题，其中，所述计算机可读指令在被执行时使所述一个或多个处理器将所述推理引擎的第二实例部署到所述监控站。

示例14包括示例13的主题，其中，当所述推理引擎的第二实例最初被部署到所述监控站时，所述推理引擎的第二实例是所述推理引擎的第一实例的复制。

示例15包括示例13的主题，其中，所述监控站用于通过比较以下两项来获得更新的训练数据：(1)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件，以及(ii)由所述监控站针对所述受监控视频馈送的所述片段生成的操作员事件标签，并且所述计算机可读指令在被执行时还使所述一个或多个处理器基于所述更新的训练数据来重新训练所述推理引擎的第一实例。

示例16是一种装置，包括用于获得操作员标记的视频片段的单元，所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签。示例16的装置还包括用于基于所述操作员标记的视频片段的训练集来训练推理引擎的第一实例的单元，所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件。示例16的装置还包括用于部署所述推理引擎的第二实例以从受监控视频馈送中推断事件的单元，所述推理引擎的第二实例基于所述推理引擎的第一实例。

示例17包括示例16的主题，其中，所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。

示例18包括示例16和/或17的主题，其中，与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘了所述事件类型。

示例19包括示例16-18中的一个或多个的主题，其中，用于获得操作员标记的视频片段的记录的所述单元用于从监控站获得所述参考视频片段中的第一参考视频片段和所述参考事件标签中的对应的第一参考事件标签。

示例20包括示例19的主题，其中，用于部署所述推理引擎的第二实例的所述单元用于将所述推理引擎的第二实例部署到所述监控站。

示例21包括示例20的主题，其中，当所述推理引擎的第二实例最初被部署到所述监控站时，所述推理引擎的第二实例是所述推理引擎的第一实例的复制。

示例22包括示例20的主题，其中，所述监控站用于通过比较以下两项来获得更新的训练数据：(1)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件，以及(ii)由所述监控站针对受监控视频馈送的所述片段生成的操作员事件标签，并且用于训练所述推理引擎的第一实例的所述单元还用于基于所述更新的训练数据来重新训练所述推理引擎的第一实例。

示例23是一种视频监视方法，包括：通过用至少一个处理器执行指令来基于操作员标记的视频片段的训练集训练推理引擎的第一实例，所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签，所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件。示例23的视频监视方法还包括：通过用所述至少一个处理器执行指令来部署所述推理引擎的第二实例以从受监控视频馈送中推断事件，所述推理引擎的第二实例基于所述推理引擎的第一实例。

示例24包括示例23的主题，其中，所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。

示例25包括示例23和/或24的主题，其中，与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的所述第一参考视频片段是否描绘了所述事件类型。

示例26包括示例23-25中的一个或多个的主题，其中，访问操作员标记的视频片段的记录包括从监控站获得所述参考视频片段中的第一参考视频片段和所述参考事件标签中的对应的第一参考事件标签。

示例27包括示例26的主题，其中，所述推理引擎的第二实例的部署包括将所述推理引擎的第二实例部署到所述监控站。

示例28包括示例27的主题，其中，当所述推理引擎的第二实例最初被部署到所述监控站时，所述推理引擎的第二实例是所述推理引擎的第一实例的复制。

示例29包括示例27的主题，其中，所述监控站用于通过比较以下两项来获取更新的训练数据：(1)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件，以及(ii)由所述监控站针对所述受监控视频馈送的所述片段生成的操作员事件标签，并且对所述推理引擎的第一实例的训练还包括基于所述更新的训练数据来重新训练所述推理引擎的第一实例。

尽管本文已经公开了某些示例方法、装置和制品，但是本专利的覆盖范围不限于此。相反，本专利涵盖了完全落入本专利权利要求范围内的所有方法、装置和制品。

Claims

1.一种视频监视***，包括：

数据库，其用于存储操作员标记的视频片段，所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签；

神经网络，其包括：

推理引擎的第一实例；以及

训练引擎，其用于基于从所述数据库中获得的所述操作员标记的视频片段的训练集来训练所述推理引擎的第一实例，所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件；以及

所述推理引擎的第二实例，其用于从受监控视频馈送中推断事件，所述推理引擎的第二实例基于所述推理引擎的第一实例。

2.根据权利要求1所述的视频监视***，其中，所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。

3.根据权利要求1所述的视频监视***，其中，与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘所述事件类型。

4.根据权利要求1所述的视频监视***，还包括监控站，所述监控站包括：

显示器，其用于呈现所述受监控视频馈送中的第一受监控视频馈送；以及

监控接口，其用于基于与所述受监控视频馈送中的第一受监控视频馈送的受监控视频片段相对应的操作员决定来生成操作员事件标签。

5.根据权利要求4所述的视频监视***，其中，所述数据库与所述监控站通信，以接收所述受监控视频片段中的第一受监控视频片段以及与所述受监控视频片段中的第一受监控视频片段相对应的所述操作员事件标签中的第一操作员事件标签，所述数据库用于将所述受监控视频片段中的第一受监控视频片段以及所述操作员事件标签中的对应的第一操作员事件标签存储为所述参考视频片段中的第一参考视频片段以及所述操作员标记的视频片段中的第一操作员标记的视频片段中包括的所述参考事件标签中的对应的第一参考事件标签。

6.根据权利要求5所述的视频监视***，其中，所述监控站还用于实现所述推理引擎的第二实例。

7.根据权利要求6所述的视频监视***，其中，所述推理引擎的第二实例用于针对所述受监控视频馈送中的第一受监控视频馈送的受监控视频片段中的第二受监控视频片段输出推断事件，所述监控接口用于根据针对所述受监控视频片段中的第二受监控视频片段检测到的操作员决定来生成所述操作员事件标签中的第二操作员事件标签，并且所述监控站还包括比较器，以用于比较所述推断事件和所述操作员事件标签中的第二操作员事件标签以获得更新的训练数据。

8.根据权利要求7所述的视频监视***，其中，所述神经网络与所述监控站通信以接收所述更新的训练数据，并且所述训练引擎用于基于所述更新的训练数据来重新训练所述推理引擎的第一实例。

9.至少一种非暂时性计算机可读存储介质，包括计算机可读指令，所述计算机可读指令在被执行时使一个或多个处理器至少：

基于操作员标记的视频片段的训练集来训练推理引擎的第一实例，所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签，所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件；以及

部署所述推理引擎的第二实例以从受监控视频馈送中推断事件，所述推理引擎的第二实例基于所述推理引擎的第一实例。

10.根据权利要求9所述的至少一个存储介质，其中，所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。

11.根据权利要求9所述的至少一个存储介质，其中，与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘了所述事件类型。

12.根据权利要求9所述的至少一个存储介质，其中，所述计算机可读指令在被执行时使所述一个或多个处理器从监控站获得所述参考视频片段中的第一参考视频片段以及所述参考事件标签中的对应的第一参考事件标签。

13.根据权利要求12所述的至少一个存储介质，其中，所述计算机可读指令在被执行时使所述一个或多个处理器将所述推理引擎的第二实例部署到所述监控站。

14.根据权利要求13所述的至少一个存储介质，其中，当所述推理引擎的第二实例最初被部署到所述监控站时，所述推理引擎的第二实例是所述推理引擎的第一实例的复制。

15.根据权利要求13所述的至少一个存储介质，其中，所述监控站用于通过比较以下两项来获得更新的训练数据：(i)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件，以及(ii)由所述监控站针对所述受监控视频馈送的所述片段生成的操作员事件标签，并且所述计算机可读指令在被执行时还使所述一个或多个处理器基于所述更新的训练数据来重新训练所述推理引擎的第一实例。

16.一种装置，包括：

用于获得操作员标记的视频片段的单元，所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签；

用于基于所述操作员标记的视频片段的训练集来训练推理引擎的第一实例的单元，所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件；以及

用于部署所述推理引擎的第二实例以从受监控视频馈送中推断事件的单元，所述推理引擎的第二实例基于所述推理引擎的第一实例。

17.根据权利要求16所述的装置，其中，所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。

18.根据权利要求16所述的装置，其中，与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘了所述事件类型。

19.根据权利要求16所述的装置，其中，用于获得操作员标记的视频片段的记录的所述单元用于从监控站获得所述参考视频片段中的第一参考视频片段和所述参考事件标签中的对应的第一参考事件标签。

20.根据权利要求19所述的装置，其中，用于部署所述推理引擎的第二实例的所述单元用于将所述推理引擎的第二实例部署到所述监控站。

21.根据权利要求20所述的装置，其中，当所述推理引擎的第二实例最初被部署到所述监控站时，所述推理引擎的第二实例是所述推理引擎的第一实例的复制。

22.根据权利要求20所述的装置，其中，所述监控站用于通过比较以下两项来获得更新的训练数据：(i)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件，以及(ii)由所述监控站针对所述受监控视频馈送的所述片段生成的操作员事件标签，并且用于训练所述推理引擎的第一实例的所述单元还用于基于所述更新的训练数据来重新训练所述推理引擎的第一实例。

23.一种视频监视方法，包括：

通过用至少一个处理器执行指令来基于操作员标记的视频片段的训练集训练推理引擎的第一实例，所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签，所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件；以及

通过用所述至少一个处理器执行指令来部署所述推理引擎的第二实例以从受监控视频馈送中推断事件，所述推理引擎的第二实例基于所述推理引擎的第一实例。

24.根据权利要求23所述的方法，其中，所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。

25.根据权利要求23所述的方法，其中，与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的所述第一参考视频片段是否描绘了所述事件类型。

26.根据权利要求23所述的方法，其中，访问操作员标记的视频片段的记录包括从监控站获得所述参考视频片段中的第一参考视频片段和所述参考事件标签中的对应的第一参考事件标签。

27.根据权利要求26所述的方法，其中，所述推理引擎的第二实例的部署包括将所述推理引擎的第二实例部署到所述监控站。

28.根据权利要求27所述的方法，其中，当所述推理引擎的第二实例最初被部署到所述监控站时，所述推理引擎的第二实例是所述推理引擎的第一实例的复制。

29.根据权利要求27所述的方法，其中，所述监控站用于通过比较以下两项来获取更新的训练数据：(i)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件，以及(ii)由所述监控站针对所述受监控视频馈送的所述片段生成的操作员事件标签，并且对所述推理引擎的第一实例的训练还包括基于所述更新的训练数据来重新训练所述推理引擎的第一实例。