CN112424789A - 利用神经网络的视频监视 - Google Patents
利用神经网络的视频监视 Download PDFInfo
- Publication number
- CN112424789A CN112424789A CN201980045392.4A CN201980045392A CN112424789A CN 112424789 A CN112424789 A CN 112424789A CN 201980045392 A CN201980045392 A CN 201980045392A CN 112424789 A CN112424789 A CN 112424789A
- Authority
- CN
- China
- Prior art keywords
- instance
- inference engine
- video
- event
- operator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 126
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012544 monitoring process Methods 0.000 claims description 191
- 238000004891 communication Methods 0.000 claims description 17
- 238000004519 manufacturing process Methods 0.000 abstract description 6
- 238000003384 imaging method Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 17
- 230000001413 cellular effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 241000699670 Mus sp. Species 0.000 description 3
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 229910052710 silicon Inorganic materials 0.000 description 3
- 239000010703 silicon Substances 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000246 remedial effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B13/00—Burglar, theft or intruder alarms
- G08B13/18—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
- G08B13/189—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
- G08B13/194—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
- G08B13/196—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
- G08B13/19602—Image analysis to detect motion of the intruder, e.g. by frame subtraction
- G08B13/19613—Recognition of a predetermined image pattern or behaviour pattern indicating theft or intrusion
- G08B13/19615—Recognition of a predetermined image pattern or behaviour pattern indicating theft or intrusion wherein said pattern is defined by the user
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B13/00—Burglar, theft or intruder alarms
- G08B13/18—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
- G08B13/189—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
- G08B13/194—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
- G08B13/196—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
- G08B13/19665—Details related to the storage of video surveillance data
- G08B13/19671—Addition of non-video data, i.e. metadata, to video stream
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B13/00—Burglar, theft or intruder alarms
- G08B13/18—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
- G08B13/189—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
- G08B13/194—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
- G08B13/196—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
- G08B13/19678—User interface
- G08B13/19682—Graphic User Interface [GUI] presenting system data to the user, e.g. information on a screen helping a user interacting with an alarm system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Alarm Systems (AREA)
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Abstract
公开了用于利用神经网络实现视频监视的示例方法、装置、***和制品(例如,物理存储介质)。本文公开的示例***包括用于存储操作员标记的视频片段的记录(例如,作为操作员标记的视频片段的记录)的数据库。操作员标记的视频片段包括参考视频片段和描述视频片段的对应参考事件标签。公开的示例***还包括:神经网络,其包括推理引擎的第一实例;以及训练引擎,其用于基于从数据库获得的操作员标记的视频片段的训练集来训练推理引擎的第一实例,该推理引擎的第一实例用于从训练集中包括的操作员标记的视频片段中推断事件。公开的示例***还包括推理引擎的第二实例,其用于从受监控视频馈送中推断事件,推理引擎的第二实例基于推理引擎的第一实例。
Description
技术领域
本公开总体上涉及视频监视,并且更具体地,涉及利用神经网络的视频监视。
背景技术
传统上,视频监视***已被大型机构(例如,大型商业企业、政府机关、教育机构等)用于安全监控。这样的视频监视***通常采用摄像机来覆盖要监控的区域,并将视频馈送提供给中央监控设施,例如安全办公室。中央监控设施通常包括一个或多个由一个或多个人类操作员操纵的监控站,这些操作员查看受监控的视频馈送并标记感兴趣的事件。在一些示例中,监控站允许人类操作员记录感兴趣的事件并采取适当的补救措施,例如启动警报、联系急救人员等。
最近,随着视频监视摄像机的成本降低,在其他环境中视频监视***的使用也增加了。例如,装备有视频监视***以进行监控的家庭、较小型企业、公园、公共区域等已变得司空见惯。例如,这样的视频监视***可能依赖于低成本相机和/或任何其他成像传感器来监控关注区域。这些摄像机通常包括网络接口,使摄像机能够连接到网络,这允许摄像机将其相应的视频馈送传输到一个或多个远程监控设施。这些远程监控设施再次依赖于由人类操作员操纵的监控站来查看监控的视频馈送、标记感兴趣的事件并响应于感兴趣的事件采取适当的措施。
附图说明
图1是示例视频监视***的框图。
图2是根据本公开内容的教导的第一示例视频监视***的框图,该***包括被构造为支持视频监视的可训练神经网络。
图3是根据本公开内容的教导的第二示例视频监视***的框图,该***包括可训练的神经网络和被构造为支持视频监视的经训练的推理引擎。
图4是根据本公开内容的教导的第三示例视频监视***的框图,该第三示例视频监视***包括可训练的神经网络和被构造为支持视频监视的经训练的推理引擎。
图5-8示出了代表示例机器可读指令的流程图,该示例机器可读指令可以被执行以实现图2-4的示例视频监视***。
图9是示例处理器平台的框图,该示例处理器平台被构造为执行来自图5-8中的一个或多个的示例机器可读指令,以实现被包括在图2-4的示例视频监视***中的示例监控站。
图10是示例处理器平台的框图,该示例处理器平台被构造为执行来自图5-8中的一个或多个的示例机器可读指令,以实现被包括在图2-4的示例视频监视***中的示例数据库。
图11是示例处理器平台的框图,该示例处理器平台被构造为执行来自图5-8中的一个或多个的示例机器可读指令,以实现被包括在图2-4的示例视频监视***中的示例神经网络。
各个图未按比例绘制。在可能的情况下,将贯穿附图和随附的书面描述使用相同的附图标记来表示相同或相似的部件、元素等。
具体实施方式
本文公开了用于利用神经网络实现视频监视的示例方法、装置、***和制品(例如,物理存储介质)。本文公开的示例视频监视***包括用于存储操作员标记的视频片段(例如,作为操作员标记的视频片段的记录)的数据库。操作员标记的视频片段包括参考视频片段和用于描述参考视频片段的对应的参考事件标签。公开的示例视频监视***还包括神经网络,该神经网络包括推理引擎的第一实例,以及训练引擎,该训练引擎用于基于从数据库获得的操作员标记的视频片段的训练集来训练推理引擎的第一实例。在公开的示例中,推理引擎的第一实例用于从训练集中包括的操作员标记的视频片段中推断事件。公开的示例视频监视***还包括推理引擎的第二实例,以从监控的视频馈送中推断事件,其中推理引擎的第二实例基于推理引擎的第一实例(例如,最初是其副本)。
在一些公开的示例中,参考事件标签指示对应的参考视频片段是否描绘了定义的事件。
在一些公开的示例中,与参考视频片段中的第一参考视频片段相对应的参考事件标签中的第一参考事件标签指示(i)事件类型,以及(ii)参考视频片段中的第一参考视频片段是否描绘了该事件类型。
一些公开的示例视频监视***包括监控站。在一些公开的示例中,监控站包括用于呈现受监控视频馈送中的第一受监控视频馈送的显示器,以及用于基于与受监控视频馈送中的第一受监控视频馈送的监控视频片段相对应的操作员决定来生成操作员事件标签的监控接口。
在一些这样公开的示例中,数据库与监控站通信以接收受监控的视频片段中的第一受监控的视频片段和与受监控的视频片段中的第一受监控的视频片段相对应的操作员事件标签中的第一操作员事件标签。在一些这样的示例中,数据库将受监控的视频片段中的第一受监控的视频片段和操作员事件标签中的对应的第一操作员事件标签存储为操作员标记的视频片段中的第一操作员标记的视频片段中包括的参考视频片段中的第一参考视频片段和参考事件标签中的对应的第一参考事件标签。
附加地或可替代地,在一些这样公开的示例中,监控站还用于实现推理引擎的第二实例。例如,推理引擎的第二实例可以输出针对由监控站的显示器呈现的受监控视频馈送中的第一受监控视频馈送的监控视频片段中的第二监控视频片段的推断事件。在一些这样的示例中,监控站的监控接口将根据针对受监控的视频片段中的第二受监控的视频片段检测到的操作员决定来生成操作员事件标签中的第二操作员事件标签。在一些这样的示例中,监控站还包括比较器,用于比较推断出的事件和操作员事件标签中的第二操作员事件标签,以获得更新的训练数据。在一些公开的示例中,神经网络与监控站通信以接收更新的训练数据,并且神经网络的训练引擎基于更新的训练数据来重新训练推理引擎的第一实例。
下面将更详细地公开这些和其他示例方法、装置、***和制品(例如,物理存储介质),以利用神经网络来实现视频监视。
视频监视***通常由大型机构(例如,大型商业企业、政府机关、教育机构等)用于安全监控。最近,随着视频监视摄像机的成本降低,在其他环境中视频监视***的使用也增加了。例如,装备有视频监视***以进行监控的家庭、较小型企业、公园、公共区域等已变得司空见惯。这样的较新的视频监视***可能依赖于低成本摄像机和/或能够连接到诸如互联网之类的网络、可经由互联网和/或其他网络访问的一个或多个云服务等的任何其他成像传感器。这样的网络访问使摄像机和/或其他成像传感器能够将其相应的视频馈送传输到一个或多个远程监控设施。这些远程监控设施通常依靠人类操作员操纵的监控站来查看监控的视频馈送、标记感兴趣的事件并响应于感兴趣的事件采取适当的措施。随着视频监视摄像机/传感器和相关联的网络技术的成本不断降低,视频监视的使用有望继续增长,并可能呈指数增长。但是,依靠由人类操作员操纵的监控站来监控视频监视***生成的视频馈送限制了视频监视的可扩展性,并且可能影响事件检测的准确性,尤其是当人类操作员由于要监控的视频馈送数量过多而超负荷时。
如本文所公开的用神经网络实现的视频监视***为与依赖于人类操作员进行视频馈送监控的现有视频监视***相关的可扩展性和准确性问题提供了技术解决方案。本文公开的示例视频监视***包括具有推理引擎的神经网络,该神经网络经过训练以检测或推断监控的视频馈送中的事件。如下面进一步详细公开的那样,使用参考视频片段的训练集来训练神经网络,参考事件标签是基于人类操作员的决定而确定的。例如,参考事件标签可以描述对应的参考视频片段是否描绘了已定义的事件(例如,安全违规、个体的在场、包裹的到达、任何指定/预定的事件等)。在一些示例中,参考事件标签还可以包括感兴趣的事件类型的描述(例如,安全违规、个体的在场、包裹的到达等)以及对对应的参考视频片段是否描绘了所描述的事件的指示。
如下面进一步详细描述的,一些公开的示例视频监视***将经训练的推理引擎的实例部署到一个或多个监控位置,以从相应监控的视频馈送中推断事件。例如,经训练的推理引擎可以操作(例如,并行、异步、协作地等)来推断在他们监控的对应视频馈送中是否表示了一个或多个经训练的事件(例如,安全违规、个体的在场,包裹的到达等)。在一些这样的示例中,可以将经训练的推理引擎部署为通过由人类操作员操纵的监控站执行或与由人类操作员操纵的监控站一起操作,以增强由人类操作员执行的监控。在一些这样的示例中,可以将结合有人操纵的监控站操作的经训练的推理引擎输出的推断事件与人类操作员做出的对应决定进行比较,以确定可以用于完善推理引擎操作的更新的训练数据。例如,视频监视***中的神经网络可以接收更新的训练数据、重新训练其推理引擎、并且然后将重新训练的推理引擎的实例重新部署到一个或多个监控位置。在一些示例中,可以将经训练/重新训练的推理引擎的实例部署到无人操纵监控位置,或者在有人操纵的位置提供额外的容量,从而允许视频监视***的容量随需求增加而容易地扩展。如本文所公开的利用神经网络的视频监视的这些和其他方面在下面进一步详细描述。
转向附图,图1中示出了示例视频监视***100的框图。图1的示例视频监视***100包括示例成像传感器105A-D、示例网络110和示例监控站115A-B。在图1的图示示例中,成像传感器105A-D被配置为监控感兴趣的区域,例如但不限于一个或多个商业企业、小型企业、政府办公室、教育机构、家庭、公园、公共区域等中的区域,和/或其任何组合。示例成像传感器105A-D可以包括任何数量、类型和/或组合的成像传感器。例如,成像传感器105A-D可以由一个或多个摄像机、智能电话、光电二极管、光检测器等实现。
在图1的示例视频监视***100中,成像传感器105A-D包括能够与示例网络110通信的网络接口。示例网络110可以由任何数量、类型和/或组合的网络来实现。例如,网络110可以由互联网和/或可经由互联网访问的一个或多个云服务来实现。在一些示例中,成像传感器105A-D包括能够经由一个或多个无线接入点(例如,蜂窝接入点/基站、无线局域网接入点、蓝牙接入点等等)、有线接入点(例如,以太网接入点、有线通信链路等)或其任意组合访问网络110的网络接口。
在图1的示例视频监视***100中,成像传感器105A-D将其相应的视频馈送传送到监控站115A-B,监控站115A-B包括能够与网络110通信的相应网络接口。这样,监控站115A-B经由网络110与成像传感器105A-D进行通信。如本文所使用的,短语“与……通信”包括其变型涵盖直接通信和/或通过一个或多个中间组件的间接通信,并且不需要直接的物理(例如,有线)通信和/或持续通信,但另外还包括定期或非定期间隔的选择性通信以及一次性事件。
所示示例的监控站115A-B可以由能够呈现监控的视频馈送并接受与监控的视频馈送有关的用户输入的任何***/设备来实现。例如,监控站115A-B可以由任何数量、类型和/或组合的计算***/设备(例如,一个或多个计算机、工作站、智能电话、平板计算机、个人数字助理(PDA)等)来实现。在一些示例中,监控站115A-B由处理器平台实现,例如图9中所示的示例处理器平台900,其将在下面进一步详细描述。
在图1的所示示例中,监控站115A-B包括相应的示例显示器120A-B和相应的示例监控接口125A-B,以使得由成像传感器105A-D报告的视频馈送能够***作员130A-B监控。在所示示例中,相应监控站115A-B的显示器120A-B被配置为呈现由成像传感器105A-D报告的一个或多个视频馈送。例如,显示器120A-B可以呈现一个视频馈送,一次一个地循环呈现多个视频馈送,以平铺方式(tiled manner)同时呈现多个视频馈送,等等。
相应监控站115A-B的监控接口125A-B被配置为接受来自人类操作员130A-B的输入,该输入反映了人类操作员130A-B关于是否在由显示器120A-B所呈现的视频馈送中描绘事件的决定。例如,监控接口125A-B可以包括输入按钮或键(在图1中标记为“Y”和“N”)以允许人类操作员130A-B指示受监控视频馈送的视频片段是否描绘或以其他方式代表感兴趣的事件(例如,其中“Y”指示描绘/表示了感兴趣的事件,而“N”指示未描绘/表示感兴趣的事件)。例如,可以对人类操作员130A-B进行训练,以检测感兴趣的事件,例如但不限于安全违规、个人的在场、包裹的到达等。在一些这样的示例中,人类操作员130A-B可以使用监控接口125A-B的“Y”和“N”输入来指示是否在监控的视频馈送的视频片段中描绘了感兴趣的事件或以其他方式表示了感兴趣的事件。在一些示例中,监控接口125A-B可以包括其他输入/输出功能(在图1中标记为“I/O”),以通过允许人类操作员130A-B输入事件类型的描述来提供更大的灵活性。在这样的示例中,人类操作员130A-B不限于仅监控一个或多个感兴趣的事件,而是可以输入任何类型的感兴趣的事件的描述。这样,该附加能力允许感兴趣的事件随时间变化。在一些示例中,人类操作员130A-B可以使用“I/O”接口来输入在监控的视频馈送的特定视频片段中针对监控的事件的类型的描述,并且可以使用“Y”和“N”输入指示是否确实在受监控的视频片段中描绘了或以其他方式表示了该事件。
尽管图1的示例视频监视***100被图示为包括四个成像传感器105A-D、一个网络110和两个监控站115A-B,但是视频监视***100不限于此。相反,示例视频监视***100可以包括任何数量的成像传感器105A-D、任何数量的网络110和任何数量的监控站115A-B。
在图2中示出了根据本公开的教导的利用神经网络实现视频监视的第一示例视频监视***200的框图。图2的示例视频监视***200包括图1的视频监视***100的示例成像传感器105A-D、示例网络110和示例监控站115A-B。这样,以上结合图1的描述描述了视频监视***200的这些元素的各方面。
图2的示例视频监视***200还包括根据本公开的教导实现的示例神经网络205和示例数据库210。示例数据库210包括能够与示例网络110通信的一个或多个网络接口。在图2的所示示例中,数据库210经由网络110与监控站115A-B通信,并从监控站115A-B接收具有描述视频片段的对应事件标签的视频片段。从监控站115A-B接收的视频片段是从受监控的视频馈送中获取的。事件标签基于人类操作员130A-B输入的决定信息指示对应的视频片段是否描绘或以其他方式表示感兴趣的事件。在一些示例中,对应视频片段的事件标签指示该视频片段是否描绘或以其他方式表示定义的事件。在一些示例中,用于对应视频片段的事件标签包括事件类型的描述或以其他方式指示事件类型,并且还指示视频片段是否描绘或以其他方式表示该事件类型。
在所示的示例中,数据库210将从监控站115A-B接收到的具有对应事件标签的视频片段视为操作员标记的视频片段,以用于训练神经网络205。例如,数据库210将从监控站115A-B接收到的视频片段视为操作员标记的视频片段的示例参考视频片段215,以及将从监控站115A-B接收到的对应事件标签视为与操作员标记的视频片段的参考视频片段215相对应的参考事件标签218。此外,数据库210创建操作员标记的视频片段的示例记录220,其包括由记录220表示的参考视频片段215和操作员标记的视频片段的对应参考事件标签218。因此,操作员标记的视频片段的每个记录220包括该记录220表示的操作员标记的视频片段的参考视频片段215和对应参考事件标签218。因此,在一些示例中,数据库210实现了用于获取操作员标记的视频片段的方式,其中,操作员标记的视频片段包括参考视频片段和描述参考视频片段的对应参考事件标签。用于获得操作员标记的视频片段的其他方式可以包括但不限于计算设备、服务器、基于云的服务、网站等,其构造为收集视频片段并将其与描述视频片段的对应事件标签组合在一起以形成操作员标记的视频片段。
所示示例的数据库210还包括示例记录存储装置225,该示例记录存储装置225存储由数据库210根据从监控站115A-B接收的视频片段和对应事件标签创建的操作员标记的视频片段的记录220。示出的示例的数据库210的记录存储装置225可以通过任何数量和/或类型的存储技术、存储器技术等来实现。例如,数据库210可以通过任何计算***/设备来实现,例如图10所示的示例处理器平台1000,其在下面被进一步详细描述。在这样的示例中,记录存储装置225可以由示例处理器平台1000的示例大容量存储设备1028和/或易失性存储器1014中的一个或多个来实现。
所示示例的神经网络205包括示例推理引擎230,以从视频片段中推断事件,例如来自从成像传感器105A-D获得的受监控视频馈送的视频片段。在所示的示例中,推理引擎230由卷积神经网络(CNN)推理引擎实现,该卷积神经网络推理引擎包括被训练从视频片段中推断事件的一层或多层权重,也称为神经元。例如,推理引擎230可以被构造成包括:输入层,用于接受一个或多个输入视频片段235作为输入数据;一个或多个隐藏层,用于处理输入数据;以及输出层,用于提供一个或多个输出,以指示给定输入视频片段235是否描绘或以其他方式表示推理引擎230已针对其进行训练以检测的一个或多个事件。在一些示例中,推理引擎230的输出可以附加地或可替代地提供给定输入视频片段235描绘或以其他方式表示推理引擎230已经针对其进行训练以检测的一个或多个事件的可能性(例如,概率)。尽管所示示例神经网络205的推理引擎230由CNN实现,但其他神经网络解决方案也可以用于实现推理引擎230。
所示示例的神经网络205还包括示例训练引擎240、示例比较器245和示例训练数据取回器250,以训练推理引擎230从输入视频片段235中推断事件。在图示的示例中,训练数据取回器250从数据库210取回操作员标记的视频片段的记录集220,以用作训练数据以训练推理引擎230。例如,训练数据取回器250可以向数据库210发送针对操作员标记的视频片段的记录集220的请求。在一些示例中,该请求包括被请求的记录220的数量。在一些示例中,该请求附加地或可替代地包括要由训练集中包括的操作员标记的视频片段的记录220描绘或以其他方式表示的事件的类型。在这样的示例中,数据库210可以通过从记录存储装置225中取回操作员标记的视频片段的记录220的所请求的集合,并将所取回的记录220集合发送到训练数据取回器250,来响应该请求。
在所示的示例中,在从数据库210获得请求的训练记录220集合之后,训练数据取回器250将训练记录220应用于推理引擎230以训练推理引擎230从训练记录220集合中包括的操作员标记的视频片段中推断事件。例如,对于给定的训练记录220,训练数据取回器250将该训练记录220的参考视频片段作为输入视频片段235应用于推理引擎230。训练数据取回器250还将该训练记录的对应参考事件标签作为示例训练事件标签255进行应用,以供比较器245与从推理引擎230输出的推断事件决定进行比较。理想地,当被训练时,从推理引擎230输出的推断事件决定将与对应于输入视频片段235的训练事件标签255相匹配(例如,产生零误差)。然而,当训练推理引擎230时,比较器245可能检测到训练事件标签255和从推理引擎230输出的推断事件决定之间的误差。在所示的示例中,比较器245的输出被提供给训练引擎240,该引擎以任何适当的方式反馈错误以将推理引擎230的权重的层更新为推理引擎230从输入片段235中推断事件的精度。例如,训练引擎240被示出为反向传播器,该反向传播器执行反向传播以训练推理引擎230。但是,训练引擎240可以实现任何其他适当的训练机制。因此,在一些示例中,训练引擎240实现了用于基于操作员标记的视频片段的训练集训练推理引擎的第一实例的单元,其中推理引擎的第一实例用于从训练集中包括的操作员标记的视频片段中推断事件。用于基于操作员标记的视频片段的训练集来训练推理引擎的第一实例的其他单元可以包括但不限于计算设备、服务器、基于云的服务、网站等,其被构造为获得操作员标记的视频片段的训练集,并将训练集应用于任何类型的机器学习推理引擎以训练推理引擎。
在一些示例中,训练数据取回器250继续将训练记录220中的不同训练记录应用于推理引擎230,直到比较器245指示已达到期望的推理精度为止。例如,推理精度可以被指定为正确事件检测的阈值比率(例如,对应于推理引擎230正确推断出是否存在对应事件(如由参考事件标签表示的)的输入参考视频片段的数量的百分比)、错误事件检测的阈值比率(例如,对应于当事件实际上不存在(如由对应于参考视频片段的参考事件标签所指示的)时由推理引擎230错误地推断出对应事件存在的输入参考视频片段的数量的百分比)、阈值遗漏事件检测(例如,对应于当事件实际存在时(如与参考视频片段相对应的参考事件标签所指示的)推理引擎230错误地推断出对应事件不存在的输入参考视频片段的示例的百分比)等等。
尽管图2的示例视频监视***200被示为包括四个成像传感器105A-D、一个网络110、两个监控站115A-B、一个神经网络205和一个数据库210,但是视频监视***200不限于此。相反,示例视频监视***200可以包括任何数量的成像传感器105A-D、任何数量的网络110、任何数量的监控站115A-B、任何数量的神经网络205和任何数量的数据库210。
在图3中示出了根据本公开的教导的利用神经网络实现视频监视的第二示例视频监视***300的框图。图3的示例视频监视***300包括图1和图2的视频监视***100和200的示例成像传感器105A-D、示例网络110和示例监控站115A-B。这样,以上结合图1和图2的描述描述了视频监视***300的这些元素的各方面。图3的示例视频监视***300还包括图2的视频监视***200的示例神经网络205和示例数据库210。这样,以上结合图2的描述描述了视频监视***300的这些元素的各方面。
在图3的所示示例视频监视***300中,神经网络205还包括示例部署器305,用于部署经训练的推理引擎230的实例以从监控的视频馈送中推断事件。这样,在所示的示例中,推理引擎230对应于推理引擎230的第一实例或参考实例,并且部署器部署基于推理引擎230的第一实例或参考实例(例如,最初的副本)的推理引擎230的其他实例。例如,部署器305部署推理引擎230的第二示例实例310A,以由示例监控站115A执行或结合示例监控站115A执行,并部署推理引擎230的第三示例实例310B,以由示例监控站115B执行或结合示例监控站115B执行。
在一些示例中,部署器305部署推理引擎230的实例,例如第二实例310A和第三实例310B,作为表示通过训练神经网络205中包括的推理引擎230的第一实例而获得的经训练权重层的数据。在这样的示例中,部署器305(例如,经由网络110)将表示经训练权重层的数据下载到已经存在于目标监控位置处的推理引擎230的实例(例如,第二实例310A和第三实例310B)。在一些示例中,部署器305将推理引擎230的实例(例如,第二实例310A和第三实例310B)部署为由计算设备(例如,监控站115A-B)执行的可下载的可执行文件(例如,经由网络110下载)。因此,在一些示例中,部署器305实现用于部署推理引擎的实例以从受监控视频馈送中推断事件的单元,其中,推理引擎的部署的实例基于推理引擎的经训练实例(例如,最初是其副本)。用于部署推理引擎实例的其他单元可以包括但不限于计算设备、服务器、基于云的服务、网站等,其被构造为获得并部署推理引擎的经训练的实例的副本。
在图3的示例视频监视***300中,推理引擎230的第二实例310A和推理引擎230的第三实例310B是由相应的监控站115A-B执行或以其他方式实现以结合相应的监控站115A-B操作的相应增强型推理引擎315A和315B的一部分。在所示示例中,增强型推理引擎315A由监控站115A执行或以其他方式实现,以从由监控站115A正在处理的受监控视频馈送中推断事件。例如,被包括在增强型推理引擎315A中的推理引擎230的第二实例310A接受由监控站115A监控的视频馈送的视频片段,并输出针对所受监控的视频片段的推断事件(例如,对是否特定事件在受监控视频片段中的相应受监控视频片段中被描绘的指示)。增强型推理引擎315A还包括示例比较器320A,该示例比较器320A通过将由推理引擎230的第二实例310A针对对应的受监控视频片段输出的推断事件与由监控站115A根据各监控站115A针对对应的受监控视频片段检测到的操作员决定(例如,如人类操作员130A经由监控接口125A所输入的,如上所述)所生成的相应操作员事件标签进行比较来确定更新的训练数据。比较器320A将该更新的训练数据报告给神经网络205(例如,经由网络110)。
类似地,在图3的所示示例中,增强型推理引擎315B由监控站115B执行或以其他方式实现,以从监控站115B正在处理的受监控视频馈送中推断事件。例如,被包括在增强型推理引擎315B中的推理引擎230的第三实例310B接受由监控站115B监控的视频馈送的视频片段,并输出针对所受监控的视频片段的推断事件(例如,对是否特定事件在受监控视频片段中的相应受监控视频片段中被描绘的指示)。增强型推理引擎315B还包括示例比较器320B,以通过将由推理引擎230的第三实例310B针对对应的受监控视频片段输出的推断事件与由监控站115B根据相应监控站115B针对对应的受监控视频片段检测到的操作员决定(例如,如人类操作员130B经由监控接口125B所输入的,如上所述)生成的相应操作员事件标签进行比较来确定更新的训练数据。比较器320B(例如,经由网络110)将该更新的训练数据报告给神经网络205。
在图3的所示示例中,神经网络205使用从由相应监控站115A-B实现的增强型推理引擎315A-B接收的更新的训练数据来重新训练神经网络205中包括的推理引擎230的第一实例,以提高事件推断精度。例如,神经网络205可以基于一个或多个事件(例如,当已经从由相应监控站115A-B实现的增强型推理引擎315A-B接收到阈值量的更新的训练数据时),基于操作员的输入等,或者它们的任意组合来以周期性的间隔重新训练推理引擎230的第一实例。在一些示例中,示出的示例神经网络205的部署器305然后将重新训练的推理引擎230的实例重新部署到目标监控位置中的一个或多个。例如,部署器305可以重新部署重新训练的推理引擎230的实例,以更新/替换由监控站115A实现的推理引擎230的第二实例310A和/或由监控站115B实现的推理引擎230的第三实例310B。
尽管图3的示例视频监视***300包括四个成像传感器105A-D、一个网络110、实现两个增强型推理引擎315A-B的两个监控站115A-B、一个神经网络205和一个数据库210,但是视频监视***200不限于此。相反,示例视频监视***200可以包括任何数量的成像传感器105A-D、任何数量的网络110、实现任何数量的增强型推理引擎315A-B的任何数量的监控站115A-B、任何数量的神经网络205和任何数量的数据库210。
在图4中示出了根据本公开的教导的利用神经网络实现视频监视的第三示例视频监视***400的框图。图4的示例视频监视***400包括图1-3的视频监视***100、200和300的示例成像传感器105A-D、示例网络110和示例监控站115A-B。这样,视频监视***400的这些元素的各方面在上面结合图1-3的描述进行了描述。图3的示例视频监视***400还包括图2-3的视频监视***200和300的示例神经网络205和示例数据库210。这样,视频监视***400的这些元素的各方面在上面结合图2-3的描述进行了描述。
在图4的所示的示例视频监视***400中,神经网络205的部署器305还部署经训练的推理引擎230的实例,以用于不与监控站115A-B结合地监控视频馈送。例如,在视频监视***400中,神经网络205的部署器305可以将经训练的推理引擎230的实例部署到无人操纵的监控位置。附加地或可替代地,神经网络205的部署器305可以将经训练的推理引擎230的实例部署到具有监控站(例如,监控站115A-B)的监控位置,但是独立于监控站进行操作。举例来说,在图4的视频监视***400中,神经网络205的部署器305部署推理引擎230的第四示例实例410A和推理引擎230的第五示例实例410B以独立于监控站115A-B来监控视频馈送。这样,推理引擎230的附加实例可以被部署为以成本有效的方式增加视频监视***400中的监控能力。
尽管图4的示例视频监视***400被示为包括四个成像传感器105A-D、一个网络110、实现两个增强型推理引擎315A-B的两个监控站115A-B、一个神经网络205、一个数据库210以及推理引擎230的两个单独实例410A-B,但视频监视***200不限于此。相反,示例视频监视***200可以包括任何数量的成像传感器105A-D、任何数量的网络110、实现任何数量的增强型推理引擎315A-B的任何数量的监控站115A-B、任何数量的神经网络205、任何数量的数据库210和推理引擎230的任何数量的实例410A-B。
而且,尽管所示的示例视频监视***200、300和400包括成像传感器105A-D,但是本文所公开的利用神经网络的监视监控不仅限于视频监视。例如,本文公开的神经网络技术可以适于与其他监控传感器一起使用。例如,附加于或替代成像传感器105A-D,视频监视***100、200和/或300可以包括其他传感器。这样的其他传感器可以包括但不限于运动传感器、热/温度传感器、声学传感器(例如,麦克风)、电磁传感器等。在这样的示例中,这些传感器经由网络110传输其相应的数据馈送以通过一个或多个推理引擎230、310A、310B、410A和/或410B进行监控,可能与监控站115A-B中的一个或多个结合。
尽管在图1-4中示出了实施视频监视***100、200、300和400的示例方式,但图1-4中示出的元素、过程和/或设备中的一个或多个可以以任何其他方式来组合、划分、重新布置、省略、消除和/或实现。此外,图1-4的示例视频监视***100、200、300和/或400、示例成像传感器105A-D、示例网络110、示例监控站115A-B、示例神经网络205、示例数据库210、示例实例增强型推理引擎315A-B和/或推理引擎230的示例实例310A-B和/或410A-B可以由硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此,例如,示例视频监视***100、200、300和/或400、示例成像传感器105A-D、示例网络110、示例监控站115A-B、示例神经网络205、示例数据库210、示例增强型推理引擎315A-B和/或推理引擎230的示例实例310A-B和/或410A-B中的任何一个可以由一个或多个模拟或数字电路、逻辑电路、可编程处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)和/或现场可编程逻辑器件(FPLD)来实现。当阅读用于涵盖纯软件和/或固件实施方式的本专利的任何装置或***权利要求时,示例视频监视***100、200、300和/或400、示例成像传感器105A-D、示例网络110、示例监控站115A-B、示例神经网络205、示例数据库210、示例增强型推理引擎315A-B和/或推理引擎230的示例实例310A-B和/或410A-B中的至少一个在此明确定义为包括非暂时性计算机可读存储设备或存储磁盘,例如存储器、数字多功能盘(DVD)、压缩盘(CD)、蓝光盘等,包括软件和/或固件。更进一步,示例视频监视***100、200、300和/或400可以包括一个或多个元素、过程和/或设备以附加于或代替图1-4中所示的那些,和/或可以包括示出的元素、过程和设备中的任何或全部中的一个以上。
在图5-8中示出了流程图,其表示用于实现示例视频监视***100、200、300和/或400、示例成像传感器105A-D、示例网络110、示例监控站115A-B、示例神经网络205、示例数据库210、示例增强型推理引擎315A-B和/或推理引擎230的示例实例310A-B和/或410A-B的示例机器可读指令。在这些示例中,机器可读指令包括由处理器执行的一个或多个程序,例如以下结合图9-11讨论的示例处理器平台900、1000和1100中所示的处理器912、1012和/或1112。一个或多个程序或其部分可以体现在被存储在非暂时性计算机可读存储介质上的软件中,非暂时性计算机可读存储介质例如CD-ROM、软盘、硬盘驱动器、数字多功能盘(DVD)、Blu-ray diskTM或与处理器912、1012和/或1112相关联的存储器,但是整个的一个或多个程序和/或其部分可以替代地由处理器912、1012和/1112以外的设备执行,和/或体现在固件或专用硬件中(例如,由ASIC、PLD、FPLD、分立逻辑等实现)。此外,尽管参照图5-8所示的流程图描述了示例程序,可以替代地使用实现示例视频监视***100、200、300和/或400、示例成像传感器105A-D、示例网络110、示例监控站115A-B、示例神经网络205、示例数据库210、示例增强型推理引擎315A-B和/或推理引擎230的示例实例310A-B和/或410A-B的许多其他方法。例如,参考图5-8所示的流程图,可以改变框的执行顺序,和/或可以改变、消除、组合所描述的一些框和/或将所描述的一些框细分成多个框。附加地或可替代地,任何或所有框可以由一个或多个硬件电路(例如,分立和/或集成的模拟和/或数字电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、比较器、运算放大器(op-amp)、逻辑电路等)来实现,其被构造为在不执行软件或固件的情况下执行对应的操作。
如上所述,图5-8的示例过程可以使用存储在非暂时性计算机和/或机器可读介质(例如,硬盘驱动器、闪存、只读存储器、压缩盘、数字多功能盘、高速缓存、随机存取存储器和/或任何其他存储设备或存储磁盘,在其中信息被存储任何持续时间(例如,延长的时间段、永久地、短暂地,例如临时缓冲和/或用于信息缓存))上的编码的指令(例如,计算机和/或机器可读指令)来实现。如本文所使用的,术语非暂时性计算机可读介质被明确定义为包括任何类型的计算机可读存储设备和/或存储盘,并且排除传播信号并排除传输介质。
“包含”和“包括”(及其所有形式和时态)在本文中用作开放式术语。因此,每当权利要求列出任何形式的“包括”或“包含”(例如,包括有、包含有、包括了、包含了等)之后的任何内容时,应理解的是,可以存在附加元素、术语等,而不落在对应权利要求的范围之外。如本文中所使用的,当短语“至少”用作权利要求的前序中的过渡术语时,其以与术语“包括”和“包含”是开放式的相同的方式是开放式的。此外,如本文所使用,除非另外指示,否则术语“计算机可读”和“机器可读”被认为是等同的。
图5示出了可被执行以实现图1-4的示例视频监视***100、200、300和400中包括的示例监控站115A-B中的一个或多个的示例程序500。为了方便起见且不失一般性,从在图4的示例视频监视***400中操作的示例监控站115A的角度描述了示例程序500的执行。参考前面的附图和相关联的书面描述,图5的示例程序500在框505处开始执行,在框505处,监控站115A经由网络110访问从成像传感器105A-D之一接收的视频馈送,并经由监控站115A的显示器120A呈现所访问的视频馈送。在框510处,监控站115A检测由人类操作员130A经由监控站105A的监控接口125A输入的操作员决定。如上所述,在框510处检测到的操作员决定指示在监控的视频馈送中是否描绘了感兴趣的事件或以其他方式表示了感兴趣的事件。例如,监控站115A可以基于任何分段标准将所访问的视频馈送分段为受监控的视频分段。例如,监控站115A可以基于视频馈送中检测到的转变,基于提供馈送的成像传感器105A-D的特性(例如,诸如传感器的扫描速率、传感器的图像捕获率等)将受监控视频馈送分段为具有给定持续时间(例如,15秒、30秒、60秒等,或任何持续时间)的连续视频片段。在这样的示例中,监控接口125A将输入操作员决定与显示器120A当时呈现的特定受监控的视频片段相关联。在一些示例中,如果在呈现给定视频片段的同时没有检测到输入操作员决定,则监控接口125A确定操作员决定是在该给定视频片段中没有描述感兴趣的事件。如上所述,在一些示例中,输入操作员决定是关于是否在受监控视频片段中描绘了预定的感兴趣的事件的是或否指示。但是,在一些示例中,输入操作员决定还可以包括对感兴趣事件的类型的描述,以及关于是否在受监控的视频片段中描绘了所描述的感兴趣事件的是或否指示。
在框515处,监控站115A的监控接口125A确定是否已检测到输入操作员决定。如果检测到操作员决定(框515),则在框520处,监控接口125A访问将与当前受监控的视频片段相关联的事件标签,并更新事件标签以反映输入的操作员决定。例如,事件标签可以指示在对应的受监控视频片段中是否描绘感兴趣的预定义事件。在一些示例中,事件标签包括对感兴趣的事件的类型的描述,以及关于所描述的感兴趣的事件是否在对应的受监控视频片段中被描绘的指示。在一些示例中,如果在呈现给定视频片段的同时没有检测到输入的操作员决定,则在框520,监控接口125A更新该视频片段的事件标签以指示在对应的视频片段中没有描述感兴趣的事件。如图5的示例中所示,监控站105A还将在框505处访问的视频的视频片段和在框520处访问的对应事件标签提供给数据库210,以使数据库210能够创建上述操作员标记的视频片段的记录220。
在图5的示出的示例中,在框525处,监控站115A的监控接口125A确定针对当前受监控的视频片段检测到的输入操作员决定是否对应于要针对其触发警报的事件的检测。如果要触发警报(框525),则在框530处,监控接口125A使警报被触发。例如,在框530处,监控接口125A可以自动触发听觉和/或视觉警报,可以联系紧急响应***以召唤第一响应者,等等。在框535处,监控站115A确定视频监视监控是否要继续。如果视频监视监控要继续(框535),则处理返回到框505及其之后的框,以使监控站115A能够继续监控当前视频馈送和/或由监控站115A正经由网络110从成像传感器105A-D接收到的其他视频馈送。
图6中示出了可以被执行以实现被包括在图2-4的示例视频监视***200、300和400中的示例神经网络205和示例数据库210的示例程序600。为了方便起见且不失一般性,从在图4的示例视频监视***400中操作的示例神经网络205和示例数据库210的角度描述了示例程序600的执行。参考前面的附图和相关联的书面描述,图6的示例程序600在框605处开始执行,数据库210将经由网络110从监控站115A-B接收到的受监控视频片段和接收到的对应事件标签存储为操作员标记的视频片段的记录220,如上所述。在框610处,神经网络205使用由数据库210创建和存储的操作员标记的视频片段的记录220来训练其示例推理引擎230的第一实例或参考实例,以从视频片段中推断事件,如以上所描述的。在框615处,神经网络205将经训练的推理引擎230的实例部署到监控站点以从监控的视频馈送中推断事件,如上所述。
在图7示出了示例程序700,其可以被执行以实现包括在图2-4的示例视频监视***200、300和400中的示例数据库210和/或执行图6的框605处的处理。为了方便起见且不失一般性,从在图4的示例视频监视***400中操作的示例数据库210的角度描述了示例程序700的执行。参考前面的附图和相关联的书面描述,图7的示例程序700在框705处开始执行,在框705处,如上所述,数据库210经由网络110从监控站115A-B接收受监控视频片段和对应的事件标签。如上所述,事件标签反映了由人类操作员输入的关于以下方面的决定:是否在对应的受监控视频片段中描绘了感兴趣的事件或以其他方式表示了感兴趣的事件。在框710处,如上所述,数据库210根据在框705处接收到的所接收的视频片段以及对应事件标签创建操作员标记的视频片段的记录220,并将记录220存储在数据库210的示例记录存储装置225中。
在框715处,数据库210确定是否已经从神经网络205接收到对训练数据集的请求。如上所述,在一些示例中,该请求包括被请求以包括在该训练数据集中的记录220的数量。在一些示例中,该请求附加地或可替代地包括要由要被包括在训练数据集合中的记录220描绘或以其他方式由其表示的事件的类型。如果接收到针对训练数据的请求(框715),则数据库210从满足该请求的记录存储装置225中取回记录220的训练集,并且将记录220的训练集输出至神经网络205(例如,经由网络110)来促进神经网络的训练。
在图8中示出了可被执行以实现包括在图2-4的示例视频监视***200、300和400中的示例神经网络205和/或执行图6的框610和615的处理的示例程序800。为了方便起见且不失一般性,从在图4的示例视频监视***400中操作的示例神经网络205的角度描述了示例程序800的执行。参考前面的附图和相关联的书面描述,图8的示例程序800在框805处开始执行,在框805处,神经网络205的示例训练数据取回器250请求并从数据库210获得操作员标记的视频片段的训练记录220集合。如上所述,在一些示例中,该请求包括被请求以包括在训练数据集合中的记录220的数量。在一些示例中,该请求附加地或可替代地包括要由要被包括在训练数据集合中的记录220描绘或以其他方式由其表示的事件的类型。
在框810处,如上所述,示例训练引擎240和示例比较器245使用获得的记录220训练集来训练神经网络205的示例推理引擎230以从包括训练记录220集合中的参考视频片段中推断事件。在框815处,神经网络205的示例部署器305如上所述将经训练的推理引擎230的实例部署到一个或多个目标监控位置,以从受监控视频馈送中推断事件。例如,在框815处,部署器305可以部署经训练的推理引擎230的示例实例310A-B,以由示例监控站105A-B执行或与示例监控站105A-B结合执行。附加地或可替代地,在一些示例中,部署器305可以将经训练的推理引擎230的示例实例410A-B部署到监控位置,以独立于监控站105A-B来执行视频监视监控。
在框820处,神经网络205获取(例如,经由网络110)由执行经训练的推理引擎230的实例310A-B或与其结合操作的监控站105A-B中的一个或多个确定的更新的训练数据。例如,并且如上所述,监控站105A-B可以将经训练的推理引擎230的实例310A-B的实例针对对应的受监控视频片段输出的推断事件与由监控站115A-B根据由人类操作员130A-B针对对应的受监控视频片段输入的操作员决定生成的对应操作员事件标签进行比较,来确定更新的训练数据。在框825处,如上所述,神经网络使用更新的训练数据来重新训练其推理引擎230的第一实例或参考实例。在框830处,如上所述,部署器305将重新训练的推理引擎230的实例重新部署到目标监控位置中的一个或多个。在框835处,神经网络205确定其推理引擎230的重新训练是否要继续。如果重新训练要继续,则处理返回到框820及其之后的框,以使得神经网络205能够基于从监控站105A-B接收到的更新的训练数据来继续对其推理引擎230进行重新训练。
图9是被构造为执行图5、图6、图7和/或图8的指令以实现图1-4的示例监控站115A-B的示例处理器平台900的框图。为了方便并且不失一般性,从实现示例监控站115A的角度描述了示例处理器平台900。处理器平台900可以是例如服务器、个人计算机、移动设备(例如,蜂窝电话、智能电话、诸如iPadTM的平板电脑)、个人数字助理(PDA)、互联网设备等等,或任何其他类型的计算设备。
所示示例的处理器平台900包括处理器912。所示示例的处理器912是硬件。例如,处理器912可以由来自任何期望的系列或制造商的一个或多个集成电路、逻辑电路、微处理器或控制器来实现。硬件处理器912可以是基于半导体的(例如,基于硅的)设备。
所示示例的处理器912包括本地存储器913(例如,高速缓存)。所示示例的处理器912经由链路918与包括易失性存储器914和非易失性存储器916的主存储器通信。链路918可以由总线、一个或多个点对点连接等等或其组合来实现。易失性存储器914可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、RAMBUS动态随机存取存储器(RDRAM)和/或任何其他类型的随机存取存储器设备来实现。非易失性存储器916可以由闪存和/或任何其他期望类型的存储器设备来实现。对主存储器914、916的访问由存储器控制器控制。
所示示例的处理器平台900还包括接口电路920。接口电路920可以通过任何类型的接口标准来实现,例如以太网接口、通用串行总线(USB)和/或PCI express接口。
在示出的示例中,一个或多个输入设备922连接到接口电路920。输入设备922允许用户向处理器912中输入数据和命令。输入设备可以通过例如音频传感器、麦克风、相机(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、轨迹栏(例如,等值点)、语音识别***和/或其他任何人机接口来实现。同样,许多***(例如,处理器平台900)可以允许用户控制计算机***并使用物理手势(例如但不限于手或身体运动、面部表情和面部识别)向计算机提供数据。在一些示例中,输入数据设备922实现示例监控接口125A。
一个或多个输出设备924也连接到所示示例的接口电路920。输出设备924可以例如由显示设备(例如,发光二极管(LED)、有机发光二极管(OLED)、液晶显示器、阴极射线管显示器(CRT)、触摸屏、触觉输出设备、打印机和/或扬声器)来实现。因此,所示示例的接口电路920通常包括图形驱动器卡、图形驱动器芯片或图形驱动器处理器。在一些示例中,输出设备924实现示例显示器120A。
所示示例的接口电路920还包括通信设备,例如发射机、接收机、收发机、调制解调器和/或网络接口卡,以促进经由诸如示例网络110之类的网络926(例如,以太网连接、数字用户线(DSL)、电话线、同轴电缆、蜂窝电话***等)与外部机器(例如,任何计算机设备的计算设备)的数据交换。
所示示例的处理器平台900还包括用于存储软件和/或数据的一个或多个大容量存储设备928。这种大容量存储设备928的示例包括软盘驱动器、硬盘驱动器、压缩盘驱动器、蓝光盘驱动器、RAID(独立磁盘冗余阵列)***和数字多功能盘(DVD)驱动器。
对应于图5、6、7和/或8的指令的编码指令932可以存储在大容量存储设备928中、易失性存储器914中、非易失性存储器916中、本地存储器913中和/或可移动有形计算机可读存储介质中,例如CD或DVD 936。
图10是被构造为执行图5、图6、图7和/或图8的指令来实现图2-4的示例数据库210的示例处理器平台1000的框图。处理器平台1000可以是例如服务器、个人计算机、移动设备(例如,蜂窝电话、智能电话、诸如iPadTM之类的平板电脑)、PDA、互联网设备等,或者任何其他类型的计算设备。
所示示例的处理器平台1000包括处理器1012。所示示例的处理器1012是硬件。例如,处理器1012可以由来自任何期望系列或制造商的一个或多个集成电路、逻辑电路、微处理器或控制器来实现。硬件处理器1012可以是基于半导体的(例如,基于硅的)设备。
所示示例的处理器1012包括本地存储器1013(例如,高速缓存)。所示示例的处理器1012经由链路1018与包括易失性存储器1014和非易失性存储器1016的主存储器通信。链路1018可以由总线、一个或多个点对点连接等等或其组合来实现。易失性存储器1014可以由SDRAM、DRAM、RDRAM和/或任何其他类型的随机存取存储器设备实现。非易失性存储器1016可以由闪存和/或任何其他期望类型的存储器设备来实现。对主存储器1014、1016的访问由存储器控制器控制。
所示示例的处理器平台1000还包括接口电路1020。接口电路1020可以通过任何类型的接口标准来实现,例如以太网接口、USB和/或PCI express接口。
在示出的示例中,一个或多个输入设备1022连接到接口电路1020。输入设备1022允许用户将数据和命令输入到处理器1012中。可以通过例如音频传感器、麦克风、相机(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、轨迹栏(例如,等值点)、语音识别***和/或其他任何人机接口来实现输入设备。而且,许多***(例如,处理器平台1000)可以允许用户使用物理手势来控制计算机***并向计算机提供数据,所述物理手势例如但不限于手或身体的运动、面部表情和面部识别。
一个或多个输出设备1024也连接到所示示例的接口电路1020。输出设备1024可以例如由显示设备(例如,LED、OLED、液晶显示器、CRT显示器、触摸屏、触觉输出设备、打印机和/或扬声器)实现。因此,所示示例的接口电路1020通常包括图形驱动器卡、图形驱动器芯片或图形驱动器处理器。
所示示例的接口电路1020还包括通信设备,例如发射机、接收机、收发机、调制解调器和/或网络接口卡,以促进经由诸如示例网络110之类的网络1026(例如,以太网连接、DSL、电话线、同轴电缆、蜂窝电话***等)与外部机器(例如,任何种类的计算设备)的数据交换。
所示示例的处理器平台1000还包括一个或多个用于存储软件和/或数据的大容量存储设备1028。这种大容量存储设备1028的示例包括软盘驱动器、硬盘驱动器、压缩盘驱动器、蓝光盘驱动器、RAID***和DVD驱动器。在一些示例中,大容量存储设备1028可以实现示例记录存储装置225。附加地或可替代地,在一些示例中,易失性存储器1014可以实现示例记录存储装置225。
对应于图5、6、7和/或8的指令的编码指令1032可以存储在大容量存储设备1028中、易失性存储器1014中、非易失性存储器1016中、本地存储器1013中和/或可移动有形计算机可读存储介质中,例如CD或DVD 1036。
图11是被构造为执行图5、图6、图7和/或图8的指令来实现图2-4的示例神经网络205的示例处理器平台1100的框图。处理器平台1100可以是例如服务器、个人计算机、移动设备(例如,蜂窝电话、智能电话、诸如iPadTM之类的平板电脑)、PDA、互联网设备等,或者任何其他类型的计算设备。
所示示例的处理器平台1100包括处理器1112。所示示例的处理器1112是硬件。例如,处理器1112可以由来自任何期望系列或制造商的一个或多个集成电路、逻辑电路、微处理器或控制器来实现。硬件处理器1112可以是基于半导体的(例如,基于硅的)设备。在该示例中,处理器1112实现示例推理引擎230、示例训练引擎240、示例比较器245、示例训练数据取回器250和/或示例部署器305。
所示示例的处理器1112包括本地存储器1113(例如,高速缓存)。所示示例的处理器1112经由链路1118与包括易失性存储器1114和非易失性存储器1116的主存储器通信。链路1118可以由总线、一个或多个点对点连接等等或其组合来实现。易失性存储器1114可以由SDRAM、DRAM、RDRAM和/或任何其他类型的随机存取存储器设备实现。非易失性存储器1116可以由闪存和/或任何其他期望类型的存储器设备来实现。对主存储器1114、1116的访问由存储器控制器控制。
所示示例的处理器平台1100还包括接口电路1120。接口电路1120可以通过任何类型的接口标准来实现,例如以太网接口、USB和/或PCI express接口。
在所说明的示例中,一个或多个输入设备1122连接到接口电路1120。输入设备1122允许用户将数据和命令输入到处理器1112中。可以通过例如音频传感器、麦克风、相机(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、轨迹栏(例如,等值点)、语音识别***和/或其他任何人机接口来实现输入设备。而且,许多***(例如,处理器平台1100)可以允许用户使用物理手势来控制计算机***并向计算机提供数据,所述物理手势例如但不限于手或身体的运动、面部表情和面部识别。
一个或多个输出设备1124也连接到所示示例的接口电路1120。输出设备1124可以例如由显示设备(例如,LED、OLED、液晶显示器、CRT显示器、触摸屏、触觉输出设备、打印机和/或扬声器)实现。因此,所示示例的接口电路1120通常包括图形驱动器卡、图形驱动器芯片或图形驱动器处理器。
所示示例的接口电路1120还包括通信设备,例如发射机、接收机、收发机、调制解调器和/或网络接口卡,以促进经由诸如示例网络110之类的网络1126(例如,以太网连接、DSL、电话线、同轴电缆、蜂窝电话***等)与外部机器(例如,任何种类的计算设备)的数据交换。
所示示例的处理器平台1100还包括一个或多个用于存储软件和/或数据的大容量存储设备1128。这种大容量存储设备1128的示例包括软盘驱动器、硬盘驱动器、压缩盘驱动器、蓝光盘驱动器、RAID***和DVD驱动器。
对应于图5、6、7和/或8的指令的编码指令1132可以被存储在大容量存储设备1128中、在易失性存储器1114中、在非易失性存储器1116中、在本地存储器1113中和/或在可移动有形计算机可读存储介质上,例如CD或DVD 1136。
前述公开提供了利用神经网络的视频监视的示例。本文公开了以下另外的示例,其包括以下主题:诸如用于利用神经网络实现视频监视的视频监视***,包括指令的至少一个计算机可读存储介质(当由至少一个处理器执行时,该指令使得至少一个处理器利用神经网络实现视频监视),用于利用神经网络实现视频监视的单元,以及用于利用神经网络执行视频监视的视频监视方法。所公开的示例可以单独地和/或以一种或多种组合来实现。
根据前述内容,将认识到,本文已经公开了用于利用神经网络实现视频监视的示例方法、装置、***和制品(例如,物理存储介质)。公开的示例包括具有推理引擎的神经网络,该神经网络被训练以检测或推断监控的视频馈送中的事件。使用具有参考事件标签的参考视频片段的训练集来训练神经网络推理引擎,该参考事件标签指示参考视频片段是否描绘了定义的事件。然后将经训练的推理引擎部署到一个或多个监控位置,并进行操作(例如,并行、异步、协作等),以推断一个或多个训练的事件(例如,安全违规、个体的存在、包裹的到达等)是否在其监控的对应视频馈送中被表示。在一些示例中,可以将经训练/重新训练的推理引擎的实例部署到无人操纵监控位置,或者在有人操纵的位置处提供附加的容量,从而允许视频监视***的容量随需求增加而容易地扩展。
前述公开提供了利用神经网络实现视频监视的示例。下文公开了利用神经网络实现视频监视的其他示例。所公开的示例可以个别地和/或以一种或多种组合来实现。
示例1是一种视频监视***,包括数据库,其用于存储操作员标记的视频片段,所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签。示例1的***还包括神经网络,所述神经网络包括:推理引擎的第一实例;以及训练引擎,其用于基于从所述数据库中获得的所述操作员标记的视频片段的训练集来训练所述推理引擎的第一实例,所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件。示例1的***还包括所述推理引擎的第二实例,其用于从受监控视频馈送中推断事件,所述推理引擎的第二实例基于所述推理引擎的第一实例。
示例2包括示例1的主题,其中,所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。
示例3包括示例1和/或2的主题,其中,与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘所述事件类型。
示例4包括示例1-3中的一个或多个的主题,并且还包括监控站,所述监控站包括:显示器,其用于呈现所述受监控视频馈送中的第一受监控视频馈送;以及监控接口,其用于基于与所述受监控视频馈送中的第一受监控视频馈送的受监控视频片段相对应的操作员决定来生成操作员事件标签。
示例5包括示例4的主题,其中,所述数据库与所述监控站通信,以接收所述受监控视频片段中的第一受监控视频片段以及与所述受监控视频片段中的第一受监控视频片段相对应的所述操作员事件标签中的第一操作员事件标签,所述数据库用于将所述受监控视频片段中的第一受监控视频片段以及所述操作员事件标签中的对应的第一操作员事件标签存储为所述参考视频片段中的第一参考视频片段以及所述操作员标记的视频片段中的第一操作员标记的视频片段中包括的所述参考事件标签中的对应的第一参考事件标签。
示例6包括示例5的主题,其中,所述监控站还用于实现所述推理引擎的第二实例。
示例7包括示例6的主题,其中,所述推理引擎的第二实例用于针对所述受监控视频馈送中的第一受监控视频馈送的受监控视频片段中的第二受监控视频片段输出推断事件,所述监控接口用于根据针对受监控视频片段中的第二受监控视频片段检测到的操作员决定来生成所述操作员事件标签中的第二操作员事件标签,并且所述监控站还包括比较器,以用于比较所述推断事件和所述操作员事件标签中的第二操作员事件标签以获得更新的训练数据。
示例8包括示例7的主题,其中,所述神经网络与所述监控站通信以接收所述更新的训练数据,并且所述训练引擎用于基于所述更新的训练数据来重新训练所述推理引擎的第一实例。
示例9包括至少一种非暂时性计算机可读存储介质,包括计算机可读指令,所述计算机可读指令在被执行时使一个或多个处理器至少:基于操作员标记的视频片段的训练集来训练推理引擎的第一实例,所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签,所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件;以及部署所述推理引擎的第二实例以从受监控视频馈送中推断事件,所述推理引擎的第二实例基于所述推理引擎的第一实例。
示例10包括示例9的主题,其中,所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。
示例11包括示例9和/或10的主题,其中,与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘了所述事件类型。
示例12包括示例9-11中的一个或多个的主题,其中,所述计算机可读指令在被执行时使所述一个或多个处理器从监控站获取所述参考视频片段中的第一参考视频片段以及所述参考事件标签中的对应的第一参考事件标签。
示例13包括示例12的主题,其中,所述计算机可读指令在被执行时使所述一个或多个处理器将所述推理引擎的第二实例部署到所述监控站。
示例14包括示例13的主题,其中,当所述推理引擎的第二实例最初被部署到所述监控站时,所述推理引擎的第二实例是所述推理引擎的第一实例的复制。
示例15包括示例13的主题,其中,所述监控站用于通过比较以下两项来获得更新的训练数据:(1)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件,以及(ii)由所述监控站针对所述受监控视频馈送的所述片段生成的操作员事件标签,并且所述计算机可读指令在被执行时还使所述一个或多个处理器基于所述更新的训练数据来重新训练所述推理引擎的第一实例。
示例16是一种装置,包括用于获得操作员标记的视频片段的单元,所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签。示例16的装置还包括用于基于所述操作员标记的视频片段的训练集来训练推理引擎的第一实例的单元,所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件。示例16的装置还包括用于部署所述推理引擎的第二实例以从受监控视频馈送中推断事件的单元,所述推理引擎的第二实例基于所述推理引擎的第一实例。
示例17包括示例16的主题,其中,所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。
示例18包括示例16和/或17的主题,其中,与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘了所述事件类型。
示例19包括示例16-18中的一个或多个的主题,其中,用于获得操作员标记的视频片段的记录的所述单元用于从监控站获得所述参考视频片段中的第一参考视频片段和所述参考事件标签中的对应的第一参考事件标签。
示例20包括示例19的主题,其中,用于部署所述推理引擎的第二实例的所述单元用于将所述推理引擎的第二实例部署到所述监控站。
示例21包括示例20的主题,其中,当所述推理引擎的第二实例最初被部署到所述监控站时,所述推理引擎的第二实例是所述推理引擎的第一实例的复制。
示例22包括示例20的主题,其中,所述监控站用于通过比较以下两项来获得更新的训练数据:(1)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件,以及(ii)由所述监控站针对受监控视频馈送的所述片段生成的操作员事件标签,并且用于训练所述推理引擎的第一实例的所述单元还用于基于所述更新的训练数据来重新训练所述推理引擎的第一实例。
示例23是一种视频监视方法,包括:通过用至少一个处理器执行指令来基于操作员标记的视频片段的训练集训练推理引擎的第一实例,所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签,所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件。示例23的视频监视方法还包括:通过用所述至少一个处理器执行指令来部署所述推理引擎的第二实例以从受监控视频馈送中推断事件,所述推理引擎的第二实例基于所述推理引擎的第一实例。
示例24包括示例23的主题,其中,所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。
示例25包括示例23和/或24的主题,其中,与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的所述第一参考视频片段是否描绘了所述事件类型。
示例26包括示例23-25中的一个或多个的主题,其中,访问操作员标记的视频片段的记录包括从监控站获得所述参考视频片段中的第一参考视频片段和所述参考事件标签中的对应的第一参考事件标签。
示例27包括示例26的主题,其中,所述推理引擎的第二实例的部署包括将所述推理引擎的第二实例部署到所述监控站。
示例28包括示例27的主题,其中,当所述推理引擎的第二实例最初被部署到所述监控站时,所述推理引擎的第二实例是所述推理引擎的第一实例的复制。
示例29包括示例27的主题,其中,所述监控站用于通过比较以下两项来获取更新的训练数据:(1)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件,以及(ii)由所述监控站针对所述受监控视频馈送的所述片段生成的操作员事件标签,并且对所述推理引擎的第一实例的训练还包括基于所述更新的训练数据来重新训练所述推理引擎的第一实例。
尽管本文已经公开了某些示例方法、装置和制品,但是本专利的覆盖范围不限于此。相反,本专利涵盖了完全落入本专利权利要求范围内的所有方法、装置和制品。
Claims (29)
1.一种视频监视***,包括:
数据库,其用于存储操作员标记的视频片段,所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签;
神经网络,其包括:
推理引擎的第一实例;以及
训练引擎,其用于基于从所述数据库中获得的所述操作员标记的视频片段的训练集来训练所述推理引擎的第一实例,所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件;以及
所述推理引擎的第二实例,其用于从受监控视频馈送中推断事件,所述推理引擎的第二实例基于所述推理引擎的第一实例。
2.根据权利要求1所述的视频监视***,其中,所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。
3.根据权利要求1所述的视频监视***,其中,与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘所述事件类型。
4.根据权利要求1所述的视频监视***,还包括监控站,所述监控站包括:
显示器,其用于呈现所述受监控视频馈送中的第一受监控视频馈送;以及
监控接口,其用于基于与所述受监控视频馈送中的第一受监控视频馈送的受监控视频片段相对应的操作员决定来生成操作员事件标签。
5.根据权利要求4所述的视频监视***,其中,所述数据库与所述监控站通信,以接收所述受监控视频片段中的第一受监控视频片段以及与所述受监控视频片段中的第一受监控视频片段相对应的所述操作员事件标签中的第一操作员事件标签,所述数据库用于将所述受监控视频片段中的第一受监控视频片段以及所述操作员事件标签中的对应的第一操作员事件标签存储为所述参考视频片段中的第一参考视频片段以及所述操作员标记的视频片段中的第一操作员标记的视频片段中包括的所述参考事件标签中的对应的第一参考事件标签。
6.根据权利要求5所述的视频监视***,其中,所述监控站还用于实现所述推理引擎的第二实例。
7.根据权利要求6所述的视频监视***,其中,所述推理引擎的第二实例用于针对所述受监控视频馈送中的第一受监控视频馈送的受监控视频片段中的第二受监控视频片段输出推断事件,所述监控接口用于根据针对所述受监控视频片段中的第二受监控视频片段检测到的操作员决定来生成所述操作员事件标签中的第二操作员事件标签,并且所述监控站还包括比较器,以用于比较所述推断事件和所述操作员事件标签中的第二操作员事件标签以获得更新的训练数据。
8.根据权利要求7所述的视频监视***,其中,所述神经网络与所述监控站通信以接收所述更新的训练数据,并且所述训练引擎用于基于所述更新的训练数据来重新训练所述推理引擎的第一实例。
9.至少一种非暂时性计算机可读存储介质,包括计算机可读指令,所述计算机可读指令在被执行时使一个或多个处理器至少:
基于操作员标记的视频片段的训练集来训练推理引擎的第一实例,所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签,所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件;以及
部署所述推理引擎的第二实例以从受监控视频馈送中推断事件,所述推理引擎的第二实例基于所述推理引擎的第一实例。
10.根据权利要求9所述的至少一个存储介质,其中,所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。
11.根据权利要求9所述的至少一个存储介质,其中,与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘了所述事件类型。
12.根据权利要求9所述的至少一个存储介质,其中,所述计算机可读指令在被执行时使所述一个或多个处理器从监控站获得所述参考视频片段中的第一参考视频片段以及所述参考事件标签中的对应的第一参考事件标签。
13.根据权利要求12所述的至少一个存储介质,其中,所述计算机可读指令在被执行时使所述一个或多个处理器将所述推理引擎的第二实例部署到所述监控站。
14.根据权利要求13所述的至少一个存储介质,其中,当所述推理引擎的第二实例最初被部署到所述监控站时,所述推理引擎的第二实例是所述推理引擎的第一实例的复制。
15.根据权利要求13所述的至少一个存储介质,其中,所述监控站用于通过比较以下两项来获得更新的训练数据:(i)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件,以及(ii)由所述监控站针对所述受监控视频馈送的所述片段生成的操作员事件标签,并且所述计算机可读指令在被执行时还使所述一个或多个处理器基于所述更新的训练数据来重新训练所述推理引擎的第一实例。
16.一种装置,包括:
用于获得操作员标记的视频片段的单元,所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签;
用于基于所述操作员标记的视频片段的训练集来训练推理引擎的第一实例的单元,所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件;以及
用于部署所述推理引擎的第二实例以从受监控视频馈送中推断事件的单元,所述推理引擎的第二实例基于所述推理引擎的第一实例。
17.根据权利要求16所述的装置,其中,所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。
18.根据权利要求16所述的装置,其中,与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的第一参考视频片段是否描绘了所述事件类型。
19.根据权利要求16所述的装置,其中,用于获得操作员标记的视频片段的记录的所述单元用于从监控站获得所述参考视频片段中的第一参考视频片段和所述参考事件标签中的对应的第一参考事件标签。
20.根据权利要求19所述的装置,其中,用于部署所述推理引擎的第二实例的所述单元用于将所述推理引擎的第二实例部署到所述监控站。
21.根据权利要求20所述的装置,其中,当所述推理引擎的第二实例最初被部署到所述监控站时,所述推理引擎的第二实例是所述推理引擎的第一实例的复制。
22.根据权利要求20所述的装置,其中,所述监控站用于通过比较以下两项来获得更新的训练数据:(i)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件,以及(ii)由所述监控站针对所述受监控视频馈送的所述片段生成的操作员事件标签,并且用于训练所述推理引擎的第一实例的所述单元还用于基于所述更新的训练数据来重新训练所述推理引擎的第一实例。
23.一种视频监视方法,包括:
通过用至少一个处理器执行指令来基于操作员标记的视频片段的训练集训练推理引擎的第一实例,所述操作员标记的视频片段包括参考视频片段和用于描述所述参考视频片段的对应的参考事件标签,所述推理引擎的第一实例用于从所述训练集中包括的所述操作员标记的视频片段中推断事件;以及
通过用所述至少一个处理器执行指令来部署所述推理引擎的第二实例以从受监控视频馈送中推断事件,所述推理引擎的第二实例基于所述推理引擎的第一实例。
24.根据权利要求23所述的方法,其中,所述参考事件标签指示对应的参考视频片段是否描绘了定义的事件。
25.根据权利要求23所述的方法,其中,与所述参考视频片段中的第一参考视频片段相对应的所述参考事件标签中的第一参考事件标签指示(i)事件类型以及(ii)所述参考视频片段中的所述第一参考视频片段是否描绘了所述事件类型。
26.根据权利要求23所述的方法,其中,访问操作员标记的视频片段的记录包括从监控站获得所述参考视频片段中的第一参考视频片段和所述参考事件标签中的对应的第一参考事件标签。
27.根据权利要求26所述的方法,其中,所述推理引擎的第二实例的部署包括将所述推理引擎的第二实例部署到所述监控站。
28.根据权利要求27所述的方法,其中,当所述推理引擎的第二实例最初被部署到所述监控站时,所述推理引擎的第二实例是所述推理引擎的第一实例的复制。
29.根据权利要求27所述的方法,其中,所述监控站用于通过比较以下两项来获取更新的训练数据:(i)由所述推理引擎的第二实例针对所述受监控视频馈送的片段输出的推断事件,以及(ii)由所述监控站针对所述受监控视频馈送的所述片段生成的操作员事件标签,并且对所述推理引擎的第一实例的训练还包括基于所述更新的训练数据来重新训练所述推理引擎的第一实例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311490280.4A CN117456419A (zh) | 2018-07-05 | 2019-07-05 | 利用神经网络的视频监视 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/028,095 | 2018-07-05 | ||
US16/028,095 US11430312B2 (en) | 2018-07-05 | 2018-07-05 | Video surveillance with neural networks |
PCT/EP2019/068085 WO2020008025A1 (en) | 2018-07-05 | 2019-07-05 | Video surveillance with neural networks |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311490280.4A Division CN117456419A (zh) | 2018-07-05 | 2019-07-05 | 利用神经网络的视频监视 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112424789A true CN112424789A (zh) | 2021-02-26 |
CN112424789B CN112424789B (zh) | 2024-06-28 |
Family
ID=67253868
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980045392.4A Active CN112424789B (zh) | 2018-07-05 | 2019-07-05 | 利用神经网络的视频监视 |
CN202311490280.4A Pending CN117456419A (zh) | 2018-07-05 | 2019-07-05 | 利用神经网络的视频监视 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311490280.4A Pending CN117456419A (zh) | 2018-07-05 | 2019-07-05 | 利用神经网络的视频监视 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11430312B2 (zh) |
JP (2) | JP7413641B2 (zh) |
CN (2) | CN112424789B (zh) |
DE (1) | DE112019003414T5 (zh) |
WO (1) | WO2020008025A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11430312B2 (en) * | 2018-07-05 | 2022-08-30 | Movidius Limited | Video surveillance with neural networks |
US11064175B2 (en) | 2019-12-11 | 2021-07-13 | At&T Intellectual Property I, L.P. | Event-triggered video creation with data augmentation |
US11356601B2 (en) | 2020-06-19 | 2022-06-07 | Micron Technology, Inc. | Intelligent digital camera having deep learning accelerator and random access memory |
US11490135B2 (en) * | 2020-06-19 | 2022-11-01 | Micron Technology, Inc. | Surveillance camera upgrade via removable media having deep learning accelerator and random access memory |
DE102021205480A1 (de) * | 2021-05-28 | 2022-12-01 | Siemens Mobility GmbH | Verfahren zum Trainieren eines Überwachungssystems |
CN113364911B (zh) * | 2021-06-11 | 2023-03-07 | 上海兴容信息技术有限公司 | 一种预设终端的检测方法和*** |
US11954141B1 (en) * | 2023-01-12 | 2024-04-09 | Comcast Cable Communications, Llc | Systems and methods for ad-hoc event detection in content |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844665A (zh) * | 2016-03-21 | 2016-08-10 | 清华大学 | 视频对象追踪方法及装置 |
US20180060722A1 (en) * | 2016-08-30 | 2018-03-01 | Lunit Inc. | Machine learning method and apparatus based on weakly supervised learning |
JP2018072881A (ja) * | 2016-10-24 | 2018-05-10 | ホーチキ株式会社 | 火災監視システム |
CN108174165A (zh) * | 2018-01-17 | 2018-06-15 | 重庆览辉信息技术有限公司 | 电力安全作业及运维智能监管***及方法 |
CN108230358A (zh) * | 2017-10-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 目标跟踪及神经网络训练方法、装置、存储介质、电子设备 |
CN108230359A (zh) * | 2017-11-12 | 2018-06-29 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
CN108229285A (zh) * | 2017-05-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 物体分类方法、物体分类器的训练方法、装置和电子设备 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8935204B2 (en) * | 2009-08-14 | 2015-01-13 | Aframe Media Services Limited | Metadata tagging of moving and still image content |
US8635197B2 (en) * | 2011-02-28 | 2014-01-21 | International Business Machines Corporation | Systems and methods for efficient development of a rule-based system using crowd-sourcing |
US8903167B2 (en) * | 2011-05-12 | 2014-12-02 | Microsoft Corporation | Synthesizing training samples for object recognition |
US9280742B1 (en) * | 2012-09-05 | 2016-03-08 | Google Inc. | Conceptual enhancement of automatic multimedia annotations |
WO2014130748A1 (en) * | 2013-02-20 | 2014-08-28 | Emotient | Automatic analysis of rapport |
US10380488B2 (en) * | 2014-05-30 | 2019-08-13 | Apple Inc. | Methods and system for managing predictive models |
WO2016038522A1 (en) * | 2014-09-08 | 2016-03-17 | Google Inc. | Selecting and presenting representative frames for video previews |
GB201505864D0 (en) * | 2015-04-07 | 2015-05-20 | Ipv Ltd | Live markers |
US10303768B2 (en) * | 2015-05-04 | 2019-05-28 | Sri International | Exploiting multi-modal affect and semantics to assess the persuasiveness of a video |
US9904849B2 (en) * | 2015-08-26 | 2018-02-27 | Digitalglobe, Inc. | System for simplified generation of systems for broad area geospatial object detection |
US10390082B2 (en) * | 2016-04-01 | 2019-08-20 | Oath Inc. | Computerized system and method for automatically detecting and rendering highlights from streaming videos |
EP3267368B1 (en) * | 2016-07-06 | 2020-06-03 | Accenture Global Solutions Limited | Machine learning image processing |
US20180046475A1 (en) * | 2016-08-11 | 2018-02-15 | Twitter, Inc. | Detecting scripted or otherwise anomalous interactions with social media platform |
CA3037201A1 (en) * | 2016-09-21 | 2018-03-29 | GumGum, Inc. | Machine learning models for identifying objects depicted in image or video data |
US10051344B2 (en) * | 2016-09-27 | 2018-08-14 | Clarifai, Inc. | Prediction model training via live stream concept association |
US11379695B2 (en) * | 2016-10-24 | 2022-07-05 | International Business Machines Corporation | Edge-based adaptive machine learning for object recognition |
CA3045286C (en) * | 2016-10-28 | 2024-02-20 | Axon Enterprise, Inc. | Systems and methods for supplementing captured data |
US9990687B1 (en) * | 2017-01-19 | 2018-06-05 | Deep Learning Analytics, LLC | Systems and methods for fast and repeatable embedding of high-dimensional data objects using deep learning with power efficient GPU and FPGA-based processing platforms |
US20180240031A1 (en) * | 2017-02-17 | 2018-08-23 | Twitter, Inc. | Active learning system |
GB2560177A (en) * | 2017-03-01 | 2018-09-05 | Thirdeye Labs Ltd | Training a computational neural network |
US10671873B2 (en) * | 2017-03-10 | 2020-06-02 | Tusimple, Inc. | System and method for vehicle wheel detection |
US10311312B2 (en) * | 2017-08-31 | 2019-06-04 | TuSimple | System and method for vehicle occlusion detection |
US10229322B2 (en) * | 2017-04-06 | 2019-03-12 | Ants Technology (Hk) Limited | Apparatus, methods and computer products for video analytics |
EP3399465A1 (en) * | 2017-05-05 | 2018-11-07 | Dassault Systèmes | Forming a dataset for fully-supervised learning |
EP3410413B1 (en) * | 2017-06-02 | 2021-07-21 | Netatmo | Improved generation of alert events based on a detection of objects from camera images |
US10838967B2 (en) * | 2017-06-08 | 2020-11-17 | Microsoft Technology Licensing, Llc | Emotional intelligence for a conversational chatbot |
US20180373980A1 (en) * | 2017-06-27 | 2018-12-27 | drive.ai Inc. | Method for training and refining an artificial intelligence |
CN107391760B (zh) * | 2017-08-25 | 2018-05-25 | 平安科技(深圳)有限公司 | 用户兴趣识别方法、装置及计算机可读存储介质 |
US10783381B2 (en) * | 2017-08-31 | 2020-09-22 | Tusimple, Inc. | System and method for vehicle occlusion detection |
US10679064B2 (en) * | 2017-09-28 | 2020-06-09 | Microsoft Technology Licensing, Llc | Optimized classifier update |
US10937089B2 (en) * | 2017-12-11 | 2021-03-02 | Accenture Global Solutions Limited | Machine learning classification and prediction system |
US11419499B2 (en) * | 2018-01-19 | 2022-08-23 | The Regents Of The University Of California | Optical coherence tomography for cancer screening and triage |
TWI666595B (zh) * | 2018-02-26 | 2019-07-21 | 財團法人工業技術研究院 | 物件標示系統及方法 |
JP6844562B2 (ja) * | 2018-03-13 | 2021-03-17 | オムロン株式会社 | アノテーション方法、アノテーション装置、アノテーションプログラム及び識別システム |
US10691922B2 (en) * | 2018-05-17 | 2020-06-23 | Accenture Global Solutions Limited | Detection of counterfeit items based on machine learning and analysis of visual and textual data |
US11430312B2 (en) * | 2018-07-05 | 2022-08-30 | Movidius Limited | Video surveillance with neural networks |
US20200258616A1 (en) * | 2019-02-07 | 2020-08-13 | The Regents Of The University Of Michigan | Automated identification and grading of intraoperative quality |
US10817733B2 (en) * | 2019-02-13 | 2020-10-27 | Sap Se | Blind spot implementation in neural networks |
US11514188B1 (en) * | 2019-03-27 | 2022-11-29 | Egnyte, Inc. | System and method for serving subject access requests |
EP3739503B1 (en) * | 2019-05-14 | 2023-10-25 | Nokia Technologies Oy | Video processing |
US11100368B2 (en) * | 2019-06-25 | 2021-08-24 | GumGum, Inc. | Accelerated training of an image classifier |
EP4367890A1 (en) * | 2021-07-07 | 2024-05-15 | SSIMWAVE Inc. | Automatic visual media transmission error assessment |
JP2023019291A (ja) * | 2021-07-29 | 2023-02-09 | 株式会社日立製作所 | 画像識別システム及び画像識別方法 |
-
2018
- 2018-07-05 US US16/028,095 patent/US11430312B2/en active Active
-
2019
- 2019-07-05 CN CN201980045392.4A patent/CN112424789B/zh active Active
- 2019-07-05 WO PCT/EP2019/068085 patent/WO2020008025A1/en active Application Filing
- 2019-07-05 JP JP2020572377A patent/JP7413641B2/ja active Active
- 2019-07-05 DE DE112019003414.6T patent/DE112019003414T5/de active Pending
- 2019-07-05 CN CN202311490280.4A patent/CN117456419A/zh active Pending
-
2022
- 2022-08-26 US US17/896,856 patent/US20230056418A1/en active Pending
-
2023
- 2023-11-14 JP JP2023193389A patent/JP2024012583A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844665A (zh) * | 2016-03-21 | 2016-08-10 | 清华大学 | 视频对象追踪方法及装置 |
US20180060722A1 (en) * | 2016-08-30 | 2018-03-01 | Lunit Inc. | Machine learning method and apparatus based on weakly supervised learning |
JP2018072881A (ja) * | 2016-10-24 | 2018-05-10 | ホーチキ株式会社 | 火災監視システム |
CN108229285A (zh) * | 2017-05-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 物体分类方法、物体分类器的训练方法、装置和电子设备 |
CN108230358A (zh) * | 2017-10-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 目标跟踪及神经网络训练方法、装置、存储介质、电子设备 |
CN108230359A (zh) * | 2017-11-12 | 2018-06-29 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
CN108174165A (zh) * | 2018-01-17 | 2018-06-15 | 重庆览辉信息技术有限公司 | 电力安全作业及运维智能监管***及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2024012583A (ja) | 2024-01-30 |
US11430312B2 (en) | 2022-08-30 |
JP2021529384A (ja) | 2021-10-28 |
DE112019003414T5 (de) | 2021-03-25 |
JP7413641B2 (ja) | 2024-01-16 |
CN112424789B (zh) | 2024-06-28 |
WO2020008025A1 (en) | 2020-01-09 |
US20230056418A1 (en) | 2023-02-23 |
CN117456419A (zh) | 2024-01-26 |
US20200013265A1 (en) | 2020-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112424789B (zh) | 利用神经网络的视频监视 | |
KR102557956B1 (ko) | 딥 러닝 모델들의 분산 훈련을 위한 시스템들 및 방법들 | |
CN111601684B (zh) | 在机器人之间共享学习的信息 | |
US11685048B2 (en) | Enhancing robot learning | |
US11017317B2 (en) | Evaluating robot learning | |
US10219222B2 (en) | Adjusting mobile device state based on user intentions and/or identity | |
US12020133B2 (en) | Automated input-data monitoring to dynamically adapt machine-learning techniques | |
US11562245B2 (en) | Neural network model generation and distribution with client feedback | |
CN105978785A (zh) | 通知数据的预测性转发 | |
US11580734B1 (en) | Distinguishing real from virtual objects in immersive reality | |
US20190228294A1 (en) | Method and system for processing neural network model using plurality of electronic devices | |
CN109074272A (zh) | 对执行与用户交互元素相关联的动作的通知呈现 | |
US11049382B2 (en) | Fall detection method and system | |
KR102600418B1 (ko) | 구역을 결정하기 위한 방법 및 장치 | |
US11972446B2 (en) | Communication channel or communication timing selection based on user engagement | |
CN109583583B (zh) | 神经网络训练方法、装置、计算机设备及可读介质 | |
CN116957585A (zh) | 一种数据处理方法、装置、设备和存储介质 | |
US11860903B1 (en) | Clustering data base on visual model | |
US20220171750A1 (en) | Content management system for trained machine learning models | |
WO2022115178A1 (en) | Methods and systems for recognizing video stream hijacking on edge devices | |
CN117785541B (zh) | 一种数据处理方法及电子设备 | |
KR102589573B1 (ko) | 촬영 구역을 결정하기 위한 방법 및 장치 | |
US20240071121A1 (en) | Classifying documents based on machine learning | |
US20240144151A1 (en) | Intuitive ai-powered worker productivity and safety |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |