CN113515968A

CN113515968A - 街道的异常事件检测方法、装置、设备及介质

Info

Publication number: CN113515968A
Application number: CN202010273415.1A
Authority: CN
Inventors: 谢奕; 胡鹏; 陆瑞智; 喻晓源; 陈普
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2021-10-19

Abstract

本申请提供了一种街道的异常事件检测方法，包括：获取目标图像和参考图像，参考图像记录的街道景象中不包括异常事件，然后输入目标图像和参考图像至语义差异提取网络，获得目标图像相对于参考图像的语义差异区域，接着根据所述语义差异区域获得检测结果，该检测结果用于表征目标图像记录的街道景象中是否包括异常事件。该方法提高了检测准确度，降低了误警率，进而提高了用户体验。

Description

街道的异常事件检测方法、装置、设备及介质

技术领域

本申请涉及人工智能(artificial intelligence，AI)技术领域，尤其涉及一种街道的异常事件检测方法、装置、设备以及计算机可读存储介质。

背景技术

随着人工智能技术的不断发展，尤其是深度学习在图像处理任务中取得的进展，越来越多的场景采用抓拍图像或者拍摄视频，然后对图像或者视频中特定事件进行检测的方式，实现实时地自动化监控。例如，在城市管理场景中，通过人工智能技术对街道的监控视频中的街道占用等异常事件进行检测，从而实现智能街道巡查。

当前，业界主要采用背景建模技术对图像或视频中街道的异常事件进行检测。具体地，对图像或视频流中每个像素点进行建模，学习得到每个像素点在稳定背景状态下的概率分布，通过像素概率分布的拟合情况判断图像或视频流的当前图像帧中的运动前景区域和稳定背景区域。当人工划定的街道中有较大面积被识别为运动前景区域，则认为该街道存在街道占用等异常事件。但是这种检测方法的准确度不高，常常会产生大量误报，影响用户体验。基于此，业界亟需提供一种准确度较高的街道的异常事件检测方法。

发明内容

本申请提供了一种街道的异常事件检测方法，解决了相关技术中检测准确度不高，产生大量误报，影响用户体验的问题。本申请还提供了对应的装置、设备、计算机可读存储介质以及计算机程序产品。

第一方面，本申请提供了一种街道的异常事件检测方法。该方法通过从街道的监控图像中提取语义差异区域，基于该语义差异区域进行街道的异常事件检测，从而避免光线、天气等噪声差异对异常事件检测产生干扰，提高了检测准确度，降低了误警率，进而提高了用户体验。

具体地，先获取目标图像和参考图像，其中，目标图像为待检测的图像，参考图像是检测目标图像时所参考的图像，参考图像记录的街道景象中不包括异常事件，将目标图像和参考图像输入语义差异提取网络，该语义差异提取网络可以提取出目标图像和参考图像各自的语义特征，基于该语义特征可以确定目标图像相对于参考图像的语义差异区域，根据该语义差异区域进行街道的异常事件检测，获得检测结果。该检测结果用于表征目标图像记录的街道景象中是否包括所述异常事件。

在一些可能的实现方式中，异常事件是指与街道中常态不相符或者与相关规定不符的事件。作为一个示例，异常事件可以包括违规事件、安全事故和/或安全隐患事件中的任意一种或多种。

其中，违规事件可以包括违反道路交通安全条例的违规停车等异常事件，也可以包括违反市容和环境卫生管理条例的占道经营、乱堆物料、游商小贩或者乱扔垃圾等异常事件。安全事故可以是路面塌陷或者是交通事故等异常事件。安全隐患事件可以是缺乏安全警示标志、安全警示标志不明显、交通指示灯故障等异常事件。

通过设置上述异常事件，可以实现实时地智能街道巡查。一方面提高了巡查效率，另一方面降低了巡查成本。而且，该方法能够对安全、卫生等多个方面进行全面巡查，具有较高可用性。

在一些可能的实现方式中，在根据语义差异区域进行异常事件检测时，可以利用语义差异区域的图像与已知异常事件类型的图像的相似度确定检测结果。具体地，先根据语义差异区域获得至少一个检测图像，其中，每个检测图像由目标图像中的语义差异区域进行分割获得，然后根据至少一个检测图像与小样本支撑集中的小样本支撑图像的相似度确定检测结果。

其中，小样本支撑集中包括表示不同异常事件的小样本支撑图像。根据检测图像与小样本支撑集中至少一个小样本支撑图像的相似度可以确定检测图像对应的异常事件的类型，从而获得检测结果。

该实现方式可以适用于监控应用(视频监控应用或图像监控应用)的任何阶段，尤其是应用初期，样本数量较少时，根据检测图像和小样本支撑集中的小样本支撑图像的相似度进行街道的异常事件检测，具有较高准确度。

在一些可能的实现方式中，在根据语义差异区域进行异常事件检测时，也可以通过事件分类网络实现。具体地，输入至少一个检测图像至事件分类网络，其中，每个检测图像是由目标图像中的语义差异区域进行分割获得，事件分类网络是由知识库中的多个图像和类型标签训练得到，类型标签用于标识图像对应的事件的类型，事件分类网络具体是利用图像和类型标签作为样本数据，采用监督学习方式训练得到，利用事件分类网络对检测图像进行检测，可以获得检测结果。

知识库中的图像可以是检测图像，也可以是通过其他方式获得的图像，或者是这两种图像的组合。其中，知识库中的图像为检测图像时，可以根据检测图像与小样本支撑集中至少一个小样本支撑图像的相似度确定该图像的类型标签。

当样本数量较多时，如应用后期，利用监督学习训练得到的事件分类网络进行街道的异常事件检测可以进一步提高检测准确度，降低误报率，提高用户体验。

在一些可能的实现方式中，还可以向用户提供检测结果，然后获取用户对检测结果的反馈，该反馈包括对检测图像对应的事件类型的纠正，如此，通过结合用户反馈进一步提高了检测准确度。

考虑到后续检测过程的准确度，还可以根据上述反馈更新小样本支撑集。具体地，根据反馈更新小样本支撑集可以分为以下几种情况:

第一种情况是，根据反馈向所述小样本支撑集中增加第一小样本支撑图像，所述第一小样本支撑图像记录的街道景象中包括第一指定类型的异常事件。

第二种情况是，根据反馈从所述小样本支撑集中删除第二小样本支撑图像，所述第二小样本支撑图像记录的街道景象中包括第二指定类型的异常事件。

第三种情况是，根据反馈从所述小样本支撑集中修改第三小样本支撑图像，所述第三小样本支撑图像记录的街道景象中包括第三指定类型的异常事件。

在该实现方式中，基于检测图像构建知识库时，为了提高样本精度，还可以根据用户对检测结果的反馈确定检测图像的类型标签。

在一些可能的实现方式中，还可以将检测结果通过可视化方式展示，以便用户快速获知检测结果。具体地，根据目标图像和检测结果，生成可视化结果图。该可视化结果图像可以展示目标图像记录的街道景象中所包括的异常事件。

其中，生成可视化结果图包括多种实现方式：

一种实现方式为，在目标图像上添加检测框，该检测框可以是矩形框或者其他形状的框，用于标识出目标图像中的语义差异区域。再在目标图像的对应位置添加异常事件的类型，从而得到可视化结果图。

另一种实现方式为，在获得检测结果时，在目标图像的对应位置(语义差异区域对应位置)添加检测结果标志，形成可视化结果图。该检测结果标志可以是小旗子或者是星形等标志，用于标识街道中的该位置存在异常事件。

其中，可视化结果图中还可以展示各位置存在的异常事件的类型。可视化结果图可以直接在检测结果标志附近展示各位置存在的异常事件的类型，也可以在用户通过点击检测结果标志等方式触发展示详情信息的操作时，展示该位置存在的异常事件的类型等详情信息。

在一些可能的实现方式中，所述参考图像为视频流中的图像帧，还可以基于图像帧的运动前景像素占比更新参考图像，使得每个目标图像均可以基于高质量的参考图像进行街道的异常事件检测，提高检测准确度。

具体地，获取所述视频流中当前图像帧的运动前景像素占比，当前图像帧的运动前景像素占比小于所述视频流中历史图像帧的运动前景像素占比时，利用所述当前图像帧更新所述参考图像。

在一些可能的实现方式中，正常行走的行人或者正常行驶的车辆也可以导致语义差异，为了避免正常行走的行人或者正常行驶的车辆等运动对象的干扰，还可以从所述语义差异区域中消除运动前景区域，所述运动前景区域为所述目标图像中的运动对象所在的区域，然后根据消除所述运动前景区域的所述语义差异区域，获得检测结果。如此，可以进一步提高检测准确度。

在一些可能的实现方式中，所述语义差异提取网络为一种经过训练后的神经网络模型，所述语义差异提取网络包括特征提取层、语义差异融合层和语义差异分割层。基于此，可以输入所述目标图像和所述参考图像至所述特征提取层，获得所述目标图像的基础特征图和所述参考图像的基础特征图，然后输入所述目标图像的基础特征图和所述参考图像的基础特征图至所述语义差异融合层，获得融合特征图，所述融合特征图中包括所述目标图像的基础特征图、所述参考图像的基础特征图以及所述目标图像和所述参考图像的差异特征图，接着输入所述融合特征图至所述语义差异分割层，获得所述目标图像相对于所述参考图像的语义差异区域。由于融合特征图中保留了原基础特征图的信息，因此，基于该融合特征图进行语义差异分割能够更为准确地分割出语义差异区域。

第二方面，本申请提供了一种街道的异常事件检测装置。该装置包括：

通信模块，用于获取目标图像和参考图像，所述参考图像记录的街道景象中不包括所述异常事件；

语义差异提取模块，用于输入所述目标图像和所述参考图像至语义差异提取网络，获得所述目标图像相对于所述参考图像的语义差异区域；

检测模块，用于根据所述语义差异区域，获得检测结果，所述检测结果用于表征所述目标图像记录的街道景象中是否包括所述异常事件。

在一些可能的实现方式中，所述街道的异常事件包括：违规事件、安全事故和/或安全隐患事件。

在一些可能的实现方式中，所述检测模块具体用于：

根据所述语义差异区域获得至少一个检测图像，每个检测图像由所述目标图像中的语义差异区域进行分割获得；

根据所述至少一个检测图像与小样本支撑集中的小样本支撑图像的相似度确定所述检测结果，所述小样本支撑集中包括表示不同异常事件的小样本支撑图像。

在一些可能的实现方式中，所述检测模块具体用于：

输入至少一个检测图像至事件分类网络，获得检测结果，其中，每个检测图像由所述目标图像中的语义差异区域进行分割获得，所述事件分类网络由知识库中的多个图像和类型标签训练得到，所述类型标签用于标识图像对应的事件的类型。

在一些可能的实现方式中，所述通信模块还用于：

向用户提供所述检测结果；

获取用户对所述检测结果的反馈，所述反馈包括对检测图像对应的事件的类型的纠正。

在一些可能的实现方式中，所述装置还包括：

第一更新模块，用于根据所述反馈更新所述小样本支撑集。

在一些可能的实现方式中，所述检测模块还用于：

根据所述目标图像和所述检测结果，生成可视化结果图。

在一些可能的实现方式中，所述参考图像为视频流中的图像帧，所述通信模块还用于：

获取所述视频流中当前图像帧的运动前景像素占比；

所述装置还包括：

第二更新模块，用于所述当前图像帧的运动前景像素占比小于所述视频流中历史图像帧的运动前景像素占比时，利用所述当前图像帧更新所述参考图像。

在一些可能的实现方式中，所述装置还包括：

消除模块，用于从所述语义差异区域中消除运动前景区域，所述运动前景区域为所述目标图像中的运动对象所在的区域；

所述检测模块具体用于：

根据消除所述运动前景区域的所述语义差异区域，获得检测结果。

在一些可能的实现方式中，所述语义差异提取网络为一种经过训练后的神经网络模型，所述语义差异提取网络包括特征提取层、语义差异融合层和语义差异分割层；

所述语义差异提取模块具体用于：

输入所述目标图像和所述参考图像至所述特征提取层，获得所述目标图像的基础特征图和所述参考图像的基础特征图；

输入所述目标图像的基础特征图和所述参考图像的基础特征图至所述语义差异融合层，获得融合特征图，所述融合特征图中包括所述目标图像的基础特征图、所述参考图像的基础特征图以及所述目标图像和所述参考图像的差异特征图；

输入所述融合特征图至所述语义差异分割层，获得所述目标图像相对于所述参考图像的语义差异区域。

第三方面，本申请提供一种设备，所述设备包括处理器和存储器。所述处理器、所述存储器进行相互的通信。所述处理器用于执行所述存储器中存储的指令，以使得设备执行如第一方面或第一方面的任一种实现方式所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，所述指令用于指示设备执行上述第一方面或第一方面的任一种实现方式所述的方法。

第五方面，本申请提供了一种包含指令的计算机程序产品，当其在设备上运行时，使得设备执行上述第一方面或第一方面的任一种实现方式所述的方法。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

为了更清楚地说明本申请实施例的技术方法，下面将对实施例中所需使用的附图作以简单地介绍。

图1为本申请实施例提供的一种街道的异常事件检测方法的***架构图；

图2为本申请实施例提供的一种街道的异常事件检测方法的流程图；

图3为本申请实施例提供的一种语义差异提取网络的结构示意图；

图4为本申请实施例提供的一种从语义差异区域中消除运动前景区域的示意图；

图5为本申请实施例提供的一种可视化结果图的示意图；

图6为本申请实施例提供的一种基于小样本支撑集进行异常事件检测的示意图；

图7为本申请实施例提供的一种深度最近邻神经网络的结构示意图；

图8为本申请实施例提供的一种基于监督学习进行异常事件检测的方法的流程图；

图9为本申请实施例提供的一种设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请提供的实施例中的方案进行描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。

视频监控应用或者图像监控应用中关注的、与场景中物体相关的事件主要包括存在型事件和运动型事件。所谓存在型事件是指图像所标识的地理区域中设定类型物体的进入(出现)以及离开(消失)设定区域，或者设定类型物体沿着设定方向进入/离开设定区域，或者设定类型物体在设定区域中存在时间满足设定的条件。所谓运动型事件则是指图像所标识的物理区域中设定类型物体(例如人、车辆或者动物等等)处于设定的运动模式，例如打斗模式、运动模式等等。

针对城市管理的街道巡查任务，也可以通过摄像头拍摄视频或者图像，然后采用上述视频监控应用或者图像监控应用进行分析，从而实现智能街道巡查。智能街道巡查的一个关键即在于从视频或图像中检测街道的异常事件。

其中，街道的异常事件是指与街道中常态不相符或者与相关规定不符的事件。作为一个示例，异常事件可以包括违规事件、安全事故和/或安全隐患事件中的任意一种或多种。违规事件可以包括违反道路交通安全条例的违规停车等异常事件，也可以包括违反市容和环境卫生管理条例的占道经营、乱堆物料、游商小贩或者乱扔垃圾等异常事件。安全事故可以是路面塌陷或者是交通事故等异常事件。安全隐患事件可以是缺乏安全警示标志、安全警示标志不明显、交通指示灯故障等异常事件。

从视频或图像中检测的街道的异常事件的类型可以根据业务需求而设定。例如，可以从视频或图像中检测占道经营、乱堆物料或者游商小贩等异常事件。在一些可能的实现方式中，还可以对违规停车、乱扔垃圾等异常事件进行检测。

目前，业界提出了一种背景建模技术，用于实现街道的异常事件检测。具体地，对街道监控视频流中的每个像素点进行背景建模，学习得到每个像素点在稳定背景状态下的概率分布，通过像素概率分布的拟合情况判断当前画面中的运动前景区域和稳定背景区域。其中，前景区域通常是指感兴趣区域，背景区域通常是指画面中除感兴趣区域以外的区域，基于此，运动前景区域是指感兴趣的运动对象所在的区域，稳定背景区域是指上述感兴趣的运动对象所在的区域以外的，且概率分布较为稳定的背景区域。当街道区域出现大面积运动前景区域时，则确定发生道路侵占等异常事件，如此可以触发告警。

然而，无论是混合高斯背景建模算法，还是环境(vibe)算法，或者是多层背景差分(multi-layer background subtraction，multi-layer BGS)算法均受到光照、天气等因素影响，容易将光照或天气导致的阴影区域识别为运动前景区域，并确定该运动前景区域发生道路侵占等事件。也即基于背景建模的街道的异常事件检测方法无法有效区分光线、天气等因素引起的噪声差异区域和物体出现、消失、改变所引起的语义差异区域，导致检测准确度不高，产生大量误报，影响用户体验。

有鉴于此，本申请实施例提供了一种街道的异常事件检测方法。该方法采用语义差异提取网络直接提取语义差异区域，采用该语义差异区域代替通过背景建模算法提取的运动前景区域进行街道的异常事件检测，从而解决光照、天气等因素引起的噪声差异区域影响检测准确度的问题。具体地，获取目标图像和参考图像，其中，参考图像记录的街道景象中不包括异常事件，因此，参考图像可以作为目标图像的比对模板。将目标图像和参考图像输入至语义差异提取网络进行比对，可以获得目标图像相对于参考图像的语义差异区域。该语义差异区域标识物体出现、消失或者改变所引起的差异区域，根据该语义差异区域进行街道的异常事件检测，可以避免光照、天气等因素引起的噪声差异区域的干扰，提高检测准确度，进而减少误报，提高用户体验。在一些实施例中，语义差异提取网络为一种经过训练后的神经网络模型。

本申请实施例提供的街道的异常事件检测方法可以应用于包括但不限于如图1所示的应用场景中。

如图1所示，该场景中包括设备102和设备104。设备102为图像采集设备，该图像采集设备102具体可以是摄像机。设备104为处理设备，该处理设备具有中央处理器(CentralProcessing Unit，CPU)和/或图形处理器(Graphics Processing Unit，GPU)，用于对图像采集设备采集的图像进行处理，从而实现街道的异常事件检测。需要说明的是，设备104可以是物理设备或物理设备集群，例如终端、服务器、或服务器集群。当然，设备104也可以是虚拟化的云设备，例如云计算集群中的至少一个云计算设备。

在具体实现时，图像采集设备102采集一个地理区域的图像，例如一条街道的图像，获得目标图像。然后图像采集设备102向设备104发送该目标图像。设备104中部署有街道的异常事件检测装置1040，街道的异常事件检测装置1040包括通信模块1042、语义差异提取模块1044和检测模块1046。通信模块1042获取上述目标图像以及参考图像，参考图像记录的街道中不包括所述异常事件。例如在街道巡查场景中，参考图像不包括占道经营、乱堆物料、游商小贩等异常事件。

语义差异提取模块1044中包括语义差异提取网络，目标图像和参考图像输入语义差异提取网络后，语义差异提取网络可以对目标图像和参考图像进行语义识别，然后提取出目标图像相对于参考图像的语义差异区域。接着，检测模块1046可以基于上述语义差异区域进行分类，获得检测结果。该检测结果具体用于表征目标图像记录的街道景象中是否包括所述异常事件。

为了使得本申请的技术方案更加清楚、易于理解，下面将从街道的异常事件检测装置1040的角度对本申请实施例提供的街道的异常事件检测方法进行介绍。

S202：街道的异常事件检测装置1040获取目标图像和参考图像。

需要监控或者巡查的地理区域如街道区域一般部署有摄像机，该摄像机中至少包括摄像头。摄像机通过摄像头对上述地理区域进行拍摄可以得到目标图像。街道的异常事件检测装置1040可以从摄像机获取上述目标图像。需要说明，摄像机可以针对上述地理区域拍摄得到图像或者得到视频流。当摄像机拍摄得到视频流时，街道的异常事件检测装置1040可以在获得视频流后，对视频流进行解码得到若干帧图像，然后从上述若干帧图像中获得目标图像。

参考图像是目标图像进行检测时所参考的图像。参考图像记录的街道景象中不包括异常事件。该异常事件的类型可以根据实际业务需求而设定。例如，在街道巡查场景中，异常事件的类型可以包括占道经营、乱堆物料以及游商小贩等类型。当然，在一些实现方式中，异常事件的类型还可以包括乱扔垃圾以及违规停车等类型。需要说明，目标图像的参考图像记录的街道与目标图像记录的街道相同。当针对不同街道拍摄得到目标图像时，上述目标图像对应的参考图像也是不同的。

在具体实现时，街道的异常事件检测装置1040可以从对街道进行监控所得的多张图像中，利用图像识别等技术筛选出不包括异常事件的图像作为参考图像。当然，在一些可能的实现方式中，街道的异常事件检测装置1040也可以接收用户提供且记录的街道景象中不包括异常事件的图像作为参考图像。

S204：街道的异常事件检测装置1040输入所述目标图像和所述参考图像至语义差异提取网络，获得所述目标图像相对于所述参考图像的语义差异区域。

其中，语义差异提取网络可以利用神经网络对高层语义信息的表达能力，有效区分光线、视角、阴影、树叶被扰动等引起的噪声差异和物体出现、消失、改变引起的语义差异，并由此提取出目标图像相对于参考图像的语义差异区域。

在具体实现时，语义差异提取网络可以是全卷积孪生度量网络(fullyconvolutional siamese metric network，FCSMN)，也称作CosimNet。给定一对图像(即目标图像和参考图像)，语义差异提取网络旨在识别不同时间的语义变化(即语义差异)。CosimNet利用对比损失(contrastive loss)来减少未更改特征对之间的距离，并扩大已更改特征对之间的距离，并且提出一种策略惩罚噪声变化(即噪声差异)，由此区分出噪声差异和语义差异，并从中提取出语义差异区域。

上述CosimNet在提取目标图像的基础特征图Feat_I和参考图像的基础特征图Feat_B后，一般是直接计算两个基础特征图的距离，例如欧几里得距离(即L2范数，L2 norm)，得到目标图像和参考图像的差异特征图Feat_sub，然后基于该差异特征图Feat_sub进行逐像素点语义差异评估。

为了提升语义差异识别准确度，在一些可能的实现方式中，还可以将上述差异特征图Feat_sub与目标图像I_t的基础特征图Feat_I、参考图像B_t的基础特征图Feat_B进行融合，基于融合后的差异特征图进行语义差异评估时，能够有效结合两张基础特征图之间的差异，同时不丢失原基础特征图的信息。

在基于差异特征图Feat_sub或者融合Feat_I、Feat_B的差异特征图进行语义差异评估时，可以通过语义差异分割层实现。该语义差异分割层具体可以包括卷积层。通过卷积层可以对差异特征图或融合Feat_I、Feat_B的差异特征图进行降通道操作得到两通道特征图，然后通过逐点softmax对两通道的值归一化，得到像素点为语义差异或者非语义差异的概率值，基于上述概率值可以获得语义差异比对结果图S_t，该语义差异比对结果图S_t中标识有语义差异区域。在进行降通道操作时，也可以使用双层卷积层，引入更多的非线性操作增强语义差异的表达能力，从而提高语义差异区域的精确度。

为了便于理解，本申请还提供了语义差异提取网络的一个示例。如图3所示，语义差异提取网络包括特征提取层、语义差异融合层和语义差异分割层。特征提取层为共享权值的孪生基础网络，该孪生基础网络可以采用多种有助于图像区域特征分割表达的网络结构实现，例如可以采用全卷积网络(fully convolutional networks，FCN)、U型网络(UNet)、第2版深度实验室(deeplab v2)或者deeplab v3等。特征提取层通过上述孪生基础网络对目标图像I_t和参考图像B_t分别提取特征图，得到基础特征图Feat_I和Feat_B。

语义差异融合层首先针对两个基础特征图即Feat_I和Feat_B进行逐点差异计算得到差异特征图Feat_sub。其中，Feat_sub＝Feat_I-Feat_B。然后可以按照[Feat_B,Feat_sub,Feat_I]的形式进行通道级联，得到融合后的差异特征图。需要说明的是，语义差异融合层在进行特征融合时，也可以按照[Feat_I,Feat_sub,Feat_B]形式进行通道级联，本申请实施例对级联顺序不作限定。

语义差异分割层包括两层卷积层。其中，第一层卷积层对融合后的差异特征图进行非线性处理。第二层卷积层的卷积核尺寸为1*1，用于在保证特征图分辨率的情况下进行降通道操作。经过第二层卷积层后可以输出尺寸为2*H_feat*W_feat的特征图。其中，H_feat和W_feat分别表征特征图的高和宽，2为特征图通道数(一个通道对应语义差异概率，一个通道对应非语义差异概率)。通过逐点多通道Softmax操作可以将2个通道的值归一化为语义差异和非语义差异的概率值。基于特征图中每个像素点的概率值可以确定该像素点属于语义差异区域或者非语义差异区域，由此可以获得尺寸为H_feat*W_feat的语义差异比对结果图S_t。在一些实现方式中，还可以将尺寸为H_feat*W_feat的语义差异比对结果图S_t缩放至与目标图像尺寸相同，即缩放为H_input*W_input，从而得到最终的语义差异比对结果图S_t。

S206：街道的异常事件检测装置1040根据所述语义差异区域，获得检测结果。

一个街道中的物体出现、消失或者改变会引起语义变化(即语义差异)。例如，商户在门外的街道上摆放商品(即占道经营)、建筑单位等在街道上堆放钢材等物料(即乱堆物料)、通过机动车或者非机动车兜售商品(游商小贩)会引起语义变化。因此，街道的异常事件检测装置1040可以基于语义和事件的对应关系对语义差异区域进行分类，从而实现对语义差异区域的异常事件检测，获得检测结果。其中，检测结果具体用于表征目标图像记录的街道景象中是否包括异常事件。例如是否包括占道经营、乱堆物料或者游商小贩等异常事件。

考虑到街道等地理区域中还会出现正常行走的行人和/或正常行驶的车辆等运动对象，为了避免运动对象对街道的异常事件检测产生干扰，如将这些行人或车辆误识别为游商小贩，街道的异常事件检测装置1040还可以从所述语义差异区域中消除运动前景区域，然后根据消除运动前景区域的语义差异区域进行街道的异常事件检测，获得检测结果。

其中，运动前景区域为所述目标图像中的运动对象所在的区域。该运动前景区域可以通过背景建模以及运动前景提取实现。下面以对视频流{I₁,I₂,...,I_t-1,I_t}中的目标图像I_t进行示例说明。在该示例中，街道的异常事件检测装置1040可以采用t时刻之前的视频序列{I₁,I₂,...,I_t-1}进行背景建模，然后将t时刻某像素点

的特征值与该像素点的背景模型分布或特征值

进行比较，从而确定该像素点为运动前景还是稳定背景。接着街道的异常事件检测装置1040可以使用二值化图像膨胀腐蚀操作去除运动前景中的细粒度噪点区域，并填充联通区域中的空洞，得到当前时刻t的运动前景图像M_t。该运动前景图像M_t中标识有运动前景区域。

上述语义差异比对结果图S_t和运动前景图像M_t为二值化图像。当二值化图像采用相同数值，例如采用数值“0”标识语义差异区域和运动前景区域时，街道的异常事件检测装置1040可以对其中一个图像例如运动前景图像进行取反处理，然后将取反处理后的图像与另一个图像进行与操作，例如将取反后的运动前景图像和语义差异比对结果图S_t进行与操作，从而实现从语义差异区域中消除运动前景区域。考虑到语义差异区域的边缘部分可能存在噪声干扰，在一些实现方式中，街道的异常事件检测装置1040还可以在进行与操作之后进行开运算。

当目标图像为视频流中的一帧图像如t时刻的一帧图像I_t时，街道的异常事件检测装置1040还可以基于前t-1帧图像的语义差异比对结果图{S₁,S₂,...,S_t-1}确定当前时刻的语义差异比对结果图S_t，以提高语义差异区域的精确度。具体地，如图4所示，街道的异常事件检测装置1040可以对前t-1帧图像的语义差异比对结果图{S₁,S₂,...,S_t-1}依次进行与操作，然后将与操作的结果与当前时刻的语义差异比对结果图S_t进行与操作，并将与操作的结果作为当前时刻的语义差异比对结果图S_t。接着，街道的异常事件检测装置1040可以对运动前景图像M_t进行取反，然后将取反后的图像与最终的语义差异比对结果图S_t进行与操作，然后进行开运算，从而得到消除运动前景区域的语义差异比对结果图

。其中，消除运动前景区域的语义差异比对结果图

也可以称作静态区域掩膜，静态区域掩膜中标识有消除了运动前景区域的语义差异区域。

需要说明的是，街道的异常事件检测装置1040获得的检测结果还可以通过可视化结果图进行呈现。具体地，如图5所示，街道的异常事件检测装置1040在获得检测结果时，可以根据目标图像和检测结果，生成可视化结果图。

具体地，街道的异常事件检测装置1040识别目标图像相对于参考图像的语义差异区域时，在目标图像上添加检测框502，该检测框502可以是矩形框或者其他形状的框，用于标识出目标图像中的语义差异区域。当街道的异常事件检测装置1040确定每个语义差异区域对应的异常事件的类型时，再在目标图像的对应位置添加异常事件的类型504，从而得到可视化结果图。可视化结果图可以展示街道景象中包括的异常事件以及所述异常事件的类型，方便用户快速获知相应信息。

在一些可能的实现方式中，街道的异常事件检测装置1040也可以在获得检测结果时，在目标图像的对应位置(语义差异区域对应位置)添加检测结果标志，形成可视化结果图。该检测结果标志可以是小旗子或者是星形等标志，用于标识街道中的该位置存在异常事件。其中，可视化结果图中还可以展示各位置存在的异常事件的类型。需要说明的是，可视化结果图可以直接在检测结果标志附近展示各位置存在的异常事件的类型，也可以在用户通过点击检测结果标志等方式触发展示详情信息的操作时，展示该位置存在的异常事件的类型。

基于上述内容描述，本申请实施例提供的街道的异常事件检测方法利用语义差异提取网络直接提取语义差异区域，采用该语义差异区域代替运动前景区域进行街道的异常事件检测，可以避免光照、天气等因素引起的噪声差异区域的干扰，提高检测准确度，进而减少误报，提高了用户体验。

考虑到街道巡查等场景中同类异常事件的视觉特征存在较大类内差异(即多样性较强)，而且样本数量相对较少，本申请实施例还提供了一种基于小样本支撑集(supportset)进行事件检测的方法。

参见图6所示的基于小样本支撑集进行异常事件检测的方法的流程图，该方法包括：

S2062：街道的异常事件检测装置1040根据所述语义差异区域获得至少一个检测图像。

具体地，街道的异常事件检测装置1040在获得标识有语义差异区域的语义差异比对结果图S_t时，可以确定语义差异比对结果图S_t中的轮廓及其外接区域，排除外接区域的像素面积小于预设面积(例如可以为1000)的轮廓，则剩下的轮廓即为时刻t对应的语义差异区域列表

街道的异常事件检测装置1040根据语义差异区域列表

从目标图像中分割n个语义差异区域的图像，得到n张检测图像，这n张检测图像可以形成检测集。其中，n为正整数。

在具体实现时，街道的异常事件检测装置1040可以利用开源计算机视觉库(OpenComputer Vision，OpenCV)中的findContours函数从语义差异比对结果图S_t中提取轮廓，利用OpenCV中的boundingRect函数确定轮廓的最小外接矩形R。需要说明，外接区域也可以是其他形状，例如可以是外接圆，本申请实施例对此不作限定。

还需要说明的是，当目标图像存在运动前景区域时，街道的异常事件检测装置1040还可以从语义差异比对结果图S_t的语义差异区域中消除运动前景区域得到静态区域掩膜。然后街道的异常事件检测装置1040可以从静态区域掩膜中提取轮廓，确定轮廓的外接区域，基于外接区域的面积确定n个语义差异区域，并根据这n个语义差异区域从目标图像中分割出n个图像，形成检测集。

S2064：街道的异常事件检测装置1040根据所述至少一个检测图像与小样本支撑集中的小样本支撑图像的相似度确定所述检测结果。

考虑到应用初期，样本数据的数量较少，可以采用小样本学习(few-shotlearning)进行事件分类。其中，小样本是指样本容量较小，即样本数量较少，因此，小样本学习也称作少样本学习。街道的异常事件检测装置1040可以采用基于小样本的分类模型，确定检测图像对应的事件的类型，获得检测结果。基于小样本的分类模型提供有小样本支撑集，小样本支撑集中包括表示不同异常事件的小样本支撑图像，基于小样本的分类模型通过计算检测图像与至少一类小样本支撑图像的相似度确定检测图像对应的事件的类型。

其中，基于小样本的分类模型包括最近邻神经网络、K-近邻神经网络、K均值(K-means)神经网络等多种模型。为了便于理解，本申请以深度最近邻神经网络进行示例说明。在该示例中，小样本支撑集中包括类型标签为预设类型的小样本支撑图像，考虑到样本均衡，小样本支撑集中还可以包括类型标签为非预设类型的小样本支撑图像。

对于街道占用巡查场景，类型标签为非预设类型可以包括两种情况，一种情况是类型标签为无关类型，另一种情况是类型标签为不存在街道占用。基于此，小样本支撑集

其中，s₀为非占用类别的小样本支撑集图像，{s₁,...,s_C}为第1类到第C类占用类别的小样本支撑图像，

为第1类到第K_other类无关类别的小样本支撑图像(如人、车等),每类小样本支撑图像的数量分别至少有五张。

如图7所示，深度最近邻神经网络包括特征提取器，该特征提取器采用Conv-64F网络结构。检测集中的检测图像以及小样本支撑集中的检测图像输入至特征提取器，特征提取器对每张输入图像进行特征提取，输出m条d维特征向量。街道的异常事件检测装置1040计算检测图像I_q的特征f_q与支撑集S中每个类的相似度，相似度最高的类别即为检测图像I_q对应的事件的类别。

I_q的特征为f_q与小样本支撑集中第c类的相似度为：

其中，

为f_q中的第i条特征，

为第c类支撑集图片s_c中，与

相似度最高的第k条特征。

需要说明的是，若I_q对应的事件的类别为C+1到C+K_other类(即无关类别)，则街道的异常事件检测装置1040可以将该I_q对应的语义差异区域抛弃，不进行区域跟踪与结果输出。若I_q对应的事件的类别为第1类到第C类，则街道的异常事件检测装置1040还可以针对该I_q对应的语义差异区域进行区域跟踪与结果输出。

进一步地，街道的异常事件检测装置1040还可以利用基于小样本的分类模型对检测图像的检测结果构建知识库X_event＝{x_i,y_i|i＝1,...,N}，其中x_i为第i个样本图像(由检测图像获得)，y_i为x_i对应的类型标签。街道的异常事件检测装置1040基于该知识库采用监督学习训练事件分类网络，利用该事件分类网络预测异常事件的类型。

具体地，参见图8所示的基于监督学习进行街道的异常事件检测的方法的流程图，在图6所示实施例基础上，该方法包括：

S2066：街道的异常事件检测装置1040根据所述检测图像和所述检测图像对应的事件的类型构建知识库。当所述知识库中类型标签为预设类型的样本数据的数量达到第一预设数量时，执行S2068。

所述知识库中包括样本数据，所述样本数据包括所述检测图像及其类型标签，所述类型标签用于标识所述检测图像对应的事件的类型。其中，类型标签可以是基于小样本的分类模型对检测图像进行分类得到。

为了提高准确度，街道的异常事件检测装置1040还可以向用户提供检测结果，如此，用户可以确认检测结果是否正确，并对不正确的检测结果进行纠正。例如检测结果中异常事件的类型与实际类型存在偏差时，用户可以对异常事件的类型进行纠正，形成用户对检测结果的反馈。街道的异常事件检测装置1040获取用户对上述检测结果的反馈，利用该反馈生成样本数据，以提高样本数据的准确度。

当知识库中类型标签为预设类型(即需要检测的异常事件的类型)的样本数据的数量达到第一预设数量时，利用知识库中的样本数据进行监督学习可以获得较高准确度，街道的异常事件检测装置1040可以执行S2068。其中，第一预设数量可以根据经验值设置。作为一个示例，第一预设数量可以是5000。

图8所示实施例仅仅是构建知识库的一种实现方式。知识库中的图像也可以是通过其他方式获得的图像，即街道的异常事件检测装置1040可以根据其他方式获得的图像以及对应的类型标签构建知识库。在一些可能的实现方式中，知识库中的图像也可以是检测图像和通过其他方式获得的图像的组合。即街道的异常事件检测装置1040可以获取检测图像，以及通过其他方式获得图像，并获取图像对应的类型标签，从而构建知识库。

S2068：街道的异常事件检测装置1040利用所述知识库中的样本数据训练事件分类网络。

事件分类网络可以包括多种结构的神经网络。为了便于理解，本申请实施例以18层的残差网络(Residual Network-18,ResNet-18)进行示例说明。具体地，17层卷积层通过额外的几层卷积层(如4层卷积层)进行连接，以提升网络深度，在网络最后连接一个全连接层，用于将高维特征映射为低维特征进行输出。

当事件分类网络的网络结构搭建完成时，街道的异常事件检测装置1040利用知识库中的样本数据训练事件分类网络。具体地，街道的异常事件检测装置1040将样本数据输入至事件分类网络，基于事件分类网络的预测结果以及样本数据中的类型标签更新事件分类网络的参数，从而实现对事件分类网络的训练。当事件分类网络满足训练结束条件，如事件分类网络的损失函数收敛或者小于预设值时，则停止训练。街道的异常事件检测装置1040可以验证事件分类网络的精度，当满足需求的精度时，则可以将事件分类网络用于对检测图像进行检测。

S2069：街道的异常事件检测装置1040输入从所述目标图像中分割所述语义差异区域得到的检测图像至所述事件分类网络，获得检测结果。

具体地，街道的异常事件检测装置1040将至少一个检测图像输入训练好的事件分类网络，基于监督学习的事件分类网络可以输出C+K_other+1维特征向量，这C+K_other+1维特征向量代表检测图像分别属于C+K_other+1个类别的概率。C+K_other+1维特征向量中最大值的维度即为检测图像的预测类别。

与基于小样本的分类模型类似，当检测图像对应的事件的类别为C+1到C+K_other类(即无关类别)时，街道的异常事件检测装置1040可以将该检测图像对应的语义差异区域抛弃，不参与区域跟踪与结果输出。

为了优化分类结果，提高分类准确度，街道的异常事件检测装置1040还可以获取用户对所述事件检测结果的反馈，该反馈包括对检测图像对应的事件的类型的纠正，街道的异常事件检测装置1040可以根据上述反馈更新小样本支撑集。其中，街道的异常事件检测装置1040根据反馈更新小样本支撑集可以分为三种情况，下面分别进行详细说明。

第一种情况是，街道的异常事件检测装置1040根据所述反馈向所述小样本支撑集中增加第一小样本支撑图像，所述第一小样本支撑图像记录的街道景象中包括第一指定类型的异常事件。

具体地，反馈表征用户将检测图像对应的事件的类型纠正为第一指定类型，该第一指定类型为新增的预设类型。街道的异常事件检测装置1040基于该反馈向小样本支撑集中增加类型标签为第一指定类型的小样本支撑图像，即上述第一小样本支撑图像。

例如在应用前期，预设类型包括C种类型，针对若干检测图像，用户将其对应事件类型由C种类型中的一种类型纠正为一种新类型时，则街道的异常事件检测装置1040可以从若干检测图像中挑选第一数量个(例如5个)图像作为第一小样本支撑图像。该第一小样本支撑图像的类型标签为第一指定类型。更新后的小样本支撑集中预设类型的数量为C+1。

第二种情况是，街道的异常事件检测装置1040根据所述反馈从所述小样本支撑集中删除第二小样本支撑图像，所述第二小样本支撑图像记录的街道景象中包括第二指定类型的异常事件。

具体地，反馈表征用户将检测图像对应的事件的类型由预设类型中的第二指定类型纠正为非占用类型时，则街道的异常事件检测装置1040可以将类型标签为第二指定类型的小样本支撑图像，也即第二小样本支撑图像，从小样本支撑集中删除。其中，第二指定类型具体是预设的C种类型中的一种。

第三种情况是，街道的异常事件检测装置1040根据所述反馈从所述小样本支撑集中修改第三小样本支撑图像，所述第三小样本支撑图像记录的街道景象中包括第三指定类型的异常事件。其中，第三指定类型具体是预设的C种类型中的一种。

具体地，街道的异常事件检测装置1040可以根据反馈，从分类错误的检测图像中抽取预设比例如10％形成校验集。利用该校验集更新小样本支撑集。给定知识库中一个样本{x_i,y_i}，小样本支撑集的更新策略如下：

(1)为保证推理效率，小样本支撑集中每个类别的样本数据的数量不超过第二数量，该第二数量具体根据经验值设置，例如可以设置为20。若支撑集中y_i类别的样本数量小于20，则将{x_i,y_i}直接加入小样本支撑集中；

(2)若小样本支撑集中y_i类别的样本数量已经等于20，执行步骤(3)；

(3)循环遍历小样本支撑集中y_i类别的每一个样本。对于第j个样本，尝试将其剔除到小样本支撑集外，同时将x_i加入到小样本支撑集中，计算替换后小样本支撑集在更新后的校验集上的分类准确度P_j；

(4)计算原小样本支撑集在更新校验集上的分类准确度B；

(5)若B大于任意P_j，则无需更新小样本支撑集，否则将P_j中准确度最高的组合找出，将对应的第j个样本剔除到小样本支撑集外，将x_i加入到小样本支撑集中，完成小样本支撑集的更新。

在上述实施例中为了准确识别预设类型的异常事件，需要提供一个高质量的参考图像。该参考图像记录的街道景象中包括较少异常事件，甚至不包括异常事件。此外，参考图像记录的街道景象中包括较少的运动对象，甚至不包括运动对象。为此，本申请提供了一种自动获取参考图像以及更新参考图像的方法，避免用户手动从摄像机拍摄图像中选择参考图像，降低用户工作量，提高用户体验。

具体地，街道的异常事件检测装置1040可以将视频流中的一帧图像如第一帧图像I₁作为参考图像，然后根据视频流中图像帧的运动前景像素占比更新所述参考图像。在一些可能的实现方式中，街道的异常事件检测装置1040可以获取视频流中当前图像帧的运动前景像素占比，当前图像帧的运动前景像素占比小于视频流中历史图像帧的运动前景像素占比时，利用当前图像帧更新参考图像，即将当前图像帧确定为参考图像。

需要说明，当前图像帧的运动前景像素占比小于视频流中历史图像帧的运动前景像素占比可以包括两种情况。一种情况为当前图像帧的运动前景像素占比小于视频流中上一图像帧的运动前景像素占比，另一种情况为当前图像帧的运动前景像素占比小于在当前图像帧之前的所有图像帧的运动前景像素占比。在一些可能的实现方式中，街道的异常事件检测装置1040可以在初期采用第二种比较方式，即比较当前图像帧的运动前景像素占比和在当前图像帧之前的所有图像帧的运动前景像素占比，应用运行一段时间后，再采用上述第一种方式，即比较当前图像帧的运动前景像素占比和上一图像帧的运动前景像素占比。

为了便于理解，下面结合一具体示例进行说明。具体更新过程如下所示：

(1)对于前ts帧视频流序列{I₁,I₂,…,I_ts}，提取其运动前景信息{M₁,M₁,…,M_ts}，计算运动前景像素占比{P₁,P₁,…,P_ts}，若第I_i帧图像的运动前景像素占比P_i低于I₀至I_i-1帧运动前景像素比的最低值，则选择当前时刻的视频帧I_i作为新的参考图像B_i；

(2)对于ts帧后实时视频流序列{I_ts+1,…},计算运动前景像素占比{P_ts+1,…}，若I_i帧运动前景像素占比P_i比I_i-1帧运动前景像素占比低，则将I_i更新为模板图像B_i。

进一步地，当I_i帧运动前景像素占比P_i比I_i-1帧运动前景像素占比高，或者等于I_i-1帧运动前景像素占比时，街道的异常事件检测装置1040还可以执行如下步骤：

(3)若I_i帧运动前景像素占比P_i高于设定阈值T_back，则认为当前时刻运动前景杂乱，跳过I_i帧，不更新模板图像。否则生成I_i帧与参考图像B_i的语义差异分割结果图S_i，得到语义差异区域列表

以及I_i与B_i中所对应的差异区域图像

对差异区域图像进行分类判断，对于I_i或参考图像，计算关于i类别的加权分数：

其中n为差异区域图像数，α_ij为差异区域图像j判断为占用事件类别i的置信度，A_j为差异区域图像j中像素总数目；

当且仅当I_i的加权分数I_score和参考图像的加权分数B_score满足如下公式时，记作一次有效更新，有效更新次数超过设定阈值时，则更新最新I_i帧为参考图像B_i：

其中，H为街道占用事件正类别集合，包括出店经营、游商小贩、占道堆物类等，I为街道占用事件负类别集合，包括人、车、道路等。

上文中结合图1至图8，详细描述了本申请所提供的街道的异常事件检测方法，下面将结合附图，描述根据本申请所提供的街道的异常事件检测装置1040和设备104。

参见图1所示的***架构图中街道的异常事件检测装置1040的结构示意图，如图1所示，该装置1040包括：

通信模块1042，用于获取目标图像和参考图像，所述参考图像记录的街道景象中不包括所述异常事件；

语义差异提取模块1044，用于输入所述目标图像和所述参考图像至语义差异提取网络，获得所述目标图像相对于所述参考图像的语义差异区域；

检测模块1046，用于根据所述语义差异区域，获得检测结果，所述检测结果用于表征所述目标图像记录的街道景象中是否包括所述异常事件。

其中，通信模块1042的具体实现可以参见图2所示实施例中S202相关内容描述，语义差异提取模块1044的具体实现可以参见图2所示实施例中S204相关内容描述，检测模块1046的具体实现可以参见图2所示实施例中S206相关内容描述，在此不再赘述。

在一些可能的实现方式中，所述检测模块1046具体用于：

其中，检测模块1046的具体实现可以参见图6所示实施例中相关内容描述，在此不再赘述。

在一些可能的实现方式中，所述检测模块1046具体用于：

其中，检测模块1046的具体实现可以参见图8所示实施例中相关内容描述，在此不再赘述。

在一些可能的实现方式中，所述通信模块1042还用于：

向用户提供所述检测结果；

获取用户对所述检测结果的反馈，所述反馈包括对检测图像对应的事件的类型的纠正；

在一些可能的实现方式中，所述装置1040还包括：

第一更新模块，用于根据所述反馈更新所述小样本支撑集。

在一些可能的实现方式中，所述参考图像为视频流中的图像帧，所述通信模块1042还用于：

获取所述视频流中当前图像帧的运动前景像素占比；

所述装置1040还包括：

在一些可能的实现方式中，所述检测模块1046还用于：

根据所述目标图像和所述检测结果，生成可视化结果图。

其中，检测模块1046的具体实现可以参见图2所示实施例中S206相关内容描述，在此不再赘述。

在一些可能的实现方式中，所述装置1040还包括：

所述检测模块1046具体用于：

所述语义差异提取模块1044具体用于：

输入所述目标图像的特征图和所述参考图像的特征图至所述语义差异融合层，获得融合特征图，所述融合特征图中包括所述目标图像的基础特征图、所述参考图像的基础特征图以及所述目标图像和所述参考图像的差异特征图；

其中，语义差异提取模块1044的具体实现可以参见图2所示实施例中S204相关内容描述，在此不再赘述。

根据本申请实施例的街道的异常事件检测装置1040可对应于执行本申请实施例中描述的方法，并且街道的异常事件检测装置1040中的各个模块的上述和其它操作和/或功能分别为了实现图2、图6、图8中的各个方法的相应流程，为了简洁，在此不再赘述。

另外需说明的是，以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

本申请实施例还提供了一种设备104，用于实现上述图1所示的***架构图中街道的异常事件检测装置1040的功能。其中，设备104可以是物理设备或物理设备集群，也可以是虚拟化的云设备，如云计算集群中的至少一个云计算设备。为了便于理解，本申请以设备104为独立的物理设备对该设备104的结构进行示例说明。

图9提供了一种设备104的结构示意图，如图9所示，设备104包括总线601、处理器602、通信接口603和存储器604。处理器602、存储器604和通信接口603之间通过总线601通信。总线601可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口603用于与外部通信。例如，获取目标图像和参考图像等等。

其中，处理器602可以为中央处理器(central processing unit，CPU)。存储器604可以包括易失性存储器(volatile memory)，例如随机存取存储器(random accessmemory，RAM)。存储器604还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，HDD或SSD。

存储器604中存储有可执行代码，处理器602执行该可执行代码以执行前述街道的异常事件检测方法。

具体地，在实现图1所示实施例的情况下，且图1实施例中所描述的街道的异常事件检测装置1040的各模块为通过软件实现的情况下，执行图1中的语义差异提取模块1044、检测模块1046功能所需的软件或程序代码存储在存储器604中。处理器602执行存储器604中存储的各模块对应的程序代码，如语义差异提取模块1044和检测模块1046对应的程序代码，以提取出目标图像相对于参考图像的语义差异区域，根据语义差异区域获得检测结果。如此，通过对街道的异常事件进行检测，从而实现智能街道巡查。

当然，执行第一更新模块、第二更新模块和/或消除模块功能所需的代码也可以存储在存储器604中。通信模块603还可以向用户提供检测结果，获取用户对检测结果的反馈，处理器602还可以执行第一更新模块对应的程序代码，以根据所述反馈更新所述小样本支撑集。通信模块603还可以获取视频流中当前图像帧的运动前景像素占比，处理器602还可以执行第二更新模块对应的程序代码，以在当前图像帧的运动前景像素占比小于历史图像帧的运动前景像素占比时，利用当前图像帧更新参考图像。处理器602还可以执行消除模块对应的程序代码，以从语义差异区域中消除运动前景区域，然后再执行根据语义差异区域获得检测结果的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括指令，所述指令指示设备104执行上述应用于街道的异常事件检测装置1040的街道的异常事件检测方法。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品被计算机执行时，所述计算机执行前述街道的异常事件检测方法的任一方法。该计算机程序产品可以为一个软件安装包，在需要使用前述街道的异常事件检测方法的任一方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

1.一种街道的异常事件检测方法，其特征在于，所述方法包括：

获取目标图像和参考图像，所述参考图像记录的街道景象中不包括所述异常事件；

输入所述目标图像和所述参考图像至语义差异提取网络，获得所述目标图像相对于所述参考图像的语义差异区域；

根据所述语义差异区域，获得检测结果，所述检测结果用于表征所述目标图像记录的街道景象中是否包括所述异常事件。

2.根据权利要求1所述的方法，其特征在于，所述街道的异常事件包括：违规事件、安全事故和/或安全隐患事件。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述语义差异区域，获得检测结果，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述根据所述语义差异区域，获得检测结果，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

向用户提供所述检测结果；

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标图像和所述检测结果，生成可视化结果图。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述参考图像为视频流中的图像帧，所述方法还包括：

获取所述视频流中当前图像帧的运动前景像素占比；

所述当前图像帧的运动前景像素占比小于所述视频流中历史图像帧的运动前景像素占比时，利用所述当前图像帧更新所述参考图像。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

从所述语义差异区域中消除运动前景区域，所述运动前景区域为所述目标图像中的运动对象所在的区域；

所述根据所述语义差异区域，获得检测结果，包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，所述语义差异提取网络为一种经过训练后的神经网络模型，所述语义差异提取网络包括特征提取层、语义差异融合层和语义差异分割层；

所述输入所述目标图像和所述参考图像至语义差异提取网络，获得所述目标图像相对于所述参考图像的语义差异区域，包括：

10.一种街道的异常事件检测装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述街道的异常事件包括：违规事件、安全事故和/或安全隐患事件。

12.根据权利要求10或11所述的装置，其特征在于，所述检测模块具体用于：

13.根据权利要求10或11所述的装置，其特征在于，所述检测模块具体用于：

14.根据权利要求12或13所述的装置，其特征在于，所述通信模块还用于：

向用户提供所述检测结果；

15.根据权利要求11至14任一项所述的装置，其特征在于，所述检测模块还用于：

根据所述目标图像和所述检测结果，生成可视化结果图。

16.根据权利要求11至15任一项所述的装置，其特征在于，所述参考图像为视频流中的图像帧，所述通信模块还用于：

获取所述视频流中当前图像帧的运动前景像素占比；

所述装置还包括：

17.根据权利要求11至16任一项所述的装置，其特征在于，所述装置还包括：

所述检测模块具体用于：

18.根据权利要求11至17任一项所述的装置，其特征在于，所述语义差异提取网络为一种经过训练后的神经网络模型，所述语义差异提取网络包括特征提取层、语义差异融合层和语义差异分割层；

所述语义差异提取模块具体用于：

19.一种设备，其特征在于，所述设备包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行如权利要求1至9中任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在设备上运行时，使得所述设备执行如权利要求1至9中任一项所述的方法。