CN109829378A

CN109829378A - 道路抛撒行为的识别方法、装置及电子设备

Info

Publication number: CN109829378A
Application number: CN201811625286.7A
Authority: CN
Inventors: 李士钰; 张向东; 袁顺; 史国梁; 董小龙
Original assignee: Goertek Inc
Current assignee: Goertek Techology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-31
Anticipated expiration: 2038-12-28
Also published as: CN109829378B

Abstract

本发明公开了一种道路抛撒行为的识别方法、装置及电子设备。该方法包括：获取目标视频的多个备选行为片段；根据道路抛撒识别模型对目标视频的多个备选行为片段进行识别，确定目标视频中包括的、与道路抛撒行为对应的目标视频片段。

Description

道路抛撒行为的识别方法、装置及电子设备

技术领域

本发明涉及图像识别技术领域，更具体地，涉及一种道路抛撒行为的识别方法、装置及电子设备。

背景技术

车辆在行驶过程中随意抛撒垃圾、物品到道路上的道路抛撒行为，是造成环境污染、引起的交通事故的交通违法行为。因此，如何有效识别道路抛撒行为，是交通管理中一个重要环节。

目前，通常是通过在道路上设置监控设备获取道路监控视频，分析道路监控视频中的每一帧图像与前后一帧图像的差异，以此分析定位是否存在道路抛撒行为。但是，在实际应用时，由于道路监控视频中前后帧的相邻图像内容差异较小，并且受获取道路监控视频的环境的影响，道路监控视频中的前后帧的相邻图像质量变化较大(例如光亮度、模糊度不稳定等)，难以清晰确定前后帧的相邻图像的差别，导致无法通过前后帧的相邻图像的差别，准确定位是否存在道路抛撒行为，对道路抛撒行为的识别率较低。

发明内容

本发明的一个目的是提供一种用于识别道路抛撒行为的新技术方案。

根据本发明的第一方面，提供了一种道路抛撒行为的识别方法，其中，包括：

获取目标视频的多个备选行为片段；

根据道路抛撒识别模型对所述目标视频的多个备选行为片段进行识别，确定所述目标视频中包括的、与道路抛撒行为对应的目标视频片段。

可选地，所述备选行为片段是从所述目标视频的特征图中提取的一个特征片段；

所述获取目标视频的多个备选行为片段的步骤包括：

对所述目标视频进行卷积处理以及池化处理，获取所述目标视频的特征图；

其中，所述目标视频的特征图具有对应的空间维度以及时间维度；

根据所述目标视频的特征图的时间维度的大小，确定所述目标视频的备选行为片段的片段数目；

根据预设的选取长度以及选取间隔，从所述目标视频的特征图中，获取符合所述片段数目的所述备选行为片段。

可选地，所述道路抛撒识别模型用于对输入的所述多个备选行为片段进行识别，得到所述多个备选行为片段中的每个正样本片段属于不同的行为类别的概率；

所述正样本片段是包括车辆图像特征的所述备选行为片段；

所述行为类别包括道路抛撒行为以及正常行驶行为；

所述根据道路抛撒识别模型对所述目标视频的多个备选行为片段进行识别，确定所述目标视频中包括的、与道路抛撒行为对应的目标视频片段的步骤包括：

根据所述道路抛撒识别模型，获取所述目标视频的多个备选行为片段的每个所述正样本片段属于不同的所述行为类别的概率；

根据每个所述正样本片段属于不同的所述行为类别的概率，从多个所述正样本片段中，确定与所述道路抛撒行为对应的所述目标正样本片段；

根据所述目标正样本片段的时间特征，在所述目标视频中确定所述目标视频片段。

可选地，所述道路抛撒识别模型包括第一识别模型、第二识别模型以及第三识别模型；

所述第一识别模型用于对输入的每个所述备选行为片段进行识别，当确定所述备选行为片段是所述正样本片段时，输出所述正样本片段；

所述第二识别模型用于根据自身训练获取的时间特征参数，对所述第一识别模型输出的所述正样本片段的时间特征进行调整后再输出；

其中，所述正样本片段的时间特征中至少包括所述目标视频中与所述正样本片段对应的视频片段的起止时间，所述起止时间是具有起始时间点和终止时间点的时间长度；

所述时间特征参数至少包括所述目标视频中与所述正样本片段对应的视频片段的时间中点的偏移量、以及所述目标视频中与所述正样本片段对应的视频片段的持续时长的缩放系数；

所述第三识别模型用于对所述第二识别模型输出的所述正样本片段进行识别，输出每个正样本片段属于不同的所述行为类别的概率。

可选地，所述道路抛撒识别模型还包括中间处理层；

所述中间处理层被设置于所述第一识别模型与所述第二识别模型之间，或者，所述中间处理层被设置于所述第二识别模型与所述第三识别模型之间；

所述第一识别模型在输出所述正样本片段时，同时输出所述正样本片段的置信度；

所述中间处理层用于从输入的多个所述正样本片段中，根据每个所述正样本片段的置信度，选取符合预设的筛选规则的所述正样本片段并输出；

所述预设的筛选规则包括所述正样本片段的所述置信度的升序排序次序符合预设的排序范围，并且所述正样本片段的时间特征与其他符合所述预设的筛选规则的所述正样本片段的时间特征的重合度低于预设的重合度阈值；

所述正样本片段的时间特征中至少包括所述目标视频中与所述正样本片段对应的视频片段的起止时间，所述起止时间是具有起始时间点和终止时间点的时间长度。

可选地，所述根据每个所述正样本片段属于不同的所述行为类别的概率，从多个所述正样本片段中，确定与所述道路抛撒行为对应的所述目标正样本片段的步骤包括：

将属于不同的所述行为类别的概率符合预设的抛撒行为条件的所述正样本片段，确定为所述目标正样本片段；

其中，所述预设的抛撒行为条件至少包括所述正样本片段属于所述道路抛撒行为的概率高于预设的抛撒阈值；

和/或，

所述目标正样本片段的时间特征至少包括所述目标视频中与所述目标正样本片段对应的视频片段的起止时间，所述起止时间是具有起始时间点和终止时间点的时间长度。

可选地，所述方法还包括训练所述道路抛撒识别模型的步骤，包括：

获取多个训练视频，其中，每个所述训练视频中包括分别与不同的行为类别对应的不同视频片段，所述行为类别包括道路抛撒行为以及正常行驶行为；每个所述训练视频具有对应的验证信息，所述验证信息中包括所述训练视频中不同行为类别的每个视频片段的起止时间，所述起止时间是具有起始时间点和终止时间点的时间长度；

获取每个所述训练视频的多个备选行为片段；

其中，每个所述备选行为片段是从所述训练视频的特征图中提取的一个特征片段；

根据每个所述训练视频的所述备选行为片段以及所述验证信息，基于卷积神经网络训练获取所述道路抛撒识别模型。

所述第一识别模型用于对输入的所述目标视频的多个备选行为片段进行识别，当确定所述备选行为片段是所述正样本片段时，输出所述正样本片段；

所述根据每个所述训练视频的备选行为片段以及所述验证信息，基于卷积神经网络训练获取所述道路抛撒识别模型的步骤包括：

根据每个所述训练视频的备选行为片段的时间特征以及所述验证信息，确定用于训练所述第一识别模型的训练正样本和训练负样本；

其中，所述训练视频的备选行为片段的时间特征至少包括所述训练视频中与所述备选片段对应的视频片段的起止时间，所述起止时间是具有起始时间点和终止时间点的时间长度；

所述训练正样本是对应的所述训练视频的视频片段的起止时间，与根据所述验证信息确定的对应的车辆出现片段的时间的重合度，大于预设的正向阈值的所述训练视频的备选行为片段；

所述训练负样本是对应的所述训练视频的视频片段的起止时间，与根据所述验证信息确定的对应的车辆出现片段的时间的重合度，小于预设的负向阈值的所述训练视频的备选行为片段；

根据所述训练正样本和训练负样本，基于所述卷积神经网络进行训练，获取所述第一识别模型。

可选地，所述第二识别模型用于根据自身训练获取的时间特征参数，对所述第一识别模型输出的所述正样本片段的所述时间特征进行调整后再输出；

根据每个所述训练视频的所述训练正样本以及验证信息，确定与每个所述训练视频的所述训练正样本对应的所述训练视频中的车辆出现片段；

根据每个所述训练视频的所述训练正样本的时间特征以及对应的所述车辆出现片段的所述起止时间，基于所述卷积神经网络进行训练，获取所述时间特征参数，以得到所述第二识别模型。

可选地，所述第三识别模型用于对所述第二识别模型输出的所述正样本片段进行识别，输出每个正样本片段属于不同的所述行为类别的概率；

根据所述第二识别模型输出的多个所述训练正样本以及所述验证信息，获取每个所述训练正样本的包含对应的所述行为类别的特征图；

根据每个所述训练正样本的包含对应的所述行为类别的特征图，基于所述卷积神经网络进行训练，获取所述第三识别模型。

可选地，所述道路抛撒识别模型还包括中间处理层；

所述根据每个所述训练视频的备选行为片段以及所述验证信息，基于卷积神经网络训练获取所述道路抛撒识别模型的步骤还包括：

设置所述中间处理层从输入的多个所述训练正样本中，选取符合预设的筛选规则的所述训练正样本并输出；

所述预设的筛选规则包括所述训练正样本的置信度的升序排序次序符合预设的排序范围，并且所述训练正样本的时间特征与其他符合所述预设的筛选规则的所述训练正样本的时间特征的重合度低于预设的重合度阈值；所述训练正样本的置信度是在训练所述第一识别模型过程中获取的。

根据本发明的第二方面，提供一种道路抛撒行为的识别装置，其中，包括：

备选获取单元，用于获取目标视频的多个备选行为片段；

行为识别单元，用于根据道路抛撒识别模型对所述目标视频的多个备选行为片段进行识别，确定所述目标视频中包括的、与道路抛撒行为对应的目标视频片段。

根据本发明的第三方面，提供一种电子设备，其中，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述电子设备执行如本发明的第一方面的道路抛撒行为的识别方法。

根据本公开的一个实施例，通过获取目标视频的多个备选行为片段，根据训练获取的道路抛撒识别模型对目标视频的多个备选行为片段进行识别，确定目标视频中包括的、与道路抛撒行为对应的目标视频片段，可以对任意视频时长的目标视频，有效识别目标视频中对应的道路抛撒行为，并精准定位在目标视频中与道路抛撒行为对应的目标视频片段，提高道路抛撒行为的识别准确率。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是显示可用于实现本发明的实施例的电子设备1000的硬件配置的例子的框图。

图2示出了本发明的实施例的道路抛撒行为的识别方法的流程图。

图3示出了本发明的实施例的训练道路抛撒识别模型的流程图。

图4示出了本发明的实施例的道路抛撒行为的识别装置3000的框图。

图5示出了本发明的实施例的电子设备4000的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。

电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示，电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信，具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中，电子设备1000的所述存储器1200用于存储指令，所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项道路抛撒行为的识别方法。本领域技术人员应当理解，尽管在图1中对电子设备1000示出了多个装置，但是，本发明可以仅涉及其中的部分装置，例如，电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

<实施例>

在本实施例中，提供一种道路抛撒行为的识别方法。道路抛撒行为是车辆在行驶过程中随意抛撒垃圾、物品到道路上的行为，属于造成环境污染、引起的交通事故的交通违法行为。

如图2所示，道路抛撒行为的识别方法包括：步骤S2100-S2200。

步骤S2100，获取目标视频的多个备选行为片段。

目标视频是待识别其包含的视频内容中是否存在道路抛撒行为的视频。目标视频可以由设置道路中特定位置(例如路口)的摄像设备拍摄获取。

目标视频的备选行为片段是从目标视频中获取的、用于识别是否存在道路抛撒行为的片段。

例如，备选行为片段是从目标视频的特征图中提取的一个特征片段。对应地，获取目标视频的多个备选行为片段的步骤可以包括：步骤S2110-S2130。

步骤S2110，对目标视频进行卷积处理以及池化处理，获取目标视频的特征图。

目标视频的特征图是包含目标视频的时间特征、空间特征、图像特征等多个特征的图像化表达。目标视频的特征图具有对应的空间维度以及时间维度。

在本例中，卷积处理、池化处理是用于提取视频的特征图的处理手段。可以根据具体的处理场景或者处理需求，设置多个滤波器实现卷积处理，以及设置池化核的大小来实现池化处理。

例如，假设目标视频的大小为C×L×H×W，其中C为图像通道(一般为3)，L为目标视频的时间长度，H为目标视频每帧视频图像的高度，W为目标视频的每帧视频图像的高度。选择滤波器个数为K，对应设置卷积处理的参数后进行卷积处理，输出的特征大小为K×L×H×W；之后进行池化处理，例如，先进行一次池化核的大小为2×2×2的池化处理，输出的特征大小为K×L/2×H/2×W/2，而后再进行一次池化核的大小为1×2×2的池化处理，输出的特征大小为K×L/2×H/4×W/4，进行多次池化处理之后，得到K×L/N×1×1大小的目标视频的特征图。

对应的，目标视频的特征图的时间维度是L/N所在的维度,L/N是时间维度的大小，空间维度是K、1、1所在的三个维度。

应当理解的是，在本例中得到的目标视频的特征图的大小，与实际的卷积处理、池化处理的具体处理参数有关，在此不做具体限定。

步骤S2120，根据目标视频的特征图的时间维度的大小，确定目标视频的备选行为片段的片段数目。

在本例中，可以先假设目标视频中记录的行为片段是均匀分布在目标视频的特征图的时间维度的每个时间单位上，例如，假设目标视频的特征图的时间维度的大小为12个时间单位，则认为目标视频中记录的行为片段是均匀分布在12个时间单位里，每个时间单位里存在一个行为片段。

而这种假设与实际的行为片段会存在误差，因此，可以基于对于具体的识别场景和识别需求，设置用于识别的备选行为片段的片段数目是目标视频的特征图的时间维度的大小的倍数，例如，可以设置备选行为片段的片段数目是目标视频的特征图的时间维度的大小的9倍。比如，基于上述步骤S2110的例子，目标视频的特征图的时间维度的大小是L/N，对应的，目标视频的备选行为片段的片段数目是9×L/N。

步骤S2130，根据预设的选取长度以及选取间隔，从目标视频的特征图中，获取符合片段数目的所述备选行为片段。

预设的选取长度以及选取间隔，可以根据具体的应用场景或应用需求设置。例如，目标视频的特征图的时间维度的大小是L/N，目标视频的备选行为片段的片段数目是9×L/N，对应的，可以设置三种选取长度：L/N、L/2N、2L/N，选取间隔为L/2N,对应的，在目标视频的特征图的时间维度上，对于任意一个车辆开始出现的时间点T，得到三个时间点：T、T+L/2N、T-L/2N，再对三个时间点中每一个，选取长度为L/N、L/2N、2L/N的视频片段，以此类推，可以选取得到片段数目是9×L/N的备选行为片段。

在本实施例中，并不限定目标视频的视频时长，对任意视频时长的目标视频，可以获取对应的多个备选行为片段，结合后续步骤进行抛撒行为的识别，对应的，可以无需对获取目标视频进行预处理得到固定时长的视频才能进行抛撒行为的识别，节省预处理的工作量，更能符合实际应用的需求。

在获取目标视频的多个备选行为片段后，进入：

步骤S2200，根据道路抛撒识别模型对目标视频的多个备选行为片段进行识别，确定所述目标视频中包括的、与道路抛撒行为对应的目标视频片段。

道路抛撒识别模型是用于根据输入的目标视频的备选行为片段，识别是否存在抛撒行为的模型。

在一个例子中，道路抛撒识别模型用于对输入的多个备选行为片段进行识别，得到多个备选行为片段中的每个正样本片段属于不同的行为类别的概率。正样本片段是包括车辆图像特征的备选行为片段。行为类别包括道路抛撒行为以及正常行驶行为。道路抛撒行为是车辆在行驶过程随意抛撒垃圾、物品等的行为。正常行驶行为是车辆在道路上不出现道路抛撒的行驶行为。通过道路抛撒识别模型对输入的多个备选行为片段进行识别，可以得到多个备选行为片段中的每个正样本片段属于道路抛撒行为的概率以及属于正常行驶行为的概率。

更具体的例子中，道路抛撒识别模型可以包括第一识别模型、第二识别模型以及第三识别模型。

第一识别模型用于对输入的每个备选行为片段进行识别，当确定备选行为片段是正样本片段时，输出正样本片段。

第二识别模型用于根据自身训练获取的时间特征参数，对第一识别模型输出的正样本片段的时间特征进行调整后再输出。

其中，正样本片段的时间特征中至少包括目标视频中与正样本片段对应的视频片段的起止时间，起止时间是具有起始时间点和终止时间点的时间长度。时间特征参数至少包括目标视频中与正样本片段对应的视频片段的时间中点的偏移量、以及目标视频中与正样本片段对应的视频片段的持续时长的缩放系数。

例如，假设一个正样本片段时间特征包括起始时间点t1、终止时间点t2的起止时间，而第二识别模型的时间特征参数中包括的偏移量为dt，缩放系数为dw，对应的，通过第二识别模型的时间特征参数调整后的正样本的时间特征中包括的起止时间，被调整为起始时间点为终止时间点为的起止时间。

第三识别模型用于对第二识别模型输出的正样本片段进行识别，输出每个正样本片段属于不同的行为类别的概率。

在本例中，道路抛撒识别模型在包括第一识别模型、第二识别模型以及第三识别模型之外，还可以包括中间处理层。中间处理层被设置于第一识别模型与第二识别模型之间，或者，中间处理层被设置于第二识别模型与第三识别模型之间。

第一识别模型在输出正样本片段时，同时输出正样本片段的置信度。该置信度可以是通过第一识别模型识别一个备选片段是正样本片段的概率。

中间处理层用于从输入的多个正样本片段中，根据每个正样本片段的置信度，选取符合预设的筛选规则的正样本片段并输出。

预设的筛选规则包括正样本片段的置信度的升序排序次序符合预设的排序范围，并且正样本片段的时间特征与其他符合预设的筛选规则的正样本片段的时间特征的重合度低于预设的重合度阈值。

正样本片段的时间特征中至少包括所述目标视频中与正样本片段对应的视频片段的起止时间，起止时间是具有起始时间点和终止时间点的时间长度。

预设的排序范围、预设的重合度阈值可以根据具体应用场景或者应用需求设置。例如，预设的排序范围是1-1000、预设的重合度阈值是70％，根据预设的筛选规则，可以对置信度的降序排序次序在1-1000的正样本片段，分别比对每两个正样本片段的起止时间的重合度，对于重合度高于重合度阈值70％的两个正样本片段只保留置信度降序排序次序的正样本片段，使得最后得到符合预设的筛选规则的正样本片段的降序排序次序在1-1000、并且与其他符合预设的筛选规则的正样本片段的重合度低于70％。

通过设置中间处理层，可以使得最终输入第三识别模型的正样本片段是置信度较高、并且时间特征的重合度较低的较优的正样本片段，提高第三识别模型的处理效率以及识别准确率，相应地，也提升抛撒识别模型的处理效率以及识别准确率。

在本例中，步骤S2200可以包括：步骤S2210-S2230。

步骤S2210，根据道路抛撒识别模型，获取目标视频的多个备选行为片段的每个正样本片段属于不同的行为类别的概率。

步骤S2220，根据每个正样本片段属于不同的行为类别的概率，从多个正样本片段中，确定与道路抛撒行为对应的目标正样本片段。

例如，步骤S2220可以包括：

将属于不同的行为类别的概率符合预设的抛撒行为条件的正样本片段，确定为目标正样本片段；

其中，预设的抛撒行为条件至少包括正样本片段属于道路抛撒行为的概率高于预设的抛撒阈值。

在本例中，通过抛撒识别模型可以得到多个备选行为片段中每个正样本片段属于不同的行为类别的概率，即正样本片段属于道路抛撒行为的概率以及属于正常行驶行为的概率。

预设的抛撒阈值是根据工程经验或者实验仿真结果设置的、确定正样本行为片段属于道路抛撒行为的概率阈值。例如，预设的抛撒阈值是80％，抛撒识别模型输出的正样本片段属于所述道路抛撒行为的概率大于80％，可以认为正样本片段是与道路抛撒行为对应的目标正样本片段。

在本例中，预设的抛撒行为条件还可以包括正样本片段属于道路抛撒行为的概率高于预设的抛撒阈值，并且正样本片段属于正常行驶行为的概率低于预设的正常阈值。预设的正常阈值是根据工程经验或者实验仿真结果设置的、确定正样本行为片段属于正常行驶行为的概率阈值。通过同时判断正样本片段属于道路抛撒行为的概率以及属于正常行驶行为的概率，可以滤除在抛撒识别模型在异常情况下输出的、属于不同行为类别的概率出现异常的正样本片段，进一步提高识别准确率。

在确定与道路抛撒行为对应的目标正样本片段之后，进入：

步骤S2230，根据目标正样本片段的时间特征，在目标视频中确定目标视频片段。

目标正样本片段的时间特征是目标正样本片段在时间维度上体现的特征。具体地，目标正样本片段的时间特征至少包括目标视频中与目标正样本片段对应的视频片段的起止时间，起止时间是具有起始时间点和终止时间点的时间长度。

根据目标正样本的时间特征，例如上述的目标视频中与目标正样本片段对应的视频片段的起止时间，可以对应确定在目标视频中与目标正样本片段对应的目标视频片段，即目标视频中包括的、与道路抛撒行为对应的目标视频片段。

通过上述步骤，基于道路抛撒识别模型，确定目标视频中包括的、与道路抛撒行为对应的目标视频片段，可以对任意长度的目标视频，有效识别目标视频中对应的道路抛撒行为，并精准定位在目标视频中与道路抛撒行为对应的目标视频片段，提高道路抛撒行为的识别准确率。

在本实施例中提供的道路抛撒行为的识别方法还包括训练道路抛撒识别模型的步骤，包括：步骤S3100-S3300。

步骤S3100，获取多个训练视频。

每个训练视频中包括分别与不同的行为类别对应的不同视频片段，行为类别包括道路抛撒行为以及正常行驶行为。应当理解的是，每个训练视频中包括分别与不同的行为类别对应的不同视频片段，并不意味着训练视频的视频片段均需与不同的行为类别对应，例如，训练视频中可以不仅包括与道路抛撒行为对应的视频片段以及与正常行驶行为对应的视频片段、还可以包括没有车辆图像的视频片段等。

每个训练视频具有对应的验证信息，验证信息中包括训练视频中不同行为类别的每个视频片段的起止时间，起止时间是具有起始时间点和终止时间点的时间长度。每个训练视频的验证信息可以通过机器抓取、人工判断等手段获取，在此不做具体限定。

在实际应用中，可以将唯一标识一个训练视频的视频名称、训练视频的保存路径、训练视频的验证信息均以预设的文件格式存储在一个文件中，以供训练抛撒识别模型时读取。预设的文件格式可以根据具体需求设置，例如设置为JSON格式(一种轻量级数据交换格式)。

步骤S3200，获取每个训练视频的多个备选行为片段；

其中，每个备选行为片段是从训练视频的特征图中提取的一个特征片段。

在本实施例中，获取每个训练视频的多个备选行为片段的步骤S3200，可以同上述获取目标视频的多个备选行为片段的步骤S2110-S2130，在此不再赘述。

步骤S3300，根据每个训练视频的所述备选行为片段以及验证信息，基于卷积神经网络训练获取道路抛撒识别模型。

卷积神经网络是(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是训练模型的常用网络。在本实施例中，具体的卷积神经网络可以根据具体的应用场景或者应用需求选取，例如，选取为ResNet(Deep residual network,深度残差网络)或者其他开源可获取的卷积神经网络。

在一个具体的例子中，道路抛撒识别模型包括第一识别模型、第二识别模型以及第三识别模型。

第一识别模型用于对输入的目标视频的多个备选行为片段进行识别，当确定备选行为片段是正样本片段时，输出正样本片段。

对应的，步骤S3300包括训练第一识别模型的步骤，包括：步骤3310-S3330。

步骤S3310，根据每个训练视频的备选行为片段的时间特征以及验证信息，确定用于训练第一识别模型的训练正样本和训练负样本；

训练视频的备选行为片段的时间特征至少包括训练视频中与备选片段对应的视频片段的起止时间，起止时间是具有起始时间点和终止时间点的时间长度。

训练正样本是对应的训练视频的视频片段的起止时间，与根据验证信息确定的对应的车辆出现片段的时间的重合度，大于预设的正向阈值的训练视频的备选行为片段。预设的正向阈值可以根据工程经验或者实验仿真结果的设置的、确定训练视频的备选行为片段属于正样本的重合度阈值，例如，预设的正向阈值可以是70％，即训练视频的备选行为片段在训练视频中的对应的视频片段的起止时间，与根据验证信息确定的、对应的车辆出现片段的起止时间的重合度高于70％时，训练视频的备选行为片段为训练正样本。

训练负样本是对应的训练视频的视频片段的起止时间，与根据验证信息确定的对应的车辆出现片段的时间的重合度，小于预设的负向阈值的练视频的备选行为片段。预设的负向阈值可以根据工程经验或者实验仿真结果的设置的、确定训练视频的备选行为片段属于负样本的重合度阈值，例如，预设的负向阈值可以是30％，即训练视频的备选行为片段在训练视频中的对应的视频片段的起止时间，与根据验证信息确定的、对应的车辆出现片段的起止时间的重合度低于30％时，训练视频的备选行为片段为训练负样本。

通过设置预设的正向阈值确定训练正样本、设置预设的负向阈值确定训练负样本，可以去除训练视频的在预设的正向阈值以及负向阈值之间的、特征不明显的备选行为片段，使得根据训练正样本以及训练负样本训练获取的第一识别模型的识别准确率更高。

步骤S3330，根据训练正样本和训练负样本，基于卷积神经网络进行训练，获取第一识别模型。

在确定训练正样本和训练负样本之后，基于卷积神经网络训练的具体过程根据具体选取的卷积神经网络确定，在此不做具体限定。

在本例中，第二识别模型用于根据自身训练获取的时间特征参数，对第一识别模型输出的正样本片段的时间特征进行调整后再输出。

对应的，步骤S3300包括训练第二识别模型的步骤，包括：步骤S3301-S3302。

步骤S3301，根据每个训练视频的训练正样本以及验证信息，确定与每个训练视频的训练正样本对应的训练视频中的车辆出现片段。

步骤S3302，根据每个训练视频的训练正样本的时间特征以及对应的车辆出现片段的起止时间，基于卷积神经网络进行训练，获取时间特征参数，以得到第二识别模型。

第二识别模型的时间特征参数至少包括目标视频中与正样本片段对应的视频片段的时间中点的偏移量、以及目标视频中与正样本片段对应的视频片段的持续时长的缩放系数。

训练正样本的时间特征至少包括训练视频中与训练正样本应的视频片段的起止时间，起止时间是具有起始时间点和终止时间点的时间长度。

根据每个训练视频的训练正样本的时间特征以及对应的车辆出现片段的起止时间，可以确定训练正样本的时间特征中包括的起止时间的时间中点以及对应的持续时长，以及对应的车辆出现片段的起止时间的时间中点以及对应的持续时长，进而可以确定两者相对的时间中点的偏移量以及持续时长的缩放系数，以此类推，得到与每个训练视频的训练正样本对应的时间中点的偏移量以及持续时长的缩放系数，基于神经卷积网络进行训练，得到第二识别模型中用于调整目标视频的正样本片段的时间特征参数。

而在本例中，步骤S3300还可以包括：步骤S3300-1以及步骤S3300-2。

步骤S3300-1，构建评估第一识别模型以及第二识别模型的综合损失函数。

具体地，综合损失函数可以根据下述公式构建：

其中，N_cls是第一识别模型中训练的备选行为片段的数目，a_i是第一识别模型识别第i个备选行为片段的预测概率，是根据验证信息确定a_i是否正确的标签，如果a_i正确，是1，否则，是0；

是与第一识别模型对应的损失估计部分；

N_reg是第二识别模型中训练的训练正样本的数目；

是与第二识别模型对应的损失估计部分；

λ是用于权衡与第一识别模型对应的损失估计部分以及与第二识别模型对应的损失估计部分的参数，可以设置λ为10。

步骤S3300-2，根据综合损失函数获取第一识别模型以及第二识别模型的训练结果，以根据训练结果调整第一识别模型以及第二识别模型的训练。

在基于卷积神经网络训练模型的过程中，通常构建损失函数来评估训练结果，根据训练结果来调整对于模型的训练，但是，通常针对每个模型的训练构建独立的损失函数来获取对应的训练结果。

而在本例中，则是综合第一识别模型、第二识别模型对应的损失估计部分构建综合损失函数，基于综合损失函数，可以将实际训练第一识别模型以及第二识别模型得到的输出结果代入损失函数，获取对应的第一识别模型以及第二识别模型的训练结果，对应调整第一识别模型以及第二识别模型的训练，实现综合均衡第一识别模型、第二识别模型的损失部分来同步调整第一识别模型、第二识别模型的训练，使得第一识别模型、第二识别模型的训练互相耦合相互影响，进一步提高第一识别模型、第二识别模型的训练效率以及模型识别准确率。

在本例中，根据损失函数获取的训练结果调整模型的训练，可以包括根据每一步训练后代入具体的模型输出结果得到的损失函数的取值的变化来调整模型的训练，例如，损失函数的取值的变化是逐渐变大，可以认为模型的训练结果偏离理想预期，对应反向调整模型的参数变化进行训练等等，在此不一一列举。

在本例中，第三识别模型用于对第二识别模型输出的正样本片段进行识别，输出每个正样本片段属于不同的行为类别的概率。

步骤S3300还可以包括：步骤S33001-S33002。

步骤S33001，根据第二识别模型输出的多个训练正样本以及验证信息，获取每个训练正样本的包含对应的行为类别的特征图。

第二识别模型输出的训练正样本是经过第二识别模型处理的、对应的符合训练正样本定义的训练视频的备选行为片段。训练视频的备选行为片段是从训练视频的特征图中提取的一个特征片段，对应的，可以根据每个训练正样本对应的训练视频的特征图，确定每个训练正样本的包含对应的行为类别的特征图。

在本例中，还可以通过最大池化处理，使得每个训练正样本包含的对应的行为类别的特征图具有相同的大小，以便结合后续步骤进行第三识别模型训练时，提高训练效率。

步骤S33002，根据每个训练正样本的包含对应的行为类别的特征图，基于卷积神经网络进行训练，获取第三识别模型。

在确定每个训练正样本的包含对应的行为类别的特征图之后，基于卷积神经网络训练的具体过程根据具体选取的卷积神经网络确定，在此不做具体限定。

在本例中，可以构建第三识别模型的损失函数为：

其中，j是不同行为类别，y_j是对应的行为类别下第三识别模型预测的概率分布，y_j′是对应的行为类别下根据验证信息得到的真实的概率分布。

通过构建第三识别模型的损失函数，可以根据第三识别模型输出的结果代入获取训练结果，根据训练结果对应调整第三识别模型的训练，例如，损失函数的取值的变化是逐渐变大，可以认为模型的训练结果偏离理想预期，对应反向调整模型的参数变化进行训练等等，在此不一一列举。

应当理解的是，上述训练第一识别模型、第二识别模型、第三识别模型的神经卷积网络可以是相同的网络结构，也可以是不同的网络结构。

在本例中，道路抛撒识别模型还包括中间处理层。中间处理层被设置于第一识别模型与第二识别模型之间，或者，中间处理层被设置于第二识别模型与第三识别模型之间。步骤S3300还可以包括设置中间层的步骤，包括：

设置中间处理层从输入的多个训练正样本中，选取符合预设的筛选规则的训练正样本并输出。

其中，预设的筛选规则包括训练正样本的置信度的升序排序次序符合预设的排序范围，并且训练正样本的时间特征与其他符合预设的筛选规则的训练正样本的时间特征的重合度低于预设的重合度阈值。预设的排序范围可以根据具体的训练场景或者训练需求设置，例如，设置为1-1000。预设的重合度阈值可以根据工程经验或者实验仿真结果设置，例如，设置为70％。训练正样本的置信度是在训练第一识别模型过程中获取的，例如，训练正样本的置信度时第一识别模型输出的正样本的预测概率。

通过在训练道路抛撒模模型过程中，对应设置中间处理层，可以使得最终输入第三识别模型进行训练的训练正样本，是置信度较高、并且时间特征的重合度较低的较优的训练正样本，提高训练得到的第三识别模型的模型性能，相应地，也提升最终训练得到的抛撒识别模型的模型性能。

<道路抛撒行为的识别装置>

在本实施例中，还提供一种道路抛撒行为的识别装置3000，如图4所示，包括：备选获取单元3100以及行为识别单元3200，用于实施本实施例中提供的道路抛撒行为的识别方法，在此不再赘述。

备选获取单元3100，用于获取目标视频的多个备选行为片段。

可选地，备选行为片段是从目标视频的特征图中提取的一个特征片段；备选获取单元3100还用于：

行为识别单元3200，用于根据道路抛撒识别模型对所述目标视频的多个备选行为片段进行识别，确定所述目标视频中包括的、与道路抛撒行为对应的目标视频片段。

所述正样本片段是包括车辆图像特征的所述备选行为片段；

所述行为类别包括道路抛撒行为以及正常行驶行为；

行为识别单元3200包括：

用于根据所述道路抛撒识别模型，获取所述目标视频的多个备选行为片段的每个所述正样本片段属于不同的所述行为类别的概率的装置；

用于根据每个所述正样本片段属于不同的所述行为类别的概率，从多个所述正样本片段中，确定与所述道路抛撒行为对应的所述目标正样本片段的装置；

用于根据所述目标正样本片段的时间特征，在所述目标视频中确定所述目标视频片段的装置。

可选地，所述道路抛撒识别模型还包括中间处理层；

可选地，用于根据每个所述正样本片段属于不同的所述行为类别的概率，从多个所述正样本片段中，确定与所述道路抛撒行为对应的所述目标正样本片段的装置用于：

其中，所述预设的抛撒行为条件至少包括所述正样本片段属于所述道路抛撒行为的概率高于预设的抛撒阈值。

可选地，所述目标正样本片段的时间特征至少包括所述目标视频中与所述目标正样本片段对应的视频片段的起止时间，所述起止时间是具有起始时间点和终止时间点的时间长度。

可选地，道路抛撒行为的识别装置3000还包括训练所述道路抛撒识别模型的装置，包括：

用于获取多个训练视频的装置，其中，每个所述训练视频中包括分别与不同的行为类别对应的不同视频片段，所述行为类别包括道路抛撒行为以及正常行驶行为；每个所述训练视频具有对应的验证信息，所述验证信息中包括所述训练视频中不同行为类别的每个视频片段的起止时间，所述起止时间是具有起始时间点和终止时间点的时间长度；

用于获取每个所述训练视频的多个备选行为片段的装置；

用于根据每个所述训练视频的所述备选行为片段以及所述验证信息，基于卷积神经网络训练获取所述道路抛撒识别模型的装置。

用于根据每个所述训练视频的所述备选行为片段以及所述验证信息，基于卷积神经网络训练获取所述道路抛撒识别模型的装置还用于：

进一步可选地，用于根据每个所述训练视频的所述备选行为片段以及所述验证信息，基于卷积神经网络训练获取所述道路抛撒识别模型的装置还用于：

构建评估所述第一识别模型以及所述第二识别模型的综合损失函数；

根据所述综合损失函数获取所述第一识别模型以及所述第二识别模型的训练结果，以根据训练结果调整所述第一识别模型以及所述第二识别模型的训练。

可选地，所述道路抛撒识别模型还包括中间处理层；

本领域技术人员应当明白，可以通过各种方式来实现道路抛撒行为的识别装置3000。例如，可以通过指令配置处理器来实现道路抛撒行为的识别装置3000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现道路抛撒行为的识别装置3000。例如，可以将道路抛撒行为的识别装置3000固化到专用器件(例如ASIC)中。可以将道路抛撒行为的识别装置3000分成相互独立的单元，或者可以将它们合并在一起实现。道路抛撒行为的识别装置3000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

<电子设备>

在本实施例中，提供一种电子设备4000，如图5所示，包括：

存储器4100，用于存储可执行的指令；

处理器4200，用于根据所述可执行的指令的控制，运行所述电子设备4000执行本实施例中提供的道路抛撒行为的识别方法。

在本实施例中，电子设备4000可以具有各种实体形式，例如，可以是具有存储器以及处理器的单片机、电脑、服务器等，也可以是如图1所示的电子设备1000。

以上已经结合附图和例子说明本实施例中提供的道路抛撒行为的识别方法、装置及电子设备，通过获取目标视频的多个备选行为片段，根据训练获取的道路抛撒识别模型对目标视频的多个备选行为片段进行识别，确定目标视频中包括的、与道路抛撒行为对应的目标视频片段，可以对任意视频时长的目标视频，有效识别目标视频中对应的道路抛撒行为，并精准定位在目标视频中与道路抛撒行为对应的目标视频片段，提高道路抛撒行为的识别准确率。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种道路抛撒行为的识别方法，其特征在于，包括：

获取目标视频的多个备选行为片段；

2.根据权利要求1所述的方法，其特征在于，

所述备选行为片段是从所述目标视频的特征图中提取的一个特征片段；

所述获取目标视频的多个备选行为片段的步骤包括：

3.根据权利要求1所述的方法，其特征在于，

所述道路抛撒识别模型用于对输入的所述多个备选行为片段进行识别，得到所述多个备选行为片段中的每个正样本片段属于不同的行为类别的概率；

所述正样本片段是包括车辆图像特征的所述备选行为片段；

所述行为类别包括道路抛撒行为以及正常行驶行为；

4.根据权利要求3所述的方法，其特征在于，

所述道路抛撒识别模型包括第一识别模型、第二识别模型以及第三识别模型；

5.根据权利要求4所述的方法，其特征在于，

所述道路抛撒识别模型还包括中间处理层；

6.根据权利要求3所述的方法，其特征在于，

所述根据每个所述正样本片段属于不同的所述行为类别的概率，从多个所述正样本片段中，确定与所述道路抛撒行为对应的所述目标正样本片段的步骤包括：

和/或，

7.根据权利要求1所述的方法，其特征在于，所述方法还包括训练所述道路抛撒识别模型的步骤，包括：

获取每个所述训练视频的多个备选行为片段；

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求8所述的方法，其特征在于，

所述第二识别模型用于根据自身训练获取的时间特征参数，对所述第一识别模型输出的所述正样本片段的所述时间特征进行调整后再输出；

10.根据权利要求9所述的方法，其特征在于，

11.根据权利要求9所述的方法，其特征在于，

所述第三识别模型用于对所述第二识别模型输出的所述正样本片段进行识别，输出每个正样本片段属于不同的所述行为类别的概率；

12.根据权利要求8所述方法，其中，

所述道路抛撒识别模型还包括中间处理层；

13.一种道路抛撒行为的识别装置，其特征在于，包括：

备选获取单元，用于获取目标视频的多个备选行为片段；

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述电子设备执行如权利要求1-12的道路抛撒行为的识别方法。