CN110363159A

CN110363159A - 图像识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110363159A
Application number: CN201910646638.5A
Authority: CN
Inventors: 尹兴伟; 林志达; 万超; 谢志杰; 欧阳国灵; 刘轶斌; 陈诗杨; 李玉; 许钧发; 李永韬; 刘海波; 马侠霖; 李震; 章效培; 刘太平; 欧阳砚池; 冯腾霄; 何俊池; 杨帝海; 李超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-10-22

Abstract

本申请实施例提供了一种图像识别方法、装置、电子设备及计算机可读存储介质。该方法包括：每隔预设时间从获取的视频流中抽取至少一帧图像，然后对抽取的至少一帧图像进行图像识别处理，然后基于识别处理结果确定至少一帧图像中是否存在满足预设条件的图像。本申请实施例实现了提升识别异常多媒体信息的准确度，进一步地降低监控资料受损的概率，并且可以进一步地提升用户体验。

Description

图像识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本申请涉及一种图像识别方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展，多媒体信息处理技术随之发展，多媒体信息处理技术可以应用各种应用场景中，例如在安防监控应用场景中，安防监控***可以包括：采集设备(例如摄像头)、多媒体后台设备以及多媒体监控客户端，安防监控***能够监控某一区域发生的事件，但是当前很多安防监控***中的设备由于长时间运行或者高温等不可控外部条件，导致传输并显示在多媒体监控客户端的多媒体信息出现画面模糊、花屏或者黑屏的情况，并且可能导致监控资料的丢失。其中，正常图像如图1a所示，画面模糊的图像如图1b以及图1c所示。

现有技术中，通过人工监控客户端显示的多媒体信息是否出现画面模糊、花屏或者黑屏等的情况，以确定监控***中监控设备是否出现损坏或者传输过程中是否出现丢包的情况，然后采取相应的措施，以避免造成严重的监控资料损坏或者丢失的情况。

但是，通过人工监控客户端显示的多媒体信息是否存在异常多媒体信息，可能导致识别异常多媒体信息的准确度较低，再者由于某些异常多媒体信息并未通过人工监测到，因此也无法及时采取相应的措施，导致监控资料受损，进而导致用户体验较差。

发明内容

本申请提供了一种图像识别方法、装置、电子设备及计算机可读存储介质，可以上述至少一种技术问题。所述技术方案如下：

第一方面，提供了一种图像识别方法，该方法包括：

每隔预设时间从获取的监控视频流中抽取至少一帧图像；

对抽取的至少一帧图像进行图像识别处理；

基于识别处理结果确定至少一帧图像中是否存在满足预设条件的图像。

在一种可能的实现方式中，若获取的视频流为监控视频流，则基于识别处理结果确定至少一帧图像中是否存在满足预设条件的图像，还包括：

若存在满足预设条件的图像，则触发以下至少一种操作：

控制重启对应的监控设备；

向与监控设备相关联的终端设备发送告警信息。

在另一种可能的实现方式中，对抽取的至少一帧图像进行图像识别处理，包括：

将抽取的至少一帧图像通过训练后的模型进行图像识别处理。

在另一种可能的实现方式中，将抽取的至少一帧图像通过训练后的模型进行图像识别处理，包括：

确定抽取的至少一帧图像中各个图像分别对应的第一颜色信息；

将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过训练后的模型进行图像识别处理。

在另一种可能的实现方式中，通过训练后的模型进行图像识别处理，包括：

通过至少一个训练后的神经网络模型进行图像识别处理。

在另一种可能的实现方式中，通过至少一个训练后的神经网络模型进行图像识别处理，包括以下至少一项：

通过卷积神经网络CNN进行图像识别处理；

通过以下任一神经网络进行图像识别处理：

长短时记忆网络LSTM；

门框循环单元网络GRU。

在另一种可能的实现方式中，更包括：

将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过卷积神经网络进行图像特征提取处理，得到至少一帧图像中各个图像分别对应的多维矩阵；

将至少一帧图像中各个图像分别对应的多维矩阵通过长短时记忆网络以及门框循环单元网络中的任一神经网络进行图像识别处理，得到至少一帧图像中各个图像分别对应的识别结果。

在另一种可能的实现方式中，通过训练后的模型对抽取的至少一帧图像进行图像识别处理，之前还包括：

获取训练样本，并基于获取到的训练样本对预设模型进行训练；

训练样本包括：多个携带标注信息且满足预设条件的图像。

在另一种可能的实现方式中，基于获取到的训练样本对预设模型进行训练，包括：

基于各个携带标注信息且满足预设条件的图像，确定各个图像分别对应的第一颜色信息；

基于各个图像分别对应的第一颜色信息对预设模型进行训练。

在另一种可能的实现方式中，基于任一携带标注信息且满足预设条件的图像，确定任一图像对应的第一颜色信息，包括：

从任一携带标注信息且满足预设条件的图像中提取各个像素分别对应的第二颜色信息；

基于各个像素分别对应的第二颜色信息，确定任一图像对应的第一颜色信息。

在另一种可能的实现方式中，预设条件包括：

图像质量参数值小于预设阈值。

第二方面，提供了一种图像识别装置，该装置包括：

抽取模块，用于每隔预设时间从获取的监控视频流中抽取至少一帧图像；

图像识别处理模块，用于对抽取的至少一帧图像进行图像识别处理；

确定模块，用于基于识别处理结果确定至少一帧图像中是否存在满足预设条件的图像。

在一种可能的实现方式中，当获取的视频流为监控视频流，该装置还包括：触发模块，其中，

触发模块，用于当存在满足预设条件的图像时，触发以下至少一种操作：

控制重启对应的监控设备；

向与监控设备相关联的终端设备发送告警信息。

在另一种可能的实现方式中，图像识别处理模块，具体用于将抽取的至少一帧图像通过训练后的模型进行图像识别处理。

在另一种可能的实现方式中，图像识别处理模块，具体用于确定抽取的至少一帧图像中各个图像分别对应的第一颜色信息；

图像识别处理模块，具体还用于将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过训练后的模型进行图像识别处理。

在另一种可能的实现方式中，图像识别处理模块，具体还用于通过至少一个训练后的神经网络模型进行图像识别处理。

在另一种可能的实现方式中，图像识别处理模块，具体用于执行以下至少一项：

通过卷积神经网络CNN进行图像识别处理；

通过以下任一神经网络进行图像识别处理：

长短时记忆网络LSTM；

门框循环单元网络GRU。

在另一种可能的实现方式中，图像识别处理模块，还用于将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过卷积神经网络进行图像特征提取处理，得到至少一帧图像中各个图像分别对应的多维矩阵；

图像识别处理模块，还用于将至少一帧图像中各个图像分别对应的多维矩阵通过长短时记忆网络以及门框循环单元网络中的任一神经网络进行图像识别处理，得到至少一帧图像中各个图像分别对应的识别结果。

在另一种可能的实现方式中，装置还包括：获取模块以及训练模块，其中，

获取模块，用于获取训练样本；

训练模块，用于基于获取到的训练样本对预设模型进行训练；

训练样本包括：多个携带标注信息且满足预设条件的图像。

在另一种可能的实现方式中，训练模块包括：确定单元以及训练单元，其中，

确定单元，用于基于各个携带标注信息且满足预设条件的图像，确定各个图像分别对应的第一颜色信息；

训练单元，用于基于各个图像分别对应的第一颜色信息对预设模型进行训练。

在另一种可能的实现方式中，在确定任一图像对应的第一颜色信息时，确定单元，具体用于从任一携带标注信息且满足预设条件的图像中提取各个像素分别对应的第二颜色信息，以及基于各个像素分别对应的第二颜色信息，确定任一图像对应的第一颜色信息。

在另一种可能的实现方式中，预设条件包括：

图像质量参数值小于预设阈值。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面或者第一方面任一可能的实现方式所示的图像识别方法对应的操作。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面或者第一方面任一可能的实现方式所示的图像识别方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种图像识别方法、装置、电子设备及计算机可读存储介质，与现有技术中通过人工监控客户端显示的多媒体信息是否出现画面模糊、花屏或者黑屏等现象，以确定监控***是否出现故障相比，本申请中通过每隔预设时间从获取的视频流中抽取至少一帧图像，并对抽取的至少一帧图像进行图像识别处理，以确定该至少一帧图像中是否存在满足预设条件的图像，即通过图像识别处理方式识别视频流中是否存在异常图像，而不是通过人工进行图像识别，从而可以提升识别异常多媒体信息的准确度，进而可以进一步地降低监控资料受损的概率，并且可以进一步地提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1a为正常图像的示例图；

图1b、图1c为模糊图像的示例图；

图1d为本申请实施例提供的一种图像识别方法流程示意图；

图2为本申请实施例提供的一种图像识别装置结构示意图；

图3为本申请实施例提供的一种图像识别的电子设备的结构示意图；

图4为本申请实施例中卷积神经网络以及长短时记忆网络的架构示意图；

图5为本申请实施例中各个网络层对应的输出向量以及参数量示意图；

图6为本申请实施例中线上图像识别方法以及线下模型的训练方式的应用场景示意图；

图7为本申请实施例中在安防监控场景中图像识别方法流程示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学***移不变分类，因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks，SIANN)”。其中，CNN包括：输入层、隐含层以及输出层，其中，隐含层可以包括：卷积层、池化层以及全连接层。

长短时记忆网络(Long Short Term Memory Network，LSTM)，是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM区别于循环神经网络(Recurrent Neural Network，RNN)的地方，主要就在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用，并只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

门控循环单元(Gated Recurrent Unit，GRU)网络，属于LSTM的变体，在LSTM中引入了三个门函数：输入门、遗忘门和输出门分别来控制输入值、记忆值和输出值，而在GRU模型中只有两个门分别是更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多；重置门控制前一状态有多少信息被写入到当前的候选集上，重置门越小，前一状态的信息被写入的越少。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种图像识别方法，如图1d所示，该方法包括：

步骤S101、每隔预设时间从获取的视频流中抽取至少一帧图像。

对于本申请实施例，预设时间可以由服务器设置，也可以由用户设置。在本申请实施例中不做限定。

对于本申请实施例，预设时间可以基于视频流中内容的重要程度进行设置。例如，在安防监控的应用场景中，预设时间可以基于监控视频流所监控信息的重要级别进行设置。例如，采集设备1采集到的监控视频流所监控信息的重要级别为1级，采集设备2采集到的监控视频流所监控信息的重要级别为2级，则每隔5秒从采集设备1采集到的监控视频流中抽取至少一帧图像，每隔10秒从采集设备2采集到的监控视频流中抽取至少一帧图像。

步骤S102、对抽取的至少一帧图像进行图像识别处理。

对于本申请实施例，若单次仅抽取一帧图像，则对该帧图像进行图像识别处理；若单次抽取至少两帧图像，则对抽取的至少两帧图像中每帧图像均进行图像识别处理。

步骤S103、基于识别处理结果确定至少一帧图像中是否存在满足预设条件的图像。

本申请实施例提供了一种图像识别方法，与现有技术中通过人工监控客户端显示的多媒体信息是否出现画面模糊、花屏或者黑屏等现象，以确定监控***是否出现故障相比，本申请实施例中通过每隔预设时间从获取的视频流中抽取至少一帧图像，并对抽取的至少一帧图像进行图像识别处理，以确定该至少一帧图像中是否存在满足预设条件的图像，即通过图像识别处理方式识别视频流中是否存在异常图像，而不是通过人工进行图像识别，从而可以提升识别异常多媒体信息的准确度，进而可以进一步地降低监控资料受损的概率，并且可以进一步地提升用户体验。

本申请实施例的另一种可能的实现方式，预设条件包括：图像质量参数值小于预设阈值。

对于本申请实施例，基于识别处理结果，确定至少一帧图像中是否存在满足预设条件的图像，即基于识别处理结果确定至少一帧图像中是否处在图像质量小于预设阈值的图像。在本申请实施例中，当任一帧图像对应的图像质量为小于预设阈值，则表征该小于预设阈值的图像通过客户端显示，可能会出现模糊、花屏或者黑屏的现象。

本申请实施例的另一种可能的实现方式，若获取的视频流为监控视频流，则基于识别处理结果确定至少一帧图像中是否存在满足预设条件的图像，还包括：若存在满足预设条件的图像，则触发以下至少一种操作：

控制重启对应的监控设备；

向与监控设备相关联的终端设备发送告警信息。

具体地，若获取的视频流为监控视频流，则在步骤S103之后还可以包括：若存在满足预设条件的图像，则触发以下至少一种操作：

控制重启对应的监控设备；

向与监控设备相关联的终端设备发送告警信息。

对于本申请实施例，当获取的视频流为监控视频流且通过步骤S103确定抽取的至少一帧图像中存在满足预设条件的图像，则可以触发控制重启对应的监控设备，和/或，向与监控设备相关联的终端设备发送告警信息。在本申请实施例中，可以预设服务器中配置对应的终端设备，然后当确定出抽取的至少一帧图像中存在满足预设条件的图像，则通过短信息或者即时通信的方式向与监控设备相关联终端设备发送告警信息。

例如，在安防监控的应用场景中，当通过步骤S103确定抽取的至少一帧图像中存在满足预设条件的图像，则向对应的终端设备发送告警信息，和/或控制重启对应的监控设备(包括：采集设备、多媒体后台设备以及多媒体监控客户端中的至少一项)。

对于本申请实施例，当确定抽取的至少一帧图像中存在满足预设条件的图像，则执行向对应的终端设备发送告警信息以及重启对应的设备中的至少一种，能够在识别出监控视频流对应的帧图像的质量出现问题时，及时采取相应的措施以降低监控资料受损的程度，进而可以进一步地提升用户体验。

对于本申请实施例，若步骤S103之后还可以包括：若确定出不存在满足预设条件的图像，则不需要向对应的终端设备发送告警信息，也不需要控制重启对应的设备。

本申请实施例的另一种可能的实现方式，通过深度学习模型对抽取的至少一帧图像进行图像识别处理。具体地，步骤S102具体可以包括：将抽取的至少一帧图像通过训练后的模型进行图像识别处理。

对于本申请实施例，将抽取的至少一帧图像通过训练后的模型进行图像识别处理，具体可以包括：将抽取的至少一帧图像输入至训练后的模型进行图像识别处理；或者，将抽取的至少一帧图像通过训练后的模型进行图像识别处理，包括：确定抽取的至少一帧图像中各个图像分别对应的第一颜色信息；将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过训练后的模型进行图像识别处理。

本申请实施例的另一种可能的实现方式，通过训练后的模型进行图像识别处理，包括：通过至少一个训练后的神经网络模型进行图像识别处理。

本申请实施例的另一种可能的实现方式，通过至少一个训练后的神经网络模型进行图像识别处理，包括以下至少一项：

通过卷积神经网络CNN进行图像识别处理；

通过以下任一神经网络进行图像识别处理：

长短时记忆网络LSTM；

门框循环单元网络GRU。

下述实施例以将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过训练后的模型进行图像识别处理为例介绍通过训练后的至少一个神经网络模型进行图像识别处理的过程，其中，将抽取的至少一帧图像通过训练后的模型进行图像识别处理的具体过程与具体如下所示：

对于本申请实施例，当通过CNN以及LSTM进行图像识别处理，或者通过CNN以及GRU进行图像识别处理时，将至少一帧图像对应的第一颜色信息通过CNN进行图像特征提取处理，得到至少一帧图像中各帧图像分别对应的多维矩阵，然后将至少一帧图像中各帧图像分别对应的多维矩阵通过LSTM以及GRU中的任一神经网络进行图像识别处理，得到至少一帧图像中各个图像分别对应的识别结果。

对于本申请实施例，在通过CNN进行图像特征提取处理时，提取的特征可以包括：量化参数(Quantization Parameter，QP)、帧率、分辨率、视频内容等。

对于本申请实施例，当通过CNN以及LSTM进行图像识别处理时，CNN的输入层为一帧图像对应的第一颜色信息，然后通过设置的多个神经网络层、激活函数层(例如，线性整流函数(Rectified Linear Unit，ReLU))、池化层以及全连接层，得到表征该帧图像特征的多维矩阵，LSTM的输入为从CNN输出层得到的表征该帧图像特征的多维矩阵，然后通过神经网络层、Dropout层、softmax层，然后通过分类器输出0或1。在本申请实施例中，dropout层是在上一个隐藏层和下一个隐藏层进行连接时，随机放弃一些神经元的连接，而不是两层之间的神经元每一个都进行连接，以此防止过拟合；Softmax函数将多个标量映射为一个概率分布，其输出的每一个值范围在(0，1)，并且softmax函数经常用在神经网络的最后一层，作为输出层，进行多分类。

如图4所示，针对训练后的模型为CNN模型以及LSTM模型，图4中示出了CNN模型以及LSTM模型对应的结构，例如，帧图像的尺寸为720*1280，所以模型的输入数据维度为(720,1280,3)，然后通过两个卷积层(conv2d_1：Conv2D以及conv2d_2：Conv2D)，其中conv2d_1：Conv2D对应的输入数据维度以及输出数据维度分别为(None，720,1280,3)以及(None,718,1278,3)；conv2d_2：Conv2D对应的输入数据维度以及输出数据维度分别为(None,718,1218,3)以及(None,716,1276,3)；再通过最大池化(maxpooling)层进行下采样，max_pooling 2d_1:Maxpooling2D对应的输入数据维度以及输出数据维度分别为(None,716,1276,3)以及(None,358,638,64)，然后再依次通过两个卷积层(conv2d_3：Conv2D以及conv2d_4：Conv2D)以及最大池化层(max_pooling 2d_2:Maxpooling2D)，其中，conv2d_3：Conv2D对应的输入数据维度以及输出数据维度分别为(None,358,638,64)以及(None,356,636,64)，conv2d_4：Conv2D对应的输入数据维度以及输出数据维度分别为(None,356,636,64)以及(None,354,634,64)，max_pooling 2d_2:Maxpooling2D对应的输入数据维度以及输出数据维度分别为(None,354,634,64)以及(None,177,317,64)，然后再依次通过两个卷积层(conv2_5：Conv2D以及conv2d_6：Conv2D)以及最大池化层(max_pooling 2d_3:Maxpooling2D)，其中，conv2d_5：Conv2D对应的输入数据维度以及输出数据维度分别为(None,177,317,64)以及(None,175,315,64)，conv2d_6：Conv2D对应的输入数据维度以及输出数据维度分别为(None,175,315,64)以及(None,173,313,64)，max_pooling 2d_3:Maxpooling2D对应的输入数据维度以及输出数据维度分别为(None,173,313,64)以及(None,86,156,64)，然后通过reshape层(reshape_1：Reshape)、dense层(dense_1:Dense)、LSTM层(lstm_1:LSTM)、dropout层(dropout_1：Dropout)、flattern层(flattern_1：Flattern)以及dense层(dense_2:Dense)，其中，reshape层(reshape_1：Reshape)对应的输入数据维度以及输出数据维度分别为(None,86,156,64)以及(None,86,9984)、dense_1:Dense对应的输入数据维度以及输出数据维度分别为(None,86,9984)以及(None,86,32)、lstm_1:LSTM对应的输入数据维度以及输出数据维度(None,86,32)以及(None,86,128)、dropout_1：Dropout对应的输入数据维度以及输出数据维度分别为(None,86,128)以及(None,86,128)、flattern_1：Flattern对应的输入数据维度以及输出数据维度分别为(None,86,128)以及(None,11008)、dense_2:Dense对应的输入数据维度以及输出数据维度分别为(None,11008)以及(None,2)。在本申请实施例中，任一卷积层的卷积核大小为3*3，任一卷积核的数量大小为64。

对于本申请实施例，Reshape层的作用就是在改变向量的维度，比如(32，86，156，64)变成(32，86，9984)；Flattern层其实也可以算作reshape操作，即改变向量的维度，比如(32，86，128)变成(32，11008)，前面的32其实是一批图片的数量，后面的11008就变成了每张图片特征表达，由之前的两个维度，变成一个维度，也就是把多维输入转成一维；Dense层其实就是全连接层，也就是输出层的神经元个数和输入层的神经元每个都进行连接，一般出现在神经网络的最后几层，他的意义就是给特征加权。

其中，上述实施例，介绍各个网络层的输出向量(output shape)(即输出向量的维度)以及参数量(param#)，具体如图5所示，input_1(Inputlayer)对应的output shape以及param#分别为(None,720,1280,3)以及0；conv2d_1：Conv2D对应的output shape以及param#分别为(None，718,1278,64)以及1792；以及conv2d_2：Conv2D对应的output shape以及param#分别为(None,716,1276,64)以及36928；max_pooling 2d_1:Maxpooling2D对应的output shape以及param#分别为(None,358,638,64)以及0；conv2d_3：Conv2D对应的output shape以及param#分别为(None，356,636,64)以及36928；conv2d_4：Conv2D对应的output shape以及param#分别为(None,354,634,64)以及36928；max_pooling 2d_2:Maxpooling2D对应的output shape以及param#分别为(None,177,317,64)以及0；conv2d_5：Conv2D对应的output shape以及param#分别为(None，175,315,64)以及36928；conv2d_6：Conv2D对应的output shape以及param#分别为(None，173,313,64)以及36928；max_pooling 2d_3:Maxpooling2D对应的output shape以及param#分别为(None,86,156,64)以及0；reshape_1(Reshape)对应的output shape以及param#分别为(None,86,9984)以及0；dense_1(Dense)对应的output shape以及param#分别为(None，86,32)以及319520；lstm_1(LSTM)对应的output shape以及param#分别为(None，86,128)以及82432；dropout_1(Dropout)对应的output shape以及param#分别为(None，86,128)以及0；flattern_1(Flattern)对应的output shape以及param#分别为(None，11008)以及0；dense_2(Dense)对应的output shape以及param#分别为(None，2)以及22018；参数总量(Total params)为610402，可训练的参数(Trainable params)为610402，不可训练参数(Non-trainableparams)为0。

本申请实施例的另一种可能的实现方式，更包括：将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过卷积神经网络进行图像特征提取处理，得到至少一帧图像中各个图像分别对应的多维矩阵；将至少一帧图像中各个图像分别对应的多维矩阵通过长短时记忆网络以及门框循环单元网络中的任一神经网络进行图像识别处理，得到至少一帧图像中各个图像分别对应的识别结果。

具体地，将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过长短时记忆网络以及门框循环单元网络中的任一神经网络以及卷积神经网络进行图像识别处理，包括：将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过卷积神经网络进行图像特征提取处理，得到至少一帧图像中各个图像分别对应的多维矩阵；将至少一帧图像中各个图像分别对应的多维矩阵通过长短时记忆网络以及门框循环单元网络中的任一神经网络进行图像识别处理，得到至少一帧图像中各个图像分别对应的识别结果。

对于本申请实施例，若卷积神经网络的输入数据为至少一帧图像中各个图像分别对应的第一颜色信息，则通过CNN、LSTM或者CNN、GRU进行图像识别处理具体详见上述实施例，在本申请实施例中不再赘述。

对于本申请实施例，上述实施例从线上应用过程介绍对抽取的至少一帧图像进行图像识别处理的过程(即应用训练后的神经网络模型，对抽取的至少一帧图像进行图像识别处理)，下述从线下训练的过程介绍训练神经网络的过程，具体如下所示：

本申请实施例的另一种可能的实现方式，通过训练后的模型对抽取的至少一帧图像进行图像识别处理，之前还可以包括：获取训练样本，并基于获取到的训练样本对预设模型进行训练。

其中，训练样本包括：多个携带标注信息且满足预设条件的图像。

对于本申请实施例，在定义了进行图像识别处理的神经网络之后，需要收集大量的满足预设条件的图像(例如，模糊图像、显示在客户端中出现花屏或者黑屏的图像)。具体地，收集的满足预设条件的图像可以来自异常数据截图，也可以来自从网络中爬取的图像。在本申请实施例中不做限定。

对于本申请实施例，在收集了大量的图像之后，将各个图像分别转换为其对应的颜色信息(例如，将各个图像分别转换为其对应的RGB值)，然后将其导入至神经网络模型中进行训练，并通过调整参数、验证模型的精度，然后通过不断迭代优化，当准确率达到98％以上，即可以认为模型满足要求。在本申请实施例中，该模型通过10*12800次训练后，在验证集中得到的准确率为99％，可以用于实现图像识别处理，以识别出满足预设条件的图像。在本申请实施例中，任一图像对应的RGB值表征该任一图像中各个像素分别对应的亮度等级或者该任一图像的各个区域内分别对应的亮度等级。

上述实施例中，将收集到的大量图像，需要将各个图像转换为其对应的颜色信息，然后再导入至定义的模型中进行训练，其中将各个图像转换为其对应的颜色信息的过程详见下述实施例。

本申请实施例的另一种可能的实现方式，基于获取到的训练样本对预设模型进行训练，包括：基于各个携带标注信息且满足预设条件的图像，确定各个图像分别对应的第一颜色信息；基于各个图像分别对应的第一颜色信息对预设模型进行训练。

对于本申请实施例，任一图像对应的第一颜色信息可以为任一图像中各个像素分别对应的RGB值。

本申请实施例的另一种可能的实现方式，基于任一携带标注信息且满足预设条件的图像，确定任一图像对应的第一颜色信息，包括：从任一携带标注信息且满足预设条件的图像中提取各个像素分别对应的第二颜色信息；基于各个像素分别对应的第二颜色信息，确定任一图像对应的第一颜色信息。

对于本申请实施例，任一图像中各个像素分别对应的第二颜色信息为RGB值，则任一图像对应的第一颜色信息可以为该任一图像对应的RGB，包括：该任一图像中各个像素分别对应的RGB值，或者任一图像中各个图像区域分别对应的RGB。

本申请实施例提供了一种图像识别方法，可以应用于各种需要对图像进行识别的应用场景中，例如安防监控场景以及视频直播场景中，下述以安防监控场景为例进行介绍：

在现有的安防监控架构中，视频后台会拉取摄像头的视频流并且推送到监控客户端进行展示。为了加上检测功能，如图7所示，本申请实施例的安防监控架构，在现有的安防监控架构中，会单独部署一个检测服务后台，它是一个crontab定时任务，会去视频后台拉取一段视频流，拉取的频率和时间这个可以视业务重要程度自行设置，这段视频流和推送到视频监控客户端的是一样的，可以认为是监控客户端显示的图像的副本，然后使用opencv对视频流进行解码和转换。

OpenCV是一个计算机视觉库，它实现了图像处理和计算机视觉方面的很多通用算法，使用这个库可以将视频流转换成一组jpeg格式的图片。获取的图片会被保存下来，然后判定图片是否异常。

具体地，上述图片进行转换得到各个图片分别对应的颜色信息，然后将至少一个图片对应的颜色信息输入至训练后的模型(CNN+LSTM)中，得到该图片是否属于预设条件的图片(基于输出数据为0或1，确定该图片是否属于满足预设条件的图片)，即确定该图片的图像质量是否小于预设阈值，若检测到满足预设条件的图片(若输出数据为1)，则向与监控设备相关联的终端设备发送告警信息，并重启相应的监控设备(包括：采集设备、视频后台服务器以及视频客户端)。

以上为本申请实施例提供的图像识别方法以及训练模型的方法的具体实现方式，为了便于理解，本申请实施例还结合附图，对线上图像识别方法以及线下模型的训练方式进行介绍。

图6为本申请实施例提供的线上图像识别方法以及线下模型的训练方式的应用场景示意图，参见图6，该应用场景中包括服务器60、服务器61、样本数据库62。在模型训练阶段，服务器60从样本数据库62中获取样本数据，根据样本数据对初始神经网络模型(例如CNN以及LSTM)进行训练，当训练的神经网络模型满足训练结束条件时，将该模型作为训练后的神经网络模型。然后，在模型应用阶段，服务器61利用服务器60训练的神经网络模型对图像进行识别处理，确定出满足预设条件的图像。下面结合附图，对训练模型的方法以及图像识别方法进行介绍。

在该应用场景中，样本数据库62中存储有样本数据，该样本数据可以外部获取，并存储在样本数据库62。

在模型训练阶段，服务器60从样本数据库62中获取样本数据，根据样本数据对预置在服务器60内的初始神经网络模型进行训练，当训练后的模型满足训练结束条件，例如模型的目标函数最小时，停止训练，并将训练后的模型作为用于进行线上图像识别所应用的神经网络模型，进行线上图像识别，该模型在实际应用中能够识别出满足预设条件的图像。

在模型应用阶段，服务器61从服务器60获取模型参数，得到训练后的神经网络模型。然后，服务器61根据部署于其上的训练后的神经网络模型进行图像识别处理，具体地，将抽取的至少一帧图像对应的第一颜色信息输入至训练后的CNN，得到至少一帧图像对应的表征图像的多维矩阵；然后将至少一帧图像对应的表征图像的多维矩阵输入至训练后的LSTM，得到抽取的至少一帧图像是否满足预设条件。

其中，服务器60与服务器61可以为同一服务器，也可以为不同的服务器，图6仅是一种示例。

上述实施例从方法流程的角度介绍图像识别方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了图像识别装置，具体如下所示：

本申请实施例提供了一种图像识别装置，如图2所示，该图像识别装置20可以包括：抽取模块21、图像识别处理模块22以及确定模块23，其中，

抽取模块21，用于每隔预设时间从获取的视频流中抽取至少一帧图像。

图像识别处理模块22，用于对抽取的至少一帧图像进行图像识别处理。

确定模块23，用于基于识别处理结果确定至少一帧图像中是否存在满足预设条件的图像。

本申请实施例的另一种可能的实现方式，当获取的视频流为监控视频流，该装置20还包括：触发模块，其中，

控制重启对应的监控设备；

向与监控设备相关联的终端设备发送告警信息。

本申请实施例的另一种可能的实现方式，图像识别处理模块22，具体用于将抽取的至少一帧图像通过训练后的模型进行图像识别处理。

本申请实施例的另一种可能的实现方式，图像识别处理模块22，具体用于确定抽取的至少一帧图像中各个图像分别对应的第一颜色信息。

图像识别处理模块22，具体还用于将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过训练后的模型进行图像识别处理。

本申请实施例的另一种可能的实现方式，图像识别处理模块22，具体还用于通过至少一个训练后的神经网络模型进行图像识别处理。

本申请实施例的另一种可能的实现方式，图像识别处理模块22，具体用于执行以下至少一项：

通过卷积神经网络CNN进行图像识别处理；

通过卷积神经网络CNN以及以下任一神经网络进行图像识别处理：

长短时记忆网络LSTM；

门框循环单元网络GRU。

本申请实施例的另一种可能的实现方式，图像识别处理模块22，还用于将抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过卷积神经网络进行图像特征提取处理，得到至少一帧图像中各个图像分别对应的多维矩阵。

图像识别处理模块22，还用于将至少一帧图像中各个图像分别对应的多维矩阵通过长短时记忆网络以及门框循环单元网络中的任一神经网络进行图像识别处理，得到至少一帧图像中各个图像分别对应的识别结果。

本申请实施例的另一种可能的实现方式，装置20还包括：获取模块以及训练模块，其中，

获取模块，用于获取训练样本；

训练模块，用于基于获取到的训练样本对预设模型进行训练。

本申请实施例的另一种可能的实现方式，训练模块包括：确定单元以及训练单元，其中，

确定单元，用于基于各个携带标注信息且满足预设条件的图像，确定各个图像分别对应的第一颜色信息。

本申请实施例的另一种可能的实现方式，在确定任一图像对应的第一颜色信息时，确定单元，具体用于从任一携带标注信息且满足预设条件的图像中提取各个像素分别对应的第二颜色信息，以及基于各个像素分别对应的第二颜色信息，确定任一图像对应的第一颜色信息。

本申请实施例提供了一种图像识别装置，与现有技术中通过人工监控客户端显示的多媒体信息是否出现画面模糊、花屏或者黑屏等现象，以确定监控***是否出现故障相比，本申请实施例中通过每隔预设时间从获取的视频流中抽取至少一帧图像，并对抽取的至少一帧图像进行图像识别处理，以确定该至少一帧图像中是否存在满足预设条件的图像，即通过图像识别处理方式识别视频流中是否存在异常图像，而不是通过人工进行图像识别，从而可以提升识别异常多媒体信息的准确度，进而可以进一步地降低监控资料受损的概率，并且可以进一步地提升用户体验。

本申请实施例的图像识别装置可执行本申请实施例提供的图像识别方法，其实现原理相类似，此处不再赘述。

上述实施例从方法流程的角度介绍了图像识别方法，以及从虚拟模块或者虚拟单元的角度介绍了图像识别装置，下述实施例从实体结构的角度介绍一种电子设备，用于执行上述方法实施例，其中本申请实施例中的电子设备可以为服务器，可以为终端设备，在本申请实施例中不做限定。

本申请实施例提供了一种电子设备，如图3所示，图3所示的电子设备3000包括：处理器3001和存储器3003。其中，处理器3001和存储器3003相连，如通过总线3002相连。可选地，电子设备3000还可以包括收发器3004。需要说明的是，实际应用中收发器3004不限于一个，该电子设备3000的结构并不构成对本申请实施例的限定。

处理器3001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器3001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线3002可包括一通路，在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器3003用于存储执行本申请方案的应用程序代码，并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，本申请实施例中的电子设备包括：存储器和处理器；至少一个程序，存储于所述存储器中，用于被所述处理器执行时，与现有技术相比可实现：本申请实施例中通过每隔预设时间从获取的视频流中抽取至少一帧图像，并对抽取的至少一帧图像进行图像识别处理，以确定该至少一帧图像中是否存在满足预设条件的图像，即通过图像识别处理方式识别视频流中是否存在异常图像，而不是通过人工进行图像识别，从而可以提升识别异常多媒体信息的准确度，进而可以进一步地降低监控资料受损的概率，并且可以进一步地提升用户体验。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请实施例中通过每隔预设时间从获取的视频流中抽取至少一帧图像，并对抽取的至少一帧图像进行图像识别处理，以确定该至少一帧图像中是否存在满足预设条件的图像，即通过图像识别处理方式识别视频流中是否存在异常图像，而不是通过人工进行图像识别，从而可以提升识别异常多媒体信息的准确度，进而可以进一步地降低监控资料受损的概率，并且可以进一步地提升用户体验。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像识别方法，其特征在于，包括：

每隔预设时间从获取的视频流中抽取至少一帧图像；

对抽取的所述至少一帧图像进行图像识别处理；

基于识别处理结果确定所述至少一帧图像中是否存在满足预设条件的图像。

2.根据权利要求1所述的方法，其特征在于，若获取的视频流为监控视频流，则

所述基于识别处理结果确定所述至少一帧图像中是否存在满足预设条件的图像，还包括：

若存在满足预设条件的图像，则触发以下至少一种操作：

控制重启对应的监控设备；

向与所述监控设备相关联的终端设备发送告警信息。

3.根据权利要求1所述的方法，其特征在于，所述对抽取的至少一帧图像进行图像识别处理，包括：

将抽取的所述至少一帧图像通过训练后的模型进行图像识别处理。

4.根据权利要求3所述的方法，其特征在于，所述将抽取的至少一帧图像通过训练后的模型进行图像识别处理，包括：

确定所述抽取的所述至少一帧图像中各个图像分别对应的第一颜色信息；

将所述抽取的所述至少一帧图像中各个图像分别对应的第一颜色信息通过训练后的模型进行图像识别处理。

5.根据权利要求3或4所述的方法，其特征在于，所述通过训练后的模型进行图像识别处理，包括：

通过至少一个训练后的神经网络模型进行图像识别处理。

6.根据权利要求5所述的方法，其特征在于，所述通过至少一个训练后的神经网络模型进行图像识别处理，包括以下至少一项：

通过卷积神经网络CNN进行图像识别处理；

通过以下任一神经网络进行图像识别处理：

长短时记忆网络LSTM；

门框循环单元网络GRU。

7.根据权利要求6所述的方法，其特征在于，更包括：

将所述抽取的至少一帧图像中各个图像分别对应的第一颜色信息通过卷积神经网络进行图像特征提取处理，得到所述至少一帧图像中各个图像分别对应的多维矩阵；

将所述至少一帧图像中各个图像分别对应的多维矩阵通过所述长短时记忆网络以及门框循环单元网络中的任一神经网络进行图像识别处理，得到所述至少一帧图像中各个图像分别对应的识别结果。

8.根据权利要求3所述的方法，其特征在于，所述通过训练后的模型对抽取的至少一帧图像进行图像识别处理，之前还包括：

所述训练样本包括：多个携带标注信息且满足所述预设条件的图像。

9.根据权利要求8所述的方法，其特征在于，所述基于获取到的训练样本对预设模型进行训练，包括：

基于所述各个携带标注信息且满足预设条件的图像，确定各个图像分别对应的第一颜色信息；

基于所述各个图像分别对应的第一颜色信息对预设模型进行训练。

10.根据权利要求9所述的方法，其特征在于，基于任一携带标注信息且满足预设条件的图像，确定任一图像对应的第一颜色信息，包括：

从所述任一携带标注信息且满足预设条件的图像中提取各个像素分别对应的第二颜色信息；

基于所述各个像素分别对应的第二颜色信息，确定所述任一图像对应的第一颜色信息。

11.根据权利要求1所述的方法，其特征在于，所述预设条件包括：

图像质量参数值小于预设阈值。

12.一种图像识别装置，其特征在于，包括：

抽取模块，用于每隔预设时间从获取的视频流中抽取至少一帧图像；

图像识别处理模块，用于对抽取的所述至少一帧图像进行图像识别处理；

确定模块，用于基于识别处理结果确定所述至少一帧图像中是否存在满足预设条件的图像。

13.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～11任一项所述的图像识别方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1～11任一所述的图像识别方法。