CN115690615A

CN115690615A - 一种面向视频流的深度学习目标识别方法及***

Info

Publication number: CN115690615A
Application number: CN202211243031.0A
Authority: CN
Inventors: 胡涛; 姜峰; 罗灵鲲; 王伟长; 张宏飞; 魏春燕
Original assignee: Hangzhou View Zhihang Technology Co ltd
Current assignee: Hangzhou View Zhihang Technology Co ltd
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2023-02-03
Anticipated expiration: 2042-10-11
Also published as: CN115690615B

Abstract

本发明涉及无人机目标识别技术领域，揭露了一种面向视频流的深度学习目标识别方法及***。所述方法包括以下步骤：仿真待识别任务中识别对象的模拟图像，计算模拟图像与识别对象之间的置信度，以对无人机采集的视频流进行图像分帧，得到分帧图像，结合模拟图像去除分帧图像中的背景区域，以获取分帧图像中前景区域图像和三元区域图像；分别对前景区域图像和三元区域图像进行图像分类，得到识别结果。本发明可以提高无人机对侦测的视频目标识别的准确性。

Description

一种面向视频流的深度学习目标识别方法及***

技术领域

本发明涉及无人机目标识别技术领域，尤其涉及一种面向视频流的深度学习目标识别方法及***。

背景技术

无人机在执行任务时，需要利用机载相机采集视频流，通过侦测的视频去发现建筑、人员、车辆等特定或者可疑的侦测目标。例如，对于无人机侦测的视频中的目标识别是指对无人机采集的视频中的任务或者特定的事物进行目标识别的过程，通过对无人机的机载相机拍摄的视频流进行目标识别可以侦测出目标对象。

目前无人机的视频目标识别通常是基于对视频流进行数据压缩、提高画质等预处理操作，然后将视频流与待识别目标进行特征匹配，得到识别结果，但是在实际业务场景中，视频流所涉及的画面数量较多且复杂，采用特征匹配的方法会产生多个相似度较高的识别目标，进而导致无人机无法准确判断出与待识别目标对应的需求目标，从而会使得视频目标识别的准确性较低。

发明内容

本发明提供一种面向视频流的深度学习目标识别方法及***，其主要目的在于提高视频目标识别的准确性。

为实现上述目的，本发明提供的一种面向视频流的深度学习目标识别方法，包括：

获取待识别任务及其对应的视频流，解析所述待识别任务中的识别对象，并提取所述识别对象的对象属性，根据所述对象属性，仿真所述识别对象对应的模拟图像，并计算所述模拟图像与所述识别对象之间的置信度；

在所述置信度大于预设阈值时，对所述视频流进行图像分帧，得到分帧图像，结合所述模拟图像采用预设的背景分离算法去除所述分帧图像中的背景区域，以得到所述分帧图像中的前景区域图像和三元区域图像；

分别对所述前景区域图像和所述三元区域图像进行图像分类，得到前景图像类别和三元图像类别；

根据所述模拟图像和所述前景图像类别，对所述前景区域图像进行筛选处理，得到目标前景图像，及根据所述模拟图像和所述三元图像类别，对所述三元区域图像进行筛选处理，得到目标三元图像；

计算所述目标前景图像和所述模拟图像的第一关联度，及计算所述目标三元图像和所述模拟图像的第二关联度，并根据所述第一关联度和所述第二关联度，计算所述分帧图像和所述模拟图像的最终关联度；

根据所述最终关联度，从所述视频流中定位所述识别对象的位置序列，得到所述识别对象的识别结果。

可选地，所述解析所述待识别任务中的识别对象，包括：

获取所述待识别任务对应的文本信息；

提取所述文本信息的词语，得到词语文本；

计算所述词语文本在所述文本信息中的贡献度；

结合预设的条件和所述贡献度，对所述词语文本进行筛选，得到筛选词语；

对所述筛选词语进行语义分析，得到词语语义；

根据所述词语语义，得到所述待识别任务的识别对象。

可选地，所述计算所述模拟图像与所述识别对象之间的置信度，包括：

利用下述公式计算所述模拟图像与所述识别对象之间的置信度：

通过该公式可以计算出所述模拟图像与所述识别对象之间的置信度，相对于传统的公式计算精度更高，其中，其中，Y表示模拟图像与识别对象之间的置信度，a表示模拟图像中的起始图像因素，x表示模拟图像中的终止图像因素，m！表示第m个图像因素对应的特征向量值，U表示识别对象，U^m表示第m个识别对象对应的置信系数，y表示模拟图像在识别对象中的占比值。

可选地，所述对所述视频流进行图像分帧，得到分帧图像，包括：

根获取所述视频流的视频序列，所述视频序列包括帧率和分辨率；

根据所述分辨率，对所述视频流进行画质优化，得到优化视频流；

对所述优化视频进行干扰去除，得到目标视频流；

根据所述帧率，对所述目标视频流进行分帧处理，得到分帧图像。

可选地，所述结合所述模拟图像采用预设的背景分离算法去除所述分帧图像中的背景区域，以得到所述分帧图像中的前景区域图像和三元区域图像，包括：

利用预设的电磁波频谱获取所述分帧图像对应的灰度图像；

提取所述灰度图像中每个像素点对应的像素值；

根据所述像素值，识别所述分帧图像中的背景区域；

利用所述预设的背景分离算法对所述背景区域进行去除，得到所述分帧图像的目标图像，所述目标图像包括前景区域图像和三元区域图像。

可选地，所述分别对所述前景区域图像和所述三元区域图像进行图像分类，得到前景图像类别和三元图像类别，包括：

利用预设训练好的分类模型中的卷积层对所述前景区域图像和所述三元区域图像进行特征提取，得到前景区域特征和三元区域特征；

利用所述分类模型中的全连接层分别构建所述前景区域特征和所述三元区域特征的特征矩阵，得到第一矩阵和第二矩阵；

利用所述分类模型中的输出函数分别计算所述第一矩阵和所述第二矩阵的全局特征，得到第一全局特征和第二全局特征；

分别计算所述第一全局特征和所述第二全局特征与预设的特征-类别映射表中类别特征的匹配值；

在所述匹配值大于预设匹配值时，将所述类别特征对应的特征类别作为所述第一全局特征和所述第二全局特征对应的图像类别，得到前景图像类别和三元图像类别。

可选地，计算所述目标前景图像和所述模拟图像的第一关联度，包括：

可以通过下述公式计算所述目标前景图像和所述模拟图像的第一关联度：

其中，G_i表示第一关联度，T表示目标前景图像对应的数量，i表示目标前景图像对应的起始图像，P_x表示目标前景图像对应的特征元素，P_z表示模拟图像对应的特征元素，limP_x表示目标前景图像中特征元素对应的极限值，limP_z表示模拟图像中特征元素对应的极限值，max()表示求最大值函数，min() 表示求最小值函数，ω表示目标前景图像对应的关联系数。

为了解决上述问题，本发明还提供一种面向视频流的深度学习目标识别***，所述***包括：

置信度计算模块，用于获取待识别任务及其对应的视频流，解析所述待识别任务中的识别对象，并提取所述识别对象的对象属性，根据所述对象属性，仿真所述识别对象对应的模拟图像，并计算所述模拟图像与所述识别对象之间的置信度；

背景分离模块，用于在所述置信度大于预设阈值时，对所述视频流进行图像分帧，得到分帧图像，结合所述模拟图像采用预设的背景分离算法去除所述分帧图像中的背景区域，以得到所述分帧图像中的前景区域图像和三元区域图像；

图像分类模块，用于分别对所述前景区域图像和所述三元区域图像进行图像分类，得到前景图像类别和三元图像类别；

图像筛选模块，用于根据所述模拟图像和所述前景图像类别，对所述前景区域图像进行筛选处理，得到目标前景图像，及根据所述模拟图像和所述三元图像类别，对所述三元区域图像进行筛选处理，得到目标三元图像；

关联度计算模块，用于计算所述目标前景图像和所述模拟图像的第一关联度，及计算所述目标三元图像和所述模拟图像的第二关联度，并根据所述第一关联度和所述第二关联度，计算所述分帧图像和所述模拟图像的最终关联度；

序列定位模块，用于根据所述最终关联度，从所述视频流中定位所述识别对象的位置序列，得到所述识别对象的识别结果。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的面向视频流的深度学习目标识别方法。

为了解决上述问题，本发明还提供一种存储介质，所述存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的面向视频流的深度学习目标识别方法。

本发明首先通过仿真待识别任务中识别对象的模拟图像，计算模拟图像与识别对象之间的置信度，以对视频流进行图像分帧，得到分帧图像，可以了解所述模拟对象与所述识别对象之间的可靠程度，保障后续图像目标识别的前提，其次，本发明实施例通过结合模拟图像去除分帧图像中的背景区域，以获取分帧图像中前景区域图像和三元区域图像了解所述分帧图像中包含的主体事物，进而便于后续对所述前景区域图像进行分类；分别对前景区域图像和三元区域图像进行图像分类，以对前景区域图像和三元区域图像进行筛选处理，得到目标前景图像和目标三元图像，降低了所述前景区域图像和所述三元区域图像的数量，提高了图像的识别效率；分别计算目标前景图像和目标三元图像与模拟图像的第一关联度和第二关联度，通过所述第一关联度和所述第二关联度可以了解所述目标前景图像以及所述目标三元图像分别与所述模拟图像的关联程度，以计算分帧图像和模拟图像的最终关联度，根据最终关联度，从视频流中定位识别对象的位置序列，得到识别结果，通过最终关联度可以了解所述分帧图像和所述模拟图像之间的联系程度，进而便于从所述分帧图像中筛选出符合所述模拟图像的图像，保障视频目标识别的准确性。因此，本发明实施例提供的一种面向视频流的深度学习目标识别方法，能够提高面向视频流的目标识别准确性。

附图说明

图1为本发明一实施例提供的面向视频流的深度学习目标识别方法的流程示意图；

图2为本发明一实施例提供的面向视频流的深度学习目标识别***的功能模块图；

图3为本发明一实施例提供的实现所述面向视频流的深度学习目标识别方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种面向视频流的深度学***台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参照图1所示，为本发明一实施例提供的面向视频流的深度学习目标识别方法的流程示意图。在本实施例中，所述面向视频流的深度学习目标识别方法，应用于无人机上，其包括步骤S1—S6：

S1、获取待识别任务及其对应的视频流，解析所述待识别任务中的识别对象，并提取所述识别对象的对象属性，根据所述对象属性，仿真所述识别对象对应的模拟图像，并计算所述模拟图像与所述识别对象之间的置信度。

本发明通过获取待识别任务及其对应的视频流，解析所述待识别任务中的识别对象，并提取所述识别对象的对象属性，通过解析所述待识别任务中的识别对象，可以了解所述待识别任务的识别目标，通过提取所述识别对象的对象属性，可以了解所述识别目标的相关性质。

其中，所述待识别任务是需要识别的工作内容，如识别某个位置出现的建筑物或车辆等，所述视频流是通过机载相机拍摄的某一时间段内的视频数据，所述识别对象是所述待识别任务需要识别的对象，所述对象属性是所述识别目标对应的属性性质，进一步的，所述待识别任务可以通过人工手动设置获取，或者根据计算机进行自动检测获取，所述视频流可以通过相应的储存器进行下载获取，所述识别对象的对象属性提取可以通过属性提取器实现，所述属性提取器是由脚本语言编译。

作为本发明的一个实施例，所述解析所述待识别任务中的识别对象，包括：获取所述待识别任务对应的文本信息，提取所述文本信息的词语，得到词语文本，计算所述词语文本在所述文本信息中的贡献度，结合预设的条件和所述贡献度，对所述词语文本进行筛选，得到筛选词语，对所述筛选词语进行语义分析，得到词语语义，根据所述词语语义，得到所述待识别任务的识别对象。

其中，所述文本信息是所述待识别任务对应的文本内容，所述贡献度是所述词语文本在所述文本信息中所占的重要比例，所述预设的条件是具有特征属性的名词，所述筛选词语是所述词语文本经过所述预设的条件和所述贡献度筛选后得到的词语，所述词语语义是所述词汇信息对应的含义。

进一步的，所述文本信息的词语可以通过ik分词器提取，所述词语文本在所述文本信息中的贡献度可以通过计算所述词语文本在所述文本信息中所占的比重得到，可以通过筛选函数对所述词语文本进行筛选，所述筛选函数如subset函数，可以通过语义分析算法对所述筛选词语进行语义分析。

本发明通过根据所述对象属性，仿真所述识别对象对应的模拟图像，并计算所述模拟图像与所述识别对象之间的置信度，可以将所述对象属性从抽象维度转换成具体维度，计算所述模拟图像与所述识别对象之间的置信度，可以了解所述模拟对象与所述识别对象之间的可靠程度，为后续目标识别提供了保障前提，其中，所述模拟图像是所述识别对象对应的图像表达形式，所述置信度是所述模拟图像与所述识别对象的可靠程度，进一步的，可以通过仿真模拟器实现所述识别对象对应的模拟图像的仿真。

作为本发明的一个实施例，所述计算所述模拟图像与所述识别对象之间的置信度可以通过下述公式计算：

通过该公式可以计算出所述模拟图像与所述识别对象之间的置信度，相对于传统的公式计算精度更高，其中，Y表示模拟图像与识别对象之间的置信度，a表示模拟图像中的起始图像因素，x表示模拟图像中的终止图像因素， m！表示第m个图像因素对应的特征向量值，y^m表示第m个图像因素对应的置信系数，(1-y)^x-m表示图像因素的计算精确度。

S2、在所述置信度大于预设阈值时，对所述视频流进行图像分帧，得到分帧图像，结合所述模拟图像采用预设的背景分离算法去除所述分帧图像中的背景区域，以得到所述分帧图像中的前景区域图像和三元区域图像。

应当了解的是，在所述置信度大于预设阈值时，则所述模拟图像贴合所述识别对象，本发明通过对所述视频流进行图像分帧，得到分帧图像，可以将所述视频流转化成多个帧图片，降低了后续的处理难度，同时作为后续去除背景区域的前提，其中，所述预设阈值可以是0.8，也可以根据实际的业务场景进行设置，所述分帧图像是所述监控流按照一定的频率分帧后得到图像。

作为本发明的一个实施例，所述对所述视频流进行图像分帧，得到分帧图像，包括：获取所述视频流的视频序列，所述视频序列包括帧率和分辨率，根据所述分辨率，对所述视频流进行画质优化，得到优化视频流，对所述优化视频进行干扰去除，得到目标视频流，根据所述帧率，对所述目标视频流进行分帧处理，得到分帧图像。

其中，所述优化视频流是所述视频流中的画质经过增强后得到的视频，所述目标视频流是所述优化视频流经过去除光照和噪声等干扰因素后得到的视频，进一步的，所述视频流的视频序列可以通过序列工具获取，所述序列工具是由Java语言编译，所述视频流的画质优化可以通过视频转换器对所述视频流进行转码实现，可以通过干扰抑制器对所述优化视频进行干扰去除，可以通过分帧工具对所述目标视频流进行分帧处理，所述分帧工具包括PR工具。

本发明通过结合所述模拟图像采用预设的背景分离算法去除所述分帧图像中的背景区域，以得到所述分帧图像中的前景区域图像和三元区域图像，可以了解所述分帧图像中包含的主体事物，进而便于后续对所述前景区域图像进行分类，其中，所述前景区域图像是所述分帧图像中的背景区域经过去除后得到的，所述三元区域图像是所述前景区域图像中与所述背景区域交接的图像。

作为本发明的一个实施例，所述结合所述模拟图像采用预设的背景分离算法去除所述分帧图像中的背景区域，以得到所述分帧图像中的前景区域图像和三元区域图像，包括：利用预设的电磁波频谱获取所述分帧图像对应的灰度图像，提取所述灰度图像中每个像素点对应的像素值，根据所述像素值，识别所述分帧图像中的背景区域，利用所述预设的背景分离算法对所述背景区域进行去除，得到所述分帧图像的目标图像，所述目标图像包括前景区域图像和三元区域图像。

其中，所述电磁波频谱是利用紫外线和红外线以及伽马射线等得到所述分帧图像对应的灰度图像，所述像素值是所述灰度图像中每个像素点对应的数值，所述像素值的取值范围在0～255间，每一个等级对应不同的亮度，所述背景区域是所述分帧图像中的背景部分图像，进一步的，所述像素值可以通过测量所述灰度图像的亮度大小得到，所述预设的背景分离算法包括光流法和背景减方法。

进一步的，作为本发明的一个可选实施例，所述识别所述分帧图像中的背景区域可以通过下述公式识别：

其中，T(e|γ)表示分帧图像中的背景区域，i表示分帧图像的起始像素值， M表示分帧图像的终止像素值，G_i表示第i个像素值对应的混合权重值，U_i(e) 表示第i个像素值的像素密度值。

S3、分别对所述前景区域图像和所述三元区域图像进行图像分类，得到前景图像类别和三元图像类别。

本发明通过分别对所述前景区域图像和所述三元区域图像进行图像分类，得到前景图像类别和三元图像类别，通过前景图像类别和三元图像类别可以便于后续根据类别进行筛选，降低了所述前景区域图像和所述三元区域图像的数量，提高了图像的识别效率。

其中，所述图像分类模型是用于对图像进行分类的模型，可以准确的得到识别图像的类别，所述前景图像类别是所述前景区域图像对应的种类，所述三元图像类别是所述三元区域图像对应的类别。

作为本发明的一个实施例，所述分别对所述前景区域图像和所述三元区域图像进行图像分类，得到前景图像类别和三元图像类别，例如，通过深度学习得到上述图像类别，其具体包括：利用预设训练好的分类模型中的卷积层对所述前景区域图像和所述三元区域图像进行特征提取，得到前景区域特征和三元区域特征，利用所述分类模型中的全连接层分别构建所述前景区域特征和所述三元区域特征的特征矩阵，得到第一矩阵和第二矩阵，利用所述分类模型中的输出函数分别计算所述第一矩阵和所述第二矩阵的全局特征，得到第一全局特征和第二全局特征，分别计算所述第一全局特征和所述第二全局特征与预设的特征-类别映射表中类别特征的匹配值，在所述匹配值大于预设匹配值时，将所述类别特征对应的特征类别作为所述第一全局特征和所述第二全局特征对应的图像类别，得到前景图像类别和三元图像类别。

其中，所述卷积层是对所述前景区域图像和所述三元区域图像进行特征提取，是由多个卷积神经组成，所述前景区域特征是所述前景区域图像的重要组成部分，所述三元区域特征是所述三元区域图像的重要组成部分，所述第一矩阵是所述前景区域特征组成的特征矩阵，所述第二矩阵是所述三元区域特征组成的特征矩阵，所述第一全局特征是所述第一矩阵的平均特征，所述第二全局特征是所述第二矩阵的平均特征，所述预设的特征-类别映射表是特征值与对应的类别关系对照表，所述匹配值是所述第一全局特征和所述第二全局特征分别所述特征-类别映射表匹配程度，所述预设匹配值可以是0.8，也可以根据实际的业务场景进行设置。

进一步的，可以通过特征提取算法对所述前景区域图像和所述三元区域图像进行特征提取，所述特征提取算法包括LBP特征算法，所述第一矩阵和所述第二矩阵的对应的特征值可以通过Average函数计算，所述输出函数包括 Softmax函数，可以通过相似度匹配算法对所述第一特征值和所述第二特征值与预设的特征类别映射表进行匹配。

进一步的，作为本发明的一个可选实施例，所述构建所述前景区域特征的特征矩阵，包括：

可以利用下述公式构建所述前景区域特征的特征矩阵：

其中，Z表示特征矩阵，a表示前景区域特征的数量，e表示矩阵参数，f表示前景区域特征对应的因素变量，D表示所述前景区域特征对应的矩阵半径。

S4、根据所述模拟图像和所述前景图像类别，对所述前景区域图像进行筛选处理，得到目标前景图像，及根据所述模拟图像和所述三元图像类别，对所述三元区域图像进行筛选处理，得到目标三元图像。

本发明通过根据所述模拟图像和所述前景图像类别，对所述前景区域图像进行筛选处理，得到目标前景图像，可以将所述前景区域图像中与所述模拟图像不相关的图像筛选过滤掉，为后续的计算所述目标前景与所述模拟图像的关联度提供了便利性。

其中，所述目标前景图像是所述前景区域图像经过筛选过后得到图像，且与所述模拟图像具有一定的关联，进一步的，可以通过MATCH函数对所述前景区域图像进行筛选处理。

本发明通过根据所述模拟图像和所述三元图像类别，对所述三元区域图像进行筛选处理，得到目标三元图像，可以对所述三元区域图像进行筛选，得到与所述模拟图像具有一定关联的图像，将无用的所述三元区域图像过滤掉，为后续计算所述目标三元图像与所述模拟图像的关联度提供了保障，其中，所述目标三元图像是所述三元区域图像经过筛选后得到的图像，且与所述模拟图像具有关联性，进一步的，所述三元区域图像的筛选处理可以通过上述的MATCH函数实现。

S5、计算所述目标前景图像和所述模拟图像的第一关联度，及计算所述目标三元图像和所述模拟图像的第二关联度，并根据所述第一关联度和所述第二关联度，计算所述分帧图像和所述模拟图像的最终关联度。

本发明通过计算所述目标前景图像和所述模拟图像的第一关联度，及计算所述目标三元图像和所述模拟图像的第二关联度，通过所述第一关联度和所述第二关联度可以了解所述目标前景图像以及所述目标三元图像分别与所述模拟图像的关联程度。

其中，所述第一关联度是所述目标前景图像和所述模拟图像之间的联系程度，所述第二关联度是所述目标三元图像和所述模拟图像之间的联系程度。

作为本发明的一个实施例，所述计算所述目标前景图像和所述模拟图像的第一关联度，包括：

进一步的，计算所述目标三元图像和所述模拟图像的第二关联度与计算所述第一关联度原理相同，具体参考上述公式，在此不做过多赘述。

本发明通过根据所述第一关联度和所述第二关联度，计算所述分帧图像和所述模拟图像的最终关联度，通过最终关联度可以了解所述分帧图像和所述模拟图像之间的联系程度，进而便于从所述分帧图像中筛选出符合所述模拟图像的图像，进一步的，所述最终关联度的计算可以通过计算所述第一关联度和所述第二关联度的和值得到。

S6、根据所述最终关联度，从所述视频流中定位所述识别对象的位置序列，得到所述识别对象的识别结果。

本发明通过根据所述最终关联度，从所述视频流中定位所述识别对象的位置序列，得到所述识别对象的识别结果，进而提高对视频流的目标识别效率，其中，所述位置序列是所述识别对象在所述视频流中所处的位置，进一步的，定位所述识别对象的位置序列可以通过find函数实现。

如图2所示，是本发明一实施例提供的面向视频流的深度学习目标识别***的功能模块图。

本发明所述面向视频流的深度学习目标识别***可以安装于电子设备中，例如，可以为一种面向视频流的目标智能识别装置100。根据实现的功能，所述面向视频流的目标智能识别装置100可以包括置信度计算模块101、背景分离模块102、图像分类模块103、图像筛选模块104、关联度计算模块105以及序列定位模块106。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述置信度计算模块101，用于获取待识别任务及其对应的视频流，解析所述待识别任务中的识别对象，并提取所述识别对象的对象属性，根据所述对象属性，仿真所述识别对象对应的模拟图像，并计算所述模拟图像与所述识别对象之间的置信度；

所述背景分离模块102，用于在所述置信度大于预设阈值时，对所述视频流进行图像分帧，得到分帧图像，结合所述模拟图像采用预设的背景分离算法去除所述分帧图像中的背景区域，以得到所述分帧图像中的前景区域图像和三元区域图像；

所述图像分类模块103，用于分别对所述前景区域图像和所述三元区域图像进行图像分类，得到前景图像类别和三元图像类别；

所述图像筛选模块104，用于根据所述模拟图像和所述前景图像类别，对所述前景区域图像进行筛选处理，得到目标前景图像，及根据所述模拟图像和所述三元图像类别，对所述三元区域图像进行筛选处理，得到目标三元图像；

所述关联度计算模块105，用于计算所述目标前景图像和所述模拟图像的第一关联度，及计算所述目标三元图像和所述模拟图像的第二关联度，并根据所述第一关联度和所述第二关联度，计算所述分帧图像和所述模拟图像的最终关联度；

所述序列定位模块106，用于根据所述最终关联度，从所述视频流中定位所述识别对象的位置序列，得到所述识别对象的识别结果。

详细地，本申请实施例中所述面向视频流的目标智能识别装置100中所述的各模块在使用时采用与上述图1中所述的面向视频流的深度学习目标识别方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图3所示，是本发明一实施例提供的实现面向视频流的深度学习目标识别方法的电子设备1的结构示意图。

所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如面向视频流的深度学习目标识别方法程序。

其中，所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing Unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备1的控制核心(ControlUnit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如执行面向视频流的深度学习目标识别方法程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备的各种功能和处理数据。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据，例如面向视频流的深度学习目标识别方法程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

所述通信接口13用于上述电子设备1与其他设备之间的通信，包括网络接口和用户接口。可选地，所述网络接口可以包括有线接口和/或无线接口(如 WI-FI接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘 (Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3 示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源 (比如电池)，优选地，电源可以通过电源管理***与所述至少一个处理器10 逻辑相连，从而通过电源管理***实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的面向视频流的深度学习目标识别方法程序是多个指令的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。所述存储介质可以是易失性的，也可以是非易失性的。例如，所述介质可以包括：能够携带所述计算机程序代码的任何实体或***、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)。

本发明还提供一种存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，***和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或***也可以由一个单元或***通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种面向视频流的深度学习目标识别方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的面向视频流的深度学习目标识别方法，其特征在于，所述解析所述待识别任务中的识别对象，包括：

获取所述待识别任务对应的文本信息；

提取所述文本信息的词语，得到词语文本；

计算所述词语文本在所述文本信息中的贡献度；

对所述筛选词语进行语义分析，得到词语语义；

根据所述词语语义，得到所述待识别任务的识别对象。

3.如权利要求1所述的面向视频流的深度学习目标识别方法，其特征在于，所述计算所述模拟图像与所述识别对象之间的置信度，包括：

其中，Y表示模拟图像与识别对象之间的置信度，a表示模拟图像中的起始图像因素，x表示模拟图像中的终止图像因素，m！表示第m个图像因素对应的特征向量值，U表示识别对象，U^m表示第m个识别对象对应的置信系数，y表示模拟图像在识别对象中的占比值。

4.如权利要求1所述的面向视频流的深度学习目标识别方法，其特征在于，所述对所述视频流进行图像分帧，得到分帧图像，包括：

获取所述视频流的视频序列，所述视频序列包括帧率和分辨率；

对所述优化视频进行干扰去除，得到目标视频流；

5.如权利要求1所述的面向视频流的深度学习目标识别方法，其特征在于，所述结合所述模拟图像采用预设的背景分离算法去除所述分帧图像中的背景区域，以得到所述分帧图像中的前景区域图像和三元区域图像，包括：

利用预设的电磁波频谱获取所述分帧图像对应的灰度图像；

提取所述灰度图像中每个像素点对应的像素值；

根据所述像素值，利用下述公式识别所述分帧图像中的背景区域：

其中，T(e|γ)表示分帧图像中的背景区域，i表示分帧图像的起始像素值，M表示分帧图像的终止像素值，G_i表示第i个像素值对应的混合权重值，U_i(e)表示第i个像素值的像素密度值；

利用所述预设的背景分离算法对所述背景区域进行去除，得到所述分帧图像的前景区域图像和三元区域图像。

6.如权利要求1所述的面向视频流的深度学习目标识别方法，其特征在于，所述分别对所述前景区域图像和所述三元区域图像进行图像分类，得到前景图像类别和三元图像类别，包括：

利用预设训练好的分类模型中的卷积层分别对所述前景区域图像和所述三元区域图像进行特征提取，得到前景区域特征和三元区域特征；

7.如权利要求1所述的面向视频流的深度学习目标识别方法，其特征在于，计算所述目标前景图像和所述模拟图像的第一关联度，包括：

其中，G_i表示第一关联度，T表示目标前景图像对应的数量，i表示目标前景图像对应的起始图像，P_x表示目标前景图像对应的特征元素，P_z表示模拟图像对应的特征元素，lim P_x表示目标前景图像中特征元素对应的极限值，lim P_z表示模拟图像中特征元素对应的极限值，max()表示求最大值函数，min()表示求最小值函数，ω表示目标前景图像对应的关联系数。

8.一种面向视频流的深度学习目标识别***，其特征在于，所述***包括：