CN114926766A

CN114926766A - 识别方法及装置、设备、计算机可读存储介质

Info

Publication number: CN114926766A
Application number: CN202210569816.0A
Authority: CN
Inventors: 杜松显; 卢江涛; 唐伟; 王家奇; 林锦河; 王静
Original assignee: Hangzhou Yele Technology Co ltd
Current assignee: Hangzhou Yele Technology Co ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-08-19

Abstract

本申请的实施例揭示了一种识别方法及装置、设备、计算机可读存储介质。方法包括：提取视频流中的待识别图像帧；将待识别图像帧输入至训练好的识别模型，得到识别模型输出的目标对象的信息和目标场景信息；识别模型包括用于识别提取待识别图像帧的图像特征的图像特征提取网络，用于输出图像帧中对象的检测信息的检测任务分支，用于输出图像帧中像素点的语义信息的语义分割任务分支，以及输出图像帧中的场景类型信息的分类任务分支，根据检测信息和语义信息确定出目标对象的信息，根据场景类型信息和语义信息确定出目标场景信息。同时针对同一图像特征进行多任务处理，节省了数据处理时间，任务分支输出的结果相互参考，使输出的信息更加精确。

Description

识别方法及装置、设备、计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种识别方法及装置、设备、计算机可读存储介质。

背景技术

视频流由连续的多个图像帧组成，现有技术通过对图像帧进行特征提取，得到图像特征，根据提取到的图像特征对图像帧进行识别分析，例如识别图像帧中的目标对象等。

随着图像帧信息需求种类的增多，会增加图像帧信息的总量，从而致使图像帧中图像特征的识别、获取过程的时间增加。特别地，现有技术中不能同时识别图像帧中目标对象和目标场景，无法保证整个识别过程时间不会增加，并且同时进行多任务地识别步骤，无法保证识别结果的准确度。

因此，亟需一种同时识别出图像帧中的目标对象信息和目标场景信息的识别方法，以解决上述问题，在不增加时延的情况下保证识别信息的准确性。

发明内容

为解决上述技术问题，本申请的实施例分别提供了识别方法及装置、设备、计算机可读存储介质，在不增加时延的前提下，同时识别出图像帧中目标对象信息和目标场景信息。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种识别方法，包括：提取视频流中的待识别图像帧；将待识别图像帧输入至训练好的识别模型，得到所述识别模型输出的目标对象的信息和目标场景信息；其中，所述识别模型包括用于识别提取所述待识别图像帧的图像特征的图像特征提取网络，用于输出所述图像帧中对象的检测信息的检测任务分支，用于输出所述图像帧中像素点的语义信息的语义分割任务分支，以及输出所述图像帧中的场景类型信息的分类任务分支，根据所述检测信息和所述语义信息确定出所述目标对象的信息，根据所述场景类型信息和所述语义信息确定出所述目标场景信息。

进一步地，所述识别方法还包括：构建初始识别模型，所述初始识别模型包括图像特征提取网络、所述检测任务分支、所述语义分割任务分支和所述分类任务分支；将待训练的待识别图像帧输入至所述初始识别模型，所述图像特征提取网络对所述待训练的待识别图像帧进行识别并进行特征提取，得到待训练图像特征；所述检测任务分支输出所述待训练图像特征对应图像帧中的对象的第一检测信息，所述语义分割任务分支输出所述待训练图像特征对应图像帧中的像素点的第一语义信息，以及所述分类任务分支输出所述图像特征对应图像帧中的第一场景类型信息；根据所述第一检测信息、所述第一语义信息、所述第一场景信息对所述初始识别模型进行修正，得到所述训练好的识别模型。

进一步地，所述根据所述第一检测信息、所述第一语义信息、所述第一场景信息对所述初始识别模型进行修正，得到所述训练好的识别模型，包括：根据所述第一检测信息和第一标准检测信息确定出检测信息损失函数值；根据所述第一语义信息和第一语义标准信息确定出语义信息损失函数值；据所述第一场景类型信息和第一标准场景类型信息确定出场景类型信息损失函数值；基于所述检测信息损失函数值、所述语义信息损失函数值、所述场景类型信息损失函数值对所述初始识别模型进行修正，得到所述训练好的识别模型。

进一步地，所述基于所述检测信息损失函数值、所述语义信息损失函数值、所述场景类型信息损失函数值对所述初始识别模型进行修正，得到所述训练好的识别模型，包括：基于所述检测信息损失函数值和所述检测任务分支对应的第一动态调制因子计算得到第一反向传播值；基于所述语义信息损失函数值和所述语义分割任务分支对应的第二动态调制因子计算得到第二反向传播值；基于所述场景类型信息损失函数值和所述分类任务分支对应的第三动态调制因子计算得到第三反向传播值；根据所述第一反向传播值、所述第二反向传播值、所述第三反向传播值更新所述初始识别模型中的配置参数，得到所述训练好的识别模型。

进一步地，所述检测信息包括所述图像帧中的检测回归框的位置和预测对象的类别，所述语义信息包括所述图像帧中的所述预测对象对应的像素点数量和位置，以及所述图像帧中像素点对应的语义类型，所述目标对象的信息包括所述目标对象的类别和位置，所述根据所述检测信息和所述语义信息确定出所述目标对象的信息，包括：根据所述检测回归框的位置确定所述检测回归框内的所述预测对象对应的像素点数量；若所述预测对象对应的像素点数量大于所述预测对象的类别所对应的预设类别对象的像素点数量，则确定所述检测回归框的位置为所述目标对象的位置，所述预测对象的类别为所述目标对象的类别。

进一步地，所述语义类型包括：场景类型和对象类型；所述场景类型信息包括所述图像帧中场景类型以及所述场景类型对应的场景概率值，所述根据所述场景类型信息和所述语义信息确定出所述目标场景信息，包括：若所述语义类型中的场景类型与所述场景类型信息中的场景类型相同，则确定所述场景类型信息中的场景类型为所述目标场景的场景类型；若所述语义类型中的场景类型与所述场景类型信息中的场景类型不同，且所述场景类型对应的场景概率值大于预设场景概率阈值，则确定所述场景类型信息中的场景类型为所述目标场景的场景类型；若所述语义类型中的场景类型与所述场景类型信息中的场景类型不同，且所述场景类型对应的场景概率值小于或等于所述预设场景概率阈值，则确定所述图像特征中像素点对应的语义类型中的场景类型为所述目标场景的场景类型。

进一步地，所述提取视频流中的待识别图像帧，包括：获取视频流，所述视频流包括多个图像帧；分别检测每个图像帧中是否存在所述目标对象，并将检测到所述目标对象的图像帧确定为所述待识别图像帧。进一步地，在所述得到所述训练好的识别模型之前，所述方法还包括：对所述初始识别模型进行修正，得到修正后的识别模型；针对所述修正后的识别模型进行INT8边缘计算模块的量化感知训练，得到训练好的识别模型。

进一步地，所述根据所述第一反向传播值、所述第二反向传播值、所述第三反向传播值更新所述初始识别模型中的配置参数，得到所述训练好的识别模型，包括：根据所述第一反向传播值对所述检测任务分支中的参数进行训练，得到训练好的检测任务分支；所述第二反向传播值对所述语义分割任务分支中的参数进行训练，得到训练好的语义分割任务分支；所述第三反向传播值对所述分类任务分支中的参数进行训练，得到训练好的分类任务分支；得到所述训练好的识别模型。

根据本申请实施例的一个方面，提供了一种识别装置，包括：提取模块，被配置为提取待识别图像帧的图像特征；输出模块，被配置为将所述图像特征输入至训练好的识别模型，得到所述识别模型输出的目标对象的信息和目标场景信息；其中，所述识别模型包括用于输出所述图像特征中对象的检测信息的检测任务分支，用于输出所述图像特征中像素点的语义信息的语义分割任务分支，以及输出所述图像特征中的场景类型信息的分类任务分支，根据所述检测信息和所述语义信息确定出所述目标对象的信息，根据所述场景类型信息和所述语义信息确定出所述目标场景信息。

根据本申请实施例的一个方面，提供了一种电子设备，包括：控制器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述控制器执行时，使得所述控制器实现上所述的识别方法。

根据本申请实施例的一个方面，还提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行上述的识别方法。

根据本申请实施例的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的识别方法。

在本申请的实施例所提供的技术方案中，提取待识别图像帧的图像特征，将图像特征输入至训练好的识别模型，得到识别模型输出的目标对象的信息和目标场景信息。识别模型包括三个任务分支，用于输出图像特征中对象的检测信息的检测任务分支，用于输出图像特征中像素点的语义信息的语义分割任务分支，以及输出图像特征中的场景类型信息的分类任务分支，通过同时针对同一图像特征进行多任务处理，节省了数据处理时间，最后根据检测信息和语义信息确定出目标对象的信息，根据场景类型信息和语义信息确定出目标场景信息，三个任务分支输出的结果相互参考，使得输出的相关信息更加精确。

应理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2是本申请一示例性实施例示出的智能道路识别方法的流程图；

图3是本申请一示例性实施例示出的一种识别方法的流程图；

图4是本申请另一示例性实施例示出的构建识别模型的步骤的流程图；

图5是本申请另一示例性实施例示出的识别模型的结构示意图；

图6是本申请另一示例性实施例示出的基于损失函数对识别模型进行修正的过程的流程图；

图7是本申请另一示例性实施例示出的基于反向传播值对识别模型进行修正的过程的流程图；

图8是本申请另一示例性实施例示出的针对识别模型进行边缘端量化感知训练的示意图；

图9是本申请一示例性实施例示出的识别装置的结构的示意图；

图10是本申请的一示例性实施例示出的电子设备的计算机***的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

首先，请参阅图1，图1是本申请涉及的一种实施环境的示意图。该实施环境包括采集终端100、服务器200，终端终端100和服务器200之间通过有线或者无线网络进行通信。

采集终端100具有采集视频流的功能，能将采集到的视频流传输给服务器200。采集终端100包括但不限于摄像机、照相机、摄影机、手机、车载视频设备等能任意能够实现图片可视化的电子设备，本处不进行限制。

服务器200可提取视频流中待识别图像帧，然后将待识别图像帧输入至训练好的识别模型，使得识别模型输出的目标对象的信息和目标场景信息。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，其中多个服务器可组成一区块链，而服务器为区块链上的节点，服务器200还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器，本处也不对此进行限制。

在某些场景中，采集终端100和服务器200可以置于同一实体装置或设备中，例如，本申请的识别方法用于智能道路识别的场景，采集终端100是道路运行车辆中的车载视频设备，其可采集相关道路的视频流，服务器200则是位于车辆内部，如图2所示，图2是本申请一示例性实施例示出的智能道路识别方法的流程图。图中，提取车载实时视频流中的待识别图像帧，其将待识别图像帧输入至训练好的识别模型，识别模型包括检测任务分支、语义分割任务分支和分类任务分支，模型输出图像帧中目标障碍物信息和道路信息，并根据相关信息控制车辆。其中，目标障碍物的信息包括目标障碍物的位置、大小、类型等，道路信息包括道路类型等信息。车辆运行过程中道路情况变化较快，本申请下述实施例中的识别方法能实时且准确的识别出目标障碍物和道路类型，后续根据识别到的相关信息控制车辆运行参数，例如，当识别到道路上有目标障碍物时，就控制车辆在预设反应时间内或立即停止运行。当时别到道路类型为坡度道路，可自动控制切换车辆的档位等。服务器200执行的识别方法的详细步骤请参考下述实施例中的说明。

请参阅图3，图3是本申请一示例性实施例示出的一种识别方法的流程图，该方法可以由图1所示实施环境中的基站侧的服务器200具体执行。当然，该方法也可以应用于其它实施环境，并由其它实施环境中的服务器设备执行，本实施例不对此进行限制。如图3所示，该方法至少包括S310至S320，详细介绍如下：

S310：提取视频流中的待识别图像帧。

待识别图像帧来源于视频流中，本实施例中的视频流由上述采集终端100采集得到，视频流由多个图像帧组成。

S320：将待识别图像帧图像特征输入至训练好的识别模型，得到识别模型输出的目标对象的信息和目标场景信息；其中，识别模型包括用于识别提取待识别图像帧的图像特征的图像特征提取网络，用于输出图像特征中对象的检测信息的检测任务分支，用于输出图像特征中像素点的语义信息的语义分割任务分支，以及输出图像特征中的场景类型信息的分类任务分支，根据检测信息和语义信息确定出目标对象的信息，根据场景类型信息和语义信息确定出目标场景信息。

图像特征是对待识别图像帧进行识别、特征提取后得到的特征图片或者特征数据等，本实施例不对其具体表征进行限制。

本实施例的目标对象是待识别图像帧中的对象，例如，在车行道路场景中，目标对象可以是道路中的目标障碍物。目标场景信息是待识别图像帧中的场景信息，包括道路类型、道路天气等。

对S320进行示例性说明，在车行道路场景下，将提取到的待识别图像帧输入训练好的识别模型中，识别模型输出待识别图像帧中的目标障碍物的信息和目标道路场景信息，目标障碍物的信息包括：障碍物类型、障碍物大小、障碍物位置等，道路场景信息包括：道路类型、道路天气等。

具体地，本实施例中的模型包括三个任务分支：检测任务分支，语义分割任务分支和分类任务分支，其中，检测任务分支输出图像特征中的障碍物的信息，语义分割任务分支输出图像特征中各个像素点的语义信息，分类任务分支输出图像特征中道路的类型信息，根据障碍物的信息和语义信息确定出目标障碍物的信息，根据道路的类型信息和语义信息确定出目标道路场景信息。

本实施例通过提取视频流中的待识别图像帧，将待识别图像帧输入至训练好的识别模型，得到识别模型输出的目标对象的信息和目标场景信息。识别模型用于识别提取待识别图像帧的图像特征的图像特征提取网络，识别模型还包括三个任务分支，用于输出图像帧中对象的检测信息的检测任务分支，用于输出图像帧中像素点的语义信息的语义分割任务分支，以及输出图像帧中的场景类型信息的分类任务分支，通过同时针对同一图像特征进行多任务处理，节省了数据处理时间，最后根据检测信息和语义信息确定出目标对象的信息，根据场景类型信息和语义信息确定出目标场景信息，三个任务分支输出的结果相互参考，使得输出的相关信息更加精确。

如何对识别模型进行优化，是本领域技术人员持续进行的研究，本申请的识别模型在运用之前进行了相关的训练，请参阅图4，图4是本申请另一示例性实施例示出的构建识别模型的步骤的流程图，基于图3所示的识别方法，至少还包括S410至S430，详细介绍如下：

S410：构建初始识别模型，初始识别模型包括图像特征提取网络、检测任务分支、语义分割任务分支和分类任务分支。

对S410进行示例性说明：构建识别模型中的检测任务分支，语义分割任务分支和所分类任务分支。其中，先构建图像特征提取网络，即特征骨干网络，包括M个block(网络块)，特征骨干网络的每个block的下采样倍率可为1或2，最终特征骨干网络的下采样倍率为8；检测任务分支包括N个检测头，除首个检测头输出分辨率为特征骨干网络分辨率外，其余每个检测头的分别率为所接上一检测头的1/2；语义分割任务分支包括S层简单神经网络；分类任务分支包括L层简单神经网络；M、N、S和L均为整数。同时，建立轮询机制的训练方式，单步训练时只喂入识别模型中单一任务分支的训练数据，交替训练三个任务分支并更新每个任务分支所需参数。

具体地，如图5所示，图5是本申请另一示例性实施例示出的识别模型的结构示意图。单个特征网络骨干的block构造包括：第一层卷积层、6层特征层和一层融合层。第一卷积层步幅为1或2，通道数为c，内核尺寸为3*3；特征层为3层普通卷积层和3层膨胀卷积层，通道数为1/2c,膨胀尺度为d，内核尺寸为3*3；融合层的内核尺寸为1*1，通道数为c，c、d为正整数。

进一步地，语义分割任务分支为S层简单卷积神经网络，网络最后一层采用双线性插值上采样为和输入分辨率相同；分类任务分支为L层简单卷积神经网络，最后一层为k个通道并通过一个全局池化为k个神经元，k为分类的类别总数；检测分支由多个尺度不一的检测头构成，通过类似yolo的后处理完成锚点框回归。其中，S、L、K为整数。

S420：将待训练的待识别图像帧输入至初始识别模型，图像特征提取网络对待训练的待识别图像帧进行识别并进行特征提取，得到待训练图像特征；检测任务分支输出待训练图像特征对应图像帧中的对象的第一检测信息，语义分割任务分支输出待训练图像特征对应图像帧中的像素点的第一语义信息，以及分类任务分支输出图像特征对应图像帧中的第一场景类型信息。

示例性地，待训练的待识别图像帧输入初始识别模型后，图像特征提取网络会提取其图像特征，对应的任务分支会输出该待训练图像特征对应的图像帧中的相关信息，后续可根据各自对应的信息对任务分支的参数进行修正。

S430：根据第一检测信息、第一语义信息、第一场景信息对初始识别模型进行修正，得到训练好的识别模型。

对S430进行示例性说明，根据第一检测信息对检测任务分支进行修正，根据第一语义信息对语义分割任务分支进行修正，根据第一场景信息对分类任务分支进行修正，从而得到训练好的识别模型。

本实施例进一步限定了构建初始识别模型的步骤，并通过对初始模型中各个任务分支进行训练，以得到训练好的识别模型。其中，同时将待训练的待识别图像帧输入特想特征提取网络，并将提取得到图像特征输入三个任务分支，得到对应的信息，并根据对应的信息分别对各自任务分支进行训练，使得训练过程更加精细，且最终提高了识别模型的精确度。

进一步地，本申请另一示例性实施例提供了针对识别模型的具体修正方式，具体请参阅图6，图6是本申请另一示例性实施例示出的基于损失函数对识别模型进行修正的过程的流程图。其中，基于上述S430，至少还包括S610至S620，详细介绍如下：

S610：根据第一检测信息和第一标准检测信息确定出检测信息损失函数值；根据第一语义信息和第一语义标准信息确定出语义信息损失函数值；据第一场景类型信息和第一标准场景类型信息确定出场景类型信息损失函数值。

每个任务分支都有一个对应的标准信息值，第一检测信息、第一语义信息、第一场景类型信息分别与各自对应的标准信息值进行对比，得到各自的损失函数值。

S620：基于检测信息损失函数值、语义信息损失函数值、场景类型信息损失函数值对初始识别模型进行修正，得到训练好的识别模型。

根据对应的损失函数值对相应的任务分支的参数进行修正，达到对初始识别模型修正的目的，从而得到训练好的识别模型。

本实施例限定了根据个任务分支的损失函数值对初始识别模型进行修正，从而得到训练好的识别模型，使得训练好的识别模型的精确度更高。

为了使得识别模型修正更具理论科学性，本申请另一示例性实施例引入了反向传播值，从而辅助修正识别模型，具体请参阅图7，图7是本申请另一示例性实施例示出的基于反向传播值对识别模型进行修正的过程的流程图。其中，基于上述S620，至少还包括S710至S740，详细介绍如下：

S710：基于检测信息损失函数值和检测任务分支对应的第一动态调制因子计算得到第一反向传播值。

S720：基于语义信息损失函数值和语义分割任务分支对应的第二动态调制因子计算得到第二反向传播值。

S730：基于场景类型信息损失函数值和分类任务分支对应的第三动态调制因子计算得到第三反向传播值。

本实施例根据各个任务分支对应的动态调制因子和损失函数值计算方向传播的值，通过反向传播机制更新所涉及识别模型中的所有神经网络参数，推理时利用训练得到的神经网络参数可同时进行三个任务的检测。

特别地，动态调制因子与损失函数值的关系为Lbi＝1/Lsi*Lci，其中，Lbi为第i个任务在多任务网络中反向传播的损失函数值，Lsi为单个任务网络完全收敛后的损失函数值，Lci为该任务当前步数计算得到的损失函数值。

S740：根据第一反向传播值、第二反向传播值、第三反向传播值更新初始识别模型中的配置参数，得到训练好的识别模型。

示例性地，利用各个任务分支对应的反向传播值更新初始模型中的配置参数，得到训练好的识别模型。特别地，如图8所示，图8是本申请另一示例性实施例示出的针对识别模型进行边缘端量化感知训练的示意图。本申请创造性地将板端INT8结果给PC端FP32模型计算损失函数，从而将训练得到的神经网络参数通过后训练量化和训练感知量化，得到能够部署于边缘计算处理器的INT8张量运算模型；利用INT8张量运算模型，边缘计算处理视频流中图像帧信息的同时得到检测信息、语义信息和场景类型信息，根据检测信息和语义分信息确定出目标对象的信息，根据分类信息和语义信息确定出目标场景信息。具体地，将图像特征样本集中的图像特征样本输入INT8张量运算模型，得到预测结果，将预测结果与图像特征样本集中的预设标准值进行比较计算，得到损失函数值，再根据损失函数值得到对应的反向传播值，用以更新参数，得到FP32模型，作为本实施例训练好的识别模型。

本实施例进一步引入了反向传播值对初始识别模型进行参数修正，进一步根据损失函数值确定出对应的反向传播值，最后根据反向传播值对初始识别模型进行参数修正，得到训练好的识别模型，使得识别模型修正过程更具理论科学性，且使得识别模型的精确度更高。

在另一示例性实施例中，根据第一反向传播值、第二反向传播值、第三反向传播值更新初始识别模型中的配置参数，得到训练好的识别模型，包括：根据第一反向传播值对检测任务分支中的参数进行训练，得到训练好的检测任务分支；第二反向传播值对语义分割任务分支中的参数进行训练，得到训练好的语义分割任务分支；第三反向传播值对分类任务分支中的参数进行训练，得到训练好的分类任务分支；得到训练好的识别模型。

本实施例限定了根据反向传播值分别针对对应任务分支中的参数进行训练，多任务参数的同时训练节省了模型优化的时间，并将训练好的各个分类任务分支更新于识别模型中，从而得到训练好的识别模型，训练更加精细化，使得训练好的识别模型的识别精确度更高。

在另一示例性实施例中，进一步限定了如何确定出目标对象的类别，检测信息包括图像帧中的检测回归框的位置和预测对象的类别，语义信息包括图像帧中的预测对象对应的像素点数量和位置，以及图像帧中像素点对应的语义类型，基于S320，该步骤具体包括S810至S820，下面进行详细介绍：

S810：根据检测回归框的位置确定检测回归框内的预测对象对应的像素点数量。

本实施例的检测回归框是检测信息中包括的图像特征中的目标框，其用于框选预测对象，即确定出预测对象在图像特征中的位置。知晓了检测回归框在图像特征中的位置，对检测回归框内预测对象对应的像素点进行计数，得到回归框内预测对象对应的像素点的数量。

示例性地，检测任务分支输出的检测信息中包括的图像特征中的检测回归框B_i(X₁，Y₁，X₂，Y₂)以及预测对象的类别C，则根据检测回归框B_i的坐标能确定其在图像特征中的位置以及框选区域面积，对框选区域面积内C类预测对象的像素点进行计数，得到C类预测对象的像素点数量。

S820：若预测对象对应的像素点数量大于预测对象的类别所对应的预设类别对象的像素点数量，则确定检测回归框的位置为目标对象的位置，预测对象的类别为目标对象的类别。

示例性地，C类预测对象对应的预设类别对象的像素点数量为10，若C类预测对象对应的像素点数量为15，即预测对象对应的像素点数量大于预测对象的类别所对应的预设类别对象的像素点数量，则能确定C类预测对象为目标对象，检测回归框的位置为目标对象的位置。

本实施例限定了检测信息中包含的信息，进一步阐明了如何利用检测信息包括的图像特征中的检测回归框的位置和预测对象的类别，确定出目标对象的类别，同时能确定目标对象在待识别图像帧中确切的位置，使得目标对象的识别过程更加精准。

在另一示例性实施例中，进一步限定了如何确定出目标场景的场景类型，基于S320，语义类型包括：场景类型和对象类型；场景类型信息包括图像帧中场景类型以及场景类型对应的场景概率值，S320包括S910至S930，下面进行详细介绍：

S910：若语义类型中的场景类型与场景类型信息中的场景类型相同，则确定场景类型信息中的场景类型为目标场景的场景类型。

示例性地，语义类型中的场景类型为D，场景类型信息中的场景类型也为D，则识别模型最后输出的目标场景的场景类型为D。

S920：若语义类型中的场景类型与场景类型信息中的场景类型不同，且场景类型对应的场景概率值大于预设场景概率阈值，则确定场景类型信息中的场景类型为目标场景的场景类型。

本实施例中的预设场景概率阈值是预先设置于识别模型中的阈值，其用于确定目标场景的场景类型，本实施例并不具体限制预设场景概率阈值的设置过程及其阈值大小。

示例性地，场景类型信息中的场景类型为B，对应的B场景概率为0.5，语义类型中的场景类型为A，预设场景概率阈值为0.4，则确定目标场景的场景类型为B。

S930：若语义类型中的场景类型与场景类型信息中的场景类型不同，且场景类型对应的场景概率值小于或等于预设场景概率阈值，则确定图像特征中像素点对应的语义类型中的场景类型为目标场景的场景类型。

示例性地，场景类型信息中的场景类型为B，对应的B场景概率为0.4，语义类型中的场景类型为A，预设场景概率阈值为0.4，则确定目标场景的场景类型为A。

本实施例通过将语义类型中的场景类型与场景类型信息中的场景类型进行相似度比较，并引入预设场景概率阈值，从而准确的确定出待识别图像帧中目标场景的场景类型。

在另一示例性实施例中，限定了前置待识别图像帧的获取方式，基于上述S310，还包括S1010至S1020，下面进行详细介绍：

S1010：获取视频流，视频流包括多个图像帧。

S1020：分别检测每个图像帧中是否存在目标对象，并将检测到目标对象的图像帧确定为待识别图像帧。

示例性地，若一图像帧为空白图像帧，即该空白图像帧中不存在任何对象，肯定就不存在目标对象，若将该图像帧用于识别目标对象和场景类型，显然会增加识别模型的数据处理量。

本实施例对视频流中的每个图像帧进行了预检，避免了无用图像帧作为待识别图像帧输入识别模型，致使识别模型进行无用/无意义识别，避免了识别模型的数据处理资源的浪费，提高了识别结果的精确度。

本申请的另一方面还提供了一种识别装置，如图9所示，图9是本申请一示例性实施例示出的识别装置的结构的示意图。其中，识别装置包括：

提取模块910，被配置为提取视频流中的待识别图像帧。

输出模块930，被配置为将待识别图像帧输入至训练好的识别模型，得到识别模型输出的目标对象的信息和目标场景信息；其中，识别模型包括用于识别提取待识别图像帧的图像特征的图像特征提取网络，用于输出图像帧中对象的检测信息的检测任务分支，用于输出图像帧中像素点的语义信息的语义分割任务分支，以及输出图像帧中的场景类型信息的分类任务分支，根据检测信息和语义信息确定出目标对象的信息，根据场景类型信息和语义信息确定出目标场景信息。

在另一实施例中，识别装置还包括：

构建模块，被配置为构建初始识别模型，初始识别模型包括图像特征提取网络、检测任务分支、语义分割任务分支和分类任务分支。

训练模块，被配置为将待训练的待识别图像帧输入至初始识别模型，图像特征提取网络对待训练的待识别图像帧进行识别并进行特征提取，得到待训练图像特征；检测任务分支输出待训练图像特征对应图像帧中的对象的第一检测信息，语义分割任务分支输出待训练图像特征对应图像帧中的像素点的第一语义信息，以及分类任务分支输出图像特征对应图像帧中的第一场景类型信息。

修正模块，被配置为根据第一检测信息、第一语义信息、第一场景信息对初始识别模型进行修正，得到训练好的识别模型。

在另一实施例中，修正模块包括：

损失函数值确定单元，被配置为根据第一检测信息和第一标准检测信息确定出检测信息损失函数值；根据第一语义信息和第一语义标准信息确定出语义信息损失函数值；据第一场景类型信息和第一标准场景类型信息确定出场景类型信息损失函数值。

损失函数修正单元，被配置为基于检测信息损失函数值、语义信息损失函数值、场景类型信息损失函数值对初始识别模型进行修正，得到训练好的识别模型。

在另一实施例中，损失函数修正单元包括：

第一板块，被配置为基于检测信息损失函数值和检测任务分支对应的第一动态调制因子计算得到第一反向传播值。

第二板块，被配置为基于语义信息损失函数值和语义分割任务分支对应的第二动态调制因子计算得到第二反向传播值.

第三板块，被配置为基于场景类型信息损失函数值和分类任务分支对应的第三动态调制因子计算得到第三反向传播值。

更新板块，被配置为根据第一反向传播值、第二反向传播值、第三反向传播值更新初始识别模型中的配置参数，得到训练好的识别模型。

在另一实施例中，输出模块930包括：

像素确定单元，被配置为根据检测回归框的位置确定检测回归框内的预测对象对应的像素点数量。

目标对象的类别确定单元，被配置为若预测对象对应的像素点数量大于预测对象的类别所对应的预设类别对象的像素点数量，则确定检测回归框的位置为目标对象的位置，预测对象的类别为目标对象的类别。

在另一实施例中，语义类型包括：场景类型和对象类型；输出模块930包括：

第一类型单元，被配置为若语义类型中的场景类型与场景类型信息中的场景类型相同，则确定场景类型信息中的场景类型为目标场景的场景类型。

第二类型单元，被配置为若语义类型中的场景类型与场景类型信息中的场景类型不同，且场景类型对应的场景概率值大于预设场景概率阈值，则确定场景类型信息中的场景类型为目标场景的场景类型。

第三类型单元，被配置为若语义类型中的场景类型与场景类型信息中的场景类型不同，且场景类型对应的场景概率值小于或等于预设场景概率阈值，则确定图像特征中像素点对应的语义类型中的场景类型为目标场景的场景类型。

在另一实施例中，提取模块910包括：

获取单元，被配置为获取视频流，视频流包括多个图像帧。

检测单元，被配置为分别检测每个图像帧中是否存在目标对象，并将检测到目标对象的图像帧确定为待识别图像帧。

在另一实施例中，识别装置还包括：

修正模块，被配置为对初始识别模型进行修正，得到修正后的识别模型。

量化模块，被配置为针对修正后的识别模型进行INT8边缘计算模块的量化感知训练，得到训练好的识别模型。

需要说明的是，上述实施例所提供的识别装置与前述实施例所提供的识别方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，这里不再赘述。

本申请的另一方面还提供了一种电子设备，包括：控制器；存储器，用于存储一个或多个程序，当一个或多个程序被控制器执行时，以执行上述各个实施例中识别的方法。

请参阅图10，图10是本申请的一示例性实施例示出的电子设备的计算机***的结构示意图，其示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

需要说明的是，图10示出的电子设备的计算机***1000仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，计算机***1000包括中央处理单元(Central Processing Unit，CPU)1001，其可以根据存储在只读存储器(Read-Only Memory，ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(Random Access Memory，RAM)1003中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1003中，还存储有***操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output，I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的***中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不相同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前的识别方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的识别方法。

根据本申请实施例的一个方面，还提供了一种计算机***，包括中央处理单元(Central Processing Unit，CPU)，其可以根据存储在只读存储器(Read-Only Memory，ROM)中的程序或者从存储部分加载到随机访问存储器(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM中，还存储有***操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(Input/Output，I/O)接口也连接至总线。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种识别方法，其特征在于，所述识别方法包括：

提取视频流中的待识别图像帧；

将待识别图像帧输入至训练好的识别模型，得到所述识别模型输出的目标对象的信息和目标场景信息；其中，所述识别模型包括用于识别提取所述待识别图像帧的图像特征的图像特征提取网络，用于输出所述图像帧中对象的检测信息的检测任务分支，用于输出所述图像帧中像素点的语义信息的语义分割任务分支，以及输出所述图像帧中的场景类型信息的分类任务分支，根据所述检测信息和所述语义信息确定出所述目标对象的信息，根据所述场景类型信息和所述语义信息确定出所述目标场景信息。

2.根据权利要求1所述的识别方法，其特征在于，所述识别方法还包括：

构建初始识别模型，所述初始识别模型包括所述图像特征提取网络、所述检测任务分支、所述语义分割任务分支和所述分类任务分支；

将待训练的待识别图像帧输入至所述初始识别模型，所述图像特征提取网络对所述待训练的待识别图像帧进行识别并进行特征提取，得到待训练图像特征；所述检测任务分支输出所述待训练图像特征对应图像帧中的对象的第一检测信息，所述语义分割任务分支输出所述待训练图像特征对应图像帧中的像素点的第一语义信息，以及所述分类任务分支输出所述图像特征对应图像帧中的第一场景类型信息；

根据所述第一检测信息、所述第一语义信息、所述第一场景信息对所述初始识别模型进行修正，得到所述训练好的识别模型。

3.根据权利要求2所述的识别方法，其特征在于，所述根据所述第一检测信息、所述第一语义信息、所述第一场景信息对所述初始识别模型进行修正，得到所述训练好的识别模型，包括：

根据所述第一检测信息和第一标准检测信息确定出检测信息损失函数值；根据所述第一语义信息和第一语义标准信息确定出语义信息损失函数值；据所述第一场景类型信息和第一标准场景类型信息确定出场景类型信息损失函数值；

基于所述检测信息损失函数值、所述语义信息损失函数值、所述场景类型信息损失函数值对所述初始识别模型进行修正，得到所述训练好的识别模型。

4.根据权利要求3所述的识别方法，其特征在于，所述基于所述检测信息损失函数值、所述语义信息损失函数值、所述场景类型信息损失函数值对所述初始识别模型进行修正，得到所述训练好的识别模型，包括：

基于所述检测信息损失函数值和所述检测任务分支对应的第一动态调制因子计算得到第一反向传播值；

基于所述语义信息损失函数值和所述语义分割任务分支对应的第二动态调制因子计算得到第二反向传播值；

基于所述场景类型信息损失函数值和所述分类任务分支对应的第三动态调制因子计算得到第三反向传播值；

根据所述第一反向传播值、所述第二反向传播值、所述第三反向传播值更新所述初始识别模型中的配置参数，得到所述训练好的识别模型。

5.根据权利要求1所述的识别方法，其特征在于，所述检测信息包括所述图像帧中的检测回归框的位置和预测对象的类别，所述语义信息包括所述图像帧中的所述预测对象对应的像素点数量和位置，以及所述图像帧中像素点对应的语义类型，所述目标对象的信息包括所述目标对象的类别和位置，所述根据所述检测信息和所述语义信息确定出所述目标对象的信息，包括：

根据所述检测回归框的位置确定所述检测回归框内的所述预测对象对应的像素点数量；

若所述预测对象对应的像素点数量大于所述预测对象的类别所对应的预设类别对象的像素点数量，则确定所述检测回归框的位置为所述目标对象的位置，所述预测对象的类别为所述目标对象的类别。

6.根据权利要求5所述的识别方法，其特征在于，所述语义类型包括：场景类型和对象类型；所述场景类型信息包括所述图像帧中场景类型以及所述场景类型对应的场景概率值，所述根据所述场景类型信息和所述语义信息确定出所述目标场景信息，包括：

若所述语义类型中的场景类型与所述场景类型信息中的场景类型相同，则确定所述场景类型信息中的场景类型为所述目标场景的场景类型；

若所述语义类型中的场景类型与所述场景类型信息中的场景类型不同，且所述场景类型对应的场景概率值大于预设场景概率阈值，则确定所述场景类型信息中的场景类型为所述目标场景的场景类型；

若所述语义类型中的场景类型与所述场景类型信息中的场景类型不同，且所述场景类型对应的场景概率值小于或等于所述预设场景概率阈值，则确定所述图像特征中像素点对应的语义类型中的场景类型为所述目标场景的场景类型。

7.根据权利要求1至6中任一项所述的识别方法，其特征在于，所述提取视频流中的待识别图像帧，包括：

获取视频流，所述视频流包括多个图像帧；

分别检测每个图像帧中是否存在所述目标对象，并将检测到所述目标对象的图像帧确定为所述待识别图像帧。

8.根据权利要求3所述的识别方法，其特征在于，在所述得到所述训练好的识别模型之前，所述方法还包括：

对所述初始识别模型进行修正，得到修正后的识别模型；

针对所述修正后的识别模型进行INT8边缘计算模块的量化感知训练，得到训练好的识别模型。

9.一种识别装置，其特征在于，包括：

提取模块，被配置为提取视频流中的待识别图像帧；

输出模块，被配置为将待识别图像帧所述图像特征输入至训练好的识别模型，得到所述识别模型输出的目标对象的信息和目标场景信息；其中，所述识别模型包括用于输出所述图像帧中对象的检测信息的检测任务分支，用于输出所述图像帧中像素点的语义信息的语义分割任务分支，以及输出所述图像帧中的场景类型信息的分类任务分支，根据所述检测信息和所述语义信息确定出所述目标对象的信息，根据所述场景类型信息和所述语义信息确定出所述目标场景信息。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1至7中任一项所述的识别方法。