CN111428875A

CN111428875A - 图像识别方法、装置及相应模型训练方法、装置

Info

Publication number: CN111428875A
Application number: CN202010165382.9A
Authority: CN
Inventors: 张珂; 罗钧峰; 范铭源; 魏晓明
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-17

Abstract

本申请公开了图像识别方法、装置及相应模型训练方法、装置。图像识别模型的训练方法包括：根据主干网络提取训练图像的多尺度特征图；基于多尺度特征图，根据区域生成网络确定训练图像中的候选区域；基于多尺度特征图和候选区域，根据有效目标预测分支网络预测训练图像中包含的有效目标；基于候选区域，根据模糊目标预测分支网络预测训练图像中包含的模糊目标；根据训练图像的标注信息，以及预测结果，计算模型损失值；根据模型损失值对图像识别模型的参数进行更新，或结束训练。该方案训练得到端到端的图像识别模型，能够有效识别出道路采集等实景图像中是否存在模糊目标，并提高有效目标的识别准确率和召回率。

Description

图像识别方法、装置及相应模型训练方法、装置

技术领域

本申请涉及计算机视觉领域，具体涉及图像识别方法、装置及相应模型训练方法、装置。

背景技术

利用神经网络可以实现对图像中目标的有效识别，从而为自动驾驶等场景提供了技术基础。但是，许多图像在拍摄时收到环境等因素的影响，许多目标在图像中表现得较为模糊，这就对图像识别提出了挑战。因此，需要一种能够兼顾准确度和效率的识别出图像中模糊目标的方案。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的图像识别方法、装置及相应模型训练方法、装置。

依据本申请的第一方面，提供了一种图像识别模型的训练方法，其中，所述图像识别模型包括主干网络、区域生成网络、有效目标预测分支网络以及模糊目标预测分支网络，该方法包括进行多个迭代的训练阶段，每个训练阶段包括：根据所述主干网络提取训练图像的多尺度特征图；基于所述多尺度特征图，根据所述区域生成网络确定训练图像中的候选区域；基于所述多尺度特征图和所述候选区域，根据所述有效目标预测分支网络预测所述训练图像中包含的有效目标；基于所述候选区域，根据所述模糊目标预测分支网络预测所述训练图像中包含的模糊目标；根据所述训练图像的标注信息，以及所述有效目标预测分支网络和所述模糊目标预测分支网络的预测结果，计算模型损失值；根据所述模型损失值对所述图像识别模型的参数进行更新，或结束训练。

可选地，所述主干网络包括级联的多尺度特征提取网络和多尺度特征融合网络；所述根据所述主干网络提取训练图像的多尺度特征图包括：根据所述多尺度特征提取网络，提取出所述训练图像在多个尺度下的图像特征图；根据所述多尺度特征融合网络，对所述训练图像在多个尺度下的图像特征图进行特征融合处理，得到所述训练图像的多尺度特征图。

可选地，所述多尺度特征融合网络具体为特征金字塔网络FPN，所述提取出所述训练图像在多个尺度下的图像特征图包括：采用自下而上的方式，提取出尺度依次减小的多个图像特征图，得到训练图像的图像特征图金字塔；所述根据所述多尺度特征融合网络，对所述训练图像在多个尺度下的图像特征图进行特征融合处理包括：利用所述FPN对所述图像特征图金字塔进行自上而下的处理。

可选地，所述基于所述多尺度特征图，根据所述区域生成网络确定训练图像中的候选区域包括：根据预设的锚点数量和/或比例，由所述区域生成网络基于所述多尺度特征图生成锚点样本；基于锚点样本的置信度确定候选区域。

可选地，所述基于所述多尺度特征图和所述候选区域，根据所述有效目标预测分支网络预测所述训练图像中包含的有效目标包括：基于所述多尺度特征图和所述候选区域，生成候选区域的特征图；由所述有效目标预测分支网络根据候选区域的特征图得到有效目标的位置回归预测结果和有效目标的分类预测结果。

可选地，所述基于所述候选区域，根据所述模糊目标预测分支网络预测所述训练图像中包含的模糊目标包括：由所述模糊目标预测分支网络对所述候选区域的图像进行是否包含模糊目标的二分类预测。

可选地，所述由所述模糊目标预测分支网络对所述候选区域的图像进行是否包含模糊目标的二分类预测包括：根据所述模糊目标预测分支网络中串联的若干个残差模块，提取所述候选区域的图像的模糊特征图，并对提取的模糊特征图进行全局平均池化，得到大小与模糊特征图相同的特征向量，根据所述特征向量进行是否包含模糊目标的二分类预测。

可选地，所述根据所述训练图像的标注信息，以及所述有效目标预测分支网络和所述模糊目标预测分支网络的预测结果，计算模型损失值包括：根据所述训练图像的标注信息，以及所述有效目标预测分支网络和所述模糊目标预测分支网络的预测结果，分别计算有效目标的位置回归损失值、有效目标的类别交叉熵损失值以及模糊目标的类别交叉熵损失值；根据有效目标的位置回归损失值、有效目标的类别交叉熵损失值以及模糊目标的类别交叉熵损失值确定模型损失值。

依据本申请的第二方面，提供了一种图像识别方法，包括：获取待识别图像；利用如上述任一项所述的图像识别模型的训练方法训练得到的图像识别模型，对所述待识别图像进行识别，得到图像识别结果，所述图像识别结果包括如下的至少一种：模糊目标的位置，有效目标的位置，有效目标的类别。

依据本申请的第三方面，提供了一种图像识别模型的训练装置，其中，所述图像识别模型包括主干网络、区域生成网络、有效目标预测分支网络以及模糊目标预测分支网络，该装置用于执行多个迭代的训练阶段，所述装置包括：多尺度特征图提取单元，用于根据所述主干网络提取训练图像的多尺度特征图；候选区域确定单元，用于基于所述多尺度特征图，根据所述区域生成网络确定训练图像中的候选区域；有效目标预测单元，用于基于所述多尺度特征图和所述候选区域，根据所述有效目标预测分支网络预测所述训练图像中包含的有效目标；模糊目标预测单元，用于基于所述候选区域，根据所述模糊目标预测分支网络预测所述训练图像中包含的模糊目标；训练控制单元，用于根据所述训练图像的标注信息，以及所述有效目标预测分支网络和所述模糊目标预测分支网络的预测结果，计算损失函数值；根据所述损失函数值对所述图像识别模型的参数进行更新，或结束训练。

可选地，所述主干网络包括级联的多尺度特征提取网络和多尺度特征融合网络；所述多尺度特征图提取单元，用于根据所述多尺度特征提取网络，提取出所述训练图像在多个尺度下的图像特征图；根据所述多尺度特征融合网络，对所述训练图像在多个尺度下的图像特征图进行特征融合处理，得到所述训练图像的多尺度特征图。

可选地，所述多尺度特征融合网络具体为特征金字塔网络FPN；所述多尺度特征图提取单元，用于采用自下而上的方式，提取出尺度依次减小的多个图像特征图，得到训练图像的图像特征图金字塔；所述根据所述多尺度特征融合网络，对所述训练图像在多个尺度下的图像特征图进行特征融合处理包括：利用所述FPN对所述图像特征图金字塔进行自上而下的处理。

可选地，所述候选区域确定单元，用于根据预设的锚点数量和/或比例，由所述区域生成网络基于所述多尺度特征图生成锚点样本；基于锚点样本的置信度确定候选区域。

可选地，所述有效目标预测单元，用于基于所述多尺度特征图和所述候选区域，生成候选区域的特征图；由所述有效目标预测分支网络根据候选区域的特征图得到有效目标的位置回归预测结果和有效目标的分类预测结果。

可选地，所述模糊目标预测单元，用于根据所述模糊目标预测分支网络预测所述训练图像中包含的模糊目标包括：由所述模糊目标预测分支网络对所述候选区域的图像进行是否包含模糊目标的二分类预测。

可选地，所述模糊目标预测单元，用于根据所述模糊目标预测分支网络中串联的若干个残差模块，提取所述候选区域的图像的模糊特征图，并对提取的模糊特征图进行全局平均池化，得到大小与模糊特征图相同的特征向量，根据所述特征向量进行是否包含模糊目标的二分类预测。

可选地，所述训练控制单元，用于根据所述训练图像的标注信息，以及所述有效目标预测分支网络和所述模糊目标预测分支网络的预测结果，分别计算有效目标的位置回归损失值、有效目标的类别交叉熵损失值以及模糊目标的类别交叉熵损失值；根据有效目标的位置回归损失值、有效目标的类别交叉熵损失值以及模糊目标的类别交叉熵损失值确定模型损失值。

依据本申请的第四方面，提供了一种图像识别方法，包括：获取待识别图像；利用如上述任一所述的图像识别模型的训练装置训练得到的图像识别模型，对所述待识别图像进行识别，得到图像识别结果，所述图像识别结果包括如下的至少一种：模糊目标的位置，有效目标的位置，有效目标的类别。

依据本申请的第五方面，提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一所述的图像识别模型的训练方法，或者，使所述处理器执行如上述任一所述的图像识别方法。

依据本申请的第六方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如上述任一所述的图像识别模型的训练方法，或者，实现如上述任一所述的图像识别方法。

由上述可知，本申请的技术方案，提供了一种包括主干网络、区域生成网络、有效目标预测分支网络以及模糊目标预测分支网络的图像识别模型，以及对其进行训练的方法，具体在通过主干网络提取训练图像的多尺度特征图后，基于多尺度特征图，根据区域生成网络确定训练图像中的候选区域，通过两个分支进行不同处理，其中基于多尺度特征图和候选区域，根据有效目标预测分支网络预测训练图像中包含的有效目标；基于候选区域，根据模糊目标预测分支网络预测训练图像中包含的模糊目标；根据训练图像的标注信息，以及有效目标预测分支网络和模糊目标预测分支网络的预测结果，计算模型损失值；根据模型损失值对图像识别模型的参数进行更新，或结束训练。该方案训练得到端到端的图像识别模型，能够有效识别出道路采集等实景图像中是否存在模糊目标，并提高有效目标的识别准确率和召回率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的一种图像识别模型的训练方法的流程示意图；

图2示出了根据本申请一个实施例的一种图像识别方法的流程示意图；

图3示出了根据本申请一个实施例的一种图像识别方法的详细流程示意图；

图4示出了根据本申请一个实施例的图像识别效果图；

图5示出了根据本申请一个实施例的一种图像识别模型的训练装置的结构示意图；

图6示出了根据本申请一个实施例的一种图像识别装置的结构示意图；

图7示出了根据本申请一个实施例的电子设备的结构示意图；

图8示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

以地图自动化生产场景为例，计算机视觉算法被利用于对道路上的交通标志进行检测与识别，最终以自动化的手段在普通街景上识别出各种类型的道路元素，如人行横道，限速，直行等。这些识别结果将作为生产数据交付给地图后端入库流程，结合人力核对后上线服务于用户导航。

但是交通标志检测与识别的性能好坏受拍摄过程中自然环境的影响较大，自然街景中，由于树木或车辆遮挡，磨损，天气等原因导致的图像失真、模糊十分常见，拍摄的图像也可能因为包含的目标过小导致无法识别。

虽然根据单帧图像很难判别出模糊目标的类别，但是图像间如果具有连续性(例如道路采集图像)，就能够根据前后的关联帧通过人工等方式对模糊目标进行确认。也就是说，如果能够通过图像识别模型识别出哪些目标是模糊目标，在后续的人工审核环节就可以有针对性地进行识别。

下面给出两种有一定可行度的方案。训练图像来源于实际采集，因此，训练图像中既包含有效目标(既能够标注出目标的位置，也能够标注出目标的类别)，也包含模糊目标(根据单帧图像仅能够标注出目标的大致位置，无法标注出目标的类别，也可以认为类别是“模糊”)。图像识别模型采用两阶段模型，其较一阶段模型性能更加鲁棒。其中，一阶段进行目标检测，也就是目标位置回归和粗分类，可以选用Faster-RCNN，尤其是在道路图像中细小目标识别的场景；二阶段进行目标的精细分类，可以基于ResNet系列网络如ResNet101实现。

第一种方案中，训练图像中仅标注有效目标，也就是对模糊目标不做处理。在经过一阶段的检测后，能够进行目标召回，但在召回有效目标的同时也会召回模糊目标。二阶段网络对所有目标进行精细分类，由于模糊目标的存在，模糊目标也会被识别出一个具体类别(而实际的类别应该是“模糊”)，因此整体的准确率很难达到预期效果。

第二种方案中，训练图像标注有有效目标和模糊目标。在经过一阶段的检测后，能够进行目标召回，在召回有效目标的同时也会召回模糊目标。此时通过一个模糊判断模块，先判断召回的目标是模糊目标还是有效目标，如果是模糊目标则直接进行后续的人工审核，如果是有效目标，再通过二阶段网络进行精细分类。这样就使得准确率得到了提升。

但是问题在于，第二种方案是将模糊判断模块作为图像识别模型的中间件。考虑到图像识别模型的轻量化，该模糊判断模块通常选取传统的模糊判断算法实现，如基于统计特征的熵函数，能量梯度函数，Laplacian梯度函数，灰度方差乘积法等，或者是针对非特定失真的BRISQUE算法，但是这些模糊判断算法都表现出同一个问题，就是模糊判断的结果与标注信息(ground truth)相差较大，算法不稳定，导致模糊目标去除的同时一些有效目标也被去除了，从而降低了召回率。

在行车记录仪拍摄的具有18599个有效目标和1615个模糊目标的数据上统计，模糊判断算法将ground truth上有效目标判断为模糊的占比为5.5％，将模糊目标判断为模糊的占比为20％，由该比例也可以得出模糊判断模块并不符合方案的预期效果。

从以上两种方案可以得出，目标检测阶段在训练时需要保证召回率的性能，精细分类阶段之前需要去除检测到的模糊目标以提高准确率，二者结合减少人工复查的工作量。因此，设计一个通过有效筛选模糊目标来提高图像识别准确率的网络框架是本方案需要解决的问题。

本申请的技术构思在于，通过训练一个端到端的图像识别模型，将模糊目标预测作为图像识别模型的一个任务分支，有效提高图像识别的准确率和召回率，可以应用于地图路采图像的识别。识别出包含模糊目标的图像可以通过人工方式审核。

图1示出了根据本申请一个实施例的一种图像识别模型的训练方法的流程示意图。其中，图像识别模型包括主干网络、区域生成网络、有效目标预测分支网络以及模糊目标预测分支网络，该方法包括进行多个迭代的训练阶段，每个训练阶段包括：

步骤S110，根据主干网络提取训练图像的多尺度特征图。这里的多尺度特征图可指多个尺度下的图像特征图，当然，图像特征图可能经过了特征融合等处理。图像中的目标可能有大有小，尺寸不一，同一目标细节和整体上可能有多种特征，因此在不同尺度上提取特征，相应地进行识别，效果更好。

步骤S120，基于多尺度特征图，根据区域生成网络确定训练图像中的候选区域。具体地，区域生成网络RPN(Region Proposal Network)能够给出以候选框的形式给出候选区域。

步骤S130，基于多尺度特征图和候选区域，根据有效目标预测分支网络预测训练图像中包含的有效目标。其中，可以参考更快速的区域卷积神经网络(Faster R-CNN)来实现有效目标预测分支网络，可以认为是对有效目标进行精细识别。

步骤S140，基于候选区域，根据模糊目标预测分支网络预测训练图像中包含的模糊目标。可见在本申请的图像识别模型中，有效目标预测分支网络与模糊目标预测分支网络是相互并列，并没有前后链接关系的。这样就克服了以一个网络的输出作为另一个网络的输入时，在后网络的输出结果难免受到在前网络输出结果的影响的问题。

步骤S150，根据训练图像的标注信息，以及有效目标预测分支网络和模糊目标预测分支网络的预测结果，计算模型损失值。

步骤S160，根据模型损失值对图像识别模型的参数进行更新，或结束训练。例如如果模型损失值loss收敛，则结束训练；否则，利用梯度更新等方式优化图像识别模型，以进行下一轮训练。

可见，图1所示的图像识别模型的训练方法，通过加入模糊目标预测分支网络，使得图像识别模型可以进行端到端的训练与评估，图像识别模型能够有效识别出道路采集等实景图像中是否存在模糊目标，并提高有效目标的识别准确率和召回率；具体地还可以对接人工审核流程，在数据生产时，将包含模糊目标的图像交由人工审核，有效目标的作为高质量的识别结果进行自动化的精细识别，进一步提高人工审核效率。

在本申请的一个实施例中，上述图像识别模型的训练方法中，主干网络包括级联的多尺度特征提取网络和多尺度特征融合网络；根据主干网络提取训练图像的多尺度特征图包括：根据多尺度特征提取网络，提取出训练图像在多个尺度下的图像特征图；根据多尺度特征融合网络，对训练图像在多个尺度下的图像特征图进行特征融合处理，得到训练图像的多尺度特征图。

多尺度特征提取网络可以采用卷积神经网络来实现，一个具体方案为选用ResneXt，并进行微调后使用。在进行交通标志识别等场景下，由于目标小，变化多样，选用多尺度特征融合网络进行多尺度特征融合，能够得到更好的召回结果，因此可以将这两类网络级联。

具体地，在本申请的一个实施例中，上述图像识别模型的训练方法中，多尺度特征融合网络具体为特征金字塔网络(feature pyramid networks，FPN)，提取出训练图像在多个尺度下的图像特征图包括：采用自下而上的方式，提取出尺度依次减小的多个图像特征图，得到训练图像的图像特征图金字塔；根据多尺度特征融合网络，对训练图像在多个尺度下的图像特征图进行特征融合处理包括：利用FPN对图像特征图金字塔进行自上而下的处理。

图像特征图金字塔中，卷积层越高，图像特征图的感受野越大，定位信息越不丰富，分辨率越差，但是语义信息越强。因此将不同尺度的图像特征图进行融合可以将高卷积层的强语义特征与低卷积层的强分辨率结合起来。具体地，可以选取图像特征图金字塔最上层进行上采样，上采样的结果和自下而上生成的相同大小的图像特征图进行融合(merge)，还可以进行一次卷积以消除上采样的混叠效应。然后再重复上述过程知道图像特征图金字塔的最底层融合完毕。这样就得到了图像特征金字塔每一层对应的融合特征图，最终形成多尺度的融合特征图作为多尺度特征图。

在本申请的一个实施例中，上述图像识别模型的训练方法中，基于多尺度特征图，根据区域生成网络确定训练图像中的候选区域包括：根据预设的锚点数量和/或比例，由区域生成网络基于多尺度特征图生成锚点样本；基于锚点样本的置信度确定候选区域。

区域生成网络根据预设的锚点(anchor)数量和比例可以生成正负anchor样本和位置回归的粗坐标，其中每个锚点样本具有一个置信度，可以由高到低进行置信度排序，将anchor送入后续的有效目标检测分支网络和模糊目标监测网络。

在本申请的一个实施例中，上述图像识别模型的训练方法中，基于多尺度特征图和候选区域，根据有效目标预测分支网络预测训练图像中包含的有效目标包括：基于多尺度特征图和候选区域，生成候选区域的特征图；由有效目标预测分支网络根据候选区域的特征图得到有效目标的位置回归预测结果和有效目标的分类预测结果。

可以根据候选区域映射到多尺度特征图中，得到候选区域的特征图，再进行有效目标的位置回归预测和有效目标的分类预测，也就是进行位置精修和类别细分。这里的具体实现可以参考Faster-RCNN的目标检测结构实现，在此不再赘述。

在本申请的一个实施例中，上述图像识别模型的训练方法中，基于候选区域，根据模糊目标预测分支网络预测训练图像中包含的模糊目标包括：由模糊目标预测分支网络对候选区域的图像进行是否包含模糊目标的二分类预测。

由于模糊目标不需要给出精细的检测框，因此可以使用候选区域的检测框，也就是模糊目标预测分支网络只需要判断是否存在模糊目标。也可以认为是识别图像是否具有模糊属性。总之，该任务可以转化为一个二分类问题来实现。

具体地，在本申请的一个实施例中，上述图像识别模型的训练方法中，由模糊目标预测分支网络对候选区域的图像进行是否包含模糊目标的二分类预测包括：根据模糊目标预测分支网络中串联的若干个残差模块，提取候选区域的图像的模糊特征图，并对提取的模糊特征图进行全局平均池化，得到大小与模糊特征图相同的特征向量，根据特征向量进行是否包含模糊目标的二分类预测。

可以结合实际应用场景选用残差模块的种类和数量，例如，在地图路采图像识别场景下，可以选取两个串联的ResNet Block，其中ResNet Block具体为三层残差模块，依次为使用1×1卷积核的卷积层、使用3×3卷积核的卷积层以及使用1×1卷积核的卷积层，每个卷积层后可以接批标准化(Batch Normalization)处理和激活(如使用ReLU函数)处理。该ResNet Block为现有ResNet系列网络中的模块，在此不作过多介绍。

全局平均池化(Global Average Pool)主要是用来解决全连接的问题，将模糊特征图进行整张图的一个均值池化，形成一个特征点，将这些特征点组成最后的特征向量，较全连接参数量更小。

上述实施例中提到的模糊目标的二分类和以及有效目标的分类均为分类问题，因此可以利用softmax分类器实现。

在本申请的一个实施例中，上述图像识别模型的训练方法中，根据训练图像的标注信息，以及有效目标预测分支网络和模糊目标预测分支网络的预测结果，计算模型损失值包括：根据训练图像的标注信息，以及有效目标预测分支网络和模糊目标预测分支网络的预测结果，分别计算有效目标的位置回归损失值、有效目标的类别交叉熵损失值以及模糊目标的类别交叉熵损失值；根据有效目标的位置回归损失值、有效目标的类别交叉熵损失值以及模糊目标的类别交叉熵损失值确定模型损失值。

也就是说，对于有效目标的位置回归、有效目标的分类以及模糊目标的判断，分别采用一个损失函数计算损失值loss，再通过求和或者加权求和的方式计算整个图像识别模型的模型损失值。最后梯度在不同的分支进行更新，获取不同的语义特征，图像识别模型的最终效果更好。

图2示出了根据本申请一个实施例的一种图像识别方法的流程示意图。

如图2所示，该方法包括：

步骤S210，获取待识别图像。

步骤S220，利用图像识别模型，对待识别图像进行识别，得到图像识别结果。图像识别结果包括如下的至少一种：模糊目标的位置，有效目标的位置，有效目标的类别。图像识别模型是利用如上述任一实施例所述的图像识别模型的训练装置训练得到的。

图3示出了根据本申请一个实施例的一种图像识别方法的详细流程示意图。如图3所示，图像识别模型包括由ResneXt和FPN组成的主干网络，RPN，有效目标检测分支网络和模糊目标检测分支网络。在对待识别图像进行识别时，将待识别图像输入主干网络，由主干网络输出待识别图像的多尺度特征图，然后将多尺度特征图输入RPN，由RPN输出候选区域，具体可以是候选框；然后再由两个分支网络分别根据候选框进行处理，其中，有效目标检测分支网络将候选区域映射到多尺度特征图中，得到感兴趣区域ROI(Region of Interest)，再经过全连接层，最终输出有效目标分类预测结果和有效目标位置回归预测结果。而模糊目标检测分支网络通过两个ResNet Block对候选区域的图像进行卷积，得到模糊特征图后经过GAP(Global Average Pooling，全局平均池化)层，最终输出模糊目标预测结果。

图4示出了根据本申请一个实施例的图像识别效果图。可以看出，因为雨天的影响，部分在当前帧比较模糊难以区分细粒度，通过模糊目标分支网络的判断输出到人工审核，外部人员结合前后帧轨迹判断出类别，有效目标则通过有效目标预测分支网络进行自动化识别，具体识别为红绿灯和禁止停车的交通标志。因为模糊预测分支网络输出的模糊目标能够有效判别出难以细粒度分类的目标，从而在召回不降低的情况下提高地图路采图像识别准确率。

具体地，图4中从左到右的示出的五个目标分别为：红绿灯，置信度为0.999478877；模糊目标，置信度为0.874475777；红绿灯，置信度为0.99915278；模糊目标，置信度为0.91761905；禁止停车交通标志，置信度为0.993221879。

在一组对照实验中，使用11142张图像进行训练，7450张图像进行测试，只考虑大于30*30像素大小的目标，采用前文所述的第一种方案(V1)、第二种方案(V2)以及应用图3所示方法的方案(V3)的对照数据如下表所示。

模型	召回率	准确率
			V1	11377/11955＝95.17％	11377/13991＝81.32％
V2	10614/11955＝88.78％	10641/12660＝84.05％
			V3	11391/11955＝95.28％	11391/12985＝87.72％

其中，召回率表示在原来的ground truth样本中被预测正确的样本占比；准确率表示在预测的结果中与ground truth对应正确的样本占比。

图5示出了根据本申请一个实施例的一种图像识别模型的训练装置的结构示意图。其中，图像识别模型包括主干网络、区域生成网络、有效目标预测分支网络以及模糊目标预测分支网络，图像识别模型的训练装置500用于执行多个迭代的训练阶段，图像识别模型的训练装置500具体包括：

多尺度特征图提取单元510，用于根据主干网络提取训练图像的多尺度特征图。这里的多尺度特征图是指多个尺度下的图像特征图，当然，图像特征图可能经过了特征融合等处理。图像中的目标可能有大有小，尺寸不一，同一目标细节和整体上可能有多种特征，因此在不同尺度上提取特征，相应地进行识别，效果更好。

候选区域确定单元520，用于基于多尺度特征图，根据区域生成网络确定训练图像中的候选区域。具体地，区域生成网络RPN(Region Proposal Network)能够给出以候选框的形式给出候选区域。

有效目标预测单元530，用于基于多尺度特征图和候选区域，根据有效目标预测分支网络预测训练图像中包含的有效目标。其中，可以参考更快速的区域卷积神经网络(Faster R-CNN)来实现有效目标预测分支网络，可以认为是对有效目标进行精细识别。

模糊目标预测单元540，用于基于候选区域，根据模糊目标预测分支网络预测训练图像中包含的模糊目标。可见在本申请的图像识别模型中，有效目标预测分支网络与模糊目标预测分支网络是相互并列，并没有前后链接关系的。这样就克服了以一个网络的输出作为另一个网络的输入时，在后网络的输出结果难免受到在前网络输出结果的影响的问题。

训练控制单元550，用于根据训练图像的标注信息，以及有效目标预测分支网络和模糊目标预测分支网络的预测结果，计算损失函数值；根据损失函数值对图像识别模型的参数进行更新，或结束训练。

例如如果模型损失值loss收敛，则结束训练；否则，利用梯度更新等方式优化图像识别模型，以进行下一轮训练。

可见，图5所示的图像识别模型的训练装置，通过加入模糊目标预测分支网络，使得图像识别模型可以进行端到端的训练与评估，图像识别模型能够有效识别出道路采集等实景图像中是否存在模糊目标，并提高有效目标的识别准确率和召回率；具体地还可以对接人工审核流程，在数据生产时，将包含模糊目标的图像交由人工审核，有效目标的作为高质量的识别结果进行自动化的精细识别，进一步提高人工审核效率。

在本申请的一个实施例中，上述图像识别模型的训练装置中，主干网络包括级联的多尺度特征提取网络和多尺度特征融合网络；多尺度特征图提取单元510，用于根据多尺度特征提取网络，提取出训练图像在多个尺度下的图像特征图；根据多尺度特征融合网络，对训练图像在多个尺度下的图像特征图进行特征融合处理，得到训练图像的多尺度特征图。

在本申请的一个实施例中，上述图像识别模型的训练装置中，多尺度特征融合网络具体为特征金字塔网络FPN；多尺度特征图提取单元510，用于采用自下而上的方式，提取出尺度依次减小的多个图像特征图，得到训练图像的图像特征图金字塔；根据多尺度特征融合网络，对训练图像在多个尺度下的图像特征图进行特征融合处理包括：利用FPN对图像特征图金字塔进行自上而下的处理。

在本申请的一个实施例中，上述图像识别模型的训练装置中，候选区域确定单元520，用于根据预设的锚点数量和/或比例，由区域生成网络基于多尺度特征图生成锚点样本；基于锚点样本的置信度确定候选区域。

在本申请的一个实施例中，上述图像识别模型的训练装置中，有效目标预测单元530，用于基于多尺度特征图和候选区域，生成候选区域的特征图；由有效目标预测分支网络根据候选区域的特征图得到有效目标的位置回归预测结果和有效目标的分类预测结果。

在本申请的一个实施例中，上述图像识别模型的训练装置中，模糊目标预测单元540，用于根据模糊目标预测分支网络预测训练图像中包含的模糊目标包括：由模糊目标预测分支网络对候选区域的图像进行是否包含模糊目标的二分类预测。

在本申请的一个实施例中，上述图像识别模型的训练装置中，模糊目标预测单元540，用于根据模糊目标预测分支网络中串联的若干个残差模块，提取候选区域的图像的模糊特征图，并对提取的模糊特征图进行全局平均池化，得到大小与模糊特征图相同的特征向量，根据特征向量进行是否包含模糊目标的二分类预测。

在本申请的一个实施例中，上述图像识别模型的训练装置中，训练控制单元550，用于根据训练图像的标注信息，以及有效目标预测分支网络和模糊目标预测分支网络的预测结果，分别计算有效目标的位置回归损失值、有效目标的类别交叉熵损失值以及模糊目标的类别交叉熵损失值；根据有效目标的位置回归损失值、有效目标的类别交叉熵损失值以及模糊目标的类别交叉熵损失值确定模型损失值。

图6示出了根据本申请一个实施例的一种图像识别装置的结构示意图。如图6所示，图像识别装置600包括：

图像获取单元610，用于获取待识别图像。

图像识别单元620，用于利用如上述任一实施例所述的图像识别模型的训练装置500训练得到的图像识别模型，对待识别图像进行识别，得到图像识别结果，图像识别结果包括如下的至少一种：模糊目标的位置，有效目标的位置，有效目标的类别。

需要说明的是，上述各实施例示出的图像识别模型的训练装置以及图形识别模型装置可以分别用于执行前述实施例中的图像识别模型的训练方法以及图像识别方法，细节在此不再赘述。

综上所述，本申请的技术方案，提供了一种包括主干网络、区域生成网络、有效目标预测分支网络以及模糊目标预测分支网络的图像识别模型，以及对其进行训练的方法，具体在通过主干网络提取训练图像的多尺度特征图后，基于多尺度特征图，根据区域生成网络确定训练图像中的候选区域，通过两个分支进行不同处理，其中基于多尺度特征图和候选区域，根据有效目标预测分支网络预测训练图像中包含的有效目标；基于候选区域，根据模糊目标预测分支网络预测训练图像中包含的模糊目标；根据训练图像的标注信息，以及有效目标预测分支网络和模糊目标预测分支网络的预测结果，计算模型损失值；根据模型损失值对图像识别模型的参数进行更新，或结束训练。该方案训练得到端到端的图像识别模型，能够有效识别出道路采集等实景图像中是否存在模糊目标，并提高有效目标的识别准确率和召回率。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以根据各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的图像识别模型的训练装置和图像识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图7示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备700包括处理器710和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器720。存储器720可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器720具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码731的存储空间730。例如，用于存储计算机可读程序代码的存储空间730可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码731。计算机可读程序代码731可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图8所述的计算机可读存储介质。

图8示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质800存储有用于执行根据本申请的方法步骤的计算机可读程序代码731，可以被电子设备700的处理器710读取，当计算机可读程序代码731由电子设备700运行时，导致该电子设备700执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码731可以执行上述任一实施例中示出的图像识别模型的训练方法或图像识别方法。计算机可读程序代码731可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种图像识别模型的训练方法，其特征在于，所述图像识别模型包括主干网络、区域生成网络、有效目标预测分支网络以及模糊目标预测分支网络，该方法包括进行多个迭代的训练阶段，每个训练阶段包括：

根据所述主干网络提取训练图像的多尺度特征图；

基于所述多尺度特征图，根据所述区域生成网络确定训练图像中的候选区域；

基于所述多尺度特征图和所述候选区域，根据所述有效目标预测分支网络预测所述训练图像中包含的有效目标；

基于所述候选区域，根据所述模糊目标预测分支网络预测所述训练图像中包含的模糊目标；

根据所述训练图像的标注信息，以及所述有效目标预测分支网络和所述模糊目标预测分支网络的预测结果，计算模型损失值；

根据所述模型损失值对所述图像识别模型的参数进行更新，或结束训练。

2.如权利要求1所述的图像识别模型的训练方法，其特征在于，所述主干网络包括级联的多尺度特征提取网络和多尺度特征融合网络；

所述根据所述主干网络提取训练图像的多尺度特征图包括：根据所述多尺度特征提取网络，提取出所述训练图像在多个尺度下的图像特征图；根据所述多尺度特征融合网络，对所述训练图像在多个尺度下的图像特征图进行特征融合处理，得到所述训练图像的多尺度特征图。

3.如权利要求2所述的图像识别模型的训练方法，其特征在于，所述多尺度特征融合网络具体为特征金字塔网络FPN，所述提取出所述训练图像在多个尺度下的图像特征图包括：

采用自下而上的方式，提取出尺度依次减小的多个图像特征图，得到训练图像的图像特征图金字塔；

所述根据所述多尺度特征融合网络，对所述训练图像在多个尺度下的图像特征图进行特征融合处理包括：利用所述FPN对所述图像特征图金字塔进行自上而下的处理。

4.如权利要求1所述的图像识别模型的训练方法，其特征在于，所述基于所述多尺度特征图，根据所述区域生成网络确定训练图像中的候选区域包括：

根据预设的锚点数量和/或比例，由所述区域生成网络基于所述多尺度特征图生成锚点样本；

基于锚点样本的置信度确定候选区域。

5.如权利要求1所述的图像识别模型的训练方法，其特征在于，所述基于所述多尺度特征图和所述候选区域，根据所述有效目标预测分支网络预测所述训练图像中包含的有效目标包括：

基于所述多尺度特征图和所述候选区域，生成候选区域的特征图；

由所述有效目标预测分支网络根据候选区域的特征图得到有效目标的位置回归预测结果和有效目标的分类预测结果。

6.如权利要求1所述的图像识别模型的训练方法，其特征在于，所述基于所述候选区域，根据所述模糊目标预测分支网络预测所述训练图像中包含的模糊目标包括：

由所述模糊目标预测分支网络对所述候选区域的图像进行是否包含模糊目标的二分类预测。

7.如权利要求6所述的图像识别模型的训练方法，其特征在于，所述由所述模糊目标预测分支网络对所述候选区域的图像进行是否包含模糊目标的二分类预测包括：

根据所述模糊目标预测分支网络中串联的若干个残差模块，提取所述候选区域的图像的模糊特征图，并对提取的模糊特征图进行全局平均池化，得到大小与模糊特征图相同的特征向量，根据所述特征向量进行是否包含模糊目标的二分类预测。

8.如权利要求1-7中任一项所述的图像识别模型的训练方法，其特征在于，所述根据所述训练图像的标注信息，以及所述有效目标预测分支网络和所述模糊目标预测分支网络的预测结果，计算模型损失值包括：

根据所述训练图像的标注信息，以及所述有效目标预测分支网络和所述模糊目标预测分支网络的预测结果，分别计算有效目标的位置回归损失值、有效目标的类别交叉熵损失值以及模糊目标的类别交叉熵损失值；

根据有效目标的位置回归损失值、有效目标的类别交叉熵损失值以及模糊目标的类别交叉熵损失值确定模型损失值。

9.一种图像识别方法，包括：

获取待识别图像；

利用如权利要求1-8中任一项所述的图像识别模型的训练方法训练得到的图像识别模型，对所述待识别图像进行识别，得到图像识别结果，所述图像识别结果包括如下的至少一种：模糊目标的位置，有效目标的位置，有效目标的类别。

10.一种图像识别模型的训练装置，其特征在于，所述图像识别模型包括主干网络、区域生成网络、有效目标预测分支网络以及模糊目标预测分支网络，该装置用于执行多个迭代的训练阶段，所述装置包括：

多尺度特征图提取单元，用于根据所述主干网络提取训练图像的多尺度特征图；

候选区域确定单元，用于基于所述多尺度特征图，根据所述区域生成网络确定训练图像中的候选区域；

有效目标预测单元，用于基于所述多尺度特征图和所述候选区域，根据所述有效目标预测分支网络预测所述训练图像中包含的有效目标；

模糊目标预测单元，用于基于所述候选区域，根据所述模糊目标预测分支网络预测所述训练图像中包含的模糊目标；

训练控制单元，用于根据所述训练图像的标注信息，以及所述有效目标预测分支网络和所述模糊目标预测分支网络的预测结果，计算损失函数值；根据所述损失函数值对所述图像识别模型的参数进行更新，或结束训练。

11.一种图像识别装置，包括：

图像获取单元，用于获取待识别图像；

图像识别单元，用于利用如权利要求10所述的图像识别模型的训练装置训练得到的图像识别模型，对所述待识别图像进行识别，得到图像识别结果，所述图像识别结果包括如下的至少一种：模糊目标的位置，有效目标的位置，有效目标的类别。

12.一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-8中任一项所述的方法，或者，使所述处理器执行如权利要求9所述的方法。

13.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-8中任一项所述的方法，或者，实现如权利要求9所述的方法。