CN115661703A

CN115661703A - 一种基于深度学习的门店招牌信息提取的方法

Info

Publication number: CN115661703A
Application number: CN202211256545.XA
Authority: CN
Inventors: 戴激光; 谷越; 张子恩
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-31

Abstract

本发明提出了一种基于深度学习的门店招牌信息提取的方法，该方法具体包括如下步骤：获取供构建深度学习模型数据并划分数据集；改进特征提取结构，并增强金字塔特征，进一步构建用于门店招牌信息提取的模型；训练并验证该目标检测模型，获得最佳检测模型权重文件；导入待检测的目标影像，检测其位置以及根据预设阈值输出目标检测结果。通过深度学习目标检测结合门店招牌的检测，生成的模型较小，有利于部署移植到边缘设备进行结果计算，从而提高巡检人员的工作效率，减少成本。

Description

一种基于深度学习的门店招牌信息提取的方法

技术领域

本发明属于工业视觉与智慧城市的技术领域，具体涉及一种基于深度学习的门店招牌信息提取的方法。

背景技术

早期的城市基础设施信息主要是实地勘测形式进行统计并汇总。虽然数据较为精确，但在大范围的城市基础设施信息调查时，这种方式需要耗费极其昂贵的时间成本与物力成本，并且获得的结果具有滞后性，利用价值大大降低。门店招牌建设信息是最重要的城市基础设施信息之一，其对于城市市容市貌管理、城市经济发展分析、城市三维重建等工作均具有重要价值。

为了高效获得地物目标信息，国内外学者主要采用两种方式。一是面向对象方法。该方法利用图像分割算法对具有相似特征的像素点进行聚类，形成分割区域单元，再利用图像分类算法。但传统方法在分割及分类中依赖于影像的光谱信息、纹理信息，即基于像元的同质性，自底向上聚合形成影像对象。门店招牌作为识别目标，其规格尺寸以及颜色渲染千差万别，这无疑会导致空间异质性大，门店招牌信息提取困难加大。而在技术方法层面，分割分类获取影像对象的方法本质上没有考虑影像所具有的形态信息、上下文语义信息等高层特征，是基于光谱特征的像素聚合，而没有充分利用街景影像所具有的其他特征。因此，传统方法所获得的对象单元与人们对实际目标地物的形态认知往往并不匹配，进而导致对象级的分类结果无法转换成具有实际实体意义的解译成果。二是深度学习方法。该方法以数据驱动决策、自我迭代优化为主，通过深度网络的表示学习可以在语义图像分析中进行多级抽象，这使得其在遥感应用中性能远超传统方法。例如针对遮挡和小目标问题，徐等人使用具有排斥力的损失函数Rep Loss以解决目标遮挡问题，并对两种尺度的目标使用尺度感知双路子网络分别进行检测，最后在推理末端将进行感知融合。针对多变量下的被透视面板遮盖目标的定位问题，Morera等人使用自标注数据集，通过多种数据增强方式，并结合使用 localization loss等损失函数。针对低分辨率条件下，部分遮挡的目标检测问题，李林升人设计候选框尺寸，生成9种不同的候选区域，增加了模型对不同特征的识别能力，并在原始的RPN基础上再加入了两种滑动窗口，提高了模型信息摄取范围。

意图采用一种固有深度学习模型实现影像中不同种类目标的分类与提取，始终无法达到人工目视解译的效果，即每一类目标都需按照其特定的视觉特征分别设计深度学习的提取算法。本发明借助YOLOv5检测精度高、推理速度快的优势，提出了一种矩形特征约束条件下，集位置注意、拓扑重建于一体的门店招牌信息提取网络。

发明内容

为了解决采用传统的人工巡检门店招牌信息，费时费力且费用高等问题，本发明提供一种基于深度学习的门店招牌信息提取的方法，以解决现有存在的技术缺陷问题。

本发明提出了一种基于深度学习的门店招牌信息提取的方法，该方法具体包括如下步骤：

S1：获取供构建深度学习模型数据并划分数据集；

S2：改进特征提取结构，并增强金字塔特征，进一步构建用于门店招牌信息提取的模型；

S3：训练并验证该目标检测模型，获得最佳检测模型权重文件；

S4：导入待检测的目标影像，检测其位置以及根据预设阈值输出目标检测结果。

通过深度学习目标检测方法，生成的模型较小，有利于部署移植到边缘设备进行结果计算，从而提高巡检人员的工作效率，减少成本。

进一步的，步骤S1主要包括以下步骤：

S11、整理数据，只考虑正视视角成像的目标作为初始数据；

S12、导入初始数据，通过标注软件LabelImg手动画框，以标注门店招牌的位置信息，进行目标检测的信息标注，并按照格式<object-class-ID><X中心><Y 中心><框宽><框高>表示标注的文本文件；

S13、将获得的VOC格式的数据集转换为TXT格式，进一步按照比例8:1:1 划分为训练集、验证集、测试集，获得最终训练所需的数据集。

进一步的，所述深度学习模型基于YOLOv5目标检测模型构建。

进一步的，步骤S2主要包括以下步骤：

S21、针对门店招牌的多尺度矩形特征，集成SP模块和PSA模块，形成一种多尺度矩形特征约束，在保证多尺度感知性能基础上，进一步搭建MFSPP模块提升模型泛化能力；

S22、针对门店招牌空间分布特点，引入Coordconv layer提高影像中间位置关注度，减少其他位置相似地物的干扰；通过集成CoT模块重建拓扑关系，解决遮挡引起的目标碎片化问题；

S23、针对特征从网络高层次传播到低层次出现的弱化问题，引入CBAM进行特征增强，保证特征利用的充分性、准确性。

进一步的，步骤S3主要包括以下步骤：

S31、设置预训练模型路径，数据集读取路径，进一步设置训练迭代次数以及传入图片的大小，其他参数选项设置为默认，开始进行训练该目标模型；

S32、可视化训练过程并查看与模型相关指标的变化曲线；

S33、训练完成后，对比查看并保存最好的目标模型并输出至指定路径；

S34、对测试样本在训练好的目标模型上进行预测推理，以对目标模型进行验证。

有益效果：一种基于深度学习的门店招牌信息提取的方法与现有技术相比，具有如下优势：

(1)通过深度学习目标检测方法，生成的模型较小，有利于部署移植到边缘设备进行结果计算，从而提高巡检人员的工作效率，减少成本；

(2)通过单阶段的目标检测模型，有效地提升了预测推理的速度。

附图说明

本发明的内容的描述与下面附图相结合将变得明显和容易理解，其中：

图1为本发明具体实施方式中基于深度学习的门店招牌信息提取的方法的流程示意图；

图2为本发明具体实施方式中基于深度学习的门店招牌信息提取的方法的整体流程示意图；

图3-1、3-2分别为本发明具体实施方式基于深度学习的门店招牌信息提取的方法中筛选有效数据存到数据集、数据集按标签标注的示意图；

图4-1～4-9分别为本发明具体实施方式基于深度学习的门店招牌信息提取的方法中改进YOLOv5目标检测模型的整体架构、CoordConv模块、SP模块、CoT 模块、PSA模块、C3_P中BottleNeck模块、MFSPP模块、C3_SC中 BottleNeck模块、注意力模块的示意图；

图5-1～5-8分别为本发明具体实施方式基于深度学习的门店招牌信息提取的方法中可视化预测过程、labels_correlogram、训练集与验证集在模型上的表现、 P_curve、PR_curve、R_curve、正样本预测结果、正样本预测集合抽样结果预览的示意图；

图6为本发明具体实施方式基于深度学习的门店招牌信息提取的方法与其他方法在CTW数据集上的可视化结果。

具体实施方式

在以下详细描述中，参考附图，该附图形成详细描述的一部分，并且通过其中可实践本发明的说明性具体实施例来示出。

图1示出了本发明的实施例公开了一种基于深度学习的门店招牌信息提取的方法，如图1和图2所示，该方法具体包括如下步骤：

S1：获取供构建深度学习模型数据并划分数据集；

进一步的，在S1中具体还包括：

S11、整理数据，只考虑正视视角成像的目标作为初始数据；

用于深度学习模型的数据集根据所执行的任务分为几个类别，目标检测、图像分割、图像分类、实例分割，在本实施例中，使用的是用于图像分割带有标注格式文件的数据集，并将标注后得到的数据集按照8:1:1的比例，划分为训练集、验证集与测试集。

具体的，在本实施例中使用的VOC格式的数据集，主要是筛选移动采集车获取的街景数据，选取涵盖门店招牌目标的影像作为初始数据，通过标注软件 LabelImg进行目标检测的信息标注，也即手动画框标注目标对象的位置信息，然后需要将VOC格式的数据集转换为用于YOLO模型专用的txt格式，最后根据数据集划分比例，即得到最终训练所需的数据集。

用于构建最终模型的数据集通常有多个，在构建模型的不同阶段，通常有三种数据集：训练集、验证集和测试集。

首先，模型在训练集(training dataset)上进行拟合。对于监督式学习，训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中，训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中，当前模型会对训练集中的每个样本进行预测，并将预测结果与目标进行比较。

根据比较的结果，学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来，拟合得到的模型会在第二个数据集—验证集(validation dataset)上进行预测。在对模型的超参数(例如神经网络中隐藏层的神经元数量)进行调整时，验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止：在验证集误差上升时(这是在训练集上过拟合的信号)，停止训练。不过，在实践中，由于验证集误差在训练过程中会有起伏，这种做法有时不奏效。由此，人们发明了一些规则，用做判定过拟合更好的信号。

最后，测试集(test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如，没有被用在交叉验证当中)，则它也被称之为预留集。

参照图3-1和图3-2，在本实施例中，对数据集的具体处理流程如下：

1.整理移动采集车获取的街景影像；

2.对收集整理的涵盖门店招牌的影像，具备正视成像条件的存入到数据集中；

3.对于整理好的图片导入标注软件labelImg进行数据清洗与数据标注；

4.将标注后的数据文件转换成yolo格式，并进行训练。

参照图4-1～图4-8，在S2中具体还包括：

训练与验证部分主要是根据网络模型的超参数配置来进行相应设置。在训练过程中，涉及其中几个重要参数：data为数据集读取路径，epochs为训练迭代次数，img-size为传入图片大小，其他参数默认；由于数据集在划分时，就已经分为训练集、验证集和测试集，因此相当于在训练过程的同时就将验证集进行验证。

参照图5-1～图5-8，在S3中具体还包括：

S32、可视化训练过程并查看与模型相关指标的变化曲线；

具体的，在本实施例中，预设的阈值设置为0.45，该阈值的作用主要是用于限制置信度的大小，也就是说这个阈值会将不满足>0.45数值条件的多余检测结果滤除掉。

图6示出了本发明具体实施方式基于深度学习的门店招牌信息提取的方法与其他方法在CTW数据集上的可视化结果，具体分析如下：

以下通过一组实验验证本发明所提方法的验证，并与现有算法进行比较，实验为在CTW数据集上的提取结果。图6为在CTW数据集上的可视化结果，包括本发明提取结果和对比方法结果。

从图6中可以看出，CTW数据集中对自动检测最大的困难，是图像上的门店招牌被树木遮挡，导致边界模糊甚至无法观察到边界。与其他测试方法相比，我们的算法受遮挡的影响较小，它可以准确地提取门店招牌。从图6看出，第一列图展示的是无遮挡情况下的大尺度门店招牌，第三列到第五列展示的是遮挡程度越来越高，即对自动提取难度越来越大的门店招牌。针对图中第一列图展示的无遮挡大尺度门店招牌，除了YOLOv5，我们的方法和其他四种方法都能完整地获得提取结果。但在遮挡情况下，这些方法表现不一。从第二列图中我们可以看到，只有我们的方法、Efficientdet和YOLOX可以提取出小尺度部分遮挡的门店招牌，但Efficientdet和YOLOX两种方法提取的边界不是很准确。对于第三列和第四列图所示的严重遮挡门店招牌，我们的方法提取的结果与其他测试算法相比，与图像上的实际门店招牌区域更一致，表明本文提出的OSO-YOLOv5门店招牌提取网络可以有效地提高检测精度，消除遮挡对道路提取的影响。综上所述，我们的方法可以感知多尺度信息，也能通过上下文信息推理被遮挡的部分，取得较高的检测精度。

表1显示了我们的方法在自标注CTW数据集上，五项指标均获得了最高的分数，表明我们的算法可以在精度和召回率之间保持平衡。相应的精度和召回率分别为82.7％和87.6％，表明82.7％的检测要素是测试影像中的门店招牌，而且影像中所有门店招牌要素的87.6％被正确检测到。我们方法的F1值为 82.4％，比其他方法高出6.0％-33.8％，表明我们方法优势很高。我们方法的IoU 值为78.1％，比排在第二位的YOLOv5_l高了16.3％。然而，我们的方法与原YOLOv5_l相比，召回率提高了7.5％，IoU提高了3.5％，表明我们的方法结果中，成功检测到的门店招牌比原YOLOv5_l检测的多。

表1CTW数据集定量评估

本发明的技术方案通过深度学习目标检测结合门店招牌的检测，生成的模型较小，有利于部署移植到边缘设备进行结果计算，从而提高巡检人员的工作效率，减少成本；通过单阶段的目标检测模型，有效地提升了预测推理的速度。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于深度学习的门店招牌信息提取的方法，其特征在于，包括如下步骤：

S1：获取供构建深度学习模型数据并划分数据集；

2.根据权利要求1所述的一种基于深度学习的门店招牌信息提取的方法，其特征在于，在S1中具体还包括：

S11、整理数据，只考虑正视视角成像的目标作为初始数据；

S12、导入初始数据，通过标注软件LabelImg手动画框，以标注门店招牌的位置信息，进行目标检测的信息标注，并按照格式<object-class-ID><X中心><Y中心><框宽><框高>表示标注的文本文件；

S13、将获得的VOC格式的数据集转换为TXT格式，进一步按照比例8:1:1划分为训练集、验证集、测试集，获得最终训练所需的数据集。

3.根据权利要求2所述的一种基于深度学习的门店招牌信息提取的方法，其特征在于，所述深度学习模型基于YOLOv5目标检测模型构建。

4.根据权利要求3所述的一种基于深度学习的门店招牌信息提取的方法，其特征在于，在S2中具体还包括：

5.根据权利要求4所述的一种基于深度学习的门店招牌信息提取的方法，其特征在于，在S3中具体还包括：

S32、可视化训练过程并查看与模型相关指标的变化曲线；