CN110942008B

CN110942008B - 一种基于深度学习的面单信息定位方法和***

Info

Publication number: CN110942008B
Application number: CN201911149243.0A
Authority: CN
Inventors: 张春月; 孙跃峰
Original assignee: Yto Express Co ltd
Current assignee: Yto Express Co ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-05-12
Anticipated expiration: 2039-11-21
Also published as: CN110942008A

Abstract

本发明公开了一种基于深度学习的面单信息定位方法和***，能够对例如应用于快递领域的电子面单有效信息(例如收、寄件人信息)提供更加准确的定位服务。其技术方案为：通过卷积神经网络模型从输入的面单图像中提取图像特征和卷积层特征图；对不同卷积层数的特征图进行边界框的回归和分类；基于回归和分类的特征图，通过损失函数对卷积神经网络模型进行训练，产生候选框；从候选框中筛选出置信度最高、存在目标的区域，以得到边界框的位置信息；根据得到的边界框位置信息进行裁剪，以得到包括有效信息在内的图片。

Description

一种基于深度学习的面单信息定位方法和***

技术领域

本发明涉及深度学习图像检测技术，具体涉及基于深度学习的(快递)面单信息定位方法和***。

背景技术

近些年来随着淘宝电商的快速发展，快递物流行业的业务量爆发式增长，特别是年中大促、双十一等特殊的电商节日，会产生大量的快递面单。这对快递公司在进行快递面单处理时带来很大的难度，如何对快递面单中的有效信息(即收、寄件人的信息)进行有效快速的处理是值得研究的问题。

深度学习方法随着近几年深度学习理论的快速发展，取得了很大的进步，特别是检测精度比原有算法有了较大的提高。大量文献表明深度学习自我学习的特征可以更好地描述检测目标的特性，避免了复杂的特征提取和数据建模过程。深度学习方法中较为主流的是卷积神经网络CNN，最早用于Mnist手写数字字符数据集上。现在主流的目标检测算法是R-CNN系列两阶段目标检测器，最早的R-CNN算法使用了Selective Search方法从一张图像生成约2000-3000个候选区域，然后通过卷积神经网络在候选区域提取特征并进行判断，之后出现的Fast R-CNN、Faster-RCNN算法都是R-CNN算法的提高。然而，目前虽然这些两阶段检测算法已经获得了较高准确率，但是很难在实际应用中应用，其主要原因是深度神经网络庞大的网络结构导致巨大的计算量难以满足实时的要求。所以，我们提出使用一种改进的基于单阶段神经网络网络模型对快递电子面单进行定位。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种基于深度学习的面单信息定位方法和***，能够对例如应用于快递领域的电子面单有效信息(例如收、寄件人信息)提供更加准确的定位服务。

本发明的技术方案为：本发明揭示了一种基于深度学习的面单信息定位方法，方法包括：

步骤1：通过卷积神经网络模型从输入的面单图像中提取图像特征和卷积层特征图；

步骤2：对步骤1中输出的不同卷积层数的特征图进行边界框的回归和分类；

步骤3：基于经步骤2回归和分类的特征图，通过损失函数对卷积神经网络模型进行训练，产生候选框；

步骤4：从候选框中筛选出置信度最高、存在目标的区域，以得到边界框的位置信息；

步骤5：根据得到的边界框位置信息进行裁剪，以得到包括有效信息在内的图片。

根据本发明的基于深度学习的面单信息定位方法的一实施例，步骤1是采用VGG16卷积神经网络模型提取图像特征，在提取图像特征的同时输出不同卷积层特征图。

根据本发明的基于深度学习的面单信息定位方法的一实施例，采用VGG16卷积神经网络模型中的前卷积层6-2层来进行特征提取，将卷积层6-2层之后的卷积层删除。

根据本发明的基于深度学习的面单信息定位方法的一实施例，步骤2是采用一系列的小卷积模块来预测物体的类别与坐标，对具有不同感受野的不同层数的特征图进行回归和分类。

根据本发明的基于深度学习的面单信息定位方法的一实施例，步骤3中的损失函数包括分类误差和定位误差，通过损失的最小化缩短分类和定位的预测误差。

根据本发明的基于深度学习的面单信息定位方法的一实施例，步骤4中，任一张面单图像的特征图上含有多个物体检测的候选框，且该多个候选框有重叠部分，非极大值抑制的处理是用以保留最优的框，假设有N个框，每个框被分类器计算得到的分数为S_i，其中1<＝i<＝N，非极大值抑制的处理步骤包括：

第一步：建造一个存放待处理候选框的集合H，初始化为包含全部N个框；建造一个存放最优框的集合M，初始化为空集；

第二步：将所有集合H中的框进行排序，选出分数最高的框m，从集合H移到集合M中；

第三步：遍历集合H中的框，分别与框m计算交并比，如果高于一阈值则认为此框与m重叠，将该框从集合H中去除；

第四步：回到第一步进行迭代，直到集合H为空，集合M中的框为面单图像中需要的框。

根据本发明的基于深度学习的面单信息定位方法的一实施例，步骤5是通过openCV工具进行裁剪。

本发明还揭示了一种基于深度学习的面单信息定位***，***包括：

特征提取模块，用于通过卷积神经网络模型从输入的面单图像中提取图像特征和卷积层特征图；

回归分类模块，用于对特征提取模块输出的不同卷积层数的特征图进行边界框的回归和分类；

模型训练模块，用于基于回归分类模块输出的特征图，通过损失函数对卷积神经网络模型进行训练，产生候选框；

筛选模块，用于从候选框中筛选出置信度最高、存在目标的区域，以得到边界框的位置信息；

裁剪模块，用于根据得到的边界框位置信息进行裁剪，以得到包括有效信息在内的图片。

根据本发明的基于深度学习的面单信息定位***的一实施例，特征提取模块是采用VGG16卷积神经网络模型提取图像特征，在提取图像特征的同时输出不同卷积层特征图。

根据本发明的基于深度学习的面单信息定位***的一实施例，采用VGG16卷积神经网络模型中的前卷积层6-2层来进行特征提取，将卷积层6-2层之后的卷积层删除。

根据本发明的基于深度学习的面单信息定位***的一实施例，回归分类模块是采用一系列的小卷积模块来预测物体的类别与坐标，对具有不同感受野的不同层数的特征图进行回归和分类。

根据本发明的基于深度学习的面单信息定位***的一实施例，模型训练模块中的损失函数包括分类误差和定位误差，通过损失的最小化缩短分类和定位的预测误差。

根据本发明的基于深度学习的面单信息定位***的一实施例，筛选模块中，任一张面单图像的特征图上含有多个物体检测的候选框，且该多个候选框有重叠部分，非极大值抑制的处理是用以保留最优的框，假设有N个框，每个框被分类器计算得到的分数为S_i，其中1<＝i<＝N，筛选模块中的非极大值抑制的处理步骤包括：

根据本发明的基于深度学习的面单信息定位***的一实施例，裁剪模块是通过open CV工具进行裁剪。

处理器；以及

存储器，所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据，

其中，当所述一系列计算机可执行的指令被所述处理器执行时，使得所述处理器进行如前所述的方法。

本发明还揭示了一种非临时性计算机可读存储介质，所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令，当所述一系列可执行的指令被计算装置执行时，使得计算装置进行如前所述的方法。

本发明对比现有技术有如下的有益效果：本发明的面单信息定位方法和***是基于深度学习卷积神经网络的一种方法。不同于传统的基于图像处理技术的面单信息定位技术，本发明提出的方法具有很好的鲁棒性更高的准确度。具体而言，本发明使用VGG16卷积神经网络模型的前卷积层6-2层进行图像特征提取以获取待定位的面单图像，对输入的面单图像进行预处理后，通过以VGG16卷积神经网络模型的前卷积层6-2层的基础架构提取面单图像的卷积特征，通过大小不同的特征图构建图像金字塔结构进行预测，在多个特征图上同时进行softmax分类和位置回归，避免了检测时低维特征提取不敏感问题，提高了检测的准确率。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的基于深度学习的面单信息定位方法的一实施例的流程图。

图2示出了本发明的卷积神经网络的结构示意图。

图3示出了本发明的基于深度学习的面单信息定位***的一实施例的原理图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图1示出了本发明的基于深度学习的面单信息定位方法的一实施例的流程。请参见图1，下面是对本实施例的定位方法的实施步骤的详细描述。

步骤S1：通过卷积神经网络模型从输入的面单图像中提取图像特征和卷积层特征图。

在本实施例中，是采用VGG16卷积神经网络模型提取图像特征，在提取图像特征的同时输出不同卷积层特征图。

由于检测目标相对较小(比如快递件上的收件人姓名等)，并且SSD在低层的特征图感受野比较小且高层的感受野比较大，本实施例采用如图2所示的VGG16卷积神经网络模型中的前卷积层6-2层来进行特征提取，将卷积层6-2层之后的卷积层删除，这样既不影响精度也能满足识别尺寸要求。

步骤S2：对步骤S1中输出的不同卷积层数的特征图进行边界框的回归和分类。

本步骤属于检测环节，具体是采用一系列的小卷积模块来预测物体的类别与坐标，对具有不同的感受野的不同层数的特征图进行回归和分类。

举例来说，对于每一张训练用的图像，输入的图像经预处理后大小为512*512，随机对图像进行如下几种选择：使用原始图像；随机采样多个patch(CropImage，裁剪的图像块)且与物体之间最小的交并比为：0.1，0.3，0.5，0.7与0.9。采样的patch是原始图像大小比例的[0.3，1.0]，空间比例aspect ratio在0.5或2。当真实边界框的中心(center)在采样的patch中且在采样的patch中真实边界框面积大于0时，就保留这个裁剪的图像块。在这些采样步骤之后，每一个采样的patch被重新调整大小到固定的大小，并且以0.5的概率随机的水平翻转(horizontally flipped)这样一个样本被诸多批次采样器采样后会生成多个候选样本，然后从中随机选一个样本送入网络训练。

步骤S3：基于经步骤S2回归和分类的特征图，通过损失函数对卷积神经网络模型进行训练，产生候选框。

本步骤属于训练过程，本实施例中的损失函数包括分类误差和定位误差，通过损失的最小化缩短分类和定位的预测误差。

举例来说，通过损失函数对卷积神经网络进行训练，其中损失函数L为：

其中：

本实施例中的损失分为L_conf(x,c)(置信度损失)和L_loc(x,l,g)(定位损失)两部分，其中N是匹配到真实标注的预测框数量；ɑ参数用于调节置信度损失和分类损失之间的比例，默认ɑ＝1。其中

为一个指示参数，当

时表示第i个先验框与第j个真实框匹配，并且真实框的类别为p。c为类别置信度预测值。l为先验框的所对应边界框的位置预测值，而g是真实框的位置参数。在置信度损失函数中采用交叉熵损失函数，对于定位损失，其采用L1平滑损失函数。

步骤S4：从候选框中筛选出置信度最高、存在目标的区域，以得到边界框的位置信息。

本步骤属于验证过程，是通过NMS(非极大值抑制)从候选框中加以筛选。非极大值抑制的详细处理步骤如下：

给出一张面单图像的特征图，该特征图上含有很多物体检测的候选框(即每个框可能都代表某种类型)，但是这些候选框很可能有互相重叠的部分，非最大抑制要做的就是只保留最优的框。假设有N个框，每个框被分类器计算得到的分数为S_i，其中1<＝i<＝N。

步骤S41：建造一个存放待处理候选框的集合H，初始化为包含全部N个框；建造一个存放最优框的集合M，初始化为空集。

步骤S42：将所有集合H中的框进行排序，选出分数最高的框m，从集合H移到集合M中。

步骤S43：遍历集合H中的框，分别与框m计算交并比，如果高于某个阈值(一般为0～0.5)，则认为此框与m重叠，将此框从集合H中去除。

步骤S44：回到步骤S41进行迭代，直到集合H为空。集合M中的框为面单图像中需要的框。

步骤S5：根据得到的边界框位置信息进行裁剪，以得到包括有效信息在内的图片。

本实施例是通过open CV工具进行裁剪，Open CV是Open Source ComputerVision Library，这是一个跨平台的计算机视觉库。在本步骤中，有效信息是指快递件上的收、寄件人信息。

图3示出了本发明的基于深度学习的面单信息定位***的一实施例的原理。请参见图3，本实施例的***包括：特征提取模块、回归分类模块、模型训练模块、筛选模块、裁剪模块。

特征提取模块用于通过卷积神经网络模型从输入的面单图像中提取图像特征和卷积层特征图。在本实施例中，是采用VGG16卷积神经网络模型提取图像特征，在提取图像特征的同时输出不同卷积层特征图。由于检测目标相对较小(比如快递件上的收件人姓名等)，并且SSD在低层的特征图感受野比较小且高层的感受野比较大，本实施例采用如图2所示的VGG16卷积神经网络模型中的前卷积层6-2层来进行特征提取，将卷积层6-2层之后的卷积层删除，这样既不影响精度也能满足识别尺寸要求。

回归分类模块用于不同卷积层数的特征图进行边界框的回归和分类。该模块属于检测环节，具体是采用一系列的小卷积模块来预测物体的类别与坐标，对具有不同的感受野的不同层数的特征图进行回归和分类。举例来说，对于每一张训练用的图像，输入的图像经预处理后大小为512*512，随机对图像进行如下几种选择：使用原始图像；随机采样多个patch(CropImage，裁剪的图像块)且与物体之间最小的交并比为：0.1，0.3，0.5，0.7与0.9。采样的patch是原始图像大小比例的[0.3，1.0]，空间比例aspect ratio在0.5或2。当真实边界框的中心(center)在采样的patch中且在采样的patch中真实边界框面积大于0时，就保留这个裁剪的图像块。在这些采样步骤之后，每一个采样的patch被重新调整大小到固定的大小，并且以0.5的概率随机的水平翻转(horizontally flipped)这样一个样本被诸多批次采样器采样后会生成多个候选样本，然后从中随机选一个样本送入网络训练。

模型训练模块用于通过损失函数对卷积神经网络模型进行训练，产生候选框。该模块属于训练环节，本实施例中的损失函数包括分类误差和定位误差，通过损失的最小化缩短分类和定位的预测误差。举例来说，通过损失函数对卷积神经网络进行训练，其中损失函数L为：

其中：

为一个指示参数，当

筛选模块用于从候选框中筛选出置信度最高、存在目标的区域，以得到边界框的位置信息。本实施例中是通过NMS(非极大值抑制)从候选框中加以筛选。筛选模块属于验证环节，非极大值抑制的详细步骤如下：

第一步：建造一个存放待处理候选框的集合H，初始化为包含全部N个框；建造一个存放最优框的集合M，初始化为空集。

第二步：将所有集合H中的框进行排序，选出分数最高的框m，从集合H移到集合M中。

第三步：遍历集合H中的框，分别与框m计算交并比，如果高于某个阈值(一般为0～0.5)，则认为此框与m重叠，将此框从集合H中去除。

第四步：回到第一步进行迭代，直到集合H为空。集合M中的框为面单图像中需要的框。

裁剪模块用于根据得到的边界框位置信息进行裁剪，以得到包括有效信息在内的图片。本实施例是通过open CV工具进行裁剪，Open CV是Open Source Computer VisionLibrary，这是一个跨平台的计算机视觉库。在本步骤中，有效信息是指快递件上的收、寄件人信息。

本发明还揭示了一种基于深度学习的面单信息定位***，***包括：处理器和存储器。存储器被配置为存储一系列计算机可执行的指令以及与这一系列计算机可执行的指令相关联的计算机可访问的数据，其中，当这一系列计算机可执行的指令被处理器执行时，使得处理器进行如前所述的方法。

本发明还揭示了一种非临时性计算机可读存储介质，非临时性计算机可读存储介质上存储有一系列计算机可执行的指令，当这一系列可执行的指令被计算装置执行时，使得计算装置进行如前所述的方法。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体***的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种基于深度学习的面单信息定位方法，其特征在于，方法包括：

步骤5：根据得到的边界框位置信息进行裁剪，以得到包括有效信息在内的图片；

其中，步骤4中，任一张面单图像的特征图上含有多个物体检测的候选框，且该多个候选框有重叠部分，非极大值抑制的处理是用以保留最优的框，假设有N个框，每个框被分类器计算得到的分数为S_i，其中1<＝i<＝N，非极大值抑制的处理步骤包括：

2.根据权利要求1所述的基于深度学习的面单信息定位方法，其特征在于，步骤1是采用VGG16卷积神经网络模型提取图像特征，在提取图像特征的同时输出不同卷积层特征图。

3.根据权利要求2所述的基于深度学习的面单信息定位方法，其特征在于，采用VGG16卷积神经网络模型中的前卷积层6-2层来进行特征提取，将卷积层6-2层之后的卷积层删除。

4.根据权利要求1所述的基于深度学习的面单信息定位方法，其特征在于，步骤2是采用一系列的小卷积模块来预测物体的类别与坐标，对具有不同感受野的不同层数的特征图进行回归和分类。

5.根据权利要求1所述的基于深度学习的面单信息定位方法，其特征在于，步骤3中的损失函数包括分类误差和定位误差，通过损失的最小化缩短分类和定位的预测误差。

6.根据权利要求1所述的基于深度学习的面单信息定位方法，其特征在于，步骤5是通过open CV工具进行裁剪。

7.一种基于深度学习的面单信息定位***，其特征在于，***包括：

裁剪模块，用于根据得到的边界框位置信息进行裁剪，以得到包括有效信息在内的图片；

其中，筛选模块中，任一张面单图像的特征图上含有多个物体检测的候选框，且该多个候选框有重叠部分，非极大值抑制的处理是用以保留最优的框，假设有N个框，每个框被分类器计算得到的分数为S_i，其中1<＝i<＝N，筛选模块中的非极大值抑制的处理步骤包括：

8.根据权利要求7所述的基于深度学习的面单信息定位***，其特征在于，特征提取模块是采用VGG16卷积神经网络模型提取图像特征，在提取图像特征的同时输出不同卷积层特征图。

9.根据权利要求8所述的基于深度学习的面单信息定位***，其特征在于，采用VGG16卷积神经网络模型中的前卷积层6-2层来进行特征提取，将卷积层6-2层之后的卷积层删除。

10.根据权利要求7所述的基于深度学习的面单信息定位***，其特征在于，回归分类模块是采用一系列的小卷积模块来预测物体的类别与坐标，对具有不同感受野的不同层数的特征图进行回归和分类。

11.根据权利要求7所述的基于深度学习的面单信息定位***，其特征在于，模型训练模块中的损失函数包括分类误差和定位误差，通过损失的最小化缩短分类和定位的预测误差。

12.根据权利要求7所述的基于深度学习的面单信息定位方法，其特征在于，裁剪模块是通过open CV工具进行裁剪。

13.一种基于深度学习的面单信息定位***，其特征在于，***包括：

处理器；以及

其中，当所述一系列计算机可执行的指令被所述处理器执行时，使得所述处理器进行如权利要求1至6中任一项所述的方法。

14.一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令，当所述一系列可执行的指令被计算装置执行时，使得计算装置进行如权利要求1至6中任一项所述的方法。