CN111061904A

CN111061904A - 一种基于图像内容识别的本地图片快速检测方法

Info

Publication number: CN111061904A
Application number: CN201911240767.0A
Authority: CN
Inventors: 朱安娜; 杜行; 郭宏; 路雄博; 张晨
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-24
Anticipated expiration: 2039-12-06
Also published as: CN111061904B

Abstract

本发明公开了一种基于图像内容识别的本地图片快速检测方法，主要包括：步骤1，构建训练数据集，包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、中心点和旋转角等信息；步骤2，利用步骤1构建的训练数据在服务器端训练文本识别模型与目标检测模型；步骤3，利用训练好的文本识别模型与目标检测模型，自动将客户端的图像输入转化为带有语义标注的文件；步骤4，将步骤3得到的文件进行解析、整理并转存在用户本地数据库中；步骤5，根据客户端发出的请求信息，在数据库中进行检索，然后将检索结果反馈给客户端，并展示图片内容和对应标注。本发明提能够提高图像检索的准确性和速度。

Description

一种基于图像内容识别的本地图片快速检测方法

技术领域

本发明涉及机器学习与图像处理，具体涉及一种基于图像内容识别的本地图片快速检测方法。

背景技术

近年来，随着智能设备的发展和摄像头像素的不断提高，人们慢慢习惯了用相机来记录日常生活中的各种信息。但随着相册中照片越积越多，如何在相册文件夹中快速找到目标图片就成了一个新的难题。

现有的搜索方式多为基于文件名的搜索，但相册图片一般根据拍照时间或者序列命名，基于名称的查找不能胜任此类图像查询任务。而手动为每一张图片进行重命名然后进行检索虽然可以完成搜索任务，但随着照片数量的增多，巨大的标注工作量无疑会带来大量人力和时间上的花费。

目前，针对以上问题，大部分解决方案都是围绕快速重命名和图片注释，通过优化分类和注释方式，(如批量重命名模板和智能标签推荐等)，虽然可以解决本地图片无从搜索的问题，但相册图片内容***，且不同的人有不同的命名习惯，以上标注方式在准确率和速度方面就会产生很大的局限性。

针对此情况，我们利用计算机在大规模计算上的优势，通过深度学习的方法自动识别图像中的文本和目标类别等语义信息，并对这些信息进行解读和整合，作为图像的隐藏注释和搜索依据，可以较好解决上述问题。

发明内容

本发明的目的是为了解决上述背景技术存在的不足，提出了一种基于图像内容识别的本地图片快速检测方法。为了实现上述目的，本发明所采用的技术方案为：

步骤1，构建训练数据集，包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、以及内容文本区域的中心点和旋转角信息，所述内容文本区域即定位框；

步骤2，利用步骤1构建的训练数据集在服务器端训练文本识别模型与目标检测模型，所述文本识别模型用于定位图片中的文本区域并提取图片中的关键字信息，目标检测模型用于识别图片的类别；

步骤3，利用训练好的文本识别模型与目标检测模型，自动将客户端的图片输入转化为带有语义标注的文件；

步骤4，将步骤3得到的文件进行解析、整理并转存在用户本地数据库中；

步骤5，根据客户端发出的请求信息，在数据库中进行检索，然后将检索结果反馈给客户端，并显示图片内容和对应标注。

进一步的，步骤1中通过定位框的顶点计算中心点坐标，并计算每个定位框相对水平方向的旋转角，旋转角的计算过程如下，

Step11：对于给定的四个顶点{(x₁,y₁,),…,(x₄,y₄)}，将横坐标最小的点x_min定义为A；

Step12：其他三个点和A连线形成夹角，取中间点为C；

Step13：以AC为连线，在AC上方为D，下方为B；

Step14：比较AC和BD的斜率，如果k_AC>k_BD，则顺序调整为DABC，反之，则维持ABCD；

Step15：定位框的旋转角θ为AB和水平线之间的夹角。

进一步的，所述文本识别模块中，以特征金字塔网络为主干网络对原始图片I进行特征提取，将提取到的特征图F_I输入到Anchor生成模块，所述Anchor生成模块包括三个分支，分别为位置预测分支、形状预测分支和角度预测分支，用于获得预测框的位置、形状和旋转角，然后针对形状预测分支的预测结果，用1×1卷积预测每个位置卷积核的偏置场，并基于该偏置场进行3×3的可变卷积完成对特征图的融合，最后将特征融合结果输入到CRNN文本识别网络中实现对图片中文本信息的识别；

其中，位置预测分支接收主干网络FPN的基本特征输出F_I，并对特征图进行1×1的卷积以获得目标概率的映射，然后对每个元素使用sigmoid函数从而转化为概率值，输出为与输入特征映射大小相同的概率图p(·|F_I)；

形状预测分支接收主干网络FPN的基本特征输出F_I，并对特征图进行1×1的卷积，该分支为每个位置预测(w,h)的最佳形状，其中，w为预测框的宽度,h为预测框的高度；

角度预测分支的输入为基本特征图F_I，输出为经过1×1卷积之后的角度预测信息i_θ，最终角度预测值由

求得。

进一步的，所述文本识别模型采用多任务损失函数对模型进行优化训练，损失函数的计算公式如下，

L＝L_cls+L_reg+αL_loc+βL_shape+λL_angle

其中，分类损失L_cls采用Focal Loss，回归损失L_reg采用Smooth L₁损失，通过引入位置预测损失L_loc，形状预测损失L_shape以及角度预测损失L_angle三个部分，最终通过为这五个损失分配对应的权重来优化模型参数，经过反向传播进行梯度更新，训练文本识别模型；

其中，L_loc＝-(1-y′)γlogy′，y′∈(0,1)是位置预测分支中经过激活函数的输出，即p(·|F_I)，γ为平衡因子；

此处L₁为Smooth L₁损失，w，h为形状预测分支的输出，w_g和hg为训练数据集对应的真值标注；

其中θ为角度预测分支的输出结果，θ_g为训练数据集的旋转角标注信息。

进一步的，所述目标检测模型采用现有的Mask_Rcnn模型。

本发明的有益效果在于：本发明提出了一种基于图像中的文本关键字和物体类别等信息进行本地图像文件搜索的模式，结合深度学习下的场景文本识别和目标检测模型，自动、快速的生成图像注释，且不会改变图像原本信息。

本发明对场景文本和中文字符具有高鲁棒性，目前的场景文本识别算法大多针对英文字母和***数字进行定位和识别，对于汉字的检测，尤其是对自然场景中汉字进行定位的研究结果不尽人意。本项目所做研究不仅仅适用于字母和数字，对于汉字的检测同样具有很高的重视程度和良好的表现。

附图说明

图1为本发明整体流程图。

图2为本发明技术路线图。

图3为本发明文本识别模型的网络结构示意图。

图4为本发明目标检测模型的网络结构示意图。

图5为本发明定位区域优劣判断算法示意图。

图6为本发明实施例中中心角的示意图。

具体实施方式

为了具体说明使本发明的目的、技术方案、优点和可实现性，下面结合附图和实施例对本发明做进一步的说明。应当理解，此处所描述的具体实例仅仅用于解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互结合。

如图2所示，一种基于图像内容识别的本地图片快速检测方法，该方法主要包括图片输入，目标检测，文本识别，图像搜索四个模块，该方法包括如下步骤：

步骤1，构建训练数据集，包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、中心点和旋转角等信息；

由于常用的目标与文本识别数据集大多只对类别和定位框的顶点坐标做了注释，而本模型为了更好的解决现实中文本带有倾角的问题，需要额外的中心点和旋转角度等信息，所以需要通过定位框的顶点计算中心点坐标，并计算每个定位框相对水平方向的旋转角度。旋转角度的定义过程下所示，如图6所示。

Step1：对于给定的四个顶点{(x₁,y₁,),…,(x₄,y₄)}，我们将横坐标最小的点x_min定义为A；

Step2：其他三个点和A连线形成夹角，取中间点为C；

Step3：以AC为连线，在AC上方为D，下方为B；

Step4：比较AC和BD的斜率，如果k_AC>k_BD，则顺序调整为DABC，反之，则维持ABCD；

Step5：定位框的旋转角θ为AB和水平线之间的夹角。

其中，Step4是为了排除当存在水平定位框时，AB与水平线之间的夹角可为0°或90°的二义性。

本项目采取的数据集均为场景文本识别和目标检测标注数据集，具体如下：文本识别模块训练集采用2019年文档分析与识别国际会议(ICDAR)上由美团网提供的RECTS数据集，目标检测模块的训练集采用MS-COCO2017数据集。测试集除标准测试集外，还加入了本地测试相册图片195张。

步骤2，利用步骤1构建的训练数据在服务器端训练文本识别模型与目标检测模型，其中文本识别模型用于提取照片中的关键字信息；目标检测模型用于对COCO数据集中标注的生活中常见的90个类别进行识别，共同处理相册图像的分类和识别。具体而言，在文本识别模型中，我们采用图3所示的网络模型。首先将上述数据集中的图像I输入FPN网络进行特征提取，然后在Anchor生成模块计算位置、形状和角度三个部分的损失，通过反向传播算法更新参数得到Anchor，最后将检测结果输入到CRNN文本识别网络中实现对图片中文本信息的识别。

具体的，在特征提取阶段，为避免高维卷积中小尺度信息被忽略，基于特征金字塔网络(FPN)设计主干网络，通过共享高维和低维卷积特征，不仅可以保留图像的语义信息，并且不需要增加额外的计算量。

位置预测分支用于判断特征图上的每个点是否处于对应目标(即文本所在区域)的中心，如果处于目标中心，则进一步预测形状和角度信息，反之则将该点归入背景区域。该分支接收主干网络FPN的基本特征输出F_I，并对特征图进行1×1的卷积以获得目标概率的映射，然后对每个元素使用sigmoid函数从而转化为概率值。输出为与输入特征映射大小相同的概率图p(·|F_I)，每个特征输入得到的结果表示对象中心在该位置存在的概率。在预测目标的可能位置之后，通过形状预测分支确定每个位置存在对象的规模和宽高比例。同样的，对基本特征输出F_I进行1×1的卷积，输出为尺寸相同的两通道，表示每个位置可能最好的anchor形状。此过程不会改变锚的位置，对特征映射F_I，该分支将为每个位置预测(w,h)的最佳形状，其中，w为定位框的宽度,h为定位框的高度。最后一个阶段是预测对象区域的旋转角，该过程类似于位置预测分支，输入为F_I，旋转角度定义为AB和水平线之间的夹角，范围在

之间，并归一化至[0,1]。分支输入为基本特征图F_I，输出为经过1×1卷积之后的角度预测信息i_θ，最终角度预测值可由

求得，参数通过下方的损失函数进行优化。

由于w和h由网络预测得到，故每个位置对应anchor的形状和大小也不相同，较大的(w,h)组合对应较大的anchor，也就对应较大的感受野，较小的(w,h)组合对应的感受野则相对较小，所以无法用传统的方式直接对F_I进行卷积来预测。此处利用可变卷积的思想，先用1×1卷积预测每个位置卷积核的偏置场，输入为形状预测分支的两通道预测结果，然后基于该偏置场进行3×3的可变卷积完成对特征图的融合。计算公式如下：

F′_i＝N_T(F_i,w_i,h_i)

其中，F_i是第i个位置的特征，即FPN的网络输出，(w_i,h_i)是对应的anchor形状预测分支的输出结果。N_T为3×3的可变卷积，通过对带偏置的原始特征图做可变卷积获得融合后的特征，用于进一步分类和回归定位框的。

为了实现以上目标，我们需要解决如下关键科学问题：

(1)Anchor的定义方式

对于传统的Anchor，可以通过矩形框四个顶点的坐标{(x₁,y₁,),…,(x₄,y₄)}来确定，也可以通过{x,y,w,h}四元组来确定，其中(x,y)为中心点坐标，w,h分别为矩形框的宽度和高度。同样，对于带倾角的Anchor，则会有更多种定义方式，并且不同的定义方式可能导致不同的准确率，既可以通过上文提到的五元组

来定义，也可以通过{x₁,y₁,x₂,y₂,h}来定义以消除

区间的不稳定性带来的影响，相关定义方式对结果的影响需要通过实验比较。

(2)如何判断Anchor生成的优劣

传统的Anchor算法通过设置IOU的阈值来判断哪些框应当保留或舍弃，但之前的IOU算法只能计算两个水平矩形区域的重叠比例，引入角度信息后，只利用坐标不能完成满足本项目要求的IOU计算，因此需要设计新的算法来评判Anchor生成的优劣。

对于带倾角的矩形区域，要计算其IOU(交并比，intersection over union)，区别于传统方法，除了在像素级别计算之外，还可以通过如下方式进行计算，定义矩形α的四个顶点为ABCD，矩形β的四个顶点为EFGH，两个矩形的交点按照顺序以此排列为I，J，K…，图5简单列举了几种可能的情况：

Step1：建立集合S，将两个矩形区域的交点存入集合内；

Step2：存入在矩形α内的矩形β的顶点；

Step3：存入在矩形β内的矩形α的顶点；

Step4：对集合内的元素进行逆时针排序；

Step5：对排序结果，以此连接相邻顶点，利用三角形法则计算多边形面积；

Step6：用多边形面积除以总面积得到最终IOU。

在训练和优化过程中，采用多任务损失函数对模型进行优化，分类损失L_cls部分采用FocalLoss，回归损失L_reg部分采用Smooth L₁损失，此外还引入了位置预测损失L_loc，形状预测损失L_shape以及角度预测损失L_angle三个部分，最终通过为这五个损失分配对应的权重来优化模型参数，经过梯度更新，训练文本识别模型。

L＝L_cls+L_reg+αL_loc+βL_shape+λL_angle

具体而言，位置预测分支的目标是预测哪些区域应该作为中心点来生成anchor，是一个二分类问题。不同于传统RPN的分类，这里我们并不是预测每个点是前景还是背景，而是预测是不是文本区域的中心。为了减小正负样本的干扰，将整个特征图分为文本中心区域，***区域和忽略区域，将GroundTruth框的中心一小块对应在特征图上的区域标为文本中心区域，在训练的时候作为正样本，其余区域按照离中心的距离标为忽略和负样本，此处采用FocalLoss来训练位置预测分支。即L_loc＝-(1-y′)^γlogy′,其中y′∈(0,1)是网络经过激活函数的输出，即p(·|F_I)，γ为平衡因子，设置为2。

在形状预测分支，直接采用IoU作为监督来学习w和h。

w，h为形状预测分支的输出，代表anchor的宽和高的预测结果，w_g和h_g为训练数据集对应的真值标注，此处L₁为Smooth L₁损失。

最后，用正弦损失

来训练角度预测分支，θ和θ_g代表定位框AB所在直线与水平方向的夹角，其中θ为角度预测分支的输结果，θ_g为训练数据集的旋转角标注信息。

目标检测部分，我们采用目前Github中表现较好的目标检测算法：Mask_Rcnn来处理目标检测任务，其网络架构如图4所示。

步骤3，利用训练好的文本识别与目标检测模型，自动将客户端的图像输入转化为带有语义标注的文件；具体步骤为：

向训练好的检测网络中输入用户的相册图像文件，网络输出即为检测和识别的结果文件。

具体的，首先解析网络输出的文件，将.xml和.txt文件中文件路径，文件名，检测和识别的相关结果进行解析和分割。然后针对需求设计数据表，表的设计可如下表所示。最后，将之前解析结果存入数据库中。对于识别结果不匹配或者为空的错误预测框进行删除，将正确的文本识别结果作为输出传输到客户端。

1-1图片表(picture)

字段名	字段含义	字段类型	允许为空	是否为主/外键
					P_Source	图片路径	varchar	NOT null
P_name	图片名	varchar	NOT null
					P_id	图片id	Int	NOT null	主键

1-2图片类别表(classification)

字段名	字段含义	字段类型	允许为空	是否为主/外键
					class	类别名称	varchar	NOT null
C_id	类别id	Int		主键

1-3内容表(information)

字段名	字段含义	字段类型	允许为空	是否为主/外键
					Content	文本内容	varchar
I_id	内容id	Int	NOT null	主键
					P_id	图片id	Int	NOT null	外键
C_id	类别id	Int	NOT null	外键
					Location	位置坐标	varchar	NOT null

步骤5，根据客户端发出的请求信息，在数据库中进行检索，然后将检索结果反馈给客户端，并可以显示图片内容和对应标注。

用户在客户端输入搜索关键词，返回结果为对应的图片文件。进一步的，在图片详情界面除了可以查看图片内容和标注之外还可以添加和修改部分标注内容。

整体来讲，文本识别模块和目标检测模块共同处理图片输入模块的用户图片输入，然后将以上两个模块处理的结果在图像搜索模块进行解析、整理和数据库存储。最后通过前台用户关键字请求和数据库后台进行交互，返回对应的图片检索结果。目前，本发明文本识别的精度在ICDAR 2017MLT文本识别任务中为67.9％，目标检测模块在MS COCO数据集中的精度为69.3％，通过抽样调查实验，总体检索的平均准确率可以达到93.1％，可以很好的应对生活中的图片检索任务。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于图像内容识别的本地图片快速检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于图像内容识别的本地图片快速检测方法，其特征在于：步骤1中通过定位框的顶点计算中心点坐标，并计算每个定位框相对水平方向的旋转角，旋转角的计算过程如下，

Step11：对于给定的四个顶点{(x₁,y_1,),…,(x₄,y₄)}，将横坐标最小的点x_min定义为A；

Step12：其他三个点和A连线形成夹角，取中间点为C；

Step13：以AC为连线，在AC上方为D，下方为B；

Step15：定位框的旋转角θ为AB和水平线之间的夹角。

3.如权利要求1所述的一种基于图像内容识别的本地图片快速检测方法，其特征在于：所述文本识别模块中，以特征金字塔网络为主干网络对原始图片I进行特征提取，将提取到的特征图F_I输入到Anchor生成模块，所述Anchor生成模块包括三个分支，分别为位置预测分支、形状预测分支和角度预测分支，用于获得预测框的位置、形状和旋转角，然后针对形状预测分支的预测结果，用1×1卷积预测每个位置卷积核的偏置场，并基于该偏置场进行3×3的可变卷积完成对特征图的融合，最后将特征融合结果输入到CRNN文本识别网络中实现对图片中文本信息的识别；

形状预测分支接收主干网络FPN的基本特征输出F_I，并对特征图进行1×1的卷积，该分支为每个位置预测(w,h)的最佳形状，其中，w为预测框的宽度，h为预测框的高度；

求得。

4.如权利要求3所述的一种基于图像内容识别的本地图片快速检测方法，其特征在于：所述文本识别模型采用多任务损失函数对模型进行优化训练，损失函数的计算公式如下，

L＝L_cls+L_reg+αL_loc+βL_shape+λL_angle

其中，L_loc＝-(1-y′)^γlogy′，y′∈(0,1)是位置预测分支中经过激活函数的输出，即p(·|F_I)，γ为平衡因子；

5.如权利要求1所述的一种基于图像内容识别的本地图片快速检测方法，其特征在于：所述目标检测模型采用现有的Mask_Rcnn模型。