CN110232713B

CN110232713B - 一种图像目标定位修正方法及相关设备

Info

Publication number: CN110232713B
Application number: CN201910519331.9A
Authority: CN
Inventors: 陈翔; 潘杰茂; 唐斌
Original assignee: Tencent Cyber Tianjin Co Ltd
Current assignee: Tencent Cyber Tianjin Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2022-09-20
Anticipated expiration: 2039-06-13
Also published as: CN110232713A

Abstract

本发明实施例公开了一种图像目标定位修正方法及相关设备，所述方法包括：识别第一图像中的至少一个图像元素；提取所述各个图像元素的元素特征，并根据所述元素特征识别构成所述第一图像中的目标对象的图像元素；获取构成所述目标对象的图像元素在所述第一图像中的位置，并根据构成所述目标对象的图像元素在所述第一图像中的位置，确定所述目标对象在第一图像中的边界位置信息；获取所述目标对象的第一边界框；根据所述目标对象在所述第一图像中的边界位置信息，以及所述第一边界框，生成所述目标对象在所述第一图像中的修正位置信息。采用本发明可以提高对第一图像中目标对象的定位精度。

Description

一种图像目标定位修正方法及相关设备

技术领域

本申请涉及图像处理领域，尤其涉及一种图像目标定位修正方法及相关设备。

背景技术

随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对图像中的目标进行定位、实时跟踪等的研究越来越热门，针对图像中的目标检测技术在安防、交通、军事、医学等领域也都具有广泛的应用。一种基于区域卷积神经网络的目标检测模型可以将对输入图片进行处理，输入该图片中包含的目标对象的分类，以及该目标对象在图片中的位置框。基于区域卷积神经网络的目标检测模型在进行目标检测时，首先提取图片的多维度抽象特征，进而根据图片的多维度抽象特征进行目标对象的识别和定位，由于实际应用中图片种类繁多，图片的颜色、纹理、点密度、色彩分布空间等特征***，有限的样本训练得到的基于区域卷积神经网络的目标检测模型，通常不能准确标注目标对象在图片中的位置。

发明内容

本申请提供一种图像目标定位修正方法及相关设备，通过本发明可以提高对第一图像中目标对象的定位精度。

本发明实施例一方面提供一种图像目标定位修正方法，包括：

识别第一图像中的至少一个图像元素；

提取所述各个图像元素的元素特征，并根据所述元素特征识别构成所述第一图像中的目标对象的图像元素；

获取构成所述目标对象的图像元素在所述第一图像中的位置，并根据构成所述目标对象的图像元素在所述第一图像中的位置，确定所述目标对象在第一图像中的边界位置信息；

获取所述目标对象的第一边界框，所述第一边界框为所述目标对象在所述第一图像中的边界框；

根据所述目标对象在所述第一图像中的边界位置信息，以及所述第一边界框，生成所述目标对象在所述第一图像中的修正位置信息。

其中，所述识别第一图像中的至少一个图像元素包括：

对所述第一图像进行轮廓标注，生成所述第一图像对应的元素轮廓图像；

根据所述元素轮廓图像中的轮廓，识别出所述第一图像中字符类图像元素的轮廓，以及图标类图像元素的轮廓。

其中，所述对所述第一图像进行轮廓标注，生成所述第一图像对应的元素轮廓图像包括：

获取所述第一图像对应的灰度化图像，并获取所述灰度化图像中各个像素点的灰度梯度强度和灰度梯度方向；

根据所述灰度化图像中各个像素点的灰度梯度强度和灰度梯度方向，确定第一图像中的边缘像素点；

根据所述第一图像中的边缘像素点，生成所述第一图像对应的元素轮廓图像。

其中，所述元素特征包括元素尺寸特征、元素种类特征、元素间距特征和元素对齐方式特征中的一种或多种；

所述提取所述各个图像元素的元素特征，并根据所述元素特征识别构成所述第一图像中的目标对象的图像元素包括：

将元素特征满足所述目标对象对应的对象构成规则的图像元素，确定为构成所述目标对象的图像元素，所述目标对象对应的对象构成规则包含所述目标对象中图像元素的元素尺寸规则、元素种类规则、元素间距规则和元素对齐规则中的一种或多种。

其中，所述获取构成所述目标对象的图像元素在所述第一图像中的位置，并根据构成所述目标对象的图像元素在所述第一图像中的位置，确定所述目标对象在第一图像中的边界位置信息包括：

在所述第一图像中建立二维直角坐标系，确定构成所述目标对象的图像元素的各个像素点的像素点坐标值，所述像素点坐标值包括横坐标值和纵坐标值；

分别确定所述像素点坐标值中的最大横坐标值、最小横坐标值、最大纵坐标值和最小纵坐标值；

所述根据所述目标对象在所述第一图像中的边界位置信息，以及所述第一边界框，生成所述目标对象在所述第一图像中的修正位置信息包括：

在所述直角坐标系中确定所述最大横坐标值、所述最小横坐标值、所述最大纵坐标值和所述最小纵坐标值对应的第一矩形框；

将所述第一矩形框与所述第一边界框的重叠区域对应的位置信息，确定为所述目标对象在所述第一图像中的修正位置信息。

其中，所述元素轮廓图像包含用于指示所述图像元素的轮廓的白色像素点；

所述根据所述元素轮廓图像中的轮廓，识别出所述第一图像中字符类图像元素的轮廓，以及图标类图像元素的轮廓之前，还包括：

分别以所述元素轮廓图像中各个白色像素点作为噪点检测的基准点，确定每个基准点对应的单位噪点检测区域包含的白色像素点的数量；

将包含白色像素点且数量小于预设像素点阈值的单位噪点检测区域对应的基准点确定为噪声点，并从所述图像元素的轮廓中删除被确定为噪声点的白色像素点。

其中，所述获取所述目标对象的第一边界框包括：

对所述第一图像进行图像特征提取，得到所述第一图像的特征映射图像，所述特征映射图像包含携带所述特征映射图像中各个像素点的像素点特征；

确定所述特征映射图像中各个像素点在所述第一图像中对应的边界框中心点；

在所述第一图像中为各个所述边界框中心点设置预设边框尺寸的预选边界框；

根据所述第一图像的特征映射图像，从所述预选边界框中确定所述第一边界框。

其中，所述特征映射图像包含携带所述特征映射图像中各个像素点的像素点特征；

所述根据所述第一图像的特征映射图像，从所述预选边界框中确定所述第一边界框包括：

根据各个边界框中心点在所述特征映射图像中对应的像素点的像素点特征，确定各个所述预选边界框的评估分数；

根据各个所述预选边界框的评估分数，确定所述特征映射图像的候选边界框；

将所述候选边界框融合至所述特征映射图像，并根据融合后的特征映射图像生成针对各个所述候选边界框的预设尺寸的候选框特征图；

根据所述预设尺寸的候选框特征图对所述候选边界框进行分类，得到针对所述目标对象的第一边界框。

其中，所述根据所述预设尺寸的候选框特征图对所述候选边界框进行分类，得到针对所述目标对象的第一边界框包括：

根据所述预设尺寸的候选框特征图对所述候选边界框进行分类，得到针对所述目标对象的第一候选边界框；

对所述第一候选边界框进行边界框回归，得到所述第一边界框。

其中，所述图像元素包括所述第一图像中的字符类图像元素或具有连续轮廓的图标类图像元素。

本发明实施例另一方面提供了一种图像目标定位修正装置，包括：

元素识别模块，用于识别第一图像中的至少一个图像元素；

特征提取模块，用于提取所述各个图像元素的元素特征，并根据所述元素特征识别构成所述第一图像中的目标对象的图像元素；

对象边界确定模块，用于获取构成所述目标对象的图像元素在所述第一图像中的位置，并根据构成所述目标对象的图像元素在所述第一图像中的位置，确定所述目标对象在第一图像中的边界位置信息；

边界框获取模块，用于获取所述目标对象的第一边界框，所述第一边界框为所述目标对象在所述第一图像中的边界框；

位置修正模块，用于根据所述目标对象在所述第一图像中的边界位置信息，以及所述第一边界框，生成所述目标对象在所述第一图像中的修正位置信息。

其中，所述元素识别模块，包括轮廓标注单元和元素识别单元：

所述轮廓标注单元，用于对所述第一图像进行轮廓标注，生成所述第一图像对应的元素轮廓图像；

所述元素识别单元，用于根据所述元素轮廓图像中的轮廓，识别出所述第一图像中字符类图像元素的轮廓，以及图标类图像元素的轮廓。

其中，所述轮廓标注单元，具体用于：

所述特征提取模块，具体用于将元素特征满足所述目标对象对应的对象构成规则的图像元素，确定为构成所述目标对象的图像元素，所述目标对象对应的对象构成规则包含所述目标对象中图像元素的元素尺寸规则、元素种类规则、元素间距规则和元素对齐规则中的一种或多种。

其中，所述对象边界确定模块，具体用于在所述第一图像中建立二维直角坐标系，确定构成所述目标对象的图像元素的各个像素点的像素点坐标值，所述像素点坐标值包括横坐标值和纵坐标值；

所述位置修正模块，具体用于：

所述装置还包括降噪模块，具体用于：

其中，所述边界框获取模块具体用于：

所述边界框获取模块根据所述第一图像的特征映射图像，从所述预选边界框中确定所述第一边界框包括：

其中，所述边界框获取模块根据所述预设尺寸的候选框特征图对所述候选边界框进行分类，得到针对所述目标对象的第一边界框包括：

本发明实施例还提供了一种图像目标定位修正装置，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中的方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中的方法。

本发明实施例中，将第一图像中的至少一个图像元素识别出之后，提取各个图像元素的元素特征，并根据图像元素的元素特征，识别出构成目标对象的图像元素，进而获取构成目标对象的图像元素在第一图像中的位置，并根据构成目标图像的图像元素在第一图像中的位置，确定目标对象在第一图像中的边界位置信息，然后获取所述目标对象在所述第一图像中的第一边界框，并根据目标对象在第一图像中的边界位置信息，以及第一边界框，生成目标对象在第一图像中的修正位置信息。实现了根据目标对象在第一图像中的边界位置信息修正第一边界框，得到目标对象在第一图像中的修正位置信息，提高了对目标对象的定位精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种Faster R-CNN网络结构示意图；

图2为本发明实施例提供的一种图像目标定位修正方法的流程示意图；

图3为本发明实施例提供的一种第一图像的示例图；

图4a为本发明实施例提供的一种UI设计图示例；

图4b为本发明实施例提供的另一种UI设计图示例；

图4c为本发明实施例提供的另一种UI设计图示例；

图4d为本发明实施例提供的又一种UI设计图示例；

图5为本发明实施例提供的一种另一种第一图像的示例；

图6为本发明实施例中图5所示的第一图像对应的元素轮廓图像；

图7为本发明实施例提供的一种确定目标图像的边界位置信息的示意图；

图8为本发明实施例提供的一种第一边界框的示例图；

图9为本发明实施例提供的一种针对图8中第一边界框807进行位置修正的示意图；

图10为本发明实施例提供的另一种针对图8中第一边界框807进行位置修正的示意图；

图11为本发明实施例提供的一种图像目标定位修正装置的结构示意图；

图12为本发明实施例提供的另一种图像目标定位修正装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中提供的目标定位修正方法为基于目标对象的第一边界框进行位置修正的方法，目标对象的第一边界框为通过基于区域卷积神经网络的目标检测模型得到的，首先对基于区域卷积神经网络的相关背景做简单介绍：目前主流的区域卷积神经网络主要有三种，包括R-CNN、Fast R-CNN和Faster R-CNN，均可以实现输入一张图像，输入图像所包含的目标的种类和目标所在位置的边框(bounding box)。

其中，R-CNN检测目标的图像处理过程如下：输入图像；通过selective search算法在图像中提取2000个左右的候选区域；将每个候选区域缩放(wrap)成固定尺寸后，输入卷积神经网络，得到每个候选区域的特征图；将候选区域的特征图输入分类器对各个候选区域进行分类，确定各个候选区域包含对象的种类，进而得到包含目标的区域；对包含目标的区域进行边框回归，得到目标对应的预测边框。

其中，Fast R-CNN检测目标的图像处理过程如下：输入图像；利用selectivesearch算法在图像中提取2000个左右的候选区域；将整张图像输入卷积神经网络，进行特征提取，得到整张图像对应的特征图；将候选区域融合至整张图像对应的特征图上；通过感兴趣区域池化(ROI pooling)层针对每个候选区域生成固定尺寸的特征图；根据每个候选区域对应的固定尺寸的特征图对各个候选区域进行分类，确定各个候选区域包含对象的种类，进而得到包含目标的区域；对包含目标的区域进行边框回归，得到目标对应的预测边框。

其中，Faster R-CNN检测目标的图像处理过程如下：输入图像；将整张图片输入卷积神经网络，进行特征提取，得到整张图像对应的特征图；通过RPN(Region ProposalNetwork，区域建议网络)生成300个左右的候选区域；将候选区域融合至整张图像对应的特征图上；通过感兴趣区域池化(RoIpooling)层针对每个候选区域生成固定尺寸的特征图；根据每个候选区域对应的固定尺寸的特征图对各个候选区域进行分类，确定各个候选区域包含对象的种类，进而得到包含目标的区域；对包含目标的区域进行边框回归，得到目标对应的预测边框。

在上述三种区域卷积神经网络对目标检测的过程中，均对得到的包含目标的候选区域进行了边框回归，图1为本发明实施例提供的一种Faster R-CNN网络结构示意图，以Faster R-CNN网络结构为例介绍，Faster R-CNN网络包含特征提取网络、RPN网络、RoIpooling层以及分类回归网络，其中，图片经过特征提取网络，得到整张图片对应的特征图，通过RPN网络得到融合了候选区域的整张图片的特征图，通过RoIpooling层得到每个候选区域固定尺寸的特征图，边框回归后的包含目标的预测边框的位置预测值，以及目标的分类。该分类回归网络中实现边框回归的网络部分，为通过针对多个样本图像的预测边框以及针对上述多个样本图像的真实标记边框进行训练得到的，由于参与训练的样本图像数量的有限性，在每次预测过程中的边框回归不可能实现百分百的准确，因此可以针对经过边框回归得到的预测边框做进一步的优化，得到针对目标的更为准确的位置区域。

本发明实施例中提供的图像目标定位修正方法的应用场景可以为在对UI设计师的UI设计稿的识别并自动生成UI设计稿对应的代码的过程，也可以应用在针对根据UI设计稿自动生成的代码进行自动化测试的过程中。这里的UI设计图可以为网页设计图、APP设计图等。

参见图2，图2为本发明实施例提供的一种图像目标定位修正方法的流程示意图，如图所示，所述方法包括：

S201，识别第一图像中的至少一个图像元素。

其中，图像元素可以包括第一图像中的字符类图像元素和/或具有连续轮廓的图标类图像元素。参阅图3，图3为本发明实施例提供的一种第一图像的示例图，如图所示的图像中，文字“收”、“付”和“款”，以及白色矩形框和白色矩形框内的8个白色填充的矩形，均为该图像中包含的图像元素。

这里，识别第一图像中的图像元素的方式可以为通过将第一图像与预设的图像元素库中预存的图像元素进行比对，进而识别出其中相同或相似的图像元素；也可以通过对所述第一图像进行轮廓标注，生成所述第一图像对应的元素轮廓图像，然后根据所述元素轮廓图像中的轮廓，通过文字识别技术识别出所述第一图像中字符类图像元素的轮廓，以及字符类图像元素以外的图标类图像元素的轮廓。

具体的，对图像第一图像进行轮廓标注，生成第一图像对应的元素轮廓图像的具体方式为：

(1)获取所述第一图像对应的灰度化图像，并获取所述灰度化图像中各个像素点的灰度梯度强度和灰度梯度方向；

(2)根据所述灰度化图像中各个像素点的灰度梯度强度和灰度梯度方向，确定第一图像中的边缘像素点；

(3)根据所述第一图像中的边缘像素点，生成所述第一图像对应的元素轮廓图像。

这里，第一图像可以为灰度图像，也可以为彩色图像，当第一图像为灰度图像时，第一图像对应的灰度化图像为其自身，当第一图像为彩色图像时，可以通过对第一图像进行灰度化处理，得到第一图像对应的灰度化图像，对彩色图像进行灰度化处理的方法通常包括分量法、最大值法、平均值法和加权平均法等，采用其中任一种方式即可，此处不做限定。

像素点的灰度梯度强度表示该像素点相对于周围像素点的灰度变化的快慢，像素点的灰度梯度方向表示该像素点灰度变化最快的方向，处于图像边缘的像素点通常具有较大的灰度梯度强度，相反，处于图像平滑部分的像素点通常具有较小的灰度变化值，也就是灰度梯度较小。计算机图像处理中，经典的图像梯度算法是考虑图像的每个像素点的某个邻域内的灰度变化，利用边缘临近的一阶或二阶导数变化规律，对原始图像中像素点的某个邻域设置梯度算子，根据像素点邻域的不同，可以设置Sobel算子、Robinson算子、Laplace算子、Roberts算子等，进而用梯度算子对应的小区域模板进行卷积来计算第一图像中各个像素点的灰度梯度强度和灰度梯度方向。

以Sobel算子为例，在直角坐标系中x方向和y方向上的Sobel算子分别为：

其中S_x用于检测y方向的边缘；S_y用于检测x方向的边缘。将灰度化图像中的各个像素点对应的3×3的邻域对应的像素点的灰度值构成的矩阵A分别与S_x以及S_y进行卷积：

得到像素点在x方向上的灰度梯度强度G_x和y方向上的灰度梯度强度G_y，其中sum表示将其中所有元素相加求和，进而得出像素点的灰度梯度强度G和灰度梯度方向θ分别为：

可选的，在获取灰度化图像中各个像素点的灰度梯度强度和灰度梯度方向之前，可以对灰度化图像进行高斯平滑滤波，以降低噪声对第一图像中所包含图像元素的轮廓进行标注时产生的误差。

灰度化图像中各个像素点的灰度梯度强度确定后，可以将局部梯度强度最大的点确定为图像元素的边缘点，具体的：将某一像素点的灰度梯度强度，分别与沿该像素点灰度梯度方向的正负方向上的像素点的灰度梯度强度进行比较，如果该像素点的灰度梯度强度均大于正负方向上的像素点的灰度梯度强度，则将该像素点确定为图像元素的边缘点，否则，该像素点不是图像元素的边缘点。

通过上述方法筛选出图像元素的边缘点连接后可以得到图像元素的轮廓，但是这一过程中由于噪声和颜色等的影响，得到的图像元素的轮廓中有可能包含假轮廓，优选地，可以通过双阈值检测和抑制孤立阈值点的方法，进一步优化图像元素的边缘点，具体的：设置两个梯度阈值，分别为阈值1和阈值2，其中阈值1高于阈值2，将灰度梯度强度高于阈值1的像素点确定为强边缘点，将灰度梯度强度小于阈值1且大于阈值2的像素点确定为弱边缘点，将灰度梯度强度小于阈值2的像素点作为非边缘点抑制。强边缘点为图像元素的真实边缘点，而弱边缘点可能为图像元素的真是边缘点，也可能是由于噪声和颜色等原因造成的。通常情况下，由真实边缘引起的弱边缘点将与强边缘点相连，而噪声和颜色等引起的弱边缘点不与强边缘点连接，因此可以通过检测弱边缘点相邻的8个像素点中，若存在强边缘点，则该弱边缘点为图像元素的边缘点，否则，该弱边缘点作为非边缘点抑制。

在第一图像中的边缘像素点确定后，将边缘像素点用白色像素点表达，其他像素点用黑色像素点表达，就得到了第一图像的元素轮廓图像。

可以理解的是，实际应用中在受到第一图像的图像清晰度等图像质量因素干扰的情况下，导致步骤(3)得到的图像元素的第一图像对应的元素轮廓图像中，图像元素的轮廓不一定完全连续，可以将开环的轮廓之间的间断点不超过预设间断阈值的轮廓作为同一图像元素的轮廓。

S202，提取所述各个图像元素的元素特征，并根据所述元素特征识别构成所述第一图像中的目标对象的图像元素。

其中，元素特征包括元素尺寸特征、元素种类特征、元素间距特征和元素对齐方式特征中的一种或多种，元素尺寸特征可以包括图像元素的尺寸、在第一图像中的面积占比或与第一图像的宽度比等特征；元素种类特征可以包括字符种类和非字符种类等；元素间距特征包括图像元素之间最近的像素点之间的距离或图像元素的中心点之间的距离等；元素对齐方式特征包括元素边框是否与第一图像的指定边框对齐的特征等。然后，将元素特征满足目标对象对应的对象构成规则的图像元素，确定为构成目标对象的图像元素，相应的，目标对象对应的对象构成规则包含目标对象中图像元素的元素尺寸规则、元素种类规则、元素间距规则和元素对齐规则中的一种或多种。

其中，目标对象为第一图像中若干图像元素构成的具有预设指示功能的图像表示，例如，在APP的UI设计图中，目标对象可以有不同的分类，包含icon类、icondesc类、img类、imgdesc类、button类、tab类、banner类、dialog类和tips类等。

针对上述不同分类的目标对象，其对应的对象构成规则以示例可以如下：icon类的目标对象为具有明确的入口暗示功能的图标或有文字指示意义的图标，通常具有较小的尺寸，例如小于100像素*100像素，参阅图4a，图4a为本发明实施例提供的一种UI设计图示例，如图4a所示的UI设计图中401和402为其中的两个icon类的目标对象；icondesc类的目标对象包含icon类目标对象及该icon类目标对象对应的解释性文字，如图4a所示的UI设计图中403和404为其中的两个icondesc类的目标对象；img类的目标对象为尺寸大于icon类的图片类，如商品配图、音乐配图、视频配图等，参阅图4b，图4b为本发明实施例提供的另一种UI设计图示例，如图4b所示的UI设计图中405为其中的一个img类的目标对象；imgdesc类的目标对象为包含img类目标对象及该img类目标对象对应的解释性文字，如图4b所示的UI设计图中406为其中的一个imgdesc类的目标对象；button为具有明显边界，且尺寸大于icon类的几何形状的图标，如图4b所示的UI设计图中407为其中的一个button类的目标对象；tab类的目标对象为用于指示切换功能的位于底部或头部，含有两级以上切换对象的图标，通常包含icon类和icondesc类的目标对象，如图4a所示的UI设计图中的408为其中的一个tab类的目标对象；banner类的目标对象为与设计图等宽的图标，通常具有轮播功能，可以包含如图4a中409所示的具有轮播提示的循环标识，如图4a所示的UI设计图中410为其中的一个banner类的目标对象；dialog类的目标图像为尺寸占整个设计图比例较大，具有关闭按钮，通常具有蒙层效果的提示弹窗模块，参阅图4c，图4c为本发明实施例提供的另一种UI设计图示例，如图4c所示的UI设计图中411为其中的一个dialog类的目标图像；tips类的目标图像为具有与设计图等宽的，且包含提示字符和打底色块的图标，参阅图4d，图4d为本发明实施例提供的另一种UI设计图示例，如图4d所示的UI设计图中412为其中的一个tips类的目标对象。

举例来说，若icon类的目标对象对应的对象构成规则为：图像元素是图标类，且构成同一个icon类目标对象的图像元素之间的距离在10像素以内，且构成不同icon类的目标对象的图像元素之间的距离大于50像素，且图标尺寸不超过100像素*100像素；icondesc类的目标对象对应的对象构成规则为图像元素包含一个icon类图像元素，以及该icon类图像对象20像素范围内的字符类图像元素。参阅图5，图5为本发明实施例提供的另一种第一图像的示例，图6为图5所示的第一图像对应的元素轮廓图像，图5中501和502为第一图像中的两个图像元素，图6中601和602分别为501和502对应的轮廓，601和602之间的距离小于10像素，且601和602构成的图标未超过100像素*100像素，且与601和602距离最近的其他图像元素均在50像素以外，因此601和602构成了一个icon类的目标对象。而步骤S202中识别出图5中的503、504和505分别为3个字符类的图像元素，且503、504和505在元素轮廓图像中分别对应的轮廓603、604和605，距离601和602构成的icon类的目标对象的距离均在20像素范围内，因此，601、602、603、604和605共同组成了一个icondesc类的目标对象。

S203，获取构成所述目标对象的图像元素在所述第一图像中的位置，并根据构成所述目标对象的图像元素在所述第一图像中的位置，确定所述目标对象在第一图像中的边界位置信息。

这里，构成目标对象的图像元素确定出之后，目标对象的各个像素点的位置也就是构成目标对象的图像元素的各个像素点的位置，进而可以确定目标对象的各个像素点中位于边界位置的像素点的位置信息(即目标对象在第一图像中的边界位置信息)。

一种可选的具体实现中，可以直接在所述第一图像中建立二维直角坐标系，确定构成所述目标对象的图像元素的各个像素点的像素点坐标值，所述像素点坐标值包括横坐标值和纵坐标值；分别确定所述像素点坐标值中的最大横坐标值、最小横坐标值、最大纵坐标值和最小纵坐标值，并将上述四个坐标最值作为目标对象的边界位置信息。另一种可选的具体实现方式中，若第一图像中的图像元素为通过对第一图像进行轮廓标注，根据标注后生成的元素轮廓图像得到的识别其中字符类的图像元素和图标类的图像元素，则可以在标注生成的元素轮廓图像中建立二维直角坐标系，并获取构成目标对象的图像元素的轮廓的各个像素点的坐标值，分别确定构成目标对象的图像元素的轮廓的各个像素点的坐标值中的最大横坐标值、所述最小横坐标值、所述最大纵坐标值和所述最小纵坐标值，并将上述四个坐标最值作为目标对象的边界位置信息。

举例来说，参阅图7，图7为本发明实施例提供的一种确定目标图像的边界位置信息的示意图，为获取图6中601、602、603、604和605构成的目标对象的边界位置信息的示例，以图7中所示的元素轮廓图像的左下角为坐标原点，分别将元素轮廓图像的左边和下边的延长线作为x轴和y轴，建立直角坐标系，横轴和纵轴的刻度按照像素进行计量，基于该直角坐标系，可以得到e点(675,12)为x轴正方向上的极点，c点(601,22)为x轴负方向上的极点，a点(628,75)和b点(634,75)为y轴正方向上的极点，d点(616,10)为y轴负方向上的极点，因此将构成该目标对象的图像元素在x轴正方向、x轴负方向、y轴正方向和y轴负方向上的坐标最值分别为675、601、75和10，将上述四个坐标最值作为该601、602、603、604和605组成的目标对象的边界位置信息。

在计算机图像处理中，元素轮廓图像通常用二值图像表示，图像元素的轮廓中的像素点用白色像素点表示，图像元素的轮廓以外的像素点用黑色像素点表示。可选的，若第一图像中的图像元素为通过对第一图像进行轮廓标注，根据标注后生成的元素轮廓图像得到的识别其中字符类的图像元素和图标类的图像元素，则在根据构成目标对象的图像元素在所述第一图像中的位置，确定目标对象在第一图像中的边界位置信息之前，为了减少第一图像中的噪点对位置修正过程的影响，提高位置修正的精确度，可以进一步对元素轮廓图像进行降噪处理，具体的：分别以元素轮廓中的各个白色像素点作为噪点检测的基准点，确定每个基准点对应的单位噪点检测区域包含的白色像素点的数量；将包含白色像素点且数量小于预设像素点阈值的单位噪点检测区域对应的基准点确定为噪声点，并从图像元素的轮廓中删除被确定为噪声点的白色像素点，如将其切换为黑色像素点。一种具体的实现方式中，单位噪点检测区域可以是以噪点检测的基准点为圆心，以预设长度为半径的圆形区域，遍历各个基准点进行降噪。

S204，获取所述目标对象的第一边界框。

在一种具体实施方式中，可以通过对所述第一图像进行图像特征提取，得到所述第一图像的特征映射图像；确定所述特征映射图像中各个像素点在所述第一图像中对应的边界框中心点；根据所述第一图像的特征映射图像，从所述预选边界框中确定所述第一边界框。

进而可选的，所述特征映射图像包含携带所述特征映射图像中各个像素点的像素点特征；所述根据所述第一图像的特征映射图像，从所述预选边界框中确定所述第一边界框可以具体可以包括：根据各个边界框中心点在所述特征映射图像中对应的像素点的像素点特征，确定各个所述预选边界框的评估分数；根据各个所述预选边界框的评估分数，确定所述特征映射图像的候选边界框；将所述候选边界框融合至所述特征映射图像，并根据融合后的特征映射图像生成针对各个所述候选边界框的预设尺寸的候选框特征图；根据所述预设尺寸的候选框特征图对所述候选边界框进行分类，得到针对所述目标对象的第一边界框。

进而可选的，所述根据所述预设尺寸的候选框特征图对所述候选边界框进行分类，得到针对所述目标对象的第一边界框具体可以为：

根据所述预设尺寸的候选框特征图对所述候选边界框进行分类，得到针对所述目标对象的第一候选边界框；对所述第一候选边界框进行边界框回归，得到所述第一边界框。

在另一实施方式中，第一边界框可以为通过基于区域卷积神经网络的目标检测模型得到的目标对象在第一图像中的边界框，将第一图像输入上述目标检测模型后，可以输出目标对象对应的第一边界框，以及该目标对象的分类。

将第一图像输入目标检测模型之前，可以根据目标对象对应的构成规则生成的至少两个样本图像，将至少两个样本图像输入参数初始化后的基于区域卷积神经网络的初始网络模型后，训练得到基于区域卷积神经网络的目标检测模型。在训练过程中可以将包含同一类目标对象的样本图像输入初始网络模型，训练得到可以识别该类目标对象的目标检测模型，也可以将分别包含不同类目标对象的样本图像输入初始化网络模型，训练得到可以识别不同类目标对象的目标检测模型。例如可以将Faster R-CNN深度学习网络和残差分类网络(如resnet101网络)结合起来作为初始化网络模型，采用交叉熵(cross-entropy)损失函数，将学习率设定为0.01，通过反向传播算法训练得到上述目标检测模型。

这里，将第一图像输入上述目标检测模型后，若第一图像中仅包含一个目标对象，则目标检测模型仅输出针对一个目标对象的第一边界框和分类，若第一图像包含多个目标对象，则目标检测模型将输出针对不同目标对象的多个第一边界框和各自的分类。例如，针对图5所示的设计图，输入可识别不同类目标对象的目标检测模型后，得到针对不同目标对象的第一边界框，具体参阅图8，图8为本发明实施例提供的一种第一边界框的示例图，其中边框801、803、806和808为四个icon类目标对象的第一边界框，边框802、804、805和807为针对四个icondesc类目标对象的第一边界框，边框809为针对tab类目标对象的第一边界框。

在第一图像中包含多个目标对象时，步骤S203中确定出针对多个目标对象的边界位置信息，步骤S204也会获取到针对多个目标对象的第一边界框，在这种情况下，可以通过以下方式确定出针对同一个目标对象的边界位置信息和第一边界框：目标对象的边界位置信息包含的四个坐标最值可以确定一个矩形框，将与某一目标对象的边界位置信息确定的矩形框有重叠部分的第一边界框，且其内部的目标对象的种类与该目标对象的种类一致的第一边界框，确定为针对该目标对象的第一边界框。例如，基于图7对应的例子中，针对601、602、603、604和605组成的目标对象的边界位置信息(675、601、75和10)确定之后，与该边界位置信息确定的矩形框有重叠部分的第一边界框有三个，分别为图8中的807、808和809，由于601、602、603、604和605组成的目标对象为icondesc类，通过目标检测模型得到的807内的目标对象为icondesc类，808内的目标对象为icon类，809内的目标对象为tab类，因此807为与边界位置信息(675、601、75和10)具有同一目标对象的第一边界框。

可选的，为进一步降低噪声带来的不确定影响，可以将与某一目标对象的边界位置信息确定的矩形框的重叠部分大于预设的重叠区域阈值，且其内部的目标对象的种类与该目标对象的种类一致的第一边界框，确定为针对该目标对象的第一边界框。

S205，根据所述目标对象在所述第一图像中的边界位置信息，以及所述第一边界框，生成所述目标对象在所述第一图像中的修正位置信息。

这里，获取到目标对象的边界位置信息和第一边界框后，在直角坐标系中确定边界位置信息包含的最大横坐标值、最小横坐标值、最大纵坐标值和最小纵坐标值对应的第一矩形框；将第一矩形框与第一边界框的重叠区域对应的位置信息，确定为目标对象在第一图像中的修正位置信息。

具体的，可以分别将第一边界框的上边、下边、左边和右边所在的直线，与步骤S203中的二维直角坐标系的坐标轴相交的刻度值，确定为上边刻度值、下边刻度值、左边刻度值和右边刻度值；根据横轴正方向上的坐标最值与第一边界框的右边刻度值中的较小值、横轴负方向上的坐标最值与第一边界框的左边刻度值中的较大值、纵轴正方向上的坐标最值与第一边界框的上边刻度值中的较小值、纵轴负方向上的坐标最值与第一边界框的下边刻度值中的较大值，确定目标对象在第一图像中的修正位置信息。

例如，在图8的各个第一边界框中，以第一边界框807为例，将其放大后参阅图9，图9为本发明实施例提供的一种针对图8中第一边界框807进行位置修正的示意图，如图9所示，实线框为通过目标检测模型输出的第一边界框807，基于图7对应的例子中，步骤S203中确定的第一边界框807对应的目标对象在x轴正方向、x轴负方向、y轴正方向和y轴负方向上的坐标最值(即该目标对象的边界位置信息)为675、601、75和10，按照图7中所示的直角坐标系，第一边界框807对应的上边刻度值、下边刻度值、左边刻度值和右边刻度值分别为79、8、589和675，上述四个刻度值对应的区域的边框如图9中的虚线框901所示，因此，该目标对象对应的修正位置信息为直线x＝675、x＝601、y＝75和y＝10围成的矩形框内的区域，即虚线框901内部的区域。参阅图10，图10为本发明实施例提供的另一种针对图8中第一边界框807进行位置修正的示意图，如图所示，若在上述例子中由于噪点等原因，步骤S203中确定出的第一边界框807对应的目标对象的边界位置信息为680、601、75和10，第一边界框807对应的上边刻度值、下边刻度值、左边刻度值和右边刻度值分别为79、8、589和675，此时，该目标对象对应的修正位置信息为x＝675、x＝601、y＝75和y＝10围成的矩形框内的区域，即虚线框901和实线框807的重叠区域。

可选的，在针对目标对象进行位置修正，得到目标对象在第一图像中的修正位置信息后，可以获取目标对象的对象属性信息，将目标对象的对象属性信息以及修正位置信息输入基于卷积循环神经网络的图像用户界面代码生成模型中，基于图像用户界面代码生成模型的输出，得到针对第一图像中目标对象的图像用户界面代码。这里，对象属性信息可以为通过目标检测模型输出的目标对象的分类，例如，icon类、icondesc类或img类等。将修正位置信息输入图像用户界面代码生成模型，根据目标对象的对象属性信息和修正位置信息生成代码，以在生成的图像用户界面中修正后的准确的位置区域实现设计图中相应的功能，对目标对象位置的修正提高了代码生成后设计图功能实现的有效性。

进一步可选的，针对第一图像中目标对象的图像用户界面代码生成后，根据目标对象的修正位置信息，生成针对该图像用户界面代码的测试用例，该测试用例中包含根据目标对象的修真位置信息确定的有效操作区域，进而根据该测试用例模拟对目标对象对应的有效操作区域进行输入、点击等操作，以测试设计图中相应的功能，对目标对象位置的修正提高了代码测试的有效性。

参见图11，图11为本发明实施例提供的一种图像目标定位修正装置的结构示意图，如图所示，所述图像目标定位修正11至少可以包括元素识别模块1101、特征提取模块1102、对象边界确定模块1103、边界框获取模块1104和位置修正模块1105，其中：

元素识别模块1101，用于识别第一图像中的至少一个图像元素；

特征提取模块1102，用于提取所述各个图像元素的元素特征，并根据所述元素特征识别构成所述第一图像中的目标对象的图像元素；

对象边界确定模块1103，用于获取构成所述目标对象的图像元素在所述第一图像中的位置，并根据构成所述目标对象的图像元素在所述第一图像中的位置，确定所述目标对象在第一图像中的边界位置信息；

边界框获取模块1104，用于获取所述目标对象的第一边界框，所述第一边界框为所述目标对象在所述第一图像中的边界框；

位置修正模块1105，用于根据所述目标对象在所述第一图像中的边界位置信息，以及所述第一边界框，生成所述目标对象在所述第一图像中的修正位置信息。

可选的，所述元素识别模块1101，包括轮廓标注单元1111和元素识别单元1112：

所述轮廓标注单元1111，用于对所述第一图像进行轮廓标注，生成所述第一图像对应的元素轮廓图像；

所述元素识别单元1112，用于根据所述元素轮廓图像中的轮廓，识别出所述第一图像中字符类图像元素的轮廓，以及图标类图像元素的轮廓。

可选的，所述轮廓标注单元1111，具体用于：

可选的，所述元素特征包括元素尺寸特征、元素种类特征、元素间距特征和元素对齐方式特征中的一种或多种；

所述特征提取模块1102，具体用于将元素特征满足所述目标对象对应的对象构成规则的图像元素，确定为构成所述目标对象的图像元素，所述目标对象对应的对象构成规则包含所述目标对象中图像元素的元素尺寸规则、元素种类规则、元素间距规则和元素对齐规则中的一种或多种。

可选的，所述对象边界确定模块1103，具体用于：

所述位置修正模块1105，具体用于：

可选的，所述元素轮廓图像包含用于指示所述图像元素的轮廓的白色像素点；

所述装置还包括降噪模块1106，具体用于：

可选的，所述边界框获取模块1104具体用于：

进而可选的，所述边界框获取模块1104根据所述第一图像的特征映射图像，从所述预选边界框中确定所述第一边界框具体为：

进而可选的，所述边界框获取模块1104根据所述预设尺寸的候选框特征图对所述候选边界框进行分类，得到针对所述目标对象的第一边界框具体为：

具体实现中，所述图像目标定位修正装置可以通过其内置的各个功能模块执行如图2的图像目标定位修正方法中的各个步骤，具体实施细节可参阅图2对应的实施例中各个步骤的实现细节，此处不再赘述。

本发明实施例中，元素识别模块将第一图像中的至少一个图像元素识别出之后，特征提取模块提取各个图像元素的元素特征，并根据图像元素的元素特征，识别出构成目标对象的图像元素，进而对象边界确定模块获取构成目标对象的图像元素在第一图像中的位置，并根据构成目标图像的图像元素在第一图像中的位置，确定目标对象在第一图像中的边界位置信息，然后边界框获取模块获取得到的所述目标对象在所述第一图像中的第一边界框，位置修正模块根据目标对象在第一图像中的边界位置信息，以及第一边界框，生成目标对象在第一图像中的修正位置信息。实现了根据目标对象在第一图像中的边界位置信息修正第一边界框，得到目标对象在第一图像中的修正位置信息，提高了对目标对象的定位精度。

参见图12，图12为本发明实施例提供的另一种图像目标定位修正装置的结构示意图，如图所示，所述图像目标定位修正装置12包括：至少一个处理器1201，例如CPU，至少一个网络接口1204，用户接口1203，存储器1205，至少一个通信总线1202。其中，通信总线1202用于实现这些组件之间的连接通信。其中，用户接口1203可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1203还可以包括标准的有线接口、无线接口。网络接口1204可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1205可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1205可选的还可以是至少一个位于远离前述处理器1201的存储装置。如图12所示，作为一种计算机存储介质的存储器1205中可以包括操作***、网络通信模块、用户接口模块以及图像目标定位修正应用程序。

在图12所示的终端12中，用户接口1203主要用于接收用户输入的第一图像的接口；而处理器1201可以用于调用存储器1205中存储的图像目标定位修正应用程序，并具体执行以下操作：

识别第一图像中的至少一个图像元素；

应当理解，本发明实施例中所描述的终端运动状态的确定装置12可执行前文图2所对应实施例中对所述图像目标定位修正方法的描述，也可执行前文图11所对应实施例中对所述图像目标定位修正装置11的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法，所述计算机可以为上述提到的图像目标定位修正装置的一部分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像目标定位修正方法，其特征在于，包括：

识别第一图像中的至少一个图像元素；

根据所述目标对象在所述第一图像中的边界位置信息，以及所述第一边界框，生成所述目标对象在所述第一图像中的修正位置信息；

其中，所述第一边界框为通过将所述第一图像输入基于区域卷积神经网络的目标检测模型得到的所述目标对象在所述第一图像中的边界框；或通过以下步骤得到所述第一边界框：

对所述第一图像进行图像特征提取，得到所述第一图像的特征映射图像；

2.根据权利要求1所述的方法，其特征在于，所述识别第一图像中的至少一个图像元素包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一图像进行轮廓标注，生成所述第一图像对应的元素轮廓图像包括：

4.根据权利要求1所述的方法，其特征在于，所述元素特征包括元素尺寸特征、元素种类特征、元素间距特征和元素对齐方式特征中的一种或多种；

5.根据权利要求1所述的方法，其特征在于，所述获取构成所述目标对象的图像元素在所述第一图像中的位置，并根据构成所述目标对象的图像元素在所述第一图像中的位置，确定所述目标对象在第一图像中的边界位置信息包括：

6.根据权利要求2所述的方法，其特征在于，所述元素轮廓图像包含用于指示所述图像元素的轮廓的白色像素点；

7.根据权利要求1所述的方法，其特征在于，所述特征映射图像包含携带所述特征映射图像中各个像素点的像素点特征；

8.根据权利要求7所述的方法，其特征在于，所述根据所述预设尺寸的候选框特征图对所述候选边界框进行分类，得到针对所述目标对象的第一边界框包括：

9.根据权利要求1所述的方法，其特征在于，所述图像元素包括所述第一图像中的字符类图像元素或具有连续轮廓的图标类图像元素。

10.一种图像目标定位修正装置，其特征在于，包括：

元素识别模块，用于识别第一图像中的至少一个图像元素；

位置修正模块，用于根据所述目标对象在所述第一图像中的边界位置信息，以及所述第一边界框，生成所述目标对象在所述第一图像中的修正位置信息；

其中，所述第一边界框为所述边界框获取模块通过将所述第一图像输入基于区域卷积神经网络的目标检测模型得到的所述目标对象在所述第一图像中的边界框；或所述边界框获取模块通过以下方式得到所述第一边界框：

11.一种图像目标定位修正装置，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至9任意一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1至9任意一项所述的方法。