CN115775386A

CN115775386A - 用户界面组件的识别方法、装置、计算机设备和存储介质

Info

Publication number: CN115775386A
Application number: CN202211515372.9A
Authority: CN
Inventors: 曾晗; 曹思; 黄浩
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-03-10

Abstract

本申请涉及一种用户界面组件的识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：通过对多个界面图像进行预处理，获得界面图像样本集，界面图像样本集包括正样本和负样本，正样本指的是包含用户界面组件标识的界面图像样本，负样本指的是不包含用户界面组件标识的界面图像样本；基于损失函数以及界面图像样本集对识别模型进行训练，以调整识别模型中的参数，获得训练后的识别模型；通过训练后的识别模型，对目标界面图像进行用户界面组件识别。采用本方法能够提高识别用户界面组件的准确度。

Description

用户界面组件的识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种用户界面组件的识别方法、装置、计算机设备和存储介质。

背景技术

随着移动端应用程序APP、小程序的崛起，研发工程师需要设计各种软件，并通过计算机语言编写代码实现。准确识别设计稿中用户界面组件(UI组件，USER INTERFACEModule)是通过计算机语言编写代码的前提。

现有技术中，现有UI组件识别算法大多分为机器学习算法或深度学习算法实现。但是，由于UI组件类型较多，部分UI组件视觉特征相似，在识别过程中会出现误识别、分类错误的情况，影响对UI组件的识别结果。

发明内容

基于此，有必要针对上述技术问题，提供一种能够用户界面组件的识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种用户界面组件的识别方法。所述方法包括：

对多个界面图像进行预处理，获得界面图像样本集，界面图像样本集包括正样本和负样本，正样本指的是包含用户界面组件标识的界面图像样本，负样本指的是不包含用户界面组件标识的界面图像样本；

基于损失函数以及界面图像样本集对识别模型进行训练，以调整识别模型中的参数，获得训练后的识别模型；

通过训练后的识别模型，对目标界面图像进行用户界面组件识别。

在其中一个实施例中，预处理包括筛选、去重和分类；对多个界面图像进行预处理，获得界面图像样本集，包括：

对多个界面图像进行筛选处理，得到参考界面图像；

对参考界面图像中的用户界面组件进行分类，确定多个用户界面组件类型、以及参考界面图像中各用户界面组件类型下的用户界面组件数量；

基于各参考界面图像中的用户界面组件数量，对各参考界面图像进行内容调整，获得界面图像样本集。

在其中一个实施例中，基于各参考界面图像中的用户界面组件数量，对各参考界面图像进行内容调整，获得界面图像样本集，包括：

确定每一用户界面组件类型的预设数量；

针对任一参考界面图像，确定每一用户界面组件类型在任一参考界面图像中的实际数量；

若存在用户界面组件类型相应的实际数量小于相应的预设数量，则根据相应用户界面组件类型在任一参考界面图像中已有用户界面组件的组件属性，扩充相应用户界面组件类型在任一参考界面图像中的组件数量，组件属性包括组件颜色信息和组件位置信息；

若存在用户界面组件类型相应的实际数量大于相应的预设数量，则对相应用户界面组件类型在任一参考界面图像中的已有用户界面组件作遮盖处理，以减少相应用户界面组件类型的已有用户界面组件的组件数量。

在其中一个实施例中，识别模型包括输入层、骨干网络层、检测颈部网络层和检测头部输出层；骨干网络层包括池化操作层和注意力机制层；注意力机制层位于池化操作层之后，注意力机制层用于对池化操作层输出的特征进行权重分配。

在其中一个实施例中，基于损失函数以及界面图像样本集对识别模型进行训练，以调整识别模型中的参数，获得训练后的识别模型，包括：

获取界面图像样本集中每一界面图像样本的训练标签；

基于每一界面图像样本的训练标签与每一训练样本，计算每一界面图像样本对应的损失函数；

基于损失函数，调整用户界面组件识别模型中的参数，获取训练后的用户界面组件识别模型。

在其中一个实施例中，通过训练后的识别模型，对目标界面图像进行用户界面组件识别，包括：

获取目标界面图像；

将目标界面图像输入至训练后的用户界面组件识别模型，输出多个先验框，先验框用于指示目标界面图像中每一类型用户界面组件的所处位置；

确定每一类型用户界面组件先验框的置信度阈值；根据每一类型用户界面组件先验框的置信度阈值及每一类型用户界面组件位置的多个先验框的置信度，确定每一类型用户界面组件的目标先验框集；

对每一类型用户界面组件的目标先验框集采用加权非极大值抑制筛选法进行筛选，确定每一类型用户界面组件的最终预测框。

第二方面，本申请还提供了一种用户界面组件的识别装置。所述装置包括：

处理模块，用于对多个界面图像进行预处理，获得界面图像样本集，界面图像样本集包括正样本和负样本，正样本指的是包含用户界面组件标识的界面图像样本，负样本指的是不包含用户界面组件标识的界面图像样本；

调整模块，用于基于损失函数以及界面图像样本集对识别模型进行训练，以调整识别模型中的参数，获得训练后的识别模型；

识别模块，用于通过训练后的识别模型，对目标界面图像进行用户界面组件识别。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述用户界面组件的识别方法、装置、计算机设备、存储介质和计算机程序产品，通过对多个界面图像进行预处理，获得界面图像样本集，界面图像样本集包括正样本和负样本，正样本指的是包含用户界面组件标识的界面图像样本，负样本指的是不包含用户界面组件标识的界面图像样本；基于损失函数以及界面图像样本集对识别模型进行训练，以调整识别模型中的参数，获得训练后的识别模型；通过训练后的识别模型，对目标界面图像进行用户界面组件识别，可以提高识别UI组件的准确度。

附图说明

图1为一个实施例中用户界面组件的识别方法的流程示意图；

图2为一个实施例中识别模型的示意图；

图3为一个实施例中用户界面组件的识别方法的流程示意图；

图4为一个实施例中用户界面组件的识别装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词，但除非特别说明，这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说，在不脱离本申请的范围的情况下，第三预设阈值与第四预设阈值可以相同可以不同。

在一个实施例中，如图1所示，提供了一种用户界面组件的识别方法，本实施例以该方法应用于终端进行举例说明，其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备。可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

101、对多个界面图像进行预处理，获得界面图像样本集，界面图像样本集包括正样本和负样本，正样本指的是包含用户界面组件标识的界面图像样本，负样本指的是不包含用户界面组件标识的界面图像样本；

102、基于损失函数以及界面图像样本集对识别模型进行训练，以调整识别模型中的参数，获得训练后的识别模型；

103、通过训练后的识别模型，对目标界面图像进行用户界面组件识别。

其中，界面图像指的是针对应用软件的界面图像或者应用软件界面的设计稿图像，比如手机银行APP的用户界面图像或手机银行APP的用户界面组件的设计稿图像。

对多个界面图像进行预处理的目的是为了过滤掉尺寸和内容不规范的界面图像。比如，手机银行APP的设计稿图像为了符合app端的尺寸大小，相应的设计稿图像的宽度应不大于750px。

将界面图像样本集按照预设比例分为训练集和测试集，比如，界面图像样本集中包含1000张界面图像样本，按照8：2的比例对界面图像样本集进行划分，得到包含800张界面图像样本的测试集和包含200张界面图像样本的测试集。

用户界面组件标识指的是界面图像上的UI组件都通过图像标记工具进行标注框标记过，且每一标注框还有对应UI组件的类型标识。也就是说，每一正样本(用户界面组件标识的界面图像样本)中的UI组件都有相应的标注框以及类型标识。而负样本中是没有经过图像标记工具处理的界面图像样本。其中，类型标识用于描述UI组件的种类，比如UI组件的类型标识可以为按钮、输入框、图标、文本、轮播图、弹窗或倒计时工具。图像标记工具可以为labelimg、labelme等。另外，每一界面图像样本上包含至少一个的UI组件，界面图像样本集中UI组件的种类为至少两种，即本实施例中界面图像样本集中所有图像样本的UI组件的类型标识至少为两种。

对于损失函数，本发明实施例对其不做具体限定，包括但不限于：GIOU_Loss(Generalized Intersection over Union)损失函数、DIOU_Loss(Distance Intersectionover Union)损失函数、和CIOU_Loss(Complere Intersection over Union)损失函数等。

在一个实施例中，损失函数包括分类损失函数、定位损失函数。其中，分类损失函数用于计算识别模型输出的预测框与对应的标定分类是否正确。定位损失用于确定识别模型输出的预测框与对应正样本中标注框之间的误差。

目标界面图像指的是针对应用软件的界面图像或者应用软件界面的设计稿图像，目标界面图像上包含至少一个UI组件。

具体地，通过对多个界面图像进行预处理，将预处理后的界面图像作为界面图像样本集。将训练集中的界面图像样本输入至初始的识别模型中，对初始的识别模型进行训练，通过调整识别模型中的参数，以使得损失函数的值降低，当损失函数的值不大于预设损失值时，识别模型训练完成，得到训练后的识别模型。将目标界面图像输入至训练后的识别模型，可以输出带有标注框以及类型标识的目标界面图像。

值得一提的是，在获得训练后的识别模型后，可以通过测试集评估训练后的识别模型的性能，包括：将测试集中的界面图像样本输入到训练后的识别模型中，采用IOU(Intersection over Union)交并比作为识别模型UI组件位置的预测指标，通过预测框与标注框两者间的位置关系及重叠区域来计算得到IOU值，通常IOU值越大代表预测框和真实框的位置越接近。由于本实施例中UI组件的识别任务为多种类型标签的检测任务，因此单一类型评价指标并不能很好的评价预测模型，本实施例采用mAP(Mean AveragePrecision)平均精度指标衡量预测类型的准确性，计算出测试集中所有UI组件类型的AP(Average Precision)的平均值(即mAP值)，通过mAP值评价训练后识别模型的性能，若训练后的识别模型的IOU值小于预设IOU值、或mAP值小于预设IOU值，则对训练后的识别模型通过上述步骤101-步骤103重新进行训练，直至识别模型的IOU值不小于预设IOU值、且mAP值不小于预设IOU值。

本发明实施例提供的方法，通过训练后的识别模型对目标界面图像进行多种类型的UI组件识别，可以提高识别模型的识别效率。此外，通过IOU交并比确定预测框与标注框之间差别，可以提高识别模型预测UI组件定位的准确度。与基于机器学习的组件边缘检测算法相比，本发明实施例解决了边缘检测算法对于重合和交叉组成的复杂界面图像中UI组件难以检测的问题，提高了UI组件的定位准确率和组件查全率，解决了现有技术中对UI组件识别困难和定位准确度不高的问题。

结合上述实施例的内容，在一个实施例中，预处理包括筛选和分类；对多个界面图像进行预处理，获得界面图像样本集，包括：

对多个界面图像进行筛选处理，得到参考界面图像；

对多个界面图像进行筛选处理，得到参考界面图像指的是：对界面图像进行筛选和去重处理，得到参考界面图像。其中，筛选处理指的是删除不符合预设尺寸的界面图像；去重处理指的是：对界面图像进行相似度算法计算出任意两张界面图像之间的相似度，若相似度大于预设相似度，则删除其中一张界面图像。将进行筛选和去重处理后得到的界面图像作为参考界面图像。

具体地，对参考界面图像中的用户界面组件按照预设分类规则进行分类，得到多个用户界面组件类型。在确定多个用户界面组件类型的时，还需确定每一种用户界面组件类型中组件的数量，从而可以根据每一种用户界面组件类型中组件的数量，对各参考界面图像进行内容调整，获得界面图像样本集。其中，预设分类规则包括：将图标、文本和形状等不可再分割的组件作为同一种类型的用户界面组件；将按钮、输入框等基本组件作为同一种类型的用户界面组件；将轮播图、弹窗、倒计时工具等满足业务需求的组件作为同一种类型的用户界面组件。当然，预设分类规则还可以是其他的分类规则，本发明实施例对其不做具体限定。

本发明实施例提供的方法，通过对多个界面图像进行预处理，得到获得界面图像样本集，可以提高界面图像样本集中界面图像样本的质量。

结合上述实施例的内容，在一个实施例中，基于各参考界面图像中的用户界面组件数量，对各参考界面图像进行内容调整，获得界面图像样本集，包括：

确定每一用户界面组件类型的预设数量；

其中，每一用户界面组件类型的预设数量可以调整，预设数量为不小于1的整数。每一用户界面组件类型的预设数量相同可以相同，也可以不同。比如，各参考界面图像中有三种类型的用户界面组件，即用户界面组件类型A、用户界面组件类型B、用户界面组件类型C。则用户界面组件类型A的预设数量、用户界面组件类型B的预设数量以及用户界面组件类型C的预设数量均相同。或者，用户界面组件类型A的预设数量、用户界面组件类型B的预设数量以及用户界面组件类型C的预设数量不相同；或者用户界面组件类型A的预设数量与用户界面组件类型B的预设数量相同，用户界面组件类型A的预设数量与用户界面组件类型C的预设数量不相同。

具体地，针对任一参考界面图像，确定每一用户界面组件类型在任一参考界面图像中的实际数量，并将每一用户界面组件类型在所有参考界面图像中的实际数量相加，得到每一用户界面组件类型的总组件数量(即每一用户界面组件类型相应的实际数量)。

若存在任一用户界面组件类型的总组件数量小于相应的用户界面组件类型的预设数量，则增加相应的用户界面组件类型的组件数量，使任一用户界面组件类型的总组件数量等于相应的用户界面组件类型的预设数量。比如，若用户界面组件类型A的总组件数量小于用户界面组件类型A的预设数量，则增加用户界面组件类型A的组件数量，使用户界面组件类型A的总组件数量等于用户界面组件类型A的预设数量。

其中，增加相应的用户界面组件类型的组件数量的方法包括：通过改变相应的用户界面组件类型组件的位置大小和颜色，从而增加相应的用户界面组件类型的组件数量。比如，将需要增加组件数量的用户界面组件类型作为待增类型，增加待增类型的组件数量的方法包括：

方法(1)：在不超过界面图像样本的背景和节点约束下改变待增类型的组件在任一界面图像样本中的位置，首先获取待增类型的组件所在的区域，将待增类型的组件定义为矩形区域，指定矩形区域的左上角坐标和矩形区域的长宽，划定矩形区域得到坐标点信息，然后通过alpha通道对该矩形区域进行提取，生成新的待增类型的组件图像，然后对该区域的高度和宽度进行缩放，得到不同大小的待增类型的组件，从而达到增加待增类型的组件数量的目的。

方法(2)：随机改变包含待增类型的组件的界面图像样本的图像颜色，调整界面图像样本的对应亮度、对比度和饱和度。根据界面图像样本的输入像素值，调整亮度值、对比度值和颜色校正等常数值计算得到界面图像样本的输出像素。

若存在用户界面组件类型的总组件数量小于相应的用户界面组件类型的预设数量，则减少相应的用户界面组件类型的组件数量，使相应的用户界面组件类型的总组件数量等于相应的用户界面组件类型的预设数量。比如，若用户界面组件类型B的总组件数量小于用户界面组件类型B的预设数量，则减少用户界面组件类型B的组件数量，使用户界面组件类型B的总组件数量等于用户界面组件类型B的预设数量。

其中，将需要减少组件数量的用户界面组件类型作为待减类型，减少待减类型的组件数量的方法包括：对界面图像样本中待减类型的组件进行遮盖。比如，首先生成和包含待减类型组件的原界面图像样本大小一致的掩模mask，掩模mask分两部分，一部分为白色掩模mask一部分为黑色掩模mask，掩模mask中白色掩模mask覆盖的区域为需要保留的用户界面组件，黑色掩模mask覆盖的待减类型组件区域(将该区域像素置为0)，在原界面图像样本上覆盖一层掩模mask，遮盖住原界面图像样本中待减类型的组件。

本发明实施例提供的方法，通过确定任一用户界面组件类型的总组件数量是否与相应的预设数量相等，可以对相应的用户界面组件类型的组件数量进行调整，可以使得相应的用户界面组件类型的总组件数量达到相应的预设数量，从而可以使各用户界面组件类型的总组件数量达到平衡，避免了界面图像样本集中因各类型组件数量的不均导致识别模型出现过拟合问题，进而提高识别模型的识别准确度。

结合上述实施例的内容，在一个实施例中，识别模型包括输入层、骨干网络层、检测颈部网络层和检测头部输出层；骨干网络层包括池化操作层和注意力机制层；注意力机制层位于池化操作层之后，注意力机制层用于对池化操作层输出的特征进行权重分配。

具体地，识别模型是基于YOLOV5模型构建的，识别模型如图2所示，包括输入层、骨干网络层(Backbone)、检测颈部网络层(Neck)和检测头(Head)输出层四部分组成。图2中，Attention layer是注意力机制层，SPP为池化操作层。

在输入层中，YOLOv5模型对训练集中的界面图像样本使用Mosaic数据增强方法，将4张界面图像样本通过随机缩放、裁剪和排布的方式拼接成1张图像，这样在丰富数据量的同时极大的提升了网络训练速度，而且可以降低YOLOv5模型的内存需求。在Backbone层中使用了Focus作为基准网络，它对输入的特征图进行切片和拼接，完成特征信息的提取。Neck层中采用空间金字塔池化操作，该模块通过1*1，5*5，9*9，13*13四个尺寸最大池化操作及后续的Concat操作。输出层(Head)用来完成识别结果的输出，

在Backbone中加入的SPP层解决了图像特征尺寸不一致问题，但并未对特征通道进行加权融合，因此在SPP层后加入注意力机制层。

对于UI组件之间大小、形状、颜色等相似的全局特征，以及部分区域的颜色、纹理以及形状有所不同的情况，本实施例中引入了注意力机制层，根据特征重要程度对卷积特征通道重新进行加权计算，增强了重要特征之间的相互依赖，同时学习到不同通道特征的重要程度，更好的融合了输入特征图的局部和全局特征。然后加入FPN网络层提取特征网络的上下文信息，在此基础上引进PAN网络层，采用步长为2的卷积操作对特征图尺寸进行变换，使得底层信息能够完整的传递至高层特征图，最后利用Add操作进行浅层提取到的组件边缘信息，如形状、颜色和位置等细节信息，与深层提取的语义特征融合。

本发明实施例提供的方法，通过引入注意力机制层，对SPP层输出的特征进行加权融合，可以降低识别模型训练过程中的计算时间，从而降低识别模型训练难度，提高识别模型的训练效率。

结合上述实施例的内容，在一个实施例中，基于损失函数以及界面图像样本集对识别模型进行训练，以调整识别模型中的参数，获得训练后的识别模型，包括：

获取界面图像样本集中每一界面图像样本的训练标签；

其中，训练标签指的是用户界面组件标识。

具体地，将训练集中的每一训练样本输入至识别模型中，得到每一训练样本的输出图像，基于每一训练样本的输出图像与每一训练样本训练标签之间的差异，确定每一界面图像样本对应的损失函数值。以降低损失函数值的为目的的方式调整识别模型的参数，当多次每一界面图像样本对应的损失函数值均小于预设损失值时，识别模型训练完成。

本发明实施例提供的方法，通过损失函数，可以确定识别模型的训练效果，并基于损失函数实现对识别模型的参数调整，从而提高识别模型的训练效率。

结合上述实施例的内容，在一个实施例中，通过训练后的识别模型，对目标界面图像进行用户界面组件识别，包括：

获取目标界面图像；

具体地，识别模型包含三个输出通道，当目标界面图像输入至训练好的识别模型后，识别模型的每一个输出通道均会输出包含多个先验框的图像。根据每一类型用户界面组件先验框的置信度阈值，通过加权非极大值抑制筛选法(Weighted NMS，Weighted NonMaximum Suppression)，从所有的先验框中为目标界面图像中的每一用户界面组件选出对应的先验框，作为每一用户界面组件的最终预测框，将包含每一用户界面组件的最终预测框的目标界面图像作为最终的识别结果。

本发明实施例提供的方法，通过加权非极大值抑制筛选法对识别模型输出的结果进行筛选，可以去掉冗余的识别结果，从而提高最终识别结果的精准度。

结合上述实施例的内容，在一个实施例中，如图3所示，一种用户界面组件的识别方法，包括：

301、对多个界面图像进行筛选处理，得到参考界面图像；对参考界面图像中的用户界面组件进行分类，确定多个用户界面组件类型、以及参考界面图像中各用户界面组件类型下的用户界面组件数量。

302、基于各参考界面图像中的用户界面组件数量，对各参考界面图像进行内容调整，获得界面图像样本集。界面图像样本集包括正样本和负样本，正样本指的是包含用户界面组件标识的界面图像样本，负样本指的是不包含用户界面组件标识的界面图像样本。

303、基于损失函数以及界面图像样本集对识别模型进行训练，以调整识别模型中的参数，获得训练后的识别模型；其中，识别模型包括输入层、骨干网络层、检测颈部网络层和检测头部输出层；骨干网络层包括池化操作层和注意力机制层；注意力机制层位于池化操作层之后，注意力机制层用于对池化操作层输出的特征进行权重分配。

304、获取目标界面图像；将目标界面图像输入至训练后的用户界面组件识别模型，输出多个先验框，先验框用于指示目标界面图像中每一类型用户界面组件的所处位置。

305、确定每一类型用户界面组件先验框的置信度阈值；根据每一类型用户界面组件先验框的置信度阈值及每一类型用户界面组件位置的多个先验框的置信度，确定每一类型用户界面组件的目标先验框集。

306、对每一类型用户界面组件的目标先验框集采用加权非极大值抑制筛选法进行筛选，确定每一类型用户界面组件的最终预测框。

本发明实施例提供的方法，通过对引入注意力机制层的识别模型进行训练，得到训练后的识别模型；通过训练后的识别模型，对目标界面图像进行用户界面组件识别，可以提高识别UI组件位置与类型的准确度。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的用户界面组件的识别方法的用户界面组件的识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个用户界面组件的识别装置实施例中的具体限定可以参见上文中对于用户界面组件的识别方法的限定，在此不再赘述。

在一个实施例中，如图4所示，提供了一种用户界面组件的识别装置，包括：处理模块401、调整模块402和识别模块403，其中：

处理模块401，用于对多个界面图像进行预处理，获得界面图像样本集，界面图像样本集包括正样本和负样本，正样本指的是包含用户界面组件标识的界面图像样本，负样本指的是不包含用户界面组件标识的界面图像样本；

调整模块402，用于基于损失函数以及界面图像样本集对识别模型进行训练，以调整识别模型中的参数，获得训练后的识别模型；

识别模块403，用于通过训练后的识别模型，对目标界面图像进行用户界面组件识别。

在一个实施例中，处理模块401，包括：

筛选子模块，用于对多个界面图像进行筛选处理，得到参考界面图像；

分类子模块，用于对参考界面图像中的用户界面组件进行分类，确定多个用户界面组件类型、以及参考界面图像中各用户界面组件类型下的用户界面组件数量；

调整子模块，用于基于各参考界面图像中的用户界面组件数量，对各参考界面图像进行内容调整，获得界面图像样本集。

在一个实施例中，调整子模块，包括：

第一确定单元，用于确定每一用户界面组件类型的预设数量；

第二确定单元，用于针对任一参考界面图像，确定每一用户界面组件类型在任一参考界面图像中的实际数量；

扩充单元，用于若存在用户界面组件类型相应的实际数量小于相应的预设数量，则根据相应用户界面组件类型在任一参考界面图像中已有用户界面组件的组件属性，扩充相应用户界面组件类型在任一参考界面图像中的组件数量，组件属性包括组件颜色信息和组件位置信息；

处理单元，用于若存在用户界面组件类型相应的实际数量大于相应的预设数量，则对相应用户界面组件类型在任一参考界面图像中的已有用户界面组件作遮盖处理，以减少相应用户界面组件类型的已有用户界面组件的组件数量。

在一个实施例中，调整模块402，包括：识别模型包括输入层、骨干网络层、检测颈部网络层和检测头部输出层；骨干网络层包括池化操作层和注意力机制层；注意力机制层位于池化操作层之后，注意力机制层用于对池化操作层输出的特征进行权重分配。

在一个实施例中，调整模块402，还包括：

第一获取子模块，用于获取界面图像样本集中每一界面图像样本的训练标签；

计算子模块，用于基于每一界面图像样本的训练标签与每一训练样本，计算每一界面图像样本对应的损失函数；

第二获取子模块，用于基于损失函数，调整用户界面组件识别模型中的参数，获取训练后的用户界面组件识别模型。

在一个实施例中，识别模块403，包括：

第三获取子模块，用于获取目标界面图像；

输出子模块，用于将目标界面图像输入至训练后的用户界面组件识别模型，输出多个先验框，先验框用于指示目标界面图像中每一类型用户界面组件的所处位置；

第一确定子模块，用于确定每一类型用户界面组件先验框的置信度阈值；根据每一类型用户界面组件先验框的置信度阈值及每一类型用户界面组件位置的多个先验框的置信度，确定每一类型用户界面组件的目标先验框集；

第二确定子模块，用于对每一类型用户界面组件的目标先验框集采用加权非极大值抑制筛选法进行筛选，确定每一类型用户界面组件的最终预测框。

上述用户界面组件的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种用户界面组件的识别方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对多个界面图像进行筛选处理，得到参考界面图像；

确定每一用户界面组件类型的预设数量；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：识别模型包括输入层、骨干网络层、检测颈部网络层和检测头部输出层；骨干网络层包括池化操作层和注意力机制层；注意力机制层位于池化操作层之后，注意力机制层用于对池化操作层输出的特征进行权重分配。

获取界面图像样本集中每一界面图像样本的训练标签；

获取目标界面图像；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对多个界面图像进行筛选处理，得到参考界面图像；

确定每一用户界面组件类型的预设数量；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：识别模型包括输入层、骨干网络层、检测颈部网络层和检测头部输出层；骨干网络层包括池化操作层和注意力机制层；注意力机制层位于池化操作层之后，注意力机制层用于对池化操作层输出的特征进行权重分配。

获取界面图像样本集中每一界面图像样本的训练标签；

获取目标界面图像；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

对多个界面图像进行筛选处理，得到参考界面图像；

确定每一用户界面组件类型的预设数量；

识别模型包括输入层、骨干网络层、检测颈部网络层和检测头部输出层；骨干网络层包括池化操作层和注意力机制层；注意力机制层位于池化操作层之后，注意力机制层用于对池化操作层输出的特征进行权重分配。

获取界面图像样本集中每一界面图像样本的训练标签；

获取目标界面图像；

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种用户界面组件的识别方法，其特征在于，所述方法包括：

对多个界面图像进行预处理，获得界面图像样本集，所述界面图像样本集包括正样本和负样本，所述正样本指的是包含用户界面组件标识的界面图像样本，所述负样本指的是不包含用户界面组件标识的界面图像样本；

基于损失函数以及所述界面图像样本集对识别模型进行训练，以调整所述识别模型中的参数，获得训练后的识别模型；

2.根据权利要求1所述的方法，其特征在于，所述预处理包括筛选和分类；所述对多个界面图像进行预处理，获得界面图像样本集，包括：

对所述多个界面图像进行筛选处理，得到参考界面图像；

对所述参考界面图像中的用户界面组件进行分类，确定多个用户界面组件类型、以及所述参考界面图像中各用户界面组件类型下的用户界面组件数量；

3.根据权利要求2所述的方法，其特征在于，所述基于各参考界面图像中的用户界面组件数量，对各参考界面图像进行内容调整，获得界面图像样本集，包括：

确定每一用户界面组件类型的预设数量；

针对任一参考界面图像，确定每一用户界面组件类型在所述任一参考界面图像中的实际数量；

若存在用户界面组件类型相应的实际数量小于相应的预设数量，则根据相应用户界面组件类型在所述任一参考界面图像中已有用户界面组件的组件属性，扩充相应用户界面组件类型在所述任一参考界面图像中的组件数量，所述组件属性包括组件颜色信息和组件位置信息；

若存在用户界面组件类型相应的实际数量大于相应的预设数量，则对相应用户界面组件类型在所述任一参考界面图像中的已有用户界面组件作遮盖处理，以减少相应用户界面组件类型的已有用户界面组件的组件数量。

4.根据权利要求1所述的方法，其特征在于，所述识别模型包括输入层、骨干网络层、检测颈部网络层和检测头部输出层；所述骨干网络层包括池化操作层和注意力机制层；所述注意力机制层位于所述池化操作层之后，所述注意力机制层用于对所述池化操作层输出的特征进行权重分配。

5.根据权利要求1所述的方法，其特征在于，所述基于损失函数以及所述界面图像样本集对识别模型进行训练，以调整所述识别模型中的参数，获得训练后的识别模型，包括：

获取所述界面图像样本集中每一界面图像样本的训练标签；

基于所述损失函数，调整所述用户界面组件识别模型中的参数，获取训练后的用户界面组件识别模型。

6.根据权利要求1所述的方法，其特征在于，所述通过训练后的识别模型，对目标界面图像进行用户界面组件识别，包括：

获取目标界面图像；

将所述目标界面图像输入至训练后的用户界面组件识别模型，输出多个先验框，所述先验框用于指示所述目标界面图像中每一类型用户界面组件的所处位置；

7.一种用户界面组件的识别装置，其特征在于，所述装置包括：

处理模块，用于对多个界面图像进行预处理，获得界面图像样本集，所述界面图像样本集包括正样本和负样本，所述正样本指的是包含用户界面组件标识的界面图像样本，所述负样本指的是不包含用户界面组件标识的界面图像样本；

调整模块，用于基于损失函数以及所述界面图像样本集对识别模型进行训练，以调整所述识别模型中的参数，获得训练后的识别模型；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。