CN110175609B

CN110175609B - 界面元素检测方法、装置及设备

Info

Publication number: CN110175609B
Application number: CN201910322717.0A
Authority: CN
Inventors: 孙震; 陈忻; 黄伟东; 张新琛; 任皓天
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced Nova Technology Singapore Holdings Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2023-02-28
Anticipated expiration: 2039-04-22
Also published as: CN110175609A

Abstract

本说明书实施例提供一种界面元素检测方法、装置及设备，所述方法包括：获取包含界面元素的待检测图像；依据对所述待检测图像进行文字识别处理获得的文字区域和文字内容，确定所述待检测图像中包含文字的界面元素的位置和内容；依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容。将文字识别处理和目标检测处理相结合，以单个指定文字作为目标对象，采用目标检测处理识别指定文字，可以识别出文字识别处理漏识别的文字，从而提高识别率。

Description

界面元素检测方法、装置及设备

技术领域

本说明书涉及图像识别技术领域，尤其涉及界面元素检测方法、装置及设备。

背景技术

随着移动终端技术的迅速发展，移动终端不断推陈出新。相应地，产品的测试任务也不断加大。与传统手工测试相比，自动化测试具有节省人力、时间、硬件资源、提高工作效率和判断精准性等优点，正在被逐渐地引入到被测对象的测试工作中。而在自动化测试中，对界面元素进行检测是比较重要且困难的。

因此，亟需一种能够有效地对界面元素进行检测的方案。

发明内容

为克服相关技术中存在的问题，本说明书提供了界面元素检测方法、装置及设备。

根据本说明书实施例的第一方面，提供一种界面元素检测方法，所述方法包括：

获取包含界面元素的待检测图像；

依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容，所述目标对象包括单个指定文字，所述指定文字以单个文字的形式出现在界面元素、和/或文字宽度小于设定阈值。

在一个实施例中，所述方法还包括：

依据对所述待检测图像进行文字识别处理获得的文字区域和文字内容，确定所述待检测图像中包含文字的界面元素的位置和内容；

合并基于文字识别处理确定的界面元素和基于目标检测处理确定的界面元素。

在一个实施例中，所述方法还包括：

若文字识别处理和目标检测处理识别出同一位置处的文字、且文字识别处理获得的结果与目标检测处理获得的结果不一致，则依据文字识别处理获得的结果确定包含所述文字的界面元素的位置和内容。

在一个实施例中，所述目标对象还包括非文字类对象。

在一个实施例中，所述指定文字包括数字，所述对象类别包括数值，和/或，

所述非文字类对象包括功能按钮图像、和/或应用图标。

在一个实施例中，所述依据对所述待检测图像进行文字识别处理获得的文字区域和文字内容，确定所述待检测图像中包含文字的界面元素的位置和内容，包括：

采用已训练的文字识别模型识别所述待检测图像中包含文字的界面元素的位置和内容；

所述依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容，包括：

采用已训练的物体检测模型识别所述待检测图像中包含目标对象的界面元素的位置和内容。

在一个实施例中，所述文字识别模型基于：采用预构建的文字训练集和文字验证集对深度学习网络进行训练获得，所述文字训练集和/或文字验证集包括带标签的场景文字样本图片，所述场景文字样本图片由文字做前景、图作背景；所述标签包括场景文字样本图片中文字所在区域以及内容。

在一个实施例中，所述物体检测模型基于：采用预构建的目标训练集和目标验证集对深度学习网络进行训练获得，所述目标训练集和/或目标验证集包括带标签的目标样本图片，所述目标样本图片包括以下一种或多种：包含目标对象的***界面图像、包含目标对象的应用界面图像；所述标签包括对象样本图片中目标对象所在区域以及类别。

根据本说明书实施例的第二方面，提供一种界面元素检测方法，所述方法包括：

获取包含界面元素的待检测图像；

依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容，所述目标对象包括单个指定文字，所述指定文字以单个文字的形式出现在界面元素、和/或文字宽度小于设定阈值；

在一个实施例中，所述方法还包括：

在一个实施例中，所述指定文字包括数字，所述对象类别包括数值。

在一个实施例中，所述目标对象还包括非文字类对象。

在一个实施例中，所述非文字类对象包括功能按钮图像、和/或应用图标。

采用已训练的文字识别模型识别所述待检测图像中包含文字的界面元素的位置和内容。

在一个实施例中，所述依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容，包括：

根据本说明书实施例的第三方面，提供一种界面元素检测装置，所述装置包括：

图像获取模块，用于：获取包含界面元素的待检测图像；

目标检测模块，用于：依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容，所述目标对象包括单个指定文字，所述指定文字以单个文字的形式出现在界面元素、和/或文字宽度小于设定阈值。

在一个实施例中，所述装置还包括：

文字识别模块，用于依据对所述待检测图像进行文字识别处理获得的文字区域和文字内容，确定所述待检测图像中包含文字的界面元素的位置和内容；

结果确定模块，用于合并基于文字识别处理确定的界面元素和基于目标检测处理确定的界面元素。

在一个实施例中，所述结果确定模块还用于：

在一个实施例中，所述目标对象还包括非文字类对象。

在一个实施例中，所述文字识别模块用于：采用已训练的文字识别模型识别所述待检测图像中包含文字的界面元素的位置和内容；

所述目标检测模块用于：采用已训练的物体检测模型识别所述待检测图像中包含目标对象的界面元素的位置和内容。

根据本说明书实施例的第四方面，提供一种界面元素检测装置，所述装置包括：

图像获取模块，用于：获取包含界面元素的待检测图像；

文字识别模块，用于：依据对所述待检测图像进行文字识别处理获得的文字区域和文字内容，确定所述待检测图像中包含文字的界面元素的位置和内容；

目标检测模块，用于：依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容，所述目标对象包括单个指定文字，所述指定文字以单个文字的形式出现在界面元素、和/或文字宽度小于设定阈值；

结果确定模块，用于：合并基于文字识别处理确定的界面元素和基于目标检测处理确定的界面元素。

根据本说明书实施例的第五方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述任一项所述方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例通过获取包含界面元素的待检测图像，并依据对待检测图像进行目标检测处理获得的对象区域和对象类别，确定待检测图像中包含目标对象的界面元素的位置和内容，由于目标对象包括单个指定文字，因此，可以识别界面元素中以单个文字的形式出现、和/或文字宽度小于设定阈值的文字。

本说明书实施例通过识别界面元素所包含的对象来确定界面元素的内容和位置，并且将文字识别处理和目标检测处理相结合，以单个指定文字作为目标对象，采用目标检测处理识别指定文字，可以识别出文字识别处理漏识别的文字，从而提高识别率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的界面元素示意图。

图2是本说明书根据一示例性实施例示出的一种界面元素检测方法的流程图。

图3是本说明书根据一示例性实施例示出的另一种界面元素检测方法的流程图。

图4A和图4B是本说明书根据一示例性实施例示出的一种界面元素检测方法的应用场景图。

图5是本说明书根据一示例性实施例示出的一种界面元素检测装置所在计算机设备的硬件结构图。

图6是本说明书根据一示例性实施例示出的一种界面元素检测装置的框图。

图7是本说明书根据一示例性实施例示出的另一种界面元素检测装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

界面元素(interface element)可以是指可满***互需求的软件界面或***界面所包含的满足用户交互要求的一系列元素。界面元素可以是指***的界面元素，也可以是应用程序的界面元素。例如，ios界面元素可以包括条栏、内容视图、控件、临时视图等。如图1所示，是本说明书根据一示例性实施例示出的界面元素示意图。该示意图以几种***的界面元素和几种应用的界面元素进行示例说明。

在各种移动终端自动化测试框架中，对界面元素的检查是必不可少的一环。而针对界面元素的检测，往往通过获取前端页面的布局信息，来获取每个控件(widget)的位置，内容等。然而，针对无法获取到布局信息的界面，则无法检测界面上的界面元素。例如，针对Webview组件的页面，则无法获取到布局信息，因此无法进行界面元素检测。

申请人发现，界面元素往往包含用于指示其功能的对象，例如，利用文字或图像等对象向用户示意该界面元素的功能。如，以界面元素为返回控件示例，返回控件中往往包括某个表示返回意图的图形，以便用户在看到该图形后，知道包含该图形的控件为返回控件。又如，在数字键盘中用数字“1”指代某控件表示数值为“1”的数字键。

在某些应用场景中，界面元素中可能会出现单个文字，即某个文字相邻位置处没有文字，而申请人发现，出现单个文字时，采用文字识别方法对图像进行识别，可能由于单个出现的文字宽度太窄，导致无法利用文字识别技术识别出单个出现的文字。例如，某些文字识别算法中，可以先检测一个小的、固定宽度的文本段，再将小文本段拼接起来，得到文本行。如，将候选区域切成长条形的框进行处理，如k个待选的长条预选区域。由于单个出现的文字的宽度较窄，占用固定的长条预选区域的个数较少，可能出现所占用长条预选区域的宽度值少于拼接长度的最低值，从而不被认定为是需要识别的文字，进而导致部分文字无法识别。

鉴于此，本说明书实施例提供一种界面元素检测方案，通过获取包含界面元素的待检测图像，并依据对待检测图像进行目标检测处理获得的对象区域和对象类别，确定待检测图像中包含目标对象的界面元素的位置和内容，由于目标对象包括单个指定文字，因此，可以识别界面元素中以单个文字的形式出现、和/或文字宽度小于设定阈值的文字。

以下结合附图对本说明书实施例进行示例说明。

如图2所示，是本说明书根据一示例性实施例示出的一种界面元素检测方法的流程图，所述方法包括：

在步骤202中，获取包含界面元素的待检测图像；

在步骤204中，依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容，所述目标对象包括单个指定文字，所述指定文字以单个文字的形式出现在界面元素、和/或文字宽度小于设定阈值。

本实施例提供的界面元素检测方法可以通过软件执行，也可以通过软件和硬件相结合或者硬件执行的方式实现，所涉及的硬件可以由两个或多个物理实体构成，也可以由一个物理实体构成。本实施例方法可以应用于具有界面元素检测需求的电子设备或客户端，或者，所述软件可以是接口服务，以供调用方调用本实施所提供服务。例如，在对某移动终端进行测试时，可以先识别界面元素，再依据测试用例以及检测获得的界面元素进行测试。其中，电子设备可以是PC、平板电脑、笔记本电脑、台式电脑、PDA(Personal DigitalAssistant，个人数字助理)等设备。

本实施例对界面元素进行检测，可以是检测界面元素的位置和内容，界面元素的内容可以是界面元素的名称或作用等。

待检测图像是待进行界面元素检测的图像，待检测图像中可以包含待检测的界面元素。在一个例子中，待检测图像可以是界面截图。例如，若检测目标是：对***的界面元素进行检测，则可以获取***界面的截图；又如，若检测目标是:对某指定应用程序的界面元素进行检测，则可以获取该应用程序运行过程中的界面截图等。

可以理解的是，获取待检测图像的方法包括但不限于上述方法，具体可以根据检测需求设置，在此不一一赘述。

在获得待检测图像后，可以对待检测图像进行目标检测处理，以识别出待检测图像中含目标对象的界面元素的位置和内容。

本实施例可以将指定的可以以单个文字的形式被包含在界面元素中的文字、和/或文字宽度小于设定阈值的文字作为目标对象，以便利用目标检测技术进行检测。目标对象包括单个指定文字，所述指定文字可以以单个文字的形式出现在界面元素、和/或文字宽度小于设定阈值。

其中，指定文字对象以单个文字的形式出现，可以是指定文字对象的相邻位置范围内没有文字。文字宽度小于设定阈值可以是以指定字号显示的文字，其文字宽度小于与该指定字号对应的设定阈值。例如，针对数字，以指定字号展示数字时，其宽度往往小于与该指定字号对应的设定阈值。又如针对字母“l”，当其单独出现时，采用文字识别技术，可能出现漏识别的情况。而本发明可以针对这种情况，采用物体检测技术检测类别为“l”的字母。

关于如何确定指定文字对象，可以依据测试需求中待测的界面元素而定。例如，直接将可以以单个文字的形式出现在待测试的界面元素中的文字，作为指定文字。又如，将可以以单个文字的形式出现在待测试的界面元素中、且出现频率高于阈值的文字，作为指定文字。又如，将可以以单个文字的形式出现在待测试的界面元素中、且文字宽度小于阈值的文字，作为指定文字等。在一个可选的例子中，还可以结合文字对象在界面图像中的字体大小，来确定是否作为指定文字。

在一个示例中，如果待测试的界面元素中包括单独出现的数字，如数字键盘，鉴于数字的宽度较窄，则，所述指定文字对象包括数字对象，所述对象类别包括数值。在本实施例中，目标识别过程中数字键盘中的数字可以被当作物体输出，例如数字1，输出结果为用于标记它的标签“1”。本实施例可以实现识别单独出现的数字。

在一个实施例中，为了提高识别率，不仅利用目标检测处理识别单个指定文字，还通过文字识别处理识别出包含文字的界面元素，实现利用目标检测辅助文字识别技术识别文字。为此，所述方法还包括：

如图3所示，是本说明书根据一示例性实施例示出的一种界面元素检测方法的流程图，所述方法包括：

在步骤302中，获取包含界面元素的待检测图像；

在步骤304中，依据对所述待检测图像进行文字识别处理获得的文字区域和文字内容，确定所述待检测图像中包含文字的界面元素的位置和内容；

在步骤306中，依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容，所述目标对象包括单个指定文字，所述指定文字以单个文字的形式出现在界面元素、和/或文字宽度小于设定阈值；

在步骤308中，合并基于文字识别处理确定的界面元素和基于目标检测处理确定的界面元素。

通过识别界面元素所包含的对象来确定界面元素的内容和位置，并且将文字识别处理和目标检测处理相结合，以单个指定文字作为目标对象，采用目标检测处理识别指定文字，可以识别出文字识别处理漏识别的文字，从而提高识别率。以指定文字对象包括数字对象为例，文字识别过程中虽然识别到了绝大部分文字，但可能由于数字键盘中的单个数字特征不明显，因此可能出现大部分数字未被识别到的情况，而本实施例可以识别出单个文字，提高识别率。

文字识别处理(optical character recognition,OCR)，可以是指在图像中检测和识别文字。例如，文字识别处理可以包括文字检测(Text Detection)与文字识别(TextRecognition)两部分。文字检测对照片中存在文字的区域进行定位，即找到单词或者文本行的边界框；文字识别是对定位后的文字进行识别。目标检测(object detection)处理,可以是给定一张图片或者视频帧，找出其中所有目标的位置，并给出每个目标的具体类别。

关于合并基于文字识别处理确定的界面元素和基于目标检测处理确定的界面元素，识别结果可以包括：同时由文字识别处理和目标检测处理确定的界面元素，基于文字识别技术识别出的、但目标检测未检测出的界面元素，基于目标检测检测出的、但文字识别技术未识别出的界面元素。

在该实施例中，由于文字识别技术可以识别到绝大部分文字，又通过结合目标检测进行单个文字识别，可以辅助识别到文字识别技术识别不到的文字，从而提高识别率。

针对待检测图像中指定文字对象，可能存在文字识别处理获得的结果与目标检测处理获得的结果不一致的情况，在一个示例中，可以采用文字识别处理获得的结果作为所述文字对象的识别结果。具体的，所述方法还包括：

可见，该实施例在利用两种识别技术识别出的结果出现分歧时，可以优先采用文字识别的识别结果，以提高识别准确率。

某些测试需求中，除了识别包含文字的界面元素，还需识别包含非文字类的界面元素，鉴于此，本实施例目标检测处理中，待检测的目标对象还可以包括非文字类对象。非文字类对象可以是图形、图像等非文字对象。例如，所述非文字类对象包括功能按钮图像、应用图标等中的一种或多种。

采用文字识别的方式可以识别出待检测图像中的文字类的界面元素，可以采用目标检测的方式可以检测出待检测图像中的非文字类的界面元素。非文字类的界面元素中包括非文字类对象，例如，可以是功能按钮图像、和/或应用图标等。具体可以识别哪几类非文字对象，可以根据测试需求而定。例如，需要测试诸如返回按钮、撤销按钮、确认按钮等功能按钮时，则目标对象包括功能按钮图像。

在该实施例中，通过结合文字识别技术和目标检测技术，直接识别待检测图像本身的文字和物体元素，实现对移动端界面元素的定位和检测，特别是对一些非标准控件构成的界面元素，可以避免由于无法获取到布局信息导致无法检测出界面元素的缺陷。

在一个实施例中，可以将文字识别处理获得的文字区域的位置信息作为界面元素的位置，可以将目标检测处理获得的对象区域的位置信息作为界面元素的位置。例如，将文字区域/对象区域的左上角坐标和右下角坐标作为界面元素的坐标。在某些场景中，文字区域往往小于实际的界面元素的区域，对象区域往往小于实际的界面元素的区域，则，在另一个实施例中，可以从界面图像样本中训练获得文字区域的位置信息与界面元素的位置的映射关系，以及对象区域的位置信息与界面元素的位置的映射关系，以便在文字识别处理获得对象区域后，可以依据映射关系确定界面元素的位置；在目标检测处理获得对象区域后，可以依据映射关系确定界面元素的位置。

关于如何识别获得界面元素的位置和内容，在一个可选的实施例中，待检测图像中包含文字的界面元素可以采用预训练的文字识别模型识别获得。所述依据对所述待检测图像进行文字识别处理获得的文字区域和文字内容，确定所述待检测图像中包含文字的界面元素的位置和内容，包括：采用预训练的文字识别模型识别所述待检测图像中包含文字的界面元素的位置和内容。

文字识别模型是预先训练获得的用于进行文字识别的网络模型，可以通过对深度学习网络进行训练获得文字识别模型。作为一种示例，可以是场景文字识别模型，不仅能识别白色背景的文字，还能识别其他以背景图片作为背景、以文字作为前景的图片。

作为一示例性实施例，所述文字识别模型基于：采用预构建的文字训练集和文字验证集对深度学习网络进行训练获得。在该实施例中，不仅利用文字训练集对神经学习网络进行训练，还利用文字验证集在模型训练过程中验证模型的准确度。文字训练集和文字验证集中包括样本图像。在一例子中，为了实现场景文字的识别，样本图像可以包括场景文字样本图片，场景文字样本图库可以由文字做前景、图作背景。本实施例还提供一种构建场景样本图片的手段，以随机获得的背景图片作为背景、以随机获得的文字作为前景，从而构建包含前景和背景的场景文字样本图片。例如，文字可以以任意角度贴到背景图片的任意位置上。作为一种示例，可以利用卷积神经网络VGG16将背景图片和文字随机生成文字训练集和文字验证集。文字训练集和文字验证集还包括场景文字样本图像的标签，该标签可以包括场景文字样本图片中文字所在区域以及内容。

该实施例中，通过包含带标签的场景文字样本图片的文字训练集和文字验证集，对深度学习网络进行训练，可以获得识别准确率高的文字识别模型。

为了获得文字识别模型，所选择的深度学习网络可以根据需求选择。所选择的深度学习网络可以是适合进行文字识别的网络。在一个示例中，深度学习网络可以是CTPN+CRNN网络，实现自然场景文字识别。其中，CTPN(Connectionist Text Proposal Network)，CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)。CTPN结合CNN与LSTM深度网络，可以有效的检测出复杂场景的文字。通过将CTPN和CRNN无缝结合，可以提高识别准确度。

可以理解的是，还可以采用其他神经网络训练获得文字识别模型，在此不一一赘述。

作为一示例性实施例，所述物体检测模型基于：采用预构建的目标训练集和目标验证集对深度学习网络进行训练获得。在该实施例中，不仅利用目标训练集对神经学习网络进行训练，还可以利用目标验证集在模型训练过程中验证模型的准确度。目标训练集可以包括带标签的样本图像，目标验证集可以包括带标签的样本图像。在一示例性例子中，目标训练集可以包括带标签的目标样本图片，和/或，目标验证集可以包括带标签的目标样本图片，所述目标样本图片包括以下一种或多种：包含目标对象的***界面图像、包含目标对象的应用界面图像。***界面图像可以是完整界面图像，也可以是从***界面图像中截取的包含目标对象的部分图片；应用界面图像可以是完整界面图像，也可以是从应用界面图像中截取的包括目标对象的部分图片等。

本实施例直接结合应用场景构建目标训练集和目标验证集，直接以界面图像和/或界面图像中的部分图像构建样本图像，可以训练获得识别准确率更高的模型。目标训练集和/或目标验证集还可以包括目标样本图片的标签，所述标签包括对象样本图片中目标对象所在区域以及类别。作为一种示例，在物体检测模型的训练中，可以利用Labelimg等工具，生成VOC格式的目标训练集和目标验证集。在训练过程中，若模型的损失函数(loss)收敛，模型趋于稳定。

为了获得物体检测模型，所选择的深度学习网络可以根据需求选择。所选择的深度学习网络可以是适合进行单个目标的区域检测和类别识别的网络。在一个示例中，深度学习网络可以是SSD_MOBILENET网络。其中，MOBILENET主要是为了适用于移动端而提出的一种轻量级深度网络模型，可使用深度可分离卷积将标准卷积核进行分解计算，减少了计算量。本实施例采用SSD_MOBILENET训练获得物体检测模型，可以加快训练效率。

可以理解的是，还可以采用其他神经网络训练获得物体检测模型，在此不一一赘述。

作为一示例性实施例，可以将训练产生的标记文件(checkpoint文件)编译生成二进制的模型文件，该模型文件可以记录模型的所有参数，其中包括了普通参数和超参数的内容。

在获得物体检测模型和文字识别模型后，在模型应用阶段，若获取到包含界面元素的待检测图像，可以将待检测图像输入到文字识别模型和物体检测模型中。文字识别模型输出识别出的文字部分的位置和内容，目标检测模块输出识别出的物体的位置和内容，结合两种输出结果获得最终结果。当两种结果冲突时，在一个例子中，可以以文字识别结果为准。根据硬件条件，可以将两种识别模型设定为串行识别或者是并行识别，视具体情况而定。

如图4A和图4B所示，是本说明书根据一示例性实施例示出的一种界面元素检测方法的应用场景图。图4A示意出模型训练阶段和应用阶段，图4B示出模型应用阶段。在该应用场景中，利用文字的训练集和验证集进行OCR模型训练，生成OCR预测模型。利用目标的训练集和验证集进行Object Detection模型训练，生成Object Detection预测模型。模型应用阶段，两种预测模型可以并行执行，也可以先执行OCR预测模型，再执行Object Detection预测模型，具体根据硬件决定。在应用阶段，可以将终端的界面进行截图，获得包含界面元素的待检测图像，将待检测图像输入预测模型，可以输出界面元素的位置和内容。OCR预测模型进行场景文字识别，Object Detection预测模型用于对诸如数字、按钮、图标等的目标对象进行识别。图4A和图4B是为了方便理解，利用方框的方式标识已识别的界面元素。图4B中示意出采用OCR预测模型进行场景文字识别时，可能有部分数字键无法识别出来，而结合利用Object Detection预测模型进行目标检测的结果，不仅能识别出非文字类的界面元素，还可以识别出OCR预测模型无法识别出的数字。

本发明实施例提供了一种创新的识别界面元素位置和内容的方法，将两种深度学习的方法融合到一起，可以同时识别到文字和物体，以及特征不明显的文字。

以上实施方式中的各种技术特征可以任意进行组合，只要特征之间的组合不存在冲突或矛盾，但是限于篇幅，未进行一一描述，因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。

与前述界面元素检测方法的实施例相对应，本说明书还提供了界面元素检测装置及其所应用的电子设备的实施例。

本说明书界面元素检测装置的实施例可以应用在计算机设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在计算机设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本说明书界面元素检测装置所在计算机设备的一种硬件结构图，除了图5所示的处理器510、网络接口520、内存530、以及非易失性存储器540之外，实施例中界面元素检测装置531所在的计算机设备通常根据该设备的实际功能，还可以包括其他硬件，对此不再赘述。

如图6所示，是本说明书根据一示例性实施例示出的一种界面元素检测装置的框图，所述装置包括：

图像获取模块62，用于：获取包含界面元素的待检测图像；

目标检测模块64，用于：依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容，所述目标对象包括单个指定文字，所述指定文字以单个文字的形式出现在界面元素、和/或文字宽度小于设定阈值。

在一个实施例中，所述装置还包括(图6未示出)：

在一个实施例中，所述结果确定模块还用于：

在一个实施例中，所述目标对象还包括非文字类对象。

在一个实施例中，所述文字识别模块用于：采用已训练的文字识别模型识别所述待检测图像中包含文字的界面元素的位置和内容。

在一个实施例中，所述目标检测模块用于：采用已训练的物体检测模型识别所述待检测图像中包含目标对象的界面元素的位置和内容。

如图7所示，是本说明书根据一示例性实施例示出的另一种界面元素检测装置的框图，所述装置包括：

图像获取模块72，用于：获取包含界面元素的待检测图像；

文字识别模块74，用于：依据对所述待检测图像进行文字识别处理获得的文字区域和文字内容，确定所述待检测图像中包含文字的界面元素的位置和内容；

目标检测模块76，用于：依据对所述待检测图像进行目标检测处理获得的对象区域和对象类别，确定所述待检测图像中包含目标对象的界面元素的位置和内容，所述目标对象包括单个指定文字，所述指定文字以单个文字的形式出现在界面元素、和/或文字宽度小于设定阈值；

结果确定模块78，用于：合并基于文字识别处理确定的界面元素和基于目标检测处理确定的界面元素。

在一个实施例中，所述结果确定模块78还用于：

在一个实施例中，所述目标对象还包括非文字类对象。

在一个实施例中，所述文字识别模块74用于：采用已训练的文字识别模型识别所述待检测图像中包含文字的界面元素的位置和内容。

在一个实施例中，所述目标检测模块76用于：采用已训练的物体检测模型识别所述待检测图像中包含目标对象的界面元素的位置和内容。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本说明书实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如上任一项界面元素检测方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

相应的，本说明书实施例还提供一种计算机存储介质，所述存储介质中存储有程序指令，所述程序指令用于实现上述任一项界面元素检测方法。

本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种界面元素检测方法，所述方法包括：

获取包含界面元素的待检测图像；

2.根据权利要求1所述的方法，所述方法还包括：

3.根据权利要求2所述的方法，所述方法还包括：

4.根据权利要求1所述的方法，所述目标对象还包括非文字类对象。

5.根据权利要求4所述的方法，

所述指定文字包括数字，所述对象类别包括数值，和/或，

所述非文字类对象包括功能按钮图像、和/或应用图标。

6.根据权利要求2所述的方法，所述依据对所述待检测图像进行文字识别处理获得的文字区域和文字内容，确定所述待检测图像中包含文字的界面元素的位置和内容，包括：

7.根据权利要求6所述的方法，所述文字识别模型基于：采用预构建的文字训练集和文字验证集对深度学习网络进行训练获得，所述文字训练集和/或文字验证集包括带标签的场景文字样本图片，所述场景文字样本图片由文字做前景、图作背景；所述标签包括场景文字样本图片中文字所在区域以及内容。

8.根据权利要求6所述的方法，所述物体检测模型基于：采用预构建的目标训练集和目标验证集对深度学习网络进行训练获得，所述目标训练集和/或目标验证集包括带标签的目标样本图片，所述目标样本图片包括以下一种或多种：包含目标对象的***界面图像、包含目标对象的应用界面图像；所述标签包括对象样本图片中目标对象所在区域以及类别。

9.一种界面元素检测方法，所述方法包括：

获取包含界面元素的待检测图像；

10.根据权利要求9所述的方法，所述方法还包括：

11.根据权利要求9或10所述的方法，所述指定文字包括数字，所述对象类别包括数值，所述目标对象还包括非文字类对象。

12.一种界面元素检测装置，所述装置包括：

图像获取模块，用于：获取包含界面元素的待检测图像；

13.一种界面元素检测装置，所述装置包括：

图像获取模块，用于：获取包含界面元素的待检测图像；

14.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1至11任一项所述方法。