CN111930622B

CN111930622B - 基于深度学习的界面控件测试方法及***

Info

Publication number: CN111930622B
Application number: CN202010793876.1A
Authority: CN
Inventors: 吴思奥; 张�浩; 傅媛媛; 丘士丹
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2023-10-13
Anticipated expiration: 2040-08-10
Also published as: CN111930622A

Abstract

本发明提供了一种基于深度学习的界面控件测试方法及***，所述方法包含：获取待测试控件测试过程的界面序号、目标文本、目标控件位置及输入信息；根据界面序号截取对应的屏幕界面数据，将屏幕界面数据带入通过场景文本检测公共数据集训练获得的文本检测模型中获得文本位置信息；根据文本位置信息对屏幕界面数据中对应区域进行截图获得文本区域截图数据，将文本区域截图数据带入通过文本识别公共数据集训练获得的文本识别模型中获得文本信息；将文本信息与目标文本进行匹配，根据匹配得到的目标文本获得对应的目标控件位置及输入信息；根据输入信息对目标控件位置对应的目标控件执行对应的指令操作。

Description

基于深度学习的界面控件测试方法及***

技术领域

本发明涉及界面控件测试领域，尤指代一种基于深度学习的界面控件方法及测试***。

背景技术

为了保证软件产品的质量，软件产品在发布之前都会进行大量的测试工作。在现有技术中，测试人员可以借助自动化测试工具或其它手段，对界面进行测试，以实现节约人力和降低时间成本。界面自动化测试最为重要的一件事情就是得到要操作的控件对象，比如一个文本框、点击框、下拉框等等。精确、快速的得到目标控件对象是界面控件自动化测试的关键。

传统的界面控件测试一般分为两种方法：一种通过录制界面控件的图片并保存在特定的路径下，然后通过编写测试脚本的方式去找界面中目标控件的位置从而对界面中目标控件进行相应的动作指令测试。第二种是直接通过测试案例驱动，将控件的大致的位置坐标和对控件操作的动作指令填写到案例数据中，通过案例中填写的目标控件周围的目标文本位置坐标和控件周围的目标文本信息，并指定寻找目标文本图片的文本框大小按每个像素不断遍历，每遍历一次得到的图片送到OCR识别服务中去识别，识别的结果与控件周围的目标文本匹配，找到目标控件周围的文本位置坐标，然后再根据得到的文本位置坐标和案例中填写的控件与周围的目标文本的相对位置去遍历找到目标控件。

第一种方法的缺点：1、当界面发生变化时录制的界面控件的位置和编写的测试脚本都要随之变化。2、当界面显示在分辨率较低的显示器上面显示时，原来在较高分辨率录制的控件图片在分辨率较低的显示器上可能识别不到，这种情况下需要重新录制脚本。不断的重复录制和修改脚本浪费了人力和时间成本，导致测试工作效率不高。

第二种方法的缺点：1、在测试案例中需要填写目标控件周围的目标文本位置起点和终点坐标，然而在实际测试过程中测试人员是很难知道目标文本在界面中的位置的，起点坐标在填写时只能估计很小的坐标，终点坐标在填写时只能估计很大的坐标，但这样会增加图片遍历的次数，非常耗时。2、在寻找控件周围的目标文本图片时，需要指定寻找目标文本框的大小按像素不断遍历，当指定的目标文本框的大小通过遍历不能找到该目标文本的图片时，需要换文本框的大小重新遍历。这种方式不智能，效率很低，而且如果规定的目标文本框较小或者较大，都很有可能存在找不目标本文图片的情况。

发明内容

本发明目的在于提供一种基于深度学习的界面控件方法及测试***，提高对界面控件进行识别的精确度、易用性更强，从而节约测试的人力、时间成本。

为达上述目的，本发明所提供的基于深度学习的界面控件测试方法，具体包含：获取待测试控件测试过程的界面序号、目标文本、目标控件位置及输入信息；根据所述界面序号截取对应的屏幕界面数据，将所述屏幕界面数据带入通过场景文本检测公共数据集训练获得的文本检测模型中获得文本位置信息；根据所述文本位置信息对所述屏幕界面数据中对应区域进行截图获得文本区域截图数据，将所述文本区域截图数据带入通过文本识别公共数据集训练获得的文本识别模型中获得文本信息；将所述文本信息与所述目标文本进行匹配，根据匹配得到的目标文本获得对应的目标控件位置及输入信息；根据所述输入信息对所述目标控件位置对应的目标控件执行对应的指令操作。

在上述基于深度学习的界面控件测试方法中，优选的，获取待测试控件测试过程的界面序号、目标文本、目标控件位置及输入信息还包含：根据所述界面序号、所述目标文本、所述目标控件位置及所述输入信息生成测试案例；根据一条或多条测试案例生成案例模板数据。

在上述基于深度学习的界面控件测试方法中，优选的，所述目标控件位置包含：目标控件与所述目标文本的相对位置和最短距离。

在上述基于深度学习的界面控件测试方法中，优选的，根据所述界面序号截取对应的屏幕界面数据包含：根据所述界面序号通过GUI自动截屏方法截取对应的屏幕界面数据。

在上述基于深度学习的界面控件测试方法中，优选的，所述文本检测模型构建流程包含：将场景文本检测公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图片特征；对所述图片特征做预设像素的文本二分类预测及预设像素相邻方向的连接的文本二分类预测，根据预设像素的文本二分类预测和连接的文本二分类预测获得连通域集合，根据所述连通域集合获得文字块实例分割数据；根据所述文字块实例分割数据通过OpenCV提取带方向信息的外接矩形框，获得文本边界框；根据所述训练集图像数据、所述文本边界框和所述验证集图像数据构建文本检测模型。

在上述基于深度学习的界面控件测试方法中，优选的，将场景文本检测公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据还包含：将所述训练集图像数据和所述验证集图像数据转化为tfrecord文件格式。

在上述基于深度学习的界面控件测试方法中，优选的，所述文本识别模型构建流程包含：将文本识别公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图像卷积特征；通过循环神经网络算法分析所述图像卷积特征的特性向量序列，获得文本字符序列概率；通过CTC算法转录所述文本字符序列概率获得文本数据；根据所述文本数据、所述训练集图像数据和所述验证集图像数据构建文本识别模型。

在上述基于深度学习的界面控件测试方法中，优选的，将文本识别公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据还包含：将所述文本识别公共数据集中图像数据归一化处理为预设尺寸的标准图像数据；将所述标准图像数据转化为tfrecord文件格式后，按预设比例划分为训练集图像数据和验证集图像数据。

在上述基于深度学习的界面控件测试方法中，优选的，根据所述输入信息对所述目标控件位置对应的目标控件执行对应的指令操作包含：根据所述输入信息调用GUI自动化技术对所述目标控件位置对应的目标控件执行对应的指令操作。

本发明还提供一种基于深度学习的界面控件测试***，所述***包含设置模块、文本位置检测模块、文本信息提取模块、匹配模块和测试模块；所述设置模块用于获取待测试控件测试过程的界面序号、目标文本、目标控件位置及输入信息；所述文本位置检测模块用于根据所述界面序号截取对应的屏幕界面数据，将所述屏幕界面数据带入通过场景文本检测公共数据集训练获得的文本检测模型中获得文本位置信息；所述文本信息提取模块用于根据所述文本位置信息对所述屏幕界面数据中对应区域进行截图获得文本区域截图数据，将所述文本区域截图数据带入通过文本识别公共数据集训练获得的文本识别模型中获得文本信息；所述匹配模块用于将所述文本信息与所述目标文本进行匹配，根据匹配得到的目标文本获得对应的目标控件位置及输入信息；所述测试模块用于根据所述输入信息对所述目标控件位置对应的目标控件执行对应的指令操作。

在上述基于深度学习的界面控件测试***中，优选的，所述设置模块还包含：根据所述界面序号、所述目标文本、所述目标控件位置及所述输入信息生成测试案例；根据一条或多条测试案例生成案例模板数据；其中，所述目标控件位置包含：目标控件与所述目标文本的相对位置和最短距离。

在上述基于深度学习的界面控件测试***中，优选的，所述文本位置检测模块还包含文本检测模型构建单元，所述文本检测模型构建单元用于：将场景文本检测公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图片特征；对所述图片特征做预设像素的文本二分类预测及预设像素相邻方向的连接的文本二分类预测，根据预设像素的文本二分类预测和连接的文本二分类预测获得连通域集合，根据所述连通域集合获得文字块实例分割数据；根据所述文字块实例分割数据通过OpenCV提取带方向信息的外接矩形框，获得文本边界框；根据所述训练集图像数据、所述文本边界框和所述验证集图像数据构建文本检测模型。

在上述基于深度学习的界面控件测试***中，优选的，所述文本检测模型构建单元还包含：将所述训练集图像数据和所述验证集图像数据转化为tfrecord文件格式后构建文本检测模型。

在上述基于深度学习的界面控件测试***中，优选的，所述文本信息提取模块还包含文本识别模型构建单元，所述文本识别模型构建单元用于：将文本识别公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图像卷积特征；通过循环神经网络算法分析所述图像卷积特征的特性向量序列，获得文本字符序列概率；通过CTC算法转录所述文本字符序列概率获得文本数据；根据所述文本数据、所述训练集图像数据和所述验证集图像数据构建文本识别模型。

在上述基于深度学习的界面控件测试***中，优选的，所述文本识别模型构建单元还包含：将所述文本识别公共数据集中图像数据归一化处理为预设尺寸的标准图像数据；将所述标准图像数据转化为tfrecord文件格式后，按预设比例划分为训练集图像数据和验证集图像数据后构建文本识别模型。

在上述基于深度学习的界面控件测试***中，优选的，所述测试模块包含：根据所述输入信息调用GUI自动化技术对所述目标控件位置对应的目标控件执行对应的指令操作。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明的有益技术效果在于：工作人员仅用填写测试案例数据，不要编写测试脚本就可以进行界面控件的测试；当软件界面设计发生变化时，如果测试的目的控件与目标文本相对的位置没有发生改变、测试控件的顺序和逻辑也没变时，测试人员可以直接使用上次使用的案例数据进行变化后的界面测试；通过深度学习的文本检测和文本识别算法提高对界面目标本文位置查找的精确度和减少查找时间，从而能够精确、快速的找出界面目标控件，且不受低分辨率显示器的影响；进一步节约测试的人力、时间成本和提高产品的质量。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1A为本发明一实施例所提供的基于深度学习的界面控件测试方法的流程示意图；

图1B为本发明一实施例所提供的基于深度学习的界面控件测试方法的应用流程示意图；

图2A为本发明一实施例所提供的文本检测模型的构建流程示意图；

图2B为本发明一实施例所提供的文本检测模型的构建原理示意图；

图3为本发明一实施例所提供的文本区域截图数据的获取流程示意图；

图4A为本发明一实施例所提供的文本识别模型的构建流程示意图；

图4B为本发明一实施例所提供的文本识别模型的构建原理示意图；

图5为本发明一实施例所提供的文本识别模型识别文本信息的流程示意图；

图6为本发明一实施例所提供的基于深度学习的界面控件测试***的结构示意图；

图7为本发明一实施例所提供的电子设备的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

请参考图1A所示，本发明所提供的一种本发明所提供的基于深度学习的界面控件测试方法，具体包含：

S101获取待测试控件测试过程的界面序号、目标文本、目标控件位置及输入信息；

S102根据所述界面序号截取对应的屏幕界面数据，将所述屏幕界面数据带入通过场景文本检测公共数据集训练获得的文本检测模型中获得文本位置信息；

S103根据所述文本位置信息对所述屏幕界面数据中对应区域进行截图获得文本区域截图数据，将所述文本区域截图数据带入通过文本识别公共数据集训练获得的文本识别模型中获得文本信息；

S104将所述文本信息与所述目标文本进行匹配，根据匹配得到的目标文本获得对应的目标控件位置及输入信息；根据所述输入信息对所述目标控件位置对应的目标控件执行对应的指令操作。

在上述实施例中，获取待测试控件测试过程的界面序号、目标文本、目标控件位置及输入信息还包含：根据所述界面序号、所述目标文本、所述目标控件位置及所述输入信息生成测试案例；根据一条或多条测试案例生成案例模板数据。其中，所述目标控件位置包含：目标控件与所述目标文本的相对位置和最短距离。在实际工作中，该实施例中所述案例模板数据可为Excel形式，其中，第一列为界面序号，界面序号为***数字，案例数据的第一行对应测试的界面序号为1，后面行的序号需要根据前一行目标控件在操作之后界面是否发生变化来填写，如果前一行的控件在操作之后界面没有发生变化，该行数据中序号跟前一行的序号相同，如果界面变化则该行的序号为前一行的序号加1。第二列列名为目标文本，目标文本列所填内容为测试界面中的想要识别的目标文字。第三列列名为目标控件与目标文本相对位置，目标控件与目标文本相对位置所填内容为需要测试的控件位置在目标文本的哪个方位即上、下、左、右，中，这里的中表示目标文本就在目标控件上面，为避免测试人员自己随意填写方位，该列设计成给测试人员选择，而不是用户手动输入，这样有利于后续根据指定方位找控件的位置。第四列列名为距离，距离的内容为目标控件距离目标文字最近的距离是目标文本字体宽度的倍数。第五列列名为目标控件名，目标控件名的内容在Excel也是设计成给测试人员选择控件名(输入框、点击、下拉框等常用的控件名)。第六列列名为输入文本，如果第五列的目标控件名为输入框，则需要在输入文本这一列填上需要输入的文本内容；具体可参考以下表1所示。

表1

依据上述Excel测试案例，逐条读取表格中的数据：每一行的数据包括序号、目标文本、目标控件与目标文本相对位置、控件名、输入文本，用一个Map集合将每一行的数据保存起来。其后即可，执行上述步骤S102中的截取操作，具体的，即根据所述界面序号通过GUI自动截屏方法截取对应的屏幕界面数据，以此，为后续送到文本识别模型预测做准备。

在本发明一实施例中，为便于准确检测到文本位置信息，基于区域建议和语义分割结合搭建文本检测网络模型，在使用区域建议的方法基础上增加利用文本分割图检测结果对文本框的筛选处理，采用多模型集成方法将区域建议预测和语义分割预测的结果进行结合，得到精确度更高的文本检测结果。具体可参考图2A所示，所述文本检测模型构建流程包含：

S201将场景文本检测公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；

S202通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图片特征；

S203对所述图片特征做预设像素的文本二分类预测及预设像素相邻方向的连接的文本二分类预测，根据预设像素的文本二分类预测和连接的文本二分类预测获得连通域集合，根据所述连通域集合获得文字块实例分割数据；

S204根据所述文字块实例分割数据通过OpenCV提取带方向信息的外接矩形框，获得文本边界框；

S205根据所述训练集图像数据、所述文本边界框和所述验证集图像数据构建文本检测模型。

其中，将场景文本检测公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据还包含：将所述训练集图像数据和所述验证集图像数据转化为tfrecord文件格式；实际过程中上述文本检测模型的构建细节可参考图2B所示，各步骤的详细实现方式如下：

(1)文本检测网络模型输入图像数据获取：

将场景文本检测公共数据集IC15按比例随机分成训练集与验证集，供后续文本检测网络模型在训练过程中训练与验证使用。将数据集中的图片转化为tfrecord文件格式，tfrecord文件格式可以被快速的加载到内存中，从而节省文本检测网络模型训练时间。

(2)CNN提取图片特征：

在VGG16基础上进行特征提取，输入层为上述图像数据集预处理后的数据，接着是5个卷积层加池化层的组合和2个1x1的卷积层。在不同层提取的特征图上进行1x1卷积操作，并将每一次提取的特征图进行特征融合提取更多的特征，一共4个这样的特征融合操作，2个1x1卷积层输出的特征图进行特征融合操作时，如果之间存在池化层且池化核大小为2×2，那么在后面进行的1x1卷积层之后需要进行2×2上采样操作，将特征图的大小恢复成与即将融合的特征图大小一样。

(3)像素的文本二分类预测和连接的文本二分类预测：

在所有特征提取操作结束后，做某个像素的文本二分类预测，以及该像素的8个邻域方向(上、下、左、右、左上、左下、右上、右下)是否存在连接的文本二分类预测。

(4)获取实例分割结果：

通过上述像素的文本二分类预测和连接的文本二分类预测得到连通域集合，集合中的每个元素表示文本实例，每个连通域表示检测到的文本实例，从而得到文字块实例分割结果。

(5)获取文本边界框：

使用OpenCV的minAreaRect(最小外接矩形)提取大小不同文本的带方向信息的外接矩形框，具体的格式为((x,y),(w,h),θ)，(x,y)表示中心点坐标，(w,h)表示当前矩形框的宽和高，θ表示旋转角度。然后再进行噪声滤除操作，通过“并查集”(disjoint-set datastructure)并出最终的文本边界框的位置。上述过程与其他文本检测网络模型，省略了边框回归步骤，因此模型在训练时收敛速度更快些。使用SGD(随机梯度下降法)优化器训练上述文本检测网络，获取训练好的文本检测模型。

在上述文本检测模型的基础上即可将截取的屏幕界面作为输入送到文本检测模型进行位置信息的预测，根据位置信息对屏幕界面所有文本区域截图；具体的，实际工作中可对整个屏幕界面进行截图，将整个图片作为训练好的文本检测模型的输入，根据文本检测模型检测到的文本区域，得到屏幕中所有存在文本区域的位置信息(文本区域的四个顶点坐标)，然后将根据每个文本区域对应的坐标位置将文本区域切割成图片，这样就直接一次性获取了屏幕中所有文本区域的图片。使用文本检测模型获取屏幕中所有文本区域的图片流程图见图3。

为提高文本识别的精准度，本发明所提供的文本识别模型包含CNN卷积模块、RNN循环网络模块、CTC转录模块。CNN卷积模块学习得到图像卷积特征，RNN循环网络模块进一步提取图像卷积特征中的序列特征，CTC转录合并文本序列，得出图片中文本的结果。该文本识别模型能获得文本序列的上下文关系特征,使得该方法的识别性能优于基于朴素卷积神经网络的方法。有效提升文本识别准确率，使得模型更加鲁棒。具体的，在本发明一实施例中，可参考图4A所示，所述文本识别模型构建流程包含：

S401将文本识别公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；

S402通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图像卷积特征；

S403通过循环神经网络算法分析所述图像卷积特征的特性向量序列，获得文本字符序列概率；

S404通过CTC算法转录所述文本字符序列概率获得文本数据；

S405根据所述文本数据、所述训练集图像数据和所述验证集图像数据构建文本识别模型。

其中，将文本识别公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据还包含：将所述文本识别公共数据集中图像数据归一化处理为预设尺寸的标准图像数据；将所述标准图像数据转化为tfrecord文件格式后，按预设比例划分为训练集图像数据和验证集图像数据。实际过程中上述文本识别模型的构建细节可参考图4B所示，各步骤的详细实现方式如下：

(1)文本识别网络模型输入图像数据获取：

将文本识别公共数据集的图片的尺寸归一化为32*256即高度为32个像素、宽度为256个像素，将图片RGB三通道作为灰度图读取，可以提高模型的训练速度。然后对标签矩阵进行处理，将其转化为tensorflow支持的数据格式。按比例随机分成训练集与验证集，供后续文本识别网络模型在训练过程中训练与验证使用。

(2)CNN卷积学习得到图像卷积特征：

CNN卷积模块含有7层卷积层，4层池化层的小型CNN网络，并在中间加入两次批量正则化，避免模型梯度弥散，加速模型收敛，缩短训练过程。通过CNN的学习，得到图像卷积特征。

(3)RNN循环网络预测文本字符序列概率：

将CNN学习到的图像卷积特征作为输入送入RNN循环网络，RNN循环网络采用多层LSTM结构学习特征序列的双向依赖关系，从产生的图像特征中提取特性向量序列，预测得到文本字符序列概率。

(4)CTC转录文本：

通常文本字符序列预测结果与真值文本无法对齐，本发明中利用CTC算法将预测的字符概率序列转录为文本。使用SGD优化器训练上述文本识别网络，获取训练好的文本识别模型。

本领域相关技术人员当可知，上述各数值均为工作人员根据实际需要选择设置的一种实例性数据，并非对其应用方式的具体限定；本领域相关技术人员可根据实际需要选择调整设置，本发明对其并不做进一步限制。

在本发明一实施例中，上述步骤S103将所述文本区域截图数据带入通过文本识别公共数据集训练获得的文本识别模型中还可对文本区域截图进行预处理，以使得所示文本识别模型更加精准的完成文本识别；在实际工作中，由于文本识别模型的输入图片的大小为32*256，所以文本检测模型截取的图片进行预测时，需要对文本检测模型截取的图片按比例缩放与填充。如果对于图片像素宽度大于256的，将图片按比例放缩到32*256。如果图片像素宽度小于256，将图片按高度调整到32的情况等比例放缩，如果宽度不满256的宽度像素部分全部以0填充。将预处理后的屏幕的文本区域图片送入到训练好的文本识别模型中进行预测，得到图片中包含的文本信息。使用文本识别模型预测本文区域截图中的文本信息流程图见图5。本领域相关技术人员当可知，上述各数值均为工作人员根据实际需要选择设置的一种实例性数据，并非对其应用方式的具体限定；本领域相关技术人员可根据实际需要选择调整设置，本发明对其并不做进一步限制。

由此，在根据所述文本识别模型识别获得文本信息后即可进入匹配环节，即将所述文本信息与所述目标文本进行匹配；实际工作中，可将前述每个文本区域图片预测的文字与案例数据中目标文本进行匹配，如果预测的文本信息与目标文本完全相等，则记录该文本区域图片所在坐标位置并与每个目标文本一一对应。以此，进一步根据匹配成功的文本信息所在的坐标和目标文本对应的目标控件之间的相对位置确定目标控件的位置；具体的，在实际工作中，可将目标文本所对应的目标控件的距离，和目标文本字体高度之间的倍数记为n，将匹配成功的目标文本的左上、左下、右上、右下的位置坐标分别记为(x,y),(x,s),(v,y),(v,s)，高度记为h＝y-s、宽度记为w＝v-x。然后，获取步骤2读取的数据中目标控件与目标文本相对位置。当相对位置内容为中，直接将目标控件的位置坐标记录为目标文本的中心位置坐标即((x+v)/2,(y+s)/2)；当相对位置内容为左时，目标控件的位置坐标记录为(x-h*n,(y+s)/2)；当相对位置内容为右时，目标控件的位置坐标记录为(v+h*n,(y+s)/2)；当相对位置内容为上时，目标控件的位置坐标记录为((x+v)/2,y-h*n)；当相对位置内容为下时，目标控件的位置坐标记录为((x+v)/2,s+h*n)。

在获得了目标控件的具***置后，即可执行对目标控件的对应操作，在本发明一实施例中可根据所述输入信息调用GUI自动化技术对所述目标控件位置对应的目标控件执行对应的指令操作。

综上，本发明所提供的基于深度学习的界面控件测试方法在整体技术流程上可参考图1B所示，细分为以下10个步骤：

步骤1：Excel案例模板设置。

步骤2：根据测试人员填写的案例数据逐条读取表格中的数据。

步骤3：截取需要测试的屏幕界面。

步骤4：搭建并训练文本检测网络得到训练好的文本检测模型。

步骤5：将截取的屏幕界面作为输入送到文本检测模型进行位置信息的预测，根据位置信息对屏幕界面所有文本区域截图。

步骤6：搭建并训练文本识别网络得到训练好的文本识别模型。

步骤7：将文本区域截图作为输入送到文本识别模型进行预测。

步骤8：根据文本识别模型预测的文本信息，与步骤2读取的数据中含有的目标文本进行匹配。

步骤9：根据匹配成功的目标文本所在的坐标和步骤2读取的数据中目标控件与目标文本相对位置确定目标控件的位置。

步骤10：根据步骤9确定的目标控件的位置，测试目标控件对应的指令动作。

本领域相关技术人员可根据实际需要对上述步骤做适当的合并或替换，本发明再此并不做进一步限定。

请参考图6所示，本发明还提供一种基于深度学习的界面控件测试***，所述***包含设置模块、文本位置检测模块、文本信息提取模块、匹配模块和测试模块；所述设置模块用于获取待测试控件测试过程的界面序号、目标文本、目标控件位置及输入信息；所述文本位置检测模块用于根据所述界面序号截取对应的屏幕界面数据，将所述屏幕界面数据带入通过场景文本检测公共数据集训练获得的文本检测模型中获得文本位置信息；所述文本信息提取模块用于根据所述文本位置信息对所述屏幕界面数据中对应区域进行截图获得文本区域截图数据，将所述文本区域截图数据带入通过文本识别公共数据集训练获得的文本识别模型中获得文本信息；所述匹配模块用于将所述文本信息与所述目标文本进行匹配，根据匹配得到的目标文本获得对应的目标控件位置及输入信息；所述测试模块用于根据所述输入信息对所述目标控件位置对应的目标控件执行对应的指令操作。

在上述实施例中，所述设置模块还包含：根据所述界面序号、所述目标文本、所述目标控件位置及所述输入信息生成测试案例；根据一条或多条测试案例生成案例模板数据；其中，所述目标控件位置包含：目标控件与所述目标文本的相对位置和最短距离。所述测试模块包含：根据所述输入信息调用GUI自动化技术对所述目标控件位置对应的目标控件执行对应的指令操作。

在本发明一实施例中，所述文本位置检测模块还包含文本检测模型构建单元，所述文本检测模型构建单元用于：将场景文本检测公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图片特征；对所述图片特征做预设像素的文本二分类预测及预设像素相邻方向的连接的文本二分类预测，根据预设像素的文本二分类预测和连接的文本二分类预测获得连通域集合，根据所述连通域集合获得文字块实例分割数据；根据所述文字块实例分割数据通过OpenCV提取带方向信息的外接矩形框，获得文本边界框；根据所述训练集图像数据、所述文本边界框和所述验证集图像数据构建文本检测模型。其中，所述文本检测模型构建单元还可包含：将所述训练集图像数据和所述验证集图像数据转化为tfrecord文件格式后构建文本检测模型。

在本发明一实施例中，所述文本信息提取模块还包含文本识别模型构建单元，所述文本识别模型构建单元用于：将文本识别公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图像卷积特征；通过循环神经网络算法分析所述图像卷积特征的特性向量序列，获得文本字符序列概率；通过CTC算法转录所述文本字符序列概率获得文本数据；根据所述文本数据、所述训练集图像数据和所述验证集图像数据构建文本识别模型。其中，所述文本识别模型构建单元还可包含：将所述文本识别公共数据集中图像数据归一化处理为预设尺寸的标准图像数据；将所述标准图像数据转化为tfrecord文件格式后，按预设比例划分为训练集图像数据和验证集图像数据后构建文本识别模型。

如图7所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图7中所示的所有部件；此外，电子设备600还可以包括图7中没有示出的部件，可以参考现有技术。

如图7所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的界面控件测试方法，其特征在于，所述方法包含：

获取待测试控件测试过程的界面序号、目标文本、目标控件位置及输入信息；

根据所述界面序号截取对应的屏幕界面数据，将所述屏幕界面数据带入通过场景文本检测公共数据集训练获得的文本检测模型中获得文本位置信息；

根据所述文本位置信息对所述屏幕界面数据中对应区域进行截图获得文本区域截图数据，将所述文本区域截图数据带入通过文本识别公共数据集训练获得的文本识别模型中获得文本信息；

将所述文本信息与所述目标文本进行匹配，根据匹配得到的目标文本获得对应的目标控件位置及输入信息；

根据所述输入信息对所述目标控件位置对应的目标控件执行对应的指令操作；

所述文本检测模型构建流程包含：将场景文本检测公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图片特征；对所述图片特征做预设像素的文本二分类预测及预设像素相邻方向的连接的文本二分类预测，根据预设像素的文本二分类预测和连接的文本二分类预测获得连通域集合，根据所述连通域集合获得文字块实例分割数据；根据所述文字块实例分割数据通过OpenCV提取带方向信息的外接矩形框，获得文本边界框；根据所述训练集图像数据、所述文本边界框和所述验证集图像数据构建文本检测模型；

所述文本识别模型构建流程包含：将文本识别公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图像卷积特征；通过循环神经网络算法分析所述图像卷积特征的特性向量序列，获得文本字符序列概率；通过CTC算法转录所述文本字符序列概率获得文本数据；根据所述文本数据、所述训练集图像数据和所述验证集图像数据构建文本识别模型。

2.根据权利要求1所述的基于深度学习的界面控件测试方法，其特征在于，获取待测试控件测试过程的界面序号、目标文本、目标控件位置及输入信息还包含：根据所述界面序号、所述目标文本、所述目标控件位置及所述输入信息生成测试案例；根据一条或多条测试案例生成案例模板数据。

3.根据权利要求2所述的基于深度学习的界面控件测试方法，其特征在于，所述目标控件位置包含：目标控件与所述目标文本的相对位置和最短距离。

4.根据权利要求1所述的基于深度学习的界面控件测试方法，其特征在于，根据所述界面序号截取对应的屏幕界面数据包含：根据所述界面序号通过GUI自动截屏方法截取对应的屏幕界面数据。

5.根据权利要求1所述的基于深度学习的界面控件测试方法，其特征在于，将场景文本检测公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据还包含：将所述训练集图像数据和所述验证集图像数据转化为tfrecord文件格式。

6.根据权利要求1所述的基于深度学习的界面控件测试方法，其特征在于，将文本识别公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据还包含：

将所述文本识别公共数据集中图像数据归一化处理为预设尺寸的标准图像数据；

将所述标准图像数据转化为tfrecord文件格式后，按预设比例划分为训练集图像数据和验证集图像数据。

7.根据权利要求1所述的基于深度学习的界面控件测试方法，其特征在于，根据所述输入信息对所述目标控件位置对应的目标控件执行对应的指令操作包含：

根据所述输入信息调用GUI自动化技术对所述目标控件位置对应的目标控件执行对应的指令操作。

8.一种基于深度学习的界面控件测试***，其特征在于，所述***包含设置模块、文本位置检测模块、文本信息提取模块、匹配模块和测试模块；

所述设置模块用于获取待测试控件测试过程的界面序号、目标文本、目标控件位置及输入信息；

所述文本位置检测模块用于根据所述界面序号截取对应的屏幕界面数据，将所述屏幕界面数据带入通过场景文本检测公共数据集训练获得的文本检测模型中获得文本位置信息；

所述文本信息提取模块用于根据所述文本位置信息对所述屏幕界面数据中对应区域进行截图获得文本区域截图数据，将所述文本区域截图数据带入通过文本识别公共数据集训练获得的文本识别模型中获得文本信息；

所述匹配模块用于将所述文本信息与所述目标文本进行匹配，根据匹配得到的目标文本获得对应的目标控件位置及输入信息；

所述测试模块用于根据所述输入信息对所述目标控件位置对应的目标控件执行对应的指令操作；

所述文本位置检测模块还包含文本检测模型构建单元，所述文本检测模型构建单元用于：将场景文本检测公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图片特征；对所述图片特征做预设像素的文本二分类预测及预设像素相邻方向的连接的文本二分类预测，根据预设像素的文本二分类预测和连接的文本二分类预测获得连通域集合，根据所述连通域集合获得文字块实例分割数据；根据所述文字块实例分割数据通过OpenCV提取带方向信息的外接矩形框，获得文本边界框；根据所述训练集图像数据、所述文本边界框和所述验证集图像数据构建文本检测模型；

所述文本信息提取模块还包含文本识别模型构建单元，所述文本识别模型构建单元用于：将文本识别公共数据集中图像数据按预设比例划分为训练集图像数据和验证集图像数据；通过卷积神经网络算法提取所述训练集图像数据和所述验证集图像数据的图像卷积特征；通过循环神经网络算法分析所述图像卷积特征的特性向量序列，获得文本字符序列概率；通过CTC算法转录所述文本字符序列概率获得文本数据；根据所述文本数据、所述训练集图像数据和所述验证集图像数据构建文本识别模型。

9.根据权利要求8所述的基于深度学习的界面控件测试***，其特征在于，所述设置模块还包含：根据所述界面序号、所述目标文本、所述目标控件位置及所述输入信息生成测试案例；根据一条或多条测试案例生成案例模板数据；其中，所述目标控件位置包含：目标控件与所述目标文本的相对位置和最短距离。

10.根据权利要求8所述的基于深度学习的界面控件测试***，其特征在于，所述文本检测模型构建单元还包含：将所述训练集图像数据和所述验证集图像数据转化为tfrecord文件格式后构建文本检测模型。

11.根据权利要求8所述的基于深度学习的界面控件测试***，其特征在于，所述文本识别模型构建单元还包含：

将所述标准图像数据转化为tfrecord文件格式后，按预设比例划分为训练集图像数据和验证集图像数据后构建文本识别模型。

12.根据权利要求8所述的基于深度学习的界面控件测试***，其特征在于，所述测试模块包含：根据所述输入信息调用GUI自动化技术对所述目标控件位置对应的目标控件执行对应的指令操作。

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有由计算机执行的用于实现权利要求1至7任一所述方法的计算机程序。