CN110766081B

CN110766081B - 一种界面图像检测的方法、模型训练的方法以及相关装置

Info

Publication number: CN110766081B
Application number: CN201911019575.7A
Authority: CN
Inventors: 黄超; 李旭冬; 周大军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2022-09-13
Anticipated expiration: 2039-10-24
Also published as: CN110766081A

Abstract

本申请公开了一种界面图像检测的方法，包括：基于待检测界面图像，通过目标检测模型获取第一对象的位置信息；基于第一对象的位置信息，通过相似度检测模型获取第一对象的深度特征；根据第一对象的深度特征确定第一对象的交互次数，其中，第一对象的交互次数用于确定第一对象的分数；若第一对象的分数满***互触发条件，则执行第一对象所对应的功能，以获取界面图像检测结果。本申请通过目标检测模型先确定位置，再利用位置通过相似度检测模型获取深度特征，结合深度特征获取的界面图像检测结果能够利用更多的图像信息，在减少测试时间的情况下保证测试的准确度，从而降低测试成本。

Description

一种界面图像检测的方法、模型训练的方法以及相关装置

技术领域

本申请涉及人工智能领域，尤其设备一种界面图像检测的方法、模型训练的方法以及相关装置。

背景技术

随着互联网应用的广泛普及，多种多样的移动端游戏应运而生。移动端游戏已经成为人们日常生活中的一种常见的娱乐方式，而在进行游戏的过程中，用户可根据需求点击游戏界面不同的按钮，从而进入相应的用户界面(user interface，UI)。因此，基于UI的图像模块测试对于移动端游戏而言是非常重要的。

目前，基于UI的图像模块测试方式为，针对UI测试用例配置对应的图像模板和检测区域，如果在检测区域内匹配到对应的图像模板，则执行点击动作，以此实现在UI场景中的图像模块测试。

然而，由于不同的UI场景往往具有不同的背景，而图像模板的测试方式对于背景变化而言较为敏感，因此，在背景发生变化的情况下，采用图像模板进行匹配的测试方法效果并不稳定，需要经过多次重复的测试，导致测试成本较高。

发明内容

本申请实施例提供一种界面图像检测的方法、模型训练的方法以及相关装置，在背景发生变化的情况下，能够自动获取界面图像检测结果并且提高准确度，缩短界面图像测试时间并提升测试效率，从而降低测试成本。

有鉴于此，本申请第一方面提供一种界面图像检测的方法，包括：

基于待检测界面图像，通过目标检测模型获取第一对象的位置信息；

基于所述第一对象的位置信息，通过相似度检测模型获取所述第一对象的深度特征；

根据所述第一对象的深度特征确定所述第一对象的交互次数，其中，所述第一对象的交互次数用于确定所述第一对象的分数；

若所述第一对象的分数满***互触发条件，则执行所述第一对象所对应的功能，以获取界面图像检测结果。

本申请第二方面提供一种模型训练的方法，包括：

获取待训练图像集合，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像携带真实标注信息；

通过待训练目标检测模型获取所述待训练图像所对应的预测标注信息，其中，所述预测标注信息与所述真实标注信息用于训练所述待训练目标检测模型；

若所述预测标注信息表示存在基准图像，则根据所述基准图像生成待训练样本，其中，所述待训练样本包括所述基准图像、正样本图像以及负样本图像，所述正样本图像为基于所述基准图像生成的；

通过待训练相似度检测模型获取所述待训练样本所对应的待训练样本特征，其中，所述待训练样本特征包括所述基准图像的特征、所述正样本图像的特征以及所述负样本图像的特征；

基于所述待训练样本特征，对所述待训练相似度检测模型进行训练，得到相似度检测模型。

本申请第三方面提供一种界面图像检测的装置，包括：

获取模块，用于基于待检测界面图像，通过目标检测模型获取第一对象的位置信息；

所述获取模块，还用于基于所述第一对象的位置信息，通过相似度检测模型获取所述第一对象的深度特征；

确定模块，用于根据所述第一对象的深度特征确定所述第一对象的交互次数，其中，所述第一对象的交互次数用于确定所述第一对象的分数；

所述获取模块，还用于若所述第一对象的分数满***互触发条件，则执行所述第一对象所对应的功能，以获取界面图像检测结果。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，所述界面图像检测的装置还包括累加模块；

所述获取模块，具体用于获取目标对象的深度特征；

所述确定模块，具体用于根据所述目标对象的深度特征以及所述第一对象的深度特征确定特征距离；

所述累加模块，用于若所述特征距离小于或等于距离阈值，则对所述第一对象的已交互次数进行累加处理，得到所述第一对象的交互次数；

所述确定模块，具体用于根据所述第一对象的交互次数以及所述第一对象的位置信息，确定所述第一对象的最终分数，其中，所述第一对象的最终分数属于所述第一对象的分数。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，所述界面图像检测的装置还包括计算模块；

所述获取模块，具体用于获取所述第一对象的初始分数；

所述获取模块，具体用于获取所述待检测界面图像的图像高度；

所述确定模块，具体用于根据所述第一对象的位置信息，确定所述第一对象的对象高度；

所述计算模块，用于根据所述第一对象的初始分数、所述第一对象的交互次数、所述图像高度以及所述对象高度，计算得到所述第一对象的最终分数。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述获取模块，具体用于获取目标对象的深度特征；

所述确定模块，具体用于若所述特征距离大于距离阈值，则确定所述第一对象为新增对象，其中，所述新增对象的已交互次数为1；

所述确定模块，具体用于根据所述第一对象的位置信息，确定所述第一对象的初始分数，其中，所述第一对象的初始分数属于所述第一对象的分数。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，

所述计算模块，具体用于根据所述图像高度以及所述对象高度，计算得到所述第一对象的初始分数。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，

所述获取模块，具体用于基于所述待检测界面图像，通过所述目标检测模型获取第二对象的位置信息；

所述获取模块，具体用于基于所述第二对象的位置信息，通过所述相似度检测模型获取所述第二对象的深度特征；

所述确定模块，具体用于根据所述第二对象的深度特征确定所述第二对象的交互次数；

所述确定模块，具体用于根据所述第二对象的交互次数确定所述第二对象的分数，其中，所述第二对象的分数为所述第二对象的初始分数，或，所述第二对象的分数为所述第二对象的最终分数。

在一种可能的设计中，在本申请实施例的第三方面的第六种实现方式中，所述界面图像检测的装置还包括比对模块：

所述比对模块，用于比对所述第一对象的分数以及所述第二对象的分数；

所述确定模块，具体用于若所述第一对象的分数大于所述第二对象的分数，则确定所述第一对象的分数满足所述交互触发条件；

所述获取模块，具体用于若所述第二对象的分数大于所述第一对象的分数，则确定所述第二对象的分数满足所述交互触发条件，并执行所述第二对象所对应的功能，以获取界面图像检测结果。

本申请第四方面提供一种模型训练装置，包括：

获取模块，用于获取待训练图像集合，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像携带真实标注信息；

所述获取模块，还用于通过待训练目标检测模型获取所述待训练图像所对应的预测标注信息，其中，所述预测标注信息与所述真实标注信息用于训练所述待训练目标检测模型；

生成模块，用于若所述预测标注信息表示存在基准图像，则根据所述基准图像生成待训练样本，其中，所述待训练样本包括所述基准图像、正样本图像以及负样本图像，所述正样本图像为基于所述基准图像生成的；

所述获取模块，还用于通过待训练相似度检测模型获取所述待训练样本所对应的待训练样本特征，其中，所述待训练样本特征包括所述基准图像的特征、所述正样本图像的特征以及所述负样本图像的特征；

训练模块，用于基于所述待训练样本特征，对所述待训练相似度检测模型进行训练，得到相似度检测模型。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，所述模型训练装置还包括确定模块以及计算模块；

所述确定模块，用于根据所述预测标注信息确定预测边界框的位置信息，其中，所述预测边界框的位置信息包括所述预测边界框的中心横坐标值、中心纵坐标值、长度值以及宽度值；

所述确定模块，具体用于根据所述真实标注信息确定真实边界框的位置信息，其中，所述真实边界框的位置信息包括所述真实边界框的中心横坐标值、中心纵坐标值、长度值以及宽度值；

所述确定模块，具体用于根据得到真实标注信息以及所述预测标注信息确定边框置信度；

所述确定模块，具体用于根据所述预测标注信息确定预测类别；

所述确定模块，具体用于根据所述真实标注信息确定真实类别；

所述计算模块，用于基于所述预测边界框的位置信息、所述真实边界框的位置信息、所述边框置信度、所述预测类别以及所述真实类别，计算得到第一损失函数；

所述训练模块，具体用于当所述第一损失函数收敛时，训练得到目标检测模型。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

所述确定模块，具体用于基于所述基准图像的特征、所述正样本图像的特征以及所述负样本图像的特征，确定第二损失函数，其中，所述第二损失函数包括第一特征距离以及第二特征距离，所述第一特征距离为根据所述基准图像的特征以及所述正样本图像的特征得到的，所述第二特征距离为根据所述基准图像的特征以及所述负样本图像的特征得到的；

所述训练模块，具体用于当所述第二损失函数收敛时，训练得到相似度检测模型。

本申请第五方面提供一种服务器，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

若所述第一对象的分数满***互触发条件，则执行所述第一对象所对应的功能，以获取界面图像检测结果；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种服务器，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

基于所述待训练样本特征，对所述待训练相似度检测模型进行训练，得到相似度检测模型；

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种界面图像检测的方法，首先基于待检测界面图像，通过目标检测模型获取第一对象的位置信息，然后基于该第一对象的位置信息，通过相似度检测模型获取第一对象的深度特征，再根据第一对象的深度特征确定第一对象的交互次数，第一对象的交互次数用于确定第一对象的分数，如果第一对象的分数满***互触发条件，那么可以执行第一对象所对应的功能，以获取界面图像检测结果。通过上述方式，由于图像模板的测试方式对于背景变化而言较为敏感，因此在背景发生变化的情况下，可以通过目标检测模型先确定位置，再利用位置通过相似度检测模型获取深度特征，结合深度特征获取的界面图像检测结果能够利用更多的图像信息，在减少测试时间的情况下保证测试的准确度，从而降低测试成本。

附图说明

图1为本申请实施例中界面图像检测***的一个架构示意图；

图2为本申请实施例中结合位置信息和深度特征的一个界面图像检测示意图；

图3为本申请实施例中界面图像检测的一个流程示意图；

图4为本申请实施例中界面图像检测的方法一个实施例示意图；

图5为本申请实施例中目标检测网络的一个结构示意图；

图6A为本申请实施例中基于虚拟场景的一个游戏用户界面示意图；

图6B为本申请实施例中基于虚拟场景的另一游戏用户界面示意图；

图7为本申请实施例中模型训练的方法一个实施例示意图；

图8A为本申请实施例中基于虚拟场景的另一游戏用户界面示意图；

图8B为本申请实施例中基于虚拟场景的另一游戏用户界面示意图；

图9为本申请实施例中基于虚拟场景的三元组示意图；

图10为本申请实施例中相似度检测模型的一个结构示意图；

图11为本申请实施例中界面图像检测装置一个实施例示意图；

图12为本申请实施例中模型训练装置一个实施例示意图；

图13为本申请实施例中终端设备一个结构示意图；

图14为本申请实施例中服务器一个结构示意图。

具体实施方式

本申请实施例提供一种界面图像检测的方法、模型训练的方法以及相关装置，用于在背景发生变化的情况下，能够自动获取界面图像检测结果并且提高准确度，缩短界面图像测试时间并提升测试效率，从而降低测试成本。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的方法可以基于人工智能(Artificial Intelligence，AI)的计算机视觉技术(Computer Vision，CV)来实现对象的检测。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

应理解，本申请可以应用于游戏用户界面图像自动化检测的场景，游戏用户界面图像自动化检测即为对各类游戏用户界面的所需点击的对象进行检测。更具体地，本申请所提供的游戏用户界面图像检测的方法可以但不限于应用于如下几类游戏类型。

第一类游戏类型为角色扮演游戏(Role-playing game，RPG)，角色扮演游戏的核心是扮演，用户扮演一位角色在一个写实或虚构的世界中活动，并且在一个结构化规则下通过一些行动令所扮演角色发展，用户在这个过程中的成功与失败取决于一个规则或行动方针的形式***。角色扮演游戏也包括但不限于角色扮演模拟游戏(role-playingsimulation,RPSG)，策略角色扮演游戏(strategy role-playing Game,SRPG)，动作角色扮演游戏(action role playing game,ARPG)以及，大型多人在线角色扮演游戏(massivemultiplayer online role-playing game，MMO)。角色扮演游戏的用户界面存在有多个功能不同的按钮，实时更新的公告以及随机出现的按钮，用户界面背景以及按钮都是实时变化，对手机配置以及用户界面图像检测都要较高要求。

第二类游戏类型为动作游戏(action game，ACT)，即以"动作"作为游戏主要表现形式的游戏即可算作动作游戏，动作游戏也包含但不限于射击游戏(shooter game，STG)和格斗游戏(Fight Technology Game，FTG)。格斗游戏的内部分支一般按照不同游戏地图的“线性或非线性”及游戏人物的“活动范围”的区别进行区别，所以存在有多种类别，该类别代表的是游戏人物活动的范围。现在常见的3D工作游戏指的是地图以三维形式立体空间的形式体现，而且用户可以控制游戏人物可以上下左右前后六轴进行自由移动，动作游戏的用户界面背景也是实时变化的，动作游戏的用户界面虽然通常存在多个按钮，但按钮通常存在于为固定区域。

第三类游戏为益智类游戏(puzzle game，PUZ)，益智类游戏多需要玩家对游戏规则进行思考，判断并进行动作，益智类游戏目的是为了开发用户的思考能力，所以益智类游戏通常不会存在大量不同的用户界面，并且用户界面背景通常为不变或变化较小的，存在的多个按钮也通常存在于固定区域。

应理解，在实际的游戏过程中，无论何种游戏类型，用户体验是否良好取决于游戏UI测试是否完善，UI测试主要但不限于测试操作是否便捷，测试游戏导航是否简单易懂，测试游戏用户界面文字是否正确，测试游戏各界面中同一对象的命名是否统一，测试用户界面的功能模块的布局是否合理，测试整体风格是否一致以及测试各个控件的放置位置是否符合用户使用习惯。而本申请最主要是对界面图像进行检测，更具体地，检测的目的包括但不限于检测每个对象被点击后是否会进行相应的跳转动作，检测每个对象被点击后是否跳转至对象所对应的画面场景，检测游戏用户界面的文本框、按钮、滚动条、列表等控件的大小、对齐、位置的一致性，检测跳转后画面场景的文字以及画面一致性以及检测不同游戏用户界面场景显示相同字段的一致性，具体功能此处不做限定。与此同时不同的用户使用的客户端各不相同，不同的客户端上对于相同的游戏也具有不同的分辨率，例如480*800，540*960或720*1280，可以理解的是，在实际应用中，分辨率还可以为1080*1920，客户端的分辨率具体此处不做限定。

为了便于理解，本申请提出了一种界面图像检测的方法，该方法应用于图1所示的界面图像检测***，请参阅图1，图1为本申请实施例中界面图像检测***的一个架构示意图，如图所示，界面图像检测装置可以部署于服务器，也可以部署于具有较高计算能力的客户端，下面将以界面图像检测装置部署于服务器为例进行介绍。服务器根据目标检测模型获取第一对象的位置信息，再根据相似度检测模型以及获取到的第一对象的位置信息获取第一对象的深度特征，进而根据获取到的第一对象的深度特征确定第一对象的交互次数，并根据交互次数计算出第一对象的分数，根据分数执行所对应功能从而完成界面图像检测结果的自动获取，并且提高准确度，缩短界面图像测试时间并提升测试效率，从而降低测试成本。需要说明的是，在检测的过程中，可以分为两种实现方式，分别为在线检测和离线检测。在线检测时，目标检测模型以及相似度检测模型均存储于服务器，客户端收集待检测界面图像后，将待检测界面图像传输至服务器，由服务器采用目标检测模型以及相似度检测模型对待检测界面图像检测，再将界面图像检测结果反馈至客户端，由客户端展示界面图像检测结果。离线检测时，目标检测模型以及相似度检测模型均存储于终端设备本地，客户端收集待检测界面图像之后，将待检测界面图像输入至本地存储的目标检测模型以及相似度检测模型中，从而得到输出的界面图像检测结果，客户端直接展示该界面图像检测结果。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

为了便于说明，请参阅图2，图2为本申请实施例中结合位置信息和深度特征的一个界面图像检测示意图，如图所示，本申请所提供的界面图像检测方法可以分为三个部分，分别为图像预处理，位置信息获取及特征提取以及界面图像检测。下面将针对各个部分的功能和流程进行介绍，具体地：

步骤S11中，获取图像文件；

步骤S12中，对输入的图像文件进行人工的选择，然后提取出待检测界面图像，人工的提取可以为对相似的多个图像文件的人工进行选择其中一个进行保留并且删除其他，并且每个待检测界面图像都携带有真实的标注信息，在待检测界面图像存在有按钮的情况下，标注信息通常为坐标信息以及属性信息组成的五元组信息，若无按钮则为无标签类型图像，无标签类型图像由坐标信息组成，无标签类型图像包括但不限于过场剧情动画中提取的待检测界面图像以及过度动画中的提取的待检测界面图像。

步骤S21中，以待检测界面图像作为目标检测模型的输入，由目标检测模型对第一对象的五元组信息中的坐标信息进行提取或者对无标签类型图像的坐标信息进行提取，从而获取到第一对象的位置信息；

步骤S22中，以第一对象的位置信息作为相似度检测模型的输入，由相似度检测模型计算得到第一对象的深度特征；

步骤S31中，根据相似度检测模型计算得到第一对象的深度特征确定特征距离，若特征距离小于或等于距离阈值，则对第一对象的已交互次数进行累加处理，得到第一对象的交互次数；

步骤S32中，若第一对象的交互次数满足预设的交互触发条件，则执行第一对象所对应功能，并且获取界面图像检测的结果。

基于上述流程，本申请提供流程示意图如图3所示，请参阅图3，图3为本申请实施例中界面图像检测的一个流程示意图，如图所示，下面将针对各流程进行介绍，具体地：

步骤S301中，采集游戏用户界面场景，标注按钮位置；

步骤S302中，训练目标检测网络；

步骤S303中，构建按钮三元组，训练相似度检测模型；

步骤S304中，用目标检测网络测试画面按钮位置；

步骤S305中，用相似度检测模型计算按钮点击次数；

步骤S306中，基于位置和次数计算按钮分数；

步骤S307中，点击得分最高的按钮，以获取界面图像检测结果。

结合上述介绍，下面将对本申请中界面图像检测的方法进行介绍，请参阅图4，本申请实施例中界面图像检测的方法一个实施例包括：

101、基于待检测界面图像，通过目标检测模型获取第一对象的位置信息；

本实施例中，界面图像检测装置获取待检测界面图像，其中，界面图像检测装置可以部署于服务器上，也可以部署于终端设备，此处不做限定。而待检测界面图像可以从客户端上传的图像获取，也可以从预先存储在数据库中的图像中获取，具体此处不做限定。界面图像检测装置通过将待检测界面图像作为目标检测模型的输入，通过该目标检测模型输出第一对象的位置信息。

可以理解的是，待检测界面图像的格式包含但不限于位图(bitmap，BMP)格式、个人电脑交换(personal computer exchange，PCX)格式、标签图像文件格式(tag imagefile format，TIFF)、图形交换格式(graphics interchange format，GIF)、联合照片专家组(joint photographic expert group，JPEG)、已标记的图形(tagged graphics，TGA)格式、可交换的图像文件格式(exchangeable image file Format，EXIF)、闪光照片(kodakflash PiX，FPX)格式、可缩放矢量图形(scalable vector graphics，SVG)、便携式网络图形(portable network graphics，PNG)、微软图元文件格式(Windows metafile format，WMF)、封装式页描述语言(encapsulated post script，EPS)格式、高动态范围成像(highdynamic range imaging，HDRI)以及图纸交换格式(drawing exchange format，DXF)。

为了便于理解，请参阅图5，图5为本申请实施例中目标检测网络的一个结构示意图，如图所示，以目标检测网络为你只看一次(You only look once，YOLO)网络为例，该YOLO网络可采用深度网络53(Darknet53)实现深度特征的提取，Darknet53是包含53层卷积层的深度网络。YOLO网络将输入图片进行的栅格化处理，得到H*H个单元，每个单元为一个检测区域，需要检测的区域即为待检测区域。YOLO网络可以输出每个待检测区域的深度特征，深度特征即包含了待检测区域的抽象信息。其中，图4中的×2表示该结构重复了2次，×8分别表示该结构重复了8次。

需要说明的是，目标检测网络还可以是单次多框检测器(Single Shot MultiBoxDetector，SSD)、区域卷积神经网络(Region-Convolutional Neural Network，R-CNN)、快速区域卷积神经网络(Fast Region-Convolutional Neural Network，Fast R-CNN)以及更快区域卷积神经网络(Faster Region-Convolutional Neural Network，Faster R-CNN)，本申请以YOLO网络为例，然而这不应理解为对本申请的限定。

102、基于第一对象的位置信息，通过相似度检测模型获取第一对象的深度特征；

本实施例中，通过步骤101确定第一对象的位置信息后，界面图像检测装置将第一对象的位置信息作为相似度检测模型的输入，通过该相似度检测模型输出第一对象的深度特征。

103、根据第一对象的深度特征确定第一对象的交互次数，其中，第一对象的交互次数用于确定第一对象的分数；

本实施例中，通过步骤102获取第一对象的深度特征之后，界面图像检测装置通过第一对象的深度特征确定第一对象的交互次数，第一对象的交互次数用于确定第一对象的分数，这里的交互次数表示已触发该第一对象的次数。可以理解的是，对于交互次数为0的情况下，初始分数就是最终分数。

104、若第一对象的分数满***互触发条件，则执行第一对象所对应的功能，以获取界面图像检测结果。

本实施例中，通过步骤103确定第一对象的交互次数后，界面图像检测装置在确定第一对象的分数后，若满***互触发条件，则界面图像检测装置执行第一对象所对应的功能，功能可以是点击按钮，或者是触发控件，此处不做限定。在执行对象所对应的功能之后，即可获取界面图像检测的结果。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的界面图像检测的方法第一个可选实施例中，根据第一对象的深度特征确定第一对象的交互次数，可以包括：

获取目标对象的深度特征；

根据目标对象的深度特征以及第一对象的深度特征确定特征距离；

若特征距离小于或等于距离阈值，则对第一对象的已交互次数进行累加处理，得到第一对象的交互次数；

根据第一对象的深度特征确定第一对象的交互次数之后，还可以包括：

根据第一对象的交互次数以及第一对象的位置信息，确定第一对象的最终分数，其中，第一对象的最终分数属于第一对象的分数。

本实施例中，提供了一种确定交互次数的方法，具体地，应用于目标对象为已点击按钮的情况下，首先界面图像检测装置获取目标对象的深度特征，然后根据目标对象的深度特征以及第一对象的深度特征确定特征距离，可以理解的是，在实际应用中，该特征距离可以为余弦距离，具体地，使用如下公式对目标对象的深度特征以及第一对象的深度特征进行计算并得到余弦距离：

其中，d_c即为余弦距离，或者说即为特征距离，x为目标对象的深度特征，y为第一对象的深度特征。若被确定的特征距离小于或等于距离阈值，即为该目标对象在此之前已进行交互，然后对第一对象的已交互次数进行累加处理，得到第一对象的交互次数，这时第一对象的交互次数是大于或等于2的，在确定了第一对象的交互次数之后，结合第一对象的位置信息可以确定第一对象的最终分数。

本申请实施例中，需要通过特征距离与距离阈值的对比判断第一对象的交互次数，因此特征距离为一个数值，特征距离与距离阈值的差距越小表明第一对象已进行过交互，而特征距离与距离阈值的差距越小表明第一对象还未进行过交互。应理解的是，本申请并不限定采用何种距离定义为特征距离，下面将介绍几种本实施例中可以使用的距离。

第一种为欧氏距离(Euclidean Distance)，欧氏距离即为欧几里得量度，能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，常用于分析用户价值的相似度或差异。

第二种为余弦距离(Cosine Distance)，余弦距离则能够体现个体数值特征的相对差异，常用于用户对内容的评分从而区分兴趣的相似度和差异。

第三种为杰卡德距离((Jaccard Distance)，杰卡德距离则与余弦距离类似，杰卡德距离常用比例来衡量两个集合的区分度。

第四种为马氏距离(Mahalanobis Distances)，马氏距离的计算是建立在总体样本的基础上的，可以排除变量之间的相关性的干扰，但它的缺点为夸大了变化微小的变量的作用。

可以理解的是，在实际应用中，本申请实施例所需解决的问题为，在游戏用户界面背景发生变化的情况下，采用图像模板进行匹配的测试方法效果不稳定，需要经过多次重复的测试，导致测试成本较高，对应前述各距离的特征以及功能目的，本申请优先采用欧氏距离为特征距离，从而可以提升本申请的可行性和可操作性。而对于n维空间下所需计算的欧氏距离，常使用如下公式对目标对象的深度特征以及第一对象的深度特征进行计算并得到欧氏距离：

其中，d即为欧式距离，或者说即为特征距离，x_1i即为目标对象的深度特征，x_2i即为第一对象的深度特征，而1为或等于1的整数。

通过上述方式，能够根据目标对象的深度特征以及第一对象的深度特征确定特征距离，并且根据判断确定第一对象的已交互次数，更为准确的确定第一对象的最终分数，由此提升方案的可行性以及可操作性。

可选地，在上述图4对应的各个实施例基础上，本申请实施例提供的界面图像检测的方法第二个可选实施例中，根据第一对象的交互次数以及第一对象的位置信息，确定第一对象的最终分数，可以包括

获取第一对象的初始分数；

获取待检测界面图像的图像高度；

根据第一对象的位置信息，确定第一对象的对象高度；

根据第一对象的初始分数、第一对象的交互次数、图像高度以及对象高度，计算得到第一对象的最终分数。

本实施例中，首先提供了一种得到第一对象的初始分数的方法，首先需要获取第一对象的初始分数，具体地，还要获取图像高度以及对象高度，如图6A所示的一个游戏用户界面示意图中可以清楚看到，图像高度即为用户界面场景的高度，对象高度即为第一对象中心点到用户界面场景最上方位置的垂直距离，然后根据下述公式对获取的图像高度以及对象高度进行计算并得到第一对象的初始分数：

w1＝0.5+y/H

其中，w1即为第一对象的初始分数，y即为获取的对象高度，H即为获取的图像高度。

再次，本申请实施例中，提供了一种计算第一对象的最终分数的方法，在获取到第一对象的初始分数、第一对象的交互次数、图像高度以及对象高度之后，根据下述公式对第一对象的初始分数、第一对象的交互次数、图像高度以及对象高度进行计算并得到第一对象的最终分数：

w2＝w1/n^y/H

其中，w2即为第一对象的最终分数，w1为第一对象的初始分数，n为第一对象的交互次数，y为获取的对象高度，H为获取的图像高度。第一对象的交互次数的获取方法在本申请第一个可选实施例中已有详细描述，具体在此不做赘述。

通过上述方式，对获取的第一对象的初始分数、第一对象的交互次数、图像高度以及对象高度进行计算得到第一对象的最终分数，更为精准并且快速地得到第一对象的最终分数，从而提高了本方案中数据处理的效率。

可选地，在上述图4对应的各个实施例基础上，本申请实施例提供的界面图像检测的方法第三个可选实施例中，根据第一对象的深度特征确定第一对象的交互次数，可以包括：

获取目标对象的深度特征；

若特征距离大于距离阈值，则确定第一对象为新增对象，其中，新增对象的已交互次数为1；

根据第一对象的深度特征确定第一对象的交互次数之后，方法还包括：

根据第一对象的位置信息，确定第一对象的初始分数，其中，第一对象的初始分数属于第一对象的分数。

本实施例中，提供了一种确定第一对象的初始分数的方法，具体地，应用于目标对象为已点击按钮的情况下，首先依旧是需要获取目标对象的深度特征，首先界面图像检测装置获取目标对象的深度特征，然后根据目标对象的深度特征以及第一对象的深度特征确定特征距离。若被确定的特征距离大于距离阈值，即为该第一对象在此之前并未进行交互，则确定第一对象为新增对象，而新增对象的已交互次数即为1，在确定了第一对象的交互次数之后，结合第一对象的位置信息可以确定第一对象的分数。显而易见的是在已交互次数为1的情况下，第一对象的初始分数属于第一对象的分数。

可以理解的是，本申请中计算特征距离的方式如上述图4对应的第一个实施例所描述的方式，特征距离包含但不仅限于欧氏距离、余弦距离、杰卡德距离以及马氏距离，具体内容请参阅上述实施例，此处不做赘述。

通过上述方式，能够根据目标对象的深度特征以及第一对象的深度特征确定特征距离，并且根据判断确定第一对象为新增对象，并且已交互次数即为1，更为准确且快速的确定第一对象的分数，由此提升方案的可行性以及可操作性。

可选地，在上述图4对应的各个实施例基础上，本申请实施例提供的界面图像检测的方法第四个可选实施例中，根据第一对象的位置信息，确定第一对象的初始分数，可以包括：

获取待检测界面图像的图像高度；

根据第一对象的位置信息，确定第一对象的对象高度；

根据图像高度以及对象高度，计算得到第一对象的初始分数。

本实施例中，提供了一种得到第一对象的初始分数的方法，首先获取待检测界面图像的图像高度，图像高度即为用户界面场景的高度，然后需要根据所获取的第一对象的位置信息确定第一对象的对象高度，第一对象的位置信息中具体携带的真实标注信息，而真实标注信息包含有坐标信息，由此对象高度即为第一对象的中心点的坐标信息到到用户界面场景最上方位置的垂直距离，然后根据下述公式对获取的图像高度以及对象高度进行计算并得到第一对象的初始分数：

w1＝0.5+y/H

再次，本申请实施例中，在获取了第一对象的初始分数后，还提供了一种计算第一对象的最终分数的方法，根据下述公式对第一对象的初始分数、第一对象的交互次数、图像高度以及对象高度进行计算并得到第一对象的最终分数：

w2＝w1/n^y/H

其中，w2即为第一对象的最终分数，w1为第一对象的初始分数，n为第一对象的交互次数，y为获取的对象高度，H为获取的图像高度。第一对象的交互次数的获取方法在本申请第一个可选实施例中已有详细描述，具体在此不做赘述。显而易见的是，当第一对象的交互次数为1的时候，第一对象的初始分数属于第一对象的分数。

通过上述方式，由于已交互次数为1，在根据公式对获取的图像高度以及对象高度进行计算并得到第一对象的初始分数之后，即可得到第一对象的分数，节省了再次计算的时间，从而提升数据运算的效率。

可选地，在上述图4对应的各个实施例基础上，本申请实施例提供的界面图像检测的方法第五个可选实施例中，还可以包括：

基于待检测界面图像，通过目标检测模型获取第二对象的位置信息；

基于第二对象的位置信息，通过相似度检测模型获取第二对象的深度特征；

根据第二对象的深度特征确定第二对象的交互次数；

根据第二对象的交互次数确定第二对象的分数，其中，第二对象的分数为第二对象的初始分数，或，第二对象的分数为第二对象的最终分数。

本实施例中，提供一种确定第二对象的分数的方法，首先界面图像检测装置将待检测界面图像作为目标检测模型的输入，通过该目标检测模型输出第二对象的位置信息，然后界面图像检测装置将第二对象的位置信息作为相似度检测模型的输入，通过该相似度检测模型输出第二对象的深度特征，再根据第二对象的深度特征确定第二对象的交互次数，第二对象的交互次数用于确定第二对象的分数，若满***互触发条件，则界面图像检测装置执行第二对象所对应的功能，功能可以是点击按钮，或者是触发控件，此处不做限定。在执行对象所对应的功能之后，即可获取界面图像检测的结果。

通过上述方式，能够通过目标检测模型确定第二对象的位置，再利用第二对象的位置并通过相似度检测模型获取第二对象的深度特征，并且利用第二对象的深度特征确定第二对象的交互次数，最后根据第二对象的交互次数确定第二对象的分数，当第二对象的分数满足触发条件时执行第二对象对应的功能以获取界面图像检测结果。自动获取界面图像检测结果并且提高准确度，缩短界面图像测试时间并提升测试效率，从而降低测试成本。

可选地，在上述图4对应的各个实施例基础上，本申请实施例提供的界面图像检测的方法第六个可选实施例中，还可以包括：

比对第一对象的分数以及第二对象的分数；

若第一对象的分数大于第二对象的分数，则确定第一对象的分数满***互触发条件；

若第二对象的分数大于第一对象的分数，则确定第二对象的分数满***互触发条件，并执行第二对象所对应的功能，以获取界面图像检测结果。

本实施例中，提供一种获取界面图像检测结果的方法，在获取到第一对象的分数以及第二对象的分数之后，将两者的分数的数值大小进行对比，并根据对比之后的结果确定满***互触发条件的对象，数值更大的分数所对应的对象即为满***互触发条件的对象，然后执行数值更大的分数所对应的对象所对应的功能，最后获取界面图像检测结果。

通过上述方式，将第一对象以及第二对象的分数进行对比，并且根据对比结果触发交互条件以获取界面图像检测结果，首先提升数据运算的效率，其次提升了本方案的可行性以及可操作性。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图7，本申请实施例中模型训练的方法一个实施例包括：

201、获取待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像携带真实标注信息；

本实施例中，模型训练装置获取待训练图像集合，其中，模型训练装置可以部署于服务器上，也可以部署于终端设备，此处不做限定。而待训练图像集合包括至少一个待训练图像，待训练图像可以从客户端上传的图像获取，也可以从预先存储在数据库中的图像中获取，具体此处不做限定。具体地，每个待检测界面图像都携带有真实的标注信息，在待检测界面图像存在有按钮的情况下，标注信息通常为坐标信息以及属性信息组成的五元组信息，请参阅图6A,图6B,图8A以及图8B，图6A,图6B,图8A以及图8B为实际应用中同一种游戏中的不同用户界面示意图，而五元组信息通常为(a，b，w，y)以及C，其中a以及b即为坐标信息，a表示横坐标，b表示纵坐标，如图6B所示，w即为宽度信息，而宽度信息即为第一对象中心点到用户界面场景最左方位置的水平距离高度，如图6A所示，y即为高度信息，也就是图6A中所标识的y，高度即为第一对象中心点到用户界面场景最上方位置的垂直距离，而C即为对按钮的具体定义，例如属性信息，或其他信息，其中其他信息通常为此按钮为确定、取消、关闭、返回、设置以及其他功能性按钮时界定，如图8A中所标注的S701所对应的的“团队战”即为属性信息，而图8A中所标注的S702所对应的“多人”即为其他信息。所以以图8B为例，图8B中的“重返巨人城”，“僵尸狂潮”，“世界领导(BOSS)”，“火线防御”，“巨人城”以及剧情皆为属性信息，而“仓库”以及“多人”皆为其他信息。若无按钮则为无标签类型图像，无标签类型图像由坐标信息组成，无标签类型图像包括但不限于过场剧情动画中提取的待检测界面图像以及过度动画中的提取的待检测界面图像。

可以理解的是，待检测界面图像的格式包含但不限于BMP、个人电脑交换PCX格式、TIFF格式、GIF格式、JPEG格式、TGA格式、EXIF格式、FPX格式、SVG格式、PNG格式、WMF格式、EPS格式、HDRI格式以及DXF格式。

202、通过待训练目标检测模型获取待训练图像所对应的预测标注信息，其中，预测标注信息与真实标注信息用于训练待训练目标检测模型；

本实施例中，在通过步骤201获取待训练图像集合后，模型训练装置将待训练图像集合作为待训练目标检测模型的输入，模型训练装置通过该待训练目标检测模型输出待训练图像所对应的预测标注信息，而通过步骤201以及步骤202获取到的预测标注信息以及真实标注信息都是用来训练待训练目标检测模型的。

203、若预测标注信息表示存在基准图像，则根据基准图像生成待训练样本，其中，待训练样本包括基准图像、正样本图像以及负样本图像，正样本图像为基于基准图像生成的；

本实施例中，在通过步骤202获取待训练图像所对应的预测标注信息后，模型训练装置根据预测标注信息确定是否存在基准图像，若存在有基准图像，则生成待训练样本，其中待训练样本包括基准图像、正样本图像以及负样本图像，请参阅图9，图9为本申请实施例中基于虚拟场景的三元组示意图，即为待训练样本所对应的示意图，以图9中所选取的“开始匹配”所对应的图像为基准图像为例，图9所示的正样本图像为根据“开始匹配”所对应的图像进行剪裁后所生成的图像，而图9所示的负样本图像为“多人”所对应的图像，由此可以理解的是，正样本图像是基于基准图像生成的图像，例如将基准图像进行放大后所生成的图像，或将基准图像进行剪裁后所生成的图像，正样本图像具体如何基于基准图像生成，本实施例在此不做限定，而负样本图像则为与基准图像无关联的图像，为随机挑选的与基准图像存在于同一用户界面的图像，具体如何挑选在此不做限定。

204、通过待训练相似度检测模型获取待训练样本所对应的待训练样本特征，其中，待训练样本特征包括基准图像的特征、正样本图像的特征以及负样本图像的特征；

本实施例中，在通过步骤203生成待训练样本后，模型训练装置将待训练样本输入待训练相似度检测模型，然后该待训练相似度检测模型会输出待训练样本所对应的待训练样本特征，显而易见的是，其中待训练样本特征包括基准图像的特征、正样本图像的特征以及负样本图像的特征，在实际应用中，常采用三元损失的方法对待训练样本特征进行提取，用如下公式对基准图像、正样本图像以及负样本图像进行计算得到目标函数，目标函数可以优化模型参数，以使得正样本图像的特征与基准图像的特征距离相近，与此同时还可以使得正负样本图像的特征与基准图像的特征距离远离：

其中，N表示三元组的个数，α和β是设置的超参数，f()表示提取深度特征的网络，

表示第i个三元组的基准图像，

表示第i个三元组的正样本图像，

表示第i个三元组的负样本图像，

表示第i个三元组的基准图像的特征，

表示第i个三元组的正样本图像的特征，

表示第i个三元组的负样本图像的特征。

205、基于待训练样本特征，对待训练相似度检测模型进行训练，得到相似度检测模型。

本实施例中，在通过步骤204获取待训练样本所对应的待训练样本特征之后，模型训练装置基于待训练样本特征对待训练相似度检测模型进行训练，从而得到相似度检测模型。

本申请实施例中，提供了一种模型训练的方法，首先获取待训练图像集合，然后通过待训练目标检测模型获取待训练图像所对应的预测标注信息，预测标注信息与真实标注信息用于训练待训练目标检测模型，若预测标注信息表示存在基准图像，则根据基准图像生成待训练样本，再通过待训练相似度检测模型获取待训练样本所对应的待训练样本特征，最后基于待训练样本特征，对待训练相似度检测模型进行训练，得到相似度检测模型。通过上述方式，利用基准图像、正样本图像以及负样本图像对模型进行训练，尽可能地使得正样本图像更加贴近基准图像，且使得正样本图像与负样本图像的差距更大，从而保证特征提取的准确度，进而提升模型训练的可靠性。

可选地，在上述图7对应的各个实施例基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，通过待训练目标检测模型获取待训练图像所对应的预测标注信息之后，还可以包括：

根据预测标注信息确定预测边界框的位置信息，其中，预测边界框的位置信息包括预测边界框的中心横坐标值、中心纵坐标值、长度值以及宽度值；

根据真实标注信息确定真实边界框的位置信息，其中，真实边界框的位置信息包括真实边界框的中心横坐标值、中心纵坐标值、长度值以及宽度值；

根据得到真实标注信息以及预测标注信息确定边框置信度；

根据预测标注信息确定预测类别；

根据真实标注信息确定真实类别；

基于预测边界框的位置信息、真实边界框的位置信息、边框置信度、预测类别以及真实类别，计算得到第一损失函数；

当第一损失函数收敛时，训练得到目标检测模型。

本实施例中，介绍了一种第一损失函数的计算方式。在获取预测标注信息和真实标注信息之后，需要根据预测标注信息获取预测边界框(BBox)的位置信息，并且根据真实标注信获取真实边界框的位置信息，位置信息包括中心横坐标值、中心纵坐标值、高度值以及宽度值。利用位置信息实现坐标的预测，边界框的预测可以使用维度聚类(dimensionclusters)的方法，训练的过程中使用平方误差损失的总和。

基于真实标注信息以及预测标注信息确定边框置信度，即使用维数聚类获得先验边界框，训练时使用均方误差损失函数。物体存在的置信度使用逻辑回归策略预测，当某个真实边界框与边界框的交叠比其他先验更多时，对应的边框置信度为1。若先验不是最好的，但交叠超出设定的阈值(如0.5)，就忽略这个预测。

基于真实类别以及预测类别，使用二元交叉熵损失来进行类别预，每个边界框使用多标签分类来预测边界框可能包含的类。

下面将介绍一种第一损失函数：

其中，λ_coord表示第一系数，和λ_noobj表示第二系数，

表示第i个网格中的第j个边界框是否对应目标对象，若对应，则

为1，反之，

为0，

表示第i个网格中的第j个边界框不对应目标对象。C表示边框置信度。w表示宽度值，h表示高度值，x表示中心横坐标值，y表示中心纵坐标值，P表示类别。

可以理解的是，本申请采用的目标检测网络可以是YOLO V3网络，YOLO V3网络可以在3个不同尺度上进行3种边界框预测，从而得到3个尺度所对应的9个聚类中心，分别为(10×13)、(16×30)、(33×23)、(30×61)、(62×45)、(59×119)、(116×90)、(156×198)以及(373×326)。

再进一步地，本申请实施例中，提供了一种第一损失函数的计算方式，即根据预测边界框的位置信息和真实边界框的位置信息，确定边框置信度，结合预测类别和真实类别共同计算得到第一损失函数。通过上述方式，能够为方案的实现提供具体依据，从而有利于方案的可行性和可操作性。

可选地，在上述图7对应的各个实施例基础上，本申请实施例提供的模型训练的方法第二个可选实施例中，基于待训练样本特征，对待训练相似度检测模型进行训练，得到相似度检测模型，可以包括：

基于基准图像的特征、正样本图像的特征以及负样本图像的特征，确定第二损失函数，其中，第二损失函数包括第一特征距离以及第二特征距离，第一特征距离为根据基准图像的特征以及正样本图像的特征得到的，第二特征距离为根据基准图像的特征以及负样本图像的特征得到的；

当第二损失函数收敛时，训练得到相似度检测模型。

本实施例中，介绍了一种训练相似度检测模型的方法。请参阅图10，图10为本申请实施例中相似度检测模型的一个结构示意图，如图所示，相似度检测模型包括卷积(convolution)层、批归一化(batch normalization)层和拉平(flatten)层。在获取到待训练样本后，也就是获取到基准图像、正样本图像以及负样本图像之后，在实际应用中，为了加快特征提取的速度，可以将按钮统一缩放至50*50像素，网络中采用4个卷积层，并且使用批归一化层加速网络的收敛，然后再提取缩放后的基准图像、正样本图像以及负样本图像的特征，然后根据基准图像的特征以及正样本图像的特征得到第一特征距离，根据基准图像的特征以及负样本图像的特征得到第二特征距离，然后计算第二损失函数，第二损失函数表示为：

可以理解的是，第二损失函数的计算与前述步骤204中的三元损失的计算方法相同，具体在此不做赘述，当第二损失函数收敛时，即可训练得到相似度检测模型。

再进一步地，本申请实施例中，提供了一种第二损失函数的计算方式，即根据基准图像的特征、正样本图像的特征以及负样本图像的特征，确定第二损失函数。通过上述方式，能够为方案的实现提供具体依据，从而有利于方案的可行性和可操作性。

下面对本申请中的界面图像检测装置进行详细描述，请参阅图11，图11为本申请实施例中界面图像检测装置一个实施例示意图，界面图像检测装置300包括：

获取模块301，用于基于待检测界面图像，通过目标检测模型获取第一对象的位置信息；

所述获取模块301，还用于基于所述第一对象的位置信息，通过相似度检测模型获取所述第一对象的深度特征；

确定模块302，用于根据所述第一对象的深度特征确定所述第一对象的交互次数，其中，所述第一对象的交互次数用于确定所述第一对象的分数；

所述获取模块301，还用于若所述第一对象的分数满***互触发条件，则执行所述第一对象所对应的功能，以获取界面图像检测结果。

本申请实施例中，提供了一种界面图像检测装置，首先该界面图像检测装置基于待检测界面图像，通过目标检测模型获取第一对象的位置信息，然后基于第一对象的位置信息，通过相似度检测模型获取第一对象的深度特征，进一步根据第一对象的深度特征确定第一对象的交互次数，其中，第一对象的交互次数用于确定第一对象的分数，若第一对象的分数满***互触发条件，则执行第一对象所对应的功能，最后获取界面图像检测结果。在不同的UI场景具有不同的背景的情况下，由于图像模板的测试方式对于背景变化而言较为敏感，因此在背景发生变化的情况下，通过上述方式，能够获取目标检测模型以及相似度检测模型，并且通过目标检测模型确定位置，再利用位置并通过相似度检测模型获取深度特征，并且利用深度特征确定交互次数，最后根据交互次数确定分数，当分数满足触发条件时执行功能以获取界面图像检测结果。自动获取界面图像检测结果并且提高准确度，缩短界面图像测试时间并提升测试效率，从而降低测试成本。

可选地，在上述图11所对应的实施例基础上，本申请实施例提供的界面图像检测装置300的另一实施例中，所述界面图像检测装置300还包括累加模块303，

所述获取模块301，具体用于获取目标对象的深度特征；

所述确定模块302，具体用于根据所述目标对象的深度特征以及所述第一对象的深度特征确定特征距离；

所述累加模块303，具体用于若所述特征距离小于或等于距离阈值，则对所述第一对象的已交互次数进行累加处理，得到所述第一对象的交互次数；

所述确定模块302，具体用于根据所述第一对象的交互次数以及所述第一对象的位置信息，确定所述第一对象的最终分数，其中，所述第一对象的最终分数属于所述第一对象的分数。

其次，本申请实施例中，介绍了一种界面图像检测装置确定交互次数的方式，应用于目标对象为已点击按钮的情况下，首先界面图像检测装置获取目标对象的深度特征，然后根据目标对象的深度特征以及第一对象的深度特征确定特征距离。若被确定的特征距离小于或等于距离阈值，即为该目标对象在此之前已进行交互，然后对第一对象的已交互次数进行累加处理，得到第一对象的交互次数，这时第一对象的交互次数是大于或等于2的，在确定了第一对象的交互次数之后，结合第一对象的位置信息可以确定第一对象的最终分数。通过上述方式，能够根据目标对象的深度特征以及第一对象的深度特征确定特征距离，并且根据判断确定第一对象的已交互次数，更为准确的确定第一对象的最终分数，由此提升方案的可行性以及可操作性。

可选地，在上述图11所对应的实施例基础上，本申请实施例提供的界面图像检测装置300的另一实施例中，所述界面图像检测装置300还包括计算模块304，

所述获取模块301，具体用于获取所述第一对象的初始分数；

所述获取模块301，具体用于获取所述待检测界面图像的图像高度；

所述确定模块302，具体用于根据所述第一对象的位置信息，确定所述第一对象的对象高度；

所述计算模块304，具体用于根据所述第一对象的初始分数、所述第一对象的交互次数、所述图像高度以及所述对象高度，计算得到所述第一对象的最终分数。

其次，本申请实施例中，介绍了一种界面图像检测装置得到第一对象的最终分数的方式，首先界面图像检测装置需要获取第一对象的初始分数，其次需要获取第一对象的交互次数、图像高度以及对象高度，然后进行计算得到第一对象的最终分数，更为精准并且快速地得到第一对象的最终分数，从而提高了本方案中数据处理的效率。

可选地，在上述图11所对应的实施例基础上，本申请实施例提供的界面图像检测装置300的另一实施例中，

所述获取模块301，具体用于获取目标对象的深度特征；

所述确定模块302用于若所述特征距离大于距离阈值，则确定所述第一对象为新增对象，其中，所述新增对象的已交互次数为1；

所述确定模块301用于根据所述第一对象的位置信息，确定所述第一对象的初始分数，其中，所述第一对象的初始分数属于所述第一对象的分数。

其次，本申请实施例中，介绍了一种界面图像检测装置确定第一对象的初始分数的方式，具体地，应用于目标对象为已点击按钮的情况下，首先界面图像检测装置获取目标对象的深度特征，然后根据目标对象的深度特征以及第一对象的深度特征确定特征距离。若被确定的特征距离大于距离阈值，即为该第一对象在此之前并未进行交互，则确定第一对象为新增对象，而新增对象的已交互次数即为1，在确定了第一对象的交互次数之后，结合第一对象的位置信息可以确定第一对象的分数。显而易见的是在已交互次数为1的情况下，第一对象的初始分数属于第一对象的分数。通过上述方式，能够根据目标对象的深度特征以及第一对象的深度特征确定特征距离，并且根据判断确定第一对象为新增对象，并且已交互次数即为1，更为准确且快速的确定第一对象的分数，由此提升方案的可行性以及可操作性。

所述计算模块304，具体用于根据所述图像高度以及所述对象高度，计算得到所述第一对象的初始分数。

其次，本申请实施例中，介绍了一种界面图像检测装置得到第一对象的初始分数的方式，首先界面图像检测装置需要获取待检测界面图像的图像高度，然后根据所获取的第一对象的位置信息确定第一对象的对象高度，进一步地对获取的图像高度以及对象高度进行计算并得到第一对象的初始分数，节省计算的时间，从而提升数据运算的效率。

所述获取模块301，具体用于基于所述待检测界面图像，通过所述目标检测模型获取第二对象的位置信息；

所述获取模块301，具体用于基于所述第二对象的位置信息，通过所述相似度检测模型获取所述第二对象的深度特征；

所述确定模块302，具体用于根据所述第二对象的深度特征确定所述第二对象的交互次数；

所述确定模块302，具体用于根据所述第二对象的交互次数确定所述第二对象的分数，其中，所述第二对象的分数为所述第二对象的初始分数，或，所述第二对象的分数为所述第二对象的最终分数。

其次，本实施例中，提供一种界面图像检测装置确定第二对象的分数的方式，通过上述方式，界面图像检测装置能够通过目标检测模型确定第二对象的位置，再利用第二对象的位置并通过相似度检测模型获取第二对象的深度特征，并且利用第二对象的深度特征确定第二对象的交互次数，最后根据第二对象的交互次数确定第二对象的分数，当第二对象的分数满足触发条件时执行第二对象对应的功能以获取界面图像检测结果。自动获取界面图像检测结果并且提高准确度，缩短界面图像测试时间并提升测试效率，从而降低测试成本。

可选地，在上述图11所对应的实施例基础上，本申请实施例提供的界面图像检测装置300的另一实施例中，所述界面图像检测装置300还包括对比模块305，

所述对比模块305，具体用于比对所述第一对象的分数以及所述第二对象的分数；

所述确定模块302，具体用于若所述第一对象的分数大于所述第二对象的分数，则确定所述第一对象的分数满足所述交互触发条件；

所述获取模块301，具体用于若所述第二对象的分数大于所述第一对象的分数，则确定所述第二对象的分数满足所述交互触发条件，并执行所述第二对象所对应的功能，以获取界面图像检测结果。

其次，本实施例中，提供一种界面图像装置获取界面图像检测结果的方式，通过上述方式，界面图像检测装置将第一对象以及第二对象的分数进行对比，并且根据对比结果触发交互条件以获取界面图像检测结果，首先提升数据运算的效率，其次提升了本方案的可行性以及可操作性。

下面对本申请中的模型训练装置进行详细描述，请参阅图12，图12为本申请实施例中模型训练装置一个实施例示意图，模型训练装置400包括：

获取模块401，用于获取待训练图像集合，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像携带真实标注信息；

所述获取模块401，还用于通过待训练目标检测模型获取所述待训练图像所对应的预测标注信息，其中，所述预测标注信息与所述真实标注信息用于训练所述待训练目标检测模型；

生成模块402，用于若所述预测标注信息表示存在基准图像，则根据所述基准图像生成待训练样本，其中，所述待训练样本包括所述基准图像、正样本图像以及负样本图像，所述正样本图像为基于所述基准图像生成的；

所述获取模块401，还用于通过待训练相似度检测模型获取所述待训练样本所对应的待训练样本特征，其中，所述待训练样本特征包括所述基准图像的特征、所述正样本图像的特征以及所述负样本图像的特征；

训练模块403，用于基于所述待训练样本特征，对所述待训练相似度检测模型进行训练，得到相似度检测模型。

本实施例中，提供一种模型训练装置，首先该模型训练装置获取待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像携带真实标注信息，然后通过待训练目标检测模型获取待训练图像所对应的预测标注信息，其中，预测标注信息与真实标注信息用于训练待训练目标检测模型，若预测标注信息表示存在基准图像，则根据基准图像生成待训练样本，其中，待训练样本包括基准图像、正样本图像以及负样本图像，正样本图像为基于基准图像生成的，再通过待训练相似度检测模型获取待训练样本所对应的待训练样本特征，其中，待训练样本特征包括基准图像的特征、正样本图像的特征以及负样本图像的特征，最后基于待训练样本特征，对待训练相似度检测模型进行训练，得到相似度检测模型。通过上述方式，能够为方案的实现提供具体依据，从而有利于方案的可行性和可操作性。

可选地，在上述图12所对应的实施例基础上，本申请实施例提供的模型训练装置400的另一实施例中，模型训练装置400还包括确定模块404以及计算模块405：

所述确定模块404，用于通过待训练目标检测模型获取所述待训练图像所对应的预测标注信息之后，根据所述预测标注信息确定预测边界框的位置信息，其中，所述预测边界框的位置信息包括所述预测边界框的中心横坐标值、中心纵坐标值、长度值以及宽度值；

所述确定模块404，还用于根据所述真实标注信息确定真实边界框的位置信息，其中，所述真实边界框的位置信息包括所述真实边界框的中心横坐标值、中心纵坐标值、长度值以及宽度值；

所述确定模块404，还用于根据得到真实标注信息以及所述预测标注信息确定边框置信度；

所述确定模块404，还用于根据所述预测标注信息确定预测类别；

所述确定模块404，还用于根据所述真实标注信息确定真实类别；

所述计算模块405，还用于基于所述确定模块404确定的所述预测边界框的位置信息、所述真实边界框的位置信息、所述边框置信度、所述预测类别以及所述真实类别，计算得到第一损失函数；

所述训练模块403，还用于当所述计算模块405计算得到的所述第一损失函数收敛时，训练得到目标检测模型。

其次，本实施例中，提供一种模型训练装置提供了一种计算第一损失函数的方式，即模型训练装置根据预测边界框的位置信息和真实边界框的位置信息，确定边框置信度，结合预测类别和真实类别共同计算得到第一损失函数。通过上述方式，能够为方案的实现提供具体依据，从而有利于方案的可行性和可操作性。

可选地，在上述图12所对应的实施例基础上，本申请实施例提供的模型训练装置400的另一实施例中，

所述确定模块404，具体用于基于所述基准图像的特征、所述正样本图像的特征以及所述负样本图像的特征，确定第二损失函数，其中，所述第二损失函数包括第一特征距离以及第二特征距离，所述第一特征距离为根据所述基准图像的特征以及所述正样本图像的特征得到的，所述第二特征距离为根据所述基准图像的特征以及所述负样本图像的特征得到的；

所述训练模块403，具体用于当所述第二损失函数收敛时，训练得到相似度检测模型。

其次，本实施例中，提供一种模型训练装置提供了一种计算第二损失函数的方式，即模型训练装置根据基准图像的特征、正样本图像的特征以及负样本图像的特征，确定第二损失函数。通过上述方式，能够为方案的实现提供具体依据，从而有利于方案的可行性和可操作性。

图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13，手机包括：射频(radio frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图13中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理***与处理器580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器580还具有以下功能：

基于第一对象的位置信息，通过相似度检测模型获取第一对象的深度特征；

根据第一对象的深度特征确定第一对象的交互次数，其中，第一对象的交互次数用于确定第一对象的分数；

若第一对象的分数满***互触发条件，则执行第一对象所对应的功能，以获取界面图像检测结果。

可选地，处理器580还用于执行以下步骤：

获取目标对象的深度特征；

可选地，处理器580还用于执行以下步骤：

获取第一对象的初始分数；

获取待检测界面图像的图像高度；

根据第一对象的位置信息，确定第一对象的对象高度；

可选地，处理器580还用于执行以下步骤：

获取目标对象的深度特征；

可选地，处理器580还用于执行以下步骤：

获取待检测界面图像的图像高度；

根据第一对象的位置信息，确定第一对象的对象高度；

可选地，处理器580还用于执行以下步骤：

根据第二对象的深度特征确定第二对象的交互次数；

可选地，处理器580还用于执行以下步骤：

比对第一对象的分数以及第二对象的分数；

图14是本申请实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作***641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 622还具有以下功能：

获取待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像携带真实标注信息；

通过待训练目标检测模型获取待训练图像所对应的预测标注信息，其中，预测标注信息与真实标注信息用于训练待训练目标检测模型；

若预测标注信息表示存在基准图像，则根据基准图像生成待训练样本，其中，待训练样本包括基准图像、正样本图像以及负样本图像，正样本图像为基于基准图像生成的；

通过待训练相似度检测模型获取待训练样本所对应的待训练样本特征，其中，待训练样本特征包括基准图像的特征、正样本图像的特征以及负样本图像的特征；

基于待训练样本特征，对待训练相似度检测模型进行训练，得到相似度检测模型。

可选地，CPU 622还用于执行以下步骤：

根据得到真实标注信息以及预测标注信息确定边框置信度；

根据预测标注信息确定预测类别；

根据真实标注信息确定真实类别；

当第一损失函数收敛时，训练得到目标检测模型。

可选地，CPU 622还用于执行以下步骤：

当第二损失函数收敛时，训练得到相似度检测模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种界面图像检测的方法，其特征在于，包括：

获取目标对象的深度特征，所述目标对象为已交互对象；

根据所述目标对象的深度特征以及所述第一对象的深度特征确定特征距离；

若所述特征距离小于或等于距离阈值，则对所述第一对象的已交互次数进行累加处理，得到所述第一对象的交互次数；

若所述特征距离大于距离阈值，则确定所述第一对象为新增对象，其中，所述新增对象的已交互次数为1，所述第一对象的交互次数用于确定所述第一对象的分数；

2.根据权利要求1所述的方法，其特征在于，

所述对所述第一对象的已交互次数进行累加处理，得到所述第一对象的交互次数之后，所述方法还包括：

根据所述第一对象的交互次数以及所述第一对象的位置信息，确定所述第一对象的最终分数，其中，所述第一对象的最终分数属于所述第一对象的分数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一对象的交互次数以及所述第一对象的位置信息，确定所述第一对象的最终分数，包括：

获取所述第一对象的初始分数；

获取所述待检测界面图像的图像高度；

根据所述第一对象的位置信息，确定所述第一对象的对象高度；

根据所述第一对象的初始分数、所述第一对象的交互次数、所述图像高度以及所述对象高度，计算得到所述第一对象的最终分数。

4.根据权利要求1所述的方法，其特征在于，若确定所述第一对象为新增对象，则所述方法还包括：

根据所述第一对象的位置信息，确定所述第一对象的初始分数，其中，所述第一对象的初始分数属于所述第一对象的分数。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一对象的位置信息，确定所述第一对象的初始分数，包括：

获取所述待检测界面图像的图像高度；

根据所述图像高度以及所述对象高度，计算得到所述第一对象的初始分数。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

基于所述待检测界面图像，通过所述目标检测模型获取第二对象的位置信息；

基于所述第二对象的位置信息，通过所述相似度检测模型获取所述第二对象的深度特征；

根据所述第二对象的深度特征确定所述第二对象的交互次数；

根据所述第二对象的交互次数确定所述第二对象的分数，其中，所述第二对象的分数为所述第二对象的初始分数，或，所述第二对象的分数为所述第二对象的最终分数。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

比对所述第一对象的分数以及所述第二对象的分数；

若所述第一对象的分数大于所述第二对象的分数，则确定所述第一对象的分数满足所述交互触发条件；

若所述第二对象的分数大于所述第一对象的分数，则确定所述第二对象的分数满足所述交互触发条件，并执行所述第二对象所对应的功能，以获取界面图像检测结果。

8.一种模型训练的方法，其特征在于，用于训练如权利要求1-7中任一项所述的界面图像检测的方法中的模型；所述模型训练的方法包括：

9.根据权利要求8所述的方法，其特征在于，所述通过待训练目标检测模型获取所述待训练图像所对应的预测标注信息之后，所述方法还包括：

根据所述预测标注信息确定预测边界框的位置信息，其中，所述预测边界框的位置信息包括所述预测边界框的中心横坐标值、中心纵坐标值、长度值以及宽度值；

根据所述真实标注信息确定真实边界框的位置信息，其中，所述真实边界框的位置信息包括所述真实边界框的中心横坐标值、中心纵坐标值、长度值以及宽度值；

根据得到真实标注信息以及所述预测标注信息确定边框置信度；

根据所述预测标注信息确定预测类别；

根据所述真实标注信息确定真实类别；

基于所述预测边界框的位置信息、所述真实边界框的位置信息、所述边框置信度、所述预测类别以及所述真实类别，计算得到第一损失函数；

当所述第一损失函数收敛时，训练得到目标检测模型。

10.根据权利要求8或9所述的方法，其特征在于，所述基于所述待训练样本特征，对所述待训练相似度检测模型进行训练，得到相似度检测模型，包括：

基于所述基准图像的特征、所述正样本图像的特征以及所述负样本图像的特征，确定第二损失函数，其中，所述第二损失函数包括第一特征距离以及第二特征距离，所述第一特征距离为根据所述基准图像的特征以及所述正样本图像的特征得到的，所述第二特征距离为根据所述基准图像的特征以及所述负样本图像的特征得到的；

当所述第二损失函数收敛时，训练得到相似度检测模型。

11.一种界面图像检测装置，其特征在于，包括：

确定模块，用于获取目标对象的深度特征，所述目标对象为已交互对象；根据所述目标对象的深度特征以及所述第一对象的深度特征确定特征距离；若所述特征距离小于或等于距离阈值，则对所述第一对象的已交互次数进行累加处理，得到所述第一对象的交互次数；若所述特征距离大于距离阈值，则确定所述第一对象为新增对象，所述新增对象的已交互次数为1，所述第一对象的交互次数用于确定所述第一对象的分数；

12.一种模型训练装置，其特征在于，用于训练如权利要求11所述的界面图像检测装置中的模型；所述模型训练装置包括：

13.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如上述权利要求1至7中任一项所述的方法，或，执行如上述权利要求8至10中任一项所述的方法；

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7中任一项所述的方法，或，执行如上述权利要求8至10中任一项所述的方法。