CN112231033A - 结合rpa与ai的软件界面元素的匹配方法及装置 - Google Patents

结合rpa与ai的软件界面元素的匹配方法及装置 Download PDF

Info

Publication number
CN112231033A
CN112231033A CN202011126599.5A CN202011126599A CN112231033A CN 112231033 A CN112231033 A CN 112231033A CN 202011126599 A CN202011126599 A CN 202011126599A CN 112231033 A CN112231033 A CN 112231033A
Authority
CN
China
Prior art keywords
interface
target element
software interface
information
current software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011126599.5A
Other languages
English (en)
Inventor
张小勇
罗亮
褚瑞
李玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Original Assignee
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Benying Network Technology Co Ltd, Beijing Laiye Network Technology Co Ltd filed Critical Beijing Benying Network Technology Co Ltd
Publication of CN112231033A publication Critical patent/CN112231033A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Input (AREA)

Abstract

本公开提供一种结合RPA与AI的软件界面元素的匹配方法及装置。本实施例提供的软件界面元素的匹配方法,包括通过采用OCR技术提取当前软件界面中的界面元素;将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;根据所述分布信息,执行对所述目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

Description

结合RPA与AI的软件界面元素的匹配方法及装置
技术领域
本公开涉及自动化技术领域,具体涉及RPA(Robotic Process Automation,机器人流程自动化)、AI(Artificial Intelligence,人工智能),尤其涉及一种结合RPA与AI的软件界面元素的匹配方法及装置。
背景技术
在机器人流程自动化(Robotic Process Automation,RPA)领域,为了实现流程的自动化,软件机器人需要经常访问软件界面上的控件元素(简称界面元素),并针对这些界面元素进行操作,以执行相应的操作任务。
人工智能(Artificial Intelligence,简称AI)是研究、开发用于模拟、延伸和扩展人智能的理论、方法、技术及应用***的一门新技术科学。人工智能领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
现有技术中,为了保证自动化流程的准确性,软件机器人在运行流程时,需要精准地匹配目标元素的位置并对其进行自动化操作。在远程桌面或虚拟机等应用场景,一般是通过计算机视觉的技术检测界面元素,并提取其特征属性作为在流程运行时界面元素的匹配依据。
然而,这种匹配方式并不稳定,很容易导致目标元素匹配错误或匹配失败,使得自动化流程的准确度低下。
发明内容
本公开提供一种结合RPA与AI的软件界面元素的匹配方法及装置,可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。
第一方面,本公开提供一种结合RPA与AI的软件界面元素的匹配方法,包括:
采用光学字符识别(Optical Character Recognition,OCR)技术提取当前软件界面中的界面元素;
将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;
根据所述分布信息,执行对所述目标元素的访问操作。
在一种可能的设计中,所述采用OCR技术提取当前软件界面中的界面元素,包括:
截取当前软件界面的界面图像;
通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述界面图像中提取出所有界面元素。
在一种可能的设计中,将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息,包括:
根据第一锚点元素对应的类别信息、位置信息、文本信息,从所述当前软件界面中的查找与所述第一锚点元素匹配的第二锚点元素;
根据所述目标元素与所述第一锚点元素之间的位置关系,以及所述第二锚点元素在所述当前软件界面中的位置,确定所述目标元素在当前软件界面上的分布信息;所述分布信息包括:目标元素的至少一个形状点的坐标信息、目标元素的尺寸信息;其中,所述形状点用于界定所述目标元素包含的区域。
在一种可能的设计中,在将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配之前,还包括:
截取模板软件界面的界面图像;
通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述模板软件界面的界面图像中提取出所有界面元素作为候选元素;
从所述候选元素中选取目标元素,以及与所述目标元素关联的第一锚点元素;其中,所述第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;
根据所述目标元素和所述第一锚点元素,生成所述目标元素的特征信息;所述目标元素的特征信息包括:所述目标元素与所述第一锚点元素之间的位置关系,以及所述第一锚点元素对应的类别信息、位置信息、文本信息。
在一种可能的设计中,在根据所述分布信息,执行对所述目标元素的访问操作之前,还包括:
将所述分布信息对应的区域和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;
若所述重叠阈值大于预设值,则执行对目标元素的访问。
在一种可能的设计中,还包括:
若所述重叠阈值不大于预设值,则确定所述目标元素无效,反馈匹配失败提示信息。
第二方面,本公开还提供一种结合RPA与AI的软件界面元素的匹配装置,包括:
提取模块,用于采用光学字符识别(Optical Character Recognition,OCR)技术提取当前软件界面中的界面元素;
匹配模块,用于将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;
执行模块,用于根据所述分布信息,执行对所述目标元素的访问操作。
在一种可能的设计中,所述提取模块,具体用于:
截取当前软件界面的界面图像;
通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述界面图像中提取出所有界面元素。
在一种可能的设计中,所述匹配模块,具体用于:
根据第一锚点元素对应的类别信息、位置信息、文本信息,从所述当前软件界面中的查找与所述第一锚点元素匹配的第二锚点元素;
根据所述目标元素与所述第一锚点元素之间的位置关系,以及所述第二锚点元素在所述当前软件界面中的位置,确定所述目标元素在当前软件界面上的分布信息;所述分布信息包括:目标元素的至少一个形状点的坐标信息、目标元素的尺寸信息;其中,所述形状点用于界定所述目标元素包含的区域。
在一种可能的设计中,还包括:获取模块,用于在将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配之前,截取模板软件界面的界面图像;
通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述模板软件界面的界面图像中提取出所有界面元素作为候选元素;
从所述候选元素中选取目标元素,以及与所述目标元素关联的第一锚点元素;其中,所述第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;
根据所述目标元素和所述第一锚点元素,生成所述目标元素的特征信息;所述目标元素的特征信息包括:所述目标元素与所述第一锚点元素之间的位置关系,以及所述第一锚点元素对应的类别信息、位置信息、文本信息。
在一种可能的设计中,还包括:重叠度判断模块,用于:
将所述分布信息对应的区域和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;
若所述重叠阈值大于预设值,则执行对目标元素的访问。
在一种可能的设计中,还包括:
反馈模块,用于在所述重叠阈值不大于预设值时,确定所述目标元素无效,反馈匹配失败提示信息。
第三方面,本公开还提供一种电子设备,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任意一种结合RPA与AI的软件界面元素的匹配方法。
第四方面,本公开实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意一种结合RPA与AI的软件界面元素的匹配方法。
本公开提供一种结合RPA与AI的软件界面元素的匹配方法及装置,通过采用OCR技术提取当前软件界面中的界面元素;将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;根据所述分布信息,执行对所述目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的应用场景图;
图2为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的流程示意图;
图3为本公开根据另一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的流程示意图;
图4为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配装置的结构示意图;
图5为本公开根据另一示例实施例示出的结合RPA与AI的软件界面元素的匹配装置的结构示意图;
图6为本公开根据一示例实施例示出的电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在机器人流程自动化(Robotic Process Automation,RPA)领域,为了实现流程的自动化,软件机器人需要经常访问软件界面上的控件元素(简称界面元素),并针对这些界面元素进行操作,以执行相应的操作任务。现有技术中,为了保证自动化流程的准确性,软件机器人在运行流程时,需要精准地匹配目标元素的位置并对其进行自动化操作。在远程桌面或虚拟机等应用场景,一般是通过计算机视觉的技术检测界面元素,并提取其特征属性作为在流程运行时界面元素的匹配依据。然而,这种匹配方式并不稳定,很容易导致目标元素匹配错误或匹配失败,使得自动化流程的准确度低下。
针对上述技术问题,本公开提供一种结合RPA与AI的软件界面元素的匹配方法及装置,可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。图1为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的应用场景图,如图1所示,软件界面中的界面元素主要包括文本、图标与控件。一般情况下,控件元素都会存在一个文本元素(Label)对其进行标识,如:按钮按件里面一般存在一段简单的文本标识该按钮的功能(如:“确定”或“取消”等);输入框按件的左侧或上侧一般也会存在一段简单的文本标识该输入框的功能(如:“用户名”或“密码”等);因此,在对界面元素进行匹配查找时,可以充分地利用这些作为标识用的Label信息进行辅助。这些Label信息即本公开中所说的“锚点”。下面对“锚点”作更一般的定义与说明。“锚点”可理解为参照点,类似路标,形态稳定不变(位置可以变动),很容易被辨识,且是全局唯一的。在这里,“锚点”可以是图标,也可以是一段文本。因此,对文本元素,通过光学字符识别OCR技术进行检测,检测出界面中每一段文本的位置及其文字内容;针对图标与控件元素,可以通过基于深度学习目标检测算法(如SSD\Faster R-CNN等)检测出界面中图标与控件元素所在的位置及类别。
然后,软件机器人可以根据第一锚点元素对应的类别信息、位置信息、文本信息,从当前软件界面中的查找与第一锚点元素匹配的第二锚点元素;根据目标元素与第一锚点元素之间的位置关系,以及第二锚点元素在当前软件界面中的位置,确定目标元素在当前软件界面上的分布信息。第一锚点元素是指模板软件界面的锚点,第二锚点元素是指当前软件界面的锚点,锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素。若锚点元素为图标,则采用模板匹配的方式进行匹配查找;若锚点元素为文本,则采用字符串匹配的方式进行匹配查找。因此,可以在当前软件界面中的查找与第一锚点元素匹配的第二锚点元素。然后,结合模板软件界面中目标元素与第一锚点元素之间的位置关系,以及第二锚点元素在当前软件界面中的位置,确定目标元素在当前软件界面上的分布信息,从而可以确定目标元素的区域范围,作为候选区域。界面元素的分布信息可以用至少一个形状点的坐标信息、目标元素的尺寸信息来描述,形状点可以是界面元素的顶点或者是界面元素的中心点。矩形界面元素的分布信息可以用四个顶点来描述,而圆形界面元素的分布信息可以用中心点来描述。例如圆形的界面元素(圆形按钮),知道圆心位置和圆的半径,即可确定界面元素的区域。根据锚点区域对应的坐标信息与界面元素的对应的坐标信息之间的坐标换算关系,可以很快确定界面元素形状点的坐标,进而确定界面元素所在的位置坐标和尺寸大小等信息。
最后,在获取到目标元素的分布信息之后,可以对目标元素进行访问,例如对目标元素的拾取与模拟操作。在一种可能的实施方式中,在根据分布信息,执行对目标元素的访问操作之前,还包括:将分布信息对应的区域内的目标元素和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;若重叠阈值大于预设值,则确定目标元素有效。若重叠阈值不大于预设值,则确定目标元素无效,反馈匹配失败提示信息。
应用上述方法可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。
图2为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的流程示意图,如图2所示,本实施例提供的方法可以包括:
步骤101、采用光学字符识别(Optical Character Recognition,OCR)技术提取当前软件界面中的界面元素。
本实施例中,软件机器人可以截取当前软件界面的界面图像。然后,通过光学字符识别OCR技术,或者预先训练的深度学习模型,从界面图像中提取出所有界面元素。
具体地,软件界面中的界面元素主要包括文本、图标与控件。一般情况下,控件元素都会存在一个文本元素(Label)对其进行标识,如:按钮按件里面一般存在一段简单的文本标识该按钮的功能(如:“确定”或“取消”等);输入框按件的左侧或上侧一般也会存在一段简单的文本标识该输入框的功能(如:“用户名”或“密码”等);因此,在对界面元素进行匹配查找时,可以充分地利用这些作为标识用的Label信息进行辅助。这些Label信息即本公开中所说的“锚点”。下面对“锚点”作更一般的定义与说明。“锚点”可理解为参照点,类似路标,形态稳定不变(位置可以变动),很容易被辨识,且是全局唯一的。在这里,“锚点”可以是图标,也可以是一段文本。因此,对文本元素,通过光学字符识别OCR技术进行检测,检测出界面中每一段文本的位置及其文字内容;针对图标与控件元素,可以通过基于深度学习目标检测算法(如SSD\Faster R-CNN等)检测出界面中图标与控件元素所在的位置及类别。
步骤102、将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息。
本实施例中,软件机器人可以根据第一锚点元素对应的类别信息、位置信息、文本信息,从当前软件界面中的查找与第一锚点元素匹配的第二锚点元素;根据目标元素与第一锚点元素之间的位置关系,以及第二锚点元素在当前软件界面中的位置,确定目标元素在当前软件界面上的分布信息;分布信息包括:目标元素的至少一个形状点的坐标信息、目标元素的尺寸信息;其中,形状点用于界定目标元素包含的区域。
具体地,第一锚点元素是指模板软件界面的锚点,第二锚点元素是指当前软件界面的锚点,锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素。若锚点元素为图标,则采用模板匹配的方式进行匹配查找;若锚点元素为文本,则采用字符串匹配的方式进行匹配查找。因此,可以在当前软件界面中的查找与第一锚点元素匹配的第二锚点元素。然后,结合模板软件界面中目标元素与第一锚点元素之间的位置关系,以及第二锚点元素在当前软件界面中的位置,确定目标元素在当前软件界面上的分布信息,从而可以确定目标元素的区域范围,作为候选区域。界面元素的分布信息可以用至少一个形状点的坐标信息、目标元素的尺寸信息来描述,形状点可以是界面元素的顶点或者是界面元素的中心点。矩形界面元素的分布信息可以用四个顶点来描述,而圆形界面元素的分布信息可以用中心点来描述。例如圆形的界面元素(圆形按钮),知道圆心位置和圆的半径,即可确定界面元素的区域。根据锚点区域对应的坐标信息与界面元素的对应的坐标信息之间的坐标换算关系,可以很快确定界面元素形状点的坐标,进而确定界面元素所在的位置坐标和尺寸大小等信息。
步骤103、根据分布信息,执行对目标元素的访问操作。
本实施例中,在获取到目标元素的分布信息之后,可以对目标元素进行访问,例如对目标元素的拾取与模拟操作。
在一种可能的实施方式中,在根据分布信息,执行对目标元素的访问操作之前,还包括:将分布信息对应的区域和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;若重叠阈值大于预设值,则执行对目标元素的访问。
具体地,将得到的候选区域与步骤101中解析出的界面元素做重叠度检测IOU(Intersection over Union)。若IOU结果大于设定的阀值,则认为该候选区域有效。
在另一种可能的实施方式中,若重叠阈值不大于预设值,则确定候选区域无效,反馈匹配失败提示信息。
在一种可能的实施方式中,当存在多个锚点元素,且基于每个锚点元素确定的候选区域不同时,将得到的候选区域与步骤101中解析出的界面元素做重叠度检测IOU,确定IOU结果大于设定阈值的候选区域,对IOU结果大于设定阈值的候选区域匹配的界面元素执行访问操作。
在一种可能的实施方式中,当存在多个锚点元素,且基于每个锚点元素确定的候选区域不同时,将得到的候选区域与步骤101中解析出的界面元素做重叠度检测IOU,确定与各候选区域的综合匹配度最高的界面元素,执行对该界面元素的访问操作。其中,界面元素与各候选区域的综合匹配度,可以是界面元素与各候选区域的匹配度之和,也可以通过其他预设方式,确定综合匹配度,本申请不限于此。
具体地,软件机器人还可以在匹配失败时,向用户以提示信息的方式进行反馈。其中,匹配失败是指分布信息对应的区域内的目标元素和当前软件界面中的界面元素的重叠阈值不大于预设值。
本实施例,通过提取当前软件界面中的界面元素;将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。
图3为本公开根据另一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的流程示意图,如图3所示,本实施例提供的方法可以包括:
步骤201、获取模板软件界面第一锚点元素和目标元素的特征信息。
本实施例中,可以截取模板软件界面的界面图像;通过光学字符识别OCR技术,或者预先训练的深度学习模型,从模板软件界面的界面图像中提取出所有界面元素作为候选元素;从候选元素中选取目标元素,以及与目标元素关联的第一锚点元素;其中,第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;根据目标元素和第一锚点元素,生成目标元素的特征信息;目标元素的特征信息包括:目标元素与第一锚点元素之间的位置关系,以及第一锚点元素对应的类别信息、位置信息、文本信息。
具体地,还可以截取模板软件界面的界面图像。针对文本元素,通过OCR技术进行检测,检测出界面中每一段文本的位置及其文字内容;针对图标与控件元素,可以通过基于深度学习目标检测算法(如SSD\Faster R-CNN等)检测出界面中图标与控件元素所在的位置及类别。将提取出的所有界面元素作为候选元素,指定待操作的目标元素以及辅助该目标元素查找的锚点元素。以邮箱登陆界面为例,输入框控件即为待操作的目标元素,而用户名或密码等文本即可选为锚点元素。根据目标元素与锚点元素等信息,生成特征信息并保存至RPA流程源码中,特征信息主要包括目标元素的类别、位置;锚点元素的类别、位置及文本内容等信息。在匹配时,可以进行锚点元素的匹配,然后通过匹配到的锚点元素确定目标元素在当前软件界面上的位置。具体匹配的实施方式,此处不再赘述。
步骤202、采用OCR技术提取当前软件界面中的界面元素。
步骤203、将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息。
步骤204、根据分布信息,执行对目标元素的访问操作。
本实施例中,步骤202~步骤204的具体实现过程和技术原理请参见图2所示的方法中步骤101~步骤103中的相关描述,此处不再赘述。
本实施例,通过提取当前软件界面中的界面元素;将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。
另外,本实施还可以截取模板软件界面的界面图像;通过光学字符识别OCR技术,或者预先训练的深度学习模型,从模板软件界面的界面图像中提取出所有界面元素作为候选元素;从候选元素中选取目标元素,以及与目标元素关联的第一锚点元素;其中,第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;根据目标元素和第一锚点元素,生成目标元素的特征信息;目标元素的特征信息包括:目标元素与第一锚点元素之间的位置关系,以及第一锚点元素对应的类别信息、位置信息、文本信息。
图4为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配装置的结构示意图。如图4所示,本实施例的结合RPA与AI的软件界面元素的匹配装置可以包括:
提取模块31,用于采用光学字符识别(Optical Character Recognition,OCR)技术提取当前软件界面中的界面元素;
匹配模块32,用于将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息;
执行模块33,用于根据分布信息,执行对目标元素的访问操作。
在一种可能的设计中,提取模块31,具体用于:
截取当前软件界面的界面图像;
通过光学字符识别OCR技术,或者预先训练的深度学习模型,从界面图像中提取出所有界面元素。
在一种可能的设计中,匹配模块32,具体用于:
根据第一锚点元素对应的类别信息、位置信息、文本信息,从当前软件界面中的查找与第一锚点元素匹配的第二锚点元素;
根据目标元素与第一锚点元素之间的位置关系,以及第二锚点元素在当前软件界面中的位置,确定目标元素在当前软件界面上的分布信息;分布信息包括:目标元素的至少一个形状点的坐标信息、目标元素的尺寸信息;其中,形状点用于界定目标元素包含的区域。
本实施例提供的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本实施例,通过提取当前软件界面中的界面元素;将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。
在图4所示实施例的基础上,图5为本公开根据另一示例实施例示出的结合RPA与AI的软件界面元素的匹配装置的结构示意图,如图5所示,本实施例提供的结合RPA与AI的软件界面元素的匹配装置,还包括:
获取模块34,用于在将目标元素的特征信息与当前软件界面中的界面元素进行匹配之前,截取模板软件界面的界面图像;
通过光学字符识别OCR技术,或者预先训练的深度学习模型,从模板软件界面的界面图像中提取出所有界面元素作为候选元素;
从候选元素中选取目标元素,以及与目标元素关联的第一锚点元素;其中,第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;
根据目标元素和第一锚点元素,生成目标元素的特征信息;目标元素的特征信息包括:目标元素与第一锚点元素之间的位置关系,以及第一锚点元素对应的类别信息、位置信息、文本信息。
在一种可能的设计中,还包括:重叠度判断模块35,用于:
将分布信息对应的区域和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;
若重叠阈值大于预设值,则执行对目标元素的访问。
在一种可能的设计中,还包括:
反馈模块36,用于在重叠阈值不大于预设值时,确定目标元素无效,反馈匹配失败提示信息。
本实施例提供的装置,可以用于执行图2、图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本实施例,通过提取当前软件界面中的界面元素;将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。
图6为本公开根据一示例实施例示出的电子设备的结构示意图。如图6所示,本实施例提供的一种电子设备40,包括:
处理器401;以及,
存储器402,用于存储处理器的可执行指令,该存储器还可以是flash(闪存);
其中,处理器401配置为经由执行可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器402既可以是独立的,也可以跟处理器401集成在一起。
当存储器402是独立于处理器401之外的器件时,电子设备40,还可以包括:
总线403,用于连接处理器401以及存储器402。
本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子设备执行上述的各种实施方式提供的方法。
本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (14)

1.一种结合RPA与AI的软件界面元素的匹配方法,其特征在于,包括:
采用光学字符识别(OpticalCharacter Recognition,OCR)技术提取当前软件界面中的界面元素;
将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;
根据所述分布信息,执行对所述目标元素的访问操作。
2.根据权利要求1所述的方法,其特征在于,所述采用OCR技术提取当前软件界面中的界面元素,包括:
截取当前软件界面的界面图像;
通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述界面图像中提取出所有界面元素。
3.根据权利要求1所述的方法,其特征在于,将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息,包括:
根据第一锚点元素对应的类别信息、位置信息、文本信息,从所述当前软件界面中的查找与所述第一锚点元素匹配的第二锚点元素;
根据所述目标元素与所述第一锚点元素之间的位置关系,以及所述第二锚点元素在所述当前软件界面中的位置,确定所述目标元素在当前软件界面上的分布信息;所述分布信息包括:目标元素的至少一个形状点的坐标信息、目标元素的尺寸信息;其中,所述形状点用于界定所述目标元素包含的区域。
4.根据权利要求3所述的方法,其特征在于,在将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配之前,还包括:
截取模板软件界面的界面图像;
通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述模板软件界面的界面图像中提取出所有界面元素作为候选元素;
从所述候选元素中选取目标元素,以及与所述目标元素关联的第一锚点元素;其中,所述第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;
根据所述目标元素和所述第一锚点元素,生成所述目标元素的特征信息;所述目标元素的特征信息包括:所述目标元素与所述第一锚点元素之间的位置关系,以及所述第一锚点元素对应的类别信息、位置信息、文本信息。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在根据所述分布信息,执行对所述目标元素的访问操作之前,还包括:
将所述分布信息对应的区域和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;
若所述重叠阈值大于预设值,则执行对目标元素的访问。
6.根据权利要求5所述的方法,其特征在于,还包括:
若所述重叠阈值不大于预设值,则确定所述目标元素无效,反馈匹配失败提示信息。
7.一种结合RPA与AI的软件界面元素的匹配装置,其特征在于,包括:
提取模块,用于采用光学字符识别(Optical Character Recognition,OCR)技术提取当前软件界面中的界面元素;
匹配模块,用于将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;
执行模块,用于根据所述分布信息,执行对所述目标元素的访问操作。
8.根据权利要求7所述的装置,其特征在于,所述提取模块,具体用于:
截取当前软件界面的界面图像;
通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述界面图像中提取出所有界面元素。
9.根据权利要求7所述的装置,其特征在于,所述匹配模块,具体用于:
根据第一锚点元素对应的类别信息、位置信息、文本信息,从所述当前软件界面中的查找与所述第一锚点元素匹配的第二锚点元素;
根据所述目标元素与所述第一锚点元素之间的位置关系,以及所述第二锚点元素在所述当前软件界面中的位置,确定所述目标元素在当前软件界面上的分布信息;所述分布信息包括:目标元素的至少一个形状点的坐标信息、目标元素的尺寸信息;其中,所述形状点用于界定所述目标元素包含的区域。
10.根据权利要求9所述的装置,其特征在于,还包括:获取模块,用于在将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配之前,截取模板软件界面的界面图像;
通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述模板软件界面的界面图像中提取出所有界面元素作为候选元素;
从所述候选元素中选取目标元素,以及与所述目标元素关联的第一锚点元素;其中,所述第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;
根据所述目标元素和所述第一锚点元素,生成所述目标元素的特征信息;所述目标元素的特征信息包括:所述目标元素与所述第一锚点元素之间的位置关系,以及所述第一锚点元素对应的类别信息、位置信息、文本信息。
11.根据权利要求7-10中任一项所述的装置,其特征在于,还包括:重叠度判断模块,用于:
将所述分布信息对应的区域和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;
若所述重叠阈值大于预设值,则执行对目标元素的访问。
12.根据权利要求11所述的装置,其特征在于,还包括:
反馈模块,用于在所述重叠阈值不大于预设值时,确定所述目标元素无效,反馈匹配失败提示信息。
13.一种电子设备,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任一项所述的结合RPA与AI的软件界面元素的匹配方法。
14.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6中任一项所述的结合RPA与AI的软件界面元素的匹配方法。
CN202011126599.5A 2019-12-23 2020-10-20 结合rpa与ai的软件界面元素的匹配方法及装置 Pending CN112231033A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911340497 2019-12-23
CN2019113404970 2019-12-23

Publications (1)

Publication Number Publication Date
CN112231033A true CN112231033A (zh) 2021-01-15

Family

ID=74117906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011126599.5A Pending CN112231033A (zh) 2019-12-23 2020-10-20 结合rpa与ai的软件界面元素的匹配方法及装置

Country Status (1)

Country Link
CN (1) CN112231033A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722038A (zh) * 2021-09-06 2021-11-30 北京字节跳动网络技术有限公司 一种数据匹配方法、装置、计算机设备以及存储介质
CN114035726A (zh) * 2021-10-19 2022-02-11 四川新网银行股份有限公司 一种机器人流程自动化页面要素识别过程的方法及***
CN115061769A (zh) * 2022-08-08 2022-09-16 杭州实在智能科技有限公司 用于支持跨分辨率的自迭代rpa界面元素匹配方法及***
CN115455227A (zh) * 2022-09-20 2022-12-09 上海弘玑信息技术有限公司 图形界面的元素搜索方法及电子设备、存储介质
CN116168405A (zh) * 2023-04-23 2023-05-26 杭州实在智能科技有限公司 通用型rpa复选框操作组件的构建方法及***
CN116185411A (zh) * 2023-03-23 2023-05-30 苏州峰之鼎信息科技有限公司 Rpa界面的确定方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268083A (zh) * 2014-09-30 2015-01-07 上海联影医疗科技有限公司 软件自动化测试方法和装置
CN104899146A (zh) * 2015-06-19 2015-09-09 安一恒通(北京)科技有限公司 基于图像匹配技术的软件稳定性测试方法和装置
CN110413529A (zh) * 2019-07-31 2019-11-05 中国工商银行股份有限公司 应用于电子设备的测试方法、装置、计算设备以及介质
US10474564B1 (en) * 2019-01-25 2019-11-12 Softesis Inc. Identifying user interface elements using element signatures

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268083A (zh) * 2014-09-30 2015-01-07 上海联影医疗科技有限公司 软件自动化测试方法和装置
CN104899146A (zh) * 2015-06-19 2015-09-09 安一恒通(北京)科技有限公司 基于图像匹配技术的软件稳定性测试方法和装置
US10474564B1 (en) * 2019-01-25 2019-11-12 Softesis Inc. Identifying user interface elements using element signatures
CN110413529A (zh) * 2019-07-31 2019-11-05 中国工商银行股份有限公司 应用于电子设备的测试方法、装置、计算设备以及介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722038A (zh) * 2021-09-06 2021-11-30 北京字节跳动网络技术有限公司 一种数据匹配方法、装置、计算机设备以及存储介质
CN114035726A (zh) * 2021-10-19 2022-02-11 四川新网银行股份有限公司 一种机器人流程自动化页面要素识别过程的方法及***
CN114035726B (zh) * 2021-10-19 2023-12-22 四川新网银行股份有限公司 一种机器人流程自动化页面要素识别过程的方法及***
CN115061769A (zh) * 2022-08-08 2022-09-16 杭州实在智能科技有限公司 用于支持跨分辨率的自迭代rpa界面元素匹配方法及***
CN115455227A (zh) * 2022-09-20 2022-12-09 上海弘玑信息技术有限公司 图形界面的元素搜索方法及电子设备、存储介质
CN116185411A (zh) * 2023-03-23 2023-05-30 苏州峰之鼎信息科技有限公司 Rpa界面的确定方法、装置、计算机设备及存储介质
CN116185411B (zh) * 2023-03-23 2024-04-30 苏州峰之鼎信息科技有限公司 Rpa界面的确定方法、装置、计算机设备及存储介质
CN116168405A (zh) * 2023-04-23 2023-05-26 杭州实在智能科技有限公司 通用型rpa复选框操作组件的构建方法及***

Similar Documents

Publication Publication Date Title
CN112231033A (zh) 结合rpa与ai的软件界面元素的匹配方法及装置
CN112231034A (zh) 结合rpa和ai的软件界面元素的识别方法与装置
US9020250B2 (en) Methods and systems for building a universal dress style learner
CN110689535B (zh) 一种工件识别方法、装置及电子设备和存储介质
US11279040B2 (en) Robot process automation apparatus and method for detecting changes thereof
US8943468B2 (en) Wireframe recognition and analysis engine
US9971954B2 (en) Apparatus and method for producing image processing filter
CN112749758B (zh) 图像处理方法、神经网络的训练方法、装置、设备和介质
CN109919077B (zh) 姿态识别方法、装置、介质和计算设备
CN115061769B (zh) 用于支持跨分辨率的自迭代rpa界面元素匹配方法及***
CN108536597A (zh) 一种终端测试方法、装置、终端设备及存储介质
CN109241998B (zh) 模型训练方法、装置、设备及存储介质
CN111190595A (zh) 基于界面设计图自动生成界面代码的方法、装置、介质及电子设备
CN106845628A (zh) 机器人通过互联网自主学习生成新指令的方法和装置
Pradhan et al. A hand gesture recognition using feature extraction
CN112231032A (zh) 结合rpa与ai的软件界面元素的访问方法及装置
US20200257372A1 (en) Out-of-vocabulary gesture recognition filter
CN112035120A (zh) 基于医疗数据的逻辑代码获取方法、装置以及计算机设备
KR101628602B1 (ko) 프로그램의 유사도를 판단하기 위한 유사도 판단 방법 및 유사도 판단 장치
CN114022684B (zh) 人体姿态估计方法及装置
CN110909739B (zh) 图片识别并操作的方法、装置、计算机设备及存储介质
CN109697439A (zh) 汉字定位方法及装置、存储介质和电子设备
CN112685056A (zh) 脚本更新方法及装置
US20210326754A1 (en) Storage medium, learning method, and information processing apparatus
CN115688083B (zh) 图文型验证码的识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination