CN110780965A

CN110780965A - 基于视觉的流程自动化方法、设备及可读存储介质

Info

Publication number: CN110780965A
Application number: CN201911020138.7A
Authority: CN
Inventors: 吴子凡; 张潮宇; 何元钦; 陈天健
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-02-11
Anticipated expiration: 2039-10-24
Also published as: CN110780965B

Abstract

本发明公开了一种基于视觉的流程自动化方法、设备和可读存储介质，所述基于视觉的流程自动化方法包括：接收界面图像，并对所述界面图像进行解析，获得解析结果，基于预设知识图谱模板和所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，以建立界面解析图数据库，基于所述界面解析图数据库，执行预设自动化流程。解决了现有技术中RPA适用性差的技术问题。

Description

基于视觉的流程自动化方法、设备及可读存储介质

技术领域

本发明涉及金融科技(Fintech)的神经网络技术领域，尤其涉及一种基于视觉的流程自动化方法、设备及可读存储介质。

背景技术

随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域，但金融业也对技术提出了更高的要求，如对金融业对应待办事项的分发也有更高的要求。

随着计算机软件和人工智能的不断发展，RPA在日常生活中应用越来越广泛，目前，RPA(Robotic Process Automation，机器人流程自动化)软件在使用时必须安装在***作机器本地，以获取页面的状态以执行必要的输入，进而完成一些机械性工作，但是对于一些不允许第三方软件安装的***，现有的RPA软件并不具备对应的工作能力，例如，某银行内部的财务***，需要通过特定的硬件进行登陆操作，所以无法安装RPA软件来进行自动化流程，进一步地，导致人们只能依靠人力进行这些机械性工作，造成了不必要的人力资源浪费，所以，现有技术中存在RPA适用性差的技术问题。

发明内容

本发明的主要目的在于提供一种基于视觉的流程自动化方法、设备和可读存储介质，旨在解决现有技术中RPA适用性差的技术问题。

为实现上述目的，本发明实施例提供一种基于视觉的流程自动化方法，所述基于视觉的流程自动化方法应用于基于视觉的流程自动化设备，所述基于视觉的流程自动化方法包括：

接收界面图像，并对所述界面图像进行解析，获得解析结果；

基于预设知识图谱模板和所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，以建立界面解析图数据库；

基于所述界面解析图数据库，执行预设自动化流程。

可选地，所述基于预设知识图谱模板和所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，以建立界面解析图数据库的步骤包括：

基于所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，获得界面元素关联关系；

基于所述界面元素关联关系，将所述界面元素输入所述预设知识图谱模板，获得界面元素知识图谱；

建立所述界面元素知识图谱对应的搜索条件模块，以基于所述界面元素知识图谱和所述搜索条件模块建立所述界面解析图数据库。

可选地，所述界面元素包括界面、界面区域和区域元素，所述解析结果包括图像分类结果、语义分割结果和目标检测结果，

所述基于所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，获得界面元素关联关系的步骤包括：

基于所述目标检测结果，对所述区域元素进行关联关系梳理，获得区域元素关联关系；

基于所述区域元素关联关系和所述语义分割结果，对所述界面区域进行关联关系梳理，获得界面区域关联关系；

基于所述界面区域关联关系和所述图像分类结果，对所述界面进行关联关系梳理，获得所述界面元素关联关系。

可选地，所述基于所述界面解析图数据库，执行预设自动化流程的步骤包括：

获取所述预设自动化流程对应的操作命令，并在预设输入信息数据库提取所述操作命令对应的输入信息；

基于所述界面解析图数据库，搜索所述输入信息对应的界面元素信息，以执行预设自动化流程。

可选地，所述解析结果包括图像分类结果、语义分割结果和目标检测结果，

所述对所述界面图像进行解析，获得解析结果的步骤包括：

将所述界面图像输入预设图像分类模型，以对所述界面图像进行识别，获得所述图像分类结果；

将所述界面图像输入预设语义分割模型，对所述界面图像进行语义分割，获得所述语义分割结果；

将语义分割后的所述界面图像输入预设目标检测模型，对所述界面图像进行目标检测，获得所述目标检测结果。

可选地，所述将所述界面图像输入预设图像分类模型，以对所述界面图像进行识别，获得所述图像分类结果的步骤包括：

将所述界面图像输入所述预设图像分类模型，以对所述界面图像进行预设次数的卷积和池化交替处理，获得所述界面图像对应的多个图像分类特征图；

对所述多个图像分类特征图进行全连接，获得图像分类特征向量，并提取所述图像分类特征向量中的界面信息，以获得所述图像分类结果。

可选地，所述将所述界面图像输入预设语义分割模型，对所述界面图像进行语义分割，获得所述语义分割结果的步骤包括：

将所述界面图像输入所述预设语义分割模型，以对所述界面图像进行编码，获得编码结果；

对所述编码结果进行解码，获得所述语义分割结果。

可选地，所述将语义分割后的所述界面图像输入预设目标检测模型，对所述界面图像进行目标检测，获得所述目标检测结果的步骤包括：

将语义分割后的所述界面图像输入所述预设目标检测模型，以对所述界面图像中的候选区域进行框选，获得各所述候选区域对应的目标框；

对各所述目标框进行预设次数的卷积和池化交替处理，获得各所述目标框对应的多个目标框特征图；

对所述多个目标框特征图进行全连接，获得各所述目标框对应的目标特征向量，并提取各所述目标特征向量中的目标信息，以获得所述目标检测结果。

本发明还提供一种基于视觉的流程自动化装置，所述基于视觉的流程自动化装置应用于基于视觉的流程自动化设备，所述基于视觉的流程自动化装置包括：

解析模块，用于所述接收界面图像，并对所述界面图像进行解析，获得解析结果；

梳理模块，用于所述基于预设知识图谱模板和所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，以建立界面解析图数据库；

执行模块，用于所述基于所述界面解析图数据库，执行预设自动化流程。

可选地，所述梳理模块包括：

梳理单元，用于所述基于所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，获得界面元素关联关系；

输入单元，用于所述基于所述界面元素关联关系，将所述界面元素输入所述预设知识图谱模板，获得界面元素知识图谱；

匹配单元，用于所述建立所述界面元素知识图谱对应的搜索条件模块，以基于所述界面元素知识图谱和所述搜索条件模块建立所述界面解析图数据库。

可选地，所述梳理单元包括：

第一梳理子单元，用于所述基于所述目标检测结果，对所述区域元素进行关联关系梳理，获得区域元素关联关系；

第二梳理子单元，用于所述基于所述区域元素关联关系和所述语义分割结果，对所述界面区域进行关联关系梳理，获得界面区域关联关系；

第三梳理子单元，用于所述基于所述界面区域关联关系和所述图像分类结果，对所述界面进行关联关系梳理，获得所述界面元素关联关系。

可选地，所述执行模块包括：

提取单元，用于所述获取所述预设自动化流程对应的操作命令，并在预设输入信息数据库提取所述操作命令对应的输入信息；

搜索单元，用于所述基于所述界面解析图数据库，搜索所述输入信息对应的界面元素信息，以执行预设自动化流程。

可选地，所述解析模块包括：

图像识别单元，用于所述将所述界面图像输入预设图像分类模型，以对所述界面图像进行识别，获得所述图像分类结果；

语义分割单元，用于所述将所述界面图像输入预设语义分割模型，对所述界面图像进行语义分割，获得所述语义分割结果；

目标检测单元，用于所述将语义分割后的所述界面图像输入预设目标检测模型，对所述界面图像进行目标检测，获得所述目标检测结果。

可选地，所述图像识别单元包括：

第一卷积和池化子单元，用于所述将所述界面图像输入所述预设图像分类模型，以对所述界面图像进行预设次数的卷积和池化交替处理，获得所述界面图像对应的多个图像分类特征图；

第一全连接单元，用于所述对所述多个图像分类特征图进行全连接，获得图像分类特征向量，并提取所述图像分类特征向量中的界面信息，以获得所述图像分类结果。

可选地，所述语义分割单元包括：

编码单元，用于所述将所述界面图像输入所述预设语义分割模型，以对所述界面图像进行编码，获得编码结果；

解码单元，用于所述对所述编码结果进行解码，获得所述语义分割结果。

可选地，所述目标检测单元包括：

框选单元，用于所述将语义分割后的所述界面图像输入所述预设目标检测模型，以对所述界面图像中的候选区域进行框选，获得各所述候选区域对应的目标框；

第二卷积和池化单元，用于所述对各所述目标框进行预设次数的卷积和池化交替处理，获得各所述目标框对应的多个目标框特征图；

第二全连接单元，用于所述对所述多个目标框特征图进行全连接，获得各所述目标框对应的目标特征向量，并提取各所述目标特征向量中的目标信息，以获得所述目标检测结果。

本发明还提供一种基于视觉的流程自动化设备，所述基于视觉的流程自动化设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述基于视觉的流程自动化方法的程序，所述基于视觉的流程自动化方法的程序被处理器执行时可实现如上述的基于视觉的流程自动化方法的步骤。

本发明还提供一种可读存储介质，所述可读存储介质上存储有实现基于视觉的流程自动化方法的程序，所述基于视觉的流程自动化方法的程序被处理器执行时实现如上述的基于视觉的流程自动化方法的步骤。

本申请通过接收界面图像，并对所述界面图像进行解析，获得解析结果，进而基于预设知识图谱模板和所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，以建立界面解析图数据库，进一步地，基于所述界面解析图数据库，执行预设自动化流程。也即，本申请首先进行所述界面图像的接收，进而进行对所述界面图像的解析，获得解析结果，进而基于预设知识图谱模板和所述解析结果，进行对所述界面图像中的界面元素的关联关系梳理，以建立界面解析图数据库，进一步地，基于所述界面解析图数据库，进行预设自动化流程的执行。也即，本申请通过解析界面图像，并基于其解析结果，梳理界面图像中的各界面元素之间的关系，进而建立界面解析图数据库，进而基于所述界面解析图数据库，执行预设自动化流程，所以，本申请通过解析界面图像即可获取界面的状态，以执行所述预设自动化流程，无需在***上安装第三方软件和通过***接口获取界面的状态，可实现对不允许第三方软件安装的***或者接口封闭***等***的自动化流程，极大程度上提高了RPA的适用性，所以，解决了现有技术中RPA适用性差的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于视觉的流程自动化方法第一实施例的流程示意图；

图2为本发明基于视觉的流程自动化方法第二实施例的流程示意图；

图3为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于视觉的流程自动化方法，所述基于视觉的流程自动化方法应用于基于视觉的流程自动化设备，在本申请基于视觉的流程自动化方法的第一实施例中，参照图1，所述基于视觉的流程自动化方法包括：

步骤S10，接收界面图像，并对所述界面图像进行解析，获得解析结果；

在本实施例中，需要说明的是，所述界面图像包括多类界面元素，所述多类界面元素包括界面、界面区域和区域元素，其中，所述界面包括网页界面、软件界面等，所述界面区域包括工作区、导航区等，所述区域元素包括下拉框、输入框和文字框等，所述解析结果包括图像分类结果、语义分割结果和目标检测结果，所述界面图像可通过摄像头或者其他拍摄设备进行拍摄获取。

接收界面图像，并对所述界面图像进行解析，获得解析结果，具体地，接收界面图像，并对所述界面图像进行解析，以对所述界面的种类进行识别，获得图像分类结果，进而对所述界面图像的各界面区域进行分割，获得所述语义分割结果，进一步地，对各界面区域的各区域元素进行目标检测，获得所述目标检测结果。

步骤S20，基于预设知识图谱模板和所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，以建立界面解析图数据库；

在本实施例中，需要说明的是，所述预设知识图谱模板为空白的知识图谱，其中，所述预设知识图谱模板包括多个知识节点，其中，所述知识节点包括一级知识节点、二级知识节点和三级知识节点等，且各所述知识节点可通过特定线段进行连接以表示知识节点之间的关联关系，例如，假设所述一级知识节点对应界面，二级知识节点对应界面区域，三级知识节点对应区域元素，则若界面元素为从属关系，则可输入相对应的级别的且已连接的知识节点，若两属于不同界面区域的区域元素为平级关系，则可两区域元素对应的知识节点将连接至各自对应的界面区域知识节点，且各自对应的界面区域的知识节点将会进行连接。所述关联关系包括界面区域从属于界面的从属关系、区域元素从属于界面区域的从属关系和区域元素之间的关联关系，其中，所述区域元素之间的关联关系包括子元素、平级、附属等关联关系。

基于预设知识图谱模板和所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，以建立界面解析图数据库，具体地，基于所述解析结果，对各所述界面元素之间的关联关系进行梳理，获得各界面元素之间的关联关系，并基于所述关联关系，将所述界面图像中的界面元素输入所述预设知识图谱模板中的知识节点中，获得所述界面图像对应的知识图谱，并将所述知识图谱存储至预设界面解析图数据库模板，以建立界面解析图数据库。

其中，所述基于预设知识图谱模板和所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，以建立界面解析图数据库的步骤包括：

步骤S21，基于所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，获得界面元素关联关系；

在本实施例中，基于所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，获得界面元素关联关系，具体地，基于所述解析结果中各界面元素的类别、属性、位置等信息，对述界面图像中的界面元素进行关联关系梳理，获得界面元素关联关系，其中，所述界面元素关联关系包括从属关系、平级关系等，其中，对所述界面图像中的界面元素进行关联关系梳理的过程包括基于解析结果，将所述界面元素的解析信息转化为特定标签并与所述界面进行绑定的过程，进而通过所述特定标签将各界面元素进行关联的过程。

其中，所述界面元素包括界面、界面区域和区域元素，所述解析结果包括图像分类结果、语义分割结果和目标检测结果，

步骤S211，基于所述目标检测结果，对所述区域元素进行关联关系梳理，获得区域元素关联关系；

在本实施例中，需要说明的是，所述目标检测结果包括各区域元素的类别、属性和位置等信息。

基于所述目标检测结果，对所述区域元素进行关联关系梳理，获得区域元素关联关系，具体地，基于所述目标检测结果，对所述区域元素之间的关联关系进行梳理，获得区域元素之间的关联关系，并通过区域元素的位置信息，判定所述区域元素从属的界面区域，获得所述区域元素与所述界面区域之间的从属关系，例如，假设一区域元素A为输入框，一区域元素B为输出框，则在对所述界面图像进行目标检测时，根据所述目标检测结果为A和B贴上对应的标签a和b，其中所述标签中包括目标检测结果，并给所述标签a和b分别设置识别码，而由于区域元素A为输入框，区域元素B为输出框，所以A和B为平级关系，所以标签a和b的分别对应的识别码也是平级关系识别码，例如，假设平级关系的识别码为0001，则a标签的识别码为a-0001，b标签的识别码为b-0001。

步骤S212，基于所述区域元素关联关系和所述语义分割结果，对所述界面区域进行关联关系梳理，获得界面区域关联关系；

在本实施例中，需要说明的是，所述语义分割结果包括各界面区域的类别、属性和位置等信息。

基于所述区域元素关联关系和所述语义分割结果，对所述界面区域进行关联关系梳理，获得界面区域关联关系，具体地，基于所述区域元素关联关系和所述语义分割结果，对所述界面区域之间的关联关系进行梳理，获得各界面区域之间的关联关系，并基于所述界面区域的位置信息，获得所述界面区域和界面之间的从属关系，例如，通过各界面区域对应的预设标签中的识别码，对所述界面区域之间的关联关系进行梳理。

步骤S213，基于所述界面区域关联关系和所述图像分类结果，对所述界面进行关联关系梳理，获得所述界面元素关联关系。

在本实施例中，需要说明的是，所述图像分类结果包括界面的类型、属性等信息。

基于所述界面区域关联关系和所述图像分类结果，对所述界面进行关联关系梳理，获得所述界面元素关联关系，具体地，基于所述界面区域关联关系和所述图像分类结果，对界面之间的关联关系进行梳理，获得界面之间的关联关系，并基于所述界面区域关联关系，确定所述界面区域和界面之间的从属关系，例如，通过各界面对应的预设标签中的识别码，对所述界面之间的关联关系进行梳理。

此外，在本实施例中还提供另外一种梳理界面元素之间关联关系的方法，其中，所述界面元素包括界面、界面区域和区域元素，首先，基于所述语义分割结果和所述图像分类结果，对所述界面区域之间进行关联关系梳理，获得各界面区域之间的关系、各界面区域与界面之间的从属关系和各界面区域和区域元素之间的从属关系，也即，获得界面区域关联关系，进而基于所述所述目标检测结果和所述界面区域关联关系，分别对从属于各界面区域的界面元素进行关联关系梳理，获得区域元素关联关系，进而基于所述界面区域关联关系、所述区域元素关联关系及图像分类结果，获取所述界面元素关联关系，例如，可使用标签匹配进行区域元素之间的关联关系梳理，具体地，假设一区域元素A为输入框，一区域元素B为输出框，则在对所述界面图像进行目标检测时，根据所述目标检测结果为A和B贴上对应的标签a和b，其中所述标签中包括目标检测结果，并给所述标签a和b分别设置识别码，而由于区域元素A为输入框，区域元素B为输出框，所以A和B为平级关系，所以标签a和b的分别对应的识别码也是平级关系识别码，例如，假设平级关系的识别码为0001，则a标签的识别码为a-0001，b标签的识别码为b-0001，同样地，界面区域关联关系也可通过所述标签匹配进行关系梳理。

步骤S22，基于所述界面元素关联关系，将所述界面元素输入所述预设知识图谱模板，获得界面元素知识图谱；

在本实施例中，需要说明的是，所述预设知识图谱模板包括知识图谱模块，所述知识图谱模块用于存储各所述界面元素。

基于所述界面元素关联关系，将所述界面元素输入所述预设知识图谱模板，获得界面元素知识图谱，具体地，基于界面与界面区域之间的从属关系、界面区域与区域元素之间的从属关系，将各所述界面元素输入所述知识图谱模块中的对应级别的知识节点中，进而基于所述界面元素关联关系，将各知识节点以特定线段进行连接，获得界面元素知识图谱。

步骤S23，建立所述界面元素知识图谱对应的搜索条件模块，以基于所述界面元素知识图谱和所述搜索条件模块建立所述界面解析图数据库。

在本实施例中，需要说明的是，所述搜索条件包括关键词、标签和字符串等可用于查询所述界面元素的信息，所述预设知识图谱模板包括搜索条件模板，所述搜索条件模块用于存储各界面元素对应的搜索条件。

建立所述界面元素知识图谱对应的搜索条件模块，以基于所述界面元素知识图谱和所述搜索条件模块建立所述界面解析图数据库，具体地，基于所述界面元素知识图谱中的各界面元素之间的关联关系信息、各界面元素的元素特征信息及各界面元素的存储位置信息，其中，所述元素属性包括界面元素的类别、位置、属性等特征，匹配各所述界面元素对应的搜索关键词，获得搜索条件，进而将所述搜索条件输入所述搜索条件模板，以建立所述界面元素知识图谱中的各界面元素对应的的搜索条件模块，进而基于所述界面元素知识图谱和所述搜索条件模块建立所述界面解析图数据库。

步骤S30，基于所述界面解析图数据库，执行预设自动化流程。

在本实施例中，基于所述界面解析图数据库，执行预设自动化流程，具体地，获取所述预设自动化流程的操作指令，并基于所述操作指令中的搜索信息在所述述界面解析图数据库查询所述操作指令对应的所需界面元素和界面元素之间的关联关系，进一步地，基于操作指令中的执行信息，根据所述所需的界面元素和界面元素之间的关联关系，执行预设自动化流程。

其中，所述基于所述界面解析图数据库，执行预设自动化流程的步骤包括：

步骤S31，获取所述预设自动化流程对应的操作命令，并在预设输入信息数据库提取所述操作命令对应的输入信息；

在本实施例中，需要说明的是，所述操作命令包括执行代码、识别标签等信息。

获取所述预设自动化流程对应的操作命令，并在预设输入信息数据库提取所述操作命令对应的输入信息，具体地，获取所述预设自动化流程对应的操作命令，并基于所述操作命令中的识别信息在预设输入信息数据库查询所述操作命令对应的输入信息，其中，所述输入信息包括执行所述预设自动化流程的过程信息和搜索条件。

步骤S32，基于所述界面解析图数据库，搜索所述输入信息对应的界面元素信息，以执行预设自动化流程。

在本实施例中，基于所述界面解析图数据库，搜索所述输入信息对应的界面元素信息，以执行预设自动化流程，具体地，通过所述输入信息中的搜索条件在所述界面解析图数据库中搜索所述预设自动化流程所需的界面元素和界面元素之间的关联关系，进一步地，基于所需的界面元素和界面元素之间的关联关系，根据所述预设自动化流程的过程信息，执行预设自动化流程，例如，具体地，可在所述预设自动化流程所在的宿主机器上安装蓝牙接收器，进而将所述预设自动化流程的过程信息模拟为宿主机器对应的输入装置的操作信息，例如鼠标、键盘等，并将所述操作信息发送至所述蓝牙接收器，以通过所述蓝牙接收器控制所述宿主机器完成所述预设自动化流程。

本实施例通过接收界面图像，并对所述界面图像进行解析，获得解析结果，进而基于预设知识图谱模板和所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，以建立界面解析图数据库，进一步地，基于所述界面解析图数据库，执行预设自动化流程。也即，本实施例首先进行所述界面图像的接收，进而进行对所述界面图像的解析，获得解析结果，进而基于预设知识图谱模板和所述解析结果，进行对所述界面图像中的界面元素的关联关系梳理，以建立界面解析图数据库，进一步地，基于所述界面解析图数据库，进行预设自动化流程的执行。也即，本实施例通过解析界面图像，并基于其解析结果，梳理界面图像中的各界面元素之间的关系，进而建立界面解析图数据库，进而基于所述界面解析图数据库，执行预设自动化流程，所以，本实施例通过解析界面图像即可获取界面的状态，以执行所述预设自动化流程，无需在***上安装第三方软件和通过***接口获取界面的状态，可实现对不允许第三方软件安装的***或者接口封闭***等***的自动化流程，极大程度上提高了RPA的适用性，所以，解决了现有技术中RPA适用性差的技术问题。

进一步地，参照图2，基于本申请中第一实施例，在基于视觉的流程自动化方法的另一实施例中，所述解析结果包括图像分类结果、语义分割结果和目标检测结果，

在步骤S10中，所述对所述界面图像进行解析，获得解析结果的步骤包括：

步骤S11，将所述界面图像输入预设图像分类模型，以对所述界面图像进行识别，获得所述图像分类结果；

在本实施例中，需要说明的是，所述预设图像分类模型是基于深度学习已经训练好的神经网络模型。

将所述界面图像输入预设图像分类模型，以对所述界面图像进行识别，获得所述图像分类结果，具体地，将所述界面图像输入所述预设图像分类模型，以对所述界面图像进行预设次数的卷积和池化交替处理，得到所述预设图像分类模型对应的卷积和池化处理结果，进而对所述预设图像分类模型对应的卷积和池化处理结果进行全连接，获得所述界面图像对应的图像分类唯一向量，并提取所述图像分类唯一向量中的特征信息，进而获得所述图像分类结果，其中，所述卷积指的是对图像对应的图像矩阵和卷积核进行逐个元素相乘再求和，获得图像特征值的过程，所述卷积核指的是界面图像特征对应的权值矩阵，所述池化指的是对通过卷积而获得的图像特征值进行整合，从而获得新的特征值的过程，所述全连接可视为一种特殊卷积处理，所述特殊卷积处理的结果为获得图像对应的一个一维向量。

其中，所述将所述界面图像输入预设图像分类模型，以对所述界面图像进行识别，获得所述图像分类结果的步骤包括：

步骤S111，将所述界面图像输入所述预设图像分类模型，以对所述界面图像进行预设次数的卷积和池化交替处理，获得所述界面图像对应的多个图像分类特征图；

在本实施例中，所述界面图像输入所述预设图像分类模型，以对所述界面图像进行预设次数的卷积和池化交替处理，获得所述界面图像对应的多个图像分类特征图，具体地，将所述界面图像输入所述预设图像分类模型，以对所述界面图像进行卷积处理，获得所述预设图像分类模型对应的卷积处理结果，进而对所述预设图像分类模型对应的卷积处理结果进行池化处理，得到所述预设图像分类模型对应的池化处理结果，进一步地，重复上述卷积和池化处理过程，在进行了所述预设次数的卷积和处理处理后，获得所述界面图像对应的多个图像分类特征图，其中，所述多个图像分类特征图中包括所述界面图像的所有图像特征信息。

步骤S112，对所述多个图像分类特征图进行全连接，获得图像分类特征向量，并提取所述图像分类特征向量中的界面信息，以获得所述图像分类结果。

在本实施例中，对所述多个图像分类特征图进行全连接，获得图像分类特征向量，并提取所述图像分类特征向量中的界面信息，以获得所述图像分类结果，具体地，对所述多个图像分类特征图进行全连接，获得所述多个图像分类特征图对应的图像分类特征向量，其中，所述图像分类特征向量中包括所述界面图像的所有界面特征，其中，所述界面特征包括界面类型、界面属性等，进而提取所述图像分类特征向量中的界面信息，其中，所述界面信息包括所有界面特征，进而基于所述界面特征，对图像进行分类识别，获得所述图像分类结果。

步骤S12，将所述界面图像输入预设语义分割模型，对所述界面图像进行语义分割，获得所述语义分割结果；

在本实施例中，需要说明的是，所述预设语义分割模型包括卷积神经网络。

将所述界面图像输入预设语义分割模型，对所述界面图像进行语义分割，获得所述语义分割结果，具体地，将所述界面图像输入所述卷积神经网络，对所述界面图像进行编码，也即，对所述界面图像进行下采样，获得编码结果，其中，所述编码结果为所述卷积神经网络输出的图像矩阵，且所述图像矩阵中的像素值表示了对像素点的识别和分类结果，例如，假设所述图像矩阵中的像素值由0和1组成，则像素值为1表示对应像素点属于导航栏区域，像素值为0表示对应像素点属于背景区域，进一步地，对所述编码结果进行解码，也即，对所述编码结果进行上采样，获得所述语义分割结果。

其中，所述将所述界面图像输入预设语义分割模型，对所述界面图像进行语义分割，获得所述语义分割结果的步骤包括：

步骤S121，将所述界面图像输入所述预设语义分割模型，以对所述界面图像进行编码，获得编码结果；

在本实施例中，需要说明的是，所述编码包括卷积处理、池化处理等。

将所述界面图像输入所述预设语义分割模型，以对所述界面图像进行编码，获得编码结果，具体地，将所述界面图像输入所述卷积神经网络，以对所述界面图像进行预设次数的卷积和池化交替处理，提取所述界面图像中每一像素点的特征，也即，获得高级语义信息，进而基于所述高级语义信息，对所述界面图像中的像素点进行分类和识别，获得识别分类结果，具体地，例如，假设所述界面图像中包括导航栏区域和背景区域，在将所述界面图像输入所述卷积神经网络后，对提取出的像素点特征进行识别，并计算所述像素点分别属于导航栏区域和背景区域的概率P1和P2，且P1+P2＝1，若P1大于P2，则所述像素点属于导航栏区域，若P1小于P2，则所述像素点属于背景区域，进而将所述像素点分为两类，一类对应导航栏区域，一类对应背景区域，进一步地，基于所述识别分类结果，输出编码结果。

步骤S122，对所述编码结果进行解码，获得所述语义分割结果。

在本实施例中，需要说明的是，所述解码包括反卷积、反池化等，所述语义分割结果为语义分割图像，且所述语义分割图像与界面图像的分辨率应当一致。

对所述编码结果进行解码，获得所述语义分割结果，具体地，对所述编码结果对应的图像矩阵进行反卷积处理，也即，将所述编码结果对应的图像矩阵与所述卷积神经网络中转置后的权值矩阵相乘，获得所述语义分割图像对应的语义图像矩阵，进而将所述语义图像矩阵对应的语义分割图像进行输出，进一步地，根据对所述像素点的分类，用不同颜色对所述语义分割图像中的不同区域进行区分，获得所述语义分割结果。

步骤S13，将语义分割后的所述界面图像输入预设目标检测模型，对所述界面图像进行目标检测，获得所述目标检测结果。

在本实施例中，需要说明的是，所述预设目标检测模型是基于深度学习已经训练好的神经网络模型。

将语义分割后的所述界面图像输入预设目标检测模型，对所述界面图像进行目标检测，获得所述目标检测结果，具体地，将语义分割后的所述界面图像输入所述预设目标检测模型，以对所述界面图像进行预设次数的卷积和池化交替处理及全连接，获得区域目标特征向量，进而提取所述目标特征向量中的区域目标和属性信息，获得所述目标检测结果。

其中，所述将语义分割后的所述界面图像输入预设目标检测模型，对所述界面图像进行目标检测，获得所述目标检测结果的步骤包括：

步骤S131，将语义分割后的所述界面图像输入所述预设目标检测模型，以对所述界面图像中的候选区域进行框选，获得各所述候选区域对应的目标框；

在本实施例中，需要说明的是，所述候选区域指的是可能为界面区域中的区域元素的区域。

将语义分割后的所述界面图像输入所述预设目标检测模型，以对所述界面图像中的候选区域进行框选，获得各所述候选区域对应的目标框，具体地，将语义分割后的所述界面图像输入所述预设目标检测模型，以对所述界面图像中的候选区域进行框选，并根据所述候选区域的边界确定所述目标框的大小，且所述候选区域在所述目标框的内部，进而获得所述候选区域对应的一个或者多个目标框。

步骤S132，对各所述目标框进行预设次数的卷积和池化交替处理，获得各所述目标框对应的多个目标框特征图；

在本实施例中，所述目标框指的是所述目标框框选的图片区域。

对各所述目标框进行预设次数的卷积和池化交替处理，获得各所述目标框对应的多个目标框特征图，具体地，对各所述目标框进行卷积处理，获得目标框卷积处理结果，进而将所述目标框卷积处理结果进行池化处理，获得目标框池化处理结果，进一步地，重复上述卷积和池化处理，在进行了预设次数的卷积和池化交替处理后，获得各所述目标框对应的多个目标框特征图。

步骤S133，对所述多个目标框特征图进行全连接，获得各所述目标框对应的目标特征向量，并提取各所述目标特征向量中的目标信息，以获得所述目标检测结果。

在本实施例中，需要说明的是，所述目标特征向量中包括所述目标框的所有目标信息，所述所有目标信息包括所述目标框对应的候选区域是否为界面元素的判定结果、界面元素类型、界面元素的位置等所述区域目标和属性信息等,基于所述目标信息，可对所述目标框进行检测识别，获得目标检测结果。

本实施例通过将所述界面图像输入预设图像分类模型，以对所述界面图像进行识别，获得所述图像分类结果，进而将所述界面图像输入预设语义分割模型，对所述界面图像进行语义分割，获得所述语义分割结果，进一步地，将语义分割后的所述界面图像输入预设目标检测模型，对所述界面图像进行目标检测，获得所述目标检测结果。也即，本实施例首先将所述界面图像输入预设图像分类模型，以进行对所述界面图像的识别，获得所述图像分类结果，进而将所述界面图像输入预设语义分割模型，以进行对所述界面图像的语义分割，获得所述语义分割结果。进一步地，将语义分割后的所述界面图像输入预设目标检测模型，以进行对所述界面图像的目标检测，获得所述目标检测结果。也即，本实施例分别提供了获取所述图像分类结果、所述语义分割结果和所述目标检测结果的方法，也即，本实施例提供了一种对界面图像进行解析，获取解析结果的方法，且该方法无需在***上安装RPA软件，也无需通过***接口获取页面信息，实现了对封闭式***的界面解析，所以，为解决现有技术中RPA适用性差的技术问题奠定了基础。

参照图3，图3是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图3所示，该基于视觉的流程自动化设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该基于视觉的流程自动化设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图3中示出的基于视觉的流程自动化设备结构并不构成对基于视觉的流程自动化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块以及基于视觉的自动化流程程序。操作***是管理和控制基于视觉的流程自动化设备硬件和软件资源的程序，支持基于视觉的自动化流程程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与基于视觉的自动化流程***中其它硬件和软件之间通信。

在图3所示的基于视觉的流程自动化设备中，处理器1001用于执行存储器1005中存储的基于视觉的自动化流程程序，实现上述任一项所述的基于视觉的流程自动化方法的步骤。

本发明基于视觉的流程自动化设备具体实施方式与上述基于视觉的流程自动化方法各实施例基本相同，在此不再赘述。

本发明还提供一种基于视觉的流程自动化装置，所述基于视觉的流程自动化装置包括：

可选地，所述梳理模块包括：

可选地，所述梳理单元包括：

可选地，所述执行模块包括：

可选地，所述解析模块包括：

可选地，所述图像识别单元包括：

可选地，所述语义分割单元包括：

可选地，所述目标检测单元包括：

本发明基于视觉的流程自动化装置的具体实施方式与上述基于视觉的流程自动化方法各实施例基本相同，在此不再赘述。

本发明提供了一种可读存储介质，所述可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的基于视觉的流程自动化方法的步骤。

本发明介质具体实施方式与上述基于视觉的流程自动化方法各实施例基本相同，在此不再赘述。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利处理范围内。

Claims

1.一种基于视觉的流程自动化方法，其特征在于，所述基于视觉的流程自动化方法包括：

基于所述界面解析图数据库，执行预设自动化流程。

2.如权利要求1所述基于视觉的流程自动化方法，其特征在于，所述基于预设知识图谱模板和所述解析结果，对所述界面图像中的界面元素进行关联关系梳理，以建立界面解析图数据库的步骤包括：

3.如权利要求2所述基于视觉的流程自动化方法，其特征在于，所述界面元素包括界面、界面区域和区域元素，所述解析结果包括图像分类结果、语义分割结果和目标检测结果，

4.如权利要求1所述基于视觉的流程自动化方法，其特征在于，所述基于所述界面解析图数据库，执行预设自动化流程的步骤包括：

5.如权利要求1所述基于视觉的流程自动化方法，其特征在于，所述解析结果包括图像分类结果、语义分割结果和目标检测结果，

所述对所述界面图像进行解析，获得解析结果的步骤包括：

6.如权利要求5所述基于视觉的流程自动化方法，其特征在于，所述将所述界面图像输入预设图像分类模型，以对所述界面图像进行识别，获得所述图像分类结果的步骤包括：

7.如权利要求5所述基于视觉的流程自动化方法，其特征在于，所述将所述界面图像输入预设语义分割模型，对所述界面图像进行语义分割，获得所述语义分割结果的步骤包括：

对所述编码结果进行解码，获得所述语义分割结果。

8.如权利要求5所述基于视觉的流程自动化方法，其特征在于，所述将语义分割后的所述界面图像输入预设目标检测模型，对所述界面图像进行目标检测，获得所述目标检测结果的步骤包括：

9.一种基于视觉的流程自动化设备，其特征在于，所述基于视觉的流程自动化设备包括：存储器、处理器以及存储在存储器上的用于实现所述基于视觉的流程自动化方法的程序，

所述存储器用于存储实现基于视觉的流程自动化方法的程序；

所述处理器用于执行实现所述基于视觉的流程自动化方法的程序，以实现如权利要求1至8中任一项所述基于视觉的流程自动化方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有实现基于视觉的流程自动化方法的程序，所述实现基于视觉的流程自动化方法的程序被处理器执行以实现如权利要求1至8中任一项所述基于视觉的流程自动化方法的步骤。