CN112182058A

CN112182058A - 结合rpa和ai的内容获取方法、装置、计算机设备及介质

Info

Publication number: CN112182058A
Application number: CN202010824571.2A
Authority: CN
Inventors: 胡一川; 汪冠春; 褚瑞; 李玮; 白龙飞
Original assignee: Beijing Benying Network Technology Co Ltd; Beijing Laiye Network Technology Co Ltd
Current assignee: Beijing Benying Network Technology Co Ltd; Beijing Laiye Network Technology Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2021-01-05
Anticipated expiration: 2040-08-17
Also published as: CN112182058B

Abstract

本申请提出一种结合RPA和AI的内容获取方法、装置、计算机设备及介质，该方法包括采用机器人流程自动化RPA方法，获取待识别文本；采用RPA方法结合抽取模型，匹配待识别文本之中的第一候选内容和第二候选内容，抽取模型包括：精确匹配项和模糊匹配项，第一候选内容为基于精确匹配项匹配得到的，第二候选内容为基于模糊匹配项匹配得到的；基于人工智能AI之中的浅层神经网络模型，从第一候选内容和第二候选内容之中确定出目标内容。通过本申请能够节约文本内容获取耗时，提升文本内容获取的便捷性，从而有效提升文本内容获取的应用性能，提升文本内容获取的工业化应用效果。

Description

结合RPA和AI的内容获取方法、装置、计算机设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种结合RPA(Robotic ProcessAutomation，机器人流程自动化)和AI(Artificial Intelligence，人工智能)的内容获取方法、装置、计算机设备及介质。

背景技术

机器人流程自动化(Robotic Process Automation，简称：RPA)是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。人工智能(ArtificialIntelligence，简称：AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门技术科学。

在计算机技术领域中的自然语言处理应用场景，通常需要进行文本的模糊匹配，采用类似编辑距离或词共现率等作为衡量是否相似的依据，但是这些方法都是基于字面上的表达，为了识别文本包含的语义，通常使用复杂的深度学习模型，获取文本内容(例如文本中的字、词、语句等)，从而分析语义。

这种方式下，文本内容的获取较为耗费时间，不具有较好的应用性能，可能会影响文本内容获取的工业化应用效果。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的目的在于提出一种结合RPA和AI的内容获取方法、装置、计算机设备及介质，能够节约文本内容获取耗时，提升文本内容获取的便捷性，从而有效提升文本内容获取的应用性能，提升文本内容获取的工业化应用效果。

为达到上述目的，本申请第一方面实施例提出的结合RPA和AI的内容获取方法，包括：采用机器人流程自动化RPA方法，获取待识别文本；采用所述RPA方法结合抽取模型，匹配所述待识别文本之中的第一候选内容和第二候选内容，所述抽取模型包括：精确匹配项和模糊匹配项，所述第一候选内容为基于所述精确匹配项匹配得到的，所述第二候选内容为基于所述模糊匹配项匹配得到的；基于人工智能AI之中的浅层神经网络模型，从所述第一候选内容和第二候选内容之中确定出目标内容。

本申请第一方面实施例提出的结合RPA和AI的内容获取方法，实现基于全流程自动化的内容获取过程，并且将全流程自动化的内容获取过程划分为精确匹配过程和模糊匹配过程，以及结合了浅层神经网络模型去确定文本内容，由此，能够节约文本内容获取耗时，提升文本内容获取的便捷性，从而有效提升文本内容获取的应用性能，提升文本内容获取的工业化应用效果。

为达到上述目的，本申请第二方面实施例提出的结合RPA和AI的内容获取装置，包括：获取模块，用于采用机器人流程自动化RPA方法，获取待识别文本；匹配模块，用于采用所述RPA方法结合抽取模型，匹配所述待识别文本之中的第一候选内容和第二候选内容，所述抽取模型包括：精确匹配项和模糊匹配项，所述第一候选内容为基于所述精确匹配项匹配得到的，所述第二候选内容为基于所述模糊匹配项匹配得到的；确定模块，用于基于人工智能AI之中的浅层神经网络模型，从所述第一候选内容和第二候选内容之中确定出目标内容。

本申请第二方面实施例提出的结合RPA和AI的内容获取装置，实现基于全流程自动化的内容获取过程，并且将全流程自动化的内容获取过程划分为精确匹配过程和模糊匹配过程，以及结合了浅层神经网络模型去确定文本内容，由此，能够节约文本内容获取耗时，提升文本内容获取的便捷性，从而有效提升文本内容获取的应用性能，提升文本内容获取的工业化应用效果。

为达到上述目的，本申请第三方面实施例提出的计算机设备，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行本申请第一方面实施例提出的结合RPA和AI的内容获取方法。

本申请第三方面实施例提出的计算机设备，实现基于全流程自动化的内容获取过程，并且将全流程自动化的内容获取过程划分为精确匹配过程和模糊匹配过程，以及结合了浅层神经网络模型去确定文本内容，由此，能够节约文本内容获取耗时，提升文本内容获取的便捷性，从而有效提升文本内容获取的应用性能，提升文本内容获取的工业化应用效果。

为达到上述目的，本申请第四方面实施例提出的计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现本申请第一方面实施例提出的结合RPA和AI的内容获取方法。

本申请第四方面实施例提出的计算机可读存储介质，实现基于全流程自动化的内容获取过程，并且将全流程自动化的内容获取过程划分为精确匹配过程和模糊匹配过程，以及结合了浅层神经网络模型去确定文本内容，由此，能够节约文本内容获取耗时，提升文本内容获取的便捷性，从而有效提升文本内容获取的应用性能，提升文本内容获取的工业化应用效果。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一实施例提出的结合RPA和AI的内容获取方法的流程示意图；

图2为本申请实施例中抽取模型示意图；

图3是本申请另一实施例提出的结合RPA和AI的内容获取方法的流程示意图；

图4为本申请实施例的图模型示意图；

图5是本申请另一实施例提出的结合RPA和AI的内容获取方法的流程示意图；

图6是本申请一实施例提出的结合RPA和AI的内容获取装置的结构示意图；

图7是本申请另一实施例提出的结合RPA和AI的内容获取装置的结构示意图；

图8为本申请一实施例提供的计算机设备的硬件结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一实施例提出的结合RPA和AI的内容获取方法的流程示意图。

本实施例以结合RPA和AI的内容获取方法被配置为结合RPA和AI的内容获取装置中来举例说明。

本实施例中结合RPA和AI的内容获取方法可以被配置在结合RPA和AI的内容获取装置中，结合RPA和AI的内容获取装置可以设置在服务器中，或者也可以设置在计算机设备中，本申请实施例对此不作限制。

本实施例以结合RPA和AI的内容获取方法被配置在计算机设备中为例。

需要说明的是，本申请实施例的执行主体，在硬件上可以例如为服务器或者计算机设备中的中央处理器(Central Processing Unit，CPU)，在软件上可以例如为服务器或者计算机设备中的相关的后台服务，对此不作限制。

在一种应用场景中，当服务器作为本实施提供的结合RPA和AI的内容获取方法的执行主体。用户可以通过终端提供的文本上传接口上传待识别文本，或者，用户还可以通过终端提供的语音录入接口录入音频数据，终端将待识别文本或者音频数据发送至后台的服务器，由服务器接收用户通过文本上传接口上传的待识别文本；和/或，接收用户通过语音录入接口录入的音频数据，解析音频数据中的语义内容，并对语义内容进行文本转换，得到待识别文本，而后由服务器执行结合RPA和AI的内容获取方法，将获取到的内容反馈至终端。

在另一应用场景中，当终端作为本实施例提供的结合RPA和AI的内容获取方法的执行主体。用户可以通过终端提供的文本上传接口上传待识别文本，或者，用户还可以通过终端提供的语音录入接口录入音频数据，直接由终端执行结合RPA和AI的内容获取方法，而后向用户提供获取到的内容。

需要说明的是，本申请中的“获取”，是指结合机器人流程自动化RPA和人工智能AI的内容获取过程，也即是说，该内容获取过程是一个全流程自动化的内容获取过程，并且该内容获取过程还与人工智能AI相结合，实现对待识别文本的全流程自动化的解析处理，以识别待识别文本中的内容。

举例而言，本申请实现基于全流程自动化的内容获取过程，并且将全流程自动化的内容获取过程划分为精确匹配过程和模糊匹配过程，以及结合了浅层神经网络模型去确定文本内容，由此，能够节约文本内容获取耗时，提升文本内容获取的便捷性，从而有效提升文本内容获取的应用性能，提升文本内容获取的工业化应用效果。

参见图1，该方法包括：

S101：采用机器人流程自动化RPA方法，获取待识别文本。

其中，待获取其中的内容(内容例如文本中的字、词、语句等)的文本，可以被称为待识别文本，文本可以例如为合同文本，或者企业之间的协议文本等，文本，是指书面语言的表现形式，通常是具有完整、***含义(Message)的一个句子或多个句子的组合。一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)，而本申请实施例中的文本，为可以被计算机设备识别的电子化的文本，该文本的具体格式例如为，PDF格式、Word格式等任意可能的文本格式，对此不做限制。

为了实现机器人流程自动化RPA，本申请实施例在获取待识别文本，可以具体是接收用户通过文本上传接口上传的待识别文本；和/或，接收用户通过语音录入接口录入的音频数据，解析音频数据中的语义内容，并对语义内容进行文本转换，得到待识别文本。

也即是说，可以在计算机设备上配置文本上传接口，检测用户是否调用该文本上传接口上传电子化的文本，若检测到，则将用户上传的文本作为待识别文本，另外为了使机器人流程自动化RPA的执行更为的灵活，本申请实施例还支持在计算机设备上配置语音录入接口，从而基于该语音录入接口接收用户录入的音频数据，而后，采用内置的音频解析算法(音频解析算法的过程可以参见相关技术中，在此不再赘述)解析音频数据中的语义内容，并对语义内容进行文本转换，得到待识别文本。

S102：采用RPA方法结合抽取模型，匹配待识别文本之中的第一候选内容和第二候选内容，抽取模型包括：精确匹配项和模糊匹配项，第一候选内容为基于精确匹配项匹配得到的，第二候选内容为基于模糊匹配项匹配得到的。

参见图2，图2为本申请实施例中抽取模型示意图，该抽取模型用于从待识别文本中匹配出文本内容，该抽取模型中包括多个匹配项，本申请实施例中，是将抽取模型之中的多个匹配项划分为精确匹配项和模糊匹配项，精确匹配项例如图2中的“[@V_身份]”、“[减持or增持]”、“[@R_数字]”，而其余的匹配项，可以被划分为模糊匹配项。

其中的“精确”“模糊”用于表征匹配项的属性和特点，而并不构成对本申请实施例的限制，当采用精确匹配项去匹配文本中的内容时，是从文本中抽取出与精确匹配项所描述的内容完全匹配的内容，该抽取出与精确匹配项所描述的内容完全匹配的内容，可以被称为第一候选内容，当采用模糊匹配项去匹配文本中的内容时，是从文本中抽取出与模糊匹配项所描述的内容部分匹配的内容，该抽取出与模糊匹配项所描述的内容部分匹配的内容，可以被称为第二候选内容。

举例而言，假设待识别文本为：持有本公司股份300,000股(占本公司总股本0.0284％)的高级管理人员张某某拟自本公告起十五个交易日后的六个月内，以集中竞价方式减持本公司股份不超过75,000股(占公司总股本的0.0071％)，已跟监事进行确认；假设精确匹配项例如图2中的“[@V_身份]”、“[减持or增持]”、“[@R_数字]”，则根据精确匹配项从待识别文本中识别出的第一候选内容可以如下：

精确匹配项[@V_身份]对应匹配出2个第一候选内容：高级管理人员(18,2)，监事(59,1)；

精确匹配项[减持or增持]对应匹配出1个第一候选内容：减持(37,1)；

精确匹配项[@R_数字]对应匹配出4个第一候选内容：300,000(4,3)，0.0284(14,1)，75,000(43,3)，0.0071(53,1)，其中的括号()中的数字表示相应的第一候选内容在待识别文本中基于分词的起始位置和长度，该括号()中的数字可以用于作为后续图模型中结点的标签，对此不做限制。

针对模糊匹配项的匹配过程与上述相同，在此不再赘述。

可选地，一些实施例中，为了有效提升精确匹配过程的匹配效率，节约文本内容获取耗时，降低精确匹配处理的时间复杂度，本申请实施例中，当抽取模型之中的精确匹配项的数量为多个时，配置多个精确匹配项的存储结构为双数组树，根据多个精确匹配项之间的表达规则，构建双数组树，而后，可以采用RPA方法结合双数组树，匹配待识别文本之中的第一候选内容。

其中，双数组树是一种数据存储结构，基于双数组树存储数据时，在数据检索过程中可以获取高效的检索效果，它实际上是一种确定有限自动机，在树的结构中，每一个结点对应一个确定有限自动机的状态，每一个从父结点指向子结点(有向)标记的边对应一个确定有限自动机的转换。遍历从根结点开始，然后从头到尾，由关键词的每个字符来决定下一个状态，标记有相同字符的边被选中做移动。

其中的表达规则可以用于描述各个精确匹配项之间的前后顺序的表达关系，例如，若精确匹配项包括A、B、C、D、E，则基于表达规则，通常A描述的内容在B和C描述的内容之前，而B和C描述的内容不受限制于前后顺序，D和E描述的内容在B描述的内容之后，则可以确定A为双数组树的父结点、B和C为双数组树中A结点的下一层子结点，D和E为B的子结点，则在实际匹配的应用中，基于该双数组树的结构去遍历匹配待识别文本之中的第一候选内容，以此得益于双数组树的性能，该精确匹配过程的时间复杂度为O(n)。

本申请实施例中，采用RPA方法结合抽取模型，匹配待识别文本之中的第一候选内容和第二候选内容的过程，可以是先采用RPA方法结合抽取模型，匹配待识别文本之中的第一候选内容，而后，采用RPA方法结合抽取模型，匹配待识别文本之中的第二候选内容，对此不做限制。

本申请实施例中，为了有效提升内容获取方法整体的获取效率，以及获取的准确性，还判断是否能够匹配得到与各个精确匹配项对应的第一候选内容，如果是，则采用RPA方法结合模糊匹配项，匹配待识别文本之中的第二候选内容。

也即是说，如果依据抽取模型之中包括多个精确匹配项，则确定是否能够从待识别文本之中识别出与各个精确匹配项对应的第一候选内容，如果有一个或者一个以上的精确匹配项，不能够从待识别文本中匹配出相应的第一候选内容，则可以判定此次未能从待识别文本之中确定出目标内容，如果能够从待识别文本之中识别出与每个精确匹配项对应的第一候选内容，则继续触发采用RPA方法结合模糊匹配项，匹配待识别文本之中的第二候选内容。

S103：基于人工智能AI之中的浅层神经网络模型，从第一候选内容和第二候选内容之中确定出目标内容。

可以理解的是，由于待识别文本内容表述的多样化，通常基于抽取模型抽取到的内容，为候选的内容，也即是说，根据抽取模型中的精确匹配项和模糊匹配项，可能会从待识别文本之中匹配出多个的第一候选内容，和多个的第二候选内容，由此，本申请还支持从第一候选内容和第二候选内容之中确定出目标内容，该目标内容即为从待识别文本之中识别出的较为准确的文本内容。

本申请实施例具体是基于人工智能AI之中的浅层神经网络模型，从第一候选内容和第二候选内容之中确定出目标内容。

其中，浅层神经网络模型即为单隐层神经网络模型，本申请实施例中，正是通过浅层神经网络模型去分析第一候选内容和第二候选内容的向量表示，以确定待识别文本中的目标内容，从而能够有效地降低复杂深度网络模型带来的时间复杂度。

本实施例中，实现基于全流程自动化的内容获取过程，并且将全流程自动化的内容获取过程划分为精确匹配过程和模糊匹配过程，以及结合了浅层神经网络模型去确定文本内容，由此，能够节约文本内容获取耗时，提升文本内容获取的便捷性，从而有效提升文本内容获取的应用性能，提升文本内容获取的工业化应用效果。

图3是本申请另一实施例提出的结合RPA和AI的内容获取方法的流程示意图。

参见图3，基于人工智能AI之中的浅层神经网络模型，从第一候选内容和第二候选内容之中确定出目标内容的步骤，还包括：

S301：分别将第一候选内容和第二候选内容作为结点，采用边连接至少部分结点，以构建图模型，各个结点，对应一个精确匹配项或者模糊匹配项。

其中的图模型可以例如为无向图，或者，也可以为其他任意可能的图模型，在此不作限制。

举例而言，参见图4，图4为本申请实施例的图模型示意图，图4中以图模型为无向图进行示例，一并参见上述示例，假设待识别文本为：持有本公司股份300,000股(占本公司总股本0.0284％)的高级管理人员张某某拟自本公告起十五个交易日后的六个月内，以集中竞价方式减持本公司股份不超过75,000股(占公司总股本的0.0071％)，已跟监事进行确认；假设精确匹配项例如图2中的“[@V_身份]”、“[减持or增持]”、“[@R_数字]”，则根据精确匹配项从待识别文本中识别出的第一候选内容可以如下：

精确匹配项[@R_数字]对应匹配出4个第一候选内容：300,000(4,3)，0.0284(14,1)，75,000(43,3)，0.0071(53,1)，其中的括号()中的数字表示相应的第一候选内容在待识别文本中基于分词的起始位置和长度，该括号()中的数字可以用于作为后续图模型中结点的标签。

则图4中包括多个的结点40、各个结点40用于表示一个候选内容，本申请实施例中图4示出了基于第一候选内容建立图模型的示意图，其中每个结点对应一个第一候选内容，采用该第一候选内容在待识别文本中基于分词的起始位置和长度作为结点的标签，各个结点的排布方式，与精确匹配项在抽取模型中的表达规则相对应，也即是说，图4中的第一标记41中的多个第一候选内容，为基于精确匹配项[@V_身份]匹配得到的候选内容，第二标记42中的多个第一候选内容，为基于精确匹配项[减持or增持]匹配得到的候选内容，而第三标记43中的多个第一候选内容，为基于精确匹配项[@R_数字]匹配得到的候选内容，而在抽取模型的表达规则为：精确匹配项[@V_身份]、精确匹配项[减持or增持]、精确匹配项[@R_数字]，则第一标记41中的候选内容，可以排布在第二标记42的左部分，而第三标记43中的候选内容，可以排布在第二标记42的右部分，该过程可以被视为将第一候选内容映射到抽取模型的相应的精确匹配项所在的位置并作为锚点的过程。

而后，在上述建立图4所示的结点之后，可以在对应不同精确匹配项的第一候选内容之间建立边(多条)，并触发执行后续步骤。

S302：基于浅层神经网络模型，确定边对应的评分值。

其中，该评分值可以被作为边对应的权重值，评分值越高，则表明连接该边的结点对应的候选内容更为准确，该评分值可以被用于后续确定出图模型中的最优路径。

当然，神经网络模型仅仅是实现确定边对应的评分值的一种可能的实现方式，在实际执行过程中，可以通过其他任意可能的方式来实现确定边对应的评分值，比如，还可以采用传统的编程技术(比如模拟法和工程学方法)实现，又比如，还可以遗传学算法和人工神经网络的方法来实现。

可选地，一些实施例中，参见图5，基于浅层神经网络模型，确定边对应的评分值的步骤，还包括：

S501：根据第一候选内容的位置信息，对待识别文本进行划分，得到文本片段。

其中的位置信息，可以例如为上述图4示例结点40的标签中的起始位置。

也即是说，可以确定相邻两个精确匹配项对应的第一候选内容，得到两个第一候选内容，而后，根据该两个第一候选内容的位置信息，从待识别文本之中抽取出两个位置信息之间的文本片段。

S502：确定与文本片段对应的目标模糊匹配项，目标模糊匹配项属于多个模糊匹配项。

而后，可以确定两个位置信息之间的文本片段对应的模糊匹配项并作为目标模糊匹配项，其中，可以基于目标模糊匹配项去匹配得到文本片段的至少部分内容。

或者，由于两个位置信息具有对应的精确匹配项，也可以将该两个精确匹配项之间的一个模糊匹配项作为目标模糊匹配项。

举例而言，一并参见上述图2，两个精确匹配项为“[减持or增持]”“[@R_数字]”，而“[减持or增持]”“[@R_数字]”还有一个模糊匹配项“<本公司股份不超过>”，则可以将模糊匹配项“<本公司股份不超过>”作为目标模糊匹配项，基于该目标模糊匹配项“<本公司股份不超过>”，可以匹配出基于“[减持or增持]”匹配出的第一候选内容和基于“[@R_数字]”匹配出的第一候选内容之间的至少部分内容，该至少部分内容是属于上述划分得到的文本片段的。

举例而言，当确定目标模糊匹配项“<本公司股份不超过>”，则目标模糊匹配项“<本公司股份不超过>”所描述的文本内容即为：本公司股份不超过。

S503：将文本片段和目标模糊匹配项描述的文本内容，输入浅层神经网络模型，并将浅层神经网络模型的输出值作为边对应的评分值。

上述在获取到文本片段和目标模糊匹配项描述的文本内容，可以将文本片段和目标模糊匹配项描述的文本内容，输入浅层神经网络模型，并将浅层神经网络模型的输出值作为边对应的评分值，也即是说，本申请实施例实现了在模糊匹配层面的剪枝处理，通过在精确匹配的基础上，根据精确匹配得到的第一候选内容对待识别文本进行剪枝，基于剪枝得到的文本片段去进行模糊匹配处理，从而进一步地提升了文本内容获取的效率，提升了抽取模型的应用性能，从而有效辅助文本内容获取的工业化应用。

可选地，一些实施例中，可以是获取文本片段的第一词信息和第一字信息；获取文本内容的第二词信息和第二字信息；将第一词信息、第一字信息、第二词信息，以及第二字信息共同输入浅层神经网络模型，并采用浅层神经网络模型分析文本片段和文本内容之间的相似度值；以及将浅层神经网络模型输出的相似度值作为评分值。

其中词信息例如为词名、词义，词的上下文信息等，字信息例如为字名、字义，字的上下文信息等，其中上下文信息用于描述词或者字在文本片段中的上下文包含的语义内容，与文本片段对应的词信息，可以被称为第一词信息，与文本片段对应的字信息，可以被称为第一字信息，而与文本内容对应的词信息，可以被称为第二词信息，与文本内容对应的字信息，可以被称为第二字信息。

本申请实施例的浅层神经网络模型，可以已经学习到多种样本词信息、多种样本字信息，以及与两两样本词信息以及与两两样本字信息对应的样本相似度值之间的对应关系，由此，通过将第一词信息、第一字信息、第二词信息，以及第二字信息共同输入浅层神经网络模型，可以直接获取浅层神经网络模型输出的相似度值并作为评分值。

本申请实施例中，将第一词信息、第一字信息、第二词信息，以及第二字信息共同输入浅层神经网络模型，还可以基于浅层神经网络模型获取文本片段的向量表示，并获取文本内容的向量表示，从而基于二者的向量表示去运算得到文本片段和文本内容的相似度，对此不做限制。

而为了尽可能避免文本片段过长对识别准确性的影响，本申请实施例中，还可以确定文本片段的长度和文本内容的长度之间的比例值，根据该比例值相应地去调整浅层神经网络模型输出的评分值，例如，当比例值过大时，则相应地减小该评分值，对此不做限制。

其中，当相似度值，能够用于描述文本片段和文本内容之间的相似程度，当相似度值较高时，则表明文本片段和文本内容之间具有较高的相似性，而当相似度值较低时，则表明文本片段和文本内容之间的相似性不高，由此，采用相似度值去标注各结点之间的边的权重，当权重最大时，则表明该边所连接结点对应的候选内容为相适配的目标内容，由此，通过结合词信息和字信息去比对文本片段和文本内容之间的相似度，能够将基于词匹配的优势和基于字匹配的优势相融合，实现既考虑了词义和上下文信息，也能够有效避免分词过程对识别准确性的影响，从而从整体上提升识别准确性。

S303：根据评分值，从图模型之中确定出目标路径，并将目标路径上的各边所连接结点对应的第一候选内容和第二候选内容作为目标内容。

举例而言，一并参见上述示例和图4，搜寻目标路径的过程，以两个精确匹配项为“[减持or增持]”“[@R_数字]”进行示例，抽取模型可以通过这两个结点对应第一候选内容的位置信息对待识别文本进行划分，得到多个文本片段，然后，在多个文本片段中确定出与两个结点中间剩余模板结点(目标模糊匹配结点)“<本公司股份不超过>”所描述的文本内容(本公司股份不超过)相似度最高的文本片段，过程如下：

针对结点(37,1)和(4,3)划分的文本片段不成立，舍弃该边，边对应的权重为0；针对结点(37,1)和(14,1)划分的文本片段不成立，舍弃该边，边对应的权重为0；针对结点(37,1)和(43,3)划分的文本片段为“本公司股份不超过”，和文本内容(本公司股份不超过)高度相似，将相似度记录下来作为该边的权重；针对结点(37,1)和(43,3)划分的文本片段为“本公司股份不超过75,000股(占公司总股本的”，和文本内容(本公司股份不超过)的相似度较低，将相似度记录下来作为该边的权重，以此类推，获取到无向图上所有边的权重后，获取一条权重最高的目标路径，并将目标路径上的各边所连接结点对应的第一候选内容和第二候选内容作为目标内容。

本实施例中，实现了在模糊匹配层面的剪枝处理，通过在精确匹配的基础上，根据精确匹配得到的第一候选内容对待识别文本进行剪枝，基于剪枝得到的文本片段去进行模糊匹配处理，从而进一步地提升了文本内容获取的效率，提升了抽取模型的应用性能，从而有效辅助文本内容获取的工业化应用。通过结合词信息和字信息去比对文本片段和文本内容之间的相似度，能够将基于词匹配的优势和基于字匹配的优势相融合，实现既考虑了词义和上下文信息，也能够有效避免分词过程对识别准确性的影响，从而从整体上提升识别准确性。

图6是本申请一实施例提出的结合RPA和AI的内容获取装置的结构示意图。

参见图6，该装置600包括：

获取模块601，用于采用机器人流程自动化RPA方法，获取待识别文本；

匹配模块602，用于采用RPA方法结合抽取模型，匹配待识别文本之中的第一候选内容和第二候选内容，抽取模型包括：精确匹配项和模糊匹配项，第一候选内容为基于精确匹配项匹配得到的，第二候选内容为基于模糊匹配项匹配得到的；

确定模块603，用于基于人工智能AI之中的浅层神经网络模型，从第一候选内容和第二候选内容之中确定出目标内容。

可选地，一些实施例中，获取模块601，具体用于：

接收用户通过文本上传接口上传的待识别文本；和/或，

接收用户通过语音录入接口录入的音频数据，解析音频数据中的语义内容，并对语义内容进行文本转换，得到待识别文本。

可选地，一些实施例中，抽取模型之中的精确匹配项的数量为多个，多个精确匹配项的存储结构为双数组树，根据多个精确匹配项之间的表达规则，构建双数组树，其中，匹配模块602，具体用于：

采用RPA方法结合双数组树，匹配待识别文本之中的第一候选内容。

可选地，一些实施例中，匹配模块602，进一步用于：

判断是否能够匹配得到与各个精确匹配项对应的第一候选内容；

如果是，则采用RPA方法结合模糊匹配项，匹配待识别文本之中的第二候选内容。

可选地，一些实施例中，参见图7，确定模块603，包括：

构建单元6031，用于分别将第一候选内容和第二候选内容作为结点，采用边连接至少部分结点，以构建图模型，各个结点，对应一个精确匹配项或者模糊匹配项；

确定单元6032，用于基于浅层神经网络模型，确定边对应的评分值；

获取单元6033，用于根据评分值，从图模型之中确定出目标路径，并将目标路径上的各边所连接结点对应的第一候选内容和第二候选内容作为目标内容。

可选地，一些实施例中，确定单元6032，具体用于：

根据第一候选内容的位置信息，对待识别文本进行划分，得到文本片段；

确定与文本片段对应的目标模糊匹配项，目标模糊匹配项属于多个模糊匹配项；

将文本片段和目标模糊匹配项描述的文本内容，输入浅层神经网络模型，并将浅层神经网络模型的输出值作为边对应的评分值。

可选地，一些实施例中，确定单元6032，进一步用于：

获取文本片段的第一词信息和第一字信息；

获取文本内容的第二词信息和第二字信息；

将第一词信息、第一字信息、第二词信息，以及第二字信息共同输入浅层神经网络模型，并采用浅层神经网络模型分析文本片段和文本内容之间的相似度值；以及

将浅层神经网络模型输出的相似度值作为评分值。

可选地，一些实施例中，参见图7，确定模块603，还包括：

调整单元6034，用于获取文本片段的长度，并获取文本内容的长度，确定文本片段的长度和文本内容的长度之间的比例值，以及根据比例值调整评分值。

本申请实施例提供的结合RPA和AI的内容获取装置，可用于执行上述的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

图8为本申请一实施例提供的计算机设备的硬件结构示意图。如图8所示，本实施例提供的计算机设备80包括：至少一个处理器801和存储器802。该计算机设备80还包括通信部件803。其中，处理器801、存储器802以及通信部件803通过总线804连接。

在具体实现过程中，至少一个处理器801执行存储器802存储的计算机执行指令，使得至少一个处理器801执行如上的结合RPA和AI的内容获取方法。

处理器801的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图8所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机执行指令，当处理器执行该计算机执行指令时，实现如上的结合RPA和AI的内容获取方法。

上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种结合RPA和AI的内容获取方法，其特征在于，所述方法包括：

采用机器人流程自动化RPA方法，获取待识别文本；

采用所述RPA方法结合抽取模型，匹配所述待识别文本之中的第一候选内容和第二候选内容，所述抽取模型包括：精确匹配项和模糊匹配项，所述第一候选内容为基于所述精确匹配项匹配得到的，所述第二候选内容为基于所述模糊匹配项匹配得到的；

基于人工智能AI之中的浅层神经网络模型，从所述第一候选内容和第二候选内容之中确定出目标内容。

2.如权利要求1所述的方法，其特征在于，所述采用机器人流程自动化RPA方法，获取待识别文本，包括：

接收用户通过文本上传接口上传的待识别文本；和/或，

接收用户通过语音录入接口录入的音频数据，解析所述音频数据中的语义内容，并对所述语义内容进行文本转换，得到所述待识别文本。

3.如权利要求1所述的方法，其特征在于，所述抽取模型之中的精确匹配项的数量为多个，多个所述精确匹配项的存储结构为双数组树，根据多个所述精确匹配项之间的表达规则，构建所述双数组树，其中，采用所述RPA方法结合抽取模型，匹配所述待识别文本之中的第一候选内容，包括：

采用所述RPA方法结合所述双数组树，匹配所述待识别文本之中的第一候选内容。

4.如权利要求1或3所述的方法，其特征在于，所述采用所述RPA方法结合抽取模型，匹配所述待识别文本之中的第一候选内容和第二候选内容，包括：

判断是否能够匹配得到与各个所述精确匹配项对应的第一候选内容；

如果是，则采用所述RPA方法结合所述模糊匹配项，匹配所述待识别文本之中的第二候选内容。

5.如权利要求1所述的方法，其特征在于，所述基于人工智能AI之中的浅层神经网络模型，从所述第一候选内容和第二候选内容之中确定出目标内容，包括：

分别将所述第一候选内容和第二候选内容作为结点，采用边连接至少部分结点，以构建图模型，各个所述结点，对应一个所述精确匹配项或者所述模糊匹配项；

基于所述浅层神经网络模型，确定所述边对应的评分值；

根据所述评分值，从所述图模型之中确定出目标路径，并将所述目标路径上的各边所连接结点对应的所述第一候选内容和所述第二候选内容作为所述目标内容。

6.如权利要求5所述的方法，其特征在于，所述基于所述浅层神经网络模型，确定所述边对应的评分值，包括：

根据所述第一候选内容的位置信息，对所述待识别文本进行划分，得到文本片段；

确定与所述文本片段对应的目标模糊匹配项，所述目标模糊匹配项属于多个所述模糊匹配项；

将所述文本片段和所述目标模糊匹配项描述的文本内容，输入所述浅层神经网络模型，并将所述浅层神经网络模型的输出值作为所述边对应的评分值。

7.如权利要求6所述的方法，其特征在于，所述将所述文本片段和所述目标模糊匹配项描述的文本内容，输入所述浅层神经网络模型，并将所述浅层神经网络模型的输出值作为所述边对应的评分值，包括：

获取所述文本片段的第一词信息和第一字信息；

获取所述文本内容的第二词信息和第二字信息；

将所述第一词信息、第一字信息、第二词信息，以及第二字信息共同输入所述浅层神经网络模型，并采用所述浅层神经网络模型分析所述文本片段和所述文本内容之间的相似度值；以及

将所述浅层神经网络模型输出的相似度值作为所述评分值。

8.如权利要求7所述的方法，其特征在于，还包括：

获取所述文本片段的长度，并获取所述文本内容的长度；

确定所述文本片段的长度和所述文本内容的长度之间的比例值；

根据所述比例值调整所述评分值。

9.一种结合RPA和AI的内容获取装置，其特征在于，所述装置包括：

获取模块，用于采用机器人流程自动化RPA方法，获取待识别文本；

匹配模块，用于采用所述RPA方法结合抽取模型，匹配所述待识别文本之中的第一候选内容和第二候选内容，所述抽取模型包括：精确匹配项和模糊匹配项，所述第一候选内容为基于所述精确匹配项匹配得到的，所述第二候选内容为基于所述模糊匹配项匹配得到的；

确定模块，用于基于人工智能AI之中的浅层神经网络模型，从所述第一候选内容和第二候选内容之中确定出目标内容。

10.如权利要求9所述的装置，其特征在于，所述获取模块，具体用于：

接收用户通过文本上传接口上传的待识别文本；和/或，

11.如权利要求9所述的装置，其特征在于，所述抽取模型之中的精确匹配项的数量为多个，多个所述精确匹配项的存储结构为双数组树，根据多个所述精确匹配项之间的表达规则，构建所述双数组树，其中，所述匹配模块，具体用于：

12.如权利要求9或11所述的装置，其特征在于，所述匹配模块，进一步用于：

13.如权利要求9所述的装置，其特征在于，所述确定模块，包括：

构建单元，用于分别将所述第一候选内容和第二候选内容作为结点，采用边连接至少部分结点，以构建图模型，各个所述结点，对应一个所述精确匹配项或者所述模糊匹配项；

确定单元，用于基于所述浅层神经网络模型，确定所述边对应的评分值；

获取单元，用于根据所述评分值，从所述图模型之中确定出目标路径，并将所述目标路径上的各边所连接结点对应的所述第一候选内容和所述第二候选内容作为所述目标内容。

14.如权利要求13所述的装置，其特征在于，所述确定单元，具体用于：

15.如权利要求14所述的装置，其特征在于，所述确定单元，进一步用于：

获取所述文本片段的第一词信息和第一字信息；

获取所述文本内容的第二词信息和第二字信息；

将所述浅层神经网络模型输出的相似度值作为所述评分值。

16.如权利要求15所述的装置，其特征在于，所述确定模块，还包括：

调整单元，用于获取所述文本片段的长度，并获取所述文本内容的长度，确定所述文本片段的长度和所述文本内容的长度之间的比例值，以及根据所述比例值调整所述评分值。

17.一种计算机设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-8任一项所述的结合RPA和AI的内容获取方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-8任一项所述的结合RPA和AI的内容获取方法。