CN114580348A - 结合rpa及ai的招标文档获取方法、装置、终端及存储介质 - Google Patents
结合rpa及ai的招标文档获取方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN114580348A CN114580348A CN202210174473.8A CN202210174473A CN114580348A CN 114580348 A CN114580348 A CN 114580348A CN 202210174473 A CN202210174473 A CN 202210174473A CN 114580348 A CN114580348 A CN 114580348A
- Authority
- CN
- China
- Prior art keywords
- qualification
- information
- document
- target
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及计算机技术领域,尤其涉及一种结合RPA及AI的招标文档获取方法、装置、终端及存储介质。其中,该文档获取方法包括:基于RPA***获取目标对象对应的资质信息集合,并对资质信息集合进行结构化处理,得到结构化资质库;基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合,并根据资质要求信息,确定招标文档集合对应的资质表达式集合;基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合。采用本申请,可以提高招标文档的获取效率和准确性,可以降低人力成本,可以降低招标文档获取时长,进而可以提高用户的使用体验。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种结合RPA及AI的招标文档获取方法、装置、终端及存储介质。
背景技术
机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门技术科学。
智能文档处理(Intelligent Document Processing,IDP)是基于光学字符识别(Optical Character Recognition,OCR)、计算机视觉(Computer Vision,CV)、自然语言处理(Natural Language Processing,NLP)、知识图谱(Knowledge Graph,KG)等人工智能技术,对各类文档进行识别、分类、抽取、校验等处理,帮助企业实现文档处理工作的智能化和自动化的新一代自动化技术。
招投标是一种国际惯例,是商品经济高度发展的产物,是应用技术、经济的方法和市场经济的竞争机制的作用,有组织开展的一种择优成交的方式。企业进行投标时,需要从大量招标信息资源中获取符合招标要求的招标文档,并针对这些符合招标要求的招标文档进行投标。但是,相关技术中,企业需要人工筛选出招标信息资源中符合招标要求的招标文档,进而需要耗费大量的人力成本和时间成本,并且,获取需要的招标文档的效率和准确性不高,从而影响用户的使用体验。
发明内容
本申请实施例提供一种结合RPA及AI的招标文档获取方法、装置、终端及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种结合RPA及AI的招标文档获取方法,包括:
基于RPA***获取目标对象对应的资质信息集合,并对资质信息集合进行结构化处理,得到结构化资质库;
基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合,并根据资质要求信息,确定招标文档集合对应的资质表达式集合;
基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合。
在一种实施方式中,对资质信息集合进行结构化处理,得到结构化资质库,包括:
利用资质信息数据库对资质信息集合进行信息拆分,得到与资质信息集合对应的行业信息集合、专业信息集合和等级信息集合;
根据行业信息集合、专业信息集合和等级信息集合确定结构化资质库。
在一种实施方式中,基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合,包括:
获取资质表达式集合中任一资质表达式对应的资质要求信息集合;
获取资质要求信息集合中至少一个资质要求信息;
遍历结构化资质库,获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息集合;
获取任一资质表达式对应的招标文档;
基于目标资质信息集合和任一资质表达式,确定招标文档和目标对象的匹配结果。
在一种实施方式中,遍历结构化资质库,获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息集合,包括:
获取行业信息集合中任一行业信息;
若结构化资质库中存在与任一行业信息对应的第一目标资质信息集合,则在专业信息集合中获取与任一行业信息对应的专业信息子集;
获取专业信息子集中任一专业信息;
若第一目标资质信息集合中存在与任一专业信息对应的至少一个第二目标资质信息集合,则在等级信息集合中获取与任一专业信息对应的等级信息;
基于等级信息与第二目标资质信息集合,获取目标资质信息集合。
在一种实施方式中,在基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合之前,还包括:
通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档;
采用光学字符识别OCR技术对至少一个目标文档格式的招标文档进行识别,得到招标文档集合。
在一种实施方式中,通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档,包括:
获取招标文档对应的文档格式;
若文档格式不是目标文档格式,则通过RPA***对招标文档进行格式转换,得到目标文档格式的招标文档。
在一种实施方式中,根据资质要求信息,确定招标文档集合对应的资质表达式集合,包括:
基于依存分析技术,获取资质要求信息集合中第一资质要求信息与第二资质要求信息之间的相互依存信息,第一资质要求信息为资质要求信息集合中任一资质要求信息,第二资质要求信息为资质要求信息集合中除第一资质要求信息之外的任一资质要求信息;
基于相互依存信息,确定招标文档集合对应的资质表达式集合。
第二方面,本申请实施例提供了一种结合RPA及AI的招标文档获取装置,包括:
集合获取单元,用于基于RPA***获取目标对象对应的资质信息集合,并对资质信息集合进行结构化处理,得到结构化资质库;
资质获取单元,用于基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合,并根据资质要求信息,确定招标文档集合对应的资质表达式集合;
集合求解单元,用于基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合。
在一种实施方式中,集合获取单元包括信息拆分子单元和资质库确定子单元,集合获取单元用于对资质信息集合进行结构化处理,得到结构化资质库时:
信息拆分子单元,用于利用资质信息数据库对资质信息集合进行信息拆分,得到与资质信息集合对应的行业信息集合、专业信息集合和等级信息集合;
资质库确定子单元,用于根据行业信息集合、专业信息集合和等级信息集合确定结构化资质库。
在一种实施方式中,集合求解单元包括信息获取子单元、要求获取子单元、信息匹配子单元、文档获取子单元和结果确定子单元,集合求解单元用于基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合时:
信息获取子单元,用于获取资质表达式集合中任一资质表达式对应的资质要求信息集合;
要求获取子单元,用于获取资质要求信息集合中至少一个资质要求信息;
信息匹配子单元,用于遍历结构化资质库,获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息集合;
文档获取子单元,用于获取任一资质表达式对应的招标文档;
结果确定子单元,用于基于目标资质信息集合和任一资质表达式,确定招标文档和目标对象的匹配结果。
在一种实施方式中,信息匹配子单元,用于遍历结构化资质库,获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息集合时,具体用于:
获取行业信息集合中任一行业信息;
若结构化资质库中存在与任一行业信息对应的第一目标资质信息集合,则在专业信息集合中获取与任一行业信息对应的专业信息子集;
获取专业信息子集中任一专业信息;
若第一目标资质信息集合中存在与任一专业信息对应的至少一个第二目标资质信息集合,则在等级信息集合中获取与任一专业信息对应的等级信息;
基于等级信息与第二目标资质信息集合,获取目标资质信息集合。
在一种实施方式中,招标文档获取装置还包括招标文档获取单元和文档识别单元,用于基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合之前:
招标文档获取单元,用于通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档;
文档识别单元,用于采用光学字符识别OCR技术对至少一个目标文档格式的招标文档进行识别,得到招标文档集合。
在一种实施方式中,招标文档获取单元包括格式获取子单元和格式转换子单元,招标文档获取单元,用于通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档时:
格式获取子单元,用于获取招标文档对应的文档格式;
格式转换子单元,用于若文档格式不是目标文档格式,则通过RPA***对招标文档进行格式转换,得到目标文档格式的招标文档。
在一种实施方式中,资质获取单元包括依存获取子单元和表达式确定子单元,资质获取单元用于根据资质要求信息,确定招标文档集合对应的资质表达式集合时:
依存获取子单元,用于基于依存分析技术,获取资质要求信息集合中第一资质要求信息与第二资质要求信息之间的相互依存信息,第一资质要求信息为资质要求信息集合中任一资质要求信息,第二资质要求信息为资质要求信息集合中除第一资质要求信息之外的任一资质要求信息;
表达式确定子单元,用于基于相互依存信息,确定招标文档集合对应的资质表达式集合。
第三方面,本申请实施例提供了一种结合RPA及AI的终端,该终端包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:
基于RPA***获取目标对象对应的资质信息集合,并对资质信息集合进行结构化处理,得到结构化资质库;基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合,并根据资质要求信息,确定招标文档集合对应的资质表达式集合;基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合。因此,通过对目标对象对应的资质信息集合进行结构化处理可以使资质信息集合中每一部分与招标文档集合进行匹配,可以提高招标文档获取的效率和准确性,基于结构化资质库对资质表达式进行求解可以准确获取与目标对象匹配的目标招标文档集合,通过RPA***匹配与目标对象匹配的招标文档,无需人工筛选招标文档,因此可以降低人力成本,可以降低招标文档获取时长,进而可以提高用户的使用体验。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请的一些实施方式,而不应将其视为是对本申请范围的限制。
图1示出本申请一个实施例的一种结合RPA及AI的招标文档获取方法的背景示意图;
图2示出本申请一个实施例的一种结合RPA及AI的招标文档获取方法的背景架构示意图;
图3示出本申请一个实施例的一种结合RPA及AI的招标文档获取方法的流程图;
图4示出本申请一个实施例的一种结合RPA及AI的招标文档获取方法的流程图;
图5示出本申请一个实施例的一种资质信息数据库的结构示意图;
图6示出本申请一个实施例的一种结构化资质库的结构示意图;
图7示出本申请一个实施例的一种文档格式转换的流程示意图;
图8示出本申请一个实施例的一种资质表达式的结构示意图;
图9示出本申请一个实施例的一种资质要求信息的匹配流程示意图;
图10示出本申请一个实施例的一种资质表达式求解的流程示意图;
图11示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图;
图12示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图;
图13示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图;
图14示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图;
图15示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图;
图16示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图;
图17示出根据本申请一实施例的一种终端的结构框图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,术语“多个”指两个或两个以上。
在本申请的描述中,术语“RPA”是指通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
在本申请的描述中,术语“IDP”是指智能文档处理(Intelligent DocumentProcessing),具体是指基于光学字符识别(Optical Character Recognition,OCR)、计算机视觉(Computer Vision,CV)、自然语言处理(Natural Language Processing,NLP)、知识图谱(Knowledge Graph,KG)等人工智能技术,对各类文档进行识别、分类、抽取、校验等处理,帮助企业实现文档处理工作的智能化和自动化的新一代自动化技术。本申请的描述中介绍了IDP的一个典型应用场景,即利用智能文档处理对大量的招投标文档进行自动抓取、分析和匹配。
智能文档理解平台基于OCR、NLP前沿算法,提供丰富的预训练模型及自学习功能,拥有处理多类复杂文档的能力,实现端到端的文档处理自动化。
在本申请的描述中,术语“NLP”是指自然语言处理(Natural LanguageProcessing),是计算机科学领域与人工智能领域中的一个重要方向。具体是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。包括自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)两部分。NLP是典型边缘交叉学科,涉及到语言科学、计算机科学、数学、认知学、逻辑学等,其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。用计算机处理自然语言的过程在不同时期或侧重点不同时又分别称为自然语言理解(Natural Language Understanding,NLU)、人类语言技术(Human Language Technology,HLT)、计算语言学(Computational Linguistics,HL)、计量语言学(Quantitative Linguistics)、数理语言学(Mathematical Linguistics)。
在本申请的描述中,术语“OCR”是指光学字符识别(Optical CharacterRecognition),具体是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
在本申请的描述中,术语“招标文档”指的是招标人向潜在投标人发出并告知项目需求、招标投标活动规则和合同条件等信息的要约邀请文档,是项目招标投标活动的主要依据。
在本申请的描述中,术语“资质信息”指的是从事某种工作或活动所具备的条件、资格、能力等信息。包括但不限于企业施工的资格证明、企事业及民间团体从事相关活动的必要证明文件等等。
在本申请的描述中,术语“结构化资质库”指的是一个以固定格式存储至少一个资质数据的数据库。可以由二维表结构来逻辑表达和实现资质数据。资质数据也可以严格地遵循数据格式与长度规范。还可以通过关系型数据库进行存储和管理资质数据。
在本申请的描述中,术语“资质要求信息”指的是招标文档中招标对象向潜在投标对象告知的需要满足的资质信息。该资质要求信息包括但不限于企业施工的资格证明、投标对象从事相关活动的必要证明文件等等。
在本申请的描述中,术语“资质表达式”指的是用逻辑运算符将招标文档对应的资质要求信息连接起来的式子。
在本申请的描述中,术语“依存分析技术”指的是依存关系分析(dependencysyntactic parsing),作用是识别句子中词汇与词汇之间的相互依存关系。依存关系由核心词(head)与依存词(dependent)表示,每个核心词对应其成分的中心,例如名词之于名词短语,动词之于动词短语。最常用的关系分为两大类:从句关系(clausal relations)与修饰语关系(modifier relations)。
随着科学技术的发展,终端技术的日益成熟,提高了用户生产生活的便利性。终端应用场景中,用户可以通过终端从信息资源中获取招标文档。
根据一些实施例,图1示出本申请一个实施例的一种结合RPA及AI的招标文档获取方法的背景示意图。如图1所示,用户可以点击终端的浏览器应用程序,当终端检测到用户点击浏览器应用程序时,终端可以展示浏览器界面。用户可以基于浏览器界面,查看招标相关网页,并逐一阅读每个网页来判断是否发布了需要的招标文档,并收藏需要的招标文档对应的网页。
在一些实施例中,通过人工定期查看网页并阅读网页来判断是否为需要的招标文档的方法,需要耗费大量的人力成本和时间成本,并且查找效率和准确率不高。
根据一些实施例,图2示出本申请一个实施例的一种结合RPA及AI的招标文档获取方法的背景架构示意图。如图2所示,终端11可以通过网络12将用户发出的网页查看指令上传至服务器13。当服务器13接收到查看指令时,服务器13可以通过网络12将该网页对应的招标文档信息发送至终端11,当终端接收到服务器13发送的招标文档信息时,终端可以在显示界面上显示该招标文档信息。
易于理解的是,该终端包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、第五代移动通信技术(5th generation mobile networks,5G)网络或未来演进网络中的终端设备等。该终端上可以安装操作***,该操作***是指可以运行在终端中的操作***,是管理和控制终端硬件和终端应用的程序,是终端中不可或缺的***应用。该操作***包括但不限于安卓Android***、IOS***、Windows phone(WP)***和Ubuntu移动版操作***等。
根据一些实施例,该终端11可以通过网络12和服务器13连接。网络12用以在终端11和服务器13之间提供通信链路。网络12可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。应该理解,图2中的终端11、网络12和服务器13的数目仅仅是示意性的。根据现实需要,可以具有任意数目的终端、网络和服务器。比如服务器13可以是多个服务器组成的服务器集群等。用户可以使用终端11通过网络12与服务器13交互,以进行招标文档获取等。
参照下面的描述和附图,将清楚本申请的实施例的这些和其他方面。在这些描述和附图中,具体申请了本申请的实施例中的一些特定实施方式,来表示实施本申请的实施例的原理的一些方式,但是应当理解,本申请的实施例的范围不受此限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
以下结合附图描述根据本申请实施例的结合RPA及AI的招标文档获取方法。
图3示出本申请一个实施例的一种结合RPA及AI的招标文档获取方法的流程图,如图3所示,该结合RPA及AI的招标文档获取方法例如可以应用于智能文档处理场景中。具体的,该方法可包括以下步骤:
步骤S101:基于RPA***获取目标对象对应的资质信息集合,并对资质信息集合进行结构化处理,得到结构化资质库;
根据一些实施例,RPA***至少包含三个组成部分:开发工具、运行工具和控制中心。其中,UiBot属于一种RPA***。在UiBot中,这三个组成部分分别被命名为UiBotCreator流程创造者、UiBot Worker流程机器人和UiBot Commander机器人指挥官。其中,UiBot Creator流程创造者是流程的开发的编程工具,在流程中进行界面自动化操作、AI识别、数据读写等具体步骤。UiBot Creator流程创造者允许以流程图、低代码的方式,采用鼠标拖拽各个步骤,轻松组装符合业务需求的自动化流程。
易于理解的是,RPA流程编写完毕后,部署在UiBot Worker流程机器人之中。可以根据需要手动启动运行,或在满足特定触发条件时自动启动。任务可编排,过程可回溯。
在一些实施例中,UiBot Commander机器人指挥官是对于企业内部的多个UiBotWorker流程机器人进行统一管理的平台,可以快速批量下发任务,并为UiBot Worker流程机器人提供运行时所需的数据、凭证、文件等。还可以实时监测UiBot Worker流程机器人的运行状态,或回看其历史记录。
根据一些实施例,UiBot中还提供了专门为RPA设计的人工智能(ArtificialIntelligence,AI)能力,这些AI能力也构成了UiBot的第四个组成部分,称之为UiBotMage。UiBot Mage智能文档处理平台是基于OCR、NLP等深度学***台,提供了文档的识别、分类、要素提取、校验、比对、纠错等功能,实现企业日常文档处理工作的自动化。
易于理解的是,本申请实施例所提供的方法可以应用于智能文档处理场景中,可以利用IDP对招投标文档进行自动抓取、分析和匹配。具体可以基于UiBot Mage智能文档处理平台实现端到端的招投标文档自动化处理。
根据一些实施例,目标对象指的是终端进行招标文档获取时的作用对象。该目标对象并不特指某一固定对象。该目标对象包括但不限于个人、公司、投标文档等等。
在一些实施例中,资质信息集合指的是目标对象对应的至少一个资质信息所汇聚而成的集合。该资质信息集合并不特指某一固定集合。例如,当目标对象发生变化时,该资质信息集合也可以发生变化。当资质信息发生变化时,该资质信息集合也可以发生变化。
易于理解的是,当终端需要获取目标对象对应的招标文档时,终端可以基于RPA***获取目标对象对应的资质信息集合,并对资质信息集合进行结构化处理,得到结构化资质库。
步骤S102:基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合,并根据资质要求信息,确定招标文档集合对应的资质表达式集合;
根据一些实施例,招标文档集合指的是由至少一个招标文档汇聚而成的集合。该招标文档集合并不特指某一固定集合。例如,当招标文档的内容发生变化时,该招标文档集合也可以发生变化。当招标文档的数量发生变化时,该招标文档集合也可以发生变化。
根据一些实施例,资质表达式集合指的是由至少一个资质表达式汇聚而成的集合。该资质表达式集合并不特指某一固定集合。例如,当招标文档集合发生变化时,该资质表达式集合也可以发生变化。当资质表达式发生变化时,该资质表达式集合也可以发生变化。
易于理解的是,当终端需要通过终端获取目标对象对应的招标文档时,终端可以基于NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息。当终端获取到招标文档集合中至少一个招标文档对应的资质要求信息时,终端可以根据资质要求信息,确定招标文档集合对应的资质表达式集合。
步骤S103:基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合。
根据一些实施例,目标招标文档指的是与目标对象匹配的文档。该目标招标文档并不特指某一固定文档。例如,当目标对象发生变化时,该目标招标文档也可以发生变化。当招标文档集合发生变化时,该目标招标文档也可以发生变化。
在一些实施例中,目标招标文档集合指的是由至少一个目标招标文档汇聚而成的集合。该目标招标文档集合并不特指某一固定集合。例如,当目标招标文档发生变化时,该目标招标文档集合也可以发生变化。当目标对象发生变化时,该目标招标文档集合也可以发生变化。
易于理解的是,当终端获取到招标文档集合对应的资质表达式集合时,终端可以基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合。
在本申请实施例中,通过基于RPA***获取目标对象对应的资质信息集合,并对资质信息集合进行结构化处理,得到结构化资质库;基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合,并根据资质要求信息,确定招标文档集合对应的资质表达式集合;基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合。因此,通过对目标对象对应的资质信息集合进行结构化处理可以使资质信息集合中每一部分与招标文档集合进行匹配,可以提高招标文档获取的效率和准确性,基于结构化资质库对资质表达式进行求解可以准确获取与目标对象匹配的目标招标文档集合,通过RPA***匹配与目标对象匹配的招标文档,无需人工筛选招标文档,因此可以降低人力成本,可以降低招标文档获取时长,进而可以提高用户的使用体验。
图4示出本申请一个实施例的一种结合RPA及AI的招标文档获取方法的流程图,如图4所示,该方法可包括以下步骤:
步骤S201:基于RPA***获取目标对象对应的资质信息集合,利用资质信息数据库对资质信息集合进行信息拆分,得到与资质信息集合对应的行业信息集合、专业信息集合和等级信息集合;
具体过程如上所述,此处不再赘述。
根据一些实施例,当目标对象为投标文档时,终端可以基于RPA***获取投标信息对应的资质信息集合。这种情况下,终端可以采用深度学习模型对投标文档进行信息抽取,得到第一资质信息集合;采用可视化规则模型对投标文档进行信息抽取,得到第二资质信息集合;基于第一资质信息集合和第二资质信息集合,确定投标文档对应的资质信息集合。因此可以提高资质信息集合获取的准确性。在一些实施例中,当终端基于第一资质信息集合和第二资质信息集合,确定投标文档对应的资质信息集合时,终端可以获取第一资质信息对应的第一置信度,以及第二资质信息对应的第二置信度。进而终端可以基于第一置信度和第二置信度确定投标文档对应的资质信息集合。
例如,当终端获取到第一资质信息A1对应的第一置信度a1,第二资质信息B1对应的第二置信度b1时。终端可以对比第一置信度a1和第二置信度b1的大小,当a1大于b1时,终端可以将第一资质信息A1放入资质信息集合中。当a1小于b1时,终端可以将第二资质信息B1放入资质信息集合中。
在一些实施例中,置信度指的是抽取信息对应的可信程度。该置信度并不特指某一固定置信度。例如,当抽取信息发生变化时,该置信度也可以发生变化。当终端获取置信度的方式发生变化时,该置信度也可以发生变化。
在一些实施例中,终端可以根据下式获取任一招投标信息对应的置信度:
其中,Si为招投标信息i对应的置信度,ei为招投标信息i对应的实际评分,∑jej为招投标信息i对应的标准评分。
根据一些实施例,资质信息数据库指的是存储资质信息集合中至少一个资质信息的数据库,如图5所示。该资质信息数据库并不特指某一固定数据库。例如,当目标对象发生变化时,该资质信息数据库也可以发生变化。当资质信息集合发生变化时,该资质信息数据库也可以发生变化。
在一些实施例中,信息拆分指的是将任一完整的资质信息拆分为行业信息、专业信息、等级信息的过程。例如,终端可以将“建筑行业(建筑工程)甲级”这一完整的资质信息拆分为行业信息:建筑行业、专业信息:建筑工程、等级信息:甲级。终端还可以将“建筑装修装饰工程专业承包二级(新)”这一完整的资质信息拆分为行业信息:建筑装修装饰工程、专业信息:专业承包(新)、等级信息:二级。
在一些实施例中,行业信息集合指的是由资质信息集合对应的至少一个行业信息汇聚而成的集合。行业信息包括但不限于建筑行业、工程勘察专业类、建筑装修装饰工程、建筑机电安装工程等等。该行业信息集合并不特指某一固定集合。例如,当资质信息集合发生变化时,该行业信息集合也可以发生变化。当目标对象发生变化时,该行业信息集合也可以发生变化。
在一些实施例中,专业信息集合指的是由资质信息集合对应的至少一个专业信息汇聚而成的集合。专业信息包括但不限于建筑工程、岩土工程(勘察)、岩土工程(设计)、工程测量、专业承包(新)等等。该专业信息集合并不特指某一固定集合。例如,当资质信息集合发生变化时,该专业信息集合也可以发生变化。当目标对象发生变化时,该专业信息集合也可以发生变化。
在一些实施例中,等级信息集合指的是由资质信息集合对应的至少一个等级信息汇聚而成的集合。等级信息包括但不限于甲级、乙级、一级、二级等等。该等级信息集合并不特指某一固定集合。例如,当资质信息集合发生变化时,该等级信息集合也可以发生变化。当目标对象发生变化时,该等级信息集合也可以发生变化。
易于理解的是,当终端获取目标对象对应的招标文档时,终端可以获取目标对象对应的资质信息集合。当终端获取到资质信息集合时,终端可以利用资质信息数据库对资质信息集合进行信息拆分,得到与资质信息集合对应的行业信息集合、专业信息集合和等级信息集合。
步骤S202:根据行业信息集合、专业信息集合和等级信息集合确定结构化资质库;
根据一些实施例,终端根据行业信息集合、专业信息集合和等级信息集合确定结构化资质库时,行业信息集合中任一行业信息可以对应专业信息集合中至少两个专业信息,专业信息集合中任一专业信息可以对应等级信息集合中的一个等级信息。
在一些实施例中,图6示出本申请一个实施例的一种结构化资质库的获取流程示意图。如图6所示,行业信息集合中包括“建筑行业”、“工程勘察专业类”、“建筑装修装饰工程”和“建筑机电安装工程”这四个行业信息。专业信息集合中“建筑工程”这一专业信息对应行业信息集合中的“建筑行业”这一行业信息、“岩土工程(勘察)”、“岩土工程(设计)”和“工程测量”这三个专业信息对应行业信息集合中的“工程勘察专业类”这一行业信息、“专业承包(新)”这一专业信息分别对应行业信息集合中的“建筑装修装饰工程”和“建筑机电安装工程”这两个行业信息。等级信息集合中的等级信息分别对应专业信息集合中任一专业信息对应的等级信息,例如,“建筑工程”这一专业信息对应的等级信息为“甲级”;“岩土工程(勘察)”这一专业信息对应的等级信息为“甲级”;“岩土工程(设计)”这一专业信息对应的等级信息为“甲级”;“工程测量”这一专业信息对应的等级信息为“甲级”;“建筑装修装饰工程”对应的“专业承包(新)”这一专业信息对应的等级信息为“二级”;“建筑机电安装工程”对应的“专业承包(新)”这一专业信息对应的等级信息为“二级”。
易于理解的是,当终端获取到与资质信息集合对应的行业信息集合、专业信息集合和等级信息集合时,终端可以根据行业信息集合、专业信息集合和等级信息集合确定结构化资质库。
步骤S203:通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档;
根据一些实施例,文档格式指的是电脑为了存储文本信息而使用的对文本信息的特殊编码方式。该文档格式包括但不限于文本txt格式、HTML格式、word格式、便携式文档(Portable Document Format,PDF)格式等等。目标文档格式指的是RPA***所选择的获取的招标文档的文档格式。该目标文档格式并不特征某一固定格式。例如,当终端获取到针对目标文档格式的格式修改指令时,该目标文档格式可以发生相应变化。
根据一些实施例,当终端获取到任一招标文档时,终端可以获取该任一招标文档对应的文档格式;若文档格式不是目标文档格式,则通过RPA***对招标文档进行格式转换,得到目标文档格式的招标文档。因此,可以提高RPA***对不同文档格式的招标文档的适应性,进而提高文档获取的准确性。
在一些实施例中,终端通过RPA***对招标文档进行格式转换时,终端可以利用RPA***内置的文档格式转换工具对招标文档进行格式转换。例如,当终端获取到word格式的招标文档时,终端可以利用python win32库,调用word底层宏语言(Visual Basic forApplications,VBA),将word格式的招标文档转换成PDF格式的招标文档。
例如,当终端设置的目标文档格式为PDF格式时,若终端通过RPA***获取到word格式的招标文档A。终端可以利用RPA***内置的文档格式转换工具对招标文档A进行格式转换,转换为PDF格式的招标文档,如图7所示。
易于理解的是,当用户需要通过终端获取目标对象对应的招标文档时,终端可以通过RPA***获取至少一个目标文档格式的招标文档。
步骤S204:采用光学字符识别OCR技术对至少一个目标文档格式的招标文档进行识别,得到招标文档集合;
根据一些实施例,终端采用OCR技术对招标文档进行识别时,可能丢失招标文档的上下文信息,例如段落信息等。因此,终端在采用OCR技术对至少一个目标文档格式的招标文档进行识别时,需要获取至少一个招标文档对应的内容信息和结构信息。进而,终端可以基于内容信息和结构信息对招投标文档进行文档结构还原,还原后的招投标文档可以将字符信息按段落进行组合。
在一些实施例中,内容信息指的是招标文档中每个字符的字符信息的集合。该内容信息并不特指某一固定信息。例如,当招标文档的内容发生变化时,该内容信息也可以发生变化。当招标文档的文档格式发生变化时,该内容信息也可以发生变化。
在一些实施例中,结构信息指的是招标文档中每个字符对应的坐标信息的集合。该结构信息并不特指某一固定信息。例如,当招标文档的内容发生变化时,该结构信息也可以发生变化。当招标文档的文档格式发生变化时,该结构信息也可以发生变化。
在一些实施例中,当终端对招标文档进行文档结构还原时,终端可以根据文档的行间距、行首、行尾、缩进、行长度等特征判断文档的段落启始和结束信息,并在段落间***换行符标记,实现段落还原。终端还可以检测招标文档中是否存在目录,若存在目录,则识别目录内容,根据目录定位章节位置,根据章节位置还原招投标文档的章节结构。若不存在目录,则根据招标文档的标题、行间距的特征定位章节位置,根据章节位置还原招标文档的章节结构。
易于理解的是,当终端获取到至少一个目标文档格式的招标文档时,终端可以采用光学字符识别OCR技术对至少一个目标文档格式的招标文档进行识别,得到招标文档集合。
步骤S205:基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合;
根据一些实施例,当终端基于NLP模型获取招标文档集合中任一招标文档对应的资质要求信息集合时,终端可以基于结构信息和内容信息,确定该任一招标文档对应的段落信息集合;采用NLP模型对段落信息集合中任一段落信息进行信息抽取,得到资质要求信息子集;遍历段落信息集合,得到该任一招标文档对应的资质要求信息集合。因此,可以提高资质要求信息集合的获取效率,进而提高用户的使用体验。
易于理解的是,当终端获取到招标文档集合时,终端可以基于NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合。
步骤S206:基于依存分析技术,获取资质要求信息集合中第一资质要求信息与第二资质要求信息之间的相互依存信息;基于相互依存信息,确定招标文档集合对应的资质表达式集合;
根据一些实施例,第一资质要求信息指的是资质要求信息集合中任一资质要求信息。该第一资质要求信息并不特指某一固定信息。例如,当资质要求信息集合发生变化时,该第一资质要求信息也可以发生变化。当招标文档发生变化时,该第一资质要求信息也可以发生变化。
在一些实施例中,第二资质要求信息指的是资质要求信息集合中除第一资质要求信息之外的任一资质要求信息。该第二资质要求信息并不特指某一固定信息。例如,当资质要求信息集合发生变化时,该第二资质要求信息也可以发生变化。当第一资质要求信息发生变化时,该第二资质要求信息也可以发生变化。
在一些实施例中,相互依存信息指的是终端基于依存分析技术,获取到的第一资质要求信息与第二资质要求信息之间的相互依存关系。该相互依存信息包括但不限于“AND”、“OR”等等。该相互依存信息并不特指某一固定信息。例如,当第一资质要求信息发生变化时,该相互依存信息也可以发生变化。当第二资质要求信息发生变化时,该相互依存信息也可以发生变化。
根据一些实施例,图8示出本申请一个实施例的一种资质表达式的结构示意图。如图8所示,当终端获取到招标文档对应的资质要求信息集合中的资质要求信息为“建筑装饰装修工程设计与施工二级及以上”、“建筑机电安装工程专业承包三级(新)及以上”和“建筑装修装饰工程专业承包二级(新)及以上”时,终端可以基于这三个资质要求信息之间的相互依存信息,确定招标文档对应的资质表达式:(“建筑装饰装修工程设计与施工二级及以上”AND“建筑机电安装工程专业承包三级(新)及以上”)OR(“建筑装修装饰工程专业承包二级(新)及以上”AND“建筑机电安装工程专业承包三级(新)及以上”)。
易于理解的是,当终端获取到招标文档集合时,终端可以基于依存分析技术,获取资质要求信息集合中第一资质要求信息与第二资质要求信息之间的相互依存信息。当终端获取到相互依存信息时,终端可以基于相互依存信息,确定招标文档集合对应的资质表达式集合。
步骤S207:获取资质表达式集合中任一资质表达式对应的资质要求信息集合;获取资质要求信息集合中至少一个资质要求信息;
根据一些实施例,当终端获取到招标文档集合时,终端可以获取到每一个招标文档对应的资质表达式,进而,终端可以获取到招标文档集合对应的资质表达式集合。当终端获取到资质表达式集合时,终端可以获取到资质表达式集合中任一资质表达式对应的资质要求信息集合。
例如,当终端获取到招标文档M时,终端可以获取到招标文档M对应的资质表达式m,进而,终端可以获取到资质表达式(m1 AND m2)OR(m3 AND m4)中所有资质要求信息m1、m2、m3和m4。
易于理解的是,当终端获取到招标文档集合对应的资质表达式集合时,终端可以获取资质表达式集合中任一资质表达式对应的资质要求信息集合。当终端获取到资质要求信息集合时,终端可以获取资质要求信息集合中至少一个资质要求信息。
步骤S208:遍历结构化资质库,获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息集合;
根据一些实施例,目标资质信息集合指的是结构化资质库中满足资质要求信息集合中至少一个资质要求信息的资质信息的集合。该目标资质信息集合并不特指某一固定集合。例如,当结构化资质库发生变化时,该目标资质信息集合也可以发生变化。当资质要求信息集合发生变化时,该目标资质信息集合也可以发生变化。
例如,当终端获取到资质表达式对应的资质要求信息集合中包括资质要求信息m1、m2、m3和m4时,终端可以遍历结构化资质库,将资质要求信息m1、m2、m3和m4依次与结构化资质库中的资质信息进行模糊匹配。进而,终端可以从结构化资质库中获取与资质要求信息m1、m2、m3模糊匹配成功的资质信息m11、m22、m33,从而得到目标资质信息集合。
在一些实施例中,当任一资质要求信息与结构化资质库中的资质信息进行模糊匹配时,终端可以将该资质要求信息分别与结构化资质库中的行业信息集合、专业信息集合和等级信息集合进行模糊匹配。例如,资质要求信息“建筑装饰装修工程设计与施工2级”首先与行业信息集合中的行业信息进行模糊匹配,若行业信息集合中包括“建筑装修装饰工程”或者“建筑装饰装修工程”,则说明行业信息模糊匹配成功。进而该资质要求信息与结构化资质库中模糊匹配成功的行业信息对应的专业信息进行模糊匹配,若该行业信息对应的专业信息中包括“设计与施工”或者“施工与设计”时,则说明专业信息模糊匹配成功。最终该资质要求信息与结构化资质库中模糊匹配成功的专业信息对应的等级信息进行模糊匹配,若该专业信息对应的等级信息为“二级”、“Ⅱ级”或者“一级”、“特级”等不小于“2级”的等级信息时,则说明等级信息模糊匹配成功。进而将模糊匹配成功的资质信息,例如可以为“建筑装修装饰工程设计与施工二级”放入目标资质信息集合中。
根据一些实施例,在终端获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息集合的过程中,终端首先获取行业信息集合中任一行业信息;若结构化资质库中存在与任一行业信息对应的第一目标资质信息集合,则在专业信息集合中获取与任一行业信息对应的专业信息子集。其次,终端获取专业信息子集中任一专业信息;若第一目标资质信息集合中存在与任一专业信息对应的至少一个第二目标资质信息集合,则在等级信息集合中获取与任一专业信息对应的等级信息;最后,终端基于等级信息与第二目标资质信息集合,获取目标资质信息集合。因此,可以提高获取目标资质信息集合的效率和准确性。
在一些实施例中,图9示出本申请一个实施例的一种资质要求信息的匹配流程示意图。如图9所示,当终端需要在结构化资质库中匹配“工程勘察专业类工程测量甲级”资质要求信息时,首先,终端可以在行业信息集合中获取与“工程勘察专业类工程测量甲级”资质要求信息匹配的行业信息:工程勘察专业类,并获取工程勘察专业类对应的岩土工程(勘察)、岩土工程(设计)、工程测量这三种专业信息。其次,终端可以在该三种专业信息中获取与“工程勘察专业类工程测量甲级”资质要求信息匹配的专业信息:工程测量,并获取与工程测量对应的等级信息:乙级。最后,终端发现等级信息:乙级与“工程勘察专业类工程测量甲级”资质要求信息不匹配,则说明结构化资质库中没有与“工程勘察专业类工程测量甲级”资质要求信息匹配的目标资质信息。
易于理解的是,当终端获取到资质要求信息集合中至少一个资质要求信息时,终端可以遍历结构化资质库,获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息集合。
步骤S209:获取任一资质表达式对应的招标文档;基于目标资质信息集合和任一资质表达式,确定招标文档和目标对象的匹配结果。
根据一些实施例,图10示出本申请一个实施例的一种资质表达式求解的流程示意图。如图10所示,当终端获取到招标文档对应的资质表达式中包含的资质要求信息为“建筑装饰装修工程设计与施工二级及以上”、“建筑机电安装工程专业承包三级(新)及以上”和“建筑装修装饰工程专业承包二级(新)及以上”时,终端可以获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息:“建筑机电安装工程专业承包三级(新)及以上”和“建筑装修装饰工程专业承包二级(新)及以上”。进而,终端可以基于这三个资质要求信息之间的相互依存信息,确定该招标文档和目标对象匹配。
易于理解的是,当终端获取到目标资质信息集合时,终端可以获取任一资质表达式对应的招标文档,并基于目标资质信息集合和任一资质表达式,确定招标文档和目标对象的匹配结果。
在本申请实施例中,通过基于RPA***获取目标对象对应的资质信息集合,利用资质信息数据库对资质信息集合进行信息拆分,得到与资质信息集合对应的行业信息集合、专业信息集合和等级信息集合;根据行业信息集合、专业信息集合和等级信息集合确定结构化资质库;因此可以使资质信息集合中每一部分与招标文档集合进行匹配,可以提高招标文档获取的效率和准确性。通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档;因此可以提高RPA***对不同文档格式的招投标文档的适应性,进而提高NLP模型获取资质要求信息集合的准确性。采用光学字符识别OCR技术对至少一个目标文档格式的招标文档进行识别,得到招标文档集合;因此可以将招标文档进行文档结构还原,提高NLP模型获取资质要求信息集合的效率。基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合;基于依存分析技术,获取资质要求信息集合中第一资质要求信息与第二资质要求信息之间的相互依存信息;基于相互依存信息,确定招标文档集合对应的资质表达式集合;因此可以提高招标文档获取的效率。获取资质表达式集合中任一资质表达式对应的资质要求信息集合;获取资质要求信息集合中至少一个资质要求信息;遍历结构化资质库,获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息集合;获取任一资质表达式对应的招标文档;基于目标资质信息集合和任一资质表达式,确定招标文档和目标对象的匹配结果;因此可以准确获取与目标对象匹配的目标招标文档集合,可以通过RPA***匹配与目标对象匹配的招标文档,无需人工筛选招标文档,因此可以降低人力成本,可以降低招标文档获取时长,进而可以提高用户的使用体验。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图11,其是本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图。该结合RPA及AI的招标文档获取装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该结合RPA及AI的招标文档获取装置1100包括集合获取单元1101、资质获取单元1102和集合求解单元1103,其中:
集合获取单元1101,用于基于RPA***获取目标对象对应的资质信息集合,并对资质信息集合进行结构化处理,得到结构化资质库;
资质获取单元1102,用于基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合;并根据资质要求信息,确定招标文档集合对应的资质表达式集合;
集合求解单元1103,用于基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合。
根据一些实施例,图12示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图。如图12所示,集合获取单元1101包括信息拆分子单元1111和资质库确定子单元1121,集合获取单元1101用于对资质信息集合进行结构化处理,得到结构化资质库时:
信息拆分子单元1111,用于利用资质信息数据库对资质信息集合进行信息拆分,得到与资质信息集合对应的行业信息集合、专业信息集合和等级信息集合;
资质库确定子单元1121,用于根据行业信息集合、专业信息集合和等级信息集合确定结构化资质库。
根据一些实施例,图13示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图。如图13所示,集合求解单元1103包括信息获取子单元1113、要求获取子单元1123、信息匹配子单元1133、文档获取子单元1143和结果确定子单元1153,集合求解单元1103用于基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合时:
信息获取子单元1113,用于获取资质表达式集合中任一资质表达式对应的资质要求信息集合;
要求获取子单元1123,用于获取资质要求信息集合中至少一个资质要求信息;
信息匹配子单元1133,用于遍历结构化资质库,获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息集合;
文档获取子单元1143,用于获取任一资质表达式对应的招标文档;
结果确定子单元1153,用于基于目标资质信息集合和任一资质表达式,确定招标文档和目标对象的匹配结果。
根据一些实施例,信息匹配子单元1133,用于遍历结构化资质库,获取结构化资质库中与至少一个资质要求信息相匹配的目标资质信息集合时,具体用于:
获取行业信息集合中任一行业信息;
若结构化资质库中存在与任一行业信息对应的第一目标资质信息集合,则在专业信息集合中获取与任一行业信息对应的专业信息子集;
获取专业信息子集中任一专业信息;
若第一目标资质信息集合中存在与任一专业信息对应的至少一个第二目标资质信息集合,则在等级信息集合中获取与任一专业信息对应的等级信息;
基于等级信息与第二目标资质信息集合,获取目标资质信息集合。
根据一些实施例,图14示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图。如图14所示,招标文档获取装置1100还包括招标文档获取单元1104和文档识别单元1105,用于基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合之前:
招标文档获取单元1104,用于通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档;
文档识别单元1105,用于采用光学字符识别OCR技术对至少一个目标文档格式的招标文档进行识别,得到招标文档集合。
根据一些实施例,图15示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图。如图15所示,招标文档获取单元1104包括格式获取子单元1114和格式转换子单元1124,招标文档获取单元1104,用于通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档时:
格式获取子单元1114,用于获取招标文档对应的文档格式;
格式转换子单元1124,用于若文档格式不是目标文档格式,则通过RPA***对招标文档进行格式转换,得到目标文档格式的招标文档。
根据一些实施例,图16示出本申请一个实施例的一种结合RPA及AI的招标文档获取装置的结构示意图。如图16所示,资质获取单元1102包括依存获取子单元1112和表达式确定子单元1122,资质获取单元1102用于根据资质要求信息,确定招标文档集合对应的资质表达式集合时:
依存获取子单元1112,用于基于依存分析技术,获取资质要求信息集合中第一资质要求信息与第二资质要求信息之间的相互依存信息,第一资质要求信息为资质要求信息集合中任一资质要求信息,第二资质要求信息为资质要求信息集合中除第一资质要求信息之外的任一资质要求信息;
表达式确定子单元1122,用于基于相互依存信息,确定招标文档集合对应的资质表达式集合。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
在本申请实施例中,通过集合获取单元基于RPA***获取目标对象对应的资质信息集合,并对资质信息集合进行结构化处理,得到结构化资质库;资质获取单元基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合,并根据资质要求信息,确定招标文档集合对应的资质表达式集合;集合求解单元基于结构化资质库,对资质表达式集合中至少一个资质表达式进行求解,获取招标文档集合中与目标对象匹配的目标招标文档集合。因此,通过对目标对象对应的资质信息集合进行结构化处理可以使资质信息集合中每一部分与招标文档集合进行匹配,可以提高招标文档获取的效率和准确性,基于结构化资质库对资质表达式进行求解可以准确获取与目标对象匹配的目标招标文档集合,通过RPA***匹配与目标对象匹配的招标文档,无需人工筛选招标文档,因此可以降低人力成本,可以降低招标文档获取时长,进而可以提高用户的使用体验。
图17示出根据本申请一实施例的一种终端的结构框图。如图17所示,该终端包括:存储器1710和处理器1720,存储器1710内存储有可在处理器1720上运行的计算机程序。处理器1720执行该计算机程序时实现上述实施例中的结合RPA及AI的招标文档获取方法。存储器1710和处理器1720的数量可以为一个或多个。
该终端还包括:通信接口1730,用于与外界设备进行通信,进行数据交互传输。如果存储器1710、处理器1720和通信接口1730独立实现,则存储器1710、处理器1720和通信接口1730可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图17中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1710、处理器1720及通信接口1730集成在一块芯片上,则存储器1710、处理器1720及通信接口1730可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (15)
1.一种结合机器人流程自动化RPA及人工智能AI的招标文档获取方法,其特征在于,包括:
基于RPA***获取目标对象对应的资质信息集合,并对所述资质信息集合进行结构化处理,得到结构化资质库;
基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合,并根据所述资质要求信息集合,确定所述招标文档集合对应的资质表达式集合;
基于所述结构化资质库,对所述资质表达式集合中至少一个资质表达式进行求解,获取所述招标文档集合中与所述目标对象匹配的目标招标文档集合。
2.根据权利要求1所述的方法,其特征在于,所述对所述资质信息集合进行结构化处理,得到结构化资质库,包括:
利用资质信息数据库对所述资质信息集合进行信息拆分,得到与所述资质信息集合对应的行业信息集合、专业信息集合和等级信息集合;
根据所述行业信息集合、所述专业信息集合和所述等级信息集合确定所述结构化资质库。
3.根据权利要求2所述的方法,其特征在于,所述基于所述结构化资质库,对所述资质表达式集合中至少一个资质表达式进行求解,获取所述招标文档集合中与所述目标对象匹配的目标招标文档集合,包括:
获取所述资质表达式集合中任一资质表达式对应的资质要求信息集合;
获取所述资质要求信息集合中至少一个资质要求信息;
遍历所述结构化资质库,获取所述结构化资质库中与所述至少一个资质要求信息相匹配的目标资质信息集合;
获取所述任一资质表达式对应的招标文档;
基于所述目标资质信息集合和所述任一资质表达式,确定所述招标文档和所述目标对象的匹配结果。
4.根据权利要求3所述的方法,其特征在于,所述遍历所述结构化资质库,获取所述结构化资质库中与所述至少一个资质要求信息相匹配的目标资质信息集合,包括:
获取所述行业信息集合中任一行业信息;
若所述结构化资质库中存在与所述任一行业信息对应的第一目标资质信息集合,则在所述专业信息集合中获取与所述任一行业信息对应的专业信息子集;
获取所述专业信息子集中任一专业信息;
若所述第一目标资质信息集合中存在与所述任一专业信息对应的至少一个所述第二目标资质信息集合,则在所述等级信息集合中获取与所述任一专业信息对应的等级信息;
基于所述等级信息与所述第二目标资质信息集合,获取目标资质信息集合。
5.根据权利要求1所述的方法,其特征在于,在所述基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合之前,还包括:
通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档;
采用光学字符识别OCR技术对所述至少一个目标文档格式的招标文档进行识别,得到招标文档集合。
6.根据权利要求5所述的方法,其特征在于,所述通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档,包括:
获取所述招标文档对应的文档格式;
若所述文档格式不是目标文档格式,则通过所述RPA***对所述招标文档进行格式转换,得到所述目标文档格式的招标文档。
7.根据权利要求1所述的方法,其特征在于,所述根据所述资质要求信息集合,确定所述招标文档集合对应的资质表达式集合,包括:
基于依存分析技术,获取所述资质要求信息集合中第一资质要求信息与第二资质要求信息之间的相互依存信息,所述第一资质要求信息为所述资质要求信息集合中任一资质要求信息,所述第二资质要求信息为所述资质要求信息集合中除所述第一资质要求信息之外的任一资质要求信息;
基于所述相互依存信息,确定所述招标文档集合对应的资质表达式集合。
8.一种结合机器人流程自动化RPA及人工智能AI的招标文档获取装置,其特征在于,包括:
集合获取单元,用于基于RPA***获取目标对象对应的资质信息集合,并对所述资质信息集合进行结构化处理,得到结构化资质库;
资质获取单元,用于基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合,并根据所述资质要求信息,确定所述招标文档集合对应的资质表达式集合;
集合求解单元,用于基于所述结构化资质库,对所述资质表达式集合中至少一个资质表达式进行求解,获取所述招标文档集合中与所述目标对象匹配的目标招标文档集合。
9.根据权利要求8所述的装置,其特征在于,所述集合获取单元包括信息拆分子单元和资质库确定子单元,所述集合获取单元用于对所述资质信息集合进行结构化处理,得到结构化资质库时:
所述信息拆分子单元,用于利用资质信息数据库对所述资质信息集合进行信息拆分,得到与所述资质信息集合对应的行业信息集合、专业信息集合和等级信息集合;
所述资质库确定子单元,用于根据所述行业信息集合、所述专业信息集合和所述等级信息集合确定所述结构化资质库。
10.根据权利要求9所述的装置,其特征在于,所述集合求解单元包括信息获取子单元、要求获取子单元、信息匹配子单元、文档获取子单元和结果确定子单元,所述集合求解单元用于基于所述结构化资质库,对所述资质表达式集合中至少一个资质表达式进行求解,获取所述招标文档集合中与所述目标对象匹配的目标招标文档集合时:
所述信息获取子单元,用于获取所述资质表达式集合中任一资质表达式对应的资质要求信息集合;
所述要求获取子单元,用于获取所述资质要求信息集合中至少一个资质要求信息;
所述信息匹配子单元,用于遍历所述结构化资质库,获取所述结构化资质库中与所述至少一个资质要求信息相匹配的目标资质信息集合;
所述文档获取子单元,用于获取所述任一资质表达式对应的招标文档;
所述结果确定子单元,用于基于所述目标资质信息集合和所述任一资质表达式,确定所述招标文档和所述目标对象的匹配结果。
11.根据权利要求10所述的装置,其特征在于,所述信息匹配子单元,用于遍历所述结构化资质库,获取所述结构化资质库中与所述至少一个资质要求信息相匹配的目标资质信息集合时,具体用于:
获取所述行业信息集合中任一行业信息;
若所述结构化资质库中存在与所述任一行业信息对应的第一目标资质信息集合,则在所述专业信息集合中获取与所述任一行业信息对应的专业信息子集;
获取所述专业信息子集中任一专业信息;
若所述第一目标资质信息集合中存在与所述任一专业信息对应的至少一个所述第二目标资质信息集合,则在所述等级信息集合中获取与所述任一专业信息对应的等级信息;
基于所述等级信息与所述第二目标资质信息集合,获取目标资质信息集合。
12.根据权利要求8所述的装置,其特征在于,所述招标文档获取装置还包括招标文档获取单元和文档识别单元,用于基于自然语言处理NLP模型获取招标文档集合中至少一个招标文档对应的资质要求信息集合之前:
所述招标文档获取单元,用于通过机器人流程自动化RPA***获取至少一个目标文档格式的招标文档;
所述文档识别单元,用于采用光学字符识别OCR技术对所述至少一个目标文档格式的招标文档进行识别,得到招标文档集合。
13.根据权利要求8所述的装置,其特征在于,所述资质获取单元包括依存获取子单元和表达式确定子单元,所述资质获取单元用于根据所述资质要求信息,确定所述招标文档集合对应的资质表达式集合时:
所述依存获取子单元,用于基于依存分析技术,获取所述资质要求信息集合中第一资质要求信息与第二资质要求信息之间的相互依存信息,所述第一资质要求信息为所述资质要求信息集合中任一资质要求信息,所述第二资质要求信息为所述资质要求信息集合中除所述第一资质要求信息之外的任一资质要求信息;
所述表达式确定子单元,用于基于所述相互依存信息,确定所述招标文档集合对应的资质表达式集合。
14.一种结合RPA及AI的终端,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至7任一项所述的方法。
15.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210174473.8A CN114580348A (zh) | 2022-02-24 | 2022-02-24 | 结合rpa及ai的招标文档获取方法、装置、终端及存储介质 |
PCT/CN2022/093176 WO2023159778A1 (zh) | 2022-02-24 | 2022-05-16 | 结合rpa及ai的招标文档获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210174473.8A CN114580348A (zh) | 2022-02-24 | 2022-02-24 | 结合rpa及ai的招标文档获取方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114580348A true CN114580348A (zh) | 2022-06-03 |
Family
ID=81773458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210174473.8A Pending CN114580348A (zh) | 2022-02-24 | 2022-02-24 | 结合rpa及ai的招标文档获取方法、装置、终端及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114580348A (zh) |
WO (1) | WO2023159778A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117951547B (zh) * | 2024-03-26 | 2024-06-21 | 紫金诚征信有限公司 | 基于人工智能的招投标数据处理方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186846A1 (en) * | 2013-12-30 | 2015-07-02 | Successfactors, Inc. | Intelligent Recruiting Tool for Capturing and Storing Candidate Data |
CN112116221A (zh) * | 2020-09-01 | 2020-12-22 | 上海康诚建设工程咨询有限公司 | 一种综合评估的评标方法、***、电子设备及存储介质 |
CN112632943A (zh) * | 2020-09-30 | 2021-04-09 | 中国神华国际工程有限公司 | 智能化评标方法、***、存储介质及电子设备 |
CN112464872A (zh) * | 2020-12-11 | 2021-03-09 | 广东电网有限责任公司 | 一种基于nlp自然语言的自动提取方法及装置 |
CN112597353B (zh) * | 2020-12-18 | 2024-03-08 | 武汉大学 | 一种文本信息自动提取方法 |
CN113868507A (zh) * | 2021-09-09 | 2021-12-31 | 北京来也网络科技有限公司 | 结合rpa和ai的招投标信息获取方法、装置及电子设备 |
-
2022
- 2022-02-24 CN CN202210174473.8A patent/CN114580348A/zh active Pending
- 2022-05-16 WO PCT/CN2022/093176 patent/WO2023159778A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023159778A1 (zh) | 2023-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2024022354A1 (zh) | 结合rpa及ai实现ia的对象推荐方法、装置及存储介质 | |
US20050120009A1 (en) | System, method and computer program application for transforming unstructured text | |
CN113642569A (zh) | 非结构化数据文档处理方法及相关设备 | |
CN112948594B (zh) | Rpa知识图谱建立方法、装置、服务器和存储介质 | |
WO2023159778A1 (zh) | 结合rpa及ai的招标文档获取方法及装置 | |
CN114385694A (zh) | 一种数据加工处理方法、装置、计算机设备及存储介质 | |
CN114511393A (zh) | 财务数据处理方法及*** | |
CN113342954A (zh) | 一种应用于问答***的图像信息处理方法、装置及电子设备 | |
CN114580347A (zh) | 结合rpa及ai的招投标信息确定方法、装置及存储介质 | |
CN114579759A (zh) | 结合rpa及ai的知识图谱展示方法、装置、终端及存储介质 | |
CN115904482B (zh) | 接口文档生成方法、装置、设备及存储介质 | |
CN112036843A (zh) | 基于rpa及ai的流程元素定位方法、装置、设备和介质 | |
CN110363189B (zh) | 一种文档内容修复方法、装置、电子设备及可读存储介质 | |
TWM590730U (zh) | 基於人工智慧之文件管理系統 | |
CN112732423B (zh) | 流程迁移方法、装置、设备及介质 | |
Khan et al. | Non Functional Requirements Identification and Classification Using Transfer Learning Model | |
CN113656579A (zh) | 文本分类方法、装置、设备及介质 | |
JP2023018851A (ja) | プログラムコード自動生成システム | |
CN114579758A (zh) | 结合rpa及ai的owl***构建方法、装置、终端及存储介质 | |
CN111950875A (zh) | 一种合同智能评审方法 | |
CN110895924A (zh) | 一种文档内容朗读方法、装置、电子设备及可读存储介质 | |
Whyte | Virtual reality applications in the house-building industry | |
CN114676238A (zh) | 结合rpa及ai的关键信息获取方法、装置及存储介质 | |
CN116028498B (zh) | 质量检验表单存储方法、装置、电子设备和介质 | |
CN113010812B (zh) | 信息采集方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |