CN114925174A - 文档检索方法、装置及电子设备 - Google Patents
文档检索方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114925174A CN114925174A CN202210637019.1A CN202210637019A CN114925174A CN 114925174 A CN114925174 A CN 114925174A CN 202210637019 A CN202210637019 A CN 202210637019A CN 114925174 A CN114925174 A CN 114925174A
- Authority
- CN
- China
- Prior art keywords
- content
- query statement
- document
- content segment
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文档检索方法、装置及电子设备,方法包括:基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段;采用NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度;基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。实现了自动进行文档检索,降低了文档检索所需的人力成本及时间成本,且通过根据基于AI技术获取的文档中各内容片段与查询语句之间的相关程度,获取目标内容片段,实现了从文档中精确确定能够回答用户问题的具体内容,为准确提供用户问题的答案奠定了基础。本申请还能结合RPA和AI实现IA的获取文档中的内容片段,进一步减少人工成本。
Description
技术领域
本申请涉及机器人流程自动化及人工智能技术领域,特别涉及一种文档检索方法、装置及电子设备。
背景技术
机器人流程自动化(Robotic Process Automation,简称RPA),是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,简称AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门技术科学。
智能自动化(Intelligent Automation,简称IA)是一系列从机器人流程自动化到人工智能的技术总称,将RPA与光学字符识别(Optical Character Recognition,OCR)、智能字符识别(Intelligent Character Recognition,ICR)、流程挖掘(Process Mining)、深度学习(Deep Learning,DL)、机器学习(Machine Learning,ML)、自然语言处理(NaturalLanguage Processing,NLP)、语音识别(Automatic Speech Recognition,ASR)、语音合成(Text To Speech,TTS)、计算机视觉(Computer Vision,CV)等多种AI技术相结合,以创建能够思考、学习及自适应的端到端的业务流程,涵盖从流程发现、流程自动化,到通过自动而持续的数据收集、理解数据的含义,使用数据来管理和优化业务流程的整个历程。
目前,在很多业务场景中,比如电力问答***中,需要对于用户提出的问题,从大量文档中检索到能够回答该问题的具体内容,比如某句话,或者某个表格中的某几个单元格内容等,以根据该内容给出准确的答案。相关技术,在获取到用户提出的问题后,通常是通过人工查询大量文档,从中找到能够回答用户问题的具体内容,或者采用常规的文档级检索,通过字符串匹配的方式,找到与用户问题匹配的文档。上述通过人工查询进行文档检索的方式,会浪费大量的人力成本和时间成本,而常规的文档级检索方式,仅能检索到能够回答用户问题的文档,无法精确检索到文档中能够回答用户问题的具体内容。因此,需要一种能够以较低的人力成本和时间成本,精确检索到文档中能够回答用户问题的具体内容的文档检索方法。
发明内容
本申请提供一种文档检索方法、装置及电子设备,以解决相关技术中的文档检索方法存在的人力成本和时间成本高,且无法精确检索到文档中能够回答用户问题的具体内容的技术问题。
本申请第一方面实施例提供一种文档检索方法,该方法包括:获取查询语句;基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段;采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度;基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。
在一些实施例中,基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段,包括:获取各内容片段所包含的内容以及各内容片段的属性信息;基于各内容片段所包含的内容,获取查询语句与对应的内容片段之间的内容相关度,以及基于各内容片段的属性信息,获取查询语句与对应的内容片段之间的属性相关度;基于查询语句与各内容片段之间的内容相关度以及属性相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段。
在一些实施例中,内容相关度具有对应的第一权重,属性相关度具有对应的第二权重;基于查询语句与各内容片段之间的内容相关度以及属性相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段,包括:基于各内容相关度和对应的第一权重,以及各属性相关度和对应的第二权重,确定查询语句与对应的内容片段之间的第二相关度;基于查询语句与各内容片段之间的第二相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段。
在一些实施例中,采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度,包括:对于每个候选内容片段,将查询语句与候选内容片段输入相关度模型,以获取查询语句与候选内容片段之间的第一相关度。
在一些实施例中,采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度,包括:对于每个候选内容片段,获取对应的属性信息,并将属性信息与候选内容片段进行拼接,以得到对应的拼接结果;将查询语句以及候选内容片段对应的拼接结果,输入相关度模型,以获取查询语句与候选内容片段之间的第一相关度。
在一些实施例中,基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段之前,还包括:基于人工智能AI领域的光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果;对各识别结果进行结构化处理,以得到各文档中包括的多个内容片段;将各内容片段与对应的内容字段对应保存。
在一些实施例中,基于人工智能AI领域的光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果,包括:调用RPA机器人将各文档上传至文档处理平台,以利用文档处理平台,基于光学字符识别OCR技术,对各文档进行识别;获取文档处理平台返回的各文档的识别结果。
在一些实施例中,识别结果包括文本识别结果和/或表格识别结果;对各识别结果进行结构化处理,以得到各文档中包括的多个内容片段,包括:按照预设分割方式,对文本识别结果和/或表格识别结果进行分割,以得到多个分割片段;将多个分割片段按照预设聚合方式进行聚合,以得到多个内容片段,其中,每个内容片段通过至少一个分割片段聚合得到。
在一些实施例中,属性信息,包括文档名称、章节标题、章节标题的各级父标题中的至少一个。
本申请第二方面实施例提供一种文档检索装置,该装置,包括:第一获取模块,用于获取查询语句;查询模块,用于基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段;第二获取模块,用于采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度;第三获取模块,用于基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。
在一些实施例中,查询模块,包括:第一获取单元,用于获取各内容片段所包含的内容以及各内容片段的属性信息;第二获取单元,用于基于各内容片段所包含的内容,获取查询语句与对应的内容片段之间的内容相关度,以及基于各内容片段的属性信息,获取查询语句与对应的内容片段之间的属性相关度;第三获取单元,用于基于查询语句与各内容片段之间的内容相关度以及属性相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段。
在一些实施例中,内容相关度具有对应的第一权重,属性相关度具有对应的第二权重;第三获取单元,用于:基于各内容相关度和对应的第一权重,以及各属性相关度和对应的第二权重,确定查询语句与对应的内容片段之间的第二相关度;基于查询语句与各内容片段之间的第二相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段。
在一些实施例中,第二获取模块,包括:第四获取单元,用于对于每个候选内容片段,将查询语句与候选内容片段输入相关度模型,以获取查询语句与候选内容片段之间的第一相关度。
本申请第三方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时,实现如本申请上述第一方面实施例所述的方法。
本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本申请上述第一方面实施例所述的方法。
本申请第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本申请上述第一方面实施例所述的方法。
本申请实施例提供的技术方案可以包括以下有益效果:
实现了自动进行文档检索,降低了文档检索所需的人力成本及时间成本,且通过根据基于AI技术获取的文档中各内容片段与查询语句之间的相关程度,获取与查询语句匹配的目标内容片段,实现了从文档中精确确定能够回答用户问题的具体内容,为准确提供用户问题的答案奠定了基础。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1是根据本申请第一实施例的文档检索方法的流程示意图;
图2是根据本申请第二实施例的文档检索方法的流程示意图;
图3是根据本申请第三实施例的文档检索方法的流程示意图;
图4是根据本申请第三实施例的文档检索装置提供的交互界面的示例图;
图5是根据本申请第三实施例的候选内容片段及对应的属性信息的示例图;
图6是根据本申请第四实施例的文档检索方法的流程示意图;
图7是根据本申请第四实施例的文档处理平台的交互界面及文档的识别结果的示例图;
图8是根据本申请第四实施例的文本识别结果及对应的内容片段的示例图;
图9是根据本申请第四实施例的表格识别结果及对应的内容片段的示例图;
图10是根据本申请第五实施例的文档检索装置的结构示意图;
图11是用来实现本申请实施例的文档检索方法的电子设备的框图。
具体实施方式
下面详细描述本申请/公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请/公开,而不能理解为对本申请/公开的限制。
参照下面的描述和附图,将清楚本申请/公开的实施例的这些和其他方面。在这些描述和附图中,具体公开了本申请/公开的实施例中的一些特定实施方式,来表示实施本申请/公开的实施例的原理的一些方式,但是应当理解,本申请/公开的实施例的范围不受此限制。相反,本申请/公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
需要说明的是,本公开申请的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
本申请提供一种文档检索方法,通过代替人工自动进行文档检索,降低了文档检索所需的人力成本及时间成本。具体的,在获取用户的查询语句后,可以基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段,再采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度,进而基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。由此,通过根据基于AI技术获取的文档中各内容片段与查询语句之间的相关程度,获取与查询语句匹配的目标内容片段,实现了从文档中精确确定能够回答用户问题的具体内容,为准确提供用户问题的答案奠定了基础。
为了清楚说明本发明的各实施例,首先对本发明实施例中涉及到的技术名词进行解释说明。
在本申请/公开的描述中,术语“多个”指两个或两个以上。
在本申请的描述中,“RPA机器人”,是指可结合AI技术和RPA技术,自动进行业务处理的软件机器人。RPA机器人拥有“连接器”和“无侵入”两个特性,通过模拟人类的操作方法,在不更改信息***的前提下,使用非侵入的方式,将不同***的数据进行提取、整合和连通。
在本申请的描述中,“查询语句”,指用户输入的用于查询的语句,即用户想问的问题,其可以是文本形式的语句,也可以是语音形式的语句,本申请对此不作限制。
在本申请的描述中,“文档”,为用于从中检索能够回答用户问题的具体内容的电子形式的文档,其可以是对纸质文件进行扫描得到的PDF(Portable Document Format,便携式文档格式)格式的文档,也可以是在电脑、手机等智能设备中编辑形成的文档,本申请对此不作限制。
在本申请的描述中,“内容片段”,为文档中的部分内容组成的片段,内容片段可以是一句话或几句话,也可以是文档中的一个段落,或者文档中的一个表格,或者一个表格中的部分内容等,本申请对此不作限制。本申请的一些实施例中,可以预先设置内容片段中包括的字符数量,从而通过对待检索的所有文档进行处理,将所有文档中的内容划分为多个内容片段,每个内容片段中包括的字符数量小于或等于预设字符数量。
在本申请的描述中,“候选内容片段”,指从所有文档包括的所有内容片段中,获取的与查询语句相关的内容片段。“目标内容片段”,指从候选内容片段中,获取的与查询语句匹配的内容片段,即能够回答用户问题的具体内容。
在本申请的描述中,“属性信息”,为表示内容片段的属性的信息,比如内容片段所在文档的文档名称,内容片段对应的章节标题,章节标题的各级父标题等。
在本申请的描述中,“相关度”,用于表示相关程度的大小。“第一相关度”,为通过相关度模型确定的查询语句与候选内容片段之间的相关度,该第一相关度,用于表示查询语句与候选内容片段之间的相关程度的大小。
在本申请的描述中,“相关度模型”,为用于确定相关程度的任意机器模型,比如Bert(Bidirectional Encoder Representations from Transformers,一种基于双向编码器表示模型)等神经网络模型。其中,相关度模型可以通过对NLP领域的预训练模型进行微调得到。
在本申请的描述中,“内容相关度”,为基于内容片段所包含的内容确定的查询语句与内容片段之间的相关度,用于表示内容片段所包含的内容与查询语句之间的相关程度的大小。
在本申请的描述中,“属性相关度”,为基于内容片段对应的属性信息确定的查询语句与内容片段之间的相关度,用于表示内容片段对应的属性信息与查询语句之间的相关程度的大小。
在本申请的描述中,“第二相关度”为基于内容相关度与属性相关度确定的查询语句与内容片段之间的相关度,用于综合表示内容片段所包含的内容以及对应的属性信息,与查询语句之间的相关程度。
在本申请的描述中,“分割片段”,指对文档进行分割得到的内容所组成的片段,比如,按照用于句末的标点符号,将文档分割成多个句子后,每个句子即为一个分割片段。本申请实施例中的每个内容片段,可以包括一个或多个分割片段。
在本申请的描述中,“文档处理平台”,为用于对文档进行智能处理的智能自动化平台。其中,智能文档处理(IDP)是智能自动化平台的核心能力之一。智能文档处理(Intelligent Document Processing,IDP)是基于光学字符识别(Optical CharacterRecognition,OCR)、计算机视觉(Computer Vision,CV)、自然语言处理(Natural LanguageProcessing,NLP)、知识图谱(Knowledge Graph,KG)等AI技术,对各类文档进行识别、分类、要素提取、校验、比对、纠错等处理,帮助企业实现文档处理工作的智能化和自动化的新一代自动化技术。
在本申请的描述中,“内容字段”,为由单个字符或连续的多个字符组成的字段,“内容字段”可以理解为属性项key,内容片段所包含的内容可以理解为属性值value。内容字段和对应的内容片段共同组成一条结构化数据。另外,内容字段、以及内容片段的属性信息对应的字段,比如名称为“文档名称”的字段、名称为“章节标题”的字段、名称为“各级父标题”的字段,可以组成一个结构体。
以下结合附图描述根据本申请/公开实施例的文档检索方法、装置、电子设备及存储介质。
首先结合附图,对本申请实施例中的文档检索方法进行说明。
图1是本申请第一实施例的文档检索方法的流程图。如图1所示,该方法可包括以下步骤:
步骤101,获取查询语句。
需要说明的是,本申请实施例的文档检索方法,可以由文档检索装置执行。其中,该文档检索装置可以由软件和/或硬件实现,该文档检索装置可以为电子设备,或者也可以配置在电子设备中,以实现对自动进行文档检索,从而降低文档检索所需的人力成本及时间成本,且实现基于AI技术从文档中精确确定能够回答用户问题的具体内容。其中,该电子设备可以包括但不限于终端设备、服务器等,该实施例对电子设备不作具体限定。
在示例实施例中,文档检索装置可以提供交互界面,从而用户可以在交互界面中输入查询语句进行查询,相应的,文档检索装置可以获取查询语句。
步骤102,基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段。
在示例实施例中,可以预先对待检索的大量文档(即需要从中检索能够回答用户问题的具体内容的文档)进行处理,以得到多个内容片段,并将多个内容片段保存到检索引擎中,进而在获取查询语句后,可以采用该检索引擎,基于查询语句进行查询,基于检索引擎从多个内容片段中,获取与查询语句相关的多个候选内容片段,并返回至文档检索装置,相应的,文档检索装置可以获取多个候选内容片段。
其中,检索引擎可以为任意具有检索功能的检索引擎,本申请对此不作限制。另外,检索引擎可以配置在文档检索装置中,或者检索引擎也可以单独配置并通过接口与文档检索装置连接,本申请对此不作限制。
在示例实施例中,可以预先设置候选内容片段的数量,从而检索引擎可以获取查询语句与各内容片段之间的相关度,并将各内容片段按照对应的相关度从高到低的顺序进行排序,将排序在前的预设数量的多个内容片段,确定为多个候选内容片段。
在示例实施例中,可以预先设置第一相关度阈值,从而检索引擎可以获取查询语句与各内容片段之间的相关度,并将各内容片段中,对应的相关度大于第一相关度阈值的多个内容片段,确定为多个候选内容片段。其中,第一相关度阈值可以根据需要任意设置,本申请对此不作限制。
步骤103,采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度。
在示例实施例中,可以预先训练相关度模型,相关度模型的输入为候选内容片段以及查询语句,输出为候选内容片段以及查询语句之间的相关程度得分(即置信度),进而对于每个候选内容片段,可以将查询语句与候选内容片段,输入训练好的相关度模型,以使相关度模型基于查询语句与候选内容片段所包含的内容,确定候选内容片段与查询语句之间的相关程度,并输出第一相关度,从而文档检索装置可以根据相关度模型的输出,获取查询语句与候选内容片段之间的第一相关度。
步骤104,基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。
其中,目标内容片段的数量可以为一个,也可以为多个,可以根据需要设置,本申请对此不作限制。
在示例实施例中,以目标内容片段的数量为一个为例,可以基于查询语句与各候选内容片段之间的第一相关度,将对应的第一相关度最高的候选内容片段,作为目标内容片段。
进而,基于该目标内容片段,可以得到用于回答查询语句的答案。
需要说明的是,文档检索装置可以提供交互界面,从而可以通过交互界面,展示回答查询语句的答案,另外,文档检索装置在获取目标内容片段的同时,还可以获取目标内容片段的属性信息,并通过交互界面展示目标内容片段、对应的属性信息以及包含目标内容片段的段落或表格等,以使用户可以更清楚的了解查询语句的答案出处。
综上,本申请实施例提供的文档检索方法,获取查询语句,基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段,采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度,基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。由此,实现了自动进行文档检索,降低了文档检索所需的人力成本及时间成本,且通过根据基于AI技术获取的文档中各内容片段与查询语句之间的相关程度,获取与查询语句匹配的目标内容片段,实现了从文档中精确确定能够回答用户问题的具体内容,为准确提供用户问题的答案奠定了基础。
下面结合图2,对本申请实施例提供的文档检索方法中,基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段的过程进行进一步说明。
图2是根据本申请第二实施例的文档检索方法的流程图,如图2所示,该方法包括:
步骤201,获取查询语句。
步骤202,获取各内容片段所包含的内容以及各内容片段的属性信息。
其中,内容片段的属性信息,可以包括内容片段所在文档的文档名称、内容片段对应的章节标题、内容片段对应的章节标题的各级父标题中的至少一个。
在示例实施例中,以属性信息包括文档名称、章节标题、各级父标题为例,每个内容片段所包含的内容、以及内容片段的属性信息,可以以结构体的形式进行保存,结构体中的字段可以包括名称为“文档名称”的字段、名称为“章节标题”的字段、名称为“各级父标题”的字段以及名称为“内容片段”的字段,从而文档检索装置可以基于各结构体,获取对应内容片段所包含的内容以及对应的属性信息。
步骤203,基于各内容片段所包含的内容,获取查询语句与对应的内容片段之间的内容相关度,以及基于各内容片段的属性信息,获取查询语句与对应的内容片段之间的属性相关度。
其中,在内容片段的属性信息包括文档名称、章节标题、各级父标题等多个信息时,相应的,对于每个内容片段,可以基于各属性信息,获取查询语句与对应的内容片段之间的各属性相关度。
在示例实施例中,可以对查询语句进行分词,并根据各分词在某个内容片段所包含的内容中出现的次数,确定查询语句与该内容片段之间的内容相关度。比如,在各分词在某个内容片段所包含的内容中出现的次数越多时,则确定查询语句与该内容片段之间的内容相关度越高;在各分词在某个内容片段所包含的内容中出现的次数越少时,则确定查询语句与该内容片段之间的内容相关度越低。
类似的,可以对查询语句进行分词,并根据各分词在某个内容片段的属性信息中出现的次数,确定查询语句与该内容片段之间的属性相关度。比如,在各分词在某个内容片段的文档名称中出现的次数越多时,则确定查询语句与该内容片段之间的对应文档名称的属性相关度越高;在各分词在某个内容片段的文档名称中出现的次数越少时,则确定查询语句与该内容片段之间的对应文档名称的属性相关度越低。
举例来说,假设查询语句为“变压器类型”,属性信息包括文档名称、章节标题,则可以对查询语句进行分词,得到“变压器”及“类型”,进而根据各内容片段所包含的内容中出现“变压器”及“类型”的次数,确定查询语句“变压器类型”与对应内容片段之间的内容相关度,并根据各内容片段所在文档的文档名称中出现“变压器”及“类型”的次数,确定查询语句“变压器类型”与对应内容片段之间的对应文档名称的属性相关度,并根据各内容片段对应的章节标题中出现“变压器”及“类型”的次数,确定查询语句“变压器类型”与对应内容片段之间的对应章节标题的属性相关度。
步骤204,基于查询语句与各内容片段之间的内容相关度以及属性相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段。
在示例实施例中,可以设置内容相关度对应的第二相关度阈值,以及属性相关度对应的第三相关度阈值,进而可以将多个内容片段中,对应的内容相关度大于第二相关度阈值,和/或对应的属性相关度大于第三相关度阈值的内容片段,确定为与查询语句相关的多个候选内容片段。其中,第二相关度阈值与第三相关度阈值可以根据需要设置,此处不作限制。
由此,可以从所有文档包括的所有内容片段中,准确获取与查询语句相关程度较高的多个候选内容片段。
在示例实施例中,还可以设置内容相关度以及属性相关度具有对应的权重。为了便于区分,将内容相关度对应的权重称为第一权重,将属性相关度对应的权重称为第二权重。即内容相关度具有对应的第一权重,属性相关度具有对应的第二权重。其中,在内容片段的属性信息包括多个时,对应各属性信息的属性相关度,可以分别设置对应的权重,且各属性相关度对应的权重可以相同,也可以不同,此处不作限制。其中,第一权重和第二权重可以通过实验确定,也可以根据经验确定,或者通过其它方式确定,本申请对此不作限制。
相应的,步骤204可以通过以下方式实现:基于各内容相关度和对应的第一权重,以及各属性相关度和对应的第二权重,确定查询语句与对应的内容片段之间的第二相关度;基于查询语句与各内容片段之间的第二相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段。
其中,对于每个内容片段,可以基于内容相关度与对应的第一权重,以及属性相关度与对应的第二权重,确定内容相关度与属性相关度的加权和,并将加权和作为查询语句与该内容片段之间的第二相关度。进而,可以将多个内容片段中,对应的第二相关度大于第四相关度阈值的内容片段,确定为候选内容片段,或者将对应的第二相关度最高的预设数量的内容片段(即将各内容片段按照对应的第二相关度从高到低的顺序排列后,排序在前的预设数量的内容片段),确定为候选内容片段。
由此,通过设置内容相关度具有对应的第一权重,属性相关度具有对应的第二权重,并基于各内容相关度和对应的第一权重,以及各属性相关度和对应的第二权重,从多个内容片段中获取候选内容片段,实现了根据需要灵活调整确定内容片段与查询语句之间的相关程度的方式。
在示例实施例中,步骤202-204通过文档检索装置实现,也可以基于检索引擎实现,比如以属性信息包括文档名称、章节标题、各级父标题为例,可以预先将各内容片段所包含的内容以及各内容片段对应的文档名称、章节标题、各级父标题,以结构体的形式保存,结构体中的字段可以对应包括名称为“内容片段”的字段、名称为“文档名称”的字段、名称为“章节标题”的字段,以及名称为“各级父标题”的字段。从而在文档检索装置获取查询语句后,可以对查询语句进行分词,并将查询语句中所有分词分别与“文档名称”、“章节标题”、“各级父标题”以及“内容片段”拼接,得到检索条件,并将该检索条件输入检索引擎,以基于检索引擎采用上述实施例所示的方式,获取查询语句与各内容片段之间的第二相关度,进而从多个内容片段中,获取与查询语句相关的多个候选内容片段,再将多个候选内容片段返回文档检索装置。
步骤205,采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度。
步骤206,基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。
其中,步骤205-206的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
综上,本申请实施例提供的文档检索方法,获取查询语句,获取各内容片段所包含的内容以及各内容片段的属性信息,基于各内容片段所包含的内容,获取查询语句与对应的内容片段之间的内容相关度,以及基于各内容片段的属性信息,获取查询语句与对应的内容片段之间的属性相关,基于查询语句与各内容片段之间的内容相关度以及属性相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段,采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度,基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。由此,实现了自动进行文档检索,降低了文档检索所需的人力成本及时间成本,且通过根据基于AI技术获取的文档中各内容片段与查询语句之间的相关程度,获取与查询语句匹配的目标内容片段,实现了从文档中精确确定能够回答用户问题的具体内容,为准确提供用户问题的答案奠定了基础。
下面结合图3,对本申请实施例提供的文档检索方法中,采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度的过程进行进一步说明。
图3是根据本申请第三实施例的文档检索方法的流程图,如图3所示,该方法包括:
步骤301,获取查询语句。
步骤302,基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段。
其中,步骤301-302的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
步骤303,对于每个候选内容片段,获取对应的属性信息,并将属性信息与候选内容片段进行拼接,以得到对应的拼接结果。
其中,候选内容片段的属性信息,可以包括候选内容片段所在的文档名称、候选内容片段对应的章节标题、章节标题的各级父标题中的至少一个。
在示例实施例中,对于每个候选内容片段,可以获取对应的文档名称、章节标题、章节标题的父标题,并将文档名称、章节标题、章节标题的父标题与候选内容片段进行拼接,以得到对应的拼接结果。
步骤304,将查询语句以及候选内容片段对应的拼接结果,输入相关度模型,以获取查询语句与候选内容片段之间的第一相关度。
在示例实施例中,可以将查询语句以及候选内容片段对应的拼接结果,输入相关度模型,以使相关度模型基于查询语句以及候选内容片段本身的内容和属性信息,确定候选内容片段与查询语句之间的相关程度,并输出第一相关度,从而文档检索装置可以根据相关度模型的输出,获取查询语句与候选内容片段之间的第一相关度。
或者,对于每个候选内容片段,也可以仅将查询语句与候选内容片段输入相关度模型,以获取查询语句与候选内容片段之间的第一相关度。
步骤305,基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。
进一步的,基于该目标内容片段,可以得到用于回答查询语句的答案。
需要说明的是,文档检索装置可以提供交互界面,从而可以通过交互界面,展示回答查询语句的答案,另外,文档检索装置在获取目标内容片段的同时,还可以获取目标内容片段的属性信息,并通过交互界面展示目标内容片段、对应的属性信息以及包含目标内容片段的段落或表格等,以使用户可以更清楚的了解查询语句的答案出处。
参考图4,用户可以在文档检索装置提供的交互界面中输入问题“终端出厂型号参数能支持主站擦写的吗”,并点击“开始检索”按钮启动文档检索过程,相应的,文档检索装置可以获取查询语句“终端出厂型号参数能支持主站擦写的吗”。在文档检索装置通过上述实施例所示的方式,获取图5所示的与查询语句相关的多个候选内容片段后,可以获取查询语句与各候选内容片段之间的第一相关度(即图5中的置信度),并且获取各候选内容片段的属性信息(即图5中的文档编号列中的各文档编号、文档名称列中的各文档名称、章节序号列中的各章节序号、章节标题列中的各章节标题),进而将对应的第一相关度最高的候选内容片段(即序号为1的候选内容片段)确定为目标内容片段,进而通过图4所示的交互界面展示目标内容片段以及对应的属性信息等。
其中,图5中最左侧的序号列中的各序号,用于唯一标识对应的候选内容字段。文档编号列中的各文档编号,用于对候选内容片段所在的文档进行唯一标识。文档名称列中的各文档名称,为对应的候选内容片段所在的文档的名称。章节序号列中的各章节序号,为对应的候选内容片段所在章节的序号,用于唯一标识候选内容片段所在章节。章节标题列中的各章节标题,为对应的候选内容片段所在章节的标题。候选内容片段列中的各内容片段,为对应的候选内容片段所包含的内容。置信度列中的各置信度,为相关度模型确定的查询语句与对应的候选内容片段之间的第一相关度。
综上,本申请实施例提供的文档检索方法,获取查询语句,基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段,对于每个候选内容片段,获取对应的属性信息,并将属性信息与候选内容片段进行拼接,以得到对应的拼接结果,将查询语句以及候选内容片段对应的拼接结果,输入相关度模型,以获取查询语句与候选内容片段之间的第一相关度,基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。由此,实现了自动进行文档检索,降低了文档检索所需的人力成本及时间成本,且通过根据基于AI技术获取的文档中各内容片段与查询语句之间的相关程度,获取与查询语句匹配的目标内容片段,实现了从文档中精确确定能够回答用户问题的具体内容,为准确提供用户问题的答案奠定了基础。另外,通过采用自然语言处理NLP领域的相关度模型,基于查询语句、各候选内容片段的属性信息以及候选内容片段本身所包含的内容,确定各候选内容片段与查询语句之间的第一相关度,进一步提高了确定的目标内容片段的准确性。
通过上述分析可知,可以预先对待检索的大量文档进行处理,以得到多个内容片段,进而文档检索装置获取查询语句后,可以基于查询语句进行查询,以从多个内容片段中,获取与查询语句相关的多个候选内容片段。下面结合图6,对本申请实施例提供的文档检索方法中,对待检索的文档进行处理,以得到多个内容片段的过程进行说明。
图6是根据本申请第四实施例的文档检索方法的流程图,如图6所示,在上述实施例的基础上,该方法还可以包括以下步骤601-603。
步骤601,基于人工智能AI领域的光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果。
在示例实施例中,文档检索装置可以基于光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果。
在示例实施例中,文档检索装置也可以通过接口与文档处理平台连接,从而将各文档上传至文档处理平台,以利用文档处理平台,基于光学字符识别OCR技术,对各文档进行识别,再获取文档处理平台返回的各文档的识别结果。
在示例实施例中,文档检索装置也可以调用RPA机器人将各文档上传至文档处理平台,以利用文档处理平台,基于光学字符识别OCR技术,对各文档进行识别,再获取文档处理平台返回的各文档的识别结果。由此,在待检索的文档数量较多时,通过调用RPA机器人将各文档一一上传至文档处理平台,可以减少文档上传所需的人工成本。
参考图7的左侧附图,文档处理平台可以提供交互界面,该交互界面上可以包括用于上传文档的“上传文档”按钮以及用于启动文档识别过程的“开始识别”按钮。文档检索装置可以调用RPA机器人模拟鼠标操作,点击该交互界面上的用于上传文档的“上传文档”按钮,以将待处理的文档上传至文档处理平台,进而点击该交互界面上的用于启动文档识别过程的“开始识别”按钮,以启动文档处理平台对文档的识别过程,进而得到图7右侧附图所示的文档的识别结果。其中,图7中的“cl_num”表示章节序号,“cl_name”表示章节标题,“cl_rank”表示章节所在行,“cl_content”表示章节所包含的内容。
步骤602,对各识别结果进行结构化处理,以得到各文档中包括的多个内容片段。
在示例实施例中,文档可以包括文本和/或表格,相应的,文档的识别结果,可以包括文本识别结果和/或表格识别结果。
相应的,步骤602可以通过以下方式实现:按照预设分割方式,对文本识别结果和/或表格识别结果进行分割,以得到多个分割片段;将多个分割片段按照预设聚合方式进行聚合,以得到多个内容片段,其中,每个内容片段通过至少一个分割片段聚合得到。
其中,预设分割方式,为将文档的识别结果分割为多个分割片段的方式,可以根据文档所包含的内容的类型(比如文本类型、表格类型)确定。
预设聚合方式,为将分割片段聚合得到内容片段的方式,可以根据文档所包含的内容的类型(比如文本类型、表格类型)确定。
举例来说,假设文档的识别结果包括文本识别结果,文本识别结果中包括章节序号、逗号、句号等标点符号。文档检索装置可以通过章节序号对文本识别结果进行第一次分割,再按照标点符号(一般是句号等句末标点符号)对第一次分割的结果进行第二次分割,从而将文本识别结果分割为多个句子,每个句子为一个分割片段,各分割片段按照在文档中的对应位置依次从前向后排列。
进一步的,可以给定一个特定长度,比如200个字符,再从第一个分割片段开始向后逐渐累加,直到累加后的长度大于200个字符时,将之前累加的分割片段作为一个内容片段,将当前累加的分割片段作为下一个内容片段的第一个分割片段。比如累加到第5个句子时的长度为203个字符,之前累加的句子的长度为197个字符,则将之前累加的4个句子作为一个内容片段,将第5个句子作为下一个内容片段的第一个句子,再依次将之后的句子累加,确定下一个内容片段。
参考图8,通过对左侧附图所示的文本识别结果进行结构化处理,可以得到图8右侧附图所示的多个内容片段。
或者,假设文档的识别结果包括表格识别结果,表格识别结果中包括用于区分不同单元格的分隔符号,以及单元格所在行号。文档检索装置可以通过行号对表格识别结果进行第一次分割,再按照分隔符号对第一次分割的结果进行第二次分割,从而将表格识别结果分割为多个单元格内容,每个单元格内容为一个分割片段,每行中的各分割片段按照在文档中的对应位置依次从前向后排列。进一步的,可以将每行中的各分割片段拼接为一个内容片段。
参考图9,通过对左侧附图所示的表格识别结果进行结构化处理,可以得到图9右侧附图所示的多个内容片段。
需要说明的是,上述对文本识别结果或表格识别结果进行分割的方式,以及将分割得到的多个分割片段进行聚合的方式,仅是示例性说明,不能理解为对本申请技术方案的限制,在实际应用中,本领域技术人员可以根据需要设置对文档的识别结果进行分割的预设分割方式,以及对多个分割片段进行聚合的预设聚合方式,本申请对此不作限制。
步骤603,将各内容片段与对应的内容字段对应保存。
在本申请的实施例中,可以将内容字段的名称设置为“内容片段”,并将各内容片段与对应的内容字段对应保存,从而在后续需要获取内容片段所包含的内容时,可以通过内容字段获取对应的内容片段所包含的内容。
另外,本申请实施例中,还可以将各内容片段所包含的内容以及各内容片段对应的文档名称、章节标题、各级父标题,以结构体的形式保存,结构体中的字段可以对应包括名称为“内容片段”的字段、名称为“文档名称”的字段、名称为“章节标题”的字段,以及名称为“各级父标题”的字段。
其中,步骤601-603可以在步骤102之前执行,或者在步骤202之前执行,或者在步骤302之前执行。
综上,本申请实施例提供的文档检索方法,基于光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果,对各识别结果进行结构化处理,以得到各文档中包括的多个内容片段,将各内容片段与对应的内容字段对应保存,实现了对待检索的文档进行处理,得到多个内容片段,为实现从文档中精确确定能够回答用户问题的具体内容,以准确提供用户问题的答案奠定了基础。且通过调用RPA机器人将各文档上传至文档处理平台,以利用文档处理平台,基于人工智能AI领域的OCR技术对各文档进行识别,再获取文档处理平台返回的各文档的识别结果,进而对各识别结果进行结构化处理,得到各文档中包括的多个内容片段,实现了结合RPA和AI实现IA的获取文档中的内容片段,进一步减少了文档检索所需的人工成本。
为了实现上述实施例,本申请还提出了一种文档检索装置。图10是根据本申请第五实施例的文档检索装置的结构示意图。
如图10所示,该文档检索装置1000,包括:第一获取模块1001、查询模块1002、第二获取模块1003和第三获取模块1004。
其中,第一获取模块1001,用于获取查询语句;
查询模块1002,用于基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段;
第二获取模块1003,用于采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度;
第三获取模块1004,用于基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。
需要说明的是,本申请实施例的文档检索装置1000,可以执行上述实施例提供的文档检索方法。其中,文档检索装置1000可以由软件和/或硬件实现,该文档检索装置可以为电子设备,或者也可以配置在电子设备中,以实现对文档的自动检索,从而降低文档检索所需的人力成本及时间成本,且实现基于AI技术从文档中精确确定能够回答用户问题的具体内容。其中,该电子设备可以包括但不限于终端设备、服务器等,该实施例对电子设备不作具体限定。
在本申请的一个实施例中,查询模块1002,包括:
第一获取单元,用于获取各内容片段所包含的内容以及各内容片段的属性信息;
第二获取单元,用于基于各内容片段所包含的内容,获取查询语句与对应的内容片段之间的内容相关度,以及基于各内容片段的属性信息,获取查询语句与对应的内容片段之间的属性相关度;
第三获取单元,用于基于查询语句与各内容片段之间的内容相关度以及属性相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段。
在本申请的一个实施例中,内容相关度具有对应的第一权重,属性相关度具有对应的第二权重;
第三获取单元,用于:
基于各内容相关度和对应的第一权重,以及各属性相关度和对应的第二权重,确定查询语句与对应的内容片段之间的第二相关度;
基于查询语句与各内容片段之间的第二相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段。
在本申请的一个实施例中,第二获取模块1003,包括:
第四获取单元,用于对于每个候选内容片段,将查询语句与候选内容片段输入相关度模型,以获取查询语句与候选内容片段之间的第一相关度。
在本申请的一个实施例中,第二获取模块1003,包括:
第五获取单元,用于对于每个候选内容片段,获取对应的属性信息,并将属性信息与候选内容片段进行拼接,以得到对应的拼接结果;
第六获取单元,用于将查询语句以及候选内容片段对应的拼接结果,输入相关度模型,以获取查询语句与候选内容片段之间的第一相关度。
在本申请的一个实施例中,文档检索装置1000,还包括:识别模块,用于基于人工智能AI领域的光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果;
处理模块,用于对各识别结果进行结构化处理,以得到各文档中包括的多个内容片段;
保存模块,用于将各内容片段与对应的内容字段对应保存。
在本申请的一个实施例中,识别模块,包括:
上传单元,用于调用RPA机器人将各文档上传至文档处理平台,以利用文档处理平台,基于光学字符识别OCR技术,对各文档进行识别;
第七获取单元,用于获取文档处理平台返回的各文档的识别结果。
在本申请的一个实施例中,识别结果包括文本识别结果和/或表格识别结果;
处理模块,包括:
分割单元,用于按照预设分割方式,对文本识别结果和/或表格识别结果进行分割,以得到多个分割片段;
聚合单元,用于将多个分割片段按照预设聚合方式进行聚合,以得到多个内容片段,其中,每个内容片段通过至少一个分割片段聚合得到。
在本申请的一个实施例中,属性信息,包括文档名称、章节标题、章节标题的各级父标题中的至少一个。
需要说明的是,前述对文档检索方法实施例的解释说明也适用于该实施例的文档检索装置,本申请文档检索装置实施例中未公布的细节,此处不再赘述。
综上,本申请实施例的文档检索装置,获取查询语句,基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段,采用自然语言处理NLP领域的相关度模型,获取查询语句与各候选内容片段之间的第一相关度,基于各第一相关度,从各候选内容片段中获取与查询语句匹配的目标内容片段。由此,实现了自动进行文档检索,降低了文档检索所需的人力成本及时间成本,且通过根据基于AI技术获取的文档中各内容片段与查询语句之间的相关程度,获取与查询语句匹配的目标内容片段,实现了从文档中精确确定能够回答用户问题的具体内容,为准确提供用户问题的答案奠定了基础。
为了实现上述实施例,本申请实施例还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如前述任一方法实施例所述的文档检索方法。
为了实现上述实施例,本申请实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述任一方法实施例所述的文档检索方法。
为了实现上述实施例,本申请实施例还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如前述任一方法实施例所述的文档检索方法。
图11示出了适于用来实现本申请实施方式的示例性电子设备的框图。图11显示的电子设备11仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,电子设备11以通用计算设备的形式表现。电子设备11的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备11典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备11访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备11可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图11未显示,通常称为“硬盘驱动器”)。尽管图11中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
电子设备11也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备11交互的设备通信,和/或与使得该电子设备11能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备11还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图11所示,网络适配器20通过总线18与电子设备11的其它模块通信。应当明白,尽管图11中未示出,可以结合电子设备11使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (15)
1.一种文档检索方法,其特征在于,包括:
获取查询语句;
基于所述查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与所述查询语句相关的多个候选内容片段;
采用自然语言处理NLP领域的相关度模型,获取所述查询语句与各所述候选内容片段之间的第一相关度;
基于各所述第一相关度,从各所述候选内容片段中获取与所述查询语句匹配的目标内容片段。
2.根据权利要求1所述的方法,其特征在于,所述基于所述查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与所述查询语句相关的多个候选内容片段,包括:
获取各所述内容片段所包含的内容以及各所述内容片段的属性信息;
基于各所述内容片段所包含的内容,获取所述查询语句与对应的内容片段之间的内容相关度,以及基于各所述内容片段的属性信息,获取所述查询语句与对应的内容片段之间的属性相关度;
基于所述查询语句与各所述内容片段之间的所述内容相关度以及所述属性相关度,从多个所述内容片段中,获取与所述查询语句相关的多个候选内容片段。
3.根据权利要求2所述的方法,其特征在于,所述内容相关度具有对应的第一权重,所述属性相关度具有对应的第二权重;
所述基于所述查询语句与各所述内容片段之间的所述内容相关度以及所述属性相关度,从多个所述内容片段中,获取与所述查询语句相关的多个候选内容片段,包括:
基于各所述内容相关度和对应的第一权重,以及各所述属性相关度和对应的第二权重,确定所述查询语句与对应的内容片段之间的第二相关度;
基于所述查询语句与各所述内容片段之间的第二相关度,从多个所述内容片段中,获取与所述查询语句相关的多个候选内容片段。
4.根据权利要求1所述的方法,其特征在于,所述采用自然语言处理NLP领域的相关度模型,获取所述查询语句与各所述候选内容片段之间的第一相关度,包括:
对于每个所述候选内容片段,将所述查询语句与所述候选内容片段输入所述相关度模型,以获取所述查询语句与所述候选内容片段之间的第一相关度。
5.根据权利要求1所述的方法,其特征在于,所述采用自然语言处理NLP领域的相关度模型,获取所述查询语句与各所述候选内容片段之间的第一相关度,包括:
对于每个所述候选内容片段,获取对应的属性信息,并将所述属性信息与所述候选内容片段进行拼接,以得到对应的拼接结果;
将所述查询语句以及所述候选内容片段对应的拼接结果,输入所述相关度模型,以获取所述查询语句与所述候选内容片段之间的第一相关度。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与所述查询语句相关的多个候选内容片段之前,还包括:
基于人工智能AI领域的光学字符识别OCR技术,对各所述文档进行识别,以获取各所述文档的识别结果;
对各所述识别结果进行结构化处理,以得到各所述文档中包括的多个所述内容片段;
将各所述内容片段与对应的内容字段对应保存。
7.根据权利要求6所述的方法,其特征在于,所述基于人工智能AI领域的光学字符识别OCR技术,对各所述文档进行识别,以获取各所述文档的识别结果,包括:
调用RPA机器人将各所述文档上传至文档处理平台,以利用所述文档处理平台,基于所述光学字符识别OCR技术,对各所述文档进行识别;
获取所述文档处理平台返回的各所述文档的识别结果。
8.根据权利要求6所述的方法,其特征在于,所述识别结果包括文本识别结果和/或表格识别结果;
所述对各所述识别结果进行结构化处理,以得到各所述文档中包括的多个所述内容片段,包括:
按照预设分割方式,对所述文本识别结果和/或所述表格识别结果进行分割,以得到多个分割片段;
将多个所述分割片段按照预设聚合方式进行聚合,以得到多个所述内容片段,其中,每个所述内容片段通过至少一个所述分割片段聚合得到。
9.根据权利要求2、3或5中任一项所述的方法,其特征在于,所述属性信息,包括文档名称、章节标题、所述章节标题的各级父标题中的至少一个。
10.一种文档检索装置,其特征在于,包括:
第一获取模块,用于获取查询语句;
查询模块,用于基于所述查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与所述查询语句相关的多个候选内容片段;
第二获取模块,用于采用自然语言处理NLP领域的相关度模型,获取所述查询语句与各所述候选内容片段之间的第一相关度;
第三获取模块,用于基于各所述第一相关度,从各所述候选内容片段中获取与所述查询语句匹配的目标内容片段。
11.根据权利要求10所述的装置,其特征在于,所述查询模块,包括:
第一获取单元,用于获取各所述内容片段所包含的内容以及各所述内容片段的属性信息;
第二获取单元,用于基于各所述内容片段所包含的内容,获取所述查询语句与对应的内容片段之间的内容相关度,以及基于各所述内容片段的属性信息,获取所述查询语句与对应的内容片段之间的属性相关度;
第三获取单元,用于基于所述查询语句与各所述内容片段之间的所述内容相关度以及所述属性相关度,从多个所述内容片段中,获取与所述查询语句相关的多个候选内容片段。
12.根据权利要求11所述的装置,其特征在于,所述内容相关度具有对应的第一权重,所述属性相关度具有对应的第二权重;
所述第三获取单元,用于:
基于各所述内容相关度和对应的第一权重,以及各所述属性相关度和对应的第二权重,确定所述查询语句与对应的内容片段之间的第二相关度;
基于所述查询语句与各所述内容片段之间的第二相关度,从多个所述内容片段中,获取与所述查询语句相关的多个候选内容片段。
13.根据权利要求10所述的装置,其特征在于,所述第二获取模块,包括:
第四获取单元,用于对于每个所述候选内容片段,将所述查询语句与所述候选内容片段输入所述相关度模型,以获取所述查询语句与所述候选内容片段之间的第一相关度。
14.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-9中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-9中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210637019.1A CN114925174A (zh) | 2022-06-07 | 2022-06-07 | 文档检索方法、装置及电子设备 |
PCT/CN2022/100569 WO2023236253A1 (zh) | 2022-06-07 | 2022-06-22 | 文档检索方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210637019.1A CN114925174A (zh) | 2022-06-07 | 2022-06-07 | 文档检索方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114925174A true CN114925174A (zh) | 2022-08-19 |
Family
ID=82813388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210637019.1A Pending CN114925174A (zh) | 2022-06-07 | 2022-06-07 | 文档检索方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114925174A (zh) |
WO (1) | WO2023236253A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610775A (zh) * | 2023-07-20 | 2023-08-18 | 科大讯飞股份有限公司 | 人机交互方法、装置、设备及存储介质 |
CN117112773A (zh) * | 2023-09-08 | 2023-11-24 | 中航机载***共性技术有限公司 | 一种基于nlp的适航非结构化数据的搜索方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633407B (zh) * | 2018-06-20 | 2022-05-24 | 百度在线网络技术(北京)有限公司 | 信息检索方法、装置、设备及计算机可读介质 |
CN112100326B (zh) * | 2020-08-28 | 2023-04-18 | 广州探迹科技有限公司 | 一种抗干扰的融合检索和机器阅读理解的问答方法及*** |
CN112528681A (zh) * | 2020-12-18 | 2021-03-19 | 北京百度网讯科技有限公司 | 跨语言检索及模型训练方法、装置、设备和存储介质 |
CN112818111B (zh) * | 2021-01-28 | 2023-07-25 | 北京百度网讯科技有限公司 | 文档推荐方法、装置、电子设备和介质 |
CN113704427A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 一种文本出处的确定方法、装置、设备及存储介质 |
-
2022
- 2022-06-07 CN CN202210637019.1A patent/CN114925174A/zh active Pending
- 2022-06-22 WO PCT/CN2022/100569 patent/WO2023236253A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610775A (zh) * | 2023-07-20 | 2023-08-18 | 科大讯飞股份有限公司 | 人机交互方法、装置、设备及存储介质 |
CN117112773A (zh) * | 2023-09-08 | 2023-11-24 | 中航机载***共性技术有限公司 | 一种基于nlp的适航非结构化数据的搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2023236253A1 (zh) | 2023-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399457B (zh) | 一种智能问答方法和*** | |
US10740678B2 (en) | Concept hierarchies | |
CN111858859A (zh) | 自动问答处理方法、装置、计算机设备及存储介质 | |
CN114925174A (zh) | 文档检索方法、装置及电子设备 | |
CN111930792B (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
WO2023236252A1 (zh) | 答案生成方法、装置、电子设备及存储介质 | |
CN112749547A (zh) | 文本分类器训练数据的产生 | |
US11481425B2 (en) | Automatic generation of presentation slides from documents | |
US11887011B2 (en) | Schema augmentation system for exploratory research | |
EP4145303A1 (en) | Information search method and device, electronic device, and storage medium | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及*** | |
CN108563645B (zh) | His***的元数据翻译方法和装置 | |
CN114840662A (zh) | 事件信息抽取方法、装置及电子设备 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN116881425A (zh) | 一种通用型文档问答实现方法、***、设备及存储介质 | |
CN114003725A (zh) | 信息标注模型的构建方法以及信息标注的生成方法 | |
EP4336379A1 (en) | Tracking concepts within content in content management systems and adaptive learning systems | |
CN113806500A (zh) | 信息处理方法、装置和计算机设备 | |
CN117370190A (zh) | 测试用例生成方法、装置、电子设备和存储介质 | |
CN117709866A (zh) | 一种标书生成方法及***、计算机可读存储介质 | |
CN111881695A (zh) | 一种审计知识的检索方法及装置 | |
Vinciarelli et al. | Application of information retrieval technologies to presentation slides | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN113722434B (zh) | 一种文本数据处理的方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |