CN112148702B - 一种文件检索的方法及设备 - Google Patents

一种文件检索的方法及设备 Download PDF

Info

Publication number
CN112148702B
CN112148702B CN202011010296.7A CN202011010296A CN112148702B CN 112148702 B CN112148702 B CN 112148702B CN 202011010296 A CN202011010296 A CN 202011010296A CN 112148702 B CN112148702 B CN 112148702B
Authority
CN
China
Prior art keywords
legal
text
search
retrieval
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011010296.7A
Other languages
English (en)
Other versions
CN112148702A (zh
Inventor
朱弘煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Zhitong Consulting Co Ltd Shanghai Branch
Original Assignee
Ping An Zhitong Consulting Co Ltd Shanghai Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Zhitong Consulting Co Ltd Shanghai Branch filed Critical Ping An Zhitong Consulting Co Ltd Shanghai Branch
Priority to CN202011010296.7A priority Critical patent/CN112148702B/zh
Publication of CN112148702A publication Critical patent/CN112148702A/zh
Application granted granted Critical
Publication of CN112148702B publication Critical patent/CN112148702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于人工智能技术领域,提供了一种文件检索的方法及设备,包括:接收检索请求;所述检索请求包含目标文本以及检索类型;基于预设的法律知识图谱,生成关于所述目标文本的文本向量;选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段;从文件数据库中选取与所述检索语段匹配的目标法律文件,生成检索结果。本申请通过法律知识图谱对目标文本进行语义分析,提取对应的文本向量,用户可以通过自然语言描述所需搜索的问题,而无需思考对应的关键词,从而能够降低了检索问题的描述难度。

Description

一种文件检索的方法及设备
技术领域
本申请属于人工智能技术领域,尤其涉及一种文件检索的方法及设备。
背景技术
随着法律知识的普及,广大民众与法律案件接触机会越来越多,因工作需要或个人兴趣等原因,用户可以选取特定的案件进行查阅。但由于法律案件数量众多,若需要用户进行手动筛选案件,则会大大增加了用户选取案件所需时长,从而增加了案件选取的难度。因此,如何提供高效的法律案件的检索手段则成为当前急需解决的问题。
现有的法律案件的检索技术,主要采用基于关键词进行搜索,判断文本中是否存在用户输入的关键词,但由于用户法律知识受限,往往无法准确表达所需检索的关键词,因此通过关键词搜索往往会增加检索难度,并且不同关键词在检索过程中相互独立,检索结果内往往会出现大量与检索请求之间关联度较低的法律文件,从而降低了搜索效率。
发明内容
有鉴于此,本申请实施例提供了一种文件检索的方法及设备,以解决现有的文件检索技术,主要采用基于关键词进行搜索,增加了检索难度以及降低了搜索效率的问题。
本申请实施例的第一方面提供了一种文件检索的方法,包括:
接收检索请求;所述检索请求包含目标文本以及检索类型;
基于预设的法律知识图谱,生成关于所述目标文本的文本向量;
选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段;
从文件数据库中选取与所述检索语段匹配的目标法律文件,生成检索结果。
本申请实施例的第二方面提供了一种文件检索的装置,包括:
检索请求接收单元,用于接收检索请求;所述检索请求包含目标文本以及检索类型;
文本向量生成单元,用于基于预设的法律知识图谱,生成关于所述目标文本的文本向量;
检索语段生成单元,用于选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段;
检索结果输出单元,用于从文件数据库中选取与所述检索语段匹配的目标法律文件,生成检索结果。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的各个步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面的各个步骤。
实施本申请实施例提供的一种文件检索的方法及设备具有以下有益效果:
本申请实施例在接收到用户发起的检索请求后,可以将检索请求内包含的目标文本导入到预先建立的法律知识图谱内,得到与目标文本相关联的文本向量,并基于检索类型确定关联的检索模型,将文本向量导入到检索模型内,生成对应的检索语段,通过检索语段确定检索请求对应的目标法律文件,生成检索结果,实现了文件精准检索的目的。与现有的文件检索技术相比,本申请通过法律知识图谱对目标文本进行语义分析,提取对应的文本向量,用户可以通过自然语言描述所需搜索的问题,而无需思考对应的关键词,从而能够降低了检索问题的描述难度;另一方面,根据不同的检索类型配置对应的检索模型,从而使得检索语段更为准确,大大降低了低相关度文件的数量,从而提高了检索效率,实现了精准检索的目的。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请第一实施例提供的一种文件检索的方法的实现流程图;
图2是本申请第二实施例提供的一种文件检索的方法S102具体实现流程图;
图3是本申请第三实施例提供的一种文件检索的方法具体实现流程图;
图4是本申请一实施例提供的法律知识图谱的示意图;
图5是本申请第四实施例提供的一种文件检索的方法S302具体实现流程图;
图6是本申请第五实施例提供的一种文件检索的方法S103具体实现流程图;
图7是本申请第六实施例提供的一种文件检索的方法S103具体实现流程图;
图8是本申请第七实施例提供的一种文件检索的方法S104具体实现流程图;
图9是本申请一实施例提供的一种文件检索的设备的结构框图;
图10是本申请另一实施例提供的一种终端设备的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例在接收到用户发起的检索请求后,可以将检索请求内包含的目标文本导入到预先建立的法律知识图谱内,得到与目标文本相关联的文本向量,并基于检索类型确定关联的检索模型,将文本向量导入到检索模型内,生成对应的检索语段,通过检索语段确定检索请求对应的目标法律文件,生成检索结果,实现了文件精准检索的目的,解决了现有的法律案件的检索技术,主要采用基于关键词进行搜索,判断文本中是否存在用户输入的关键词,但由于用户法律知识受限,往往无法准确表达所需检索的关键词,因此通过关键词搜索往往会增加检索难度,并且不同关键词在检索过程中相互独立,检索结果内往往会出现大量与检索请求之间关联度较低的法律文件,从而降低了搜索效率的问题。
在本申请实施例中,流程的执行主体为终端设备。该终端设备包括但不限于:服务器、计算机、智能手机以及平板电脑等能够执行文件检索的任务的设备。图1示出了本申请第一实施例提供的文件检索的方法的实现流程图,详述如下:
在S101中,接收检索请求;所述检索请求包含目标文本以及检索类型。
在本实施例中,终端设备可以接收用户发起的检索请求。用户在需要对法律文件进行检索时,可以通过本地的用户终端生成一个检索请求,并将检索请求发送给终端设备,终端设备对上述检索请求予以相应。在一种可能的实现方式中,该终端设备具体为一文件数据库服务器,该文件数据库服务器存储有多个法律文件,数据库服务器可以根据用户发起的检索请求,将文件数据库内与检索请求关联的法律文件,生成一检索结果,并反馈给用户终端,以响应用户的查询以及检索请求。在该情况下,用户终端可以安装有与数据库服务器对应的客户端程序,该客户端程序可以在用户终端上生成检索页面,用户可以在检索页面内输入与检索请求相关的信息,并通过点击检索页面上的控件,例如“发起检索”、“开始检索”等按键,生成检索请求,客户端程序可以将上述生成的检索请求发送给文件数据库服务器,以激活检索流程。
在一种可能的实现方式中,各个向终端设备发起检索请求的用户终端以及提供检索服务的终端设备可以构成一区块链***,即各个用户终端以及终端设备均作为上述区块链***的区块节点。上述检索请求可存储于区块链节点中,采用区块链网络对生成的检索请求记录进行存储,使得记录信息不易被篡改。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。各个用户终端可以通过区块链***查询其他用户终端发起的检索请求,实现了检索请求的任务回放以及任务复用,避免了检索请求的重复发起。
在本实施例中,该检索请求包含有与所需检索的法律文件相关的目标文本,以及本次检索操作对应的检索类型。其中,该目标文本可以包含有检索请求对应的检索关键词,例如“刑法”、“民法”、“婚姻法”等与法律知识相关的相互独立的至少一个关键词;该目标文本还可以为通过自然语言描述的法律知识、法律问题或法律段落等信息,如“夫妻婚前共同集资30万作为首付购买一套物业,后续由妻子承担月供所需的费用,若离婚房产归属所涉及法律条款有哪些”。与现有的检索手段不同的是,上述目标文本不限于检索关键词,而是可以是基于自然语言构成的语句或段落,还可以是所需要进行检索的法律文件,从而提高了检索操作的自由度。上述检索类型用于限定本次检索操作中,搜索目标法律文件的检索规则。
在一种可能的实现方式中,上述检索类型包括但不限于:相似检索、相关检索以及问答检索。其中,相似检索具体为从文件数据库中选取与目标文本的信息内容相似的法律文件作为目标法律文件,即内容与目标文本是相近或相同的法律文件;相关检索具体为从文件数据库中选取与目标文本的法律内容相关的法律文件作为目标法律文件,由于一个案件,从开案到结案过程中,会存在大量的法律文件,例如起诉状、法律证据、判决书等,甚至存在多个诉讼过程,例如存在上诉的情况,不同的诉讼过程也存在多个不同的法律文件,因此,相关检索可以检索与目标文本存在关联关系的法律文件,作为目标法律文件;问答检索具体为从文件数据库中选取与目标文本对应的法律问题对应的法律文件作为目标法律文件,目标文本具体为一法律问题,终端设备可以对该法律问题进行语义分析,确定与该法律问题相关的法律条目以及对应的法律答案,基于法律条目以及法律答案从文件数据库中提取目标法律文件。
在一种可能的实现方式中,若检索请求不包含请求类型,则S101还可以包括:终端设备可以对用户上传的检索请求内的目标文本进行语义分析,提取目标文本的知识标签,并根据各个知识标签之间的关联关系,确定上述请求类型。具体地,上述知识标签的提取可以基于粗粒度提取,例如可以基于文本段落的粒度进行提取,确定不同文本段落对应的知识标签。例如,目标文本内的多个段落之间关联关系为问答关系,则对应的请求类型可以为“答案搜索”类型;若多个段落对应的知识标签相同或相近,则可以识别上述检索内容中多个段落属于同一文本,则识别上述的请求类型为“文本推荐类型”。
在S102中,基于预设的法律知识图谱,生成关于所述目标文本的文本向量。
在本实施例中,终端设备可以预存有法律知识图谱,该法律知识图谱可以通过云端服务器下载得到,该云端服务器下载得到的法律知识图谱,可以基于多个标准法律文本生成得到,例如根据刑法、民法以及宪法等标准法律文本,识别上述法律文本内包含的法律实体,基于各个法律实体之间的共同出现次数以及出现位置,建立不同法律实体之间的关联关系,从而构建得到上述的法律知识图谱。在一种可能的实现方式中,上述法律知识图谱还可以根据文件数据库内所有已有法律文件构建得到,同样地,终端设备可以识别上述已有法律文件内包含的法律实体,基于各个法律实体之间的共同出现次数以及出现位置,建立不同法律实体之间的关联关系,从而构建得到上述的法律知识图谱,在该情况下,若文件数据库添加有新增文件,则可以根据新增文件包含的法律实体以及各个法律实体之间的关联关系,对法律知识图谱进行更新,从而保证了法律知识图谱的有效性。
在本实施例中,终端设备预存的法律知识图谱内包含有多个知识节点,每个知识节点可以对应一个法律实体。举例性地,上述法律实体可以为“知识产权”、“商标”以及“诉讼人”等,不同法律实体之间存在对应的关联关系,例如“知识产权”包含“商标”,即前者包含后者,属于包含关系。终端设备可以为不同的法律实体创建对应的知识节点,并根据不同知识节点之间的关联关系,生成法律知识图谱。
在本实施例中,终端设备的存储模块内可以存储有多个法律文件,该法律文件可以包含标准法律文本,例如刑法、民法以及宪法等用于定义法律条款的文书;该法律文件还可以包含由各个用户在处理法律案件时生成的所有中间文本以及关于法律案件的判决结果等,例如起诉文件、答辩证据以及判决书等。终端设备可以从互联网下载上述法律文件,或者接收各个用户上传,并为每个历史案件配置对应的案件标识,存储于本地的存储模块或者存储于云端服务器。在一种可能的实现方式中,为了提高历史案件的存储效率,终端设备在存储法律文件之前,可以对所有法律文件执行查重操作,计算各个法律文件之间的重复率,若任意两个法律文件之间的重复率大于预设的重复阈值,则识别上述两个法律文件为同一案件,合并重复率大于预设重复阈值的多个法律文件,从而能够减少存储设备内的数据重复率,提高了数据库的存储效率。
在本实施例中,终端设备可以对目标文本进行语义分析,判断该目标文本内是否包含有法律知识图谱内包含的法律实体,根据各个法律实体的出现位置以及出现次数等信息,生成上述的文本向量。
在S103中,选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段。
在本实施例中,根据检索类型的不同,在执行检索操作时所对应的检索规则也存在差异,即目标文本与所需检索的目标法律文件之间的对应关系不同。基于此,终端设备需要根据检索类型确定与之对应的检索模型。即上述文本向量具体用于确定目标文本的语义,而从文件数据库中检索目标法律文件的过程,需要根据目标文本的语义确定对应的检索语段,因此需要将文本向量导入到上述与检索类型相关的检索模型内,输出关联的检索语段。
在一种可能的实现方式中,终端设备可以存储有各个检索模型库,并为各个检索模型配置关联的检索类型。终端设备可以根据检索请求的检索类型,从检索模型库中提取对应的检索模型。该检索模型可以从云端服务器处下载得到,在该情况下,云端服务器可以根据预设的周期更新各个检索模型,并向各个终端设备发送更新后的检索模型。
在本实施例中,该检索语段包含有检索关键词,以及各个检索关键词之间的关联关系。例如,该检索语段包含有多个检索关键词,则检索语段限定了各个检索关键词之间的和、或、非等关联关系,从而生成对应的检索语段。举例性地,上述检索语段具体为{刑法and(经济诈骗or***)and处罚},从而从文件数据库中选取包含上述检索关键词或文件标签包含上述检索关键词的法律文件作为目标法律文件。
在S104中,从文件数据库中选取与所述检索语段匹配的目标法律文件,生成检索结果。
在本实施例中,终端设备可以根据检索语段内包含的检索关键词,与文件数据库内各个法律文件的文件标签以及文件内容进行匹配,基于匹配结果从所有法律文件选取出与检索请求相匹配的目标法律文件,并基于各个目标法律文件的文件标识以及存储索引,生成上述的检索结果,以便用户根据该检索结果下载得到对应的法律文件。当然,上述检索结果可以包含有关于各个目标法律文件的文件概述,以方便用户了解该目标法律文件的具体内容。上述文件标识包括但不限于:文件名、文件编号等用于唯一标识各个文件的符号。
在一种可能的实现方式中,若检索语段内包含的检索关键词包含多个,终端设备可以根据文件数据库内的法律文件中包含的检索关键词的个数,确定各个法律文件在检索结果中的显示次序,匹配的检索关键词的个数越大,则显示次序越靠前。若多个历史案件包含的检索关键词的个数相同,则可以根据各个检索关键词在目标法律文件中出现次数,确定各个目标法律文件在文件检索结果中的显示次序,其中,出现次数越多的历史案件则显示次序越靠前。
在一种可能的实现方式中,在S104之后还可以包括:获取用户基于检索结果反馈的操作记录,上述操作记录包括用户从检索结果提供的所有目标法律文件中对应的选择操作,或重新调整目标文本发起新的检索请求的检索操作。基于用户的操作记录,确定上述检索结果的检索准确率,基于上述检索准确率、操作记录以及文本向量,对上述检索模型进行调整,以使输出的检索语段更加符合检索请求的要求。具体地,若该操作记录包含有用户从检索结果中选取的目标法律文件,则可以根据目标法律文件对应的文件标签作为训练输出,将检索请求对应的文本向量作为训练输入,对该检索请求对应的检索模型进行训练。
以上可以看出,本申请实施例提供的一种文件检索的方法在接收到用户发起的检索请求后,可以将检索请求内包含的目标文本导入到预先建立的法律知识图谱内,得到与目标文本相关联的文本向量,并基于检索类型确定关联的检索模型,将文本向量导入到检索模型内,生成对应的检索语段,通过检索语段确定检索请求对应的目标法律文件,生成检索结果,实现了文件精准检索的目的。与现有的文件检索技术相比,本申请通过法律知识图谱对目标文本进行语义分析,提取对应的文本向量,用户可以通过自然语言描述所需搜索的问题,而无需思考对应的关键词,从而能够降低了检索问题的描述难度;另一方面,根据不同的检索类型配置对应的检索模型,从而使得检索语段更为准确,大大降低了低相关度文件的数量,从而提高了检索效率,实现了精准检索的目的。
图2示出了本申请第二实施例提供的一种文件检索的方法S102的具体实现流程图。参见图2,相对于图1所述实施例,本实施例提供的一种文件检索的方法中S102包括:S1021~S1024,具体详述如下:
进一步地,所述基于预设的法律知识图谱,生成关于所述目标文本的文本向量,包括:
在S1021中,获取预设的划分粒度信息;所述划分粒度信息包含N个划分层级;所述N为不小于1的正整数。
在本实施例中,终端设备可以在对目标文本进行语义分析时,可以基于多个不同的粒度进行语义分析,因此终端设备预先配置有多个对信息进行划分的粒度,例如,上述粒度可以分为章、节、段落、句子、语段等多个不同的粒度。终端设备可以将所需划分的粒度层级进行封装,生成上述的划分粒度信息,该划分粒度信息可以限定有至少一个的划分层级,每一划分层级对应一个划分粒度。
可选地,上述划分层级可以是连续划分层级,在该情况下,上述粒度划分信息可以配置有初始划分层级,以及层级数,基于初始划分层级以及层级数,由于划分层级是连续的,因此可以基于划分层级表,即可以确定与初始划分层级连续的多个划分层级,确定其他划分层级。举例性地,表1示出了本申请一实施例提供的划分层级表,参见表1所述,该划分层级表包含有章、节、段落、句子、语段共五个划分层级。若上述划分粒度信息内的初始划分层级为段落,划分层级数为3,则可以确定该划分层级信息具体限定后续生成文本向量时,具体通过段落、句子、语段三个层级对目标文本进行划分。
表1
可选地,上述划分层级可以是非连续的划分层级。在该情况下,上述划分粒度信息除了限定包含的划分层级个数外,还可以为各个划分层级配置对应的划分粒度,终端设备可以根据各个划分粒度信息中的划分粒度,对目标文本进行划分。
在一种可能的实现方式中,终端设备可以对目标文本的进行初步解析,确定该目标文本的文本类型,基于文本类型确定与之对应的划分粒度信息。举例性地,若目标文本为一法律文章,则对应的文本类型为文章类型,则可以配置3层划分层级的划分粒度信息;若目标文本为一法律期刊,该法律期刊内包含多个法律文章,则对应的文本类型为书籍类型,则可以配置包含5层划分层级的划分粒度信息。
在S1022中,基于第n个划分层级,将所述目标文本划分为多个n类信息段,并基于所述法律知识图谱,各个确定所述n类信息段对应的文本标签;所述n的初始值为1。
在本实施例中,终端设备在确定了划分粒度信息后,可以确定对目标文本所需的划分层级数,并基于该划分层级数对目标文本由粗粒度到细粒度进行划分。其中,该划分层级的级数越小,则对应的粒度越粗;反之,该划分层级的技术越大,则对应的粒度越细。举例性地,若划分粒度信息中包含段落、句子、语段三个划分层级,则“段落”为第一划分层级,对应的粒度最粗;而“句子”为第二划分层级,对应的粒度次之;最后“语段”为第三划分层级,对应的粒度最细。基于此,终端设备根据划分层级的次序,依次对目标文本进行循环划分操作,并提取基于不同粒度下划分得到的信息段对应的文本标签。
在本实施例中,终端设备首先基于最低的划分层级对目标文本进行划分,得到基于第一划分层级对应的多个一类信息段。各个信息段的段落属性与所属划分层级的粒度相匹配。举例性地,若第一划分层级为段落,则对应的一类信息段即为基于段落划分的多个信息段落;若第一划分层级为章,则对应的一类信息段即为基于章划分的多个信息章。
在本实施例中,终端设备在对目标文本进行划分为多个信息段后,可以通过法律知识图谱,提取关于该信息段对应的法律知识标签,并关联该法律知识标签与该n类信息段。需要说明的是,提取得到的法律知识标签的个数可以为1个,也可以为多个。其中,各个信息端之间关联的法律知识标签的个数可以相同也可以不同,在此不做限定。
在S1023中,若所述n小于所述N,则将所述n类信息段识别为目标文本,并增加所述n的值,返回执行所述基于第n个划分层级,将所述目标文本划分为多个n类信息段,并基于所述法律知识图谱,各个确定所述n类信息段对应的文本标签。
在本实施例中,终端设备在划分完成最低层级的信息段后,可以对基于下一划分层级对各个信息段进行进一步的划分,以提取下一粒度的信息段对应的法律知识标签,实现了自上而下、自粗到细的法律知识标签的提取操作,以提高文本向量的准确性,便于终端设备确定目标文本的语义。基于此,终端设备会判断当前的划分次数n是否到达总的划分次数N,若当前的划分次数n小于总的划分次数N,则执行S1023的操作;反正,若当前的划分次数n大于或等于总的划分次数N,则执行S1024的操作。
在本实施例中,终端设备在判断当前的划分次数未到达总的划分次数时,可以调整将本次划分得到的n类信息段重新识别为目标文本,从而迭代到上一步骤中进信息段的划分,从而得到粒度更细的n+1类信息段,并识别n+1类信息段对应的法律知识标签,并循环执行上述操作,直到最后确定了目标文本对应的N类信息段的法律知识标签。
举例性地,若在触发S1023操作时,该n为1,即划分得到1类信息段,以及确定了各个1类信息段对应的法律知识标签,此时,会将1类信息段重新识别为目标文本,返回执行S1022的操作,若该1类信息段是基于段落的粒度进行划分,则可以对各个段落进行进一步的划分,从而得到基于句子粒度对各个段落进行划分,得到每个段落对应的多个2类信息段,即属于该段落的多个句子,并为每个句子提取对应的法律知识标签。
在S1024中,若所述n大于或等于所述N,则基于所有文本标签,生成所述文本向量。
在本实施例中,终端设备在检测到当前的划分次数n与总的划分次数N相等时,则表示已经划分得到最细粒度的信息段,此时,可以根据所有已经识别的信息段对应的文本标签,生成关于目标文本的文本向量。
在本申请实施例中,通过基于不同的划分粒度对目标文本进行标签提取,从而可以得到关于不同的划分层级对应的文本标签,从而构成了目标文本对应的文本向量,从而提高了文本向量的准确性。
图3示出了本申请第三实施例提供的一种文件检索的方法的具体实现流程图。参见图3,相对于图1所述的实施例,本实施例提供的一种文件检索的方法中在所述基于预设的法律知识图谱,生成关于所述目标文本的文本向量之前,还包括:S301~S305,具体详述如下:
进一步地,在所述基于预设的法律知识图谱,生成关于所述目标文本的文本向量之前,还包括:
在S301中,获取用于构建所述法律知识图谱的法律知识标签。
在本实施例中,上述法律知识标签可以通过法律专家标注的方式,固化知识标签,还可以通过对已有的标准法律文本进行语义分析,例如通过标准文本的标题、小节名等关键区域的字符,将其作为知识标签进行固定,并基于该小节或标题所对应的正文文本,确定该知识标签对应的法律含义。
举例性地,终端设备根据法学理论体系对相关部门法进行分解与梳理,归纳总结出法律条文的核心知识标签,提炼知识标签的含义、特征、法律适用情形等要素。根据知识标签整理出法条、典型案例、主流学术观点等内容。
在S302中,基于所述文件数据库内的所有已有法律文件,确定所述法律知识标签之间的关联关系以及所述关联关系对应的关联类型;所述关联类型用于表示所述关联关系的适用场景。
在本实施例中,终端设备可以在各个已有的法律文件中标记出各个法律知识标签,获取存在多个法律知识标签的语段,即共现语段。根据各个共现语段确定共同出现的两个或以上的法律知识标签之间的连接词,确定两个法律知识标签之间的关联关系。在一种可能的实现方式中,终端设备可以统计上述关联关系在所有已有法律文件中出现次数,并基于该出现次数确定上述关联关系的置信度。上述已有文本包括但不限于:法条、指导性案例、学术观点等文本。
举例性地,如在梳理《中华人民共和国民法总则》过程中,从民事法律关系这个节点出发,按照民事主体-主体资格-民事权利能力-自然人民事权利能力-自出生始死亡止,根据知识标签的涵盖范围进行归纳,形成上下位的三元组关系,并附《中华人民共和国民法总则》13、14、15条,形成一条完整的知识链条。
在本实施例中,不同的关联关系可以对应一个关联类型,该关联类型可以基于提取该关联关系所对应的已有法律文本的文本类型确定,例如,若确定该关联关系的法律文本为法条,则该关联类型可以为法律知识类型;若确定该关联关系的已有法律文本为诉讼状,则该关联类型可以为审判知识类型。
在S303中,基于同一所述关联类型的所有所述法律知识标签之间的所述关联关系,构建所述关联类型的知识子图谱。
在本实施例中,在确定了所有法律知识标签对应的关联关系以及该关联关系对应的关联类型后,终端设备可以为不同的关联类型配置对应的知识子图谱,构建的方式具体可以为:从所有的关联关系中,选取与该关联类型匹配的关联关系,并基于选取得到的关联关系包含的法律知识标签,构建对应的知识子图谱。举例性地,上述关联类型可以包括法律知识类型以及审判知识类型,终端设备可以从所有关联关系中选取法律知识类型对应的所有关联关系,基于法律知识类型的关联关系以及包含的法律知识标签,构建法律知识类型的知识子图谱;对应的,还可以构建基于审判知识类型的知识子图谱,从而可以得到的不同关联类型的知识子图谱,提高了知识图谱内法律知识标签的统一性,从而能够提高语义分析的能力,并提高后续基于法律知识图谱进行文件检索的准确性。
在S304中,提取各个标准法律文本的核心法律标签,并在各个所述关联类型对应的所述知识子图谱内标记与所述核心法律标签匹配的关联知识标签;属于同一所述核心法律标签的各个所述关联知识标签对应的法律实体相同。
在本实施例中,每个标准法律文本可以关联有至少一个核心法律标签,该核心法律标签具体用于限定该标准法律文本具体主要描述的法律内容,例如《刑法》这一标准法律文本内包含有多个法律实体,但其核心描述的法律知识具体为“刑法”这一法律概念,因此可以将“刑法”这一法律知识标签识别为该标准法律文本对应的核心法律标签。而对于部分描述真实案件的法律文本,可以通过该真实案件所涉及的法律条目,为各个该类型的标准法律文本配置对应的核心法律标签。即该核心法律标签具体为将法律概念和/或法条进行提取,以确定各个标准法律文本所涉及的法理知识。
在本实施例中,终端设备可以在各个知识子图谱内标记出与核心法律标签匹配的关联知识标签,该关联知识标签与核心法律标签可以是具有相同名称或具有别名关系的对应同一法律知识的标签。
在S305中,根据属于同一所述核心法律标签的各个所述关联知识标签,建立多个所述关联类型的所述知识子图谱之间的关联关系,生成所述法律知识图谱。
在本实施例中,终端设备可以基于核心法律标签在各个关联类型的知识子图谱上的关联知识标签,建立不同知识子图谱之间的关联关系,实现了多个知识子图谱的融合。由于存在于不同的知识子图谱上的关联知识标签属于同一核心法律标签,即对应的法律实体相同,因此可以基于此建立不同知识子图谱之间的关系,生成法律知识图谱。
示例性地,图4示出了本申请一实施例提供的法律知识图谱的示意图。参见图4所示,该法律知识图谱包含两个知识子图谱,分别为法律知识类型的知识子图谱以及审判知识类型的知识子图谱。上述两个知识子图谱内均包含有“刑法”这一核心法律知识标签,因此可以基于“刑法”这一法律实体在上述两个知识子图谱上对应的关联知识标签,建立两个图谱之间的关联关系,从而实现了对不同关联类型的法律知识图谱的融合。
在本申请实施例中,通过基于不同的关联类型构建不同的知识子图谱,并基于核心法律标签实现对不同知识子图谱之间的融合,从而提高了法律知识图谱知识覆盖的范围以及知识梳理的能力,从而提高了语义分析的能力。
图5示出了本申请第四实施例提供的一种文件检索的方法S302的具体实现流程图。参见图5,相对于图3所述实施例,本实施例提供的一种文件检索的方法S302包括:S3021~S3022,具体详述如下:
进一步地,所述基于所述文件数据库内的所有已有法律文件,确定所述法律知识标签之间的关联关系以及所述关联关系对应的关联类型,包括:
在S3021中,对已有法律文件进行语义分析,确定所述已有法律文件对应的文本类型。
在本实施例中,终端设备可以对文件数据库内的已有法律文件进行语义分析,确定该已有法律文件对应的文本标签,该文本标签具体用于限定该已有法律文本的文本内容概况,基于所有已经配置有的文本标签,确定已有法律文本对应的文本类型。该文本类型包括但不限于:法条文本类型、法规文本类型、审判书文本类型以及证据材料文本类型等。
在S3022中,若所述已有法律文本的任一语段内包含多个所述法律知识标签,则基于所述已有法律文本的所述语段中的其他字符,确定所述多个法律知识标签之间的关联关系;所述其他字符为在所述已有法律文本的所述语段中除所述多个法律知识标签外的字符。
在S3023中,根据所述文本类型,确定所述关联关系对应的所述关联类型。
在本实施例中,终端设备除了确定已有法律文本对应的文本类型外,还可以判断该已有法律文本内是否包含以确定的多个法律知识标签,若包含,则从已有法律文本中提取该包含多个法律知识标签的共现语段,基于共现语段中不同法律知识标签之间的连接词以及该语段的具体语义,确定多个法律知识标签之间的关联关系,并根据文本类型配置识别得到的关联关系对应的关联类型。
不同的文本类型可以确定该关联关系的适用场景。若该文本类型为法律法规,则上述关联关系则用于解释不同法律知识标签之间的法律定义的关系,属于法律知识层面,应用于法律知识场景,对应的关联类型可以为法律知识类型;若该文本类型为案件证据,则上述关联关系用于解答某一案件的证据关系,属于审判知识层面,应用于审判场景,对应的关联类型可以为审判知识类型。
举例性地,上述关联关系包括但不限于:1.诉讼请求-支持关系-请求权基础;2.辩称事实-支持关系-抗辩权基础;3.诉称事实-对抗关系-辩称事实;4.诉称事件-证明关系-证据;5.辩称事实-证明关系-证据;6.事件-证明关系-证据7.证据-指向关系-证据审查规则;8.辩称-产生关系-争议焦点;9.争议焦点-产生关系-裁判理由;10.裁判理由-支持关系-裁判依据(法条)。
在本申请实施例中,通过确定提取关联关系所使用的已有法律文件的文件类型,确定该关联关系的关联类型,实现了自动配置关联关系的关联类型的目的,实现了法律知识图谱构建的自动化程度,提高了构建效率。
图6示出了本申请第五实施例提供的一种文件检索的方法S103的具体实现流程图。参见图6,相对于图1-5所述实施例,本实施例提供的一种文件检索的方法S103包括:S601~S604,具体详述如下:
进一步地,所述选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段,包括:
在S601中,若所述检索类型为关联检索,则将所述文本向量导入预设的关键词检索模型,得到所述目标文本对应的检索关键词。
在本实施例中,当检索请求的检索类型具体为关联检索时,终端设备可以选取与关联检索对应的关键词检索模型,将文本向量导入到关键词检索模型内,确定目标文本所对应的检索关键词,从而能够实现从文件数据库内选取与目标文本的内容相近或相关的已有法律文件作为目标法律文件。由于文本向量可以用于表示目标文本的语义内容,将文本向量导入到关键词检索模型,能够生成与目标文本语义相关的检索关键词,从而提高了检索关键词的准确性。
在S602中,根据预设的模糊搜索算法,生成各个所述检索关键词对应的模糊关键词。
在本实施例中,终端设备还可以配置有模糊搜索算法,将每个检索关键词导入到上述模糊检索算法内,可以输出与检索关键词存在关联关系的模糊关键词。上述检索关键词与模糊关键词之间可以是对应相同或相近法律实体的不同的关键词,也可以在法律知识图谱上与检索关键词对应的法律知识标签存在强关联关系的其他知识标签对应的关键词。
在S603中,根据所述检索关键词以及模糊关键词,确定所述目标文本的目标检索范围。
在本实施例中,终端设备可以根据检索关键词之间的关联关系,确定目标文本对应的基准检索范围,并在该基准检索范围内添加关于各个模糊关键词对应的扩展检索范围,得到目标文本对应的目标检索范围,实现了对检索范围的扩展,提高了检索操作的准确性。
在S604中,生成所述目标检索范围对应的所述检索语段。
在本实施例中,终端设备可以确定了目标文本对应的目标检索范围后,可以通过对应的检索语言描述上述的目标检索范围,生成对应的检索语段。
在本申请实施例中,在进行关联检索时,可以根据文本向量确定检索关键词,并基于检索关键词确定模糊关键词,从而能够提高检索范围,提高了检索操作的准确性。
图7示出了本申请第六实施例提供的一种文件检索的方法S103的具体实现流程图。参见图7,相对于图1至图5任一所述实施例,本实施例提供的一种文件检索的方法中S103包括:S701~S703,具体详述如下:
进一步地,所述选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段,包括:
在S701中,若所述检索类型为问答检索,则将所述文本向量导入预设的提问检索模型,得到所述目标文本关联的提问列表;所述提问列表内包含至少一个法律问题。
在本实施例中,当检索请求的检索类型具体为问答检索时,终端设备可以选取与问答检索对应的提问检索模型,将文本向量导入到提问检索模型内,确定目标文本所对应的提问列表,即确定目标文本所对应的法律问题。本次检索过程具体为确定与该法律问题相关的答案,因此,首先需要将文本向量转换为对应的提问列表。其中,若该文本向量对应多个法律问题,则提问检索模型可以输出多个法律问题的,并将多个法律问题对应的提问置信度依次添加到上述提问列表内,其中提问置信度越高,则表示该文本向量与该法律问题之间的相关性越高。
在S702中,获取各个法律问题对应的回答语段以及法律领域。
在本实施例中,终端设备可以预先建立各个法律问题对应的回答语段,即用于解答该法律问题的解释语句,并为各个法律问题配置对应的法律领域,该法律领域可以限定对应的法条。终端设备可以查询上述预先建立的对应关系,得到法律问题对应的回答语段以及法律领域。
在S703中,基于所述回答语段以及法律领域生成所述检索语段。
在本实施例中,终端设备可以基于回答语段以及法律领域,配置对应的检索关键词,并基于检索关键词生成目标文本对应的检索语段。
在本申请实施例中,在进行问答检索时,可以根据文本向量确定提问列表,并获取提问列表内各个法律问题对应的回答语段以及法律领域,从而实现了对法律问题的回答,并从法律文件中搜索与回答相关的文件作为目标法律文件,提高了检索准确性,满足不同的检索需求。
示例性地,表2示出了本申请一实施例提供的不同检索类型的对比示意表。参见表2所示,终端设备可以根据输入的目标文本的不同,确定不同的检索类型,并采用不同的检索模型响应对应的检索请求,实现了精准检索的目的,同时满足不同的检索需求。
表2
图8示出了本申请第七实施例提供的一种文件检索的方法的S104具体实现流程图。参见图8,相对于图1至图5任一所述实施例,本实施例提供的一种文件检索的方法中S104包括:S1041-S1042,具体详述如下:
进一步地,所述从文件数据库中选取与所述检索语段匹配的目标法律文件,生成检索结果,包括:
在S1041中,获取所述文本数据库内各个已有法律文件的文件标签以及文件类型。
在本实施例中,文件数据库内可以为每个已有法律文件配置对应的文件标签以及设置关联的文件类型。终端设备可以获取各个已有法律文件关联有的上述信息,从而无需对整个已有法律文件进行全文搜索,从而提高了检索效率。
在S1042中,若所述文件标签和所述文件类型与所述检索语段相匹配,则识别所述已有法律文件为目标法律文件。
在本实施例中,终端设备可以判断检索语段内是否包含已有法律文件内的文件标签以及文件类型,若包含,则基于包含的文件标签数量以及文件类型的匹配结果,确定该已有法律文件是否为目标法律文件,从而可以从文件数据库内提取得到目标法律文件。
在本申请实施例中,通过提取已有法律文件的文件标签以及文件类型,与检索语段进行匹配,识别出目标法律文件,提高了检索效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图9示出了本申请一实施例提供的一种文件检索的设备的结构框图,该文件检索的设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图9与图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。
参见图9,所述文件检索的设备包括:
检索请求接收单元91,用于接收检索请求;所述检索请求包含目标文本以及检索类型;
文本向量生成单元92,用于基于预设的法律知识图谱,生成关于所述目标文本的文本向量;
检索语段生成单元93,用于选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段;
检索结果输出单元94,用于从文件数据库中选取与所述检索语段匹配的目标法律文件,生成检索结果。
可选地,所述文本向量生成单元92包括:
划分粒度信息获取单元,用于获取预设的划分粒度信息;所述划分粒度信息包含N个划分层级;所述N为不小于1的正整数;
文本标签获取单元,用于基于第n个划分层级,将所述目标文本划分为多个n类信息段,并基于所述法律知识图谱,各个确定所述n类信息段对应的文本标签;所述n的初始值为1;
循环触发单元,用于若所述n小于所述N,则将所述n类信息段识别为目标文本,并增加所述n的值,返回执行所述基于第n个划分层级,将所述目标文本划分为多个n类信息段,并基于所述法律知识图谱,各个确定所述n类信息段对应的文本标签;
文本标签封装单元,用于若所述n大于或等于所述N,则基于所有文本标签,生成所述文本向量。
可选地,所述文件检索的设备还包括:
法律知识标签获取单元,用于获取用于构建所述法律知识图谱的法律知识标签;
关联关系获取单元,用于基于所述文件数据库内的所有已有法律文件,确定所述法律知识标签之间的关联关系以及所述关联关系对应的关联类型;
知识子图谱构建单元,用于基于同一所述关联类型的所有所述法律知识标签之间的所述关联关系,构建所述关联类型的知识子图谱;
关联知识标签识别单元,用于提取各个标准法律文本的核心法律标签,并在各个所述关联类型对应的所述知识子图谱内标记与所述核心法律标签匹配的关联知识标签;
知识子图谱融合单元,用于根据属于同一所述核心法律标签的各个所述关联知识标签,建立多个所述关联类型的所述知识子图谱之间的关联关系,生成所述法律知识图谱。
可选地,所述关联关系获取单元包括:
文本类型识别单元,用于对已有法律文件进行语义分析,确定所述已有法律文件对应的文本类型;
关联类型确定单元,用于若所述已有法律文本内包含多个所述法律知识标签,则基于所述已有法律文本的所述文本类型,配置所述多个法律知识标签之间的所述关联关系,以及所述关联关系对应的所述关联类型。
可选地,所述检索语段生成单元93包括:
检索关键词提取单元,用于若所述检索类型为关联检索,则将所述文本向量导入预设的关键词检索模型,得到所述目标文本对应的检索关键词;
模糊关键词确定单元,用于根据预设的模糊搜索算法,生成各个所述检索关键词对应的模糊关键词;
目标检索范围确定单元,用于根据所述检索关键词以及模糊关键词,确定所述目标文本的目标检索范围;
第一检索语段配置单元,用于生成所述目标检索范围对应的所述检索语段。
可选地,所述检索语段生成单元93包括:
提问列表确定单元,用于若所述检索类型为问答检索,则将所述文本向量导入预设的提问检索模型,得到所述目标文本关联的提问列表;所述提问列表内包含至少一个法律问题;
法律问题回答单元,用于获取各个法律问题对应的回答语段以及法律领域;
第二检索语段配置单元,用于基于所述回答语段以及法律领域生成所述检索语段。
可选地,所述检索结果输出单元94包括:
已有法律文件信息获取单元,用于获取所述文本数据库内各个已有法律文件的文件标签以及文件类型;
目标法律文件选取单元,用于若所述文件标签和所述文件类型与所述检索语段相匹配,则识别所述已有法律文件为目标法律文件。
因此,本申请实施例提供的文件检索的设备同样可以通过法律知识图谱对目标文本进行语义分析,提取对应的文本向量,用户可以通过自然语言描述所需搜索的问题,而无需思考对应的关键词,从而能够降低了检索问题的描述难度;另一方面,根据不同的检索类型配置对应的检索模型,从而使得检索语段更为准确,大大降低了低相关度文件的数量,从而提高了检索效率,实现了精准检索的目的。
图10是本申请另一实施例提供的一种终端设备的示意图。如图10所示,该实施例的终端设备10包括:处理器100、存储器101以及存储在所述存储器101中并可在所述处理器100上运行的计算机程序102,例如文件检索的程序。所述处理器100执行所述计算机程序102时实现上述各个文件检索的方法实施例中的步骤,例如图1所示的S101至S105。或者,所述处理器100执行所述计算机程序102时实现上述各装置实施例中各单元的功能,例如图9所示模块91至94功能。
示例性的,所述计算机程序102可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器101中,并由所述处理器100执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序102在所述终端设备10中的执行过程。例如,所述计算机程序102可以被分割成数据包划分单元、案件索引表创建单元、数据包存储单元、搜索关键词接收单元以及文件检索结果输出单元,各单元具体功能如上所述。
所述终端设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器100、存储器101。本领域技术人员可以理解,图10仅仅是终端设备10的示例,并不构成对终端设备10的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器100可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器101可以是所述终端设备10的内部存储单元,例如终端设备10的硬盘或内存。所述存储器101也可以是所述终端设备10的外部存储设备,例如所述终端设备10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器101还可以既包括所述终端设备10的内部存储单元也包括外部存储设备。所述存储器101用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器101还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (8)

1.一种文件检索的方法,其特征在于,包括:
接收检索请求;所述检索请求包含目标文本以及检索类型;
基于预设的法律知识图谱,生成关于所述目标文本的文本向量;
选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段;
从文件数据库中选取与所述检索语段匹配的目标法律文件,生成检索结果;
在所述基于预设的法律知识图谱,生成关于所述目标文本的文本向量之前,还包括:
获取用于构建所述法律知识图谱的法律知识标签;
基于所述文件数据库内的所有已有法律文件,确定所述法律知识标签之间的关联关系以及所述关联关系对应的关联类型;所述关联类型用于表示所述关联关系的适用场景,包括:若确定该关联关系的法律文本为法条,则该关联类型为法律知识类型;若确定该关联关系的已有法律文本为诉讼状,则该关联类型为审判知识类型;
基于同一所述关联类型的所有所述法律知识标签之间的所述关联关系,构建所述关联类型的知识子图谱;
提取各个标准法律文本的核心法律标签,并在各个所述关联类型对应的所述知识子图谱内标记与所述核心法律标签匹配的关联知识标签;
根据属于同一所述核心法律标签的各个所述关联知识标签,建立多个所述关联类型的所述知识子图谱之间的关联关系,生成所述法律知识图谱;属于同一所述核心法律标签的各个所述关联知识标签对应的法律实体相同;
所述基于预设的法律知识图谱,生成关于所述目标文本的文本向量,包括:
获取预设的划分粒度信息,包括:确定目标文本的文本类型,基于文本类型确定与文本类型对应的划分粒度信息;所述划分粒度信息包含N个划分层级;所述N为不小于1的正整数;
基于第n个划分层级,将所述目标文本划分为多个n类信息段,并基于所述法律知识图谱,各个确定所述n类信息段对应的文本标签;所述n的初始值为1;
若所述n小于所述N,则将所述n类信息段识别为目标文本,并增加所述n的值,返回执行所述基于第n个划分层级,将所述目标文本划分为多个n类信息段,并基于所述法律知识图谱,各个确定所述n类信息段对应的文本标签;
若所述n大于或等于所述N,则基于所有文本标签,生成所述文本向量。
2.根据权利要求1所述的方法,其特征在于,所述基于所述文件数据库内的所有已有法律文件,确定所述法律知识标签之间的关联关系以及所述关联关系对应的关联类型,包括:
对已有法律文件进行语义分析,确定所述已有法律文件对应的文本类型;
若所述已有法律文本的任一语段内包含多个所述法律知识标签,则基于所述已有法律文本的所述语段中的其他字符,确定所述多个法律知识标签之间的关联关系;所述其他字符为在所述已有法律文本的所述语段中除所述多个法律知识标签外的字符;
根据所述文本类型,确定所述关联关系对应的所述关联类型。
3.根据权利要求1所述的方法,其特征在于,所述选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段,包括:
若所述检索类型为关联检索,则将所述文本向量导入预设的关键词检索模型,得到所述目标文本对应的检索关键词;
根据预设的模糊搜索算法,生成各个所述检索关键词对应的模糊关键词;
根据所述检索关键词以及模糊关键词,确定所述目标文本的目标检索范围;
生成所述目标检索范围对应的所述检索语段。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段,包括:
若所述检索类型为问答检索,则将所述文本向量导入预设的提问检索模型,得到所述目标文本关联的提问列表;所述提问列表内包含至少一个法律问题;
获取各个法律问题对应的回答语段以及法律领域;
基于所述回答语段以及法律领域生成所述检索语段。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述从文件数据库中选取与所述检索语段匹配的目标法律文件,生成检索结果,包括:
获取所述文本数据库内各个已有法律文件的文件标签以及文件类型;
若所述文件标签和所述文件类型与所述检索语段相匹配,则识别所述已有法律文件为目标法律文件。
6.一种文件检索的装置,其特征在于,包括:
检索请求接收单元,用于接收检索请求;所述检索请求包含目标文本以及检索类型;
文本向量生成单元,用于基于预设的法律知识图谱,生成关于所述目标文本的文本向量;
检索语段生成单元,用于选取与所述检索类型关联的检索模型,并基于所述检索模型以及所述文本向量,生成所述检索请求关联的检索语段;
检索结果输出单元,用于从文件数据库中选取与所述检索语段匹配的目标法律文件,生成检索结果;
所述文件检索的设备还包括:
法律知识标签获取单元,用于获取用于构建所述法律知识图谱的法律知识标签;
关联关系获取单元,用于基于所述文件数据库内的所有已有法律文件,确定所述法律知识标签之间的关联关系以及所述关联关系对应的关联类型,包括:若确定该关联关系的法律文本为法条,则该关联类型为法律知识类型;若确定该关联关系的已有法律文本为诉讼状,则该关联类型为审判知识类型;
知识子图谱构建单元,用于基于同一所述关联类型的所有所述法律知识标签之间的所述关联关系,构建所述关联类型的知识子图谱;
关联知识标签识别单元,用于提取各个标准法律文本的核心法律标签,并在各个所述关联类型对应的所述知识子图谱内标记与所述核心法律标签匹配的关联知识标签;
知识子图谱融合单元,用于根据属于同一所述核心法律标签的各个所述关联知识标签,建立多个所述关联类型的所述知识子图谱之间的关联关系,生成所述法律知识图谱;
所述文本向量生成单元包括:
划分粒度信息获取单元,用于获取预设的划分粒度信息,包括:确定目标文本的文本类型,基于文本类型确定与文本类型对应的划分粒度信息;所述划分粒度信息包含N个划分层级;所述N为不小于1的正整数;
文本标签获取单元,用于基于第n个划分层级,将所述目标文本划分为多个n类信息段,并基于所述法律知识图谱,各个确定所述n类信息段对应的文本标签;所述n的初始值为1;
循环触发单元,用于若所述n小于所述N,则将所述n类信息段识别为目标文本,并增加所述n的值,返回执行所述基于第n个划分层级,将所述目标文本划分为多个n类信息段,并基于所述法律知识图谱,各个确定所述n类信息段对应的文本标签;
文本标签封装单元,用于若所述n大于或等于所述N,则基于所有文本标签,生成所述文本向量。
7.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时如权利要求1至5任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN202011010296.7A 2020-09-23 2020-09-23 一种文件检索的方法及设备 Active CN112148702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011010296.7A CN112148702B (zh) 2020-09-23 2020-09-23 一种文件检索的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011010296.7A CN112148702B (zh) 2020-09-23 2020-09-23 一种文件检索的方法及设备

Publications (2)

Publication Number Publication Date
CN112148702A CN112148702A (zh) 2020-12-29
CN112148702B true CN112148702B (zh) 2024-06-21

Family

ID=73896256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011010296.7A Active CN112148702B (zh) 2020-09-23 2020-09-23 一种文件检索的方法及设备

Country Status (1)

Country Link
CN (1) CN112148702B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190692B (zh) * 2021-05-28 2022-06-24 山东顺势教育科技有限公司 一种知识图谱的自适应检索方法、***及装置
CN113590845B (zh) * 2021-08-09 2024-06-25 深圳平安智慧医健科技有限公司 基于知识图谱的文献检索方法、装置、电子设备及介质
CN113779230B (zh) * 2021-09-15 2024-03-19 广州网律互联网科技有限公司 一种基于法条理解的法条推荐方法、***及设备
CN117725235B (zh) * 2023-12-25 2024-04-30 武汉百智诚远科技有限公司 一种基于人工智能算法的法律知识增强检索***及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334178B (zh) * 2019-03-28 2023-06-20 平安科技(深圳)有限公司 数据检索方法、装置、设备及可读存储介质
CN111143521B (zh) * 2019-10-28 2023-08-15 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、***、装置及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112148702A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112148702B (zh) 一种文件检索的方法及设备
US10922367B2 (en) Method and system for providing real time search preview personalization in data management systems
US11151175B2 (en) On-demand relation extraction from text
US9449271B2 (en) Classifying resources using a deep network
WO2020057022A1 (zh) 关联推荐方法、装置、计算机设备和存储介质
US10740545B2 (en) Information extraction from open-ended schema-less tables
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答***实现方法
CN112148889A (zh) 一种推荐列表的生成方法及设备
CN116157790A (zh) 文档处理和响应生成***
CN111026858B (zh) 基于项目推荐模型的项目信息处理方法及装置
CN112434151A (zh) 一种专利推荐方法、装置、计算机设备及存储介质
US11361030B2 (en) Positive/negative facet identification in similar documents to search context
AlQahtani Product sentiment analysis for amazon reviews
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
CN109992978B (zh) 信息的传输方法、装置及存储介质
CN111539197A (zh) 文本匹配方法和装置以及计算机***和可读存储介质
CN112148701A (zh) 一种文件检索的方法及设备
CN110717009A (zh) 一种法律咨询报告的生成方法及设备
Bembenik et al. Intelligent Tools for Building a Scientific Information Platform
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN103842997A (zh) 搜索和创建自适应内容
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
Rawat et al. A comprehensive study on recommendation systems their issues and future research direction in e-learning domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant