CN112148701A

CN112148701A - 一种文件检索的方法及设备

Info

Publication number: CN112148701A
Application number: CN202011010147.0A
Authority: CN
Inventors: 王喆龙
Original assignee: Ping An Zhitong Consulting Co Ltd Shanghai Branch
Current assignee: Ping An Zhitong Consulting Co Ltd Shanghai Branch
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-29

Abstract

本申请适用于数据处理技术领域，提供了一种文件检索的方法及设备，包括：基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包；根据各个数据包关联的知识节点，创建所述历史案件对应的案件索引表；每个所述知识节点关联有对应的分布式存储节点；基于所述案件索引表，将所述历史案件的各个所述数据包存储于关联的所述分布式存储节点；基于接收到的搜索关键词，确定所述法律知识图谱中与所述搜索关键词关联的目标节点；根据所述目标节点对应的所述分布式存储节点内包含有的历史案件，生成文件检索结果。本申请减少了搜索耗时，提高了检索效率。

Description

一种文件检索的方法及设备

技术领域

本申请属于数据处理技术领域，尤其涉及一种文件检索的方法及设备。

背景技术

随着法律知识的普及，广大民众与法律案件接触机会越来越多，因工作需要或个人兴趣等原因，用户可以选取特定的案件进行查阅。但由于法律案件数量众多，若需要用户进行手动筛选案件，则会大大增加了用户选取案件所需时长，从而增加了案件选取的难度。因此，如何提供高效的法律案件的检索手段则成为当前急需解决的问题。

现有的法律案件的检索技术，主要采用基于关键词进行搜索，判断文本中是否存在用户输入的关键词，而由于法律案件往往包含的字数较多，需要对法律案件进行全文关键词搜索则需要较长响应时间，并且在法律案件数量庞大的情况下，上述搜索耗时会进一步提高，从而增加了文件检索的等待时长，降低了检索效率。

发明内容

有鉴于此，本申请实施例提供了一种文件检索的方法及设备，以解决现有的法律案件的检索技术，需要对法律案件进行全文关键词搜索，响应时间较长，并且在法律案件数量庞大的情况下，上述搜索耗时会进一步提高，增加了文件检索的等待时长，检索效率较低的问题。

本申请实施例的第一方面提供了一种文件检索的方法，包括：

基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包；

根据各个数据包关联的知识节点，创建所述历史案件对应的案件索引表；每个所述知识节点关联有对应的分布式存储节点；所述案件索引表用于存储所述分布式存储节点的网络地址；

基于所述案件索引表，将所述历史案件的各个所述数据包存储于关联的所述分布式存储节点；

基于接收到的搜索关键词，确定所述法律知识图谱中与所述搜索关键词关联的目标节点；

根据所述目标节点对应的所述分布式存储节点内包含有的历史案件，生成文件检索结果。

本申请实施例的第二方面提供了一种文件检索的设备，包括：

数据包划分单元，用于基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包；

案件索引表创建单元，用于根据各个数据包关联的知识节点，创建所述历史案件对应的案件索引表；每个所述知识节点关联有对应的分布式存储节点；所述案件索引表用于存储所述分布式存储节点的网络地址；

数据包存储单元，用于基于所述案件索引表，将所述历史案件的各个所述数据包存储于关联的所述分布式存储节点；

搜索关键词接收单元，用于基于接收到的搜索关键词，确定所述法律知识图谱中与所述搜索关键词关联的目标节点；

文件检索结果输出单元，用于根据所述目标节点对应的所述分布式存储节点内包含有的历史案件，生成文件检索结果。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面的各个步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面的各个步骤。

实施本申请实施例提供的一种文件检索的方法及设备具有以下有益效果：

本申请实施例在存储历史案件时，根据法律知识图谱将历史案件划分为多个数据包，并分布式存储于多个不同的节点中，通过对应的案件索引表，可以从不同分布式存储节点提取关联的数据包，重新生成历史案件；在后续的关键词检索时，可以通过搜索关键词确定目标节点，该目标节点内存储有的数据包所对应的历史案件，即为本次搜索的目标案件，并生成文件检索结果，实现了文件检索的目的。与现有的法律案件的检索技术相比，由于不同的分布式存储节点存储有历史案件的数据包，且每个分布式存储节点内的数据包均对应同一知识节点，在后续搜索的过程中，无需进行全文搜索，确定搜索关键词关联的目标节点后，该目标节点存储有的数据包所对应的历史案件，即为本次检索的目标案件，从而大大减少了搜索耗时，提高了检索效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请第一实施例提供的一种文件检索的方法的实现流程图；

图2是本申请第二实施例提供的一种文件检索的方法具体实现流程图；

图3是本申请第三实施例提供的一种文件检索的方法S202具体实现流程图；

图4是本申请一实施例提供的关联网络；

图5是本申请第四实施例提供的一种文件检索的方法具体实现流程图；

图6是本申请一实施例提供的案件关系树的结构示意图；

图7是本申请第五实施例提供的一种文件检索的方法S101具体实现流程图；

图8是本申请第六实施例提供的一种文件检索的方法S104具体实现流程图；

图9是本申请第七实施例提供的一种文件检索的方法S105具体实现流程图；

图10是本申请一实施例提供的一种文件检索的设备的结构框图；

图11是本申请另一实施例提供的一种终端设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例通过获取用户的用户信息，确定与用户存在关联关系的文档作为候选文档，对文档数据库内的文档进行初步筛选，并生成各个候选文档对应的文档特征向量；并根据每个用户对应的用户知识图谱以及用户信息内的浏览记录，生成用户特征向量，将文本特征向量以及用户特征向量进行导入到预设的推荐模型，从候选文档中确定出推荐文档，并生成包含上述推荐文档的推荐列表，输出给用户，实现了自动生成推荐列表的目的，解决了现有的法律文档的推荐技术，无法实现精准推荐，降低了推荐效率，增加了用户搜索感兴趣文档的耗时的问题。

在本申请实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行文件检索的任务的设备。图1示出了本申请第一实施例提供的文件检索的方法的实现流程图，详述如下：

在S101中，基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包。

在本实施例中，终端设备可以预存有法律知识图谱，该法律知识图谱可以通过云端服务器下载得到，该云端服务器下载得到的法律知识图谱，可以基于多个标准法律文本生成得到，例如根据刑法、民法以及宪法等标准法律文本，识别上述法律文本内包含的法律实体，基于各个法律实体之间的共同出现次数以及出现位置，建立不同法律实体之间的关联关系，从而构建得到上述的法律知识图谱。在一种可能的实现方式中，上述法律知识图谱还可以根据文档数据库内所有已有历史案件构建得到，同样地，终端设备可以识别上述历史案件内包含的法律实体，基于各个法律实体之间的共同出现次数以及出现位置，建立不同法律实体之间的关联关系，从而构建得到上述的法律知识图谱，在该情况下，若文档数据库添加有新增案件，则可以根据新增案件，对法律知识图谱进行更新，从而保证了法律知识图谱的有效性。

在本实施例中，终端设备预存的法律知识图谱内包含有多个知识节点，每个知识节点可以对应一个法律实体。举例性地，上述法律实体可以为“知识产权”、“商标”以及“诉讼人”等，不同法律实体之间存在对应的关联关系，例如“知识产权”包含“商标”，即前者包含后者，属于包含关系。终端设备可以为不同的法律实体创建对应的知识节点，并根据不同知识节点之间的关联关系，生成法律知识图谱。

在本实施例中，终端设备的存储模块内可以存储有多个历史案件，该历史案件可以包含标准法律文本，例如刑法、民法以及宪法等用于定义法律条款的文书；该历史案件还可以包含由各个用户在处理法律案件时生成的所有中间文本以及关于法律案件的判决结果等，例如起诉文件、答辩证据以及判决书等。终端设备可以从互联网下载上述历史案件，或者接收各个用户上传，并为每个历史案件配置对应的案件标识，存储于本地的存储模块或者存储于云端服务器。在一种可能的实现方式中，为了提高历史案件的存储效率，终端设备在存储历史案件之前，可以对所有历史案件执行查重操作，计算各个历史案件之间的重复率，若任意两个历史案件之间的重复率大于预设的重复阈值，则识别上述两个历史案件为同一案件，合并重复率大于预设重复阈值的多个历史案件，从而能够减少存储设备内的数据重复率，提高了数据库的存储效率。

在本实施例中，终端设备可以历史案件进行语义解析，判断该历史案件中是否包含有法律知识图谱内任一知识节点对应的节点关键词，若包含，则基于识别得到的节点关键词，将历史案件划分为多个数据量不等的数据包。其中，将各个数据包内包含的文本信息进行合并，可以得到上述完整的历史案件，将历史案件进行分块存储于分布式存储节点，可以提高检索以及提取效率。

在S102中，根据各个数据包关联的知识节点，创建所述历史案件对应的案件索引表；每个所述知识节点关联有对应的分布式存储节点；所述案件索引表用于存储所述分布式存储节点的网络地址。

在本实施例中，终端设备可以预先为法律知识图谱内各个知识节点配置对应的分布式存储节点。每个分布式存储节点用于存储关联的知识节点对应的数据包。因此，分布式存储节点内存储的所有数据包的文本信息中，包含有知识节点对应的节点关键词，在后续检索的过程中，若一历史案件存在一个数据包存储于搜索关键词对应的目标节点的分布式存储节点中，则可以确定该历史案件为用户检索的目标案件，从而实现快速输出检索结果。

在本实施例中，该文件检索***中包含有多个分布式存储节点，上述分布式存储节点构成分布式存储***，该分布式存储***除了包括有上述分布式存储节点外，还可以包含有寻址根节点。在分布式存储***需要获取某一历史案件时，会将历史案件的案件标识发送给寻址根节点，寻址根节点获取与接收到的案件标识对应的案件索引表，由于案件索引表存储有历史案件各个分片，即上述的数据包，对应的分布式存储节点的网络地址，因而可以基于案件索引表从各个分布式存储节点取回历史案件的各个数据包，从而生成历史案件，并对历史案件进行输出。

在本实施例中，终端设备可以存储有各个分布式存储节点的寻址表，根据历史案件划分得到的数据包，以及各个数据包对应的知识节点，查询各个知识节点对应的分布式存储节点的网络地址，并建立数据包与网络地址之间的关联关系，生成上述案件索引表。需要说明的是，每个历史案件可以对应一个案件索引表。

在S103中，基于所述案件索引表，将所述历史案件的各个所述数据包存储于关联的所述分布式存储节点。

在本实施例中，终端设备可以根据案件索引表中记录网络地址，将各个数据包上传至关联的知识节点对应的分布式存储节点中进行存储，实现了对整个历史案件进行分布式存储。

在一种可能的实现方式中，在数据量较多的情况下，一个知识节点可以对应多个分布式存储节点。在该情况下，终端设备可以通过预设的负载均衡算法，从多个分布式存储节点中选取一个作为存储历史案件的数据包的目标存储节点。终端设备可以获取各个分布式存储节点的占用率，以及各个分布式存储节点的网络运行参量。具体地，若分布式存储节点的占用率越高，则对应的存储优先级越高；若分布式存储节点的网络运行参量的数值越大(其中，网络运行参量的数值用于表示分布式存储节点的数据传输速率以及信噪比，因此数值越大，则表示数据传输速率越大、信噪比越高)，则对应的存储优先级越高。终端设备可以将存储占用率以及网络运行参量导入到存储优先级转换模型，分别计算各个分布式存储节点的存储优先级，选取存储优先级最高的分布式存储节点作为目标存储节点。

需要说明的是，若存在新增的案件，则可以通过S101至S103的操作，将新增案件划分为多个数据包，并将各个数据包存储于关联的知识节点对应的分布式存储节点内。

在S104中，基于接收到的搜索关键词，确定所述法律知识图谱中与所述搜索关键词关联的目标节点。

在本实施例中，用户需要搜索历史案件时，可以向终端设备发送搜索关键词。其中，若终端设备为一移动终端，例如智能手机、笔记本电脑等设备，则用户可以通过终端设备的交互模块，输入所需搜索案件的搜索关键词，终端设备可以根据接收到的搜索关键词生成文件检索结果；若终端设备为一服务器，例如检索服务器，则用户可以通过用户终端生成检索请求，该检索请求包含有上述搜索关键词，通过用户终端内置的与服务器关联的客户端，将检索请求发送给服务器，服务器在接收到检索请求后，提取检索请求内包含的搜索关键词，并生成文件检索结果。

在本实施例中，终端设备可以对将搜索关键词与法律知识图谱内的各个知识节点进行匹配，选取与搜索关键词匹配的知识节点作为上述的目标节点。

在S105中，根据所述目标节点对应的所述分布式存储节点内包含有的历史案件，生成文件检索结果。

在本实施例中，目标节点存储有的数据包包含有关联知识节点的节点关键词，而节点关键词与搜索关键词匹配，则该数据包的文本信息与搜索关键词匹配，从而可以确定该数据包对应的历史案件为用户所需搜索的目标案件，因此可以获取目标节点内各个数据包对应的历史案件的案件标识，该案件标识可以为历史案件的案件标题，并根据各个案件标识生成上述的文件检索结果。

在一种可能的实现方式中，若搜索关键词包含多个，终端设备可以根据历史案件中包含的搜索关键词的个数，确定各个历史案件在文件检索结果中的显示次序，匹配的搜索关键词的个数越大，则显示次序越靠前。若多个历史案件包含的搜索关键词的个数相同，则可以根据各个搜索关键词在历史案件中出现次数，确定各个历史案件在文件检索结果中的显示次序，其中，出现次数越多的历史案件则显示次序越靠前。

以上可以看出，本申请实施例提供的一种文件检索的方法在存储历史案件时，根据法律知识图谱将历史案件划分为多个数据包，并分布式存储于多个不同的节点中，通过对应的案件索引表，可以从不同分布式存储节点提取关联的数据包，重新生成历史案件；在后续的关键词检索时，可以通过搜索关键词确定目标节点，该目标节点内存储有的数据包所对应的历史案件，即为本次搜索的目标案件，并生成文件检索结果，实现了文件检索的目的。与现有的法律案件的检索技术相比，由于不同的分布式存储节点存储有历史案件的数据包，且每个分布式存储节点内的数据包均对应同一知识节点，在后续搜索的过程中，无需进行全文搜索，确定搜索关键词关联的目标节点后，该目标节点存储有的数据包所对应的历史案件，即为本次检索的目标案件，从而大大减少了搜索耗时，提高了检索效率。

图2示出了本申请第二实施例提供的一种文件检索的方法的具体实现流程图。参见图2，相对于图1所述实施例，本实施例提供的一种文件检索的方法中在所述基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包之前，还包括：S201～S204，具体详述如下：

进一步地，在所述基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包之前，还包括：

在S201中，对案件数据库内的所有所述历史案件进行语义分析，得到多个法律实体。

在本实施例中，端设备可以通过语义分析算法，确定历史案件内包含的案件关键词，并识别各个文档关键词的词性类型，选取出与法律知识相关的案件关键词，作为上述的法律实体，从而得到各个已有文档的法律实体。其中，通过语义分析算法确定案件关键词的过程具体可以包括：对历史案件进行语句划分，得到多个案件语句，并对语句进行词组提取，获取得到案件语句对应的候选关键词，识别各个候选关键词的词性，选取名词词性的候选关键词作为案件关键词，而动词以及介词等关键词，可以用于确定不同案件关键词之间的关联关系。

在S202中，基于标准法律文本对所述多个所述法律实体进行聚类操作，得到多个所述知识节点。

在本实施例中，终端设备在获取了法律文本包含的法律实体后，可以对法律实体进行聚类操作，将多个存在关联关系的法律实体封装到同一知识节点内，从而确定了法律文本包含的知识节点。

在一种可能的实现方式中，历史案件包含有多种不同语言，例如包含有英文以及对应的中文译文，因此，对应同一实体，在上述历史案件中有关于不同语言的译名，即不同语言的法律实体，而上述对应同一实体的法律实体之间存在关联关系，将属于同一实体的多个法律实体聚类到一个知识节点内。

在一种可能的实现方式中，终端设备存储从互联网或者法律文本中获取得的别名列表，对于同一实体在不同的法律文书中可以存在多个不同的别名名称，例如“刑法”以及“刑事法”，虽然名称不同，但对应的法律实体相同，相互之间是别名关系。终端设备在获取得的历史案件内包含的法律实体后，可以识别存在别名关系的多个法律实体，将存在别名关系的法律实体进行聚类，在法律知识图谱中通过同一知识节点进行标识，从而能够提高法律知识图谱的准确性。

在S203中，根据各个所述知识节点在所有所述历史案件内共现语段，建立所述知识节点之间的关联关系。

在本实施例中，不同的法律实体可以出现在历史案件的同一语段内，将存在同一语段的两个法律实体识别为存在共现关系，并且在历史案件中包含多个法律实体的语段识别为共现语段。举例性地，“民法包含有婚姻法、合同法等”，该语段内包含有三个法律实体，分别为“民法”、“婚姻法”以及“合同法”，则同时记录有上述三个法律实体的语段则为共现语段。

在本实施例中，终端设备可以获取多个不同知识节点对应的法律实体的共现语段，在共现语段中定位上述识别得到的法律实体，并基于多个法律实体之间的连接词，确定多个法律实体之间的关联关系，将法律实体之间的关联关系识别为对应的知识节点之间的关联关系。

在S204中，根据所述关联关系以及所述知识节点，生成所述法律知识图谱。

在本实施例中，终端设备可以基于关联关系连接知识节点，从而可以生成关于所有已识别得到的法律实体的法律知识图谱。

在本申请实施例中，通过对历史案件进行语音分析，确定各个历史案件内包含的法律实体，并对属于同一内容的法律实体进行聚类生成知识节点，并构建法律知识图谱，从而能够提高法律知识图谱的聚合度以及准确性。

图3示出了本申请第三实施例提供的一种文件检索的方法S202的具体实现流程图。参见图3，相对于图2所述的实施例，本实施例提供的一种文件检索的方法中S202包括：S2021～S2024，具体详述如下：

进一步地，所述用户信息包含所述目标用户的待处理任务，则所述基于目标用户的用户信息，从文档数据库内提取与所述用户信息关联的候选文档，包括：

在S2021中，在所述标准法律文本中确定各个所述法律实体的关联实体以及关联类型。

在本实施例中，终端设备除了可以通过从互联网中下载别名列表的方式确定不同法律实体之间是否存在别名关系外，还可以通过多个标准法律文本进行自学习的方式，确定不同法律实体之间是否对应同一法律内容。

在本实施例中，终端设备可以在各个标准法律文本中标记出法律实体，并获取包含有法律实体对应的语句，并获取该语句中除上述法律实体外的其他实体，识别为与法律实体存在关联关系的关联实体，并从上述语句中确定法律实体与各个关联实体之间的关联类型。

示例性地，需要确定别名关系的法律实体为“民法”，在某一标准法律文本中包含以下语句“民法包含有婚姻法、合同法等”，该语句中除了“民法”这一法律实体外，还包含有“婚姻法”以及“合同法”这两个关联实体，而“民法”与上述两个关联实体之间的关联类型为“包含”关系。

在S2022中，基于所述关联实体以及所述关联实体的所述关联类型，生成所述法律实体的关联网络。

在本实施例中，由于标准法律文本具体是用于定义各个法律概念的，因此可以通过标准法律文本确定不同的法律知识之间的关联类型，且上述识别得到的关联关系是基于标准法律文本对于法律概率的定义语句确定的，因此关联关系的准确性较高。终端设备对所有标准法律文本执行上述提取法律实体的关联实体以及确定各个关联实体的关联类型后，可以将所有关联实体以及关联类型进行整合，生成上述法律实体的关联网络。

在一种可能的实现方式中，上述关联关系网可以为一星状关系网，该星状关系网的中心即为上述的法律实体，而该星状关系网的分节点即为与法律实体存在关联关系的关联实体，中心节点与分支节点之间的连接线可以用于表示两者之间的关联类型。图4示出了本申请一实施例提供的关联网络。参见图4所示，该关联关系网具体为“民法”这一法律实体对应的关联关系网，该“民法”对应的关联实体包含有“婚姻法”、“合同法”、“继承权法”、“刑法”以及“民事索偿”，其中“民法”与各个关联实体之间的关联关系如图所示。

在S2023中，若任意两个所述法律实体的所述关联网络之间的相似度大于预设的相似阈值，则识别所述两个法律实体存在别名关系。

在本实施例中，终端设备在获取得到各个法律实体对应的关联网络后，可以计算任意两个关联网络之间的相似度，其中，相似度计算具体为：统计相同的关联实体的第一个数，并识别相同的关联实体之间的关联类型，统计关联实体相同且关联类型相同的第二个数，根据第一个数以及第二个数，确定两个关联网络之间的相似度。若上述相同的关联实体的第一个数越多，则两个法律实体之间的相似度越高。

在一种可能的实现方式中，终端设备可以通过预设的相似度计算算法，计算两个关联网络之间的相似度，其中，上述的相似度计算算法具体可以为余弦相似度计算算法或欧氏距离计算算法，具体地，将两个关联网络转换为对应的向量矩阵，确定两个向量矩阵之间的向量距离，基于上述向量距离确定两个关联网络之间的相似度。

在一种可能的实现方式中，计算相似度的方式可以为：终端设备可以为相同的关联实体配置对应的基础权重，其中该关联实体的概念范围越小，则对应的基础权重越高；反之，若该关联实体的概念范围越大，则对应的基础权重越低，例如“民法”对应的概念范围较大，则对应的基础权重值较小，可以为“1”；而相对于“民法”，“婚姻法”对应的概念范围较小，则对应的基础权重值较大，可以为“2”。若相同的关联实体对应的关联类型也相同，则可以在基础权重上叠加预设的加权系数，从而得到各个相同的关联实体对应的相似因子，将所有相同的关联实体的相似因子进行叠加，则可以计算得到上述两个关联网络之间的相似度。

在本实施例中，若两个法律实体的关联网络之间的相似度小于或等于预设的相似阈值，则识别上述两个法律实体对应不同的法律概念，即不属于同一概念的不同别名；反之，若该相似度大于相似阈值，则识别上述两个法律实体对应相同的法律概念，相互之间是互为别名关系。

在S2024中，将存在所述别名关系的多个所述法律实体聚类到同一所述知识节点。

在本实施例中，终端设备将存在别名关系的多个法律实体聚类到同一知识节点内，从而在后续搜索的过程中能够实现别名联想，提高了搜索准确性。

在本申请实施例中，通过构建不同法律实体的关联网络，计算不同关联网络之间的相似度，识别得到存在别名关系的多个不同法律实体，并进行聚类操作，能够提高法律知识图谱的准确性，进一步提高检索效率。

图5示出了本申请第四实施例提供的一种文件检索的方法的具体实现流程图。参见图5，相对于图1所述实施例，本实施例提供的一种文件检索的方法在所述基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包之前，包括：S501～S503，具体详述如下：

进一步地，在所述基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包之前，包括：

在S501中，获取案件数据库中各个所述历史案件的案件标签，并基于各个所述案件标签的标签等级，构建所述案件数据库对应的案件关系树；所述案件关系树内包含有多个分支节点；每个分支节点关联一个所述案件标签。

在本实施例中，在历史案件存入案件数据库时，可以根据该历史案件的内容、标题以及文档的获取渠道等维度，为历史案件配置对应的案件标签。上述的案件标签可以通过用户手动输入的方式进行配置，还可以通过终端设备对文档内容进行语义分析后，自动提取得到。案件数据库内的历史案件可以包含用于标识不同维度信息的案件标签，其中包含有用于标识该历史案件所属的法律领域的法律类别标签。终端设备可以从历史案件的所有案件标签中，提取法律类别标签，确定该已有文档对应的法律领域。

举例性地，该法律类别标签可以根据该历史案件的文档内容确定。若该历史案件的文档内容是描述某一用户的财产继承的过程，则该法律类别标签的值可以为“继承法”；若该历史案件的文档内容是描述两个用户的婚姻关系的确定过程，则该法律类别标签的值可以为“婚姻法”。当然，若某一历史案件的文档内容涉及多个法律领域，例如某一历史案件涉及离异丧偶的伴侣的财产继承的内容，则该已有文档可能涉及有“继承法”以及“婚姻法”两部分的内容，则该法律类型标签可以为“继承法”以及“婚姻法”。

在本实施例中，每个案件标签根据其所属领域的大小以及覆盖关系，可以确定相互之间的级联关系。举例性地，若某一案件标签为“民法”，而另一案件标签为“婚姻法”，而婚姻法是属于民法的一个法律分支，即民法属于婚姻法的一个上联标签节点；而婚姻法则属于民法的一个下联标签节点。终端设备可以根据各个案件标签之间的级联关系，即上述的标签等级，生成案件数据库对应的案件关系树，并根据各个历史案件对应的案件标签，将历史案件关联存储于对应的分支节点内，从而实现了基于案件关系树对历史案件进行分类的目的。

示例性地，图6示出了本申请一实施例提供的案件关系树的结构示意图。参见图6所示，该案件关系树包含多个分支节点，每个分支节点对应一个案件标签。各个分支节点之间的级联关系可以根据其所属领域的大小以及包含关系进行确定。其中，父节点的覆盖范围涵盖子节点的覆盖范围，即父节点的所述领域范围大于子节点的领域范围，父节点与子节点之间的包含的关系。其中，每个标签节点可以标记有关联的历史案件的个数。

在S502中，根据所述案件标签，将各个所述历史案件导入到关联的所述分支节点，并基于所述分支节点内包含所有历史案件的法律实体，建立所述分支节点的法律子图谱。

在本实施例中，终端设备可以根据各个历史案件对应的案件标签，将各个历史案件存储于对应的分支节点内，属于同一分支节点的历史案件包含相同的案件标签，从而可以基于案件关系树对历史案件进行分类。终端设备同样可以分别对各个分支节点内的各个历史案件进行语义分析，提取各个历史案件包含的法律实体，并基于法律实体创建知识节点，根据该分支节点内的所有知识节点，生成该分支节点的法律子图谱。

在S503中，根据所有分支节点的所述法律子图谱以及所述案件关系树，生成所述法律知识图谱。

在本实施例中，终端设备基于案件关系树中各个分支节点之间的关联关系，连接各个分支节点的法律子图谱，生成上述的法律知识图谱。

在本申请实施例中，通过构建案件数据库对应的案件关系树，并基于案件关系树建立法律知识图谱，从而能够提高法律知识图谱中不同知识节点之间的级联关系，提高了后续检索的准确性。

图7示出了本申请第五实施例提供的一种文件检索的方法S101的具体实现流程图。参见图7，相对于图1-6所述实施例，本实施例提供的一种文件检索的方法S101包括：S1011～S1013，具体详述如下：

进一步地，所述基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包，包括：

在S1011中，根据预设的分块数据量，将所述历史案件划分为多个文本段。

在本实施例中，每个分布式存储节点可以预先设置数据包的分块数据量，从而能够便于对数据包进行管理。具体地，各个数据包的数据量不大于上述的分块数据量，基于此，终端设备可以基于分块数据量将历史案件划分为多个文本段，每个文本段所对应的数据量不大于上述的分块数据量。

在S1012中，基于所述法律知识图谱分别对各个所述文本段进行关键词提取，得到各个所述文本段对应的文本关键词；所述文本关键词记录于所述法律知识图谱的知识节点中。

在本实施例中，终端设备在对历史案件划分为多个文本段后，可以对各个文本段进行关键词检索，判断该文本段内是否包含有法律知识图谱的任一知识节点对应的节点关键词，若文本段内包含有知识节点对应的节点关键词，则将该节点关键词识别为文本段对应的文本关键词。

在一种可能的实现方式中，若文本段内包含有多个知识节点对应的节点关键词，则可以获取知识节点对应的关联节点，统计文本段内包含的关联节点的关联关键词的个数，选取包含的关联关键词的个数最多知识节点作为文本段对应的知识节点。

在S1013中，建立所述文本段与所述知识节点之间的关联关系，并根据所述关联关系以及所述文本段，生成所述数据包。

在本实施例中，终端设备在确定各个文本段在法律知识图谱内的关联的知识节点后，可以建立上述两者之间的关联关系，将关联关系封装于上述数据包内，从而能够在后续存储时，基于上述关联关系上传至与知识节点对应的分布式存储节点中。

在本申请实施例中，基于分块数据量对历史文本进行文本段的划分，从而能够保证各个数据包的数据量一致，从而能够提高后续数据存储以及管理的效率。

图8示出了本申请第六实施例提供的一种文件检索的方法S104的具体实现流程图。参见图8，相对于图1至图6任一所述实施例，本实施例提供的一种文件检索的方法中S104包括：S1041～S1042，具体详述如下：

进一步地，所述基于接收到的搜索关键词，确定所述法律知识图谱中与所述搜索关键词关联的目标节点，包括：

在S1041中，对所述搜索关键词进行语义分析，确定所述搜索关键词内包含的法律实体。

在本实施例中，用户在对历史案件进行搜索时，可以输入对应的搜索关键词，终端设备可以对搜索关键词进行语义分析，提取该搜索关键词内包含的法律实体。由于上述的搜索关键词可以由多个不同的法律实体构成，例如“知识产权维权”，上述包含有“知识产权”以及“维权”这两个法律实体；由或者一个搜索关键词可以存在多个不同的别名或译名，终端设备可以根据用户输入的搜索关键词，确定不同别名或译名对应的法律实体，实现搜索联想。

在S1042中，将所述搜索关键词包含的法律实体与所述法律知识图谱内的各个知识节点进行匹配，将与所述法律实体匹配的所述知识节点识别为所述搜索关键词关联的所述目标节点。

在本实施例中，终端设备可以将搜索关键词包含的法律实体与各个知识节点进行匹配，将匹配的知识节点作为搜索关键词对应的目标节点。

在本申请实施例中，通过对搜索关键词进行语义分析，确定搜索关键词包含的法律实体，并基于法律实体搜索对应的知识节点，从而实现了确定搜索结果对应的知识节点的目的。

图9示出了本申请第七实施例提供的一种文件检索的方法的S105具体实现流程图。参见图9，相对于图1至图6任一所述实施例，本实施例提供的一种文件检索的方法中S105包括：S1051-S1052，具体详述如下：

进一步地，所述根据所述目标节点对应的所述分布式存储节点内包含有的历史案件，生成文件检索结果，包括：

在S1051中，从所述目标节点对应的所述分布式存储节点内提取存储的所述历史案件的数据包，并从所述数据包对应的案件语段中标记出所述搜索关键词。

在本实施例中，终端设备在确定了目标节点后，可以根据该目标节点关联的分布式存储节点的网络地址，查询该分布式存储节点存储有的数据包，每个数据包可以对应关联的历史案件；通过对上述数据包进行解析，获得该数据包内存储有的案件语段，并在案件语段中标记出搜索关键词对应的法律实体，上述标记可以采用标红或高亮等突出显示的方式。

在S1052中，将所有标记有所述搜索关键词的所述案件语段进行封装，生成所述文件检索结果。

在本实施例中，终端设备将目标节点内的所有标记有搜索关键词的案件语段进行封装，并生成文件检索结果，用户通过上述文件检索结果，可以确定包含搜索关键词的案件语段以及各个案件语段对应的历史案件的案件标识，对搜索结果有一个简单的了解。用户可以从文件检索结果中选取若干数量的历史案件作为目标案件，终端设备可以根据用户的选择指令，获取目标案件对应的案件索引表，并从各个分布式存储节点提取关于该目标案件的数据包，并重构上述目标案件进行输出，在搜索阶段无需获取完整的历史案件，只有在需要下载时才获取完整的历史案件的文本，从而能够提高搜索速度，减少文件检索***的存取数据量。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图10示出了本申请一实施例提供的一种文件检索的设备的结构框图，该文件检索的设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图10与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图10，所述文件检索的设备包括：

数据包划分单元11，用于基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包；

案件索引表创建单元12，用于根据各个数据包关联的知识节点，创建所述历史案件对应的案件索引表；每个所述知识节点关联有对应的分布式存储节点；所述案件索引表用于存储所述分布式存储节点的网络地址；

数据包存储单元13，用于基于所述案件索引表，将所述历史案件的各个所述数据包存储于关联的所述分布式存储节点；

搜索关键词接收单元14，用于基于接收到的搜索关键词，确定所述法律知识图谱中与所述搜索关键词关联的目标节点；

文件检索结果输出单元15，用于根据所述目标节点对应的所述分布式存储节点内包含有的历史案件，生成文件检索结果。

可选地，所述文件检索的设备还包括：

法律实体获取单元，用于对案件数据库内的所有所述历史案件进行语义分析，得到多个法律实体；

法律实体聚类单元，用于基于标准法律文本对所述多个所述法律实体进行聚类操作，得到多个所述知识节点；

关联关系确定单元，用于根据各个所述知识节点在所有所述历史案件内共现语段，建立所述知识节点之间的关联关系；

第一法律知识图谱生成单元，用于根据所述关联关系以及所述知识节点，生成所述法律知识图谱。

可选地，所述法律实体聚类单元包括：

关联实体确定单元，用于在所述标准法律文本中确定各个所述法律实体的关联实体以及关联类型；

关联网络生成单元，用于基于所述关联实体以及所述关联实体的所述关联类型，生成所述法律实体的关联网络；

相似度计算单元，用于若任意两个所述法律实体的所述关联网络之间的相似度大于预设的相似阈值，则识别所述两个法律实体存在别名关系；

别名关系识别单元，用于将存在所述别名关系的多个所述法律实体聚类到同一所述知识节点。

可选地，所述文件检索的设备还包括：

案件关系树构建单元，用于获取案件数据库中各个所述历史案件的案件标签，并基于各个所述案件标签的标签等级，构建所述案件数据库对应的案件关系树；所述案件关系树内包含有多个分支节点；每个分支节点关联一个所述案件标签；

法律子图谱生成单元，用于根据所述案件标签，将各个所述历史案件导入到关联的所述分支节点，并基于所述分支节点内包含所有历史案件的法律实体，建立所述分支节点的法律子图谱；

第二法律知识图谱生成单元，用于根据所有分支节点的所述法律子图谱以及所述案件关系树，生成所述法律知识图谱。

可选地，所述数据包划分单元11包括：

文本段划分单元，用于根据预设的分块数据量，将所述历史案件划分为多个文本段；

文本关键词提取单元，用于基于所述法律知识图谱分别对各个所述文本段进行关键词提取，得到各个所述文本段对应的文本关键词；所述文本关键词记录于所述法律知识图谱的知识节点中；

数据包封装单元，用于建立所述文本段与所述知识节点之间的关联关系，并根据所述关联关系以及所述文本段，生成所述数据包。

可选地，所述搜索关键词接收单元14包括：

法律实体确定单元，用于对所述搜索关键词进行语义分析，确定所述搜索关键词内包含的法律实体；

目标节点确定单元，用于将所述搜索关键词包含的法律实体与所述法律知识图谱内的各个知识节点进行匹配，将与所述法律实体匹配的所述知识节点识别为所述搜索关键词关联的所述目标节点。

可选地，所述文件检索结果输出单元15包括：

搜索关键词标记单元，用于从所述目标节点对应的所述分布式存储节点内提取存储的所述历史案件的数据包，并从所述数据包对应的案件语段中标记出所述搜索关键词；

案件语段封装单元，用于将所有标记有所述搜索关键词的所述案件语段进行封装，生成所述文件检索结果。

因此，本申请实施例提供的文件检索的设备中，由于不同的分布式存储节点存储有历史案件的数据包，且每个分布式存储节点内的数据包均对应同一知识节点，在后续搜索的过程中，无需进行全文搜索，确定搜索关键词关联的目标节点后，该目标节点存储有的数据包所对应的历史案件，即为本次检索的目标案件，从而大大减少了搜索耗时，提高了检索效率。

图11是本申请另一实施例提供的一种终端设备的示意图。如图11所示，该实施例的终端设备11包括：处理器110、存储器111以及存储在所述存储器111中并可在所述处理器110上运行的计算机程序112，例如文件检索的程序。所述处理器110执行所述计算机程序112时实现上述各个文件检索的方法实施例中的步骤，例如图1所示的S101至S105。或者，所述处理器110执行所述计算机程序112时实现上述各装置实施例中各单元的功能，例如图10所示模块11至15功能。

示例性的，所述计算机程序112可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器111中，并由所述处理器110执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序112在所述终端设备11中的执行过程。例如，所述计算机程序112可以被分割成数据包划分单元、案件索引表创建单元、数据包存储单元、搜索关键词接收单元以及文件检索结果输出单元，各单元具体功能如上所述。

所述终端设备11可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器110、存储器111。本领域技术人员可以理解，图11仅仅是终端设备11的示例，并不构成对终端设备11的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器110可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器111可以是所述终端设备11的内部存储单元，例如终端设备11的硬盘或内存。所述存储器111也可以是所述终端设备11的外部存储设备，例如所述终端设备11上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器111还可以既包括所述终端设备11的内部存储单元也包括外部存储设备。所述存储器111用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器111还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文件检索的方法，其特征在于，包括：

2.根据权利要求1所述的文件检索方法，其特征在于，在所述基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包之前，包括：

对案件数据库内的所有所述历史案件进行语义分析，得到多个法律实体；

基于标准法律文本对所述多个所述法律实体进行聚类操作，得到多个所述知识节点；

根据各个所述知识节点在所有所述历史案件内共现语段，建立所述知识节点之间的关联关系；

根据所述关联关系以及所述知识节点，生成所述法律知识图谱。

3.根据权利要求2所述的文件检索方法，其特征在于，所述基于标准法律文本对所述多个所述法律实体进行聚类操作，得到多个所述知识节点，包括：

在所述标准法律文本中确定各个所述法律实体的关联实体以及关联类型；

基于所述关联实体以及所述关联实体的所述关联类型，生成所述法律实体的关联网络；

若任意两个所述法律实体的所述关联网络之间的相似度大于预设的相似阈值，则识别所述两个法律实体存在别名关系；

将存在所述别名关系的多个所述法律实体聚类到同一所述知识节点。

4.根据权利要求1所述的文件检索方法，其特征在于，在所述基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包之前，包括：

获取案件数据库中各个所述历史案件的案件标签，并基于各个所述案件标签的标签等级，构建所述案件数据库对应的案件关系树；所述案件关系树内包含有多个分支节点；每个分支节点关联一个所述案件标签；

根据所述案件标签，将各个所述历史案件导入到关联的所述分支节点，并基于所述分支节点内包含所有历史案件的法律实体，建立所述分支节点的法律子图谱；

根据所有分支节点的所述法律子图谱以及所述案件关系树，生成所述法律知识图谱。

5.根据权利要求1-4任一项所述的文件检索方法，其特征在于，所述基于预设的法律知识图谱内包含的知识节点，分别将各个所述历史案件划分为多个数据包，包括：

根据预设的分块数据量，将所述历史案件划分为多个文本段；

基于所述法律知识图谱分别对各个所述文本段进行关键词提取，得到各个所述文本段对应的文本关键词；所述文本关键词记录于所述法律知识图谱的知识节点中；

建立所述文本段与所述知识节点之间的关联关系，并根据所述关联关系以及所述文本段，生成所述数据包。

6.根据权利要求1-4任一项所述的文件检索方法，其特征在于，所述基于接收到的搜索关键词，确定所述法律知识图谱中与所述搜索关键词关联的目标节点，包括：

对所述搜索关键词进行语义分析，确定所述搜索关键词内包含的法律实体；

将所述搜索关键词包含的法律实体与所述法律知识图谱内的各个知识节点进行匹配，将与所述法律实体匹配的所述知识节点识别为所述搜索关键词关联的所述目标节点。

7.根据权利要求1-4任一项所述的文件检索方法，其特征在于，所述根据所述目标节点对应的所述分布式存储节点内包含有的历史案件，生成文件检索结果，包括：

从所述目标节点对应的所述分布式存储节点内提取存储的所述历史案件的数据包，并从所述数据包对应的案件语段中标记出所述搜索关键词；

将所有标记有所述搜索关键词的所述案件语段进行封装，生成所述文件检索结果。

8.一种文件检索的设备，其特征在于，包括：

9.一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。