WO2021042554A1

WO2021042554A1 - 一种法律文本归档方法、装置、可读存储介质及终端设备

Info

Publication number: WO2021042554A1
Application number: PCT/CN2019/118148
Authority: WO
Inventors: 周剀; 文莉
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-03
Filing date: 2019-11-13
Publication date: 2021-03-11
Also published as: CN110750493B; CN110750493A

Abstract

一种法律文本归档方法、装置、计算机非易失性可读存储介质及终端设备。所述方法接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本（S101）；对所述法律文本进行分词处理，得到组成所述法律文本的词语集合（S102）；从所述词语集合中选取核心词子集（S103）；根据所述核心词子集从预设的服务器群组中选取目标服务器（S104）；从所述词语集合中选取辅助词子集（S105），所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语；根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区（S106）；将所述法律文本归档入所述目标服务器中的所述目标分区（S107）。

Description

一种法律文本归档方法、装置、可读存储介质及终端设备

本申请要求于2019年9月3日提交中国专利局、申请号为201910826813.9、发明名称为“一种法律文本归档方法、装置、可读存储介质及终端设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于计算机技术领域，尤其涉及一种法律文本归档方法、装置、计算机非易失性可读存储介质及终端设备。

背景技术

在法院、律所等机构中，往往需要对大量的法律文本及时进行归档处理，以便于后续查询。现有技术中提供了多种对这些法律文本进行归档的方法，例如，可以按照处理人、处理单位以及处理日期等进行归档。这样的归档方法虽然可以使得这些法律文本看起来井然有序，但却并未考虑到这些法律文本内在的关联性，不便于用户进行查询，当用户需要从中查询相关的资料时，往往需要逐个进行查看，耗费大量的人力成本，效率极为低下。

技术问题

有鉴于此，本申请实施例提供了一种法律文本归档方法、装置、计算机非易失性可读存储介质及终端设备，以解决现有的法律文本归档方法耗费大量的人力成本，效率极为低下的问题。

技术解决方案

本申请实施例的第一方面提供了一种法律文本归档方法，可以包括：

接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本；

对所述法律文本进行分词处理，得到组成所述法律文本的词语集合；

从所述词语集合中选取核心词子集，所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语；

根据所述核心词子集从预设的服务器群组中选取目标服务器，所述目标服务器为用于对所述法律文本归档的服务器；

从所述词语集合中选取辅助词子集，所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率；

根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区，所述目标分区为用于对所述法律文本归档的磁盘分区；

将所述法律文本归档入所述目标服务器中的所述目标分区。

本申请实施例的第二方面提供了一种法律文本归档装置，可以包括用于实现上述法律文本归档方法的步骤的模块。

本申请实施例的第三方面提供了一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下上述法律文本归档方法的步骤。

本申请实施例的第四方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述法律文本归档方法的步骤。

有益效果

在本申请实施例中，将法律文本按其实际核心内容归档入各个服务器的磁盘分区中，当用户需要查询相关资料时，仅需在对应的服务器的磁盘分区中进行查找即可，节省了对于人力成本的耗费，大大提高了工作效率。

附图说明

图1为本申请实施例中一种法律文本归档方法的一个实施例流程图；

图2为从词语集合中选取核心词子集的示意流程图；

图3为根据核心词子集确定目标服务器的示意流程图；

图4为第一词语列表的设置过程的示意流程图；

图5为根据辅助词子集确定法律文本在目标服务器中的类别的示意流程图；

图6为本申请实施例中一种法律文本归档装置的一个实施例结构图；

图7为本申请实施例中一种终端设备的示意框图。

本发明的实施方式

请参阅图1，本申请实施例中一种法律文本归档方法的一个实施例可以包括：

步骤S101、接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本。

所述法律文本包括但不限于法律条文、法律论文、法律报道、法律分析文章以及法院的起诉书、裁决书等等与法律相关的材料中的文本。

当用户需要对某一法律文本进行存储时，可以通过人机交互界面向预设的终端设备下发法律文本存储指令，在所述法律文本存储指令中携带着法律文本当前所在的地址，也即所述目标地址。所述目标地址可以是所述终端设备中的某一存储地址，也可以是网络中或者指定的数据库中的某一存储地址。所述终端设备即为本实施例的实施主体，在接收到所述法律文本存储指令之后，所述终端设备可以从中提取出所述目标地址，并根据所述目标地址从本地、网络或者指定的数据库中获取到法律文本。

步骤S102、对所述法律文本进行分词处理，得到组成所述法律文本的词语集合。

在进行法律文本归档的过程中，所述终端设备首先会对会对其进行分词处理，得到组成所述法律文本的词语集合。分词处理是指将所述法律文本切分成一个一个单独的词语，在本实施例中，可以采用通用词典与法律专用词典相结合的方式对所述法律文本进行切分，即使用法律专用词典对所述法律文本进行第一轮切分，再使用通用词典对第一轮切分后剩下的法律文本进行切分，通过这样的方式，优先切分出法律专用词语，再切分出通用词语，对于既无法切分出法律专用词语又无法切分出通用词语的法律文本，则切分出单字。

步骤S103、从所述词语集合中选取核心词子集。

所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语。

如图2所示，步骤S103具体可以包括如下步骤：

步骤S1031、分别计算所述词语集合中的各个词语的词条密度。

具体地，可以根据下式分别计算所述词语集合中的各个词语的词条密度：

其中，w为所述词语集合中的各个词语的序号，1≤w≤WN，WN为所述词语集合中的词语数目，WdNum _w为所述词语集合中的第w个词语在所述法律文本中出现的次数，LineNum为所述法律文本的总行数，WdDensity _w为所述词语集合中的第w个词语的词条密度。

步骤S1032、将所述法律文本划分为FN个文本段落，并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况。

FN为大于1的整数。文本段落可以根据具体情况来划分，在本实施例的一种具体实现中，可以将所述法律文本中的每KN行作为一个文本段落，即将所述法律文本中的第1行至第KN行作为第一个文本段落，将所述法律文本中的第KN+1行至第2×KN行作为第二个文本段落，将所述法律文本中的第2×KN+1行至第3×KN行作为第三个文本段落，以此类推。则有：

其中，Ceil为向上取整函数。KN的取值可以根据具体情况进行设置，例如，可以将其设置为3、5、10或者其它取值等等。

步骤S1033、分别计算所述词语集合中的各个词语的均匀度。

具体地，可以根据下式分别计算所述词语集合中的各个词语的均匀度：

其中，f为所述法律文本的各个文本段落的序号，1≤f≤FN，Flag _w,f为所述词语集合中的第w个词语在第f个文本段落中的出现情况的标志位，且

WdEqu _w为所述词语集合中的第w个词语的均匀度。

步骤S1034、从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。

所述第一阈值和所述第二阈值的具体取值可以根据实际情况进行设置。

在本实施例的一种具体实现中，可以首先按照取值从大到小的顺序构造如下所示的词条密度序列：

DensitySet＝{WdDensity ₁、WdDensity ₂、……、WdDensity _w、……、WdDensity _WN}

其中，DensitySet即为所述词条密度序列。

然后，按照预设的第一选取比例从所述词条密度序列中选取排序在前的若干个取值，并将选取的取值构造为如下所示的最大词条密度序列：

MaxDensitySet＝{MaxWdDensity ₁、MaxWdDensity ₂、……、MaxWdDensity _nmax、……、MaxWdDensity _MaxNum}

其中，MaxDensitySet为所述最大词条密度序列，MaxNum为所述最大词条密度序列中的取值个数，且MaxNum＝WN×η ₁，η ₁为所述第一选取比例，可以根据实际情况将其设置为0.2、0.3、0.4或者其它取值，nmax为所述最大词条密度序列中的取值序号，1≤nmax≤MaxNum，MaxWdDensity _nmax为所述最大词条密度序列的第nmax个取值。

接着，按照预设的第二选取比例从所述词条密度序列中选取排序在后的若干个取值，并将选取的取值构造为如下所示的最小词条密度序列：

MinDensitySet＝{MinWdDensity ₁、MinWdDensity ₂、……、MinWdDensity _nmin、……、MinWdDensity _MinNum}

其中，MinDensitySet为所述最小词条密度序列，MinNum为所述最小词条密度序列中的取值个数，且MaxNum＝WN×η ₂，η ₂为所述第二选取比例，可以根据实际情况将其设置为0.2、0.3、0.4或者其它取值，nmin为所述最小词条密度序列中的取值序号，1≤nmin≤MinNum，MinWdDensity _nmin为所述最小词条密度序列的第nmin个取值。

再构造如下所示的中值词条密度序列：

MidDensitySet＝{MidWdDensity ₁、MidWdDensity ₂、……、MidWdDensity _nmid、……、 MidWdDensity _MidNum}

其中，MidDensitySet为所述中值词条密度序列，且MidDensitySet＝DensitySet-MaxDensitySet-MinDensitySet，MidNum为所述中值词条密度序列中的取值个数，且MidNum＝WN×(1-η ₁-η ₂)，nmid为所述中值词条密度序列中的取值序号，1≤nmid≤MidNum，MidWdDensity _nmid为所述中值词条密度序列的第nmid个取值。

最后，根据下式计算所述第一阈值：

其中，λ为预设的系数，且λ>0，FstThresh为所述第一阈值。

所述第二阈值的设置过程与所述第一阈值的设置过程类似，仅需将其中出现的词条密度替换为均匀度即可，具体可参照上述内容，此处不再赘述。

步骤S104、根据所述核心词子集从预设的服务器群组中选取目标服务器。

所述目标服务器为用于对所述法律文本归档的服务器。在本实施例中，所述服务器群组可以包括三个服务器，分别用于对民事、刑事、行政这三个法律领域的法律文本进行归档。

如图3所示，步骤S104具体可以包括：

步骤S1041、在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量。

其中，每个词语的第一特征向量均由T个维度的分量组成，每个维度均对应于一个服务器的特征值，T为大于1的整数，对于将所有的法律文本划分为民事、刑事、行政这三个法律领域的情况，则有T＝3。

对于不同法律领域的法律文本而言，其中的用词往往会存在较大的差异，某些词语会在某一个法律领域中频繁出现，而在其它的法律领域中极少出现，本实施例利用这一特性，预先通过如图4所示的大数据分析过程设置建立所述第一词语列表：

步骤S10411、对预设的法律文本总库中的各条法律文本进行分词处理，得到组成所述法律文本总库的各个词语。

所述法律文本总库中包括与各个法律领域分别对应的法律文本库。在所述法律文本总库中尽可能多的包含某一统计时间段内获取的所有法律文本。该统计时间段可以根据实际情况进行设置，例如，可以将其设置为距离当前时刻一周、一个月、一个季度或者一年内的时间段。

所述法律文本总库中的所有法律文本根据其所属的法律领域会被划分为若干个法律文本库，每个法律文本库均对应于一个法律领域，例如，可以将法律文本总库划分为民事法律文本库、刑事法律文本库、行政法律文本库等等。相应的，每个法律文本库也均对应于一个对该法律领域进行归档的服务器。

分词处理的过程与步骤S101中的过程类似，具体可参照步骤S101中的叙述，此处不再赘述。

步骤S10412、分别统计组成所述法律文本总库的各个词语在各个法律文本库中出现的次数。

在本实施例中，可以将组成所述法律文本总库的各个词语在各个法律文本库中出现的次数记为如下所示的序列形式：

WNSeq _sw＝(WordNum _sw,1,WordNum _sw,2,......,WordNum _sw,t,......,WordNum _sw,T)

其中，t为所述服务器群组中的各个服务器的序号(也即法律文本库的序号)，1≤t≤T，sw为组成所述法律文本总库的各个词语的序号，1≤sw≤SWN，SWN组成所述法律文本总库的词语的总数，WordNum _sw,t为组成所述法律文本总库的第sw个词语在与第t个服务器对应的法律文本库中出现的次数，WNSeq _sw为第sw个词语在各个法律文本库中出现的次数序列。

步骤S10413、分别计算组成所述法律文本总库的各个词语与各个服务器对应的特征值。

具体地，可以根据下式分别计算组成所述法律文本总库的各个词语与各个服务器对应的特征值：

其中，ln为自然对数函数，EigVal _sw,t为组成所述法律文本总库的第sw个词语与第t个服务器对应的特征值。

由该式可以看出，EigVal _sw,t与WordNum _sw,t正相关，即某一词语在某个服务器对应的法律文本库中出现的次数越多，则该词语与该服务器对应的特征值也越高。

步骤S10414、构造组成所述法律文本总库的各个词语的第一特征向量。

具体地，可以根据下式构造组成所述法律文本总库的各个词语的第一特征向量：

EigVec _sw＝(EigVal _sw,1,EigVal _sw,2,......,EigVal _sw,t,......,EigVal _sw,T)

其中，EigVec _sw为组成所述法律文本总库的第sw个词语的第一特征向量。

步骤S10415、将组成所述法律文本总库的各个词语的第一特征向量构造为所述第一词语列表。

通过图4所示的过程，即可完成对所述第一词语列表的设置过程，为后续的法律文本归档提供依据。

步骤S1042、根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值。

具体地，可以根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值：

其中，c为所述核心词子集中的各个词语的序号，1≤c≤CoreNum，CoreNum为所述核心词子集中的词语数目，EigVal _c,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值，LawDom _t为所述法律文本归档入第t个服务器的概率值。

步骤S1043、将概率值最大的服务器确定为所述目标服务器。

具体地，可以根据下式选取出所述目标服务器：

TgtLawDom＝Argmax(LawDomSq)

＝Argmax(LawDom ₁,LawDom ₂,......,LawDom _t,......,LawDom _T)

其中，Argmax为最大自变量函数，LawDomSq为所述法律文本的第一概率值序列，且：LawDomSq＝(LawDom ₁,LawDom ₂,......,LawDom _t,......,LawDom _T)，TgtLawDom为所述目标服务器的序号。

步骤S105、从所述词语集合中选取辅助词子集。

所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率。

具体地，首先可以根据下式分别计算所述词语集合中的各个词语的第一词频：

其中，FstFrq _w为所述词语集合中的第w个词语的第一词频。

然后，根据下式分别计算所述词语集合中的各个词语的第二词频：

其中，LibWdNum _w为所述词语集合中的第w个词语在与所述目标服务器对应的法律文本库中出现的次数，SndFrq _w为所述词语集合中的第w个词语的第二词频。

最后，从所述词语集合中选取第一词频与第二词频之比大于所述第三阈值的各个词语组成所述辅助词子集。

所述第三阈值的设置过程与所述第一阈值的设置过程类似，仅需将其中出现的词条密度替换为第一词频与第二词频之比即可，具体可参照上述内容，此处不再赘述。

步骤S106、根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区。

所述目标分区为用于对所述法律文本归档的磁盘分区。在本实施例中，每个法律领域又可细分为多个类别，以民事法律领域为例，可以分为以下8个类别：(1)公民之间、公民与法人之间因财产权而发生的纠纷，多数指对财产的占有、使用、收益和处分所发生的纠纷。(2)公民之间因买卖、租赁、借贷、赠与、典当等合同行为而发生的纠纷以及继承遗产所引起的纠纷。(3)因不当得利，无因管理等所产生的债务纠纷以及损坏财产引起的赔偿纠纷。(4)因人身权利引起的纠纷，这主要是指侵害公民健康权、姓名权、名誉权、荣誉权和肖像权。(5)因侵害公民的发明权(专利权)、著作权(版权)而引起的纠纷。(6)婚姻家庭引起的纠纷，主要有离婚以及因离婚引起的财产分割、子女抚养方面的纠纷，家庭成员间的赡养、抚育、扶养等纠纷。(7)因经济合同、企业劳动用工、企业承包、土地承包、相邻权等引起的纠纷。(8)法律规定的或最高人民法院司法解释文件规定的应由人民法院受理的其他民事诉讼案件。本实施例可以将每个服务器均划分为若干个磁盘分区，每个磁盘分区用于对某一类别的法律文本进行归档。

如图5所示，步骤S106具体可以包括：

步骤S1061、在预设的第二词语列表中分别查询所述辅助词子集中的各个词语的第二特征向量。

其中，每个词语的第二特征向量均由ST个维度的分量组成，每个维度均对应于一个磁盘分区的特征值，ST为所述目标服务器中的磁盘分区总数。

所述第二词语列表的设置过程与图4所示的所述第一词语列表的设置过程类似，与所述目标服务器对应的法律文本库中包括与各个磁盘分区分别对应的法律文本子库，首先分别统计所述法律文本总库的各个词语在各个法律文本子库中出现的次数，然后可以根据下式分别计算各个词语与所述目标服务器中的各个磁盘分区对应的特征值：

其中，st为所述目标服务器中的磁盘分区序号，1≤st≤ST，WordNum _sw,st为组成所述法律文本总库的第sw个词语在与所述目标服务器中的第st个磁盘分区对应的法律文本子库中出现的次数，EigVal _sw,st为组成所述法律文本总库的第sw个词语与所述目标服务器中的第st个磁盘分区对应的特征值。

最后，根据下式构造组成所述法律文本总库的各个词语的第二特征向量，并将组成所述法律文本总库的各个词语的第二特征向量构造为所述第二词语列表：

SdEigVec _sw＝(EigVal _sw,1,EigVal _sw,2,......,EigVal _sw,st,......,EigVal _sw,ST)

其中，SdEigVec _sw为组成所述法律文本总库的第sw个词语的第二特征向量。

步骤S1062、根据所述辅助词子集中的各个词语的第二特征向量分别计算所述法律文本属于所述目标服务器中的各个磁盘分区的概率值。

具体地，可以根据下式计算所述法律文本属于所述目标服务器中的各个磁盘分区的概率值：

其中，sub为所述辅助词子集中的各个词语的序号，1≤sub≤SubNum，SubNum为所述辅助词子集中的词语数目，EigVal _sub,st为所述辅助词子集中的第sub个词语与所述目标服务器中的第st个磁盘分区对应的特征值，LawType _st为所述法律文本属于所述目标服务器中的第st个磁盘分区的概率值。

步骤S1063、将概率值最大的磁盘分区确定为所述法律文本在所述目标服务器中的目标分区。

具体地，可以根据下式选取出所述法律文本在所述目标服务器中的目标分区：

TgtLawType＝Argmax(LawTypeSq)

＝Argmax(LawType ₁,LawType ₂,......,LawType _st,......,LawType _ST)

其中，LawTypeSq为所述法律文本的第二概率值序列，且：LawTypeSq＝(LawType ₁,LawType ₂,......,LawType _st,......,LawType _ST)，TgtLawType为所述法律文本在所述目标服务器中的目标分区的序号。

步骤S107、将所述法律文本归档入所述目标服务器中的所述目标分区。

综上所述，在本申请实施例中，在接收到相关指令后，可以自动获取法律文本，并通过文本自动化分析的方式，自动从法律文本中选取出可以有效地表征法律文本核心内容的核心词子集，并据此确定对所述法律文本归档的服务器(即目标服务器)的依据，接着，从所述词语集合中选取辅助词子集，并据此确定对所述法律文本归档的磁盘分区(即目标分区)，并将法律文本归档入所述目标服务器中的所述目标分区。通过这样的方式，将法律文本按其实际核心内容归档入各个服务器的磁盘分区中，当用户需要查询相关资料时，仅需在对应的服务器的磁盘分区中进行查找即可，节省了对于人力成本的耗费，大大提高了工作效率。

对应于上文实施例所述的一种法律文本归档方法，图6示出了本申请实施例提供的一种法律文本归档装置的一个实施例结构图。

本实施例中，一种法律文本归档装置可以包括：

法律文本获取模块601，用于接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本；

分词处理模块602，用于对所述法律文本进行分词处理，得到组成所述法律文本的词语集合；

核心词子集选取模块603，用于从所述词语集合中选取核心词子集，所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语；

目标服务器确定模块604，用于根据所述核心词子集从预设的服务器群组中选取目标服务器，所述目标服务器为用于对所述法律文本归档的服务器；

辅助词子集选取模块605，用于从所述词语集合中选取辅助词子集，所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率；

分区确定模块606，用于根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区，所述目标分区为用于对所述法律文本归档的磁盘分区；

归档模块607，用于将所述法律文本归档入所述目标服务器中的所述目标分区。

进一步地，所述核心词子集选取模块可以包括：

词条密度计算单元，用于分别计算所述词语集合中的各个词语的词条密度；

文本段落划分单元，用于将所述法律文本划分为FN个文本段落，并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况，FN为大于1的整数；

均匀度计算单元，用于分别计算所述词语集合中的各个词语的均匀度；

核心词子集选取单元，用于从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。

进一步地，所述目标服务器确定模块可以包括：

第一特征向量查询单元，用于在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量；

概率值计算单元，用于根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值；

目标服务器确定单元，用于将概率值最大的服务器确定为所述目标服务器。

进一步地，所述辅助词子集选取模块可以包括：

第一词频计算单元，用于分别计算所述词语集合中的各个词语的第一词频；

第二词频计算单元，用于分别计算所述词语集合中的各个词语的第二词频；

辅助词子集选取单元，用于从所述词语集合中选取第一词频与第二词频之比大于所述第三阈值的各个词语组成所述辅助词子集。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图7示出了本申请实施例提供的一种终端设备的示意框图，为了便于说明，仅示出了与本申请实施例相关的部分。

在本实施例中，所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备7可包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机可读指令72，例如执行上述的法律文本归档方法的计算机可读指令。所述处理器70执行所述计算机可读指令72时实现上述各个法律文本归档方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机非易失性可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种法律文本归档方法，其特征在于，包括：

接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本；

对所述法律文本进行分词处理，得到组成所述法律文本的词语集合；

从所述词语集合中选取核心词子集，所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语；

根据所述核心词子集从预设的服务器群组中选取目标服务器，所述目标服务器为用于对所述法律文本归档的服务器；

从所述词语集合中选取辅助词子集，所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率；

根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区，所述目标分区为用于对所述法律文本归档的磁盘分区；

将所述法律文本归档入所述目标服务器中的所述目标分区。
根据权利要求1所述的法律文本归档方法，其特征在于，所述从所述词语集合中选取核心词子集包括：

根据下式分别计算所述词语集合中的各个词语的词条密度：

其中，w为所述词语集合中的各个词语的序号，1≤w≤WN，WN为所述词语集合中的词语数目，WdNum _w为所述词语集合中的第w个词语在所述法律文本中出现的次数，LineNum为所述法律文本的总行数，WdDensity _w为所述词语集合中的第w个词语的词条密度；

将所述法律文本划分为FN个文本段落，并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况，FN为大于1的整数；

根据下式分别计算所述词语集合中的各个词语的均匀度：

其中，f为所述法律文本的各个文本段落的序号，1≤f≤FN，Flag _w,f为所述词语集合中的第w个词语在第f个文本段落中的出现情况的标志位，且
WdEqu _w为所述词语集合中的第w个词语的均匀度；

从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
根据权利要求1所述的法律文本归档方法，其特征在于，所述根据所述核心词子集从预设的服务器群组中选取目标服务器包括：

在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量，其中，每个词语的第一特征向量均由T个维度的分量组成，每个维度均对应于一个服务器的特征值，T为大于1的整数；

根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值；

将概率值最大的服务器确定为所述目标服务器。
根据权利要求3所述的法律文本归档方法，其特征在于，所述根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值包括：

根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值：

其中，t为所述服务器群组中的各个服务器的序号，1≤t≤T，c为所述核心词子集中的各个词语的序号，1≤c≤CoreNum，CoreNum为所述核心词子集中的词语数目，EigVal _c,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值，LawDom _t为所述法律文本归档入第t个服务器的概率值。
根据权利要求1至4中任一项所述的法律文本归档方法，其特征在于，所述从所述词语集合中选取辅助词子集包括：

分别计算所述词语集合中的各个词语的第一词频；

分别计算所述词语集合中的各个词语的第二词频；

从所述词语集合中选取第一词频与第二词频之比大于所述第三阈值的各个词语组成所述辅助词子集。
一种法律文本归档装置，其特征在于，包括：

法律文本获取模块，用于接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本；

分词处理模块，用于对所述法律文本进行分词处理，得到组成所述法律文本的词语集合；

核心词子集选取模块，用于从所述词语集合中选取核心词子集，所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语；

目标服务器确定模块，用于根据所述核心词子集从预设的服务器群组中选取目标服务器，所述目标服务器为用于对所述法律文本归档的服务器；

辅助词子集选取模块，用于从所述词语集合中选取辅助词子集，所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率；

分区确定模块，用于根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区，所述目标分区为用于对所述法律文本归档的磁盘分区；

归档模块，用于将所述法律文本归档入所述目标服务器中的所述目标分区。
根据权利要求6所述的法律文本归档装置，其特征在于，所述核心词子集选取模块包括：

词条密度计算单元，用于分别计算所述词语集合中的各个词语的词条密度；

文本段落划分单元，用于将所述法律文本划分为FN个文本段落，并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况，FN为大于1的整数；

均匀度计算单元，用于分别计算所述词语集合中的各个词语的均匀度；

核心词子集选取单元，用于从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
根据权利要求6所述的法律文本归档装置，其特征在于，所述目标服务器确定模块包括：

第一特征向量查询单元，用于在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量，其中，每个词语的第一特征向量均由T个维度的分量组成，每个维度均对应于一个服务器的特征值，T为大于1的整数；

概率值计算单元，用于根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值；

目标服务器确定单元，用于将概率值最大的服务器确定为所述目标服务器。
根据权利要求8所述的法律文本归档装置，其特征在于，所述概率值计算单元具体用于根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值：

其中，t为所述服务器群组中的各个服务器的序号，1≤t≤T，c为所述核心词子集中的各个词语的序号，1≤c≤CoreNum，CoreNum为所述核心词子集中的词语数目，EigVal _c,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值，LawDom _t为所述法律文本归档入第t个服务器的概率值。
根据权利要求6至9中任一项所述的法律文本归档装置，其特征在于，所述辅助词子集选取模块包括：

第一词频计算单元，用于分别计算所述词语集合中的各个词语的第一词频；

第二词频计算单元，用于分别计算所述词语集合中的各个词语的第二词频；

辅助词子集选取单元，用于从所述词语集合中选取第一词频与第二词频之比大于所述第三阈值的各个词语组成所述辅助词子集。
一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如下步骤：

接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本；

对所述法律文本进行分词处理，得到组成所述法律文本的词语集合；

从所述词语集合中选取核心词子集，所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语；

根据所述核心词子集从预设的服务器群组中选取目标服务器，所述目标服务器为用于对所述法律文本归档的服务器；

从所述词语集合中选取辅助词子集，所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率；

根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区，所述目标分区为用于对所述法律文本归档的磁盘分区；

将所述法律文本归档入所述目标服务器中的所述目标分区。
根据权利要求11所述的计算机非易失性可读存储介质，其特征在于，所述从所述词语集合中选取核心词子集包括：

分别计算所述词语集合中的各个词语的词条密度；

将所述法律文本划分为FN个文本段落，并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况，FN为大于1的整数；

分别计算所述词语集合中的各个词语的均匀度；

从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
根据权利要求11所述的计算机非易失性可读存储介质，其特征在于，所述根据所述核心词子集从预设的服务器群组中选取目标服务器包括：

在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量，其中，每个词语的第一特征向量均由T个维度的分量组成，每个维度均对应于一个服务器的特征值，T为大于1的整数；

根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值；

将概率值最大的服务器确定为所述目标服务器。
根据权利要求13所述的计算机非易失性可读存储介质，其特征在于，所述根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值包括：

根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值：

其中，t为所述服务器群组中的各个服务器的序号，1≤t≤T，c为所述核心词子集中的各个词语的序号，1≤c≤CoreNum，CoreNum为所述核心词子集中的词语数目，EigVal _c,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值，LawDom _t为所述法律文本归档入第t个服务器的概率值。
根据权利要求11至14中任一项所述的计算机非易失性可读存储介质，其特征在于，所述从所述词语集合中选取辅助词子集包括：

分别计算所述词语集合中的各个词语的第一词频；

分别计算所述词语集合中的各个词语的第二词频；

从所述词语集合中选取第一词频与第二词频之比大于所述第三阈值的各个词语组成所述辅助词子集。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

接收法律文本归档指令，提取所述法律文本归档指令中的目标地址，并获取所述目标地址中的法律文本；

对所述法律文本进行分词处理，得到组成所述法律文本的词语集合；

从所述词语集合中选取核心词子集，所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语；

根据所述核心词子集从预设的服务器群组中选取目标服务器，所述目标服务器为用于对所述法律文本归档的服务器；

从所述词语集合中选取辅助词子集，所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语，所述第一词频为在所述法律文本中出现的频率，所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率；

根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区，所述目标分区为用于对所述法律文本归档的磁盘分区；

将所述法律文本归档入所述目标服务器中的所述目标分区。
根据权利要求16所述的终端设备，其特征在于，所述从所述词语集合中选取核心词子集包括：

分别计算所述词语集合中的各个词语的词条密度；

将所述法律文本划分为FN个文本段落，并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况，FN为大于1的整数；

分别计算所述词语集合中的各个词语的均匀度；

从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。
根据权利要求16所述的终端设备，其特征在于，所述根据所述核心词子集从预设的服务器群组中选取目标服务器包括：

在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量，其中，每个词语的第一特征向量均由T个维度的分量组成，每个维度均对应于一个服务器的特征值，T为大于1的整数；

根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值；

将概率值最大的服务器确定为所述目标服务器。
根据权利要求18所述的终端设备，其特征在于，所述根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值包括：

根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值：

其中，t为所述服务器群组中的各个服务器的序号，1≤t≤T，c为所述核心词子集中的各个词语的序号，1≤c≤CoreNum，CoreNum为所述核心词子集中的词语数目，EigVal _c,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值，LawDom _t为所述法律文本归档入第t个服务器的概率值。
根据权利要求16至19中任一项所述的终端设备，其特征在于，所述从所述词语集合中选取辅助词子集包括：

分别计算所述词语集合中的各个词语的第一词频；

分别计算所述词语集合中的各个词语的第二词频；

从所述词语集合中选取第一词频与第二词频之比大于所述第三阈值的各个词语组成所述辅助词子集。