CN108804443A

CN108804443A - 一种基于多特征融合的司法类案搜索方法

Info

Publication number: CN108804443A
Application number: CN201710289597.XA
Authority: CN
Inventors: 耿伟; 司华建; 贾真
Original assignee: Anhui Fu Chi Information Technology Co Ltd
Current assignee: Anhui Fu Chi Information Technology Co Ltd
Priority date: 2017-04-27
Filing date: 2017-04-27
Publication date: 2018-11-13

Abstract

本发明公开了一种基于多特征融合的司法类案搜索方法，具体步骤如下：用户输入查询请求；对用户查询请求预处理及分词，并去除其中的停用词，获得一组查询关键词；依次遍历查询词集合，对于查询词集合中的每一个查询词，通过语义词典进行查询语义扩展，并得到扩展后的查询语义关键词列表；采用信息点进行文书过滤，搜索特征倒排索引，得到关键词列表的不同特征向量，再进行多特征融合；求得文书和查询语句之间的融合相似度值，并获取最终的相似度得分；对最终的搜索结果进行排序输出。本发明具有准确度高等优点。

Description

一种基于多特征融合的司法类案搜索方法

技术领域

本发明涉及司法类案搜索领域，具体来说是一种基于多特征融合的司法类案搜索方法。

背景技术

法律，是国家的产物，是指统治阶级(统治集团，就是政党,包括国王、君主)，为了实现统治并管理国家的目的，经过一定立法程序，所颁布的基本法律和普通法律。法律是全体国民意志的体现，国家的统治工具。

随着社会信息的公开化，社会上对一些法律案件的审判结果越来越重视，审判的过程中，能够及时推荐相似的裁判文书作为参考，可有效提高审判的效果，目前，普遍采用的是基于关键字的全文检索***，只是简单的使用词匹配比较两个案件的相似，难以准确获取到理想的搜索结果，其原因，可概括为三方面：关键词特征对文书信息的描述不全面,从而使相似度计算不准确；分布在文书不同段块的关键词，对最终的相似判定影响也不同；未能很好的考虑上下文信息对关键词语义的约束，从而不能对语境变化带来的差异进行有效的区分，因此研究出一种准确度高的搜索方法已成为当前重要的课题之一。

发明内容

本发明所要解决的技术问题是为了克服现有技术中检索效率低、准确度不高的缺陷，而提供一种基于多特征融合的司法类案搜索方法。

本发明解决上述技术问题提供的技术方案是：本发明公开了一种基于多特征融合的司法类案搜索方法，具体步骤如下：

(1)、用户输入查询请求；

(2)、对用户查询请求预处理及分词，并去除其中的停用词，获得一组查询关键词；

(3)、依次遍历查询词集合，对于查询词集合中的每一个查询词，通过语义词典进行查询语义扩展，并得到扩展后的查询语义关键词列表；

(4)、采用信息点进行文书过滤，搜索特征倒排索引，得到关键词列表的不同特征向量，再进行多特征融合；

(5)、求得文书和查询语句之间的融合相似度值，并获取最终的相似度得分；

(6)、对最终的搜索结果进行排序输出。

作为优选，所述的步骤(4)中，所述的特征向量包括分块加权的关键词特征向量、语言模型特征向量、主题词集特征向量。

作为优选，所述的分块加权的关键词特征向量通过统计分块词条的tfidf信息，再分块加权；

作为优选，所述的语言模型特征向量通过进行大小为N的滑动窗口操作，形成长度为N的词语片段序列，每个词语片段称为gram，对全部gram的出现频度进行统计，并按照事先设定的阈值进行过滤，形成关键gram列表；

作为优选，所述的主题词集特征向量通过使用主题来表示一个概念、一个方面，表现为一系列相关的关键主题词语，是这些关键词语的条件概率；

作为优选，所述的步骤(5)中，多特征融合后的相似度打分公式如下所示：

score(q_，d)

＝a*weightword(q，d)+b*gramScore(q，d)+c

*Sim_capte(q，d)

其中，a+b+c＝1,目标函数是寻找一组可能的参数组合{a,b,c}，通过数学模型的描述和求解以及训练数据使参数组合(a、b、c)自适应调整达到最优。具体方法为首先限定a、b、c三个参数的取值范围为(0，1)，根据经验取适当的代数。

与现有技术相比，本发明具有以下有益优点：

本发明首先通过语义词典进行查询语义扩展，使得查询关键词及词间关系描述更全面，构造全面准确的关键词描述，再通过分块的词条加权、语言模型、主题词集等多特征融合构建相似度模型，并对搜索结果进行综合排序，大幅提高类案检索的准确率和召回率。

附图说明

图1为本发明的实施例1中离线构建多特征模型示意图；

图2为本发明的实施例1中的基于多特征融合的司法类案搜索方法的流程示意图；

图3为本发明的实施例1中的多特征融合示意图；

图4为本发明的实施例1中的向量空间模型原理示意图。

具体实施方式

参照图1-4所示，本发明公开了一种基于多特征融合的司法类案搜索方法，具体步骤如下：

(1)、用户输入查询请求；

(6)、对最终的搜索结果进行排序输出。

score(q，d)

＝a*weightword(q，d)+b*gramScore(q，d)+c

*Slm_capte(q_，d)

实施例1

本发明公开了一种基于多特征融合的司法类案搜索方法，具体步骤如下：

(1)、用户输入查询请求；

(4)、采用信息点进行文书过滤，搜索特征倒排索引，得到关键词列表的不同特征向量，包括关键词特征向量、语言模型特征向量、主题词集特征向量，分块加权的关键词特征向量通过统计分块词条的tfidf信息，再分块加权，语言模型特征向量通过进行大小为N的滑动窗口操作，形成长度为N的词语片段序列，每个词语片段称为gram，对全部gram的出现频度进行统计，并按照事先设定的阈值进行过滤，形成关键gram列表，以2-gram模型为例，计算词语相邻相似度得分的方法，计算公式如下:

表示查询串q与文档d之间的词语相似度得分；2-gram(q)表示查询串的2-gram集合,2-gram(d)表示文档的2-gram集合

具体算法描述如下:输入预处理后的查询串q,文档d

输出q与d之间的词语相邻相似度得分

A、求得q的2-gram集合2-gram(q)；

B、求得d的2-gram集合2-gram(d)；

C、由2-gram(q)和2-gram(d)计算q与d的词语相邻相似度得分gramScore(q,d)；

主题词集特征向量通过使用主题来表示一个概念、一个方面，表现为一系列相关的关键主题词语，是这些关键词语的条件概率，

然后对上述特征向量进行多特征融合；

(5)、求得文书和查询语句之间的融合相似度值，并获取最终的相似度得分，具体步骤为

假设模型把文书看成是由t维特征组成的一个向量，特征一般通常采用词语来表示，每个特征会根据一定判断依据来计算其权重，这t维带有权重的特征共同构成了一个文书；

为了计算该分值，文书和查询都被表示成向量，我们把文档看作一系列词(Term)，每一个词(Term)都有一个权重(Term weight)，不同的词(Term)根据自己在文书中的权重来影响文档相关性的打分计算，

于是我们把所有此文书中词(term)的权重(term weight)看作一个向量，

Document＝{term1,term2,……,term N}

Document Vector＝{weight1,weight2,……,weight N}

同样我们把查询语句看作一个简单的文书，也用向量来表示，

Query＝{term1,term 2,……,term N}

Query Vector＝{weight1,weight2,……,weight N}

我们把所有搜索出的文书向量及查询向量放到一个N维空间中，每个词(term)是一维，向量空间模型原理如图4所示：

于是文书和查询语句之间的相似度值由以下公式获得:

查询语义扩展使得查询关键词及词间关系描述更全面，基于分块加权的关键词特征体现了关键词分布信息；基于语言模型的关键词特征体现了关键词依存关系及上下文语义关键词语义的约束；而基于主题词集的关键词特征引入查询词语和主题词相关关系，体现了查询和文书块之间的似然度，我们的目标是，将分块加权的关键词特征、语言模型特征，主题词特征组合起来，扬长避短，互为补充，共同描述一个文书，从而根据这些特征计算查询和文书之间的相似度，

多特征融合后的相似度打分公式如下所示：

score(q，d)

＝a*weightword(q，d)+b*gramScore(q，d)+c

*Sl_capte(q，d)

其中，a+b+c＝1，目标函数是寻找一组可能的参数组合{a，b，c}，通过数学模型的描述和求解以及训练数据使参数组合(a、b、c)自适应调整达到最优。具体方法为首先限定a、b、c三个参数的取值范围为(0，1)，根据经验取适当的代数；

(6)、对最终的搜索结果进行排序输出。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于多特征融合的司法类案搜索方法，其特征在于：具体步骤如下：

(1)、用户输入查询请求；

(6)、对最终的搜索结果进行排序输出。

2.根据权利要求1所述的一种基于多特征融合的司法类案搜索方法，其特征在于：所述的步骤(4)中，所述的特征向量包括分块加权的关键词特征向量、语言模型特征向量、主题词集特征向量。

3.根据权利要求2所述的一种基于多特征融合的司法类案搜索方法，其特征在于：所述的分块加权的关键词特征向量通过统计分块词条的tfidf信息，再分块加权。

4.根据权利要求2所述的一种基于多特征融合的司法类案搜索方法，其特征在于：所述的语言模型特征向量通过进行大小为N的滑动窗口操作，形成长度为N的词语片段序列，每个词语片段称为gram，对全部gram的出现频度进行统计，并按照事先设定的阈值进行过滤，形成关键gram列表。

5.根据权利要求2所述的一种基于多特征融合的司法类案搜索方法，其特征在于：所述的主题词集特征向量通过使用主题来表示一个概念、一个方面，表现为一系列相关的关键主题词语，是这些关键词语的条件概率。

6.根据权利要求1所述的一种基于多特征融合的司法类案搜索方法，其特征在于：所述的步骤(5)中，多特征融合后的相似度打分公式如下所示：

score(q，d)

＝a*weightword(q，d)+D*gramScore(q，d)+c

*Sim_ropk(q，d)