CN108804443A - 一种基于多特征融合的司法类案搜索方法 - Google Patents
一种基于多特征融合的司法类案搜索方法 Download PDFInfo
- Publication number
- CN108804443A CN108804443A CN201710289597.XA CN201710289597A CN108804443A CN 108804443 A CN108804443 A CN 108804443A CN 201710289597 A CN201710289597 A CN 201710289597A CN 108804443 A CN108804443 A CN 108804443A
- Authority
- CN
- China
- Prior art keywords
- fusion
- query
- word
- words
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多特征融合的司法类案搜索方法,具体步骤如下:用户输入查询请求;对用户查询请求预处理及分词,并去除其中的停用词,获得一组查询关键词;依次遍历查询词集合,对于查询词集合中的每一个查询词,通过语义词典进行查询语义扩展,并得到扩展后的查询语义关键词列表;采用信息点进行文书过滤,搜索特征倒排索引,得到关键词列表的不同特征向量,再进行多特征融合;求得文书和查询语句之间的融合相似度值,并获取最终的相似度得分;对最终的搜索结果进行排序输出。本发明具有准确度高等优点。
Description
技术领域
本发明涉及司法类案搜索领域,具体来说是一种基于多特征融合的司法类案搜索方法。
背景技术
法律,是国家的产物,是指统治阶级(统治集团,就是政党,包括国王、君主),为了实现统治并管理国家的目的,经过一定立法程序,所颁布的基本法律和普通法律。法律是全体国民意志的体现,国家的统治工具。
随着社会信息的公开化,社会上对一些法律案件的审判结果越来越重视,审判的过程中,能够及时推荐相似的裁判文书作为参考,可有效提高审判的效果,目前,普遍采用的是基于关键字的全文检索***,只是简单的使用词匹配比较两个案件的相似,难以准确获取到理想的搜索结果,其原因,可概括为三方面:关键词特征对文书信息的描述不全面,从而使相似度计算不准确;分布在文书不同段块的关键词,对最终的相似判定影响也不同;未能很好的考虑上下文信息对关键词语义的约束,从而不能对语境变化带来的差异进行有效的区分,因此研究出一种准确度高的搜索方法已成为当前重要的课题之一。
发明内容
本发明所要解决的技术问题是为了克服现有技术中检索效率低、准确度不高的缺陷,而提供一种基于多特征融合的司法类案搜索方法。
本发明解决上述技术问题提供的技术方案是:本发明公开了一种基于多特征融合的司法类案搜索方法,具体步骤如下:
(1)、用户输入查询请求;
(2)、对用户查询请求预处理及分词,并去除其中的停用词,获得一组查询关键词;
(3)、依次遍历查询词集合,对于查询词集合中的每一个查询词,通过语义词典进行查询语义扩展,并得到扩展后的查询语义关键词列表;
(4)、采用信息点进行文书过滤,搜索特征倒排索引,得到关键词列表的不同特征向量,再进行多特征融合;
(5)、求得文书和查询语句之间的融合相似度值,并获取最终的相似度得分;
(6)、对最终的搜索结果进行排序输出。
作为优选,所述的步骤(4)中,所述的特征向量包括分块加权的关键词特征向量、语言模型特征向量、主题词集特征向量。
作为优选,所述的分块加权的关键词特征向量通过统计分块词条的tfidf信息,再分块加权;
作为优选,所述的语言模型特征向量通过进行大小为N的滑动窗口操作,形成长度为N的词语片段序列,每个词语片段称为gram,对全部gram的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键gram列表;
作为优选,所述的主题词集特征向量通过使用主题来表示一个概念、一个方面,表现为一系列相关的关键主题词语,是这些关键词语的条件概率;
作为优选,所述的步骤(5)中,多特征融合后的相似度打分公式如下所示:
score(q,d)
=a*weightword(q,d)+b*gramScore(q,d)+c
*Simcapte(q,d)
其中,a+b+c=1,目标函数是寻找一组可能的参数组合{a,b,c},通过数学模型的描述和求解以及训练数据使参数组合(a、b、c)自适应调整达到最优。具体方法为首先限定a、b、c三个参数的取值范围为(0,1),根据经验取适当的代数。
与现有技术相比,本发明具有以下有益优点:
本发明首先通过语义词典进行查询语义扩展,使得查询关键词及词间关系描述更全面,构造全面准确的关键词描述,再通过分块的词条加权、语言模型、主题词集等多特征融合构建相似度模型,并对搜索结果进行综合排序,大幅提高类案检索的准确率和召回率。
附图说明
图1为本发明的实施例1中离线构建多特征模型示意图;
图2为本发明的实施例1中的基于多特征融合的司法类案搜索方法的流程示意图;
图3为本发明的实施例1中的多特征融合示意图;
图4为本发明的实施例1中的向量空间模型原理示意图。
具体实施方式
参照图1-4所示,本发明公开了一种基于多特征融合的司法类案搜索方法,具体步骤如下:
(1)、用户输入查询请求;
(2)、对用户查询请求预处理及分词,并去除其中的停用词,获得一组查询关键词;
(3)、依次遍历查询词集合,对于查询词集合中的每一个查询词,通过语义词典进行查询语义扩展,并得到扩展后的查询语义关键词列表;
(4)、采用信息点进行文书过滤,搜索特征倒排索引,得到关键词列表的不同特征向量,再进行多特征融合;
(5)、求得文书和查询语句之间的融合相似度值,并获取最终的相似度得分;
(6)、对最终的搜索结果进行排序输出。
作为优选,所述的步骤(4)中,所述的特征向量包括分块加权的关键词特征向量、语言模型特征向量、主题词集特征向量。
作为优选,所述的分块加权的关键词特征向量通过统计分块词条的tfidf信息,再分块加权;
作为优选,所述的语言模型特征向量通过进行大小为N的滑动窗口操作,形成长度为N的词语片段序列,每个词语片段称为gram,对全部gram的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键gram列表;
作为优选,所述的主题词集特征向量通过使用主题来表示一个概念、一个方面,表现为一系列相关的关键主题词语,是这些关键词语的条件概率;
作为优选,所述的步骤(5)中,多特征融合后的相似度打分公式如下所示:
score(q,d)
=a*weightword(q,d)+b*gramScore(q,d)+c
*Slmcapte(q,d)
其中,a+b+c=1,目标函数是寻找一组可能的参数组合{a,b,c},通过数学模型的描述和求解以及训练数据使参数组合(a、b、c)自适应调整达到最优。具体方法为首先限定a、b、c三个参数的取值范围为(0,1),根据经验取适当的代数。
实施例1
本发明公开了一种基于多特征融合的司法类案搜索方法,具体步骤如下:
(1)、用户输入查询请求;
(2)、对用户查询请求预处理及分词,并去除其中的停用词,获得一组查询关键词;
(3)、依次遍历查询词集合,对于查询词集合中的每一个查询词,通过语义词典进行查询语义扩展,并得到扩展后的查询语义关键词列表;
(4)、采用信息点进行文书过滤,搜索特征倒排索引,得到关键词列表的不同特征向量,包括关键词特征向量、语言模型特征向量、主题词集特征向量,分块加权的关键词特征向量通过统计分块词条的tfidf信息,再分块加权,语言模型特征向量通过进行大小为N的滑动窗口操作,形成长度为N的词语片段序列,每个词语片段称为gram,对全部gram的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键gram列表,以2-gram模型为例,计算词语相邻相似度得分的方法,计算公式如下:
表示查询串q与文档d之间的词语相似度得分;2-gram(q)表示查询串的2-gram集合,2-gram(d)表示文档的2-gram集合
具体算法描述如下:输入预处理后的查询串q,文档d
输出q与d之间的词语相邻相似度得分
A、求得q的2-gram集合2-gram(q);
B、求得d的2-gram集合2-gram(d);
C、由2-gram(q)和2-gram(d)计算q与d的词语相邻相似度得分gramScore(q,d);
主题词集特征向量通过使用主题来表示一个概念、一个方面,表现为一系列相关的关键主题词语,是这些关键词语的条件概率,
然后对上述特征向量进行多特征融合;
(5)、求得文书和查询语句之间的融合相似度值,并获取最终的相似度得分,具体步骤为
假设模型把文书看成是由t维特征组成的一个向量,特征一般通常采用词语来表示,每个特征会根据一定判断依据来计算其权重,这t维带有权重的特征共同构成了一个文书;
为了计算该分值,文书和查询都被表示成向量,我们把文档看作一系列词(Term),每一个词(Term)都有一个权重(Term weight),不同的词(Term)根据自己在文书中的权重来影响文档相关性的打分计算,
于是我们把所有此文书中词(term)的权重(term weight)看作一个向量,
Document={term1,term2,……,term N}
Document Vector={weight1,weight2,……,weight N}
同样我们把查询语句看作一个简单的文书,也用向量来表示,
Query={term1,term 2,……,term N}
Query Vector={weight1,weight2,……,weight N}
我们把所有搜索出的文书向量及查询向量放到一个N维空间中,每个词(term)是一维,向量空间模型原理如图4所示:
于是文书和查询语句之间的相似度值由以下公式获得:
查询语义扩展使得查询关键词及词间关系描述更全面,基于分块加权的关键词特征体现了关键词分布信息;基于语言模型的关键词特征体现了关键词依存关系及上下文语义关键词语义的约束;而基于主题词集的关键词特征引入查询词语和主题词相关关系,体现了查询和文书块之间的似然度,我们的目标是,将分块加权的关键词特征、语言模型特征,主题词特征组合起来,扬长避短,互为补充,共同描述一个文书,从而根据这些特征计算查询和文书之间的相似度,
多特征融合后的相似度打分公式如下所示:
score(q,d)
=a*weightword(q,d)+b*gramScore(q,d)+c
*Slcapte(q,d)
其中,a+b+c=1,目标函数是寻找一组可能的参数组合{a,b,c},通过数学模型的描述和求解以及训练数据使参数组合(a、b、c)自适应调整达到最优。具体方法为首先限定a、b、c三个参数的取值范围为(0,1),根据经验取适当的代数;
(6)、对最终的搜索结果进行排序输出。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (6)
1.一种基于多特征融合的司法类案搜索方法,其特征在于:具体步骤如下:
(1)、用户输入查询请求;
(2)、对用户查询请求预处理及分词,并去除其中的停用词,获得一组查询关键词;
(3)、依次遍历查询词集合,对于查询词集合中的每一个查询词,通过语义词典进行查询语义扩展,并得到扩展后的查询语义关键词列表;
(4)、采用信息点进行文书过滤,搜索特征倒排索引,得到关键词列表的不同特征向量,再进行多特征融合;
(5)、求得文书和查询语句之间的融合相似度值,并获取最终的相似度得分;
(6)、对最终的搜索结果进行排序输出。
2.根据权利要求1所述的一种基于多特征融合的司法类案搜索方法,其特征在于:所述的步骤(4)中,所述的特征向量包括分块加权的关键词特征向量、语言模型特征向量、主题词集特征向量。
3.根据权利要求2所述的一种基于多特征融合的司法类案搜索方法,其特征在于:所述的分块加权的关键词特征向量通过统计分块词条的tfidf信息,再分块加权。
4.根据权利要求2所述的一种基于多特征融合的司法类案搜索方法,其特征在于:所述的语言模型特征向量通过进行大小为N的滑动窗口操作,形成长度为N的词语片段序列,每个词语片段称为gram,对全部gram的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键gram列表。
5.根据权利要求2所述的一种基于多特征融合的司法类案搜索方法,其特征在于:所述的主题词集特征向量通过使用主题来表示一个概念、一个方面,表现为一系列相关的关键主题词语,是这些关键词语的条件概率。
6.根据权利要求1所述的一种基于多特征融合的司法类案搜索方法,其特征在于:所述的步骤(5)中,多特征融合后的相似度打分公式如下所示:
score(q,d)
=a*weightword(q,d)+D*gramScore(q,d)+c
*Simropk(q,d)
其中,a+b+c=1,目标函数是寻找一组可能的参数组合{a,b,c},通过数学模型的描述和求解以及训练数据使参数组合(a、b、c)自适应调整达到最优。具体方法为首先限定a、b、c三个参数的取值范围为(0,1),根据经验取适当的代数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710289597.XA CN108804443A (zh) | 2017-04-27 | 2017-04-27 | 一种基于多特征融合的司法类案搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710289597.XA CN108804443A (zh) | 2017-04-27 | 2017-04-27 | 一种基于多特征融合的司法类案搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108804443A true CN108804443A (zh) | 2018-11-13 |
Family
ID=64070316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710289597.XA Pending CN108804443A (zh) | 2017-04-27 | 2017-04-27 | 一种基于多特征融合的司法类案搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804443A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222260A (zh) * | 2019-05-21 | 2019-09-10 | 深圳壹账通智能科技有限公司 | 一种搜索方法、装置及存储介质 |
CN110347812A (zh) * | 2019-06-25 | 2019-10-18 | 银江股份有限公司 | 一种面向司法文本的搜索排序方法及*** |
CN110582761A (zh) * | 2018-10-24 | 2019-12-17 | 阿里巴巴集团控股有限公司 | 基于点击图上向量传播模型的智能客户服务 |
CN111368022A (zh) * | 2020-02-28 | 2020-07-03 | 山东汇贸电子口岸有限公司 | 一种使用反向索引实现书籍筛选的方法及工具 |
CN111797247A (zh) * | 2020-09-10 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的案件推送方法、装置、电子设备及介质 |
CN112131456A (zh) * | 2019-06-24 | 2020-12-25 | 腾讯科技(北京)有限公司 | 一种信息推送方法、装置、设备及存储介质 |
CN113535805A (zh) * | 2021-06-17 | 2021-10-22 | 科大讯飞股份有限公司 | 数据挖掘方法及相关装置和电子设备、存储介质 |
CN115017257A (zh) * | 2022-04-21 | 2022-09-06 | 南京坤爵信息技术有限公司 | 一种基于KTree算法的智能超级检索的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540017A (zh) * | 2009-04-28 | 2009-09-23 | 黑龙江工程学院 | 基于字节级n元文法的特征提取方法及垃圾邮件过滤器 |
CN104050235A (zh) * | 2014-03-27 | 2014-09-17 | 浙江大学 | 基于集合选择的分布式信息检索方法 |
CN104050243A (zh) * | 2014-05-28 | 2014-09-17 | 黄斌 | 一种将搜索与社交相结合的网络搜索方法及其*** |
CN104143005A (zh) * | 2014-08-04 | 2014-11-12 | 五八同城信息技术有限公司 | 一种相关搜索***及方法 |
CN104778201A (zh) * | 2015-01-23 | 2015-07-15 | 湖南科技大学 | 一种基于多查询结果合并的在先技术检索方法 |
CN105117386A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于图书内容结构的语义关联方法 |
CN106294662A (zh) * | 2016-08-05 | 2017-01-04 | 华东师范大学 | 基于上下文感知主题的查询表示及混合检索模型建立方法 |
-
2017
- 2017-04-27 CN CN201710289597.XA patent/CN108804443A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540017A (zh) * | 2009-04-28 | 2009-09-23 | 黑龙江工程学院 | 基于字节级n元文法的特征提取方法及垃圾邮件过滤器 |
CN104050235A (zh) * | 2014-03-27 | 2014-09-17 | 浙江大学 | 基于集合选择的分布式信息检索方法 |
CN104050243A (zh) * | 2014-05-28 | 2014-09-17 | 黄斌 | 一种将搜索与社交相结合的网络搜索方法及其*** |
CN104143005A (zh) * | 2014-08-04 | 2014-11-12 | 五八同城信息技术有限公司 | 一种相关搜索***及方法 |
CN104778201A (zh) * | 2015-01-23 | 2015-07-15 | 湖南科技大学 | 一种基于多查询结果合并的在先技术检索方法 |
CN105117386A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于图书内容结构的语义关联方法 |
CN106294662A (zh) * | 2016-08-05 | 2017-01-04 | 华东师范大学 | 基于上下文感知主题的查询表示及混合检索模型建立方法 |
Non-Patent Citations (1)
Title |
---|
斯日古楞等: ""融合主题与语言模型的蒙古文信息检索方法研究"", 《计算机应用研究》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110582761A (zh) * | 2018-10-24 | 2019-12-17 | 阿里巴巴集团控股有限公司 | 基于点击图上向量传播模型的智能客户服务 |
CN110582761B (zh) * | 2018-10-24 | 2023-05-30 | 创新先进技术有限公司 | 基于点击图上向量传播模型的智能客户服务 |
CN110222260A (zh) * | 2019-05-21 | 2019-09-10 | 深圳壹账通智能科技有限公司 | 一种搜索方法、装置及存储介质 |
CN112131456A (zh) * | 2019-06-24 | 2020-12-25 | 腾讯科技(北京)有限公司 | 一种信息推送方法、装置、设备及存储介质 |
CN110347812A (zh) * | 2019-06-25 | 2019-10-18 | 银江股份有限公司 | 一种面向司法文本的搜索排序方法及*** |
CN110347812B (zh) * | 2019-06-25 | 2021-09-10 | 银江股份有限公司 | 一种面向司法文本的搜索排序方法及*** |
CN111368022A (zh) * | 2020-02-28 | 2020-07-03 | 山东汇贸电子口岸有限公司 | 一种使用反向索引实现书籍筛选的方法及工具 |
CN111797247A (zh) * | 2020-09-10 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的案件推送方法、装置、电子设备及介质 |
CN113535805A (zh) * | 2021-06-17 | 2021-10-22 | 科大讯飞股份有限公司 | 数据挖掘方法及相关装置和电子设备、存储介质 |
CN113535805B (zh) * | 2021-06-17 | 2024-06-04 | 科大讯飞股份有限公司 | 数据挖掘方法及相关装置和电子设备、存储介质 |
CN115017257A (zh) * | 2022-04-21 | 2022-09-06 | 南京坤爵信息技术有限公司 | 一种基于KTree算法的智能超级检索的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804443A (zh) | 一种基于多特征融合的司法类案搜索方法 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN109101479B (zh) | 一种用于中文语句的聚类方法及装置 | |
CN112100344B (zh) | 一种基于知识图谱的金融领域知识问答方法 | |
CN106502994B (zh) | 一种文本的关键词提取的方法和装置 | |
El-Fishawy et al. | Arabic summarization in twitter social network | |
Radu et al. | Clustering documents using the document to vector model for dimensionality reduction | |
Asyaky et al. | Improving the performance of HDBSCAN on short text clustering by using word embedding and UMAP | |
CN101751455A (zh) | 采用人工智能技术自动产生标题的方法 | |
US20220114340A1 (en) | System and method for an automatic search and comparison tool | |
CN109614493B (zh) | 一种基于监督词向量的文本缩写识别方法及*** | |
Halevy et al. | Discovering structure in the universe of attribute names | |
CN109299357B (zh) | 一种老挝语文本主题分类方法 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
Zu et al. | Graph-based keyphrase extraction using word and document em beddings | |
CN115357691B (zh) | 一种语义检索方法及***、设备和计算机可读存储介质 | |
Shuai et al. | Question answering system based on knowledge graph of film culture | |
Cherif et al. | Text categorization based on a new classification by thresholds | |
Akhgari et al. | Sem-TED: semantic twitter event detection and adapting with news stories | |
CN107220354A (zh) | 一种大数据检索方法 | |
Liu et al. | The short text matching model enhanced with knowledge via contrastive learning | |
Rautaray et al. | An Empirical and Comparative Study of Graph based Summarization Algorithms | |
CN112380830B (zh) | 不同文档中相关句子的匹配方法、***和计算机可读存储介质 | |
Wei | An iterative approach to keywords extraction | |
Jin et al. | Micro-blog short text clustering algorithm based on bootstrapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181113 |
|
WD01 | Invention patent application deemed withdrawn after publication |