CN105824938B - 一种基于双向映射的检索方法和*** - Google Patents
一种基于双向映射的检索方法和*** Download PDFInfo
- Publication number
- CN105824938B CN105824938B CN201610158099.7A CN201610158099A CN105824938B CN 105824938 B CN105824938 B CN 105824938B CN 201610158099 A CN201610158099 A CN 201610158099A CN 105824938 B CN105824938 B CN 105824938B
- Authority
- CN
- China
- Prior art keywords
- event
- word
- standard
- event class
- class standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于双向映射的检索方法和***,本发明通过一级映射和二级映射,一方面解决了用户由于法律知识匮乏而不能很好定位自己实际检索需求的问题,另一方面解决了由于各地法院行政案件案由的确定和表述不尽一致而导致律师执业情况评价不全面的问题,本发明在上述两方面映射的基础上,进一步实现用户检索需求与检索对象的对接,来达到精准定位用户检索需求,提高检索结果的准确度,并提高数据检索效率。
Description
技术领域
本发明属于数据检索技术领域,特别涉及一种基于双向映射的检索方法和***。
背景技术
律师行业门槛高,专业性强,而普通用户的法律知识相对较匮乏,这就直接限制了当事人和法律提供者之间的沟通手段和沟通渠道。同时,由于传统法律服务行业信息源的杂乱,当事人普遍缺少找到合适律师的有效途径,通常都需要去实体的律师事务所找认识的人或者律所推荐的律师,既耗费了大量的时间及精力,还不一定能得到自己满意的答案。
现今的互联网法律服务平台针对上述问题,将律师资源整合到网络上,用户能够直接在平台上查找满足自己需求的律师进行法律咨询或案件委托。然而,由于当事人用户普遍都是缺少专业法律知识的,而法律行业的专业性又很强,这就导致了即使在有互联网法律服务平台在线提供律师资源的情况下,用户也由于法律知识的匮乏而不能很好地定位自己的实际需求,找到合适的律师。此外,各地法院行政案件案由的确定和表述不尽一致,与最高院案由划分存在一定的差异,因而无法全面且标准地依据裁判文书等文书资料对律师进行客观评价,导致律师检索结果也存在着一定的误差。
为了解决上述技术问题,故提出了本发明的技术方案。
发明内容
本发明的目的是提供一种基于双向映射的检索方法和***,本发明通过一级映射和二级映射,一方面解决了用户由于法律知识匮乏而不能很好定位自己实际检索需求的问题,另一方面解决了由于各地法院行政案件案由的确定和表述不尽一致而导致律师执业情况评价不全面的问题,本发明在建立上述两方面映射基础上,进一步实现用户检索需求与检索对象的对接,来达到精准定位用户检索需求,使得提高检索结果准确度,并提高数据检索效率。
为解决上述问题,本发明的一个方面提供了一种基于双向映射的检索方法,所述方法包括:对客户端获取的事件信息进行关键字提取,得到包含至少一个事件非规范特征词的集合;基于事件非规范特征词与事件类标准表述词之间的一级映射关系,对所述事件非规范特征词集合中的每个所述事件非规范特征词进行标准化,以获得每个所述事件非规范特征词对应的至少一个事件类标准表述词,形成事件类标准表述词集合;遍历所述事件类标准表述词集合中所有的事件类标准表述词,根据事件类标准表述词之间的级别隶属关系对该集合中的事件类标准表述词依次展开两两隶属关系分析,以得到该事件类标准表述词集合的子集;基于文书特征关键词与事件类标准表述词之间的二级映射关系,对所述事件类标准表述词子集中的每个所述事件类标准表述词依次检索二级映射关系,基于检索结果生成包含所述至少一个文书特征关键词的展示页面。
其中,所述客户端获取事件信息的步骤,其包括:从搜索引擎服务器上获取最近的设定时间长度内的检索日志并将获取的检索日志作为事件信息;或者将本次用户在客户端输入的事件信息作为事件信息。
其中,所述基于事件非规范特征词与事件类标准表述词之间的一级映射关系,对事件非规范特征词集合中的每个所述事件非规范特征词进行标准化,以获得每个所述事件非规范特征词对应的至少一个事件类标准表述词,形成事件类标准表述词集合的步骤,包括:建立事件非规范特征词与事件类标准表述词之间的一级映射关系,保存到标准化表述库中;遍历事件非规范特征词集合{Fn}中所有的事件非规范特征词,获得每个所述事件非规范特征词Fn对应的至少一个事件类标准表述词Sm,形成包含多个事件类标准表述词的事件类标准表述词集合{Sm},n≥m≥1。
其中,所述方法还包括:若从标准化表述库中未获得某个所述事件非规范特征词Fi对应的事件类标准表述词Si,则可以通过文本相似度计算方法过滤所述标准化表述库,得到与该事件非规范特征词Fi近似的事件类标准表述词Sj,1≤i≤n,1≤j≤n;建立该事件非规范特征词Fi与该近似的事件类标准表述词Sj之间的一级映射关系,将该事件非规范特征词与该近似的事件类标准表述词Sj之间的一级映射关系保存到标准化表述库中。
其中,所述建立事件非规范特征词与事件类标准表述词之间的一级映射关系的步骤,其包括:捕捉客户端获取到的用户行为数据,从中提取得到所述至少一个事件非规范特征词;基于所述至少一个事件非规范特征词,建立所述至少一个事件非规范特征词与所述事件类标准表述词之间的一对一、一对多或多对一的一级映射关系;其中,所述事件类标准表述词是所述事件非规范特征词对应的案件类型。
其中,所述根据事件类标准表述词之间的级别隶属关系对所述事件类标准表述词集合中的事件类标准表述词进行隶属关系分析,以得到该事件类标准表述词集合的子集的步骤,其包括:当所述事件类标准表述词集合中存在一个事件类标准表述词Sp或多个相同的事件类标准表述词Sp时,则确定该事件类标准表述词Sp作为该事件类标准表述词集合的子集。
其中,所述根据事件类标准表述词之间的级别隶属关系对所述事件类标准表述词集合中的事件类标准表述词进行隶属关系分析,以得到该事件类标准表述词集合的子集的步骤,其包括:当所述事件类标准表述词集合中存在多个不同的事件类标准表述词时,则对该集合中的事件类标准表述词依次展开两两隶属关系分析;若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级并列关系,则确定{Sj,Sj+1}为该事件类标准表述词集合的子集;若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级覆盖关系,且Sj覆盖Sj+1,则确定{Sj}为该事件类标准表述词集合的子集;若事件类标准表述词Sj包含事件类标准表述词Sj+1,则{Sj+1}为该事件类标准表述词集合的子集;若事件类标准表述词Sj包含于事件类标准表述词Sj+1,则{Sj}为该事件类标准表述词集合的子集。
其中,所述基于文书特征关键词与事件类标准表述词之间的二级映射关系,对所述事件类标准表述词子集中的每个所述事件类标准表述词依次检索二级映射关系,基于检索结果生成包含所述至少一个文书特征关键词的展示页面步骤,其包括:建立文书特征关键词与事件类标准表述词之间的二级映射关系,保存到标准化表述库;基于文书特征关键词与事件类标准表述词之间的二级映射关系,遍历所述事件类标准表述词子集中的所有的所述事件类标准表述词,获得每个所述事件类标准表述词对应的文书特征关键词;对所述文书特征关键词进行统计处理,生成包含所述至少一个文书特征关键词的展示页面。
其中,所述建立文书特征关键词与事件类标准表述词之间的二级映射关系的步骤包括:对文书数据库中的所有文书进行关键字提取得到文书特征关键词;建立所述文书特征关键词与事件类标准表述词之间一对一或者多对一的二级映射关系。
本发明的另一个方面提供了一种基于双向映射的检索***,所述***包括:关键字提取模块,用于对客户端获取的事件信息进行关键字提取,得到包含至少一个事件非规范特征词的集合;标准表述词获取模块,用于基于事件非规范特征词与事件类标准表述词之间的一级映射关系,对所述关键字提取模块得到所述事件非规范特征词集合中的每个事件非规范特征词进行标准化,以获得每个所述事件非规范特征词对应的至少一个事件类标准表述词,形成事件类标准表述词集合;隶属关系分析模块,用于遍历所述事件类标准表述词集合中所有的事件类标准表述词,根据事件类标准表述词之间的级别隶属关系对该集合中的事件类标准表述词依次展开两两隶属关系分析,以得到该事件类标准表述词集合的子集;检索结果生成模块,用于基于文书特征关键词与事件类标准表述词之间的二级映射关系,对所述事件类标准标表述词子集中的每个所述事件类标准表述词依次检索二级映射关系,基于检索结果生成包含所述至少一个文书特征关键词的展示页面。
其中,所述***还包括:事件信息获取模块,用于从搜索引擎服务器上获取最近的设定时间长度内的检索日志并将获取的检索日志作为事件信息;或者将本次用户在客户端输入的事件信息作为事件信息。
其中,所述标准表述词获取模块包括:一级映射建立单元,用于建立事件非规范特征词与事件类标准表述词之间的一级映射关系,保存到标准化表述库中;非规范特征词遍历单元,用于遍历事件非规范特征词集合{Fn},获得每个所述事件非规范特征词Fn对应的至少一个事件类标准表述词Sm,形成包含多个事件类标准表述词的事件类标准表述词集合{Sm},n≥m≥1。
其中,所述特征词遍历单元进一步包括:近似表述词获取单元,用于当标准表述词遍历单元从标准化表述库中未获得某个所述事件非规范特征词Fi对应的事件类标准表述词Si,通过文本相似度计算方法过滤所述标准化表述库,得到与该事件非规范特征词Fi近似的事件类标准表述词Sj,1≤i≤n,1≤j≤n;一级映射更新单元,用于建立该事件非规范特征词Fi与该近似的事件类标准表述词Sj之间的一级映射关系,并将该事件非规范特征词与该近似的事件类标准表述词Sj之间的一级映射关系保存到标准化表述库中。
其中,所述一级映射建立单元进一步包括:用户行为分析单元,用于捕捉客户端获取到的用户行为数据,从中提取得到所述至少一个事件非规范特征词;所述一级映射建立单元,用于基于所述至少一个事件非规范特征词,建立所述至少一个事件非规范特征词与所述事件类标准表述词之间的一对一、一对多或多对一的一级映射关系;其中,所述事件类标准表述词是所述事件非规范特征词对应的案件类型。
其中,当所述隶属关系分析模块检测到所述事件类标准表述词集合中存在一个事件类标准表述词Sp或多个相同的事件类标准表述词Sp时,则确定该事件类标准表述词Sp作为该事件类标准表述词集合的子集。
其中,当所述隶属关系分析模块检测到所述事件类标准表述词集合中存在多个不同的事件类标准表述词时,则对该集合中的事件类标准表述词依次展开两两隶属关系分析,所述隶属关系分析模块具体执行以下操作:若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级并列关系,则确定{Sj,Sj+1}为该事件类标准表述词集合的子集;若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级覆盖关系,且Sj覆盖Sj+1,则确定{Sj}为该事件类标准表述词集合的子集;若事件类标准表述词Sj包含事件类标准表述词Sj+1,则{Sj+1}为该事件类标准表述词集合的子集;若事件类标准表述词Sj包含于事件类标准表述词Sj+1,则{Sj}为该事件类标准表述词集合的子集。
其中,所述检索结果生成模块包括:二级映射建立单元,用于建立文书特征关键词与事件类标准表述词之间的二级映射关系,保存到标准化表述库;标准表述词遍历单元,用于基于文书特征关键词与事件类标准表述词之间的二级映射关系,遍历所述事件类标准表述词子集中的所有的所述事件类标准表述词,获得每个所述事件类标准表述词对应的文书特征关键词;展示页面生成单元,用于对所述文书特征关键词进行统计处理,生成包含所述至少一个文书特征关键词的展示页面。
其中,所述二级映射建立单元包括:文书关键词提取单元,用于对文书数据库中的所有文书进行关键字提取得到文书特征关键词;所述二级映射建立单元,用于建立所述文书特征关键词与事件类标准表述词之间一对一或者多对一的二级映射关系。
本发明所提供的一种基于双向映射的检索方法和***一方面解决了用户由于法律知识匮乏而不能很好定位自己实际检索需求的问题,另一方面解决了由于各地法院行政案件案由的确定和表述不尽一致而导致律师执业情况评价不全面的问题。通过建立用户端非规范特征词与标准表述词之间的一级映射和基于文书关键特征词与标准表述词之间的二级映射,进一步实现用户检索需求与检索对象的对接,来达到精准定位用户检索需求,使得提高检索结果准确度,并提高数据检索效率。
附图说明
图1是本发明的基于双向映射的检索方法的流程示意图;
图2是本发明的步骤S2的流程示意图;
图3是本发明的步骤S21的流程示意图;
图4是本发明的步骤S3的流程示意图;
图5是本发明的步骤S4的流程示意图;
图6是本发明的步骤S41的流程示意图;
图7是本发明的基于双向映射的检索***的结构示意图;
图8是本发明的标准表述词获取模块的结构示意图;
图9是本发明的特征词遍历单元的结构示意图;
图10是本发明的检索结果生成模块的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1是本发明的基于双向映射的检索方法的流程示意图。
如图1所示,本发明的基于双向映射的检索方法,其包括:
步骤S1,对客户端获取的事件信息进行关键字提取,得到包含至少一个事件非规范特征词的集合。
本步骤中,用户在客户端输入事件信息,所述事件信息通常是用户对需要检索的事件进行的非规范的事件表述方式,客户端对所述事件信息进行关键字提取,得到包含一个或多个事件非规范特征词的集合。
例如,当用户输入的事件信息为“我要离婚”时,从中仅能够提取到一条事件非规范特征词为“离婚”,则非规范特征词集合为{“离婚”}。再例如,当用户输入的事件信息为“一夫多妻的离婚问题”,从中可提取到的关键字为“一夫多妻”和“离婚”,则非规范特征词集合为{“一夫多妻”,“离婚”}。
具体的,所述客户端获取事件信息的步骤,其进一步包括:从搜索引擎服务器上获取最近的设定时间长度内的检索日志并将获取的检索日志作为事件信息;或者将本次用户在客户端输入的事件信息作为事件信息。例如,获取最近2天内的检索日志,将该检索日志作为事件信息;或者将用户在客户端输入的本次事件信息作为当前事件信息。
步骤S2,基于事件非规范特征词与事件类标准表述词之间的一级映射关系,对所述事件非规范特征词集合中的每个所述事件非规范特征词进行标准化,以获得每个所述事件非规范特征词对应的至少一个事件类标准表述词,形成事件类标准表述词集合。
本步骤中,基于事件非规范特征词与事件类标准表述词之间的一级映射关系,进一步对所述事件非规范特征词集合中的每个所述事件非规范特征词进行标准化,标准化的目的是获得每个所述事件非规范特征词对应的至少一个事件类标准表述词,形成事件类标准表述词集合。
例如,承接上述例子,基于事件非规范特征词与事件类标准表述词之间的一级映射关系,以得到事件非规范特征词“离婚”可能对应的事件类标准表述词“离婚纠纷”、“离婚后损害责任纠纷”、“离婚后财产纠纷”,则可建立事件非规范特征词与事件类标准表述词之间的一对多的映射关系。
再例如,承接上述例子,基于事件非规范特征词与事件类标准表述词之间的一级映射关系,事件非规范特征词“一夫多妻”可能对应的事件类标准表述词为“婚姻无效纠纷”;事件非规范特征词“离婚”可能对应的事件类标准表述词包括“离婚纠纷”、“离婚后损害责任纠纷”、“离婚后财产纠纷”等,则可建立事件非规范特征词与事件类标准表述词之间的一对一或者一对多的映射关系。
具体执行步骤参见下文图2所示示例。
步骤S3,遍历所述事件类标准表述词集合中所有的事件类标准表述词,根据事件类标准表述词之间的级别隶属关系对该集合中的事件类标准表述词依次展开两两隶属关系分析,以得到该事件类标准表述词集合的子集。
本步骤中,遍历所述事件类标准表述词集合中所有的事件类标准表述词,根据事件类标准表述词之间的级别隶属关系对该集合中的事件类标准表述词依次展开两两隶属关系分析,以得到该事件类标准表述词集合的子集。
本发明中,所述事件类标准表述词之间的级别隶属关系包括事件类标准表述词存在同级并列关系、同级覆盖关系和包含/包含于关系。具体的,事件类标准表述词之间的级别隶属关系包括多个事件类标准表述词大类,每个事件类标准表述词大类包含多个事件类标准表述词小类。事件类标准表述词大类之间、事件类标准表述词小类之间存在同级覆盖和同级并列关系,事件类标准表述词大类与事件类标准表述词小类之间存在包含/包含于的关系。
例如,假设事件类标准表述词集合包括{S1,S2,S3},若事件类标准表述词S1与事件类标准表述词S2属于同级并列关系,则{S1,S2}为该事件类标准表述词集合的子集;此时,若事件类表述词S3与事件类表述词S2亦属于同级并列关系,则子集更新为{S1,S2,S3};继续进行事件类表述词S3和事件类表述词S1关系的分析,若事件类表述词S3和事件类表述词S1亦属于同级并列关系,则子集确定为{S1,S2,S3};若事件类表述词S3和事件类表述词S1属于同级覆盖关系,即法律规定当同时出现事件类表述词S3与事件类表述词S1时,案件类认定为S3,则子集确定为{S2,S3}。
承接上例,当事件类标准表述词S1与事件类标准表述词S2属于同级并列关系时,若事件类表述词S3包含事件类表述词S2,则使用短路逻辑,子集确定为{S1,S2};若事件类表述词S3包含于事件类表述词S2,则使用短路逻辑,子集确定为{S3}。
例如,承接上例,事件类标准表述词集合为{“A离婚纠纷”,“B离婚后损害责任纠纷”,“C离婚后财产纠纷”,“D婚姻无效纠纷”},依次两两展开隶属关系分析,法律规定标准表述词A同级覆盖标准表述词B和标准表述词C,则在2次分析后子集为{“A离婚纠纷”,“D婚姻无效纠纷”};继续分析标准表述词A和标准表述词D,法律规定标准表述词D同级覆盖标准表述词A,则集合更新为{“D婚姻无效纠纷”}。
具体执行步骤参见下文图4所示示例。
步骤S4,基于文书特征关键词与事件类标准表述词之间的二级映射关系,对所述事件类标准表述词子集中的每个所述事件类标准表述词依次检索二级映射关系,基于检索结果生成包含所述至少一个文书特征关键词的展示页面。
具体执行步骤参见下文图5所示示例。
图2是本发明的步骤S2的流程示意图。
如图2所示,其中,前述步骤S2进一步包括:
步骤S21,建立事件非规范特征词与事件类标准表述词之间的一级映射关系,保存到标准化表述库中。
具体执行步骤参见下文图3所示示例。
步骤S22,遍历事件非规范特征词集合{Fn}中所有的非规范特征词,获得每个所述事件非规范特征词Fn对应的至少一个事件类标准表述词Sm,形成包含多个事件类标准表述词的事件类标准表述词集合{Sm},n≥m≥1。
本步骤中,存在三种情况:第一种情况:一个事件非规范特征词对应一个事件类标准表述词;第二种情况:一个事件非规范特征词对应多个不同的事件类标准表述词;多个不同的非规范特征词对应一个事件类标准表述词。
承接前述步骤S22,所述方法还包括:
步骤S23,若从标准化表述库中未获得某个所述事件非规范特征词Fi对应的事件类标准表述词Si,则可以通过文本相似度计算方法过滤所述标准化表述库,得到与该事件非规范特征词Fi近似的事件类标准表述词Sj,1≤i≤n,1≤j≤n;
需要说明的是:文本相似度计算方法包括但不限于文本相似度的向量夹角余弦、Simhash算法等方法,可以通过文本相似度的向量夹角余弦、Simhash算法等方法来确定文本内容是否高度近似,此处不再赘述。
步骤S24,建立该事件非规范特征词Fi与该近似的事件类标准表述词Sj之间的一级映射关系,将该事件非规范特征词与该近似的事件类标准表述词Sj之间的一级映射关系保存到标准化表述库中。
图3是本发明的步骤S21的流程示意图。
其中,前述步骤S21进一步包括:
步骤S211,捕捉客户端获取到的用户行为数据,从中提取得到所述至少一个事件非规范特征词。
步骤S212,基于所述至少一个事件非规范特征词,建立所述至少一个事件非规范特征词与所述事件类标准表述词之间的一对一、一对多或多对一的一级映射关系;其中,所述事件类标准表述词是所述事件非规范特征词对应的案件类型。
例如,当客户端捕捉到的用户行为数据“离婚”、“重婚”时,从中提取得到两个非规范特征词“离婚”、“重婚”、“近亲结婚”。其中,“离婚”可能对应的事件类标准表述词为“离婚纠纷”、“离婚后损害责任纠纷”、“离婚后财产纠纷”;“重婚”可能对应的事件类标准表述词为“婚姻无效纠纷”;“近亲结婚”可能对应的事件类标准表述词为“婚姻无效纠纷”;则可建立事件非规范特征词与事件类标准表述词之间的一对一、一对多或多对一的映射关系。
图4是本发明的步骤S3的流程示意图。
如图4所示,前述步骤S3进一步包括:
步骤S31,当所述事件类标准表述词集合中存在一个事件类标准表述词Sp或多个相同的事件类标准表述词Sp时,则确定该事件类标准表述词Sp作为该事件类标准表述词集合的子集。
例如,当事件类标准表述词集合为{S1}时,则确定该事件类标准表述词S1为该事件类标准表述词集合的子集。再例如,当事件类标准表述词集合为{S1,S1},且S1,S1为相同的事件类标准表述词时,则确定{S1}为该事件类标准表述词集合的子集。
步骤S32,当所述事件类标准表述词集合中存在多个不同的事件类标准表述词时,则对该集合中的事件类标准表述词依次展开两两隶属关系分析。
具体的,此步骤包含三种情况:同级并列关系、同级覆盖关系、包含/包含于关系:
步骤S321,若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级并列关系,则确定{Sj,Sj+1}为该事件类标准表述词集合的子集。
步骤S322,若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级覆盖关系,即Sj覆盖Sj+1,则确定{Sj}为该事件类标准表述词集合的子集。
步骤S323,若事件类标准表述词Sj包含事件类标准表述词Sj+1,则{Sj+1}为该事件类标准表述词集合的子集;
若事件类标准表述词Sj包含于事件类标准表述词Sj+1,则{Sj}为该集合事件类标准表述词集合的子集。
图5是本发明的步骤S4的流程示意图。
如图5所示,前述步骤S4包括:
步骤S41,建立文书特征关键词与事件类标准表述词之间的二级映射关系,保存到标准化表述库。
需要说明的是:本发明中,文书特征关键词是指文书中出现的案件类型。
步骤S42,基于文书特征关键词与事件类标准表述词之间的二级映射关系,遍历所述事件类标准表述词子集中的所有的所述事件类标准表述词,获得每个所述事件类标准表述词对应的文书特征关键词。
步骤S43,对所述文书特征关键词进行统计处理,生成包含所述至少一个文书特征关键词的展示页面。
图6是本发明的步骤S41的流程示意图。
如图6所示,前述步骤S41包括:
步骤S411,对文书数据库中的所有文书进行关键字提取得到文书特征关键词。
需要说明的是:本发明中,文书记载了律师在执业期间处理过的所有案件信息,以及律师的个人信息。
步骤S412,建立所述文书特征关键词与事件类标准表述词之间一对一或者多对一的二级映射关系;其中,所述文书特征关键词为案件类型、法院和/或律师。
该步骤包含两种情况:第一种情况:一个文书特征关键词对应一个事件类标准表述词;第二种情况:多个文书特征关键词(即多个文书)对应一个事件类标准表述词。
如上所述,详述了本发明的一种基于双向映射的检索方法,本发明通过一级映射和二级映射,一方面解决了用户由于法律知识匮乏而不能很好定位自己实际检索需求的问题,另一方面解决了由于各地法院行政案件案由的确定和表述不尽一致而导致律师执业情况评价不全面的问题,本发明能够在上述两方面映射的基础上,进一步实现用户检索需求与检索对象的对接,来达到精准定位用户检索需求,使得提高检索结果准确度,并提高数据检索效率。
图7是本发明的基于双向映射的检索***的结构示意图。
如图7所示,本发明的所述基于双向映射的检索***,所述***包括:关键字提取模块10、标准表述词获取模块20、隶属关系分析模块30、检索结果生成模块40和事件信息获取模块50。
关键字提取模块10,用于对客户端获取的事件信息进行关键字提取,得到包含至少一个事件非规范特征词的集合。
所述***还包括:事件信息获取模块50与所述关键字提取模块10连接,用于从搜索引擎服务器上获取最近的设定时间长度内的检索日志并将获取的检索日志作为事件信息;或者将本次用户在客户端输入的事件信息作为事件信息。
具体描述参见前述步骤S1。
标准表述词获取模块20与所述关键字提取模块10连接,用于基于事件非规范特征词与事件类标准表述词之间的一级映射关系,对所述关键字提取模块10得到所述事件非规范特征词集合中的每个事件非规范特征词进行标准化,以获得每个所述事件非规范特征词对应的至少一个事件类标准表述词,形成事件类标准表述词集合。
具体描述参见前述步骤S2。
隶属关系分析模块30与所述标准表述词获取模块20连接,用于遍历所述事件类标准表述词集合中所有的事件类标准表述词,根据事件类标准表述词之间的级别隶属关系对该集合中的事件类标准表述词依次展开两两隶属关系分析,以得到该事件类标准表述词集合的子集。
具体的,当所述隶属关系分析模块30检测到所述事件类标准表述词集合中存在一个事件类标准表述词Sp或多个相同的事件类标准表述词Sp时,则确定该事件类标准表述词Sp作为该事件类标准表述词集合的子集。
当所述隶属关系分析模块30检测到所述事件类标准表述词集合中存在多个不同的事件类标准表述词时,则对该集合中的事件类标准表述词依次展开两两隶属关系分析,所述隶属关系分析模块30具体执行以下操作:
若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级并列关系,则确定{Sj,Sj+1}为该事件类标准表述词集合的子集。
若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级覆盖关系,即Sj覆盖Sj+1,则确定{Sj}为该事件类标准表述词集合的子集。
若事件类标准表述词Sj包含事件类标准表述词Sj+1,则{Sj+1}为该事件类标准表述词集合的子集。
若事件类标准表述词Sj包含于事件类标准表述词Sj+1,则{Sj}为该事件类标准表述词集合的子集。
具体描述参见前述步骤S3、步骤S31、步骤S32。
检索结果生成模块40与所述隶属关系分析模块30连接,用于基于文书特征关键词与事件类标准表述词之间的二级映射关系,对所述事件类标准标表述词子集中的每个所述事件类标准表述词依次检索二级映射关系,基于检索结果生成包含所述至少一个文书特征关键词的展示页面。
图8是本发明的标准表述词获取模块的结构示意图。
如图8所示,其中,所述标准表述词获取模块20进一步包括:一级映射建立单元201和非规范特征词遍历单元202。
一级映射建立单元201,用于建立事件非规范特征词与事件类标准表述词之间的一级映射关系,保存到标准化表述库中。
具体描述参见前述步骤S21。
非规范特征词遍历单元202与所述一级映射建立单元201连接,用于遍历事件非规范特征词集合{Fn},获得每个所述事件非规范特征词Fn对应的至少一个事件类标准表述词Sm,形成包含多个事件类标准表述词的事件类标准表述词集合{Sm},n≥m≥1。
具体描述参见前述步骤S22。
图9是本发明的特征词遍历单元的结构示意图。
如图9所示,所述特征词遍历单元202进一步包括:近似表述词获取单元2020和一级映射更新单元2021。
近似表述词获取单元2020,用于当标准表述词遍历单元202从标准化表述库中未获得某个所述事件非规范特征词Fi对应的事件类标准表述词Si,则通过文本相似度计算方法过滤所述标准化表述库,得到与该事件非规范特征词Fi近似的事件类标准表述词Sj,1≤i≤n,1≤j≤n。
具体描述参见前述步骤S23。
一级映射更新单元2021与所述近似表述词获取单元2020连接,用于建立该事件非规范特征词Fi与该近似的事件类标准表述词Sj之间的一级映射关系,并将该事件非规范特征词与该近似的事件类标准表述词Sj之间的一级映射关系保存到标准化表述库中。
具体描述参见前述步骤S24。
如图8所示,所述一级映射建立单元201进一步包括:用户行为分析单元2010。
用户行为分析单元2010与所述一级映射建立单元201连接,用于捕捉客户端获取到的用户行为数据,从中提取得到所述至少一个事件非规范特征词。
具体描述参见前述步骤S211。
所述一级映射建立单元201,用于基于所述至少一个事件非规范特征词,建立所述至少一个事件非规范特征词与所述事件类标准表述词之间的一对一、一对多或多对一的一级映射关系;其中,所述事件类标准表述词是所述事件非规范特征词对应的案件类型。
具体描述参见前述步骤S212。
图10是本发明的检索结果生成模块的结构示意图。
如图10所示,所述检索结果生成模块40包括:二级映射建立单元401、标准表述词遍历单元402和展示页面生成单元403。
二级映射建立单元401,用于建立文书特征关键词与事件类标准表述词之间的二级映射关系,保存到标准化表述库。
具体描述参见前述步骤S41。
标准表述词遍历单元402与所述二级映射建立单元402连接,用于基于文书特征关键词与事件类标准表述词之间的二级映射关系,遍历所述事件类标准表述词子集中的所有的所述事件类标准表述词,获得每个所述事件类标准表述词对应的文书特征关键词。
具体描述参见前述步骤S42。
展示页面生成单元403与所述标准表述词遍历单元402连接,用于对所述文书特征关键词进行统计处理,生成包含所述至少一个文书特征关键词的展示页面。
具体描述参见前述步骤S43。
如图10所示,所述二级映射建立单元401包括:文书关键词提取单元4010。
文书关键词提取单元4010与所述二级映射建立单元401连接,用于对文书数据库中的所有文书进行关键字提取得到文书特征关键词。
具体描述参见前述步骤S411。
所述二级映射建立单元401,用于建立所述文书特征关键词与事件类标准表述词之间一对一或者多对一的二级映射关系;其中,所述文书特征关键词是案件类型、法院和/或律师。
具体描述参见前述步骤S412。
如上所述,详述了本发明的一种基于双向映射的检索***,本发明通过一级映射和二级映射,一方面解决了用户由于法律知识匮乏而不能很好定位自己实际检索需求的问题,另一方面解决了由于各地法院行政案件案由的确定和表述不尽一致而导致律师执业情况评价不全面的问题,本发明能够在上述两方面映射的基础上,进一步实现用户检索需求与检索对象的对接,来达到精准定位用户检索需求,使得提高检索结果准确度,并提高数据检索效率。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (18)
1.一种基于双向映射的检索方法,其特征在于,所述方法包括:
对客户端获取的事件信息进行关键字提取,得到包含至少一个事件非规范特征词的集合;
基于事件非规范特征词与事件类标准表述词之间的一级映射关系,对所述事件非规范特征词集合中的每个所述事件非规范特征词进行标准化,以获得每个所述事件非规范特征词对应的至少一个事件类标准表述词,形成事件类标准表述词集合;
遍历所述事件类标准表述词集合中所有的事件类标准表述词,根据事件类标准表述词之间的级别隶属关系对该集合中的事件类标准表述词依次展开两两隶属关系分析,以得到该事件类标准表述词集合的子集;
基于文书特征关键词与事件类标准表述词之间的二级映射关系,对所述事件类标准表述词子集中的每个所述事件类标准表述词依次检索二级映射关系,基于检索结果生成包含所述至少一个文书特征关键词的展示页面。
2.根据权利要求1所述的方法,其中,所述客户端获取事件信息的步骤,其包括:
从搜索引擎服务器上获取最近的设定时间长度内的检索日志并将获取的检索日志作为事件信息;或者将本次用户在客户端输入的事件信息作为事件信息。
3.根据权利要求1-2任一项所述的方法,其中,所述基于事件非规范特征词与事件类标准表述词之间的一级映射关系,对事件非规范特征词集合中的每个所述事件非规范特征词进行标准化,以获得每个所述事件非规范特征词对应的至少一个事件类标准表述词,形成事件类标准表述词集合的步骤,包括:
建立事件非规范特征词与事件类标准表述词之间的一级映射关系,保存到标准化表述库中;
遍历事件非规范特征词集合{Fn}中所有的非规范特征词,获得每个所述事件非规范特征词Fn对应的至少一个事件类标准表述词Sm,形成包含多个事件类标准表述词的事件类标准表述词集合{Sm},n≥m≥1。
4.根据权利要求3所述的方法,其中,所述方法还包括:
若从标准化表述库中未获得某个所述事件非规范特征词Fi对应的事件类标准表述词Si,则通过文本相似度计算方法过滤所述标准化表述库,得到与该事件非规范特征词Fi近似的事件类标准表述词Sj,1≤i≤n,1≤j≤n;
建立该事件非规范特征词Fi与该近似的事件类标准表述词Sj之间的一级映射关系,将该事件非规范特征词与该近似的事件类标准表述词Sj之间的一级映射关系保存到标准化表述库中。
5.根据权利要求4所述的方法,其中,所述建立事件非规范特征词与事件类标准表述词之间的一级映射关系的步骤,其包括:
捕捉客户端获取到的用户行为数据,从中提取得到所述至少一个事件非规范特征词;
基于所述至少一个事件非规范特征词,建立所述至少一个事件非规范特征词与所述事件类标准表述词之间的一对一、一对多或多对一的一级映射关系;
其中,所述事件类标准表述词是所述事件非规范特征词对应的案件类型。
6.根据权利要求1、2或4所述的方法,其中,所述根据事件类标准表述词之间的级别隶属关系对该集合中的事件类标准表述词依次展开两两隶属关系分析,以得到该事件类标准表述词集合的子集的步骤,其包括:
当所述事件类标准表述词集合中存在一个事件类标准表述词Sp或多个相同的事件类标准表述词Sp时,则确定该事件类标准表述词Sp作为该集合的子集。
7.根据权利要求1、2或4所述的方法,其中,所述根据事件类标准表述词之间的级别隶属关系对所述事件类标准表述词集合中的事件类标准表述词进行隶属关系分析,以得到该事件类标准表述词集合的子集的步骤,其包括:
当所述事件类标准表述词集合中存在多个不同的事件类标准表述词时,则对该集合中的事件类标准表述词依次展开两两隶属关系分析;
若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级并列关系,则确定{Sj,Sj+1}为该事件类标准表述词集合的子集;
若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级覆盖关系,且事件类标准表述词Sj覆盖事件类标准表述词Sj+1,则确定{Sj}为该事件类标准表述词集合的子集;
若事件类标准表述词Sj包含事件类标准表述词Sj+1,则{Sj+1}为该事件类标准表述词集合的子集;
若事件类标准表述词Sj包含于事件类标准表述词Sj+1,则{Sj}为该事件类标准表述词集合的子集。
8.根据权利要求1、2或4所述的方法,其中,所述基于文书特征关键词与事件类标准表述词之间的二级映射关系,对所述事件类标准表述词子集中的每个所述事件类标准表述词依次检索二级映射关系,基于检索结果生成包含所述至少一个文书特征关键词的展示页面步骤,其包括:
建立文书特征关键词与事件类标准表述词之间的二级映射关系,保存到标准化表述库;
基于文书特征关键词与事件类标准表述词之间的二级映射关系,遍历所述事件类标准表述词子集中的所有的所述事件类标准表述词,获得每个所述事件类标准表述词对应的文书特征关键词;
对所述文书特征关键词进行统计处理,生成包含所述至少一个文书特征关键词的展示页面。
9.根据权利要求8所述的方法,其中,所述建立文书特征关键词与事件类标准表述词之间的二级映射关系的步骤包括:
对文书数据库中的所有文书进行关键字提取得到文书特征关键词;
建立所述文书特征关键词与事件类标准表述词之间一对一或者多对一的二级映射关系。
10.一种基于双向映射的检索***,其特征在于,所述***包括:
关键字提取模块(10),用于对客户端获取的事件信息进行关键字提取,得到包含至少一个事件非规范特征词的集合;
标准表述词获取模块(20),用于基于事件非规范特征词与事件类标准表述词之间的一级映射关系,对所述关键字提取模块(10)得到所述事件非规范特征词集合中的每个事件非规范特征词进行标准化,以获得每个所述事件非规范特征词对应的至少一个事件类标准表述词,形成事件类标准表述词集合;
隶属关系分析模块(30),用于遍历所述事件类标准表述词集合中所有的事件类标准表述词,根据事件类标准表述词之间的级别隶属关系对该集合中的事件类标准表述词依次展开两两隶属关系分析,以得到该事件类标准表述词集合的子集;
检索结果生成模块(40),用于基于文书特征关键词与事件类标准表述词之间的二级映射关系,对所述事件类标准标表述词子集中的每个所述事件类标准表述词依次检索二级映射关系,基于检索结果生成包含所述至少一个文书特征关键词的展示页面。
11.根据权利要求10所述的***,其中,所述***还包括:事件信息获取模块(50),用于从搜索引擎服务器上获取最近的设定时间长度内的检索日志并将获取的检索日志作为事件信息;或者将本次用户在客户端输入的事件信息作为事件信息。
12.根据权利要求10-11任一项所述的***,其中,所述标准表述词获取模块(20)包括:
一级映射建立单元(201),用于建立事件非规范特征词与事件类标准表述词之间的一级映射关系,保存到标准化表述库中;
非规范特征词遍历单元(202),用于遍历事件非规范特征词集合{Fn}中所有的非规范特征词,获得每个所述事件非规范特征词Fn对应的至少一个事件类标准表述词Sm,形成包含多个事件类标准表述词的事件类标准表述词集合{Sm},n≥m≥1。
13.根据权利要求12所述的***,其中,所述特征词遍历单元(202)进一步包括:
近似表述词获取单元(2020),用于当标准表述词遍历单元(202)从标准化表述库中未获得某个所述事件非规范特征词Fi对应的事件类标准表述词Si,通过文本相似度计算方法过滤所述标准化表述库,得到与该事件非规范特征词Fi近似的事件类标准表述词Sj,1≤i≤n,1≤j≤n;
一级映射更新单元(2021),用于建立该事件非规范特征词Fi与该近似的事件类标准表述词Sj之间的一级映射关系,并将该事件非规范特征词与该近似的事件类标准表述词Sj之间的一级映射关系保存到标准化表述库中。
14.根据权利要求13所述的***,其中,所述一级映射建立单元(201)进一步包括:
用户行为分析单元(2010),用于捕捉客户端获取到的用户行为数据,从中提取得到所述至少一个事件非规范特征词;
所述一级映射建立单元(201),用于基于所述至少一个事件非规范特征词,建立所述至少一个事件非规范特征词与所述事件类标准表述词之间的一对一、一对多或多对一的一级映射关系;
其中,所述事件非规范特征词为所述事件类标准表述词分类下的特征。
15.根据权利要求10、11或13所述的***,其中,当所述隶属关系分析模块(30)检测到所述事件类标准表述词集合中存在一个事件类标准表述词Sp或多个相同的事件类标准表述词Sp时,则确定该事件类标准表述词Sp作为该事件类标准表述词集合的子集。
16.根据权利要求10、11或13所述的***,其中,当所述隶属关系分析模块(30)检测到所述事件类标准表述词集合中存在多个不同的事件类标准表述词时,则对该集合中的事件类标准表述词依次展开两两隶属关系分析,所述隶属关系分析模块(30)具体执行以下操作:
若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级并列关系,则确定{Sj,Sj+1}为该事件类标准表述词集合的子集;
若事件类标准表述词Sj与事件类标准表述词Sj+1属于同级覆盖关系,且事件类标准表述词Sj覆盖事件类标准表述词Sj+1,则确定{Sj}为该事件类标准表述词集合的子集;
若事件类标准表述词Sj包含事件类标准表述词Sj+1,则{Sj+1}为该事件类标准表述词集合的子集;
若事件类标准表述词Sj包含于事件类标准表述词Sj+1,则{Sj}为该事件类标准表述词集合的子集。
17.根据权利要求10、11或13所述的***,其中,所述检索结果生成模块(40)包括:
二级映射建立单元(401),用于建立文书特征关键词与事件类标准表述词之间的二级映射关系,保存到标准化表述库;
标准表述词遍历单元(402),用于基于文书特征关键词与事件类标准表述词之间的二级映射关系,遍历所述事件类标准表述词子集中的所有的所述事件类标准表述词,获得每个所述事件类标准表述词对应的文书特征关键词;
展示页面生成单元(403),用于对所述文书特征关键词进行统计处理,生成包含所述至少一个文书特征关键词的展示页面。
18.根据权利要求17所述的***,其中,所述二级映射建立单元(401)包括:
文书关键词提取单元(4010),用于对文书数据库中的所有文书进行关键字提取得到文书特征关键词;
所述二级映射建立单元(401),用于建立所述文书特征关键词与事件类标准表述词之间一对一或者多对一的二级映射关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610158099.7A CN105824938B (zh) | 2016-03-18 | 2016-03-18 | 一种基于双向映射的检索方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610158099.7A CN105824938B (zh) | 2016-03-18 | 2016-03-18 | 一种基于双向映射的检索方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105824938A CN105824938A (zh) | 2016-08-03 |
CN105824938B true CN105824938B (zh) | 2019-11-08 |
Family
ID=56525215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610158099.7A Active CN105824938B (zh) | 2016-03-18 | 2016-03-18 | 一种基于双向映射的检索方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105824938B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597986A (zh) * | 2018-10-16 | 2019-04-09 | 深圳壹账通智能科技有限公司 | 异常问题的定位方法、装置、设备及存储介质 |
CN112802569B (zh) * | 2021-02-05 | 2023-08-08 | 北京嘉和海森健康科技有限公司 | 一种语义信息的获取方法、装置、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479230A (zh) * | 2010-11-29 | 2012-05-30 | 北京四维图新科技股份有限公司 | 提取地理特征词的方法和装置 |
CN102760140A (zh) * | 2011-04-29 | 2012-10-31 | 淮海工学院 | 一种基于事件本体的查询扩展方法 |
CN103116574A (zh) * | 2013-02-22 | 2013-05-22 | 电子科技大学 | 从自然语言文本挖掘领域过程本体的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4247284B2 (ja) * | 2007-03-28 | 2009-04-02 | 株式会社東芝 | 情報検索装置、情報検索方法及び情報検索プログラム |
KR20100046586A (ko) * | 2008-10-27 | 2010-05-07 | 삼성전자주식회사 | 맵 기반의 웹 검색 방법 및 장치 |
-
2016
- 2016-03-18 CN CN201610158099.7A patent/CN105824938B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479230A (zh) * | 2010-11-29 | 2012-05-30 | 北京四维图新科技股份有限公司 | 提取地理特征词的方法和装置 |
CN102760140A (zh) * | 2011-04-29 | 2012-10-31 | 淮海工学院 | 一种基于事件本体的查询扩展方法 |
CN103116574A (zh) * | 2013-02-22 | 2013-05-22 | 电子科技大学 | 从自然语言文本挖掘领域过程本体的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105824938A (zh) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11816078B2 (en) | Automatic entity resolution with rules detection and generation system | |
Luo et al. | Newsclippings: Automatic generation of out-of-context multimodal media | |
US9495445B2 (en) | Document sorting system, document sorting method, and document sorting program | |
Motoyama et al. | I seek you: searching and matching individuals in social networks | |
Hutchins et al. | Hiding in plain sight: criminal network analysis | |
US20190272412A1 (en) | Entity recognition from an image | |
US20110125746A1 (en) | Dynamic machine assisted informatics | |
US20150286706A1 (en) | Forensic system, forensic method, and forensic program | |
CN105824938B (zh) | 一种基于双向映射的检索方法和*** | |
Joshi et al. | Political issue extraction model: A novel hierarchical topic model that uses tweets by political and non-political authors | |
CN111400448A (zh) | 对象的关联关系分析方法及装置 | |
CN107544961A (zh) | 一种社交媒体评论的情感分析方法、设备及其存储设备 | |
US20230410220A1 (en) | Information processing apparatus, control method, and program | |
JP7092194B2 (ja) | 情報処理装置、判定方法、及びプログラム | |
Jiang et al. | Camera fingerprint: A new perspective for identifying user's identity | |
Bródka et al. | Profile cloning detection in social networks | |
CN107943935B (zh) | 数据的处理方法、装置和计算机可读存储介质 | |
Varol et al. | The importance of web activities for computer forensics | |
US20150201104A1 (en) | Three-dimensional image searching based on inputs collected by a mobile device | |
CN112907308B (zh) | 数据检测方法和装置、计算机可读存储介质 | |
Hu et al. | An empirical study on the names of points of interest and their changes with geographic distance | |
Heravi et al. | Tweet location detection | |
CN105786929A (zh) | 一种信息监测方法及装置 | |
CN107133644B (zh) | 数字化图书馆内容分析***及方法 | |
Wang et al. | Modeling sentiment evolution for social incidents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |