CN108549697A - 基于语义关联的信息推送方法、装置、设备以及存储介质 - Google Patents

基于语义关联的信息推送方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN108549697A
CN108549697A CN201810339479.XA CN201810339479A CN108549697A CN 108549697 A CN108549697 A CN 108549697A CN 201810339479 A CN201810339479 A CN 201810339479A CN 108549697 A CN108549697 A CN 108549697A
Authority
CN
China
Prior art keywords
document
information
data
keyword
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810339479.XA
Other languages
English (en)
Inventor
孙飞
刘明浩
邓射卫
韩超
朱翰闻
张发恩
郭江亮
李旭
唐进
尹世明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810339479.XA priority Critical patent/CN108549697A/zh
Publication of CN108549697A publication Critical patent/CN108549697A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于语义关联的信息推送方法、装置、设备以及存储介质,该方法包括:获取用户输入的查询信息,将查询信息和数据库中存储的预设数据结构的数据进行语义对比,从数据库中获取与所述查询信息匹配的数据信息,预设数据结构的数据包括预设条文的关键词,推送数据信息。在预设条文的关键字的基础上基于语义进行精确匹配得到要推送的数据信息,提高查询的准确率以及覆盖率,并且可以在搜索引擎中广泛应用。

Description

基于语义关联的信息推送方法、装置、设备以及存储介质
技术领域
本申请实施例涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种基于语义关联的信息推送方法、装置、设备以及存储介质。
背景技术
审案判案是人民法院的中心工作,近年来,全国法院新收案件呈不断增长态势,审判任务更加繁重。在此前提下,不断提高辅助办案的智能化水平显得越来越重要。类案推送***通过根据法官输入的查询条件,进行相似案例的查找与推荐,可以有效缓解法官在审判过程中面临的巨大压力。
在以往审案判案过程中,类案推送作为智能辅助办案手段多为空白或基于文本相似性度量进行类案推送,现有的类案推送***在实际应用中主要有两种方式。第一种方式:从文本相似的角度出发,根据文本的相似性度量,进行类案推送;第二种方式:从规则的角度出发,多由专家***发展而来,专家根据多年经验,将经验固化在类案推送***中。
然而,上述方案使用文本相似度量或者专家经验进行推送,由于重要特征的缺失,存在类别不准、准确度不高、覆盖率不足等诸多问题,难以在实际判案过程中进行广泛应用。
发明内容
本申请实施例提供一种基于语义关联的信息推送方法、装置、设备以及存储介质,用于解决上述使用文本相似度量或者专家经验进行推送,由于重要特征的缺失,存在类别不准、准确度不高、覆盖率不足等诸多问题,难以在实际判案过程中进行广泛应用的问题。
本申请第一方面提供一种基于语义关联的信息推送方法,包括:
获取用户输入的查询信息;
将所述查询信息和数据库中存储的预设数据结构的数据进行语义对比,从所述数据库中获取与所述查询信息匹配的数据信息;所述预设数据结构的数据包括预设条文的关键词;
推送所述数据信息。
在一种具体实现方式中,所述获取用户输入的查询信息之前,所述方法还包括:
对每个待入库的文档根据预设条文的关键词进行解析处理,得到所述待入库的文档对应的符合预设数据结构的数据,并将所述数据存储至所述数据库。
在一种具体实现方式中,所述对每个待入库的文档根据预设条文的关键词进行解析处理,得到所述待入库的文档对应的符合预设数据结构的数据之前,所述方法还包括:
对所述待入库的文档进行分析,提取出所述待入库的文档中与不同预设条文相关联的关键词。
在一种具体实现方式中,在对所述待入库的文档进行分析,提取出所述待入库的文档中与不同预设条文相关联的关键词之前,所述方法还包括:
对原始数据进行预处理,得到所述待入库的文档;其中,所述预处理包括以下至少一种处理:解压、转码、筛选。
在一种具体实现方式中,所述待入库的文档包括从法律文档中筛选出的判决文档;
则所述对待入库的文档进行分析,提取出所述待入库的文档中与不同预设条文相关联的关键词,包括:
根据法律条文语义抽取模型对所述判决文档进行分析,提取出与不同法律条文关联的关键词;每个法律条文对应至少一个关键词。
在一种具体实现方式中,所述对每个待入库的文档根据预设条文的关键词进行解析处理,得到所述待入库的文档对应的符合预设数据结构的数据,包括:
根据每个法律条文对应的关键词,对每个判决文档进行解析,生成每个判决文档对应的符合预设数据结构的数据;
其中,所述预设数据结构的数据包括判决文档的以下至少一种信息:所述判决文档的标题、所述判决文档使用的法律条文、所述判决文档的内容、所述判决文档使用的法律条文的关键词。
在一种具体实现方式中,所述查询信息包括起诉书;则所述基于关键词,将所述查询信息和数据库中存储的预设数据结构的数据进行语义对比,从所述数据库中获取与所述查询信息匹配的数据信息,包括:
根据关键词进行将所述查询信息与数据库中的数据进行语义对比,从存储了根据判决文档得到的数据库中获取与所述起诉书匹配的至少一个类似案件信息,所述数据信息包括所述至少一个类似案件信息。
在一种具体实现方式中,所述推送所述数据信息,包括:
通过搜索引擎客户端按照类似案件信息与所述起诉书的匹配程度由高到低的顺序显示所述至少一个类似案件信息;
或者,
通过搜索引擎客户端按照类似案件信息与所述起诉书的匹配程度由高到低的顺序显示预设数值个类似案件信息。
本发明第二方面提供一种基于语义关联的信息推送装置,包括:
获取模块,用于获取用户输入的查询信息;
处理模块,用于将所述查询信息和数据库中存储的预设数据结构的数据进行语义对比,从所述数据库中获取与所述查询信息匹配的数据信息;所述预设数据结构的数据包括预设条文的关键词;
推送模块,用于推送所述数据信息。
可选的,所述处理模块还用于:
对每个待入库的文档根据预设条文的关键词进行解析处理,得到所述待入库的文档对应的符合预设数据结构的数据,并将所述数据存储至所述数据库。
可选的,所述处理模块还用于:
对所述待入库的文档进行分析,提取出所述待入库的文档中与不同预设条文相关联的关键词。
可选的,所述处理模块还用于对原始数据进行预处理,得到所述待入库的文档;其中,所述预处理包括以下至少一种处理:解压、转码、筛选。
可选的,所述待处理文本包括从法律文档中筛选出的判决文档;则所述处理模块具体用于:
根据法律条文语义抽取模型对所述判决文档进行分析,提取出与不同法律条文关联的关键词;每个法律条文对应至少一个关键词。
可选的,所述处理模块具体用于:
根据每个法律条文对应的关键词,对每个判决文档进行解析,生成每个判决文档对应的符合预设数据结构的数据;
其中,所述预设数据结构的数据包括判决文档的以下至少一种信息:所述判决文档的标题、所述判决文档使用的法律条文、所述判决文档的内容、所述判决文档使用的法律条文的关键词。
可选的,所述获取模块获取到的所述查询信息包括起诉书;则所述处理模块具体用于:
根据关键词进行将所述查询信息与数据库中的数据进行语义对比,从存储了根据判决文档得到的数据库中获取与所述起诉书匹配的至少一个类似案件信息,所述数据信息包括所述至少一个类似案件信息。
可选的,所述推送模块具体用于:
通过搜索引擎客户端按照类似案件信息与所述起诉书的匹配程度由高到低的顺序显示所述至少一个类似案件信息;
或者,
通过搜索引擎客户端按照类似案件信息与所述起诉书的匹配程度由高到低的顺序显示预设数值个类似案件信息。
本申请第三方面提供一种终端设备,包括:存储器和处理器;
所述存储器用于存储计算机指令;所述处理器用于运行所述存储器存储的所述计算机指令实现第一方面任一实现方式提供的基于语义关联的信息推送方法。
本申请第四方面提供一种存储介质,包括:可读存储介质和计算机指令,所述计算机指令存储在所述可读存储介质中;所述计算机指令用于实现第一方面任一实现方式提供的基于语义关联的信息推送方法。
本申请实施例提供的基于语义关联的信息推送方法、装置、设备以及存储介质,对历史数据进行分析处理,得到符合预设数据结构的数据存储在数据库中,数据库中的数据的结构中至少包括了满足预设条文的关键词,该些关键词可表示预设条文的语义,在获取到用户输入的查询信息后,在该数据库中基于语义对比方式,获取与查询信息匹配的数据信息进行推送,有效提高查询的准确率以及覆盖率,可实现在搜索引擎中广泛应用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的基于语义关联的信息推送方法的实施例一的流程图;
图2为本申请实施例提供的基于语义关联的信息推送方法实施例二的流程图;
图3为本申请实施例提供的基于语义关联的信息推送方法一实例中的法律条文语义抽取模型结构示意图;
图4为本申请实施例提供的基于语义关联的信息推送方法一实例中基于法律条文语义关联的类案推送***流程图;
图5为本申请实施例提供的基于语义关联的信息推送装置实施例一的结构示意图;
图6为本申请实施例提供的终端设备实施例一的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
基于背景技术中的审案判案过程中,现有的类案推送***中,判断案例相似主要依靠文本相似性度量或基于专家多年的经验。在使用文本相似性度量进行类案推送时,无法对法律文书所特有的结构加以利用,同时完全忽视法律条文在审判案件中所起到的核心作用,表现出类推的案件出现性质不同、量刑程度不同、相似案例准确度不够等诸多问题,难以达到最佳类案推送效果。而基于传统专家经验的类案推送***,其特征选取和判定规则都是基于经验固化到***当中的,虽然具有一定准确性,但***整体覆盖率不够,且可扩展性差,同时需要大量的人力物力成本,不符合当前实际应用场景。
基于上述存在的问题,本申请提供一种基于语义关联的信息推送方法,通过对需要去做对比的预设条文特有的结构以及含义加以利用,基于语义分析关联去获取与查询信息匹配的数据信息,可实现在搜索引擎中广泛应用,并提高信息推送的准确度。
本申请实施例提供的基于语义关联的信息推送方法可应用在所有的可进行数据信息搜索的终端设备,也可以应用在提供搜索服务的服务器中,也可以是服务器和终端设备配合完成该方案。例如:手机、电脑、平板电脑、应用在医院、法院***等不同部分的搜索终端等,对此本方案不做限制。
图1为本申请实施例提供的基于语义关联的信息推送方法的实施例一的流程图,如图1所示,本实施例提供的基于语义关联的信息推送方法具体包括以下步骤:
S101:获取用户输入的查询信息。
在本步骤中,在用户需要查询需要的数据时候,可以根据自己的需求输入相应的查询信息,该查询信息可以是文字,也可以是文档等形式,本方案不做限制。该查询信息可以通过搜索引擎或者查询***提供接口以便用户输入,查询信息中至少包括用户需要获取的数据信息的查询条件等信息。
S102:将查询信息和数据库中存储的预设数据结构的数据进行语义对比,从数据库中获取与查询信息匹配的数据信息;预设数据结构的数据包括预设条文的关键词。
在本步骤中,在***实现过程中,可以针对不同的条文的内容,也就是原始数据进行分析处理,获取预设数据结构的数据存储在数据库中,该数据库中存储的预设数据结构的数据可以包括能够表示预设条文的语义的关键词,以及与该预设条文的语义相关的其他数据,例如:文章的标题、内容提要等信息,数据库中存储着大量满足预设数据结构的数据,以便用户可以输入一定的查询信息能够匹配到需要的数据。
在获取到用户输入的查询信息之后,根据该查询信息以及数据库中存储的数据,基于语义进行对比分析,获取数据库中与该查询信息匹配的数据信息。具体的实现方式中,将查询信息和数据库中存储的预设数据结构的数据进行语义对比,对比的方式可以通过关键词进行比对,确定查询信息与数据库存储的数据中是否存在使用了相同的条文等,即从整个内容的含义去进行对比得到匹配的数据信息。这里的匹配可以是完全相同,也可以是匹配度大于预设值,对此该方案不做限制。
S103:推送数据信息。
在本步骤中,在获取到与用户输入的查询信息匹配的查询信息之后,可将该些数据信息推送给用户,如果是服务器进行上述实现过程,则可以直接将查询到的信息进行显示或者,通过搜索引擎的客户端在终端设备的界面上将查询到的数据信息进行显示,由于在该方案的具体实现中,根据该用户的查询信息匹配到的数据信息可能是一条也可能是多条,如果是一条数据信息则可以直接显示;如果查询到有多条数据信息,则可以按照每条数据信息与查询信息的匹配程度由高到低的顺序进行显示,以便用户能够优先得到最为匹配的信息;如果查询到的数据信息非常的多,则可以按照每条数据信息与查询信息的匹配程度由高到低的顺序选择预设的一定数量的数据进行显示,依然可以按照匹配程度的顺序进行显示。
除了直接通过显示的方式推送查询到的数据信息之外,还可以发送给用户的其他设备,或者以邮件的方式,或者语音输出等方式向用户推送数据信息,对此本方案不做限制。
本实施例提供的基于语义关联的信息推送方法,对历史数据进行分析处理,得到符合预设数据结构的数据存储在数据库中,数据库中的数据的结构中至少包括了满足预设条文的关键词,该些关键词可表示预设条文的语义,在获取到用户输入的查询信息后,在该数据库中基于语义对比方式,获取与查询信息匹配的数据信息进行推送,有效提高查询的准确率以及覆盖率,可实现在搜索引擎中广泛应用。
图2为本申请实施例提供的基于语义关联的信息推送方法实施例二的流程图,如图2所示,在上述实施例一的基础上,在进行上述根据用户输入的查询信息匹配相应的数据信息进行推送之前,需要设计能够实现上述方案的***,本实施例提供的基于语义关联的信息推送方法包括以下步骤:
S201:对待入库的文档进行分析,提取出待入库的文档中与不同预设条文相关联的关键词。
在该方案的整体设计过程中,需要对大量的数据进行预处理,以文本为例,需要原始数据文本进行筛选等工作,筛选出需要处理的待入库的文档,然后根据语义抽取模型,从待入库的文档中抽取出与相关的条文关联的关键词(也可以称为关键词列表),以法律文档为例,若需要设计***向法官等用户提供类案的推送,则在前期的设计过程中对大量的法律文档进行筛选,筛选出判决书类的法律文档,该些文档需要进行处理存储在数据库中,将作为语义抽取的数据,***对该些筛选出的法律文档中的法律条文进行特征提取,将其中能够表达该法律条文的语义的关键词抽取出来,得到一些关键词,不同法律条文对应至少一个关键词。除了法律文档,其他类型的文档也是可以,满足一定特定条款,或者条文的文档均可以按照该方式进行处理,获取出能够表达规定的条文的含义的关键词列表,以便在后续进行语义分析时应用。
S202:对每个待入库的文档根据预设条文的关键词进行解析处理,得到待入库的文档对应的符合预设数据结构的数据,并将数据存储至数据库。
在本步骤中,按照上述对待入库的文档进行分析提取出关键词列表后,可以将该关键词列表送入对待入库的文档进行解析的模型中,以便后续进行解析处理的过程中进行应用。关键词的使用意味着对上述预设条文含义的引援,在将文档的关键词列表输入解析模型之后,解析模型可以对上述的待入库的文档进行最终的解析,根据待入库的文档中的预设语义或者能够表示预设语义的关键词,解析生成条文列表,在该过程中还可以剔除其中没有用的条文,然后生成标准化的复合预设数据结构的数据,并将数据送入用于搜索的数据库,例如搜索引擎的数据库,以便根据用户输入的查询信息获取对应的数据信息。
对上述待入库的文档进行语义解析后得到的数据符合预设的数据结构,即与某个文档对应的符合标准的数据结构的数据至少包括能够表示该文档中引用的条文的含义的关键词,除此之外,还可以包括文档标题,文档引用的条文列表,文档的内容等中的一个或者多个,对此本方案不做限制。
可选的,如果输入的是大量的数据,即其中还包括了其他的文档,或者其他的格式的数据等,可以在该过程之前对所有的原始数据进行预处理,从中得到待入库的文档,这里的预处理可以是解压、转码、筛选等中的至少一种处理过程,筛选出合适的待入库文档。
本实施例提供的基于语义关联的信息推送方法,对历史的待入库的文档进行分析处理,得到符合预设数据结构的数据存储在数据库中,数据库中的数据的结构中至少包括了满足预设条文的关键词,该些关键词可表示预设条文的语义,在获取到用户输入的查询信息后,在该数据库中基于语义对比方式,获取与查询信息匹配的数据信息进行推送,有效提高查询的准确率以及覆盖率,可实现在搜索引擎中广泛应用。
在上述实施例的基础上,下面以该方案在法院判案的过程中进行类案推送应用为实例对本申请涉及的基于语义关联的信息推送方法进行说明。
在以往审案判案过程中,类案推送作为智能辅助办案手段多为空白或基于文本相似性度量进行类案推送,这种做法主要从文本相似的角度出发,完全忽略了文书中法律条文所代表的重要意义,法律条文是法律文书的根本依据,是表征文书内容的重要特征,相同法律条文的援引代表着案件类别相同、性质相近、程度相似,对于类案推送而言,具有至关重要的意义。由于重要特征的缺失,这类***推送的案例存在类别不准、准确度不高、覆盖率不足等诸多问题,很难在实际判案过程中进行广泛应用。在本申请中,结合上述两个实施例的技术方案,可以利用自然语言处理(Natural Language Processing,NLP)技术,通过挖掘深层语义与法律条文之间的关联关系,基于上述方案可实现一种基于法律条文深层语义关联的精准类案推送方法及***,有效实现了当法官输入一个查询条件时,进行最相似案例的查找与分析,缩短法官查找相关案卷的时间,有效提高了法官的办案效率。该***适用于所有依据法律条文分析进行的类案推送场景。
将上述两个实施例的技术方案应用在类案推送***中,当待入库的文档是从法律文档中筛选出的判决文档时候,从待入库的文档中提取出于预设条文关联的关键词列表的方案可以具体实现为:根据法律条文语义抽取模型对所述判决文档进行分析,提取出与法律条文关联的关键词列表。该关键词列表包括法律条文与关联的至少一个关键词的对应关系。解析过程可以实现为根据关键词列表,对每个判决文档进行解析生成复合预设数据结构的数据,该预设数据结构包括以下至少一种信息:判决文档的标题、所述判决文档使用的法律条文、所述判决文档的内容、所述判决文档使用的法律条文的关键词。
在输入了起诉书或者其他的查询条件之后,根据关键词进行将查询信息与数据库中的数据进行语义对比,从存储了根据判决文档得到的数据库中获取与起诉书匹配的至少一个类似案件信息,数据信息包括至少一个类似案件信息。然后将该类似案件信息进行推送,以便法官根据类案进行参考。具体的,可以采用如下的***进行实现。
图3为本申请实施例提供的基于语义关联的信息推送方法一实例中的法律条文语义抽取模型结构示意图,图4为本申请实施例提供的基于语义关联的信息推送方法一实例中基于法律条文语义关联的类案推送***流程图,如图3和图4所示,该基于语义关联的信息推推送方法应用在类案推送***中,主要包含数据预处理模块、法律条文语义抽取模型、解析模型、以及搜索引擎等几个主要的模块。
在整体设计中,数据预处理模块对法律文档进行解压、转码、筛选等工作,预处理后的得到例如判决文档将作为法律条文语义抽取模型的输入以及相似案例推送的原始文本,具体的,可以将一些历史案例的文档作为输入,输入数据预处理模块,数据预处理模块对输入的历史案例的文档进行数据预处理,包括解压、转码、筛选等过程。其输入为未处理的历史及新增案例,输出为处理好的文本,例如判决文档作为下一个语义抽取模型的输入。
法律条文语义抽取模型是此***中极为重要的一部分,通过对判决文档中法律条文的精准抽取以及相关特征的提取和处理,生成各个法律条文下与之语义相关联的关键词列表,关键词的出现意味着法律条文的援引,并将最终生成的法律条文关键词列表送入到解析模型中。
解析模型完成对判决文档的最终解析,并根据判决文档中的法律条文或法律条文语义关联关键词,生成法律条文列表,同时进行否定判断,剔除无用及错误的法律条文,在完成诸多解析后,解析模型输出标准化的文档结构,即标准的数据结构的数据,送入到搜索引擎数据库。如图4所示,该解析模型的其输入为新增案例,输出为标准化的文档结构,包括文档标题、文档法律条文列表、文档内容等。在出现新的新增案例时候,可以定期进行刷新,从数据预处理模块开始进行预处理,然后进入解析模块进行解析,得到标准的数据结构的数据输入数据库。
通过对历史案例及新增案例的解析入库,当用户输入诉讼书或者其他搜索条件时(query),搜索引擎通过对诉讼书中法律条文及数据库中文档法律条文的精确比对,给出相似案例的最佳匹配,并进行打分排序,例如,可以按照匹配程度的顺序输出最优的TopN个查询结果。
在对搜索结果进行具体推送时候,至少可以按照下面两种方式进行推送:
第一种方式,通过搜索引擎客户端按照类似案件信息与起诉书(或者其他查询条件)的匹配程度由高到低的顺序显示所述至少一个类似案件信息。该推送方式中是将查询得到的所有的匹配的结果全部进行显示,按照匹配程度由高降低的顺序进行显示。
第二种方式,通过搜索引擎客户端按照类似案件信息与起诉书(或者其他查询条件)的匹配程度由高到低的顺序显示预设数值个类似案件信息。该方式是从所有的与匹配的结果中选择出一部分(具体数量可以进行设置)进行显示,也可以是按照按照匹配程度由高降低的顺序进行显示。
本方案提供的类案信息推送方法中,根据法律文书与所援引法律条文之间强关联的语义联系以及通过挖掘文书深层语义与法律条文之间的关系,经过对法律条文的精确匹配,给出一种高准确率、高召回率的精准类案推送方法,可有效解决法官在案件审理过程中面临的案件数量多、审理难度高、办案压力大等问题,同时亦可对同案同判工作提供巨大帮助,提升司法判决的公正性和权威性。
在上述任一方案的具体实现中,该基于语义关联的信息推送方案中,除了根据预设的条文(例如上述实例中的法律条文)进行语义分析,也可以是根据其他表征文本内容的特征,进行分析,获取要推送的信息,对此本方案不做限制。
图5为本申请实施例提供的基于语义关联的信息推送装置实施例一的结构示意图,如图5所示,本实施例提供的基于语义关联的信息推送装置10包括:
获取模块11,用于获取用户输入的查询信息;
处理模块12,用于将所述查询信息和数据库中存储的预设数据结构的数据进行语义对比,从所述数据库中获取与所述查询信息匹配的数据信息;所述预设数据结构的数据包括预设条文的关键词;
推送模块13,用于推送所述数据信息。
本实施例提供的基于语义关联的信息推送装置,用于实现前述任一方法实施例的技术方案,对历史数据进行分析处理,得到符合预设数据结构的数据存储在数据库中,数据库中的数据的结构中至少包括了满足预设条文的关键词,该些关键词可表示预设条文的语义,在获取到用户输入的查询信息后,在该数据库中基于语义对比方式,获取与查询信息匹配的数据信息进行推送,有效提高查询的准确率以及覆盖率,可实现在搜索引擎中广泛应用。
在上述实施例的基础上,在该基于语义关联的信息推送装置10的一种具体实现中,所述处理模块12还用于:
对每个待入库的文档根据预设条文的关键词进行解析处理,得到所述待入库的文档对应的符合预设数据结构的数据,并将所述数据存储至所述数据库。
可选的,所述处理模块12还用于对原始数据进行预处理,得到所述待入库的文档;其中,所述预处理包括以下至少一种处理:解压、转码、筛选。
可选的,所述处理模块12还用于:
对待处理文本进行分析,提取出所述待处理文本中与不同预设条文相关联的关键词列表。
可选的,所述待处理文本包括从法律文档中筛选出的判决文档;则所述处理模块12具体用于:
根据法律条文语义抽取模型对所述判决文档进行分析,提取出与不同法律条文关联的关键词;每个法律条文对应至少一个关键词。
可选的,所述处理模块12具体用于:
根据每个法律条文对应的关键词,对每个判决文档进行解析,生成每个判决文档对应的符合预设数据结构的数据;
其中,所述预设数据结构的数据包括判决文档的以下至少一种信息:所述判决文档的标题、所述判决文档使用的法律条文、所述判决文档的内容、所述判决文档使用的法律条文的关键词。
可选的,所述获取模块11获取到的所述查询信息包括起诉书。
可选的,所述处理模块12具体用于:根据关键词进行将所述查询信息与数据库中的数据进行语义对比,从存储了根据判决文档得到的数据库中获取与所述起诉书匹配的至少一个类似案件信息,所述数据信息包括所述至少一个类似案件信息。
可选的,所述推送模块13具体用于:
通过搜索引擎客户端按照类似案件信息与所述起诉书的匹配程度由高到低的顺序显示所述至少一个类似案件信息;
或者,
通过搜索引擎客户端按照类似案件信息与所述起诉书的匹配程度由高到低的顺序显示预设数值个类似案件信息。
上述实现方式提供的基于语义关联的信息推送装置,用于实现前述任一方法实施例的技术方案,其实现原理和技术效果类似,在此不再赘述。
图6为本申请实施例提供的终端设备实施例一的结构示意图,如图6所示,该终端设备至少包括:存储器和处理器;
可选的,该终端设备还可以包括用于显示数据信息的显示器。
所述存储器用于存储计算机指令;所述处理器用于运行所述存储器存储的所述计算机指令实现前述任一方案提供的基于语义关联的信息推送方法的方案。
本申请还提供一种存储介质,包括:可读存储介质和计算机指令,所述计算机指令存储在所述可读存储介质中;所述计算机指令用于实现前述任一方法实施例提供的基于语义关联的信息推送方法的方案。
在上述终端设备的具体实现中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读存储器(英文:read-only memory,缩写:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetictape)、软盘(英文:floppy disk)、光盘(英文:optical disc)及其任意组合。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (18)

1.一种基于语义关联的信息推送方法,其特征在于,包括:
获取用户输入的查询信息;
将所述查询信息和数据库中存储的预设数据结构的数据进行语义对比,从所述数据库中获取与所述查询信息匹配的数据信息;所述预设数据结构的数据包括预设条文的关键词;
推送所述数据信息。
2.根据权利要求1所述的方法,其特征在于,所述获取用户输入的查询信息之前,所述方法还包括:
对每个待入库的文档根据预设条文的关键词进行解析处理,得到所述待入库的文档对应的符合预设数据结构的数据,并将所述数据存储至所述数据库。
3.根据权利要求2所述的方法,其特征在于,所述对每个待入库的文档根据预设条文的关键词进行解析处理,得到所述待入库的文档对应的符合预设数据结构的数据之前,所述方法还包括:
对所述待入库的文档进行分析,提取出所述待入库的文档中与不同预设条文相关联的关键词。
4.根据权利要求3所述的方法,其特征在于,在对所述待入库的文档进行分析,提取出所述待入库的文档中与不同预设条文相关联的关键词之前,所述方法还包括:
对原始数据进行预处理,得到所述待入库的文档;其中,所述预处理包括以下至少一种处理:解压、转码、筛选。
5.根据权利要求3所述的方法,其特征在于,所述待入库的文档包括从法律文档中筛选出的判决文档;
则所述对待入库的文档进行分析,提取出所述待入库的文档中与不同预设条文相关联的关键词,包括:
根据法律条文语义抽取模型对所述判决文档进行分析,提取出与不同法律条文关联的关键词;每个法律条文对应至少一个关键词。
6.根据权利要求5所述的方法,其特征在于,所述对每个待入库的文档根据预设条文的关键词进行解析处理,得到所述待入库的文档对应的符合预设数据结构的数据,包括:
根据每个法律条文对应的关键词,对每个判决文档进行解析,生成每个判决文档对应的符合预设数据结构的数据;
其中,所述预设数据结构的数据包括判决文档的以下至少一种信息:所述判决文档的标题、所述判决文档使用的法律条文、所述判决文档的内容、所述判决文档使用的法律条文的关键词。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述查询信息包括起诉书;则所述基于关键词,将所述查询信息和数据库中存储的预设数据结构的数据进行语义对比,从所述数据库中获取与所述查询信息匹配的数据信息,包括:
根据关键词进行将所述查询信息与数据库中的数据进行语义对比,从存储了根据判决文档得到的数据库中获取与所述起诉书匹配的至少一个类似案件信息,所述数据信息包括所述至少一个类似案件信息。
8.根据权利要求7所述的方法,其特征在于,所述推送所述数据信息,包括:
通过搜索引擎客户端按照类似案件信息与所述起诉书的匹配程度由高到低的顺序显示所述至少一个类似案件信息;
或者,
通过搜索引擎客户端按照类似案件信息与所述起诉书的匹配程度由高到低的顺序显示预设数值个类似案件信息。
9.一种基于语义关联的信息推送装置,其特征在于,包括:
获取模块,用于获取用户输入的查询信息;
处理模块,用于将所述查询信息和数据库中存储的预设数据结构的数据进行语义对比,从所述数据库中获取与所述查询信息匹配的数据信息;所述预设数据结构的数据包括预设条文的关键词;
推送模块,用于推送所述数据信息。
10.根据权利要求9所述的装置,其特征在于,所述处理模块还用于:
对每个待入库的文档根据预设条文的关键词进行解析处理,得到所述待入库的文档对应的符合预设数据结构的数据,并将所述数据存储至所述数据库。
11.根据权利要求10所述的装置,其特征在于,所述处理模块还用于:
对所述待入库的文档进行分析,提取出所述待入库的文档中与不同预设条文相关联的关键词。
12.根据权利要求11所述的装置,其特征在于,所述处理模块还用于对原始数据进行预处理,得到所述待入库的文档;其中,所述预处理包括以下至少一种处理:解压、转码、筛选。
13.根据权利要求11所述的装置,其特征在于,所述待处理文本包括从法律文档中筛选出的判决文档;则所述处理模块具体用于:
根据法律条文语义抽取模型对所述判决文档进行分析,提取出与不同法律条文关联的关键词;每个法律条文对应至少一个关键词。
14.根据权利要求13所述的装置,其特征在于,所述处理模块具体用于:
根据每个法律条文对应的关键词,对每个判决文档进行解析,生成每个判决文档对应的符合预设数据结构的数据;
其中,所述预设数据结构的数据包括判决文档的以下至少一种信息:所述判决文档的标题、所述判决文档使用的法律条文、所述判决文档的内容、所述判决文档使用的法律条文的关键词。
15.根据权利要求9至14任一项所述的装置,其特征在于,所述获取模块获取到的所述查询信息包括起诉书;则所述处理模块具体用于:
根据关键词进行将所述查询信息与数据库中的数据进行语义对比,从存储了根据判决文档得到的数据库中获取与所述起诉书匹配的至少一个类似案件信息,所述数据信息包括所述至少一个类似案件信息。
16.根据权利要求15所述的装置,其特征在于,所述推送模块具体用于:
通过搜索引擎客户端按照类似案件信息与所述起诉书的匹配程度由高到低的顺序显示所述至少一个类似案件信息;
或者,
通过搜索引擎客户端按照类似案件信息与所述起诉书的匹配程度由高到低的顺序显示预设数值个类似案件信息。
17.一种终端设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储计算机指令;所述处理器用于运行所述存储器存储的所述计算机指令实现权利要求1至8任一项所述的基于语义关联的信息推送方法。
18.一种存储介质,其特征在于,包括:可读存储介质和计算机指令,所述计算机指令存储在所述可读存储介质中;所述计算机指令用于实现权利要求1至8任一项所述的基于语义关联的信息推送方法。
CN201810339479.XA 2018-04-16 2018-04-16 基于语义关联的信息推送方法、装置、设备以及存储介质 Pending CN108549697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810339479.XA CN108549697A (zh) 2018-04-16 2018-04-16 基于语义关联的信息推送方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810339479.XA CN108549697A (zh) 2018-04-16 2018-04-16 基于语义关联的信息推送方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN108549697A true CN108549697A (zh) 2018-09-18

Family

ID=63515016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810339479.XA Pending CN108549697A (zh) 2018-04-16 2018-04-16 基于语义关联的信息推送方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN108549697A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710751A (zh) * 2018-12-13 2019-05-03 平安科技(深圳)有限公司 法律文件的智能推荐方法、装置、设备及存储介质
CN110377749A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 实体关联方法、装置、计算机设备及存储介质
CN111064844A (zh) * 2018-10-17 2020-04-24 阿里巴巴集团控股有限公司 消息提示方法、装置、电子设备、计算机可读介质
CN111368052A (zh) * 2020-02-28 2020-07-03 重庆百事得大牛机器人有限公司 基于语义识别的法律人工智能咨询***
CN111695339A (zh) * 2020-06-12 2020-09-22 湖北中烟工业有限责任公司 一种面向隐患的法规标准条文自动匹配方法及装置
CN112257438A (zh) * 2020-10-22 2021-01-22 上海英方软件股份有限公司 一种具有关联机制的语言知识处理方法及装置
CN112579731A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 数据处理方法及装置
CN114785720A (zh) * 2022-04-08 2022-07-22 北京国信网联科技有限公司 一种用于企业局域网络的上网行为监管平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101025752A (zh) * 2007-03-28 2007-08-29 上海汉光知识产权数据科技有限公司 专利检索***
CN102156711A (zh) * 2011-03-08 2011-08-17 国网信息通信有限公司 一种基于云存储的电力全文检索方法及***
CN106815263A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律条文的搜索方法及装置
CN106919702A (zh) * 2017-02-14 2017-07-04 北京时间股份有限公司 基于文档的关键词推送方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101025752A (zh) * 2007-03-28 2007-08-29 上海汉光知识产权数据科技有限公司 专利检索***
CN102156711A (zh) * 2011-03-08 2011-08-17 国网信息通信有限公司 一种基于云存储的电力全文检索方法及***
CN106815263A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律条文的搜索方法及装置
CN106919702A (zh) * 2017-02-14 2017-07-04 北京时间股份有限公司 基于文档的关键词推送方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111064844A (zh) * 2018-10-17 2020-04-24 阿里巴巴集团控股有限公司 消息提示方法、装置、电子设备、计算机可读介质
CN109710751A (zh) * 2018-12-13 2019-05-03 平安科技(深圳)有限公司 法律文件的智能推荐方法、装置、设备及存储介质
CN110377749A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 实体关联方法、装置、计算机设备及存储介质
CN112579731A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 数据处理方法及装置
CN111368052A (zh) * 2020-02-28 2020-07-03 重庆百事得大牛机器人有限公司 基于语义识别的法律人工智能咨询***
CN111695339A (zh) * 2020-06-12 2020-09-22 湖北中烟工业有限责任公司 一种面向隐患的法规标准条文自动匹配方法及装置
CN111695339B (zh) * 2020-06-12 2023-06-30 湖北中烟工业有限责任公司 一种面向隐患的法规标准条文自动匹配方法及装置
CN112257438A (zh) * 2020-10-22 2021-01-22 上海英方软件股份有限公司 一种具有关联机制的语言知识处理方法及装置
CN112257438B (zh) * 2020-10-22 2023-07-04 上海英方软件股份有限公司 一种具有关联机制的语言知识处理方法及装置
CN114785720A (zh) * 2022-04-08 2022-07-22 北京国信网联科技有限公司 一种用于企业局域网络的上网行为监管平台

Similar Documents

Publication Publication Date Title
CN108549697A (zh) 基于语义关联的信息推送方法、装置、设备以及存储介质
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
CN109522556B (zh) 一种意图识别方法及装置
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
CN111182162B (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN109597493B (zh) 一种表情推荐方法及装置
CN108304466A (zh) 一种用户意图识别方法以及用户意图识别***
CN106372132A (zh) 基于人工智能的查询意图预测方法和装置
KR101335540B1 (ko) 온톨로지 기반의 문서 분류 방법 및 장치
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
US20210056261A1 (en) Hybrid artificial intelligence system for semi-automatic patent pinfringement analysis
CN114782054A (zh) 基于深度学习算法的客服服务质量检测方法及相关设备
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN112364622A (zh) 对话文本分析方法、装置、电子装置及存储介质
CN117668205B (zh) 智慧物流客服处理方法、***、设备及存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN110750626B (zh) 一种基于场景的任务驱动的多轮对话方法及***
CN117271716A (zh) 一种基于生成式语言模型的法律法规问答***及构建方法
CN110134866A (zh) 信息推荐方法及装置
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN114741501A (zh) 舆情预警方法、装置、可读存储介质及电子设备
Zajíc et al. First insight into the processing of the language consulting center data
CN114117047A (zh) 一种基于c4.5算法对非法语音进行分类的方法及***
Khan et al. Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis
CN117453895B (zh) 一种智能客服应答方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180918