CN113127600A - 一种信息检索方法、装置、电子设备和存储介质 - Google Patents

一种信息检索方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113127600A
CN113127600A CN202110310499.6A CN202110310499A CN113127600A CN 113127600 A CN113127600 A CN 113127600A CN 202110310499 A CN202110310499 A CN 202110310499A CN 113127600 A CN113127600 A CN 113127600A
Authority
CN
China
Prior art keywords
legal
keyword
information
word
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110310499.6A
Other languages
English (en)
Other versions
CN113127600B (zh
Inventor
傅文武
刘清伟
刘彦军
王越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Faji Technology Development Co ltd
Original Assignee
Beijing Faji Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Faji Technology Development Co ltd filed Critical Beijing Faji Technology Development Co ltd
Priority to CN202110310499.6A priority Critical patent/CN113127600B/zh
Publication of CN113127600A publication Critical patent/CN113127600A/zh
Application granted granted Critical
Publication of CN113127600B publication Critical patent/CN113127600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种信息检索方法、装置、电子设备和计算机存储介质,所述方法包括:获取用户的法律咨询信息;识别所述法律咨询信息的第一数据,所述第一数据包括自然分词;基于预先构建的同义词库,将所述自然分词转换成第一法律关键词;所述同义词库表示法律专业词库中法律关键词对应的同义词的集合;基于所述第一法律关键词,得到所述法律咨询信息对应的法条信息。

Description

一种信息检索方法、装置、电子设备和存储介质
技术领域
本发明涉及法律应用场景下的语义识别技术领域,尤其涉及一种信息检索方法、装置、电子设备和计算机存储介质。
背景技术
在法律咨询场景中,为了让计算机读懂自然语言,通过构建两类语料的关系,即日常用语和法言法语之间的关系,达成日常用语和法言法语之间的互通。其中,词库的构建是两类语料转化的关键,特别是法律专业词库以及同义词库的构建。
相关技术中,对于词库的构建工作并未取得明显突破,使得两类语料转化的难度增加。另外,对于用户输入的法律咨询信息,计算机生成的反馈结果通常是其他律师或平台针对类似问题的解答回复,并非专业性的法律条文,降低问题咨询的准确性。
发明内容
本发明实施例提供了一种信息检索方法、装置、电子设备和计算机存储介质。
本发明实施例的技术方案是这样实现的:
本发明提供一种信息检索方法,所述方法包括:
获取用户的法律咨询信息;
识别所述法律咨询信息的第一数据,所述第一数据包括自然分词;
基于预先构建的同义词库,将所述自然分词转换成第一法律关键词;所述同义词库表示法律专业词库中法律关键词对应的同义词的集合;
基于所述第一法律关键词,得到所述法律咨询信息对应的法条信息。
在一些实施例中,所述法律专业词库的构建,包括:
获取法律法规中的法条;
从所述法条中提取所述第二法律关键词;
根据所述第二法律关键词和所述法条,构建法律专业词库。
在一些实施例中,从所述法条中提取所述第二法律关键词,包括:
采取正向最大匹配方法对所述法条进行切分,得到切分结果;
删除所述切分结果中与所述法条的主旨无关的分词,得到剩余分词;所述法条的主旨是预先设定的;
从所述剩余分词中提取所述第二法律关键词。
在一些实施例中,所述预先构建的同义词库是基于同义词模型确定的,所述同义词模型是通过以下步骤训练得到的:
采集语料信息;所述语料信息表示自然用语的语料;
将所述语料信息与法律文献语料进行合并,得到合并语料;
通过所述合并语料训练得到所述同义词模型。
在一些实施例中,所述基于所述第一法律关键词,得到所述法律咨询信息对应的法条信息,包括:
使用目标法律关键词匹配所述法律专业词库中的法律关键词,得到词簇;所述目标法律关键词包括所述第一法律关键词;所述词簇包括与所述目标法律关键词相关的法律关键词;
使用所述词簇匹配所述法律专业词库中的法条,得到条簇;所述条簇包括与所述词簇相关的法条;
基于所述条簇,得到法律咨询信息对应的法条信息。
在一些实施例中,所述第一数据还包括第三法律关键词,所述目标法律关键词还包括所述第三法律关键词。
在一些实施例中,所述使用目标法律关键词匹配所述法律专业词库中的法律关键词,得到词簇,包括:
从所述法律关键词中获取支撑词;所述支撑词表示预设的具有代表意义的关键词;
所述使用目标法律关键词匹配所述法律专业词库中的支撑词,得到词簇;所述词簇包括与所述目标法律关键词相关的支撑词。
在一些实施例中,所述方法还包括:
按照所述词簇中关键词的数量,对所述法条信息进行排序,得到排序结果;
显示所述排序结果。
本发明提供一种信息检索装置,所述装置包括:
获取模块,用于获取用户的法律咨询信息;
识别模块,用于识别所述法律咨询信息的第一数据,所述第一数据包括自然分词;
转换模块,用于基于预先构建的同义词库,将所述自然分词转换成第一法律关键词;所述同义词库表示法律专业词库中法律关键词对应的同义词的集合;
确定模块,用于基于所述第一法律关键词,得到所述法律咨询信息对应的法条信息。
在一些实施例中,所述装置还包括构建模块,所述构建模块,用于:
获取法律法规中的法条;
从所述法条中提取所述第二法律关键词;
根据所述第二法律关键词和所述法条,构建法律专业词库。
在一些实施例中,所述构建模块,用于从所述法条中提取所述第二法律关键词,包括:
采取正向最大匹配方法对所述法条进行切分,得到切分结果;
删除所述切分结果中与所述法条的主旨无关的分词,得到剩余分词;所述法条的主旨是预先设定的;
从所述剩余分词中提取所述第二法律关键词。
在一些实施例中,所述预先构建的同义词库是基于同义词模型确定的,所述同义词模型是通过以下步骤训练得到的:
采集语料信息;所述语料信息表示自然用语的语料;
将所述语料信息与法律文献语料进行合并,得到合并语料;
通过所述合并语料训练得到所述同义词模型。
在一些实施例中,所述确定模块,用于所述基于所述第一法律关键词,得到所述法律咨询信息对应的法条信息,包括:
使用目标法律关键词匹配所述法律专业词库中的法律关键词,得到词簇;所述目标法律关键词包括所述第一法律关键词;所述词簇包括与所述目标法律关键词相关的法律关键词;
使用所述词簇匹配所述法律专业词库中的法条,得到条簇;所述条簇包括与所述词簇相关的法条;
基于所述条簇,得到法律咨询信息对应的法条信息。
在一些实施例中,所述第一数据还包括第三法律关键词,所述目标法律关键词还包括所述第三法律关键词。
在一些实施例中,所述确定模块,用于所述使用目标法律关键词匹配所述法律专业词库中的法律关键词,得到词簇,包括:
从所述法律关键词中获取支撑词;所述支撑词表示预设的具有代表意义的关键词;
所述使用目标法律关键词匹配所述法律专业词库中的支撑词,得到词簇;所述词簇包括与所述目标法律关键词相关的支撑词。
在一些实施例中,所述确定模块,还用于:
按照所述词簇中关键词的数量,对所述法条信息进行排序,得到排序结果;
显示所述排序结果。
本发明提供一种电子设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述一个或多个技术方案提供的信息检索方法。
本发明提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后能够实现前述一个或多个技术方案提供的信息检索方法。
本发明实施例提供了一种信息检索方法、装置、电子设备和计算机存储介质,所述方法包括:获取用户的法律咨询信息;识别所述法律咨询信息的第一数据,所述第一数据包括自然分词;基于预先构建的同义词库,将所述自然分词转换成第一法律关键词;所述同义词库表示法律专业词库中法律关键词对应的同义词的集合;基于所述第一法律关键词,得到所述法律咨询信息对应的法条信息。可以看出,该方法通过同义词库将用户的法律咨询信息转换成法律关键字,即,将自然用语转换成法言法语,再使用转换后的法律关键字去匹配法律专业词库中的规范性法律条文,实现法律咨询服务的自动化,可以为用户提供法律咨询的成文法依据,提高问题咨询的准确性和效率。
附图说明
图1为本发明实施例的一种信息检索方法的流程图;
图2为本发明实施例的另一种信息检索方法的流程图;
图3a为本发明实施例中同义词库构建框架的结构示意图;
图3b为本发明实施例中通过同义词模型确定法律关键词同义词的结构示意图;
图4a为本发明实施例的一种信息检索的组成结构示意图;
图4b为本发明实施例的另一种信息检索的组成结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
语义识别技术是人工智能(Artificial Intelligence,AI)领域的重要分支,如何让计算机读懂自然语言,并在具体应用实现预期效果,是判断信息语义识别是否实现的标准。目前AI在语音识别和图像识别上有较成熟的应用落地,但在计算机读懂自然语言上,还处在探索阶段。
对于法律咨询场景,由于用户描述法律咨询信息的方式往往较为口语化,缺乏专业性;因而,需要构建法言法语和日常用语这两类语料的关系,达成日常用语和法言法语之间的互通。其中,词库的构建是两类语料转化的关键,特别是法言法语词库以及同义词库的构建。然而,相关技术中,对于词库的构建工作并未取得明显突破,使得两类语料转化的难度增加。另外,对于用户输入的法律咨询信息,计算机生成的反馈结果通常是其他律师或平台针对类似问题的解答回复,并非专业性的法律条文,导致反馈结果的准确性低。
针对上述技术问题,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本发明,并不用于限定本发明。另外,以下所提供的实施例是用于实施本发明的部分实施例,而非提供实施本发明的全部实施例,在不冲突的情况下,本发明记载的技术方案可以任意组合的方式实施。
需要说明的是,在本发明中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,例如的单元可以是部分处理器、部分程序或软件等等)。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,M和/或N,可以表示:单独存在M,同时存在M和N,单独存在N这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括M、N、L中的至少一种,可以表示包括从M、N和L构成的集合中选择的任意一个或多个元素。
例如,本发明提供的信息检索方法包含了一系列的步骤,但是本发明提供的信息检索方法不限于所记载的步骤,同样地,本发明提供的信息检索装置包括了一系列模块,但是本发明提供的信息检索装置不限于包括所明确记载的模块,还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。
本发明可以基于电子设备实现,这里,电子设备可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***,等等。
电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***可以在分布式云计算环境中实施,在分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
基于上述记载的应用场景,提出以下各实施例。
在本发明的一些实施例中,信息检索方法可以利用信息检索装置中的处理器实现,上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(DigitalSignal Processing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。
图1为本发明实施例的一种信息检索方法的流程图,如图1所示,该方法包括:
步骤100:获取用户的法律咨询信息。
本发明实施例中,法律咨询信息可以表示用户想要进行法律咨询的相关信息;这里,对法律咨询信息的表现形式不作限定,可以通过提问的表现形式,也可以通过其它表现形式。例如,用户的法律咨询信息可以为:我国男女的结婚年纪是多少,也可以为:我国男女的结婚年纪。
在一种实施方式中,对于法律咨询信息包含的字数不作限定;这里,法律咨询信息中的内容可以由中文字符组成,也可以由英文字符组成,或者其它不同语言的混合字符共同组成;如果法律咨询信息中的内容为中文字符之外的其它字符,则先将法律咨询信息中的其它字符翻译成对应的中文字符,再进行后续处理。
在一些实施例中,法律咨询信息涉及到的法律条文可以为法律法规中不同类型法律文件中的任意一条法律条文;例如,劳动合同法、环境保护法、婚姻法等法律文件中的法律条文。
本发明实施例中,对于获取用户的法律咨询信息的方式,可以通过用户输入的方式,也可以通过其它方式,本发明实施例不作限定。
在一些实施例中,通过用户输入的方式获取法律咨询信息的实现方式可以是,用户直接通过法律咨询设备的输入框输入法律咨询信息,还可以是用户在常用法律咨询信息列表中直接选取对应的法律咨询信息。
步骤101:识别法律咨询信息的第一数据,第一数据包括自然分词。
本发明实施例中,在获取到用户的法律咨询信息后,对法律咨询信息进行识别处理;其中,识别处理可以包括:使用分词工具或分词算法对法律咨询信息进行分词处理,得到分词结果;对分词结果中各个分词进行识别处理,得到识别结果,根据识别结果,确定法律咨询信息的自然分词。
这里,自然分词的识别过程可以包括以下步骤:创建自然用语词库,使用结巴分词算法对自然用语词库进行分词,得到对应的分词结果,将该分词结果与法律咨询信息的分词结果进行匹配,得到法律咨询信息的自然分词。
在一些实施例中,使用的分词工具或分词算法可以根据实际应用场景进行设置,本发明实施例不作限制;例如,可以是pkuseg分词工具、结巴分词算法等。
在法律咨询过程中,用户通常使用自然语言进行法律咨询;由于法律咨询信息中包含用户日常使用的自然语言;因而,在对法律咨询信息分词得到的分词结果中可以识别到对应的自然分词。
在一种实施方式中,假设用户的法律咨询信息为:我国男女的结婚年纪是多少,得到初始分词结果为:我/国/男/女/的/结婚/年纪/是/多少;可以根据预设规则对初始分词结果进行处理,得到最终分词结果为:男/女/结婚/年纪;通过识别处理,可以识别“男”、“女”、“年纪”是自然分词。
在一种实施方式中,上述预设规则可以用于删除初始分词结果中的连词、介词、以及与法律咨询信息主要内容无关的名词或动词;这里,预设规则可以根据实际应用场景对应设置,本发明实施例不作限定。
步骤102:基于预先构建的同义词库,将自然分词转换成第一法律关键词;同义词库表示法律专业词库中法律关键词对应的同义词的集合。
本发明实施例中,法律关键词表示法律专业词库中所有法律关键词的总称;在构建同义词库之前,首先需要构建法律专业词库,再确定出法律专业词库中的法律关键词,并计算法律关键词对应的同义词,最后将法律关键词对应的同义词的集合放入同义词库中,得到同义词库。
对于构建法律专业词库的实现方式,在一些实施例中,可以获取法律法规中的法条;从法条中提取第二法律关键词;根据第二法律关键词和法条,构建法律专业词库。
本发明实施例中,第一法律关键词为对自然分词转换得到的法律关键词;第二法律关键词为法律专业词库中的法律关键词。
这里,法律法规可以包括中华人民共和国现行有效的法律、行政法规、司法解释、地方法规、地方规章、部门规章及其他规范性文件以及对于法律法规的不时修改和补充。法条表示法律条文,是法律法规中具体规定的条款;例如:婚姻法中第一条、第二条、第三条等条款对应的内容均可以称为法条。
在一种实施方式中,对于获取法律法规中法条的方式,可以通过用户输入的方式,也可以通过其它方式,本发明实施例不作限定。
在一种实施方式中,从法条中提取第二法律关键词,可以包括:采取正向最大匹配方法对法条进行切分,得到切分结果;删除切分结果中与法条的主旨无关的分词,得到剩余分词;法条的主旨是预先设定的;从剩余分词中提取第二法律关键词。
这里,正向最大匹配方法按照从左到右的顺序对法条中每个词进行匹配,匹配的词越长越好,再通过切分得到切分结果。例如“中国科学院计算研究所”,按照正向最大匹配方法得到的切分结果是“中国科学院/计算研究所”,而不是“中国/科学院/计算/研究所”。
本发明实施例中,在得到法律法规中法条的切分结果后,可以删除切分结果中与该法条的主旨无关的分词;这里,法条的主旨是根据该法条对应的主题词进行预先设定的;其中,主题词表示能够直接概括法条主要内容的关键词;例如:在法条为法律责任类条款的情况下,主题词可以为:XX的法律责任或违反XX的法律责任;在法条为适用范围类条款的情况下,主题词可以为:XX的适用范围;对于主题词的选取可以根据实际应用场景进行确定,本发明实施例不作限定。
这里,在对切分结果中与法条的主旨无关的分词进行删除时,还可以删除分词结果中的连词和介词,得到剩余分词。
在一种实施方式中,以《中华人民共和国环境噪声污染防治法》第五条为例。第五条【地方各级人民政府】在【制定城乡建设规划】时,应当充分考虑【建设项目】和【区域开发、改造】所产生的【噪声】对【周围生活环境】的【影响】,【统筹规划】,【合理安排】【功能区和建设布局】,【防止】或者【减轻】【环境噪声污染】;该示例中,括号内的分词表示剩余分词;可以看出,通过删除上述法条中与法条主旨无关的名词、动词以及连词、介词后,可以得到剩余分词的同时减少不必要的分词。
本发明实施例中,在得到剩余分词后,使用应提尽提规则从剩余分词中提取第二法律关键词。
对于提取第二法律关键词的实现方式,在一种实施方式中,如果剩余分词中的分词为基本词;其中,基本词是由单个语素构成的词;则将该基本词直接作为第二法律关键词,例如,上述剩余分词中的“影响”、“防止”等都属于基本词;如果剩余分词中的分词为复合词,则将剩余分词中的复合词拆分为基本词;其中,复合词是由两个或两个以上的语素构成的词;例如,上述剩余分词中的“地方各级人民政府”、“建设项目”等都属于复合词。
这里,在对剩余分词中的复合词进行拆分的过程中,需要注意排除不利于检索的基本词和曲解词义的基本词;例如,将“个体承包户”拆分为“个体-承包-承包户-个体承包”,由于这样拆分会曲解原词的意义,因而,可以不进行拆分,可以直接将复合词“个体承包户”作为第二法律关键词。
本发明实施例中,在提取到法律法规中法条的第二法律关键词后,根据第二法律关键词和法律法规中的法条构建法律专业词库。
在一些实施例中,在得到法律专业词库后,确定法律专业词库中第二法律关键词对应的同义词;这里,可以先通过开源工具gensim计算法律专业词库中第二法律关键词对应的同义词;由于gensim只能计算出部分第二法律关键词对应的同义词;对于剩余第二法律关键词,则基于预先训练的同义词模型确定它们对应的同义词;这里,也可以不通过gensim,而直接基于同义词模型确定法律专业词库中第二法律关键词对应的同义词。
在一些实施例中,同义词模型是通过以下步骤训练得到的:采集语料信息;语料信息表示自然用语的语料;将语料信息与法律文献语料进行合并,得到合并语料;通过合并语料训练得到同义词模型。
在一种实施方式中,语料信息可以是从互联网上公开的法律咨询信息和法律回复信息中采集得到的,也可以是人工直接输入的;语料信息可以是自然用语中的入口词语料,也可以是自然用语中的非入口词语料;其中,入口词用于引出与该词类似的一系列相关词。
在一种实施方式中,由于第二法律关键词通常情况下会包括复合词,若基于同义词模型未确定出某个复合词对应的同义词时,则将该复合词拆分后再使用同义词模型确定该复合词对应的同义词;例如,将第二法律关键词“债权的期限”拆分为“债权期限”后再确定其对应的同义词。
本发明实施例中,通过将采集到的语料信息与法律文献语料进行合并,可以将原有的语料进行扩充;使用扩充后的语料对同义词模型进行训练,可以确保法律专业词库中的第二法律关键词均获取到对应的同义词;其中,法律文献语料可以包括法律、行政法规、地方性法规、地方政府规章规章和规范性文件语料。
在一种实施方式中,同义词模型训练的实现方式可以为:首先对合并语料进行分词,得到各个分词;再基于gensim的word2vec模型对各个分词进行训练,得到各个分词的同义词结果;调整word2vec模型的网络参数,直到各个分词的同义词结果与各个分词的相似度均满足设定条件,则认为同义词模型训练完成。这里,合并语料可以包括:提问语料、回复语料以及法律文献语料。
在一种实施方式中,提问语料表示与口语性较强且规范性较弱的表述;例如,我是一公司的小股东,现在想把股权转让出去,但没人愿意接手怎么办。回复语料表示具有一定口语性,会出现部分法律专业词的表述,规范性较强;例如,建议协商,协商不成可起诉维权。法律文献语料表示法律文件的书面语料,表述严谨,规范性较强;例如,第七十一条:有限责任公司的股东之间可以相互转让其全部或者部分股权。股东向股东以外的人转让股权,应当经其他股东过半数同意。股东应就其股权转让事项书面通知其他股东征求同意,其他股东自接到书面通知之日起满三十日未答复的,视为同意转让。其他股东半数以上不同意转让的,不同意的股东应当购买该转让的股权;不购买的,视为同意转让。
步骤103:基于第一法律关键词,得到法律咨询信息对应的法条信息。
本发明实施例中,在得到第一法律关键词后,使用第一法律关键词匹配法律专业词库中对应的法条信息;这里,法条信息表示与法律咨询信息相关的多个法条的集合。
在一些实施例中,基于第一法律关键词,得到法律咨询信息对应的法条信息,可以包括:使用目标法律关键词匹配法律专业词库中的第二法律关键词,得到词簇;目标法律关键词包括第一法律关键词;词簇包括与目标法律关键词相关的第二法律关键词;使用词簇匹配法律专业词库中的法条,得到条簇;条簇包括与词簇相关的法条;基于条簇,得到法律咨询信息对应的法条信息。
在一些实施例中,第一数据还包括第三法律关键词,目标法律关键词还包括第三法律关键词。
本发明实施例中,首先通过对法律咨询信息进行分词处理,得到分词结果;再对分词结果进行识别处理,得到第一数据;这里,第一数据可以包括自然分词,还可以包括第三法律关键词;例如,分词结果为:男/女/结婚/年纪;通过识别处理,除了识别“男”、“女”、“年纪”是自然分词外,还可以识别“结婚”是第三法律关键词。
下面通过图2对上述得到法律咨询信息对应的法条信息的过程进行说明。图2为本发明实施例的另一种信息检索方法的流程图,如图2所示,该方法包括:
首先,用户通过自然语言提问的方式进行法律咨询,从该法律咨询中获取法律咨询信息;对法律咨询信息进行分词处理,得到分词结果A\b\c;经过识别处理,确定b\c为自然分词,A为第三法律关键词;通过同义词库,将自然分词b\c转换成第一法律关键词B\C;通过第三法律关键词A和第一法律关键词B\C匹配法律专业词库中的第二法律关键词,得到词簇A\B\C\D\E;其中D和E分别表示与第三法律关键词A、第一法律关键词B、C相关的第二法律关键词;使用词簇匹配法律专业词库中的法条,得到条簇,分别为条簇1、条簇2、条簇3和条簇4和其它条簇;其中,条簇1包括第三法律关键词A和第一法律关键词B\C,条簇2包括第三法律关键词A和第一法律关键词B,条簇3包括第三法律关键词A和第一法律关键词C,条簇4包括第一法律关键词B\C;最后,基于条簇1、条簇2、条簇3和条簇4和其它条簇,得到法律咨询信息对应的法条信息。
在一些实施例中,使用目标法律关键词匹配法律专业词库中的第二法律关键词,得到词簇,可以包括:从第二法律关键词中获取支撑词;支撑词表示预设的具有代表意义的关键词;使用目标法律关键词匹配法律专业词库中的支撑词,得到词簇;词簇包括与目标法律关键词相关的支撑词。
本发明实施例中,可以使用目标法律关键词优先匹配法律专业词库中的支撑词,根据匹配得到的支撑词,确定词簇。由于支撑词是第二法律关键词中具有代表意义的关键词,即,在目标法律关键词的真实含义方面,支撑词与第二法律关键词中的其它关键词相比,具有更高的相关性。
在一些实施例中,词簇可以由支撑词组成,也可以由第二法律关键词中的关键词组成,还可以由支撑词和第二法律关键词中的其它关键词共同组成。
在一些实施例中,方法还包括:可以按照词簇中关键词的数量,对法条信息进行排序,得到排序结果;显示排序结果。
本发明实施例中,法条信息表示与法律咨询信息相关的多个条簇的集合,这里每个条簇对应每个法条;由于词簇中包括多个第二法律关键词,而通过词簇与法律专业词库匹配得到的条簇中也包括词簇中的第二法律关键词;这里,不同条簇中包括的第二法律关键词的数量可能相同,也可能不同;可以按照词簇中第二关键词的数量从多到少的顺序对不同条簇进行排序,得到排序结果,并对排序结果进行可视化展示。
本发明实施例提供了一种信息检索方法、装置、电子设备和计算机存储介质,方法包括:获取用户的法律咨询信息;识别法律咨询信息的第一数据,第一数据包括自然分词;基于预先构建的同义词库,将自然分词转换成第一法律关键词;同义词库表示法律专业词库中法律关键词对应的同义词的集合;基于第一法律关键词,得到法律咨询信息对应的法条信息。可以看出,该方法通过同义词库将用户的法律咨询信息转换成法律关键字,即,将自然用语转换成法言法语,再使用转换后的法律关键字去匹配法律专业词库中的规范性法律条文,实现法律咨询服务的自动化,可以为用户提供法律咨询的成文法依据,提高问题咨询的准确性和效率。
为了能够更加体现本发明的目的,在本发明上述实施例的基础上,进行进一步的举例说明。
图3a为本发明实施例中同义词库构建框架的结构示意图,如图3a所示,从计算、配置和应用三个方面对同义词库进行说明;其中,在计算方面:首先通过gensim计算法律专业词库中法律关键词的同义词,经测试,法律专业词库中包括大约15万法律关键词,通过gensim可以计算出大约3万法律关键词的同义词结果,剩余大约12万词无同义词结果;然后,使用预先训练完成的同义词模型,计算剩余大约12万法律关键词的同义词。
在对同义词模型进行训练时,首先采集语料信息,可以采集互联网上公开的法律咨询信息;将语料信息与法律文献语料进行合并,得到合并语料;通过合并语料训练得到同义词模型。
图3b为本发明实施例中通过同义词模型确定法律关键词同义词的结构示意图,如图3a和图3b所示,在得到同义词模型后,通过法律专业词库中的法律关键词匹配同义词,并确定是否得到匹配结果;如果得到匹配结果,则说明法律关键词可以是未经转换的法律关键词,也可以是自然用语中的入口词或自然用语中的非入口词转换后的法律关键词。如果未得到匹配结果,则说明法律关键词可能为长语串或复合词,需要对该法律关键词拆分后再确定同义词。
在一种实施方式中,可以通过词库校验软件检验法律关键词对应的同义词结果。
如图3a所示,在配置方面,同义词库可以在原有法律专业词库数据结构的基础上进行关键词的扩充;即,将法条、法律关键词、支撑词扩充为法条、法律关键词、支撑词和支撑词对应的近义词;这里,法律关键词包括支撑词;可以区分支撑词以及其它法律关键词的权重。
如图3a所示,在应用方面,同义词库可以用于法律自服务平台应用程序(Application,APP)中解决法律咨询场景下的问题,提高咨询的准确性和效率;也可以用于有权法律词典进行信息检索。
图4a为本发明实施例的一种信息检索的组成结构示意图,如图4a所示,装置包括:获取模块400、识别模块401、转换模块402和确定模块403,其中:
获取模块400,用于获取用户的法律咨询信息;
识别模块401,用于识别法律咨询信息的第一数据,第一数据包括自然分词;
转换模块402,用于基于预先构建的同义词库,将自然分词转换成第一法律关键词;同义词库表示法律专业词库中法律关键词对应的同义词的集合;
确定模块403,用于基于第一法律关键词,得到法律咨询信息对应的法条信息。
图4b为本发明实施例的另一种信息检索的组成结构示意图,如图4b所示,装置还包括构建模块404,构建模块404,用于:
获取法律法规中的法条;
从法条中提取第二法律关键词;
根据第二法律关键词和法条,构建法律专业词库。
在一些实施例中,构建模块404,用于从法条中提取第二法律关键词,包括:
采取正向最大匹配方法对法条进行切分,得到切分结果;
删除切分结果中与法条的主旨无关的分词,得到剩余分词;法条的主旨是预先设定的;
从剩余分词中提取第二法律关键词。
在一些实施例中,预先构建的同义词库是基于同义词模型确定的,同义词模型是通过以下步骤训练得到的:
采集语料信息;语料信息表示自然用语的语料;
将语料信息与法律文献语料进行合并,得到合并语料;
通过合并语料训练得到同义词模型。
在一些实施例中,确定模块403,用于基于第一法律关键词,得到法律咨询信息对应的法条信息,包括:
使用目标法律关键词匹配法律专业词库中的法律关键词,得到词簇;目标法律关键词包括第一法律关键词;词簇包括与目标法律关键词相关的法律关键词;
使用词簇匹配法律专业词库中的法条,得到条簇;条簇包括与词簇相关的法条;
基于条簇,得到法律咨询信息对应的法条信息。
在一些实施例中,第一数据还包括第三法律关键词,目标法律关键词还包括第三法律关键词。
在一些实施例中,确定模块403,用于使用目标法律关键词匹配法律专业词库中的法律关键词,得到词簇,包括:
从法律关键词中获取支撑词;支撑词表示预设的具有代表意义的关键词;
使用目标法律关键词匹配法律专业词库中的支撑词,得到词簇;词簇包括与目标法律关键词相关的支撑词。
在一些实施例中,确定模块403,还用于:
按照词簇中关键词的数量,对法条信息进行排序,得到排序结果;
显示排序结果。
在实际应用中,上述获取模块400、识别模块401、转换模块402、确定模块403和构建模块404均可以由位于电子设备中的处理器实现,该处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本实施例中的一种信息检索方法对应的计算机程序指令可以被存储在光盘、硬盘、U盘等存储介质上,当存储介质中的与一种信息检索方法对应的计算机程序指令被一电子设备读取或被执行时,实现前述实施例的任意一种信息检索方法。
基于前述实施例相同的技术构思,参见图5,其示出了本发明实施例提供的电子设备500,可以包括:存储器501和处理器502;其中,
存储器501,用于存储计算机程序和数据;
处理器502,用于执行存储器中存储的计算机程序,以实现前述实施例的任意一种信息检索方法。
在实际应用中,上述存储器501可以是易失性存储器(volatile memory),例如RAM;或者非易失性存储器(non-volatile memory),例如ROM、快闪存储器(flash memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器502提供指令和数据。
上述处理器502可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的法律咨询***,用于实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
在一些实施例中,本发明实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述
本发明所提供的各方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本发明所提供的各产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本发明所提供的各方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程信息检索设备的处理器以产生一个机器,使得通过计算机或其它可编程信息检索设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其它可编程信息检索设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (11)

1.一种信息检索方法,其特征在于,所述方法包括:
获取用户的法律咨询信息;
识别所述法律咨询信息的第一数据,所述第一数据包括自然分词;
基于预先构建的同义词库,将所述自然分词转换成第一法律关键词;所述同义词库表示法律专业词库中法律关键词对应的同义词的集合;
基于所述第一法律关键词,得到所述法律咨询信息对应的法条信息。
2.根据权利要求1所述的方法,其特征在于,所述法律专业词库的构建,包括:
获取法律法规中的法条;
从所述法条中提取第二法律关键词;
根据所述第二法律关键词和所述法条,构建法律专业词库。
3.根据权利要求2所述的方法,其特征在于,从所述法条中提取所述第二法律关键词,包括:
采取正向最大匹配方法对所述法条进行切分,得到切分结果;
删除所述切分结果中与所述法条的主旨无关的分词,得到剩余分词;所述法条的主旨是预先设定的;
从所述剩余分词中提取所述第二法律关键词。
4.根据权利要求1所述的方法,其特征在于,所述预先构建的同义词库是基于同义词模型确定的,所述同义词模型是通过以下步骤训练得到的:
采集语料信息;所述语料信息表示自然用语的语料;
将所述语料信息与法律文献语料进行合并,得到合并语料;
通过所述合并语料训练得到所述同义词模型。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一法律关键词,得到所述法律咨询信息对应的法条信息,包括:
使用目标法律关键词匹配所述法律专业词库中的法律关键词,得到词簇;所述目标法律关键词包括所述第一法律关键词;所述词簇包括与所述目标法律关键词相关的法律关键词;
使用所述词簇匹配所述法律专业词库中的法条,得到条簇;所述条簇包括与所述词簇相关的法条;
基于所述条簇,得到法律咨询信息对应的法条信息。
6.根据权利要求5所述的方法,其特征在于,所述第一数据还包括第三法律关键词,所述目标法律关键词还包括所述第三法律关键词。
7.根据权利要求5所述的方法,其特征在于,所述使用目标法律关键词匹配所述法律专业词库中的法律关键词,得到词簇,包括:
从所述法律专业词库中的法律关键词中获取支撑词;所述支撑词表示预设的具有代表意义的关键词;
使用目标法律关键词匹配所述法律专业词库中的支撑词,得到词簇;所述词簇包括与所述目标法律关键词相关的支撑词。
8.根据权利要求5至7任一项所述的方法,其特征在于,所述方法还包括:
按照所述词簇中关键词的数量,对所述法条信息进行排序,得到排序结果;
显示所述排序结果。
9.一种信息检索装置,其特征在于,所述装置包括:
获取模块,用于获取用户的法律咨询信息;
识别模块,用于识别所述法律咨询信息的第一数据,所述第一数据包括自然分词;
转换模块,用于基于预先构建的同义词库,将所述自然分词转换成第一法律关键词;所述同义词库表示法律专业词库中法律关键词对应的同义词的集合;
确定模块,用于基于所述第一法律关键词,得到所述法律咨询信息对应的法条信息。
10.一种电子设备,其特征在于,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至8任一项所述的方法。
11.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。
CN202110310499.6A 2021-03-23 2021-03-23 一种信息检索方法、装置、电子设备和存储介质 Active CN113127600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110310499.6A CN113127600B (zh) 2021-03-23 2021-03-23 一种信息检索方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110310499.6A CN113127600B (zh) 2021-03-23 2021-03-23 一种信息检索方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113127600A true CN113127600A (zh) 2021-07-16
CN113127600B CN113127600B (zh) 2024-04-26

Family

ID=76774058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110310499.6A Active CN113127600B (zh) 2021-03-23 2021-03-23 一种信息检索方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113127600B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779230A (zh) * 2021-09-15 2021-12-10 广州网律互联网科技有限公司 一种基于法条理解的法条推荐方法、***及设备
CN117909485A (zh) * 2024-03-19 2024-04-19 武汉百智诚远科技有限公司 基于大语言模型的法律咨询智能交互方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798091A (zh) * 2017-10-23 2018-03-13 金蝶软件(中国)有限公司 一种数据爬取的方法及其相关设备
CN111753071A (zh) * 2020-06-28 2020-10-09 中山市臻龙信息科技发展有限公司 基于人工智能的法律咨询交互方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798091A (zh) * 2017-10-23 2018-03-13 金蝶软件(中国)有限公司 一种数据爬取的方法及其相关设备
CN111753071A (zh) * 2020-06-28 2020-10-09 中山市臻龙信息科技发展有限公司 基于人工智能的法律咨询交互方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779230A (zh) * 2021-09-15 2021-12-10 广州网律互联网科技有限公司 一种基于法条理解的法条推荐方法、***及设备
CN113779230B (zh) * 2021-09-15 2024-03-19 广州网律互联网科技有限公司 一种基于法条理解的法条推荐方法、***及设备
CN117909485A (zh) * 2024-03-19 2024-04-19 武汉百智诚远科技有限公司 基于大语言模型的法律咨询智能交互方法及***
CN117909485B (zh) * 2024-03-19 2024-05-24 武汉百智诚远科技有限公司 基于大语言模型的法律咨询智能交互方法及***

Also Published As

Publication number Publication date
CN113127600B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN112131863B (zh) 一种评论观点主题抽取方法、电子设备及存储介质
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112131350A (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN113168499A (zh) 检索专利文档的方法
CN115795061B (zh) 一种基于词向量和依存句法的知识图谱构建方法及***
CN113196277A (zh) 用于检索自然语言文档的***
CN113127600A (zh) 一种信息检索方法、装置、电子设备和存储介质
CN110020024B (zh) 一种科技文献中链接资源的分类方法、***、设备
CN114942994A (zh) 文本分类方法、文本分类装置、电子设备及存储介质
Al-Azzawy et al. Arabic words clustering by using K-means algorithm
Venugopal-Wairagade et al. Novel language resources for Hindi: an aesthetics text corpus and a comprehensive stop lemma list
WO2009113494A1 (ja) Wwwを情報源として記述的な回答が可能な質問応答システム
Dunn et al. Language-independent ensemble approaches to metaphor identification
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
CN113868431A (zh) 面向金融知识图谱的关系抽取方法、装置及存储介质
CN114462378A (zh) 科技项目查重方法、***、计算机设备及存储介质
Purves et al. Analysing environmental narratives computationally
CN111368068A (zh) 一种基于词性特征和语义增强的短文本主题建模方法
Vieira et al. Digital Humanities and Portuguese Processing: a research pathway
Shamma et al. Information extraction from arabic law documents
Matthew Using technology recycling to develop a named entity recogniser for Afrikaans
CN114722194B (zh) 一种基于摘要生成算法的突发事件时间序列自动构建方法
Dias et al. Privacy in text documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant