CN107784478B - 行政机构信息的处理方法和装置 - Google Patents

行政机构信息的处理方法和装置 Download PDF

Info

Publication number
CN107784478B
CN107784478B CN201610792996.3A CN201610792996A CN107784478B CN 107784478 B CN107784478 B CN 107784478B CN 201610792996 A CN201610792996 A CN 201610792996A CN 107784478 B CN107784478 B CN 107784478B
Authority
CN
China
Prior art keywords
keyword
information
administrative
keywords
keyword set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610792996.3A
Other languages
English (en)
Other versions
CN107784478A (zh
Inventor
石鹏
贾凯
王福伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610792996.3A priority Critical patent/CN107784478B/zh
Publication of CN107784478A publication Critical patent/CN107784478A/zh
Application granted granted Critical
Publication of CN107784478B publication Critical patent/CN107784478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种行政机构信息的处理方法和装置。其中,该处理方法包括:对目标文书进行分词处理,得到多个词语;从多个词语中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集;将第一关键词集中的关键词和第二关键词集中的关键词匹配成关键词对,将匹配得到的关键词对作为目标文书的行政机构信息。本发明解决了目前的提取行政机构信息的方式提取信息不完整的技术问题。

Description

行政机构信息的处理方法和装置
技术领域
本发明涉及信息处理领域,具体而言,涉及一种行政机构信息的处理方法和装置。
背景技术
现有技术中,在从司法案件文书中提取行政机构信息时,可以从行政司法文书的当事人信息中进行提取,该方式能在大多数场景下满足基本的涉案行政机构信息提取需求。但由于行政司法文书目前没有标准写作规范,案件涉及的行政机构信息不光体现在案件当事人信息中,也会存在于案情描述信息中。因为在案件描述过程中,会有大量的相似行政机构信息,在提取存在于案情描述信息中的涉案行政机构信息时,将导致行政机构信息的错误提取或遗漏。因此,目前采用的提取行政机构信息的方式存在信息提取不完整的缺陷,此外,该方式获取的涉案行政机构的地域信息不一定会体现行政级别,导致最终分级错误。
针对目前的提取行政机构信息的方式提取信息不完整的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种行政机构信息的处理方法和装置,以至少解决目前的提取行政机构信息的方式提取信息不完整的技术问题。
根据本发明实施例的一个方面,提供了一种行政机构信息的处理方法,该处理方法包括:对目标文书进行分词处理,得到多个词语;从所述多个词语中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集;将所述第一关键词集中的关键词和所述第二关键词集中的关键词匹配成关键词对,将匹配得到的所述关键词对作为所述目标文书的行政机构信息。
进一步地,将所述第一关键词集中的关键词和所述第二关键词集中的关键词匹配成关键词对包括:以所述第一关键词集中的第一关键词为基准,利用所述第二关键词集中各个关键词与所述第一关键词的词间距离,确定出与所述第一关键词成对的第二关键词,将所述第一关键词和所述第二关键词的组合确定为所述关键词对。
进一步地,利用所述第二关键词集中各个关键词与所述第一关键词的词间距离,确定出与所述第一关键词成对的第二关键词包括:从所述第二关键词集中,提取在所述目标文书中出现在所述第一关键词之后词间距离最近的关键词作为所述第二关键词。
进一步地,在将匹配得到的所述关键词对作为所述目标文书的行政机构信息之后,所述方法还包括:采用正则匹配方式,将所述行政机构信息中的第一关键词划分至预先定义的行政级别等级中;将所述第一关键词划分至的行政级别等级,确定为对应的行政机构信息的行政级别等级。
进一步地,在将匹配得到的所述关键词对作为所述目标文书的行政机构信息之前或之后,所述方法还包括:采用全字匹配的方式,从所述目标文书中提取中央行政机构信息。
进一步地,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集包括:获取预先定义的第一特征和第二特征,其中,所述第一特征为用于表征地域信息的特征,所述第二特征为用于表征行政机构名称信息的特征;对所述多个词语进行特征匹配,得到所述第一关键词集和所述第二关键词集,其中,具有所述第一特征的词语属于所述第一关键词集,具有所述第二特征的词语属于所述第二关键词集。
根据本发明实施例的另一方面,还提供了一种行政机构信息的处理装置,该处理装置包括:分词单元,用于对目标文书进行分词处理,得到多个词语;获取单元,用于从所述多个词语中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集;处理单元,用于将所述第一关键词集中的关键词和所述第二关键词集中的关键词匹配成关键词对,将匹配得到的所述关键词对作为所述目标文书的行政机构信息。
进一步地,所述处理单元包括:确定模块,用于以所述第一关键词集中的第一关键词为基准,利用所述第二关键词集中各个关键词与所述第一关键词的词间距离,确定出与所述第一关键词成对的第二关键词,将所述第一关键词和所述第二关键词的组合确定为所述关键词对。
进一步地,所述确定模块包括:提取子模块,用于从所述第二关键词集中,提取在所述目标文书中出现在所述第一关键词之后词间距离最近的关键词作为所述第二关键词。
进一步地,所述装置还包括:等级划分单元,用于在将匹配得到的所述关键词对作为所述目标文书的行政机构信息之后,采用正则匹配方式,将所述行政机构信息中的第一关键词划分至预先定义的行政级别等级中;确定单元,用于将所述第一关键词划分至的行政级别等级,确定为对应的行政机构信息的行政级别等级。
在本发明实施例中,对目标文书进行分词处理,从分词得到的多个词语中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集,并将第一关键词集中的关键词和第二关键词集中的关键词匹配成关键词对,将匹配得到的关键词对作为目标文书的行政机构信息。通过上述实施例,将具有地域信息特征的关键词和具有行政机构名称信息特征的关键词匹配成关键词对,由于一个关键词对可以作为一个完整的涉案行政机构信息,因此从目标文书中获取到所有的关键词对,并将关键词对作为目标文书的行政机构信息,从而可以得到目标文书所涉及到的所有行政机构信息,解决了目前的提取行政机构信息的方式提取信息不完整的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种行政机构信息的处理方法的流程图;
图2是根据本发明实施例的一种可选的行政机构信息的处理方法的流程图;
图3是根据本发明实施例的一种行政机构信息的处理装置的示意图;
图4是根据本发明实施例的一种可选的行政机构信息的处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种行政机构信息的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种行政机构信息的处理方法的流程图,如图1所示,该处理方法可以包括如下步骤:
步骤S102,对目标文书进行分词处理,得到多个词语;
步骤S104,从多个词语中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集;
步骤S106,将第一关键词集中的关键词和第二关键词集中的关键词匹配成关键词对,将匹配得到的关键词对作为目标文书的行政机构信息。
采用本发明实施例,对目标文书进行分词处理,从分词得到的多个词语中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集,并将第一关键词集中的关键词和第二关键词集中的关键词匹配成关键词对,将匹配得到的关键词对作为目标文书的行政机构信息。通过上述实施例,将具有地域信息特征的关键词和具有行政机构名称信息特征的关键词匹配成关键词对,由于一个关键词对可以作为一个完整的涉案行政机构信息,因此从目标文书中获取到所有的关键词对,并将关键词对作为目标文书的行政机构信息,从而可以得到目标文书所涉及到的所有行政机构信息,解决了目前的提取行政机构信息的方式提取信息不完整的技术问题。
上述的目标文书可以为司法行政文书。
具体地,通过分词器对司法行政文书中的当事人信息和案情描述信息进行分词处理,得到多个词语,从多个词语中获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集,也即,获取到的第一关键词集中的关键词具有地域信息特征,获取到的第二关键词集中的关键词具有行政机构名称信息特征,将具有地域信息特征的关键词和具有行政机构名称信息特征的关键词进行匹配,得到关键词对,一个关键词对作为一个完整的涉案行政机构信息,在从司法行政文书中得到多个关键词对之后,可以将多个关键词对作为司法行政文书所涉及到的所有行政机构信息。
通过上述实施例,根据司法行政文书涉及的行政机构信息特征,将具体的涉案行政机构信息分为地域信息和行政机构名称信息两部分,并利用地域信息特征和行政机构名称信息特征组成信息对(即上述的关键词对),并且定义了不同信息特征之间距离最小作为成对信息的规则,在司法行政文书的当事人信息和案情描述信息中检索所有的成对信息,以此来获取该目标文书所涉及到的所有行政机构信息,从而解决了目前的提取行政机构信息的方式提取信息不完整的问题。
在本发明的上述实施例中,将第一关键词集中的关键词和第二关键词集中的关键词匹配成关键词对包括:以第一关键词集中的第一关键词为基准,利用第二关键词集中各个关键词与第一关键词的词间距离,确定出与第一关键词成对的第二关键词,将第一关键词和第二关键词的组合确定为关键词对。
具体地,通过分词器对司法行政文书中的当事人信息和案情描述信息进行分词处理,得到多个词语,从多个词语中获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集,以第一关键词集中的第一关键词为基准,获取第二关键词集中的各个关键词与第一关键词之间的词间距离,如可以通过两个关键词之间的字符数来表示词间距离,也即以具有地域信息特征的关键词为基准,获取该具有地域信息特征的关键词与各个具有行政机构名称信息特征的关键词之间的词间距离,通过获取得到的多个词间距离,确定出该具有地域信息特征的关键词与具有行政机构名称信息特征的关键词匹配成的关键词对,一个关键词对作为一个完整的行政机构信息,通过上述步骤在从司法行政文书中得到多个关键词对之后,可以将多个关键词对作为司法行政文书所涉及到的所有行政机构信息。
通过上述实施例,利用具有地域信息特征的关键词与具有行政机构名称信息特征的关键词之间的词间距离,可以确定出关键词对,从而可以将关键词对作为司法行政文书的行政机构信息,以保证获取到行政机构信息的完整。
在本发明的上述实施例中,利用第二关键词集中各个关键词与第一关键词的词间距离,确定出与第一关键词成对的第二关键词包括:从第二关键词集中,提取在目标文书中出现在第一关键词之后词间距离最近的关键词作为第二关键词。
具体地,以第一关键词集中的第一关键词为基准,也即以具有地域信息特征的关键词为基准,提取第二关键词集中出现在该第一关键词之后的具有行政机构名称信息特征的关键词,并基于最小距离匹配规则,也即从该第一关键词之后的具有行政机构名称信息特征的关键词中确定出与该第一关键词之间的词间距离最近的关键词,即为确定出与该第一关键词匹配成关键词对的第二关键词,该第一关键词和确定出的第二关键词的组合为关键词对。一个关键词对作为一个完整的行政机构信息,通过上述步骤在从司法行政文书中得到多个关键词对之后,可以将多个关键词对作为司法行政文书所涉及到的所有行政机构信息。
下面以“深圳市南山区工商管理局”为例详述本发明的上述实施例,如,通过分词器将“深圳市南山区工商管理局”进行分词处理,得到三个词语:深圳市,南山区,工商管理局,其中,深圳市和南山区两个词语属于第一关键词集中的关键词,工商管理局属于第二关键词集中的关键词,可以通过词语之间的字符数来确定出深圳市与工商管理局两个关键词之间的词间距离,并确定出南山区与工商管理局两个关键词之间的词间距离,通过词间距离可以确定出南山区与工商管理局这两个关键词之间的距离更接近,将南山区和工商管理局这两个关键词作为一个关键词对,该关键词对作为一个完整的行政机构信息。
下面以一段文本信息“XXX(YYYY((ZZZ)OO(XX)”为例,类比性的详述本发明的上述实施例。对上述文本信息进行分析,很容易的可以得出上述文本信息中包含两对成对的小括号,也不会把左括号与错误的右括号匹配为一对。与此非常类似,对本发明的上述实施例进行类比描述,将具有地域信息特征的关键词类比为左括号(,具有行政机构名称信息特征的关键词类比为右括号),其他不具有地域信息特征和行政机构名称信息特征的关键词可以类比为X,Y,Z,O等,每一对最小距离的左右括号,必然是一对完整的括号,也即最小距离的具有地域信息特征的关键词与具有行政机构名称信息特征的关键词为一对关键词对。由此原理提取出的涉案行政机构信息,将自动过滤掉文本信息(即司法行政文书的当事人信息和案情描述信息)中所有零散不成对的关键信息,比如过虑掉司法行政文书的案情描述信息中一般会掺杂的大量的零散的地域信息,从而可以精确地提取出所有地域信息和行政机构信息的成对目标信息(即上述的关键词对)。
在上述实施例中,从第二关键词集中,提取出现在司法行政文书中的第一关键词之后的具有行政机构名称信息特征的关键词,从而可以基于词间距离得到关键词对,该方案是从提取的出现在第一关键词之后的关键词中确定出与第一关键词匹配成关键词对的关键词,可以避免一定的重复操作,提高确定第二关键词的效率。
在本发明的上述实施例中,在将匹配得到的关键词对作为目标文书的行政机构信息之后,方法还包括:采用正则匹配方式,将行政机构信息中的第一关键词划分至预先定义的行政级别等级中;将第一关键词划分至的行政级别等级,确定为对应的行政机构信息的行政级别等级。
具体地,将所有涉案行政机构划分为事先定义好的各个行政级别等级中,得到正则匹配方式中的预先定义的行政机构等级(包含省级、市级和区级),将得到的基于关键词对的行政机构信息中的具有地域信息特征的第一关键词划分至预先定义的行政级别等级中,即将得到的关键词对中具有地域信息的第一关键词与预先定义的行政机构等级进行匹配对应,并将匹配对应的行政级别等级确定为对应的行政机构信息的行政级别等级,完成对涉案行政机构的行政级别的划分。
通过上述实施例,在得到精确的行政机构信息之后,可以根据指定的正则匹配规则,完成对涉案行政机构的行政级别的划分,从而可以保证行政机构信息对应的行政分级的正确度。
在本发明的上述实施例中,在将匹配得到的关键词对作为目标文书的行政机构信息之前或之后,方法还包括:采用全字匹配的方式,从目标文书中提取中央行政机构信息。
在上述实施例中,由于中央级的行政机构数量较为有限,且对应的行政机构信息规则不是特别规律,因此对于中央级的行政机构信息,一般采用全字匹配的方式,从司法行政文书的案情描述信息中获取,具体地,将全字匹配方式中预先定义的中央行政机构信息与司法行政文书的案情描述信息中的信息进行匹配对应,并将匹配对应的信息作为中央行政机构信息,在得到中央行政机构信息之后,直接确定中央行政机构信息的行政级别等级为中央级。
通过上述实施例,可以得到中央行政机构信息,从而可以保证从司法行政文书中提取的行政机构信息的完整。
在本发明的上述实施例中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集包括:获取预先定义的第一特征和第二特征,其中,第一特征为用于表征地域信息的特征,第二特征为用于表征行政机构名称信息的特征;对多个词语进行特征匹配,得到第一关键词集和第二关键词集,其中,具有第一特征的词语属于第一关键词集,具有第二特征的词语属于第二关键词集。
具体地,由于司法行政文书所涉及的行政机构信息包含地域信息和行政机构名称信息,因此,可以预先定义两个特征:用于表征地域信息的第一特征和用于表征行政机构名称信息的第二特征。在定义两个特征之后,对司法行政文书中进行分词处理之后得到的多个词语进行特征匹配,确定每个词语符合的特征,并由符合第一特征的关键词组成第一关键词集,由符合第二特征的关键词组成第二关键词集。
如,司法行政文书中的“北京市住房与城乡建设委员会”信息,经过分词器对该信息进行分词处理,得到两个词语:北京市,住房与城乡建设委员会。根据预先定义的两个特征,对上述两个词语进行特征匹配可得,北京市符合地域信息特征,也即北京市属于第一关键词集中的关键词,住房与城乡建设委员会符合行政机构名称信息特征,也即住房与城乡建设委员会属于第二关键词集中的关键词。
在上述实施例中,通过预先定义地域信息特征和行政机构名称信息特征,根据这两个特征确定出司法行政文书中的成对关键词(即上述的关键词对),并将成对关键词作为司法行政文书的行政机构信息,从而可以保证提取到的行政机构信息的完整。
下面结合图2详述本发明的上述实施例,如图2所示,该实施例可以包括如下步骤:
步骤S201,对司法行政文书中的当事人信息和案情描述信息进行分词,得到多个词语。
步骤S202,获取预先定义的用于表征地域信息的第一特征和用于表征行政机构名称信息的第二特征。
步骤S203,对多个词语进行特征匹配,得到用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集。
其中,具有第一特征的词语属于第一关键词集,具有第二特征的词语属于第二关键词集。
步骤S204,以第一关键词集中的第一关键词为基准,从第二关键词集中,提取在司法行政文书中出现在第一关键词之后词间距离最仅的关键词作为第二关键词。该词间距离为第二关键词集中关键词与第一关键词的距离。第二关键词为为第二关键词集中的具有行政机构名称信息特征的关键词。
步骤S206,将确定出的第二关键词与第一关键词匹配成关键词对。
步骤S207,将匹配得到的关键词对作为司法行政文书的行政机构信息。
步骤S208,采用正则匹配方式,将行政机构信息中的第一关键词划分至预先定义的行政级别等级中。
步骤S209,将第一关键词划分至的行政级别等级,确定为对应的刑侦机构信息的行政级别等级。
上述步骤S208和步骤S209的实施方式与上述实施例中的一致,在此不再赘述。
在一种可选的实施例中,以司法行政文书中的“深圳市南山区工商管理局”信息为例。经过分词器对该信息进行分词处理,得到三个词语:深圳市,南山区,工商管理局。根据预先定义的两个特征,对上述三个词语进行特征匹配可得,深圳市和南山区符合地域信息特征,也即深圳市和南山区属于第一关键词集中的关键词,工商管理局符合行政机构名称信息特征,也即工商管理局属于第二关键词集中的关键词。若将上述得到的三个词语全部组合起来,对组合之后的信息进行行政机构等级划分会产生歧义性,即有可能划分为地级市所属行政机构,也有可能划分为区级行政机构。因此,本发明提出对具有不同特征的关键词进行成对匹配的方案,具体地,采用最小距离匹配具有不同特征的关键词的方案来对关键词进行配对划分。如,对上述的三个词语进行成对匹配,其中“南山区”这个关键词与之后的“工商管理局”关键词距离更为接近,则将这两个关键词匹配为一个关键词对,该关键词对作为一个完整的涉案行政机构信息,并在得到行政机构信息之后,以关键词对为依据划分行政机构信息中的涉案行政机构的行政级别。
在上述实施例中,通过对涉案行政机构信息预先定义不同的特征,以地域信息特征和行政机构名称特征对目标文书进行分词,并获取目标文书中当事人信息和案情描述信息中的具备这两种特征的关键词,再通过具有不同特征的关键词最小距离配对的方式,过滤掉不成对的零散关键词,提取成对关键词(即上述的关键词对),将成对关键词作为行政机构信息,形成涉案行政机构信息的全部信息,并以成对关键词作为依据进行涉案行政机构的级别划分。
实施例2
图3是根据本发明实施例的一种行政机构信息的处理装置的示意图,如图3所示,该处理装置可以包括分词单元31、获取单元33和处理单元35。
其中,分词单元31,用于对目标文书进行分词处理,得到多个词语;
获取单元33,用于从多个词语中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集;
处理单元35,用于将第一关键词集中的关键词和第二关键词集中的关键词匹配成关键词对,将匹配得到的关键词对作为目标文书的行政机构信息。
采用本发明实施例,对目标文书进行分词处理,从分词得到的多个词语中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集,并将第一关键词集中的关键词和第二关键词集中的关键词匹配成关键词对,将匹配得到的关键词对作为目标文书的行政机构信息。通过上述实施例,将具有地域信息特征的关键词和具有行政机构名称信息特征的关键词匹配成关键词对,由于一个关键词对可以作为一个完整的涉案行政机构信息,因此从目标文书中获取到所有的关键词对,并将关键词对作为目标文书的行政机构信息,从而可以得到目标文书所涉及到的所有行政机构信息,解决了目前的提取行政机构信息的方式提取信息不完整的技术问题。
上述的目标文书可以为司法行政文书。
具体地,通过分词器对司法行政文书中的当事人信息和案情描述信息进行分词处理,得到多个词语,从多个词语中获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集,也即,获取到的第一关键词集中的关键词具有地域信息特征,获取到的第二关键词集中的关键词具有行政机构名称信息特征,将具有地域信息特征的关键词和具有行政机构名称信息特征的关键词进行匹配,得到关键词对,一个关键词对作为一个完整的涉案行政机构信息,在从司法行政文书中得到多个关键词对之后,可以将多个关键词对作为司法行政文书所涉及到的所有行政机构信息。
通过上述实施例,根据司法行政文书涉及的行政机构信息特征,将具体的涉案行政机构信息分为地域信息和行政机构名称信息两部分,并利用地域信息特征和行政机构名称信息特征组成信息对(即上述的关键词对),并且定义了不同信息特征之间距离最小作为成对信息的规则,在司法行政文书的当事人信息和案情描述信息中检索所有的成对信息,以此来获取该目标文书所涉及到的所有行政机构信息,从而解决了目前的提取行政机构信息的方式提取信息不完整的问题。
如图4所示,上述处理单元35包括:确定模块351,用于以第一关键词集中的第一关键词为基准,利用第二关键词集中各个关键词与第一关键词的词间距离,确定出与第一关键词成对的第二关键词,其中,第一关键词和第二关键词为关键词对。
具体地,通过分词器对司法行政文书中的当事人信息和案情描述信息进行分词处理,得到多个词语,从多个词语中获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集,以第一关键词集中的第一关键词为基准,获取第二关键词集中的各个关键词与第一关键词之间的词间距离,如可以通过两个关键词之间的字符数来表示词间距离,也即以具有地域信息特征的关键词为基准,获取该具有地域信息特征的关键词与各个具有行政机构名称信息特征的关键词之间的词间距离,通过获取得到的多个词间距离,确定出该具有地域信息特征的关键词与具有行政机构名称信息特征的关键词匹配成的关键词对,一个关键词对作为一个完整的行政机构信息,通过上述步骤在从司法行政文书中得到多个关键词对之后,可以将多个关键词对作为司法行政文书所涉及到的所有行政机构信息。
通过上述实施例,利用具有地域信息特征的关键词与具有行政机构名称信息特征的关键词之间的词间距离,可以确定出关键词对,从而可以将关键词对作为司法行政文书的行政机构信息,以保证获取到行政机构信息的完整。
如图4所示,上述确定模块351包括:提取子模块3511,用于从第二关键词集中,提取在目标文书中出现在第一关键词之后词间距离最近的关键词作为第二关键词。
具体地,以第一关键词集中的第一关键词为基准,也即以具有地域信息特征的关键词为基准,提取第二关键词集中出现在该第一关键词之后的具有行政机构名称信息特征的关键词,并基于最小距离匹配规则,也即从该第一关键词之后的具有行政机构名称信息特征的关键词中确定出与该第一关键词之间的词间距离最小的关键词,即为确定出与该第一关键词匹配成关键词对的第二关键词,该第一关键词和确定出的第二关键词为关键词对。一个关键词对作为一个完整的行政机构信息,通过上述步骤在从司法行政文书中得到多个关键词对之后,可以将多个关键词对作为司法行政文书所涉及到的所有行政机构信息。
在上述实施例中,从第二关键词集中,提取出现在司法行政文书中的第一关键词之后的具有行政机构名称信息特征的关键词,从而可以基于词间距离得到关键词对,该方案是从提取的出现在第一关键词之后的关键词中确定出与第一关键词匹配成关键词对的关键词,可以避免一定的重复操作,提高确定第二关键词的效率。
在本发明的上述实施例中,装置还包括:等级划分单元,用于在将匹配得到的关键词对作为目标文书的行政机构信息之后,采用正则匹配方式,将行政机构信息中的第一关键词划分至预先定义的行政级别等级中;确定单元,用于将第一关键词划分至的行政级别等级,确定为对应的行政机构信息的行政级别等级。
具体地,将所有涉案行政机构划分为事先定义好的各个行政级别等级中,得到正则匹配方式中的预先定义的行政机构等级(包含省级、市级和区级),将得到的基于关键词对的行政机构信息中的具有地域信息特征的第一关键词划分至预先定义的行政级别等级中,即将得到的关键词对中具有地域信息的第一关键词与预先定义的行政机构等级进行匹配对应,并将匹配对应的行政级别等级确定为对应的行政机构信息的行政级别等级,完成对涉案行政机构的行政级别的划分。
通过上述实施例,在得到精确的行政机构信息之后,可以根据指定的正则匹配规则,完成对涉案行政机构的行政级别的划分,从而可以保证行政机构信息对应的行政分级的正确度。
在本发明的上述实施例中,装置还包括:提取单元,用于在将匹配得到的关键词对作为目标文书的行政机构信息之前或之后,采用全字匹配的方式,从目标文书中提取中央行政机构信息。
在上述实施例中,由于中央级的行政机构数量较为有限,且对应的行政机构信息规则不是特别规律,因此对于中央级的行政机构信息,一般采用全字匹配的方式,从司法行政文书的案情描述信息中获取,具体地,将全字匹配方式中预先定义的中央行政机构信息与司法行政文书的案情描述信息中的信息进行匹配对应,并将匹配对应的信息作为中央行政机构信息,在得到中央行政机构信息之后,直接确定中央行政机构信息的行政级别等级为中央级。
通过上述实施例,可以得到中央行政机构信息,从而可以保证从司法行政文书中提取的行政机构信息的完整。
在本发明的上述实施例中,获取单元包括:获取模块,用于获取预先定义的第一特征和第二特征,其中,第一特征为用于表征地域信息的特征,第二特征为用于表征行政机构名称信息的特征;匹配模块,用于对多个词语进行特征匹配,得到第一关键词集和第二关键词集,其中,具有第一特征的词语属于第一关键词集,具有第二特征的词语属于第二关键词集。
具体地,由于司法行政文书所涉及的行政机构信息包含地域信息和行政机构名称信息,因此,可以预先定义两个特征:用于表征地域信息的第一特征和用于表征行政机构名称信息的第二特征。在定义两个特征之后,对司法行政文书中进行分词处理之后得到的多个词语进行特征匹配,确定每个词语符合的特征,并由符合第一特征的关键词组成第一关键词集,由符合第二特征的关键词组成第二关键词集。
如,司法行政文书中的“北京市住房与城乡建设委员会”信息,经过分词器对该信息进行分词处理,得到两个词语:北京市,住房与城乡建设委员会。根据预先定义的两个特征,对上述两个词语进行特征匹配可得,北京市符合地域信息特征,也即北京市属于第一关键词集中的关键词,住房与城乡建设委员会符合行政机构名称信息特征,也即住房与城乡建设委员会属于第二关键词集中的关键词。
在上述实施例中,通过预先定义地域信息特征和行政机构名称信息特征,根据这两个特征确定出司法行政文书中的成对关键词(即上述的关键词对),并将成对关键词作为司法行政文书的行政机构信息,从而可以保证提取到的行政机构信息的完整。
在上述实施例中,通过对涉案行政机构信息预先定义不同的特征,以地域信息特征和行政机构名称特征对目标文书进行分词,并获取目标文书中当事人信息和案情描述信息中的具备这两种特征的关键词,再通过具有不同特征的关键词最小距离配对的方式,过滤掉不成对的零散关键词,提取成对关键词(即上述的关键词对),将成对关键词作为行政机构信息,形成涉案行政机构信息的全部信息,并以成对关键词作为依据进行涉案行政机构的级别划分。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种行政机构信息的处理方法,其特征在于,包括:
对目标文书进行分词处理,得到多个词语;
从所述多个词语中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集;
将所述第一关键词集中的关键词和所述第二关键词集中的关键词匹配成关键词对,将匹配得到的所述关键词对作为所述目标文书的行政机构信息;
将所述第一关键词集中的关键词和所述第二关键词集中的关键词匹配成关键词对包括:
以所述第一关键词集中的第一关键词为基准,利用所述第二关键词集中各个关键词与所述第一关键词的词间距离,确定出与所述第一关键词成对的第二关键词,
将所述第一关键词和所述第二关键词的组合确定为所述关键词对。
2.根据权利要求1所述的处理方法,其特征在于,利用所述第二关键词集中各个关键词与所述第一关键词的词间距离,确定出与所述第一关键词成对的第二关键词包括:
从所述第二关键词集中,提取在所述目标文书中出现在所述第一关键词之后词间距离最近的关键词作为所述第二关键词。
3.根据权利要求1所述的处理方法,其特征在于,在将匹配得到的所述关键词对作为所述目标文书的行政机构信息之后,所述方法还包括:
采用正则匹配方式,将所述行政机构信息中的第一关键词划分至预先定义的行政级别等级中;
将所述第一关键词划分至的行政级别等级,确定为对应的行政机构信息的行政级别等级。
4.根据权利要求1所述的处理方法,其特征在于,在将匹配得到的所述关键词对作为所述目标文书的行政机构信息之前或之后,所述方法还包括:
采用全字匹配的方式,从所述目标文书中提取中央行政机构信息。
5.根据权利要求1所述的处理方法,其特征在于,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集包括:
获取预先定义的第一特征和第二特征,其中,所述第一特征为用于表征地域信息的特征,所述第二特征为用于表征行政机构名称信息的特征;
对所述多个词语进行特征匹配,得到所述第一关键词集和所述第二关键词集,其中,具有所述第一特征的词语属于所述第一关键词集,具有所述第二特征的词语属于所述第二关键词集。
6.一种行政机构信息的处理装置,其特征在于,包括:
分词单元,用于对目标文书进行分词处理,得到多个词语;
获取单元,用于从所述多个词语中,获取用于记录地域信息的第一关键词集和用于记录行政机构名称信息的第二关键词集;
处理单元,用于将所述第一关键词集中的关键词和所述第二关键词集中的关键词匹配成关键词对,将匹配得到的所述关键词对作为所述目标文书的行政机构信息;
所述处理单元包括:
确定模块,用于以所述第一关键词集中的第一关键词为基准,利用所述第二关键词集中各个关键词与所述第一关键词的词间距离,确定出与所述第一关键词成对的第二关键词,将所述第一关键词和所述第二关键词的组合确定为所述关键词对。
7.根据权利要求6所述的处理装置,其特征在于,所述确定模块包括:
提取子模块,用于从所述第二关键词集中,提取在所述目标文书中出现在所述第一关键词之后的词间距离最近的关键词作为所述第二关键词。
8.根据权利要求6所述的处理装置,其特征在于,所述装置还包括:
等级划分单元,用于在将匹配得到的所述关键词对作为所述目标文书的行政机构信息之后,采用正则匹配方式,将所述行政机构信息中的第一关键词划分至预先定义的行政级别等级中;
确定单元,用于将所述第一关键词划分至的行政级别等级,确定为对应的行政机构信息的行政级别等级。
CN201610792996.3A 2016-08-31 2016-08-31 行政机构信息的处理方法和装置 Active CN107784478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610792996.3A CN107784478B (zh) 2016-08-31 2016-08-31 行政机构信息的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610792996.3A CN107784478B (zh) 2016-08-31 2016-08-31 行政机构信息的处理方法和装置

Publications (2)

Publication Number Publication Date
CN107784478A CN107784478A (zh) 2018-03-09
CN107784478B true CN107784478B (zh) 2020-09-15

Family

ID=61451446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610792996.3A Active CN107784478B (zh) 2016-08-31 2016-08-31 行政机构信息的处理方法和装置

Country Status (1)

Country Link
CN (1) CN107784478B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967300B (zh) * 2017-11-07 2020-06-23 平安科技(深圳)有限公司 机构名称的检索方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751385A (zh) * 2008-12-19 2010-06-23 华建机器翻译有限公司 一种采用层次管道过滤器体系结构的多语言信息抽取方法
CN103258025A (zh) * 2013-05-08 2013-08-21 百度在线网络技术(北京)有限公司 生成共现关键词的方法、提供关联搜索词的方法以及***
WO2014000485A1 (zh) * 2012-06-30 2014-01-03 华为技术有限公司 内容过滤方法和装置
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN104615603A (zh) * 2013-11-05 2015-05-13 北京四维图新科技股份有限公司 一种车载导航设备关键词库建立方法及装置
CN105068989A (zh) * 2015-07-23 2015-11-18 中国测绘科学研究院 地名地址提取方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090890B (zh) * 2013-12-12 2016-05-04 深圳市腾讯计算机***有限公司 关键词相似度获取方法、装置及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751385A (zh) * 2008-12-19 2010-06-23 华建机器翻译有限公司 一种采用层次管道过滤器体系结构的多语言信息抽取方法
WO2014000485A1 (zh) * 2012-06-30 2014-01-03 华为技术有限公司 内容过滤方法和装置
CN103258025A (zh) * 2013-05-08 2013-08-21 百度在线网络技术(北京)有限公司 生成共现关键词的方法、提供关联搜索词的方法以及***
CN104615603A (zh) * 2013-11-05 2015-05-13 北京四维图新科技股份有限公司 一种车载导航设备关键词库建立方法及装置
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN105068989A (zh) * 2015-07-23 2015-11-18 中国测绘科学研究院 地名地址提取方法及装置

Also Published As

Publication number Publication date
CN107784478A (zh) 2018-03-09

Similar Documents

Publication Publication Date Title
CN107870927B (zh) 文件评估方法和装置
US9705761B2 (en) Opinion information display system and method
CN111737499B (zh) 基于自然语言处理的数据搜索方法及相关设备
CN103546446B (zh) 一种钓鱼网站的检测方法、装置和终端
CN110020086B (zh) 一种用户画像查询方法及装置
CN109756760B (zh) 视频标签的生成方法、装置及服务器
CN110019542B (zh) 企业关系的生成、生成组织成员数据库及识别同名成员
CN106933878B (zh) 一种信息处理方法及装置
CN107729330B (zh) 获取数据集的方法和装置
CN113360789A (zh) 兴趣点数据处理方法、装置、电子设备及存储介质
CN102521713B (zh) 数据处理装置和数据处理方法
CN110232156B (zh) 基于长文本的信息推荐方法及装置
CN109766552B (zh) 一种基于公告信息的指代消解方法及装置
CN106202050B (zh) 主题信息获取方法、装置和电子设备
CN103455479A (zh) 一种新建联系人的方法及终端
CN106933905B (zh) 网页访问数据的监测方法和装置
CN107784478B (zh) 行政机构信息的处理方法和装置
CN111597452B (zh) 一种添加标签的方法、装置、电子设备及可读存储介质
CN103559177A (zh) 一种地名识别方法及装置
CN109902148B (zh) 一种通讯录联系人的企业名称自动补全的方法
CN104240107A (zh) 社群数据筛选***及其方法
CN104298786B (zh) 一种图像检索方法及装置
CN110175219A (zh) 一种k12阶段重复学校识别方法、装置、设备及存储介质
WO2018205460A1 (zh) 获取目标用户的方法、装置、电子设备及介质
CN112800246B (zh) 一种政策谱系构建方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant