CN107784024A - 构建当事人画像的方法及装置 - Google Patents

构建当事人画像的方法及装置 Download PDF

Info

Publication number
CN107784024A
CN107784024A CN201610792049.4A CN201610792049A CN107784024A CN 107784024 A CN107784024 A CN 107784024A CN 201610792049 A CN201610792049 A CN 201610792049A CN 107784024 A CN107784024 A CN 107784024A
Authority
CN
China
Prior art keywords
paragraph
party
judicial
target
grammatical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610792049.4A
Other languages
English (en)
Other versions
CN107784024B (zh
Inventor
贾炜
石鹏
刘激扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610792049.4A priority Critical patent/CN107784024B/zh
Publication of CN107784024A publication Critical patent/CN107784024A/zh
Application granted granted Critical
Publication of CN107784024B publication Critical patent/CN107784024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种构建当事人画像的方法及装置。其中,该方法包括:从预先构建的司法领域本体中查找目标当事人,其中,司法领域本体中包含本体概念及用于描述本体概念的属性的结构数据,本体概念包括当事人;在查找到目标当事人后,从用于描述本体概念的属性的结构数据中选取或者接收用户输入的结构数据中的用于描述所述目标当事人的属性的结构数据;根据选取的或者接收的用于描述目标当事人的属性的结构数据,构建目标当事人的当事人画像。本发明解决了相关技术中无法自动构建当事人画像的技术问题。

Description

构建当事人画像的方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种构建当事人画像的方法及装置。
背景技术
一份司法文书中往往包含了许多当事人的相关信息,这些相关信息对分析当事人特点,构建当事人画像都有很大价值。
相关技术在分析司法文书中的当事人时,主要采用人工方式从司法文书中摘录对应的当事人信息,对这些信息进行分类、归一化及统计处理。其中,信息摘录和分类规则都是由具体应用需求决定的,不同应用的信息摘录和分类规则有不同的侧重点。
然而,由于上述技术方案主要是由人工实现的,效率低,准确率差,难以在短期内完成大量司法文书的分析工作,并且人工获取数据存在标准不一、多少不等、重复使用比较困难的缺陷。
虽然,相关技术中还提供了一种有效的构建普通用户画像(如登录/浏览电商网站的用户的画像)的技术方案,但是该方案都是通过统计结构化数据的指定维度来实现的。而司法文书作为文本数据,而文本数据是非结构化数据,因而现有的构建普通用户画像自动构建方法不能直接用于构建当事人画像。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种构建当事人画像的方法及装置,以至少解决相关技术中无法自动构建当事人画像的技术问题。
根据本发明实施例的一个方面,提供了一种构建当事人画像的方法,包括:从预先构建的司法领域本体中查找目标当事人,其中,上述司法领域本体中包含本体概念及用于描述本体概念的属性的结构数据,上述本体概念包括当事人;在查找到上述目标当事人后,从用于描述本体概念的属性的上述结构数据中选取或者接收用户输入的结构数据中的用于描述上述目标当事人的属性的结构数据;根据选取的或者接收的用于描述上述目标当事人的属性的结构数据,构建上述目标当事人的当事人画像。
进一步地,根据选取的或者接收的用于描述上述目标当事人的属性的结构数据,构建上述目标当事人的当事人画像包括:在上述目标当事人为个体当事人的情况下,根据选取的用于描述上述目标当事人的属性的部分或全部结构数据,构建上述个体当事人的当事人画像;在上述目标当事人为群体当事人的情况下,根据选取的用于描述上述目标当事人的属性的部分或全部结构数据,构建上述群体当事人的当事人画像。
进一步地,通过以下步骤构建上述司法领域本体:根据上述本体概念及用于描述本体概念的上述属性,确定用于解析司法文书的文法的特征词及特征词对应的选择性变量;根据确定的特征词及特征词对应的选择性变量,构建上述文法;使用构建的上述文法,解析需要解析的司法文书,得到司法文书解析结果;将上述司法文书解析结果填充到上述司法领域本体中。
进一步地,在根据确定的特征词及特征词对应的选择性变量,构建上述文法之后,上述方法还包括:获取司法文书的行文特征;根据上述文法和上述司法文书的行文特征,构建文法段落特征模板和文法段落位置特征模板,每个模板中都包含对应的模板特征和文法子集,其中,使用构建的上述文法,解析需要解析的司法文书,得到司法文书解析结果包括:使用构建的上述文法段落特征模板,或者上述文法段落特征模板和上述文法段落位置特征模板,逐段解析上述需要解析的司法文书,得到司法文书解析结果。
进一步地,使用上述文法段落特征模板和上述文法段落位置特征模板,逐段解析上述需要解析的司法文书,得到司法文书解析结果包括:从上述需要解析的司法文书中提取的目标段落;为上述目标段落匹配对应的文法段落特征模板;若匹配成功,则使用匹配上的文法段落特征模板,解析上述目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程;若匹配失败,则为上述目标段落匹配对应的文法段落位置特征模板,若匹配成功,则使用匹配上的文法段落位置特征模板,解析上述目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程。
进一步地,在解析上述目标段落的过程中,上述方法还包括:若对应的解析结果为空,则至少记录上述需要解析的司法文书的序列号和上述目标段落;将记录结果填充到上述司法领域本体中。
进一步地,在使用构建的上述文法,解析需要解析的司法文书,得到司法文书解析结果之后,上述方法还包括:根据上述司法文书解析结果,构建各当事人之间的关联关系;统计每个当事人的数值型属性;在各当事人之间的关联关系构建完成后,统计每个当事人的关联关系的各维度的统计值;将上述各当事人之间的关联关系、上述每个当事人的数值型属性以及上述每个当事人的关联关系的各维度的统计值填充到上述司法领域本体中。
根据本发明实施例的另一方面,还提供了一种构建当事人画像的装置,包括:查找单元,用于从预先构建的司法领域本体中查找目标当事人,其中,上述司法领域本体中包含本体概念及用于描述本体概念的属性的结构数据,上述本体概念包括当事人;处理单元,用于在查找到上述目标当事人后,从用于描述本体概念的属性的上述结构数据中选取或者接收用户输入的结构数据中的用于描述上述目标当事人的属性的结构数据;第一构建单元,用于根据选取的或者接收的用于描述上述目标当事人的属性的结构数据,构建上述目标当事人的当事人画像。
进一步地,上述第一构建单元包括:第一构建模块,用于在上述目标当事人为个体当事人的情况下,根据选取的用于描述上述目标当事人的属性的部分或全部结构数据,构建上述个体当事人的当事人画像;第二构建模块,用于在上述目标当事人为群体当事人的情况下,根据选取的用于描述上述目标当事人的属性的部分或全部结构数据,构建上述群体当事人的当事人画像。
进一步地,上述装置还包括:确定单元,用于在获取司法领域本体之后,根据上述本体概念及用于描述本体概念的上述属性,确定用于解析司法文书的文法的特征词及特征词对应的选择性变量;第二构建单元,用于根据确定的特征词及特征词对应的选择性变量,构建上述文法;解析单元,用于使用构建的上述文法,解析需要解析的司法文书,得到司法文书解析结果;第一填充单元,用于将上述司法文书解析结果填充到上述司法领域本体中。
进一步地,上述装置还包括:获取单元,用于根据确定的特征词及特征词对应的选择性变量,构建上述文法之后,获取司法文书的行文特征;第三构建单元,用于根据上述文法和上述司法文书的行文特征,构建文法段落特征模板和文法段落位置特征模板,每个模板中都包含对应的模板特征和文法子集,其中,上述解析单元还用于:使用构建的上述文法段落特征模板,或者上述文法段落特征模板和上述文法段落位置特征模板,逐段解析上述需要解析的司法文书,得到司法文书解析结果。
进一步地,上述解析单元包括:提取模块,用于从上述需要解析的司法文书中提取的目标段落;匹配模块,用于为上述目标段落匹配对应的文法段落特征模板;第一解析模块,用于:若匹配成功,则使用匹配上的文法段落特征模板,解析上述目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程;第二解析模块,用于:若匹配失败,则为上述目标段落匹配对应的文法段落位置特征模板,若匹配成功,则使用匹配上的文法段落位置特征模板,解析上述目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程。
进一步地,上述装置还包括:记录单元,用于在解析上述目标段落的过程中,若对应的解析结果为空,则至少记录上述需要解析的司法文书的序列号和上述目标段落;第二填充单元,用于将记录结果填充到上述司法领域本体中。
进一步地,上述装置还包括:第四构建单元,用于在使用构建的上述文法,解析需要解析的司法文书,得到司法文书解析结果之后,根据上述司法文书解析结果,构建各当事人之间的关联关系;第一统计单元,用于统计每个当事人的数值型属性;第二统计单元,用于在各当事人之间的关联关系构建完成后,统计每个当事人的关联关系的各维度的统计值;第三填充单元,用于将上述各当事人之间的关联关系、上述每个当事人的数值型属性以及上述每个当事人的关联关系的各维度的统计值填充到上述司法领域本体中。
在本发明实施例中,采用基于司法领域本体构建当事人画像的方式,通过从预先构建的司法领域本体中查找目标当事人,其中,司法领域本体中包含本体概念及用于描述本体概念的属性的结构数据,本体概念包括当事人;在查找到目标当事人后,从用于描述本体概念的属性的结构数据中选取或者接收用户输入的结构数据中的用于描述目标当事人的属性的结构数据;根据选取的或者接收的用于描述目标当事人的属性的结构数据,构建目标当事人的当事人画像,达到了通过选择司法领域本体中的当事人的属性的相关结构数据以构建该当事人的画像的目的,从而实现了自动构建当事人画像的技术效果,进而解决了相关技术中无法自动构建当事人画像的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的构建当事人画像的方法的流程图;
图2是根据本发明实施例的一种可选的构建当事人画像的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种构建当事人画像的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的构建当事人画像的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,从预先构建的司法领域本体中查找目标当事人,其中,司法领域本体中包含本体概念及用于描述本体概念的属性的结构数据,本体概念包括当事人;
步骤S104,在查找到目标当事人后,从用于描述本体概念的属性的结构数据中选取或者接收用户输入的结构数据中的用于描述目标当事人的属性的结构数据;
步骤S106,根据选取的或者接收的用于描述目标当事人的属性的结构数据,构建目标当事人的当事人画像。
需要说明的是,根据我国法律法规和人民法院信息***建设技术规范等行业标准(简称法标)可以构建以司法当事人为中心的司法领域本体。其中,司法领域本体包含本体概念及用于描述本体概念的属性的结构数据。此处,核心的本体概念除了包括司法文书中涉及到的当事人之外,还可以包括案件、适用法律、案由、受理法院、时间等概念,而司法文书中涉及到的其它信息可以作为这些概念的属性。实施时,可以使用法标和法律相关数据规范本体概念及用于描述本体概念的属性的类型和取值,达到与司法文书中的主要概念和表达相一致的目的。例如,司法领域本体可以是数据库,本体概念可以是“案件”,描述本体概念“案件”的属性的结构数据可以是案件的类型,如,刑事案件、民事案件等等。在司法领域本体中,本体概念与描述本体概念的属性的结构数据对应存储。
基于本发明提供的技术方案,当用户需要构建某当事人(即目标当事人)的当事人画像时,可以先从司法领域本体的所有本体概念中查找出该目标当事人;在查找到该目标当事人后,再从所有用于描述本体概念的属性的结构数据中选取自己需要的用于描述该目标当事人的属性的部分或全部结构数据;最后根据选取的部分或全部结构数据,构建该目标当事人的当事人画像。另外,在实际操作过程中,用户在构建当事人画像时,还可能会输入司法领域本体原来没有的本体概念及其相关属性,此时,一方面,***开始构建当事人画像后,会将用户需要的且司法领域本体原来就有的本体概念及其相关属性的结构数据输出到用户界面,并通过图形/表格的方式呈现;另一方面,***还会输出用户需求的但司法领域本体原来没有的本体概念及其相关属性的列表。
由于司法领域本体已经保存了基于司法文书提取的诸多能够精确描述当事人及相关属性的结构数据,因而使用上述技术方案能够高效、精确地基于司法文书构建当事人画像。
通过本发明实施例,采用基于司法领域本体构建当事人画像的方式,达到了通过选择司法领域本体中的当事人的属性的相关结构数据以构建该当事人的画像的目的,从而实现了自动构建当事人画像的技术效果,进而解决了相关技术中无法自动构建当事人画像的技术问题。
可选地,根据选取的或者接收的用于描述目标当事人的属性的结构数据,构建目标当事人的当事人画像包括:
S2,在目标当事人为个体当事人的情况下,根据选取的用于描述目标当事人的属性的部分或全部结构数据,构建个体当事人的当事人画像;
S4,在目标当事人为群体当事人的情况下,根据选取的用于描述目标当事人的属性的部分或全部结构数据,构建群体当事人的当事人画像。
由于群体当事人包括多个具有关联关系的个体当事人,因此在构建群体当事人的当事人画像时,除了需要构建群体当事人中各个个体之外,还需要构建这些个体之间的关联关系。
需要说明的是,本发明实施例是一种利用领域本体和机器学习技术,实现计算机自动基于司法文书构建当事人画像的方法。在构建过程中需要一定的人机交互,如由用户输入和调整构建当事人画像的各种需求,其它工作由计算机自动完成的。本发明可以高效、准确地完成大量司法文书的处理和分析,构建当事人画像;并能够及时响应用户调整的和新增的需求,从结果数据上表现出当事人画像的不同,满足用户不断挖掘新信息的需求。本发明同时适用于构建当事人个体画像和群体画像。
可选地,通过以下步骤构建司法领域本体:
S6,根据本体概念及用于描述本体概念的属性,确定用于解析司法文书的文法的特征词及特征词对应的选择性变量;
S8,根据确定的特征词及特征词对应的选择性变量,构建文法;
S10,使用构建的文法,解析需要解析的司法文书,得到司法文书解析结果;
S12,将司法文书解析结果填充到司法领域本体中。
也即,实施时,为了丰富、扩充已有的司法领域本体,可以使用司法领域本体,具体可以使用司法领域本体中的本体概念及用于描述本体概念的属性,构建计算机能够自动解析司法文书的文法,其中,司法文书的文法为语言的结构方式,包括词的构成和变化﹐词组和句子的组织。并使用构建的文法,解析更多新增的需要解析的司法文书,进而将司法文书解析结果填充到司法领域本体中,具体地可以填充到司法领域本体中的对应本体概念的对应属性中。其中,该文法为基于上下文无关文法。使用该文法解析文书时,主要以裁判文书中单个句子(以下简称为单句)为主进行解析,从单句中获取构建当事人画像所需要的相关信息。该文法的特征词和选择性变量的术语都来自于司法领域本体。
需要说明的是,每次解析司法文书后,***都可以对每次司法文书解析结果单独保存,同时也可以对所有次累积的数据统一保存在一起。对于统一保存方式而言,由于所有次解析司法文书得到的司法文书解析结果就会融合在一起,使得结果集不断累积,用于构建当事人画像(包括个体当事人画像和全体当事人画像)的结构数据不断丰富、增加,从而可以形成精细而且全面的当事人画像。具体地,在构建当事人画像时,用户可以根据需要选择本次、以前各次的数据,甚至所有次的数据累积结果。同时,本发明技术方案还可以利用构建当事人画像的各种数据,用机器学习的方法不断增强***解析文书和构建当事人画像的能力。
可选地,在根据确定的特征词及特征词对应的选择性变量,构建所述文法之后,上述方法还包括:
S14,获取司法文书的行文特征;
S16,根据文法和司法文书的行文特征,构建文法段落特征模板和文法段落位置特征模板,每个模板中都包含对应的模板特征和文法子集,
相应的,使用构建的文法,解析需要解析的司法文书,得到司法文书解析结果包括:
S18,使用构建的文法段落特征模板,或者文法段落特征模板和文法段落位置特征模板,逐段解析需要解析的司法文书,得到司法文书解析结果。
一般地,司法文书都会包含诉请段落、判决段落、事实段落和法院认为段落,并且每种段落都会有自己的独有行文特征。不同的段落往往具有不同的行文特征,例如,诉请段落是原告描述为什么起诉被告的段落,是案件的“原因段落”;判决段落是依据法条法理后进行判决的段落,是案件的“结果段落”;事实段落是原被告之间发生事情的描述段落,是案件的“客观描述段落”;法院认为段落是法官根据起诉内容、事实、证据做论理的段落,是案件的“讲道理段落”。
因而根据司法文书的行文特征和以及描述具有不同特征的行文所使用的文法,构建文法段落特征模板和文法段落位置特征模板,每个模板都包括模板特征和相应的文法子集两部分。使用时,这两个模板将引导计算机软件在固定的段落和段落位置上使用最适用的文法子集,使得文法解析司法文书的性能和准确度都大大提高。
可选地,使用文法段落特征模板和文法段落位置特征模板,逐段解析需要解析的司法文书,得到司法文书解析结果包括:
S20,从需要解析的司法文书中提取的目标段落;
S22,为目标段落匹配对应的文法段落特征模板;
S24,若匹配成功,则使用匹配上的文法段落特征模板,解析目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程;
S26,若匹配失败,则为目标段落匹配对应的文法段落位置特征模板,若匹配成功,则使用匹配上的文法段落位置特征模板,解析目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程。
也即,实施时,先使需要解析的司法文书的每个段落匹配文法段落特征模板,如果匹配成功,则调用匹配上的文法段落特征模板,用该模板中的文法子集解析该段落,并将解析出来的信息填充到司法领域本体中的对应属性中。如果匹配失败,再使当前段落匹配文法段落位置特征模板,此时如果匹配成功,则使用该模板的文法子集解析该段落,并将解析出来的信息填充到司法领域本体中的对应属性中,此时如果匹配失败,则进入下一个段落的解析流程,直到处理完该文书的全部段落为止。
进一步,在所有司法文书解析完成后,***还可以根据已经解析出来的当事人属性,构建当事人之间的关联关系,并统计每个当事人的数值型属性,即属性值,以此为基础来统计当事人群体的数值型属性。当事人关联关系构建完成后,统计每个当事人相关关系的各个维度的统计值,以此为基础来统计当事人群体的关系的各个维度统计值,并将这些属性值、关系和统计值都存入数据库。
进一步,可以使用用户界面以及上述数据库中的所有数据来展示当事人个体画像和群体画像。当用户在界面中选择具体的个体、群体集合的属性时,***可以通过OLAP技术呈现当事人个体和群体的具体的维度数据和聚合数据。
需要说明的是,在上述各种匹配中,可以使用包括但不限于模板匹配和同义词列表匹配的方法进行匹配。
可选地,在解析目标段落的过程中,上述方法还包括:
S28,若对应的解析结果为空,则至少记录需要解析的司法文书的序列号和目标段落;将记录结果填充到司法领域本体中。
也即,在解析过程中,如果文法段落特征模板或文法段落位置特征模板匹配成功,但是解析出的信息为空,则可以将文书序列号、句子和所有可能需要填充的本体属性集合都记在日志当中。这样,当用户点击自己选择的但没有结果的属性时,***可以以列表的形式呈现相应的司法文书及其中的具体段落、句子等。
进一步,对于所有没有匹配成功的段落和/或句子,***可以对这些段落和/或句子进行数据挖掘,合并相同的段落和/或句子,并尝试用已经获取的其它属性数据对这些段落和/或句子进行匹配,统计出这些段落和/或句子中可能包含的本体概念及相关属性。另外,还可以使用但不限于频繁序列方法进行文法的自动学习,以供***开发者和维护者设计编写新的文法。
可选地,在使用构建的文法,解析需要解析的司法文书,得到司法文书解析结果之后,上述方法还包括:
S30,根据司法文书解析结果,构建各当事人之间的关联关系;
S32,统计每个当事人的数值型属性;
S34,在各当事人之间的关联关系构建完成后,统计每个当事人的关联关系的各维度的统计值;
S36,将各当事人之间的关联关系、每个当事人的数值型属性以及每个当事人的关联关系的各维度的统计值填充到司法领域本体中。
实施例2
根据本发明实施例,提供了一种构建当事人画像的装置实施例。
图2是根据本发明实施例的一种可选的构建当事人画像的装置的示意图,如图2所示,该装置包括:查找单元202,用于从预先构建的司法领域本体中查找目标当事人,其中,司法领域本体中包含本体概念及用于描述本体概念的属性的结构数据,本体概念包括当事人;处理单元204,用于在查找到目标当事人后,从用于描述本体概念的属性的结构数据中选取或者接收用户输入的结构数据中的用于描述目标当事人的属性的结构数据;第一构建单元206,用于根据选取的或者接收的用于描述目标当事人的属性的结构数据,构建目标当事人的当事人画像。
需要说明的是,根据我国法律法规和人民法院信息***建设技术规范等行业标准(简称法标)可以构建以司法当事人为中心的司法领域本体。其中,司法领域本体包含本体概念及用于描述本体概念的属性的结构数据。此处,核心的本体概念除了包括司法文书中涉及到的当事人之外,还可以包括案件、适用法律、案由、受理法院、时间等概念,而司法文书中涉及到的其它信息可以作为这些概念的属性。实施时,可以使用法标和法律相关数据规范本体概念及用于描述本体概念的属性的类型和取值,达到与司法文书中的主要概念和表达相一致的目的。例如,司法领域本体可以是数据库,本体概念可以是“案件”,描述本体概念“案件”的属性的结构数据可以是案件的类型,如,刑事案件、民事案件等等。在司法领域本体中,本体概念与描述本体概念的属性的结构数据对应存储。
基于本发明提供的技术方案,当用户需要构建某当事人(即目标当事人)的当事人画像时,可以先从司法领域本体的所有本体概念中查找出该目标当事人;在查找到该目标当事人后,再从所有用于描述本体概念的属性的结构数据中选取自己需要的用于描述该目标当事人的属性的部分或全部结构数据;最后根据选取的部分或全部结构数据,构建该目标当事人的当事人画像。另外,在实际操作过程中,用户在构建当事人画像时,还可能会输入司法领域本体原来没有的本体概念及其相关属性,此时,一方面,***开始构建当事人画像后,会将用户需要的且司法领域本体原来就有的本体概念及其相关属性的结构数据输出到用户界面,并通过图形/表格的方式呈现;另一方面,***还会输出用户需求的但司法领域本体原来没有的本体概念及其相关属性的列表。
由于司法领域本体已经保存了基于司法文书提取的诸多能够精确描述当事人及相关属性的结构数据,因而使用上述技术方案能够高效、精确地基于司法文书构建当事人画像。
通过本发明实施例,采用基于司法领域本体构建当事人画像的方式,达到了通过选择司法领域本体中的当事人的属性的相关结构数据以构建该当事人的画像的目的,从而实现了自动构建当事人画像的技术效果,进而解决了相关技术中无法自动构建当事人画像的技术问题。
可选地,上述第一构建单元包括:第一构建模块,用于在目标当事人为个体当事人的情况下,根据选取的用于描述目标当事人的属性的部分或全部结构数据,构建个体当事人的当事人画像;第二构建模块,用于在目标当事人为群体当事人的情况下,根据选取的用于描述目标当事人的属性的部分或全部结构数据,构建群体当事人的当事人画像。
可选地,上述装置还包括:确定单元,用于在获取司法领域本体之后,根据本体概念及用于描述本体概念的属性,确定用于解析司法文书的文法的特征词及特征词对应的选择性变量;第二构建单元,用于根据确定的特征词及特征词对应的选择性变量,构建文法;解析单元,用于使用构建的文法,解析需要解析的司法文书,得到司法文书解析结果;第一填充单元,用于将司法文书解析结果填充到司法领域本体中。
可选地,上述装置还包括:获取单元,用于根据确定的特征词及特征词对应的选择性变量,构建文法之后,获取司法文书的行文特征;第三构建单元,用于根据文法和司法文书的行文特征,构建文法段落特征模板和文法段落位置特征模板,每个模板中都包含对应的模板特征和文法子集,其中,解析单元还用于:使用构建的文法段落特征模板,或者文法段落特征模板和文法段落位置特征模板,逐段解析需要解析的司法文书,得到司法文书解析结果。
可选地,上述解析单元包括:提取模块,用于从需要解析的司法文书中提取的目标段落;匹配模块,用于为目标段落匹配对应的文法段落特征模板;第一解析模块,用于:若匹配成功,则使用匹配上的文法段落特征模板,解析目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程;第二解析模块,用于:若匹配失败,则为目标段落匹配对应的文法段落位置特征模板,若匹配成功,则使用匹配上的文法段落位置特征模板,解析目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程。
可选地,上述装置还包括:记录单元,用于在解析目标段落的过程中,若对应的解析结果为空,则至少记录需要解析的司法文书的序列号和目标段落;第二填充单元,用于将记录结果填充到司法领域本体中。
可选地,上述装置还包括:第四构建单元,用于在使用构建的文法,解析需要解析的司法文书,得到司法文书解析结果之后,根据司法文书解析结果,构建各当事人之间的关联关系;第一统计单元,用于统计每个当事人的数值型属性;第二统计单元,用于在各当事人之间的关联关系构建完成后,统计每个当事人的关联关系的各维度的统计值;第三填充单元,用于将各当事人之间的关联关系、每个当事人的数值型属性以及每个当事人的关联关系的各维度的统计值填充到司法领域本体中。
需要说明的是,装置部分实施例与对应的方法部分实施例相同或类似;装置部分实施例中的各功能单元/模块的工作原理、实现的功能以及达到的技术效果分别与对应的方法部分实施例中的对应步骤相同或类似,在此不再赘述。
上述构建当事人画像的装置包括处理器和存储器,上述查找单元、处理单元和第一构建单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从预先构建的司法领域本体中查找目标当事人,其中,司法领域本体中包含本体概念及用于描述本体概念的属性的结构数据,本体概念包括当事人;在查找到目标当事人后,从用于描述本体概念的属性的结构数据中选取或者接收用户输入的结构数据中的用于描述目标当事人的属性的结构数据;根据选取的或者接收的用于描述目标当事人的属性的结构数据,构建目标当事人的当事人画像。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种构建当事人画像的方法,其特征在于,包括:
从预先构建的司法领域本体中查找目标当事人,其中,所述司法领域本体中包含本体概念及用于描述本体概念的属性的结构数据,所述本体概念包括当事人;
在查找到所述目标当事人后,从用于描述本体概念的属性的所述结构数据中选取或者接收用户输入的结构数据中的用于描述所述目标当事人的属性的结构数据;
根据选取的或者接收的用于描述所述目标当事人的属性的结构数据,构建所述目标当事人的当事人画像。
2.根据权利要求1所述的方法,其特征在于,通过以下步骤构建所述司法领域本体:
根据所述本体概念及用于描述本体概念的所述属性,确定用于解析司法文书的文法的特征词及特征词对应的选择性变量;
根据确定的特征词及特征词对应的选择性变量,构建所述文法;
使用构建的所述文法,解析需要解析的司法文书,得到司法文书解析结果;
将所述司法文书解析结果填充到所述司法领域本体中。
3.根据权利要求2所述的方法,其特征在于,在根据确定的特征词及特征词对应的选择性变量,构建所述文法之后,所述方法还包括:
获取司法文书的行文特征;
根据所述文法和所述司法文书的行文特征,构建文法段落特征模板和文法段落位置特征模板,每个模板中都包含对应的模板特征和文法子集,
其中,使用构建的所述文法,解析需要解析的司法文书,得到司法文书解析结果包括:
使用构建的所述文法段落特征模板,或者所述文法段落特征模板和所述文法段落位置特征模板,逐段解析所述需要解析的司法文书,得到司法文书解析结果。
4.根据权利要求3所述的方法,其特征在于,使用所述文法段落特征模板和所述文法段落位置特征模板,逐段解析所述需要解析的司法文书,得到司法文书解析结果包括:
从所述需要解析的司法文书中提取的目标段落;
为所述目标段落匹配对应的文法段落特征模板;
若匹配成功,则使用匹配上的文法段落特征模板,解析所述目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程;
若匹配失败,则为所述目标段落匹配对应的文法段落位置特征模板,若匹配成功,则使用匹配上的文法段落位置特征模板,解析所述目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程。
5.根据权利要求4所述的方法,其特征在于,在解析所述目标段落的过程中,所述方法还包括:
若对应的解析结果为空,则至少记录所述需要解析的司法文书的序列号和所述目标段落;
将记录结果填充到所述司法领域本体中。
6.根据权利要求2所述的方法,其特征在于,在使用构建的所述文法,解析需要解析的司法文书,得到司法文书解析结果之后,所述方法还包括:
根据所述司法文书解析结果,构建各当事人之间的关联关系;
统计每个当事人的数值型属性;
在各当事人之间的关联关系构建完成后,统计每个当事人的关联关系的各维度的统计值;
将所述各当事人之间的关联关系、所述每个当事人的数值型属性以及所述每个当事人的关联关系的各维度的统计值填充到所述司法领域本体中。
7.一种构建当事人画像的装置,其特征在于,包括:
查找单元,用于从预先构建的司法领域本体中查找目标当事人,其中,所述司法领域本体中包含本体概念及用于描述本体概念的属性的结构数据,所述本体概念包括当事人;
处理单元,用于在查找到所述目标当事人后,从用于描述本体概念的属性的所述结构数据中选取或者接收用户输入的结构数据中的用于描述所述目标当事人的属性的结构数据;
第一构建单元,用于根据选取的或者接收的用于描述所述目标当事人的属性的结构数据,构建所述目标当事人的当事人画像。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
确定单元,用于在获取司法领域本体之后,根据所述本体概念及用于描述本体概念的所述属性,确定用于解析司法文书的文法的特征词及特征词对应的选择性变量;
第二构建单元,用于根据确定的特征词及特征词对应的选择性变量,构建所述文法;
解析单元,用于使用构建的所述文法,解析需要解析的司法文书,得到司法文书解析结果;
第一填充单元,用于将所述司法文书解析结果填充到所述司法领域本体中。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
获取单元,用于根据确定的特征词及特征词对应的选择性变量,构建所述文法之后,获取司法文书的行文特征;
第三构建单元,用于根据所述文法和所述司法文书的行文特征,构建文法段落特征模板和文法段落位置特征模板,每个模板中都包含对应的模板特征和文法子集,
其中,所述解析单元还用于:使用构建的所述文法段落特征模板,或者所述文法段落特征模板和所述文法段落位置特征模板,逐段解析所述需要解析的司法文书,得到司法文书解析结果。
10.根据权利要求9所述的装置,其特征在于,所述解析单元包括:
提取模块,用于从所述需要解析的司法文书中提取的目标段落;
匹配模块,用于为所述目标段落匹配对应的文法段落特征模板;
第一解析模块,用于:若匹配成功,则使用匹配上的文法段落特征模板,解析所述目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程;
第二解析模块,用于:若匹配失败,则为所述目标段落匹配对应的文法段落位置特征模板,若匹配成功,则使用匹配上的文法段落位置特征模板,解析所述目标段落,得到对应的解析结果,并跳转到下一个目标段落的解析流程。
CN201610792049.4A 2016-08-31 2016-08-31 构建当事人画像的方法及装置 Active CN107784024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610792049.4A CN107784024B (zh) 2016-08-31 2016-08-31 构建当事人画像的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610792049.4A CN107784024B (zh) 2016-08-31 2016-08-31 构建当事人画像的方法及装置

Publications (2)

Publication Number Publication Date
CN107784024A true CN107784024A (zh) 2018-03-09
CN107784024B CN107784024B (zh) 2019-04-09

Family

ID=61451372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610792049.4A Active CN107784024B (zh) 2016-08-31 2016-08-31 构建当事人画像的方法及装置

Country Status (1)

Country Link
CN (1) CN107784024B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968662A (zh) * 2018-09-27 2020-04-07 北京国双科技有限公司 司法数据处理的方法、装置、存储介质及处理器
CN111311177A (zh) * 2020-01-20 2020-06-19 北京合信力科技有限公司 一种诉讼案件的时效维护方法及装置
CN112581326A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 甄别虚假诉讼的方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008171A (zh) * 2014-06-03 2014-08-27 中国科学院计算技术研究所 一种法律数据库构建方法及法律检索服务方法
WO2015006044A2 (en) * 2013-07-11 2015-01-15 Neura, Inc. Data consolidation mechanisms for internet of things integration platform
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
US20160182516A1 (en) * 2014-12-19 2016-06-23 Bank Of America Corporation Presenting authorized data to a target system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015006044A2 (en) * 2013-07-11 2015-01-15 Neura, Inc. Data consolidation mechanisms for internet of things integration platform
CN104008171A (zh) * 2014-06-03 2014-08-27 中国科学院计算技术研究所 一种法律数据库构建方法及法律检索服务方法
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
US20160182516A1 (en) * 2014-12-19 2016-06-23 Bank Of America Corporation Presenting authorized data to a target system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968662A (zh) * 2018-09-27 2020-04-07 北京国双科技有限公司 司法数据处理的方法、装置、存储介质及处理器
CN112581326A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 甄别虚假诉讼的方法、装置、存储介质及设备
WO2021063072A1 (zh) * 2019-09-30 2021-04-08 北京国双科技有限公司 甄别虚假诉讼的方法、装置、存储介质及设备
CN111311177A (zh) * 2020-01-20 2020-06-19 北京合信力科技有限公司 一种诉讼案件的时效维护方法及装置

Also Published As

Publication number Publication date
CN107784024B (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN108052583B (zh) 电商本体构建方法
CN103885934B (zh) 一种专利文献关键短语自动提取方法
US10565233B2 (en) Suffix tree similarity measure for document clustering
KR101536520B1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN104077407B (zh) 一种智能数据搜索***及方法
CN110377900A (zh) 网络内容发布的审核方法、装置、计算机设备及存储介质
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
CN109726274A (zh) 问题生成方法、装置及存储介质
CN108345686A (zh) 一种基于搜索引擎技术的数据分析方法及***
CN106570013A (zh) 页面访问数据的处理方法和装置
CN113312474A (zh) 一种基于深度学习的法律文书的相似案件智能检索***
CN109446376A (zh) 一种通过分词对语音进行分类的方法及***
CN109299277A (zh) 舆情分析方法、服务器及计算机可读存储介质
CN109933671A (zh) 构建个人知识图谱的方法、装置、计算机设备和存储介质
CN107943792A (zh) 一种语句分析方法、装置及终端设备、存储介质
CN110297880A (zh) 语料产品的推荐方法、装置、设备及存储介质
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN107784024B (zh) 构建当事人画像的方法及装置
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
KR101803150B1 (ko) 빅데이터를 이용한 중요 판례 추출 및 정리 방법
CN105956181A (zh) 搜索方法及装置
CN108153781A (zh) 提取业务领域的关键词的方法和装置
CN106934049B (zh) 一种新闻选题分析方法及装置
CN109558531A (zh) 新闻信息推送方法、装置以及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for creating portrait of party

Effective date of registration: 20190531

Granted publication date: 20190409

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20190409