CN107133208A - 一种实体抽取的方法及装置 - Google Patents

一种实体抽取的方法及装置 Download PDF

Info

Publication number
CN107133208A
CN107133208A CN201710186520.XA CN201710186520A CN107133208A CN 107133208 A CN107133208 A CN 107133208A CN 201710186520 A CN201710186520 A CN 201710186520A CN 107133208 A CN107133208 A CN 107133208A
Authority
CN
China
Prior art keywords
entity
extracted
column
preset
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710186520.XA
Other languages
English (en)
Other versions
CN107133208B (zh
Inventor
吴刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Rim Mdt Infotech Ltd
Original Assignee
Nanjing Rim Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Rim Mdt Infotech Ltd filed Critical Nanjing Rim Mdt Infotech Ltd
Priority to CN201710186520.XA priority Critical patent/CN107133208B/zh
Publication of CN107133208A publication Critical patent/CN107133208A/zh
Application granted granted Critical
Publication of CN107133208B publication Critical patent/CN107133208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种实体抽取方法及装置,该方法包括:确定目标文本的实体关系词,目标文本包括与预定实体相关的信息;抽取目标文本中的表格,以及与表格一一对应的表格描述;基于实体关系词从表格描述中筛选目标表格描述;将目标表格描述对应的表格确定为待抽取表格;基于待抽取表格的内容确定待抽取表格中记录待抽取实体的列或行;抽取记录待抽取实体的列或行中的目标数据,将目标数据作为待抽取实体。本发明能够解决当用户需要从面对大量的文本信息中获取指定的信息时,现有技术中的方法浪费人力和时间,降低工作的效率的问题。

Description

一种实体抽取的方法及装置
技术领域
本发明涉及结构化表格处理领域,尤其涉及一种实体抽取的方法及装置。
背景技术
随着互联网的迅猛发展,越来越多的信息以电子文本的形式出现在人们的生活中,如何帮助人们在电子文本信息源中迅速找到真正需要的信息成为要解决的问题,由此产生了信息抽取的方法。信息抽取的主要功能是从文本中抽取出特定的事实信息,实体抽取为信息抽取中的一种。信息抽取在金融领域也得到广泛的应用,金融领域经常需要从一些文本信息中获取指定的信息,现有技术中通常采用的方法是通过人工浏览的方式,即用户需要依次浏览文本中的信息,然后从中找出指定的信息。但是,当用户需要从大量的文本信息中获取指定的信息时,例如,从上千家公司的新股发行公告、招股说明书、年报和季报等文本中找出指定信息,采用现有技术中的方法,势必需要花费大量的时间和人力才能实现,如此不仅浪费人力和时间,还降低了工作的效率。
发明内容
本发明提供了一种实体抽取的方法及装置,能够解决当用户需要从面对大量的文本信息中获取指定的信息时,现有技术中的方法浪费人力和时间,降低工作的效率的问题。
第一方面,本发明实施例提供一种实体抽取的方法,包括:
确定目标文本的实体关系词,所述目标文本包括与预定实体相关的信息,所述实体关系词表示所述预定实体与待抽取实体之间为目标实体关系的词;
抽取所述目标文本中的表格,以及与所述表格一一对应的表格描述,所述表格描述为所述目标文本中位于所述表格之前的一个句子;
基于所述实体关系词从所述表格描述中筛选目标表格描述,所述目标表格描述包括记录了所述目标实体关系的表格描述;
将所述目标表格描述对应的表格确定为待抽取表格;
基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行;
抽取所述记录待抽取实体的列或行中的目标数据,将所述目标数据作为所述待抽取实体。
第二方面,本发明实施例提供一种实体抽取的装置,包括:
确定单元,用于确定目标文本的实体关系词,所述目标文本包括与预定实体相关的信息,所述实体关系词表示所述预定实体与待抽取实体之间为目标实体关系的词;
抽取单元,用于抽取所述目标文本中的表格,以及与所述表格一一对应的表格描述,所述表格描述为所述目标文本中位于所述表格之前的一个句子;
筛选单元,用于基于所述实体关系词从所述表格描述中筛选目标表格描述,所述目标表格描述包括记录了所述实体关系词的表格描述;
所述确定单元,还用于将所述目标表格描述对应的表格确定为待抽取表格;
所述确定单元,还用于基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行;
所述抽取单元,还用于抽取所述记录待抽取实体的列或行中的目标数据,将所述目标数据作为所述待抽取实体。
本发明实施例提供一种实体关系抽取的方法及装置,本发明实施例中目标文本包括与预定实体相关的信息,确定目标文本的实体关系词后,从目标文本中抽取其中的表格和与表格一一对应的表格描述;基于实体关系词从表格描述中筛选记录了目标实体关系的目标表格描述;并从目标表格描述对应的表格中确定记录待抽取实体的列或行。本发明实施例中,对目标文本中表格提取满足目标实体关系的实体,首先通过表格描述确定出待抽取表格,然后从记录预设关系的表格中确定记录抽取目标的列,记录抽取目标的列对应内容即为抽取目标,如此,通过对目标文本中表格分析可得出满足预设关系的内容,即不需要用户需要依次浏览目标文本中,就可以找出指定信息,从而节省大量的人力和时间,提高工作的效率。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明,其中:
通过阅读以下参照附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显,其中,相同或相似的附图标记表示相同或相似的特征。
图1为根据本发明一实施例提供的实体抽取的方法的示意性流程图;
图2是根据本发明一实施例提供的实体抽取的装置的示意性框图;
图3是根据本发明又一个或多个实施例提供的实体抽取的装置的示意性框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本发明造成不必要的模糊。
本发明实施例适用于在目标文本中抽取与预设实体为目标实体关系的实体的场景,即在目标文本中抽取与预设实体存在某种关系的实体的场景。目标文本包括与预定实体相关的信息,即目标文本中的内容与预定实体相关,包括:预设实体发布的与其相关的文本,或者预设实体发布的只与其相关的文本。预设实体为抽取实体关系前预先设定的实体,包括组织机构、公司名称等等。例如,金融领域中对于上市公司A发布的与其相关的文本有:招股说明书、年度报告、半年度报告、季度报告、公司股份变更报告、发行证券申请、发行证券募集说明书、权益变动报告、上市公司收购报告、要约收购报告等等,本发明实施例可以以上述文本为目标文本,以A为预设实体,在上述文本中抽取与A存在合作关系、竞争关系、客户关系、供应商关系等等关系的实体。本发明实施例中所涉及的实体关系抽取表示对与发布文本的预设实体满足要抽取的目标实体关系的实体进行抽取,即抽取的为实体。
图1是根据本发明一实施例提供的实体抽取的方法的示意性流程图。该方法可以用于具有计算功能的设备,例如计算机。如图1所示,该方法包括:步骤101、确定目标文本的实体关系词;步骤102、抽取目标文本中的表格,以及与表格一一对应的表格描述;步骤103、基于实体关系词从表格描述中筛选目标表格描述;步骤104,将目标表格描述对应的表格确定为待抽取表格;步骤105、基于待抽取表格的内容确定待抽取表格中记录待抽取实体的列或行;步骤106、抽取记录待抽取实体的列或行中的目标数据,将目标数据作为待抽取实体。
在步骤101中,目标文本可以包括与预定实体相关的信息。实体关系词表示预定实体与待抽取实体之间为目标实体关系的词,实体关系词可以预先设定,例如,合作、竞争等等。本发明实施例中中为从目标文本的表格中抽取与预设实体存在目标实体关系的实体。
在步骤102中,表格描述为目标文本中位于表格之前的一个句子。通常情况下,文本中表格之前均有用一句话介绍或概括表格中内容的句子,即为表格描述,所以本发明实施例中在抽取表格的同时,还抽取每个表格的表格描述,即为目标文本中位于表格之前的一个句子。
在步骤103中,目标表格描述包括记录了目标实体关系的表格描述。通过分析抽取的表格描述的内容,基于实体关系词可以得出记录了目标实体关系的表格描述。由于实体关系词能够体现出预设实体与待抽取实体之间为目标实体关系,所以基于实体关系词对表格描述进行筛选,筛选出目标表格描述。
在步骤104中,在筛选出目标表格描述后,由于目标表格描述记录了目标实体关系,所以可以确定出目标表格描述对应的表格中记录与预设实体之间存在目标实体关系的内容,所以目标表格描述对应的表格为待抽取表格。
在步骤105中,表格通常由列和行构成,所以在确定待抽取实体之前需要首先确定待抽取表格中记录了待抽取实体的行或者列。
在步骤106中,在确定出记录了待抽取实体的行或者列后,记录了待抽取实体的行或者列对应的数据即为待抽取实体。
本发明实施例中,对目标文本中表格提取满足目标实体关系的实体,首先通过表格描述确定出待抽取表格,然后从记录预设关系的表格中确定记录抽取目标的列,记录抽取目标的列对应内容即为抽取目标,如此,通过对目标文本中表格分析可得出满足预设关系的内容,即不需要用户需要依次浏览目标文本中,就可以找出指定信息,从而节省大量的人力和时间,提高工作的效率
可以理解的是,在本发明实施例中,步骤103可以具体执行为如下步骤:1031,根据预设启发式规则从表格描述中筛选符合预设启发式规则的表格描述;1032,计算符合预设启发式规则的表格描述中每个词的信息增益;1033,基于信息增益的大小从每个词中选取至少一个特征词;1034,基于至少一个特征词和特征向量构建规则构建每个表格描述的特征向量,特征向量中的元素表示特征向量对应的表格描述是否包含至少一个特征词;1035,根据特征向量从表格描述中筛选目标表格描述。
在步骤1031中,预设启发式规则可以根据实体关系词设定。对于某种特定关系,使用一个启发式规则可以将所有表格描述分为两部分:极可能符合该关系的部分和极可能不符合该关系的部分。本发明实施例中,启发式规则基于实体关系词设定,实体关系词体现的是预设实体与带抽取实体之间的目标实体关系,则基于该启发式规则,可以将表格描述分为极可能符合目标实体关系的部分和极可能不符合目标实体关系的部分,则极可能符合目标实体关系的部分即为满足启发式规则的表格描述。
例如,本发明实施例中目标实体关系为合作伙伴关系时,利用启发式规则:表格描述中是否包含“合作”这个词,来把所有表格描述分成极可能符合合作关系的表格描述和极可能不符合合作关系的表格描述,进而得出目标表格描述。
在步骤1032中,计算信息增益的方式可以为通过如下过程计算每个此的信息增益。
在本发明实施例中给定条件为启发式规则,基于启发式规则将表格描述分为两部分。对于表格描述C中符合目标关系的表格描述中的一个词T,其在表格描述C的信息增益IG(T),IG(T)定义为C的熵H(C)与T在给定条件下C的条件熵H(C∣T)之差,即为公式1。
IG(T)=H(C)-H(C|T) 公式1
其中,H(C)可以通过公式2计算得出,H(C|T)可以通过公式3计算得出。
在公式2中,i表示表格描述基于启发式规则被划分的个数,即本发明实施例中表格描述分为两部分,则i取值为1和2,例如,i等于1表示表格描述中符合目标关系的部分,i等于2表示表格描述中不符合目标关系的部分;ci表示表格描述中符合或者不符合目标关系;P(ci)表示所有表格描述中符合(或不符合)目标实体关系的类别出现的概率;t表示表格描述C中不符合目标关系的表格描述中的一个词,P(t)表示该词在表格描述中出现的概率,表示该词在表格描述中不出现的概率,且P(ci∣t)表示在词t出现的条件下,该表格描述属于类别ci的概率,表示在词t不出现的条件下,该表格描述属于类别ci的概率;
综上,某个词T对表格描述C的信息增益IG(T)可以通过公式4计算。
需要说明的是,在计算每个词的信息增益之前,还可以对表格描述进行分词,以此来确定表格描述中包括的词。
在步骤1033中,基于表格描述中各词的信息增益的大小可以体现出各词在表格描述中出现的频率,或者各词的信息增益的大小可以体现在区分表格描述是否符合启发式规则时各词所起作用的大小,信息增益越大的词在符合启发式规则的表格描述中出现的频率越大、在区分表格描述是否符合启发式规则时所起作用的越大,所以基于各词的信息增益的大小选取至少一个特征词。特征词为能够在表格描述中体现目标实体关系的词,即表示如果在表格描述中包含了特征词,此表格描述很有可能是目标表格描述的词。
具体的,步骤1033可以具体执行为:从每个词中选取预设数目个信息增益最大的词为特征词,预设数目为不小于1的整数。
例如,将每个词按照信息增益由大到小的顺序进行排序,则排在前面的预设数目个词即为选取的特征词。
在步骤1034中,特征向量中的元素表示特征向量对应的表格描述是否包含至少一个特征词。即特征向量中的元素的值表示特征向量对应的表格描述中有没有选取的各特征词。
具体的,本发明实施例中设置特征向量构建规则包括特征向量中的元素与一个特征词一一对应,步骤1034具体执行为:对每个表格描述,确定表格描述中包含的特征词和不包含的特征词;在表格描述的特征向量中,将包含的特征词对应元素的值设置为第一预设值,将不包含的特征词对应的元素的值设置为第二预设值。
其中,特征向量中的每一个元素与一个特征词一一对应,当表格描述中有某个特征词时,此表格描述对应特征向量中与此特征词对应的元素的值确定为第一预设值;当表格描述中没有某个特征词时,此表格描述对应特征向量中与此特征词对应的元素的值确定为第二预设值,通过上述规则来构建每个表格描述的特征向量。如果某个表格描述中包含所有的特征词,则此表格描述的特征向量中元素的值均为第一预设值;如果某个表格描述中不包含任何一个特征词,则此表格描述的特征向量中元素的值均为第二预设值。
在步骤1035中,根据构建出的每个表格描述的特征向量可以从表格描述中筛选目标表格描述。
具体的,本发明实施例中步骤1035可以具体执行为:通过分类模型从特征向量中筛选满足预设规则的特征向量,其中,分类模型为对特征向量中的一部分特征向量进行标注后、通过标注的特征向量训练得到的,标注用于表示特征向量是否满足预设规则;将满足预设规则的特征向量对应的表格描述确定为目标表格描述。
其中,标注可以为人工判断后完成,则分类模型可以为通过经人工标注的部分特征向量学习训练后得到的,即为用户在全部特征向量中选定一部分作为训练样本,并对训练样本进行标注,标注出哪些特征向量为目标表格描述的特征向量,以及标注出哪些特征向量不为目标表格描述的特征向量,这样分类模型通过训练样本训练后,就可以将所有的特征向量识别,并筛选出目标表格描述的特征向量,进而确定出哪些为目标表格描述。本实施例通过机器学习中的分类模型筛选目标表格描述,可以快速准确的得出满足预设规则的特征向量,进而保证实体抽取的准确性。用户可以通过对样本中每个特征向量对应表格实体表达的含义来判定哪些为目标表格描述的特征向量。
可以理解的是,在本发明实施例中,步骤105可以具体可以通过两种方式来实现。
方式一:将待抽取表格中数据与预设词库匹配,确定所述待抽取表格中记录所述待抽取实体的行或列。
方式二:基于预定特征构建所述待抽取表格中各行或各列的特征向量,预定特征包括各行或各列所包括数据的特征;从各行或各列的特征向量中筛选出记录所述待抽取实体的行或列。
在方式一中,预设词库为根据表格中通常在记录待抽取实体时的记录规律建立的。具体的可以执行为如下步骤:将待抽取表格中数据与预设词库匹配,确定待抽取表格中记录待抽取实体的列或行。
例如,本发明实施例中预设实体为A公司(A为公司名称),目标实体关系为合作,表1为待抽取表格,从表1中抽取第一行和第一列的所有词,得出第一行为:序号、客户名称、销售额(元)、占年度销售总额比例;第一列为:序号、1、2、3、4、5。将抽取的数据与预设词库进行比较。由于本发明实施例中待抽取的实体为与预设实体之间为目标实体关系的实体,则所以待抽取的实体应为公司名称,所以预设词库中包括公司名称,此时将从表1中抽取的第一行和第一列数据与预设词库匹配,得出第一行中客户名称能够与预设词库匹配,从而将表1中客户名称所在列作为记录待抽取实体的列。
表1
序号 客户名称 销售额(元) 占年度销售总额比例
1 A 34584143.00 1.49%
2 B 15915190.81 0.68%
3 C 7162135.00 0.31%
4 D 7049503.00 0.30%
5 E 5970553.00 0.26%
合计 - 70681524.81 3.04%
在方式二中,预定特征包括各行或各列所包括数据的特征,例如,是否包括某个字符,各行或各列的字符串长度,行数或列数等等。具体可以包括:第一行是否包含字符串“公司”(是为1,否有为0)、第一行是否包含字符串“名称”(是为1,否有为0)、第一行是否包含字符串“供应商”(是为1,否有为0)、第一行是否包含字符串“合作伙伴”(是为1,否有为0)、第一行是否包含字符串“客户”(是为1,否有为0)、第一行是否包含字符串“竞争对手”(是为1,否有为0)、该列包含字符串“公司”的行数、该列包含字符串“厂”的行数、该列包含数字的行数、该列的平均字符串长度等等。
在构建出各行或各列的特征向量后,从各行或各列的特征向量中筛选出记录待抽取实体的列或行的方式可以为根据机器学习训练行分类模型或列分类模型,通过行分类模型或列分类模型筛选出记录待抽取实体的行或列。
例如,从各行或各列的特征向量中筛选出记录待抽取实体的行可以具体为:对行特征向量中的一部分行特征向量进行标注,标注用于表示行特征向量是否满足预设规则;通过标注的行特征向量训练行分类模型;通过行分类模型从全部的行特征向量中筛选满足预设规则的行特征向量;将满足预设规则的行特征向量对应的行确定为记录待抽取实体的行。
例如,从各行或各列的特征向量中筛选出记录待抽取实体的列可以具体为:对列特征向量中的一部分列特征向量进行标注,标注用于表示列特征向量是否满足预设规则;通过标注的列特征向量训练列分类模型;通过列分类模型从全部的列特征向量中筛选满足预设规则的列特征向量;将满足预设规则的列特征向量对应的列确定为记录待抽取实体的列。
需要说明的是,由于一些表格中为了对某些数据进行统计或者其他目的,通常会存在“合计”、“其他”等类似的数据,而这些数据并不仅是待抽取的实体,所以在通过步骤106确定称呼目标数据后,还可以在对目标数据进行过滤。
具体可以实现为:根据过滤词列表对目标数据进行过滤,过滤词列表包括至少一个过滤词,过滤词为预估的记录待抽取实体的列或行中不属于抽取实体的词;将过滤后的目标数据作为待抽取实体。
通过对目标数据进行过滤,滤除预估的可能存在的不属于抽取实体的词,提高抽取实体的准确性。
需要说明的是,目标格式为设备可以解析或识别其表格和文字的格式,例如doc或docx格式。在实际场景中,用户经常用到的目标文本并不是文档格式的,例如,PDF格式,这时就需要说先将目标文本转化为文档格式,在进行操作。例如,使用固态转换器SolidConverter将PDF格式的招股说明书转换成docx格式以方便解析招股说明书的表格内容。
图2是根据本发明一实施例提供的实体抽取的装置的示意性框图。如图2所示,所述装置20包括:
确定单元21,用于确定目标文本的实体关系词,所述目标文本包括与预定实体相关的信息,所述实体关系词表示所述预定实体与待抽取实体之间为目标实体关系的词;
抽取单元22,用于抽取所述目标文本中的表格,以及与所述表格一一对应的表格描述,所述表格描述为所述目标文本中位于所述表格之前的一个句子;
筛选单元23,用于基于所述实体关系词从所述表格描述中筛选目标表格描述,所述目标表格描述包括记录了所述实体关系词的表格描述;
所述确定单元21,还用于将所述目标表格描述对应的表格确定为待抽取表格;
所述确定单元21,还用于基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行;
所述抽取单元22,还用于抽取所述记录待抽取实体的列或行中的目标数据,将所述目标数据作为所述待抽取实体。
本发明实施例中,对目标文本中表格提取满足目标实体关系的实体,首先通过表格描述确定出待抽取表格,然后从记录预设关系的表格中确定记录抽取目标的列,记录抽取目标的列对应内容即为抽取目标,如此,通过对目标文本中表格分析可得出满足预设关系的内容,即不需要用户需要依次浏览目标文本中,就可以找出指定信息,从而节省大量的人力和时间,提高工作的效率。
可以理解的是,所述筛选单元23还可以用于:
根据预设启发式规则从所述表格描述中筛选符合所述预设启发式规则的表格描述,所述预设启发式规则根据所述实体关系词设定;
计算所述符合所述预设启发式规则的表格描述中每个词的信息增益;
基于所述信息增益的大小从所述每个词中选取至少一个特征词;
基于所述至少一个特征词和特征向量构建规则构建每个所述表格描述的特征向量,所述特征向量中的元素表示所述特征向量对应的表格描述是否包含所述至少一个特征词;
根据所述特征向量从所述表格描述中筛选所述目标表格描述。
可以理解的是,所述特征向量构建规则包括特征向量中的元素与一个所述特征词一一对应;所述筛选单元23还可以用于:
对每个所述表格描述执行如下步骤:
确定所述表格描述中包含的特征词和不包含的特征词;
在所述表格描述的特征向量中,将所述包含的特征词对应元素的值设置为第一预设值,将所述不包含的特征词对应的元素的值设置为第二预设值。
可以理解的是,所述筛选单元23还可以用于:
从所述每个词中选取预设数目个所述信息增益最大的词为所述特征词,所述预设数目为不小于1的整数。
可以理解的是,所述筛选单元23还可以用于:
通过所述分类模型从所述特征向量中筛选满足所述预设规则的特征向量,其中,所述分类模型为对所述特征向量中的一部分特征向量进行标注后、通过标注的特征向量训练得到的,所述标注用于表示所述特征向量是否满足预设规则;
将所述满足所述预设规则的特征向量对应的表格描述确定为所述目标表格描述。
可以理解的是,所述确定单元21还可以用于:
获取所述待抽取表格的第一列的数据;
判断所述第一列的数据中是否包括与所述预设词库匹配的词,所述预设词库根据所述表格中记录所述待抽取实体的规律设定;
当所述第一列的数据中包括与所述预设词库匹配的词时,将所述待抽取表格中所述与所述预设词库匹配的词对应的行确定为所述待抽取实体的行。
可以理解的是,所述确定单元21还可以用于:
获取所述待抽取表格的第一行的数据;
判断所述第一行的数据中是否包括与所述预设词库匹配的词,所述预设词库根据所述表格中记录所述待抽取实体的规律设定;
当所述第一行的数据中包括与所述预设词库匹配的词时,将所述待抽取表格中所述与所述预设词库匹配的词对应的列确定为所述待抽取实体的列。
可以理解的是,所述确定单元21还可以用于:
构建所述待抽取表格中每一行的行特征向量;
对所述行特征向量中的一部分行特征向量进行标注,所述标注用于表示所述行特征向量是否满足预设规则;
通过标注的行特征向量训练行分类模型;
通过所述行分类模型从全部的行特征向量中筛选满足所述预设规则的行特征向量;
将所述满足所述预设规则的行特征向量对应的行确定为所述记录所述待抽取实体的行。
可以理解的是,所述确定单元21还可以用于:
构建所述待抽取表格中每一列的列特征向量;
对所述列特征向量中的一部分列特征向量进行标注,所述标注用于表示所述列特征向量是否满足预设规则;
通过标注的列特征向量训练列分类模型;
通过所述列分类模型从全部的列特征向量中筛选满足所述预设规则的列特征向量;
将所述满足所述预设规则的列特征向量对应的列确定为所述记录所述待抽取实体的列。
图3是根据本发明又一个或多个实施例提供的实体抽取的装置的示意性框图。
作为一个可选实施例,如图3所示,所述装置20还可以包括:
过滤单元24,用于根据过滤词列表对所述目标数据进行过滤,所述过滤词列表包括至少一个过滤词,所述过滤词为预估的所述记录待抽取实体的列或行中不属于抽取实体的词;
所述确定单元21还用于将过滤后的目标数据作为所述待抽取实体。
作为一个可选实施例,如图3所示,所述装置20还可以包括:
转化单元25,用于将所述目标文本的格式转化为文档格式。
需要说明的是,根据本发明实施例的实体抽取的装置200可对应于根据本发明实施例的实体抽取的方法中的执行主体,并且实体抽取的装置200中的各个模块的上述和其它操作和/或功能分别为了实现图1中的各个方法的相应流程,为了简洁,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

Claims (22)

1.一种实体抽取的方法,其特征在于,包括:
确定目标文本的实体关系词,所述目标文本包括与预定实体相关的信息,所述实体关系词表示所述预定实体与待抽取实体之间为目标实体关系的词;
抽取所述目标文本中的表格,以及与所述表格一一对应的表格描述,所述表格描述为所述目标文本中位于所述表格之前的一个句子;
基于所述实体关系词从所述表格描述中筛选目标表格描述,所述目标表格描述包括记录了所述目标实体关系的表格描述;
将所述目标表格描述对应的表格确定为待抽取表格;
基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行;
抽取所述记录待抽取实体的列或行中的目标数据,将所述目标数据作为所述待抽取实体。
2.根据权利要求1所述的方法,其特征在于,所述基于所述实体关系词从所述表格描述中筛选目标表格描述的处理,包括:
根据预设启发式规则从所述表格描述中筛选符合所述预设启发式规则的表格描述,所述预设启发式规则根据所述实体关系词设定;
计算所述符合所述预设启发式规则的表格描述中每个词的信息增益;
基于所述信息增益的大小从所述每个词中选取至少一个特征词;
基于所述至少一个特征词和特征向量构建规则构建每个所述表格描述的特征向量,所述特征向量中的元素表示所述特征向量对应的表格描述是否包含所述至少一个特征词;
根据所述特征向量从所述表格描述中筛选所述目标表格描述。
3.根据权利要求2所述的方法,其特征在于,所述特征向量构建规则包括特征向量中的元素与一个所述特征词一一对应;
基于所述至少一个特征词和特征向量构建规则构建每个所述表格描述的特征向量,包括:
对每个所述表格描述,确定所述表格描述中包含的特征词和不包含的特征词;
在所述表格描述的特征向量中,将所述包含的特征词对应元素的值设置为第一预设值,将所述不包含的特征词对应的元素的值设置为第二预设值。
4.根据权利要求2所述的方法,其特征在于,所述基于所述信息增益的大小从所述每个词中选取至少一个特征词,包括:
从所述每个词中选取预设数目个所述信息增益最大的词为所述特征词,所述预设数目为不小于1的整数。
5.根据权利要求2所述的方法,其特征在于,所述根据所述特征向量从所述表格描述中筛选所述目标表格描述,包括:
通过所述分类模型从所述特征向量中筛选满足所述预设规则的特征向量,其中,所述分类模型为对所述特征向量中的一部分特征向量进行标注后、通过标注的特征向量训练得到的,所述标注用于表示所述特征向量是否满足预设规则;
将所述满足所述预设规则的特征向量对应的表格描述确定为所述目标表格描述。
6.根据权利要求1所述的方法,其特征在于,所述基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行,包括:
将所述待抽取表格中数据与预设词库匹配,确定所述待抽取表格中记录所述待抽取实体的列或行;或者,
基于预定特征构建所述待抽取表格中各行或各列的特征向量,所述预定特征包括所述各行或各列所包括数据的特征;
从所述各行或各列的特征向量中筛选出记录所述待抽取实体的列或行。
7.根据权利要求6所述的方法,其特征在于,所述将所述待抽取表格中数据与预设词库匹配,确定所述待抽取表格中记录所述待抽取实体的列或行,包括:
获取所述待抽取表格的第一行的数据和第一列数据;
将所述第一行的数据和所述第一列数据与预设词库匹配;
将所述第一行的数据中与所述预设词库匹配的数据对应的列确定为记录所述待抽取实体的列,将所述第一列的数据中与所述预设词库匹配的数据对应的行确定为记录所述待抽取实体的行。
8.根据权利要求6所述的方法,其特征在于,所述从所述各行或各列的特征向量中筛选出记录所述待抽取实体的行,包括:
对所述行特征向量中的一部分行特征向量进行标注,所述标注用于表示所述行特征向量是否满足预设规则;
通过标注的行特征向量训练行分类模型;
通过所述行分类模型从全部的行特征向量中筛选满足所述预设规则的行特征向量;
将所述满足所述预设规则的行特征向量对应的行确定为所述记录所述待抽取实体的行。
9.根据权利要求6所述的方法,其特征在于,所述从所述各行或各列的特征向量中筛选出记录所述待抽取实体的列,包括:
对所述列特征向量中的一部分列特征向量进行标注,所述标注用于表示所述列特征向量是否满足预设规则;
通过标注的列特征向量训练列分类模型;
通过所述列分类模型从全部的列特征向量中筛选满足所述预设规则的列特征向量;
将所述满足所述预设规则的列特征向量对应的列确定为所述记录所述待抽取实体的列。
10.根据权利要求1所述的方法,其特征在于,还包括:
根据过滤词列表对所述目标数据进行过滤,所述过滤词列表包括至少一个过滤词,所述过滤词为预估的所述记录待抽取实体的列或行中不属于抽取实体的词;
将过滤后的目标数据作为所述待抽取实体。
11.根据权利要求1所述的方法,其特征在于,在所述确定目标文本的实体关系词之前,还包括:
将所述目标文本的格式转化为文档格式。
12.一种实体抽取的装置,其特征在于,包括:
确定单元,用于确定目标文本的实体关系词,所述目标文本包括与预定实体相关的信息,所述实体关系词表示所述预定实体与待抽取实体之间为目标实体关系的词;
抽取单元,用于抽取所述目标文本中的表格,以及与所述表格一一对应的表格描述,所述表格描述为所述目标文本中位于所述表格之前的一个句子;
筛选单元,用于基于所述实体关系词从所述表格描述中筛选目标表格描述,所述目标表格描述包括记录了所述目标实体关系的表格描述;
所述确定单元,还用于将所述目标表格描述对应的表格确定为待抽取表格;
所述确定单元,还用于基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行;
所述抽取单元,还用于抽取所述记录待抽取实体的列或行中的目标数据,将所述目标数据作为所述待抽取实体。
13.根据权利要求12所述的装置,其特征在于,所述筛选单元还用于:
根据预设启发式规则从所述表格描述中筛选符合所述预设启发式规则的表格描述,所述预设启发式规则根据所述实体关系词设定;
计算所述符合所述预设启发式规则的表格描述中每个词的信息增益;
基于所述信息增益的大小从所述每个词中选取至少一个特征词;
基于所述至少一个特征词和特征向量构建规则构建每个所述表格描述的特征向量,所述特征向量中的元素表示所述特征向量对应的表格描述是否包含所述至少一个特征词;
根据所述特征向量从所述表格描述中筛选所述目标表格描述。
14.根据权利要求13所述的装置,其特征在于,所述特征向量构建规则包括特征向量中的元素与一个所述特征词一一对应;所述筛选单元还用于:
对每个所述表格描述执行如下步骤:
确定所述表格描述中包含的特征词和不包含的特征词;
在所述表格描述的特征向量中,将所述包含的特征词对应元素的值设置为第一预设值,将所述不包含的特征词对应的元素的值设置为第二预设值。
15.根据权利要求13所述的装置,其特征在于,所述筛选单元还用于:
从所述每个词中选取预设数目个所述信息增益最大的词为所述特征词,所述预设数目为不小于1的整数。
16.根据权利要求13所述的装置,其特征在于,所述筛选单元还用于:
通过所述分类模型从所述特征向量中筛选满足所述预设规则的特征向量,其中,所述分类模型为对所述特征向量中的一部分特征向量进行标注后、通过标注的特征向量训练得到的,所述标注用于表示所述特征向量是否满足预设规则;
将所述满足所述预设规则的特征向量对应的表格描述确定为所述目标表格描述。
17.根据权利要求16所述的装置,其特征在于,所述确定单元还用于:
将所述待抽取表格中数据与预设词库匹配,确定所述待抽取表格中记录所述待抽取实体的列或行;或者,
基于预定特征构建所述待抽取表格中各行或各列的特征向量,所述预定特征包括所述各行或各列所包括数据的特征;
从所述各行或各列的特征向量中筛选出记录所述待抽取实体的列或行。
18.根据权利要求16所述的装置,其特征在于,所述确定单元还用于:
获取所述待抽取表格的第一行的数据和第一列数据;
将所述第一行的数据和所述第一列数据与预设词库匹配;
将所述第一行的数据中与所述预设词库匹配的数据对应的列确定为记录所述待抽取实体的列,将所述第一列的数据中与所述预设词库匹配的数据对应的行确定为记录所述待抽取实体的行。
19.根据权利要求16所述的装置,其特征在于,所述确定单元还用于:
对所述行特征向量中的一部分行特征向量进行标注,所述标注用于表示所述行特征向量是否满足预设规则;
通过标注的行特征向量训练行分类模型;
通过所述行分类模型从全部的行特征向量中筛选满足所述预设规则的行特征向量;
将所述满足所述预设规则的行特征向量对应的行确定为所述记录所述待抽取实体的行。
20.根据权利要求16所述的装置,其特征在于,所述确定单元还用于:
对所述列特征向量中的一部分列特征向量进行标注,所述标注用于表示所述列特征向量是否满足预设规则;
通过标注的列特征向量训练列分类模型;
通过所述列分类模型从全部的列特征向量中筛选满足所述预设规则的列特征向量;
将所述满足所述预设规则的列特征向量对应的列确定为所述记录所述待抽取实体的列。
21.根据权利要求12所述的装置,其特征在于,还包括:
过滤单元,用于根据过滤词列表对所述目标数据进行过滤,所述过滤词列表包括至少一个过滤词,所述过滤词为预估的所述记录待抽取实体的列或行中不属于抽取实体的词;
所述确定单元还用于将过滤后的目标数据作为所述待抽取实体。
22.根据权利要求12所述的装置,其特征在于,还包括:
转化单元,用于将所述目标文本的格式转化为文档格式。
CN201710186520.XA 2017-03-24 2017-03-24 一种实体抽取的方法及装置 Active CN107133208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710186520.XA CN107133208B (zh) 2017-03-24 2017-03-24 一种实体抽取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710186520.XA CN107133208B (zh) 2017-03-24 2017-03-24 一种实体抽取的方法及装置

Publications (2)

Publication Number Publication Date
CN107133208A true CN107133208A (zh) 2017-09-05
CN107133208B CN107133208B (zh) 2021-08-24

Family

ID=59721107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710186520.XA Active CN107133208B (zh) 2017-03-24 2017-03-24 一种实体抽取的方法及装置

Country Status (1)

Country Link
CN (1) CN107133208B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522538A (zh) * 2018-11-28 2019-03-26 腾讯科技(深圳)有限公司 表格内容的自动分列方法、装置、设备及存储介质
CN109710725A (zh) * 2018-12-13 2019-05-03 中国科学院信息工程研究所 一种基于文本分类的中文表格列标签恢复方法和***
CN110990551A (zh) * 2019-12-17 2020-04-10 北大方正集团有限公司 文本内容的处理方法、装置、设备以及存储介质
CN112149399A (zh) * 2020-09-25 2020-12-29 北京来也网络科技有限公司 基于rpa及ai的表格信息抽取方法、装置、设备及介质
CN112989050A (zh) * 2021-03-31 2021-06-18 建信金融科技有限责任公司 一种表格分类方法、装置、设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2180087A1 (en) * 1995-06-30 1996-12-31 Don Carl Ferguson Method for Electronically Recognizing and Parsing Information Contained in a Financial Statement
US20030120642A1 (en) * 1999-12-30 2003-06-26 Decode Genetics, Ehf. Indexing, rewriting and efficient querying of relations referencing semistructured data
US20050160109A1 (en) * 2003-12-19 2005-07-21 Canon Kabushiki Kaisha Apparatus and method for managing date files
CN101097572A (zh) * 2006-06-30 2008-01-02 西门子(中国)有限公司 一种具有多行内容节点的树形结构列表显示方法及其装置
US20080077578A1 (en) * 2006-09-22 2008-03-27 Cuneyt Ozveren Feature Extraction For Peer-To-Peer Collaboration
US8682904B1 (en) * 2010-04-27 2014-03-25 Google Inc. System of intuitive sorting of a table based on a column containing fractions
CN103699523A (zh) * 2013-12-16 2014-04-02 深圳先进技术研究院 产品分类方法和装置
CN103793451A (zh) * 2012-10-26 2014-05-14 国际商业机器公司 用于排序并表示数据元组集合的***和方法
CN104881488A (zh) * 2015-06-05 2015-09-02 焦点科技股份有限公司 基于关系表的可配置信息抽取方法
CN105045769A (zh) * 2015-06-01 2015-11-11 中国人民解放军装备学院 一种基于结构识别的Web表格信息抽取方法
CN105404674A (zh) * 2015-11-20 2016-03-16 焦点科技股份有限公司 一种知识依赖的网页信息抽取方法
CN105630916A (zh) * 2015-12-21 2016-06-01 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法
CN105653522A (zh) * 2016-01-21 2016-06-08 中国农业大学 一种针对植物领域的非分类关系识别方法
CN106294520A (zh) * 2015-06-12 2017-01-04 微软技术许可有限责任公司 使用从文档提取的信息来标识关系
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2180087A1 (en) * 1995-06-30 1996-12-31 Don Carl Ferguson Method for Electronically Recognizing and Parsing Information Contained in a Financial Statement
US20030120642A1 (en) * 1999-12-30 2003-06-26 Decode Genetics, Ehf. Indexing, rewriting and efficient querying of relations referencing semistructured data
US20050160109A1 (en) * 2003-12-19 2005-07-21 Canon Kabushiki Kaisha Apparatus and method for managing date files
CN101097572A (zh) * 2006-06-30 2008-01-02 西门子(中国)有限公司 一种具有多行内容节点的树形结构列表显示方法及其装置
US20080077578A1 (en) * 2006-09-22 2008-03-27 Cuneyt Ozveren Feature Extraction For Peer-To-Peer Collaboration
US8682904B1 (en) * 2010-04-27 2014-03-25 Google Inc. System of intuitive sorting of a table based on a column containing fractions
CN103793451A (zh) * 2012-10-26 2014-05-14 国际商业机器公司 用于排序并表示数据元组集合的***和方法
CN103699523A (zh) * 2013-12-16 2014-04-02 深圳先进技术研究院 产品分类方法和装置
CN105045769A (zh) * 2015-06-01 2015-11-11 中国人民解放军装备学院 一种基于结构识别的Web表格信息抽取方法
CN104881488A (zh) * 2015-06-05 2015-09-02 焦点科技股份有限公司 基于关系表的可配置信息抽取方法
CN106294520A (zh) * 2015-06-12 2017-01-04 微软技术许可有限责任公司 使用从文档提取的信息来标识关系
CN105404674A (zh) * 2015-11-20 2016-03-16 焦点科技股份有限公司 一种知识依赖的网页信息抽取方法
CN105630916A (zh) * 2015-12-21 2016-06-01 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法
CN105653522A (zh) * 2016-01-21 2016-06-08 中国农业大学 一种针对植物领域的非分类关系识别方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘健: "实体检索的理论与关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522538A (zh) * 2018-11-28 2019-03-26 腾讯科技(深圳)有限公司 表格内容的自动分列方法、装置、设备及存储介质
US11487935B2 (en) 2018-11-28 2022-11-01 Tencent Technology (Shenzhen) Company Limited Method and apparatus for automatically splitting table content into columns, computer device, and storage medium
CN109710725A (zh) * 2018-12-13 2019-05-03 中国科学院信息工程研究所 一种基于文本分类的中文表格列标签恢复方法和***
CN110990551A (zh) * 2019-12-17 2020-04-10 北大方正集团有限公司 文本内容的处理方法、装置、设备以及存储介质
CN110990551B (zh) * 2019-12-17 2023-05-26 北大方正集团有限公司 文本内容的处理方法、装置、设备以及存储介质
CN112149399A (zh) * 2020-09-25 2020-12-29 北京来也网络科技有限公司 基于rpa及ai的表格信息抽取方法、装置、设备及介质
CN112149399B (zh) * 2020-09-25 2024-06-04 北京来也网络科技有限公司 基于rpa及ai的表格信息抽取方法、装置、设备及介质
CN112989050A (zh) * 2021-03-31 2021-06-18 建信金融科技有限责任公司 一种表格分类方法、装置、设备及存储介质
CN112989050B (zh) * 2021-03-31 2023-05-30 建信金融科技有限责任公司 一种表格分类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107133208B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN107133208B (zh) 一种实体抽取的方法及装置
CN106844413B (zh) 实体关系抽取的方法及装置
US9025890B2 (en) Information classification device, information classification method, and information classification program
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
EP3680850A1 (en) Method and system for determining risk score for a contract document
US20050182736A1 (en) Method and apparatus for determining contract attributes based on language patterns
US8140337B2 (en) Apparatus, method and program for text mining
CN107145516B (zh) 一种文本聚类方法及***
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN112163072B (zh) 基于多数据源的数据处理方法以及装置
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN113961685A (zh) 信息抽取方法及装置
CN112307741B (zh) 保险行业文档智能化解析方法和装置
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN111339457A (zh) 用于从网页抽取信息的方法和设备及存储介质
CN114548072A (zh) 用于合同类文件的自动内容解析与信息评测方法及***
CN113239668B (zh) 关键词智能提取方法、装置、计算机设备及存储介质
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及***
CN110489514B (zh) 提升事件抽取标注效率的***及方法、事件抽取方法及***
CN109993381B (zh) 基于知识图谱的需求管理应用方法、装置、设备及介质
CN104079450A (zh) 特征模式集生成方法及装置
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN116384344A (zh) 一种文档转换方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. 1 road 211100 Jiangsu Dongji city of Nanjing province Jiangning economic and Technological Development Zone

Applicant after: Nanjing Ke Data Technology Co., Ltd.

Address before: No. 1 road 211100 Jiangsu Dongji city of Nanjing province Jiangning economic and Technological Development Zone

Applicant before: Nanjing rim Mdt InfoTech Ltd

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant