CN105938495A - 实体关系识别方法及装置 - Google Patents
实体关系识别方法及装置 Download PDFInfo
- Publication number
- CN105938495A CN105938495A CN201610285633.0A CN201610285633A CN105938495A CN 105938495 A CN105938495 A CN 105938495A CN 201610285633 A CN201610285633 A CN 201610285633A CN 105938495 A CN105938495 A CN 105938495A
- Authority
- CN
- China
- Prior art keywords
- rule
- entity
- candidate
- word
- labelling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种实体关系识别方法及装置,所述方法包括:从语料库的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语法标记获得标记后的文本句子;基于实体关系种子对标记后的文本句子进行匹配检索得到训练样例;将训练样例中的实体关系种子词替换为预定标识,结合命名实体识别和依存语法标记对替换后的训练样例进行处理,生成候选规则;对侯选规则进行模糊化得到模糊规则;判断模糊规则中是否包括新规则;当模糊规则中包括新规则时,根据模糊规则检索语料库得到种子集合,将所得种子集合作为实体关系识别结果。本发明能有效地降低人工参与度,降低对标定语料库的依赖,同时能及时发现新实体关系,自适应不同领域的实体关系挖掘。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于语法分析和自扩展的实体关系识别方法及装置。
背景技术
信息抽取(Information extraction,简写为IE)技术能够帮助人们在海量信息中快速定位到自己真正需要的信息,信息抽取是一个以无结构的自然语言文档作为输入,产生固定格式、无歧义的格式化数据的过程。信息抽取是自然语言处理的一个研究热点。信息抽取***有两个重要方向,其一是从文本中抽取实体,其二是确定文本之间存在的关系。
命名实体识别(Named Entity Recognition,简写为NER)的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。命名实体之间存在的关系就是实体关系。实体关系抽取是信息抽取中的重要任务,对信息抽取技术的研究与应用都有重要的意义,同时它也是篇章理解的一项核心技术,对信息检索、问答***、信息过滤、机器翻译等都有非常积极的意义。
目前,命名实体关系识别的主要方法有两种,一种是基于规则库算法,这种方法需要建立一些规则,虽然这种方法的准确率较高,但是这种规则的确定是比较困难的,对编写者有较高的要求,且移植性不高;相关研究表明命名实体识别呈现弱领域相关性。不同领域具有类似特点,但是从某个领域移植到一个新领域,通常会遇到严重的性能下降问题,主要原因在于命名实体的标记定义不同、不同领域有着不同的形态语法特点。
另一种是基于统计的机器学习算法,这种算法采用不同的模型,并利用人工标注的训练集进行学习,对于新的数据集则采用模型算出相关的概率,并以此来得到最终的结果。这种方法代价较小,性能较高,便于移植,所以是当前研究的热点。但是基于统计的方法对语料库的依赖比较大,而可以用来建设和评估命名实体识别***的大规模通用语料库又比较少。SIGHANBakeoff08测评中,中文命名实体识别使用的语料库主要包括:香港城市大学语料库(1772202字,训练集)、微软亚洲研究院语料库(1089050字,训练集)、北京大学语料库(1833177字,训练集)。这些语料库比较小、应用不广泛,无法应用于大规模的NER***。因此,目前的问题是如何最大限度地使用这些有限的语料库。基于统计机器学习的方法主要包括:隐马尔可夫模型(Hidden Markov Model,简写为HMM)、最大熵(Maxmium Entropy,简写为ME)、支持向量机(Support Vector Machine,简写为SVM)、条件随机场(ConditionalRandom Fields,简写为CRF)等。
语法分析是自然语言处理领域的一个非常的关键技术手段,其一方面可对相应树库构建体系的正确性和完善性进行验证,另一方面也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。
自扩展(Bootstrapping)技术是一种无监督的机器学习方法,该方法是一种被广泛用于知识获取的机器学习技术,而且是一种循序渐进的学习方法,只需要很小数量的种子,以此为基础,通过一次次的训练,把种子进行有效的扩充,最终达到需要的数据信息规模。自扩展技术它首先基于无结构文本数据构造实体关系的模式,然后使用这些模式从文档集合中抽取关系,这些新抽取关系用来对原有的模式进行泛化,然后再进行新一轮抽取,如此循环操作,直到抽取的关系满足我们的要求位置,这种方法虽然具有自举学习能力,但是其并不能及时有效地排出学习过程中产生的错误的关系模式,而如果错误的关系模式不能被及时排出,则可能会引入更多错误的关系,进一步使用后,会导致错误的扩大。而且,也还未见有将语法分析和Bootstrapping技术结合起来实现实体关系识别的方法。
综合上述可知,随着网络信息量的增大,对海量文本数据的命名实体关系识别变得越来越复杂,如何利用海量文本数据来挖掘更多更准确的相关领域实体关系是目前亟待解决的技术难题而成为了重要的研究方向。
发明内容
本发明所要解决的技术问题在于,提供一种实体关系识别方法,能高效地利用海量文本数据来挖掘更多更准确的相关领域实体关系。
本发明进一步要解决的技术问题在于,提供一种实体关系识别装置,能高效地利用海量文本数据来挖掘更多更准确的相关领域实体关系。
为解决上述技术问题,本发明提供如下技术方案:一种实体关系识别方法,包括以下步骤:
从语料库中的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语法标记,获得标记后的文本句子;
基于实体关系种子对所述标记后的文本句子进行匹配检索,得到训练样例;
将所述训练样例中的实体关系种子词替换为预定标识,结合所述命名实体识别和依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则;
对所述侯选规则进行模糊化,得到模糊规则;
判断所述模糊规则中是否包括新规则;
当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料库,得到种子集合,将所述种子集合作为实体关系识别结果。
进一步地,所述对所述侯选规则进行模糊化,得到模糊规则,包括:
求得所述候选规则的最长公共子序列的长度,并根据最长公共子序列长度将各候选规则的字符串进行对齐,将对齐的词予以保留,未能对齐的词替换为第一替代符,获得模糊规则。
进一步地,所述得到模糊规则之后还包括:
根据预设阈值对获得的模糊规则进行评价和过滤,保留精准度符合要求的模糊规则。
进一步地,所述获得标记后的文本句子,包括:
对目标文本进行切分,以获得语句序列;
对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词和词性标注;
对每个预处理后的语句进行命名实体识别和标定;以及
对每个进行命名实体识别和标定的语句进行依存语法分析,并进行依存语法标记获得标记后的文本句子。
进一步地,将训练样例中的关系种子词替换为预定标识,结合所述命名实体识别和依存语法标记对替换后的训练样例进行处理生成上下文特征模板作为候选规则的具体处理流程如下:
将训练样例中的关系种子词替换为预定标识;
根据依存语法标记,先确定句子主干并予以保留,再对于未包含在句子主干内的种子词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系链,并将在此逐层关联关系链上的词予以保留,将其余词都替换为第一替代符,获得包含有句子主干的候选句子;
对候选句子中的作为种子的实体词予以保留,而对非种子的实体词仅保留实体类型;
对于处理了实体词的第一候选句子,再对所述第一候选句子中的非实体词进行分析,保留形容词、名词、动词的词和词性信息,其他的非实体词仅保留词性信息;以及
对于处理了非实体词的第二候选句子,对所述第二候选句子中的同义词进行合并处理,以最终获得的特征模板作为候选规则。
进一步地,所述求得所述候选规则的最长公共子序列的长度包括:
假设字符串a[0...n],b[0...m],字符串a对应的是二维数组num的行,字符串b对应的是二维数组num的列,按照以下递推公式获得各候选规则的对应的字符串的最长公共子序列的长度:
。
进一步地,根据预设阈值对获得的模糊规则进行评价和过滤的具体操作如下:
根据以下公式获得待评价的模糊规则下的每个类别的概率值p(ci|rule):
其中,rule为待评价的模糊规则,ci是类别信息,p(ci)是类别i模糊规则数占比概率,p(rule|ci)是ci类别下某模糊规则rule的概率;
过滤掉p(ci|rule)<预定阈值的模糊规则,保留p(ci|rule)>预定阈值的模糊规则。
进一步地,基于若干实体关系种子对标记后的文本句子进行匹配检索时,所依据的实体关系种子的来源如下:在进行初次检索时,实体关系种子事先由人工标定或者由***自动抓取标定;在循环执行的检索过程中,直接采用在上一个循环执行过程中所产生的实体关系种子集合。
另一方面,本发明实施例还提供一种实体关系识别装置,其包括:
文本数据处理及语法分析模块,从语料库中的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语法标记,获得标记后的文本句子;
训练样例生成模块,基于实体关系种子对所述标记后的文本句子进行匹配检索,得到训练样例;
候选规则生成模块,将所述训练样例中的实体关系种子词替换为预定标识,结合所述命名实体识别和依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则;
规则模糊化模块,对所述侯选规则进行模糊化,得到模糊规则;以及
判断模块,判断所述模糊规则中是否包括新规则;
种子集合提取模块,当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料库,得到种子集合,将所述种子集合作为实体关系识别结果。
进一步地,所述规则模糊化模块包括:
最长公共子序列长度计算单元,求得所述候选规则的最长公共子序列的长度;
对齐单元,根据最长公共子序列长度将各候选规则的字符串进行对齐;以及
替代单元,将对齐的词予以保留,未能对齐的词替换为第一替代符,获得模糊规则。
进一步地,所述装置还包括:
规则评价模块,根据预设阈值对获得的模糊规则进行评价和过滤,保留精准度符合要求的模糊规则。
进一步地,所述文本数据处理及语法分析模块包括:
切分单元,用于对目标文本进行切分,以获得语句序列;
预处理单元,用于对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词和词性标注;
实体识别及标定单元,用于对每个预处理后的语句进行命名实体识别和标定;以及
依存语法分析单元,用于对每个进行命名实体识别和标定的语句进行依存语法分析,并进行依存语法标记获得标记后的文本句子。
进一步地,所述候选规则生成模块包括:
替换单元,将训练样例中的关系种子词替换为预定标识;
候选句子获取单元,根据依存语法标记,先确定句子主干并予以保留,再对于未包含在句子主干内的种子词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系链,并将在此逐层关联关系链上的词予以保留,将其余词都替换为第一替代符,获得包含有句子主干的候选句子;
实体词处理单元,对候选句子中的作为种子的实体词予以保留,而对非种子的实体词保留实体类型;
非实体词处理单元,对于处理了实体词的第一候选句子,对所述第一候选句子中的非实体词进行分析,保留形容词、名词、动词的词和词性信息,其他的非实体词保留词性信息;以及
同义词合并单元,对于处理了非实体词的第二候选句子,对所述第二候选句子中的同义词进行合并处理,以最终获得的特征模板作为候选规则。
进一步地,所述最长公共子序列长度计算单元采用以下递推公式计算所述候选规则的对应的字符串的最长公共子序列的长度:
假设字符串a[0...n],b[0...m],字符串a对应的是二维数组num的行,字符串b对应的是二维数组num的列,则递推公式为:
。
进一步地,所述规则评价模块计算待评价的模糊规则下的每个类别的概率值p(ci|rule)的公式如下:
其中,rule为待评价的模糊规则,ci是类别信息,p(ci)是类别i模糊规则数占比概率,p(rule|ci)是ci类别下某模糊规则rule的概率;
过滤掉p(ci|rule)<预定阈值的模糊规则,保留p(ci|rule)>预定阈值的模糊规则。
采用上述技术方案后,本发明至少具有如下有益效果:本发明一方面基于语法分析识别句子的语法标记,可实现更准确的规则构建,实现更精准的实体关系抽取;基于最长公共子序列发现的规则模糊化,可实现灵活可扩展的规则构建,实现更多的实体关系抽取覆盖;另一方面,基于自扩展技术的自迭代策略,可以基于较少的种子实体关系,不断迭代发现更多的实体关系加入种子集合,进一步发现更为准确的模板规则,实现精准的领域实体挖掘。从而,能最大程度地降低人工的参与度,降低对标定语料库的依赖,同时能够及时的发现新的实体关系,并能自适应不同领域的挖掘。
附图说明
图1是本发明实体关系识别方法的流程图。
图2是本发明实体关系识别方法的根据依存语法标记对例句进行标记识别的结果示意图。
图3是本发明实体关系识别方法的生成的模糊规则匹配表示意图。
图4是本发明实体关系识别装置的原理方框图。
图5是本发明实体关系识别装置的文本数据处理及语法分析模块的构成示意图。
图6是本发明实体关系识别装置的候选规则生成模块的构成示意图。
图7是本发明实体关系识别装置的规则模糊化模块的构成示意图。
具体实施方式
下面结合附图和具体实施例对本申请作进一步详细说明。应当理解,以下的示意性实施例及说明仅用来解释本发明,并不作为对本发明的限定,而且,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
本发明提供一种实体关系识别方法及装置,该方法是基于自动规则发现的识别方法,规则库基于语法分析和自扩展(bootstrapping)策略,从无标注文本数据中自动生成。
本发明实体关系识别方法及装置的基本原理是:基于标定的少量高质量关系种子集合,采用依存语法识别句子主干,定义了候选规则抽取及其模糊化策略,并基于多类别的概率判别策略,同时使用Bootstrapping策略进行自举式模式挖掘,从未标注语料库中迭代地挖掘实体关系模式,抽取关系元祖。本发明的方法及装置在整个实施过程中仅需很少的关系种子作为启动种子,可适应新领域的实体关系挖掘。
基于上述基本原理,本发明实施例首先提供了一种实体关系识别方法,其包括以下步骤:
从语料库中的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语法标记,获得标记后的文本句子;
基于实体关系种子对所述标记后的文本句子进行匹配检索,得到训练样例;
将所述训练样例中的实体关系种子词替换为预定标识,结合所述命名实体识别和依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则;
对所述侯选规则进行模糊化,得到模糊规则;
判断所述模糊规则中是否包括新规则;
当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料库,得到种子集合,将所述种子集合作为实体关系识别结果。
上述方法基于依存语法分析识别句子的语法标记,可实现更准确的规则构建,实现更精准的实体关系抽取,对候选规则模糊化,可实现灵活可扩展的规则构建,实现更多的实体关系抽取覆盖。从而,能最大程度地降低人工的参与度,降低对标定语料库的依赖,同时能够及时的发现新的实体关系。
以下结合图1所示对本发明实施例实体关系识别方法的各具体步骤详细描述。
步骤S1、文本数据处理及语法分析
对大规模语料库中的目标文本进行数据处理获得语句序列,并对语句序列中的每一个语句进行命名实体识别和标定以及依存语法标记,获得标记后的文本句子,在一个实施例中,以采用一篇文章作为目标文本为例,本步骤S1的具体流程如下:
S11、对文章进行切分,以获得语句序列;
S12、对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词、词性标注等;
S13、对每个语句进行命名实体识别并标定,具体可包括领域实体标定,如电影名称;
S14、对每个语句进行依存语法分析并标记,获得标记后的文本句子。
以从一篇文章中切分获得的例句一“寻龙诀是乌尔善执导的动作电影”、例句二“寻龙诀是由乌尔善执导的悬疑动作电影”为例,在进行分词及实体识别后的结果分别如下:
寻龙诀/filmname 是/v 乌尔善/nh 执导/v 的/u 动作/n 电影/n
寻龙诀/filmname是/v 由/p 乌尔善/nh 执导/v 的/u 悬疑/n 动作/n 电影/n
其中,filmname是指电影名称,nh是指人名,v是指动词,n是指名词,u是指不可数名称,p是指介词。
依存语法中,主要有以下依存关系标记(共24个):定中关系ATT(attribute)、数量关系QUN(quantity)、并列关系COO(coordinate)、同位关系APP(appositive)、前附加关系LAD(left adjunct)、后附加关系RAD(right adjunct)、动宾关系VOB(verb-object)、介宾关系POB(preposition-object)、主谓关系SBV(subject-verb)、比拟关系SIM(similarity)、核心HED(head)、连动结构VV(verb-verb)、关联结构CNJ(conjunctive)、语态结构MT(mood-tense)、独立结构IS(independent structure)、状中结构ADV(adverbial)、动补结构CMP(complement)、“的”字结构DE、“地”字结构DI、“得”字结构DEI、“把”字结构BA、“被”字结构BEI、独立分句IC(independent clause)、依存分句DC(dependent clause)。
而根据依存语法标记对以上的例句一和例句二进一步进行标记识别的依存语法结构如图2所示。
步骤S2、训练样例生成
基于若干实体关系种子对所述标记后的文本句子进行匹配检索,匹配出包含实体关系种子的相关文本句子生成训练样例。在初次执行所述检索时,需要事先由人工标定或者由***自动抓取标定的来获得所述实体关系种子,而在后续的循环执行的检索过程中,则可以直接采用在上一个循环执行过程中所产生的实体关系种子集合。实体关系种子通常是指具有某种内在关联的实体词对,例如:电影改编关系,“鬼吹灯之寻龙诀根据盗墓小说鬼吹灯改编而成”,其中的“鬼吹灯之寻龙诀”和“鬼吹灯”就是改编关系种子对;电影执导关系,例如“寻龙诀是由乌尔善执导的悬疑动作电影”,其中的“寻龙诀”和“乌尔善”就是执导关系种子对。以“寻龙诀”和“乌尔善”就是执导关系种子对为例,从文本数据处理及语法分析后的文本句子中即可匹配出包含该实体关系种子的文本句子“寻龙诀是乌尔善执导的动作电影”、“寻龙诀是由乌尔善执导的悬疑动作电影”作为训练样例。
步骤S3、候选规则生成
针对训练样例,将关系种子词替换为预定标识,例如:元祖T,结合所述命名实体识别和依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则。其具体处理流程如下:
S31、种子词替换为预定标识,例如元祖T;
S32、根据依存语法标记,先确定句子主干并予以保留,再对于未包含在句子主干内的种子词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系链,并将在此逐层关联关系链上的词予以保留,然后将其余词都替换为第一替代符,例如:*,进而获得包含有主干的候选句子;
S33、对候选句子进行实体词取舍处理,具体是将其中为种子的实体词予以保留,而非种子的实体词仅保留实体类型;
S34、对进行了实体词取舍处理后的第一候选句子再进行非实体词取舍处理,具体地,对第一候选句子中的非实体词进行分析,保留形容词、名词、动词的词和词性信息,其他的非实体词仅保留词性信息;以及
S35、对于处理了非实体词的第二候选句子,对所述第二候选句子中同义词进行合并处理,以最终获得的特征模板作为候选规则。
仍以前述的例句一和例句二作为训练样例,按照上述流程处理后生成的候选规则分别如下:
[T]/filmname 是/v 乌尔善/nh 执导/v * 电影/n
[T]/filmname 是/v /p 乌尔善/nh 执导/v * 电影/n
步骤S4、基于最长子序列的规则模糊化
一个字符串的子序列,是指从该字符串中去掉任意多个字符后剩下的字符在不改变顺序的情况下组成的新字符串。最长公共子序列,是指多个字符串可具有的长度最大的公共的子序列。
采用动态规划求最长公共子序列的长度。字符串a[0...n],b[0...m],字符串a对应的是二维数组num的行,字符串b对应的是二维数组num的列。下面就是递推公式:
将所述候选规则按照以上公式求得的最长公共子序列的长度,并根据最长公共子序列将各候选规则的字符串进行对齐,将对齐的词予以保留,其他词替换为第一替代符,例如*,从而获得模糊规则。如图3所示,仍以由“寻龙诀是由乌尔善执导的悬疑动作电影”、“寻龙诀是乌尔善执导的动作电影”这两个例句为例,按照以上各步骤的处理后所生成候选规则再进一步进行模糊化后获得的模糊规则为“[T]/filmname 是/v * [T]/nh 执导/v * 电影/n”。
步骤S5、多类别模糊规则的评价
根据预设阈值对获得模糊规则进行评价和过滤,仅保留精准度符合要求的模糊规则,以有效地避免不必要的噪音因素的影响。明显地,虽然本步骤S5不是必须实施的,但是由于可以提升所获得的模糊规则的精准度,而建议采用。具体地,根据以下公式先获得待评价的模糊规则下的每个类别的概率值p(ci|rule):
其中,rule为待评价的模糊规则,ci是类别信息,p(ci)是类别i关系模糊规则数占比概率,p(rule|ci)是ci类别下某模糊规则rule的概率。
通过预设一个阈值,过滤掉p(ci|rule)<预定阈值的模糊规则,保留p(ci|rule)>预定阈值的模糊规则,从而提高规则的精准度。
步骤S6、判断所述模糊规则中是否包括新规则
经过判断,当确认包括有新规则时,进行后续的步骤S7,而确认未包括新规则时,则终止执行。当然,在一些实际实施的方案中,为提高运行效率,也还可以在生成的新的关系实体数量低于预设的实体数量阈值、发现的新的模式数量低于预设的模式数量阈值或者到达预设置的次数上限时,即终止执行。例如,在一个实施例中,预先设定生成的新的关系实体数量少于上一个循环中生成的新的关系实体数量的5%时,即停止执行,从而,每一次循环结束时都计算本次循环中所获得的新的关系实体数量和上一个循环中所获得的新的关系实体数量的比值,一旦所得比值低于5%,则停止,不再循环执行。
步骤S7、基于规则抽取实体
根据所获得的模糊规则再检索语料库,匹配出满足规则的关系实体对,使用实体对评价函数,过滤筛选得到进一步使用的种子集合,所述种子集合即作为实体关系识别结果,而且还可用于后续执行循环中在生成训练样例时的实体关系种子。
另一方面,为配合上述方法的实施,本发明实施例还提供了一种基于语法分析和自扩展的实体关系识别装置,如图4所示,所述装置包括:
文本数据处理及语法分析模块10,从语料库中的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语法标记,获得标记后的文本句子;
训练样例生成模块20,连接至文本数据处理及语法分析模块10,基于若干实体关系种子对所述标记后的文本句子进行匹配检索,获得训练样例;
候选规则生成模块30,将所述训练样例中的实体关系种子词替换为预定标识,结合所述命名实体识别和依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则;
规则模糊化模块40,对所述侯选规则进行模糊化,得到模糊规则,其具体是采用动态规划求最长公共子序列的长度,对句子和句子生成的字串进行对齐,对齐的词予以保留,对于其余词,如果是获得句子的实体词,则替换为预定标识(如元祖T),其他词替换为第一替代符;
规则评价模块50,连接至规则模糊化模块40,根据预设的阈值对待评价的每个类别模糊规则进行过滤,保留精准度符合要求的模糊规则,所述规则评价模块50可以进一步提升模糊规则的精准度,因此,虽然不是必须的模块,但仍优选设置规则评价模块50;
判断模块60,判断所述模糊规则中是否包括新规则以输出相应的指令;以及
实体抽取模块70,当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料库,匹配出满足规则库的关系实体对,使用实体对评价函数,对经过规则评价模块50过滤后的每个类别模糊规则进一步过滤筛选得到进一步使用的种子集合,将所述种子集合作为实体关系识别结果。
其中,如图5所示,所述文本数据处理及语法分析模块10又还可以进一步包括:
切分单元100,用于对目标文本进行切分,以获得语句序列;
预处理单元102,用于对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词和词性标注;
实体识别及标定单元104,用于对每个预处理后的语句进行命名实体识别和标定;以及
依存语法分析单元106,用于对每个进行命名实体识别和标定的语句进行依存语法分析,并进行依存语法标记获得标记后的文本句子。
如图6所示,所述候选规则生成模块30又进一步包括:
替换单元300,将训练样例中的关系种子词替换为预定标识;
候选句子获取单元302,根据依存语法标记,先确定句子主干并予以保留,再对于未包含在句子主干内的种子词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系链,并将在此逐层关联关系链上的词予以保留,将其余词都替换为第一替代符,获得包含有句子主干的候选句子;
实体词处理单元304,对候选句子中的作为种子的实体词予以保留,而对非种子的实体词保留实体类型;
非实体词处理单元306,对于处理了实体词的第一候选句子,对所述第一候选句子中的非实体词进行分析,保留形容词、名词、动词的词和词性信息,其他的非实体词保留词性信息;以及
同义词合并单元308,对于处理了非实体词的第二候选句子,对所述第二候选句子中的同义词进行合并处理,以最终获得的特征模板作为候选规则。
如图7所示,所述规则模糊化模块40又进一步包括:
最长公共子序列长度计算单元400,求得所述候选规则的最长公共子序列的长度;
对齐单元402,根据最长公共子序列长度将各候选规则的字符串进行对齐;以及
替代单元404,将对齐的词予以保留,未能对齐的词替换为第一替代符,获得模糊规则。
其中,所述最长公共子序列长度计算单元400采用以下递推公式计算所述候选规则的对应的字符串的最长公共子序列的长度:
假设字符串a[0...n],b[0...m],字符串a对应的是二维数组num的行,字符串b对应的是二维数组num的列,则递推公式为:
。
所述规则评价模块50计算待评价的模糊规则下的每个类别的概率值p(ci|rule)的公式如下:
其中,rule为待评价的模糊规则,ci是类别信息,p(ci)是类别i模糊规则数占比概率,p(rule|ci)是ci类别下某模糊规则rule的概率;
过滤掉p(ci|rule)<预定阈值的模糊规则,保留p(ci|rule)>预定阈值的模糊规则。
本发明通过上述方法及其配套的装置,基于语法分析和Bootstrapping的领域实体关系识别,可实现从海量无结构文本数据中自动挖掘实体关系识别规则库,从而发现新的实体关系,更具有以下几点优势:第一,本发明能缓解目前标定语料库的不足,采用bootstrapping模板发现策略,基于较少的种子实体集合,自动生成实体识别规则,实现海量数据的实体自动发现。第二,本发明使用了语法分析的特征,建立了更准确的规则描述,使用了更多的特征,具有更好的实体识别效果。第三,本发明基于最长子序列发现的规则模糊化策略,实现了更灵活更具扩展的规则库,提供了实体识别的召回率。第四,本发明基于多类别概率规则评价,过滤掉低可信度的规则,提高最终规则识别的精准度。
本发明实施例所述的功能如果以软件功能模块或单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。
Claims (14)
1.一种实体关系识别方法,其特征在于,包括以下步骤:
从语料库中的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语法标记,获得标记后的文本句子;
基于实体关系种子对所述标记后的文本句子进行匹配检索,得到训练样例;
将所述训练样例中的实体关系种子词替换为预定标识,结合所述命名实体识别和依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则;
对所述侯选规则进行模糊化,得到模糊规则;
判断所述模糊规则中是否包括新规则;
当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料库,得到种子集合,将所述种子集合作为实体关系识别结果。
2.根据权利要求1所述的实体关系识别方法,其特征在于,所述对所述侯选规则进行模糊化,得到模糊规则,包括:
求得所述候选规则的最长公共子序列的长度,并根据最长公共子序列长度将各候选规则的字符串进行对齐,将对齐的词予以保留,未能对齐的词替换为第一替代符,获得模糊规则。
3.根据权利要求1或2所述的实体关系识别方法,其特征在于,所述得到模糊规则之后还包括:
根据预设阈值对获得的模糊规则进行评价和过滤,保留精准度符合要求的模糊规则。
4.根据权利要求1所述的实体关系识别方法,其特征在于,所述获得标记后的文本句子,包括:
对目标文本进行切分,以获得语句序列;
对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词和词性标注;
对每个预处理后的语句进行命名实体识别和标定;以及
对每个进行命名实体识别和标定的语句进行依存语法分析,并进行依存语法标记获得标记后的文本句子。
5.根据权利要求1所述的实体关系识别方法,其特征在于,将训练样例中的关系种子词替换为预定标识,结合所述命名实体识别和依存语法标记对替换后的训练样例进行处理生成上下文特征模板作为候选规则的具体处理流程如下:
将训练样例中的关系种子词替换为预定标识;
根据依存语法标记,先确定句子主干并予以保留,再对于未包含在句子主干内的种子词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系链,并将在此逐层关联关系链上的词予以保留,将其余词都替换为第一替代符,获得包含有句子主干的候选句子;
对候选句子中的作为种子的实体词予以保留,而对非种子的实体词保留实体类型;
对于处理了实体词的第一候选句子,对所述第一候选句子中的非实体词进行分析,保留形容词、名词、动词的词和词性信息,其他的非实体词保留词性信息;以及
对于处理了非实体词的第二候选句子,对所述第二候选句子中的同义词进行合并处理,以最终获得的特征模板作为候选规则。
6.根据权利要求2所述的实体关系识别方法,其特征在于,所述求得所述候选规则的最长公共子序列的长度包括:
假设字符串a[0...n],b[0...m],字符串a对应的是二维数组num的行,字符串b对应的是二维数组num的列,按照以下递推公式获得各候选规则的对应的字符串的最长公共子序列的长度:
。
7.根据权利要求3所述的实体关系识别方法,其特征在于,根据预设阈值对获得的模糊规则进行评价和过滤的具体操作如下:
根据以下公式获得待评价的模糊规则下的每个类别的概率值p(ci|rule):
其中,rule为待评价的模糊规则,ci是类别信息,p(ci)是类别i模糊规则数占比概率,p(rule|ci)是ci类别下某模糊规则rule的概率;
过滤掉p(ci|rule)<预定阈值的模糊规则,保留p(ci|rule)>预定阈值的模糊规则。
8.一种实体关系识别装置,其特征在于,其包括:
文本数据处理及语法分析模块,从语料库中的目标文本中获取语句序列,对所述语句序列进行命名实体识别和依存语法标记,获得标记后的文本句子;
训练样例生成模块,基于实体关系种子对所述标记后的文本句子进行匹配检索,得到训练样例;
候选规则生成模块,将所述训练样例中的实体关系种子词替换为预定标识,结合所述命名实体识别和依存语法标记对替换后的训练样例进行处理,生成上下文特征模板作为候选规则;
规则模糊化模块,对所述侯选规则进行模糊化,得到模糊规则;以及
判断模块,判断所述模糊规则中是否包括新规则;
实体抽取模块,当所述模糊规则中包括新规则时,根据所述模糊规则检索所述语料库,得到种子集合,将所述种子集合作为实体关系识别结果。
9.根据权利要求1所述的实体关系识别装置,其特征在于,所述规则模糊化模块包括:
最长公共子序列长度计算单元,求得所述候选规则的最长公共子序列的长度;
对齐单元,根据最长公共子序列长度将各候选规则的字符串进行对齐;以及
替代单元,将对齐的词予以保留,未能对齐的词替换为第一替代符,获得模糊规则。
10.根据权利要求8或9所述的实体关系识别装置,其特征在于,所述装置还包括:
规则评价模块,根据预设阈值对获得的模糊规则进行评价和过滤,保留精准度符合要求的模糊规则。
11.根据权利要求8所述的实体关系识别装置,其特征在于,所述文本数据处理及语法分析模块包括:
切分单元,用于对目标文本进行切分,以获得语句序列;
预处理单元,用于对语句序列中的每一个语句进行预处理,所述预处理至少包括:分词和词性标注;
实体识别及标定单元,用于对每个预处理后的语句进行命名实体识别和标定;以及
依存语法分析单元,用于对每个进行命名实体识别和标定的语句进行依存语法分析,并进行依存语法标记获得标记后的文本句子。
12.根据权利要求8所述的实体关系识别装置,其特征在于,所述候选规则生成模块包括:
替换单元,将训练样例中的关系种子词替换为预定标识;
候选句子获取单元,根据依存语法标记,先确定句子主干并予以保留,再对于未包含在句子主干内的种子词进行语法反溯直到确定所述种子词连接至句子主干的逐层关联关系链,并将在此逐层关联关系链上的词予以保留,将其余词都替换为第一替代符,获得包含有句子主干的候选句子;
实体词处理单元,对候选句子中的作为种子的实体词予以保留,而对非种子的实体词保留实体类型;
非实体词处理单元,对于处理了实体词的第一候选句子,对所述第一候选句子中的非实体词进行分析,保留形容词、名词、动词的词和词性信息,其他的非实体词保留词性信息;以及
同义词合并单元,对于处理了非实体词的第二候选句子,对所述第二候选句子中的同义词进行合并处理,以最终获得的特征模板作为候选规则。
13.根据权利要求9所述的实体关系识别装置,其特征在于,所述最长公共子序列长度计算单元采用以下递推公式计算所述候选规则的对应的字符串的最长公共子序列的长度:
假设字符串a[0...n],b[0...m],字符串a对应的是二维数组num的行,字符串b对应的是二维数组num的列,则递推公式为:
。
14.根据权利要求10所述的实体关系识别装置,其特征在于,所述规则评价模块计算待评价的模糊规则下的每个类别的概率值p(ci|rule)的公式如下:
其中,rule为待评价的模糊规则,ci是类别信息,p(ci)是类别i模糊规则数占比概率,p(rule|ci)是ci类别下某模糊规则rule的概率;
过滤掉p(ci|rule)<预定阈值的模糊规则,保留p(ci|rule)>预定阈值的模糊规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610285633.0A CN105938495A (zh) | 2016-04-29 | 2016-04-29 | 实体关系识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610285633.0A CN105938495A (zh) | 2016-04-29 | 2016-04-29 | 实体关系识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105938495A true CN105938495A (zh) | 2016-09-14 |
Family
ID=57152050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610285633.0A Pending CN105938495A (zh) | 2016-04-29 | 2016-04-29 | 实体关系识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105938495A (zh) |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407183A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 医疗命名实体识别***生成方法及装置 |
CN106844413A (zh) * | 2016-11-11 | 2017-06-13 | 南京缘长信息科技有限公司 | 实体关系抽取的方法及装置 |
CN106919794A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
CN106919793A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 一种医疗大数据的数据标准化处理方法及装置 |
CN107169013A (zh) * | 2017-03-31 | 2017-09-15 | 北京三快在线科技有限公司 | 一种菜品信息的处理方法及装置 |
CN107766332A (zh) * | 2017-11-27 | 2018-03-06 | 北京深知无限人工智能科技有限公司 | 一种语言模板构建方法及装置 |
CN108009182A (zh) * | 2016-10-28 | 2018-05-08 | 京东方科技集团股份有限公司 | 一种信息提取方法和装置 |
CN108052501A (zh) * | 2017-12-13 | 2018-05-18 | 北京数洋智慧科技有限公司 | 一种基于人工智能的实体关系对识别方法及*** |
CN108304466A (zh) * | 2017-12-27 | 2018-07-20 | ***股份有限公司 | 一种用户意图识别方法以及用户意图识别*** |
CN108563617A (zh) * | 2018-03-12 | 2018-09-21 | 北京云知声信息技术有限公司 | 汉语句子混合模板的挖掘方法及装置 |
CN108647194A (zh) * | 2018-04-28 | 2018-10-12 | 北京神州泰岳软件股份有限公司 | 信息抽取方法及装置 |
CN108920461A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型且含复杂关系的实体抽取方法及装置 |
CN109002477A (zh) * | 2018-06-19 | 2018-12-14 | 深圳市元征科技股份有限公司 | 信息处理方法、装置、终端及介质 |
CN109284398A (zh) * | 2018-09-29 | 2019-01-29 | 武汉烽火普天信息技术有限公司 | 一种改进双向gru和注意力模型的实体关系抽取方法 |
CN109344393A (zh) * | 2018-08-29 | 2019-02-15 | 北京云知声信息技术有限公司 | 一种主干语句的提取方法及*** |
CN109885691A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN109902305A (zh) * | 2019-03-04 | 2019-06-18 | 上海宝尊电子商务有限公司 | 基于命名实体识别的模板生成、搜索及文本生成设备与方法 |
CN110019816A (zh) * | 2018-08-01 | 2019-07-16 | 云知声(上海)智能科技有限公司 | 一种文本审核中的规则提取方法及*** |
CN110083284A (zh) * | 2019-05-06 | 2019-08-02 | 三角兽(北京)科技有限公司 | 候选信息处理装置、候选信息显示方法、存储介质及电子设备 |
CN110287466A (zh) * | 2019-06-24 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种实体模板生成方法和装置 |
CN110348017A (zh) * | 2019-07-15 | 2019-10-18 | 苏州大学 | 一种文本实体检测方法、***及相关组件 |
CN110413726A (zh) * | 2019-07-31 | 2019-11-05 | 北京中科瑞通信息科技有限公司 | 一种关系对库表建设方法 |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN110705310A (zh) * | 2019-09-20 | 2020-01-17 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN110851692A (zh) * | 2018-07-27 | 2020-02-28 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110909018A (zh) * | 2019-11-12 | 2020-03-24 | 深圳前海微众银行股份有限公司 | Sql语句生成方法、装置、设备及存储介质 |
CN110990451A (zh) * | 2019-11-15 | 2020-04-10 | 浙江大华技术股份有限公司 | 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 |
CN111027313A (zh) * | 2018-10-08 | 2020-04-17 | 中国科学院沈阳计算技术研究所有限公司 | 基于注意力机制的BiGRU判决结果倾向性分析方法 |
CN111046666A (zh) * | 2019-12-19 | 2020-04-21 | 天津新开心生活科技有限公司 | 事件识别方法及装置、计算机可读存储介质、电子设备 |
CN111178076A (zh) * | 2019-12-19 | 2020-05-19 | 成都欧珀通信科技有限公司 | 命名实体识别与链接方法、装置、设备及可读存储介质 |
US10664660B2 (en) | 2017-11-23 | 2020-05-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for extracting entity relation based on deep learning, and server |
CN111310454A (zh) * | 2020-01-17 | 2020-06-19 | 北京邮电大学 | 一种基于领域迁移的关系抽取方法及装置 |
CN111401066A (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 基于人工智能的词分类模型训练方法、词处理方法及装置 |
CN111414747A (zh) * | 2020-02-26 | 2020-07-14 | 重庆兆光科技股份有限公司 | 一种基于弱监督学习的时间知识模糊测度方法及*** |
US10740560B2 (en) | 2017-06-30 | 2020-08-11 | Elsevier, Inc. | Systems and methods for extracting funder information from text |
CN111683285A (zh) * | 2020-08-11 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 文件内容识别方法、装置、计算机设备及存储介质 |
CN111985226A (zh) * | 2019-05-24 | 2020-11-24 | 北京沃东天骏信息技术有限公司 | 标注数据生成方法及装置 |
CN112015913A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 用于训练处罚实体分类模型的方法及装置 |
WO2020257783A1 (en) * | 2019-06-21 | 2020-12-24 | nference, inc. | Systems and methods for computing with private healthcare data |
CN112784605A (zh) * | 2021-02-09 | 2021-05-11 | 柳州智视科技有限公司 | 一种基于句子的实体名识别的方法 |
CN112860896A (zh) * | 2021-03-05 | 2021-05-28 | 三一重工股份有限公司 | 语料泛化方法及用于工业领域的人机对话情感分析方法 |
CN113010642A (zh) * | 2021-03-17 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 语义关系的识别方法、装置、电子设备及可读存储介质 |
US11062218B2 (en) | 2016-09-22 | 2021-07-13 | nference, inc. | Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities |
CN113378561A (zh) * | 2021-08-16 | 2021-09-10 | 北京泰迪熊移动科技有限公司 | 词语预测模板生成方法及装置 |
CN114021028A (zh) * | 2021-10-28 | 2022-02-08 | 四川启睿克科技有限公司 | 一种智能交互***中实体相对热度获取方法 |
CN114579762A (zh) * | 2022-03-04 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 知识图谱对齐方法、装置、设备、存储介质及程序产品 |
CN114625850A (zh) * | 2022-03-09 | 2022-06-14 | 上海弘玑信息技术有限公司 | 字段抽取引擎的生成方法及装置、电子设备、存储介质 |
US11487902B2 (en) | 2019-06-21 | 2022-11-01 | nference, inc. | Systems and methods for computing with private healthcare data |
WO2023231331A1 (zh) * | 2022-05-31 | 2023-12-07 | 浪潮电子信息产业股份有限公司 | 一种知识抽取方法、***、设备及存储介质 |
CN109885691B (zh) * | 2019-01-08 | 2024-06-25 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090204596A1 (en) * | 2008-02-08 | 2009-08-13 | Xerox Corporation | Semantic compatibility checking for automatic correction and discovery of named entities |
CN103365912A (zh) * | 2012-04-06 | 2013-10-23 | 富士通株式会社 | 对实体关系模式进行聚类、提取的方法和设备 |
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
-
2016
- 2016-04-29 CN CN201610285633.0A patent/CN105938495A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090204596A1 (en) * | 2008-02-08 | 2009-08-13 | Xerox Corporation | Semantic compatibility checking for automatic correction and discovery of named entities |
CN103365912A (zh) * | 2012-04-06 | 2013-10-23 | 富士通株式会社 | 对实体关系模式进行聚类、提取的方法和设备 |
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
张奇: "信息抽取中实体关系识别研究", 《中国博士学位论文全文数据库》 * |
Cited By (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11900274B2 (en) | 2016-09-22 | 2024-02-13 | nference, inc. | Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities |
US11062218B2 (en) | 2016-09-22 | 2021-07-13 | nference, inc. | Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities |
CN106407183B (zh) * | 2016-09-28 | 2019-06-28 | 医渡云(北京)技术有限公司 | 医疗命名实体识别***生成方法及装置 |
CN106407183A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 医疗命名实体识别***生成方法及装置 |
CN108009182B (zh) * | 2016-10-28 | 2020-03-10 | 京东方科技集团股份有限公司 | 一种信息提取方法和装置 |
CN108009182A (zh) * | 2016-10-28 | 2018-05-08 | 京东方科技集团股份有限公司 | 一种信息提取方法和装置 |
US10657330B2 (en) | 2016-10-28 | 2020-05-19 | Boe Technology Group Co., Ltd. | Information extraction method and apparatus |
CN106844413A (zh) * | 2016-11-11 | 2017-06-13 | 南京缘长信息科技有限公司 | 实体关系抽取的方法及装置 |
CN106844413B (zh) * | 2016-11-11 | 2020-12-08 | 南京柯基数据科技有限公司 | 实体关系抽取的方法及装置 |
CN106919793A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 一种医疗大数据的数据标准化处理方法及装置 |
CN106919794B (zh) * | 2017-02-24 | 2019-12-06 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
CN106919793B (zh) * | 2017-02-24 | 2019-12-06 | 黑龙江特士信息技术有限公司 | 一种医疗大数据的数据标准化处理方法及装置 |
CN106919794A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
CN107169013A (zh) * | 2017-03-31 | 2017-09-15 | 北京三快在线科技有限公司 | 一种菜品信息的处理方法及装置 |
CN107169013B (zh) * | 2017-03-31 | 2018-01-19 | 北京三快在线科技有限公司 | 一种菜品信息的处理方法及装置 |
US10740560B2 (en) | 2017-06-30 | 2020-08-11 | Elsevier, Inc. | Systems and methods for extracting funder information from text |
US10664660B2 (en) | 2017-11-23 | 2020-05-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for extracting entity relation based on deep learning, and server |
CN107766332A (zh) * | 2017-11-27 | 2018-03-06 | 北京深知无限人工智能科技有限公司 | 一种语言模板构建方法及装置 |
CN108052501A (zh) * | 2017-12-13 | 2018-05-18 | 北京数洋智慧科技有限公司 | 一种基于人工智能的实体关系对识别方法及*** |
CN108304466B (zh) * | 2017-12-27 | 2022-01-11 | ***股份有限公司 | 一种用户意图识别方法以及用户意图识别*** |
CN108304466A (zh) * | 2017-12-27 | 2018-07-20 | ***股份有限公司 | 一种用户意图识别方法以及用户意图识别*** |
CN108563617A (zh) * | 2018-03-12 | 2018-09-21 | 北京云知声信息技术有限公司 | 汉语句子混合模板的挖掘方法及装置 |
CN108647194B (zh) * | 2018-04-28 | 2022-04-19 | 北京神州泰岳软件股份有限公司 | 信息抽取方法及装置 |
CN108647194A (zh) * | 2018-04-28 | 2018-10-12 | 北京神州泰岳软件股份有限公司 | 信息抽取方法及装置 |
CN109002477A (zh) * | 2018-06-19 | 2018-12-14 | 深圳市元征科技股份有限公司 | 信息处理方法、装置、终端及介质 |
CN108920461A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型且含复杂关系的实体抽取方法及装置 |
CN108920461B (zh) * | 2018-06-26 | 2022-03-08 | 武大吉奥信息技术有限公司 | 一种多类型且含复杂关系的实体抽取方法及装置 |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN110851692A (zh) * | 2018-07-27 | 2020-02-28 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110019816A (zh) * | 2018-08-01 | 2019-07-16 | 云知声(上海)智能科技有限公司 | 一种文本审核中的规则提取方法及*** |
CN110019816B (zh) * | 2018-08-01 | 2022-11-25 | 云知声(上海)智能科技有限公司 | 一种文本审核中的规则提取方法及*** |
CN109344393A (zh) * | 2018-08-29 | 2019-02-15 | 北京云知声信息技术有限公司 | 一种主干语句的提取方法及*** |
CN109284398A (zh) * | 2018-09-29 | 2019-01-29 | 武汉烽火普天信息技术有限公司 | 一种改进双向gru和注意力模型的实体关系抽取方法 |
CN111027313A (zh) * | 2018-10-08 | 2020-04-17 | 中国科学院沈阳计算技术研究所有限公司 | 基于注意力机制的BiGRU判决结果倾向性分析方法 |
CN109885691B (zh) * | 2019-01-08 | 2024-06-25 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN109885691A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN109902305A (zh) * | 2019-03-04 | 2019-06-18 | 上海宝尊电子商务有限公司 | 基于命名实体识别的模板生成、搜索及文本生成设备与方法 |
CN110083284A (zh) * | 2019-05-06 | 2019-08-02 | 三角兽(北京)科技有限公司 | 候选信息处理装置、候选信息显示方法、存储介质及电子设备 |
CN111985226A (zh) * | 2019-05-24 | 2020-11-24 | 北京沃东天骏信息技术有限公司 | 标注数据生成方法及装置 |
CN111985226B (zh) * | 2019-05-24 | 2024-03-01 | 北京沃东天骏信息技术有限公司 | 标注数据生成方法及装置 |
US11545242B2 (en) | 2019-06-21 | 2023-01-03 | nference, inc. | Systems and methods for computing with private healthcare data |
US11829514B2 (en) | 2019-06-21 | 2023-11-28 | nference, inc. | Systems and methods for computing with private healthcare data |
US11848082B2 (en) | 2019-06-21 | 2023-12-19 | nference, inc. | Systems and methods for computing with private healthcare data |
US11487902B2 (en) | 2019-06-21 | 2022-11-01 | nference, inc. | Systems and methods for computing with private healthcare data |
WO2020257783A1 (en) * | 2019-06-21 | 2020-12-24 | nference, inc. | Systems and methods for computing with private healthcare data |
CN110287466A (zh) * | 2019-06-24 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种实体模板生成方法和装置 |
CN110348017A (zh) * | 2019-07-15 | 2019-10-18 | 苏州大学 | 一种文本实体检测方法、***及相关组件 |
CN110413726A (zh) * | 2019-07-31 | 2019-11-05 | 北京中科瑞通信息科技有限公司 | 一种关系对库表建设方法 |
CN110705310B (zh) * | 2019-09-20 | 2023-07-18 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN110705310A (zh) * | 2019-09-20 | 2020-01-17 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN110909018A (zh) * | 2019-11-12 | 2020-03-24 | 深圳前海微众银行股份有限公司 | Sql语句生成方法、装置、设备及存储介质 |
CN110990451B (zh) * | 2019-11-15 | 2023-05-12 | 浙江大华技术股份有限公司 | 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 |
CN110990451A (zh) * | 2019-11-15 | 2020-04-10 | 浙江大华技术股份有限公司 | 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 |
CN111178076A (zh) * | 2019-12-19 | 2020-05-19 | 成都欧珀通信科技有限公司 | 命名实体识别与链接方法、装置、设备及可读存储介质 |
CN111046666B (zh) * | 2019-12-19 | 2023-05-05 | 天津新开心生活科技有限公司 | 事件识别方法及装置、计算机可读存储介质、电子设备 |
CN111178076B (zh) * | 2019-12-19 | 2023-08-08 | 成都欧珀通信科技有限公司 | 命名实体识别与链接方法、装置、设备及可读存储介质 |
CN111046666A (zh) * | 2019-12-19 | 2020-04-21 | 天津新开心生活科技有限公司 | 事件识别方法及装置、计算机可读存储介质、电子设备 |
CN111310454B (zh) * | 2020-01-17 | 2022-01-07 | 北京邮电大学 | 一种基于领域迁移的关系抽取方法及装置 |
CN111310454A (zh) * | 2020-01-17 | 2020-06-19 | 北京邮电大学 | 一种基于领域迁移的关系抽取方法及装置 |
CN111414747A (zh) * | 2020-02-26 | 2020-07-14 | 重庆兆光科技股份有限公司 | 一种基于弱监督学习的时间知识模糊测度方法及*** |
CN111414747B (zh) * | 2020-02-26 | 2023-08-18 | 重庆兆光科技股份有限公司 | 一种基于弱监督学习的时间知识模糊测度方法及*** |
CN111401066A (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 基于人工智能的词分类模型训练方法、词处理方法及装置 |
CN111401066B (zh) * | 2020-03-12 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的词分类模型训练方法、词处理方法及装置 |
CN111683285A (zh) * | 2020-08-11 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 文件内容识别方法、装置、计算机设备及存储介质 |
CN112015913A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 用于训练处罚实体分类模型的方法及装置 |
CN112784605A (zh) * | 2021-02-09 | 2021-05-11 | 柳州智视科技有限公司 | 一种基于句子的实体名识别的方法 |
CN112860896A (zh) * | 2021-03-05 | 2021-05-28 | 三一重工股份有限公司 | 语料泛化方法及用于工业领域的人机对话情感分析方法 |
CN113010642B (zh) * | 2021-03-17 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 语义关系的识别方法、装置、电子设备及可读存储介质 |
CN113010642A (zh) * | 2021-03-17 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 语义关系的识别方法、装置、电子设备及可读存储介质 |
CN113378561A (zh) * | 2021-08-16 | 2021-09-10 | 北京泰迪熊移动科技有限公司 | 词语预测模板生成方法及装置 |
CN114021028A (zh) * | 2021-10-28 | 2022-02-08 | 四川启睿克科技有限公司 | 一种智能交互***中实体相对热度获取方法 |
CN114579762B (zh) * | 2022-03-04 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 知识图谱对齐方法、装置、设备、存储介质及程序产品 |
CN114579762A (zh) * | 2022-03-04 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 知识图谱对齐方法、装置、设备、存储介质及程序产品 |
CN114625850A (zh) * | 2022-03-09 | 2022-06-14 | 上海弘玑信息技术有限公司 | 字段抽取引擎的生成方法及装置、电子设备、存储介质 |
WO2023231331A1 (zh) * | 2022-05-31 | 2023-12-07 | 浪潮电子信息产业股份有限公司 | 一种知识抽取方法、***、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105938495A (zh) | 实体关系识别方法及装置 | |
CN105243129B (zh) | 商品属性特征词聚类方法 | |
CN104252533B (zh) | 搜索方法和搜索装置 | |
US10943064B2 (en) | Tabular data compilation | |
US9224103B1 (en) | Automatic annotation for training and evaluation of semantic analysis engines | |
CN105975458B (zh) | 一种基于细粒度依存关系的中文长句相似度计算方法 | |
CN109284397A (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN104573028A (zh) | 实现智能问答的方法和*** | |
CN106874256A (zh) | 识别领域命名实体的方法及装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN106980652B (zh) | 智能问答方法及*** | |
CN105095222B (zh) | 单元词替换方法、搜索方法及装置 | |
US20090112845A1 (en) | System and method for language sensitive contextual searching | |
CN106610990B (zh) | 情感倾向性分析的方法及装置 | |
Joshi et al. | Distributed word representations improve ner for e-commerce | |
CN109840255A (zh) | 答复文本生成方法、装置、设备及存储介质 | |
CN107193892A (zh) | 一种文档主题确定方法及装置 | |
CN107656921A (zh) | 一种基于深度学习的短文本依存分析方法 | |
CN107590119B (zh) | 人物属性信息抽取方法及装置 | |
CN105677637A (zh) | 智能问答***中抽象语义库的更新方法及更新装置 | |
CN105786971B (zh) | 一种面向国际汉语教学的语法点识别方法 | |
Cabrio et al. | Qakis@ qald-2 | |
CN112949293B (zh) | 一种相似文本生成方法、相似文本生成装置及智能设备 | |
CN109992651A (zh) | 一种问题目标特征自动识别和抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160914 |
|
WD01 | Invention patent application deemed withdrawn after publication |