CN110188359B - 一种文本实体抽取方法 - Google Patents
一种文本实体抽取方法 Download PDFInfo
- Publication number
- CN110188359B CN110188359B CN201910472799.7A CN201910472799A CN110188359B CN 110188359 B CN110188359 B CN 110188359B CN 201910472799 A CN201910472799 A CN 201910472799A CN 110188359 B CN110188359 B CN 110188359B
- Authority
- CN
- China
- Prior art keywords
- entity
- sequence
- subset
- extraction
- regression model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本实体抽取方法,本发明利用了大量语料中信息的冗余和重复,先用短语分割和远程监督的方式得到噪声较多的实体,再挖掘实体的上下文序列模式(规则),自动地得到了Snorkel的输入规则,利用Snorkel对噪声标签的容错能力,得到了质量比远程监督好的结果。循环地对模型和结果修正,逐渐去掉噪声,并得到更可靠的序列模式。本发明没有用标签样本,节省了人工;Snorkel的输入规则是自动得到的;结合远程监督、规则挖掘、snorkel,以及循环过程,递进式地改善结果、去除噪声,提高抽取质量。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种少样本文本实体抽取方法。
背景技术
在文本信息抽取的应用场景中,场景多样、细化,缺少标注样本,标注样本获取成本高是工业应用上面临的现状,面对这样的现状,在模型训练的思路下,快速建立标注样本、需要更少样本或噪声更大的样本的深度模型是两个热门的研究方向,在基于抽取规则的思路下,抽取规则集的快速挖掘和建设是热门的研究方向。
目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获得样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本的标注上,整体开发效率仍然低下。
而在基于抽取规则的方法中,虽然不需要人工直接对样本进行标注,但是抽取规则往往需要在领域知识基础上进行大量调试,一套完全基于规则的***可能需要上万条的规则集。为了减轻规则集的开发,规则集的挖掘和自动生成成为一个热点研究方向。
Snorkel是一个从规则到模型的途径,然而它对规则集的准确性依赖性很强,且规则不是自动产生的。
发明内容
本发明结合抽取规则和模型训练的思路,提出一种少量标注样本条件下的信息抽取解决方案,无人工干预就可得到准确率较高的抽取模型。
本发明的目的是通过以下技术方案来实现的:一种文本实体抽取方法,该方法包括以下步骤:
(1)规则集的自动挖掘,包括以下子步骤:
(1.1)在大量的语料上进行短语分割,得到名词短语;
(1.2)用远程监督的方式对名词短语进行实体和实体类型识别;
(1.3)在实体和实体类型识别的结果上挖掘出现频次高的序列模式;在序列模式中,如果原语料中的名词短语被识别为实体,则用该名词短语的实体类型替换序列模式中的该名词短语;
(1.4)根据序列模式中包含的实体类型,将同义的序列模式进行聚合,得到每个语义对应的序列模式子集A;
(1.5)对每个语义对应的序列模式子集A中的实体类型的层级进行调整:在序列模式聚合的结果上,对每个语义对应的序列模式子集A统计其中的实体类型层级,取最多数层级作为该子集A中的实体类型层级;
(1.6)对于每种实体类型,从各子集A中找出包含该类型的序列模式,得到这种实体类型对应的序列模式子集B;
(2)产生有标签数据:将每种实体类型对应的序列模式子集B作为Snorkel的输入,预测出样本的标签,即实体类型,标签带有置信度;
(3)训练实体抽取回归模型:用带有置信度的标签训练实体抽取回归模型,用训练好的回归模型预测语料,得到实体识别结果;
(4)返回步骤(1),用训练好的实体抽取回归模型重新预测语料,用得到的结果对步骤(1)得到的短语分割、远程监督实体识别的结果进行修正,继续剩余的步骤,重新得到实体抽取回归模型和实体识别结果;重复这一过程,直到步骤(3)得到的实体结果与上一次过程得到的结果一致。
进一步地,所述步骤(1.1)中,利用AutoPhrase方法进行短语分割,得到名词短语。
进一步地,所述步骤(1.3)中,在实体和实体类型识别的结果上,用PrefixSpan方法挖掘出现频次高的序列模式。
进一步地,所述步骤(1.4)中,具体聚合方式如下:对序列模式集合建立图结构,图中每个顶点是一个序列模式,两个模式之间的边通过两个模式之间共同的实体类型数量、共同的上下文词数量、相同的实体抽取结果数量这三个特征来定义,基于以上三个特征训练回归模型来赋予每条边权重,用分团算法得到子图,即序列模式子集。
本发明的有益效果是:本发明利用了大量语料中信息的冗余和重复,先用短语分割和远程监督的方式得到噪声较多的实体,再挖掘实体的上下文序列模式(规则),自动地得到了 Snorkel的输入规则,利用Snorkel对噪声标签的容错能力,得到了质量比远程监督好的结果。循环地对模型和结果修正,逐渐去掉噪声,并得到更可靠的序列模式。本发明没有用标签样本,节省了人工;Snorkel的输入规则是自动得到的;结合远程监督、规则挖掘、snorkel,以及循环过程,递进式地改善结果、去除噪声,得到的结果比远程监督好。
附图说明
图1是本发明方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所述实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例,都属于本发明的保护范围。
本发明在少样本的场景下,在大量的无标注样本上进行规则集的自动挖掘,利用Snorkel 对规则集进行管理,并产生大量的包含噪声的带置信度的有标签数据,最后用这些数据来训练实体抽取回归模型。
如图1所示,本发明提出的文本实体抽取方法,具体包括以下步骤:
一.规则集的自动挖掘
在大量的语料上,首先用AutoPhrase方法[AutoPhrase:Automated PhraseMining from Massive Text Corpora]进行短语分割,得到名词短语;
用远程监督的方式对名词短语进行实体和实体类型识别(对于英文医学文本,利用 MetaMap工具可得到更好的结果);
在实体和实体类型识别的结果上,用PrefixSpan方法[PrefixSpan:MiningSequential Patterns Efficiently by Prefix-Projected Pattern Growth]挖掘出现频次高的序列模式。序列模式是在通常的正则模板上增加了实体类型,例如:($MEDCINE)maybe helpful for($DISEASE),其中的 ($MEDCINE)和($DISEASE)分别表示药物、疾病实体类型,序列模式中对应位置可以是任意一种药物、疾病。在序列模式中,如果原语料中的名词短语被识别为实体,则用该名词短语的实体类型替换序列模式中的该名词短语,提高序列模式的泛化性。
根据序列模式中包含的实体类型,将同义的序列模式进行聚合,得到每个语义对应的序列模式子集A,每个子集A中的模式表示相同的语义。同义的序列模式是指表达相同语义的序列模式,如“Person’s age is$Digit”和“$Person,$Digit”这两个序列模式都表达了“人的年龄是数字”这个语义。具体聚合方式如下:对序列模式集合建立图结构,图中每个顶点是一个序列模式,两个模式之间的边通过两个模式之间共同的实体类型数量、共同的上下文词数量、相同的实体抽取结果数量这三个特征来定义,基于以上三个特征训练回归模型来赋予每条边权重,用分团算法[A procedure for clique detection using thegroup matrix]得到子图,即序列模式子集 A。在序列模式“$Country president$Politician”和“president$Politician of$Country”中,两个模式之间共同的实体类型为$Country和$Politician,共同的实体类型数量为2,共同的上下文词为 president,数量为1,相同的实体抽取结果即用这两个序列模式在语料中抽取到的实体数量,例如在$Politician类型实体的抽取中,统计抽取到的$Politician类型实体的数量。
对每个语义对应的序列模式子集A中的实体类型的层级进行调整,如$Location类型之下有$Country,$State,$City等类型,在实体类型识别时会对各个名词短语得到不同层级的实体类型。在序列模式聚合的结果上,对每个语义对应的序列模式子集A统计其中的实体类型层级,取最多数层级作为该子集A中的实体类型层级。
通过上述过程可以得到每个语义对应的序列模式子集A。对于每种实体类型,从各子集A 中找出包含该类型的序列模式,得到这种实体类型对应的序列模式子集B。
二.产生有标签数据
将每种实体类型对应的序列模式子集B作为Snorkel的输入,预测出样本的标签,即实体类型,标签带有置信度。
三.训练实体抽取回归模型
用带有置信度的标签训练实体抽取回归模型,用训练好的回归模型预测语料,得到实体识别结果。
四.返回第一步,用训练好的实体抽取回归模型重新预测语料,用得到的结果对第一步得到的短语分割、远程监督实体识别的结果进行修正,继续剩余的步骤,重新得到实体抽取回归模型和实体识别结果。重复这一过程,直到第三步得到的实体结果与上一次过程得到的结果一致。
本技术领域的人员根据本发明所提供的文字描述、附图以及权利要求书能够很容易在不脱离权利 要求书所限定的本发明的思想和范围条件下,可以做出多种变化和改动。凡是依据本发明的技术思想和实质对上述实施例进行的任何修改、等同变化,均属于本发明的权利要求所限定的保护范围之内。
Claims (4)
1.一种文本实体抽取方法,其特征在于,该方法包括以下步骤:
(1)规则集的自动挖掘,包括以下子步骤:
(1.1)在大量的语料上进行短语分割,得到名词短语;
(1.2)用远程监督的方式对名词短语进行实体和实体类型识别;
(1.3)在实体和实体类型识别的结果上挖掘出现频次高的序列模式;在序列模式中,如果原语料中的名词短语被识别为实体,则用该名词短语的实体类型替换序列模式中的该名词短语;
(1.4)根据序列模式中包含的实体类型,将同义的序列模式进行聚合,得到每个语义对应的序列模式子集A;
(1.5)对每个语义对应的序列模式子集A中的实体类型的层级进行调整:在序列模式聚合的结果上,对每个语义对应的序列模式子集A统计其中的实体类型层级,取最多数层级作为该子集A中的实体类型层级;
(1.6)对于每种实体类型,从各子集A中找出包含该类型的序列模式,得到这种实体类型对应的序列模式子集B;
(2)产生有标签数据:将每种实体类型对应的序列模式子集B作为Snorkel的输入,预测出样本的标签,即实体类型,标签带有置信度;
(3)训练实体抽取回归模型:用带有置信度的标签训练实体抽取回归模型,用训练好的回归模型预测语料,得到实体识别结果;
(4)返回步骤(1),用训练好的实体抽取回归模型重新预测语料,用得到的结果对步骤(1)得到的短语分割、远程监督实体识别的结果进行修正,继续剩余的步骤,重新得到实体抽取回归模型和实体识别结果;重复这一过程,直到步骤(3)得到的实体结果与上一次过程得到的结果一致。
2.根据权利要求1所述的一种文本实体抽取方法,其特征在于,所述步骤(1.1)中,利用AutoPhrase方法进行短语分割,得到名词短语。
3.根据权利要求1所述的一种文本实体抽取方法,其特征在于,所述步骤(1.3)中,在实体和实体类型识别的结果上,用PrefixSpan方法挖掘出现频次高的序列模式。
4.根据权利要求1所述的一种文本实体抽取方法,其特征在于,所述步骤(1.4)中,具体聚合方式如下:对序列模式集合建立图结构,图中每个顶点是一个序列模式,两个模式之间的边通过两个模式之间共同的实体类型数量、共同的上下文词数量、相同的实体抽取结果数量这三个特征来定义,基于以上三个特征训练回归模型来赋予每条边权重,用分团算法得到子图,即序列模式子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910472799.7A CN110188359B (zh) | 2019-05-31 | 2019-05-31 | 一种文本实体抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910472799.7A CN110188359B (zh) | 2019-05-31 | 2019-05-31 | 一种文本实体抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188359A CN110188359A (zh) | 2019-08-30 |
CN110188359B true CN110188359B (zh) | 2023-01-03 |
Family
ID=67719618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910472799.7A Active CN110188359B (zh) | 2019-05-31 | 2019-05-31 | 一种文本实体抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188359B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325350B (zh) * | 2020-02-19 | 2023-09-29 | 第四范式(北京)技术有限公司 | 可疑组织发现***和方法 |
CN113255356B (zh) * | 2021-06-10 | 2021-09-28 | 杭州费尔斯通科技有限公司 | 一种基于实体词列表的实体识别方法和装置 |
CN113204643B (zh) * | 2021-06-23 | 2021-11-02 | 北京明略软件***有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN114093468A (zh) * | 2021-07-27 | 2022-02-25 | 北京好欣晴移动医疗科技有限公司 | 心血管疾病信息实体标注和识别方法、装置和*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9836453B2 (en) * | 2015-08-27 | 2017-12-05 | Conduent Business Services, Llc | Document-specific gazetteers for named entity recognition |
US10691976B2 (en) * | 2017-11-16 | 2020-06-23 | Accenture Global Solutions Limited | System for time-efficient assignment of data to ontological classes |
-
2019
- 2019-05-31 CN CN201910472799.7A patent/CN110188359B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
实体关系抽取研究综述;刘绍毓 等;《信息工程大学学报》;20161031;第17卷(第5期);542-547 * |
Also Published As
Publication number | Publication date |
---|---|
CN110188359A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及*** | |
CN107330011B (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN107480125B (zh) | 一种基于知识图谱的关系链接方法 | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN108334495A (zh) | 短文本相似度计算方法及*** | |
CN109635297B (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN107463553A (zh) | 针对初等数学题目的文本语义抽取、表示与建模方法和*** | |
CN110110327A (zh) | 一种基于对抗学习的文本标注方法和设备 | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
WO2017177809A1 (zh) | 语言文本的分词方法和*** | |
CN104462053A (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
CN107943786A (zh) | 一种中文命名实体识别方法及*** | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |