CN110008472B - 一种实体抽取的方法、装置、设备和计算机可读存储介质 - Google Patents

一种实体抽取的方法、装置、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN110008472B
CN110008472B CN201910252535.0A CN201910252535A CN110008472B CN 110008472 B CN110008472 B CN 110008472B CN 201910252535 A CN201910252535 A CN 201910252535A CN 110008472 B CN110008472 B CN 110008472B
Authority
CN
China
Prior art keywords
model
combined model
training
deep learning
combined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910252535.0A
Other languages
English (en)
Other versions
CN110008472A (zh
Inventor
谭又伟
王道广
于政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910252535.0A priority Critical patent/CN110008472B/zh
Publication of CN110008472A publication Critical patent/CN110008472A/zh
Application granted granted Critical
Publication of CN110008472B publication Critical patent/CN110008472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

一种实体抽取的方法、装置、设备和计算机可读存储介质,其中,所述方法包括:训练深度学习和条件随机场CRF的组合模型;将待抽取的文本数据输入至所述组合模型,得到组合模型预测结果;对所述组合模型预测结果进行纠正和/或补充,输出实体。本申请实施例采用深度学习和CRF的组合模型的方式,无需特征模版构建工作,而且能够学习到文本的上下文语义信息,可移植性高,且能够提高实体输出的准确率和效率。

Description

一种实体抽取的方法、装置、设备和计算机可读存储介质
技术领域
本文涉及实体抽取技术,尤指一种实体抽取的方法、装置、设备和计算机可读存储介质。
背景技术
实体抽取也叫命名实体识别(Named Entity Recognition,简称为NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型。
实体抽取主要抽取的是文本中的原子信息元素,如人名、地名、组织机构名、日期、字符值、数值、特有名词等,当然也可以根据具体需求自定义实体类型。以汽车售后文本数据为例,如下所示:
XX车档位机构故障
检查车辆挂P档钥匙无法拔出
测试故障存在,车辆挂入P档钥匙拔不下来检查档位机构故障,需更换 档位 机构
更换 档位机构
其中,下划线部分表示实体。其中“档位机构故障”、“钥匙无法拔出”、“钥匙拔不下来”是自定义的实体“失效模式”,“挂P档”、“挂入P档”表示自定义的实体“工况”,“检查”是自定义的实体“检修方法”,“更换”是自定义的实体“维修方法”,“档位机构”是自定义的实体“零部件”。
实体抽取任务有两个关键词:find&classify,即:找到命名实体,并进行分类。
实体抽取是自然语言处理(Natural Language Processing,简称为NLP)领域中执行一些复杂任务的基础,诸如自动问答,关系抽取,信息检索等,其效果直接影响后续处理的效果。
在相关技术的方法中,可以采用基于规则的方法、基于特征模板的方法或基于神经网络的方法进行实体抽取,但是这些方法均有各自的局限性,实体抽取效果不够理想。
发明内容
本申请提供了一种实体抽取的方法、装置、设备和计算机可读存储介质,以提高实体抽取的准确率。
本申请提供了一种实体抽取的方法,包括:
训练深度学习和条件随机场CRF的组合模型;
将待抽取的文本数据输入至所述组合模型,得到组合模型预测结果;
对所述组合模型预测结果进行纠正和/或补充,输出实体。
在一实施例中,所述训练深度学习和CRF的组合模型,包括:
根据训练使用的文本数据得到训练集;
将所述训练集中每个句子分词,根据所述组合模型中的嵌入层得到所述训练集中每个句子的嵌入表示;
将所述训练集中每个句子的嵌入表示输入至所述组合模型中的深度学习实体抽取模型中;
将所述深度学习实体抽取模型的输出输入至所述组合模型中的CRF模型中进行训练。
在一实施例中,所述根据训练使用的文本数据得到训练集,包括:
对训练使用的文本数据进行标注,得到标注数据;
将所述标注数据按照预设的标注体系进行转换,得到训练集。
在一实施例中,所述将所述训练集中每个句子分词,根据所述组合模型中的嵌入层得到所述训练集中每个句子的嵌入表示,包括:
将所述训练集中每个句子按字分词;
从所述嵌入层获取每个字的字向量,拼接得到每个句子的嵌入表示。
在一实施例中,所述方法还包括:
通过语料库训练多维的word2vec模型,得到每个字的向量表示,所述每个字的向量表示用于初始化所述嵌入层的参数。
在一实施例中,所述将待抽取的文本数据输入至所述组合模型,得到组合模型预测结果,包括:
将待抽取的文本数据中每个句子分词,输入至所述组合模型中的嵌入层,得到待抽取的文本数据中每个句子的嵌入表示;
将所述待抽取的文本数据中每个句子的嵌入表示输入至所述组合模型中的深度学习实体抽取模型,得到所述深度学习实体抽取模型的预测结果;
将所述深度学习实体抽取模型的预测结果输入至所述组合模型中的CRF模型进行修正,得到组合模型预测结果。
在一实施例中,所述对所述组合模型预测结果进行纠正和/或补充,包括:
采用词典和规则中的至少之一对所述组合模型预测结果进行纠正和/或补充。
在一实施例中,所述采用词典对所述组合模型预测结果进行纠正和/或补充,包括:
对词典中的所有词按照长度从长到短依次与待抽取的文本数据进行匹配,匹配成功时,标注为对应的实体类别,且不再对已标注的实体进行匹配和标注;
将所述组合模型预测结果与词典标注的结果合并。
在一实施例中,所述方法还包括:
在词典标注的结果与所述组合模型预测结果发生冲突时,选取长度较长的实体作为合并后的结果。
在一实施例中,所述采用规则对所述组合模型预测结果进行纠正和/或补充,包括:
采用文本判断模式和条件判断模式中的至少之一对所述组合模型预测结果进行纠正和/或补充。
本申请还提供一种实体抽取的装置,包括:
训练模块,用于训练深度学习和CRF的组合模型;
预测模块,用于将待抽取的文本数据输入至所述组合模型,得到组合模型预测结果;
输出模块,用于对所述组合模型预测结果进行纠正和/或补充,输出实体。
本申请还提供一种实体抽取的设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述实体抽取的方法。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述实体抽取的方法。
本申请实施例包括:训练深度学习和CRF的组合模型;将待抽取的文本数据输入至所述组合模型,得到组合模型预测结果;对所述组合模型预测结果进行纠正和/或补充,输出实体。本申请实施例采用深度学习和CRF的组合模型的方式,无需特征模版构建工作,而且能够学习到文本的上下文语义信息,可移植性高,且能够提高实体输出的准确率和效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例的实体抽取的方法的流程图;
图2为本申请实施例中的步骤101的流程图;
图3为本申请实施例中的组合模型的架构示意图;
图4为本申请实施例中的BiLSTM模型的架构示意图;
图5为本申请实施例中的步骤102的流程图;
图6为本申请实施例的实体抽取架构图;
图7为本申请实施例的体抽取的装置的组成示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
相关技术中,通常采用如下三种方法进行
1、基于规则的方法
该方法利用手工编写的规则,将文本与规则进行匹配来识别出命名实体。例如,对于中文来说,“说”、“老师”等词语可作为人名的下文,“大学”、“医院”等词语可作为组织机构名的结尾,还可以利用到词性、句法信息。但是,这种方法在构建规则的过程中往往需要大量的语言学知识,不同语言的识别规则不尽相同,还需要谨慎处理规则之间的冲突问题;而且构建规则的过程费时费力、可移植性不好。
2、基于特征模板的方法
统计机器学习方法将实体抽取视作序列标注任务,利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。常用的应用到实体抽取任务中的模型包括生成式模型隐马尔科夫(Hidden Markov Model,简称为HMM)、判别式模型条件随机场(Conditional random fields,简称为CRF)等。比较流行的方法是特征模板+CRF的方案:特征模板通常是人工定义的一些二值特征函数,试图挖掘命名实体内部以及上下文的构成特点。对于句子中的给定位置来说,提特征的位置是一个窗口,即上下文位置。而且,不同的特征模板之间可以进行组合来形成一个新的特征模板。但是,这种方法的特征需要人工提取,耗时耗力;特征模板只能在窗口内进行提取,无法利用整句话的语义。
3、基于神经网络的方法
这类方法对于序列标注任务的处理方式是类似的,将token(标记)从离散onehotencode(独热编码)表示映射到低维空间中成为稠密的embedding(嵌入),随后将句子的embedding序列输入到RNN中,用神经网络自动提取特征,Softmax(归一化指数函数)来预测每个token的标签。这种方法使得模型的训练成为一个端到端的整体过程,而非传统的pipeline(管道),不依赖特征工程,是一种数据驱动的方法。但是,对每个token打标签的过程中是独立的分类,不能直接利用上文已经预测的标签(只能靠隐状态传递上文信息),进而导致预测出的标签序列可能是非法的,但softmax函数不会利用到这个信息。
本申请实施例提出一种实体抽取的方法,采用深度学习和CRF的组合模型架构,避免了传统CRF的特征模版构建工作,同时深度学习模型能更好地利用上下文的语义信息,能够明显提高识别效果。
如图1所示,本申请实施例的实体抽取的方法包括如下步骤:
步骤101,训练深度学习和CRF的组合模型。
参照图2,在一实施例中,步骤101包括:
步骤201,根据训练使用的文本数据得到训练集。所述文本数据可以是非结构化数据。
其中,可以通过收集指定类型的文件数据作为训练使用的文本数据。
在一实施例中,所述步骤201包括:
对训练使用的文本数据进行标注,得到标注数据;将所述标注数据按照预设的标注体系进行转换,得到训练集。
其中,可以通过人工标注的方法对训练使用的文本数据进行标注。
所述预设的标注体系可以采用BIS(B:实体第一个字,I:实体其它位置的字,S:单个字的实体,O:其它非实体部分的字)或者BIES(B:实体第一个字,I:实体中间位置的字,E:实体最后一个字,S:单个字的实体,O:其它非实体部分的字)标注体系,例如:“挂R挡时不走,变速箱响”的BIES标注体系如下所示:
R
B-op I-op E-op O O B-part I-part E-part S-fa
其中,‘op’表示工况实体,‘part’表示零部件,‘fa’表示失效模式。
步骤202,将所述训练集中每个句子分词,根据所述组合模型中的嵌入层得到所述训练集中每个句子的嵌入表示。
所述组合模型的架构如图3所示。其中,组合模型依次包括嵌入层(Embedding)、深度学习实体抽取模型和CRF模型。深度学习模型包括嵌入层和深度学习实体抽取模型。
在一实施例中,通过语料库训练多维的word2vec(字转换为向量)模型,得到每个字的向量表示,所述每个字的向量表示用于初始化所述嵌入层的参数。
例如,用预先准备的语料库训练一个300维的word2vec模型,得到每个字的向量表示。训练word2vec的过程如下:将所有案例文本数据放在一个文本文件,不同的案例文本用换行符分隔,字与字之间用空格分开,然后将处理好的文本数据输入到word2vec模型,模型训练完成之后,即可得到每个字的向量表示;该向量表示用于初始化模型的Embedding层参数。
在一实施例中,所述步骤202包括:
将所述训练集中每个句子按字分词;从所述嵌入层获取每个字的字向量,拼接得到每个句子的嵌入表示。
其中,将转换成BIS标注体系或者BIES标注体系的训练集数据中每个句子按字分词;从Embedding层获取将每个字的字向量,拼接得到整句的嵌入表示。
步骤203,将所述训练集中每个句子的嵌入表示输入至所述组合模型中的深度学习实体抽取模型中。
所述深度学习实体抽取模型可以是卷积神经网络,双向长短时记忆网络(BiLSTM),循环神经网络等。
以BiLSTM为例,将向量输入到BiLSTM模型中,如图4所示。
其中,H1 +、H2 +、H3 +、H4 +是forward LSTM的输出,H1 -、H2 -、H3 -、H4 -是backward LSTM的输出,将forward LSTM和backward LSTM的输出进行合并,得到每个字的新的向量表示,例如,假设forward LSTM和backwardLSTM的输出分别为(0.32,0.42,0.20,0.04)、(0.48,0.45,0.04,0.03),则合并后的向量表示是(0.32,0.42,0.20,0.04,0.48,0.45,0.04,0.03),然后将新的向量表示输入到softmax激活函数中,得到深度学习实体抽取模型的预测结果。
步骤204,将所述深度学习实体抽取模型的输出输入至所述组合模型中的CRF模型中进行训练。
将深度学习实体抽取模型的输出(深度学习实体抽取模型的输出为每一个标签的预测分值,例如,对于’R’,输出的是1.5(B-op),0.9(I-op),0.3(E-op),0.1(B-fa),0.08(I-fa),0.08(E-fa),0.12(B-part),0.18(I-part),0.06(E-part),1.9(S-fa)and 0.05(O))输入到CRF。
CRF常用于序列标注相关任务中,假设输入为Q,输出目标是一个序列a1,a2,…,an,则CRF的目标函数是找到一个序列a1,a2,…,an使得
Figure BDA0002012753330000091
最大,其中Z是归一化因子,n为整句中标签的个数,k为当前序列位置,1≤k≤n。
例如,对文本“R挡异响”,深度学习实体抽取模型的预测结果是B-op,O,B-fa,E-fa;很明显,B-op是工况实体的开头,后面不可能接O,此时若按照路径B-op,O,B-fa,E-fa走,CRF会获得较大的惩罚,因此,通过训练CRF可以找到最佳的路径是B-op,E-op,B-fa,E-fa,这样相当于对深度学习实体抽取模型的结果做了修正。
步骤102,将待抽取的文本数据输入至所述组合模型,得到组合模型预测结果。
参照图5,在一实施例中,所述步骤102包括:
步骤301,将待抽取的文本数据中每个句子分词,输入至所述组合模型中的嵌入层,得到待抽取的文本数据中每个句子的嵌入表示。
其中,可参照图3,将待抽取的文本数据中每个句子按字分词,输入至嵌入层,得到每个字的字向量。
步骤302,将所述待抽取的文本数据中每个句子的嵌入表示输入至所述组合模型中的深度学习实体抽取模型,得到所述深度学习实体抽取模型的预测结果。
其中,预测结果为每个字对应的每个标签的预测分值。
步骤303,将所述深度学习实体抽取模型的预测结果输入至所述组合模型中的CRF模型进行修正,得到组合模型预测结果。
步骤103,对所述组合模型预测结果进行纠正和/或补充,输出实体。
可以采用词典和规则中的至少之一对所述组合模型预测结果进行纠正和/或补充。
方式一,采用词典对所述组合模型预测结果进行纠正和/或补充
词典格式可以是:词<tab>实体类别
对词典中的所有词按照长度从长到短依次与待抽取的文本数据进行匹配,匹配成功时,标注为对应的实体类别,且不再对已标注的实体进行匹配和标注;将所述组合模型预测结果与词典标注的结果合并。
在词典标注的结果与所述组合模型预测结果发生冲突时,选取长度较长的实体作为合并后的结果。
方式二,采用规则对所述组合模型预测结果进行纠正和/或补充
可以采用文本判断模式和条件判断模式中的至少之一对所述组合模型预测结果进行纠正和/或补充。
其中,当同时采用方式一和方式二时,通常先采用词典对组合模型预测结果进行纠正和/或补充,然后再采用规则对组合模型预测结果与词典标注的后合并的结果进行纠正和/或补充。下面对规则进行详细阐述。
1、规则格式
文本判断模式&条件判断模式<tab>操作
2、模式
模式由函数组合构成,模式分为两类。一类是文本判断模式:由连续的几个函数组成,函数在连续文本上接连匹配,依次输出各函数的返回结果M1、M2……,结果的类型与具体函数相关,返回结果可以被条件判断模式和操作引用;一类是条件判断模式:函数分别执行,匹配结果取‘&’。条件判断模式和文本判断模式之一可为空。
3、操作
由一个或多个函数组成,分别执行。
4、规则解析
文本部分使用正则表达式,匹配函数生成正则表达式,多个函数的表达式拼接,每个函数对应一个结果分析函数,结果分析函数分析匹配结果,生成函数返回值。
5、规则示例
regex('无|未.{0,2}|没有.{0,2}|无此|排除|消除|解决|解除|消失');entity('失效模式',”)remove_entity('M2')
regex('无|未.{0,2}|没有.{0,2}|无此|排除|消除|解决|解除|消失')和entity('失效模式',”)是条件判断模式,remove_entity('M2')是一个操作。该规则表示如果文本中有一个失效模式实体,但是其前面出现了无、没有、消失等否定词,则表明该失效模式不是一个失效模式实体,需要将其删除。
本申请实施例采用深度学习和CRF的组合模型的方式,避免了传统CRF的特征模版构建工作,能够学习到文本的上下文语义信息,还大大降低标签序列预测中非法序列出现的概率,可移植性高,且能够提高实体输出的准确率和效率。
本申请实施例采用组合模型与词典、规则相融合的架构,三者可以进行互相补充,也可以仅仅只采用模型、词典、规则中的一个或者两个方法进行实体抽取。
下面以一个应用实例进行说明。
以汽车售后案例数据为例,从某汽车厂商获得售后案例数据如下,共三万个案例数据:
Figure BDA0002012753330000111
Figure BDA0002012753330000121
参照图6,将模型和词典、规则引擎进行了融合,采用了模型为主,词典和规则引擎为辅的模型架构。
本应用实例将深度学习和传统的机器学习方法很好的结合了起来,并成功地运用到了汽车行业的售后案例数据上。实体抽取过程如下:
1、对售后案例数据进行分词,用分词后的售后案例数据训练词向量;
2、使用标注工具对售后案例数据进行人工标注;
3、将标注后的数据划分为训练集和测试集;
4、将训练集和测试集数据都转换成BIS或者BIES标注体系;
5、将转换成BIS标注体系或者BIES标注体系的训练集输入到深度学习实体抽取模型中进行训练;
6、用词典对模型的预测结果进行纠正和补充。
如果词典抽取结果和模型相冲突,则选取长度较长的一个标注结果。例如:对文本“变矩器壳损坏”进行实体抽取,模型抽取出零部件实体“变矩器”,词典抽取出零部件实体“变矩器壳”,则认为“变矩器壳”时一个零部件实体。
7、用规则对模型、词典的预测结果进行纠正和补充。
例如:“仪表提示”后面往往接的是仪表提示的含义,但是因为数据中“仪表提示”实体类型较少,模型很难捕捉到,因此可以用规则将其标注为“仪表提示”实体。具体规则如下:regex('((仪表|XL)(仍)?(提|显)?示)');nopunct(1,10)add_entity('M1','仪表提示','M2')。regex('((仪表|XL)(仍)?(提|显)?示)')和nopunct(1,10)均是文本判断模式,add_entity('M1','仪表提示','M2')是一个操作。该规则表示如果文本中出现仪表提示、仪表显示、仪表仍提示、仪表仍显示,同时后面的1到10个字符中没有出现标点符号,则将仪表提示或仪表显示或仪表仍提示或仪表仍显示及其后面跟的1到10个字符中没有标点符号的字符串标注为仪表提示。
测试结果:
使用人工标注的2000条案例数据,将其用于训练组合模型,然后将训练好的组合模型与规则和词典相融合进行实体抽取,最终在200个测试集上,对所有实体进行了总的评价,其结果是F值达到了0.79。
如图7所示,本申请实施例还提供一种实体抽取的装置,包括:
训练模块41,用于训练深度学习和CRF的组合模型;
预测模块42,用于将待抽取的文本数据输入至所述组合模型,得到组合模型预测结果;
输出模块43,用于对所述组合模型预测结果进行纠正和/或补充,输出实体。
在一实施例中,所述训练模块41,用于:
根据训练使用的文本数据得到训练集;
将所述训练集中每个句子分词,根据所述组合模型中的嵌入层得到所述训练集中每个句子的嵌入表示;
将所述训练集中每个句子的嵌入表示输入至所述组合模型中的深度学习实体抽取模型中;
将所述深度学习实体抽取模型的输出输入至所述组合模型中的CRF模型中进行训练。
在一实施例中,所述训练模块41,用于:
对训练使用的文本数据进行标注,得到标注数据;
将所述标注数据按照预设的标注体系进行转换,得到训练集。
在一实施例中,所述训练模块41,用于:
将所述训练集中每个句子按字分词;
从所述嵌入层获取每个字的字向量,拼接得到每个句子的嵌入表示。
在一实施例中,所述训练模块41,还用于:
通过语料库训练多维的word2vec模型,得到每个字的向量表示,所述每个字的向量表示用于初始化所述嵌入层的参数。
在一实施例中,所述预测模块42,用于:
将待抽取的文本数据中每个句子分词,输入至所述组合模型中的嵌入层,得到待抽取的文本数据中每个句子的嵌入表示;
将所述待抽取的文本数据中每个句子的嵌入表示输入至所述组合模型中的深度学习实体抽取模型,得到所述深度学习实体抽取模型的预测结果;
将所述深度学习实体抽取模型的预测结果输入至所述组合模型中的CRF模型进行修正,得到组合模型预测结果。
在一实施例中,所述输出模块43,用于:
采用词典和规则中的至少之一对所述组合模型预测结果进行纠正和/或补充。
在一实施例中,所述输出模块43,用于:
对词典中的所有词按照长度从长到短依次与待抽取的文本数据进行匹配,匹配成功时,标注为对应的实体类别,且不再对已标注的实体进行匹配和标注;
将所述组合模型预测结果与词典标注的结果合并。
在一实施例中,所述输出模块43,用于:
在词典标注的结果与所述组合模型预测结果发生冲突时,选取长度较长的实体作为合并后的结果。
在一实施例中,所述输出模块43,用于:
采用文本判断模式和条件判断模式中的至少之一对所述组合模型预测结果进行纠正和/或补充。
本申请实施例采用深度学习和CRF的组合模型的方式,无需特征模版构建工作,而且能够学习到文本的上下文语义信息,可移植性高,且能够提高实体输出的准确率和效率。
本申请实施例还提供一种实体抽取的设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述实体抽取的设备。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述实体抽取的设备。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种实体抽取的方法,其特征在于,包括:
训练深度学习和条件随机场CRF的组合模型;
根据训练使用的文本数据得到训练集;
将所述训练集中每个句子按字分词,从所述组合模型中的嵌入层获取每个字的字向量,拼接得到所述训练集中每个句子的嵌入表示;
将所述训练集中每个句子的嵌入表示输入至所述组合模型中的深度学习实体抽取模型中;
将所述深度学习实体抽取模型的输出输入至所述组合模型中的CRF模型中进行训练;
将待抽取的文本数据中每个句子分词,输入至所述组合模型中的嵌入层,得到待抽取的文本数据中每个句子的嵌入表示;
将所述待抽取的文本数据中每个句子的嵌入表示输入至所述组合模型中的深度学习实体抽取模型,得到所述深度学习实体抽取模型的预测结果;
将所述深度学习实体抽取模型的预测结果输入至所述组合模型中的CRF模型进行修正,得到组合模型预测结果;对所述组合模型预测结果进行纠正和/或补充,输出实体。
2.根据权利要求1所述的方法,其特征在于,所述根据训练使用的文本数据得到训练集,包括:
对训练使用的文本数据进行标注,得到标注数据;
将所述标注数据按照预设的标注体系进行转换,得到训练集。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过语料库训练多维的word2vec模型,得到每个字的向量表示,所述每个字的向量表示用于初始化所述嵌入层的参数。
4.根据权利要求1所述的方法,其特征在于,所述对所述组合模型预测结果进行纠正和/或补充,包括:
采用词典和规则中的至少之一对所述组合模型预测结果进行纠正和/或补充。
5.根据权利要求4所述的方法,其特征在于,所述采用词典对所述组合模型预测结果进行纠正和/或补充,包括:
对词典中的所有词按照长度从长到短依次与待抽取的文本数据进行匹配,匹配成功时,标注为对应的实体类别,且不再对已标注的实体进行匹配和标注;
将所述组合模型预测结果与词典标注的结果合并。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在词典标注的结果与所述组合模型预测结果发生冲突时,选取长度长的实体作为合并后的结果。
7.根据权利要求4所述的方法,其特征在于,采用规则对所述组合模型预测结果进行纠正和/或补充,包括:
采用文本判断模式和条件判断模式中的至少之一对所述组合模型预测结果进行纠正和/或补充。
8.一种实体抽取的装置,其特征在于,包括:
训练模块,用于训练深度学习和CRF的组合模型;
根据训练使用的文本数据得到训练集;
将所述训练集中每个句子按字分词,从所述组合模型中的嵌入层获取每个字的字向量,拼接得到所述训练集中每个句子的嵌入表示;
将所述训练集中每个句子的嵌入表示输入至所述组合模型中的深度学习实体抽取模型中;
将所述深度学习实体抽取模型的输出输入至所述组合模型中的CRF模型中进行训练;
预测模块,用于将待抽取的文本数据中每个句子分词,输入至所述组合模型中的嵌入层,得到待抽取的文本数据中每个句子的嵌入表示;
将所述待抽取的文本数据中每个句子的嵌入表示输入至所述组合模型中的深度学习实体抽取模型,得到所述深度学习实体抽取模型的预测结果;
将所述深度学习实体抽取模型的预测结果输入至所述组合模型中的CRF模型进行修正,得到组合模型预测结果;
输出模块,用于对所述组合模型预测结果进行纠正和/或补充,输出实体。
9.一种实体抽取的设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任意一项所述实体抽取的方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~7中任意一项所述实体抽取的方法。
CN201910252535.0A 2019-03-29 2019-03-29 一种实体抽取的方法、装置、设备和计算机可读存储介质 Active CN110008472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910252535.0A CN110008472B (zh) 2019-03-29 2019-03-29 一种实体抽取的方法、装置、设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910252535.0A CN110008472B (zh) 2019-03-29 2019-03-29 一种实体抽取的方法、装置、设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110008472A CN110008472A (zh) 2019-07-12
CN110008472B true CN110008472B (zh) 2022-11-11

Family

ID=67168978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910252535.0A Active CN110008472B (zh) 2019-03-29 2019-03-29 一种实体抽取的方法、装置、设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110008472B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705272A (zh) * 2019-08-28 2020-01-17 昆明理工大学 一种面向汽车发动机故障诊断的命名实体识别方法
CN110688449A (zh) * 2019-09-20 2020-01-14 京东数字科技控股有限公司 基于深度学习的地址文本处理方法、装置、设备及介质
CN111506696A (zh) * 2020-03-03 2020-08-07 平安科技(深圳)有限公司 基于少量训练样本的信息抽取方法及装置
CN113360484B (zh) * 2020-03-05 2024-07-09 天翼云科技有限公司 数据纠偏方法、装置和计算机可读存储介质
CN111401054A (zh) * 2020-03-25 2020-07-10 苏州机数芯微科技有限公司 一种基于机器学习的催化剂抽取方法
CN111476034B (zh) * 2020-04-07 2023-05-12 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及***
CN111666759B (zh) * 2020-04-17 2024-03-26 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质
CN111651994B (zh) * 2020-06-03 2023-09-19 浙江同花顺智能科技有限公司 一种信息抽取方法、装置、电子设备和存储介质
CN112052674B (zh) * 2020-08-06 2021-08-24 腾讯科技(深圳)有限公司 一种实体定义抽取方法、***及存储介质和服务器
CN118313367A (zh) * 2020-08-17 2024-07-09 支付宝(杭州)信息技术有限公司 一种文本信息的抽取方法、装置及设备
CN113033204A (zh) * 2021-03-24 2021-06-25 广州万孚生物技术股份有限公司 信息实体抽取方法、装置、电子设备和存储介质
CN113297851B (zh) * 2021-06-21 2024-03-05 北京富通东方科技有限公司 一种针对易混淆运动损伤实体词的识别方法
CN113449926B (zh) * 2021-07-12 2022-07-29 中车青岛四方机车车辆股份有限公司 轨道交通车辆数据安全管理方法、***、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108536666A (zh) * 2017-03-03 2018-09-14 北京明略软件***有限公司 一种短文本信息提取方法和装置
CN108985238A (zh) * 2018-07-23 2018-12-11 武汉大学 联合深度学习和语义概率的高分辨率遥感影像不透水面提取方法及***
CN109493977A (zh) * 2018-11-09 2019-03-19 天津新开心生活科技有限公司 文本数据处理方法、装置、电子设备及计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9760807B2 (en) * 2016-01-08 2017-09-12 Siemens Healthcare Gmbh Deep image-to-image network learning for medical image analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536666A (zh) * 2017-03-03 2018-09-14 北京明略软件***有限公司 一种短文本信息提取方法和装置
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108985238A (zh) * 2018-07-23 2018-12-11 武汉大学 联合深度学习和语义概率的高分辨率遥感影像不透水面提取方法及***
CN109493977A (zh) * 2018-11-09 2019-03-19 天津新开心生活科技有限公司 文本数据处理方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
CN110008472A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110008472B (zh) 一种实体抽取的方法、装置、设备和计算机可读存储介质
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN111611810B (zh) 一种多音字读音消歧装置及方法
CN110826335B (zh) 一种命名实体识别的方法和装置
CN111159412B (zh) 分类方法、装置、电子设备及可读存储介质
US20060149543A1 (en) Construction of an automaton compiling grapheme/phoneme transcription rules for a phoneticizer
CN116151132B (zh) 一种编程学习场景的智能代码补全方法、***及储存介质
CN109410949B (zh) 基于加权有限状态转换器的文本内容添加标点方法
CN110276069A (zh) 一种中国盲文错误自动检测方法、***及存储介质
CN110991185A (zh) 一种文章中实体的属性抽取方法及装置
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN113901170A (zh) 结合Bert模型和模板匹配的事件抽取方法及***、电子设备
CN112599129B (zh) 语音识别方法、装置、设备和存储介质
CN112487813B (zh) 命名实体识别方法及***、电子设备及存储介质
CN116681061A (zh) 一种基于多任务学习和注意力机制的英文语法纠正技术
CN115757775B (zh) 基于文本蕴含的无触发词文本事件检测方法及***
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及***
CN111353295A (zh) 序列标注方法、装置、存储介质及计算机设备
CN114462418B (zh) 事件检测方法、***、智能终端及计算机可读存储介质
CN116029309A (zh) 一种意图自动识别方法和***
WO2022251720A1 (en) Character-level attention neural networks
CN114330375A (zh) 一种基于固定范式的术语翻译方法及***
CN114372467A (zh) 命名实体抽取方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant