CN111368542A - 一种基于递归神经网络的文本语言关联抽取方法和*** - Google Patents

一种基于递归神经网络的文本语言关联抽取方法和*** Download PDF

Info

Publication number
CN111368542A
CN111368542A CN201811600745.6A CN201811600745A CN111368542A CN 111368542 A CN111368542 A CN 111368542A CN 201811600745 A CN201811600745 A CN 201811600745A CN 111368542 A CN111368542 A CN 111368542A
Authority
CN
China
Prior art keywords
entity
expression
sequence
vector
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811600745.6A
Other languages
English (en)
Inventor
韩英
陈薇
王腾蛟
***
刘迪
黄晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Peking University
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Zhejiang Electric Power Co Ltd filed Critical Peking University
Priority to CN201811600745.6A priority Critical patent/CN111368542A/zh
Publication of CN111368542A publication Critical patent/CN111368542A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于递归神经网络的文本语言关联抽取方法和***。该方法基于递归神经网络(双向长短期记忆网络)自动提取复杂的上下文特征,对上下文的语义信息进行编码;通过基于规则的实体表述对抽取器发现文档内的定义模式,识别文档内部关于非标准表述的定义,并抽取定义的从属于同一个实体概念的标准表述与非标准表述;将抽取到的实体表述对的特征进行编码,把关于实体归一化的信息嵌入到低维的实体表述向量;实体表述向量与上下文特征编码向量联结起来并进行维度转换得到最终的编码;基于条件随机场的解码器结合编码器学习到的特征与状态之间的转移概率,解码出全局最优的状态序列作为最终的输出序列。本发明能够有效提升实体识别的性能。

Description

一种基于递归神经网络的文本语言关联抽取方法和***
技术领域
本发明属于人工智能领域,涉及利用自然语言处理技术从海量的非结构化的数据中抽取信息,具体指从文本中识别实体及实体关联关系抽取,它是信息抽取的关键技术。
背景技术
文本实体抽取是从文本中识别出有特定意义的实体,如人名,地名,组织名等。它是从海量的非结构化数据中抽取信息的关键技术,是众多复杂的自然语言处理应用的基石,如智能问答、知识图谱、自动摘要、机器翻译等。
由于自然语言的丰富表达形式,同一个实体可能有多种不同的表述,如实体的全称、简称和别称等。“一义多词”现象在中英文中广泛存在,如中文中的“中国工商银行”与“工行”,英文中的‘United States’与‘U.S.’等。实体多变的表述形式给实体识别带来了巨大的挑战。Khalid M A0等[Khalid M A,Jijkoun V,De Rijke M.The impact of namedentity normalization on information retrieval for question answering[C]//European Conference on Information Retrieval.Springer,Berlin,Heidelberg,2008:705-710.]的研究结果表明通过实体关联归一化确定实体的表述与实体概念间的联系,有助于提升实体识别的效果。
在自然语言处理领域,传统的做法将实体识别和实体关联归一化视为独立的任务各自分开处理。先做实体识别,再将实体识别的结果作为实体关联归一化的输入,这种流水线的方式导致实体归一化的结果无法反馈给实体识别,因此实体识别无法利用实体归一化的有用信息。现有的关于实体识别和实体归一化的联合处理这部分的研究还非常有限。LiuX等人[Liu X,Zhou M,Wei F,et al.Joint inference of named entity recognitionand normalization for tweets[C]//Proceedings of the 50th Annual Meeting ofthe Association for Computational Linguistics:Long Papers-Volume1.Association for Computational Linguistics,2012:526-535.]研究针对tweets的实体识别和实体归一化的联合处理,并提出了一个基于概率图的模型。该模型通过引入一个二元随机变量去刻画内容相似的tweet之间的两个实体表述是否指代同一个实体概念。类似的,Luo G等人[Luo G,Huang X,Lin C Y,et al.Joint entity recognition anddisambiguation[C]//Proceedings of the 2015Conference on Empirical Methods inNatural Language Processing.2015:879-888.]也提出了基于概率图的模型来联合实体识别和实体归一化。这些方法都集中于短文本tweets之间的实体表述的归一化与实体识别的联合处理,基于统计机器学习的概率图模型,依赖大量人工构建的特征。这些特征工程的代价较大,且难以在大规模数据集上拓展,没有很好地发挥海量数据的作用,不是数据驱动型的。而且很多隐藏的上下文特征的高阶交互无法通过人工构建特征的方式覆盖。而且这些方法中的实体归一化模块都依赖于现有的词典,存在“标准的实体表述在词典中已经存在”的不合理假设。而现有的词典覆盖有限,很多语料存在缺乏对应领域的词典的情况。尤其是在信息技术十分发达的今天,新闻媒体的文本中经常会出现一些新实体,如关于新成立的机构、新发行的债券、新发生的事件等的报道,这些新实体并不存在于已有的词典和知识库中,依赖于词典的方法无法对此类新实体的名称归一化。
解决以上这些问题需要一种技术解决方案,能够不依赖人工特征工程,自动学习文本上下文的复杂特征,同时能够有效利用文档内关于非标准实体表述的定义获取实体归一化的信息,综合文本上下文特征的学习与文档内定义的实体表述对的信息实现更好的实体识别。
发明内容
针对上述问题,本发明的目的在于设计并实现一个规则与深度学习相结合的模型用于文本实体及实体关联关系抽取,既能利用深度学习实现上下文特征的自动抽取,免去复杂的特征工程,又能利用规则融入人的知识与经验,发现文档内关于实体表述的定义,并通过文本内的实体关联归一化辅助实体识别,实现更好的实体识别。
为实现上述目的,本发明采用如下技术方案:
一种基于递归神经网络的文本实体及实体关联关系抽取方法,其步骤包括:
(1)通过时间递归神经网络(双向长短期记忆网络)自动抽取复杂的上下文特征,并对上下文特征的信息进行编码;
(2)通过规则发现文档内的定义模式,识别文档内部关于非标准表述的定义,并抽取定义的从属于同一个实体概念的标准表述与非标准表述,作为实体表述特征;
(3)将抽取到的实体表述特征进行编码,把关于实体归一化的信息嵌入到低维的实体表述向量;
(4)将上下文特征与实体表述特征的编码在向量空间进行联结,得到融合实体识别与实体表述归一化信息的最终编码;
(5)将所述最终编码送入条件随机场模型,结合状态之间的转移概率,计算全局全局最优的状态序列,解码并输出文本实体及实体关联关系的最终的结果序列。
一种基于递归神经网络的文本实体及实体关联关系抽取***,其包括:
字/词嵌入模块,用于将原始文本序列的每一个字/词映射成一定维度的向量;
上下文特征编码器,用于字/词嵌入后的文本序列的向量形式的表示,自动提取复杂的上下文特征,并对上下文的语义信息进行编码;
分词模块,用于对原始文本序列进行分词;
实体表述对抽取器,用于基于所述分词模块的分词结果,发现文档内部关于非标准表述的定义,并抽取定义的从属于同一个实体概念的标准表述与非标准表述,作为实体表述特征;
实体归一化信息编码器,用于将所述实体表述对抽取器抽取到的实体表述特征进行编码,把关于实体归一化的信息嵌入到低维的实体表述向量;
实体识别与归一化编码的联合模块,用于将所述上下文特征编码器得到的上下文特征与所述实体归一化信息编码器得到的实体表述特征的编码在向量空间进行联结,得到融合实体识别与实体表述归一化信息的最终编码;
基于条件随机场的解码器,用于结合所述实体识别与归一化编码的联合模块的输出与状态之间的转移概率,计算得到全局最优的状态序列,作为文本实体及实体关联关系的最终的输出序列。
与现有技术相比,本发明的积极效果为:
本发明采用规则与深度学习融合的方式,提出一种基于递归神经网络的文本实体及实体关联关系抽取方法,利用双向长短期记忆网络自动提取文本上下文语义特征,同时将人的经验与知识融入规则用于抽取文档内定义的实体非标准表述,通过实体关联归一化提升实体识别***的性能。本发明既利用了深度学习自动提取特征的优势,免去了时间代价大、人力成本高又难以扩展到大数据集的人工特征工程,实现了真正的数据驱动;同时充分发挥了人的知识与经验,基于规则快速地发现文档内关于实体非标准表述的定义,充分利用了文档内容本身传递的信息抽取出实体表述对;充分利用了实体识别与实体归一化任务的关联性,相较于传统的分开处理的方式,能支持实体识别与实体归一化的同时处理,实现二者的信息共享,利用实体归一化的信息提升实体识别的性能。本发明具有低开销、高表达、多适用的优点。
附图说明
图1是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取***的模块组成示意图。
图2是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取***的数据流及网络结构示意图。其中,B-ORG表示机构类实体的开头,I-ORG表示机构类实体的中间,E-ORG表示机构类实体的结尾,O表示非机构类实体。
图3是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取***的步骤流程图。
具体实施方式
下面通过具体实施例并配合附图,对本发明做详细的说明。
图1是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取***的组成模块示意图,图2是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取***的数据流及网络结构示意图。结合图1及图2,对图1所示各模块的功能及其实现分别说明如下:
(1)基于时间递归神经网络(双向长短期记忆网络)的上下文特征编码器,由前向的长短期记忆网络(LSTM)与后向的长短期记忆网络组成,负责自动提取复杂的上下文特征,并对上下文的语义信息进行编码。
LSTM在时刻t接收前一时刻的信息时,细胞(LSTM的神经元)首先要决定遗忘掉部分信息,遗忘门控制着遗忘的参数。该门的输入是当前时刻的输入xt和前一时刻的输出ht-1,遗忘门的公式如下所示:
ft=σ(Wf·[ht-1,xt]+bf)
其中ft是遗忘门的循环权重,σ是激活函数(sigmoid函数),Wf是遗忘门的输入权重,bf是遗忘门的偏置。
在丢弃无用的信息之后,细胞需要决定吸收哪些新输入的信息,输入门的公式如下所示:
it=σ(Wi·[ht-1,xt]+bi)
其中it是输入门的循环权重,σ是激活函数(sigmoid函数),Wi是输入门的输入权重,bf是遗输入门的偏置。
当前时刻细胞候选项:
Figure BDA0001922431830000041
其中
Figure BDA0001922431830000042
是细胞的候选项,Wc是细胞候选项的输入权重,xt是当前时刻的输入xt,ht-1是前一时刻的输出,bc是细胞候选项的偏置。
对细胞状态进行更新,得到新的细胞状态,由旧的细胞状态选择性遗忘和候选细胞状态计算得来:
Figure BDA0001922431830000043
其中Ct是新的细胞状态值,ft是遗忘门的循环权重,Ct-1是上一时刻的细胞状态值,it是输入门的循环权重,
Figure BDA0001922431830000051
是当前时刻的细胞候选项。
最后由输出门发挥作用,决定当前时刻隐藏层的输出向量ht,输出门的定义:
ot=σ(Wo·[ht-1,xt]+bo)
其中,ot是输入门的权重,σ是激活函数(sigmoid函数),Wo是输出门的连接权重,bo是输出门的偏置,xt是当前时刻的输入xt,ht-1是前一时刻的输出。
当前时刻隐藏层的输出是激活后的细胞状态经由输出门向外输出:
ht=ot*tanhCt
其中,ot是输入门的权重,Ct是更新后的当前时刻的细胞状态值,ht是当前时刻的输出。
对给定的一串长度为n个字/词(英文为单词,中文为字符)的文本序列,记为S=[w1,w2,w3,….wn],其中wi表示序列的第i个字/词经过字/词嵌入后的向量。则时刻n时,前向LSTM网络的隐藏层输出为
Figure BDA0001922431830000052
后向LSTM网络的隐藏层输出记为
Figure BDA0001922431830000053
前向LSTM网络的隐藏层输出与后向LSTM网络的隐藏层输出经由合并层而合并在一起得到
Figure BDA0001922431830000054
上下文特征编码器输出记为HR
(2)基于规则的实体表述对抽取器,作用是充分利用人的知识经验,通过基于句法结构和词法结构的规则,发现文档内关于实体非标准表述的定义,并抽取出由定义给出的指代同一个实体概念的表述对,如<全称,简称>,<全称,别称>的名称对。
表1给出了表述对抽取器所使用的规则。其中F代表标准表述,A代表非标准表述如简称、别称等。规定F的字符串长度要长于A的字符串长度。符合句法类条件且符合词法条件的,表述对抽取器从中抽取出实体表述对。
表1.表述对抽取器所使用的规则
Figure BDA0001922431830000055
(3)实体归一化信息编码器,负责将抽取到的实体表述对的特征进行编码,把关于实体归一化的信息嵌入到低维的实体表述向量。对于实体表述对抽取器抽取的表述对,首先转化为一定长度的向量,再经由线性层进一步学习。
表述向量的每一个元素对应的意义从左至右分别对应表示非标准名称的开头、中间、结尾、独立单字,标准名称的开头、中间和结尾。由于标准名称是实体的多种名称中最长的一个,故不存在独立单字的情况。对给定的一串包含n个字/词(英文为单词,中文为字符)的文本序列,记为S=[w1,w2,w3,….wn],假设表述对抽取器抽得的表述对集合为{<F1,A1>,<F2,A2>,……<Fk,Ak>},对于每个字wi有,
Figure BDA0001922431830000061
其中,g(wi)表示第w个字/词的表述函数的值。
对满足g(wi)≠0的wi,其对应的命名实体归一化的表述向量的每个元素对应的含义Mi定义为:
Figure BDA0001922431830000062
其中Pos是wi在名称对中的位置,分别为B(开头),I(中间),E(结尾),S(名称仅由一个字组成)。
初始化表述向量记为V,则对每个字/词(中文为字,英文为词)wi有:
Figure BDA0001922431830000063
其中1≤i≤n,1≤j≤7,Nj代表表述向量的第j个元素表征的标签。
初始化的表述向量记为V,经过线性层的处理后,实体归一化信息编码器输出的结果是最终的表述向量:
Figure BDA0001922431830000064
其中,HN表示最终的表述向量,
Figure BDA0001922431830000065
表示作用在初始化的表述向量的函数,wl表示线性层的输入权重,bl表示线性层的偏置。
(4)上下文特征与实体表述特征的联合模块,负责实现上下文特征与实体表述特征的编码在向量空间的联结,得到融合实体识别与实体表述归一化信息的最终编码。
经过上下文特征编码器得到的隐藏层向量HR与经过实体归一化信息编码器得到的表述向量HN拼接成一个包含了高阶特征交互和低阶特征交互的向量HA
HA=[HR,HN]
HA再经过全连接层的转换,成为最终编码器的输出向量H:
H=wf·HA+bf
H是一个维度为(n,L)的张量,n是每个样本序列的长度,L是输出标签的种类数。
(5)基于条件随机场的解码器,负责结合编码器学习到的特征与状态之间的转移概率,解码出全局最优的状态序列作为最终的输出序列。
Figure BDA0001922431830000071
表示序列的第i个字的预测标签为yi时的状态特征的得分,
Figure BDA0001922431830000072
代表从标签yi转移到yi+1的状态转移特征的得分,y0代表标记序列的开头,yn代表标记序列的结尾。标记序列的总得分为状态特征的得分和转移特征的得分之和,定义如下:
Figure BDA0001922431830000073
对所有可能的标记序列y对应的得分S(X,y)进行Softmax处理,得到序列y的概率:
Figure BDA0001922431830000074
其中YX代表对输入序列X所有可能的标记序列,在解码器的预测阶段,输出的标记序列是获得最大得分的序列。
Figure BDA0001922431830000075
图3是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取方法的步骤流程图。对其中各步骤具体说明如下:
步骤1.1准备数据并切分数据集。
准备好标注的数据,切分为训练数据集,开发数据集及测试数据集,训练数据集和开发数据集用于训练阶段,测试数据集用于测试阶段。数据集是文本数据集,每个样本是一篇文章。
步骤1.2建立字符索引表。
对获得的全部语料建立字符索引,为每种字符编号从1开始,附加未知字符的编号。用于后面的词嵌入模块(中文为字符,英文为词)
步骤1.3批量样本输入
对训练数据集的训练按照小批量原则,依据设定的batchsize(批量规模)的大小,按批输入***。
步骤2.1分词
按句子为单位对每个句子进行分词
步骤2.2定义模式匹配
对每个句子检索是否满足句法结构中关于定义模式的条件,如是否有全称(简称)之类的定义存在。如果存在,则可能定义了一个实体表述对。如果没有,那么这个句子中没有实体表述对。
步骤2.3前向后向搜索抽取实体表述对
对发现的定义按照定义标志为分隔符,如‘(’,对分隔符前后的词进行搜索,检查是否有符合实体表述对词法条件的前后词组合,如果存在,抽取出实体表述对。
步骤2.4表述信息嵌入
对抽取到的实体表述信息进行嵌入,将信息转化为低维的实体表述向量,每个维度对应是否是简称或者全称以及其对应字符在实体中的位置。如果不存在实体表述对,则全零初始化。
步骤3词嵌入
对于输入的每个样本的每个字符,进行字/词嵌入(英文为词,中文为字符级别),依据字符索引表并结合线性层转化为300维度的向量。
步骤4双向LSTM网络
将用词向量表示的输入样本序列送入双向LSTM网络,提取上下文特征信息。
步骤5联结并转换
双向LSTM网络输出的隐藏层向量与实体表述向量拼接,实现向量空间的联结。再经过全连接层转换张量的维度。得到每个字符的发射概率(状态序列生成观察序列的概率),也就是CRF模型的状态特征。
步骤6CRF建模状态转移概率
CRF建模,考虑状态(标签)之间的依赖关系,以及观察序列到状态序列的发射概率。
步骤7解码全局最优序列
对每个序列算分,通过动态规划算法算出结合了标签转移概率后全局得分最高的序列作为最终的输出序列。如果是预测阶段,那么到步骤7就结束了。如果是训练阶段,则还有步骤8和9。
步骤8计算代价函数
在训练过程中,目标函数是最大化训练集的正确标记序列的对数似然。
Figure BDA0001922431830000081
代价函数是目标函数的负数。
步骤9自适应的梯度下降算法
利用Adam算法训练模型,并根据训练的速度自适应的调节学习率。如果模型在测试集上的效果在下降,则说明过拟合了,应该立即停止,结束训练,否则继续训练。
尽管前面公开的内容示出了本发明的示例性实施例,但应注意,在不背离权利要求限定的本发明的范围的前提下,可以进行多种改变和修改。根据这里描述的发明实施例的结构,权利要求的组成元件可以用任何功能等效的元件替代。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (10)

1.一种基于递归神经网络的文本语言关联抽取方法,其特征在于,包括以下步骤:
(1)通过时间递归神经网络自动抽取复杂的上下文特征,并对上下文特征的信息进行编码;
(2)通过规则发现文档内的定义模式,识别文档内部关于非标准表述的定义,并抽取定义的从属于同一个实体概念的标准表述与非标准表述,作为实体表述特征;
(3)将抽取到的实体表述特征进行编码,把关于实体归一化的信息嵌入到低维的实体表述向量;
(4)将上下文特征与实体表述特征的编码在向量空间进行联结,得到融合实体识别与实体表述归一化信息的最终编码;
(5)将所述最终编码送入条件随机场模型,结合状态之间的转移概率,计算全局全局最优的状态序列,解码并输出文本实体及实体关联关系的最终的结果序列。
2.根据权利要求1所述的方法,其特征在于,步骤(1)所述时间递归神经网络为双向长短期记忆网络。
3.根据权利要求1所述的方法,其特征在于,步骤(2)通过基于句法结构和词法结构的规则抽取指代同一个实体概念的表述对,其中非标准表述包括简称、别称,并规定标准表述的字符串长度长于非标准表述的字符串长度。
4.根据权利要求1所述的方法,其特征在于,步骤(3)将所述实体表述对抽取器抽取的表述对首先转化为一定长度的向量,再经由线性层进一步学习,得到最终的实体表述向量。
5.根据权利要求4所述的方法,其特征在于,所述实体表述向量的每一个元素对应的意义从左至右分别对应表示非标准名称的开头、中间、结尾、独立单字,标准名称的开头、中间和结尾。
6.根据权利要求1所述的方法,其特征在于,步骤(4)将经过上下文特征编码器得到的隐藏层向量HR与经过实体归一化信息编码器得到的表述向量HN拼接成一个包含高阶特征交互和低阶特征交互的向量HA,HA再经过全连接层的转换,成为最终编码器的输出向量H,H是一个维度为(n,L)的张量,其中n是每个样本序列的长度,L是输出标签的种类数。
7.根据权利要求1所述的方法,其特征在于,步骤(5)包括:
(5.1)计算标记序列的总得分,其为状态特征的得分和转移特征的得分之和,定义如下:
Figure FDA0001922431820000011
其中,Hi,yi表示序列的第i个字的预测标签为yi时的状态特征的得分,Ayi,yi+1代表从标签yi转移到yi+1的状态转移特征的得分,y0代表标记序列的开头,yn代表标记序列的结尾;
(5.2)对所有可能的标记序列y对应的得分S(X,y)进行Softmax处理,得到序列y的概率:
Figure FDA0001922431820000021
其中,YX代表对输入序列X所有可能的标记序列;
(5.3)在解码器的预测阶段,输出的标记序列是获得最大得分的序列:
Figure FDA0001922431820000022
8.根据权利要求1或7所述的方法,其特征在于,所述基于条件随机场的解码器,在训练过程中的目标函数是最大化训练集的正确标记序列的对数似然,代价函数是目标函数的负数。
9.根据权利要求8所述的方法,其特征在于,采用自适应的梯度下降算法训练所述基于条件随机场的解码器,并根据训练的速度自适应的调节学习率,如果模型在测试集上的效果在下降则结束训练,否则继续训练。
10.一种基于递归神经网络的文本语言关联抽取***,其特征在于,包括:
字/词嵌入模块,用于将原始文本序列的每一个字/词映射成一定维度的向量;
上下文特征编码器,用于字/词嵌入后的文本序列的向量形式的表示,自动提取复杂的上下文特征,并对上下文的语义信息进行编码;
分词模块,用于对原始文本序列进行分词;
实体表述对抽取器,用于基于所述分词模块的分词结果,发现文档内部关于非标准表述的定义,并抽取定义的从属于同一个实体概念的标准表述与非标准表述,作为实体表述特征;
实体归一化信息编码器,用于将所述实体表述对抽取器抽取到的实体表述特征进行编码,把关于实体归一化的信息嵌入到低维的实体表述向量;
实体识别与归一化编码的联合模块,用于将所述上下文特征编码器得到的上下文特征与所述实体归一化信息编码器得到的实体表述特征的编码在向量空间进行联结,得到融合实体识别与实体表述归一化信息的最终编码;
基于条件随机场的解码器,用于结合所述实体识别与归一化编码的联合模块的输出与状态之间的转移概率,计算得到全局最优的状态序列,作为文本实体及实体关联关系的最终的输出序列。
CN201811600745.6A 2018-12-26 2018-12-26 一种基于递归神经网络的文本语言关联抽取方法和*** Pending CN111368542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811600745.6A CN111368542A (zh) 2018-12-26 2018-12-26 一种基于递归神经网络的文本语言关联抽取方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811600745.6A CN111368542A (zh) 2018-12-26 2018-12-26 一种基于递归神经网络的文本语言关联抽取方法和***

Publications (1)

Publication Number Publication Date
CN111368542A true CN111368542A (zh) 2020-07-03

Family

ID=71206031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811600745.6A Pending CN111368542A (zh) 2018-12-26 2018-12-26 一种基于递归神经网络的文本语言关联抽取方法和***

Country Status (1)

Country Link
CN (1) CN111368542A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184178A (zh) * 2020-10-14 2021-01-05 深圳壹账通智能科技有限公司 邮件内容提取方法、装置、电子设备及存储介质
CN113065346A (zh) * 2021-04-02 2021-07-02 国网浙江省电力有限公司信息通信分公司 文本实体的识别方法及相关装置
CN113268595A (zh) * 2021-05-24 2021-08-17 中国电子科技集团公司第二十八研究所 一种基于实体关系抽取的结构化机场警报处理方法
CN114625340A (zh) * 2022-05-11 2022-06-14 深圳市商用管理软件有限公司 基于需求分析的商用软件研发方法、装置、设备及介质
CN114663896A (zh) * 2022-05-17 2022-06-24 深圳前海环融联易信息科技服务有限公司 基于图像处理的文档信息抽取方法、装置、设备及介质
CN116090458A (zh) * 2022-12-20 2023-05-09 北京邮电大学 医学信息抽取方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853292A (zh) * 2010-05-18 2010-10-06 深圳市北科瑞讯信息技术有限公司 商业社会网络构建方法及***
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107526798A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN108446355A (zh) * 2018-03-12 2018-08-24 深圳证券信息有限公司 投融资事件要素抽取方法、装置及设备
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853292A (zh) * 2010-05-18 2010-10-06 深圳市北科瑞讯信息技术有限公司 商业社会网络构建方法及***
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107526798A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108446355A (zh) * 2018-03-12 2018-08-24 深圳证券信息有限公司 投融资事件要素抽取方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱佳晖: "基于双向LSTM和CRF的军事命名实体识别和链接", 《第六届中国指挥控制大会论文集(上册)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184178A (zh) * 2020-10-14 2021-01-05 深圳壹账通智能科技有限公司 邮件内容提取方法、装置、电子设备及存储介质
CN113065346A (zh) * 2021-04-02 2021-07-02 国网浙江省电力有限公司信息通信分公司 文本实体的识别方法及相关装置
CN113268595A (zh) * 2021-05-24 2021-08-17 中国电子科技集团公司第二十八研究所 一种基于实体关系抽取的结构化机场警报处理方法
CN113268595B (zh) * 2021-05-24 2022-09-06 中国电子科技集团公司第二十八研究所 一种基于实体关系抽取的结构化机场警报处理方法
CN114625340A (zh) * 2022-05-11 2022-06-14 深圳市商用管理软件有限公司 基于需求分析的商用软件研发方法、装置、设备及介质
CN114663896A (zh) * 2022-05-17 2022-06-24 深圳前海环融联易信息科技服务有限公司 基于图像处理的文档信息抽取方法、装置、设备及介质
CN116090458A (zh) * 2022-12-20 2023-05-09 北京邮电大学 医学信息抽取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和***
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN110851604B (zh) 一种文本分类方法、装置、电子设备及存储介质
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN110263325B (zh) 中文分词***
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及***
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111737497B (zh) 基于多源语义表示融合的弱监督关系抽取方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及***
CN114428850A (zh) 一种文本检索匹配方法和***
CN111428518B (zh) 一种低频词翻译方法及装置
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Kasri et al. Refining word embeddings with sentiment information for sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200703