CN110597998A - 一种结合句法分析的军事想定实体关系抽取方法及装置 - Google Patents

一种结合句法分析的军事想定实体关系抽取方法及装置 Download PDF

Info

Publication number
CN110597998A
CN110597998A CN201910653287.0A CN201910653287A CN110597998A CN 110597998 A CN110597998 A CN 110597998A CN 201910653287 A CN201910653287 A CN 201910653287A CN 110597998 A CN110597998 A CN 110597998A
Authority
CN
China
Prior art keywords
entity
corpus
entity relationship
military
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910653287.0A
Other languages
English (en)
Inventor
杨若鹏
卢稳新
鲁义威
刘乾
蒋序平
张建军
温鸿鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910653287.0A priority Critical patent/CN110597998A/zh
Publication of CN110597998A publication Critical patent/CN110597998A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种结合句法分析的军事想定实体关系抽取方法及装置,所述方法包括以下步骤:1、预定义军事想定实体关系抽取任务的目标关系类型;2、构建实体关系抽取模型的训练数据集和测试数据集;3、对语料逐条进行句法解析,滤除对实体关系抽取无贡献的句子成分;4、利用预训练的词嵌入矩阵将句法解析后保留的句子成分转换为向量化的词嵌入;5、使用向量化的训练数据对实体关系抽取模型进行训练;6、对待处理的军事想定文本进行实体关系抽取。本发明提出的结合句法分析的军事想定实体关系抽取方法,能够有效提升实体关系抽取的计算效率和精度。

Description

一种结合句法分析的军事想定实体关系抽取方法及装置
技术领域
本发明属于自然语言处理技术领域,特别涉及一种面向军事想定的实体关系抽取方法及装置。
背景技术
军事想定,分为基本想定和补充想定,是按照训练课题对作战双方的企图、态势及作战发展情况进行设想和假定的演习文书,是组织、诱导军事演习和作业的基本文书。军事想定实体关系是军事想定数据的基本信息元素,是对军事想定数据进行抽取、处理、分析的基础,抽取军事想定实体关系的目的,是发现隐含在军事想定非结构化文本中的实体关系,并采取一定的手段将其抽取出来。
目前,开放领域的实体关系抽取方法主要包括基于规则的方法、基于核函数的方法和基于深度学习的方法。其中,基于规则的方法需要根据待处理语料涉及的领域知识,严重依赖于专家知识和人工归纳,因而代价较高、移植性差,难以得到广泛使用;基于核函数的方法通过计算语法结构树的相似度来进行实体关系抽取,因而训练和测试速度太慢,不适合处理大规模数据;基于深度学习的方法通过利用深度神经网络可以自动抽取句子中的高级特征,移植性强、抽取精度高,但对于军事想定这一封闭领域的文本,由于缺少大规模人工标注语料,使得其效能的发挥受到了制约。
发明内容
本发明的目的在于克服现有技术的缺陷,实现了一种结合句法分析的军事想定实体关系抽取方法及装置。
为实现上述目的,本发明采用了如下技术方案:
一种基于句法分析和深度神经网络的军事想定实体关系抽取方法,所述方法包括以下步骤:
S1、语料库构建,用于预定义实体关系抽取目标关系类型,对军事想定原始文本进行标注,构建实体关系抽取模型训练数据集和测试数据集,具体包括:
S1.1、实体关系预定义,用于分析领域内权威词典中的军事概念,参考SemanticEvaluation会议关于实体关系类型定义的原则和方法,预定义待抽取实体关系类型;
所述领域内权威词典包括但不限于《中国军事百科全书》、《军事大辞典》、《简明军事词典》等词典;
S1.2、实体关系语料构建,根据预定义实体关系类型,采用手工方法对军事想定原始文本进行标注,生成实体关系抽取语料库,语料库中每一条语料的存储形式为(e1,e2,r,s),其中e1、e2分别表示头部实体和尾部实体,r表示两个实体之间的语义关系,s表示描述实体e1、e2具有语义关系r的句子;
S1.3、数据集划分,用于划分训练数据集与测试数据集,按照特定比例将步骤S1.2获得的语料库划分为训练数据集和测试数据集;
所述训练数据集与测试数据集的划分比例为2∶1。
S2、句法解析,用于对语料库中每一条语料中的句子s进行句法解析,滤除对实体关系抽取无贡献的句子成分,具体包括:
S2.1、句法树生成,利用句法解析开源工具对语料库中每一条语料中的句子s进行解析,生成句法树;
所述句法解析开源工具包括但不限于Stanford parser等;
S2.2、解析树剪枝,用于剪除句法树中与实体关系三元组(e1,e2,r)无关的句子成分,生成句法解析子树;
S2.3、子树重组,将句法解析子树重组为文本序列,重组过程中不改变词语原始的先后次序。
S3、数据向量化,将步骤S2.3生成的重组序列转换为以分布式向量形式表达的词嵌入集合,具体包括:
S3.1、训练原始文本向量化,结合领域内权威词典将当前输入的重组序列si以词为单位转换为one-hot向量,si表示输入的第i条语料中的句子;
S3.2、词嵌入生成,利用词向量转化开源工具将步骤S3.1获得的one-hot向量集合逐词转换为低维实值词嵌入;
所述词向量转化开源工具包括但不限于word2vec等。
S4、模型训练,利用数据化的实体关系抽取训练数据集训练基于深度神经网络的实体关系抽取模型,具体包括:
S4.1、语义特征抽取,选用特定神经网络作为基础关系抽取器,从步骤S3.4输出的向量集合中提取出当前语句的高级语义特征,模型采用双向神经网络以同时抽取实体对e1、e2的上、下文语义信息,以提升实体关系的识别精度,第i个语料的第j个词的特征表达式如下式所示:
式中,表示前向通道输出和反向通道输出的组合,[]表示括号中为一向量,表示前向通道输出的第i个语料中第j个词的语义特征,表示反向通道输出的第i个语料中第j个词的语义特征;
所述特定神经网络包括但不限于长短期记忆网络(Long Short-Term MemoryNetworks,LTSM)等;
所述双向神经网络包括但不限于双向长短期记忆网络(BLSTM)等;
S4.2、实体关系预测,利用分类器对步骤S4.1输出的特征向量进行处理,计算当前语料(e1,e2,r,s)中关系r为预定义实体关系类型集合Y=[y1,y2,…,y8]中关系yn(n∈[1,8])的估计概率
式中,softmax(·)表示softmax分类器运算,W表示分类器网络的权值矩阵,si表示第i个语料中的句子,表示第i个语料中句子的所有词汇的特征向量的组合,b表示分类器网络的偏置;
估计概率中,最大值所对应的关系类型即为对当前语料中关系r的预测结果,用标签来表示:
式中,表示取最大值运算,表示第i个语料中的句子si所描述的实体关系类型为yn的条件概率,yn表示第n种预定义实体关系类型,si表示第i个语料中的句子;
所述分类器包括但不限于softmax分类器等;
S4.3、代价函数优化,通过计算真实标签y的负似然函数的对数,得到深度神经网络的代价函数如下:
式中,tn表示one-hot向量,表示softamx分类器输出的每个预定义关系类型的估计概率,m表示预定义关系类型的数量(此处取值为8),λ表示L2正则化的超参数,θ表示实体关系抽取模型中的独立参数,||·||表示取范数,通过最小化代价函数J(θ),不断调整模型超参数,完成模型训练。
S5、实体关系抽取,用于利用训练完成的模型对待处理的军事想定文本进行实体关系抽取,具体包括:
S5.1、测试文本向量化,使用步骤S3中的处理过程,将待处理军事想定原始文本逐句进行向量化;
S5.2、实体关系预测,使用步骤S4训练完成的模型对步骤S5.1输出的向量化军事想定逐句进行语义关系预测,并将结果保存。
本发明采用结合句法分析的军事想定实体关系抽取方法,优点如下:
1、通过对《中国军事百科全书》等领域内权威词典的深入分析,理清了军事想定实体关系抽取的目标需求,在此基础之上参考Semantic Evaluation会议关于实体关系类型定义的原则和方法,预定义了8种军事想定实体关系抽取的目标关系类型,构建了包含11236条语料的军事想定实体关系抽取训练/测试语料库;
2、针对军事想定的语义表述具有较强的规范性和模式性,在进行关系抽取前首先利用句法解析器对句子进行句法解析及剪枝操作,滤除了对实体关系抽取无贡献的句子成分,提高了对于有效信息的利用率,并降低了模型的运算开销。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种结合句法分析的军事想定实体关系抽取方法实施例的流程示意图;
图2是本发明的组成结构框图;
图3是本发明应用的基于深度神经网络的实体关系抽取模型图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参照附图1,示出了本发明的一种结合句法分析的军事想定实体关系抽取方法的流程示意图,具体包括如下步骤:
S1、语料库构建,用于预定义实体关系抽取目标关系类型,对军事想定原始文本进行标注,构建实体关系抽取模型训练数据集和测试数据集,具体包括:
S1.1、实体关系预定义,分析《中国军事百科全书》、《军事大辞典》、《简明军事词典》等领域内权威词典中的军事概念,参考Semantic Evaluation会议关于实体关系类型定义的原则和方法,预定义待抽取实体关系类型;
1.2、实体关系语料构建,根据预定义实体关系类型,采用手工方法对军事想定原始文本进行标注,生成实体关系抽取语料库,语料库中每一条语料的存储形式为(e1,e2,r,s),其中,e1、e2分别表示头部实体和尾部实体;r表示两个实体之间的语义关系;s表示描述实体e1、e2具有语义关系r的句子;
S1.3、数据集划分,用于划分训练数据集与测试数据集,按照特定比例将步骤S1.2获得的语料库划分为训练数据集和测试数据集;
S2、句法解析,用于对语料库中每一条语料中的句子s进行句法解析,滤除对实体关系抽取无贡献的句子成分,具体包括:
S2.1、句法树生成,利用Stanfordparser等开源工具对语料库中每一条语料中的句子s进行句法解析,生成句法树;
S2.2、解析树剪枝,用于剪除句法树中与实体关系三元组(e1,e2,r)无关的句子成分,生成句法解析子树;
S2.3、子树重组,将句法解析子树重组为文本序列,重组过程中不改变词语原始的先后次序。
S3、数据向量化,将步骤S2.3生成的重组序列转换为以分布式向量形式表达的词嵌入集合,具体包括:
S3.1、训练原始文本向量化,结合领域内权威词典将当前输入的重组序列si以词为单位转换为one-hot向量,si表示输入的第i条语料中的句子;
S3.2、词嵌入生成,利用word2vec等开源工具将步骤S3.1获得的one-hot向量集合逐词转换为低维实值词嵌入,即将第i个句子中的第j个词xij转换为k维向量
S4、模型训练,利用数据化的实体关系抽取训练数据集训练基于深度神经网络的实体关系抽取模型,具体包括:
S4.1、语义特征抽取,选用长短期记忆网络(Long Short-Term Memory Networks,LTSM)等作为基础关系抽取器,从步骤S3.2输出的向量集合中提取出当前语句的高级语义特征,模型采用双向长短期记忆网络(BLSTM)等以同时抽取实体对e1、e2的上、下文语义信息,以提升实体关系的识别精度。第i个语料的第j个词的特征表达式如下式所示:
式中,表示前向通道输出和反向通道输出的组合,[]表示括号中为一向量,表示前向通道输出的第i个语料中第j个词的语义特征,表示反向通道输出的第i个语料中第j个词的语义特征;
S4.2、实体关系预测,利用softmax等分类器对步骤S4.1输出的特征向量进行处理,计算当前语料(e1,e2,r,s)中关系r为预定义实体关系类型集合Y=[y1,y2,…,y8]中关系yn(n∈[1,8])的估计概率
式中,softmax(·)表示softmax分类器运算,W表示分类器网络的权值矩阵,si表示第i个语料中的句子,表示第i个语料中句子的所有词汇的特征向量的组合,b表示分类器网络的偏置;
估计概率中,最大值所对应的关系类型即为对当前语料中关系r的预测结果,用标签来表示:
式中,表示取最大值运算,表示第i个语料中的句子si所描述的实体关系类型为yn的条件概率,yn表示第n种预定义实体关系类型,si表示第i个语料中的句子;
S4.3、代价函数优化,通过计算真实标签y的负似然函数的对数,得到深度神经网络的代价函数如下:
式中,tn表示one-hot向量,表示步骤S4.2中softamx分类器输出的每个预定义关系类型的估计概率,m表示预定义关系类型的数量(此处取值为8),λ表示L2正则化的超参数,θ表示实体关系抽取模型中的独立参数,||·||表示取范数,通过最小化代价函数J(θ),不断调整模型超参数,完成模型训练。
S5、实体关系抽取,利用训练完成的模型对待处理的军事想定文本进行实体关系抽取,具体包括:
S5.1、测试文本向量化,使用步骤S3中的处理过程,将待处理军事想定原始文本逐句进行向量化;
S5.2、实体关系预测,使用步骤S4训练完成的模型对步骤S5.1输出的向量化军事想定逐句进行语义关系预测,并将结果保存。
参照附图2,示出了本发明的组成结构图,具体包括:
语料库构建模块100,用于预定义实体关系抽取目标关系类型,对军事想定原始文本进行标注,构建实体关系抽取模型训练数据集和测试数据集,具体包括:
实体关系预定义单元101,用于分析《中国军事百科全书》、《军事大辞典》、《简明军事词典》等领域内权威词典中的军事概念,参考Semantic Evaluation会议关于实体关系类型定义的原则和方法,预定义待抽取实体关系类型;
实体关系语料构建单元102,根据预定义实体关系类型,采用手工方法对军事想定原始文本进行标注,生成实体关系抽取语料库;
数据集划分单元103,用于划分训练数据集与测试数据集,按照特定比例将实体关系语料构建单元102获得的语料库划分为训练数据集和测试数据集;
句法解析模块200,用于对语料库中每一条语料中的句子进行句法解析,滤除对实体关系抽取无贡献的句子成分,具体包括:
句法树生成单元201,利用开源工具对语料库中每一条语料中的句子进行句法解析,生成句法树;
句法树剪枝单元202,用于剪除句法树中除实体及其根节点之外的枝叶,生成句法解析子树;
子树重组单元203,将句法解析子树重组为文本序列,重组过程中不改变词语原始的先后次序。
数据向量化模块300,将子树重组单元203生成的重组序列转换为以分布式向量形式表达的词嵌入集合,具体包括:
训练原始文本向量化单元301,将当前输入语料中的重组序列按词进行切分,得到由T个词组成的词集合基于领域内权威词典将集合中的词转换为one-hot向量;
词嵌入生成单元302,利用开源工具将训练原始文本向量化301获得的one-hot向量集合逐词转换为低维实值词嵌入。
模型训练模块400,利用数据化的实体关系抽取训练数据集训练基于深度神经网络的实体关系抽取模型,具体包括:
语义特征抽取单元401,选用特定神经网络作为基础关系抽取器,从词嵌入生成302输出的向量集合中提取出当前语句的高级语义特征,模型采用双向神经网络以同时抽取实体对e1、e2的上、下文语义信息,以提升实体关系的识别精度;
实体关系预测单元402,利用分类器对语义特征抽取单元401输出的特征向量进行处理;
代价函数优化单元403,通过计算真实标签y的负似然函数的对数,得到深度神经网络的代价函数,通过最小化代价函数,不断调整模型超参数,完成模型训练。
实体关系抽取模块500,利用训练完成的模型对待处理的军事想定文本进行实体关系抽取,具体包括:
测试文本向量化单元501,使用数据向量化模块300中的处理过程,将待处理军事想定原始文本逐句进行向量化;
实体关系预测单元502,使用模型训练模块400训练完成的模型对测试文本向量化单元501输出的向量化军事想定逐句进行语义关系预测,并将结果保存。

Claims (9)

1.一种结合句法分析的军事想定实体关系抽取方法,其特征在于,所述方法包括以下步骤:
S1、语料库构建:预定义实体关系抽取目标关系类型,对军事想定原始文本进行标注,构建实体关系抽取模型训练数据集和测试数据集,具体包括:
S1.1、实体关系预定义:采用Semantic Evaluation会议关于实体关系类型定义的原则和方法,预定义待抽取实体关系类型;
S1.2、实体关系语料构建:根据预定义实体关系类型,采用手工方法对军事想定原始文本进行标注,生成实体关系抽取语料库,语料库中每一条语料的存储形式为(e1,e2,r,s),其中e1、e2分别表示头部实体和尾部实体,r表示两个实体之间的语义关系,s表示描述实体e1、e2具有语义关系r的句子;
S1.3、数据集划分:划分训练数据集与测试数据集,按照特定比例将步骤S1.2获得的语料库划分为训练数据集和测试数据集;
S2、句法解析:对语料库中每一条语料中的句子s进行句法解析,滤除对实体关系抽取无贡献的句子成分,具体包括:
S2.1、句法树生成:利用句法解析开源工具对语料库中每一条语料中的句子s进行解析,生成句法树;
S2.2、解析树剪枝:剪除句法树中与实体关系三元组(e1,e2,r)无关的句子成分,生成句法解析子树;
S2.3、子树重组:将句法解析子树重组为文本序列,重组过程中不改变词语原始的先后次序;
S3、数据向量化,将步骤S2.3生成的重组序列转换为以分布式向量形式表达的词嵌入集合,具体包括:
S3.1、训练原始文本向量化:结合领域内权威词典将当前输入的重组序列si以词为单位转换为one-hot向量,si表示输入的第i条语料中的句子;
S3.2、词嵌入生成:利用词向量转化开源工具将步骤S3.1获得的one-hot向量集合逐词转换为低维实值词嵌入:
S4、模型训练:利用数据化的实体关系抽取训练数据集训练基于深度神经网络的实体关系抽取模型,具体包括:
S4.1、语义特征抽取:选用特定神经网络作为基础关系抽取器,从步骤S3.4输出的向量集合中提取出当前语句的高级语义特征,模型采用双向神经网络以同时抽取实体对e1、e2的上、下文语义信息,以提升实体关系的识别精度,第i个语料的第j个词的特征表达式如下式所示:
式中,表示前向通道输出和反向通道输出的组合,[]表示括号中为一向量,表示前向通道输出的第i个语料中第j个词的语义特征,表示反向通道输出的第i个语料中第j个词的语义特征;
S4.2、实体关系预测:利用分类器对步骤S4.1输出的特征向量进行处理,计算当前语料(e1,e2,r,s)中关系r为预定义实体关系类型集合Y=[y1,y2,…,y8]中关系yn(n∈[1,8])的估计概率
式中,softmax(·)表示softmax分类器运算,W表示分类器网络的权值矩阵,si表示第i个语料中的句子,表示第i个语料中句子的所有词汇的特征向量的组合,b表示分类器网络的偏置;
估计概率中,最大值所对应的关系类型即为对当前语料中关系r的预测结果,用标签来表示:
式中,表示取最大值运算,表示第i个语料中的句子si所描述的实体关系类型为yn的条件概率,yn表示第n种预定义实体关系类型,si表示第i个语料中的句子;
S4.3、代价函数优化:通过计算真实标签y的负似然函数的对数,得到深度神经网络的代价函数如下:
式中,tn表示one-hot向量,表示步骤S4.2中softamx分类器输出的每个预定义关系类型的估计概率,m表示预定义关系类型的数量(此处取值为8),λ表示L2正则化的超参数,θ表示实体关系抽取模型中的独立参数,||·||表示取范数,通过最小化代价函数J(θ),不断调整模型超参数,完成模型训练;
S5、实体关系抽取:利用训练完成的模型对待处理的军事想定文本进行实体关系抽取,具体包括:
S5.1、测试文本向量化:使用步骤S3中的处理过程,将待处理军事想定原始文本逐句进行向量化;
S5.2、实体关系预测:使用步骤S4训练完成的模型对步骤S5.1输出的向量化军事想定逐句进行语义关系预测,并将结果保存。
2.根据权利要求1所述的结合句法分析的军事想定实体关系抽取方法,其特征在于,所述领域内权威词典包括《中国军事百科全书》、《军事大辞典》、《简明军事词典》。
3.根据权利要求1所述的结合句法分析的军事想定实体关系抽取方法,其特征在于,所述训练数据集与测试数据集的划分比例为2∶1。
4.根据权利要求1所述的结合句法分析的军事想定实体关系抽取方法,其特征在于,所述句法解析开源工具为Stanford parser。
5.根据权利要求1所述的结合句法分析的军事想定实体关系抽取方法,其特征在于,所述词向量转化开源工具为word2vec。
6.根据权利要求1所述的结合句法分析的军事想定实体关系抽取方法,其特征在于,所述特定神经网络为长短期记忆网络。
7.根据权利要求1所述的结合句法分析的军事想定实体关系抽取方法,其特征在于,所述双向神经网络为双向长短期记忆网络。
8.根据权利要求1所述的结合句法分析的军事想定实体关系抽取方法,其特征在于,所述分类器包括softmax分类器。
9.一种结合句法分析的军事想定实体关系抽取装置,其特征在于,所述装置包括:
语料库构建模块100:预定义实体关系抽取目标关系类型,对军事想定原始文本进行标注,构建实体关系抽取模型训练数据集和测试数据集,具体包括:
实体关系预定义单元101:采用Semantic Evaluation会议关于实体关系类型定义的原则和方法,预定义待抽取实体关系类型;
实体关系语料构建单元102:根据预定义实体关系类型,采用手工方法对军事想定原始文本进行标注,生成实体关系抽取语料库;
数据集划分单元103:划分训练数据集与测试数据集,按照特定比例将实体关系语料构建单元102获得的语料库划分为训练数据集和测试数据集;
句法解析模块200:对语料库中每一条语料中的句子进行句法解析,滤除对实体关系抽取无贡献的句子成分,具体包括:
句法树生成单元201:利用开源工具对语料库中每一条语料中的句子进行句法解析,生成句法树;
句法树剪枝单元202:剪除句法树中除实体及其根节点之外的枝叶,生成句法解析子树;
子树重组单元203:将句法解析子树重组为文本序列,重组过程中不改变词语原始的先后次序;
数据向量化模块300:将子树重组单元203生成的重组序列转换为以分布式向量形式表达的词嵌入集合,具体包括:
训练原始文本向量化单元301:将当前输入语料中的重组序列按词进行切分,得到由T个词组成的词集合,基于领域内权威词典将集合中的词转换为one-hot向量;
词嵌入生成单元302:利用开源工具将训练原始文本向量化单元301获得的one-hot向量集合逐词转换为低维实值词嵌入;
模型训练模块400:利用数据化的实体关系抽取训练数据集训练基于深度神经网络的实体关系抽取模型,具体包括:
语义特征抽取单元401:选用特定神经网络作为基础关系抽取器,从词嵌入生成单元302输出的向量集合中提取出当前语句的高级语义特征,模型采用双向神经网络以同时抽取实体对e1、e2的上、下文语义信息,以提升实体关系的识别精度;
实体关系预测单元402:利用分类器对语义特征抽取单元401输出的特征向量进行处理;
代价函数优化单元403:通过计算真实标签y的负似然函数的对数,得到深度神经网络的代价函数,通过最小化代价函数,不断调整模型超参数,完成模型训练;
实体关系抽取模块500:利用训练完成的模型对待处理的军事想定文本进行实体关系抽取,具体包括:
测试文本向量化单元501:使用数据向量化模块300中的处理过程,将待处理军事想定原始文本逐句进行向量化;
实体关系预测单元502:使用模型训练模块400训练完成的模型对测试文本向量化单元501输出的向量化军事想定逐句进行语义关系预测,并将结果保存。
CN201910653287.0A 2019-07-19 2019-07-19 一种结合句法分析的军事想定实体关系抽取方法及装置 Pending CN110597998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910653287.0A CN110597998A (zh) 2019-07-19 2019-07-19 一种结合句法分析的军事想定实体关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910653287.0A CN110597998A (zh) 2019-07-19 2019-07-19 一种结合句法分析的军事想定实体关系抽取方法及装置

Publications (1)

Publication Number Publication Date
CN110597998A true CN110597998A (zh) 2019-12-20

Family

ID=68852960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910653287.0A Pending CN110597998A (zh) 2019-07-19 2019-07-19 一种结合句法分析的军事想定实体关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110597998A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177383A (zh) * 2019-12-24 2020-05-19 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111309925A (zh) * 2020-02-10 2020-06-19 同方知网(北京)技术有限公司 一种军事装备的知识图谱构建方法
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111738000A (zh) * 2020-07-22 2020-10-02 腾讯科技(深圳)有限公司 一种短语推荐的方法以及相关装置
CN112149423A (zh) * 2020-10-16 2020-12-29 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及***
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112685513A (zh) * 2021-01-07 2021-04-20 昆明理工大学 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法
CN113011189A (zh) * 2021-03-26 2021-06-22 深圳壹账通智能科技有限公司 开放式实体关系的抽取方法、装置、设备及存储介质
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及***
CN113076396A (zh) * 2021-03-29 2021-07-06 中国医学科学院医学信息研究所 一种面向人机协同的实体关系处理方法及***
CN112214610B (zh) * 2020-09-25 2023-09-08 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法
CN117332761A (zh) * 2023-11-30 2024-01-02 北京一标数字科技有限公司 一种pdf文档智能识别标注***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930746A (en) * 1996-03-20 1999-07-27 The Government Of Singapore Parsing and translating natural language sentences automatically
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109902301A (zh) * 2019-02-26 2019-06-18 广东工业大学 基于深度神经网络的关系推理方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930746A (en) * 1996-03-20 1999-07-27 The Government Of Singapore Parsing and translating natural language sentences automatically
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109902301A (zh) * 2019-02-26 2019-06-18 广东工业大学 基于深度神经网络的关系推理方法、装置及设备

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
LI ZHEN 等: ""Research on Entity Semantic Relation Extraction in Fusion Domain"", 《2018 2ND INTERNATIONAL CONFERENCE ON DATA SCIENCE AND BUSINESS ANALYTICS (ICDSBA)》 *
YUANFEI DAI 等: ""Relation Classification via LSTMs Based on Sequence and Tree Structure"", 《IEEE ACCESS》 *
单赫源 等: ""结合词语规则和SVM模型的军事命名实体关系抽取方法"", 《指挥控制与仿真》 *
唐弘毅: ""基于深度学习的实体关系抽取的研究"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
唐敏: ""基于深度学习的中文实体关系抽取方法研究"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
庄成龙 等: ""基于树核函数的实体语义关系抽取方法研究"", 《中文信息学报》 *
朱珊珊 等: ""基于BiLSTM_Att的军事领域实体关系抽取研究"", 《智能计算机与应用》 *
李枫林 等: ""基于深度学习框架的实体关系抽取研究进展"", 《情报科学》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177383A (zh) * 2019-12-24 2020-05-19 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111177383B (zh) * 2019-12-24 2024-01-16 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111309925B (zh) * 2020-02-10 2023-06-30 同方知网数字出版技术股份有限公司 一种军事装备的知识图谱构建方法
CN111309925A (zh) * 2020-02-10 2020-06-19 同方知网(北京)技术有限公司 一种军事装备的知识图谱构建方法
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111476035B (zh) * 2020-05-06 2023-09-05 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111738000A (zh) * 2020-07-22 2020-10-02 腾讯科技(深圳)有限公司 一种短语推荐的方法以及相关装置
CN111738000B (zh) * 2020-07-22 2020-11-24 腾讯科技(深圳)有限公司 一种短语推荐的方法以及相关装置
CN112214610B (zh) * 2020-09-25 2023-09-08 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法
CN112149423A (zh) * 2020-10-16 2020-12-29 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及***
CN112149423B (zh) * 2020-10-16 2024-01-26 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及***
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112685513A (zh) * 2021-01-07 2021-04-20 昆明理工大学 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法
CN113011189A (zh) * 2021-03-26 2021-06-22 深圳壹账通智能科技有限公司 开放式实体关系的抽取方法、装置、设备及存储介质
CN113076396A (zh) * 2021-03-29 2021-07-06 中国医学科学院医学信息研究所 一种面向人机协同的实体关系处理方法及***
CN113076396B (zh) * 2021-03-29 2023-05-16 中国医学科学院医学信息研究所 一种面向人机协同的实体关系处理方法及***
CN113076421B (zh) * 2021-04-02 2023-03-28 西安交通大学 一种社交噪音文本实体关系抽取优化方法及***
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及***
CN117332761A (zh) * 2023-11-30 2024-01-02 北京一标数字科技有限公司 一种pdf文档智能识别标注***
CN117332761B (zh) * 2023-11-30 2024-02-09 北京一标数字科技有限公司 一种pdf文档智能识别标注***

Similar Documents

Publication Publication Date Title
CN110597998A (zh) 一种结合句法分析的军事想定实体关系抽取方法及装置
US11194972B1 (en) Semantic sentiment analysis method fusing in-depth features and time sequence models
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN106919646B (zh) 中文文本摘要生成***及方法
CN110598203B (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN107908614A (zh) 一种基于Bi‑LSTM的命名实体识别方法
CN107818164A (zh) 一种智能问答方法及其***
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN107885721A (zh) 一种基于lstm的命名实体识别方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及***
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN109062904B (zh) 逻辑谓词提取方法和装置
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
CN110134793A (zh) 文本情感分类方法
Ma et al. Tagging the web: Building a robust web tagger with neural network
CN114020906A (zh) 基于孪生神经网络的中文医疗文本信息匹配方法及***
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
Legrand et al. Phrase representations for multiword expressions
Yang et al. Multi-intent text classification using dual channel convolutional neural network
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
CN114330293A (zh) 一种基于图同构网络的谓词抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220

RJ01 Rejection of invention patent application after publication