CN110609896A - 基于二次解码的军事想定文本事件信息抽取方法及装置 - Google Patents

基于二次解码的军事想定文本事件信息抽取方法及装置 Download PDF

Info

Publication number
CN110609896A
CN110609896A CN201910653282.8A CN201910653282A CN110609896A CN 110609896 A CN110609896 A CN 110609896A CN 201910653282 A CN201910653282 A CN 201910653282A CN 110609896 A CN110609896 A CN 110609896A
Authority
CN
China
Prior art keywords
event
word
extraction
sequence
trigger word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910653282.8A
Other languages
English (en)
Other versions
CN110609896B (zh
Inventor
刘乾
杨若鹏
蒋序平
卢稳新
鲁云军
鲁义威
战立莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910653282.8A priority Critical patent/CN110609896B/zh
Publication of CN110609896A publication Critical patent/CN110609896A/zh
Application granted granted Critical
Publication of CN110609896B publication Critical patent/CN110609896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于二次解码的军事想定文本事件信息抽取方法及装置,所述方法包括:1、预处理,通过构建专业词典、分句、分词处理,得到词序列形式表示的数据集;2、语料标注,通过定义军事想定文本中9类事件的结构化语义,制定语料标注方法和规则,人工对语料标注,得到训练集和测试集;3、模型训练,利用训练集对机器学习模型编码,得到事件抽取参数;4、信息抽取,输入测试集,运用特定算法进行一次解码,得到事件触发词抽取序列,再基于触发词抽取结果自适应调用不同的事件元素抽取参数进行二次解码,得到事件元素抽取序列。本发明解决了一次解码抽取方法存在的事件触发词与事件元素错误匹配的问题,提高了事件信息抽取的准确度。

Description

基于二次解码的军事想定文本事件信息抽取方法及装置
技术领域
本发明属于自然语言处理技术领域,特别涉及一种基于二次解码的军事想定文本事件信息抽取方法及装置。
背景技术
军事想定文本,是按照作战双方的企图、态势及作战进程场景进行设想和假定的描述文本。事件信息抽取是自然语言处理技术领域的一个重要分支,运用事件抽取技术可以从大量自然语言文本中抽取人们感兴趣的关键信息,包括事件类型、事件主体、事件发生时间、事件发生地点以及事件客体等。因此运用事件抽取技术能够使军事人员从大量不规则的、随意性较大的军事想定文本中准确获取感兴趣的关键信息。
传统事件抽取的方法主要通过模式匹配或机器学习的方法来实现事件信息抽取。模式匹配是构建抽取模式,其在特定领域内应用较好,但移植性和灵活性差,跨领域时需重新构建模式,耗费大量时间和人力;机器学习能适用于不同的领域,具有较高的移植性和灵活性,但是需要标注大量语料,对语料要求比较高,如果语料不足或者标注质量不高,抽取准确度和精度均会降低。
由于军事想定文本事件信息抽取的专业特殊性,运用模式匹配方法需要耗费大量时间和人力,无法满足实际需要,机器学习方法依赖大规模语料进行训练,但是军事想定文本语料规模有限,数据稀疏问题严重。
发明内容
本发明的目的在于克服现有技术的缺陷,提出了一种基于二次解码的军事想定文本事件信息抽取方法及装置,解决在语料规模受限、各类型事件语料规模不均衡的情况下运用机器学习模型进行一次解码时事件触发词和事件元素错误匹配的问题,能够提高事件抽取的准确度。
为实现上述目的,本发明采用了如下技术方案:
一种基于二次解码的军事想定文本事件信息抽取方法,所述方法包括以下步骤:
A、预处理,用于对输入的军事想定文本语料进行文本预处理,基于输入的军事想定文本语料,依托开源分词器的自带词典构建专业词典,对军事想定文本语料依次进行分句、分词,生成以词序列形式表示的数据集,其具体包括:
A1、中文分句,用于将军事想定文本语料按照中文标点断句符号切分成句子,形成句子集合;
A2、专业词典构建,基于开源分词器的自带词典构建专业词典;
A3、中文分词,用于将句子集合中的每个句子,运用基于专业词典的开源分词器进行分词,得到词集合,并逐行显示,生成词序列;
所述开源分词器包括但不限于jieba、Hanlp、CoreNLP、thulac等分词器。
B、语料标注,用于定义军事想定文本中9类事件的结构化语义,制定语料标注方法和规则,逐行对词序列数据集中每个词语标注相应的事件触发词标签或事件元素标签,生成事件触发词标注序列和事件元素标注序列,构建事件触发词抽取训练集、事件元素抽取训练集和事件信息抽取测试集,其具体包括:
B1、事件结构化语义定义,用于根据军事行动概念定义9类军事想定文本事件类型,并确定每类事件的结构化语义,包括事件触发词和事件元素信息;
B2、标注规则方法制定,用于制定语料标注方法和规则,分别定义9类事件的触发词标注标签和元素标注标签;
B3、语料人工标注,采用人工标注方式,逐行对词序列标注相应标签,生成1个事件触发词标注序列和9个事件元素标注序列;
B4、数据集构建,用于构建基于词序列、事件触发词标注序列的1个事件触发词抽取训练集,基于词序列、9个事件元素标注序列的9个事件元素抽取训练集,基于词序列、事件触发词标注序列和事件元素标注序列的事件信息抽取测试集;
所述9类军事想定文本事件包括攻击事件、防守事件、指挥事件、部署事件、机动事件、封锁事件、协同事件、侦察事件、保障事件。
C、模型训练,用于将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号,基于事件触发词抽取训练集、9个事件元素抽取训练集运用机器学习模型进行编码,生成事件触发词抽取参数和9个事件元素抽取参数,其具体包括:
C1、信号转化,用于将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号;
C2、参数生成,将数字信号输入机器学习模型进行编码,得到事件触发词识别参数和9个事件元素识别参数,事件触发词和事件元素识别参数生成过程基本相同,以事件触发词识别参数为例具体包括:
C2.1、状态数和观测数生成,设事件触发词抽取训练集中触发词标签序列为Q={q1,q2,......qT},其中qt表示t(1≤t≤T)时刻的触发词标签,并作为状态序列,统计触发词标签类型,以类型数N作为状态数,设词序列为Y={y1,y2,...yT},其中yt分别表示t(1≤t≤T)时刻的词,并作为观测序列,统计词类型,以类型数M作为观测数;
C2.2、初始状态概率分布π生成,生成公式如下:
式中πi表示初始状态为qi的概率,S(qi)表示事件触发词抽取训练集中以qi触发词标签为初始状态的序列数,∑j∈[1,N]S(qj)表示序列总数;
C2.3、状态转移概率矩阵A生成,生成公式如下:
式中S(qi,qj)表示当t时刻事件触发词标签为qj,t-1时刻事件触发词标签为qi的次数,∑I∈[1,N]S(qi,qI)表示当t时刻事件触发词标签为任意状态,t-1时刻事件触发词标签为qi的次数总和;
C2.4、观测概率矩阵B生成,生成公式如下:
式中S(qi,yk)表示t时刻事件触发词标签为qi,并且词为yk的次数,∑I∈[1,M]S(qi,yI)表示t时刻事件触发词标签为qi,并且词yI为任意类型的次数;
C2.5、参数生成,事件触发词识别参数λ=(N,M,A,B,π),式中A={aij},B={bik},π={πi};
所述机器学习模型包括但不限于HMM、CRF、MEMM、NB等。
D、信息抽取,基于事件触发词抽取参数和9个事件元素抽取参数,运用解码算法对事件信息抽取测试集进行解码,得到事件触发词抽取序列和事件元素抽取序列,将触发词抽取序列与事件元素抽取序列合并,完成事件信息抽取,其具体包括:
D1、第一次解码,将C2步骤产生的事件触发词识别参数λ=(N,M,A,B,π)和事件信息抽取测试集观测序列Y={y1,y2,...yT}作为解码算法模型输入,运用解码算法进行第一次解码,计算观测序列Y={y1,y2,...yT}与随机搜索形成的状态序列Q=(q1,q2,,…,qT)的映射概率P(y1→q1,y2→q2,,…,yT→qT|λ),输出当映射概率为Pmax时的状态序列Qmax,即事件触发词抽取序列;
D2、事件类型确定,基于事件触发词抽取序列,逐行扫描并判断每一句话的事件触发词标签类型,得到每一句话的事件类型;
D3、第二次解码,用于根据每一句话的事件类型,调用与该句的事件类型相对应的1个事件元素识别参数,运用解码算法,按照D1步骤对该句子进行第二次解码,生成该句子对应的概率最大的事件元素抽取序列;
D4、逐句扫描事件信息抽取测试集,重复循环步骤D3,直到事件信息抽取测试集的所有句子全部扫描完毕,生成事件信息抽取测试集对应的事件元素抽取序列;
D5、抽取结果合并,用于将事件信息抽取测试集对应的事件触发词抽取序列与事件元素抽取序列合并,组成事件信息抽取序列,完成事件信息抽取过程;
所述解码算法包括但不限于Viterbi、Dijkstra、Forward-Backward等算法。
本发明采用基于二次解码的军事想定文本事件信息抽取方法,优点如下:
1、可移植性和灵活性好,跨领域时不需要重新构建模式;
2、不需要标注大量语料,对语料要求比较低,可节约大量时间和人力成本;
3、事件触发词与事件元素匹配程度高,可降低错误匹配率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于二次解码的军事想定文本事件信息抽取方法实施例的流程示意图;
图2是本发明的组成结构框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参照附图1,示出了本发明的基于二次解码的军事想定文本事件信息抽取方法实施例的流程示意图,具体包括以下步骤:
A:预处理,输入军事想定文本语料,依托jieba、Hanlp等开源分词器自带词典,构建专业词典,对军事想定文本语料依次进行分句、分词,生成以词序列形式表示的数据集;
A1:将军事想定文本语料按照中文标点断句符号切分成句子,形成句子集合;
A2:基于jieba、Hanlp等分词器自带词典构建专业词典,专业词典在格式上与自带词典相同,均是逐行显示,每行信息包括词语、词频,并用空格隔开,利用专业词典进行分词能够提高军事想定文本分词准确度;
A3:将句子集合中的每个句子,运用基于专业词典的jieba、Hanlp等开源分词器进行分词,得到词集合,并逐行显示,生成词序列;
B:语料标注,定义军事想定文本中9类事件的结构化语义,制定语料标注方法和规则,逐行对词序列数据集中每个词语标注相应的事件触发词标签或事件元素标签,生成事件触发词标注序列和事件元素标注序列,构建事件触发词抽取训练集、事件元素抽取训练集和事件信息抽取测试集;
B1:基于军事行动概念定义攻击事件、防守事件、指挥事件、部署事件、机动事件、封锁事件、协同事件、侦察事件、保障事件共9类军事想定文本事件类型,并确定每类事件的结构化语义,包括事件触发词和事件元素信息;
B2:制定语料标注方法和规则,分别定义9类事件的触发词标注标签和元素标注标签;
B3:采用人工标注方式,逐行对词序列标注相应标签,生成1个事件触发词标注序列和9个事件元素标注序列;
B4:构建基于词序列、事件触发词标注序列的1个事件触发词抽取训练集,基于词序列、9个事件元素标注序列的9个事件元素抽取训练集,基于词序列、事件触发词标注序列和事件元素标注序列的事件信息抽取测试集;
C:模型训练,基于事件触发词抽取训练集、9个事件元素抽取训练集运用HMM、CRF等机器学习模型进行编码,生成事件触发词抽取参数λ1和9个事件元素抽取参数λ2
C1:将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号;
C2:参数生成,将数字信号输入机器学习模型进行编码,得到事件触发词识别参数和9个事件元素识别参数,事件触发词和事件元素识别参数生成过程基本相同,以事件触发词识别参数为例具体包括:
C2.1、状态数和观测数生成,设事件触发词抽取训练集中触发词标签序列为Q={q1,q2,......qT},其中qt表示t(1≤t≤T)时刻的触发词标签,并作为状态序列,统计触发词标签类型,以类型数N作为状态数,设词序列为Y={y1,y2,...yT},其中yt分别表示t(1≤t≤T)时刻的词,并作为观测序列,统计词类型,以类型数M作为观测数;
C2.2、初始状态概率分布π生成,生成公式如下:
式中πi表示初始状态为qi的概率,S(qi)表示事件触发词抽取训练集中以qi触发词标签为初始状态的序列数,∑j∈[1,N]S(qj)表示序列总数;
C2.3、状态转移概率矩阵A生成,生成公式如下:
式中S(qi,qj)表示当t时刻事件触发词标签为qj,t-1时刻事件触发词标签为qi的次数,∑I∈[1,N]S(qi,qI)表示当t时刻事件触发词标签为任意状态,t-1时刻事件触发词标签为qi的次数总和;
C2.4、观测概率矩阵B生成,生成公式如下:
式中S(qi,yk)表示t时刻事件触发词标签为qi,并且词为yk的次数,∑I∈[1,M]S(qi,yI)表示t时刻事件触发词标签为qi,并且词yI为任意类型的次数;
C2.5、参数生成,事件触发词识别参数λ=(N,M,A,B,π),式中A={aij},B={bik},π={πi};
D:信息抽取,基于事件触发词抽取参数λ1和9个事件元素抽取参数λ2,运用Viterbi等算法对事件信息抽取测试集进行解码,得到事件触发词抽取序列和事件元素抽取序列,最后将触发词抽取序列与事件元素抽取序列合并,完成事件信息抽取过程;
D1:基于事件触发词识别参数λ1,运用Viterbi、Dijkstra等算法对事件信息抽取测试集进行第一次解码,得到事件信息抽取测试集对应的事件触发词抽取序列,完成事件触发词抽取过程;
D2:基于事件触发词抽取序列,逐行扫描并判断每一句话的事件触发词标签类型,得到这一句话的事件类型;
D3:当判定某一句子的事件类型后,调用与该句的事件类型相对应的1个事件元素识别参数λ2,运用Viterbi、Dijkstra等算法对该句子进行第二次解码,生成该句子对应的事件元素抽取序列;
D4:对事件信息抽取测试集进行逐句扫描,重复循环D3步骤,直到事件信息抽取测试集的所有句子全部扫描完毕,生成事件信息抽取测试集对应的事件元素抽取序列,完成事件元素抽取过程;
D5:将事件信息抽取测试集对应的事件触发词抽取序列与事件元素抽取序列合并,组成事件信息抽取序列,完成事件信息抽取过程。
参照附图2,示出了本发明的基于二次解码的军事想定文本事件信息抽取装置的组成结构图,具体包括如下组成结构:
预处理模块100,用于对输入的军事想定文本语料进行文本预处理,基于输入的军事想定文本语料,依托开源分词器的自带词典构建专业词典,对军事想定文本语料依次进行分句、分词,生成以词序列形式表示的数据集,其具体包括:
中文分句单元101,用于将军事想定文本语料按照中文标点断句符号切分成句子,形成句子集合;
专业词典构建单元102,基于jieba、Hanlp等开源分词器的自带词典构建专业词典;
中文分词单元103,用于将句子集合中的每个句子,运用基于专业词典的jieba等开源分词器进行分词,得到词集合,并逐行显示,生成词序列。
语料标注模块200,用于定义军事想定文本中9类事件的结构化语义,制定语料标注方法和规则,逐行对词序列数据集中每个词语标注相应的事件触发词标签或事件元素标签,生成事件触发词标注序列和事件元素标注序列,构建事件触发词抽取训练集、事件元素抽取训练集和事件信息抽取测试集,其具体包括:
事件结构化语义定义单元201,用于根据军事行动概念定义攻击事件、防守事件、指挥事件、部署事件、机动事件、封锁事件、协同事件、侦察事件、保障事件共9类军事想定文本事件类型,并确定每类事件的结构化语义,包括事件触发词和事件元素信息;
标注规则方法制定单元202,用于制定语料标注方法和规则,分别定义9类事件的触发词标注标签和元素标注标签;
语料人工标注单元203,采用人工标注方式,逐行对词序列标注相应标签,生成1个事件触发词标注序列和9个事件元素标注序列;
数据集构建单元204,用于构建基于词序列、事件触发词标注序列的1个事件触发词抽取训练集,基于词序列、9个事件元素标注序列的9个事件元素抽取训练集,基于词序列、事件触发词标注序列和事件元素标注序列的事件信息抽取测试集。
模型训练模块300,用于将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号,基于事件触发词抽取训练集、9个事件元素抽取训练集运用机器学习模型进行编码,生成事件触发词抽取参数和9个事件元素抽取参数,其具体包括:
信号转化单元301,用于将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号;
参数生成单元302,将数字信号输入HMM等机器学习模型进行编码,得到事件触发词识别参数和9个事件元素识别参数。
信息抽取模块400,基于事件触发词抽取参数和9个事件元素抽取参数,运用特定算法对事件信息抽取测试集进行解码,得到事件触发词抽取序列和事件元素抽取序列,将触发词抽取序列与事件元素抽取序列合并,完成事件信息抽取,其具体包括:
第一次解码单元401,基于事件触发词识别参数,运用解码算法对事件信息抽取测试集进行第一次解码,得到事件信息抽取测试集对应的事件触发词抽取序列;
事件类型确定单元402,基于事件触发词抽取序列,逐行扫描并判断每一句话的事件触发词标签类型,得到每一句话的事件类型;
第二次解码单元403,用于根据每一句话的事件类型,调用与该句的事件类型相对应的1个事件元素识别参数,运用Viterbi等解码算法对该句子进行第二次解码,生成该句子对应的事件元素抽取序列,逐句扫描事件信息抽取测试集,直到事件信息抽取测试集的所有句子全部扫描完毕,生成事件信息抽取测试集对应的事件元素抽取序列;
抽取结果合并单元404,用于将事件信息抽取测试集对应的事件触发词抽取序列与事件元素抽取序列合并,组成事件信息抽取序列,完成事件信息抽取过程。

Claims (6)

1.一种基于二次解码的军事想定文本事件信息抽取方法,其特征在于,包括以下步骤:
A、预处理:对输入的军事想定文本语料进行文本预处理,基于输入的军事想定文本语料,依托开源分词器的自带词典构建专业词典,对军事想定文本语料依次进行分句、分词,生成以词序列形式表示的数据集,具体包括:
A1、中文分句:将军事想定文本语料按照中文标点断句符号切分成句子,形成句子集合;
A2、专业词典构建:基于开源分词器的自带词典构建专业词典;
A3、中文分词:将句子集合中的每个句子,运用基于专业词典的开源分词器进行分词,得到词集合,并逐行显示,生成词序列;
B、语料标注:定义军事想定文本中9类事件的结构化语义,制定语料标注方法和规则,逐行对词序列数据集中每个词语标注相应的事件触发词标签或事件元素标签,生成事件触发词标注序列和事件元素标注序列,构建事件触发词抽取训练集、事件元素抽取训练集和事件信息抽取测试集,具体包括:
B1、事件结构化语义定义:根据军事行动概念定义9类军事想定文本事件类型,并确定每类事件的结构化语义,包括事件触发词和事件元素信息;
B2、标注规则方法制定:制定语料标注方法和规则,分别定义9类事件的触发词标注标签和元素标注标签;
B3、语料人工标注:采用人工标注方式,逐行对词序列标注相应标签,生成1个事件触发词标注序列和9个事件元素标注序列;
B4、数据集构建:构建基于词序列、事件触发词标注序列的1个事件触发词抽取训练集,基于词序列、9个事件元素标注序列的9个事件元素抽取训练集,基于词序列、事件触发词标注序列和事件元素标注序列的事件信息抽取测试集;
C、模型训练:将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号,基于事件触发词抽取训练集、9个事件元素抽取训练集运用机器学习模型进行编码,生成事件触发词抽取参数和9个事件元素抽取参数,具体包括:
C1、信号转化:将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号;
C2、参数生成:将数字信号输入机器学习模型进行编码,得到事件触发词识别参数和9个事件元素识别参数,事件触发词参数和事件元素识别参数生成过程相同,事件触发词识别参数生成过程如下:
C2.1、状态数和观测数生成:设事件触发词抽取训练集中触发词标签序列为Q={q1,q2,......qT},其中qt表示t(1≤t≤T)时刻的触发词标签,并作为状态序列,统计触发词标签类型,以类型数N作为状态数,设词序列为Y={y1,y2,...yT},其中yt分别表示t(1≤t≤T)时刻的词,并作为观测序列,统计词类型,以类型数M作为观测数;
C2.2、初始状态概率分布π生成:生成公式如下:
式中πi表示初始状态为qi的概率,S(qi)表示事件触发词抽取训练集中以qi触发词标签为初始状态的序列数,∑j∈[1,N]S(qj)表示序列总数;
C2.3、状态转移概率矩阵A生成:生成公式如下:
式中S(qi,qj)表示当t时刻事件触发词标签为qj,t-1时刻事件触发词标签为qi的次数,∑I∈[1,N]S(qi,qI)表示当t时刻事件触发词标签为任意状态,t-1时刻事件触发词标签为qi的次数总和;
C2.4、观测概率矩阵B生成:生成公式如下:
式中S(qi,yk)表示t时刻事件触发词标签为qi,并且词为yk的次数,∑I∈[1,M]S(qi,yI)表示t时刻事件触发词标签为qi,并且词yI为任意类型的次数;
C2.5、参数生成:事件触发词识别参数λ=(N,M,A,B,π),式中A={aij},B={bik},π={πi};
D、信息抽取:基于事件触发词抽取参数和9个事件元素抽取参数,运用解码算法对事件信息抽取测试集进行解码,得到事件触发词抽取序列和事件元素抽取序列,将触发词抽取序列与事件元素抽取序列合并,完成事件信息抽取,具体包括:
D1、第一次解码:将C2步骤产生的事件触发词识别参数λ=(N,M,A,B,π)和事件信息抽取测试集观测序列Y={y1,y2,...yT}作为解码算法模型输入,运用解码算法进行第一次解码,计算观测序列Y={y1,y2,...yT}与随机搜索形成的状态序列Q=(q1,q2,,…,qT)的映射概率P(y1→q1,y2→q2,,…,yT→qT|λ),输出当映射概率为Pmax时的状态序列Qmax,即事件触发词抽取序列;
D2、事件类型确定:基于事件触发词抽取序列,逐行扫描并判断每一句话的事件触发词标签类型,得到每一句话的事件类型;
D3、第二次解码:根据每一句话的事件类型,调用与该句的事件类型相对应的1个事件元素识别参数,运用解码算法,按照D1步骤对该句子进行第二次解码,生成该句子对应的概率最大的事件元素抽取序列;
D4、逐句扫描事件信息抽取测试集:重复循环步骤D3,直到事件信息抽取测试集的所有句子全部扫描完毕,生成事件信息抽取测试集对应的事件元素抽取序列;
D5、抽取结果合并:将事件信息抽取测试集对应的事件触发词抽取序列与事件元素抽取序列合并,组成事件信息抽取序列,完成事件信息抽取过程。
2.如权利要求1所述的基于二次解码的军事想定文本事件信息抽取方法,其特征在于,所述开源分词器包括jieba、Hanlp、CoreNLP、thulac。
3.如权利要求1所述的基于二次解码的军事想定文本事件信息抽取方法,其特征在于,所述9类军事想定文本事件包括攻击事件、防守事件、指挥事件、部署事件、机动事件、封锁事件、协同事件、侦察事件、保障事件。
4.如权利要求1所述的基于二次解码的军事想定文本事件信息抽取方法,其特征在于,所述机器学习模型包括HMM、CRF、MEMM、NB。
5.如权利要求1所述的基于二次解码的军事想定文本事件信息抽取方法,其特征在于,所述解码算法包括Viterbi、Dijkstra、Forward-Backward。
6.一种基于二次解码的军事想定文本事件信息抽取装置,其特征在于,所述装置包括:
预处理模块100:对输入的军事想定文本语料进行文本预处理,基于输入的军事想定文本语料,依托开源分词器的自带词典构建军事领域词典,对军事想定文本语料依次进行分句、分词,生成以词序列形式表示的数据集,具体包括:
中文分句单元101:将军事想定文本语料按照中文标点断句符号切分成句子,形成句子集合;
专业词典构建单元102:基于开源分词器的自带词典构建专业词典;
中文分词单元103:将句子集合中的每个句子,运用开源分词器进行分词,得到词集合,并逐行显示,生成词序列;
语料标注模块200:定义军事想定文本中9类事件的结构化语义,制定语料标注方法和规则,逐行对词序列数据集中每个词语标注相应的事件触发词标签或事件元素标签,生成事件触发词标注序列和事件元素标注序列,构建事件触发词抽取训练集、事件元素抽取训练集和事件信息抽取测试集,具体包括:
事件结构化语义定义单元201:根据军事行动概念定义9类军事想定文本事件类型,确定每类事件的结构化语义;
标注规则方法制定单元202:制定语料标注方法和规则,分别定义9类事件的触发词标注标签和元素标注标签;
语料人工标注单元203:采用人工标注方式,逐行对词序列标注相应标签,生成1个事件触发词标注序列和9个事件元素标注序列;
数据集构建单元204:构建基于词序列、事件触发词标注序列的1个事件触发词抽取训练集,基于词序列、9个事件元素标注序列的9个事件元素抽取训练集,基于词序列、事件触发词标注序列和事件元素标注序列的事件信息抽取测试集;
模型训练模块300:将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号,基于事件触发词抽取训练集、9个事件元素抽取训练集运用机器学习模型进行编码,生成事件触发词抽取参数和9个事件元素抽取参数,具体包括:
信号转化单元301:将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号;
参数生成单元302:将数字信号输入机器学习模型进行编码,得到事件触发词识别参数和9个事件元素识别参数;
信息抽取模块400:基于事件触发词抽取参数和9个事件元素抽取参数,运用解码算法对事件信息抽取测试集进行解码,得到事件触发词抽取序列和事件元素抽取序列,将触发词抽取序列与事件元素抽取序列合并,完成事件信息抽取,具体包括:
第一次解码单元401:基于事件触发词识别参数,运用解码算法对事件信息抽取测试集进行第一次解码,得到事件信息抽取测试集对应的事件触发词抽取序列;
事件类型确定单元402:基于事件触发词抽取序列,逐行扫描并判断每一句话的事件触发词标签类型,得到每一句话的事件类型;
第二次解码单元403:根据每一句话的事件类型,调用与该句的事件类型相对应的1个事件元素识别参数,运用解码算法对该句子进行第二次解码,生成该句子对应的事件元素抽取序列,逐句扫描事件信息抽取测试集,直到事件信息抽取测试集的所有句子全部扫描完毕,生成事件信息抽取测试集对应的事件元素抽取序列;
抽取结果合并单元404:将事件信息抽取测试集对应的事件触发词抽取序列与事件元素抽取序列合并,组成事件信息抽取序列,完成事件信息抽取过程。
CN201910653282.8A 2019-07-19 2019-07-19 基于二次解码的军事想定文本事件信息抽取方法及装置 Active CN110609896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910653282.8A CN110609896B (zh) 2019-07-19 2019-07-19 基于二次解码的军事想定文本事件信息抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910653282.8A CN110609896B (zh) 2019-07-19 2019-07-19 基于二次解码的军事想定文本事件信息抽取方法及装置

Publications (2)

Publication Number Publication Date
CN110609896A true CN110609896A (zh) 2019-12-24
CN110609896B CN110609896B (zh) 2022-03-22

Family

ID=68889683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910653282.8A Active CN110609896B (zh) 2019-07-19 2019-07-19 基于二次解码的军事想定文本事件信息抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110609896B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339311A (zh) * 2019-12-30 2020-06-26 智慧神州(北京)科技有限公司 基于生成式网络抽取结构化事件的方法、装置与处理器
CN111368551A (zh) * 2020-02-14 2020-07-03 京东数字科技控股有限公司 一种确定事件主体的方法和装置
CN111475617A (zh) * 2020-03-30 2020-07-31 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质
CN112612871A (zh) * 2020-12-17 2021-04-06 浙江大学 一种基于序列生成模型的多事件检测方法
CN113051887A (zh) * 2019-12-26 2021-06-29 深圳市北科瑞声科技股份有限公司 一种公告信息元素抽取方法、***及装置
CN113111649A (zh) * 2021-04-13 2021-07-13 科大讯飞股份有限公司 事件抽取方法、***以及设备
CN113806481A (zh) * 2021-09-17 2021-12-17 中国人民解放军国防科技大学 一种面向百科数据的作战事件抽取方法
CN114707517A (zh) * 2022-04-01 2022-07-05 中国人民解放军国防科技大学 一种基于开源数据事件抽取的目标跟踪方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085477A1 (en) * 2004-10-01 2006-04-20 Ricoh Company, Ltd. Techniques for retrieving documents using an image capture device
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及***
US20130144600A1 (en) * 2009-03-18 2013-06-06 Microsoft Corporation Adaptive pattern learning for bilingual data mining
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注***及方法
CN106599032A (zh) * 2016-10-27 2017-04-26 浙江大学 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN109325228A (zh) * 2018-09-19 2019-02-12 苏州大学 英文事件触发词抽取方法和***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085477A1 (en) * 2004-10-01 2006-04-20 Ricoh Company, Ltd. Techniques for retrieving documents using an image capture device
US20130144600A1 (en) * 2009-03-18 2013-06-06 Microsoft Corporation Adaptive pattern learning for bilingual data mining
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及***
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注***及方法
CN106599032A (zh) * 2016-10-27 2017-04-26 浙江大学 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN109325228A (zh) * 2018-09-19 2019-02-12 苏州大学 英文事件触发词抽取方法和***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PEI-FENG LI ET AL.: "Using compositional semantics and discourse consistency to improve Chinese trigger identification", 《INFORMATION PROCESSING AND MANAGEMENT》 *
WEI WANG ET AL.: "Chinese News Event 5W1H Elements Extraction using Semantic Role Labeling", 《2010 THIRD INTERNATIONAL SYMPOSIUM ON INFORMATION PROCESSING》 *
王学锋 等: "基于深度学习的军事命名实体识别方法", 《装甲兵工程学院学报》 *
贺瑞芳 等: "基于多任务学习的中文事件抽取联合模型", 《软件学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051887A (zh) * 2019-12-26 2021-06-29 深圳市北科瑞声科技股份有限公司 一种公告信息元素抽取方法、***及装置
CN111339311A (zh) * 2019-12-30 2020-06-26 智慧神州(北京)科技有限公司 基于生成式网络抽取结构化事件的方法、装置与处理器
CN111368551A (zh) * 2020-02-14 2020-07-03 京东数字科技控股有限公司 一种确定事件主体的方法和装置
CN111368551B (zh) * 2020-02-14 2023-12-05 京东科技控股股份有限公司 一种确定事件主体的方法和装置
CN111475617B (zh) * 2020-03-30 2023-04-18 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质
CN111475617A (zh) * 2020-03-30 2020-07-31 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质
CN112612871B (zh) * 2020-12-17 2023-09-15 浙江大学 一种基于序列生成模型的多事件检测方法
CN112612871A (zh) * 2020-12-17 2021-04-06 浙江大学 一种基于序列生成模型的多事件检测方法
CN113111649A (zh) * 2021-04-13 2021-07-13 科大讯飞股份有限公司 事件抽取方法、***以及设备
CN113111649B (zh) * 2021-04-13 2024-02-20 科大讯飞股份有限公司 事件抽取方法、***以及设备
CN113806481A (zh) * 2021-09-17 2021-12-17 中国人民解放军国防科技大学 一种面向百科数据的作战事件抽取方法
CN114707517A (zh) * 2022-04-01 2022-07-05 中国人民解放军国防科技大学 一种基于开源数据事件抽取的目标跟踪方法
CN114707517B (zh) * 2022-04-01 2024-05-03 中国人民解放军国防科技大学 一种基于开源数据事件抽取的目标跟踪方法

Also Published As

Publication number Publication date
CN110609896B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN110609896B (zh) 基于二次解码的军事想定文本事件信息抽取方法及装置
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN110083710B (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
US8069027B2 (en) Word alignment apparatus, method, and program product, and example sentence bilingual dictionary
CN111950296B (zh) 一种基于bert微调模型的评论目标情感分析
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110909736B (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及***
CN110851599A (zh) 一种中文作文自动评分方法及教辅***
CN110134946A (zh) 一种针对复杂数据的机器阅读理解方法
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN110175246A (zh) 一种从视频字幕中提取概念词的方法
CN111695338A (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN113255331A (zh) 文本纠错方法、装置及存储介质
CN117093459A (zh) 语言模型的评测方法、装置、电子设备及存储介质
CN117290515A (zh) 文本标注模型的训练方法、文生图方法及装置
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
Wang et al. Chinese to Braille translation based on Braille word segmentation using statistical model
CN114880994B (zh) 一种直白文本到反讽文本的文本风格转换方法及装置
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
CN111814433B (zh) 一种维吾尔语实体识别的方法、装置和电子设备
CN115357710A (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN113191135A (zh) 一种融合颜文字的多类别情感提取方法
CN113160793A (zh) 基于低资源语言的语音合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant