CN110609896A

CN110609896A - 基于二次解码的军事想定文本事件信息抽取方法及装置

Info

Publication number: CN110609896A
Application number: CN201910653282.8A
Authority: CN
Inventors: 刘乾; 杨若鹏; 蒋序平; 卢稳新; 鲁云军; 鲁义威; 战立莹
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-12-24
Anticipated expiration: 2039-07-19
Also published as: CN110609896B

Abstract

本发明提供了一种基于二次解码的军事想定文本事件信息抽取方法及装置，所述方法包括：1、预处理，通过构建专业词典、分句、分词处理，得到词序列形式表示的数据集；2、语料标注，通过定义军事想定文本中9类事件的结构化语义，制定语料标注方法和规则，人工对语料标注，得到训练集和测试集；3、模型训练，利用训练集对机器学习模型编码，得到事件抽取参数；4、信息抽取，输入测试集，运用特定算法进行一次解码，得到事件触发词抽取序列，再基于触发词抽取结果自适应调用不同的事件元素抽取参数进行二次解码，得到事件元素抽取序列。本发明解决了一次解码抽取方法存在的事件触发词与事件元素错误匹配的问题，提高了事件信息抽取的准确度。

Description

基于二次解码的军事想定文本事件信息抽取方法及装置

技术领域

本发明属于自然语言处理技术领域，特别涉及一种基于二次解码的军事想定文本事件信息抽取方法及装置。

背景技术

军事想定文本，是按照作战双方的企图、态势及作战进程场景进行设想和假定的描述文本。事件信息抽取是自然语言处理技术领域的一个重要分支，运用事件抽取技术可以从大量自然语言文本中抽取人们感兴趣的关键信息，包括事件类型、事件主体、事件发生时间、事件发生地点以及事件客体等。因此运用事件抽取技术能够使军事人员从大量不规则的、随意性较大的军事想定文本中准确获取感兴趣的关键信息。

传统事件抽取的方法主要通过模式匹配或机器学习的方法来实现事件信息抽取。模式匹配是构建抽取模式，其在特定领域内应用较好，但移植性和灵活性差，跨领域时需重新构建模式，耗费大量时间和人力；机器学习能适用于不同的领域，具有较高的移植性和灵活性，但是需要标注大量语料，对语料要求比较高，如果语料不足或者标注质量不高，抽取准确度和精度均会降低。

由于军事想定文本事件信息抽取的专业特殊性，运用模式匹配方法需要耗费大量时间和人力，无法满足实际需要，机器学习方法依赖大规模语料进行训练，但是军事想定文本语料规模有限，数据稀疏问题严重。

发明内容

本发明的目的在于克服现有技术的缺陷，提出了一种基于二次解码的军事想定文本事件信息抽取方法及装置，解决在语料规模受限、各类型事件语料规模不均衡的情况下运用机器学习模型进行一次解码时事件触发词和事件元素错误匹配的问题，能够提高事件抽取的准确度。

为实现上述目的，本发明采用了如下技术方案：

一种基于二次解码的军事想定文本事件信息抽取方法，所述方法包括以下步骤：

A、预处理，用于对输入的军事想定文本语料进行文本预处理，基于输入的军事想定文本语料，依托开源分词器的自带词典构建专业词典，对军事想定文本语料依次进行分句、分词，生成以词序列形式表示的数据集，其具体包括：

A1、中文分句，用于将军事想定文本语料按照中文标点断句符号切分成句子，形成句子集合；

A2、专业词典构建，基于开源分词器的自带词典构建专业词典；

A3、中文分词，用于将句子集合中的每个句子，运用基于专业词典的开源分词器进行分词，得到词集合，并逐行显示，生成词序列；

所述开源分词器包括但不限于jieba、Hanlp、CoreNLP、thulac等分词器。

B、语料标注，用于定义军事想定文本中9类事件的结构化语义，制定语料标注方法和规则，逐行对词序列数据集中每个词语标注相应的事件触发词标签或事件元素标签，生成事件触发词标注序列和事件元素标注序列，构建事件触发词抽取训练集、事件元素抽取训练集和事件信息抽取测试集，其具体包括：

B1、事件结构化语义定义，用于根据军事行动概念定义9类军事想定文本事件类型，并确定每类事件的结构化语义，包括事件触发词和事件元素信息；

B2、标注规则方法制定，用于制定语料标注方法和规则，分别定义9类事件的触发词标注标签和元素标注标签；

B3、语料人工标注，采用人工标注方式，逐行对词序列标注相应标签，生成1个事件触发词标注序列和9个事件元素标注序列；

B4、数据集构建，用于构建基于词序列、事件触发词标注序列的1个事件触发词抽取训练集，基于词序列、9个事件元素标注序列的9个事件元素抽取训练集，基于词序列、事件触发词标注序列和事件元素标注序列的事件信息抽取测试集；

所述9类军事想定文本事件包括攻击事件、防守事件、指挥事件、部署事件、机动事件、封锁事件、协同事件、侦察事件、保障事件。

C、模型训练，用于将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号，基于事件触发词抽取训练集、9个事件元素抽取训练集运用机器学习模型进行编码，生成事件触发词抽取参数和9个事件元素抽取参数，其具体包括：

C1、信号转化，用于将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号；

C2、参数生成，将数字信号输入机器学习模型进行编码，得到事件触发词识别参数和9个事件元素识别参数，事件触发词和事件元素识别参数生成过程基本相同，以事件触发词识别参数为例具体包括：

C2.1、状态数和观测数生成，设事件触发词抽取训练集中触发词标签序列为Q＝{q₁，q₂，......q_T}，其中q_t表示t(1≤t≤T)时刻的触发词标签，并作为状态序列，统计触发词标签类型，以类型数N作为状态数，设词序列为Y＝{y₁，y₂，...y_T}，其中y_t分别表示t(1≤t≤T)时刻的词，并作为观测序列，统计词类型，以类型数M作为观测数；

C2.2、初始状态概率分布π生成，生成公式如下：

式中π_i表示初始状态为q_i的概率，S(q_i)表示事件触发词抽取训练集中以q_i触发词标签为初始状态的序列数，∑_j∈[1，N]S(q_j)表示序列总数；

C2.3、状态转移概率矩阵A生成，生成公式如下：

式中S(q_i，q_j)表示当t时刻事件触发词标签为q_j，t-1时刻事件触发词标签为q_i的次数，∑_I∈[1，N]S(q_i，q_I)表示当t时刻事件触发词标签为任意状态，t-1时刻事件触发词标签为q_i的次数总和；

C2.4、观测概率矩阵B生成，生成公式如下：

式中S(q_i，y_k)表示t时刻事件触发词标签为q_i，并且词为y_k的次数，∑_I∈[1，M]S(q_i，y_I)表示t时刻事件触发词标签为q_i，并且词y_I为任意类型的次数；

C2.5、参数生成，事件触发词识别参数λ＝(N，M，A，B，π)，式中A＝{a_ij}，B＝{b_ik}，π＝{π_i}；

所述机器学习模型包括但不限于HMM、CRF、MEMM、NB等。

D、信息抽取，基于事件触发词抽取参数和9个事件元素抽取参数，运用解码算法对事件信息抽取测试集进行解码，得到事件触发词抽取序列和事件元素抽取序列，将触发词抽取序列与事件元素抽取序列合并，完成事件信息抽取，其具体包括：

D1、第一次解码，将C2步骤产生的事件触发词识别参数λ＝(N，M，A，B，π)和事件信息抽取测试集观测序列Y＝{y₁，y₂，...y_T}作为解码算法模型输入，运用解码算法进行第一次解码，计算观测序列Y＝{y₁，y₂，...y_T}与随机搜索形成的状态序列Q＝(q₁，q₂，，…，q_T)的映射概率P(y₁→q₁，y₂→q₂，，…，y_T→q_T|λ)，输出当映射概率为P_max时的状态序列Q_max，即事件触发词抽取序列；

D2、事件类型确定，基于事件触发词抽取序列，逐行扫描并判断每一句话的事件触发词标签类型，得到每一句话的事件类型；

D3、第二次解码，用于根据每一句话的事件类型，调用与该句的事件类型相对应的1个事件元素识别参数，运用解码算法，按照D1步骤对该句子进行第二次解码，生成该句子对应的概率最大的事件元素抽取序列；

D4、逐句扫描事件信息抽取测试集，重复循环步骤D3，直到事件信息抽取测试集的所有句子全部扫描完毕，生成事件信息抽取测试集对应的事件元素抽取序列；

D5、抽取结果合并，用于将事件信息抽取测试集对应的事件触发词抽取序列与事件元素抽取序列合并，组成事件信息抽取序列，完成事件信息抽取过程；

所述解码算法包括但不限于Viterbi、Dijkstra、Forward-Backward等算法。

本发明采用基于二次解码的军事想定文本事件信息抽取方法，优点如下：

1、可移植性和灵活性好，跨领域时不需要重新构建模式；

2、不需要标注大量语料，对语料要求比较低，可节约大量时间和人力成本；

3、事件触发词与事件元素匹配程度高，可降低错误匹配率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于二次解码的军事想定文本事件信息抽取方法实施例的流程示意图；

图2是本发明的组成结构框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参照附图1，示出了本发明的基于二次解码的军事想定文本事件信息抽取方法实施例的流程示意图，具体包括以下步骤:

A：预处理,输入军事想定文本语料，依托jieba、Hanlp等开源分词器自带词典，构建专业词典，对军事想定文本语料依次进行分句、分词，生成以词序列形式表示的数据集；

A1：将军事想定文本语料按照中文标点断句符号切分成句子，形成句子集合；

A2：基于jieba、Hanlp等分词器自带词典构建专业词典，专业词典在格式上与自带词典相同，均是逐行显示，每行信息包括词语、词频，并用空格隔开，利用专业词典进行分词能够提高军事想定文本分词准确度；

A3：将句子集合中的每个句子，运用基于专业词典的jieba、Hanlp等开源分词器进行分词，得到词集合，并逐行显示，生成词序列；

B：语料标注，定义军事想定文本中9类事件的结构化语义，制定语料标注方法和规则，逐行对词序列数据集中每个词语标注相应的事件触发词标签或事件元素标签，生成事件触发词标注序列和事件元素标注序列，构建事件触发词抽取训练集、事件元素抽取训练集和事件信息抽取测试集；

B1：基于军事行动概念定义攻击事件、防守事件、指挥事件、部署事件、机动事件、封锁事件、协同事件、侦察事件、保障事件共9类军事想定文本事件类型，并确定每类事件的结构化语义，包括事件触发词和事件元素信息；

B2：制定语料标注方法和规则，分别定义9类事件的触发词标注标签和元素标注标签；

B3：采用人工标注方式，逐行对词序列标注相应标签，生成1个事件触发词标注序列和9个事件元素标注序列；

B4：构建基于词序列、事件触发词标注序列的1个事件触发词抽取训练集，基于词序列、9个事件元素标注序列的9个事件元素抽取训练集，基于词序列、事件触发词标注序列和事件元素标注序列的事件信息抽取测试集；

C：模型训练，基于事件触发词抽取训练集、9个事件元素抽取训练集运用HMM、CRF等机器学习模型进行编码，生成事件触发词抽取参数λ₁和9个事件元素抽取参数λ₂；

C1：将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号；

C2：参数生成，将数字信号输入机器学习模型进行编码，得到事件触发词识别参数和9个事件元素识别参数，事件触发词和事件元素识别参数生成过程基本相同，以事件触发词识别参数为例具体包括：

C2.2、初始状态概率分布π生成，生成公式如下：

C2.3、状态转移概率矩阵A生成，生成公式如下：

C2.4、观测概率矩阵B生成，生成公式如下：

D：信息抽取，基于事件触发词抽取参数λ₁和9个事件元素抽取参数λ₂，运用Viterbi等算法对事件信息抽取测试集进行解码，得到事件触发词抽取序列和事件元素抽取序列，最后将触发词抽取序列与事件元素抽取序列合并，完成事件信息抽取过程；

D1：基于事件触发词识别参数λ₁，运用Viterbi、Dijkstra等算法对事件信息抽取测试集进行第一次解码，得到事件信息抽取测试集对应的事件触发词抽取序列，完成事件触发词抽取过程；

D2：基于事件触发词抽取序列，逐行扫描并判断每一句话的事件触发词标签类型，得到这一句话的事件类型；

D3：当判定某一句子的事件类型后，调用与该句的事件类型相对应的1个事件元素识别参数λ₂，运用Viterbi、Dijkstra等算法对该句子进行第二次解码，生成该句子对应的事件元素抽取序列；

D4：对事件信息抽取测试集进行逐句扫描，重复循环D3步骤，直到事件信息抽取测试集的所有句子全部扫描完毕，生成事件信息抽取测试集对应的事件元素抽取序列，完成事件元素抽取过程；

D5：将事件信息抽取测试集对应的事件触发词抽取序列与事件元素抽取序列合并，组成事件信息抽取序列，完成事件信息抽取过程。

参照附图2，示出了本发明的基于二次解码的军事想定文本事件信息抽取装置的组成结构图，具体包括如下组成结构：

预处理模块100，用于对输入的军事想定文本语料进行文本预处理，基于输入的军事想定文本语料，依托开源分词器的自带词典构建专业词典，对军事想定文本语料依次进行分句、分词，生成以词序列形式表示的数据集，其具体包括：

中文分句单元101，用于将军事想定文本语料按照中文标点断句符号切分成句子，形成句子集合；

专业词典构建单元102，基于jieba、Hanlp等开源分词器的自带词典构建专业词典；

中文分词单元103，用于将句子集合中的每个句子，运用基于专业词典的jieba等开源分词器进行分词，得到词集合，并逐行显示，生成词序列。

语料标注模块200，用于定义军事想定文本中9类事件的结构化语义，制定语料标注方法和规则，逐行对词序列数据集中每个词语标注相应的事件触发词标签或事件元素标签，生成事件触发词标注序列和事件元素标注序列，构建事件触发词抽取训练集、事件元素抽取训练集和事件信息抽取测试集，其具体包括：

事件结构化语义定义单元201，用于根据军事行动概念定义攻击事件、防守事件、指挥事件、部署事件、机动事件、封锁事件、协同事件、侦察事件、保障事件共9类军事想定文本事件类型，并确定每类事件的结构化语义，包括事件触发词和事件元素信息；

标注规则方法制定单元202，用于制定语料标注方法和规则，分别定义9类事件的触发词标注标签和元素标注标签；

语料人工标注单元203，采用人工标注方式，逐行对词序列标注相应标签，生成1个事件触发词标注序列和9个事件元素标注序列；

数据集构建单元204，用于构建基于词序列、事件触发词标注序列的1个事件触发词抽取训练集，基于词序列、9个事件元素标注序列的9个事件元素抽取训练集，基于词序列、事件触发词标注序列和事件元素标注序列的事件信息抽取测试集。

模型训练模块300，用于将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号，基于事件触发词抽取训练集、9个事件元素抽取训练集运用机器学习模型进行编码，生成事件触发词抽取参数和9个事件元素抽取参数，其具体包括：

信号转化单元301，用于将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号；

参数生成单元302，将数字信号输入HMM等机器学习模型进行编码，得到事件触发词识别参数和9个事件元素识别参数。

信息抽取模块400，基于事件触发词抽取参数和9个事件元素抽取参数，运用特定算法对事件信息抽取测试集进行解码，得到事件触发词抽取序列和事件元素抽取序列，将触发词抽取序列与事件元素抽取序列合并，完成事件信息抽取，其具体包括：

第一次解码单元401，基于事件触发词识别参数，运用解码算法对事件信息抽取测试集进行第一次解码，得到事件信息抽取测试集对应的事件触发词抽取序列；

事件类型确定单元402，基于事件触发词抽取序列，逐行扫描并判断每一句话的事件触发词标签类型，得到每一句话的事件类型；

第二次解码单元403，用于根据每一句话的事件类型，调用与该句的事件类型相对应的1个事件元素识别参数，运用Viterbi等解码算法对该句子进行第二次解码，生成该句子对应的事件元素抽取序列，逐句扫描事件信息抽取测试集，直到事件信息抽取测试集的所有句子全部扫描完毕，生成事件信息抽取测试集对应的事件元素抽取序列；

抽取结果合并单元404，用于将事件信息抽取测试集对应的事件触发词抽取序列与事件元素抽取序列合并，组成事件信息抽取序列，完成事件信息抽取过程。

Claims

1.一种基于二次解码的军事想定文本事件信息抽取方法，其特征在于,包括以下步骤：

A、预处理：对输入的军事想定文本语料进行文本预处理，基于输入的军事想定文本语料，依托开源分词器的自带词典构建专业词典，对军事想定文本语料依次进行分句、分词，生成以词序列形式表示的数据集，具体包括：

A1、中文分句：将军事想定文本语料按照中文标点断句符号切分成句子，形成句子集合；

A2、专业词典构建：基于开源分词器的自带词典构建专业词典；

A3、中文分词：将句子集合中的每个句子，运用基于专业词典的开源分词器进行分词，得到词集合，并逐行显示，生成词序列；

B、语料标注：定义军事想定文本中9类事件的结构化语义，制定语料标注方法和规则，逐行对词序列数据集中每个词语标注相应的事件触发词标签或事件元素标签，生成事件触发词标注序列和事件元素标注序列，构建事件触发词抽取训练集、事件元素抽取训练集和事件信息抽取测试集，具体包括：

B1、事件结构化语义定义：根据军事行动概念定义9类军事想定文本事件类型，并确定每类事件的结构化语义，包括事件触发词和事件元素信息；

B2、标注规则方法制定：制定语料标注方法和规则，分别定义9类事件的触发词标注标签和元素标注标签；

B3、语料人工标注：采用人工标注方式，逐行对词序列标注相应标签，生成1个事件触发词标注序列和9个事件元素标注序列；

B4、数据集构建：构建基于词序列、事件触发词标注序列的1个事件触发词抽取训练集，基于词序列、9个事件元素标注序列的9个事件元素抽取训练集，基于词序列、事件触发词标注序列和事件元素标注序列的事件信息抽取测试集；

C、模型训练：将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号，基于事件触发词抽取训练集、9个事件元素抽取训练集运用机器学习模型进行编码，生成事件触发词抽取参数和9个事件元素抽取参数，具体包括：

C1、信号转化：将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号；

C2、参数生成：将数字信号输入机器学习模型进行编码，得到事件触发词识别参数和9个事件元素识别参数，事件触发词参数和事件元素识别参数生成过程相同，事件触发词识别参数生成过程如下：

C2.1、状态数和观测数生成：设事件触发词抽取训练集中触发词标签序列为Q＝{q₁，q₂，......q_T}，其中q_t表示t(1≤t≤T)时刻的触发词标签，并作为状态序列，统计触发词标签类型，以类型数N作为状态数，设词序列为Y＝{y₁，y₂，...y_T}，其中y_t分别表示t(1≤t≤T)时刻的词，并作为观测序列，统计词类型，以类型数M作为观测数；

C2.2、初始状态概率分布π生成：生成公式如下：

C2.3、状态转移概率矩阵A生成：生成公式如下：

C2.4、观测概率矩阵B生成：生成公式如下：

C2.5、参数生成：事件触发词识别参数λ＝(N，M，A，B，π)，式中A＝{a_ij}，B＝{b_ik}，π＝{π_i}；

D、信息抽取：基于事件触发词抽取参数和9个事件元素抽取参数，运用解码算法对事件信息抽取测试集进行解码，得到事件触发词抽取序列和事件元素抽取序列，将触发词抽取序列与事件元素抽取序列合并，完成事件信息抽取，具体包括：

D1、第一次解码：将C2步骤产生的事件触发词识别参数λ＝(N，M，A，B，π)和事件信息抽取测试集观测序列Y＝{y₁，y₂，...y_T}作为解码算法模型输入，运用解码算法进行第一次解码，计算观测序列Y＝{y₁，y₂，...y_T}与随机搜索形成的状态序列Q＝(q₁，q₂，，…，q_T)的映射概率P(y₁→q₁，y₂→q₂，，…，y_T→q_T|λ)，输出当映射概率为P_max时的状态序列Q_max，即事件触发词抽取序列；

D2、事件类型确定：基于事件触发词抽取序列，逐行扫描并判断每一句话的事件触发词标签类型，得到每一句话的事件类型；

D3、第二次解码：根据每一句话的事件类型，调用与该句的事件类型相对应的1个事件元素识别参数，运用解码算法，按照D1步骤对该句子进行第二次解码，生成该句子对应的概率最大的事件元素抽取序列；

D4、逐句扫描事件信息抽取测试集：重复循环步骤D3，直到事件信息抽取测试集的所有句子全部扫描完毕，生成事件信息抽取测试集对应的事件元素抽取序列；

D5、抽取结果合并：将事件信息抽取测试集对应的事件触发词抽取序列与事件元素抽取序列合并，组成事件信息抽取序列，完成事件信息抽取过程。

2.如权利要求1所述的基于二次解码的军事想定文本事件信息抽取方法，其特征在于，所述开源分词器包括jieba、Hanlp、CoreNLP、thulac。

3.如权利要求1所述的基于二次解码的军事想定文本事件信息抽取方法，其特征在于，所述9类军事想定文本事件包括攻击事件、防守事件、指挥事件、部署事件、机动事件、封锁事件、协同事件、侦察事件、保障事件。

4.如权利要求1所述的基于二次解码的军事想定文本事件信息抽取方法，其特征在于，所述机器学习模型包括HMM、CRF、MEMM、NB。

5.如权利要求1所述的基于二次解码的军事想定文本事件信息抽取方法，其特征在于，所述解码算法包括Viterbi、Dijkstra、Forward-Backward。

6.一种基于二次解码的军事想定文本事件信息抽取装置，其特征在于，所述装置包括：

预处理模块100：对输入的军事想定文本语料进行文本预处理，基于输入的军事想定文本语料，依托开源分词器的自带词典构建军事领域词典，对军事想定文本语料依次进行分句、分词，生成以词序列形式表示的数据集，具体包括：

中文分句单元101：将军事想定文本语料按照中文标点断句符号切分成句子，形成句子集合；

专业词典构建单元102：基于开源分词器的自带词典构建专业词典；

中文分词单元103：将句子集合中的每个句子，运用开源分词器进行分词，得到词集合，并逐行显示，生成词序列；

语料标注模块200：定义军事想定文本中9类事件的结构化语义，制定语料标注方法和规则，逐行对词序列数据集中每个词语标注相应的事件触发词标签或事件元素标签，生成事件触发词标注序列和事件元素标注序列，构建事件触发词抽取训练集、事件元素抽取训练集和事件信息抽取测试集，具体包括：

事件结构化语义定义单元201：根据军事行动概念定义9类军事想定文本事件类型，确定每类事件的结构化语义；

标注规则方法制定单元202：制定语料标注方法和规则，分别定义9类事件的触发词标注标签和元素标注标签；

语料人工标注单元203：采用人工标注方式，逐行对词序列标注相应标签，生成1个事件触发词标注序列和9个事件元素标注序列；

数据集构建单元204：构建基于词序列、事件触发词标注序列的1个事件触发词抽取训练集，基于词序列、9个事件元素标注序列的9个事件元素抽取训练集，基于词序列、事件触发词标注序列和事件元素标注序列的事件信息抽取测试集；

模型训练模块300：将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号，基于事件触发词抽取训练集、9个事件元素抽取训练集运用机器学习模型进行编码，生成事件触发词抽取参数和9个事件元素抽取参数，具体包括：

信号转化单元301：将事件触发词抽取训练集和事件元素抽取训练集转化为数字信号；

参数生成单元302：将数字信号输入机器学习模型进行编码，得到事件触发词识别参数和9个事件元素识别参数；

信息抽取模块400：基于事件触发词抽取参数和9个事件元素抽取参数，运用解码算法对事件信息抽取测试集进行解码，得到事件触发词抽取序列和事件元素抽取序列，将触发词抽取序列与事件元素抽取序列合并，完成事件信息抽取，具体包括：

第一次解码单元401：基于事件触发词识别参数，运用解码算法对事件信息抽取测试集进行第一次解码，得到事件信息抽取测试集对应的事件触发词抽取序列；

事件类型确定单元402：基于事件触发词抽取序列，逐行扫描并判断每一句话的事件触发词标签类型，得到每一句话的事件类型；

第二次解码单元403：根据每一句话的事件类型，调用与该句的事件类型相对应的1个事件元素识别参数，运用解码算法对该句子进行第二次解码，生成该句子对应的事件元素抽取序列，逐句扫描事件信息抽取测试集，直到事件信息抽取测试集的所有句子全部扫描完毕，生成事件信息抽取测试集对应的事件元素抽取序列；

抽取结果合并单元404：将事件信息抽取测试集对应的事件触发词抽取序列与事件元素抽取序列合并，组成事件信息抽取序列，完成事件信息抽取过程。