CN110597997A

CN110597997A - 一种军事想定文本事件抽取语料库迭代式构建方法及装置

Info

Publication number: CN110597997A
Application number: CN201910653277.7A
Authority: CN
Inventors: 蒋序平; 战立莹; 杨若鹏; 温鸿鹏; 鲁义威; 卢稳新; 朱巍
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-12-20
Anticipated expiration: 2039-07-19
Also published as: CN110597997B

Abstract

本发明公开一种军事想定文本事件抽取语料库迭代式构建方法及装置，所述方法包括以下步骤：1、预处理，得到以词序列表示的原始数据集；2、构建种子数据集，定义事件模板，构造事件触发词词典，通过人工标注形成种子数据集，将种子数据集划分为种子训练集、测试集；3、模型训练，利用种子训练集对机器学习模型进行训练，并用测试集对模型进行测试，根据测试结果调优模型参数，得到第一学习模型；4、选取未标注训练语料，输入第一学习模型，得到预测结果集；5、校对预测结果集，形成新的标注语料；6、通过不断迭代，依次生成训练集，形成事件抽取语料库。本发明提出的面向军事想定文本的事件抽取语料库迭代式构建方法，提高了语料库构建效率，降低了人工标注成本，获得了较高的语料标注准确度。

Description

一种军事想定文本事件抽取语料库迭代式构建方法及装置

技术领域

本发明属于自然语言处理技术领域，特别涉及一种军事想定文本事件抽取语料库迭代式构建方法及装置。

背景技术

随着信息技术的高速发展，信息也呈***式增长。如何将大量无序的信息及时进行提取、整理，快速、准确地获取用户需要的有用信息，并将其转化为人和机器均能理解和使用的结构化形式，已成为研究开发的焦点。信息抽取正是在这种背景下产生、发展起来的。事件抽取是信息抽取的高级阶段，是其最具挑战性的任务，主要研究从各类文本中抽取出用户感兴趣的事件信息，并以结构化形式呈现出来，提供给其他信息抽取业务使用或直接实际应用。

军事想定文本，是按照作战双方的企图、态势及作战进程场景进行设想和假定的描述文本。信息抽取可以应用于军事想定文本，能够从海量军事想定文本中快速、准确地挖掘出有价值的信息，实现对军事想定文本处理的自动化和智能化。信息抽取需要成熟、可用的语料资源，需要构建相关语料库。然而，语料库的构建多采用纯人工标注的方式进行，即标注人员直接在原始语料上进行标注作业，自动化程度较低，需要消耗大量时间和人力，效率较低，安全、保密性差，不利于语料的管理和保护。

发明内容

本发明的目的在于克服现有技术的缺陷，面向军事想定文本，针对该领域语料的特点，通过构建种子数据集，以少量的训练样本训练出机器学习模型，用机器学习模型对未知语料进行预测，通过人工调优和机器预测的不断迭代，扩充数据集，以人工和计算机结合、半自动化的方式构建事件抽取语料库，实现了一种军事想定文本事件抽取语料库迭代式构建方法及装置。

为实现上述目的，本发明采用了如下技术方案：

一种军事想定文本事件抽取语料库迭代式构建方法，所述方法包括如下步骤：

A、预处理，用于输入军事想定文本语料，对军事想定文本语料依次进行分句、分词，生成以词序列表示的数据集；

A1、将军事想定文本语料按照中文标点断句符号切分成一个个的句子，形成词句子集合；

A2、将句子集合中的每个句子运用开源分词器进行分词，得到词语集合，并逐行显示，形成词序列；

A3、基于开源分词器自带词典，构建自定义词典，修正分词结果；

所述开源分词器包括但不限于Hanlp、Jieba等。

B、构建种子数据集，用于定义事件模板，构造触发词词典，从原始数据集中选取典型事件描述句，然后进行人工标注；

B1、定义事件模板，根据事件类型分别定义每类事件的基本模板，这些模板由事件触发词和事件元素组成；

B2、依据公开发行的军事领域通用词典对每类事件触发词进行同义、近义词扩展，依此构造事件触发词词典；

所述公开发行的军事领域通用词典包括但不限于《中国军事百科全书》、《军事大辞典》、《简明军事辞典》等；

B3、制定语料标注的目标、方法和规则，分别定义各类事件的触发词和事件元素标注标签；

B4、依据相似度规则，对照事件模板从原始数据集中选取各类事件典型描述句，并对其标注相应的触发词和事件元素标签，生成各类事件的触发词和事件元素标注序列集,得到种子数据集；

B5、将所得种子数据集按特定比例分为种子训练集、测试集；

优选的，所述种子训练集与测试集的比例为5:1。

C、模型训练，利用种子训练集对机器学习模型进行训练，并用测试集对模型进行测试，根据测试结果调优模型参数，得到第一学习模型；

C1、利用种子训练集对机器学习模型进行训练，得到相应的模型参数；

所述机器学习模型包括但不限于支持向量机(SVM)、条件随机场(CRF)、最大熵模型、隐马尔科夫模型(HMM)等；

所述机器学习模型采用应用条件随机场模型(CRF)的处理方式如下：

对一个特定序列X的一个标注序列Y概率为：

式中，X为待标注序列，Z(x)为标准化因子，f_k、g_k分别为转移特征函数及状态特征函数，λ_k、μ_k分别是相应特征函数的权值；

C2、用测试集对机器学习模型进行测试；

C3、根据测试结果，以特定优化算法对模型参数进行优化，得到第一学习模型；

所述优化算法包括但不限于粒子群算法(PSO)等；

所述优化算法采用粒子群算法(PSO)对模型参数进行优化的处理方式如下：

在PSO优化算法中，每个个体被当成一个粒子，N个粒子就组成一个群体，其中每个粒子i是一个m维的向量x_i，第i个粒子的移动速度也是一个m维的向量v_i，f(x)为待优化的目标函数，粒子群的优化过程可描述为：

v_id(t+1)＝v_id(t)+c₁r₁(p_id(t)-x_id(t))+c₂r₂(p_gd(t)-x_id(t))，i＝1,2,…N (2)

x_id(t+1)＝x_id(t)+v_id(t+1) (3)

式中，c₁、c₂为加速系数，r₁、r₂为随机数，p_i(t)为第i个粒子在t时刻搜索到的最优位置，p_g(t)为整个粒子群迄今为止搜索到的最优位置(全局极值)。

D、结果预测，从原始数据集中选取未标注训练语料，输入第一学习模型，得到预测结果集，其中，模型训练输出的结果需要利用维特比算法进行解码，得到最优标注结果。选取的待标注序列为X₁＝(x₁,x₂,x₃,……x_T),预测得到的标注序列为Y₁＝(y₁,y₂,y₃,……y_T)；

D1、依据事件模板和触发词词典，从原始数据集中按事件类型选取事件语料，并按类型进行同类合并，形成每一类事件训练语料；

D2、将所述每一类事件训练语料分别输入第一学习模型，形成每一类事件预测结果集；

E、校对预测结果集，对每一类事件预测结果集进行批量校对、修正，人工进一步标注，形成新的标注语料；

E1、批量校对、修正每一类事件预测结果集，发现其中错误用例，并通过人工标注进一步修改、优化预测结果集，形成批量的标注语料；

E2、对批量的标注语料进行一致性检查，并继续优化，直到标注的一致性达到指定阈值时，标注结果即视为可靠，形成新的标注语料；

所述指定阈值为0.9。

F、形成事件抽取语料库，将所述新的标注语料加入种子训练集，得到第一训练集，用第一训练集训练第一学习模型，然后用第一学习模型预测未标注语料，生成预测结果集并校对，将得到的新的标注语料加入第一训练集，得到第二训练集，依次类推，不断迭代，不断扩充数据集，形成事件抽取语料库；

F1、将所述新的标注语料加入种子训练集，得到第一训练集；

F2、用第一训练集训练第一学习模型，然后用第一学习模型预测原始数据集中未标注语料，得到预测结果集；

F3、校对预测结果集，形成新的标注语料，然后将其加入第一训练集，得到第二训练集；

F4、重复步骤F1-F3，不断扩充数据集，直到数据集规模达到种子数据集的3倍以上，且将形成的数据集按5:1比例分为训练集、测试集，对机器学习模型进行训练，经测试准确率达到80％以上时，形成事件抽取语料库。

本发明采用的军事想定文本事件抽取语料库迭代式构建方法，优点如下：

1、面向军事想定文本，针对该领域语料的特点，通过人工和计算机结合、半自动化的方式构建事件抽取语料库，加快了语料库构建的速度，大大提高了语料库构建效率，降低了人工标注成本，同时获得了较高的语料标注准确度；

2、军事想定行文具有规范性，语言学特征比较明显，本发明充分利用军事想定领域特征，构建种子数据集，以少量的训练样本训练出机器学习模型，用机器学习模型对未知语料进行预测，通过人工调优和机器预测的不断迭代，扩充数据集，大大提高了语料库构建的效率，降低了人力标注成本；

3、通过改变标注的标签等，可以标注其他领域的事件抽取语料，为其他领域事件抽取语料库的构建提供了重要借鉴。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种军事想定文本事件抽取语料库迭代式构建方法实施例的详细流程示意图；

图2是本发明的组成结构框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参照附图1，示出了本发明的一种军事想定文本事件抽取语料库迭代式构建方法实施例的流程示意图，具体包括以下步骤:

A、预处理，输入军事想定文本语料，对军事想定文本语料依次进行分句、分词，生成以词序列表示的数据集；

A2、将句子集合中的每个句子运用开源的Hanlp、Jieba等分词器进行分词，得到词语集合，并逐行显示，形成词序列；

A3、基于开源的Hanlp、Jieba分词器自带词典，构建自定义词典，修正分词结果。

B、构建种子数据集，定义事件模板，构造触发词词典，从原始数据集中选取典型事件描述句，然后进行人工标注；

B2、依据公开发行的军事领域通用词典《中国军事百科全书》《军事大辞典》《简明军事辞典》等对每类事件触发词进行同义、近义词扩展，依此构造事件触发词词典；

B5、将所得种子数据集按照优选比例5:1划分种子训练集、测试集；

C1、利用种子训练集对机器学习模型进行训练，得到相应的模型参数，其中机器学习模型不受限制，本领域技术人员可以采用任意现有技术来获得模型，常用的机器学习模型有支持向量机(SVM)、条件随机场(CRF)、最大熵模型、隐马尔科夫模型(HMM)等，以应用条件随机场模型(CRF)为例，处理方式如下：

条件随机场模型是一种用于标注和切分有序数据的条件概率模型，该模型集成了HMM模型和最大熵模型的特点并避免了这些模型本身的一些缺点，可以有效地用于序列标注，CRF模型能够综合利用包括字、词、词性在内的上下文信息，还能利用丰富的外部特征；

对一个特定序列X的一个标注序列Y概率为：

C2、用测试集对机器学习模型进行测试；

C3、根据测试结果，以粒子群算法(PSO)等优化算法对模型参数进行优化，得到第一学习模型，CRF模型的MLE算法会使参数收敛于局部极值，需要对参数进行优化，粒子群算法(PSO)是一种随机搜索算法，可在搜索空间内进行全局搜索，从而能够找到全局最优解，在PSO优化算法中，每个个体被当成一个粒子，N个粒子就组成一个群体，其中每个粒子i是一个m维的向量x_i，第i个粒子的移动速度也是一个m维的向量v_i，f(x)为待优化的目标函数，粒子群的优化过程可描述为：

x_id(t+1)＝x_id(t)+v_id(t+1) (3)

式中，c₁、c₂为加速系数，r₁、r₂为随机数，p_i(t)为第i个粒子在t时刻搜索到的最优位置，p_g(t)为整个粒子群迄今为止搜索到的最优位置(全局极值)；

在PSO算法的CRF参数优化中，每一个粒子对应一个CRF，粒子在每一次迭代进化后都运行MLE算法对粒子进行局部的优化。

D、结果预测，从原始数据集中选取未标注训练语料，输入第一学习模型，得到预测结果集，其中，模型训练输出的结果需要利用维特比算法进行解码，得到最优标注结果，选取的待标注序列为X₁＝(x₁,x₂,x₃,……x_T),预测得到的标注序列为Y₁＝(y₁,y₂,y₃,……y_T)；

D2、将所述每一类事件训练语料分别输入第一学习模型，形成每一类事件预测结果集。

E2、对批量的标注语料进行一致性检查，并继续优化，直到标注的一致性达到指定阈值0.9时，标注结果即视为可靠，形成新的标注语料。

参照附图2，示出了本发明的组成结构框图，具体包括:

预处理模块100，用于输入军事想定文本语料，对军事想定文本语料依次进行分句、分词，生成以词序列表示的数据集；

句子切分单元101，用于将军事想定文本语料按照中文标点断句符号切分成一个个的句子，形成词句子集合；

词序列生成单元102，用于将句子集合中的每个句子进行分词，得到词语集合，并逐行显示，形成词序列；

自定义词典构建单元103，构建自定义词典，修正分词结果。

种子数据集构建模块200，定义事件模板，构造触发词词典，从原始数据集中选取典型事件描述句，然后进行人工标注；

事件模板定义单元201，定义事件模板，根据事件类型分别定义每类事件的基本模板，这些模板由事件触发词和事件元素组成；

事件触发词词典构造单元202，依据公开发行的军事领域通用词典对每类事件触发词进行同义、近义词扩展，依此构造事件触发词词典；

标签定义单元203，制定语料标注的目标、方法和规则，分别定义各类事件的触发词和事件元素标注标签；

种子数据集生成单元204，依据相似度规则，对照事件模板从原始数据集中选取各类事件典型描述句，并对其标注相应的触发词和事件元素标签，生成各类事件的触发词和事件元素标注序列集,得到种子数据集；

种子数据集切分单元205，将所得种子数据集按预定比例分为种子训练集、测试集。

模型训练模块300，利用种子训练集对机器学习模型进行训练，并用测试集对模型进行测试，根据测试结果调优模型参数，得到第一学习模型；

模型参数生成单元301，利用种子训练集对机器学习模型进行训练，得到相应的模型参数；

测试集测试单元302，用测试集对机器学习模型进行测试；

第一学习模型生成单元303，根据测试结果，以优化算法对模型参数进行优化，得到第一学习模型。

结果预测模块400，从原始数据集中选取未标注训练语料，输入第一学习模型，得到预测结果集；

事件训练语料生成单元401，依据事件模板和触发词词典，从原始数据集中按事件类型选取事件语料，并按类型进行同类合并，形成每一类事件训练语料；

事件预测结果集生成单元402，将所述每一类事件训练语料分别输入第一学习模型，形成每一类事件预测结果集。

校对预测结果集单元500，对每一类事件预测结果集进行批量校对、修正，人工进一步标注，形成新的标注语料；

批量标注语料生成单元501，批量校对、修正每一类事件预测结果集，发现其中错误用例，并通过人工标注进一步修改、优化预测结果集，形成批量的标注语料；

一致性检查单元502，对批量的标注语料进行一致性检查，并继续优化，直到标注的一致性达到指定阈值0.9时，标注结果即视为可靠，形成新的标注语料。

事件抽取语料库生成模块600，将所述新的标注语料加入种子训练集，得到第一训练集，用第一训练集训练第一学习模型，然后用第一学习模型预测未标注语料，生成预测结果集并校对，将得到的新的标注语料加入第一训练集，得到第二训练集，依次类推，不断迭代，不断扩充数据集，形成事件抽取语料库；

第一训练集生成单元601，将所述新的标注语料加入种子训练集，得到第一训练集；

一致性检查单元602，用第一训练集训练第一学习模型，然后用第一学习模型预测原始数据集中未标注语料，得到预测结果集；

第二训练集生成单元603，校对预测结果集，形成新的标注语料，然后将其加入第一训练集，得到第二训练集；

事件抽取语料库生成单元604，不断扩充数据集，直到数据集规模达到种子数据集的3倍以上，且将形成的数据集按5:1比例分为训练集、测试集，对机器学习模型进行训练，经测试准确率达到80％以上时，形成事件抽取语料库。

Claims

1.一种军事想定文本事件抽取语料库迭代式构建方法，其特征在于，所述方法包括以下步骤：

A、预处理：输入军事想定文本语料，对军事想定文本语料依次进行分句、分词，生成以词序列表示的数据集；

B、构建种子数据集：定义事件模板，构造触发词词典，从原始数据集中选取典型事件描述句，进行人工标注；

B1、定义事件模板，根据事件类型分别定义每类事件的基本模板，基本模板由事件触发词和事件元素组成；

B2、依据公开发行的军事领域通用词典对每类事件触发词进行同义、近义词扩展，构造事件触发词词典；

B5、将所得种子数据集按指定比例分为种子训练集、测试集；

C、模型训练：利用种子训练集对机器学习模型进行训练，并用测试集对模型进行测试，根据测试结果调优模型参数，得到第一学习模型；

C2、用测试集对机器学习模型进行测试；

D、结果预测：从原始数据集中选取未标注训练语料，输入第一学习模型，得到预测结果集，其中，模型训练输出的结果需要利用维特比算法进行解码，得到最优标注结果，选取的待标注序列为X₁＝(x₁，x₂，x₃，......x_T)，预测得到的标注序列为Y₁＝(y₁，y₂，y₃，......y_T)；

E、校对预测结果集：对每一类事件预测结果集进行批量校对、修正，人工进一步标注，形成新的标注语料；

E1、批量校对、修正每一类事件预测结果集，通过人工标注进一步修改、优化预测结果集，形成批量标注语料；

E2、对批量标注语料进行一致性检查，继续优化，直到标注的一致性达到指定阈值时，标注结果形成新的标注语料。

F、形成事件抽取语料库：将所述新的标注语料加入种子训练集，得到第一训练集，用第一训练集训练第一学习模型，再用第一学习模型预测未标注语料，生成预测结果集并校对，将得到的新的标注语料加入第一训练集，得到第二训练集，不断迭代，不断扩充数据集，形成事件抽取语料库；

F2、用第一训练集训练第一学习模型，再用第一学习模型预测原始数据集中未标注语料，得到预测结果集；

F3、校对预测结果集，形成新的标注语料，再将其加入第一训练集，得到第二训练集；

F4、重复步骤F1-F3，不断扩充数据集，直到数据集规模达到种子数据集的3倍以上，且将形成的数据集按5∶1比例分为训练集、测试集，对机器学习模型进行训练，经测试准确率达到80％以上时，形成事件抽取语料库。

2.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法，其特征在于，所述开源分词器包括Hanlp、Jieba。

3.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法，其特征在于，所述公开发行的军事领域通用词典包括《中国军事百科全书》、《军事大辞典》、《简明军事辞典》。

4.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法，其特征在于，所述种子训练集与测试集的指定比例为5：1。

5.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法，其特征在于，所述机器学习模型包括支持向量机模型、条件随机场模型、最大熵模型、隐马尔科夫模型。

6.根据权利要求4所述的军事想定文本事件抽取语料库迭代式构建方法，其特征在于，所述机器学习模型采用应用条件随机场模型的处理方式如下：

对一个特定序列X的一个标注序列Y概率为：

式中，X为待标注序列，Z(x)为标准化因子，f_k、g_k分别为转移特征函数及状态特征函数，λ_k、μ_k分别是相应特征函数的权值。

7.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法，其特征在于，所述优化算法为粒子群算法(PS0)。

8.根据权利要求6所述的军事想定文本事件抽取语料库迭代式构建方法，其特征在于，所述优化算法为粒子群算法(PS0)时，对模型参数进行优化的处理方式如下：

v_id(t+1)＝v_id(t)+c₁r₁(p_id(t)-x_id(t))+c₂r₂(p_gd(t)-x_id(t))，i＝1，2，…N (2)

x_id(t+1)＝x_id(t)+v_id(t+1) (3)

式中，c₁、c₂为加速系数，r₁、r₂为随机数，p_i(t)为第i个粒子在t时刻搜索到的最优位置，p_g(t)为整个粒子群迄今为止搜索到的最优位置。

9.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法，其特征在于，所述指定阈值为0.9。

10.一种军事想定文本事件抽取语料库迭代式构建装置，其特征在于，所述装置包括：

预处理模块100：输入军事想定文本语料，对军事想定文本语料依次进行分句、分词，生成以词序列表示的数据集；

句子切分单元101：将军事想定文本语料按照中文标点断句符号切分成一个个的句子，形成词句子集合；

词序列生成单元102：将句子集合中的每个句子进行分词，得到词语集合，并逐行显示，形成词序列；

自定义词典构建单元103：构建自定义词典，修正分词结果；

种子数据集构建模块200：定义事件模板，构造触发词词典，从原始数据集中选取典型事件描述句，进行人工标注；

事件模板定义单元201：定义事件模板，根据事件类型分别定义每类事件的基本模板，这些模板由事件触发词和事件元素组成；

事件触发词词典构造单元202：依据公开发行的军事领域通用词典对每类事件触发词进行同义、近义词扩展，依此构造事件触发词词典；

标签定义单元203：制定语料标注的目标、方法和规则，分别定义各类事件的触发词和事件元素标注标签；

种子数据集生成单元204：依据相似度规则，对照事件模板从原始数据集中选取各类事件典型描述句，并对其标注相应的触发词和事件元素标签，生成各类事件的触发词和事件元素标注序列集,得到种子数据集；

种子数据集切分单元205：将所得种子数据集按预定比例分为种子训练集、测试集；

模型训练模块300：利用种子训练集对机器学习模型进行训练，并用测试集对模型进行测试，根据测试结果调优模型参数，得到第一学习模型；

模型参数生成单元301：利用种子训练集对机器学习模型进行训练，得到模型参数；

测试集测试单元302：用测试集对机器学习模型进行测试；

第一学习模型生成单元303：根据测试结果，以优化算法对模型参数进行优化，得到第一学习模型；

结果预测模块400：从原始数据集中选取未标注训练语料，输入第一学习模型，得到预测结果集；

事件训练语料生成单元401：依据事件模板和触发词词典，从原始数据集中按事件类型选取事件语料，并按类型进行同类合并，形成每一类事件训练语料；

事件预测结果集生成单元402：将所述每一类事件训练语料分别输入第一学习模型，形成每一类事件预测结果集；

校对预测结果集500：对每一类事件预测结果集进行批量校对、修正，人工进一步标注，形成新的标注语料；

批量标注语料生成单元501：批量校对、修正每一类事件预测结果集，发现错误用例，通过人工标注进一步修改、优化预测结果集，形成批量的标注语料；

一致性检查单元502：对批量的标注语料进行一致性检查，继续优化，直到标注的一致性达到指定阈值时，标注结果形成新的标注语料；

事件抽取语料库生成模块600：将所述新的标注语料加入种子训练集，得到第一训练集，用第一训练集训练第一学习模型，然后用第一学习模型预测未标注语料，生成预测结果集并校对，将得到的新的标注语料加入第一训练集，得到第二训练集，依次类推，不断迭代，不断扩充数据集，形成事件抽取语料库；

第一训练集生成单元601：将所述新的标注语料加入种子训练集，得到第一训练集；

一致性检查单元602：用第一训练集训练第一学习模型，然后用第一学习模型预测原始数据集中未标注语料，得到预测结果集；

第二训练集生成单元603：校对预测结果集，形成新的标注语料，然后将其加入第一训练集，得到第二训练集；

事件抽取语料库生成单元604：不断扩充数据集，直到数据集规模达到种子数据集的3倍以上，且将形成的数据集按5:1比例分为训练集、测试集，对机器学习模型进行训练，经测试准确率达到80％以上时，形成事件抽取语料库。