CN110597997A - 一种军事想定文本事件抽取语料库迭代式构建方法及装置 - Google Patents

一种军事想定文本事件抽取语料库迭代式构建方法及装置 Download PDF

Info

Publication number
CN110597997A
CN110597997A CN201910653277.7A CN201910653277A CN110597997A CN 110597997 A CN110597997 A CN 110597997A CN 201910653277 A CN201910653277 A CN 201910653277A CN 110597997 A CN110597997 A CN 110597997A
Authority
CN
China
Prior art keywords
event
corpus
training
learning model
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910653277.7A
Other languages
English (en)
Other versions
CN110597997B (zh
Inventor
蒋序平
战立莹
杨若鹏
温鸿鹏
鲁义威
卢稳新
朱巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910653277.7A priority Critical patent/CN110597997B/zh
Publication of CN110597997A publication Critical patent/CN110597997A/zh
Application granted granted Critical
Publication of CN110597997B publication Critical patent/CN110597997B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种军事想定文本事件抽取语料库迭代式构建方法及装置,所述方法包括以下步骤:1、预处理,得到以词序列表示的原始数据集;2、构建种子数据集,定义事件模板,构造事件触发词词典,通过人工标注形成种子数据集,将种子数据集划分为种子训练集、测试集;3、模型训练,利用种子训练集对机器学习模型进行训练,并用测试集对模型进行测试,根据测试结果调优模型参数,得到第一学习模型;4、选取未标注训练语料,输入第一学习模型,得到预测结果集;5、校对预测结果集,形成新的标注语料;6、通过不断迭代,依次生成训练集,形成事件抽取语料库。本发明提出的面向军事想定文本的事件抽取语料库迭代式构建方法,提高了语料库构建效率,降低了人工标注成本,获得了较高的语料标注准确度。

Description

一种军事想定文本事件抽取语料库迭代式构建方法及装置
技术领域
本发明属于自然语言处理技术领域,特别涉及一种军事想定文本事件抽取语料库迭代式构建方法及装置。
背景技术
随着信息技术的高速发展,信息也呈***式增长。如何将大量无序的信息及时进行提取、整理,快速、准确地获取用户需要的有用信息,并将其转化为人和机器均能理解和使用的结构化形式,已成为研究开发的焦点。信息抽取正是在这种背景下产生、发展起来的。事件抽取是信息抽取的高级阶段,是其最具挑战性的任务,主要研究从各类文本中抽取出用户感兴趣的事件信息,并以结构化形式呈现出来,提供给其他信息抽取业务使用或直接实际应用。
军事想定文本,是按照作战双方的企图、态势及作战进程场景进行设想和假定的描述文本。信息抽取可以应用于军事想定文本,能够从海量军事想定文本中快速、准确地挖掘出有价值的信息,实现对军事想定文本处理的自动化和智能化。信息抽取需要成熟、可用的语料资源,需要构建相关语料库。然而,语料库的构建多采用纯人工标注的方式进行,即标注人员直接在原始语料上进行标注作业,自动化程度较低,需要消耗大量时间和人力,效率较低,安全、保密性差,不利于语料的管理和保护。
发明内容
本发明的目的在于克服现有技术的缺陷,面向军事想定文本,针对该领域语料的特点,通过构建种子数据集,以少量的训练样本训练出机器学习模型,用机器学习模型对未知语料进行预测,通过人工调优和机器预测的不断迭代,扩充数据集,以人工和计算机结合、半自动化的方式构建事件抽取语料库,实现了一种军事想定文本事件抽取语料库迭代式构建方法及装置。
为实现上述目的,本发明采用了如下技术方案:
一种军事想定文本事件抽取语料库迭代式构建方法,所述方法包括如下步骤:
A、预处理,用于输入军事想定文本语料,对军事想定文本语料依次进行分句、分词,生成以词序列表示的数据集;
A1、将军事想定文本语料按照中文标点断句符号切分成一个个的句子,形成词句子集合;
A2、将句子集合中的每个句子运用开源分词器进行分词,得到词语集合,并逐行显示,形成词序列;
A3、基于开源分词器自带词典,构建自定义词典,修正分词结果;
所述开源分词器包括但不限于Hanlp、Jieba等。
B、构建种子数据集,用于定义事件模板,构造触发词词典,从原始数据集中选取典型事件描述句,然后进行人工标注;
B1、定义事件模板,根据事件类型分别定义每类事件的基本模板,这些模板由事件触发词和事件元素组成;
B2、依据公开发行的军事领域通用词典对每类事件触发词进行同义、近义词扩展,依此构造事件触发词词典;
所述公开发行的军事领域通用词典包括但不限于《中国军事百科全书》、《军事大辞典》、《简明军事辞典》等;
B3、制定语料标注的目标、方法和规则,分别定义各类事件的触发词和事件元素标注标签;
B4、依据相似度规则,对照事件模板从原始数据集中选取各类事件典型描述句,并对其标注相应的触发词和事件元素标签,生成各类事件的触发词和事件元素标注序列集,得到种子数据集;
B5、将所得种子数据集按特定比例分为种子训练集、测试集;
优选的,所述种子训练集与测试集的比例为5:1。
C、模型训练,利用种子训练集对机器学习模型进行训练,并用测试集对模型进行测试,根据测试结果调优模型参数,得到第一学习模型;
C1、利用种子训练集对机器学习模型进行训练,得到相应的模型参数;
所述机器学习模型包括但不限于支持向量机(SVM)、条件随机场(CRF)、最大熵模型、隐马尔科夫模型(HMM)等;
所述机器学习模型采用应用条件随机场模型(CRF)的处理方式如下:
对一个特定序列X的一个标注序列Y概率为:
式中,X为待标注序列,Z(x)为标准化因子,fk、gk分别为转移特征函数及状态特征函数,λk、μk分别是相应特征函数的权值;
C2、用测试集对机器学习模型进行测试;
C3、根据测试结果,以特定优化算法对模型参数进行优化,得到第一学习模型;
所述优化算法包括但不限于粒子群算法(PSO)等;
所述优化算法采用粒子群算法(PSO)对模型参数进行优化的处理方式如下:
在PSO优化算法中,每个个体被当成一个粒子,N个粒子就组成一个群体,其中每个粒子i是一个m维的向量xi,第i个粒子的移动速度也是一个m维的向量vi,f(x)为待优化的目标函数,粒子群的优化过程可描述为:
vid(t+1)=vid(t)+c1r1(pid(t)-xid(t))+c2r2(pgd(t)-xid(t)),i=1,2,…N (2)
xid(t+1)=xid(t)+vid(t+1) (3)
式中,c1、c2为加速系数,r1、r2为随机数,pi(t)为第i个粒子在t时刻搜索到的最优位置,pg(t)为整个粒子群迄今为止搜索到的最优位置(全局极值)。
D、结果预测,从原始数据集中选取未标注训练语料,输入第一学习模型,得到预测结果集,其中,模型训练输出的结果需要利用维特比算法进行解码,得到最优标注结果。选取的待标注序列为X1=(x1,x2,x3,……xT),预测得到的标注序列为Y1=(y1,y2,y3,……yT);
D1、依据事件模板和触发词词典,从原始数据集中按事件类型选取事件语料,并按类型进行同类合并,形成每一类事件训练语料;
D2、将所述每一类事件训练语料分别输入第一学习模型,形成每一类事件预测结果集;
E、校对预测结果集,对每一类事件预测结果集进行批量校对、修正,人工进一步标注,形成新的标注语料;
E1、批量校对、修正每一类事件预测结果集,发现其中错误用例,并通过人工标注进一步修改、优化预测结果集,形成批量的标注语料;
E2、对批量的标注语料进行一致性检查,并继续优化,直到标注的一致性达到指定阈值时,标注结果即视为可靠,形成新的标注语料;
所述指定阈值为0.9。
F、形成事件抽取语料库,将所述新的标注语料加入种子训练集,得到第一训练集,用第一训练集训练第一学习模型,然后用第一学习模型预测未标注语料,生成预测结果集并校对,将得到的新的标注语料加入第一训练集,得到第二训练集,依次类推,不断迭代,不断扩充数据集,形成事件抽取语料库;
F1、将所述新的标注语料加入种子训练集,得到第一训练集;
F2、用第一训练集训练第一学习模型,然后用第一学习模型预测原始数据集中未标注语料,得到预测结果集;
F3、校对预测结果集,形成新的标注语料,然后将其加入第一训练集,得到第二训练集;
F4、重复步骤F1-F3,不断扩充数据集,直到数据集规模达到种子数据集的3倍以上,且将形成的数据集按5:1比例分为训练集、测试集,对机器学习模型进行训练,经测试准确率达到80%以上时,形成事件抽取语料库。
本发明采用的军事想定文本事件抽取语料库迭代式构建方法,优点如下:
1、面向军事想定文本,针对该领域语料的特点,通过人工和计算机结合、半自动化的方式构建事件抽取语料库,加快了语料库构建的速度,大大提高了语料库构建效率,降低了人工标注成本,同时获得了较高的语料标注准确度;
2、军事想定行文具有规范性,语言学特征比较明显,本发明充分利用军事想定领域特征,构建种子数据集,以少量的训练样本训练出机器学习模型,用机器学习模型对未知语料进行预测,通过人工调优和机器预测的不断迭代,扩充数据集,大大提高了语料库构建的效率,降低了人力标注成本;
3、通过改变标注的标签等,可以标注其他领域的事件抽取语料,为其他领域事件抽取语料库的构建提供了重要借鉴。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种军事想定文本事件抽取语料库迭代式构建方法实施例的详细流程示意图;
图2是本发明的组成结构框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参照附图1,示出了本发明的一种军事想定文本事件抽取语料库迭代式构建方法实施例的流程示意图,具体包括以下步骤:
A、预处理,输入军事想定文本语料,对军事想定文本语料依次进行分句、分词,生成以词序列表示的数据集;
A1、将军事想定文本语料按照中文标点断句符号切分成一个个的句子,形成词句子集合;
A2、将句子集合中的每个句子运用开源的Hanlp、Jieba等分词器进行分词,得到词语集合,并逐行显示,形成词序列;
A3、基于开源的Hanlp、Jieba分词器自带词典,构建自定义词典,修正分词结果。
B、构建种子数据集,定义事件模板,构造触发词词典,从原始数据集中选取典型事件描述句,然后进行人工标注;
B1、定义事件模板,根据事件类型分别定义每类事件的基本模板,这些模板由事件触发词和事件元素组成;
B2、依据公开发行的军事领域通用词典《中国军事百科全书》《军事大辞典》《简明军事辞典》等对每类事件触发词进行同义、近义词扩展,依此构造事件触发词词典;
B3、制定语料标注的目标、方法和规则,分别定义各类事件的触发词和事件元素标注标签;
B4、依据相似度规则,对照事件模板从原始数据集中选取各类事件典型描述句,并对其标注相应的触发词和事件元素标签,生成各类事件的触发词和事件元素标注序列集,得到种子数据集;
B5、将所得种子数据集按照优选比例5:1划分种子训练集、测试集;
C、模型训练,利用种子训练集对机器学习模型进行训练,并用测试集对模型进行测试,根据测试结果调优模型参数,得到第一学习模型;
C1、利用种子训练集对机器学习模型进行训练,得到相应的模型参数,其中机器学习模型不受限制,本领域技术人员可以采用任意现有技术来获得模型,常用的机器学习模型有支持向量机(SVM)、条件随机场(CRF)、最大熵模型、隐马尔科夫模型(HMM)等,以应用条件随机场模型(CRF)为例,处理方式如下:
条件随机场模型是一种用于标注和切分有序数据的条件概率模型,该模型集成了HMM模型和最大熵模型的特点并避免了这些模型本身的一些缺点,可以有效地用于序列标注,CRF模型能够综合利用包括字、词、词性在内的上下文信息,还能利用丰富的外部特征;
对一个特定序列X的一个标注序列Y概率为:
式中,X为待标注序列,Z(x)为标准化因子,fk、gk分别为转移特征函数及状态特征函数,λk、μk分别是相应特征函数的权值;
C2、用测试集对机器学习模型进行测试;
C3、根据测试结果,以粒子群算法(PSO)等优化算法对模型参数进行优化,得到第一学习模型,CRF模型的MLE算法会使参数收敛于局部极值,需要对参数进行优化,粒子群算法(PSO)是一种随机搜索算法,可在搜索空间内进行全局搜索,从而能够找到全局最优解,在PSO优化算法中,每个个体被当成一个粒子,N个粒子就组成一个群体,其中每个粒子i是一个m维的向量xi,第i个粒子的移动速度也是一个m维的向量vi,f(x)为待优化的目标函数,粒子群的优化过程可描述为:
vid(t+1)=vid(t)+c1r1(pid(t)-xid(t))+c2r2(pgd(t)-xid(t)),i=1,2,…N (2)
xid(t+1)=xid(t)+vid(t+1) (3)
式中,c1、c2为加速系数,r1、r2为随机数,pi(t)为第i个粒子在t时刻搜索到的最优位置,pg(t)为整个粒子群迄今为止搜索到的最优位置(全局极值);
在PSO算法的CRF参数优化中,每一个粒子对应一个CRF,粒子在每一次迭代进化后都运行MLE算法对粒子进行局部的优化。
D、结果预测,从原始数据集中选取未标注训练语料,输入第一学习模型,得到预测结果集,其中,模型训练输出的结果需要利用维特比算法进行解码,得到最优标注结果,选取的待标注序列为X1=(x1,x2,x3,……xT),预测得到的标注序列为Y1=(y1,y2,y3,……yT);
D1、依据事件模板和触发词词典,从原始数据集中按事件类型选取事件语料,并按类型进行同类合并,形成每一类事件训练语料;
D2、将所述每一类事件训练语料分别输入第一学习模型,形成每一类事件预测结果集。
E、校对预测结果集,对每一类事件预测结果集进行批量校对、修正,人工进一步标注,形成新的标注语料;
E1、批量校对、修正每一类事件预测结果集,发现其中错误用例,并通过人工标注进一步修改、优化预测结果集,形成批量的标注语料;
E2、对批量的标注语料进行一致性检查,并继续优化,直到标注的一致性达到指定阈值0.9时,标注结果即视为可靠,形成新的标注语料。
F、形成事件抽取语料库,将所述新的标注语料加入种子训练集,得到第一训练集,用第一训练集训练第一学习模型,然后用第一学习模型预测未标注语料,生成预测结果集并校对,将得到的新的标注语料加入第一训练集,得到第二训练集,依次类推,不断迭代,不断扩充数据集,形成事件抽取语料库;
F1、将所述新的标注语料加入种子训练集,得到第一训练集;
F2、用第一训练集训练第一学习模型,然后用第一学习模型预测原始数据集中未标注语料,得到预测结果集;
F3、校对预测结果集,形成新的标注语料,然后将其加入第一训练集,得到第二训练集;
F4、重复步骤F1-F3,不断扩充数据集,直到数据集规模达到种子数据集的3倍以上,且将形成的数据集按5:1比例分为训练集、测试集,对机器学习模型进行训练,经测试准确率达到80%以上时,形成事件抽取语料库。
参照附图2,示出了本发明的组成结构框图,具体包括:
预处理模块100,用于输入军事想定文本语料,对军事想定文本语料依次进行分句、分词,生成以词序列表示的数据集;
句子切分单元101,用于将军事想定文本语料按照中文标点断句符号切分成一个个的句子,形成词句子集合;
词序列生成单元102,用于将句子集合中的每个句子进行分词,得到词语集合,并逐行显示,形成词序列;
自定义词典构建单元103,构建自定义词典,修正分词结果。
种子数据集构建模块200,定义事件模板,构造触发词词典,从原始数据集中选取典型事件描述句,然后进行人工标注;
事件模板定义单元201,定义事件模板,根据事件类型分别定义每类事件的基本模板,这些模板由事件触发词和事件元素组成;
事件触发词词典构造单元202,依据公开发行的军事领域通用词典对每类事件触发词进行同义、近义词扩展,依此构造事件触发词词典;
标签定义单元203,制定语料标注的目标、方法和规则,分别定义各类事件的触发词和事件元素标注标签;
种子数据集生成单元204,依据相似度规则,对照事件模板从原始数据集中选取各类事件典型描述句,并对其标注相应的触发词和事件元素标签,生成各类事件的触发词和事件元素标注序列集,得到种子数据集;
种子数据集切分单元205,将所得种子数据集按预定比例分为种子训练集、测试集。
模型训练模块300,利用种子训练集对机器学习模型进行训练,并用测试集对模型进行测试,根据测试结果调优模型参数,得到第一学习模型;
模型参数生成单元301,利用种子训练集对机器学习模型进行训练,得到相应的模型参数;
测试集测试单元302,用测试集对机器学习模型进行测试;
第一学习模型生成单元303,根据测试结果,以优化算法对模型参数进行优化,得到第一学习模型。
结果预测模块400,从原始数据集中选取未标注训练语料,输入第一学习模型,得到预测结果集;
事件训练语料生成单元401,依据事件模板和触发词词典,从原始数据集中按事件类型选取事件语料,并按类型进行同类合并,形成每一类事件训练语料;
事件预测结果集生成单元402,将所述每一类事件训练语料分别输入第一学习模型,形成每一类事件预测结果集。
校对预测结果集单元500,对每一类事件预测结果集进行批量校对、修正,人工进一步标注,形成新的标注语料;
批量标注语料生成单元501,批量校对、修正每一类事件预测结果集,发现其中错误用例,并通过人工标注进一步修改、优化预测结果集,形成批量的标注语料;
一致性检查单元502,对批量的标注语料进行一致性检查,并继续优化,直到标注的一致性达到指定阈值0.9时,标注结果即视为可靠,形成新的标注语料。
事件抽取语料库生成模块600,将所述新的标注语料加入种子训练集,得到第一训练集,用第一训练集训练第一学习模型,然后用第一学习模型预测未标注语料,生成预测结果集并校对,将得到的新的标注语料加入第一训练集,得到第二训练集,依次类推,不断迭代,不断扩充数据集,形成事件抽取语料库;
第一训练集生成单元601,将所述新的标注语料加入种子训练集,得到第一训练集;
一致性检查单元602,用第一训练集训练第一学习模型,然后用第一学习模型预测原始数据集中未标注语料,得到预测结果集;
第二训练集生成单元603,校对预测结果集,形成新的标注语料,然后将其加入第一训练集,得到第二训练集;
事件抽取语料库生成单元604,不断扩充数据集,直到数据集规模达到种子数据集的3倍以上,且将形成的数据集按5:1比例分为训练集、测试集,对机器学习模型进行训练,经测试准确率达到80%以上时,形成事件抽取语料库。

Claims (10)

1.一种军事想定文本事件抽取语料库迭代式构建方法,其特征在于,所述方法包括以下步骤:
A、预处理:输入军事想定文本语料,对军事想定文本语料依次进行分句、分词,生成以词序列表示的数据集;
A1、将军事想定文本语料按照中文标点断句符号切分成一个个的句子,形成词句子集合;
A2、将句子集合中的每个句子运用开源分词器进行分词,得到词语集合,并逐行显示,形成词序列;
A3、基于开源分词器自带词典,构建自定义词典,修正分词结果;
B、构建种子数据集:定义事件模板,构造触发词词典,从原始数据集中选取典型事件描述句,进行人工标注;
B1、定义事件模板,根据事件类型分别定义每类事件的基本模板,基本模板由事件触发词和事件元素组成;
B2、依据公开发行的军事领域通用词典对每类事件触发词进行同义、近义词扩展,构造事件触发词词典;
B3、制定语料标注的目标、方法和规则,分别定义各类事件的触发词和事件元素标注标签;
B4、依据相似度规则,对照事件模板从原始数据集中选取各类事件典型描述句,并对其标注相应的触发词和事件元素标签,生成各类事件的触发词和事件元素标注序列集,得到种子数据集;
B5、将所得种子数据集按指定比例分为种子训练集、测试集;
C、模型训练:利用种子训练集对机器学习模型进行训练,并用测试集对模型进行测试,根据测试结果调优模型参数,得到第一学习模型;
C1、利用种子训练集对机器学习模型进行训练,得到相应的模型参数;
C2、用测试集对机器学习模型进行测试;
C3、根据测试结果,以特定优化算法对模型参数进行优化,得到第一学习模型;
D、结果预测:从原始数据集中选取未标注训练语料,输入第一学习模型,得到预测结果集,其中,模型训练输出的结果需要利用维特比算法进行解码,得到最优标注结果,选取的待标注序列为X1=(x1,x2,x3,......xT),预测得到的标注序列为Y1=(y1,y2,y3,......yT);
D1、依据事件模板和触发词词典,从原始数据集中按事件类型选取事件语料,并按类型进行同类合并,形成每一类事件训练语料;
D2、将所述每一类事件训练语料分别输入第一学习模型,形成每一类事件预测结果集;
E、校对预测结果集:对每一类事件预测结果集进行批量校对、修正,人工进一步标注,形成新的标注语料;
E1、批量校对、修正每一类事件预测结果集,通过人工标注进一步修改、优化预测结果集,形成批量标注语料;
E2、对批量标注语料进行一致性检查,继续优化,直到标注的一致性达到指定阈值时,标注结果形成新的标注语料。
F、形成事件抽取语料库:将所述新的标注语料加入种子训练集,得到第一训练集,用第一训练集训练第一学习模型,再用第一学习模型预测未标注语料,生成预测结果集并校对,将得到的新的标注语料加入第一训练集,得到第二训练集,不断迭代,不断扩充数据集,形成事件抽取语料库;
F1、将所述新的标注语料加入种子训练集,得到第一训练集;
F2、用第一训练集训练第一学习模型,再用第一学习模型预测原始数据集中未标注语料,得到预测结果集;
F3、校对预测结果集,形成新的标注语料,再将其加入第一训练集,得到第二训练集;
F4、重复步骤F1-F3,不断扩充数据集,直到数据集规模达到种子数据集的3倍以上,且将形成的数据集按5∶1比例分为训练集、测试集,对机器学习模型进行训练,经测试准确率达到80%以上时,形成事件抽取语料库。
2.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法,其特征在于,所述开源分词器包括Hanlp、Jieba。
3.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法,其特征在于,所述公开发行的军事领域通用词典包括《中国军事百科全书》、《军事大辞典》、《简明军事辞典》。
4.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法,其特征在于,所述种子训练集与测试集的指定比例为5:1。
5.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法,其特征在于,所述机器学习模型包括支持向量机模型、条件随机场模型、最大熵模型、隐马尔科夫模型。
6.根据权利要求4所述的军事想定文本事件抽取语料库迭代式构建方法,其特征在于,所述机器学习模型采用应用条件随机场模型的处理方式如下:
对一个特定序列X的一个标注序列Y概率为:
式中,X为待标注序列,Z(x)为标准化因子,fk、gk分别为转移特征函数及状态特征函数,λk、μk分别是相应特征函数的权值。
7.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法,其特征在于,所述优化算法为粒子群算法(PS0)。
8.根据权利要求6所述的军事想定文本事件抽取语料库迭代式构建方法,其特征在于,所述优化算法为粒子群算法(PS0)时,对模型参数进行优化的处理方式如下:
在PSO优化算法中,每个个体被当成一个粒子,N个粒子就组成一个群体,其中每个粒子i是一个m维的向量xi,第i个粒子的移动速度也是一个m维的向量vi,f(x)为待优化的目标函数,粒子群的优化过程可描述为:
vid(t+1)=vid(t)+c1r1(pid(t)-xid(t))+c2r2(pgd(t)-xid(t)),i=1,2,…N (2)
xid(t+1)=xid(t)+vid(t+1) (3)
式中,c1、c2为加速系数,r1、r2为随机数,pi(t)为第i个粒子在t时刻搜索到的最优位置,pg(t)为整个粒子群迄今为止搜索到的最优位置。
9.根据权利要求1所述的军事想定文本事件抽取语料库迭代式构建方法,其特征在于,所述指定阈值为0.9。
10.一种军事想定文本事件抽取语料库迭代式构建装置,其特征在于,所述装置包括:
预处理模块100:输入军事想定文本语料,对军事想定文本语料依次进行分句、分词,生成以词序列表示的数据集;
句子切分单元101:将军事想定文本语料按照中文标点断句符号切分成一个个的句子,形成词句子集合;
词序列生成单元102:将句子集合中的每个句子进行分词,得到词语集合,并逐行显示,形成词序列;
自定义词典构建单元103:构建自定义词典,修正分词结果;
种子数据集构建模块200:定义事件模板,构造触发词词典,从原始数据集中选取典型事件描述句,进行人工标注;
事件模板定义单元201:定义事件模板,根据事件类型分别定义每类事件的基本模板,这些模板由事件触发词和事件元素组成;
事件触发词词典构造单元202:依据公开发行的军事领域通用词典对每类事件触发词进行同义、近义词扩展,依此构造事件触发词词典;
标签定义单元203:制定语料标注的目标、方法和规则,分别定义各类事件的触发词和事件元素标注标签;
种子数据集生成单元204:依据相似度规则,对照事件模板从原始数据集中选取各类事件典型描述句,并对其标注相应的触发词和事件元素标签,生成各类事件的触发词和事件元素标注序列集,得到种子数据集;
种子数据集切分单元205:将所得种子数据集按预定比例分为种子训练集、测试集;
模型训练模块300:利用种子训练集对机器学习模型进行训练,并用测试集对模型进行测试,根据测试结果调优模型参数,得到第一学习模型;
模型参数生成单元301:利用种子训练集对机器学习模型进行训练,得到模型参数;
测试集测试单元302:用测试集对机器学习模型进行测试;
第一学习模型生成单元303:根据测试结果,以优化算法对模型参数进行优化,得到第一学习模型;
结果预测模块400:从原始数据集中选取未标注训练语料,输入第一学习模型,得到预测结果集;
事件训练语料生成单元401:依据事件模板和触发词词典,从原始数据集中按事件类型选取事件语料,并按类型进行同类合并,形成每一类事件训练语料;
事件预测结果集生成单元402:将所述每一类事件训练语料分别输入第一学习模型,形成每一类事件预测结果集;
校对预测结果集500:对每一类事件预测结果集进行批量校对、修正,人工进一步标注,形成新的标注语料;
批量标注语料生成单元501:批量校对、修正每一类事件预测结果集,发现错误用例,通过人工标注进一步修改、优化预测结果集,形成批量的标注语料;
一致性检查单元502:对批量的标注语料进行一致性检查,继续优化,直到标注的一致性达到指定阈值时,标注结果形成新的标注语料;
事件抽取语料库生成模块600:将所述新的标注语料加入种子训练集,得到第一训练集,用第一训练集训练第一学习模型,然后用第一学习模型预测未标注语料,生成预测结果集并校对,将得到的新的标注语料加入第一训练集,得到第二训练集,依次类推,不断迭代,不断扩充数据集,形成事件抽取语料库;
第一训练集生成单元601:将所述新的标注语料加入种子训练集,得到第一训练集;
一致性检查单元602:用第一训练集训练第一学习模型,然后用第一学习模型预测原始数据集中未标注语料,得到预测结果集;
第二训练集生成单元603:校对预测结果集,形成新的标注语料,然后将其加入第一训练集,得到第二训练集;
事件抽取语料库生成单元604:不断扩充数据集,直到数据集规模达到种子数据集的3倍以上,且将形成的数据集按5:1比例分为训练集、测试集,对机器学习模型进行训练,经测试准确率达到80%以上时,形成事件抽取语料库。
CN201910653277.7A 2019-07-19 2019-07-19 一种军事想定文本事件抽取语料库迭代式构建方法及装置 Expired - Fee Related CN110597997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910653277.7A CN110597997B (zh) 2019-07-19 2019-07-19 一种军事想定文本事件抽取语料库迭代式构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910653277.7A CN110597997B (zh) 2019-07-19 2019-07-19 一种军事想定文本事件抽取语料库迭代式构建方法及装置

Publications (2)

Publication Number Publication Date
CN110597997A true CN110597997A (zh) 2019-12-20
CN110597997B CN110597997B (zh) 2022-03-22

Family

ID=68852844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910653277.7A Expired - Fee Related CN110597997B (zh) 2019-07-19 2019-07-19 一种军事想定文本事件抽取语料库迭代式构建方法及装置

Country Status (1)

Country Link
CN (1) CN110597997B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324745A (zh) * 2020-02-18 2020-06-23 深圳市一面网络技术有限公司 词库生成方法及装置
CN111476034A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及***
CN111831788A (zh) * 2020-06-16 2020-10-27 国网江苏省电力有限公司信息通信分公司 一种电力语料标记模型构建方法及***
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置
CN113206854A (zh) * 2021-05-08 2021-08-03 首约科技(北京)有限公司 一种快速开发国标终端协议的方法及装置
CN113609298A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于法院舆情语料提取的数据处理的方法和装置
CN113657105A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN113743096A (zh) * 2020-05-27 2021-12-03 南京大学 一种基于自然语言处理的众包测试报告相似度检测的方法
CN114004224A (zh) * 2020-07-17 2022-02-01 中国电信股份有限公司 复杂地址分词方法和装置、计算机可读存储介质
CN114265943A (zh) * 2021-12-24 2022-04-01 吉林大学 一种因果关系事件对提取方法及***
CN114398256A (zh) * 2021-12-06 2022-04-26 南京行者易智能交通科技有限公司 一种基于Bert模型的大数据自动测试方法
CN114611486A (zh) * 2022-03-09 2022-06-10 上海弘玑信息技术有限公司 信息抽取引擎的生成方法及装置、电子设备
CN114265943B (zh) * 2021-12-24 2024-07-30 吉林大学 一种因果关系事件对提取方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060123000A1 (en) * 2004-12-03 2006-06-08 Jonathan Baxter Machine learning system for extracting structured records from web pages and other text sources
CN104572958A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
CN104899190A (zh) * 2015-06-04 2015-09-09 百度在线网络技术(北京)有限公司 分词词典的生成方法和装置及分词处理方法和装置
CN105260488A (zh) * 2015-11-30 2016-01-20 哈尔滨工业大学 一种用于语义理解的文本序列迭代方法
CN108536821A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种赛事新闻领域词库的构建方法
CN109376251A (zh) * 2018-09-25 2019-02-22 南京大学 一种基于词向量学习模型的微博中文情感词典构建方法
CN109522396A (zh) * 2018-10-22 2019-03-26 中国船舶工业综合技术经济研究院 一种面向国防科技领域的知识处理方法及***
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060123000A1 (en) * 2004-12-03 2006-06-08 Jonathan Baxter Machine learning system for extracting structured records from web pages and other text sources
CN104572958A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
CN104899190A (zh) * 2015-06-04 2015-09-09 百度在线网络技术(北京)有限公司 分词词典的生成方法和装置及分词处理方法和装置
CN105260488A (zh) * 2015-11-30 2016-01-20 哈尔滨工业大学 一种用于语义理解的文本序列迭代方法
CN108536821A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种赛事新闻领域词库的构建方法
CN109376251A (zh) * 2018-09-25 2019-02-22 南京大学 一种基于词向量学习模型的微博中文情感词典构建方法
CN109522396A (zh) * 2018-10-22 2019-03-26 中国船舶工业综合技术经济研究院 一种面向国防科技领域的知识处理方法及***
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YINGHUI FENG 等: "Research on Tibetan Culture Domain Entity Recognition", 《PROCEEDINGS OF 2015 5TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCES AND AUTOMATION ENGINEERING (ICCSAE 2015)》 *
冯蕴天 等: "面向军事文本的命名实体识别", 《计算机科学》 *
杨若鹏 等: "基于深度学习的军事命名实体识别方法", 《装甲兵工程学院学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324745A (zh) * 2020-02-18 2020-06-23 深圳市一面网络技术有限公司 词库生成方法及装置
CN111476034A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及***
CN113743096A (zh) * 2020-05-27 2021-12-03 南京大学 一种基于自然语言处理的众包测试报告相似度检测的方法
CN111831788A (zh) * 2020-06-16 2020-10-27 国网江苏省电力有限公司信息通信分公司 一种电力语料标记模型构建方法及***
CN114004224A (zh) * 2020-07-17 2022-02-01 中国电信股份有限公司 复杂地址分词方法和装置、计算机可读存储介质
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置
CN113206854B (zh) * 2021-05-08 2022-12-13 首约科技(北京)有限公司 一种快速开发国标终端协议的方法及装置
CN113206854A (zh) * 2021-05-08 2021-08-03 首约科技(北京)有限公司 一种快速开发国标终端协议的方法及装置
CN113609298A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于法院舆情语料提取的数据处理的方法和装置
CN113657105A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114398256A (zh) * 2021-12-06 2022-04-26 南京行者易智能交通科技有限公司 一种基于Bert模型的大数据自动测试方法
CN114398256B (zh) * 2021-12-06 2024-06-04 南京行者易智能交通科技有限公司 一种基于Bert模型的大数据自动测试方法
CN114265943A (zh) * 2021-12-24 2022-04-01 吉林大学 一种因果关系事件对提取方法及***
CN114265943B (zh) * 2021-12-24 2024-07-30 吉林大学 一种因果关系事件对提取方法及***
CN114611486A (zh) * 2022-03-09 2022-06-10 上海弘玑信息技术有限公司 信息抽取引擎的生成方法及装置、电子设备

Also Published As

Publication number Publication date
CN110597997B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN110532554B (zh) 一种中文摘要生成方法、***及存储介质
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN110598203B (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
Sun et al. Fast online training with frequency-adaptive learning rates for chinese word segmentation and new word detection
CN114020862B (zh) 一种面向煤矿安全规程的检索式智能问答***及方法
CN112818691A (zh) 命名实体识别模型训练方法及装置
CN111709242A (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN108829823A (zh) 一种文本分类方法
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及***
Ye et al. Improving cross-domain Chinese word segmentation with word embeddings
Hou et al. Inverse is better! fast and accurate prompt for few-shot slot tagging
CN115033753A (zh) 训练语料集构建方法、文本处理方法及装置
CN113673241B (zh) 一种基于范例学习的文本摘要生成框架***及方法
CN110968661A (zh) 事件抽取方法及***、计算机可读存储介质及电子设备
CN113553853A (zh) 命名实体识别方法、装置、计算机设备及存储介质
Wang et al. A sentence segmentation method for ancient Chinese texts based on NNLM
CN113408267B (zh) 一种基于预训练模型的词对齐性能提升方法
CN115730599A (zh) 基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220322