CN116701576B - 无触发词的事件检测方法和*** - Google Patents
无触发词的事件检测方法和*** Download PDFInfo
- Publication number
- CN116701576B CN116701576B CN202310975299.1A CN202310975299A CN116701576B CN 116701576 B CN116701576 B CN 116701576B CN 202310975299 A CN202310975299 A CN 202310975299A CN 116701576 B CN116701576 B CN 116701576B
- Authority
- CN
- China
- Prior art keywords
- event
- decoding
- model
- word
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 97
- 239000013598 vector Substances 0.000 claims abstract description 168
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种无触发词的事件检测方法和***,方法包括:对样本语句进行信息编码得到第一语义向量表示,得到词的第二语义向量表示;根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化得到归一化权重向量,并确定当前时刻的解码上下文信息;根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息确定当前时刻预测的事件类别的概率分布;根据各解码时刻对应的归一化权重向量和预测的事件类别的概率分布确定模型总损失并进行训练;将待检测语句输入事件检测模型进行检测得到事件检测结果。本发明能利用待检测语句中多个事件类别之间的相关性信息提高检测的准确率。
Description
技术领域
本发明涉及事件检测技术领域,尤其涉及一种无触发词的事件检测方法和***。
背景技术
事件检测(Event Detection)长期以来都是自然语言处理领域的热点研究问题之一,一般地,事件检测可分为基于触发词的事件检测和无触发词的事件检测。给定一个句子,基于触发词的事件检测模型首先会找出句子中所含事件的触发词,然后根据触发词及上下文判断对应事件的类别。无触发词的事件检测则直接识别出给定句子中每个事件的类别。与基于触发词的事件检测相比,无触发词的事件检测可以避免因触发词的误识别而导致的错误传播问题。
现有的无触发词的事件检测方法中,一般通过多个二分类层单独预测句子中是否存在某类事件,并未充分利用句子中多个事件类别之间的相关性,导致事件检测的准确率不高。
发明内容
本发明实施例的目的在于提供一种无触发词的事件检测方法和***,旨在解决现有的事件检测方法事件检测的准确率不高的问题。
本发明实施例是这样实现的,一种无触发词的事件检测方法,所述方法包括:
将样本语句输入事件检测模型进行上下文信息编码,得到词的第一语义向量表示,并对各词的第一语义向量表示进行类别信息编码,得到词的第二语义向量表示;
根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化,得到归一化权重向量,并根据所述归一化权重向量确定当前时刻的解码上下文信息;
根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布;
根据各解码时刻对应的归一化权重向量确定第一模型损失,并根据各解码时刻预测的事件类别的概率分布确定第二模型损失;
根据所述第一模型损失和所述第二模型损失确定模型总损失,并根据所述模型总损失对所述事件检测模型进行训练,直至收敛;
将待检测语句输入训练后的所述事件检测模型进行事件检测,得到事件检测结果。
本发明实施例的另一目的在于提供一种无触发词的事件检测***,所述***包括:
融合上下文信息的第一编码模块,用于将样本语句输入事件检测模型进行上下文信息编码,得到词的第一语义向量表示;
融合类别信息的第二编码模块,用于对各词的第一语义向量表示进行类别信息编码,得到词的第二语义向量表示;
基于注意力机制的选择模块,用于根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化,得到归一化权重向量,并根据所述归一化权重向量确定当前时刻的解码上下文信息;
类别序列解码模块,用于根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布;
模型训练模块,用于根据各解码时刻对应的归一化权重向量确定第一模型损失,并根据各解码时刻预测的事件类别的概率分布确定第二模型损失;
根据所述第一模型损失和所述第二模型损失确定模型总损失,并根据所述模型总损失对所述事件检测模型进行训练,直至收敛;
事件检测模块,用于将待检测语句输入训练后的所述事件检测模型进行事件检测,得到事件检测结果。
本发明实施例,通过上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布,使得训练后的事件检测模型,在预测待检测语句中当前的事件类别时,会考虑句子中前一个事件的事件类别,以利用待检测语句中多个事件类别之间的相关性信息进行事件检测,提高了事件检测的准确率。
附图说明
图1是本发明第一实施例提供的无触发词的事件检测方法的流程图;
图2是本发明第二实施例提供的无触发词的事件检测***的结构示意图;
图3是本发明第二实施例提供的无触发词的事件检测***的模型训练示意图;
图4是本发明第三实施例提供的终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的无触发词的事件检测方法的流程图,该无触发词的事件检测方法可以应用于任一终端设备或***,该无触发词的事件检测方法包括步骤:
步骤S10,将样本语句输入事件检测模型进行上下文信息编码,得到词的第一语义向量表示,并对各词的第一语义向量表示进行类别信息编码,得到词的第二语义向量表示;
其中,样本语句表示为,/>和/>分别表示样本语句中第/>个样本词和样本词的数量。
可选的,所述将样本语句输入事件检测模型进行上下文信息编码,得到词的第一语义向量表示,包括:
将所述样本语句输入所述事件检测模型中的第一编码网络,并根据所述第一编码网络对所述样本语句中的各样本词进行向量映射,得到各样本词的初始语义向量表示;
根据所述第一编码网络中的Transformer层对各初始语义向量表示进行特征融合,得到所述词的第一语义向量表示;
其中,该第一编码网络包括多个层叠的Transformer层,以各样本词为输入,学习融合句子级上下文信息的词的第一语义向量表示,计算公式如下:
;
其中,为/>个层叠的Transformer层,/>为各样本词对应的初始语义向量表示,/>表示分别融合了上下文信息的词的第一语义向量表示,每个Transformer层中包括一个多头自注意力机制层和一个前馈神经网络层,其基于多头自注意力机制层建模样本语句中任意距离的样本词之间的依赖,基于前馈神经网络层融合与词相关的上下文信息。优选的,可以使用预训练好的词向量作为样本词的初始语义向量表示,可以使用预训练好的BERT模型等大模型中Transformer层的参数初始化第一编码网络。
该步骤中,将词的第一语义向量表示输入第二编码网络进行类别信息编码,该第二编码网络用于融合类别信息,该第二编码网络由一个类别注意力机制层和一个BiLSTM层(双向长短时记忆网络)组成,以样本词的词的第一语义向量表示为输入,输出融合了类别信息的词的第二语义向量表示。类别注意力机制层用于将类别的语义表示融合到相关词的语义表示中,BiLSTM层可以更好地建模句子中的词序信息。
进一步地,对各词的第一语义向量表示进行类别信息编码采用的公式包括:
;
其中,是各事件类别的语义向量表示,/>是非事件类别的语义向量表示,/>是由/>和/>构成的矩阵,/>为事件类别的总数量,/>为所述事件检测模型中的类别注意力机制层,/>为与样本语句中第/>个样本词相关的类别信息的表示,/>用作类别注意力机制层中的查询,/>和/>分别为类别注意力机制层中的键和值,/>和/>为类别注意力机制层中需要学习的参数,/>为所述样本语句中第/>个样本词对应的词的第一语义向量表示,/>表示向量拼接操作,/>为/>和/>拼接后得到的临时向量,/>分别为所述样本语句中各样本词对应的词的第二语义向量表示,BiLSTM为双向长短时记忆网络。各事件类别的语义向量表示/>可以随机初始化,也可以使用类别名称中的词的向量表示进行初始化,非事件类别的语义向量表示可以随机初始化。在训练的过程中,把/>和/>作为模型的参数进行优化,/>是所述样本语句中样本词的数量。
步骤S20,根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化,得到归一化权重向量,并根据所述归一化权重向量确定当前时刻的解码上下文信息;
可选的,根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化采用的公式包括:
;
其中,sim为计算两个向量间相似度的函数,为未归一化的权重向量,softmax为归一化函数,/>为归一化权重向量,可以看作一个概率分布,/>为所述上一时刻的解码状态,初始时刻的解码状态可以根据需求进行设置,/>直接反映了与样本语句中第/>个事件相关的词,/>中的某个权重值越大,表明其对应的词与当前事件的相关性越大。
根据所述归一化权重向量确定当前时刻的解码上下文信息采用的公式包括:
;
其中,为当前时刻/>的解码上下文信息,/>为归一化权重向量/>中第/>个值。
步骤S30,根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布;
其中,预测样本语句中所含事件的类别,在预测当前事件的事件类别时会考虑样本语句中前一个事件的事件类别,能有效地利用同一语句中多个事件类别之间的相关性信息。
可选的,根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布采用的公式包括:
;
其中,为上一时刻预测的事件类别的概率分布,/>为第/>个事件类别的语义向量表示,/>为上一时刻类别预测结果的语义向量表示,/>为概率分布/>中的第/>个概率值,/>表示向量拼接操作,LSTM为从左至右的单向长短时记忆网络,/>为当前时刻/>的解码状态,/>和/>为所述事件检测模型中线性变换层的参数,/>为当前时刻/>预测的事件类别的概率分布。/>中的前/>个值分别表示当前时刻预测的各事件类别的概率,最后一个值表示非事件类别的概率。
类别序列解码过程中,当预测结果为非事件类别时,即可结束整个解码过程;当时,即预测样本语句中的第一个事件的类别时,初始时刻的解码状态和预测的事件类别的概率分布均可以初始化为随机向量。
需要说明的是,也可以取概率分布/>中最大的概率值对应的事件类别的语义向量表示。本实施例中,使用全部事件类别的语义向量的加权求和代替最大的概率值对应的事件类别的语义向量表示,有利于缓解错误传播问题。
取每一时刻预测得到的概率分布中的最大概率值对应的事件类别,作为对应时刻的解码结果。
步骤S40,根据各解码时刻对应的归一化权重向量确定第一模型损失,并根据各解码时刻预测的事件类别的概率分布确定第二模型损失;
可选的,根据各解码时刻对应的归一化权重向量确定第一模型损失采用的公式(基于权重约束的代价函数)包括:
;
其中,为所述第一模型损失,/>为第一子模型损失,/>为第二子模型损失,/>为所述样本语句中包含事件的数量,/>分别为不同解码时刻对应的归一化权重向量,/>为不同解码时刻对应的归一化权重向量组成的矩阵,/>为矩阵转置操作,/>为单位矩阵,/>为矩阵的二范数,Entropy为信息熵计算函数。模型训练时,通过最小化/>,可以达到稀疏化权重向量的目的,从而使得预测某个事件的类别时只关注句子中少量的词,通过最小化/>,可以达到使任意两个权重向量尽量正交的目的,从而使得预测同一语句中不同事件的类别时关注不同的词。
进一步地,根据各解码时刻预测的事件类别的概率分布确定第二模型损失采用的公式(基于序列解码的代价函数)包括:
;
其中,为所述第二模型损失,/>和/>分别为/>和/>中的第/>个概率值,/>为当前时刻/>对应的真实事件类别的独热编码表示。
本实施例中,定义了一种基于权重约束的代价函数,其定义了稀疏性正则化代价和正交正则化代价两部分,将基于权重约束的代价和常用的基于序列解码的代价进行加权求和,得到模型的总训练代价。稀疏性正则化代价函数和正交正则化代价函数对应的输出值分别为和/>。
步骤S50,根据所述第一模型损失和所述第二模型损失确定模型总损失,并根据所述模型总损失对所述事件检测模型进行训练,直至收敛;
可选的,根据所述第一模型损失和所述第二模型损失确定模型总损失采用的公式包括:
;
其中,该模型总损失定义为基于权重约束的代价和基于序列解码的代价的线性加权求和,为模型总损失,/>为基于权重约束的代价对应的权重系数。
步骤S60,将待检测语句输入训练后的所述事件检测模型进行事件检测,得到事件检测结果。
本实施例中,通过上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布,使得训练后的事件检测模型,在预测待检测语句中当前的事件类别时,会考虑句子中前一个事件的事件类别,以利用待检测语句中多个事件类别之间的相关性信息进行事件检测,提高了事件检测的准确率。
实施例二
请参阅图2,是本发明第二实施例提供的无触发词的事件检测***100的结构示意图,包括:融合上下文信息的第一编码模块10、融合类别信息的第二编码模块11、基于注意力机制的选择模块12、类别序列解码模块13、模型训练模块14和事件检测模块15,其中:
融合上下文信息的第一编码模块10,用于将样本语句输入事件检测模型进行上下文信息编码,得到词的第一语义向量表示。其中,样本语句表示为,/>和分别表示样本语句中第/>个样本词和样本词的数量。
可选的,融合上下文信息的第一编码模块10还用于:对样本语句中的各样本词进行向量映射,得到各样本词的初始语义向量表示;
根据融合上下文信息的第一编码模块10中的Transformer层对各初始语义向量表示进行特征融合,得到词的第一语义向量表示;
其中,该融合上下文信息的第一编码模块10包括多个层叠的Transformer层,以各样本词为输入,学习融合句子级上下文信息的词的第一语义向量表示,计算公式如下:
;
其中,为/>个层叠的Transformer层,/>为各样本词对应的初始语义向量表示,/>表示分别融合了上下文信息的词的第一语义向量表示,每个Transformer层中包括一个多头自注意力机制层和一个前馈神经网络层,其基于多头自注意力机制层建模样本语句中任意距离的样本词之间的依赖,基于前馈神经网络层融合与词相关的上下文信息。优选的,可以使用预训练好的BERT模型等大模型中Transformer层的参数初始化融合上下文信息的第一编码模块10。
融合类别信息的第二编码模块11,用于对各词的第一语义向量表示进行类别信息编码,得到词的第二语义向量表示。其中,将词的第一语义向量表示输入融合类别信息的第二编码模块11进行类别信息编码,该融合类别信息的第二编码模块11用于融合类别信息,该融合类别信息的第二编码模块11由一个类别注意力机制层和一个BiLSTM层(双向长短时记忆网络)组成,以样本词的词的第一语义向量表示为输入,输出融合了类别信息的词的第二语义向量表示。类别注意力机制层用于将类别的语义表示融合到相关词的语义表示中,BiLSTM层可以更好地建模句子中的词序信息。
进一步地,对各词的第一语义向量表示进行类别信息编码采用的公式包括:
;
其中,是各事件类别的语义向量表示,/>是非事件类别的语义向量表示,/>是由/>和/>构成的矩阵,/>为事件类别的总数量,/>为所述事件检测模型中的类别注意力机制层,/>为与样本语句中第/>个样本词相关的类别信息的表示,/>用作类别注意力机制层中的查询,/>和/>分别为类别注意力机制层中的键和值,/>和/>为类别注意力机制层中需要学习的参数,/>为所述样本语句中第/>个样本词对应的词的第一语义向量表示,/>表示向量拼接操作,/>为/>和/>拼接后得到的临时向量,/>分别为所述样本语句中各样本词对应的词的第二语义向量表示,BiLSTM为双向长短时记忆网络。各事件类别的语义向量表示/>可以随机初始化,也可以使用类别名称中的词的向量表示进行初始化,非事件类别的语义向量表示可以随机初始化。在训练的过程中,把/>和/>作为模型的参数进行优化。
基于注意力机制的选择模块12,用于根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化,得到归一化权重向量,并根据所述归一化权重向量确定当前时刻的解码上下文信息。
可选的,根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化采用的公式包括:
;
其中,sim为计算两个向量间相似度的函数,为未归一化的权重向量,softmax为归一化函数,/>为归一化权重向量,可以看作一个概率分布,/>为所述上一时刻的解码状态,初始时刻的解码状态可以根据需求进行设置,/>直接反映了与样本语句中第/>个事件相关的词,/>中的某个权重值越大,表明其对应的词与当前事件的相关性越大。
根据所述归一化权重向量确定当前时刻的解码上下文信息采用的公式包括:
;
其中,为当前时刻/>的解码上下文信息,/>是所述样本语句中样本词的数量。
类别序列解码模块13,根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布。
其中,预测样本语句中所含事件的类别,在预测当前事件的事件类别时会考虑样本语句中前一个事件的事件类别,能有效地利用同一语句中多个事件类别之间的相关性信息。
本实施例中,根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布采用的公式包括:
;
其中,为上一时刻预测的事件类别的概率分布,/>为第/>个事件类别的语义向量表示,/>为上一时刻类别预测结果的语义向量表示,/>为概率分布/>中的第/>个概率值,/>表示向量拼接操作,LSTM为从左至右的单向长短时记忆网络,/>为当前时刻/>的解码状态,/>和/>为所述事件检测模型中线性变换层的参数,/>为当前时刻/>预测的事件类别的概率分布。/>中的前/>个值分别表示当前时刻预测的各事件类别的概率,最后一个值表示非事件类别的概率。
类别序列解码过程中,当预测结果为非事件类别时,即可结束整个解码过程;当时,即预测样本语句中的第一个事件的类别时,初始时刻的解码状态和预测的事件类别的概率分布均可以初始化为随机向量。
需要说明的是,也可以取概率分布/>中最大的概率值对应的事件类别的语义向量表示。本实施例中,使用全部事件类别的语义向量的加权求和代替最大的概率值对应的事件类别的语义向量表示,有利于缓解错误传播问题。
取每一时刻预测得到的概率分布中的最大概率值对应的事件类别,作为对应时刻的解码结果。
模型训练模块14,用于根据各解码时刻对应的归一化权重向量确定第一模型损失,并根据各解码时刻预测的事件类别的概率分布确定第二模型损失;
根据所述第一模型损失和所述第二模型损失确定模型总损失,并根据所述模型总损失对所述事件检测模型进行训练,直至收敛。
可选的,根据各解码时刻对应的归一化权重向量确定第一模型损失采用的公式(基于权重约束的代价函数)包括:
;
其中,为所述第一模型损失,/>为第一子模型损失,/>为第二子模型损失,/>为所述样本语句中包含事件的数量,/> 分别为不同解码时刻对应的归一化权重向量,/>为不同解码时刻对应的归一化权重向量组成的矩阵,/>为矩阵转置操作,/>为单位矩阵,/>为矩阵的二范数,Entropy为信息熵计算函数。模型训练时,通过最小化/>,可以达到稀疏化权重向量的目的,从而使得预测某个事件的类别时只关注句子中少量的词,通过最小化/>,可以达到使任意两个权重向量尽量正交的目的,从而使得预测同一语句中不同事件的类别时关注不同的词。
进一步地,根据各解码时刻预测的事件类别的概率分布确定第二模型损失采用的公式(基于序列解码的代价函数)包括:
;
其中,为所述第二模型损失,/>和/>分别为/>和/>中的第/>个概率值,/>为当前时刻/>对应的真实事件类别的独热编码表示。
事件检测模块15,用于将待检测语句输入训练后的所述事件检测模型进行事件检测,得到事件检测结果。
请参阅图3,在无触发词的事件检测***100的模型训练过程中,先将样本语句(句子)输入融合上下文信息的第一编码模块10,进行上下文信息编码,得到词的第一语义向量表示,将词的第一语义向量表示输入融合类别信息的第二编码模块11进行类别信息编码,得到词的第二语义向量表示,在基于注意力机制的选择模块12中,根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化,得到归一化权重向量,根据归一化权重向量确定当前时刻的解码上下文信息,在类别序列解码模块13中,根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布,在模型训练模块14中,根据各解码时刻对应的归一化权重向量确定第一模型损失,根据各解码时刻预测的事件类别的概率分布确定第二模型损失,根据所述第一模型损失和所述第二模型损失确定模型总损失,并根据所述模型总损失对所述事件检测模型进行训练,直至收敛。
本实施例中,通过上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布,使得训练后的事件检测模型,在预测待检测语句中当前的事件类别时,会考虑句子中前一个事件的事件类别,以利用待检测语句中多个事件类别之间的相关性信息进行事件检测,提高了事件检测的准确率。
实施例三
图4是本申请第三实施例提供的一种终端设备2的结构框图。如图4所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如无触发词的事件检测方法的程序。处理器20执行所述计算机程序22时实现上述各个无触发词的事件检测方法各实施例中的步骤。
示例性的,所述计算机程序22可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括,但不仅限于,处理器20、存储器21。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU)+图形处理器(Graphic Processing Unit,GPU)的处理单元,还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (5)
1.一种无触发词的事件检测方法,其特征在于,所述方法包括:
将样本语句输入事件检测模型进行上下文信息编码,得到词的第一语义向量表示,并对各词的第一语义向量表示进行类别信息编码,得到词的第二语义向量表示;
根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化,得到归一化权重向量,并根据所述归一化权重向量确定当前时刻的解码上下文信息;
根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布;
根据各解码时刻对应的归一化权重向量确定第一模型损失,并根据各解码时刻预测的事件类别的概率分布确定第二模型损失;
根据所述第一模型损失和所述第二模型损失确定模型总损失,并根据所述模型总损失对所述事件检测模型进行训练,直至收敛;
将待检测语句输入训练后的所述事件检测模型进行事件检测,得到事件检测结果;
对各词的第一语义向量表示进行类别信息编码采用的公式包括:
;
其中,是各事件类别的语义向量表示,/>是非事件类别的语义向量表示,/>是由/>和/>构成的矩阵,M为事件类别的总数量,/>为所述事件检测模型中的类别注意力机制层,/>为所述样本语句中第/>个样本词对应的词的第一语义向量表示,/>用作类别注意力机制层中的查询,/>和/>分别为类别注意力机制层中的键和值,/>和/>为类别注意力机制层中需要学习的参数,/>为与样本语句中第/>个样本词相关的类别信息的表示,/>表示向量拼接操作,/>为/>和/>拼接后得到的临时向量,/>分别为所述样本语句中各样本词对应的词的第二语义向量表示,BiLSTM为双向长短时记忆网络,N是所述样本语句中样本词的数量;
根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化采用的公式包括:
;
其中,sim为计算两个向量间相似度的函数,为未归一化的权重向量,softmax为归一化函数,/>为归一化权重向量,/>为所述上一时刻的解码状态;
根据所述归一化权重向量确定当前时刻的解码上下文信息采用的公式包括:
;
其中,为当前时刻/>的解码上下文信息,/>为归一化权重向量/>中第/>个值;
根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布采用的公式包括:
;
其中,为上一时刻预测的事件类别的概率分布,/>为第/>个事件类别的语义向量表示,/>为上一时刻类别预测结果的语义向量表示,/>为概率分布/>中的第/>个概率值,/>表示向量拼接操作,LSTM为从左至右的单向长短时记忆网络,/>为当前时刻/>的解码状态,/>和/>为所述事件检测模型中线性变换层的参数,/>为当前时刻/>预测的事件类别的概率分布。
2.如权利要求1所述的无触发词的事件检测方法,其特征在于,所述将样本语句输入事件检测模型进行上下文信息编码,得到词的第一语义向量表示,包括:
将所述样本语句输入所述事件检测模型中的第一编码网络,并根据所述第一编码网络对所述样本语句中的各样本词进行向量映射,得到各样本词的初始语义向量表示;
根据所述第一编码网络中的Transformer层对各初始语义向量表示进行特征融合,得到所述词的第一语义向量表示。
3.如权利要求1所述的无触发词的事件检测方法,其特征在于,根据各解码时刻对应的归一化权重向量确定第一模型损失采用的公式包括:
;
其中,为所述第一模型损失,/>为第一子模型损失,/>为第二子模型损失,Z为所述样本语句中包含事件的数量,/>分别为不同解码时刻对应的归一化权重向量,A为不同解码时刻对应的归一化权重向量组成的矩阵,T为矩阵转置操作,/>为单位矩阵,为矩阵的二范数,Entropy为信息熵计算函数。
4.如权利要求3所述的无触发词的事件检测方法,其特征在于,根据各解码时刻预测的事件类别的概率分布确定第二模型损失采用的公式包括:
;
其中,为所述第二模型损失,/>和/>分别为/>和/>中的第/>个概率值,/>为当前时刻/>对应的真实事件类别的独热编码表示;
根据所述第一模型损失和所述第二模型损失确定模型总损失采用的公式包括:
;
其中,为所述模型总损失,/>为权重系数。
5.一种无触发词的事件检测***,其特征在于,应用如上述权利要求1至4任一项所述的无触发词的事件检测方法,所述***包括:
融合上下文信息的第一编码模块,用于将样本语句输入事件检测模型进行上下文信息编码,得到样本语句中词的词的第一语义向量表示;
融合类别信息的第二编码模块,用于对各词的第一语义向量表示进行类别信息编码,得到词的第二语义向量表示;
基于注意力机制的选择模块,用于根据上一时刻的解码状态和各词的第二语义向量表示计算权重向量并归一化,得到归一化权重向量,并根据所述归一化权重向量确定当前时刻的解码上下文信息;
类别序列解码模块,用于根据上一时刻的解码状态和预测的事件类别的概率分布、当前时刻的解码上下文信息,计算当前时刻的解码状态和预测的事件类别的概率分布;
模型训练模块,用于根据各解码时刻对应的归一化权重向量确定第一模型损失,并根据各解码时刻预测的事件类别的概率分布确定第二模型损失;
根据所述第一模型损失和所述第二模型损失确定模型总损失,并根据所述模型总损失对所述事件检测模型进行训练,直至收敛;
事件检测模块,用于将待检测语句输入训练后的所述事件检测模型进行事件检测,得到事件检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310975299.1A CN116701576B (zh) | 2023-08-04 | 2023-08-04 | 无触发词的事件检测方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310975299.1A CN116701576B (zh) | 2023-08-04 | 2023-08-04 | 无触发词的事件检测方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116701576A CN116701576A (zh) | 2023-09-05 |
CN116701576B true CN116701576B (zh) | 2023-10-10 |
Family
ID=87824305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310975299.1A Active CN116701576B (zh) | 2023-08-04 | 2023-08-04 | 无触发词的事件检测方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701576B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069811A (zh) * | 2020-08-24 | 2020-12-11 | 武汉大学 | 多任务交互增强的电子文本事件抽取方法 |
CN112307740A (zh) * | 2020-12-30 | 2021-02-02 | 中国人民解放军国防科技大学 | 一种基于混合注意力网络的事件检测方法及装置 |
CN113239142A (zh) * | 2021-04-26 | 2021-08-10 | 昆明理工大学 | 融合句法信息的无触发词事件检测方法 |
CN113468333A (zh) * | 2021-09-02 | 2021-10-01 | 华东交通大学 | 一种融合层次类别信息的事件检测方法与*** |
CN113901209A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于类型感知的汉越跨语言事件检测方法 |
CN114548101A (zh) * | 2022-04-25 | 2022-05-27 | 北京大学 | 基于可回溯序列生成方法的事件检测方法和*** |
CN115470772A (zh) * | 2022-08-26 | 2022-12-13 | 昆明理工大学 | 一种用于事件检测的语义感知方法 |
CN115510236A (zh) * | 2022-11-23 | 2022-12-23 | 中国人民解放军国防科技大学 | 基于信息融合和数据增强的篇章级事件检测方法 |
CN115757775A (zh) * | 2022-11-05 | 2023-03-07 | 内蒙古大学 | 基于文本蕴含的无触发词文本事件检测方法及*** |
WO2023050470A1 (zh) * | 2021-09-30 | 2023-04-06 | 深圳市检验检疫科学研究院 | 一种基于多层图注意力网络的事件检测方法及装置 |
CN115964497A (zh) * | 2023-02-23 | 2023-04-14 | 南京理工大学 | 一种融合注意力机制与卷积神经网络的事件抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9811989B2 (en) * | 2014-09-30 | 2017-11-07 | The Boeing Company | Event detection system |
CN112507700A (zh) * | 2020-11-26 | 2021-03-16 | 北京百度网讯科技有限公司 | 事件抽取方法、装置、电子设备及存储介质 |
-
2023
- 2023-08-04 CN CN202310975299.1A patent/CN116701576B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069811A (zh) * | 2020-08-24 | 2020-12-11 | 武汉大学 | 多任务交互增强的电子文本事件抽取方法 |
CN112307740A (zh) * | 2020-12-30 | 2021-02-02 | 中国人民解放军国防科技大学 | 一种基于混合注意力网络的事件检测方法及装置 |
CN113239142A (zh) * | 2021-04-26 | 2021-08-10 | 昆明理工大学 | 融合句法信息的无触发词事件检测方法 |
CN113468333A (zh) * | 2021-09-02 | 2021-10-01 | 华东交通大学 | 一种融合层次类别信息的事件检测方法与*** |
CN113901209A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于类型感知的汉越跨语言事件检测方法 |
WO2023050470A1 (zh) * | 2021-09-30 | 2023-04-06 | 深圳市检验检疫科学研究院 | 一种基于多层图注意力网络的事件检测方法及装置 |
CN114548101A (zh) * | 2022-04-25 | 2022-05-27 | 北京大学 | 基于可回溯序列生成方法的事件检测方法和*** |
CN115470772A (zh) * | 2022-08-26 | 2022-12-13 | 昆明理工大学 | 一种用于事件检测的语义感知方法 |
CN115757775A (zh) * | 2022-11-05 | 2023-03-07 | 内蒙古大学 | 基于文本蕴含的无触发词文本事件检测方法及*** |
CN115510236A (zh) * | 2022-11-23 | 2022-12-23 | 中国人民解放军国防科技大学 | 基于信息融合和数据增强的篇章级事件检测方法 |
CN115964497A (zh) * | 2023-02-23 | 2023-04-14 | 南京理工大学 | 一种融合注意力机制与卷积神经网络的事件抽取方法 |
Non-Patent Citations (3)
Title |
---|
Tongtao Ling 等.Sentence-level Event Detection without Trigger via Prompt Learning and Machine Reading Comprehension.arXiv.org.2023,第1-14页. * |
陈佳丽 ; 洪宇 ; 王捷 ; 张婧丽 ; 姚建民 ; .利用门控机制融合依存与语义信息的事件检测方法.中文信息学报.2020,(08),第51-60页. * |
马晨曦 ; 陈兴蜀 ; 王文贤 ; 王海舟 ; .基于递归神经网络的中文事件检测.信息网络安全.2018,(05),第75-81页. * |
Also Published As
Publication number | Publication date |
---|---|
CN116701576A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN110765785B (zh) | 基于神经网络的中英翻译方法、及其相关设备 | |
CN111814466A (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
CN111680494B (zh) | 相似文本的生成方法及装置 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN116304748B (zh) | 一种文本相似度计算方法、***、设备及介质 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
US20230120631A1 (en) | Neural network model training method, apparatus, and device, image classification method, apparatus, and device, and text translation method, apparatus, and device | |
CN115080749B (zh) | 一种基于自监督训练的弱监督文本分类方法、***和装置 | |
CN113239702A (zh) | 意图识别方法、装置、电子设备 | |
CN115795038A (zh) | 基于国产化深度学习框架的意图识别方法和装置 | |
CN115437626A (zh) | 一种基于自然语言的ocl语句自动生成方法和装置 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN116089586B (zh) | 基于文本的问题生成方法及问题生成模型的训练方法 | |
CN117271701A (zh) | 一种基于tggat和cnn的***运行异常事件关系抽取方法及*** | |
CN116701576B (zh) | 无触发词的事件检测方法和*** | |
CN116484851A (zh) | 基于变异字符检测的预训练模型训练方法及装置 | |
CN114881003A (zh) | 一种文本相似度识别方法、装置及应用 | |
CN113947083A (zh) | 一种文档级别命名实体识别方法 | |
CN116562305B (zh) | 方面情感四元组预测方法与*** | |
CN116383883B (zh) | 一种基于大数据的数据管理权限处理方法及*** | |
CN117971357B (zh) | 有限状态自动机验证方法、装置、电子设备及存储介质 | |
CN117591666B (zh) | 针对桥梁管养文档的摘要抽取方法 | |
CN112199953B (zh) | 一种电话通话中信息提取方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |