CN111221966A

CN111221966A - 一种文本语义关系提取方法及***

Info

Publication number: CN111221966A
Application number: CN201911412034.0A
Authority: CN
Inventors: 徐家慧; 张晓营; 武毅; 林海峰; 殷智; 王刚; 王燕
Original assignee: Beijing Kedong Electric Power Control System Co Ltd
Current assignee: Beijing Kedong Electric Power Control System Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-02

Abstract

本发明公开了一种文本语义关系提取方法及***，获取文本信息，将文本信息向量化，提取文本局部特征；将文本局部特征输入至预先训练好的双向LSTM模型，引入注意力机制对双向LSTM模型的输入与输出之间的相关性进行重要度计算，根据重要度获取文本整体特征；将局部特征和整体特征进行特征融合，通过分类器输出分类结果。优点：基于长短期记忆模型（LSTM）网络，并引入注意力机制算法，采用LSTM模型来避免CNN和RNN的长距离依赖问题，并采用注意力机制更好地考虑了模型输入和输出的相关性问题，充分提取文本局部特征对实体概念进行提取，提升电网检修本体概念提取的速度和准确率。

Description

一种文本语义关系提取方法及***

技术领域

本发明涉及一种文本语义关系提取方法及***，属于本体概念提取技术领域。

背景技术

随着网络技术的快速发展，互联网为人们创造了一个很好的交互平台。如何有效地在海量的网络大数据中为用户提取出有价值的信息，也面临着巨大的挑战。基于语义的信息处理能有效地解决上述问题。作为一种共享的概念化模型，本体在语义分析中起着至关重要的作用。领域本体学习是一种针对特定的领域自动的获取该领域本体中的概念和概念间关系的学习方法，随着电网行业与互联网信息技术的迅速发展，电网检修对领域本体的自动学习提出了更高、更大的需求。

在我国电网检修领域，一些研究人员已将本体和语义网技术应用于电网检修应急管理领域，通过“领域词典”构建了应急决策领域本体，该本体以领域本体为基础，通过基于语义查询转换和语义检索与推理实现了应急检修初始方案的生成，提高了应急决策的智能性。

随着时代的进步和发展，现有的领域本体已经不足以支持电网检修领域知识的表达，丰富领域本体知识并提升本体提取的准确率已经成为一个迫切需要解决的问题。另外，手工进行本体构建是一个既费时又低效的工作，如何有效的提高本体自动更新的效率是当前需要克服的技术难题。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种文本语义关系提取方法及***。

为解决上述技术问题，本发明提供一种文本语义关系提取方法，

获取文本信息，将文本信息向量化，提取文本局部特征；

将文本局部特征输入至预先训练好的双向LSTM模型，引入注意力机制对双向LSTM模型的输入与输出之间的相关性进行重要度计算，根据重要度确定文本整体特征；

将局部特征和整体特征进行特征融合，通过分类器输出分类结果。

进一步的，所述双向LSTM模型的训练过程为：

获取LSTM训练样本，采集电网调度日检修申请票数据和调度日志，作为 LSTM训练样本；电网调度日检修申请票和调度日志可以从调度***中获得，针对一张检修票或调度日志，应该收集的数据包括：设备信息、设备参数、故障信息、检修方式等；

使用LSTM训练样本训练双向LSTM模型：

其中，i_t，f_t，c_t，o_t，h_t分别是LSTM的输入门，遗忘门，记忆，输出门和隐藏状态的变量，g_t表示当前输入的单元状态，σ表示逻辑sigmoid激活函数， tanh表示输出的激活函数，T_D+m+n，n表示用学习到的参数所定义的实数空间 RD+m+n到Rn的仿射变换，D表示提取器提取的样本向量维度，m和n分别表示嵌入矩阵和LSTM网络矩阵维度，E表示嵌入矩阵，E∈R^m*K，R表示实数集合，K表示样本词汇量，y_t-1表示前一时刻的语义释义中间变量，

表示随机变量，z是上下文向量，z∈R^D；

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_ttanh(c_t)

⊙表示元素乘法，c_t-1为注意力模型上一时刻状态。

进一步的，通过下式确定c_t，

其中，

a_tj为注意力机制给所有特征向量赋予的权重，h_j为LSTM神经网络输出的特征向量序列，T表示特征向量总数，j表示第j个特征向量，exp(e_tj)表示以自然常数e为底的指数函数，e_tj表示输出特征值是对齐模型，代表时刻t的输入和时刻j的输出匹配程度的分数，e_tk同理，a表示计算e_tj的函数，v_a为全局的权值， w_a为上一时刻注意力机制的状态的权值，u_a为上一时刻的特征向量的权值。

一种文本语义关系提取***，包括获取模块、确定模块和输出模块；

所述括获取模块，用于获取文本信息，将文本信息向量化，提取文本局部特征；

所述确定模块，用于将文本局部特征输入至预先训练好的双向LSTM模型，引入注意力机制对双向LSTM模型的输入与输出之间的相关性进行重要度计算，根据重要度确定文本整体特征；

所述输出模块，用于将局部特征和整体特征进行特征融合，通过分类器输出分类结果。

进一步的，所述确定模块包括训练模块，用于获取LSTM训练样本，采集电网调度日检修申请票数据和调度日志，作为LSTM训练样本；

使用LSTM训练样本训练双向LSTM模型：

表示随机变量，z是上下文向量，z∈R^D；

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_ttanh(c_t)

⊙表示元素乘法，c_t-1为注意力模型上一时刻状态。

进一步的，所述训练模块包括记忆变量确定模块，用于通过下式确定c_t，

其中，

本发明所达到的有益效果：

基于长短期记忆模型(LSTM)网络，并引入注意力机制算法，采用LSTM 模型来避免CNN和RNN的长距离依赖问题，并采用注意力机制更好地考虑了模型输入和输出的相关性问题，充分提取文本局部特征对实体概念进行提取，提升电网检修本体概念提取的速度和准确率,依据本体概念和关系提取，制定更科学化的电网检修方案，运用最为妥帖的检修方式，最大程度地减少人、财、物的消耗，提高检修效率，继而有效地提高电网安全运行水平和供电可靠性，提高社会效益和供电企业自身的经济效益。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面通过具体实施方式来进一步说明本发明的技术方案。

一种将长短期记忆模型(LSTM)与注意力机制(Attention Mechanism)相结合的关系提取方法，首先将文本信息向量化，提取文本局部特征；然后将文本局部特征导入双向LSTM模型中，引入注意力机制对LSTM模型的输入与输出之间的相关性进行重要度计算，根据重要度获取文本整体特征；再将局部特征和整体特征进行特征融合，通过分类器输出分类结果。

使用LSTM训练样本：

i_t，f_t，c_t，o_t，h_t分别是LSTM的输入门，遗忘门，记忆，输出门和隐藏状态的变量。向量z∈R^D是上下文向量，捕获与特定输入位置相关联的视觉信息，如下所述。E∈R^m*K是嵌入矩阵，m和n分别表示嵌入矩阵和LSTM 网络矩阵维度，σ和⊙表示逻辑sigmoid激活函数和元素乘法，

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_ttanh(c_t)

定义x₁，x₂，x₃，…x_T-1，x_T为LSTM神经网络输入的字词联合向量序列；a_tj为注意力机制给所有特征向量赋予的权重，公式如下：

式中：c_t-1为注意力模型上一时刻状态；v_a为全局的权值；h_j为LSTM神经网络输出的特征向量序列；u_a为上一时刻的特征向量的权值；w_a为上一时刻注意力机制的状态的权值

注意力机制模型最后的输出状态c_t计算方法:

其中，h_j表示LSTM神经网络输出的特征向量序列；a_tj为注意力机制给所有特征向量赋予的权重，对于a_tj的计算，在编码和解码阶段采用的模型不同有着不同的计算方式。

相应的本发明提供一种文本语义关系提取***，包括获取模块、确定模块和输出模块；

所述确定模块包括训练模块，用于获取LSTM训练样本，采集电网调度日检修申请票数据和调度日志，作为LSTM训练样本；

使用LSTM训练样本训练双向LSTM模型：

表示随机变量，z是上下文向量，z∈R^D；

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_ttanh(c_t)

⊙表示元素乘法，c_t-1为注意力模型上一时刻状态。

所述双向LSTM模型的训练过程，主要是对电网检修信息进行分词，提取文本实体特征，然后将这些实体特征和文本信息转化为词向量。通过训练好的双向LSTM模型，提取训练样本的特征数据，包括检修的设备信息、故障信息、检修方式等，设备信息包括设备名称、设备类型、设备厂家、设备电压等级等信息。

所述训练模块包括记忆变量确定模块，用于通过下式确定c_t，

其中，

a_tj为注意力机制给所有特征向量赋予的权重，h_j为LSTM神经网络输出的特征向量序列，T表示特征向量总数，j表示第j个特征向量，exp(e_tj)表示以自然常数e为底的指数函数，e_tj表示输出特征值是对齐模型，代表时刻t的输入和时刻j的输出匹配程度的分数，e_tk同理，a表示计算e_tj的函数，v_a为全局的权值，w_a为上一时刻注意力机制的状态的权值，u_a为上一时刻的特征向量的权值。

本专利采用LSTM模型来避免CNN和RNN的长距离依赖问题，并采用注意力机制更好地考虑了模型输入和输出的相关性问题，更有效地进行关系提取。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)来描述的。应理解可由计算机程序指令实现每一流程。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在一个流程或多个流程中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在一个流程或多个流程中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现一个流程或多个流程中指定的功能的步骤。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本语义关系提取方法，其特征在于，

获取文本信息，将文本信息向量化，提取文本局部特征；

2.根据权利要求1所述的文本语义关系提取方法，其特征在于，所述双向LSTM模型的训练过程为：

获取LSTM训练样本，采集电网调度日检修申请票数据和调度日志，作为LSTM训练样本；

使用LSTM训练样本训练双向LSTM模型：

其中，i_t，f_t，c_t，o_t，h_t分别是LSTM的输入门，遗忘门，记忆，输出门和隐藏状态的变量，g_t表示当前输入的单元状态，σ表示逻辑sigmoid激活函数，tanh表示输出的激活函数，T_D+m+n，n表示用学习到的参数所定义的实数空间RD+m+n到Rn的仿射变换，D表示提取器提取的样本向量维度，m和n分别表示嵌入矩阵和LSTM网络矩阵维度，E表示嵌入矩阵，E∈R^m*K，R表示实数集合，K表示样本词汇量，y_t-1表示前一时刻的语义释义中间变量，