CN107943847A

CN107943847A - 企业关系提取方法、装置及存储介质

Info

Publication number: CN107943847A
Application number: CN201711061205.0A
Authority: CN
Inventors: 徐冰; 汪伟; 罗傲雪; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-04-20
Anticipated expiration: 2037-11-02
Also published as: CN107943847B; WO2019085328A1

Abstract

本发明公开了一种企业关系提取方法、装置及存储介质，该方法包括：从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库；从样本库中抽取包含一个企业实体对的所有训练样句并分词，将每个词映射成词向量x_i，映射成句子向量S_i；用LSTM计算词向量x_i的第一隐藏层状态向量h_i和第二隐藏层状态向量h_i’，拼接得到综合隐藏层状态向量，再得到特征向量T_i；将特征向量T_i代入平均向量表达式算出平均向量S；将平均向量S及企业实体对的关系类型代入softmax分类函数算出每个训练样句的权重a_i；提取包含两个企业实体的句子，经过bi‑LSTM得到特征向量T_i，输入到训练好的RNN模型，预测该两个企业的关系，减少人工成本，更准确的预测该两个企业实体间的关系。

Description

企业关系提取方法、装置及存储介质

技术领域

本发明涉及数据信息处理技术领域，尤其涉及一种企业关系提取方法、装置及计算机可读存储介质。

背景技术

识别新闻中不同企业之间的关联，如资金往来、供应链、合作等，对企业风险预警有很重大的意义。然而现在常见的实体关系抽取方法需要人工进行大量训练数据的标注，而语料标注工作一般非常耗时耗力。

发明内容

鉴于以上内容，本发明提供一种企业关系提取方法、装置及计算机可读存储介质，可以将基于卷积神经网络的关系提取模型扩展到远程监督数据上，有效地减少模型对人工标注数据的依赖，而且这种有监督的企业关系提取方法相比于半监督或无监督方法具有更好的准确率和召回率。

为实现上述目的，本发明提供一种企业关系提取方法，该方法包括：

样本库建立步骤：从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库；

分词步骤：从样本库中抽取包含一个企业实体对的所有训练样句，使用预设的分词工具对每个训练样句进行分词，将分词后的每个词映射成词向量x_i，并将每个训练样句映射成句子向量S_i，作为循环神经网络模型第一层的输入；

拼接步骤：在循环神经网络模型的第二层，用长短期记忆模块从左向右计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左计算当前词向量x_i的第二隐藏层状态向量h_i’，通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量，再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量T_i；

计算步骤：在循环神经网络模型的第三层，根据每个训练样句的特征向量T_i，利用平均向量表达式算出每个训练样句的平均向量S；

权重确定步骤：在循环神经网络模型的最后一层，将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重a_i；

预测步骤：从当前文本中提取包含两个企业实体的句子，经过双向长短期记忆模块得到句子的特征向量T_i，将该特征向量T_i输入上述训练好的循环神经网络模型，预测得到该两个企业实体间的关系。

优选地，所述分词步骤包括：

对分词后的每个词以one-hot向量的形式表示，得到初始词向量，并为每个训练样句标注句子ID，将句子ID映射为对应训练样句的初始句子向量，将该初始句子向量和该训练样句中某个词的左、右邻接词的初始词向量输入所述连续词袋模型，预测得到该词的词向量x_i，每次预测更新该训练样句的句子向量，直至预测得到该训练样句中每个词的词向量x_i，以最后一次更新后的句子向量作为该训练样句的句子向量S_i。

优选地，所述拼接步骤包括：

从左向右根据当前词向量x_i的前一个词向量x_i-1的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据当前词向量x_i的后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’。

优选地，所述平均向量表达式为：

S＝sum(a_i*T_i)/n

其中a_i代表训练样句的权重，T_i代表每个训练样句的特征向量，n代表训练样句的数量。

优选地，所述softmax分类函数表达式为：

其中K代表企业关系类型的个数，S代表需要预测企业关系类型的平均向量，代表某种企业关系类型，σ(z)_j代表需要预测的企业关系类型在每个企业关系类型中的概率。

此外，本发明还提供一种电子装置，该电子装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业关系提取程序，所述企业关系提取程序被所述处理器执行，可实现如下步骤：

优选地，所述拼接步骤包括：

用长短期记忆模块从左向右根据当前词向量x_i的前一个词向量x_i-1的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据当前词向量x_i的后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’。

优选地，所述平均向量表达式为：

S＝sum(a_i*T_i)/n

优选地，所述softmax分类函数表达式为：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括企业关系提取程序，所述企业关系提取程序被处理器执行时，可实现如上所述企业关系提取方法中的任意步骤。

本发明提出的企业关系提取方法、电子装置及计算机可读存储介质，从非结构化文本中抽取知识库中存在关系的企业实体对的句子作为训练样句并建立样本库。接着在样本库抽取包含一个企业实体对的所有训练样句，并对每个训练样句进行分词，得到每个训练样句的句子向量S_i，通过长短期记忆模块算出每个训练样句的特征向量T_i。然后根据每个训练样句的特征向量T_i，计算每个训练样句的平均向量S，将平均向量S代入softmax分类函数进行计算，根据企业实体对的关系类型确定训练样句的权重a_i。最后从当前文本中提取包含两个企业实体的句子，经过双向长短期记忆模块得到句子的特征向量T，将该特征向量T输入训练好的循环神经网络模型，预测该两个企业实体间的关系，提高在新闻中对不同企业间关系的识别能力，减少对人工进行训练数据标注的依赖。

附图说明

图1为本发明电子装置较佳实施例的示意图；

图2为图1中企业关系提取程序较佳实施例的模块示意图；

图3为本发明企业关系提取方法较佳实施例的流程图；

图4为本发明预测模块的框架图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，是本发明电子装置1较佳实施例的示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、个人电脑、便携计算机以及其他具有运算功能的电子设备。

该电子装置1包括：存储器11、处理器12、知识库13、网络接口14及通信总线15。其中，知识库13存储在存储器11上，从知识库13中抽取出含有企业实体对的句子作为训练样句建立样本库。

其中，网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。通信总线15用于实现这些组件之间的连接通信。

存储器11至少包括一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述存储器11可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述存储器11也可以是所述电子装置1的外部存储单元，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11不仅可以用于存储安装于所述电子装置1的应用软件及各类数据，例如企业关系提取程序10、知识库13和样本库，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其它数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行企业关系提取程序10的计算机程序代码和各类模型的训练等。

优选地，该电子装置1还可以包括显示器，显示器可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-Emitting Diode，有机发光二极管)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面，如：显示模型训练的结果及权重a_i的最优值。

优选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中存储企业关系提取程序10的程序代码，处理器12执行企业关系提取程序10的程序代码时，实现如下步骤：

本实施例中，假设两个企业实体在知识库中存在某种关系，则包含该两个企业实体的非结构化句子均能表示出这种关系。因此，当我们需要识别新闻中某两个企业实体之间的关联时，从知识库中抽出包含该两个企业实体的所有非结构化句子，将所述句子作为训练样句建立样本库。其中，所述知识库是通过收集历史新闻数据中包含任意两个企业实体的非结构化句子建立的。例如，需要识别新闻中某两个企业实体之间的关联，从知识库中抽取含有该两个企业实体的所有非结构化句子，并将所述句子作为训练样句建立一个样本库。其中企业实体对存在的关系包括资金往来、供应链和合作等关系。例如，句子“富士康是摩拜单车的供应商”中包含的企业实体对为“富士康”、“摩拜单车”，企业实体之间的关系“供应商”属于供应链关系。

从样本库中抽取包含一个企业实体对的所有训练样句，每个训练样句包括该对企业实体的名称和该企业实体对的关系类型，并使用分词工具对每个训练样句进行分词处理。其中，可以使用Stanford汉语分词工具、jieba分词等分词工具对每个训练样句进行分词处理。对分词后的每个词以one-hot向量的形式表示，得到初始词向量。其中one-hot向量的方法指把每个词表示为一个很长的向量，向量的维度表示词的多少，其中只有一个维度的值为1，其余维度为0，该向量代表当前词。例如，从样本库中抽取包含富士康和摩拜单车的所有训练样句，而且每个训练样句都包括富士康与摩拜单车该两个企业实体名称和该企业实体对的关系类型(供应商)。对“富士康是摩拜单车的供应商”进行分词处理，得到如下结果“富士康|是|摩拜单车|的|供应商”。如“富士康”的初始词向量为[0100000000]、“是”的初始词向量为[0010000000]。然后为每个训练样句标注ID，将句子ID映射为对应训练样句的初始句子向量。

将该初始句子向量和训练样句中某个词的左、右邻接词的初始词向量输入所述连续词袋模型，预测得到该词的词向量x_i。将所述初始句子向量更新替换为第一更新句子向量，将该第一更新句子向量和训练样句中下一个词的左、右邻接词的初始词向量输入所述连续词袋模型，预测得到该词的词向量x_i+1，将所述第一更新句子向量更新替换为第二更新句子向量，如此迭代训练，每次训练更新该训练样句的句子向量，直至预测得到训练样句中每个词的词向量x_i，i＝(0,1,2,3,...,m)，将最后一次训练更新后的句子向量作为该训练样句的句子向量S_i，i＝(0,1,2,3,...,n)。作为循环神经网络(Recurrent NeuralNetwork，RNN)模型第一层的输入。例如，将“是”的左邻接可用词“富士康”、右邻接可用词“摩拜单车”的初始词向量以及初始句子向量输入连续词袋模型，预测得到“是”的词向量x₂，对初始句子向量进行一次更新，得到第一更新句子向量；将“摩拜单车”的左邻接可用词“是”的初始词向量或当前词向量、右邻接可用词“的”的初始词向量和第一更新句子向量输入连续词袋模型，预测得到“摩拜单车”的词向量x₃，对第一更新句子向量进行更新，得到第二更新句子向量……如此迭代训练，直至预测得到上述所有可用词的词向量x_i，更新得到该训练样句的句子向量S_i。在此过程中，每个新闻语句的句子ID始终保持不变。

在RNN模型的第二层，接着用长短期记忆模块(Long Short-Term Memory，LSTM)从左向右根据当前词向量x_i的前一个词向量x_i-1的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据当前词向量x_i的后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’,通过Concatenate函数拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量，再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量T_i，i＝(0,1,2,3,...,n)。例如，“富士康是摩拜单车的供应商”句子中，用LSTM从左向右根据“富士康”的词向量x₁的隐藏层状态向量h₁计算“是”的词向量x₂的第一隐藏层状态向量h₂，并从右向左根据“摩拜单车”的词向量x₃的隐藏层状态向量h₃计算“是”的词向量x₂的第二隐藏层状态向量h₂’,通过Concatenate函数拼接两个隐藏层状态向量(h₂和h₂’)得到训练样句中每个词的综合隐藏层状态向量，再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量T_i。

在RNN模型的第三层，根据每个训练样句的特征向量T_i，利用平均向量的计算公式：S＝sum(a_i*T_i)/n，算出每个训练样句的平均向量S。其中a_i代表训练样句的权重，T_i代表每个训练样句的特征向量，n代表训练样句的数量。

在RNN模型的最后一层，将平均向量S代入到softmax分类函数：

其中K代表企业关系类型的个数，S代表需要预测企业关系类型的平均向量，代表某种企业关系类型，σ(z)_j代表需要预测的企业关系类型在每个企业关系类型中的概率。根据训练样句中企业实体对的关系类型，确定训练样句的权重a_i。通过不断地学习，不断优化训练样句的权重a_i，使得有效句子获得较高的权重，而有噪音的句子获得较小的权重。

在本实施例中，当RNN模型确定后，可以对任意一个带有企业实体对的非结构化句子进行关系预测，模型的预测和具体的企业名称没有关联。

从当前文本中提取包含两个待预测关系的企业实体的句子,并对这些句子进行分词得到句子向量。例如，S₁,S₂,S₃,S₄表示的是两个企业实体对应的句子的向量集合。经过双向长短期记忆模块(Bidirectional Long Short-term Memory，bi-LSTM)提取出各个句子的特征向量T₁,T₂,T₃,T₄，将各个句子的特征向量输入训练好的RNN模型，得到该两个企业实体间的关系预测结果。

上述实施例提出的企业关系提取方法，通过从非结构化文本中抽取知识库中存在关系的企业实体对的训练样句建立样本库。抽取样本库中包含一个企业实体对的所有训练样句并进行分词，得到每个训练样句的句子向量S_i，利用LSTM算出每个训练样句的特征向量T_i。通过平均向量的计算公式算出每个训练样句的平均向量S，将平均向量S代入softmax分类函数进行计算，根据企业实体对的关系类型确定训练样句的权重a_i。最后从当前文本中提取包含两个企业实体的句子，经过bi-LSTM得到句子的特征向量T_i，将该特征向量T_i输入训练好的RNN模型，预测该两个企业实体间的关系，不仅减少了繁琐的训练数据人工标注步骤，而且比其它监督方式有更好的准确率和召回率。

如图2所示，是图1中企业关系提取程序10较佳实施例的模块示意图。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

在本实施例中，企业关系提取程序10包括：建立模块110、分词模块120、拼接模块130、计算模块140、权重确定模块150、预测模块160，所述模块110-160所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

建立模块110，用于从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库；

分词模块120，用于从样本库中抽取包含一个企业实体对的所有训练样句，使用预设的分词工具对每个训练样句进行分词，将分词后的每个词映射成词向量x_i，并将每个训练样句映射成句子向量S_i，作为RNN模型第一层的输入；

拼接模块130，用于在RNN模型的第二层，用LSTM从左向右计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左计算当前词向量x_i的第二隐藏层状态向量h_i’，通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量，再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量T_i；

计算模块140，用于在RNN模型的第三层，根据每个训练样句的特征向量T_i，利用平均向量表达式算出每个训练样句的平均向量S；

权重确定模块150，用于在RNN模型的最后一层，将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重a_i；

预测模块160，用于从当前文本中提取包含两个企业实体的句子，经过bi-LSTM得到句子的特征向量T_i，将该特征向量T_i输入上述训练好的RNN模型，预测得到该两个企业实体间的关系。

如图3所示，是本发明企业关系提取方法较佳实施例的流程图。

在本实施例中，处理器12执行存储器11中存储的企业关系提取程序10的计算机程序时实现企业关系提取方法的如下步骤：

步骤S10，从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库；

步骤S20，从样本库中抽取包含一个企业实体对的所有训练样句，使用预设的分词工具对每个训练样句进行分词，将分词后的每个词映射成词向量x_i，并将每个训练样句映射成句子向量S_i，作为RNN模型第一层的输入；

步骤S30，在RNN模型的第二层，用LSTM从左向右计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左计算当前词向量x_i的第二隐藏层状态向量h_i’，通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量，再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量T_i；

步骤S40，在RNN模型的第三层，根据每个训练样句的特征向量T_i，利用平均向量表达式算出每个训练样句的平均向量S；

步骤S50，在RNN模型的最后一层，将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重a_i；

步骤S60，从当前文本中提取包含两个企业实体的句子，经过bi-LSTM得到句子的特征向量T_i，将该特征向量T_i输入上述训练好的RNN模型，预测得到该两个企业实体间的关系。

本实施例中，假设两个企业实体在知识库中存在某种关系，则包含该两个企业实体的非结构化句子均能表示出这种关系。当我们需要识别新闻中某两个企业实体之间的关联时，从知识库中抽出包含该两个企业实体的所有非结构化句子，将所述句子作为训练样句建立样本库。其中，所述知识库是通过收集历史新闻数据中包含任意两个企业实体的非结构化句子建立的。例如，需要识别新闻中某两个企业实体之间的关联，从知识库中抽取含有该两个企业实体的所有非结构化句子，并将所述句子作为训练样句建立一个样本库。其中企业实体对存在的关系包括资金往来、供应链和合作等关系。例如，从非结构化文本中抽取含有“富士康”和“摩拜单车”两个企业实体对的句子作为训练样句，其中句子“富士康是摩拜单车的供应商”中包含的企业实体对为“富士康”、“摩拜单车”，企业实体之间的关系“供应商”属于供应链关系。

从样本库中抽取包含一个企业实体对的所有训练样句，每个训练样句包括该对企业实体的名称和该企业实体对的关系类型，并使用分词工具对每个训练样句进行分词处理。例如，从样本库中抽取包含富士康和摩拜单车的所有训练样句，而且每个训练样句都包括富士康与摩拜单车该两个企业实体名称和该企业实体对的关系类型(供应商)。使用Stanford汉语分词工具、jieba分词等分词工具对每个训练样句进行分词处理。例如：对“富士康是摩拜单车的供应商”进行分词处理，得到如下结果“富士康|是|摩拜单车|的|供应商”。对分词后的每个词以one-hot向量的形式表示，得到初始词向量。其中one-hot向量的方法指把每个词表示为一个很长的向量，向量的维度表示词的多少，其中只有一个维度的值为1，其余维度为0，该向量代表当前词。例如，“富士康”的初始词向量为[0100000000]、“是”的初始词向量为[0010000000]。然后为每个训练样句标注ID，将句子ID映射为对应训练样句的初始句子向量。

将该初始句子向量和训练样句中某个词的左、右邻接词的初始词向量输入所述连续词袋模型，预测得到该词的词向量x_i。将所述初始句子向量更新替换为第一更新句子向量，将该第一更新句子向量和训练样句中下一个词的左、右邻接词的初始词向量输入所述连续词袋模型，预测得到该词的词向量x_i+1，将所述第一更新句子向量更新替换为第二更新句子向量，如此迭代训练，每次训练更新该训练样句的句子向量，直至预测得到训练样句中每个词的词向量x_i，i＝(0,1,2,3,...,m)，将最后一次训练更新后的句子向量作为该训练样句的句子向量S_i，i＝(0,1,2,3,...,n)。例如，“富士康是摩拜单车的供应商”句子中，将“是”的左邻接可用词“富士康”、右邻接可用词“摩拜单车”的初始词向量以及初始句子向量输入连续词袋模型，预测得到“是”的词向量x₂，对初始句子向量进行一次更新，得到第一更新句子向量；将“摩拜单车”的左邻接可用词“是”的初始词向量或当前词向量、右邻接可用词“的”的初始词向量和第一更新句子向量输入连续词袋模型，预测得到“摩拜单车”的词向量x₃，对第一更新句子向量进行更新，得到第二更新句子向量……如此迭代训练，直至预测得到上述所有可用词的词向量x_i，更新得到该训练样句的句子向量S_i。在此过程中，每个新闻语句的句子ID始终保持不变。

在RNN模型的第二层，接着用LSTM从左向右根据当前词向量x_i的前一个词向量x_i-1的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据当前词向量x_i的后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’,通过Concatenate函数拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量，再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量T_i，i＝(0,1,2,3,...,n)。例如，“富士康是摩拜单车的供应商”句子中，用LSTM从左向右根据“富士康”的词向量x₁的隐藏层状态向量h₁计算“是”的词向量x₂的第一隐藏层状态向量h₂，并从右向左根据“摩拜单车”的词向量x₃的隐藏层状态向量h₃计算“是”的词向量x₂的第二隐藏层状态向量h₂’,通过Concatenate函数拼接两个隐藏层状态向量(h₂和h₂’)得到训练样句中每个词的综合隐藏层状态向量，再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量T_i。

在RNN模型的第三层，根据每个训练样句的特征向量T_i，利用平均向量的计算公式：S＝sum(a_i*T_i)/n，算出每个训练样句的平均向量S。其中a_i代表训练样句的权重，T_i代表每个训练样句的特征向量，n代表训练样句的数量。假设，从知识库中抽取“富士康”和“摩拜单车”实体对的训练样句有5万条，则将每条训练样句的特征向量T_i，i＝(0,1,2,3,...,n)代入平均向量的计算公式：S＝sum(a_i*T_i)/n，算出每个训练样句的平均向量S。其中n等于5万。

在RNN模型的最后一层，然后将平均向量S代入到softmax分类函数：

其中K代表企业关系类型的个数，S代表需要预测企业关系类型的平均向量，代表某种企业关系类型，σ(z)_j代表需要预测的企业关系类型在每个企业关系类型中的概率。根据训练样句中企业实体对的关系类型，确定训练样句的权重a_i。通过不断地迭代学习，不断优化训练样句的权重a_i，使得有效句子获得较高的权重，而有噪音的句子获得较小的权重，从而得到可靠的RNN模型。

最后，如图4所示，是本发明预测模块的框架图。从当前文本中提取包含两个待预测关系的企业实体的句子，如从新闻中提取包含“中国平安集团”与“中国银行”的句子，并对这些句子进行分词得到句子向量。例如，S₁,S₂,S₃,S₄表示的是两个企业实体对应的句子的向量集合。经过bi-LSTM提取出各个句子的特征向量T₁,T₂,T₃,T₄，再通过计算T_i与关系类型r向量的相似度来赋予T_i在整个句子集中的权重，最后在各个句子加权取和后通过softmax分类器预测出“中国平安集团”与“中国银行”之间的关系。

上述实施例提出的企业关系提取方法，通过从非结构化文本中抽取知识库中存在关系的企业实体对的句子作为训练样句并建立样本库。抽取样本库中包含一个企业实体对的所有训练样句并进行分词，得到每个训练样句的句子向量S_i，利用LSTM算出每个训练样句的特征向量T_i。然后通过平均向量的计算公式算出每个训练样句的平均向量S，将平均向量S代入softmax分类函数进行计算，根据企业实体对的关系类型确定训练样句的权重a_i。最后从当前文本中提取包含两个企业实体的句子，经过bi-LSTM得到句子的特征向量T_i，将该特征向量T_i输入训练好的RNN模型，预测该两个企业实体间的关系，提高在新闻中对不同企业间关系的识别能力和对企业风险的预警，减少繁琐的训练数据人工标注步骤。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括企业关系提取程序10，所述企业关系提取程序10被处理器执行时实现如下操作：

分词步骤：从样本库中抽取包含一个企业实体对的所有训练样句，使用预设的分词工具对每个训练样句进行分词，将分词后的每个词映射成词向量x_i，并将每个训练样句映射成句子向量S_i，作为RNN模型第一层的输入；

拼接步骤：在RNN模型的第二层，用LSTM从左向右计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左计算当前词向量x_i的第二隐藏层状态向量h_i’，通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量，再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量T_i；

计算步骤：在RNN模型的第三层，根据每个训练样句的特征向量T_i，利用平均向量表达式算出每个训练样句的平均向量S；

权重确定步骤：在RNN模型的最后一层，将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重a_i；

预测步骤：从当前文本中提取包含两个企业实体的句子，经过bi-LSTM得到句子的特征向量T_i，将该特征向量T_i输入上述训练好的RNN模型，预测得到该两个企业实体间的关系。

优选地，所述分词步骤包括：

优选地，所述拼接步骤包括：

优选地，所述平均向量表达式为：

S＝sum(a_i*T_i)/n

优选地，所述softmax分类函数表达式为：

本发明之计算机可读存储介质的具体实施方式与上述企业关系提取方法的具体实施方式大致相同，在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种企业关系提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的企业关系提取方法，其特征在于，所述分词步骤包括：

3.根据权利要求1所述的企业关系提取方法，其特征在于，所述拼接步骤包括：

4.根据权利要求1所述的企业关系提取方法，其特征在于，所述平均向量的表达式为：

S＝sum(a_i*T_i)/n

5.根据权利要求4所述的企业关系提取方法，其特征在于，所述softmax分类函数的表达式为：

<mrow> <mi>&sigma;</mi> <msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <mi>S</mi> </msup> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msup> <mi>e</mi> <msub> <mi>S</mi> <mi>k</mi> </msub> </msup> </mrow> </mfrac> </mrow>

6.一种电子装置，其特征在于，所述装置包括：存储器、处理器，所述存储器上存储有企业关系提取程序，所述企业关系提取程序被所述处理器执行，可实现如下步骤：

7.根据权利要求6所述的电子装置，其特征在于，所述拼接步骤包括：

8.根据权利要求6所述的电子装置，其特征在于，所述平均向量的表达式为：

S＝sum(a_i*T_i)/n

9.根据权利要求8所述的电子装置，其特征在于，所述softmax分类函数的表达式为：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括企业关系提取程序，所述统企业关系提取程序被处理器执行时，可实现如权利要求1至5中任一项所述企业关系提取方法的步骤。