CN107943847A - 企业关系提取方法、装置及存储介质 - Google Patents
企业关系提取方法、装置及存储介质 Download PDFInfo
- Publication number
- CN107943847A CN107943847A CN201711061205.0A CN201711061205A CN107943847A CN 107943847 A CN107943847 A CN 107943847A CN 201711061205 A CN201711061205 A CN 201711061205A CN 107943847 A CN107943847 A CN 107943847A
- Authority
- CN
- China
- Prior art keywords
- vector
- sentence
- business
- word
- sample sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种企业关系提取方法、装置及存储介质,该方法包括:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;从样本库中抽取包含一个企业实体对的所有训练样句并分词,将每个词映射成词向量xi,映射成句子向量Si;用LSTM计算词向量xi的第一隐藏层状态向量hi和第二隐藏层状态向量hi’,拼接得到综合隐藏层状态向量,再得到特征向量Ti;将特征向量Ti代入平均向量表达式算出平均向量S;将平均向量S及企业实体对的关系类型代入softmax分类函数算出每个训练样句的权重ai;提取包含两个企业实体的句子,经过bi‑LSTM得到特征向量Ti,输入到训练好的RNN模型,预测该两个企业的关系,减少人工成本,更准确的预测该两个企业实体间的关系。
Description
技术领域
本发明涉及数据信息处理技术领域,尤其涉及一种企业关系提取方法、装置及计算机可读存储介质。
背景技术
识别新闻中不同企业之间的关联,如资金往来、供应链、合作等,对企业风险预警有很重大的意义。然而现在常见的实体关系抽取方法需要人工进行大量训练数据的标注,而语料标注工作一般非常耗时耗力。
发明内容
鉴于以上内容,本发明提供一种企业关系提取方法、装置及计算机可读存储介质,可以将基于卷积神经网络的关系提取模型扩展到远程监督数据上,有效地减少模型对人工标注数据的依赖,而且这种有监督的企业关系提取方法相比于半监督或无监督方法具有更好的准确率和召回率。
为实现上述目的,本发明提供一种企业关系提取方法,该方法包括:
样本库建立步骤:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;
分词步骤:从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为循环神经网络模型第一层的输入;
拼接步骤:在循环神经网络模型的第二层,用长短期记忆模块从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti;
计算步骤:在循环神经网络模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量表达式算出每个训练样句的平均向量S;
权重确定步骤:在循环神经网络模型的最后一层,将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重ai;
预测步骤:从当前文本中提取包含两个企业实体的句子,经过双向长短期记忆模块得到句子的特征向量Ti,将该特征向量Ti输入上述训练好的循环神经网络模型,预测得到该两个企业实体间的关系。
优选地,所述分词步骤包括:
对分词后的每个词以one-hot向量的形式表示,得到初始词向量,并为每个训练样句标注句子ID,将句子ID映射为对应训练样句的初始句子向量,将该初始句子向量和该训练样句中某个词的左、右邻接词的初始词向量输入所述连续词袋模型,预测得到该词的词向量xi,每次预测更新该训练样句的句子向量,直至预测得到该训练样句中每个词的词向量xi,以最后一次更新后的句子向量作为该训练样句的句子向量Si。
优选地,所述拼接步骤包括:
从左向右根据当前词向量xi的前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’。
优选地,所述平均向量表达式为:
S=sum(ai*Ti)/n
其中ai代表训练样句的权重,Ti代表每个训练样句的特征向量,n代表训练样句的数量。
优选地,所述softmax分类函数表达式为:
其中K代表企业关系类型的个数,S代表需要预测企业关系类型的平均向量,代表某种企业关系类型,σ(z)j代表需要预测的企业关系类型在每个企业关系类型中的概率。
此外,本发明还提供一种电子装置,该电子装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业关系提取程序,所述企业关系提取程序被所述处理器执行,可实现如下步骤:
样本库建立步骤:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;
分词步骤:从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为循环神经网络模型第一层的输入;
拼接步骤:在循环神经网络模型的第二层,用长短期记忆模块从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti;
计算步骤:在循环神经网络模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量表达式算出每个训练样句的平均向量S;
权重确定步骤:在循环神经网络模型的最后一层,将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重ai;
预测步骤:从当前文本中提取包含两个企业实体的句子,经过双向长短期记忆模块得到句子的特征向量Ti,将该特征向量Ti输入上述训练好的循环神经网络模型,预测得到该两个企业实体间的关系。
优选地,所述拼接步骤包括:
用长短期记忆模块从左向右根据当前词向量xi的前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’。
优选地,所述平均向量表达式为:
S=sum(ai*Ti)/n
其中ai代表训练样句的权重,Ti代表每个训练样句的特征向量,n代表训练样句的数量。
优选地,所述softmax分类函数表达式为:
其中K代表企业关系类型的个数,S代表需要预测企业关系类型的平均向量,代表某种企业关系类型,σ(z)j代表需要预测的企业关系类型在每个企业关系类型中的概率。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括企业关系提取程序,所述企业关系提取程序被处理器执行时,可实现如上所述企业关系提取方法中的任意步骤。
本发明提出的企业关系提取方法、电子装置及计算机可读存储介质,从非结构化文本中抽取知识库中存在关系的企业实体对的句子作为训练样句并建立样本库。接着在样本库抽取包含一个企业实体对的所有训练样句,并对每个训练样句进行分词,得到每个训练样句的句子向量Si,通过长短期记忆模块算出每个训练样句的特征向量Ti。然后根据每个训练样句的特征向量Ti,计算每个训练样句的平均向量S,将平均向量S代入softmax分类函数进行计算,根据企业实体对的关系类型确定训练样句的权重ai。最后从当前文本中提取包含两个企业实体的句子,经过双向长短期记忆模块得到句子的特征向量T,将该特征向量T输入训练好的循环神经网络模型,预测该两个企业实体间的关系,提高在新闻中对不同企业间关系的识别能力,减少对人工进行训练数据标注的依赖。
附图说明
图1为本发明电子装置较佳实施例的示意图;
图2为图1中企业关系提取程序较佳实施例的模块示意图;
图3为本发明企业关系提取方法较佳实施例的流程图;
图4为本发明预测模块的框架图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明电子装置1较佳实施例的示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、个人电脑、便携计算机以及其他具有运算功能的电子设备。
该电子装置1包括:存储器11、处理器12、知识库13、网络接口14及通信总线15。其中,知识库13存储在存储器11上,从知识库13中抽取出含有企业实体对的句子作为训练样句建立样本库。
其中,网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。通信总线15用于实现这些组件之间的连接通信。
存储器11至少包括一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述存储器11可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述存储器11也可以是所述电子装置1的外部存储单元,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11不仅可以用于存储安装于所述电子装置1的应用软件及各类数据,例如企业关系提取程序10、知识库13和样本库,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其它数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行企业关系提取程序10的计算机程序代码和各类模型的训练等。
优选地,该电子装置1还可以包括显示器,显示器可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-Emitting Diode,有机发光二极管)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面,如:显示模型训练的结果及权重ai的最优值。
优选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中存储企业关系提取程序10的程序代码,处理器12执行企业关系提取程序10的程序代码时,实现如下步骤:
样本库建立步骤:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;
分词步骤:从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为循环神经网络模型第一层的输入;
拼接步骤:在循环神经网络模型的第二层,用长短期记忆模块从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti;
计算步骤:在循环神经网络模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量表达式算出每个训练样句的平均向量S;
权重确定步骤:在循环神经网络模型的最后一层,将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重ai;
预测步骤:从当前文本中提取包含两个企业实体的句子,经过双向长短期记忆模块得到句子的特征向量Ti,将该特征向量Ti输入上述训练好的循环神经网络模型,预测得到该两个企业实体间的关系。
本实施例中,假设两个企业实体在知识库中存在某种关系,则包含该两个企业实体的非结构化句子均能表示出这种关系。因此,当我们需要识别新闻中某两个企业实体之间的关联时,从知识库中抽出包含该两个企业实体的所有非结构化句子,将所述句子作为训练样句建立样本库。其中,所述知识库是通过收集历史新闻数据中包含任意两个企业实体的非结构化句子建立的。例如,需要识别新闻中某两个企业实体之间的关联,从知识库中抽取含有该两个企业实体的所有非结构化句子,并将所述句子作为训练样句建立一个样本库。其中企业实体对存在的关系包括资金往来、供应链和合作等关系。例如,句子“富士康是摩拜单车的供应商”中包含的企业实体对为“富士康”、“摩拜单车”,企业实体之间的关系“供应商”属于供应链关系。
从样本库中抽取包含一个企业实体对的所有训练样句,每个训练样句包括该对企业实体的名称和该企业实体对的关系类型,并使用分词工具对每个训练样句进行分词处理。其中,可以使用Stanford汉语分词工具、jieba分词等分词工具对每个训练样句进行分词处理。对分词后的每个词以one-hot向量的形式表示,得到初始词向量。其中one-hot向量的方法指把每个词表示为一个很长的向量,向量的维度表示词的多少,其中只有一个维度的值为1,其余维度为0,该向量代表当前词。例如,从样本库中抽取包含富士康和摩拜单车的所有训练样句,而且每个训练样句都包括富士康与摩拜单车该两个企业实体名称和该企业实体对的关系类型(供应商)。对“富士康是摩拜单车的供应商”进行分词处理,得到如下结果“富士康|是|摩拜单车|的|供应商”。如“富士康”的初始词向量为[0100000000]、“是”的初始词向量为[0010000000]。然后为每个训练样句标注ID,将句子ID映射为对应训练样句的初始句子向量。
将该初始句子向量和训练样句中某个词的左、右邻接词的初始词向量输入所述连续词袋模型,预测得到该词的词向量xi。将所述初始句子向量更新替换为第一更新句子向量,将该第一更新句子向量和训练样句中下一个词的左、右邻接词的初始词向量输入所述连续词袋模型,预测得到该词的词向量xi+1,将所述第一更新句子向量更新替换为第二更新句子向量,如此迭代训练,每次训练更新该训练样句的句子向量,直至预测得到训练样句中每个词的词向量xi,i=(0,1,2,3,...,m),将最后一次训练更新后的句子向量作为该训练样句的句子向量Si,i=(0,1,2,3,...,n)。作为循环神经网络(Recurrent NeuralNetwork,RNN)模型第一层的输入。例如,将“是”的左邻接可用词“富士康”、右邻接可用词“摩拜单车”的初始词向量以及初始句子向量输入连续词袋模型,预测得到“是”的词向量x2,对初始句子向量进行一次更新,得到第一更新句子向量;将“摩拜单车”的左邻接可用词“是”的初始词向量或当前词向量、右邻接可用词“的”的初始词向量和第一更新句子向量输入连续词袋模型,预测得到“摩拜单车”的词向量x3,对第一更新句子向量进行更新,得到第二更新句子向量……如此迭代训练,直至预测得到上述所有可用词的词向量xi,更新得到该训练样句的句子向量Si。在此过程中,每个新闻语句的句子ID始终保持不变。
在RNN模型的第二层,接着用长短期记忆模块(Long Short-Term Memory,LSTM)从左向右根据当前词向量xi的前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’,通过Concatenate函数拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti,i=(0,1,2,3,...,n)。例如,“富士康是摩拜单车的供应商”句子中,用LSTM从左向右根据“富士康”的词向量x1的隐藏层状态向量h1计算“是”的词向量x2的第一隐藏层状态向量h2,并从右向左根据“摩拜单车”的词向量x3的隐藏层状态向量h3计算“是”的词向量x2的第二隐藏层状态向量h2’,通过Concatenate函数拼接两个隐藏层状态向量(h2和h2’)得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti。
在RNN模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量的计算公式:S=sum(ai*Ti)/n,算出每个训练样句的平均向量S。其中ai代表训练样句的权重,Ti代表每个训练样句的特征向量,n代表训练样句的数量。
在RNN模型的最后一层,将平均向量S代入到softmax分类函数:
其中K代表企业关系类型的个数,S代表需要预测企业关系类型的平均向量,代表某种企业关系类型,σ(z)j代表需要预测的企业关系类型在每个企业关系类型中的概率。根据训练样句中企业实体对的关系类型,确定训练样句的权重ai。通过不断地学习,不断优化训练样句的权重ai,使得有效句子获得较高的权重,而有噪音的句子获得较小的权重。
在本实施例中,当RNN模型确定后,可以对任意一个带有企业实体对的非结构化句子进行关系预测,模型的预测和具体的企业名称没有关联。
从当前文本中提取包含两个待预测关系的企业实体的句子,并对这些句子进行分词得到句子向量。例如,S1,S2,S3,S4表示的是两个企业实体对应的句子的向量集合。经过双向长短期记忆模块(Bidirectional Long Short-term Memory,bi-LSTM)提取出各个句子的特征向量T1,T2,T3,T4,将各个句子的特征向量输入训练好的RNN模型,得到该两个企业实体间的关系预测结果。
上述实施例提出的企业关系提取方法,通过从非结构化文本中抽取知识库中存在关系的企业实体对的训练样句建立样本库。抽取样本库中包含一个企业实体对的所有训练样句并进行分词,得到每个训练样句的句子向量Si,利用LSTM算出每个训练样句的特征向量Ti。通过平均向量的计算公式算出每个训练样句的平均向量S,将平均向量S代入softmax分类函数进行计算,根据企业实体对的关系类型确定训练样句的权重ai。最后从当前文本中提取包含两个企业实体的句子,经过bi-LSTM得到句子的特征向量Ti,将该特征向量Ti输入训练好的RNN模型,预测该两个企业实体间的关系,不仅减少了繁琐的训练数据人工标注步骤,而且比其它监督方式有更好的准确率和召回率。
如图2所示,是图1中企业关系提取程序10较佳实施例的模块示意图。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
在本实施例中,企业关系提取程序10包括:建立模块110、分词模块120、拼接模块130、计算模块140、权重确定模块150、预测模块160,所述模块110-160所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
建立模块110,用于从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;
分词模块120,用于从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为RNN模型第一层的输入;
拼接模块130,用于在RNN模型的第二层,用LSTM从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti;
计算模块140,用于在RNN模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量表达式算出每个训练样句的平均向量S;
权重确定模块150,用于在RNN模型的最后一层,将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重ai;
预测模块160,用于从当前文本中提取包含两个企业实体的句子,经过bi-LSTM得到句子的特征向量Ti,将该特征向量Ti输入上述训练好的RNN模型,预测得到该两个企业实体间的关系。
如图3所示,是本发明企业关系提取方法较佳实施例的流程图。
在本实施例中,处理器12执行存储器11中存储的企业关系提取程序10的计算机程序时实现企业关系提取方法的如下步骤:
步骤S10,从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;
步骤S20,从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为RNN模型第一层的输入;
步骤S30,在RNN模型的第二层,用LSTM从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti;
步骤S40,在RNN模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量表达式算出每个训练样句的平均向量S;
步骤S50,在RNN模型的最后一层,将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重ai;
步骤S60,从当前文本中提取包含两个企业实体的句子,经过bi-LSTM得到句子的特征向量Ti,将该特征向量Ti输入上述训练好的RNN模型,预测得到该两个企业实体间的关系。
本实施例中,假设两个企业实体在知识库中存在某种关系,则包含该两个企业实体的非结构化句子均能表示出这种关系。当我们需要识别新闻中某两个企业实体之间的关联时,从知识库中抽出包含该两个企业实体的所有非结构化句子,将所述句子作为训练样句建立样本库。其中,所述知识库是通过收集历史新闻数据中包含任意两个企业实体的非结构化句子建立的。例如,需要识别新闻中某两个企业实体之间的关联,从知识库中抽取含有该两个企业实体的所有非结构化句子,并将所述句子作为训练样句建立一个样本库。其中企业实体对存在的关系包括资金往来、供应链和合作等关系。例如,从非结构化文本中抽取含有“富士康”和“摩拜单车”两个企业实体对的句子作为训练样句,其中句子“富士康是摩拜单车的供应商”中包含的企业实体对为“富士康”、“摩拜单车”,企业实体之间的关系“供应商”属于供应链关系。
从样本库中抽取包含一个企业实体对的所有训练样句,每个训练样句包括该对企业实体的名称和该企业实体对的关系类型,并使用分词工具对每个训练样句进行分词处理。例如,从样本库中抽取包含富士康和摩拜单车的所有训练样句,而且每个训练样句都包括富士康与摩拜单车该两个企业实体名称和该企业实体对的关系类型(供应商)。使用Stanford汉语分词工具、jieba分词等分词工具对每个训练样句进行分词处理。例如:对“富士康是摩拜单车的供应商”进行分词处理,得到如下结果“富士康|是|摩拜单车|的|供应商”。对分词后的每个词以one-hot向量的形式表示,得到初始词向量。其中one-hot向量的方法指把每个词表示为一个很长的向量,向量的维度表示词的多少,其中只有一个维度的值为1,其余维度为0,该向量代表当前词。例如,“富士康”的初始词向量为[0100000000]、“是”的初始词向量为[0010000000]。然后为每个训练样句标注ID,将句子ID映射为对应训练样句的初始句子向量。
将该初始句子向量和训练样句中某个词的左、右邻接词的初始词向量输入所述连续词袋模型,预测得到该词的词向量xi。将所述初始句子向量更新替换为第一更新句子向量,将该第一更新句子向量和训练样句中下一个词的左、右邻接词的初始词向量输入所述连续词袋模型,预测得到该词的词向量xi+1,将所述第一更新句子向量更新替换为第二更新句子向量,如此迭代训练,每次训练更新该训练样句的句子向量,直至预测得到训练样句中每个词的词向量xi,i=(0,1,2,3,...,m),将最后一次训练更新后的句子向量作为该训练样句的句子向量Si,i=(0,1,2,3,...,n)。例如,“富士康是摩拜单车的供应商”句子中,将“是”的左邻接可用词“富士康”、右邻接可用词“摩拜单车”的初始词向量以及初始句子向量输入连续词袋模型,预测得到“是”的词向量x2,对初始句子向量进行一次更新,得到第一更新句子向量;将“摩拜单车”的左邻接可用词“是”的初始词向量或当前词向量、右邻接可用词“的”的初始词向量和第一更新句子向量输入连续词袋模型,预测得到“摩拜单车”的词向量x3,对第一更新句子向量进行更新,得到第二更新句子向量……如此迭代训练,直至预测得到上述所有可用词的词向量xi,更新得到该训练样句的句子向量Si。在此过程中,每个新闻语句的句子ID始终保持不变。
在RNN模型的第二层,接着用LSTM从左向右根据当前词向量xi的前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’,通过Concatenate函数拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti,i=(0,1,2,3,...,n)。例如,“富士康是摩拜单车的供应商”句子中,用LSTM从左向右根据“富士康”的词向量x1的隐藏层状态向量h1计算“是”的词向量x2的第一隐藏层状态向量h2,并从右向左根据“摩拜单车”的词向量x3的隐藏层状态向量h3计算“是”的词向量x2的第二隐藏层状态向量h2’,通过Concatenate函数拼接两个隐藏层状态向量(h2和h2’)得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti。
在RNN模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量的计算公式:S=sum(ai*Ti)/n,算出每个训练样句的平均向量S。其中ai代表训练样句的权重,Ti代表每个训练样句的特征向量,n代表训练样句的数量。假设,从知识库中抽取“富士康”和“摩拜单车”实体对的训练样句有5万条,则将每条训练样句的特征向量Ti,i=(0,1,2,3,...,n)代入平均向量的计算公式:S=sum(ai*Ti)/n,算出每个训练样句的平均向量S。其中n等于5万。
在RNN模型的最后一层,然后将平均向量S代入到softmax分类函数:
其中K代表企业关系类型的个数,S代表需要预测企业关系类型的平均向量,代表某种企业关系类型,σ(z)j代表需要预测的企业关系类型在每个企业关系类型中的概率。根据训练样句中企业实体对的关系类型,确定训练样句的权重ai。通过不断地迭代学习,不断优化训练样句的权重ai,使得有效句子获得较高的权重,而有噪音的句子获得较小的权重,从而得到可靠的RNN模型。
在本实施例中,当RNN模型确定后,可以对任意一个带有企业实体对的非结构化句子进行关系预测,模型的预测和具体的企业名称没有关联。
最后,如图4所示,是本发明预测模块的框架图。从当前文本中提取包含两个待预测关系的企业实体的句子,如从新闻中提取包含“中国平安集团”与“中国银行”的句子,并对这些句子进行分词得到句子向量。例如,S1,S2,S3,S4表示的是两个企业实体对应的句子的向量集合。经过bi-LSTM提取出各个句子的特征向量T1,T2,T3,T4,再通过计算Ti与关系类型r向量的相似度来赋予Ti在整个句子集中的权重,最后在各个句子加权取和后通过softmax分类器预测出“中国平安集团”与“中国银行”之间的关系。
上述实施例提出的企业关系提取方法,通过从非结构化文本中抽取知识库中存在关系的企业实体对的句子作为训练样句并建立样本库。抽取样本库中包含一个企业实体对的所有训练样句并进行分词,得到每个训练样句的句子向量Si,利用LSTM算出每个训练样句的特征向量Ti。然后通过平均向量的计算公式算出每个训练样句的平均向量S,将平均向量S代入softmax分类函数进行计算,根据企业实体对的关系类型确定训练样句的权重ai。最后从当前文本中提取包含两个企业实体的句子,经过bi-LSTM得到句子的特征向量Ti,将该特征向量Ti输入训练好的RNN模型,预测该两个企业实体间的关系,提高在新闻中对不同企业间关系的识别能力和对企业风险的预警,减少繁琐的训练数据人工标注步骤。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括企业关系提取程序10,所述企业关系提取程序10被处理器执行时实现如下操作:
样本库建立步骤:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;
分词步骤:从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为RNN模型第一层的输入;
拼接步骤:在RNN模型的第二层,用LSTM从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti;
计算步骤:在RNN模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量表达式算出每个训练样句的平均向量S;
权重确定步骤:在RNN模型的最后一层,将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重ai;
预测步骤:从当前文本中提取包含两个企业实体的句子,经过bi-LSTM得到句子的特征向量Ti,将该特征向量Ti输入上述训练好的RNN模型,预测得到该两个企业实体间的关系。
优选地,所述分词步骤包括:
对分词后的每个词以one-hot向量的形式表示,得到初始词向量,并为每个训练样句标注句子ID,将句子ID映射为对应训练样句的初始句子向量,将该初始句子向量和该训练样句中某个词的左、右邻接词的初始词向量输入所述连续词袋模型,预测得到该词的词向量xi,每次预测更新该训练样句的句子向量,直至预测得到该训练样句中每个词的词向量xi,以最后一次更新后的句子向量作为该训练样句的句子向量Si。
优选地,所述拼接步骤包括:
从左向右根据当前词向量xi的前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’。
优选地,所述平均向量表达式为:
S=sum(ai*Ti)/n
其中ai代表训练样句的权重,Ti代表每个训练样句的特征向量,n代表训练样句的数量。
优选地,所述softmax分类函数表达式为:
其中K代表企业关系类型的个数,S代表需要预测企业关系类型的平均向量,代表某种企业关系类型,σ(z)j代表需要预测的企业关系类型在每个企业关系类型中的概率。
本发明之计算机可读存储介质的具体实施方式与上述企业关系提取方法的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种企业关系提取方法,其特征在于,所述方法包括:
样本库建立步骤:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;
分词步骤:从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为循环神经网络模型第一层的输入;
拼接步骤:在循环神经网络模型的第二层,用长短期记忆模块从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti;
计算步骤:在循环神经网络模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量表达式算出每个训练样句的平均向量S;
权重确定步骤:在循环神经网络模型的最后一层,将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重ai;
预测步骤:从当前文本中提取包含两个企业实体的句子,经过双向长短期记忆模块得到句子的特征向量Ti,将该特征向量Ti输入上述训练好的循环神经网络模型,预测得到该两个企业实体间的关系。
2.根据权利要求1所述的企业关系提取方法,其特征在于,所述分词步骤包括:
对分词后的每个词以one-hot向量的形式表示,得到初始词向量,并为每个训练样句标注句子ID,将句子ID映射为对应训练样句的初始句子向量,将该初始句子向量和该训练样句中某个词的左、右邻接词的初始词向量输入所述连续词袋模型,预测得到该词的词向量xi,每次预测更新该训练样句的句子向量,直至预测得到该训练样句中每个词的词向量xi,以最后一次更新后的句子向量作为该训练样句的句子向量Si。
3.根据权利要求1所述的企业关系提取方法,其特征在于,所述拼接步骤包括:
从左向右根据当前词向量xi的前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’。
4.根据权利要求1所述的企业关系提取方法,其特征在于,所述平均向量的表达式为:
S=sum(ai*Ti)/n
其中ai代表训练样句的权重,Ti代表每个训练样句的特征向量,n代表训练样句的数量。
5.根据权利要求4所述的企业关系提取方法,其特征在于,所述softmax分类函数的表达式为:
<mrow>
<mi>&sigma;</mi>
<msub>
<mrow>
<mo>(</mo>
<mi>z</mi>
<mo>)</mo>
</mrow>
<mi>j</mi>
</msub>
<mo>=</mo>
<mfrac>
<msup>
<mi>e</mi>
<mi>S</mi>
</msup>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</msubsup>
<msup>
<mi>e</mi>
<msub>
<mi>S</mi>
<mi>k</mi>
</msub>
</msup>
</mrow>
</mfrac>
</mrow>
其中K代表企业关系类型的个数,S代表需要预测企业关系类型的平均向量,代表某种企业关系类型,σ(z)j代表需要预测的企业关系类型在每个企业关系类型中的概率。
6.一种电子装置,其特征在于,所述装置包括:存储器、处理器,所述存储器上存储有企业关系提取程序,所述企业关系提取程序被所述处理器执行,可实现如下步骤:
样本库建立步骤:从知识库中抽取存在关系的企业实体对句子作为训练样句建立样本库;
分词步骤:从样本库中抽取包含一个企业实体对的所有训练样句,使用预设的分词工具对每个训练样句进行分词,将分词后的每个词映射成词向量xi,并将每个训练样句映射成句子向量Si,作为循环神经网络模型第一层的输入;
拼接步骤:在循环神经网络模型的第二层,用长短期记忆模块从左向右计算当前词向量xi的第一隐藏层状态向量hi,并从右向左计算当前词向量xi的第二隐藏层状态向量hi’,通过拼接两个隐藏层状态向量得到训练样句中每个词的综合隐藏层状态向量,再根据训练样句中所有词的综合隐藏层状态向量得到每个训练样句的特征向量Ti;
计算步骤:在循环神经网络模型的第三层,根据每个训练样句的特征向量Ti,利用平均向量表达式算出每个训练样句的平均向量S;
权重确定步骤:在循环神经网络模型的最后一层,将所述平均向量S及所述企业实体对的关系类型代入softmax分类函数计算得到每个训练样句的权重ai;
预测步骤:从当前文本中提取包含两个企业实体的句子,经过双向长短期记忆模块得到句子的特征向量Ti,将该特征向量Ti输入上述训练好的循环神经网络模型,预测得到该两个企业实体间的关系。
7.根据权利要求6所述的电子装置,其特征在于,所述拼接步骤包括:
从左向右根据当前词向量xi的前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’。
8.根据权利要求6所述的电子装置,其特征在于,所述平均向量的表达式为:
S=sum(ai*Ti)/n
其中ai代表训练样句的权重,Ti代表每个训练样句的特征向量,n代表训练样句的数量。
9.根据权利要求8所述的电子装置,其特征在于,所述softmax分类函数的表达式为:
<mrow>
<mi>&sigma;</mi>
<msub>
<mrow>
<mo>(</mo>
<mi>z</mi>
<mo>)</mo>
</mrow>
<mi>j</mi>
</msub>
<mo>=</mo>
<mfrac>
<msup>
<mi>e</mi>
<mi>S</mi>
</msup>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</msubsup>
<msup>
<mi>e</mi>
<msub>
<mi>S</mi>
<mi>k</mi>
</msub>
</msup>
</mrow>
</mfrac>
</mrow>
其中K代表企业关系类型的个数,S代表需要预测企业关系类型的平均向量,代表某种企业关系类型,σ(z)j代表需要预测的企业关系类型在每个企业关系类型中的概率。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括企业关系提取程序,所述统企业关系提取程序被处理器执行时,可实现如权利要求1至5中任一项所述企业关系提取方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711061205.0A CN107943847B (zh) | 2017-11-02 | 2017-11-02 | 企业关系提取方法、装置及存储介质 |
PCT/CN2018/076119 WO2019085328A1 (zh) | 2017-11-02 | 2018-02-10 | 企业关系提取方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711061205.0A CN107943847B (zh) | 2017-11-02 | 2017-11-02 | 企业关系提取方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107943847A true CN107943847A (zh) | 2018-04-20 |
CN107943847B CN107943847B (zh) | 2019-05-17 |
Family
ID=61934111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711061205.0A Active CN107943847B (zh) | 2017-11-02 | 2017-11-02 | 企业关系提取方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107943847B (zh) |
WO (1) | WO2019085328A1 (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876044A (zh) * | 2018-06-25 | 2018-11-23 | 中国人民大学 | 一种基于知识增强神经网络的线上内容流行度预测方法 |
CN108920587A (zh) * | 2018-06-26 | 2018-11-30 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
CN108985501A (zh) * | 2018-06-29 | 2018-12-11 | 平安科技(深圳)有限公司 | 基于指数特征提取的股指预测方法、服务器及存储介质 |
CN109063032A (zh) * | 2018-07-16 | 2018-12-21 | 清华大学 | 一种远程监督检索数据的降噪方法 |
CN109243616A (zh) * | 2018-06-29 | 2019-01-18 | 东华大学 | 基于深度学习的乳腺电子病历联合关系抽取与结构化*** |
CN109376250A (zh) * | 2018-09-27 | 2019-02-22 | 中山大学 | 基于强化学习的实体关系联合抽取方法 |
CN109582956A (zh) * | 2018-11-15 | 2019-04-05 | 中国人民解放军国防科技大学 | 应用于句子嵌入的文本表示方法和装置 |
CN109597851A (zh) * | 2018-09-26 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 基于关联关系的特征提取方法和装置 |
CN109710768A (zh) * | 2019-01-10 | 2019-05-03 | 西安交通大学 | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 |
CN110188202A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 语义关系识别模型的训练方法、装置及终端 |
CN110188201A (zh) * | 2019-05-27 | 2019-08-30 | 上海上湖信息技术有限公司 | 一种信息匹配方法及设备 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110427624A (zh) * | 2019-07-30 | 2019-11-08 | 北京百度网讯科技有限公司 | 实体关系抽取方法及装置 |
CN110737758A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN111476035A (zh) * | 2020-05-06 | 2020-07-31 | 中国人民解放军国防科技大学 | 中文开放关系预测方法、装置、计算机设备和存储介质 |
CN111581387A (zh) * | 2020-05-09 | 2020-08-25 | 电子科技大学 | 一种基于损失优化的实体关系联合抽取方法 |
CN111680127A (zh) * | 2020-06-11 | 2020-09-18 | 暨南大学 | 一种面向年报的公司名称和关系抽取方法 |
CN111784488A (zh) * | 2020-06-28 | 2020-10-16 | 中国工商银行股份有限公司 | 企业资金风险预测方法及装置 |
CN111950279A (zh) * | 2019-05-17 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 实体关系的处理方法、装置、设备及计算机可读存储介质 |
CN112036181A (zh) * | 2019-05-14 | 2020-12-04 | 上海晶赞融宣科技有限公司 | 实体关系识别方法、装置及计算机可读存储介质 |
CN112215288A (zh) * | 2020-10-13 | 2021-01-12 | 中国光大银行股份有限公司 | 目标企业的类别确定方法及装置、存储介质、电子装置 |
CN112418320A (zh) * | 2020-11-24 | 2021-02-26 | 杭州未名信科科技有限公司 | 一种企业关联关系识别方法、装置及存储介质 |
CN113486630A (zh) * | 2021-09-07 | 2021-10-08 | 浙江大学 | 一种供应链数据向量化和可视化处理方法及装置 |
CN113806538A (zh) * | 2021-09-17 | 2021-12-17 | 平安银行股份有限公司 | 标签提取模型训练方法、装置、设备与存储介质 |
CN116562303A (zh) * | 2023-07-04 | 2023-08-08 | 之江实验室 | 一种参考外部知识的指代消解方法及装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619053A (zh) * | 2019-09-18 | 2019-12-27 | 北京百度网讯科技有限公司 | 实体关系抽取模型的训练方法和抽取实体关系的方法 |
CN110879938A (zh) * | 2019-11-14 | 2020-03-13 | 中国联合网络通信集团有限公司 | 文本情感分类方法、装置、设备和存储介质 |
CN111382843B (zh) * | 2020-03-06 | 2023-10-20 | 浙江网商银行股份有限公司 | 企业上下游关系识别模型建立、关系挖掘的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217393A1 (en) * | 2013-09-12 | 2016-07-28 | Hewlett-Packard Development Company, L.P. | Information extraction |
CN106372058A (zh) * | 2016-08-29 | 2017-02-01 | 中译语通科技(北京)有限公司 | 一种基于深度学习的短文本情感要素抽取方法及装置 |
CN106407211A (zh) * | 2015-07-30 | 2017-02-15 | 富士通株式会社 | 对实体词的语义关系进行分类的方法和装置 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106855853A (zh) * | 2016-12-28 | 2017-06-16 | 成都数联铭品科技有限公司 | 基于深度神经网络的实体关系抽取*** |
CN107220237A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 一种基于卷积神经网络的企业实体关系抽取的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194422A (zh) * | 2017-06-19 | 2017-09-22 | 中国人民解放军国防科学技术大学 | 一种结合正反向实例的卷积神经网络关系分类方法 |
-
2017
- 2017-11-02 CN CN201711061205.0A patent/CN107943847B/zh active Active
-
2018
- 2018-02-10 WO PCT/CN2018/076119 patent/WO2019085328A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217393A1 (en) * | 2013-09-12 | 2016-07-28 | Hewlett-Packard Development Company, L.P. | Information extraction |
CN106407211A (zh) * | 2015-07-30 | 2017-02-15 | 富士通株式会社 | 对实体词的语义关系进行分类的方法和装置 |
CN106372058A (zh) * | 2016-08-29 | 2017-02-01 | 中译语通科技(北京)有限公司 | 一种基于深度学习的短文本情感要素抽取方法及装置 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106855853A (zh) * | 2016-12-28 | 2017-06-16 | 成都数联铭品科技有限公司 | 基于深度神经网络的实体关系抽取*** |
CN107220237A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 一种基于卷积神经网络的企业实体关系抽取的方法 |
Non-Patent Citations (7)
Title |
---|
LEI MENG ET AL: "An Improved Method for Chinese Company Name and Abbreviation Recognition", 《 KNOWLEDGE MANAGEMENT IN ORGANIZATIONS》 * |
PENG ZHOU ET AL: "Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
XIAOYUN HOU ET AL: "Classifying Relation via Bidirectional Recurrent Neural Network Based on Local Information", 《WEB TECHNOLOGIES AND APPLICATIONS》 * |
YONGHUI WU ET AL: "named entity recognition in Chinese clinical text using deep neural network", 《STUDIES IN HEALTH TECHNOLOGY & INFORMATION》 * |
胡新辰: "基于LSTM的语义关系分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
郭喜跃 等: "基于句法语义特征的中文实体关系抽取", 《中文信息学报》 * |
黄蓓静 等: "远程监督人物关系抽取中的去噪研究", 《计算机应用与软件》 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876044A (zh) * | 2018-06-25 | 2018-11-23 | 中国人民大学 | 一种基于知识增强神经网络的线上内容流行度预测方法 |
CN108876044B (zh) * | 2018-06-25 | 2021-02-26 | 中国人民大学 | 一种基于知识增强神经网络的线上内容流行度预测方法 |
CN108920587A (zh) * | 2018-06-26 | 2018-11-30 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
CN108985501A (zh) * | 2018-06-29 | 2018-12-11 | 平安科技(深圳)有限公司 | 基于指数特征提取的股指预测方法、服务器及存储介质 |
CN109243616A (zh) * | 2018-06-29 | 2019-01-18 | 东华大学 | 基于深度学习的乳腺电子病历联合关系抽取与结构化*** |
CN108985501B (zh) * | 2018-06-29 | 2022-04-29 | 平安科技(深圳)有限公司 | 基于指数特征提取的股指预测方法、服务器及存储介质 |
CN110737758B (zh) * | 2018-07-03 | 2022-07-05 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN110737758A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
US11501182B2 (en) | 2018-07-03 | 2022-11-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating model |
CN109063032A (zh) * | 2018-07-16 | 2018-12-21 | 清华大学 | 一种远程监督检索数据的降噪方法 |
CN109063032B (zh) * | 2018-07-16 | 2020-09-11 | 清华大学 | 一种远程监督检索数据的降噪方法 |
CN109597851B (zh) * | 2018-09-26 | 2023-03-21 | 创新先进技术有限公司 | 基于关联关系的特征提取方法和装置 |
CN109597851A (zh) * | 2018-09-26 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 基于关联关系的特征提取方法和装置 |
CN109376250A (zh) * | 2018-09-27 | 2019-02-22 | 中山大学 | 基于强化学习的实体关系联合抽取方法 |
CN109582956A (zh) * | 2018-11-15 | 2019-04-05 | 中国人民解放军国防科技大学 | 应用于句子嵌入的文本表示方法和装置 |
CN109710768B (zh) * | 2019-01-10 | 2020-07-28 | 西安交通大学 | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 |
CN109710768A (zh) * | 2019-01-10 | 2019-05-03 | 西安交通大学 | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 |
CN112036181A (zh) * | 2019-05-14 | 2020-12-04 | 上海晶赞融宣科技有限公司 | 实体关系识别方法、装置及计算机可读存储介质 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110209836B (zh) * | 2019-05-17 | 2022-04-26 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN111950279A (zh) * | 2019-05-17 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 实体关系的处理方法、装置、设备及计算机可读存储介质 |
CN110188201A (zh) * | 2019-05-27 | 2019-08-30 | 上海上湖信息技术有限公司 | 一种信息匹配方法及设备 |
CN110188202A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 语义关系识别模型的训练方法、装置及终端 |
CN110427624B (zh) * | 2019-07-30 | 2023-04-25 | 北京百度网讯科技有限公司 | 实体关系抽取方法及装置 |
CN110427624A (zh) * | 2019-07-30 | 2019-11-08 | 北京百度网讯科技有限公司 | 实体关系抽取方法及装置 |
CN111476035B (zh) * | 2020-05-06 | 2023-09-05 | 中国人民解放军国防科技大学 | 中文开放关系预测方法、装置、计算机设备和存储介质 |
CN111476035A (zh) * | 2020-05-06 | 2020-07-31 | 中国人民解放军国防科技大学 | 中文开放关系预测方法、装置、计算机设备和存储介质 |
CN111581387B (zh) * | 2020-05-09 | 2022-10-11 | 电子科技大学 | 一种基于损失优化的实体关系联合抽取方法 |
CN111581387A (zh) * | 2020-05-09 | 2020-08-25 | 电子科技大学 | 一种基于损失优化的实体关系联合抽取方法 |
CN111680127A (zh) * | 2020-06-11 | 2020-09-18 | 暨南大学 | 一种面向年报的公司名称和关系抽取方法 |
CN111784488B (zh) * | 2020-06-28 | 2023-08-01 | 中国工商银行股份有限公司 | 企业资金风险预测方法及装置 |
CN111784488A (zh) * | 2020-06-28 | 2020-10-16 | 中国工商银行股份有限公司 | 企业资金风险预测方法及装置 |
CN112215288A (zh) * | 2020-10-13 | 2021-01-12 | 中国光大银行股份有限公司 | 目标企业的类别确定方法及装置、存储介质、电子装置 |
CN112215288B (zh) * | 2020-10-13 | 2024-04-30 | 中国光大银行股份有限公司 | 目标企业的类别确定方法及装置、存储介质、电子装置 |
CN112418320A (zh) * | 2020-11-24 | 2021-02-26 | 杭州未名信科科技有限公司 | 一种企业关联关系识别方法、装置及存储介质 |
CN112418320B (zh) * | 2020-11-24 | 2024-01-19 | 杭州未名信科科技有限公司 | 一种企业关联关系识别方法、装置及存储介质 |
CN113486630A (zh) * | 2021-09-07 | 2021-10-08 | 浙江大学 | 一种供应链数据向量化和可视化处理方法及装置 |
CN113806538A (zh) * | 2021-09-17 | 2021-12-17 | 平安银行股份有限公司 | 标签提取模型训练方法、装置、设备与存储介质 |
CN113806538B (zh) * | 2021-09-17 | 2023-08-22 | 平安银行股份有限公司 | 标签提取模型训练方法、装置、设备与存储介质 |
CN116562303A (zh) * | 2023-07-04 | 2023-08-08 | 之江实验室 | 一种参考外部知识的指代消解方法及装置 |
CN116562303B (zh) * | 2023-07-04 | 2023-11-21 | 之江实验室 | 一种参考外部知识的指代消解方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107943847B (zh) | 2019-05-17 |
WO2019085328A1 (zh) | 2019-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107943847B (zh) | 企业关系提取方法、装置及存储介质 | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN110489555A (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN108563703A (zh) | 一种罪名的判定方法、装置及计算机设备、存储介质 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN108647191B (zh) | 一种基于有监督情感文本和词向量的情感词典构建方法 | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN110222184A (zh) | 一种文本的情感信息识别方法及相关装置 | |
CN110502626A (zh) | 一种基于卷积神经网络的方面级情感分析方法 | |
CN110059924A (zh) | 合同条款的审查方法、装置、设备及计算机可读存储介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
CN110287341A (zh) | 一种数据处理方法、装置以及可读存储介质 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
CN113204967A (zh) | 简历命名实体识别方法及*** | |
CN114528398A (zh) | 一种基于交互双重图卷积网络的情感预测方法及*** | |
CN112632377A (zh) | 一种基于用户评论情感分析与矩阵分解的推荐方法 | |
CN107943788A (zh) | 企业简称生成方法、装置及存储介质 | |
CN116681082A (zh) | 离散文本语义分段方法、装置、设备及存储介质 | |
CN113886580A (zh) | 一种情感评分方法、装置及电子设备 | |
CN117290515A (zh) | 文本标注模型的训练方法、文生图方法及装置 | |
CN113688232B (zh) | 招标文本分类方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |