CN108182295A

CN108182295A - 一种企业知识图谱属性抽取方法及***

Info

Publication number: CN108182295A
Application number: CN201810136568.4A
Authority: CN
Inventors: 孙世通; 刘德彬; 严开; 陈玮
Original assignee: Chongqing Yu Yu Da Data Technology Co Ltd
Current assignee: China Telecom Yijin Technology Co.,Ltd.; Chongqing Yucun Technology Co ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-06-19
Anticipated expiration: 2038-02-09
Also published as: CN108182295B

Abstract

本发明提供一种企业知识图谱属性抽取方法，包括以下步骤：定义实体类别和事件类别；对每一类实体定义属性结构；语料准备和打标；实体属性抽取；实体属性融合。本发明=结合专家对具体领域实体属性的知识与机器学习对文本内容抽取与分类的客观性、高效性，并应用于全量企业数据的中文语料中；实现以较少量的标注识别各类目标属性。解决对于知识图谱中节点实体属性的抽取及多来源属性融合的问题。

Description

一种企业知识图谱属性抽取方法及***

技术领域

本发明涉及一种信息处理方法及***具体涉及一种企业知识图谱属性抽取方法及***。

背景技术

知识图谱是一种基于图数据结构的语义网络，其基本的单位是节点(Node)和边(Edge)。在企业知识图谱中，节点表征事件实体和企业实体；边表征实体间的关系。整个企业知识图谱中，如果聚焦一家企业，则可以发现其基本信息，各事件节点串接而成的发展历程，各层关联企业群聚等内容(这里的“关联”包含但不仅限于股权投资、合作、上下游、从属等)。

知识图谱应用于企业信息与企业风险发现领域，其核心价值在于把各个类别的企业信息有机地串联起来，从而有助于风险模型去识别其中隐藏的关联风险、族群风险等。而在结构化节点数据这一步骤中，主要面临两大问题：1)从不同数据源中抽取不同属性，2)对同一实体中来自不同来源的属性进行合理融合。

就技术层面而言，要构建这样的企业知识图谱，须要攻克以下两个难点：

实体属性抽取及多来源属性融合和不同实体间关系的确立。

现有技术采用基于行业经验规则与词典的属性抽取与融合和基于监督学习和模式匹配的属性抽取与融合。

现有技术的缺点是基于行业经验规则与词典的属性抽取与融合：对不同行业的实体，其行业属性的确定都需要资深行业专家介入，但全依靠人力始终无法克服标注效率低下，标注标准不一致等问题。而依靠统一规范的词典虽然能识文本中以动词为中心词的关系，但对于名词同位语之类的关系抽取就容易误判。此外这种方法无法对未登录词进行有效地处理和判断。

现有技术也有采用基于监督学习和模式匹配的属性抽取与融合：通过在人工标注的语料上构造分类器，但其主要瓶颈在于需要的标注较多，且对数据质量要求较高。

现有技术企业知识图谱属性抽取以文本数据为主，但遇到图、音视频、文本同时出现，需要跨源处理时存在一定的制约。在建模过程中也没有考虑到抽取不同层次、粒度的实体与关系的情况。

现有技术企业知识图谱属性抽取对目标文本的处理采用人工标注，效率低下成本高昂，不能对海量文本快速处理。

现有技术企业知识图谱属性抽取不能实现文本之间相关性分析和推理，实现端到端的自适应学习与关系建立。

发明内容

本发明提供一种可以高效、自动、准确进行企业知识图谱属性抽取的方法，包括以下步骤：

定义训练样本的实体类别、事件类别、实体属性结构；

训练样本语料准备和打标；

训练实体属性抽取模型；

将目标文本输入实体属性抽取模型得到目标文本实体属性；

对目标文本执行实体属性融合。

进一步的，所述定义训练样本的实体类别、事件类别、实体属性结构包括，

定义实体类别为企业因素或/和个人因素；

定义事件类别为裁判文书、法院公告、开庭公告、招投标、股权、战略、人事、财务、债务、产品、营销、品牌、事故中的多种或一种；

定义属性的字段为类型字段、时间字段、标记字段、主体字段中的多种或一种；

训练样本语料准备和打标包括，对训练样本库各文本的事件类别和实体属性结构标注。

进一步的，训练实体属性抽取模型包括以下步骤：

S1：按字标注，将N*K维字向量矩阵作为第一双向长短时记忆循环神经网络输入，得到每个字的N*T维标注类概率分布矩阵，其中N为批尺寸数值，K为字嵌入向量长度，T为字标注的类别数，最大值的位置对应当前字的标签，并获取每个字的字嵌入数据；

S2：确定训练样本主体信息；

S3:按下式定义事件向量，其中，eventEmbedding为事件向量，w_j表示句子中第j个字的向量，n表示主体前后距离n以内的句子；

按事件标注，将N*K维事件向量矩阵作为第二双向长短时记忆循环神经网络初始输入，其中N为批尺寸数值，K为字嵌入向量长度，L为事件标注的类别数，最大值的位置对应了当前事件的标签。

定义贝叶斯网路为：

P(A,B,C,D)＝P(D|A,B)*P(C|A)*P(B|A)P(A)

A为文本是否描述某类事件的概率，

B为事件抽取成功的概率，

C为含时间信息的概率，

D为含特定领域词汇的概率，

其中B的值由N*L维标注类概率分布矩阵输出的标签是否与训练样本打标相同决定，若相同则B赋值为1若不相同则B赋值为0，

从第二双向长短时记忆循环神经网络获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络，将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果反馈至第二双向长短时记忆循环神经网络；

S4：定义损失函数为双向长短时记忆循环神经网络每个时间节点的输出与训练样本打标数据的均方误差，重复步骤S3至损失函数收敛。

进一步的，实体属性抽取模型,包括，

从第二双向长短时记忆循环神经网络前向隐含层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络，将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层的输入；

或者，

从第二双向长短时记忆循环神经网络输出层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络，将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络输入层的输入；

进一步的，对目标文本执行实体属性融合包括以下步骤：

A依据与结构模板的相似性，选定事件实体数据的基础结构作为基底值；

B遍历候选集事件，按树型结构深度优先顺序匹配树型；

C当两个事件比较时，遵循以下规则：

若存在基础结构中节点属性值缺失，则直接补充；

若存在基础结构中，对应的节点属性值发生冲突,若质量评估函数得出候选集的属性值较优，对基底的非空值进行替换；

若基底属性为列表格式，对基底的表增添候选集中独有的非重复元素；

D重复步骤B和步骤C至属性无法继续完善。

为了保证上述方法的实施，本发明还提供一种企业知识图谱属性抽取***，包括以下单元：

定义单元，用于定义训练样本的实体类别、事件类别、实体属性结构；

打标单元，用于训练样本语料准备和打标；

训练单元，用于训练实体属性抽取模型；

实体属性抽取单元，用于将目标文本输入实体属性抽取模型得到目标文本实体属性；

属性融合单元，用于对目标文本执行实体属性融合。

进一步的，定义单元定义训练样本的实体类别、事件类别、实体属性结构包括，

定义实体类别为企业因素或/和个人因素；

所述训练样本语料准备和打标包括对训练样本库各文本的事件类别和实体属性结构标注。

进一步的，训练单元采用以下步骤训练实体属性抽取模型：

S2：确定训练样本主体信息；

定义贝叶斯网路为：

P(A,B,C,D)＝P(D|A,B)*P(C|A)*P(B|A)P(A)

A为文本是否描述某类事件的概率，

B为事件抽取成功的概率，

C为含时间信息的概率，

D为含特定领域词汇的概率，

其中B的值由N*L维标注类概率分布矩阵输出的标签是否与训练样本打标相同决定，若相同则B赋值为1，若不相同则B赋值为0，

进一步的，实体属性抽取模型,包括，

从第二双向长短时记忆循环神经网络前向隐含层获取第一N*L维矩阵，并将第一N*L维矩阵输入贝叶斯网络，将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层的输入；

或者，

进一步的，属性融合单元采取以下步骤对目标文本执行实体属性融合：

B遍历候选集事件，按树型结构深度优先顺序成对匹配属性；

C当两个事件比较时，遵循以下规则：

若存在基础结构中节点属性值缺失，则直接补充；

若存在基础结构中，对应的节点属性值发生冲突，若质量评估函数得出候选集的属性值较优，对基底的非空值进行替换；

D重复步骤B和步骤C至属性无法继续完善。

本发明的有益效果是：

1实现多源异构数据中知识的获取以及降低算法模型对标签的依赖程度。

2实现实体属性抽取及多来源属性融合及不同实体间关系的确立。

3结合专家对具体领域实体属性的知识与机器学习对文本内容抽取与分类的客观性、高效性，并应用于全量企业数据的中文语料中；实现以较少量的标注识别各类目标属性。

4通过样本数据对属性抽取模型训练完毕后，对海量目标文本数据实现自动化实体属性抽取及知识图谱构建，提高了效率，降低了人力成本。

5本发明结合贝叶斯网络与LSTM的优势，提出贝叶斯回复式神经网络。其中，贝叶斯网络作对BiLSTM回复式神经网络进行反馈，实现横向使用BiLSTM回复式神经网络捕捉实体间的长时间长范围的时空相关性，在纵向上使用贝叶斯网络实现相关性分析和推理。同时，通过反馈贝叶斯网络的推理结果对BiLSTM进行更新，从而实现端到端的自适应学习与关系建立。

附图说明

图1为本发明一实施例企业知识图谱属性抽取方法流程图。

图2为本发明一实施例企业知识图谱属性抽取***结构图。

图3为现有技术长短期记忆网络示意图。

图4为现有技术BiLSTM神经网络模型示意图。

图5为本发明一实施例贝叶斯回复式神经网络模型示意图。

图6为本发明一实施例贝叶斯网络示意图。

图7为本发明现有技术LSTM记忆模块示意图。

图8为本发明一实施例特征融合示意图。

图9为本发明一实施例特征融合示意图。

具体实施方式

本发明解决背景技术描述问题的思路之一是：采用贝叶斯回复式神经网络作为实体属性抽取模型实现企业知识图谱属性抽取。其中，贝叶斯网络作为一个网络层堆栈到BiLSTM回复式神经网络的上层，从而实现横向使用BiLSTM回复式神经网络捕捉实体间的长时间长范围的时空相关性，在纵向上使用贝叶斯网络实现相关性分析和推理。同时，通过反馈贝叶斯网络的推理结果对BiLSTM进行更新，从而实现端到端的自适应学习与关系建立。构建准确高效的实体属性抽取模型，实现实体属性抽取的自动化。

如图1所示，本发明企业知识图谱属性抽取方法包括以下步骤：

定义训练样本的实体类别、事件类别、实体属性结构；

训练样本语料准备和打标；

训练实体属性抽取模型；

将目标文本输入实体属性抽取模型得到目标文本实体属性；

对目标文本执行实体属性融合。

其中，定义实体类别与事件类别步骤中，

实体类别可以是企业或个人。

事件类别可以是，裁判文书、法院公告、开庭公告、招投标、股权、战略、人事、财务、债务、产品、营销、品牌、事故等

针对每一类实体，定义其标准化的属性结构，以事故类为例，在本发明一实施例中定义事件的属性结构为：

以股权为例，在本发明一实施例中定义事件的属性结构为：

语料的准备和打标步骤中,在本发明一实施例中字标注规范和含义如下：

B-ORG代表实体起始位标签

I-ORG代表实体组成标签

X代表标点等占位符

O代表其他文字

语料打标完成后，后续程序可以理解文本中实体的含义，方便机器对文本进行处理。

在本发明一实施例中按以上规范，完成训练文本每个字的打标。

在本发明一实施例中事件标签规范和含义如下：

JUDGE代表裁判文书；

NOTICE代表法院公告；

COURT代表开庭公告；

BIDDING代表招投标；

STOCK代表股权；

STRATEGY代表战略；

HR代表人事；

FINANCE代表财务；

DEBET代表债务；

PROD代表产品；

MARKET代表营销；

BRAND代表品牌；

ACCIDENT代表事故；

需要说明的是，事件的标签和规范可以根据具体的项目灵活选择，并且不限定只采用本发明列举的上述事件。

事件标签采用英语表述方便后续程序对文本进行处理。

按以上规范，完成训练文本每篇文本的打标。

在本发明一实施例中训练文本的打标由人工进行，打标结果作为后续步骤中模型训练的基准。

下面结合实施例对训练实体属性抽取模型步骤进行说明，

鉴于当前主流方法在处理实体属性抽取时存在的一系列问题(背景技术中提及)，拟基于深度神经网络来应对这些难点。本发明提出在针对企业为主体的事件实体的属性抽取问题中，应用端到端的半监督和无监督的方法，从而实现多源异构数据中知识的获取以及降低算法模型对标签的依赖程度。

长短期记忆网络(Long Short-Term Memory Network，LSTM)，是一种特殊的回复式神经网络，用以学习时间序列数据的长期依赖关系。其自被提出以来，已被广泛应用于手写、语音识别，机器翻译等诸多领域，并取得不俗的成绩。其能实现数据的长期记忆，在文本语义分析中有着显著的效果。LSTM在时间维度上进行展开，可得到链状LSTM神经网络，可对长度不确定的实体和实体间的关系进行建模，进而表征其各自的特征。LSTM记忆模块如图7所示。

LSTM的cell可用以下公式表征：

i_t＝g(W_xix_t+W_hih_t-1+b_i)

f_t＝g(W_xfx_t+W_hfh_t-1+b_f)

o_t＝g(W_xox_t+W_hoh_t-1+b_o)

输入变化可用以下公式表征：

c_in_t＝tanh(W_xcx_t+W_hch_t-1+b_{c_in})

状态变更可用以下公式表征：

c_t＝f_t·c_t-1+i_t·c_in_t

h_t＝o_t·tanh(c_t)

双向长短期记忆网络(Bidirectional LSTM,BiLSTM)包含前向隐含层与后向隐含层两组模块，可获取上下文长时间长范围的相关联依赖关系，捕获前后文实体特征，获取更多实体之间的时空相关性，并能从两个方向上排除干扰实体等噪声对神经网络模型的影响，极大助力对长期依赖关系的挖掘，提取出对信息抽取及实体关系识别等至关重要的高层语义特征。相对贝叶斯网络，LSTM及其变种的优势是能捕捉到实体间的长序列关系，但其推理能力和可解释性较差。BiLSTM神经网络模型如图4所示。

贝叶斯网络(Bayesian Network,BN)，又称信念网络(Belief Network)，是一种概率图模型。其模拟人类推理过程中因果关系的不确定性从而实现关系建立和推理，其具有良好的知识表现及处理不确定性知识的能力。此外，贝叶斯网络能从概率角度对知识进行编码和解释，在包括计算机智能科学、医疗诊断、信息检索等很多领域已得到广泛应用。贝叶斯网络的优点是强大的推理能力，而缺点则是对长序列的建模能力较差，不能很好地捕捉到实体与实体间的间接关系。

本发明结合贝叶斯网络与BiLSTM的优势，提出贝叶斯回复式神经网络。其中，贝叶斯网络作为一个网络层堆栈到BiLSTM回复式神经网络的上层，从而实现横向使用BiLSTM回复式神经网络捕捉实体间的长时间长范围的时空相关性，在纵向上使用贝叶斯网络实现相关性分析和推理。同时，通过反馈贝叶斯网络的推理结果对BiLSTM进行更新，从而实现端到端的自适应学习与关系建立。

本发明一实施例中贝叶斯回复式神经网络模型如图5所示。

本发明一实施例采用以下步骤训练实体属性抽取模型：

S1按字标注，将字向量矩阵(N*K)作为BiLSTM输入，得到每个字的标注类概率分布(N*4矩阵)。其中N为每个batch的长度，K为Embedding向量长度，4为字标注的类别数，最大值的位置对应了当前字的标签。此时同时还获得了每个字的word embedding。

Embedding可以看作是数学上的一个空间映射(Mapping)：map(lambda y:f(x))，该映射的特点是：单射(在数学里，单射函数为一函数，其将不同的引数连接至不同的值上。更精确地说，函数f被称为是单射时，对每一值域内的y，存在至多一个定义域内的x使得f(x)＝y。)、映射前后结构不变，对应到word embedding概念中可以理解为寻找一个函数或映射，生成新的空间上的表达，把单词one-hot所表达的X空间信息映射到Y的多维空间向量。

Batch Size：批尺寸。在本发明一实施例中该参数更新的方法有三种：

(1)Batch Gradient Descent，批梯度下降，遍历全部数据集计算一次损失函数，进行一次参数更新，这样得到的方向能够更加准确的指向极值的方向。

(2)Stochastic Gradient Descent，随机梯度下降，对每一个样本计算一次损失函数，进行一次参数更新，优点是速度快。

(3)Mini-batch Gradient Decent，小批梯度下降，前面两种方法的折中，把样本数据分为若干批，分批来计算损失函数和更新参数，这样方向比较稳定。S2根据序列标注的结果，从文本中获得事件的主体(subject)候选，

S2：通过句法和词性分析确定主体(依存句法分析，为本领域技术人员通晓的公知常识此处不再展开)；

S3:按下式定义事件向量，其中，eventEmbedding为事件向量，wj表示句子中第j个字的向量，n表示主体前后距离n以内的句子；

通过上述步骤可以从训练文本或目标文本中每个字的标注类概率分布获取该文本的事件向量矩阵。

按事件标注，将事件向量矩阵(N*K)作为BiLSTM输入，得到训练样本中每个事件的标注类事件概率分布(N*L矩阵)。其中N为每个batch的长度，K为Embedding向量长度，L为事件标注的类别数(在后文不再赘述)，最大值的位置对应了当前事件的标签。

最大值的位置对应了当前事件的标签，既在概率分布中最大概率的事件判断为实体属性抽取的结果。

在本发明一实施例中，按事件标注指训练样本中标注为同一事件类型的文本集合。

在本发明一实施例中，如图6所示依据实际依赖关系，定义贝叶斯网络既文本描述某类事件的联合概率文本描述某类事件的联合概率的DAG(有向无环图Directed AcyclicGraph)为:

P(A,B,C,D)＝P(D|A,B)*P(C|A)*P(B|A)P(A)

A为文本是否描述某类事件的概率，

B为事件抽取成功的概率，

D为含特定领域词汇的概率，

C为含时间信息的概率，

其中B事件(抽取成功的概率)，可通过计算语料的全体事件中，计算得到的标签是否与训练样本打标相同得到，若相同则B赋值为1若不相同则B赋值为0。

若第二双向长短时记忆循环神经网络输出的标签事件与人工标记的标签事件相同，则说明事件抽取成功，否则说明事件抽取不成功。

在本发明一实施例中，将一个训练样本输入BiLSTM得到这个样本的事件类别分布，其中该样本事件为事故的概率最大，既该样本抽取为事故事件，若对该样本的打标为事故则事件抽取成功B＝1，若对该样本的打标不是事故则表示事件抽取失败B＝0

在本发明一实施例中，事故事件含有特定领域词汇的概率为，样本库中人工标注所有发生事故事件的样本中含有特定领域词汇的样本数量除以人工标注为事故的样本总数量。

在本发明一实施例中，事故事件含有时间信息的概率为，样本库中人工标注所有发生事故事件的样本中含有时间信息的样本数量除以人工标注为事故的样本总数量。

贝叶斯网络输出的矩阵为文本是否描述某事件的概率分布矩阵；

具体的，上述过程可以包括两种实施方式，

第一实施方式：从第二双向长短时记忆循环神经网络前向隐含层获取第一N*L维矩阵，并将第一N*L维矩阵输入贝叶斯网络，将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层的输入；

具体的，第一实施方式包括，

如图8所示，从第二双向长短时记忆循环神经网络前向隐含层t时刻获取第一N*L维矩阵，并将第一N*L维矩阵输入贝叶斯网络，将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层t时刻的输入；

本领域人员应当知晓，本发明中t时刻指输入序列t，循环神经网络在每一个时刻会有一个输入Xt。

在其他实施方式中从第二双向长短时记忆循环神经网络前向隐含层t1时刻获取第一N*L维矩阵，并将第一N*L维矩阵输入贝叶斯网络，将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层t2时刻的输入，t1和t2为不同的输入序列；

第二实施方式：如图9所示，从第二双向长短时记忆循环神经网络输出层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络，将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络输入层的输入；

在本发明中，贝叶斯网络作为一个网络层堆栈到BiLSTM回复式神经网络的上层，实现横向使用BiLSTM回复式神经网络捕捉实体间的长时间长范围的时空相关性，在纵向上使用贝叶斯网络实现相关性分析和推理。同时，通过反馈贝叶斯网络的推理结果对BiLSTM进行更新，从而实现端到端的自适应学习与关系建立。

需要说明的是，对双向长短时记忆循环神经网络输出矩阵和贝叶斯网络输出矩阵取算数平均值仅是矩阵特征融合的一种方式，本发明并不对此做限定，矩阵特征融合的方式还可以包括几何平均值，平方平均值(均方根平均值，rms)，调和平均值，加权平均值等。

S4定义损失函数(loss function)为BiLSTM每个时间节点的输出与label的均方误差(mean square error)，迭代模型至损失函数收敛即重复步骤S3至损失函数收敛。

下面结合实施例对目标文本执行实体属性融合步骤进行说明。

经过将目标文本输入实体属性抽取模型得到目标文本实体属性，可得到所有目标文本的主体及其属性结构，并得到目标文本所属事件类别的分布：

Distribution＝[p1,p2,…,pL]

但对于不同数据源获得的事件中，有可能存在互相描述同一事件，但属性抽取结果各有缺失/冲突等现象。因此本发明引入融合策略，在事件抽取的基础上解决这一问题。

本发明定义两个事件的类别相似性可用他们事件分布的相似度表征(余弦相似度等)。抽取的事件太多的时候，两两遍历其相似度则会造成较大的计算开销。因此要获取事件候选集合，并在候选集合中选取待融合的事件集。

选取候选集合的基本规则如下：

事件主体相同

事件类别分布的相似度高(Cosine Similarity)

事件时间相近

对于事件候选集合，还需要实现属性的互补融合，该步骤主要依赖于时间、主体、类别等属性的匹配程度，达成相同事件的实体对齐。属性融合步骤如下：

A依据与结构模板的相似性，选定事件实体数据的基础结构作为基底值

B遍历候选集事件，按树型结构深度优先顺序成对匹配属性

C当两个事件比较时，遵循以下规则：

若存在基础结构中节点属性值缺失，则直接补充；

D重复B～C直至属性无法继续完善

在本发明一实施例中对两个目标文本抽取到两个事件

本实施例中结构模板为

在本实施例中基础结构为

在本实施例中属性值为eventType、tags、subject、time、tags；

在本发明另一实施例中多个目标表文本通过属性抽取模型后得到两个事件：

事件1：

事件2：

由于上述两个事件具有相同的subject和相同time，既两个事件具有相同的结构模板，对事件1和时间2融合后得到事件3

在本发明另一实施例中多个目标文本通过属性抽取模型后得到两个事件：

事件4：

事件5：

在本实施例中两个事件存在相同的基底结构，但是time属性发出冲突，质量评估函数得出事件5的time属性值较优，故将事件4的time属性替换为time:2017-05-0800:00:00。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种企业知识图谱属性抽取方法，其特征在于，包括以下步骤：

定义训练样本的实体类别、事件类别、实体属性结构；

训练样本语料准备和打标；

训练实体属性抽取模型；

将目标文本输入实体属性抽取模型得到目标文本实体属性；

对目标文本执行实体属性融合。

2.根据权利要求1所述的一种企业知识图谱属性抽取方法，其特征在于，

所述定义训练样本的实体类别、事件类别、实体属性结构包括，

定义实体类别为企业因素或/和个人因素；

3.根据权利要求1所述的一种企业知识图谱属性抽取方法，其特征在于，

训练实体属性抽取模型包括以下步骤：

S2：确定训练样本主体信息；

按事件标注，将N*K维事件向量矩阵作为第二双向长短时记忆循环神经网络初始输入，其中N为批尺寸数值，K为字嵌入向量长度，L为事件标注的类别数，最大值的位置对应了当前事件的标签；

定义贝叶斯网路为：

P(A,B,C,D)＝P(D|A,B)*P(C|A)*P(B|A)P(A),

A为文本是否描述某类事件的概率，

B为事件抽取成功的概率，

C为含时间信息的概率，

D为含特定领域词汇的概率，

4.根据权利要求1至3中任意一项所述的一种企业知识图谱属性抽取方法，其特征在于，

实体属性抽取模型,包括，

或者，

从第二双向长短时记忆循环神经网络输出层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络，将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络输入层的输入。

5.根据权利要求1所述的一种企业知识图谱属性抽取方法，其特征在于，

对目标文本执行实体属性融合包括以下步骤：

B遍历候选集事件，按树型结构深度优先顺序匹配属性；

C当两个事件比较时，遵循以下规则：

若存在基础结构中节点属性值缺失，则直接补充；

D重复步骤B和步骤C至属性无法继续完善。

6.一种企业知识图谱属性抽取***，其特征在于，包括以下单元：

打标单元，用于训练样本语料准备和打标；

训练单元，用于训练实体属性抽取模型；

属性融合单元，用于对目标文本执行实体属性融合。

7.根据权利要求6所述的一种企业知识图谱属性抽取***，其特征在于，

定义单元定义训练样本的实体类别、事件类别、实体属性结构包括，

定义实体类别为企业因素或/和个人因素；

8.根据权利要求6所述的一种企业知识图谱属性抽取***，其特征在于，

训练单元采用以下步骤训练实体属性抽取模型：

S2：确定训练样本主体信息；

定义贝叶斯网路为：

P(A,B,C,D)＝P(D|A,B)*P(C|A)*P(B|A)P(A),

A为文本是否描述某类事件的概率，

B为事件抽取成功的概率，

C为含时间信息的概率，

D为含特定领域词汇的概率，

9.根据权利要求6至8中任意一项所述的一种企业知识图谱属性抽取***，其特征在于，

实体属性抽取模型,包括，

或者，

10.根据权利要求6所述的一种企业知识图谱属性抽取***，其特征在于，

属性融合单元采取以下步骤对目标文本执行实体属性融合：

B遍历候选集事件，按树型结构深度优先顺序成对匹配属性；

C当两个事件比较时，遵循以下规则：

若存在基础结构中节点属性值缺失，则直接补充；

D重复步骤B和步骤C至属性无法继续完善。