CN109614495A - 一种结合知识图谱和文本信息的相关公司挖掘方法 - Google Patents

一种结合知识图谱和文本信息的相关公司挖掘方法 Download PDF

Info

Publication number
CN109614495A
CN109614495A CN201810898419.1A CN201810898419A CN109614495A CN 109614495 A CN109614495 A CN 109614495A CN 201810898419 A CN201810898419 A CN 201810898419A CN 109614495 A CN109614495 A CN 109614495A
Authority
CN
China
Prior art keywords
model
relationship
pra
company
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810898419.1A
Other languages
English (en)
Other versions
CN109614495B (zh
Inventor
龙世增
蔡瑞初
毕辉
李楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hongjun Big Data Service Co ltd
Original Assignee
Guangzhou Chuxing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Chuxing Technology Co Ltd filed Critical Guangzhou Chuxing Technology Co Ltd
Priority to CN201810898419.1A priority Critical patent/CN109614495B/zh
Publication of CN109614495A publication Critical patent/CN109614495A/zh
Application granted granted Critical
Publication of CN109614495B publication Critical patent/CN109614495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是一种结合知识图谱和文本信息的相关公司挖掘方法。结合知识图谱和文本信息的相关公司挖掘***包括:深度学习关系抽取模块、知识库关系提取模块、PRA训练模块、PRA预测模块、模型库管理模块、用户反馈模块。用户可以从样本库中提取数据训练PRA模型,并存入模型库,还可以通过提取end‑to‑end模型和存储训练的PRA模型,以此预测公司的相关公司及公司之间的关系,作为公司知识图谱的一种发现和补充。本发明将知识图谱中的公司实体关系当作PRA中的限定集,保证了限定集的准确度同时又最大限度降低了限定集的规模,减少了无关路径的数量。

Description

一种结合知识图谱和文本信息的相关公司挖掘方法
技术领域
本发明属于网络信息处理技术领域,具体涉及一种结合知识图谱和文本信息的相关公司挖掘方法。
背景技术
在人工智能兴起的大背景下,知识图谱作为一种全面的表达方式已经得到越来越多的关注,越来越多的研究者投入到了知识图谱的研究中。
福尔摩斯说过:“一个逻辑学家,不需要亲眼见过,或听过大西洋和尼亚加拉大瀑布,他从一滴水中就能推测出它们。知识图谱就像福尔摩斯破案一样,首先需要采集散布在各个角落的碎片化信息和数据,然后把它按标准化思考方式整理,再将各个看似不相关但背后有着共同联系的信息关联起来挖掘背后的规律,据此做深入的推理。
2012年,Google率先在自己的搜索引擎中加入了知识图谱,当用户查询关键词的时候,不仅能够得到相关网页,还可以得到更多与查询词相关的其他信息。从技术的角度来说,知识图谱是一个由数据到信息再到知识,最后转化为智慧的过程。
知识图谱技术包括以下三个方面的研究内容:
1)知识表示:研究客观世界知识的建模,以方便机器识别和理解,既要考虑知识的表示与存储,又要考虑知识的使用和计算;
2)知识图谱构建:解决如何建立计算机算法从客观世界或者互联网的各种数据资源中获取客观世界的知识,主要研究使用何种数据和方法抽取何种知识;
3)知识图谱应用:主要研究如何利用知识图谱建立基于知识的智能服务***,更好地解决实际应用问题。
知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。在关注到知识图谱在自然语言处理、人工智能等领域展现巨大潜力的同时,也不难发现知识图谱中的知识获取、知识表示、知识推理等技术依然面临着一些困难与挑战,很多重要的开放问题急待学术界与工业界协力来解决。知识图谱的主要挑战问题主要包括:1.知识的自动获取;2.多源知识的自动融合;3.面向知识的表示学习;4.知识推理与应用等。在开放源的文本中,如何提取实体和实体之间的关系,一直是知识图谱领域中一个比较棘手的问题。围绕这方面研究主要是entity 和relation extraction。虽然NLP领域也对这个问题研究了很多年,但是在开放信息源中的效果并不是很理想。在未来的几年时间内,知识图谱仍将是大数据智能的前沿研究问题。其中,知识图谱和文本信息的结合将是其中一个重要的方向。
现如今,公司之间的竞争越来越激烈,因此,研究竞争对手,寻找合作伙伴等都变得越来越重要,研究竞争对手可以让公司明白自己与对手相比之下的优势或劣势,有便于差异化竞争或针对性的补强,在与同级别同领域的竞争中确立优势。寻找合作伙伴,确立合作关系,公司之间的信息共享,资源共享等更能直接的让公司具备更强的竞争力,因此,公司之间的关系挖掘是十分具有价值的。
发明内容
为了解决上述问题,本发明提出了一种结合知识图谱和文本信息的相关公司挖掘的方法。本发明将知识图谱中的公司实体关系当作PRA中的限定集,保证了限定集的准确度同时又最大限度降低了限定集的规模,减少了无关路径的数量。
本发明的结合知识图谱和文本信息的相关公司挖掘方法,结合知识图谱和文本信息的相关公司挖掘包括有:
深度学习关系抽取模块:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;
知识库关系提取模块:提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体;将其当作知识图谱特殊的边参与到PRA的计算中;这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性;
PRA训练模块:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score;依此类推,得到不同终点对应的所有路径的score;最高的score代表的路径则表达了公司间的关系最强;然后用深度学习抽取的公司间的关系作为PRA 训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;
PRA预测模块:输入公司A和公司B通过PRA模型后通过计算 score会得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;
模型库管理模块:在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型;PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,根据需要调取不同的end-to-end模型;训练的PRA模型也需要及时更新;
用户反馈模块:对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程,能进一步提高预测的准确率;
结合知识图谱和文本信息的相关公司挖掘方法是:上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。
本发明用样本库接口在样本库中提取公司的文本,在模型库中导入end-to-end深度学习模型进行文本中重要属性及公司关系的抽取。将抽取的公司间的重要属性作为知识图谱中特殊的边参与PRA 的计算,如公司间相似的经营范围,相似的用户群体等。将这些相似的属性作为PRA计算的限定集。在PRA进行随机游走时,匹配限定集中的属性,若存在关系则设为1,不存在则设为0。为了区分不同实体及路径的权重,需要设定权重参数θ。将对应的路径与权重相乘即可得到区分实体重要性的效果。对权重参数θ的估计,即是训练model的目标。有许多方法可以使用,最常用的如逻辑回归分类模型、BLMVM、L-BFGS等。我们可以用关系R和(起点si,终点ti )的集合来构造所需的训练集,最终通过分类器得到所需的权重。这样,在公司之间会产生许多条连接公司的路径,其由公司间相似的实体关系组成。推理这条路径,即可得到最终公司间的关系。那么怎么推理呢?将通过深度学习抽取公司间的关系作为label,对通过PRA随机游走得到的score最高的路径进行类别划分。模型训练结束后,就输入模型库中,在新文本进入deep-learning和KB,得到限定集后进入PRA随机游走,得到score最高的path后再从模型库导出之前训练的关系推理规则进行预测。预测的结果即最终得到的公司之间的关系。值得一提的是,公司间的关系是复杂多样的,本发明主要探讨一下四种公司关系:竞争对手,合作伙伴,上下游,持股,控股。因此,在深度学习进行关系抽取时,对每种关系进行单独抽取,另外,每种关系都对应一个独立的权重分布的PRA 模型,并将各个关系的模型单独训练,将公司间的关系作为参数传递给模型,以便预测端进行预测。同时,预测的结果接受用户的反馈,在用户反馈模块中,会将用户反馈做批量处理,然后加入模型二次训练,进一步提高算法的准确性。本发明具有如下优点:
1)本发明将知识图谱中的公司实体关系当作PRA中的限定集,保证了限定集的准确度同时又最大限度降低了限定集的规模,减少了无关路径的数量。
2)本发明在深度学习模型中抽取的实体关系对PRA路径做了一层加强,使得PRA的预测结果更有说服力。
3)本发明将深度学习模型中抽取的公司关系作为PRA训练的 label,然后对路径分类,解决了根据路径关系推理的问题。
4)本发明基本涵盖了各个类型的常见的公司关系,不会出现重大关系的遗漏或缺失的情况。模型的预测会接受用户的反馈,能够及时的更新数据并重新训练模型。
附图说明
图1为本发明的训练模型流程图。
图2为本发明的预测公司关系流程图。
图3为本发明的***结构图。
具体实施方式:
下面结合附图对本发明做进一步的说明。本发明针对一种结合知识图谱和文本信息的相关公司挖掘方法,包括:
深度学习关系抽取模块1:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;
知识库关系提取模块2:提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体;将其当作知识图谱特殊的边参与到PRA的计算中。这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性;
PRA训练模块3:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score;依此类推,得到不同终点对应的所有路径的score;最高的score代表的路径则表达了公司间的关系最强。然后用深度学习抽取的公司间的关系作为 PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;
PRA预测模块4:输入公司A和公司B通过PRA模型后通过计算 score会得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;
模型库管理模块5:在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型;PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,根据需要调取不同的end-to-end模型。训练的PRA模型也需要及时更新;
用户反馈模块6:对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程,能进一步提高预测的准确率;
上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。
上述end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好,end-to-end不需对文本做其他的处理即可得到实体关系三元组,有利于知识图谱的快速构建。
本发明结合知识图谱和文本信息的分析方法,任务是相关公司的挖掘,而深度学习抽取了公司文本中所有的实体关系三元组,其中公司间的各种关系可以分别作为PRA模型训练的label,每种关系对应一个PRA模型训练一个路径的权重分布,其他比较重要能体现公司间联系的实体关系,如公司间相似的经营范围,用户群体等当作知识图谱特殊的边参与到PRA的计算中。这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性。
本发明在用PRA计算两个公司的之间的关系时,在联系两个公司的实体之间也会有相关关系,这些相关关系连接起来形成一条A 公司通往B公司的路径,同时,A’和B’之间的路径可能不止一条,此时需要将所有出现的路径综合考虑。对路径的知识表示,即得到两个公司的直接关系,就是关系推理的过程;而直接关系又是通过deep-learning抽取出来;因此,将DL抽取出来的各个关系作为各个权重分布的laebl,将各个路径所对应的短路径作为特征,训练特征的权重分布,即可得到各个关系种类的PRA训练模型;每个关系种类对应一个权重分布,并将关系种类放入列表中作为参数供预测时提取;
另外,输入公司A和关系,在知识图谱中得到所有与A存在这种关系的公司B,以公司A为起点,通过PRA计算,从A公司随机游走,通过限定集中的实体,会产生一定数量的游走路径,将每一段路径其乘以对应的θ,可得每条路径的score,score的高低代表了关系的紧密程度,按score的排序输出所有与A有关的公司B。
对新输入的公司A’和B’,要预测它们之间的关系,只需把其对应在知识图谱中的限定集及文本输入训练好的PRA模型,得到最终的path,将其与PRA训练模块3中学到的规则进行比较,找到其对应的关系类别,即为公司A’和B’的关系。当输入公司A和关系类型预测与A存在这种关系的公司B时,通过PRA模型后得到所有和A有关的公司之间的路径,按照得分给目标公司排序来确定关系强弱。从某种角度来说,输入公司A和关系来预测任何可能的B 公司的概率和输入公司A,B来预测潜在关系,本质上是一样的。
模型库需要有一系列的深度学习模型,用于应对不同领域,不同要求的关系抽取;同时也需要保存训练的PRA模型;如果用户反馈模块有更新,需要重新训练模型,则要将后来训练的模型覆盖之前训练的PRA模型。
对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练;这样形成一个model迭代的过程,能进一步提高预测的准确率。
本发明深度学习关系抽取模块1:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;其中,end-to-end模型采用了 LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分的利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好;LSTM-RC联合模型可由论文《Multivariate LSTM-FCNs for Time SeriesClassification》实现,也可从开源网站下载代码。
本发明知识库关系提取模块2:提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体等。将其当作知识图谱特殊的边参与到PRA的计算中。这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强。增强了预测的可靠性。PRA的计算方法参见具体实施方式3.
本发明PRA训练模块3:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1。若不存在,则标记为0。这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score。依此类推,得到不同终点对应的所有路径的score。最高的score代表的路径则表达了公司间的关系最强。然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型。而公司间的关系不止一种,如竞争对手,合作伙伴,上下游,持股,控股。每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型。简言之,通过PRA计算得到PRA路径,利用PRA路径及标签的训练得到PRA模型。
本发明PRA预测模块4:由PRA训练模块得到PRA模型,并依据此模型进行PRA预测。输入公司A和公司B通过PRA模型后通过计算score会得到一条路径。将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型。由于PRA训练模块(3)中的 PRA模型已经完成了根据路径进行关系推理的过程,因此在预测时可以直接输出推理结果。若给出公司A及关系R,则在模型中根据 (3)中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高。
本发明模型库管理模块5:在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型。 PRA训练模块(3)中训练好的PRA模型也需要及时存入模型库,在预测的时候调取。模型库中有针对不同领域训练好的深度学习模型集合,可根据需要调取不同的end-to-end模型。训练的PRA模型也需要及时更新。其中,end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分的利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好。LSTM-RC联合模型可由论文《Multivariate LSTM- FCNs for Time SeriesClassification》实现,也可从开源网站下载代码。
本发明用户反馈模块6:对于预测的公司关系通过用户反馈接口接受用户的反馈。如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练。这样形成一个 model迭代的过程,能进一步提高预测的准确率。model的具体步骤和实现方式详见说明书。
下面分别叙述各模块的具体内容:
1.深度学习实体关系抽取
深度学习关系抽取模块1:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组。
知识库关系提取模块2:提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体等。将其当作知识图谱特殊的边参与到PRA的计算中。这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强。增强了预测的可靠性。
PRA训练模块3:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1。若不存在,则标记为0。这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score。依此类推,得到不同终点对应的所有路径的score。最高的score代表的路径则表达了公司间的关系最强。然后用深度学习抽取的公司间的关系作为 PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型。而公司间的关系不止一种,如竞争对手,合作伙伴,上下游,持股,控股。每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型。
PRA预测模块4:输入公司A和公司B通过PRA模型后通过计算 score会得到一条路径。将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型。由于PRA训练模块(3)中的PRA 模型已经完成了根据路径进行关系推理的过程,因此在预测时可以直接输出推理结果。若给出公司A及关系R,则在模型中根据PRA 训练模块3中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高。
模型库管理模块5:在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型。PRA训练模块3中训练好的PRA模型也需要及时存入模型库,在预测的时候调取。模型库中有针对不同领域训练好的深度学习模型集合,可根据需要调取不同的end-to-end模型。训练的PRA模型也需要及时更新。
用户反馈模块6:对于预测的公司关系通过用户反馈接口接受用户的反馈。如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练。这样形成一个model迭代的过程,能进一步提高预测的准确率。
上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测。预测的结果进入用户反馈模块进行用户纠错反馈。
图1为本发明的训练模型流程,具体步骤如下:
1.从模型库中导入预训练的end-to-end神经网络模型,通过样本接口从样本库中提取公司的相关文本输入模型,输出文本中所有实体及相关关系的三元组。
2.提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体等,将其当作知识图谱特殊的边参与到PRA的计算中。即在从知识图谱中得到的限定集中加入deep-learning提取的实体。
3.在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1。若不存在,则标记为0。这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score。依次类推,得到不同起点不同终点对应的所有路径。score代表的路径则表达了公司间的关系,而 score的高低则代表了关系的紧密程度。用梯度上升算法训练每条路径的权重θ,然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,最终得到一个公司关系的分类模型。而公司间的关系不止一种,如竞争对手,合作伙伴,上下游,持股,控股。每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型。
4.输入公司A和公司B通过PRA模型后通过计算会得到一条的路径。将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型。由于PRA训练模块3中的PRA模型已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果。若已知公司A和关系,则可根据公司知识图谱找到所有可能和公司A 存在这种关系的公司B,通过PRA计算score,score越高表面关系越强,然后按照score的排序输出公司B。
5.对于预测的公司关系通过用户反馈接口接受用户的反馈。如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练。训练后的模型存储到模型库中并覆盖之前的模型。这样形成一个model迭代的过程,能进一步提高预测的准确率。
下面分别叙述各步骤的具体内容:
1.深度学习实体关系抽取
深度学习关系抽取模块需要完成公司之间的关系抽取及其他公司重要属性关系的抽取。导入预训练的端对端深度学习模型直接预测实体间的关系。将公司之间的关系作为PRA模型训练的label,将文本中重要的实体关系当作知识图谱特殊的边,加入到PRA的计算中。关系抽取可提供使用的预训练的深度学习模型,比如联合学习LSTM-RC模型进行训练。其将实体识别和关系抽取放在一个算法中,能够有效利用实体识别和关系抽取间的联系,减少了分开计算造成的信息损失。
1.1深度学习训练部分
深度学习通过反馈模块得到的数据加入原有数据库中一起训练,可进一步提高模型的准确率。本发明从模型库中导入预训练的端对端神经网络进行实体关系的直接预测。由此得到的实体关系一方面作为金融知识图谱的构造元素,另一方面回到Deep-Lasso中进行重新学习,下一次训练的模型会覆盖原有的预训练模型。如此产生一个模型迭代的过程。
1.2深度学习预测部分
在1.1中导入训练好的模型,当文本输入进来时,可直接进入该模块,输出实体间的关系。输出的结果需要通过LSTM解码和 Softmax层,得到最终的实体关系。
预训练end-to-end模型伪代码如下:
该模型主要是通过底层的模型参数共享,在训练时两个任务都会通过后向传播算法来更新共享参数来实现两个子任务之间的依赖。
2.限定集提取
2.1从知识库中导入公司的知识图谱,将知识图谱中与公司连接的实体作为限定集。
2.2将通过deep-learning得到的实体关系补充到知识图谱的限定集中,作为PRA随机游走的节点参与PRA计算。
3.PRA训练
3.1在起始点公司A处,遍历限定集中的每一个实体,作为随机游走的节点。节点与公司B若存在关系,则标记为1。若不存在,则标记为0。
3.2从A开始,产生了与实体个数等同的关系路径,计算当前路径与节点相关的概率值,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score。依次类推,得到不同公司间对应的不同路径,每条路径都有其权重。
3.3用深度学习抽取的公司间的一个关系作为PRA训练时的标签,对路径进行人工划分,最终得到一个公司关系的PRA权重分布。
3.4重复以上三步,得到由所有的关系为label单独训练的PRA 模型。
PRA计算路径过程的伪代码如下所示:
对于任意的P=R1,R2,…RL和查询实体集合:
其中的θi即为每个关系路径对应的权重,用梯度上升训练出权重,即可直接计算公司间得分最高的路径。训练θ的伪代码如下:
4.公司关系预测
4.1输入公司A和公司B,通过PRA模型后得到A与B之间的路径。
4.2将这条路径与训练时学习到的路径-关系类型进行映射,看这条路径属于哪一种关系类型。
4.3输入公司A和关系类型,通过知识图谱得到所有有可能和A 公司存在这种关系的公司B。将此类关系作为参数调取对应的PRA 权重分布,通过PRA模型后得到所有和A有关的公司之间的路径,按照得分给目标公司排序来确定关系强弱。
5.对于预测的公司关系通过用户反馈接口接受用户的反馈。如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练。训练后的模型存储到模型库中并覆盖之前的模型。这样形成一个model迭代的过程,能进一步提高预测的准确率。

Claims (10)

1.一种结合知识图谱和文本信息的相关公司挖掘方法,其特征在于结合知识图谱和文本信息的相关公司挖掘包括有:
深度学习关系抽取模块(1):通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;
知识库关系提取模块(2):提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体;将其当作知识图谱特殊的边参与到PRA的计算中;这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性;
PRA训练模块(3):在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score;依此类推,得到不同终点对应的所有路径的score;最高的score代表的路径则表达了公司间的关系最强;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;
PRA预测模块(4):输入公司A和公司B通过PRA模型后通过计算score会得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;
模型库管理模块(5):在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型;PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,根据需要调取不同的end-to-end模型;训练的PRA模型也需要及时更新;
用户反馈模块(6):对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程,能进一步提高预测的准确率;
结合知识图谱和文本信息的相关公司挖掘方法是:上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。
2.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好,end-to-end不需对文本做其他的处理即可得到实体关系三元组,有利于知识图谱的快速构建。
3.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,在用PRA计算两个公司的之间的关系时,在联系两个公司的实体之间也会有相关关系,这些相关关系连接起来形成一条A公司通往B公司的路径,同时,A’和B’之间的路径可能不止一条,此时需要将所有出现的路径综合考虑;对路径的知识表示,即得到两个公司的直接关系,就是关系推理的过程;而直接关系又是通过deep-learning抽取出来;因此,将DL抽取出来的各个关系作为各个权重分布的laebl,将各个路径所对应的短路径作为特征,训练特征的权重分布,即可得到各个关系种类的PRA训练模型;每个关系种类对应一个权重分布,并将关系种类放入列表中作为参数供预测时提取;
另外,输入公司A和关系,在知识图谱中得到所有与A存在这种关系的公司B,以公司A为起点,通过PRA计算,从A公司随机游走,通过限定集中的实体,会产生一定数量的游走路径,将每一段路径其乘以对应的θ,可得每条路径的score,score的高低代表了关系的紧密程度,按score的排序输出所有与A有关的公司B。
4.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,对新输入的公司A’和B’,要预测它们之间的关系,只需把其对应在知识图谱中的限定集及文本输入训练好的PRA模型,得到最终的path,将其与PRA训练模块中学到的规则进行比较,找到其对应的关系类别,即为公司A’和B’的关系;当输入公司A和关系类型预测与A存在这种关系的公司B时,通过PRA模型后得到所有和A有关的公司之间的路径,按照得分给目标公司排序来确定关系强弱;从某种角度来说,输入公司A和关系来预测任何可能的B公司的概率和输入公司A,B来预测潜在关系,本质上是一样的。
5.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,模型库需要有一系列的深度学习模型,用于应对不同领域,不同要求的关系抽取;同时也需要保存训练的PRA模型;如果用户反馈模块有更新,需要重新训练模型,则要将后来训练的模型覆盖之前训练的PRA模型。
6.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练;这样形成一个model迭代的过程,能进一步提高预测的准确率。
7.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于深度学习关系抽取模块(1):通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;其中,end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分的利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好;LSTM-RC联合模型可由论文《Multivariate LSTM-FCNs for Time SeriesClassification》实现,也可从开源网站下载代码。
8.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于知识库关系提取模块(2):提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体等;将其当作知识图谱特殊的边参与到PRA的计算中;这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性。
9.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于PRA训练模块(3):在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1,若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score,依此类推,得到不同终点对应的所有路径的score,最高的score代表的路径则表达了公司间的关系最强;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,如竞争对手,合作伙伴,上下游,持股,控股,每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;简言之,通过PRA计算得到PRA路径,利用PRA路径及标签的训练得到PRA模型。
10.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于PRA预测模块(4):由PRA训练模块得到PRA模型,并依据此模型进行PRA预测;输入公司A和公司B通过PRA模型后通过计算score会得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于(3)中的PRA模型已经完成了根据路径进行关系推理的过程,因此在预测时可以直接输出推理结果;若给出公司A及关系R,则在模型中根据(3)中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;
模型库管理模块(5):在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型;PRA训练模块(3)中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,可根据需要调取不同的end-to-end模型;训练的PRA模型也需要及时更新;其中,end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分的利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好;
用户反馈模块(6):对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练;这样形成一个model迭代的过程,能进一步提高预测的准确率。
CN201810898419.1A 2018-08-08 2018-08-08 一种结合知识图谱和文本信息的相关公司挖掘方法 Active CN109614495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810898419.1A CN109614495B (zh) 2018-08-08 2018-08-08 一种结合知识图谱和文本信息的相关公司挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810898419.1A CN109614495B (zh) 2018-08-08 2018-08-08 一种结合知识图谱和文本信息的相关公司挖掘方法

Publications (2)

Publication Number Publication Date
CN109614495A true CN109614495A (zh) 2019-04-12
CN109614495B CN109614495B (zh) 2023-11-28

Family

ID=66001931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810898419.1A Active CN109614495B (zh) 2018-08-08 2018-08-08 一种结合知识图谱和文本信息的相关公司挖掘方法

Country Status (1)

Country Link
CN (1) CN109614495B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378126A (zh) * 2019-07-26 2019-10-25 北京中科微澜科技有限公司 一种漏洞检测方法及***
CN111210233A (zh) * 2020-01-02 2020-05-29 联想(北京)有限公司 用户特征确定方法、装置和电子设备
CN111414486A (zh) * 2020-03-20 2020-07-14 厦门渊亭信息科技有限公司 一种基于路径排序算法的知识推理***
CN111626517A (zh) * 2020-05-29 2020-09-04 中国科学技术大学 一种公司竞争合作策略分析方法及***
CN112417171A (zh) * 2020-11-23 2021-02-26 南京大学 面向知识图谱表示学习的数据增广方法
CN113781076A (zh) * 2020-06-29 2021-12-10 北京沃东天骏信息技术有限公司 提示方法、装置、设备及可读存储介质
CN116136866A (zh) * 2023-04-19 2023-05-19 中国人民解放军国防科技大学 基于知识图谱的中文新闻摘要事实性知识校正方法和装置
CN117114739A (zh) * 2023-09-27 2023-11-24 数据空间研究院 一种企业供应链信息挖掘方法、挖掘***及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
CN107491500A (zh) * 2017-07-28 2017-12-19 中国人民大学 一种强适应性的知识库补全方法
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN107945024A (zh) * 2017-12-12 2018-04-20 厦门市美亚柏科信息股份有限公司 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN108228877A (zh) * 2018-01-22 2018-06-29 北京师范大学 基于学习排序算法的知识库补全方法及装置
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
CN107491500A (zh) * 2017-07-28 2017-12-19 中国人民大学 一种强适应性的知识库补全方法
CN107945024A (zh) * 2017-12-12 2018-04-20 厦门市美亚柏科信息股份有限公司 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN108228877A (zh) * 2018-01-22 2018-06-29 北京师范大学 基于学习排序算法的知识库补全方法及装置
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙晨等: "面向企业知识图谱构建的中文实体关系抽取", 《华东师范大学学报(自然科学版)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378126B (zh) * 2019-07-26 2021-03-26 北京中科微澜科技有限公司 一种漏洞检测方法及***
CN110378126A (zh) * 2019-07-26 2019-10-25 北京中科微澜科技有限公司 一种漏洞检测方法及***
CN111210233B (zh) * 2020-01-02 2023-12-26 联想(北京)有限公司 用户特征确定方法、装置和电子设备
CN111210233A (zh) * 2020-01-02 2020-05-29 联想(北京)有限公司 用户特征确定方法、装置和电子设备
CN111414486A (zh) * 2020-03-20 2020-07-14 厦门渊亭信息科技有限公司 一种基于路径排序算法的知识推理***
CN111414486B (zh) * 2020-03-20 2022-11-11 厦门渊亭信息科技有限公司 一种基于路径排序算法的知识推理***
CN111626517A (zh) * 2020-05-29 2020-09-04 中国科学技术大学 一种公司竞争合作策略分析方法及***
CN111626517B (zh) * 2020-05-29 2024-02-27 中国科学技术大学 一种公司竞争合作策略分析方法及***
CN113781076A (zh) * 2020-06-29 2021-12-10 北京沃东天骏信息技术有限公司 提示方法、装置、设备及可读存储介质
CN112417171B (zh) * 2020-11-23 2023-10-03 南京大学 面向知识图谱表示学习的数据增广方法
CN112417171A (zh) * 2020-11-23 2021-02-26 南京大学 面向知识图谱表示学习的数据增广方法
CN116136866A (zh) * 2023-04-19 2023-05-19 中国人民解放军国防科技大学 基于知识图谱的中文新闻摘要事实性知识校正方法和装置
CN117114739A (zh) * 2023-09-27 2023-11-24 数据空间研究院 一种企业供应链信息挖掘方法、挖掘***及存储介质
CN117114739B (zh) * 2023-09-27 2024-05-03 数据空间研究院 一种企业供应链信息挖掘方法、挖掘***及存储介质

Also Published As

Publication number Publication date
CN109614495B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN109614495A (zh) 一种结合知识图谱和文本信息的相关公司挖掘方法
Zhang et al. Scientific evolutionary pathways: Identifying and visualizing relationships for scientific topics
CN103544242B (zh) 面向微博的情感实体搜索***
CN101093559B (zh) 一种基于知识发现的专家***构造方法
CN111488734A (zh) 基于全局交互和句法依赖的情感特征表示学习***及方法
CN102231151B (zh) 一种农业领域本体自适应学习建模方法
CN103500208A (zh) 结合知识库的深层数据处理方法和***
CN108874783A (zh) 电力信息运维知识模型构建方法
CN108229578B (zh) 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
CN107451230A (zh) 一种问答方法以及问答***
CN110532398A (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
CN109241199A (zh) 一种面向金融知识图谱发现的方法
CN113780002A (zh) 基于图表示学习和深度强化学习的知识推理方法及装置
CN114219181A (zh) 基于迁移学习的风电功率概率预测方法
CN105912773A (zh) 一种新的基于数据挖掘技术的智能冲压工艺设计方法
CN109787821B (zh) 一种大规模移动客户流量消费智能预测方法
CN108021557A (zh) 基于深度学习的不规则实体识别方法
CN113868432A (zh) 一种用于钢铁制造企业的知识图谱自动构建方法和***
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索***及方法
Xie et al. A further study on biologically inspired feature enhancement in zero-shot learning
CN115438199A (zh) 一种基于智慧城市场景数据中台技术的知识平台***
Chikwendu et al. A comprehensive survey on deep graph representation learning methods
Sood et al. Neunets: An automated synthesis engine for neural network design
CN117149974A (zh) 一种子图检索优化的知识图谱问答方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231024

Address after: Building 3, Block ABCD, Phase 1, Tian'an Yungu Industrial Park, Gangtou Community, Bantian Street, Longgang District, Shenzhen City, Guangdong Province, 518000, D1302

Applicant after: Shenzhen Hongjun Big Data Service Co.,Ltd.

Address before: Room A438, Building 13, No. 232, Waihuan East Road, Xiaoguwei Street, Panyu District, Guangzhou City, Guangdong Province, 511400

Applicant before: GUANGZHOU CHUXING TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant