CN114254126A

CN114254126A - 一种基于大数据的供应链知识图谱分析方法

Info

Publication number: CN114254126A
Application number: CN202111573441.7A
Authority: CN
Inventors: 郭锐; 王奎
Original assignee: Titanium Rong Intelligent Technology Suzhou Co ltd
Current assignee: Titanium Rong Intelligent Technology Suzhou Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-29

Abstract

本发明公开了一种基于大数据的供应链知识图谱分析法，其中包括企业本体的构建：利用企业数据相关信息构建企业本体信息图；企业知识抽取：从不同的数据获取企业信息数据，并通过企业信息分类、摘要提取、数据去重、命名实体识别和实体关系抽取技术对这些信息进行处理并构建企业之间关系的三元组；企业知识融合：对异构的数据执行实体对齐和实体匹配步骤解决数据冲突问题；企业知识存储：对不同的数据实现融合后，通过图数据库对持久化存储，图数据库储存企业本体信息图模型数据和企业关系三元组，构建供应链知识图谱分析平台；企业供应链分析：利用已经产生的知识图谱获取企业之间的联系和上下游关系，辅助金融机构对供应链企业进行风险评估。

Description

一种基于大数据的供应链知识图谱分析方法

技术领域

本发明涉及一种分析方法，具体地说是一种基于大数据的供应链知识图谱分析方法。

背景技术

随着社会的日益发展，企业之间的关联信息也成为了一种资源。通过企业之间的如交易信息，股票购买等关联信息，商家或者银行可以根据这些信息判断企业之间供应链的上下游关系，结合企业内部的数据综合判断企业的经营状况和风险状况。如何有效的识别企业之间的关联信息，充分利用这些关联信息去构建商家或者银行的数据库变得尤为重要，由于新闻报道的强时效性，往往我们可以第一时间通过这种方式了解企业的以及企业间的交易信息，如何有效的利用有关企业的报道，如何实时监控企业的交易信息，如何将这些信息实时的调节企业的风险评级，这是一个难题。

发明内容

为此，本发明所要解决的技术问题在于如何通过大数据特征和关联技术手段形成行业知识图谱，实现对金融机构所服务的市场主体间供应链上下游关联情况的识别与结构化刻画，拓展了复杂网络社区发现算法在企业关联关系识别、资金流向、循环担保分析、供应链风险传播等场景的应用，为金融机构提供更加直观、全面及准确的企业主体经营和信用状况展示。

为解决上述技术问题，本发明提供一种基于大数据的供应链知识图谱分析方法，一种基于大数据的供应链知识图谱分析法，包括以下步骤：

本发明的有益效果是：

一种基于大数据的供应链知识图谱分析法，包括以下步骤：

(1)企业本体信息图的构建：根据数据来源提取若干种企业本体信息的三元组构建企业本体信息图；

(2)企业知识抽取：获取企业信息数据，并通过企业信息分类、摘要提取、数据去重、命名实体识别和实体关系抽取技术对这些信息进行处理并构建企业关系组合；

(3)企业知识融合：对企业关系组合和企业本体信息图执行实体对齐和实体匹配步骤解决数据冲突问题，借助知识推理技术扩展现有知识，进行企业知识融合；

(4)构建供应链知识图谱分析平台：对企业知识融合通过图数据库对持久化存储，图数据库储存企业本体信息图和企业本体信息图，构建供应链知识图谱分析平台，挖掘企业供应链特征数据价值；

(5)企业供应链分析：利用已经产生的供应链知识图谱分析平台获取企业之间的联系和上下游关系，结合原有线下背景审查及信用交叉核验机制，辅助金融机构对供应链企业进行风险评估。

(6)所述步骤(1)中的企业本体信息的三元组包括：内资金流向数据、企业工商注册数据、行业协会宏观数据。

优选的，所述获取企业信息数据包括人工收集的方式或者是在遵守数据协议的情况下使用爬虫获取，所述数据来源主要来源于企业工商注册数据。

优选的，所述步骤(2)中的摘要提取是过滤企业信息数据中无用的信息，只保留需要在RDF图中的数据，所述数据去重是对企业信息数据进行分词，对比分词之后的语句，重复度达到某一个阈值。

优选的，所述步骤(2)中的命名实体识别指通过使用命名实体识别工具识别句子特定意义的实体，所述实体关系抽取是从文本中识别实体并抽取实体之间的语义关系，针对摘要提取的信息，基于HanLP工具包和依存句法分析来抽取开放域中文实体名词。

优选的，所述依存句法分析包括通过分析语言单位内成分之间的依存关系，解释其句法结构的过程。

优选的，所述步骤(4)中图数据库以图数据结构的方式来表现和存储数据。

优选的，所述步骤(4)中的持久化存储对不同来源不同形态的数据实现融合后再将数据存入数据库中。

本发明的有益效果是：

通过大数据特征融合和关联识别技术手段形成行业知识图谱，实现对金融机构所服务的市场主体间供应链上下游关联情况的识别与结构化刻画，拓展了复杂网络社区发现算法在企业关联关系识别、资金流向、循环担保分析、供应链风险传播等场景的应用，为金融机构提供更加直观、全面及准确的企业主体经营和信用状况展示。

通过大数据融合技术整合多源异构企业数据，形成企业关联关系网状数据，丰富待评估企业主体的信息维度，提升金融机构在信用风险评估和信贷审批决策过程中的客观性和准确性，实现对链属中小企业的增信。

附图说明

图1为一种基于大数据的供应链知识图谱分析方法的整体流程图；

图2为企业知识抽取的流程步骤图；

图3为机器学习的方法对数据分类任务进行学习的步骤图。

具体实施方式

如图1-2所示：图1为该方案整体的步骤，其中步骤分为：

企业本体构建：

以企业为中心围绕企业构建不同的属性，比如：地址，公司简介，业务范围，员工总数等一级属性；以及和企业风险相关的，比如司法出售，不正常交易和股权问题等二级属性；此外还有指向自身的比如股权分配，子公司等特殊属性。

供应链知识图谱构建过程中，企业本体提供了上层的数据模式，是实体存在的形式化描述，是知识图谱的重要组成部分。首先，确定数据的来源，数据主要来源于企业工商注册数据(如企查查，启信宝等)。利用所收集到的数据构建企业本体的三元组。这里的本体信息可以是企业注册地，注册资金等基本信息，可以是股权分配，财务报表等财务信息，也可以是裁决报告等风险信息。如图1所示。其中，实线表示类和类之间的对象属性。

数据主要来源于企业工商注册数据(如企查查，启信宝等)。利用所收集到的数据构建企业本体的三元组。这里的本体信息可以是企业注册地，注册资金等基本信息，可以是股权分配，财务报表等财务信息，也可以是裁决报告等风险信息。如图1所示。其中，实线表示类和类之间的对象属性。

企业知识抽取:

如图2所示,企业知识抽取是从不同来源，不同结构的数据中抽取企业相关知识的过程，企业知识抽取一般分为以下几个步骤。

(1)获取企业信息数据。其数据主要来源于各大新闻媒体平台的新闻报道，企业内三大财务报表，企业的交易信息，企业的官方网站所披露的信息，以及行内的企业资金流向等。数据的收集既可以用人工收集的方式又可以在遵守数据协议的情况下使用爬虫获取。

(2)企业信息分类。预先使用人工的方式给企业相关的报道，赋予相对应的标签。比如这些标签的名字可以被设计成:正向评价，负面评价，中性评价这三类评价类标签，每一类标签下面又存在比如：交易，投资，财务，企业员工等精确描述企业状况的二级子标签。当获取到数据和数据标签后，使用常规的机器学习的方法对数据的分类任务进行学习。主要的步骤如图3。

首先利用如HanLP,jieba等常见的分词软件对企业文本数据进行分词，删除分词后数据中常见的停用词。利用gensim，tf-idf vec等word2vec工具将现有的词进行向量化编码。利用数据去训练rnn，lstm等神经网络模型，将未加标签的数据置入训练好的网络中，预测数据的标签。

(3)摘要提取，摘要提取的目的是过滤文章中大量无用的信息，只保留需要的可能会保留在RDF图中的数据。

(4)数据去重，互联网的信息往往是大量重复的，这一步的目的就是去除重复信息，防止重复数据对数据的污染。这一步的具体做法是，对数据进行分词，对比分词之后两个语句，如何重复度达到某一个阈值，即认为两个数据是相同的，删除其中一个数据即可。

(5)命名实体识别，命名实体识别是指识别一个句子中特定意义的实体，并将其区分为人名，地名，机构名，专有名词等类别，使用之前的文本中的摘要利用现有的命名实体识别工具，便可轻易给定句子中特定意义的实体，如HanLP中文分词工具包，利用隐马尔科夫模型进行命名实体识别，对中文名，音译人名，企业名，产品名等通用类别上都有一个非常好的表现。

(6)实体关系抽取及其知识融合。关系抽取指从文本中识别实体并抽取实体之间的语义关系。针对摘要提取的信息，基于HanLP工具包，基于依存句法分析来抽取开放域中文实体名词。依存句法分析就是通过分析语言单位内成分之间的依存关系，解释其句法结构的过程。

句法结构的确定可以进一步的抽取摘要中的主谓关系，动宾关系，间宾关系，动补关系等各类句法依存关系。从而识别各个主体间的对应关系。存储上述的依存关系，构造三元组，利用三元组构建图关系。

知识存储时知识图谱构建非常重要的一环，对不同来源，不同形态的数据实现融合后，需要将这些数据存入数据库中，用于支撑知识推理，知识计算等上层应用，由于知识图谱中存储的大都是关联密集型数据，而图数据库能够方便的存储这一数据类型，因此图数据库成为了主流的存储方式。图数据库是以“图数据结构”来表现和存储数据，并实现了快速查询数据。图数据库设计非常灵活，当加入新的数据或属性时，不需要重构网络，常见的图数据库包括Neo4j,DrientDB和Titan等。

基于供应链知识图谱的企业供应链分析。利用已经产生的知识图谱，可以更加方便地获取企业之间的联系和上下游关系，结合原有的线下背景审查及信用交叉核验机制，辅助金融机构对供应链企业进行风险评估，为中小企业信贷业务提供决策支持，提升金融机构信用风险识别能力，增强供应链信贷服务的安全性和可靠性，主要应用于供应链上下游中小企业的信用贷款场景。

一种基于大数据的供应链知识图谱分析方法，利用如企查查，启信宝等第三方机构的数据获取企业的注册资本，经营范围，行业类别等企业“固有数据”去构建企业本体，其次利用行内数据，企业资金流向数据，有关企业的报道数据去构建企业之间的关联关系，利用企业之间的关联关系进一步的去构建企业供应链之间的知识图谱,构建企业信息管理模块，实现对不同行业中企业实体，上下游关联和经营信息的自动化获取，结构化整合和关联关系识别，丰富企业供应链特征数据维度，通过关联图分析技术，识别、分析并生成企业供应链上下游关联关系，结合中小企业所在行业的宏观运行情况和行内资金交易数据构建企业关联图谱，为金融机构提供更加完备、客观和准确的企业主体经营特征和信用状况。最后，通过图数据库搭建供应链知识图谱分析应用平台，存储企业供应链上下游关联关系图数据，并提供可视化分析展示***，深入挖掘企业供应链特征数据价值，为金融机构提供整合供应链上下游信息和行业知识库信息的查询和分析服务。

本发明不仅仅限于上述示范性实施例的形式，在实际施工作业时，可根据实际情况加以调整，通过其他形式实现本发明。因此，无论从哪一点来看，实施例起到的是示范作用，而非限制性，本发明的范围由所附权利要求而非上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于大数据的供应链知识图谱分析法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大数据的供应链知识图谱分析法，其特征在于：所述步骤(1)中的企业本体信息的三元组包括：内资金流向数据、企业工商注册数据、行业协会宏观数据。

3.根据权利要求1所述的一种基于大数据的供应链知识图谱分析法，其特征在于：所述获取企业信息数据包括人工收集的方式或者是在遵守数据协议的情况下使用爬虫获取，所述数据来源主要来源于企业工商注册数据。

4.根据权利要求1所述的一种基于大数据的供应链知识图谱分析法，其特征在于：所述步骤(2)中的摘要提取是过滤企业信息数据中无用的信息，只保留需要在RDF图中的数据，所述数据去重是对企业信息数据进行分词，对比分词之后的语句，重复度达到某一个阈值。

5.根据权利要求1所述的一种基于大数据的供应链知识图谱分析法，其特征在于：所述步骤(2)中的命名实体识别指通过使用命名实体识别工具识别句子特定意义的实体，所述实体关系抽取是从文本中识别实体并抽取实体之间的语义关系，针对摘要提取的信息，基于HanLP工具包和依存句法分析来抽取开放域中文实体名词。

6.根据权利要求5所述的一种基于大数据的供应链知识图谱分析法，其特征在于：所述依存句法分析包括通过分析语言单位内成分之间的依存关系，解释其句法结构的过程。

7.根据权利要求1所述的一种基于大数据的供应链知识图谱分析法，其特征在于：所述步骤(4)中图数据库以图数据结构的方式来表现和存储数据。

8.根据权利要求1所述的一种基于大数据的供应链知识图谱分析法，其特征在于：所述步骤(4)中的持久化存储对不同来源不同形态的数据实现融合后再将数据存入数据库中。