CN114817557A - 基于企业征信大数据知识图谱的企业风险检测方法和装置 - Google Patents

基于企业征信大数据知识图谱的企业风险检测方法和装置 Download PDF

Info

Publication number
CN114817557A
CN114817557A CN202210302732.0A CN202210302732A CN114817557A CN 114817557 A CN114817557 A CN 114817557A CN 202210302732 A CN202210302732 A CN 202210302732A CN 114817557 A CN114817557 A CN 114817557A
Authority
CN
China
Prior art keywords
enterprise
credit investigation
big data
enterprise credit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210302732.0A
Other languages
English (en)
Inventor
宋美娜
刘毓
鄂海红
欧中洪
张光卫
于勰
董亚飞
李国英
冯煜
国晓雪
郭京荆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210302732.0A priority Critical patent/CN114817557A/zh
Priority to PCT/CN2022/087210 priority patent/WO2023178767A1/zh
Publication of CN114817557A publication Critical patent/CN114817557A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于企业征信大数据知识图谱的企业风险检测方法和装置,其中,该方法包括:通过分散数据子域数据构建企业征信大数据统一信息模型;基于企业征信大数据统一信息模型,利用自顶向下方式构建第一企业征信大数据领域本体;以及通过自底向上的构建方式对企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词扩充第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体;基于构建好的本体,利用企业征信大数据构建企业征信大数据知识图谱,通过知识图谱进行特征获取,将获取的特征数据输入训练好的风控模型输出分类结果,并用于分类企业。本发明提升了企业征信领域知识图谱本体的精确性,提升了风控模型的性能。

Description

基于企业征信大数据知识图谱的企业风险检测方法和装置
技术领域
本发明涉及企业风险检测领域,尤其涉及一种基于企业征信大数据知识图谱的企业风险检测方法和装置。
背景技术
目前在基于知识图谱的企业风险检测方法中,主流的方式是提取知识图谱中企业节点属性作为基本属性特征,以及提取知识图谱图谱中企业与其余企业实体的关系作为关联关系特征,将企业的基本属性特征与关联关系特征一并作为后续风控模型的特征进行输入。有人提取企业在网络中的特征信息,包括其在网络中的一阶、二阶邻居关系中违约企业的数量和比重等作为企业的关系特征,结合企业的基本属性特征,输入梯度提升决策树分类模型。有人根据业务与数据背景,定义了与企业风险相关的三种知识图谱。知识图谱网络分别为企业上下游、投资融资、密切关联知识图谱,并使用社区发现算法获取企业之间的亲疏关系。有人通过股权关系、人事关系等数据,全面挖掘企业关联,构建企业征信知识图谱,基于图谱构建了两种模型,分别为企业关联关系分析模型,企业群体关联风险模型,帮助在商业银在信贷全流程中识别企业风险。
如上所述,目前基于知识图谱的企业风险检测方法中,方法所用到的特征主要分为两类,第一类为基本属性特征(主要是企业在金融、司法领域的数据),第二类为关联关系特征(体现知识图谱中企业实体与其余企业实体密切关系)。
但基于征信数据隐私性较强的特点,不同行业不能共享征信数据,征信数据存在不全面和信息孤岛的挑战。构建企业征信图谱的基础是企业征信数据,因此现阶段已有的企业征信图谱都存在信息缺失等问题,企业征信图谱中企业实体属性仅来源于金融、司法等领域,难以完全表示企业的信用状况,数据维度有待增加,模型效果有待提升。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于解决企业征信图谱存在信息缺失问题,提升违约企业预测的准确性,提出了一种基于企业征信大数据知识图谱的企业风险检测方法。
本发明的另一个目的在于提出基于企业征信大数据知识图谱的企业风险检测装置。
为达上述目的,本发明一方面提出了基于企业征信大数据知识图谱的企业风险检测方法,包括:
基于多个分散数据子域获得企业征信大数据统一信息模型;其中,所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构;通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息,提取关键人物与企业之间的关系,以实现企业征信大数据跨域连接;基于实现所述跨域连接的企业征信大数据统一信息模型,利用自顶向下方式构建第一企业征信大数据领域本体;以及通过自底向上的构建方式,对所述企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词扩充所述第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体;基于所述第二企业征信大数据领域本体,利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中;利用所述企业征信大数据知识图谱进行企业特征数据获取,将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
根据本发明实施例的基于企业征信大数据知识图谱的企业风险检测方法,通过自顶向下严格的概念定义限制和关系限制,并融合自底向上的方式扩充本体规模,极大提升了企业征信领域知识图谱本体的精确性,为之后生成高质量的知识图谱打下坚实基础,并且创新性的引入了企业研发创新能力特征作为风控模型的输入,提升了企业征信领域知识图谱本体的精确性,也提升了风控模型的性能。
另外,根据本发明上述实施例的基于企业征信大数据知识图谱的企业风险检测方法还包括:
进一步地,所述企业征信大数据统一信息模型的层级化企业信息架构,包括:企业基本信息、企业人员信息、企业经营信息、企业资产信息、企业知识产权信息、企业财务信息、企业股权信息、司法数据、企业风险信息和辅助参考信息子域中的多种。
进一步地,所述通过自底向上的构建方式,对所述企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词扩充所述第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体,包括:通过自底向上构建方式,对所述户企业征信大数据领域中的数据进行实体抽取和关系抽取;基于所述实体抽取和关系抽取,识别出所述数据中的命名实体与关系实例,并对于未能识别出的所述命名实体与关系实例进行质量判定;基于所述质量判定确定质量排名,选取优质新词并扩展所述第一企业征信大数据领域本体,以构建所述第二企业征信大数据领域本体。
进一步地,所述企业特征数据获取,包括:获取企业的基本属性特征、关联关系特征和研发创新能力特征;其中,从所述企业征信大数据知识图谱中获取所述企业的基本属性特征和所述企业的研发创新能力特征;以及,通过四类关系进行企业关系特征抽取,并通过最短路径算法以及社区发现算法,提取所述企业征信大数据知识图谱中的网络特征以获取所述企业的关联关系特征;其中,所述四类关系包括参股关系、投资关系、交易关系和诉讼关系。
进一步地,所述风控模型,包括:数据预处理、特征处理工程和结果分类。
进一步地,所述数据预处理,包括:对获取的所述企业特征数据进行预处理,将日期型数据转化为字符型变量,然后对全部字符型变量进行转化,得到数值型数据,提取所述数值型数据的IV值、WOE、efficiency和rate。
进一步地,所述IV值、WOE、efficiency和rate的公式为:
Figure BDA0003563449960000031
Figure BDA0003563449960000032
Figure BDA0003563449960000033
Figure BDA0003563449960000034
其中,Goodi和Badi表示统计每个分箱里的未违约企业数和违约企业数,GoodT和BadT分别表示总的未违约企业数和违约企业数。
进一步地,所述特征处理工程,包括:删除缺失值超过50%的特征、只含有唯一值的特征、和其他特征相关性高于60%的特征、在梯度增强器中特征重要性为0.0的特征,从所述梯度增强器中不贡献累积特征重要性99%的低重要性特征。
进一步地,所述结果分类,包括:获取所述企业特征数据样本和企业标签;利用所述企业特征数据样本和企业标签有监督的训练LightGBM分类模型,得到训练好的LightGBM分类模型;将所述特征处理工程处理后的特征,输入所述训练好的LightGBM分类模型,进行计算分类得到分类结果;其中,所述分类结果分为违约与正常。
为达到上述目的,本发明另一方面提出了一种基于企业征信大数据知识图谱的企业风险检测装置,包括:
信息获取模块,用于基于多个分散数据子域获得企业征信大数据统一信息模型;其中,所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构;
关系连接模块,用于通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息,提取关键人物与企业之间的关系,以实现企业征信大数据跨域连接;
本体构建模块,用于基于实现所述跨域连接的企业征信大数据统一信息模型,利用自顶向下方式确定企业征信大数据领域并构建第一企业征信大数据领域本体;以及通过自底向上的构建方式,对所述企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词并扩充所述第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体;
图谱构建模块,用于基于所述第二企业征信大数据领域本体,利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中;
计算分类模块,用于利用所述企业征信大数据知识图谱进行企业特征数据获取,将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
本发明实施例的基于企业征信大数据知识图谱的企业风险检测装置,通过自顶向下严格的概念定义限制和关系限制,并融合自底向上的方式扩充本体规模,极大提升了企业征信领域知识图谱本体的精确性,为之后生成高质量的知识图谱打下坚实基础,并且创新性的引入了企业研发创新能力特征作为风控模型的输入,提升了企业征信领域知识图谱本体的精确性,也提升了风控模型的性能。
本发明的有益效果:
(1)本发明提出的企业征信大数据知识图谱构建技术,解决了现阶段已有的企业征信图谱都存在信息缺失等问题;
(2)本发明提出的引入企业研发创新能力特征的风控模型,性能超越了传统的基于企业征信知识图谱的风控模型,便于提前识别违约企业,降低风险。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于企业征信大数据知识图谱的企业风险检测架构示意图;
图2为根据本发明实施例的基于企业征信大数据知识图谱的企业风险检测方法的流程图;
图3为根据本发明实施例的企业征信大数据统一信息模型的层级化企业信息的架构示意图;
图4(a)和图4(b)为根据本发明实施例的企业征信大数据统一信息模型的企业财务信息二级架构的示意图;
图5为根据本发明实施例的企业征信大数据统一信息模型的层级化关键人员的架构示意图;
图6为根据本发明实施例的自顶向下、自底向上为辅的企业征信大数据知识图谱本体的流程示意图;
图7为根据本发明实施例的风控模型设计的流程示意图;
图8为根据本发明实施例的基于企业征信大数据知识图谱的企业风险检测装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面参照附图描述根据本发明实施例提出的基于企业征信大数据知识图谱的企业风险检测方法及装置,首先将参照附图描述根据本发明实施例提出的基于企业征信大数据知识图谱的企业风险检测方法。
本发明实施例的基于企业征信大数据知识图谱的企业风险检测方法,整体流程如图1所示。在原始的风控模型基础上,本发明实施例增加了企业研发创新能力特征来增加特征的层次与维度。除了特征的增加,本发明实施例的企业风险监测方法中企业风控模型使用的是LightGBM,由于LightGBM实际上采用的是基于决策树算法的梯度提升框架。因此LightGBM在训练过程中还能可以得到特征对于模型的重要性,用于评价不同特征对企业是否违约的影响程度。
图2是本发明一个实施例的基于企业征信大数据知识图谱的企业风险检测方法的流程图。
如图2所示,该基于企业征信大数据知识图谱的企业风险检测方法包括以下步骤:
步骤S1,基于多个分散数据子域获得企业征信大数据统一信息模型;其中,企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构。
具体地,本发明实施例通过运用专家知识、研究一系列相关的企业征信数据标准体系,调研企业征信知识图谱相关的论文与专利,从现有的政务、工商、司法、舆论等各分散数据子域中提炼出“企业-关键人物“联合框架,设计出一套面向企业征信大数据场景的层次化企业信息架构和关键人员架构,以各类实体间关系的为连接边,实现了企业征信大数据的全域实体关联。
企业征信大数据统一信息模型的层级化企业信息架构由企业基本信息,企业人员信息,企业经营信息,企业资产信息,企业知识产权信息,企业财务信息,企业股权信息,司法数据,企业风险信息,辅助参考等10个信息子域共同支撑,企业征信大数据统一信息模型的层次化企业信息架构如图3所示。
如图4(a)和图4(b)所示,以企业财务数据为例,展示企业信息架构的细粒度视图。
步骤S2,通过层次化关键人员架构的企业信息和层次化企业信息架构的企业人员信息,提取关键人物与企业之间的关系,以实现企业征信大数据跨域连接。
可以理解的是,企业征信大数据统一信息模型层次化关键人员架构的视图由基础信息、工作信息、社会关系、历史风险等四个信息子域构成,借助关键人员架构里的企业信息和企业信息架构里的企业人员信息,即可打通该架构与企业架构的关联壁垒,形成实体对象之间的映射关系,从而实现征信大数据“企业-关键人员”的层次化和关联化,初步解决了企业征信大数据跨域连接难的问题。
如图5所示,为企业征信大数据统一信息模型的层次化关键人员架构的视图。
面向企业征信大数据场景的层次化企业信息架构和关键人物信息架构,希望以“双核心”的方式实现企业征信大数据全域实体关联,需要定义实体之间的关系。实体关系设置如表1。
表1:实体关系设计表
Figure BDA0003563449960000061
Figure BDA0003563449960000071
步骤S3,基于实现跨域连接的企业征信大数据统一信息模型,利用自顶向下方式构建第一企业征信大数据领域本体;以及通过自底向上的构建方式,对企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词扩充第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体。
具体地,构建高质量企业征信大数据知识图谱的第一步就是定义准确清晰的知识模式(schema),即给出描述企业征信领域基本认知框架的本体。然而传统的仅聚焦于“自顶向下法”的构建方法对领域专家的依赖性较大。而“自底向上法”以及海量、多源、异构的数据,是自底向上构建本体和后续知识融合的巨大挑战。
基于单一知识图谱本体构建方法存在的缺陷,使用一种基于“自顶向下为主,自底向上为辅”的企业征信大数据知识图谱本体构建方法,通过自顶向下的方法约束概念与关系,并融合自底向上的方法扩充本体的规模,极大提升了知识图谱本体的精确度和精细程度,为之后生成高质量的知识图谱打下坚实基础,具体建设流程如图6所示。
利用自顶向下方式形成领域本体,需要挖掘领域知识库的知识和听取领域专家的建议,构建领域本体。领域知识库包括但不仅限该领域的互联网知识库、百科网站、行业权威指南、元数据国家标准和关系型数据库等。例如,本发明实施例提及的基于层次化企业信息架构和关键人员信息架构归纳的“企业-关键人员体系”,有序组织了企业征信大数据领域的海量数据资源。从该标签体系中,可以筛选出企业征信领域高质量的概念和属性,以及概念之间的相互关系,构建领域本体雏形。
利用自顶向下的方法创建的领域本体,已经能够指导构建企业征信大数据知识图谱实例库。但是由于企业征信领域数据资源规模的增长,仅由自顶向下方式构建的企业征信领域本体模型,限制于规模,无法满足后续知识图谱构建技术(如知识抽取与知识融合)的需求。企业征信领域多源、海量、异构的数据资源如果能够加以整理、利用、完善,可以为企业征信领域的知识图谱构建生成巨大的数据推动力,因此自底向上的构建方式也是企业征信大数据知识图谱本体和数据构建中的重要一环。自底向上的辅线构建流程,首先是对企业征信领域中数据进行实体抽取和关系抽取,提取出该数据中的命名实体与关系实例,对于未能识别出命名实体与关系实例进行质量判定。征信专家判定质量排名靠前的新词是否为高质量短语,并扩展当前的企业征信领域本体结构。
步骤S4,基于第二企业征信大数据领域本体,利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中。
具体地,利用上述方法构建企业征信大数据知识图谱本体后,利用已有的企业征信大数据构建知识图谱并存储进Neo4j图数据库中,为后续风控模型提供数据基础。
步骤S5,利用企业征信大数据知识图谱进行企业特征数据获取,将获取的企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
具体地,在企业风控模型模块中,从企业征信大数据知识图谱中获取企业的基本属性特征、关联关系特征、研发创新能力特征,将其进行处理,共同做为风控模型的输入,对LightGBM分类模型做有监督训练。通过引入企业研发创新能力特征,提升了风控模型的性能。本发明实施例的处理流程如图7所示,包括:
(1)数据获取模块:
在企业征信大数据知识图谱中,企业基本属性能力特征与研发创新能力特征都以企业节点属性的形式存在,直接从Neo4j图数据库中导出即可。企业关联关系特征是为了体现该企业实体与违约企业实体的亲疏关系。由于异构网络中的节点与边的类型多种多样,提取图的特征和困难程度被提高,因此提案限定本企业征信大数据知识图谱为同构网络,限制关系两端的节点只能为企业,并将人物节点进行折叠归约,降低人物对网络的干扰,保证每条关系都介于企业间。结合已有的数据和传统认知逻辑,保留四类风险较高的企业关系:参股关系、投资关系、交易关系、诉讼关系。并基于这四类关系进行企业关系特征抽取,提取知识图谱中网络特征的方式为最短路径算法以及社区发现算法。
提取的网络特征如表2所示:
表2:企业关联关系表
Figure BDA0003563449960000081
研发创新能力特征如表3所示:
表3:研发创新能力类
Figure BDA0003563449960000091
(2)数据预处理模块:
对使用信用评分卡提取改非数据型数据的IV值(Information Value)、WOE、efficiency、rate作为模型新增的特征进行后续的处理。
企业数据中含有许多纯字符串格式的属性,例如企业类型,行业门类等特定长度代码型数据。也包含成立日期,核准日期等日期型数据。对于日期型数据,首先现对其进行转化,将其统一转化为秒单位的数值型数据,再将其转化为字符型格式。然后对全部的字符型变量进行转化,使其变成数值型数据,提取其IV值(Information Value)、WOE、efficiency、rate。
WOE、IV、Efficiency、rate的公式如下:
Figure BDA0003563449960000092
Figure BDA0003563449960000093
Figure BDA0003563449960000101
Figure BDA0003563449960000102
其中Goodi和Badi表示统计每个分箱里的未违约企业数和违约企业数。GoodT和BadT分别表示总的未违约企业数和违约企业数。
(3)特征工程模块:
在特征工程环节,为了处理原始数据存在大量缺失值,且特征之间相关性过高等问题,首先需要对特征进行处理。主要步骤分为删除缺失值超过50%的特征、只含有唯一值的特征、和其他特征相关性高于60%的特征、在梯度增强器(gbm)中特征重要性为0.0的特征,从gbm中不贡献累积特征重要性99%的低重要性特征。
(4)分类模块:
该模块使用的是LightGBM算法,将特征工程模块处理过后的特征输入模型中即可得到分类结果,结果分类两种,违约与正常。由于LightGBM实际上采用的是基于决策树算法的梯度提升框架。因此LightGBM在训练过程中可以得到特征对于模型的重要性。特征的重要性程度能够作为评价不同特征对企业是否违约的影响程度。
通过上述步骤,通过自顶向下严格的概念定义限制和关系限制,并融合自底向上的方式扩充本体规模,极大提升了企业征信领域知识图谱本体的精确性,为之后生成高质量的知识图谱打下坚实基础,并且创新性的引入了企业研发创新能力特征作为风控模型的输入,提升了企业征信领域知识图谱本体的精确性,也提升了风控模型的性能。
为了实现上述实施例,如图8所示,本实施例中还提供了一种基于企业征信大数据知识图谱的企业风险检测装置10,该装置10包括:信息获取模块100,关系连接模块200,本体构建模块300,图谱构建模块400,计算分类模块500。
信息获取模块100,用于基于多个分散数据子域获得企业征信大数据统一信息模型;其中,企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构;
关系连接模块200,用于通过层次化关键人员架构的企业信息和层次化企业信息架构的企业人员信息,提取关键人物与企业之间的关系,以实现企业征信大数据跨域连接;
本体构建模块300,用于基于实现跨域连接的企业征信大数据统一信息模型,利用自顶向下方式确定企业征信大数据领域并构建第一企业征信大数据领域本体;以及通过自底向上的构建方式,对企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词并扩充第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体;
图谱构建模块400,用于基于第二企业征信大数据领域本体,利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中;
计算分类模块500,用于利用企业征信大数据知识图谱进行企业特征数据获取,将获取的企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
根据本发明实施例的基于企业征信大数据知识图谱的企业风险检测装置,通过自顶向下严格的概念定义限制和关系限制,并融合自底向上的方式扩充本体规模,极大提升了企业征信领域知识图谱本体的精确性,为之后生成高质量的知识图谱打下坚实基础,并且创新性的引入了企业研发创新能力特征作为风控模型的输入,提升了企业征信领域知识图谱本体的精确性,也提升了风控模型的性能。
需要说明的是,前述对基于企业征信大数据知识图谱的企业风险检测方法实施例的解释说明也适用于该实施例的基于企业征信大数据知识图谱的企业风险检测装置,此处不再赘述。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于企业征信大数据知识图谱的企业风险检测方法,其特征在于,包括以下步骤:
基于多个分散数据子域获得企业征信大数据统一信息模型;其中,所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构;
通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息,提取关键人物与企业之间的关系,以实现企业征信大数据跨域连接;
基于实现所述跨域连接的企业征信大数据统一信息模型,利用自顶向下方式构建第一企业征信大数据领域本体;以及通过自底向上的构建方式,对所述企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词扩充所述第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体;
基于所述第二企业征信大数据领域本体,利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中;
利用所述企业征信大数据知识图谱进行企业特征数据获取,将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
2.根据权利要求1所述的方法,其特征在于,所述企业征信大数据统一信息模型的层级化企业信息架构,包括:
企业基本信息、企业人员信息、企业经营信息、企业资产信息、企业知识产权信息、企业财务信息、企业股权信息、司法数据、企业风险信息和辅助参考信息子域中的多种。
3.根据权利要求1所述的方法,其特征在于,所述通过自底向上的构建方式,对所述企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词扩充所述第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体,包括:
通过自底向上构建方式,对所述企业征信大数据领域中的数据进行实体抽取和关系抽取;
基于所述实体抽取和关系抽取,识别出所述数据中的命名实体与关系实例,并对于未能识别出的所述命名实体与关系实例进行质量判定;
基于所述质量判定确定质量排名,选取优质新词并扩展所述第一企业征信大数据领域本体,以构建所述第二企业征信大数据领域本体。
4.根据权利要求1所述的方法,其特征在于,所述企业特征数据获取,包括:获取企业的基本属性特征、关联关系特征和研发创新能力特征;其中,
从所述企业征信大数据知识图谱中获取所述企业的基本属性特征和所述企业的研发创新能力特征;以及,通过四类关系进行企业关系特征抽取,并通过最短路径算法以及社区发现算法,提取所述企业征信大数据知识图谱中的网络特征以获取所述企业的关联关系特征;其中,所述四类关系包括参股关系、投资关系、交易关系和诉讼关系。
5.根据权利要求1所述的方法,其特征在于,所述风控模型,包括:数据预处理、特征处理工程和结果分类。
6.根据权利要求5所述的方法,其特征在于,所述数据预处理,包括:
对获取的所述企业特征数据进行预处理,将日期型数据转化为字符型变量,然后对全部字符型变量进行转化,得到数值型数据,提取所述数值型数据的IV值、WOE、efficiency和rate。
7.根据权利要求6所述的方法,其特征在于,所述IV值、WOE、efficiency和rate的公式为:
Figure FDA0003563449950000021
Figure FDA0003563449950000022
Figure FDA0003563449950000023
Figure FDA0003563449950000024
其中,Goodi和Badi表示统计每个分箱里的未违约企业数和违约企业数,GoodT和BadT分别表示总的未违约企业数和违约企业数。
8.根据权利要求4所述的方法,其特征在于,所述特征处理工程,包括:
删除缺失值超过50%的特征、只含有唯一值的特征、和其他特征相关性高于60%的特征、在梯度增强器中特征重要性为0.0的特征,从所述梯度增强器中不贡献累积特征重要性99%的低重要性特征。
9.根据权利要求4所述的方法,其特征在于,所述结果分类,包括:
获取所述企业特征数据样本和企业标签;
利用所述企业特征数据样本和企业标签有监督的训练LightGBM分类模型,得到训练好的LightGBM分类模型;
将所述特征处理工程处理后的特征,输入所述训练好的LightGBM分类模型,进行计算分类得到分类结果;其中,所述分类结果分为违约与正常。
10.一种基于企业征信大数据知识图谱的企业风险检测装置,其特征在于,包括:
信息获取模块,用于基于多个分散数据子域获得企业征信大数据统一信息模型;其中,所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构;
关系连接模块,用于通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息,提取关键人物与企业之间的关系,以实现企业征信大数据跨域连接;
本体构建模块,用于基于实现所述跨域连接的企业征信大数据统一信息模型,利用自顶向下方式确定企业征信大数据领域并构建第一企业征信大数据领域本体;以及通过自底向上的构建方式,对所述企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词并扩充所述第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体;
图谱构建模块,用于基于所述第二企业征信大数据领域本体,利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中;
计算分类模块,用于利用所述企业征信大数据知识图谱进行企业特征数据获取,将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
CN202210302732.0A 2022-03-24 2022-03-24 基于企业征信大数据知识图谱的企业风险检测方法和装置 Pending CN114817557A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210302732.0A CN114817557A (zh) 2022-03-24 2022-03-24 基于企业征信大数据知识图谱的企业风险检测方法和装置
PCT/CN2022/087210 WO2023178767A1 (zh) 2022-03-24 2022-04-15 基于企业征信大数据知识图谱的企业风险检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210302732.0A CN114817557A (zh) 2022-03-24 2022-03-24 基于企业征信大数据知识图谱的企业风险检测方法和装置

Publications (1)

Publication Number Publication Date
CN114817557A true CN114817557A (zh) 2022-07-29

Family

ID=82529928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210302732.0A Pending CN114817557A (zh) 2022-03-24 2022-03-24 基于企业征信大数据知识图谱的企业风险检测方法和装置

Country Status (2)

Country Link
CN (1) CN114817557A (zh)
WO (1) WO2023178767A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934963A (zh) * 2022-12-26 2023-04-07 深度(山东)数字科技集团有限公司 用于企业金融获客的商业汇票大数据分析方法及应用图谱

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210166167A1 (en) * 2019-12-02 2021-06-03 Asia University Artificial intelligence and blockchain-based inter-enterprise credit rating and risk assessment method and system
CN112131275B (zh) * 2020-09-23 2023-07-25 长三角信息智能创新研究院 全息城市大数据模型和知识图谱的企业画像构建方法
CN113537796A (zh) * 2021-07-22 2021-10-22 大路网络科技有限公司 一种企业风险评估方法、装置及设备
CN114066242A (zh) * 2021-11-11 2022-02-18 北京道口金科科技有限公司 一种企业风险的预警方法及装置
CN114202223A (zh) * 2021-12-16 2022-03-18 深圳前海微众银行股份有限公司 企业信用风险评分方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934963A (zh) * 2022-12-26 2023-04-07 深度(山东)数字科技集团有限公司 用于企业金融获客的商业汇票大数据分析方法及应用图谱
CN115934963B (zh) * 2022-12-26 2023-07-18 深度(山东)数字科技集团有限公司 用于企业金融获客的商业汇票大数据分析方法及应用图谱

Also Published As

Publication number Publication date
WO2023178767A1 (zh) 2023-09-28

Similar Documents

Publication Publication Date Title
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及***
CN109918511B (zh) 一种基于bfs和lpa的知识图谱反欺诈特征提取方法
Flood et al. The application of visual analytics to financial stability monitoring
CN110489561A (zh) 知识图谱构建方法、装置、计算机设备和存储介质
CN106067094A (zh) 一种动态评估方法及***
CN110489565A (zh) 基于领域知识图谱本体中的对象根类型设计方法及***
CN108492001A (zh) 一种用于担保贷款网络风险管理的方法
CN113837859B (zh) 一种小微企业画像构建方法
CN112417176A (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
Cheong et al. Interpretable stock anomaly detection based on spatio-temporal relation networks with genetic algorithm
CN111737477A (zh) 一种基于知识产权大数据的情报调查方法、***和存储介质
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN114817557A (zh) 基于企业征信大数据知识图谱的企业风险检测方法和装置
Abrantes et al. Big data applied to tax evasion detection: A systematic review
CN110222180A (zh) 一种文本数据分类与信息挖掘方法
CN117829994A (zh) 一种基于图计算的洗钱风险分析方法
Meskela et al. Designing time series crime prediction model using long short-term memory recurrent neural network
CN115618926A (zh) 一种面向纳税人企业分类的重要因子提取方法及装置
CN115455198A (zh) 模型训练方法、法律诉讼信息对齐融合方法及其终端设备
Framewala et al. Blockchain analysis tool for monitoring coin flow
Kulothungan Loan Forecast by Using Machine Learning
Badyal et al. Insightful Business Analytics Using Artificial Intelligence-A Decision Support System for E-Businesses
Visalli et al. ESG Data Collection with Adaptive AI.
Radhi Adaptive learning system of ontology using semantic web to mining data from distributed heterogeneous environment
Saka et al. Analysis of world trade data with machine learning to enhance policies of mineral supply chain transparency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination