CN111309824B - 实体关系图谱显示方法及*** - Google Patents
实体关系图谱显示方法及*** Download PDFInfo
- Publication number
- CN111309824B CN111309824B CN202010103482.9A CN202010103482A CN111309824B CN 111309824 B CN111309824 B CN 111309824B CN 202010103482 A CN202010103482 A CN 202010103482A CN 111309824 B CN111309824 B CN 111309824B
- Authority
- CN
- China
- Prior art keywords
- entity
- risk
- entities
- probability
- blacklist
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种实体关系图谱显示方法及***,所述***包含关系构建装置、风险计算装置和分析装置;所述关系构建装置用于采集预设范围内的所有实体,根据各实体的实体属性及各实体之间的关系属性构建以实体为节点的知识图谱;所述风险计算装置用于根据预设规则分析所述知识图谱中分析各实体的实体属性,获得黑名单实体;根据所述黑名单实体及其关联实体之间的关系属性,于预存函数库中获得对应的概率分布函数;根据所述概率分布函数计算获得与所述黑名单实体关联的实体的风险概率值;根据实体的一个或多个风险概率值的总和获得对应实体的风险概率;所述分析装置用于将各实体的风险概率与预定提示阈值比较,根据比较结果和对应实体生成提示信息。
Description
技术领域
本发明涉及关系数据展示领域,尤指一种实体关系图谱显示方法及***。
背景技术
知识图谱是人工智能中的一个分支。知识图谱本质上是一种基于图结构的语义知识库,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体之间通过关系相互联结,构成网状的知识结构。在知识图谱中,每个节点表示现实世界的“实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同类型的信息连接在一起而得到的一个关系网络。
传统的实体风险预测与决策大多从实体本身出发,根据实体自身的属性特征分析实体的风险状况和影响程度;但单实体的风险不仅限于该实体本身,还将传播至与其存在关联的其他实体。目前关系型数据库尚不能有效快速生成多手关联、特定关联实体群识别,特定路径识别。一般风险实体识别尚需要通过业务规则判定,对缺乏业务规则判定规则的情况下较难识别出潜在的风险实体,且一般常见以算法预测单个实体风险的案例居多。
发明内容
本发明目的在于一种实体关系图谱显示方法及***,基于知识图谱所构建的关系网络,从关系社区的角度,结合贝叶斯方法、运用基于机器学习的实体风险预测模型,统计风险传播路径和风险传播的影响程度,并展示于所述关系网络上为工作人员提供参考。
为达上述目的,本发明所提供的实体关系图谱显示***,具体包含关系构建装置、风险计算装置和分析装置;所述关系构建装置用于采集预设范围内的所有实体,根据各实体的实体属性及各实体之间的关系属性构建以实体为节点的知识图谱;所述风险计算装置用于根据预设规则分析所述知识图谱中分析各实体的实体属性,获得黑名单实体;根据所述黑名单实体及其关联实体之间的关系属性,于预存函数库中获得对应的概率分布函数;根据所述概率分布函数计算获得与所述黑名单实体关联的实体的风险概率值;根据实体的一个或多个风险概率值的总和获得对应实体的风险概率;所述分析装置用于将各实体的风险概率与预定提示阈值比较,根据比较结果和对应实体生成提示信息。
在上述实体关系图谱显示***中,优选的,所述风险计算装置包含传导概率计算模块,所述传导概率计算模块用于获得历史数据中符合预定规则的黑名单实体;根据所述黑名单实体于历史数据中筛选获得与所述黑名单实体一度关联实体,及所述黑名单实体与其一度关联实体之间的一个或多个关系属性;通过统计学分析获得一度关联实体在与所述黑名单实体之间不同关系属性对应的第一风险传导函数,及多个关系属性对应的第二风险传导函数,以及黑名单实体的连续传导函数;根据所述第一风险传导函数、所述第二风险传导函数和所述连续传导函数获得概率分布函数,将所述连续传导函数存储至预存函数库。
在上述实体关系图谱显示***中,优选的,所述风险计算装置包含实体子图抽取模块,所述实体子图抽取模块用于根据预设的筛选条件中选定的筛选条件,于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图。
在上述实体关系图谱显示***中,优选的,所述预设的筛选条件包含属性识别、实体识别和社区识别;当选定所述属性识别时,根据各实体的实体属性或各实体之间的关系属性于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图;当选定所述实体识别时,于所述知识图谱中筛选获得对应实体;根据所述实体及所述实体之间的关系属性构建实体子图;当选定社区识别时,通过图社区算法获得所述知识图谱中的连通体和社区聚类,生成实体子图。
在上述实体关系图谱显示***中,优选的,所述风险计算装置包含风险实体识别模块,所述风险实体识别模块用于根据预设的识别条件中选定的识别条件,于所述实体子图中识别获得对应的检测结果;其中,所述识别条件包含黑名单识别、实体识别和节点识别;当选定所述黑名单识别时,根据预定规则比对所述实体子图中各实体的实体属性,获得所述实体子图中符合预定规则的黑名单实体,根据所述黑名单实体生成实体清单;当选定实体识别时,通过历史数据和学习算法构建风险检测模型;通过所述风险检测模型分别计算所述实体子图中各实体的风险概率,根据风险概率高于预定概率阈值的实体生成实体清单;当选定节点识别时,通过点分析算法识别所述实体子图中的中心度实体;通过所述风险检索模型计算所述中心度实体的风险概率,根据风险概率高于预定概率阈值的中心度实体生成实体清单。
在上述实体关系图谱显示***中,优选的,所述风险计算装置还包含传导路径分析模块,所述传导路径分析模块用于通过图算法计算所述实体清单中各实体两两之间最短的路径,并记录所述路径途径实体的实体属性及实体间的关系属性。
在上述实体关系图谱显示***中,优选的,所述风险计算装置还包含实体传导预测模块,所述实体传导预测模块用于根据所述实体清单和所述路径,通过各实体对应的概率分布函数计算各实体的传导概率,根据各实体的风险概率值和对应的传导概率获得实体的风险概率。
本发明还提供一种实体关系图谱显示方法,所述方法包含:步骤一:采集预设范围内的所有实体,根据各实体的实体属性及各实体之间的关系属性构建以实体为节点的知识图谱;步骤二:根据预设规则分析所述知识图谱中分析各实体的实体属性,获得黑名单实体;根据所述黑名单实体及其关联实体之间的关系属性,于预存函数库中获得对应的概率分布函数;根据所述概率分布函数计算获得与所述黑名单实体关联的实体的风险概率值;根据实体的一个或多个风险概率值的总和获得对应实体的风险概率;步骤三:将各实体的风险概率与预定提示阈值比较,根据比较结果和对应实体生成提示信息。
在上述实体关系图谱显示方法中,优选的,所述方法还包含:获得历史数据中符合预定规则的黑名单实体;根据所述黑名单实体于历史数据中筛选获得与所述黑名单实体一度关联实体,及所述黑名单实体与其一度关联实体之间的一个或多个关系属性;通过统计学分析获得一度关联实体在与所述黑名单实体之间不同关系属性对应的第一风险传导函数,及多个关系属性对应的第二风险传导函数,以及黑名单实体的连续传导函数;根据所述第一风险传导函数、所述第二风险传导函数和所述连续传导函数获得概率分布函数,将所述连续传导函数存储至预存函数库。
在上述实体关系图谱显示方法中,优选的,所述步骤二还包含:根据预设的筛选条件中选定的筛选条件,于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图。
在上述实体关系图谱显示方法中,优选的,所述预设的筛选条件包含属性识别、实体识别和社区识别;当选定所述属性识别时,根据各实体的实体属性或各实体之间的关系属性于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图;当选定所述实体识别时,于所述知识图谱中筛选获得对应实体;根据所述实体及所述实体之间的关系属性构建实体子图;当选定社区识别时,通过图社区算法获得所述知识图谱中的连通体和社区聚类,生成实体子图。
在上述实体关系图谱显示方法中,优选的,所述步骤二还包含:根据预设的识别条件中选定的识别条件,于所述实体子图中识别获得对应的检测结果;其中,所述识别条件包含黑名单识别、实体识别和节点识别;当选定所述黑名单识别时,根据预定规则比对所述实体子图中各实体的实体属性,获得所述实体子图中符合预定规则的黑名单实体,根据所述黑名单实体生成实体清单;当选定实体识别时,通过历史数据和学习算法构建风险检测模型;通过所述风险检测模型分别计算所述实体子图中各实体的风险概率,根据风险概率高于预定概率阈值的实体生成实体清单;当选定节点识别时,通过点分析算法识别所述实体子图中的中心度实体;通过所述风险检索模型计算所述中心度实体的风险概率,根据风险概率高于预定概率阈值的中心度实体生成实体清单。
在上述实体关系图谱显示方法中,优选的,所述步骤二还包含:通过图算法计算所述实体清单中各实体两两之间最短的路径,并记录所述路径途径实体的实体属性及实体间的关系属性。
在上述实体关系图谱显示方法中,优选的,所述步骤二还包含:根据所述实体清单和所述路径,通过各实体对应的概率分布函数计算各实体的传导概率,根据各实体的风险概率值和对应的传导概率获得实体的风险概率。
本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明解决了一般关系型数据库通过多层关联方式生成多手关联关系上的效率问题和技术限制;本发明运用知识图谱技术,能够高速有效的生成超多层的关联关系。且通过运用图算法,快速生成风险分析对象,自动识别出潜在的风险实体。扩展了关联群体识别方式,如社区识别模式,丰富了风险分析的对象范围。三是,将图路径识别算法,机器学习算法预测单个实体的风险概率、概率论原理结合,支持根据业务具体风险管理的应用场景,灵活组合,得到所需的风险传导预测结果。改变了分析单个实体风险的限制,从群体视角审视单个实体风险对整个群体的影响。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1A为本发明一实施例所提供的实体关系图谱显示***的结构示意图;
图1B为本发明一实施例所提供的实体关系图谱显示***的应用结构示意图;
图2为本发明一实施例所提供的知识图谱构建模块流程图;
图3为本发明一实施例所提供的传导风险概率函数计算模块流程图;
图4A为本发明一实施例所提供的实体子图抽取模块流程图;
图4B为本发明一实施例所提供的广度优先遍历示意图;
图4C为本发明一实施例所提供的深度优先遍历示意图;
图4D为本发明一实施例所提供的强连通体示意图;
图5为本发明一实施例所提供的风险实体识别模块流程图;
图6为本发明一实施例所提供的风险传导路径分析模块流程图;
图7为本发明一实施例所提供的实体风险传导预测模块流程图;
图8A为本发明一实施例所提供的风险决策模块流程图;
图8B为本发明一实施例所提供的风险矩阵图;
图9为本发明一实施例所提供的实体关系图谱显示方法的流程示意图;
图10为本发明一实施例所提供的计算机设备的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
请参考图1A所示,本发明所提供的实体关系图谱显示***,具体包含关系构建装置、风险计算装置和分析装置;所述关系构建装置用于采集预设范围内的所有实体,根据各实体的实体属性及各实体之间的关系属性构建以实体为节点的知识图谱;所述风险计算装置用于根据预设规则分析所述知识图谱中分析各实体的实体属性,获得黑名单实体;根据所述黑名单实体及其关联实体之间的关系属性,于预存函数库中获得对应的概率分布函数;根据所述概率分布函数计算获得与所述黑名单实体关联的实体的风险概率值;根据实体的一个或多个风险概率值的总和获得对应实体的风险概率;所述分析装置用于将各实体的风险概率与预定提示阈值比较,根据比较结果和对应实体生成提示信息。上述关系构建装置主要确定知识图谱内实体和关系的定义;以“实体-关系-实体”三元组为基本单位,形成全图;该过程可通过现有在于技术予以实现,后续将详细说明;所述分析装置实际工作中还可补入决策推荐或其他更便于用户查看所述知识图谱的应用,后续将会详细说明,在此就不再一一详述。
请参考图2所示,在本发明一实施例中,搭建知识图谱的流程如下所示:
步骤S101:搭建知识图谱数据库。在搭建知识图谱数据库时,不采用传统的关系型数据,原因在于关系型数据库在处理二维表上具有优势,但对于大规模的实体-关系-实体的多重关联上的处理,效率低。因此在构建知识图谱时,采用图数据库作为数据存储的技术基础。图数据库的基本含义是以“图”这种数据结构存储和查询数据。它的数据模型主要是以实体和关系来体现,也可处理键值对,优点是快速解决复杂的关系问题。图数据库是一种非关系型数据库,支持对图结构进行查询、增加、删除、更新等操作。相对传统的关系型数据库,查询速度快、操作简单、能提供更为丰富的关系展现方式。
步骤S102:确定实体范围。将能采集到的实体作为知识谱图内节点的实体。实体一般包括:法人、个人、机构、团体等法律上有明确定义或社会通识的实体概念。
步骤S103:标注实体属性。实体属性是关于描述实体特征的具体描述。如企业,包括企业名称、企业所属行业、企业贷款金额等;如个体,包括教育程度、性别等。实体属性将作用于后续步骤。
步骤S104:确定关系范围。确定连接实体与实体间的关系的定义。一般根据法律定义或社会通识的关系定义,确定关系的范围。包括但不限于资金、担保、贸易、投资、社交、亲属、经营等关系类型。
步骤S105:标注关系属性。关联关系属性是关于描述关系特征的具体描述。一般包括关系的强弱、关系的方向性。关系属性的强弱根据法律中的连带、保证责任的等条款或社会通识确定。如,当发生损失时,担保关系中担保方承担的责任高于亲属关系,故担保关系强于亲属关系。关系的方向性根据关系本身的性质确定。如,担保关系为有向关系,亲属关系可作为无向关。关系属性将作用于后续步骤。
步骤S106:建立“实体-关系-实体”三元组。根据实体和关系,建立知识谱图中最小的单元体。
步骤S107:形成知识图谱。以“实体-关系-实体”三元组为基础,形成知识图谱。
在本发明一实施例中,所述风险计算装置还可包含传导概率计算模块,亦即前述的传导风险概率函数计算模块,所述传导概率计算模块用于获得历史数据中符合预定规则的黑名单实体;根据所述黑名单实体于历史数据中筛选获得与所述黑名单实体一度关联实体,及所述黑名单实体与其一度关联实体之间的一个或多个关系属性;通过统计学分析获得一度关联实体在与所述黑名单实体之间不同关系属性对应的第一风险传导函数,及多个关系属性对应的第二风险传导函数,以及黑名单实体的连续传导函数;根据所述第一风险传导函数、所述第二风险传导函数和所述连续传导函数获得概率分布函数,将所述连续传导函数存储至预存函数库。具体可参考图3所示,在实际工作中,所述传导概率计算模块的工作流程包含如下步骤:
步骤S201:定义实体黑名单。根据会造成风险损失的实体,确定作为黑名单的实体范围;黑名单包括但不限于违约、失信、欺诈、刑事、负面舆情等。实际应用时,黑名单一般根据法律定义或社会通识确定。
步骤S202:筛选黑名单实体与一度关联实体关系。在知识图谱内找到黑名单实体的一度关联实体;分别按不同关系类型进行区分。
步骤S203:计算不同关系类型的风险传播的概率分布函数即第一风险传导函数。对不同关系类型,利用历史大数据和统计学习方法计算该类型下的风险传导概率。一种常见的方式是条件概率分布函数,计算实体和实体间一度关联下风险传导的概率。即,计算一方实体出现在黑名单上的概率,另一方实体同样出现在黑名单上的概率。根据条件概率的定义:假设一方实体出现在黑名单上的事件定义为{X=xi},另一方实体出现在黑名单上的事件定义为{Y=yj}。根据条件概率公式的定义,可得:在计算实体黑名单传导概率时,一种是采用经验分布,直接按照定义计算得到每类关系下的传导概率,得到/>另一种可以采用概率分布函数的方式,根据已有数据,计算/>估算概率分布函数和其参数。从而分别得到每类关系下“实体-关系-实体”的黑名单概率分布函数。
步骤S204:计算不同关系类别间的多元概率分布函数即第二风险传导函数。根据概率论的数学原理,估计出不同关系间相互作用下的多元概率分布函数。常见的可采用多元正态分布,估算同一实体收到多种关系影响下成为黑名单的概率。
假设向量Z=[Z1,Z2,...,ZN]T表示实体Z对应不同关系[Z1,Z2,...,ZN]的黑名单概率。多元正态分布函数的密度函数表示为:Σ表示协方差矩阵,μ表示期望值的向量。
步骤S205:计算风险连续传导的概率分布函数。利用历史大数据和统计学习方法,计算二度以上的风险连续传导的概率分布函数。主要计算黑名单一般传导的影响范围。
一种方式是,统计一般传导多少度之后,黑名单的传导概率会降到某个概率阈值之下。概率阈值根据历史数据统计得出。即,根据以往预测的实体变为和黑名单的概率与该实体实际变为黑名单,划定概率阈值。如,预测黑名单概率为10%的实体,后续该实体一般不会真实转变为黑名单实体;那么阈值就划分为10%。后续计算时,超过度数的不再考虑。
另一种方式是马尔可夫过程和马尔可夫链来估算一个实体发生黑名单事件后,传导至下一个实体的转移概率。一般考虑一步转移概率和一步转移概率矩阵。
一步转移概率
一步转移概率矩阵:
步骤S206:形成多重关系和连续传导的概率函数。将步骤S202-S205概率分布整合,得到多重关系和连续传导的概率分布函数,用于后续步骤的风险传导预测。
在本发明一实施例中,所述风险计算装置还可包含实体子图抽取模块,所述实体子图抽取模块用于根据预设的筛选条件中选定的筛选条件,于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图。其中,所述预设的筛选条件包含属性识别、实体识别和社区识别;当选定所述属性识别时,根据各实体的实体属性或各实体之间的关系属性于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图;当选定所述实体识别时,于所述知识图谱中筛选获得对应实体;根据所述实体及所述实体之间的关系属性构建实体子图;当选定社区识别时,通过图社区算法获得所述知识图谱中的连通体和社区聚类,生成实体子图。具体的,请参考图4A所示,在实际工作中,所述实体子图抽取模块进行实体子图抽取的步骤如下:
步骤S301:选择子图识别模式。由于风险决策一般是对特定群体开展风险分析;且知识图谱全图极大,关系网络结果复杂。为提高针对性和效率,故一般需抽取子图进行分析;本模块可包括三种子图抽取模式。
步骤S3020:属性识别模式。
步骤S3021:对具有相同属性的实体抽取子图。根据前述步骤中已标注的实体属性、关系属性,筛选风险决策关注的属性,抽取实体子图。一般包括单一条件和复合条件。单一条件一般针对一个专项方面;如,对实体按法人客户贷款金额在一定金额之上抽取子图;如,对关系按担保关系抽取担保圈子图等。复合条件包括多项方面的组合,由实体+关系的属性的各类组合形成。条件组合方式不做人为限制,对任意的组合均适用于本发明的属性识别模式。
子图搜索方式一般采用广度优先遍历(Breadth-First Search(BFS))、深度优先遍历(depth-First Search(DFS))、标签传播算法(Label Propagation Algorithm)等。其中,广度优先遍历的基本原理如下:从某个节点开始,按层次进行遍历。在遍历完某层节点后再遍历下一层,具体可参考图4B所示。深度优先遍历的基本原理如下:从某个节点开始,沿着某条路径依次访问与该节点连接的节点,直到访问完毕。再遍历另一条路径,具体可参考图4C所示。
步骤S3022:形成属性子图。
步骤S3030:实体识别模式。
步骤S3031:对特定的实体组抽取子图。根据风险决策需要,选定一组指定的实体,对该组实体抽取子图。实体子图抽取的方式和步骤S3021相似。被选定的实体组合方式不做人为限制,对任意的实体组合均适用于本发明的实体识别模式。
步骤S3032:形成实体子图。
步骤S3040:社区识别模式。
步骤S3041:利用图社区算法,形成连通体、社区聚类等。根据图社区算法,自动识别知识谱图中的关系较为密切的连通体、社区聚类,将其抽取成子图。
连通体是对子图内,可以沿着子图内的边从任何一个实体到其他任何实体;即,对图内的任意两个实体x,y,子图内都包含一个x-y路径。其中,可以重点关注强连通体,强联通体是指子图内的每个节点都能被其他节点访问到。即对任意一节点P,存在一条路径,它可以访问到另外一个节点Q;同时存在另外一条路径,另外一个节点Q可以访问到节点P,具体可参考图4D所示。
社区聚类采用louvain算法;所述Louvain算法是基于模块度的社区发现算法能较好的发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。其模块度的定义:
Ai,j:i与j之间的边的权重;ki:连接到点i的边的权重之和;2m:全部边的权重之和;δ(ci,cj):若点i和点j来自于同一组,则输出1,反之输出0。
具体算法包括两部分。
第一部分:不断遍历关系网络中的实体。初始是,将每个实体分在属于自己的社区中;然后计算每个实体从自己所属社区中移除,放置在它邻居所属的社区之后的模块性的变化量ΔQ。
Σ(in):目前社区中的边的权重之和;Σ(total):与目标社区中的实体相连的边的权重之和;ki,in:实体i与目标社区中其它实体的边的权重之和;实体i将被放置在ΔQ增长量最大的目标社区中。如果ΔQ没有增长,那么该实体保留原位。
反复重复上述步骤,直到ΔQ不再增长。
第二部分:重构网络。把第一部分形成的社区们当作点,以此形成一个新的图。对第二部分重复第一部分的计算过程,直至整体的模块性不再提升。
其中,标签传播算法(Label Propagation Algorithm)原理如下:在初始状态,每个节点打上一个标签,表示它所属的社区。社区内每个节点的标签变化与其周围邻居的节点标签相关。根据其周围节点同一标签频数最高的标签值,作为该节点的新标签。初始时,每个节点都赋值一个唯一标签,之后在图中进行传播。关系紧密连接的节点将最终形成同一标签。
第一步,初始化图内所有节点的标签。对某个给定的节点x,其标签定义为:Cx(0)=x。
第二步:设定迭代次数t,从t=1开始。
第三步:对图中的节点,随机生成节点在图中的顺序,节点和顺序组合定义为X。
第四步:对每个x∈X,x表示一种节点和顺序的组合,令
f表示返回在其邻居节点中标签频数最高的标签值。如果多个标签的最高频数相同,则随机选一个。
xi1,...,xim表示x的邻居节点,其其社区标签在t次更新。xi(m+1),...,xk也是x的邻居节点,其社区标签是在t-1次更新。
第五步:当每个节点是它的标签是它邻居节点中标签频数最大的那个标签,则停止迭代。否则将迭代次数设定为t=t+1,重复第三步。
步骤S3042:形成社区子图。
在本发明一实施例中,所述风险计算装置可包含风险实体识别模块,所述风险实体识别模块用于根据预设的识别条件中选定的识别条件,于所述实体子图中识别获得对应的检测结果;其中,所述识别条件包含黑名单识别、实体识别和节点识别;当选定所述黑名单识别时,根据预定规则比对所述实体子图中各实体的实体属性,获得所述实体子图中符合预定规则的黑名单实体,根据所述黑名单实体生成实体清单;当选定实体识别时,通过历史数据和学习算法构建风险检测模型;通过所述风险检测模型分别计算所述实体子图中各实体的风险概率,根据风险概率高于预定概率阈值的实体生成实体清单;当选定节点识别时,通过点分析算法识别所述实体子图中的中心度实体;通过所述风险检索模型计算所述中心度实体的风险概率,根据风险概率高于预定概率阈值的中心度实体生成实体清单。具体请参考图5所示,所述风险实体识别模块的识别流程如下:
步骤S401:选择风险实体识别模式。为预测风险传导,需要能够在子图内识别出实体黑名单。本模块包括三种实体风险识别模式。
步骤S4020:黑名单识别模式。
步骤S4021:根据已有黑名单,标注子图中的黑名单实体。
步骤S4022:得到子图黑名单实体清单。将子图中属于黑名单的实体,列入清单中,黑名单客户的黑名单概率一般可设定为1。
步骤S4030:实体预测识别模式。
步骤S4031:利用模型算法,计算子图内实体黑名单概率。对子图内的每个正常实体(即,非黑名单实体),预测该正常实体变成黑名单的概率。预测概率的方法包括但不限于机器学习算法中的有监督算法。
预测的主要步骤包括:
第一步:定义模型的目标变量,即黑白名单客户;建模的样本。
第二步:设计用于建模的特征变量。特征变量一般根据实体属性选择,并基于实体属性进行加工生成衍生变量。
第三步:运用有监督的机器学习算法进行模型训练、验证、测试。
有监督的算法一般可以使用Logistic回归模型、XGboost、LightGBM、随机森林、SVM等。也可以使用神经网络模型。
第四步:将正常实体的属性特征变量输入模型,通过一系列运算得到违约概率。
步骤S4032:得到子图高风险实体清单。对于预测概率较高的正常实体,列入清单中,高风险实体的黑名单概率一般采用预测出的概率。概率阈值根据历史数据统计得出。即,根据以往预测的实体变为和黑名单的概率与该实体实际变为黑名单,划定概率阈值。如,预测黑名单概率为90%的实体,后续该实体一般会真实转变为黑名单实体;那么阈值就划分为90%。
步骤S4040:节点识别模式。
步骤S4041:运用图的点分析算法,识别子图中高中心度实体。对图算法,计算出子图内高中心度的实体。采用并不限于点的度中心度、紧密中心度、中介中心度、特征向量中心性、PageRank等图指标,找出指标值较高的实体。将实体根据其指标值从高到低排序,按每隔1%的设置,取1%-99%的分位点。取一定分位点范围内的实体。
度中心度用来衡量每个实体有多少关系,强调该实体的价值。一般包括出度:以该实体为起点,与该实体相连接的指向其他实体的关系数量;入度:以该实体为终点点,与该实体相连接的指向该实体的关系数量。紧密中心度用来衡量实体在子图中的价值。计算子图中实体离所有其它实体之间的距离平均值的倒数。
n:从实体x出发,在一定步长内,可以得到的实体的数量;V:子图的实体的集合;d(y,x):实体y到实体x的最短路径。分母可以理解为周围的实体到该实体的最短路径的综合;若分母取值越小,紧密中心度的取值越大,该实体与周围的实体跟紧密。
中介中心度:计算子图中中任意两个实体的所有最短路径(一般可限定在一定步长之内),如果这些最短路径中有很多条都经过了某个实体,说明该实体具有很强的中介桥接作用。
σy,z:从实体y到实体z的最短路径的数量;σy,z(x):实体y到实体z的经过实体x的最短路径的数量。
特征向量中心性用来测量实体对子图的影响。对于连接的关系相同的实体,相邻实体分数更高的实体会比相邻实体分数更低的实体分数高,依据此原则给所有实体分配对应的分数。特征向量得到较高意味着该实体与许多自身得分较高的实体相连接。
利用邻接矩阵求特征向量中心性:
给定一个实体集合为|V|的子图G=(V,E),定义其邻接矩阵为A=(av,t),当v与t相连时,av,t=1,反之av,t=0.则实体v中心性x的分数其求解公式为:
其中,邻接矩阵用数字方阵记录各实体之间是否有关系相连,数字的大小可以表示比关系的权重大小。阶数为n的图G的邻接矩阵A是n*n的。将G的实体定义为v1,v2,...,vn。若:也可用大于0的字表示关系的权重。
M(v)是实体v的相邻实体集合,λ是一个常数。经过一系列变形,该公式可以变换为如下所示的特征向量方程:
Ax=λx
λ表示特征向量。特征值最大的λ表示所要测量的中心性。通过计算子图中的实体v其特征向量的相关分量vth,便能得出其对应的中心性的分数。为了保证不同分数可衡量,对不同实体的分数进行标准化,得到各节点的特征向量中心性分数。
步骤S4042:利用模型算法,计算高中心度实体的黑名单概率。类似步骤S4031、S4032,预测实体的黑名单概率。本步骤非必经步骤。对于这些高中心度的实体,可以直接加入到清单中。
步骤S4043:得到子图高中心度实体清单。高中心度实体的黑名单概率,若采用了步骤S4042,则一般采用预测出的概率。若略过步骤S4042,则可根据情景假设的方式,设定其黑名单概率。
在本发明一实施例中,所述风险计算装置还包含传导路径分析模块,所述传导路径分析模块用于通过图算法计算所述实体清单中各实体两两之间最短的路径,并记录所述路径途径实体的实体属性及实体间的关系属性。具体请参考图6所示,所述传导路径分析模块亦即风险传导路径分析模块的分析流程如下:
步骤S501:从风险实体识别模块获取实体清单;从前述模块中,获取风险实体清单,该风险实体清单范围包括至少其中一种模式:黑名单实体、高风险实体、高中心度实体。
步骤S502:运用图路径算法,找寻实体间的最优路径。从实体清单内实体出发,找寻清单内实体与子图内其他实体的最优路径。因为子图内两两实体的传导存在多种可能,且风险传导往往非常迅速,故寻找两个实体间最优的连接方式。通过图算法,计算出两两实体间的最优路径。可用的方法包括Dijkstra算法、Floyd-Warshall算法等。
Dijkstra算法主要原理如下:
将起始点定义为初始节点。节点Y的距离表示初始节点与节点Y距离。
第一步:将图内所有的点标记为未访问。将所有未访问点构成未访问点集合。
第二步:对每个点赋予一个临时距离取值。对研究的初始节点距离赋值为0,其他节点赋值为正无穷。将初始节点设为当前节点。
第三步:对当前节点,考虑与它所有的标为未访问节点,计算它们与当前节点的临时距离。比较新计算出的临时距离与当前节点的赋值,取最小值。比如,如果当前节点A的距离赋为6,它和邻居B的距离是2,那么B和A之间的距离是6+2=8。如果B的距离之前赋值大于8,那么将距离重新赋值为8;若赋值不大于8,则保留原来的B的距离。
第四步:遍历对当前节点所有未访问节点,将当前节点标记为已访问节点,将其从未访问节点集合中移除,不再计算。
第五步:当终点也被标注为已访问(当考察两个特定点之间的距离),或者未访问集合中的最小的临时距离是无穷大,停止计算。
第六步:将未访问节点中临时距离最小的节点,将它设定为当前节点,重复第三步。
Floyd-Warshall算法主要原理如下:
设图G中节点集合V={v1,v2,...,vN}。设函数shortestPath(i,j,k)表示从节点i到节点j之间仅经过中间节点集合{1,2,...,k}路径的最短距离。目标是求解经过至少集合V中任一节点,每个节点i到每个节点j之间的最短距离。
对图中每个节点对,shortestPath(i,j,k)可以是一条不经过节点k的路径,或者是必须经过k的路径。两种情况下,必定包含中间节点集合{v1,v2,...,vk-1}。
从节点i到节点j间仅经过{v1,v2,...,vk-1}的最优路径定义为shortestPath(i,j,k-1).很明显,如果存在一条从i到k到j的更好的路径,那么这条路径是从i到k(仅经过{v1,v2,...,vk-1})的最短路径和从k到j(仅经过{v1,v2,...,vk-1})最短路径的连接。
设ω(i,j)是点i和点j之间边的权重,可以用递归的形式表达shortestPath(i,j,k):
shortestPath(i,j,0)=ω(i,j);
shortestPath(i,j,k)=min(shortestPath(i,j,k-1),shortestPath(i,k,k-1)+shortestPath(k,j,k-1))
首先对所有组合(i,j)求解k=1时的shortestPath(i,j,k),再求解k=2时的,直到求解完k=N。这样就得到所有组合(i,j)经过{v1,v2,...,vN}的最短路径。
步骤S503:记录每条路径上的实体属性、关系属性。
在本发明一实施例中,所述风险计算装置还包含实体传导预测模块,所述实体传导预测模块用于根据所述实体清单和所述路径,通过各实体对应的概率分布函数计算各实体的传导概率,根据各实体的风险概率值和对应的传导概率获得实体的风险概率;具体的,请参考图7所示,所述实体风险传导预测的流程如下:
步骤S601:从风险实体识别模块获取识别出的风险实体清单。该风险实体清单范围包括至少其中一种模式:黑名单实体、高风险实体、高中心度实体。从上述实体作为起始实体,开始风险传导。
步骤S602:从风险传导路径分析模块获取实体传导路径。获取前述步骤中从风险实体出发的风险传导路径。
步骤S603:传导风险概率函数计算模块获取传导概率函数。包括每类关系下“实体-关系-实体”的概率分布函数、不同关系间相互作用下的多元概率分布函数、风险连续传导的概率分布函数、多重关系和连续传导的概率函数。用于计算具体的风险传导概率。
步骤S604:计算目标实体的被传导概率。从起始节点的黑名单概率出发,根据不同关系间相互作用下的多元概率分布函数,计算关联实体的被传导的黑名单概率。根据传导路基和连续传导的概率函数,得到目标实体被传导至黑名单的概率。对目标实体的风险传导概率,支持两种模式。模式一对子图内全部实体均计算传导概率,模式二对子图内任意若干目标实体,计算对这些标实体的被传导概率。
在本发明一实施例中,上述分析装置可包含风险决策模块,请参考图8A所示,所述风险决策模块的决策流程如下:
步骤S701:从实体风险传导预测模块获取目标实体的风险传导概率。
步骤S702:从风险传导路径分析模块获取传导路径属性。路径属性包括实体属性、关系属性等。
步骤S703:建立决策风险引擎。决策风险引擎根据目标实体的风险传导概率和风险传导路径属性,根据风险矩阵目标实体的风险高低程度。风险矩阵是按该实体的风险敞口和风险传导概率建立四象限矩阵。
请参考图8B所示,四个象限分别为:
I象限:风险传导概率-高,风险敞口-高;
II象限:风险传导概率-低,风险敞口-高;
III象限:风险传导概率-低,风险敞口-低;
IV象限:风险传导概率-高,风险敞口-低;
其中,I象限发生概率高、风险敞口高,属于高风险。III象限发生概率低、风险敞口低,属于低风险。II象限发生概率低,风险敞口高;一旦发生风险事情,损失较大。III象限发生概率高,风险敞口低;发生时造成的损失的较小。这两个象限的风险程度为中。
步骤S704按决策风险引擎的风险偏好,即风险爱好、风险中性、风险厌恶三类,进行区分。上述四个象限的风险严重性程度从高到低进一步细分为:
决策风险爱好:I象限>IV象限>II象限>III象限;
决策风险中性:I象限>IV象限=II象限>III象限;
决策风险厌恶:I象限>II象限>IV象限>III象限;
步骤S705:风险决策。对前述步骤I象限是高风险实体清单,根据风险管理的外部监管要求和内部管理制度,采取相应风险控制措施。II象限是中等风险实体清单,发生概率低,风险敞口大,对其进行风险核实,若核实确定风险的,根据风险管理的外部监管要求和内部管理制度,采取相应风险控制措施。III象限是低风险实体清单,一般只需要关注。IV象限是中等风险实体清单,发生概率高,风险敞口低,对其进行风险预警,根据风险管理的外部监管要求和内部管理制度,采取相应风险控制措施。
综上,为更准确的显示各实体的状态,以及提供更多样化的显示方式,实际工作中,本发明所提供的实体关系图谱显示***可具体分为以下7部分,具体可参考图1B所示,本发明所提供的实体关系图谱显示***可包含:知识图谱构建模块1构建知识图谱的底层数据,是后续的数据基础。传导风险概率函数计算模块2计算实体的风险概率分布,生成实体被传导的风险概率分布函数。实体子图抽取模块3抽取计算传导风险的客群。风险实体识别模块4是为了找到模块3中的子图中黑名单,作为风险传导的起始点。风险传导路径分析模块5基于模块3、模块4,计算在模块3的子图内,从模块4的黑名单客户风险传播路径。实体风险传导预测模块6根据模型5的路径,和模块4得到的风险传导概率函数,计算得到被传导的目标实体的黑名单风险概率。风险决策模块7根据模块6的黑名单风险概率,采取相应措施,控制风险。
在上述实施例中,知识图谱构建模块1:主要确定知识图谱内实体和关系的定义。以“实体-关系-实体”三元组为基本单位,形成全图。传导风险概率函数计算模块2:主要利用大数据,计算不同关系下风险传导概率分布,得到实体受多种关系和连续传导下的风险概率函数。实体子图抽取模块3:抽取分析的对象实体群,研究该实体群内的风险传导路径和风险状态。风险实体识别模块4:主要利用机器学习算法,寻找实体子图内的黑名单实体。风险传导路径分析模块5:主要利用机器学习算法,生成黑名单实体至目标实体间的风险传导路径,并记录路径上各个“实体-关系-实体”的属性信息。实体风险传导预测模块6:将传导风险值计算模块中得到风险值应用至风险传导路径中,得到目标实体的风险值。风险决策模块7:综合考量目标实体的风险值和风险传导路径,建立风险决策引擎,确定需要预警的目标实体清单和相应的风险控制措施。
请参考图9所示,本发明还提供一种实体关系图谱显示方法,所述方法包含:步骤一:采集预设范围内的所有实体,根据各实体的实体属性及各实体之间的关系属性构建以实体为节点的知识图谱;步骤二:根据预设规则分析所述知识图谱中分析各实体的实体属性,获得黑名单实体;根据所述黑名单实体及其关联实体之间的关系属性,于预存函数库中获得对应的概率分布函数;根据所述概率分布函数计算获得与所述黑名单实体关联的实体的风险概率值;根据实体的一个或多个风险概率值的总和获得对应实体的风险概率;步骤三:将各实体的风险概率与预定提示阈值比较,根据比较结果和对应实体生成提示信息。
在上述实施例中,所述方法还包含:获得历史数据中符合预定规则的黑名单实体;根据所述黑名单实体于历史数据中筛选获得与所述黑名单实体一度关联实体,及所述黑名单实体与其一度关联实体之间的一个或多个关系属性;通过统计学分析获得一度关联实体在与所述黑名单实体之间不同关系属性对应的第一风险传导函数,及多个关系属性对应的第二风险传导函数,以及黑名单实体的连续传导函数;根据所述第一风险传导函数、所述第二风险传导函数和所述连续传导函数获得概率分布函数,将所述连续传导函数存储至预存函数库。
在本发明一实施例中,所述步骤二还包含:根据预设的筛选条件中选定的筛选条件,于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图。其中,所述预设的筛选条件包含属性识别、实体识别和社区识别;当选定所述属性识别时,根据各实体的实体属性或各实体之间的关系属性于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图;当选定所述实体识别时,于所述知识图谱中筛选获得对应实体;根据所述实体及所述实体之间的关系属性构建实体子图;当选定社区识别时,通过图社区算法获得所述知识图谱中的连通体和社区聚类,生成实体子图。
在本发明一实施例中,所述步骤二还包含:根据预设的识别条件中选定的识别条件,于所述实体子图中识别获得对应的检测结果;其中,所述识别条件包含黑名单识别、实体识别和节点识别;当选定所述黑名单识别时,根据预定规则比对所述实体子图中各实体的实体属性,获得所述实体子图中符合预定规则的黑名单实体,根据所述黑名单实体生成实体清单;当选定实体识别时,通过历史数据和学习算法构建风险检测模型;通过所述风险检测模型分别计算所述实体子图中各实体的风险概率,根据风险概率高于预定概率阈值的实体生成实体清单;当选定节点识别时,通过点分析算法识别所述实体子图中的中心度实体;通过所述风险检索模型计算所述中心度实体的风险概率,根据风险概率高于预定概率阈值的中心度实体生成实体清单。
在本发明一实施例中,所述步骤二还包含:通过图算法计算所述实体清单中各实体两两之间最短的路径,并记录所述路径途径实体的实体属性及实体间的关系属性。
在本发明一实施例中,所述步骤二还包含:根据所述实体清单和所述路径,通过各实体对应的概率分布函数计算各实体的传导概率,根据各实体的风险概率值和对应的传导概率获得实体的风险概率。
本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
如图10所示,上述计算机设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,计算机设备600也并不是必须要包括图10中所示的所有部件;此外,计算机设备600还可以包括图10中没有示出的部件,可以参考现有技术。
如图10所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制计算机设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向计算机设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行计算机设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由计算机设备使用的数据。存储器140的驱动程序存储部144可以包括计算机设备的用于通信功能和/或用于执行计算机设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一计算机设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种实体关系图谱显示***,其特征在于,所述***包含关系构建装置、风险计算装置和分析装置;
所述关系构建装置用于采集预设范围内的所有实体,根据各实体的实体属性及各实体之间的关系属性构建以实体为节点的知识图谱;
所述风险计算装置用于根据预设规则分析所述知识图谱中分析各实体的实体属性,获得黑名单实体;根据所述黑名单实体及其关联实体之间的关系属性,于预存函数库中获得对应的概率分布函数;根据所述概率分布函数计算获得与所述黑名单实体关联的实体的风险概率值;根据实体的一个或多个风险概率值的总和获得对应实体的风险概率;
所述分析装置用于将各实体的风险概率与预定提示阈值比较,根据比较结果和对应实体生成提示信息;
所述风险计算装置包含传导概率计算模块,所述传导概率计算模块用于获得历史数据中符合预定规则的黑名单实体;根据所述黑名单实体于历史数据中筛选获得与所述黑名单实体一度关联实体,及所述黑名单实体与其一度关联实体之间的一个或多个关系属性;通过统计学分析获得一度关联实体在与所述黑名单实体之间不同关系属性对应的第一风险传导函数,及多个关系属性对应的第二风险传导函数,以及黑名单实体的连续传导函数;根据所述第一风险传导函数、所述第二风险传导函数和所述连续传导函数获得概率分布函数,将所述连续传导函数存储至预存函数库。
2.根据权利要求1所述的实体关系图谱显示***,其特征在于,所述风险计算装置包含实体子图抽取模块,所述实体子图抽取模块用于根据预设的筛选条件中选定的筛选条件,于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图。
3.根据权利要求2所述的实体关系图谱显示***,其特征在于,所述预设的筛选条件包含属性识别、实体识别和社区识别;
当选定所述属性识别时,根据各实体的实体属性或各实体之间的关系属性于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图;
当选定所述实体识别时,于所述知识图谱中筛选获得对应实体;根据所述实体及所述实体之间的关系属性构建实体子图;
当选定社区识别时,通过图社区算法获得所述知识图谱中的连通体和社区聚类,生成实体子图。
4.根据权利要求2所述的实体关系图谱显示***,其特征在于,所述风险计算装置包含风险实体识别模块,所述风险实体识别模块用于根据预设的识别条件中选定的识别条件,于所述实体子图中识别获得对应的检测结果;其中,所述识别条件包含黑名单识别、实体识别和节点识别;
当选定所述黑名单识别时,根据预定规则比对所述实体子图中各实体的实体属性,获得所述实体子图中符合预定规则的黑名单实体,根据所述黑名单实体生成实体清单;
当选定实体识别时,通过历史数据和学习算法构建风险检测模型;通过所述风险检测模型分别计算所述实体子图中各实体的风险概率,根据风险概率高于预定概率阈值的实体生成实体清单;
当选定节点识别时,通过点分析算法识别所述实体子图中的中心度实体;通过所述风险检索模型计算所述中心度实体的风险概率,根据风险概率高于预定概率阈值的中心度实体生成实体清单。
5.根据权利要求4所述的实体关系图谱显示***,其特征在于,所述风险计算装置还包含传导路径分析模块,所述传导路径分析模块用于通过图算法计算所述实体清单中各实体两两之间最短的路径,并记录所述路径途径实体的实体属性及实体间的关系属性。
6.根据权利要求5所述的实体关系图谱显示***,其特征在于,所述风险计算装置还包含实体传导预测模块,所述实体传导预测模块用于根据所述实体清单和所述路径,通过各实体对应的概率分布函数计算各实体的传导概率,根据各实体的风险概率值和对应的传导概率获得实体的风险概率。
7.一种实体关系图谱显示方法,其特征在于,所述方法包含:
步骤一:采集预设范围内的所有实体,根据各实体的实体属性及各实体之间的关系属性构建以实体为节点的知识图谱;
步骤二:根据预设规则分析所述知识图谱中分析各实体的实体属性,获得黑名单实体;根据所述黑名单实体及其关联实体之间的关系属性,于预存函数库中获得对应的概率分布函数;根据所述概率分布函数计算获得与所述黑名单实体关联的实体的风险概率值;根据实体的一个或多个风险概率值的总和获得对应实体的风险概率;
步骤三:将各实体的风险概率与预定提示阈值比较,根据比较结果和对应实体生成提示信息;
获得历史数据中符合预定规则的黑名单实体;根据所述黑名单实体于历史数据中筛选获得与所述黑名单实体一度关联实体,及所述黑名单实体与其一度关联实体之间的一个或多个关系属性;通过统计学分析获得一度关联实体在与所述黑名单实体之间不同关系属性对应的第一风险传导函数,及多个关系属性对应的第二风险传导函数,以及黑名单实体的连续传导函数;根据所述第一风险传导函数、所述第二风险传导函数和所述连续传导函数获得概率分布函数,将所述连续传导函数存储至预存函数库。
8.根据权利要求7所述的实体关系图谱显示方法,其特征在于,所述步骤二还包含:根据预设的筛选条件中选定的筛选条件,于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图。
9.根据权利要求8所述的实体关系图谱显示方法,其特征在于,所述预设的筛选条件包含属性识别、实体识别和社区识别;
当选定所述属性识别时,根据各实体的实体属性或各实体之间的关系属性于所述知识图谱中筛选获得对应的一个或多个实体;根据所述实体及所述实体之间的关系属性构建实体子图;
当选定所述实体识别时,于所述知识图谱中筛选获得对应实体;根据所述实体及所述实体之间的关系属性构建实体子图;
当选定社区识别时,通过图社区算法获得所述知识图谱中的连通体和社区聚类,生成实体子图。
10.根据权利要求8所述的实体关系图谱显示方法,其特征在于,所述步骤二还包含:
根据预设的识别条件中选定的识别条件,于所述实体子图中识别获得对应的检测结果;
其中,所述识别条件包含黑名单识别、实体识别和节点识别;
当选定所述黑名单识别时,根据预定规则比对所述实体子图中各实体的实体属性,获得所述实体子图中符合预定规则的黑名单实体,根据所述黑名单实体生成实体清单;
当选定实体识别时,通过历史数据和学习算法构建风险检测模型;通过所述风险检测模型分别计算所述实体子图中各实体的风险概率,根据风险概率高于预定概率阈值的实体生成实体清单;
当选定节点识别时,通过点分析算法识别所述实体子图中的中心度实体;通过所述风险检索模型计算所述中心度实体的风险概率,根据风险概率高于预定概率阈值的中心度实体生成实体清单。
11.根据权利要求10所述的实体关系图谱显示方法,其特征在于,所述步骤二还包含:通过图算法计算所述实体清单中各实体两两之间最短的路径,并记录所述路径途径实体的实体属性及实体间的关系属性。
12.根据权利要求11所述的实体关系图谱显示方法,其特征在于,所述步骤二还包含:根据所述实体清单和所述路径,通过各实体对应的概率分布函数计算各实体的传导概率,根据各实体的风险概率值和对应的传导概率获得实体的风险概率。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求7至12任一所述方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求7至12任一所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103482.9A CN111309824B (zh) | 2020-02-18 | 2020-02-18 | 实体关系图谱显示方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103482.9A CN111309824B (zh) | 2020-02-18 | 2020-02-18 | 实体关系图谱显示方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111309824A CN111309824A (zh) | 2020-06-19 |
CN111309824B true CN111309824B (zh) | 2023-09-15 |
Family
ID=71156512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010103482.9A Active CN111309824B (zh) | 2020-02-18 | 2020-02-18 | 实体关系图谱显示方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309824B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754340B (zh) * | 2020-07-03 | 2022-06-21 | 交通银行股份有限公司 | 一种基于图数据库的担保网络风险排查*** |
CN111932174B (zh) * | 2020-07-28 | 2024-05-28 | 中华人民共和国深圳海关 | 货运监管异常信息获取方法、装置、服务器及存储介质 |
CN111861281A (zh) * | 2020-08-05 | 2020-10-30 | 中国银行股份有限公司 | 基于知识图谱的风险员工发现方法及装置 |
CN111951104A (zh) * | 2020-08-24 | 2020-11-17 | 上海银行股份有限公司 | 一种基于关联图谱的风险传导预警方法 |
CN112001649B (zh) * | 2020-08-27 | 2022-11-29 | 支付宝(杭州)信息技术有限公司 | 一种风险数据挖掘方法、装置以及设备 |
CN112256886B (zh) * | 2020-10-23 | 2023-06-27 | 平安科技(深圳)有限公司 | 图谱中的概率计算方法、装置、计算机设备及存储介质 |
CN112598496B (zh) * | 2020-12-15 | 2024-04-30 | 深圳前海微众银行股份有限公司 | 风控黑名单设置方法、装置、终端设备及可读存储介质 |
CN112699249B (zh) * | 2020-12-31 | 2022-11-15 | 上海浦东发展银行股份有限公司 | 基于知识图谱的信息处理方法、装置、设备及存储介质 |
CN112785423A (zh) * | 2021-02-07 | 2021-05-11 | 撼地数智(重庆)科技有限公司 | 一种欺诈风险节点的挖掘方法、装置、设备及存储介质 |
CN112883278A (zh) * | 2021-03-23 | 2021-06-01 | 西安电子科技大学昆山创新研究院 | 基于智慧社区大数据知识图谱的不良舆论传播抑制方法 |
TWI807319B (zh) * | 2021-05-10 | 2023-07-01 | 中國信託商業銀行股份有限公司 | 借貸風險偵測方法及其運算裝置 |
CN113240472B (zh) * | 2021-05-19 | 2024-02-02 | 深圳索信达数据技术有限公司 | 理财产品推荐方法、电子设备及存储介质 |
CN113535810B (zh) * | 2021-06-25 | 2024-02-27 | 杨粤湘 | 一种交通违法对象的挖掘方法、装置、设备及介质 |
CN113378977B (zh) * | 2021-06-30 | 2023-11-21 | 中国农业银行股份有限公司 | 一种录音数据的处理方法和装置 |
CN113344460A (zh) * | 2021-07-07 | 2021-09-03 | 上海软中信息技术有限公司 | 一种基于大数据图谱计算的智能风险预测与识别***、设备和装置 |
CN113806555B (zh) * | 2021-09-14 | 2023-08-08 | 国网北京市电力公司 | 用于app的运营异常识别方法、***、装置及存储介质 |
CN114090752A (zh) * | 2021-11-17 | 2022-02-25 | 中国建设银行股份有限公司 | 一种问题线索发掘方法、装置、计算机设备及介质 |
CN114201618B (zh) * | 2022-02-17 | 2022-09-13 | 药渡经纬信息科技(北京)有限公司 | 药物研发文献可视化解读方法和*** |
CN117114105B (zh) * | 2023-10-25 | 2024-01-30 | 中国科学技术信息研究所 | 基于科研大数据信息的目标对象推荐方法和*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636584A (zh) * | 2018-11-19 | 2019-04-16 | 平安科技(深圳)有限公司 | 违约概率展示方法、装置、计算机设备和存储介质 |
CN109657918A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 关联评估对象的风险预警方法、装置和计算机设备 |
CN109657837A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 违约概率预测方法、装置、计算机设备和存储介质 |
CN110232524A (zh) * | 2019-06-14 | 2019-09-13 | 哈尔滨哈银消费金融有限责任公司 | 社交网络欺诈模型的构建方法、防欺诈方法和装置 |
CN110503236A (zh) * | 2019-07-08 | 2019-11-26 | 中国平安人寿保险股份有限公司 | 基于知识图谱的风险预测方法、装置、设备以及存储介质 |
CN110717824A (zh) * | 2019-10-17 | 2020-01-21 | 北京明略软件***有限公司 | 基于知识图谱的银行对公客群风险传导测算的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11704731B2 (en) * | 2018-04-11 | 2023-07-18 | Hartford Fire Insurance Company | Processing system to generate risk scores for electronic records |
-
2020
- 2020-02-18 CN CN202010103482.9A patent/CN111309824B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636584A (zh) * | 2018-11-19 | 2019-04-16 | 平安科技(深圳)有限公司 | 违约概率展示方法、装置、计算机设备和存储介质 |
CN109657918A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 关联评估对象的风险预警方法、装置和计算机设备 |
CN109657837A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 违约概率预测方法、装置、计算机设备和存储介质 |
CN110232524A (zh) * | 2019-06-14 | 2019-09-13 | 哈尔滨哈银消费金融有限责任公司 | 社交网络欺诈模型的构建方法、防欺诈方法和装置 |
CN110503236A (zh) * | 2019-07-08 | 2019-11-26 | 中国平安人寿保险股份有限公司 | 基于知识图谱的风险预测方法、装置、设备以及存储介质 |
CN110717824A (zh) * | 2019-10-17 | 2020-01-21 | 北京明略软件***有限公司 | 基于知识图谱的银行对公客群风险传导测算的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111309824A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309824B (zh) | 实体关系图谱显示方法及*** | |
De Winter et al. | Combining temporal aspects of dynamic networks with node2vec for a more efficient dynamic link prediction | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN110223168A (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及*** | |
Zhao et al. | A machine learning based trust evaluation framework for online social networks | |
CN110503531A (zh) | 时序感知的动态社交场景推荐方法 | |
Ngonmang et al. | Churn prediction in a real online social network using local community analysis | |
Shindarev et al. | Approach to identifying of employees profiles in websites of social networks aimed to analyze social engineering vulnerabilities | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN110737730B (zh) | 基于无监督学习的用户分类方法、装置、设备及存储介质 | |
CN107895038A (zh) | 一种链路预测关系推荐方法及装置 | |
CN111143704B (zh) | 一种融合用户影响关系的在线社区好友推荐方法及*** | |
CN115270007B (zh) | 一种基于混合图神经网络的poi推荐方法及*** | |
Eravci et al. | Location recommendations for new businesses using check-in data | |
Hu et al. | Co-clustering enterprise social networks | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN116127190A (zh) | 一种数字地球资源推荐***及方法 | |
Peng et al. | TCDABCF: A Trust‐Based Community Detection Using Artificial Bee Colony by Feature Fusion | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
KR101522306B1 (ko) | 유사도 특성을 이용한 메타휴리스틱 알고리즘에 기반한 시스템 및 그 제어방법 | |
CN116467466A (zh) | 基于知识图谱的编码推荐方法、装置、设备及介质 | |
CN113409096B (zh) | 目标对象识别方法、装置、计算机设备及存储介质 | |
Sharma et al. | Comparative analysis of different algorithms in link prediction on social networks | |
Munikoti et al. | Bayesian graph neural network for fast identification of critical nodes in uncertain complex networks | |
Rezaeipanah et al. | Providing a new method for link prediction in social networks based on the meta-heuristic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |