CN110223168B - 一种基于企业关系图谱的标签传播反欺诈检测方法及*** - Google Patents

一种基于企业关系图谱的标签传播反欺诈检测方法及*** Download PDF

Info

Publication number
CN110223168B
CN110223168B CN201910546944.1A CN201910546944A CN110223168B CN 110223168 B CN110223168 B CN 110223168B CN 201910546944 A CN201910546944 A CN 201910546944A CN 110223168 B CN110223168 B CN 110223168B
Authority
CN
China
Prior art keywords
enterprise
blacklist
graph
node
fraud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910546944.1A
Other languages
English (en)
Other versions
CN110223168A (zh
Inventor
尹盼盼
崔乐乐
郭宏毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN201910546944.1A priority Critical patent/CN110223168B/zh
Publication of CN110223168A publication Critical patent/CN110223168A/zh
Application granted granted Critical
Publication of CN110223168B publication Critical patent/CN110223168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于企业关系图谱的标签传播反欺诈检测方法及***,属于金融信贷领域,要解决的技术问题为如何对复杂网络数据进行有效的分析以发现有价值的信息并进一步挖掘复杂网络关系体现的欺诈风险,技术方案为:①该方法步骤如下:S1、建立企业黑名单库;S2、构建关系图谱:筛选关系数据库中列入关系图谱的相关表格及字段,抽取关系型数据库对象实体及实体关系;S3、基于自建黑名单库以及企业关系图谱对企业进行反欺诈检测:基于黑名单库标识关系图谱黑名单节点,提取黑名单节点连接子图,运用标签传播算法识别各连接子图中的欺诈企业节点,并预估企业反欺诈的概率。②该***包括企业黑名单库建立单元、关系图谱构建单元和反欺诈检测单元。

Description

一种基于企业关系图谱的标签传播反欺诈检测方法及***
技术领域
本发明涉及金融信贷领域,具体地说是一种基于企业关系图谱的标签传播反欺诈检测方法及***。
背景技术
当前普惠金融的市场环境下,线上欺诈风险变化非常频繁,以往单一的个体欺诈已迅速演变成有组织、有规模的团体欺诈和相应的关联风险。而传统的反欺诈手段包括身份验证、客户信息逻辑校验、外部信息的对比校验、黑名单过滤等方式主要还是在识别个人风险,无法根据千丝万缕的关系挖掘潜在的群体欺诈,这就需要基于网络的全局风险识别能力来覆盖该部分的风险漏洞。由于很多大型企业的关系错综复杂,传统的图形变现方式将不再适用。为解决该问题,专利号为CN107229756A专利文献公开了一种直观展现企业关系图谱的设计方法及***,包括如下步骤:使用网络爬虫算法从国家企业信用信息公示***中抓取待查询企业的企业主要信息,将第一层企业关系数据存入图形数据库中;利用企业股东和对外投资公司分别作为关键词,再次使用网络爬虫算法从国家企业信用信息公示***中抓取企业主要信息,将企业主要信息保存到企业主要信息数据库中;将第二层企业关系数据存入图形数据库中;直到最后一层企业关系数据中没有股东或对外投资公司;依据图形数据库生成企业关系图谱。该技术方案使***用户快速了解企业关系,把握公司发展趋势。但企业间关系的直观性不强,对于数据量较大的样本情况处理效率有待验证。
企业关系图谱以企业为点直观的获知两个企业间关系,然而企业关系较为复杂,通过人工方式对成千上万条的企业数据进行预测,不仅耗费大量的人力物力,而且构建企业关系图谱效率低下。
故如何对复杂网络数据进行有效的分析以发现有价值的信息并进一步挖掘复杂网络关系体现的欺诈风险是目前现有技术中急需解决的技术问题。
现有技术中常用的标签传播方法时间复杂度较低,适用于复杂网络,但存在标签更新不稳定、社区数目取决于特定参数的问题。
专利号为CN109583620A的专利文献公开了一种企业潜在风险预警方法、装置、计算机设备和存储介质。方法包括:获取企业关联图谱并提取节点关联关系,获取企业关联图谱中的传播起始节点携带的风险参数标签,根据风险参数标签和节点关联关系,获得风险参数标签的传播路径,获取传播路径中各节点间的传播系数,根据传播路径和传播系数,对风险参数标签进行标签传播处理,获得节点潜在风险预警信息。该技术方案是基于初始风险节点运用标签传播算法传播初始风险节点,并寻找传播路径,根据传播路径反馈潜在风险数据信息并提示预警,应用场景为企业潜在风险预警,但是不能实现对复杂网络数据进行有效的分析以发现有价值的信息并进一步挖掘复杂网络关系体现的欺诈风险。
专利号为CN108038700A的专利文献公开了一种反欺诈数据分析方法与***,用以从后端数据库中获取数据集市以及图数据库发送至分析模型,所述数据集市以及所述图数据库为根据预先搜集的关于欺诈的基础数据生成的;所述分析模型对所述数据集市以及所述图数据库进行分析,以获得分析结果;将所述分析结果输出至前端并展示。该技术方案是基于个体欺诈风险识别方法与群体欺诈风险相结合的模型方法,旨在基于欺诈检测结果丰富关系图谱可视化结果,分析数据为个人数据,但是不能实现对复杂网络数据进行有效的分析以发现有价值的信息并进一步挖掘复杂网络关系体现的欺诈风险。
发明内容
本发明的技术任务是提供一种基于企业关系图谱的标签传播反欺诈检测方法及***,来解决如何对复杂网络数据进行有效的分析以发现有价值的信息并进一步挖掘复杂网络关系体现的欺诈风险的问题。
本发明的技术任务是按以下方式实现的,一种基于企业关系图谱的标签传播反欺诈检测方法,该方法包括如下步骤:
S1、建立企业黑名单库:数据采集技术收集原始网络数据,原始网络数据保存于关系型数据库中,筛选关系型数据库中能够列入反欺诈黑名单库的表格及字段并对相关数据进行提取、融合、去重的预处理,建立企业反欺诈黑名单库;
S2、构建关系图谱:筛选关系数据库中列入关系图谱的相关表格及字段,抽取关系型数据库对象实体及实体关系,构建关系图谱;
S3、基于自建黑名单库以及企业关系图谱对企业进行反欺诈检测:基于黑名单库标识关系图谱黑名单节点,提取黑名单节点连接子图,运用标签传播算法识别各连接子图中的欺诈企业节点,并预估企业属于欺诈的概率。
作为优选,所述步骤S1中建立企业黑名单库的具体步骤如下:
S101、数据采集及存储:基于数据采集技术采集覆盖全国的企业信息、黑名单信息及各失信企业信息的数据,采集数据保存于关系型数据库中;
S102、黑名单库入库对象筛选:基于建立反欺诈黑名单库的业务目标,筛选关系型数据库中入选黑名单库的相关表格及入库字段;
S103、入库数据去重处理:针对选取的入库数据进行数据去重,用统一社会信用代码唯一标识企业对象;
S104、数据更新:关系型数据库中各相关表格数据定期更新,同时同步更新企业黑名单库中的企业信息。
作为优选,所述企业黑名单库包括非法集资企业名单、失信企业名单、工商和/或海关失信企业名单、信用中国失信金融企业名单、失信物流企业名单以及涉及司法风险企业名单。
更优地,所述步骤S101中企业信息包括企业名称、社会信用代码以及列入黑名单时间。
作为优选,所述步骤S2中构建关系图谱的具体步骤如下:
S201、关系图谱相关表格筛选:关系型数据库中采集的覆盖全国的企业数据,企业数据包括企业基本信息、企业分支机构、企业变更、联系方式、对外担保、对外投资、动产抵押、股东及出资信息;
S202、节点及节点关系抽取:抽取企业、法人、主要就职人员的公司以及个人两种类型的实体作为关系图谱节点,抽取企业、法人以及主要就职人员之间的投资、被投资、担保、法人以及职位的三元组关系作为关系图谱节点关系;
S203、权重赋值:根据实体关系对反欺诈的作用赋予关系图谱节点关系不同权重,基于neo4j技术建立企业社会关系的关系图谱。
作为优选,所述步骤S3中基于自建黑名单库以及企业关系图谱对企业进行反欺诈检测的具体步骤如下:
S301、标注关系图谱黑名单节点:提取建立的黑名单库中的企业黑名单数据,查找关系图谱中出现的黑名单企业,标注关系图谱中的黑名单节点seed_label属性;
S302、提取黑名单连接子图:针对基于黑名单库标注后的关系图谱,基于neo4j图库中的Connected Components算法提取与各黑名单企业弱连通的连接子图;
S303、对黑名单连接子图进行标签传播反欺诈:针对提取的各个黑名单连接子图,运用neo4j图库中的Label Propagation算法并设置算法节点、节点关系、关系权重、迭代次数以及种子节点的参数,迭代调优标签传播算法,得到企业所属社区,计算企业预判为欺诈企业的概率。
更优地,所述步骤S301中标注关系图谱黑名单节点的具体步骤如下:
S30101、依次读取外部黑名单库中各企业,查找关系图谱中是否存在该企业节点:
①、若存在,则对该企业节点的seed_label属性赋值,下一步执行步骤S30102;
②、若不存在,则继续查找下一黑名单节点;
S30102、关系图谱中赋值后的节点将作为标签传播的种子节点进行算法建模。
更优地,所述步骤S302中提取黑名单连接子图的具体步骤如下:
S30201、基于neo4j中的Connected Components算法查找与任一节点连接的子图;具体步骤如下:
①、基于Neo4j中的Label Propagation算法进行数据建模,设置初始种子节点信息;
②、设置进行标签传播的节点、节点关系、所用节点关系权重以及迭代参数;
③、调整各参数迭代运行标签传播算法,得到各节点理想分区结果;
S30202、在子图中存在一个节点对应的子图SG,对于子图SG中的任意两个节点u,v,存在u->...->v的路径或存在v->...->u的路径;
S30203、黑名单连接子图信息以属性保存于关系图谱的每个节点中。
更优地,所述步骤S303中对黑名单连接子图进行标签传播反欺诈的具体步骤如下:
S30301、建立企业(含标签和未标签)的完全图,让每一个企业(有标签的和无标签的)都作为一个节点;
S30302、初始化,利用权重公式来计算两企业之间边的权重,得到企业间的相似度;
S30303、让每一个带有标签的企业通过边传播到所有的企业,权重大的边的企业更容易影响到相邻的企业;企业之间边权重的计算公式如下:
Figure GDA0003498675160000041
S30304、定义一个(l+u)的概率传播方阵T,进而求出企业标签j传播到标签i的概率;
S30305、通过概率传递,使其概率分布集中于给定类别,再通过边的权重值来传递企业标签,即每个企业按传播概率把它周围企业传播的标注值按权重相加,并更新该企业的概率分布;
S30306、限定已标注的企业,把已标注的企业的概率分布重新赋值为初始值,跳转至步骤S30304,直至达到最终迭代结束时,相似企业的概率分布趋于相似,划分到一类中的效果,即可结束迭代。
一种基于企业关系图谱的标签传播反欺诈检测***,该***包括,
企业黑名单库建立单元,用于通过数据采集技术收集的原始网络数据经过提取、融合、去重的预处理建立企业反欺诈黑名单库;
关系图谱构建单元,用于通过筛选关系数据库中的关系图谱的相关表格及字段,抽取关系型数据库对象实体及实体关系构建关系图谱;
反欺诈检测单元,用于基于自建黑名单库以及企业关系图谱对企业进行反欺诈检测,并预估企业属于欺诈的概率。
本发明的基于企业关系图谱的标签传播反欺诈检测方法及***具有以下优点:
(一)、本发明基于关系图谱与标签传播算法相融合的研究方法并辅以自建的黑名单库在企业丰富社会关系构建的关系图谱上运用图库算法预判企业反欺诈风险,识别反欺诈企业,与现有技术相比,具有如下的有益结果:
①、相较于传统基于规则引擎的反欺诈方法,运用规则模型将欺诈行为从正常操作中区别开来的方法,克服了规则引擎必须基于大量历史案例总结“专家知识”的弊端;
②、相较于机器学习模型方法,描述欺诈行为特征运用数据挖掘针对历史数据建立分类模型识别欺诈行为的方法,克服了其必须收集大量用户行为数据的弊端;
③、更适用于企业首次提出申贷请求来不及收集企业申贷行为的场景,本发明提出的方法适用场景更为丰富;
④、以企业数据为主,并基于企业社会关系建立关系图谱,应用场景为信贷领域贷前的反欺诈检测;
⑤、运用图算法基于企业复杂社会关系网络甄别反欺诈的方法具有更强的理论基础,更能有效的识别团伙欺诈这一欺诈类型;
⑥、伴随后期大数据实时处理方法的引进、企业社会关系的不断丰富以及多种算法的融合,本发明提出的方法会识别更加潜在、更加准确的欺诈企业,应用前景极为广阔;
(二)、本发明针对金融科技领域主要以个人反欺诈为主的现状,实现为企业提供金融反欺诈检测的目的,本发明提出一种基于企业关系图谱下的标签传播算法进行企业反欺诈检测的方法,适用于信贷领域中企业这一信贷主体,在企业发起信贷申请时运用该方法实现企业的反欺诈检测,丰富了企业反欺诈检测的实现方法及其应用场景;
(三)、本发明基于自建黑名单库标注关系图谱中黑名单节点,并基于黑名单查找其连接子图,基于子图进行标签传播对企业是否欺诈做出预判,处理对象为所有黑名单连接子图,应用场景为信贷流程中贷前的反欺诈检测。
附图说明
下面结合附图对本发明进一步说明。
附图1为关系图谱建立的流程框图;
附图2为基于自建黑名单库以及企业关系图谱对企业进行反欺诈检测的流程框图;
附图3为实施例3的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于企业关系图谱的标签传播反欺诈检测方法及***作以下详细地说明。
实施例1:
本发明的基于企业关系图谱的标签传播反欺诈检测方法,该方法包括如下步骤:
S1、建立企业黑名单库:数据采集技术收集原始网络数据,原始网络数据保存于关系型数据库中,筛选关系型数据库中能够列入反欺诈黑名单库的表格及字段并对相关数据进行提取、融合、去重的预处理,建立企业反欺诈黑名单库;具体步骤如下:
S101、数据采集及存储:基于数据采集技术采集覆盖全国的企业信息、黑名单信息及各失信企业信息的数据,采集数据保存于关系型数据库中;企业信息包括企业名称、社会信用代码以及列入黑名单时间。
S102、黑名单库入库对象筛选:基于建立反欺诈黑名单库的业务目标,筛选关系型数据库中入选黑名单库的相关表格及入库字段;
S103、入库数据去重处理:针对选取的入库数据进行数据去重,用统一社会信用代码唯一标识企业对象;
S104、数据更新:关系型数据库中各相关表格数据定期更新,同时同步更新企业黑名单库中的企业信息。其中,企业黑名单库包括非法集资企业名单、失信企业名单、工商和/或海关失信企业名单、信用中国失信金融企业名单、失信物流企业名单以及涉及司法风险企业名单。
S2、构建关系图谱:筛选关系数据库中列入关系图谱的相关表格及字段,抽取关系型数据库对象实体及实体关系,构建关系图谱;关系图谱指的是一种基于图的数据结构,由节点和边组成。每个节点代表一个实体,每条边为实体与实体之间的关系。关系图谱把不同的实体按照关系连接在一起,从而提供了从“关系”角度分析问题的能力。关系图谱的结构取决于如何定义实体与实体之间的关系,在解决实际问题时,关系的定义需要依据业务需求并且常常极为复杂。本发明中关系图谱的建立主要以企业、法人、主要就职人员这些个体作为实体节点,抽取实体之间的社会关系作为关系图谱中的实体关系。如附图1所示,具体步骤如下:
S201、关系图谱相关表格筛选:关系型数据库中采集的覆盖全国的企业数据,企业数据包括企业基本信息、企业分支机构、企业变更、联系方式、对外担保、对外投资、动产抵押、股东及出资信息;
S202、节点及节点关系抽取:抽取企业、法人、主要就职人员的公司以及个人两种类型的实体作为关系图谱节点,抽取企业、法人以及主要就职人员之间的投资、被投资、担保、法人以及职位的三元组关系作为关系图谱节点关系;
S203、权重赋值:根据实体关系对反欺诈的作用赋予关系图谱节点关系不同权重,基于neo4j技术建立企业社会关系的关系图谱。
S3、基于自建黑名单库以及企业关系图谱对企业进行反欺诈检测:基于黑名单库标识关系图谱黑名单节点,提取黑名单节点连接子图,运用标签传播算法识别各连接子图中的欺诈企业节点,并预估企业属于欺诈的概率;基于关系图谱的反欺诈检测方法主要分为监督模型和无监督模型两种情况。根据实际建模场景样本是否可标注来选择更优的建模方法,本发明中自建的黑名单库可以很好地标注关系图谱中的黑名单节点,这些黑名单节点作为有标识的训练样本参与建模,但由于标注的黑名单的数据量相对于关系图谱中的庞大节点数据来说占比非常小,主要采取半监督的建模方法进行建模。如附图2所示,具体步骤如下:
S301、标注关系图谱黑名单节点:提取建立的黑名单库中的企业黑名单数据,查找关系图谱中出现的黑名单企业,标注关系图谱中的黑名单节点seed_label属性;在构建的关系图谱中,当企业社会关系较少时如小微企业,在关系图谱中往往体现为一个独立的节点,或者体现为与其他企业或实体组成规模为二的团体。当企业的社会关系信息较为丰富时,会出现三个点以上甚至十几个节点关系较为密切的较大团体,如果此种情况下该团体中某一个企业已被标注为黑名单企业,则该团体中其他企业则很大程度上会存在反欺诈的风险。基于此种情况,本发明在基于黑名单库标注关系图谱中黑名单节点基础上,寻找与各节点的连接子图,在每一个与黑名单有关联的连接子图中运用标签传播这种半监督的建模方法进行反欺诈检测。具体步骤如下:
S30101、依次读取外部黑名单库中各企业,查找关系图谱中是否存在该企业节点:
①、若存在,则对该企业节点的seed_label属性赋值,下一步执行步骤S30102;
②、若不存在,则继续查找下一黑名单节点;
S30102、关系图谱中赋值后的节点将作为标签传播的种子节点进行算法建模。
S302、提取黑名单连接子图:针对基于黑名单库标注后的关系图谱,基于neo4j图库中的Connected Components算法提取与各黑名单企业弱连通的连接子图;标签传播算法(LPA)是一种用于在图中查找社区的快速算法,仅仅使用网络结构作为指导来监测关系图谱中的社区,并且不需要预定义的目标函数或者关于社区的任何先验信息。在LPA中可以为节点分配初始标签,以缩小生成最终解决方案的范围,即采用半监督的建模方式来寻找我们亲自挑选的初始社区的社区。标签传播算法的原理是基于已有标签的企业与已有的企业及标签类别去预测没有标签的企业,其输入为x个未标记企业和y个标记的企业及其标签,输出为x个未标记企业的标签。具体步骤如下:
S30201、基于neo4j中的Connected Components算法查找与任一节点连接的子图;具体步骤如下:
①、基于Neo4j中的Label Propagation算法进行数据建模,设置初始种子节点信息;
②、设置进行标签传播的节点、节点关系、所用节点关系权重以及迭代参数;
③、调整各参数迭代运行标签传播算法,得到各节点理想分区结果;
S30202、在子图中存在一个节点对应的子图SG,对于子图SG中的任意两个节点u,v,存在u->...->v的路径或存在v->...->u的路径;
S30203、黑名单连接子图信息以属性保存于关系图谱的每个节点中。
S303、对黑名单连接子图进行标签传播反欺诈:针对提取的各个黑名单连接子图,运用neo4j图库中的Label Propagation算法并设置算法节点、节点关系、关系权重、迭代次数以及种子节点的参数,迭代调优标签传播算法,得到企业所属社区,计算企业预判为欺诈企业的概率;具体步骤如下:
S30301、建立企业(含标签和未标签)的完全图,让每一个企业(有标签的和无标签的)都作为一个节点;
S30302、初始化,利用权重公式来计算两企业之间边的权重,得到企业间的相似度;
S30303、让每一个带有标签的企业通过边传播到所有的企业,权重大的边的企业更容易影响到相邻的企业;企业之间边权重的计算公式如下:
Figure GDA0003498675160000091
S30304、定义一个(l+u)的概率传播方阵T,进而求出企业标签j传播到标签i的概率;
S30305、通过概率传递,使其概率分布集中于给定类别,再通过边的权重值来传递企业标签,即每个企业按传播概率把它周围企业传播的标注值按权重相加,并更新该企业的概率分布;
S30306、限定已标注的企业,把已标注的企业的概率分布重新赋值为初始值,跳转至步骤S30304,直至达到最终迭代结束时,相似企业的概率分布趋于相似,划分到一类中的效果,即可结束迭代。
实施例2:
本发明的基于企业关系图谱的标签传播反欺诈检测***,该***包括,
企业黑名单库建立单元,用于通过数据采集技术收集的原始网络数据经过提取、融合、去重的预处理建立企业反欺诈黑名单库;
关系图谱构建单元,用于通过筛选关系数据库中的关系图谱的相关表格及字段,抽取关系型数据库对象实体及实体关系构建关系图谱;
反欺诈检测单元,用于基于自建黑名单库以及企业关系图谱对企业进行反欺诈检测,并预估企业属于欺诈的概率。
实施例3:
以银行货代线上审贷为应用实例:
如附图3所示,具体步骤如下:
(一)、模型训练,具体步骤如下:
(1)、通过数据采集技术收集原始网络数据,网络数据保存于关系型数据库中;
(2)、基于覆盖全国的企业数据筛选可列入反欺诈黑名单库的相关表格,对表格数据进行提取、融合、去重建立企业反欺诈黑名单库,即利用关系型数据库定期更新黑名单库;
(3)、抽取数据库中企业、法人、主要就职人员等实体以及实体间投资、被投资、担保、法人等各种社会关系,运用neo4j图库技术构建企业关系图谱,关系图谱中各节点关系根据社会关系对反欺诈的作用程度赋予不同权重,即利用黑名单库定期更新neo4j图库;
(4)、基于自建黑名单库以及企业关系图谱,运用neo4j图库中ConnectedComponents算法抽取黑名单企业的最大连接子图,运用标签传播算法提取黑名单连接子图中存在反欺诈风险的企业,并预估企业属于欺诈的概率,即通过黑名单库及neo4j图库定期迭代进行反欺诈检测;
(二)、线上审贷单元利用模型训练得到的数据完成线上审贷流程,具体步骤如下:
(1)、企业发起审贷;
(2)、贷前需要进行贷前验真以及发欺诈检测并判断企业是否符合要求:
①、若是,则下一步执行步骤(3);
②、若否,则跳转至步骤(6);
(3)、贷中需要进行信用评级以及以信定额,并判断企业是否符合要求:
①、若是,则下一步执行步骤(4);
②、若否,则跳转至步骤(6);
(4)、贷后需要进行风险监控和风险预警并判断企业是否符合要求:
①、若是,则下一步执行步骤(5);
②、若否,则跳转至步骤(6);
(5)、银行获取风控服务的数据;
(6)、完成线上审贷流程。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种基于企业关系图谱的标签传播反欺诈检测方法,其特征在于,该方法包括如下步骤:
S1、建立企业黑名单库:数据采集技术收集原始网络数据,原始网络数据保存于关系型数据库中,筛选关系型数据库中能够列入反欺诈黑名单库的表格及字段并对相关数据进行预处理,预处理包括提取、融合及去重,建立企业反欺诈黑名单库;
S2、构建关系图谱:筛选关系数据库中列入关系图谱的相关表格及字段,抽取关系型数据库对象实体及实体关系,构建关系图谱;具体步骤如下:
S201、关系图谱相关表格筛选:关系型数据库中采集的覆盖全国的企业数据,企业数据包括企业基本信息、企业分支机构、企业变更、联系方式、对外担保、对外投资、动产抵押、股东及出资信息;
S202、抽取关系型数据库中企业、法人及主要就职人员作为实体以及实体间投资、被投资、担保及法人的各种社会关系,运用neo4j图库技术构建企业关系图谱,企业关系图谱中各节点关系根据社会关系对反欺诈的作用程度赋予不同权重,即利用黑名单库定期更新neo4j图库;
S3、基于自建黑名单库以及企业关系图谱对企业进行反欺诈检测:基于黑名单库标识关系图谱黑名单节点,提取黑名单节点连接子图,运用标签传播算法识别各连接子图中的欺诈企业节点,并预估企业属于欺诈的概率;具体步骤如下:
S301、标注关系图谱黑名单节点:提取建立的黑名单库中的企业黑名单数据,查找关系图谱中出现的黑名单企业,标注关系图谱中的黑名单节点seed_label属性;
S302、提取黑名单连接子图:针对基于黑名单库标注后的关系图谱,基于neo4j图库中的Connected Components算法提取与各黑名单企业弱连通的连接子图;具体步骤如下:
S30201、基于neo4j中的Connected Components算法查找与任一节点连接的子图;具体步骤如下:
①、基于neo4j中的Label Propagation算法进行数据建模,设置初始种子节点信息;
②、设置进行标签传播的节点、节点关系、所用节点关系权重以及迭代参数;
③、调整各参数迭代运行标签传播算法,得到各节点理想分区结果;
S30202、在子图中存在一个节点对应的子图SG,对于子图SG中的任意两个节点u,v,存在u->...->v的路径或存在v->...->u的路径;
S30203、黑名单连接子图信息以属性保存于关系图谱的每个节点中;
S303、对黑名单连接子图进行标签传播反欺诈:针对提取的各个黑名单连接子图,运用neo4j图库中的Label Propagation算法并设置算法节点、节点关系、关系权重、迭代次数以及种子节点的参数,迭代调优标签传播算法,得到企业所属社区,计算企业预判为欺诈企业的概率。
2.根据权利要求1所述的基于企业关系图谱的标签传播反欺诈检测方法,其特征在于,所述步骤S1中建立企业黑名单库的具体步骤如下:
S101、数据采集及存储:基于数据采集技术采集覆盖全国的企业信息、黑名单信息及各失信企业信息的数据,采集数据保存于关系型数据库中;
S102、黑名单库入库对象筛选:基于建立反欺诈黑名单库的业务目标,筛选关系型数据库中入选黑名单库的相关表格及入库字段;
S103、入库数据去重处理:针对选取的入库数据进行数据去重,用统一社会信用代码唯一标识企业对象;
S104、数据更新:关系型数据库中各相关表格数据定期更新,同时同步更新企业黑名单库中的企业信息。
3.根据权利要求1或2所述的基于企业关系图谱的标签传播反欺诈检测方法,其特征在于,所述企业黑名单库包括非法集资企业名单、失信企业名单、工商和/或海关失信企业名单、信用中国失信金融企业名单、失信物流企业名单以及涉及司法风险企业名单。
4.根据权利要求3所述的基于企业关系图谱的标签传播反欺诈检测方法,其特征在于,所述步骤S101中企业信息包括企业名称、社会信用代码以及列入黑名单时间。
5.根据权利要求1所述的基于企业关系图谱的标签传播反欺诈检测方法,其特征在于,所述步骤S301中标注关系图谱黑名单节点的具体步骤如下:
S30101、依次读取外部黑名单库中各企业,查找关系图谱中是否存在该企业节点:
①、若存在,则对该企业节点的seed_label属性赋值,下一步执行步骤S30102;
②、若不存在,则继续查找下一黑名单节点;
S30102、关系图谱中赋值后的节点将作为标签传播的种子节点进行算法建模。
6.根据权利要求1所述的基于企业关系图谱的标签传播反欺诈检测方法,其特征在于,所述步骤S303中对黑名单连接子图进行标签传播反欺诈的具体步骤如下:
S30301、建立企业的完全图,让每一个企业都作为一个节点;
S30302、初始化,利用权重公式来计算两企业之间边的权重,得到企业间的相似度;
S30303、让每一个带有标签的企业通过边传播到所有的企业,权重大的边的企业更容易影响到相邻的企业;企业之间边权重的计算公式如下:
Figure RE-FDA0003498675150000041
S30304、定义一个(l+u)的概率传播方阵T,进而求出企业标签j传播到标签i的概率;
S30305、通过概率传递,使其概率分布集中于给定类别,再通过边的权重值来传递企业标签,即每个企业按传播概率把它周围企业传播的标注值按权重相加,并更新该企业的概率分布;
S30306、限定已标注的企业,把已标注的企业的概率分布重新赋值为初始值,跳转至步骤S30304,直至达到最终迭代结束时,相似企业的概率分布趋于相似,划分到一类中的效果,即结束迭代。
7.一种基于企业关系图谱的标签传播反欺诈检测***,其特征在于,该***包括,
企业黑名单库建立单元,用于通过数据采集技术收集的原始网络数据经过预处理建立企业反欺诈黑名单库;其中,预处理包括提取、融合及去重;
关系图谱构建单元,用于通过筛选关系数据库中的关系图谱的相关表格及字段,抽取关系型数据库对象实体及实体关系构建关系图谱;关系图谱构建单元的工作过程具体如下:
S201、关系图谱相关表格筛选:关系型数据库中采集的覆盖全国的企业数据,企业数据包括企业基本信息、企业分支机构、企业变更、联系方式、对外担保、对外投资、动产抵押、股东及出资信息;
S202、抽取关系型数据库中企业、法人及主要就职人员作为实体以及实体间投资、被投资、担保及法人的各种社会关系,运用neo4j图库技术构建企业关系图谱,企业关系图谱中各节点关系根据社会关系对反欺诈的作用程度赋予不同权重,即利用黑名单库定期更新neo4j图库;
反欺诈检测单元,用于基于自建黑名单库以及企业关系图谱对企业进行反欺诈检测,并预估企业属于欺诈的概率;
其中,反欺诈检测单元的工作过程具体如下:
S301、标注关系图谱黑名单节点:提取建立的黑名单库中的企业黑名单数据,查找关系图谱中出现的黑名单企业,标注关系图谱中的黑名单节点seed_label属性;
S302、提取黑名单连接子图:针对基于黑名单库标注后的关系图谱,基于neo4j图库中的Connected Components算法提取与各黑名单企业弱连通的连接子图;具体步骤如下:
S30201、基于neo4j中的Connected Components算法查找与任一节点连接的子图;具体步骤如下:
①、基于neo4j中的Label Propagation算法进行数据建模,设置初始种子节点信息;
②、设置进行标签传播的节点、节点关系、所用节点关系权重以及迭代参数;
③、调整各参数迭代运行标签传播算法,得到各节点理想分区结果;
S30202、在子图中存在一个节点对应的子图SG,对于子图SG中的任意两个节点u,v,存在u->...->v的路径或存在v->...->u的路径;
S30203、黑名单连接子图信息以属性保存于关系图谱的每个节点中;
S303、对黑名单连接子图进行标签传播反欺诈:针对提取的各个黑名单连接子图,运用neo4j图库中的Label Propagation算法并设置算法节点、节点关系、关系权重、迭代次数以及种子节点的参数,迭代调优标签传播算法,得到企业所属 社区,计算企业预判为欺诈企业的概率。
CN201910546944.1A 2019-06-24 2019-06-24 一种基于企业关系图谱的标签传播反欺诈检测方法及*** Active CN110223168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910546944.1A CN110223168B (zh) 2019-06-24 2019-06-24 一种基于企业关系图谱的标签传播反欺诈检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910546944.1A CN110223168B (zh) 2019-06-24 2019-06-24 一种基于企业关系图谱的标签传播反欺诈检测方法及***

Publications (2)

Publication Number Publication Date
CN110223168A CN110223168A (zh) 2019-09-10
CN110223168B true CN110223168B (zh) 2022-06-28

Family

ID=67814376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910546944.1A Active CN110223168B (zh) 2019-06-24 2019-06-24 一种基于企业关系图谱的标签传播反欺诈检测方法及***

Country Status (1)

Country Link
CN (1) CN110223168B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717823B (zh) * 2019-09-29 2022-08-02 支付宝(杭州)信息技术有限公司 一种信贷逾期风险识别方法和***
CN110909986A (zh) * 2019-11-04 2020-03-24 苏宁金融科技(南京)有限公司 基于知识图谱的疑似实际控制人的风险识别方法及***
CN110990587B (zh) * 2019-12-04 2023-04-18 电子科技大学 基于主题模型的企业关系发现方法及***
CN111131626B (zh) * 2019-12-20 2022-01-14 珠海高凌信息科技股份有限公司 基于流数据图谱的群组有害呼叫检测方法、装置及可读介质
CN111178615B (zh) * 2019-12-24 2023-10-27 成都数联铭品科技有限公司 一种企业风险识别模型的构建方法及***
CN111031068B (zh) * 2019-12-27 2022-04-26 杭州安恒信息技术股份有限公司 一种基于复杂网络的dns分析方法
CN111309822B (zh) * 2020-02-11 2023-05-09 简链科技(广东)有限公司 用户身份识别方法及装置
CN111414485B (zh) * 2020-03-17 2022-09-30 北京恒通慧源大数据技术有限公司 企业客户关联关系图谱构建方法、装置、存储器和计算机
CN111798092B (zh) * 2020-05-27 2024-03-12 深圳奇迹智慧网络有限公司 海关查验监控方法、装置、计算机设备和存储介质
CN111814064A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于Neo4j的异常用户处理方法、装置、计算机设备和介质
CN111932174B (zh) * 2020-07-28 2024-05-28 中华人民共和国深圳海关 货运监管异常信息获取方法、装置、服务器及存储介质
CN112053221A (zh) * 2020-08-14 2020-12-08 百维金科(上海)信息科技有限公司 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN112084343A (zh) * 2020-09-10 2020-12-15 杭州安恒信息安全技术有限公司 一种社会关系图谱的量化方法、装置和介质
CN112115174A (zh) * 2020-09-15 2020-12-22 北京通付盾人工智能技术有限公司 一种基于图计算技术的kyc方法及***
CN112131275B (zh) * 2020-09-23 2023-07-25 长三角信息智能创新研究院 全息城市大数据模型和知识图谱的企业画像构建方法
CN112199450B (zh) * 2020-09-30 2024-06-14 支付宝(杭州)信息技术有限公司 一种关系图谱构建方法、装置及电子设备
CN112200583B (zh) * 2020-10-28 2023-12-19 交通银行股份有限公司 一种基于知识图谱的欺诈客户识别方法
CN112613763B (zh) * 2020-12-25 2024-04-16 北京知因智慧科技有限公司 数据传导方法及装置
CN112767136A (zh) * 2021-01-26 2021-05-07 天元大数据信用管理有限公司 基于大数据的信贷反欺诈识别方法、装置、设备及介质
CN112785423A (zh) * 2021-02-07 2021-05-11 撼地数智(重庆)科技有限公司 一种欺诈风险节点的挖掘方法、装置、设备及存储介质
CN112966099B (zh) * 2021-02-26 2024-06-25 北京金堤征信服务有限公司 关系图谱展示方法、装置及计算机可读存储介质
CN112989374B (zh) * 2021-03-09 2021-11-26 闪捷信息科技有限公司 基于复杂网络分析的数据安全风险识别方法及装置
CN113222737B (zh) * 2021-05-25 2022-06-14 天津大学 用于金融网络的风险可视化的图布局方法
CN113516553A (zh) * 2021-07-28 2021-10-19 中国建设银行股份有限公司 信用风险的预警方法及装置
CN115426206B (zh) * 2022-11-07 2023-03-24 中邮消费金融有限公司 一种基于同态加密技术的图反欺诈能力赋能的方法及***
CN115983636B (zh) * 2022-12-26 2023-11-17 深圳市中政汇智管理咨询有限公司 风险评估方法、装置、设备及存储介质
CN115774793B (zh) * 2023-01-29 2023-05-30 上海蜜度信息技术有限公司 机构时效性的检测方法、***、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127038A (zh) * 2016-06-22 2016-11-16 中国建设银行股份有限公司 一种黑名单的处理方法及***
CN109583620A (zh) * 2018-10-11 2019-04-05 平安科技(深圳)有限公司 企业潜在风险预警方法、装置、计算机设备和存储介质
CN109685647A (zh) * 2018-12-27 2019-04-26 阳光财产保险股份有限公司 信贷欺诈检测方法及其模型的训练方法、装置和服务器
CN109800335A (zh) * 2019-01-23 2019-05-24 平安科技(深圳)有限公司 企业图谱的生成方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161622A1 (en) * 2013-12-10 2015-06-11 Florian Hoffmann Fraud detection using network analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127038A (zh) * 2016-06-22 2016-11-16 中国建设银行股份有限公司 一种黑名单的处理方法及***
CN109583620A (zh) * 2018-10-11 2019-04-05 平安科技(深圳)有限公司 企业潜在风险预警方法、装置、计算机设备和存储介质
CN109685647A (zh) * 2018-12-27 2019-04-26 阳光财产保险股份有限公司 信贷欺诈检测方法及其模型的训练方法、装置和服务器
CN109800335A (zh) * 2019-01-23 2019-05-24 平安科技(深圳)有限公司 企业图谱的生成方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
在反欺诈拉锯战中,关系图谱扮演着什么重要角色;倪伟渊;《https://www.secrss.com/articles/503》;20180125;第1-3页 *

Also Published As

Publication number Publication date
CN110223168A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及***
CN110704572B (zh) 疑似非法集资风险的预警方法、装置、设备和存储介质
CN112053221A (zh) 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN111882446A (zh) 一种基于图卷积网络的异常账户检测方法
CN108572967A (zh) 一种创建企业画像的方法及装置
CN112132233A (zh) 一种基于有效影响因子的服刑人员危险行为预测方法及***
CN110990718B (zh) 一种公司形象提升***的社会网络模型构建模块
Nguyen et al. Vasabi: Hierarchical user profiles for interactive visual user behaviour analytics
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
CN105574544A (zh) 一种数据处理方法和装置
CN112053222A (zh) 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN115794803B (zh) 一种基于大数据ai技术的工程审计问题监测方法与***
CN116402512B (zh) 一种基于人工智能的账户安全排查管理方法
CN110716957B (zh) 类案可疑对象智能挖掘分析方法
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
CN107493275A (zh) 异构网络安全日志信息的自适应提取和分析方法及***
Yu et al. Predicting nft classification with gnn: A recommender system for web3 assets
CN106126523A (zh) 一种***犯罪信息分析***及分析方法
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及***和介质
CN111833073A (zh) 基于K-Means++算法的航空公司客户细分方法
CN116228402A (zh) 一种金融征信特征仓库技术支持***
CN112506930B (zh) 一种基于机器学习技术的数据洞察***
CN109828995A (zh) 一种基于视觉特征的图数据检测方法、***
Zhao et al. Detecting fake reviews via dynamic multimode network
CN114529383A (zh) 实现税务缴纳追踪和税款流失预警方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant