CN110647590A - 一种目标社群数据的识别方法及相关装置 - Google Patents

一种目标社群数据的识别方法及相关装置 Download PDF

Info

Publication number
CN110647590A
CN110647590A CN201910899829.2A CN201910899829A CN110647590A CN 110647590 A CN110647590 A CN 110647590A CN 201910899829 A CN201910899829 A CN 201910899829A CN 110647590 A CN110647590 A CN 110647590A
Authority
CN
China
Prior art keywords
community
transaction
relationship
network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910899829.2A
Other languages
English (en)
Inventor
黄志苹
陈鹏飞
段琴
王培勇
陈宏仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SERVYOU SOFTWARE GROUP Co Ltd
Original Assignee
SERVYOU SOFTWARE GROUP Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SERVYOU SOFTWARE GROUP Co Ltd filed Critical SERVYOU SOFTWARE GROUP Co Ltd
Priority to CN201910899829.2A priority Critical patent/CN110647590A/zh
Publication of CN110647590A publication Critical patent/CN110647590A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/123Tax preparation or submission

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种目标社群数据的识别方法,包括:将获取到的多个对象的交易关系数据进行交易关系网络构建处理,得到交易关系网络;基于模块度的图聚类算法对所述交易关系网络进行社群分类,得到社群分类结果;根据目标社群的属性确定分析维度,通过所述分析维度对所述社群分类结果进行分析,得到目标社群数据。通过基于模块度的图聚类算法对交易关系网络进行社群分类,得到社群分类结果,再筛选出目标社群数据,提高了目标社群数据查找的精度和准确率,提高了目标社群识别的效果。本申请还公开了一种目标社群数据的识别装置、服务器以及计算机可读存储介质,具有以上有益效果。

Description

一种目标社群数据的识别方法及相关装置
技术领域
本申请涉及计算机技术领域,特别涉及一种目标社群数据的识别方法、目标社群数据的识别装置、服务器以及计算机可读存储介质。
背景技术
随着信息技术的不断发展,经常会采用计算机的数据处理技术对数据进行检查。例如,在税务风险稽查领域中,通过数据识别技术对数据中存在的风险进行识别。从单点虚开识别预测,和基于货物信息的购销台账诊断,都是对单个企业进行分析。而针对虚开风险社群,也即是虚开团伙的分析方法较少,通常需要大量人力物力去进行业务数据的排查和梳理,来锁定团伙企业。
现有技术中,通常采用机器学习模型对关系数据进行分析,从而确定出所需要查找的目标社群。但是,目前使用的社群分类算法进行分类的精度和准确率不高,使得查找目标社群数据的效果并不好。
因此,如何提高目标社群数据识别的效果是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种目标社群数据的识别方法、目标社群数据的识别装置、服务器以及计算机可读存储介质,通过基于模块度的图聚类算法对交易关系网络进行社群分类,得到社群分类结果,再筛选出目标社群数据,提高了目标社群数据查找的精度和准确率,提高了目标社群识别的效果。
为解决上述技术问题,本申请提供一种目标社群数据的识别方法,包括:
将获取到的多个对象的交易关系数据进行交易关系网络构建处理,得到交易关系网络;
基于模块度的图聚类算法对所述交易关系网络进行社群分类,得到社群分类结果;
根据目标社群的属性确定分析维度,通过所述分析维度对所述社群分类结果进行分析,得到目标社群数据。
可选的,将获取到的多个对象的交易关系数据进行交易关系网络构建处理,得到交易关系网络,包括:
根据获取到的所述多个对象的交易关系数据构建出交易拓扑网络;
对所述交易拓扑网络进行交易边关系属性计算和企业点实体属性计算,得到图计算结果;
根据所述图计算结果对所述交易拓扑网络进行降噪处理,得到所述交易关系网络。
可选的,基于模块度的图聚类算法对所述交易关系网络进行社群分类,得到社群分类结果,包括:
根据连通社区算法对所述交易关系网络进行筛选,得到所述交易关系网络中的巨型社区;
根据所述基于模块度的图聚类算法对所述巨型社区进行社群分类,得到所述社群分类结果。
可选的,根据目标社群的属性确定分析维度,通过所述分析维度对所述社群分类结果进行分析,得到目标社群数据,包括:
当所述目标社群的类型为虚开团伙社群时,通过多个维度对所述社群分类结果进行分析,得到所述目标社群数据;其中,所述多个维度为任职关系维度、交易关系维度、地址关系维度、投资关系维度、财产关系维度。
本申请还提供一种目标社群数据的识别装置,包括:
交易拓扑网络模块,用于将获取到的多个对象的交易关系数据进行交易关系网络构建处理,得到交易关系网络;
社群分类模块,用于基于模块度的图聚类算法对所述交易关系网络进行社群分类,得到社群分类结果;
目标社群分析模块,用于根据目标社群的属性确定分析维度,通过所述分析维度对所述社群分类结果进行分析,得到目标社群数据。
可选的,所述交易拓扑网络模块,包括:
拓扑网络构建单元,用于根据获取到的所述多个对象的交易关系数据构建出交易拓扑网络;
图计算单元,用于对所述交易拓扑网络进行交易边关系属性计算和企业点实体属性计算,得到图计算结果;
降噪处理单元,用于根据所述图计算结果对所述交易拓扑网络进行降噪处理,得到所述交易关系网络。
可选的,所述社群分类模块,包括:
巨型社区获取单元,用于根据连通社区算法对所述交易关系网络进行筛选,得到所述交易关系网络中的巨型社区;
社群细分单元,用于根据所述基于模块度的图聚类算法对所述巨型社区进行社群分类,得到所述社群分类结果。
可选的,所述目标社群分析模块,具体用于当所述目标社群的类型为虚开团伙社群时,通过多个维度对所述社群分类结果进行分析,得到所述目标社群数据;其中,所述多个维度为任职关系维度、交易关系维度、地址关系维度、投资关系维度、财产关系维度。
本申请还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的识别方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的识别方法的步骤。
本申请所提供的一种目标社群数据的识别方法,包括:将获取到的多个对象的交易关系数据进行交易关系网络构建处理,得到交易关系网络;基于模块度的图聚类算法对所述交易关系网络进行社群分类,得到社群分类结果;根据目标社群的属性确定分析维度,通过所述分析维度对所述社群分类结果进行分析,得到目标社群数据。
通过首先获取到针对多个对象的交易关系数据,然后根据该交易关系数据进行交易关系网络构建处理,得到交易关系网络,再采用模块度的图聚类算法进行社群分类,得到社群分类结果,最后按照不同的分析维度对社群分类结果进行分类得到目标社群数据,由于其中采用了模块度的图聚类算法进行社群分类,提高了社群分类的精度和准确率,进而提高了目标社群数据识别的精度和准确率,提高了识别目标社群数据的效果。
本申请还提供一种目标社群数据的识别装置、服务器以及计算机可读存储介质,具有以上有益效果,在此不作赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种目标社群数据的识别方法的流程图;
图2为本申请实施例所提供的一种目标社群数据的识别装置的结构示意图。
具体实施方式
本申请的核心是提供一种目标社群数据的识别方法、目标社群数据的识别装置、服务器以及计算机可读存储介质,通过基于模块度的图聚类算法对交易关系网络进行社群分类,得到社群分类结果,再筛选出目标社群数据,提高了目标社群数据查找的精度和准确率,提高了目标社群识别的效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中,通常采用机器学习模型对关系数据进行分析,从而确定出所需要查找的目标社群。但是,目前使用的社群分类算法进行分类的精度和准确率不高,使得查找目标社群数据的效果并不好。
因此,本申请提供了一种目标社群数据的识别方法,通过首先获取到针对多个对象的交易关系数据,然后根据该交易关系数据进行交易关系网络构建处理,得到交易关系网络,再采用模块度的图聚类算法进行社群分类,得到社群分类结果,最后按照不同的分析维度对社群分类结果进行分类得到目标社群数据,由于其中采用了模块度的图聚类算法进行社群分类,提高了社群分类的精度和准确率,进而提高了目标社群数据识别的精度和准确率,提高了识别目标社群数据的效果。
请参考图1,图1为本申请实施例所提供的一种目标社群数据的识别方法的流程图。
本实施例中,该方法可以包括:
S101,将获取到的多个对象的交易关系数据进行交易关系网络构建处理,得到交易关系网络;
本步骤旨在根据获取到对象的交易关系数据构建出交易关系网络。其中,多个对象是指该交易关系网络中进行分析的基本对象,并且该交易关系网络是通过该多个对象构建得到。而本实施例中主要是对多个对象组成的目标社群进行识别。也就是,识别出所有对象中的部分对象作为目标社群。在此基础上,本步骤首先需要将所有的对象构建出整体的交易关系网络。
具体的,本步骤中可以采用现有技术提供的任意一种交易关系网络构建处理方法,也可以为了提高构建的交易关系网络的精度和准确度,可以采用以下的构建方法。
可选的,本步骤中的构建方法,可以包括:
根据获取到的多个对象的交易关系数据构建出交易拓扑网络;
对交易拓扑网络进行交易边关系属性计算和企业点实体属性计算,得到图计算结果;
根据图计算结果对交易拓扑网络进行降噪处理,得到交易关系网络。
可见,本可选方案中首先是构建出拓扑网络,然后在拓扑网络的基础上进行属性计算,得到图计算结果,然后根据该图计算结果对该交易拓扑网络进行降噪处理,得到交易关系网络。其中,交易边关系属性计算包括计算交易金额合计、交易金额占销方销售总额占比,交易金额占够方购进总额占比,购销方金额占比的算术平均值。企业点实体属性计算的值包括销售总额、购进总额,节点度数中心性计算(出度、入度、度数)。
其中,还为了保证算法的效果,对交易拓扑网络中的关系数据进行降噪处理。
S102,基于模块度的图聚类算法对交易关系网络进行社群分类,得到社群分类结果;
在S101的基础上,本步骤旨在对交易关系网络进行社群分类,也就是将该交易关系网络中暗藏的各个对象之间关系的交易社群分类出来,以便得到社群分类结果。进一步的,在交易关系网络中可能存在与其他社群不进行交易的社群,被称为孤岛社区,需要将该孤岛社群进行剔除,避免影响社群分类结果。
因此,本实施例中进行社群分类的方式可以选择以下的步骤。具体的,可以包括:
根据连通社区算法对交易关系网络进行筛选,得到交易关系网络中的巨型社区;
根据基于模块度的图聚类算法对巨型社区进行社群分类,得到社群分类结果。
其中,连通社区算法,分为弱连通社区算法和强连通社区算法,通常作为图聚类的预处理算法。弱连通即指在一个无向图中所有节点都可以通过一条路径到达其他节点,强连通社区即指在一个有向图中所有节点都可以通过一条路径到达其他节点(输出标准环状回路)。可以将识别出的孤岛社区进行剔除后,保留巨型社区。
S103,根据目标社群的属性确定分析维度,通过分析维度对社群分类结果进行分析,得到目标社群数据。
在S102的基础上,本步骤旨在先确定分析维度,然后通过该分析维度对获取到的社群分类结果进行分类,得到目标社群数据。
根据不同的分析维度,可以对该社群分类结果进行不同的分析操作,得到不同维度的目标社群数据。其中,分析维度包括但不限于任职关系维度、交易关系维度、地址关系维度、投资关系维度、财产关系维度、虚开诊断货物台账维度、虚开模式分析维度、跨区数据分析维度、其他业务标签维度。
因此当查找的目标社群为虚开团伙社群时,本步骤可以包括:
当目标社群的类型为虚开团伙社群时,通过多个维度对社群分类结果进行分析,得到目标社群数据;其中,多个维度为任职关系维度、交易关系维度、地址关系维度、投资关系维度、财产关系维度。
综上,本实施例通过首先获取到针对多个对象的交易关系数据,然后根据该交易关系数据进行交易关系网络构建处理,得到交易关系网络,再采用模块度的图聚类算法进行社群分类,得到社群分类结果,最后按照不同的分析维度对社群分类结果进行分类得到目标社群数据,由于其中采用了模块度的图聚类算法进行社群分类,提高了社群分类的精度和准确率,进而提高了目标社群数据识别的精度和准确率,提高了识别目标社群数据的效果。
以下通过另一具体的实施例,对本申请提供的一种目标社群数据的识别方法做进一步说明。
本实施例中,该方法可以包括:
步骤一,交易拓扑网络。
构建虚开交易关系网络。获取某地区一批虚开种子企业,对这些虚开企业周围有交易关联企业进行关系追踪,构建上下游各三层、7种企业节点的交易关系网络。
步骤二,图计算,包括交易边关系属性计算和企业点实体属性计算。
(1)交易边关系属性计算。包括交易金额合计、交易金额占销方销售总额占比,交易金额占够方购进总额占比,购销方金额占比的算术平均值。
(2)企业点实体属性计算。包括销售总额、购进总额,节点度数中心性计算(出度、入度、度数)。
步骤三,数据降噪:为保证算法的效果,需要预先对关系数据进行初始降噪处理。比如对交易金额小的交易边,对购销占比平均值小的关系边,对孤立节点的关系边(度数为1)进行预处理。
步骤四,社群分类算法是四种算法综合的一个算法模块,包括连通社区算法、louvain模块度聚类算法、PageRank算法和中介中心性算法。
(1)连通社区算法:分为弱连通社区算法和强连通社区算法,通常作为图聚类的预处理算法。弱连通即无向图中所有节点都可以通过一条路径到达其他节点,强连通社区即有向图中所有节点都可以通过一条路径到达其他节点(输出标准环状回路)。在这里,仅使用弱连通社区算法进行预处理,通常得到的是一个巨型社区,和其他几个小的孤岛社区,后续分析主体在巨型社区。
(2)Fast Unfolding算法,又称louvain算法,是一个典型的基于模块度的图聚类算法。模块度也可以理解是社区内部边的权重减去所有与社区节点相连的边的权重和,社区划分的目标是使得划分后的社区内部的连接较为紧密,而在社区之间的连接较为稀疏,通过模块度的可以体现进行这样划分的优劣,模块度越大,则社区划分的效果越好。
其中,Fast Unfolding算法便是基于模块度对社区划分的算法,Fast Unfolding算法是一种迭代的算法,主要目标是不断划分社区使得划分后的整个网络的模块度不断增大。
主要分为两个阶段:
第一阶段称为Modularity Optimization,主要是将每个节点划分到与其邻接的节点所在的社区中,以使得模块度的值不断变大;第二阶段称为Community Aggregation,主要是将第一步划分出来的社区聚合成为一个点,即根据上一步生成的社区结构重新构造网络。重复以上的过程,直到网络中的结构不再改变为止。
原生louvain算法适用于无向无权图,本实施例修改为有向有权图,权重设置为各因素综合计算值,即交易金额占销方销售总金额占比和交易金额占购方购进总额占比的算术平均数,综合考虑虚开上下游一级企业,上下游二级企业,有销无进,有进无销等因素,对权重进行调整优化。
其中,综合计算值的公式如下:
weights=∑(x1+x2+x3+x4+x5)
其中,x1为交易金额占销方总金额比率,x2为交易金额占购方总金额比率,x3为虚开上下游一级参数,x4为虚开上下游二级参数,x5为有销无进、有进无销参数。
经过Louvain算法输出后,得到社群分类结果。为了对社群结果进行分析,还需要对连通社群进行PageRank算法和中介中心性算法计算,得到相应的值。
(3)PageRank算法是一种由搜索引擎根据网页之间相互的超链接计算的技术,通过计算网页的PR值来得到网页的重要性程度。在交易社群中,计算PR值,可以得到社群中企业的重要性程度,PR值越大,该社群节点的风险越大,通常可以来判断“聚票”行为。但是计算前需要对代账和办税等关联较多的节点进行降噪处理。
(4)中介中心性算法指的是一个节点担任其它两个节点之间最短路的桥梁的次数。一个节点充当“中介”的次数越高,它的中介中心度就越大。在社群分析中,通过计算节点的中介中心性,可以得到节点作为虚开“通道”企业的可能性,通常可以判断“洗票”行为。
步骤五,获取到社群分类结果,即通过上述算法模块得到的社群分类标签。
步骤六,多维度团伙分析,也就是对得到的社群分类结果,从其他多个数据维度进行业务和规则分析。
(1)任职关系维度,即社群分类企业的人员关联性,虚开团伙内部企业通常有较强的人员关系。
(2)交易关系维度,即交易社群分类标签,以及交易社群的PR值和中介中心性标签等。
(3)地址关系维度,即社群分类企业的地址关联性,通常虚开团伙内部企业有同地址强关联性。
(4)投资关系维度,即社群分类企业的投资关联性,自然人投资人和法人投资人等,虚开企业保证交易回流,通常有法人和投资人的强关联关系。
(5)财产关系维度,即车、船、房产等登记和使用关联性,虚开团伙内部企业和人员通常会有共同财产和同一财产使用记录。
(6)虚开诊断货物台账维度,从货物的购销信息来判断,直观计算出货物购销不平衡,有销无进等特征行为数据,分析虚开货物流动路径、金额等,判断企业在团伙中扮演的角色。
(7)虚开模式分析维度,某些虚开团伙的作案符合一些特定的关联模式,如上下游聚票的“纺锤体”模式等。
(8)跨区数据分析维度,虚开团伙通常符合很明显的跨区作案特征,即交易上游或者下游为省外企业。
(9)其他业务标签维度,如社群分类企业的征收方式、企业规模、企业人数、社保缴纳情况,企业关键人员身份证地址关联性等。
步骤七,虚开团伙结果:经过上述多维度团伙分析后的结果,输出认为是虚开团伙结果。
可见,本实施例通过首先获取到针对多个对象的交易关系数据,然后根据该交易关系数据进行交易关系网络构建处理,得到交易关系网络,再采用模块度的图聚类算法进行社群分类,得到社群分类结果,最后按照不同的分析维度对社群分类结果进行分类得到目标社群数据,由于其中采用了模块度的图聚类算法进行社群分类,提高了社群分类的精度和准确率,进而提高了目标社群数据识别的精度和准确率,提高了识别目标社群数据的效果。
下面对本申请实施例提供的一种目标社群数据的识别装置进行介绍,下文描述的一种目标社群数据的识别装置与上文描述的一种目标社群数据的识别方法可相互对应参照。
请参考图2,图2为本申请实施例所提供的一种目标社群数据的识别装置的结构示意图。
本实施例中,该装置可以包括:
交易拓扑网络模块100,用于将获取到的多个对象的交易关系数据进行交易关系网络构建处理,得到交易关系网络;
社群分类模块200,用于基于模块度的图聚类算法对交易关系网络进行社群分类,得到社群分类结果;
目标社群分析模块300,用于根据目标社群的属性确定分析维度,通过分析维度对社群分类结果进行分析,得到目标社群数据。
可选的,该交易拓扑网络模块100,可以包括:
拓扑网络构建单元,用于根据获取到的多个对象的交易关系数据构建出交易拓扑网络;
图计算单元,用于对交易拓扑网络进行交易边关系属性计算和企业点实体属性计算,得到图计算结果;
降噪处理单元,用于根据图计算结果对交易拓扑网络进行降噪处理,得到交易关系网络。
可选的,该社群分类模块200,可以包括:
巨型社区获取单元,用于根据连通社区算法对交易关系网络进行筛选,得到交易关系网络中的巨型社区;
社群细分单元,用于根据基于模块度的图聚类算法对巨型社区进行社群分类,得到社群分类结果。
可选的,该目标社群分析模块300,具体用于当目标社群的类型为虚开团伙社群时,通过多个维度对社群分类结果进行分析,得到目标社群数据;其中,多个维度为任职关系维度、交易关系维度、地址关系维度、投资关系维度、财产关系维度。
本申请实施例还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如以上实施例的识别方法的步骤。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如以上实施例的识别方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种目标社群数据的识别方法、目标社群数据的识别装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种目标社群数据的识别方法,其特征在于,包括:
将获取到的多个对象的交易关系数据进行交易关系网络构建处理,得到交易关系网络;
基于模块度的图聚类算法对所述交易关系网络进行社群分类,得到社群分类结果;
根据目标社群的属性确定分析维度,通过所述分析维度对所述社群分类结果进行分析,得到目标社群数据。
2.根据权利要求1所述的识别方法,其特征在于,将获取到的多个对象的交易关系数据进行交易关系网络构建处理,得到交易关系网络,包括:
根据获取到的所述多个对象的交易关系数据构建出交易拓扑网络;
对所述交易拓扑网络进行交易边关系属性计算和企业点实体属性计算,得到图计算结果;
根据所述图计算结果对所述交易拓扑网络进行降噪处理,得到所述交易关系网络。
3.根据权利要求1所述的识别方法,其特征在于,基于模块度的图聚类算法对所述交易关系网络进行社群分类,得到社群分类结果,包括:
根据连通社区算法对所述交易关系网络进行筛选,得到所述交易关系网络中的巨型社区;
根据所述基于模块度的图聚类算法对所述巨型社区进行社群分类,得到所述社群分类结果。
4.根据权利要求1所述的识别方法,其特征在于,根据目标社群的属性确定分析维度,通过所述分析维度对所述社群分类结果进行分析,得到目标社群数据,包括:
当所述目标社群的类型为虚开团伙社群时,通过多个维度对所述社群分类结果进行分析,得到所述目标社群数据;其中,所述多个维度为任职关系维度、交易关系维度、地址关系维度、投资关系维度、财产关系维度。
5.一种目标社群数据的识别装置,其特征在于,包括:
交易拓扑网络模块,用于将获取到的多个对象的交易关系数据进行交易关系网络构建处理,得到交易关系网络;
社群分类模块,用于基于模块度的图聚类算法对所述交易关系网络进行社群分类,得到社群分类结果;
目标社群分析模块,用于根据目标社群的属性确定分析维度,通过所述分析维度对所述社群分类结果进行分析,得到目标社群数据。
6.根据权利要求1所述的识别装置,其特征在于,所述交易拓扑网络模块,包括:
拓扑网络构建单元,用于根据获取到的所述多个对象的交易关系数据构建出交易拓扑网络;
图计算单元,用于对所述交易拓扑网络进行交易边关系属性计算和企业点实体属性计算,得到图计算结果;
降噪处理单元,用于根据所述图计算结果对所述交易拓扑网络进行降噪处理,得到所述交易关系网络。
7.根据权利要求1所述的识别装置,其特征在于,所述社群分类模块,包括:
巨型社区获取单元,用于根据连通社区算法对所述交易关系网络进行筛选,得到所述交易关系网络中的巨型社区;
社群细分单元,用于根据所述基于模块度的图聚类算法对所述巨型社区进行社群分类,得到所述社群分类结果。
8.根据权利要求1所述的识别装置,其特征在于,所述目标社群分析模块,具体用于当所述目标社群的类型为虚开团伙社群时,通过多个维度对所述社群分类结果进行分析,得到所述目标社群数据;其中,所述多个维度为任职关系维度、交易关系维度、地址关系维度、投资关系维度、财产关系维度。
9.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述的识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的识别方法的步骤。
CN201910899829.2A 2019-09-23 2019-09-23 一种目标社群数据的识别方法及相关装置 Pending CN110647590A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910899829.2A CN110647590A (zh) 2019-09-23 2019-09-23 一种目标社群数据的识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910899829.2A CN110647590A (zh) 2019-09-23 2019-09-23 一种目标社群数据的识别方法及相关装置

Publications (1)

Publication Number Publication Date
CN110647590A true CN110647590A (zh) 2020-01-03

Family

ID=69011063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910899829.2A Pending CN110647590A (zh) 2019-09-23 2019-09-23 一种目标社群数据的识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN110647590A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340611A (zh) * 2020-02-20 2020-06-26 中国建设银行股份有限公司 一种风险预警方法和装置
CN111400448A (zh) * 2020-03-12 2020-07-10 中国建设银行股份有限公司 对象的关联关系分析方法及装置
CN111400614A (zh) * 2020-01-08 2020-07-10 上海观安信息技术股份有限公司 一种基于资金交易数据的涉案集群查找的方法
CN111445320A (zh) * 2020-03-30 2020-07-24 深圳市华云中盛科技股份有限公司 目标社群识别方法、装置、计算机设备及存储介质
CN111582538A (zh) * 2020-03-25 2020-08-25 清华大学 一种基于图神经网络的社群价值预测方法及***
CN111641517A (zh) * 2020-04-29 2020-09-08 深圳壹账通智能科技有限公司 同质网络的社群划分方法、装置、计算机设备和存储介质
CN111784528A (zh) * 2020-05-27 2020-10-16 平安科技(深圳)有限公司 异常社群检测方法、装置、计算机设备及存储介质
CN111951104A (zh) * 2020-08-24 2020-11-17 上海银行股份有限公司 一种基于关联图谱的风险传导预警方法
CN112116403A (zh) * 2020-09-28 2020-12-22 中国建设银行股份有限公司 一种信息推荐方法、装置及设备
CN112184299A (zh) * 2020-09-23 2021-01-05 中国建设银行股份有限公司 套利用户识别方法、装置、电子设备及介质
CN112231420A (zh) * 2020-10-28 2021-01-15 平安直通咨询有限公司 数据分析方法、数据分析装置、电子设备及存储介质
CN112287039A (zh) * 2020-10-30 2021-01-29 税友软件集团股份有限公司 一种团伙识别方法及相关装置
CN112686654A (zh) * 2021-01-21 2021-04-20 北京工业大学 区块链数字货币交易的识别方法、装置、电子设备及存储介质
CN113313505A (zh) * 2020-02-25 2021-08-27 ***通信集团浙江有限公司 异常定位方法、装置及计算设备
CN113393250A (zh) * 2021-06-09 2021-09-14 北京沃东天骏信息技术有限公司 一种信息处理方法及装置、存储介质
CN113837874A (zh) * 2021-11-22 2021-12-24 北京芯盾时代科技有限公司 一种数据的识别方法、装置、存储介质及电子设备
CN113886655A (zh) * 2021-10-20 2022-01-04 支付宝(杭州)信息技术有限公司 数据处理方法以及装置
CN114077968A (zh) * 2021-11-17 2022-02-22 税友信息技术有限公司 一种数据风险识别方法及相关装置
CN114297319A (zh) * 2021-12-23 2022-04-08 税友信息技术有限公司 一种数据识别方法及相关装置
CN115118693A (zh) * 2022-06-28 2022-09-27 平安银行股份有限公司 群组成员的数据处理方法、装置、电子设备和存储介质
CN115409297A (zh) * 2022-11-02 2022-11-29 联通(广东)产业互联网有限公司 一种政务服务流程优化方法、***及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102684912A (zh) * 2012-04-11 2012-09-19 上海交通大学 基于网络势能的社区结构挖掘方法
CN108520471A (zh) * 2018-04-27 2018-09-11 广州杰赛科技股份有限公司 重叠社区发现方法、装置、设备及存储介质
CN109144984A (zh) * 2017-06-27 2019-01-04 中兴通讯股份有限公司 犯罪群体识别方法、设备及存储介质
CN109325814A (zh) * 2017-07-31 2019-02-12 上海诺悦智能科技有限公司 一种用于发现可疑交易网络的方法
CN110209660A (zh) * 2019-06-10 2019-09-06 北京阿尔山金融科技有限公司 欺诈团伙挖掘方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102684912A (zh) * 2012-04-11 2012-09-19 上海交通大学 基于网络势能的社区结构挖掘方法
CN109144984A (zh) * 2017-06-27 2019-01-04 中兴通讯股份有限公司 犯罪群体识别方法、设备及存储介质
CN109325814A (zh) * 2017-07-31 2019-02-12 上海诺悦智能科技有限公司 一种用于发现可疑交易网络的方法
CN108520471A (zh) * 2018-04-27 2018-09-11 广州杰赛科技股份有限公司 重叠社区发现方法、装置、设备及存储介质
CN110209660A (zh) * 2019-06-10 2019-09-06 北京阿尔山金融科技有限公司 欺诈团伙挖掘方法、装置及电子设备

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400614A (zh) * 2020-01-08 2020-07-10 上海观安信息技术股份有限公司 一种基于资金交易数据的涉案集群查找的方法
CN111340611A (zh) * 2020-02-20 2020-06-26 中国建设银行股份有限公司 一种风险预警方法和装置
CN111340611B (zh) * 2020-02-20 2024-03-08 中国建设银行股份有限公司 一种风险预警方法和装置
CN113313505A (zh) * 2020-02-25 2021-08-27 ***通信集团浙江有限公司 异常定位方法、装置及计算设备
CN111400448A (zh) * 2020-03-12 2020-07-10 中国建设银行股份有限公司 对象的关联关系分析方法及装置
CN111582538A (zh) * 2020-03-25 2020-08-25 清华大学 一种基于图神经网络的社群价值预测方法及***
CN111582538B (zh) * 2020-03-25 2023-07-04 清华大学 一种基于图神经网络的社群价值预测方法及***
CN111445320A (zh) * 2020-03-30 2020-07-24 深圳市华云中盛科技股份有限公司 目标社群识别方法、装置、计算机设备及存储介质
CN111445320B (zh) * 2020-03-30 2023-09-29 深圳市华云中盛科技股份有限公司 目标社群识别方法、装置、计算机设备及存储介质
CN111641517A (zh) * 2020-04-29 2020-09-08 深圳壹账通智能科技有限公司 同质网络的社群划分方法、装置、计算机设备和存储介质
CN111784528A (zh) * 2020-05-27 2020-10-16 平安科技(深圳)有限公司 异常社群检测方法、装置、计算机设备及存储介质
CN111951104A (zh) * 2020-08-24 2020-11-17 上海银行股份有限公司 一种基于关联图谱的风险传导预警方法
CN112184299A (zh) * 2020-09-23 2021-01-05 中国建设银行股份有限公司 套利用户识别方法、装置、电子设备及介质
CN112116403A (zh) * 2020-09-28 2020-12-22 中国建设银行股份有限公司 一种信息推荐方法、装置及设备
CN112231420A (zh) * 2020-10-28 2021-01-15 平安直通咨询有限公司 数据分析方法、数据分析装置、电子设备及存储介质
CN112287039A (zh) * 2020-10-30 2021-01-29 税友软件集团股份有限公司 一种团伙识别方法及相关装置
CN112686654A (zh) * 2021-01-21 2021-04-20 北京工业大学 区块链数字货币交易的识别方法、装置、电子设备及存储介质
CN113393250A (zh) * 2021-06-09 2021-09-14 北京沃东天骏信息技术有限公司 一种信息处理方法及装置、存储介质
CN113886655A (zh) * 2021-10-20 2022-01-04 支付宝(杭州)信息技术有限公司 数据处理方法以及装置
CN114077968A (zh) * 2021-11-17 2022-02-22 税友信息技术有限公司 一种数据风险识别方法及相关装置
CN113837874B (zh) * 2021-11-22 2022-04-12 北京芯盾时代科技有限公司 一种数据的识别方法、装置、存储介质及电子设备
CN113837874A (zh) * 2021-11-22 2021-12-24 北京芯盾时代科技有限公司 一种数据的识别方法、装置、存储介质及电子设备
CN114297319A (zh) * 2021-12-23 2022-04-08 税友信息技术有限公司 一种数据识别方法及相关装置
CN115118693A (zh) * 2022-06-28 2022-09-27 平安银行股份有限公司 群组成员的数据处理方法、装置、电子设备和存储介质
CN115409297A (zh) * 2022-11-02 2022-11-29 联通(广东)产业互联网有限公司 一种政务服务流程优化方法、***及电子设备

Similar Documents

Publication Publication Date Title
CN110647590A (zh) 一种目标社群数据的识别方法及相关装置
CN108960833B (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
Olson et al. Advanced data mining techniques
Sabau Survey of clustering based financial fraud detection research
Prasad et al. Prediction of churn behavior of bank customers using data mining tools
CN103577988B (zh) 一种识别特定用户的方法和装置
CN109635007B (zh) 一种行为评估方法、装置及相关设备
US8145585B2 (en) Automated methods and systems for the detection and identification of money service business transactions
Javadian Kootanaee et al. A hybrid model based on machine learning and genetic algorithm for detecting fraud in financial statements
Soumya et al. Modern Data Mining Approach to Handle Multivariate Data and to Implement Best Saving Services for Potential Investor
Sakakibara et al. Clustering mutual funds based on investment similarity
Chimonaki et al. Identification of financial statement fraud in Greece by using computational intelligence techniques
Liou et al. Predicting business failure under the existence of fraudulent financial reporting
CN115526700A (zh) 风险的预测方法、装置及电子设备
Tackett Association rules for fraud detection
Brito et al. A framework to improve churn prediction performance in retail banking
CN111046947B (zh) 分类器的训练***及方法、异常样本的识别方法
Apparao et al. Financial statement fraud detection by data mining
CA3092332A1 (en) System and method for machine learning architecture for interdependence detection
CA3183247A1 (en) Method and system for detecting a cybersecurity breach
CN110189016A (zh) 技术生命周期评估方法和装置
Carvalho et al. Using Clustering and Text Mining to Create a Reference Price Database
Terzi et al. Comparison of financial distress prediction models: Evidence from turkey
Shriwas et al. Using text mining and rule based technique for prediction of stock market price
Sun et al. A new perspective of credit scoring for small and medium-sized enterprises based on invoice data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200103

RJ01 Rejection of invention patent application after publication