CN110209660B - 欺诈团伙挖掘方法、装置及电子设备 - Google Patents
欺诈团伙挖掘方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110209660B CN110209660B CN201910496109.1A CN201910496109A CN110209660B CN 110209660 B CN110209660 B CN 110209660B CN 201910496109 A CN201910496109 A CN 201910496109A CN 110209660 B CN110209660 B CN 110209660B
- Authority
- CN
- China
- Prior art keywords
- data
- community
- rule
- group
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种欺诈团伙挖掘方法、装置及电子设备,在该方法中,先对原始数据进行了预处理,得到处理后的数据,该预处理的过程能够将噪点数据在建图之前删除,降低了噪点数据对建图的影响,同时,该过程中进行了迭代预处理和划分处理的过程,直至最终得到的多组社区数据中每组社区数据的节点数不大于预设阈值,或者,多组社区数据中每组社区数据的节点数不再变化为止,再对划分完成的每组社区数据进行可视化处理,得到社区网络图,这样,得到的每个社区网络图中都不存在大量节点,符合欺诈团伙特性,便于可视化和进行后续的欺诈团伙评价,最终确定的欺诈团伙准确性好,缓解了现有的欺诈团伙挖掘方法准确性差的技术问题。
Description
技术领域
本发明涉及计算机的技术领域,尤其是涉及一种欺诈团伙挖掘方法、装置及电子设备。
背景技术
随着金融领域各种贷款或类贷款业务的普及,团伙欺诈案件逐渐增多,给投资人、公司和国家造成不同程度的损失。各公司和机构急于寻求一种技术方案来发现团伙欺诈案件,做到防范未然、及时阻止和追回损失。
现有的欺诈团伙挖掘方法是先通过社区发现算法对数据进行分割,分割之后得到多个社区,然后再对每个社区进行欺诈团伙评价,从而确定其中的欺诈团伙。但是现有的社区发现算法,都是从网络拓扑结构的特性对数据进行的技术分割,从未考虑实际需求。最终,分割得到的社区结果中存在大量的大社区,这些大社区不便于后续的欺诈团伙的评价,并且这些大社区中还包含一些噪音节点或关系,导致最终确定的欺诈团伙准确性差。
综上,现有的欺诈团伙挖掘方法准确性差。
发明内容
本发明的目的在于提供一种欺诈团伙挖掘方法、装置及电子设备,以缓解现有的欺诈团伙挖掘方法准确性差的技术问题。
本发明提供的一种欺诈团伙挖掘方法,包括:获取原始数据;按照预处理规则对所述原始数据进行预处理,得到处理后的数据,其中,所述处理后的数据中不包含噪点数据;将所述处理后的数据保存至图数据库,得到与所述图数据库的存储结构对应的图数据;通过社区发现算法对所述图数据进行划分,得到多组社区数据;基于预设规则库对所述多组社区数据进行分析,根据分析结果确定目标预处理规则;将所述目标预处理规则作为所述预处理规则,并将所述多组社区数据作为所述原始数据,返回执行按照预处理规则对所述原始数据进行预处理的步骤,直至每组社区数据满足预设条件;所述预设条件包括:每组社区数据中的节点数不大于预设阈值,或者,每组社区数据中的节点数不再变化;对满足所述预设条件的每组社区数据进行可视化处理,得到社区网络图;通过预设欺诈团伙挖掘规则对所述社区网络图进行欺诈团伙评价,根据评价结果确定所述社区网络图对应的团伙是否为欺诈团伙。
进一步的,所述预处理规则包括:预设数据清洗规则和噪音识别规则,按照预处理规则对所述原始数据进行预处理,得到处理后的数据包括:按照所述预设数据清洗规则对所述原始数据进行数据清洗,得到清洗后的数据;基于所述噪音识别规则识别所述清洗后的数据中的噪音数据;去除所述清洗后的数据中的噪音数据,得到所述处理后的数据。
进一步的,所述社区发现算法包括但不限于以下任一种:louvain社区发现算法,基于标签传播的社团发现算法。
进一步的,所述预设规则库中包括:预设特征与处理规则之间的对应关系,基于预设规则库对所述多组社区数据进行分析,根据分析结果确定目标预处理规则包括:对所述多组社区数据进行特征提取,得到所述多组社区数据的目标特征;将所述目标特征与所述预设规则库中的预设特征进行匹配;根据匹配结果在所述处理规则中确定与所述目标特征对应的目标处理规则;将所述目标处理规则作为所述目标预处理规则。
进一步的,所述社区网络图中包括:个体节点、属性节点、所述个体节点和所述属性节点之间的关联关系。
进一步的,通过预设欺诈团伙挖掘规则对所述社区网络图进行欺诈团伙评价,根据评价结果确定所述社区网络图对应的团伙是否为欺诈团伙包括:分析所述社区网络图与所述预设欺诈团伙挖掘规则的符合情况;根据所述符合情况对所述社区网络图进行打分,得到所述社区网络图的欺诈团伙得分;根据所述欺诈团伙得分确定所述社区网络图对应的团伙是否为欺诈团伙。
本发明还提供了一种欺诈团伙挖掘装置,包括:获取模块,用于获取原始数据;预处理模块,用于按照预处理规则对所述原始数据进行预处理,得到处理后的数据,其中,所述处理后的数据中不包含噪点数据;保存模块,用于将所述处理后的数据保存至图数据库,得到与所述图数据库的存储结构对应的图数据;划分处理模块,用于通过社区发现算法对所述图数据进行划分,得到多组社区数据;分析模块,用于基于预设规则库对所述多组社区数据进行分析,根据分析结果确定目标预处理规则;返回执行模块,用于将所述目标预处理规则作为所述预处理规则,并将所述多组社区数据作为所述原始数据,返回执行按照预处理规则对所述原始数据进行预处理的步骤,直至每组社区数据满足预设条件;所述预设条件包括:每组社区数据中的节点数不大于预设阈值,或者,每组社区数据中的节点数不再变化;可视化处理模块,用于对满足所述预设条件的每组社区数据进行可视化处理,得到社区网络图;欺诈团伙评价模块,用于通过预设欺诈团伙挖掘规则对所述社区网络图进行欺诈团伙评价,根据评价结果确定所述社区网络图对应的团伙是否为欺诈团伙。
进一步的,所述预处理规则包括:预设数据清洗规则和噪音识别规则,所述预处理模块包括:数据清洗单元,用于按照所述预设数据清洗规则对所述原始数据进行数据清洗,得到清洗后的数据;识别单元,用于基于所述噪音识别规则识别所述清洗后的数据中的噪音数据;去除单元,用于去除所述清洗后的数据中的噪音数据,得到所述处理后的数据。
进一步的,所述社区发现算法包括但不限于以下任一种:louvain社区发现算法,基于标签传播的社团发现算法。
本发明还提供了一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述内容中所述的方法的步骤。
在本发明实施例中,先获取原始数据;然后按照预处理规则对原始数据进行预处理,得到处理后的数据,并将处理后的数据保存至图数据库,得到与图数据库的存储结构对应的图数据;进而通过社区发现算法对图数据进行划分,得到多组社区数据,再基于预设规则库对多组社区数据进行分析,根据分析结果确定目标预处理规则,并将目标预处理规则作为预处理规则,将多组社区数据作为原始数据,返回执行按照预处理规则对原始数据进行预处理的步骤,直至每组社区数据满足预设条件;预设条件包括:每组社区数据中的节点数不大于预设阈值,或者,每组社区数据中的节点数不再变化;最终对满足预设条件的每组社区数据进行可视化处理,得到社区网络图;再通过预设欺诈团伙挖掘规则对社区网络图进行欺诈团伙评价,根据评价结果确定社区网络图对应的团伙是否为欺诈团伙。通过上述的描述可知,本发明的欺诈团伙挖掘方法中,是先对原始数据进行了预处理,得到处理后的数据,该预处理的过程能够将噪点数据在建图之前删除,降低了噪点数据对建图的影响,同时,该过程中进行了迭代预处理和划分处理的过程,直至最终得到的多组社区数据中每组社区数据的节点数不大于预设阈值,或者,多组社区数据中每组社区数据的节点数不再变化为止,也就是直至最终得到的多组社区数据中每组社区数据的节点数符合欺诈团伙的特点,或者,最终得到的多组社区数据中每组社区数据的节点数不能再继续划分(即划分得到的已经是最小单元)为止,再对划分完成的每组社区数据进行可视化处理,得到社区网络图,这样,得到的每个社区网络图中都不存在大量节点,符合欺诈团伙特性,便于可视化和进行后续的欺诈团伙评价,最终确定的欺诈团伙准确性好,缓解了现有的欺诈团伙挖掘方法准确性差的技术问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种欺诈团伙挖掘方法的流程图;
图2为本发明实施例提供的按照预处理规则对原始数据进行预处理,得到处理后的数据的方法流程图;
图3为本发明实施例提供的基于预设规则库对多组社区数据进行分析,根据分析结果确定目标预处理规则的方法流程图;
图4为本发明实施例提供的通过预设欺诈团伙挖掘规则对社区网络图进行欺诈团伙评价,根据评价结果确定社区网络图对应的团伙是否为欺诈团伙的方法流程图;
图5为本发明实施例提供的一种欺诈团伙挖掘装置的示意图;
图6为本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种欺诈团伙挖掘方法进行详细介绍。
实施例一:
根据本发明实施例,提供了一种欺诈团伙挖掘方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种欺诈团伙挖掘方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取原始数据;
在本发明实施例中,原始数据的获取渠道可以有多种,比如:用户在进行相关贷款申请业务的申请时,提交的电子申请数据,或者,是递交的手写申请数据;还可以是在网上爬取得到的相关数据等等,本发明实施例对上述原始数据的获取形式不进行具体限制。
步骤S104,按照预处理规则对原始数据进行预处理,得到处理后的数据,其中,处理后的数据中不包含噪点数据;
在得到原始数据后,按照预处理规则对原始数据进行预处理,下文中再对该过程进行详细介绍,在此不再赘述。
步骤S106,将处理后的数据保存至图数据库,得到与图数据库的存储结构对应的图数据;
得到处理后的数据后,将处理后的数据保存至图数据库,就能得到与图数据库的存储结构对应的图数据。
步骤S108,通过社区发现算法对图数据进行划分,得到多组社区数据;
得到图数据后,进一步通过社区发现算法对图数据进行划分,得到多组社区数据。具体的,社区发现算法包括但不限于以下任一种:louvain社区发现算法,基于标签传播的社团发现算法。
步骤S110,基于预设规则库对多组社区数据进行分析,根据分析结果确定目标预处理规则;
下文中再对该过程进行详细描述,在此不再赘述。
步骤S112,将目标预处理规则作为预处理规则,并将多组社区数据作为原始数据,返回执行按照预处理规则对原始数据进行预处理的步骤,直至每组社区数据满足预设条件;预设条件包括:每组社区数据中的节点数不大于预设阈值,或者,每组社区数据中的节点数不再变化;
返回执行按照预处理规则对原始数据进行预处理的步骤,直至得到的多组社区数据满足预设条件为止。
步骤S114,对满足预设条件的每组社区数据进行可视化处理,得到社区网络图;
在得到满足预设条件的每组社区数据后,对满足预设条件的每组社区数据进行可视化处理,就能够得到社区网络图。
步骤S116,通过预设欺诈团伙挖掘规则对社区网络图进行欺诈团伙评价,根据评价结果确定社区网络图对应的团伙是否为欺诈团伙。
通过上述的描述可知,本发明的欺诈团伙挖掘方法中,是先对原始数据进行了预处理,得到处理后的数据,该预处理的过程能够将噪点数据在建图之前删除,降低了噪点数据对建图的影响,同时,该过程中进行了迭代预处理和划分处理的过程,直至最终得到的多组社区数据中每组社区数据的节点数不大于预设阈值,或者,多组社区数据中每组社区数据的节点数不再变化为止,也就是直至最终得到的多组社区数据中每组社区数据的节点数符合欺诈团伙的特点,或者,最终得到的多组社区数据中每组社区数据的节点数不能再继续划分(即划分得到的已经是最小单元)为止,再对划分完成的每组社区数据进行可视化处理,得到社区网络图,这样,得到的每个社区网络图中都不存在大量节点,符合欺诈团伙特性,便于可视化和进行后续的欺诈团伙评价,最终确定的欺诈团伙准确性好,缓解了现有的欺诈团伙挖掘方法准确性差的技术问题。
上述内容对本发明的欺诈团伙挖掘方法进行了简要介绍,下面对其中涉及到的具体内容进行详细描述。
在本发明的一个可选实施例中,预处理规则包括:预设数据清洗规则和噪音识别规则,参考图2,步骤S104,按照预处理规则对原始数据进行预处理,得到处理后的数据包括如下步骤:
步骤S201,按照预设数据清洗规则对原始数据进行数据清洗,得到清洗后的数据;
具体的,预设数据清洗规则具体可以包括:校验字段格式,格式转换,纠错,小数位数处理等等,本发明实施例对上述预设数据清洗规则不进行具体限制。
步骤S202,基于噪音识别规则识别清洗后的数据中的噪音数据;
具体的,第一次的噪音识别规则为预设的噪音识别规则,而后续的噪音识别规则是基于预设规则库对上一次得到的多组社区数据进行分析之后,根据分析结果确定的目标预处理规则。下文中再对确定目标预处理规则的过程进行详细介绍。
上述的噪音识别规则能够识别清洗后的数据中的噪音数据。该噪音数据是指无用的,产生干扰的属性节点或关联关系的数据。
即申请个体通过一些属性关联成大社区,但这些凑成大社区的属性并不是小规模欺诈团伙的特性。
比如:一万个主体同属于A公司,这一万个主体都进行了贷款申请,那么这一万个主体就会基于A公司这一属性划分到一个大社区,但其肯定不是欺诈团伙。那么就可以将A公司这一属性节点去除,这样,一万个主体就不会因为A公司这一属性节点建立后续的关联关系,避免形成无用的大社区,便于后续欺诈团伙的挖掘工作。
步骤S203,去除清洗后的数据中的噪音数据,得到处理后的数据。
上述内容对数据预处理的过程进行了详细介绍,下面对基于预设规则库对多组社区数据进行分析的过程进行详细描述。
在本发明的一个可选实施例中,参考图3,步骤S110,预设规则库中包括:预设特征与处理规则之间的对应关系,基于预设规则库对多组社区数据进行分析,根据分析结果确定目标预处理规则包括如下步骤:
步骤S301,对多组社区数据进行特征提取,得到多组社区数据的目标特征;
具体的,特征提取时,基于预设规则库中的预设特征对多组社区数据进行特征提取。比如,预设特征为同属于一家公司,那么就判断多组社区数据中各组社区数据是否同属于一家公司,得到多组社区数据中各组社区数据是否同属于一家公司的特征(即目标特征)。
步骤S302,将目标特征与预设规则库中的预设特征进行匹配;
步骤S303,根据匹配结果在处理规则中确定与目标特征对应的目标处理规则;
步骤S304,将目标处理规则作为目标预处理规则。
上述内容对确定目标预处理规则的过程进行了详细介绍,下面对欺诈团伙评价的过程进行详细描述。
在本发明的一个可选实施例中,参考图4,步骤S116,通过预设欺诈团伙挖掘规则对社区网络图进行欺诈团伙评价,根据评价结果确定社区网络图对应的团伙是否为欺诈团伙包括如下步骤:
步骤S401,分析社区网络图与预设欺诈团伙挖掘规则的符合情况;
具体的,社区网络图中包括:个体节点、属性节点、个体节点和属性节点之间的关联关系,上述预设欺诈团伙挖掘规则为对实际的欺诈团伙进行分析后总结得到的规则,该预设欺诈团伙挖掘规则可调,这里不再进行举例说明。
步骤S402,根据符合情况对社区网络图进行打分,得到社区网络图的欺诈团伙得分;
实现时,可以根据每个社区网络图与预设欺诈团伙挖掘规则的符合百分比(即符合情况)对每个社区网络图进行打分;当然,还可以事先对每一预设欺诈团伙挖掘规则预设一个权重,将得到的每个社区网络图与某一预设欺诈团伙挖掘规则的符合百分比与对应的权重相乘后,得到每个社区网络图在该预设欺诈团伙挖掘规则下的分数,然后所有预设欺诈团伙挖掘规则下的分数相加后作为每个社区网络图的欺诈团伙得分。
当然,还可以为其它实现方式,本发明实施例对上述打分的过程不进行具体限制。
步骤S403,根据欺诈团伙得分确定社区网络图对应的团伙是否为欺诈团伙。
在得到欺诈团伙得分后,可以对所有社区网络图按照欺诈团伙得分降序的顺序进行排序,得到社区网络图排序序列,进而将社区网络图排序序列中的前N个社区网络图对应的团伙作为欺诈团伙,其中,N为大于1的正整数;
当然,在得到欺诈团伙得分后,还可以将欺诈团伙得分与预设得分阈值进行对比,如果欺诈团伙得分大于预设得分阈值,那么就将欺诈团伙得分大于预设得分阈值的目标社区网络图所对应的团伙作为欺诈团伙。
同理,本发明实施例对确定欺诈团伙的过程不进行具体限制。
本发明的欺诈团伙挖掘方法中,是先对原始数据进行了预处理,得到处理后的数据,该预处理的过程能够将噪点数据在建图之前删除,降低了噪点数据对建图的影响,同时,该过程中进行了迭代预处理和划分处理的过程,直至最终得到的多组社区数据中每组社区数据的节点数不大于预设阈值,或者,多组社区数据中每组社区数据的节点数不再变化为止,也就是直至最终得到的多组社区数据中每组社区数据的节点数符合欺诈团伙的特点,或者,最终得到的多组社区数据中每组社区数据的节点数不能再继续划分(即划分得到的已经是最小单元)为止,再对划分完成的每组社区数据进行可视化处理,得到社区网络图,这样,得到的每个社区网络图中都不存在大量节点,符合欺诈团伙特性,便于可视化和进行后续的欺诈团伙评价,最终确定的欺诈团伙准确性好,缓解了现有的欺诈团伙挖掘方法准确性差的技术问题。
实施例二:
本发明实施例还提供了一种欺诈团伙挖掘装置,以下对本发明实施例提供的欺诈团伙挖掘装置做具体介绍。
图5是根据本发明实施例的一种欺诈团伙挖掘装置的示意图,如图5所示,该欺诈团伙挖掘装置主要包括获取模块10,预处理模块20,保存模块30,划分处理模块40,分析模块50,返回执行模块60,可视化处理模块70和欺诈团伙评价模块80,其中:
获取模块,用于获取原始数据;
预处理模块,用于按照预处理规则对原始数据进行预处理,得到处理后的数据,其中,处理后的数据中不包含噪点数据;
保存模块,用于将处理后的数据保存至图数据库,得到与图数据库的存储结构对应的图数据;
划分处理模块,用于通过社区发现算法对图数据进行划分,得到多组社区数据;
分析模块,用于基于预设规则库对多组社区数据进行分析,根据分析结果确定目标预处理规则;
返回执行模块,用于将目标预处理规则作为预处理规则,并将多组社区数据作为原始数据,返回执行按照预处理规则对原始数据进行预处理的步骤,直至每组社区数据满足预设条件;预设条件包括:每组社区数据中的节点数不大于预设阈值,或者,每组社区数据中的节点数不再变化;
可视化处理模块,用于对满足预设条件的每组社区数据进行可视化处理,得到社区网络图;
欺诈团伙评价模块,用于通过预设欺诈团伙挖掘规则对社区网络图进行欺诈团伙评价,根据评价结果确定社区网络图对应的团伙是否为欺诈团伙。
本发明的欺诈团伙挖掘装置中,是先对原始数据进行了预处理,得到处理后的数据,该预处理的过程能够将噪点数据在建图之前删除,降低了噪点数据对建图的影响,同时,该过程中进行了迭代预处理和划分处理的过程,直至最终得到的多组社区数据中每组社区数据的节点数不大于预设阈值,或者,多组社区数据中每组社区数据的节点数不再变化为止,也就是直至最终得到的多组社区数据中每组社区数据的节点数符合欺诈团伙的特点,或者,最终得到的多组社区数据中每组社区数据的节点数不能再继续划分(即划分得到的已经是最小单元)为止,再对划分完成的每组社区数据进行可视化处理,得到社区网络图,这样,得到的每个社区网络图中都不存在大量节点,符合欺诈团伙特性,便于可视化和进行后续的欺诈团伙评价,最终确定的欺诈团伙准确性好,缓解了现有的欺诈团伙挖掘方法准确性差的技术问题。
可选地,预处理规则包括:预设数据清洗规则和噪音识别规则,预处理模块包括:
数据清洗单元,用于按照预设数据清洗规则对原始数据进行数据清洗,得到清洗后的数据;
识别单元,用于基于噪音识别规则识别清洗后的数据中的噪音数据;
去除单元,用于去除清洗后的数据中的噪音数据,得到处理后的数据。
可选地,社区发现算法包括但不限于以下任一种:louvain社区发现算法,基于标签传播的社团发现算法。
可选地,预设规则库中包括:预设特征与处理规则之间的对应关系,分析模块包括:
特征提取单元,用于对多组社区数据进行特征提取,得到多组社区数据的目标特征;
匹配单元,用于将目标特征与预设规则库中的预设特征进行匹配;
第一确定单元,用于根据匹配结果在处理规则中确定与目标特征对应的目标处理规则;
设定单元,用于将目标处理规则作为目标预处理规则。
可选地,社区网络图中包括:个体节点、属性节点、个体节点和属性节点之间的关联关系。
可选地,欺诈团伙评价模块包括:
分析单元,用于分析社区网络图与预设欺诈团伙挖掘规则的符合情况;
打分单元,用于根据符合情况对社区网络图进行打分,得到社区网络图的欺诈团伙得分;
第二确定单元,用于根据欺诈团伙得分确定社区网络图对应的团伙是否为欺诈团伙。
该实施例二中的具体内容可以参考上述实施例一中的描述,在此不再赘述。
实施例三:
本发明实施例提供了一种电子设备,参考图6,该电子设备包括:处理器90,存储器91,总线92和通信接口93,处理器90、通信接口93和存储器91通过总线92连接;处理器90用于执行存储器91中存储的可执行模块,例如计算机程序。处理器执行计算及程序时实现如方法实施例中描述的方法的步骤。
其中,存储器91可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口93(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线92可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器91用于存储程序,处理器90在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器90中,或者由处理器90实现。
处理器90可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器90中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器90可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器91,处理器90读取存储器91中的信息,结合其硬件完成上述方法的步骤。
在另一个实施例中,还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述实施例一中所述的方法的步骤。
本发明实施例所提供的欺诈团伙挖掘方法、装置及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (7)
1.一种欺诈团伙挖掘方法,其特征在于,包括:
获取原始数据;
按照预处理规则对所述原始数据进行预处理,得到处理后的数据,其中,所述处理后的数据中不包含噪点数据;
将所述处理后的数据保存至图数据库,得到与所述图数据库的存储结构对应的图数据;
通过社区发现算法对所述图数据进行划分,得到多组社区数据;
基于预设规则库对所述多组社区数据进行分析,根据分析结果确定目标预处理规则;
将所述目标预处理规则作为所述预处理规则,并将所述多组社区数据作为所述原始数据,返回执行按照预处理规则对所述原始数据进行预处理的步骤,直至每组社区数据满足预设条件;所述预设条件包括:每组社区数据中的节点数不大于预设阈值,或者,每组社区数据中的节点数不再变化;
对满足所述预设条件的每组社区数据进行可视化处理,得到社区网络图;
通过预设欺诈团伙挖掘规则对所述社区网络图进行欺诈团伙评价,根据评价结果确定所述社区网络图对应的团伙是否为欺诈团伙;
其中,所述预处理规则包括:预设数据清洗规则和噪音识别规则,按照预处理规则对所述原始数据进行预处理,得到处理后的数据包括:
按照所述预设数据清洗规则对所述原始数据进行数据清洗,得到清洗后的数据;
基于所述噪音识别规则识别所述清洗后的数据中的噪音数据;其中,第一次的噪音识别规则为预设的噪音识别规则,而后续的噪音识别规则是基于预设规则库对上一次得到的多组社区数据进行分析之后,根据分析结果确定的目标预处理规则;
去除所述清洗后的数据中的噪音数据,得到所述处理后的数据;
其中,所述预设规则库中包括:预设特征与处理规则之间的对应关系,基于预设规则库对所述多组社区数据进行分析,根据分析结果确定目标预处理规则包括:
对所述多组社区数据进行特征提取,得到所述多组社区数据的目标特征;
将所述目标特征与所述预设规则库中的预设特征进行匹配;
根据匹配结果在所述处理规则中确定与所述目标特征对应的目标处理规则;
将所述目标处理规则作为所述目标预处理规则。
2.根据权利要求1所述的方法,其特征在于,所述社区发现算法包括但不限于以下任一种:louvain社区发现算法,基于标签传播的社团发现算法。
3.根据权利要求1所述的方法,其特征在于,所述社区网络图中包括:个体节点、属性节点、所述个体节点和所述属性节点之间的关联关系。
4.根据权利要求1所述的方法,其特征在于,通过预设欺诈团伙挖掘规则对所述社区网络图进行欺诈团伙评价,根据评价结果确定所述社区网络图对应的团伙是否为欺诈团伙包括:
分析所述社区网络图与所述预设欺诈团伙挖掘规则的符合情况;
根据所述符合情况对所述社区网络图进行打分,得到所述社区网络图的欺诈团伙得分;
根据所述欺诈团伙得分确定所述社区网络图对应的团伙是否为欺诈团伙。
5.一种欺诈团伙挖掘装置,其特征在于,包括:
获取模块,用于获取原始数据:
预处理模块,用于按照预处理规则对所述原始数据进行预处理,得到处理后的数据,其中,所述处理后的数据中不包含噪点数据;
保存模块,用于将所述处理后的数据保存至图数据库,得到与所述图数据库的存储结构对应的图数据;
划分处理模块,用于通过社区发现算法对所述图数据进行划分,得到多组社区数据;
分析模块,用于基于预设规则库对所述多组社区数据进行分析,根据分析结果确定目标预处理规则;
返回执行模块,用于将所述目标预处理规则作为所述预处理规则,并将所述多组社区数据作为所述原始数据,返回执行按照预处理规则对所述原始数据进行预处理的步骤,直至每组社区数据满足预设条件;所述预设条件包括:每组社区数据中的节点数不大于预设阈值,或者,每组社区数据中的节点数不再变化;
可视化处理模块,用于对满足所述预设条件的每组社区数据进行可视化处理,得到社区网络图;
欺诈团伙评价模块,用于通过预设欺诈团伙挖掘规则对所述社区网络图进行欺诈团伙评价,根据评价结果确定所述社区网络图对应的团伙是否为欺诈团伙;
其中,所述预处理规则包括:预设数据清洗规则和噪音识别规则,所述预处理模块包括:
数据清洗单元,用于按照所述预设数据清洗规则对所述原始数据进行数据清洗,得到清洗后的数据;
识别单元,用于基于所述噪音识别规则识别所述清洗后的数据中的噪音数据;其中,第一次的噪音识别规则为预设的噪音识别规则,而后续的噪音识别规则是基于预设规则库对上一次得到的多组社区数据进行分析之后,根据分析结果确定的目标预处理规则;
去除单元,用于去除所述清洗后的数据中的噪音数据,得到所述处理后的数据;
其中,预设规则库中包括:预设特征与处理规则之间的对应关系,所述分析模块包括:
特征提取单元,用于对所述多组社区数据进行特征提取,得到所述多组社区数据的目标特征;
匹配单元,用于将所述目标特征与所述预设规则库中的预设特征进行匹配;
第一确定单元,用于根据匹配结果在所述处理规则中确定与所述目标特征对应的目标处理规则;
设定单元,用于将所述目标处理规则作为所述目标预处理规则。
6.根据权利要求5所述的装置,其特征在于,所述社区发现算法包括但不限于以下任一种:louvain社区发现算法,基于标签传播的社团发现算法。
7.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910496109.1A CN110209660B (zh) | 2019-06-10 | 2019-06-10 | 欺诈团伙挖掘方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910496109.1A CN110209660B (zh) | 2019-06-10 | 2019-06-10 | 欺诈团伙挖掘方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209660A CN110209660A (zh) | 2019-09-06 |
CN110209660B true CN110209660B (zh) | 2021-12-24 |
Family
ID=67791653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910496109.1A Active CN110209660B (zh) | 2019-06-10 | 2019-06-10 | 欺诈团伙挖掘方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209660B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647590A (zh) * | 2019-09-23 | 2020-01-03 | 税友软件集团股份有限公司 | 一种目标社群数据的识别方法及相关装置 |
CN113129010A (zh) * | 2020-01-10 | 2021-07-16 | 联洋国融(北京)科技有限公司 | 一种基于复杂网络模型的欺诈团伙挖掘***及其挖掘方法 |
CN112419074A (zh) * | 2020-11-13 | 2021-02-26 | 中保车服科技服务股份有限公司 | 一种车险欺诈团伙识别方法及装置 |
CN112288330A (zh) * | 2020-11-24 | 2021-01-29 | 拉卡拉支付股份有限公司 | 一种欺诈社群的识别方法及装置 |
CN112910888A (zh) * | 2021-01-29 | 2021-06-04 | 杭州迪普科技股份有限公司 | 非法域名注册团伙挖掘方法及装置 |
CN112926990B (zh) * | 2021-03-25 | 2022-08-30 | 支付宝(杭州)信息技术有限公司 | 欺诈识别的方法和装置 |
CN113240259B (zh) * | 2021-04-30 | 2023-05-23 | 杭州顶象科技有限公司 | 规则策略组的生成方法、***及电子设备 |
CN113743954B (zh) * | 2021-06-29 | 2024-04-02 | 阳光保险集团股份有限公司 | 一种车险风险网络识别方法、装置、电子设备及介质 |
CN113870021B (zh) * | 2021-12-03 | 2022-03-08 | 北京芯盾时代科技有限公司 | 一种数据的分析方法、装置、存储介质和电子设备 |
CN117575782B (zh) * | 2024-01-15 | 2024-05-07 | 杭银消费金融股份有限公司 | 一种基于Leiden社区发现算法的团伙欺诈识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194623A (zh) * | 2017-07-20 | 2017-09-22 | 深圳市分期乐网络科技有限公司 | 一种团伙欺诈的发现方法及装置 |
CN108764917A (zh) * | 2018-05-04 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种欺诈团伙的识别方法和装置 |
CN109658222A (zh) * | 2018-10-16 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 风险分析方法、装置、设备及计算机可读存储介质 |
CN109784636A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安财产保险股份有限公司 | 欺诈用户识别方法、装置、计算机设备及存储介质 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150161622A1 (en) * | 2013-12-10 | 2015-06-11 | Florian Hoffmann | Fraud detection using network analysis |
CN106408413A (zh) * | 2016-09-23 | 2017-02-15 | 快睿登信息科技(上海)有限公司 | 一种多循环分期决策的方法及*** |
US20180285876A1 (en) * | 2017-03-30 | 2018-10-04 | Ncr Corporation | Domain-specific configurable fraud prevention |
CN109802915B (zh) * | 2017-11-16 | 2021-06-11 | ***通信集团河南有限公司 | 一种电信诈骗检测处理方法及装置 |
-
2019
- 2019-06-10 CN CN201910496109.1A patent/CN110209660B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194623A (zh) * | 2017-07-20 | 2017-09-22 | 深圳市分期乐网络科技有限公司 | 一种团伙欺诈的发现方法及装置 |
CN108764917A (zh) * | 2018-05-04 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种欺诈团伙的识别方法和装置 |
CN109658222A (zh) * | 2018-10-16 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 风险分析方法、装置、设备及计算机可读存储介质 |
CN109784636A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安财产保险股份有限公司 | 欺诈用户识别方法、装置、计算机设备及存储介质 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110209660A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209660B (zh) | 欺诈团伙挖掘方法、装置及电子设备 | |
WO2021012570A1 (zh) | 数据录入方法、装置、设备及存储介质 | |
CN107423613B (zh) | 依据相似度确定设备指纹的方法、装置及服务器 | |
CN111798312A (zh) | 一种基于孤立森林算法的金融交易***异常识别方法 | |
CN111800430B (zh) | 一种攻击团伙识别方法、装置、设备及介质 | |
CN110046889B (zh) | 一种异常行为主体的检测方法、装置及服务器 | |
CN112070120A (zh) | 威胁情报的处理方法、装置、电子装置和存储介质 | |
CN106960153B (zh) | 病毒的类型识别方法及装置 | |
CN110222790B (zh) | 用户身份识别方法、装置及服务器 | |
CN112232206B (zh) | 基于大数据和人工智能的人脸识别方法和人脸识别平台 | |
CN111291824A (zh) | 时间序列的处理方法、装置、电子设备和计算机可读介质 | |
CN114647636B (zh) | 大数据异常检测方法及*** | |
CN109064067B (zh) | 基于互联网的金融风险运营主体判定方法及装置 | |
CN111783830A (zh) | 基于oct的视网膜分类方法、装置、计算机设备及存储介质 | |
CN102682279B (zh) | 以分类三角形实现的高速指纹特征比对***及其方法 | |
CN113849595A (zh) | 一种基层治理事件类型识别方法及*** | |
TW201738792A (zh) | 行動設備標識的設置方法和裝置 | |
CN110866831A (zh) | 资产活跃度等级的确定方法、装置及服务器 | |
CN112241820A (zh) | 资金流动中关键节点的风险识别方法、装置及计算设备 | |
CN110598115A (zh) | 一种基于人工智能多引擎的敏感网页识别方法及*** | |
CN114968933A (zh) | 数据中心的日志的分类方法和装置 | |
CN110209955B (zh) | 业务分析方法、装置及电子设备 | |
CN109241421B (zh) | Id数据网处理方法、装置、计算设备及计算机存储介质 | |
CN113282686A (zh) | 一种不平衡样本的关联规则确定方法及装置 | |
CN112199388A (zh) | 陌电识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |