CN113240052A - 一种业务信息分类方法及装置 - Google Patents

一种业务信息分类方法及装置 Download PDF

Info

Publication number
CN113240052A
CN113240052A CN202110641109.3A CN202110641109A CN113240052A CN 113240052 A CN113240052 A CN 113240052A CN 202110641109 A CN202110641109 A CN 202110641109A CN 113240052 A CN113240052 A CN 113240052A
Authority
CN
China
Prior art keywords
matrix
degree
neighbor
service
service data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110641109.3A
Other languages
English (en)
Inventor
顾凌云
谢旻旗
段湾
辛颖
张涛
潘峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai IceKredit Inc
Original Assignee
Shanghai IceKredit Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai IceKredit Inc filed Critical Shanghai IceKredit Inc
Priority to CN202110641109.3A priority Critical patent/CN113240052A/zh
Publication of CN113240052A publication Critical patent/CN113240052A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的业务信息分类方法及装置,能够对待处理业务数据进行预处理得到包含了业务节点的业务数据列表并确定与业务节点对应的邻居矩阵,根据业务互动状态对邻居矩阵进行拆分得到出度邻居矩阵和入度邻居矩阵,基于出度邻居矩阵和入度邻居矩阵确定出入度平均相似度矩阵,通过出入度平均相似度矩阵确定目标距离矩阵以确定业务节点对应的聚类结果。由于在本方案中,对业务节点进行聚类是依据目标距离矩阵进行的,而目标距离矩阵是通过邻居矩阵得到的,这样能够将大量的、繁杂的待处理业务数据简化为业务节点并考虑其对应的邻居矩阵,从而避免其他维度信息对业务节点的分类的干扰,从而提高业务节点对应的用户标识信息的分类效率和可信度。

Description

一种业务信息分类方法及装置
技术领域
本发明涉及业务处理技术领域,具体而言,涉及一种业务信息分类方法及装置。
背景技术
随着互联网金融的快速发展,互联网金融业务的正常、安全处理是现目前的主要工作。一般而言,互联网金融业务的参与方较多,在进行安全合规处理或者进行异常业务排查(比如反洗钱)的过程中,通常会对业务信息进行分类,从而挖掘出隐含在这些业务信息中的内涵内容,然而相关的业务信息分类方法仍然存在一些缺陷。
发明内容
为了改善上述问题,本发明提供了一种业务信息分类方法及装置。
本发明实施例提供了一种业务信息分类方法,应用于计算机设备,所述方法包括以下步骤:
获取待处理业务数据,对所述待处理业务数据进行预处理,得到业务数据列表;其中,所述业务数据列表中的每个业务节点对应一个用户标识信息;
根据所述业务数据列表确定与所述业务节点对应的邻居矩阵;
根据业务互动状态,对所述邻居矩阵进行拆分,得到出度邻居矩阵和入度邻居矩阵;
基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵;
通过所述出入度平均相似度矩阵确定目标距离矩阵;
依据所述目标距离矩阵确定所述业务节点对应的聚类结果。
可选的,所述方法还包括:
将所述聚类结果进行展示;
通过所述聚类结果的展示输出信息确定所述聚类结果中的每一类业务节点对应的业务描述信息。
可选的,对所述待处理业务数据进行预处理,得到业务数据列表,包括:
对所述待处理业务数据进行数据清洗、数据转换和数据整合,得到所述业务数据列表。
可选的,基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵,包括:
根据所述出度邻居矩阵计算出度相似度矩阵;
根据所述入度邻居矩阵计算入度相似度矩阵;
根据所述出度相似度矩阵和所述入度相似度矩阵计算所述出入度平均相似度矩阵。
可选的,通过所述出入度平均相似度矩阵确定目标距离矩阵,包括:
对所述出入度平均相似度矩阵中的每个矩阵元素进行映射处理,得到每个矩阵元素对应的映射元素;
通过所述映射元素得到所述目标距离矩阵。
本发明实施例提供了一种业务信息分类装置,应用于计算机设备,所述装置包括以下步骤:
数据获取模块,用于获取待处理业务数据,对所述待处理业务数据进行预处理,得到业务数据列表;其中,所述业务数据列表中的每个业务节点对应一个用户标识信息;
矩阵确定模块,用于根据所述业务数据列表确定与所述业务节点对应的邻居矩阵;
矩阵拆分模块,用于根据业务互动状态,对所述邻居矩阵进行拆分,得到出度邻居矩阵和入度邻居矩阵;
矩阵计算模块,用于基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵;
矩阵转换模块,用于通过所述出入度平均相似度矩阵确定目标距离矩阵;
业务聚类模块,用于依据所述目标距离矩阵确定所述业务节点对应的聚类结果。
可选的,所述装置还包括:
可视化模块,用于将所述聚类结果进行展示,通过所述聚类结果的展示输出信息确定所述聚类结果中的每一类业务节点对应的业务描述信息。
可选的,所述数据获取模块对所述待处理业务数据进行预处理,得到业务数据列表,包括:
对所述待处理业务数据进行数据清洗、数据转换和数据整合,得到所述业务数据列表。
可选的,所述矩阵计算模块基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵,包括:
根据所述出度邻居矩阵计算出度相似度矩阵;
根据所述入度邻居矩阵计算入度相似度矩阵;
根据所述出度相似度矩阵和所述入度相似度矩阵计算所述出入度平均相似度矩阵。
可选的,所述矩阵转换模块通过所述出入度平均相似度矩阵确定目标距离矩阵,包括:
对所述出入度平均相似度矩阵中的每个矩阵元素进行映射处理,得到每个矩阵元素对应的映射元素;
通过所述映射元素得到所述目标距离矩阵。
本发明所提供的业务信息分类方法及装置,能够对待处理业务数据进行预处理得到包含了业务节点的业务数据列表,根据业务数据列表确定与业务节点对应的邻居矩阵,根据业务互动状态对邻居矩阵进行拆分得到出度邻居矩阵和入度邻居矩阵,基于出度邻居矩阵和入度邻居矩阵确定出入度平均相似度矩阵,通过出入度平均相似度矩阵确定目标距离矩阵,依据目标距离矩阵确定业务节点对应的聚类结果。由于在本方案中,对业务节点进行聚类是依据目标距离矩阵进行的,而目标距离矩阵是通过邻居矩阵得到的,这样能够将大量的、繁杂的待处理业务数据简化为业务节点并考虑其对应的邻居矩阵,从而避免其他维度信息对业务节点的分类的干扰,从而提高业务节点对应的用户标识信息的分类效率和可信度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种业务信息分类方法的流程图。
图2为本发明实施例所提供的一种业务信息分类装置的模块框图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
现目前的互联网金融业务处理所涉及的业务领域较广,对于一些异常业务的识别和处理存在许多情况,本申请实施例以反洗钱业务处理为例进行说明。
在当前反洗钱相关的业务处理中,通常需要对涉案账户进行分类,即梳理账户在资金往来中扮演的角色。洗钱的过程通常被分为三个阶段:处置阶段、培植阶段、融合阶段,分别对应资金的分散、过渡、归集。异常业务用户通常会在不同的阶段使用不同的账户,对资金进行不同的操作,以达成将非法收入“合法化”的清洗操作。因此,在对这类业务进行处理的过程中,需要通过调取大量银行账户的交易流水,对账户进行区分,从中锁定主要用于资金分散的转出账户、用于接受分散资金并作为过渡的工具账户、以及用于集中资金的归集账户。
基于账户分类,一方面可以找出账户背后的异常业务用户,另一方面也可以通过不同层级的账户追踪到可疑资金的流向。
现有的对账户分类的方式主要基于纯人工模式和半自动模式两种。
人工模式,顾名思义是全部通过人的肉眼观察账户交易流水,以发现其中的交易异常并总结账户交易特点,来达到账户分类。这样的方式传统且效率低下,但是在交易模式识别上具有更高的准确性。
随着大数据、人工智能等前沿技术的快速发展,逐渐衍生出更为智能化的账户分类方法,也即半自动模式。半自动模式的一类是基于交易流水的规则,另一类是基于图谱可视化和复杂网络的分析。
基于交易流水的规则主要通过对历史反洗钱业务事件中,不同层级账户流水交易模式的总结,将底层交易流水提炼出相关的量化特征,并基于经验的积累设定相关的阈值,达到对账户的筛选。对已获得底层流水的批量账户,通过其交易流水生成相应的量化特征,如某一时间范围内收入总金额、收入笔数、收入支出金额比等等,然后通过对不同账户层级设置的特征阈值对账户进行筛选,来对所有账户进行分类。例如,将总收入金额过高、且支出对手个数与收入对手个数比例过高的,判断为资金分散转出嫌疑账户。
基于图谱可视化和复杂网络的分析则主要基于图,将账户做为节点,账户间的交易作为边,将原始金融交易流水经过处理后可视化构建出金融交易网络拓扑图。该图包含了原始金融交易流水中的所有交易关系和资金流向。一般来说,通过对图中账户间关联关系进行观察,可以直观地看出在资金交易关系中账户所处的层级。特别地,利用复杂网络领域中的关键节点、社团发等现算法,可以在交易网络中发现起到关键作用的节点或团伙组织,从而对批量账户的交易特点进行挖掘,以达到对账户的分类。
然而,上述的相关技术仍然存在一定的缺陷。
对于人工模式而言,人工审阅账户流水,可以基于审阅者在该领域积累的经验准确地识别到特别显著的账户交易特征,如一笔大额资金流入往往伴随着多笔五万以下的ATM现金取款,有高度嫌疑为资金分散转出账户。但在实际中,地下钱庄相关账户的流水交易量很大,资金流入和流出频率高且存在时间差,多个来源的流入与流出复杂交错,肉眼难以直接识别出其中的明显特征。同时,需要分析的账户数量很大,单纯用人工模式耗时耗力,效率极低,在批量账户分类的应用中能力有限。
对于基于交易流水的量化规则而言,基于交易流水的量化规则对账户进行筛选,解决了批量账户的分析问题,可以同时处理大量账户。但是,本方法的分类结果受限于规则的制订。一方面,规则的制定依赖于历史经验的总结,较为主观,如何选取合适的特征和恰当的阈值并无客观标准;另一方面,量化规则的生成一般是选择一定的时间切片,对时间段内的账户资金交易整体情况进行描述,因此规则捕捉到的往往是整体特征而非局部特征,而局部的流水特征在长时间范围内容易被弱化,因此可能会丢失对部分账户的捕捉。同时,为了生成量化的特征,可能需要对来自不同银行调取的流水进行一系列数据清洗和处理,将数据格式进行统一后,再进行特征的生成。因此,该方法也需要耗费一定的时间在前期的数据准备上,且数据处理的质量也将决定特征区分的效果。
对于基于图谱和复杂网络计算而言,该方法在理想状态下,可以直观地在交易网络图中观察到账户间的交易结构,如一对多的资金分散、多对一的资金归集等。但在批量账户的资金交易可视化图中,由于节点个数很多,边存在大量的交叉重叠,很难直观看出账户间的结构关系,且需要耗费大量的计算资源。而即使使用复杂网络算法,目前也主要是从节点间聚集程度对不同的团伙进行识别,并未有效对不同层级的账户进行区分。
由此可见,上述相关技术存在账户分类效率且分类可信度低下的问题。
发明人经过长期研究和分析发现,对于洗钱业务而言,按照账户功能可以分为资金转出账户、资金过渡账户、和资金归集账户。在大量的基于历史数据的学习总结中得到,一般来说,资金转出账户会通过资金过渡账户,将大额资金进行分散,然后由资金归集账户进行集中,完成对资金的“清洗”或转移。因此,在一般情况下,不同层级的账户具有以下特点:
1)对于同一团伙的资金转出账户层,账户间会有更多相同的出度邻居;
2)对于同一团伙的资金归集账户层,账户间会有更多相同的入度邻居;
3)对于统一团伙的资金过渡账户层,账户间会同时有更多相同的出度和入度邻居;
4)对于同一团伙不同层级的账户,账户间会有较少相同的出度邻居或入度邻居;
5)对于不同团伙的账户,会有较少的相同邻居。
基于上述思路,本申请能够选取Jaccard相似度衡量不同层级账户间在邻居相似度上的区别,并将相似度转化为Jaccard距离,然后利用层次聚类(HierarchicalClustering)算法,对账户进行分类,从而提高账户分类的效率和可信度。
首先请参阅图1,示出了业务信息分类方法,所述方法可以应用于计算机设备,进一步通过以下步骤11-步骤16所描述的内容实现。
步骤11、获取待处理业务数据,对所述待处理业务数据进行预处理,得到业务数据列表。其中,所述业务数据列表中的每个业务节点对应一个用户标识信息,用户标识信息可以理解为账户信息。
其中,待处理业务数据可以是交易流水账户数据,比如可以通过一些合法的金融平台查询账户的交易流水,获得以账户为单位的流水交易数据,X1,X2,…,Xn。交易流水数据包含查询账户的历史所有或某一给定时间段的交易明细,具体包括交易时间、交易对手帐***、交易对手户名、交易金额、交易借贷标签、交易地点、交易类型、交易摘要等细节。但由于不同银行间数据格式不同,不同的账户流水可能存在不同的数据格式。
在一些可能的实施例中,对所述待处理业务数据进行预处理,得到业务数据列表,包括:对所述待处理业务数据进行数据清洗、数据转换和数据整合,得到所述业务数据列表。
比例,可以对各单账户交易流水数据进行清洗和处理,将数据格式调整为借方账户、贷方账号的格式,并对所有单账户数据进行合并,得到交易流水大表X。该流水大表X包含所有已查询账户在查询时间范围内的所有交易流水,每条流水体现资金从来源账户进入接收账户的具体信息,包括双方交易账***、户名、时间、金额等。对该大表X中的每个账户,可以称之为一个节点。
步骤12、根据所述业务数据列表确定与所述业务节点对应的邻居矩阵。
该步骤可以理解为定义交易邻居,比如通过流水大表X,可以找出每个账户在交易中的邻居,即一度交易对手。若任意两个账户之间存在交易,则两个账号之间互为邻居。由此可以得到交易邻居矩阵N。
步骤13、根据业务互动状态,对所述邻居矩阵进行拆分,得到出度邻居矩阵和入度邻居矩阵。
其中,业务互动状态可以是交易方向,相应的,该步骤可以理解为定义出、入度邻居。比如,考虑交易方向,对上述交易邻居矩阵进行拆分,得到出度邻居矩阵N1和入度邻居矩阵N2。对N中任意一对交易邻居,通过资金流动方向定义资金来源方是资金接收方的入度邻居,资金接收方是资金来源方的出度邻居。换句话说,一个账户资金流出的对象,称之为出度邻居;其资金流入的来源对象,称之为入度邻居。
步骤14、基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵。在本实施例中,相似度可以理解为Jaccard相似度,比如,给定两个集合A和B,Jaccard相似度定义为A与B交集的大小与A与B并集的大小的比例,在本场景中,集合A和B分别指两个不同节点的出度或入度邻居节点集合。
为此,步骤14可以理解为计算出、入度邻居Jaccard相似度,比如分别从出度邻居和入度邻居的角度,计算任意两个节点之间的Jaccard相似度。
在一些可能的实施例中,基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵,包括:根据所述出度邻居矩阵计算出度相似度矩阵;根据所述入度邻居矩阵计算入度相似度矩阵;根据所述出度相似度矩阵和所述入度相似度矩阵计算所述出入度平均相似度矩阵。
进一步地,对任意两个节点,计算其出度邻居的交集与其所有出度邻居个数的比例,作为两个节点出度邻居相似度的衡量。对所有节点进行计算,得到出度相似度矩阵S1。
此外,入度邻居相似度。对任意两个节点,计算其入度邻居的交集与其所有入度邻居个数的比例,作为两个节点入度邻居相似度的衡量。对所有节点进行计算,得到入度相似度矩阵S2。
进而,计算平均相似度矩阵。将出度相似度矩阵S1和入度相似度矩阵S2作均值,得到出入度平均相似度矩阵S。
应当注意,本方法采取了先分别计算出度邻居相似度和入度邻居相似度,再对两者进行汇总计算得到平均相似度的计算方法,而非直接求出所有邻居相似度的形式。因为从资金交易流向的角度上考虑,接收或转出给相同交易对手,在资金流向上一定处于不同层级。但从所有邻居的角度考虑,两者具有相同的交易邻居,对一个而言是出度邻居,对另一个而言是入度邻居,因此两者整体邻居相似度为1,Jaccard距离为0,会被划分在同一群组,这是不符合实际的。因此,采用上述方案能避免上述情况的发生,从而确保后续分类的可信度。
步骤15、通过所述出入度平均相似度矩阵确定目标距离矩阵。
在一些可能的实施例中,通过所述出入度平均相似度矩阵确定目标距离矩阵,包括:对所述出入度平均相似度矩阵中的每个矩阵元素进行映射处理,得到每个矩阵元素对应的映射元素;通过所述映射元素得到所述目标距离矩阵。
在本实施例中,目标距离矩阵可以理解为Jaccard距离矩阵,进一步地,将出入度平均相似度矩阵S做映射1-S,即对S中的每一个值s都计算其1-s的对应值,得到Jaccard距离矩阵D。Jaccard距离越大,Jaccard相似度越低,两点属于同一个类的概率越小。
步骤16、依据所述目标距离矩阵确定所述业务节点对应的聚类结果。
在实际实施过程中,可以应用层次聚类的机器学习算法,通过Jaccard距离矩阵描述的节点间的相似程度,对所有业务节点(账户节点)进行层次聚类划分。
一般来说,层次聚类算法在策略上可分为自下而上的凝聚方法,或自上而下的***方法。本专利以前者为例,其原理是先将每个样本看成单独的簇,然后找出距离最小的两个簇作为相似样本进行合并,不断重复迭代,生成聚类树。最终可按照期望的簇个数,对聚类树进行切分,得到符合预期个数的几个簇,即几个类别。
在本场景中,对样本间距离的定义,使用了前面介绍的Jaccard距离的定义方式,作为两个样本间的距离或相似度的衡量。而在层次聚类的过程中,合并成簇后的组间相似度的判断方式一般可以取两个簇间的最小(ward)/最大(complete)/平均(average)距离,来衡量组间的相似性。
将表示节点间邻居相似度的Jaccard距离矩阵D输入层次聚类算法,并设置期望的簇个数N,得到层次聚类算法的聚类结果,即被分为N个簇的账户。换句话说,通过本步骤,将所有账户划分为N个类别,划分依据为节点间出入度邻居的相似度,因此划分结果中各个类别的账户在交易网络中实际为处在不同层级的账户,得到账户分类结果。
在一些可选的实施例中,所述方法还包括:将所述聚类结果进行展示;通过所述聚类结果的展示输出信息确定所述聚类结果中的每一类业务节点对应的业务描述信息。
比如,对于上一步骤中的聚类结果,通过可视化工具对聚类结果进行展示,并通过整体资金流向对各层级账户进行定义。将一个群组看作一个整体节点,即共有N个整体节点,将N个整体节点间的资金流动关系在图中进行体现,通过观察资金的整体流向对该群组所在层级进行定义。例如,若该群组账户整体以资金流出为主,则判断该层级内的账户均为资金转出账户;若该群组账户以接收多个其他群组的资金为主,则判断该层级内的账户均为资金归集账户。
基于上述同样的发明构思,请结合参阅图2,示出了一种业务信息分类装置200,应用于计算机设备,所述装置包括以下模块:
数据获取模块210,用于获取待处理业务数据,对所述待处理业务数据进行预处理,得到业务数据列表;其中,所述业务数据列表中的每个业务节点对应一个用户标识信息;
矩阵确定模块220,用于根据所述业务数据列表确定与所述业务节点对应的邻居矩阵;
矩阵拆分模块230,用于根据业务互动状态,对所述邻居矩阵进行拆分,得到出度邻居矩阵和入度邻居矩阵;
矩阵计算模块240,用于基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵;
矩阵转换模块250,用于通过所述出入度平均相似度矩阵确定目标距离矩阵;
业务聚类模块260,用于依据所述目标距离矩阵确定所述业务节点对应的聚类结果。
优选的,所述装置还包括:
可视化模块270,用于将所述聚类结果进行展示,通过所述聚类结果的展示输出信息确定所述聚类结果中的每一类业务节点对应的业务描述信息。
优选的,所述数据获取模块210对所述待处理业务数据进行预处理,得到业务数据列表,包括:
对所述待处理业务数据进行数据清洗、数据转换和数据整合,得到所述业务数据列表。优选的,所述矩阵计算模块240基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵,包括:
根据所述出度邻居矩阵计算出度相似度矩阵;
根据所述入度邻居矩阵计算入度相似度矩阵;
根据所述出度相似度矩阵和所述入度相似度矩阵计算所述出入度平均相似度矩阵。
优选的,所述矩阵转换模块250通过所述出入度平均相似度矩阵确定目标距离矩阵,包括:
对所述出入度平均相似度矩阵中的每个矩阵元素进行映射处理,得到每个矩阵元素对应的映射元素;
通过所述映射元素得到所述目标距离矩阵。
如此设计,基于上述步骤11-步骤16,能够对待处理业务数据进行预处理得到包含了业务节点的业务数据列表并确定与业务节点对应的邻居矩阵,根据业务互动状态对邻居矩阵进行拆分得到出度邻居矩阵和入度邻居矩阵,基于出度邻居矩阵和入度邻居矩阵确定出入度平均相似度矩阵,通过出入度平均相似度矩阵确定目标距离矩阵以确定业务节点对应的聚类结果。由于在本方案中,对业务节点进行聚类是依据目标距离矩阵进行的,而目标距离矩阵是通过邻居矩阵得到的,这样能够将大量的、繁杂的待处理业务数据简化为业务节点并考虑其对应的邻居矩阵,从而避免其他维度信息对业务节点的分类的干扰,从而提高业务节点对应的用户标识信息的分类效率和可信度。
此外,该该方案还具有以下有益技术效果。
(1)能够将海量账户间的交易流水数据简化为账户间的出入度邻居关系,以账户间的资金关联关系作为主要考量,避免其他信息的干扰。
(2)采取了求平均值的方式对出度和入度邻居相似度进行了合并,使得后续的层次聚类可以考虑到其出和入的邻居相似度,避免了直接使用整体交易邻居相似度带来的聚类层次混乱问题。
(3)将任意两个账户间的出入度邻居相似度转化为Jaccard距离,将账户在资金进出交易对象上的交易特点转化为可以量化比较的距离,便于后续层次分类算法的应用。
(4)利用层次聚类算法,可以通过账户间的距离得到账户的分层结果,且调整层级个数不会导致算法的重新计算,只需调整切分方式即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种业务信息分类方法,其特征在于,应用于计算机设备,所述方法包括以下步骤:
获取待处理业务数据,对所述待处理业务数据进行预处理,得到业务数据列表;其中,所述业务数据列表中的每个业务节点对应一个用户标识信息;
根据所述业务数据列表确定与所述业务节点对应的邻居矩阵;
根据业务互动状态,对所述邻居矩阵进行拆分,得到出度邻居矩阵和入度邻居矩阵;
基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵;
通过所述出入度平均相似度矩阵确定目标距离矩阵;
依据所述目标距离矩阵确定所述业务节点对应的聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述聚类结果进行展示;
通过所述聚类结果的展示输出信息确定所述聚类结果中的每一类业务节点对应的业务描述信息。
3.根据权利要求1所述的方法,其特征在于,对所述待处理业务数据进行预处理,得到业务数据列表,包括:
对所述待处理业务数据进行数据清洗、数据转换和数据整合,得到所述业务数据列表。
4.根据权利要求1所述的方法,其特征在于,基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵,包括:
根据所述出度邻居矩阵计算出度相似度矩阵;
根据所述入度邻居矩阵计算入度相似度矩阵;
根据所述出度相似度矩阵和所述入度相似度矩阵计算所述出入度平均相似度矩阵。
5.根据权利要求1所述的方法,其特征在于,通过所述出入度平均相似度矩阵确定目标距离矩阵,包括:
对所述出入度平均相似度矩阵中的每个矩阵元素进行映射处理,得到每个矩阵元素对应的映射元素;
通过所述映射元素得到所述目标距离矩阵。
6.一种业务信息分类装置,其特征在于,应用于计算机设备,所述装置包括以下步骤:
数据获取模块,用于获取待处理业务数据,对所述待处理业务数据进行预处理,得到业务数据列表;其中,所述业务数据列表中的每个业务节点对应一个用户标识信息;
矩阵确定模块,用于根据所述业务数据列表确定与所述业务节点对应的邻居矩阵;
矩阵拆分模块,用于根据业务互动状态,对所述邻居矩阵进行拆分,得到出度邻居矩阵和入度邻居矩阵;
矩阵计算模块,用于基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵;
矩阵转换模块,用于通过所述出入度平均相似度矩阵确定目标距离矩阵;
业务聚类模块,用于依据所述目标距离矩阵确定所述业务节点对应的聚类结果。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
可视化模块,用于将所述聚类结果进行展示,通过所述聚类结果的展示输出信息确定所述聚类结果中的每一类业务节点对应的业务描述信息。
8.根据权利要求6所述的装置,其特征在于,所述数据获取模块对所述待处理业务数据进行预处理,得到业务数据列表,包括:
对所述待处理业务数据进行数据清洗、数据转换和数据整合,得到所述业务数据列表。
9.根据权利要求6所述的装置,其特征在于,所述矩阵计算模块基于所述出度邻居矩阵和所述入度邻居矩阵,确定出入度平均相似度矩阵,包括:
根据所述出度邻居矩阵计算出度相似度矩阵;
根据所述入度邻居矩阵计算入度相似度矩阵;
根据所述出度相似度矩阵和所述入度相似度矩阵计算所述出入度平均相似度矩阵。
10.根据权利要求6所述的装置,其特征在于,所述矩阵转换模块通过所述出入度平均相似度矩阵确定目标距离矩阵,包括:
对所述出入度平均相似度矩阵中的每个矩阵元素进行映射处理,得到每个矩阵元素对应的映射元素;
通过所述映射元素得到所述目标距离矩阵。
CN202110641109.3A 2021-06-09 2021-06-09 一种业务信息分类方法及装置 Pending CN113240052A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110641109.3A CN113240052A (zh) 2021-06-09 2021-06-09 一种业务信息分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110641109.3A CN113240052A (zh) 2021-06-09 2021-06-09 一种业务信息分类方法及装置

Publications (1)

Publication Number Publication Date
CN113240052A true CN113240052A (zh) 2021-08-10

Family

ID=77137343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110641109.3A Pending CN113240052A (zh) 2021-06-09 2021-06-09 一种业务信息分类方法及装置

Country Status (1)

Country Link
CN (1) CN113240052A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909619A (zh) * 2017-01-16 2017-06-30 中国科学院声学研究所 一种基于偏移调节和竞价的混合社交网络聚类方法及***
CN109918576A (zh) * 2019-01-09 2019-06-21 常熟理工学院 一种基于联合概率矩阵分解的微博关注推荐方法
CN111738817A (zh) * 2020-05-15 2020-10-02 苏宁金融科技(南京)有限公司 识别风险社区的方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909619A (zh) * 2017-01-16 2017-06-30 中国科学院声学研究所 一种基于偏移调节和竞价的混合社交网络聚类方法及***
CN109918576A (zh) * 2019-01-09 2019-06-21 常熟理工学院 一种基于联合概率矩阵分解的微博关注推荐方法
CN111738817A (zh) * 2020-05-15 2020-10-02 苏宁金融科技(南京)有限公司 识别风险社区的方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张斌: "社交网络中朋友推荐技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 01, 15 January 2015 (2015-01-15), pages 9 - 11 *

Similar Documents

Publication Publication Date Title
Perols et al. Finding needles in a haystack: Using data analytics to improve fraud prediction
Yue et al. A review of data mining-based financial fraud detection research
Keramati et al. A proposed classification of data mining techniques in credit scoring
Chen et al. An alternative model for the analysis of detecting electronic industries earnings management using stepwise regression, random forest, and decision tree
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN110689437A (zh) 一种基于随机森林的通信施工项目财务风险预测方法
Derks et al. The Bayesian approach to audit evidence: Quantifying statistical evidence using the Bayes factor
Apparao et al. Financial statement fraud detection by data mining
CN117196808A (zh) 一种同业业务的流动性风险预测方法及相关装置
CN111475566A (zh) 一种区块链资金可疑交易模式的识别方法及装置
CN113240052A (zh) 一种业务信息分类方法及装置
Datkhile et al. Statistical modelling on loan default prediction using different models
Yang et al. An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity
Turiel et al. Simplicial persistence of financial markets: filtering, generative processes and portfolio risk
Lee et al. Application of machine learning in credit risk scorecard
CN114155096A (zh) 基于三部图的银行侦测网络赌博资金非法转移行为的方法
CN112926989A (zh) 一种基于多视图集成学习的金融交易风险评估方法及设备
Kallio et al. The self-organizing map in selecting companies for tax audit
Nawaiseh et al. Financial Statement Audit Utilising Naive Bayes Networks, Decision Trees, Linear Discriminant Analysis and Logistic Regression
Liu et al. A comparison of machine learning algorithms for prediction of past due service in commercial credit
Piispanen et al. Applications of deep learning in finance
KR100686466B1 (ko) 자산 평가 제공 방법 및 시스템과, 수익성에 대한 안정성 분석 제공 시스템
Li et al. CUS-RF-Based Credit Card Fraud Detection with Imbalanced Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination