CN110276618A - 生成洗钱案宗预测模型、预测洗钱案宗的方法及*** - Google Patents

生成洗钱案宗预测模型、预测洗钱案宗的方法及*** Download PDF

Info

Publication number
CN110276618A
CN110276618A CN201910575616.4A CN201910575616A CN110276618A CN 110276618 A CN110276618 A CN 110276618A CN 201910575616 A CN201910575616 A CN 201910575616A CN 110276618 A CN110276618 A CN 110276618A
Authority
CN
China
Prior art keywords
ancestor
case
transaction
feature
money laundering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910575616.4A
Other languages
English (en)
Inventor
郑佳尔
陈浩
胡楠
俞丽菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201910575616.4A priority Critical patent/CN110276618A/zh
Publication of CN110276618A publication Critical patent/CN110276618A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

提供了一种生成洗钱案宗预测模型、预测洗钱案宗的方法及***。所述生成洗钱案宗预测模型的方法包括:获取案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并基于各案宗标识对应的聚合特征和相应案宗标签形成入模表,其中,案宗标签指示相应案宗是否为洗钱案宗;基于机器学习算法,使用所述入模表进行机器学习模型训练,生成洗钱案宗预测模型。

Description

生成洗钱案宗预测模型、预测洗钱案宗的方法及***
技术领域
本发明总体说来涉及人工智能领域,更具体地讲,涉及一种生成洗钱案宗预测模型的方法及***、预测洗钱案宗的方法及***。
背景技术
目前,反洗钱监测分析基本依靠人工完成,金融机构往往设有对洗钱案宗进行审定的审定岗。通常通过反洗钱规则引擎进行可疑交易的捕捉,然后由审核人员审核分析由可疑交易集合成的案宗,并确定需要上报的洗钱案宗。
然而,随着交易量的增加,洗钱案宗的审核分析工作量也大大增加,这使得审核人员的人均工作量剧增,一方面,存在审核人力缺口较大的问题;另一方面,导致大量案宗不能及时被审核。因此,需要一种快速、有效、且节省人力的洗钱案宗的监测分析方法。
发明内容
本发明的示例性实施例在于提供一种生成洗钱案宗预测模型的方法及***、预测洗钱案宗的方法及***,其能够解决现有技术存在的无法快速且节省人力地实现洗钱案宗的监测分析的问题。
根据本发明的示例性实施例,提供一种生成洗钱案宗预测模型的方法,其中,所述方法包括:获取案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并基于各案宗标识对应的聚合特征和相应案宗标签形成入模表,其中,案宗标签指示相应案宗是否为洗钱案宗;基于机器学习算法,使用所述入模表进行机器学习模型训练,生成洗钱案宗预测模型。
可选地,获取案宗的基础数据表的步骤包括:获取案宗表以及一个或多个相关联数据表,其中,所述案宗表中的每条数据记录至少包括:案宗标识、交易标识和案宗标签;将所述案宗表与所述一个或多个相关联数据表进行拼接,得到所述基础数据表。
可选地,获取案宗表的步骤包括:获取反洗钱规则引擎识别出的可疑交易信息,并根据交易主体进行合并得到所述案宗表。
可选地,所述一个或多个相关联数据表包括以下项中的至少一项:交易表;用户信息表;资产信息表;账户表;卡片表。
可选地,对所述基础数据表中的数据记录进行特征提取的步骤包括:将所述基础数据表中的信息直接处理为基础特征;和/或,基于所述基础数据表中的信息生成衍生特征,其中,所述衍生特征包括以下项之中的至少一项:关于交易主体的衍生特征、关于交易金额的衍生特征、关于交易时间的衍生特征、时序特征、交易图特征。
可选地,所述关于交易主体的衍生特征包括以下项之中的至少一项:用于指示交易主体的年龄的特征、用于指示交易主体是否为公职人员的特征、用于指示交易主体是否待业的特征;所述关于交易金额的衍生特征包括以下项之中的至少一项:用于指示交易资金流入流出净金额的特征、用于指示交易是否清空了余额的特征、用于指示交易金额是否为敏感金额的特征;所述关于交易时间的衍生特征包括以下项之中的至少一项:用于指示交易时间距开户和/或开卡时间的时间差的特征、用于指示交易时间是否处于工作日的特征、用于指示交易时间所处的时间段的特征;所述时序特征包括:对在交易的交易时间之前的时间段内的所述交易的交易主体的交易行为信息进行统计所得到的时序特征,其中,所述交易行为信息包括以下项之中的至少一项:交易笔数、交易金额、交易净金额、特定类型的交易的交易笔数、特定类型的交易的交易金额、特定类型的交易的交易净金额;所述交易图特征包括:用于指示交易主体的资金流入次数的交易主体的入度和/或用于指示交易主体的资金流出次数的交易主体的出度。
可选地,基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并基于各案宗标识对应的聚合特征和相应案宗标签形成入模表的步骤包括:基于所述案宗表构建样本表,其中,所述样本表中的每条数据记录包括:案宗标识和案宗标签;基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征后,将所述聚合特征加入所述样本表中的相应位置,得到入模表。
可选地,基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征的步骤包括如下中的一个或多个:分别针对所述基础特征表中的每个连续性特征,对与同一案宗标识对应的该连续性特征的特征值进行聚合运算,以得到聚合特征;分别针对所述基础特征表中的每个离散性特征,对与同一案宗标识对应的该离散性特征的不同特征值的分布情况进行统计,以得到聚合特征;基于所述基础特征表,获取同一案宗所包括的交易的时间跨度、交易频率、交易聚集度中的至少一项,作为聚合特征。
可选地,所述机器学习算法为梯度提升决策树算法。
可选地,所述交易表中的每条数据记录包括以下项之中的至少一项:交易标识、交易时间、交易主体标识、交易对手标识、交易金额、借贷方向信息、银行卡标识、账户标识、现金交易标识、交易渠道信息、交易状态信息;所述用户信息表中的每条数据记录包括以下项之中的至少一项:用户标识、用户的基本信息;所述卡片表中的每条数据记录包括以下项之中的至少一项:银行卡标识、开卡行信息、开卡时间;所述账户表中的每条数据记录包括以下项之中的至少一项:账户标识、开户时间、账户类型;所述资产信息表中的每条数据记录包括以下项之中的至少一项:用户标识、统计时间、资产余额、日均资产余额、月均资产余额。
根据本发明的另一示例性实施例,提供一种预测洗钱案宗的方法,其中,所述方法包括:获取待审核的案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征;利用通过执行如上所述的生成洗钱案宗预测模型的方法而生成的洗钱案宗预测模型,基于得到的聚合特征来预测待审核的案宗的洗钱可疑程度;向用户输出预测的待审核的案宗的洗钱可疑程度。
可选地,向用户输出预测的待审核的案宗的洗钱可疑程度的步骤还包括:按照预测的洗钱可疑程度从高到低的顺序,向用户输出待审核的案宗的排序结果;和/或,仅向用户输出预测的洗钱可疑程度满足预设条件的待审核的案宗的洗钱可疑程度。
根据本发明的另一示例性实施例,提供一种生成洗钱案宗预测模型的***,其中,所述***包括:基础数据表获取装置,适于获取案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;特征提取装置,适于对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;特征聚合装置,适于基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并基于各案宗标识对应的聚合特征和相应案宗标签形成入模表,其中,案宗标签指示相应案宗是否为洗钱案宗;模型训练装置,适于基于机器学习算法,使用所述入模表进行机器学习模型训练,生成洗钱案宗预测模型。
可选地,基础数据表获取装置,适于获取案宗表以及一个或多个相关联数据表,并将所述案宗表与所述一个或多个相关联数据表进行拼接,得到所述基础数据表,其中,所述案宗表中的每条数据记录至少包括:案宗标识、交易标识和案宗标签。
可选地,基础数据表获取装置,适于获取反洗钱规则引擎识别出的可疑交易信息,并根据交易主体进行合并得到所述案宗表。
可选地,所述一个或多个相关联数据表包括以下项中的至少一项:交易表;用户信息表;资产信息表;账户表;卡片表。
可选地,特征提取装置,适于将所述基础数据表中的信息直接处理为基础特征;和/或,基于所述基础数据表中的信息生成衍生特征,其中,所述衍生特征包括以下项之中的至少一项:关于交易主体的衍生特征、关于交易金额的衍生特征、关于交易时间的衍生特征、时序特征、交易图特征。
可选地,所述关于交易主体的衍生特征包括以下项之中的至少一项:用于指示交易主体的年龄的特征、用于指示交易主体是否为公职人员的特征、用于指示交易主体是否待业的特征;所述关于交易金额的衍生特征包括以下项之中的至少一项:用于指示交易资金流入流出净金额的特征、用于指示交易是否清空了余额的特征、用于指示交易金额是否为敏感金额的特征;所述关于交易时间的衍生特征包括以下项之中的至少一项:用于指示交易时间距开户和/或开卡时间的时间差的特征、用于指示交易时间是否处于工作日的特征、用于指示交易时间所处的时间段的特征;所述时序特征包括:对在交易的交易时间之前的时间段内的所述交易的交易主体的交易行为信息进行统计所得到的时序特征,其中,所述交易行为信息包括以下项之中的至少一项:交易笔数、交易金额、交易净金额、特定类型的交易的交易笔数、特定类型的交易的交易金额、特定类型的交易的交易净金额;所述交易图特征包括:用于指示交易主体的资金流入次数的交易主体的入度和/或用于指示交易主体的资金流出次数的交易主体的出度。
可选地,特征聚合装置,适于基于所述案宗表构建样本表,并基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征后,将所述聚合特征加入所述样本表中的相应位置,得到入模表,其中,所述样本表中的每条数据记录包括:案宗标识和案宗标签。
可选地,特征聚合装置,适于执行如下处理中的一个或多个:分别针对所述基础特征表中的每个连续性特征,对与同一案宗标识对应的该连续性特征的特征值进行聚合运算,以得到聚合特征;分别针对所述基础特征表中的每个离散性特征,对与同一案宗标识对应的该离散性特征的不同特征值的分布情况进行统计,以得到聚合特征;基于所述基础特征表,获取同一案宗所包括的交易的时间跨度、交易频率、交易聚集度中的至少一项,作为聚合特征。
可选地,所述机器学习算法为梯度提升决策树算法。
可选地,所述交易表中的每条数据记录包括以下项之中的至少一项:交易标识、交易时间、交易主体标识、交易对手标识、交易金额、借贷方向信息、银行卡标识、账户标识、现金交易标识、交易渠道信息、交易状态信息;所述用户信息表中的每条数据记录包括以下项之中的至少一项:用户标识、用户的基本信息;所述卡片表中的每条数据记录包括以下项之中的至少一项:银行卡标识、开卡行信息、开卡时间;所述账户表中的每条数据记录包括以下项之中的至少一项:账户标识、开户时间、账户类型;所述资产信息表中的每条数据记录包括以下项之中的至少一项:用户标识、统计时间、资产余额、日均资产余额、月均资产余额。
根据本发明的另一示例性实施例,提供一种预测洗钱案宗的***,其中,所述***包括:基础数据表获取装置,适于获取待审核的案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;特征提取装置,适于对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;特征聚合装置,适于基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征;预测装置,适于利用如上所述的生成洗钱案宗预测模型的***所生成的洗钱案宗预测模型,基于得到的聚合特征来预测待审核的案宗的洗钱可疑程度;输出装置,适于向用户输出预测的待审核的案宗的洗钱可疑程度。
可选地,输出装置,还适于按照预测的洗钱可疑程度从高到低的顺序,向用户输出待审核的案宗的排序结果;和/或,输出装置,适于仅向用户输出预测的洗钱可疑程度满足预设条件的待审核的案宗的洗钱可疑程度。
根据本发明的另一示例性实施例,提供一种包括至少一个计算装置和至少一个存储指令的存储装置的***,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的生成洗钱案宗预测模型的方法和/或如上所述的预测洗钱案宗的方法。
根据本发明的另一示例性实施例,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的生成洗钱案宗预测模型的方法和/或如上所述的预测洗钱案宗的方法。
根据本发明示例性实施例的生成洗钱案宗预测模型的方法及***,能够生成用于预测待审核的案宗的洗钱可疑程度的预测模型,此外,在基于多维度数据生成基础特征之外,还构建了大量的衍生特征,从而提高生成的洗钱案宗预测模型的预测效果。根据本发明示例性实施例的预测洗钱案宗的方法及***,能够快速、有效、且节省人力地预测案宗的洗钱可疑程度。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的生成洗钱案宗预测模型的方法的流程图;
图2示出根据本发明示例性实施例的预测洗钱案宗的方法的流程图;
图3示出根据本发明示例性实施例的生成洗钱案宗预测模型的***的框图;
图4示出根据本发明示例性实施例的预测洗钱案宗的***的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1示出根据本发明示例性实施例的生成洗钱案宗预测模型的方法的流程图。
参照图1,在步骤S10中,获取用于训练模型的案宗的基础数据表。这里,基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定,换言之,基础数据表中的主键为“案宗标识”和“交易标识”这两个字段,即,在基础数据表中,基于案宗标识字段的一个字段值和交易标识字段的一个字段值仅能唯一确定一条数据记录。
作为示例,案宗可认为是交易主体(例如,个人或公司)进行的一系列可疑交易聚合在一起组成的集合,一笔案宗可包含一个或多个交易主体的可疑交易。例如,可将用户A的预设时间段(例如,近30天)内的所有可疑交易聚合在一起组成一笔案宗。
作为示例,可通过反洗钱规则引擎识别可疑交易。作为示例,反洗钱规则引擎可根据预设规则从全量交易中识别出可疑交易。例如,所述预设规则可以是将单笔交易金额超过10万元的交易识别为可疑交易。
作为示例,基础数据表中的每一条数据记录可以是关于一笔可疑交易的描述。应该理解,基础数据表除包括“案宗标识”和“交易标识”这两个字段之外,还可包括其他用于描述交易的相关信息的字段,例如,还可包括用于描述交易的属性信息的字段、用于描述交易的交易主体的字段。
作为示例,可获取案宗表以及一个或多个相关联数据表;并将所述案宗表与所述一个或多个相关联数据表进行拼接,得到所述基础数据表。这里,案宗表中的每条数据记录至少包括:案宗标识、交易标识和案宗标签,其中,案宗标签指示相应案宗是否为洗钱案宗,例如,当一个案宗经审核人员审核分析,上报为涉及洗钱的案宗,则可认为该案宗为洗钱案宗。
作为示例,可获取反洗钱规则引擎识别出的可疑交易信息,并根据交易主体进行合并得到所述案宗表。
作为示例,案宗表中的每条数据记录除包括案宗标识、交易标识和案宗标签之外,还可包括案宗创建时间。
作为示例,所述一个或多个相关联数据表可包括以下项中的至少一项:交易表;用户信息表;资产信息表;账户表;卡片表。
作为示例,交易表中的每条数据记录可包括以下项之中的至少一项:交易标识、交易时间、交易主体标识、交易对手标识、交易金额、借贷方向信息、银行卡标识、账户标识、现金交易标识、交易渠道信息、交易状态信息。例如,交易渠道信息可指示手机银行渠道、柜台渠道、自动取款机ATM渠道等交易渠道类型。例如,现金交易标识可指示交易是否是现金交易。例如,银行卡标识可指示交易所使用的银行卡。例如,账户标识可指示交易所使用的账户。例如,交易状态信息可指示交易的状态,例如,交易是否成功、交易失败的原因等。
作为示例,用户信息表中的每条数据记录可包括以下项之中的至少一项:用户标识、用户的基本信息。例如,用户的基本信息可包括以下项之中的至少一项:用户的身份证号、用户的性别、用户的职业、用户的住址、用户的学历。
作为示例,卡片表中的每条数据记录可包括以下项之中的至少一项:银行卡标识、开卡行信息、开卡时间。
作为示例,账户表中的每条数据记录可包括以下项之中的至少一项:账户标识、开户时间、账户类型。
作为示例,资产信息表中的每条数据记录可包括以下项之中的至少一项:用户标识、统计时间、资产余额、日均资产余额、月均资产余额。
作为示例,案宗表可为流水表。例如,每产生一笔案宗,可在案宗表中(例如,案宗表的末尾)新增一系列的数据记录。作为示例,交易表可为流水表,例如,每产生一笔交易,可在交易表中(例如,交易表的末尾)添加一条数据记录。
作为示例,用户信息表、账户表、卡片表可为静态表,静态表即在较长时间内信息不容易发生改变的数据表。
作为示例,资产信息表可为切片表,例如,可周期性地更新资产信息表,例如,可在每个月的特定时间点(例如,月末)更新资产信息表中的统计信息。
应该理解,可根据各种适当的方式将案宗表与所述一个或多个相关联数据表进行拼接,以得到基础数据表。作为示例,可根据交易标识字段,对案宗表和交易表进行拼接,形成案宗交易表,然后再将其他相关联数据表拼接到案宗交易表。
作为示例,由于用户信息表是静态表,因此可直接根据案宗交易表中的交易主体标识字段和用户信息表中的用户标识字段进行案宗交易表和用户信息表的拼接。
作为示例,由于资产信息表是切片表,因此可根据资产信息表中的用户标识字段和统计时间字段、以及案宗交易表中的交易主体标识字段和交易时间字段进行拼接。例如,由于资产信息表往往是月末更新,因此,在拼接时可根据这两个条件进行拼接:【案宗交易表.交易主体标识=资产信息表.用户标识】和【所在年月(案宗交易表.交易时间)=所在年月(资产信息表.统计时间)+1】,这是因为考虑到一般在月末当天才会获取当月的资产信息汇总,直接将案宗交易表中的数据记录按交易时间拼接资产信息表中对应的当月信息可能会引起数据穿越等问题,即,将未来的信息引入到当前环境而达到先知/上帝视角,从而可能造成基于此生成的机器学习模型离线效果好但上线预测很差的情况,因此,根据本发明的示例性实施例,通过【所在年月(案宗交易表.交易时间)=所在年月(资产信息表.统计时间)+1】,能够使案宗交易表中关于某一笔交易的数据记录与资产信息表中与该笔交易发生的上一个月对应的数据记录拼接,从而避免这种情况。
在步骤S20中,对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表。
作为示例,提取的特征可包括:基础特征和衍生特征,具体地,可将所述基础数据表中的信息直接处理为基础特征;并可基于所述基础数据表中的信息生成衍生特征。根据本发明的示例性实施例,除了直接获取基础特征之外,还可进行特征衍生,从而利用这些精细特征训练出预测效果较好的洗钱案宗预测模型。
作为示例,所述衍生特征可包括以下项之中的至少一项:关于交易主体的衍生特征、关于交易金额的衍生特征、关于交易时间的衍生特征、时序特征、交易图特征。应该理解,衍生特征也可以是基于基础数据表中的信息生成的其他类型的衍生特征。
作为示例,关于交易主体的衍生特征可包括以下项之中的至少一项:用于指示交易主体的年龄的特征、用于指示交易主体是否为公职人员的特征、用于指示交易主体是否待业的特征。例如,可从交易主体对应的身份证字段值中获取交易主体的出生年月,然后基于获取的出生年月确定用于指示交易主体的年龄的特征;可根据交易主体对应的职业字段值,确定用于指示交易主体是否为公职人员的特征和用于指示交易主体是否待业的特征。
作为示例,关于交易金额的衍生特征可包括以下项之中的至少一项:用于指示交易资金流入流出净金额的特征、用于指示交易是否清空了余额的特征、用于指示交易金额是否为敏感金额的特征。
关于交易资金流入流出净金额,交易流水表中通常会记录有借贷方向信息,其中,借代表资金增加,贷代表资金减小。例如,用户a转账100元给b,那么在用户a的交易流水表上则有一笔<用户a,用户b,贷,100元>的交易记录,而b的交易流水表上则有一笔<用户b,用户a,借,100元>的交易记录,如果b又转账90元给a,那么对于a来说,交易资金净流出为10元,因此,交易资金流入流出净金额能够反映用户的交易资金流入流出的净值,例如,用于指示交易资金流入流出净金额的特征可通过基础数据表中用户的交易资金总流入和交易资金总流出两者相减再取绝对值来计算得到。关于清空余额,例如,如果发生该笔交易后,账户余额小于预设阈值(例如,100元),则指示该笔交易清空了余额。关于敏感金额,例如,如果某一交易为了避免整数倍金额(例如,1万元等)引起怀疑,采用9999.99元来规避监控时,则说明该笔交易的交易金额为敏感金额。
作为示例,关于交易时间的衍生特征可包括以下项之中的至少一项:用于指示交易时间距开户和/或开卡时间的时间差的特征、用于指示交易时间是否处于工作日的特征、用于指示交易时间所处的时间段的特征。
例如,可根据交易时间字段值与交易所使用的银行卡/账户的开卡/开户时间字段值,确定用于指示交易的交易时间距开户和/或开卡时间的时间差的特征。例如,可根据交易时间字段值,确定用于指示交易的交易时间是否处于工作日的特征。例如,可将一天的时间进行小时分桶(例如,将一天三等分),将交易时间字段值归类到具体的分桶中,从而获取用于指示交易的交易时间所处的时间段的特征。
时序特征是以时间为滑动维度的一种衍生特征,能够融入用户交易历史特征、刻画用户画像,从而对基础特征进行补充。作为示例,时序特征可包括:对在交易的交易时间之前的时间段内的所述交易的交易主体的交易行为信息进行统计所得到的时序特征,其中,所述交易行为信息包括以下项之中的至少一项:交易笔数、交易金额、交易净金额(借贷差)、特定类型的交易的交易笔数、特定类型的交易的交易金额、特定类型的交易的交易净金额。
应该理解,可采用不同的时间窗口(即,统计的时间段的时长)对交易行为信息进行统计来得到时序特征,例如,时间窗口的大小可为30天、150天等。例如,所述特定类型的交易可为现金交易等。
实际上,不同交易之间是有联系的,不同交易构成了图网络,因此,可考虑不同交易之间的关系来生成交易图特征以对基础特征进行补充。作为示例,交易图特征可包括:用于指示交易主体的资金流入次数的交易主体的入度和/或用于指示交易主体的资金流出次数的交易主体的出度。例如,可将不同的交易实体视为不同的节点,同一用户标识视为同一个节点,如果用户a转账给用户b,用户c转账给用户b,那么对于用户b来说,入度为2(这是因为有2个不同的主体转账给他),但由于没有资金流出,那么用户b的出度为0。
关于时序特征的生成方式,作为示例,针对需要统计的时序特征,可先对基础数据表中的相应字段进行粗粒度的一阶聚合并保存一阶聚合结果,再基于所保存的一阶聚合结果得到基础数据表中的每条数据记录对应的所述时序特征。
具体说来,针对需要统计的时序特征,可先对基础数据表中的相应字段进行粗粒度的一阶聚合并保存一阶聚合结果,再分别针对基础数据表中的每条数据记录基于所保存的一阶聚合结果进行二阶聚合,来得到每条数据记录对应的所述时序特征。这里,二阶聚合的粒度的大小即所述时序特征的时间窗口的大小,并且,二阶聚合的粒度的大小大于一阶聚合的粒度的大小。应该理解,在后续再针对新增的数据记录生成所述时序特征时,如果需要使用的一阶聚合结果已经被保存,则不需要重复生成,直接使用即可,仅生成需要使用的且未保存的那一部分一阶聚合结果即可。
作为示例,针对需要统计的时序特征,对基础数据表中的相应字段进行粗粒度的一阶聚合的步骤可包括:分别针对基础数据表中的每个交易主体标识字段值,对基础数据表中具有该交易主体标识字段值、且交易时间字段值属于每个粗粒度时间段的数据记录的所述相应字段的字段值分别进行一阶聚合以得到一阶聚合结果。换言之,对基础数据表中具有同一个交易主体标识字段值、且交易时间字段值属于同一个粗粒度时间段的数据记录的所述相应字段的字段值进行一阶聚合以得到一个一阶聚合结果,即,将交易主体标识字段和交易时间字段作为聚合主键来进行聚合计算,每个一阶聚合结果对应于一个交易主体标识字段值和一个粗粒度时间段。
作为另一示例,针对需要统计的时序特征,对基础数据表中的相应字段进行粗粒度的一阶聚合的步骤可包括:当所述时序特征涉及仅对基础数据表中的特定类型的数据记录的所述相应字段进行统计时,分别针对基础数据表中的每个交易主体标识字段值,对基础数据表中具有该交易主体标识字段值、交易时间字段值属于每个粗粒度时间段、且符合所述特定类型的数据记录的所述相应字段的字段值分别进行一阶聚合以得到一阶聚合结果。即,将交易主体标识字段和交易时间字段作为聚合主键,在根据所述特定类型进行筛选后再进行一阶聚合计算。
作为示例,可直接根据数据记录的特定字段的字段值是否符合所述特定类型,来判断该数据记录是否符合所述特定类型。例如,当所述特定类型为POS(销售终端)交易类型时,可直接判断数据记录的交易渠道字段的字段值是否指示POS交易类型。
作为另一示例,可在基础数据表中增加标志位字段,并根据数据记录的标志位字段的字段值来判断数据记录是否符合所述特定类型,其中,标志位字段的字段值是基于所述特定字段的字段值生成的。例如,当所述特定类型为POS交易类型时,针对每一条数据记录,当该条数据记录的交易渠道字段的字段值指示POS交易类型时,令该条数据记录的标志位字段值为1,否则为0,从而,可确定标志位字段值为1的数据记录符合所述特定类型。
作为示例,所述一阶聚合的聚合方式可包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、求标准差、计数。
作为示例,可按照适当的粗粒度的划分方式,来确定每个粗粒度时间段。例如,粗粒度的划分方式可为按自然日划分或按小时划分。
作为示例,可采用hdfs(分布式文件***)等适当的方式将一阶聚合结果保存到相应的存储介质中。
作为示例,针对需要统计的时序特征,基于所保存的一阶聚合结果得到基础数据表中的每条数据记录对应的所述时序特征的步骤可包括:分别针对基础数据表中的每条数据记录,对所对应的粗粒度时间段属于与该条数据记录对应的时间段、且所对应的交易主体标识字段值与该条数据记录的相同的一阶聚合结果进行二阶聚合,并将得到的二阶聚合结果作为该条数据记录对应的所述时序特征,其中,每条数据记录对应的时间段为:在该条数据记录的交易时间字段值之前的特定时长的时间段。即,将交易主体标识字段和交易时间字段作为聚合主键来对一阶聚合结果进行二阶聚合计算。
作为示例,所述二阶聚合的聚合方式可包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、求标准差、计数。
根据本发明的示例性实施例,采用二阶段计算来生成时序特征,通过保存粗粒度的一阶聚合结果用于细粒度的二阶聚合,来避免重复计算以减少计算代价、提高计算效率;并且,已存储的一阶聚合结果还可在后续针对新增的数据记录提取时序特征时被重复使用,针对新增的数据记录仅需针对相应的增量来得到一阶聚合结果并保存即可,从而通过增量更新即可便捷地得到对应的时序特征。
作为示例,还可向用户提供根特征算子配置接口;获取用户通过所述根特征算子配置接口配置的根特征,并基于所述根特征确定针对所述时序特征的所述相应字段。
作为示例,基于所述根特征除了确定针对所述时序特征的所述相应字段之外,还可确定所述特定类型。
作为示例,当用户通过根特征算子配置接口输入的内容为:现金交易时,获取的根特征是:现金交易,基于该根特征可确定:所述特定类型为:现金业务类型,且与所述特定类型对应的所述特定字段为:现金交易标识字段;与需要统计的时序特征相应的字段包括:交易金额字段。
作为另一示例,当用户通过根特征算子配置接口输入的内容为:现金交易的次数/金额时,获取的根特征是:现金交易,具体地,可将用户通过根特征算子配置接口输入的内容中用于描述交易本身属性(例如,业务类型等)的内容提取出来作为根特征。应该理解,哪些类型的内容可作为根特征可被预先设定,例如,涉及交易表中用于描述交易本身属性的字段的字段值的内容可作为根特征。
作为示例,用户可通过所述根特征算子配置接口,通过适当的方式来配置根特征。例如,可通过SQL(Structured Query Language,结构化查询语言)语句来配置根特征。
作为示例,可向用户提供以下聚合算子配置接口中的至少一个:用于配置所述时序特征的时间窗口的配置接口、用于配置所述时序特征的聚合方式的配置接口、用于配置所述一阶聚合的聚合方式的配置接口、用于配置所述粗粒度的划分方式的配置接口;获取用户通过所述聚合算子配置接口配置的内容,其中,基于所述内容来生成所述时序特征。
根据本发明的示例性实施例,通过向用户提供可配置的算法配置接口,用户仅需通过算法配置接口执行易于操作、直观便于理解的配置操作,即可自动生成满足用户需求的时序特征,一方面,极大提升了构建时序特征的便捷性、并提高了时序特征的易解释性;另一方面,不具备与机器学习相关的专业能力的业务人员也能够独立完成,大大降低了机器学习的门槛,并且也能够将特征工程师从对目标领域的业务的学习中解放出来,投入到更专业的生产工作当中。
在步骤S30中,基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并基于各案宗标识对应的聚合特征和相应案宗标签形成入模表。这是由于最终需要生成的洗钱案宗预测模型的预测对象是案宗,因此,需要将所有特征在案宗粒度上进行聚合。
作为示例,可基于所述案宗表构建样本表;可基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并将所述聚合特征加入所述样本表中的相应位置,得到入模表。这里,所述样本表中的每条数据记录包括:案宗标识和案宗标签。
样本表的主键为案宗标识字段,即,基于案宗标识字段的一个字段值仅能唯一确定样本表中的一条数据记录;而在案宗表中,案宗表的主键为案宗标识字段和交易标识字段这两个字段,即,在案宗表中,基于案宗标识字段的一个字段值和交易标识字段的一个字段值仅能唯一确定一条数据记录,由于一笔案宗可能包含多笔可疑交易,因此,在案宗表中,案宗标识字段的一个字段值往往会出现在多条数据记录中,例如,案宗1包括2笔可疑交易,但由于案宗标签落在案宗层面,因此,可基于案宗表中的<案宗标识=1,交易标识=t1,案宗标签=1>和<案宗标识=1,交易标识=t2,案宗标签=1>两条数据记录,生成样本表中<案宗标识=1,案宗标签=1>这一条数据记录。
作为示例,可通过对基础特征表<案宗标识,交易标识,特征1,特征2等>中的特征进行聚合来得到聚合特征表<案宗标识,聚合特征1,聚合特征2等>,然后,可根据样本表和聚合特征表的共有字段案宗标识字段进行拼接得到最后的入模表<案宗标识,案宗标签,聚合特征1,聚合特征2等>。
作为示例,可执行以下处理中的一个或多个,来得到聚合特征:分别针对所述基础特征表中的每个连续性特征,对与同一案宗标识对应的该连续性特征的特征值进行聚合运算,以得到聚合特征;分别针对所述基础特征表中的每个离散性特征,对与同一案宗标识对应的该离散性特征的不同特征值的分布情况进行统计,以得到聚合特征;基于所述基础特征表,获取同一案宗所包括的交易的时间跨度、交易频率、交易聚集度中的至少一项,作为聚合特征。
连续性特征的取值可以是具有一定连续性的数值,例如,“交易金额”是连续性特征。应该理解,针对基础特征表中的每个连续性特征,可对与同一案宗标识对应的该连续性特征的特征值分别进行不同的聚合运算,以得到不同的聚合特征。例如,所述不同的聚合运算可以是求和、求平均、取最大值、取最小值、求标准差中的至少一项。
离散性特征的取值不具有连续性,例如,离散性特征可以是无序分类特征,例如,“交易渠道”是离散性特征。应该理解,针对基础特征表中的每个离散性特征,可对与同一案宗标识对应的该离散性特征的不同特征值的各种分布情况进行统计,例如,所述各种分布情况可包括:不同特征值的出现次数和/或不同特征值的比例分布。例如,对与案宗1对应的“交易渠道”这一离散性特征的特征值的分布情况进行统计可得到聚合特征<手机银行渠道:1,ATM渠道:3,柜台渠道:2>,该聚合特征指示案宗1涉及的交易中,通过手机银行进行交易的有1笔、通过ATM进行交易的有3笔、通过柜台进行交易的有2笔。
关于获取同一案宗所包括的交易的时间跨度作为聚合特征,即获取同一案宗所包括的所有交易中的最早一笔交易的交易时间和最晚一笔交易的交易时间之间的时间差,作为聚合特征。
关于获取同一案宗所包括的交易的交易频率作为聚合特征,即获取同一案宗所包括的所有交易的数量与时间跨度之间的比值(例如,平均每天发生的交易的数量),作为聚合特征。
关于获取同一案宗所包括的交易的交易聚集度作为聚合特征,可按照交易时间对同一案宗所包括的所有交易进行排序,然后通过分位数统计,得到30%分位数处的交易的交易时间和70%分位数处的交易的交易时间,将这两个时间相减后除以时间跨度得到的值,作为聚合特征。例如,30%分位数处的交易的交易时间为2019年1月3日,70%分位数处的交易的交易时间为2019年1月7日,而时间跨度为2019年1月1日至2019年1月30日,共计30天,则交易聚集度=5天/30天=1/6。应该理解,分位数统计所使用的分位数可根据实际情况和需求进行设置,不限于30%和70%;也可分别进行不同的分位数统计,来得到多个交易聚集度作为聚合特征。
在步骤S40中,基于机器学习算法,使用所述入模表进行机器学习模型训练,生成洗钱案宗预测模型。
作为示例,所述机器学习算法可为梯度提升决策树算法。应该理解,也可使用其他适当的机器学习算法来生成洗钱案宗预测模型。
此外,应该理解,可定期执行根据本发明示例性实施例的生成洗钱案宗预测模型的方法,来更新洗钱案宗预测模型,以保证洗钱案宗预测模型的预测效果。
图2示出根据本发明示例性实施例的预测洗钱案宗的方法的流程图。
参照图2,在步骤S50中,获取待审核的案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定。
作为示例,可获取关于待审核的案宗的案宗表以及一个或多个相关联数据表;并将所述案宗表与所述一个或多个相关联数据表进行拼接,得到所述基础数据表。其中,所述案宗表中的每条数据记录至少包括:案宗标识和交易标识。
作为示例,可获取反洗钱规则引擎识别出的可疑交易信息,并根据交易主体进行合并得到关于待审核的案宗的案宗表。
应该理解,在步骤S50中获取基础数据表的方式与在步骤S10中获取基础数据表的方式类似,在此不再赘述。
在步骤S60中,对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表。
应该理解,在步骤S60中的特征提取方式与在步骤S20中的特征提取方式一致,在此不再赘述。
在步骤S70中,基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征。
应该理解,在步骤S70中对特征的聚合处理方式与在步骤S30中对特征的聚合处理方式一致,在此不再赘述。
在步骤S80中,利用通过执行如上述示例性实施例所述的生成洗钱案宗预测模型的方法而生成的洗钱案宗预测模型,基于得到的聚合特征来预测待审核的案宗的洗钱可疑程度。具体说来,将得到的聚合特征输入到所述洗钱案宗预测模型,并获取所述洗钱案宗预测模型输出的待审核的案宗的洗钱可疑程度。
在步骤S90中,向用户输出预测的待审核的案宗的洗钱可疑程度。从而,审核人员只需对洗钱可疑程度较高的案宗进行审核即可,能够大大减轻审核人员的工作量。
作为示例,还可按照预测的洗钱可疑程度从高到低的顺序,向用户输出待审核的案宗的排序结果。
作为另一示例,可仅向用户输出预测的洗钱可疑程度满足预设条件的待审核的案宗的洗钱可疑程度。例如,所述预设条件可为洗钱可疑程度高于预设阈值,或者,洗钱可疑程度在所有待审核的案宗中处于前N或前M%,其中,N为大于0的整数,M为大于0的数。
作为另一示例,可仅向用户输出预测的洗钱可疑程度满足所述预设条件的待审核的案宗的洗钱可疑程度,且按照预测的洗钱可疑程度从高到低的顺序,向用户输出排序结果。
图3示出根据本发明示例性实施例的生成洗钱案宗预测模型的***的框图。
如图3所示,根据本发明示例性实施例的生成洗钱案宗预测模型的***包括:基础数据表获取装置10、特征提取装置20、特征聚合装置30、以及模型训练装置40。
具体说来,基础数据表获取装置10适于获取案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定。
作为示例,基础数据表获取装置10可适于获取案宗表以及一个或多个相关联数据表,并将所述案宗表与所述一个或多个相关联数据表进行拼接,得到所述基础数据表,其中,所述案宗表中的每条数据记录至少包括:案宗标识、交易标识和案宗标签。
作为示例,基础数据表获取装置10可适于获取反洗钱规则引擎识别出的可疑交易信息,并根据交易主体进行合并得到所述案宗表。
作为示例,所述一个或多个相关联数据表可包括以下项中的至少一项:交易表;用户信息表;资产信息表;账户表;卡片表。
作为示例,所述交易表中的每条数据记录可包括以下项之中的至少一项:交易标识、交易时间、交易主体标识、交易对手标识、交易金额、借贷方向信息、银行卡标识、账户标识、现金交易标识、交易渠道信息、交易状态信息。
作为示例,所述用户信息表中的每条数据记录可包括以下项之中的至少一项:用户标识、用户的基本信息。
作为示例,所述卡片表中的每条数据记录可包括以下项之中的至少一项:银行卡标识、开卡行信息、开卡时间。
作为示例,所述账户表中的每条数据记录可包括以下项之中的至少一项:账户标识、开户时间、账户类型。
作为示例,所述资产信息表中的每条数据记录可包括以下项之中的至少一项:用户标识、统计时间、资产余额、日均资产余额、月均资产余额。
特征提取装置20适于对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表。
作为示例,特征提取装置20可适于将所述基础数据表中的信息直接处理为基础特征;和/或,可适于基于所述基础数据表中的信息生成衍生特征。
作为示例,所述衍生特征可包括以下项之中的至少一项:关于交易主体的衍生特征、关于交易金额的衍生特征、关于交易时间的衍生特征、时序特征、交易图特征。
作为示例,所述关于交易主体的衍生特征可包括以下项之中的至少一项:用于指示交易主体的年龄的特征、用于指示交易主体是否为公职人员的特征、用于指示交易主体是否待业的特征。
作为示例,所述关于交易金额的衍生特征可包括以下项之中的至少一项:用于指示交易资金流入流出净金额的特征、用于指示交易是否清空了余额的特征、用于指示交易金额是否为敏感金额的特征。
作为示例,所述关于交易时间的衍生特征可包括以下项之中的至少一项:用于指示交易时间距开户和/或开卡时间的时间差的特征、用于指示交易时间是否处于工作日的特征、用于指示交易时间所处的时间段的特征。
作为示例,所述时序特征可包括:对在交易的交易时间之前的时间段内的所述交易的交易主体的交易行为信息进行统计所得到的时序特征,其中,所述交易行为信息包括以下项之中的至少一项:交易笔数、交易金额、交易净金额、特定类型的交易的交易笔数、特定类型的交易的交易金额、特定类型的交易的交易净金额。
作为示例,所述交易图特征可包括:用于指示交易主体的资金流入次数的交易主体的入度和/或用于指示交易主体的资金流出次数的交易主体的出度。
特征聚合装置30适于基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并基于各案宗标识对应的聚合特征和相应案宗标签形成入模表,其中,案宗标签指示相应案宗是否为洗钱案宗。
作为示例,特征聚合装置30可适于基于所述案宗表构建样本表,并基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征后,将所述聚合特征加入所述样本表中的相应位置,得到入模表,其中,所述样本表中的每条数据记录包括:案宗标识和案宗标签。
作为示例,特征聚合装置30可适于执行如下处理中的一个或多个:分别针对所述基础特征表中的每个连续性特征,对与同一案宗标识对应的该连续性特征的特征值进行聚合运算,以得到聚合特征;分别针对所述基础特征表中的每个离散性特征,对与同一案宗标识对应的该离散性特征的不同特征值的分布情况进行统计,以得到聚合特征;基于所述基础特征表,获取同一案宗所包括的交易的时间跨度、交易频率、交易聚集度中的至少一项,作为聚合特征。
模型训练装置40适于基于机器学习算法,使用所述入模表进行机器学习模型训练,生成洗钱案宗预测模型。
作为示例,所述机器学习算法可为梯度提升决策树算法。
应该理解,根据本发明示例性实施例的生成洗钱案宗预测模型的***的具体实现方式可参照结合图1描述的相关具体实现方式来实现,在此不再赘述。
图4示出根据本发明示例性实施例的预测洗钱案宗的***的框图。
如图4所示,根据本发明示例性实施例的预测洗钱案宗的***包括:基础数据表获取装置50、特征提取装置60、特征聚合装置70、预测装置80、以及输出装置90。
具体说来,基础数据表获取装置50适于获取待审核的案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定。
应该理解,基础数据表获取装置50和基础数据表获取装置10可为同一装置或不同装置。
特征提取装置60适于对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表。
应该理解,特征提取装置60和特征提取装置20可为同一装置或不同装置。
特征聚合装置70适于基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征。
应该理解,特征聚合装置70和特征聚合装置30可为同一装置或不同装置。
预测装置80适于利用如上述示例性实施例所述的生成洗钱案宗预测模型的***所生成的洗钱案宗预测模型,基于得到的聚合特征来预测待审核的案宗的洗钱可疑程度。
输出装置90适于向用户输出预测的待审核的案宗的洗钱可疑程度。
作为示例,输出装置90还可适于按照预测的洗钱可疑程度从高到低的顺序,向用户输出待审核的案宗的排序结果。
作为示例,输出装置90还可适于仅向用户输出预测的洗钱可疑程度满足预设条件的待审核的案宗的洗钱可疑程度。
应该理解,根据本发明示例性实施例的预测洗钱案宗的***的具体实现方式可参照结合图2描述的相关具体实现方式来实现,在此不再赘述。
根据本发明示例性实施例的生成洗钱案宗预测模型的***所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
根据本发明示例性实施例的预测洗钱案宗的***所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本发明示例性实施例的生成洗钱案宗预测模型的方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种生成洗钱案宗预测模型的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:获取案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并基于各案宗标识对应的聚合特征和相应案宗标签形成入模表,其中,案宗标签指示相应案宗是否为洗钱案宗;基于机器学习算法,使用所述入模表进行机器学习模型训练,生成洗钱案宗预测模型。
应理解,根据本发明示例性实施例的预测洗钱案宗的方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种预测洗钱案宗的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:获取待审核的案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征;利用通过执行如上述示例性实施例所述的方法而生成的洗钱案宗预测模型,基于得到的聚合特征来预测待审核的案宗的洗钱可疑程度;向用户输出预测的待审核的案宗的洗钱可疑程度。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1和图2进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的生成洗钱案宗预测模型的***可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个***通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的生成洗钱案宗预测模型的***所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
应注意,根据本发明示例性实施例的预测洗钱案宗的***可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个***通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的预测洗钱案宗的***所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行生成洗钱案宗预测模型的方法和/或预测洗钱案宗的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制***或***管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的生成洗钱案宗预测模型的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
根据本发明示例性实施例的预测洗钱案宗的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的生成洗钱案宗预测模型的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的生成洗钱案宗预测模型的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:获取案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并基于各案宗标识对应的聚合特征和相应案宗标签形成入模表,其中,案宗标签指示相应案宗是否为洗钱案宗;基于机器学习算法,使用所述入模表进行机器学习模型训练,生成洗钱案宗预测模型。
根据本发明示例性实施例的预测洗钱案宗的的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的预测洗钱案宗的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:获取待审核的案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征;利用通过执行如上述示例性实施例所述的方法而生成的洗钱案宗预测模型,基于得到的聚合特征来预测待审核的案宗的洗钱可疑程度;向用户输出预测的待审核的案宗的洗钱可疑程度。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种生成洗钱案宗预测模型的方法,其中,所述方法包括:
获取案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;
对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;
基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并基于各案宗标识对应的聚合特征和相应案宗标签形成入模表,其中,案宗标签指示相应案宗是否为洗钱案宗;
基于机器学习算法,使用所述入模表进行机器学习模型训练,生成洗钱案宗预测模型。
2.如权利要求1所述的方法,其中,获取案宗的基础数据表的步骤包括:
获取案宗表以及一个或多个相关联数据表,其中,所述案宗表中的每条数据记录至少包括:案宗标识、交易标识和案宗标签;
将所述案宗表与所述一个或多个相关联数据表进行拼接,得到所述基础数据表。
3.如权利要求2所述的方法,其中,获取案宗表的步骤包括:
获取反洗钱规则引擎识别出的可疑交易信息,并根据交易主体进行合并得到所述案宗表。
4.如权利要求2所述的方法,其中,所述一个或多个相关联数据表包括以下项中的至少一项:
交易表;
用户信息表;
资产信息表;
账户表;
卡片表。
5.如权利要求1所述的方法,其中,对所述基础数据表中的数据记录进行特征提取的步骤包括:
将所述基础数据表中的信息直接处理为基础特征;
和/或,基于所述基础数据表中的信息生成衍生特征,
其中,所述衍生特征包括以下项之中的至少一项:关于交易主体的衍生特征、关于交易金额的衍生特征、关于交易时间的衍生特征、时序特征、交易图特征。
6.一种预测洗钱案宗的方法,其中,所述方法包括:
获取待审核的案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;
对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;
基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征;
利用通过执行如权利要求1至5之中任一权利要求所述的方法而生成的洗钱案宗预测模型,基于得到的聚合特征来预测待审核的案宗的洗钱可疑程度;
向用户输出预测的待审核的案宗的洗钱可疑程度。
7.一种生成洗钱案宗预测模型的***,其中,所述***包括:
基础数据表获取装置,适于获取案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;
特征提取装置,适于对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;
特征聚合装置,适于基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征,并基于各案宗标识对应的聚合特征和相应案宗标签形成入模表,其中,案宗标签指示相应案宗是否为洗钱案宗;
模型训练装置,适于基于机器学习算法,使用所述入模表进行机器学习模型训练,生成洗钱案宗预测模型。
8.一种预测洗钱案宗的***,其中,所述***包括:
基础数据表获取装置,适于获取待审核的案宗的基础数据表,其中,所述基础数据表中的每条数据记录由案宗标识和交易标识联合唯一确定;
特征提取装置,适于对所述基础数据表中的数据记录进行特征提取,并基于提取的特征生成基础特征表;
特征聚合装置,适于基于案宗标识以案宗为单位对所述基础特征表中的特征进行聚合处理得到聚合特征;
预测装置,适于利用如权利要求7所述的***所生成的洗钱案宗预测模型,基于得到的聚合特征来预测待审核的案宗的洗钱可疑程度;
输出装置,适于向用户输出预测的待审核的案宗的洗钱可疑程度。
9.一种包括至少一个计算装置和至少一个存储指令的存储装置的***,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的生成洗钱案宗预测模型的方法和/或如权利要求6所述的预测洗钱案宗的方法。
10.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的生成洗钱案宗预测模型的方法和/或如权利要求6所述的预测洗钱案宗的方法。
CN201910575616.4A 2019-06-28 2019-06-28 生成洗钱案宗预测模型、预测洗钱案宗的方法及*** Pending CN110276618A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910575616.4A CN110276618A (zh) 2019-06-28 2019-06-28 生成洗钱案宗预测模型、预测洗钱案宗的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910575616.4A CN110276618A (zh) 2019-06-28 2019-06-28 生成洗钱案宗预测模型、预测洗钱案宗的方法及***

Publications (1)

Publication Number Publication Date
CN110276618A true CN110276618A (zh) 2019-09-24

Family

ID=67963737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910575616.4A Pending CN110276618A (zh) 2019-06-28 2019-06-28 生成洗钱案宗预测模型、预测洗钱案宗的方法及***

Country Status (1)

Country Link
CN (1) CN110276618A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852884A (zh) * 2019-11-15 2020-02-28 成都数联铭品科技有限公司 用于反洗钱识别的数据处理***及方法
CN111611240A (zh) * 2020-04-17 2020-09-01 第四范式(北京)技术有限公司 执行自动机器学习过程的方法、装置及设备
CN111709844A (zh) * 2020-05-13 2020-09-25 北京明略软件***有限公司 一种保险洗钱人员检测方法、装置和计算机可读存储介质
CN111737287A (zh) * 2020-05-29 2020-10-02 深圳追一科技有限公司 可疑案例的确定方法、装置、计算机设备和存储介质
CN112101950A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 可疑交易监测模型特征提取方法及装置
CN112131258A (zh) * 2020-09-23 2020-12-25 创新奇智(重庆)科技有限公司 数据拼接方法、装置、设备及计算机存储介质
CN113191072A (zh) * 2021-03-30 2021-07-30 中国建设银行股份有限公司 基于纵向联邦逻辑回归的可疑交易监测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960833A (zh) * 2018-08-10 2018-12-07 哈尔滨工业大学(威海) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
CN109767327A (zh) * 2018-12-20 2019-05-17 平安科技(深圳)有限公司 基于反洗钱的客户信息采集及其使用方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960833A (zh) * 2018-08-10 2018-12-07 哈尔滨工业大学(威海) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
CN109767327A (zh) * 2018-12-20 2019-05-17 平安科技(深圳)有限公司 基于反洗钱的客户信息采集及其使用方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852884A (zh) * 2019-11-15 2020-02-28 成都数联铭品科技有限公司 用于反洗钱识别的数据处理***及方法
CN111611240A (zh) * 2020-04-17 2020-09-01 第四范式(北京)技术有限公司 执行自动机器学习过程的方法、装置及设备
CN111709844A (zh) * 2020-05-13 2020-09-25 北京明略软件***有限公司 一种保险洗钱人员检测方法、装置和计算机可读存储介质
CN111737287A (zh) * 2020-05-29 2020-10-02 深圳追一科技有限公司 可疑案例的确定方法、装置、计算机设备和存储介质
CN112131258A (zh) * 2020-09-23 2020-12-25 创新奇智(重庆)科技有限公司 数据拼接方法、装置、设备及计算机存储介质
CN112101950A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 可疑交易监测模型特征提取方法及装置
CN112101950B (zh) * 2020-09-27 2024-05-10 中国建设银行股份有限公司 可疑交易监测模型特征提取方法及装置
CN113191072A (zh) * 2021-03-30 2021-07-30 中国建设银行股份有限公司 基于纵向联邦逻辑回归的可疑交易监测方法及装置

Similar Documents

Publication Publication Date Title
CN110276618A (zh) 生成洗钱案宗预测模型、预测洗钱案宗的方法及***
WO2020143344A1 (zh) 基于区块链架构的仓单质押融资方法及装置
Wang et al. Mining the R&D innovation performance processes for high-tech firms based on rough set theory
TW201946013A (zh) 基於lstm模型的信用風險預測方法及裝置
US20130124393A1 (en) Connecting decisions through customer transaction profiles
CN110163740A (zh) 一种信用融资方法及装置
CN106875110A (zh) 业务指标分层计算方法及装置、分布式计算方法及***
CN110852878B (zh) 一种可信度确定方法、装置、设备和存储介质
CN109190930A (zh) 一种指标生成方法及装置
McLaughlin et al. A large scale study of the ethereum arbitrage ecosystem
US20230342699A1 (en) Systems and methods for modeling and analysis of infrastructure services provided by cloud services provider systems
CN109840676A (zh) 基于大数据的风控方法、装置、计算机设备及存储介质
CN112581270A (zh) 风险账户的识别方法、装置、电子设备和存储介质
CN113034046A (zh) 一种数据风险计量方法、装置、电子设备及存储介质
WO2023114637A1 (en) Computer-implemented system and method of facilitating artificial intelligence based lending strategies and business revenue management
US11900448B2 (en) Liquidity engine
CN113837648B (zh) 企业关联性分析方法、关联企业推荐方法和装置
KR101334891B1 (ko) SaaS 환경에서의 재무위험관리 서비스를 제공하기 위한 시스템
Krumrey et al. A cash-flow-based optimization model for corporate cash management: a Monte-Carlo simulation approach
CN107172311A (zh) 业务评估方法及终端设备
CN106570576A (zh) 数据预测方法及预测装置
Kumar Validation of data warehouse requirements-model traceability metrics using a formal framework
CN109472704A (zh) 基于神经网络的基金产品的筛选方法、终端设备及介质
CN109948927A (zh) 一种用于分布式账本的性能分析方法
Asthana et al. System and Method on Order Management Using Neural Networks and Risk Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination