CN115601042A - 信息识别方法、装置、电子设备及存储介质 - Google Patents

信息识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115601042A
CN115601042A CN202211317594.XA CN202211317594A CN115601042A CN 115601042 A CN115601042 A CN 115601042A CN 202211317594 A CN202211317594 A CN 202211317594A CN 115601042 A CN115601042 A CN 115601042A
Authority
CN
China
Prior art keywords
information
identified
model
fraud
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211317594.XA
Other languages
English (en)
Inventor
尤丽
王加正
胡宝龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211317594.XA priority Critical patent/CN115601042A/zh
Publication of CN115601042A publication Critical patent/CN115601042A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种信息识别方法、装置、电子设备及存储介质。获取待识别信息,确定与所述待识别信息对应的待识别特征;将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果,其中,所述目标反欺诈模型基于样本信息以及与所述样本信息对应的期望识别结果训练得到,所述目标反欺诈模型的训练过程包括执行模型压缩处理的操作;基于所述信息识别结果确定所述待识别信息是否为欺诈信息。提高了确定所述待识别信息的信息识别结果的精准性。

Description

信息识别方法、装置、电子设备及存储介质
技术领域
本发明涉及反欺诈技术领域,尤其涉及一种信息识别方法、装置、电子设备及存储介质。
背景技术
近年来,随着金融科技的快速发展,产业变革持续加速。然而,在金融业务快速发展的同时,其风险也在不断扩张。各互联网金融机构,都面临愈发严峻的欺诈挑战。在此背景下,反欺诈成为了金融***中必不可少的一环。
当前,机器学习在反欺诈场景中被广泛应用,通过神经网络算法对申请数据进行相似度计算,以确定申请数据的欺诈风险。但目前神经网络算法往往忽略了申请数据中变量间的关联性,导致对申请数据欺诈风险的识别结果的精准性较低。
发明内容
本发明提供了一种信息识别方法、装置、电子设备及存储介质,以解决申请数据欺诈风险的识别结果的精准性较低的技术问题。
根据本发明的一方面,提供了一种信息识别方法,其中,该方法包括:
获取待识别信息,确定与所述待识别信息对应的待识别特征;
将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果,其中,所述目标反欺诈模型基于样本信息以及与所述样本信息对应的期望识别结果训练得到,所述目标反欺诈模型的训练过程包括执行模型压缩处理的操作;
基于所述信息识别结果确定所述待识别信息是否为欺诈信息。
根据本发明的另一方面,提供了一种信息识别装置,其中,该装置包括:
特征提取模块,用于获取待识别信息,确定与所述待识别信息对应的待识别特征;
模型处理模块,用于将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果,其中,所述目标反欺诈模型基于样本信息以及与所述样本信息对应的期望识别结果训练得到,所述目标反欺诈模型的训练过程包括执行模型压缩处理的操作;
信息识别模块,用于基于所述信息识别结果确定所述待识别信息是否为欺诈信息。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的信息识别方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的信息识别方法。
本发明实施例的技术方案,通过获取待识别信息,确定与所述待识别信息对应的待识别特征,关联待识别信息中的预设特征,增加待识别信息的风险识别依据;将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果,其中,所述目标反欺诈模型由初始反欺诈模型经过模型压缩处理得到,所述初始反欺诈模型基于样本信息以及与所述样本信息对应的期望识别结果训练得到的,减少服务器计算资源的消耗,提高了模型计算速度;基于所述信息识别结果确定所述待识别信息是否为欺诈信息,提高了所述信息识别结果的精准性。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种信息识别方法的流程图;
图2是根据本发明实施例二提供的一种信息识别方法的流程图;
图3是根据本发明实施例三提供的一种信息识别方法的流程图;
图4是根据本发明实施例提供的一种信息识别方法的整体流程图;
图5是根据本发明实施例四提供的一种信息识别装置的结构示意图;
图6是实现本发明实施例的信息识别方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。例如,用户基本信息可包括用户设置为公开的信息。
实施例一
图1为本发明实施例一提供了一种信息识别方法的流程图,本实施例可适用于互联网金融机构反欺诈的情况,该方法可以由信息识别装置来执行,该信息识别装置可以采用硬件和/或软件的形式实现,该信息识别装置可配置于计算机中。如图1所示,该方法包括:
S110、获取待识别信息,确定与所述待识别信息对应的待识别特征。
其中,所述待识别信息可以理解为待识别的是否存在欺诈风险的信息。可选的,所述待识别信息可以是可能存在欺诈风险的网络信息。示例性的,所述待识别信息可以是网络平台的平台申请信息。可选地,获取待识别信息,包括:接收针对目标平台的平台申请信息,将所述平台申请信息作为待识别信息。
其中,待识别特征可以理解为针对所述待识别信息进行分析,所构建的特征。可选的,待识别特征可以是与所述待识别信息相关联的参数特征。示例性地,所述待识别信息可以包括多种类型的子信息,所述待识别特征可以是基于各种类型的子信息对应的特征值构建的特征向量。
可选地,确定与所述待识别信息对应的待识别特征,包括:基于预先设置的与待识别特征对应的特征提取算法对所述待识别信息进行特征提取,得到与所述待识别信息对应的待识别特征;和/或,基于预先训练完成的特征提取模型对所述待识别信息进行特征提取,得到与所述待识别信息对应的待识别特征。其中,所述特征提取模型基于样本识别信息以及与所述样本识别信息对应的期望识别特征对预先建立的神经网络模型进行训练得到。
其中,神经网络模型可以理解为相似于人体大脑神经元组成的网络。可选的,神经网络算法可以是个体单元互相连接而成的,每个单元有数值量的输入和输出的,形式可以为实数或线性的组合函数。需要理解的是,神经网络模型需要以一种学习准则进行学习,以进行工作。通过神经网络模型可以减少判断错误的可能性。神经网络模型有较强的泛化能力和非线性映射能力,可以对信息量少的***进行模型处理,且神经网络模型具有并行性,可以较快的传递信息。
S120、将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果。
其中,所述目标反欺诈模型基于样本信息以及与所述样本信息对应的期望识别结果训练得到,所述目标反欺诈模型的训练过程包括执行模型压缩处理的操作。
其中,所述目标反欺诈模型可以理解为用于识别所述待识别信息是否为欺诈信息的模型。
其中,所述模型压缩处理可以包括剪枝处理和/或量化处理。
其中,所述信息识别结果可以理解为针对输入的所述待识别特征,通过所述目标反欺诈模型所确定的所述待识别信息对应的识别结果。可选的,所述信息识别结果可以是用于确定所述待识别信息是否为欺诈信息的结果。示例性的,所述信息识别结果可以是所述待识别信息对应的欺诈评分。
其中,所述样本信息可以理解为用于训练所述初始反欺诈模型的样本信息。可选的,所述样本信息可以是与所述待识别信息相同类型的历史信息。示例性的,所述样本信息可以是历史申请信息。所述期望识别结果可以理解为针对所述样本信息,期望所述初始反欺诈模型所确定的识别结果。可选的,所述期望识别结果可以是所述样本信息的真实识别结果。示例性的,所述期望识别结果可以是欺诈信息或者非欺诈信息。
具体的,基于样本信息以及与所述样本信息对应的期望识别结果,对预先建立的全连接模型进行训练,得到调优后的全连接模型;进一步的,对所述调优后的全连接模型进行剪枝,得到压缩处理后的全连接模型;再进一步的,基于训练集继续对全连接模型进行训练;并在训练过程中对全连接模型进行量化处理,以得到所述目标反欺诈模型。在本发明实施例中,在所述全连接模型进行训练的过程中,对所述全连接模型交替进行剪枝量化,直至一次剪枝或量化对信息识别结果产生较大影响的时候,停止模型训练,得到所述目标反欺诈模型。
S130、基于所述信息识别结果确定所述待识别信息是否为欺诈信息。
其中,所述信息识别结果可以是所述待识别信息的信息评分。所述欺诈信息可以理解为存在欺诈风险的所述待识别信息。
具体的,可以预设欺诈评分阈值,将所述信息识别结果大于或等于所述欺诈评分阈值所对应的所述待识别信息,确定为欺诈信息;将所述信息识别结果小于所述预设欺诈评分阈值所对应的所述待识别信息,确定为非欺诈信息。其中,所述欺诈评分阈值可以根据场景需求预设,在此不做具体限定。可选的,所述欺诈评分阈值可以预设为50、60或70等。
本发明实施例的技术方案,通过获取待识别信息,确定与所述待识别信息对应的待识别特征,关联待识别信息中的预设特征,增加待识别信息的风险识别依据;将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果,其中,所述目标反欺诈模型由初始反欺诈模型经过模型压缩处理得到,所述初始反欺诈模型基于样本信息以及与所述样本信息对应的期望识别结果训练得到的,减少服务器计算资源的消耗,提高了模型计算速度;基于所述信息识别结果确定所述待识别信息是否为欺诈信息,提高了所述信息识别结果的精准性。
实施例二
图2为本发明实施例二提供的一种信息识别方法的流程图,本实施例是针对上述实施例中所述确定与所述待识别信息对应的待识别特征进行细化。如图2所示,该方法包括:
S210、获取待识别信息。
S220、确定与所述待识别信息对应的多个预设特征。
其中,所述预设特征可以理解为所述待识别信息中,可能存在欺诈行为的特征。可选的,所述预设特征可以是第一预设特征、第二预设特征以及第三预设特征等。在本发明实施例中,所述预设特征可以根据场景需求预设,在此不做具体限定。预设特征可以是预先设定的所述待识别信息不同维度的信息特征等。例如可以是所述待识别信息中的各个子信息的信息类型。
S230、针对每个预设特征,基于所述预设特征确定与所述待识别信息对应的关联信息的信息数量,基于所述信息数量得到与所述预设特征对应的特征参数。
其中,所述关联信息可以理解为与所述待识别信息存在关联的信息。可选的,所述关联信息可以是所述待识别信息的比对信息。示例性的,所述关联信息可以是与所述待识别信息之间存在相同所述预设特征的不同信息。具体可以是,在第一申请信息中存在与所述待识别信息相同的第一预设特征,和与所述待识别信息不相同的第二预设特征,则所述第一申请信息可以作为所述待识别信息的所述关联信息。
其中,所述信息数量可以理解为与所述待识别信息对应的关联信息的数量。可以理解的是,在历史申请信息中,可能存在与所述待识别信息对应的关联信息,或者不存在与所述待识别信息对应的关联信息。因此,所述信息数量可以是零,或其他非零数值。
其中,所述特征参数可以理解为基于所述信息数量得到与所述预设特征对应的参数。可选的,所述特征参数可以是基于所述信息数量得到与所述预设特征对应的数值。在本发明实施例中,基于所述信息数量得到与所述预设特征对应的特征参数的方式,可以根据场景需求预设,在此不做具体限定。
可选的,所述基于所述信息数量得到与所述预设特征对应的特征参数,包括:将所述信息数量作为与所述预设特征对应的特征参数;或者,在所述信息数量为零时,采用第一数值作为所述与所述预设特征对应的特征参数,在所述信息数量大于零时,采用第二数值作为所述与所述预设特征对应的特征参数。
示例性的,在所述待识别信息对应的关联信息的数量为0时,则确定与所述预设特征对应的特征参数为0;在所述待识别信息对应的关联信息的数量为1时,则确定与所述预设特征对应的特征参数为1;在所述待识别信息对应的关联信息的数量为5时,则确定与所述预设特征对应的特征参数为5。
或者,在所述待识别信息对应的关联信息的数量为0时,则确定与所述预设特征对应的特征参数为第一数值;在所述待识别信息对应的关联信息的数量为1、2或5时,则确定与所述预设特征对应的特征参数为第二数值。在本发明实施例中,所述第一数值和所述第二数值可以根据场景需求预设,在此不做具体限定。可选的,所述第一数值可以是0、3或4等;所述第二数值可以是1、3或5等。可以理解的是,所述第一数值和所述第二数值可以不同。
S240、基于多个预设特征对所述待识别信息进行分析,分别得到与每个所述预设特征对应的特征参数。
具体的,分别对所述待识别信息中的每个所述预设特征进行分析,确定每个所述预设特征对应的特征参数。可以理解的是,在所述待识别信息中,每个所述预设特征对应的特征参数可以相同,也可以不同。
S250、基于每个所述预设特征对应的所述特征参数构建与所述待识别信息对应的待识别特征。
其中,所述待识别特征可以理解为基于所述待识别信息中,每个所述预设特征对应的所述特征参数构建的特征。可选的,所述待识别特征可以是基于每个所述预设特征对应的所述特征参数构建的向量。
可选的,所述基于每个所述预设特征对应的所述特征参数构建与所述待识别信息对应的待识别特征,包括:对每个所述预设特征对应的所述特征参数进行归一化处理,以归一化后的特征参数作为待识别特征的向量元素,构建与所述待识别信息对应的待识别特征,其中,所述待识别特征各个向量元素按照预设顺序进行排布。
其中,所述向量元素可以理解为对所述特征参数进行归一化后所得到的元素。具体的,可以将所述特征参数映射到[0,1]范围之内,将映射后得到的特征参数作为待识别特征的向量元素。
所述预设顺序可以理解为对所述待识别特征各个向量元素的排布顺序。在本发明实施例中,所述预设顺序可以根据场景需求预设,在此不做具体限定。可选的,具体的,可以是对所述预设特征的排布顺序进行预设,进一步的,将所述待识别特征各个向量元素基于所对应的所述预设特征的排布顺序进行排布,构建与所述待识别信息对应的待识别特征。
S260、将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果。
S270、基于所述信息识别结果确定所述待识别信息是否为欺诈信息。
本发明实施例的技术方案,通过确定与所述待识别信息对应的多个预设特征;针对每个预设特征,基于所述预设特征确定与所述待识别信息对应的关联信息的信息数量,基于所述信息数量得到与所述预设特征对应的特征参数;基于多个预设特征对所述待识别信息进行分析,分别得到与每个所述预设特征对应的特征参数;基于每个所述预设特征对应的所述特征参数构建与所述待识别信息对应的待识别特征。通过对所述待识别信息对应的待识别特征的构建,建立了所述待识别信息对应的多个预设特征之间的联系,提高了所述待识别信息对应的信息识别结果的精准性。
实施例三
图3为本发明实施例三提供的一种信息识别方法的流程图,本实施例是针对上述实施例中所述将所述待识别特征输入至预先训练完成的目标反欺诈模型中进行追加。如图3所示,该方法包括:
S310、获取待识别信息,确定与所述待识别信息对应的待识别特征。
S320、基于样本信息以及与所述样本信息对应的期望识别结果对预先建立的全连接模型训练得到初始反欺诈模型。
其中,所述全连接模型可以理解为一种多层感知机,即可以寻找类别间最合理、最具有鲁棒性的超平面。可选的,所述全连接模型可以是支持向量机(support vectormachines,SVM)算法。在本发明实施例中,具体的,可以基于样本信息以及与所述样本信息对应的期望识别结果对预先建立的全连接模型进行训练,得到的初始反欺诈模型。
S330、对所述初始反欺诈模型进行模型压缩处理,以得到目标反欺诈模。
其中,所述模型压缩处理至少包括剪枝处理和/或量化处理。
需要理解的是,在本发明实施例中,所述初始反欺诈模型中可能存在多个权重趋近于零,对模型的信息识别结果影响不大,但在计算过程中可能会消耗大量的计算资源,使模型的计算速度较慢。因此,可以对所述初始反欺诈模型进行剪枝处理,以剪除权重趋于零的神经元,提高模型的计算速度。
可选的,所述对所述初始反欺诈模型进行剪枝处理,包括:获取所述初始反欺诈模型对应的多个权重,基于权重的幅值确定待剪枝的权重,将待剪枝的权重设置为零。
具体的,可以获取所述初始反欺诈模型对应的多个权重,将所述多个权重从小到大进行排列,将小于预设阈值的权重,作为待剪枝的权重,将待剪枝的权重设置为零。其中,所述预设阈值可以根据场景需求预设,在此不做具体限定。可选的,所述预设阈值可以是剪枝率。可选的,所述预设阈值可以为70%。
进一步的,可以对剪枝处理后的所述初始反欺诈模型的权重,进行稀疏化和/或离散化处理,即量化处理。以使模型的计算资源和存储资源得到指数级提升。
可选的,所述对所述初始反欺诈模型进行量化处理,包括:将所述初始反欺诈模型对应的权重由浮点型实数转化为整型数。
其中,所述浮点型实数可以理解为存在小数部分的实数。所述整型数可以理解为不存在小数部分的实数,可选的,所述整型数可以是8位的定点整数,即INT8位权重。可以理解的是,将所述初始反欺诈模型对应的权重由浮点型实数转化为整型数,可以降低权重的精度,减少对计算资源的消耗。
具体的,交替反复进行剪枝处理和量化处理,直至一次剪枝或减少权重位数对信息识别结果产生巨大差异的时候,停止模型压缩处理;进一步的,可以将剪枝处理和/或量化处理后的所述初始反欺诈模型,作为所述目标反欺诈模。
S340、将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果。
S350、基于所述信息识别结果确定所述待识别信息是否为欺诈信息。
本发明实施例的技术方案,通过基于样本信息以及与所述样本信息对应的期望识别结果对预先建立的全连接模型训练得到初始反欺诈模型;对所述初始反欺诈模型进行模型压缩处理,以得到目标反欺诈模型,其中,所述模型压缩处理至少包括剪枝处理和/或量化处理。通过对初始反欺诈模型剪枝处理,可以剪除初始反欺诈模型中权重趋于零的神经元,提高了模型的计算速度,通过对初始反欺诈模型量化处理,可以将初始反欺诈模型的权重的进一步稀疏化、离散化,提升了模型的计算资源和存储资源。得到了计算速度较快,计算资源和存储资源较优的目标反欺诈模型。
图4是根据本发明实施例提供的一种信息识别方法的整体流程图;如图4所示,信息识别方法的整体流程可以包括:确定申请信息的待识别特征;基于样本信息训练全连接模型,得到初始反欺诈模型;对初始反欺诈模型进行剪枝量化处理,得到目标反欺诈模型;通过测试信息测试目标反欺诈模型所确定的信息识别结果是否准确。
目前,针对反欺诈应用场景,各互联网平台拥有各自的反欺诈策略,以权限申请信息为数据源,确定申请信息是否存在欺诈风险。其中,机器学***台,提供机器学***台的数据做统一加工并返给数据平台欺诈评分;进一步的,在欺诈评分的基础上,针对应用场景对申请信息进行相似度计算,以确定申请信息是否存在欺诈风险。
然而,在前中后台分离的架构下,数据平台无法获取全量申请信息,通常情况下,会通过T+1模式将申请信息推送到数据平台,因此,数据平台的数据源存在滞后性,需要考虑当天申请信息的欺诈风险,但是无法提供巨大算力,只能提取部分存在反欺诈可能的预设特征进行相似度计算,设定一个阈值,超过阈值即为存在欺诈风险,在此情况下常常忽略了预设特征的关联性,实际欺诈场景中,预设特征之间具有较大的关联性。
具体的,信息识别方法的整体流程可以是:
1、确定申请信息的待识别特征。获取大数据平台的申请信息,将申请信息的数据与大数据平台的全量信息进行比较,提取申请信息中预设特征对应的关联信息的数量,构建待识别特征,作为网络模型输入;以该申请信息的欺诈评分作为网络模型输出。
示例性地,申请信息中的预设特征可以包括但不限于:相同单位电话不同单位名称、相同单位电话不同单位地址、相同手机号码、相同单位全称不同单位电话、相同单位名称不同单位地址、相同单位地址不同单位电话、相同单位地址不同单位全称、相同家庭地址、相同联系人证件号不同联系人姓名、相同联系人证件号不同联系人手机号、相同联系人手机号不同联系人姓名、相同联系人手机号不同联系人证件号、相同营销人姓名、相同电子邮箱不同手机号以及相同推介人等个人或单位等申请单笔数等特征。
然后,对数据进行预处理:考虑到申请信息的数量有限,大多数的申请信息可能在上述处理后,对应15个特征的结果偏小,而少部分申请单对应的特征结果偏大。因此,为了避免样本严重不平衡而影响模型训练和预测效果,可以选定一个阈值,对两类数据进行抽样;并将15个预设特征的特征值进行归一化,以减少因奇异数据对模型训练和结果评价造成的影响。将预处理后的数据按一定比例分为训练集和测试集。
2、基于样本信息训练全连接模型,得到初始反欺诈模型。基于样本信息以及与所述样本信息对应的期望识别结果训练得到初始反欺诈模型。将训练集用于全连接神经网络模型的训练:本发明实施例中的全连接申请网络模型架构为15*5,可以根据不同业务场景需要的输入个数以及模型精度,对每一层的神经元个数以及网络深度进行调整。
3、在神经网络模型中,存在部分权重值趋近于零,对模型预测结果的影响较小,但在计算过程中消耗大量计算资源。因此,在本发明实施例中,针对神经网络模型进行剪枝处理,对净输出进行正则化,对净输出进行归一化约束,把不必要权重剪枝,可以加大需要的权重,能力转移。剪除权重趋于零的神经元,加快模型计算速度。具体地,对初始反欺诈模型进行剪枝量化处理,得到目标反欺诈模型。对初始反欺诈模型进行量化剪枝,交替进行量化剪枝:先将模型进行剪枝,在本发明实施例中,可以采用基于幅值的剪枝,即取出训练后初始反欺诈模型的权重,进一步的,将权重中从小到大排列的前70%的权重设置为0,再对模型进行训练;再进一步的,将剪枝并训练后的模型权重值,可以是32位的浮点实数,即FP32,归一化为低精度权重值可以是INT8;交替反复进行剪枝量化,直到一次剪枝或减少权重位数对查全率和查准率产生巨大差异的时候停止量化剪枝;在本发明实施例中,剪枝,量化单元中的神经元个数可能不固定,因此,激活函数(Rectified Linear Unit,Relu)可以为量化激活函数,即QuantizedRelu。
4、通过测试信息测试目标反欺诈模型所确定的信息识别结果是否准确。梳理网络模型通路,将测试信息输入目标反欺诈模型,分层计算网络模型输出作为下一层输入,直至最后计算得到欺诈评分。在目标反欺诈模型输出的欺诈评分的正确率达到期望值时,则可以确定为目标反欺诈模型训练完成,进而可以将目标反欺诈模型部署到应用端。
本发明实施例的技术方案,具有以下有益效果:
1)通过历史申请信息为数据源训练神经网络模型,识别出可能存在欺诈行为的申请信息。结合剪枝量化方法将通过神经网络模型得到的非线性权重训练为低精度量化网络模型。减少了对服务器计算资源的消耗,使得机器学习在对申请信息的快速识别场景可以全面的应用。
2)通过对预设特征的叠加计算,增加了预设特征的关联,解决了相关反欺诈模型中,对预设特征设置阈值非零即一的问题,充分考虑了预设特征之间的关联性,弥补了欺诈信息滞后性的缺点;
3)通过对神经网络模型的剪枝量化,减少了计算性能的消耗,解决了大数据平台的数据滞后性及算力瓶颈的问题,提高了所述目标反欺诈模型对所述待识别信息的识别速度。通过对初始反欺诈模型的通路分析,基于代码实现权重的非线性叠加,解决了服务器端对云计算平台的依赖的问题,使通过目标反欺诈模型确定的所述待识别信息对应的所述信息识别结果更加精准。
实施例四
图5为本发明实施例四提供的一种信息识别装置的结构示意图。如图5所示,该装置包括:特征提取模块410、模型处理模块420以及信息识别模块430。
其中,特征提取模块410,用于获取待识别信息,确定与所述待识别信息对应的待识别特征;模型处理模块420,用于将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果,其中,所述目标反欺诈模型基于样本信息以及与所述样本信息对应的期望识别结果训练得到,所述目标反欺诈模型的训练过程包括执行模型压缩处理的操作;信息识别模块430,用于基于所述信息识别结果确定所述待识别信息是否为欺诈信息。
本发明实施例的技术方案,通过获取待识别信息,确定与所述待识别信息对应的待识别特征,关联待识别信息中的预设特征,增加待识别信息的风险识别依据;将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果,其中,所述目标反欺诈模型由初始反欺诈模型经过模型压缩处理得到,所述初始反欺诈模型基于样本信息以及与所述样本信息对应的期望识别结果训练得到的,减少服务器计算资源的消耗,提高了模型计算速度;基于所述信息识别结果确定所述待识别信息是否为欺诈信息,提高了所述信息识别结果的精准性。
可选的,特征提取模块410,包括:预设特征确定子模块、信息数量确定子模块、信息分析子模块以及待识别特征构建子模块。
其中,所述预设特征确定子模块,用于确定与所述待识别信息对应的多个预设特征;
所述信息数量确定子模块,用于针对每个预设特征,基于所述预设特征确定与所述待识别信息对应的关联信息的信息数量,基于所述信息数量得到与所述预设特征对应的特征参数;
所述信息分析子模块,用于基于多个预设特征对所述待识别信息进行分析,分别得到与每个所述预设特征对应的特征参数;
所述待识别特征构建子模块,用于基于每个所述预设特征对应的所述特征参数构建与所述待识别信息对应的待识别特征。
可选的,所述信息数量确定子模块,用于:
将所述信息数量作为与所述预设特征对应的特征参数;或者,
在所述信息数量为零时,采用第一数值作为所述与所述预设特征对应的特征参数,在所述信息数量大于零时,采用第二数值作为所述与所述预设特征对应的特征参数。
可选的,所述待识别特征构建子模块,用于:
对每个所述预设特征对应的所述特征参数进行归一化处理,以归一化后的特征参数作为待识别特征的向量元素,构建与所述待识别信息对应的待识别特征,其中,所述待识别特征各个向量元素按照预设顺序进行排布。
可选的,所述信息识别方法,还包括:初始反欺诈模型获取模块和模型压缩处理模块。
其中,在所述将所述待识别特征输入至预先训练完成的目标反欺诈模型中之前,还包括:
所述初始反欺诈模型获取模块,用于基于样本信息以及与所述样本信息对应的期望识别结果对预先建立的全连接模型训练得到初始反欺诈模型;
所述模型压缩处理模块,用于对所述初始反欺诈模型进行模型压缩处理,以得到目标反欺诈模型,其中,所述模型压缩处理至少包括剪枝处理和/或量化处理。
可选的,所述模型压缩处理模块,用于:
获取所述初始反欺诈模型对应的多个权重,基于权重的幅确定待剪枝的权重,将待剪枝的权重设置为零。
可选的,所述模型压缩处理模块,用于:
将所述初始反欺诈模型对应的权重由浮点型实数转化为整型数。
本发明实施例所提供的信息识别装置可执行本发明任意实施例所提供的信息识别方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如信息识别方法。
在一些实施例中,信息识别方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的信息识别方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息识别方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的***和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种信息识别方法,其特征在于,包括:
获取待识别信息,确定与所述待识别信息对应的待识别特征;
将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果,其中,所述目标反欺诈模型基于样本信息以及与所述样本信息对应的期望识别结果训练得到,所述目标反欺诈模型的训练过程包括执行模型压缩处理的操作;
基于所述信息识别结果确定所述待识别信息是否为欺诈信息。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述待识别信息对应的待识别特征,包括:
确定与所述待识别信息对应的多个预设特征;
针对每个预设特征,基于所述预设特征确定与所述待识别信息对应的关联信息的信息数量,基于所述信息数量得到与所述预设特征对应的特征参数;
基于多个预设特征对所述待识别信息进行分析,分别得到与每个所述预设特征对应的特征参数;
基于每个所述预设特征对应的所述特征参数构建与所述待识别信息对应的待识别特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述信息数量得到与所述预设特征对应的特征参数,包括:
将所述信息数量作为与所述预设特征对应的特征参数;或者,
在所述信息数量为零时,采用第一数值作为所述与所述预设特征对应的特征参数,在所述信息数量大于零时,采用第二数值作为所述与所述预设特征对应的特征参数。
4.根据权利要求2所述的方法,其特征在于,所述基于每个所述预设特征对应的所述特征参数构建与所述待识别信息对应的待识别特征,包括:
对每个所述预设特征对应的所述特征参数进行归一化处理,以归一化后的特征参数作为待识别特征的向量元素,构建与所述待识别信息对应的待识别特征,其中,所述待识别特征各个向量元素按照预设顺序进行排布。
5.根据权利要求1所述的方法,其特征在于,在所述将所述待识别特征输入至预先训练完成的目标反欺诈模型中之前,还包括:
基于样本信息以及与所述样本信息对应的期望识别结果对预先建立的全连接模型训练得到初始反欺诈模型;
对所述初始反欺诈模型进行模型压缩处理,以得到目标反欺诈模型,其中,所述模型压缩处理至少包括剪枝处理和/或量化处理。
6.根据权利要求5所述的方法,其特征在于,所述对所述初始反欺诈模型进行剪枝处理,包括:
获取所述初始反欺诈模型对应的多个权重,基于权重的幅值确定待剪枝的权重,将待剪枝的权重设置为零。
7.根据权利要求5所述的方法,其特征在于,所述对所述初始反欺诈模型进行量化处理,包括:
将所述初始反欺诈模型对应的权重由浮点型实数转化为整型数。
8.一种信息识别装置,其特征在于,包括:
特征提取模块,用于获取待识别信息,确定与所述待识别信息对应的待识别特征;
模型处理模块,用于将所述待识别特征输入至预先训练完成的目标反欺诈模型中,得到与所述待识别信息对应的信息识别结果,其中,所述目标反欺诈模型基于样本信息以及与所述样本信息对应的期望识别结果训练得到,所述目标反欺诈模型的训练过程包括执行模型压缩处理的操作;
信息识别模块,用于基于所述信息识别结果确定所述待识别信息是否为欺诈信息。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的信息识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的信息识别方法。
CN202211317594.XA 2022-10-26 2022-10-26 信息识别方法、装置、电子设备及存储介质 Pending CN115601042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211317594.XA CN115601042A (zh) 2022-10-26 2022-10-26 信息识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211317594.XA CN115601042A (zh) 2022-10-26 2022-10-26 信息识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115601042A true CN115601042A (zh) 2023-01-13

Family

ID=84851194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211317594.XA Pending CN115601042A (zh) 2022-10-26 2022-10-26 信息识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115601042A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205664A (zh) * 2023-04-28 2023-06-02 成都新希望金融信息有限公司 一种中介欺诈识别方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205664A (zh) * 2023-04-28 2023-06-02 成都新希望金融信息有限公司 一种中介欺诈识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN114282670A (zh) 神经网络模型的压缩方法、设备和存储介质
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
CN112949767A (zh) 样本图像增量、图像检测模型训练及图像检测方法
CN115601042A (zh) 信息识别方法、装置、电子设备及存储介质
CN117649115A (zh) 一种风险评估方法、装置、电子设备和存储介质
CN116757476A (zh) 一种风险预测模型的构建、风险防控方法和装置
CN116342164A (zh) 目标用户群体的定位方法、装置、电子设备及存储介质
CN114443896B (zh) 数据处理方法和用于训练预测模型的方法
CN115759283A (zh) 一种模型解释方法、装置、电子设备以及存储介质
CN114997419A (zh) 评分卡模型的更新方法、装置、电子设备及存储介质
CN114999665A (zh) 数据处理方法、装置、电子设备及存储介质
CN113807391A (zh) 任务模型的训练方法、装置、电子设备及存储介质
CN114078274A (zh) 人脸图像检测方法、装置、电子设备以及存储介质
CN111429257A (zh) 一种交易监控方法和装置
CN116862020A (zh) 文本分类模型的训练方法、文本分类方法及装置
CN115482422A (zh) 深度学习模型的训练方法、图像处理方法和装置
CN118134590A (zh) 一种信息传输方法、装置、设备及存储介质
CN117609723A (zh) 一种对象识别方法、装置、电子设备及存储介质
CN115758142A (zh) 深度学习模型的训练方法、数据处理方法和装置
CN115034893A (zh) 深度学习模型的训练方法、风险评估方法和装置
CN117522143A (zh) 风险等级的确定方法、装置、设备及存储介质
CN114912541A (zh) 分类方法、装置、电子设备和存储介质
CN116521977A (zh) 一种产品推荐方法、装置、设备及介质
CN115983445A (zh) Pue预测方法、pue预测模型的训练方法、装置及设备
CN115545341A (zh) 一种事件预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination