CN116150341A - 理赔事件检测方法、计算机设备和存储介质 - Google Patents
理赔事件检测方法、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116150341A CN116150341A CN202310440660.0A CN202310440660A CN116150341A CN 116150341 A CN116150341 A CN 116150341A CN 202310440660 A CN202310440660 A CN 202310440660A CN 116150341 A CN116150341 A CN 116150341A
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- word
- event
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种理赔事件检测方法、计算机设备和存储介质,在图网络发生变更的情况下,更新第一节点序列,得到当前时间戳的第二节点序列,其中,图网络基于理赔事件的数据构建得到,第一节点序列通过关联图网络中的多个节点得到;在词向量模型中,根据第二节点序列和涉变更节点的权重参数,对词向量模型进行反向迭代训练,并根据训练后的词向量模型得到当前时间戳的节点向量,其中,涉变更节点包括图网络中节点和/或节点之间的边发生变化的节点;根据当前时间戳的节点向量,确定理赔事件是否属于目标类型事件,如此设置,只需要迭代更新部分节点的权重参数,减少了计算量,从而能够准确且高效地检测理赔事件。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种理赔事件检测方法、计算机设备和存储介质。
背景技术
随着集散式分布***的普及,理赔事件数据涌现出海量级增长。从这些数据中识别理赔欺诈需要浪费大量的人力物力,并且,利用专家知识对理赔欺诈进行打标,存在主观性较强的缺点。
为此,相关技术提出了一种理赔事件检测方法:用一种非结构化载体存储理赔事件的数据,构建并训练词向量模型,以表征非结构化载体的单词,得到目标向量;构建并训练欺诈检测模型,将目标向量输入至欺诈检测模型进行预测,从而得到理赔事件是否属于欺诈事件的预测结果。
然而,目前的理赔事件检测方法,均是应用于静态同构数据,随着时间的变化,非结构化数据会呈现动态表现,既有模型无法适应动态变化的非结构化数据,导致对理赔事件的检测结果不够准确。若重新输入训练样本训练既有模型,则计算量大,时间成本高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确且高效地检测理赔事件的理赔事件检测方法、计算机设备和存储介质。
第一方面,本申请提供了一种理赔事件检测方法,所述方法包括:
在图网络发生变更的情况下,更新第一节点序列,得到当前时间戳的第二节点序列,其中,所述图网络基于理赔事件的数据构建得到,所述第一节点序列通过关联所述图网络中的多个节点得到;
在词向量模型中,根据所述第二节点序列和涉变更节点的权重参数,对所述词向量模型进行反向迭代训练,并根据训练后的所述词向量模型得到当前时间戳的节点向量,其中,所述涉变更节点包括所述图网络中节点和/或节点之间的边发生变化的节点;
根据所述当前时间戳的节点向量,确定所述理赔事件是否属于目标类型事件。
在其中一个实施例中,所述图网络发生变更的情况包括以下至少之一:
在当前时间戳,新增了一个节点;
在当前时间戳,删除了一个节点;
在当前时间戳,新增了一个节点,且所新增的节点和其他节点之间形成关联关系;
在当前时间戳,删除了一个节点,且所删除的节点和其他节点之间解除关联关系。
在其中一个实施例中,所述涉变更节点的权重参数包括中心词矩阵和周围词矩阵,根据所述第二节点序列和所述涉变更节点的权重参数,对所述词向量模型进行反向迭代训练,包括:
根据预设编码规则对所述涉变更节点所包含的单词进行编码,得到各个涉变更节点的目标单词向量;
将所述目标单词向量与所述中心词矩阵相乘,得到各个涉变更节点的中心词向量,以及,将所述目标单词向量与所述周围词矩阵相乘,得到各个涉变更节点的周围词向量;
对所述周围词向量进行归一化处理,根据归一化后的所述周围词向量的概率,调整所述涉变更节点的中心词矩阵和周围词矩阵,以使所述词向量模型符合收敛条件。
在其中一个实施例中,根据训练后的所述词向量模型得到当前时间戳的节点向量,包括:
将符合所述收敛条件的所述词向量模型的中心词矩阵,作为当前时间戳的节点向量。
在其中一个实施例中,对所述周围词向量进行归一化处理,根据归一化后的所述周围词向量的概率,调整所述涉变更节点的中心词矩阵和周围词矩阵,以使所述词向量模型符合收敛条件,包括:
对所述词向量的初始损失函数取负对数,并将取得的值除以预设单词总数,得到新的损失函数,其中,所述初始损失函数包括极大似然函数;
调整所述涉变更节点的中心词矩阵和周围词矩阵,以使所述新的损失函数收敛。
在其中一个实施例中,根据所述当前时间戳的节点向量,确定所述理赔事件是否属于目标类型事件,包括:
在所述当前时间戳的节点向量中,合并属于同一个理赔事件的节点向量;
对合并后的节点向量进行预测,得到所述理赔事件的预测标签;
根据所述理赔事件的预测标签,确定所述理赔事件是否属于所述目标类型事件。
在其中一个实施例中,获取所述第一节点序列包括:
根据识别目标,在所述图网络中选择相适应的多个节点,并确定所述多个节点之间的随机游走路径,所述识别目标包括识别所述目标类型的理赔事件;
根据所述随机游走路径,关联所述图网络中所选择的多个节点。
在其中一个实施例中,每个节点的属性包括以下至少之一:时间、地点、人员信息、理赔对象标识。
第二方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的理赔事件检测方法的步骤。
第三方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的步骤。
上述的理赔事件检测方法、计算机设备和存储介质,在图网络发生变更的情况下,更新第一节点序列,得到当前时间戳的第二节点序列,其中,图网络基于理赔事件的数据构建得到,第一节点序列通过关联图网络中的多个节点得到;在词向量模型中,根据第二节点序列和涉变更节点的权重参数,对词向量模型进行反向迭代训练,并根据训练后的词向量模型得到当前时间戳的节点向量,其中,涉变更节点包括图网络中节点和/或节点之间的边发生变化的节点;根据当前时间戳的节点向量,确定理赔事件是否属于目标类型事件,如此设置,只需要迭代更新部分节点的权重参数,减少了计算量,从而能够准确且高效地检测理赔事件。
附图说明
图1为一个实施例中理赔事件检测方法的终端的硬件结构框图;
图2为一个实施例中理赔事件检测方法的流程示意图;
图3为一个实施例中基于车险理赔数据所构建的图网络的示意图;
图4为一个实施例中词向量模型的结构示意图;
图5为一个实施例中车险理赔事件检测方法的设计思路示意图;
图6为一个实施例中车险理赔事件检测方法的流程示意图;
图7为一个实施例中1500个事件的车险理赔反欺诈识别仿真结果图;
图8为一个实施例中100个事件的车险理赔反欺诈识别仿真结果图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和***、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本申请一实施例的理赔事件检测方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的理赔事件检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
当有理赔事件出现时,会在业务***中录入理赔数据,在分析理赔数据时,拿到的理赔数据通常是非结构化且无序的,自然语言处理领域的表征学习技术难以直接迁移使用,因此需要研究基于这种非结构化数据的表征学习技术。本实施例将图作为非结构化载体来存储理赔数据,得到图网络。节点表征学习,是专门针对图的技术,其背后的思想为:通过学习一类映射,利用图本身的拓扑结构,将海量、高维、异构、复杂和动态的数据表示为统一、低维、稠密的向量,并优化这些映射,用以保存图的结构和性质,使得学习到的向量能够真实反映原始空间上的拓扑结构。然而,目前大部分节点表征学习方法均是应用于静态同构图,随着时间的变化,实际的业务***会出现动态表现,节点数量、属性及边的关系会发生变化,即图网络发生变化,既有模型无法适应动态变化的业务***,导致对理赔事件的检测结果不够准确。若重新输入训练样本训练既有模型,则计算量大,时间成本高。
基于上述情况,在一个实施例中,提供了一种理赔事件检测方法,以该方法应用于图1中的终端为例进行说明,图2给出了本实施例的理赔事件检测方法的流程示意图,该流程包括如下步骤:
步骤S201,在图网络发生变更的情况下,更新第一节点序列,得到当前时间戳的第二节点序列,其中,图网络基于理赔事件的数据构建得到,第一节点序列通过关联图网络中的多个节点得到。
图网络,是一种数据结构和载体,表示为节点和边的集合。每个节点的属性包括但不限于时间、地点、人员信息、理赔对象标识。其中,人员信息可以是定损员身份和/或享有保险理赔权益的人的身份,理赔对象指的是享有保险理赔权益的物品或者人,例如车、电脑、金融产品消费者、乘客、游客。
节点序列,是一种基于随机游走路径关联图网络中的节点而得到的数据,该随机游走路径可以基于目标类型确定,不同的目标类型对应不同的随机游走路径。随机游走路径相当于一条路径模版,用来指示关联哪些节点,以及如何关联节点。可选地,获取第一节点序列包括:根据识别目标,在图网络中选择相适应的多个节点,并确定多个节点之间的随机游走路径,识别目标包括识别目标类型的理赔事件;根据随机游走路径,关联图网络中所选择的多个节点。以检测车险理赔事件为例,当目标类型为个人车险理赔欺诈时,则随机游走路径可以是:时间-车架号-时间。当目标类型为团伙车险理赔欺诈时,则随机游走路径可以是:地点—定损员—车架号—定损员—地点。
表1给出了一份车险理赔数据,图3给出了基于表1中该车险理赔数据所构建的图网络的示意图。
表1车险理赔数据表
实际场景中,多个车险事件彼此关联,比如一个定损员会负责多个事件,一个车主可能涉及多个事件,一个车架号也可能涉及多个事件,基于这种关联关系,再基于随机游走路径,在图网络中关联节点,得到节点序列。例如,设置随机游走路径为:时间-车架号-时间,事件A1和事件A2的车架号相同,事件A2和事件A3的车架号相同,则可得到节点序列:T1-C1-T2,T2-C2-T3。例如,设置随机游走路径为:地点-定损员-车架号-定损员-地点,事件A1和事件A2的车架号相同,事件A2和事件A3的车架号相同,则可得到节点序列:L1-S1- C1-S2- L2,L2-S2- C2- S3- L3。
步骤S202,在词向量模型中,根据第二节点序列和涉变更节点的权重参数,对词向量模型进行反向迭代训练,并根据训练后的词向量模型得到当前时间戳的节点向量,其中,涉变更节点包括图网络中节点和/或节点之间的边发生变化的节点。
词向量模型,是一种自然语言处理模型,能够将自然语言中的单词转化为稠密的向量。词向量模型由图网络中的节点训练得到。涉变更节点的权重参数,是词向量模型中的网络层参数。图4给出了词向量模型的结构示意图,其中,输入层输入节点序列中的节点,经过中间隐藏层处理后,由输出层输出节点向量,将节点向量作为词向量模型的输入,再进行处理,如此循环,以实现对词向量模型进行反向迭代训练。
涉变更节点,可以是指自身属性发生变化的节点,也可以是指自身属性不发生变化但是自身与其他节点的关联关系发生变化的节点,还可以是指自身属性发生变化且自身与其他节点的关联关系发生变化的节点。
假设N=100,即有100个事件,每个事件记录5种数据,包含时间、地点、车主、定损员、车架号,这样子就有5×100个节点,此时新获取一个事件包含5个新的节点,假设这5个新的节点与原来500个节点中的100个节点存在关联关系,则根据设置好的随机游走路径,重新获取这105个节点的节点序列,即在505个总节点中,按照设置好的随机游走路径获取其中这105个节点中每个节点和其他节点之间的关联关系。需要说明的是,选择出的这105个节点,在随机游走的时候,同样是到全部的505个节点中游走,会涉及剩余的400个节点,本实施例只选择105个节点的权重参数对词向量模型进行反向迭代训练,而不是基于505个节点的权重参数对词向量模型进行反向迭代训练。
步骤S203,根据当前时间戳的节点向量,确定理赔事件是否属于目标类型事件。
将当前时间戳的节点向量输入训练好的神经网络模型进行预测,得到理赔事件中是否存在符合目标类型的事件。目标类型,可以是理赔欺诈;也可以是个人理赔欺诈或者团伙理赔欺诈;还可以是针对车、电脑、金融产品消费者、乘客或者游客的理赔欺诈。
在上述步骤S201至S203中,用词向量模型来表征图网络节点的单词,图网络会随着时间的变化而变化,词向量模型为了适应这种变化,需要更新权重参数,即重新输入训练样本进行训练,而每当神经网络经过一轮训练样本的训练,所有神经元的权重参数就会进行一次调整,计算量大,时间久。为此,上述步骤在图网络发生变化的情况下,只迭代更新部分节点的权重参数,其他节点的权重参数固定,减少计算量,从而能够准确且高效地检测理赔事件。
在一个实施例中,图网络发生变更的情况包括以下至少之一:在当前时间戳,新增了一个节点;在当前时间戳,删除了一个节点;在当前时间戳,新增了一个节点,且所新增的节点和其他节点之间形成关联关系;在当前时间戳,删除了一个节点,且所删除的节点和其他节点之间解除关联关系。
节点和边可能出现四种变化趋势:节点新增、节点删除、节点之间的边新增及删除。以下将通过数学模型描述上面四种变化,以便于选择涉及变更的节点,再根据变化情况考虑负采样的原理,构建每个时间戳的动态更新数据集,包括更新序列及选择需要更新的权重参数。在本实施例中,基于负采样原理,将与新增车险节点相关的节点(例如上述的105个节点)为正样本,其他不相关的节点(例如上述的剩余400个节点)为负样本,全部的正样本作为关联节点,后续再重新获取节点序列。具体数学模型可以表示如式(1)~(4)所示。
节点新增,是指在当前时间戳,新增了一个节点:
节点删除,是指在当前时间戳,删除了一个节点:
节点之间边新增,是指在当前时间戳,由于新增节点导致原来两个不相连的节点相连接:
节点之间边删除,是指在当前时间戳,由于删除节点导致原来两个相连的节点不连接:
其中,Vadd代表新增的节点集合,Vdel代表删除的节点集合,Eadd代表新增的边集合,Edel代表删除的边集合,v代表第一节点,u代表第二节点,w代表第三节点,Vt代表t时刻全部节点的集合,Vt+1代表t+1时刻全部节点的集合,Et代表t时刻全部边的集合,Et+1代表t+1时刻全部边的集合,t和t+1分别代表事件采集的时刻,其中,t+1对应于当前时间戳。
在一个实施例中,涉变更节点的权重参数包括中心词矩阵和周围词矩阵,根据第二节点序列和涉变更节点的权重参数,对词向量模型进行反向迭代训练,包括:根据预设编码规则对涉变更节点所包含的单词进行编码,得到各个涉变更节点的目标单词向量;将目标单词向量与中心词矩阵相乘,得到各个涉变更节点的中心词向量,以及,将目标单词向量与周围词矩阵相乘,得到各个涉变更节点的周围词向量;对周围词向量进行归一化处理,根据归一化后的周围词向量的概率,调整涉变更节点的中心词矩阵和周围词矩阵,以使词向量模型符合收敛条件。进一步地,根据训练后的词向量模型得到当前时间戳的节点向量,包括:将符合收敛条件的词向量模型的中心词矩阵,作为当前时间戳的节点向量。
节点向量,可以采用Word2vec中的skip-gram方法,基于选择的部分采样数据,构建节点的表征学习神经网络,即得到词向量模型。skip-gram方法,是在每一次迭代中都取一个词作为中心词汇,尝试去预测中心词汇一定范围内的上下文词汇。在本实施例中,将节点序列中的每个节点看作文本中的每个单词,然后利用随机游走路径的自然准确性,基于极大似然函数获取节点的向量。
以下将对节点向量的生成方式进行进一步介绍。
在一个实施例中,对周围词向量进行归一化处理,根据归一化后的周围词向量的概率,调整涉变更节点的中心词矩阵和周围词矩阵,以使词向量模型符合收敛条件,包括:对词向量的初始损失函数取负对数,并将取得的值除以预设单词总数,得到新的损失函数,其中,初始损失函数包括极大似然函数;调整涉变更节点的中心词矩阵和周围词矩阵,以使新的损失函数收敛。
对于最终得到的向量,进一步做softmax归一化,归一化之后的概率越大,表示该词与目标单词的相关性越大,基于极大化似然函数原理,利用这个周围词的概率较大,调整中心词矩阵/>和周围词矩阵/>,根据损失函数,使用反向传播算法来对参数矩阵进行调节,最终实现损失函数的最小化,其中,中心词矩阵/>即为最终的节点向量表示。该损失函数又称为似然函数,这里表示在给定目标单词的情况下,在2m窗口内所有周围词出现的概率,/>是指全部单词的数目。本实施例的目标是要通过调节参数,从而最大化这个损失函数,因为这个函数越大,表示与实际情况越吻合,公式如下所示:
在一个实施例中,根据当前时间戳的节点向量,确定理赔事件是否属于目标类型事件,包括:在当前时间戳的节点向量中,合并属于同一个理赔事件的节点向量;对合并后的节点向量进行预测,得到理赔事件的预测标签;根据理赔事件的预测标签,确定理赔事件是否属于目标类型事件。
在一个实施例中,提供了一种车险理赔事件检测方法,图5示出了该车险理赔事件检测方法的设计思路,以车险理赔作为研究对象,以多源异构数据作为研究基础,开展路径设计、权重选择、异常检测的任务,最终达到目标:车险理赔事件动态异质网络的表征学习以及车险理赔事件的异常检测及反欺诈识别。其中,路径设计包括:获取车险理赔运转流程,获取节点之间关联关系,设计随机游走路径。权重选择包括:描述动态网络变化趋势,构建每个时间戳模型,考虑负采样实现过程。异常检测包括:获取节点向量,车险理赔异常检测,反欺诈识别。该设计思路可以拆分为两个主要任务,分别为表征学习和异常检测。
表征学习:根据采集到的车险理赔多源异构数据,基于专家知识及关联关系分析方法,自适应选择合适的图网络节点;根据每个时间戳的节点变化特征,更新部分节点的随机游走路线,基于负采样原理选择部分节点的权重矩阵进行迭代更新,最终获得每个时间戳的节点向量表示。
异常检测:利用每个时间戳获取的节点向量表示,将属于同一个车险理赔事件的节点向量进行统一化处理,获得每个事件不同元素的节点向量表示;基于部分原始数据的欺诈标签,利用主元分析等机器学习方法,实现在线实时的车险理赔异常检测。
在图5的基础上,图6给出了实践该设计思路的方法流程示意图,请参阅图6,该流程包括如下步骤:
步骤S601,获取历史车险理赔数据,根据历史车险理赔数据训练词向量模型,根据训练好的词向量模型获取相应的节点向量,并且根据专家知识进行欺诈标签标注;
步骤S602,将每个时间戳的节点向量统一为一个向量,基于欺诈标签利用主成分分析等数据聚类方法构建神经网络模型;
步骤S603,辨识新获取车险理赔事件中节点的变化规律,选择涉及变更的节点,更新节点序列并迭代部分权重参数,获取新车险理赔事件中的节点向量;
步骤S604,根据步骤S603中计算得到的节点向量,以及步骤S602中构建的神经网络模型,实时预测该条车险理赔事件是否欺诈的标签,实现车险理赔的异常检测。
在实际的车险理赔事件中,随着时间的变化,节点会存在新增、删除,节点之间的关系也会随着时间发生变化,而目前大部分的算法都是针对静态网络的。本实施例旨在研究面向车险理赔事件的动态异质网络表征学习,在新数据获取时仅更新部分模型,降低计算复杂度,在实际中具有重要的应用价值。图网络中包含许多重要信息,如果直接利用节点和边的关系,由于其多源异构的特征,实现较为复杂。而将节点和边用向量进行表示,首先能够在维度上实现统一,其次包含图网络中语义和结构信息的数值型向量可以有效地应用传统的机器学习方法实现车险理赔事件的异常检测,对其风险值进行评估,识别一些异常状态,对车险理赔反欺诈等方面具有重要意义。
本实施例主要具有以下有益效果:
1)根据不同的欺诈识别目标,自适应选择相应的节点并设计随机游走路径,有针对性地提高车险理赔欺诈识别率;
2)解决车险理赔事件中节点随时间动态变化的问题,降低模型的运算复杂度,在提高运算速度的同时保证模型的欺诈检出精度;基于负采样的思想,将节点随时间变化的趋势利用数学模型分类,以较小的计算复杂度选择需要迭代更新的节点,可以在较大程度上提高模型的运算速度;
3)在获取节点的向量表示情况下,利用机器学习算法在线实时获取车险理赔事件的欺诈标签,减少人工成本,降低专家知识的主观性,提高车险欺诈的检出时间,及时拦截存在风险的车险理赔事件,具有较高的经济价值。
结合上述图6,以下给出一个具体示例说明。在本实施例中,车险理赔事件集中有6080个事件,其中4347个事件经过人工标注为正常事件,其余1733个事件标记为欺诈事件,事件欺诈率为28.50%。其中2000个正常事件和1000个欺诈事件作为训练矩阵,2347个正常事件和733个欺诈事件作为测试矩阵。
在本实施例中主要识别车主个人行为的欺诈事件,统计车险理赔数据中的车架号、定损员和事故发生的位置,从车架号、定损员及事故位置三个方面统计车险理赔欺诈的概率。首先设计随机游走路径,在本实施例中采取事故位置—定损员—车架号—定损员—事故位置的路径采集训练文本;其中每个节点作为初始节点生成100条随机游走路径,每条路径重复10次上述设定的路线要求,全部的随机游走路线生成txt文档,作为后续skip-gram模型训练的文本素材;在本实施例中,嵌入维度设置为128,窗口大小为7,迭代次数为5,训练得到的节点向量表示存储在txt文件中。在测试数据应用过程中,尝试以50个样本为单位更新测试节点,查找最佳的延时间隔。图7为本实施例中1500个事件的车险理赔反欺诈识别仿真结果图,图8为本实施例中100个事件的车险理赔反欺诈识别仿真结果图,本实施例利用主成分分析方法对384维的数据进行降维,获取128个主元方向,将前两维数据绘制成如图7、图8所示。其中,测试数据集中的正常事件主要集中在虚线框内,测试数据集中的异常事件主要集中在虚线框外,可以看出将车险理赔事件节点进行向量表示,可以实现欺诈事件的识别。其中,图7是2000个正常事件和1000个欺诈事件作为训练矩阵,1000个正常事件和500个欺诈事件作为测试矩阵;图8则是缩小取样间隔,利用2000个正常事件和1000个欺诈事件作为训练矩阵,50个正常事件和50个欺诈事件作为测试矩阵,仿真结果如图7、图8所示。从仿真结果中能够看出,使用1500个事件作为测试数据,效果较好,模型的运行时间为3006s;使用100个事件作为测试数据,效果稍差,可以将大部分数据标出准确标签,模型的运行时间仅为35s,较大程度提高了模型的运行效率,验证了本申请提出的方法的效果,在满足准确性要求的前提下,提高了模型的运算速度。
此外,为了直观表示算法的效果,利用ROC坐标对比上述两种方法的效果。ROC曲线以真正例率TPR为纵轴,以假正例率FPR为横轴(0,1为最佳;1,0为最差)。其中TPR和FPR计算公式如下所示:
其中,Case 代表事件,TP为预测是真,实际观测也为真;FN是预测为假,实际观测为真;FP是预测为真,实际观测为假;TN是预测为假,实际观测也为假。两次实验的ROC曲线坐标计算如表2所示:
表2 ROC曲线坐标计算结果
应该理解的是,虽然如上所述的各实施例所涉及的流程示意图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程示意图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种理赔事件检测方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
在图网络发生变更的情况下,更新第一节点序列,得到当前时间戳的第二节点序列,其中,图网络基于理赔事件的数据构建得到,第一节点序列通过关联图网络中的多个节点得到;
在词向量模型中,根据第二节点序列和涉变更节点的权重参数,对词向量模型进行反向迭代训练,并根据训练后的词向量模型得到当前时间戳的节点向量,其中,涉变更节点包括图网络中节点和/或节点之间的边发生变化的节点;
根据当前时间戳的节点向量,确定理赔事件是否属于目标类型事件。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设编码规则对涉变更节点所包含的单词进行编码,得到各个涉变更节点的目标单词向量;
将目标单词向量与中心词矩阵相乘,得到各个涉变更节点的中心词向量,以及,将目标单词向量与周围词矩阵相乘,得到各个涉变更节点的周围词向量;
对周围词向量进行归一化处理,根据归一化后的周围词向量的概率,调整涉变更节点的中心词矩阵和周围词矩阵,以使词向量模型符合收敛条件。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将符合收敛条件的词向量模型的中心词矩阵,作为当前时间戳的节点向量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对词向量的初始损失函数取负对数,并将取得的值除以预设单词总数,得到新的损失函数,其中,初始损失函数包括极大似然函数;
调整涉变更节点的中心词矩阵和周围词矩阵,以使新的损失函数收敛。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
在当前时间戳的节点向量中,合并属于同一个理赔事件的节点向量;
对合并后的节点向量进行预测,得到理赔事件的预测标签;
根据理赔事件的预测标签,确定理赔事件是否属于目标类型事件。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据识别目标,在图网络中选择相适应的多个节点,并确定多个节点之间的随机游走路径,识别目标包括识别目标类型的理赔事件;
根据随机游走路径,关联图网络中所选择的多个节点。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种理赔事件检测方法,其特征在于,所述方法包括:
在图网络发生变更的情况下,更新第一节点序列,得到当前时间戳的第二节点序列,其中,所述图网络基于理赔事件的数据构建得到,所述第一节点序列通过关联所述图网络中的多个节点得到;
在词向量模型中,根据所述第二节点序列和涉变更节点的权重参数,对所述词向量模型进行反向迭代训练,并根据训练后的所述词向量模型得到当前时间戳的节点向量,其中,所述涉变更节点包括所述图网络中节点和/或节点之间的边发生变化的节点;
根据所述当前时间戳的节点向量,确定所述理赔事件是否属于目标类型事件。
2.根据权利要求1所述的理赔事件检测方法,其特征在于,所述图网络发生变更的情况包括以下至少之一:
在当前时间戳,新增了一个节点;
在当前时间戳,删除了一个节点;
在当前时间戳,新增了一个节点,且所新增的节点和其他节点之间形成关联关系;
在当前时间戳,删除了一个节点,且所删除的节点和其他节点之间解除关联关系。
3.根据权利要求1所述的理赔事件检测方法,其特征在于,所述涉变更节点的权重参数包括中心词矩阵和周围词矩阵,根据所述第二节点序列和所述涉变更节点的权重参数,对所述词向量模型进行反向迭代训练,包括:
根据预设编码规则对所述涉变更节点所包含的单词进行编码,得到各个涉变更节点的目标单词向量;
将所述目标单词向量与所述中心词矩阵相乘,得到各个涉变更节点的中心词向量,以及,将所述目标单词向量与所述周围词矩阵相乘,得到各个涉变更节点的周围词向量;
对所述周围词向量进行归一化处理,根据归一化后的所述周围词向量的概率,调整所述涉变更节点的中心词矩阵和周围词矩阵,以使所述词向量模型符合收敛条件。
4.根据权利要求3所述的理赔事件检测方法,其特征在于,根据训练后的所述词向量模型得到当前时间戳的节点向量,包括:
将符合所述收敛条件的所述词向量模型的中心词矩阵,作为当前时间戳的节点向量。
5.根据权利要求3所述的理赔事件检测方法,其特征在于,对所述周围词向量进行归一化处理,根据归一化后的所述周围词向量的概率,调整所述涉变更节点的中心词矩阵和周围词矩阵,以使所述词向量模型符合收敛条件,包括:
对所述词向量的初始损失函数取负对数,并将取得的值除以预设单词总数,得到新的损失函数,其中,所述初始损失函数包括极大似然函数;
调整所述涉变更节点的中心词矩阵和周围词矩阵,以使所述新的损失函数收敛。
6.根据权利要求1所述的理赔事件检测方法,其特征在于,根据所述当前时间戳的节点向量,确定所述理赔事件是否属于目标类型事件,包括:
在所述当前时间戳的节点向量中,合并属于同一个理赔事件的节点向量;
对合并后的节点向量进行预测,得到所述理赔事件的预测标签;
根据所述理赔事件的预测标签,确定所述理赔事件是否属于所述目标类型事件。
7.根据权利要求1所述的理赔事件检测方法,其特征在于,获取所述第一节点序列包括:
根据识别目标,在所述图网络中选择相适应的多个节点,并确定所述多个节点之间的随机游走路径,所述识别目标包括识别所述目标类型的理赔事件;
根据所述随机游走路径,关联所述图网络中所选择的多个节点。
8.根据权利要求1所述的理赔事件检测方法,其特征在于,每个节点的属性包括以下至少之一:时间、地点、人员信息、理赔对象标识。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求8中任一项所述的理赔事件检测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求8中任一项所述的理赔事件检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310440660.0A CN116150341B (zh) | 2023-04-23 | 2023-04-23 | 理赔事件检测方法、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310440660.0A CN116150341B (zh) | 2023-04-23 | 2023-04-23 | 理赔事件检测方法、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116150341A true CN116150341A (zh) | 2023-05-23 |
CN116150341B CN116150341B (zh) | 2023-07-18 |
Family
ID=86358605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310440660.0A Active CN116150341B (zh) | 2023-04-23 | 2023-04-23 | 理赔事件检测方法、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116150341B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636061A (zh) * | 2018-12-25 | 2019-04-16 | 深圳市南山区人民医院 | 医保欺诈预测网络的训练方法、装置、设备及存储介质 |
US20190259104A1 (en) * | 2018-02-16 | 2019-08-22 | Munich Reinsurance America, Inc. | Computer-implemented methods, computer-readable media, and systems for identifying causes of loss |
CN112232971A (zh) * | 2020-10-14 | 2021-01-15 | 太平金融科技服务(上海)有限公司 | 反欺诈检测方法、装置、计算机设备和存储介质 |
CN112417099A (zh) * | 2020-11-20 | 2021-02-26 | 南京邮电大学 | 一种基于图注意力网络的欺诈用户检测模型构建方法 |
CN113837886A (zh) * | 2021-09-16 | 2021-12-24 | 之江实验室 | 一种基于知识图谱的车险理赔欺诈风险识别方法和*** |
CN114155009A (zh) * | 2021-12-06 | 2022-03-08 | 华东交通大学 | 欺诈检测方法、装置、电子设备及存储介质 |
US20220101327A1 (en) * | 2020-09-29 | 2022-03-31 | Mastercard International Incorporated | Method and system for detecting fraudulent transactions |
US20220100857A1 (en) * | 2020-09-28 | 2022-03-31 | Elasticsearch B.V. | Systems and Methods of Anomalous Pattern Discovery and Mitigation |
CN114580263A (zh) * | 2021-12-02 | 2022-06-03 | 国家电网有限公司信息通信分公司 | 基于知识图谱的信息***故障预测方法及相关设备 |
CN114840745A (zh) * | 2022-03-30 | 2022-08-02 | 达而观信息科技(上海)有限公司 | 一种基于图表征学习和深度语义匹配模型的个性化推荐方法及*** |
CN115063035A (zh) * | 2022-07-21 | 2022-09-16 | 平安健康保险股份有限公司 | 基于神经网络的客户评估方法、***、设备及存储介质 |
US20220300903A1 (en) * | 2021-03-19 | 2022-09-22 | The Toronto-Dominion Bank | System and method for dynamically predicting fraud using machine learning |
-
2023
- 2023-04-23 CN CN202310440660.0A patent/CN116150341B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190259104A1 (en) * | 2018-02-16 | 2019-08-22 | Munich Reinsurance America, Inc. | Computer-implemented methods, computer-readable media, and systems for identifying causes of loss |
CN109636061A (zh) * | 2018-12-25 | 2019-04-16 | 深圳市南山区人民医院 | 医保欺诈预测网络的训练方法、装置、设备及存储介质 |
US20220100857A1 (en) * | 2020-09-28 | 2022-03-31 | Elasticsearch B.V. | Systems and Methods of Anomalous Pattern Discovery and Mitigation |
US20220101327A1 (en) * | 2020-09-29 | 2022-03-31 | Mastercard International Incorporated | Method and system for detecting fraudulent transactions |
CN112232971A (zh) * | 2020-10-14 | 2021-01-15 | 太平金融科技服务(上海)有限公司 | 反欺诈检测方法、装置、计算机设备和存储介质 |
CN112417099A (zh) * | 2020-11-20 | 2021-02-26 | 南京邮电大学 | 一种基于图注意力网络的欺诈用户检测模型构建方法 |
US20220300903A1 (en) * | 2021-03-19 | 2022-09-22 | The Toronto-Dominion Bank | System and method for dynamically predicting fraud using machine learning |
CN113837886A (zh) * | 2021-09-16 | 2021-12-24 | 之江实验室 | 一种基于知识图谱的车险理赔欺诈风险识别方法和*** |
CN114580263A (zh) * | 2021-12-02 | 2022-06-03 | 国家电网有限公司信息通信分公司 | 基于知识图谱的信息***故障预测方法及相关设备 |
CN114155009A (zh) * | 2021-12-06 | 2022-03-08 | 华东交通大学 | 欺诈检测方法、装置、电子设备及存储介质 |
CN114840745A (zh) * | 2022-03-30 | 2022-08-02 | 达而观信息科技(上海)有限公司 | 一种基于图表征学习和深度语义匹配模型的个性化推荐方法及*** |
CN115063035A (zh) * | 2022-07-21 | 2022-09-16 | 平安健康保险股份有限公司 | 基于神经网络的客户评估方法、***、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
HANYI HU ETC.: "Fradulent User Detection Via Behavior Information Aggregation Network (BIAN) On Large-Scale Financial Social Network", 《ARXIV》, pages 1 - 6 * |
PHIRADET BANGCHAROENSAP ETC.: "Two Step graph-based semi-supervised Learning for Online Auction Fraud Detection", 《MACHINE LEARNING AND KNOWLEDGE DISCOVERY IN DATABASES 》, pages 165 - 179 * |
赵备: "基于动态异构信息网络的医疗保险欺诈检测的研究", 《中国优秀硕士学位论文全文数据库(基础科学辑)》, pages 002 - 54 * |
钟睿: "面向电信数据的智能反欺诈决策平台的设计与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, pages 138 - 851 * |
Also Published As
Publication number | Publication date |
---|---|
CN116150341B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
WO2020253358A1 (zh) | 业务数据的风控分析处理方法、装置和计算机设备 | |
CN108170909B (zh) | 一种智能建模的模型输出方法、设备及存储介质 | |
CN110968701A (zh) | 用于图神经网络的关系图谱建立方法以及装置、设备 | |
CN112291807B (zh) | 一种基于深度迁移学习和跨域数据融合的无线蜂窝网络流量预测方法 | |
Li et al. | Integrating ensemble-urban cellular automata model with an uncertainty map to improve the performance of a single model | |
CN110781970B (zh) | 分类器的生成方法、装置、设备及存储介质 | |
CN110287316A (zh) | 一种告警分类方法、装置、电子设备及存储介质 | |
CN113344700B (zh) | 一种基于多目标优化的风控模型构建方法、装置和电子设备 | |
CN108241867B (zh) | 一种分类方法及装置 | |
CN106537423A (zh) | 作为服务的自适应特征化 | |
Kass et al. | Improving area of occupancy estimates for parapatric species using distribution models and support vector machines | |
CN111415167B (zh) | 网络欺诈交易检测方法及装置、计算机存储介质和终端 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN103942251A (zh) | 基于多种质控方法的高空气象资料入库方法和入库*** | |
CN111582313B (zh) | 样本数据生成方法、装置及电子设备 | |
CA3179311A1 (en) | Identifying claim complexity by integrating supervised and unsupervised learning | |
CN116150341B (zh) | 理赔事件检测方法、计算机设备和存储介质 | |
CN116029760A (zh) | 消息推送方法、装置、计算机设备和存储介质 | |
CN115758271A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN113409096B (zh) | 目标对象识别方法、装置、计算机设备及存储介质 | |
CN112199434B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN111737319B (zh) | 用户集群的预测方法、装置、计算机设备和存储介质 | |
CN114021827A (zh) | 运营策略生成方法及装置 | |
CN114154617A (zh) | 一种基于vfl的低压居民用户异常用电识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |