CN116304885B - 一种基于图节点嵌入的事件识别方法、装置和设备 - Google Patents
一种基于图节点嵌入的事件识别方法、装置和设备 Download PDFInfo
- Publication number
- CN116304885B CN116304885B CN202310529662.7A CN202310529662A CN116304885B CN 116304885 B CN116304885 B CN 116304885B CN 202310529662 A CN202310529662 A CN 202310529662A CN 116304885 B CN116304885 B CN 116304885B
- Authority
- CN
- China
- Prior art keywords
- event
- model
- graph node
- historical
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于图节点嵌入的事件识别方法、装置和设备,其中,基于图节点嵌入的事件识别方法包括:基于至少两个关联关系图,分别构建对应的异构关联关系邻接矩阵;将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,获得对应的图节点特征向量;基于各所述历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型;基于所述事件识别模型对待识别事件进行识别,获得待识别事件的识别结果,在模型训练的过程中增加了各历史事件的图节点特征向量,解决了相关技术中存在的事件识别不准确的问题,提高了事件识别的准确度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于图节点嵌入的事件识别方法、装置和设备。
背景技术
目前计算机技术日新月异的发展,实际业务中产生了数据量越来越庞大的业务数据存储于计算机数据库中。由于现实世界中的对象都存在一定的联系,如果将每个业务案件视为一个事件,每个事件与其它事件或者与时间中的各种因素都存在一定关联。然而业务机构一般将业务数据按照其各自类别分门别类的存储于数据库中,不同数据表之间互相独立存储,不同事件之间的数据也相互独立。
现有技术中有提出运用图技术,在查找关联关系时在不同数据表之间跳转,极大地降低了数据关联关系获取的效率。也有使用图神经网络技术进行事件识别,但此方法构造的图神经网络仅使用了同构图数据,即相同类型节点之间的关联关系,没有充分利用含有多种关联关系的异构图信息,即没有充分利用不同事件不同种类数据之间的相互关联关系,导致识别结果不准确。
针对现有技术中存在的事件识别不准确的问题,目前还没有提出有效的解决方案。
发明内容
基于此,有必要针对上述技术问题,提供一种基于图节点嵌入的事件识别方法、装置和设备。
第一方面,本申请实施例提供了一种基于图节点嵌入的事件识别方法,所述方法包括:
基于至少两个关联关系图,分别构建对应的异构关联关系邻接矩阵;其中,所述关联关系图由结构化数据库中的数据表得到,所述数据表中存储若干历史事件;
将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,获得对应的图节点特征向量;所述图节点特征向量表示各所述历史事件之间的关联关系;
基于各所述历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型;其中,所述第一特征由所述结构化数据库中的数据表得到;
基于所述事件识别模型对待识别事件进行识别,获得待识别事件的识别结果。
在其中一个实施例中,所述基于至少两个关联关系图,分别构建对应的异构关联关系邻接矩阵包括:
基于所述数据表中各所述历史事件所包含的各事件因子之间的关联关系,获取至少两个关联关系图;所述关联关系图以各所述事件因子作为图节点;
基于各所述关联关系图,分别构建对应的异构关联关系邻接矩阵。
在其中一个实施例中,所述将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,获得对应的图节点特征向量包括:
将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,构建异构网络;其中,所述图节点嵌入模型为元路径转化向量模型;
基于所述异构网络,获得各所述历史事件对应的图节点特征向量。
在其中一个实施例中,所述基于各所述历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型包括:
根据各所述图节点特征向量对应历史事件的顺序,获取所述对应历史事件的第一特征;
基于各所述历史事件对应的图节点特征向量以及第一特征,对模型进行训练,获得事件识别模型。
在其中一个实施例中,所述方法还包括:
若各所述历史事件的第一特征中有多个字段表示同一属性,则选择信息量最大的字段作为该属性的字段,获得各所述历史事件的第二特征;
基于各所述历史事件对应的图节点特征向量以及第二特征,对模型进行训练,获得事件识别模型。
在其中一个实施例中,所述模型的损失函数采用交叉熵公式进行计算,所述交叉熵公式为:
其中,x为所述历史事件,p和q代表所述历史事件的真实分类标签。
在其中一个实施例中,所述模型使用随机梯度下降法更新梯度,所述随机梯度下降法为:
其中,x为所述历史事件,y为所述历史事件的真实标签,为所有历史事件的样本集,函数/>为当前模型在输入数据为x,参数为/>的情况下计算的结果,函数为所述模型对历史事件的识别结果和所述历史事件真实标签计算的损失函数,/>为梯度步长,/>为上一状态参数,/>为下一状态参数,K为样本采样点的个数。
第二方面,本申请实施例还提供了一种基于图节点嵌入的目标识别模型的训练装置,所述装置包括:
构建模块,用于基于至少两个关联关系图,分别构建对应的异构关联关系邻接矩阵;其中,所述关联关系图由结构化数据库中的数据表得到,所述数据表中存储若干历史事件;
第一获取模块,用于将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,获得对应的图节点特征向量;所述图节点特征向量表示各所述历史事件之间的关联关系;
训练模块,用于基于各所述图节点特征向量以及各所述历史事件的第一特征对模型进行训练,获得事件识别模型;
第二获取模块,用于基于所述事件识别模型对待识别事件进行识别,获得待识别事件的识别结果。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述第一方面所述的方法。
上述基于图节点嵌入的事件识别方法、装置、设备和可读存储介质,通过至少两个关联关系图,分别构建对应的异构关联关系邻接矩阵;将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,获得对应的图节点特征向量;基于各所述历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型;基于所述事件识别模型对待识别事件进行识别,获得待识别事件的识别结果,在模型训练的过程中增加了各历史事件的图节点特征向量,解决了相关技术中存在的事件识别不准确的问题,提高了事件识别的准确度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的基于图节点嵌入的事件识别方法的终端的硬件结构框图;
图2是本申请实施例的基于图节点嵌入的事件识别方法的流程示意图;
图3是本申请实施例的另一基于图节点嵌入的事件识别方法的流程示意图;
图4是本申请实施例的另一基于图节点嵌入的事件识别方法的流程示意图;
图5是本申请实施例的另一基于图节点嵌入的事件识别方法的流程示意图;
图6是本申请实施例的基于图节点嵌入的事件识别装置的结构框图;
图7是本申请实施例的计算机设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所做出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的基于图节点嵌入的事件识别方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的基于图节点嵌入的事件识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本申请实施例提供了一种基于图节点嵌入的事件识别方法,如图2所示,该方法包括以下步骤:
步骤S201,基于至少两个关联关系图,分别构建对应的异构关联关系邻接矩阵;其中,所述关联关系图由结构化数据库中的数据表得到,所述数据表中存储若干历史事件;
具体地,结构化数据库中存在与历史事件相关的多张数据表,根据历史事件的唯一标识,获取与该历史事件所有相关的数据表,将相关的数据整合形成一个新的数据表,其中表中与一个历史事件所有相关的数据为一个记录,整合后的数据表中存储若干历史事件。
其中,所述数据表具有各历史事件所包含的各事件因子之间的关联关系,基于所述关联关系,获取至少两个关联关系图;所述关联关系图以各所述事件因子作为图节点。示例性地,数据表如表1所示,以人物作为历史事件中的一个事件因子,该数据表中存储了历史事件与人之间的关联关系,在构建事件-人关联关系图时,分别将一个历史事件与一个人物作为关联关系图的图节点,其中,则该所述历史关联关系图中包含了两者类型的图节点,为异构的关联关系图。若事件与人之间有关联,则代表两节点之间存在关联关系边。根据关联关系图构建对应的异构关联关系邻接矩阵。异构关联关系邻接矩阵为一个m*n的0、1矩阵,m和n为对应关系节点数量,即案件数量和人数量。其中i行j列值为0表示案件i和人j之间不存在关联关系边,同理其中i行j列值为1表示案件i和人j之间存在关联关系边。示例性地,表2中构建历史事件-人异构关联关系邻接矩阵为一个5*4的0、1矩阵:
表1 结构化数据库中的数据表
表2 历史事件-人异构关联关系邻接矩阵
根据结构化数据库中的数据表中的数据,可得到多个关联关系图,分别构建异构关联关系邻接矩阵。例如:历史事件-人关联关系邻接矩阵,事件-车辆关联关系邻接矩阵,事件-地点关联关系临阶矩阵等。
步骤S202,将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,获得对应的图节点特征向量;所述图节点特征向量表示各所述历史事件之间的关联关系;
将步骤S201中所有异构关联关系邻接矩阵输入至图节点嵌入模型,获得每个历史事件的图节点特征向量,该图节点特征向量表示该历史事件图节点与步骤S201中所有关联关系图中其他类型节点的关联关系,也就是该历史事件与本历史事件以及其他历史事件相关数据的关联关系。
步骤S203,基于各所述历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型;其中,所述第一特征由所述结构化数据库中的数据表得到;
将所有历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型,其中进行训练的模型可以为神经网络模型。所述历史事件第一特征则从数据表获取,表示各历史事件本身的特征。
步骤S204,基于所述事件识别模型对待识别事件进行识别,获得待识别事件的识别结果。
示例性的,本实施例中识别事件为理赔欺诈事件的识别。具有欺诈行为的不法分子在车险报案、出险、理赔过程中产生的实际数据之间具有一定的关联性,从海量的车险业务数据中及时识别具体案件是否欺诈是十分重要。在结构化数据库中获取理赔欺诈事件相关数据表,从而提取理赔欺诈事件的相关数据。使用已经训练好的事件识别模型对所述赔欺诈事件进行识别,从事件识别模型的输出结果中可以判断该理赔事件是否存在欺诈行为,提高车险理赔业务欺诈案件治理能力。
在本实施例中,通过至少两个关联关系图,分别构建对应的异构关联关系邻接矩阵;将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,获得对应的图节点特征向量;基于各所述历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型;基于所述事件识别模型对待识别事件进行识别,获得待识别事件的识别结果,在模型训练的过程中增加了各历史事件的图节点特征向量,通过分析不同时间、相似节点特征,串联关联案件,解决了相关技术中存在的事件识别不准确的问题,提高了事件识别的准确度。
在其中一个实施例中,如图3所示,所述将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,获得对应的图节点特征向量包括以下步骤:
步骤S301,将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,构建异构网络;其中,所述图节点嵌入模型为元路径转化向量模型;
步骤S302,基于所述异构网络,获得各所述历史事件对应的图节点特征向量。
具体地,多个异构关联关系邻接矩阵共同构成一个异构网络。异构网络由图G(V,E,T)表示,其中节点V和链接边E分别对应映射函数:,其中/>和指对象和关系类型的集合,本实施例选用元路径转化向量(metapath2vec)模型作为图节点嵌入模型。
元路径转化向量模型将异构网络中的节点V表示成一个低纬向量,用于学习异构网络图中节点的结构的关联信息,输出则为低纬矩阵X,表示的是所有节点的低纬向量集合。
元路径转化向量(metapath2vec)模型节点游走的形式为,如公式(1)所示:
(1)
其中,/>…指的都是节点类型,/>…指的是节点转移,具体来说节点转移概率为,如公式(2)所示:
(2)
其中,为元路径集合,/>为元路径转化概率,E为链接边,/>,表示第t种类型的第i个节点,而/>指的是节点/>的/>类型的邻近节点,而转移概率就是该类型节点个数的倒数。表达的是只有在下一步为指定元路径位置上的节点类型的时候才发生转移,并且转移概率为领域内该类型节点数的倒数。基于元路径的随机游走保证状态转化变化的正确性。一般来说,对于节点V,如果不指定元路径则其转移到相邻不同类型节点的概率均等,但如果有人工指定元路径则转移至人为指定的下一类型节点概率会增加。
元路径转化向量模型的目标为给定节点v后,使其周围节点存在的概率最大化,具体来说目标函数为,如公式(3)所示:
(3)
其中,V表示节点集合,TV表示节点类型集合,指的是在节点v的邻近节点中,为第t个类型的节点。概率函数/>则为softmax函数,如公式(4)所示:
(4)
这里Xv就是从矩阵X从取出来的第v行向量,它表示节点v的嵌入向量,表示节点v在t时刻周围的节点的元路径嵌入向量,u表示第u种节点类型,/>表示第u种节点类型的嵌入向量,/>表示遍历所有类型的节点,其中V代表节点类型集合。为了减少计算量,进一步优化为负采样后的优化目标,通过负采样降低转移到其他非元路径类型节点的概率,如公式(5)所示:
(5)
其中是sigmoid函数,Xv就是从矩阵X从取出来的第v行向量,它表示节点v的嵌入向量,/>表示节点v在t时刻周围的节点的元路径嵌入向量,p(u)是预定义的函数,用于采样节点M次。m为负采样节点,/>为负采样函数,/>为在节点Xv节点周围非元路径的节点。这里它并没有区分不同的节点来进行采样,对不同节点进行均匀采样。
在其中一个实施例中,如图4所示,所述基于各所述历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型包括一下步骤:
步骤S401,根据各所述图节点特征向量对应历史事件的顺序,获取所述对应历史事件的第一特征;
具体的,得到所有所述历史事件的图节点特征向量后,根据各所述图节点特征向量对应历史事件的顺序,也就是各历史事件对应的唯一编号找到该历史事件对应的第一特征。该历史事件对应的第一特征即从数据表中提取的有效字段,包括联系人、车牌号、联系方式、省、市等各种与历史事件相关数据。提取各字段对应的值,生成的特征矩阵,该特征矩阵为n*m的矩阵,n为历史事件的总数量,m为数据表中的数据的维度数量。
步骤S402,基于各所述历史事件对应的图节点特征向量以及第一特征,对模型进行训练,获得事件识别模型。
将各所述历史事件对应的图节点特征向量以及第一特征进行整合,构成所述历史事件的特征,对模型进行训练,获得事件识别模型。
在其中一个实施例中,如图5所示,所述方法还包括以下步骤:
步骤S501,若各所述历史事件的第一特征中有多个字段表示同一属性,则选择信息量最大的字段作为该属性的字段,获得各所述历史事件的第二特征;
在结构化数据库中的数据表中存储关于历史事件的字段可能存在冗余,例如有多个字段表示同一属性,则需要对该属性的字段进行筛选,选择信息量最大的字段作为该属性的字段,对各所述历史事件的第一特征进行选择,获取对应的第二特征。
步骤S502,基于各所述历史事件对应的图节点特征向量以及第二特征,对模型进行训练,获得事件识别模型。
本实施例,通过结构化数据库中的数据表中历史事件的第一特征进行了筛选,避免了数据冗余,选择信息量最大的字段,不仅提高了模型的效率也提高了精度。
在其中一个实施例中,所述模型的损失函数采用交叉熵公式进行计算,所述交叉熵公式为,如公式(6)所示:
(6)
其中,x为所述历史事件,p和q代表所述历史事件的真实分类标签。
在其中一个实施例中,所述模型使用随机梯度下降法更新梯度,所述随机梯度下降法为,如公式(7)所示:
(7)
其中,x为所述历史事件,y为所述历史事件的真实标签,为所有历史事件的样本集,函数/>为当前模型在输入数据为x,参数为/>的情况下计算的结果,函数为所述模型对历史事件的识别结果和所述历史事件真实标签计算的损失函数,/>为梯度步长,/>为上一状态参数,/>为下一状态参数,K为样本采样点的个数。下一状态下/>是上一状态下的/>,根据当次识别结果y对上一状态下的/>求偏导后求K个样本采样点的平均值,后与梯度步长/>相乘。进一步的更新神经元的权重,将神经元权重W带入梯度下降公式中的/>中得到需要使用以下公式(8):
(8)
其中,W为神经元权重,Wt为上一状态权重,Wt+1为下一状态权重,为梯度步长,K为样本采样点的个数,x为所述历史事件,y为所述历史事件的真实标签,/>为所有历史事件的样本集,函数/>为所述模型对历史事件的识别结果和所述历史事件真实标签计算的损失函数。
下面给出一个具体的实施例。在该实施例中,车险数据集中有9175个案件,其中2129个案件标记为欺诈案件,案件欺诈率为23.20%。
在和不使用图节点嵌入特征神经网络对比时,均使用2层神经网络,每层100个隐含层节点,dropout rate(随机失活率)设置为0.5,学习速率设置为0.001。
在实际业务场景中,保险公司会使用模型评估单个案件风险值,对风险较高的案件采用人工调查的方式确定案件是否是欺诈案件。考虑到人工调查每个案件均有一定成本,保险公司希望人工参与调查的案件欺诈率越高越好,一般保险公司的案件抽调率在1%—5%之间。
为了能够评价不同算法的优劣,在precision(正确率)和recall(召回率)的基础上提出了F1值的概念,来对precision和recall进行整体评价。F1的定义如下,如公式(9):
F1 = 2*正确率*召回率/ (正确率+召回率) (9)
如表3所示,加入图节点嵌入特征的神经网络的AUC值、准确率、精确率、找回率和F1值。从中可以看出,仅仅使用对应案件特征,不加入图节点嵌入特征在神经网络模型中得到的F1值仅为0.475。而加入图节点嵌入特征后,F1值均得到提高,提升至0.522,提升较为明显。
表3 加入图节点嵌入特征的神经网络模型和神经网络中各项性能指标
本申请实施例还提供了一种基于图节点嵌入的目标识别模型的训练装置,如图6所示,所述装置包括:
构建模块610,用于基于至少两个关联关系图,分别构建对应的异构关联关系邻接矩阵;其中,所述关联关系图由结构化数据库中的数据表得到,所述数据表中存储若干历史事件;
第一获取模块620,用于将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,获得对应的图节点特征向量;所述图节点特征向量表示各所述历史事件之间的关联关系;
训练模块630,用于基于各所述图节点特征向量以及各所述历史事件的第一特征对模型进行训练,获得事件识别模型;
第二获取模块640,用于基于所述事件识别模型对待识别事件进行识别,获得待识别事件的识别结果。
通过本实施例提供的装置,通过至少两个关联关系图,分别构建对应的异构关联关系邻接矩阵;将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,获得对应的图节点特征向量;基于各所述历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型;基于所述事件识别模型对待识别事件进行识别,获得待识别事件的识别结果,在模型训练的过程中增加了各历史事件的图节点特征向量,解决了相关技术中存在的事件识别不准确的问题,提高了事件识别的准确度。
所述构建模块610,还用于基于所述数据表中各所述历史事件所包含的各事件因子之间的关联关系,获取至少两个关联关系图;所述关联关系图以各所述事件因子作为图节点;
基于各所述关联关系图,分别构建对应的异构关联关系邻接矩阵。
所述第一获取模块620,还用于将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,构建异构网络;其中,所述图节点嵌入模型为元路径转化向量模型;
基于所述异构网络,获得各所述历史事件对应的图节点特征向量。
所述训练模块630,还用于根据各所述图节点特征向量对应历史事件的顺序,获取所述对应历史事件的第一特征;
基于各所述历史事件对应的图节点特征向量以及第一特征,对模型进行训练,获得事件识别模型。
所述训练模块630,还用于若各所述历史事件的第一特征中有多个字段表示同一属性,则选择信息量最大的字段作为该属性的字段,获得各所述历史事件的第二特征;
基于各所述历史事件对应的图节点特征向量以及第二特征,对模型进行训练,获得事件识别模型。
所述训练模块630,还用于模型的损失函数采用交叉熵公式进行计算,所述交叉熵公式为:
其中,x为所述历史事件,p和q代表所述历史事件的真实分类标签。
所述训练模块630,还用于模型使用随机梯度下降法更新梯度,所述随机梯度下降法为:
其中,x为所述历史事件,y为所述历史事件的真实标签,为所有历史事件的样本集,函数/>为当前模型在输入数据为x,参数为/>的情况下计算的结果,函数为所述模型对历史事件的识别结果和所述历史事件真实标签计算的损失函数,/>为梯度步长,/>为上一状态参数,/>为下一状态参数,K为样本采样点的个数。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信。该计算机程序被处理器执行时以实现一种基于图节点嵌入的事件识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项消息推送方法或消息转发方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于图节点嵌入的事件识别方法,其特征在于,所述方法包括:
基于数据表中各历史事件所包含的各事件因子之间的关联关系,获取至少两个关联关系图;所述关联关系图以各所述事件因子作为图节点;基于各所述关联关系图,分别构建对应的异构关联关系邻接矩阵;其中,所述关联关系图由结构化数据库中的数据表得到,所述数据表中存储若干历史事件;
将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,构建异构网络;其中,所述图节点嵌入模型为元路径转化向量模型;基于所述异构网络,获得各所述历史事件对应的图节点特征向量;所述图节点特征向量表示各所述历史事件之间的关联关系;
基于各所述历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型;其中,所述第一特征由所述结构化数据库中的数据表得到;
基于所述事件识别模型对待识别事件进行识别,获得待识别事件的识别结果。
2.根据权利要求1所述的基于图节点嵌入的事件识别方法,其特征在于,所述基于各所述历史事件的图节点特征向量以及第一特征对模型进行训练,获得事件识别模型包括:
根据各所述图节点特征向量对应历史事件的顺序,获取所述对应历史事件的第一特征;
基于各所述历史事件对应的图节点特征向量以及第一特征,对模型进行训练,获得事件识别模型。
3.根据权利要求1至2任一项所述的基于图节点嵌入的事件识别方法,其特征在于,所述方法还包括:
若各所述历史事件的第一特征中有多个字段表示同一属性,则选择信息量最大的字段作为该属性的字段,获得各所述历史事件的第二特征;
基于各所述历史事件对应的图节点特征向量以及第二特征,对模型进行训练,获得事件识别模型。
4.根据权利要求1所述的基于图节点嵌入的事件识别方法,其特征在于,所述模型的损失函数采用交叉熵公式进行计算,所述交叉熵公式为:
其中,x为所述历史事件,p和q代表所述历史事件的真实分类标签。
5.根据权利要求1所述的基于图节点嵌入的事件识别方法,其特征在于,所述模型使用随机梯度下降法更新梯度,所述随机梯度下降法为:
其中,x为所述历史事件,y为所述历史事件的真实标签,/>为所有历史事件的样本集,函数f(x;θ)为当前模型在输入数据为x,参数为θ的情况下计算的结果,函数L(y,f(x;θ))为所述模型对历史事件的识别结果和所述历史事件真实标签计算的损失函数,α为梯度步长,θt为上一状态参数,θt+1为下一状态参数,K为样本采样点的个数。
6.一种基于图节点嵌入的目标识别模型的训练装置,其特征在于,所述装置包括:
构建模块,用于基于数据表中各历史事件所包含的各事件因子之间的关联关系,获取至少两个关联关系图;所述关联关系图以各所述事件因子作为图节点;基于各所述关联关系图,分别构建对应的异构关联关系邻接矩阵;其中,所述关联关系图由结构化数据库中的数据表得到,所述数据表中存储若干历史事件;
第一获取模块,用于将各所述异构关联关系邻接矩阵输入至图节点嵌入模型,构建异构网络;其中,所述图节点嵌入模型为元路径转化向量模型;基于所述异构网络,获得各所述历史事件对应的图节点特征向量;所述图节点特征向量表示各所述历史事件之间的关联关系;
训练模块,用于基于各所述图节点特征向量以及各所述历史事件的第一特征对模型进行训练,获得事件识别模型;
第二获取模块,用于基于所述事件识别模型对待识别事件进行识别,获得待识别事件的识别结果。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310529662.7A CN116304885B (zh) | 2023-05-11 | 2023-05-11 | 一种基于图节点嵌入的事件识别方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310529662.7A CN116304885B (zh) | 2023-05-11 | 2023-05-11 | 一种基于图节点嵌入的事件识别方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116304885A CN116304885A (zh) | 2023-06-23 |
CN116304885B true CN116304885B (zh) | 2023-08-22 |
Family
ID=86813462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310529662.7A Active CN116304885B (zh) | 2023-05-11 | 2023-05-11 | 一种基于图节点嵌入的事件识别方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304885B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078441B (zh) * | 2023-10-16 | 2024-02-06 | 之江实验室 | 理赔欺诈识别方法、装置、计算机设备和存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213831A (zh) * | 2018-08-14 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 事件检测方法和装置、计算设备及存储介质 |
CN112784918A (zh) * | 2021-02-01 | 2021-05-11 | 中国科学院自动化研究所 | 基于无监督图表示学习的节点识别方法、***、装置 |
CN113420190A (zh) * | 2021-08-23 | 2021-09-21 | 连连(杭州)信息技术有限公司 | 一种商户风险识别方法、装置、设备及存储介质 |
WO2021218314A1 (zh) * | 2020-04-27 | 2021-11-04 | 深圳壹账通智能科技有限公司 | 基于位置定位的事件识别方法、装置、设备及存储介质 |
CN113660225A (zh) * | 2021-07-29 | 2021-11-16 | 广州大学 | 基于时序点的网络攻击事件预测方法、***、装置及介质 |
CN114090902A (zh) * | 2021-11-22 | 2022-02-25 | 中国人民解放军国防科技大学 | 一种基于异质网络的社交网络影响力预测方法、装置 |
CN114372573A (zh) * | 2022-01-07 | 2022-04-19 | 中国人民解放军国防科技大学 | 用户画像信息识别方法、装置、计算机设备和存储介质 |
WO2022083093A1 (zh) * | 2020-10-23 | 2022-04-28 | 平安科技(深圳)有限公司 | 图谱中的概率计算方法、装置、计算机设备及存储介质 |
CN114417938A (zh) * | 2022-01-27 | 2022-04-29 | 中国人民解放军32802部队 | 一种利用知识向量嵌入的电磁目标分类方法 |
CN115293235A (zh) * | 2022-07-06 | 2022-11-04 | 支付宝(杭州)信息技术有限公司 | 建立风险识别模型的方法及对应装置 |
CN115618008A (zh) * | 2022-09-15 | 2023-01-17 | 招联消费金融有限公司 | 账户状态模型构建方法、装置、计算机设备和存储介质 |
CN115758271A (zh) * | 2022-10-13 | 2023-03-07 | 招联消费金融有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN115953172A (zh) * | 2022-12-16 | 2023-04-11 | 之江实验室 | 一种基于图神经网络的欺诈风险识别方法和装置 |
CN116049345A (zh) * | 2023-03-31 | 2023-05-02 | 江西财经大学 | 基于双向事件完全图的文档级事件联合抽取方法及*** |
-
2023
- 2023-05-11 CN CN202310529662.7A patent/CN116304885B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213831A (zh) * | 2018-08-14 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 事件检测方法和装置、计算设备及存储介质 |
WO2021218314A1 (zh) * | 2020-04-27 | 2021-11-04 | 深圳壹账通智能科技有限公司 | 基于位置定位的事件识别方法、装置、设备及存储介质 |
WO2022083093A1 (zh) * | 2020-10-23 | 2022-04-28 | 平安科技(深圳)有限公司 | 图谱中的概率计算方法、装置、计算机设备及存储介质 |
CN112784918A (zh) * | 2021-02-01 | 2021-05-11 | 中国科学院自动化研究所 | 基于无监督图表示学习的节点识别方法、***、装置 |
CN113660225A (zh) * | 2021-07-29 | 2021-11-16 | 广州大学 | 基于时序点的网络攻击事件预测方法、***、装置及介质 |
CN113420190A (zh) * | 2021-08-23 | 2021-09-21 | 连连(杭州)信息技术有限公司 | 一种商户风险识别方法、装置、设备及存储介质 |
CN114090902A (zh) * | 2021-11-22 | 2022-02-25 | 中国人民解放军国防科技大学 | 一种基于异质网络的社交网络影响力预测方法、装置 |
CN114372573A (zh) * | 2022-01-07 | 2022-04-19 | 中国人民解放军国防科技大学 | 用户画像信息识别方法、装置、计算机设备和存储介质 |
CN114417938A (zh) * | 2022-01-27 | 2022-04-29 | 中国人民解放军32802部队 | 一种利用知识向量嵌入的电磁目标分类方法 |
CN115293235A (zh) * | 2022-07-06 | 2022-11-04 | 支付宝(杭州)信息技术有限公司 | 建立风险识别模型的方法及对应装置 |
CN115618008A (zh) * | 2022-09-15 | 2023-01-17 | 招联消费金融有限公司 | 账户状态模型构建方法、装置、计算机设备和存储介质 |
CN115758271A (zh) * | 2022-10-13 | 2023-03-07 | 招联消费金融有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN115953172A (zh) * | 2022-12-16 | 2023-04-11 | 之江实验室 | 一种基于图神经网络的欺诈风险识别方法和装置 |
CN116049345A (zh) * | 2023-03-31 | 2023-05-02 | 江西财经大学 | 基于双向事件完全图的文档级事件联合抽取方法及*** |
Non-Patent Citations (1)
Title |
---|
基于层级式Bi-LSTM-CRF模型的军事目标实体识别方法;徐树奎;曹劲然;;信息化研究(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116304885A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112950231A (zh) | 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质 | |
CN116304885B (zh) | 一种基于图节点嵌入的事件识别方法、装置和设备 | |
CN113780584B (zh) | 标签预测方法、设备、存储介质 | |
WO2023207411A1 (zh) | 一种基于时空数据的流量确定方法、装置、设备和介质 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN113901236A (zh) | 基于人工智能的目标识别方法、装置、电子设备及介质 | |
Zhang et al. | CGAIL: Conditional generative adversarial imitation learning—An application in taxi Drivers’ strategy learning | |
CN114491047A (zh) | 多标签文本分类方法、装置、电子设备及存储介质 | |
CN117036060A (zh) | 车险欺诈识别方法、装置和存储介质 | |
CN115953172A (zh) | 一种基于图神经网络的欺诈风险识别方法和装置 | |
CN113656690A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN113435900A (zh) | 交易风险确定方法、装置和服务器 | |
CN112597399A (zh) | 图数据处理方法、装置、计算机设备和存储介质 | |
WO2023143570A1 (zh) | 一种连接关系预测方法及相关设备 | |
CN116050828A (zh) | 基于复杂关系网络的风险团伙识别方法和*** | |
CN116668105A (zh) | 一种结合工控安全知识图谱的攻击路径推理*** | |
CN115758271A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN115952438A (zh) | 社交平台用户属性预测方法、***、移动设备及存储介质 | |
CN115965466A (zh) | 一种基于子图对比的以太坊账户身份推理方法及*** | |
CN112861962B (zh) | 样本处理方法、装置、电子设备和存储介质 | |
CN111723872B (zh) | 行人属性识别方法及装置、存储介质、电子装置 | |
CN117010537A (zh) | 目标区域预测方法、装置、计算机设备和存储介质 | |
CN113935407A (zh) | 一种异常行为识别模型确定方法及装置 | |
CN113780148A (zh) | 交通标志图像识别模型训练方法和交通标志图像识别方法 | |
CN117078441B (zh) | 理赔欺诈识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |