CN114692785A - 行为分类方法、装置、设备及存储介质 - Google Patents
行为分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114692785A CN114692785A CN202210578388.8A CN202210578388A CN114692785A CN 114692785 A CN114692785 A CN 114692785A CN 202210578388 A CN202210578388 A CN 202210578388A CN 114692785 A CN114692785 A CN 114692785A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- node
- predicted
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,揭示了一种行为分类方法、装置、设备及存储介质,其中方法包括:获取初始用户信息以及与初始用户信息对应的信息节点和节点特征信息;获取待预测用户与信息节点对应的待预测用户信息,根据信息节点、待预测用户信息和初始用户信息生成初始用户的关系图谱;根据关系图谱计算每一个信息节点的图嵌入特征,获取包含行为分类函数的分类模型,并通过分类模型将节点特征信息和图嵌入特征进行拼接,得到节点表征;根据节点表征计算待预测用户与初始用户的关联度;基于关联度识别待预测用户的分类方式,采用分类模型根据分类方式对待预测用户进行行为分类,从而降低了客户风险评价时的误杀率,提高了分类的准确性。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种行为分类方法、装置、设备及存储介质。
背景技术
在保险领域,如何根据客户的历史信息对客户进行风险评级,量化客户风险是一个非常重要的课题。目前保险市场上有许多隐藏的黑产客户,这部分带有欺诈性质的客户让保险公司蒙受了巨大的损失,所以在承保端对这些劣质客户进行有效识别并加以拦截就显得尤为重要。以个人业务线为例,在核保阶段,当一个客户投保时,核保人员需根据该客户投保时录入的信息评估该客户是否应该被保,这无疑是一项困难而又复杂的工作。此时可以借助算法进行自动化建模,利用客户的历史信息以及与其他客户之间的交互数据输入模型进行训练并输出客户的风险等级,并针对高风险客户向核保人员做出提醒。
现有技术中的算法是,通过建模方法将客户分成独立的个体,基于个体的特征进行建模,这种建模方式没有考虑客户间关系网络特征,忽略了客户与客户之间的相关性,会损失一大部分外部信息,从而使得误杀率高,评价的准确性较低。
发明内容
本申请的主要目的为提供一种行为分类方法、装置、设备及存储介质,旨在解决现有技术中的进行客户风险评价时误杀率高,准确性较低的技术问题。
为了实现上述发明目的,本申请提出一种行为分类方法,所述方法包括:
获取初始用户的初始用户信息以及与所述初始用户信息对应的信息节点,并获取所述信息节点的节点特征信息;
获取待预测用户的个人信息,在所述个人信息中查找与所述信息节点一致的目标节点,获取所述目标节点对应的待预测用户信息,并根据所述信息节点、所述待预测用户信息和所述初始用户信息生成所述初始用户的关系图谱;
根据所述关系图谱计算每一个所述信息节点的图嵌入特征,获取包含行为分类函数的分类模型,并通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征;
根据所述节点表征计算所述待预测用户与所述初始用户的关联度;
基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类。
进一步的,所述基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类,包括:
当所述关联度满足预设的第一关联范围时,获取与所述待预测用户关联的初始用户的初始行为分类结果,并将所述初始行为分类结果作为所述待预测用户的目标行为分类结果;
当所述关联度满足预设的第二关联范围时,获取与所述待预测用户关联的初始用户的初始行为分类结果,基于所述初始行为分类结果,通过所述分类模型对所述待预测用户进行行为分类,得到所述待预测用户的目标行为分类结果;
当所述关联度满足预设的第三关联范围时,通过所述分类模型单独对所述待预测用户进行行为分类,得到所述待预测用户的目标行为分类结果。
进一步的,所述得到所述待预测用户的目标行为分类结果,包括:
基于所述关系图谱,按照所述信息节点的传导方向,对每一个信息节点进行风险传递参数计算;
依次根据上一个信息节点的风险传递参数计算下一个信息节点的顶点的风险传递参数,直至遍历全部的所述信息节点,得到所述待预测用户的风险传递因子;
根据所述风险传递因子得到所述待预测用户的目标行为分类结果。
进一步的,所述根据所述关系图谱计算每一个所述信息节点的图嵌入特征,包括:
对所述信息节点进行若干次随机采样,得到若干组采样结果;
按照采样顺序或者逆序的方式,依次每一组采样结果均聚合至上一组采样结果中,直至全部采样结果完成聚合,得到所述图嵌入特征。
进一步的,所述通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征,包括:
将所述节点特征信息和所述图嵌入特征进行特征拼接,输入预设的GraphSAGE模型;
通过所述GraphSAGE模型对拼接后的所述节点特征信息和所述图嵌入特征进行特征融合,得到所述节点表征,并将所述节点表征输入所述GraphSAGE模型的数据库中。
进一步的,所述根据所述节点表征计算所述待预测用户与所述初始用户的关联度,包括:
根据所述节点表征和所述待预测用户信息计算所述待预测用户与所述初始用户在不同信息节点下的关联参数;
获取每一个所述信息节点对应的权重信息,并基于所述权重信息对所述关联参数进行加权计算,得到所述关联度。
进一步的,所述根据所述节点表征和所述待预测用户信息计算所述待预测用户与所述初始用户在不同信息节点下的关联参数,包括:
通过向量空间模型算法,在不同信息节点下分别计算所述待预测用户信息的关联度向量,并根据余弦相似度计算得到所述关联度向量与对应的节点表征之间的关联参数。
本申请还提出了一种行为分类装置,包括:
特征信息获取模块,用于获取初始用户的初始用户信息以及与所述初始用户信息对应的信息节点,并获取所述信息节点的节点特征信息;
关系图谱生成模块,用于获取待预测用户的个人信息,在所述个人信息中查找与所述信息节点一致的目标节点,获取所述目标节点对应的待预测用户信息,并根据所述信息节点、所述待预测用户信息和所述初始用户信息生成所述初始用户的关系图谱;
节点表征计算模块,用于根据所述关系图谱计算每一个所述信息节点的图嵌入特征,获取包含行为分类函数的分类模型,并通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征;
关联度计算模块,用于根据所述节点表征计算所述待预测用户与所述初始用户的关联度;
行为分类模块,用于基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的行为分类方法、装置、设备及存储介质,通过将初始用户信息对应的数据和新的待预测用户数据从hive导入数据至neo4j图数据库生成关系图谱,这样可以将二维表格数据转换为链接数据,使得计算机能够更好地建立与各个实体节点之间的链接关系,从而对用户的行为进行量化和可视化处理,提高搜索效率;通过将所述节点特征信息和所述图嵌入特征输入所述分类模型,使得分类模型基于该特征数据进行行为分类,提高了分类的准确性;通过待预测用户信息和初始用户信息识别待预测用户与初始用户的关联度,从而基于用户的交互关系搭建进行用户行为分类;通过关联度,采用分类模型对待预测用户进行行为分类,从而在利用个体特征进行独立建模的基础上,引入客户关联关系型数据,从而增加分类模型可以利用的信息,起到数据增强、样本增强的效果。
附图说明
图1为本申请一实施条例的行为分类方法的流程示意图;
图2 为本申请一实施条例的行为分类装置的结构示意框图;
图3 为本申请一实施条例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本实施例为了实现上述发明目的,提出了一种行为分类方法,所述方法包括:
S1:获取初始用户的初始用户信息以及与所述初始用户信息对应的信息节点,并获取所述信息节点的节点特征信息;
S2:获取待预测用户的个人信息,在所述个人信息中查找与所述信息节点一致的目标节点,获取所述目标节点对应的待预测用户信息,并根据所述信息节点、所述待预测用户信息和所述初始用户信息生成所述初始用户的关系图谱;
S3:根据所述关系图谱计算每一个所述信息节点的图嵌入特征,获取包含行为分类函数的分类模型,并通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征;
S4:根据所述节点表征计算所述待预测用户与所述初始用户的关联度;
S5:基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类。
本实施例通过将初始用户信息对应的数据和新的待预测用户数据从hive导入数据至neo4j图数据库生成关系图谱,这样可以将二维表格数据转换为链接数据,使得计算机能够更好地建立与各个实体节点之间的链接关系,从而对用户的行为进行量化和可视化处理,提高搜索效率;通过将所述节点特征信息和所述图嵌入特征输入所述分类模型,使得分类模型基于该特征数据进行行为分类,提高了分类的准确性;通过待预测用户信息和初始用户信息识别待预测用户与初始用户的关联度,从而基于用户的交互关系搭建进行用户行为分类;通过关联度,采用分类模型对待预测用户进行行为分类,从而在利用个体特征进行独立建模的基础上,引入客户关联关系型数据,从而增加分类模型可以利用的信息,起到数据增强、样本增强的效果。
对于步骤S1,本实施例应用于行为分类,尤其是用户风险行为分类的应用中,可以基于人工智能技术进行子调度器的分配以及中心调度器控制。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。上述初始用户信息包括支付账号、赔款账号、保单号、报案号、手机号码等,根据上述实体信息能够勾画出用户可能的行为信息,例如就医、报案赔付、投保等,根据行为信息在预设的数据库中查询对应的信息节点,例如业务员、医院、银行账号、报案号、赔案号等。本实施例中,通过初始用户的用户信息获取对应的信息节点和节点特征信息,从而对用户的行为进行量化和可视化处理。
对于步骤S2,获取初始用户信息对应的信息节点后,将信息节点作为锚点对待预测用户信息进行采集;示例性地,若初始用户信息对应的信息节点为医院、银行账号和报案号,而获取的待预测用户的个人信息包含姓名、性别、身份证信息、医院、银行账号和报案号等大量信息,此时需要根据上述信息节点对预测中所需的个人信息进行锚定,将与信息节点一致的节点作为目标节点,即可得到目标节点为医院、银行账号和报案号,那么此时可以获取待预测用户与医院、银行账号和报案号相关的待预测用户信息,以便于后续判断初始用户与待预测用户在各个信息节点下的关联程度。本实施例将初始用户信息,以及新的待预测用户与信息节点对应的待预测用户信息从hive导入数据至neo4j图数据库,得到相应的关系图谱,其中,该关系图谱包含若干个信息节点,每一个信息节点均对应一项初始用户信息和一项待预测用户信息。本实施例中,通过信息节点、待预测用户信息和初始用户信息生成关系图谱,将二维表格数据转换为链接数据,使得计算机能够更好地建立与各个实体节点之间的链接关系,提高搜索效率。
对于步骤S3,利用node2vec算法生成上述信息节点的图嵌入特征,将上述图嵌入特征回写至分类模型的数据库中,以使分类模型基于数据库中存储的节点特征信息和所述图嵌入特征进行拼接。本实施例中,通过将所述节点特征信息和所述图嵌入特征输入所述分类模型,使得分类模型基于该数据特征分类,提高了分类的准确性。
对于步骤S4,可以将根据初始用户的支付账号、赔款账号、保单号、报案号、手机号码对应的支付对象、投保对象等信息与待预测用户信息进行匹配;当待预测用户信息与初始用户信息完全一致时,认为该待预测用户即为历史已有的初始用户;当匹配数量满足预设的阈值范围时,认为其关联度较高,当匹配数量不满足预设的阈值范围时,认为其关联度较低。本实施例中,通过待预测用户信息和初始用户信息识别待预测用户与初始用户的关联度,从而基于用户的交互关系搭建进行用户行为分类。
对于步骤S5,对于历史已有的初始用户,可以直接使用分类模型进行行为分类预测并生成用户风险等级便于前端直接调用;对于新的待预测用户,可以将其与历史已有客户进行关联输入模型进行风险等级预测。本实施例中,通过关联度,采用分类模型对待预测用户进行行为分类,从而在利用个体特征进行独立建模的基础上,引入客户关联关系型数据,从而增加分类模型可以利用的信息,起到数据增强、样本增强的效果。
在一个实施例中,所述基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类,包括:
S51:当所述关联度满足预设的第一关联范围时,获取与所述待预测用户关联的初始用户的初始行为分类结果,并将所述初始行为分类结果作为所述待预测用户的目标行为分类结果;
S52:当所述关联度满足预设的第二关联范围时,获取与所述待预测用户关联的初始用户的初始行为分类结果,基于所述初始行为分类结果,通过所述分类模型对所述待预测用户进行行为分类,根据所述关系图谱得到所述待预测用户的目标行为分类结果;
S53:当所述关联度满足预设的第三关联范围时,通过所述分类模型单独对所述待预测用户进行行为分类,得到所述待预测用户的目标行为分类结果。
本实施条例根据关联度大小进行分类方式选择,从而采用不同的分类方式对不同关联度的待预测用户进行行为分类,从而提高了行为分类的准确性。
对于步骤S51,为了便于引入用户之间的关联性,提高分类的准确性,本实施条例根据关联度大小进行分情况判定。具体来说,第一关联范围可以为大于90%,当关联度大于90%时,可认为该待预测用户与关联的初始用户的行为模式基本一致,因此可以将该初始用户的初始行为分类结果作为该待预测用户的目标行为分类结果。
对于步骤S52,第二关联范围可以为90%~50%,此时,待预测用户与初始用户之间具有一定的关联性,但是并不完全一致,因此,针对关联的部分,可以采用关联的初始用户对应的参数,而仅对非关联的部分进行重新预测,根据初始用户对应的参数和重新预测结果结合得到该待预测用户的行为分类结果;具体来说,根据关系图谱,获取各个信息节点下的初始用户信息和待预测用户信息,判断初始用户信息在该信息节点下对应的业务对象,是否包含该信息节点下的待预测用户信息,若包含,则认为该信息节点为关联节点,采用初始用户的行为参数即可,若不包含,则认为该信息节点为非关联节点,采用分类模型重新预测待预测用户行为;上述业务对象包括转账对象、保单对象、赔偿对象等,本实施例不做一一赘述。
对于步骤S53,第三关联范围可以为小于50%,此时,待预测用户与初始用户之间的关联度较小,因此可以通过分类模型直接对待预测用户进行分类。
在一个实施例中,所述根据所述关系图谱得到所述待预测用户的目标行为分类结果,包括:
S501:基于所述关系图谱,按照所述信息节点的传导方向,对每一个信息节点进行风险传递参数计算;
S502:依次根据上一个信息节点的风险传递参数计算下一个信息节点的顶点的风险传递参数,直至遍历全部的所述信息节点,得到所述待预测用户的风险传递因子;
S503:根据所述风险传递因子得到所述待预测用户的目标行为分类结果。
本实施条例通过对每一个信息节点进行风险传递参数计算,递推式地得到最终的风险传递因子,从而考虑每一个节点的风险因素,提高了行为分类的全面性和准确性。
对于步骤S501,风险传递参数计算方式可以为:获取各个层级对应的风险传递权重,以及基于上述关系图谱中包含的信息节点进行预设的风险标识信息获取,从而加权计算得到各个信息节点对应的风险传递参数。
对于步骤S502,在具体的实施方式中,依次对每一个信息节点进行风险传递参数计算,递推式地得到最终的风险传递因子,从而考虑每一个节点的风险因素,不仅可以直接在前端拦截风险等级高的客户,同时可以关注到高风险客户聚集投保的产品、经纪公司、来源渠道等方面,可以及时对产品条款进行调整,敦促经纪公司提升客户品质。对于核赔人员,可以重点关注高风险客户聚集的地区和案件,对案件信息进行仔细审查,了解他们的攻击手段,总结案件的共同特征,从而设置相应的风险传递权重和风险标识信息,以为后续避免不必要的风险损失。
在一个实施例中,所述根据所述关系图谱计算每一个所述信息节点的图嵌入特征,包括:
S31:对所述信息节点进行若干次随机采样,得到若干组采样结果;
S32:按照采样顺序或者逆序的方式,依次每一组采样结果均聚合至上一组采样结果中,直至全部采样结果完成聚合,得到所述图嵌入特征。
本实施条例通过对所述信息节点进行若干次随机采样后,再对采样结果进行聚合得到图嵌入特征,从而使得样本抽取较为均衡,用概率的方式提高了图嵌入特征的可靠程度。
对于步骤S31,依次对相邻节点进行随机采样,每一次抽样的相邻的信息节点数不多于n个,n可以根据实际需求确定。
对于步骤S32,具体来说,当进行逆序采样时,若第一次采集了3个相邻的信息节点,第二跳采集了5个相邻的信息节点,那么先聚合第二次采样的相邻的信息节点的特征,生成第一次相邻的信息节点的embedding,再聚合第一次相邻的信息节点的embedding,生成信息节点的embedding;将信息节点的embedding输入全连接网络得到信息节点的图嵌入特征。
在一个实施例中,所述通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征,包括:
S33:将所述节点特征信息和所述图嵌入特征进行特征拼接,输入预设的GraphSAGE模型;
S34:通过所述GraphSAGE模型对拼接后的所述节点特征信息和所述图嵌入特征进行特征融合,得到所述节点表征,并将所述节点表征输入所述GraphSAGE模型的数据库中。
本实施例通过GraphSAGE模型进行特征融合,从而提高了节点表征的全局性。
对于步骤S34,在具体的实施方式中,GraphSAGE模型能够不断的聚合邻居信息,从而进行迭代更新,并且,随着迭代次数的增加,每个节点的聚合的信息几乎都是全局的,从而得到全局化的融合特征。
在一个实施例中,所述根据所述节点表征计算所述待预测用户与所述初始用户的关联度,包括:
S41:根据所述节点表征和所述待预测用户信息计算所述待预测用户与所述初始用户在不同信息节点下的关联参数;
S42:获取每一个所述信息节点对应的权重信息,并基于所述权重信息对所述关联参数进行加权计算,得到所述关联度。
本实施条例通过对各个信息节点进行关联参数计算,并根据预先分配的权重信息对关联参数进行加权计算得到最终的关联度,从而提高了关联度的全面性和可靠性。
对于步骤S41,由于待预测用户与初始用户之间的关联关系可能为部分行为关联,因此本实施例分别对支付账号、赔款账号、保单号、报案号、手机号码等不同的信息节点一一进行关联参数计算,从而全面地评估待预测用户与初始用户之间的关联度。
对于步骤S42,在实际生活中,即便两个用户之间产生过行为交集,也不能完全认为二者之间的风险程度是相关联的,示例性地,初始用户A多次去便利店购买商品,产生了与便利店老板,即待预测用户B,的多个转账记录,显然此时初始用户A与待预测用户B的关联度并不高;然而,若初始用户A对待预测用户B产生了投保行为,即便只有一条投保记录,也可以认为二者的关联度较高;因此,本实施例采用信息节点权重分配的方式对用户之间的关联度进行计算,从而得到可靠性和全面性更高的关联度。
在一个实施例中,所述根据所述节点表征和所述待预测用户信息计算所述待预测用户与所述初始用户在不同信息节点下的关联参数,包括:
S401:通过向量空间模型算法,在不同信息节点下分别计算所述待预测用户信息的关联度向量,并根据余弦相似度计算得到所述关联度向量与对应的节点表征之间的关联参数。
本实施例采用向量空间模型算法和余弦相似度算法得到上述关联参数,能够把文本内容的处理简化为向量空间中的向量运算,并且通过空间关系表达关联度,直观性较强。
对于步骤S401,向量空间模型算法(VSM,Vector Space Model)能够将每个实体表示成一个低维向量,示例性地,可以将不同信息节点下的待预测用户信息看作一系列词(Term),而每一个词(Term)都有一个词类权重(Termweight),不同的词(Term)根据自己在文档中的权重来影响文档相关性的打分计算;因此可以将信息节点下的待预测用户信息对应的词(Term)以及词类权重(Termweight)看作一个向量,即:Document={Term1,Term2,……,TermN},DocumentVector={weight1,weight2,……,weightN},其中每个词(Term)就是一维。
具体地,得到待预测用户信息的关联度向量后,由于两个向量之间的驾校越小,关联性就越大,因此本实施例采用余弦相似度的算法来计算关联度,可以理解地,夹角越小,余弦值越大,则关联度越大。
参照图2,本申请还提出了一种行为分类装置,包括:
特征信息获取模块100,用于获取初始用户的初始用户信息以及与所述初始用户信息对应的信息节点,并获取所述信息节点的节点特征信息;
关系图谱生成模块200,用于获取待预测用户的个人信息,在所述个人信息中查找与所述信息节点一致的目标节点,获取所述目标节点对应的待预测用户信息,并根据所述信息节点、所述待预测用户信息和所述初始用户信息生成所述初始用户的关系图谱;
节点表征计算模块300,用于根据所述关系图谱计算每一个所述信息节点的图嵌入特征,获取包含行为分类函数的分类模型,并通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征;
关联度计算模块400,用于根据所述节点表征计算所述待预测用户与所述初始用户的关联度;
行为分类模块500,用于基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类。
本实施例通过将初始用户信息对应的数据和新的待预测用户数据从hive导入数据至neo4j图数据库生成关系图谱,这样可以将二维表格数据转换为链接数据,使得计算机能够更好地建立与各个实体节点之间的链接关系,从而对用户的行为进行量化和可视化处理,提高搜索效率;通过将所述节点特征信息和所述图嵌入特征输入所述分类模型,使得分类模型基于该特征数据进行数据分类,提高了分类的准确性;通过待预测用户信息和初始用户信息识别待预测用户与初始用户的关联度,从而基于用户的交互关系搭建进行用户行为分类;通过关联度,采用分类模型对待预测用户进行行为分类,从而在利用个体特征进行独立建模的基础上,引入客户关联关系型数据,从而增加分类模型可以利用的信息,起到数据增强、样本增强的效果。
在一个实施例中,行为分类模块500,具体用于:
当所述关联度满足预设的第一关联范围时,获取与所述待预测用户关联的初始用户的初始行为分类结果,并将所述初始行为分类结果作为所述待预测用户的目标行为分类结果;
当所述关联度满足预设的第二关联范围时,获取与所述待预测用户关联的初始用户的初始行为分类结果,基于所述初始行为分类结果,通过所述分类模型对所述待预测用户进行行为分类,根据所述关系图谱得到所述待预测用户的目标行为分类结果;
当所述关联度满足预设的第三关联范围时,通过所述分类模型单独对所述待预测用户进行行为分类,得到所述待预测用户的目标行为分类结果。
在一个实施例中,行为分类模块500,具体用于:
基于所述关系图谱,按照所述信息节点的传导方向,对每一个信息节点进行风险传递参数计算;
依次根据上一个信息节点的风险传递参数计算下一个信息节点的顶点的风险传递参数,直至遍历全部的所述信息节点,得到所述待预测用户的风险传递因子;
根据所述风险传递因子得到所述待预测用户的目标行为分类结果。
在一个实施例中,节点表征计算模块300,具体用于:
对所述信息节点进行若干次随机采样,得到若干组采样结果;
按照采样顺序或者逆序的方式,依次每一组采样结果均聚合至上一组采样结果中,直至全部采样结果完成聚合,得到所述图嵌入特征。
在一个实施例中,节点表征计算模块300,具体用于:
将所述节点特征信息和所述图嵌入特征进行特征拼接,输入预设的GraphSAGE模型;
通过所述GraphSAGE模型对拼接后的所述节点特征信息和所述图嵌入特征进行特征融合,得到所述节点表征,并将所述节点表征输入所述GraphSAGE模型的数据库中。
在一个实施例中,关联度计算模块400,具体用于:
根据所述节点表征和所述待预测用户信息计算所述待预测用户与所述初始用户在不同信息节点下的关联参数;
获取每一个所述信息节点对应的权重信息,并基于所述权重信息对所述关联参数进行加权计算,得到所述关联度。
在一个实施例中,关联度计算模块400,具体用于:
通过向量空间模型算法,在不同信息节点下分别计算所述待预测用户信息的关联度向量,并根据余弦相似度计算得到所述关联度向量与对应的节点表征之间的关联参数。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于储存行为分类方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种行为分类方法。所述行为分类方法,包括:获取初始用户的初始用户信息以及与所述初始用户信息对应的信息节点,并获取所述信息节点的节点特征信息;获取待预测用户的个人信息,在所述个人信息中查找与所述信息节点一致的目标节点,获取所述目标节点对应的待预测用户信息,并根据所述信息节点、所述待预测用户信息和所述初始用户信息生成所述初始用户的关系图谱;根据所述关系图谱计算每一个所述信息节点的图嵌入特征,获取包含行为分类函数的分类模型,并通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征;根据所述节点表征计算所述待预测用户与所述初始用户的关联度;基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种行为分类方法,包括步骤:获取初始用户的初始用户信息以及与所述初始用户信息对应的信息节点,并获取所述信息节点的节点特征信息;获取待预测用户的个人信息,在所述个人信息中查找与所述信息节点一致的目标节点,获取所述目标节点对应的待预测用户信息,并根据所述信息节点、所述待预测用户信息和所述初始用户信息生成所述初始用户的关系图谱;根据所述关系图谱计算每一个所述信息节点的图嵌入特征,获取包含行为分类函数的分类模型,并通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征;根据所述节点表征计算所述待预测用户与所述初始用户的关联度;基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类。
上述执行的行为分类方法,通过将初始用户信息对应的数据和新的待预测用户数据从hive导入数据至neo4j图数据库生成关系图谱,这样可以将二维表格数据转换为链接数据,使得计算机能够更好地建立与各个实体节点之间的链接关系,从而对用户的行为进行量化和可视化处理,提高搜索效率;通过将所述节点特征信息和所述图嵌入特征输入所述分类模型,使得分类模型基于该特征数据进行数据分类,提高了分类的准确性;通过待预测用户信息和初始用户信息识别待预测用户与初始用户的关联度,从而基于用户的交互关系搭建进行用户行为分类;通过关联度,采用分类模型对待预测用户进行行为分类,从而在利用个体特征进行独立建模的基础上,引入客户关联关系型数据,从而增加分类模型可以利用的信息,起到数据增强、样本增强的效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施条例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种行为分类方法,其特征在于,所述方法包括:
获取初始用户的初始用户信息以及与所述初始用户信息对应的信息节点,并获取所述信息节点的节点特征信息;
获取待预测用户的个人信息,在所述个人信息中查找与所述信息节点一致的目标节点,获取所述目标节点对应的待预测用户信息,并根据所述信息节点、所述待预测用户信息和所述初始用户信息生成所述初始用户的关系图谱;
根据所述关系图谱计算每一个所述信息节点的图嵌入特征,获取包含行为分类函数的分类模型,并通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征;
根据所述节点表征计算所述待预测用户与所述初始用户的关联度;
基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类。
2.根据权利要求1所述的行为分类方法,其特征在于,所述基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类,包括:
当所述关联度满足预设的第一关联范围时,获取与所述待预测用户关联的初始用户的初始行为分类结果,并将所述初始行为分类结果作为所述待预测用户的目标行为分类结果;
当所述关联度满足预设的第二关联范围时,获取与所述待预测用户关联的初始用户的初始行为分类结果,基于所述初始行为分类结果,通过所述分类模型对所述待预测用户进行行为分类,根据所述关系图谱得到所述待预测用户的目标行为分类结果;
当所述关联度满足预设的第三关联范围时,通过所述分类模型单独对所述待预测用户进行行为分类,得到所述待预测用户的目标行为分类结果。
3.根据权利要求2所述的行为分类方法,其特征在于,所述根据所述关系图谱得到所述待预测用户的目标行为分类结果,包括:
基于所述关系图谱,按照所述信息节点的传导方向,对每一个信息节点进行风险传递参数计算;
依次根据上一个信息节点的风险传递参数计算下一个信息节点的顶点的风险传递参数,直至遍历全部的所述信息节点,得到所述待预测用户的风险传递因子;
根据所述风险传递因子得到所述待预测用户的目标行为分类结果。
4.根据权利要求1所述的行为分类方法,其特征在于,所述根据所述关系图谱计算每一个所述信息节点的图嵌入特征,包括:
对所述信息节点进行若干次随机采样,得到若干组采样结果;
按照采样顺序或者逆序的方式,依次每一组采样结果均聚合至上一组采样结果中,直至全部采样结果完成聚合,得到所述图嵌入特征。
5.根据权利要求1所述的行为分类方法,其特征在于,所述通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征,包括:
将所述节点特征信息和所述图嵌入特征进行特征拼接,输入预设的GraphSAGE模型;
通过所述GraphSAGE模型对拼接后的所述节点特征信息和所述图嵌入特征进行特征融合,得到所述节点表征,并将所述节点表征输入所述GraphSAGE模型的数据库中。
6.根据权利要求1所述的行为分类方法,其特征在于,所述根据所述节点表征计算所述待预测用户与所述初始用户的关联度,包括:
根据所述节点表征和所述待预测用户信息计算所述待预测用户与所述初始用户在不同信息节点下的关联参数;
获取每一个所述信息节点对应的权重信息,并基于所述权重信息对所述关联参数进行加权计算,得到所述关联度。
7.根据权利要求6所述的行为分类方法,其特征在于,所述根据所述节点表征和所述待预测用户信息计算所述待预测用户与所述初始用户在不同信息节点下的关联参数,包括:
通过向量空间模型算法,在不同信息节点下分别计算所述待预测用户信息的关联度向量,并根据余弦相似度计算得到所述关联度向量与对应的节点表征之间的关联参数。
8.一种行为分类装置,其特征在于,包括:
特征信息获取模块,用于获取初始用户的初始用户信息以及与所述初始用户信息对应的信息节点,并获取所述信息节点的节点特征信息;
关系图谱生成模块,用于获取待预测用户的个人信息,在所述个人信息中查找与所述信息节点一致的目标节点,获取所述目标节点对应的待预测用户信息,并根据所述信息节点、所述待预测用户信息和所述初始用户信息生成所述初始用户的关系图谱;
节点表征计算模块,用于根据所述关系图谱计算每一个所述信息节点的图嵌入特征,获取包含行为分类函数的分类模型,并通过所述分类模型将所述节点特征信息和所述图嵌入特征进行拼接,得到节点表征;
关联度计算模块,用于根据所述节点表征计算所述待预测用户与所述初始用户的关联度;
行为分类模块,用于基于所述关联度识别所述待预测用户的分类方式,采用所述分类模型根据所述分类方式对所述待预测用户进行行为分类。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578388.8A CN114692785B (zh) | 2022-05-26 | 2022-05-26 | 行为分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578388.8A CN114692785B (zh) | 2022-05-26 | 2022-05-26 | 行为分类方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114692785A true CN114692785A (zh) | 2022-07-01 |
CN114692785B CN114692785B (zh) | 2022-09-09 |
Family
ID=82145548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210578388.8A Active CN114692785B (zh) | 2022-05-26 | 2022-05-26 | 行为分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114692785B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080871A (zh) * | 2022-07-07 | 2022-09-20 | 国家计算机网络与信息安全管理中心 | 一种跨社交网络社交用户对齐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413707A (zh) * | 2019-07-22 | 2019-11-05 | 百融云创科技股份有限公司 | 互联网中欺诈团伙关系的挖掘与排查方法及其*** |
CN112215604A (zh) * | 2020-10-15 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 交易双方关系信息识别方法及装置 |
CN112233798A (zh) * | 2020-12-16 | 2021-01-15 | 杭州智策略科技有限公司 | 基于病理模式与注意力机制的可解释疾病风险分析*** |
CN113761250A (zh) * | 2021-04-25 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 模型训练方法、商户分类方法及装置 |
-
2022
- 2022-05-26 CN CN202210578388.8A patent/CN114692785B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413707A (zh) * | 2019-07-22 | 2019-11-05 | 百融云创科技股份有限公司 | 互联网中欺诈团伙关系的挖掘与排查方法及其*** |
CN112215604A (zh) * | 2020-10-15 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 交易双方关系信息识别方法及装置 |
CN112233798A (zh) * | 2020-12-16 | 2021-01-15 | 杭州智策略科技有限公司 | 基于病理模式与注意力机制的可解释疾病风险分析*** |
CN113761250A (zh) * | 2021-04-25 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 模型训练方法、商户分类方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080871A (zh) * | 2022-07-07 | 2022-09-20 | 国家计算机网络与信息安全管理中心 | 一种跨社交网络社交用户对齐方法 |
CN115080871B (zh) * | 2022-07-07 | 2024-05-17 | 国家计算机网络与信息安全管理中心 | 一种跨社交网络社交用户对齐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114692785B (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165840B (zh) | 风险预测处理方法、装置、计算机设备和介质 | |
WO2020253358A1 (zh) | 业务数据的风控分析处理方法、装置和计算机设备 | |
CN108876600A (zh) | 预警信息推送方法、装置、计算机设备和介质 | |
CN109829629B (zh) | 风险分析报告的生成方法、装置、计算机设备和存储介质 | |
CN111291264B (zh) | 基于机器学习的访问对象预测方法、装置和计算机设备 | |
CN110598206A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN108491406B (zh) | 信息分类方法、装置、计算机设备和存储介质 | |
CN114611707A (zh) | 结合规则来进行机器学习的方法及*** | |
Chaudhary et al. | Envisaging Employee Churn Using MCDM and Machine Learning. | |
CN111506710B (zh) | 基于谣言预测模型的信息发送方法、装置和计算机设备 | |
CN111309881A (zh) | 智能问答中未知问题处理方法、装置、计算机设备和介质 | |
US20230237583A1 (en) | System and method for implementing a trust discretionary distribution tool | |
US11538029B2 (en) | Integrated machine learning and blockchain systems and methods for implementing an online platform for accelerating online transacting | |
CN114612251A (zh) | 风险评估方法、装置、设备及存储介质 | |
CN112905876A (zh) | 基于深度学习的信息推送方法、装置和计算机设备 | |
CN113112282A (zh) | 基于客户画像处理咨诉问题的方法、装置、设备及介质 | |
CN114692785B (zh) | 行为分类方法、装置、设备及存储介质 | |
Pena et al. | Bankruptcy prediction: A comparison of some statistical and machine learning techniques | |
Yavuz | A leading indicator approach with data mining techniques in analysing bitcoin market value | |
Zhang et al. | To be forgotten or to be fair: Unveiling fairness implications of machine unlearning methods | |
CN113343711B (zh) | 工单生成方法、装置、设备及存储介质 | |
Yet et al. | Estimating criteria weight distributions in multiple criteria decision making: a Bayesian approach | |
CN113723774A (zh) | 答题评分方法、装置、计算机设备和存储介质 | |
Geada et al. | TrustyAI explainability toolkit | |
CN117575773A (zh) | 业务数据的确定方法、装置、计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |