CN114676740A - 用户识别方法、装置、设备及存储介质 - Google Patents

用户识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114676740A
CN114676740A CN202110583938.0A CN202110583938A CN114676740A CN 114676740 A CN114676740 A CN 114676740A CN 202110583938 A CN202110583938 A CN 202110583938A CN 114676740 A CN114676740 A CN 114676740A
Authority
CN
China
Prior art keywords
target
application program
association
user
installation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110583938.0A
Other languages
English (en)
Inventor
周远远
吴春成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Cloud Computing Beijing Co Ltd
Priority to CN202110583938.0A priority Critical patent/CN114676740A/zh
Publication of CN114676740A publication Critical patent/CN114676740A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)

Abstract

本申请实施例公开了一种用户识别的方法、装置、设备及存储介质,其中,方法包括:获取针对目标业务的样本用户集合、样本用户集合中的样本用户所安装的目标应用程序、样本用户的用户属性、以及参考应用程序;统计参考应用程序被样本用户集合中的样本用户所安装对应的第一安装占比,根据第一安装占比对参考应用程序与目标业务之间的关联关系进行关联类别划分,得到参考关联类别;若目标应用程序与参考应用程序匹配,则确将参考关联类别,作为目标应用程序对应的目标关联类别;采用目标关联类别以及样本用户的用户属性,对用户识别模型进行调整,得到目标用户识别模型。通过本申请能够提高应用程序的区分度,提高用户识别模型的识别精度。

Description

用户识别方法、装置、设备及存储介质
技术领域
本申请涉及人工智能-机器学习相关的技术领域,尤其涉及一种用户识别方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,越来越多的用户参与到网络活动中,使用户在互联网上的行为数据呈海量增长,这些行为数据也变得越来越有价值。例如,用户安装的应用程序的行为数据被用来训练用户识别模型,基于用户识别模型得到的识别结果,向用户推荐其感兴趣的内容,如网络课程、游戏、音视频会员以及优惠券等等。
实践发现,在训练用户识别模型的过程中,所有的业务场景均是以通用特征对用户识别模型进行训练,导致用户识别模型的识别精度不高。例如,对于“信贷逾期”场景,由于安装有“金融理财”中的741类应用程序的用户的逾期率比较高,安装有东方财富、陆金所等金融理财类的应用的用户的逾期率反而比较低。此时,如果采用通用的“金融理财”分类特征对用户识别模型进行训练,使应用程序的区分度比较低,从而降低用户识别模型的识别精度。
发明内容
本申请实施例所要解决的技术问题在于,提供一种用户识别方法、装置、设备及存储介质,能够提高应用程序的区分度,提高用户识别模型的识别精度。
本申请实施例一方面提供一种用户识别方法,包括:
获取针对目标业务的样本用户集合、该样本用户集合中的样本用户所安装的目标应用程序、该样本用户的用户属性、以及与该目标业务之间具有关联关系的参考应用程序;
统计该参考应用程序被该样本用户集合中的样本用户所安装对应的第一安装占比,根据该第一安装占比对该参考应用程序与该目标业务之间的关联关系进行关联类别划分,得到参考关联类别;
若该目标应用程序与该参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,将该参考关联类别,作为该目标应用程序与该目标业务之间的关联关系对应的目标关联类别;
采用该目标关联类别以及该样本用户的用户属性,对用户识别模型进行调整,得到用于识别与该目标业务关联的目标用户的目标用户识别模型。
本申请实施例一方面提供一种用户识别装置,包括:
获取模块,用于获取针对目标业务的样本用户集合、该样本用户集合中的样本用户所安装的目标应用程序、该样本用户的用户属性、以及与该目标业务之间具有关联关系的参考应用程序;
划分模块,用于统计该参考应用程序被该样本用户集合中的样本用户所安装对应的第一安装占比,根据该第一安装占比对该参考应用程序与该目标业务之间的关联关系进行关联类别划分,得到参考关联类别;
确定模块,用于若该目标应用程序与该参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,将该参考关联类别,作为该目标应用程序与该目标业务之间的关联关系对应的目标关联类别;
调整模块,用于采用该目标关联类别以及该样本用户的用户属性,对用户识别模型进行调整,得到用于识别与该目标业务关联的目标用户的目标用户识别模型。
本申请一方面提供了一种计算机设备,包括:处理器及存储器;
其中,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行如下步骤:
获取针对目标业务的样本用户集合、该样本用户集合中的样本用户所安装的目标应用程序、该样本用户的用户属性、以及与该目标业务之间具有关联关系的参考应用程序;
统计该参考应用程序被该样本用户集合中的样本用户所安装对应的第一安装占比,根据该第一安装占比对该参考应用程序与该目标业务之间的关联关系进行关联类别划分,得到参考关联类别;
若该目标应用程序与该参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,将该参考关联类别,作为该目标应用程序与该目标业务之间的关联关系对应的目标关联类别;
采用该目标关联类别以及该样本用户的用户属性,对用户识别模型进行调整,得到用于识别与该目标业务关联的目标用户的目标用户识别模型。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令当被处理器执行时,以执行如下步骤:
获取针对目标业务的样本用户集合、该样本用户集合中的样本用户所安装的目标应用程序、该样本用户的用户属性、以及与该目标业务之间具有关联关系的参考应用程序;
统计该参考应用程序被该样本用户集合中的样本用户所安装对应的第一安装占比,根据该第一安装占比对该参考应用程序与该目标业务之间的关联关系进行关联类别划分,得到参考关联类别;
若该目标应用程序与该参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,将该参考关联类别,作为该目标应用程序与该目标业务之间的关联关系对应的目标关联类别;
采用该目标关联类别以及该样本用户的用户属性,对用户识别模型进行调整,得到用于识别与该目标业务关联的目标用户的目标用户识别模型。
本申请中,首先,电子设备可以通过统计参考应用程序被样本用户所安装对应的第一安装占比,根据第一安装占比对市面上的应用程序(即参考应用程序)与目标业务之间的关联关系进行关联类别划分,得到参考关联类别。然后,在目标应用程序与参考应用程序匹配时,确定目标应用程序与目标业务之间具有关联关系,将参考关联类别作为目标应用程序与目标业务之间的关联关系对应的目标关联类别。通过将目标应用程序与参考应用程序进行匹配的方式,以获取目标应用程序对应的目标关联类别,不需要针对每个样本用户所安装的目标应用程序计算对应的第一安装占比,以获取目标应用程序对应的目标关联类别,可以降低运算量,提高获取目标应用程序对应的目标关联类别的效率。进一步,可将目标关联类别和样本用户的用户属性作为特征,对用户识别模型进行训练,得到目标用户识别模型;在不同应用场景中,该参考应用程序对应的参考关联类别不相同,使目标应用程序对应的目标关联类别也不相同。也就是说,本申请可根据业务场景动态自适应构建用户识别模型的特征,可提高应用程序之间的区别度,进而提高用户识别模型的识别精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种用户识别***的架构示意图;
图2a是本申请提供的一种应用程序类别树的示意图;
图2b是本申请提供的一种应用程序类别树的示意图;
图3a是本申请提供的一种数据交互的场景示意图;
图3b是本申请提供的一种数据交互的场景示意图;
图4是本申请提供的一种用户识别方法的流程示意图;
图5是本申请提供的一种对用户识别模型进行训练的场景示意图;
图6是本申请提供的一种通过应用程序类别树确定目标关联类别的场景示意图;
图7是本申请提供的一种通过应用程序类别树确定目标关联类别的场景示意图;
图8是本申请提供的一种对用户识别模型进行训练的场景示意图;
图9是本申请实施例提供的一种用户识别装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大用户识别技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的用户识别方法主要涉及人工智能-机器学习技术,即通过对样本用户所安装的目标应用程序进行分析,以得到目标应用程序与目标业务之间的关联关系对应的目标关联类别,以目标关联类别、样本用户的用户属性作为特征对用户识别模型进行训练,得到用于识别与目标业务关联的目标用户的目标用户识别模型。可见,目标关联类别是根据业务场景动态自适应构建的,可提高应用程序的区分度,进而,提高用户识别模型的识别精度。
为了更清楚的解释本申请,首先介绍本申请实现用户识别方法所利用的用户识别***,如图1所示,该用户识别***中包括服务器10以及多个终端,如图1中以四个终端为例,分别与终端11、终端12、终端13以及终端14,各个终端分别与服务器10通过网络相连接,以便于每个终端可以通过网络连接与服务器10进行通信。
其中,服务器10可以是指用于为用户提供应用程序的后端设备,本申请中,服务器所提供的应用程序可以称为候选应用程序,即候选应用程序可以是指市面所上架的应用程序,候选应用程序可以被用户下载并安装;候选应用程序可以包括游戏应用程序、支付应用程序、购物应用程序、多媒体应用程序(如音视频应用程序)以及教育应用程序等等。服务器10还可以用于记录样本用户从该服务器10所下载并安装的目标应用程序,即目标应用程序可以是指样本用户所安装的应用程序中的任一应用程序;进一步,服务器10可用于对样本用户所安装的目标应用程序进行分析,并以分析结果以及样本用户的用户属性为特征对用户识别模型进行训练,并得到用于识别与目标业务关联的目标用户的目标用户识别模型。服务器10可以是独立的一个物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可理解的是,服务器10中与目标业务具有关联关系的候选应用程序可以称为参考应用程序,即参考应用程序可以是指相对于目标业务具有显著性特征的应用程序,也就是说,参考应用程序是指对目标业务具有正向或负向影响的应用程序。此处目标业务可以是指本申请应用的业务场景,即目标业务可以包括游戏业务场景、教育业务场景、信贷逾期业务场景等等。
例如,在信贷逾期业务场景中,即信贷逾期业务场景是指识别具有信贷逾期特征的用户的业务,通常安装有741类应用程序的用户逾期概率比较高,即741类应用程序对信贷逾期业务场景具有正向影响。而安装法制类应用程序的用户逾期概率比较低,即法制类应用程序对信贷逾期场景具有负向影响,也就是说,在信贷逾期场景中,741类应用程序和法制类应用程序具有显著性特征。同时,逾期概率比较高的用户和逾期比较低的用户中对某个社交应用程序的安装比例相差不大,即在信贷逾期场景中,社交应用程序不具有显著性特征。
可理解的是,为了便于区分,将参考应用程序与目标业务之间的关联关系对应的关联类别称为参考关联类别,该参考关联类别包括正相关、负相关,正相关是指参考应用程序对目标业务有正向影响,即安装有与目标业务具有正相关的参考应用程序的用户成为目标业务的目标用户的概率比较低;负相关是指参考应用程序对目标业务有负向影响,即安装有与目标业务具有负相关的参考应用程序的用户更成为目标业务的目标用户的概率比较低。
例如,在信贷逾期业务场景中,称741类应用程序与信贷逾期业务之间的关联关系对应关联类别为正相关,法制类应用程序与信贷逾期业务之间的关联关系对应关联类别为负相关。进一步的,按照参考应用程序与目标业务之间的关联度大小划分,正相关还可以细分为第一级正相关以及第二级正相关等等;属于第一级正相关的参考应用程序与目标业务之间的关联度,大于属于第二级正相关的参考应用程序与目标业务之间的关联度。同理,负相关可以细分为第一级负相关和第二级负相关;属于第一级负相关的参考应用程序与目标业务之间的关联度,小于属于第二级负相关的参考应用程序与目标业务之间的关联度。
可选的,服务器10可以根据目标业务的业务关键字确定参考应用程序与目标业务之间的业务关系,业务关系包括同类别关系和非同类别关系,同类别关系是指参考应用程序与目标业务之间属于同一个业务场景,非同类别是指参考应用程序与目标业务之间不属于同一个业务场景。例如,教育业务场景中,业务关键字可包括培训、学、教等等,如果参考应用程序中包括学或培训等业务关键字,则称参考应用程序属于教育业务场景,如果参考应用程序中未包括学或培训等业务关键字,则称参考应用程序不属于教育业务场景。参考应用程序与目标业务之间的业务关系可用于解释用户识别模型所输出的识别结果。
本申请中的应用程序类别树是用于描述参考应用程序与目标业务之间的关联关系对应的关联类别、以及参考应用程序与目标业务之间的业务关系的网络。该应用程序类别树包括根节点和多个叶子节点,根节点是指用于存储与目标业务之间具有关联关系的参考应用程序,即根节点用于存储具有显著性的应用程序,叶子节点用于具有不同关联类别的参考应用程序。
例如,如图2a所示,该应用程序类别树1包括三层,第一层包括用于存储所有参考应用程序的根节点15,二层包括第一叶子节点16和第二叶子节点17,第一叶子节点16用于存储与目标业务之间的关联关系对应的参考关联类别为正相关的参考应用程序,第二叶子节点17用于存储与目标业务之间的关联关系对应的参考关联类别为负相关的参考应用程序。第三层包括第三叶子节点18和第四叶子节点19,第三叶子节点18用于存储第二叶子节点中与目标业务之间的关联关系对应的参考关联类别为第一级正相关的参考应用程序,第四叶子节点19用于存储第二叶子节点中与目标业务之间的关联关系对应的参考关联类别为第二级正相关的参考应用程序。
可选的,如图2b所示,该应用程序类别树2包括四层,第一层包括用于存储所有参考应用程序的根节点20,第二层包括第一叶子节点21和第二叶子节点22,第一叶子节点21用于存储与目标业务之间的关联关系对应的参考关联类别为正相关的参考应用程序,第二叶子节点22用于存储与目标业务之间的关联关系对应的参考关联类别为负相关的参考应用程序。第三层包括第三叶子节点23和第四叶子节点24、第五叶子节点25和第六叶子节点26,第三叶子节点23用于存储第一叶子节点21中与目标业务之间的业务关系为同类别关系的参考应用程序,第四叶子节点24用于存储第一叶子节点21中与目标业务之间的业务关系为同类别关系的参考应用程序。第五叶子节点25用于存储第二叶子节点22中与目标业务之间的业务关系为同类别关系的参考应用程序,第六叶子节点26用于存储第二叶子节点22中与目标业务之间的业务关系为同类别关系的参考应用程序。第四层包括第七叶子节点27和第八叶子节点28,第七叶子节点27用于存储第三叶子节点中与目标业务之间的关联关系对应的参考关联类别为第一级正相关的参考应用程序,第八叶子节点28用于存储第三叶子节点中与目标业务之间的关联关系对应的参考关联类别为第二级正相关的参考应用程序。当然第四叶子节点,第五叶子节点以及第六叶子节点中的参考应用程序可参照第三叶子节点进行划分,得到更多叶子节点,在此不再赘述。
其中,终端可以是指面向用户的设备,终端可是指样本用户用于从服务器中下载并安装目标应用程序的设备,即此处目标应用程序可以是指上述候选应用程序中的任一应用程序。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车联、智能电视等,但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请中的用户属性可以包括年龄、性别、户籍等等,上述样本用户可以是指用于训练用户识别模型的数据所属的用户,样本用户可以包括正样本用户和负样本用户,正样本用户可以是指目标人群,负样本用户可以是指非目标人群,目标人群可以是指在业务场景中所关注的用户集合。本申请中,正样本用户可以是指对某个业务感兴趣的用户,非样本用户是指对某个业务不感兴趣的用户。例如,在游戏业务场景中,正样本用户可以对游戏感兴趣的用户,如安装游戏应用程序的用户;负样本用户是指对游戏不感兴趣的用户,如未安装游戏应用程序的用户。
为便于理解,进一步的,请参见图3a和图3b,是本申请实施例提供的一种数据交互的场景示意图。其中,如图3a和图3b所示的应用服务器可以为上述服务器10,且如图3a和图3b所示的终端可以为在上述图1所对应实施例的终端11~终端14中的任一终端,比如,该终端可以为上述终端11。
如图3a和图3b所示,以教育业务场景为例进行说明,如当需要向用户推送某个编程网络课程时,为了实现精准推送,并降低推送成本,需要获取对该编程网络课程感兴趣的目标用户,仅向目标用户推荐该编程网络程序,可以提高推送效果,并降低推送成本。
具体的,s1、服务器获取针对编程网络课程的样本用户集合,该样本用户集合中的样本用户可以是指下载并安装了该服务器中的应用程序的用户,该样本用户集合中包括正样本用户和负样本用户。正样本用户可以是指已经购买编程网络课程的用户、安装有编程应用程序的用户,相应地,负样本用户可以是指样本用户集合中除正样本用户以外的用户。
s2、服务器建立应用程序类别树。
a、服务器可以获取候选应用程序在正样本用户和负样本用户中的安装份额。候选应用程序在正样本用户中的安装份额是指正样本用户中安装该候选应用程序的比例,候选应用程序在正样本用户中的安装份额可根据如下公式(1)计算得到。
Figure BDA0003087377120000091
其中,公式(1)中,P1表示正样本用户安装候选应用程序的安装份额,Z表示正样本用户中安装候选应用程序的用户数量,即正样本用户中安装候选应用程序的安装量,R1是指正样本用户数量。同理,候选应用程序在负样本用户中的安装份额是指负样本用户中安装该候选应用程序的比例,候选应用程序在负样本用户中的安装份额可以根据如下公式(2)计算得到。
Figure BDA0003087377120000092
其中,公式(2)中,P2表示负样本用户安装候选应用程序的安装份额,H表示负样本用户中安装候选应用程序的用户数量,即负样本用户中安装候选应用程序的安装量,R2是指负样本用户数量。
b、服务器可以根据候选应用程序在正样本用户和负样本用户中的安装份额,确定候选应用程序被样本用户所安装对应的安装占比,该安装占比可以称为显著性指数,该显著性性指数可以根据如下公式(3)计算得到。
Figure BDA0003087377120000101
其中,公式(2)中,Q表示候选应用程序被样本用户所安装对应的安装占比。
c、挑选具有显著性特征的候选应用程序,作为参考应用程序,将参考应用程序添加至应用程序类别树的根节点中。Q的值越大,表明正样本用户中安装该候选应用程序的用户比较多;Q的值越小,表明正样本用户中安装该候选应用程序的用户比较少。即当显著性指数大于第一安装占比阈值,表明该候选应用程序对目标业务具有正向影响;当显著性指数小于第二安装占比阈值时,表明候选应用程序对目标业务具有负向影响;当显著性指数小于或等于第一安装占比阈值,且大于或等于第二安装占比阈值,表明候选应用程序对目标业务的影响比较小或没有影响,可以忽略。因此,可以筛选出显著性指数大于第一安装占比阈值的候选应用程序,以及显著性指数小于第二安装占比阈值的候选应用程序,作为具有显著性特征的参考应用程序,将参考应用程序添加至应用程序类别树的根节点中。其中,第一安装占比阈值大于第二安装占比阈值,可选的,第一安装占比阈值可以大于100,如可以为120,第二安装占比阈值可以为100与第一安装占比阈值之间的比值。
d、配置应用程序类别树的第二层,第二层包括第一叶子节点和第二叶子节点。将显著性指数大于第一安装占比阈值的参考应用程序添加至第一叶子节点中,确定第一叶子节点中的参考应用程序与目标业务之间的关联关系对应的关联类别为正相关;将显著性指数小于第二安装占比阈值的参考应用程序添加至第二叶子节点中,确定第二叶子节点中的参考应用程序与目标业务之间的关联关系对应的关联类别为负相关。
e、基于应用程序类别树的第二层,按照参考应用程序是否包含与目标业务的业务关键字,拆分得到与目标业务具有同类别关系的参考应用程序,以及与目标业务之间具有非通类别关系的参考应用程序,基于此配置应用程序类别树的第三层。业务关键字可以进行自定义,教育业务场景中,业务关键字可包括“学“、”培训“等关键字。此处对第二层的配置可以参见图2b,在此不再赘述。
d、配置应用程序类别树的第四层,按照参考应用程序对应的显著性指数对第三叶子节点中的参考应用程序进行排序,如按照参考应用程序对应的显著性指数从大到小的顺序,对第三叶子节点中的参考应用程序进行排序。按照排列顺序,依次累计各个参考应用程序的覆盖率,得到覆盖率和,根据覆盖率和将第三叶子节点中的参考应用程序划分为多个分组,每个分组中的参考应用程序对应覆盖率之和大于覆盖率阈值。如图2b中将根据覆盖率和将第三叶子节点中的参考应用程序划分为两个分组,该分组包括第一分组和第二分组,将属于第一分组的参考应用程序添加至第七叶子节点中,将属于第二分组的参考应用程序添加至第八叶子节点中。其中,每个分组内的参考应用程序对应的覆盖率和大于第一覆盖率阈值,小于第二覆盖率阈值。第七叶子节点中的参考应用程序与目标业务之间的关联关系对应的参考关联类别为第一级正相关,第八叶子节点中的参考应用程序与目标业务之间的关联关系对应的参考关联类别为第二级正相关。其中,参考应用程序的覆盖率可以是指根据参考应用程序被样本用户安装对应的安装量与样本用户总数的比值。
e、在获取到应用程序类别树后,可以查询样本用户所下载的目标应用程序中属于应用程序类别树的各个叶子节点的应用程序数量。
s3、以该应用程序数量以及样本用户的用户属性对用户识别模型进行训练,得到目标用户识别模型。
s4、服务器扩散目标用户。服务器可以查询候选用户历史所安装的历史应用程序中属于应用程序类别树的叶子节点中应用程序数量,以及历史应用程序与目标业务之间的关联关系对应的关联类别。采用目标用户识别模型对历史应用程序数量、历史应用程序与目标业务之间的关联关系对应的关联类别进行识别,得到每个候选用户的概率,该概率用于反映候选用户与目标业务之间的关联程度;即概率越大,关联程度越大;概率越小,关联程度越小。根据需求以及概率从候选用户中选择目标业务对应目标用户;其中,候选用户可以是指应用程序列表中的全量用户,上述样本用户可以是指应用程序列表中的部分用户,应用程序列表包括下载过服务器中的应用程序的用户。
例如,如图3b中,用户可以在服务器的用户界面29上配置目标业务,如配置该目标业务所需要扩散的用户数量(即选择头部量级)、输出用户ID类型(电话号码、登录账户等)、业务名称(即任务名称),用户识别模型的ID等等。创建该目标业务后,服务器可以根据目标用户的历史应用程序对应关联类别、以及用户属性,选择出属于目标业务的目标用户。
可选的,当获取到扩散的目标用户后,服务器可以在用户界面上输出表1,表1包括目标业务的目标用户的业务名称、识别状态、用户识别模型的ID、投放量级以及目标业务相关的操作选项。该目标业务相关的操作选项包括下载、删除、复制、查看详情、重新提交等选项,下载选项用于下载属于该目标业务的目标用户的名单。删除选项用于删除目标业务的相关的信息(如目标用户的名单);复制选项用于复制目标业务的相关信息;重新提交选项用于触发目标用户识别模型重新获取与目标业务对应的目标用户;投放量级是指每次向目标用户推送与目标业务相关的内容的用户数量。该表1还可以包括目标业务所属的客户名称、客户类型、业务创建人、取头部量级以及创建时间等等信息;取头部量级是指需要获取与目标业务关联的目标用户对应用户总数。由表1可知,业务场景1所使用的模型ID为241,业务场景2所使用的模型ID为242,即不同业务场景所使用的用户识别模型不同,可提高获取目标业务对应的目标用户的精度。
表1:
Figure BDA0003087377120000121
可选的,在服务器获取到目标用户后,可以将包括目标用户的用户名单发送至终端,由终端向目标用户推送与目标业务相关的内容;或者,服务器可以直接向目标用户推送与目标业务相关的内容。如图3a和图3b中,服务器可以向目标用户推送编程网络课程。需要说明的是,上述步骤s1~s4可以由服务器来实现,也可以由终端来实现;也可以由终端和服务器协作来实现,如服务器可以实现步骤s1~s3,终端可实现步骤s4。
进一步地,请参见图4,是本申请实施例提供的一种用户识别方法的流程示意图。如图4所示,该方法可以由电子设备来执行,即该电子设备可以为图1中的服务器,即该方法可由服务器来执行;或者,该电子设备可以为图1中的终端,即该方法可由终端来执行;或者,电子设备可以为图1中的终端和服务器,即该方法可以由终端和服务器共同执行。其中,该方法至少可以包括以下S101-S104:
S101、获取针对目标业务的样本用户集合、该样本用户集合中的样本用户所安装的目标应用程序、该样本用户的用户属性、以及与该目标业务之间具有关联关系的参考应用程序。
具体的,电子设备可以应用程序供应设备(如上述服务器)中获取应用程序列表,该应用程序列表中包括下载过该应用程序供应设备中的应用程序的用户,每个用户所下载并安装的目标应用程序等信息。可以从应用程序列表中选取部分用户作为样本用户,该样本用户包括正样本用户和负样本用户,正样本用户是指被标注与目标业务相关联的样本用户,负样本用户是指被标注与目标业务不相关的样本用户。并从应用程序供应设备所提供的应用程序中筛选出与目标业务之间具有关联关系的参考应用程序,即参考应用程序是指具有显著性特征的应用程序。
S102、统计该参考应用程序被该样本用户集合中的样本用户所安装对应的第一安装占比。
具体的,电子设备可以根据样本用户所安装的应用程序,统计该参考应用程序被样本用户集合中的正样本用户所安装对应的安装占比,以及被样本用户集合中的负样本用户所安装对应的安装占比,根据样本集合中正样本用户对应的安装占比与负样本用户对应的安装占比确定第一安装占比。
S103、根据该第一安装占比对该参考应用程序与该目标业务之间的关联关系进行关联类别划分,得到参考关联类别。
具体的,如果第一安装占比越大,表明正样本用户中安装该参考应用程序的安装占比比较高,即正样本用户更喜欢安装该参考应用程序,即该参考应用程序对目标业务具有正向影响;如果第一安装占比越小,表明负样本用户中安装该参考应用程序的安装占比比较高,即负样本用户更喜欢安装该参考应用程序,即该参考应用程序对该目标业务具有负向影响。因此,可以根据该第一安装占比对该参考应用程序与目标业务之间的关联关系进行关联划分,得到参考关联类别;即根据第一安装占比对该参考应用程序与目标业务之间的关联关系进行分段划分,得到参考关联类别。也就是说,对于不同业务场景,参考应用程序对应的参考关联类别不同,即根据业务场景确定参考应用程序对应参考关联类别,提高获取参考应用程序对应的参考关联类别的准确度。
S104、若该目标应用程序与该参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,将该参考关联类别,作为该目标应用程序与该目标业务之间的关联关系对应的目标关联类别。
具体的,将该目标应用程序的名称和该参考应用程序的名称进行比对,如果该目标应用程序的名称和该参考应用程序的名称相同,则确定目标应用程序与参考应用程序匹配;此处参考应用程序的名称和目标应用程序的名称均可以是指应用程序的安装包名。由于同一应用程序发布至不同平台,该应用程序对应的名称存在不一致的情况,因此,当该目标应用程序的名称和参考应用程序的名称均指示同一应用程序,则确定该目标应用程序与参考应用程序匹配。即目标应用程序与参考应用程序匹配,表明目标应用程序与参考应用程序属于同一应用程序,由于参考应用程序与目标业务之间具有关联关系,因此,可以确定目标应用程序与该目标业务之间具有关联关系,并将该参考关联类别,作为该目标应用程序与该目标业务之间的关联关系对应的目标关联类别。通过目标应用程序与参考应用程序进行匹配的方式,以获取目标应用程序对应的目标关联类别,不需要针对每个样本用户所安装的目标应用程序计算对应的第一安装占比,以获取目标应用程序对应的目标关联类别,可以降低运算量,提高获取目标应用程序对应的目标关联类别的效率。
例如,参考应用程序为应用程序A,样本用户1-样本用户3均安装了应用程序A,只需要针对应用程序A计算一次第一安装占比,根据应用程序A对应的第一安装占比确定对应的参考关联类别。可将样本用户1-样本用户3所安装的应用程序A与参考应用程序进行匹配的方式,获取样本用户1-样本用户3所安装的应用程序A对应的目标关联类别,不需要对样本用户1-样本用户3所安装的应用程序A分别计算对应的第一安装占比,可降低计算量,提高获取目标应用程序对应的目标关联类别的效率。
S105、采用该目标关联类别以及该样本用户的用户属性,对用户识别模型进行调整,得到用于识别与该目标业务关联的目标用户的目标用户识别模型。
具体的,获取到目标关联类别后,可以以该目标关联类别、样本用户的用户属性作为特征,对该用户识别模型进行训练;即采用该目标关联类别以及该样本用户的用户属性,对用户识别模型的参数进行调整,将调整后的用户识别模型作为目标用户识别模型。该目标用户识别模型用于识别与目标业务关联的目标用户,目标用户可以是指对目标业务感兴趣的用户;或者,目标用户是指与目标业务的业务特征相契合的用户;如信贷逾期业务场景中,目标用户是指具有信贷逾期特征的概率比较高的用户。可见,通过根据业务场景确定目标应用程序与目标业务之间的关联关系对应的目标关联类别,将目标关联类别和用户属性作为特征,对用户识别模型进行训练;也就是说,根据业务场景动态自适应构建用户识别模型的特征,提高特征的精准度,进而,提高用户识别模型的识别准确度。
例如,如图5中,在教育业务场景中,需要采用用户属性以及与该教育业务场景关联的目标应用程序对应的目标关联类别对用户识别模型进行训练;在游戏业务场景中,需要采用用户属性以及与该游戏业务场景关联的目标应用程序对应的目标关联类别对用户识别模型进行训练。由于不同业务场景下,对应的目标应用程序不一致,样本用户也存在差异,使目标应用程序对应的关联类别也不一致;因此,可以称目标应用程序对应的目标关联类别为个性化特征,该个性化特征是根据业务场景动态自适应构建的。通过采用业务场景下的个性化特征和通用特征(即用户属性)对用户识别模型进行训练,提高用户识别模型的识别精度。
本申请中,首先,电子设备可以通过统计参考应用程序被样本用户所安装对应的第一安装占比,根据第一安装占比对市面上的应用程序(即参考应用程序)与目标业务之间的关联关系进行关联类别划分,得到参考关联类别。然后,在目标应用程序与参考应用程序匹配时,确定目标应用程序与目标业务之间具有关联关系,将参考关联类别作为目标应用程序与目标业务之间的关联关系对应的目标关联类别。通过目标应用程序与参考应用程序进行匹配的方式,以获取目标应用程序对应的目标关联类别,不需要针对每个样本用户所安装的目标应用程序计算对应的第一安装占比,以获取目标应用程序对应的目标关联类别,可以降低运算量,提高获取目标应用程序对应的目标关联类别的效率。进一步,可将目标关联类别和样本用户的用户属性作为特征,对用户识别模型进行训练,得到目标用户识别模型;在不同应用场景中,该参考应用程序对应的参考关联类别不相同,使目标应用程序对应的目标关联类别也不相同。也就是说,本申请可根据业务场景动态自适应构建用户识别模型的特征,可提高应用程序之间的区别度,进而提高用户识别模型的识别精度。
可选的,上述步骤S101中获取与该目标业务之间具有关联关系的参考应用程序的具体方式包括如下步骤s11~s14:
s11、获取应用程序安装列表,该应用程序安装列表中包括候选应用程序。
s12、统计该候选应用程序被该样本用户集合中的样本用户所安装对应的第二安装占比。
s13、根据该第二安装占比从该应用程序列表中筛选出具有显著性特征的候选应用程序。
s14、将具有显著性特征的候选应用程序,作为与该目标业务之间具有关联关系的参考应用程序。
在步骤s11~s14中,电子设备可以从市面上的候选应用程序中筛选出具有显著性特征的候选应用程序,作为参考应用程序。具体的,电子设备可以获取应用程序安装列表,该应用程序安装列表中包括可供安装的候选应用程序,统计该候选应用程序被该样本用户集合中的样本用户所安装对应的第二安装占比;即第二安装占比根据候选应用程序被正样本用户所安装对应的安装占比,和候选应用程序被负样本用户所安装对应的安装占比确定的。进而,根据该第二安装占比从该应用程序列表中筛选出具有显著性特征的候选应用程序;即具有显著性特征的候选应用程序是指对目标业务具有正向影响或负向影响的应用程序。然后,可将具有显著性特征的候选应用程序,作为与该目标业务之间具有关联关系的参考应用程序;后续只需要对具有显著性特征的参考应用程序进行分析,不需要对市面所有的应用程序进行分析,可提高对应用程序进行分析的效率,并可节省成本。
可选的,上述步骤s12中可包括如下步骤s21或步骤s22:
s21、将该应用程序安装列表中该第二安装占比大于第一安装占比阈值的候选应用程序,作为具有显著性特征的候选应用程序;或者,
s23、将该应用程序安装列表中该第二安装占比小于第二安装占比阈值的候选应用程序,作为具有显著性特征的候选应用程序;该第一安装占比阈值大于该第二安装占比阈值。
在步骤s21和步骤s22中,当候选应用程序对应的第二安装占比大于第一安装占比时,表明正样本用户更喜欢安装该候选应用程序,即该候选应用程序对目标业务具有正向影响;当候选应用程序对应的第二安装占比小于第二安装占比时,表明负样本用户更喜欢安装该候选应用程序,即该候选应用程序对目标业务具有负向影响。当候选应用程序对应的第二安装占比大于第二安装占比,且小于第一安装占比时,表明正样本用户和负样本用户均喜欢安装该候选应用程序,即该候选应用程序对目标业务的影响比较小或者不具有影响。因此,电子设备可以从将该应用程序安装列表中该第二安装占比大于第一安装占比阈值的候选应用程序,作为具有显著性特征的候选应用程序;或者,可以将该应用程序安装列表中该第二安装占比小于第二安装占比阈值的候选应用程序,作为具有显著性特征的候选应用程序。可过滤掉对应的第二安装占比大于或等于第二安装占比,且小于或等于第一安装占比的候选应用程序,后续不需要对不具备显著性的候选应用程序进行分析,可提高对应用程序进行分析的效率,并节省成本。
可选的,该样本用户集合中的样本用户包括正样本用户和负样本用户,该正样本用户为该样本用户集合中被标注为与该目标业务相关联的样本用户,该负样本用户为该样本用户集合中被标注为与该目标业务不相关的样本用户;
可选的,上述步骤S102可包括如下步骤s31~s32:
s31、统计该样本用户集合中的正样本用户安装该参考应用程序的第一安装份额,以及该样本用户集合中的负样本用户安装该参考应用程序的第二安装份额。
s32、根据该第一安装份额与该第二安装份额确定该第一安装占比。
在步骤s31~s32中,电子设备可以将正样本用户中对参考应用程序的安装占比,作为正样本用户安装该参考应用程序的第一安装份额;将负样本用户对参考应用程序的安装占比,作为负样本用户安装该参考应用程序的第二安装份额。然后,可根据该第一安装份额和第二安装份额确定第一安装占比;其中,计算第一安装占比的具体方式可参见上述公式(3),在此不再赘述。
可选的,上述步骤s31可包括如下步骤s41~s43:
s41、统计该样本用户集合中的正样本用户数量、负样本用户数量、该正样本用户中安装该参考应用程序的第二安装量、该负样本用户安装该参考应用程序的第三安装量。
s42、将该第二安装量与该正样本用户数量之间的比值作为该第一安装份额。
s43、将该第三安装量与该负样本用户数量之间的比值作为该第二安装份额。
在步骤s41~s43中,第一安装份额越大,表明正样本用户中安装该参考应用程序的用户数量越多;即正样本用户更喜欢安装该参考应用程序;第一安装份额越小,表明正样本用户中安装该参考应用程序的用户数量越少;即正样本用户不太喜欢安装该参考应用程序。同理,第二安装份额越大,表明负样本用户中安装该参考应用程序的用户数量越多;即负样本用户更喜欢安装该参考应用程序;第二安装份额越小,表明负样本用户中安装该参考应用程序的用户数量越少;即负样本用户不太喜欢安装该参考应用程序。
可选的,上述步骤S103可包括如下步骤s51~s54:
s51、获取应用程序类别树;该应用程序类别树包括根节点、以及与该根节点相连接的第一叶子节点和第二叶子节点。
s52、将该参考应用程序添加至该应用程序类别树的根节点中。
s53、若该第一安装占比大于第一安装占比阈值,则将该参考应用程序添加至该第一叶子节点中,确定该参考关联类别为正相关。
s54、若该第一安装占比小于第二安装占比阈值,则将该参考应用程序添加至该第二叶子节点中,确定该参考关联类别为负相关;该第一安装占比阈值大于该第二安装占比阈值。
在步骤s51~s54中,电子设备可以将参考应用程序添加至应用程序类别树中;该应用程序类别树包括根节点、与根节点相连接的第一叶子节点和第二叶子节点。根节点用于存储与目标业务之间具有关联关系的参考应用程序,第一叶子节点用于存储根节点中对应目标关联类别为正相关的参考应用程序,第二叶子节点用于存储根节点中对应目标关联类别为正相关的参考应用程序。因此,可以将参考应用程序添加至根节点中,若该第一安装占比大于第一安装占比阈值,表明正样本用户更喜好安装该参考应用程序,即该参考应用程序对目标业务具有正向影响,则将该参考应用程序添加至该第一叶子节点中,确定该参考关联类别为正相关。若该第一安装占比小于第二安装占比阈值,表明负样本用户更喜好安装该参考应用程序,即该参考应用程序对目标业务具有负向影响,则将该参考应用程序添加至该第二叶子节点中,确定该参考关联类别为负相关。通过建立应用程序类别树,有利于快速查询目标应用程序对应的目标关联类别,提高确定目标应用程序的目标关联类别的效率。
在此实施例中,上述步骤S104可包括如下步骤s61~s64:
s61、遍历该应用程序类别树的根节点,若该目标应用程序与该根节点中的参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,根据该应用程序类别树的节点路径,遍历该第一叶子节点。
s62、若该目标应用程序与该第一叶子节点中的参考应用程序匹配,则确定该目标关联类别为正相关。
s63、若该目标应用程序与该第一叶子节点中的参考应用程序不匹配,则根据该应用程序类别树的节点路径,遍历该第二叶子节点。
s64、若该目标应用程序与该第二叶子节点中的参考应用程序匹配,则确定该目标关联类别为负相关。
在步骤s61~s64中,如图6所示,电子设备可以通过应用程序类别树查询目标应用程序与目标业务之间关联关系对应目标关联类别。具体的,电子设备可以遍历应用程序类别树的根节点,若目标应用程序与根节点中的参考应用程序不匹配,表明该目标应用程序与目标业务之间不具有关联关系,即目标应用程序不具有显著性,可以结束本流程。若该目标应用程序与该根节点中的参考应用程序匹配,表明目标应用程序具有显著性特征,则确定该目标应用程序与该目标业务之间具有关联关系,进一步,可根据该应用程序类别树的节点路径,遍历该第一叶子节点。如果该目标应用程序与该第一叶子节点中的某个参考应用程序匹配,则确定该目标关联类别为正相关;如果该目标应用程序与该第一叶子节点中的参考应用程序不匹配,表明目标应用程序不属于第一叶子节点,则可根据该应用程序类别树的节点路径,遍历该第二叶子节点。若该目标应用程序与该第二叶子节点中的参考应用程序匹配,则确定该目标关联类别为负相关。应用程序类别数的节点路径可以是指从上到下,从左到右,当然也可以是其他方式,在此不做限定。通过查询应用程序类别树,确定目标应用程序对应的目标关联类别,提高确定目标应用程序对应的目标关联类别的效率,并降低运算量,降低成本。
可选的,该正相关包括第一级正相关和第二级正相关,该应用程序类别树还包括与该第一叶子节点相连接的第三叶子节点和第四叶子节点;
上述步骤s53可包括如下步骤s71~s76:
s71、若该第一安装占比大于第一安装占比阈值,则将该参考应用程序添加至该第一叶子节点中,获取该参考应用程序被该样本用户安装的第一安装量。
s72、根据该第一安装量确定该参考应用程序的覆盖率,按照该第一安装占比对该参考应用程序进行排序。
s73、按照排列顺序,依次累计该参考应用程序的覆盖率,得到覆盖率和。
s74、根据该覆盖率和对该参考应用程序进行分组,得到第一分组和第二分组。
s75、若该参考应用程序属于该第一分组,则将该参考应用程序添加至该第三叶子节点中,确定该参考关联类别为第一级正相关。
s76、若该参考应用程序属于该第二分组,则将该参考应用程序添加至该第四叶子节点中,确定该参考关联类别为第二级正相关,该第一分组内的参考应用程序对应的第一安装占比大于该第二分组内的参考应用程序对应的第一安装占比。
在步骤s71~s76中,如图2a所示,该正相关包括第一级正相关和第二级正相关,该应用程序类别树还包括与该第一叶子节点相连接的第三叶子节点和第四叶子节点;第三叶子节点用于存储第一叶子节点中与目标业务之间的关联关系属于第一级正相关类别的参考应用程序,第四叶子节点用于存储第一叶子节点中与目标业务之间的关联关系属于第二级正相关类别的参考应用程序。其中,属于第一级正相关的参考应用程序与目标业务之间的关联度大于属于第二级正相关的参考应用程序与目标业务之间的关联度。因此,若该第一安装占比大于第一安装占比阈值,表明参考应用程序对目标业务具有正向影响,则将该参考应用程序添加至该第一叶子节点中,获取该参考应用程序被该样本用户安装的第一安装量。将第一安装量与正样本用户总数之间的比值作为该参考应用程序的覆盖率,按照该第一安装占比从大到小的顺序,或者,按照从小到大的顺序对该参考应用程序进行排序。进一步,按照排列顺序,依次累计该参考应用程序的覆盖率,得到覆盖率和。根据覆盖率和将参考应用程序分别划分为至少两个分组,此处以分组包括第一分组和第二分组为例。该第一分组内各个参考应用程序对应的第一安装占比均大于该第二分组内的参考应用程序对应的第一安装占比;且第一分组内、第二组内的应用程序对应的覆盖率和大于第一覆盖率阈值且小于第二覆盖率阈值。若该参考应用程序属于该第一分组,则将该参考应用程序添加至该第三叶子节点中,确定该参考关联类别为第一级正相关;若该参考应用程序属于该第二分组,则将该参考应用程序添加至该第四叶子节点中,确定该参考关联类别为第二级正相关。通过根据覆盖率知对参考应用程序对应的正相关进一步细分为第一级正相关和第二级正相关,可为训练用户识别模型提供更加精细的信息量,并提高用户识别模型的识别精度;可确保应用程序的区分度,并可确保参考应用程序的覆盖率。
例如,在信贷逾期业务场景中,以与该业务场景关联的参考应用程序包括APP1-APP8为例,第一安装占比与各个参考应用程序对应的参考关联类别如表2所示。假设第一安装占比阈值为120,第二安装占比阈值为45;从表2可知,APP1、APP5、APP8的第一安装占比均大于第一安装占比阈值,其对应的参考关联类别均为第一级正相关。APP2、APP3、APP4、APP6、APP7的第一安装占比均大于第二安装占比阈值,APP3、APP4、APP6、APP7对应的参考关联类别均为负相关,APP2对应的参考关联类别为第一级负相关。
表2:
应用程序名称 第一安装占比 参考关联类别
APP1 300 第一级正相关
APP2 20 第一级负相关
APP3 40 负相关
APP4 40 负相关
APP5 430 第一级正相关
APP6 30 负相关
APP7 40 负相关
APP8 3420 第一级正相关
…… …… ……
可选的,上述步骤s62可包括如下步骤s81~s84:
s81、若该目标应用程序与该第一叶子节点中的参考应用程序匹配,则根据该应用程序类别树的节点路径,遍历该第三叶子节点。
s82、若该目标应用程序与该第三叶子节点中的参考应用程序匹配,则确定该目标关联类别为第一级正相关。
s83、若该目标应用程序与该第三叶子节点中的参考应用程序不匹配,则根据该应用程序类别树的节点路径,遍历该第四叶子节点。
s84、若该目标应用程序与该第四叶子节点中的参考应用程序匹配,则确定该目标关联类别为第二级正相关。
在上述步骤s81~s84中,如图7中,当目标关联类别属于正相关时,电子设备可以进一步确定目标关联类别属于第一级正相关还是第二级正相关。具体的,若该目标应用程序与该第一叶子节点中的参考应用程序匹配,表明目标应用程序与目标业务之间的目标关联类别属于正相关,则根据该应用程序类别树的节点路径,遍历该第三叶子节点。若该目标应用程序与该第三叶子节点中的参考应用程序匹配,则确定该目标关联类别为第一级正相关。若该目标应用程序与该第三叶子节点中的参考应用程序不匹配,则根据该应用程序类别树的节点路径,遍历该第四叶子节点。若该目标应用程序与该第四叶子节点中的参考应用程序匹配,则确定该目标关联类别为第二级正相关。通过应用程序类别树,可查询目标应用程序对应的正相关所属的级别,即可将目标应用程序细分为属于第一级正相关的目标应用程序和属于第二级正相关的目标应用程序,可为训练用户识别模型提供更加细节的特征信息,提高用户识别模型的识别精度。
可选的,上述步骤S105可包括如下步骤s91~s94:
s91、统计该样本用户安装的目标应用程序中具有该目标关联类别的应用程序数量。
s92、获取该样本用户的标注关联标签,该标注关联标签用于反映该样本用户与该目标业务是否具有关联关系。
s93、采用该用户识别模型对该应用程序数量以及该样本用户的用户属性进行关联性识别,得到预测关联标签。
s94、根据该标注关联标签和该预测关联标签,对该用户识别模型进行调整,得到该目标用户识别模型。
在步骤s91~s94中,如图8中,电子设备可以统计该样本用户安装的目标应用程序中具有该目标关联类别的应用程序数量,并获取样本用户的标注关联标签,样本用户的标注关联标签是人工标注的,用于反映样本用户是否与目标业务之间具有关联关系。进一步,可采用该用户识别模型对该应用程序数量以及该样本用户的用户属性进行关联性识别,得到预测关联标签;如果标注关联标签与预测关联标签比较接近,表明用户识别模型的识别误差比较低;相反,如果标注关联标签与预测关联标签相差比较大,表明用户识别模型的识别误差比较高。因此,可以根据标注关联标签与预测关联标签计算用户识别模型的识别误差,当该识别误差小于误差阈值,表明该用户识别模型的准确度比较高,将该用户识别模型作为目标用户识别模型。当该识别误差大于或等于误差阈值,表明该用户识别模型的准确度比较低,根据该识别误差对用户识别模型进行调整,当调整后的用户识别模型的误差大于误差阈值时,将调整后的用户识别模型作为目标用户识别模型。通过根据样本用户安装属于目标关联类别的目标应用程序对应的数量、以及用户属性对用户识别模型进行训练,可提高用户识别模型的识别精度。
可选的,该方法还可包括如下步骤s111~s113:
s111、接收针对该预测关联标签的解释请求;根据该解释请求提取与该目标业务关联的业务关键字。
s112、对该业务关键字与该目标应用程序进行比对,确定该目标应用程序与该目标业务之间的业务关系。
s113、采用该业务关系生成解释信息,该解释信息用于解释该业务关系对该预测关联标签的影响因子。
在步骤s111~s113中,电子设备可以根据业务关键字,确定目标应用程序与目标业务之间的业务关系。具体的,电子设备可接收针对该预测关联标签的解释请求,根据该解释请求提取与该目标业务关联的业务关键字;目标业务的业务关键字可以是指目标业务名称所包括的字段、或者目标业务对应的业务名称中的字段。进一步,对该业务关键字与该目标应用程序进行比对,确定该目标应用程序与该目标业务之间的业务关系,目标应用程序与目标业务之间的业务关系包括同类别关系和非同类别关系,同类别关系用于指示目标应用程序与目标业务属于同一个业务场景,非同类别关系用于指示目标应用程序与目标业务不属于同一个业务场景。例如,目标业务为推送编程网络课程业务中,目标业务关键字包括培训,如果目标应用程序为培训应用程序,表明目标应用程序和推送编程网络课程均属于教育场景。通常属于同类别的目标应用程序对目标业务也具有正向影响,非同类别的目标应用程序对目标业务具有负向影响。因此,采用该业务关系生成解释信息,该解释信息用于解释该业务关系对该预测关联标签的影响因子。通过解释信息用户可以追溯用户识别模型输出预测关联标签的原因,提高用户识别模型的可信度。
可选的,上述步骤s112可包括如下步骤s121~s122:
s121、若该目标应用程序包括该业务关键字,则确定该目标应用程序与该目标业务之间的业务关系为同类别关系。
s122、若该目标应用程序未包括该业务关键字,则确定该目标应用程序与该目标业务之间的业务关系为非同类别关系。
在步骤s121~s122中,电子设备可以将目标应用程序的名称与业务关键字进行比对,如果该目标应用程序(即目标应用程序的名称)包括该业务关键字,则确定该目标应用程序与该目标业务之间的业务关系为同类别关系;若该目标应用程序未包括该业务关键字,则确定该目标应用程序与该目标业务之间的业务关系为非同类别关系。
可选的,该方法可包括如下步骤s131~s133:
s131、接收针对目标用户的识别请求,该识别请求包括该目标用户的用户属性和该目标用户历史所安装的历史应用程序。
s132、若该历史应用程序与该参考应用程序匹配,则将该参考关联类别,作为该历史应用程序与该目标业务之间的历史关联类别。
s133、采用该目标用户识别模型对该历史关联类别以及该目标用户的用户属性进行关联性类别识别,得到用于指示该目标用户与该目标业务之间是否关联的目标关联标签。
在步骤s131~s133中,在训练得到目标用户识别模型后,可以采用目标用户识别模型为目标业务扩展用户。具体的,电子设备可接收针对目标用户的识别请求,该识别请求包括该目标用户的用户属性和该目标用户历史所安装的历史应用程序。将历史应用程序与参考应用程序进行比对,若该历史应用程序与该参考应用程序不匹配,则确定历史应用程序不具有显著性特征,过滤掉该历史应用程序,即不对该历史应用程序处理。若该历史应用程序与该参考应用程序匹配,则确定历史应用程序具有显著性特征,将该参考关联类别,作为该历史应用程序与该目标业务之间的历史关联类别。进一步,采用该目标用户识别模型对该历史关联类别以及该目标用户的用户属性进行关联性类别识别,得到用于指示该目标用户与该目标业务之间是否关联的目标关联标签。
请参见图9,是本申请实施例提供的一种用户识别装置的结构示意图。上述用户识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该用户识别装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该用户识别装置可以包括:获取模块901、划分模块902、确定模块903、调整模块904、解释模块905以及用户识别模块906。
获取模块901,用于获取针对目标业务的样本用户集合、该样本用户集合中的样本用户所安装的目标应用程序、该样本用户的用户属性、以及与该目标业务之间具有关联关系的参考应用程序;
划分模块902,用于统计该参考应用程序被该样本用户集合中的样本用户所安装对应的第一安装占比,根据该第一安装占比对该参考应用程序与该目标业务之间的关联关系进行关联类别划分,得到参考关联类别;
确定模块903,用于若该目标应用程序与该参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,将该参考关联类别,作为该目标应用程序与该目标业务之间的关联关系对应的目标关联类别;
调整模块904,用于采用该目标关联类别以及该样本用户的用户属性,对用户识别模型进行调整,得到用于识别与该目标业务关联的目标用户的目标用户识别模型。
可选的,该划分模型根据该第一安装占比对该参考应用程序与该目标业务之间的关联关系进行关联类别划分,得到参考关联类别;包括:
获取应用程序类别树;该应用程序类别树包括根节点、以及与该根节点相连接的第一叶子节点和第二叶子节点;
将该参考应用程序添加至该应用程序类别树的根节点中;
若该第一安装占比大于第一安装占比阈值,则将该参考应用程序添加至该第一叶子节点中,确定该参考关联类别为正相关;
若该第一安装占比小于第二安装占比阈值,则将该参考应用程序添加至该第二叶子节点中,确定该参考关联类别为负相关;该第一安装占比阈值大于该第二安装占比阈值。
可选的,该确定模块若该目标应用程序与该参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,将该参考关联类别,作为该目标应用程序与该目标业务之间的关联关系对应的目标关联类别,包括:
遍历该应用程序类别树的根节点,若该目标应用程序与该根节点中的参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,根据该应用程序类别树的节点路径,遍历该第一叶子节点;
若该目标应用程序与该第一叶子节点中的参考应用程序匹配,则确定该目标关联类别为正相关;
若该目标应用程序与该第一叶子节点中的参考应用程序不匹配,则根据该应用程序类别树的节点路径,遍历该第二叶子节点;
若该目标应用程序与该第二叶子节点中的参考应用程序匹配,则确定该目标关联类别为负相关。
可选的,该正相关包括第一级正相关和第二级正相关,该应用程序类别树还包括与该第一叶子节点相连接的第三叶子节点和第四叶子节点;
若该第一安装占比大于第一安装占比阈值,则该划分模块将该参考应用程序添加至该第一叶子节点中,确定该参考关联类别为正相关;包括:
若该第一安装占比大于第一安装占比阈值,则将该参考应用程序添加至该第一叶子节点中,获取该参考应用程序被该样本用户安装的第一安装量;
根据该第一安装量确定该参考应用程序的覆盖率,按照该第一安装占比对该参考应用程序进行排序;
按照排列顺序,依次累计该参考应用程序的覆盖率,得到覆盖率和;
根据该覆盖率和对该参考应用程序进行分组,得到第一分组和第二分组;
若该参考应用程序属于该第一分组,则将该参考应用程序添加至该第三叶子节点中,确定该参考关联类别为第一级正相关;
若该参考应用程序属于该第二分组,则将该参考应用程序添加至该第四叶子节点中,确定该参考关联类别为第二级正相关,该第一分组内的参考应用程序对应的第一安装占比大于该第二分组内的参考应用程序对应的第一安装占比。
可选的,该确定模块若该目标应用程序与该第一叶子节点中的参考应用程序匹配,则确定该目标关联类别为正相关;包括:
若该目标应用程序与该第一叶子节点中的参考应用程序匹配,则根据该应用程序类别树的节点路径,遍历该第三叶子节点;
若该目标应用程序与该第三叶子节点中的参考应用程序匹配,则确定该目标关联类别为第一级正相关;
若该目标应用程序与该第三叶子节点中的参考应用程序不匹配,则根据该应用程序类别树的节点路径,遍历该第四叶子节点;
若该目标应用程序与该第四叶子节点中的参考应用程序匹配,则确定该目标关联类别为第二级正相关。
可选的,该调整模块采用该目标关联类别以及该样本用户的用户属性对用户识别模型进行调整,得到用于识别与该目标业务关联的目标用户的目标用户识别模型,包括:
统计该样本用户安装的目标应用程序中具有该目标关联类别的应用程序数量;
获取该样本用户的标注关联标签,该标注关联标签用于反映该样本用户与该目标业务是否具有关联关系;
采用该用户识别模型对该应用程序数量以及该样本用户的用户属性进行关联性识别,得到预测关联标签;
根据该标注关联标签和该预测关联标签,对该用户识别模型进行调整,得到该目标用户识别模型。
可选的,用户识别装置还包括解释模块,该解释模块,用于接收针对该预测关联标签的解释请求;根据该解释请求提取与该目标业务关联的业务关键字;
对该业务关键字与该目标应用程序进行比对,确定该目标应用程序与该目标业务之间的业务关系;
采用该业务关系生成解释信息,该解释信息用于解释该业务关系对该预测关联标签的影响因子。
可选的,该解释模块对该业务关键字与该目标应用程序进行比对,确定该目标应用程序与该目标业务之间的业务关系,包括:
若该目标应用程序包括该业务关键字,则确定该目标应用程序与该目标业务之间的业务关系为同类别关系;
若该目标应用程序未包括该业务关键字,则确定该目标应用程序与该目标业务之间的业务关系为非同类别关系。
可选的,该获取模块获取与该目标业务之间具有关联关系的参考应用程序,包括:
获取应用程序安装列表,该应用程序安装列表中包括候选应用程序;
统计该候选应用程序被该样本用户集合中的样本用户所安装对应的第二安装占比;
根据该第二安装占比从该应用程序列表中筛选出具有显著性特征的候选应用程序;
将具有显著性特征的候选应用程序,作为与该目标业务之间具有关联关系的参考应用程序。
可选的,该获取模块根据该第二安装占比从该应用程序列表中筛选出具有显著性特征的候选应用程序,包括:
将该应用程序安装列表中该第二安装占比大于第一安装占比阈值的候选应用程序,作为具有显著性特征的候选应用程序;或者,
将该应用程序安装列表中该第二安装占比小于第二安装占比阈值的候选应用程序,作为具有显著性特征的候选应用程序;该第一安装占比阈值大于该第二安装占比阈值。
可选的,该样本用户集合中的样本用户包括正样本用户和负样本用户,该正样本用户为该样本用户集合中被标注为与该目标业务相关联的样本用户,该负样本用户为该样本用户集合中被标注为与该目标业务不相关的样本用户;
该划分模块统计该参考应用程序被该样本用户集合中的样本用户所安装对应的第一安装占比,包括:
统计该样本用户集合中的正样本用户安装该参考应用程序的第一安装份额,以及该样本用户集合中的负样本用户安装该参考应用程序的第二安装份额;
根据该第一安装份额与该第二安装份额确定该第一安装占比。
可选的,该划分模块统计该样本用户集合中的正样本用户安装该参考应用程序的第一安装份额,以及该样本用户集合中的负样本用户安装该参考应用程序的第二安装份额,包括:
统计该样本用户集合中的正样本用户数量、负样本用户数量、该正样本用户中安装该参考应用程序的第二安装量、该负样本用户安装该参考应用程序的第三安装量;
将该第二安装量与该正样本用户数量之间的比值作为该第一安装份额;
将该第三安装量与该负样本用户数量之间的比值作为该第二安装份额。
可选的,用户识别装置还包括用户识别模块,该用户识别模块,用于:接收针对目标用户的识别请求,该识别请求包括该目标用户的用户属性和该目标用户历史所安装的历史应用程序;
若该历史应用程序与该参考应用程序匹配,则将该参考关联类别,作为该历史应用程序与该目标业务之间的历史关联类别;
采用该目标用户识别模型对该历史关联类别以及该目标用户的用户属性进行关联性类别识别,得到用于指示该目标用户与该目标业务之间是否关联的目标关联标签。
根据本申请的一个实施例,图4所示的用户识别方法所涉及的步骤可由图9所示的用户识别装置中的各个模块来执行。例如,图4中所示的步骤S101可由图9中的获取模块901来执行,图4中所示的步骤S102和S103可由图9中的划分模块902来执行;图4中所示的步骤S104可由图9中的确定模块905来执行,图4中所示的步骤S105可由图9中的调整模块905来执行。
根据本申请的一个实施例,图9所示的用户识别装置中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,用户识别装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图4所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图9中所示的用户识别装置,以及来实现本申请实施例的用户识别方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请中,首先,电子设备可以通过统计参考应用程序被样本用户所安装对应的第一安装占比,根据第一安装占比对市面上的应用程序(即参考应用程序)与目标业务之间的关联关系进行关联类别划分,得到参考关联类别。然后,在目标应用程序与参考应用程序匹配时,确定目标应用程序与目标业务之间具有关联关系,将参考关联类别作为目标应用程序与目标业务之间的关联关系对应的目标关联类别。通过目标应用程序与参考应用程序进行匹配的方式,以获取目标应用程序对应的目标关联类别,不需要针对每个样本用户所安装的目标应用程序计算对应的第一安装占比,以获取目标应用程序对应的目标关联类别,可以降低运算量,提高获取目标应用程序对应的目标关联类别的效率。进一步,可将目标关联类别和样本用户的用户属性作为特征,对用户识别模型进行训练,得到目标用户识别模型;在不同应用场景中,该参考应用程序对应的参考关联类别不相同,使目标应用程序对应的目标关联类别也不相同。也就是说,本申请可根据业务场景动态自适应构建用户识别模型的特征,可提高应用程序之间的区别度,进而提高用户识别模型的识别精度。
请参见图10,是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取针对目标业务的样本用户集合、该样本用户集合中的样本用户所安装的目标应用程序、该样本用户的用户属性、以及与该目标业务之间具有关联关系的参考应用程序;
统计该参考应用程序被该样本用户集合中的样本用户所安装对应的第一安装占比,根据该第一安装占比对该参考应用程序与该目标业务之间的关联关系进行关联类别划分,得到参考关联类别;
若该目标应用程序与该参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,将该参考关联类别,作为该目标应用程序与该目标业务之间的关联关系对应的目标关联类别;
采用该目标关联类别以及该样本用户的用户属性,对用户识别模型进行调整,得到用于识别与该目标业务关联的目标用户的目标用户识别模型。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现根据该第一安装占比对该参考应用程序与该目标业务之间的关联关系进行关联类别划分,得到参考关联类别;包括:
获取应用程序类别树;该应用程序类别树包括根节点、以及与该根节点相连接的第一叶子节点和第二叶子节点;
将该参考应用程序添加至该应用程序类别树的根节点中;
若该第一安装占比大于第一安装占比阈值,则将该参考应用程序添加至该第一叶子节点中,确定该参考关联类别为正相关;
若该第一安装占比小于第二安装占比阈值,则将该参考应用程序添加至该第二叶子节点中,确定该参考关联类别为负相关;该第一安装占比阈值大于该第二安装占比阈值。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现若该目标应用程序与该参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,将该参考关联类别,作为该目标应用程序与该目标业务之间的关联关系对应的目标关联类别,包括:
遍历该应用程序类别树的根节点,若该目标应用程序与该根节点中的参考应用程序匹配,则确定该目标应用程序与该目标业务之间具有关联关系,根据该应用程序类别树的节点路径,遍历该第一叶子节点;
若该目标应用程序与该第一叶子节点中的参考应用程序匹配,则确定该目标关联类别为正相关;
若该目标应用程序与该第一叶子节点中的参考应用程序不匹配,则根据该应用程序类别树的节点路径,遍历该第二叶子节点;
若该目标应用程序与该第二叶子节点中的参考应用程序匹配,则确定该目标关联类别为负相关。
可选的,该正相关包括第一级正相关和第二级正相关,该应用程序类别树还包括与该第一叶子节点相连接的第三叶子节点和第四叶子节点;
处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现该若该第一安装占比大于第一安装占比阈值,则将该参考应用程序添加至该第一叶子节点中,确定该参考关联类别为正相关;包括:
若该第一安装占比大于第一安装占比阈值,则将该参考应用程序添加至该第一叶子节点中,获取该参考应用程序被该样本用户安装的第一安装量;
根据该第一安装量确定该参考应用程序的覆盖率,按照该第一安装占比对该参考应用程序进行排序;
按照排列顺序,依次累计该参考应用程序的覆盖率,得到覆盖率和;
根据该覆盖率和对该参考应用程序进行分组,得到第一分组和第二分组;
若该参考应用程序属于该第一分组,则将该参考应用程序添加至该第三叶子节点中,确定该参考关联类别为第一级正相关;
若该参考应用程序属于该第二分组,则将该参考应用程序添加至该第四叶子节点中,确定该参考关联类别为第二级正相关,该第一分组内的参考应用程序对应的第一安装占比大于该第二分组内的参考应用程序对应的第一安装占比。
处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现若该目标应用程序与该第一叶子节点中的参考应用程序匹配,则确定该目标关联类别为正相关;包括:
若该目标应用程序与该第一叶子节点中的参考应用程序匹配,则根据该应用程序类别树的节点路径,遍历该第三叶子节点;
若该目标应用程序与该第三叶子节点中的参考应用程序匹配,则确定该目标关联类别为第一级正相关;
若该目标应用程序与该第三叶子节点中的参考应用程序不匹配,则根据该应用程序类别树的节点路径,遍历该第四叶子节点;
若该目标应用程序与该第四叶子节点中的参考应用程序匹配,则确定该目标关联类别为第二级正相关。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现采用该目标关联类别以及该样本用户的用户属性对用户识别模型进行调整,得到用于识别与该目标业务关联的目标用户的目标用户识别模型,包括:
统计该样本用户安装的目标应用程序中具有该目标关联类别的应用程序数量;
获取该样本用户的标注关联标签,该标注关联标签用于反映该样本用户与该目标业务是否具有关联关系;
采用该用户识别模型对该应用程序数量以及该样本用户的用户属性进行关联性识别,得到预测关联标签;
根据该标注关联标签和该预测关联标签,对该用户识别模型进行调整,得到该目标用户识别模型。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:接收针对该预测关联标签的解释请求;根据该解释请求提取与该目标业务关联的业务关键字;
对该业务关键字与该目标应用程序进行比对,确定该目标应用程序与该目标业务之间的业务关系;
采用该业务关系生成解释信息,该解释信息用于解释该业务关系对该预测关联标签的影响因子。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现对该业务关键字与该目标应用程序进行比对,确定该目标应用程序与该目标业务之间的业务关系,包括:
若该目标应用程序包括该业务关键字,则确定该目标应用程序与该目标业务之间的业务关系为同类别关系;
若该目标应用程序未包括该业务关键字,则确定该目标应用程序与该目标业务之间的业务关系为非同类别关系。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现获取与该目标业务之间具有关联关系的参考应用程序,包括:
获取应用程序安装列表,该应用程序安装列表中包括候选应用程序;
统计该候选应用程序被该样本用户集合中的样本用户所安装对应的第二安装占比;
根据该第二安装占比从该应用程序列表中筛选出具有显著性特征的候选应用程序;
将具有显著性特征的候选应用程序,作为与该目标业务之间具有关联关系的参考应用程序。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现根据该第二安装占比从该应用程序列表中筛选出具有显著性特征的候选应用程序,包括:
将该应用程序安装列表中该第二安装占比大于第一安装占比阈值的候选应用程序,作为具有显著性特征的候选应用程序;或者,
将该应用程序安装列表中该第二安装占比小于第二安装占比阈值的候选应用程序,作为具有显著性特征的候选应用程序;该第一安装占比阈值大于该第二安装占比阈值。
可选的,该样本用户集合中的样本用户包括正样本用户和负样本用户,该正样本用户为该样本用户集合中被标注为与该目标业务相关联的样本用户,该负样本用户为该样本用户集合中被标注为与该目标业务不相关的样本用户;
处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现统计该参考应用程序被该样本用户集合中的样本用户所安装对应的第一安装占比,包括:
统计该样本用户集合中的正样本用户安装该参考应用程序的第一安装份额,以及该样本用户集合中的负样本用户安装该参考应用程序的第二安装份额;
根据该第一安装份额与该第二安装份额确定该第一安装占比。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现统计该样本用户集合中的正样本用户安装该参考应用程序的第一安装份额,以及该样本用户集合中的负样本用户安装该参考应用程序的第二安装份额,包括:
统计该样本用户集合中的正样本用户数量、负样本用户数量、该正样本用户中安装该参考应用程序的第二安装量、该负样本用户安装该参考应用程序的第三安装量;
将该第二安装量与该正样本用户数量之间的比值作为该第一安装份额;
将该第三安装量与该负样本用户数量之间的比值作为该第二安装份额。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现接收针对目标用户的识别请求,该识别请求包括该目标用户的用户属性和该目标用户历史所安装的历史应用程序;
若该历史应用程序与该参考应用程序匹配,则将该参考关联类别,作为该历史应用程序与该目标业务之间的历史关联类别;
采用该目标用户识别模型对该历史关联类别以及该目标用户的用户属性进行关联性类别识别,得到用于指示该目标用户与该目标业务之间是否关联的目标关联标签。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3以及前文图7所对应实施例中对上述用户识别方法的描述,也可执行前文图8所对应实施例中对上述用户识别装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请中,首先,电子设备可以通过统计参考应用程序被样本用户所安装对应的第一安装占比,根据第一安装占比对市面上的应用程序(即参考应用程序)与目标业务之间的关联关系进行关联类别划分,得到参考关联类别。然后,在目标应用程序与参考应用程序匹配时,确定目标应用程序与目标业务之间具有关联关系,将参考关联类别作为目标应用程序与目标业务之间的关联关系对应的目标关联类别。通过目标应用程序与参考应用程序进行匹配的方式,以获取目标应用程序对应的目标关联类别,不需要针对每个样本用户所安装的目标应用程序计算对应的第一安装占比,以获取目标应用程序对应的目标关联类别,可以降低运算量,提高获取目标应用程序对应的目标关联类别的效率。进一步,可将目标关联类别和样本用户的用户属性作为特征,对用户识别模型进行训练,得到目标用户识别模型;在不同应用场景中,该参考应用程序对应的参考关联类别不相同,使目标应用程序对应的目标关联类别也不相同。也就是说,本申请可根据业务场景动态自适应构建用户识别模型的特征,可提高应用程序之间的区别度,进而提高用户识别模型的识别精度。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的用户识别装置所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图4对应实施例中对上述用户识别方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁盘、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种用户识别方法,其特征在于,包括:
获取针对目标业务的样本用户集合、所述样本用户集合中的样本用户所安装的目标应用程序、所述样本用户的用户属性、以及与所述目标业务之间具有关联关系的参考应用程序;
统计所述参考应用程序被所述样本用户集合中的样本用户所安装对应的第一安装占比,根据所述第一安装占比对所述参考应用程序与所述目标业务之间的关联关系进行关联类别划分,得到参考关联类别;
若所述目标应用程序与所述参考应用程序匹配,则确定所述目标应用程序与所述目标业务之间具有关联关系,将所述参考关联类别,作为所述目标应用程序与所述目标业务之间的关联关系对应的目标关联类别;
采用所述目标关联类别以及所述样本用户的用户属性,对用户识别模型进行调整,得到用于识别与所述目标业务关联的目标用户的目标用户识别模型。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一安装占比对所述参考应用程序与所述目标业务之间的关联关系进行关联类别划分,得到参考关联类别;包括:
获取应用程序类别树;所述应用程序类别树包括根节点、以及与所述根节点相连接的第一叶子节点和第二叶子节点;
将所述参考应用程序添加至所述应用程序类别树的根节点中;
若所述第一安装占比大于第一安装占比阈值,则将所述参考应用程序添加至所述第一叶子节点中,确定所述参考关联类别为正相关;
若所述第一安装占比小于第二安装占比阈值,则将所述参考应用程序添加至所述第二叶子节点中,确定所述参考关联类别为负相关;所述第一安装占比阈值大于所述第二安装占比阈值。
3.如权利要求2所述的方法,其特征在于,所述若所述目标应用程序与所述参考应用程序匹配,则确定所述目标应用程序与所述目标业务之间具有关联关系,将所述参考关联类别,作为所述目标应用程序与所述目标业务之间的关联关系对应的目标关联类别,包括:
遍历所述应用程序类别树的根节点,若所述目标应用程序与所述根节点中的参考应用程序匹配,则确定所述目标应用程序与所述目标业务之间具有关联关系,根据所述应用程序类别树的节点路径,遍历所述第一叶子节点;
若所述目标应用程序与所述第一叶子节点中的参考应用程序匹配,则确定所述目标关联类别为正相关;
若所述目标应用程序与所述第一叶子节点中的参考应用程序不匹配,则根据所述应用程序类别树的节点路径,遍历所述第二叶子节点;
若所述目标应用程序与所述第二叶子节点中的参考应用程序匹配,则确定所述目标关联类别为负相关。
4.如权利要求3所述的方法,其特征在于,所述正相关包括第一级正相关和第二级正相关,所述应用程序类别树还包括与所述第一叶子节点相连接的第三叶子节点和第四叶子节点;
所述若所述第一安装占比大于第一安装占比阈值,则将所述参考应用程序添加至所述第一叶子节点中,确定所述参考关联类别为正相关;包括:
若所述第一安装占比大于第一安装占比阈值,则将所述参考应用程序添加至所述第一叶子节点中,获取所述参考应用程序被所述样本用户安装的第一安装量;
根据所述第一安装量确定所述参考应用程序的覆盖率,按照所述第一安装占比对所述参考应用程序进行排序;
按照排列顺序,依次累计所述参考应用程序的覆盖率,得到覆盖率和;
根据所述覆盖率和对所述参考应用程序进行分组,得到第一分组和第二分组;
若所述参考应用程序属于所述第一分组,则将所述参考应用程序添加至所述第三叶子节点中,确定所述参考关联类别为第一级正相关;
若所述参考应用程序属于所述第二分组,则将所述参考应用程序添加至所述第四叶子节点中,确定所述参考关联类别为第二级正相关,所述第一分组内的参考应用程序对应的第一安装占比大于所述第二分组内的参考应用程序对应的第一安装占比。
5.如权利要求4所述的方法,其特征在于,所述若所述目标应用程序与所述第一叶子节点中的参考应用程序匹配,则确定所述目标关联类别为正相关;包括:
若所述目标应用程序与所述第一叶子节点中的参考应用程序匹配,则根据所述应用程序类别树的节点路径,遍历所述第三叶子节点;
若所述目标应用程序与所述第三叶子节点中的参考应用程序匹配,则确定所述目标关联类别为第一级正相关;
若所述目标应用程序与所述第三叶子节点中的参考应用程序不匹配,则根据所述应用程序类别树的节点路径,遍历所述第四叶子节点;
若所述目标应用程序与所述第四叶子节点中的参考应用程序匹配,则确定所述目标关联类别为第二级正相关。
6.如权利要求1-5任一项所述的方法,其特征在于,所述采用所述目标关联类别以及所述样本用户的用户属性对用户识别模型进行调整,得到用于识别与所述目标业务关联的目标用户的目标用户识别模型,包括:
统计所述样本用户安装的目标应用程序中具有所述目标关联类别的应用程序数量;
获取所述样本用户的标注关联标签,所述标注关联标签用于反映所述样本用户与所述目标业务是否具有关联关系;
采用所述用户识别模型对所述应用程序数量以及所述样本用户的用户属性进行关联性识别,得到预测关联标签;
根据所述标注关联标签和所述预测关联标签,对所述用户识别模型进行调整,得到所述目标用户识别模型。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
接收针对所述预测关联标签的解释请求;根据所述解释请求提取与所述目标业务关联的业务关键字;
对所述业务关键字与所述目标应用程序进行比对,确定所述目标应用程序与所述目标业务之间的业务关系;
采用所述业务关系生成解释信息,所述解释信息用于解释所述业务关系对所述预测关联标签的影响因子。
8.如权利要求7所述的方法,其特征在于,所述对所述业务关键字与所述目标应用程序进行比对,确定所述目标应用程序与所述目标业务之间的业务关系,包括:
若所述目标应用程序包括所述业务关键字,则确定所述目标应用程序与所述目标业务之间的业务关系为同类别关系;
若所述目标应用程序未包括所述业务关键字,则确定所述目标应用程序与所述目标业务之间的业务关系为非同类别关系。
9.如权利要求1所述的方法,其特征在于,所述获取与所述目标业务之间具有关联关系的参考应用程序,包括:
获取应用程序安装列表,所述应用程序安装列表中包括候选应用程序;
统计所述候选应用程序被所述样本用户集合中的样本用户所安装对应的第二安装占比;
根据所述第二安装占比从所述应用程序列表中筛选出具有显著性特征的候选应用程序;
将具有显著性特征的候选应用程序,作为与所述目标业务之间具有关联关系的参考应用程序。
10.如权利要求9所述的方法,其特征在于,所述根据所述第二安装占比从所述应用程序列表中筛选出具有显著性特征的候选应用程序,包括:
将所述应用程序安装列表中所述第二安装占比大于第一安装占比阈值的候选应用程序,作为具有显著性特征的候选应用程序;或者,
将所述应用程序安装列表中所述第二安装占比小于第二安装占比阈值的候选应用程序,作为具有显著性特征的候选应用程序;所述第一安装占比阈值大于所述第二安装占比阈值。
11.如权利要求1所述的方法,其特征在于,所述样本用户集合中的样本用户包括正样本用户和负样本用户,所述正样本用户为所述样本用户集合中被标注为与所述目标业务相关联的样本用户,所述负样本用户为所述样本用户集合中被标注为与所述目标业务不相关的样本用户;
所述统计所述参考应用程序被所述样本用户集合中的样本用户所安装对应的第一安装占比,包括:
统计所述样本用户集合中的正样本用户安装所述参考应用程序的第一安装份额,以及所述样本用户集合中的负样本用户安装所述参考应用程序的第二安装份额;
根据所述第一安装份额与所述第二安装份额确定所述第一安装占比。
12.如权利要求1所述的方法,其特征在于,所述方法还包括:
接收针对目标用户的识别请求,所述识别请求包括所述目标用户的用户属性和所述目标用户历史所安装的历史应用程序;
若所述历史应用程序与所述参考应用程序匹配,则将所述参考关联类别,作为所述历史应用程序与所述目标业务之间的历史关联类别;
采用所述目标用户识别模型对所述历史关联类别以及所述目标用户的用户属性进行关联性类别识别,得到用于指示所述目标用户与所述目标业务之间是否关联的目标关联标签。
13.一种用户识别装置,其特征在于,包括:
获取模块,用于获取针对目标业务的样本用户集合、所述样本用户集合中的样本用户所安装的目标应用程序、所述样本用户的用户属性、以及与所述目标业务之间具有关联关系的参考应用程序;
划分模块,用于统计所述参考应用程序被所述样本用户集合中的样本用户所安装对应的第一安装占比,根据所述第一安装占比对所述参考应用程序与所述目标业务之间的关联关系进行关联类别划分,得到参考关联类别;
确定模块,用于若所述目标应用程序与所述参考应用程序匹配,则确定所述目标应用程序与所述目标业务之间具有关联关系,将所述参考关联类别,作为所述目标应用程序与所述目标业务之间的关联关系对应的目标关联类别;
调整模块,用于采用所述目标关联类别以及所述样本用户的用户属性,对用户识别模型进行调整,得到用于识别与所述目标业务关联的目标用户的目标用户识别模型。
14.一种计算机设备,其特征在于,包括:
处理器以及存储器;
所述处理器与所述存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行如权利要求1-12任一项所述的方法。
CN202110583938.0A 2021-05-27 2021-05-27 用户识别方法、装置、设备及存储介质 Pending CN114676740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110583938.0A CN114676740A (zh) 2021-05-27 2021-05-27 用户识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110583938.0A CN114676740A (zh) 2021-05-27 2021-05-27 用户识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114676740A true CN114676740A (zh) 2022-06-28

Family

ID=82069982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110583938.0A Pending CN114676740A (zh) 2021-05-27 2021-05-27 用户识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114676740A (zh)

Similar Documents

Publication Publication Date Title
CN107818344B (zh) 用户行为进行分类和预测的方法和***
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
US20230289828A1 (en) Data processing method, computer device, and readable storage medium
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及***
CN113011889B (zh) 账号异常识别方法、***、装置、设备及介质
US11238027B2 (en) Dynamic document reliability formulation
CN110598070A (zh) 应用类型识别方法及装置、服务器及存储介质
CN111797320A (zh) 数据处理方法、装置、设备及存储介质
CN111522724A (zh) 异常账号的确定方法、装置、服务器及存储介质
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN106294406A (zh) 一种用于处理应用访问数据的方法与设备
CN115618024A (zh) 多媒体推荐方法、装置及电子设备
CN111192170A (zh) 题目推送方法、装置、设备和计算机可读存储介质
CN112069269B (zh) 基于大数据和多维特征的数据溯源方法及大数据云服务器
CN111597361B (zh) 多媒体数据处理方法、装置、存储介质及设备
CN115131052A (zh) 一种数据处理方法、计算机设备和存储介质
US20230214676A1 (en) Prediction model training method, information prediction method and corresponding device
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN112948251B (zh) 软件自动测试方法及装置
CN114490673A (zh) 数据信息处理方法、装置、电子设备及存储介质
CN114676740A (zh) 用户识别方法、装置、设备及存储介质
CN114741540A (zh) 一种多媒体序列推荐方法、操作预测模型训练方法、装置、设备及存储介质
US11288322B2 (en) Conversational agents over domain structured knowledge
CN111126503B (zh) 一种训练样本的生成方法和装置
US20200302336A1 (en) Dynamic Source Reliability Formulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination