CN114596108A - 一种对象推荐方法、装置、电子设备及存储介质 - Google Patents

一种对象推荐方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114596108A
CN114596108A CN202011411953.9A CN202011411953A CN114596108A CN 114596108 A CN114596108 A CN 114596108A CN 202011411953 A CN202011411953 A CN 202011411953A CN 114596108 A CN114596108 A CN 114596108A
Authority
CN
China
Prior art keywords
feature combinations
group
target
candidate feature
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011411953.9A
Other languages
English (en)
Inventor
杨春风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011411953.9A priority Critical patent/CN114596108A/zh
Publication of CN114596108A publication Critical patent/CN114596108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及一种对象推荐方法、装置、电子设备及存储介质,获得待推荐对象的正样本集和负样本集,基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对所述待推荐对象的备选用户进行筛选时的至少一组候选特征组合;从所述至少一组候选特征组合中,筛选出与所述正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合;根据筛选出的目标特征组合,从所述备选用户中确定用户画像特征与所述目标特征组合相匹配的目标用户;将所述待推荐对象推荐给确定出的目标用户,提高了效率和准确性。

Description

一种对象推荐方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种对象推荐方法、装置、电子设备及存储介质。
背景技术
人群定向是广告***中非常重要的一个环节,人群定向的目标是确定出和指定广告最相关的用户作为***群体。相关技术中,可以基于画像索引来确定目标人群,主要依赖于用户画像的构建,然后广告主设置人群定向条件,提取相应的目标人群,进而向目标人群推荐广告。
但是相关技术中的这种方法,确定定向条件时通常需要预先进行人群画像洞察,并人工进行洞察结果分析,从而依赖广告主经验而选择目标画像特征,作为定向条件,准确性较低,并且由于不知道在哪些画像特征上有差异,会在尽量多的画像特征进行洞察分析,并仅能分别针对单维度画像特征进行分析计算,计算量较大,效率较低。
发明内容
本申请实施例提供一种对象推荐方法、装置、电子设备及存储介质,以提高生成定向条件的准确性和效率,从而提高定向推荐准确性。
本申请实施例提供的具体技术方案如下:
本申请一个实施例提供了一种对象推荐方法,包括:
获得待推荐对象的正样本集和负样本集,其中,所述正样本集包括的每个正样本表示对于推荐优化目标具有正向行为特征的用户,所述负样本集包括的各个负样本表示对于所述推荐优化目标具有负向行为特征的用户;
基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对所述待推荐对象的备选用户进行筛选时的至少一组候选特征组合;
从所述至少一组候选特征组合中,筛选出与所述正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合;
根据筛选出的目标特征组合,从所述备选用户中确定用户画像特征与所述目标特征组合相匹配的目标用户;
将所述待推荐对象推荐给确定出的目标用户。
本申请另一个实施例提供了一种对象推荐装置,包括:
第一获得模块,用于获得待推荐对象的正样本集和负样本集,其中,所述正样本集包括的每个正样本表示对于推荐优化目标具有正向行为特征的用户,所述负样本集包括的各个负样本表示对于所述推荐优化目标具有负向行为特征的用户;
第二获得模块,用于基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对所述待推荐对象的备选用户进行筛选时的至少一组候选特征组合;
筛选模块,用于从所述至少一组候选特征组合中,筛选出与所述正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合;
确定模块,用于根据筛选出的目标特征组合,从所述备选用户中确定用户画像特征与所述目标特征组合相匹配的目标用户;
推荐模块,用于将所述待推荐对象推荐给确定出的目标用户。
本申请另一个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一种对象推荐方法的步骤。
本申请另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种对象推荐方法的步骤。
本申请另一个实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的任一种对象推荐方法。
本申请实施例中,获得待推荐对象的正样本集和负样本集,基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对所述待推荐对象的备选用户进行筛选时的至少一组候选特征组合,并可以对所述至少一组候选特征组合进行处理,从中筛选出与所述正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合;根据筛选出的目标特征组合,从所述备选用户中确定用户画像特征与所述目标特征组合相匹配的目标用户,进而可以将所述待推荐对象推荐给确定出的目标用户,这样,可以实现对指定的正样本集和负样本集进行特征分析,自动生成各候选特征组合,实现了特征组合定向分析,而不仅是单维度定向分析,并且可以对各候选特征组合进行自动分析筛选,来确定目标特征组合,作为推荐的目标用户的定向条件,实现了可以根据不同推荐优化目标,快速生成定向条件推荐,极大提高了效率,并且也提高了准确性。
附图说明
图1为本申请实施例中对象推荐方法的应用架构示意图;
图2为本申请实施例中一种对象推荐方法流程图;
图3为本申请实施例中生成候选特征组合的原理示意图;
图4为本申请实施例中另一种对象推荐方法的流程示意图;
图5为本申请实施例中发起人群特征分析的界面示意图;
图6为本申请实施例中正负样本集确定的界面示意图;
图7为本申请实施例中行业热门定向原理示意图;
图8为本申请实施例中行业优质定向原理示意图;
图9为本申请实施例中对象推荐装置结构示意图;
图10为本申请实施例中电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本申请实施例的理解,下面先对几个概念进行简单介绍:
人群定向:通过对用户行为数据、用户属性特征等的分析,找出潜在目标用户群体的共同特征,然后将待推荐对象投放给具有共同特征的目标用户群体,例如广告人群定向,即广告最终的实际投放用户就出现在该广告的目标用户群体中。
广告洞察分析:即用户画像分析,洞察分析可以帮助客户更加全面细致的了解人群的属性、兴趣分类、关注点及地域特点等的特征分布情况,这些特征可以用来优化广告创意、指导营销策略、为进一步制定投放提供参考依据等。
点击率(Click Through Rate,CTR):人群定向用户曝光后产生点击的比率,是点击用户数与曝光用户数的比值,可以用于衡量一个广告人群定向用户在曝光后的点击效果。
转化率(Click Value Rate,CVR):人群定向用户点击广告后发生转化行为的比率,是转化用户数与点击用户数的比值,可以用于衡量一个广告人群定向用户在点击广告后的转化效果,其中,转化行为可以是下载、注册、购买等行为,并不进行限制,可以是广告主进行设置。
目标群体指数(Target Group Index,TGI):是反映目标群体在特定研究范围(例如地理区域、人口统计领域、媒体受众、产品消费者等)内的强势或弱势的指数,其计算公式是:[目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100,TGI可以表征一个用户画像特征在目标人群里的显著程度,TGI越大说明该用户画像特征越显著。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如,本申请实施例中可以基于机器学习方法,训练集成树模型,进而基于已训练的集成树模型中各个树的节点所代表的特征,从根节点到叶子节点进行遍历,而获得各候选特征组合。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案主要涉及人工智能的机器学习技术,具体通过如下实施例进行说明:
以对象为广告为例,在进行广告推荐时,人群定向是广告***中非常重要的一个环节,无论是从广告主的角度还是从流量测的角度,都需要广告人群定向这一过程,相关技术中,人群定向方法通常是基于画像索引,对实验组和对照组人群,确定从哪些画像维度进行洞察,并提交洞察任务,然后广告主人工进行洞察结果分析,依赖广告主经验而确定对于实验组最显著的画像特征,即目标画像特征,作为定向条件,从而基于定向条件提取相应的目标人群,但是这种方式,由于不知道在哪些画像特征上有差异,会在尽量多的画像特征进行洞察分析,并仅能分别针对单维度画像特征进行分析计算,计算量较大,效率较低,整体耗时也较久,并需要人工进行分析,人工成本较大,准确性也较低。
因此为解决上述问题,本申请实施例中提供了一种对象推荐方法,获得待推荐对象的正样本集和负样本集,基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对待推荐对象的备选用户进行筛选时的至少一组候选特征组合,并从至少一组候选特征组合中,筛选出目标特征组合,并根据筛选出的各组目标特征组合,从备选用户中确定用户画像特征与目标特征组合相匹配的目标用户,将待推荐对象推荐给确定出的目标用户,这样,将确定目标特征的问题,转化为确定最能区分正负样本的特征问题,自动对正样本集和负样本集的用户画像特征进行分析,确定出目标特征组合,可以根据不同的推荐优化目标,快速生成定向条件推荐,可以大幅度降低广告主的人工操作,提高效率,并且还可以对特征进行组合定向分析,而不仅仅从单一维度进行分析,提高定向条件确定的准确性,从而提高对象推荐的准确性。
参阅图1所示,为本申请实施例中对象推荐方法的应用架构示意图,包括用户终端100、投放平台200、服务器300。
用户终端100可以是智能手机、平板电脑、便携式个人计算机、台式计算机、智能电视、智能机器人、车载电子设备等任何智能设备,用户终端100上可以安装有各种应用程序(Application,APP),服务器300可以收集并获取各个用户在各个用户终端100上的行为数据、用户的属性信息等,从而构建用户画像。
投放平台200可以安装在终端设备中,该终端设备也可以为智能手机、平板电脑、便携式个人计算机、台式计算机、智能电视、智能机器人、车载电子设备等任何智能设备,可以提供广告投放相关业务,例如可以接入行为数据、人群管理、洞察分析、对接多端投放等功能,可以在投放平台200中选择待分析人群、选择用户画像特征等,进而生成洞察任务。
服务器300能够为用户终端100、投放平台200提供各种网络服务,对于不同的应用程序,服务器300可以认为是相应的后台服务器,例如,广告主在投放平台200中选择需要洞察的特征范围、要洞察的人群,进而服务器300可以对要洞察的人群,确定出正样本集和负样本集,分别对正样本集和负样本集中各用户的用户画像特征进行分析,训练集成树模型,从而获得至少一组候选特征组合,并从中筛选出目标特征组合,作为定向条件,确定符合目标特征组合的目标用户,进而可以向确定出的目标用户推荐广告,即向目标用户所在的用户终端100投放广告,例如,目标用户在用户终端100上打开某APP时,在该APP中可以展示投放的广告。
其中,服务器300可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
例如,服务器300为云服务器时,可以采用云技术中的云计算,来对用户画像特征进行自动分析计算,以快速生成定向条件推荐,可以极大提高计算效率。
其中,云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(ParallelComputing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
用户终端100与服务器300之间,以及投放平台200和服务器300之间可以通过有线或无线通信进行直接或间接地连接,本申请在此不做限制,如图1所示,以基于互联网相连实现相互之间的通信为例。可选地,上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
需要说明的是,本申请实施例中的应用架构图是为了更加清楚地说明本申请实施例中的技术方案,并不构成对本申请实施例提供的技术方案的限制,可以应用于广告定向投放场景,但是对于其它的应用架构和业务应用并不进行限制,也可以应用于其它对象定向推荐场景,本申请实施例提供的技术方案对于类似的问题,同样适用。
本申请各个实施例中,以对象推荐方法应用于图1所示的应用架构为例进行示意性说明,并且为便于说明,本申请实施例中主要以对象为广告为例进行说明。
基于上述实施例,参阅图2所示,为本申请实施例中一种对象推荐方法流程图,以应用于服务器为例进行说明,具体该方法包括:
步骤200:获得待推荐对象的正样本集和负样本集。
其中,正样本集包括的每个正样本表示对于推荐优化目标具有正向行为特征的用户,负样本集包括的各个负样本表示对于推荐优化目标具有负向行为特征的用户。
本申请实施例中,通过对人群定向的诉求分析,例如,广告人群定向时,广告主的需求通常是分析实验组和对照组的差异,找出典型用户画像特征,从而作为人群定向条件,为了满足该需求,同时节约大量人工分析成本,需要选择一个可以批量自动分析用户画像特征的方法,因此,本申请实施例中,考虑到可以采用模型分析的方式,例如,若把实验组作为正样本,对照组作为负样本,用户画像特征等作为模型特征,则找出差异性的典型用户画像特征就可以变成寻找最能区分正负样本的特征的问题,则首先需要获得正样本集和负样本集,具体执行步骤200时,可以有以下几种情况:
第一种情况:广告主指定对照组和实验组的人群。
则确定正样本集和负样本集,具体包括:将上传的实验组用户作为正样本集,并将上传的对照组用户作为负样本集。
在该第一种情况中,适合广告主已经确定所需要的正向人群和负向人群分别是什么,例如,可以上传会员用户作为实验组,上传负向评论用户作为对照组,从而将实验组用户作为正样本集,对照组用户作为负样本集。
第二种情况:广告主未指定对照组和实验组的人群。
则确定正样本集和负样本集,具体包括:获取推荐优化目标和历史参考对象推荐信息,并根据推荐优化目标,从历史参考对象推荐信息中筛选出对于推荐优化目标具有正向行为特征的用户,获得正样本集,并筛选出对于推荐优化目标具有负向行为特征的用户,获得负样本集。
在该第二种情况中,不需要广告主直接显示的提供对照组和实验组的人群,可以只设定推荐优化目标并提供相关的历史参考对象推荐信息,进而就可以自动根据推荐优化目标和历史参考对象信息,进行提取而获得正样本集和负样本集。
其中,以对象为广告为例,历史参考对象推荐信息的获得,例如可以是广告主提供广告主标识,根据广告主标识,确定该广告主标识对应的之前投放的历史参考广告,并获取历史参考广告的历史参考广告推荐信息;又例如,可以是广告主直接提供历史参考广告的标识,根据历史参考广告的标识,获得历史参考广告推荐信息;另外历史参考对象推荐信息,还可以是其它广告主的历史参考广告的推荐信息,例如对待推荐的广告类型相同的其它广告等,具体获取历史参考对象推荐信息的方式,本申请实施例中并不进行限制。
推荐优化目标,可以为点击率或转化率等,并不进行限制,例如,推荐优化目标为点击率,则正样本为对象点击用户,负样本为对象曝光未点击用户,又例如,推荐优化目标是转化率,则正样本为对象转化用户,负样本为对象点击但未转化用户。
步骤210:基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对待推荐对象的备选用户进行筛选时的至少一组候选特征组合。
具体步骤210时,包括:
S1、分别确定正样本集中各个正样本的用户画像特征和负样本集中各个负样本的用户画像特征。
例如,投放平台可以提供多种定位维度,即多维的用户画像特征,广告主可以从中选择特征范围,例如,***平台中用户画像特征可以分为六大类,分别为基本属性、兴趣爱好、用户行为、用户状态、用户环境、自定义,其中,基本属性可以包括性别、年龄、地域、学历等,兴趣爱好可以包括商业兴趣、关键词等,用户行为即为APP行为,可以包括活跃、付费用户等,用户状态可以包括婚恋状态、生活状态、居住社区价格等,用户环境可以包括上网场景、设备价格、操作***、联网方式、移动运营商、天气情况等,自定义可以包括网页、QQ号码、国际移动设备识别码(International Mobile Equipment Identity,IMEI)等,进而可以选择其中部分用户画像特征,也可以全部选择,以参与后续集成树模型训练,本申请实施例中并不进行限制。
这样,提取各个正样本和各个负样本的用户画像特征后,进行编码处理,生成可以输入集成树模型训练的用户画像特征的向量表示,例如,可以采用热编码(one-hotencoding)方法进行编码处理,可以获得用户的稀疏离散的特征向量表示,对此本申请实施例中并不进行限制。
进一步地,本申请实施例中还可以对提取的用户画像特征进行过滤,具体地本申请实施例中提供了一种可能的实施方式,过滤掉在正样本集或负样本集中覆盖度小于预设阈值的用户画像特征,其中,覆盖度为该用户画像特征在正样本集或负样本集中的占比,预设阈值例如为千分之一,可以根据实际需求进行设置,这样,可以过滤掉覆盖度较低即使用频率较低的用户画像特征,可以降低计算量,提高后续模型训练的效率和准确性。
S2、基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对待推荐对象的备选用户进行筛选时的至少一组候选特征组合。
其中,备选用户可以为全量用户,也可以通过筛选确定出的最终用于从中提取目标用户的用户群体,具体本申请实施例中并不进行限制。
本申请实施例中,通过研究分析,在有监督机器学习方法中,决策树模型可以自动生成特征组合,并且可以给出信息增益特征重要度,可以用于选择典型特征,并且其中的集成树模型效果更好,例如极端梯度提升(eXtreme Gradient Boosting,XGBoost)模型可以通过多棵决策树来更好的拟合正负样本,因此本申请实施例中采用集成树模型来对正负样本的用户画像特征进行分析,并自动生成特征组合。
即将正样本集中各个正样本和负样本集中各个负样本的用户画像特征,以及对应的正负样本标签,输入到将集成树模型中进行训练,通过训练可以根据用户画像特征,将各正样本或各负样本分配到各个树的根节点、节点和叶子节点上,每个根节点、节点和叶子节点对应一个用户画像特征。
其中,集成树模型中树的数量为第一数目,每棵树的深度为第二数目,例如较佳的可以将第一数目设置为150~200,当然也可以通过验证集的效果来决定最优的树个数,并不进行限制,同时每棵数的深度不能设置太大,这是因为最终是按照从每棵树的根节点到叶子节点所经过的节点对应的特征来获得候选特征组合,树的深度决定了最终特征组合的阶数,而通常高阶特征组合相比于低阶或单维度特征可以更精准的刻画目标用户,但是如果特征组合的阶数太大,则该特征组合对应的用户规模就会太小,因此,可以综合考虑组合特征所对应的用户规模和定向人群所需的精准度,来设置树的深度,例如可以将树的深度的第二数目设置为3,当然本申请实施例中并不进行限制。
则执行步骤S2时,具体包括:
S2.1、根据正样本集中各个正样本的用户画像特征,以及负样本集中各个负样本的用户画像特征,训练集成树模型,获得已训练的集成树模型。
S2.2、分别针对已训练的集成树模型中的各个树,从树的根节点到各叶子节点进行遍历,将从根节点到各叶子节点所对应的用户画像特征进行组合,获得各最高阶特征组合,并根据各最高阶特征组合的各非空子集中的特征组合,获得至少一组候选特征组合,其中,最高阶特征组合的阶数为第二数目,则至少一组候选特征组合的阶数为从1到所述第二数目。
本申请实施例中,训练完集成树模型后,并不是利用集成树模型的最终训练结果,即并不需要利用已训练的集成树模型进行分类,而是使用训练所产生其他副产物,即各节点所表示的特征和关联关系,针对集成树模型中的各个树,都可以从根节点到叶子节点进行遍历,从根节点到叶子节点遍历可以获得最高阶特征组合集,例如第二数目为N,即最高阶特征组合的阶数为N,则这些最高阶特征组合的非空子集即可以作为1~N阶的各候选特征组合。
例如,参阅图3所示,为本申请实施例中生成候选特征组合的原理示意图,以集成树模型中的一棵树,并N为3为例,如图3所示,该树包括一个根节点A,对应用户画像特征为f1,两个节点B1、B2,分别对应的用户画像特征为f2、f3,以及四个叶子节点C1、C2、C3、C4,分别对应的用户画像特征为f4、f5、f6、f7,从根节点A到各叶子节点进行遍历,则可以获得四个最高阶特征组合,即f1 and f2 and f4、f1 and f2 and f5、f1 and f3 and f6、f1 andf3 and f7,并分别确定各最高阶特征组合的非空子集,最终可以获得1~3阶的各候选特征组合,以其中一个最高阶特征组合f1 and f2 and f4为例,则由其确定出的各候选特征组合为f1、f2、f4、f1 and f2、f1 and f4、f2 and f4、f1 and f2 and f4。
步骤220:从至少一组候选特征组合中,筛选出与正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合。
本申请实施例中,可以分别针对各阶的候选特征组合进行分析排序,例如对一阶的各候选特征组合进行排序,对二阶的各候选特征组合进行排序等,这样,可以便于后续用户根据推荐精确度需求而从不同阶的各候选特征组合中,确定出目标特征组合。
其中,与正样本集中各个用户的用户画像特征之间的关联度,可以采用显著度指标和差异度指标综合来表征,目的是为了找到在正样本集中更显著的特征组合。
步骤230:根据筛选出的目标特征组合,从备选用户中确定用户画像特征与目标特征组合相匹配的目标用户。
例如,备选用户为全量用户,一个目标特征组合为f1 and f2 and f4,则可以从全量用户集中进行目标用户提取,提取出用户画像特征中同时具有f1、f2和f3特征的用户即为目标用户。
步骤240:将待推荐对象推荐给确定出的目标用户。
即可以向目标用户所在用户终端推荐该待推荐对象,以提高推荐准确性和效果。
下面对执行上述步骤220中从至少一组候选特征组合中,筛选出与正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合,本申请实施例中提供了一种可能的实施方式,具体包括:
S1.1、分别计算至少一组候选特征组合在正样本集、负样本集和预设全量用户集中的占比。
其中,候选特征组合在正样本集中占比,即表示在正样本集中具有该候选特征组合的用户针对正样本集中所有用户所占的比例,同样地在负样本集中占比表示在负样本集中具有该候选特征组合的用户针对负样本集中所有用户所占的比例,在全量用户集中占比表示在全量用户集中具有该候选特征组合的用户针对全量用户集中所有用户所占的比例。
S1.2、分别根据至少一组候选特征组合在正样本集和在预设全量用户集中的占比,确定至少一组候选特征组合对应的正样本集目标群体指数,并分别根据至少一组候选特征组合在负样本集和在预设全量用户集中的占比,确定至少一组候选特征组合对应的负样本集目标群体指数。
例如,以一个候选特征组合为例,该候选特征组合对应的正样本集目标群体指数(TGI)和负样本集目标群体指数(TGI)分别为:
Figure BDA0002816944220000151
Figure BDA0002816944220000152
S1.3、分别根据至少一组候选特征组合对应的正样本集目标群体指数和负样本集目标群体指数,获得至少一组候选特征组合的显著度指标和差异度指标。
本申请实施例中通过对所需的目标特征组合进行分析可知,从最终要提取定向目标人群的角度来说,是希望找到在正向人群中更显著的特征组合,这里会涉及到一个正负向人群(即实验组和对照组)对比的问题,因此,满足需求的目标特征组合需要具备两个条件:1)显著性,即候选特征组合的TGI,也即候选特征组合在正样本集或负样本集中占比相对在全量用户集中占比要比较大,否则训练集里包含该候选特征组合的样本数可能很少,置信度较低;2)差异性,即该候选特征组合在正向人群中更显著,否则使用该候选特征组合不能区分正负向人群,而若仅使用正样本集目标群体指数和负样本集目标群体指数就可能出现两种情况:a)例如正样本集TGI=100,负样本集TGI=10,这种情况正样本集TGI与负样本集TGI的比值较大,但是正样本集TGI自身大小不够大,不够显著,不满足显著性;b)例如正样本集TGI=10000,负样本集TGI=9000,这种情况下正样本集TGI与负样本集TGI的差值很大,但是正样本集TGI与负样本集TGI的比值较小,即在正负样本集中都很显著,不满足差异性要求,因此本申请实施例中,还基于正样本集目标群体指数和负样本集目标群体指数,定义了显著度指标和差异度指标。
具体地,1)分别将至少一组候选特征组合对应的正样本集目标群体指数和负样本集目标群体指数的平均值,作为至少一组候选特征组合的显著度指标。
例如,显著度指标为:
Figure BDA0002816944220000161
2)分别将至少一组候选特征组合对应的正样本集目标群体指数与负样本集目标群体指数的比值,作为至少一组候选特征组合的差异度指标。
例如,差异度指标为:
Figure BDA0002816944220000162
S1.4、分别根据至少一组候选特征组合的显著度指标和差异度指标,获得至少一组候选特征组合的最终排序指标。
本申请实施例中,在对至少一组候选特征组合进行排序时,需要融合显著度指标和差异度指标,具体地:
1)分别将至少一组候选特征组合的显著度指标和差异度指标进行归一化处理。
例如,归一化处理可以定义为:
Figure BDA0002816944220000163
其中,mean表示均值,std表示方差。
这样,分别将至少一组候选特征组合进行归一化处理后,可以使得至少一组候选特征组合都在同一取值范围内,便于进行比对,至少一组候选特征组合的最终排序指标更具有可比性,从而提高了排序的准确性。
2)分别将至少一组候选特征组合的归一化处理后的显著度指标和归一化处理后的差异度指标的加和,作为至少一组候选特征组合的最终排序指标。
例如,最终排序指标=归一化处理后的显著度指标+归一化处理后的差异度指标。
这样,可以使用至少一组候选特征组合的最终排序指标,分别对至少一组阶对应的至少一组候选特征组合进行排序,最终排序指标越大,说明该候选特征组合所刻画的目标用户更精确。
S1.5、根据至少一组候选特征组合的最终排序指标,分别对各阶的至少一组候选特征组合从高到低进行排序。
S1.6、根据排序结果和预设目标用户数量,从至少一组候选特征组合中筛选出目标特征组合。
本申请实施例中针对根据排序结果和预设目标用户数量,从至少一组候选特征组合中筛选出目标特征组合,提供了几种可能的实施方式:
第一种实施方式:
具体包括:1)根据指定的阶数,按照排序结果从高到低依次从指定的阶数对应的至少一组候选特征组合中,筛选出能够提取出满足预设目标用户数量的候选特征组合,作为目标特征组合。
即广告主可以根据自身需求来选定从哪阶的候选特征组合中,确定目标特征组合并提取目标用户,例如,某广告主预算较少,希望广告投放更加精准,由于阶数越高的候选特征组合所确定的目标用户根据准确,因此该广告主可以选择较高阶的阶数,例如最高阶为3阶,指定的阶数为3,并且广告主还可以设置所需要推荐的目标用户数量,则可以从3阶的各候选特征组合中,按照排序结果从高到低,来确定出目标特征组合,以保证根据确定出的目标特征组合所提取出的目标用户,可以满足该目标用户数量的需求。
2)若指定的阶数对应的至少一组候选特征组合所能够提取出的目标用户数量不满足预设目标用户数量,则从其它阶数对应的至少一组候选特征组合中,按照排序结果从高到低进行筛选,直至筛选出能够提取出满足预设目标用户数量的候选特征组合,获得目标特征组合。
例如,基于3阶的各候选特征组合所提取的目标用户,仍小于预设目标用户数量,则可以自动从其它阶中来确定目标特征组合,较佳的从指定的阶数相邻的高一阶或低一阶中进行确定,以尽量满足广告主的精确度要求,当然对此本申请实施例中并不进行限制。
第二种实施方式:
具体包括:按照排序结果从高到低,依次从最高阶的至少一组候选特征组合到低阶的至少一组候选特征组合中,筛选出能够提取出满足预设目标用户数量的候选特征组合,作为目标特征组合。
也就是说,本申请实施例中也可以不需要广告主预先指定阶数,而只需设置所需的目标用户数量即可,这时,可以根据目标用户数量,先从最高阶的各候选特征组合中确定,再依次到低阶的各候选特征组合中确定目标特征组合,直到确定出的目标特征组合可以提取出满足预设目标用户数量。
进一步地,为了进一步提高准确性,在分别对各阶的至少一组候选特征组合从高到低进行排序之后,并在根据排序结果和预设目标用户数量,从至少一组候选特征组合中筛选出目标特征组合之前,还可以先对排序后的至少一组候选特征组合进行过滤和筛选,具体地,本申请实施例中提供了一种可能的实施方式,根据排序结果,分别针对各阶的至少一组候选特征组合,筛选出排序前设定数目的候选特征组合,即可以过滤掉排序不在前设定数目的候选特征组合,进而在之后筛选目标特征组合时,可以从排序前设定数目的候选特征组合中筛选,这样,排序较后的候选特征组合,可能其显著性和差异性并不明显,对于目标用户提取可能并不准确,因此可以过滤掉,可以进一步提高定向条件确定准确性和推荐准确性。
进一步地,本申请实施例中,基于集成树模型自动生成了至少一组候选特征组合,并进行了排序,进而可以展示排序后的至少一组候选特征组合,则在确定目标特征组合时,本申请实施例中还可以支持手动选择目标特征组合,例如,广告主可以参考各候选特征组合的排序结果,而手动选择所需的候选特征组合,来作为目标特征组合,对此本申请实施例中并不进行限制。
本申请实施例中,获得待推荐对象的正样本集和负样本集,基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对待推荐对象的备选用户进行筛选时的至少一组候选特征组合;从至少一组候选特征组合中,筛选出与正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合;根据筛选出的目标特征组合,从备选用户中确定用户画像特征与目标特征组合相匹配的目标用户,进而可以将待推荐对象推荐给确定出的目标用户,这样,可以通过训练集成树模型,对指定的正样本集和负样本集中各用户的用户画像特征进行分析,并自动生成各候选特征组合,从而从中筛选出目标特征组合,作为定向条件,无需人工进行分析和筛选,不依赖于广告主经验,极大提高了效率,提高了准确性,降低了整体耗时,例如可以在30分钟内就可以完成上万甚至更多用户画像特征的分析,并且还可以不仅支持和全量用户集对比,还可以支持直接比对两个特定人群,而且可以自动生成候选特征组合,不仅支持一阶用户画像特征分析,还可以支持高阶用户画像特征组合分析,也提高了确定出的目标用户的准确性和推荐的准确性。
基于上述实施例,下面采用具体应用场景,对本申请实施例中对象推荐方法的方案整体进行说明,本申请实施例中对象推荐方法可以分为以下几部分内容:1)样本生成;2)特征工程;3)模型训练;4)候选特征组合生成;5)结果排序;6)定向提取,分别对应图4中的各个步骤,具体参阅图4所示,为本申请实施例中另一种对象推荐方法的流程示意图,包括:
步骤400:确定正样本集和负样本集。
样本生成部分,即将实验组用户作为正样本集,将对照组用户作为负样本集。
步骤401:分别确定正样本集和负样本集中各用户的用户画像特征。
步骤402:根据正样本集和负样本集中各用户的用户画像特征,训练集成树模型。
其中,集成树模型例如为XGBoost模型,本申请实施例中并不进行限制。
步骤403:基于已训练的集成树模型,获得各候选特征组合。
具体地,分别针对已训练的集成树模型中的各个树,从树的根节点到各叶子节点进行遍历,将从根节点到各叶子节点所对应的用户画像特征进行组合,获得各最高阶特征组合,将各最高阶特征组合的各非空子集中的特征组合,作为各候选特征组合。
由于集成树模型是用于分类的,在基于正样本的用户画像特征和负样本的用户画像特征进行不断学习,可以将正样本和负样本进行分类划分,集成树模型中根节点、节点到叶子节点均对应用户画像特征,这样进行遍历组合得到的候选特征组合,可以用于对待推荐对象的备选用户进行筛选。
步骤404:从各候选特征组合中筛选出目标特征组合。
具体地,获得各候选特征组合的最终排序指标,并根据各候选特征组合的最终排序指标,分别对各阶的各候选特征组合从高到低进行排序,从而可以根据排序结果和预设目标用户数量,从各候选特征组合中筛选出目标特征组合,即确定出的目标特征组合,通常是排序结果中前N个候选特征组合。
步骤405:根据筛选出的目标特征组合,确定出与目标特征组合相匹配的目标用户。
需要说明的是,上述步骤400-步骤404为用户画像特征自动分析部分,步骤405为目标用户提取部分,这样,本申请实施例中,基于集成模型实现自动对各用户画像特征进行分析,并生成候选特征组合,进而分析确定出目标特征组合,并确定出目标用户,向目标用户推荐对象,实现对象的定向推荐功能,提高了准确性和效率,例如应用于广告定位投放业务场景,提高广告投放效果,通过分析验证,相比于相关技术中广告主人工选择的定向人群的方式,本申请实施例中的方法在广告投放效果上,点击率平均提升15%,转化率平均提升20%,在提升广告投放效果的同时,也降低了广告主或者运营者的人工分析时间消耗和成本。
基于上述实施例,下面从产品侧对本申请实施例中的对象推荐方法进行说明,以应用于广告定向投放场景为例,本申请实施例中可以在投放平台中提供的人群洞察分析中,提供人群特征分析功能,以进行用户画像特征分析,快速生成定向条件推荐,例如参阅图5所示,为本申请实施例中发起人群特征分析的界面示意图,在投放平台中提供“人群特征分析”功能,该人群特征分析功能即用于实现本申请实施例中对象推荐方法中至少一组候选特征组合和目标特征组合确定的方法,可以分析正负样本人群之间的特征差异,帮助广告主迅速定位人群显著差异而指导投放。
用户选择该“人群特征分析”功能后,可以选择待分析人群,例如,参阅图6所示,为本申请实施例中正负样本集确定的界面示意图,如图6所示,投放平台中可以提供“我的人群”、“广告人群”,其中“我的人群”表示投放平台自身所拥有的人群,“广告人群”表示与广告有互动的人群,广告主可以需求而选择待分析人群,进而可以从中确定出正样本集和负样本集,并且广告主还可以在投放平台中选择特征范围,即所需分析的用户画像特征范围,从而生成洞察任务,可以自动对正样本集和负样本集的用户画像特征进行分析,生成各候选特征组合,并进行排序筛选,确定出目标特征组合。
这样,本申请实施例中基于集成树模型的自动定向推荐,可以根据不同的推荐优化目标,快速生成用于目标用户推荐的定向条件,即目标特征组合,可以减少广告主的人工操作,提高了效率,并且还可以提高定向条件准确性,提升推荐准确性,从而优化了广告投放效果。
另外,针对相关技术所存在的问题,本申请实施例中除了可以基于集成树模型的自动定向推荐外,还提供了几种可能的实施方式,可以基于行业粒度,计算行业粒度的定向推荐结果,具体如下:
第一种实施方式:行业热门定向,即对象推荐中使用用户画像特征较高的定向。
具体地:1)分别针对特征组合,获取历史使用特征组合定向推荐的对象信息和历史未使用特征组合定向推荐的对象信息。
其中,历史使用特征组合定向推荐的对象信息中至少包括使用特征组合定向推荐的对象的数量,历史未使用特征组合定向推荐的对象信息中至少包括未使用特征组合定向推荐的对象的数量。
并且,本申请实施例中,可以从某一单行业中获取历史使用特征组合定向推荐的对象信息和历史未使用特征组合定向推荐的对象信息,也可以从全行业中获取,对此本申请实施例中并不进行限制。
2)确定使用特征组合定向推荐的对象的数量和未使用特征组合定向推荐的对象的数量的加和,并将使用特征组合定向推荐的对象的数量与该加和的比值,作为该特征组合的使用频率指标。
例如,以对象为广告为例,参阅图7所示,为本申请实施例中行业热门定向原理示意图,如图7所示,图7中(1)图为全行业广告,图7中(2)图为单行业广告,其中,A和C表示未使用特征组合定向推荐的广告的数量,B和D表示使用特征组合定向推荐的广告的数量,则用于排序的使用频率指标为:
Figure BDA0002816944220000221
Figure BDA0002816944220000222
3)基于各特征组合对应的使用频率指标,分别对各特征组合进行排序。
4)根据排序结果和预设目标用户数量,从各特征组合中筛选出目标特征组合,并确定出符合目标特征组合的目标用户。
5)向确定出的目标用户推荐对象。
第二种实施方式:行业优质定向,即对象推荐过程中转化效果较好的定向。
具体地:1)分别针对各特征组合,获得历史发生过对象点击行为,但未基于特征组合定向推荐的第一对象数量;
获得发生过对象点击行为,并基于特征组合定向推荐的第二对象数量;
获得发生过对象点击和转化行为,但未基于特征组合定向推荐的第三对象数量;
获得发生过对象点击和转化行为,并基于特征组合定向推荐的第四对象数量。
2)根据第一对象数量、第二对象数量、第三对象数量和第四对象数量,确定该特征组合的转化指标。
例如,参阅图8所示,为本申请实施例中行业优质定向原理示意图,如图8所示,A表示第一对象数量,B表示第二对象数量,C表示第三对象数量,B表示第四对象数量,则用于排序的转化指标为:
Figure BDA0002816944220000231
3)基于各特征组合对应的转化指标,分别对各特征组合进行排序。
4)根据排序结果和预设目标用户数量,从各特征组合中筛选出目标特征组合,并确定出符合目标特征组合的目标用户。
5)向确定出的目标用户推荐对象。
第三种实施方式:行业潜力定向,即对象推荐过程中转化效果好、使用频次低的定向。
该第三种实施方式,是在上述第一种实施方式和第二种实施方式的基础上,具体地:1)将基于转化指标排序后确定的目标特征组合中去除基于使用频率排序后确定的目标特征组合,确定最终目标特征组合。
例如,行业潜力定向=行业优质定向-行业热门定向。
2)确定出符合最终目标特征的目标用户,向确定出的目标用户推荐对象。
需要说明的是,本申请实施例中的上述三种实施方式,也可以对各特征组合进行自动分析,无需人工分析,也可以解决相关技术中计算性能和人工成本大的问题,提高了效率和准确性,但是相较于上述实施例中基于集成树模型的定向推荐,不能指定实验组和对照组分析范围,并且仅基于行业粒度,不能根据广告主定制推荐,并且分析维度也较单一,也就是说,上述三种实施方式相较于基于集成树模型的定向推荐,可能准确性和效率较低,但是相比于相关技术,还是可以解决相关技术中所存在的问题,这几种定向推荐方式都应属于本申请所要保护的范围。
基于同一发明构思,本申请实施例中还提供了一种对象推荐装置,该对象推荐装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例,参阅图9所示,本申请实施例中对象推荐装置,具体包括:
第一获得模块90,用于获得待推荐对象的正样本集和负样本集,其中,所述正样本集包括的每个正样本表示对于推荐优化目标具有正向行为特征的用户,所述负样本集包括的各个负样本表示对于所述推荐优化目标具有负向行为特征的用户;
第二获得模块91,用于基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对所述待推荐对象的备选用户进行筛选时的至少一组候选特征组合;
筛选模块92,用于从所述至少一组候选特征组合中,筛选出与所述正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合;
确定模块93,用于根据筛选出的目标特征组合,从所述备选用户中确定用户画像特征与所述目标特征组合相匹配的目标用户;
推荐模块94,用于将所述待推荐对象推荐给确定出的目标用户。
可选的,获得待推荐对象的正样本集和负样本集时,第一获得模块90具体用于:将上传的实验组用户作为正样本集,并将上传的对照组用户作为负样本集。
可选的,第一获得模块90具体用于:获取所述推荐优化目标和历史参考对象推荐信息,并根据所述推荐优化目标,从所述历史参考对象推荐信息中筛选出对于所述推荐优化目标具有正向行为特征的用户,获得正样本集,并筛选出对于所述推荐优化目标具有负向行为特征的用户,获得负样本集。
可选的,第二获得模块91进一步用于:
过滤掉在所述正样本集或所述负样本集中覆盖度小于预设阈值的用户画像特征。
可选的,基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对所述待推荐对象的备选用户进行筛选时的至少一组候选特征组合时,第二获得模块91具体用于:
根据所述正样本集中各个正样本的用户画像特征,以及所述负样本集中各个负样本的用户画像特征,训练集成树模型,获得已训练的集成树模型,其中,所述集成树模型中树的数量为第一数目,每棵树的深度为第二数目;
分别针对所述已训练的集成树模型中的各个树,从树的根节点到各叶子节点进行遍历,将从根节点到各叶子节点所对应的用户画像特征进行组合,获得各最高阶特征组合,并根据所述各最高阶特征组合的各非空子集中的特征组合,获得至少一组候选特征组合,其中,所述最高阶特征组合的阶数为所述第二数目,则所述至少一组候选特征组合的阶数为从1到所述第二数目。
可选的,从所述至少一组候选特征组合中,筛选出与所述正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合时,筛选模块92具体用于:
分别计算所述至少一组候选特征组合在所述正样本集、所述负样本集和预设全量用户集中的占比;
分别根据所述至少一组候选特征组合在所述正样本集和在所述预设全量用户集中的占比,确定所述至少一组候选特征组合对应的正样本集目标群体指数,并分别根据所述至少一组候选特征组合在所述负样本集和在所述预设全量用户集中的占比,确定所述至少一组候选特征组合对应的负样本集目标群体指数;
分别根据所述至少一组候选特征组合对应的正样本集目标群体指数和负样本集目标群体指数,获得所述至少一组候选特征组合的显著度指标和差异度指标;
分别根据所述至少一组候选特征组合的显著度指标和差异度指标,获得所述至少一组候选特征组合的最终排序指标;
根据所述至少一组候选特征组合的最终排序指标,分别对各阶的至少一组候选特征组合从高到低进行排序;
根据排序结果和预设目标用户数量,从所述至少一组候选特征组合中筛选出目标特征组合。
可选的,分别根据所述至少一组候选特征组合对应的正样本集目标群体指数和负样本集目标群体指数,获得所述至少一组候选特征组合的显著度指标和差异度指标时,筛选模块92具体用于:
分别将所述至少一组候选特征组合对应的正样本集目标群体指数和负样本集目标群体指数的平均值,作为所述至少一组候选特征组合的显著度指标;
分别将所述至少一组候选特征组合对应的正样本集目标群体指数与负样本集目标群体指数的比值,作为所述至少一组候选特征组合的差异度指标。
可选的,分别根据所述至少一组候选特征组合的显著度指标和差异度指标,获得所述至少一组候选特征组合的最终排序指标时,筛选模块92具体用于:
分别将所述至少一组候选特征组合的显著度指标和差异度指标进行归一化处理;
分别将所述至少一组候选特征组合的归一化处理后的显著度指标和归一化处理后的差异度指标的加和,作为所述至少一组候选特征组合的最终排序指标。
可选的,根据排序结果和预设目标用户数量,从所述至少一组候选特征组合中筛选出目标特征组合时,筛选模块92具体用于:
根据指定的阶数,按照排序结果从高到低依次从指定的阶数对应的至少一组候选特征组合中,筛选出能够提取出满足预设目标用户数量的候选特征组合,作为目标特征组合;
若所述指定的阶数对应的至少一组候选特征组合所能够提取出的目标用户数量不满足所述预设目标用户数量,则从其它阶数对应的至少一组候选特征组合中,按照排序结果从高到低进行筛选,直至筛选出能够提取出满足预设目标用户数量的候选特征组合,获得目标特征组合。
可选的,根据排序结果和预设目标用户数量,从所述至少一组候选特征组合中筛选出目标特征组合时,筛选模块92具体用于:
按照排序结果从高到低,依次从最高阶的至少一组候选特征组合到低阶的至少一组候选特征组合中,筛选出能够提取出满足预设目标用户数量的候选特征组合,作为目标特征组合。
基于上述实施例,参阅图10所示为本申请实施例中电子设备的结构示意图。
本申请实施例提供了一种电子设备,该电子设备可以是终端或服务器,本申请实施例以电子设备为服务器为例进行说明,该电子设备可以包括处理器1010(CenterProcessing Unit,CPU)、存储器1020、输入设备1030和输出设备1040等。
存储器1020可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器1010提供存储器1020中存储的程序指令和数据。在本申请实施例中,存储器1020可以用于存储本申请实施例中任一种对象推荐方法的程序。
处理器1010通过调用存储器1020存储的程序指令,处理器1010用于按照获得的程序指令执行本申请实施例中任一种对象推荐方法。
基于上述实施例,本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意方法实施例中的对象推荐方法。
基于上述实施例,本申请实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任意方法实施例中的对象推荐方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (12)

1.一种对象推荐方法,其特征在于,包括:
获得待推荐对象的正样本集和负样本集,其中,所述正样本集包括的每个正样本表示对于推荐优化目标具有正向行为特征的用户,所述负样本集包括的各个负样本表示对于所述推荐优化目标具有负向行为特征的用户;
基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对所述待推荐对象的备选用户进行筛选时的至少一组候选特征组合;
从所述至少一组候选特征组合中,筛选出与所述正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合;
根据筛选出的目标特征组合,从所述备选用户中确定用户画像特征与所述目标特征组合相匹配的目标用户;
将所述待推荐对象推荐给确定出的目标用户。
2.如权利要求1所述的方法,其特征在于,获得待推荐对象的正样本集和负样本集,具体包括:
将上传的实验组用户作为正样本集,并将上传的对照组用户作为负样本集;或,
获取所述推荐优化目标和历史参考对象推荐信息,并根据所述推荐优化目标,从所述历史参考对象推荐信息中筛选出对于所述推荐优化目标具有正向行为特征的用户,获得正样本集,并筛选出对于所述推荐优化目标具有负向行为特征的用户,获得负样本集。
3.如权利要求1所述的方法,其特征在于,进一步包括:
过滤掉在所述正样本集或所述负样本集中覆盖度小于预设阈值的用户画像特征。
4.如权利要求1所述的方法,其特征在于,基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对所述待推荐对象的备选用户进行筛选时的至少一组候选特征组合,具体包括:
根据所述正样本集中各个正样本的用户画像特征,以及所述负样本集中各个负样本的用户画像特征,训练集成树模型,获得已训练的集成树模型,其中,所述集成树模型中树的数量为第一数目,每棵树的深度为第二数目;
分别针对所述已训练的集成树模型中的各个树,从树的根节点到各叶子节点进行遍历,将从根节点到各叶子节点所对应的用户画像特征进行组合,获得各最高阶特征组合,并根据所述各最高阶特征组合的各非空子集中的特征组合,获得至少一组候选特征组合,其中,所述最高阶特征组合的阶数为所述第二数目,则所述至少一组候选特征组合的阶数为从1到所述第二数目。
5.如权利要求1-4任一项所述的方法,其特征在于,从所述至少一组候选特征组合中,筛选出与所述正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合,具体包括:
分别计算所述至少一组候选特征组合在所述正样本集、所述负样本集和预设全量用户集中的占比;
分别根据所述至少一组候选特征组合在所述正样本集和在所述预设全量用户集中的占比,确定所述至少一组候选特征组合对应的正样本集目标群体指数,并分别根据所述至少一组候选特征组合在所述负样本集和在所述预设全量用户集中的占比,确定所述至少一组候选特征组合对应的负样本集目标群体指数;
分别根据所述至少一组候选特征组合对应的正样本集目标群体指数和负样本集目标群体指数,获得所述至少一组候选特征组合的显著度指标和差异度指标,并分别根据所述至少一组候选特征组合的显著度指标和差异度指标,获得所述至少一组候选特征组合的最终排序指标;
根据所述至少一组候选特征组合的最终排序指标,分别对各阶的至少一组候选特征组合从高到低进行排序;
根据排序结果和预设目标用户数量,从所述至少一组候选特征组合中筛选出目标特征组合。
6.如权利要求5所述的方法,其特征在于,分别根据所述至少一组候选特征组合对应的正样本集目标群体指数和负样本集目标群体指数,获得所述至少一组候选特征组合的显著度指标和差异度指标,具体包括:
分别将所述至少一组候选特征组合对应的正样本集目标群体指数和负样本集目标群体指数的平均值,作为所述至少一组候选特征组合的显著度指标;
分别将所述至少一组候选特征组合对应的正样本集目标群体指数与负样本集目标群体指数的比值,作为所述至少一组候选特征组合的差异度指标。
7.如权利要求5所述的方法,其特征在于,分别根据所述至少一组候选特征组合的显著度指标和差异度指标,获得所述至少一组候选特征组合的最终排序指标,具体包括:
分别将所述至少一组候选特征组合的显著度指标和差异度指标进行归一化处理;
分别将所述至少一组候选特征组合的归一化处理后的显著度指标和归一化处理后的差异度指标的加和,作为所述至少一组候选特征组合的最终排序指标。
8.如权利要求5所述的方法,其特征在于,根据排序结果和预设目标用户数量,从所述至少一组候选特征组合中筛选出目标特征组合,具体包括:
根据指定的阶数,按照排序结果从高到低依次从指定的阶数对应的至少一组候选特征组合中,筛选出能够提取出满足预设目标用户数量的候选特征组合,作为目标特征组合;
若所述指定的阶数对应的至少一组候选特征组合所能够提取出的目标用户数量不满足所述预设目标用户数量,则从其它阶数对应的至少一组候选特征组合中,按照排序结果从高到低进行筛选,直至筛选出能够提取出满足预设目标用户数量的候选特征组合,获得目标特征组合。
9.如权利要求5所述的方法,其特征在于,根据排序结果和预设目标用户数量,从所述至少一组候选特征组合中筛选出目标特征组合,具体包括:
按照排序结果从高到低,依次从最高阶的至少一组候选特征组合到低阶的至少一组候选特征组合中,筛选出能够提取出满足预设目标用户数量的候选特征组合,作为目标特征组合。
10.一种对象推荐装置,其特征在于,包括:
第一获得模块,用于获得待推荐对象的正样本集和负样本集,其中,所述正样本集包括的每个正样本表示对于推荐优化目标具有正向行为特征的用户,所述负样本集包括的各个负样本表示对于所述推荐优化目标具有负向行为特征的用户;
第二获得模块,用于基于各个正样本的用户画像特征,以及各个负样本的用户画像特征,获得对所述待推荐对象的备选用户进行筛选时的至少一组候选特征组合;
筛选模块,用于从所述至少一组候选特征组合中,筛选出与所述正样本集中的各个用户的用户画像特征之间的关联度满足设定条件的至少一组候选特征组合作为目标特征组合;
确定模块,用于根据筛选出的目标特征组合,从所述备选用户中确定用户画像特征与所述目标特征组合相匹配的目标用户;
推荐模块,用于将所述待推荐对象推荐给确定出的目标用户。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-9任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-9任一项所述方法的步骤。
CN202011411953.9A 2020-12-04 2020-12-04 一种对象推荐方法、装置、电子设备及存储介质 Pending CN114596108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011411953.9A CN114596108A (zh) 2020-12-04 2020-12-04 一种对象推荐方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011411953.9A CN114596108A (zh) 2020-12-04 2020-12-04 一种对象推荐方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114596108A true CN114596108A (zh) 2022-06-07

Family

ID=81803009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011411953.9A Pending CN114596108A (zh) 2020-12-04 2020-12-04 一种对象推荐方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114596108A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452261A (zh) * 2023-06-15 2023-07-18 深圳千亚商务科技有限公司 一种基于跨境电商服务平台的广告投放数据处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452261A (zh) * 2023-06-15 2023-07-18 深圳千亚商务科技有限公司 一种基于跨境电商服务平台的广告投放数据处理方法
CN116452261B (zh) * 2023-06-15 2023-08-18 深圳千亚商务科技有限公司 一种基于跨境电商服务平台的广告投放数据处理方法

Similar Documents

Publication Publication Date Title
CN108287857B (zh) 表情图片推荐方法及装置
CN109933699A (zh) 一种学术画像模型的构建方法及装置
CN108777701B (zh) 一种确定信息受众的方法及装置
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN112380453B (zh) 物品推荐方法、装置、存储介质及设备
Alshmrany Adaptive learning style prediction in e-learning environment using levy flight distribution based CNN model
CN113379449B (zh) 多媒体资源召回方法、装置、电子设备以及存储介质
WO2023284516A1 (zh) 基于知识图谱的信息推荐方法、装置、设备、介质及产品
CN109977979B (zh) 定位种子用户的方法、装置、电子设备和存储介质
CN114692007B (zh) 表示信息的确定方法、装置、设备及存储介质
CN113569162A (zh) 数据处理方法、装置、设备及存储介质
US20210350202A1 (en) Methods and systems of automatic creation of user personas
CN115222433A (zh) 一种信息推荐方法、装置及存储介质
US20230316106A1 (en) Method and apparatus for training content recommendation model, device, and storage medium
CN114596108A (zh) 一种对象推荐方法、装置、电子设备及存储介质
CN114463590A (zh) 信息处理方法、装置、设备、存储介质及程序产品
CN115203516A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN114897607A (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
CN113076450A (zh) 一种目标推荐列表的确定方法和装置
CN113450127A (zh) 信息展示方法、装置、计算机设备及存储介质
CN113312514B (zh) 结合Deepwalk及社区发现技术的分组方法、装置、设备及介质
CN114154066A (zh) 信息推荐方法、装置及存储介质
Tella A Movie Recommendation System Based on Game Theoretic Approach
CN117251820A (zh) 数据处理方法、装置、计算机设备和存储介质
CN114912934A (zh) 用户意愿识别方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination