CN117252665B - 业务推荐方法、装置、电子设备及存储介质 - Google Patents

业务推荐方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117252665B
CN117252665B CN202311508557.1A CN202311508557A CN117252665B CN 117252665 B CN117252665 B CN 117252665B CN 202311508557 A CN202311508557 A CN 202311508557A CN 117252665 B CN117252665 B CN 117252665B
Authority
CN
China
Prior art keywords
sample
dimension
target
behavior
feature dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311508557.1A
Other languages
English (en)
Other versions
CN117252665A (zh
Inventor
张晓辉
卢丽华
李茹杨
魏辉
赵雅倩
李仁刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311508557.1A priority Critical patent/CN117252665B/zh
Publication of CN117252665A publication Critical patent/CN117252665A/zh
Application granted granted Critical
Publication of CN117252665B publication Critical patent/CN117252665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种业务推荐方法、装置、电子设备及存储介质,涉及计算机技术领域,该方法包括:将每一第一样本特征维度和目标行为类别的标识信息输入目标关系预测模型,获得每一第一样本特征维度与目标行为类别之间的关系预测值;基于每一关系预测值,确定目标行为类别对应的目标特征维度;基于目标特征维度和目标行为类别,对目标用户进行业务推荐。本发明提供的业务推荐方法、装置、电子设备及存储介质,能更准确、更高效地获取不同样本特征维度与不同样本行为类别之间的关联关系,进而能更准确、更高效地获取不同样本特征维度与目标行为类别之间的关联关系,能基于目标特征维度实现更精准、更高效地业务推荐。

Description

业务推荐方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种业务推荐方法、装置、电子设备及存储介质。
背景技术
对于购物平台,尤其是电商购物平台,运营方可以基于消费者从信息搜索到产品购买甚至购买后的历史行为,获取消费者的历史行为特征,进而可以基于消费者的用户特征和历史行为特征,为消费者提供业务推荐。
可以理解的是,购物平台通常可以为消费者提供多种不同类别、不同品牌以及不同价格的业务。
但是,相关技术中仅能获取消费者的用户特征和历史行为特征与某一行为类别之间的关联关系,难以获取消费者的用户特征和历史行为特征与多个行为类别之间的关联关系,亦难以获取消费者的用户特征和历史行为特征与新建行为类别之间的关联关系,导致相关技术中业务推荐的准确率不高。
发明内容
本发明提供一种业务推荐方法、装置、电子设备及存储介质,用以解决现有技术中仅能获取消费者的用户特征和历史行为特征与某一行为类别之间的关联关系,难以获取消费者的用户特征和历史行为特征与多个行为类别之间的关联关系,亦难以获取消费者的用户特征和历史行为特征与新建行为类别之间的关联关系,导致相关技术中业务推荐的准确率不高的缺陷,实现更准确地获取消费者的用户特征和历史行为特征与多个行为类别,进而更准确地获取消费者的用户特征和历史行为特征与新建行为类别之间的关联关系,从而提高业务推荐的准确性。
本发明提供一种业务推荐方法,所述业务包括:商品、服务以及内容中的任意一种;所述方法,包括:
将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得所述目标关系预测模型输出的所述每一第一样本特征维度与所述目标行为类别之间的关系预测值,所述目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,所述第一关系标签值包括每一所述样本特征维度与每一样本行为类别之间的关系标签值,所述第二关系标签值包括各所述样本特征维度中每一第二样本特征维度与所述目标行为类别之间的关系标签值;
基于每一所述第一样本特征维度与所述目标行为类别之间的关系预测值,在各所述第一样本特征维度中确定所述目标行为类别对应的目标特征维度;
基于所述目标特征维度和所述目标行为类别,对目标用户进行业务推荐;
其中,所述样本特征维度包括用户特征维度和/或历史行为维度;所述用户特征维度包括用于描述用户个体的特征维度;所述历史行为维度包括用于描述用户的历史行为的特征维度;行为类别用于描述不同维度和不同粒度的行为;所述目标行为类别与所述样本行为类别为不同的行为类别。
本发明还提供一种业务推荐装置,所述业务包括:商品、服务以及内容中的任意一种;所述装置,包括:
数据输入模块,用于将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得所述目标关系预测模型输出的所述每一第一样本特征维度与所述目标行为类别之间的关系预测值,所述目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,所述第一关系标签值包括每一所述样本特征维度与每一样本行为类别之间的关系标签值,所述第二关系标签值包括各所述样本特征维度中每一第二样本特征维度与所述目标行为类别之间的关系标签值;
特征选择模块,基于每一所述第一样本特征维度与所述目标行为类别之间的关系预测值,在各所述第一样本特征维度中确定所述目标行为类别对应的目标特征维度;
业务推荐模块,用于基于所述目标特征维度和所述目标行为类别,对目标用户进行业务推荐;
其中,所述样本特征维度包括用户特征维度和/或历史行为维度;所述用户特征维度包括用于描述用户个体的特征维度;所述历史行为维度包括用于描述用户的历史行为的特征维度;行为类别用于描述不同维度和不同粒度的行为;所述目标行为类别与所述样本行为类别为不同的行为类别。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述业务推荐方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述业务推荐方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述业务推荐方法。
本发明提供的业务推荐方法、装置、电子设备及存储介质,通过逐次将各样本特征维度中的每一第一样本特征维度的标识信息和目标行为类别的标识信息作为一组信息输入目标关系预测模型,获得目标关系预测模型逐次输出的每一第一样本特征维度与目标行为类别之间的关系预测值之后,基于每一第一样本特征维度与目标行为类别之间的关系预测值,在各第一样本特征维度中确定目标行为类别对应的目标特征维度,进而基于目标特征维度和目标行为类别,对目标用户进行业务推荐,其中目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,第一关系标签值包括每一样本特征维度与每一样本行为类别之间的关系标签值,第二关系标签值包括各样本特征维度中每一第二样本特征维度与目标行为类别之间的关系标签值,能更准确、更高效地获取不同样本特征维度与不同样本行为类别之间的关联关系,进而能更准确、更高效地获取不同样本特征维度与目标行为类别之间的关联关系,基于不同样本特征维度与目标行为类别之间的关联关系更准确、更高效地确定与目标行为类别关联性最强的目标特征维度,能基于目标特征维度实现更精准、更高效地业务推荐,能更好的满足用户需求,能提高用户感知。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的业务推荐方法的流程示意图;
图2是本发明提供的业务推荐方法中目标关系预测模型的结构示意图;
图3是本发明提供的业务推荐方法中特征选择步骤的流程图;
图4是本发明提供的业务推荐装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,特征选择(Feature Selection)是机器学习和特征工程的一个重要环节,其目标是选择一些对模型最重要的特征,即寻找最优的特征子集,剔除掉不相关和冗余特征,从而降低模型复杂度,并且减少训练时间,提高算法性能和泛化能力。
具体地,相关技术中可以通过特征选择,确定与目标类别的消费行为相关性最高的用户特征和历史行为特征,进而可以基于上述目标类别的消费行为以及与上述目标类别的消费行为相关性最高的用户特征和历史行为特征对机器学习模型进行训练,得到训练好的机器学习模型。
需要说明的是,在本发明的描述中,行为类别可以用于描述不同维度和不同粒度的行为,例如:行为类别1可以用于描述购买不同类型(如服饰类、母婴类、电子数码类)商品的消费行为;行为类别2可以用于描述购买不同价值的消费行为;行为类别3可以用于描述购买不同品牌的商品的消费行为;行为类别4可以用于购买描述购买某一消费品牌下某一消费类型的商品的消费行为。
又例如:行为类别5可以用于描述观看不同类型(如动画、电影、电视剧、短视频等)视频的观看行为;行为类别6可以用于描述观看不同演员的电影的观看行为;行为类别可以用于描述观看不同语种的视频的观看行为。
相关技术中,经典的特征选择方法有很多,例如,可以从评估准则、搜索策略及监督信息三个方面对特征选择算法进行了分类,再通过评估特征与样本类别之间的关系进行特征选择,或者通过评估特征的相对重要性来进行数据降维,从而达到特征选择的目的;又例如,可以分别从搜索策略和评价准则两方面对特征选择进行了分类和比较;又例如,可以基于启发式搜索的遗传算法,对特征子集空间来进行探索;又例如,可以使用深度学习对图像多维特征进行选择,在图像检索上取得查询时间降低的效果;又例如,可以基于随机森林的机器学习模型,对传统的特征提取进行建模。
但是,上述经典的特征选择方法绝大多数是非深度学习方法,并且,上述经典的特征选择方法仅对单个样本类别进行特征选择,忽略了不同样本类别之间、不同样本类别与特征之间、不同特征之间的内在关系,导致对已有样本类别和特征的内在关系建模不充分,难以利用已有样本类别和特征来帮助新样本类别进行特征选择。
为了解决多个样本类别和多个特征之间的内在定量关系的缺失,以及充分利用现有样本类别和现有特征数据,帮助新样本类别进行特征选择问题,本发明提供一种业务推荐方法中,采用了一种基于深度学习和神经网络的特征选择方法。上述特征选择方法利用神经网络强大的学习能力,探索样本类别与特征之间、特征和特征之间、样本类别和特征之间的内在关系,综合建模了样本类别和特征的自身属性,样本类别和特征在隐空间各维度对二者内在关系的影响,同时使用线性关系网络和非线性关系网络分别建模了二者的线性关系和非线性关系。该模型使用深度神经网络能够准确高效地预估出新样本类别和新特征之间的定量关系,根据这个定量关系,可以有效地对新样本进行特征选择。同时,为了增加特征的表达能力,本申请对特征进行一系列的增强操作来生成新的特征,新特征更好地表达了问题本质,有效地扩展了0原始特征的表达能力,进而提升任务模型效果。最终从原始特征及其增强特征集合中,为新样本类别选择有效特征。这种方法非常充分建模了数据的整体关系,特征选择具有较高的准确性、高效性和泛化性。
图1是本发明提供的业务推荐方法的流程示意图。下面结合图1描述本发明的业务推荐方法。如图1所示,该方法包括:步骤101、将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得目标关系预测模型输出的每一第一样本特征维度与目标行为类别之间的关系预测值,目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,第一关系标签值包括每一样本特征维度与每一样本行为类别之间的关系标签值,第二关系标签值包括各样本特征维度中每一第二样本特征维度与目标行为类别之间的关系标签值。
其中,样本特征维度包括用户特征维度和/或历史行为维度;用户特征维度包括用于描述用户个体的特征维度;历史行为维度包括用于描述用户的历史行为的特征维度;行为类别用于描述不同维度和不同粒度的行为;目标行为类别与样本行为类别为不同的行为类别。
需要说明的是,本发明实施例的执行主体为业务推荐装置。
其中,本发明实施例中的业务可以通过商品、服务以及内容等多种形式体现。
具体地,本发明实施例中的样本特征维度可以包括用户特征维度和/或历史行为维度;用户特征维度包括可以用于描述用户个体的特征维度;用户特征维度包括可以用于描述用户的历史行为的特征维度。
例如:样本特征维度1可以为年龄维度;样本特征维度2可以为性别维度;样本特征维度3可以为学历维度;样本特征维度4可以为用户所在地区维度;样本特征维度5可以为用户历史浏览行为的维度;样本特征维度6可以为用户历史点击行为维度;样本特征维度7可以为用户历史评分行为维度;样本特征维度8可以为用户历史反馈行为维度;样本特征维度9可以为用户历史社交互动行为维度;样本特征维度10可以为用户历史阅读行为维度。
可选地,用户特征维度包括年龄维度、性别维度、学历维度、所在地区维度、职业维度以及爱好维度中的至少一个;历史行为维度包括用户历史浏览行为的维度、用户历史点击行为维度、用户历史评分行为维度、用户历史反馈行为维度、用户历史社交互动行为维度以及用户历史阅读行为维度中的至少一个。
本发明实施例中可以用表示样本特征维度的数量;其中,/>为大于1的正整数。
需要说明的是,本发明实施例中可以在个样本特征维度中随机选择/>个样本特征维度作为第二样本特征维度,将/>个样本特征维度中剩余的样本特征维度作为第一样本特征维度;或者,可以基于先验知识在/>个样本特征维度中指定/>个样本特征维度作为第二样本特征维度,将/>个样本特征数据中剩余的样本特征数据作为第一样本特征维度。
可以理解的是,第二样本特征维度的数量为个,第一样本特征维度的数量即为个。
需要说明的是,本发明实施例中第一样本特征维度的数量大于第二样本特征维度的数量,即,
可以理解的是,任一第一样本特征维度亦为样本特征维度。本发明实施例中可以用表示第/>个第一样本特征维度在所有样本特征维度中的顺序,即第/>个第一样本特征维度亦为第/>个样本特征维度。
可以理解的是,目标特征维度与任意一个样本特征维度不同。
本发明实施例中的行为类别可以用于描述不同维度和不同粒度的行为。目标行为类别与样本行为类别为不同的行为类别。
本发明实施例中可以用表示样本行为类别的数量;其中,/>为大于1的正整数。
可以理解的是,本发明实施例中的样本行为类别与目标行为类别并不相同。并且,样本行为类别的数量为多个,而目标行为类别的数量可以为一个或多个。
对于个第一样本特征维度中的第/>个第一样本特征维度(第/>个样本特征维度),将第/>个第一样本特征维度(第/>个样本特征维度)的标识信息和目标特征维度的标识信息输入目标关系预测模型之后,目标关系预测模型可以对第/>个第一样本特征维度(第/>个样本特征维度)与目标行为类别之间的关联关系进行预测,进而可以获取并输出第/>个第一样本特征维度(第/>个样本特征维度)与目标行为类别之间的关系预测值/>
其中,依次取1,2,3…,/>,/>为大于1的正整数,/>表示各样本特征维度的总数。
需要说明的是,第个第一样本特征维度(第/>个样本特征维度)与目标行为类别之间的关系预测值/>,可以用于描述第/>个第一样本特征维度与目标行为类别之间相关性的强弱。
可选地,本发明实施例中第个第一样本特征维度(第/>个样本特征维度)与目标行为类别之间的关系预测值/>越大,第/>个第一样本特征维度与目标行为类别之间相关性越强。
需要说明的是,上述目标关系预测模型可以是基于机器学习模型构建,是第一关系标签值和第二关系标签值进行训练得到的。
作为一个可选地实施例,将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得目标关系预测模型输出的每一第一样本特征维度与目标行为类别之间的关系预测值之前,所述方法还包括:获取每一样本特征维度对应的样本特征数据和每一样本行为类别对应的样本行为类别数据,每一样本特征数据包括样本用户在每一样本特征维度下的特征数据,每一样本行为类别数据包括样本用户在每一样本行为类别下的行为数据。
需要说明的是,本发明实施例中的任意一个样本特征数据可以表示样本用户在一个样本特征维度的特征。相应地,本发明实施例中样本特征数据的数量为个。
可以理解的是,本发明实施例中的样本用户的数量可以为多个。
本发明实施例中的个样本特征数据,可以包括样本用户在多个特征维度下的特征数据;/>个样本特征数据可以与/>个样本特征维度一一对应。
对于个样本特征数据中第/>个样本特征数据,第/>个样本特征数据可以与第/>个样本特征维度相对应。
需要说明的是,本发明实施例中的任意一个样本特征数据都可以用一张数据表格来表示。
表1为第个样本特征数据对应的数据表。如表1所示,第/>个样本特征数据对应的数据表的字段名包括用户标识和样本特征维度的标识信息,第/>个样本特征数据对应的数据表的变量名包括样本用户的身份标识信息(Identity Document,ID)以及与上述样本用户在样本特征维度下的特征值(Feature)。
表1 第个样本特征数据对应的数据表
需要说明的是,本发明实施例中可以用样本用户的身份标识信息,对样本用户进行身份标识,用特征值描述样本用户在某一样本特征维度下的特征。
例如,在用户特征维度为性别维度的情况下,本发明实施例中可以用特征值“0”表示女性,用特征值“1”表示男性,用特征值“2”表示未知;
又例如,在历史行为维度为针对商品A的浏览行为维度的情况下,本发明实施例中可以用于特征值“0”表示没有发生浏览行为,可以用特征值“1”表示发生了浏览行为;
又例如,在用户特征维度为年龄维度的情况下,本发明实施例中可以用特征值“1”表示低于20岁,用特征值“2”表示20岁至30岁之间,用特征值“3”表示30岁至40岁之间,用特征值“4”表示40岁至50岁之间,用特征值“5”表示60岁以上。
作为一个可选地实施例,获取每一样本特征维度对应的样本特征数据:获取样本用户在每一原始特征维度下的特征数据,作为第一原始样本特征数据。
具体地,本发明实施例中可以通过数据查询的方法,从数据库中获取样本用户在多个原始特征维度下的特征数据,作为第一原始样本特征数据。
对第一原始样本特征数据进行数据预处理,根据数据预处理结果,获得第二原始样本特征数据;
其中,数据预处理包括数据格式检测、异常值处理、重复值处理和缺失值处理中的至少一项。
具体地,获取第一原始样本特征数据之后,可以通过对第一原始样本特征数据进行数据格式检测、异常值处理、重复值处理和缺失值处理,获得第二原始样本特征数据。
对第二原始样本特征数据进行特征增强处理,获得样本用户在每一样本特征维度下的特征数据,作为每一样本特征数据;
其中,特征增强处理包括函数转换处理、特征缩放处理、无量纲化处理、数值特征分桶、特征交叉组合中的至少一项。
可以理解的是,对原始特征维度下的特征数据进行增强操作,可以生成新的特征维度下的特征数据,而上述新的特征维度下的特征数据可以更好地表达特征本身,可以有效地增加原始特征维度下的特征数据的表达能力,进而提升训练得到的模型效果。
因此,本发明实施例在获取第二原始样本特征数据之后,可以对第二原始样本特征数据进行特征增强处理,通过对第二原始样本特征数据进行特征增强处理,可以生成新的特征维度下的特征数据,进而可以将上述新的特征维度下的特征数据和第二原始样本特征数据均确定为样本特征数据,上述样本特征数据可以包括原始特征维度下的特征数据和新的特征维度下的特征数据。
具体地,获取第二原始样本特征数据之后,可以通过函数转换、特征缩放、无量纲化处理、数值特征分桶、特征交叉组合中的至少一项,对第二原始样本特征数据进行特征增强处理,进而可以根据特征增强处理结果,获得样本特征数据。
可选的,函数转换处理可以包括最大值最小值归一化(Min-Max Normalization)。其中,最大值最小值归一化是将数值型特征数据缩放到0~1之间,归一化后的新特征值可以通过如下公式计算得到:
其中,和/>分别表示特征的最大值和最小值;/>表示特征的原始值。
可选地,特征缩放处理可以包括特征标准化(Feature Standardization)。其中,特征标准化是将原始特征值转换到同一量纲下,标准化后的新特征值可以通过如下公式计算得到:
其中,是特征数据的平均值;/>表示特征数据的标准差;/>表示特征的原始值。
数值特征分桶(Numerical Feature Binning)是一种将连续数值特征离散化为不同的桶或区间的方法。它可以将连续的数值范围划分为若干个离散的区间,从而将连续数据转换为离散数据。例如,年龄维度是一个数值型的用户特征维度,可以将年龄从0到100等距划分成10个区间,将用户年龄分到对应区间。
特征交叉组合(Feature Cross)是在机器学习中用于将多个特征进行组合的技术。通过特征交叉组合,可以创建新的特征,以更好地表示原始特征之间的关系和相互作用。例如,年龄分桶和性别特征可以进行交叉,形成20-30岁的男性特征。
作为一个可选地实施例,获取每一样本行为类别对应的样本行为类别数据,包括:获取样本用户在每一原始样本行为类别下的行为数据,作为第一原始样本行为类别数据。
具体地,本发明实施例中可以通过数据查询的方法,从数据库中获取样本用户在多个原始样本行为类别下的行为数据,作为第一原始样本行为类别数据。
对第一原始样本行为类别数据进行数据预处理,根据数据预处理结果,获得第二原始样本行为类别数据;
其中,预处理包括数据格式检测、异常值处理、重复值处理和缺失值处理中的至少一项。
具体地,获取第一原始样本行为类别数据之后,可以通过对第一原始样本行为类别数据进行数据格式检测、异常值处理、重复值处理和缺失值处理,获得第二原始样本行为类别数据。
对第二原始样本行为类别数据进行特征增强处理,获得样本用户在每一样本行为类别下的特征数据,作为每一样本行为类别数据;
其中,特征增强处理包括函数转换处理、特征缩放处理、无量纲化处理、数值特征分桶、特征交叉组合中的至少一项。
需要说明的是,本发明实施例中对第二原始样本行为类别数据进行特征增强处理的具体步骤可以参见上述各实施例的内容,本发明实施例中不再赘述。
本发明实施例通过对样本用户在每一原始特征维度下的特征数据以及样本用户在每一原始样本类别下的行为数据进行数据处理和特征增强能获得更具表达能力的样本特征数据和样本行为类别数据,进而能进一步提高业务推荐的准确率。
将各样本特征数据中的部分样本特征数据确定为第一样本特征数据,将剩余的样本特征数据确定为第二样本特征数据。
具体地,获取个样本特征数据之后,可以在/>个样本特征数据中随机选择/>个样本特征数据作为第二样本特征数据,将/>个样本特征数据中剩余的样本特征数据作为第一样本特征数据;或者,可以基于先验知识在/>个样本特征数据中指定/>个样本特征数据作为第二样本特征数据,将/>个样本特征数据中剩余的样本特征数据作为第一样本特征数据。
可以理解的是,第二样本特征数据的数量为个,第一样本特征数据的数量为个。
可以理解的是,本发明实施例中第二样本特征维度的数量大于第一样本特征维度的数量。
将每一第一样本特征数据对应的样本特征维度确定为每一第一样本特征维度,将每一第二样本特征数据对应的每一样本特征维度确定为每一第二样本特征维度。
作为一个可选地实施例,第一关系标签值,是基于如下步骤获取的:
基于每一样本特征数据和每一样本行为类别数据,获取每一样本特征维度与每一样本行为类别之间的关系标签值,作为第一关系标签值。
作为一个可选地实施例,第二关系标签值,是基于如下步骤获取的:
基于每一第二样本特征数据和目标行为类别数据,获取每一第二样本特征维度与目标行为类别之间的关系标签值,作为第二关系标签值,目标行为类别数据包括样本用户在目标行为类别下的行为数据。
具体地,个样本行为类别数据,可以包括样本用户在/>个样本行为类别的行为数据,任意一个样本行为类别数据,可以表示样本用户在一个样本行为类别的行为;/>个样本行为类别数据可以与/>个样本行为类别一一对应。对于/>个样本行为类别数据中第/>个样本行为类别数据,第/>个样本行为类别数据与第/>个样本行为类别相对应。
需要说明的是,本发明实施例中的任意一个样本行为类别数据都可以用一张数据表格来表示。目标行为类别数据亦可以用一张数据表格来表示。
表2为第个样本行为类别数据对应的数据表。如表2所示,第/>个样本行为类别数据对应的数据表的字段名包括用户标识和样本行为类别的标识信息,第/>个样本行为类别数据对应的数据表的变量名包括样本用户的身份标识信息(Identity Document,ID)以及与上述样本用户的ID和上述样本行为类别对应的标签值(Label)。
表2 第个样本行为类别数据对应的数据表
需要说明的是,本发明实施例中可以用标签值描述某一样本行为类别的行为。
例如,在样本行为类别用于是否在某次大促活动中发生消费行为的情况下,本发明实施例中可以用于标签值“0”表示在上述大促活动中未发生行为,用标签值“1”表示在上述大促活动中发生了行为;
又例如,在样本行为类别用于描述不同消费价值的消费行为的情况下,本发明实施例中可以用于标签值“0”表示消费金额为0元,用标签值“1”表示消费金额在[1,100)内,用标签值“2”表示消费金额在[100,1000)内,用标签值“3”表示消费金额不小于1000元内;
又例如,在样本行为类别用于描述购买品牌E和鞋子类的消费行为的情况下,本发明实施例中可以用于标签值“0”表示未发生购买品牌E的鞋子的行为,可以用于标签值“1”表示发生过购买品牌E的鞋子的行为。
目标行为类别数据,可以包括样本用户在目标行为类别的行为数据,目标行为类别数据,可以表示样本用户在目标行为类别的行为。
表3为目标行为类别数据对应的数据表。如表3所示,目标行为类别数据对应的数据表的字段名包括用户标识和目标行为类别的标识信息,目标行为类别数据对应的数据表的变量名包括样本用户的身份标识信息(Identity Document,ID)以及与上述样本用户的ID和目标行为类别对应的标签值(Label)。
表3目标行为类别数据对应的数据表
需要说明的是,本发明实施例中可以用标签值描述目标行为类别的行为。
例如,在目标行为类别用于描述品牌E和消费金额的消费行为的情况下,本发明实施例中可以用于标签值“0”表示品牌E的消费金额为0元,用标签值“1”表示品牌E的消费金额在[1,100)内,用标签值“2”表示品牌E的消费金额在[10,1000)内,用标签值“3”表示品牌E的消费金额不小于1000元内。
基于样本用户的身份标识信息,可以将每一样本特征数据和每一样本行为类别数据进行拼接,获得样本用户的身份标识信息、样本特征数据和样本行为类别数据之间的对应关系。
基于样本用户的身份标识信息,可以将第一第二样本特征数据和目标行为类别数据进行拼接,获得样本用户的身份标识信息、第二样本特征数据和目标行为类别数据之间的对应关系。
本发明实施例中可以用表格的方式表示样本用户的身份标识信息、样本特征数据和样本行为类别数据之间的对应关系。表4为样本用户的身份标识信息、样本特征数据和样本行为类别数据之间的对应关系表。
表4 样本用户的身份标识信息、样本特征数据和样本行为类别数据之间的对应关系表
本发明实施例中可以用表格的方式表示样本用户的身份标识信息、第二样本特征数据和目标行为类别数据之间的定量关系。表5为样本用户的身份标识信息、第二样本特征数据和目标样本行为类别数据之间的对应关系表。
表5 样本用户的身份标识信息、第二样本特征数据和目标行为类别数据之间的对应关系表
基于样本用户的身份标识信息、样本特征数据和样本行为类别数据之间的对应关系,可以计算每一样本特征维度和每一样本行为类别之间的关系标签值,作为第一关系标签值。
需要说明的是,本发明实施例中可以用表示第/>个样本行为类别与第/>个样本特征维度之间的关系标签值。第/>个样本行为类别与第/>个样本特征维度之间的关系标签值/>,可以用于描述第/>个样本行为类别与第/>个样本特征维度之间相关性的强弱。
基于样本用户的身份标识信息、第二样本特征数据和目标样本行为类别数据之间的对应关系,可以计算每一第二样本特征数据和目标行为类别数据之间的关系标签值,作为第二关系标签值。
可以理解的是,任一第二样本特征维度亦为样本特征维度。本发明实施例中可以用表示第/>个第二样本特征维度在所有样本特征维度中的顺序,即第/>个第二样本特征维度亦为第/>个样本特征维度。
本发明实施例中可以用表示目标行为类别与第/>个第二样本特征维度(第/>个样本特征维度)之间的关系标签值。目标行为类别与第/>个第二样本特征维度(第/>个样本特征维度)之间的关系标签值/>,可以用于描述上述第/>个第二样本特征维度(第/>个样本特征维度)与目标行为类别之间相关性的强弱。
本发明实施例中可以用表格的形式表示第一关系标签值和第二关系标签值。第一关系标签值和第二关系标签值如表6所示。
表6 第一关系标签值和第二关系标签值的数据表
本发明实施例中可以通过多种方式计算得到个样本行为类别与第/>个样本特征维度之间的关系标签值/>,以及目标行为类别数据与第/>个第二样本特征维度(第/>个样本特征维度)之间的关系标签值/>
例如,本发明实施例中可以利用ACU(Area Under the Curve)、方差、卡方检验、相关系数、互信息和树模型等机器学习模型评估方法,计算得到个样本行为类别与第/>个样本特征维度之间的关系标签值/>,以及目标行为类别数据与第/>个第二样本特征维度(第个样本特征维度)之间的关系标签值/>
需要说明的是,上述评估方法都是从某一个角度来分析类别与特征维度之间的关系,但所有的计算都必须采用同一的计算方式。并且,定量关系对类别和特征维度的数据形式的要求也不尽相同,有些度量的是离散形式数据,有些度量连续形式数据。但类别和特征维度可能是任意数据形式,因此可以根据定量关系对数据形式的要求,将离散数据形式转换为连续数据形式,或将连续数据形式转化为离散数据形式,如分桶离散化等,上述数据转化并不影响本发明所阐述的方法。
步骤102、基于每一第一样本特征维度与目标行为类别之间的关系预测值,在各第一样本特征维度中确定目标行为类别对应的目标特征维度。
具体地,逐次将每一第一特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型之后,可以获取每一第一样本特征维度与目标行为类别之间的关系预测值。
基于每一样本特征维度与目标行为类别之间的关系预测值,可以通过数理统计数值计算等方式,在各第一样本特征维度中确定与目标行为类别相关性最高的一个或多个第一样本特征维度,进而可以将上述一个或多个第一样本特征维度确定为目标行为类别对应的目标特征维度。
作为一个可选地实施例,基于每一第一样本特征维度与目标行为类别之间的关系预测值,在各第一样本特征维度中确定目标行为类别对应的目标特征维度,包括:根据每一第一样本特征维度与目标行为类别之间的关系预测值,对各第一样本特征维度进行排序;
根据排序结果,从各第一样本特征维度中选择预设数量的第一样本特征维度作为目标行为类别对应的目标特征维度。
需要说明的是,本发明实施例中预设数量可以是基于先验知识和/或实际情况确定的。本发明实施例中预设数量的具体取值不作限定。
步骤103、基于目标特征维度和目标行为类别,对目标用户进行业务推荐。
可以理解的是,本发明实施例中目标用户的数量可以为一个或多个。
具体地,确定目标行为类别对应的目标特征维度之后,可以通过数据查询、用户输入等方式,获取目标用户上述目标特征维度的特征数据。
获取目标用户上述目标特征维度的特征数据之后,可以基于目标用户上述目标特征维度的特征数据,通过机器学习、条件判断等方式,对目标用户进行业务推荐。
作为一个可选地实施例,基于目标特征维度和目标行为类别,对目标用户进行业务推荐,包括:基于目标用户目标特征维度的特征数据,确定是否为目标用户推送目标行为类别对应的目标业务。
可以理解的是,不同的行为类别可以与不同类别、不同品牌或不同价格的业务相对应。例如:行为类别1可以与母婴类的业务相对应;行为类别2可以与价值超过1000元的业务相对应;行为类别3可以与E品牌的业务相对应;行为类别4可以与E品牌中鞋子类的商品相对应。
具体地,获取目标用户上述目标特征维度的特征数据之后,可以基于目标用户上述目标特征维度的特征数据,通过机器学习、条件判断等方式,确定是否为目标用户推送目标行为类别对应的目标业务。
需要说明的是,在样本特征维度的数量很大的情况下,使用传统方法目标行为类别/>进行选择特征是非常耗时的,因为样本特征数据和样本行为类别数据是分不同数据库存放的,如表1和表2所示。将每一样本特征数据和每一样本行为类别数据进行拼接需要消耗大量的资源和时间。
因此,本发明实施例中首先离线计算每一样本特征维度和每一样本行为类别之间的关系标签值,作为第一关系标签值,并储存上述第一关系标签值。在对目标行为类别进行特征选择时,选择少量个第二样本特征数据计算每一第二样本特征维度与目标行为类别之间的关系标签至,再基于第一关系标签值和第二关系标签值进行模型训练,获得目标关系预测模型,进而可以基于目标关系预测模型预测目标行为类别与剩余/>个第一样本特征维度之间的关系预测值,并基于目标行为类别与剩余/>个第一样本特征维度之间的关系预测值,确定目标行为类别对应的目标特征维度,可以大幅提高特征选择的效率。
本发明实施例通过逐次将各样本特征维度中的每一第一样本特征维度的标识信息和目标行为类别的标识信息作为一组信息输入目标关系预测模型,获得目标关系预测模型逐次输出的每一第一样本特征维度与目标行为类别之间的关系预测值之后,基于每一第一样本特征维度与目标行为类别之间的关系预测值,在各第一样本特征维度中确定目标行为类别对应的目标特征维度,进而基于目标特征维度和目标行为类别,对目标用户进行业务推荐,其中目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,第一关系标签值包括每一样本特征维度与每一样本行为类别之间的关系标签值,第二关系标签值包括各样本特征维度中每一第二样本特征维度与目标行为类别之间的关系标签值,能更准确、更高效地获取不同样本特征维度与不同样本行为类别之间的关联关系,进而能更准确、更高效地获取不同样本特征维度与目标行为类别之间的关联关系,基于不同样本特征维度与目标行为类别之间的关联关系更准确、更高效地确定与目标行为类别关联性最强的目标特征维度,能基于目标特征维度实现更精准、更高效地业务推荐,能更好的满足用户需求,能提高用户感知。
图2是本发明提供的业务推荐方法中目标关系预测模型的结构示意图。如图2所示,目标关系预测模型,包括:输入层201、特征表征层202以及输出层203;
将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得目标关系预测模型输出的每一第一样本特征维度与目标行为类别之间的关系预测值,包括:将每一第一样本特征维度的标识信息和目标行为类别的标识信息输入输入层201,获得输入层201输出的目标行为类别对应的第一独热编码稀疏向量以及每一第一样本特征维度对应的第二独热编码稀疏向量。
具体地,将第个第一样本特征维度(第/>个样本特征维度)的标识信息输入输入层201之后,输入层201可以将第/>个第一样本特征维度(第/>个样本特征维度)的标识信息转换为独热编码稀疏向量,进而可以获取输入层201输出的第/>个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量/>
需要说明的是,第个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量/>的长度可以为/>。第/>个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量/>;其中,第/>个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量/>中第/>个位置为1,其余位置均为0。
将目标行为类别的标识信息输入输入层201之后,输入层201可以将目标行为类别的标识信息转换为独热编码稀疏向量,进而可以获取输入层201输出的目标行为类别对应的第一独热编码稀疏向量
需要说明的是,目标行为类别对应的第一独热编码稀疏向量的长度可以为。目标行为类别对应的第一独热编码稀疏向量/>;其中,目标行为类别对应的第一独热编码稀疏向量/>中第/>个位置为1,其余位置均为0。
作为一个可选地实施例,输入层201,包括:行为类别输入层204和特征维度输入层205;
将每一第一样本特征维度的标识信息和目标行为类别的标识信息输入输入层201,获得输入层201输出的目标行为类别对应的第一独热编码稀疏向量以及每一第一样本特征维度对应的独热编码稀疏向量,包括:将每一第一样本特征维度的标识信息输入特征维度输入层205,获得特征维度输入层205输出的第二独热编码稀疏向量,将目标行为类别的标识信息输入行为类别输入层204,获得行为类别输入层204输出的第一独热编码稀疏向量。
具体地,将第个第一样本特征维度(第/>个样本特征维度)的标识信息输入特征维度输入层205之后,特征维度输入层205可以将第/>个第一样本特征维度(第/>个样本特征维度)的标识信息转换为独热编码稀疏向量,进而可以获取特征维度输入层205输出的第/>个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量/>
将目标行为类别的标识信息输入行为类别输入层204之后,行为类别输入层204可以将目标行为类别的标识信息转换为独热编码稀疏向量,进而可以获取行为类别输入层204输出的目标行为类别对应的第一独热编码稀疏向量
将第一独热编码稀疏向量以及第二独热编码稀疏向量输入至特征表征层202,获得特征表征层202输出的每一特征数据。
具体地,将第个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量/>和目标行为类别对应的第一独热编码稀疏向量/>输入特征表征层202之后,特征表征层202可以基于第/>个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量/>和目标行为类别对应的第一独热编码稀疏向量/>,对第/>个第一样本特征维度(第/>个样本特征维度)和目标行为类别进行特征表征,从而可以获取并输出特征表征层202输出的第/>个特征数据。
作为一个可选地实施例,特征表征层202包括属性层206、嵌入层207以及关系网络层208;
将第一独热编码稀疏向量以及第二独热编码稀疏向量输入至特征表征层202,获得特征表征层202输出的每一特征数据,包括:将第一独热编码稀疏向量和第二独热编码稀疏向量输入属性层206,获得属性层206输出的目标行为类别对应的第一属性层表征和每一第一样本特征维度对应的第二属性层表征,将第一独热编码稀疏向量和第二独热编码稀疏向量输入嵌入层207,获得嵌入层207输出的目标行为类别对应的第一嵌入层表征和每一第一样本特征维度对应的第二嵌入层表征。
需要说明的是,本发明实施例中的属性层206是一个线性组件,形式简单,且具有良好的可扩展性和可解释性。
具体地,将第个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量/>和目标行为类别对应的第一独热编码稀疏向量/>输入属性层206之后,可以获取属性层206输出的第/>个第一样本特征维度(第/>个样本特征维度)对应的第二属性层表征/>,以及目标行为类别对应的第一属性层表征/>
本发明实施例中的嵌入层207可以将独热编码稀疏向量转换为预设维度的稠密向量表征。
将第个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量和目标行为类别对应的第一独热编码稀疏向量/>输入嵌入层207之后,可以获取嵌入层207输出的第/>个第一样本特征维度(第/>个样本特征维度)对应的第二嵌入层表征/>,以及目标行为类别对应的第一嵌入层表征/>
需要说明的是,第个第一样本特征维度(第/>个样本特征维度)对应的嵌入层表征/>,与目标行为类别对应的第一嵌入层表征/>的维度相同。
作为一个可选地实施例,属性层206,包括:行为类别属性层209和特征维度属性层210;
将目标行为类别对应的第一独热编码稀疏向量和第个第一样本特征维度对应的独热编码稀疏向量输入属性层206,获得属性层206输出的目标行为类别对应的第一属性层表征和第/>个第一样本特征维度对应的属性层表征,包括:将第一独热编码稀疏向量输入行为类别属性层209,获得行为类别属性层209输出的目标行为类别对应的第一属性层表征,将第二独热编码稀疏向量输入特征维度属性层210,获得特征维度属性层210输出的每一第一样本特征维度对应的第二属性层表征。
具体地,将第个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量/>输入特征维度属性层210之后,特征维度属性层210可以基于如下公式计算得到第/>个第一样本特征维度(第/>个样本特征维度)对应的第二属性层表征/>
其中,和/>分别代表线性变换的权重和偏置,尺寸分别为/>和/>;/>表示第一线性函数。
将目标行为类别对应的第一独热编码稀疏向量输入行为类别属性层209之后,行为类别属性层209可以基于如下公式计算得到目标行为类别对应的第一属性层表征/>
其中,和/>分别代表线性变换的权重和偏置,尺寸分别为/>和/>;/>表示第二线性函数。
作为一个可选地实施例,嵌入层207,包括:行为类别嵌入层211和特征维度嵌入层212;
将目标行为类别对应的第一独热编码稀疏向量和第个第一样本特征维度对应的第二独热编码稀疏向量输入嵌入层207,获得嵌入层207输出的/>个第一样本特征维度对应的嵌入层表征和目标行为类别对应的第一嵌入层表征,包括:将目标行为类别对应的第一独热编码稀疏向量输入行为类别嵌入层211,获得行为类别嵌入层211输出的目标行为类别对应的第一嵌入层表征,将第/>个第一样本特征维度对应的第二独热编码稀疏向量输入特征维度嵌入层212,获得特征维度嵌入层212输出的第/>个第一样本特征维度对应的嵌入层表征。
具体地,将第个第一样本特征维度(第/>个样本特征维度)对应的第二独热编码稀疏向量/>输入特征维度嵌入层212之后,特征维度嵌入层212可以基于如下公式计算得到第/>个第一样本特征维度(第/>个样本特征维度)对应的第二嵌入层表征/>:/>
其中,表示特征维度嵌入层212中的表征函数。
将目标行为类别对应的第一独热编码稀疏向量输入行为类别嵌入层211之后,行为类别嵌入层211可以基于如下公式计算得到目标行为类别对应的第一嵌入层表征/>
其中,表示行为类别嵌入层211中的表征函数。
需要说明的是,第个第一样本特征维度(第/>个样本特征维度)对应的第二嵌入层表征/>和目标行为类别对应的第一嵌入层表征/>的尺寸均为/>;/>表示第/>个第一样本特征维度(第/>个样本特征维度)对应的嵌入层表征/>和目标行为类别对应的第一嵌入层表征/>的维度。
将第二嵌入层表征和第一嵌入层表征输入关系网络层208,获得关系网络层208输出的每一第一样本特征维度与目标行为类别之间的关系向量;
其中,每一特征数据包括目标行为类别对应的第一属性层表征和嵌入层表征、每一第一样本特征维度对应的属性层表征和嵌入层表征以及每一第一样本特征维度与目标行为类别之间的关系向量。
具体地,将第个第一样本特征维度(第/>个样本特征维度)对应的第二嵌入层表征/>和目标行为类别对应的第一嵌入层表征/>输入关系网络层208之后,关系网络层208可以基于获取第/>个第一样本特征维度(第/>个样本特征维度)对应的第二嵌入层表征/>和目标行为类别对应的第一嵌入层表征/>以及第/>个第一样本特征维度(第/>个样本特征维度)与目标行为类别之间的关联关系,进而可以获取关系网络层208输出的第/>个第一样本特征维度与目标行为类别之间的关系向量。
作为一个可选地实施例,关系网络层208包括线性关系网络层213和非线性关系网络层214;
将第一嵌入层表征和第二嵌入层表征输入关系网络层208,获得关系网络层208输出的每一第一样本特征维度与目标行为类别之间的关系向量,包括:将第一嵌入层表征和第二嵌入层表征输入线性关系网络层213,获得线性关系网络层213输出的目标行为类别与每一第一样本特征维度之间的线性关系表征;
将线性关系表征输入非线性关系网络层214,获得非线性关系网络层214输出的目标行为类别与每一第一样本特征维度之间的非线性关系表征。
其中,每一第一样本特征维度与目标行为类别之间的关系向量,包括每一第一样本特征维度与目标行为类别之间的线性关系表征和非线性关系表征。
具体地,本发明实施例中的线性关系网络可以使用表征向量将第个第一样本特征维度与目标行为类别联系起来,对二者之间的关系进行线性建模。在上述线性关系中,每一个维度都是独立的,因此本发明实施例中的线性关系网络可以将第/>个第一样本特征维度(第/>个样本特征维度)对应的第二嵌入层表征/>和目标行为类别对应的第一嵌入层表征对应维度直接相乘,以保持维度的独立性。/>
将第个第一样本特征维度(第/>个样本特征维度)对应的第二嵌入层表征/>和目标行为类别对应的第一嵌入层表征/>输入线性关系网络之后,线性关系网络可以通过如下公式计算得到目标行为类别与第/>个第一样本特征维度(第/>个样本特征维度)之间的线性关系表征/>
其中,代表向量的逐元素相乘;目标行为类别与第/>个第一样本特征维度之间的线性关系表征/>的尺寸为/>
本发明实施例中的非线性网络可以在将第个第一样本特征维度(第/>个样本特征维度)对应的嵌入层表征/>和目标行为类别对应的第一嵌入层表征/>进行拼接的基础上增加隐藏层,进而可以基于标准的多层感知机(Multilayer Perceptron,MLP)学***的非线性建模能力。
将第个第一样本特征维度(第/>个样本特征维度)对应的第二嵌入层表征/>和目标行为类别对应的第一嵌入层表征/>输入非线性关系网络之后,非线性关系网络可以通过如下公式计算得到目标行为类别与第/>个第一样本特征维度之间的非线性关系表征
其中,、/>和/>代表第/>层感知器的权重矩阵、偏置矩阵以及激活函数。对于每一层感知机的激活函数,本发明实施例中可以在/>、/>和/>中选择。
获取特征维度属性层210输出的第个第一样本特征维度(第/>个样本特征维度)对应的第二属性层表征/>、行为类别属性层209输出的目标行为类别对应的第一属性层表征/>、特征维度嵌入层212输出的第/>个第一样本特征维度(第/>个样本特征维度)对应的嵌入层表征/>、行为类别嵌入层211输出的目标行为类别对应的第一嵌入层表征/>、线性关系网络输出的目标行为类别与第/>个第一样本特征维度之间的线性关系表征/>以及非线性关系网络输出的目标行为类别与第/>个第一样本特征维度之间的非线性关系表征/>之后,可以将/>、/>、/>、/>、/>和/>确定为第/>个特征数据。
将每一特征数据输入至输出层203,获得输出层203输出的每一第一样本特征维度与目标行为类别之间的关系预测值。
具体地,获取第个特征数据之后,可以将第/>个特征数据输入输出层203。
输出层203将、/>、/>、/>、/>和/>进行拼接之后,可以通过一层或多层MLP输出第/>个第一样本特征维度与目标行为类别之间的关系预测值/>,以一层MLP为例,输出层203可以通过如下公式获得第/>个第一样本特征维度(第/>个样本特征维度)与目标行为类别之间的关系预测值/>
其中,、/>和/>代表权重矩阵、偏置矩阵以及激活函数;/>表示激活函数,激活函数/>可以根据样本行为类别和样本特征维度的定量关系形式的不同,选择sigmoid、tanh等形式,或者选择不使用激活函数。
本发明实施例中的目标关系预测模型包括输入层、特征表征层以及输出层,上述目标关系预测模型能基于不同样本行为类别与不同特征维度之间的关联关系,更准确的预测每一第一样本特征维度与目标行为类别之间的关联关系,能为业务推荐提供更准确地数据基础。
作为一个可选地实施例,目标关系预测模型是基于如下步骤训练的:基于第一关系标签值,对初始神经网络模型进行训练,得到预训练神经网络模型;
基于第二关系标签值,对预训练神经网络模型进行训练,得到目标关系预测模型。
本发明实施例通过基于第一关系标签值,对初始神经网络模型进行训练,使得初始神经网络模型学习不同样本特征维度与不同样本行为类别之间的关联关系,得到预训练神经网络模型之后,基于第二关系标签值,对预训练神经网络模型进行训练,使得预训练神经网络模型学习每一第二样本特征维度与目标行为类别之间的关系,得到目标关系预测模型,能提高目标关系预测模型的训练效率。
作为一个可选地实施例,基于第一关系标签值,对初始神经网络模型进行训练,得到预训练神经网络模型,包括:将第个样本特征维度的标识信息和第/>个样本行为类别的标识信息输入初始神经网络模型,获得初始神经网络模型输出的第/>个样本特征维度与第个样本行为类别之间的关系预测值,/>为大于零小于等于/>的正整数,/>为大于零小于等于/>的正整数,/>和/>均为大于1的正整数;
基于第个样本特征维度与第/>个样本行为类别之间的关系预测值以及第一关系标签值中第/>个样本特征维度与第/>个样本行为类别之间的关系标签值,计算初始神经网络模型的损失函数值;
在基于初始神经网络模型的损失函数值确定初始神经网络模型未收敛的情况下,更新初始神经网络模型的模型参数和更新和/或/>,重复上述计算初始神经网络模型的损失函数值的步骤,直至基于初始神经网络模型的损失函数值确定初始神经网络模型收敛,获得预训练神经网络模型。
需要说明的是,本发明实施例中的初始神经网络模型、预训练神经网络模型和目标关系预测模型,为同一模型结构的不同阶段。其中,初始神经网络模型为训练前的模型结构,预训练神经网络模型为训练中的模型结构,目标关系预测模型为训练好的模型结构。
具体地,将第个样本特征维度的标识信息输入特征维度输入层205之后,特征维度输入层205可以将第/>个样本特征维度的标识信息转换为第/>个样本特征维度对应的独热编码稀疏向量/>
其中,第个样本特征维度对应的独热编码稀疏向量/>的长度可以为/>。第/>个样本特征维度对应的独热编码稀疏向量/>;其中,第/>个样本特征维度对应的独热编码稀疏向量/>中第/>个位置为1,其余位置均为0。
将第个样本行为类别的标识信息输入行为类别输入层204之后,行为类别输入层204可以将第/>个样本行为类别的标识信息转换为第/>个样本行为类别对应的独热编码稀疏向量/>
其中,第个样本行为类别对应的独热编码稀疏向量/>的长度可以为/>。第/>个样本行为类别对应的独热编码稀疏向量/>;其中,第/>个样本行为类别对应的独热编码稀疏向量/>中第/>个位置为1,其余位置均为0。
将第个样本特征维度对应的独热编码稀疏向量/>输入特征维度属性层210之后,特征维度属性层210可以基于如下公式计算得到第/>个样本特征维度对应的属性层表征
其中,和/>分别代表线性变换的权重和偏置,尺寸分别为/>和/>;/>表示第一线性函数。
将第个样本行为类别对应的独热编码稀疏向量/>输入行为类别属性层209之后,行为类别属性层209可以基于如下公式计算得到目标行为类别对应的第一属性层表征/>
其中,和/>分别代表线性变换的权重和偏置,尺寸分别为/>和/>;/>表示第二线性函数。
将第个样本特征维度对应的独热编码稀疏向量/>输入特征维度嵌入层212之后,特征维度嵌入层212可以基于如下公式计算得到第/>个样本特征维度对应的嵌入层表征
将第个样本行为类别对应的独热编码稀疏向量/>输入行为类别嵌入层211之后,行为类别嵌入层211可以基于如下公式计算得到第/>个样本行为类别对应的嵌入层表征
需要说明的是,第个样本特征维度对应的嵌入层表征/>和第/>个样本行为类别对应的嵌入层表征/>的尺寸均为/>
将第个样本特征维度对应的嵌入层表征/>和第/>个样本行为类别对应的嵌入层表征/>输入线性关系网络之后,线性关系网络可以通过如下公式计算得到第/>个样本特征维度与第/>个样本行为类别之间的线性关系表征/>
其中,第个样本特征维度与第/>个样本行为类别之间的线性关系表征/>的尺寸为/>
将第个样本特征维度对应的嵌入层表征/>和第/>个样本行为类别对应的嵌入层表征/>输入非线性关系网络之后,非线性关系网络可以通过如下公式计算得到第/>个样本特征维度与第/>个样本行为类别之间的非线性关系表征/>
输入层201将、/>、/>、/>、/>和/>之后,可以通过一层或多层MLP输出第/>个样本特征维度与第/>个样本行为类别之间的关系预测值/>,以一层MLP为例,输出层203可以通过如下公式获得第/>个样本特征维度与第/>个样本行为类别之间的关系预测值/>
获取第个样本特征维度与第/>个样本行为类别之间的关系预测值/>之后,可以基于第一关系标签值中第/>个样本特征维度与第/>个样本行为类别之间的关系标签值/>和第/>个样本特征维度与第/>个样本行为类别之间的关系预测值/>,计算得到初始神经网络模型的损失函数值。
基于初始神经网络模型的损失函数值,可以判断初始神经网络模型是否收敛,在初始神经网络模型未收敛的情况下,可以更新初始神经网络模型的模型参数以及更新和/或/>,并重复上述计算初始神经网络模型的损失函数值的步骤,直至初始神经网络模型收敛,获得预训练神经网络模型。
可选地,本发明实施例中和/>的起始值可以为1,每更新一次初始神经网络模型的模型参数,/>或/>的取值交替增大1。
需要说明的是,本发明实施例中的和/>刻画了样本行为类别和特征维度的各自固有的偏差属性,/>和/>刻画了样本行为类别和特征维度在隐空间不同维度上的重要性,/>是使用线性关系网络来建模二者的线性关系,二者表征在隐空间中对应维度相乘后,依然抱持着维度的线性独立;/>是使用非线性关系网络来建模二者的非线性关系,通过多层感知机的非线性建模能力,来学习二者之间复杂的关联。
本发明实施例中的初始神经网络模型,综合建模了不同样本行为和不同特征维度之间的内在关系,通过不断输入不同的样本行为类别的标识信息和不同的样本特征维度的标识信息以及二者之间的关系标签值,利用Loss损失函数和梯度反向传播机制来训练初始神经网络模型。
作为一个可选地实施例,基于第二关系标签值,对预训练神经网络模型进行训练,得到目标关系预测模型,包括:将第个第二样本特征维度的标识信息和目标行为类别的标识信息输入预训练神经网络模型,获得预训练神经网络模型的第/>个第二样本特征维度与目标行为类别之间的关系预测值,/>为大于零小于等于/>的正整数;
基于第个第二样本特征维度与目标行为类别之间的关系预测值以及第二关系标签值中第/>个第二样本特征维度与目标行为类别之间的关系标签值,计算预训练神经网络模型的损失函数值;/>
在基于预训练神经网络模型的损失函数值确定预训练神经网络模型未收敛的情况下,更新预训练神经网络模型的模型参数和更新,重复上述计算预训练神经网络模型的损失函数值的步骤,直至基于预训练神经网络模型的损失函数值确定预训练神经网络模型收敛,获得目标关系预测模型。
将第个第二样本特征维度(第/>个样本特征维度)的标识信息和目标行为类别的标识信息输入预训练神经网络模型之后,可以获得预训练神经网络模型输出的第/>个第二样本特征维度(第/>个样本特征维度)与目标行为类别之间的关系预测值/>
需要说明的是,预训练神经网络模型计算得到第个第二样本特征维度(第/>个样本特征维度)与目标行为类别之间的关系预测值/>的具体步骤可以参见上述各实施例的内容,本发明实施例中不再赘述。
获取第个第二样本特征维度(第/>个样本特征维度)与目标行为类别之间的关系预测值/>之后,可以基于第二关系标签值中第/>个第二样本特征维度与目标行为类别之间的关系标签值/>和第/>个样本特征维度与第/>个样本行为类别之间的关系预测值/>,计算得到预训练神经网络模型的损失函数值。
基于预训练神经网络模型的损失函数值,可以判断预训练神经网络模型是否收敛,在预训练神经网络模型未收敛的情况下,可以更新预训练神经网络模型的模型参数以及更新,并重复上述计算预训练神经网络模型的损失函数值的步骤,直至预训练神经网络模型收敛,获得目标关系预测模型。
可选地,本发明实施例中的起始值可以为1,每更新一次预训练神经网络模型模型的模型参数,/>的取值增大1。
作为一个可选地实施例,初始神经网络模型的损失函数,是基于第一关系标签值的标签类型确定的。
作为一个可选地实施例,在第一关系标签值的标签类型为分类标签的情况下,初始神经网络模型的损失函数为分类损失函数;其中,分类损失函数包括交叉熵损失函数。
具体地,在第一关系标签值为的标签类型为分类标签(AUC)的情况下,初始神经网络模型的损失函数可以通过如下公式表示:
作为一个可选地实施例,在第一关系标签值的标签类型为相关系数标签或者互信息标签的情况下,初始神经网络模型的损失函数为回归损失函数;其中,回归损失函数包括均方差损失。
具体地,在第一关系标签值为相关系数或者互信息时,可以选择不使用激活函数,/>,初始神经网络模型的损失函数/>为均方差损失,如下所示:
作为一个可选地实施例,在第一关系标签值的标签类型为分类标签的情况下,初始神经网络模型的激活函数为激活函数。/>
具体地,在第一关系标签值为的标签类型为分类标签(AUC)的情况下,
为了便于对本发明提供的业务推荐方法中特征选择步骤的理解,以下通过一个实例对本发明提供的业务推荐方法中特征选择步骤进行说明。图3是本发明提供的业务推荐方法中特征选择步骤的流程图。如图3所示,本发明提供的业务推荐方法中特征选择步骤包括:步骤301、获取样本用户在每一原始特征维度下的特征数据以及样本用户在每一原始样本类别下的行为数据;
步骤302、对样本用户在每一原始特征维度下的特征数据以及样本用户在每一原始样本类别下的行为数据进行数据处理和特征增强,获得个样本特征数据和/>个样本行为类别数据;
步骤303、计算每一样本特征维度和每一样本行为类别之间的关系标签值,作为第一关系标签值;
步骤304、在个样本特征数据选择/>个样本特征数据作为第二样本特征数据,计算每一第二样本特征数据和目标行为类别数据之间的关系标签值,作为第二关系标签值;
步骤305、构建初始神经网络模型,并基于第一关系标签值和第二关系标签值进行模型训练,获得目标关系预测模型;
步骤306、基于目标关系模型,获得每一第一样本特征维度与目标行为类别之间的关系预测值;
步骤307、基于每一样本特征维度与目标行为类别之间的关系预测值,在各第一样本特征维度中确定与目标行为类别相关性最高的一个或多个第一样本特征维度,作为目标行为类别对应的目标特征维度。
针对特征选择问题,本发明基于深度学习,设计了一种全新的特征选择方法,该方法利用现有样本类别和特征之间的关系,来预估新样本类别与特征之间的定量关系,从而依照预估定量关系的大小进行特征选择,该方法有效地提升了特征选择的准确性、泛化性和效率。
本发明提出了一种样本类别与特征的定量关系的深度学习预估模型,该模型可以分别刻画样本类别和特征各自固有的偏差属性,二者在隐空间不同维度上的重要性,同时,设计线性关系网络和非线性关系网络分别建模了样本类别和特征之间的线性关系和非线性关系。
该模型综合建模了样本类别数据和特征数据之间的内在关系,具有很强的建模能力,能够有效的预估样本类别和特征之间的定量关系,相比传统方法,模型也具有很强的泛化性能。
最后,本模型的大部分计算量可以预先计算和重复使用,整体流程具有很高的效率。
本发明还采用了特征增强的机制,可以对原始特征进行一系列增强操作,产生新的特征,有效地扩大的特征的表达能力,最终可以选择出更适合新样本类别的特征。
本发明中的特征选择步骤,可以有效预估新样本类别和特征之间的相关性和定量关系,具有较高的准确率、泛化性和效率,可用于服务器和机器学***台建设。同时,本发明还可以扩展到各种面临数据选择的场景中,可用于支撑元宇宙服务器MetaEngine的产品发展方面的应用。
图4是本发明提供的业务推荐装置的结构示意图。下面结合图4对本发明提供的业务推荐装置进行描述,下文描述的业务推荐装置与上文描述的本发明提供的业务推荐方法可相互对应参照。如图4所示,数据输入模块401、特征选择模块402和业务推荐模块403。
数据输入模块401,用于将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得目标关系预测模型输出的每一第一样本特征维度与目标行为类别之间的关系预测值,目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,第一关系标签值包括每一样本特征维度与每一样本行为类别之间的关系标签值,第二关系标签值包括各样本特征维度中每一第二样本特征维度与目标行为类别之间的关系标签值;
特征选择模块402,基于每一第一样本特征维度与目标行为类别之间的关系预测值,在各第一样本特征维度中确定目标行为类别对应的目标特征维度;
业务推荐模块403,用于基于目标特征维度和目标行为类别,对目标用户进行业务推荐;
其中,样本特征维度包括用户特征维度和/或历史行为维度;用户特征维度包括用于描述用户个体的特征维度,包括:年龄维度、性别维度、学历维度、所在地区维度、职业维度以及爱好维度中的至少一个;历史行为维度包括用于描述用户的历史行为的特征维度,包括用户历史浏览行为的维度、用户历史点击行为维度、用户历史评分行为维度、用户历史反馈行为维度、用户历史社交互动行为维度以及用户历史阅读行为维度中的至少一个;
行为类别用于描述不同维度和不同粒度的行为;目标行为类别与样本行为类别为不同的行为类别。
具体地,数据输入模块401、特征选择模块402和业务推荐模块403电连接。
本发明实施例中的业务推荐装置,通过逐次将各样本特征维度中的每一第一样本特征维度的标识信息和目标行为类别的标识信息作为一组信息输入目标关系预测模型,获得目标关系预测模型逐次输出的每一第一样本特征维度与目标行为类别之间的关系预测值之后,基于每一第一样本特征维度与目标行为类别之间的关系预测值,在各第一样本特征维度中确定目标行为类别对应的目标特征维度,进而基于目标特征维度和目标行为类别,对目标用户进行业务推荐,其中目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,第一关系标签值包括每一样本特征维度与每一样本行为类别之间的关系标签值,第二关系标签值包括各样本特征维度中每一第二样本特征维度与目标行为类别之间的关系标签值,能更准确、更高效地获取不同样本特征维度与不同样本行为类别之间的关联关系,进而能更准确、更高效地获取不同样本特征维度与目标行为类别之间的关联关系,基于不同样本特征维度与目标行为类别之间的关联关系更准确、更高效地确定与目标行为类别关联性最强的目标特征维度,能基于目标特征维度实现更精准、更高效地业务推荐,能更好的满足用户需求,能提高用户感知。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行业务推荐方法,该方法包括:将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得目标关系预测模型输出的每一第一样本特征维度与目标行为类别之间的关系预测值,目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,第一关系标签值包括每一样本特征维度与每一样本行为类别之间的关系标签值,第二关系标签值包括各样本特征维度中每一第二样本特征维度与目标行为类别之间的关系标签值;基于每一第一样本特征维度与目标行为类别之间的关系预测值,在各第一样本特征维度中确定目标行为类别对应的目标特征维度;基于目标特征维度和目标行为类别,对目标用户进行业务推荐;其中,样本特征维度包括用户特征维度和/或历史行为维度;用户特征维度包括用于描述用户个体的特征维度,包括:年龄维度、性别维度、学历维度、所在地区维度、职业维度以及爱好维度中的至少一个;历史行为维度包括用于描述用户的历史行为的特征维度,包括用户历史浏览行为的维度、用户历史点击行为维度、用户历史评分行为维度、用户历史反馈行为维度、用户历史社交互动行为维度以及用户历史阅读行为维度中的至少一个;行为类别用于描述不同维度和不同粒度的行为;目标行为类别与样本行为类别为不同的行为类别。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的业务推荐方法,该方法包括:将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得目标关系预测模型输出的每一第一样本特征维度与目标行为类别之间的关系预测值,目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,第一关系标签值包括每一样本特征维度与每一样本行为类别之间的关系标签值,第二关系标签值包括各样本特征维度中每一第二样本特征维度与目标行为类别之间的关系标签值;基于每一第一样本特征维度与目标行为类别之间的关系预测值,在各第一样本特征维度中确定目标行为类别对应的目标特征维度;基于目标特征维度和目标行为类别,对目标用户进行业务推荐;其中,样本特征维度包括用户特征维度和/或历史行为维度;用户特征维度包括用于描述用户个体的特征维度,包括:年龄维度、性别维度、学历维度、所在地区维度、职业维度以及爱好维度中的至少一个;历史行为维度包括用于描述用户的历史行为的特征维度,包括用户历史浏览行为的维度、用户历史点击行为维度、用户历史评分行为维度、用户历史反馈行为维度、用户历史社交互动行为维度以及用户历史阅读行为维度中的至少一个;行为类别用于描述不同维度和不同粒度的行为;目标行为类别与样本行为类别为不同的行为类别。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的业务推荐方法,该方法包括:将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得目标关系预测模型输出的每一第一样本特征维度与目标行为类别之间的关系预测值,目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,第一关系标签值包括每一样本特征维度与每一样本行为类别之间的关系标签值,第二关系标签值包括各样本特征维度中每一第二样本特征维度与目标行为类别之间的关系标签值;基于每一第一样本特征维度与目标行为类别之间的关系预测值,在各第一样本特征维度中确定目标行为类别对应的目标特征维度;基于目标特征维度和目标行为类别,对目标用户进行业务推荐;其中,样本特征维度包括用户特征维度和/或历史行为维度;用户特征维度包括用于描述用户个体的特征维度,包括:年龄维度、性别维度、学历维度、所在地区维度、职业维度以及爱好维度中的至少一个;历史行为维度包括用于描述用户的历史行为的特征维度,包括用户历史浏览行为的维度、用户历史点击行为维度、用户历史评分行为维度、用户历史反馈行为维度、用户历史社交互动行为维度以及用户历史阅读行为维度中的至少一个;行为类别用于描述不同维度和不同粒度的行为;目标行为类别与样本行为类别为不同的行为类别。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (20)

1.一种业务推荐方法,其特征在于,所述业务包括:商品、服务以及内容中的任意一种;所述方法,包括:
将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得所述目标关系预测模型输出的所述每一第一样本特征维度与所述目标行为类别之间的关系预测值,所述目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,所述第一关系标签值包括每一所述样本特征维度与每一样本行为类别之间的关系标签值,所述第二关系标签值包括各所述样本特征维度中每一第二样本特征维度与所述目标行为类别之间的关系标签值;
基于每一所述第一样本特征维度与所述目标行为类别之间的关系预测值,在各所述第一样本特征维度中确定所述目标行为类别对应的目标特征维度;
基于所述目标特征维度和所述目标行为类别,对目标用户进行业务推荐;
其中,所述样本特征维度包括用户特征维度和/或历史行为维度;所述用户特征维度包括用于描述用户个体的特征维度;所述历史行为维度包括用于描述用户的历史行为的特征维度;行为类别用于描述不同维度和不同粒度的行为;所述目标行为类别与所述样本行为类别为不同的行为类别;
所述将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得所述目标关系预测模型输出的所述每一第一样本特征维度与所述目标行为类别之间的关系预测值之前,所述方法还包括:
获取每一所述样本特征维度对应的样本特征数据和每一样本行为类别对应的样本行为类别数据,每一所述样本特征数据包括样本用户在每一所述样本特征维度下的特征数据,每一所述样本行为类别数据包括所述样本用户在每一所述样本行为类别下的行为数据;
将各所述样本特征数据中的部分样本特征数据确定为第一样本特征数据,将剩余的样本特征数据确定为第二样本特征数据;
将每一所述第一样本特征数据对应的样本特征维度确定为每一所述第一样本特征维度,将每一所述第二样本特征数据对应的每一样本特征维度确定为每一所述第二样本特征维度;
其中,所述用户特征维度包括年龄维度、性别维度、学历维度、所在地区维度、职业维度以及爱好维度中的至少一个;所述历史行为维度包括用户历史浏览行为的维度、用户历史点击行为维度、用户历史评分行为维度、用户历史反馈行为维度、用户历史社交互动行为维度以及用户历史阅读行为维度中的至少一个;
所述目标关系预测模型是基于如下步骤训练的:基于所述第一关系标签值,对初始神经网络模型进行训练,得到预训练神经网络模型;
基于所述第二关系标签值,对所述预训练神经网络模型进行训练,得到所述目标关系预测模型;
所述基于所述第一关系标签值,对初始神经网络模型进行训练,得到预训练神经网络模型,包括:
将第个样本特征维度的标识信息和第/>个样本行为类别的标识信息输入所述初始神经网络模型,获得所述初始神经网络模型输出的所述第/>个样本特征维度与所述第/>个样本行为类别之间的关系预测值,/>为大于零小于等于/>的正整数,/>为大于零小于等于/>的正整数,/>为大于1的正整数,/>表示各所述样本特征维度的总数;/>表示所述样本行为类别的数量;
基于所述第个样本特征维度与所述第/>个样本行为类别之间的关系预测值以及所述第一关系标签值中所述第/>个样本特征维度与所述第/>个样本行为类别之间的关系标签值,计算所述初始神经网络模型的损失函数值;
在基于所述初始神经网络模型的损失函数值确定所述初始神经网络模型未收敛的情况下,更新所述初始神经网络模型的模型参数和更新和/或/>,重复上述计算所述初始神经网络模型的损失函数值的步骤,直至基于所述初始神经网络模型的损失函数值确定所述初始神经网络模型收敛,获得所述预训练神经网络模型;
所述基于所述第二关系标签值,对所述预训练神经网络模型进行训练,得到所述目标关系预测模型,包括:
将第个第二样本特征维度的标识信息和目标行为类别的标识信息输入所述预训练神经网络模型,获得所述预训练神经网络模型的所述第/>个第二样本特征维度与所述目标行为类别之间的关系预测值,/>为大于零小于等于/>的正整数,/>表示所述第二样本特征维度的数量;
基于所述第个第二样本特征维度与所述目标行为类别之间的关系预测值以及所述第二关系标签值中第/>个第二样本特征维度与所述目标行为类别之间的关系标签值,计算所述预训练神经网络模型的损失函数值;
在基于所述预训练神经网络模型的损失函数值确定所述预训练神经网络模型未收敛的情况下,更新所述预训练神经网络模型的模型参数和更新,重复上述计算所述预训练神经网络模型的损失函数值的步骤,直至基于所述预训练神经网络模型的损失函数值确定所述预训练神经网络模型收敛,获得所述目标关系预测模型。
2.根据权利要求1所述的业务推荐方法,其特征在于,所述目标关系预测模型,包括:输入层、特征表征层以及输出层;
所述将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得所述目标关系预测模型输出的所述每一第一样本特征维度与所述目标行为类别之间的关系预测值,包括:
将所述每一第一样本特征维度的标识信息和所述目标行为类别的标识信息输入所述输入层,获得所述输入层输出的所述目标行为类别对应的第一独热编码稀疏向量以及所述每一第一样本特征维度对应的第二独热编码稀疏向量;
将所述第一独热编码稀疏向量以及所述第二独热编码稀疏向量输入至所述特征表征层,获得所述特征表征层输出的每一特征数据;
将所述每一特征数据输入至所述输出层,获得所述输出层输出的所述每一第一样本特征维度与所述目标行为类别之间的关系预测值。
3.根据权利要求2所述的业务推荐方法,其特征在于,所述输入层,包括:行为类别输入层和特征维度输入层;
所述将所述每一第一样本特征维度的标识信息和所述目标行为类别的标识信息输入所述输入层,获得所述输入层输出的所述目标行为类别对应的第一独热编码稀疏向量以及所述每一第一样本特征维度对应的第二独热编码稀疏向量,包括:
将所述每一第一样本特征维度的标识信息输入所述特征维度输入层,获得所述特征维度输入层输出的所述第二独热编码稀疏向量,
将所述目标行为类别的标识信息输入所述行为类别输入层,获得所述行为类别输入层输出的所述第一独热编码稀疏向量。
4.根据权利要求2所述的业务推荐方法,其特征在于,所述特征表征层包括属性层、嵌入层以及关系网络层;
所述将所述第一独热编码稀疏向量以及所述第二独热编码稀疏向量输入至所述特征表征层,获得所述特征表征层输出的每一特征数据,包括:
将所述第一独热编码稀疏向量和所述第二独热编码稀疏向量输入所述属性层,获得所述属性层输出的所述目标行为类别对应的第一属性层表征和所述每一第一样本特征维度对应的第二属性层表征,
将所述第一独热编码稀疏向量和所述第二独热编码稀疏向量输入所述嵌入层,获得所述嵌入层输出的所述目标行为类别对应的第一嵌入层表征和所述每一第一样本特征维度对应的第二嵌入层表征;
将所述第一嵌入层表征和所述第二嵌入层表征输入所述关系网络层,获得所述关系网络层输出的所述每一第一样本特征维度与所述目标行为类别之间的关系向量;
其中,所述每一特征数据包括所述目标行为类别对应的第一属性层表征和第二嵌入层表征、所述每一第一样本特征维度对应的第二属性层表征和第二嵌入层表征以及所述每一第一样本特征维度与所述目标行为类别之间的关系向量。
5.根据权利要求4所述的业务推荐方法,其特征在于,所述属性层,包括:行为类别属性层和特征维度属性层;
将所述第一独热编码稀疏向量和所述第二独热编码稀疏向量输入所述属性层,获得所述属性层输出的所述目标行为类别对应的第一属性层表征和所述每一第一样本特征维度对应的第二属性层表征,包括:
将所述第一独热编码稀疏向量输入所述行为类别属性层,获得所述行为类别属性层输出的所述第一属性层表征,
将所述第二独热编码稀疏向量输入所述特征维度属性层,获得所述特征维度属性层输出的所述第二属性层表征。
6.根据权利要求4所述的业务推荐方法,其特征在于,所述嵌入层,包括:行为类别嵌入层和特征维度嵌入层;
所述将所述第一独热编码稀疏向量和所述第二独热编码稀疏向量输入所述嵌入层,获得所述嵌入层输出的所述目标行为类别对应的第一嵌入层表征和所述每一第一样本特征维度对应的第二嵌入层表征,包括:
将所述第一独热编码稀疏向量输入所述行为类别嵌入层,获得所述行为类别嵌入层输出的所述第一嵌入层表征,
将所述第二独热编码稀疏向量输入所述特征维度嵌入层,获得所述特征维度嵌入层输出的所述第二嵌入层表征。
7.根据权利要求4所述的业务推荐方法,其特征在于,所述关系网络层包括线性关系网络层和非线性关系网络层;
所述将所述第一嵌入层表征和所述第二嵌入层表征输入所述关系网络层,获得所述关系网络层输出的所述每一第一样本特征维度与所述目标行为类别之间的关系向量,包括:
将所述第一嵌入层表征和所述第二嵌入层表征输入所述线性关系网络层,获得所述线性关系网络层输出的所述目标行为类别与所述每一第一样本特征维度之间的线性关系表征;
将所述线性关系表征输入所述非线性关系网络层,获得所述非线性关系网络层输出的所述目标行为类别与所述每一第一样本特征维度之间的非线性关系表征;
其中,所述每一第一样本特征维度与所述目标行为类别之间的关系向量,包括所述每一第一样本特征维度与所述目标行为类别之间的线性关系表征和非线性关系表征。
8.根据权利要求1所述的业务推荐方法,其特征在于,所述获取每一所述样本特征维度对应的样本特征数据,包括:
获取所述样本用户在每一原始特征维度下的特征数据,作为第一原始样本特征数据;
对所述第一原始样本特征数据进行数据预处理,根据数据预处理结果,获得第二原始样本特征数据;
对所述第二原始样本特征数据进行特征增强处理,获得所述样本用户在每一所述样本特征维度下的特征数据,作为每一所述样本特征数据;
其中,所述数据预处理包括数据格式检测、异常值处理、重复值处理和缺失值处理中的至少一项;所述特征增强处理包括函数转换处理、特征缩放处理、无量纲化处理、数值特征分桶、特征交叉组合中的至少一项。
9.根据权利要求1所述的业务推荐方法,其特征在于,所述获取每一所述样本特征维度对应的样本特征数据,包括:
获取所述样本用户在每一原始样本行为类别下的行为数据,作为第一原始样本行为类别数据;
对所述第一原始样本行为类别数据进行数据预处理,根据数据预处理结果,获得第二原始样本行为类别数据;
对所述第二原始样本行为类别数据进行特征增强处理,获得所述样本用户在每一所述样本行为类别下的特征数据,作为每一所述样本行为类别数据;
其中,所述数据预处理包括数据格式检测、异常值处理、重复值处理和缺失值处理中的至少一项;所述特征增强处理包括函数转换处理、特征缩放处理、无量纲化处理、数值特征分桶、特征交叉组合中的至少一项。
10.根据权利要求1所述的业务推荐方法,其特征在于,所述第一关系标签值,是基于如下步骤获取的:
基于每一所述样本特征数据和每一所述样本行为类别数据,获取每一所述样本特征维度与每一所述样本行为类别之间的关系标签值,作为所述第一关系标签值。
11.根据权利要求1所述的业务推荐方法,其特征在于,所述第二关系标签值,是基于如下步骤获取的:
基于每一所述第二样本特征数据和目标行为类别数据,获取每一所述第二样本特征维度与所述目标行为类别之间的关系标签值,作为所述第二关系标签值,所述目标行为类别数据包括所述样本用户在所述目标行为类别下的行为数据。
12.根据权利要求1所述的业务推荐方法,其特征在于,所述基于每一所述第一样本特征维度与所述目标行为类别之间的关系预测值,在各所述第一样本特征维度中确定所述目标行为类别对应的目标特征维度,包括:
根据每一所述第一样本特征维度与所述目标行为类别之间的关系预测值,对各所述第一样本特征维度进行排序;
根据排序结果,从各所述第一样本特征维度中选择预设数量的第一样本特征维度作为所述目标行为类别对应的目标特征维度。
13.根据权利要求1所述的业务推荐方法,其特征在于,所述基于所述目标特征维度和所述目标行为类别,对目标用户进行业务推荐,包括:
基于所述目标用户所述目标特征维度的特征数据,确定是否为所述目标用户推送所述目标行为类别对应的目标业务。
14.根据权利要求1所述的业务推荐方法,其特征在于,所述初始神经网络模型的损失函数,是基于所述第一关系标签值的标签类型确定的。
15.根据权利要求14所述的业务推荐方法,其特征在于,在所述第一关系标签值的标签类型为分类标签的情况下,所述初始神经网络模型的损失函数为分类损失函数;其中,所述分类损失函数包括交叉熵损失函数。
16.根据权利要求14所述的业务推荐方法,其特征在于,在所述第一关系标签值的标签类型为相关系数标签或者互信息标签的情况下,所述初始神经网络模型的损失函数为回归损失函数;其中,所述回归损失函数包括均方差损失。
17.根据权利要求16所述的业务推荐方法,其特征在于,在所述第一关系标签值的标签类型为分类标签的情况下,所述初始神经网络模型的激活函数为激活函数。
18.一种业务推荐装置,其特征在于,所述业务包括:商品、服务以及内容中的任意一种;所述装置,包括:
数据输入模块,用于将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得所述目标关系预测模型输出的所述每一第一样本特征维度与所述目标行为类别之间的关系预测值,所述目标关系预测模型是基于第一关系标签值和第二关系标签值进行训练后得到的,所述第一关系标签值包括每一所述样本特征维度与每一样本行为类别之间的关系标签值,所述第二关系标签值包括各所述样本特征维度中每一第二样本特征维度与所述目标行为类别之间的关系标签值;
特征选择模块,基于每一所述第一样本特征维度与所述目标行为类别之间的关系预测值,在各所述第一样本特征维度中确定所述目标行为类别对应的目标特征维度;
业务推荐模块,用于基于所述目标特征维度和所述目标行为类别,对目标用户进行业务推荐;
其中,所述样本特征维度包括用户特征维度和/或历史行为维度;所述用户特征维度包括用于描述用户个体的特征维度;所述历史行为维度包括用于描述用户的历史行为的特征维度;行为类别用于描述不同维度和不同粒度的行为;所述目标行为类别与所述样本行为类别为不同的行为类别;
所述数据输入模块将各样本特征维度中每一第一样本特征维度的标识信息和目标行为类别的标识信息输入目标关系预测模型,获得所述目标关系预测模型输出的所述每一第一样本特征维度与所述目标行为类别之间的关系预测值之前,所述数据输入模块还用于:
获取每一所述样本特征维度对应的样本特征数据和每一样本行为类别对应的样本行为类别数据,每一所述样本特征数据包括样本用户在每一所述样本特征维度下的特征数据,每一所述样本行为类别数据包括所述样本用户在每一所述样本行为类别下的行为数据;
将各所述样本特征数据中的部分样本特征数据确定为第一样本特征数据,将剩余的样本特征数据确定为第二样本特征数据;
将每一所述第一样本特征数据对应的样本特征维度确定为每一所述第一样本特征维度,将每一所述第二样本特征数据对应的每一样本特征维度确定为每一所述第二样本特征维度;
其中,所述用户特征维度包括年龄维度、性别维度、学历维度、所在地区维度、职业维度以及爱好维度中的至少一个;所述历史行为维度包括用户历史浏览行为的维度、用户历史点击行为维度、用户历史评分行为维度、用户历史反馈行为维度、用户历史社交互动行为维度以及用户历史阅读行为维度中的至少一个;
所述目标关系预测模型是基于如下步骤训练的:
基于所述第一关系标签值,对初始神经网络模型进行训练,得到预训练神经网络模型;
基于所述第二关系标签值,对所述预训练神经网络模型进行训练,得到所述目标关系预测模型;
所述基于所述第一关系标签值,对初始神经网络模型进行训练,得到预训练神经网络模型,包括:
将第个样本特征维度的标识信息和第/>个样本行为类别的标识信息输入所述初始神经网络模型,获得所述初始神经网络模型输出的所述第/>个样本特征维度与所述第/>个样本行为类别之间的关系预测值,/>为大于零小于等于/>的正整数,/>为大于零小于等于/>的正整数,/>为大于1的正整数,/>表示各所述样本特征维度的总数;/>表示所述样本行为类别的数量;
基于所述第个样本特征维度与所述第/>个样本行为类别之间的关系预测值以及所述第一关系标签值中所述第/>个样本特征维度与所述第/>个样本行为类别之间的关系标签值,计算所述初始神经网络模型的损失函数值;
在基于所述初始神经网络模型的损失函数值确定所述初始神经网络模型未收敛的情况下,更新所述初始神经网络模型的模型参数和更新和/或/>,重复上述计算所述初始神经网络模型的损失函数值的步骤,直至基于所述初始神经网络模型的损失函数值确定所述初始神经网络模型收敛,获得所述预训练神经网络模型;
所述基于所述第二关系标签值,对所述预训练神经网络模型进行训练,得到所述目标关系预测模型,包括:
将第个第二样本特征维度的标识信息和目标行为类别的标识信息输入所述预训练神经网络模型,获得所述预训练神经网络模型的所述第/>个第二样本特征维度与所述目标行为类别之间的关系预测值,/>为大于零小于等于/>的正整数,/>表示所述第二样本特征维度的数量;
基于所述第个第二样本特征维度与所述目标行为类别之间的关系预测值以及所述第二关系标签值中第/>个第二样本特征维度与所述目标行为类别之间的关系标签值,计算所述预训练神经网络模型的损失函数值;
在基于所述预训练神经网络模型的损失函数值确定所述预训练神经网络模型未收敛的情况下,更新所述预训练神经网络模型的模型参数和更新,重复上述计算所述预训练神经网络模型的损失函数值的步骤,直至基于所述预训练神经网络模型的损失函数值确定所述预训练神经网络模型收敛,获得所述目标关系预测模型。
19.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至17任一项所述业务推荐方法的步骤。
20.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至17任一项所述业务推荐方法的步骤。
CN202311508557.1A 2023-11-14 2023-11-14 业务推荐方法、装置、电子设备及存储介质 Active CN117252665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311508557.1A CN117252665B (zh) 2023-11-14 2023-11-14 业务推荐方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311508557.1A CN117252665B (zh) 2023-11-14 2023-11-14 业务推荐方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117252665A CN117252665A (zh) 2023-12-19
CN117252665B true CN117252665B (zh) 2024-02-20

Family

ID=89137128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311508557.1A Active CN117252665B (zh) 2023-11-14 2023-11-14 业务推荐方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117252665B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633962A (zh) * 2020-12-03 2021-04-09 北京道隆华尔软件股份有限公司 业务推荐方法、装置、计算机设备和存储介质
CN113268656A (zh) * 2021-04-15 2021-08-17 北京沃东天骏信息技术有限公司 一种用户推荐方法、装置、电子设备及计算机存储介质
CN113626719A (zh) * 2021-10-12 2021-11-09 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备、存储介质及计算机程序产品
CN115048855A (zh) * 2022-05-06 2022-09-13 南宁师范大学 点击率预测模型及其训练方法与应用装置
CN116340643A (zh) * 2023-05-29 2023-06-27 苏州浪潮智能科技有限公司 对象推荐的调整方法及装置、存储介质、电子设备
CN116737334A (zh) * 2023-05-31 2023-09-12 嵩山实验室 任务调度及数据集标签更新方法、装置和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633962A (zh) * 2020-12-03 2021-04-09 北京道隆华尔软件股份有限公司 业务推荐方法、装置、计算机设备和存储介质
CN113268656A (zh) * 2021-04-15 2021-08-17 北京沃东天骏信息技术有限公司 一种用户推荐方法、装置、电子设备及计算机存储介质
CN113626719A (zh) * 2021-10-12 2021-11-09 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备、存储介质及计算机程序产品
CN115048855A (zh) * 2022-05-06 2022-09-13 南宁师范大学 点击率预测模型及其训练方法与应用装置
CN116340643A (zh) * 2023-05-29 2023-06-27 苏州浪潮智能科技有限公司 对象推荐的调整方法及装置、存储介质、电子设备
CN116737334A (zh) * 2023-05-31 2023-09-12 嵩山实验室 任务调度及数据集标签更新方法、装置和电子设备

Also Published As

Publication number Publication date
CN117252665A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
JP7360497B2 (ja) クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
CN111553759A (zh) 一种产品信息推送方法、装置、设备及存储介质
CN113256367B (zh) 用户行为历史数据的商品推荐方法、***、设备及介质
US11640634B2 (en) Deep learning based visual compatibility prediction for bundle recommendations
CN112800344B (zh) 一种基于深度神经网络的电影推荐方法
CN112529071B (zh) 一种文本分类方法、***、计算机设备和存储介质
CN110727855A (zh) 一种基于改进因子分解机的个性化推荐方法
CN114077661A (zh) 信息处理装置、信息处理方法和计算机可读介质
CN114358657A (zh) 一种基于模型融合的岗位推荐方法及装置
CN107169830B (zh) 一种基于聚类pu矩阵分解的个性化推荐方法
CN111178986A (zh) 用户-商品偏好的预测方法及***
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及***
Nazari et al. Scalable and data-independent multi-agent recommender system using social networks analysis
CN113763031A (zh) 一种商品推荐方法、装置、电子设备及存储介质
CN117574915A (zh) 基于多方数据源的公共数据平台及其数据分析方法
CN116340635A (zh) 物品推荐方法、模型训练方法、装置及设备
CN114842247B (zh) 基于特征累加的图卷积网络半监督节点分类方法
CN117252665B (zh) 业务推荐方法、装置、电子设备及存储介质
Zhang et al. A two-stage rating prediction approach based on matrix clustering on implicit information
CN115344794A (zh) 一种基于知识图谱语义嵌入的旅游景点推荐方法
CN114936901A (zh) 基于跨模态语义推理与融合的视觉感知推荐方法及***
Pan et al. A movie recommendation model combining time information and probability matrix factorisation
Hmaidi et al. Anime Link Prediction Using Improved Graph Convolutional Networks
Monemian A neuroevolutionary neural network-based collaborative filtering recommendation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant