CN111460300A - 网络内容推送方法、装置及存储介质 - Google Patents

网络内容推送方法、装置及存储介质 Download PDF

Info

Publication number
CN111460300A
CN111460300A CN202010247149.5A CN202010247149A CN111460300A CN 111460300 A CN111460300 A CN 111460300A CN 202010247149 A CN202010247149 A CN 202010247149A CN 111460300 A CN111460300 A CN 111460300A
Authority
CN
China
Prior art keywords
user
sample
current user
sequence
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010247149.5A
Other languages
English (en)
Other versions
CN111460300B (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Cloud Computing Beijing Co Ltd
Priority to CN202010247149.5A priority Critical patent/CN111460300B/zh
Publication of CN111460300A publication Critical patent/CN111460300A/zh
Application granted granted Critical
Publication of CN111460300B publication Critical patent/CN111460300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请是关于一种网络内容推送方法、装置、计算机设备及存储介质,涉及云计算技术领域。该方法包括:首先服务器通过获取当前用户的组合特征、序列特征以及各个样本用户的序列特征,获取该当前用户对应的权重,然后对该当前用户以及该各个样本用户进行聚类,获得该当前用户的所属类别,最后根据该当前用户的所属类别,向该当前用户推送网络内容。通过上述方案,云服务器可以经过云计算对当前用户和样本用户按照行为序列进行挖掘,以确定当前用户的权重,并基于权重进行聚类,并根据聚类结果实现个性化的推荐相关网络内容,从而在保证了内容推荐准确的前提下,提高了推荐网络内容预测的效率。

Description

网络内容推送方法、装置及存储介质
技术领域
本公开涉及云计算技术领域,特别是涉及一种网络内容推送方法、装置及存储介质。
背景技术
如今,随着云计算技术领域的日益发展,为了使用户在互联网平台上获得更加智能且针对性的业务场景推荐,可以具有多种方法实现个性化的业务场景推荐,其中包括基于人口统计学的推荐方法、基于用户涉及内容的推荐方法以及基于协调过滤算法的推荐方法。
在上述相关技术中,基于协调过滤算法的推荐方法可以通过关联模型算法、聚类模型算法、分类模型算法、回归模型算法、矩阵分解以及图模型等来完成协同过滤,在用户和内容两方面分别基于用户协同考虑和物品协同考虑。
然而,相关技术中的方案,通过上述模型算法构建的神经网络模型需要大量的数据进行支持,为了获得更加准确的模型需要输入大量的实际数据,这就导致神经网络模型在准确预测之前需要处理大量数据,从而影响了预测的效率。
发明内容
本申请实施例提供了一种网络内容推送方法、装置、计算机设备及存储介质,可以提高相关内容的推荐效率,技术方案如下:
一方面,提供了一种网络内容推送方法,所述方法由所述平台服务器执行,所述方法包括:
获取当前用户的组合特征以及序列特征,所述组合特征包括对应用户的用户特征以及对应用户的物品特征;所述序列特征用于指示对应用户依次执行的网络行为特征;
结合所述当前用户的序列特征,以及各个样本用户的序列特征,获取所述当前用户对应的权重;
根据所述当前用户对应的权重、所述当前用户的组合特征以及所述各个样本用户的组合特征,对所述当前用户以及所述各个样本用户进行聚类,获得所述当前用户的所属类别;
根据所述当前用户的所属类别,向所述当前用户推送网络内容。
一方面,提供了一种网络内容推送装置,所述装置用于所述平台服务器中,所述装置包括:
特征获取模块,用于获取当前用户的组合特征以及序列特征,所述组合特征包括对应用户的用户特征以及对应用户的物品特征;所述序列特征用于指示对应用户依次执行的网络行为特征;
权重获取模块,用于结合所述当前用户的序列特征,以及各个样本用户的序列特征,获取所述当前用户对应的权重;
类别获取模块,用于根据所述当前用户对应的权重、所述当前用户的组合特征以及所述各个样本用户的组合特征,对所述当前用户以及所述各个样本用户进行聚类,获得所述当前用户的所属类别;
内容推送模块,用于根据所述当前用户的所属类别,向所述当前用户推送网络内容。
在一种可能的实现方式中,所述权重获取模块,包括:
共同模式确定子模块,用于通过序列模式挖掘算法,根据所述当前用户的序列特征,以及各个样本用户的序列特征,确定所述各个样本用户的共同序列模式以及所述当前用户的最长共同序列模式;
数量获取子模块,用于获取所述各个样本用户中具有所述最长共同序列模式的样本用户数量以及样本用户总数量;
权重确定子模块,用于根据所述具有最长共同序列模式的样本用户数量以及样本用户总数量,确定所述当前用户的共同序列模式支持度,作为所述当前用户对应的权重。
在一种可能的实现方式中,所述权重获取模块,还包括:
样本权重确定子模块,用于根据所述样本用户的共同序列模式,确定所述各个样本用户的样本权重,所述序列模式包括行为序列模式以及浏览序列模式中的至少一种。
在一种可能的实现方式中,所述样本权重确定子模块,包括:
权重确定单元,用于根据所述共同序列模式中的字段类型所占的频次,确定所述字段类型的权重;
样本权重确定单元,用于将所述样本用户的所述共同序列模式中包含的至少一种所述字段类型的权重取平均值,确定所述样本用户的样本权重;
在一种可能的实现方式中,所述类别获取模块,包括:
聚类中心确定子模块,用于通过加权聚类算法,根据所述各个样本用户的样本权重以及所述各个样本用户的组合特征,确定所述各个样本用户对应的各个所述网络内容的聚类中心;
距离确定子模块,用于根据所述当前用户的组合特征以及所述当前用户对应的权重,确定所述当前用户与所述各个聚类中心的距离;
第一类别获取子模块,用于根据所述当前用户与所述各个聚类中心的距离,获得所述当前用户的所属类别。
在一种可能的实现方式中,所述类别获取模块,包括:
样本用户确定子模块,用于通过加权聚类算法,根据所述各个样本用户的样本权重、所述各个样本用户的组合特征、所述当前用户对应的权重以及所述当前用户的组合特征,确定与所述当前用户属于同一类别的所述样本用户;
第二类别获取子模块,用于将与所述当前用户属于同一类别的所述样本用户对应的所属类别,获取为所述当前用户的所属类别。
在一种可能的实现方式中,所述内容推送模块,包括:
第一内容获取子模块,用于获取当前用户与所述各个聚类中心的距离的最小值对应的所述网络内容;
第一内容推送子模块,用于向所述当前用户的终端推送所述网络内容。
在一种可能的实现方式中,所述内容推送模块,包括:
第二内容获取子模块,用于获取与所述当前用户属于同一类别的所述样本用户中,所述各个样本用户对应的各个网络内容的被推送占比,所述被推送占比是对应的网络内容被推送的次数,与向所述同一类别中的全部所述样本用户推送的网络内容的次数总和之间的比值;
第二内容推送子模块,用于向所述当前用户的终端推送目标网络内容,所述目标网络内容是各个样本用户对应的各个网络内容中,被推送占比最高的网络内容。
在一种可能的实现方式中,所述特征获取模块,包括:
用户特征获取子模块,用于获取所述当前用户的用户数据,生成所述当前用户的用户特征;
物品特征获取子模块,用于获取所述当前用户的物品数据,生成所述当前用户的物品特征;
组合特征生成子模块,用于根据所述用户特征和所述物品特征,进行特征处理生成所述组合特征。
在一种可能实现的方式中,所述装置还包括:
样本库构建模块,用于获取转化用户作为样本用户,构建用户样本库,所述转化用户用于指示具有实际转化的用户。
在一种可能实现的方式中,所述装置还包括:
样本特征获取模块,用于结合所述当前用户的序列特征,以及各个样本用户的序列特征,获取所述当前用户对应的权重之前,获取所述各个所述样本用户的样本序列特征;
样本序列模式确定模块,用于根据所述样本序列特征,确定所述各个所述样本用户的样本序列模式。
一方面,提供了一种计算机设备,该计算机设备包含处理器和存储器,存储器中存储由至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一可选实现方式所述的网络内容推送方法。
一方面,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一可选实现方式所述的网络内容推送方法。
本申请提供的技术方案可以包括以下有益效果:
本申请实施例提供的内容推荐方案,首先服务器通过获取当前用户的组合特征以及序列特征,结合该当前用户的序列特征,以及各个样本用户的序列特征,获取该当前用户对应的权重,然后根据该当前用户对应的权重、该当前用户的组合特征以及该各个样本用户的组合特征,对该当前用户以及该各个样本用户进行聚类,获得该当前用户的所属类别,最后根据该当前用户的所属类别,向该当前用户推送网络内容。通过上述方案,云服务器可以经过云计算对当前用户和样本用户按照行为序列进行挖掘,以确定当前用户的权重,并基于权重进行聚类,并根据聚类结果实现个性化的推荐相关网络内容,从而在保证了内容推荐准确的前提下,提高了推荐网络内容预测的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请一个示例性的实施例提供的一种网络内容推送***的示意图;
图2是本申请一个示例性的实施例提供的一种网络内容推送方法的示意图;
图3是本申请一个示例性的实施例提供的一种网络内容推送的流程示意图;
图4是本申请一个示例性的实施例提供的一种网络内容推送方法的流程示意图;
图5是本申请一个示例性的实施例提供的一种网络内容推送方法的流程示意图;
图6是根据一示例性实施例示出的网络内容推送装置的结构方框图;
图7是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“若干个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为了方便理解,下面对本公开实施例中涉及的名词进行说明。
(1)人工智能AI
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案主要涉及人工智能中的机器学习/深度学习等技术。
(2)神经网络
神经网络也称为人工神经网络(Artificial Neural Networks,ANNs)或者连接模型(Connection Model),是一种模仿人类等动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠***的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
(3)云技术(Cloud technology)
云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
(4)云计算(Cloud Computing)
云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(GridComputing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
(5)数据库
数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理***(Database Management System,DBMS)是为管理数据库而设计的电脑软件***,一般具有存储、截取、安全保障、备份等基础功能。数据库管理***可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible Markup Language,可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL(Structured Query Language,结构化查询语言)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
(6)大数据
大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件***、分布式数据库、云计算平台、互联网和可扩展的存储***。
图1是根据一示例性实施例示出的一种网络内容推送***的示意图。该网络内容推送***中包括终端110以及平台服务器120。
用户可以在终端110上进入平台服务器120对应的平台场景,用户可以进行平台场景下的业务。
用户进入平台场景后,平台服务器120可以记录用户在平台场景下的用户数据。
其中,用户数据可以包括用户在场景中的浏览数据、用户在场景中的行为数据以及用户的基本数据。
平台服务器120中可以包含有存储器,该存储器可以用来存储各个用户数据。
终端110可以通过有线或者无线网络与平台服务器120进行数据传输。
平台服务器120可以是一台服务器,或者可以是由若干台服务器构成的服务器集群,或者可以包含一个或多个虚拟化平台,或者也可以是一个云计算服务中心。
平台服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
可选地,上述的有线或者无线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
图2是根据一示例性实施例示出的一种网络内容推送方法的示意图。如图2所示,该网络内容推送方法包括的步骤如下:
在步骤201中,构建用户特征和物品特征,并且挖掘实际转化的用户作为正样本。
在一种可能的实现方式中,服务器根据用户数据和物品数据构造用户特征和物品特征。
其中,用户特征可以包括用户基础属性特征,比如年龄、性别、学历、所处城市等级等特征;用户特征可以包括用户消费特征,比如支付总笔数、总金额、某时间段内(24小时内、一周内、一个月内、半年内)的支付笔数分布、支付金额分布、笔均金额等特征;用户特征还可以包括用户行为特征,比如浏览时长、页面点击次数等特征。
其中,物品特征可以包括物品基础属性特征,比如物品类别、物品价格、物品品牌、物品购买评分、物品评论情感等特征;物品特征可以包括物品消费特征,比如物品被购买次数、被点击浏览次数、添加购物车次数、同类物品被购买次数等特征。
可选的,服务器可以通过用户特征以及物品特征两部分特征拼接组合构造<用户,物品>的组合特征,并进行数据预处理。
其中,处理步骤可以包括:
1)舍弃缺失值过多的特征。
比如,服务器可以设定缺失值过滤阈值=样本数据量×0.4,当某特征数据缺失的数量超过该缺失值过滤阈值则过滤这个特征,同时删除单值特征。
2)进行异常值处理。
比如,根据特征分布,舍弃特征数值太大、排在前0.001(千分之一)的异常值。
3)缺失值处理。
比如,连续型特征可以用均值填充,离散型特征可以用常数填充作为单独的类别。
4)进行特征衍生。
比如,服务器可以通过特征变换、特征平方、特征加减进行特征组合和衍生。
5)进行特征处理。
比如,连续型特征可以进行分箱离散化、离散型特征可以进行one-hot编码。
可选的,将业务场景中有实际转化的用户作为高价值用户,高价值用户的定义包括购买过会员、积分高有兑换过积分、历史交易金额大的用户,将这部分用户作为正样本,用于构建高价值用户样本库。
在步骤202中,基于序列模式挖掘Prefixspan算法挖掘同一物品不同用户的行为序列。
在一种可能的实现方式中,服务器可以基于Prefixspan算法挖掘用户行为序列模式,发现从触达到转化有共同习惯/浏览习惯的用户群体。
基于Prefixspan算法挖掘用户行为轨迹中满足最小支持度阈值的各个长度的共同序列模式。同时,可以使用多最小支持度策略,最小支持度的计算方法的公式为min_sup=a×n,其中n为样本集样本数,a为最小支持率参数,最小支持率参数根据样本集的数量进行调整。
在步骤203中,对序列模式挖掘特征加权计算得到样本权重。
在一种可能的实现方式中,从用户行为序列和用户浏览序列挖掘转化用户共同行为模式,从而在建模方法上更加关注这部分特征类型,对这部分类型特征进行加权处理,以及对序列模式的各项共同前缀中都不出现的特征类型字段进行该字段剔除,过滤对用户转化影响不大的因素。加权权重设置为各字段类型对应的频次占比,如最小支持度阈值设置为0.5,若某个字段的各种类型值的频次占比都小于该最小支持度,则将该字段剔除,若字段类型“收藏行为f”出现的频次占比为0.7,那么该字段类型加权权重为0.7;字段类型“浏览序列AaBcA”出现频次占比为0.56,那么该字段类型加权权重为0.56。计算用户包含转化共同行为序列的字段类型平均权重作为该用户转化的样本权重。
在步骤204中,构建加权聚类算法对样本组合特征进行聚类。
在一种可能的实现方式中,基于步骤201进行用户组合特征构建和特征处理,根据步骤203计算得到的每个样本的样本权重对用户组合特征进行加权,构建样本加权聚类算法对特征向量进行聚类。
在步骤205中,基于聚类结果和预设条件对不同用户推荐。
在一种可能的实现方式中,基于步骤201进行用户组合特征构建和特征处理,根据步骤203计算得到的每个样本的样本权重对用户组合特征进行加权,从而构造新样本加权特征。将新样本组合特征向量与转化用户样本组合特征向量进行步骤204加权聚类,完成聚类后计算新样本组合特征向量所属类别中各种物品转化占比,推荐该类别中转化率最高的物品给该预测用户样本。
请参考图3,其示出了本申请一个示例性的实施例提供的一种网络内容推送的流程示意图。用户可以是一个电商平台的用户或者是使用具有推荐***平台的终端的用户,当用户在电商平台时,通过该内容推荐的流程,该电商平台可以根据用户的相关属性结合数据库中的样本属性推荐用户偏好的商品;当用户在一个具有推荐广告功能的终端***时,同样通过该内容推荐的流程广告推荐平台可以根据用户的行为偏好定向的推荐用户相关广告。这种内容推荐的方法可以大大地提高内容推荐的效果。如图3所示,在电商平台的场景下,用户301通过终端302进入该电商平台,终端可以通过有线或者无线网络与该电商平台的平台服务器303进行数据传输,首先,平台服务器303中的数据库中存储有高价值用户的相关数据以及商品数据作为样本数据,其中高价值用户可以是包括该电商平台的会员、交易行为共同的用户,由于高价值用户可以提供平台高参考价值的相关数据,所以可以选择高价值用户作为样本用户。平台服务器303实时获取高价值用户的数据和商品数据,对高价值用户的数据和商品数据进行预处理。然后,平台服务器303基于序列模式挖掘样本用户的行为序列,将样本用户在平台上进行点击浏览留下的序列信息和从其他渠道触达到转化的一系列行为轨迹形成浏览序列模式和行为序列模式,经过序列模式挖掘算法获得样本集中的所有共同序列模式,其中共同序列模式可以是样本用户的共同浏览模式或者共同行为模式,接着可以根据字段类型所占的频次占比计算样本权重,根据样本权重,对样本进行加权聚类算法,得到聚类结果。将用户301的组合特征与样本的组合特征进行加权聚类,完成聚类后计算用户301所属类别中各种商品的转化占比,即用户301所属类别中的各个样本用户偏好商品的占比,将该类别中转化率最高的商品即占比最高的商品推荐给用户301。
请参考图4,其示出了本申请一个示例性的实施例提供的一种网络内容推送方法的流程示意图。该网络内容推送方法可以由平台服务器执行。其中,上述平台服务器可以是上述图1所示***中的平台服务器120。如图4所示,该网络内容推送方法可以包括以下步骤:
在步骤401中,获取当前用户的组合特征以及序列特征,该组合特征包括对应用户的用户特征以及对应用户的物品特征;该序列特征用于指示对应用户依次执行的网络行为特征。
可选的,平台服务器可以获取该当前用户的用户数据,生成该当前用户的用户特征,平台服务器可以获取该当前用户的物品数据,生成该当前用户的物品特征,平台服务器可以根据该用户特征和该物品特征,生成该组合特征。
可选的,用户特征可以包括用户基础属性特征、用户消费特征以及用户行为特征中的至少一种。
其中,用户基础属性特征可以是用户年龄、用户性别、用户学历、用户所处城市等级等用户特征。用户消费特征可以是用户支付总笔数、用户支付总金额、用户某时间段内(24小时内、一周内、一个月内、半年内)支付笔数分布、用户支付金额分布、用户笔均金额等用户特征。用户行为特征可以是用户浏览时长、用户页面点击次数等用户特征。
可选的,物品特征可以包括物品基础属性特征和物品消费特征中的至少一种。
其中,物品基础属性特征可以是物品类别、物品价格、物品品牌、物品购买评分、物品评论情感等物品特征。物品消费特征可以是物品被购买次数、物品被点击浏览次数、物品添加购物车次数、同类物品被购买次数等物品特征。
可选的,组合特征可以由用户特征和物品特征组合得到,可以以<用户特征,物品特征>的形式表示组合特征。
在步骤402中,结合该当前用户的序列特征,以及各个样本用户的序列特征,获取该当前用户对应的权重。
可选的,用户服务器可以基于Prefixspan(序列模式挖掘)算法挖掘当前用户的序列模式以及样本用户的样本序列模式,通过获取当前用户的序列模式与样本序列模式的共同序列模式,由此可以发现与当前用户从触达到转化有共同行为习惯或者共同浏览习惯的样本用户。
在步骤403中,根据该当前用户对应的权重、该当前用户的组合特征以及该各个样本用户的组合特征,对该当前用户以及该各个样本用户进行聚类,获得该当前用户的所属类别。
在步骤404中,根据该当前用户的所属类别,向该当前用户推送网络内容。
可选的,相应的内容可以根据用户所处的场景不同,推荐不同的内容。
比如,在电商平台的场景下,用户终端可以被平台服务器发送某种商品的购买链接;用户在终端应用购买商店平台,用户可以被平台服务器发送某种应用的下载链接。同样,平台服务器发送的内容除了地址连接之外,还可以是图片、视频或者甚至是一段音频。
综上所述,本公开实施例中提供的网络内容推送方法,首先服务器通过获取当前用户的组合特征以及序列特征,结合该当前用户的序列特征,以及各个样本用户的序列特征,获取该当前用户对应的权重,然后根据该当前用户对应的权重、该当前用户的组合特征以及该各个样本用户的组合特征,对该当前用户以及该各个样本用户进行聚类,获得该当前用户的所属类别,最后根据该当前用户的所属类别,向该当前用户推送网络内容。通过上述方案,云服务器可以经过云计算对当前用户和样本用户按照行为序列进行挖掘,以确定当前用户的权重,并基于权重进行聚类,并根据聚类结果实现个性化的推荐相关网络内容,从而在保证了内容推荐准确的前提下,提高了推荐网络内容预测的效率。
请参考图5,其示出了本申请一个示例性的实施例提供的一种内容推荐方法的流程示意图。该内容推荐方法可以由平台服务器执行。其中,上述平台服务器可以是上述图1所示的平台服务器120。如图5所示,该内容推荐方法可以包括以下步骤:
步骤501,平台服务器获取转化用户作为样本用户,构建用户样本库。
在本公开实施例中,平台服务器可以实时或者周期性的获取平台转化用户作为该平台的样本用户,记录下各个样本用户的数据,平台服务器可以将包含各个样本用户的数据信息存储在平台服务器的专门的数据库中,该数据库可以作为用户样本库。
其中,转化用户可以用于指示具有实际转化的用户。转化可以用来表示由初次进入的新用户通过一些浏览或者行为转变为该平台的老用户的过程。
其中,用户样本库可以是平台服务器中存储有样本用户的数据的数据库。
步骤502,平台服务器获取当前用户的组合特征以及序列特征。
在本公开实施例中,平台服务器可以获取当前用户的数据,并且根据获取到的数据信息得到当前用户的组合特征。
其中,组合特征包括对应用户的用户特征以及对应用户的物品特征;序列特征用于指示对应用户依次执行的网络行为特征。
可选的,平台服务器获取该当前用户的用户数据,生成该当前用户的用户特征,平台服务器获取该当前用户的物品数据,生成该当前用户的物品特征,平台服务器根据该用户特征和该物品特征,生成该组合特征。
可选的,平台服务器将用户特征与物品特征两部分特征拼接组合,构造成<用户特征,物品特征>的组合特征形式之后,可以对特征进行数据预处理。
其中,数据预处理可以用来去除异常特征数据、单值特征数据或者是缺失较多的特征数据,同时也可以根据已知的特征数据获得衍生特征数据,扩增特征数据量。最后可以将增添完成的特征数据进行显示处理。
可选的,当获取到的若干个用户中的某个特征缺失值过多,平台服务器可以设置一个缺失值过滤阈值,自动过滤掉特征数量在缺失值过滤阈值以下的特征数据。
比如,平台服务器可以预先设定缺失值过滤阈值=样本数据量×0.4,假设样本数据为10,根据设定的阈值计算公式可以计算得到缺失值过滤阈值为4,则可以平台服务器过滤掉特征数据缺失数量大于4的特征。
其中,由于单值特征为只有一个数值的特征,因此单值特征没有计算的意义,所以平台服务器可以直接删除单值特征。
可选的,根据特征的分布,当平台服务器获取到的若干个用户中的某个用户的某个特征为该特征的所有特征数值中的异常值时,可以对该特征数据进行删除。
比如,某特征的特征数值处于该特征数值的前千分之一的异常值,则平台服务器可以舍弃该异常值。
可选的,若获取到的若干个用户中的某个特征具有少量缺失值,平台服务器可以对缺失部分进行处理。
其中,若特征为连续型特征,则可以用连续数据的均值进行填充;若特征为离散型特征,则可以用常数进行填充。
可选的,平台服务器直接获取的特征可以通过特征变换、特征平方或者特征加减中的至少一项进行特征组合和衍生,生成新的特征。
可选的,连续型特征可以进行分箱离散化,离散型特征可以进行one-hot(独热)编码。
步骤503,平台服务器可以通过序列模式挖掘Prefixspan算法,根据该当前用户的序列特征,以及各个样本用户的序列特征,确定该各个样本用户的共同序列模式以及该当前用户的最长共同序列模式。
在本公开实施例中,平台服务器可以先获取该各个样本用户的样本序列特征,然后根据该样本序列特征,确定该各个样本用户的样本序列模式,最后可以确定该各个样本用户的共同序列模式以及该当前用户的最长共同序列模式。
平台服务器可以根据样本用户的日常在平台上的操作,获取各个样本用户在平台上进行点击浏览留下的序列信息和从其他渠道触达到转化的一系列行为轨迹,可以用样本序列模式进行表示。
可选的,序列模式包括行为序列模式以及浏览序列模式中的至少一种。
其中,序列模式可以是有先后顺序的,可以通过将序列模式标记获得序列模式中用户的行为信息或者浏览信息。
比如,浏览序列模式可以通过如下述方式进行标记:若用户小明通过在A页面点击a button(按钮)进入到B页面,然后浏览一段时间后又点击b button进入到C页面;用户小李通过在A页面点击a button进入到B页面,然后浏览一段时间后又点击c button返回到A页面。那么用户小明的浏览序列可以标记为:AaBbC,用户小李的浏览序列可以标记为:AaBcA。
另外,行为序列模式可以用来表示用户从触达该平台到转化的一系列的行为轨迹,可以由一系列的行为标签构成行为序列信息,行为序列模式可以通过如下述方式进行标记:在购物平台的场景下,平台可以预先设定一份用户行为标签与用户行为编码的对应表,如表1所示,用户的购买行为标记为编码h,用户的添加购物车行为可以标记为编码g等,详细的编码对应关系可以参见表1。在该平台的场景下,若用户小明通过渠道进入该平台,然后进行注册和登录,在页面浏览一段时间后点击进入查看物品详情页,浏览一段时间后点击收藏按钮收藏物品,然后点击添加购物车购买物品。那么该用户的行为序列标签为:bcafgh。用户小李通过渠道进入该平台,然后进行注册和登录,在页面浏览一段时间后点击搜索特定商品,浏览后添加购物车,并且付款购买,购买后又添加收藏,那么该用户的行为序列标签为:bcdaghf。
行为标签 行为编码
购买行为 H
添加购物车行为 G
收藏行为 F
评论行为 E
搜索行为 D
登录行为 C
注册行为 B
浏览行为 A
表1
可选的,行为标签与标记编号的对应关系可以根据实际的应用场景以及行为类别进行标记,可以进行进一步的细化和改变。
另外,平台服务器可以使用多种不同的最小支持度阈值的方法,获得满足不同最小支持度阈值的各个长度的共同序列模式。
其中,最小支持度的计算方法可以如下述所示,
min_sup=a×n
其中,n为样本库中样本用户的数量,a为最小支持率参数。
可选的,最小支持率参数可以根据样本用户的数量进行调整。
可选的,Prefixspan算法的计算过程可以分为如下步骤:
1、平台服务器找出单位长度为1的用户序列前缀和对应的投影数据集。
2、统计序列前缀出现频率,并且将支持度高于最小支持度阈值的前缀添加到数据集,获取共同一项集时间序列模式。
3、对所有长度为i且满足最小支持度要求的前缀递归挖掘。挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归;统计对应投影数据集中各项的最小支持度,将满足支持度的各单项与当前缀合并,得到新前缀,不满足支持度要求则递归返回;令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行第3步。
4、返回该序列样本库中所有的共同序列模式。
比如,若用户小明的浏览序列可以标记为:AaBbC,用户小李的浏览序列可以标记为:AaBcA,并且平台服务器设定的最小支持度阈值为0.5时,满足该最小支持度阈值的一项前缀与其对应后缀可以如表2所示。
一项前缀 对应后缀
A aBbCaBcA
a BbCBcA
B bCcA
表2
其中,满足该最小支持度阈值的二项前缀与其对应后缀可以如表3所示。
二项前缀 对应后缀
Aa BbCBcA
aB bCcA
表3
其中,满足该最小支持度阈值的三项前缀与其对应后缀可以如表4所示。
Figure BDA0002434257610000171
Figure BDA0002434257610000181
表4
比如,若用户小明的行为序列可以标记为:bcafgh,用户小李的行为序列可以标记为:bcdaghf,并且平台服务器设定的最小支持度阈值为0.5时,满足该最小支持度阈值的一项前缀与其对应后缀可以如表5所示。
Figure BDA0002434257610000183
表5
其中,满足该最小支持度阈值的二项前缀与其对应后缀可以如表6所示。
Figure BDA0002434257610000184
表6
其中,满足该最小支持度阈值的三项前缀与其对应后缀可以如表7所示。
Figure BDA0002434257610000182
Figure BDA0002434257610000191
表7
其中,满足该最小支持度阈值的四项前缀与其对应后缀可以如表8所示。
Figure BDA0002434257610000192
表8
其中,满足该最小支持度阈值的五项前缀与其对应后缀可以如表9所示。
五项前缀 对应后缀
bcagh f
表9
可选的,根据上述方法确定当前用户的前缀最长的共同序列模式为最长共同序列模式。
步骤504,平台服务器可以根据该样本用户的共同序列模式以及非序列模式中的至少一种,确定该各个样本用户的样本权重。
其中,非序列模式为序列模式中除去该共同序列模式的部分,序列模式包括行为序列模式以及浏览序列模式中的至少一种。
其中,响应于根据该样本用户的共同序列模式,平台服务器确定该各个样本用户的样本权重可以根据该共同序列模式中的字段类型所占的频次,确定该字段类型的权重,然后平台服务器将该样本用户的该共同序列模式中包含的至少一种该字段类型的权重取平均值,确定该样本用户的样本权重。
比如,若字段类型“收藏行为f”出现的频次占比为0.7,平台服务器可以确定该字段类型加权权重为0.7;字段类型“浏览序列AaBcA”出现频次占比为0.56时,平台服务器可以确定该字段类型加权权重为0.56。平台服务器可以计算用户包含转化共同行为序列的字段类型平均权重作为该用户转化的样本权重。
其中,用户行为包含的转化共同行为序列模式可以如表10所示,平台服务器可以计算出该用户转化的样本权重为:(0.56+0.7)/2=0.63。
Figure BDA0002434257610000203
表10
可选的,平台服务器可以对序列模式中的各项共同前缀中都未出现的字段类型进行删除。
比如,当最小支持度阈值设置为0.5时,若某一字段的各种类型值的频次占比都小于最小支持度,则可以将该字段进行删除。
可选的,除了根据序列模式挖掘特征加权确定得到样本权重,平台服务器也可以通过与非序列模式一起确定样本权重。
其中,响应于根据该样本用户的共同序列模式非序列模式,确定该各个样本用户的样本权重,平台服务器可以根据具有非序列特征的样本用户数量以及该样本用户总数量,确定该各个样本用户的样本权重。
其中,非序列模式确定特征权重可以通过如下两种方式:
1、平台服务器可以将最小支持率a设置为非序列模式的特征权重。
其中,非序列模式的特征权重可能低于序列模式的特征权重。
2、平台服务器可以将非序列模式的特征权重通过特征出现的样本数量与总样本数量相除进行计算,即
Figure BDA0002434257610000201
其中,非序列模式的特征权重可能低于序列模式的特征权重。
可选的,当平台服务器获取到用户的序列模式特征权重与非序列模式特征权重时,可以将各个特征权重进行加权确定样本权重。
比如,当用户小红的特征为“AaBcAort”时,可以得到其中的序列模式特征为“AaBcA”,经过计算可以得到该序列模式特征权重为0.56,非序列模式特征为“ort”,非序列模式特征权重为0.5,那么用户样本权重可以计算为:(0.56*5+0.5*2)/(5+2)=0.54。
比如,按照上述方法可以计算得到各个用户样本的样本权重,部分样本权重如下表11所示。
Figure BDA0002434257610000202
Figure BDA0002434257610000211
表11
步骤505,平台服务器获取该样本用户中具有该最长共同序列模式的样本用户数量以及样本用户总数量。
在本公开实施例中,平台服务器可以通过序列模式挖掘算法,可以获取到具有最长共同序列模式的用户样本库中的样本用户数量以及用户样本库中样本用户总数量。
步骤506,平台服务器根据该具有最长共同序列模式的样本用户数量以及样本用户总数量,确定该当前用户的共同序列模式支持度,作为该当前用户对应的权重。
可选的,序列模式支持度可以用具有最长共同序列模式的样本用户数量以及样本用户总数量的比值进行计算。
步骤507,平台服务器根据该当前用户对应的权重、该当前用户的组合特征以及该各个样本用户的组合特征,对该当前用户以及该各个样本用户进行聚类,获得该当前用户的所属类别。
在本公开实施例中,平台服务器可以通过先将样本用户进行加权聚类然后获取当前用户的所属类别,或者,将样本用户和当前用户一起进行加权聚类然后获取当前用户的所述类别,以上的两种方式获得当前用户的所属类别。
可选的,当平台服务器通过先将样本用户进行加权聚类然后获取当前用户的所属类别时,平台服务器可以通过加权聚类算法,根据该各个样本用户的样本权重以及该各个样本用户的组合特征,确定该各个样本用户对应的各个该网络内容的聚类中心,然后根据该当前用户的组合特征以及该当前用户对应的权重,确定该当前用户与该各个聚类中心的距离,最后获得该当前用户的所属类别。
可选的,当将样本用户和当前用户一起进行加权聚类然后获取当前用户的所属类别时,平台服务器可以通过加权聚类算法,根据该各个样本用户的样本权重、该各个样本用户的组合特征、该当前用户对应的权重以及该当前用户的组合特征,确定与该当前用户属于同一类别的该样本用户。
其中,传统的聚类算法可以是基于划分的聚类,对各个样本在进行聚类计算时是同等对待的。
可选的,传统的聚类算法可以包括k均值聚类算法(k-meansclusteringalgorithm)或者期望最大化算法(Expectation Maximization Algorithm)。
其中,在不考虑样本权重的前提下,k均值聚类算法在准则函数收敛时结束聚类,准则函数的公式为:
Figure BDA0002434257610000221
其中,J表示为凝聚度,可以用来衡量聚类效果,k表示类簇的总数目,mi是类簇i中的成员总数,
Figure BDA0002434257610000222
为类簇i中的第j个成员;
Figure BDA0002434257610000223
为类簇i的中心向量,中心向量的计算公式为:
Figure BDA0002434257610000224
其中,
Figure BDA0002434257610000225
为文本
Figure BDA0002434257610000226
为类簇中心点
Figure BDA0002434257610000227
的相似度。
可选的,当考虑样本权重的前提下,可以利用向量夹角的余弦计算相似度。
其中,考虑样本加权的聚类算法,对样本加权后聚类的准则函数计算公式为:
Figure BDA0002434257610000231
其中,
Figure BDA0002434257610000232
为聚类样本加权后的类中心向量,计算公式为:
Figure BDA0002434257610000233
其中,wj为聚类样本i的权重,可以满足:
Figure BDA0002434257610000234
Figure BDA0002434257610000235
步骤508,平台服务器根据所述当前用户的所属类别,向所述当前用户推送网络内容。
在本公开实施例中,平台服务器可以通过获取聚类中心距离最短的类别对应的网络内容,或者获取转化率最高的网络内容作为推荐的网络内容。
可选的,平台服务器可以获取当前用户与该聚类中心距离取最小值对应的该网络内容,然后向该当前用户的终端推送该网络内容。或者,平台服务器也可以获取与该当前用户属于同一类别的该样本用户中,各个样本用户对应的各个网络内容的被推送占比,然后向该当前用户的终端推送目标网络内容。
其中,被推送占比是对应的网络内容被推送的次数,与向同一类别中的全部样本用户推送的网络内容的次数总和之间的比值,目标网络内容是各个样本用户对应的各个网络内容中,被推送占比最高的网络内容。
比如,在电子商务平台场景下,若平台服务器可以获取到与当前用户处于同一类别的样本用户有用户A和用户B,用户A对应推送物品a的次数为1次,推送物品b的次数为4次,用户B对应推送物品a的次数为2次,推送物品b的次数为1次,推送物品c的次数为2次,则可以得到物品a的占比为0.3,物品b的占比为0.5,物品c的占比为0.2,可以得到占比最高的为物品b。
其中,平台服务器可以通过如下两种方式获取推荐内容:
1、平台服务器可以通过历史转化用户样本特征进行聚类,得到各个内容偏好类别的聚类中心,内容偏好类别为每个类别中转化率占比最高的内容,对于当前用户,对当前用户特征进行序列模式加权后,计算该用户与每个内容偏好类别中心的距离,可以包括计算余弦距离,从而获取当前用户所属的最近的内容偏好类别,平台服务器对当前用户进行内容推荐。
2、平台服务器可以通过将当前用户与用户样本进行加权聚类,判断当前用户在所属类别中内容转化率的占比,将所属类别中转化率最高的内容推荐给当前用户。
可选的,平台服务器可以将推荐的网络内容发送到当前用户的终端进行显示。
综上所述,本公开实施例中提供的网络内容推送方法,首先服务器通过获取当前用户的组合特征以及序列特征,结合该当前用户的序列特征,以及各个样本用户的序列特征,获取该当前用户对应的权重,然后根据该当前用户对应的权重、该当前用户的组合特征以及该各个样本用户的组合特征,对该当前用户以及该各个样本用户进行聚类,获得该当前用户的所属类别,最后根据该当前用户的所属类别,向该当前用户推送网络内容。通过上述方案,云服务器可以经过云计算对当前用户和样本用户按照行为序列进行挖掘,以确定当前用户的权重,并基于权重进行聚类,并根据聚类结果实现个性化的推荐相关网络内容,从而在保证了内容推荐准确的前提下,提高了推荐网络内容预测的效率。
图6是根据一示例性实施例示出的网络内容推送装置的结构方框图。该网络内容推送装置可以通过硬件或者软硬结合的方式实现为服务器中的全部或者部分,以执行图4或图5对应实施例所示的方法的全部或部分步骤。该网络内容推送装置可以包括:
特征获取模块610,用于获取当前用户的组合特征以及序列特征,所述组合特征包括对应用户的用户特征以及对应用户的物品特征;所述序列特征用于指示对应用户依次执行的网络行为特征;
权重获取模块620,用于结合所述当前用户的序列特征,以及各个样本用户的序列特征,获取所述当前用户对应的权重;
类别获取模块630,用于根据所述当前用户对应的权重、所述当前用户的组合特征以及所述各个样本用户的组合特征,对所述当前用户以及所述各个样本用户进行聚类,获得所述当前用户的所属类别;
内容推送模块640,用于根据所述当前用户的所属类别,向所述当前用户推送网络内容。
在一种可能的实现方式中,所述权重获取模块620,包括:
共同模式确定子模块,用于通过序列模式挖掘算法,根据所述当前用户的序列特征,以及各个样本用户的序列特征,确定所述各个样本用户的共同序列模式以及所述当前用户的最长共同序列模式;
数量获取子模块,用于获取所述各个样本用户中具有所述最长共同序列模式的样本用户数量以及样本用户总数量;
权重确定子模块,用于根据所述具有最长共同序列模式的样本用户数量以及样本用户总数量,确定所述当前用户的共同序列模式支持度,作为所述当前用户对应的权重。
在一种可能的实现方式中,所述权重获取模块620,还包括:
样本权重确定子模块,用于根据所述样本用户的共同序列模式,确定所述各个样本用户的样本权重,所述序列模式包括行为序列模式以及浏览序列模式中的至少一种。
在一种可能的实现方式中,所述样本权重确定子模块,包括:
权重确定单元,用于根据所述共同序列模式中的字段类型所占的频次,确定所述字段类型的权重;
样本权重确定单元,用于将所述样本用户的所述共同序列模式中包含的至少一种所述字段类型的权重取平均值,确定所述样本用户的样本权重;
在一种可能的实现方式中,所述类别获取模块630,包括:
聚类中心确定子模块,用于通过加权聚类算法,根据所述各个样本用户的样本权重以及所述各个样本用户的组合特征,确定所述各个样本用户对应的各个所述网络内容的聚类中心;
距离确定子模块,用于根据所述当前用户的组合特征以及所述当前用户对应的权重,确定所述当前用户与所述各个聚类中心的距离;
第一类别获取子模块,用于根据所述当前用户与所述各个聚类中心的距离,获得所述当前用户的所属类别。
在一种可能的实现方式中,所述类别获取模块630,包括:
样本用户确定子模块,用于通过加权聚类算法,根据所述各个样本用户的样本权重、所述各个样本用户的组合特征、所述当前用户对应的权重以及所述当前用户的组合特征,确定与所述当前用户属于同一类别的所述样本用户;
第二类别获取子模块,用于将与所述当前用户属于同一类别的所述样本用户对应的所属类别,获取为所述当前用户的所属类别。
在一种可能的实现方式中,所述内容推送模块640,包括:
第一内容获取子模块,用于获取当前用户与所述各个聚类中心的距离的最小值对应的所述网络内容;
第一内容推送子模块,用于向所述当前用户的终端推送所述网络内容。
在一种可能的实现方式中,所述内容推送模块640,包括:
第二内容获取子模块,用于获取与所述当前用户属于同一类别的所述样本用户中,所述各个样本用户对应的各个网络内容的被推送占比,所述被推送占比是对应的网络内容被推送的次数,与向所述同一类别中的全部所述样本用户推送的网络内容的次数总和之间的比值;
第二内容推送子模块,用于向所述当前用户的终端推送目标网络内容,所述目标网络内容是所述各个样本用户对应的各个网络内容中,被推送占比最高的网络内容。
在一种可能的实现方式中,所述特征获取模块610,包括:
用户特征获取子模块,用于获取所述当前用户的用户数据,生成所述当前用户的用户特征;
物品特征获取子模块,用于获取所述当前用户的物品数据,生成所述当前用户的物品特征;
组合特征生成子模块,用于根据所述用户特征和所述物品特征,进行特征处理生成所述组合特征。
在一种可能实现的方式中,所述装置还包括:
样本库构建模块,用于获取转化用户作为样本用户,构建用户样本库,所述转化用户用于指示具有实际转化的用户。
在一种可能实现的方式中,所述装置还包括:
样本特征获取模块,用于结合所述当前用户的序列特征,以及各个样本用户的序列特征,获取所述当前用户对应的权重之前,获取所述各个所述样本用户的样本序列特征;
样本序列模式确定模块,用于根据所述样本序列特征,确定所述各个所述样本用户的样本序列模式。
综上所述,本公开实施例中提供的网络内容推送方法,首先服务器通过获取当前用户的组合特征以及序列特征,结合该当前用户的序列特征,以及各个样本用户的序列特征,获取该当前用户对应的权重,然后根据该当前用户对应的权重、该当前用户的组合特征以及该各个样本用户的组合特征,对该当前用户以及该各个样本用户进行聚类,获得该当前用户的所属类别,最后根据该当前用户的所属类别,向该当前用户推送网络内容。通过上述方案,云服务器可以经过云计算对当前用户和样本用户按照行为序列进行挖掘,以确定当前用户的权重,并基于权重进行聚类,并根据聚类结果实现个性化的推荐相关网络内容,从而在保证了内容推荐准确的前提下,提高了推荐网络内容预测的效率。
图7是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备700包括中央处理单元(Central Processing Unit,CPU)701、包括随机存取存储器(Random Access Memory,RAM)702和只读存储器(Read-Only Memory,ROM)703的***存储器704,以及连接***存储器704和中央处理单元701的***总线705。所述计算机设备700还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出***(Input/Output,I/O***)706,和用于存储操作***713、应用程序714和其他程序模块715的大容量存储设备707。
所述基本输入/输出***706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中所述显示器708和输入设备709都通过连接到***总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出***706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备707通过连接到***总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备707及其相关联的计算机设备可读介质为计算机设备700提供非易失性存储。也就是说,所述大容量存储设备707可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的***存储器704和大容量存储设备707可以统称为存储器。
根据本公开的各种实施例,所述计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备700可以通过连接在所述***总线705上的网络接口单元711连接到网络712,或者说,也可以使用网络接口单元711来连接到其他类型的网络或远程计算机设备***(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器701通过执行该一个或一个以上程序来实现图4或图5所示的方法的全部或者部分步骤。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本公开实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机设备可读介质中或者作为计算机设备可读介质上的一个或多个指令或代码进行传输。计算机设备可读介质包括计算机设备存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机设备程序的任何介质。存储介质可以是通用或专用计算机设备能够存取的任何可用介质。
本公开实施例还提供了一种计算机设备存储介质,用于储存为上述测试装置所用的计算机设备软件指令,其包含用于执行上述网络内容推送方法所设计的程序。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (15)

1.一种网络内容推送方法,其特征在于,所述方法包括:
获取当前用户的组合特征以及序列特征,所述组合特征包括对应用户的用户特征以及对应用户的物品特征;所述序列特征用于指示对应用户依次执行的网络行为特征;
结合所述当前用户的序列特征,以及各个样本用户的序列特征,获取所述当前用户对应的权重;
根据所述当前用户对应的权重、所述当前用户的组合特征以及所述各个样本用户的组合特征,对所述当前用户以及所述各个样本用户进行聚类,获得所述当前用户的所属类别;
根据所述当前用户的所属类别,向所述当前用户推送网络内容。
2.根据权利要求1所述的方法,其特征在于,所述结合所述当前用户的序列特征,以及各个样本用户的序列特征,获取所述当前用户对应的权重,包括:
通过序列模式挖掘算法,根据所述当前用户的序列特征,以及各个样本用户的序列特征,确定所述各个样本用户的共同序列模式以及所述当前用户的最长共同序列模式;
获取所述各个样本用户中具有所述最长共同序列模式的样本用户数量以及样本用户总数量;
根据所述具有最长共同序列模式的样本用户数量以及样本用户总数量,确定所述当前用户的共同序列模式支持度,作为所述当前用户对应的权重。
3.根据权利要求2所述的方法,其特征在于,所述获取所述样本用户中具有所述最长共同序列模式的样本用户数量以及样本用户总数量之前,还包括:
根据所述样本用户的共同序列模式,确定所述各个样本用户的样本权重,所述序列模式包括行为序列模式以及浏览序列模式中的至少一种。
4.根据权利要求3所述的方法,其特征在于,所述根据所述样本用户的共同序列模式,确定所述各个样本用户的样本权重,包括:
根据所述共同序列模式中的字段类型所占的频次,确定所述字段类型的权重;
将所述样本用户的所述共同序列模式中包含的至少一种所述字段类型的权重取平均值,确定所述样本用户的样本权重。
5.根据权利要求1所述的方法,其特征在于,所述根据所述当前用户对应的权重、所述当前用户的组合特征以及所述各个样本用户的组合特征,对所述当前用户以及所述各个样本用户进行聚类,获得所述当前用户的所属类别,包括:
通过加权聚类算法,根据所述各个样本用户的样本权重以及所述各个样本用户的组合特征,确定所述各个样本用户对应的各个所述网络内容的聚类中心;
根据所述当前用户的组合特征以及所述当前用户对应的权重,确定所述当前用户与所述各个聚类中心的距离;
根据所述当前用户与所述各个聚类中心的距离,获得所述当前用户的所属类别。
6.根据权利要求1所述的方法,其特征在于,所述根据所述当前用户对应的权重、所述当前用户的组合特征以及所述各个样本用户的组合特征,对所述当前用户以及所述各个样本用户进行聚类,获得所述当前用户的所属类别,包括:
通过加权聚类算法,根据所述各个样本用户的样本权重、所述各个样本用户的组合特征、所述当前用户对应的权重以及所述当前用户的组合特征,确定与所述当前用户属于同一类别的所述样本用户;
将与所述当前用户属于同一类别的所述样本用户对应的所属类别,获取为所述当前用户的所属类别。
7.根据权利要求5所述的方法,其特征在于,所述根据所述当前用户的所属类别,向所述当前用户推送网络内容,包括:
获取当前用户与所述各个聚类中心的距离的最小值对应的所述网络内容;
向所述当前用户的终端推送所述网络内容。
8.根据权利要求5或6所述的方法,其特征在于,所述根据所述当前用户的所属类别,向所述当前用户推送网络内容,包括:
获取与所述当前用户属于同一类别的所述样本用户中,所述各个样本用户对应的各个网络内容的被推送占比,所述被推送占比是对应的网络内容被推送的次数,与向所述同一类别中的全部所述样本用户推送的网络内容的次数总和之间的比值;
向所述当前用户的终端推送目标网络内容,所述目标网络内容是所述各个样本用户对应的各个网络内容中,被推送占比最高的网络内容。
9.根据权利要求1所述的方法,其特征在于,所述获取当前用户的组合特征以及序列特征,所述组合特征包括对应用户的用户特征以及对应用户的物品特征;所述序列特征用于指示对应用户依次执行的网络行为特征,包括:
获取所述当前用户的用户数据,生成所述当前用户的用户特征;
获取所述当前用户的物品数据,生成所述当前用户的物品特征;
根据所述用户特征和所述物品特征,进行特征处理生成所述组合特征。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取转化用户作为样本用户,构建用户样本库,所述转化用户用于指示具有实际转化的用户。
11.根据权利要求1所述的方法,其特征在于,所述结合所述当前用户的序列特征,以及各个样本用户的序列特征,获取所述当前用户对应的权重之前,还包括:
获取所述各个样本用户的样本序列特征;
根据所述样本序列特征,确定所述各个样本用户的样本序列模式。
12.一种网络内容推送装置,其特征在于,所述装置包括:
特征获取模块,用于获取当前用户的组合特征以及序列特征,所述组合特征包括对应用户的用户特征以及对应用户的物品特征;所述序列特征用于指示对应用户依次执行的网络行为特征;
权重获取模块,用于结合所述当前用户的序列特征,以及各个样本用户的序列特征,获取所述当前用户对应的权重;
类别获取模块,用于根据所述当前用户对应的权重、所述当前用户的组合特征以及所述各个样本用户的组合特征,对所述当前用户以及所述各个样本用户进行聚类,获得所述当前用户的所属类别;
内容推送模块,用于根据所述当前用户的所属类别,向所述当前用户推送网络内容。
13.根据权利要求12所述的装置,所述权重获取模块,包括:
共同模式确定子模块,用于通过序列模式挖掘算法,根据所述当前用户的序列特征,以及各个样本用户的序列特征,确定所述各个样本用户的共同序列模式以及所述当前用户的最长共同序列模式;
数量获取子模块,用于获取所述各个样本用户中具有所述最长共同序列模式的样本用户数量以及样本用户总数量;
权重确定子模块,用于根据所述具有最长共同序列模式的样本用户数量以及样本用户总数量,确定所述当前用户的共同序列模式支持度,作为所述当前用户对应的权重。
14.一种计算机设备,其特征在于,计算机设备包含处理器和存储器,所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的网络内容推送方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的网络内容推送方法。
CN202010247149.5A 2020-03-31 2020-03-31 网络内容推送方法、装置及存储介质 Active CN111460300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010247149.5A CN111460300B (zh) 2020-03-31 2020-03-31 网络内容推送方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010247149.5A CN111460300B (zh) 2020-03-31 2020-03-31 网络内容推送方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111460300A true CN111460300A (zh) 2020-07-28
CN111460300B CN111460300B (zh) 2023-04-25

Family

ID=71682409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010247149.5A Active CN111460300B (zh) 2020-03-31 2020-03-31 网络内容推送方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111460300B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000863A (zh) * 2020-08-14 2020-11-27 北京百度网讯科技有限公司 用户行为数据的分析方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054040A1 (en) * 2010-08-30 2012-03-01 Abraham Bagherjeiran Adaptive Targeting for Finding Look-Alike Users
CN106021305A (zh) * 2016-05-05 2016-10-12 北京邮电大学 一种模式与偏好感知的poi推荐方法及***
CN106778876A (zh) * 2016-12-21 2017-05-31 广州杰赛科技股份有限公司 基于移动用户轨迹相似性的用户分类方法和***
CN108076154A (zh) * 2017-12-21 2018-05-25 广东欧珀移动通信有限公司 应用信息推荐方法、装置及存储介质和服务器
CN110827044A (zh) * 2018-08-07 2020-02-21 北京京东尚科信息技术有限公司 提取用户兴趣模式的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054040A1 (en) * 2010-08-30 2012-03-01 Abraham Bagherjeiran Adaptive Targeting for Finding Look-Alike Users
CN106021305A (zh) * 2016-05-05 2016-10-12 北京邮电大学 一种模式与偏好感知的poi推荐方法及***
CN106778876A (zh) * 2016-12-21 2017-05-31 广州杰赛科技股份有限公司 基于移动用户轨迹相似性的用户分类方法和***
CN108076154A (zh) * 2017-12-21 2018-05-25 广东欧珀移动通信有限公司 应用信息推荐方法、装置及存储介质和服务器
CN110827044A (zh) * 2018-08-07 2020-02-21 北京京东尚科信息技术有限公司 提取用户兴趣模式的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THANH TRAN等: "regularizing matrix factorization with user and item embeddings for recommendation", 《PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE》 *
都奕冰等: "融合项目嵌入表征与注意力机制的推荐算法", 《计算机工程与设计》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000863A (zh) * 2020-08-14 2020-11-27 北京百度网讯科技有限公司 用户行为数据的分析方法、装置、设备和介质
CN112000863B (zh) * 2020-08-14 2024-04-09 北京百度网讯科技有限公司 用户行为数据的分析方法、装置、设备和介质

Also Published As

Publication number Publication date
CN111460300B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
Mao et al. Multiobjective e-commerce recommendations based on hypergraph ranking
CN111259263B (zh) 一种物品推荐方法、装置、计算机设备及存储介质
Lu et al. BizSeeker: a hybrid semantic recommendation system for personalized government‐to‐business e‐services
CN110222272A (zh) 一种潜在客户挖掘与推荐方法
KR101419504B1 (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
CN109359244A (zh) 一种个性化信息推荐方法和装置
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和***
CN106327227A (zh) 一种信息推荐***及信息推荐方法
WO2018040069A1 (zh) 信息推荐***及方法
CN112632405B (zh) 一种推荐方法、装置、设备及存储介质
CN111310032B (zh) 资源推荐方法、装置、计算机设备及可读存储介质
CN111400613A (zh) 物品推荐方法、装置、介质及计算机设备
CN111429161A (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN113052653A (zh) 一种金融产品内容推荐方法、***及计算机可读存储介质
CN104050243A (zh) 一种将搜索与社交相结合的网络搜索方法及其***
Sun et al. Leveraging friend and group information to improve social recommender system
CN114266443A (zh) 数据评估方法和装置、电子设备、存储介质
CN109190027A (zh) 多源推荐方法、终端、服务器、计算机设备、可读介质
CN115423555A (zh) 一种商品推荐方法、装置、电子设备及存储介质
KR102238438B1 (ko) 규격화된 광고상품을 이용한 광고상품거래 서비스 제공 시스템
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN116823410A (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN111460300B (zh) 网络内容推送方法、装置及存储介质
Wu et al. [Retracted] Using the Mathematical Model on Precision Marketing with Online Transaction Data Computing
Sun Music Individualization Recommendation System Based on Big Data Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40026286

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant