CN110110233B - 信息处理方法、装置、介质和计算设备 - Google Patents
信息处理方法、装置、介质和计算设备 Download PDFInfo
- Publication number
- CN110110233B CN110110233B CN201910388205.4A CN201910388205A CN110110233B CN 110110233 B CN110110233 B CN 110110233B CN 201910388205 A CN201910388205 A CN 201910388205A CN 110110233 B CN110110233 B CN 110110233B
- Authority
- CN
- China
- Prior art keywords
- information
- recommended
- pieces
- user
- click rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施方式提供了一种信息处理方法。该方法包括:获取用户的用户信息;根据所述用户信息,获取多个待推荐信息,其中所述多个待推荐信息包括具有预排序信息的第一待推荐信息;以及根据所述第一待推荐信息的预排序信息、所述用户信息及所述多个待推荐信息,采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率。本发明的方法由于在确定第一待推荐信息的预测点击率时,同时考虑了该第一待推荐模型的预排序信息,因此可以提高得到的预测点击率的准确性,以利于提高信息推荐的准确性和推荐效果。此外,本发明的实施方式还提供了一种信息处理装置、介质和计算设备。
Description
技术领域
本发明的实施方式涉及信息推荐领域,更具体地,本发明的实施方式涉及一种信息处理方法、装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
信息推荐的主要工作是解决信息过载的问题,即从大量的信息中筛选出少量用户感兴趣的信息。通常的信息推荐大致包括召回和排序两个阶段。其中,召回阶段具体即为自服务器存储的海量信息中挑选出用户感兴趣的部分信息。排序阶段即为对召回阶段挑选出的部分信息进行排序。
其中召回阶段可以采用规则召回方法和模型召回方法。规则召回例如可以是基于人工规则进行信息的挑选;而模型召回是采用计算模型来进行信息的挑选。通常,采用模型召回挑选得到的多个待推荐信息都有预排序信息。而在排序阶段采用的推荐算法模型往往不能吸收该多个待推荐信息的预排序信息。即排序阶段往往无法考虑预排序信息,这会使得基于推荐算法模型建立的推荐***的推荐性能有一定的折损。
发明内容
因此在现有技术中,采用现有的信息推荐方法来向用户推荐信息时,由于无法考虑获取的待推荐信息的预排序信息,因此存在预测的待推荐信息的点击率准确率低,信息推荐效果差的缺陷。
为此,非常需要一种改进的信息处理方法,以提高确定的预测点击率的准确率,提高信息推荐效果。
在本上下文中,本发明的实施例期望能够提供一种信息处理方法,能够在获取信息的预测点击率时考虑待推荐信息的预排序信息,从而提高确定的预测点击率的准确率。
本发明实施方式的第一方面中,提供了一种信息处理方法,包括:获取用户的用户信息;根据所述用户信息,获取多个待推荐信息,其中所述多个待推荐信息包括具有预排序信息的第一待推荐信息;以及根据所述第一待推荐信息的预排序信息、所述用户信息及所述多个待推荐信息,采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率。
在本发明的一个实施例中,上述多个待推荐信息包括多个第一待推荐信息,上述采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率包括:根据所述多个第一待推荐信息的预排序信息,将所述多个第一待推荐信息划分到至少一个信息区间,得到与所述多个第一待推荐信息一一对应的多个区间信息,所述多个区间信息用于表征所述多个第一待推荐信息所属的信息区间;根据所述多个第一待推荐信息及所述多个区间信息,得到与所述多个第一待推荐信息一一对应的多个第一输入信息,所述第一输入信息由一个第一待推荐信息及与所述一个第一待推荐信息对应的区间信息拼接得到;以及将所述用户信息、所述多个待推荐信息中除所述第一待推荐信息外的其他待推荐信息及所述多个第一输入信息输入所述点击率预测模型,获取与所述多个待推荐信息一一对应的多个预测点击率。
在本发明的另一个实施例中,将所述多个第一待推荐信息划分到至少一个信息区间包括:根据所述多个第一待推荐信息的预排序信息,采用基于熵的离散化方法将所述多个第一待推荐信息划分到至少一个信息区间。
在本发明的又一个实施例中,上述信息处理方法还包括:获取多个样本数据,所述多个样本数据中的至少一个样本数据包括已推荐信息、与所述已推荐信息对应的区间信息、所述已推荐信息的被点击信息及所述用户信息,所述已推荐信息的被点击信息用于表征所述已推荐信息是否被所述用户点击;以及以所述多个样本数据作为所述点击率预测模型的输入,采用预定优化算法优化训练所述点击率预测模型。其中,所述点击率预测模型包括逻辑回归模型、决策树模型或梯度提升树模型。
在本发明的再一个实施例中,根据所述用户信息,获取多个待推送信息包括:根据所述用户信息,采用召回模型获取所述多个第一待推荐信息;以及所述第一输入信息由一个第一待推荐信息、与所述一个第一待推荐信息对应的区间信息及所述一个第一待推荐信息的来源信息拼接得到,所述来源信息用于表征获取第一待推荐信息采用的召回模型。其中,所述召回模型包括矩阵分解召回模型、协同过滤召回模型和神经网络召回模型中的至少一个。
在本发明的再一个实施例中,上述多个待推荐信息还包括第二待推荐信息,所述根据所述用户信息,获取多个待推送信息还包括:根据预定召回规则,获取所述第二待推荐信息。所述预定召回规则包括:热点召回规则、地域召回规则和突发事件召回规则中的至少一个。
在本发明的再一个实施例中,在获取所述多个预测点击率之前,所述信息处理方法还包括:根据所述用户信息及所述多个待推荐信息,确定所述用户信息与所述多个待推荐信息的交叉信息;以及获取所述多个预测点击率包括:根据所述第一待推荐信息的预排序信息、所述用户信息、所述多个待推荐信息及所述交叉信息,采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率。
在本发明的再一个实施例中,上述信息处理方法还包括:根据所述多个预测点击率,向所述用户推荐待推荐信息,包括:将所述多个待推荐信息根据一一对应的预测点击率的大小依次排序;以及向所述用户推荐排在预定位置的待推荐信息。
在本发明实施方式的第二方面中,提供了一种信息处理装置,包括:用户信息获取模块,用于获取用户的用户信息;推荐信息获取模块,用于根据所述用户信息,获取多个待推荐信息,其中所述多个待推荐信息包括具有预排序信息的第一待推荐信息;以及点击率获取模块,用于根据所述第一待推荐信息的预排序信息、所述用户信息及所述多个待推荐信息,采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率。
在本发明的一个实施例中,上述多个待推荐信息包括多个第一待推荐信息,所述点击率获取模块包括:信息区间划分子模块,用于根据所述多个第一待推荐信息的预排序信息,将所述多个第一待推荐信息划分到至少一个信息区间,得到与所述多个第一待推荐信息一一对应的多个区间信息,所述多个区间信息用于表征所述多个第一待推荐信息所属的信息区间;第一输入信息获取子模块,用于根据所述多个第一待推荐信息及所述多个区间信息,得到与所述多个第一待推荐信息一一对应的多个第一输入信息,所述第一输入信息由一个第一待推荐信息及与所述一个第一待推荐信息对应的区间信息拼接得到;以及预测点击率获取子模块,用于将所述用户信息、所述多个待推荐信息中除所述第一待推荐信息外的其他待推荐信息及所述多个第一输入信息输入所述点击率预测模型,获取与所述多个待推荐信息一一对应的多个预测点击率。
在本发明的另一个实施例中,上述信息区间划分子模块具体用于:根据所述多个第一待推荐信息的预排序信息,采用基于熵的离散化方法将所述多个第一待推荐信息划分到至少一个信息区间。
在本发明的又一个实施例中,上述信息处理装置还包括:样本数据获取模块,用于获取多个样本数据,所述多个样本数据中的至少一个样本数据包括已推荐信息、与所述已推荐信息对应的区间信息、所述已推荐信息的被点击信息及所述用户信息,所述已推荐信息的被点击信息用于表征所述已推荐信息是否被所述用户点击;预测模型优化模块,用于以所述多个样本数据作为所述点击率预测模型的输入,采用预定优化算法优化训练所述点击率预测模型。其中,所述点击率预测模型包括逻辑回归模型、决策树模型或梯度提升树模型。
在本发明的再一个实施例中,所述推荐信息获取模块包括第一信息获取子模块:用于根据所述用户信息,采用召回模型获取所述多个第一待推荐信息。所述第一输入信息由一个第一待推荐信息、与所述一个第一待推荐信息对应的区间信息及所述一个第一待推荐信息的来源信息拼接得到,所述来源信息用于表征获取第一待推荐信息采用的召回模型。其中,所述召回模型包括矩阵分解召回模型、协同过滤召回模型和神经网络召回模型中的至少一个。
在本发明的再一个实施例中,所述多个待推荐信息还包括第二待推荐信息,所述推荐信息获取模块还包括第二信息获取子模块,用于根据预定召回规则,获取所述第二待推荐信息。其中,所述预定召回规则包括:热点召回规则、地域召回规则和突发事件召回规则中的至少一个。
在本发明的再一个实施例中,所述信息处理装置还包括:交叉信息确定模块,用于在所述点击率获取模块获取所述多个预测点击率之前,根据所述用户信息及所述多个待推荐信息,确定所述用户信息与所述多个待推荐信息的交叉信息。所述点击率获取模块具体用于:根据所述第一待推荐信息的预排序信息、所述用户信息、所述多个待推荐信息及所述交叉信息,采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率。
在本发明的再一个实施例中,上述信息处理装置还包括信息推荐模块,用于根据所述多个预测点击率,向所述用户推荐待推荐信息。具体地,所述信息推荐模块包括:信息排序子模块,用于将所述多个待推荐信息根据一一对应的预测点击率的大小依次排序;以及信息推荐子模块,用于向所述用户推荐排在预定位置的待推荐信息。
在本发明实施方式的第三方面中,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令在被处理器执行时使处理器执行根据本发明实施方式的第一方面所提供的信息处理方法。
在本发明实施方式的第四方面中,提供了一种计算设备。该计算设备包括存储有可执行指令的一个或多个存储器,以及一个或多个处理器。该处理器执行该可执行指令,用以实现根据本发明实施方式的第一方面所提供的信息处理方法。
根据本发明实施方式的信息处理方法、装置、介质和计算设备,在采用点击率预测模型预测待推荐信息的点击率时,能够考虑第一待推荐信息的预排序信息,从而可以丰富点击率预测时的考虑因素,提高得到的预测点击率的准确性。因此可以提高根据预测点击率进行信息推荐的推荐效果,提高用户体验。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性示出了根据本发明实施方式的信息处理方法、装置、介质和计算设备的应用场景;
图2示意性示出了根据本发明第一实施例的信息处理方法的流程图;
图3A示意性示出了根据本发明第二实施例的信息处理方法的流程图;
图3B示意性示出了根据多个预测点击率向用户推荐信息的流程图;
图4示意性示出了根据本发明实施例的获取与待推荐信息对应的预测点击率的流程图;
图5示意性示出了根据本发明第三实施例的信息处理方法的流程图;
图6示意性示出了根据本发明第四实施例的信息处理方法的流程图;
图7示意性示出了根据本发明一实施例的信息处理方法的流程架构图;
图8示意性示出了根据本发明一实施例的信息处理装置的方框图;
图9示意性示出了根据本发明一实施例的适于执行信息处理方法的程序产品的示意图;以及
图10示意性示出了根据本发明一实施例的适于执行信息处理方法的计算设备的框图。
在附图中,相同或相应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种信息处理方法、装置、介质和计算设备。
在本文中,需要理解的是,所涉及的术语解释如下:
逻辑回归(Logistic Regression),是一种用于解决分类问题的机器学习方法,用于估计某种事物的可能性。比如某广告被用户点击的可能性等。这里用的是“可能性”,而非数学上的“概率”。逻辑回归的结果并非数学定义中的概率值,不可以直接当作概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘。逻辑回归与线性回归(LinearRegression)都是一种广义线性模型(generalized linear model)。逻辑回归假设因变量v服从伯努利分布,而线性回归假设因变量y服从高斯分布。因此与线性回归有很多相同之处,去除Sigmoid映射函数的话,逻辑回归算法就是一个线性回归。可以说,逻辑回归是以线性回归为理论支持的,但是逻辑回归通过Sigmoid函数引入了非线性因素,因此可以轻松处理分类问题。
点击率(Click-through Rate,CTR),指网站或者应用程序上指定内容被点击次数和曝光次数之比,点击率通常是推荐***中衡量推荐效果的重要指标。
矩阵分解(Matrix Factorization,MF),将矩阵拆解为若干个矩阵的乘积,该矩阵分解可以包括三角分解、满秩分解、QR(正交三角)分解、Jordan分解和奇异值分解(Singular Value Decomposition,SVD)等分解方法,其中,常见的矩阵分解方法包括:三角分解、QR分解和奇异值分解。
协同过滤(Collaborative Filtering,CF),简单来说是利用兴趣相投、拥有共同经验的群体的喜好来向用户推荐感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的,进而帮助别人筛选信息。其中,回应不一定局限于特别感兴趣的,特别不感兴趣信息的回应纪录也相当重要。协同过滤又可分为评比(rating)和群体过滤(social filtering)。
神经网络,一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。神经网络包含:输入层、隐藏层、输出层,设计网络时,输入层和输出层节点数固定,隐藏层可自由指定。每层由神经元组成,神经元是一个包含输入、输出与计算功能的模型。
MDLP(Minimal description length principle,最短描述长度原则)特征离散化:应用于连续特征的监督离散化方法,采用信息增益的方式寻找数据分割点。
此外,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
在采用召回模型获取的待推荐信息中,预排序信息能够在一定程度上表征用户对待推荐信息的感兴趣程度。而现有技术中在排序阶段确定待推荐信息的预测点击率时,往往未能考虑预排序信息。因此在根据排序阶段的排序结果进行信息推荐时,无疑会由于排序时遗失了预排序信息,使得推荐效率不理想,推荐***的性能低下。本发明人发现,若通过融合方法将召回模型与点击率预测模型融合,则可以在预测点击率时,有效考虑待推荐信息的预排序信息,并因此提高点击率预测准确率,提高信息推荐效果。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1。
图1示意性示出了根据本发明实施方式的信息处理方法、装置、介质和计算设备的应用场景。需要注意的是,图1所示仅为可以应用本发明实施例的应用场景的实例,以帮助本领域技术人员理解本发明的技术内容,但并不意味着本发明实施例不可以用于其他设备、***、环境或场景。
如图1所示,该应用场景100包括有终端设备111、112、113、网络120和数据库130。网络120用以在终端设备111、112、113和数据库130之间提供通信链路的介质。网络120可以包括各种连接类型,例如无线通信链路或者光纤电缆等等。
终端设备111、112、113可以响应于用户的操作,通过网络120与数据库130交互,以获取向用户推荐的待推荐信息。终端设备111、112、113上可以安装有各种客户端应用,例如网页浏览器应用、新闻浏览类应用、搜索类应用、社交平台软件等(仅为示例)。
终端设备111、112、113可以是具有显示屏并且支持网页浏览的各种电子设备,以向用户展示推荐信息。该终端设备111、112、113包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
终端设备111、112、113例如还可以具有处理功能,以用于对从数据库130中获取的待推荐信息进行处理,得到待推荐信息的预测点击率;并根据预测点击率对待推荐信息进行排序,以根据排序结果向用户推荐用户感兴趣的信息。
根据本发明的实施例,如图1所示,该应用场景100例如还可以包括服务器140。该服务器140可以是提供各种服务的服务器,例如对终端设备111、112、113推荐给用户的信息提供支持的后台管理服务器(仅为示例)。相应地,数据库130例如可以为集成于服务器140中的数据库。
根据本发明的实施例,该服务器140例如还可以响应于终端设备111、112、113的请求,对待推荐信息进行处理,得到待推荐信息的预测点击率。并根据预测点击率对待推荐信息进行排序,以根据排序结果确定需要推荐的信息。最终将需要推荐的信息反馈给终端设备111、112、113供终端设备展示给用户。
需要说明的是,本公开实施例所提供的信息处理方法一般可以由终端设备111、112、113或服务器140执行。相应地,本发明实施例所提供的信息处理装置一般可以设置于终端设备111、112、113或服务器140中。本发明实施例所提供的信息处理方法也可以由不同于服务器140且能够与终端设备111、112、113和/或服务器140通信的服务器或服务器集群执行。相应地,本发明实施例所提供的信息处理装置也可以设置于不同于服务器140且能够与终端设备111、112、113和/或服务器140通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络、服务器、数据库的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备、网络、服务器和数据库。
示例性方法
下面结合图1的应用场景,参考图2~7来描述根据本发明示例性实施方式的信息处理方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图2示意性示出了根据本发明第一实施例的信息处理方法的流程图。
如图2所示,根据本发明第一实施例的信息处理方法包括操作S210~操作S230。该信息处理方法例如可以由参考图1中的终端设备111、112、113或者服务器140执行。该操作S210~操作S230具体可以用于实现信息推荐***的信息召回阶段中信息的召回和排序阶段中点击率的预测。
在操作S210,获取用户的用户信息。
根据本发明的实施例,该操作S210具体例如可以是:根据用户登录终端设备中安装的应用程序时输入的账户信息,从服务器或数据库中获取与账户信息对应的用户信息。该用户信息例如可以包括用户基本信息(年龄、性别)和/或用户喜好信息(可以是预先选择的信息类型:体育、财经和/或娱乐等)等。
在操作S220,根据所述用户信息,获取多个待推荐信息,该多个待推荐信息包括具有预排序信息的第一待推荐信息。
根据本发明的实施例,操作S220中获取第一待推荐信息的操作例如可以为:根据用户信息,采用召回模型获取第一待推荐信息。其中,召回模型例如可以包括矩阵分解召回模型、协同过滤召回模型和/或神经网络召回模型等。采用召回模型获取第一待推荐信息具体可以包括:将用户信息作为召回模型的输入,采用矩阵分解方法、协同过滤方法和/或神经网络自数据库130或服务器140获取海量推荐信息中与用户信息对应的推荐信息,将获取的推荐信息作为所述第一待推荐信息。
其中,由于召回模型在获取待推荐信息时,是考虑了用户信息的,因此采用每个模型获取到的多个第一待推荐信息都具有与每个模型对应的精准的排序分数。其中,排序分数可以用于表征采用每个模型得到的第一待推荐信息与用户信息的匹配度,匹配度越高,则排序分数越高。上述的预排序信息例如可以是所述的排序分数和/或根据多个第一待推荐信息的精确的排序分数自高至低排列得到的排序位置。例如,多个第一待推荐信息中排序分数最高的信息对应的排序位置为位置1,则预排序信息中的排序位置例如可以表示为Order=1。
根据本发明的实施例,获取的多个待推荐信息例如还可以包括通过规则召回方法获取到的第二待推荐信息。则操作S220获取第二待推荐信息的方法具体还可以包括:根据预先设定的召回规则,从数据库130或服务器140的海量推荐信息中获取与召回规则匹配的推荐信息,并将获取的与召回规则匹配的推荐信息作为所述第二待推荐信息。其中,预定的召回规则例如可以包括:热点召回规则、地域召回规则和/或突发事件召回规则等。
其中,根据热点召回规则获取到的推荐信息例如可以是在预定时间内点击率高于预定点击率的信息等。根据地域召回规则获取到的推荐信息例如可以是记载的事件发生在预定地域内的信息等。根据突发事件召回规则获取到的推荐信息例如可以是包括有“地震”、“***”或“泥石流”等能够表征突发事件的关键字的信息等。可以理解的是,上述根据规则召回方法获取到的推荐信息的类型仅作为示例以利于理解本发明,本发明对此不作限定。
在操作S230,根据第一待推荐信息的预排序信息、用户信息及多个待推荐信息,采用点击率预测模型获取与多个待推荐信息一一对应的多个预测点击率。
根据本发明的实施例,该操作S230具体例如可以是:将该第一待推荐信息的预排序信息、用户信息及多个待推荐信息同时输入到点击率预测模型中,经由点击率预测模型计算得到多个待推荐信息中每个待推荐信息的预测点击率。其中,所述的点击率预测模型例如可以包括逻辑回归模型、决策树模型或梯度提升树模型等。
根据本发明的实施例,为了便于在点击率预测模型得到预测点击率时,能够将第一待推荐信息与预排序信息、及获取该第一待推荐信息的召回模型一一对应起来。操作S230具体可以包括:先将第一待推荐信息、第一待推荐信息的预排序信息及获取第一待推荐信息的召回模型的标识信息拼接形成一条输入信息;然后再将拼接形成的输入信息、多个待推荐信息中除第一待推荐信息外的其他待推荐信息及用户信息输入点击率预测模型,计算得到与多个待推荐信息一一对应的多个预测点击率。
根据本发明的实施例,该操作S230具体例如可以通过图4描述的操作S431~操作S433来确定与多个待推荐信息一一对应的多个预测点击率,在此不再详述。
综上可知,本发明实施例的信息处理方法,在预测待推荐信息的点击率时,可以同时考虑通过召回模型得到的第一待推荐信息的预排序信息。因此可以提高点击率预测模型预测得到的第一待推荐信息的预测点击率的准确率。以提高根据该预测点击率向用户推荐信息时的推荐效果,提高用户体验。
图3A示意性示出了根据本发明第二实施例的信息处理方法的流程图,图3B示意性示出了根据多个预测点击率向用户推荐信息的流程图。
根据本发明的实施例,在通过操作S210~操作S230得到多个待推荐信息的多个预测点击率后,即可根据多个预测点击率,对多个待推荐信息进行精选,挑选得到向用户推荐的信息。因此,如图3A所示,本发明第二实施例的信息处理方法除了操作S210~操作S230外,还可以包括操作S340。该操作S340在操作S230之后执行。
在操作S340,根据多个预测点击率,向用户推荐待推荐信息。
根据本发明的实施例,该操作S340具体例如可以包括:先根据多个预测点击率,确定向用户推荐的待推荐信息;然后再通过终端设备111、112、113将该向用户推荐的待推荐信息展示给用户。其中,该操作S340具体可以是将大于预定点击率的预测点击率对应的待推荐信息确定为向用户推荐的待推荐信息。
根据本发明的实施例,如图3B所示,该操作S340具体还可以包括操作S341~操作S342。在操作S341,将多个待推荐信息根据一一对应的预测点击率的大小依次排序;在操作S342,向用户推荐排在预定位置的待推荐信息。
根据本发明的实施例,由于点击率预测模型在得到多个待推荐信息的预测点击率时,是考虑了用户信息的,因此得到的预测点击率大的待推荐信息通常是与用户信息匹配度高的信息,即预测点击率大的待推荐信息是用户感兴趣的信息。因此通过操作S341,即可将预测点击率大(即用户感兴趣)的待推荐信息排在靠前的位置,将预测点击率小(即用户不感兴趣)的待推荐信息排在靠后的位置。则操作S342具体可以是将排在前n个位置的待推荐信息作为向用户推荐的待推荐信息,通过终端设备111、112、113展示给用户。其中,预定位置即为前n个位置,n例如可以为5、10、12等任意的正整数值,该n的取值具体例如可以根据用户需求进行设定。
根据本发明的实施例,为了尽可能的降低资源耗损,上述操作S210~操作S230例如可以以第一时间段为周期,周期性的执行。而操作S341~S342可以是响应于用户的获取请求来执行的。其中,第一时间段例如可以为一天、12小时或6小时等。所述用户的获取请求例如可以是在用户使用终端设备111、112、113上的应用程序浏览推荐信息时,响应于用户“向下滑动”页面的操作或点击“刷新”控件的操作生成的。
根据本发明的实施例,当操作S341~S342的执行频率高于操作S210~操作S230的执行频率时,在执行操作S210~操作S230后第一次执行操作S341时,例如可以是对通过操作S220获取的所有的待推荐信息进行排序。而在后续执行操作S341时,则是对通过操作S220获取的所有的待推荐信息中除已向用户推荐过的待推荐信息外的其他待推荐信息进行排序。
图4示意性示出了根据本发明实施例的获取与待推荐信息对应的预测点击率的流程图。
根据本发明的实施例,考虑到针对不同用户采用召回模型获取的第一待推荐信息的排序分数可能处于不同的区间。因此若使用排序分数直接输入点击率预测模型,并不能有效提高预测点击率的准确度,推荐性能也就没有明显提升。因此,本发明实施例可以优选地将根据排序分数得到的排序位置作为预排序信息。
再者,为了减少异常排序分数对点击率预测模型的影响,提升拟合效果并增加基于点击率预测模型的推荐***的鲁棒性。在第一待推荐信息为多个的情况下,还可以根据多个第一待推荐信息的排序位置和/或排序分数,将多个第一待推荐信息离散化至若干个信息区间。因此,如图4所示,图2中的操作S230具体可以包括操作S431~操作S433。
在操作S431,根据多个第一待推荐信息的预排序信息,将多个第一待推荐信息划分到至少一个信息区间,得到与多个第一待推荐信息一一对应的多个区间信息。其中,多个区间信息用于分别表征多个第一待推荐信息所属的信息区间。
根据本发明的实施例,操作S431具体例如可以是:根据多个第一待推荐信息的预排序信息表征的排序位置,将排序位置靠近的第一待推荐信息划分至同一信息区间。例如,可以根据排序位置均等划分的原则将排序位置为1~5的第一待推荐信息划分至同一信息区间,将排序位置为6~10的第一待推荐信息划分至同一信息区间,以此类推,得到至少一个信息区间。或者,该操作S431还可以先对多个第一待推荐信息的预排序信息表征的排序分数进行分数区间的划分,然后再将排序分数属于同一分数区间的第一待推荐信息划分至同一信息区间。或者,该操作S431还可以综合考虑排序位置和排序分数来对第一待推荐信息进行信息区间的划分。
根据本发明的实施例,为了能够更好的反应预排序信息的数据的真实性,操作S431具体例如可以是:根据多个第一待推荐信息的预排序信息,采用基于熵(或基于信息增益)的离散化方法将多个第一待推荐信息划分到至少一个信息区间。其中,基于熵的离散化方法具体可以采用与决策树模型类似的思路,使用合成方法或***方法根据熵计算和预置判定来决定合成或分类。根据本发明的实施例,基于熵的离散化方法具体例如可以为MDLP离散化方法,以采用信息增益的方式来寻找各个信息区间的分割点。
根据本发明的实施例,操作S431得到的与多个第一待推荐信息一一对应的多个区间信息具体例如可以是表征第一待推荐信息所属的信息区间的区间编号。相应地,在操作S431将多个第一待推荐信息划分为至少一个信息区间的同时,还可以向该至少一个信息区间分配区间编号。
在操作S432,根据多个第一待推荐信息及多个区间信息,得到与多个第一待推荐信息一一对应的多个第一输入信息。
根据本发明的实施例,为了便于在点击率预测模型得到预测点击率时,能够将第一待推荐信息与第一待推荐信息的区间信息一一对应起来,上述与每个第一待推荐信息对应的第一输入信息具体可以由该第一待推荐信息及与该第一待推荐信息对应的区间信息拼接得到。
根据本发明的实施例,考虑到采用不同的召回模型得到的记载有相同内容的第一待推荐信息的预排序信息可能是不同的,因此不同召回模型得到的记载有相同内容的第一待推荐信息可能会有不同的区间信息。因此,为了完整的表达每个第一待推荐信息,每个第一待推荐信息的第一输入信息具体可以由每个第一待推荐信息、与每个第一待推荐信息对应的区间信息及每个第一待推荐信息的来源信息拼接得到。其中,所述的来源信息用于表征获取每个第一待推荐信息时采用的召回模型,具体地,该来源信息例如可以是召回模型的标识信息等。因此,在通过两个不同的召回模型得到两个记载有相同内容的第一待推荐信息时,由于该两个记载有相同内容的第一待推荐信息的来源信息不同,该两个记载有相同内容的第一待推荐信息为两个不同的第一待推荐信息,并因此可以得到两个不同的第一输入信息。
根据本发明的实施例,在获取到第一输入信息后,即可执行操作S433,将用户信息、多个待推荐信息中除第一待推荐信息外的其他待推荐信息及多个第一输入信息输入点击率预测模型,获取与多个待推荐信息一一对应的多个预测点击率。
综上可知,本发明实施例在确定第一待推荐信息的预测点击率时,通过根据预排序信息将第一待推荐信息划分至多个信息区间,并以第一待推荐信息所属的信息区间的区间信息作为特征输入点击率预测模型,能够避免异常预排序信息对预测结果的影响,并因此进一步提高确定的第一待推荐信息的预测点击率的准确性,进一步提高基于预测点击率进行信息推荐的推荐效果和用户体验。
图5示意性示出了根据本发明第三实施例的信息处理方法的流程图。
根据本发明的实施例,在对待推荐信息进行点击率预测前,需要对初始的点击率预测模型进行训练。进一步地,还可以在进行点击率预测之后,对点击率预测模型进行优化。因此,如图5所示,本发明第三实施例的信息处理方法除了操作S210~操作S230外,还可以包括操作S550~操作S560。该操作S550~操作S560可以在操作S210~操作S230之前执行,或者在操作S210~操作S230之后执行。
在操作S550,获取多个样本数据。
其中,该多个样本数据具体为点击率预测模型的输入数据。该多个样本数据应包括有通过操作S230已经向用户推荐的待推荐信息,即已推荐信息,或者通过现有的信息处理方法向用户推荐过的已推荐信息。可以理解的是,该多个样本数据中的每个样本数据还应包括有被点击信息,该被点击信息用于表征样本数据包括的已推荐信息是否被用户点击。具体地,该多个样本数据可以是以对应的被点击信息作为标签的。例如,当被点击信息表征样本数据包括的已推荐信息被用户点击时,该样本数据的标签可以为1;而当被点击信息表征样本数据包括的已推荐信息未被用户点击时,该样本数据的标签可以为-1。
根据本发明的实施例,为了使得训练优化的点击率预测模型能够考虑第一待推荐信息的预排序信息,则上述的多个样本数据中的至少一个样本数据应包括:已推荐信息、与已推荐信息对应的区间信息、已推荐信息的被点击信息及用户信息。其中,该至少一个样本数据包括的已推荐信息应该为通过召回模型获得的推荐信息,即为操作S220中描述的第一待推荐信息。其中,与已推荐信息对应的区间信息可以是通过图4描述的操作S431确定得到的,在此不再赘述。
在操作S560,以多个样本数据作为点击率预测模型的输入,采用预定优化算法优化训练点击率预测模型。
根据本发明的实施例,该操作S560具体可以是:将多个样本数据输入点击率预测模型,通过点击率预测模型分别得到该多个样本数据包括的已推荐信息的预测点击率。并将该预测点击率与多个样本数据包括的被点击信息进行比对,通过损失函数计算得到该点击率预测模型的损失值;然后根据该损失值对点击率预测模型中的各个参数进行调整优化。则所述的预定优化算法即为所述的损失函数,该损失函数具体可以为交叉熵损失函数等。
根据本发明的实施例,该操作S560具体还可以通过采用前向后向切分(Forward-Backward Splitting,FOBOS)算法或FTRL(Follow The Regularized Leader)算法等来根据多个样本数据包括的已推荐信息的预测点击率,对点击率预测模型进行优化。优选采用FTRL算法,以在保证优化得到的点击率预测模型具有较高的精度的前提下,能够通过损失一定精度来提高点击率预测模型的稀疏性。
图6示意性示出了根据本发明第四实施例的信息处理方法的流程图。
根据本发明的实施例,考虑到获取的待推荐信息与用户信息之间是存在有关联关系的。则为了进一步地体现该关联关系,获得更好的数据特征,还可以在向点击率预测模型输入待推荐信息、预排序信息及用户信息时,同时输入用户信息与待推荐信息的交叉信息。从而进一步提高点击率预测模型确定的预测点击率的准确性。因此,如图6所示,本发明第四实施例的信息处理方法除了操作S210~操作S230外,还可以包括操作S670。该操作S670应在操作S220与操作S230之间执行。
在操作S670,根据用户信息及多个待推荐信息,确定用户信息与多个待推荐信息的交叉信息。
根据本发明的实施例,该交叉信息具体例如可以通过以下操作来确定:使用One-Hot向量的方式对用户信息与多个待推荐信息进行特征交叉。具体地,多个待推荐信息例如可以具有记载有体育赛事的待推荐信息,用户信息中在具有用户喜好为体育的信息时,通过操作S670可以将表征用户喜好为体育的信息与记载有体育赛事的待推荐信息交叉融合为一个交叉特征。
相应地,操作S230则可以通过图6所示的操作S680来实现。在操作S680,根据第一待推荐信息的预排序信息、用户信息、多个待推荐信息及交叉信息,采用点击率预测模型获取与多个待推荐信息一一对应的多个预测点击率。具体即为:将第一待推荐信息的预排序信息、用户信息、多个待推荐信息及交叉信息作为点击率预测模型的输入,计算得到多个待推荐信息的预测点击率。
综上可知,本发明实施例的信息处理方法,在采用点击率预测模型确定待推荐信息的预测点击率时,能够同时考虑用户信息与待推荐信息的交叉信息(即交叉得到的交叉特征)。因此,可以进一步地提高点击率预测模型的准确率,进一步提高信息推荐效果和用户体验。
图7示意性示出了根据本发明一实施例的信息处理方法的流程架构图。
如图7所示,在本发明一实施例中,信息处理方法的整体流程可以包括:
先采用召回模型和预定召回规则分别从数据库的百万条信息中召回待推荐信息,得到推荐信息候选集1和推荐信息候选集2。其中,推荐信息候选集1中的待推荐信息是通过召回模型召回的。不同召回模型召回的待推荐信息属于不同的推荐信息候选子集,且该推荐信息候选集1中的待推荐信息均有预排序信息。推荐信息候选集2中的待推荐信息是通过预定召回规则召回的。其中,召回模型包括矩阵分解召回模型、协同过滤召回模型和神经网络召回模型。预定召回规则包括热点召回规则、地域召回规则和突发事件召回规则。考虑到召回模型在召回待推荐信息时,需要用到用户信息,因此,在召回待推荐信息之前,还可以先获取用户信息。该用户信息例如可以通过图2描述的操作S210来获取,在此不再赘述;
然后对推荐信息候选集1中的不同推荐信息候选子集中包括的待推荐信息分别进行推荐信息与预排序信息的融合,得到点击率预测模型的输入信息。推荐信息与预排序信息的融合得到输入信息具体可以通过图4描述的操作S431~操作S432来实现,在此不再详述;
最后将得到的输入信息、用户信息和推荐信息候选集2包括的待推荐信息输入到点击率预测模型,经由点击率预测模型处理后得到各个待推荐信息的预测点击率。例如,得到的待推荐信息1的预测点击率为0.15,待推荐信息2的预测点击率为0.12,……,待推荐信息N的预测点击率为0.04。
综上可知,本发明实施例的信息处理方法由于能够考虑通过召回模型召回的待推荐信息的预排序信息,即能够利用召回模型生成的可用信息,从而可以提高确定的预测点击率的准确性,并因此提高基于该信息处理方法构建的信息推荐***的推荐性能。相较于现有技术中不考虑预排序信息的推荐***,可以使得推荐性能提高2.6%,使得推荐的信息的线上点击率提升3%。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图8对本发明示例性实施方式的信息处理装置进行说明。
图8示意性示出了根据本发明一实施例的信息处理装置的方框图。
如图8所示,根据本发明实施例,该信息处理装置800可以包括用户信息获取模块810、推荐信息获取模块820和点击率获取模块830。该信息处理装置800可以用于实现根据本发明实施例的信息处理方法。
用户信息获取模块810用于获取用户的用户信息(操作S210)。
推荐信息获取模块820用于根据用户信息,获取多个待推荐信息,其中多个待推荐信息包括具有预排序信息的第一待推荐信息(操作S220)。
点击率获取模块830用于根据第一待推荐信息的预排序信息、用户信息及多个待推荐信息,采用点击率预测模型获取与多个待推荐信息一一对应的多个预测点击率(操作S230)。
根据本发明的实施例,上述多个待推荐信息包括多个第一待推荐信息。如图8所示,点击率获取模块830包括信息区间划分子模块831、第一输入信息获取子模块832和预测点击率获取子模块833。信息区间划分子模块831用于根据多个第一待推荐信息的预排序信息,将多个第一待推荐信息划分到至少一个信息区间,得到与多个第一待推荐信息一一对应的多个区间信息(操作S431)。其中,多个区间信息用于表征多个第一待推荐信息所属的信息区间。第一输入信息获取子模块832用于根据多个第一待推荐信息及多个区间信息得到与多个第一待推荐信息一一对应的多个第一输入信息(操作S432)。其中,第一输入信息由一个第一待推荐信息及与一个第一待推荐信息对应的区间信息拼接得到。预测点击率获取子模块833用于将用户信息、多个待推荐信息中除第一待推荐信息外的其他待推荐信息及多个第一输入信息输入点击率预测模型,获取与多个待推荐信息一一对应的多个预测点击率(操作S433)。
根据本发明的实施例,上述信息区间划分子模块831具体用于:根据多个第一待推荐信息的预排序信息,采用基于熵的离散化方法将多个第一待推荐信息划分到至少一个信息区间。
根据本发明的实施例,如图8所示,上述信息处理装置800还包括样本数据获取模块840和预测模型优化模块850。样本数据获取模块840用于获取多个样本数据(操作S550)。该多个样本数据中的至少一个样本数据包括已推荐信息、与已推荐信息对应的区间信息、已推荐信息的被点击信息及用户信息。其中,已推荐信息的被点击信息用于表征已推荐信息是否被用户点击。预测模型优化模块850用于以多个样本数据作为点击率预测模型的输入,采用预定优化算法优化训练点击率预测模型(操作S560)。其中,点击率预测模型包括逻辑回归模型、决策树模型或梯度提升树模型。
根据本发明的实施例,如图8所示,上述推荐信息获取模块820包括第一信息获取子模块821。该第一信息获取子模块821用于根据用户信息,采用召回模型获取多个第一待推荐信息。上述第一输入信息由一个第一待推荐信息、与一个第一待推荐信息对应的区间信息及一个第一待推荐信息的来源信息拼接得到,来源信息用于表征获取第一待推荐信息采用的召回模型。其中,召回模型包括矩阵分解召回模型、协同过滤召回模型和神经网络召回模型中的至少一个。
根据本发明的实施例,上述多个待推荐信息还包括第二待推荐信息。如图8所示,上述推荐信息获取模块820还包括第二信息获取子模块822。该第二信息获取子模块822用于根据预定召回规则,获取第二待推荐信息。其中,预定召回规则包括:热点召回规则、地域召回规则和突发事件召回规则中的至少一个。
根据本发明的实施例,如图8所示,上述信息处理装置800还包括交叉信息确定模块860。该交叉信息确定模块860用于在点击率获取模块830获取多个预测点击率之前,根据用户信息及多个待推荐信息,确定用户信息与多个待推荐信息的交叉信息(操作S670)。上述点击率获取模块830具体用于:根据第一待推荐信息的预排序信息、用户信息、多个待推荐信息及交叉信息,采用点击率预测模型获取与多个待推荐信息一一对应的多个预测点击率(操作S680)。
根据本发明的实施例,如图8所示,上述信息处理装置800还包括信息推荐模块870。该信息推荐模块870用于根据多个预测点击率,向用户推荐待推荐信息(操作S340)。具体地,该信息推荐模块870可以包括信息排序子模块871和信息推荐子模块872。信息排序子模块871用于将多个待推荐信息根据一一对应的预测点击率的大小依次排序(操作S341)。信息推荐子模块872用于向用户推荐排在预定位置的待推荐信息(操作S342)。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,参考图9对本发明示例性实施方式的适于执行信息处理方法的计算机可读存储介质进行介绍。
根据本发明的实施例,还提供了一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时使处理器执行根据本发明实施例的信息处理方法。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算设备上运行时,所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于执行信息处理方法中的步骤,例如,所述计算设备可以执行如图2中所示的步骤S210:获取用户的用户信息;步骤S220:根据用户信息,获取多个待推荐信息,该多个待推荐信息包括具有预排序信息的第一待推荐信息;步骤S230:根据第一待推荐信息的预排序信息、用户信息及多个待推荐信息,采用点击率预测模型获取与多个待推荐信息一一对应的多个预测点击率。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图9所示,描述了根据本发明的实施方式的适于执行信息处理方法的程序产品900,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图10对本发明示例性实施方式的适于执行信息处理方法的计算设备进行说明。
本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
在一些可能的实施方式中,根据本发明的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的信息处理方法中的步骤。例如,所述处理器可以执行如图2中所示的步骤S210:获取用户的用户信息;步骤S220:根据用户信息,获取多个待推荐信息,该多个待推荐信息包括具有预排序信息的第一待推荐信息;步骤S230:根据第一待推荐信息的预排序信息、用户信息及多个待推荐信息,采用点击率预测模型获取与多个待推荐信息一一对应的多个预测点击率。
下面参照图10来描述根据本发明的这种实施方式的适于执行信息处理方法的计算设备1000。如图10所示的计算设备1000仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算设备1000以通用计算设备的形式表现。计算设备1000的组件可以包括但不限于:上述至少一个处理器1001、上述至少一个存储器1002、连接不同***组件(包括存储器1002和处理器1001)的总线1003。
总线1003可以包括数据总线、地址总线和控制总线。
存储器1002可以包括易失性存储器,例如随机存取存储器(RAM)10021和/或高速缓存存储器10022,还可以进一步包括只读存储器(ROM)1023。
存储器1002还可以包括具有一组(至少一个)程序模块10024的程序/实用工具10025,这样的程序模块10024包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备1000也可以与一个或多个外部设备1004(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口1005进行。并且,计算设备1000还可以通过网络适配器1006与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1006通过总线1003与计算设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (16)
1.一种信息处理方法,包括:
获取用户的用户信息;
根据所述用户信息,获取多个待推荐信息,其中所述多个待推荐信息包括具有预排序信息的第一待推荐信息;以及
根据所述第一待推荐信息的预排序信息、所述用户信息及所述多个待推荐信息,采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率;
其中,所述预排序信息包括排序分数和/或根据所述排序分数得到的排序位置;
其中,所述多个待推荐信息包括多个第一待推荐信息,所述采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率包括:
根据所述多个第一待推荐信息的预排序信息,将所述多个第一待推荐信息划分到至少一个信息区间,得到与所述多个第一待推荐信息一一对应的多个区间信息,所述多个区间信息用于表征所述多个第一待推荐信息所属的信息区间;
根据所述多个第一待推荐信息及所述多个区间信息,得到与所述多个第一待推荐信息一一对应的多个第一输入信息,所述第一输入信息由一个第一待推荐信息及与所述一个第一待推荐信息对应的区间信息拼接得到;以及
将所述用户信息、所述多个待推荐信息中除所述第一待推荐信息外的其他待推荐信息及所述多个第一输入信息输入所述点击率预测模型,获取与所述多个待推荐信息一一对应的多个预测点击率。
2.根据权利要求1所述的方法,其中,将所述多个第一待推荐信息划分到至少一个信息区间包括:
根据所述多个第一待推荐信息的预排序信息,采用基于熵的离散化方法将所述多个第一待推荐信息划分到至少一个信息区间。
3.根据权利要求1所述的方法,还包括:
获取多个样本数据,所述多个样本数据中的至少一个样本数据包括已推荐信息、与所述已推荐信息对应的区间信息、所述已推荐信息的被点击信息及所述用户信息,所述已推荐信息的被点击信息用于表征所述已推荐信息是否被所述用户点击;以及
以所述多个样本数据作为所述点击率预测模型的输入,采用预定优化算法优化训练所述点击率预测模型,
其中,所述点击率预测模型包括逻辑回归模型、决策树模型或梯度提升树模型。
4.根据权利要求1所述的方法,其中:
根据所述用户信息,获取多个待推送信息包括:根据所述用户信息,采用召回模型获取所述多个第一待推荐信息;以及
所述第一输入信息由一个第一待推荐信息、与所述一个第一待推荐信息对应的区间信息及所述一个第一待推荐信息的来源信息拼接得到,所述来源信息用于表征获取第一待推荐信息采用的召回模型,
其中,所述召回模型包括矩阵分解召回模型、协同过滤召回模型和神经网络召回模型中的至少一个。
5.根据权利要求4所述的方法,其中,所述多个待推荐信息还包括第二待推荐信息,所述根据所述用户信息,获取多个待推送信息还包括:
根据预定召回规则,获取所述第二待推荐信息,
所述预定召回规则包括:热点召回规则、地域召回规则和突发事件召回规则中的至少一个。
6.根据权利要求1所述的方法,其中:
在获取所述多个预测点击率之前,所述方法还包括:根据所述用户信息及所述多个待推荐信息,确定所述用户信息与所述多个待推荐信息的交叉信息;以及
获取所述多个预测点击率包括:根据所述第一待推荐信息的预排序信息、所述用户信息、所述多个待推荐信息及所述交叉信息,采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率。
7.根据权利要求1所述的方法,还包括:根据所述多个预测点击率,向所述用户推荐待推荐信息,包括:
将所述多个待推荐信息根据一一对应的预测点击率的大小依次排序;以及
向所述用户推荐排在预定位置的待推荐信息。
8.一种信息处理装置,包括:
用户信息获取模块,用于获取用户的用户信息;
推荐信息获取模块,用于根据所述用户信息,获取多个待推荐信息,其中所述多个待推荐信息包括具有预排序信息的第一待推荐信息;以及
点击率获取模块,用于根据所述第一待推荐信息的预排序信息、所述用户信息及所述多个待推荐信息,采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率;
其中,所述预排序信息包括排序分数和/或根据所述排序分数得到的排序位置;
其中,所述多个待推荐信息包括多个第一待推荐信息,所述点击率获取模块包括:
信息区间划分子模块,用于根据所述多个第一待推荐信息的预排序信息,将所述多个第一待推荐信息划分到至少一个信息区间,得到与所述多个第一待推荐信息一一对应的多个区间信息,所述多个区间信息用于表征所述多个第一待推荐信息所属的信息区间;
第一输入信息获取子模块,用于根据所述多个第一待推荐信息及所述多个区间信息,得到与所述多个第一待推荐信息一一对应的多个第一输入信息,所述第一输入信息由一个第一待推荐信息及与所述一个第一待推荐信息对应的区间信息拼接得到;以及
预测点击率获取子模块,用于将所述用户信息、所述多个待推荐信息中除所述第一待推荐信息外的其他待推荐信息及所述多个第一输入信息输入所述点击率预测模型,获取与所述多个待推荐信息一一对应的多个预测点击率。
9.根据权利要求8所述的装置,其中,所述信息区间划分子模块用于:根据所述多个第一待推荐信息的预排序信息,采用基于熵的离散化方法将所述多个第一待推荐信息划分到至少一个信息区间。
10.根据权利要求8所述的装置,还包括:
样本数据获取模块,用于获取多个样本数据,所述多个样本数据中的至少一个样本数据包括已推荐信息、与所述已推荐信息对应的区间信息、所述已推荐信息的被点击信息及所述用户信息,所述已推荐信息的被点击信息用于表征所述已推荐信息是否被所述用户点击;以及
预测模型优化模块,用于以所述多个样本数据作为所述点击率预测模型的输入,采用预定优化算法优化训练所述点击率预测模型,
其中,所述点击率预测模型包括逻辑回归模型、决策树模型或梯度提升树模型。
11.根据权利要求8所述的装置,其中:
所述推荐信息获取模块包括第一信息获取子模块:用于根据所述用户信息,采用召回模型获取所述多个第一待推荐信息;
所述第一输入信息由一个第一待推荐信息、与所述一个第一待推荐信息对应的区间信息及所述一个第一待推荐信息的来源信息拼接得到,所述来源信息用于表征获取第一待推荐信息采用的召回模型,
其中,所述召回模型包括矩阵分解召回模型、协同过滤召回模型和神经网络召回模型中的至少一个。
12.根据权利要求11所述的装置,其中,所述多个待推荐信息还包括第二待推荐信息,所述推荐信息获取模块还包括:
第二信息获取子模块,用于根据预定召回规则,获取所述第二待推荐信息,
其中,所述预定召回规则包括:热点召回规则、地域召回规则和突发事件召回规则中的至少一个。
13.根据权利要求8所述的装置,还包括:
交叉信息确定模块,用于在所述点击率获取模块获取所述多个预测点击率之前,根据所述用户信息及所述多个待推荐信息,确定所述用户信息与所述多个待推荐信息的交叉信息;
所述点击率获取模块用于根据所述第一待推荐信息的预排序信息、所述用户信息、所述多个待推荐信息及所述交叉信息,采用点击率预测模型获取与所述多个待推荐信息一一对应的多个预测点击率。
14.根据权利要求8所述的装置,还包括:
信息推荐模块,用于根据所述多个预测点击率,向所述用户推荐待推荐信息,所述信息推荐模块包括:
信息排序子模块,用于将所述多个待推荐信息根据一一对应的预测点击率的大小依次排序;以及
信息推荐子模块,用于向所述用户推荐排在预定位置的待推荐信息。
15.一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时实现根据权利要求1~7中任一项所述的方法。
16.一种计算设备,包括:
一个或多个存储器,存储有可执行指令;以及
一个或多个处理器,执行所述可执行指令,以实现根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388205.4A CN110110233B (zh) | 2019-05-09 | 2019-05-09 | 信息处理方法、装置、介质和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388205.4A CN110110233B (zh) | 2019-05-09 | 2019-05-09 | 信息处理方法、装置、介质和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110110233A CN110110233A (zh) | 2019-08-09 |
CN110110233B true CN110110233B (zh) | 2022-04-22 |
Family
ID=67489261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910388205.4A Active CN110110233B (zh) | 2019-05-09 | 2019-05-09 | 信息处理方法、装置、介质和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110233B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674416A (zh) * | 2019-09-20 | 2020-01-10 | 北京小米移动软件有限公司 | 游戏推荐方法及装置 |
CN110928986B (zh) * | 2019-10-18 | 2023-07-21 | 平安科技(深圳)有限公司 | 法律证据的排序和推荐方法、装置、设备及存储介质 |
CN111861623A (zh) * | 2019-12-30 | 2020-10-30 | 北京骑胜科技有限公司 | 信息推荐方法、装置和设备 |
CN111340561A (zh) * | 2020-03-04 | 2020-06-26 | 深圳前海微众银行股份有限公司 | 信息点击率的计算方法、装置、设备及可读存储介质 |
CN112221125A (zh) * | 2020-10-26 | 2021-01-15 | 网易(杭州)网络有限公司 | 游戏交互方法及装置、电子设备、存储介质 |
CN112989182B (zh) * | 2021-02-01 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、信息处理设备及存储介质 |
CN113672803A (zh) * | 2021-08-02 | 2021-11-19 | 杭州网易云音乐科技有限公司 | 推荐方法、装置、计算设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10062062B1 (en) * | 2006-05-25 | 2018-08-28 | Jbshbm, Llc | Automated teller machine (ATM) providing money for loyalty points |
CN103207876B (zh) * | 2012-01-17 | 2017-04-12 | 阿里巴巴集团控股有限公司 | 一种信息投放的方法及装置 |
US20160188734A1 (en) * | 2014-12-30 | 2016-06-30 | Socialtopias, Llc | Method and apparatus for programmatically synthesizing multiple sources of data for providing a recommendation |
CN108319610A (zh) * | 2017-01-18 | 2018-07-24 | 百度在线网络技术(北京)有限公司 | 推荐词的排序方法和装置 |
CN106997549A (zh) * | 2017-02-14 | 2017-08-01 | 火烈鸟网络(广州)股份有限公司 | 一种广告信息的推送方法及*** |
CN109086439B (zh) * | 2018-08-15 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 信息推荐方法及装置 |
CN109582862B (zh) * | 2018-10-31 | 2021-02-02 | 网易传媒科技(北京)有限公司 | 点击率预估方法、介质、***和计算设备 |
-
2019
- 2019-05-09 CN CN201910388205.4A patent/CN110110233B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110110233A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110233B (zh) | 信息处理方法、装置、介质和计算设备 | |
CN110781321B (zh) | 一种多媒体内容推荐方法及装置 | |
US10685265B2 (en) | Cognitive analysis and classification of apparel images | |
CN108885624B (zh) | 信息推荐***及方法 | |
US11429405B2 (en) | Method and apparatus for providing personalized self-help experience | |
US20210056458A1 (en) | Predicting a persona class based on overlap-agnostic machine learning models for distributing persona-based digital content | |
US11276099B2 (en) | Multi-perceptual similarity detection and resolution | |
US20230289392A1 (en) | System and method for integrating content into webpages | |
US20160092771A1 (en) | Analysis of social media messages | |
CN110264277B (zh) | 由计算设备执行的数据处理方法及装置、介质和计算设备 | |
CN111754278A (zh) | 物品推荐方法、装置、计算机存储介质和电子设备 | |
US10678800B2 (en) | Recommendation prediction based on preference elicitation | |
CN118043802A (zh) | 一种推荐模型训练方法及装置 | |
US20230308360A1 (en) | Methods and systems for dynamic re-clustering of nodes in computer networks using machine learning models | |
CN112330442A (zh) | 基于超长行为序列的建模方法及装置、终端、存储介质 | |
CN113220994B (zh) | 基于目标物品增强表示的用户个性化信息推荐方法 | |
US10296624B2 (en) | Document curation | |
CN116204709A (zh) | 一种数据处理方法及相关装置 | |
CN113094584A (zh) | 推荐学习资源的确定方法和装置 | |
CN112905885A (zh) | 向用户推荐资源的方法、装置、设备、介质和程序产品 | |
WO2023209691A1 (en) | System and method for ranking recommendations in streaming platforms | |
CN118261466A (zh) | 目标对象的质量指标确定方法、装置及电子设备 | |
CN114637921A (zh) | 基于建模偶然不确定性的物品推荐方法、装置和设备 | |
CN116542779A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
CN116595252A (zh) | 一种数据处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |