CN103235893B - 一种用户-商品点击率自适应预测装置和预测方法 - Google Patents

一种用户-商品点击率自适应预测装置和预测方法 Download PDF

Info

Publication number
CN103235893B
CN103235893B CN201310162681.7A CN201310162681A CN103235893B CN 103235893 B CN103235893 B CN 103235893B CN 201310162681 A CN201310162681 A CN 201310162681A CN 103235893 B CN103235893 B CN 103235893B
Authority
CN
China
Prior art keywords
user
commodity
clicking rate
hidden feature
increment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310162681.7A
Other languages
English (en)
Other versions
CN103235893A (zh
Inventor
罗辛
葛亮
夏云霓
朱庆生
周明强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Agricultural Cleaning Technology Co Ltd
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201310162681.7A priority Critical patent/CN103235893B/zh
Publication of CN103235893A publication Critical patent/CN103235893A/zh
Application granted granted Critical
Publication of CN103235893B publication Critical patent/CN103235893B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种用户-商品点击率自适应预测方法和装置,涉及计算机数据处理领域,本发明采用一种通过规约矩阵因式分解,基于增量用户-商品点击率统计数据,对不断变化的用户-商品点击行为规律进行自适应的统计分析,以确定在当前时间点,符合已知用户-商品点击数据的用户行为规律,从而建立自适应的用户-商品点击率模型,使用用户-商品点击率模型产生未知用户-商品点击率的预测数据。能够根据用户行为的变化对用户-商品点击率模型进行自适应、计算代价较小的调整,从而提供自适应的用户-商品点击率预测结果,提高对用户行为规律变化进行反映的实时性。

Description

一种用户-商品点击率自适应预测装置和预测方法
技术领域
本发明设计计算机数据处理技术领域,特别涉及电子商务中一种用户-商品点击率自适应确定。
背景技术
现代电子商务***,尤其是运营较为成功的***,其用户数量和网络商品数量十分巨大。可以通过服务器收集的用户对网络商品的点击率历史数据,形成庞大的用户-商品点击率统计矩阵。基于巨大的用户和网络商品数量,通常情况下,一个用户不可能穷尽浏览所有的商品,一个商品也不可能被所有的用户点击。因此,一般而言,用户-商品点击率统计矩阵中的已知数据往往远远少于未知数据;亦即,用户-商品点击率统计矩阵是极端稀疏的。
在电子商务***运营过程中,基于用户-商品点击率统计矩阵中的已知数据,了解和分析用户对商品进行点击的行为规律,在此基础上建立起有效的用户-商品点击率模型,可以较好地建立用户对网络商品进行点击的仿真环境来模拟真实环境,从而为电子商务***在运营过程中的信息组织和营销策略的制订提供重要的依据。
关于用户-商品点击率预测方法,已经有了很多的相关工作。但是,现有的方法都基于构造一个静态的用户-商品点击率模型,该模型需要基于静态的用户-商品点击率统计矩阵进行构建,即:(1)该矩阵所对应的用户集合是固定的;(2)该矩阵所对应的商品集合是固定的;(3)该矩阵中已知的用户-商品点击率数据是固定的。一旦真实情况违背上述条件,就需要重新构造整个用户-商品点击率模型。
上述方法在真实电子商务***中存在弊端。这是因为对于运营良好的电子商务***而言,静态的用户-商品点击率统计矩阵的条件很难满足,即(1)该矩阵中的用户-商品点击率数据,随着用户的不断访问,将会发生频率极高的变化,在网络访问高峰时段尤为明显;(2)该矩阵所对应的商品集合,随着***运营商对新商品的加入,将会发生频率较高的变化;(3)该矩阵所对应的用户集合,随着新用户的注册加入,将会发生频率较高的变化。对应于上述变化,将会导致极为频繁的对整个用户-商品点击率模型的重建,从而导致下列问题:(1)重复构建整个用户-商品点击率模型,将会耗费大量的计算资源;(2)重复构建整个用户-商品点击率模型,将无法及时反映用户行为的变化。
发明内容
本发明针对现有技术中存在的上述问题,提供一种用户-商品点击率自适应预测方法和装置,能够根据用户行为的变化对用户-商品点击率模型进行自适应、计算代价较小的调整,从而提供自适应的用户-商品点击率预测结果,提高对用户行为规律变化进行反映的实时性。
本发明解决上述技术问题的技术方案为,提供一种用户-商品点击率自适应预测装置,包括:
数据接收模块:接收服务器获取的用户-商品点击率数据,采集数据直接存放进入存储模块,同时通知参数控制模块对相应的全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数进行更新;
参数控制模块:从存储模块中获取全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数,实施对全局和增量用户-商品点击率模型控制参数的更新和重置,判断是否满足全局用户-商品点击率模型和增量用户-商品点击率模型的构造和更新条件;
存储模块:存储采集的用户-商品点击率数据和模型控制参数;
模型自适应构造模块:根据用户-商品点击率数据和控制参数构造全局用户-商品点击率模型和增量用户-商品点击率模型。控制模块根据数据接收模块发送的通知,对相应的全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数进行更新后,如果满足全局用户-商品点击率模型和增量用户-商品点击率模型的构造条件,通知模型自适应构造模块对相应的模型进行构造。
预测数据生成模块:调用更新后的控制参数和点击率数据,通过全局用户-商品点击率模型和增量用户-商品点击率模型生成用户-商品点击率预测数据。
具体可包括:计算单元调用规约矩阵因式分解根据点击率矩阵获得用户隐含特征矩阵J和商品隐含特征矩阵K,根据当前增量用户集合、当前增量商品集合,构造增量用户隐含特征矩阵和增量商品隐含特征矩阵,调用用户隐含特征矩阵和商品隐含特征矩阵、以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中对应的用户和商品隐含特征向量,分别计算这两组向量的内积,根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据;输出单元:输出用户-商品点击率预测数据。
预测数据生成模块的预测过程直接由服务器发送的用户-商品点击率预测请求触发。
其中,全局用户-商品点击率模型包括用户隐含特征矩阵和商品隐含特征矩阵,根据当前用户集合U,当前商品集合C,建立一个|U|行,|C|列的矩阵作为用户-商品点击率矩阵R,计算单元调用规约矩阵因式分解对R进行分解,得到一个|U|行,f列的用户隐含特征矩阵J,以及一个|C|行,f列的商品隐含特征矩阵K,其中,J中的每一个行向量对应一个用户的隐含特征向量,K中的每一个行向量对应一个商品的隐含特征向量,f为用户隐含特征空间和商品隐含特征空间的维数。增量用户-商品点击率模型包括增量用户隐含特征矩阵和增量商品隐含特征矩阵,根据当前增量用户集合UI,当前增量商品集合CI,构造一个|UI|行,|CI|列的增量子矩阵RI,计算单元调用规约矩阵因式分解对RI进行分解,得到增量用户隐含特征矩阵JI,和商品隐含特征矩阵KI,其中,JI中的每一个行向量对应于一个增量用户的隐含特征向量,KI中的每一个行向量对应于一个增量商品的隐含特征向量。
根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据具体包括:对于u’和c’,提取用户隐含特征矩阵J和商品隐含特征矩阵K中相应的行向量ju’和kc’,以及增量用户隐含特征矩阵JI和增量商品隐含特征矩阵KI中相应的行向量j(I)u’和k(I)c,计算单元根据公式
进行加权获得对ru’,c’的预测数据,其中,β为全局-增量均衡因子。构造全局用户-商品点击率模型进一步包括,计算单元调用规约矩阵因式分解获得用户隐含特征矩阵J和商品隐含特征矩阵K,调用公式 arg min ( RSE R A = Σ r u , c ∈ R ( A ) ( ( r u , c - j u · k c ) + λ ( | | j u | | 2 + | | k c | | 2 ) ) ) 控制矩阵J和K满足在集合上累积误差最小,使用随机梯度下降法在所述累积误差上对矩阵J和K进行训练,得到矩阵J和K的全局最优解。
本发明还提出一种用户-商品点击率自适应预测方法,包括:数据接收模块接收服务器获取的用户-商品点击率数据;参数控制模块从存储模块中获取全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数实施对全局和增量用户-商品点击率模型控制参数的更新和重置;存储模块存储采集的点击率数据和模型控制参数;模型自适应构造模块根据用户-商品点击率数据和控制参数构造全局用户-商品点击率模型和增量用户-商品点击率模型;预测数据生成模块调用更新后的控制参数和点击率数据,通过全局用户-商品点击率模型和增量用户-商品点击率模型生成用户-商品点击率预测数据,具体为:计算单元调用规约矩阵因式分解根据点击率矩阵获得用户隐含特征矩阵J和商品隐含特征矩阵K,根据当前增量用户集合、当前增量商品集合,构造增量用户隐含特征矩阵和增量商品隐含特征矩阵,调用用户隐含特征矩阵和商品隐含特征矩阵、以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中对应的用户和商品隐含特征向量,分别计算这两组向量的内积,根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据;输出单元输出用户-商品点击率预测数据。
本发明通过规约矩阵因式分解,基于增量用户-商品点击率统计数据,对不断变化的用户-商品点击行为规律进行自适应的统计分析,以确定在当前时间点,符合已知用户-商品点击数据的用户行为规律,从而建立自适应的用户-商品点击率模型,使用所述建立的用户-商品点击率模型产生未知用户-商品点击率的预测数据的方法和装置。本发明能够根据用户行为的变化进行自适应的、计算代价较小,提高了运算速度,能实时提供自适应的用户-商品点击率预测结果,提高对用户行为规律变化进行反映的实时性。
附图说明
图1为本发明用户-商品点击率自适应预测装置结构示意图;
图2为用户-商品点击率模型自适应更新过程流程示意图;
图3为使用规约矩阵因式分解方法构造全局用户-商品点击率模型;
图4为使用规约矩阵因式分解方法构造增量用户-商品点击率模型;
图5为的用户-商品点击率预测过程的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清晰明白,以下参照附图并举实施例,对本发明作进一步详细说明。
在电子商务***中,用户点击商品的行为是受用户的使用习惯影响的。在一个包含未知数据的集合中,根据已知的数据,通过数据统计分析的方法,分析该数据集合的内在统计规律,则可以根据该规律对未知的数据进行预测。在电子商务***中,根据已知的用户-商品点击率统计数据,通过数据统计分析方法,分析用户-商品点击率数据的统计规律,建立用户-商品点击率模型,就可以根据该规律对未知的用户-商品点击率数据进行预测。但是,对于运营良好的电子商务***而言,随着用户-商品点击率增量数据的不断累积,其维护的用户-商品点击率统计矩阵将会以很高的频率发生变化。如果忽略这种变化,随着数据变化的不断累积,用户-商品点击率预测数据的准确率将会不断下降;如果根据每一次用户-商品点击率统计矩阵的变化,对用户-商品点击率模型进行重建,将会耗费大量的计算资源,同时也无法及时反映用户行为的变化。因此,需要设计自适应的用户-商品点击率预测方法,以较小的计算代价和较高的实时性,反映用户-商品点击率统计矩阵的变化。
本发明基于增量用户-商品点击率统计数据,通过规约矩阵因式分解,能够对用户-商品点击率模型进行自适应的、计算代价较小的调整,从而提供自适应的用户-商品点击率预测,提高对用户行为规律变化进行反映的实时性的用户-商品点击率自适应预测方法、预测装置。
基于用户-商品点击率统计矩阵中的已知数据,使用规约矩阵因式分解,可以得到用户隐含特征矩阵和商品隐含特征矩阵,使用这两个矩阵中的用户隐含特征向量和商品隐含特征向量的内积表示所对应的用户-商品点击率数据,在已知用户-商品点击率上具备很小误差。因此,对于未知的用户-商品点击率数据,使用对应的用户隐含特征向量和商品隐含特征向量的内积作为其预测数据。
如图1为本发明用户-商品点击率自适应预测装置结构示意图。该预测装置包括:
数据接收模块510,用于接收用户-商品点击率数据;
参数控制模块520,用于对全局和增量用户-商品点击率模型控制参数进行控制,包括参数更新和重置。包括:初始化单元521,进行全局和增量用户-商品点击率模型控制参数的初始化,从存储模块中获取保存的全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数。
参数更新单元522,根据所述用户-商品点击率数据,对全局和增量用户-商品点击率模型控制参数进行更新;
参数重置单元523,根据所述用户-商品点击率数据,对全局和增量用户-商品点击率模型控制参数进行重置。
模型自适应构造模块530,使用规约矩阵因式分解处理所述的参数和用户-商品点击率数据构造全局和增量用户-商品点击率模型;包括:全局模型构造单元531,构造全局用户-商品点击率模型;增量模型构造单元532,构造增量用户-商品点击率模型。
预测数据生成模块540,根据全局和增量用户-商品点击率模型,产生用户-商品点击率预测数据。包括:预测参数初始化单元541,用于初始化预测所需要的参数,从所述存储模块550中获取所述保存的全局用户-商品点击率模型和增量用户-商品点击率模型;预测数据生成单元542,用于利用所述的预测参数,构造用户-商品点击率预测数据。
存储模块550,保存全局用户-商品点击率模型控制参数、增量用户-商品点击率模型控制参数、全局用户-商品点击率模型和增量用户-商品点击率模型。
本预测装置可以部署于一个现有的服务器中,也可以部署于一个单独设置的专用于进行用户-商品点击率自适应预测的服务器中。
图2所示为用户-商品点击率模型自适应更新过程流程。
用户-商品点击率模型自适应更新过程包括:
(1)电子商务***服务器采集用户-商品点击率更新数据;
(2)利用用户-商品点击率更新数据,对全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数进行更新;
(3)使用全局用户-商品点击率模型控制参数,判断当前是否满足全局用户-商品点击率模型的更新条件:若满足,则执行步骤(4)-(5),否则,执行步骤(6);
(4)调用规约矩阵因式,对用户-商品点击率统计矩阵进行分解,构造由用户隐含特征矩阵和商品隐含特征矩阵组成的全局用户-商品点击率模型;
(5)重置全局用户-商品点击率模型控制参数,重置增量用户-商品点击率模型控制参数。
(6)使用所述的增量用户-商品点击率模型控制参数,判定当前情况是否满足增量用户-商品点击率模型的更新条件:若满足,则执行步骤(7)-(9);
(7)使用增量用户-商品点击率模型控制参数,确定原始用户-商品点击率统计矩阵中,对应用户-商品点击率更新数据的增量子矩阵;
(8)使用规约矩阵因式对增量子矩阵进行分解,构造由增量用户隐含特征矩阵和增量商品隐含特征矩阵组成的增量用户-商品点击率模型;
(9)重置增量用户-商品点击率模型控制参数。
其中,所述的用户-商品点击率预测过程,包括以下步骤:
(1)获取需要进行预测用户-商品点击率,及其对应的用户ID和商品ID;
(2)判断用户-商品点击率是否属于增量子矩阵,若是,则执行步骤(4);否则,执行步骤(3)
(3)用户隐含特征矩阵和商品隐含特征矩阵对应需要预测的用户ID和商品ID的用户和商品隐含特征向量,使用这两个向量的内积作为对用户-商品点击率的预测结果;
(4)提取增量用户-商品点击率模型中用户隐含特征矩阵和商品隐含特征矩阵,以及增量用户隐含特征矩阵和增量商品隐含特征矩阵,获取对应的需要预测的用户ID和商品ID的用户和商品隐含特征向量,计算这两组向量的内积,代入全局-增量均衡因子进行加权累加,以最后的累加结果作为对用户-商品点击率的预测结果。
本发明能够根据用户行为的变化进行自适应的、计算代价较小的调整,从而提供自适应的用户-商品点击率预测结果,提高对用户行为规律变化进行反映的实时性。
下面,对本发明所提供的用户-商品点击率自适应预测方法及用户-商品点击率自适应预测装置进行详细说明。
图2为自适应更新过程的流程示意图。
步骤101:服务器采集用户-商品点击率数据,发送给用户-商品点击率自适应预测装置。用户-商品点击率数据是指,从上次服务器结束发送数据开始计算,一直到当前时间点的时间段内,每一个用户对每一个商品进行点击的次数。在某时间段内,根据所有的用户-商品点击率数据累加形成用户-商品点击率统计矩阵。该矩阵中元素所在行代表用户号,元素所在列代表商品号,根据该时间段内,点击次数的总和,建立用户-商品点击率统计矩阵,对矩阵中每一个矩阵元素,元素所在行代表用户号,元素所在列代表商品号。
电子商务***服务器向用户-商品点击率预测装置发送用户-商品点击率数据的方式可以是:定期、或根据所述用户-商品点击率预测装置的通知、或根据某服务器的通知,将采集到的用户-商品点击数据发送给用户-商品点击率预测装置。
步骤102:用户-商品点击率自适应预测装置根据所述用户-商品点击率数据对全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数进行更新。
全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数是体现当前增量数据规模的参数。其中,全局用户-商品点击率模型控制参数包括:
a.全局增量数据累计SG,采集从上一次更新全局用户-商品点击率模型开始,一直到当前时间点的时间段内,发生过变化的用户-商品点击率数据的数量,为全局增量数据累计SG
增量用户-商品点击率模型控制参数包括:
a.增量数据累计SI,从上一次更新构造增量用户-商品点击率模型开始,一直到当前时间点的时间段内,获取发生过变化的用户-商品点击率数据的数量,为增量数据累计SI
b.增量用户ID集合UI,从上一次更新构造增量用户-商品点击率模型开始,一直到当前时间点的时间段内,发生过变化的用户-商品点击率数据所对应的用户ID集合,为增量用户ID集合UI
c.增量商品ID集合CI,从上一次更新构造增量用户-商品点击率模型开始计算,一直到当前时间点的时间段内,获取发生过变化的用户-商品点击率数据所对应的商品ID集合,为增量商品ID集合CI
对SG的更新方法为,统计接收的用户-商品点击率数据个数,并将其与当前SG值进行累加后作为SG的更新值,送入存储器保存。
对SI的更新方法为,统计接收的用户-商品点击率数据个数,并将其与当前SI值进行累加后作为SI的更新值,送入存储器保存。
对UI的更新方法为,查询单元逐个检查接收的用户-商品点击率数据所对应的用户ID,若其用户ID不在UI中,则将其加入UI,送入存储器保存。
对CI的更新方法为,查询单元逐个检查接收的用户-商品点击率数据所对应的商品ID,若其商品ID不在CI中,则将其加入CI,送入存储器保存。
步骤103:根据全局用户-商品点击率模型控制参数判定当前是否满足全局用户-商品点击率模型的更新条件。
根据SG是否已经超过某个阈值。该阈值可以事先指定,根据历史已知数据量和指定比率确定。例如历史已知数据量为10000;也可以事先指定一个比率后由用户-商品点击率自适应预测装置保存,例如指定比率为5%,历史已知数据量为10000,则阈值为10000×5%=500。
步骤104:使用规约矩阵因式分解,对用户-商品点击率矩阵进行分解,构造由用户隐含特征矩阵和商品隐含特征矩阵组成的全局用户-商品点击率模型。
步骤105:重置全局用户-商品点击率模型控制参数,重置增量用户-商品点击率模型控制参数。对参数的重置可采用如下方法:
a.将SG置为0;
b.将SI置为0;
c.将UI清空成为空集;
d.将CI清空成为空集。
步骤106:根据增量用户-商品点击率模型控制参数,判定当前是否满足增量用户-商品点击率模型的更新条件。即SI是否已经增长超过某个阈值。该阈值可以事先指定,根据历史已知数据量和指定比率计算获得。也可以事先指定一个比率后由用户-商品点击率自适应预测装置保存,例如指定比率为0.5%,历史已知数据量为10000,则阈值为10000×0.5%=50。
步骤107:使用增量用户-商品点击率模型控制参数,确定原始用户-商品点击率统计矩阵中,对应于用户-商品点击率更新数据的增量子矩阵。具体为:从原始用户-商品点击率统计矩阵中,提取出与UI和CI中的用户ID和商品ID相对应的、已知的用户-商品点击率数据建立增量子矩阵。
步骤108:使用规约矩阵因式分解方法,对增量子矩阵进行分解,构造由增量用户隐含特征矩阵和增量商品隐含特征矩阵组成增量用户-商品点击率模型。
步骤109:重置增量用户-商品点击率模型控制参数。将SI置为0。并将重置参数保存。
至此,用户-商品点击率模型自适应更新过程结束。
本实施例中,全局用户-商品点击率模型是由用户隐含特征矩阵和商品隐含特征矩阵构成的。具体为,实时采集***内当前用户和当前商品,将当前***内的用户集合记为U,当前***内的商品集合记为C,建立一个|U|行,|C|列的矩阵作为用户-商品点击率矩阵R,使用规约矩阵因式分解对R进行分解,分别得到用户隐含特征矩阵J,和商品隐含特征矩阵K。J是一个|U|行,f列的矩阵,J中的每一个行向量对应一个用户,是该用户的隐含特征向量;K是一个|C|行,f列的矩阵,K中的每一个行向量对应于一个商品,是该商品的隐含特征向量;f为用户隐含特征空间和商品隐含特征空间的维数。
规约矩阵因式分解是基于R中的已知元素,以最小的累积误差构造R的f阶近似矩阵,该近似矩阵记为Rf。Rf等于矩阵J和矩阵K的转置的乘积,
Rf=J×KT(1)
对于近似矩阵Rf,其内部第u行,第c列的元素等于用户隐含特征矩阵J的第i行行向量,与商品隐含特征矩阵K的第c行行向量的乘积。如矩阵J的第i行行向量记为ju,矩阵K的第c行行向量记为kc,则
r u , c f = j u · k c - - - ( 2 )
图3示出了本实施例中使用规约矩阵因式分解方法构造全局用户-商品点击率模型。令R(A)表示R中的已知元素集合,使用规约矩阵因式分解构造矩阵J和K,就是利用R中的已知元素集合,使矩阵J和K满足在此集合上累积误差最小,即根据公式:
arg min ( RSE R ( A ) = Σ r u , c ∈ R ( A ) ( ( r u , c - j u · k c ) + λ ( | | j u | | 2 + | | k c | | 2 ) ) ) - - - ( 3 )
使用随机梯度下降法在所述累积误差上对矩阵J和K进行训练,即对于每一个已知用户-商品点击率数据ru,c,令
j u ′ = j u - η · 1 2 · ∂ RSE R ( A ) ∂ j u k c ′ = k c - η · 1 2 · ∂ RSE R ( A ) ∂ k c ⇒ j u ′ = j u + η ( ( r u , c - j u · k c ) k c - λj u ) k u ′ = k c + η ( ( r u , c - j u · k c ) j u - λk c ) - ( 4 )
使得在一轮训练过程中,对于向量ju和kc,使用其对应于梯度的相反方向作为学习方向,对其进行局部更新,从而以最快的速度逼近局部最优值。
其中,λ是控制Tikhonov正则化因子的平衡参数,一般取值为区间[0.005,0.05]内;||·||表示对向量取L2范数,即求取对应向量的模,ju′和kc′表示向量ju和kc经过更新之后的值;η表示学习速率,一般取值为区间[0.001,0.02]内;分别表示使用公式(3)中的累积误差,在向量ju和kc上求取的梯度。
将所述训练过程持续数轮,就可以求出矩阵J和K在RA上的全局最优解。以上述规约矩阵因式分解方法构造的矩阵J和K,满足在已知用户-商品点击率数据上具备很小的误差。因此,对于未知的用户-商品点击率数据,使用对应的J和K的行向量的内积,即J和K对应的Rf中的对位元素,作为其预测数据,符合已知用户-商品点击率数据的内在统计规律。
本实施例中,增量用户-商品点击率模型是由增量用户隐含特征矩阵和增量商品隐含特征矩阵构成的。如前文所述,将当前的增量用户集合记为UI,增量商品集合记为CI,增量子矩阵记为RI,则RI是一个|UI|行,|CI|列的矩阵。使用规约矩阵因式分解方法对RI进行分解,可以分别得到增量用户隐含特征矩阵,记为JI,和商品隐含特征矩阵,记为KI
图4示出了本发明实施例中使用规约矩阵因式分解方法构造增量用户-商品点击率模型的方式。所述方式与使用规约矩阵因式分解方法构造全局用户-商品点击率模型的方式类似,区别仅在于构造增量用户-商品点击率模型时,只考虑在RI中的已知元素;因此,此处不再赘述。
以上述规约矩阵因式分解方法构造的矩阵JI和KI,满足在增量子矩阵中的已知用户-商品点击率数据上具备很小的误差,符合增量子矩阵中的已知用户-商品点击率数据的内在统计规律;因此,对于增量子矩阵中未知的用户-商品点击率数据,使用用户隐含特征矩阵和商品隐含特征矩阵、以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中,对应于需要预测的用户ID和商品ID的用户和商品隐含特征向量,计算这两组向量的内积,然后代入全局-增量均衡因子进行加权累加,以最后的累加结果作为对用户-商品点击率的预测结果,符合已知用户-商品点击率数据的内在统计规律。
图5为本发明实施例中用户-商品点击率自适应预测方法的用户-商品点击率预测过程的流程示意图。该过程包括:
步骤401:获取需要进行预测的用户-商品点击率,其对应的用户ID和商品ID。获取需要进行用户-商品点击率预测的请求后,对于每一条需要进行预测的用户商品点击率数据ru’,c’,其必定会对应于一个用户ID,记为u’,和一个商品ID,记为c’。
步骤402:判断需要进行预测的用户-商品点击率是否属于增量子矩阵。判断对于u’和c’,可以直接使用所述的增量用户ID集合UI和增量商品ID集合CI,判断其是否属于增量子矩阵:
a.若u′∈UI则所述用户-商品点击率属于增量子矩阵;
b.若则所述用户-商品点击率不属于增量子矩阵。
步骤403:使用用户隐含特征矩阵和商品隐含特征矩阵中,对应于需要预测的用户ID和商品ID的用户和商品隐含特征向量,使用其内积作为对用户-商品点击率的预测结果。即对于u’和c’,提取出矩阵J和矩阵K中相应的行向量ju’和kc’,根据公式
r ^ u ′ , c ′ = j u ′ · k c ′ - - - ( 4 )
计算用户商品点击率ru’,c’的预测结果。
由于矩阵J和K满足在已知用户-商品点击率数据上具备很小的误差,符合已知用户-商品点击率数据的内在统计规律;因此,对于未知的用户-商品点击率数据ru’,c’,使用对应的J和K的行向量ju’和kc’的内积,即J和K对应的Rf中的对位元素,作为其预测数据,符合已知用户-商品点击率数据的内在统计规律。
步骤404:使用用户隐含特征矩阵和商品隐含特征矩阵、以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中,对应于需要预测的用户ID和商品ID的用户和商品隐含特征向量,计算这两组向量的内积,然后代入全局-增量均衡因子进行加权累加,以最后的累加结果作为对用户-商品点击率的预测结果。即对于u’和c’,提取出矩阵J和矩阵K中相应的行向量ju’和kc’,以及矩阵JI和矩阵KI中相应的行向量j(I)u’和k(I)c’;在区间(0,1)内的预定常量作为全局-增量均衡因子β;调用公式
r ^ u ′ , c ′ = β · j u ′ · k c ′ + ( 1 - β ) j ( I ) u ′ · k ( I ) c ′ - - - ( 4 )
作为对ru’,c’的预测结果。由于矩阵J和K满足在已知用户-商品点击率数据上具备很小的误差,符合已知用户-商品点击率数据的内在统计规律;而矩阵JI和KI,满足在增量子矩阵中的已知用户-商品点击率数据上具备很小的误差,符合增量子矩阵中的已知用户-商品点击率数据的内在统计规律;因此,对于增量子矩阵中未知的用户-商品点击率数据,使用用户隐含特征矩阵和商品隐含特征矩阵、以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中,对应于需要预测的用户ID和商品ID的用户和商品隐含特征向量,计算这两组向量的内积,然后代入全局-增量均衡因子进行加权累加,以最后的累加结果作为对用户-商品点击率的预测结果,符合已知用户-商品点击率数据的内在统计规律。通过该预测结果,可以提高网络带宽的利用率,减少用户的检索时间,对网络商品的营销产生积极的推动作用。
由上述技术方案可见,本发明实施例提供了一种自适应的未知用户-商品点击率预测方法,旨在利用规约矩阵因式分解方法,以较小的计算复杂度,分别对已知用户-商品点击率数据和增量用户-商品点击率数据的内在统计规律进行分析,能够根据用户行为的变化进行自适应的、计算代价较小的调整,从而提供自适应的用户-商品点击率预测结果,提高对用户行为规律变化进行反映的实时性。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用户-商品点击率自适应预测装置,其特征在于,包括:数据接收模块:接收服务器获取的用户-商品点击率数据;参数控制模块:从存储模块中获取全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数实施对全局和增量用户-商品点击率模型控制参数的更新和重置;存储模块:存储采集的点击率数据和模型控制参数;模型自适应构造模块:根据用户-商品点击率数据和控制参数构造全局用户-商品点击率模型和增量用户-商品点击率模型;预测数据生成模块:调用更新后的控制参数和用户-商品点击率数据,通过全局用户-商品点击率模型和增量用户-商品点击率模型生成用户-商品点击率预测数据,具体为:计算单元调用规约矩阵因式分解根据点击率矩阵获得用户隐含特征矩阵J和商品隐含特征矩阵K,根据当前增量用户集合、当前增量商品集合,构造增量用户隐含特征矩阵和增量商品隐含特征矩阵,调用用户隐含特征矩阵和商品隐含特征矩阵以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中对应的用户和商品隐含特征向量,分别计算这两组向量的内积,根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据;输出单元:输出用户-商品点击率预测数据。
2.如权利要求1所述的装置,其特征在于,全局用户-商品点击率模型包括用户隐含特征矩阵和商品隐含特征矩阵,根据当前用户集合U,当前商品集合C,建立一个|U|行,|C|列的矩阵作为用户-商品点击率矩阵R,计算单元调用规约矩阵因式分解对R进行分解,得到一个|U|行,f列的用户隐含特征矩阵J,以及一个|C|行,f列的商品隐含特征矩阵K,其中,J中的每一个行向量对应一个用户的隐含特征向量,K中的每一个行向量对应一个商品的隐含特征向量,f为用户隐含特征空间和商品隐含特征空间的维数。
3.如权利要求1所述的装置,其特征在于,增量用户-商品点击率模型包括增量用户隐含特征矩阵和增量商品隐含特征矩阵,根据当前增量用户集合UI,当前增量商品集合CI,构造一个|UI|行,|CI|列的增量子矩阵RI,计算单元调用规约矩阵因式分解对RI进行分解,得到增量用户隐含特征矩阵JI和商品隐含特征矩阵KI,其中,JI中的每一个行向量对应于一个增量用户的隐含特征向量,KI中的每一个行向量对应于一个增量商品的隐含特征向量。
4.如权利要求1所述的装置,其特征在于,根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据具体包括:对于每一条需要进行预测的用户商品点击率数据ru’,c’对应的用户ID为u’,商品ID为c’,对于u’和c’,提取用户隐含特征矩阵J和商品隐含特征矩阵K中相应的行向量ju’和kc’,以及增量用户隐含特征矩阵JI和增量商品隐含特征矩阵KI中相应的行向量j(I)u’和k(I)c’,计算单元根据公式:
进行加权获得对用户商品点击率的预测数据,其中,β为全局-增量均衡因子。
5.如权利要求1或2所述的装置,其特征在于,构造全局用户-商品点击率模型进一步包括,计算单元调用规约矩阵因式分解获得用户隐含特征矩阵J和商品隐含特征矩阵K,调用公式
arg m i n ( RSE R ( A ) = Σ r u , c ∈ R ( A ) ( ( r u , c - j u · k c ) + λ ( | | j u | | 2 + | | k c | | 2 ) ) ) 控制矩阵J和K满足在集合上累积误差最小,使用随机梯度下降法在所述累积误差上对矩阵J和K进行训练,得到矩阵J和K的全局最优解;其中R(A)表示R中的已知元素集合,ju和kc是向量,ru,c是用户商品点击率数据,λ是控制Tikhonov正则化因子的平衡参数。
6.一种用户-商品点击率自适应预测方法,其特征在于,包括:数据接收模块接收服务器获取的用户-商品点击率数据;参数控制模块从存储模块中获取全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数实施对全局和增量用户-商品点击率模型控制参数的更新和重置;存储模块存储采集的点击率数据和模型控制参数;模型自适应构造模块根据用户-商品点击率数据和控制参数构造全局用户-商品点击率模型和增量用户-商品点击率模型;预测数据生成模块调用更新后的控制参数和点击率数据,通过全局用户-商品点击率模型和增量用户-商品点击率模型生成用户-商品点击率预测数据,具体为:计算单元调用规约矩阵因式分解根据点击率矩阵获得用户隐含特征矩阵J和商品隐含特征矩阵K,根据当前增量用户集合、当前增量商品集合,构造增量用户隐含特征矩阵和增量商品隐含特征矩阵,调用用户隐含特征矩阵和商品隐含特征矩阵以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中对应的用户和商品隐含特征向量,分别计算这两组向量的内积,根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据;输出单元输出用户-商品点击率预测数据。
7.如权利要求6所述的方法,其特征在于,全局用户-商品点击率模型包括用户隐含特征矩阵和商品隐含特征矩阵,根据当前用户集合U,当前商品集合C,建立一个|U|行,|C|列的矩阵作为用户-商品点击率矩阵R,计算单元调用规约矩阵因式分解对R进行分解,得到一个|U|行,f列的用户隐含特征矩阵J,以及一个|C|行,f列的商品隐含特征矩阵K,其中,J中的每一个行向量对应一个用户的隐含特征向量,K中的每一个行向量对应一个商品的隐含特征向量,f为用户隐含特征空间和商品隐含特征空间的维数。
8.如权利要求6所述的方法,其特征在于,增量用户-商品点击率模型包括增量用户隐含特征矩阵和增量商品隐含特征矩阵,根据当前增量用户集合UI,当前增量商品集合CI,构造一个|UI|行,|CI|列的增量子矩阵RI,计算单元调用规约矩阵因式分解对RI进行分解,得到增量用户隐含特征矩阵JI和商品隐含特征矩阵KI,其中,JI中的每一个行向量对应于一个增量用户的隐含特征向量,KI中的每一个行向量对应于一个增量商品的隐含特征向量。
9.如权利要求6所述的方法,其特征在于,根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据具体包括:对于每一条需要进行预测的用户商品点击率数据ru’,c’对应的用户ID为u’,商品ID为c’,提取出用户隐含特征矩阵J和商品隐含特征矩阵K中相应的行向量ju’和kc’,以及增量用户隐含特征矩阵JI和增量商品隐含特征矩阵KI中相应的行向量j(I)u’和k(I)c,计算单元根据公式进行加权获得对用户商品点击率的预测数据,其中,β为全局-增量均衡因子。
10.如权利要求6或7所述的方法,其特征在于,构造全局用户-商品点击率模型进一步包括,计算单元调用规约矩阵因式分解获得用户隐含特征矩阵J和商品隐含特征矩阵K,调用公式:
arg m i n ( RSE R ( A ) = Σ r u , c ∈ R ( A ) ( ( r u , c - j u · k c ) + λ ( | | j u | | 2 + | | k c | | 2 ) ) ) 控制矩阵J和K满足在集合上累积误差最小,使用随机梯度下降法在所述累积误差上对矩阵J和K进行训练,得到矩阵J和K的全局最优解;其中R(A)表示R中的已知元素集合,ju和kc是向量,ru,c是用户商品点击率数据,λ是控制Tikhonov正则化因子的平衡参数。
CN201310162681.7A 2013-05-06 2013-05-06 一种用户-商品点击率自适应预测装置和预测方法 Expired - Fee Related CN103235893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310162681.7A CN103235893B (zh) 2013-05-06 2013-05-06 一种用户-商品点击率自适应预测装置和预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310162681.7A CN103235893B (zh) 2013-05-06 2013-05-06 一种用户-商品点击率自适应预测装置和预测方法

Publications (2)

Publication Number Publication Date
CN103235893A CN103235893A (zh) 2013-08-07
CN103235893B true CN103235893B (zh) 2016-03-23

Family

ID=48883933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310162681.7A Expired - Fee Related CN103235893B (zh) 2013-05-06 2013-05-06 一种用户-商品点击率自适应预测装置和预测方法

Country Status (1)

Country Link
CN (1) CN103235893B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701191B (zh) * 2016-01-08 2020-12-29 腾讯科技(深圳)有限公司 一种推送信息点击率估计方法和装置
CN105701207B (zh) * 2016-01-12 2020-04-24 腾讯科技(深圳)有限公司 资源的请求量预测方法、应用推荐方法和装置
CN110020877B (zh) * 2018-01-09 2023-04-18 腾讯科技(深圳)有限公司 点击率的预测方法、点击率的确定方法及服务器
CN110245968A (zh) * 2018-03-07 2019-09-17 阿里巴巴集团控股有限公司 数据分析的方法、装置和存储介质
WO2020047819A1 (zh) * 2018-09-07 2020-03-12 深圳大学 点击率预测方法、电子装置及计算机可读存储介质
CN109543069B (zh) * 2018-10-31 2021-07-13 北京达佳互联信息技术有限公司 视频推荐方法、装置和计算机可读存储介质
CN111126649B (zh) * 2018-10-31 2023-08-11 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN110390561B (zh) * 2019-07-04 2022-04-29 壹融站信息技术(深圳)有限公司 基于动量加速随机梯度下降的用户-金融产品选用倾向高速预测方法和装置
CN118096324A (zh) * 2024-04-23 2024-05-28 成都帆点创想科技有限公司 推荐模型训练方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380570B2 (en) * 2009-10-27 2013-02-19 Yahoo! Inc. Index-based technique friendly CTR prediction and advertisement selection
US8484077B2 (en) * 2010-07-21 2013-07-09 Yahoo! Inc. Using linear and log-linear model combinations for estimating probabilities of events

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种模型驱动的WS-CDL服务组合可靠性预测方法;刘毅等;《计算机工程与应用》;20111231;第47卷(第11期);第60-66页 *
商品搜索中的点击分析与预测;王祥志;《中国优秀硕士学位论文全文数据库》;20110715(第7期);I138-992 *

Also Published As

Publication number Publication date
CN103235893A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN103235893B (zh) 一种用户-商品点击率自适应预测装置和预测方法
Li et al. A wind speed interval prediction system based on multi-objective optimization for machine learning method
Niu et al. Forecasting reservoir monthly runoff via ensemble empirical mode decomposition and extreme learning machine optimized by an improved gravitational search algorithm
Cai et al. Prediction of landslide displacement based on GA-LSSVM with multiple factors
Samsudin et al. River flow time series using least squares support vector machines
Chen et al. Prediction of arch dam deformation via correlated multi-target stacking
Wang et al. Improved extreme learning machine for multivariate time series online sequential prediction
CN107886161A (zh) 一种提高复杂信息***效能的全局敏感性分析方法
Jalalkamali Using of hybrid fuzzy models to predict spatiotemporal groundwater quality parameters
CN103186575B (zh) 一种传感数据的聚类分析方法和***
CN106022614A (zh) 一种基于最近邻聚类的神经网络数据挖掘方法
Chen et al. Groundwater level prediction using SOM-RBFN multisite model
CN116090839B (zh) 水资源耦合***多重风险分析与评估方法及***
CN108022014A (zh) 一种电力***负荷预测方法及***
Ponce et al. An indoor predicting climate conditions approach using Internet-of-Things and artificial hydrocarbon networks
Duan et al. An evolution-dependent multi-objective ensemble model of vanishing moment with adversarial auto-encoder for short-term wind speed forecasting in Xinjiang wind farm, China
Sundararajan et al. Regression and generalized additive model to enhance the performance of photovoltaic power ensemble predictors
CN109471698A (zh) 云环境下虚拟机异常行为检测***和方法
Taormina et al. An information theoretic approach to select alternate subsets of predictors for data-driven hydrological models
Cao et al. A cellular automata model for simulating the evolution of positive–negative terrains in a small loess watershed
Feng et al. Hydrological time series prediction by extreme learning machine and sparrow search algorithm
Qiao et al. Metaheuristic evolutionary deep learning model based on temporal convolutional network, improved aquila optimizer and random forest for rainfall-runoff simulation and multi-step runoff prediction
Li et al. Rainfall prediction using optimally pruned extreme learning machines
Alizadeh et al. Simulating monthly streamflow using a hybrid feature selection approach integrated with an intelligence model
Tongal et al. Simulated annealing coupled with a Naive Bayes model and base flow separation for streamflow simulation in a snow dominated basin

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
CB03 Change of inventor or designer information

Inventor after: Gu Liang

Inventor after: Sheng Hongling

Inventor after: Luo Xin

Inventor before: Luo Xin

Inventor before: Ge Liang

Inventor before: Xia Yunni

Inventor before: Zhu Qingsheng

Inventor before: Zhou Mingqiang

COR Change of bibliographic data
TR01 Transfer of patent right

Effective date of registration: 20160722

Address after: 610081 No. 2, No. 3, building 1700, 1007 North Tianfu Road, Chengdu hi tech Zone, Sichuan

Patentee after: Chengdu agricultural Cleaning Technology Co., Ltd.

Address before: 400030 Shapingba District, Sha Sha Street, No. 174, Chongqing

Patentee before: Chongqing University

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160323

Termination date: 20190506

CF01 Termination of patent right due to non-payment of annual fee