CN109460427A - 一种面向用户动态偏好挖掘的节目嵌入方法 - Google Patents
一种面向用户动态偏好挖掘的节目嵌入方法 Download PDFInfo
- Publication number
- CN109460427A CN109460427A CN201811322845.7A CN201811322845A CN109460427A CN 109460427 A CN109460427 A CN 109460427A CN 201811322845 A CN201811322845 A CN 201811322845A CN 109460427 A CN109460427 A CN 109460427A
- Authority
- CN
- China
- Prior art keywords
- program
- user
- sample set
- feature vector
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006399 behavior Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 8
- 230000007812 deficiency Effects 0.000 abstract description 3
- 238000010348 incorporation Methods 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Stored Programmes (AREA)
Abstract
本发明涉及一种面向用户动态偏好挖掘的节目嵌入方法,包括:读入点击行为序列集S;将点击节目表示为低维向量,并初始化输入特征向量和输出特征向量;然后使用训练样本集对节目特征向量进行优化;结合用户当前时刻的上下文节目的输入特征向量,刻画用户当前时刻的兴趣。本发明通过使用改进的词嵌入模型将节目特征进行降维,舍弃了以往完全使用时间作为用户偏好变化影响因子的做法,而采用行为窗口对目标节目进行建模,有效的避免了用户行为在固定的时间区间上可能存在的稀疏性,并且通过最大化条件概率是的学习到的节目向量表示能够有效地刻画用户偏好,克服了现有方法存在的不足和局限性。且学到的向量表示是稠密低维的。
Description
技术领域
本发明涉及一种数据挖掘技术领域,尤其是一种面向用户动态偏好挖掘的节目嵌入方法。
背景技术
随着信息技术的迅速发展,各大互联网网站在与用户互动的过程中均产生了大量的用户日志信息,因此,企业家们倾向于有效的利用用户信息,对用户数据进行挖掘理解,并针对不同用户的兴趣进行个性化的推荐。然而,如何针对不同用户的兴趣进行个性化的推荐面临着巨大的挑战。首先,用户的兴趣受多种因素影响,且不同用户的兴趣不一样。其次,单个用户在不同时间的兴趣也是不同的。
现有的刻画用户动态兴趣的方法主要基于时间动态性。其中最常见的两种模式:1、假设用户的兴趣偏好受近期行为的影响远大于远期行为的影响,并使用一个衰减的影响因子来减少对旧数据的权重。2、用户偏好由用户本身的兴趣(长期兴趣)和社会热点(短期偏好)共同影响,并结合长期行为和短期行为共同刻画用户的动态偏好。然而,这些方法仍然存在着以下问题:
1)、数据高维度,需要构建用户-节目矩阵,然而在大型在线网站中存在着大量的用户和节目,因此构建矩阵时很可能导致维度灾难;
2)、高度稀疏,大多数用户往往只点击了少量的节目,因此用户-节目的矩阵一般是高度稀疏的;
3)、相似度度量,如何度量节目之间的相似度以及用户之间的相似度?因为矩阵是高度稀疏的,因此难以度量彼此间的相似度;
4)、固定的时间区间,人为的分割时间区间,并将每一个区间的用户行为当作该区间的一个短期偏好,然而用户的行为在时间上并不总是均匀的,因此,同样存在着时间区间数据稀疏性的问题。
发明内容
针对现有技术的不足,本发明提供一种面向用户动态偏好挖掘的节目嵌入方法,该方法能有效刻画用户偏好存在的主要难点。
本发明的技术方案为:一种面向用户动态偏好挖掘的节目嵌入方法,包括:
S1)、读入点击行为序列集S;
S2)、将点击节目表示为低维向量,并初始化输入特征向量和输出特征向量,特征向量的维度大小由用户指定;其中,每个节目包括一个输入特征向量和一个输出特征向量;
S3)、根据序列集S构建训练样本集;
S4)、然后使用训练样本集对节目特征向量进行优化;
S5)、输出优化后的节目输入和输出特征向量表示;
S6)、结合用户当前时刻的上下文节目的输入特征向量,刻画用户当前时刻的兴趣。
进一步的,步骤S4)中,对节目特征向量进行优化,具体为:首先利用将每个点击行为序列当成一个“句子”,然后遍历每一个“句子”构建训练样本集,并通过每一个训练样本调整节目向量,使得最大化条件概率P(目标节目|上下文节目)。
本发明的有益效果为:通过使用改进的词嵌入模型将节目特征进行降维,舍弃了以往完全使用时间作为用户偏好变化影响因子的做法,而采用行为窗口(即一个行为窗口中包含若干个行为)对目标节目进行建模,有效的避免了用户行为在固定的时间区间上可能存在的稀疏性,并且通过最大化条件概率是的学习到的节目向量表示能够有效地刻画用户偏好,克服了现有方法存在的不足和局限性。且学到的向量表示是稠密低维的,解决了用户兴趣挖掘中存在的高维度和高度稀疏问题。学习到的向量保留了每个节目之间的结构特征,可以直接计算节点之间的相似度,从而解决了相似度度量的问题。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,一种面向用户动态偏好挖掘的节目嵌入方法,包括以下步骤:
S1)、读入点击行为序列集S;
S2)、将点击节目表示为低维向量,并初始化输入特征向量和输出特征向量,特征向量的维度大小由用户指定;其中,每个节目包括一个输入特征向量和一个输出特征向量;
S3)、根据序列集S构建训练样本集,构建过程具体如下:
S301)、初始化正样本集合D+和负样本集合D-;
S302)、对行为序列集S中的每个序列si,依次取出一个节目作为目标节目ti;
S303)、根据目标节目ti使用滑动窗口向前回溯w个节目作为上下文;
S304)、对于上下文中的每个节目tj与目标节目ti构建三元组(tj,ti,1),并添加到正样本集合D+中;
S305)、重复步骤S302)-S304),直至处理完行为序列集S中的每个系列;
S306)、从上述步骤生产的正样本集合D+中,依次取出一个三元组,记为(tj,ti,1);
S307)、对于每个三元组(tj,ti,1),从节目集T中随机采样N个节目,其中N为负样个数,由用户指定,抽取的每个节目tr与tj组成一个三元组(tj,tr,1)作为(tj,ti,1)对应的负样本,并将其添加到负样本集合D-中;
S308)、重复步骤S306)、S307),直至处理完正样本集合D+中的每个三元组;
S309)、合并正样本集合D+和负样本集合D-,和并后得到的集合D即为训练样本集;
S4)、然后使用训练集对节目特征向量进行优化,同时调整目标节目向量及其上下文节目的输入特征向量,最大化条件概率P(目标节目|上下文节目),具体如下:
S401)、条件概率P(目标节目|上下文节目)的计算式如下:
其中,ψj为节目tj的输入特征向量,φi为节目ti的输出特征向量,为ψj的转置,φk∈φ为tk的输出特征向量,其分母为一个归一化项;
通过采用负采样将上式转换为:该式表示最大化正样本的条件概率同时最小化负样本的条件概率,其中,μ表示节目ti是否为节目tj的正样本,μ=1则表示目ti为节目tj的正样本,若μ=-1则表示目ti为节目tj的负样本,为sigmoid函数;
从而得到目标函数为:
其中L为损失函数;
S402)、对于每一个训练样本(tj,ti,μ)∈D,使用随机梯度下降对φi和ψj进行更新,首先计算目标函数关于φi和ψj的梯度和其计算式如下:
并根据公式进行更新,其中,η为学习率,由用户指定;
S5)、输出优化后的节目输入和输出特征向量表示:
S6)、结合用户当前时刻的上下文节目的输入特征向量,刻画用户当前时刻的兴趣,具体如下:
利用当前时刻的上下文,刻画用户在当前时刻的兴趣,即
为了计算方便,对其进行相应的变换,得到:计算每个ti∈T的概率,并进行排序,最后得到概率最高的N个节目作为用户在当前时刻的兴趣,其中,N的大小由用户指定。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (5)
1.一种面向用户动态偏好挖掘的节目嵌入方法,其特征在于,包括以下步骤:
S1)、读入点击行为序列集S;
S2)、将点击节目表示为低维向量,并初始化输入特征向量和输出特征向量,特征向量的维度大小由用户指定;其中,每个节目包括一个输入特征向量和一个输出特征向量;
S3)、根据序列集S构建训练样本集;
S4)、然后使用训练样本集对节目特征向量进行优化;
S5)、输出优化后的节目输入和输出特征向量表示;
S6)、结合用户当前时刻的上下文节目的输入特征向量,刻画用户当前时刻的兴趣。
2.根据权利要求1所述的一种面向用户动态偏好挖掘的节目嵌入方法,其特征在于:步骤S3)中,构建训练样本集,具体包括以下步骤:
S301)、初始化正样本集合D+和负样本集合D-;
S302)、对行为序列集S中的每个序列si,依次取出一个节目作为目标节目ti;
S303)、根据目标节目ti使用滑动窗口向前回溯w个节目作为上下文;
S304)、对于上下文中的每个节目tj与目标节目ti构建三元组(tj,ti,1),并添加到正样本集合D+中;
S305)、重复步骤S302)-S304),直至处理完行为序列集S中的每个系列;
S306)、从上述步骤生产的正样本集合D+中,依次取出一个三元组,记为(tj,ti,1);
S307)、对于每个三元组(tj,ti,1),从节目集T中随机采样N个节目,其中N为负样个数,由用户指定,抽取的每个节目tr与tj组成一个三元组(tj,tr,1)作为(tj,ti,1)对应的负样本,并将其添加到负样本集合D-中;
S308)、重复步骤S306)、S307),直至处理完正样本集合D+中的每个三元组;
S309)、合并正样本集合D+和负样本集合D-,和并后得到的集合D即为训练样本集。
3.根据权利要求1所述的一种面向用户动态偏好挖掘的节目嵌入方法,其特征在于:步骤S4)中,对节目特征向量进行优化,具体为:首先利用将每个点击行为序列当成一个“句子”,然后遍历每一个“句子”构建训练样本集,并通过每一个训练样本调整节目向量,使得最大化条件概率P(目标节目|上下文节目)。
4.根据权利要求1所述的一种面向用户动态偏好挖掘的节目嵌入方法,其特征在于:步骤S4)中,最大化条件概率P(目标节目|上下文节目)的计算,具体如下:
S401)、条件概率P(目标节目|上下文节目)的计算式如下:
其中,ψj为节目tj的输入特征向量,φi为节目ti的输出特征向量,为ψj的转置,φk∈φ为tk的输出特征向量,其分母为一个归一化项;
通过采用负采样将上式转换为:该式表示最大化正样本的条件概率同时最小化负样本的条件概率,其中,μ表示节目ti是否为节目tj的正样本,μ=1则表示目ti为节目tj的正样本,若μ=-1则表示目ti为节目tj的负样本,为sigmoid函数;
从而得到目标函数为:
其中L为损失函数;
S402)、对于每一个训练样本(tj,ti,μ)∈D,使用随机梯度下降对φi和ψj进行更新,首先计算目标函数关于φi和ψj的梯度和其计算式如下:
并根据公式进行更新,其中,η为学习率。
5.根据权利要求1所述的一种面向用户动态偏好挖掘的节目嵌入方法,其特征在于:步骤S6)中,刻画用户当前时刻的兴趣,具体如下:
利用当前时刻的上下文,刻画用户在当前时刻的兴趣,即
为了计算方便,对其进行相应的变换,得到:计算每个ti∈T的概率,并进行排序,最后得到概率最高的N个节目作为用户在当前时刻的兴趣,其中,N的大小由用户指定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811322845.7A CN109460427A (zh) | 2018-11-08 | 2018-11-08 | 一种面向用户动态偏好挖掘的节目嵌入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811322845.7A CN109460427A (zh) | 2018-11-08 | 2018-11-08 | 一种面向用户动态偏好挖掘的节目嵌入方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109460427A true CN109460427A (zh) | 2019-03-12 |
Family
ID=65609702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811322845.7A Pending CN109460427A (zh) | 2018-11-08 | 2018-11-08 | 一种面向用户动态偏好挖掘的节目嵌入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460427A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269577A (zh) * | 2020-02-17 | 2021-08-17 | 北京达佳互联信息技术有限公司 | 数据获取方法、装置、服务器及存储介质 |
CN114237402A (zh) * | 2021-12-28 | 2022-03-25 | 广州卓远虚拟现实科技有限公司 | 一种虚拟现实的空间移动控制***及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150293976A1 (en) * | 2014-04-14 | 2015-10-15 | Microsoft Corporation | Context-Sensitive Search Using a Deep Learning Model |
CN105740444A (zh) * | 2016-02-02 | 2016-07-06 | 桂林电子科技大学 | 基于用户评分的项目推荐方法 |
CN107291803A (zh) * | 2017-05-15 | 2017-10-24 | 广东工业大学 | 一种融合多类型信息的网络表示方法 |
-
2018
- 2018-11-08 CN CN201811322845.7A patent/CN109460427A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150293976A1 (en) * | 2014-04-14 | 2015-10-15 | Microsoft Corporation | Context-Sensitive Search Using a Deep Learning Model |
CN105740444A (zh) * | 2016-02-02 | 2016-07-06 | 桂林电子科技大学 | 基于用户评分的项目推荐方法 |
CN107291803A (zh) * | 2017-05-15 | 2017-10-24 | 广东工业大学 | 一种融合多类型信息的网络表示方法 |
Non-Patent Citations (1)
Title |
---|
GRBOVIC M. ET AL: "E-commerce in Your Inbox:Product Recommendations at Scale", 《ARXIV》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269577A (zh) * | 2020-02-17 | 2021-08-17 | 北京达佳互联信息技术有限公司 | 数据获取方法、装置、服务器及存储介质 |
CN113269577B (zh) * | 2020-02-17 | 2023-10-13 | 北京达佳互联信息技术有限公司 | 数据获取方法、装置、服务器及存储介质 |
CN114237402A (zh) * | 2021-12-28 | 2022-03-25 | 广州卓远虚拟现实科技有限公司 | 一种虚拟现实的空间移动控制***及方法 |
CN114237402B (zh) * | 2021-12-28 | 2024-01-23 | 广州卓远虚拟现实科技有限公司 | 一种虚拟现实的空间移动控制***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
WO2020232861A1 (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN105279495B (zh) | 一种基于深度学习和文本总结的视频描述方法 | |
Elsner et al. | Hurricane climatology: a modern statistical guide using R | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
US20120253792A1 (en) | Sentiment Classification Based on Supervised Latent N-Gram Analysis | |
US20180365209A1 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
CN110516074B (zh) | 一种基于深度学习的网站主题分类方法及装置 | |
CN105139237A (zh) | 信息推送的方法和装置 | |
CN103869998B (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别*** | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN106970981B (zh) | 一种基于转移矩阵构建关系抽取模型的方法 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN107861954A (zh) | 基于人工智能的信息输出方法和装置 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN110674642B (zh) | 一种用于含噪稀疏文本的语义关系抽取方法 | |
CN109460427A (zh) | 一种面向用户动态偏好挖掘的节目嵌入方法 | |
CN114625879A (zh) | 基于自适应变分编码器的短文本聚类方法 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及*** | |
CN110287326A (zh) | 一种带背景描述的企业情感分析方法 | |
CN113076744A (zh) | 一种基于卷积神经网络的文物知识关系抽取方法 | |
CN103279581A (zh) | 一种利用紧凑视频主题描述子进行视频检索的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190312 |