CN114117233A - 一种基于用户隐式反馈的会话新闻推荐方法及推荐*** - Google Patents

一种基于用户隐式反馈的会话新闻推荐方法及推荐*** Download PDF

Info

Publication number
CN114117233A
CN114117233A CN202111463595.0A CN202111463595A CN114117233A CN 114117233 A CN114117233 A CN 114117233A CN 202111463595 A CN202111463595 A CN 202111463595A CN 114117233 A CN114117233 A CN 114117233A
Authority
CN
China
Prior art keywords
article
news
vector
user
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111463595.0A
Other languages
English (en)
Inventor
龚珊三
朱其立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202111463595.0A priority Critical patent/CN114117233A/zh
Publication of CN114117233A publication Critical patent/CN114117233A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于用户隐式反馈的会话新闻推荐方法及推荐***,所述推荐方法包括以下步骤:获得每一篇新闻文章的文章向量;利用用户正隐式反馈获取所述新闻序列中每一篇新闻文章的注意力权重,获得会话向量;计算会话向量与待推荐新闻的文章向量间的余弦相似度,推送相应新闻文章;所述共现特征向量通过一共现特征编码学习模型获得,会话向量通过一会话表示模型获得,模型参数通过以下方式进行更新:计算会话向量和所有文章向量的余弦相似度,将用户真正点击的下一篇文章作为标签,考虑用户负隐式反馈,利用交叉熵构建损失函数,更新所述模型参数,用户负隐式反馈为曝光未点击的文章。与现有技术相比,本发明具有推荐准确性高等优点。

Description

一种基于用户隐式反馈的会话新闻推荐方法及推荐***
技术领域
本发明涉及信息推荐技术领域,尤其是涉及一种基于用户隐式反馈的会话新闻推荐方法及推荐***。
背景技术
在信息***的年代,互联网上信息量的快速增长,推荐***能够帮助用户缓解信息过载的问题,进而有效帮助用户在众多信息中选择自己感兴趣的内容。新闻内容更是如此,各大在线的新闻推荐平台(如BBC新闻、今日头条等)吸引了众多读者阅读,新闻平台需要从每天实时更新的海量新闻中筛选出读者感兴趣的内容,且尽量为不同的读者提供个性化服务。在这个过程中,新闻推荐***扮演了十分重要的角色。
国内外对于推荐***的研究已经发展得相对成熟,一些方法在某些领域已经可以取得不错的效果,例如基于内容的推荐、协同过滤等方法,还有一些基于深度神经网络的方法,在书籍、电影、商品的推荐上都有不错的应用。然而,与传统推荐***不同的是,新闻的推荐有更多复杂的特性,将带来不小的挑战,列举如下:用户画像极度稀疏:很多新闻网站允许匿名登录,因此大部分新闻网站的用户可能是临时登录的匿名用户,他们大多没用浏览记录,这对刻画用户画像带来困难,在短时间内掌握用户的偏好有一定挑战性;新闻随时间动态变化,新闻的数量每天在飞速增长,与此同时,一些新闻的时效性也随时间在飞速下降;用户的兴趣具有不确定性,对抓取用户偏好会造成一定干扰。
很多新闻推荐***是基于用户长期的阅读历史展开的,有的利用新闻标题里的命名实体并结合它们在知识图谱中的关系作为补充信息,有的通过挖掘新闻文章的质量以及追踪用户的反馈行为来进行推荐。总体来说,这类新闻推荐***是围绕用户和文章的协同关系展开的,而挖掘用户和文章协同关系的传统解决方案则是搭建用户-文章矩阵(User-Item矩阵)并进行矩阵分解,需要用到分解机。一些精心设计的深度神经网络,就是结合了分解机的力量来刻画用户和文章的关系。然而,在需要对新闻进行实时推荐的场景下,匿名用户和临时登陆用户的出现会导致严重的冷启动问题,如果想要在此场景下对用户的短期兴趣进行挖掘,静态的用户-文章矩阵难以胜任该任务。有相关研究提出增量矩阵分解,使得传统分解机可以解决新用户和新文章涌现的问题,也有相关研究通过训练可以快速迁移的模型来应对此情况。以上的方法都需要分析用户过去的兴趣偏好,使用的前提是识别用户,即需要创建用户配置文件以跟踪用户,此类推荐算法需要大量的用户反馈数据。在许多服务中,由于匿名登陆的存在,用户的信息可能是未知的,并且只有处于当前正在进行的会话中的用户历史行为可用。
在实时新闻推荐领域,有研究人员提出基于会话的推荐方案。一段会话是指用户在短时间内(如30分钟)的浏览行为,每一段会话持续时间短,且不同的会话一般由不同的用户产生。学习任务是给出每个会话前几条浏览记录的情况下,预测该会话中用户下一个可能会点击的文章。这种仅依赖于用户当前进行的会话中的动作序列来预测用户下一个动作的问题被称之为基于会话的推荐。在此场景下,所有用户都是冷启动用户,推荐***旨在利用同一会话内的前T个浏览历史(长度为T的序列)推测下一篇(第T+1篇)文章。基于会话的推荐***注重实时性,会话最近邻方法(SKNN)通过寻找和当前会话最相近的K个会话,并挖掘相似会话中的文章来进行推荐,在此基础上,相关研究通过计算内容相似度和会话相似度并选出联合相似度最高的前K篇文章(CBCF),也有研究对会话相似度加入时间衰减函数再进行计算(STAN)。近年来兴起的机器学习和深度学习在历史数据量巨大的情况下逐渐占有更大的优势,研究者将问题建模为序列化问题,通过循环神经网络(RNN),长短时记忆网络(LSTM)、图神经网络(GNN)来提取用户浏览行为的序列化信息,更进一步地,有研究利用引入注意力机制的混合编码器来对序列信息进行建模。
以上基于会话的推荐存在以下缺陷:(1)未能利用用户的隐式反馈,模型对用户的兴趣偏好理解有限;(2)非深度学习方法不能很好捕捉文章和文章之间的共现关系;(3)深度学习方法对文章的文本内容缺乏刻画,会导致文章冷启动问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种推荐准确性高、有效解决文章冷启动问题的基于用户隐式反馈的会话新闻推荐方法及推荐***。
本发明的目的可以通过以下技术方案来实现:
一种基于用户隐式反馈的会话新闻推荐方法,包括以下步骤:
对用户当前会话中点击过的新闻序列进行特征提取,获得每一篇新闻文章的文章向量,所述文章向量包括内容特征向量和共现特征向量;
利用用户正隐式反馈获取所述新闻序列中每一篇新闻文章的注意力权重,基于所述注意力权重和每一篇新闻文章对应的文章向量加权获得一会话向量,所述用户正隐式反馈为用户在每篇新闻文章上停留的时间;
计算所述会话向量与待推荐新闻的文章向量间的余弦相似度,基于所述余弦相似度推送相应新闻文章;
所述共现特征向量通过一共现特征编码学习模型获得,所述会话向量通过一会话表示模型获得,所述共现特征编码学习模型和会话表示模型的模型参数通过以下方式进行更新:
计算会话向量和所有文章向量的余弦相似度,并归一化,作为该会话中用户下一个点击对应文章的可能性,将用户真正点击的下一篇文章作为标签,通过负样本采样算法,考虑用户负隐式反馈,利用交叉熵构建损失函数,更新所述模型参数,所述用户负隐式反馈为曝光未点击的文章。
进一步地,所述内容特征向量通过以下方式获得:
利用word2vec对新闻文章的标题文本内容进行特征提取,结合新闻类别进行有监督分类训练,获得隐层向量作为代表文章主题的所述内容特征向量。
进一步地,所述共现特征向量通过以下方式获得:
对不同新闻文章进行随机初始化的隐式向量表示,提取文章与文章之间的共现特征,生成所述共现特征向量。
进一步地,所述会话向量的计算过程包括:
获取用户正隐式反馈,即用户在文章i上停留的时间ti,对时间ti进行离散化并分类,对每一个类别对应生成embedding向量tai,计算注意力权重αi
αi=W0×σ(W1×xci+W2×tai+b1),
其中,αi为所述新闻序列中新闻文章i的注意力权重,W0、W1、W2为权重矩阵,xci为文章向量,b1为偏置矩阵;
对所述注意力权重进行归一化,计算每篇文章的加权平均向量作为最后的会话向量:
Figure BDA0003390290430000041
Figure BDA0003390290430000042
其中,xs为会话向量,T是用户在当前会话阅读的新闻数量。
进一步地,所述损失函数表示为:
Figure BDA0003390290430000043
其中,S表示训练集中所有会话,yj=1表示文章j是当前会话中用户下一个点击的文章,反之yj=0;
Figure BDA0003390290430000044
表示模型预测的文章j作为当前会话中下一个被点击的文章的概率;xcj是负样本文章nj的文章向量,Ne表示负样本集合,λ是权重参数,1是指示函数,其值为1当且仅当表达式为真。
进一步地,所述负样本采样算法具体为:
按照新闻文章发布时间对所有文章进行排序,把用户真正点击的下一篇文章作为中心点,在一固定大小的滑动窗口中随机选择负样本,形成负样本集合。
进一步地,基于所述余弦相似度推送相应新闻文章具体为:
以所述余弦相似度作为对应文章的得分,对所有文章的分数进行排序,选取排名最高的若干篇文章,产生需要推送的新闻列表。
本发明还提供一种基于用户隐式反馈的会话新闻推荐***,包括:
新闻内容编码模块,用于对新闻文章的标题文本内容进行特征提取,结合新闻类别进行有监督分类训练,获得隐层向量作为代表文章主题的内容特征向量;
新闻共现特征编码学习模块,用于采用一共现特征编码学习模型提取文章与文章之间的共现特征,生成共现特征向量;
会话表示模块,利用用户正隐式反馈获取所述新闻序列中每一篇新闻文章的注意力权重,基于所述注意力权重和每一篇新闻文章对应的文章向量加权,通过一会话表示模型获得会话向量,所述用户正隐式反馈为用户在每篇新闻文章上停留的时间;
用户兴趣预测模块,基于所述会话向量预测用户下一次点击的文章,并对所述共现特征编码学习模型和会话表示模型的模型参数进行更新,具体地:
计算会话向量和所有文章向量的余弦相似度,并归一化,作为该会话中用户下一个点击对应文章的可能性,将用户真正点击的下一篇文章作为标签,通过负样本采样算法,考虑用户负隐式反馈,利用交叉熵构建损失函数,更新所述模型参数,所述用户负隐式反馈为曝光未点击的文章;
线上推荐模块,用于计算所述会话向量与待推荐新闻的文章向量间的余弦相似度,基于所述余弦相似度推送相应新闻文章。
进一步地,所述会话向量的计算过程包括:
获取用户正隐式反馈,即用户在文章i上停留的时间ti,对时间ti进行离散化并分类,对每一个类别对应生成embedding向量tai,计算注意力权重αi
αi=W0×σ(W1×xci+W2×tai+b1),
其中,αi为所述新闻序列中新闻文章i的注意力权重,W0、W1、W2为权重矩阵,xci为文章向量,b1为偏置矩阵;
对所述注意力权重进行归一化,计算每篇文章的加权平均向量作为最后的会话向量:
Figure BDA0003390290430000051
Figure BDA0003390290430000052
其中,xs为会话向量,T是用户在当前会话阅读的新闻数量。
进一步地,所述损失函数表示为:
Figure BDA0003390290430000053
其中,S表示训练集中所有会话,yj=1表示文章j是当前会话中用户下一个点击的文章,反之yj=0;
Figure BDA0003390290430000054
表示模型预测的文章j作为当前会话中下一个被点击的文章的概率;xcj是负样本文章nj的文章向量,Ne表示负样本集合,λ是权重参数,
Figure BDA0003390290430000055
是指示函数,其值为1当且仅当表达式为真。
与现有技术相比,本发明具有以下有益效果:
1、本发明对文章内容进行向量表示,有效克服新闻文章不断涌现的冷启动问题;
2、本发明对新闻文章提取的特征还包括共现特征,,可以帮助模型学习文章和文章之间的共现关系,提高推荐准确性;
3、本发明通过对用户正隐式反馈(在文章上停留的时间)、用户负隐式反馈(曝光未点击的文章)进行建模,帮助模型学习到当前会话中用户的兴趣偏好,在离线数据上进行准确率测试,可以获得比传统方法分数更高的推荐结果。
附图说明
图1为本发明的推荐过程示意图;
图2为本发明的模型参数更新示意图;
图3为本发明内容特征向量获取过程示意图;
图4为本发明会话向量获取过程及参数更新的示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图1所示,本实施例提供一种基于用户隐式反馈的会话新闻推荐方法,包括以下步骤:
获取会话数据,对用户当前会话中点击过的新闻序列进行特征提取,获得每一篇新闻文章的文章向量,所述文章向量包括内容特征向量和共现特征向量,内容特征向量和共现特征向量连接形成文章向量;
获取会话数据,利用用户正隐式反馈获取所述新闻序列中每一篇新闻文章的注意力权重,基于所述注意力权重和当前会话中每一篇新闻文章对应的文章向量加权获得一会话向量,所述用户正隐式反馈为用户在每篇新闻文章上停留的时间;
计算所述会话向量与待推荐新闻的文章向量间的余弦相似度,基于所述余弦相似度推送相应新闻文章,具体可为:以所述余弦相似度作为对应文章的得分,对所有文章的分数进行排序,选取排名最高的若干篇文章,产生需要推送的新闻列表。
上述共现特征向量通过一共现特征编码学习模型获得,会话向量通过一会话表示模型获得,如图2所示,所述共现特征编码学习模型和会话表示模型的模型参数基于会话向量实现更新,具体通过以下方式进行更新:
计算会话向量和所有文章向量的余弦相似度,并归一化,作为该会话中用户下一个点击对应文章的可能性,将用户真正点击的下一篇文章作为标签,通过负样本采样算法,考虑用户负隐式反馈,利用交叉熵构建损失函数,使用Adam优化器更新所述模型参数,所述用户负隐式反馈为曝光未点击的文章。
内容特征向量通过以下方式获得:利用word2vec对新闻文章的标题文本内容进行特征提取,结合新闻类别进行有监督分类训练,获得隐层向量作为代表文章主题的所述内容特征向量。如图3所示,有监督分类训练具体为:
I、加载***内的新闻文章内容,包括新闻标题和新闻类别,对文章标题使用word2vec编码;
II、加载word2vec中预训练的词向量,对标题中所有单词的词向量并行经过3个一维卷积神经网络和池化网络;
III、连接3路并行向量并通过两层全连接网络;
IV、在分类层预测、训练、更新文章所属的类别;
V、待模型收敛后,获取最后一层全连接层的隐式向量,作为文章内容的向量表示,所采用的交叉熵损失函数表示为
Figure BDA0003390290430000071
其中,N为所有文章数量,yi是文章i的类别编码,
Figure BDA0003390290430000072
是全连接层输出的预测出的每个类别的概率,θ是模型的参数,λ是正则化比例参数。
共现特征向量通过以下方式获得:对不同新闻文章进行随机初始化的隐式向量表示,提取文章与文章之间的共现特征,生成所述共现特征向量。
如图4所示,会话向量使用注意力网络编码获得,具体过程包括:
分别编码文章向量(文章内容特征向量和文章共现特征向量)和用户停留时间的向量,用户停留时间的向量作为用户正隐式反馈。对用户停留时间的处理具体为:用户在文章i上停留的时间ti,对时间ti进行离散化,t’i=[log2ti],并离散变量t’i分类为,≤1、1~2、2~3、3~4、4~5、5~6、6~7、7~8、8~9、9~10、>10共11个类别,对每一个类别对应生成embedding向量tai,计算注意力权重αi
αi=W0×σ(W1×cci+W2×tai+b1),
其中,αi为所述新闻序列中新闻文章i的注意力权重,W0、W1、W2为权重矩阵,xci为文章向量,b1为偏置矩阵。
对所述注意力权重进行归一化,计算每篇文章的加权平均向量作为最后的会话向量:
Figure BDA0003390290430000081
Figure BDA0003390290430000082
其中,xs为会话向量,T是用户在当前会话阅读的新闻数量。
在获得会话向量后,使用交叉熵损失函数最大化会话向量和下一篇文章的向量的相似度,最小化会话向量和其他文章的向量的相似度,进一步,最小化会话向量和曝光未点击文章的向量的相似度,曝光未点击的文章向量在下一篇点击的文章发布时间附近的文章中进行采样。使用Adam优化器更新模型参数,使用命中率(HR)衡量推荐***的稳定性,当HR分数降低时,停止训练迭代,得到最优的模型参数。所述损失函数表示为:
Figure BDA0003390290430000083
其中,S表示训练集中所有会话,yj=1表示文章j是当前会话中用户下一个点击的文章,反之yj=0;
Figure BDA0003390290430000084
表示模型预测的文章j作为当前会话中下一个被点击的文章的概率;xcj是负样本文章nj的文章向量,Ne表示负样本集合,λ是权重参数,
Figure BDA0003390290430000085
是指示函数,其值为1当且仅当表达式为真。
曝光未点击的文章基于负样本采样算法获得,具体为:按照新闻文章发布时间对所有文章进行排序,把用户真正点击的下一篇文章作为中心点,在一固定大小的滑动窗口中随机选择负样本,形成负样本集合。本实施例中,固定大小为200。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例2
本实施例提供一种基于用户隐式反馈的会话新闻推荐***,包括新闻内容编码模块、新闻共现特征编码学习模块、会话表示模块、用户兴趣预测模块和线上推荐模块,其中,新闻内容编码模块用于对新闻文章的标题文本内容进行特征提取,结合新闻类别进行有监督分类训练,获得隐层向量作为代表文章主题的内容特征向量;新闻共现特征编码学习模块用于采用一共现特征编码学习模型提取文章与文章之间的共现特征,生成共现特征向量;会话表示模块利用用户正隐式反馈获取所述新闻序列中每一篇新闻文章的注意力权重,基于所述注意力权重和每一篇新闻文章对应的文章向量加权,通过一会话表示模型获得会话向量,所述用户正隐式反馈为用户在每篇新闻文章上停留的时间;用户兴趣预测模块,基于所述会话向量预测用户下一次点击的文章,并对所述共现特征编码学习模型和会话表示模型的模型参数进行更新;线上推荐模块,用于计算所述会话向量与待推荐新闻的文章向量间的余弦相似度,基于所述余弦相似度推送相应新闻文章。
上述推荐***中,新闻内容编码模块利用word2vec对新闻文章的标题文本内容进行特征提取,结合新闻类别进行有监督分类训练,获得隐层向量作为代表文章主题的向量表示;新闻共现特征编码学习模块用于对不同新闻文章进行随机初始化的隐式向量表示,然后在用户兴趣预测模块对该向量进行学习更新,提取文章与文章之间的共现特征;会话表示模块在单个会话中,按照点击顺序标记用户点击的文章,结合注意力机制对该序列进行特征抽取和向量表示,并引入用户在每篇新闻文章上停留的时间信息;用户兴趣预测模块基于会话表示模块的输出预测用户下一次点击的文章,采用Adam优化器优化更新新闻共现特征编码学习模块和会话表示模块中的模型参数。
采用用户兴趣预测模块进行新闻共现特征编码学习模块和会话表示模块中模型参数更新的过程具体可为:
计算会话向量xs和所有文章向量xcj的余弦相似度zj=xs·xcj,对该分数进行softmax归一化,作为该会话中用户下一个点击对应文章的可能性,将用户真正点击的下一篇文章作为标签,通过负样本采样算法,考虑用户负隐式反馈,利用交叉熵构建损失函数,使用Adam优化器更新所述模型参数,所述用户负隐式反馈为曝光未点击的文章。
其余同实施例1。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于用户隐式反馈的会话新闻推荐方法,其特征在于,包括以下步骤:
对用户当前会话中点击过的新闻序列进行特征提取,获得每一篇新闻文章的文章向量,所述文章向量包括内容特征向量和共现特征向量;
利用用户正隐式反馈获取所述新闻序列中每一篇新闻文章的注意力权重,基于所述注意力权重和每一篇新闻文章对应的文章向量加权获得一会话向量,所述用户正隐式反馈为用户在每篇新闻文章上停留的时间;
计算所述会话向量与待推荐新闻的文章向量间的余弦相似度,基于所述余弦相似度推送相应新闻文章;
所述共现特征向量通过一共现特征编码学习模型获得,所述会话向量通过一会话表示模型获得,所述共现特征编码学习模型和会话表示模型的模型参数通过以下方式进行更新:
计算会话向量和所有文章向量的余弦相似度,并归一化,作为该会话中用户下一个点击对应文章的可能性,将用户真正点击的下一篇文章作为标签,通过负样本采样算法,考虑用户负隐式反馈,利用交叉熵构建损失函数,更新所述模型参数,所述用户负隐式反馈为曝光未点击的文章。
2.根据权利要求1所述的基于用户隐式反馈的会话新闻推荐方法,其特征在于,所述内容特征向量通过以下方式获得:
利用word2vec对新闻文章的标题文本内容进行特征提取,结合新闻类别进行有监督分类训练,获得隐层向量作为代表文章主题的所述内容特征向量。
3.根据权利要求1所述的基于用户隐式反馈的会话新闻推荐方法,其特征在于,所述共现特征向量通过以下方式获得:
对不同新闻文章进行随机初始化的隐式向量表示,提取文章与文章之间的共现特征,生成所述共现特征向量。
4.根据权利要求1所述的基于用户隐式反馈的会话新闻推荐方法,其特征在于,所述会话向量的计算过程包括:
获取用户正隐式反馈,即用户在文章i上停留的时间ti,对时间ti进行离散化并分类,对每一个类别对应生成embedding向量tai,计算注意力权重αi
αi=W0×σ(W1×xci+W2×tai+b1),
其中,αi为所述新闻序列中新闻文章i的注意力权重,W0、W1、W2为权重矩阵,xci为文章向量,b1为偏置矩阵;
对所述注意力权重进行归一化,计算每篇文章的加权平均向量作为最后的会话向量:
Figure FDA0003390290420000021
Figure FDA0003390290420000022
其中,xs为会话向量,T是用户在当前会话阅读的新闻数量。
5.根据权利要求1所述的基于用户隐式反馈的会话新闻推荐方法,其特征在于,所述损失函数表示为:
Figure FDA0003390290420000023
其中,S表示训练集中所有会话,yj=1表示文章j是当前会话中用户下一个点击的文章,反之yj=0;
Figure FDA0003390290420000024
表示模型预测的文章j作为当前会话中下一个被点击的文章的概率;xcj是负样本文章nj的文章向量,Ne表示负样本集合,λ是权重参数,
Figure FDA0003390290420000025
是指示函数,其值为1当且仅当表达式为真。
6.根据权利要求1所述的基于用户隐式反馈的会话新闻推荐方法,其特征在于,所述负样本采样算法具体为:
按照新闻文章发布时间对所有文章进行排序,把用户真正点击的下一篇文章作为中心点,在一固定大小的滑动窗口中随机选择负样本,形成负样本集合。
7.根据权利要求1所述的基于用户隐式反馈的会话新闻推荐方法,其特征在于,基于所述余弦相似度推送相应新闻文章具体为:
以所述余弦相似度作为对应文章的得分,对所有文章的分数进行排序,选取排名最高的若干篇文章,产生需要推送的新闻列表。
8.一种基于用户隐式反馈的会话新闻推荐***,其特征在于,包括:
新闻内容编码模块,用于对新闻文章的标题文本内容进行特征提取,结合新闻类别进行有监督分类训练,获得隐层向量作为代表文章主题的内容特征向量;
新闻共现特征编码学习模块,用于采用一共现特征编码学习模型提取文章与文章之间的共现特征,生成共现特征向量;
会话表示模块,利用用户正隐式反馈获取所述新闻序列中每一篇新闻文章的注意力权重,基于所述注意力权重和每一篇新闻文章对应的文章向量加权,通过一会话表示模型获得会话向量,所述用户正隐式反馈为用户在每篇新闻文章上停留的时间;
用户兴趣预测模块,基于所述会话向量预测用户下一次点击的文章,并对所述共现特征编码学习模型和会话表示模型的模型参数进行更新,具体地:
计算会话向量和所有文章向量的余弦相似度,并归一化,作为该会话中用户下一个点击对应文章的可能性,将用户真正点击的下一篇文章作为标签,通过负样本采样算法,考虑用户负隐式反馈,利用交叉熵构建损失函数,更新所述模型参数,所述用户负隐式反馈为曝光未点击的文章;
线上推荐模块,用于计算所述会话向量与待推荐新闻的文章向量间的余弦相似度,基于所述余弦相似度推送相应新闻文章。
9.根据权利要求8所述的基于用户隐式反馈的会话新闻推荐***,其特征在于,所述会话向量的计算过程包括:
获取用户正隐式反馈,即用户在文章i上停留的时间ti,对时间ti进行离散化并分类,对每一个类别对应生成embedding向量tai,计算注意力权重αi
αi=W0×σ(W1×cci+W2×tai+b1),
其中,αi为所述新闻序列中新闻文章i的注意力权重,W0、W1、W2为权重矩阵,xci为文章向量,b1为偏置矩阵;
对所述注意力权重进行归一化,计算每篇文章的加权平均向量作为最后的会话向量:
Figure FDA0003390290420000031
Figure FDA0003390290420000032
其中,xs为会话向量,T是用户在当前会话阅读的新闻数量。
10.根据权利要求8所述的基于用户隐式反馈的会话新闻推荐***,其特征在于,所述损失函数表示为:
Figure FDA0003390290420000041
其中,S表示训练集中所有会话,yj=1表示文章j是当前会话中用户下一个点击的文章,反之yj=0;
Figure FDA0003390290420000042
表示模型预测的文章j作为当前会话中下一个被点击的文章的概率;xcj是负样本文章nj的文章向量,Ne表示负样本集合,λ是权重参数,
Figure FDA0003390290420000043
是指示函数,其值为1当且仅当表达式为真。
CN202111463595.0A 2021-12-03 2021-12-03 一种基于用户隐式反馈的会话新闻推荐方法及推荐*** Pending CN114117233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111463595.0A CN114117233A (zh) 2021-12-03 2021-12-03 一种基于用户隐式反馈的会话新闻推荐方法及推荐***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111463595.0A CN114117233A (zh) 2021-12-03 2021-12-03 一种基于用户隐式反馈的会话新闻推荐方法及推荐***

Publications (1)

Publication Number Publication Date
CN114117233A true CN114117233A (zh) 2022-03-01

Family

ID=80366600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111463595.0A Pending CN114117233A (zh) 2021-12-03 2021-12-03 一种基于用户隐式反馈的会话新闻推荐方法及推荐***

Country Status (1)

Country Link
CN (1) CN114117233A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501966A (zh) * 2023-04-28 2023-07-28 浙江纳里数智健康科技股份有限公司 5g应用领域中一种考虑用户正负隐式反馈关联的医疗资讯推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109709A1 (en) * 2015-09-09 2017-04-20 Steven Wu Computerized systems and methods for offline activity management
CN109189944A (zh) * 2018-09-27 2019-01-11 桂林电子科技大学 基于用户正负反馈画像编码的个性化景点推荐方法及***
CN113065062A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种基于用户阅读时间行为的新闻推荐方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109709A1 (en) * 2015-09-09 2017-04-20 Steven Wu Computerized systems and methods for offline activity management
CN109189944A (zh) * 2018-09-27 2019-01-11 桂林电子科技大学 基于用户正负反馈画像编码的个性化景点推荐方法及***
CN113065062A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种基于用户阅读时间行为的新闻推荐方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENYAN ZHANG等: "Attention-based Deep Reinforcement Learning Model for Pair-Wise Interaction Recommendation", 《2019 6TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND CONTROL ENGINEERING (ICISCE)》, 4 June 2020 (2020-06-04), pages 1 - 10 *
GONG SHANSAN等: "Positive,negative and neutral modeling implicit feedback in session-based news recommendation", 《PROCEEDINGS OF THE 45TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIVAL》, 7 July 2022 (2022-07-07), pages 1185 - 1195 *
周望: "基于机器学习的推荐***关键技术及其应用研究", 《中国博士学位论文全文数据库 信息科技辑》, 15 July 2020 (2020-07-15), pages 138 - 40 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501966A (zh) * 2023-04-28 2023-07-28 浙江纳里数智健康科技股份有限公司 5g应用领域中一种考虑用户正负隐式反馈关联的医疗资讯推荐方法
CN116501966B (zh) * 2023-04-28 2023-11-14 浙江纳里数智健康科技股份有限公司 5g应用领域中一种考虑用户正负隐式反馈关联的医疗资讯推荐方法

Similar Documents

Publication Publication Date Title
Yuan et al. Expert finding in community question answering: a review
CN110442781B (zh) 一种基于生成对抗网络的对级排序项目推荐方法
Bansal et al. Ask the gru: Multi-task learning for deep text recommendations
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN111177575A (zh) 一种内容推荐方法、装置、电子设备和存储介质
Zhang et al. Dynamic attention-integrated neural network for session-based news recommendation
CN110232109A (zh) 一种网络舆情分析方法以及***
Ma et al. App2vec: Vector modeling of mobile apps and applications
CN111061962A (zh) 一种基于用户评分分析的推荐方法
CN111222039B (zh) 一种基于长短期兴趣组合的会话推荐方法及***
CN113806630B (zh) 基于注意力的多视角特征融合跨域推荐方法及装置
CN114519145A (zh) 一种基于图神经网络挖掘用户长短期兴趣的序列推荐方法
US20230169271A1 (en) System and methods for neural topic modeling using topic attention networks
Chen et al. Context-aware ensemble of multifaceted factorization models for recommendation prediction in social networks
CN114117233A (zh) 一种基于用户隐式反馈的会话新闻推荐方法及推荐***
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
Lin et al. Transfer learning for collaborative recommendation with biased and unbiased data
Gui et al. Training recurrent neural network on distributed representation space for session-based recommendation
Cai et al. An attention-based friend recommendation model in social network
Kumar et al. Session-based recommendations with sequential context using attention-driven LSTM
Zeng et al. User Personalized Recommendation Algorithm Based on GRU Network Model in Social Networks
Arbaatun et al. Hate speech detection on Twitter through Natural Language Processing using LSTM model
CN112559905B (zh) 一种基于双模式注意力机制和社交相似度的会话推荐方法
Dziczkowski et al. An opinion mining approach for web user identification and clients' behaviour analysis
CN116049377A (zh) 一种基于矩阵分解和crnn的上下文感知推荐***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination