CN110457581A - 一种资讯推荐方法、装置、电子设备及存储介质 - Google Patents

一种资讯推荐方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110457581A
CN110457581A CN201910712063.2A CN201910712063A CN110457581A CN 110457581 A CN110457581 A CN 110457581A CN 201910712063 A CN201910712063 A CN 201910712063A CN 110457581 A CN110457581 A CN 110457581A
Authority
CN
China
Prior art keywords
information
label
recalled
user
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910712063.2A
Other languages
English (en)
Other versions
CN110457581B (zh
Inventor
文辉
陈运文
纪达麒
郝俊禹
周颢钰
吴威骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daerguan Information Technology (shanghai) Co Ltd
Original Assignee
Daerguan Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daerguan Information Technology (shanghai) Co Ltd filed Critical Daerguan Information Technology (shanghai) Co Ltd
Priority to CN201910712063.2A priority Critical patent/CN110457581B/zh
Publication of CN110457581A publication Critical patent/CN110457581A/zh
Application granted granted Critical
Publication of CN110457581B publication Critical patent/CN110457581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种资讯推荐方法、装置、电子设备及存储介质,其中,该方法包括:确定所述用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量;基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯;将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率,并基于所述点击率对召回的所有资讯进行排序;基于排序结果对用户进行资讯推荐。本发明实施例提供的技术方案可以使召回的资讯具有多样性和新颖性,从而加大推荐资讯的多样性以及新颖性,可以为用户拓展更多感兴趣的资讯,提高资讯的点击率。

Description

一种资讯推荐方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种资讯推荐方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的快速发展,越来越多的用户通过计算机设备(例如,智能手机、个人电脑等)获取资讯信息,但是如今的信息呈现***式增长,海量信息使得用户难以寻找到自己所需的信息。资讯信息流产品应运而生,可以根据用户的喜好将资讯进行精准分发推送。
资讯信息流产品需要用户在与计算机设备不断交互的过程中,需要加大推荐资讯的新颖性和多样性,更好的满足用户的兴趣探索需求,即在满足用户消费相关资讯的同时,还可以拓展用户感兴趣的资讯。
发明内容
本发明实施例提供了一种资讯推荐方法、装置、电子设备及存储介质,可以使召回的资讯具有多样性和新颖性,从而加大推荐资讯的多样性以及新颖性,可以为用户拓展更多感兴趣的资讯,提高资讯的点击率。
第一方面,本发明实施例提供了一种资讯推荐方法,包括:
确定用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量;
基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯;
将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率,并基于所述点击率对召回的所有资讯进行排序;
基于排序结果对用户进行资讯推荐。
第二方面,本发明实施例还提供了一种资讯推荐装置,包括:
资讯向量确定模块,用于确定用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量;
召回模块,用于基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯;
点击率确定模块,用于将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率;
推荐模块,用于基于所述点击率对召回的所有资讯进行排序,并基于排序结果对用户进行资讯推荐。
第三方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的一种资讯推荐方法。
第四方面,本发明实施例提供的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例提供的一种资讯推荐方法。
本发明实施例提供的技术方案,通过将用户最近点击的M个资讯中每个资讯的标签向量的算术平均值作为对应的资讯向量,并基于资讯向量的相似度召回K个资讯,并将召回的资讯以及召回每个资讯的关联特征输入到数学模型中,得到召回的每个资讯的点击率,并基于点击率将资讯进行排序,基于排序结果对用户进行资讯推荐;其中,资讯向量不依赖与行为数据,且能进行语义扩展,可以使召回的资讯具有多样性和新颖性,避免标签召回带来的结果收敛问题,从而加大推荐资讯的多样性以及新颖性,可以为用户拓展更多感兴趣的资讯,提高资讯的点击率。
附图说明
图1是本发明实施例提供的一种资讯推荐方法流程图;
图2是本发明实施例提供的一种资讯推荐方法流程图;
图3是本发明实施例提供的一种资讯推荐方法流程图
图4a是本发明实施例提供的一种资讯推荐方法流程图
图4b是本发明实施例提供的一种资讯推荐方法流程图;
图5是本发明实施例提供的一种资讯推荐装置结构框图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1是本发明实施例提供的一种资讯推荐方法流程图,所述方法可以由资讯推荐装置来执行,所述装置可以由软件和/或硬件来实现,所述装置可以配置在终端或者服务器等电子设备中。
如图1所示,本发明实施例提供的技术方案包括:
S110:确定所述用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量。
在本发明实施例中,用户最近点击的M个资讯是指将用户点击的资讯按照时间顺序进行排序,取后M个资讯作为用户最近点击的M个资讯。其中,M为正整数。
在本发明实施例的一个实施方式中,可选的,所述将每个资讯的标签向量的算数平均值作为对应的资讯向量,包括:针对每个资讯,确定所述资讯的所有标签中权重值最高的n个标签;将所述n个标签分别输入到词向量模型中,分别得每个标签向量;基于得到的每个标签向量计算算数平均值,并将所述算数平均值作为资讯向量。其中,标签可以是对资讯添加的识别标记,一个资讯可以有一个或者多个标签。标签向量可以是将标签输入到词向量模型中得到的向量,其中,标签向量中的元素可以是数值。
具体的,针对每个资讯,将资讯的所有标签按照权重值从大到小进行排序,前n个标签为权重值最高的n个标签。词向量模型是已训练的模型,将标签输入到词向量模型可以得到标签向量。将n个标签分别输入到词向量模型中,得到对应的n个标签向量,计算n个标签向量的算数平均值,将该算数平均值作为资讯向量。
例如,用户最近点击的4个资讯,针对其中的一个资讯item,item的标签集合为该资讯权重值最高的4个标签,即t1、t2、t3、t4。w2v_t{1,4}可以表示标签t{1,4}的200维word2vec(w2v)向量,item向量可以表示为:emb_i,emb_i为4个标签word2vec向量的算术平均值,即:
其中,如果标签不存在标签向量,则标签向量设为200维0向量。
S120:基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯。
在本发明实施例中,资讯向量的相似度的计算方法可以是相关技术中向量相似度的计算方法,例如可以通过熵判断向量的相似度,或者还可以通过相关技术中的其他方法确定向量的相似度。
在本发明实施例的一个实施方式中,可选的,所述基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯,包括:从所有资讯中去除点击率不满足第一预设条件的资讯,得到剩余资讯;将所述剩余资讯按照与所述M个资讯中每个资讯的资讯向量相似度分别进行排序,分别取前K1个资讯,并进行汇总得到K个召回的资讯。
其中,第一预设条件可以根据需要进行设定,例如,第一预设条件可以是低于总体点击率50%。其中,总体点击率是所有资讯的点击率的平均值。
具体的,统计每个资讯的点击率,统计每个资讯的点击率和全体资讯的总体点击率,去除点击率低于总体点击率50%的低质量资讯。计算每个资讯以及对应的资讯向量并保存至faiss(一种开源的稠密向量检索和聚类框架)中。若用户最近点击的是4个资讯,则分别采用4个资讯的资讯向量在faiss中召回16个相似度最高的资讯。
由此,通过采用资讯向量的相似度召回资讯,可以带来标签语义上的扩展,避免标签召回带来的结果收敛问题。例如,若标签是英超、西甲,若通过标签进行资讯召回,则召回结果中很难出现意甲标签的结果。
S130:将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率,并基于所述点击率对召回的所有资讯进行排序。
在本发明实施例中,数学模型可以是学习排序模型,学习排序模型可以采用深度因子分解机(deep Factorization Machine,DeepFM)模型,DeepFM模型是一种同时训练FM模型和DNN的深度模型;相比FM模型,DeepFM模型不仅具备FM模型对二阶特征组合建模的能力,而且利用DNN模型学习高阶特征组合,更易于推荐出新颖的资讯。
在本发明实施例中,可选的,关联特征包括:召回的资讯的分别与用户最近点击的M个资讯的资讯向量相似度;召回的资讯的类别点击率/点击数;召回的资讯中标签的点击率/点击数据;以及召回的资讯针对用户的特征数据。可选的,召回的资讯针对用户的特征数据可以包括各个用户点击资讯的次数、各个用户的行为数据等。
其中,召回的资讯的分别与用户最近点击的M个资讯的资讯向量相似度可以被认为是资讯向量相似度特征,可以体现用户兴趣的探索能力,通过数据模型的输出结果可以体现用户的深度兴趣挖掘和探索能力。其中,召回的资讯的类别点击率/点击数,以及召回的资讯中标签的点击率/点击数据可以被认为是会话周内的反馈特征,可以体现用户兴趣的变化,将用户最近的兴趣变化反应到推荐结果中,根据数据模型的输出结果可以强化体现用户的兴趣实时反馈,例如用户长期偏好特征是喜好足球,但是最近曝光的3个足球类资讯并没有被点击,则需要将该负反馈信息输入到数学模型中,通过将会话周期的反馈特征输入到数据模型中,可以强化用户的兴趣实时反馈。
在本发明实施例中,在将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中之前,还可以包括对数学模型进行训练。具体是:被推荐资讯针对用户的特征数据,例如用户行为数据,用户长短期特征数据等生成训练样本;其中,为了体现短期兴趣变化,加入会话周期内的反馈特征;为了体现兴趣探索的能力加入资讯向量相似度特征,可以避免模型的过度利用。会话周内的反馈特征:被推荐资讯的曝光类别的点击率/点击数、被推荐资讯曝光标签的点击率/点击数。其中,资讯向量相似度特征:被推荐资讯的资讯向量与用户最近4个点击资讯向量的相似度。可选的,根据被推荐资讯的上述多维度的特征输入数学模型中,以对模型进行训练,并由模型提供排序打分。
S140:基于排序结果对用户进行资讯推荐。
在本发明实施例中实施例的一个实施方式中,可选的,可以将召回的资讯基于点击率从大到小进行排序,从前至后可以取预设数量的资讯,作为向用户推荐的资讯。
在本发明实施例的一个实施方式中,可选的,可以将召回的资讯基于点击率从大到小进行排序,并将排序后的资讯基于设定限制条件进行重排序,从前至后取预设数量的资讯。设定限制条件可以是同类别或者同主题的资讯的数量小于设定数量,或者是同一召回策略的资讯的数量小于设定数量,或者也可以根据需要设定其他条件。由此,通过基于设定限制条件进行重排序,可以提高推荐资讯的多样性和新颖性,可以提高冷启动资讯的曝光比例,使***可以循环良性发展。
本发明实施例提供的技术方案,通过将用户最近点击的M个资讯中每个资讯的标签向量的算术平均值作为对应的资讯向量,并基于资讯向量的相似度召回K个资讯,并将召回的资讯以及召回每个资讯的关联特征输入到数学模型中,得到召回的每个资讯的点击率,并基于点击率将资讯进行排序,基于排序结果对用户进行资讯推荐;其中,资讯向量不依赖与行为数据,且能进行语义扩展,避免标签召回带来的结果收敛问题,从而可以为用户提供更多感兴趣的资讯,从而提高资讯的点击率。
图2是本发明实施例提供的一种资讯推荐方法流程图,本实施例中的可选方案可以与上述实施例中的一个或者多个可选方案进行结合。
在本发明实施例中,可选的,所述方法还可以包括:
确定用户的偏好标签;
针对所述用户的每个偏好标签,确定含所述偏好标签的多个新资讯,并从所述多个新资讯中通过上限信息界UCB策略召回N个含所述偏好标签的新资讯。
如图2所示,本发明实施例提供的技术方案包括:
S210:确定所述用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量。
S220:基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯。
S230:确定用户的偏好标签。
在本发明实施例中的一个实施方式中,可选的,所述确定用户的偏好标签,包括:确定预设时间段内用户点击的资讯以及最近点击的M1个资讯,确定用户对所述资讯中标签的偏好值;针对预设时间段内用户点击的资讯,按照偏好值从大到小对资讯中的标签进行排序,并取前N1个标签作为用户长期偏好标签;针对用户最近点击的M1个资讯,按照偏好值从大到小对资讯中的标签进行排序,取前N2个标签作为用户短期偏好标签。
其中,预设时间段可以是最近1个月内。M1和N1可以是正整数,M1可以取64,N1也可以取64。可选的,用户对资讯中标签的偏好值可以是如下的计算方式:对于标签t,用户u对标签t的偏好值,即等于点击的含标签t的资讯集合中的标签t权重值的总和,除以标签t的点击总人数。其中,点击的含标签t的资讯集合是指各个用户点击的资讯中含标签t的资讯形成的集合,标签t在每个资讯中均有权重值,并且标签t在不同资讯中的权重值可以是不相同的。
具体的,针对最近1个月内用户点击的资讯,按照偏好值从大到小对资讯中的标签进行排序,可以取前64个作为用户的长期偏好标签,针对用户最近点击的64个资讯,按照偏好值从大到小对资讯中的标签进行排序,取前N2个标签作为用户的短期偏好标签。其中,用户长期偏好标签和短期偏好标签可以作为用户的偏好标签。其中,N2为正整数。
S240:针对所述用户的每个偏好标签,确定含所述偏好标签的多个新资讯,并从所述多个新资讯中通过上限信息界UCB策略召回N个含所述偏好标签的新资讯。
在本发明实施例中,具体的,针对每个偏好标签,确定含偏好标签的多个新资讯,将多个新资讯按照UCB得分从高到低进行排序,取N个含偏好标签的新资讯。不同的偏好标签召回的含偏好标签的新资讯的数量可以是不相同的。
具体的,举例说明,针对用户偏好标签t,通过检索可以查找含标签t的128个新资讯。当为用户u召回含该标签t的新资讯时,需要计算128个新资讯的UCB得分,按照得分高低选择若干个新资讯。
若新资讯的召回数量为总数是128个,标签t的新资讯的召回数量为N个,N为召回总数乘以标签t针对用户的权重比例,即:其中,biasu_t为标签t针对用户权重值。
在本发明实施例中,可选的,基于UCB策略的新资讯召回方式可以是如下方式:计算128个新资讯的总曝光:total_pv=sum(pv_i);其中,pv_i为每个新资讯的曝光率,total_pv为总曝光率。
其中,可以基于如下公式计算每个新资讯i UCB得分:
其中,clicki为新资讯i的点击率;UCB_i为第i个新资讯的UCB得分;α参数控制探索利用部分的权重占比,可取0.4。
在本发明实施例中,针对用户的每个偏好标签,通过计算含偏好标签的每个新资讯的UCB得分,并将新资讯按照从大到小进行排序,取前N个含偏好标签的新资讯,作为针对每个偏好标签召回的资讯。
S250:将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率,并基于所述点击率对召回的所有资讯进行排序。
在本发明实施例中,召回的资讯包括基于资讯向量的相似度召回的K个资讯,以及基于UCB策略召回的新资讯。
S260:基于排序结果对用户进行资讯推荐。
其中,本发明实施例中相关步骤的介绍可以参考上述实施例。
需要说明的是,本发明实施例提供的技术方案中,S210-S240各个步骤的执行顺序可以按照需要进行调整。例如,S230和S240,可以在S210或者S220之前,或者S230可以在S210或者S220之前。
在相关技术中,资讯信息流产品需要用户在与计算机设备不断交互的过程中,需要加大推荐资讯的新颖性和多样性,更好的满足用户的兴趣探索需求,即在满足用户消费相关资讯的同时,还可以拓展用户感兴趣的资讯;本发明实施例通过将用户最近点击的M个资讯中每个资讯的标签向量的算术平均值作为对应的资讯向量,并基于资讯向量的相似度召回K个资讯,资讯向量不依赖与行为数据,且能进行语义扩展,可以使召回资讯具有多样性,避免标签召回带来的结果收敛问题,从而可以为用户提供更多感兴趣的资讯,加大推荐资讯的多样性和新颖性。
相关技术中,资讯信息流产品需要快速响应用户反馈,特别是用户的实时兴趣变化,避免影响到资讯召回、排序以及推荐;并且需要以最小的流量代价试验出新资讯的质量好坏,降低探索成本;本发明实施例通结合用户的偏好标签,基于UCB策略对新资讯进行召回,可以快速反馈用户的实时兴趣变化,避免对资讯召回、排序、推荐的影响,可以加速新资讯探索的效率,显著提高新资讯探索曝光的几率,并提高新资讯的点击几率。
图3是本发明实施例提供的一种资讯推荐方法流程图,本实施例中的可选方案可以与上述实施例中的一个或者多个可选方案进行结合。在本发明实施例中,可选的,所述方法还可以包括:
从所有资讯中,召回含所述偏好标签,且资讯参数满足第二预设条件的资讯。
如图3所示,本发明实施例提供的技术方案包括:
S310:确定所述用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量。
S320:基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯。
S330:确定用户的偏好标签。
S340:针对所述用户的每个偏好标签,确定含所述偏好标签的多个新资讯,并从所述多个新资讯中通过上限信息界UCB策略召回N个含所述偏好标签的新资讯。
S350:从所有资讯中,召回含所述偏好标签,且资讯参数满足第二预设条件的资讯。
在本发明实施例中,资讯参数可以是资讯的热度,资讯的点击率等。第二预设条件可以是热度大于设定热度,或者资讯的点击率大于设定点击率,或者还可以是其他条件。
由此,通过从所有资讯中召回含用户的偏好标签,且资讯参数满足第二预设条件的资讯,可以召回高质量的资讯,通过用户点击资讯召回其他协同资讯,通过偏好标签召回同类别的热门资讯等。
S360:将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率,并基于所述点击率对召回的所有资讯进行排序。
在本发明实施例中,召回的资讯包括召回的资讯包括基于资讯向量的相似度召回的K个资讯,基于UCB策略召回的新资讯,以及召回的含所述偏好标签,且资讯参数满足第二预设条件的资讯。
S370:基于排序结果对用户进行资讯推荐。
本发明实施例中相关步骤的介绍可以参考上述的实施例。
需要说明的是,本发明实施例提供的技术方案中,S310-S350各个步骤的执行顺序并不局限于上述的顺序,可以按照需要进行调整。例如,S330和S340,可以在S310或者S320之前,或者S330可以在S310或者S320之前,S350可S330之后执行。
图4a是本发明实施例提供的一种资讯推荐方法流程图,本实施例中的可选方案可以与上述实施例中的一个或者多个可选方案进行结合。在本发明实施例中,可选的,所述基于排序结果对用户进行资讯推荐,包括:
将排序后的资讯基于设定限制条件进行重排序,基于重排序结果对用户进行资讯推荐。
如图4a所示,本发明实施例提供的技术方案包括:
S410:确定所述用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量。
S420:基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯。
S430:确定用户的偏好标签;
S440:针对所述用户的每个偏好标签,确定含所述偏好标签的多个新资讯,并从所述多个新资讯中通过上限信息界UCB策略召回N个含所述偏好标签的新资讯。
S450:将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率,并基于所述点击率对召回的所有资讯进行排序。
S460:将排序后的资讯基于设定限制条件进行重排序,基于重排序结果对用户进行资讯推荐。
具体的,可以将召回的资讯基于点击率从大到小进行排序,并将排序后的资讯基于设定限制条件进行重排序,从前至后取预设数量的资讯。设定限制条件可以是同类别或者同主题的资讯的数量小于设定数量,或者是同一召回策略的资讯的数量小于设定数量,或者也可以根据需要设定其他条件。由此,通过基于设定限制条件进行重排序,可以提高推荐资讯的多样性和新颖性,可以提高冷启动资讯的曝光比例。具体本发明实施例提供的方法也可以参考图4b。
图5是本发明实施例提供的一种资讯推荐装置结构框图,如图5所示,所述装置包括资讯向量确定模块510、召回模块520、点击率确定模块530和推荐模块540。
其中,资讯向量确定模块510,用于确定用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量;
召回模块520,用于基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯;
点击率确定模块530,用于将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率;
推荐模块540,用于基于所述点击率对召回的所有资讯进行排序,并基于排序结果对用户进行资讯推荐。
可选的,资讯向量确定模块510,用于:
针对每个资讯,确定所述资讯的所有标签中权重值最高的n个标签;
将所述n个标签分别输入到词向量模型中,分别得每个标签向量;
基于得到的每个标签向量计算算数平均值,并将所述算数平均值作为资讯向量。
可选的,召回模块520,用于:
从所有资讯中去除点击率不满足第一预设条件的资讯,得到剩余资讯;
将所述剩余资讯按照与所述M个资讯中每个资讯的资讯向量相似度分别进行排序,分别取前K1个资讯,并进行汇总得到K个召回的资讯。
可选的,召回模块520,还用于在将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中之前,确定用户的偏好标签;
针对所述用户的每个偏好标签,确定含所述偏好标签的多个新资讯,并从所述多个新资讯中通过上限信息界UCB策略召回N个含所述偏好标签的新资讯。
可选的,召回模块520,还用于在将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中之前,从所有资讯中,召回含所述偏好标签,且资讯参数满足第二预设条件的资讯。
可选的,推荐模块540,用于将排序后的资讯基于设定限制条件进行重排序,基于重排序结果对用户进行资讯推荐。
可选的,所述确定用户的偏好标签,包括:
确定预设时间段内用户点击的资讯以及最近点击的M1个资讯,确定用户对所述资讯中标签的偏好值;
针对预设时间段内用户点击的资讯,按照偏好值从大到小对资讯中的标签进行排序,并取前N1个标签作为用户长期偏好标签;
针对用户最近点击的M1个资讯,按照偏好值从大到小对资讯中的标签进行排序,取前N2个标签作为用户短期偏好标签。
可选的,关联特征包括:召回的资讯的分别与用户最近点击的M个资讯的资讯向量相似度;召回的资讯的类别点击率/点击数;召回的资讯中标签的点击率/点击数据;以及召回的资讯针对用户的特征数据;
所述数学模型为深度因子分解机DeepFM模型。
上述装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
图6是本发明实施例提供的一种设备结构示意图,如图6所示,该设备包括:
一个或多个处理器610,图6中以一个处理器610为例;
存储器620;
所述设备还可以包括:输入装置630和输出装置640。
所述设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器620作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种资讯推荐方法对应的程序指令/模块(例如,附图5所示的资讯向量确定模块510、召回模块520、点击率确定模块530和推荐模块540)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例的一种资讯推荐方法,即:
确定用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量;
基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯;
将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率,并基于所述点击率对召回的所有资讯进行排序;
基于排序结果对用户进行资讯推荐。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的一种资讯推荐方法:
确定用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量;
基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯;
将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率,并基于所述点击率对召回的所有资讯进行排序;
基于排序结果对用户进行资讯推荐。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种资讯推荐方法,其特征在于,包括:
确定用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量;
基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯;
将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率,并基于所述点击率对召回的所有资讯进行排序;
基于排序结果对用户进行资讯推荐。
2.根据权利要求1所述的方法,其特征在于,所述将每个资讯的标签向量的算数平均值作为对应的资讯向量,包括:
针对每个资讯,确定所述资讯的所有标签中权重值最高的n个标签;
将所述n个标签分别输入到词向量模型中,分别得每个标签向量;
基于得到的每个标签向量计算算数平均值,并将所述算数平均值作为资讯向量。
3.根据权利要求1所述的方法,其特征在于,所述基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯,包括:
从所有资讯中去除点击率不满足第一预设条件的资讯,得到剩余资讯;
将所述剩余资讯按照与所述M个资讯中每个资讯的资讯向量相似度分别进行排序,分别取前K1个资讯,并进行汇总得到K个召回的资讯。
4.根据权利要求1所述的方法,其特征在于,在将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中之前,还包括:
确定用户的偏好标签;
针对所述用户的每个偏好标签,确定含所述偏好标签的多个新资讯,并从所述多个新资讯中通过上限信息界UCB策略召回N个含所述偏好标签的新资讯。
5.根据权利要求4所述的方法,其特征在于,在将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中之前,还包括:
从所有资讯中,召回含所述偏好标签,且资讯参数满足第二预设条件的资讯。
6.根据权利要求1所述的方法,其特征在于,所述基于排序结果对用户进行资讯推荐,包括:
将排序后的资讯基于设定限制条件进行重排序,基于重排序结果对用户进行资讯推荐。
7.根据权利要求2所述的方法,其特征在于,所述确定用户的偏好标签,包括:
确定预设时间段内用户点击的资讯以及最近点击的M1个资讯,确定用户对所述资讯中标签的偏好值;
针对预设时间段内用户点击的资讯,按照偏好值从大到小对资讯中的标签进行排序,并取前N1个标签作为用户长期偏好标签;
针对用户最近点击的M1个资讯,按照偏好值从大到小对资讯中的标签进行排序,取前N2个标签作为用户短期偏好标签。
8.根据权利要求1所述的方法,其特征在于,
关联特征包括:召回的资讯的分别与用户最近点击的M个资讯的资讯向量相似度;召回的资讯的类别点击率/点击数;召回的资讯中标签的点击率/点击数据;以及召回的资讯针对用户的特征数据;
所述数学模型为深度因子分解机DeepFM模型。
9.一种资讯推荐装置,其特征在于,包括:
资讯向量确定模块,用于确定用户最近点击的M个资讯,并将每个资讯的标签向量的算数平均值作为对应的资讯向量;
召回模块,用于基于所述M个资讯中每个资讯的资讯向量的相似度召回K个资讯;
点击率确定模块,用于将召回的每个资讯以及召回的每个资讯的关联特征输入到已训练的数学模型中,得到召回的每个资讯的点击率;
推荐模块,用于基于所述点击率对召回的所有资讯进行排序,并基于排序结果对用户进行资讯推荐。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8任一项所述的一种资讯推荐方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8任一项所述的一种资讯推荐方法。
CN201910712063.2A 2019-08-02 2019-08-02 一种资讯推荐方法、装置、电子设备及存储介质 Active CN110457581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910712063.2A CN110457581B (zh) 2019-08-02 2019-08-02 一种资讯推荐方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910712063.2A CN110457581B (zh) 2019-08-02 2019-08-02 一种资讯推荐方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110457581A true CN110457581A (zh) 2019-11-15
CN110457581B CN110457581B (zh) 2023-04-18

Family

ID=68484692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910712063.2A Active CN110457581B (zh) 2019-08-02 2019-08-02 一种资讯推荐方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110457581B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930223A (zh) * 2019-11-21 2020-03-27 苏州朗动网络科技有限公司 基于场感知因子分解机的推荐召回方法、设备和存储介质
CN111078997A (zh) * 2019-11-18 2020-04-28 中国银行股份有限公司 一种资讯推荐方法及装置
CN111159341A (zh) * 2019-12-25 2020-05-15 中国建设银行股份有限公司 基于用户投资理财偏好的资讯推荐方法及装置
CN111191136A (zh) * 2019-12-30 2020-05-22 华为技术有限公司 一种信息推荐方法以及相关设备
CN111310058A (zh) * 2020-03-27 2020-06-19 北京百度网讯科技有限公司 资讯主题的推荐方法、装置、终端及存储介质
CN111324813A (zh) * 2020-02-20 2020-06-23 深圳前海微众银行股份有限公司 推荐方法、装置、设备及计算机可读存储介质
CN111324733A (zh) * 2020-02-07 2020-06-23 北京创鑫旅程网络技术有限公司 内容推荐方法、装置、设备及存储介质
CN111382361A (zh) * 2020-03-12 2020-07-07 腾讯科技(深圳)有限公司 信息推送方法、装置、存储介质和计算机设备
CN111444438A (zh) * 2020-03-24 2020-07-24 北京百度网讯科技有限公司 召回策略的准召率的确定方法、装置、设备及存储介质
CN111538902A (zh) * 2020-04-15 2020-08-14 达而观信息科技(上海)有限公司 一种资讯推送方法、装置、存储介质及电子设备
CN111581545A (zh) * 2020-05-12 2020-08-25 腾讯科技(深圳)有限公司 一种召回文档的排序方法及相关设备
CN111898028A (zh) * 2020-08-07 2020-11-06 北京小米移动软件有限公司 一种实体对象推荐方法、装置及存储介质
CN112328906A (zh) * 2020-11-04 2021-02-05 中国平安人寿保险股份有限公司 内容项推荐方法、装置、设备及存储介质
CN112989118A (zh) * 2021-02-04 2021-06-18 北京奇艺世纪科技有限公司 视频召回方法及装置
CN113450172A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 一种商品推荐方法和装置
CN113656694A (zh) * 2021-08-18 2021-11-16 中国平安人寿保险股份有限公司 基于机器学习的信息推荐方法、装置、设备及存储介质
CN113688295A (zh) * 2021-10-26 2021-11-23 北京达佳互联信息技术有限公司 数据确定方法、装置、电子设备及存储介质
CN114116982A (zh) * 2021-11-30 2022-03-01 中国建设银行股份有限公司 一种内容分发的方法、***、设备、存储介质和程序产品
CN114201652A (zh) * 2021-12-14 2022-03-18 宁波深擎信息科技有限公司 一种基于标签分级的资讯召回排序方法、装置和设备
CN115587261A (zh) * 2022-12-09 2023-01-10 思创数码科技股份有限公司 政务资源目录推荐方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844525A (zh) * 2017-10-12 2018-03-27 广州艾媒数聚信息咨询股份有限公司 一种基于用户行为的资讯个性化推荐方法、***及装置
WO2018157818A1 (zh) * 2017-03-02 2018-09-07 广州市动景计算机科技有限公司 用户偏好的推测方法、装置、终端设备及存储介质
JP2018147045A (ja) * 2017-03-01 2018-09-20 ヤフー株式会社 検索装置、検索方法及び検索プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147045A (ja) * 2017-03-01 2018-09-20 ヤフー株式会社 検索装置、検索方法及び検索プログラム
WO2018157818A1 (zh) * 2017-03-02 2018-09-07 广州市动景计算机科技有限公司 用户偏好的推测方法、装置、终端设备及存储介质
CN107844525A (zh) * 2017-10-12 2018-03-27 广州艾媒数聚信息咨询股份有限公司 一种基于用户行为的资讯个性化推荐方法、***及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
磨莉: "深度神经网络在点击率预测中应用研究", 《科技通报》 *
陈学辉等: "基于内容推荐的资讯推荐***的设计与实现", 《电脑知识与技术》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078997A (zh) * 2019-11-18 2020-04-28 中国银行股份有限公司 一种资讯推荐方法及装置
CN111078997B (zh) * 2019-11-18 2023-08-22 中国银行股份有限公司 一种资讯推荐方法及装置
CN110930223A (zh) * 2019-11-21 2020-03-27 苏州朗动网络科技有限公司 基于场感知因子分解机的推荐召回方法、设备和存储介质
CN111159341B (zh) * 2019-12-25 2023-04-14 中国建设银行股份有限公司 基于用户投资理财偏好的资讯推荐方法及装置
CN111159341A (zh) * 2019-12-25 2020-05-15 中国建设银行股份有限公司 基于用户投资理财偏好的资讯推荐方法及装置
CN111191136A (zh) * 2019-12-30 2020-05-22 华为技术有限公司 一种信息推荐方法以及相关设备
CN111324733A (zh) * 2020-02-07 2020-06-23 北京创鑫旅程网络技术有限公司 内容推荐方法、装置、设备及存储介质
CN111324813A (zh) * 2020-02-20 2020-06-23 深圳前海微众银行股份有限公司 推荐方法、装置、设备及计算机可读存储介质
CN111382361B (zh) * 2020-03-12 2023-05-02 腾讯科技(深圳)有限公司 信息推送方法、装置、存储介质和计算机设备
CN111382361A (zh) * 2020-03-12 2020-07-07 腾讯科技(深圳)有限公司 信息推送方法、装置、存储介质和计算机设备
CN111444438A (zh) * 2020-03-24 2020-07-24 北京百度网讯科技有限公司 召回策略的准召率的确定方法、装置、设备及存储介质
CN111444438B (zh) * 2020-03-24 2023-09-01 北京百度网讯科技有限公司 召回策略的准召率的确定方法、装置、设备及存储介质
CN111310058B (zh) * 2020-03-27 2023-08-08 北京百度网讯科技有限公司 资讯主题的推荐方法、装置、终端及存储介质
CN111310058A (zh) * 2020-03-27 2020-06-19 北京百度网讯科技有限公司 资讯主题的推荐方法、装置、终端及存储介质
CN113450172A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 一种商品推荐方法和装置
CN111538902B (zh) * 2020-04-15 2024-03-22 达观数据有限公司 一种资讯推送方法、装置、存储介质及电子设备
CN111538902A (zh) * 2020-04-15 2020-08-14 达而观信息科技(上海)有限公司 一种资讯推送方法、装置、存储介质及电子设备
CN111581545B (zh) * 2020-05-12 2023-09-19 腾讯科技(深圳)有限公司 一种召回文档的排序方法及相关设备
CN111581545A (zh) * 2020-05-12 2020-08-25 腾讯科技(深圳)有限公司 一种召回文档的排序方法及相关设备
CN111898028B (zh) * 2020-08-07 2024-04-19 北京小米移动软件有限公司 一种实体对象推荐方法、装置及存储介质
CN111898028A (zh) * 2020-08-07 2020-11-06 北京小米移动软件有限公司 一种实体对象推荐方法、装置及存储介质
CN112328906A (zh) * 2020-11-04 2021-02-05 中国平安人寿保险股份有限公司 内容项推荐方法、装置、设备及存储介质
CN112989118B (zh) * 2021-02-04 2023-08-18 北京奇艺世纪科技有限公司 视频召回方法及装置
CN112989118A (zh) * 2021-02-04 2021-06-18 北京奇艺世纪科技有限公司 视频召回方法及装置
CN113656694B (zh) * 2021-08-18 2023-07-25 中国平安人寿保险股份有限公司 基于机器学习的信息推荐方法、装置、设备及存储介质
CN113656694A (zh) * 2021-08-18 2021-11-16 中国平安人寿保险股份有限公司 基于机器学习的信息推荐方法、装置、设备及存储介质
CN113688295A (zh) * 2021-10-26 2021-11-23 北京达佳互联信息技术有限公司 数据确定方法、装置、电子设备及存储介质
CN114116982A (zh) * 2021-11-30 2022-03-01 中国建设银行股份有限公司 一种内容分发的方法、***、设备、存储介质和程序产品
CN114201652A (zh) * 2021-12-14 2022-03-18 宁波深擎信息科技有限公司 一种基于标签分级的资讯召回排序方法、装置和设备
CN114201652B (zh) * 2021-12-14 2024-07-16 宁波深擎信息科技有限公司 一种基于标签分级的资讯召回排序方法、装置和设备
CN115587261A (zh) * 2022-12-09 2023-01-10 思创数码科技股份有限公司 政务资源目录推荐方法及***

Also Published As

Publication number Publication date
CN110457581B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110457581A (zh) 一种资讯推荐方法、装置、电子设备及存储介质
US10949000B2 (en) Sticker recommendation method and apparatus
CN110543598B (zh) 信息推荐方法、装置及终端
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN109684554A (zh) 新闻的***的确定方法及新闻推送方法
CN108921624B (zh) 广告融合方法、装置、存储介质和终端设备
CN109783539A (zh) 用户挖掘及其模型构建方法、装置及计算机设备
CN111241394B (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
US12020267B2 (en) Method, apparatus, storage medium, and device for generating user profile
US10726087B2 (en) Machine learning system and method to identify and connect like-minded users
CN109165974A (zh) 一种商品推荐模型训练方法、装置、设备及存储介质
CN113254711B (zh) 一种互动图像的显示方法、装置、计算机设备和存储介质
US20190278819A1 (en) Systems and methods of providing recommendations of content items
CN116894711A (zh) 商品推荐理由生成方法及其装置、电子设备
CN105718566A (zh) 一种智能音乐推荐***
CN113657087A (zh) 信息的匹配方法及装置
CN117391824B (zh) 基于大语言模型和搜索引擎推荐物品的方法及装置
CN112948602B (zh) 一种内容显示方法、装置、***、设备及存储介质
CN112115354A (zh) 信息处理方法、装置、服务器及存储介质
CN110442789A (zh) 基于用户行为的关联结果确定方法、装置及电子设备
CN114090848A (zh) 数据推荐及分类方法、特征融合模型及电子设备
CN110879863B (zh) 跨领域搜索方法和跨领域搜索装置
CN113704596A (zh) 用于生成召回信息集合的方法和装置
CN114880473B (zh) 一种标签分类方法、装置、存储介质及电子设备
US20240152512A1 (en) Machine learning for dynamic information retrieval in a cold start setting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant