CN116340610A - 一种实时推荐方法及装置 - Google Patents

一种实时推荐方法及装置 Download PDF

Info

Publication number
CN116340610A
CN116340610A CN202111598697.3A CN202111598697A CN116340610A CN 116340610 A CN116340610 A CN 116340610A CN 202111598697 A CN202111598697 A CN 202111598697A CN 116340610 A CN116340610 A CN 116340610A
Authority
CN
China
Prior art keywords
time
real
user
behavior
preference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111598697.3A
Other languages
English (en)
Inventor
孙晓磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Jingyi Zhijia Technology Co ltd
Original Assignee
Shenyang Jingyi Zhijia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Jingyi Zhijia Technology Co ltd filed Critical Shenyang Jingyi Zhijia Technology Co ltd
Priority to CN202111598697.3A priority Critical patent/CN116340610A/zh
Publication of CN116340610A publication Critical patent/CN116340610A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种实时推荐方法及装置,以及一种计算机可读存储介质。该实时推荐方法包括以下步骤:获取至少一个用户对至少一个行为对象的行为数据;根据所述行为数据,以及各所述行为对象的发布时间到当前时间的时间差,确定各所述用户对各所述行为对象的实时偏好分值;对各所述实时偏好分值进行排序,以确定各所述用户的至少一个实时偏好对象;统计各所述行为对象的实时偏好分值的总分,并对各所述总分进行排序,以确定热门推荐列表;以及将所述热门推荐列表中的各所述行为对象,分别与各所述用户的实时偏好对象进行匹配,以确定各所述用户的推荐内容。

Description

一种实时推荐方法及装置
技术领域
本发明涉及应用内容的推荐技术,尤其涉及一种实时推荐方法、一种实时推荐装置,以及一种计算机可读存储介质。
背景技术
基于车联网(Internet of Vehicle,IOV)的推荐***,能够通过车联网获取用户关于车载应用的操作数据,并根据这些操作数据来为用户推荐其感兴趣的应用内容。车联网推荐***的在先技术主要根据用户在目标应用的埋点行为数据,进行基于召回排序算法的离线分析,在召回阶段根据用户的行为数据构建协同过滤的算法的输入矩阵,并根据相似用户和相似偏好召回用户的偏好数据,再在排序阶段根据推荐的反馈结果构建逻辑回归算法模型,以获得用户最感兴趣的偏好数据。
然而,这种基于召回排序算法的离线分析模型涉及大量的数据处理负荷,运行时间较长,目前只能做到一天更新一次的频次。这样的更新频次虽然能够满足音乐、电台、加油提醒等实时性要求不高的应用需求,但无法满足新闻、视频等变化频次比较快的应用对推荐内容实时性的需求。
为了克服现有技术存在的上述缺陷,本领域亟需一种应用内容的推荐技术,用于分析用户的实时偏好,并向用户推荐其当前最感兴趣的内容。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之前序。
为了克服现有技术存在的上述缺陷,本发明提供了一种实时推荐方法、一种实时推荐装置,以及一种计算机可读存储介质。
具体来说,根据本发明的第一方面提供的上述实时推荐方法包括以下步骤:获取至少一个用户对至少一个行为对象的行为数据;根据所述行为数据,以及各所述行为对象的发布时间到当前时间的时间差,确定各所述用户对各所述行为对象的实时偏好分值;对各所述实时偏好分值进行排序,以确定各所述用户的至少一个实时偏好对象;统计各所述行为对象的实时偏好分值的总分,并对各所述总分进行排序,以确定热门推荐列表;以及将所述热门推荐列表中的各所述行为对象,分别与各所述用户的实时偏好对象进行匹配,以确定各所述用户的推荐内容。通过执行这些步骤,该实时推荐方法能够分析用户的实时偏好以确定目标应用的热门内容,并结合用户的实时偏好及目标应用的热门内容来向用户推荐其当前最感兴趣的内容。
此外,根据本发明的第二方面提供的上述实时推荐装置包括存储器及处理器。所述处理器连接所述存储器,并被配置用于实施本发明的第一方面提供的上述实时推荐方法。通过实施该实时推荐方法,该实时推荐装置能够分析用户的实时偏好以确定目标应用的热门内容,并结合用户的实时偏好及目标应用的热门内容来向用户推荐其当前最感兴趣的内容。
此外,根据本发明的第三方面提供的上述计算机可读存储介质,其上存储由计算机指令。所述计算机指令被处理器执行时,实施实施本发明的第一方面提供的上述实时推荐方法。通过实施该实时推荐方法,该计算机可读存储介质能够分析用户的实时偏好以确定目标应用的热门内容,并结合用户的实时偏好及目标应用的热门内容来向用户推荐其当前最感兴趣的内容。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了根据本发明的一些实施例提供的实时推荐装置的架构示意图。
图2示出了根据本发明的一些实施例提供的实时推荐方法的流程示意图。
图3示出了根据本发明的一些实施例提供的确定相似用户的流程示意图。
图4示出了根据本发明的一些实施例提供的确定相似内容的流程示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合优选实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解,以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外,为了避免混乱或模糊本发明的重点,有些具体细节将在描述中被省略。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
另外,在以下的说明中所使用的“上”、“下”、“左”、“右”、“顶”、“底”、“水平”、“垂直”应被理解为该段以及相关附图中所绘示的方位。此相对性的用语仅是为了方便说明之用,其并不代表其所叙述的装置需以特定方位来制造或运作,因此不应理解为对本发明的限制。
能理解的是,虽然在此可使用用语“第一”、“第二”、“第三”等来叙述各种组件、区域、层和/或部分,这些组件、区域、层和/或部分不应被这些用语限定,且这些用语仅是用来区别不同的组件、区域、层和/或部分。因此,以下讨论的第一组件、区域、层和/或部分可在不偏离本发明一些实施例的情况下被称为第二组件、区域、层和/或部分。
如上所述,基于召回排序算法的离线分析模型涉及大量的数据处理负荷,运行时间较长,目前只能做到一天更新一次的频次。这样的更新频次虽然能够满足音乐、电台、加油提醒等实时性要求不高的应用需求,但无法满足新闻、视频等变化频次比较快的应用对推荐内容实时性的需求。
为了克服现有技术存在的上述缺陷,本发明提供了一种实时推荐方法、一种实时推荐装置,以及一种计算机可读存储介质,能够分析用户的实时偏好以确定目标应用的热门内容,并结合用户的实时偏好及目标应用的热门内容来向用户推荐其当前最感兴趣的内容。
在一些非限制性的实施例中,本发明的第一方面提供的上述实时推荐方法可以由本发明的第二方面提供的上述实时推荐装置来实施。该实时推荐装置可以通过硬件设备和/或软件程序的形式配置于目标应用的服务器端。该目标应用包括但不限于在于车机、手机、平板电脑、掌上电脑(Personal Digital Assistant,PDA)、笔记本电脑、个人计算机(Personal Computer,PC)、智能手表、智能手环、智能眼镜等各种用户终端中运行的新闻应用、视频应用等各种应用程序(Application)、小程序(Applet)以及网页程序(Web App)。
进一步地,请参考图1。图1示出了根据本发明的一些实施例提供的实时推荐装置的架构示意图。
如图1所示,本发明的第二方面提供的上述实时推荐装置10上配置有存储器11以及处理器12。该存储器11包括但不限于本发明的第三方面提供的上述计算机可读存储介质,其上存储有计算机指令。该处理器12连接该存储器11,并被配置用于执行该存储器11上存储的计算机指令,以实施本发明的第一方面提供的上述实时推荐方法。
以下将结合一些车机新闻应用的实时推荐方法来描述上述实时推荐装置10的工作原理。本领域的技术人员可以理解,这些新闻应用的实时推荐方法只是本发明提供的一些非限制性的实施方式,旨在清楚地展示本发明的主要构思,并提供一些便于公众实施具体方案,而非用于限制上述目标应用的种类,或用于限制上述实时推荐装置10的全部功能或全部工作方式。同样地,该实时推荐装置10也只是本发明提供的一种非限制性的实施方式,不对上述实时推荐方法中各步骤的执行主体构成限制。
请参考图2,图2示出了根据本发明的一些实施例提供的实时推荐方法的流程示意图。
如图2所示,在实施实时推荐方法的过程中,实时推荐装置10可以首先获取至少一个用户i对至少一个行为对象j的行为数据Bij
在本发明的一些实施例中,运行于车机***的新闻应用中可以预先设置有埋点程序,用于采集用户i对新闻应用中各新闻j的行为数据Bij。进一步地,该行为数据Bij可以包括用户使用新闻应用时输入的偏好数据,以及各操作指令所对应的对象数据。该对象数据是新闻应用中的各新闻的索引信息,包括但不限于各新闻的内容标签、标题和/或索引编号。该偏好数据包括但不限于搜索、浏览、订阅、收藏、点赞、点踩、弹幕、不感兴趣操作中的至少一项操作记录,指示用户对各新闻的个人偏好程度。
响应于采集到新闻应用相关的行为数据Bij,埋点程序会将这些数据提供给车机***,再由车机***通过Kafka软件上传到新闻应用服务器端的实时推荐装置10。实时推荐装置10可以使用Flink流处理框架对各用户终端上传的行为数据进行流处理,实时消费Kafka软件上传的数据,并对采集到的数据进行清洗以筛除其中存在空值和异常值的脏数据,而仅保留其中适合用户偏好分析的用户i搜索新闻j、用户i浏览新闻j、用户i订阅新闻j、用户i收藏新闻j、用户i点赞新闻j、用户i点踩新闻j、用户i在新闻j发弹幕、用户i对新闻j不感兴趣等埋点数据Bij,从而提升实时推荐结果的准确性。
如图2所示,在获取至少一个用户i对至少一个行为对象j的行为数据Bij之后,实时推荐装置10可以根据获取的行为数据Bij,以及各行为对象j的发布时间tj0到当前时间t的时间差Δtj,确定各用户i对各行为对象j的实时偏好分值Sij
在一些实施例中,实时推荐装置10可以首先根据获取的对象数据,确定对应行为对象j的初始热度分值S0j。具体来说,实时推荐装置10可以先从获取的行为数据Bij中提取指示行为对象j的内容标签(label)等对象数据,再根据提取的对象数据判断该行为对象j是否是第一次被该用户i使用。若该行为对象j是第一次被该用户i使用,则实时推荐装置10可以根据内容标签确定该行为对象j所属的对象类别,再根据该行为对象j所属的对象类别来确定该行为对象j的初始热度分值S0j
请参考表1,表1示出了根据本发明的一些实施例提供的初始热度分值表。如表1所示,在一些实施例中,新闻应用中的各新闻j可以根据领域被分为体育、娱乐、财经、国际、社会、文化、天气等多个类别,其中,每个类别根据广新闻应用的大量用户对其整体的偏好程度,被配置有对应的初始热度分值。实时推荐装置10可以根据该行为对象j所属的对象类别,查询表1所示的初始热度分值表,以确定该行为对象j的初始热度分值S0j
表1
对象类别 初始热度分值
体育 1.5
娱乐 1.5
财经 1.2
国际 1.2
社会 1.2
文化 0.8
天气 0.6
在确定行为对象j的初始热度分值S0j之后,实时推荐装置10可以根据行为对象j的发布时间tj0到当前时间t的时间差Δtj=t-tj0,确定行为对象j的时间衰减热度分值Stj。具体来说,实时推荐装置10可以将时间差Δtj代入基于牛顿冷却系数的时间衰减函数
Figure BDA0003432412220000061
以确定行为对象j的时间衰减热度分值Stj
在确定行为对象j的初始热度分值S0j以及时间衰减热度分值Stj之后,实时推荐装置10可以对两者求差,以确定用户i对行为对象j的实时偏好分值Sij=S0j-Stj。通过引入上述初始热度分值S0j,本发明能够有效解决实时推荐功能的冷启动问题。即使用户i是第一次使用行为对象j(即推荐***中缺少相应的偏好数据),实时推荐装置10也可以结合其他用户对该领域新闻的整体偏好来赋予该行为对象j一个初始分值,以作为实时推荐的数据基础。通过引入上述时间衰减热度分值Stj,本发明能够进一步结合新闻热度会随时间衰减的特点,从而更准确地表征用户的实时偏好。
进一步地,在本发明的一些实施例中,实时推荐装置10还可以从获取的行为数据Bij中,进一步提取指示用户i对行为对象j的搜索、浏览、订阅、收藏、点赞、点踩、弹幕、不感兴趣等至少一项操作的偏好数据,并根据该偏好数据来确定行为对象j的交互热度分值Suj,再结合该交互热度分值Suj来确定用户i对行为对象j的实时偏好分值Sij
请参考表2,表2示出了根据本发明的一些实施例提供的交互热度分值表。如表2所示,在一些实施例中,上述搜索、浏览、订阅、收藏、点赞、点踩、弹幕、不感兴趣等各项操作可以分别对应一个正面或负面的得分,其中,正面的得分指示用户i喜爱对应的新闻j,而负面的得分指示用户i反感对应的新闻j,得分的绝对值指示用户i对应的新闻j的喜爱/反感程度。
表2
交互操作 交互热度分值
搜索 3
浏览 1
收藏 4
点赞 4
点踩 -4
弹幕 2
不感兴趣 -4
实时推荐装置10可以统计用户i对各新闻j的一项或多项操作记录,并根据用户i对各行为对象j的各操作记录的得分,分别确定各行为对象的交互热度分值Suj=3*s搜索+1*s浏览+4*s收藏+4*s点赞-4*s点踩+2*s弹幕-4*s不感兴趣
之后,实时推荐装置10可以结合上述初始热度分值S0j、交互热度分值Suj及时间衰减热度分值Stj,以确定用户i对行为对象j的实时偏好分值Sij=S0j+Suj-Stj。通过进一步引入上述交互热度分值Suj,本发明能够进一步结合新闻热度会随用户行为而发生变化的特点,从而更准确地表征用户的实时偏好。
本领域的技术人员可以理解,上述结合初始热度分值S0j、交互热度分值Suj及时间衰减热度分值Stj来确定实时偏好分值Sij的方案,只是本发明提供一种非限制性的实施方式,旨在清楚地展示本发明的主要构思,并提供一些便于公众实施的具体方案,而非用于限制本发明的保护范围。
可选地,在另一些实施例中,若判断结果指示行为对象j不是第一次被用户i使用,则实时推荐装置10可以跳过上述确定初始热度分值S0j的流程,而直接根据上述交互热度分值Suj及时间衰减热度分值Stj来确定实时偏好分值Sij,从而消除基于整体偏好程度的初始热度分值S0j的影响,以提升推荐结果的个性化及准确度,并减少实时推荐流程的数据处理负荷,以提升推荐结果的实时性。
如图2所示,在确定用户i对各行为对象j的实时偏好分值Sij之后,实时推荐装置10可以对各行为对象j的实时偏好分值Sij进行排序,并根据其中分值较高的至少一个(例如:10个)行为对象j构建用户i的实时偏好列表Pi。该实时偏好列表Pi中包含用户i的至少一个实时偏好对象m。之后,实时推荐装置10还可以根据用户ID、新闻ID及实时偏好分值Sij,构建用户i对新闻j的偏好分值字段“uid(i),sid(j),score(Sij)”,将其存入Hbase数据库,并将其行键(rowkey)设置为reverse(uid),以作为实时推荐功能的数据基础。
此外,在确定各用户i对各行为对象j的实时偏好分值Sij之后,实时推荐装置10还可以统计各行为对象j的实时偏好分值的总分Sj=∑Sij,并对各总分Sj进行排序,以确定其中总分较高的至少一个(例如:50个)行为对象j。之后,实时推荐装置10可以该总分较高的至少一个(例如:50个)行为对象j,确定新闻应用当前的热门推荐列表R。
之后,实时推荐装置10可以将热门推荐列表R中的各行为对象n,分别与各用户i的各实时偏好对象m进行匹配,以确定各用户i的推荐内容。
例如,实时推荐装置10可以首先基于Jieba中文分词组件,从热门推荐列表R的各行为对象n的内容中分别提取至少一个关键词KWn,并从用户i的各实时偏好对象m的内容中分别提取至少一个关键词KWm。之后,实时推荐装置10可以分别对各关键词集KWn与各关键词集KWm做交集运算,并统计各交集中关键词kwnm的数量。再之后,实时推荐装置10可以根据各交集中关键词kwnm的数量,对热门推荐列表R中的各行为对象n进行排序,并将其中关键词交集数量较多的至少一个(例如:10个)行为对象n,确定为用户i的至少一个推荐对象r1
通过分析多名用户的实时偏好来确定目标应用的热门推荐列表R,并结合用户i的实时偏好及目标应用的热门推荐列表R来向用户i推荐其当前最感兴趣的内容,本发明一方面能够结合实时的热门内容来进行推荐,有利于提升推荐内容的实时性,另一方面能够充分结合用户i的历史行为数据,有利于提供更符合用户i的个性化需求的推荐内容。
此外,相比于现有的离线分析模型只基于之前一段时间(例如:30天)的历史行为数据来进行内容推荐的方案,本发明能够进一步结合用户的所有历史行为数据,并采用计算时间衰减热度分值Stj的方式来表征内容热度随时间的衰减特性,因而能够利用更多的历史行为数据来提供更符合用户i个性化需求的至少一个推荐对象r1
进一步地,在本发明的一些实施例中,对于新闻应用、视频应用等实时性要求较高的目标应用,响应于完成一次内容推荐,实时推荐装置10还可以优选地记录目标应用的更新内容,并以这些更新内容构建目标应用的新内容列表N。之后,在进行下一次内容推荐时,实时推荐装置10还可以获取新内容列表N,并提取其中包括的至少一个候选对象o。再之后,实时推荐装置10可以如上所述地将新内容推荐列表N中的各候选对象o,分别与用户i的各实时偏好对象m进行关键词匹配,并根据关键词交集数量对新内容列表N中的各候选对象o进行排序,以确定用户i的至少一个推荐对象r2
通过将用户i的各实时偏好对象m与新内容推荐列表N中的各候选对象o,进行进一步的匹配,本发明能够进一步结合目标引用的新内容来进行内容推荐,因而能够进一步提升推荐内容的实时性。
更进一步地,在本发明的一些实施例中,实时推荐装置10还可以基于准实时的协同过滤算法模型来确定用户i的相似用户u,并根据该相似用户u的至少一个实时偏好对象v来确定用户i的至少一个推荐对象r3
请参考图3,图3示出了根据本发明的一些实施例提供的确定相似用户的流程示意图。
如图3所示,在确定用户i的相似用户u的过程中,实时推荐装置10可以首先获取用户i及多名候选用户w对各行为对象j的搜索、浏览、订阅、收藏、点赞、点踩、弹幕、不感兴趣等至少一项操作的偏好数据,并如上所述地根据这些偏好数据确定各用户i、w对各行为对象j的交互热度分值Suij及Suwj。之后,实时推荐装置10可以根据各用户i、w对各行为对象j的交互热度分值Suij及Suwj,构建用户-新闻的评分矩阵,即
Figure BDA0003432412220000101
再之后,实时推荐装置10可以使用预先构建的基于Spark的ALS的矩阵分解算法模型,根据交叉验证算法设置的算法参数,对该用户-新闻的评分矩阵Su进行矩阵分解,从而根据用户i对各行为对象j的交互热度分值Suij,确定用户i的第一行为特征向量BF1,并根据各候选用户w对各行为对象j的交互热度分值Suwj,确定各候选用户w的第二行为特征向量BF2w
再之后,实时推荐装置10可以分别计算该第一行为特征向量BF1与各第二行为特征向量BF2w的余弦相似度cosiw,并根据用户ID、候选用户ID及余弦相似度cosiw,构建用户i与候选用户w的相似度字段“uid1(i),uid2(w),score(cosiw)”,再将其存入Hbase数据库,以作为确定相似用户的数据基础。
再之后,在基于相似用户u的至少一个实时偏好对象v来确定用户i的至少一个推荐对象r3时,实时推荐装置10可以直接根据用户i的用户ID及各候选用户w的用户ID来查询对应的余弦相似度cosiw,并根据余弦相似度cosiw对各候选用户w进行排序,以将其中余弦相似度cosiw较高的至少一名(例如:10名)候选用户w确定为用户i的相似用户u。之后,实时推荐装置10可以获取各相似用户u的实时偏好列表Pu,并从中随机获取一个或多个实时偏好对象v,以作为用户i的至少一个推荐对象r3
相比于基于召回排序算法的离线分析模型,使用矩阵分解后的用户特征向量及内容特征向量填补用户-新闻评分矩阵Su以确定推荐对象的方案,本发明直接计算矩阵分解后的第一行为特征向量BF1与各第二行为特征向量BF2w之间的余弦距离,以计算用户i与各候选用户w的相似性,能够大幅降低实时推荐装置10的数据处理负荷,从而满足新闻应用每天1500条以上的更新内容的实时性要求。进一步地,相比于基于用户的基础信息来确定相似用户的偏分分析方案,本发明能够基于用户i及各候选用户w的历史行为数据来计算相似度,因而能够更准确地表征用户的真实喜好,并向用户推荐更符合其个性化需求的内容。
此外,在本发明的一些实施例中,实时推荐装置10还可以基于准实时的协同过滤算法模型来确定用户i的各实时偏好对象m的至少一个相似内容c,并将该至少一个相似内容c确定为用户i的至少一个推荐对象r4
请参考图4,图4示出了根据本发明的一些实施例提供的确定相似内容的流程示意图。
如图4所示,在确定实时偏好对象m的相似内容c的过程中,实时推荐装置10可以使用NLP自然语言处理算法,基于Jieba中文分词组件从实时偏好对象m的内容中提取至少一个(例如:6个)关键词,以构建该实时偏好对象m的第一词向量WF1。在一些实施例中,第一词向量WF1的维度可以根据新闻应用的数据库中包含的所有关键词的数量(例如:50个)来确定,其中,仅有提取到的6个关键词所在的维度具有有效值,而其余的关键词维度都为0。
此外,实时推荐装置10还可以从新闻应用的数据库获取包含所有新闻的全内容列表A,并如上所述地从全内容列表A的各候选对象a的内容中分别提取至少一个(例如:6个)关键词,以构建各候选对象a的第二词向量WF2a。在一些实施例中,该第二词向量WF2a的维度也可以根据新闻应用的数据库中包含的所有关键词的数量(例如:50个)来确定,其中,仅有提取到的6个关键词所在的维度具有有效值,而其余的关键词维度都为0。
之后,实时推荐装置10可以分别计算上述第一词向量WF1与各第二词向量WF2a的余弦相似度cosma,并根据实时偏好对象ID、候选对象ID及余弦相似度cosma,构建实时偏好对象m与候选对象a的相似度字段“sid1(m),sid2(a),score(cosma)”,再将其存入Hbase数据库,以作为确定相似内容的数据基础。
再之后,在基于相似内容c来确定用户i的至少一个推荐对象r4时,实时推荐装置10可以直接根据用户i的各实时偏好对象m的对象ID及各候选对象a的对象ID来查询对应的余弦相似度cosma,并根据余弦相似度cosma对各候选对象a进行排序,以将其中余弦相似度cosma较高的至少一个(例如:10个)候选对象a确定为用户i的各实时偏好对象m的相似内容c。之后,实时推荐装置10可以将该至少一个相似内容c确定为用户i的至少一个推荐对象r4
进一步地,在本发明的一些实施例中,上述计算余弦相似度cosma的流程,还可以优选地基于各关键词在对应内容中的重要性来进行。具体来说,在使用NLP自然语言处理算法,从实时偏好对象m的内容中提取至少一个(例如:6个)关键词之后,实时推荐装置10可以通过TF-IDF算法计算各关键词的重要性分值(即TF-IDF值),再根据各关键词的重要性分值来构建实时偏好对象m的第一词向量WF1’。同理,在从各候选对象a的内容中分别提取至少一个(例如:6个)关键词之后,实时推荐装置10可以通过TF-IDF算法计算各关键词的重要性分值(即TF-IDF值),再根据各关键词的重要性分值来分别构建各候选对象a的第二词向量WF2a’。之后,实时推荐装置10可以如上所述地分别计算第一词向量WF1’与各第二词向量WF2a’的余弦相似度cosma’,并根据相似度cosma’对全内容列表A中的各候选对象a进行排序,以将其中余弦相似度cosma’较高的至少一个(例如:10个)候选对象a确定为用户i的至少一个推荐对象r4
相比于基于召回排序算法的离线分析模型,使用矩阵分解后的用户特征向量及内容特征向量填补用户-新闻评分矩阵Su以确定推荐对象的方案,本发明直接计算全内容列表A中的各候选对象a与用户i的各实时偏好对象m的相似性,并根据各实时偏好对象m的至少一个相似内容c来确定用户i的至少一个推荐对象r4,因而能够大幅降低实时推荐装置10的数据处理负荷,从而满足新闻应用每天1500条以上的更新内容的实时性要求。
进一步地,在本发明的一些实施例中,在从热门推荐列表R确定的至少一个推荐对象r1、从新内容列表N确定的至少一个推荐对象r2、从全内容列表A确定的至少一个推荐对象r4,和/或根据相似用户u的至少一个实时偏好对象v确定至少一个推荐对象r3之后,实时推荐装置10可以对各推荐对象r1~r4取并集,并进行去重复操作,以构建用户i的推荐内容列表。之后,实时推荐装置10可以根据该推荐内容列表,向用户i推荐其中的至少一个推荐对象。
通过同时采用上述多个算法模型来确定用户i的推荐对象,本发明一方面可以将准实时的协同过滤算法应用到实时推荐***中,从而满足新闻应用、视频应用等各种目标应用的实时性需求,另一方面可以融合用户实时偏好、相似用户、相似内容、热门内容及新内容等多种因素,从而提升推荐内容的准确率,并使推荐的内容更加符合用户的个性化需求。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将可理解,信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如,以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体***的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
尽管上述的实施例所述的实时推荐装置10可以通过软件与硬件的组合来实现。但是可以理解,该实时推荐装置10也可以单独在软件或硬件中加以实施。对于硬件实施而言,该实时推荐装置10可在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、用于执行上述功能的其它电子装置或上述装置的选择组合来加以实施。对软件实施而言,该实时推荐装置10可通过在通用芯片上运行的诸如程序模块(procedures)和函数模块(functions)等独立的软件模块来加以实施,其中每一个模块执行一个或多个本文中描述的功能和操作。
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (16)

1.一种实时推荐方法,其特征在于,包括以下步骤:
获取至少一个用户对至少一个行为对象的行为数据;
根据所述行为数据,以及各所述行为对象的发布时间到当前时间的时间差,确定各所述用户对各所述行为对象的实时偏好分值;
对各所述实时偏好分值进行排序,以确定各所述用户的至少一个实时偏好对象;
统计各所述行为对象的实时偏好分值的总分,并对各所述总分进行排序,以确定热门推荐列表;以及
将所述热门推荐列表中的各所述行为对象,分别与各所述用户的实时偏好对象进行匹配,以确定各所述用户的推荐内容。
2.如权利要求1所述的实时推荐方法,其中,所述行为数据包括对象数据,所述根据所述行为数据,以及各所述行为对象的发布时间到当前时间的时间差,确定各所述用户对所述行为对象的实时偏好分值的步骤包括:
根据所述对象数据,确定对应行为对象的初始热度分值;
根据所述行为对象的发布时间到当前时间的时间差,确定所述行为对象的时间衰减热度分值;以及
根据所述初始热度分值及所述时间衰减热度分值,确定所述用户对所述行为对象的实时偏好分值。
3.如权利要求2所述的实时推荐方法,其中,所述行为数据还包括偏好数据,所述根据所述行为数据,以及各所述行为对象的发布时间到当前时间的时间差,确定各所述用户对所述行为对象的实时偏好分值的步骤还包括:根据所述偏好数据,确定所述行为对象的交互热度分值,
所述根据所述初始热度分值及所述时间衰减热度分值,确定所述用户对所述行为对象的实时偏好分值的步骤包括:根据所述初始热度分值、所述交互热度分值及所述时间衰减热度分值,确定所述用户对所述行为对象的实时偏好分值。
4.如权利要求3所述的实时推荐方法,其中,所述偏好数据包括搜索、浏览、订阅、收藏、点赞、点踩、弹幕、不感兴趣操作中的至少一项操作记录,其中,每项所述操作记录对应一个得分,所述根据所述偏好数据,确定所述行为对象的交互热度分值的步骤包括:
根据所述用户对所述行为对象的各所述操作记录的得分,确定所述行为对象的交互热度分值。
5.如权利要求2所述的实时推荐方法,其中,所述根据所述对象数据,确定对应行为对象的初始热度分值的步骤包括:
根据所述对象数据,确定所述行为对象的对象类别;以及
根据所述对象类别,确定所述行为对象的初始热度分值。
6.如权利要求2所述的实时推荐方法,其中,所述根据所述行为对象的发布时间到当前时间的时间差,确定所述行为对象的时间衰减热度分值的步骤包括:
将所述时间差代入时间衰减函数,以确定所述行为对象的时间衰减热度分值。
7.如权利要求1所述的实时推荐方法,其中,所述将所述热门推荐列表中的各所述行为对象,分别与各所述用户的实时偏好对象进行匹配,以确定各所述用户的推荐内容的步骤包括:
将所述热门推荐列表中的各所述行为对象,分别与用户的至少一个实时偏好对象进行关键词匹配;以及
根据关键词交集数量对所述热门推荐列表中的各所述行为对象进行排序,以确定所述用户的至少一个推荐对象。
8.如权利要求1所述的实时推荐方法,还包括以下步骤:
获取新内容列表,所述新内容列表中包括至少一个候选对象;
将所述新内容推荐列表中的各所述候选对象,分别与用户的至少一个实时偏好对象进行关键词匹配;以及
根据关键词交集数量对所述新内容列表中的各所述候选对象进行排序,以确定所述用户的至少一个推荐对象。
9.如权利要求1所述的实时推荐方法,还包括以下步骤:
获取全内容列表,所述全内容列表中包括至少一个候选对象;
将所述全内容推荐列表中的各所述候选对象,分别与用户的至少一个实时偏好对象进行相似度匹配;以及
根据相似度对所述全内容列表中的各所述候选对象进行排序,以确定所述用户的至少一个推荐对象。
10.如权利要求9所述的实时推荐方法,其中,所述将所述全内容推荐列表中的各所述候选对象,分别与用户的至少一个实时偏好对象进行相似度匹配的步骤包括:
从所述实时偏好对象中提取多个关键词,以构建所述实时偏好对象的第一词向量;
从所述全内容列表中的各候选对象中分别提取多个关键词,以分别构建各所述候选对象的第二词向量;以及
分别计算所述第一词向量与各所述第二词向量的余弦相似度。
11.如权利要求10所述的实时推荐方法,其中,所述从所述实时偏好对象中提取多个关键词,以构建所述实时偏好对象的第一词向量的步骤包括:从所述实时偏好对象中提取多个关键词;通过TF-IDF算法计算各所述关键词的重要性分值;以及根据各所述关键词的重要性分值,构建所述实时偏好对象的第一词向量,
所述从所述全内容列表中的各候选对象中分别提取多个关键词,以分别构建各所述候选对象的第二词向量的步骤包括:从各所述候选对象中分别提取多个关键词;通过TF-IDF算法计算各所述关键词重要性分值;以及根据各所述关键词的重要性分值,分别构建各所述候选对象的第二词向量。
12.如权利要求1所述的实时推荐方法,还包括以下步骤:
确定用户的相似用户;以及
根据所述相似用户的至少一个实时偏好对象,确定所述用户的至少一个推荐对象。
13.如权利要求12所述的实时推荐方法,其中,所述确定用户的相似用户的步骤包括:
根据所述用户对各所述行为对象的交互热度分值,确定所述用户的第一行为特征向量;
根据多名候选用户对各所述行为对象的交互热度分值,确定各所述候选用户的第二行为特征向量;
分别计算所述第一行为特征向量与各所述第二行为特征向量的余弦相似度;以及
根据所述余弦相似度对各所述候选用户进行排序,以确定所述用户的至少一名相似用户。
14.如权利要求6所述的实时推荐方法,还包括以下步骤:
对从所述热门推荐列表确定的至少一个推荐对象、从新内容列表确定的至少一个推荐对象、从全内容列表确定的至少一个推荐对象,和/或根据相似用户确定的至少一个推荐对象取并集,并进行去重复操作,以构建所述用户的推荐内容列表;以及
根据所述推荐内容列表,向所述用户推荐其中的至少一个推荐对象。
15.一种实时推荐装置,其特征在于,包括:
存储器;以及
处理器,所述处理器连接所述存储器,并被配置用于实施如权利要求1~14中任一项所述的实时推荐方法。
16.一种计算机可读存储介质,其上存储由计算机指令,其特征在于,所述计算机指令被处理器执行时,实施如权利要求1~14中任一项所述的实时推荐方法。
CN202111598697.3A 2021-12-24 2021-12-24 一种实时推荐方法及装置 Pending CN116340610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111598697.3A CN116340610A (zh) 2021-12-24 2021-12-24 一种实时推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111598697.3A CN116340610A (zh) 2021-12-24 2021-12-24 一种实时推荐方法及装置

Publications (1)

Publication Number Publication Date
CN116340610A true CN116340610A (zh) 2023-06-27

Family

ID=86890187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111598697.3A Pending CN116340610A (zh) 2021-12-24 2021-12-24 一种实时推荐方法及装置

Country Status (1)

Country Link
CN (1) CN116340610A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116546091A (zh) * 2023-07-07 2023-08-04 深圳市四格互联信息技术有限公司 流式内容的推荐方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116546091A (zh) * 2023-07-07 2023-08-04 深圳市四格互联信息技术有限公司 流式内容的推荐方法、装置、设备及存储介质
CN116546091B (zh) * 2023-07-07 2023-11-28 深圳市四格互联信息技术有限公司 流式内容的推荐方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Chu et al. A hybrid recommendation system considering visual information for predicting favorite restaurants
CN107944913B (zh) 基于大数据用户行为分析的高***购买意向预测方法
US11907240B2 (en) Method and system for presenting a search result in a search result card
Tso-Sutter et al. Tag-aware recommender systems by fusion of collaborative filtering algorithms
US10572565B2 (en) User behavior models based on source domain
CN110704674B (zh) 一种视频播放完整度预测方法及装置
CN110019943B (zh) 视频推荐方法、装置、电子设备和存储介质
Košir et al. Database for contextual personalization
US20160171116A1 (en) System and method for crowdsourced template based search
CN109558535B (zh) 基于人脸识别的个性化推送物品的方法及***
CN104991966B (zh) 媒体内容排序方法及***
US20200226133A1 (en) Knowledge map building system and method
US20190332602A1 (en) Method of data query based on evaluation and device
US20130036121A1 (en) System and method for recommending blog
WO2015034850A2 (en) Feature selection for recommender systems
CN107562939B (zh) 垂直领域新闻推荐方法、装置及可读储存介质
CN109511015B (zh) 多媒体资源推荐方法、装置、存储介质及设备
Jin et al. Reinforced similarity integration in image-rich information networks
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及***
CN110175895B (zh) 一种物品推荐方法及装置
CN102265276A (zh) 基于上下文的推荐***
WO2012103129A1 (en) Semantic matching by content analysis
CN106599047B (zh) 一种信息的推送方法及装置
CN111506831A (zh) 一种协同过滤的推荐模块、方法、电子设备及存储介质
CN108268540A (zh) 一种基于视频相似度的视频推荐方法、***及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination