CN113378063B - 一种基于滑动谱分解确定内容多样性的方法和内容排序方法 - Google Patents

一种基于滑动谱分解确定内容多样性的方法和内容排序方法 Download PDF

Info

Publication number
CN113378063B
CN113378063B CN202110779586.6A CN202110779586A CN113378063B CN 113378063 B CN113378063 B CN 113378063B CN 202110779586 A CN202110779586 A CN 202110779586A CN 113378063 B CN113378063 B CN 113378063B
Authority
CN
China
Prior art keywords
content
contents
diversity
user
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110779586.6A
Other languages
English (en)
Other versions
CN113378063A (zh
Inventor
黄彦华
王维堃
张雷
徐瑞文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaohongshu Technology Co ltd
Original Assignee
Xiaohongshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaohongshu Technology Co ltd filed Critical Xiaohongshu Technology Co ltd
Priority to CN202110779586.6A priority Critical patent/CN113378063B/zh
Publication of CN113378063A publication Critical patent/CN113378063A/zh
Application granted granted Critical
Publication of CN113378063B publication Critical patent/CN113378063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Digital Computer Display Output (AREA)

Abstract

本申请涉及计算机技术领域,公开了一种基于滑动谱分解确定内容多样性的方法和内容排序方法,其中,该基于滑动谱分解确定内容多样性的的方法包括:确定T个内容;根据电子设备的显示尺寸确定大小为w的滑动窗口;基于时间序列,以所述滑动窗口滑动T个内容,得到内容矩阵;对内容矩阵进行奇异值分解,得到多个奇异值,并将多个奇异值的乘积作为T个内容的多样性值。本申请较好地捕捉了用户在长序列场景中对多样化的感知,在计算上更有效,降低了时间复杂度和空间复杂度,并极大地提高了效率。

Description

一种基于滑动谱分解确定内容多样性的方法和内容排序方法
技术领域
本申请涉及计算机技术领域,特别涉及一种基于滑动谱分解确定内容多样性的方法、装置、设备及介质,以及一种内容排序方法、装置、设备以及介质。
背景技术
随着大数据时代的到来,个性化推荐***的出现为处理信息过载问题提供了一个有效的工具,已经成为互联网各大平台(电商、信息流等)的标配,并在技术(个性化召回、个性化排序等)上取得了长足的发展,逐渐从传统模型过度到深度学习时代。但是,当前个性化推荐以及相关算法的关注点大多数在提高推荐的精准性,而忽略了推荐结果的多样性,导致容易出现高度相似的内容聚集在一起的现象,即相似的Item扎堆,用户的兴趣被局限到一个相对“较窄”(信息量为0的“精准推荐”)的推荐视野中,进而伤害了用户体验,尤其是兴趣宽泛、需求不明确的用户。
发明内容
本申请实施例提供了一种基于滑动谱分解确定内容多样性的方法、装置、设备及介质。
第一方面,本申请实施例提供了一种基于滑动谱分解确定内容多样性的方法,用于电子设备,其特征在于,所述方法包括:
确定T个内容;
根据所述电子设备的显示尺寸确定大小为w的滑动窗口;
基于时间序列,以所述滑动窗口滑动所述T个内容,得到内容矩阵,其中所述内容矩阵包括表示以内容的空间向量vi表示的所述T个内容,其中i表示内容的标识,且i的取值为小于等于T的正整数;
对所述内容矩阵进行奇异值分解,得到多个奇异值,并将所述多个奇异值的乘积作为所述T个内容的多样性值。
在上述第一方面的一种可能的实现中,基于时间序列,以所述滑动窗口滑动所述T个内容,得到内容矩阵,包括:将每个所述滑动窗口中的w个所述内容聚合成一行,得到中间矩阵AL×w;将所述中间矩阵中的元素替换为所述向量vi,得到内容矩阵X∈RL×w×d;其中,L=T-w+m;m表示所述滑动窗口在所述T个内容上每次滑动的所述内容个数;d表示所述内容向量的维度。
在上述第一方面的一种可能的实现中,对所述内容矩阵X进行奇异值分解,得到多个奇异值,如下式所示:
将多个所述奇异值的乘积作为所述T个内容的多样性值,如下式所示:
其中,σijk表示所述奇异值;ui (1)∈RL,uj (2)∈Rw,uk (3)∈Rd分别表示所述内容矩阵X的正交分解矩阵的列;表示外积运算。
在上述第一方面的一种可能的实现中,w≤T。
在上述第一方面的一种可能的实现中,所述滑动窗口在所述T个内容上每次滑动m个所述内容,其中,1≤m≤w。
在上述第一方面的一种可能的实现中,根据所述电子设备的显示尺寸确定大小为w的滑动窗口,包括:根据所述电子设备的显示屏能够显示的内容数量作为滑动窗口的大小w;或者以所述电子设备的显示屏能够显示的内容数量为基础,扩展预定幅度后的数量,作为滑动窗口的大小w。
第二方面,本申请实施例提供了一种内容排序方法,用于电子设备,所述方法包括:根据用户画像筛选出Z个内容;
从所述Z个内容中根据相关性排序得到与所述用户相关的N个候选内容;
根据上述第一方面的任意一种可能的方法,确定所述N个候选内容中任意T个内容的多样性;
选取所述N个候选内容中所述相关性和所述多样性之和最大的T个内容,进行排序。
在上述第二方面的一种可能的实现中,从所述Z个内容中排序得到与所述用户相关的N个候选内容,包括:
根据预设规则,对所述Z个内容的每个内容评分,得到所述内容与所述用户的相关性,如下式所示:
其中,t表示所述T个内容的第t个;表示所述T个内容的第t个的相关性评分。
在上述第二方面的一种可能的实现中,选取所述N个候选内容中所述相关性和所述多样性之和最大的所述T个内容,进行排序,如下式所示:
其中,γ为用于调整所述相关性和所述多样性平衡的超参数。
第三方面,本申请实施例提供了一种基于滑动谱分解确定内容多样性的的装置,包括:
确定模块:确定T个内容;
根据电子设备的显示尺寸确定大小为w的滑动窗口;
处理模块:基于时间序列,以所述滑动窗口滑动所述T个内容,得到内容矩阵,其中所述内容矩阵包括以内容的空间向量vi表示的所述T个内容,其中i表示内容的标识,且i的取值为小于等于T的正整数;
计算模块:对所述内容矩阵进行奇异值分解,得到多个奇异值,并将所述多个奇异值的乘积作为所述T个内容的多样性值。
在上述第三方面的一种可能的实现中,基于时间序列,以所述滑动窗口滑动所述T个内容,得到内容矩阵,包括:将每个所述滑动窗口中的w个所述内容聚合成一行,得到中间矩阵AL×w;将所述中间矩阵中的元素替换为所述向量vi,得到内容矩阵X∈RL×w×d;其中,L=T-w+m;m表示所述滑动窗口在所述T个内容上每次滑动的所述内容个数;d表示所述内容向量的维度。
在上述第三方面的一种可能的实现中,对所述内容矩阵X进行奇异值分解,得到多个奇异值,如下式所示:
将多个所述奇异值的乘积作为所述T个内容的多样性值,如下式所示:
其中,σijk表示所述奇异值;u1 (1)∈RL,uj (2)∈Rw,uk (3)∈Rd分别表示所述内容矩阵X的正交分解矩阵的列;表示外积运算。
在上述第三方面的一种可能的实现中,w≤T。
在上述第三方面的一种可能的实现中,所述滑动窗口在所述T个内容上每次滑动m个所述内容,其中,1≤m≤w。
在上述第三方面的一种可能的实现中,根据所述电子设备的显示尺寸确定大小为w的滑动窗口,包括:根据所述电子设备的显示屏能够显示的内容数量作为滑动窗口的大小w;或者以所述电子设备的显示屏能够显示的内容数量为基础,扩展预定幅度后的数量,作为滑动窗口的大小w。
第四方面,本申请实施例提供了一种基于滑动谱分解确定内容多样性的设备,所述基于滑动谱分解确定内容多样性的设备包括:
存储器,用于存储由***的一个或多个处理器执行的指令,以及
处理器,是***的处理器之一,用于执行所述指令以实施上述第一方面的任意一种可能的方法。
第五方面,本申请实施例提供了一种计算机可读介质,计算机可读介质上存储有指令,该指令在计算机上执行时可以使计算机执行上述第一方面的任意一种可能的方法。
第六方面,本申请实施例提供了一种内容排序装置,包括:
筛选模块:根据用户画像筛选出Z个内容;
处理模块:从所述Z个内容中根据相关性排序得到与所述用户相关的N个候选内容;
计算模块:根据上述第一方面的任意一种方法,确定所述N个候选内容中任意T个内容的多样性;
排序模块:选取所述N个候选内容中所述相关性和所述多样性之和最大的T个内容,进行排序。
在上述第六方面的一种可能的实现中,从所述Z个内容中排序得到与所述用户相关的N个候选内容,包括:
根据预设规则,对所述Z个内容的每个内容评分,得到所述内容与所述用户的相关性,如下式所示:
其中,t表示所述T个内容的第t个;表示所述T个内容的第t个的相关性评分。
在上述第六方面的一种可能的实现中,选取所述N个候选内容中所述相关性和所述多样性之和最大的所述T个内容,进行排序,如下式所示:
其中,γ为用于调整所述相关性和所述多样性平衡的超参数。
第七方面,本申请实施例提供了一种内容排序设备,包括:
存储器,用于存储由***的一个或多个处理器执行的指令,以及
处理器,是***的处理器之一,用于执行所述指令以实施上述第二方面的任意一种可能的方法。
第八方面,本申请实施例提供了一种计算机可读介质,计算机可读介质上存储有指令,该指令在计算机上执行时可以使计算机执行上述第二方面的任意一种可能的方法。
本申请中的技术方案,通过使用时间序列分析技术从内容序列的角度研究了推荐多样性问题并结合了滑动窗口外的内容,并因此考虑了整个项目序列的多样性。与现有技术相比,本申请中的技术方案较好地捕捉了用户在长序列场景中对多样化的感知,在计算上更有效,降低了时间复杂度和空间复杂度,并极大地提高了效率。且在线上实验中,SSD取得了用户浏览时长+0.42%,互动行为数+0.81%,用户浏览丰富度+0.32%,用户体验丰富度+0.68%的预料不到的技术效果。
附图说明
图1根据本申请的一些实施例,示出了一种近1.5年用户浏览的平均内容序列长度的增长示意图;
图2根据本申请的一些实施例,示出了一种基于滑动谱分解确定内容多样性的方法的硬件结构图;
图3根据本申请的一些实施例,示出了一种基于滑动谱分解确定内容多样性的方法的应用场景图;
图4根据本申请的一些实施例,示出了一种基于滑动谱分解确定内容多样性的方法的流程图;
图5根据本申请的一些实施例,示出了生成内容矩阵的示意图;
图6根据本申请的一些实施例,示出了一种内容排序方法的流程图;
图7根据本申请的一些实施例,示出了一种基于滑动谱分解确定内容多样性的装置的结构示意图;
图8根据本申请的一些实施例,示出了一种内容排序装置的结构示意图;
图9根据本申请的一些实施例,示出了一种基于滑动谱分解确定内容多样性的方法的硬件结构框图。
具体实施方式
本申请的说明性实施例包括但不限于一种基于滑动谱分解确定内容多样性的方法、装置、设备以及介质和一种内容排序方法、装置、设备以及介质。
可以理解,本申请提供的基于滑动谱分解确定内容多样性的方法可以在各种电子设备上实施,包括但不限于,服务器、多个服务器组成的分布式服务器集群、手机、平板电脑、膝上型计算机、台式计算机、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备、个人数字助理、虚拟现实或者增强现实设备、其中嵌入或耦接有一个或多个处理器的电视机等电子设备等。
可以理解,在本申请各实施例中,处理器可以是微处理器、数字信号处理器、微控制器等,和/或其任何组合。根据另一个方面,所述处理器可以是单核处理器,多核处理器等,和/或其任何组合。
下面对本申请实施例的发明构思进行简要介绍。
目前,针对个性化推荐***中的多样性主要考虑两点:聚合和个体。聚合考虑所有用户之间的多样性,目标是促进推荐器的覆盖,即体现“千人千面”。个体考虑单一用户的推荐多样性,目标是根据用户的兴趣,推荐的类别更多样化。近年来,在重排序阶段多样性优化策略,工业界的代表性方法有:MRR(Maximal Marginal Relevance),Google、Youtube和Hulu推荐的DPP(Determinantal Point Process),阿里提出的基于Transformer的PRM,Google、Youtube提出的基于强化学***衡中的分布,表征为一些函数的决定因素。现有技术中,提出可使用快速贪婪算法来解决DPP的计算复杂度问题。为了在实践中提高效率,滑动窗在这些方法中起到关键作用。在使用滑动窗口的贪婪推理过程中,忽略了滑动窗口外的内容。尽管当前观看窗口中的内容对用户的多样化感知具有最直接的影响,但是由于用户的记忆,用户已经观看的滑动窗口之外的内容仍然对用户的感知具有持久的影响。现有的基于滑动窗口的多样化的方法忽略了窗口外的内容,因此没有完全捕捉到用户的多样化感知。尽管扩大滑动窗口的大小可以解决该问题,但是它仍然增加了计算时间并且实际上阻碍了在具有非常严格的等待时间要求的生产***中的部署。鉴于此,本申请的实施例提供一种基于滑动谱分解确定内容多样性的的方法,在该方法中:确定T个内容;根据电子设备的显示尺寸确定大小为w的滑动窗口;基于时间序列,以所述滑动窗口滑动T个内容,得到内容矩阵;对内容矩阵进行奇异值分解,得到多个奇异值,并将多个奇异值的乘积作为T个内容的多样性值。
本申请公开的基于滑动谱分解确定内容多样性的的方法,考虑到了在个体用户视角下,多样化推荐通常转化为兼顾相关性和多样性的目标优化问题,并对该问题进行了充分的研究,提出了解决了该目标优化问题的方案,该方案将推荐序列建模为由用户观察到的时间序列。通过利用时间序列分析技术,考虑多个滑动窗口来模拟整个序列的多样性,给出了兼顾实现推荐相似性和多样性的最佳折衷方案,并将该基于滑动谱分解确定内容多样性的的方法称为SSD(Sliding Spectrum Decomposition)。图1根据本申请的一些实施例,示出了一种近1.5年用户浏览的平均内容序列长度的增长示意图,如图1所示,在近1.5年中,用户查看的应用程序根据本申请公开的基于滑动谱分解确定内容多样性的的方法以及内容排序方法推荐的内容序列的平均长度增加了约50%,即对于现在用户倾向于查看应用程序所推荐的更多内容,因而,正确地使用窗口外的这些内容的信息能够更符合用户的感知。
在介绍完本申请实施例的发明构思之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
本申请实施例提供的技术方案适用常见的个性化信息场景,如推荐***、广告推送、内容检索、商品推荐等,本申请中主要是以笔记的推荐场景进行举例说明的。其中,笔记可以是在某个平台上至少包括文字、图片、视频等多媒体内容之一的笔记,用于记录用户针对某一主题发表的心得或意见。图2根据本申请的一些实施例,示出了一种基于滑动谱分解确定内容多样性的场景图,如图2所示,通过本申请的基于滑动谱分解确定内容多样性的方法以及内容排序的方法,用户可以浏览到相关度较高且多样性的笔记,例如,***通过对该用户进行该用户喜欢美食、养了一只宠物、头像为纳木措风景、喜欢读书等信息分析出的用户画像,通过滑动谱分解确定内容的多样性,估计用户感兴趣的类别包括美食、旅游、阅读、宠物等。并基于数据库中的笔记内容进行初筛,得到1000篇笔记,然后根据相关性进行打分,并截取评分最高的前100篇笔记;并针对该100篇笔记,每20篇计算相关度和多样性值的和,选取二者之和的最大值的20篇笔记作为推荐给该用户的推荐笔记,并基于计算确定这20篇笔记的排序,比如可以按照“美食、旅游、阅读、宠物”、“美食、旅游、阅读、宠物”、“美食、旅游、阅读、宠物”的方式展现多样性,对用户进行推荐。
本申请方式所提供的方法实施例可以在与该场景实现所牵涉的硬件中执行,图3根据本申请的一些实施例,示出了一种基于滑动谱分解确定内容多样性的方法的硬件结构框图。
终端101可以是台式终端或移动终端,移动终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。终端101可以安装有可以进行浏览笔记的应用,例如浏览器或者用户端。本申请实施例涉及的应用可以是软件用户端,也可以是网页、小程序等用户端,若应用为网页、小程序等用户端时,后台服务器则是与软件或是网页、小程序等相对应的后台服务器,不限制用户端的具体类型。其中,用户可以通过在应用上登录自己的用户,进而进行浏览笔记,并且在浏览笔记的同时,则可以利用本申请实施例的方法确定向该用户推荐的多媒体内容,可在笔记界面一并显示该多媒体内容,也可下滑界面显示该多媒体内容,形式不限于此。需要说明的是,即使用户未进行用户登录时,一般而言,用户端对应的服务器也会对该用户进行标识,例如可以通过该用户使用的终端进行标识,因而该标识也可以理解为用户的用户。
服务器102可以为终端101上安装的应用所对应的后台服务器,例如可以是独立的物理服务器或者是多个服务器组成的服务器集群或分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
服务器102可以包括一个或多个处理器1021、存储器1022以及与终端交互的I/O接口1023等。此外,服务器102还可以配置数据库1024,数据库1024可以用于存储用户画像、用户浏览的笔记记录、笔记的文本、图片、标注等多维度数据等。其中,服务器102的存储器1022中还可以存储本申请实施例提供的基于滑动谱分解确定内容多样性的方法的程序指令,这些程序指令被处理器1021执行时能够用以实现本申请实施例提供的基于滑动谱分解确定内容多样性的方法的步骤,以确定向用户推荐的内容,进而将该内容推送给目标用户,以在终端101中推送该内容。
终端101和服务器102之间通过网络103连接,网络103包括一个或多个,并且可以包括各种连接类型,例如有线、无线通信链路、云或者光纤电缆等等,上述的网络具体实例可包括终端101的通信供应商提供的互联网。
首先,处理器1021通过与终端101交互的I/O接口1023,读取终端101所对应的存储于数据库1024中的用户当前浏览的笔记,接下来,存储器1022通过执行存储的基于滑动谱分解确定内容多样性的方法的程序指令,确定第二内容并通过与终端交互的I/O接口1023将其推送至终端101,展示给用户。
下面根据本申请的一些实施例,详细说明应用于图3所示的硬件的基于滑动谱分解确定内容多样性的技术方案。
处理器1021通过I/O接口1023接收来自终端101的用户信息,通过用户画像估计的用户可能感兴趣的、跟用户相关度较高的笔记,从数据库1024中确定T个笔记(作为T个内容的实例)。接下来根据电子设备的显示尺寸确定大小为w的滑动窗口;基于时间序列,以所述滑动窗口滑动T个内容,得到内容矩阵;对内容矩阵进行奇异值分解,得到多个奇异值,并将多个奇异值的乘积作为T个内容的多样性值。多样性值越大,表明该T个内容所涉及的与用户相关联的类别越多,越全面。本申请中的技术方案,通过使用时间序列分析技术从内容序列的角度研究了推荐多样性问题并结合了滑动窗口外的内容,并因此考虑了整个项目序列的多样性。与现有技术相比,本申请中的技术方案较好地捕捉了用户在长序列场景中对多样化的感知,在计算上更有效,降低了时间复杂度和空间复杂度,并极大地提高了效率。
图4根据本申请的一些实施例,示出了一种基于滑动谱分解确定内容多样性的方法的流程图。如图4所示,在某些实施例中,该方法可以包括:
步骤401:确定T个笔记。
具体的,在步骤401中,在一些实施例中,从数据库1024所能够提供的笔记中确定T个笔记,具体的,***通过用户画像估计的用户可能感兴趣的、跟用户相关度较高的笔记,确定T个笔记,具体的,可假设T=20,即确定20篇用户可能感兴趣的来自不同类别的笔记。
步骤402:根据电子设备的显示尺寸确定大小为w的滑动窗口。
具体的,首先,滑动窗口的大小w通常不大于T个内容,具体的,假设w=5,即每次在20个内容上滑动大小为5个内容。滑在一些实施例中,滑动窗口的大小,取决于产品的设计样式。具体的,比如一个产品设计了3个窗口,每个窗口大小是8的样式,即不管尺寸怎么变,每个窗口都会显示8个内容,显示屏缩小仅会缩小每个内容的大小,而不会减少内容的显示数量。另外产品的设计样式也可以指“用户习惯”,例如经过对用户进行调研,男性一次可以看x个内容,女性则可看y个内容。其中x和y的值是可以个性化设置的。换句话说,产品的设计样式代表了用户能够浏览或感知的笔记数量。本申请中以电子设备的显示尺寸作为示例进行说明,为了确定滑动窗口的大小,电子设备的显示屏所能显示的笔记数量(内容假定具有标准的大小)是基准。根据本申请,滑动窗口的大小可以是直接等于由电子设备的显示屏所能显示的笔记数量。在另一些实施例中,考虑到用户所能感知的内容数量除了当前屏幕显示的本身,还可以是向前一定数量或向后一定数量的内容,比如,用户看的角度,如果假定窗口大小是5,用户看到第6个笔记的时候,不会忘记第一个笔记,即用户可感知的笔记的篇数与电子设备的显示尺寸没必然联系,因此滑动窗口的大小w通常不局限于电子设备的显示尺寸,还可以根据用户能够浏览或感知的笔记数量而定。
步骤403:基于时间序列,以所述滑动窗口滑动T个内容,得到内容矩阵。
具体的,在步骤403中,图5根据本申请的一些实施例,示出了生成内容矩阵的示意图,如图5所示,从用户角度来说,用户一篇一篇的看笔记,窗口随之往下滑动,在***后台,随着用户的滑动,时间序列逐渐加长;接下来,以每个滑动窗口中的5个笔记聚合成一行,得到一个二维的中间矩阵AL×w,其中,矩阵A的元素为i1,……iT,表示20个笔记中每个笔记的标号;通过查询对应的表,找到每个笔记对应的向量表示vit,将矩阵A中的元素替换为向量,得到内容矩阵X。可以理解,X是一个三维数组,其元素为vi1,……,viT,对应20个笔记中的每个笔记的空间表示,表示用户会浏览的所有笔记构成的矩阵。其中,表以key_value的形式展示。
通过得到表示每个笔记标号的中间矩阵,然后再去查表的方式将标号替换为对应笔记在空间中的向量表示的方式,减少了计算量,提高了***运转的效率,因而给客户带来更无痕迅敏的用户体验。
步骤404:对内容矩阵进行奇异值分解,得到多个奇异值,并将多个奇异值的乘积作为T个内容的多样性值。
具体的,在步骤404中,X正是单变量时间序列的奇异谱分析(SSA)中的轨迹矩阵。在时间序列分析中,SSA是已广泛应用于各个领域,例如多元统计、非线性动力***和信号处理。在传统的时间序列分析中,一个复杂的时间序列通常由几个有规律的成分组成。例如,随着农业的不断进步,粮食产量呈上升趋势,但也受季节影响,即粮食产量的时间序列是趋势和季节性的总和。SSA就是这样一种技术,可以将时间序列分解为各种正交分量,其中这些分量的权重通过轨迹矩阵的奇异值分解由奇异值表示。在推荐场景中,我们通过将d维内容嵌入作为多变量观察将轨迹矩阵推广到三阶情况。在SSA之后,我们根据以下公式,对内容矩阵X进行奇异值分解:
其中,σijk表示所述奇异值;ui (1)∈RL,uj (2)∈Rw,uk (3)∈Rd分别表示所述内容矩阵X的正交分解矩阵的列;表示外积运算。
经过以上处理,接下来的问题是如何从这个分解中定义多样性。让我们首先考虑一个简单的情况,当滑动窗口在20个笔记上每次滑动5个笔记时,此时m=w,即其中任何一对窗口之间没有重叠,计算多样性时窗口是独立的。因此,我们只需要关注内容矩阵X的单行,并将轨迹张量退化为矩阵。假设笔记被嵌入到一个内积空间中,即一对笔记的内积可以表示相关性。通过这些笔记跨越的超平行六面体的体积来定义多样性是可以理解的,其中不同类比的笔记因为嵌入更加正交而跨越更大的体积。而矩阵体积的计算方法之一是使用奇异值的累积乘积。基于此,我们将这种方法推广到定义三阶的内容矩阵X的体积,如下式所示:
本申请中的SSD方法在浏览整个序列时通过从用户的感知中将多个窗口组合在一起,X的体积因此表示基于整个序列以及滑动窗口的多样性,因而公式(2)也即将多个奇异值的乘积作为20个笔记的多样性值。因此,我们通过等式定义了整个序列的多样性。
在一些实施例中,滑动窗口的大小w≤确定的T个笔记的大小,具体的,滑动窗口的概念的提出是为了能更好的更细致的捕捉用户的感知,而当滑动窗口的大小大于准备展示给用户的笔记的大小时,可直接一次性展示所有的T个笔记,此时滑动窗口的存在没有意义。
在一些实施例中,滑动窗口在T个笔记上每次滑动m个内容,其中,1≤m≤w。具体的,假设w=5时,m=3,即第一个滑动窗口的笔记为12345,第二个滑动窗口的内容为45678,使得每相邻两个滑动窗口之前没有漏掉笔记,即保证20个笔记至少被一个滑动窗口所滑过,从而使得滑动窗口外的内容被充分完全的考虑进来。
本申请中的技术方案,通过使用时间序列分析技术从内容序列的角度研究了推荐多样性问题并结合了滑动窗口外的内容,并因此考虑了整个项目序列的多样性。与现有技术相比,本申请中的技术方案较好地捕捉了用户在长序列场景中对多样化的感知,在计算上更有效,降低了时间复杂度和空间复杂度,并极大地提高了效率。且在线上实验中,SSD取得了用户浏览时长+0.42%,互动行为数+0.81%,用户浏览丰富度+0.32%,用户体验丰富度+0.68%的预料不到的技术效果。
根据本申请的一些实施例,提供了一种内容排序方法600,图6根据本申请的一些实施例,示出了一种内容排序方法的流程图。如图6所示,该方法如下:
步骤601:根据用户画像筛选出Z个内容。
具体的,在步骤601中,基于用户画像,处理器1021在***内部进行初步筛选,具体的,可根据用户画像筛选出1000篇笔记,其中,用户画像可基于用户的以下信息得出:注册信息、头像、个人资料等。
步骤602:从Z个内容中根据相关性排序得到与用户相关的N个候选内容。
具体的,在步骤603中,在一些实施例中,使用逻辑回归模型,因子分解基,深度神经网络模型等机器学习的方法,根据用户搜索或点击过的笔记做样本,并拟合估计Z个笔记推给用户之后用户的表现,给出评分ri,评分ri综合考虑用户看这篇笔记的时长、点击率、互动数(点赞、收藏、关注作者等)、用户的搜索的内容等因素。具体的,假设从1000篇笔记中找出100篇笔记,则分别针对1000篇中的每一篇笔记进行评分,取评分最高的前100篇笔记作为候选笔记。该评分不区分笔记具体的类别,而是和用户的总体的相关性,具体的,任意两篇笔记的向量vi的内积越大,则相关性越高。
步骤603:根据基于滑动谱分解确定内容多样性的方法确定N个候选内容中任意T个内容的多样性。
具体的,在步骤603中,根据第一实施例的任一种基于滑动谱分解确定内容多样性的的方法确定N个候选笔记中任意T个笔记的多样性。具体的,从100篇笔记中任选20篇进行多样性值的计算,共有种结果。
步骤604:选取N个候选内容中相关性和多样性之和最大的T个内容,进行排序。
具体的,在步骤604中,在一些实施例中,为了综合衡量相关性和多样性,本申请提出直接对它们进行求和,如下式所示:
其中,γ为用于调整相关性和多样性平衡的超参数。将N个候选内容中,综合考虑了相关性和多样性的最优解的T个内容,挑出来进行排序,并推荐给用户。
本申请中的技术方案,通过使用时间序列分析技术从内容序列的角度研究了推荐多样性问题并结合了滑动窗口外的内容,并因此考虑了整个项目序列的多样性。与现有技术相比,本申请中的技术方案较好地捕捉了用户在长序列场景中对多样化的感知,在计算上更有效,降低了时间复杂度和空间复杂度,并极大地提高了效率。且在线上实验中,SSD取得了用户浏览时长+0.42%,互动行为数+0.81%,用户浏览丰富度+0.32%,用户体验丰富度+0.68%的预料不到的技术效果。
根据本申请的一些实施例,提供了一种基于滑动谱分解确定内容多样性的装置700,如图7所示,基于滑动谱分解确定内容多样性的装置700如下:
确定模块701:确定T个内容;根据电子设备的显示尺寸确定大小为w的滑动窗口;
处理模块702:基于时间序列,以滑动窗口滑动T个内容,得到内容矩阵,其中内容矩阵包括以内容的空间向量vi表示的T个内容,其中i表示内容的标识,且i的取值为小于等于T的正整数;
计算模块703:对内容矩阵进行奇异值分解,得到多个奇异值,并将多个奇异值的乘积作为T个内容的多样性值。
第一实施例是与本实施例相对应的方法实施例,本实施例可与第一实施例互相配合实施。第一实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在第一实施例中。
本申请的第四实施例涉及一种基于滑动谱分解确定内容多样性的设备801,包括:
存储器8011,用于存储由***的一个或多个处理器执行的指令,以及
处理器8012,是***的处理器之一,用于执行所述指令以实施上述第一实施例的任意一种可能的方法。
第一实施例是与本实施例相对应的方法实施例,本实施例可与第一实施例互相配合实施。第一实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在第一实施例中。
具体的,如图8所示,设备801可以包括一个或多个(图中仅示出一个)存储器8011和处理器8012(处理器8012可以包括但不限于中央处理器CPU、图像处理器GPU、数字信号处理器DSP、微处理器MCU或可编程逻辑器件FPGA等的处理装置)。本申请实施例中不限定上述存储器8011和处理器8012之间的具体连接介质。本申请实施例在图8中以存储器8011和处理器8012之间通过总线8013连接,总线8013在图8中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线8013可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。本领域技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备801还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
处理器8012通过运行存储在存储器8011内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的基于滑动谱分解确定内容多样性的方法。
存储器8011可用于存储处理器8012执行的如本申请的一些实施例中的基于滑动谱分解确定内容多样性的方法对应的程序指令/模块。存储器8011可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器8011可进一步包括相对于处理器8012远程设置的存储器,这些远程存储器可以通过网络连接至该设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请的第五实施例涉及一种使用计算机程序编码的计算机存储介质,计算机可读介质上存储有指令,该指令在计算机上执行时可以使计算机执行上述第一实施例的任意一种可能的方法。
第一实施例是与本实施例相对应的方法实施例,本实施例可与第一实施例互相配合实施。第一实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在第一实施例中。
根据本申请的一些实施例,提供了一种内容排序装置900,如图9所示,该装置900如下:
筛选模块901:根据用户画像筛选出Z个内容;
处理模块902:从所述Z个内容中根据相关性排序得到与用户相关的N个候选内容;
计算模块903:根据上述第一方面的任意一种方法,确定N个候选内容中任意T个内容的多样性;
排序模块904:选取N个候选内容中相关性和多样性之和最大的T个内容,进行排序。
第二实施例是与本实施例相对应的方法实施例,本实施例可与第二实施例互相配合实施。第二实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在第二实施例中。
本申请的第七实施例涉及一种基于滑动谱分解确定内容多样性的设备,包括:
存储器,用于存储由***的一个或多个处理器执行的指令,以及
处理器,是***的处理器之一,用于执行所述指令以实施上述第二实施例的任意一种可能的方法。
第二实施例是与本实施例相对应的方法实施例,本实施例可与第二实施例互相配合实施。第二实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在第二实施例中。
本申请的第八实施例涉及一种使用计算机程序编码的计算机存储介质,计算机可读介质上存储有指令,该指令在计算机上执行时可以使计算机执行上述第二实施例的任意一种可能的方法。
第二实施例是与本实施例相对应的方法实施例,本实施例可与第二实施例互相配合实施。第二实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在第二实施例中。
需要说明的是,本申请的各方法实施例均可以以软件、硬件、固件等方式实现。不管本申请是以软件、硬件、还是固件方式实现,指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的,易失性的或者非易失性的,固态的或者非固态的,固定的或者可更换的介质等等)。同样,存储器可以例如是可编程阵列逻辑(Programmable Array Logic,简称“PAL”)、随机存取存储器(RandomAccess Memory,简称“RAM”)、可编程只读存储器(Programmable Read Only Memory,简称“PROM”)、只读存储器(Read-Only Memory,简称“ROM”)、电可擦除可编程只读存储器(Electrically ErasableProgrammable ROM,简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc,简称“DVD”)等等。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部位,还可以以多个物理单元的组合实现,这些逻辑单元本身的物理实现方式并不是最重要的,这些逻辑单元所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部位,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元引入,这并不表明上述设备实施例并不存在其它的单元。
需要说明的是,在本专利的权利要求和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (8)

1.一种基于内容多样性的推荐方法,用于电子设备,其特征在于,所述方法包括:
根据用户画像筛选出Z个内容;
根据预设规则,对所述Z个内容的每个内容评分,得到所述内容与用户的相关性,如下式所示:
其中,t表示T个内容的第t个;表示所述T个内容的第t个的相关性评分;
从所述Z个内容中根据所述相关性排序得到N个候选内容;
确定所述N个候选内容中任意T个内容的多样性,所述T个内容包括来自不同类别的笔记;
根据所述电子设备的显示尺寸或者用户能够浏览的笔记数量或能够感知的笔记数量确定大小为w的滑动窗口;
基于时间序列,以所述滑动窗口滑动所述T个内容,得到内容矩阵X,其中所述内容矩阵X包括表示以内容的空间向量vi表示的所述T个内容,其中i表示内容的标识,且i的取值为小于等于T的正整数;
对所述内容矩阵X进行奇异值分解,得到多个奇异值,如下式所示:
并将所述多个奇异值的乘积作为所述T个内容的多样性值,如下式所示:
其中,σijk表示所述奇异值;ui (1)∈RL,uj (2)∈Rw,uk (3)∈Rd分别表示所述内容矩阵X的正交分解矩阵的列;表示外积运算;
选取所述N个候选内容中所述相关性和所述多样性之和最大的T个内容,进行排序并推荐给所述用户,如下式所示:
其中,γ为用于调整所述相关性和所述多样性平衡的超参数。
2.根据权利要求1所述的方法,其特征在于,基于时间序列,以所述滑动窗口滑动所述T个内容,得到内容矩阵,包括:
将每个所述滑动窗口中的w个所述内容聚合成一行,得到中间矩阵AL×w
将所述中间矩阵中的元素替换为所述空间向量vi,得到内容矩阵X∈RL×w×d
其中,L=T-w+m;m表示所述滑动窗口在所述T个内容上每次滑动的内容个数;d表示内容的空间向量的维度。
3.根据权利要求1所述的方法,其特征在于,w≤T。
4.根据权利要求1所述的方法,其特征在于,所述滑动窗口在所述T个内容上每次滑动m个所述内容,其中,1≤m≤w。
5.根据权利要求1所述的方法,其特征在于,根据所述电子设备的显示尺寸确定大小为w的滑动窗口,包括:
根据所述电子设备的显示屏能够显示的内容数量作为滑动窗口的大小w;或者
以所述电子设备的显示屏能够显示的内容数量为基础,扩展预定幅度后的数量,作为滑动窗口的大小w。
6.一种基于内容多样性的推荐装置,其特征在于,所述装置包括:
确定模块:
根据用户画像筛选出Z个内容;
根据预设规则,对所述Z个内容的每个内容评分,得到所述内容与用户的相关性,如下式所示:
其中,t表示T个内容的第t个;表示所述T个内容的第t个的相关性评分;
从所述Z个内容中根据所述相关性排序得到N个候选内容;
确定所述N个候选内容中任意T个内容的多样性,所述T个内容包括来自不同类别的笔记;
根据电子设备的显示尺寸或者用户能够浏览的笔记数量或能够感知的笔记数量确定大小为w的滑动窗口;
处理模块:
基于时间序列,以所述滑动窗口滑动所述T个内容,得到内容矩阵X,其中所述内容矩阵X包括以内容的空间向量vi表示的所述T个内容,其中i表示内容的标识,且i的取值为小于等于T的正整数;
计算模块:
对所述内容矩阵X进行奇异值分解,得到多个奇异值,如下式所示:
并将所述多个奇异值的乘积作为所述T个内容的多样性值,如下式所示:
其中,σijk表示所述奇异值;ui (1)∈RL,uj (2)∈Rw,uk (3)∈Rd分别表示所述内容矩阵X的正交分解矩阵的列;表示外积运算;
选取所述N个候选内容中所述相关性和所述多样性之和最大的T个内容,进行排序并推荐给所述用户,如下式所示:
其中,γ为用于调整所述相关性和所述多样性平衡的超参数。
7.一种基于内容多样性的推荐设备,其特征在于,包括:
存储器,用于存储由***的一个或多个处理器执行的指令,以及处理器,是***的处理器之一,用于执行所述指令以实施权利要求1-5中任一项所述的基于内容多样性的推荐方法。
8.一种使用计算机程序编码的计算机可读存储介质,其特征在于,所述计算机可读介质上存储有指令,所述指令在计算机上执行时使计算机执行权利要求1-5中任一项所述的基于内容多样性的推荐方法。
CN202110779586.6A 2021-07-09 2021-07-09 一种基于滑动谱分解确定内容多样性的方法和内容排序方法 Active CN113378063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110779586.6A CN113378063B (zh) 2021-07-09 2021-07-09 一种基于滑动谱分解确定内容多样性的方法和内容排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110779586.6A CN113378063B (zh) 2021-07-09 2021-07-09 一种基于滑动谱分解确定内容多样性的方法和内容排序方法

Publications (2)

Publication Number Publication Date
CN113378063A CN113378063A (zh) 2021-09-10
CN113378063B true CN113378063B (zh) 2023-07-28

Family

ID=77581609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110779586.6A Active CN113378063B (zh) 2021-07-09 2021-07-09 一种基于滑动谱分解确定内容多样性的方法和内容排序方法

Country Status (1)

Country Link
CN (1) CN113378063B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724235A (zh) * 2020-06-09 2020-09-29 清华大学深圳国际研究生院 一种基于用户新奇度的在线商品推荐方法
CN112270229A (zh) * 2020-10-16 2021-01-26 西安工程大学 一种基于奇异谱分析的滑坡***移预测方法
CN112381351A (zh) * 2020-10-15 2021-02-19 广西电网有限责任公司 一种基于奇异谱分析的用电行为变化检测方法及***
CN112733006A (zh) * 2019-10-14 2021-04-30 ***通信集团上海有限公司 用户画像的生成方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9716959B2 (en) * 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
KR101896273B1 (ko) * 2016-11-15 2018-09-10 금오공과대학교 산학협력단 특이값 분해(svd) 기법을 이용한 비접촉 방식의 생체 신호 측정방법
CN109657646B (zh) * 2019-01-07 2023-04-07 哈尔滨工业大学(深圳) 生理时间序列的特征表示与提取方法、装置及存储介质
CN111089726B (zh) * 2020-01-16 2021-12-03 东南大学 一种基于最优维数奇异谱分解的滚动轴承故障诊断方法
CN111310034B (zh) * 2020-01-23 2023-04-07 深圳市雅阅科技有限公司 一种资源推荐方法及相关设备
CN111625710B (zh) * 2020-04-09 2021-12-24 北京百度网讯科技有限公司 推荐内容的处理方法、装置、电子设备及可读存储介质
CN112697484A (zh) * 2020-11-09 2021-04-23 山东柯瑞申智能科技有限公司 一种ssd多尺度波动分析状态监测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733006A (zh) * 2019-10-14 2021-04-30 ***通信集团上海有限公司 用户画像的生成方法、装置、设备及存储介质
CN111724235A (zh) * 2020-06-09 2020-09-29 清华大学深圳国际研究生院 一种基于用户新奇度的在线商品推荐方法
CN112381351A (zh) * 2020-10-15 2021-02-19 广西电网有限责任公司 一种基于奇异谱分析的用电行为变化检测方法及***
CN112270229A (zh) * 2020-10-16 2021-01-26 西安工程大学 一种基于奇异谱分析的滑坡***移预测方法

Also Published As

Publication number Publication date
CN113378063A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN110941740B (zh) 视频推荐方法及计算机可读存储介质
RU2729956C2 (ru) Обнаружение объектов из запросов визуального поиска
Kristan et al. The eighth visual object tracking VOT2020 challenge results
KR102122373B1 (ko) 사용자 포트레이트를 획득하는 방법 및 장치
US11354720B2 (en) Item recommendation techniques
CN109697629B (zh) 产品数据推送方法及装置、存储介质、计算机设备
US20220122099A1 (en) Analytical precursor mining for personalized recommendation
US10049139B2 (en) Diversity within search results
US20190156395A1 (en) System and Method for Analyzing and Searching for Features Associated with Objects
US20170039198A1 (en) Visual interactive search, scalable bandit-based visual interactive search and ranking for visual interactive search
US20180181569A1 (en) Visual category representation with diverse ranking
US9177341B2 (en) Determining search relevance from user feedback
US20140067535A1 (en) Concept-level User Intent Profile Extraction and Applications
CN110008397B (zh) 一种推荐模型训练方法及装置
De Divitiis et al. Disentangling features for fashion recommendation
CN107590505B (zh) 联合低秩表示和稀疏回归的学习方法
CN111400615B (zh) 一种资源推荐方法、装置、设备及存储介质
CN110413888A (zh) 一种书籍推荐方法及装置
Dhillon et al. Modeling dynamic user interests: A neural matrix factorization approach
CN101957825A (zh) 基于网页中图像、视频内容的图像搜索方法
Hazrati et al. Addressing the New Item problem in video recommender systems by incorporation of visual features with restricted Boltzmann machines
US8903817B1 (en) Determining search relevance from user feedback
CN113378063B (zh) 一种基于滑动谱分解确定内容多样性的方法和内容排序方法
Nguyen et al. Cold-start problems in recommendation systems via contextual-bandit algorithms
Zahrawi et al. Implementing recommender systems using machine learning and knowledge discovery tools

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant