CN114996561B - 一种基于人工智能的信息推荐方法及装置 - Google Patents

一种基于人工智能的信息推荐方法及装置 Download PDF

Info

Publication number
CN114996561B
CN114996561B CN202110231593.2A CN202110231593A CN114996561B CN 114996561 B CN114996561 B CN 114996561B CN 202110231593 A CN202110231593 A CN 202110231593A CN 114996561 B CN114996561 B CN 114996561B
Authority
CN
China
Prior art keywords
user
information
media account
media
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110231593.2A
Other languages
English (en)
Other versions
CN114996561A (zh
Inventor
徐程程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110231593.2A priority Critical patent/CN114996561B/zh
Publication of CN114996561A publication Critical patent/CN114996561A/zh
Application granted granted Critical
Publication of CN114996561B publication Critical patent/CN114996561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于人工智能的信息推荐方法及装置;涉及人工智能技术,方法包括:从用户对应多个交互媒体账号的行为数据中提取用户行为特征;基于所述用户行为特征进行编码处理,得到用户特征向量;确定与所述用户特征向量满足相似条件的多个召回媒体账号;基于所述多个召回媒体账号生成待推荐信息,基于所述待推荐信息执行对应所述用户的推荐操作。通过本申请,能够充分挖掘用户兴趣以提高推荐的准确性。

Description

一种基于人工智能的信息推荐方法及装置
技术领域
本申请涉及人工智能技术,尤其涉及一种基于人工智能的信息推荐方法及装置。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。
信息推荐是人工智能的重要应用,推荐***中的召回过程中通常是多种策略及模型并行处理,比如,基于用户画像检索相关信息(也称为物料,包含文章、视频等),基于用户最近点击检索相似信息,检索热门信息等。在多数的信息流场景中,不同类型的信息都是混合展示的,比如文章和视频是交叉出现的,而相关技术中的召回算法会对不同的信息分别进行召回,即,面对多种类型信息时大大增加了召回的复杂度,且无法将用户对不同类型信息的兴趣进行融合,导致通过这种方式推荐的信息不能满足用户丰富的兴趣,给用户造成不好的体验。
因此,相关技术中缺乏融合用户感兴趣的多种类型的信息进行准确推荐的有效方案。
发明内容
本申请实施例提供一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质,能够充分挖掘用户兴趣以提高推荐的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的信息推荐方法,包括:
从用户对应多个交互媒体账号的行为数据中提取用户行为特征;基于所述用户行为特征进行编码处理,得到用户特征向量;确定与所述用户特征向量满足相似条件的多个召回媒体账号;基于所述多个召回媒体账号生成待推荐信息,基于所述待推荐信息执行对应所述用户的推荐操作。
本申请实施例提供一种基于人工智能的信息推荐装置,包括:
提取模块,用于从用户对应多个交互媒体账号的行为数据中提取用户行为特征;编码模块,用于基于所述用户行为特征进行编码处理,得到用户特征向量;召回模块,用于确定与所述用户特征向量满足相似条件的多个召回媒体账号;推荐模块,用于基于所述多个召回媒体账号生成待推荐信息,基于所述待推荐信息执行对应所述用户的推荐操作。
在上述方案中,所述提取模块,还用于将所述用户针对多个信息的行为数据,映射为所述用户针对发表所述信息的交互媒体账号的行为数据;其中,所述用户针对多个信息的行为数据表征以下行为至少之一:所述用户关注所述交互媒体账号发表的信息的行为、所述用户订阅所述交互媒体账号发表的信息的行为。
在上述方案中,所述编码模块,还用于确定用户协同过滤特征和用户图特征,并将所述用户协同过滤特征、所述用户图特征以及通过提取得到的所述用户行为特征依次进行连接,将连接得到的新的用户行为特征作为用于进行所述编码处理的用户行为特征;其中,所述用户协同过滤特征是对包括所述行为数据的矩阵进行分解而确定的,所述用户图特征是基于包括所述行为数据的有向图进行映射而确定的。
在上述方案中,所述编码模块,还用于从所述用户的属性数据中提取用户属性特征;对所述用户行为特征和所述用户属性特征进行整流处理,或者,对所述用户行为特征进行整流处理,对得到的整流结果进行归一化处理,将得到的归一化处理结果作为编码得到的用户特征向量;其中,所述用户行为特征包括以下至少之一:所述用户的交互媒体账号特征、所述交互媒体账号的标签特征、所述交互媒体账号的频道特征。
在上述方案中,所述召回模块,还用于获取多个候选媒体账号的媒体账号特征向量,确定所述多个候选媒体账号的媒体账号特征向量与所述用户特征向量之间的余弦距离,将所述余弦距离作为相似度;确定与所述用户特征向量的相似度超过相似度阈值的多个候选媒体账号,以作为满足相似条件的多个召回媒体账号。
在上述方案中,所述召回模块,还用于针对所述多个候选媒体账号中的每个候选媒体账号,执行以下处理:从所述候选媒体账号的属性数据中提取媒体账号特征;对所述媒体账号特征进行整流处理,对得到的整流结果进行归一化处理,将得到的归一化处理结果作为媒体账号特征向量;其中,所述媒体账号特征包括以下至少之一:所述媒体账号的标签特征、所述媒体账号的频道特征、所述媒体账号的粉丝数量特征。
在上述方案中,所述召回模块,还用于确定所述候选媒体账号的媒体账号协同过滤特征和媒体账号图特征,将所述媒体账号协同过滤特征、所述媒体账号图特征以及通过提取得到的所述媒体账号特征进行连接,将连接得到的新的媒体账号特征作为用于进行所述整流处理的媒体账号特征;其中,所述媒体账号协同过滤特征是对包括所述行为数据的矩阵进行分解而确定的,所述媒体账号图特征是基于包括所述行为数据的有向图进行映射而确定的。
在上述方案中,所述推荐模块,还用于通过以下方式至少之一生成待推荐信息:基于所述多个召回媒体账号,生成用于推荐媒体账号的待推荐信息;基于所述多个召回媒体账号发表的信息,生成用于推荐媒体账号发表的信息的待推荐信息;基于所述待推荐信息的信息特征向量、所述用户的用户特征向量、所述用户与所述待推荐信息的交叉特征向量预测得到所述待推荐信息的得分,所述得分表征所述待推荐信息与所述用户的相似度;基于多个候选的待推荐信息的得分,对所述多个候选的待推荐信息进行降序排序;将排序在前的多个候选的待推荐信息进行多样性排序,基于多样性排序结果执行对应所述用户的推荐操作。
在上述方案中,当所述待推荐信息为所述多个召回媒体账号发表的信息时,所述推荐模块,还用于当所述多个候选的待推荐信息中来自相同媒体账号的信息数目大于第一阈值时,按照得分的升序逐个删除来自所述相同媒体账号的信息,直至来自所述相同媒体账号的信息数目不超出所述第一阈值;当所述多个候选的待推荐信息中来自相同媒体账号中的相同频道的信息数目大于第二阈值时,按照得分的升序逐个删除来自所述相同媒体账号的信息,直至来自所述相同媒体账号的信息数目不超出所述第二阈值;当所述多个候选的待推荐信息中的非优质信息的数目大于第三阈值时,按照得分的升序逐个删除所述非优质信息,直至所述非优质信息的数目不超出所述第三阈值。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于人工智能的信息推荐方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本申请实施例提供的基于人工智能的信息推荐方法。
本申请实施例具有以下有益效果:
从用户对应多个交互媒体账号的行为数据中提取用户行为特征,基于用户行为确定召回的媒体账号,即通过用户对媒体账号的交互行为,召回符合用户感兴趣的媒体账号,有利于充分挖掘用户对媒体账号发表的信息,从而基于召回媒体账号的信息推荐能够符合用户的兴趣,有效提高推荐的准确性。
附图说明
图1是本申请实施例提供的基于人工智能的信息推荐***100的一个架构示意图;
图2A是本申请实施例提供的服务器200的结构示意图;
图2B是本申请实施例提供的神经网络模型的结构示意图;
图3A是本申请实施例提供的基于人工智能的信息推荐方法的一个流程示意图;
图3B是本申请实施例提供的基于人工智能的信息推荐方法的一个流程示意图;
图3C是本申请实施例提供的基于人工智能的信息推荐方法的一个流程示意图;
图4是本申请实施例提供的矩阵分解示意图;
图5是本申请实施例提供的用户行为序列示意图;
图6是本申请实施例提供的交互媒体账号有向图的示意图;
图7是本申请实施例提供的通过随机游走生成的交互媒体账号的序列示意图;
图8是本申请实施例提供的实施基于人工智能的信息推荐方法的双塔模型的结构示意图;
图9是本申请实施例提供的基于人工智能的信息推荐方法的应用场景示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的用户,不代表针对用户的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
本申请实施例中相关数据收集处理在实例应用时应该严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)媒体账号(CP,Content Producer)指的是信息流产品中发表文章或者视频的账号,有些账号属于官方账号,发表新闻资讯等,比如新闻公众号、报刊公众号,有些属于自媒体账号,在特定领域发表文章,比如娱乐人物公众号、人工智能公众号等。
2)协同过滤,利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息。
3)图,包括有向图和无向图,由有向边构成图称为有向图。
4)出度,有向图中的顶点的出边条数称为该顶点的出度。
5)线性整流函数(ReLU,Rectified Linear Unit),又称修正线性单元,是一种人工神经网络中常用的激活函数(AF,Activation Function),通常指代以斜坡函数及其变种为代表的非线性函数。
6)One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。
相关技术中的信息流推荐产品,主要是利用个性化推荐技术,根据用户的不同兴趣,推荐不同的信息,信息包含文章、视频等。通常,整个推荐流程分为召回、排序两大部分。召回的目的是从海量的信息候选池中,选择用户可能会感兴趣的部分信息,通过多种策略将召回的信息合并起来,作为排序模块的输入。排序模块主要是对召回的信息进行排序,使用信息特征,用户特征及交叉特征,通过打分模型的输出结果进行排序,选取得分最高的文章或视频,推荐给用户。其中,召回的过程一般是多种策略及模型并行处理,比如,基于用户画像检索相关信息,基于用户最近点击检索相似信息,检索热门信息等。本申请实施例中发现相关技术中涉及的召回策略会出现存在以下技术问题:1)在面对混合展示的不同类型的信息时,比如,文章和视频是交叉出现的,相关技术中的召回算法会对不同的信息分别进行召回,这种方式大大增加了召回的复杂度,且无法将用户对不同类型信息的兴趣进行融合。2)在基于媒体号的召回策略中,大部分是利用用户的关注行为,直接召回用户已经关注的媒体号,当用户的关注行为很少时,比如,新用户的关注行为一般很少,召回的媒体号发表的信息较少,不能满足用户兴趣需求。3)相关技术中还会召回当前一段时间比较热门的媒体号,向用户推荐,用热门媒体号覆盖全部的用户,导致推荐的信息偏离用户兴趣,给用户造成不好的体验。
针对上述技术问题,本申请实施例提供一种基于人工智能的信息推荐方法、装置、电子设备和计算机可读存储介质,能够通过召回媒体账号融合用户对多种类型的信息的兴趣,以提高推荐的准确性,下面说明本申请实施例提供的基于人工智能的信息推荐方法的示例性应用,本申请实施例提供的基于人工智能的信息推荐方法可以实施为服务器。下面,将说明电子设备实施为服务器时示例性应用。
参见图1,图1是本申请实施例提供的基于人工智能的信息推荐***100的一个架构示意图,信息推荐***可以用于支撑各种信息的推荐场景,例如对文章进行推荐的应用场景,对视频进行推荐的应用场景,对发表文章和视频的媒体号进行推荐的应用场景等等,根据应用场景不同,信息可以为媒体账号发表的文章、媒体账号发表的视频、媒体账号的介绍信息等等,在信息推荐***中,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,信息推荐***的功能是基于服务器200中的各个模块实现的,在用户使用客户端的过程中,终端400将收集到的用户对应多个交互媒体账号的行为数据作为训练样本数据,训练样本数据是收集的各个终端的不同用户的行为数据,基于所得到的训练数据对神经网络模型进行训练,将训练完成的神经网络模型集成在服务器中,其中,神经网络模型包括提取模块2551、编码模块2552;服务器200中的提取模块2551从用户对应多个交互媒体账号的行为数据中提取用户行为特征,并通过编码模块2552得到用户特征向量,通过召回模块2553确定与用户特征向量满足相似条件的多个召回媒体账号;推荐模块2554基于多个召回媒体账号生成待推荐信息,对待推荐信息进行多样化排序处理,基于多样性排序结果执行对应用户的推荐操作。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
接下来,说明本申请实施例提供的用于实施基于人工智能的信息推荐方法的电子设备的结构,如前所述,本申请实施例提供的电子设备可以是图1中的服务器200。参见图2A,图2A是本申请实施例提供的服务器200的结构示意图,图2A所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线***240耦合在一起。可理解,总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2A中将各种总线都标为总线***240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***251,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,UniversalSerial Bus)等。
在一些实施例中,本申请实施例提供的基于人工智能的信息推荐装置可以采用软件方式实现,图2示出了存储在存储器250中的基于人工智能的信息推荐装置255,其可以是程序和插件等形式的软件,包括以下软件模块:提取模块2551、编码模块2552、召回模块2553和推荐模块2554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
下面将结合本申请实施例提供的服务器200的示例性应用和实施,说明本申请实施例提供的基于人工智能的信息推荐方法。参见图2B,图2B是本申请实施例提供的神经网络模型的结构示意图,可以应用于公众号推荐***,其中,神经网络模型可以是双塔模型,包括用户侧、媒体账号侧和预测层,用户侧和媒体账号侧的结构类似,用户侧和媒体账号侧均包括嵌入层和编码层,编码层包括线性整流层和归一化层;预测层在训练阶段可以用于更新各层的参数,在应用阶段可以用于计算用户特征向量和媒体账号向量之间的相似度,以确定与用户特征向量满足相似条件的媒体账号向量,进而确定出媒体账号向量对应的媒体账号。以推荐任务为推荐媒体账号为例,基于训练完成的神经网络模型中的各层完成推荐任务,即,响应于终端发起的推荐任务,获取终端发送用户针对媒体账号的行为数据,通过用户侧的嵌入层从行为数据中提取用户行为特征;通过用户侧的线性整流层对用户行为特征进行整流处理,通过归一化层对整流处理结果进行归一化处理,得到用户特征向量;通过预测层将用户特征向量与媒体账号侧中离线存储的多个媒体账号进行相似度预测,确定与用户特征向量满足相似条件的多个召回媒体账号,向终端用户发送待推荐的媒体账号。
在一些实施例中,以神经网络模型是双塔模型为例,参见图8,图8是本申请实施例提供的实施基于人工智能的信息推荐方法的双塔模型的结构示意图。双塔模型的训练过程可以通过以下方式实现:将用户和媒体账号的组合作为用于训练双塔模型的样本集合;将用户作为样本在双塔模型的用户侧中的各个层以及预测层中进行正向传播,以得到用户特征向量;将用户对应的媒体账号作为样本在双塔模型的媒体账号侧中的各个层以及预测层中进行正向传播,以得到媒体账号特征向量;确定用户特征向量和媒体账号特征向量的预测相似度;初始化包括每个样本以及对应样本的预测相似度的损失函数;确定每个样本的预测相似度和真实相似度之间的误差,并根据损失函数在双塔模型中反向传播误差,以确定损失函数取得最小值时双塔模型的变化值,并根据变化值更新双塔模型的参数。其中,预测层可以通过评分函数来实现,例如评分函数可以是余弦相似度。
这里模型的训练样本的形式是用户和媒体账号的组合标签,即,当媒体账号是与用户存在交互行为的媒体账号时,用户和媒体账号的组合样本的真实相似度为1,当媒体账号是与用户不存在交互行为的媒体账号时,用户和媒体账号的组合样本的真实相似度为0;损失函数可以是交叉熵损失函数、平方损失函数等。
在一些示例中,用户侧的嵌入层可以仅包括表征用户行为的用户的标识特征,媒体账号侧的嵌入层可以仅包括表征用户行为的媒体账号标识特征。
在一些示例中,用户侧的嵌入层可以包括用户行为特征,用户行为特征包括用户的标识特征、用户的交互媒体账号特征、交互媒体账号的标签特征、交互媒体账号的频道特征中至少之一,媒体账号侧的嵌入层可以包括媒体账号特征,媒体账号特征包括媒体账号的标识特征、媒体账号的标签特征、媒体账号的频道特征、媒体账号的粉丝数量特征中至少之一。每个用户的标识特征和媒体账号标识特征初始化时都有一个固定维度的嵌入表示。作为示例,用户侧的嵌入层可以包括用户行为特征和用户属性特征。
下面,以由图1中的服务器200执行本申请实施例提供的信息推荐***的方法为例,说明本申请实施例提供的基于人工智能的信息推荐方法,信息推荐***包括训练阶段以及应用阶段。首先对本申请实施例提供的基于人工智能的信息推荐方法中模型的应用进行说明。参见图3A,图3A是本申请实施例提供的基于人工智能的信息推荐方法的一个流程示意图,将结合图3A示出的步骤101-步骤105进行说明。
在步骤101中,从用户对应多个交互媒体账号的行为数据中提取用户行为特征。其中,用户对应多个交互媒体账号的行为数据为用户针对媒体账号的点击或观看等行为。
在一些实施例中,从用户对应多个交互媒体账号的行为数据中提取用户行为特征,可以通过如图2B中的神经网络模型中的嵌入层来实现,即通过训练完成后的神经网络模型中的嵌入层从高维的原始数据提取出低维的嵌入表示,这些低维的嵌入表示包括至少一个维度数据(例如,交互媒体账号的标签特征、交互媒体账号的频道特征等),当这个嵌入表示为一个维度数据时,这个嵌入表示即为用户行为特征,当这个嵌入表示为多个维度数据时,对多个维度数据进行拼接,拼接后的嵌入表示即为用户行为特征。
在步骤102中,基于用户行为特征进行编码处理,得到用户特征向量。
在一些实施例中,基于用户行为特征进行编码处理,得到用户特征向量,可以通过以下方式实现:对用户行为特征进行整流处理,对得到的整流结果进行归一化处理,将得到的归一化处理结果作为编码得到的用户特征向量;其中,用户行为特征包括以下至少之一:用户的交互媒体账号特征、交互媒体账号的标签特征、交互媒体账号的频道特征。
在一些示例中,参见图2B,编码处理通过图2B中的神经网络模型中用户侧的线性整流层和归一化层来实现。用户侧的线性整流层是对通过神经网络模型的用户侧的嵌入层输出的用户行为特征进行线性整流处理,线性整流处理可以通过ReLU函数实现;然后,经过用户侧的归一化层进行归一化处理,归一化因子是本层的神经元的个数,通过归一化可以提高神经网络模型的收敛速度。
在一些实施例中,基于用户行为特征进行编码处理,得到用户特征向量,可以通过以下方式实现:当用户对应多个交互媒体账号的行为数据的数据量小于数据量阈值,或用户对应多个交互媒体账号的行为数据的使用期限不在有效期范围内时,从用户的属性数据中提取用户属性特征;对用户行为特征和用户属性特征进行拼接融合后得到的特征进行整流处理,对得到的整流结果进行归一化处理,将得到的归一化处理结果作为编码得到的用户特征向量。
在本申请实施例中,当用户对应多个交互媒体账号的行为数据不足或是超期时补入属性特征,以弥补基于数据量不足或是超期的行为数据,学习的用户行为特征不充分的缺陷,提升了神经网络模型的学习精度;对用户行为特征和用户属性特征进行拼接融合后得到的特征进行编码处理,使得编码得到的用户特征向量能够更好地映射出用户的兴趣和需求。
在步骤103中,确定与用户特征向量满足相似条件的多个召回媒体账号。
在一些实施例中,参见图3B,图3B是本申请实施例提供的基于人工智能的信息推荐方法的一个流程示意图,示出了图3A中的步骤103,还可以通过执行步骤1031至步骤1033来实现。将结合各步骤进行说明。
在步骤1031中,获取多个候选媒体账号的媒体账号特征向量。
在一些示例中,获取多个候选媒体账号的媒体账号特征向量,可以通过以下方式来实现:针对多个候选媒体账号中的每个候选媒体账号,执行以下处理:从候选媒体账号的属性数据中提取媒体账号特征;对媒体账号特征进行整流处理,对得到的整流结果进行归一化处理,将得到的归一化处理结果作为媒体账号特征向量;其中,媒体账号特征包括以下至少之一:媒体账号的标签特征、媒体账号的频道特征、媒体账号的粉丝数量特征。
在一些示例中,参见图2B,针对多个候选媒体账号中的每个候选媒体账号执行的处理,通过图2B中的神经网络模型中的媒体账号侧的嵌入层、线性整流层和归一化层来实现。媒体账号侧的嵌入层用于从候选媒体账号的属性数据中提取媒体账号特征;媒体账号侧的线性整流层是对通过嵌入层输出的媒体账号特征进行线性整流处理,线性整流处理可以通过ReLU函数实现;然后,经过媒体账号侧的归一化层进行归一化处理,归一化因子是本层的神经元的个数,通过归一化可以提高双塔模型的收敛速度。
这里需要说明的是,候选媒体账号可以仅包括与用户之间存在互动的媒体账号(即交互媒体账号),作为示例,在神经网络模型的训练阶段,即对交互媒体账号进行前向运算时,将交互媒体账号的媒体账号向量进行离线存储,并存储至向量数据库中。在在线应用阶段,当确定与用户特征向量满足相似条件的召回媒体账号时,直接利用向量数据库检索得到相似度最近的多个媒体账号,并进行相关推荐。
在本申请实施例中,候选媒体账号仅包括交互媒体账号时,能够将媒体账号进行离线存储,以基于用户特征向量快速查找到与用户兴趣相同的媒体账号。
在一些实施例中,召回的候选媒体账号可以包括与用户之间存在互动的媒体账号(即交互媒体账号)和与用户之间不存在互动的媒体账号(即非交互媒体账号);召回的候选媒体账号也可以仅包括与用户之间不存在互动的媒体账号。
以候选媒体账号仅包括非交互媒体账号为例,从针对交互媒体账号1-10的行为数据中提取用户行为特征,在召回阶段时,从媒体账号11-100进行召回,得到多个召回媒体账号。以候选媒体账号包括交互媒体账号和非交互媒体账号为例,从针对交互媒体账号1-10的行为数据中提取用户行为特征,在召回阶段时,从媒体账号1-100进行召回,得到多个召回媒体账号。
在本申请实施例中,候选媒体账号仅包括非交互媒体账号时,通过从交互媒体账号中学习特征,复用至与用户之间不存在互动的媒体账号中,能够有效挖掘与用户兴趣相近且新鲜的媒体账号。
在步骤1032中,确定多个候选媒体账号的媒体账号特征向量与用户特征向量之间的余弦距离,将余弦距离作为相似度。
需要说明的是,在一些示例中,相似度也可以通过皮尔逊相关系数、马氏距离、欧几里得距离等来计算。
在步骤1033中,确定与用户特征向量的相似度超过相似度阈值的多个候选媒体账号,以作为满足相似条件的多个召回媒体账号。
在一些示例中,也可以通过以下方式来确定满足相似条件的多个召回媒体账号:确定多个候选媒体账号向量与用户特征向量的相似度,将相似度排名靠前的候选媒体账号向量对应的候选媒体账号,作为满足相似条件的多个召回媒体账号。
举例来说,获取相似度排名靠前的候选媒体账号向量,可以通过排名靠前的数量或比例来进行获取,例如,获取排名靠前的50个候选媒体账号向量,或是获取排名靠前的占全部媒体账号向量的总数的百分之二的候选媒体账号向量。在步骤104中,基于多个召回媒体账号生成待推荐信息。
在一些实施例中,可以通过以下方式至少之一生成待推荐信息:基于多个召回媒体账号,生成用于推荐媒体账号的待推荐信息;基于多个召回媒体账号发表的信息,生成用于推荐媒体账号发表的信息的待推荐信息。
在一些示例中,基于多个召回媒体账号,生成用于推荐媒体账号的待推荐信息即为将召回的媒体账号直接作为待推荐信息,例如,发表文章和视频的公众号。基于多个召回媒体账号发表的信息,生成用于推荐媒体账号发表的信息的待推荐信息,即对多个召回媒体账号发表的信息进行多样性排序处理,将多样性排序处理后的召回媒体账号发表的信息作为待推荐信息,例如,文章、视频等。
步骤105中,基于待推荐信息执行对应用户的推荐操作。
在一些实施例中,参见图3C,图3C是本申请实施例提供的基于人工智能的信息推荐方法的一个流程示意图,示出了图3A中的步骤105,还可以通过执行步骤1051至步骤1053来实现。将结合各步骤进行说明。
在步骤1051中,调用打分模型,以基于待推荐信息的信息特征向量、用户的用户特征向量、用户与待推荐信息的交叉特征向量预测得到待推荐信息的得分,得分表征待推荐信息与用户的相似度。
在一些示例中,对本申请实施例提供的基于人工智能的信息推荐方法中所使用的打分模型以及打分模型所进行的训练进行说明,打分模型包括特征提取模块、融合编码模块、预测模块。打分模型的训练过程可以通过以下方式实现:将用户和待推荐信息的组合作为用于训练双塔模型的样本集合,初始化包括每个样本以及对应样本的预测得分的损失函数;通过特征提取模块从组合样本中提取信息特征、用户的用户特征、用户与待推荐信息的交叉特征;通过融合编码模块将待推荐信息的信息特征、用户的用户特征、用户与待推荐信息的交叉特征进行编码处理得到待推荐信息的信息特征向量、用户的用户特征向量、用户与待推荐信息的交叉特征向量,将待推荐信息的信息特征向量、用户的用户特征向量、用户与待推荐信息的交叉特征向量进行融合处理,例如,通过全连接将待推荐信息的信息特征向量、用户的用户特征向量、用户与待推荐信息的交叉特征向量进行连接;通过预测模块,对连接结果进行预测,以预测得到待推荐信息的得分,确定每个样本的预测得分和真实得分之间的误差,并根据损失函数在打分模型中反向传播误差,以确定损失函数取得最小值时打分模型的变化值,并根据变化值更新打分模型的参数。
需要说明的是,预测模型可以通过逻辑回归函数softmax或余弦相似度函数等来实现,当通过余弦相似度函数实现时,得分可以表征待推荐信息与用户的相似度。用户与待推荐信息的交叉特征,对用户和待推荐信息的原始数据做简单字符串拼接,对拼接结果进行One-Hot编码得到的特征。
本申请实施例中,打分模型是通过神经网络模型实现的。这里的神经网络模型,训练样本的形式是用户和待推荐信息的组合标签,即,当待推荐信息是用户点击或观看的信息时,用户和推荐信息的组合样本的真实相似度为1,当待推荐信息是用户未点击和观看的信息时,用户和推荐信息的组合样本的真实相似度为0;损失函数可以是交叉熵损失函数、平方损失函数等。
在步骤1052中,基于多个候选的待推荐信息的得分,对多个候选的待推荐信息进行降序排序。
在步骤1053中,将排序在前的多个候选的待推荐信息进行多样性排序,基于多样性排序结果执行对应用户的推荐操作。这里,针对用户的推荐操作为:向用户终端发送按照排序结果排序的多个待推荐信息。
在一些示例中,当待推荐信息为多个召回媒体账号发表的信息时,将排序在前的多个候选的用户进行多样性排序,可以通过以下至少之一方式来实现:当多个候选的待推荐信息中来自相同媒体账号的信息数目大于第一阈值时,按照得分的升序逐个删除来自相同媒体账号的信息,直至来自相同媒体账号的信息数目不超出第一阈值;当多个候选的待推荐信息中来自相同媒体账号中的相同频道的信息数目大于第二阈值时,按照得分的升序逐个删除来自相同媒体账号的信息,直至来自相同媒体账号的信息数目不超出第二阈值;当多个候选的待推荐信息中的非优质信息的数目大于第三阈值时,按照得分的升序逐个删除非优质信息,直至非优质信息的数目不超出第三阈值。需要说明的是,第一阈值、第二阈值和第三阈值,可以根据召回的待推荐信息的总量的数量来确定。
以待推荐信息为文章示例,当多个候选文章中来自相同公众号的文章数目大于50个时,对文章得分的升序顺序逐个删除来自相同公众号的文章,直至来自相同公众号的文章数目不超出50个,保证多个候选文章中来自相同公众号的文章的数目最多为50个。
在本申请实施例中,对待推荐信息进行多样性排序,保证待推荐信息的多样性,解决待推荐信息头部出现聚集效应的问题,保证待推荐信息分散在不同媒体账号、不同媒体账号的频道和标签中,即保证召回的待推荐信息均来源于多个的媒体账号、多种类型的媒体账号,给予媒体账号均衡的曝光机会;同时也保证待推荐信息的质量。
由于用户行为通常发生在用户与媒体信息(例如,文章、视频等)之间,本申请实施例将用户针对媒体信息的行为数据映射为用户对媒体账号的行为数据,举例来说,用户u点击了文章d,文章d是由媒体账号c发布的,那么用户u就存在和媒体账号c的交互行为。在一些实施例中,从用户对应多个交互媒体账号的行为数据中提取用户行为特征之前,还可以获取用户对应多个交互媒体账号的行为数据,即将用户针对多个信息的行为数据,映射为用户针对发表信息的交互媒体账号的行为数据;其中,用户针对多个信息的行为数据表征以下行为至少之一:所述用户关注所述交互媒体账号发表的信息的行为、所述用户订阅所述交互媒体账号发表的信息的行为。
在一些实施例中,在得到的用户对应多个交互媒体账号的行为数据的数据量不足时,基于该行为数据得到的用户行为特征无法准确地表征用户的行为,因此,可以在基于用户行为特征进行编码处理,得到用户特征向量之前,执行以下处理,以得到能够准确反映用户行为的用户行为特征:确定用户协同过滤特征和用户图特征,并将用户协同过滤特征、用户图特征以及通过提取得到的用户行为特征依次进行连接,将连接得到的新的用户行为特征作为用于进行编码处理的用户行为特征;其中,用户协同过滤特征是对包括行为数据的矩阵进行分解而确定的,用户图特征是基于包括行为数据的有向图进行映射而确定的。
在一些示例中,协同过滤特征可以通过以下方式来确定:基于用户针对多个交互媒体账号的行为数据,构建每个用户对应每个交互媒体账号的交互矩阵;对交互矩阵进行分解,以得到表征用户行为的用户协同过滤特征和表征用户行为的媒体账号协同过滤特征。
举例来说,参见图4,图4是本申请实施例提供的矩阵分解示意图。其中,401为交互矩阵,402为用户协同过滤特征,403为媒体账号协同过滤特征。用户和媒体账号的交互矩阵401为3*5的矩阵,代表用户数量为3,媒体账号数量为5,通过矩阵分解,将高维的交互矩阵分解为两个低维矩阵,即,用户矩阵402为3*6的矩阵,可以理解为3个用户的向量表示,这3个用户的向量表示即为用户协同过滤特征,媒体账号矩阵403为6*5的矩阵,可以理解为5个媒体账号的向量表示,这5个媒体账号的向量表示即为媒体账号协同过滤特征。
由于实际场景下,用户和媒体账号的规模是非常大的,在本申请实施例中,将高维的交互矩阵进行矩阵分解,能够得到稠密的用户协同过滤特征和媒体账号协同过滤特征,很好地解决了数据稀疏的问题,并且用户和媒体账号在同一个向量空间中,从而后续基于用户协同过滤特征和媒体账号协同过滤特征确定的用户行为特征进行召回处理,召回的精度也更高。
在一些示例中,用户图特征可以通过以下方式来确定:获取每个用户在时间窗口内的行为序列;其中,行为序列表征用户在时间窗口内与媒体账号进行交互行为的顺序;以与用户存在交互行为的媒体账号为顶点,行为序列中涉及的媒体账号之间的转向为顶点之间的边,构建每个用户的交互媒体账号的有向图,基于有向图生成交互媒体账号的序列,基于每条交互媒体账号的序列得到每个交互媒体账号的嵌入表示,将这个嵌入表示作为用户图特征。
举例来说,参见图5,图5是本申请实施例提供的用户行为序列示意图。由于一个用户的兴趣会随时间改变,因此,将用户在被设置的一个时间窗口内的行为作为用户行为序列。图5中展示了三个用户在某个时间窗口内的行为序列,1-5代表不同的媒体账号。然后,对用户行为序列构建有向图。参见图6,图6是本申请实施例提供的交互媒体账号有向图的示意图。在一个时间窗口内的相邻两个交互媒体账号会通过一个有向边进行连接,例如,在图3中用户A顺序访问了交互媒体账号1和交互媒体账号2,即,交互媒体账号1和交互媒体账号2有一条有向边,有向边为交互媒体账号1转向交互媒体账号2。通过所有用户的协同行为,为有向图中的有向边分配对应的权重。交互媒体账号1到交互媒体账号2的有向边的权重等于交互媒体账号1转向交互媒体账号2的频次占交互媒体账号1的出度的比例。然后,构建的交互媒体账号的有向图,利用随机游走思想生成多条交互媒体账号的序列,参见图7,图7是本申请实施例提供的通过随机游走生成的交互媒体账号的序列示意图,其中,701示出了交互媒体账号1的序列,702为交互媒体账号2的序列,703为交互媒体账号3的序列。基于每条交互媒体账号的序列可以得到与用户相关的每个交互媒体账号的嵌入表示,将这个嵌入表示作为用户图特征。
在本申请实施例中,通过构建有向图的方式,得到结合了时序信息的图特征,很好地解决了数据稀疏的问题。
在一些实施例中,在从候选媒体账号的属性数据中提取媒体账号特征之后,还可以执行以下处理,以得到稠密的媒体账号特征:确定候选媒体账号的媒体账号协同过滤特征和媒体账号图特征,将媒体账号协同过滤特征、媒体账号图特征以及通过提取得到的媒体账号特征进行连接,将连接得到的新的媒体账号特征作为用于进行整流处理的媒体账号特征;其中,媒体账号协同过滤特征是对包括行为数据的矩阵进行分解而确定的,媒体账号图特征是基于包括行为数据的有向图进行映射而确定的。
需要说明的是,媒体账号协同过滤特征是通过上文中对交互矩阵进行分解而确定的;确定媒体账号图特征的方式与确定用户账号图特征的方式相同。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
参见图9,图9是本申请实施例提供的基于人工智能的信息推荐方法的应用场景示意图。下面将结合图9说明本申请实施例提供的基于人工智能的信息推荐方法的具体实施场景。
在本申请实施例中,以信息流产品为例,信息推荐***将用户对文章、视频等不同类型的信息的点击或观看行为,映射到用户对媒体号(即发表文章、视频等的媒体账号,在下文中简称为CP)的交互行为上,由此结合用户兴趣对媒体号进行召回。也即是说,信息推荐***将信息流产品中的用户与文章,用户与视频之间的用户行为,统一映射到用户与CP上,例如,用户u点击了文章d,d是由媒体号c发布的,那么u就存在和c的交互行为。
在一些实施例中,信息推荐***对媒体号进行召回可以通过双塔模型来实现。参见图9,双塔模型分别对用户侧特征和CP侧特征进行编码,通过一个评分函数拟合用户侧特征和CP侧特征的编码结果之间的相似度,这里的评分函数可以是余弦cosine函数。在双塔模型训练完成之后,离线对所有CP进行前向计算,得到CP的编码并进行存储;在线计算中,对用户进行前向计算,得到用户的编码,然后从离线存储的CP中检索出最相似的Top N个CP,将Top N个CP作为召回的媒体号。
双塔模型的结构包括嵌入层、编码层和预测层,首先是嵌入embedding层,拼接各种维度的embedding,例如图9中示出了user-emb即用户特征user emb edding的嵌入表示,CP-emb即媒体号特征CP embedding的嵌入表示,tag-emb即媒体号的标签特征tagembedding的嵌入表示,chanl-emb即媒体号特征chan nel embedding的嵌入表示,对这多种维度的嵌入表示进行拼接,得到用户特征和媒体号特征,媒体账号特征;然后是编码encode层,对embedding层的特征利用全连接网络捕捉,编码层包括线性整流层和归一化层,线性整流层利用Re LU(线性整流函数)作为激活函数,提供全连接后的非线性变化,更加有利于梯度下降及反向传播,归一化层对线性整流的结果进行归一化处理。需要说明的是,在一些实施例中,可以只使用用户标识特征user-id和媒体号标识特征CP-id的嵌入表示embedding便可以构建双塔网络,但是由于很多用户或者媒体号的交互行为比较少,无法准确地学***均作为交互媒体号的标签特征;chanl-id,即CP画像中频道特征;fans(图中未示出),即CP的粉丝数量特征,由于粉丝数量是连续特征,可以对粉丝数进行分段,每个数量级分为一段,将连续的粉丝数量特征转化为离散的粉丝数量特征。2)user侧特征:user-id特征,即用户的标识特征,与CP的标识特征一样可以通过查表获取;CP-id,即用户的交互媒体号特征,取与用户最近发生交互行为(点击或者观看)的CP,当用户的交互媒体号特征有多个时,取平均作为用户的交互媒体号特征;tag-id,即交互媒体号的标签特征,对用户最近发生交互行为的CP的标签进行统计,取平均作为交互媒体号的标签特征,这里的取平均可以对时间段内发生交互行为的次数排名靠前的交互媒体号的标签进行平均处理;chanl-id,即交互媒体号的频道特征,对频道chann el进行统计,取平均作为交互媒体号的频道特征,这里的取平均可以对时间段内发生交互行为的次数排名靠前的交互媒体号的频道进行平均处理。
需要说明的是,媒体号的画像主要包括标签和频道等,是从媒体号发表文章或者视频中提取。以文章举例,一般文章都会有些静态特征,频道、标签等,称为文章的画像。信息推荐***对CP对应的文章的静态特征进行统计,就可以得出CP的画像信息。但是文章画像与媒体号画像是有区别的,以频道特征为例,一篇文章一般只有一个频道,但是媒体号的发文类型很可能不固定,因此可能有多个频道,通常统计之后,取头部的多个作为媒体号画像中的频道。
在一些实施例中,user和CP的embedding除了使用在训练前随机初始化的方式,信息推荐***中嵌入层的处理引入了更多全局的embedding信息,来弥补行为稀疏的user或者CP学习不充分的缺陷。主要包括协同过滤特征cf-embedding和图特征graph-embedding两种。其中,cf-embeding:行为相似CP的embedding应该相似,行为类似的用户的embedding也应该相似。相关技术中的基于用户的最近邻推荐UCF和基于物品的推荐ICF实际上是分别构造了用户向量空间和媒体号向量空间,在任何一个向量空间找到相似性都可以进行推荐。在本申请实施例通过矩阵分解,能将高维的矩阵映射成两个低维矩阵的乘积,即可以得到稠密的user和CP向量,即用户协同过滤特征和媒体号协同过滤特征,很好地解决了数据稀疏的问题,user和CP就在同一个向量空间中,预测的精度也比较好。graph-embedding:反映用户的交互媒体号的顺序信息(可以更精准地影响用户的偏好),由于一个用户的兴趣会随时间漂移,因此,信息推荐***将用户在被设置的一个时间窗口内的行为作为用户行为序列。如上文得到多个交互媒体号的序列,基于每条交互媒体账号的序列学习每个CP的embedding表示,即图特征。在本申请实施例中,上述两种方式学习到的cf-embe dding和graph-embedding采用拼接的方式使用,且在双塔模型训练的过程中不参与更新。
在一些实施例中,在离线训练过程中,对不同的embedding和双塔模型进行训练,当双塔模型训练完毕,对所有CP进行前向计算,得到媒体号特征向量,基于媒体号特征向量构建向量数据库faiss索引,将媒体号特征向量及对应的媒体号进行离线存储。在线计算过程中,实时对用户进行前向计算,得到用户特征向量,利用faiss检索得到最近的top N(排名前N)个CP。信息推荐***可以将得到的CP直接推荐给用户,也可以推荐CP对应的文章或视频给用户。
在一些实施例中,一般一个CP会发表有很多文章或视频,以文章为例,当信息推荐***召回很多CP后,候选文章也是很多的,通过打分模型来挑选最合适的文章。打分模型的特征可以使用文章特征、用户特征、用户与文章的交叉特征(例如,发表文章的媒体号特征)。作为示例,使用的具体特征可以包括:1)CP粉丝数、优质文章占比;2)发文时间、文章质量分、文章新热度;3)文章画像与用户画像的交集占比。
这里需要说明的是,文章画像包括发表文章的媒体号的标签特征、频道特征等,用户画像包括用户行为数据和用户属性数据,例如行为数据中交互媒体账号的标签特征、频道特征等。特征的权重可以构建训练数据进行训练学习,也可以根据实际业务手动指定,比如,信息推荐***提高召回优质文章、CP优质文章占比和文章质量分这三种特征的权重,就可以使得召回的文章与用户兴趣强相关。
在一些实施例中,信息推荐***通过CP的召回及文章的打分,可以得到排序好的文章列表,还可以加入多样性处理对这个排序进行调整,保证召回结果的多样性,解决通过打分模型导致的文章头部出现聚集效应的问题,即,召回的文章均来源于一个或几个媒体号,导致很多媒体号一直没有曝光机会。多样性排序处理,具体包括:1)CP的多样性:保证每个媒体号对应的文章不超过一定阈值,阈值根据实际业务召回篇数确定;2)频道的多样性:保证召回文章分散在不同的频道之中,每个频道的文章数量可以由召回篇数总量乘用户画像中每个频道的占比得到;3)质量控制:为了保证优质媒体号的曝光,信息推荐***中的排序模块限制非优质的媒体号数量。
在本申请实施例中,将用户对文章和视频的行为映射到用户对CP,综合利用多种类型信息的兴趣,对用户兴趣的挖掘更加充分;覆盖多种应用场景,可以支持推荐媒体号,也可以支持推荐文章、视频,也可以支持同时推荐文章和视频;利用多种侧信息和全局特征信息,学习用户和媒体号的额外embedding表示,可以有效缓解推荐场景行为稀疏、冷启动等问题,增强推荐的准确性。
下面继续说明本申请实施例提供的基于人工智能的信息推荐装置255的实施为软件模块的示例性结构,在一些实施例中,如图2A所示,存储在存储器250的基于人工智能的信息推荐装置255中的软件模块可以包括:
提取模块2551,用于从用户对应多个交互媒体账号的行为数据中提取用户行为特征;编码模块2552,用于基于所述用户行为特征进行编码处理,得到用户特征向量;召回模块2553,用于确定与所述用户特征向量满足相似条件的多个召回媒体账号;推荐模块2554,用于基于所述多个召回媒体账号生成待推荐信息,基于所述待推荐信息执行对应所述用户的推荐操作。
在一些实施例中,所述提取模块2551,还用于将所述用户针对多个信息的行为数据,映射为所述用户针对发表所述信息的交互媒体账号的行为数据;其中,所述用户针对多个信息的行为数据表征以下行为至少之一:所述用户关注所述交互媒体账号发表的信息的行为、所述用户订阅所述交互媒体账号发表的信息的行为。
在一些实施例中,所述编码模块2552,还用于确定用户协同过滤特征和用户图特征,并将所述用户协同过滤特征、所述用户图特征以及通过提取得到的所述用户行为特征依次进行连接,将连接得到的新的用户行为特征作为用于进行所述编码处理的用户行为特征;其中,所述用户协同过滤特征是对包括所述行为数据的矩阵进行分解而确定的,所述用户图特征是基于包括所述行为数据的有向图进行映射而确定的。
在一些实施例中,所述编码模块2552,还用于从所述用户的属性数据中提取用户属性特征;对所述用户行为特征和所述用户属性特征进行整流处理,或者,对所述用户行为特征进行整流处理,对得到的整流结果进行归一化处理,将得到的归一化处理结果作为编码得到的用户特征向量;其中,所述用户行为特征包括以下至少之一:所述用户的交互媒体账号特征、所述交互媒体账号的标签特征、所述交互媒体账号的频道特征。
在一些实施例中,所述召回模块2553,还用于获取多个候选媒体账号的媒体账号特征向量,确定所述多个候选媒体账号的媒体账号特征向量与所述用户特征向量之间的余弦距离,将所述余弦距离作为相似度;确定与所述用户特征向量的相似度超过相似度阈值的多个候选媒体账号,以作为满足相似条件的多个召回媒体账号。
在一些实施例中,所述召回模块2553,还用于针对所述多个候选媒体账号中的每个候选媒体账号,执行以下处理:从所述候选媒体账号的属性数据中提取媒体账号特征;对所述媒体账号特征进行整流处理,对得到的整流结果进行归一化处理,将得到的归一化处理结果作为媒体账号特征向量;其中,所述媒体账号特征包括以下至少之一:所述媒体账号的标签特征、所述媒体账号的频道特征、所述媒体账号的粉丝数量特征。
在一些实施例中,所述召回模块2553,还用于确定所述候选媒体账号的媒体账号协同过滤特征和媒体账号图特征,将所述媒体账号协同过滤特征、所述媒体账号图特征以及通过提取得到的所述媒体账号特征进行连接,将连接得到的新的媒体账号特征作为用于进行所述整流处理的媒体账号特征;其中,所述媒体账号协同过滤特征是对包括所述行为数据的矩阵进行分解而确定的,所述媒体账号图特征是基于包括所述行为数据的有向图进行映射而确定的。
在一些实施例中,所述推荐模块2554,还用于通过以下方式至少之一生成待推荐信息:基于所述多个召回媒体账号,生成用于推荐媒体账号的待推荐信息;基于所述多个召回媒体账号发表的信息,生成用于推荐媒体账号发表的信息的待推荐信息;基于所述待推荐信息的信息特征向量、所述用户的用户特征向量、所述用户与所述待推荐信息的交叉特征向量预测得到所述待推荐信息的得分,所述得分表征所述待推荐信息与所述用户的相似度;基于多个候选的待推荐信息的得分,对所述多个候选的待推荐信息进行降序排序;将排序在前的多个候选的待推荐信息进行多样性排序,基于多样性排序结果执行对应所述用户的推荐操作。
在一些实施例中,当所述待推荐信息为所述多个召回媒体账号发表的信息时,所述推荐模块2554,还用于当所述多个候选的待推荐信息中来自相同媒体账号的信息数目大于第一阈值时,按照得分的升序逐个删除来自所述相同媒体账号的信息,直至来自所述相同媒体账号的信息数目不超出所述第一阈值;当所述多个候选的待推荐信息中来自相同媒体账号中的相同频道的信息数目大于第二阈值时,按照得分的升序逐个删除来自所述相同媒体账号的信息,直至来自所述相同媒体账号的信息数目不超出所述第二阈值;当所述多个候选的待推荐信息中的非优质信息的数目大于第三阈值时,按照得分的升序逐个删除所述非优质信息,直至所述非优质信息的数目不超出所述第三阈值。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的基于人工智能的信息推荐方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于人工智能的信息推荐方法,例如,如图3A、3B、3C示出的基于人工智能的信息推荐方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例当用户对应多个交互媒体账号的行为数据不足或是超期时补入属性特征,以弥补基于数据量不足或是超期的行为数据,学习的用户行为特征不充分的缺陷,提升了神经网络模型的学习精度;对用户行为特征和用户属性特征进行拼接融合后得到的特征进行编码处理,使得编码得到的用户特征向量能够更好地映射出用户的兴趣和需求;将高维的交互矩阵进行矩阵分解,能够得到稠密的用户协同过滤特征和媒体账号协同过滤特征,很好地解决了数据稀疏的问题,并且用户和媒体账号在同一个向量空间中,从而后续基于用户协同过滤特征和媒体账号协同过滤特征确定的用户行为特征进行召回处理,召回的精度也更高;通过构建有向图的方式,得到结合了时序信息的图特征,很好地解决了数据稀疏的问题。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (12)

1.一种基于人工智能的信息推荐方法,其特征在于,包括:
从用户对应多个交互媒体账号的行为数据中提取用户行为特征;
基于所述用户行为特征进行编码处理,得到用户特征向量;
确定与所述用户特征向量满足相似条件的多个召回媒体账号;
基于所述多个召回媒体账号和所述多个召回媒体账号发表的信息中的至少一种,生成待推荐信息;
对多个候选的所述待推荐信息进行多样性排序,其中,所述多样性排序是按照所述多个候选的所述待推荐信息的以下参数至少之一进行的:来自相同媒体账号的信息数目,来自相同媒体账号中的相同频道的信息数目,非优质信息的数目;
基于所述多样性排序的结果执行对应所述用户的推荐操作。
2.根据权利要求1所述的方法,其特征在于,在从用户对应多个交互媒体账号的行为数据中提取用户行为特征之前,所述方法还包括:
将所述用户针对多个信息的行为数据,映射为所述用户针对发表所述信息的交互媒体账号的行为数据;
其中,所述用户针对多个信息的行为数据表征以下行为至少之一:所述用户关注所述交互媒体账号发表的信息的行为、所述用户订阅所述交互媒体账号发表的信息的行为。
3.根据权利要求1所述的方法,其特征在于,在基于所述用户行为特征进行编码处理,得到用户特征向量之前,所述方法还包括:
确定用户协同过滤特征和用户图特征,并将所述用户协同过滤特征、所述用户图特征以及通过提取得到的所述用户行为特征依次进行连接,将连接得到的新的用户行为特征作为用于进行所述编码处理的用户行为特征;
其中,所述用户协同过滤特征是对包括所述行为数据的矩阵进行分解而确定的,所述用户图特征是基于包括所述行为数据的有向图进行映射而确定的。
4.根据权利要求1所述的方法,其特征在于,所述基于所述用户行为特征进行编码处理,得到用户特征向量,包括:
从所述用户的属性数据中提取用户属性特征;
对所述用户行为特征和所述用户属性特征进行整流处理,或者,对所述用户行为特征进行整流处理,对得到的整流结果进行归一化处理,将得到的归一化处理结果作为编码得到的用户特征向量;
其中,所述用户行为特征包括以下至少之一:所述用户的交互媒体账号特征、所述交互媒体账号的标签特征、所述交互媒体账号的频道特征。
5.根据权利要求1所述的方法,其特征在于,所述确定与所述用户特征向量满足相似条件的多个召回媒体账号,包括:
获取多个候选媒体账号的媒体账号特征向量,确定所述多个候选媒体账号的媒体账号特征向量与所述用户特征向量之间的余弦距离,将所述余弦距离作为相似度;
确定与所述用户特征向量的相似度超过相似度阈值的多个候选媒体账号,以作为满足相似条件的多个召回媒体账号。
6.根据权利要求5所述的方法,其特征在于,所述获取多个候选媒体账号的媒体账号特征向量,包括:
针对所述多个候选媒体账号中的每个候选媒体账号,执行以下处理:
从所述候选媒体账号的属性数据中提取媒体账号特征;
对所述媒体账号特征进行整流处理,对得到的整流结果进行归一化处理,将得到的归一化处理结果作为媒体账号特征向量;
其中,所述媒体账号特征包括以下至少之一:所述媒体账号的标签特征、所述媒体账号的频道特征、所述媒体账号的粉丝数量特征。
7.根据权利要求6所述的方法,其特征在于,在从所述候选媒体账号的属性数据中提取媒体账号特征之后,所述方法还包括:
确定所述候选媒体账号的媒体账号协同过滤特征和媒体账号图特征,将所述媒体账号协同过滤特征、所述媒体账号图特征以及通过提取得到的所述媒体账号特征进行连接,将连接得到的新的媒体账号特征作为用于进行所述整流处理的媒体账号特征;
其中,所述媒体账号协同过滤特征是对包括所述行为数据的矩阵进行分解而确定的,所述媒体账号图特征是基于包括所述行为数据的有向图进行映射而确定的。
8.根据权利要求1所述的方法,其特征在于,所述基于所述多个召回媒体账号和所述多个召回媒体账号发表的信息中的至少一种,生成待推荐信息,包括:
通过以下方式至少之一生成待推荐信息:
基于所述多个召回媒体账号,生成用于推荐媒体账号的待推荐信息;
基于所述多个召回媒体账号发表的信息,生成用于推荐媒体账号发表的信息的待推荐信息;
所述对多个候选的所述待推荐信息进行多样性排序,包括:
基于所述待推荐信息的信息特征向量、所述用户的用户特征向量、所述用户与所述待推荐信息的交叉特征向量预测得到所述待推荐信息的得分,所述得分表征所述待推荐信息与所述用户的相似度;
基于多个候选的所述待推荐信息的得分,对所述多个候选的所述待推荐信息进行降序排序;
将排序在前的多个候选的所述待推荐信息进行多样性排序。
9.根据权利要求8所述的方法,其特征在于,所述将排序在前的多个候选的所述待推荐信息进行多样性排序,包括以下至少之一:
当所述多个候选的所述待推荐信息中来自相同媒体账号的信息数目大于第一阈值时,按照得分的升序逐个删除来自所述相同媒体账号的信息,直至来自所述相同媒体账号的信息数目不超出所述第一阈值;
当所述多个候选的所述待推荐信息中来自相同媒体账号中的相同频道的信息数目大于第二阈值时,按照得分的升序逐个删除来自所述相同媒体账号的信息,直至来自所述相同媒体账号的信息数目不超出所述第二阈值;
当所述多个候选的所述待推荐信息中的非优质信息的数目大于第三阈值时,按照得分的升序逐个删除所述非优质信息,直至所述非优质信息的数目不超出所述第三阈值。
10.一种基于人工智能的信息推荐装置,其特征在于,包括:
提取模块,用于从用户对应多个交互媒体账号的行为数据中提取用户行为特征;
编码模块,用于基于所述用户行为特征进行编码处理,得到用户特征向量;
召回模块,用于确定与所述用户特征向量满足相似条件的多个召回媒体账号;
推荐模块,用于基于所述多个召回媒体账号和所述多个召回媒体账号发表的信息中的至少一种,生成待推荐信息;对多个候选的所述待推荐信息进行多样性排序,其中,所述多样性排序是按照所述多个候选的所述待推荐信息的以下参数至少之一进行的:来自相同媒体账号的信息数目,来自相同媒体账号中的相同频道的信息数目,非优质信息的数目;基于所述多样性排序的结果执行对应所述用户的推荐操作。
11.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至9任一项所述的基于人工智能的信息推荐方法。
12.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至9任一项所述的基于人工智能的信息推荐方法。
CN202110231593.2A 2021-03-02 2021-03-02 一种基于人工智能的信息推荐方法及装置 Active CN114996561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110231593.2A CN114996561B (zh) 2021-03-02 2021-03-02 一种基于人工智能的信息推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110231593.2A CN114996561B (zh) 2021-03-02 2021-03-02 一种基于人工智能的信息推荐方法及装置

Publications (2)

Publication Number Publication Date
CN114996561A CN114996561A (zh) 2022-09-02
CN114996561B true CN114996561B (zh) 2024-03-29

Family

ID=83018000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110231593.2A Active CN114996561B (zh) 2021-03-02 2021-03-02 一种基于人工智能的信息推荐方法及装置

Country Status (1)

Country Link
CN (1) CN114996561B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150678A (zh) * 2013-03-12 2013-06-12 中国科学院计算技术研究所 微博中用户间潜在关注关系的发现方法及装置
CN103905532A (zh) * 2014-03-13 2014-07-02 微梦创科网络科技(中国)有限公司 微博营销账号的识别方法及***
CN105843860A (zh) * 2016-03-17 2016-08-10 山东大学 一种基于并行item-based协同过滤算法的微博关注推荐方法
CN106469163A (zh) * 2015-08-18 2017-03-01 中兴通讯股份有限公司 一种公众号推荐方法及***
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法
CN109710845A (zh) * 2018-12-25 2019-05-03 百度在线网络技术(北京)有限公司 资讯推荐方法、装置、计算机设备和可读存储介质
CN110990711A (zh) * 2019-05-13 2020-04-10 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐算法及***
CN111125460A (zh) * 2019-12-24 2020-05-08 腾讯科技(深圳)有限公司 信息推荐方法及装置
CN111444428A (zh) * 2020-03-27 2020-07-24 腾讯科技(深圳)有限公司 基于人工智能的信息推荐方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170235726A1 (en) * 2016-02-12 2017-08-17 Fujitsu Limited Information identification and extraction
US10136191B1 (en) * 2016-12-12 2018-11-20 Google Llc Methods, systems, and media for recommending media content based on attribute grouped viewing sessions
US20200036665A1 (en) * 2018-07-24 2020-01-30 International Business Machines Corporation Cognitive analysis of social media posts based on user patterns

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150678A (zh) * 2013-03-12 2013-06-12 中国科学院计算技术研究所 微博中用户间潜在关注关系的发现方法及装置
CN103905532A (zh) * 2014-03-13 2014-07-02 微梦创科网络科技(中国)有限公司 微博营销账号的识别方法及***
CN106469163A (zh) * 2015-08-18 2017-03-01 中兴通讯股份有限公司 一种公众号推荐方法及***
CN105843860A (zh) * 2016-03-17 2016-08-10 山东大学 一种基于并行item-based协同过滤算法的微博关注推荐方法
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法
CN109710845A (zh) * 2018-12-25 2019-05-03 百度在线网络技术(北京)有限公司 资讯推荐方法、装置、计算机设备和可读存储介质
CN110990711A (zh) * 2019-05-13 2020-04-10 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐算法及***
CN111125460A (zh) * 2019-12-24 2020-05-08 腾讯科技(深圳)有限公司 信息推荐方法及装置
CN111444428A (zh) * 2020-03-27 2020-07-24 腾讯科技(深圳)有限公司 基于人工智能的信息推荐方法、装置、电子设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Ashton Anderson 等.Effects of user similarity in social media.《WSDM '12: Proceedings of the fifth ACM international conference on Web search and data mining》.2012,703–712. *
Halszka Jarodzka 等.A vector-based, multidimensional scanpath similarity measure.《ETRA '10: Proceedings of the 2010 Symposium on Eye-Tracking Research & Applications》.2010,211–218. *
基于微信平台孕育知识推荐***的设计与实现;方平;《中国优秀硕士学位论文全文数据库 信息科技辑》(第03期);I138-1566 *
跨社交媒体的账户匹配方法研究;杨立波;《中国优秀硕士学位论文全文数据库 信息科技辑》(第12期);I138-298 *

Also Published As

Publication number Publication date
CN114996561A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
WO2021203819A1 (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN110941740B (zh) 视频推荐方法及计算机可读存储介质
CN113626719B (zh) 信息推荐方法、装置、设备、存储介质及计算机程序产品
CN111368210B (zh) 基于人工智能的信息推荐方法、装置以及电子设备
CN111538912A (zh) 内容推荐方法、装置、设备及可读存储介质
CN112765373B (zh) 资源推荐方法、装置、电子设备和存储介质
CN109961080B (zh) 终端识别方法及装置
CN111949886B (zh) 一种用于信息推荐的样本数据生成方法和相关装置
CN113705299A (zh) 一种视频识别的方法、装置及存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN111460290A (zh) 信息的推荐方法、装置、设备和存储介质
CN110704510A (zh) 一种结合用户画像的题目推荐方法及***
CN116452263A (zh) 一种信息推荐方法、装置、设备及存储介质、程序产品
CN113051468B (zh) 一种基于知识图谱和强化学习的电影推荐方法及***
CN111159242A (zh) 一种基于边缘计算的客户端重排序方法及***
CN114817692A (zh) 确定推荐对象的方法、装置和设备及计算机存储介质
CN115640449A (zh) 媒体对象推荐方法、装置、计算机设备和存储介质
CN113742572A (zh) 一种数据的推荐方法、装置、电子设备及存储介质
CN115618121B (zh) 个性化资讯推荐方法、装置、设备及存储介质
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN114996561B (zh) 一种基于人工智能的信息推荐方法及装置
CN112035740B (zh) 项目使用时长预测方法、装置、设备及存储介质
CN117132323A (zh) 推荐内容的分析方法、装置、设备、介质及程序产品
CN113761272A (zh) 一种数据处理方法、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant