CN112163165B - 信息推荐方法、装置、设备及计算机可读存储介质 - Google Patents

信息推荐方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112163165B
CN112163165B CN202011131347.1A CN202011131347A CN112163165B CN 112163165 B CN112163165 B CN 112163165B CN 202011131347 A CN202011131347 A CN 202011131347A CN 112163165 B CN112163165 B CN 112163165B
Authority
CN
China
Prior art keywords
information
recommended
vector
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011131347.1A
Other languages
English (en)
Other versions
CN112163165A (zh
Inventor
张晗
马连洋
衡阵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011131347.1A priority Critical patent/CN112163165B/zh
Publication of CN112163165A publication Critical patent/CN112163165A/zh
Application granted granted Critical
Publication of CN112163165B publication Critical patent/CN112163165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种信息推荐方法、装置、设备及计算机可读存储介质,涉及人工智能技术领域。方法包括:获取待推荐信息集合中的每一待推荐信息的至少一个第一类特征和至少一个第二类特征,对所述至少一个第一类特征进行特征交叉处理,得到第一预测分;对所述至少一个第二类特征进行特征融合处理,得到第二预测分;对所述第一预测分和所述第二预测分进行预测结果变换处理,得到所述待推荐信息的倾向性得分;根据每一所述待推荐信息的所述倾向性得分,将所述待推荐信息集合中的至少一条待推荐信息推荐给目标对象。通过本申请实施例,能够更精准的刻画待推荐信息在该特定人群上的受欢迎程度,提高对特定人群的信息推荐效果。

Description

信息推荐方法、装置、设备及计算机可读存储介质
技术领域
本申请实施例涉及互联网技术领域,涉及但不限于一种信息推荐方法、装置、设备及计算机可读存储介质。
背景技术
在信息流推荐场景下,用户信息和内容特征对推荐***来说是缺一不可的,现有的内容特征大都是基于内容本身的先验信息来定义的,如依据视频内容本身将视频归属为体育类、电影类等,没有与用户的行为进行联动,对于用户侧,除了使用用户的基础信息外,推荐***会利用用户的历史消费行为,构建与内容特征相对应的用户兴趣点特征。在推荐时,即利用上述用户和视频内容的特征进行点击行为预测。但是,上述推荐思路在新用户推荐上存在较大的问题,由于新用户没有历史消费行为记录,推荐***无法获取用户的兴趣点特征,只能利用用户基础信息进行推荐,导致推荐***无法准确预测出新用户感兴趣的内容。同时新用户的推荐又是十分重要,新用户的留存决定了整个推荐产品诸如用户规模等关键指标,因此新用户的冷启动问题是现有推荐***常常面临的重要难题。
针对上述新用户的冷启动问题,相关技术中的技术方案只能利用用户的基础属性进行推荐。比如基于用户的地域信息,推荐本地新闻内容;或是基于用户的性别、年龄等信息,针对特定性别和年龄下人群的消费内容进行统计,并对高消费内容进行推荐。
但是,相关技术中的解决方案只适用于已经产生消费的内容,对于新生产的内容,无法进行统计,并且,由于推荐***的复杂性可能会导致其对于某一特定人群的推荐效果较差。
发明内容
本申请实施例提供一种信息推荐方法、装置、设备及计算机可读存储介质,涉及人工智能技术领域。由于对待推荐信息的至少一个第一类特征和至少一个第二类特征分别进行特征交叉处理和特征融合处理,并对得到的第一预测分和第二预测分进行预测结果变换处理,得到每一待推荐信息的倾向性得分,从而根据该倾向性得分进行信息推荐,如此,充分考虑了待推荐信息的特征的复杂多样性,从而能更精准的刻画待推荐信息在特定人群上的受欢迎程度,提高对特定人群的信息推荐效果。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种信息推荐方法,包括:
获取待推荐信息集合中的每一待推荐信息的至少一个第一类特征和至少一个第二类特征;对所述至少一个第一类特征进行特征交叉处理,得到第一预测分;对所述至少一个第二类特征进行特征融合处理,得到第二预测分;对所述第一预测分和所述第二预测分进行预测结果变换处理,得到所述待推荐信息的倾向性得分;根据每一所述待推荐信息的所述倾向性得分,将所述待推荐信息集合中的至少一条待推荐信息推荐给目标对象。
本申请实施例提供一种信息推荐装置,包括:
获取模块,用于获取待推荐信息集合中的每一待推荐信息的至少一个第一类特征和至少一个第二类特征;特征交叉处理模块,用于对所述至少一个第一类特征进行特征交叉处理,得到第一预测分;特征融合处理模块,用于对所述至少一个第二类特征进行特征融合处理,得到第二预测分;变换处理模块,用于对所述第一预测分和所述第二预测分进行预测结果变换处理,得到所述待推荐信息的倾向性得分;推荐模块,用于根据每一所述待推荐信息的所述倾向性得分,将所述待推荐信息集合中的至少一条待推荐信息推荐给目标对象。
本申请实施例提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;其中,计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器用于执行所述计算机指令,实现上述的信息推荐方法。
本申请实施例提供一种信息推荐设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现上述的信息推荐方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现上述的信息推荐方法。
本申请实施例具有以下有益效果:针对于待推荐信息集合中的每一待推荐信息,分别对至少一个第一类特征和至少一个第二类特征进行特征交叉处理和特征融合处理,对应得到第一预测分和第二预测分,并对第一预测分和第二预测分进行预测结果转换处理,得到每一待推荐信息的倾向性得分,从而根据每一待推荐信息的倾向性得分,对待推荐信息集合中的至少一条待推荐信息进行推荐,即将待推荐信息推荐给属于特定人群的目标对象。如此,由于分别基于待推荐信息的第一类特征和第二类特征进行处理,以确定最终的倾向性得分,因此充分考虑了待推荐信息的特征的复杂多样性,从而能更精准的刻画待推荐信息在该特定人群上的受欢迎程度,提高对特定人群的信息推荐效果。
附图说明
图1是本申请实施例提供的信息推荐***的一个可选的架构示意图;
图2是本申请实施例提供的服务器的结构示意图;
图3是本申请实施例提供的信息推荐方法的一个可选的流程示意图;
图4是本申请实施例提供的信息推荐方法的一个可选的流程示意图;
图5是本申请实施例提供的信息推荐方法的一个可选的流程示意图;
图6是本申请实施例提供的信息推荐方法的一个可选的流程示意图;
图7是本申请实施例提供的信息推荐方法的一个可选的流程示意图;
图8是本申请实施例提供的信息推荐方法的一个可选的流程示意图;
图9A是本申请实施例提供的倾向性识别网络的结构图;
图9B是本申请实施例提供的倾向性识别网络的训练方法的一个可选的流程示意图;
图10是本申请实施例中整体算法的网络结构图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
为了更好地理解本申请实施例中提供的网络结构搜索方法,首先对相关技术中的网络结构搜索方法进行说明:
相关技术中,针对新用户的冷启动问题,只能利用用户的基础属性进行推荐。但是这种解决方案,只适用于已经产生消费的内容,对于新生产的内容,无法进行统计。因此本申请针对这一痛点,提出了内容的人群倾向性标签,只利用内容本身的特征,预测其受特定人群的欢迎程度。可在内容被推荐前,为推荐***提供该内容受欢迎的人群标识,指导推荐***对特定人群下的新用户推荐,即缓解上述新用户的冷启动问题。
另外,推荐***的复杂性可能导致其对于某一人群的推荐效果较差,比如女性用户占比较少的情况下,推荐***可能无法较好的学习该用户群体的点击行为。故在针对特定人群进行推荐效果优化的场景中,人群倾向性预估也是十分必要的,比如可以辅助运营进行特定人群倾向的内容筛选等。
基于相关技术的需求和问题分析,本申请着重解决如下问题:提出一种信息推荐方法,首先基于推荐***待优化的消费指标,如点击率、页面浏览量(PV,Page View)、时长、分享等,对内容(即待推荐信息)的群体欢迎度进行定义。如基于点击率进行优化,则对群体消费的视频内容,按照其点击率大小划分为受欢迎和不受欢迎两类;其次,利用构造的分类数据,使用视频的标题、分类、账号、标签、封面、视频帧等多模态特征,构建wide&deep分类模型;最后,利用训练好的模型,对内容进行预测,使用分类网络最后一层输出的倾向性分数,作为该内容在该人群上的倾向性得分。
本申请实施例提供的信息推荐方法,首先,获取待推荐信息集合中的每一待推荐信息的至少一个第一类特征和至少一个第二类特征;然后,对至少一个第一类特征进行特征交叉处理,得到第一预测分;对至少一个第二类特征进行特征融合处理,得到第二预测分;对第一预测分和第二预测分进行预测结果变换处理,得到待推荐信息的倾向性得分;最后,根据每一待推荐信息的倾向性得分,将待推荐信息集合中的至少一条待推荐信息推荐给目标对象。如此,由于分别基于待推荐信息的第一类特征和第二类特征进行处理,以确定最终的倾向性得分,因此充分考虑了待推荐信息的特征的复杂多样性,从而能更精准的刻画待推荐信息在该特定人群上的受欢迎度,提高对特定人群的信息推荐效果。
下面说明本申请实施例的信息推荐设备的示例性应用,在一种实现方式中,本申请实施例提供的信息推荐设备可以实施为笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、智能机器人等任意的终端,在另一种实现方式中,本申请实施例提供的信息推荐设备还可以实施为服务器。下面,将说明信息推荐实施为服务器时的示例性应用。
参见图1,图1是本申请实施例提供的信息推荐***10的一个可选的架构示意图。本申请实施例以待推荐信息为视频为例进行说明,为实现将所生成的视频推荐给对该视频更加感兴趣的用户或新用户,本申请实施例提供的信息推荐***10中包括终端100、网络200和服务器300,其中,终端100上运行有视频推荐应用,用户可以在视频推荐应用上进行注册成为新用户,在成功注册之后,视频推荐应用会主动向该用户进行视频推荐,并且推荐的视频是该用户可能感兴趣的视频,那么此时终端100可以通过网络200向服务器300发送注册完成消息,以告知当前的用户为新用户,服务器300获取待推荐视频集合中的每一待推荐视频的至少一个第一类特征和至少一个第二类特征;然后,对至少一个第一类特征进行特征交叉处理,得到第一预测分;对至少一个第二类特征进行特征融合处理,得到第二预测分;对第一预测分和第二预测分进行预测结果变换处理,得到待推荐视频的倾向性得分;根据每一待推荐视频的倾向性得分,在待推荐视频集合中确定出要推荐的至少一条待推荐视频,并将这些待推荐视频推荐给终端100。
本申请实施例提供的信息推荐方法还涉及人工智能技术领域,至少可以通过人工智能技术中的机器学习和自然语言处理技术来实现。其中,机器学习(M L,MachineLearning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例中,通过机器学习技术实现对网络结构搜索请求的响应,以自动搜索到目标网络结构,以及,实现对控制器和分值模型的训练和模型优化。自然语言处理(N LP,Nature Languageprocessing)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
图2是本申请实施例提供的服务器300的结构示意图,图2所示的服务器300包括:至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。服务器300中的各个组件通过总线***340耦合在一起。可理解,总线***340用于实现这些组件之间的连接通信。总线***340除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***340。
处理器310可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器350可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中,存储器350能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***351,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块352,用于经由一个或多个(有线或无线)网络接口320到达其他计算设备,示例性的网络接口320包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
输入处理模块353,用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可采用软件方式实现,图2示出了存储在存储器350中的一种信息推荐装置354,该信息推荐装置354可以是服务器300中的信息推荐装置,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块3541、特征交叉处理模块3542、特征融合处理模块3543、变换处理模块3544和推荐模块3545,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的信息推荐方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specif ic Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic De vice)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
下面将结合本申请实施例提供的服务器300的示例性应用和实施,说明本申请实施例提供的信息推荐方法。参见图3,图3是本申请实施例提供的信息推荐方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
步骤S301,获取待推荐信息集合中的每一待推荐信息的至少一个第一类特征和至少一个第二类特征。
这里,待推荐信息集合中包括至少一条待推荐信息,待推荐信息集合中的待推荐信息可以具有相同的类别,例如都是视频信息,或都是文本信息等,待推荐信息集合中的待推荐信息可以具有一定的相关性,例如均与某一特定目标对象之间具有交互关系,即待推荐信息集合中的每一待推荐信息均与任一用户群之间有交互数据,该用户群中的用户点击或浏览过待推荐信息集中的每一待推荐信息,或待推荐信息集合的每一待推荐信息均向该用户群中的用户推荐过。
本申请实施例中,在进行信息推荐时,是将待推荐信息集合中的至少一个带推荐信息推荐给目标用户,因此,需要对待推荐信息集合中的每一待推荐信息进行分析,以确定出该待推荐信息是否可以被推荐。
本申请实施例中,在分析每一待推荐信息时,是基于待推荐信息的第一类特征和第二类特征进行的。例如,第一类特征可以是低阶特征,第二类特征可以是高阶特征,其中低阶特征是通过待推荐信息中较少的原始特征计算或确定出的特征,高阶特征是通过待推荐信息中较多的原始特征计算或确定出的特征。
举例来说,当待推荐信息为视频时,则第一类特征可以是视频的类别、视频时长或视频质量打分等通过第一数量的视频原始特征即可确定出的低阶特征,而第二类特征则可以是视频的标题、封面或标签等需要通过第二数量的视频原始特征才能确定出的高阶特征。
在一些实施例中,第一类特征所涉及到待推荐信息的原始特征的数量,还可以小于第二类特征所涉及到待推荐信息的原始特征的数量,例如,第一类特征需要通过待推荐信息中第一数量的原始特征来确定出,第二类特征需要通过待推荐信息中第二数量的原始特征来确定出,那么此时,第一数量可以小于第二数量。当然,第一类特征所涉及到待推荐信息的原始特征的数量也可以大于或等于第二特征所涉及到待推荐信息的原始特征的数量,具体可以根据信息推荐模型中的网络结构的输入信息来确定,本申请实施例不做具体限定。
步骤S302,对至少一个第一类特征进行特征交叉处理,得到第一预测分。
这里,在获取到第一类特征之后,对第一类特征进行特征交叉处理,其中,特征交叉处理可以通过以下步骤实现:首先对每一第一类特征进行特征嵌入处理,得到嵌入向量,然后,对不同的第一类特征所对应的嵌入向量进行线性变换,例如可以进行向量乘或向量求和等计算,以实现对多个第一类特征对应的嵌入向量进行特征交叉处理,得到最终的输出结果,其中输出结果为一维向量,所输出的一维向量即第一预测分。
步骤S303,对至少一个第二类特征进行特征融合处理,得到第二预测分。
这里,在获取到第二类特征之后,对第二类特征进行特征融合处理,其中,特征融合处理可以通过以下步骤实现:由于第二类特征中可以至少包括文本类特征和图像类特征,因此,可以分别针对于文本类特征和图像类特征进行处理。首先,针对于第二类特征中的文本类特征进行词嵌入处理,得到每一词的词嵌入向量,然后,求所有词嵌入向量的平均值,至此,就实现了对第二类特征中的文本类特征的编码过程;针对于第二类特征中的图像类特征,可以直接采用特定的特征提取网络进行特征提取,得到图像类特征编码后的向量;然后,对文本类特征和图像类特征的编码后的向量分别进行加权处理和线性变换,再进行拼接和融合,最终经过线性变换使得拼接后的向量降维至一维,得到一个一维向量,该一维向量即第二预测分。
在一些实施例中,当第二类特征中包括的文本类特征由多个词构成时,例如,文本类特征为句子或文章时,由于句子或文章是由多个词构成的文本,因此,在进行特征融合处理之前,首先需要对句子或文章进行分词处理,然后再进行上述词嵌入处理。
本申请实施例中,对于文本类特征,可以包括标题、正文等由多个词构成的特征,还可以包括由一个词构成的标签特征。可以只对标题、正文等由多个词构成的特征进行分词处理,然后对分词处理后所得到的每一词进行词嵌入处理,得到词嵌入向量;由于标签通常是单个词,故对标签特征不进行分词处理,可直接进行词嵌入处理,得到词嵌入向量。
步骤S304,对第一预测分和第二预测分进行预测结果变换处理,得到待推荐信息的倾向性得分。
这里,综合第一预测分和第二预测分,对第一预测分和第二预测分进行求和和变换,得到待推荐信息的倾向性得分。
步骤S305,根据每一待推荐信息的倾向性得分,将待推荐信息集合中的至少一条待推荐信息推荐给目标对象。
本申请实施例中,可以将倾向性得分大于阈值的待推荐信息推荐给目标对象,例如,倾向性得分的取值可以是0到1之间的任意值,阈值则可以是0.5;或者,也可以按照倾向性得分由大到小的顺序对待推荐信息集合中的待推荐信息进行排序,形成待推荐信息序列,然后按照待推荐信息序列的顺序,依次将位于待推荐信息序列之前的特定数量的待推荐信息推荐给目标对象。
目标对象可以是属于特定群体的对象,例如,目标对象可以是新用户,或者可以是女性群体用户。
本申请实施例提供的信息推荐方法,针对于待推荐信息集合中的每一待推荐信息,分别对至少一个第一类特征和至少一个第二类特征进行特征交叉处理和特征融合处理,对应得到第一预测分和第二预测分,并对第一预测分和第二预测分进行预测结果转换处理,得到每一待推荐信息的倾向性得分,从而根据每一待推荐信息的倾向性得分,对待推荐信息集合中的至少一条待推荐信息进行推荐,即将待推荐信息推荐给属于特定人群的目标对象。如此,由于分别基于待推荐信息的第一类特征和第二类特征进行处理,以确定最终的倾向性得分,因此充分考虑了待推荐信息的特征的复杂多样性,从而能更精准的刻画待推荐信息在该特定人群上的受欢迎程度,提高对特定人群的信息推荐效果。
在一些实施例中,本申请实施例的方法还可以应用于新用户完成注册后的初始推荐过程,此时信息推荐***中包括终端和服务器,用户可以在终端上进行注册,成为任一应用的新用户,当用户注册完之后,应用向用户进行信息推荐,以进一步获取用户的消费日志,这里的消费日志包括但不限于:点击频率、观看时长、曝光次数等信息。
图4是本申请实施例提供的信息推荐方法的一个可选的流程示意图,如图4所示,方法包括以下步骤:
步骤S401,终端接收用户的注册请求。
步骤S402,当用户在终端上的特定应用户的客户端完成注册后,终端向服务器发送信息推荐请求,信息推荐请求中包括用户的基本信息。
这里,用户的基本信息是用户注册过程中输入的信息,例如,联系方式、性别、年龄、当前所在地等信息。
步骤S403,服务器获取待推荐信息集合中的每一待推荐信息的至少一个第一类特征和至少一个第二类特征。
步骤S404,服务器对至少一个第一类特征进行特征交叉处理,得到第一预测分。
步骤S405,服务器对至少一个第二类特征进行特征融合处理,得到第二预测分。
步骤S406,服务器对第一预测分和第二预测分进行预测结果变换处理,得到待推荐信息的倾向性得分。
步骤S407,服务器根据每一待推荐信息的所述倾向性得分,在待推荐信息集合中选择出至少一条待推荐信息。
需要说明的是,步骤S403至步骤S403与上述步骤S301至步骤S305相同,本申请实施例不在赘述。
步骤S408,服务器将所选择出的至少一条待推荐信息推荐给终端。
本申请实施例提供的信息推荐方法,新用户在注册完成之后,由于新用户还没有在应用中的交互信息,因此,无法根据新用户的使用习惯确定用户的兴趣点信息,因而采用本申请实施例的方法,在待推荐信息集合中选择出倾向性得分较高的待推荐信息,这些信息是新用户可能感兴趣的信息,将这些信息推荐给新用户,可以提高初次推荐的准确性,提高推荐效果。
在一些实施例中,在进行信息推荐之前,首先需要确定出待推荐信息集合,这样在信息推荐时,可以从待推荐信息集合中确定出要推荐的至少一条待推荐信息,基于图3,图5是本申请实施例提供的信息推荐方法的一个可选的流程示意图,如图5所示,在步骤S301之前,方法还包括以下步骤:
步骤S501,确定目标对象的属性信息。目标对象的属性信息可以是目标对象的类型或特性等信息,例如,目标对象的属性信息可以是目标对象为女性用户、目标对象的年龄在20到30岁之间等。
步骤S502,获取具有该属性信息的对象所形成的对象集合、和与对象集合中的对象之间具有交互信息的推荐信息所形成的推荐信息集合。
这里,对象集合中的每一对象均具有该属性信息,例如,对象集合中的对象可以全部是女性用户;推荐信息集合中的每一推荐信息均与对象集合中的任一对象之间具有交互信息,交互信息可以是与点击、浏览、购买、分享等任意一种交互操作对应的信息,例如,可以将女性用户集合中的女性用户购买过的信息均作为推荐信息,形成该推荐信息集合。
步骤S503,对于推荐信息集合中的每一推荐信息,获取对象集合中每一对象与推荐信息之间的互动数据。
这里,以互动数据为点击数据为例,获取女性用户集合中的每一女性用户对每一推荐信息的点击次数。
步骤S504,对互动数据进行聚合,得到对象集合中的对象针对于每一推荐信息的互动概率。
这里,对全部女性用户的点击次数进行求和后,在女性用户集合中求平均,得到女性用户集合的女性用户针对于每一推荐信息的点击概率。
步骤S505,根据互动概率,在推荐信息集合中选择出至少一条推荐信息作为待推荐信息,以形成待推荐信息集合。
这里,将互动概率大于概率阈值的推荐信息选择作为待推荐信息,或者按照互动概率由大到小的顺序选择预设数量的推荐信息作为待推荐信息。
在一些实施例中,互动数据至少包括对推荐信息的曝光次数、点击次数和浏览时长;基于图5,图6是本申请实施例提供的信息推荐方法的一个可选的流程示意图,如图6所示,步骤S504可以通过以下步骤实现:
步骤S601,对曝光次数、点击次数和浏览时长进行聚合,得到针对于每一推荐信息的平均点击率和平均浏览时长。
这里,平均点击率是对象集合中的对象对应的总点击数在整个对象集合上的平均值,即总点击数除以对象集合中的对象个数所得到的值;平均浏览时长是对象集合中的对象对应的总浏览时长在整个对象集合上的平均值,即总浏览时长除以对象集合中的对象个数所得到的值。
步骤S602,将平均点击率和平均浏览时长中的任意一个,确定为推荐信息的互动概率。
请继续参照图6,在一些实施例中,方法还包括以下步骤:
步骤S603,根据推荐信息集合中的每一推荐信息的平均点击率,确定对象集合中的全部对象所对应的总平均点击率。
这里,总平均点击率是指每一推荐信息的平均点击率在整个推荐信息集合中的平均值,即全部对象对应的平均点击率之和除以推荐信息集合中的推荐信息的数量所得到的值。
步骤S604,根据推荐信息集合中的每一推荐信息的平均浏览时长,确定对象集合中的全部对象所对应的总平均浏览时长。
这里,总平均浏览时长是指每一推荐信息的平均浏览时长在整个推荐信息集合中的平均值,即全部对象对应的平均浏览时长之和除以推荐信息集合中的推荐信息的数量所得到的值。
请继续参照图6,在一些实施例中,步骤S505可以通过以下方式值得任一一种实现:方式一:步骤S605,在推荐信息集合中,选择出平均点击率大于总平均点击率的推荐信息作为待推荐信息。
方拾二:步骤S606,在推荐信息集合中选择出平均浏览时长大于总平均浏览时长的推荐信息作为待推荐信息。
在一些实施例中,第一类特征包括信息类别特征、信息长度特征和信息质量特征中的至少一种;其中,当第一类特征仅包括信息类别特征时,则基于信息类别特征进行特征交叉处理,得到第一预测分;当第一类特征仅包括信息长度特征时,则基于信息长度特征进行特征交叉处理,得到第一预测分;当第一类特征仅包括信息质量特征时,则基于信息质量特征进行特征交叉处理,得到第一预测分。当然,第一类特征也可以包括信息类别特征、信息长度特征和信息质量特征,那么可以基于信息类别特征、信息长度特征和信息质量特征进行特征交叉处理,得到第一预测分。下面以第一类特征包括信息类别特征、信息长度特征和信息质量特征为例进行说明。
基于图3,图7是本申请实施例提供的信息推荐方法的一个可选的流程示意图,如图7所示,步骤S302可以通过以下步骤实现:
步骤S701,对信息类别特征中的一级类别特征和二级类别特征分别进行编码处理,对应得到一级类别特征向量和二级类别特征向量。
这里,信息类别特征是指按照待推荐信息的内容,将待推荐信息归属为某一类别,这里的类别可以分别一级类别和二级类别,一级类别是二级类别的父类,每一待推荐信息不仅可以具有一个一级类别,还可以具有一个二级类别。
在获取到待推荐信息的信息类别特征时,即获取到待推荐信息的一级类别特征和二级类别特征,因此,分别对一级类别特征和二级类别特征进行编码处理,得到一级类别特征向量和二级类别特征向量。在一些实施例中,这里的编码处理可以采用独热编码方式进行编码。
步骤S702,对信息长度特征依次进行离散化处理和编码处理,得到信息长度特征向量。
由于信息长度特征可以是一个连续的特征,因此,可以首先对连续的信息长度特征进行离散化处理,例如,采用等频分箱离散化,得到多个离散化的等级,然后,再对离散化后的多个特征进行编码处理,得到信息长度特征向量。
步骤S703,对信息质量特征进行编码处理,得到信息质量特征向量。
在一些实施例中,步骤S703还可以通过以下步骤实现:
步骤S7031,获取针对于待推荐信息的预先打分值。
步骤S7032,对预先打分值进行编码处理,得到信息质量特征向量。
本申请实施例中,可以首先对信息质量进行打分,得到待推荐信息的预先打分值,即可以按照信息的真实性、内容的充分性和内容的精彩度等至少一个先验标准对待推荐信息进行打分,然后将打分结果分为多个等级,对多个等级进行编码处理,得到信息质量特征向量。
步骤S704,采用因子分解机对一级类别特征向量、二级类别特征向量、信息长度特征向量和信息质量特征向量进行交叉处理,得到第一预测分。
这里,因子分解机用于对一级类别特征向量、二级类别特征向量、信息长度特征向量和信息质量特征向量进行线性预测,最终输出一个一维向量,该一维向量即第一预测分。
需要说明的是,上述确定第一预测分的步骤还可以采用wide&deep网络中的wide网络来实现。
在一些实施例中,第二类特征至少包括文本特征和图像特征;请继续参照图7,步骤S303可以通过以下步骤实现:
步骤S705,根据文本特征确定至少一个词。
这里,当文本特征是标题或正文时,可以通过对标题或正文进行分词处理,得到至少一个词;当文本特征是标签时,则可以直接获取标签对应的词。
步骤S706,获取每一词的词嵌入向量。
步骤S707,将词嵌入向量的平均值,确定为文本特征的编码向量。
步骤S708,对图像特征进行图像特征提取,得到图像特征向量。
步骤S709,基于注意力机制,对编码向量和图像特征向量进行特征融合处理,得到第二预测分。
请继续参照图7,在一些实施例中,步骤S304可以通过以下步骤实现:
步骤S710,对第一预测分和第二预测分求和,得到预测总分。
步骤S711,采用非线性激活函数对预测总分进行预测结果变换处理,得到待推荐信息的倾向性得分。
基于图7,图8是本申请实施例提供的信息推荐方法的一个可选的流程示意图,如图8所示,步骤S709可以通过以下步骤实现:
步骤S801,基于注意力机制,对编码向量和图像特征向量分别进行线性变换处理,对应得到线性变换后的编码向量和线性变换后的图像特征向量。
在一些实施例中,步骤S801还可以通过以下步骤实现:
步骤S8011,确定编码向量的第一注意力权重和图像特征向量的第二注意力权重。步骤S8012,采用第一注意力权重和第二注意力权重分别对编码向量和图像特征向量进行加权。这里的加权是指将第一注意力权重乘以编码向量,将第二注意力权重乘以图像特征向量。
步骤S8013,对加权后的编码向量和加权后的图像特征向量分别进行线性变换处理,对应得到线性变换后的编码向量和线性变换后的图像特征向量。
这里,分别对加权后的编码向量和加权后的图像特征向量采用全连接网络(FC,Fully Connected)进行FC线性变换。
步骤S802,对线性变换后的编码向量和线性变换后的图像特征向量进行拼接,得到拼接向量。
步骤S803,对拼接向量进行激活处理以将拼接向量降维至一维,得到第二预测分。这里,可以采用relu函数对拼接向量进行激活处理,在relu函数激活处理之后,再连接一个一维向量,使得激活处理后的拼接向量降维至一维,得到第二预测分。
需要说明的是,上述确定第二预测分的步骤还可以采用wide&deep网络中的deep网络来实现。
在一些实施例中,还可以预先训练一倾向性识别网络,通过训练好的倾向性识别网络实现上述任一实施例中确定待推荐信息的倾向性得分的步骤。基于此,本申请实施例提供一种倾向性识别网络和该倾向性识别网络的训练方法,图9A是本申请实施例提供的倾向性识别网络的结构图,如图9A所示,倾向性识别网络90中包括特征交叉网络901、特征融合网络902和变换处理层903,其中,特征交叉网络901用于对输入的待推荐信息的第一类特征进行特征交叉处理,得到第一预测分;特征融合网络902用于对输入的待推荐信息的第二类特征进行特征融合处理,得到第二预测分;变换处理层903用于对特征交叉网络901输出的第一预测分和特征融合网络902输出的第二预测分进行预测结果变换处理,得到待推荐信息的倾向性得分。
图9B是本申请实施例提供的倾向性识别网络的训练方法的一个可选的流程示意图,如图9B所示,训练方法包括以下步骤:
步骤S901,将样本信息的第一类样本特征和样本信息的第二类样本特征输入至倾向性识别网络中。
步骤S902,通过倾向性识别网络的特征交叉网络对第一类样本特征进行特征交叉处理,得到第一样本预测分。
步骤S903,通过倾向性识别网络的特征融合网络对第二类样本特征进行特征融合处理,得到第二样本预测分。
步骤S904,通过倾向性识别网络的变换处理层对第一样本预测分和第二样本预测分进行预测结果变换处理,得到样本信息的样本倾向性得分。
步骤S905,将样本倾向性得分输入至预设损失模型中,得到损失结果。
这里,预设损失模型用于将样本倾向性得分与预设的倾向性得分进行比较,得到损失结果,其中,预设的倾向性得分可以是用户预先设置的与样本信息对应的真实的倾向性得分,预设倾向性得分可以取值0或1。
本申请实施例中,预设损失模型中包括损失函数,通过损失函数计算样本倾向性得分与预设的倾向性得分之间的距离,并根据该距离确定上述损失结果。当样本倾向性得分与预设的倾向性得分之间的距离越大时,表明模型的输出结果与真实值之间的差距越大,需要进一步的训练;当样本倾向性得分与预设的倾向性得分之间的距离越小时,表明模型的训练结果与真实值的差距越小,表明模型的输出结果与真实值之间的差距越小,结果更加接近真实值,可以考虑停止对模型的进一步训练。
步骤S906,根据损失结果,对特征交叉网络和特征融合网络中的参数进行修正,以得到训练好的倾向性识别网络。
这里,当上述距离小于距离阈值时,则损失结果表明当前的特征交叉网络不能对第一类样本特征进行准确的特征交叉处理,或者,表明当前的特征融合网络不能对第二类样本特征进行准确的特征融合处理,因此,需要对特征交叉网络和特征融合网络中的至少一个中的参数进行修正,直至倾向性识别网络输出的样本倾向性得分与预设的倾向性得分之间的距离小于距离阈值是,停止对倾向性识别网络的训练。
本申请实施例提供的倾向性识别网络的训练方法,由于样本信息输入至倾向性识别网络中,依次通过特征交叉网络和特征融合网络对样本信息进行特征交叉处理、特征融合处理和预测结果变换处理,得到样本信息的样本倾向性得分,并将样本倾向性得分输入至预设损失模型中,得到损失结果。因此,能够根据损失结果对特征交叉网络和特征融合网络中的参数进行修正,所得到的训练好的倾向性识别网络能够准确的预测出待推荐信息的倾向性得分,从而对用户进行准确的信息推荐。
在一些实施例中,当采用倾向性识别网络进行模型预测时,可以将每一待推荐信息依次输入至该倾向性识别网络中,该倾向性识别网络会自动输出该待推荐信息对应的倾向性得分,其中,倾向性得分可以是0到1之间的任意值,当倾向性得分大于0.5时,表明对应待推荐信息的受欢迎度较高,则可以将该待推荐信息推荐给目标用户;当倾向性得分小于或等于0.5时,表明对应待推荐信息的受欢迎度较低,则不将该待推荐信息推荐给目标用户。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例提供一种信息推荐方法,该信息推荐方法是一种基于多模态信息的视频人群倾向预估方案,该方案旨在对视频内容在特定人群上的受欢迎程度进行打分,以提升特定人群上个性化推荐的精准性。首先,对人群倾向这一概念进行建模,利用人群的消费日志,按照如点击率、时长等消费指标,将内容划分为喜欢和不喜欢两类,即将内容的受欢迎程度转换为二分类问题;其次,利用视频本身的多模态信息,如标题、分类、标签、封面、视频帧等,构建wide&deep分类模型来拟合上述问题;最后,在预测时,使用分类模型的输出概率作为内容在指定人群上的欢迎度得分(即倾向性得分)。在推荐侧,可利用该得分,优化对指定人群的推荐策略,如在新用户的冷启动阶段,增加高欢迎度得分视频的推荐权重,进而提升特定人群的点击、时长、留存等消费指标。
本申请实施例中所使用的倾向性数据集(即待推荐信息集合)来自信息流产品主feeds场景下的用户消费日志,其中,用户消费日志的数据格式为(t,uidi,vidv,expi,v,clki,v,playduri,v),其中t为上报时间戳,uidi为用户i,vidv为视频v,expi,v为视频v对用户i的曝光次数,clki,v为用户i对视频v的点击次数,playduri,v为用户i对视频v的观看时长。按照指定的用户群(假设为女性群体)筛选上述日志,只保留女性用户对应的记录。圈定某一消费区间,根据vidv进行分组,对曝光、点击、时长等消费数据进行聚合,得到聚合后的数据结构为(vidv,expv,clkv,ctrv,playdurv),其中视频v的女性总曝光数为视频v的总点击数为/>视频v的平均点击率为ctrv=clkv/expv,视频v的平均播放时长为/>U为全部女性用户集合。进一步地,可以得到女性群体对全部内容消费的平均点击率为/>女性群体对全部内容消费的平均时长为需要说明的是,女性群体对应上述对象集合,全部内容对应上述推荐信息集合。
本申请实施例中,可以按照待优化的业务目标(假设为ctr),构建是否受女性欢迎的视频集合。若则视频v为正样本,即受女性欢迎;反之则为负样本,即不受女性欢迎。至此获得了对女性倾向进行分类所需要的数据集(即待推荐信息集合)。
由于决定视频内容是否受群体欢迎的影响因素较多,除了直接展示给用户的标题和封面特征外,诸如视频主题、视频质量等特征也对结果有着直接的影响。因此,本申请实施例提出基于视频多模态信息的wide&deep分类网络结构,wide部分使用因子分解机(FM,Factorization Machine)对视频类目、视频时长、视频质量等低阶特征进行交叉,deep部分则对视频的标题、标签、封面等高阶特征进行多模态的融合。
本申请实施例中整体算法的网络结构图如图10所示,网络输入的特征有以下两种:一是输入wide网络的低阶特征,包括视频所属的类别、视频时长和视频的质量等级三种;另外则是输入deep网络的标题、标签和封面图三种特征。wide&deep分类网络模型利用上述6种视频特征,分别经过wide&deep两路变换,得到两路各自的预测得分,最后将两路预测结果求和,并使用sigmoid非线性激活函数将预测结果变换至[0,1]范围内,以得到最终的欢迎度得分。
在wide&deep分类网络模型的模型训练阶段,可以使用以下公式(1-1)提供的交叉熵损失函数来度量错误分类的代价:
其中,L表示交叉熵损失函数的损失结果;avg表示求均值;yn为第n个样本的预测概率;yn∈{0,1}为第n个样本的真实倾向性结果,其中,0代表不受欢迎,1代表受欢迎;在模型预测阶段,使用网络输出的预测概率y,若y>0.5,则判定视频受欢迎,反之判定为不受欢迎。
基于图10所提供的网络结构图,其中,图10中的左半部分表示的为wide网络结构,输入的特征有视频所属类别、视频时长、视频质量等级三部分。使用wide网络的主要目的是引入线性模型的记忆能力,来放大倾向性识别任务中特定特征组合对最终判决的影响。比如{娱乐-八卦,高质量,时长适中}这一类型的视频,受女性群体欢迎的概率很大。具体的,本申请实施例中采用嵌入层1101获取输入特征的嵌入向量,使用FM层1002作为特征交叉网络,对输入的三种特征分别使用不同的预处理方法。
本申请实施例中,对于视频类别特征:可以按照视频内容,将视频归属为某一类别,具体的分为一级分类和二级分类,例如,一级分类共计42个,二级分类共计296个,分别对一级和二级分类进行独热编码(one hot),可得到两个类别特征向量xcls1∈R42,xcls2∈R296
对于视频时长特征:视频时长为连续特征,因此可以进行等频分箱离散化,分为1-5等级,使用one hot编码表示为xt∈R5
对于视频质量特征:可以按照视频清晰度、视频内容等先验标准对视频质量进行打分,本申请实施例中直接使用该打分结果,分为1-5等级,同样使用o ne hot编码为xlevel∈R5
然后,将上述xcls1、xcls2、xt和xlevel四个离散特征输入FM层,通过以下公式(1-2)即可获得wide部分的输出ywide
ywide=FM(xcls1,xcls2,xt,xlevel) (1-2)。
请继续参照图10所提供的网络结构图,其中,图10中的右半部分表示的为deep网络结构,这部分使用的输入特征分为文本和图像两个模态,文本部分包括视频的标题和标签(tag),图像部分即为视频的封面。由于文本和图像信息是跨模态的,因此本申请实施例还还引入了基于注意力机制(attention)的模态间特征融合来更好的表达视频内容特征。
首先,在特征提取上,对标题信息进行分词,使用word2vec获取每个词的词嵌入向量(embedding),对全部词的embedding结果取平均,即得到标题句子级别的编码向量xtitle;标签信息是由视频中关键描述词构成的词序列,故省去了分词过程,直接取得每个词的embedding编码结果后,求所有词embedding的平均,得到标签的编码向量xtag;对于封面图,本申请实施例中直接采用resn et50网络(一种深度残差网络,是基于CNN的图片特征提取网络)进行特征提取,得到封面图向量ximg
抽取完各输入特征后,使用attention机制进行模态间特征融合。具体做法为,在网络中引入αtitle、αtag、αimg三个注意力权重,分别对xtitle、xtag、ximg给予不同的加权,加权结果分别经三路全连接网络(FC,Fully Connected)进行线性变换后,进行concat拼接作为特征融合结果,进行后续运算,如式(1-3)所示为concat拼接处理的计算过程,其中fi(x)=Wx+b为FC层的线性变换结果,其中,x表示FC层的输入特征向量,W和B是模型要学习的权重参数,FC层表示对输入特征向量进行的线性变换。
X=concat(f1title·xtitle),f2tag·xtag),f3img·ximg)) (1-3);
其中,X表示concat拼接处理后的结果。
在获取到多模态融合特征X后,再经过3层NN变换,最终将输出维度降至1维,即得到deep网络预测的欢迎程度得分ydeep=DNN(X)。
最终,通过以下公式(1-4)综合wide网络和deep网络的输出结果,得到整体的受欢迎度得分为y。
y=sig moid(ywide+ydeep) (1-4)。
本申请实施例中,使用特定用户群的消费日志作为内容是否受欢迎的标注数据,将人群倾向性预估问题建模为内容是否受特定人群欢迎的二分类问题,直接使用用户操作数据构建标签,节省了大量标注成本。使用基于多模态信息的wide&deep网络模型结构,充分考虑了倾向性预估场景下特征的复杂多样性,使模型能更精准的刻画内容在特定人群上的受欢迎程度。利用内容的人群倾向预估结果,推荐侧可以更好的解决新用户冷启动这一难题,提升用户留存和时长;另外,在针对特定人群的推荐效果优化上,该结果可提供受该人群欢迎的内容池,对特定人群上消费指标的提升至关重要。
下面继续说明本申请实施例提供的信息推荐装置354实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器350的信息推荐装置354中的软件模块可以是服务器300中的信息推荐装置,包括:
获取模块3541,用于获取待推荐信息集合中的每一待推荐信息的至少一个第一类特征和至少一个第二类特征;特征交叉处理模块3542,用于对所述至少一个第一类特征进行特征交叉处理,得到第一预测分;特征融合处理模块3543,用于对所述至少一个第二类特征进行特征融合处理,得到第二预测分;变换处理模块3544,用于对所述第一预测分和所述第二预测分进行预测结果变换处理,得到所述待推荐信息的倾向性得分;推荐模块3545,用于根据每一所述待推荐信息的所述倾向性得分,将所述待推荐信息集合中的至少一条待推荐信息推荐给目标对象。
在一些实施例中,所述装置还包括:确定模块,用于确定所述目标对象的属性信息;集合获取模块,用于获取具有所述属性信息的对象所形成的对象集合、和与所述对象集合中的对象之间具有交互信息的推荐信息所形成的推荐信息集合;互动数据获取模块,用于对于所述推荐信息集合中的每一所述推荐信息,获取所述对象集合中每一对象与所述推荐信息之间的互动数据;聚合模块,用于对所述互动数据进行聚合,得到所述对象集合中的对象针对于每一所述推荐信息的互动概率;选择模块,用于根据所述互动概率,在所述推荐信息集合中选择出至少一条推荐信息作为待推荐信息,以形成所述待推荐信息集合。
在一些实施例中,所述互动数据至少包括对所述推荐信息的曝光次数、点击次数和浏览时长;所述聚合模块还用于:对所述曝光次数、所述点击次数和所述浏览时长进行聚合,得到针对于每一所述推荐信息的平均点击率和平均浏览时长;将所述平均点击率和所述平均浏览时长中的任意一个,确定为所述推荐信息的互动概率。
在一些实施例中,所述装置还包括:总平均点击率确定模块,用于根据所述推荐信息集合中的每一所述推荐信息的所述平均点击率,确定所述对象集合中的全部对象所对应的总平均点击率;总平均浏览时长模块,用于根据所述推荐信息集合中的每一所述推荐信息的所述平均浏览时长,确定所述对象集合中的全部对象所对应的总平均浏览时长;所述选择模块还用于:在所述推荐信息集合中,选择出所述平均点击率大于所述总平均点击率的推荐信息作为所述待推荐信息;或者,在所述推荐信息集合中选择出平均浏览时长大于所述总平均浏览时长的推荐信息作为所述待推荐信息。
在一些实施例中,所述第一类特征包括信息类别特征、信息长度特征和信息质量特征中的至少一种;所述特征交叉处理模块还用于:对所述信息类别特征中的一级类别特征和二级类别特征分别进行编码处理,对应得到一级类别特征向量和二级类别特征向量;对所述信息长度特征依次进行离散化处理和编码处理,得到信息长度特征向量;对所述信息质量特征进行编码处理,得到信息质量特征向量;采用因子分解机对所述一级类别特征向量、所述二级类别特征向量、所述信息长度特征向量和所述信息质量特征向量中的至少一种进行所述交叉处理,得到所述第一预测分。
在一些实施例中,所述特征交叉处理模块还用于:获取针对于所述待推荐信息的预先打分值;对所述预先打分值进行所述编码处理,得到所述信息质量特征向量。
在一些实施例中,所述第二类特征至少包括文本特征和图像特征;所述特征融合处理模块还用于:根据所述文本特征确定至少一个词;获取每一词的词嵌入向量;将所述词嵌入向量的平均值,确定为所述文本特征的编码向量;对所述图像特征进行图像特征提取,得到图像特征向量;基于注意力机制,对所述编码向量和所述图像特征向量进行所述特征融合处理,得到所述第二预测分。
在一些实施例中,所述特征融合处理模块还用于:基于所述注意力机制,对所述编码向量和所述图像特征向量分别进行线性变换处理,对应得到线性变换后的编码向量和线性变换后的图像特征向量;对所述线性变换后的编码向量和所述线性变换后的图像特征向量进行拼接,得到拼接向量;对所述拼接向量进行激活处理以将所述拼接向量降维至一维,得到所述第二预测分。
在一些实施例中,所述特征融合处理模块还用于:确定所述编码向量的第一注意力权重和所述图像特征向量的第二注意力权重;采用所述第一注意力权重和所述第二注意力权重分别对所述编码向量和所述图像特征向量进行加权;对加权后的编码向量和加权后的图像特征向量分别进行线性变换处理,对应得到所述线性变换后的编码向量和所述线性变换后的图像特征向量。
在一些实施例中,所述变换处理模块还用于:对所述第一预测分和所述第二预测分求和,得到预测总分;采用非线性激活函数对所述预测总分进行预测结果变换处理,得到所述待推荐信息的所述倾向性得分。
在一些实施例中,所述装置还包括:处理模块,用于采用倾向性识别网络确定所述待推荐信息的倾向性得分;其中,所述倾向性识别网络通过以下步骤进行训练:将样本信息的第一类样本特征和所述样本信息的第二类样本特征输入至所述倾向性识别网络中;通过所述倾向性识别网络的特征交叉网络对所述第一类样本特征进行特征交叉处理,得到第一样本预测分;通过所述倾向性识别网络的特征融合网络对所述第二类样本特征进行特征融合处理,得到第二样本预测分;通过所述倾向性识别网络的变换处理层对所述第一样本预测分和所述第二样本预测分进行预测结果变换处理,得到所述样本信息的样本倾向性得分;将所述样本倾向性得分输入至预设损失模型中,得到损失结果;根据所述损失结果,对所述特征交叉网络和所述特征融合网络中的参数进行修正,以得到训练好的倾向性识别网络。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的方法。
本申请实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3示出的方法。
在一些实施例中,存储介质可以是计算机可读存储介质,例如,铁电存储器(FRAM,Ferromagnetic Random Access Memory)、只读存储器(ROM,R ead Only Memory)、可编程只读存储器(PROM,Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM,Compact Disk-Read Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (11)

1.一种信息推荐方法,其特征在于,包括:
获取待推荐信息集合中的每一待推荐信息的第一类特征和第二类特征,其中,所述第一类特征包括信息类别特征、信息长度特征和信息质量特征,所述第二类特征至少包括文本特征和图像特征;
对所述信息类别特征中的一级类别特征和二级类别特征分别进行编码处理,对应得到一级类别特征向量和二级类别特征向量;
对所述信息长度特征依次进行离散化处理和编码处理,得到信息长度特征向量;
获取针对于所述待推荐信息的预先打分值;
对所述预先打分值进行所述编码处理,得到所述信息质量特征向量;
采用因子分解机对所述一级类别特征向量、所述二级类别特征向量、所述信息长度特征向量和所述信息质量特征向量进行交叉处理,得到第一预测分;
根据所述文本特征确定至少一个词;
获取每一词的词嵌入向量;
将所述词嵌入向量的平均值,确定为所述文本特征的编码向量;
对所述图像特征进行图像特征提取,得到图像特征向量;
基于注意力机制,对所述编码向量和所述图像特征向量进行特征融合处理,得到第二预测分;
对所述第一预测分和所述第二预测分进行预测结果变换处理,得到所述待推荐信息的倾向性得分;
根据每一所述待推荐信息的所述倾向性得分,将所述待推荐信息集合中的至少一条待推荐信息推荐给目标对象。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标对象的属性信息;
获取具有所述属性信息的对象所形成的对象集合、和与所述对象集合中的对象之间具有交互信息的推荐信息所形成的推荐信息集合;
对于所述推荐信息集合中的每一所述推荐信息,获取所述对象集合中每一对象与所述推荐信息之间的互动数据;
对所述互动数据进行聚合,得到所述对象集合中的对象针对于每一所述推荐信息的互动概率;
根据所述互动概率,在所述推荐信息集合中选择出至少一条推荐信息作为待推荐信息,以形成所述待推荐信息集合。
3.根据权利要求2所述的方法,其特征在于,所述互动数据至少包括对所述推荐信息的曝光次数、点击次数和浏览时长;
所述对所述互动数据进行聚合,得到所述对象集合中的对象针对于每一所述推荐信息的互动概率,包括:
对所述曝光次数、所述点击次数和所述浏览时长进行聚合,得到针对于每一所述推荐信息的平均点击率和平均浏览时长;
将所述平均点击率和所述平均浏览时长中的任意一个,确定为所述推荐信息的互动概率。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述推荐信息集合中的每一所述推荐信息的所述平均点击率,确定所述对象集合中的全部对象所对应的总平均点击率;
根据所述推荐信息集合中的每一所述推荐信息的所述平均浏览时长,确定所述对象集合中的全部对象所对应的总平均浏览时长;
所述根据所述互动概率,在所述推荐信息集合中选择出至少一条推荐信息作为待推荐信息,包括:
在所述推荐信息集合中,选择出所述平均点击率大于所述总平均点击率的推荐信息作为所述待推荐信息;或者,
在所述推荐信息集合中选择出平均浏览时长大于所述总平均浏览时长的推荐信息作为所述待推荐信息。
5.根据权利要求1所述的方法,其特征在于,所述基于注意力机制,对所述编码向量和所述图像特征向量进行特征融合处理,得到第二预测分,包括:
基于所述注意力机制,对所述编码向量和所述图像特征向量分别进行线性变换处理,对应得到线性变换后的编码向量和线性变换后的图像特征向量;
对所述线性变换后的编码向量和所述线性变换后的图像特征向量进行拼接,得到拼接向量;
对所述拼接向量进行激活处理以将所述拼接向量降维至一维,得到所述第二预测分。
6.根据权利要求5所述的方法,其特征在于,所述基于所述注意力机制,对所述编码向量和所述图像特征向量分别进行线性变换处理,对应得到线性变换后的编码向量和线性变换后的图像特征向量,包括:
确定所述编码向量的第一注意力权重和所述图像特征向量的第二注意力权重;
采用所述第一注意力权重和所述第二注意力权重分别对所述编码向量和所述图像特征向量进行加权;
对加权后的编码向量和加权后的图像特征向量分别进行线性变换处理,对应得到所述线性变换后的编码向量和所述线性变换后的图像特征向量。
7.根据权利要求1所述的方法,其特征在于,所述对所述第一预测分和所述第二预测分进行预测结果变换处理,得到所述待推荐信息的倾向性得分,包括:
对所述第一预测分和所述第二预测分求和,得到预测总分;
采用非线性激活函数对所述预测总分进行预测结果变换处理,得到所述待推荐信息的所述倾向性得分。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:采用倾向性识别网络确定所述待推荐信息的倾向性得分;
其中,所述倾向性识别网络通过以下步骤进行训练:
将样本信息的第一类样本特征和所述样本信息的第二类样本特征输入至所述倾向性识别网络中;
通过所述倾向性识别网络的特征交叉网络对所述第一类样本特征进行特征交叉处理,得到第一样本预测分;
通过所述倾向性识别网络的特征融合网络对所述第二类样本特征进行特征融合处理,得到第二样本预测分;
通过所述倾向性识别网络的变换处理层对所述第一样本预测分和所述第二样本预测分进行预测结果变换处理,得到所述样本信息的样本倾向性得分;
将所述样本倾向性得分输入至预设损失模型中,得到损失结果;
根据所述损失结果,对所述特征交叉网络和所述特征融合网络中的参数进行修正,以得到训练好的倾向性识别网络。
9.一种信息推荐装置,其特征在于,包括:
获取模块,用于获取待推荐信息集合中的每一待推荐信息的第一类特征和第二类特征,其中,所述第一类特征包括信息类别特征、信息长度特征和信息质量特征,所述第二类特征至少包括文本特征和图像特征;
特征交叉处理模块,用于对所述信息类别特征中的一级类别特征和二级类别特征分别进行编码处理,对应得到一级类别特征向量和二级类别特征向量;对所述信息长度特征依次进行离散化处理和编码处理,得到信息长度特征向量;获取针对于所述待推荐信息的预先打分值;对所述预先打分值进行所述编码处理,得到所述信息质量特征向量;采用因子分解机对所述一级类别特征向量、所述二级类别特征向量、所述信息长度特征向量和所述信息质量特征向量进行交叉处理,得到第一预测分;
特征融合处理模块,用于根据所述文本特征确定至少一个词;获取每一词的词嵌入向量;将所述词嵌入向量的平均值,确定为所述文本特征的编码向量;对所述图像特征进行图像特征提取,得到图像特征向量;基于注意力机制,对所述编码向量和所述图像特征向量进行特征融合处理,得到第二预测分;
变换处理模块,用于对所述第一预测分和所述第二预测分进行预测结果变换处理,得到所述待推荐信息的倾向性得分;
推荐模块,用于根据每一所述待推荐信息的所述倾向性得分,将所述待推荐信息集合中的至少一条待推荐信息推荐给目标对象。
10.一种信息推荐设备,其特征在于,包括:
存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至8任一项所述的信息推荐方法。
11.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现权利要求1至8任一项所述的信息推荐方法。
CN202011131347.1A 2020-10-21 2020-10-21 信息推荐方法、装置、设备及计算机可读存储介质 Active CN112163165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011131347.1A CN112163165B (zh) 2020-10-21 2020-10-21 信息推荐方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011131347.1A CN112163165B (zh) 2020-10-21 2020-10-21 信息推荐方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112163165A CN112163165A (zh) 2021-01-01
CN112163165B true CN112163165B (zh) 2024-05-17

Family

ID=73867697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011131347.1A Active CN112163165B (zh) 2020-10-21 2020-10-21 信息推荐方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112163165B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785391B (zh) * 2021-02-02 2024-02-09 微民保险代理有限公司 推荐处理方法、装置及智能设备、存储介质
CN112801751B (zh) * 2021-02-04 2022-12-23 重庆邮电大学 一种多任务图神经网络的个性化景区推荐方法
CN113051468B (zh) * 2021-02-22 2023-04-07 山东师范大学 一种基于知识图谱和强化学习的电影推荐方法及***
CN112925723B (zh) * 2021-04-02 2022-03-15 上海复深蓝软件股份有限公司 测试服务推荐方法、装置、计算机设备及存储介质
CN113111644A (zh) * 2021-04-22 2021-07-13 上海云从企业发展有限公司 文本识别方法、装置及计算机存储介质
CN113595874B (zh) * 2021-07-09 2023-03-24 北京百度网讯科技有限公司 即时通讯群组的搜索方法、装置、电子设备和存储介质
CN113378064A (zh) * 2021-07-09 2021-09-10 小红书科技有限公司 一种确定内容相似度方法和基于相似度的内容推荐方法
CN113626716A (zh) * 2021-08-26 2021-11-09 腾讯科技(深圳)有限公司 数据处理方法、电子设备及存储介质
CN113569557B (zh) * 2021-09-26 2022-01-04 腾讯科技(深圳)有限公司 信息的质量识别方法、装置、设备、存储介质及程序产品
CN113836327A (zh) * 2021-09-26 2021-12-24 杭州网易云音乐科技有限公司 推荐方法、介质、装置和计算设备
CN113923006B (zh) * 2021-09-30 2024-02-02 北京淇瑀信息科技有限公司 设备数据认证方法、装置及电子设备
CN113626719B (zh) * 2021-10-12 2022-02-08 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备、存储介质及计算机程序产品
CN113947246B (zh) * 2021-10-21 2023-06-13 腾讯科技(深圳)有限公司 基于人工智能的流失处理方法、装置及电子设备
CN114090890B (zh) * 2021-11-23 2023-04-28 电子科技大学 一种基于图卷积网络的反事实项目推荐方法
CN116628345B (zh) * 2023-07-13 2024-02-06 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844557A (zh) * 2016-12-30 2017-06-13 东软集团股份有限公司 信息推荐方法及装置
JP2018181326A (ja) * 2017-04-06 2018-11-15 ネイバー コーポレーションNAVER Corporation ディープラーニングを活用した個人化商品推薦
CN108920641A (zh) * 2018-07-02 2018-11-30 北京理工大学 一种信息融合个性化推荐方法
CN110837598A (zh) * 2019-11-11 2020-02-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备及存储介质
CN111246256A (zh) * 2020-02-21 2020-06-05 华南理工大学 基于多模态视频内容和多任务学习的视频推荐方法
CN111310040A (zh) * 2020-02-11 2020-06-19 腾讯科技(北京)有限公司 基于人工智能的推荐方法、装置、电子设备及存储介质
CN111553759A (zh) * 2020-03-25 2020-08-18 平安科技(深圳)有限公司 一种产品信息推送方法、装置、设备及存储介质
CN111581510A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质
CN111709764A (zh) * 2019-03-18 2020-09-25 腾讯科技(深圳)有限公司 多媒体内容的相关参数的确定方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6922680B2 (en) * 2002-03-19 2005-07-26 Koninklijke Philips Electronics N.V. Method and apparatus for recommending an item of interest using a radial basis function to fuse a plurality of recommendation scores
CN105975472A (zh) * 2015-12-09 2016-09-28 乐视网信息技术(北京)股份有限公司 一种推荐方法和装置
CN109840321B (zh) * 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844557A (zh) * 2016-12-30 2017-06-13 东软集团股份有限公司 信息推荐方法及装置
JP2018181326A (ja) * 2017-04-06 2018-11-15 ネイバー コーポレーションNAVER Corporation ディープラーニングを活用した個人化商品推薦
CN108920641A (zh) * 2018-07-02 2018-11-30 北京理工大学 一种信息融合个性化推荐方法
CN111709764A (zh) * 2019-03-18 2020-09-25 腾讯科技(深圳)有限公司 多媒体内容的相关参数的确定方法、装置及存储介质
CN110837598A (zh) * 2019-11-11 2020-02-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备及存储介质
CN111310040A (zh) * 2020-02-11 2020-06-19 腾讯科技(北京)有限公司 基于人工智能的推荐方法、装置、电子设备及存储介质
CN111246256A (zh) * 2020-02-21 2020-06-05 华南理工大学 基于多模态视频内容和多任务学习的视频推荐方法
CN111553759A (zh) * 2020-03-25 2020-08-18 平安科技(深圳)有限公司 一种产品信息推送方法、装置、设备及存储介质
CN111581510A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112163165A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112163165B (zh) 信息推荐方法、装置、设备及计算机可读存储介质
US11893071B2 (en) Content recommendation method and apparatus, electronic device, and storage medium
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN111241311B (zh) 媒体信息推荐方法、装置、电子设备及存储介质
CN108021616B (zh) 一种基于循环神经网络的社区问答专家推荐方法
CN111708950B (zh) 内容推荐方法、装置及电子设备
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
Nie et al. Data-driven answer selection in community QA systems
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及***
Lin et al. From ideal to reality: segmentation, annotation, and recommendation, the vital trajectory of intelligent micro learning
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
Fu et al. Visual cortex inspired CNN model for feature construction in text analysis
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN115114974A (zh) 一种模型蒸馏方法、装置、计算机设备和存储介质
CN110505520B (zh) 信息推荐方法及***、介质及电子设备
Feng et al. Ontology semantic integration based on convolutional neural network
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN116628345B (zh) 一种内容推荐方法、装置、电子设备和存储介质
KR20230106579A (ko) 학습 나침반 서비스를 제공하는 방법
CN116578729A (zh) 内容搜索方法、装置、电子设备、存储介质和程序产品
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN116484085A (zh) 一种信息投放方法、装置、设备及存储介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40037425

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant