CN113934872A - 一种搜索结果的排序方法、装置、设备以及存储介质 - Google Patents

一种搜索结果的排序方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN113934872A
CN113934872A CN202111277526.0A CN202111277526A CN113934872A CN 113934872 A CN113934872 A CN 113934872A CN 202111277526 A CN202111277526 A CN 202111277526A CN 113934872 A CN113934872 A CN 113934872A
Authority
CN
China
Prior art keywords
sample
multimedia resource
resource
multimedia
search word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111277526.0A
Other languages
English (en)
Inventor
张志伟
王希爱
吴丽军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111277526.0A priority Critical patent/CN113934872A/zh
Publication of CN113934872A publication Critical patent/CN113934872A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种搜索结果的排序方法、装置、设备以及存储介质,涉及计算机技术领域。本公开实施例至少解决相关技术中,搜索结果排序不准确的问题。该方法包括:获取当前搜索词以及与当前搜索词相关的多个多媒体资源;根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测每个多媒体资源的点击率,并根据每个多媒体资源的点击率,对多个多媒体资源排序;当前搜索词的搜索词特征用于标识当前搜索词,预测模型为根据样本搜索词、样本搜索词相关的多个样本多媒体资源以及每个样本多媒体资源的样本操作记录训练得到的;样本操作记录用于表征用户在历史时间段搜索样本搜索词时,每个样本多媒体资源的点击率。

Description

一种搜索结果的排序方法、装置、设备以及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种搜索结果的排序方法、装置、设备以及存储介质。
背景技术
在视频搜索场景中,用户在输入搜索词之后,设备会从视频库中获取与搜索词匹配的多个视频,并按照多个视频的点击率对多个视频排序,以向用户返回搜索结果。其中,对多个视频排序所需要用到的点击率,是由设备根据用户的后验行为数据确定的。
具体的,用户的后验行为数据包括用户在历史时间段内输入的搜索词、与该搜索词匹配的多个视频的标识、对于多个视频中的每个视频,用户是否点击、观看时长、是否点赞、是否关注等行为数据。设备可以根据“用户是否点击”确定每个视频的关注度,以及,根据“观看时长、是否点赞、是否关注”,确定每个视频的关注度。进一步的,设备根据每个视频的关注度以及满意度,计算每个视频的点击率。
但是,对于视频库中新上传的视频,并不存在相应的后验行为数据(因为视频是新的,用户没有点击过),则设备就会将其点击率设置为0,其排序也相应的靠后,这就会导致搜索结果中的排序不够准确。
发明内容
本公开提供一种搜索结果的排序方法、装置、设备以及存储介质,以至少解决相关技术中,搜索结果排序不准确的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种搜索结果的排序方法,包括:获取当前搜索词以及与当前搜索词相关的多个多媒体资源;根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测每个多媒体资源的点击率,并根据每个多媒体资源的点击率,对多个多媒体资源排序;当前搜索词的搜索词特征用于标识当前搜索词,预测模型为根据样本搜索词、样本搜索词相关的多个样本多媒体资源以及每个样本多媒体资源的样本操作记录训练得到的;样本操作记录用于表征用户在历史时间段搜索样本搜索词时,每个样本多媒体资源的点击率。
可选的,上述根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测每个多媒体资源的点击率,包括:根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预测模型,预测每个多媒体资源的关注度以及满意度;关注度用于反映用户对不同多媒体资源执行点击操作的先后次序,满意度用于反映用户对每个多媒体资源的满意类信息的反馈操作;根据每个多媒体资源的关注度以及满意度,确定每个多媒体资源的点击率。
可选的,上述根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预测模型,预测每个多媒体资源的关注度以及满意度,包括:根据当前搜索词的搜索词特征,以及每个多媒体资源的资源特征,确定每个多媒体资源的融合特征;融合特征包括将当前搜索词的搜索词特征,以及每个多媒体资源的资源特征拼接后得到的特征;将每个多媒体资源的融合特征输入到预测模型中,以得到每个多媒体资源的关注度以及满意度。
可选的,上述根据当前搜索词的搜索词特征,以及每个多媒体资源的资源特征,确定每个多媒体资源的融合特征,包括:将当前搜索词的搜索词特征以及每个多媒体资源的资源特征进行交叉处理,以得到每个多媒体资源与当前搜索词的交叉特征;将当前搜索词的搜索词特征、每个多媒体资源的资源特征以及每个多媒体资源对应的交叉特征拼接,以得到每个多媒体资源的融合特征。
可选的,上述当前搜索词的搜索词特征,为将当前搜索词的文本特征与当前搜索词的标识的嵌入特征拼接后得到的。
可选的,上述每个多媒体资源的资源特征,为将每个多媒体资源的描述的文本特征、每个多媒体资源的图像特征以及每个多媒体资源的标识的嵌入特征中的至少两个拼接后得到的。
可选的,上述方法还包括:获取多组训练样本;每组训练样本包括一个样本搜索词的搜索词特征、与样本搜索词匹配的样本多媒体资源的资源特征,以及样本多媒体资源的样本关注度以及样本满意度;根据获取到的训练样本对初始预测模型进行迭代训练,以得到预测模型。
可选的,上述根据获取到的训练样本对初始预测模型进行迭代训练,以得到预测模型,包括:根据样本搜索词的搜索词特征、样本多媒体资源的资源特征以及初始预测模型,预测得到样本多媒体资源的预估关注度以及预估满意度;根据样本多媒体资源的预估关注度,以及样本多媒体资源的样本关注度,确定初始预测模型的关注度损失;根据样本多媒体资源的预估满意度,以及样本多媒体资源的样本满意度,确定初始预测模型的满意度损失;根据初始预测模型的关注度损失以及初始预测模型的满意度损失,对初始预测模型进行优化,以得到预测模型。
可选的,上述根据样本多媒体资源的预估关注度,以及样本多媒体资源的样本关注度,确定初始预测模型的关注度损失,包括:根据样本多媒体资源的预估关注度,确定样本多媒体资源的预估忽略度;样本多媒体资源的预估忽略度与样本多媒体资源的预估关注度负相关;根据样本多媒体资源的样本关注度,确定样本多媒体资源的样本忽略度;样本多媒体资源的样本忽略度与样本多媒体资源的样本关注度负相关;根据样本多媒体资源的预估关注度、样本多媒体资源的预估忽略度、样本多媒体资源的样本关注度以及样本多媒体资源的样本忽略度,确定初始预测模型的关注度损失。
可选的,上述根据样本多媒体资源的预估关注度、样本多媒体资源的预估忽略度、样本多媒体资源的样本关注度以及样本多媒体资源的样本忽略度,确定初始预测模型的关注度损失,包括:确定每个样本多媒体资源的预估关注度的对数值以及每个样本多媒体资源的预估忽略度的对数值,并分别计算第一乘积以及第二乘积;第一乘积为每个样本多媒体资源的预估关注度的对数值与每个样本多媒体资源的样本关注度的积,第二乘积为每个样本多媒体资源的预估忽略度的对数值与每个样本多媒体资源的样本忽略度的积;根据计算得到的第一乘积以及第二乘积,计算得到初始预测模型的关注度损失。
可选的,上述根据样本多媒体资源的预估满意度,以及样本多媒体资源的样本满意度,确定初始预测模型的满意度损失,包括:根据样本多媒体资源的预估满意度,确定样本多媒体资源的预估排斥度;样本多媒体资源的预估排斥度与样本多媒体资源的预估满意度负相关;根据样本多媒体资源的样本满意度,确定样本多媒体资源的样本排斥度;样本多媒体资源的样本排斥度与样本多媒体资源的样本满意度;根据样本多媒体资源的预估满意度、样本多媒体资源的预估排斥度、样本多媒体资源的样本满意度以及样本多媒体资源的样本排斥度,确定初始预测模型的满意度损失。
可选的,上述根据样本多媒体资源的预估满意度、样本多媒体资源的预估排斥度、样本多媒体资源的样本满意度以及样本多媒体资源的样本排斥度,确定初始预测模型的满意度损失,包括:确定每个样本多媒体资源的预估满意度的对数值以及每个样本多媒体资源的预估排斥度的对数值,并分别计算第三乘积以及第四乘积;第三乘积为每个样本多媒体资源的预估满意度的对数值与每个样本多媒体资源的样本满意度的积,第四乘积为每个样本多媒体资源的预估排斥度的对数值与每个样本多媒体资源的样本排斥度的积;根据计算得到的第三乘积以及第四乘积,计算得到初始预测模型的满意度损失。
根据本公开实施例的第二方面,提供一种搜索结果的排序装置,包括获取单元、预测单元以及排序单元;获取单元,用于获取当前搜索词以及与当前搜索词相关的多个多媒体资源;预测单元,用于根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测每个多媒体资源的点击率;当前搜索词的搜索词特征用于标识当前搜索词,预测模型为根据样本搜索词、样本搜索词相关的多个样本多媒体资源以及每个样本多媒体资源的样本操作记录训练得到的;样本操作记录用于表征用户在历史时间段搜索样本搜索词时,每个样本多媒体资源的点击率;排序单元,用于根据每个多媒体资源的点击率,对多个多媒体资源排序。
可选的,上述预测单元,具体用于:根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预测模型,预测每个多媒体资源的关注度以及满意度;关注度用于反映用户对不同多媒体资源执行点击操作的先后次序,满意度用于反映用户对每个多媒体资源的满意类信息的反馈操作;根据每个多媒体资源的关注度以及满意度,确定每个多媒体资源的点击率。
可选的,上述预测单元,具体用于:根据当前搜索词的搜索词特征,以及每个多媒体资源的资源特征,确定每个多媒体资源的融合特征;融合特征包括将当前搜索词的搜索词特征,以及每个多媒体资源的资源特征拼接后得到的特征;将每个多媒体资源的融合特征输入到预测模型中,以得到每个多媒体资源的关注度以及满意度。
可选的,上述预测单元,具体用于:将当前搜索词的搜索词特征以及每个多媒体资源的资源特征进行交叉处理,以得到每个多媒体资源与当前搜索词的交叉特征;将当前搜索词的搜索词特征、每个多媒体资源的资源特征以及每个多媒体资源对应的交叉特征拼接,以得到每个多媒体资源的融合特征。
可选的,上述当前搜索词的搜索词特征,为将当前搜索词的文本特征与当前搜索词的标识的嵌入特征拼接后得到的。
可选的,上述每个多媒体资源的资源特征,为将每个多媒体资源的描述的文本特征、每个多媒体资源的图像特征以及每个多媒体资源的标识的嵌入特征中的至少两个拼接后得到的。
可选的,上述排序装置还包括训练单元;获取单元,还用于获取多组训练样本;每组训练样本包括一个样本搜索词的搜索词特征、与样本搜索词匹配的样本多媒体资源的资源特征,以及样本多媒体资源的样本关注度以及样本满意度;训练单元,用于根据获取到的训练样本对初始预测模型进行迭代训练,以得到预测模型。
可选的,上述训练单元,具体用于:根据样本搜索词的搜索词特征、样本多媒体资源的资源特征以及初始预测模型,预测得到样本多媒体资源的预估关注度以及预估满意度;根据样本多媒体资源的预估关注度,以及样本多媒体资源的样本关注度,确定初始预测模型的关注度损失;根据样本多媒体资源的预估满意度,以及样本多媒体资源的样本满意度,确定初始预测模型的满意度损失;根据初始预测模型的关注度损失以及初始预测模型的满意度损失,对初始预测模型进行优化,以得到预测模型。
可选的,上述训练单元,具体用于:根据样本多媒体资源的预估关注度,确定样本多媒体资源的预估忽略度;样本多媒体资源的预估忽略度与样本多媒体资源的预估关注度负相关;根据样本多媒体资源的样本关注度,确定样本多媒体资源的样本忽略度;样本多媒体资源的样本忽略度与样本多媒体资源的样本关注度负相关;根据样本多媒体资源的预估关注度、样本多媒体资源的预估忽略度、样本多媒体资源的样本关注度以及样本多媒体资源的样本忽略度,确定初始预测模型的关注度损失。
可选的,上述训练单元,具体用于:确定每个样本多媒体资源的预估关注度的对数值以及每个样本多媒体资源的预估忽略度的对数值,并分别计算第一乘积以及第二乘积;第一乘积为每个样本多媒体资源的预估关注度的对数值与每个样本多媒体资源的样本关注度的积,第二乘积为每个样本多媒体资源的预估忽略度的对数值与每个样本多媒体资源的样本忽略度的积;根据计算得到的第一乘积以及第二乘积,计算得到初始预测模型的关注度损失。
可选的,上述训练单元,具体用于:根据样本多媒体资源的预估满意度,确定样本多媒体资源的预估排斥度;样本多媒体资源的预估排斥度与样本多媒体资源的预估满意度负相关;根据样本多媒体资源的样本满意度,确定样本多媒体资源的样本排斥度;样本多媒体资源的样本排斥度与样本多媒体资源的样本满意度;根据样本多媒体资源的预估满意度、样本多媒体资源的预估排斥度、样本多媒体资源的样本满意度以及样本多媒体资源的样本排斥度,确定初始预测模型的满意度损失。
可选的,上述训练单元,具体用于:确定每个样本多媒体资源的预估满意度的对数值以及每个样本多媒体资源的预估排斥度的对数值,并分别计算第三乘积以及第四乘积;第三乘积为每个样本多媒体资源的预估满意度的对数值与每个样本多媒体资源的样本满意度的积,第四乘积为每个样本多媒体资源的预估排斥度的对数值与每个样本多媒体资源的样本排斥度的积;根据计算得到的第三乘积以及第四乘积,计算得到初始预测模型的满意度损失。
根据本公开实施例的第三方面,提供一种服务器,包括:处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现如第一方面及其任一种可能的设计方式所提供的搜索结果的排序方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如第一方面及其任一种可能的设计方式所提供的搜索结果的排序方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在服务器上运行时,使得该服务器执行如第一方面及其任一种可能的设计方式所提供的搜索结果的排序方法。
本公开提供的技术方案至少带来以下有益效果:能够根据当前搜索词的当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,可以确定每个多媒体资源的点击率。由于该预测模型为根据样本搜索词、样本搜索词相关的多个样本多媒体资源以及每个样本多媒体资源的样本操作记录训练得到的,且样本操作记录用于表征用户在历史时间段搜索样本搜索词时,每个样本多媒体资源的点击率,这样一来,就能够在不存在后验行为数据的情况下,预测得到多媒体资源的点击率,并参与多媒体资源的排序,可以使得向用户返回的搜索结果更加准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种多搜索***的结构示意图;
图2是根据一示例性实施例示出的一种搜索结果的排序方法的流程示意图之一;
图3是根据一示例性实施例示出的一种搜索结果的排序方法的流程示意图之二;
图4是根据一示例性实施例示出的一种搜索结果的排序方法的流程示意图之三;
图5是根据一示例性实施例示出的一种搜索结果的排序方法的流程示意图之四;
图6是根据一示例性实施例示出的一种搜索结果的排序方法的流程示意图之五;
图7是根据一示例性实施例示出的一种搜索结果的排序方法的流程示意图之六;
图8是根据一示例性实施例示出的一种搜索结果的排序装置的结构示意图;
图9是根据一示例性实施例示出的一种服务器的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
另外,在本公开实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本公开实施例的描述中,“多个”是指两个或多于两个。
本公开实施例提供的一种搜索结果的排序方法可以适用于搜索***。图1示出了该搜索***的一种结构示意图。如图1所示,搜索***10用于解决相关技术中,搜索结果排序不准确的问题。搜索***10包括搜索结果的排序装置(为便于描述,后续简称为排序装置)11以及服务器12。排序装置11与服务器12连接。排序装置11与服务器12之间可以采用有线方式连接,也可以采用无线方式连接,本公开实施例对此不作限定。
排序装置11可以用于与服务器12进行数据交互,例如,排序装置11可以从服务器12中获取搜索词以及与搜索词对应的搜索结果。
排序装置11还可以执行本公开实施例中的搜索结果的排序方法,例如,对获取到的搜索词以及与搜索词对应的搜索结果,确定搜索结果中每个多媒体资源的关注度以及满意度,并根据每个多媒体资源的关注度以及满意度,计算得到每个多媒体资源的点击率,并根据确定到的点击率,对搜索结果中的多媒体资源进行排序。
需要说明的,本公开实施例所涉及的多媒体资源,可以包括视频、音频、图文等资源,本公开实施例此处不作具体限定。同时,在本公开实施例的后续描述中,以视频作为多媒体资源为例进行后续描述,音频以及图文等其他资源,可以参照后续描述。
排序装置11还可以向服务器12发送搜索结果中多媒体资源的排序结果。
服务器12用于接收用户的用户设备发送的搜索请求,并根据搜索请求中的搜索词,确定与搜索词相关的多媒体资源,并向排序装置11发送搜索词以及搜索结果中多媒体资源的标识。
同时,服务器12还用于接收排序装置11发送的排序结果,并向用户返回排序后的搜索结果。
需要说明的,排序装置11和服务器12可以为相互独立的设备,也可以集成于同一设备中,本发明对此不作具体限定。
当排序装置11和服务器12集成于同一设备时,排序装置11和服务器12之间的通信方式为该设备内部模块之间的通信。这种情况下,二者之间的通信流程与“排序装置11和服务器12之间相互独立的情况下,二者之间的通信流程”相同。
在本发明提供的以下实施例中,本发明以排序装置11和服务器12相互独立设置为例进行说明。
在实际应用中,本发明实施例提供的搜索结果的排序方法可以应用于排序装置,也可以应用于服务器,下面结合附图,以搜索结果的排序方法应用于排序装置为例,对本发明实施例提供的搜索结果的排序方法进行描述。
如图2所示,本公开实施例提供的搜索结果的排序方法包括下述S201-S204。
S201、排序装置获取当前搜索词以及与当前搜索词相关的多个多媒体资源。
作为一种可能的实现方式,排序装置从服务器中获取当前搜索词以及与当前搜索词相关的多个多媒体资源。
需要说明的,上述多个多媒体资源的数量为两个或者两个以上。当前搜索词为用户通过用户设备向服务器发送的搜索请求中的搜索词。
相应的,服务器在接收到搜索请求之后,从搜索请求中获取当前搜索词,并根据当前搜索词,确定与当前搜索词相关的多个多媒体资源,作为当前搜索词的搜索结果。
服务器确定与当前搜索词相关的多个多媒体资源的方法,具体可以采用搜索词与多媒体资源之间的相似度的方式,此处不再进行赘述。
作为另外一种可能的实现方式,排序装置从服务器中获取当前搜索词,并根据当前搜索词确定与当前搜索词相关的多个多媒体资源。
此步骤的具体实施方式可以参照服务器的上述步骤,此处不再进行赘述,不同之处在于执行主体不同。
S202、排序装置分别确定当前搜索词的搜索词特征以及每个多媒体资源的资源特征。
其中,一个搜索词的搜索词特征用于唯一标识一个搜索词。一个多媒体资源的资源特征用于唯一标识一个多媒体资源。
可以理解的,当前搜索词的搜索词特征用于标识当前搜索词,多媒体资源的资源特征用于唯一标识多媒体资源。
此步骤的具体实施方式,可以参照本公开实施例的后续描述,此处不再进行赘述。
S203、排序装置根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测每个多媒体资源的点击率。
其中,预测模型为根据样本搜索词、样本搜索词相关的多个样本多媒体资源以及每个样本多媒体资源的样本操作记录训练得到的。样本操作记录用于表征用户在历史时间段搜索样本搜索词时,每个样本多媒体资源的点击率。一个多媒体资源的点击率用于反应该一个多媒体资源被用户点击的概率。
作为一种可能的实现方式,排序装置将当前搜索词的搜索词特征、每个多媒体资源的资源特征输入预先训练好的预测模型,以得到每个多媒体资源的点击率。
此步骤的具体实现方式,可以参照本公开实施例的后续描述,此处不再进行赘述。
S204、排序装置根据每个多媒体资源的点击率,对多个多媒体资源排序。
作为一种可能的实现方式,排序装置根据多个多媒体资源中每个多媒体资源的点击率的大小,对多个多媒体资源排序。
本公开提供的技术方案至少带来以下有益效果:能够根据当前搜索词的当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,可以确定每个多媒体资源的点击率。由于该预测模型为根据样本搜索词、样本搜索词相关的多个样本多媒体资源以及每个样本多媒体资源的样本操作记录训练得到的,且样本操作记录用于表征用户在历史时间段搜索样本搜索词时,每个样本多媒体资源的点击率,这样一来,就能够在不存在后验行为数据的情况下,预测得到多媒体资源的点击率,并参与多媒体资源的排序,可以使得向用户返回的搜索结果更加准确。
在一种设计中,为了能够确定通过预测模型,预测得到每个多媒体资源的点击率,如图3所示,本公开实施例提供的S203,具体包括下述S2031-S2032。
S2031、排序装置根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测每个多媒体资源的关注度以及满意度。
其中,关注度用于反映用户对不同多媒体资源执行点击操作的先后次序,满意度用于反映用户对每个多媒体资源的满意类信息的反馈操作。
可以理解的,一个多媒体资源的关注度还用于表征该一个多媒体资源在不同搜索词下对用户的吸引程度,一个多媒体资源的关注度与该一个多媒体资源在搜索结果中被用户执行点击操作的先后次序成正比,即一个多媒体资源的关注度越高,该一个多媒体资源就越容易先被用户点击。
上述满意类信息具体可以包括播放时长、是否点赞、是否关注等信息,一个多媒体资源的满意度与用户对该一个多媒体资源的反馈操作相关,即一个多媒体资源的满意度越高,则该一个多媒体资源越容易被用户点赞、关注或长时间播放。
需要说明的,上述关注度以及满意度,均为大于等于0,且小于等于1的数值。
作为一种可能的实现方式,排序装置根据当前搜索词的搜索词特征,以及每个多媒体资源的资源特征,确定每个多媒体资源的融合特征,并将每个多媒体资源的融合特征输入到预测模型中,以得到每个多媒体资源的关注度以及满意度。
其中,融合特征包括将当前搜索词的搜索词特征,以及每个多媒体资源的资源特征拼接后得到的融合特征。
此步骤中的具体实现方式,可以参照本公开实施例的后续描述,此处不再进行赘述。
S2032、排序装置根据每个多媒体资源的关注度以及满意度,确定每个多媒体资源的点击率。
作为一种可能的实现方式,排序装置确定每个多媒体资源的关注度以及满意度的乘积,为每个多媒体资源的点击率。
本公开提供的技术方案至少带来以下有益效果:考虑到搜索词的搜索词特征、多媒体资源的资源特征分别与关注度以及满意度之间的相关性,能够根据当前搜索词的当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测得到每个多媒体资源的关注度以及满意度,进而可以确定每个多媒体资源的点击率。这样一来,可以保证通过预测模型预测得到的点击率更加准确。
为了能够确定当前搜索词的搜索词特征,本公开实施例提供了以下至少一种确定当前搜索词的搜索词特征的方法。
在一种设计中,本公开实施例提供的当前搜索词的搜索词特征可以为当前搜索词的文本特征。
具体的,排序装置将当前搜索词输入到预设的文本模型中,由文本模型对当前搜索词进行语义分析,以得到当前搜索词的文本特征。
示例性的,上述预设的文本模型可以为中文词向量模型(chinese word2vector),当前搜索词的文本特征可以为文本向量。
在一种设计中,本公开实施例提供的当前搜索词的搜索词特征也可以为当前搜索词的标识的嵌入特征。
具体的,排序装置在获取当前搜索词之后,确定当前搜索词的在上述预测模型中的标识,并将当前搜索词的标识输入到预设的词向量模型中,以通过词向量模型对当前搜索词的标识进行嵌入处理,以获取词向量模型输出的当前搜索词的标识的嵌入特征。
可以理解的,该词向量模型能够通过词嵌入方式得到当前搜索词的标识的词向量,从而能够将搜索词的标识转换成计算机可处理的向量形式,提升了搜索词的可处理性和表达能力。
示例性的,上述预设的词向量模型可以为词嵌入模型(word embedding),当前搜索词的标识的嵌入特征可以为嵌入向量。
在一种设计中,为了使得当前搜索词的搜索词特征能够全面的反映当前搜索词的特征,本公开实施例提供的当前搜索词的搜索词特征还可以为将当前搜索词的文本特征与当前搜索词的标识的嵌入特征拼接后得到的。
具体的,排序装置在确定当前搜索词的文本特征以及当前搜索词的标识的嵌入特征之后,将当前搜索词的文本特征与当前搜索词的标识的嵌入特征进行拼接合并,以得到当前搜索词的搜索词特征。
需要说明的,在文本特征与嵌入特征进行拼接合并的过程中,本公开实施例对文本特征与嵌入特征在当前搜索词的搜索词特征之中的先后顺序不做限定。
示例性的,在文本特征为文本向量,嵌入特征为嵌入向量的情况下,上述当前搜索词的文本特征可以为[a,b,c],上述当前搜索词的标识的嵌入特征为[d,e,f,g],则将当前搜索词的文本特征与当前搜索词的标识的嵌入特征拼接合并后得到的当前搜索词的搜索词特征可以为[a,b,c,d,e,f,g]。
需要说明的,上述确定当前搜索词的搜索词特征的方式,还可以适用于后续在预测模型的训练过程中,确定样本搜索词的搜索词特征的步骤中,本公开实施例后续不再进行赘述。
本公开提供的技术方案至少带来以下有益效果:将当前搜索词的文本特征与当前搜索词的标识的嵌入特征拼接,得到当前搜索词的搜索词特征,可以保证确定到的搜索词特征能够唯一、且全面的标识该当前搜索词。
为了能够确定多媒体资源的资源特征,本公开实施例提供了以下至少一种确定多媒体资源的资源特征的方法。
在一种设计中,本公开实施例提供的多媒体资源的资源特征可以为多媒体资源的描述的文本特征。
具体的,排序装置将多媒体资源的描述输入到预设的文本模型中,由文本模型对多媒体资源的描述进行语义分析,以得到多媒体资源的描述的文本特征。
需要说明的,多媒体资源的描述,可以为多媒体资源的内容中的描述,也可以为多媒体资源的封面上的描述。
示例性的,上述预设的文本模型可以为中文词向量模型(chinese word2vector),多媒体资源的描述的文本特征可以为文本向量。
在一种设计中,本公开实施例提供的多媒体资源的资源特征也可以为多媒体资源的图像特征。
具体的,排序装置将多媒体资源输入预设的卷积神经网络中,由卷积神经网络将多媒体资源进行处理,以获取多媒体资源的图像特征。
可以理解的,多媒体资源的图像特征为多媒体资源所包括的图像帧的图像特征。
在一种设计中,本公开实施例提供的多媒体资源的资源特征也可以为多媒体资源的标识的嵌入特征。
具体的,排序装置在获取多媒体资源之后,确定多媒体资源的在上述预测模型中的标识,并将多媒体资源的标识输入到预设的词向量模型中,以通过词向量模型对多媒体资源的标识进行嵌入处理,以获取词向量模型输出的多媒体资源的标识的嵌入特征。
可以理解的,该词向量模型能够通过词嵌入方式得到多媒体资源的标识的词向量,从而能够将搜索词的标识转换成计算机可处理的向量形式,提升了搜索词的可处理性和表达能力。
示例性的,上述预设的词向量模型可以为词嵌入模型(word embedding),多媒体资源的标识的嵌入特征可以为嵌入向量。
在一种设计中,为了使得多媒体资源的资源特征能够全面的反映多媒体资源的特征,本公开实施例提供的多媒体资源的资源特征还可以为将每个多媒体资源的描述的文本特征、每个多媒体资源的图像特征以及每个多媒体资源的标识的嵌入特征中的至少两个拼接后得到的。
具体的,排序装置在确定多媒体资源的描述的文本特征、多媒体资源的图像特征以及多媒体资源的标识的嵌入特征之后,将多媒体资源的描述的文本特征、多媒体资源的图像特征以及多媒体资源的标识的嵌入特征中的至少两个进行拼接合并,以得到多媒体资源的资源特征。
需要说明的,在文本特征,和\或,图像特征,和\或嵌入特征进行拼接合并的过程中,本公开实施例对文本特征、图像特征以及嵌入特征在多媒体资源的资源特征之中的先后顺序不做限定。
示例性的,在文本特征为文本向量,图像特征、嵌入特征为嵌入向量的情况下,上述多媒体资源的描述的文本特征可以为[1,2,3,4],上述多媒体特征的图像特征可以为[3,1,4,2]上述多媒体资源的标识的嵌入特征为[3,5,3,2],则将多媒体资源的描述的文本特征、多媒体资源的图像特征以及多媒体资源的标识的嵌入特征拼接合并后得到的多媒体资源的资源特征可以为[1,2,3,4,3,1,4,2,3,5,3,2]。
本公开提供的技术方案至少带来以下有益效果:由于多媒体资源的资源特征为将多媒体资源的描述的文本特征、多媒体资源的图像特征以及多媒体资源的标识的嵌入特征中的至少两个进行拼接合并得到的,因此可以保证确定到的资源特征能够唯一、且全面的标识该多媒体资源。
在一种设计中,为了能够预测得到每个多媒体资源的关注度以及满意度,如图4所示,本公开实施例提供的S2031,具体可以包括下述S301-S302。
S301、排序装置根据当前搜索词的搜索词特征,以及每个多媒体资源的资源特征,确定每个多媒体资源的融合特征。
其中,第一融合特征包括将当前搜索词的搜索词特征,以及每个多媒体资源的资源特征拼接后得到的融合特征。
作为一种可能的实现方式,排序装置将当前搜索词的搜索词特征,以及每个多媒体资源的资源特征进行拼接合并,以得到每个多媒体资源的融合特征。
此步骤中对搜索词特征以及资源特征进行拼接合并的具体实现方式,可以参照本公开实施例中上述对特征向量的拼接合并,此处不再进行赘述,不同之处在于拼接的对象不同。
在一些实施例中,如图5所示,本公开实施例还示出了此步骤S301的另外一种实现方式,具体如下S3011-S3012。
S3011、排序装置将当前搜索词的搜索词特征以及每个多媒体资源的资源特征进行交叉处理,以得到每个多媒体资源与当前搜索词的交叉特征。
其中,交叉特征用于反应当前搜索词与每个多媒体资源之间的相关性。
示例性的,上述交叉特征可以为上述当前搜索词的搜索词特征与每个多媒体资源的资源特征之间的组合交叉。
此步骤的具体实现方式,可以参照现有技术中对于特征向量的组合的实现方式,此处不再进行赘述。
S3012、排序装置将当前搜索词的搜索词特征、每个多媒体资源的资源特征以及每个多媒体资源对应的交叉特征拼接,以得到每个多媒体资源的融合特征。
作为一种可能的实现方式,此步骤的实现方式,具体可以参照本公开实施例中上述对于特征向量的拼接方式,不同之处在于拼接的对象不同,此处不再进行赘述。
本公开提供的技术方案至少带来以下有益效果:将当前搜索词的搜索词特征与多媒体资源的资源特征进行交叉处理,并将搜索词特征、资源特征以及交叉处理得到的交叉特征拼接为多媒体资源的融合特征,由于交叉处理得到的交叉特征反映了搜索词与多媒体资源之间的相关性,这样得到的融合特征之中还包括了当前搜索词与多媒体资源之间的相关性,可以保证确定到的融合特征更为全面。
S302、排序装置将每个多媒体资源的融合特征输入到预测模型中,以得到每个多媒体资源的关注度以及满意度。
作为一种可能的实现方式,排序装置分别将每个多媒体资源的融合特征输入到预测模型中,以获取预测模型输出的每个多媒体资源的关注度以及满意度。
本公开提供的技术方案至少带来以下有益效果:将每个多媒体资源的融合特征输入到预测模型中,可以得到每个多媒体资源的关注度以及满意度,由于融合特征包括将当前搜索词的搜索词特征,以及每个多媒体资源的资源特征拼接后得到的融合特征,即融合特征中既包括当前搜索词的搜索词特征,还包括多媒体资源的资源特征,能够从搜索词与多媒体资源多维度考虑对关注度及满意度的影响,从而可以使得预测得到的关注度及满意度更加准确。
在一种设计中,由于预测模型为预先训练好的,为了能够训练得到该预测模型,如图6所示,本公开实施例提供的搜索结果的排序方法,还包括下述S401-S402。
S401、排序装置获取多组训练样本。
其中,每组训练样本包括一个样本搜索词的搜索词特征、与样本搜索词匹配的样本多媒体资源的资源特征,以及样本多媒体资源的样本关注度以及样本满意度。
作为一种可能的实现方式,排序装置从服务器中获取不同用户在历史时长内请求过的样本搜索词,以及每个样本搜索词的搜索词特征、与每个样本搜索词匹配的样本多媒体资源的资源特征,以及样本多媒体资源的样本关注度以及样本满意度。
需要说明的,此步骤中获取每个样本多媒体资源的样本关注度可以根据用户在历史长时内对样本搜索词对应的搜索结果中的样本多媒体资源的点击操作确定得到的。每个样本多媒体资源的样本满意度,可以根据用户在历史时长内对该样本多媒体资源的播放时长、是否点赞、是否关注等操作,确定得到的。
此步骤中,排序装置获取样本搜索词的搜索词特征的实现方式,可以参照本公开上述实施例中排序装置获取当前搜索词的搜索词特征的实现方式,此处不再进行赘述,不同之处在于获取的搜索词特征的对象不同。
同时,此步骤中,排序装置获取样本多媒体资源的资源特征的实现方式,可以参照本公开上述实施例中排序装置获取多个多媒体资源的资源特征的实现方式,此处不再进行赘述,不同之处在于获取的多媒体资源特征的对象不同。
S402、排序装置根据获取到的训练样本对初始预测模型进行迭代训练,以得到预测模型。
作为一种可能,排序装置根据获取到的训练样本,对初始预测模型进行迭代训练,直至训练至拟合,以得到训练好的预测模型。
此步骤的具体实施方式,可以参照本公开实施例后续描述,此处不再进行赘述。
本公开提供的技术方案至少带来以下有益效果:能够根据样本数据对初始预测模型进行迭代训练,以得到训练好的预测模型。由于样本数据中的学生集为样本搜索词的搜索词特征以及样本多媒体资源的资源特征,教师集为多媒体资源的样本关注度和样本满意度。这样一来,训练好的预测模型中即包括了搜索词、多媒体资源与关注度、满意度之间的拟合关系,可以确保预测得到的关注度及满意度更加准确。
在一种设计中,为了能够训练得到拟合的预测模型,如图7所示,本公开实施例提供的S402,具体包括下述S4021-S4024。
S4021、排序装置根据样本搜索词的搜索词特征、样本多媒体资源的资源特征以及初始预测模型,预测得到样本多媒体资源的预估关注度以及预估满意度。
其中,预估关注度为预测得到的关注度,预估满意度为预测得到的满意度。
作为一种可能的实现方式,排序装置可以将样本搜索词的搜索词特征以及样本多媒体资源的资源特征进行拼接,以得到样本融合特征,并将样本融合特征输入到初始预测模型中,以预测得到预估关注度以及预估满意度。
此步骤的具体实现方式,可以参照本公开实施实例上述拼接得到融合特征的描述,此处不再进行赘述。
作为另一种可能的实现方式,排序装置可以将样本搜索词的搜索词特征以及样本多媒体资源的资源特征进行交叉处理,以得到样本交叉特征,并将样本搜索词的搜索词特征、样本多媒体资源的资源特征以及进行样本交叉特征拼接合并,以得到样本融合特征,并将样本融合特征输入到初始预测模型中,以预测得到预估关注度以及预估满意度。
此步骤的具体实现方式,可以参照本公开实施实例上述拼接得到融合特征的描述,此处不再进行赘述。
S4022、排序装置根据样本多媒体资源的预估关注度,以及样本多媒体资源的样本关注度,确定初始预测模型的关注度损失。
作为一种可能的实现方式,排序装置可以确定样本多媒体资源的预估忽略度以及样本多媒体资源的样本忽略度,并进一步根据样本多媒体资源的预估关注度、样本多媒体资源的预估忽略度、样本多媒体资源的样本关注度以及样本多媒体资源的样本忽略度,确定初始预测模型的关注度损失。
其中,样本多媒体资源的预估忽略度与样本多媒体资源的预估关注度负相关。样本多媒体资源的样本忽略度与样本多媒体资源的样本关注度负相关。
此步骤的具体实现方式,可以参照本公开实施例的后续描述,此处不再进行赘述。
S4023、排序装置根据样本多媒体资源的预估满意度,以及样本多媒体资源的样本满意度,确定初始预测模型的满意度损失。
作为一种可能的实现方式,排序装置可以确定样本多媒体资源的预估排斥度以及样本多媒体资源的样本排斥度,并进一步的根据样本多媒体资源的预估满意度、样本多媒体资源的预估排斥度、样本多媒体资源的样本满意度以及样本多媒体资源的样本排斥度,确定初始预测模型的满意度损失。
其中,样本多媒体资源的预估排斥度与样本多媒体资源的预估满意度负相关。样本多媒体资源的样本排斥度与样本多媒体资源的样本满意度。
此步骤的具体实现方式,可以参照本公开实施例的后续描述,此处不再进行赘述。
需要说明的,本公开实施例在具体实现过程中,可以先执行S4022、后执行S4023,也可以先执行S4023,后执行S4022,还可以同时执行S4022以及S4023,本公开实施例对此不做限定。
S4024、排序装置根据初始预测模型的关注度损失以及初始预测模型的满意度损失,对初始预测模型进行优化,以得到预测模型。
作为一种可能的实现方式,排序装置确定初始预测模型的关注度损失与初始预测模型的满意度损失之和为初始预测模型的总体损失,并根据总体损失,对初始预测模型进行反向传播优化,以得到预测模型。
需要说明的,此步骤中根据总体损失对初始预测模型进行优化的方式,可以参照反向传播中的随机梯度下降法(stochastic gradient descent,SGD)中的描述,此处不再进行赘述。
本公开提供的技术方案至少带来以下有益效果:能够通过相应的关注度损失以及满意度损失来对初始预测模型进行反向传播优化,可以保证初始预测模型在拟合过程中的准确性。
在一些设计中,为了能够确定初始预测模型的关注度损失,本公开实施例提供的上述S4022,具体包括下述501-S503。
S501、排序装置根据样本多媒体资源的预估关注度,确定样本多媒体资源的预估忽略度。
其中,样本多媒体资源的预估忽略度与样本多媒体资源的预估关注度负相关。预估忽略度用于表示预测得到的用户未对样本多媒体资源点击的概率。
作为一种可能的实现方式,排序装置可以将1与预估关注度的差值作为样本多媒体资源的预估忽略度。
S502、排序装置根据样本多媒体资源的样本关注度,确定样本多媒体资源的样本忽略度。
其中,样本多媒体资源的样本忽略度与样本多媒体资源的样本关注度负相关。样本多媒体资源的样本忽略度用于表示用户未对样本多媒体资源进行关注的概率。
作为一种可能的实现方式,排序装置可以将1与样本多媒体资源的样本关注度的差值,确定为样本多媒体资源的样本忽略度。
S503、排序装置根据样本多媒体资源的预估关注度、样本多媒体资源的预估忽略度、样本多媒体资源的样本关注度以及样本多媒体资源的样本忽略度,确定初始预测模型的关注度损失。
作为一种可能的实现情况,排序装置确定每个样本多媒体资源的预估关注度的对数值以及预估忽略度的对数值,并分别计算第一乘积以及第二乘积。
其中,第一乘积为每个样本多媒体资源的预估关注度的对数值与样本关注度的积,第二乘积为每个样本多媒体资源的预估忽略度的对数值与样本忽略度的积。
进一步的,排序装置根据计算得到的第一乘积以及第二乘积,计算得到初始预测模型的关注度损失。
在一些实施例中,初始预测模型的关注度损失满足以下公式一:
Figure BDA0003329986590000171
其中,lossattractive为初始预测模型的关注度损失,
Figure BDA0003329986590000181
为样本多媒体资源中第i个多媒体资源的样本关注度,p为第i个样本多媒体资源的预估关注度,
Figure BDA0003329986590000182
为第一乘积,
Figure BDA0003329986590000183
为第i个样本多媒体资源的样本忽略度,1-p为第i个样本多媒体资源的预估忽略度,
Figure BDA0003329986590000184
为第二乘积。
本公开提供的技术方案至少带来以下有益效果:通过上述公式,能够给出一种确定初始预测模型的关注度损失的具体实现方式,可以确保能够计算得到关注度损失。
在一些设计中,为了能够确定初始预测模型的满意度损失,本公开实施例提供的上述S4023,具体包括下述601-S603。
S601、排序装置根据样本多媒体资源的预估满意度,确定样本多媒体资源的预估排斥度。
其中,样本多媒体资源的预估排斥度与样本多媒体资源的预估满意度负相关。预估排斥度用于表示预测得到的用户未对样本多媒体资源满意的概率。
作为一种可能的实现方式,排序装置可以将1与预估满意度的差值作为样本多媒体资源的预估排斥度。
S602、排序装置根据样本多媒体资源的样本满意度,确定样本多媒体资源的样本排斥度。
其中,样本多媒体资源的样本排斥度与样本多媒体资源的样本满意度负相关。样本多媒体资源的样本排斥度用于表示用户未对样本多媒体资源满意的概率。
作为一种可能的实现方式,排序装置可以将1与样本多媒体资源的样本满意度的差值,确定为样本多媒体资源的样本排斥度。
S603、排序装置根据样本多媒体资源的预估满意度、样本多媒体资源的预估排斥度、样本多媒体资源的样本满意度以及样本多媒体资源的样本排斥度,确定初始预测模型的满意度损失。
作为一种可能的实现情况,排序装置确定每个样本多媒体资源的预估满意度的对数值以及预估排斥度的对数值,并分别计算第三乘积以及第四乘积。
其中,第三乘积为每个样本多媒体资源的预估满意度的对数值与样本满意度的积,第四乘积为每个样本多媒体资源的预估排斥度的对数值与样本排斥度的积。
进一步的,排序装置根据计算得到的第三乘积以及第四乘积,计算得到初始预测模型的满意度损失。
在一些实施例中,初始预测模型的关注度损失满足以下公式二:
Figure BDA0003329986590000191
其中,losssatisfy为初始预测模型的满意度损失,
Figure BDA0003329986590000192
为样本多媒体资源中第i个样本多媒体资源的样本满意度,q为第i个样本多媒体资源的预估满意度,
Figure BDA0003329986590000193
为第三乘积,
Figure BDA0003329986590000194
为第i个多媒体资源的样本排斥度,1-q为第i个多个媒体资源的预估排斥度,
Figure BDA0003329986590000195
为第四乘积。
本公开提供的技术方案至少带来以下有益效果:通过上述公式,能够给出一种确定初始预测模型的满意度损失的具体实现方式,可以确保能够计算得到满意度损失。
图8是根据一示例性实施例示出的一种搜索结果的排序装置的结构示意图。参照图8所示,本公开实施例提供的搜索结果的排序装置70,包括获取单元701、预测单元702以及排序单元703。
获取单元701,用于获取当前搜索词以及与当前搜索词相关的多个多媒体资源。
预测单元702,用于根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测每个多媒体资源的点击率。当前搜索词的搜索词特征用于标识当前搜索词,预测模型为根据样本搜索词、样本搜索词相关的多个样本多媒体资源以及每个样本多媒体资源的样本操作记录训练得到的。样本操作记录用于表征用户在历史时间段搜索样本搜索词时,每个样本多媒体资源的点击率。
排序单元703,用于根据每个多媒体资源的点击率,对多个多媒体资源排序。
可选的,如图8所示,本公开实施例提供的预测单元702,具体用于:
根据当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预测模型,预测每个多媒体资源的关注度以及满意度。关注度用于反映用户对不同多媒体资源执行点击操作的先后次序,满意度用于反映用户对每个多媒体资源的满意类信息的反馈操作。
根据每个多媒体资源的关注度以及满意度,确定每个多媒体资源的点击率。
可选的,如图8所示,本公开实施例提供的预测单元702,具体用于:
根据当前搜索词的搜索词特征,以及每个多媒体资源的资源特征,确定每个多媒体资源的融合特征。融合特征包括将当前搜索词的搜索词特征,以及每个多媒体资源的资源特征拼接后得到的特征。
将每个多媒体资源的融合特征输入到预测模型中,以得到每个多媒体资源的关注度以及满意度。
可选的,如图8所示,本公开实施例提供的预测单元702,具体用于:
将当前搜索词的搜索词特征以及每个多媒体资源的资源特征进行交叉处理,以得到每个多媒体资源与当前搜索词的交叉特征。
将当前搜索词的搜索词特征、每个多媒体资源的资源特征以及每个多媒体资源对应的交叉特征拼接,以得到每个多媒体资源的融合特征。
可选的,如图8所示,本公开实施例提供的当前搜索词的搜索词特征,为将当前搜索词的文本特征与当前搜索词的标识的嵌入特征拼接后得到的。
可选的,如图8所示,本公开实施例提供的每个多媒体资源的资源特征,为将每个多媒体资源的描述的文本特征、每个多媒体资源的图像特征以及每个多媒体资源的标识的嵌入特征中的至少两个拼接后得到的。
可选的,如图8所示,本公开实施例提供的排序装置70还包括训练单元704。
获取单元701,还用于获取多组训练样本。每组训练样本包括一个样本搜索词的搜索词特征、与样本搜索词匹配的样本多媒体资源的资源特征,以及样本多媒体资源的样本关注度以及样本满意度。
训练单元704,用于根据获取到的训练样本对初始预测模型进行迭代训练,以得到预测模型。
可选的,如图8所示,本公开实施例提供的训练单元704,具体用于:
根据样本搜索词的搜索词特征、样本多媒体资源的资源特征以及初始预测模型,预测得到样本多媒体资源的预估关注度以及预估满意度。
根据样本多媒体资源的预估关注度,以及样本多媒体资源的样本关注度,确定初始预测模型的关注度损失。
根据样本多媒体资源的预估满意度,以及样本多媒体资源的样本满意度,确定初始预测模型的满意度损失。
根据初始预测模型的关注度损失以及初始预测模型的满意度损失,对初始预测模型进行优化,以得到预测模型。
可选的,如图8所示,本公开实施例提供的训练单元704,具体用于:
根据样本多媒体资源的预估关注度,确定样本多媒体资源的预估忽略度。样本多媒体资源的预估忽略度与样本多媒体资源的预估关注度负相关。
根据样本多媒体资源的样本关注度,确定样本多媒体资源的样本忽略度。样本多媒体资源的样本忽略度与样本多媒体资源的样本关注度负相关。
根据样本多媒体资源的预估关注度、样本多媒体资源的预估忽略度、样本多媒体资源的样本关注度以及样本多媒体资源的样本忽略度,确定初始预测模型的关注度损失。
可选的,如图8所示,本公开实施例提供的训练单元704,具体用于:
确定每个样本多媒体资源的预估关注度的对数值以及每个样本多媒体资源的预估忽略度的对数值,并分别计算第一乘积以及第二乘积。第一乘积为每个样本多媒体资源的预估关注度的对数值与每个样本多媒体资源的样本关注度的积,第二乘积为每个样本多媒体资源的预估忽略度的对数值与每个样本多媒体资源的样本忽略度的积。
根据计算得到的第一乘积以及第二乘积,计算得到初始预测模型的关注度损失。
可选的,如图8所示,本公开实施例提供的训练单元704,具体用于:
根据样本多媒体资源的预估满意度,确定样本多媒体资源的预估排斥度。样本多媒体资源的预估排斥度与样本多媒体资源的预估满意度负相关。
根据样本多媒体资源的样本满意度,确定样本多媒体资源的样本排斥度。样本多媒体资源的样本排斥度与样本多媒体资源的样本满意度。
根据样本多媒体资源的预估满意度、样本多媒体资源的预估排斥度、样本多媒体资源的样本满意度以及样本多媒体资源的样本排斥度,确定初始预测模型的满意度损失。
可选的,如图8所示,本公开实施例提供的训练单元704,具体用于:
确定每个样本多媒体资源的预估满意度的对数值以及每个样本多媒体资源的预估排斥度的对数值,并分别计算第三乘积以及第四乘积。第三乘积为每个样本多媒体资源的预估满意度的对数值与每个样本多媒体资源的样本满意度的积,第四乘积为每个样本多媒体资源的预估排斥度的对数值与每个样本多媒体资源的样本排斥度的积。
根据计算得到的第三乘积以及第四乘积,计算得到初始预测模型的满意度损失。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是本公开提供的一种服务器的结构示意图。如图9,该服务器80可以包括至少一个处理器801以及用于存储处理器可执行指令的存储器803。其中,处理器801被配置为执行存储器803中的指令,以实现上述实施例中的搜索结果的排序方法。
另外,服务器80还可以包括通信总线802以及至少一个通信接口804。
处理器801可以是一个处理器(central processing units,CPU),微处理单元,ASIC,或一个或多个用于控制本公开方案程序执行的集成电路。
通信总线802可包括一通路,在上述组件之间传送信息。
通信接口804,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器803可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
其中,存储器803用于存储执行本公开方案的指令,并由处理器801来控制执行。处理器801用于执行存储器803中存储的指令,从而实现本公开方法中的功能。
作为一个示例,结合图7,搜索结果的排序装置50中的获取单元501、预测单元502、确定单元503、排序单元504以及训练单元505实现的功能与图9中的处理器801的功能相同。
在具体实现中,作为一种实施例,处理器801可以包括一个或多个CPU,例如图9中的CPU0和CPU1。
在具体实现中,作为一种实施例,服务器80可以包括多个处理器,例如图9中的处理器801和处理器807。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,服务器80还可以包括输出设备805和输入设备806。输出设备805和处理器801通信,可以以多种方式来显示信息。例如,输出设备805可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备806和处理器801通信,可以以多种方式接受用户的输入。例如,输入设备806可以是鼠标、键盘、触摸屏设备或传感设备等。
本领域技术人员可以理解,图9中示出的结构并不构成对服务器80的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
另外,本公开还提供一种计算机可读存储介质,当计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上述实施例所提供的搜索结果的排序方法。
另外,本公开还提供一种计算机程序产品,包括计算机指令,当计算机指令在服务器上运行时,使得服务器执行如上述实施例所提供的搜索结果的排序方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.一种搜索结果的排序方法,其特征在于,包括:
获取当前搜索词以及与所述当前搜索词相关的多个多媒体资源;
根据所述当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测所述每个多媒体资源的点击率,并根据所述每个多媒体资源的点击率,对所述多个多媒体资源排序;所述当前搜索词的搜索词特征用于标识所述当前搜索词,所述预测模型为根据样本搜索词、所述样本搜索词相关的多个样本多媒体资源以及每个样本多媒体资源的样本操作记录训练得到的;所述样本操作记录用于表征用户在历史时间段搜索所述样本搜索词时,所述每个样本多媒体资源的点击率。
2.根据权利要求1所述的搜索结果的排序方法,其特征在于,所述根据所述当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测所述每个多媒体资源的点击率,包括:
根据所述当前搜索词的搜索词特征、每个多媒体资源的资源特征以及所述预测模型,预测所述每个多媒体资源的关注度以及满意度;所述关注度用于反映用户对不同多媒体资源执行点击操作的先后次序,所述满意度用于反映用户对所述每个多媒体资源的满意类信息的反馈操作;
根据所述每个多媒体资源的关注度以及满意度,确定所述每个多媒体资源的点击率。
3.根据权利要求2所述的搜索结果的排序方法,其特征在于,所述根据所述当前搜索词的搜索词特征、每个多媒体资源的资源特征以及所述预测模型,预测所述每个多媒体资源的所述关注度以及所述满意度,包括:
根据所述当前搜索词的搜索词特征,以及所述每个多媒体资源的资源特征,确定所述每个多媒体资源的融合特征;所述融合特征包括将所述当前搜索词的搜索词特征,以及所述每个多媒体资源的资源特征拼接后得到的特征;
将所述每个多媒体资源的融合特征输入到所述预测模型中,以得到所述每个多媒体资源的所述关注度以及所述满意度。
4.根据权利要求3所述的搜索结果的排序方法,其特征在于,所述根据所述当前搜索词的搜索词特征,以及所述每个多媒体资源的资源特征,确定所述每个多媒体资源的融合特征,包括:
将所述当前搜索词的搜索词特征以及所述每个多媒体资源的资源特征进行交叉处理,以得到所述每个多媒体资源与所述当前搜索词的交叉特征;
将所述当前搜索词的搜索词特征、所述每个多媒体资源的资源特征以及所述每个多媒体资源对应的交叉特征拼接,以得到所述每个多媒体资源的所述融合特征。
5.根据权利要求1-4中任一项所述的搜索结果的排序方法,其特征在于,所述当前搜索词的搜索词特征,为将所述当前搜索词的文本特征与所述当前搜索词的标识的嵌入特征拼接后得到的。
6.根据权利要求1-4中任一项所述的搜索结果的排序方法,其特征在于,所述每个多媒体资源的资源特征,为将所述每个多媒体资源的描述的文本特征、所述每个多媒体资源的图像特征以及所述每个多媒体资源的标识的嵌入特征中的至少两个拼接后得到的。
7.一种搜索结果的排序装置,其特征在于,包括获取单元、预测单元以及排序单元;
所述获取单元,用于获取当前搜索词以及与所述当前搜索词相关的多个多媒体资源;
所述预测单元,用于根据所述当前搜索词的搜索词特征、每个多媒体资源的资源特征以及预先训练好的预测模型,预测所述每个多媒体资源的点击率;所述当前搜索词的搜索词特征用于标识所述当前搜索词,所述预测模型为根据样本搜索词、所述样本搜索词相关的多个样本多媒体资源以及每个样本多媒体资源的样本操作记录训练得到的;所述样本操作记录用于表征用户在历史时间段搜索所述样本搜索词时,所述每个样本多媒体资源的点击率;
所述排序单元,用于根据所述每个多媒体资源的点击率,对所述多个多媒体资源排序。
8.一种服务器,其特征在于,包括:处理器、用于存储所述处理器可执行的指令的存储器;其中,所述处理器被配置为执行指令,以实现所述权利要求1-6中任一项所述的搜索结果的排序方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如权利要求1-6中任一项所述的搜索结果的排序方法。
10.一种计算机程序产品,包括指令,其特征在于,所述计算机程序产品包括计算机指令,当所述计算机指令在服务器上运行时,使得所述服务器执行如权利要求1-6中任一项所述的搜索结果的排序方法。
CN202111277526.0A 2021-10-29 2021-10-29 一种搜索结果的排序方法、装置、设备以及存储介质 Pending CN113934872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111277526.0A CN113934872A (zh) 2021-10-29 2021-10-29 一种搜索结果的排序方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111277526.0A CN113934872A (zh) 2021-10-29 2021-10-29 一种搜索结果的排序方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN113934872A true CN113934872A (zh) 2022-01-14

Family

ID=79285083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111277526.0A Pending CN113934872A (zh) 2021-10-29 2021-10-29 一种搜索结果的排序方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113934872A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140351247A1 (en) * 2012-05-07 2014-11-27 Tencent Technology (Shenzhen) Company Limited Method and server for searching information
CN105354235A (zh) * 2015-10-08 2016-02-24 天脉聚源(北京)传媒科技有限公司 一种搜索结果处理方法及装置
CN109508394A (zh) * 2018-10-18 2019-03-22 青岛聚看云科技有限公司 一种多媒体文件搜索排序模型的训练方法及装置
CN112000822A (zh) * 2020-08-21 2020-11-27 北京达佳互联信息技术有限公司 多媒体资源排序方法、装置、电子设备及存储介质
CN112434134A (zh) * 2020-12-04 2021-03-02 中国科学院深圳先进技术研究院 搜索模型训练方法、装置、终端设备及存储介质
CN112749333A (zh) * 2020-07-24 2021-05-04 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140351247A1 (en) * 2012-05-07 2014-11-27 Tencent Technology (Shenzhen) Company Limited Method and server for searching information
CN105354235A (zh) * 2015-10-08 2016-02-24 天脉聚源(北京)传媒科技有限公司 一种搜索结果处理方法及装置
CN109508394A (zh) * 2018-10-18 2019-03-22 青岛聚看云科技有限公司 一种多媒体文件搜索排序模型的训练方法及装置
CN112749333A (zh) * 2020-07-24 2021-05-04 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN112000822A (zh) * 2020-08-21 2020-11-27 北京达佳互联信息技术有限公司 多媒体资源排序方法、装置、电子设备及存储介质
CN112434134A (zh) * 2020-12-04 2021-03-02 中国科学院深圳先进技术研究院 搜索模型训练方法、装置、终端设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GEORGES E. DUPRET ET AL.: "A user browsing model to predict search engine click data from past observations", 《PROCEEDINGS OF THE 31ST ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》, 31 July 2008 (2008-07-31), pages 331 - 338, XP058244119, DOI: 10.1145/1390334.1390392 *
茅锦丹: "隐式反馈场景下基于embedding向量的融合推荐算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 March 2021 (2021-03-15), pages 138 - 757 *
陈强: "电商搜索广告中语义理解和广告排序方法研究", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》, 15 April 2020 (2020-04-15), pages 084 - 7 *

Similar Documents

Publication Publication Date Title
CN110149540B (zh) 多媒体资源的推荐处理方法、装置、终端及可读介质
CN110781321B (zh) 一种多媒体内容推荐方法及装置
Hettiachchi et al. A survey on task assignment in crowdsourcing
CN109376267B (zh) 用于生成模型的方法和装置
CN109981785B (zh) 用于推送信息的方法和装置
US20210385510A1 (en) Live stream playback video generation method, device and apparatus
CN109165302A (zh) 多媒体文件推荐方法及装置
CN104782138A (zh) 识别缩略图图像以呈现视频
CN111783810B (zh) 用于确定用户的属性信息的方法和装置
CN111159563B (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
KR101725510B1 (ko) 사용자 성향을 고려한 소셜 이벤트 추천 방법 및 장치
RU2714594C1 (ru) Способ и система определения параметра релевантность для элементов содержимого
KR102244697B1 (ko) 인공지능 학습 데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업자 성향을 고려한 프로젝트 큐레이션 방법
CN110737824B (zh) 内容查询方法和装置
CN109255036B (zh) 用于输出信息的方法和装置
CN112328889A (zh) 推荐搜索词确定方法、装置、可读介质及电子设备
CN113971243A (zh) 应用于问卷调查的数据处理方法、***、设备及存储介质
CN110992127B (zh) 一种物品推荐方法及装置
CN112182281B (zh) 一种音频推荐方法、装置及存储介质
CN109636530B (zh) 产品确定方法、装置、电子设备及计算机可读存储介质
KR102368043B1 (ko) 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치 및 그 방법
CN109299351B (zh) 内容推荐方法和装置、电子设备及计算机可读介质
US20230316106A1 (en) Method and apparatus for training content recommendation model, device, and storage medium
CN113836388A (zh) 信息推荐方法、装置、服务器及存储介质
CN113934872A (zh) 一种搜索结果的排序方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination