CN116578725A - 一种搜索结果排序方法、装置、计算机设备和存储介质 - Google Patents

一种搜索结果排序方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN116578725A
CN116578725A CN202310539712.XA CN202310539712A CN116578725A CN 116578725 A CN116578725 A CN 116578725A CN 202310539712 A CN202310539712 A CN 202310539712A CN 116578725 A CN116578725 A CN 116578725A
Authority
CN
China
Prior art keywords
result
document
search
click rate
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310539712.XA
Other languages
English (en)
Inventor
彭宗徽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202310539712.XA priority Critical patent/CN116578725A/zh
Publication of CN116578725A publication Critical patent/CN116578725A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种搜索结果排序方法、装置、计算机设备和存储介质,其中,该方法包括:获取与搜索词相匹配的搜索结果,搜索结果包括第一体裁的各第一结果和除第一体裁以外的第二体裁下的至少一个第二结果;第二结果中包括至少一个结果文档;针对第二结果中的任一结果文档,根据结果文档的文本属性信息、结果文档在多个预设特征维度下的维度信息、搜索词以及搜索词的来源信息,确定结果文档对应的文档特征;根据第二结果中的各结果文档的文档特征,确定第二结果对应的文档关联特征;根据各个第二结果的文档关联特征和各第一结果的结果点击率,对第一结果和第二结果进行排序。

Description

一种搜索结果排序方法、装置、计算机设备和存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种搜索结果排序方法、装置、计算机设备和存储介质。
背景技术
在搜索软件中进行搜索时,往往能够搜索到多种体裁的搜索结果,其中,多种体裁的搜索结果可以包括搜索软件对应的核心体裁下自然搜索结果以及其他体裁的其他搜索结果。例如,针对视频软件而言,核心体裁为视频体裁,其他体裁例如文字体裁、卡片体裁等,自然搜索结果往往为搜索到的视频,其他搜索结果往往为各种卡片体裁的卡片。
在对各种体裁的搜索结果进行展示时,搜索结果的排序,往往影响了搜索结果的使用率和用户的搜索体验。常规的排序方式大多为利用各搜索结果的历史点击率,对各搜索结果进行排序,但是,该排序方式存在排序结果合理性较差、排序结果不理想的问题,影响了搜索结果的使用率。
发明内容
本公开实施例至少提供一种搜索结果排序方法、装置、计算机设备和存储介质。
第一方面,本公开实施例提供了一种搜索结果排序方法,包括:
获取与搜索词相匹配的搜索结果,所述搜索结果包括第一体裁的各第一结果和除所述第一体裁以外的第二体裁下的至少一个第二结果;所述第二结果中包括至少一个结果文档;
针对所述第二结果中的任一所述结果文档,根据所述结果文档的文本属性信息、所述结果文档在多个预设特征维度下的维度信息、所述搜索词以及所述搜索词的来源信息,确定结果文档对应的文档特征;
根据所述第二结果中的各所述结果文档的文档特征,确定所述第二结果对应的文档关联特征;
根据各个所述第二结果的文档关联特征和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序。
在一种可能的实施方式中,所述根据所述第二结果中的各所述结果文档的文档特征,确定所述第二结果对应的文档关联特征,包括:
根据所述第二结果中的各所述结果文档的文档特征,确定各所述结果文档的上下文特征,并根据各所述上下文特征的均值特征,确定所述第二结果对应的文档关联特征;所述上下文特征用于表征所述第二结果中的各所述结果文档之间的关联信息和各所述结果文档。
在一种可能的实施方式中,所述根据各个所述第二结果的文档关联特征和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序,包括:
根据所述第二结果的文档关联特征,确定所述第二结果在第一体裁上的第一点击率和在所述第二结果对应的所述第二体裁上的第二点击率;
根据所述第一点击率和所述第二点击率,确定所述第二结果的目标点击率;
根据各所述第二结果的目标点击率和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序。
在一种可能的实施方式中,任一所述预设特征维度下的维度信息包括多个;
所述针对所述第二结果中的任一所述结果文档,根据所述结果文档的文本属性信息、所述结果文档在多个预设特征维度下的维度信息、所述搜索词以及所述搜索词的来源信息,确定结果文档对应的文档特征,包括:
根据所述结果文档在任一预设特征维度下的多个维度信息,确定该预设特征维度下的多个目标特征;
对预设特征维度下的所述多个目标特征进行拼接,得到该预设特征维度下的第一拼接特征;
对所述来源信息对应的来源特征、所述文本属性信息对应的文本属性特征、多个所述预设特征维度下的目标特征以及所述搜索词对应的搜索词特征进行拼接,得到第二拼接特征;
根据所述第一拼接特征和所述第二拼接特征,确定所述结果文档对应的所述文档特征。
在一种可能的实施方式中,所述搜索词特征包括所述搜索词对应的目标词特征和所述搜索词中的各个分词对应的分词特征;
所述根据所述第一拼接特征和所述第二拼接特征,确定所述结果文档对应的所述文档特征,包括:
根据所述目标词特征和所述文本属性特征之间的匹配度,确定第一匹配特征;
根据所述分词特征和所述文本属性特征之间的匹配度,确定第二匹配特征;
对所述第一拼接特征、所述第二拼接特征、所述第一匹配特征和所述第二匹配特征进行全连接处理,得到所述结果文档对应的所述文档特征。
在一种可能的实施方式中,所述第二体裁包括多个,所述方法还包括:
根据所述目标词特征和所述分词特征,确定所述搜索词在各个所述第二体裁下分别对应的意图分数;
根据各个所述第二体裁下分别对应的所述意图分数,确定所述搜索词对应的目标意图,所述目标意图用于指示与所述搜索词匹配度最高的第二体裁。
在一种可能的实施方式中,所述第一点击率和所述第二点击率为利用预先训练好的点击率预测模型输出的,所述点击率预测模型根据以下步骤训练得到:
获取样本搜索词以及与所述样本搜索词相匹配的样本结果;所述样本结果具有所述第二体裁且包括至少一个样本结果文档;
将所述样本结果中的各个所述样本结果文档、所述样本搜索词的样本来源信息和所述样本搜索词输入至待训练的点击率预测模型中,得到所述样本结果在第一体裁上对应的第一预测点击率和在所述第二体裁上对应的第二预测点击率;
根据所述第一预测点击率和所述样本结果对应的第一标准点击率,确定第一损失,以及,根据所述第二预测点击率和所述样本结果对应的第二标准点击率,确定第二损失;所述第一标准点击率根据与所述样本结果相匹配的目标结果是否被点击确定,所述目标结果具有所述第一体裁且包括所述样本结果中的关键信息;第二标准点击率根据所述样本结果是否被点击确定;
利用所述第一损失和所述第二损失,对所述待训练的点击率预测模型进行迭代训练,直至满足预设训练截止条件,得到训练好的点击率预测模型。
在一种可能的实施方式中,所述意图分数为利用预先训练好的意图预测模型输出的,所述意图预测模型根据以下步骤训练得到:
获取样本搜索词、以及与所述样本搜索词相匹配的样本结果;所述样本结果具有所述第二体裁;
将所述样本搜索词输入至待训练的意图预测模型中,得到所述样本搜索词在所述样本结果对应的第二体裁下的预测意图分数;
根据所述样本结果对应的标签分数和所述预测意图分数,确定第三损失;所述标签分数根据所述样本结果是否被点击确定;
利用所述第三损失,对所述待训练的意图预测模型进行迭代训练,直至满足预设训练截止条件,得到训练好的意图预测模型。
第二方面,本公开实施例还提供一种搜索结果排序装置,包括:
获取模块,用于获取与搜索词相匹配的搜索结果,所述搜索结果包括第一体裁的各第一结果和除所述第一体裁以外的第二体裁下的至少一个第二结果;所述第二结果中包括至少一个结果文档;
第一确定模块,用于针对所述第二结果中的任一所述结果文档,根据所述结果文档的文本属性信息、所述结果文档在多个预设特征维度下的维度信息、所述搜索词以及所述搜索词的来源信息,确定结果文档对应的文档特征;
第二确定模块,用于根据所述第二结果中的各所述结果文档的文档特征,确定所述第二结果对应的文档关联特征;
排序模块,用于根据各个所述第二结果的文档关联特征和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序。
第三方面,本公开可选实现方式还提供一种计算机设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
关于上述搜索结果排序装置、计算机设备、及计算机可读存储介质的效果描述参见上述搜索结果排序方法的说明,这里不再赘述。
本公开实施例提供的搜索结果排序方法、装置、计算机设备和存储介质,通过使用结果文档的文本属性以及多个预设特征维度下的维度信息,再结合搜索词以及对应的来源信息,可以实现利用多角度下的信息进行文档特征的确定,既能够提高确定出的文档特征所包括的信息的丰富性,又能够提高文档特征对结果文档进行表征的准确性。由于第二结果中存在的多个结果文档,对第二结果的排序可能产生影响,所以利用各结果文档的文档特征进行第二结果对应的文章关联特征的确定,可以充分考虑到结果文档之间的关联对第二结果的排序可能造成的影响,得到合理且准确的文章关联特征。最后利用文章关联特征对第二结果进行排序,可以实现对第二结果的排序优化,提高排序结果的合理性,进而有利于提高搜索结果的使用率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种搜索结果排序方法的流程图;
图2示出了本公开实施例所提供的一种搜索得到的用户卡片的示意图;
图3示出了本公开实施例所提供的一种搜索得到的音乐卡片的示意图;
图4示出了本公开实施例所提供的一种模型预测示意图;
图5示出了本公开实施例所提供的一种训练点击率预测模型的方法的流程图;
图6示出了本公开实施例所提供的一种训练意图预测模型的方法的流程图;
图7示出了本公开实施例所提供的一种搜索结果排序装置的示意图;
图8示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
另外,本公开实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
经研究发现,在对其他体裁的搜索结果进行排序时,例如,对包括多个结果文档的搜索结果卡片进行排序时,往往会将多个结果文档分别对应的历史点击率中的最大值,作为搜索结果卡片的历史点击率并利用该历史点击率对搜索结果卡片进行排序。但是,这样的点击率确定方式相当于把搜索结果卡片中的各个结果文档均作为一个独立的存在,忽略了结果文档之间的关联,既影响了确定出的点击率的准确性,又降低了对搜索结果卡片进行排序的合理性和准确性。
基于上述研究,本公开提供了一种搜索结果排序方法、装置、计算机设备和存储介质,通过使用结果文档的文本属性以及多个预设特征维度下的维度信息,再结合搜索词以及对应的来源信息,可以实现利用多角度下的信息进行文档特征的确定,既能够提高确定出的文档特征所包括的信息的丰富性,又能够提高文档特征对结果文档进行表征的准确性。由于第二结果中存在的多个结果文档,对第二结果的排序可能产生影响,所以利用各结果文档的文档特征进行第二结果对应的文章关联特征的确定,可以充分考虑到结果文档之间的关联对第二结果的排序可能造成的影响,得到合理且准确的文章关联特征。最后利用文章关联特征对第二结果进行排序,可以实现对第二结果的排序优化,提高排序结果的合理性,进而有利于提高搜索结果的使用率。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种搜索结果排序方法进行详细介绍,本公开实施例所提供的搜索结果排序方法的执行主体一般为具有一定计算能力的终端设备或其他处理设备,其中终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、个人数字助理设备(Personal Digital Assistant,PDA)、手持设备、计算机设备等;在一些可能的实现方式中,该搜索结果排序方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面以执行主体为计算机设备为例对本公开实施例提供的搜索结果排序方法加以说明。
如图1所示,为本公开实施例提供的一种搜索结果排序方法的流程图,可以包括以下步骤:
S101:获取与搜索词相匹配的搜索结果,搜索结果包括第一体裁的各第一结果和除第一体裁以外的第二体裁下的至少一个第二结果;第二结果中包括至少一个结果文档。
这里,搜索词可以为用户输入的搜索信息,搜索结果即为利用搜索引擎搜索到的与搜索词相匹配的结果。示例性的,用于可以在搜索软件中输入搜索查询(query)1,响应于接收到用户输入的搜索query1,获取与搜索query1相匹配的搜索结果。
搜索结果中可以包括第一体裁的一个或多个第一结果,和除第一体裁以外的第二体裁下的至少一个第二结果。第一体裁可以为搜索软件能提供的数据量最大的资源所具有的体裁,例如,视频搜索软件对应的第一体裁可以为视频体裁,新闻搜索软件对应的第一体裁可以为文章体裁。
第二体裁可以为除第一体裁以外的任一结果体裁,示例性的,在第一体裁为视频体裁的情况下,第二体裁可以为用户卡片体裁、音乐卡片体裁、话题标签卡片体裁、文章体裁等。在第一体裁为文章体裁的情况下,第二体裁可以为视频体裁、用户卡片体裁、音乐卡片体裁等。
针对每次搜索而言,获取到的搜索结果中包括的第二结果,往往是具有不同第二体裁的,也即,搜索结果中包括的各个第二结果分别对应的第二体裁之间,不存在体裁的重复。示例性的,在第一体裁为视频体裁的情况下,搜索结果可以包括多个视频结果、一个用户卡片体裁的用户卡片、一个音乐卡片体裁的音乐卡片。
针对每个第二结果而言,其中可以包括至少一个结果文档。示例性的,在第二结果为用户卡片的情况下,用户卡片中的一个结果文档可以是一个用户的文档信息,文档信息为授权获取的信息,例如可以包括用户头像、用户名称、用户标识、用户关注人数、用户作品数量等。如图2所示,为本公开实施例提供的一种搜索得到的用户卡片的示意图,其中包括3个用户的文档信息(即图2中的用户1对应的文档(doc)1、用户2对应的doc2和用户3对应的doc3)。在第二结果为音乐卡片的情况下,音乐卡片中的一个结果文档可以是一个音乐对应于不同演唱者下的音乐信息,音乐信息例如可以为音乐的版本信息、音乐的风格信息、音乐封面信息、音乐时长信息、使用人数信息等。如图3所示,为本公开实施例提供的一种搜索得到的音乐卡片的示意图,其中包括音乐A在三个演唱者下的音乐信息,即图3中对应于演唱者1的音乐信息1、对应于演唱者2的音乐信息2和对应于演唱者3的音乐信息3。在第二结果为话题标签卡片的情况下,话题标签卡片中的一个结果文档可以是一个话题标签卡片。
示例性的,可以响应于接收到搜索query,获取与搜索query相匹配的搜索结果,搜索结果中可以包括多个视频、一个用户卡片和一个音乐卡片。
S102:针对第二结果中的任一结果文档,根据结果文档的文本属性信息、结果文档在多个预设特征维度下的维度信息、搜索词以及搜索词的来源信息,确定结果文档对应的文档特征。
这里,文本属性信息用于表征文档的基础属性,例如可以包括文档的文本信息、标题信息、文本语言信息、文本长度信息等。预设特征维度的数量可以根据经验设置,本公开实施例不进行具体限定。示例性的,多个预设特征维度可以包括用户信息维度、话题标签信息维度、音乐内容维度、权威度维度等。维度信息可以为结果文档在预设特征维度下对应的信息,可理解的,结果文档在某一预设特征维度下的维度信息可以空。例如,在结果文档为用户卡片中的doc时,在话题标签信息维度和音乐内容维度下的维度信息均可以为空;在结果文档为音乐卡片中的音乐信息时,在用户信息维度、话题标签信息维度下的维度信息均可以为空。
搜索词的来源信息用于表征搜索词的来源,例如可以包括搜索方式信息(例如搜索词是否为主动搜索的搜索词、是否为推荐搜索词、是否为历史搜索词、是综合搜索频道下的搜索词还是垂搜频道下的搜索词)、搜索时间、搜索用户等信息。
文档特征用于表征结果文档在多角度下的文档信息,基于结果文档的文档特征,能够还原出完整的结果文档。
具体实施时,针对第二结果中的任一结果文档,可以根据结果文档的文档信息中的文档属性信息,生成结果文档对应的文本属性特征;根据结果文档的文档信息,确定结果文档在多个预设特征维度下分别对应的维度信息,然后可以根据每个预设特征维度下的维度信息,确定结果文档在每个预设特征维度下对应的维度特征。根据搜索词的文本信息,生成搜索词对应的搜索词特征,根据搜索词的来源信息,确定搜索词对应的来源特征。然后,可以根据文本属性特征、结果文档在每个预设特征维度下对应的维度特征、搜索词特征和来源特征,确定结果文档对应的文档特征。例如,可以对文本属性特征、各维度特征、搜索词特征和来源特征进行特征融合处理,再对融合后的结果进行卷积处理、全连接处理等,从而得到结果文档的文档特征。
或者,可以利用预先训练好的点击率预测模型,确定结果文档的文档特征。具体的,在确定出结果文档的文本属性信息、在多个预设特征维度下的维度信息、以及搜索词的来源信息后,可以文本属性信息、在多个预设特征维度下的维度信息、搜索词以及来源信息,输入至预先训练好的点击率预测模型,利用预先训练好的点击率预测模型对输入信息进行识别处理,从而得到结果文档的文档特征。其中,预先训练好的点击率预测模型为用于预测各个搜索结果对应的点击率的模型。
在一种实施例中,任一预设特征维度下的维度信息可以包括多个,也即可以预先在每个预设特征维度下设置多个子维度,然后,针对任一预设特征维度,可以根据结果文档的文档信息,获取到该结果文档在该预设特征维度下的每个子维度分别对应的维度信息,任一预设特征维度下的多个维度信息,即为该预设特征维度下的多个子维度分别对应的维度信息。
示例性的,在预设特征维度为用户信息维度的情况下,用户信息维度下的子维度可以包括用户名维度、用户关注人数维度、用户性别维度、用户年龄维度、用户作品数量维度、用户最新上线时间维度等,用户信息维度下的多个维度信息可以包括用户名、用户关注人数、用户性别、用户年龄、用户作品数量和用户最新上线时间等。可理解的,针对任一子维度,该子维度下的维度信息也可以为空。在预设特征维度为话题标签信息维度的情况下,话题标签信息维度下的子维度可以包括标签文本维度、标签主题维度、标签长度维度、标签使用量维度、标签发布时长维度等,话题标签信息维度下的多个维度信息可以包括标签文本、标签主题、标签长度、标签使用量和标签发布时长等。在预设特征维度为音乐内容维度的情况下,音乐内容维度下的子维度可以包括收藏量维度、播放量维度、音乐名称维度、音乐演唱者维度等,音乐内容维度下的多个维度信息可以包括音乐收藏量、音乐播放量、音乐名称和音乐演唱者维度等。
针对上述S102,还可以按照以下步骤实施:
S102-1:根据结果文档在任一预设特征维度下的多个维度信息,确定该预设特征维度下的多个目标特征。
这里,目标特征为结果文档在预设特征维度下的子维度所对应的文档特征,目标特征可以为子维度下的维度信息确定。预设特征维度下的维度特征可以包括该预设特征维度下的多个目标特征。
具体实施时,针对任一预设特征维度,可以利用点击率预测模型,根据结果文档的文档信息,确定结果文档在该预设特征维度下的多个子维度分别对应的维度信息。然后针对每个子维度,可以根据该子维度下的维度信息,生成该子维度对应的目标特征。如此,也即可以得到预设特征维度下的多个目标特征。
S102-2:对预设特征维度下的多个目标特征进行拼接,得到该预设特征维度下的第一拼接特征。
这里,第一拼接特征相对目标特征而言,特征表达的粒度更细腻。
具体实施时,针对每个预设特征维度下的多个目标特征,可以利用点击率预测模型,对每两个目标特征进行特征交互,得到交互后的特征。然后可以将得到的各个交互后的特征进行特征拼接处理,得到该预设特征维度下的第一拼接特征。
这样,通过对目标特征进行交互,可以将一阶的连续或离散的目标特征,转换为二阶的交互后的特征,再通过对交互后的特征进行特征拼接处理,可以得到表达能力更强、表达粒度更细的第一拼接特征。
S102-3:对来源信息对应的来源特征、文本属性信息对应的文本属性特征、多个预设特征维度下的目标特征以及搜索词对应的搜索词特征进行拼接,得到第二拼接特征。
这里,多个预设特征维度下的目标特征可以包括每个预设特征维度下的多个目标特征。第二拼接特征即为对来源特征、文本属性特征、目标特征和搜索词特征进行拼接后得到的特征,该特征包含有丰富的信息。
具体实施时,可以利用点击率预测模型,对来源信息对应的来源特征、文本属性信息对应的文本属性特征、每个预设特征维度下的多个目标特征以及搜索词对应的搜索词特征进行拼接,得到第二拼接特征。
S102-4:根据第一拼接特征和第二拼接特征,确定结果文档对应的文档特征。
示例性的,可以对第一拼接特征和第二拼接特征进行拼接处理,得到第三拼接特征,然后对第三拼接特征执行全连接处理、卷积处理、归一化处理中的一种或多种,从而得到结果文档对应的文档特征。
在一种实施例中,由于不同的搜索词往往具有不同的搜索意图,即使针对相同的搜索词,在不同时间或由不同用户进行搜索时,也可能不同,而对应的搜索意图与结果文档之间的匹配度,往往会影响着结果文档对应的第二结果的展示位置。所以为了进一步提高排序的准确性和合理性,还可以基于搜索词的搜索词特征与结果文档之间的匹配度,进行结果文档的文档特征的确定。具体的,搜索词特征可以包括搜索词对应的目标词特征和搜索词中的各个分词对应的分词特征。
这里,目标词特征可以为搜索词自身的特征,可以根据搜索词的文本信息和语义信息确定。搜索词中的各个分词具体可以为对搜索词进行分词处理后得到的各个词,分词特征即为各个分词的特征,可以根据分词的文本信息和语义信息确定。
进一步的,针对上述S102-4,可以按照以下步骤实施:
S102-4-1:根据目标词特征和文本属性特征之间的匹配度,确定第一匹配特征。
这里,第一匹配特征用于表征搜索词与结果文档之间的匹配度。
具体实施时,在得到搜索词对应的目标词特征和结果文档的文本属性特征之后,可以利用点击率预测模型,根据目标词特征和文本属性特征,确定两者之间的匹配度,然后,根据匹配度生成结果文档对应的第一匹配特征。
S102-4-2:根据分词特征和文本属性特征之间的匹配度,确定第二匹配特征。
这里,第二匹配特征用于表征搜索词对应的分词与结果文档之间的匹配度。第二匹配特征的数量,与搜索词对应的分词的数量一致。
具体实施时,在得到搜索词对应的各个分词的分词特征和结果文档的文本属性特征之后,针对每个分词,可以利用点击率预测模型,根据该分词的分词特征和文本属性特征,确定两者之间的匹配度。然后,根据该匹配度生成结果文档与该分词之间的第二匹配特征。
S102-4-3:对第一拼接特征、第二拼接特征、第一匹配特征和第二匹配特征进行全连接处理,得到结果文档对应的文档特征。
示例性的,可以利用点击率预测模型,对第一拼接特征、第二拼接特征、第一匹配特征和第二匹配特征进行拼接处理,得到拼接后的特征,然后可以再对拼接后的特征执行全连接处理,从而得到全连接处理后的特征。
可选的,也可以利用点击率预测模型,对第一拼接特征、第二拼接特征、第一匹配特征和第二匹配特征分别进行全连接处理,得到各个特征分别对应的全连接特征。然后,可以对各个全连接特征进行拼接处理,得到结果文档对应的文档特征。
在另一种实施例中,第二体裁可以包括多个,例如,在第一体裁为视频的情况下,第二体裁可以包括用户卡片体裁、音乐卡片体裁和话题标签卡片体裁。
针对搜索词而言,除可以利用搜索词确定结果文档的文档特征之外,还可以对搜索词对应的搜索意图进行预测。具体的,还可以按照如下步骤进行搜索意图的预测:
步骤一、根据目标词特征和分词特征,确定搜索词在各个第二体裁下分别对应的意图分数。
这里,一个第二体裁下的意图分数,用于表征搜索词具有搜索该第二体裁下的搜索结果的意图的概率,意图分数越高,搜索词搜索对应第二体裁下的搜索结果的意图越强烈,搜索对应第二体裁下的搜索结果的概率越高。
具体实施时,可以将搜索词输入至预先训练好的意图预测模型,利用意图预测模型对搜索词进行识别处理,得到搜索词对应的目标词特征;同时,可以利用意图预测模型对搜索词进行分词处理,再对得到的各个分词进行识别处理,得到各个分词对应的分词特征。然后,可以利用意图预测模型,对各分词特征和目标词特征进行特征识别处理,从而输出搜索词在各个第二体裁下对应的意图分数。
步骤二、根据各个第二体裁下分别对应的意图分数,确定搜索词对应的目标意图,目标意图用于指示与搜索词匹配度最高的第二体裁。
这里,目标意图即为搜索词对应的真实搜索意图,目标意图对应的第二体裁为与搜索词匹配度最高的第二体裁,目标意图对应的第二体裁下的搜索结果,可能为与搜索词匹配度最高的第二结果,
示例性的,在得到各个第二体裁下分别对应的意图分数之后,可以将最高的意图分数对应的第二体裁,作为与目标意图相匹配的第二体裁。也即,目标意图用于表征搜索词具有搜索意图分数最高的第二体裁下的搜索结果的意图。
需要说明的是,意图预测模型与点击率预测模型可以为解耦的两个模型。
在得到目标意图之后,可以根据一定时间段内的各个搜索词对应的目标意图,确定各种目标意图对应的搜索量,进而可以根据各种目标意图对应的搜索量,进行资源推荐。
S103:根据第二结果中的各结果文档的文档特征,确定第二结果对应的文档关联特征。
这里,文档关联特征不仅能够表征第二结果中的各结果文档对应的完整文档信息,还可以表征每两个第二结果之间的关联。
具体实施时,在获取到第二结果中的各个结果文档的文档特征之后,可以确定每个结果文档的文档特征与其他结果文档之间的关联特征,然后可以将各结果文档的文档特征和该结果文档对应的关联特征进行融合,得到各结果文档分别对应的融合后特征,然后,可以将各结果文档分别对应的融合后特征进行特征融合处理,得到第二结果对应的文档关联特征。
或者,在利用预先训练好的点击率预测模型,得到第二结果中的各个结果文档的文档特征之后,可以利用点击率预测模型中的transformer模型结构,对各个结果文档的文档特征进行特征识别处理,得到每个结果文档的文档特征与其他结果文档之间的关联特征,并将每个结果文档的文档特征与关联特征进行融合,得到每个结果文档对应的融合后特征并输出。其中,Transformer模型是一种神经网络,它通过跟踪序列数据中的关系来学习上下文并因此学习含义。之后,可以利用点击率预测模型对各结果文档对应的融合后特征进行特征融合,得到第二结果对应的文档关联特征。
在一种实施例中,针对S103,可以按照以下步骤实施:
根据第二结果中的各结果文档的文档特征,确定各结果文档的上下文特征,并根据各上下文特征的均值特征,确定第二结果对应的文档关联特征;上下文特征用于表征第二结果中的各结果文档之间的关联信息和各结果文档。
这里,一个结果文档可以对应于一个上下文特征,该上下文特征用于表征该结果文档与其他结果文档之间的关联信息以及该结果文档的完整文档信息。均值特征即为对各结果文档的上下文特征取均值后得到的特征。
具体实施时,在得到各结果文档的文档特征之后,可以将各个结果文档的文档特征组合成特征序列,输入至点击率预测模型中的transformer模型模块,然后利用transformer模型结构对特征序列中的各个文档特征进行特征识别处理,输出各结果文档的上下文特征。然后,可以将结果文档的上下文特征,一起输入至点击率预测模型中的均值处理模块,利用均值处理模块对各结果文档的上下文特征进行取均值操作,得到第二结果对应的文档关联特征。
可选的,在得到各个结果文档的上下文特征之后,还可以先对各上下文特征进行全连接处理,得到全连接后的上下文特征;再将全连接后的上下文特征一起输入至均值处理模块,得到第二结果对应的文档关联特征。
这样,由于transformer模型能够很好地学习到特征中的上下文信息,所以利用transformer模型对各结果文档的文档特征进行识别处理,能够得到准确的上下文特征。利用准确的上下文特征,能够得到第二结果对应的准确的文档关联特征。
S104:根据各个第二结果的文档关联特征和各第一结果的结果点击率,对第一结果和第二结果进行排序。
这里,第一结果的结果点击率可以为第一结果在预设历史时间段内的点击率。
具体实施时,可以根据第二结果的文档关联特征,确定各个第二结果的目标点击率。例如,可以利用点击率预测模型,根据第二结果的文档关联特征,输出第二结果的目标点击率。然后,可以按照点击率从高到底的顺序,根据各第一结果的结果点击率和各第二结果的目标点击率,对第一结果和第二结果进行排序。
在一种实施例中,针对上述S104,可以按照以下步骤实施:
S104-1:根据第二结果的文档关联特征,确定第二结果在第一体裁上的第一点击率和在第二结果对应的第二体裁上的第二点击率。
这里,第二结果对应的第二体裁,即为第二结果所具有的第二体裁。第一点击率用于表征第一体裁的搜索结果中,与第二结果具有相同主题对象的搜索结果的点击率。例如,在第二结果为用户卡片时,主题对象可以为用户卡片中的用户,与第二结果具有相同主题对象的搜索结果,可以为用户卡片中的用户上传的视频。例如,在第二结果为音乐卡片时,主题对象可以为音乐卡片中的音乐,与第二结果具有相同主题对象的搜索结果,可以为背景音乐为音乐卡片中的音乐的视频。再例如,在第二结果为话题标签卡片时,主题对象可以为话题标签卡片中的话题标签,与第二结果具有相同主题对象的搜索结果,可以为包括话题标签卡片中的话题标签的视频。
示例性的,在得到第二结果的文档关联特征之后,可以利用点击率预测模型中的mmoe模块,对文档关联特征进行特征识别,得到第二结果在第一体裁上的第一点击率和在第二结果所具有的第二体裁上的第二点击率。其中,mmoe模型是将m个带有门控结构的专家混合体(Mixture-of-Experts,简称moe)模块组合起来得到的,可以在学习每个任务时,除了共享信息之外,也有了更多的独立性。
S104-2:根据第一点击率和第二点击率,确定第二结果的目标点击率。
示例性的,可以将第一点击率和第二点击率的均值,作为第二结果的目标点击率。
或者,也可以将第一点击率和第二点击率的最大值,作为第二结果的目标点击率。
再或者,也可以为第一点击率和第二点击率设置不同的预设权重,然后,利用第一点击率对应的预设权重,对第一点击率进行加权处理,得到第一加权值;同时,可以利用第二点击率对应的预设权重,对第二点击率进行加权处理,得到第二加权值。然后,可以将第一加权值和第二加权值的和,作为目标点击率;或者可以将第一加权值和第二加权值中的最大值作为目标点击率。
如图4所示,为本公开实施例提供的一种模型预测示意图,具体的,session表示搜索词的来源信息对应的来源特征,query表示搜索词对应的目标词特征,query-vecs表示搜索词对应的分词的分词特征,doc表示结果文档。user表示在用户信息维度下的维度特征,其中可以包括用户信息维度下的多个目标特征;hashtag表示在话题标签信息维度下的维度特征,也可以包括话题标签信息维度下的多个目标特征;music表示音乐内容维度下的维度特征,也可以包括音乐内容维度下的多个目标特征。user-ffm表示用户信息维度下的第一拼接特征,hashtag-ffm表示话题标签信息维度下的第一拼接特征,music-ffm表示音乐内容维度下的第一拼接特征,wide-feats表示第二拼接特征,qd-match1表示第一匹配特征,qd-match2表示第二匹配特征。在第二结果中的结果文档包括3个的情况下,得到的文档特征可以包括3个,在图4中,doc-1表示第二结果中的第一个结果文档的文档特征,doc-2表示第二结果中的第二个结果文档的文档特征,doc-3表示第二结果中的第三个结果文档的文档特征。Transformer表示点击率预测模型中的transformer模型模块,mean模块表示均值处理模块,video-nobias表示第一点击率,card-nobias表示第二点击率,card-bias表示第三点击率,该第三点击率仅在训练过程中使用,用于消除第二结果的位置偏置信息和结果尺寸信息,对预测的第二点击率的准确性的影响。Bias-feats表示训练过程中使用的位置偏置信息对应的偏置特征,偏置特征可以包括位置偏置特征,和/或,结果尺寸信息对应的结果尺寸特征。由于第三点击率使用了位置偏置特征和结果尺寸特征,所以输出的第三点击率是带有偏置的,由于第二点击率为避免了位置偏置特征和结果尺寸特征的影响的点击率,所以第二点击率为不带有偏置的点击率。intent表示意图预测模型输出的搜索词在各个第二体裁下分别对应的意图分数,其中标签label共享表示意图预测模型和点击率预测模型可以使用相同的样本搜索词和相同的样本搜索结果(具有第二体裁)进行训练,因此使用的label也是相同的,但是训练好的意图预测模型和点击率预测模型可以是互相解耦的。
S104-3:根据各第二结果的目标点击率和各第一结果的结果点击率,对第一结果和第二结果进行排序。
示例性的,可以按照点击率从高到低的顺序,根据各第二结果的目标点击率和各第一结果的结果点击率,对第一结果和第二结果进行排序。
这里,由于训练好的模型具有可靠的预测精度,所以利用训练好的点击率预测模型,确定出的第一点击率和第二点击率具有可靠的精度,利用准确的第一点击率和第二点击率,进行目标点击率的确定,可以得到准确的目标点击率。进而,利用准确的目标点击率对第二结果进行排序,可以提高确定出的排序结果的合理性和准确性。
这样,通过使用结果文档的文本属性以及多个预设特征维度下的维度信息,再结合搜索词以及对应的来源信息,可以实现利用多角度下的信息进行文档特征的确定,既能够提高确定出的文档特征所包括的信息的丰富性,又能够提高文档特征对结果文档进行表征的准确性。由于第二结果中存在的多个结果文档,对第二结果的排序可能产生影响,所以利用各结果文档的文档特征进行第二结果对应的文章关联特征的确定,可以充分考虑到结果文档之间的关联对第二结果的排序可能造成的影响,得到合理且准确的文章关联特征。最后利用文章关联特征对第二结果进行排序,可以实现对第二结果的排序优化,提高排序结果的合理性,进而有利于提高搜索结果的使用率。
示例性的,在搜索结果包括多个视频、一个音乐卡片和一个用户卡片的情况下,针对音乐卡片而言,可以利用点击率预测模型,输出音乐卡片在视频体裁上的第一点击率和在音乐卡片体裁上的第二点击率。根据第一点击率和第二点击率的均值,确定目标点击率。针对第二结果为音乐卡片而言,可以利用点击率预测模型,输出音乐卡片在视频体裁上的第一点击率和在音乐卡片体裁上的第二点击率。根据第一点击率和第二点击率的均值,确定目标点击率。针对用户卡片而言,可以利用点击率预测模型,输出用户卡片在视频体裁上的第一点击率和在用户卡片体裁上的第二点击率。根据第一点击率和第二点击率的均值,确定目标点击率。然后,可以根据多个视频分别对应的结果点击率、音乐卡片的目标点击率和用户卡片的目标点击率,按照点击率从大到下的顺序,对多个视频、音乐卡片和用户卡片进行排序。
在一种实施例中,由上述实施例可知,第一点击率和第二点击率可以为利用预先训练好的点击率预测模型输出的,所以本公开实施例还提供了一种模型训练方法,以得到训练好的点击率预测模型。如图5所示,为本公开实施例提供的一种训练点击率预测模型的方法的流程图,可以包括以下步骤:
S501:获取样本搜索词以及与样本搜索词相匹配的样本结果;样本结果具有第二体裁且包括至少一个样本结果文档。
这里,样本搜索词即为用于对待训练的点击率预测模型进行训练的搜索词,样本结果即为利用样本搜索词进行搜索后,得到的具有第二体裁的搜索结果。样本结果文档可以为样本结果中包括的结果文档,一个样本结果可以包括至少一个样本结果文档,不同的样本结果中包括的样本结果文档的数量可以不同。
具体实施时,可以获取大量的样本搜索词,以及与每个样本搜索词相匹配的各个样本结果。
S502:将样本结果中的各个样本结果文档、样本搜索词的样本来源信息和样本搜索词输入至待训练的点击率预测模型中,得到样本结果在第一体裁上对应的第一预测点击率和在第二体裁上对应的第二预测点击率。
这里第一预测点击率即为待训练的点击率预测模型,输出的样本结果在第一体裁上的预测点击率;第二预测点击率即为待训练的点击率预测模型,输出的样本结果在样本结果所具有的第二体裁上的预测点击率。
具体实施时,可以将样本结果中的各个样本结果文档、样本搜索词的样本来源信息和样本搜索词,输入至待训练的点击率预测模型中,利用待训练的点击率预测模型,对输入信息进行处理,得到样本结果对应的第一预测点击率和第二预测点击率。
S503:根据第一预测点击率和样本结果对应的第一标准点击率,确定第一损失,以及,根据第二预测点击率和样本结果对应的第二标准点击率,确定第二损失;第一标准点击率根据与样本结果相匹配的目标结果是否被点击确定,目标结果具有第一体裁且包括样本结果中的关键信息;第二标准点击率根据样本结果是否被点击确定。
这里,与样本结果相匹配的目标结果,即为利用样本搜索词搜索时,得到的第一体裁的搜索结果,且该搜索结果中包括样本结果中的关键信息。关键信息可以为样本结果中的主题对象,例如,在样本结果为用户卡片时,主题对象可以为用户卡片中的用户,与样本结果具有相同主题对象的目标结果,可以为用户卡片中的用户上传的视频。
示例性的,若目标结果被点击,则第一标准点击率即为1,也即第一预测点击率对应的label为1;若目标结果未被点击,则第一标准点击率即为0,也即第一预测点击率对应的label为0。
若样本结果被点击,则第二标准点击率即为1,也即第二预测点击率对应的label为1;若样本结果未被点击,则第二标准点击率即为0,也即第二预测点击率对应的label为0。
具体实施时,在点击率预测模型中,不包括用于预测第三点击率的分支(也即不存在用于预测card-bias的分支)的情况下,则可以在得到第一预测点击率和第二预测点击率之后,根据第一预测点击率和样本结果对应的第一标准点击率,确定用于预测video-nobias的分支的第一损失。同时,可以根据第二预测点击率和样本结果对应的第二标准点击率,确定用于预测card-nobias的分支的第二损失。
S504:利用第一损失和第二损失,对待训练的点击率预测模型进行迭代训练,直至满足预设训练截止条件,得到训练好的点击率预测模型。
这里,预设训练截止条件可以为迭代训练的轮数达到预设轮数,和/或,训练好的模型的预测精度达到预设精度。
示例性的,可以利用第一损失对用于预测video-nobias的分支进行迭代训练,以及利用第二损失对用于预测card-nobias的分支进行迭代训练,直至满足预设训练截止条件,得到训练好的点击率预测模型。
或者,也可以根据第一损失和第二损失,确定总损失,然后利用总损失对待训练的点击率预测模型进行迭代训练,直至满足预设训练截止条件,得到训练好的点击率预测模型。
可选的,为进一步提高用于预测card-nobias的分支的预测精度,在训练的过程中,还可以使用用于预测第三点击率的分支(即用于预测card-bias的分支),具体的,可以将样本结果对应的位置偏置信息、样本结果文档、样本来源信息以及样本搜索词,一起输入至待训练的点击率预测模型。其中,样本结果对应的位置偏置信息用于表征能够影响模型预测的第二点击率的信息,可以包括样本结果在搜索结果页中的展示位置以及样本结果的占用尺寸(例如,样本结果为音乐卡片时,占用尺寸可以为音乐卡片的尺寸)。然后,待训练的点击率预测模型可以根据位置信息,确定出样本结果对应的位置偏置特征和和结果尺寸特征,将两个特征拼接为偏置特征(即Bias-feats)。
然后,在待训练的点击率预测模型得到样本结果对应的预测文档关联特征之后,可以利用用于预测card-bias的分支,根据偏置特征和预测文档关联特征,输出样本结果在第二体裁上对应的第三预测点击率。同时,可以利用预测video-nobias的分支和预测card-nobias的分支,根据预测文档关联特征,分别输出第一预测点击率和第二预测点击率。之后,可以根据第一预测点击率和样本结果对应的第一标准点击率,确定用于预测video-nobias的分支的第一损失;根据第二预测点击率和样本结果对应的第二标准点击率,确定用于预测card-nobias的分支的第二损失,以及根据第三预测点击率和样本结果对应的第二标准点击率,确定用于预测card-bias的分支的第三损失。最后,可以利用第一损失、第二损失和第三损失,确定出总损失,然后利用总损失对待训练的点击率预测模型进行迭代训练,直至满足预设训练截止条件,得到训练好的点击率预测模型。
需要说明的是,根据训练好的点击率预测模型输出的第一预测点击率和第二预测点击率,确定出的目标预测点击率,其分布与利用下述公式一确定的目标点击率的分布接近:
CTR=(clickA+clickB+clickC)/impreA;(公式一)
其中,CTR表示目标点击率,在第二结果中包括三个结果文档时,clickA表示第二结果中的第一个结果文档的总点击次数,该总点击次数为在预设历史时间段内,利用搜索词进行历史次搜索时,得到的该第二结果中第一个结果文档被点击的总次数;clickB表示第二结果中的第二个结果文档的总点击次数,该总点击次数为在预设历史时间段内,利用搜索词进行历史次搜索时,得到的该第二结果中第二个结果文档被点击的总次数;clickC表示第二结果中的第三个结果文档的总点击次数,该总点击次数为在预设历史时间段内,利用搜索词进行历史次搜索时,得到的该第二结果中第三个结果文档被点击的总次数。impreA表示第二结果中的第一个结果文档的总展示次数,该总展示次数为在预设历史时间段内,利用搜索词进行历史次搜索时,得到的该第二结果的次数。
在一种实施例中,由上述实施例可知,意图分数可以为利用预先训练好的意图预测模型输出的,所以本公开实施例还提供了另一种模型训练方法,以得到训练好的意图预测模型。如图6所示,为本公开实施例提供的一种训练意图预测模型的方法的流程图,可以包括以下步骤:
S601:获取样本搜索词、以及与样本搜索词相匹配的样本结果;样本结果具有第二体裁。
这里,对待训练的意图预测模型进行训练的样本搜索词,可以与对待训练的点击率预测模型进行训练的样本搜索词。待训练的意图预测模型进行训练的样本结果,也可以为对待训练的点击率预测模型进行训练的样本结果。
关于S601的具体实施步骤,可以参照上述S501,此处不再赘述。
S602:将样本搜索词输入至待训练的意图预测模型中,得到样本搜索词在样本结果对应的第二体裁下的预测意图分数。
这里,预测意图分数可以为待训练的意图预测模型,输出的样本搜索词在样本结果所具有的第二体裁下意图分数。
具体实施时,待训练的意图预测模型可以确定样本搜索词对应的样本分词,然后确定样本搜索词对应的样本目标特征以及各样本分词对应的样本分词特征。之后,可以利用样本目标特征和各样本分词特征,确定出样本搜索词在样本结果对应的第二体裁下的预测意图分数。
S603:根据样本结果对应的标签分数和预测意图分数,确定第三损失;标签分数根据样本结果是否被点击确定。
这里,如果样本结果被点击,则标签分数为1,也即,预测意图分数对应的label为1;如果样本结果未被点击,则标签分数为0,也即,预测意图分数对应的label为0。
具体实施时,可以利用样本结果对应的标签分数和预测意图分数,计算待训练的意图预测模型的第三损失。
S604:利用第三损失,对待训练的意图预测模型进行迭代训练,直至满足预设训练截止条件,得到训练好的意图预测模型。
这里,预设训练截止条件可以为迭代训练的轮数达到预设轮数,和/或,训练好的模型的预测精度达到预设精度。
可选的,待训练的意图预测模型在学习时,可以输出样本搜索词在各个第二体裁下分别对应的预测意图分数。由于标签分数为0和1中的一种,关于样本搜索词在除样本结果具有的第二体裁以外的其他第二体裁的标签分数,如果样本结果被点击,样本结果具有的第二体裁下的标签分数可以为1,其他第二体裁的标签分数可以为0;如果样本结果未被点击,样本结果具有的第二体裁下的标签分数可以为0,其他第二体裁的标签分数可以为1。此时,在计算第三损失时,可以根据样本结果在具有的第二体裁下的标签分数和在样本结果所具有的第二体裁下的预测意图分数,确定第一子损失。根据样本结果在其他第二体裁下的标签分数和样本结果在其他第二体裁下的预测意图分数,确定第二子损失。利用第一子损失和第二子损失,确定第三损失。然后可以利用第三损失对对待训练的意图预测模型进行迭代训练。
示例性的,第二体裁包括用户卡片体裁、音乐卡片体裁和话题标签卡片体裁的情况下,若样本结果为音乐卡片,则样本结果被点击,则样本结果在音乐卡片体裁下的标签分数即为1,在用户卡片体裁和话题标签卡片体裁下的标签分数即为0。然后,可以根据待训练的意图预测模型,输出的在音乐卡片体裁下的预测意图分数和标签分数1,确定第一子损失。根据待训练的意图预测模型,输出的在用户卡片体裁下的预测意图分数和标签分数0,确定第二子损失,以及,根据待训练的意图预测模型,输出的在话题标签卡片体裁下的预测意图分数和标签分数0,确定另一个第二子损失。然后,可以根据第一子损失和两个第二子损失,确定第三损失。最后可以利用第三损失对对待训练的意图预测模型进行迭代训练。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与搜索结果排序方法对应的搜索结果排序装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述搜索结果排序方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图7所示,为本公开实施例提供的一种搜索结果排序装置的示意图,包括:
获取模块701,用于获取与搜索词相匹配的搜索结果,所述搜索结果包括第一体裁的各第一结果和除所述第一体裁以外的第二体裁下的至少一个第二结果;所述第二结果中包括至少一个结果文档;
第一确定模块702,用于针对所述第二结果中的任一所述结果文档,根据所述结果文档的文本属性信息、所述结果文档在多个预设特征维度下的维度信息、所述搜索词以及所述搜索词的来源信息,确定结果文档对应的文档特征;
第二确定模块703,用于根据所述第二结果中的各所述结果文档的文档特征,确定所述第二结果对应的文档关联特征;
排序模块704,用于根据各个所述第二结果的文档关联特征和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序。
在一种可能的实施方式中,所述第二确定模块703,在所述根据所述第二结果中的各所述结果文档的文档特征,确定所述第二结果对应的文档关联特征时,用于:
根据所述第二结果中的各所述结果文档的文档特征,确定各所述结果文档的上下文特征,并根据各所述上下文特征的均值特征,确定所述第二结果对应的文档关联特征;所述上下文特征用于表征所述第二结果中的各所述结果文档之间的关联信息和各所述结果文档。
在一种可能的实施方式中,所述排序模块704,在所述根据各个所述第二结果的文档关联特征和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序时,用于:
根据所述第二结果的文档关联特征,确定所述第二结果在第一体裁上的第一点击率和在所述第二结果对应的所述第二体裁上的第二点击率;
根据所述第一点击率和所述第二点击率,确定所述第二结果的目标点击率;
根据各所述第二结果的目标点击率和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序。
在一种可能的实施方式中,任一所述预设特征维度下的维度信息包括多个;
所述第一确定模块702,在所述针对所述第二结果中的任一所述结果文档,根据所述结果文档的文本属性信息、所述结果文档在多个预设特征维度下的维度信息、所述搜索词以及所述搜索词的来源信息,确定结果文档对应的文档特征时,用于:
根据所述结果文档在任一预设特征维度下的多个维度信息,确定该预设特征维度下的多个目标特征;
对预设特征维度下的所述多个目标特征进行拼接,得到该预设特征维度下的第一拼接特征;
对所述来源信息对应的来源特征、所述文本属性信息对应的文本属性特征、多个所述预设特征维度下的目标特征以及所述搜索词对应的搜索词特征进行拼接,得到第二拼接特征;
根据所述第一拼接特征和所述第二拼接特征,确定所述结果文档对应的所述文档特征。
在一种可能的实施方式中,所述搜索词特征包括所述搜索词对应的目标词特征和所述搜索词中的各个分词对应的分词特征;
所述第一确定模块702,在所述根据所述第一拼接特征和所述第二拼接特征,确定所述结果文档对应的所述文档特征时,用于:
根据所述目标词特征和所述文本属性特征之间的匹配度,确定第一匹配特征;
根据所述分词特征和所述文本属性特征之间的匹配度,确定第二匹配特征;
对所述第一拼接特征、所述第二拼接特征、所述第一匹配特征和所述第二匹配特征进行全连接处理,得到所述结果文档对应的所述文档特征。
在一种可能的实施方式中,所述第二体裁包括多个,所述装置还包括:
第三确定模块705,用于根据所述目标词特征和所述分词特征,确定所述搜索词在各个所述第二体裁下分别对应的意图分数;
根据各个所述第二体裁下分别对应的所述意图分数,确定所述搜索词对应的目标意图,所述目标意图用于指示与所述搜索词匹配度最高的第二体裁。
在一种可能的实施方式中,所述第一点击率和所述第二点击率为利用预先训练好的点击率预测模型输出的,所述装置还包括:
第一训练模块706,用于根据以下步骤训练得到所述点击率预测模型:
获取样本搜索词以及与所述样本搜索词相匹配的样本结果;所述样本结果具有所述第二体裁且包括至少一个样本结果文档;
将所述样本结果中的各个所述样本结果文档、所述样本搜索词的样本来源信息和所述样本搜索词输入至待训练的点击率预测模型中,得到所述样本结果在第一体裁上对应的第一预测点击率和在所述第二体裁上对应的第二预测点击率;
根据所述第一预测点击率和所述样本结果对应的第一标准点击率,确定第一损失,以及,根据所述第二预测点击率和所述样本结果对应的第二标准点击率,确定第二损失;所述第一标准点击率根据与所述样本结果相匹配的目标结果是否被点击确定,所述目标结果具有所述第一体裁且包括所述样本结果中的关键信息;第二标准点击率根据所述样本结果是否被点击确定;
利用所述第一损失和所述第二损失,对所述待训练的点击率预测模型进行迭代训练,直至满足预设训练截止条件,得到训练好的点击率预测模型。
在一种可能的实施方式中,所述意图分数为利用预先训练好的意图预测模型输出的,所述装置还包括:
第二训练模块707,用于根据以下步骤训练得到所述意图预测模型:
获取样本搜索词、以及与所述样本搜索词相匹配的样本结果;所述样本结果具有所述第二体裁;
将所述样本搜索词输入至待训练的意图预测模型中,得到所述样本搜索词在所述样本结果对应的第二体裁下的预测意图分数;
根据所述样本结果对应的标签分数和所述预测意图分数,确定第三损失;所述标签分数根据所述样本结果是否被点击确定;
利用所述第三损失,对所述待训练的意图预测模型进行迭代训练,直至满足预设训练截止条件,得到训练好的意图预测模型。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本申请实施例还提供了一种计算机设备。参照图8所示,为本申请实施例提供的一种计算机设备的结构示意图,包括:
处理器81、存储器82和总线83。其中,存储器82存储有处理器81可执行的机器可读指令,处理器81用于执行存储器82中存储的机器可读指令,所述机器可读指令被处理器81执行时,处理器81执行下述步骤:S101:获取与搜索词相匹配的搜索结果,搜索结果包括第一体裁的各第一结果和除第一体裁以外的第二体裁下的至少一个第二结果;第二结果中包括至少一个结果文档;S102:针对第二结果中的任一结果文档,根据结果文档的文本属性信息、结果文档在多个预设特征维度下的维度信息、搜索词以及搜索词的来源信息,确定结果文档对应的文档特征;S103:根据第二结果中的各结果文档的文档特征,确定第二结果对应的文档关联特征以及S104:根据各个第二结果的文档关联特征和各第一结果的结果点击率,对第一结果和第二结果进行排序。
上述存储器82包括内存821和外部存储器822;这里的内存821也称内存储器,用于暂时存放处理器81中的运算数据,以及与硬盘等外部存储器822交换的数据,处理器81通过内存821与外部存储器822进行数据交换,当计算机设备运行时,处理器81与存储器82之间通过总线83通信,使得处理器81在执行上述方法实施例中所提及的执行指令。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的搜索结果排序方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的搜索结果排序方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的搜索结果排序方法的步骤,具体可参见上述方法实施例,在此不再赘述。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式、处理的个人信息种类等信息。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种搜索结果排序方法,其特征在于,包括:
获取与搜索词相匹配的搜索结果,所述搜索结果包括第一体裁的各第一结果和除所述第一体裁以外的第二体裁下的至少一个第二结果;所述第二结果中包括至少一个结果文档;
针对所述第二结果中的任一所述结果文档,根据所述结果文档的文本属性信息、所述结果文档在多个预设特征维度下的维度信息、所述搜索词以及所述搜索词的来源信息,确定结果文档对应的文档特征;
根据所述第二结果中的各所述结果文档的文档特征,确定所述第二结果对应的文档关联特征;
根据各个所述第二结果的文档关联特征和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第二结果中的各所述结果文档的文档特征,确定所述第二结果对应的文档关联特征,包括:
根据所述第二结果中的各所述结果文档的文档特征,确定各所述结果文档的上下文特征,并根据各所述上下文特征的均值特征,确定所述第二结果对应的文档关联特征;所述上下文特征用于表征所述第二结果中的各所述结果文档之间的关联信息和各所述结果文档。
3.根据权利要求1所述的方法,其特征在于,所述根据各个所述第二结果的文档关联特征和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序,包括:
根据所述第二结果的文档关联特征,确定所述第二结果在第一体裁上的第一点击率和在所述第二结果对应的所述第二体裁上的第二点击率;
根据所述第一点击率和所述第二点击率,确定所述第二结果的目标点击率;
根据各所述第二结果的目标点击率和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序。
4.根据权利要求1所述的方法,其特征在于,任一所述预设特征维度下的维度信息包括多个;
所述针对所述第二结果中的任一所述结果文档,根据所述结果文档的文本属性信息、所述结果文档在多个预设特征维度下的维度信息、所述搜索词以及所述搜索词的来源信息,确定结果文档对应的文档特征,包括:
根据所述结果文档在任一预设特征维度下的多个维度信息,确定该预设特征维度下的多个目标特征;
对预设特征维度下的所述多个目标特征进行拼接,得到该预设特征维度下的第一拼接特征;
对所述来源信息对应的来源特征、所述文本属性信息对应的文本属性特征、多个所述预设特征维度下的目标特征以及所述搜索词对应的搜索词特征进行拼接,得到第二拼接特征;
根据所述第一拼接特征和所述第二拼接特征,确定所述结果文档对应的所述文档特征。
5.根据权利要求4所述的方法,其特征在于,所述搜索词特征包括所述搜索词对应的目标词特征和所述搜索词中的各个分词对应的分词特征;
所述根据所述第一拼接特征和所述第二拼接特征,确定所述结果文档对应的所述文档特征,包括:
根据所述目标词特征和所述文本属性特征之间的匹配度,确定第一匹配特征;
根据所述分词特征和所述文本属性特征之间的匹配度,确定第二匹配特征;
对所述第一拼接特征、所述第二拼接特征、所述第一匹配特征和所述第二匹配特征进行全连接处理,得到所述结果文档对应的所述文档特征。
6.根据权利要求5所述的方法,其特征在于,所述第二体裁包括多个,所述方法还包括:
根据所述目标词特征和所述分词特征,确定所述搜索词在各个所述第二体裁下分别对应的意图分数;
根据各个所述第二体裁下分别对应的所述意图分数,确定所述搜索词对应的目标意图,所述目标意图用于指示与所述搜索词匹配度最高的第二体裁。
7.根据权利要求3所述的方法,其特征在于,所述第一点击率和所述第二点击率为利用预先训练好的点击率预测模型输出的,所述点击率预测模型根据以下步骤训练得到:
获取样本搜索词以及与所述样本搜索词相匹配的样本结果;所述样本结果具有所述第二体裁且包括至少一个样本结果文档;
将所述样本结果中的各个所述样本结果文档、所述样本搜索词的样本来源信息和所述样本搜索词输入至待训练的点击率预测模型中,得到所述样本结果在第一体裁上对应的第一预测点击率和在所述第二体裁上对应的第二预测点击率;
根据所述第一预测点击率和所述样本结果对应的第一标准点击率,确定第一损失,以及,根据所述第二预测点击率和所述样本结果对应的第二标准点击率,确定第二损失;所述第一标准点击率根据与所述样本结果相匹配的目标结果是否被点击确定,所述目标结果具有所述第一体裁且包括所述样本结果中的关键信息;第二标准点击率根据所述样本结果是否被点击确定;
利用所述第一损失和所述第二损失,对所述待训练的点击率预测模型进行迭代训练,直至满足预设训练截止条件,得到训练好的点击率预测模型。
8.根据权利要求6所述的方法,其特征在于,所述意图分数为利用预先训练好的意图预测模型输出的,所述意图预测模型根据以下步骤训练得到:
获取样本搜索词、以及与所述样本搜索词相匹配的样本结果;所述样本结果具有所述第二体裁;
将所述样本搜索词输入至待训练的意图预测模型中,得到所述样本搜索词在所述样本结果对应的第二体裁下的预测意图分数;
根据所述样本结果对应的标签分数和所述预测意图分数,确定第三损失;所述标签分数根据所述样本结果是否被点击确定;
利用所述第三损失,对所述待训练的意图预测模型进行迭代训练,直至满足预设训练截止条件,得到训练好的意图预测模型。
9.一种搜索结果排序装置,其特征在于,包括:
获取模块,用于获取与搜索词相匹配的搜索结果,所述搜索结果包括第一体裁的各第一结果和除所述第一体裁以外的第二体裁下的至少一个第二结果;所述第二结果中包括至少一个结果文档;
第一确定模块,用于针对所述第二结果中的任一所述结果文档,根据所述结果文档的文本属性信息、所述结果文档在多个预设特征维度下的维度信息、所述搜索词以及所述搜索词的来源信息,确定结果文档对应的文档特征;
第二确定模块,用于根据所述第二结果中的各所述结果文档的文档特征,确定所述第二结果对应的文档关联特征;
排序模块,用于根据各个所述第二结果的文档关联特征和各所述第一结果的结果点击率,对所述第一结果和所述第二结果进行排序。
10.一种计算机设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述处理器执行如权利要求1至8任意一项所述的搜索结果排序方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被计算机设备运行时,所述计算机设备执行如权利要求1至8任意一项所述的搜索结果排序方法的步骤。
CN202310539712.XA 2023-05-15 2023-05-15 一种搜索结果排序方法、装置、计算机设备和存储介质 Pending CN116578725A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310539712.XA CN116578725A (zh) 2023-05-15 2023-05-15 一种搜索结果排序方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310539712.XA CN116578725A (zh) 2023-05-15 2023-05-15 一种搜索结果排序方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN116578725A true CN116578725A (zh) 2023-08-11

Family

ID=87542671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310539712.XA Pending CN116578725A (zh) 2023-05-15 2023-05-15 一种搜索结果排序方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN116578725A (zh)

Similar Documents

Publication Publication Date Title
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
US10217058B2 (en) Predicting interesting things and concepts in content
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Shi et al. Functional and contextual attention-based LSTM for service recommendation in mashup creation
US9846836B2 (en) Modeling interestingness with deep neural networks
CN112148889A (zh) 一种推荐列表的生成方法及设备
Kanwal et al. A review of text-based recommendation systems
CN110888990A (zh) 文本推荐方法、装置、设备及介质
US20100191758A1 (en) System and method for improved search relevance using proximity boosting
CN113254711B (zh) 一种互动图像的显示方法、装置、计算机设备和存储介质
US11194963B1 (en) Auditing citations in a textual document
CN111557000B (zh) 针对媒体的准确性确定
KR101450453B1 (ko) 컨텐츠 추천 방법 및 장치
CN112328889A (zh) 推荐搜索词确定方法、装置、可读介质及电子设备
Xu et al. Learning to annotate via social interaction analytics
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN116361428A (zh) 一种问答召回方法、装置和存储介质
CN111753199B (zh) 用户画像构建方法及设备、电子设备和介质
Kumar et al. Classification of Mobile Applications with rich information
CN116578725A (zh) 一种搜索结果排序方法、装置、计算机设备和存储介质
CN118093839B (zh) 基于深度学习的知识运营问答对话处理方法及***
US12001462B1 (en) Method and system for multi-level artificial intelligence supercomputer design
CN112148702B (zh) 一种文件检索的方法及设备
Che et al. A feature and deep learning model recommendation system for mobile application
CN110147488A (zh) 页面内容的处理方法、处理装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination