CN109508394A - 一种多媒体文件搜索排序模型的训练方法及装置 - Google Patents
一种多媒体文件搜索排序模型的训练方法及装置 Download PDFInfo
- Publication number
- CN109508394A CN109508394A CN201811214519.4A CN201811214519A CN109508394A CN 109508394 A CN109508394 A CN 109508394A CN 201811214519 A CN201811214519 A CN 201811214519A CN 109508394 A CN109508394 A CN 109508394A
- Authority
- CN
- China
- Prior art keywords
- search result
- keyword
- function value
- multimedia file
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机技术,公开了一种多媒体文件搜索排序模型训练的方法及装置,用以提高搜索结果的排序精准性。该方法为,确定关键词及相应的搜索结果后,计算每一个关键词对应的搜索结果的排序标注函数值,并生成相应的样本数据,其中,所述排序标注函数值与多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关,以及筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模型。这样,能够筛选出关键词与搜索结果的搜索意图一致的样本数据,提升了样本数据的质量,进而能够有效提升训练获得的多媒体文件搜索排序模型的排序精准性,解决了搜索结果的排序优化问题。
Description
技术领域
本发明涉及计算技术,尤其涉及一种多媒体文件搜索排序模型的训练方法 及装置。
背景技术
已有技术下,用户在智能电视上进行多媒体文件搜索(如,影片搜索), 时,智能电视往往根据用户输入的关键词,采用列表方式返回搜索结果。为了 能够为用户提供更为准确的搜索结果,需要基于已有的历史搜索数据进行搜索 模型训练,然而,采用已有的历史搜索数据进行搜索模型训练却存在以下缺陷:
1)智能电视接收用户输入的关键词后,会将所有包含关键词的多媒体文 件均作为搜索结果进行呈现。
然而,从目前的反馈结果来看,仅仅包含关键词的搜索结果往往包含很高 的噪声数据。
例如,假设用户输入的关键词为“超人”,那么,智能电视进行搜索后, 会将包含“超人”两个字的电影均作为搜索结果进行呈现,然而,用户只希望 看到超人系列的电影,其他包含“超人”两字,内容却不相关的电影均为噪声 数据,如,超人总动员,然而,《超人总动员》等相关性较差的搜索结果可能 因为热度较高的原因,排序在《超人》的前面,因此,排序结果不符合用户的 期望。
显然,如果将包含热度较高的噪声数据的搜索结果作为样本数据进行搜索 模型训练,会影响搜索模型的排序精准性。
2)实际应用中,由于用户通过遥控器输入关键词时,为了节省时间,往 往会采用多媒体文件的拼音首字母作为关键词输入。
然而,从目前的反馈结果来看,将拼音首字母作为关键词输入,会造成关 键词表意不准确,在一定程度上会令搜索结果中包含更多的噪声数据。
例如,假设用户输入的关键词为“CR”,而搜索结果中,除了“超人”之 外,还有“草人(例:夺命稻草人)”、“成人(例:长大成人)”、“传人(例: 少林传人)”等等一系列文字,这些文字和用户的实际搜索意图相距甚远,因 此,使用这些噪声数据进行搜索后,获得的搜索结果中仍会包含大量噪声数据。
同理,如果将包含热度较高的噪声数据的搜索结果作为样本数据进行搜索 模型训练,会影响搜索模型的排序精准性。
有鉴于此,需要设计一种新的多媒体文件搜索排序模型的建立方法,以克 服上述缺陷。
发明内容
本发明的目的是提供一种多媒体文件搜索排序模型的训练方法及装置,用 以提高搜索结果的排序精准性。
本发明实施例提供的具体技术方案如下:
一种多媒体文件搜索排序模型的训练方法,包括:
确定关键词,以及获取各个关键词对应的搜索结果,其中,一个搜索结果 中包含相应的关键词对应的至少一个多媒体文件;
计算每一个关键词对应的搜索结果的排序标注函数值,以及基于各个搜索 结果的排序标注函数值生成相应的样本数据;其中,一个搜索结果的排序标注 函数值,至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体 文件之间的主题类型关联程度正相关;
筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型 训练,生成相应的多媒体文件搜索排序模型。
可选的,计算一个搜索结果的排序标注函数值,包括:
统计所述一个搜索结果包含的各个多媒体文件的累积被点击次数;
统计所述一个搜索结果包含的各个多媒体文件在指定时长内的区间被点 击次数变化率。
统计所述一个搜索结果中各个多媒体文件的主题类型分布概率向量,并基 于所述主题类型分布概率向量,计算所述各个多媒体文件之间的主题类型关联 程度;
基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率 和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值。
可选的,基于各个多媒体文件的所述累积被点击次数、所述区间被点击次 数变化率和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值 之前,进一步包括:
将所述一个搜索结果中包含的累积被点击次数不为零的多媒体文件 作为正例,以及将所述一个搜索结果中包含的累积被点击次数为零的多媒 体文件作为负例。
针对每一个正例,分别确定主题类型关联程度最高的M个其他多媒 体文件,所述其他多媒体文件不包含在所述一个搜索结果中;
从获得的各个其他多媒体文件中选取设定数目的其他多媒体文件作 为正例,对所述负例进行替换,令替换后的正例和负例的比例达到设定比 例门限。
可选的,筛选出排序标注函数值符合预设条件的样本数据,包括:
筛选出排序标注函数值最高的N个样本数据,其中,N为预设自然数;或 者,
筛选出排序标注函数值达到设定参数门限的样本数据。
可选的,筛选出排序标注函数值符合预设条件的样本数据之前,进一步执 行以下操作中的任意一种或组合:
筛选出符合预设数据规模的样本数据;
筛选出关键词对应的搜索结果包含的多媒体文件达到设定阈值的样本数 据;
筛选出关键词对应的搜索结果包含的多媒体文件的发布时间达到设定时 长门限的样本数据;
删除关键词为单数据或/和单字母对应的样本数据。
可选的,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模 型,包括:
分别确定各个样本数据的关联特征,一个样本数据的关联特征至少包 括关键词特征、关键词和相应的搜索结果包含的多媒体文件之间的相关性 特征,搜索结果包含的多媒体文件的属性特征,以及搜索结果包含的多媒 体文件之间的相关性特征;
将样本数据划分为训练集和测试集;
基于所述训练集及相应的关联特征,采用分布式梯度提升决策树 GBDT算法,进行多决策树模型的迭代训练,获得相应的训练模型;
基于所述测试集及相应的关联特征,对生成的训练模型进行测试,生 成相应的评价指标;
基于获得的评价指标调整训练参数,优化训练模型,经过多次训练获 得最终的多媒体文件搜索排序模型。
一种多媒体文件搜索排序模型的训练装置,包括:
获取单元,用于确定关键词,以及获取各个关键词对应的搜索结果,其中, 一个搜索结果中包含相应的关键词对应的至少一个多媒体文件;
处理单元,用于计算每一个关键词对应的搜索结果的排序标注函数值,以 及基于各个搜索结果的排序标注函数值生成相应的样本数据;其中,一个搜索 结果的排序标注函数值,至少与所述搜索结果包含的多媒体文件的被点击次数 以及所述多媒体文件之间的主题类型关联程度正相关;
训练单元,用于筛选出排序标注函数值符合预设条件的样本数据,采用预 设算法进行模型训练,生成相应的多媒体文件搜索排序模型。
可选的,计算一个搜索结果的排序标注函数值时,所述处理单元用于:
统计所述一个搜索结果包含的各个多媒体文件的累积被点击次数;
统计所述一个搜索结果包含的各个多媒体文件在指定时长内的区间被点 击次数变化率。
统计所述一个搜索结果中各个多媒体文件的主题类型分布概率向量,并基 于所述主题类型分布概率向量,计算所述各个多媒体文件之间的主题类型关联 程度;
基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率 和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值。
可选的,基于各个多媒体文件的所述累积被点击次数、所述区间被点击次 数变化率和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值 之前,所述处理单元进一步用于:
将所述一个搜索结果中包含的累积被点击次数不为零的多媒体文件 作为正例,以及将所述一个搜索结果中包含的累积被点击次数为零的多媒 体文件作为负例。
针对每一个正例,分别确定主题类型关联程度最高的M个其他多媒 体文件,所述其他多媒体文件不包含在所述一个搜索结果中;
从获得的各个其他多媒体文件中选取设定数目的其他多媒体文件作 为正例,对所述负例进行替换,令替换后的正例和负例的比例达到设定比 例门限。
可选的,筛选出排序标注函数值符合预设条件的样本数据时,所述训练单 元用于:
筛选出排序标注函数值最高的N个样本数据,其中,N为预设自然数;或 者,
筛选出排序标注函数值达到设定参数门限的样本数据。
可选的,筛选出排序标注函数值符合预设条件的样本数据之前,所述训练 单元进一步用于执行以下操作中的任意一种或组合:
筛选出符合预设数据规模的样本数据;
筛选出关键词对应的搜索结果包含的多媒体文件达到设定阈值的样本数 据;
筛选出关键词对应的搜索结果包含的多媒体文件的发布时间达到设定时 长门限的样本数据;
删除关键词为单数据或/和单字母对应的样本数据。
可选的,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模 型时,所述训练单元用于:
分别确定各个样本数据的关联特征,一个样本数据的关联特征至少包 括关键词特征、关键词和相应的搜索结果包含的多媒体文件之间的相关性 特征,搜索结果包含的多媒体文件的属性特征,以及搜索结果包含的多媒 体文件之间的相关性特征;
将样本数据划分为训练集和测试集;
基于所述训练集及相应的关联特征,采用分布式梯度提升决策树 GBDT算法,进行多决策树模型的迭代训练,获得相应的训练模型;
基于所述测试集及相应的关联特征,对生成的训练模型进行测试,生 成相应的评价指标;
基于获得的评价指标调整训练参数,优化训练模型,经过多次训练获 得最终的多媒体文件搜索排序模型。
一种多媒体文件搜索排序模型的训练装置,至少包括处理器和存储器,其 中,
处理器,用于读取存储器中的程序,执行下列过程:
确定关键词,以及获取各个关键词对应的搜索结果,其中,一个搜索结果 中包含相应的关键词对应的至少一个多媒体文件;
计算每一个关键词对应的搜索结果的排序标注函数值,以及基于各个搜索 结果的排序标注函数值生成相应的样本数据;其中,一个搜索结果的排序标注 函数值,至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体 文件之间的主题类型关联程度正相关;
筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型 训练,生成相应的多媒体文件搜索排序模型。
可选的,计算一个搜索结果的排序标注函数值时,所述处理器用于:
统计所述一个搜索结果包含的各个多媒体文件的累积被点击次数;
统计所述一个搜索结果包含的各个多媒体文件在指定时长内的区间被点 击次数变化率。
统计所述一个搜索结果中各个多媒体文件的主题类型分布概率向量,并基 于所述主题类型分布概率向量,计算所述各个多媒体文件之间的主题类型关联 程度;
基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率 和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值。
可选的,基于各个多媒体文件的所述累积被点击次数、所述区间被点击次 数变化率和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值 之前,所述处理器进一步用于:
将所述一个搜索结果中包含的累积被点击次数不为零的多媒体文件 作为正例,以及将所述一个搜索结果中包含的累积被点击次数为零的多媒 体文件作为负例。
针对每一个正例,分别确定主题类型关联程度最高的M个其他多媒 体文件,所述其他多媒体文件不包含在所述一个搜索结果中;
从获得的各个其他多媒体文件中选取设定数目的其他多媒体文件作 为正例,对所述负例进行替换,令替换后的正例和负例的比例达到设定比 例门限。
可选的,筛选出排序标注函数值符合预设条件的样本数据时,所述处理器 用于:
筛选出排序标注函数值最高的N个样本数据,其中,N为预设自然数;或 者,
筛选出排序标注函数值达到设定参数门限的样本数据。
可选的,筛选出排序标注函数值符合预设条件的样本数据之前,所述处理 器进一步用于执行以下操作中的任意一种或组合:
筛选出符合预设数据规模的样本数据;
筛选出关键词对应的搜索结果包含的多媒体文件达到设定阈值的样本数 据;
筛选出关键词对应的搜索结果包含的多媒体文件的发布时间达到设定时 长门限的样本数据;
删除关键词为单数据或/和单字母对应的样本数据。
可选的,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模 型时,所述处理器用于:
分别确定各个样本数据的关联特征,一个样本数据的关联特征至少包 括关键词特征、关键词和相应的搜索结果包含的多媒体文件之间的相关性 特征,搜索结果包含的多媒体文件的属性特征,以及搜索结果包含的多媒 体文件之间的相关性特征;
将样本数据划分为训练集和测试集;
基于所述训练集及相应的关联特征,采用分布式梯度提升决策树 GBDT算法,进行多决策树模型的迭代训练,获得相应的训练模型;
基于所述测试集及相应的关联特征,对生成的训练模型进行测试,生 成相应的评价指标;
基于获得的评价指标调整训练参数,优化训练模型,经过多次训练获 得最终的多媒体文件搜索排序模型。
一种存储介质,存储有用于实现多媒体文件搜索排序模型的训练的程序, 所述程序被处理器运行时,执行以下步骤:
确定关键词,以及获取各个关键词对应的搜索结果,其中,一个搜索结果 中包含相应的关键词对应的至少一个多媒体文件;
计算每一个关键词对应的搜索结果的排序标注函数值,以及基于各个搜索 结果的排序标注函数值生成相应的样本数据;其中,一个搜索结果的排序标注 函数值,至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体 文件之间的主题类型关联程度正相关;
筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型 训练,生成相应的多媒体文件搜索排序模型。
本发明实施例中,确定关键词及相应的搜索结果后,计算每一个关键词对 应的搜索结果的排序标注函数值,并生成相应的样本数据,其中,所述排序标 注函数值与多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关 联程度正相关,以及筛选出排序标注函数值符合预设条件的样本数据,采用预 设算法进行模型训练,生成相应的多媒体文件搜索排序模型。这样,可以有效 地完成样本数据的标注,从而筛选出关键词与搜索结果的搜索意图一致的样本 数据,提升了样本数据的质量,进而能够有效提升了训练获得的多媒体文件搜 索排序模型的排序精准性,解决了搜索结果的排序优化问题。
附图说明
图1为本发明实施例中多媒体文件搜索排序模型的训练流程示意图;
图2为本发明实施例中多媒体文件搜索排序模型的训练装置功能结构示意图;
图3为本发明实施例中多媒体文件搜索排序模型的训练装置实体结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1所示,本发明实施例中,本发明实施例中,建立多媒体文件搜索 排序模型的详细流程如下:
步骤100:确定设定的关键词,以及获取各个关键词对应的搜索结果,其 中,一个搜索结果中包含相应的关键词对应的至少一个多媒体文件。
步骤110:计算每一个关键词对应的搜索结果的排序标注函数值,一个搜 索结果的排序标注函数值,至少与所述搜索结果包含的多媒体文件的被点击次 数以及所述多媒体文件之间的文件类型关联度正相关。
具体在,以一个搜索结果x为例,在计算搜索结果x的排序标注函数值时, 包含但不限于以下操作:
步骤A:统计搜索结果x中各个多媒体文件的累积被点击次数。
为了保证样本数据标注的合理性和准确性,可以统计搜索结果x中各个多 媒体文件的累积被点击次数,其中,所谓的累积被点击次数,是指多媒体文件 发布之后,到统计的当前时间之间的被点击总次数。
例如,假设输入一个关键词后,假设获得的关键词集合Q={q1,…,qm},每一 个关键词qi均对应一个搜索结果,搜索结果中包含有影片列表 1≤i≤m,而用户一次点击的记录结果表征为 其中,被点击的影片等于1,其他影片等于0, 具体如表1所示,则,基于关键词qi获得的搜索结果中,各个影片(即多媒体 文件)从发布后的累积被点数次数表征为为其中,累积 被点击次数越多,关键词qi相对于搜索结果之间的搜索意图越强,即关联 程度越强。
表1(qi):
步骤B:统计搜索结果x包含的各个多媒体文件在指定时长内的区间被点 击次数变化率。
实际应用中,多媒体文件的累积被点击次数无法反映最近一段时间的搜索 结果的变化趋势,因此,可以根据多媒体文件在指定时长内的区间被点击次数 变化率来衡量多媒体文件在当前周期内的点击变化情况,例如,对于新上线的 影片,基于区间被点击次数变化率可以快速确定影片在搜索结果中的排序关系, 避免上映时间过短而导致的累积被点击次数不足而导致影片排序靠后。
可选的,区间被点击次数变化率可以采用如下公式表示,其中,Δt表示指 定时长,T表示区间被点击次数变化率的时间起点:如下:
步骤C:统计搜索结果x包含的各个多媒体文件的主题类型分布概率向量, 并基于所述主题类型分布概率向量,计算所述各个多媒体文件之间的主题类型 关联程度。
可选的,可以采用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA) 主题聚类算法,计算各个多媒体文件的主题分布概率向量
其中,Topic表征主题,P(Topic1)表征主题1的概率,S表征主题数目。主题分布概率向量分布反映了不同的多媒体文 件在不同主题上的偏好程度,可以用来衡量两个多媒体文件的主题类型关联程 度。因此,针对搜索结果中累积被点击次数不为0的多媒体文件,可以基于上 述主题分布概率向量表征的多媒体文件被点击次数从高到低的排序结果,分别 计算每一个多媒体文件与排序在其之前的多媒体文件的余弦相似度,从而获得 两两多媒体文件之间的主题类型关联程度,具体的,计算公式如下:
步骤D:基于各个多媒体文件的所述累积被点击次数、所述区间被点击次 数变化率和所述主题类型关联程度,计算搜索结果x的排序标注函数值。
具体的,可以采用以下公式计算搜索结果x的排序标注函数值:
其中,α和β是比例缩放因子,确保各分量为同一量级,此外,为 了平稳长尾效应形成的偏态分布,还可对上述排序标注函数值的函数 值进行对数取整操作以优化样本标注,则最终样本数据的输出结果可 以表示为:
上述表达式表征了输入关键词qi后获得的相应的搜索结果,即关键词 qi+搜索结果以及对应的排序标注函数值表征一条标注完毕的样本数据。
采用上述方式,可以针对各个关键词分别进行样本数据的标注,从而 获得进行模型训练所有的标注后的样本数据。
另一方面,本发明实施例中,对于发布一段时间后,累积被点数次数 仍为0的多媒体文件,可以认为此类多媒体文件与相应的关键词以及用户 的搜索意图之间完全不相关,也无法体现多媒体文件排序的价值,因此, 可以将此类多媒体文件作为搜索结果中包含的负例,将累积被点击次数不 为0的多媒体文件作为搜索结果中包含的正例。由于搜索点击的长尾效应, 通常情况下,即使累积较长时间(即多媒体文件发布了较长时间),搜索 结果中包含的负例数量也会远大于正例,因此,本发明实施例中,可以基 于多媒体文件的主题相关性,对搜索结果中的部分负例进行替换,从而调 整搜索结果中的正例和负例的比例平衡,进而进一步提高样本数据的质量; 因为,引入新的正例也会增加搜索结果召回的多样性,拓展排序空间,有 效提高排序学习算法的性能,从而进一步提高后续训练的多媒体文件搜索 排序模型的排序精准性。
可选的,仍以关键词qi对应的搜索结果x为例,在计算搜索结果x 的排序标注函数值之前,所执行的替换步骤如下:
一、将搜索结果x中包含的累积被点击次数不为零的多媒体文件作为 正例,以及将搜索结果x中包含的累积被点击次数为零的多媒体文件作为 负例。
二、针对每一个正例,分别确定主题类型关联程度最高的M个其他 多媒体文件,所述其他多媒体文件与所述搜索结果x以及所述关键词qi 不对应,M为预设自然数。
可选的,仍然可以采用LDA主题聚类算法,通过计算主题分布概率 向量,获得与一个正例的主题关联性最强的其他多媒体文件集合其中,rl表征其他多媒体文件,表征两者的主题分布概率向量余弦相似度。
例如,假设关键词qi为“超人”,则获得的正例为“超人1”等等, 而获得的负例为“变身超人”,“史前超人”等等,假设正负例的比例为1: 3。那么,与“超人1”的主题类型关联程度最高的2(假设M=2)个其 他多媒体文件为“正义者联盟”和“钢铁之躯”。
本实施例中,仅以一个正例为例,实际应用中,针对每一个正例,都 要选取出主题类型关联程度最高的M个其他多媒体文件,如,假设存在5 个正例,则需要获得总数为5M的其他多媒体文件,并从中选取用于替换 负例的正侧。
三、从获得的各个其他多媒体文件中选取设定数目的其他多媒体文件 作为正例对所述负例进行替换,令替换后的正例和负例的比例达到设定比 例门限。
例如,可以将与“超人1”的主题类型关联程度最高的2(假设M=2) 个其他多媒体文件“正义者联盟”和“钢铁之躯”作为正例,替换掉负例 为“变身超人”,“史前超人”,令最终的正例和负例的比例达到约等于1: 1或2:1。
当然,可以在搜索引擎建立索引时,预先生成并保存若干主题相关集 合这样,在累积搜索一定周期后,无论哪一个多媒体文件作为正 侧,都可以随时从相应的主题相关集合中获取所需的其他多媒体文 件作为正例对负侧进行替换。
在对部分负例进行替换后,新加入的正例有可能还没有累积被点击次数以 及区间被点击次数变化率,因此,初始值可以基于主题分布概率向量的余弦相 似度进行标注和排序,累积一段时间后,再计算相应的累积被点击次数、区间 被点击次数变化率和主题类型关联程度,并最终和原有的正例一起,计算出搜 索结果x的排序标注函数值,并转换成标注后的样本数据。
进一步地,在累积定的周期后,如果新加入的正例的累积被点数次数仍然 为0,则将其作为负例,采用相同方式再次进行替换,将不再赘述。
步骤120:筛选出排序标注函数值符合预设条件的样本数据,采用预设算 法进行模型训练,生成相应的多媒体文件搜索排序模型。
具体的,在获得标注完毕的海量的样本数据后,会尽量筛选出优质的样本 数据用于后续的模型训练,可选的,上述预设条件可以是:筛选出排序标注函 数值最高的N个样本数据(N为设定自然数),上述预设条件也可以是:筛选 出排序标注函数值达到设定参数门限的样本数据。
这是因为,排序标注函数值越高,说明关键词和相应的搜索结果之间的搜 索意图对应越明确,因此,排序标注函数值越高的样本数据越为优质,更有利 于提高后续训练的多媒体文件搜索排序模型的排序精准性。
进一步的,除了按照排序标注函数值进行样本数据筛选,本发明实施例中, 在基于排序标注函数值获得最终优质的样本数据之前,还可以采用以下方式中 的一种或任意组合进行样本数据的预筛选:
在大数据环境下,模型训练的泛化能力可以基于海量的样本数据集获得增 强,因此样本数据的数量越大越好,累积的时长越长越好,因此,可以采用的 方式包含但不限于:
方式1:筛选出符合预设数据规模的样本数据。
例如:需要筛选出的样本数据的总数量≥100万条。
又例如:需要筛选出作为测试样本集合的样本数据的数据量≥20万条。
方式2:筛选出关键词对应的搜索结果包含的多媒体文件达到设定阈值的 样本数据。
例如:需要筛选出搜索结果包含的多媒体文件≥60个的样本数据。
方式3:筛选出关键词对应的搜索结果包含的多媒体文件的发布时间达到 设定时长门限的样本数据。
例如:需要筛选出搜索结果包含的多媒体文件的发布时长≥15天的样本数 据。
方式4:删除关键词为单数据或/和单字母对应的样本数据。
在搜索日志中,经常会出现单数字、单字母的搜索,其搜索目的性不明确, 但是累积的被点击次数很高,而返回的搜索结果命中率也很大,这是典型的坏 样本数据,需要去除,以保证关键词和搜索结果之间的搜索意图一致性。
基于上述样本数据筛选策略,进一步地,本发明实施例中,在筛选出 所需要的优质的样本数据后,可以采用预设算法进行模型训练,生成相应 的多媒体文件搜索排序模型,具体包括:
1)分别确定各个样本数据的关联特征,一个样本数据的关联特征至 少包括关键词特征、关键词和相应的搜索结果包含的多媒体文件之间的相 关性特征,搜索结果包含的多媒体文件的属性特征,以及搜索结果包含的 多媒体文件之间的相关性特征。
上述各类特征,可以采用边搜索边计算的方法,在通过关键词获得相 应的搜索结果时提取,也可以在进行正负例替换的过程中提取,也可以计 算排序标注函数值的过程中提取,还可以在计算排序标注函数值之后提取, 提取后会保存的日志文件中,在进行模型训练时,会从日志文件中获取并 使用,将不再赘述。
具体的,参阅表2所示,可以将样本数据的关联特征可以采用特征向 量的形式表示,记为:f=(fq,fq-d,fd,fd-d);
其中,参阅表2所示,fq,表示关键词特征,至少由关键词的长度和 关键词在历史搜索中出现的次数组成。
fq-d,表示关键词和相应的搜索结果包含的多媒体文件之间的相关性 特征,至少由关键词在多媒体文件标题中的占比、关键词与多媒体文件标 题的偏移量、关键词与多媒体文件的文本相似度(BM25)、关键词与多媒 体文件的词频-逆文档词频(TF-IDF)组成。
fd,表示多媒体文件的属性特征,至少表示了多媒体文件在多个维度 的衡量。
fd-d,表示多媒体文件之间的相关性特征,至少表示搜索结果内将各 个多媒体文件按照累积被点击次数排序后,相邻的多媒体文件之间的主题 分布概率相似度。
表2
2)将样本数据转换为指定格式。
可选的,可以将样本数据转换为符合Spark MLlib〔Apache Spark是专 为大规模数据处理而设计的快速通用的计算引擎,MLlib是Spark的机器 学习(ML)库〕的排序学习类型LabelPoint(MLlib的一种基本数据类型) 格式。
3)将转换后的样本数据划分为训练集和测试集。
4)基于训练集及相应的关联特征,采用分布式梯度提升决策树 (GradientBoosting Decision Tree,GBDT)算法,进行多决策树模型的迭 代训练,获得训练模型。
具体的,可以在Spark MLLib的分布式GBDT算法基础上,构建基于 Lambda算法的多元可加回归树(Lambda and Multiple Additive Regression Tree,LambdaMART)进行多决策树模型的迭代训练。
其中,可选的,算法迭代次数:300~500代,MART树的深度:3层, 学习步长:0.05,损失函数:L2loss函数:其中, i为真值,F(xi)为预测值,N为样本数据数目,Loss值越小,则表征该 训练模型越好。
5)基于测试集及相应的关联特征,对生成的训练模型进行测试,生 成相应的评价指标。
可选的,可以采用拟合度和NDGG作为评价指标,其中,
拟合度:采用均方根误差(Root Mean Squared Error,RMSE)评价LambdaMART算法在测试集上的拟合度;
归一化折损累积增益(Normalized Discounted Cumulative Gain,NDCG): 采用NDCG评价训练模型的排序效果。
6)基于获得的评价指标调整训练参数,优化训练模型,多次训练获 得最优的多媒体文件搜索排序模型。
可选的,可以利用Spark MLlib底层树结构 (DecisionTreeRegressionMode)将最优的多媒体文件搜索排序模型转换为 XML格式,方便ElasticSearch(一个基于Lucene的搜索服务器,提供了 一个分布式多用户能力的全文搜索引擎)搜索引擎加载。
将获得的最优的多媒体文件搜索排序模型以XML文件的形式保存在 hadoop分布式文件***(Hadoop Distributed File System,HDFS)中,然后, 在更新ElasticSearch相关索引时,将最优的多媒体文件搜索排序模型写入 到指定的索引字段,最后,在搜索语句中加入排序学习算法(Learning to Rank,LTR)模型调用,这样,可以采用最优的多媒体文件搜索排序模型, 对最新输入的关健词进行搜索,获得相应的搜索结果,所述搜索结果中包 含有当前最准确的多媒体文件,以及呈现了多媒体文件之间当前最准确的 排序结果。
当然,上述多媒体文件搜索排序模型(即LTR模型)需要按照设定周期更 新:如,按照设定周期重新选择和替换样本数据,并重新进行模型训练,以确 保多媒体文件搜索排序模型的时效性。
显然,基于样本数据的关联特征所获得的多媒体文件搜索排序模型,能够 准确地保证关键词的搜索结果之间的搜索意图一致性,有效提高了搜索结果的 精准性,以及提高了搜索结果包含的多媒体文件的排序准确,即有效利用排序 学习算法优化多媒体文件搜索的排序结果。
基于上述实施例,参阅图2所示,本发明实施例中,提供了一种多媒体文 件搜索排序模型的训练装置,所述训练装置至少包括:
获取单元20,用于确定关键词,以及获取各个关键词对应的搜索结果,其 中,一个搜索结果中包含相应的关键词对应的至少一个多媒体文件;
处理单元21,用于计算每一个关键词对应的搜索结果的排序标注函数值, 以及基于各个搜索结果的排序标注函数值生成相应的样本数据;其中,一个搜 索结果的排序标注函数值,至少与所述搜索结果包含的多媒体文件的被点击次 数以及所述多媒体文件之间的主题类型关联程度正相关;
训练单元22,用于筛选出排序标注函数值符合预设条件的样本数据,采用 预设算法进行模型训练,生成相应的多媒体文件搜索排序模型。
可选的,计算一个搜索结果的排序标注函数值时,处理单元21用于:
统计所述一个搜索结果包含的各个多媒体文件的累积被点击次数;
统计所述一个搜索结果包含的各个多媒体文件在指定时长内的区间被点 击次数变化率。
统计所述一个搜索结果中各个多媒体文件的主题类型分布概率向量,并基 于所述主题类型分布概率向量,计算所述各个多媒体文件之间的主题类型关联 程度;
基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率 和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值。
可选的,基于各个多媒体文件的所述累积被点击次数、所述区间被点击次 数变化率和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值 之前,处理单元21进一步用于:
将所述一个搜索结果中包含的累积被点击次数不为零的多媒体文件 作为正例,以及将所述一个搜索结果中包含的累积被点击次数为零的多媒 体文件作为负例。
针对每一个正例,分别确定主题类型关联程度最高的M个其他多媒 体文件,所述其他多媒体文件不包含在所述一个搜索结果中;
从获得的各个其他多媒体文件中选取设定数目的其他多媒体文件作 为正例,对所述负例进行替换,令替换后的正例和负例的比例达到设定比 例门限。
可选的,筛选出排序标注函数值符合预设条件的样本数据时,训练单元22 用于:
筛选出排序标注函数值最高的N个样本数据,其中,N为预设自然数;或 者,
筛选出排序标注函数值达到设定参数门限的样本数据。
可选的,筛选出排序标注函数值符合预设条件的样本数据之前,训练单元 22进一步用于执行以下操作中的任意一种或组合:
筛选出符合预设数据规模的样本数据;
筛选出关键词对应的搜索结果包含的多媒体文件达到设定阈值的样本数 据;
筛选出关键词对应的搜索结果包含的多媒体文件的发布时间达到设定时 长门限的样本数据;
删除关键词为单数据或/和单字母对应的样本数据。
可选的,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模 型时,训练单元22用于:
分别确定各个样本数据的关联特征,一个样本数据的关联特征至少包 括关键词特征、关键词和相应的搜索结果包含的多媒体文件之间的相关性 特征,搜索结果包含的多媒体文件的属性特征,以及搜索结果包含的多媒 体文件之间的相关性特征;
将样本数据划分为训练集和测试集;
基于所述训练集及相应的关联特征,采用分布式梯度提升决策树 GBDT算法,进行多决策树模型的迭代训练,获得相应的训练模型;
基于所述测试集及相应的关联特征,对生成的训练模型进行测试,生 成相应的评价指标;
基于获得的评价指标调整训练参数,优化训练模型,经过多次训练获 得最终的多媒体文件搜索排序模型。
基于上述实施例,参阅图3所示,本发明实施例中,提供了一种多媒体文 件搜索排序模型的训练装置,所述训练装置至少包括:
处理器300,用于读取存储器310中的程序,执行下列过程:
确定关键词,以及获取各个关键词对应的搜索结果,其中,一个搜索结果 中包含相应的关键词对应的至少一个多媒体文件;
计算每一个关键词对应的搜索结果的排序标注函数值,以及基于各个搜索 结果的排序标注函数值生成相应的样本数据;其中,一个搜索结果的排序标注 函数值,至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体 文件之间的主题类型关联程度正相关;
筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型 训练,生成相应的多媒体文件搜索排序模型。
其中,在图3中,总线架构可以包括任意数量的互联的总线和桥,具体由 处理器300代表的一个或多个处理器和存储器310代表的存储器的各种电路链 接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的 各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进 行进一步描述。总线接口提供接口。收发机可以是多个元件,即包括发送机和 接收机,提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户 设备,用户接口还可以是能够外接内接需要设备的接口,连接的设备包括但不 限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器300负责管理总线架构和通常的处理,存储器310可以存储处理器 300在执行操作时所使用的数据。
可选的,计算一个搜索结果的排序标注函数值时,处理器300用于:
统计所述一个搜索结果包含的各个多媒体文件的累积被点击次数;
统计所述一个搜索结果包含的各个多媒体文件在指定时长内的区间被点 击次数变化率。
统计所述一个搜索结果中各个多媒体文件的主题类型分布概率向量,并基 于所述主题类型分布概率向量,计算所述各个多媒体文件之间的主题类型关联 程度;
基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率 和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值。
可选的,基于各个多媒体文件的所述累积被点击次数、所述区间被点击次 数变化率和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值 之前,处理器300进一步用于:
将所述一个搜索结果中包含的累积被点击次数不为零的多媒体文件 作为正例,以及将所述一个搜索结果中包含的累积被点击次数为零的多媒 体文件作为负例。
针对每一个正例,分别确定主题类型关联程度最高的M个其他多媒 体文件,所述其他多媒体文件不包含在所述一个搜索结果中;
从获得的各个其他多媒体文件中选取设定数目的其他多媒体文件作 为正例,对所述负例进行替换,令替换后的正例和负例的比例达到设定比 例门限。
可选的,筛选出排序标注函数值符合预设条件的样本数据时,处理器300 用于:
筛选出排序标注函数值最高的N个样本数据,其中,N为预设自然数;或 者,
筛选出排序标注函数值达到设定参数门限的样本数据。
可选的,筛选出排序标注函数值符合预设条件的样本数据之前,处理器300 进一步用于执行以下操作中的任意一种或组合:
筛选出符合预设数据规模的样本数据;
筛选出关键词对应的搜索结果包含的多媒体文件达到设定阈值的样本数 据;
筛选出关键词对应的搜索结果包含的多媒体文件的发布时间达到设定时 长门限的样本数据;
删除关键词为单数据或/和单字母对应的样本数据。
可选的,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模 型时,处理器300用于:
分别确定各个样本数据的关联特征,一个样本数据的关联特征至少包 括关键词特征、关键词和相应的搜索结果包含的多媒体文件之间的相关性 特征,搜索结果包含的多媒体文件的属性特征,以及搜索结果包含的多媒 体文件之间的相关性特征;
将样本数据划分为训练集和测试集;
基于所述训练集及相应的关联特征,采用分布式梯度提升决策树 GBDT算法,进行多决策树模型的迭代训练,获得相应的训练模型;
基于所述测试集及相应的关联特征,对生成的训练模型进行测试,生 成相应的评价指标;
基于获得的评价指标调整训练参数,优化训练模型,经过多次训练获 得最终的多媒体文件搜索排序模型。
一种存储介质,存储有用于实现多媒体文件搜索排序模型的训练的程序, 所述程序被处理器运行时,执行以下步骤:
确定关键词,以及获取各个关键词对应的搜索结果,其中,一个搜索结果 中包含相应的关键词对应的至少一个多媒体文件;
计算每一个关键词对应的搜索结果的排序标注函数值,以及基于各个搜索 结果的排序标注函数值生成相应的样本数据;其中,一个搜索结果的排序标注 函数值,至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体 文件之间的主题类型关联程度正相关;
筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型 训练,生成相应的多媒体文件搜索排序模型。
基于同一发明构思,提供一种存储介质,存储有用于实现多媒体文件搜索 排序模型的训练的程序,所述程序被处理器运行时,执行以下步骤:
确定关键词,以及获取各个关键词对应的搜索结果,其中,一个搜索结果 中包含相应的关键词对应的至少一个多媒体文件;
计算每一个关键词对应的搜索结果的排序标注函数值,以及基于各个搜索 结果的排序标注函数值生成相应的样本数据;其中,一个搜索结果的排序标注 函数值,至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体 文件之间的主题类型关联程度正相关;
筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型 训练,生成相应的多媒体文件搜索排序模型。
基于上述实施例,本发明实施例中,确定关键词及相应的搜索结果后,计 算每一个关键词对应的搜索结果的排序标注函数值,并生成相应的样本数据, 其中,所述排序标注函数值与多媒体文件的被点击次数以及所述多媒体文件之 间的主题类型关联程度正相关,以及筛选出排序标注函数值符合预设条件的样 本数据,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模型。 这样,可以有效地完成样本数据的标注,从而筛选出关键词与搜索结果的搜索 意图一致的样本数据,提升了样本数据的质量,进而能够有效提升了训练获得 的多媒体文件搜索排序模型的排序精准性,解决了搜索结果的排序优化问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计 算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱 离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属 于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和 变型在内。
Claims (9)
1.一种多媒体文件搜索排序模型的训练方法,其特征在于,包括:
确定关键词,以及获取各个关键词对应的搜索结果,其中,一个搜索结果中包含相应的关键词对应的至少一个多媒体文件;
计算每一个关键词对应的搜索结果的排序标注函数值,以及基于各个搜索结果的排序标注函数值生成相应的样本数据;其中,一个搜索结果的排序标注函数值,至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关;
筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模型。
2.如权利要求1所述的方法,其特征在于,计算一个搜索结果的排序标注函数值,包括:
统计所述一个搜索结果包含的各个多媒体文件的累积被点击次数;
统计所述一个搜索结果包含的各个多媒体文件在指定时长内的区间被点击次数变化率;
统计所述一个搜索结果中各个多媒体文件的主题类型分布概率向量,并基于所述主题类型分布概率向量,计算所述各个多媒体文件之间的主题类型关联程度;
基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值。
3.如权利要求2所述的方法,其特征在于,基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率和所述主题类型关联程度,计算所述一个搜索结果的排序标注函数值之前,进一步包括:
将所述一个搜索结果中包含的累积被点击次数不为零的多媒体文件作为正例,以及将所述一个搜索结果中包含的累积被点击次数为零的多媒体文件作为负例;
针对每一个正例,分别确定主题类型关联程度最高的M个其他多媒体文件,所述其他多媒体文件不包含在所述一个搜索结果中;
从获得的各个其他多媒体文件中选取设定数目的其他多媒体文件作为正例,对所述负例进行替换,令替换后的正例和负例的比例达到设定比例门限。
4.如权利要求1所述的方法,其特征在于,筛选出排序标注函数值符合预设条件的样本数据,包括:
筛选出排序标注函数值最高的N个样本数据,其中,N为预设自然数;或者,
筛选出排序标注函数值达到设定参数门限的样本数据。
5.如权利要求4所述的方法,其特征在于,筛选出排序标注函数值符合预设条件的样本数据之前,进一步执行以下操作中的任意一种或组合:
筛选出符合预设数据规模的样本数据;
筛选出关键词对应的搜索结果包含的多媒体文件达到设定阈值的样本数据;
筛选出关键词对应的搜索结果包含的多媒体文件的发布时间达到设定时长门限的样本数据;
删除关键词为单数据或/和单字母对应的样本数据。
6.如权利要求1-5任一项所述的方法,其特征在于,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模型,包括:
分别确定各个样本数据的关联特征,一个样本数据的关联特征至少包括关键词特征、关键词和相应的搜索结果包含的多媒体文件之间的相关性特征,搜索结果包含的多媒体文件的属性特征,以及搜索结果包含的多媒体文件之间的相关性特征;
将样本数据划分为训练集和测试集;
基于所述训练集及相应的关联特征,采用分布式梯度提升决策树GBDT算法,进行多决策树模型的迭代训练,获得相应的训练模型;
基于所述测试集及相应的关联特征,对生成的训练模型进行测试,生成相应的评价指标;
基于获得的评价指标调整训练参数,优化训练模型,经过多次训练获得最终的多媒体文件搜索排序模型。
7.一种多媒体文件搜索排序模型的训练装置,其特征在于,包括:
获取单元,用于确定关键词,以及获取各个关键词对应的搜索结果,其中,一个搜索结果中包含相应的关键词对应的至少一个多媒体文件;
处理单元,用于计算每一个关键词对应的搜索结果的排序标注函数值,以及基于各个搜索结果的排序标注函数值生成相应的样本数据;其中,一个搜索结果的排序标注函数值,至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关;
训练单元,用于筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模型。
8.一种多媒体文件搜索排序模型的训练装置,其特征在于,至少包括处理器和存储器,其中,
处理器,用于读取存储器中的程序,执行下列过程:
确定关键词,以及获取各个关键词对应的搜索结果,其中,一个搜索结果中包含相应的关键词对应的至少一个多媒体文件;
计算每一个关键词对应的搜索结果的排序标注函数值,以及基于各个搜索结果的排序标注函数值生成相应的样本数据;其中,一个搜索结果的排序标注函数值,至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关;
筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模型。
9.一种存储介质,其特征在于,存储有用于实现多媒体文件搜索排序模型的训练的程序,所述程序被处理器运行时,执行以下步骤:
确定关键词,以及获取各个关键词对应的搜索结果,其中,一个搜索结果中包含相应的关键词对应的至少一个多媒体文件;
计算每一个关键词对应的搜索结果的排序标注函数值,以及基于各个搜索结果的排序标注函数值生成相应的样本数据;其中,一个搜索结果的排序标注函数值,至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关;
筛选出排序标注函数值符合预设条件的样本数据,采用预设算法进行模型训练,生成相应的多媒体文件搜索排序模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811214519.4A CN109508394A (zh) | 2018-10-18 | 2018-10-18 | 一种多媒体文件搜索排序模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811214519.4A CN109508394A (zh) | 2018-10-18 | 2018-10-18 | 一种多媒体文件搜索排序模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109508394A true CN109508394A (zh) | 2019-03-22 |
Family
ID=65746735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811214519.4A Pending CN109508394A (zh) | 2018-10-18 | 2018-10-18 | 一种多媒体文件搜索排序模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508394A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909182A (zh) * | 2019-11-29 | 2020-03-24 | 北京达佳互联信息技术有限公司 | 多媒体资源搜索方法、装置、计算机设备及存储介质 |
CN111221969A (zh) * | 2019-12-31 | 2020-06-02 | 国网北京市电力公司 | 文本差异识别方法和装置 |
CN111444380A (zh) * | 2020-03-26 | 2020-07-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐搜索排序方法、装置、设备和存储介质 |
CN111599219A (zh) * | 2020-05-27 | 2020-08-28 | 中航信移动科技有限公司 | 一种基于排序学习的多数据源航班起飞时间预测方法 |
CN111597469A (zh) * | 2020-05-19 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 展示位置的确定方法、确定装置、电子设备及存储介质 |
CN111782950A (zh) * | 2020-06-30 | 2020-10-16 | 北京三快在线科技有限公司 | 样本数据集获取方法、装置、设备及存储介质 |
CN111783452A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 模型训练方法、信息处理方法、装置、设备及存储介质 |
CN112084435A (zh) * | 2020-08-07 | 2020-12-15 | 北京三快在线科技有限公司 | 搜索排序模型训练方法及装置、搜索排序方法及装置 |
CN112364184A (zh) * | 2020-11-12 | 2021-02-12 | 北京达佳互联信息技术有限公司 | 多媒体数据的排序方法、装置、服务器及存储介质 |
CN112650952A (zh) * | 2020-12-25 | 2021-04-13 | 北京达佳互联信息技术有限公司 | 一种搜索排序方法及装置 |
CN113076395A (zh) * | 2021-03-25 | 2021-07-06 | 北京达佳互联信息技术有限公司 | 语义模型训练、搜索显示方法、装置、设备及存储介质 |
CN113326363A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 搜索方法及装置、预测模型训练方法及装置、电子设备 |
CN113535990A (zh) * | 2020-11-10 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 确定多媒体内容的方法、装置、存储介质和电子设备 |
CN113704507A (zh) * | 2021-10-26 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、计算机设备以及可读存储介质 |
CN113934872A (zh) * | 2021-10-29 | 2022-01-14 | 北京达佳互联信息技术有限公司 | 一种搜索结果的排序方法、装置、设备以及存储介质 |
CN114691906A (zh) * | 2020-12-29 | 2022-07-01 | 北京达佳互联信息技术有限公司 | 媒体内容的处理方法、装置、电子设备及存储介质 |
CN115048587A (zh) * | 2022-08-12 | 2022-09-13 | 中博信息技术研究院有限公司 | 一种基于LambdaMart的通讯录搜索智能排序方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110029517A1 (en) * | 2009-07-31 | 2011-02-03 | Shihao Ji | Global and topical ranking of search results using user clicks |
US20120030152A1 (en) * | 2010-07-30 | 2012-02-02 | Yahoo! Inc. | Ranking entity facets using user-click feedback |
CN102637179A (zh) * | 2011-02-14 | 2012-08-15 | 阿里巴巴集团控股有限公司 | 词项加权函数确定及基于该函数进行搜索的方法及装置 |
CN102722501A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN103914478A (zh) * | 2013-01-06 | 2014-07-09 | 阿里巴巴集团控股有限公司 | 网页训练方法及***、网页预测方法及*** |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN106202294A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 基于关键词和主题模型融合的相关新闻计算方法及装置 |
CN107506402A (zh) * | 2017-08-03 | 2017-12-22 | 北京百度网讯科技有限公司 | 搜索结果的排序方法、装置、设备及计算机可读存储介质 |
CN108121736A (zh) * | 2016-11-30 | 2018-06-05 | 北京搜狗科技发展有限公司 | 一种主题词确定模型的建立方法、装置及电子设备 |
CN108280155A (zh) * | 2018-01-11 | 2018-07-13 | 百度在线网络技术(北京)有限公司 | 基于短视频的问题检索反馈方法、装置及其设备 |
CN108345702A (zh) * | 2018-04-10 | 2018-07-31 | 北京百度网讯科技有限公司 | 实体推荐方法和装置 |
-
2018
- 2018-10-18 CN CN201811214519.4A patent/CN109508394A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110029517A1 (en) * | 2009-07-31 | 2011-02-03 | Shihao Ji | Global and topical ranking of search results using user clicks |
US20120030152A1 (en) * | 2010-07-30 | 2012-02-02 | Yahoo! Inc. | Ranking entity facets using user-click feedback |
US9262532B2 (en) * | 2010-07-30 | 2016-02-16 | Yahoo! Inc. | Ranking entity facets using user-click feedback |
CN102637179A (zh) * | 2011-02-14 | 2012-08-15 | 阿里巴巴集团控股有限公司 | 词项加权函数确定及基于该函数进行搜索的方法及装置 |
CN102722501A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN103914478A (zh) * | 2013-01-06 | 2014-07-09 | 阿里巴巴集团控股有限公司 | 网页训练方法及***、网页预测方法及*** |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN106202294A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 基于关键词和主题模型融合的相关新闻计算方法及装置 |
CN108121736A (zh) * | 2016-11-30 | 2018-06-05 | 北京搜狗科技发展有限公司 | 一种主题词确定模型的建立方法、装置及电子设备 |
CN107506402A (zh) * | 2017-08-03 | 2017-12-22 | 北京百度网讯科技有限公司 | 搜索结果的排序方法、装置、设备及计算机可读存储介质 |
CN108280155A (zh) * | 2018-01-11 | 2018-07-13 | 百度在线网络技术(北京)有限公司 | 基于短视频的问题检索反馈方法、装置及其设备 |
CN108345702A (zh) * | 2018-04-10 | 2018-07-31 | 北京百度网讯科技有限公司 | 实体推荐方法和装置 |
Non-Patent Citations (2)
Title |
---|
MICHAEL BENDERSKY, ET AL.: "Up Next: Retrieval Methods for Large Scale Related Video Suggestion", 《KDD "14: PROCEEDINGS OF THE 20TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 * |
QIUSHA ZHU;MEI-LING SHYU;HAOHONG WANG: "VideoTopic: Content-Based Video Recommendation Using a Topic Model", 《2013 IEEE INTERNATIONAL SYMPOSIUM ON MULTIMEDIA》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909182B (zh) * | 2019-11-29 | 2023-05-09 | 北京达佳互联信息技术有限公司 | 多媒体资源搜索方法、装置、计算机设备及存储介质 |
CN110909182A (zh) * | 2019-11-29 | 2020-03-24 | 北京达佳互联信息技术有限公司 | 多媒体资源搜索方法、装置、计算机设备及存储介质 |
CN111221969A (zh) * | 2019-12-31 | 2020-06-02 | 国网北京市电力公司 | 文本差异识别方法和装置 |
CN111444380B (zh) * | 2020-03-26 | 2023-05-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐搜索排序方法、装置、设备和存储介质 |
CN111444380A (zh) * | 2020-03-26 | 2020-07-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐搜索排序方法、装置、设备和存储介质 |
CN111597469A (zh) * | 2020-05-19 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 展示位置的确定方法、确定装置、电子设备及存储介质 |
CN111599219A (zh) * | 2020-05-27 | 2020-08-28 | 中航信移动科技有限公司 | 一种基于排序学习的多数据源航班起飞时间预测方法 |
CN111783452A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 模型训练方法、信息处理方法、装置、设备及存储介质 |
CN111783452B (zh) * | 2020-06-30 | 2024-04-02 | 北京百度网讯科技有限公司 | 模型训练方法、信息处理方法、装置、设备及存储介质 |
CN111782950A (zh) * | 2020-06-30 | 2020-10-16 | 北京三快在线科技有限公司 | 样本数据集获取方法、装置、设备及存储介质 |
CN112084435A (zh) * | 2020-08-07 | 2020-12-15 | 北京三快在线科技有限公司 | 搜索排序模型训练方法及装置、搜索排序方法及装置 |
CN113535990A (zh) * | 2020-11-10 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 确定多媒体内容的方法、装置、存储介质和电子设备 |
CN113535990B (zh) * | 2020-11-10 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 确定多媒体内容的方法、装置、存储介质和电子设备 |
CN112364184B (zh) * | 2020-11-12 | 2024-04-30 | 北京达佳互联信息技术有限公司 | 多媒体数据的排序方法、装置、服务器及存储介质 |
CN112364184A (zh) * | 2020-11-12 | 2021-02-12 | 北京达佳互联信息技术有限公司 | 多媒体数据的排序方法、装置、服务器及存储介质 |
CN112650952A (zh) * | 2020-12-25 | 2021-04-13 | 北京达佳互联信息技术有限公司 | 一种搜索排序方法及装置 |
CN112650952B (zh) * | 2020-12-25 | 2023-07-25 | 北京达佳互联信息技术有限公司 | 一种搜索排序方法及装置 |
CN114691906A (zh) * | 2020-12-29 | 2022-07-01 | 北京达佳互联信息技术有限公司 | 媒体内容的处理方法、装置、电子设备及存储介质 |
CN113076395B (zh) * | 2021-03-25 | 2024-03-26 | 北京达佳互联信息技术有限公司 | 语义模型训练、搜索显示方法、装置、设备及存储介质 |
CN113076395A (zh) * | 2021-03-25 | 2021-07-06 | 北京达佳互联信息技术有限公司 | 语义模型训练、搜索显示方法、装置、设备及存储介质 |
CN113326363B (zh) * | 2021-05-27 | 2023-07-25 | 北京百度网讯科技有限公司 | 搜索方法及装置、预测模型训练方法及装置、电子设备 |
CN113326363A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 搜索方法及装置、预测模型训练方法及装置、电子设备 |
CN113704507B (zh) * | 2021-10-26 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 数据处理方法、计算机设备以及可读存储介质 |
CN113704507A (zh) * | 2021-10-26 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、计算机设备以及可读存储介质 |
CN113934872A (zh) * | 2021-10-29 | 2022-01-14 | 北京达佳互联信息技术有限公司 | 一种搜索结果的排序方法、装置、设备以及存储介质 |
CN115048587A (zh) * | 2022-08-12 | 2022-09-13 | 中博信息技术研究院有限公司 | 一种基于LambdaMart的通讯录搜索智能排序方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508394A (zh) | 一种多媒体文件搜索排序模型的训练方法及装置 | |
US9454599B2 (en) | Automatic definition of entity collections | |
CN104077306B (zh) | 一种搜索引擎的结果排序方法及*** | |
US11216503B1 (en) | Clustering search results | |
CN103218436B (zh) | 一种融合用户类别标签的相似问题检索方法及装置 | |
Hayat et al. | Best concept selection in design process: An application of generalized intuitionistic fuzzy soft sets | |
CN105005589A (zh) | 一种文本分类的方法和装置 | |
CN108280155A (zh) | 基于短视频的问题检索反馈方法、装置及其设备 | |
CN104111925B (zh) | 项目推荐方法和装置 | |
US20150100605A1 (en) | Determining collection membership in a data graph | |
CN110046298A (zh) | 一种查询词推荐方法、装置、终端设备及计算机可读介质 | |
CN110287420A (zh) | 一种信息推荐***的训练方法及装置 | |
CN116306923A (zh) | 一种基于知识图谱的评价权重计算方法 | |
Ma et al. | Content Feature Extraction-based Hybrid Recommendation for Mobile Application Services. | |
Chen et al. | Time-aware collaborative poisson factorization for service recommendation | |
CN106776782A (zh) | 基于人工智能的语义相似度获取方法及装置 | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
Wang et al. | A personalization-oriented academic literature recommendation method | |
CN108536796A (zh) | 一种基于图的异构本体匹配方法及*** | |
CN114692978A (zh) | 一种基于大数据的社交媒体用户行为预测方法及*** | |
CN110413782B (zh) | 一种表自动主题分类方法、装置、计算机设备及存储介质 | |
CN113779933A (zh) | 商品的编码方法、电子设备及计算机可读存储介质 | |
CN109711651B (zh) | 一种带修正向量的隐含因子模型威客任务推荐方法 | |
Yang et al. | Study on the application of data mining for customer groups based on the modified ID3 algorithm in the e-commerce | |
Cravino et al. | Using the overlapping community structure of a network of tags to improve text clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |