CN109508394A

CN109508394A - 一种多媒体文件搜索排序模型的训练方法及装置

Info

Publication number: CN109508394A
Application number: CN201811214519.4A
Authority: CN
Inventors: 赵明; 徐钊; 于松; 袁丽; 王永选; 杨梅
Original assignee: Qingdao Poly Cloud Technology Co Ltd
Current assignee: Qingdao Poly Cloud Technology Co Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-03-22

Abstract

本发明涉及计算机技术，公开了一种多媒体文件搜索排序模型训练的方法及装置，用以提高搜索结果的排序精准性。该方法为，确定关键词及相应的搜索结果后，计算每一个关键词对应的搜索结果的排序标注函数值，并生成相应的样本数据，其中，所述排序标注函数值与多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关，以及筛选出排序标注函数值符合预设条件的样本数据，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型。这样，能够筛选出关键词与搜索结果的搜索意图一致的样本数据，提升了样本数据的质量，进而能够有效提升训练获得的多媒体文件搜索排序模型的排序精准性，解决了搜索结果的排序优化问题。

Description

一种多媒体文件搜索排序模型的训练方法及装置

技术领域

本发明涉及计算技术，尤其涉及一种多媒体文件搜索排序模型的训练方法及装置。

背景技术

已有技术下，用户在智能电视上进行多媒体文件搜索(如，影片搜索)，时，智能电视往往根据用户输入的关键词，采用列表方式返回搜索结果。为了能够为用户提供更为准确的搜索结果，需要基于已有的历史搜索数据进行搜索模型训练，然而，采用已有的历史搜索数据进行搜索模型训练却存在以下缺陷：

1)智能电视接收用户输入的关键词后，会将所有包含关键词的多媒体文件均作为搜索结果进行呈现。

然而，从目前的反馈结果来看，仅仅包含关键词的搜索结果往往包含很高的噪声数据。

例如，假设用户输入的关键词为“超人”，那么，智能电视进行搜索后，会将包含“超人”两个字的电影均作为搜索结果进行呈现，然而，用户只希望看到超人系列的电影，其他包含“超人”两字，内容却不相关的电影均为噪声数据，如，超人总动员，然而，《超人总动员》等相关性较差的搜索结果可能因为热度较高的原因，排序在《超人》的前面，因此，排序结果不符合用户的期望。

显然，如果将包含热度较高的噪声数据的搜索结果作为样本数据进行搜索模型训练，会影响搜索模型的排序精准性。

2)实际应用中，由于用户通过遥控器输入关键词时，为了节省时间，往往会采用多媒体文件的拼音首字母作为关键词输入。

然而，从目前的反馈结果来看，将拼音首字母作为关键词输入，会造成关键词表意不准确，在一定程度上会令搜索结果中包含更多的噪声数据。

例如，假设用户输入的关键词为“CR”，而搜索结果中，除了“超人”之外，还有“草人(例：夺命稻草人)”、“成人(例：长大成人)”、“传人(例：少林传人)”等等一系列文字，这些文字和用户的实际搜索意图相距甚远，因此，使用这些噪声数据进行搜索后，获得的搜索结果中仍会包含大量噪声数据。

同理，如果将包含热度较高的噪声数据的搜索结果作为样本数据进行搜索模型训练，会影响搜索模型的排序精准性。

有鉴于此，需要设计一种新的多媒体文件搜索排序模型的建立方法，以克服上述缺陷。

发明内容

本发明的目的是提供一种多媒体文件搜索排序模型的训练方法及装置，用以提高搜索结果的排序精准性。

本发明实施例提供的具体技术方案如下：

一种多媒体文件搜索排序模型的训练方法，包括：

确定关键词，以及获取各个关键词对应的搜索结果，其中，一个搜索结果中包含相应的关键词对应的至少一个多媒体文件；

计算每一个关键词对应的搜索结果的排序标注函数值，以及基于各个搜索结果的排序标注函数值生成相应的样本数据；其中，一个搜索结果的排序标注函数值，至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关；

筛选出排序标注函数值符合预设条件的样本数据，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型。

可选的，计算一个搜索结果的排序标注函数值，包括：

统计所述一个搜索结果包含的各个多媒体文件的累积被点击次数；

统计所述一个搜索结果包含的各个多媒体文件在指定时长内的区间被点击次数变化率。

统计所述一个搜索结果中各个多媒体文件的主题类型分布概率向量，并基于所述主题类型分布概率向量，计算所述各个多媒体文件之间的主题类型关联程度；

基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率和所述主题类型关联程度，计算所述一个搜索结果的排序标注函数值。

可选的，基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率和所述主题类型关联程度，计算所述一个搜索结果的排序标注函数值之前，进一步包括：

将所述一个搜索结果中包含的累积被点击次数不为零的多媒体文件作为正例，以及将所述一个搜索结果中包含的累积被点击次数为零的多媒体文件作为负例。

针对每一个正例，分别确定主题类型关联程度最高的M个其他多媒体文件，所述其他多媒体文件不包含在所述一个搜索结果中；

从获得的各个其他多媒体文件中选取设定数目的其他多媒体文件作为正例，对所述负例进行替换，令替换后的正例和负例的比例达到设定比例门限。

可选的，筛选出排序标注函数值符合预设条件的样本数据，包括：

筛选出排序标注函数值最高的N个样本数据，其中，N为预设自然数；或者，

筛选出排序标注函数值达到设定参数门限的样本数据。

可选的，筛选出排序标注函数值符合预设条件的样本数据之前，进一步执行以下操作中的任意一种或组合：

筛选出符合预设数据规模的样本数据；

筛选出关键词对应的搜索结果包含的多媒体文件达到设定阈值的样本数据；

筛选出关键词对应的搜索结果包含的多媒体文件的发布时间达到设定时长门限的样本数据；

删除关键词为单数据或/和单字母对应的样本数据。

可选的，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型，包括：

分别确定各个样本数据的关联特征，一个样本数据的关联特征至少包括关键词特征、关键词和相应的搜索结果包含的多媒体文件之间的相关性特征，搜索结果包含的多媒体文件的属性特征，以及搜索结果包含的多媒体文件之间的相关性特征；

将样本数据划分为训练集和测试集；

基于所述训练集及相应的关联特征，采用分布式梯度提升决策树 GBDT算法，进行多决策树模型的迭代训练，获得相应的训练模型；

基于所述测试集及相应的关联特征，对生成的训练模型进行测试，生成相应的评价指标；

基于获得的评价指标调整训练参数，优化训练模型，经过多次训练获得最终的多媒体文件搜索排序模型。

一种多媒体文件搜索排序模型的训练装置，包括：

获取单元，用于确定关键词，以及获取各个关键词对应的搜索结果，其中，一个搜索结果中包含相应的关键词对应的至少一个多媒体文件；

处理单元，用于计算每一个关键词对应的搜索结果的排序标注函数值，以及基于各个搜索结果的排序标注函数值生成相应的样本数据；其中，一个搜索结果的排序标注函数值，至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关；

训练单元，用于筛选出排序标注函数值符合预设条件的样本数据，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型。

可选的，计算一个搜索结果的排序标注函数值时，所述处理单元用于：

可选的，基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率和所述主题类型关联程度，计算所述一个搜索结果的排序标注函数值之前，所述处理单元进一步用于：

可选的，筛选出排序标注函数值符合预设条件的样本数据时，所述训练单元用于：

筛选出排序标注函数值达到设定参数门限的样本数据。

可选的，筛选出排序标注函数值符合预设条件的样本数据之前，所述训练单元进一步用于执行以下操作中的任意一种或组合：

筛选出符合预设数据规模的样本数据；

删除关键词为单数据或/和单字母对应的样本数据。

可选的，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型时，所述训练单元用于：

将样本数据划分为训练集和测试集；

一种多媒体文件搜索排序模型的训练装置，至少包括处理器和存储器，其中，

处理器，用于读取存储器中的程序，执行下列过程：

可选的，计算一个搜索结果的排序标注函数值时，所述处理器用于：

可选的，基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率和所述主题类型关联程度，计算所述一个搜索结果的排序标注函数值之前，所述处理器进一步用于：

可选的，筛选出排序标注函数值符合预设条件的样本数据时，所述处理器用于：

筛选出排序标注函数值达到设定参数门限的样本数据。

可选的，筛选出排序标注函数值符合预设条件的样本数据之前，所述处理器进一步用于执行以下操作中的任意一种或组合：

筛选出符合预设数据规模的样本数据；

删除关键词为单数据或/和单字母对应的样本数据。

可选的，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型时，所述处理器用于：

将样本数据划分为训练集和测试集；

一种存储介质，存储有用于实现多媒体文件搜索排序模型的训练的程序，所述程序被处理器运行时，执行以下步骤：

本发明实施例中，确定关键词及相应的搜索结果后，计算每一个关键词对应的搜索结果的排序标注函数值，并生成相应的样本数据，其中，所述排序标注函数值与多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关，以及筛选出排序标注函数值符合预设条件的样本数据，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型。这样，可以有效地完成样本数据的标注，从而筛选出关键词与搜索结果的搜索意图一致的样本数据，提升了样本数据的质量，进而能够有效提升了训练获得的多媒体文件搜索排序模型的排序精准性，解决了搜索结果的排序优化问题。

附图说明

图1为本发明实施例中多媒体文件搜索排序模型的训练流程示意图；

图2为本发明实施例中多媒体文件搜索排序模型的训练装置功能结构示意图；

图3为本发明实施例中多媒体文件搜索排序模型的训练装置实体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1所示，本发明实施例中，本发明实施例中，建立多媒体文件搜索排序模型的详细流程如下：

步骤100：确定设定的关键词，以及获取各个关键词对应的搜索结果，其中，一个搜索结果中包含相应的关键词对应的至少一个多媒体文件。

步骤110：计算每一个关键词对应的搜索结果的排序标注函数值，一个搜索结果的排序标注函数值，至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体文件之间的文件类型关联度正相关。

具体在，以一个搜索结果x为例，在计算搜索结果x的排序标注函数值时，包含但不限于以下操作：

步骤A：统计搜索结果x中各个多媒体文件的累积被点击次数。

为了保证样本数据标注的合理性和准确性，可以统计搜索结果x中各个多媒体文件的累积被点击次数，其中，所谓的累积被点击次数，是指多媒体文件发布之后，到统计的当前时间之间的被点击总次数。

例如，假设输入一个关键词后，假设获得的关键词集合Q＝{q₁,…,q_m}，每一个关键词qi均对应一个搜索结果，搜索结果中包含有影片列表 1≤i≤m，而用户一次点击的记录结果表征为其中，被点击的影片等于1，其他影片等于0，具体如表1所示，则，基于关键词qi获得的搜索结果中，各个影片(即多媒体文件)从发布后的累积被点数次数表征为为其中，累积被点击次数越多，关键词qi相对于搜索结果之间的搜索意图越强，即关联程度越强。

表1(qi):

步骤B：统计搜索结果x包含的各个多媒体文件在指定时长内的区间被点击次数变化率。

实际应用中，多媒体文件的累积被点击次数无法反映最近一段时间的搜索结果的变化趋势，因此，可以根据多媒体文件在指定时长内的区间被点击次数变化率来衡量多媒体文件在当前周期内的点击变化情况，例如，对于新上线的影片，基于区间被点击次数变化率可以快速确定影片在搜索结果中的排序关系，避免上映时间过短而导致的累积被点击次数不足而导致影片排序靠后。

可选的，区间被点击次数变化率可以采用如下公式表示，其中，Δt表示指定时长，T表示区间被点击次数变化率的时间起点：如下：

步骤C：统计搜索结果x包含的各个多媒体文件的主题类型分布概率向量，并基于所述主题类型分布概率向量，计算所述各个多媒体文件之间的主题类型关联程度。

可选的，可以采用隐含狄利克雷分布(Latent Dirichlet Allocation，LDA) 主题聚类算法，计算各个多媒体文件的主题分布概率向量

其中，Topic表征主题，P(Topic1)表征主题1的概率，S表征主题数目。主题分布概率向量分布反映了不同的多媒体文件在不同主题上的偏好程度，可以用来衡量两个多媒体文件的主题类型关联程度。因此，针对搜索结果中累积被点击次数不为0的多媒体文件，可以基于上述主题分布概率向量表征的多媒体文件被点击次数从高到低的排序结果，分别计算每一个多媒体文件与排序在其之前的多媒体文件的余弦相似度，从而获得两两多媒体文件之间的主题类型关联程度，具体的，计算公式如下：

步骤D：基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率和所述主题类型关联程度，计算搜索结果x的排序标注函数值。

具体的，可以采用以下公式计算搜索结果x的排序标注函数值：

其中，α和β是比例缩放因子，确保各分量为同一量级，此外，为了平稳长尾效应形成的偏态分布，还可对上述排序标注函数值的函数值进行对数取整操作以优化样本标注，则最终样本数据的输出结果可以表示为：

上述表达式表征了输入关键词qi后获得的相应的搜索结果，即关键词 qi+搜索结果以及对应的排序标注函数值表征一条标注完毕的样本数据。

采用上述方式，可以针对各个关键词分别进行样本数据的标注，从而获得进行模型训练所有的标注后的样本数据。

另一方面，本发明实施例中，对于发布一段时间后，累积被点数次数仍为0的多媒体文件，可以认为此类多媒体文件与相应的关键词以及用户的搜索意图之间完全不相关，也无法体现多媒体文件排序的价值，因此，可以将此类多媒体文件作为搜索结果中包含的负例，将累积被点击次数不为0的多媒体文件作为搜索结果中包含的正例。由于搜索点击的长尾效应，通常情况下，即使累积较长时间(即多媒体文件发布了较长时间)，搜索结果中包含的负例数量也会远大于正例，因此，本发明实施例中，可以基于多媒体文件的主题相关性，对搜索结果中的部分负例进行替换，从而调整搜索结果中的正例和负例的比例平衡，进而进一步提高样本数据的质量；因为，引入新的正例也会增加搜索结果召回的多样性，拓展排序空间，有效提高排序学习算法的性能，从而进一步提高后续训练的多媒体文件搜索排序模型的排序精准性。

可选的，仍以关键词qi对应的搜索结果x为例，在计算搜索结果x 的排序标注函数值之前，所执行的替换步骤如下：

一、将搜索结果x中包含的累积被点击次数不为零的多媒体文件作为正例，以及将搜索结果x中包含的累积被点击次数为零的多媒体文件作为负例。

二、针对每一个正例，分别确定主题类型关联程度最高的M个其他多媒体文件，所述其他多媒体文件与所述搜索结果x以及所述关键词qi 不对应，M为预设自然数。

可选的，仍然可以采用LDA主题聚类算法，通过计算主题分布概率向量，获得与一个正例的主题关联性最强的其他多媒体文件集合其中，r_l表征其他多媒体文件，表征两者的主题分布概率向量余弦相似度。

例如，假设关键词qi为“超人”，则获得的正例为“超人1”等等，而获得的负例为“变身超人”，“史前超人”等等，假设正负例的比例为1： 3。那么，与“超人1”的主题类型关联程度最高的2(假设M＝2)个其他多媒体文件为“正义者联盟”和“钢铁之躯”。

本实施例中，仅以一个正例为例，实际应用中，针对每一个正例，都要选取出主题类型关联程度最高的M个其他多媒体文件，如，假设存在5 个正例，则需要获得总数为5M的其他多媒体文件，并从中选取用于替换负例的正侧。

三、从获得的各个其他多媒体文件中选取设定数目的其他多媒体文件作为正例对所述负例进行替换，令替换后的正例和负例的比例达到设定比例门限。

例如，可以将与“超人1”的主题类型关联程度最高的2(假设M＝2) 个其他多媒体文件“正义者联盟”和“钢铁之躯”作为正例，替换掉负例为“变身超人”，“史前超人”，令最终的正例和负例的比例达到约等于1： 1或2：1。

当然，可以在搜索引擎建立索引时，预先生成并保存若干主题相关集合这样，在累积搜索一定周期后，无论哪一个多媒体文件作为正侧，都可以随时从相应的主题相关集合中获取所需的其他多媒体文件作为正例对负侧进行替换。

在对部分负例进行替换后，新加入的正例有可能还没有累积被点击次数以及区间被点击次数变化率，因此，初始值可以基于主题分布概率向量的余弦相似度进行标注和排序，累积一段时间后，再计算相应的累积被点击次数、区间被点击次数变化率和主题类型关联程度，并最终和原有的正例一起，计算出搜索结果x的排序标注函数值，并转换成标注后的样本数据。

进一步地，在累积定的周期后，如果新加入的正例的累积被点数次数仍然为0，则将其作为负例，采用相同方式再次进行替换，将不再赘述。

步骤120：筛选出排序标注函数值符合预设条件的样本数据，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型。

具体的，在获得标注完毕的海量的样本数据后，会尽量筛选出优质的样本数据用于后续的模型训练，可选的，上述预设条件可以是：筛选出排序标注函数值最高的N个样本数据(N为设定自然数)，上述预设条件也可以是：筛选出排序标注函数值达到设定参数门限的样本数据。

这是因为，排序标注函数值越高，说明关键词和相应的搜索结果之间的搜索意图对应越明确，因此，排序标注函数值越高的样本数据越为优质，更有利于提高后续训练的多媒体文件搜索排序模型的排序精准性。

进一步的，除了按照排序标注函数值进行样本数据筛选，本发明实施例中，在基于排序标注函数值获得最终优质的样本数据之前，还可以采用以下方式中的一种或任意组合进行样本数据的预筛选：

在大数据环境下，模型训练的泛化能力可以基于海量的样本数据集获得增强，因此样本数据的数量越大越好，累积的时长越长越好，因此，可以采用的方式包含但不限于：

方式1：筛选出符合预设数据规模的样本数据。

例如：需要筛选出的样本数据的总数量≥100万条。

又例如：需要筛选出作为测试样本集合的样本数据的数据量≥20万条。

方式2：筛选出关键词对应的搜索结果包含的多媒体文件达到设定阈值的样本数据。

例如：需要筛选出搜索结果包含的多媒体文件≥60个的样本数据。

方式3：筛选出关键词对应的搜索结果包含的多媒体文件的发布时间达到设定时长门限的样本数据。

例如：需要筛选出搜索结果包含的多媒体文件的发布时长≥15天的样本数据。

方式4：删除关键词为单数据或/和单字母对应的样本数据。

在搜索日志中，经常会出现单数字、单字母的搜索，其搜索目的性不明确，但是累积的被点击次数很高，而返回的搜索结果命中率也很大，这是典型的坏样本数据，需要去除，以保证关键词和搜索结果之间的搜索意图一致性。

基于上述样本数据筛选策略，进一步地，本发明实施例中，在筛选出所需要的优质的样本数据后，可以采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型，具体包括：

1)分别确定各个样本数据的关联特征，一个样本数据的关联特征至少包括关键词特征、关键词和相应的搜索结果包含的多媒体文件之间的相关性特征，搜索结果包含的多媒体文件的属性特征，以及搜索结果包含的多媒体文件之间的相关性特征。

上述各类特征，可以采用边搜索边计算的方法，在通过关键词获得相应的搜索结果时提取，也可以在进行正负例替换的过程中提取，也可以计算排序标注函数值的过程中提取，还可以在计算排序标注函数值之后提取，提取后会保存的日志文件中，在进行模型训练时，会从日志文件中获取并使用，将不再赘述。

具体的，参阅表2所示，可以将样本数据的关联特征可以采用特征向量的形式表示，记为：f＝(f_q,f_q-d,f_d,f_d-d)；

其中，参阅表2所示，f_q，表示关键词特征，至少由关键词的长度和关键词在历史搜索中出现的次数组成。

f_q-d，表示关键词和相应的搜索结果包含的多媒体文件之间的相关性特征，至少由关键词在多媒体文件标题中的占比、关键词与多媒体文件标题的偏移量、关键词与多媒体文件的文本相似度(BM25)、关键词与多媒体文件的词频-逆文档词频(TF-IDF)组成。

f_d，表示多媒体文件的属性特征，至少表示了多媒体文件在多个维度的衡量。

f_d-d，表示多媒体文件之间的相关性特征，至少表示搜索结果内将各个多媒体文件按照累积被点击次数排序后，相邻的多媒体文件之间的主题分布概率相似度。

表2

2)将样本数据转换为指定格式。

可选的，可以将样本数据转换为符合Spark MLlib〔Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎，MLlib是Spark的机器学习(ML)库〕的排序学习类型LabelPoint(MLlib的一种基本数据类型) 格式。

3)将转换后的样本数据划分为训练集和测试集。

4)基于训练集及相应的关联特征，采用分布式梯度提升决策树 (GradientBoosting Decision Tree，GBDT)算法，进行多决策树模型的迭代训练，获得训练模型。

具体的，可以在Spark MLLib的分布式GBDT算法基础上，构建基于 Lambda算法的多元可加回归树(Lambda and Multiple Additive Regression Tree，LambdaMART)进行多决策树模型的迭代训练。

其中，可选的，算法迭代次数：300～500代，MART树的深度：3层，学习步长：0.05，损失函数：L2loss函数：其中， i为真值，F(xi)为预测值，N为样本数据数目，Loss值越小，则表征该训练模型越好。

5)基于测试集及相应的关联特征，对生成的训练模型进行测试，生成相应的评价指标。

可选的，可以采用拟合度和NDGG作为评价指标，其中，

拟合度：采用均方根误差(Root Mean Squared Error，RMSE)评价LambdaMART算法在测试集上的拟合度；

归一化折损累积增益(Normalized Discounted Cumulative Gain，NDCG)：采用NDCG评价训练模型的排序效果。

6)基于获得的评价指标调整训练参数，优化训练模型，多次训练获得最优的多媒体文件搜索排序模型。

可选的，可以利用Spark MLlib底层树结构 (DecisionTreeRegressionMode)将最优的多媒体文件搜索排序模型转换为 XML格式，方便ElasticSearch(一个基于Lucene的搜索服务器，提供了一个分布式多用户能力的全文搜索引擎)搜索引擎加载。

将获得的最优的多媒体文件搜索排序模型以XML文件的形式保存在 hadoop分布式文件***(Hadoop Distributed File System,HDFS)中，然后，在更新ElasticSearch相关索引时，将最优的多媒体文件搜索排序模型写入到指定的索引字段，最后，在搜索语句中加入排序学习算法(Learning to Rank，LTR)模型调用，这样，可以采用最优的多媒体文件搜索排序模型，对最新输入的关健词进行搜索，获得相应的搜索结果，所述搜索结果中包含有当前最准确的多媒体文件，以及呈现了多媒体文件之间当前最准确的排序结果。

当然，上述多媒体文件搜索排序模型(即LTR模型)需要按照设定周期更新：如，按照设定周期重新选择和替换样本数据，并重新进行模型训练，以确保多媒体文件搜索排序模型的时效性。

显然，基于样本数据的关联特征所获得的多媒体文件搜索排序模型，能够准确地保证关键词的搜索结果之间的搜索意图一致性，有效提高了搜索结果的精准性，以及提高了搜索结果包含的多媒体文件的排序准确，即有效利用排序学习算法优化多媒体文件搜索的排序结果。

基于上述实施例，参阅图2所示，本发明实施例中，提供了一种多媒体文件搜索排序模型的训练装置，所述训练装置至少包括：

获取单元20，用于确定关键词，以及获取各个关键词对应的搜索结果，其中，一个搜索结果中包含相应的关键词对应的至少一个多媒体文件；

处理单元21，用于计算每一个关键词对应的搜索结果的排序标注函数值，以及基于各个搜索结果的排序标注函数值生成相应的样本数据；其中，一个搜索结果的排序标注函数值，至少与所述搜索结果包含的多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关；

训练单元22，用于筛选出排序标注函数值符合预设条件的样本数据，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型。

可选的，计算一个搜索结果的排序标注函数值时，处理单元21用于：

可选的，基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率和所述主题类型关联程度，计算所述一个搜索结果的排序标注函数值之前，处理单元21进一步用于：

可选的，筛选出排序标注函数值符合预设条件的样本数据时，训练单元22 用于：

筛选出排序标注函数值达到设定参数门限的样本数据。

可选的，筛选出排序标注函数值符合预设条件的样本数据之前，训练单元 22进一步用于执行以下操作中的任意一种或组合：

筛选出符合预设数据规模的样本数据；

删除关键词为单数据或/和单字母对应的样本数据。

可选的，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型时，训练单元22用于：

将样本数据划分为训练集和测试集；

基于上述实施例，参阅图3所示，本发明实施例中，提供了一种多媒体文件搜索排序模型的训练装置，所述训练装置至少包括：

处理器300，用于读取存储器310中的程序，执行下列过程：

其中，在图3中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器300代表的一个或多个处理器和存储器310代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器300负责管理总线架构和通常的处理，存储器310可以存储处理器 300在执行操作时所使用的数据。

可选的，计算一个搜索结果的排序标注函数值时，处理器300用于：

可选的，基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率和所述主题类型关联程度，计算所述一个搜索结果的排序标注函数值之前，处理器300进一步用于：

可选的，筛选出排序标注函数值符合预设条件的样本数据时，处理器300 用于：

筛选出排序标注函数值达到设定参数门限的样本数据。

可选的，筛选出排序标注函数值符合预设条件的样本数据之前，处理器300 进一步用于执行以下操作中的任意一种或组合：

筛选出符合预设数据规模的样本数据；

删除关键词为单数据或/和单字母对应的样本数据。

可选的，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型时，处理器300用于：

将样本数据划分为训练集和测试集；

基于同一发明构思，提供一种存储介质，存储有用于实现多媒体文件搜索排序模型的训练的程序，所述程序被处理器运行时，执行以下步骤：

基于上述实施例，本发明实施例中，确定关键词及相应的搜索结果后，计算每一个关键词对应的搜索结果的排序标注函数值，并生成相应的样本数据，其中，所述排序标注函数值与多媒体文件的被点击次数以及所述多媒体文件之间的主题类型关联程度正相关，以及筛选出排序标注函数值符合预设条件的样本数据，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型。这样，可以有效地完成样本数据的标注，从而筛选出关键词与搜索结果的搜索意图一致的样本数据，提升了样本数据的质量，进而能够有效提升了训练获得的多媒体文件搜索排序模型的排序精准性，解决了搜索结果的排序优化问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多媒体文件搜索排序模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，计算一个搜索结果的排序标注函数值，包括：

统计所述一个搜索结果包含的各个多媒体文件在指定时长内的区间被点击次数变化率；

3.如权利要求2所述的方法，其特征在于，基于各个多媒体文件的所述累积被点击次数、所述区间被点击次数变化率和所述主题类型关联程度，计算所述一个搜索结果的排序标注函数值之前，进一步包括：

将所述一个搜索结果中包含的累积被点击次数不为零的多媒体文件作为正例，以及将所述一个搜索结果中包含的累积被点击次数为零的多媒体文件作为负例；

4.如权利要求1所述的方法，其特征在于，筛选出排序标注函数值符合预设条件的样本数据，包括：

筛选出排序标注函数值达到设定参数门限的样本数据。

5.如权利要求4所述的方法，其特征在于，筛选出排序标注函数值符合预设条件的样本数据之前，进一步执行以下操作中的任意一种或组合：

筛选出符合预设数据规模的样本数据；

删除关键词为单数据或/和单字母对应的样本数据。

6.如权利要求1－5任一项所述的方法，其特征在于，采用预设算法进行模型训练，生成相应的多媒体文件搜索排序模型，包括：

将样本数据划分为训练集和测试集；

基于所述训练集及相应的关联特征，采用分布式梯度提升决策树GBDT算法，进行多决策树模型的迭代训练，获得相应的训练模型；

7.一种多媒体文件搜索排序模型的训练装置，其特征在于，包括：

8.一种多媒体文件搜索排序模型的训练装置，其特征在于，至少包括处理器和存储器，其中，

处理器，用于读取存储器中的程序，执行下列过程：

9.一种存储介质，其特征在于，存储有用于实现多媒体文件搜索排序模型的训练的程序，所述程序被处理器运行时，执行以下步骤：