CN110929160A

CN110929160A - 一种***排序结果的优化方法

Info

Publication number: CN110929160A
Application number: CN201911211989.XA
Authority: CN
Inventors: 雷鸣
Original assignee: Shanghai Microphone Culture Media Co Ltd
Current assignee: Shanghai Microphone Culture Media Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-03-27
Anticipated expiration: 2039-12-02
Also published as: CN110929160B

Abstract

本发明属于***排序技术领域，尤其是涉及一种***排序结果的优化方法，包括以下步骤：先进行数据埋点，在产品、服务转化关键点植入统计代码，据其独立ID确保数据采集不重复；采集埋点数据，并对埋点数据进行分类和分类存储，以商品类别列表以json的格式存入Hbase数据库中；召回数据，可以通过协同过滤策略、热度召回策略、关联规则策略等多个召回策略等；对召回的数据进行排序，得到每个用户对自己的商品召回池中的各个商品的预测分值。本发明支持多个排序方法组合成最终结果，满足不同的业务述求，并且对经过排序后的商品进行重排序的方法，经过对比实验发现，该方法比一般的推荐***的推荐结果精度得到很大提升。

Description

一种***排序结果的优化方法

技术领域

本发明涉及***排序技术领域，尤其涉及一种***排序结果的优化方法。

背景技术

随着移动互联网的高速发展，推荐***越来越成为各个互联网产品的标配。

近年来推荐***逐渐成为研究热点，好的推荐算法和好的策略层出不穷，当前排序部分所用的特征，特别用户的兴趣特征均是通过隐式行为进行计算得出，也就是通过点击，浏览、购买、收藏等行为通过一定的计算逻辑扩展得出一系列特征，但是一般并没有使用用户的显式行为，显式行为指的是用户对商品的明确的带有用户主观目的行为，例如评分、主动填写自己的兴趣爱好等，显式行为带有用户大量有用的信息，充分利用起来可以提高推荐***的精度。

为此，我们提出一种***排序结果的优化方法来解决上述问题。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种***排序结果的优化方法。

为了实现上述目的，本发明采用了如下技术方案：

一种***排序结果的优化方法，包括以下步骤：

S1、先进行数据埋点，在产品、服务转化关键点植入统计代码，据其独立ID确保数据采集不重复；

S2、采集埋点数据，并对埋点数据进行分类和分类存储，以商品类别列表以json的格式存入Hbase数据库中；

S3、召回数据，可以通过协同过滤策略、热度召回策略、关联规则策略等多个召回策略等；

S4、对召回的数据进行排序，得到每个用户对自己的商品召回池中的各个商品的预测分值；

S5、再进行一次排序操作，基于现有的业务运营策略，对排序结果进行适当调整；

S6、对排序的结果进行改进，在排序的分值的基础上乘以一定权重W得到最终的分值；

S7、统计数据在所属类别下的出现次数，分别获取各类别下的数据并进行分类展示。

在上述的一种***排序结果的优化方法中，所述步骤S2中采集埋点数据的装置包括内容库模块，对数据的聚合可以是基于分类、属性或者交叉。

在上述的一种***排序结果的优化方法中，所述步骤S5中再排序组合的装置包括排序模块和排序组件模块，所述排序模块包含基本排序模型的设置单元，模型训练单元和排序模型生成单元，排序模块对内容进行排序，所述排序组件模块包括装载单元和计算单元，所述装载单元用于将排序模型和内容库装载进来，且计算单元用于对内容库数据进行排序。

在上述的一种***排序结果的优化方法中，所述排序模块和排序组件模块中的规则包括：

a)、对从同一业务数据中提取的专辑词组进行排序之前，根据预先设置的常用词库对提取的专辑词组中的常用词进行过滤；

b)、将属于同一个文本标题的排序后的专辑词组进行组合；

c)、将同一业务数据的排序后的专辑词组进行组合，获得各类别下的各个业务数据的专辑词组之后，根据预先设置的垃圾词库对专辑词组中的垃圾词组进行过滤。

在上述的一种***排序结果的优化方法中，所述权重值的计算方法为

其中W是要在排序分值后乘以的权重，范围在1.0～2.0，β是自定义的用户兴趣衰减时间周期，默认为10，也就是从用户选择兴趣类别那天起，往后推10天后,用户兴趣完全衰减， w＝1.0,这时权重作用失效，β偏大，则衰减缓慢，反之则偏快，α是用户选择兴趣类别与当前推荐日期的天数差。

在上述的一种***排序结果的优化方法中，所述步骤S7中包括统计模块和展示模块，所述统计模块和展示模块的规则要求包括：

1)、统计专辑词组组在所属类别下不同文本标题中的出现次数，将出现次数大于预定阈值的专辑词组组按照预定顺序进行排列，分别获取各类别下的专辑词组；

2)、对同一类别下相同的专辑词组进行合并，搜索各类别下专辑词组所对应的名称、标题和分类属性的链接；

3)、向用户展示热点报告，其中，热点报告包括：专辑词组的所属类别、预定时间段内各类别下的专辑词组、各类别下的专辑词组所对应的热度值、以及各类别下专辑词组所对应的名称、标题和分类属性的链接。

与现有技术相比，本一种***排序结果的优化方法的优点在于：

1、本发明支持多个排序方法组合成最终结果，满足不同的业务述求，自由灵活配置一个排序组件中各个排序算法输出的个数或者配比。

2、本发明对经过排序后的商品进行重排序的方法，经过对比实验发现，该方法比一般的推荐***的推荐结果精度得到很大提升。

附图说明

图1为本发明提出的一种***排序结果的优化方法的方法步骤图；

图2为本发明提出的一种***排序结果的优化方法的排序算法结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-2，一种***排序结果的优化方法，包括以下步骤：

其中，所述步骤S2中采集埋点数据的装置包括内容库模块，对数据的聚合可以是基于分类、属性或者交叉。

其中，所述步骤S4中的排序算法包括冒泡排序、选择排序、快速排序、***排序、希尔排序、桶排序、基数排序、归并排序和堆排序，具体的每个排序算法的表述如下：

冒泡排序：依次比较相邻两元素，若前一元素大于后一元素则交换之，直至最后一个元素即为最大；然后重新从首元素开始重复同样的操作，直至倒数第二个元素即为次大元素；依次类推。如同水中的气泡，依次将最大或最小元素气泡浮出水面。

选择排序：首先初始化最小元素索引值为首元素，依次遍历待排序数列，若遇到小于该最小索引位置处的元素则刷新最小索引为该较小元素的位置，直至遇到尾元素，结束一次遍历，并将最小索引处元素与首元素交换；然后，初始化最小索引值为第二个待排序数列元素位置，同样的操作，可得到数列第二个元素即为次小元素；以此类推。

快速排序：选一基准元素，依次将剩余元素中小于该基准元素的值放置其左侧，大于等于该基准元素的值放置其右侧；然后，取基准元素的前半部分和后半部分分别进行同样的处理；以此类推，直至各子序列剩余一个元素时，即排序完成。

***排序：数列前面部分看为有序，依次将后面的无序数列元素***到前面的有序数列中，初始状态有序数列仅有一个元素，即首元素。在将无序数列元素***有序数列的过程中，采用了逆序遍历有序数列，相较于顺序遍历会稍显繁琐，但当数列本身已近排序状态效率会更高。

希尔排序：***排序的改进版。为了减少数据的移动次数，在初始序列较大时取较大的步长，通常取序列长度的一半，此时只有两个元素比较，交换一次；之后步长依次减半直至步长为1，即为***排序，由于此时序列已接近有序，故***元素时数据移动的次数会相对较少，效率得到了提高。

桶排序：实现线性排序，但当元素间值得大小有较大差距时会带来内存空间的较大浪费。首先，找出待排序列中得最大元素max，申请内存大小为max+1的桶(数组)并初始化为0；然后，遍历排序数列，并依次将每个元素作为下标的桶元素值自增1；最后，遍历桶元素，并依次将值非0的元素下标值载入排序数列(桶元素>1表明有值大小相等的元素，此时依次将他们载入排序数列)，遍历完成，排序数列便为有序数列。

基数排序：桶排序的改进版，桶的大小固定为10，减少了内存空间的开销。首先，找出待排序列中得最大元素max，并依次按max 的低位到高位对所有元素排序；桶元素10个元素的大小即为待排序数列元素对应数值为相等元素的个数，即每次遍历待排序数列，桶将其按对应数值位大小分为了10个层级，桶内元素值得和为待排序数列元素个数。

归并排序：采用了分治和递归的思想，递归&分治-排序整个数列如同排序两个有序数列，依次执行这个过程直至排序末端的两个元素，再依次向上层输送排序好的两个子列进行排序直至整个数列有序。

堆排序：堆排序的思想借助于二叉堆中的最大堆得以实现。首先，将待排序数列抽象为二叉树，并构造出最大堆；然后，依次将最大元素(即根节点元素)与待排序数列的最后一个元素交换(即二叉树最深层最右边的叶子结点元素)；每次遍历，刷新最后一个元素的位置 (自减1)，直至其与首元素相交，即完成排序。

其中，所述步骤S5中再排序组合的装置包括排序模块和排序组件模块，所述排序模块包含基本排序模型的设置单元，模型训练单元和排序模型生成单元，排序模块对内容进行排序，所述排序组件模块包括装载单元和计算单元，所述装载单元用于将排序模型和内容库装载进来，且计算单元用于对内容库数据进行排序。

其中，所述排序模块和排序组件模块中的规则包括：

b)、将属于同一个文本标题的排序后的专辑词组进行组合；

其中，所述权重值的计算方法为

其中W是要在排序分值后乘以的权重，范围在1.0～2.0，β是自定义的用户兴趣衰减时间周期，默认为10，也就是从用户选择兴趣类别那天起，往后推10天后,用户兴趣完全衰减，w＝1.0,这时权重作用失效，β偏大，则衰减缓慢，反之则偏快，α是用户选择兴趣类别与当前推荐日期的天数差。

其中，所述统计模块和展示模块的规则要求包括：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种***排序结果的优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种***排序结果的优化方法，其特征在于，所述步骤S2中采集埋点数据的装置包括内容库模块，对数据的聚合可以是基于分类、属性或者交叉。

3.根据权利要求1所述的一种***排序结果的优化方法，其特征在于，所述步骤S5中再排序组合的装置包括排序模块和排序组件模块，所述排序模块包含基本排序模型的设置单元，模型训练单元和排序模型生成单元，排序模块对内容进行排序，所述排序组件模块包括装载单元和计算单元，所述装载单元用于将排序模型和内容库装载进来，且计算单元用于对内容库数据进行排序。

4.根据权利要求3所述的一种***排序结果的优化方法，其特征在于，所述排序模块和排序组件模块中的规则包括：

b)、将属于同一个文本标题的排序后的专辑词组进行组合；

5.根据权利要求1所述的一种***排序结果的优化方法，其特征在于，所述权重值的计算方法为

6.根据权利要求1所述的一种***排序结果的优化方法，其特征在于，所述步骤S7中包括统计模块和展示模块，所述统计模块和展示模块的规则要求包括：

7.根据权利要求1所述的一种***排序结果的优化方法，其特征在于，所述步骤S4中的排序算法包括冒泡排序、选择排序、快速排序、***排序、希尔排序、桶排序、基数排序、归并排序和堆排序。