CN110929160A - 一种***排序结果的优化方法 - Google Patents

一种***排序结果的优化方法 Download PDF

Info

Publication number
CN110929160A
CN110929160A CN201911211989.XA CN201911211989A CN110929160A CN 110929160 A CN110929160 A CN 110929160A CN 201911211989 A CN201911211989 A CN 201911211989A CN 110929160 A CN110929160 A CN 110929160A
Authority
CN
China
Prior art keywords
sequencing
data
album
phrases
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911211989.XA
Other languages
English (en)
Other versions
CN110929160B (zh
Inventor
雷鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Microphone Culture Media Co Ltd
Original Assignee
Shanghai Microphone Culture Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Microphone Culture Media Co Ltd filed Critical Shanghai Microphone Culture Media Co Ltd
Priority to CN201911211989.XA priority Critical patent/CN110929160B/zh
Publication of CN110929160A publication Critical patent/CN110929160A/zh
Application granted granted Critical
Publication of CN110929160B publication Critical patent/CN110929160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于***排序技术领域,尤其是涉及一种***排序结果的优化方法,包括以下步骤:先进行数据埋点,在产品、服务转化关键点植入统计代码,据其独立ID确保数据采集不重复;采集埋点数据,并对埋点数据进行分类和分类存储,以商品类别列表以json的格式存入Hbase数据库中;召回数据,可以通过协同过滤策略、热度召回策略、关联规则策略等多个召回策略等;对召回的数据进行排序,得到每个用户对自己的商品召回池中的各个商品的预测分值。本发明支持多个排序方法组合成最终结果,满足不同的业务述求,并且对经过排序后的商品进行重排序的方法,经过对比实验发现,该方法比一般的推荐***的推荐结果精度得到很大提升。

Description

一种***排序结果的优化方法
技术领域
本发明涉及***排序技术领域,尤其涉及一种***排序结果的优化方法。
背景技术
随着移动互联网的高速发展,推荐***越来越成为各个互联网产品的标配。
近年来推荐***逐渐成为研究热点,好的推荐算法和好的策略层出不穷,当前排序部分所用的特征,特别用户的兴趣特征均是通过隐式行为进行计算得出,也就是通过点击,浏览、购买、收藏等行为通过一定的计算逻辑扩展得出一系列特征,但是一般并没有使用用户的显式行为,显式行为指的是用户对商品的明确的带有用户主观目的行为,例如评分、主动填写自己的兴趣爱好等,显式行为带有用户大量有用的信息,充分利用起来可以提高推荐***的精度。
为此,我们提出一种***排序结果的优化方法来解决上述问题。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种***排序结果的优化方法。
为了实现上述目的,本发明采用了如下技术方案:
一种***排序结果的优化方法,包括以下步骤:
S1、先进行数据埋点,在产品、服务转化关键点植入统计代码,据其独立ID确保数据采集不重复;
S2、采集埋点数据,并对埋点数据进行分类和分类存储,以商品类别列表以json的格式存入Hbase数据库中;
S3、召回数据,可以通过协同过滤策略、热度召回策略、关联规则策略等多个召回策略等;
S4、对召回的数据进行排序,得到每个用户对自己的商品召回池中的各个商品的预测分值;
S5、再进行一次排序操作,基于现有的业务运营策略,对排序结果进行适当调整;
S6、对排序的结果进行改进,在排序的分值的基础上乘以一定权重W得到最终的分值;
S7、统计数据在所属类别下的出现次数,分别获取各类别下的数据并进行分类展示。
在上述的一种***排序结果的优化方法中,所述步骤S2中采集埋点数据的装置包括内容库模块,对数据的聚合可以是基于分类、属性或者交叉。
在上述的一种***排序结果的优化方法中,所述步骤S5中再排序组合的装置包括排序模块和排序组件模块,所述排序模块包含基本排序模型的设置单元,模型训练单元和排序模型生成单元,排序模块对内容进行排序,所述排序组件模块包括装载单元和计算单元,所述装载单元用于将排序模型和内容库装载进来,且计算单元用于对内容库数据进行排序。
在上述的一种***排序结果的优化方法中,所述排序模块和排序组件模块中的规则包括:
a)、对从同一业务数据中提取的专辑词组进行排序之前,根据预先设置的常用词库对提取的专辑词组中的常用词进行过滤;
b)、将属于同一个文本标题的排序后的专辑词组进行组合;
c)、将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组之后,根据预先设置的垃圾词库对专辑词组中的垃圾词组进行过滤。
在上述的一种***排序结果的优化方法中,所述权重值的计算方法为
Figure BDA0002298396400000031
其中W是要在排序分值后乘以的权重,范围在1.0~2.0,β是自定义的用户兴趣衰减时间周期,默认为10,也就是从用户选择兴趣类别那天起,往后推10天后,用户兴趣完全衰减, w=1.0,这时权重作用失效,β偏大,则衰减缓慢,反之则偏快,α是用户选择兴趣类别与当前推荐日期的天数差。
在上述的一种***排序结果的优化方法中,所述步骤S7中包括统计模块和展示模块,所述统计模块和展示模块的规则要求包括:
1)、统计专辑词组组在所属类别下不同文本标题中的出现次数,将出现次数大于预定阈值的专辑词组组按照预定顺序进行排列,分别获取各类别下的专辑词组;
2)、对同一类别下相同的专辑词组进行合并,搜索各类别下专辑词组所对应的名称、标题和分类属性的链接;
3)、向用户展示热点报告,其中,热点报告包括:专辑词组的所属类别、预定时间段内各类别下的专辑词组、各类别下的专辑词组所对应的热度值、以及各类别下专辑词组所对应的名称、标题和分类属性的链接。
与现有技术相比,本一种***排序结果的优化方法的优点在于:
1、本发明支持多个排序方法组合成最终结果,满足不同的业务述求,自由灵活配置一个排序组件中各个排序算法输出的个数或者配比。
2、本发明对经过排序后的商品进行重排序的方法,经过对比实验发现,该方法比一般的推荐***的推荐结果精度得到很大提升。
附图说明
图1为本发明提出的一种***排序结果的优化方法的方法步骤图;
图2为本发明提出的一种***排序结果的优化方法的排序算法结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-2,一种***排序结果的优化方法,包括以下步骤:
S1、先进行数据埋点,在产品、服务转化关键点植入统计代码,据其独立ID确保数据采集不重复;
S2、采集埋点数据,并对埋点数据进行分类和分类存储,以商品类别列表以json的格式存入Hbase数据库中;
S3、召回数据,可以通过协同过滤策略、热度召回策略、关联规则策略等多个召回策略等;
S4、对召回的数据进行排序,得到每个用户对自己的商品召回池中的各个商品的预测分值;
S5、再进行一次排序操作,基于现有的业务运营策略,对排序结果进行适当调整;
S6、对排序的结果进行改进,在排序的分值的基础上乘以一定权重W得到最终的分值;
S7、统计数据在所属类别下的出现次数,分别获取各类别下的数据并进行分类展示。
其中,所述步骤S2中采集埋点数据的装置包括内容库模块,对数据的聚合可以是基于分类、属性或者交叉。
其中,所述步骤S4中的排序算法包括冒泡排序、选择排序、快速排序、***排序、希尔排序、桶排序、基数排序、归并排序和堆排序,具体的每个排序算法的表述如下:
冒泡排序:依次比较相邻两元素,若前一元素大于后一元素则交换之,直至最后一个元素即为最大;然后重新从首元素开始重复同样的操作,直至倒数第二个元素即为次大元素;依次类推。如同水中的气泡,依次将最大或最小元素气泡浮出水面。
选择排序:首先初始化最小元素索引值为首元素,依次遍历待排序数列,若遇到小于该最小索引位置处的元素则刷新最小索引为该较小元素的位置,直至遇到尾元素,结束一次遍历,并将最小索引处元素与首元素交换;然后,初始化最小索引值为第二个待排序数列元素位置,同样的操作,可得到数列第二个元素即为次小元素;以此类推。
快速排序:选一基准元素,依次将剩余元素中小于该基准元素的值放置其左侧,大于等于该基准元素的值放置其右侧;然后,取基准元素的前半部分和后半部分分别进行同样的处理;以此类推,直至各子序列剩余一个元素时,即排序完成。
***排序:数列前面部分看为有序,依次将后面的无序数列元素***到前面的有序数列中,初始状态有序数列仅有一个元素,即首元素。在将无序数列元素***有序数列的过程中,采用了逆序遍历有序数列,相较于顺序遍历会稍显繁琐,但当数列本身已近排序状态效率会更高。
希尔排序:***排序的改进版。为了减少数据的移动次数,在初始序列较大时取较大的步长,通常取序列长度的一半,此时只有两个元素比较,交换一次;之后步长依次减半直至步长为1,即为***排序,由于此时序列已接近有序,故***元素时数据移动的次数会相对较少,效率得到了提高。
桶排序:实现线性排序,但当元素间值得大小有较大差距时会带来内存空间的较大浪费。首先,找出待排序列中得最大元素max,申请内存大小为max+1的桶(数组)并初始化为0;然后,遍历排序数列,并依次将每个元素作为下标的桶元素值自增1;最后,遍历桶元素,并依次将值非0的元素下标值载入排序数列(桶元素>1表明有值大小相等的元素,此时依次将他们载入排序数列),遍历完成,排序数列便为有序数列。
基数排序:桶排序的改进版,桶的大小固定为10,减少了内存空间的开销。首先,找出待排序列中得最大元素max,并依次按max 的低位到高位对所有元素排序;桶元素10个元素的大小即为待排序数列元素对应数值为相等元素的个数,即每次遍历待排序数列,桶将其按对应数值位大小分为了10个层级,桶内元素值得和为待排序数列元素个数。
归并排序:采用了分治和递归的思想,递归&分治-排序整个数列如同排序两个有序数列,依次执行这个过程直至排序末端的两个元素,再依次向上层输送排序好的两个子列进行排序直至整个数列有序。
堆排序:堆排序的思想借助于二叉堆中的最大堆得以实现。首先,将待排序数列抽象为二叉树,并构造出最大堆;然后,依次将最大元素(即根节点元素)与待排序数列的最后一个元素交换(即二叉树最深层最右边的叶子结点元素);每次遍历,刷新最后一个元素的位置 (自减1),直至其与首元素相交,即完成排序。
其中,所述步骤S5中再排序组合的装置包括排序模块和排序组件模块,所述排序模块包含基本排序模型的设置单元,模型训练单元和排序模型生成单元,排序模块对内容进行排序,所述排序组件模块包括装载单元和计算单元,所述装载单元用于将排序模型和内容库装载进来,且计算单元用于对内容库数据进行排序。
其中,所述排序模块和排序组件模块中的规则包括:
a)、对从同一业务数据中提取的专辑词组进行排序之前,根据预先设置的常用词库对提取的专辑词组中的常用词进行过滤;
b)、将属于同一个文本标题的排序后的专辑词组进行组合;
c)、将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组之后,根据预先设置的垃圾词库对专辑词组中的垃圾词组进行过滤。
其中,所述权重值的计算方法为
Figure BDA0002298396400000081
其中W是要在排序分值后乘以的权重,范围在1.0~2.0,β是自定义的用户兴趣衰减时间周期,默认为10,也就是从用户选择兴趣类别那天起,往后推10天后,用户兴趣完全衰减,w=1.0,这时权重作用失效,β偏大,则衰减缓慢,反之则偏快,α是用户选择兴趣类别与当前推荐日期的天数差。
其中,所述统计模块和展示模块的规则要求包括:
1)、统计专辑词组组在所属类别下不同文本标题中的出现次数,将出现次数大于预定阈值的专辑词组组按照预定顺序进行排列,分别获取各类别下的专辑词组;
2)、对同一类别下相同的专辑词组进行合并,搜索各类别下专辑词组所对应的名称、标题和分类属性的链接;
3)、向用户展示热点报告,其中,热点报告包括:专辑词组的所属类别、预定时间段内各类别下的专辑词组、各类别下的专辑词组所对应的热度值、以及各类别下专辑词组所对应的名称、标题和分类属性的链接。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种***排序结果的优化方法,其特征在于,包括以下步骤:
S1、先进行数据埋点,在产品、服务转化关键点植入统计代码,据其独立ID确保数据采集不重复;
S2、采集埋点数据,并对埋点数据进行分类和分类存储,以商品类别列表以json的格式存入Hbase数据库中;
S3、召回数据,可以通过协同过滤策略、热度召回策略、关联规则策略等多个召回策略等;
S4、对召回的数据进行排序,得到每个用户对自己的商品召回池中的各个商品的预测分值;
S5、再进行一次排序操作,基于现有的业务运营策略,对排序结果进行适当调整;
S6、对排序的结果进行改进,在排序的分值的基础上乘以一定权重W得到最终的分值;
S7、统计数据在所属类别下的出现次数,分别获取各类别下的数据并进行分类展示。
2.根据权利要求1所述的一种***排序结果的优化方法,其特征在于,所述步骤S2中采集埋点数据的装置包括内容库模块,对数据的聚合可以是基于分类、属性或者交叉。
3.根据权利要求1所述的一种***排序结果的优化方法,其特征在于,所述步骤S5中再排序组合的装置包括排序模块和排序组件模块,所述排序模块包含基本排序模型的设置单元,模型训练单元和排序模型生成单元,排序模块对内容进行排序,所述排序组件模块包括装载单元和计算单元,所述装载单元用于将排序模型和内容库装载进来,且计算单元用于对内容库数据进行排序。
4.根据权利要求3所述的一种***排序结果的优化方法,其特征在于,所述排序模块和排序组件模块中的规则包括:
a)、对从同一业务数据中提取的专辑词组进行排序之前,根据预先设置的常用词库对提取的专辑词组中的常用词进行过滤;
b)、将属于同一个文本标题的排序后的专辑词组进行组合;
c)、将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组之后,根据预先设置的垃圾词库对专辑词组中的垃圾词组进行过滤。
5.根据权利要求1所述的一种***排序结果的优化方法,其特征在于,所述权重值的计算方法为
Figure FDA0002298396390000021
其中W是要在排序分值后乘以的权重,范围在1.0~2.0,β是自定义的用户兴趣衰减时间周期,默认为10,也就是从用户选择兴趣类别那天起,往后推10天后,用户兴趣完全衰减,w=1.0,这时权重作用失效,β偏大,则衰减缓慢,反之则偏快,α是用户选择兴趣类别与当前推荐日期的天数差。
6.根据权利要求1所述的一种***排序结果的优化方法,其特征在于,所述步骤S7中包括统计模块和展示模块,所述统计模块和展示模块的规则要求包括:
1)、统计专辑词组组在所属类别下不同文本标题中的出现次数,将出现次数大于预定阈值的专辑词组组按照预定顺序进行排列,分别获取各类别下的专辑词组;
2)、对同一类别下相同的专辑词组进行合并,搜索各类别下专辑词组所对应的名称、标题和分类属性的链接;
3)、向用户展示热点报告,其中,热点报告包括:专辑词组的所属类别、预定时间段内各类别下的专辑词组、各类别下的专辑词组所对应的热度值、以及各类别下专辑词组所对应的名称、标题和分类属性的链接。
7.根据权利要求1所述的一种***排序结果的优化方法,其特征在于,所述步骤S4中的排序算法包括冒泡排序、选择排序、快速排序、***排序、希尔排序、桶排序、基数排序、归并排序和堆排序。
CN201911211989.XA 2019-12-02 2019-12-02 一种***排序结果的优化方法 Active CN110929160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911211989.XA CN110929160B (zh) 2019-12-02 2019-12-02 一种***排序结果的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911211989.XA CN110929160B (zh) 2019-12-02 2019-12-02 一种***排序结果的优化方法

Publications (2)

Publication Number Publication Date
CN110929160A true CN110929160A (zh) 2020-03-27
CN110929160B CN110929160B (zh) 2024-05-10

Family

ID=69848229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911211989.XA Active CN110929160B (zh) 2019-12-02 2019-12-02 一种***排序结果的优化方法

Country Status (1)

Country Link
CN (1) CN110929160B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652631A (zh) * 2020-06-09 2020-09-11 创新奇智(成都)科技有限公司 商品召回方法、装置、电子设备及计算机可读存储介质
CN112836085A (zh) * 2021-02-08 2021-05-25 深圳市欢太科技有限公司 一种权重调整方法及装置、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831248A (zh) * 2012-09-18 2012-12-19 北京奇虎科技有限公司 网络热点挖掘方法及装置
WO2016101777A1 (zh) * 2014-12-26 2016-06-30 ***股份有限公司 用户兴趣数据分析和收集***及其方法
CN109189904A (zh) * 2018-08-10 2019-01-11 上海中彦信息科技股份有限公司 个性化搜索方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831248A (zh) * 2012-09-18 2012-12-19 北京奇虎科技有限公司 网络热点挖掘方法及装置
WO2016101777A1 (zh) * 2014-12-26 2016-06-30 ***股份有限公司 用户兴趣数据分析和收集***及其方法
CN109189904A (zh) * 2018-08-10 2019-01-11 上海中彦信息科技股份有限公司 个性化搜索方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李成;冯青青;: "推荐***准确度衡量方案――引入权重概念" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652631A (zh) * 2020-06-09 2020-09-11 创新奇智(成都)科技有限公司 商品召回方法、装置、电子设备及计算机可读存储介质
CN112836085A (zh) * 2021-02-08 2021-05-25 深圳市欢太科技有限公司 一种权重调整方法及装置、存储介质

Also Published As

Publication number Publication date
CN110929160B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
US20180276528A1 (en) Image Retrieval Method Based on Variable-Length Deep Hash Learning
CN110019843B (zh) 知识图谱的处理方法及装置
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及***
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN112307762B (zh) 搜索结果的排序方法及装置、存储介质、电子装置
CN106874292A (zh) 话题处理方法及装置
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN112463971B (zh) 一种基于层级组合模型的电商商品分类方法及***
CN108399185B (zh) 一种多标签图像的二值向量生成方法及图像语义相似度查询方法
CN110222260A (zh) 一种搜索方法、装置及存储介质
CN106156372A (zh) 一种互联网网站的分类方法及装置
CN110929160A (zh) 一种***排序结果的优化方法
CN111353313A (zh) 基于进化神经网络架构搜索的情感分析模型构建方法
CN108595411B (zh) 一种同主题文本集合中多文本摘要获取方法
CN107122404A (zh) 一种用户意图数据提取方法和装置
CN115018588A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113806580A (zh) 基于层次语义结构的跨模态哈希检索方法
CN112632296A (zh) 基于知识图谱具有可解释性的论文推荐方法及***、终端
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN115130601A (zh) 基于多维特征融合的二阶段学术数据网页分类方法及***
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
CN113535960A (zh) 一种文本分类方法、装置和设备
CN117370650A (zh) 基于服务组合超图卷积网络的云计算数据推荐方法
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN111079840A (zh) 基于卷积神经网络和概念格的图像语义完备标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant