CN104216884B - 一种基于时间衰减的协同过滤***及方法 - Google Patents

一种基于时间衰减的协同过滤***及方法 Download PDF

Info

Publication number
CN104216884B
CN104216884B CN201310206887.5A CN201310206887A CN104216884B CN 104216884 B CN104216884 B CN 104216884B CN 201310206887 A CN201310206887 A CN 201310206887A CN 104216884 B CN104216884 B CN 104216884B
Authority
CN
China
Prior art keywords
collaborative filtering
freq
new
attenuation factor
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310206887.5A
Other languages
English (en)
Other versions
CN104216884A (zh
Inventor
陈冬
陈运文
纪达麒
刘作涛
姚璐
辛颖伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shangxiang Network Technology Co.,Ltd.
Original Assignee
Shanghai Lianshang Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lianshang Network Technology Co Ltd filed Critical Shanghai Lianshang Network Technology Co Ltd
Priority to CN201310206887.5A priority Critical patent/CN104216884B/zh
Publication of CN104216884A publication Critical patent/CN104216884A/zh
Application granted granted Critical
Publication of CN104216884B publication Critical patent/CN104216884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于时间衰减的协同过滤方法及***,该方法包括如下步骤:把传统协同过滤算法公式中的频次和共现做分解,形成新的协同过滤公式;于该新的协同过滤公式中引入时间衰减因子,构建最终的协同过滤公式,使用户兴趣迁移比较快的应用场景多采用用户行为最近发生的数据,而用户兴趣行为变化比较慢的数据,多利用用户历史行为记录;根据具体需要选择相应的时间衰减因子进行过滤,完成推荐,本发明可以通过调整时间衰减因子,灵活地选择用户行为数据的范围,快速地调整以适应具体的应用,准确地分析出用户的兴趣,更好地实现推荐。

Description

一种基于时间衰减的协同过滤***及方法
技术领域
本发明关于一种协同过滤***及方法,特别是涉及一种基于时间衰减的协同过滤***及方法。
背景技术
在电子商务网站或者内容网站中都有大量的商品或者内容,用户往往不知道这个网站所有的内容,用户寻找自己所需要的东西往往通过目录页浏览和搜索的方式,目前推荐***的应用也越来越广泛,逐步成为内容找用户的一种很好的方式。
协同过滤是推荐***常用的算法。协同过滤就是根据用户的历史行为记录,通常是浏览某个商品,收藏某个商品,购买某个商品,根据历史行为记录,可以发现商品和商品之间的联系,在新的用户下一次浏览这个商品的时候,推荐给他所需要的商品,推荐给他的商品往往是他需要的,这样就主动地帮助到了用户。
传统的协同过滤算法计算两个商品的关联程度是采用下面的公式:
Relate(A,B)=CoOccur(A,B)/(Freq(A)*Freq(B))。
即:A,B的关联关系和A,B同时出现的次数成正比,跟A,B单独出现的次数成反比。
推荐***首先需要考虑的一点就是用户的兴趣,用户对什么感兴趣,能通过用户的对于商品的浏览行为上表现出来,根据用户的兴趣来给用户推荐网站的内容,推荐成功的概率往往会提高许多。
然而,推荐所基于的用户行为的日志通常占据的大量的存储空间。日志的量越大,计算的时间越长。通过分析海量的日志,发现用户的兴趣,进而推荐给用户他所感兴趣的内容。而用户行为日志在不断的增长,用户的兴趣却在随着时间发生着变化。如何利用好海量日志,既快速又准确的分析出用户的兴趣。这成为实际***开发中不得不解决的一个问题。
另外,协同过滤算法可以应用于很多场景,购物类网站、内容类网站、可以算是一个比较通用的算法。但在具体网站中,根据不同的应用的不同,内容的不同,用户的不同,算法往往都需要根据具体情况做出自己的调整。有些应用,用户需求变化的很快,协同过滤算法如何能快速的调整以适应具体的应用,这也是一个需要解决的问题。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于时间衰减的协同过滤***及方法,其可以以根据具体的情况,调整时间衰减因子,灵活的选择用户行为数据的范围,快速地调整以适应具体的应用,准确地分析出用户的兴趣。
为达上述及其它目的,本发明提出一种基于时间衰减的协同过滤方法,包括如下步骤:
步骤一,把传统协同过滤算法公式中的频次和共现做分解,形成新的协同过滤公式;
步骤二,于该新的协同过滤公式中引入时间衰减因子,构建最终的协同过滤公式,使用户兴趣迁移比较快的应用场景多采用用户行为最近发生的数据,而用户兴趣行为变化比较慢的数据,多利用用户历史行为记录;
步骤三,根据具体需要选择相应的时间衰减因子进行过滤,完成推荐。
进一步地,于步骤一中,将频次分解为增量频次和存量频次,共现分解为增量共现和存量共现。
进一步地,该时间衰减因子的取值为0~1之间。
进一步地,当该时间衰减因子的取值为0时,完全利用新得到的用户行为数据来作为推荐的依据。当该时间衰减因子取值为1时,则采用自日志存储之日起的所有数据作为推荐的依据。
进一步地,于步骤三中,根据频次和共现的大小选择时间衰减因子。
进一步地,该最终的协同过滤公式衰减到一阈值后不再衰减,以免丢失历史信息。
为达到上述及其他目的,本发明还提供一种基于时间衰减的协同过滤***,至少包括:
分解模组,用于把传统协同过滤算法公式中的频次和共现做分解,形成新的协同过滤公式;
时间衰减因子引入模组,于该新的协同过滤公式中引入时间衰减因子,构建最终的协同过滤公式,使用户兴趣迁移比较快的应用场景多采用用户行为最近发生的数据,而用户兴趣行为变化比较慢的数据,多利用用户历史行为记录;
时间衰减因子选择模组,根据具体需要,选择相应的时间衰减因子进行协同过滤,完成推荐。
进一步地,该分解模组将频次分解为增量频次和存量频次,共现分解为增量共现和存量共现。
进一步地,该时间衰减因子的取值为0~1之间。
进一步地,该时间衰减因子选择模组根据频次和共现的大小选择时间衰减因子。
与现有技术相比,本发明一种基于时间衰减的协同过滤***及方法,通过将传统协同过滤算法公式中的频次和共现分解形成新的协同过滤公式,并于新的协同过滤公式中引入时间衰减因子,以便根据需要选择时间衰减因子,使得本发明可以根据具体的情况,调整时间衰减因子,灵活的选择用户行为数据的范围,快速地调整用户行为数据的范围以适应具体的应用,更为准确地分析出用户的兴趣,实现更好地推荐。
附图说明
图1为本发明一种基于时间衰减的协同过滤方法的步骤流程图;
图2为设定衰减因子为0.9时的衰减周期图;
图3为本发明一种基于时间衰减的协同过滤***的***架构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于时间衰减的协同过滤方法的步骤流程图。如图1所示,本发明一种基于时间衰减的协同过滤方法,包括如下步骤:
步骤101,把传统协同过滤算法公式中的频次Freq(A)、Freq(B)和共现CoOccur(A,B)做分解,形成新的协同过滤公式。频次分解为增量频次和存量频次,共现分解为增量共现和存量共现。
即:CoOccur(A,B)=His_CoOccur(A,B)+New_CoOccur(A,B)
Freq(A)=His_Freq(A)+New_Freq(A)
Freq(B)=His_Freq(B)+New_Freq(B)。
这样,传统的协同过滤算法就变成了:
Relate(A,B)=(His_CoOccur(A,B)+New_CoOccur(A,B))/((His_Freq(A)+New_Freq(A))*(His_Freq(B)+New_Freq(B)))。
步骤102,于新的协同过滤公式中引入时间衰减因子,构建最终的协同过滤公式,使用户兴趣迁移比较快的应用场景多用用户行为最近发生的数据,而用户兴趣行为变化比较慢的数据,多借鉴用户历史行为记录。
这里,把时间因子用Alfa表示。
最终的协同过滤公式可以用下面公式表示。
Relate(A,B)=(Alfa*His_CoOccur(A,B)+New_CoOccur(A,B))/((Alfa*His_Freq(A)+New_Freq(A))*(Alfa*His_Freq(B)+New_Freq(B)))。
其中,Alfa的取值应该是0~1之间。
极端情况,当Alfa的取值为0时,完全利用新得到的用户行为数据来作为推荐的依据。当Alfa为1时,则用自日志存储之日起的所有数据作为推荐的依据。
步骤103,根据具体需要,选择相应的时间衰减因子进行协同过滤,完成推荐。一般来说,需要根据频次和共现的大小选择时间衰减因子,而且为了避免损失历史信息,衰减最好有一个止损值,即最终的协同过滤公式衰减到了某个阈值后不再衰减,这样可以避免历史信息的丢失。图2为设定衰减因子为0.9时的衰减周期图,可见,时间衰减因子可以灵活有效的调节用户兴趣随着时间分布的权重。
图3为本发明一种基于时间衰减的协同过滤***的***架构图。如图3所示,本发明一种基于时间衰减的协同过滤***,至少包括:分解模组301、时间衰减因子引入模组302以及时间衰减因子选择模组303。
其中分解模组301用于把传统协同过滤算法公式中的频次Freq(A)、Freq(B)和共现CoOccur(A,B)做分解,形成新的协同过滤公式。频次分解为增量频次和存量频次,共现分解为增量共现和存量共现。
即:CoOccur(A,B)=His_CoOccur(A,B)+New_CoOccur(A,B)
Freq(A)=His_Freq(A)+New_Freq(A)
Freq(B)=His_Freq(B)+New_Freq(B)。
这样,新的协同过滤公式就变成了:
Relate(A,B)=(His_CoOccur(A,B)+New_CoOccur(A,B))/((His_Freq(A)+New_Freq(A))*(His_Freq(B)+New_Freq(B)))。
时间衰减因子引入模组302于新的协同过滤公式中引入时间衰减因子,构建最终的协同过滤公式,使用户兴趣迁移比较快的应用场景多用用户行为最近发生的数据,而用户兴趣行为变化比较慢的数据,多借鉴用户历史行为记录。
这里,把时间因子用Alfa表示。
最终的协同过滤公式可以用下面公式表示。
Relate(A,B)=(Alfa*His_CoOccur(A,B)+New_CoOccur(A,B))/((Alfa*His_Freq(A)+New_Freq(A))*(Alfa*His_Freq(B)+New_Freq(B)))。
其中,Alfa的取值应该是0~1之间。
极端情况,当Alfa的取值为0时,完全利用新得到的用户行为数据来作为推荐的依据。当Alfa为1时,则用自日志存储之日起的所有数据作为推荐的依据。
时间衰减因子选择模组303根据具体需要,选择相应的时间衰减因子。一般来说,需要根据频次和共现的大小选择时间衰减因子,而且为了避免损失历史信息,衰减最好有一个止损值,即到了某个大小后不再衰减,这样可以避免历史信息的丢失
综上所述,本发明一种基于时间衰减的协同过滤***及方法,通过将传统协同过滤算法公式中的频次和共现分解形成新的协同过滤公式,并于新的协同过滤公式中引入时间衰减因子,以便根据需要选择时间衰减因子,使得本发明可以根据具体的情况,调整时间衰减因子,灵活的选择用户行为数据的范围,快速地调整用户行为数据的范围以适应具体的应用,更为准确地分析出用户的兴趣,实现更好地推荐。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (5)

1.一种基于时间衰减的协同过滤方法,包括如下步骤:
步骤一,把传统协同过滤算法公式中的频次Freq(A)、Freq(B)和共现CoOccur(A,B)做分解,形成协同过滤公式,其中频次分解为增量频次和存量频次,共现分解为增量共现和存量共现,协同过滤公式为:
Relate(A,B)=(His_CoOccur(A,B)+New_CoOccur(A,B))/((His_Freq(A)+New_Freq(A))*(His_Freq(B)+New_Freq(B)));
步骤二,于该协同过滤公式中引入时间衰减因子Alfa,构建最终的协同过滤公式,使用户兴趣迁移比较快的应用场景多采用用户行为最近发生的数据,而用户兴趣行为变化比较慢的数据,多利用用户历史行为记录,最终的协同过滤公式为:
Relate(A,B)=(Alfa*His_CoOccur(A,B)+New_CoOccur(A,B))/((Alfa*His_Freq(A)+New_Freq(A))*(Alfa*His_Freq(B)+New_Freq(B)));
步骤三,根据具体需要选择相应的时间衰减因子进行过滤,完成推荐,其中,该时间衰减因子Alfa的取值为大于0且小于1。
2.如权利要求1所述的一种基于时间衰减的协同过滤方法,其特征在于:步骤三中,根据频次和共现的大小选择时间衰减因子。
3.如权利要求1所述的一种基于时间衰减的协同过滤方法,其特征在于:该最终的协同过滤公式衰减到一阈值后不再衰减,以免丢失历史信息。
4.一种基于时间衰减的协同过滤***,至少包括:
分解模组,用于把传统协同过滤算法公式中的频次Freq(A)、Freq(B)和共现CoOccur(A,B)做分解,形成协同过滤公式,其中频次分解为增量频次和存量频次,共现分解为增量共现和存量共现,协同过滤公式为:
Relate(A,B)=(His_CoOccur(A,B)+New_CoOccur(A,B))/((His_Freq(A)+New_Freq(A))*(His_Freq(B)+New_Freq(B)));
时间衰减因子引入模组,于该协同过滤公式中引入时间衰减因子Alfa,构建最终的协同过滤公式,使用户兴趣迁移比较快的应用场景多采用用户行为最近发生的数据,而用户兴趣行为变化比较慢的数据,多利用用户历史行为记录,最终的协同过滤公式为:
Relate(A,B)=(Alfa*His_CoOccur(A,B)+New_CoOccur(A,B))/((Alfa*His_Freq(A)+New_Freq(A))*(Alfa*His_Freq(B)+New_Freq(B)));
时间衰减因子选择模组,根据具体需要,选择相应的时间衰减因子进行协同过滤,完成推荐,其中,该时间衰减因子Alfa的取值为大于0且小于1。
5.如权利要求4所述的基于时间衰减的协同过滤***,其特征在于:该时间衰减因子选择模组根据频次和共现的大小选择时间衰减因子。
CN201310206887.5A 2013-05-29 2013-05-29 一种基于时间衰减的协同过滤***及方法 Active CN104216884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310206887.5A CN104216884B (zh) 2013-05-29 2013-05-29 一种基于时间衰减的协同过滤***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310206887.5A CN104216884B (zh) 2013-05-29 2013-05-29 一种基于时间衰减的协同过滤***及方法

Publications (2)

Publication Number Publication Date
CN104216884A CN104216884A (zh) 2014-12-17
CN104216884B true CN104216884B (zh) 2020-07-07

Family

ID=52098390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310206887.5A Active CN104216884B (zh) 2013-05-29 2013-05-29 一种基于时间衰减的协同过滤***及方法

Country Status (1)

Country Link
CN (1) CN104216884B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933134A (zh) * 2015-06-12 2015-09-23 海信集团有限公司 一种用户特征的分析方法及装置
CN106997360A (zh) * 2016-01-25 2017-08-01 阿里巴巴集团控股有限公司 用户行为数据的处理方法和装置
CN105574216A (zh) * 2016-03-07 2016-05-11 达而观信息科技(上海)有限公司 基于概率模型和用户行为分析的个性化推荐方法、***
CN105930507B (zh) * 2016-05-10 2019-11-29 腾讯科技(深圳)有限公司 一种获得用户的Web浏览兴趣的方法及装置
CN106709755A (zh) * 2016-11-28 2017-05-24 加和(北京)信息科技有限公司 一种预测用户频次的方法及装置
CN107343209A (zh) * 2017-06-29 2017-11-10 达而观信息科技(上海)有限公司 一种基于增量协同过滤的ugc相关视频生成方法
CN108288179B (zh) * 2018-01-25 2021-02-02 贝壳找房(北京)科技有限公司 一种用户偏好房源计算方法和***
CN109214882B (zh) * 2018-07-09 2021-06-25 西北大学 一种商品推荐方法
CN111339434B (zh) * 2018-12-03 2023-04-28 阿里巴巴集团控股有限公司 信息推荐方法、装置、电子设备及计算机存储介质
CN112052378B (zh) * 2019-10-15 2021-09-21 河南紫联物联网技术有限公司 智能终端、智能家居应用的推荐方法及***
CN113763110A (zh) * 2021-02-08 2021-12-07 北京沃东天骏信息技术有限公司 一种物品推荐方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339563A (zh) * 2008-08-15 2009-01-07 北京航空航天大学 面向奇异发现推荐的兴趣模型更新方法
CN101719145A (zh) * 2009-11-17 2010-06-02 北京大学 基于图书领域本体的个性化搜索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339563A (zh) * 2008-08-15 2009-01-07 北京航空航天大学 面向奇异发现推荐的兴趣模型更新方法
CN101719145A (zh) * 2009-11-17 2010-06-02 北京大学 基于图书领域本体的个性化搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Time Weight Collaborative Filtering;Yi Ding 等;《Proceedings of the 14th ACM international conference on Information and knowledge management. ACM》;20051105(第2005期);正文第3.2节,附图2 *
基于滚动时间窗的动态协同过滤推荐模型及算法;沈键等;《计算机科学》;20130228;第40卷(第2期);全文 *

Also Published As

Publication number Publication date
CN104216884A (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
CN104216884B (zh) 一种基于时间衰减的协同过滤***及方法
US10572565B2 (en) User behavior models based on source domain
Park et al. Reversed CF: A fast collaborative filtering algorithm using a k-nearest neighbor graph
US10445421B2 (en) Optimizing rendering of data tables
CN110069713B (zh) 一种基于用户上下文感知的个性化推荐方法
Boufoussi et al. On the local time of multifractional Brownian motion
Palmas et al. Space bundling for continuous parallel coordinates
US9384285B1 (en) Methods for identifying related documents
US9465884B2 (en) System and method for monitoring web content
Pu A world of opportunities: CPS, IOT, and beyond
US20210326314A1 (en) Methods and systems for cascade filtering for data exploration in computer systems
CN111506816B (zh) 推荐方法、装置、设备及存储介质
Arguello Federated search in heterogeneous environments
Chyzhykov et al. Growth description of p th means of the Green potential in the unit ball
CN108804387A (zh) 目标用户确定方法及装置
US20150106354A1 (en) Automated composition of topical media
Carrión et al. A prediction method for nonlinear time series analysis of air temperature data by combining the false nearest neighbors and subspace identification methods
Nedelcu et al. Researches on CAPP activity modeling for manufacturing processes
Rao et al. Keyframe extraction method using contourlet transform
Gorawski et al. Indexing of spatio-temporal telemetric data based on distributed mobile bucket index
Zhang et al. Joint Cross-Layer Routing, Non-cooperative Dynamic Power Control, and Predictable Contact Schedule for Opportunistic Internet of Vehicles
Sun et al. Adaptive Algorithm for Adjusting Weights in Multi-attributes Group Decision-Making
Chirici et al. Big Data Analysis in Click Prediction
CA2799134C (en) System and method for monitoring web content
Khan Multi Aggregator for Content Aggregation and Contextual Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180607

Address after: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai.

Applicant after: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD.

Address before: 300467 Tianjin Binhai New Area Tianjin eco city animation road 126 anime building B1 area two layer 201-243

Applicant before: Cool Sheng (Tianjin) Technology Co., Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180803

Address after: 300450 Tianjin Binhai New Area Tianjin eco city animation road 126 anime building B1 area two layer 201-243

Applicant after: Cool Sheng (Tianjin) Technology Co., Ltd.

Address before: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai.

Applicant before: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD.

TA01 Transfer of patent application right

Effective date of registration: 20181221

Address after: 201306 N2025 room 24, 2 New Town Road, mud town, Pudong New Area, Shanghai

Applicant after: Shanghai Lian Shang network technology Co., Ltd

Address before: 300450 Tianjin Binhai New Area Tianjin eco city animation road 126 anime building B1 area two layer 201-243

Applicant before: Cool Sheng (Tianjin) Technology Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211224

Address after: 200131 Zone E, 9th floor, No.1 Lane 666, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee after: Shanghai Shangxiang Network Technology Co.,Ltd.

Address before: 201306 N2025 room 24, 2 New Town Road, mud town, Pudong New Area, Shanghai

Patentee before: SHANGHAI LIANSHANG NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right