CN104376021A - 文件推荐***及方法 - Google Patents

文件推荐***及方法 Download PDF

Info

Publication number
CN104376021A
CN104376021A CN201310357844.7A CN201310357844A CN104376021A CN 104376021 A CN104376021 A CN 104376021A CN 201310357844 A CN201310357844 A CN 201310357844A CN 104376021 A CN104376021 A CN 104376021A
Authority
CN
China
Prior art keywords
file
correlation rule
reading
user
threshold values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310357844.7A
Other languages
English (en)
Inventor
强振雄
林奇玲
李建纬
李宜臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jetta Software (shenzhen) Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Jetta Software (shenzhen) Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jetta Software (shenzhen) Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Jetta Software (shenzhen) Co Ltd
Priority to CN201310357844.7A priority Critical patent/CN104376021A/zh
Priority to TW102129997A priority patent/TW201508509A/zh
Priority to US14/460,614 priority patent/US20150052101A1/en
Publication of CN104376021A publication Critical patent/CN104376021A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种文件推荐方法,该方法包括:收集所有用户在一个时间段内的阅读行为,建立关联分析表;根据关联规则数据挖掘演算法对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则;根据用户当前阅读文件的类别,查询包括该文件类别的关联规则,依据关联规则推荐其他类别的文件给用户。此外,本发明还提供一种文件推荐***。

Description

文件推荐***及方法
技术领域
本发明涉及文字采矿和信息挖掘技术,尤其涉及文件推荐***及方法。
背景技术
借助于互联网的快速普及,人们每天通过网络可以浏览各种信息资讯。然而信息资讯日益膨胀,庞大的信息量反而会导致人们无法从过多的网页或文件中快速筛选到符合个人需求的信息。
目前大多数的新闻门户网站或是资讯类***,根据用户已经阅读的网页或是文件中的关键词,利用关键词找出该用户的阅读需求以推送出相关新闻或文件。该方法以关键词作为推送的依据,推送的新闻或文件是离散的,没有相关性。
发明内容
鉴于上述内容,有必要提供一种文件推荐***及方法,可以挖掘不同文件之间关联阅读的规则,推送相关联的文件给用户。
所述文件推荐***,该***包括:资料收集模块,用于收集所有用户在一个时间段内的阅读行为,建立关联分析表;规则提取模块,用于根据关联规则挖掘算法对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则;及文件推荐模块,用于根据用户当前阅读文件的类别,查询包括该文件类别的关联规则,依据关联规则推荐其他类别的文件给用户。
所述文件推荐方法,该方法包括:收集所有用户在一个时间段内的阅读行为,建立关联分析表;根据关联规则挖掘算法对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则;根据用户当前阅读文件的类别,查询包括该文件类别的关联规则,依据关联规则推荐其他类别的文件给用户。
相比于现有技术,本发明中所述的文件推荐***及方法,能够有效分析所有用户的阅读行为,利用关联规则数据挖掘演算法提取不同文件之间关联阅读的规则,当用户阅读某类文件时,根据关联规则推荐该类文件相关联的文件给用户。
附图说明
图1是本发明所述文件推荐***的较佳实施例的运行环境图。
图2是本发明所述文件推荐***的较佳实施例的功能模块图。
图3是本发明所述文件推荐方法的方法流程图。
图4是本发明中关联分析表的示意图。
图5是利用先验演算法提取出的关联规则的示意图。
主要元件符号说明
服务器 1
数据库 2
用户终端设备 3
文件推荐*** 10
处理器 20
存储器 30
资料收集模块 101
规则提取模块 102
文件推荐模块 103
定期更新模块 104
如下具体实施方式结合上述附图进一步说明本发明的技术方案。
具体实施方式
参阅图1所示,是本发明所述文件推荐***的较佳实施例的运行环境图。所述文件推荐***10运行于服务器1中。所述服务器1通过互联网或是局域网和一个数据库2以及多个用户终端3进行通讯连接。所述服务器1是一个应用程序服务器,提供网络服务和应用程序服务,处理用户终端3发送的服务请求等。所述数据库2用于存储文件和各类表数据等。所述用户终端3可以是个人电脑或是平板电脑等。
本较佳实施例中,所述服务器1提供一个文件阅读平台(例如新闻门户网站),用户注册该平台后,可以登陆该平台自由阅读各类文件。
参阅图2所示,是本发明所述文件推荐***的较佳实施例的功能模块图。所述文件推荐***10的程序化代码存储于服务器1的存储器30中,由处理器20控制执行。所述文件推荐***10包括多个由程序代码组成的功能模块:资料收集模块101、规则提取模块102、文件推荐模块103和定期更新模块104。所述功能模块是完成特定功能的程序段,比程序更适合描述软件在处理器中的处理过程。以下结合图3的方法流程图,进一步详细说明各模块功能。
本较佳实施例中,所述文件推荐***10收集所有用户的阅读行为,利用Apriori演算法(Apriori Algorithm,先验算法)挖掘不同文件之间关联阅读的关联规则,当用户在阅读某类文件后,根据提取的关联规则,推送具有关联性的另一类别的文件给用户。
步骤S01,资料收集模块101收集所有用户在一个时间段内(如90天)的阅读行为,提取出阅读行为中的用户ID、日期、文件ID、文件类别和阅读时间,建立如图4所示的关联分析表。
本较佳实施例中,服务器1会记录每个用户每次登陆文件阅读平台后的所有阅读行为(也称之为历史记录)。所述阅读行为包括用户ID、登陆时间、阅读文件ID、文件类别、文件字数、阅读时间(即阅读文件的时间点,如12:00等)、阅读时长(即阅读文件的时长且以分钟为单位计时)、退出时间等信息。所述文件ID为区分文件的唯一标识。所述文件类别是以一定的划分标准如文件资料来源或文件关键词等对文件的划分,且不同类别分别以不同的数字编号加以区分,本较佳实施例中,数据库2的文件以文件的关键词划分类别,如“三星”、“诺基亚”、“谷歌”、“百度”、“腾讯”、“联想”、“东芝”、“郭敬明”、“韩寒”等,且分别指定不同数字编号如11、16、22、23、50、60、63、90、96等。
步骤S02,规则提取模块102根据先验演算法(Apriori算法)对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则(Association Rule)。
本较佳实施例中,利用微软公司的SQL Server Analysis Service中实现Apriori算法的购物篮分析模型(Market Basket Analysis),对关联分析表进行演算,提取出不同文件类别之间关联阅读的关联规则。
规则提取模块102利用该购物篮分析模型提取关联规则的过程为:
1)设定Apriori算法的基本参数:设定最小项目组合数、最小支持度阀值(support)及最小置信度阀值(confidence);
2)导入关联分析表作为购物篮分析模型的输入,指定用户ID栏位和日期栏位共同作为主键(Key值)即以一天为分析单位,每个用户在一天内阅读的所有文件为一个项目集合,指定文件类别栏位为关联规则的数据项;
3)利用Apriori算法对关联分析表进行演算,筛选出满足最小支持度阀值和最小置信度阀值的项目组合(即数据项组合),提取并输出各数据项之间的关联规则,即不同类别文件之间关联阅读的关联规则。
本较佳实施例中,设定最小项目组合数为2、最小支持度阀值为0.1、最小置信度阀值为0.2,则经过Apriori算法演算后输出满足条件的关联规则。如图5所示,文件类别11和16存在关联阅读的关联规则即用户阅读类别11的文件后,会阅读类别16的文件,依据本较佳实施例中文件类别的划分依据,该关联规则是指当阅读了有关三星公司的新闻或文件后,用户随后会阅读有关诺基亚公司的新闻或文件。
步骤S03,文件推荐模块103根据用户当前阅读文件的类别,查询包含该文件类别的关联规则,依据关联规则,推荐该类别文件相关联的其他类别的文件给用户。
如图5所示,文件类别22和23存在关联阅读的规则。例如,若用户当前阅读一篇关于谷歌的新闻或文件,文件推荐模块103获取用户当前阅读文件的类别为22,根据该文件类别22查询包含文件类别22的所有关联规则,推荐文件类别为23的时间最近的新闻或文件给用户。
步骤S04,定期更新模块104设定周期性的关联规则提取排程,每间隔一定时间周期(如90天),抓取该时间周期内的所有用户的阅读行为,重新提取该时间周期内的不同类别文件之间关联阅读的关联规则。
由于用户阅读习惯的变更及用户数量的增减等原因,导致不同类别文件之间关联阅读的关联规则会有所调整,本较佳实施例中,定期更新模块104设定了周期性的排程,重新执行步骤S01、S02,根据最近一个时间段内所有用户的阅读行为,重新提取关联规则。本较佳实施例中,设定相隔90天的时间执行关联规则提取排程,在执行排程时,抓取前90天内的所有用户的阅读行为,利用先验演算法重新提取关联规则。
本较佳实施例中,利用先验演算法(Apriori演算法)从所有用户一段时间的阅读行为中提取不同文件之间关联阅读的关联规则,根据该提取的关联规则,在用户阅读某类文件时,推荐关联文件给用户。其他实施例中,还可以利用FP-Growth演算法或Eclat演算法等其他关联规则数据挖掘的演算法,从所有用户一段时间内的阅读行为中提取关联规则。
最后需要指出,以上较佳实施例仅用于说明本发明的技术方案而非限制,尽管参照以上较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,都不应脱离本发明的精神和范围。

Claims (6)

1.一种文件推荐***,运行于服务器中,其特征在于,该***包括:
资料收集模块:用于收集所有用户在一个时间段内的阅读行为,建立关联分析表;
规则提取模块:用于根据关联规则数据挖掘演算法对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则;及
文件推荐模块:用于根据用户当前阅读文件的类别,查询包括该文件类别的关联规则,依据关联规则推荐其他类别的文件给用户。
2.如权利要求1所述的文件推荐***,其特征在于,该***还包括一个定期更新模块,用于设定周期性的关联规则提取排程,每间隔一定时间周期,抓取该时间周期内的所有用户的阅读行为,重新提取该时间周期内的不同类别文件之间关联阅读的关联规则。
3.如权利要求1所述的文件推荐***,其特征在于,所述规则提取模块用于提取不同类别文件之间关联阅读的关联规则:
设定先验演算法的基本参数,包括最小项目组合数、最小支持度阀值和最小置信度阀值;
将关联分析表作为先验演算法的输入,指定用户ID栏位和日期栏位共同作为主键,指定文件类别栏位为关联规则的数据项;
利用先验演算法对关联分析进行演算,筛选出满足最小支持度阀值和最小置信度阀值的项目组合,提取并输出各数据项之间的关联规则。
4.一种文件推荐方法,其特征在于,该方法包括:
资料收集步骤:收集所有用户在一个时间段内的阅读行为,建立关联分析表;
规则提取步骤:根据关联规则数据挖掘演算法对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则;及
文件推荐步骤:根据用户当前阅读文件的类别,查询包括该文件类别的关联规则,依据关联规则推荐其他类别的文件给用户。
5.如权利要求4所述的文件推荐方法,其特征在于,该方法还包括定期更新步骤:设定周期性的关联规则提取排程,每间隔一定时间周期,抓取该时间周期内的所有用户的阅读行为,重新提取该时间周期内的不同类别文件之间关联阅读的关联规则。
6.如权利要求4所述的文件推荐方法,其特征在于,所述规则提取步骤包括:
设定先验演算法的基本参数,包括最小项目组合数、最小支持度阀值和最小置信度阀值;
将关联分析表作为先验演算法的输入,指定用户ID栏位和日期栏位共同作为主键,指定文件类别栏位为关联规则的数据项;
利用先验演算法对关联分析进行演算,筛选出满足最小支持度阀值和最小置信度阀值的项目组合,提取并输出各数据项之间的关联规则。
CN201310357844.7A 2013-08-16 2013-08-16 文件推荐***及方法 Pending CN104376021A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310357844.7A CN104376021A (zh) 2013-08-16 2013-08-16 文件推荐***及方法
TW102129997A TW201508509A (zh) 2013-08-16 2013-08-22 文檔推薦系統及方法
US14/460,614 US20150052101A1 (en) 2013-08-16 2014-08-15 Electronic device and method for transmitting files

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310357844.7A CN104376021A (zh) 2013-08-16 2013-08-16 文件推荐***及方法

Publications (1)

Publication Number Publication Date
CN104376021A true CN104376021A (zh) 2015-02-25

Family

ID=52467564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310357844.7A Pending CN104376021A (zh) 2013-08-16 2013-08-16 文件推荐***及方法

Country Status (3)

Country Link
US (1) US20150052101A1 (zh)
CN (1) CN104376021A (zh)
TW (1) TW201508509A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017063420A1 (zh) * 2015-10-12 2017-04-20 百度在线网络技术(北京)有限公司 用于确定用户需求的方法与装置
CN109815368A (zh) * 2018-12-10 2019-05-28 百度在线网络技术(北京)有限公司 资源推荐方法、装置、设备及计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750845A (zh) * 2015-04-09 2015-07-01 重庆邮电大学 一种基于Apriori算法的图书电子资源联合编目方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090276764A1 (en) * 2008-05-05 2009-11-05 Ghorbani Ali-Akbar High-level hypermedia synthesis for adaptive web
CN101697162A (zh) * 2009-10-22 2010-04-21 杭州因豪信息科技开发有限公司 一种智能化推荐点菜方法及***
CN102902740A (zh) * 2012-09-12 2013-01-30 北京航空航天大学 Web服务组合推荐方法及设备
CN102945240A (zh) * 2012-09-11 2013-02-27 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088107A2 (en) * 2002-04-10 2003-10-23 Accenture Global Services Gmbh Determination of attributes based on product descriptions
US6915297B2 (en) * 2002-05-21 2005-07-05 Bridgewell, Inc. Automatic knowledge management system
US7698170B1 (en) * 2004-08-05 2010-04-13 Versata Development Group, Inc. Retail recommendation domain model
US20070168350A1 (en) * 2006-01-17 2007-07-19 Tom Utiger Management of non-traditional content repositories
WO2013048986A1 (en) * 2011-09-26 2013-04-04 Knoa Software, Inc. Method, system and program product for allocation and/or prioritization of electronic resources
US8965830B2 (en) * 2012-05-17 2015-02-24 Xerox Corporation Systems and methods for self-adaptive episode mining under the threshold using delay estimation and temporal division
US20140074649A1 (en) * 2012-09-13 2014-03-13 Coupons.Com Incorporated Grocery recommendation engine

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090276764A1 (en) * 2008-05-05 2009-11-05 Ghorbani Ali-Akbar High-level hypermedia synthesis for adaptive web
CN101697162A (zh) * 2009-10-22 2010-04-21 杭州因豪信息科技开发有限公司 一种智能化推荐点菜方法及***
CN102945240A (zh) * 2012-09-11 2013-02-27 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置
CN102902740A (zh) * 2012-09-12 2013-01-30 北京航空航天大学 Web服务组合推荐方法及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017063420A1 (zh) * 2015-10-12 2017-04-20 百度在线网络技术(北京)有限公司 用于确定用户需求的方法与装置
CN109815368A (zh) * 2018-12-10 2019-05-28 百度在线网络技术(北京)有限公司 资源推荐方法、装置、设备及计算机可读存储介质
US11153653B2 (en) 2018-12-10 2021-10-19 Baidu Online Network Technology (Beijing) Co., Ltd. Resource recommendation method, device, apparatus and computer readable storage medium

Also Published As

Publication number Publication date
TW201508509A (zh) 2015-03-01
US20150052101A1 (en) 2015-02-19

Similar Documents

Publication Publication Date Title
CN110198310B (zh) 一种网络行为反作弊方法、装置及存储介质
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及***
US11816172B2 (en) Data processing method, server, and computer storage medium
CN107862022B (zh) 文化资源推荐***
CN107800591B (zh) 一种统一日志数据的分析方法
CN107895011B (zh) 会话信息的处理方法、***、存储介质和电子设备
CN102880501A (zh) 应用推荐的实现方法、装置和***
CN107515915A (zh) 基于用户行为数据的用户标识关联方法
CN106021583B (zh) 页面流量数据的统计方法及其***
CN104951539A (zh) 互联网数据中心有害信息监测***
CN112613917A (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN104394118A (zh) 一种用户身份识别方法及***
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN112632405B (zh) 一种推荐方法、装置、设备及存储介质
CN110362607B (zh) 异常号码识别方法、装置、计算机设备及存储介质
CN107944032B (zh) 用于生成信息的方法和装置
CN112394908A (zh) 埋点页面自动生成的方法、装置、计算机设备及存储介质
CN111310052A (zh) 用户画像构建方法、装置及计算机可读存储介质
CN104391843A (zh) 文件推荐***及方法
CN111666298A (zh) 基于flink的用户服务类别检测方法、装置、计算机设备
CN112818230A (zh) 内容推荐方法、装置、电子设备和存储介质
CN114186760A (zh) 一种企业稳健运营的分析方法、***及可读存储介质
CN111177481A (zh) 用户标识映射方法及装置
CN104376021A (zh) 文件推荐***及方法
CN110442614B (zh) 元数据的搜索方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150225