TW201508509A - 文檔推薦系統及方法 - Google Patents

文檔推薦系統及方法 Download PDF

Info

Publication number
TW201508509A
TW201508509A TW102129997A TW102129997A TW201508509A TW 201508509 A TW201508509 A TW 201508509A TW 102129997 A TW102129997 A TW 102129997A TW 102129997 A TW102129997 A TW 102129997A TW 201508509 A TW201508509 A TW 201508509A
Authority
TW
Taiwan
Prior art keywords
association
document
reading
documents
user
Prior art date
Application number
TW102129997A
Other languages
English (en)
Inventor
Jen-Hsiung Charng
Chi-Ling Lin
Chien-Wei Lee
I-Chen Lee
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Publication of TW201508509A publication Critical patent/TW201508509A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本發明提供一種文檔推薦系統,該系統包括:資料收集模組,用於收集所有用戶在一個時間段內的閱讀行為,建立關聯分析表;規則提取模組,用於根據關聯規則挖掘演算法對上述關聯分析表進行演算,提取不同類別文檔之間關聯閱讀的關聯規則;及文檔推薦模組,用於根據用戶當前閱讀文檔的類別,查詢包括該文檔類別的關聯規則,依據關聯規則推薦其他類別的文檔給用戶。

Description

文檔推薦系統及方法
本發明涉及文字採礦和資訊挖掘技術,尤其涉及文檔推薦系統及方法。
借助於互聯網的快速普及,人們每天透過網路可以瀏覽各種資訊。然而資訊日益膨脹,龐大的信息量反而會導致人們無法從過多的網頁或文檔中快速篩選到符合個人需求的資訊。
目前大多數的新聞門戶網站或是資訊類系統,根據用戶已經閱讀的網頁或是文檔中的關鍵字,利用關鍵字找出該用戶的閱讀需求以推送出相關新聞或文檔。該方法以關鍵字為推送的依據,推送的新聞或文檔是離散的,沒有相關性。
鑒於上述內容,有必要提供一種文檔推薦系統及方法,可以挖掘不同類別文檔之間關聯閱讀的規則,推送相關聯的文檔給用戶。
所述文檔推薦系統,該系統包括:資料收集模組,用於收集所有用戶在一個時間段內的閱讀行為,建立關聯分析表;規則提取模組,用於根據關聯規則挖掘演算法對上述關聯分析表進行演算,提取不同類別文檔之間關聯閱讀的關聯規則;及文檔推薦模組,用於根據用戶當前閱讀文檔的類別,查詢包含該文檔類別的關聯規則,依據關聯規則推薦其他類別的文檔給用戶。
所述文檔推薦方法,該方法包括:收集所有用戶在一個時間段內的閱讀行為,建立關聯分析表;根據關聯規則挖掘演算法對上述關聯分析表進行演算,提取不同類別文檔之間關聯閱讀的關聯規則;根據用戶當前閱讀文檔的類別,查詢包含該文檔類別的關聯規則,依據關聯規則推薦其他類別的文檔給用戶。
相比於習知技術,本發明中所述的文檔推薦系統及方法,能夠有效分析所有用戶的閱讀行為,利用關聯規則挖掘演算法提取不同類別文檔之間關聯閱讀的規則,當用戶閱讀某類文檔時,根據關聯規則推薦該類文檔相關聯的其他類別的文檔給用戶。
1‧‧‧伺服器
2‧‧‧資料庫
3‧‧‧用戶終端
10‧‧‧文檔推薦系統
20‧‧‧處理器
30‧‧‧儲存器
101‧‧‧資料收集模組
102‧‧‧規則提取模組
103‧‧‧文檔推薦模組
104‧‧‧定期更新模組
圖1係本發明所述文檔推薦系統的較佳實施例的運行環境圖。
圖2係本發明所述文檔推薦系統的較佳實施例的功能模組圖。
圖3係本發明所述文檔推薦方法的方法流程圖。
圖4係本發明中關聯分析表的示意圖。
圖5係利用先驗演算法提取出的關聯規則的示意圖。
參閱圖1所示,係本發明所述文檔推薦系統的較佳實施例的運行環境圖。所述文檔推薦系統10運行於伺服器1中。所述伺服器1透過網際網路或局域網和一個資料庫2以及多個用戶終端3進行通訊連接。所述伺服器1是一個應用程式伺服器,提供網路服務和應用程式服務,處理用戶終端3發送的服務請求等。所述資料庫2用於存儲文檔和各類表資料等。所述用戶終端3可以是個人電腦或是平板電腦等。
本較佳實施例中,所述伺服器1提供一個文檔閱讀平臺(例如新聞門戶網站),用戶註冊後,可以登陸該平臺自由閱讀各類文檔。
參閱圖2所示,係本發明所述文檔推薦系統的較佳實施例的功能模組圖。所述文檔推薦系統10的程式化代碼存儲於伺服器1的儲存器30中,由處理器20控制執行。所述文檔推薦系統10包括多個由程式代碼組成的功能模組:資料收集模組101、規則提取模組102、文檔推薦模組103和定期更新模組104。所述功能模組是完成特定功能的程式段,比程式更適合描述軟體在處理器中的處理過程。以下結合圖3的方法流程圖,詳細說明各模組功能。
本較佳實施例中,所述文檔推薦系統10收集所有用戶的閱讀行為,利用Apriori演算法(Apriori Algorithm,先驗演算法)挖掘不同類別文檔之間關聯閱讀的關聯規則,當用戶在閱讀某類文檔後,根據提取的關聯規則,推送具有關聯性的其他類別的文檔給用戶。
步驟S01,資料收集模組101收集所有用戶在一個時間段內(如90天)的閱讀行為,提取出閱讀行為中的用戶ID、日期、文檔ID、文檔類別和閱讀時間,建立如圖4所示的關聯分析表。
本較佳實施例中,伺服器1會記錄每個用戶每次登陸文檔閱讀平臺後的所有閱讀行為(也稱之為歷史記錄)。所述閱讀行為包括用戶ID、登陸時間、閱讀文檔ID、文檔類別、文檔字數、閱讀時間(即閱讀文檔的時間點,如12:00等)、閱讀時長(即閱讀文檔的時長且以分鐘為單位計時)、退出時間等資訊。所述文檔ID為區分文檔的唯一標識。所述文檔類別是以一定的劃分標準如文檔資料來源或文檔主要內容的關鍵字等對文檔的劃分,且不同類別分別以不同的數位編號加以區分,本較佳實施例中,資料庫2中的文檔以文檔主要內容的關鍵字劃分文檔類別,例如資料庫2中包含有以下文檔類別“三星”、“諾基亞”、“穀歌”、“百度”、“騰訊”、“聯想”、“東芝”、“郭敬明”、“韓寒”等,且不同文檔類別分別指定不同數位編號如11、16、22、23、50、60、63、90、96等。
步驟S02,規則提取模組102根據先驗演算法(Apriori演算法)對上述關聯分析表進行演算,提取不同類別文檔之間關聯閱讀的關聯規則(Association Rule)。
本較佳實施例中,利用微軟公司的SQL Server Analysis Service中實現Apriori演算法的購物籃分析模型(Market Basket Analysis),對關聯分析表進行演算,提取出不同類別文檔之間關聯閱讀的關聯規則。
規則提取模組102利用該購物籃分析模型提取關聯規則的過程為:
1)設定Apriori演算法的基本參數:設定最小項目組合數、最小支持度閥值(support)及最小置信度閥值(confidence);
2)導入關聯分析表作為購物籃分析模型的輸入,指定用戶ID欄位和日期欄位共同作為主鍵(Key值)即以一天為分析單位,每個用戶在一天內閱讀的所有文檔為一個項目集合,指定文檔類別欄位為關聯規則的數據項;
3)利用Apriori演算法對關聯分析表進行演算,篩選出滿足最小支持度閥值和最小置信度閥值的項目組合(即數據項組合),提取並輸出各數據項之間的關聯規則,即不同類別文檔之間關聯閱讀的關聯規則。
本較佳實施例中,設定最小項目組合數為2、最小支持度閥值為0.1、最小置信度閥值為0.2,則經過Apriori演算法演算後輸出滿足條件的關聯規則。如圖5所示,文檔類別11和16存在關聯閱讀的關聯規則即用戶閱讀類別11的文檔後,會閱讀類別16的文檔,依據本較佳實施例中文檔類別的劃分依據,該關聯規則是指當閱讀了有關三星公司的新聞或文檔後,用戶隨後會閱讀有關諾基亞公司的新聞或文檔。
步驟S03,文檔推薦模組103根據用戶當前閱讀文檔的類別,查詢包含該文檔類別的關聯規則,依據關聯規則,推薦該類別文檔相關聯的其他類別的文檔給用戶。
如圖5所示,文檔類別22和23存在關聯閱讀的規則。例如,若用戶當前閱讀一篇關於穀歌的新聞或文檔,文檔推薦模組103獲取用戶當前閱讀文檔的類別為22,根據該文檔類別22查詢包含文檔類別22的所有關聯規則,推薦文檔類別為23的時間最近的新聞或文檔給用戶。
步驟S04,定期更新模組104設定週期性的關聯規則提取排程,每間隔一定時間週期(如90天),抓取該時間週期內的所有用戶的閱讀行為,重新提取該時間週期內的不同類別文檔之間關聯閱讀的關聯規則。
由於用戶閱讀習慣的變更及用戶數量的增減等原因,導致不同類別文檔之間關聯閱讀的關聯規則會有所調整,本較佳實施例中,定期更新模組104設定了週期性的排程,重新執行步驟S01、S02,根據最近一個時間段內所有用戶的閱讀行為,重新提取關聯規則。本較佳實施例中,設定相隔90天的時間執行關聯規則提取排程,在執行排程時,抓取前90天內的所有用戶的閱讀行為,利用先驗演算法重新提取關聯規則。
本較佳實施例中,利用先驗演算法(Apriori演算法)從所有用戶一段時間的閱讀行為中提取不同類別文檔之間關聯閱讀的關聯規則,根據該提取的關聯規則,在用戶閱讀某類文檔時,推薦關聯文檔給用戶。其他實施例中,還可以利用FP-Growth演算法或Eclat演算法等其他關聯規則挖掘的演算法,從所有用戶一段時間內的閱讀行為中提取關聯規則。
最後需要指出,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照以上較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或等同替換都不應脫離本發明技術方案的精神和範圍。
1‧‧‧伺服器
10‧‧‧文檔推薦系統
20‧‧‧處理器
30‧‧‧儲存器
101‧‧‧資料收集模組
102‧‧‧規則提取模組
103‧‧‧文檔推薦模組
104‧‧‧定期更新模組

Claims (6)

  1. 一種文檔推薦系統,運行於伺服器中,該系統包括:
    資料收集模組:用於收集所有用戶在一個時間段內的閱讀行為,建立關聯分析表;
    規則提取模組:用於根據關聯規則挖掘演算法對上述關聯分析表進行演算,提取不同類別文檔之間關聯閱讀的關聯規則;及
    文檔推薦模組:用於根據用戶當前閱讀文檔的類別,查詢包含該文檔類別的關聯規則,依據關聯規則推薦相關聯的其他類別文檔給用戶。
  2. 如申請專利範圍第1項所述的文檔推薦系統,該系統還包括一個定期更新模組,用於設定週期性的關聯規則提取排程,每間隔一定時間週期,抓取該時間週期內的所有用戶的閱讀行為,重新提取該時間週期內的不同類別文檔之間關聯閱讀的關聯規則。
  3. 如申請專利範圍第1項所述的文檔推薦系統,所述規則提取模組用於提取不同類別文檔之間關聯閱讀的關聯規則:
    設定先驗演算法的基本參數,包括最小項目組合數、最小支持度閥值和最小置信度閥值;
    將關聯分析表作為先驗演算法的輸入,指定用戶ID欄位和日期欄位共同作為主鍵,指定文檔類別欄位為關聯規則的數據項;
    利用先驗演算法對關聯分析表進行演算,篩選出滿足最小支持度閥值和最小置信度閥值的項目組合,提取並輸出各數據項之間的關聯規則。
  4. 一種文檔推薦方法,該方法包括:
    資料收集步驟:收集所有用戶在一個時間段內的閱讀行為,建立關聯分析表;
    規則提取步驟:根據關聯規則挖掘演算法對上述關聯分析表進行演算,提取不同類別文檔之間關聯閱讀的關聯規則;及
    文檔推薦步驟:根據用戶當前閱讀文檔的類別,查詢包含該文檔類別的關聯規則,依據關聯規則推薦相關聯的其他類別文檔給用戶。
  5. 如申請專利範圍第4項所述的文檔推薦方法,該方法還包括定期更新步驟:設定週期性的關聯規則提取排程,每間隔一定時間週期,抓取該時間週期內的所有用戶的閱讀行為,重新提取該時間週期內的不同類別文檔之間關聯閱讀的關聯規則。
  6. 如申請專利範圍第4項所述的文檔推薦方法,所述規則提取步驟包括:
    設定先驗演算法的基本參數,包括最小項目組合數、最小支持度閥值和最小置信度閥值;
    將關聯分析表作為先驗演算法的輸入,指定用戶ID欄位和日期欄位共同作為主鍵,指定文檔類別欄位為關聯規則的數據項;
    利用先驗演算法對關聯分析表進行演算,篩選出滿足最小支持度閥值和最小置信度閥值的項目組合,提取並輸出各數據項之間的關聯規則。
TW102129997A 2013-08-16 2013-08-22 文檔推薦系統及方法 TW201508509A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310357844.7A CN104376021A (zh) 2013-08-16 2013-08-16 文件推荐***及方法

Publications (1)

Publication Number Publication Date
TW201508509A true TW201508509A (zh) 2015-03-01

Family

ID=52467564

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102129997A TW201508509A (zh) 2013-08-16 2013-08-22 文檔推薦系統及方法

Country Status (3)

Country Link
US (1) US20150052101A1 (zh)
CN (1) CN104376021A (zh)
TW (1) TW201508509A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750845A (zh) * 2015-04-09 2015-07-01 重庆邮电大学 一种基于Apriori算法的图书电子资源联合编目方法
CN105302879B (zh) * 2015-10-12 2019-03-08 百度在线网络技术(北京)有限公司 用于确定用户需求的方法与装置
CN109815368A (zh) 2018-12-10 2019-05-28 百度在线网络技术(北京)有限公司 资源推荐方法、装置、设备及计算机可读存储介质
CN112465658A (zh) * 2020-10-30 2021-03-09 中国石油天然气集团有限公司 自媒体文件用户粘度的确定方法及装置
CN113159738A (zh) * 2021-05-28 2021-07-23 中国工商银行股份有限公司 业务项目处理方法、装置、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088107A2 (en) * 2002-04-10 2003-10-23 Accenture Global Services Gmbh Determination of attributes based on product descriptions
US6915297B2 (en) * 2002-05-21 2005-07-05 Bridgewell, Inc. Automatic knowledge management system
US7698170B1 (en) * 2004-08-05 2010-04-13 Versata Development Group, Inc. Retail recommendation domain model
US20070168350A1 (en) * 2006-01-17 2007-07-19 Tom Utiger Management of non-traditional content repositories
US8549497B2 (en) * 2008-05-05 2013-10-01 University Of New Brunswick High-level hypermedia synthesis for adaptive web
CN101697162B (zh) * 2009-10-22 2011-08-10 广东开心信息技术有限公司 一种智能化推荐点菜方法及***
US9225772B2 (en) * 2011-09-26 2015-12-29 Knoa Software, Inc. Method, system and program product for allocation and/or prioritization of electronic resources
US8965830B2 (en) * 2012-05-17 2015-02-24 Xerox Corporation Systems and methods for self-adaptive episode mining under the threshold using delay estimation and temporal division
CN102945240B (zh) * 2012-09-11 2015-03-18 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置
CN102902740B (zh) * 2012-09-12 2015-05-20 北京航空航天大学 Web服务组合推荐方法及设备
US20140074649A1 (en) * 2012-09-13 2014-03-13 Coupons.Com Incorporated Grocery recommendation engine

Also Published As

Publication number Publication date
CN104376021A (zh) 2015-02-25
US20150052101A1 (en) 2015-02-19

Similar Documents

Publication Publication Date Title
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及***
CN106557513B (zh) 事件信息推送方法及事件信息推送装置
US7860878B2 (en) Prioritizing media assets for publication
US8990241B2 (en) System and method for recommending queries related to trending topics based on a received query
CN107862022B (zh) 文化资源推荐***
US9467744B2 (en) Comment-based media classification
CN104850546B (zh) 移动媒介信息的展示方法和***
CN106021583B (zh) 页面流量数据的统计方法及其***
JP4797069B2 (ja) キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法
CN108305180B (zh) 一种好友推荐方法及装置
US10002187B2 (en) Method and system for performing topic creation for social data
JP6411800B2 (ja) 情報管理装置、情報管理システム、及び情報管理プログラム
TW201508508A (zh) 文檔推薦系統及方法
TW201508509A (zh) 文檔推薦系統及方法
US11423096B2 (en) Method and apparatus for outputting information
US20150120708A1 (en) Information aggregation, classification and display method and system
JP2010128927A (ja) レコメンド情報生成装置およびレコメンド情報生成方法
CN111447575A (zh) 短信息推送方法、装置、设备及存储介质
CN110245357B (zh) 主实体识别方法和装置
CN103853771B (zh) 一种搜索结果的推送方法及***
WO2017201905A1 (zh) 资料分发方法、装置和存储介质
CN108287831B (zh) 一种url分类方法和***、数据处理方法和***
CN106446696B (zh) 一种信息处理方法及电子设备
Dooms et al. Mining cross-domain rating datasets from structured data on twitter
CN103309900A (zh) 一种个性化多维度的文档排序方法和***