TW201508509A

TW201508509A - 文檔推薦系統及方法

Info

Publication number: TW201508509A
Application number: TW102129997A
Authority: TW
Inventors: Jen-Hsiung Charng; Chi-Ling Lin; Chien-Wei Lee; I-Chen Lee
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2013-08-16
Filing date: 2013-08-22
Publication date: 2015-03-01
Also published as: CN104376021A; US20150052101A1

Abstract

本發明提供一種文檔推薦系統，該系統包括：資料收集模組，用於收集所有用戶在一個時間段內的閱讀行為，建立關聯分析表；規則提取模組，用於根據關聯規則挖掘演算法對上述關聯分析表進行演算，提取不同類別文檔之間關聯閱讀的關聯規則；及文檔推薦模組，用於根據用戶當前閱讀文檔的類別，查詢包括該文檔類別的關聯規則，依據關聯規則推薦其他類別的文檔給用戶。

Description

文檔推薦系統及方法

本發明涉及文字採礦和資訊挖掘技術，尤其涉及文檔推薦系統及方法。

借助於互聯網的快速普及，人們每天透過網路可以瀏覽各種資訊。然而資訊日益膨脹，龐大的信息量反而會導致人們無法從過多的網頁或文檔中快速篩選到符合個人需求的資訊。

目前大多數的新聞門戶網站或是資訊類系統，根據用戶已經閱讀的網頁或是文檔中的關鍵字，利用關鍵字找出該用戶的閱讀需求以推送出相關新聞或文檔。該方法以關鍵字為推送的依據，推送的新聞或文檔是離散的，沒有相關性。

鑒於上述內容，有必要提供一種文檔推薦系統及方法，可以挖掘不同類別文檔之間關聯閱讀的規則，推送相關聯的文檔給用戶。

所述文檔推薦系統，該系統包括：資料收集模組，用於收集所有用戶在一個時間段內的閱讀行為，建立關聯分析表；規則提取模組，用於根據關聯規則挖掘演算法對上述關聯分析表進行演算，提取不同類別文檔之間關聯閱讀的關聯規則；及文檔推薦模組，用於根據用戶當前閱讀文檔的類別，查詢包含該文檔類別的關聯規則，依據關聯規則推薦其他類別的文檔給用戶。

所述文檔推薦方法，該方法包括：收集所有用戶在一個時間段內的閱讀行為，建立關聯分析表；根據關聯規則挖掘演算法對上述關聯分析表進行演算，提取不同類別文檔之間關聯閱讀的關聯規則；根據用戶當前閱讀文檔的類別，查詢包含該文檔類別的關聯規則，依據關聯規則推薦其他類別的文檔給用戶。

相比於習知技術，本發明中所述的文檔推薦系統及方法，能夠有效分析所有用戶的閱讀行為，利用關聯規則挖掘演算法提取不同類別文檔之間關聯閱讀的規則，當用戶閱讀某類文檔時，根據關聯規則推薦該類文檔相關聯的其他類別的文檔給用戶。

1‧‧‧伺服器

2‧‧‧資料庫

3‧‧‧用戶終端

10‧‧‧文檔推薦系統

20‧‧‧處理器

30‧‧‧儲存器

101‧‧‧資料收集模組

102‧‧‧規則提取模組

103‧‧‧文檔推薦模組

104‧‧‧定期更新模組

圖1係本發明所述文檔推薦系統的較佳實施例的運行環境圖。

圖2係本發明所述文檔推薦系統的較佳實施例的功能模組圖。

圖3係本發明所述文檔推薦方法的方法流程圖。

圖4係本發明中關聯分析表的示意圖。

圖5係利用先驗演算法提取出的關聯規則的示意圖。

參閱圖1所示，係本發明所述文檔推薦系統的較佳實施例的運行環境圖。所述文檔推薦系統10運行於伺服器1中。所述伺服器1透過網際網路或局域網和一個資料庫2以及多個用戶終端3進行通訊連接。所述伺服器1是一個應用程式伺服器，提供網路服務和應用程式服務，處理用戶終端3發送的服務請求等。所述資料庫2用於存儲文檔和各類表資料等。所述用戶終端3可以是個人電腦或是平板電腦等。

本較佳實施例中，所述伺服器1提供一個文檔閱讀平臺（例如新聞門戶網站），用戶註冊後，可以登陸該平臺自由閱讀各類文檔。

參閱圖2所示，係本發明所述文檔推薦系統的較佳實施例的功能模組圖。所述文檔推薦系統10的程式化代碼存儲於伺服器1的儲存器30中，由處理器20控制執行。所述文檔推薦系統10包括多個由程式代碼組成的功能模組：資料收集模組101、規則提取模組102、文檔推薦模組103和定期更新模組104。所述功能模組是完成特定功能的程式段，比程式更適合描述軟體在處理器中的處理過程。以下結合圖3的方法流程圖，詳細說明各模組功能。

本較佳實施例中，所述文檔推薦系統10收集所有用戶的閱讀行為，利用Apriori演算法（Apriori Algorithm，先驗演算法）挖掘不同類別文檔之間關聯閱讀的關聯規則，當用戶在閱讀某類文檔後，根據提取的關聯規則，推送具有關聯性的其他類別的文檔給用戶。

步驟S01，資料收集模組101收集所有用戶在一個時間段內（如90天）的閱讀行為，提取出閱讀行為中的用戶ID、日期、文檔ID、文檔類別和閱讀時間，建立如圖4所示的關聯分析表。

本較佳實施例中，伺服器1會記錄每個用戶每次登陸文檔閱讀平臺後的所有閱讀行為（也稱之為歷史記錄）。所述閱讀行為包括用戶ID、登陸時間、閱讀文檔ID、文檔類別、文檔字數、閱讀時間（即閱讀文檔的時間點，如12:00等）、閱讀時長（即閱讀文檔的時長且以分鐘為單位計時）、退出時間等資訊。所述文檔ID為區分文檔的唯一標識。所述文檔類別是以一定的劃分標準如文檔資料來源或文檔主要內容的關鍵字等對文檔的劃分，且不同類別分別以不同的數位編號加以區分，本較佳實施例中，資料庫2中的文檔以文檔主要內容的關鍵字劃分文檔類別，例如資料庫2中包含有以下文檔類別“三星”、“諾基亞”、“穀歌”、“百度”、“騰訊”、“聯想”、“東芝”、“郭敬明”、“韓寒”等，且不同文檔類別分別指定不同數位編號如11、16、22、23、50、60、63、90、96等。

步驟S02，規則提取模組102根據先驗演算法（Apriori演算法）對上述關聯分析表進行演算，提取不同類別文檔之間關聯閱讀的關聯規則（Association Rule）。

本較佳實施例中，利用微軟公司的SQL Server Analysis Service中實現Apriori演算法的購物籃分析模型（Market Basket Analysis），對關聯分析表進行演算，提取出不同類別文檔之間關聯閱讀的關聯規則。

規則提取模組102利用該購物籃分析模型提取關聯規則的過程為：

1）設定Apriori演算法的基本參數：設定最小項目組合數、最小支持度閥值（support）及最小置信度閥值（confidence）；

2）導入關聯分析表作為購物籃分析模型的輸入，指定用戶ID欄位和日期欄位共同作為主鍵（Key值）即以一天為分析單位，每個用戶在一天內閱讀的所有文檔為一個項目集合，指定文檔類別欄位為關聯規則的數據項；

3）利用Apriori演算法對關聯分析表進行演算，篩選出滿足最小支持度閥值和最小置信度閥值的項目組合（即數據項組合），提取並輸出各數據項之間的關聯規則，即不同類別文檔之間關聯閱讀的關聯規則。

本較佳實施例中，設定最小項目組合數為2、最小支持度閥值為0.1、最小置信度閥值為0.2，則經過Apriori演算法演算後輸出滿足條件的關聯規則。如圖5所示，文檔類別11和16存在關聯閱讀的關聯規則即用戶閱讀類別11的文檔後，會閱讀類別16的文檔，依據本較佳實施例中文檔類別的劃分依據，該關聯規則是指當閱讀了有關三星公司的新聞或文檔後，用戶隨後會閱讀有關諾基亞公司的新聞或文檔。

步驟S03，文檔推薦模組103根據用戶當前閱讀文檔的類別，查詢包含該文檔類別的關聯規則，依據關聯規則，推薦該類別文檔相關聯的其他類別的文檔給用戶。

如圖5所示，文檔類別22和23存在關聯閱讀的規則。例如，若用戶當前閱讀一篇關於穀歌的新聞或文檔，文檔推薦模組103獲取用戶當前閱讀文檔的類別為22，根據該文檔類別22查詢包含文檔類別22的所有關聯規則，推薦文檔類別為23的時間最近的新聞或文檔給用戶。

步驟S04，定期更新模組104設定週期性的關聯規則提取排程，每間隔一定時間週期（如90天），抓取該時間週期內的所有用戶的閱讀行為，重新提取該時間週期內的不同類別文檔之間關聯閱讀的關聯規則。

由於用戶閱讀習慣的變更及用戶數量的增減等原因，導致不同類別文檔之間關聯閱讀的關聯規則會有所調整，本較佳實施例中，定期更新模組104設定了週期性的排程，重新執行步驟S01、S02，根據最近一個時間段內所有用戶的閱讀行為，重新提取關聯規則。本較佳實施例中，設定相隔90天的時間執行關聯規則提取排程，在執行排程時，抓取前90天內的所有用戶的閱讀行為，利用先驗演算法重新提取關聯規則。

本較佳實施例中，利用先驗演算法（Apriori演算法）從所有用戶一段時間的閱讀行為中提取不同類別文檔之間關聯閱讀的關聯規則，根據該提取的關聯規則，在用戶閱讀某類文檔時，推薦關聯文檔給用戶。其他實施例中，還可以利用FP-Growth演算法或Eclat演算法等其他關聯規則挖掘的演算法，從所有用戶一段時間內的閱讀行為中提取關聯規則。

最後需要指出，以上實施例僅用以說明本發明的技術方案而非限制，儘管參照以上較佳實施例對本發明進行了詳細說明，本領域的普通技術人員應當理解，可以對本發明的技術方案進行修改或等同替換都不應脫離本發明技術方案的精神和範圍。

無