TWI506460B

TWI506460B - 內容推薦系統及方法

Info

Publication number: TWI506460B
Application number: TW102108951A
Authority: TW
Inventors: Jen Hsiung Charng; Chi Ling Lin; Chien Wei Lee; I Chen Lee; Zheng-Min Ou
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2013-03-11
Filing date: 2013-03-14
Publication date: 2015-11-01
Also published as: CN107330124A; CN104050163A; TW201435628A; CN104050163B; US20140258283A1

Description

內容推薦系統及方法

本發明涉及文字資訊檢索技術，尤其是一種內容推薦系統及方法。

資訊技術的不斷發展極大提高了人們獲取資訊的便利性。無論是透過網際網路的各大門戶網站、電子商務系統還是透過企業內部的各種資源分享系統的方式，海量的資訊開放給用戶自由查閱。

目前資訊量的日益龐大，很大程度上增加了用戶獲取有效資訊的繁重性和複雜度。如何根據用戶在網路上查閱文檔的行為，分析用戶閱讀興趣並檢索有效資訊提供給用戶是資訊檢索中一個重要的課題。

鑒於以上內容，有必要提供一種內容推薦系統及方法，可以有效利用用戶網路上的檢索行為，統計並分析用戶閱讀興趣，獲取有效的資訊提供給用戶。

所述的內容推薦系統包括：斷詞模組：用於對資料庫中的文檔進行斷詞；提取模組：用於過濾斷詞結果，並計算過濾結果中詞的重要程度，以重要程度為依據，提取出文檔的關鍵詞；統計模組：用於統計用戶查閱的歷史記錄內的文檔的關鍵詞及重要程度，並計算出關鍵詞的適合度，以適合度為依據，篩選出用戶的興趣關鍵詞；及檢索模組：用於根據用戶的興趣關鍵詞從資料庫中檢索文檔，並根據興趣關鍵詞在文檔中的比重來計算文檔的關注度，以關注度為依據選取文檔返回給用戶

所述的內容推薦方法包括：對資料庫中的文檔斷詞；過濾斷詞結果，並計算過濾結果中詞的重要程度，以重要程度為依據提取文檔的關鍵詞；統計用戶查閱的歷史記錄內文檔的關鍵詞及重要程度，並計算出關鍵詞的適合度，以適合度為依據篩選出用戶的興趣關鍵詞；及根據用戶的興趣關鍵詞從資料庫中檢索文檔，並根據興趣關鍵詞在文檔中的比重來計算文檔的關注度，以關注度為依據選取文檔返回給用戶。

本發明可以提取文字資訊的關鍵詞藉以分析用戶檢索行為並統計用戶的興趣關鍵詞，獲取符合用戶自身特點的資訊推送給用戶，降低了用戶檢索和過濾資訊的複雜度和繁重性。

1‧‧‧伺服器

2‧‧‧用戶終端

10‧‧‧內容推薦系統

11‧‧‧處理器

12‧‧‧資料庫

100‧‧‧解析模組

101‧‧‧斷詞模組

102‧‧‧提取模組

103‧‧‧統計模組

104‧‧‧檢索模組

圖1係本發明內容推薦系統較佳實施例的應用環境圖。

圖2係本發明內容推薦系統較佳實施例的功能模組圖。

圖3係本發明內容推薦方法較佳實施例的方法流程圖。

圖4係本發明內容推薦系統較佳實施例中文檔匯總記錄的圖示。

圖5係本發明內容推薦系統較佳實施例中文檔關鍵詞記錄的圖示。

圖6係本發明內容推薦系統較佳實施例中用戶興趣關鍵詞記錄的圖示。

參閱圖1所示，係本發明內容推薦系統的較佳實施例的應用環境圖。所述的內容推薦系統10應用於伺服器1中。所述伺服器1透過網際網路或企業內部網路和一個用戶終端2進行通訊連接。在本較佳實施例中僅以一個用戶終端2進行說明，在本發明其他實施例中伺服器1可以與多個用戶終端2進行連接。所述用戶終端2可以是個人電腦、平板電腦、移動通訊設備(例如手機)等。

所述內容推薦系統10的程式代碼由處理器11控制執行，並與資料庫12進行資料存取傳輸。所述資料庫12存儲有開放給用戶終端2檢索的文檔、斷詞詞庫以及常用詞詞庫、內容推薦系統10處理產生的資料記錄等。所述斷詞詞庫以及常用詞詞庫提供給內容推薦系統10在斷詞和提取文檔關鍵詞時使用。所述資料庫12可以是內置在伺服器1的記憶體也可以是外接伺服器1的記憶體。

圖1僅為示例，在實際應用中，所述的內容推薦系統10的應用並不局限於此。

參閱圖2所示，係本發明內容推薦系統的較佳實施例的功能模組圖。所述內容推薦系統10包括解析模組100、斷詞模組101、提取模組102、統計模組103及檢索模組104。

所述解析模組100用於將文檔解析為具有標題及文字正文的結構性的文字資訊。所述文檔可以是網頁內容、含圖片的Word檔、Text文本等。本發明其他實施例中可根據文檔類型以及文檔來源等適當取捨解析模組100。當文檔為網頁時，解析模組主要是利用網頁拆解技術，剔除網頁原始碼中的HTML語法(Hyper Text Markup Language，超文字標記語言)、JavaScript語法、圖片和鏈接等。當文檔為Word檔時，解析模組主要是用來剔除文字無關的圖片等。當文檔為Text文本資訊，則無需解析模組對文檔進行解析。

所述斷詞模組101用於對解析後的文字資訊進行斷詞。所述斷詞是將文字資訊的文句斷開成可賦予詞類的詞或是具有意義的詞。

因為中文不似英文有明顯的空白符號作為斷詞的判斷，常見的中文斷詞技術有詞庫式斷詞法(Word Identification)、統計式斷詞法(Statistical Word Identification)及混合式斷詞法(Hybrid Word Identification)。詞庫式斷詞法對文檔斷詞主要是比對文檔中出現的詞彙與詞庫中的詞彙進行斷詞，斷詞的結果主要受詞庫大小、品質的影響，一些專有名詞或是新生詞彙則由於詞庫的限制而無法正確斷出。對於詞庫式斷詞加上構詞規則的分析即為規則式詞庫斷詞法。統計式斷詞法對文檔斷詞是由一定的統計公式統計臨近字元同時出現的頻率，以頻率的高低作為斷詞的依據，斷詞結果不依賴詞庫品質而是以頻率高低決定詞彙，可能得到沒有意義的詞彙。混合式斷詞法是將詞庫式斷詞法和統計式斷詞法整合，首先利用詞庫式斷詞法對文字資訊斷詞，可配合使用構詞規則簡化斷詞，再以統計公式列出所有可能結果。混合式斷詞法結合兩種斷詞法的優點，一定程度上規避了兩種斷詞法的缺點從而優化了斷詞。

在本發明的較佳實施例中採取了混合式斷詞法對中文文字資訊進行斷詞。首先根據資料庫12中的斷詞詞庫並配合中研院詞庫小組提出的六條斷詞規則即採用規則式詞庫斷詞法對文字資訊進行第一階段的斷詞，其中斷詞詞庫可以根據本發明不同實施例的適用範圍而進行建制；其次利用統計分析法的統計公式對第一階段斷詞後的斷詞結果進行頻率統計，列出所有可能的詞。所述中研院為“中央研究院”(Academia Sinica)的簡稱，現位於臺灣省臺北市。

本較佳實施例中統計式斷詞法的主要統計公式如下：F[i]>1………………(公式1-1)

TF[i]>1………………(公式1-2)

F[i]=TF[i]……………(公式1-3)

F[i]表示的某個字、詞在文字資訊中單獨出現的次數；TF[i]表示F[i]記錄的該字、詞其後的字、詞在文字資訊中單獨出現的次數；F[i]=TF[i]表示某個字、詞出現的次數和該字、詞其後的字、詞出現的次數一致，則表明兩者每次在文字資訊中都是一起出現，故認為兩者可以合併為一個詞。

本較佳實施例為降低演算的時間複雜度、提高系統性能而採用以上統計公式進行快速斷詞，在本發明其他實施例中可以使用不同的統計公式計算臨近字元出現的高低頻率作為斷詞的依據。

本發明其他實施例中所述斷詞模組101對中文斷詞的方法不限定為本較佳實施例所使用的混合式斷詞法。

所述提取模組102用於從文檔斷詞後的斷詞結果中提取出合適的詞作為文檔的關鍵詞，並將所述關鍵詞以圖5所示的文檔關鍵詞記錄的格式記錄並儲存至資料庫12中。

本較佳實施例中，上述提取過程為：首先，根據資料庫12中的常用詞詞庫對斷詞模組101產生的斷詞結果進行過濾。斷詞結果的詞不都與文檔主題相關，在提取文檔關鍵詞之前需對斷詞結果中的詞進行過濾，例如：一些無意義的詞“的”、“嗎”、“是”或是如“雖然”、“但是”、“並且”等表示句子成分關係的詞或是如“一些”、“很多”、“非常”等表示數量及程度的詞或是一些“我們”、“大家”等人稱代詞或是“今天”、“明天”等表示時間的詞。其次，加權法計算過濾後的詞的重要程度並根據重要程度進行降冪排列，取前m個詞作為文檔的關鍵詞。一篇文檔往往針對一個特定主題，那麼在文字資訊中必定會反復提及一些與主題相關的詞，本較佳實施例以此為依據計算詞的重要程度。本較佳實施例中指定文字正文權重為1，標題權重為3，則一個詞的重要程度=該詞在文字正文出現次數×正文權重+該詞在標題中出現次數×標題權重。

本較佳實施例中，伺服器1設定每日排程，在每天人均訪問量較少的幾個時間段上傳新的文檔至資料庫12，同時，為每個新文檔分配文檔ID，並將文檔ID、路徑、標題、大小等內容以圖4所示文檔匯總記錄的格式記錄並存儲至資料庫12。解析模組100、斷詞模組101和提取模組102按照排程，對資料庫12新增的文檔進行解析、斷詞以及提取關鍵詞，提取的關鍵詞以圖5所示的文檔關鍵詞記錄的格式記錄並儲存至資料庫12，以便後續統計模組103根據歷史記錄內文檔ID快速從該文檔關鍵詞記錄表中查詢出文檔的關鍵詞並從中篩選出用戶的興趣關鍵詞。如圖5所示，所述文檔關鍵詞記錄表的欄位包括：文檔ID、項次、關鍵詞、重要程度等。

本發明其他實施例中提取模組102可以計算斷詞結果中詞的詞頻，以此作為提取關鍵詞的依據。權重計算可以採用TF-IDF(Term Frequency-Inverse document Frequency，詞頻-逆向文檔頻率)加權演算法或是單獨的TF(Term Frequency，詞頻)加權演算法計算詞在文檔中的詞頻，根據詞頻進行降冪排列，提取前m個詞作為關鍵詞。

所述統計模組103用於根據用戶查閱文檔的歷史記錄和圖5所示的文檔關鍵詞記錄，統計篩選出用戶的興趣關鍵詞，並將所述興趣關鍵詞以圖6所示的用戶興趣關鍵詞記錄的格式記錄並儲存至資料庫12中。所述歷史記錄包含有用戶ID、日期、文檔ID等內容，用戶終端2在查閱資料庫12中的文檔時，伺服器1會將用戶查閱行為儲存至資料庫12中。

本較佳實施例中，上述統計篩選的過程如下：首先，從資料庫12中獲取用戶最近的某個時間範圍的歷史記錄，該歷史記錄中包含有用戶ID、檢索日期、文檔ID等內容。其次，根據歷史記錄內文檔ID從資料庫12中查詢圖5所示的文檔關鍵詞記錄表，匯總查詢結果的關鍵詞以及每個關鍵詞的重要程度。最後，根據公式2-1計算出每個關鍵詞的適合度，以適合度對關鍵詞降冪排列，取前r個關鍵詞作為興趣關鍵詞。所述興趣關鍵詞是從用戶歷史記錄內的文檔的關鍵詞中獲取的，能夠反映用戶興趣的關鍵詞。所述適合度用於衡量關鍵詞是否可作為興趣關鍵詞的標準。歷史記錄內的文檔的關鍵詞匯總後的重要程度越高，則表明該關鍵詞是興趣關鍵詞的可能性越高；但是若該關鍵詞在歷史記錄內的每個文檔出現，則該關鍵詞能夠區別其他關鍵詞作為興趣關鍵詞的辨識度反而降低，鑒於以上考量，本較佳實施例中設計公式2-1用於計算關鍵詞的適合度。計算適合度的公式如下：

Feq：匯總後的關鍵詞的重要程度；K：k天內標題出現該關鍵詞的文檔篇數；N：n天內的文檔總篇數。

在本發明的其他實施例中可以創建不同的公式用於合理選取歷史記錄內文檔的關鍵詞作為用戶的興趣關鍵詞。

所述統計模組103是基於事後分析的策略，根據用戶查閱文檔的歷史記錄，分析出用戶的興趣，以便檢索模組104可以根據用戶的興趣關鍵詞，檢索出符合用戶特點的最新資訊推送給用戶。本較佳實施例中，伺服器1設定週期性排程，例如在每週一的某個時間段根據用戶上一周查閱的文檔，從以上文檔的關鍵詞中重新篩選出用戶的興趣關鍵詞，將興趣關鍵詞以圖6所示的用戶興趣關鍵詞記錄的格式記錄並存儲在資料庫12中。歷史記錄的週期選擇影響到興趣關鍵詞選取的即時性，在其他實施例中可以根據不同用戶層面來制定不同的週期。

所述檢索模組104用於根據資料庫12中圖4所示文檔匯總記錄和圖6所示的興趣關鍵詞檢索文檔，並計算檢索結果中文檔的關注度，以關注度為依據選取文檔返回給用戶終端2，推薦用戶查閱。

本較佳實施例中，上述檢索及計算過程為：首先，根據資料庫12 中圖4所示的文檔匯總記錄和圖6所示的興趣關鍵詞檢索文檔，若文檔標題與用戶的某個興趣關鍵詞匹配，則檢索出該文檔。其次，根據圖6所示的興趣關鍵詞及適合度，計算檢索的各文檔標題中興趣關鍵詞的比重即文檔的關注度，以關注度進行降冪排列，獲取前s個文檔返回給用戶。所述文檔的關注度是指興趣關鍵詞在文檔標題中的比重，是衡量文檔可能被用戶關注的程度。本較佳實施例的文檔關注度=Σ(興趣關鍵詞在文檔標題出現次數×該興趣關鍵詞的適合度)，所述興趣關鍵詞的適合度即為統計模組103篩選興趣關鍵詞的依據，由公式2-1計算得到。

需要指出的是，為提高系統運行速度、降低運算複雜度，所述檢索模組104檢索文檔和計算文檔關注度都限定在文檔標題範圍。本發明其他實施例也可以根據圖5所示文檔的關鍵詞和重要程度結合圖6所示的興趣關鍵詞和適合度，制定和設計出其他的檢索標準和文檔關注度計算公式。

參閱圖3所示，係本發明內容推薦方法的較佳實施例的流程圖。根據不同的需求，該流程圖中步驟的順序可以改變，某些步驟可以省略。

步驟S01，解析模組100將文檔解析為具有標題及文字正文的結構性的文字資訊。所述文檔可以是網頁內容、含圖片的Word檔、Text文本等。其他實施例中可根據文檔類型以及文檔來源等適當取捨解析模組100。當文檔為網頁時，解析模組主要是利用網頁拆解技術，剔除網頁原始碼中的HTML語法(Hyper Text Markup Language，超文字標記語言)、JavaScript語法、圖片和鏈接等。當文檔為Word檔時，解析模組主要是用來剔除文字無關的圖片等。當文檔為Text文本時，步驟S01可以省略，無需對文檔解析。

步驟S02，斷詞模組101根據混合式斷詞法對解析後的文字資訊進行斷詞。因為中文不似英文以空白將詞區分，在本發明的較佳實施例中採取了混合式斷詞法對中文文字資訊進行斷詞。首先根據資料庫12中的斷詞詞庫並配合中研院詞庫小組提出的六條斷詞規則即規則式詞庫斷詞法對文字資訊進行第一階段的斷詞，其中斷詞詞庫可以根據本發明不同實施例的適用範圍而進行建制；其次利用統計分析法的統計公式對第一階段斷詞後的斷詞結果進行頻率統計。

本較佳實施例中統計分析法斷詞的主要統計公式見前文所述的公式1-1、公式1-2、公式1-3。

步驟S03，提取模組102從斷詞結果中提取合適的詞作為文檔的關鍵詞。首先，利用資料庫12中的常用詞詞庫過濾斷詞結果，剔除常見的諸如“今天”、“我們”、“並且”等詞彙；其次，加權法計算過濾後的斷詞結果中每個詞的重要程度並以重要程度降冪排列，取前m個詞作為文檔的關鍵詞。一篇文檔內容往往針對一個特定主題，那麼在文檔內容中必定會反復提及一些與主題相關的詞，本較佳實施例以此為依據計算詞的重要程度。本較佳實施例中指定文字正文權重為1，標題權重為3，則一個詞的重要程度=該詞在文字正文出現次數×正文權重+該詞在標題中出現次數×標題權重。

本較佳實施例中伺服器1設定每日排程，在每天人均訪問量較少的時間段上傳新的文檔至資料庫12中，所述步驟S01至S03按照排程對新增的文檔進行解析、斷詞及提取關鍵詞，將提取的關鍵詞以圖5所示格式記錄並儲存至資料庫12中，以便後續步驟能夠根據該表記錄的文檔ID快速取得文檔關鍵詞並從中篩選出用戶的興趣關鍵詞。

步驟S04，統計模組103根據用戶查閱文檔的歷史記錄，統計篩選出用戶的興趣關鍵詞。所述歷史記錄包含有用戶ID、日期、文檔ID等內容，用戶終端2在查閱資料庫12中的文檔時，伺服器1會將用戶查閱行為儲存至資料庫12中。

首先，從資料庫12中獲取用戶最近的某個時間範圍的歷史記錄。其次，根據歷史記錄內的文檔ID從資料庫12中查詢圖5所示的文檔關鍵詞記錄表，匯總查詢結果的關鍵詞以及每個關鍵詞的重要程度。最後，根據公式2-1計算出關鍵詞的適合度，以適合度對關鍵詞降冪排列，取前r個關鍵詞作為興趣關鍵詞，將篩選的興趣關鍵詞存儲在圖6所示的用戶興趣關鍵詞記錄表中，以便檢索步驟可以根據表中的興趣關鍵詞檢索資料庫12中的文檔。

所述步驟S04按照週期性排程，在某個時間段從用戶上次查閱文檔的關鍵詞中重新篩選出用戶的興趣關鍵詞。

步驟S05，檢索模組104根據統計得到的興趣關鍵詞對資料庫12的文檔進行檢索，計算出檢索結果中文檔的關注度，以關注度為依據選取文檔返回給用戶。

本較佳實施例中，上述檢索及計算過程為：首先，根據資料庫12中圖4所示文檔匯總記錄和圖6所示的興趣關鍵詞檢索文檔，若文檔標題與用戶的某個興趣關鍵詞匹配，則檢索出該文檔。其次，根據圖6所示的興趣關鍵詞及適合度，計算出檢索結果中各文檔標題中興趣關鍵詞的比重即文檔的關注度，以關注度進行降冪排列，獲取前s個文檔返回給用戶。所述文檔的關注度是指興趣關鍵詞在文檔標題中的比重，衡量文檔可能被用戶關注的程度。本較佳實施例的文檔關注度=Σ(興趣關鍵詞在文檔標題出現次數×該興趣關鍵詞的適合度)，所述興趣關鍵詞的適合度即為統計模組103篩選興趣關鍵詞的依據，由公式2-1計算得到。

最後應說明的是，以上實施例僅用以說明本發明的技術方案而非限制，儘管參照以上較佳實施例對本發明進行了詳細說明，本領域的普通技術人員應當理解，可以對本發明的技術方案進行修改或等同替換，都不應脫離本發明技術方案的精神和範圍。