TWI506460B - 內容推薦系統及方法 - Google Patents
內容推薦系統及方法 Download PDFInfo
- Publication number
- TWI506460B TWI506460B TW102108951A TW102108951A TWI506460B TW I506460 B TWI506460 B TW I506460B TW 102108951 A TW102108951 A TW 102108951A TW 102108951 A TW102108951 A TW 102108951A TW I506460 B TWI506460 B TW I506460B
- Authority
- TW
- Taiwan
- Prior art keywords
- document
- word
- keyword
- degree
- interest
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/156—Query results presentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本發明涉及文字資訊檢索技術,尤其是一種內容推薦系統及方法。
資訊技術的不斷發展極大提高了人們獲取資訊的便利性。無論是透過網際網路的各大門戶網站、電子商務系統還是透過企業內部的各種資源分享系統的方式,海量的資訊開放給用戶自由查閱。
目前資訊量的日益龐大,很大程度上增加了用戶獲取有效資訊的繁重性和複雜度。如何根據用戶在網路上查閱文檔的行為,分析用戶閱讀興趣並檢索有效資訊提供給用戶是資訊檢索中一個重要的課題。
鑒於以上內容,有必要提供一種內容推薦系統及方法,可以有效利用用戶網路上的檢索行為,統計並分析用戶閱讀興趣,獲取有效的資訊提供給用戶。
所述的內容推薦系統包括:斷詞模組:用於對資料庫中的文檔進行斷詞;提取模組:用於過濾斷詞結果,並計算過濾結果中詞的重要程度,以重要程度為依據,提取出文檔的關鍵詞;統計模組:用於統計用戶查閱的歷史記錄內的文檔的關鍵詞及重要程度,並計算出關鍵詞的適合度,以適合度為依據,篩選出用戶的興趣
關鍵詞;及檢索模組:用於根據用戶的興趣關鍵詞從資料庫中檢索文檔,並根據興趣關鍵詞在文檔中的比重來計算文檔的關注度,以關注度為依據選取文檔返回給用戶
所述的內容推薦方法包括:對資料庫中的文檔斷詞;過濾斷詞結果,並計算過濾結果中詞的重要程度,以重要程度為依據提取文檔的關鍵詞;統計用戶查閱的歷史記錄內文檔的關鍵詞及重要程度,並計算出關鍵詞的適合度,以適合度為依據篩選出用戶的興趣關鍵詞;及根據用戶的興趣關鍵詞從資料庫中檢索文檔,並根據興趣關鍵詞在文檔中的比重來計算文檔的關注度,以關注度為依據選取文檔返回給用戶。
本發明可以提取文字資訊的關鍵詞藉以分析用戶檢索行為並統計用戶的興趣關鍵詞,獲取符合用戶自身特點的資訊推送給用戶,降低了用戶檢索和過濾資訊的複雜度和繁重性。
1‧‧‧伺服器
2‧‧‧用戶終端
10‧‧‧內容推薦系統
11‧‧‧處理器
12‧‧‧資料庫
100‧‧‧解析模組
101‧‧‧斷詞模組
102‧‧‧提取模組
103‧‧‧統計模組
104‧‧‧檢索模組
圖1係本發明內容推薦系統較佳實施例的應用環境圖。
圖2係本發明內容推薦系統較佳實施例的功能模組圖。
圖3係本發明內容推薦方法較佳實施例的方法流程圖。
圖4係本發明內容推薦系統較佳實施例中文檔匯總記錄的圖示。
圖5係本發明內容推薦系統較佳實施例中文檔關鍵詞記錄的圖示。
圖6係本發明內容推薦系統較佳實施例中用戶興趣關鍵詞記錄的圖示。
參閱圖1所示,係本發明內容推薦系統的較佳實施例的應用環境圖。所述的內容推薦系統10應用於伺服器1中。所述伺服器1透過網際網路或企業內部網路和一個用戶終端2進行通訊連接。在本較佳實施例中僅以一個用戶終端2進行說明,在本發明其他實施例中伺服器1可以與多個用戶終端2進行連接。所述用戶終端2可以是個人電腦、平板電腦、移動通訊設備(例如手機)等。
所述內容推薦系統10的程式代碼由處理器11控制執行,並與資料庫12進行資料存取傳輸。所述資料庫12存儲有開放給用戶終端2檢索的文檔、斷詞詞庫以及常用詞詞庫、內容推薦系統10處理產生的資料記錄等。所述斷詞詞庫以及常用詞詞庫提供給內容推薦系統10在斷詞和提取文檔關鍵詞時使用。所述資料庫12可以是內置在伺服器1的記憶體也可以是外接伺服器1的記憶體。
圖1僅為示例,在實際應用中,所述的內容推薦系統10的應用並不局限於此。
參閱圖2所示,係本發明內容推薦系統的較佳實施例的功能模組圖。所述內容推薦系統10包括解析模組100、斷詞模組101、提取模組102、統計模組103及檢索模組104。
所述解析模組100用於將文檔解析為具有標題及文字正文的結構性的文字資訊。所述文檔可以是網頁內容、含圖片的Word檔、Text文本等。本發明其他實施例中可根據文檔類型以及文檔來源等適當取捨解析模組100。當文檔為網頁時,解析模組主要是利用網頁拆解技術,剔除網頁原始碼中的HTML語法(Hyper Text Markup Language,超文字標記語言)、JavaScript語法、圖片
和鏈接等。當文檔為Word檔時,解析模組主要是用來剔除文字無關的圖片等。當文檔為Text文本資訊,則無需解析模組對文檔進行解析。
所述斷詞模組101用於對解析後的文字資訊進行斷詞。所述斷詞是將文字資訊的文句斷開成可賦予詞類的詞或是具有意義的詞。
因為中文不似英文有明顯的空白符號作為斷詞的判斷,常見的中文斷詞技術有詞庫式斷詞法(Word Identification)、統計式斷詞法(Statistical Word Identification)及混合式斷詞法(Hybrid Word Identification)。詞庫式斷詞法對文檔斷詞主要是比對文檔中出現的詞彙與詞庫中的詞彙進行斷詞,斷詞的結果主要受詞庫大小、品質的影響,一些專有名詞或是新生詞彙則由於詞庫的限制而無法正確斷出。對於詞庫式斷詞加上構詞規則的分析即為規則式詞庫斷詞法。統計式斷詞法對文檔斷詞是由一定的統計公式統計臨近字元同時出現的頻率,以頻率的高低作為斷詞的依據,斷詞結果不依賴詞庫品質而是以頻率高低決定詞彙,可能得到沒有意義的詞彙。混合式斷詞法是將詞庫式斷詞法和統計式斷詞法整合,首先利用詞庫式斷詞法對文字資訊斷詞,可配合使用構詞規則簡化斷詞,再以統計公式列出所有可能結果。混合式斷詞法結合兩種斷詞法的優點,一定程度上規避了兩種斷詞法的缺點從而優化了斷詞。
在本發明的較佳實施例中採取了混合式斷詞法對中文文字資訊進行斷詞。首先根據資料庫12中的斷詞詞庫並配合中研院詞庫小組提出的六條斷詞規則即採用規則式詞庫斷詞法對文字資訊進行第一階段的斷詞,其中斷詞詞庫可以根據本發明不同實施例的適用
範圍而進行建制;其次利用統計分析法的統計公式對第一階段斷詞後的斷詞結果進行頻率統計,列出所有可能的詞。所述中研院為“中央研究院”(Academia Sinica)的簡稱,現位於臺灣省臺北市。
本較佳實施例中統計式斷詞法的主要統計公式如下:F[i]>1………………(公式1-1)
TF[i]>1………………(公式1-2)
F[i]=TF[i]……………(公式1-3)
F[i]表示的某個字、詞在文字資訊中單獨出現的次數;TF[i]表示F[i]記錄的該字、詞其後的字、詞在文字資訊中單獨出現的次數;F[i]=TF[i]表示某個字、詞出現的次數和該字、詞其後的字、詞出現的次數一致,則表明兩者每次在文字資訊中都是一起出現,故認為兩者可以合併為一個詞。
本較佳實施例為降低演算的時間複雜度、提高系統性能而採用以上統計公式進行快速斷詞,在本發明其他實施例中可以使用不同的統計公式計算臨近字元出現的高低頻率作為斷詞的依據。
本發明其他實施例中所述斷詞模組101對中文斷詞的方法不限定為本較佳實施例所使用的混合式斷詞法。
所述提取模組102用於從文檔斷詞後的斷詞結果中提取出合適的詞作為文檔的關鍵詞,並將所述關鍵詞以圖5所示的文檔關鍵詞記錄的格式記錄並儲存至資料庫12中。
本較佳實施例中,上述提取過程為:首先,根據資料庫12中的常用詞詞庫對斷詞模組101產生的斷詞結果進行過濾。斷詞結果的詞不都與文檔主題相關,在提取文檔關鍵詞之前需對斷詞結果中的詞進行過濾,例如:一些無意義的詞“的”、“嗎”、“是”或是如“雖然”、“但是”、“並且”等表示句子成分關係的詞或是如“一些”、“很多”、“非常”等表示數量及程度的詞或是一些“我們”、“大家”等人稱代詞或是“今天”、“明天”等表示時間的詞。其次,加權法計算過濾後的詞的重要程度並根據重要程度進行降冪排列,取前m個詞作為文檔的關鍵詞。一篇文檔往往針對一個特定主題,那麼在文字資訊中必定會反復提及一些與主題相關的詞,本較佳實施例以此為依據計算詞的重要程度。本較佳實施例中指定文字正文權重為1,標題權重為3,則一個詞的重要程度=該詞在文字正文出現次數×正文權重+該詞在標題中出現次數×標題權重。
本較佳實施例中,伺服器1設定每日排程,在每天人均訪問量較少的幾個時間段上傳新的文檔至資料庫12,同時,為每個新文檔分配文檔ID,並將文檔ID、路徑、標題、大小等內容以圖4所示文檔匯總記錄的格式記錄並存儲至資料庫12。解析模組100、斷詞模組101和提取模組102按照排程,對資料庫12新增的文檔進行解析、斷詞以及提取關鍵詞,提取的關鍵詞以圖5所示的文檔關鍵詞記錄的格式記錄並儲存至資料庫12,以便後續統計模組103根據歷史記錄內文檔ID快速從該文檔關鍵詞記錄表中查詢出文檔的關鍵詞並從中篩選出用戶的興趣關鍵詞。如圖5所示,所述文檔關鍵詞記錄表的欄位包括:文檔ID、項次、關鍵詞、重要程度等。
本發明其他實施例中提取模組102可以計算斷詞結果中詞的詞頻,以此作為提取關鍵詞的依據。權重計算可以採用TF-IDF(Term Frequency-Inverse document Frequency,詞頻-逆向文檔頻率)加權演算法或是單獨的TF(Term Frequency,詞頻)加權演算法計算詞在文檔中的詞頻,根據詞頻進行降冪排列,提取前m個詞作為關鍵詞。
所述統計模組103用於根據用戶查閱文檔的歷史記錄和圖5所示的文檔關鍵詞記錄,統計篩選出用戶的興趣關鍵詞,並將所述興趣關鍵詞以圖6所示的用戶興趣關鍵詞記錄的格式記錄並儲存至資料庫12中。所述歷史記錄包含有用戶ID、日期、文檔ID等內容,用戶終端2在查閱資料庫12中的文檔時,伺服器1會將用戶查閱行為儲存至資料庫12中。
本較佳實施例中,上述統計篩選的過程如下:首先,從資料庫12中獲取用戶最近的某個時間範圍的歷史記錄,該歷史記錄中包含有用戶ID、檢索日期、文檔ID等內容。其次,根據歷史記錄內文檔ID從資料庫12中查詢圖5所示的文檔關鍵詞記錄表,匯總查詢結果的關鍵詞以及每個關鍵詞的重要程度。最後,根據公式2-1計算出每個關鍵詞的適合度,以適合度對關鍵詞降冪排列,取前r個關鍵詞作為興趣關鍵詞。所述興趣關鍵詞是從用戶歷史記錄內的文檔的關鍵詞中獲取的,能夠反映用戶興趣的關鍵詞。所述適合度用於衡量關鍵詞是否可作為興趣關鍵詞的標準。歷史記錄內的文檔的關鍵詞匯總後的重要程度越高,則表明該關鍵詞是興趣關鍵詞的可能性越高;但是若該關鍵詞在歷史記錄內的每個文檔出現,則該關鍵詞能夠區別其他關鍵詞作為興趣關鍵詞的辨識
度反而降低,鑒於以上考量,本較佳實施例中設計公式2-1用於計算關鍵詞的適合度。計算適合度的公式如下:
Feq:匯總後的關鍵詞的重要程度;K:k天內標題出現該關鍵詞的文檔篇數;N:n天內的文檔總篇數。
在本發明的其他實施例中可以創建不同的公式用於合理選取歷史記錄內文檔的關鍵詞作為用戶的興趣關鍵詞。
所述統計模組103是基於事後分析的策略,根據用戶查閱文檔的歷史記錄,分析出用戶的興趣,以便檢索模組104可以根據用戶的興趣關鍵詞,檢索出符合用戶特點的最新資訊推送給用戶。本較佳實施例中,伺服器1設定週期性排程,例如在每週一的某個時間段根據用戶上一周查閱的文檔,從以上文檔的關鍵詞中重新篩選出用戶的興趣關鍵詞,將興趣關鍵詞以圖6所示的用戶興趣關鍵詞記錄的格式記錄並存儲在資料庫12中。歷史記錄的週期選擇影響到興趣關鍵詞選取的即時性,在其他實施例中可以根據不同用戶層面來制定不同的週期。
所述檢索模組104用於根據資料庫12中圖4所示文檔匯總記錄和圖6所示的興趣關鍵詞檢索文檔,並計算檢索結果中文檔的關注度,以關注度為依據選取文檔返回給用戶終端2,推薦用戶查閱。
本較佳實施例中,上述檢索及計算過程為:首先,根據資料庫12
中圖4所示的文檔匯總記錄和圖6所示的興趣關鍵詞檢索文檔,若文檔標題與用戶的某個興趣關鍵詞匹配,則檢索出該文檔。其次,根據圖6所示的興趣關鍵詞及適合度,計算檢索的各文檔標題中興趣關鍵詞的比重即文檔的關注度,以關注度進行降冪排列,獲取前s個文檔返回給用戶。所述文檔的關注度是指興趣關鍵詞在文檔標題中的比重,是衡量文檔可能被用戶關注的程度。本較佳實施例的文檔關注度=Σ(興趣關鍵詞在文檔標題出現次數×該興趣關鍵詞的適合度),所述興趣關鍵詞的適合度即為統計模組103篩選興趣關鍵詞的依據,由公式2-1計算得到。
需要指出的是,為提高系統運行速度、降低運算複雜度,所述檢索模組104檢索文檔和計算文檔關注度都限定在文檔標題範圍。本發明其他實施例也可以根據圖5所示文檔的關鍵詞和重要程度結合圖6所示的興趣關鍵詞和適合度,制定和設計出其他的檢索標準和文檔關注度計算公式。
參閱圖3所示,係本發明內容推薦方法的較佳實施例的流程圖。根據不同的需求,該流程圖中步驟的順序可以改變,某些步驟可以省略。
步驟S01,解析模組100將文檔解析為具有標題及文字正文的結構性的文字資訊。所述文檔可以是網頁內容、含圖片的Word檔、Text文本等。其他實施例中可根據文檔類型以及文檔來源等適當取捨解析模組100。當文檔為網頁時,解析模組主要是利用網頁拆解技術,剔除網頁原始碼中的HTML語法(Hyper Text Markup Language,超文字標記語言)、JavaScript語法、圖片和鏈接等。當文檔為Word檔時,解析模組主要是用來剔除文字無關的圖片
等。當文檔為Text文本時,步驟S01可以省略,無需對文檔解析。
步驟S02,斷詞模組101根據混合式斷詞法對解析後的文字資訊進行斷詞。因為中文不似英文以空白將詞區分,在本發明的較佳實施例中採取了混合式斷詞法對中文文字資訊進行斷詞。首先根據資料庫12中的斷詞詞庫並配合中研院詞庫小組提出的六條斷詞規則即規則式詞庫斷詞法對文字資訊進行第一階段的斷詞,其中斷詞詞庫可以根據本發明不同實施例的適用範圍而進行建制;其次利用統計分析法的統計公式對第一階段斷詞後的斷詞結果進行頻率統計。
本較佳實施例中統計分析法斷詞的主要統計公式見前文所述的公式1-1、公式1-2、公式1-3。
步驟S03,提取模組102從斷詞結果中提取合適的詞作為文檔的關鍵詞。首先,利用資料庫12中的常用詞詞庫過濾斷詞結果,剔除常見的諸如“今天”、“我們”、“並且”等詞彙;其次,加權法計算過濾後的斷詞結果中每個詞的重要程度並以重要程度降冪排列,取前m個詞作為文檔的關鍵詞。一篇文檔內容往往針對一個特定主題,那麼在文檔內容中必定會反復提及一些與主題相關的詞,本較佳實施例以此為依據計算詞的重要程度。本較佳實施例中指定文字正文權重為1,標題權重為3,則一個詞的重要程度=該詞在文字正文出現次數×正文權重+該詞在標題中出現次數×標題權重。
本較佳實施例中伺服器1設定每日排程,在每天人均訪問量較少的時間段上傳新的文檔至資料庫12中,所述步驟S01至S03按照排
程對新增的文檔進行解析、斷詞及提取關鍵詞,將提取的關鍵詞以圖5所示格式記錄並儲存至資料庫12中,以便後續步驟能夠根據該表記錄的文檔ID快速取得文檔關鍵詞並從中篩選出用戶的興趣關鍵詞。
步驟S04,統計模組103根據用戶查閱文檔的歷史記錄,統計篩選出用戶的興趣關鍵詞。所述歷史記錄包含有用戶ID、日期、文檔ID等內容,用戶終端2在查閱資料庫12中的文檔時,伺服器1會將用戶查閱行為儲存至資料庫12中。
首先,從資料庫12中獲取用戶最近的某個時間範圍的歷史記錄。其次,根據歷史記錄內的文檔ID從資料庫12中查詢圖5所示的文檔關鍵詞記錄表,匯總查詢結果的關鍵詞以及每個關鍵詞的重要程度。最後,根據公式2-1計算出關鍵詞的適合度,以適合度對關鍵詞降冪排列,取前r個關鍵詞作為興趣關鍵詞,將篩選的興趣關鍵詞存儲在圖6所示的用戶興趣關鍵詞記錄表中,以便檢索步驟可以根據表中的興趣關鍵詞檢索資料庫12中的文檔。
所述步驟S04按照週期性排程,在某個時間段從用戶上次查閱文檔的關鍵詞中重新篩選出用戶的興趣關鍵詞。
步驟S05,檢索模組104根據統計得到的興趣關鍵詞對資料庫12的文檔進行檢索,計算出檢索結果中文檔的關注度,以關注度為依據選取文檔返回給用戶。
本較佳實施例中,上述檢索及計算過程為:首先,根據資料庫12中圖4所示文檔匯總記錄和圖6所示的興趣關鍵詞檢索文檔,若文檔標題與用戶的某個興趣關鍵詞匹配,則檢索出該文檔。其次,
根據圖6所示的興趣關鍵詞及適合度,計算出檢索結果中各文檔標題中興趣關鍵詞的比重即文檔的關注度,以關注度進行降冪排列,獲取前s個文檔返回給用戶。所述文檔的關注度是指興趣關鍵詞在文檔標題中的比重,衡量文檔可能被用戶關注的程度。本較佳實施例的文檔關注度=Σ(興趣關鍵詞在文檔標題出現次數×該興趣關鍵詞的適合度),所述興趣關鍵詞的適合度即為統計模組103篩選興趣關鍵詞的依據,由公式2-1計算得到。
最後應說明的是,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照以上較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或等同替換,都不應脫離本發明技術方案的精神和範圍。
10‧‧‧內容推薦系統
100‧‧‧解析模組
101‧‧‧斷詞模組
102‧‧‧提取模組
103‧‧‧統計模組
104‧‧‧檢索模組
Claims (10)
- 一種內容推薦系統,該系統包括:斷詞模組:用於對資料庫中的文檔進行斷詞;提取模組:用於過濾斷詞結果,並計算過濾結果中詞的重要程度,以重要程度為依據,提取出文檔的關鍵詞,具體包括:先根據常用詞詞庫對斷詞結果進行過濾,再利用加權法計算過濾後的詞的重要程度,並根據每個詞的重要程度進行降冪排列,取前m個詞作為文檔的關鍵詞,將提取的關鍵詞記錄在文檔關鍵詞記錄表中,該文檔關鍵詞記錄表的欄位包括文檔ID、項次、關鍵詞、重要程度,其中,所述詞的重要程度=該詞在文字正文出現的次數×正文權重+該詞在標題中出現次數×標題權重;統計模組:用於統計用戶查閱的歷史記錄內文檔的關鍵詞及重要程度,並計算出關鍵詞的適合度,以適合度作為依據,篩選出用戶的興趣關鍵詞;及檢索模組:用於根據用戶的興趣關鍵詞從資料庫中檢索文檔,並根據興趣關鍵詞在文檔中的比重來計算文檔的關注度,以關注度作為依據選取文檔返回給用戶。
- 如申請專利範圍第1項所述的內容推薦系統,該系統還包括解析模組,用於將資料庫中的文檔解析為具有標題及文字正文的結構性的文字資訊以便後續斷詞。
- 如申請專利範圍第1項所述的內容推薦系統,所述斷詞模組在對中文文字資訊斷詞時採用混合式斷詞法,即先用規則式詞庫斷詞法對文字資訊進行第一階段的斷詞,再用統計式斷詞法對第一階段斷詞後的斷詞結果進行頻率統計,列出所有可能的詞。
- 如申請專利範圍第1項所述的內容推薦系統,所述統計模組獲取用戶最近一個時間範圍的歷史記錄,根據歷史記錄內文檔ID查詢文檔關鍵詞記錄表,匯總查詢結果的關鍵詞及每個關鍵詞的重要程度,再根據該重要程度計算每個關鍵詞的適合度,以適合度對關鍵詞進行降冪排列,取前r個關鍵詞作為興趣關鍵詞,將篩選的興趣關鍵詞記錄在用戶興趣關鍵詞記錄表中,該用戶興趣關鍵詞記錄表的欄位包括用戶ID、項次、興趣關鍵詞、適合度,其中,所述適合度為篩選興趣關鍵詞的依據,以公式計算,Feq為匯總查詢結果的關鍵詞的重要程度,K為k天內標題出現該關鍵詞的文檔篇數,N為n天內的文檔總篇數。
- 如申請專利範圍第4項所述的內容推薦系統,所述檢索模組從資料庫中檢索出文檔標題與興趣關鍵詞匹配的文檔,根據興趣關鍵詞及適合度計算出檢索結果中各文檔的關注度,以關注度對文檔進行降冪排列,獲取前s個文檔返回給用戶,其中,所述文檔關注度是指興趣關鍵詞在文檔標題中的比重,所述文檔關注度=Σ(興趣關鍵詞在文檔標題出現次數×該興趣關鍵詞的適合度)。
- 一種內容推薦方法,該方法包括:斷詞步驟:對資料庫中的文檔進行斷詞;提取步驟:過濾斷詞結果,並計算過濾結果中詞的重要程度,並以重要程度為依據提取文檔的關鍵詞,具體包括:根據常用詞詞庫對斷詞結果進行過濾;利用加權法計算過濾後的詞的重要程度,所述詞的重要程度=該詞在文字正文出現的次數×正文權重+該詞在標題中出現次數×標題權重;根據每個詞的重要程度進行降冪排列,取前m個詞作為文檔的關鍵詞;將提取的關鍵詞記錄在文檔關鍵詞記錄表中,該文檔關鍵詞記錄表的欄 位包括文檔ID、項次、關鍵詞、重要程度;統計步驟:統計用戶查閱的歷史記錄內文檔的關鍵詞及重要程度,並計算出關鍵詞的適合度,以適合度為依據篩選用戶的興趣關鍵詞;及檢索步驟:根據用戶的興趣關鍵詞檢索文檔,並以興趣關鍵詞在文檔中的比重來計算文檔的關注度,以關注度為依據選取文檔返回給用戶。
- 如申請專利範圍第6項所述的內容推薦方法,在斷詞步驟前還包括:解析步驟,將資料庫中的文檔解析為具有標題及文字正文的結構性的文字資訊以便斷詞。
- 如申請專利範圍第6項所述的內容推薦方法,所述斷詞步驟在對中文文字資訊斷詞時採用混合式斷詞法,即先用規則式詞庫斷詞法對文字資訊進行第一階段的斷詞,再用統計式斷詞法對第一階段斷詞後的斷詞結果進行頻率統計,列出所有可能的詞。
- 如申請專利範圍第6項所述的內容推薦方法,所述統計步驟包括:獲取用戶最近的一個時間範圍的歷史記錄;根據歷史記錄內文檔ID查詢文檔關鍵詞記錄,匯總查詢結果的關鍵詞以及每個關鍵詞的重要程度;根據匯總的重要程度計算出每個關鍵詞的適合度,所述關鍵詞的適合度是篩選興趣關鍵詞的依據,計算公式為:,其中,Feq為匯總查詢結果的關鍵詞的重要程度,K為k天內文檔標題出現該關鍵詞的文檔篇數,N為n天內的文檔總篇數;根據適合度對關鍵詞降冪排列,取前r個關鍵詞作為興趣關鍵詞。
- 如申請專利範圍第9項所述的內容推薦方法,所述檢索步驟包括:從資料庫中檢索出文檔標題與興趣關鍵詞匹配的文檔; 根據興趣關鍵詞及適合度計算出檢索結果中各文檔的關注度,所述文檔的關注度是指興趣關鍵詞在文檔標題中的比重,所述文檔關注度=Σ(興趣關鍵詞在文檔標題出現次數×該興趣關鍵詞的適合度);根據關注度對文檔降冪排列,獲取前s個文檔返回給用戶。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310076147.4A CN104050163B (zh) | 2013-03-11 | 2013-03-11 | 内容推荐*** |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201435628A TW201435628A (zh) | 2014-09-16 |
TWI506460B true TWI506460B (zh) | 2015-11-01 |
Family
ID=51489191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102108951A TWI506460B (zh) | 2013-03-11 | 2013-03-14 | 內容推薦系統及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140258283A1 (zh) |
CN (2) | CN107330124A (zh) |
TW (1) | TWI506460B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989120B (zh) * | 2015-02-12 | 2019-08-13 | Oppo广东移动通信有限公司 | 一种个性化内容推荐方法及个性化内容推荐*** |
TWI550420B (zh) * | 2015-02-12 | 2016-09-21 | 國立雲林科技大學 | 資訊取得系統與方法、以及儲存裝置 |
CN104952009A (zh) * | 2015-04-23 | 2015-09-30 | 阔地教育科技有限公司 | 资源管理方法、***、资源管理服务器及互动教学终端 |
CN105159936A (zh) * | 2015-08-06 | 2015-12-16 | 广州供电局有限公司 | 文件分类装置及方法 |
CN105320770A (zh) * | 2015-10-30 | 2016-02-10 | 江苏省电力公司电力科学研究院 | 基于web页面关键字的即时援助搜索*** |
CN106250360A (zh) * | 2016-01-22 | 2016-12-21 | 众德迪克科技(北京)有限公司 | 一种辅助写作式机器人装置及机器人辅助写作方法 |
CN105976222B (zh) * | 2016-04-27 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 信息推荐方法、终端及服务器 |
CN106096415B (zh) * | 2016-06-24 | 2019-05-21 | 康佳集团股份有限公司 | 一种基于深度学习的恶意代码检测方法及*** |
WO2018023683A1 (zh) * | 2016-08-05 | 2018-02-08 | 吴晓敏 | 兴趣点捕捉技术的使用数据统计方法和识别*** |
WO2018023684A1 (zh) * | 2016-08-05 | 2018-02-08 | 吴晓敏 | 识别用户兴趣时的信息推送方法和识别*** |
CN106446087A (zh) * | 2016-09-12 | 2017-02-22 | 福建中金在线信息科技有限公司 | 专题信息获取方法及装置 |
CN106254904A (zh) * | 2016-09-29 | 2016-12-21 | 北京赢点科技有限公司 | 一种基于用户热词的媒体节目素材推荐方法及*** |
CN106780036A (zh) * | 2016-11-16 | 2017-05-31 | 硕橙(厦门)科技有限公司 | 一种基于互联网数据采集的情绪指数构建方法 |
TWI642024B (zh) * | 2017-06-20 | 2018-11-21 | 宏碁股份有限公司 | 推薦服務的方法及相關資料處理系統 |
TWI660279B (zh) * | 2017-09-06 | 2019-05-21 | 品原顧問有限公司 | 網路文章推薦方法及應用其的系統 |
CN108509511A (zh) * | 2018-03-08 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 用于获取信息的方法及装置 |
CN108415903B (zh) * | 2018-03-12 | 2021-09-07 | 武汉斗鱼网络科技有限公司 | 判断搜索意图识别有效性的评价方法、存储介质和设备 |
CN108416055B (zh) * | 2018-03-20 | 2021-05-25 | 北京三快在线科技有限公司 | 建立拼音数据库的方法、装置、电子设备及存储介质 |
CN110598086B (zh) * | 2018-05-25 | 2020-11-24 | 腾讯科技(深圳)有限公司 | 文章推荐方法、装置、计算机设备及存储介质 |
CN109241263A (zh) * | 2018-08-31 | 2019-01-18 | 重庆水利电力职业技术学院 | 一种大数据统计分析***及其工作流程 |
CN109561211B (zh) * | 2018-11-27 | 2021-07-27 | 维沃移动通信有限公司 | 一种信息显示方法及移动终端 |
CN109543113B (zh) * | 2018-12-21 | 2022-02-01 | 北京字节跳动网络技术有限公司 | 确定点击推荐词的方法、装置、存储介质及电子设备 |
CN109670183B (zh) * | 2018-12-21 | 2023-03-24 | 北京锐安科技有限公司 | 一种文本重要性的计算方法、装置、设备和存储介质 |
WO2020133187A1 (zh) * | 2018-12-28 | 2020-07-02 | 深圳市世强元件网络有限公司 | 一种针对内容的智能搜索推荐方法、存储介质及终端 |
CN109783740A (zh) * | 2019-01-24 | 2019-05-21 | 北京字节跳动网络技术有限公司 | 关注页面的排序方法及装置 |
CN110851709B (zh) * | 2019-10-17 | 2022-10-14 | 浙江大搜车软件技术有限公司 | 资讯推送方法、装置、计算机设备和存储介质 |
US11429285B2 (en) * | 2020-06-29 | 2022-08-30 | Western Digital Technologies, Inc. | Content-based data storage |
US11429620B2 (en) | 2020-06-29 | 2022-08-30 | Western Digital Technologies, Inc. | Data storage selection based on data importance |
US11379128B2 (en) | 2020-06-29 | 2022-07-05 | Western Digital Technologies, Inc. | Application-based storage device configuration settings |
CN112631752B (zh) * | 2020-12-28 | 2024-04-19 | 中金数据(武汉)超算技术有限公司 | 一种基于操作优先度的列表操作方法及装置 |
CN113343024B (zh) * | 2021-08-04 | 2021-12-07 | 北京达佳互联信息技术有限公司 | 对象推荐方法、装置、电子设备及存储介质 |
CN114706953B (zh) * | 2022-04-07 | 2023-01-10 | 武汉博晟安全技术股份有限公司 | 安全生产知识智能推荐方法及***、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1902928A (zh) * | 2003-12-29 | 2007-01-24 | 皇家飞利浦电子股份有限公司 | 一种内容推荐方法及*** |
TW200807346A (en) * | 2006-07-17 | 2008-02-01 | Hamastar Technology Co Ltd | Knowledge framework system and method for integrating a knowledge management system with an e-learning system |
US7653654B1 (en) * | 2000-09-29 | 2010-01-26 | International Business Machines Corporation | Method and system for selectively accessing files accessible through a network |
TW201142767A (en) * | 2010-05-28 | 2011-12-01 | Hamastar Technology Co Ltd | Tool and method for creating teaching material |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU746743B2 (en) * | 1997-11-24 | 2002-05-02 | British Telecommunications Public Limited Company | Information management and retrieval |
JP2001043231A (ja) * | 1999-07-29 | 2001-02-16 | Toshiba Corp | ファイル管理システム、電子ファイリングシステムおよびファイルの階層構造表示方法 |
US6920448B2 (en) * | 2001-05-09 | 2005-07-19 | Agilent Technologies, Inc. | Domain specific knowledge-based metasearch system and methods of using |
WO2005089334A2 (en) * | 2004-03-15 | 2005-09-29 | Yahoo! Inc. | Inverse search systems and methods |
US20070174255A1 (en) * | 2005-12-22 | 2007-07-26 | Entrieva, Inc. | Analyzing content to determine context and serving relevant content based on the context |
CN1991829A (zh) * | 2005-12-29 | 2007-07-04 | 陈亚斌 | 一种搜索引擎***的搜索方法 |
US7664740B2 (en) * | 2006-06-26 | 2010-02-16 | Microsoft Corporation | Automatically displaying keywords and other supplemental information |
JP4717871B2 (ja) * | 2007-11-06 | 2011-07-06 | シャープ株式会社 | コンテンツ視聴装置及びコンテンツ推薦方法 |
US8180630B2 (en) * | 2008-06-06 | 2012-05-15 | Zi Corporation Of Canada, Inc. | Systems and methods for an automated personalized dictionary generator for portable devices |
-
2013
- 2013-03-11 CN CN201710592538.XA patent/CN107330124A/zh active Pending
- 2013-03-11 CN CN201310076147.4A patent/CN104050163B/zh not_active Expired - Fee Related
- 2013-03-14 TW TW102108951A patent/TWI506460B/zh not_active IP Right Cessation
-
2014
- 2014-02-27 US US14/191,502 patent/US20140258283A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7653654B1 (en) * | 2000-09-29 | 2010-01-26 | International Business Machines Corporation | Method and system for selectively accessing files accessible through a network |
CN1902928A (zh) * | 2003-12-29 | 2007-01-24 | 皇家飞利浦电子股份有限公司 | 一种内容推荐方法及*** |
TW200807346A (en) * | 2006-07-17 | 2008-02-01 | Hamastar Technology Co Ltd | Knowledge framework system and method for integrating a knowledge management system with an e-learning system |
TW201142767A (en) * | 2010-05-28 | 2011-12-01 | Hamastar Technology Co Ltd | Tool and method for creating teaching material |
Also Published As
Publication number | Publication date |
---|---|
CN107330124A (zh) | 2017-11-07 |
CN104050163A (zh) | 2014-09-17 |
TW201435628A (zh) | 2014-09-16 |
CN104050163B (zh) | 2017-08-25 |
US20140258283A1 (en) | 2014-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI506460B (zh) | 內容推薦系統及方法 | |
CA2832909C (en) | System and method for matching comment data to text data | |
US9317498B2 (en) | Systems and methods for generating summaries of documents | |
Ma et al. | An LDA and synonym lexicon based approach to product feature extraction from online consumer product reviews | |
US8600979B2 (en) | Infinite browse | |
US7447683B2 (en) | Natural language based search engine and methods of use therefor | |
US9165085B2 (en) | System and method for publishing aggregated content on mobile devices | |
JP6538277B2 (ja) | 検索クエリ間におけるクエリパターンおよび関連する総統計の特定 | |
CA2774278C (en) | Methods and systems for extracting keyphrases from natural text for search engine indexing | |
US20080154871A1 (en) | Method and Apparatus for Mobile Information Access in Natural Language | |
JP2011529600A (ja) | 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 | |
KR20160042896A (ko) | 마이닝된 하이퍼링크 텍스트 스니펫을 통한 이미지 브라우징 | |
KR20100068532A (ko) | 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법 | |
WO2014090007A1 (zh) | 用于获取推荐主题的方法、装置和服务器 | |
CN110232126B (zh) | 热点挖掘方法及服务器和计算机可读存储介质 | |
KR20100112512A (ko) | 검색 장치 및 검색 방법 | |
Rudrapal et al. | A Survey on Automatic Twitter Event Summarization. | |
WO2024015323A1 (en) | Methods and systems for improved document processing and information retrieval | |
KR20160002199A (ko) | 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템 | |
US9990425B1 (en) | Presenting secondary music search result links | |
WO2019231635A1 (en) | Method and apparatus for generating digest for broadcasting | |
KR101752257B1 (ko) | 링크드 오픈 데이터 클라우드 정보 서비스 시스템 및 그 제공 방법과 이를 구현하기 위한 프로그램이 저장된 기록매체 | |
WO2014049310A2 (en) | Method and apparatuses for interactive searching of electronic documents | |
Singhal et al. | Leveraging web resources for keyword assignment to short text documents | |
Siemiński | Fast algorithm for assessing semantic similarity of texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |