TWI757957B - 網頁的自動分類方法及系統 - Google Patents

網頁的自動分類方法及系統 Download PDF

Info

Publication number
TWI757957B
TWI757957B TW109138812A TW109138812A TWI757957B TW I757957 B TWI757957 B TW I757957B TW 109138812 A TW109138812 A TW 109138812A TW 109138812 A TW109138812 A TW 109138812A TW I757957 B TWI757957 B TW I757957B
Authority
TW
Taiwan
Prior art keywords
webpage
keywords
article
matrix
identifier
Prior art date
Application number
TW109138812A
Other languages
English (en)
Other versions
TW202219794A (zh
Inventor
陳冠儒
陳良其
Original Assignee
宏碁股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 宏碁股份有限公司 filed Critical 宏碁股份有限公司
Priority to TW109138812A priority Critical patent/TWI757957B/zh
Application granted granted Critical
Publication of TWI757957B publication Critical patent/TWI757957B/zh
Publication of TW202219794A publication Critical patent/TW202219794A/zh

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一種網頁的自動分類方法及系統。網頁的自動分類方法包括以下步驟。使用一應用程式介面(API)擷取一網站中之一網頁包含的複數個關鍵字,並給予網頁包含的每一關鍵字一識別符(ID)。 基於網站中所有網頁的數量,計算網頁包含的每一關鍵字的TF-IDF值。根據網頁包含的每一關鍵字之識別符及網頁包含的每一關鍵字的TF-IDF值產生一矩陣。將矩陣輸入至一網頁分類模型以產生一預測的分類名稱。以預測的分類名稱儲存網頁。

Description

網頁的自動分類方法及系統
本發明是有關於一種自動分類方法及系統,且特別是有關於一種網頁的自動分類方法及系統。
網路已成為生活中不可或缺的部分,人們時常透過電腦瀏覽網頁,當瀏覽到喜歡的網頁或重要的網頁時,可透過瀏覽器的功能儲存網頁,例如將網頁儲存在「我的最愛」中,以便下次打開瀏覽器時,可透過儲存在「我的最愛」中的網頁快速瀏覽儲存的網頁。
但是,在儲存網頁時,使用者常常需花很多時間想網頁的分類名稱,若分類名稱不準確,下次打開瀏覽器的時,使用者很難快速找到先前儲存的網頁進行瀏覽,造成使用不便。
因此,如何對網頁提供準確的分類名稱,已成為業界努力的方向。
本發明係有關於一種網頁的自動分類方法及系統。
根據本發明之一實施例,提出一種網頁的自動分類方法。網頁的自動分類方法包括以下步驟。使用一應用程式介面(API)擷取一網站中之一網頁包含的複數個關鍵字,並給予網頁包含的每一關鍵字一識別符(ID)。以網站中所有網頁作為母體,計算網頁包含的每一關鍵字的TF-IDF值。根據網頁包含的每一關鍵字之識別符及網頁包含的每一關鍵字的TF-IDF值產生一矩陣。將矩陣輸入至一網頁分類模型以產生一預測的分類名稱。以預測的分類名稱儲存網頁。
根據本發明之另一實施例,提出一種網頁的自動分類系統。網頁的自動分類系統包括一處理器及一網頁分類模型。處理器用以使用一應用程式介面(API)擷取一網站中之一網頁包含的複數個關鍵字,並給予網頁包含的每一關鍵字一識別符(ID)。處理器用以以網站中所有網頁作為母體,計算網頁包含的每一關鍵字的TF-IDF值。處理器用以根據網頁包含的每一關鍵字之識別符及網頁包含的每一關鍵字的TF-IDF值產生一矩陣。處理器用以將矩陣輸入至網頁分類模型以產生一預測的分類名稱。處理器用以以預測的分類名稱儲存網頁。
為了對本發明之上述及其他方面有更佳的瞭解,下文特舉實施例,並配合所附圖式詳細說明如下:
100:自動分類系統
110:處理器
120-1,120-2,120-10:網頁
120:網站
130:網頁分類模型
140,160:網站
140-1,140-2,140-8,160-1,160-2,160-3:網頁
180:網站
180-1,180-2:網頁
180-11,180-21,180-22,180-23:文章
API:應用程式介面
CN120-1,CN140-1,CN140-8,CN160-1,CN160-3,CN180-11:分類名稱
KW1201,KW1202,KW1205,KW1401,KW1402,KW1406,
KW1801,KW1802,KW1806:關鍵字
PCN,PCN180-11:預測的分類名稱
MX,MX140-1,MX140-8,MX160-1,MX160-3,MX180-11:矩陣
S110,S120,S130,S140,S150,S210,S220,S230,S240,S310,S320,S330,S340,S350,S360,S370,S410,S420,S430,S440,S450,S460,S510,S520,S530,S540,S550,S560,S570:步驟
第1圖繪示根據本發明一實施例之網頁的自動分類系統與網站的方塊圖。
第2圖繪示根據本發明之一實施例之網頁的自動分類方法的流程圖。
第3圖繪示根據本發明之一實施例之網頁的示意圖。
第4圖繪示根據本發明一實施例之矩陣的示意圖。
第5圖繪示根據本發明另一實施例之網頁的自動分類系統與網站的方塊圖。
第6圖繪示根據本發明之另一實施例之網頁的自動分類方法中網頁分類模型130的訓練方法的流程圖。
第7圖繪示根據本發明之另一實施例之網頁的示意圖。
第8圖繪示根據本發明之另一實施例之矩陣的示意圖。
第9圖繪示根據本發明另一實施例之網頁的自動分類方法的流程圖。
第10圖繪示根據本發明另一實施例之網頁的自動分類系統與網站的方塊圖。
第11圖繪示根據本發明之另一實施例之網頁的自動分類方法的流程圖。
第12圖繪示根據本發明之一實施例之文章的示意圖。
第13圖繪示根據本發明之另一實施例之網頁的自動分類方法的流程圖。
請參照第1圖,其繪示根據本發明一實施例之網頁的自動分類系統100與網站120的方塊圖。網頁的自動分類系統100包括一處理器110及一網頁分類模型130。網頁的自動分類系統100例如是一智慧型手機、一平板電腦、一筆記型電腦或一桌上型電腦。網站120包括多個網頁,例如網頁120-1、120-2、...、120-10。網頁的自動分類系統100可瀏覽網站120中的網頁120-1、120-2、...、120-10,也可透過處理器110使用一應用程式介面API擷取網頁120-1、120-2、...、120-10中的資料。
以下搭配流程圖詳細說明上述各項元件之運作。請參照第2圖,其繪示根據本發明之一實施例之網頁的自動分類方法的流程圖。
步驟S110,使用一應用程式介面擷取一網站中之一網頁包含的複數個關鍵字,並給予網頁包含的每一關鍵字一識別符(ID)。請參照第3圖,其繪示根據本發明之一實施例之網頁120-1的示意圖。網頁120-1包含分類名稱CN120-1、及關鍵字KW1201、KW1202、...、KW1205。分類名稱例如為「運動類新聞」或「政治類新聞」..等。關鍵字例如為「中華隊」、「開球」、「全壘打」、「總統」或「市長」...等。處理器110使用應用程式介面擷取網站120中之網頁120-1包含的複數個關鍵字KW1201、KW1202、...、KW1205,並給予網頁120-1包含的每一關鍵字 KW1201、KW1202、...、KW1205一識別符。每一關鍵字KW1201、KW1202、...、KW1205給予不同的識別符。在一實施例中,應用程式介面具有一字典,應用程式介面根據字典給予每一關鍵字KW1201、KW1202、...、KW1205不同的識別符。
步驟S120,基於網站中所有網頁的數量,計算網頁包含的每一關鍵字的TF-IDF值。TF-IDF值的計算需要定義一母體。在此實施例中,母體為網站120中的所有網頁120-1、120-2、...、120-10。處理器110基於網站120中所有網頁120-1、120-2、...、120-10的數量(10),計算網頁120-1包含的每一關鍵字KW1201、KW1202、...、KW1205的TF-IDF值。
步驟S130,根據網頁包含的每一關鍵字之識別符及網頁包含的每一關鍵字的TF-IDF值產生一矩陣。請參照第4圖,其繪示根據本發明一實施例之矩陣MX的示意圖。處理器110根據網頁120-1包含的每一關鍵字KW1201、KW1202、...、KW1205之識別符及網頁120-1包含的每一關鍵字KW1201、KW1202、...、KW1205的TF-IDF值產生矩陣MX。換句話說,一網頁120-1對應一矩陣MX。
步驟S140,將矩陣輸入至網頁分類模型以產生一預測的分類名稱。處理器110將矩陣MX輸入至網頁分類模型130以產生一預測的分類名稱PCN。
步驟S150,以預測的分類名稱儲存網頁。處理器110以預測的分類名稱PCN儲存網頁120-1。在一實施例中,在執行 步驟S110之前,處理器110判斷網頁是否已先前儲存過,當網頁先前未被儲存過,則執行步驟S110至步驟S150。舉例來說,處理器110在瀏覽器的cookie中建立一自定義欄位來記錄網頁120-1是否已先前儲存過。
如此一來,本案所提出之網頁的自動分類方法,可對一網頁所包含之每一關鍵字對應的識別符及TF-IDF值產生一矩陣,並輸入至已訓練的網頁分類模型以準確地產生網頁的分類名稱。
請參照第5及6圖。第5圖繪示根據本發明另一實施例之網頁的自動分類系統100與網站140、160的方塊圖。第6圖繪示根據本發明之另一實施例之網頁的自動分類方法中網頁分類模型130的訓練方法的流程圖。網站140包括網頁140-1、140-2、...、140-8。網站160包括網頁160-1、160-2、160-3。為方便說明,以下以兩個網站140、160作為訓練資料訓練網頁分類模型130為例。
步驟S210,使用應用程式介面擷取網站之網頁包含的複數個關鍵字及一分類名稱,並給予網頁包含的每一關鍵字一識別符。請參照第7圖,其繪示根據本發明之另一實施例之網頁140-1的示意圖。網頁140-1包含分類名稱CN140-1、及關鍵字KW1401、KW1402、...、KW1406。處理器110使用應用程式介面擷取網站140中之網頁140-1包含的複數個關鍵字KW1401、 KW1402、...、KW1406及分類名稱CN140-1,並給予網頁140-1包含的每一關鍵字KW1401、KW1402、...、KW1406一識別符。
步驟S220,基於複數個網站中所有網頁的數量,計算網頁包含的每一關鍵字的TF-IDF值。TF-IDF值的計算需要定義一母體。在此實施例中,母體為網站140中的所有網頁140-1、140-2、...、140-8以及網站160中的所有網頁160-1、160-2、160-3。處理器110基於網站140中的所有網頁140-1、140-2、...、140-8以及網站160中的所有網頁160-1、160-2、160-3的數量(11),計算網頁140-1包含的每一關鍵字KW1401、KW1402、...、KW1406的TF-IDF值。
步驟S230,根據網頁包含的每一關鍵字之識別符及網頁包含的每一關鍵字的TF-IDF值產生一矩陣。請參照第8圖,其繪示根據本發明之另一實施例之矩陣MX140-1的示意圖。處理器110根據網頁140-1包含的每一關鍵字KW1401、KW1402、...、KW1406之識別符及網頁140-1包含的每一關鍵字KW1401、KW1402、...、KW1406的TF-IDF值產生矩陣MX140-1
步驟S240,根據矩陣及分類名稱訓練網頁分類模型。處理器110根據矩陣MX140-1及分類名稱CN140-1訓練網頁分類模型130。以此類推,步驟S210至步驟S240會重複執行,直到獲得網站140及160中每個網頁140-1、...140-8、140-1...、160-3對應的每一矩陣MX140-1、...、MX140-8、MX160-1、...、MX160-3 及分類名稱CN140-1、...、CN140-8、CN160-1、...、CN160-3,以訓練網頁分類模型130。
如此一來,本案所提出之網頁的自動分類方法,可對訓練一網頁分類模型以準確地產生網頁的分類名稱。
請參照第1、3、4及9圖。第9圖繪示根據本發明另一實施例之網頁的自動分類方法的流程圖。以下以網站120之網頁120-1為瀏覽過的網頁,且網頁120-1未被儲存為例。
步驟S310,判斷一已瀏覽過的網頁是否已被儲存。若是,則結束流程;若否,則執行步驟S320。處理器110判斷網頁120-1為瀏覽過的網頁,且網頁120-1未被儲存,接著執行步驟S320。
步驟S320,當已瀏覽過的網頁未被儲存時,使用應用程式介面擷取已瀏覽過的網頁包含的複數個關鍵字,並給予已瀏覽過的網頁的每一關鍵字一識別符。處理器110使用應用程式介面擷取已瀏覽過的網頁120-1包含的複數個關鍵字KW1201、KW1202、...、KW1205,並給予已瀏覽過的網頁120-1包含的每一關鍵字KW1201、KW1202、...、KW1205一識別符。
步驟S330,基於已瀏覽過的網頁所屬的網站中所有網頁的數量,計算已瀏覽過的網頁的每一關鍵字的TF-IDF值。TF-IDF值的計算需要定義一母體。在此實施例中,母體為已瀏覽過的網頁120-1所屬的網站120中的所有網頁120-1、120-2、...、120-10。處理器110基於網站120中所有網頁120-1、120-2、...、 120-10的數量(10),計算已瀏覽過的網頁120-1包含的每一關鍵字KW1201、KW1202、...、KW1205的TF-IDF值。
步驟S340,根據已瀏覽過的網頁的每一關鍵字的識別符以及已瀏覽過的網頁的每一關鍵字的TF-IDF值產生矩陣。處理器110根據已瀏覽過的網頁120-1包含的每一關鍵字KW1201、KW1202、...、KW1205之識別符及已瀏覽過的網頁120-1包含的每一關鍵字KW1201、KW1202、...、KW1205的TF-IDF值產生矩陣MX。
步驟S350,將矩陣輸入至網頁分類模型以產生預測的分類名稱。處理器110將矩陣MX輸入至網頁分類模型130以產生一預測的分類名稱PCN。
步驟S360,以預測的分類名稱儲存已瀏覽過的網頁至一資料庫。處理器110以預測的分類名稱PCN儲存已瀏覽過的網頁120-1至一資料庫(未繪示)。資料庫用以儲存已儲存過的網頁及其分類名稱。
步驟S370,根據資料庫中各分類名稱之網頁的數量識別出一偏好資訊,並推薦與偏好資訊相關之廣告。處理器110選擇網頁數量最多的分類名稱作為偏好資訊,並推薦與偏好資訊相關之廣告。例如在資料庫中,分類名稱「運動類新聞」的網頁的數量最多,則以「運動類新聞」作為偏好資訊,推薦與「運動類新聞」相關之廣告(例如中華職棒開幕戰的新聞資訊)。在一 實施例中,資料庫可根據不同使用者來區分已儲存的網頁及其分類名稱。
如此一來,本案所提出之網頁的自動分類方法,可依據不同使用者識別出不同的偏好資訊。
請參照第10、11、12圖。第10圖繪示根據本發明另一實施例之網頁的自動分類系統100與網站180的方塊圖。第11圖繪示根據本發明之另一實施例之網頁的自動分類方法的流程圖。第12圖繪示根據本發明之一實施例之文章180-11的示意圖。在此實施例中,網頁的自動分類系統100可判斷網站180之網頁180-1、180-2中是否有具有一文章分類名稱之文章被發佈。以下以具有一文章分類名稱CN180-11之一文章180-11在網站180之網頁180-1中被發佈為例。網頁180-2中包含多個文章180-21、180-22、180-23。
步驟S410,判斷具有一文章分類名稱之一文章是否被發佈。若是,則執行步驟S420;若否,則結束流程。處理器110判斷具有一文章分類名稱CN180-11之一文章180-11被發佈,接著執行步驟S420。
步驟S420,當具有文章分類名稱之文章被發佈時,使用應用程式介面擷取文章包含的複數個關鍵字,並給予文章包含的每一關鍵字一識別符。當具有文章分類名稱CN180-11之文章180-11被發佈時,處理器110使用應用程式介面擷取文章180-11包含的複數個關鍵字KW1801、KW1802、...、KW1806,並給予文 章180-11包含的每一關鍵字KW1801、KW1802、...、KW1806一識別符。
步驟S430,基於文章所屬的網站中所有文章的數量,計算該文章包含的每一關鍵字的TF-IDF值。TF-IDF值的計算需要定義一母體。在此實施例中,母體為網站180中的所有文章180-11、180-21、180-22、180-23。處理器110基於網站180中所有文章180-11、180-21、180-22、180-23的數量(4),計算文章180-11包含的每一關鍵字KW1801、KW1802、...、KW1806的TF-IDF值。
步驟S440,根據文章包含的每一關鍵字的識別符ID以及文章包含的每一關鍵字的TF-IDF值產生矩陣。處理器110根據文章180-11包含的每一關鍵字KW1801、KW1802、...、KW1806之識別符及文章180-11包含的每一關鍵字KW1801、KW1802、...、KW1806的TF-IDF值產生矩陣MX180-11
步驟S450,將矩陣輸入至網頁分類模型以產生預測的分類名稱。處理器110將矩陣MX180-11輸入至網頁分類模型130以產生一預測的分類名稱PCN180-11
步驟S460,當文章分類名稱與預測的分類名稱不同時,以預測的分類名稱發佈文章。處理器110判斷文章分類名稱CN180-11與預測的分類名稱PCN180-11是否相同,當文章分類名稱CN180-11與預測的分類名稱PCN180-11不同時,以預測的分類名稱PCN180-11發佈文章180-11。
如此一來,本案所提出之網頁的自動分類方法,可對發佈之文章所包含之每一關鍵字對應的識別符即TF-IDF值產生一矩陣,並輸入至已訓練的網頁分類模型以準確地產生發佈之文章的分類名稱。
請參照第1及13圖。第13圖繪示根據本發明之另一實施例之網頁的自動分類方法的流程圖。步驟S510至步驟S550分別與第2圖之步驟S110至步驟S150類似,在此不多贅述。在處理器110以預測的分類名稱PCN儲存網頁120-1之後,執行步驟S560。
步驟S560,判斷已儲存的網頁的預測的分類名稱是否被更改。若是,則執行步驟S570;若否,則結束流程。處理器110判斷已儲存的網頁120-1的預測的分類名稱PCN被更改,則執行步驟S570。
步驟S570,當已儲存的網頁的預測的分類名稱被更改,則根據矩陣及更改後的分類名稱訓練網頁分類模型。當已儲存的網頁120-1的預測的分類名稱PCN被更改,表示使用者不滿意網頁分類模型130的預測的分類名稱,則處理器110根據矩陣MX及更改後的分類名稱訓練網頁分類模型130。
如此一來,本案所提出之網頁的自動分類方法,可判斷預測的分類名稱是否被更改,來優化網頁分類模型。
綜上所述,雖然本發明已以實施例揭露如上,然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者, 在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者為準。
S110,S120,S130,S140,S150:步驟

Claims (10)

  1. 一種網頁的自動分類方法,包括:使用一應用程式介面擷取一網站中之一網頁包含的複數個關鍵字,並給予該網頁包含的每一該些關鍵字一識別符(ID);基於該網站中所有網頁的數量,計算該網頁包含的每一該些關鍵字的TF-IDF值;根據該網頁包含的每一該些關鍵字之識別符及該網頁包含的每一該些關鍵字的TF-IDF值產生一矩陣;將該矩陣輸入至一網頁分類模型以產生一預測分類名稱;以及以該預測分類名稱儲存該網頁;其中該網頁分類模型的一訓練方法包括:使用該應用程式介面擷取該網站之該網頁包含的該些關鍵字及一網頁分類名稱,並給予該網頁包含的每一該些關鍵字一識別符;基於複數個網站中所有網頁的數量,計算該網頁包含的每一該些關鍵字的TF-IDF值;根據該網頁包含的每一該些關鍵字之識別符及該網頁包含的每一該些關鍵字的TF-IDF值產生該矩陣;根據該矩陣及該網頁分類名稱訓練該網頁分類模型。
  2. 如請求項1所述之自動分類方法,其中在使用該應用程式介面擷取該網站之該網頁包含的該些關鍵字之前更包括:判斷該網頁是否已先前儲存過; 當該網頁先前未被儲存過,則執行該自動分類方法。
  3. 如請求項1所述之自動分類方法,其中更包括:判斷一已瀏覽過的網頁是否已被儲存;當該已瀏覽過的網頁未被儲存時,使用該應用程式介面擷取該已瀏覽過的網頁包含的複數個關鍵字,並給予該已瀏覽過的網頁的每一該些關鍵字一識別符;基於該已瀏覽過的網頁所屬的網站中所有網頁的數量,計算該已瀏覽過的網頁的每一該些關鍵字的TF-IDF值;根據該已瀏覽過的網頁的每一該些關鍵字的識別符以及該已瀏覽過的網頁的每一該些關鍵字的TF-IDF值產生該矩陣;將該矩陣輸入至該網頁分類模型以產生該預測分類名稱;以該預測的分類名稱儲存該已瀏覽過的網頁至一資料庫;根據該資料庫中各分類名稱之網頁的數量識別出一偏好資訊,並推薦與該偏好資訊相關之廣告。
  4. 如請求項1所述之自動分類方法,其中更包括:判斷具有一文章分類名稱之一文章是否被發佈;當具有該文章分類名稱之該文章被發佈時,使用該應用程式介面擷取該文章包含的複數個關鍵字,並給予該文章包含的每一該些關鍵字一識別符;基於該文章所屬的網站中所有文章的數量,計算該文章包含的每一該些關鍵字的TF-IDF值; 根據該文章包含的每一該些關鍵字的識別符ID以及該文章包含的每一該些關鍵字的TF-IDF值產生該矩陣;將該矩陣輸入至該網頁分類模型以產生該預測分類名稱;當該文章分類名稱與該預測分類名稱不同時,以該預測的分類名稱發佈該文章。
  5. 如請求項1所述之自動分類方法,其中更包括:判斷已儲存的該網頁的該預測的分類名稱是否被更改;以及當已儲存的該網頁的該預測分類名稱被更改,則根據該矩陣及更改後的分類名稱訓練該網頁分類模型。
  6. 一種網頁的自動分類系統,包括:一處理器,用以使用一應用程式介面擷取一網站中之一網頁包含的複數個關鍵字,並給予該網頁包含的每一該些關鍵字一識別符(ID),基於該網站中所有網頁的數量,計算該網頁包含的每一該些關鍵字的TF-IDF值,根據該網頁包含的每一該些關鍵字之識別符及該網頁包含的每一該些關鍵字的TF-IDF值產生一矩陣;以及一網頁分類模型,用以根據該矩陣產生一預測分類名稱;該處理器以該預測分類名稱儲存該網頁;以及其中該處理器更用以: 使用該應用程式介面擷取該網站之該網頁包含的該些關鍵字及一網頁分類名稱,並給予該網頁包含的每一該些關鍵字一識別符,基於複數個網站中所有網頁的數量,計算該網頁包含的每一該些關鍵字的TF-IDF值,根據該網頁包含的每一該些關鍵字之識別符及該網頁包含的每一該些關鍵字的TF-IDF值產生該矩陣,以及根據該矩陣及該網頁分類名稱訓練該網頁分類模型。
  7. 如請求項6所述之自動分類系統,其中該處理器更用以判斷該網頁是否已先前儲存過。
  8. 如請求項6所述之自動分類系統,其中該處理器更用以判斷一已瀏覽過的網頁是否已被儲存,當該已瀏覽過的網頁未被儲存時,使用該應用程式介面擷取該已瀏覽過的網頁包含的複數個關鍵字,並給予該已瀏覽過的網頁的每一該些關鍵字一識別符,基於該已瀏覽過的網頁所屬的網站中所有網頁的數量,計算該已瀏覽過的網頁的每一該些關鍵字的TF-IDF值,根據該已瀏覽過的網頁的每一該些關鍵字的識別符以及該已瀏覽過的網頁的每一該些關鍵字的TF-IDF值產生該矩陣,將該矩陣輸入至該網頁分類模型以產生該預測分類名稱,以該預測分類名稱儲存該已瀏覽過的網頁至一資料庫,以及 根據該資料庫中各分類名稱之網頁的數量識別出一偏好資訊,並推薦與該偏好資訊相關之廣告。
  9. 如請求項6所述之自動分類系統,其中該處理器更用以判斷具有一文章分類名稱之一文章是否被發佈,當具有該文章分類名稱之該文章被發佈時,使用該應用程式介面擷取該文章包含的複數個關鍵字,並給予該文章包含的每一該些關鍵字一識別符,基於該文章所屬的網站中所有文章的數量,計算該文章包含的每一該些關鍵字的TF-IDF值,根據該文章包含的每一該些關鍵字的識別符ID以及該文章包含的每一該些關鍵字的TF-IDF值產生該矩陣,將該矩陣輸入至該網頁分類模型以產生該預測分類名稱,以及當該文章分類名稱與該預測分類名稱不同時,以該預測分類名稱發佈該文章。
  10. 如請求項6所述之自動分類系統,其中該處理器更用以判斷已儲存的該網頁的該預測分類名稱是否被更改,以及當已儲存的該網頁的該預測分類名稱被更改,則根據該矩陣及更改後的分類名稱訓練該網頁分類模型。
TW109138812A 2020-11-06 2020-11-06 網頁的自動分類方法及系統 TWI757957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109138812A TWI757957B (zh) 2020-11-06 2020-11-06 網頁的自動分類方法及系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109138812A TWI757957B (zh) 2020-11-06 2020-11-06 網頁的自動分類方法及系統

Publications (2)

Publication Number Publication Date
TWI757957B true TWI757957B (zh) 2022-03-11
TW202219794A TW202219794A (zh) 2022-05-16

Family

ID=81710610

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109138812A TWI757957B (zh) 2020-11-06 2020-11-06 網頁的自動分類方法及系統

Country Status (1)

Country Link
TW (1) TWI757957B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169020A (zh) * 2017-04-07 2017-09-15 南京邮电大学 一种基于关键字的定向网页采集方法
CN110516074A (zh) * 2019-10-23 2019-11-29 中国人民解放军国防科技大学 一种基于深度学习的网站主题分类方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169020A (zh) * 2017-04-07 2017-09-15 南京邮电大学 一种基于关键字的定向网页采集方法
CN110516074A (zh) * 2019-10-23 2019-11-29 中国人民解放军国防科技大学 一种基于深度学习的网站主题分类方法及装置

Also Published As

Publication number Publication date
TW202219794A (zh) 2022-05-16

Similar Documents

Publication Publication Date Title
US8868539B2 (en) Search equalizer
US20210232633A1 (en) Indexing and presenting content using latent interests
US7516124B2 (en) Interactive search engine
US8554756B2 (en) Integrating social network data with search results
JP5224868B2 (ja) 情報推薦装置および情報推薦方法
KR101368594B1 (ko) 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체
TWI582619B (zh) Method and apparatus for providing referral words
US20120166429A1 (en) Using statistical language models for contextual lookup
US9311372B2 (en) Product record normalization system with efficient and scalable methods for discovering, validating, and using schema mappings
JP2013517563A (ja) ユーザ通信の解析システムおよび方法
US20200134511A1 (en) Systems and methods for identifying documents with topic vectors
US11100169B2 (en) Alternative query suggestion in electronic searching
JP2007018285A (ja) 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム
JP6664599B2 (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
EP2720156B1 (en) Information processing device, information processing method, program for information processing device, and recording medium
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
JP4939637B2 (ja) 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体
US11282124B1 (en) Automated identification of item attributes relevant to a browsing session
CN110377701B (zh) 一种热词处理方法、装置、电子设备及存储介质
CN102024050A (zh) 一种网页浏览方法
JP4640554B2 (ja) サーバ装置、情報処理方法およびプログラム
TWI399657B (zh) A provider, a method of providing information, a program, and an information recording medium
TWI757957B (zh) 網頁的自動分類方法及系統
JP6576534B1 (ja) 情報表示プログラム、情報表示方法、情報表示装置、および情報処理システム
JP6568284B1 (ja) 提供装置、提供方法及び提供プログラム