TW201913409A

TW201913409A - 產品分類系統與方法

Info

Publication number: TW201913409A
Application number: TW106130142A
Authority: TW
Inventors: 張天豪; 葉書銘; 劉世勛; 黃品真
Original assignee: 優愛德股份有限公司
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2019-04-01
Also published as: TWI665566B

Abstract

一種產品分類系統與方法，該系統包括：用於接收一則產品介紹文字中的字串資料的字串資料接收模組；用於過濾該字串資料接收模組所接收的該字串資料的字串資料過濾模組；根據語言斷詞程式拆斷該字串資料過濾模組所過濾的該字串資料以產生至少一關鍵詞的字串資料拆斷模組；用於分析該字串資料拆斷模組所產生的該關鍵詞以產生該關鍵詞的同義詞或近義詞的字串資料分析模組；以及用於將該字串資料分析模組所產生的該關鍵詞的同義詞或近義詞與一資料庫所儲存的關鍵字進行比對以進行產品分類的字串資料分類模組。

Description

產品分類系統與方法

本發明係關於一種產品分類系統與方法，特別是指一種能對應至少一種國際或國內廠商的產品分類系統及方法。

隨著人們購物型態的改變，從以往的實體店面消費漸漸轉換到網路平台上的電商進行消費，由於電商購物平台並沒有消費時間上的限制，因此也逐漸受到現代人的青睞。

現有的電商購物平台，因應物流技術的快速發展，販售的商品越來越多，電商購物平台上的商品分類往往高達上千種，琳瑯滿目。然而網路賣家或供應商一旦將自家商品放置於錯誤的電商購物平台的商品分類中，往往造成消費者尋找不易，進而造成商品乏人問津的情況。

雖部分電商購物平台提供網路賣家或供應商自訂賣場分類管理，讓網路賣家或供應商可以自由彈性調整自家商品的商品分類，以建立適合電商購物平台的商品分類方式。然而現有的電商購物平台的商品分類種類繁多，一般的網路賣家或供應商往往不易馬上了解電商購物平台所有的商品分類方式。即使了解，網路賣家或供應商將自家眾多的產品投置於電商購物平台裡的商品分類往往得耗費不少的分類時間，造成許多時間成本上的無謂消耗。

因此，如何解決上述習知技術之問題，實已成為本領域技術人員之一大課題。

有鑑於此，本發明係提供一種產品分類系統與方法，其能應用於網際網路。

本發明提供一種產品分類系統，係用於具有儲存器與處理器之電子裝置中，該系統包括：一字串資料接收模組，用於接收一則產品介紹文字中的字串資料；一字串資料過濾模組，用於過濾該字串資料接收模組所接收的該字串資料；一字串資料拆斷模組，根據一語言斷詞程式拆斷該字串資料過濾模組所過濾的該字串資料以產生至少一關鍵詞；一字串資料分析模組，用於分析該字串資料拆斷模組所產生的該關鍵詞以產生該關鍵詞的同義詞或近義詞；以及一字串資料分類模組，用於將該字串資料分析模組所產生的該關鍵詞的同義詞或近義詞與一資料庫所儲存的關鍵字進行比對以進行產品分類。

本發明復提供一種產品分類方法，係用於具有儲存器與處理器之電子裝置中，該方法包括：由字串資料接收模組接收一則產品介紹文字中的字串資料；由字串資料過濾模組過濾該字串資料；由字串資料拆斷模組根據一語言斷詞程式拆斷該字串資料過濾模組所過濾之字串資料，且拆斷後產生至少一關鍵詞；由字串資料分析模組分析該關鍵詞，且分析後產生該關鍵詞的同義詞或近義詞；以及由字串資料分類模組將產生該關鍵詞的同義詞或近義詞與一資料庫儲存之關鍵字進行比對後，以進行產品分類。

前述之系統與方法中，該儲存器為記憶體與硬碟之至少一者，該處理器為微處理器或中央處理器，該電子裝置為伺服器。

前述之系統與方法中，該字串資料過濾模組係使用正規表示式(regular expression)過濾該字串資料。

前述之系統與方法中，該字串資料拆斷模組係使用語言斷詞程式拆斷該字串資料。

前述之系統與方法中，該字串資料分析模組的分析方法為羅基奧(Rocchio)分類演算法、樸素貝葉斯(Naïve Bayes Classifier)分類演算法、支持向量機的分類演算法、k-最近鄰法的分類演算法、神經網絡的分類演算法、決策樹演算法或其組合。

前述之系統與方法中，該產品分類係對應谷歌(***)公司的產品分類項目、臉書(facebook)商品目錄的商品類別項目、經濟部智慧財產局之商品及服務分類目錄、國際商品統一分類代碼(HS Code)或經濟部工業產品分類項目之一或其組合。

由上可知，本發明之產品分類系統及方法可應用於網際網路的電商購物平台，先使用字串資料過濾模組將網路賣家或供應商提供的產品介紹文字進行過濾，並利用字串資料分析模組分析字串資料拆斷模組所產生的關鍵詞以產生該關鍵詞的同義詞或近義詞，再利用字串資料分類模組將字串資料分析模組所產生的關鍵詞的同義詞或近義詞與資料庫所儲存的關鍵字進行比對，以將網路賣家或供應商的產品正確地投置於電商購物平台裡的商品分類。

如此，網路賣家或供應商不須事先了解電商購物平台裡複雜的商品分類方式，且本發明的產品分類系統可將網路賣家或供應商的產品自動分類於適當的電商購物平台裡的商品分類，藉此可節省網路賣家或供應商不少的商品分類時間，減少許多不必要的產品分類的時間成本支出。

此外，目前市場廣告市佔率最高兩大網站分別為***及facebook，目前主流的廣告系統都是利用*** product category的分類作為識別產品的依據。因本發明之產品分類系統係將產品標註對照的***產品、臉書(facebook)的商品類別項目、經濟部智慧財產局之商品及服務分類目錄、國際商品統一分類代碼(HS Code)或經濟部工業產品分類項目之一或其組合，以進行分類編號，如此可有助於網路賣家或供應商歸納產品，將受眾的行為與產品類別進行連結，如此網路賣家或供應商將可依照受眾的興趣喜好，預測消費者最可能感興趣的商品將其投遞，達到最有效的廣告目的。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點，且此等特徵及優點將部分自所述描述內容顯而易見，或可藉由對本發明之實踐習得。本發明之特徵及優點借助於在申請專利範圍中特別指出的元件及組合來認識到並達到。應理解，前文一般描述與以下詳細描述兩者均僅為例示性及解釋性的，且不欲約束本發明所主張之範圍。

1‧‧‧字串資料接收模組

2‧‧‧字串資料過濾模組

3‧‧‧字串資料拆斷模組

4‧‧‧字串資料分析模組

5‧‧‧字串資料分類模組

6‧‧‧資料庫

S1至S5‧‧‧步驟

第1圖繪示本發明之產品分類系統之方塊示意圖；第2圖繪示本發明之產品分類方法之流程圖；以及第3圖繪示本發明之產品分類方法之對照欄位示意圖。

以下藉由特定的具體實施形態說明本發明之實施方式，熟悉此技術之人士可由本說明書所揭示之內容輕易地了解本發明之其他優點與功效，亦可藉由其他不同的具體實施形態加以施行或應用。

本發明之產品分類系統係用於具有儲存器與處理器之電子裝置中，其中該儲存器可為記憶體與硬碟其中至少一者，該處理器可為微處理器或中央處理器，且該電子裝置可為伺服器，但不以此為限。

請參考第1圖，係為本發明之產品分類系統之方塊示意圖。本發明之產品分類系統包括一字串資料接收模組1、一字串資料過濾模組2、一字串資料拆斷模組3、一字串資料分析模組4與一字串資料分類模組5。

字串資料接收模組1用於接收一則產品介紹文字中的字串資料。該產品介紹文字可為產品標題、產品性能描述、產品於其他系統的分類等。字串資料過濾模組2用於過濾該字串資料接收模組1所接收的該字串資料。當網路賣家或供應商將該產品的文字介紹內容鍵入後，字串資料接收模組1接收該則產品介紹文字中的字串資料。在一些實施例中，字串資料過濾模組2可使用正規表示式(regular expression)過濾該字串資料。利用正規表示式(regular expression)使用單個字串來描述、匹配符合規則的字串，以便後續用來檢索、取代符合某個模式的文字。字串資料拆斷模組3則根據一語言斷詞程式拆斷該字串資料過濾模組2所過濾的該字串資料以產生至少一關鍵詞。進一步地，該語言斷詞程式可為結巴(Jieba)、R結巴(Rjieba)、CKIP中文斷詞系統、百度的平行分散式深度學習平臺(PaddlePaddle)、自然語言處理工具(gensim)等，並不以此為限。舉例而言，字串資料拆斷模組3可使用結巴(Jieba)中文斷詞程式拆斷該字串資料。結巴(Jieba)中文斷詞程式先使用正規式來將符號與文字切開，之後載入字典，建立一個單詞搜尋樹(Trie tree)。然後再計算最佳的切分組合，以取得至少一關鍵詞。

換句話說，結巴(Jieba)中文斷詞程式使用單詞搜尋樹(Trie tree)結構生成句子時，預想取得中文字所有可能成詞的情況。然後使用動態規劃(Dynamic programming)算法來找出最大機率的路徑，此路徑即為基於詞頻的最大斷詞結果。對於辨識新詞(如：字典詞庫中不存在的詞)則使用HMM模型(Hidden Markov Model)及維特比(Viterbi)演算法進行辨識。

字串資料分析模組4用於分析該字串資料拆斷模組3所產生的關鍵詞以產生該關鍵詞的同義詞或近義詞。進一步地，該字串資料分析模組4的分析方法可為羅基奧(Rocchio)分類演算法、樸素貝葉斯(Naïve Bayes Classifier)分類演算法、支持向量機的分類演算法、k-最近鄰法的分類演算法、神經網絡的分類演算法、決策樹演算法或其組合。

舉例而言，羅基奧(Rocchio)分類演算法會為每一個訓練文本建立一個特徵向量，然後使用訓練文本的特徵向量為每個類建立一個原型向量(類向量)。當給定一個待分類文本時，計算待分類文本與各個類別的原型向量之間的距離，然後根據計算出來的距離值決定待分類文本屬於哪一類別。樸素貝葉斯(Naïve Bayes Classifier)分類演算法則係利用特徵項和類別的列和機率來估計給定文檔的類別機率。假設文本是基於詞的一元模型，即文本中當前詞的出現依賴於文本類別，但不依賴於其他詞及文本的長度，也就是說，詞與詞之間是獨立的。

根據貝葉斯公式，文檔Doc屬於Ci類別的機率為P(Ci|Doc)=P(Doc|Ci)*P(Ci)/P(Doc)。支持向量機的分類演算法則是利用支持向量機(SVM)的分類方法來解決二元模式分類問題。支持向量機(SVM)是在向量空間中找到一個決策平面，這個平面能夠「最好」地分割兩個分類中的數據點，如此以在訓練集中找到具有最大類間界限的決策平面。

k-最近鄰法的分類演算法則是提供一個測試文檔，系統在訓練集中查找離它最近的k個鄰近文檔，並且根據這些鄰近文檔的分類來給該文檔的候選類別評分。把鄰近文檔和測試文檔的相似度作為鄰近文檔所在類別的權重，如果這k個鄰近文檔中的部分文檔屬於同一個類別，那麼將該類別中每個鄰近文檔的權重求和，並作為該類別和測試文檔的相似度。然後，透過對候選分類評分的排序，給出一個閾值。

神經網絡的分類演算法則是使每一類文檔建立一個神經網絡，輸入通常是單詞或者較複雜的特徵向量，透過機器學習方法獲得從輸入到分類的非線性映射。

決策樹演算法則是把文本處理過程看作是一個等級分層分解完成的複雜任務。其中決策樹對比為一棵樹時，樹的根節點是整個數據集合空間，每個分節點是對一個單一變量的測試，該測試將數據集合空間分割成兩個或更多個類別，即決策樹可以是二叉樹也可以是多叉樹。每個葉節點是屬於單一類別的記錄。構造決策樹分類器時，首先要通過訓練生成決策樹，然後再通過測試集對決策樹進行修剪。

字串資料分類模組5用於將該字串資料分析模組4所產生的該關鍵詞的同義詞或近義詞與一資料庫6所儲存的關鍵字進行比對以進行產品分類。由於字串資料分析模組4已利用羅基奧(Rocchio)分類演算法、樸素貝葉斯(Naïve Bayes Classifier)分類演算法、支持向量機的分類演算法、k-最近鄰法的分類演算法、神經網絡的分類演算法、決策樹演算法或其組合進行字串分析，亦即利用羅基奧(Rocchio)分類演算法、樸素貝葉斯(Naïve Bayes Classifier)分類演算法、支持向量機的分類演算法、k-最近鄰法的分類演算法、神經網絡的分類演算法、決策樹演算法或其組合進行樣本訓練。

字串資料分類模組5利用字串分析後的結果進行評價，以作後續的分類依據。評價的判斷數值包括召回率、正確率和F-測度值。假設數字a表示字串資料分類模組5將輸入文本正確分類到某個類別的個數，數字b表示字串資料分類模組5將輸入文本錯誤分類到某個類別的個數，數字c表示字串資料分類模組5將輸入文本錯誤地排除在某個類別之外的個數，數字d表示字串資料分類模組5將輸入文本正確地排除在某個類別之外的個數。

字串資料分類模組5的召回率、正確率和F-測度值分別採用以下公式計算：

由於在分類結果中，對應每個類別都會有一個召回率和正確率，因此，可以根據每個類別的分類結果評價分類器的整體性能，通常方法有兩種：微(micro)平均和宏(macro)平均。微平均是根據正確率和召回率計算公式直接計算出總得正確率和召回率值。宏平均是指首先計算出每個類別的正確率和召回率，然後對正確率和召回率分別取平均得到總的正確率和召回率。由上述可知，宏平均平等對待每一個類別，所以它的值主要受到稀有類別的影響，而微平均平等考慮文檔集中的每一個文檔，所以它的值受到常見類別的影響比較大。

在一些實施例中，該產品分類係對應谷歌(***)公司的產品分類項目。但本發明並不以此為限。

第2圖為本發明之產品分類方法之流程圖。如第2圖與上述第1圖所示，該方法係用於具有儲存器與處理器之電子裝置中，其中該儲存器可為記憶體與硬碟其中至少一者，該處理器可為微處理器或中央處理器，且該電子裝置可為伺服器，但不以此為限。

步驟S1：由字串資料接收模組1接收一則產品介紹文字中的字串資料。當網路賣家或供應商將該商品的產品的文字介紹內容鍵入後，字串資料接收模組1接收該則產品介紹文字中的字串資料。

步驟S2：由字串資料過濾模組2過濾該字串資料。在一些實施例中，字串資料過濾模組2可使用正規表示式(regular expression)過濾該字串資料。利用正規表示式(regular expression)使用單個字串來描述、匹配符合規則的字串，以便後續用來檢索、取代符合某個模式的文字。

步驟S3：由字串資料拆斷模組3根據一語言斷詞程式拆斷該字串資料過濾模組2所過濾之字串資料，且拆斷後產生至少一關鍵詞。進一步地，該語言斷詞程式可為結巴(Jieba)、R結巴(Rjieba)、CKIP中文斷詞系統、百度的平行分散式深度學習平臺(PaddlePaddle)、自然語言處理工具(gensim)等，並不以此為限。舉例而言，字串資料拆斷模組3可使用結巴(Jieba)中文斷詞程式拆斷該字串資料。結巴(Jieba)中文斷詞程式先使用正規式來將符號與文字切開，之後載入字典，建立一個單詞搜尋樹(Trie tree)。然後再計算最佳的切分組合，以取得至少一關鍵詞。

步驟S4：由字串資料分析模組4分析該關鍵詞，且分析後產生該關鍵詞的同義詞或近義詞。進一步地，該字串資料分析模組4的分析方法可為羅基奧(Rocchio)分類演算法、樸素貝葉斯(Naïve Bayes Classifier)分類演算法、支持向量機的分類演算法、k-最近鄰法的分類演算法、神經網絡的分類演算法、決策樹演算法或其組合。

步驟S5：字串資料分類模組5將產生該關鍵詞的同義詞或近義詞與一資料庫6儲存之關鍵字進行比對後，以進行產品分類。由於字串資料分析模組4已利用羅基奧(Rocchio)分類演算法、樸素貝葉斯(Naïve Bayes Classifier)分類演算法、支持向量機的分類演算法、k-最近鄰法的分類演算法、神經網絡的分類演算法、決策樹演算法或其組合進行字串分析，亦即利用羅基奧(Rocchio)分類演算法、樸素貝葉斯(Naïve Bayes Classifier)分類演算法、支持向量機的分類演算法、k-最近鄰法的分類演算法、神經網絡的分類演算法、決策樹演算法或其組合進行樣本訓練。字串資料分類模組5利用字串分析後的結果進行評價，以作後續的分類依據。

評價的判斷數值包括召回率、正確率和F-測度值。假設數字a表示字串資料分類模組5將輸入文本正確分類到某個類別的個數，數字b表示字串資料分類模組5將輸入文本錯誤分類到某個類別的個數，數字c表示字串資料分類模組5將輸入文本錯誤地排除在某個類別之外的個數，數字d表示字串資料分類模組5將輸入文本正確地排除在某個類別之外的個數。

由於在分類結果中，對應每個類別都會有一個召回率和正確率，因此，可以根據每個類別的分類結果評價分類器的整體性能，通常方法有兩種：微平均和宏平均。微平均是根據正確率和召回率計算公式直接計算出總得正確率和召回率值。宏平均是指首先計算出每個類別的正確率和召回率，然後對正確率和召回率分別取平均得到總的正確率和召回率。由上述可知，宏平均平等對待每一個類別，所以它的值主要受到稀有類別的影響，而微平均平等考慮文檔集中的每一個文檔，所以它的值受到常見類別的影響比較大。

在一些實施例中，該產品分類係對應谷歌(***)公司的產品分類項目、臉書(facebook)商品目錄的商品類別項目、經濟部智慧財產局之商品及服務分類目錄、國際商品統一分類代碼(HS Code)或經濟部工業產品分類項目之一或其組合，但本發明並不以此為限。

第3圖為本發明之產品分類方法之對照欄位示意圖。目前市場廣告市佔率最高兩大網站分別為谷歌(***)及facebook，目前主流的廣告系統都是利用*** product category的分類作為識別產品的依據。舉例而言，本發明的分類系統(如：urAD)可同時對應國際商品統一分類代碼(HS Code)、谷歌(***)公司、PC home、臉書(Facebook)與淘寶(taobao)的產品分類項目。

如當一位業者在產品名稱中鍵入「挪威鮭魚」時，透過本系統可直接自動對應到本發明的分類系統(如：ur5024)，同時可對應國際商品統一分類代碼(HS Code)第03類的魚類、甲殼類、軟體類及其他水產無脊椎動物(Fish and crustaceans,mollusks and other aquatic invertebrates)，且可同時對應到谷歌(***)公司的產品分類項目中的第5024類的Animals & Pet Supplies(Fish Supplies)；另當一位業者在產品名稱中鍵入「桂格即食大燕麥片」時，透過本系統可直接自動對應到本發明的分類系統(如：ur431)，同時可對應國際商品統一分類代碼(HS Code)第10類的穀類(Cereals)，且可同時對應到谷歌(***)公司的產品分類項目中的第431類的Food,Beverages & Tobacco(Grains,Rice & Cereal)，利用本發明的產品分類系統，當業者在產品名稱中鍵入「產品資料」時，會自動帶入本發明的分類系統(如：urAD)代碼，且可自動對應到國際商品統一分類代碼(HS Code)與谷歌(***)公司的產品分類項目或其他如：PC home、臉書(Facebook)與淘寶 (taobao)的產品分類項目。

因本發明之產品分類系統係將產品標註對照的谷歌(***)產品以進行分類編號，如此可有助於網路賣家或供應商歸納產品，將受眾的行為與產品類別進行連結，藉此網路賣家或供應商將可依照受眾的興趣喜好，預測消費者最可能感興趣的商品將其投遞，達到最有效的廣告目的。

如此，網路賣家或供應商不須事先了解電商購物平台裡複雜的商品分類方式，且本發明的產品分類系統可將網路賣家或供應商的產品自動分類於適當的電商購物平台裡的商品分類，如此可節省網路賣家或供應商不少的商品分類時間，減少許多不必要的產品分類的時間成本支出。

上述實施形態僅例示性說明本發明之原理、特點及其功效，並非用以限制本發明之可實施範疇，任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。任何運用本發明所揭示內容而完成之等效改變及修飾，均仍應為申請專利範圍所涵蓋。因此，本發明之權利保護範圍，應如申請專利範圍所列。

Claims

一種產品分類系統，係用於具有儲存器與處理器之電子裝置中，該系統包括：一字串資料接收模組，用於接收一則產品介紹文字中的字串資料；一字串資料過濾模組，用於過濾該字串資料接收模組所接收的該字串資料；一字串資料拆斷模組，根據一語言斷詞程式拆斷該字串資料過濾模組所過濾的該字串資料以產生至少一關鍵詞；一字串資料分析模組，用於分析該字串資料拆斷模組所產生的該關鍵詞以產生該關鍵詞的同義詞或近義詞；以及一字串資料分類模組，用於將該字串資料分析模組所產生的該關鍵詞的同義詞或近義詞與一資料庫所儲存的關鍵字進行比對以進行產品分類。
如申請專利範圍第1項所述之產品分類系統，其中，該儲存器為記憶體與硬碟之至少一者，該處理器為微處理器或中央處理器，該電子裝置為伺服器。
如申請專利範圍第1項所述之產品分類系統，其中，該字串資料過濾模組係使用正規表示式(regular expression)過濾該字串資料。
如申請專利範圍第1項所述之產品分類系統，其中，該字串資料拆斷模組係使用斷詞程式拆斷該字串資料，其中斷詞程式係為結巴(Jieba)、R結巴(Rjieba)、CKIP中文斷詞系統、百度的平行分散式深度學習平臺(PaddlePaddle)、自然語言處理工具(gensim)之一或其組合。
如申請專利範圍第1項所述之產品分類系統，其中，該字串資料分析模組的分析方法為羅基奧(Rocchio)分類演算法、樸素貝葉斯(Naïve Bayes Classifier)分類演算法、支持向量機的分類演算法、k-最近鄰法的分類演算法、神經網絡的分類演算法、決策樹演算法或其組合。
如申請專利範圍第1項所述之產品分類系統，其中，該產品分類係對應谷歌(***)公司的產品分類項目、臉書(facebook)商品目錄的商品類別項目、經濟部智慧財產局之商品及服務分類目錄、國際商品統一分類代碼(HS Code)或經濟部工業產品分類項目之一或其組合。
一種產品分類方法，係用於具有儲存器與處理器之電子裝置中，該方法包括：由字串資料接收模組接收一則產品介紹文字中的字串資料；由字串資料過濾模組過濾該字串資料；由字串資料拆斷模組根據一語言斷詞程式拆斷該字串資料過濾模組所過濾之字串資料，且拆斷後產生至少一關鍵詞；由字串資料分析模組分析該關鍵詞，且分析後產生該關鍵詞的同義詞或近義詞；以及由字串資料分類模組將產生該關鍵詞的同義詞或近義詞與一資料庫儲存之關鍵字進行比對後，以進行產品分類。
如申請專利範圍第7項所述之產品分類方法，其中，該字串資料過濾模組係使用正規表示式(regular expression)過濾該字串資料。
如申請專利範圍第7項所述之產品分類方法，其中，該字串資料拆斷模組係使用斷詞程式拆斷該字串資料，其中斷詞程式係為結巴(Jieba)、R結巴(Rjieba)、CKIP中文斷詞系統、百度的平行分散式深度學習平臺(PaddlePaddle)、自然語言處理工具(gensim)之一或其組合。
如申請專利範圍第7項所述之產品分類方法，其中該字串資料分析模組的分析方法為羅基奧(Rocchio)分類演算法、樸素貝葉斯(Naïve Bayes Classifier)分類演算法、支持向量機的分類演算法、k-最近鄰法的分類演算法、神經網絡的分類演算法、決策樹演算法或其組合。
如申請專利範圍第7項所述之產品分類方法，其中，該產品分類係對應谷歌(***)公司的產品分類項目、臉書(facebook)商品目錄的商品類別項目、經濟部智慧財產局之商品及服務分類目錄、國際商品統一分類代碼(HS Code)或經濟部工業產品分類項目之一或其組合。