TW201405341A - 基於產品識別的資訊分類方法及資訊分類系統 - Google Patents
基於產品識別的資訊分類方法及資訊分類系統 Download PDFInfo
- Publication number
- TW201405341A TW201405341A TW101142222A TW101142222A TW201405341A TW 201405341 A TW201405341 A TW 201405341A TW 101142222 A TW101142222 A TW 101142222A TW 101142222 A TW101142222 A TW 101142222A TW 201405341 A TW201405341 A TW 201405341A
- Authority
- TW
- Taiwan
- Prior art keywords
- product
- file
- word
- feature
- field
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
Landscapes
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申請公開了一種產品識別方法以及產品識別系統,該方法包括:當接收到產品識別請求時,確定待識別的產品檔案資訊的候選產品詞;分別根據所確定的候選產品詞對該待識別產品檔案資訊進行特徵抽取;根據該候選產品詞及其對應的特徵、該學習子模型以及該綜合學習模型確定該待識別產品檔案資訊對應的產品詞,並根據所確定的產品詞對該待識別的產品檔案資訊進行分類。透過本申請,實現了對產品檔案資訊的自動分類,提高了資訊分類的效率。
Description
本申請係關於通信領域,特別係關於一種基於產品識別的資訊分類方法及資訊分類系統。
電子商務網站中,賣家發佈的產品檔案資訊往往包含各種資訊,如產品名稱、產品屬性、賣家資訊以及廣告詞等,系統很難自動識別賣家發佈的是什麼產品,進而無法準確地對相應產品檔案資訊進行自動分類。
現有產品識別技術中,系統通常將賣家發佈的產品檔案資訊中包含的標題作為一個普通句子,並將該句子中最核心的一個單詞(即中心詞)提取出來,作為標題的核心,以及整個產品資訊的核心,並根據該中心詞對相應產品檔案資訊進行識別。
在實現本申請的過程中,發明人發現現有技術至少存在如下問題:現有技術中,僅僅根據產品檔案資訊中的標題資訊對產品檔案資訊進行識別,而標題通常只包含十幾個單詞,資訊量有限,且標題的描述方法多種多樣,導致利用標題的中心詞進行產品識別的可靠性較低。此外,由於標題的中心詞往往只有一個單詞,因此,僅僅利用中心詞往往很難準確地識別產品。如標題中包含“table tennis bat”(乒乓球拍),其中“table”是桌子、“tennis”是網
球,而“bat”則是一個意義比較廣泛的詞,顯然,無論用哪一個單詞作為中心詞都無法準確地表達該產品,因此,無法準確地對相應產品檔案資訊進行自動分類。
本申請的目的在於提供一種基於產品識別的資訊分類方法及資訊分類系統,以實現對產品檔案資訊的自動分類,提高資訊分類的效率,為此,本申請採用如下技術方案:一種基於產品識別的資訊分類方法,產品識別系統中儲存有用於產品識別的學習子模型以及由該學習子模型組成的綜合學習模型,該方法包括以下步驟:當接收到產品識別請求時,確定待識別的產品檔案資訊的候選產品詞;分別根據所確定的候選產品詞對該待識別產品檔案資訊進行特徵抽取;根據該候選產品詞及其對應的特徵、該學習子模型以及該綜合學習模型確定該待識別產品檔案資訊對應的產品詞,並根據所確定的產品詞對該待識別的產品檔案資訊進行分類。
一種資訊分類系統,包括:儲存模組,用於儲存有用於產品識別的學習子模型以及由該學習子模型組成的綜合學習模型;第一確定模組,用於當該產品識別系統接收到產品識
別請求時,確定待識別的產品檔案資訊的候選產品詞;特徵抽取模組,用於分別根據所確定的候選產品詞對該待識別產品檔案資訊進行特徵抽取;第二確定模組,用於根據該候選產品詞及其對應的特徵、該學習子模型以及該綜合學習模型確定該待識別產品檔案資訊對應的產品詞;分類模組,用於根據該第二確定模組確定的產品詞對該待識別的產品檔案資訊進行分類。
本申請的實施例包括以下優點,當接收到產品識別請求時,確定待識別的產品檔案資訊的候選產品詞;分別根據所確定的候選產品詞對該待識別產品檔案資訊進行特徵抽取;根據該候選產品詞及其對應的特徵、該學習子模型以及該綜合學習模型確定該待識別產品檔案資訊對應的產品詞,並根據所確定的產品詞對該待識別的產品檔案資訊進行分類,實現了對產品檔案資訊的自動分類,提高了資訊分類的效率。
針對上述現有技術中出現的問題,本申請實施例提供了一種基於產品識別的資訊分類的技術方案。在該技術方案中,其主要流程可以分為三個階段,即學習階段、產品識別階段以及資訊分類階段。其中,學習階段主要為了為後續產品識別階段提供學習模型,其具體流程可以包括:獲取用於學習的產品檔案資訊,並對該產品檔案資訊進行
產品詞抽取;根據產品詞抽取結果對該產品檔案資訊進行特徵抽取;根據該特徵和產品檔案資訊確定學習子模型,並根據該學習子模組確定學習模型。產品識別階段則主要是根據學習階段確定的學習模型對待識別的產品檔案資訊進行識別,其主要流程可以包括:接收到產品識別請求時,根據該學習模型及該產品識別請求中攜帶的待識別的產品檔案資訊確定該待識別的產品檔案資訊對應的產品詞。資訊分類階段則主要是根據所確定的產品詞對待識別產品檔案資訊進行分類,其主要流程可以包括:根據預設的分類關鍵字對所確定的產品詞進行匹配,並根據匹配結果確定待識別的產品檔案資訊的類別。
下面將結合本申請中的附圖,對本申請中的技術方案進行清楚、完整的描述,顯然,所描述的實施例是本申請的一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。
如圖1所示,為本申請實施例提供的一種基於產品識別的資訊分類方法的流程示意圖,可以包括以下步驟:步驟101、獲取用於學習的產品檔案資訊,並對該產品檔案資訊進行產品詞抽取。
具體的,在本申請實施例中,可以從系統的輸入資料中抽取部分產品檔案資訊作為學習樣本(即用於學習的產品檔案資訊),並利用預設的規則對這些產品檔案資訊進
行產品詞抽取。
其中,利用預設的規則對產品檔案資訊進行產品詞抽取可以具體透過以下方式實現:根據產品檔案資訊獲取產品檔案的標題欄位以及下述欄位中的一個或多個欄位:產品檔案關聯的賣家檔案中的供應產品欄位、產品檔案的屬性欄位或產品檔案的關鍵字欄位。
獲取到上述欄位後,可以對各欄位進行處理,並確定各欄位中包含的片語,並將滿足預設條件的片語確定為該產品檔案資訊的產品詞。
其中,該預設條件至少可以包括:該片語在產品檔案的標題欄位中出現,且至少在其餘一個欄位中出現;或,該片語在產品檔案的標題欄位中出現,且在所有欄位中出現的次數不低於閾值;該閾值可以預先設定,如4次。
較佳地,可以選擇滿足預設條件的最長片語作為對應產品檔案資訊的產品詞,以提高所確定的產品詞的準確性。
例如,“MP3 Player”、“MP3”、“Player”均滿足預設條件,顯然將“MP3 Player”作為產品詞的準確性更高。
步驟102、根據產品詞抽取結果對該產品檔案資訊進行特徵抽取。
具體的,在本申請實施例中,在對產品檔案資訊進行了產品詞抽取後,還可以根據產品檔案資訊獲取產品檔案的標題欄位、產品檔案關聯的賣家檔案中的供應產品欄位、產品檔案的屬性欄位以及產品檔案的關鍵字欄位。
一方面,分別獲取各欄位中包含的片語,確定各片語的hash值,並將標題欄位中片語的hash值作為相應產品檔案的標題特徵(subject_candidate_feature),將供應產品欄位中片語的hash值作為相應產品檔案的供應產品特徵(provide_products_feature),將屬性欄位中片語的hash值作為相應產品檔案的屬性特徵(attr_desc_feature),將關鍵字欄位中片語的hash值作為相應產品檔案的關鍵字特徵(keywords_feature)。
另一方面,根據產品詞抽取成功的產品檔案資訊以及對應的產品詞確定相應產品檔案的正標籤特徵(positive_label_feature)和負標籤特徵(negative_label_feature)。
其具體實現可以如下:
1、provide_products_feature
把產品檔案關聯的賣家檔案中的供應產品欄位預處理(分割,換為小寫,提取詞幹),對每個片語計算一個hash值作為特徵。
2、keywords_feature
把產品檔案的關鍵字欄位預處理(分割,換為小寫,提取詞幹),對每個片語計算一個hash值作為特徵。
3、attr_desc_feature
把產品檔案的屬性欄位預處理(分割,換為小寫,提取詞幹),對每個片語計算一個hash值作為特徵。
4、subject_candidate_feature
把產品檔案的標題欄位預處理後(分割,提取chunk的所有子串,換為小寫,提取詞幹),對每個片語計算一個hash ID作為候選詞特徵。其中,可以透過對標題欄位進行詞性識別,將被連接詞、介詞或標點符號分割開的短語稱為chunk。
5、positive_label_feature
對於成功抽取產品詞的產品檔案資訊進行以下特徵提取:
1)類型特徵,可以至少包括以下一種或幾種:產品詞是否全大寫(單詞全大寫一般是縮寫特指);其中,若產品詞是全大寫,則對應的特徵值可以為1;否則,對應的特徵值為0,下同;產品詞是否包含數位;產品詞是否包含標點符號(標點符號在候選產品詞產生中作為分割符,但某些特殊的標點符號可能不會被認為分割符,這和切詞工具有關);產品詞的詞性是否都相同;產品詞的詞性(多數詞的詞性);其中,可以設置動詞對應的特徵值為10,名詞對應的特徵值為11,形容詞對應的特徵詞為12等,下同。
2)全局特徵,可以至少包括以下一種或幾種:
產品詞是否有某個單詞在標題中出現多次;
3)Chunk內部的上下文特徵;可以至少包括以下一種或幾種:產品詞是否在chunk的最前;產品詞是否在chunk的最後;產品詞前面單詞的詞性;產品詞前面單詞是否全大寫;產品詞前面單詞是否包含數位;產品詞後面單詞的詞性;產品詞後面單詞是否全大寫;產品詞後面單詞是否包含數位。
4)Chunk外部的上下文特徵,可以至少包括以下一種或幾種:產品詞所在chunk是否在標題的最後;產品詞所在chunk是否在標題的最前;產品詞所在chunk的前分割符的詞性;產品詞所在chunk的後分割符的詞性。
6、negative_label_feature
對於成功抽取產品詞的產品檔案資訊進行這一類特徵提取,選擇預設數量(兩個)的不同於正樣本產品詞的片語作為負樣本,然後抽取特徵,做法和positive_label_feature的特徵抽取方法相同,在此不再贅述。其中,對於產品檔案資訊,在步驟101中抽取的產品詞預設為正樣本產品詞,而標題中與正樣本產品詞不相同的片語即可以作為負樣
本。以標題為“4GB MP3 Player”為例,正樣本產品詞(即產品詞)為“MP3 Player”,則負樣本可以為“MP3”、“Player”或“4GB”等。
步驟103、根據所抽取的特徵和產品檔案資訊確定學習子模型,並根據該學習子模組確定綜合學習模型。
其中,在本申請實施例中,學習子模型可以包括但不限於先驗機率模型P(Y)、關鍵字條件機率模型P(K|Y)、屬性條件機率模型P(A|Y)、類目條件機率模型P(Ca|Y)、公司條件機率模型P(Co|Y)以及標題條件機率模型P(T|Y)。下面分別對各自學習模型的確定進行說明:在完成特徵抽取操作之後,可以將產品詞抽取成功的產品檔案資訊切分為兩部分,一部分作為用於標題條件機率模型P(T|Y)的學習樣本(即可以根據該部分產品檔案資訊確定P(T|Y)),另一部分作為子學習模型及綜合學習模型的測試樣本(用於測試各子學習模型和綜合學習模型的準確性)。其中,兩部分產品檔案資訊的數量通常不會相差太大。
1)先驗機率模型P(Y)
可以根據步驟102中得到的特徵provide_products_feature統計各片語對應的特徵的頻率(即出現次數),並對頻率超過閾值的特徵的頻率取對數,進而進行歸一化處理得到先驗機率模型P(Y)。其中,對頻率取對數時底數並不進行限定,即可以取以2為底、以10為底或自然對數
等。
2)關鍵字條件機率模型P(K|Y)
可以利用步驟102中得到的特徵subject_candidate_feature和keyword_feature構成二分圖的兩個頂點集,如果某個關鍵字欄位中的片語和某個標題欄位中的片語在同一個產品檔案中出現,則在這兩個頂點間建立一條邊,邊的權值為該兩個頂點在同一個產品檔案中出現的次數。遍曆所有產品詞抽取成功的產品檔案資訊,得到帶權值的二分圖,並在該帶權值的二分圖上進行random walk(隨機遊走)確定關鍵字條件機率模型P(K|Y)。
3)屬性條件機率模型P(A|Y)
可以利用步驟102中得到的特徵subject_candidate_feature和attr_desc_feature構成二分圖的兩個頂點集,如果某個屬性欄位中的片語和某個標題欄位中的片語在同一個產品檔案中出現,則在這兩個頂點間建立一條邊,邊的權值為該兩個頂點在同一個產品檔案中出現的次數。遍曆所有產品詞抽取成功的產品檔案資訊,得到帶權值的二分圖,並透過在該帶權值的二分圖上進行random walk確定屬性條件機率模型P(A|Y)。
4)類目條件機率模型P(Ca|Y)
可以將步驟102中得到的特徵subject_candidate_feature作為候選產品詞,並透過統計候選產品詞的類目分佈確定類目條件機率模型P(Ca|Y)。
5)公司條件機率模型P(Co|Y)
可以將步驟102中得到的特徵subject_candidate_feature作為候選產品詞,並透過統計候選產品詞的公司分佈確定公司條件機率模型P(Co|Y)。
6)標題條件機率模型P(T|Y)
標題模型表示從標題判斷,抽取的片語是產品詞的可能性,可建模為二分類問題,模型可選擇常見二分類模型,特徵資料為步驟102抽取的positive_label_feature和negative_label_feature。
確定上述子學習模型後,可以根據上述各子學習模型確定對應的綜合學習模型P(Y|O),其具體實現可以透過以下公式實現:P(Y|O)=P(T|Y)P(K|Y)P(A|Y)P(S|Y)P(Ca|Y)P(Co|Y)P(Y)
得到上述綜合學習模型後,可以利用上述確定的測試樣本對各模型進行測試,利用綜合學習模型對測試樣本中的產品檔案資訊進行識別,並統計準確率,從而可以根據該統計結果對各模型進行調試和改進。
步驟104、當接收到產品識別請求時,根據綜合學習模型及產品識別請求中攜帶的待識別產品檔案資訊確定該待識別產品檔案資訊對應的產品詞。
具體的,在本申請實施例中,當接收到產品識別請求後,可以根據該產品識別請求中攜帶的待識別產品檔案資訊確定候選產品詞,並根據該待識別產品檔案資訊、候選產品詞以及綜合學習模型確定該候選產品詞的機率,並將機率最大的候選產品詞確定為該待識別產品檔案資訊對應
的產品詞。其具體實現流程可以如下:
1、確定候選產品詞
具體的,可以對待識別產品檔案資訊中包含的標題做詞性識別,將待識別的產品檔案資訊的標題中被連接詞或介詞或標點符號隔開的字串中所包含的片語作為候選產品詞。
2、抽取特徵
其具體實現流程與學習階段的特徵抽取流程相同,在此不再贅述。
3、產品識別
對於待識別產品檔案資訊,經過步驟1和2,獲得候選產品詞和各種特徵,將其輸入機率模型,分別確定各候選產品詞作為產品詞的機率,並將機率最大的候選產品詞作為該產品檔案資訊對應的產品詞。較佳地,還可以記錄該候選產品詞作為該產品檔案資訊對應的產品詞的機率。
步驟105、根據所確定的產品詞對待識別的產品檔案資訊進行分類。
具體的,在本申請實施例中,可以預先設定用於對產品檔案資訊進行分類的分類關鍵字,當確定了待識別的產品檔案資訊的產品詞後,根據預設的分類關鍵字對所確定的產品詞進行匹配,並根據匹配結果確定待識別的產品檔案資訊的類別。
基於上述方法實施例相同的技術構思,本申請實施例還提供了一種產品識別系統,可以應用於上述方法實施
例。
如圖2所示,為本申請實施例提供的一種資訊分類系統的結構示意圖,可以包括:儲存模組21,用於儲存有用於產品識別的學習子模型以及由該學習子模型組成的綜合學習模型;第一確定模組22,用於當該產品識別系統接收到產品識別請求時,確定待識別的產品檔案資訊的候選產品詞;特徵抽取模組23,用於分別根據所確定的候選產品詞對該待識別產品檔案資訊進行特徵抽取;第二確定模組24,用於根據該候選產品詞及其對應的特徵、該學習子模型以及該綜合學習模型確定該待識別產品檔案資訊對應的產品詞;分類模組25,用於根據該第二確定模組24確定的產品詞對該待識別的產品檔案資訊進行分類。
其中,該第一確定模組22可以具體用於,對待識別的產品檔案資訊的標題做詞性識別,將該待識別的產品檔案資訊的標題中被連接詞或介詞或標點符號隔開的字串中所包含的片語作為候選產品詞。
其中,該特徵抽取模組23可以具體用於,根據該待識別的產品檔案資訊獲取產品檔案的標題欄位、待識別的產品檔案關聯的賣家檔案中的供應產品欄位、待識別的產品檔案的屬性欄位以及待識別的產品檔案的關鍵字欄位;分別獲取各欄位中包含的片語,確定各片語的hash
值,並將標題欄位中片語的hash值作為相應產品檔案的標題特徵,將供應產品欄位中片語的hash值作為相應產品檔案的供應產品特徵,將屬性欄位中片語的hash值作為相應產品檔案的屬性特徵,將關鍵字欄位中片語的hash值作為相應產品檔案的關鍵字特徵;分別根據各候選產品詞確定該待識別的產品檔案資訊的正標籤特徵和負標籤特徵。
其中,該第二確定模組24可以具體用於,根據該候選產品詞以及對應的特徵、該學習子模型以及該綜合學習模型確定各候選產品詞作為產品詞的機率;將該機率最大的候選產品詞確定為該待識別的產品檔案資訊對應的產品詞。
其中,該分類模組25具體用於,根據預設的分類關鍵字對所確定的關鍵字進行匹配,並根據匹配結果確定該待識別的產品檔案資訊的類別。
其中,本申請實施例提供的產品識別系統還可以包括:生成模組26,用於生成用於產品識別的學習子模型以及由該學習子模型組成的綜合學習模型;該生成模組26可以具體用於,獲取用於學習的產品檔案資訊,並對該產品檔案資訊進行產品詞抽取;根據產品詞抽取結果對該產品檔案資訊進行特徵抽取;根據該特徵和產品檔案資訊確定學習子模型,並根據該學習子模型確定綜合學習模型。
其中,該生成模組26可以具體用於透過以下方式對該產品檔案資訊進行產品詞抽取:根據該產品檔案資訊獲取產品檔案的標題欄位、以及下述欄位中的一個或多個欄位:產品檔案關聯的賣家檔案中的供應產品欄位、產品檔案的屬性欄位、或產品檔案的關鍵字欄位;將滿足預設條件的片語確定為該產品檔案資訊對應的產品詞;其中,該預設條件包括:該片語在該產品檔案的標題欄位中出現,且至少在其餘一個欄位中出現;或,該片語在該產品檔案的標題欄位中出現,且在所有欄位中出現的次數不低於閾值。
其中,該生成模組26可以具體用於透過以下方式實現根據產品詞抽取結果對該產品檔案資訊進行特徵抽取:根據該產品檔案資訊獲取產品檔案的標題欄位、產品檔案關聯的賣家檔案中的供應產品欄位、產品檔案的屬性欄位以及產品檔案的關鍵字欄位;分別獲取各欄位中包含的片語,確定各片語的hash值,並將標題欄位中片語的hash值作為相應產品檔案的標題特徵,將供應產品欄位中片語的hash值作為相應產品檔案的供應產品特徵,將屬性欄位中片語的hash值作為相應產品檔案的屬性特徵,將關鍵字欄位中片語的hash值作為相應產品檔案的關鍵字特徵;
根據產品詞抽取成功的產品檔案資訊以及對應的產品詞確定相應產品檔案的正標籤特徵和負標籤特徵。
本領域技術人員可以理解實施例中的裝置中的模組可以按照實施例描述進行分佈於實施例的裝置中,也可以進行相應變化位於不同於本實施例的一個或多個裝置中。上述實施例的模組可以合併為一個模組,也可以進一步拆分成多個子模組。
透過以上的實施方式的描述,本領域的技術人員可以清楚地瞭解到本申請可借助軟體加必需的通用硬體平臺的方式來實現,當然也可以透過硬體,但很多情況下前者是更佳的實施方式。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存媒體中,包括若干指令用以使得一台終端設備(可以是手機,個人電腦,伺服器,或者網路設備等)執行本申請各個實施例所述的方法。
以上所述僅是本申請的較佳實施方式,應當指出,對於本技術領域的普通技術人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視本申請的保護範圍。
21‧‧‧儲存模組
22‧‧‧第一確定模組
23‧‧‧特徵抽取模組
24‧‧‧第二確定模組
25‧‧‧分類模組
26‧‧‧生成模組
圖1為本申請實施例提供的一種基於產品識別的資訊分類方法的流程示意圖;
圖2為本申請實施例提供的一種資訊分類系統的結構示意圖。
Claims (15)
- 一種基於產品識別的資訊分類方法,其特徵在於,資訊分類系統中儲存有用於產品識別的學習子模型以及由該學習子模型組成的綜合學習模型,該方法包括以下步驟:當接收到產品識別請求時,確定待識別的產品檔案資訊的候選產品詞;分別根據所確定的候選產品詞對該待識別產品檔案資訊進行特徵抽取;及根據該候選產品詞及其對應的特徵、該學習子模型以及該綜合學習模型確定該待識別產品檔案資訊對應的產品詞,並根據所確定的產品詞對該待識別的產品檔案資訊進行分類。
- 如申請專利範圍第1項所述的方法,其中,確定待識別的產品檔案資訊的候選產品詞,具體為:對待識別的產品檔案資訊的標題做詞性識別,將該待識別的產品檔案資訊的標題中被連接詞或介詞或標點符號隔開的字串中所包含的片語作為候選產品詞。
- 如申請專利範圍第1項所述的方法,其中,分別根據所確定的候選產品詞對該待識別產品檔案資訊進行特徵抽取,具體為:根據該待識別的產品檔案資訊獲取產品檔案的標題欄位、待識別的產品檔案關聯的賣家檔案中的供應產品欄位、待識別的產品檔案的屬性欄位以及待識別的產品檔案 的關鍵字欄位;分別獲取各欄位中包含的片語,確定各片語的hash值,並將標題欄位中片語的hash值作為相應產品檔案的標題特徵,將供應產品欄位中片語的hash值作為相應產品檔案的供應產品特徵,將屬性欄位中片語的hash值作為相應產品檔案的屬性特徵,將關鍵字欄位中片語的hash值作為相應產品檔案的關鍵字特徵;分別根據各候選產品詞確定該待識別的產品檔案資訊的正標籤特徵和負標籤特徵。
- 如申請專利範圍第1項所述的方法,其中,根據候選產品詞及其對應的特徵、該學習子模型以及該綜合學習模型確定該待識別產品檔案資訊對應的產品詞,具體為:根據該候選產品詞以及對應的特徵、該學習子模型以及該綜合學習模型確定各候選產品詞作為產品詞的機率;將該機率最大的候選產品詞確定為該待識別的產品檔案資訊對應的產品詞。
- 如申請專利範圍第1項所述的方法,其中,根據所確定的產品詞對該待識別的產品檔案資訊進行分類,具體為:根據預設的分類關鍵字對所確定的產品詞進行匹配,並根據匹配結果確定該待識別的產品檔案資訊的類別。
- 如申請專利範圍第1項所述的方法,其中,還包括:生成用於產品識別的學習子模型以及由該學習子模型 組成的綜合學習模型;該生成用於產品識別的學習子模型以及由該學習子模型組成的綜合學習模型,具體為:獲取用於學習的產品檔案資訊,並對該產品檔案資訊進行產品詞抽取;根據產品詞抽取結果對該產品檔案資訊進行特徵抽取;根據該特徵和產品檔案資訊確定學習子模型,並根據該學習子模型確定綜合學習模型。
- 如申請專利範圍第6項所述的方法,其中,對該產品檔案資訊進行產品詞抽取,具體為:根據該產品檔案資訊獲取產品檔案的標題欄位、以及下述欄位中的一個或多個欄位:產品檔案關聯的賣家檔案中的供應產品欄位、產品檔案的屬性欄位、或產品檔案的關鍵字欄位;將滿足預設條件的片語確定為該產品檔案資訊對應的產品詞;其中,該預設條件包括:該片語在該產品檔案的標題欄位中出現,且至少在其餘一個欄位中出現;或,該片語在該產品檔案的標題欄位中出現,且在所有欄位中出現的次數不低於閾值。
- 如申請專利範圍第6項所述的方法,其中,根據產品詞抽取結果對該產品檔案資訊進行特徵抽取,具體為: 根據該產品檔案資訊獲取產品檔案的標題欄位、產品檔案關聯的賣家檔案中的供應產品欄位、產品檔案的屬性欄位以及產品檔案的關鍵字欄位;分別獲取各欄位中包含的片語,確定各片語的hash值,並將標題欄位中片語的hash值作為相應產品檔案的標題特徵,將供應產品欄位中片語的hash值作為相應產品檔案的供應產品特徵,將屬性欄位中片語的hash值作為相應產品檔案的屬性特徵,將關鍵字欄位中片語的hash值作為相應產品檔案的關鍵字特徵;根據產品詞抽取成功的產品檔案資訊以及對應的產品詞確定相應產品檔案的正標籤特徵和負標籤特徵。
- 一種資訊分類系統,其特徵在於,包括:儲存模組,用於儲存有用於產品識別的學習子模型以及由該學習子模型組成的綜合學習模型;第一確定模組,用於當該產品識別系統接收到產品識別請求時,確定待識別的產品檔案資訊的候選產品詞;特徵抽取模組,用於分別根據所確定的候選產品詞對該待識別產品檔案資訊進行特徵抽取;第二確定模組,用於根據該候選產品詞及其對應的特徵、該學習子模型以及該綜合學習模型確定該待識別產品檔案資訊對應的產品詞;及分類模組,用於根據該第二確定模組確定的產品詞對該待識別的產品檔案資訊進行分類。
- 如申請專利範圍第9項所述的資訊分類系統,其 中,該第一確定模組具體用於,對待識別的產品檔案資訊的標題做詞性識別,將該待識別的產品檔案資訊的標題中被連接詞或介詞或標點符號隔開的字串中所包含的片語作為候選產品詞。
- 如申請專利範圍第9項所述的資訊分類系統,其中,該特徵抽取模組具體用於,根據該待識別的產品檔案資訊獲取產品檔案的標題欄位、待識別的產品檔案關聯的賣家檔案中的供應產品欄位、待識別的產品檔案的屬性欄位以及待識別的產品檔案的關鍵字欄位;分別獲取各欄位中包含的片語,確定各片語的hash值,並將標題欄位中片語的hash值作為相應產品檔案的標題特徵,將供應產品欄位中片語的hash值作為相應產品檔案的供應產品特徵,將屬性欄位中片語的hash值作為相應產品檔案的屬性特徵,將關鍵字欄位中片語的hash值作為相應產品檔案的關鍵字特徵;分別根據各候選產品詞確定該待識別的產品檔案資訊的正標籤特徵和負標籤特徵。
- 如申請專利範圍第9項所述的資訊分類系統,其中,該第二確定模組具體用於,根據該候選產品詞以及對應的特徵、該學習子模型以及該綜合學習模型確定各候選產品詞作為產品詞的機率;將該機率最大的候選產品詞確 定為該待識別的產品檔案資訊對應的產品詞。
- 如申請專利範圍第9項所述的資訊分類系統,其中,還包括:生成模組,用於生成用於產品識別的學習子模型以及由該學習子模型組成的綜合學習模型;該生成模組具體用於,獲取用於學習的產品檔案資訊,並對該產品檔案資訊進行產品詞抽取;根據產品詞抽取結果對該產品檔案資訊進行特徵抽取;根據該特徵和產品檔案資訊確定學習子模型,並根據該學習子模型確定綜合學習模型。
- 如申請專利範圍第13項所述的資訊分類系統,其中,該生成模組具體用於透過以下方式對該產品檔案資訊進行產品詞抽取:根據該產品檔案資訊獲取產品檔案的標題欄位、以及下述欄位中的一個或多個欄位:產品檔案關聯的賣家檔案中的供應產品欄位、產品檔案的屬性欄位、或產品檔案的關鍵字欄位;將滿足預設條件的片語確定為該產品檔案資訊對應的產品詞;其中,該預設條件包括:該片語在該產品檔案的標題欄位中出現,且至少在其餘一個欄位中出現;或,該片語在該產品檔案的標題欄位中出現,且在所有欄位中出現的次數不低於閾值。
- 如申請專利範圍第13項所述的資訊分類系統,其中,該生成模組具體用於透過以下方式實現根據產品詞抽取結果對該產品檔案資訊進行特徵抽取:根據該產品檔案資訊獲取產品檔案的標題欄位、產品檔案關聯的賣家檔案中的供應產品欄位、產品檔案的屬性欄位以及產品檔案的關鍵字欄位;分別獲取各欄位中包含的片語,確定各片語的hash值,並將標題欄位中片語的hash值作為相應產品檔案的標題特徵,將供應產品欄位中片語的hash值作為相應產品檔案的供應產品特徵,將屬性欄位中片語的hash值作為相應產品檔案的屬性特徵,將關鍵字欄位中片語的hash值作為相應產品檔案的關鍵字特徵;根據產品詞抽取成功的產品檔案資訊以及對應的產品詞確定相應產品檔案的正標籤特徵和負標籤特徵。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210266047.3A CN103577989B (zh) | 2012-07-30 | 2012-07-30 | 一种基于产品识别的信息分类方法及信息分类*** |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201405341A true TW201405341A (zh) | 2014-02-01 |
TWI554896B TWI554896B (zh) | 2016-10-21 |
Family
ID=48980277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101142222A TWI554896B (zh) | 2012-07-30 | 2012-11-13 | Information Classification Method and Information Classification System Based on Product Identification |
Country Status (6)
Country | Link |
---|---|
US (1) | US20140032207A1 (zh) |
JP (1) | JP6335898B2 (zh) |
KR (1) | KR20150037924A (zh) |
CN (1) | CN103577989B (zh) |
TW (1) | TWI554896B (zh) |
WO (1) | WO2014022172A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI621084B (zh) * | 2016-12-01 | 2018-04-11 | 財團法人資訊工業策進會 | 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102469758B1 (ko) | 2015-09-02 | 2022-11-22 | 삼성전자주식회사 | 서버 장치, 사용자 단말 장치, 그 제어 방법 및 전자 시스템 |
CN106557505B (zh) * | 2015-09-28 | 2021-04-27 | 北京国双科技有限公司 | 一种信息分类方法及装置 |
CN105354597B (zh) * | 2015-11-10 | 2019-03-19 | 网易(杭州)网络有限公司 | 一种游戏物品的分类方法及装置 |
US11580589B2 (en) * | 2016-10-11 | 2023-02-14 | Ebay Inc. | System, method, and medium to select a product title |
CN107133287B (zh) * | 2017-04-19 | 2021-02-02 | 上海筑网信息科技有限公司 | 建筑安装行业工程清单归类解析方法及*** |
JP7162417B2 (ja) * | 2017-07-14 | 2022-10-28 | ヤフー株式会社 | 推定装置、推定方法、及び推定プログラム |
CN107977794B (zh) * | 2017-12-14 | 2021-09-17 | 方物语(深圳)科技文化有限公司 | 工业产品的数据处理方法、装置、计算机设备及存储介质 |
JP7100797B2 (ja) * | 2017-12-28 | 2022-07-14 | コニカミノルタ株式会社 | 文書スコアリング装置、プログラム |
CN110968887B (zh) * | 2018-09-28 | 2022-04-05 | 第四范式(北京)技术有限公司 | 在数据隐私保护下执行机器学习的方法和*** |
US10956487B2 (en) | 2018-12-26 | 2021-03-23 | Industrial Technology Research Institute | Method for establishing and processing cross-language information and cross-language information system |
CN112182448A (zh) * | 2019-07-05 | 2021-01-05 | 百度在线网络技术(北京)有限公司 | 页面信息处理方法、装置及设备 |
CN113220980A (zh) * | 2020-02-06 | 2021-08-06 | 北京沃东天骏信息技术有限公司 | 物品属性词识别方法、装置、设备及存储介质 |
US20210304121A1 (en) * | 2020-03-30 | 2021-09-30 | Coupang, Corp. | Computerized systems and methods for product integration and deduplication using artificial intelligence |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7082426B2 (en) * | 1993-06-18 | 2006-07-25 | Cnet Networks, Inc. | Content aggregation method and apparatus for an on-line product catalog |
US5983170A (en) * | 1996-06-25 | 1999-11-09 | Continuum Software, Inc | System and method for generating semantic analysis of textual information |
US7536323B2 (en) * | 2003-03-26 | 2009-05-19 | Victor Hsieh | Online intelligent multilingual comparison-shop agents for wireless networks |
WO2004107237A1 (en) * | 2003-05-29 | 2004-12-09 | Rtm Technologies | Raffle-based collaborative product selling and buying system |
US7505969B2 (en) * | 2003-08-05 | 2009-03-17 | Cbs Interactive, Inc. | Product placement engine and method |
US7587309B1 (en) * | 2003-12-01 | 2009-09-08 | Google, Inc. | System and method for providing text summarization for use in web-based content |
US7870039B1 (en) * | 2004-02-27 | 2011-01-11 | Yahoo! Inc. | Automatic product categorization |
US20070005649A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Contextual title extraction |
JP4368336B2 (ja) * | 2005-07-13 | 2009-11-18 | 富士通株式会社 | カテゴリ設定支援方法及び装置 |
US7987182B2 (en) * | 2005-08-19 | 2011-07-26 | Fourthwall Media, Inc. | System and method for recommending items of interest to a user |
US7885859B2 (en) * | 2006-03-10 | 2011-02-08 | Yahoo! Inc. | Assigning into one set of categories information that has been assigned to other sets of categories |
US8326890B2 (en) * | 2006-04-28 | 2012-12-04 | Choicebot, Inc. | System and method for assisting computer users to search for and evaluate products and services, typically in a database |
US7996440B2 (en) * | 2006-06-05 | 2011-08-09 | Accenture Global Services Limited | Extraction of attributes and values from natural language documents |
US7979459B2 (en) * | 2007-06-15 | 2011-07-12 | Microsoft Corporation | Scalable model-based product matching |
JP2009026195A (ja) * | 2007-07-23 | 2009-02-05 | Yokohama National Univ | 商品分類装置、商品分類方法及びプログラム |
US8346534B2 (en) * | 2008-11-06 | 2013-01-01 | University of North Texas System | Method, system and apparatus for automatic keyword extraction |
US8386519B2 (en) * | 2008-12-30 | 2013-02-26 | Expanse Networks, Inc. | Pangenetic web item recommendation system |
CN101576910A (zh) * | 2009-05-31 | 2009-11-11 | 北京学之途网络科技有限公司 | 一种自动识别产品命名实体的方法及装置 |
CN102081865A (zh) * | 2009-11-27 | 2011-06-01 | 英业达股份有限公司 | 应用行动装置进行互动学习及监控的***及其方法 |
US8775160B1 (en) * | 2009-12-17 | 2014-07-08 | Shopzilla, Inc. | Usage based query response |
TWI483129B (zh) * | 2010-03-09 | 2015-05-01 | Alibaba Group Holding Ltd | Retrieval method and device |
CN102193936B (zh) * | 2010-03-09 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 一种数据分类的方法及装置 |
WO2011146527A2 (en) * | 2010-05-17 | 2011-11-24 | Zirus, Inc. | Mammalian genes involved in infection |
US8417651B2 (en) * | 2010-05-20 | 2013-04-09 | Microsoft Corporation | Matching offers to known products |
US20110302167A1 (en) * | 2010-06-03 | 2011-12-08 | Retrevo Inc. | Systems, Methods and Computer Program Products for Processing Accessory Information |
TWI518613B (zh) * | 2010-08-13 | 2016-01-21 | Alibaba Group Holding Ltd | How to publish product information and website server |
US8898169B2 (en) * | 2010-11-10 | 2014-11-25 | Google Inc. | Automated product attribute selection |
US20120123863A1 (en) * | 2010-11-13 | 2012-05-17 | Rohit Kaul | Keyword publication for use in online advertising |
CN102033950A (zh) * | 2010-12-23 | 2011-04-27 | 哈尔滨工业大学 | 电子产品命名实体自动识别***的构建方法及识别方法 |
US8650136B2 (en) * | 2011-02-24 | 2014-02-11 | Ketera Technologies, Inc. | Text classification with confidence grading |
CN102332025B (zh) * | 2011-09-29 | 2014-08-27 | 奇智软件(北京)有限公司 | 一种智能垂直搜索方法和*** |
-
2012
- 2012-07-30 CN CN201210266047.3A patent/CN103577989B/zh active Active
- 2012-11-13 TW TW101142222A patent/TWI554896B/zh not_active IP Right Cessation
-
2013
- 2013-07-24 JP JP2015525462A patent/JP6335898B2/ja not_active Expired - Fee Related
- 2013-07-24 US US13/949,970 patent/US20140032207A1/en not_active Abandoned
- 2013-07-24 KR KR20157002406A patent/KR20150037924A/ko not_active Application Discontinuation
- 2013-07-24 WO PCT/US2013/051865 patent/WO2014022172A2/en active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI621084B (zh) * | 2016-12-01 | 2018-04-11 | 財團法人資訊工業策進會 | 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體 |
Also Published As
Publication number | Publication date |
---|---|
KR20150037924A (ko) | 2015-04-08 |
JP6335898B2 (ja) | 2018-05-30 |
JP2015529901A (ja) | 2015-10-08 |
WO2014022172A3 (en) | 2014-06-26 |
CN103577989A (zh) | 2014-02-12 |
TWI554896B (zh) | 2016-10-21 |
WO2014022172A2 (en) | 2014-02-06 |
CN103577989B (zh) | 2017-11-14 |
US20140032207A1 (en) | 2014-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI554896B (zh) | Information Classification Method and Information Classification System Based on Product Identification | |
WO2021068339A1 (zh) | 文本分类方法、装置及计算机可读存储介质 | |
US11514242B2 (en) | Method for automatically summarizing internet web page and text information | |
WO2018050022A1 (zh) | 应用程序的推荐方法及服务器 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及*** | |
US8983826B2 (en) | Method and system for extracting shadow entities from emails | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
US20130304468A1 (en) | Contextual Voice Query Dilation | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN110674296B (zh) | 一种基于关键词的资讯摘要提取方法及*** | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN110175851A (zh) | 一种作弊行为检测方法及装置 | |
CN113590810A (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN116049412A (zh) | 文本分类方法、模型训练方法、装置及电子设备 | |
CN109214445A (zh) | 一种基于人工智能的多标签分类方法 | |
CN109753646B (zh) | 一种文章属性识别方法以及电子设备 | |
WO2015043071A1 (zh) | 一种译文检查方法及其*** | |
CN101223521B (zh) | 社群特有表现检测装置及方法 | |
CN116881432A (zh) | 文本推送方法、装置、电子设备和存储介质 | |
CN107590163B (zh) | 文本特征选择的方法、装置和*** | |
Li et al. | Confidence estimation and reputation analysis in aspect extraction | |
CN113591004A (zh) | 游戏标签生成方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |