TWI518613B - How to publish product information and website server - Google Patents

How to publish product information and website server Download PDF

Info

Publication number
TWI518613B
TWI518613B TW099127131A TW99127131A TWI518613B TW I518613 B TWI518613 B TW I518613B TW 099127131 A TW099127131 A TW 099127131A TW 99127131 A TW99127131 A TW 99127131A TW I518613 B TWI518613 B TW I518613B
Authority
TW
Taiwan
Prior art keywords
information
vocabulary
product information
product
feature attribute
Prior art date
Application number
TW099127131A
Other languages
English (en)
Other versions
TW201207758A (en
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to TW099127131A priority Critical patent/TWI518613B/zh
Publication of TW201207758A publication Critical patent/TW201207758A/zh
Application granted granted Critical
Publication of TWI518613B publication Critical patent/TWI518613B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

發佈商品資訊的方法及網站伺服器
本發明涉及電腦網站技術,特別涉及一種發佈商品資訊的方法及裝置。
在電子商務領域中,一個商品的描述內容(例如,商品標題)包含了該產品的重要資訊,例如,參閱圖1所示,某商品的標題為“&New arrived&Fashion wind coat,ladies' coat,fashion coat,women's wind coat(Wholesale price+Do dropship)”,這個商品標題記錄了商品的相關資訊,可以向用戶準確展現該商品為一件女士風衣。但是,該商品標題卻存在資訊冗餘,重複辭彙羅列堆砌的問題,如,“Fashion wind coat”、“fashion coat”、“ladies' coat”和“women's wind coat”這些辭彙重複出現,造成了商品資訊的冗餘,這樣,嚴重降低了商品資訊的簡潔性和準確性,並且在用戶搜索該商品時,也會由於商品資訊的冗餘,而造成搜索效率的下降,系統需要耗費大量的資源進行資訊比對和排查,從而降低了識別檢索效率,也增加了系統的運行負荷。
本發明提供一種發佈商品資訊的方法及裝置,用以提高商品資訊的準確性和簡潔性,從而降低系統後期檢索時 的運行負荷。
本發明提供的具體技術方案如下:一種發佈商品資訊的方法,包括:接收用戶輸入的商品資訊,並對所述商品資訊進行解析;根據解析結果獲得所述商品資訊的指定特徵屬性的取值,所述指定特徵屬性用於描述商品資訊所包含辭彙的羅列堆砌程度;根據各指定特徵屬性的取值,基於最大熵原理,計算所述商品資訊為羅列堆砌資訊的置信度;確定所述置信度達到設定閾值時,阻止發佈所述商品資訊。
一種網站伺服器,包括:通信單元,用於接收用戶輸入的商品資訊,解析單元,用於對所述商品資訊進行解析,並根據解析結果獲得所述商品資訊的指定特徵屬性的取值,所述指定特徵屬性用於描述商品資訊所包含辭彙的羅列堆砌程度;第一處理單元,用於根據各指定特徵屬性的取值,基於最大熵原理,計算所述商品資訊為羅列堆砌資訊的置信度;第二處理單元,用於在確定所述置信度達到設定閾值時,阻止發佈所述商品資訊。
綜上所述,本發明實施例中,網站伺服器在商品資訊 發佈之前,根據預設規則對其包含的辭彙的羅列堆砌程度進行評估,確定商品資訊羅列堆砌時,阻止商品資訊的發佈,或者,建議修改後再重新發佈。這樣,可以有效提高商品資訊的簡潔性和準確性,從而在後續檢索過程中大幅度降低系統運行負荷,保證了電子商務網站的正常運行,確保了網站的服務品質。
在電子商務領域中,為了提高所發佈的商品資訊的準確性和簡潔性,從而降低系統後續檢索時的運行負荷,本發明實施例中,電子商務網站的伺服器接收用戶輸入的商品資訊,並對所述商品資訊進行解析,再根據解析結果獲得所述商品資訊的指定特徵屬性的取值,所述指定特徵屬性用於描述商品資訊所包含辭彙的羅列堆砌程度,以及根據各指定特徵屬性的取值,基於最大熵原理,計算所述商品資訊為羅列堆砌資訊的置信度,並在確定所述置信度達到設定閾值時,阻止發佈所述商品資訊;本發明實施例中,羅列堆砌分為對相同商品的羅列和對不同商品的堆砌。相同商品的羅列指的是在商品標題中使用多種描述同一商品名稱的詞語或片語甚至多次出現同一關鍵字語,不同商品的堆砌是指在商品標題中堆砌了多種商品名稱,比如“mp3 player,mp4 player,ipod,walkman”。羅列堆砌程度,是指同一商品名稱重複羅列出現的程度,或者多種商品名稱堆砌的程度。
下面結合附圖對本發明較佳的實施方式進行詳細說明。
參閱圖2所示,本發明實施例中,用於管理電子商務網站的網站伺服器包括通信單元10、解析單元11、計算單元12和執行單元13,其中,通信單元10,用於接收用戶輸入的商品資訊;解析單元11,用於對所述商品資訊進行解析,並根據解析結果獲得所述商品資訊的指定特徵屬性的取值,所述指定特徵屬性用於描述商品資訊所包含辭彙的羅列堆砌程度;計算單元12,用於根據各指定特徵屬性的取值,基於最大熵原理,計算所述商品資訊為羅列堆砌資訊的置信度;所謂置信度即是指將所述的商品資訊判斷為羅列堆砌資訊的可靠程度;如圖2所示,上述計算單元12進一步包括第一計算子單元120和第二計算子單元121,其中,第一計算子單元120,用於將所述各指定特徵屬性的取值,作為基於最大熵原理的條件機率模型的給定資訊;第二計算子單元121,用於採用條件機率模型計算在所述給定資訊的情況下,所述商品資訊為羅列堆砌資訊的後驗機率,並將所述後驗機率作為商品資訊為羅列堆砌資訊的置信度。
執行單元13,用於在確定所述置信度達到設定閾值時,阻止發佈所述商品資訊。
如圖2所示,網站伺服器中還可以包括策略單元14,用於在執行單元13阻止發佈所述商品資訊後,根據所述解析結果確定造成所述商品資訊包含的辭彙羅列堆砌的關鍵字彙,並藉由通信單10向用戶返回所述關鍵字彙,提示用戶基於該關鍵字彙對商品資訊進行修改;以及在向用戶返回所述關鍵字彙時,向該用戶通知相應的修改策略。
基於上述原理,本發明實施例中,採用基於機器學習的羅列堆砌識別演算法,對用戶指示發佈的商品資訊進行檢測,在確定商品資訊包含的辭彙的羅列堆砌程式的置信度達到設定閾值時,阻止商品資訊的發佈。本實施例中,較佳地,採用基於最大熵原理的條件機率模型來計算上述置信度,其公式如下所示:
其中y□{title is mess,title is not mess},表示y有title is mess和title is not mess兩種取值,具體採用哪一取值,根據預設參量決定,如,y取值為title is mess時,表示計算出的p(y|x)為標題包含羅列堆砌資訊的後驗機率;x為商品資訊的指定特徵屬性,其具體含義將在後續實施例中進行詳細闡述。f j 為最大熵模型針對各指定特徵屬性的特徵值,λ j 是當前商品資訊的各指定特徵屬性對應的權重,可以根據經驗值預先設置;Z(x)是歸一化因數,也可以根據經驗值預先設置。
在實際中,還可以採用線性回歸等機器學習模型來建 立條件機率模型。在實際中,還可以採用支援向量機模型,雖然不是條件機率模型,但是計算的分值也可以用來作為置信度。
基於上述公式1,可以構建羅列堆砌分類器,輸入為商品資訊,輸出為分類結果,即商品資訊包含的辭彙是否羅列堆砌的置信度,假設,類1為:title is mess;類2為title is not mess,則上述分類器的結構示意圖如圖3所示。
本發明實施例中,在基於機器學習的羅列堆砌識別演算法時,針對商品資訊所獲取的指定特徵屬性分為詞法特徵屬性或/和句法特徵屬性。下面以商品資訊為商品標題為例,對這兩類特徵屬性分別作出介紹。
首先,根據商品標題的解析結果獲得其詞法特徵屬性,該詞法特徵屬性包括:
1、商品標題包含的逗號個數。
商品標題中包含逗號的個數,一定程度上反映了該商品標題所包含辭彙為羅列堆砌的可能性。通常情況下,商品標題中逗號個數越多,商品標題包含辭彙為羅列堆砌的可能性越大。
例如,在商品標題“#24 Baseball Jersey,Baseball Jerseys,Jerseys,Sports Jerseys,Sport Jersey,Jersey,24# Baseball Jersey”中,逗號個數為6。
2、商品標題的句長(如,辭彙個數+逗號個數)。
通常情況下,因為羅列堆砌的商品標題包含了比較多 的冗餘資訊,因此,商品標題的句長越長,商品標題所包含辭彙為羅列堆砌的可能性越大。
例如,在羅列堆砌標題“100% Original Asus P6T7 WS SuperComputer Motherboard,ASUS Motherboard,Computer Motherboard,Computer Mainboard,Motherboard”中,句長為18。
3、商品標題去除重複後包含的辭彙個數與商品標題中辭彙總數的比率
通常情況下,經過去根處理後的商品標題中,去重複後辭彙的個數占原商品標題中辭彙總數的比例越小,標題為羅列堆砌的可能性越大。其中,所謂去根處理,即是去除英文辭彙的尾碼,保留詞幹,若是中文標題,則根據省略去根處理這一操作步驟,下同,不再贅述。
例如,商品標題為“100% Original Asus P6T7 WS SuperComputer Motherboard,ASUS Motherboard,Computer Motherboard,Computer Mainboard,Motherboard”,經過去根處理後,對應的辭彙串為“100% Origin Asus P6T7 WS SuperComput Motherboard ASUS Motherboard Comput Motherboard Comput Mainboard Motherboard”(個數為14),去除重複辭彙後的句子為“100% Origin Asus P6T7 WS SuperComput Motherboard Comput Mainboard(個數為9),則該商品標題去除重複後辭彙個數與總辭彙個數的比率為9/14。
4、商品標題中出現頻率最高的辭彙的出現次數。
通常情況下,在商品標題中某一辭彙的出現頻率越高,商品標題針對該辭彙對應的商品進行羅列堆砌的可能性越大。
例如,在商品標題“09 branded handbag,designer handbag,new style handbag,fashion handbag,ladies' handbag,elegant handbag”中,經過辭彙去根後,出現頻率最高的辭彙為“handbag”,而出現次數為6。顯而易見,該商品標題是針對商品“handbag”進行羅列堆砌的。
5、按照預設規則將商品標題劃分為若干片段後每個片段中指定位置的辭彙組成的集合中,去除重複後辭彙個數與集合中辭彙總數的比率。
通常情況,上述預設規則包含但不限於:按照商品標題中的逗號所在位置將商品標題劃分為若干片段,或/和按照商品標題中出現頻率最高的辭彙所在位置將商品標題劃分為若干片段。上述兩種方式僅為舉例,不排除其他劃分方式的實施。
a)以逗號劃分為例,將商品標題按照其包含的逗號所在位置劃分為若干片段後,指定由每個片段的最後一個辭彙組成一個集合。如果在該集合中,去除重複後辭彙個數與集合中辭彙總數的比率越低,則該商品標題包含的辭彙為羅列堆砌的可能性越大。
例如,在商品標題“Paypal-Fashion sunglasses,ED sunglasses,CA sunglasses,Brand name sunglasses,designer sunglasses”中,首先經過辭彙去根後,根據逗號 分塊後得到的片段集合為{“Paypal-Fashion sunglass”,“ED sunglass”,“CA sunglass”,“Brand nam sunglass”,“design sunglass”},各片段塊最後一個辭彙的集合為{“sunglass”,“sunglass”,“sunglass”,“sunglass”,“sunglass”},去除重複後的辭彙集合為{“sunglass”}。則每個片段最後一個辭彙組成的集合中,去除重複後辭彙個數與集合中辭彙總數的比率為1/5。
b)再次以逗號劃分為例,將商品標題按照其包含的逗號所在位置劃分為若干片段後,指定由每個片段最後兩個辭彙組成一個集合,如果在該集合中,去除重複後bi-gram辭彙(即由各片段最後兩個辭彙組成的辭彙)個數與集合中bi-gram辭彙總數的比率越低,則該商品標題包含的辭彙為羅列堆砌的可能性越大。
例如,商品標題為“Degree name card holder,business card holder,name card case,business card case,card holder,credit card holder”,經過辭彙去根和逗號劃分後,得到的片段集合為{“Degree nam card hold”,“busi card hold”,“nam card cas”,“busi card cas”,“card hold”,“credit card hold”},每個片段最後兩個辭彙組成的集合為{“card hold”,“card hold”,“card cas”,“card cas”,“card hold”,“card hold”},去除重複後的集合為{“card hold”,“card cas”}。則去除重複後bi-gram辭彙個數與集合中bi-gram辭彙總數的比率為1/3。
c)以按出現頻率最高的辭彙進行片段劃分為例,將 商品標題按照其包含的出現頻率最高的辭彙劃分為若干片段後,指定由每個片段最後一個辭彙組成一個集合,則該集合中去除重複後的辭彙個數與集合中辭彙總數的比率越低,該商品標題所包含辭彙為羅列堆砌的可能性越大。
例如,商品標題為“New style Brand tshirt Polo tshirt Fashion tshirt mens Top quality tshirt Paypal”,經過辭彙去根處理後,得到的句子為“New styl Brand tshirt Polo tshirt Fashion tshirt men Top qualiti tshirt Payp”,其中,出現頻率最高的辭彙為“tshirt”。用“tshirt”做為分隔符號對該句子進行分割,得到的片段集合為{“New styl Brand tshirt”,“Polo tshirt”,“Fashion tshirt”,“men Top qualiti tshirt”,“Payp”},指定由每個片段最後一個辭彙組成的集合為{“tshirt”,“tshirt”,“tshirt”,“tshirt”,“Payp”},去除重複後的辭彙集合為{“tshirt”,“Payp”},則每個片段最後一個辭彙組成的集合中,去除重複後辭彙個數與集合中辭彙總數的比率為2/5。
實際應用中,上述a)、b)和c)中介紹的片段劃分方式和相應的比率計算方式,可以實施其中的一種,也可以為了提高最終計算結果的精確性而組合性實施,組合方式任意,在此不再贅述。
6、按照預設規則將商品標題劃分為若干片段後,每個片段的方差。
仍以逗號劃分為例,商品標題根據包含的逗號所在位置劃分成若干片段後,每個片段對應了相應的片段長度, 即包含辭彙的個數。通常情況下,這些片段組成的集合中,片段長度的方差越小,則該商品標題包含的辭彙為羅列堆砌的可能性越大。
例如,在商品標題“Paypal-Fashion sunglasses,ED sunglasses,CA sunglasses,Brand name sunglasses,designer sunglasses”中,經過辭彙去根和逗號劃分後得到的片段集合為{“Paypal-Fashion sunglass”,“ED sunglass”,“CA sunglass”,“Brand nam sunglass”,“design sunglass”}。則片段對應的長度集合為{2,2,2,3,2},相應的片段長度的方差為0.2。
本實施例中,除了要根據商品標題的解析結果獲得其詞法特徵屬性,還要根據該解析結果獲得商品標題的句法特徵屬性,這其中包括先要對商品標題進行詞性標注,即針對商品標題包含的每一個辭彙標注對應的詞性,例如,名詞、動詞、形容詞、副詞等等。詞性的類別比較少(例如,Penn TreeBank定義的詞性有36種),因此,基於詞性特徵的屬性比基於辭彙特徵的屬性更具有泛化能力,可以擴展本發明技術方案的應用範圍。為了進一步提高其泛化性,本實施例中,定義了詞性的超類,即把詞性分為:名詞(N),動詞(V),形容詞(JJ),副詞(ADV),介詞(TO),數詞(DT)等。基於上述原理,本發明實施例中,所謂的句法特徵屬性包括:
1、商品標題去除重複後包含的辭彙的詞性個數與商品標題中辭彙的詞性總數的比率。
通常情況下,商品標題去重複後所包含辭彙的詞性個數占原商品標題中辭彙的詞性總數的比率越低,該商品標題包含的辭彙為羅列堆砌的可能性越大。
例如,商品標題為“100% Original Asus P6T7 WS Super Computer Motherboard,ASUS Motherboard,Computer Motherboard,Computer Mainboard,Motherboard”,其分別對應的詞性為“DT JJ N DT N N N,N N,N N,N N,N”,去除重複後得到的詞性集合為{“DT”,“JJ”,“N”}。那麼,去重複後包含的辭彙的詞性個數占原商品標題中辭彙詞性總數的比率為3/14。
2、商品標題中為名詞的辭彙去除重複後的個數與為名詞的辭彙總數的比率。
在電子商務領域中,商品標題中的名詞具有更豐富的資訊,描述了該商品的比較重要的資訊,而且商品名稱一般都為名詞。因此,通常情況下,商品標題中為名詞的辭彙去除重複後的個數與為名詞的辭彙總數的比率越小,商品標題包含的辭彙為羅列堆砌的可能性越大。
例如,商品標題為“100% Original Asus P6T7 WS Super Computer Motherboard,ASUS Motherboard,Computer Motherboard,Computer Mainboard,Motherboard”中的名詞為“Asus WS Super Computer Motherboard ASUS Motherboard Computer Motherboard Computer Mainboard Motherboard”,去除重複後得到的名詞集合為{“Asus”,“WS”,“Super Computer”, “Motherboard”,“Mainboard”},則商品標題中為名詞的辭彙去除重複後的個數與為名詞的辭彙總數的比率為5/11。
3、出現頻率最高的詞性的出現次數。
以bi-gram詞性為例,為了提高對沒有標點符號的羅列堆砌的商品標題的識別,較佳地,可以考察標題中連續兩個詞性(即bi-gram辭彙)的出現頻率,通常情況下,如果連續兩個詞性的出現頻率越高,則該商品標題包含的辭彙為羅列堆砌的可能性越大。
例如,商品標題為“Power Amplifier Audio Amplifier Professional Power Amplifier Karaoke Amplifier Pa Pro Amplifier”,其對應的詞性序列為“JJ N JJ N JJ N N N N N N N”,從中抽取出的的bi-gram詞性集合為{“JJ N”,“N JJ”,“JJ N”,“N JJ”,“JJ N”,“N N”,“N N”,“N N”,“N N”,“N N”,“N N”,“N N”},其中,出現頻率最高的bi-gram詞性序列為“N N”,次數為7。
4、按照預設規則將商品資訊劃分為若干片段後,每個片段中指定位置的辭彙的詞性組成的集合中,去除重複後的詞性個數與集合中詞性總數的比率。
其中,所謂按照預設規則將商品資訊劃分為若干片段,包含但不限於,按照商品資訊中的逗號所在位置將商品標題劃分為若干片段、或/和,按照商品資訊中出現頻率最高的辭彙所在位置將商品標題劃分為若干片段。
較佳地,仍以bi-gram詞性為例,通常情況下,商品資訊劃分為若干片段後,指定由每個片段最後兩個辭彙的詞 性組成的集合中,去除重複後bi-gram詞性個數與集合中bi-gram詞性總數的比率越低,則該商品標題所包含辭彙為羅列堆砌的可能性越大。
例如,商品標題為“100% Original Asus P6T7 WS Super Computer Motherboard,ASUS Motherboard,Computer Motherboard,Computer Mainboard,Motherboard”,其中,每個片段最後兩個辭彙的詞性組成的集合為{“N N”,“N N”,“N N”,“N N”,“N”},(最後一個片段只有一個辭彙,則bi-gram詞性序列為“N”),則去除重複後的集合為{“N N”,“N”},那麼,這兩個集合元素數目之間的比率為2/5。
本發明實施例中,商品資訊還可以包含其他內容,例如,商品描述資訊、商品介紹信息等等,本實施例僅以商品資訊為商品標題為例進行闡述。
基於上述原理,參閱圖4所示,本發明實施例中,仍以商品標題為例,網站伺服器對用戶指示發佈的商品標題進行評估的詳細流程如下:
步驟400:接收用戶輸入的商品標題。
步驟410:用於對所述商品標題進行解析,並根據解析結果獲得所述商品標題的指定特徵屬性的取值,該指定特徵屬性用於描述商品標題所包含辭彙的羅列堆砌程度。
本實施例中,所謂的指定特徵屬性包含詞法特徵屬性或/和詞法特徵屬性,其中,詞法特徵屬性包含以下任意一種或任意組合:商品標 題包含的逗號個數;商品標題的句長;商品標題去除重複後包含的辭彙個數與商品標題中辭彙總數的比率;商品標題中出現頻率最高的辭彙的出現次數;按照預設規則將商品標題劃分為若干片段後,將每個片段中指定位置的辭彙組成集合,針對該集合去除重複後的辭彙個數與集合中辭彙總數的比率;按照預設規則將商品標題劃分為若干片段後,每個片段的方差;句法特徵屬性包含以下任意一種或任意組合:商品標題去除重複後包含的辭彙的詞性個數與資訊標題中辭彙的詞性總數的比率;商品標題中為名詞的辭彙去除重複後的個數與為名詞的辭彙總數的比率;出現頻率最高的詞性的出現次數;按照預設規則將商品標題劃分為若干片段後,每個片段中指定位置的辭彙的詞性組成的集合中,去除重複後的詞性個數與集合中詞性總數的比率。
步驟420:根據各指定特徵屬性的取值,基於最大熵原理,計算所述商品標題為羅列堆砌資訊的置信度。
本實施例中,所謂基於最大熵原理,計算所述商品標題為羅列堆砌資訊的置信度,即是將各指定特徵屬性的取值,作為基於最大熵原理的條件機率模型的給定資訊;再採用條件機率模型計算在所述給定資訊的情況下,所述商品標題為羅列堆砌資訊的後驗機率p(y|x),並將該後驗機率p(y|x)作為商品標題為羅列堆砌資訊的置信度。
步驟430:將所述置信度與設定閾值進行比較,確定 所述置信度達到設定閾值時,阻止發佈所述商品標題。
實際應用中,網站伺服器阻止發佈用戶輸入的商品標題後,還應根據步驟410中獲得的解析結果,確定造成商品標題包含的辭彙羅列堆砌的關鍵字彙,如,“handbag”,並向用戶返回該關鍵字彙,提示用戶基於該關鍵字彙對商品標題進行修改,如,將對針對“handbag”的多次重複描述進行簡化,壓縮,將針對“handbag”的多種形容詞彙儘量在一句話中呈現。進一步地,網站伺服器還可以將本地自動修改後的商品標題作為修改策略呈現給用戶,以供用戶參考和選擇。
基於上述實施例,下面以一些具體的實驗資料對上述流程進行進一步闡述。
在實際應用中,各指定特徵屬性的取值都將被被歸一化為0-1的數值,然後分段映射到整數,以簡化後續計算流程。例如,6被歸一化到0.3(即6/20,20為歸一化參數,可以根據被歸一化的資料的取值而具體設定),並映射為整數3。針對這一特徵,本實施例中,將歸一化後的數值與整數之間的映射關係設置為:0->0,(0,0.05]->1,(0.05,0.15]->2,(0.15,0.3]->3,(0.3,0.5]->4,(0.5,1]->5。以下實施例中所有映射操作均基於此原理,將不再贅述。
那麼,本實施例中,商品標題為“#24 Baseball Jersey,Baseball Jerseys,Jerseys,Sports Jerseys,Sport Jersey,Jersey,24# Baseball Jersey”,假設根據商品標題的解析結 果獲得的指定特徵屬性的取值分別為:商品標題包含的逗號個數逗號個數為6,經歸一化處理後轉化為0.3,再經映射處理,轉化為整數3;其對應於λ 1 f 1(x,y),其中,假設λ 1的取值為0.0653117,f 1(x,y)的取值為
商品標題的句長為20,經歸一化處理後轉化為0.20,再經映射處理,轉化為整數2;其對應於λ 2 f 2(x,y),假設λ 2的取值為0.853789,f 2(x,y)的取值為
商品標題去除重複後包含的辭彙個數與商品標題中辭彙總數的比率為4/14,經歸一化處理轉換為028,再經映射處理,轉化為整數3;其對應於λ 3 f 3(x,y),λ 3的取值為-0.177941,假設f 3(x,y)的取值為
商品標題中出現頻率最高的辭彙的出現次數為7,經歸一化處理轉換為0.35,再經映射處理,轉化為整數3;其對應於λ 4 f 4(x,y),假設λ 4的取值為0.457743,f 4(x,y)的取值為
按照預設規則將商品標題劃分為若干片段後每個片段中指定位置的辭彙組成的集合中,去除重複後辭彙個數與集合中辭彙總數的比率,分為以下三種情況: 將商品標題按照其包含的逗號所在位置劃分為若干片段後,每個片段最後一個辭彙組成的集合中,去除重複後辭彙個數與集合中辭彙總數的比率為1/7,經歸一化處理轉換為0.14,再經映射處理,轉化為整數2;其對應於λ 5 f 5(x,y),假設λ 5的取值為1.7743,f 5(x,y)的取值為
將商品標題按照其包含的逗號所在位置劃分為若干片段後,每個片段最後兩個辭彙組成的集合中,去除重複後辭彙個數與集合中辭彙總數的比率為3/7,經歸一化處理轉換為0.42,再經映射處理,轉化為整數4;其對應於λ 6 f 6(x,y),假設λ 6的取值為-0.24332,f 6(x,y)的取值為
將商品標題按照其包含的出現頻率最高的辭彙劃分為若干片段後,每個片段最後一個辭彙組成的集合中,去除重複後的辭彙個數與集合中辭彙總數的比率2/7,經歸一化處理轉換為0.29,再經映射處理,轉化為整數3;其對應於λ 7 f 7(x,y),假設λ 7的取值為0.410227,f 7(x,y)的取值為
按照預設規則將商品標題劃分為若干片段後,每個片段的方差0.28,經映射處理映射為2;其對應於λ 8 f 8(x,y),假設λ 8的取值為-0.188554,f 8(x,y)的取值為
商品標題去除重複後包含的辭彙的詞性個數與商品標題中辭彙的詞性總數的比率為2/14,經歸一化處理後轉換為0.14,再經映射處理,轉化為整數2;其對應於λ 9 f 9(x,y),假設λ 9的取值為-0.0397724,f 9(x,y)的取值為
商品標題中為名詞的辭彙去除重複後的個數與為名詞的辭彙總數的比率3/15,經歸一化處理後轉換為0.2,再經映射處理,轉化為整數2;其對應於λ 9 f 9(x,y),假設λ 10的取值為0.305969,f 10(x,y)的取值為
出現頻率最高的詞性的出現次數為12,經歸一化處理後轉換為0.6,再經映射處理,轉化為整數6;其對應於λ 11 f 11(x,y),假設λ 11的取值為0.105729,f 11(x,y)的取值為
按照預設規則將商品資訊劃分為若干片段後,每個片段中指定位置的辭彙的詞性組成的集合中,去除重複後的詞性個數與集合中詞性總數的比率為2/7,經歸一化處理後轉換為0.28,再經映射處理,轉化為整數3;其對應於λ 12 f 12(x,y),假設λ12的取值為-0.174333,f 12(x,y)的取值為
將上述各特徵屬性作為公式1的給定資訊,可以得到後驗機率p(y|x)為0.989271,假設設定的閾值為0.7,作為 置信度的後驗機率達到了設定閾值,因此,網站伺服器確定用戶輸入的商品標題包含的辭彙為羅列堆砌,需阻止其發佈。當然,本發明實施例中,根據實際應用環境,也可以選擇上述各特徵屬性中的一種或任意組合來訓練模型,計算相應的後驗機率。
進一步地,網站伺服器中還可以在阻止發佈所述商品資訊後,向用戶報告造成商品資訊包含的辭彙羅列堆砌的關鍵字彙,並提示用戶基於該關鍵字彙對商品資訊進行修改;以及在向用戶返回所述關鍵字彙時,向該用戶通知相應的修改策略。
綜上所述,本發明實施例中,網站伺服器在商品資訊發佈之前,根據預設規則對其包含的辭彙的羅列堆砌程度進行評估,確定商品資訊羅列堆砌時,阻止商品資訊的發佈,或者,建議修改後再重新發佈。這樣,可以有效提高商品資訊的簡潔性和準確性,從而在後續檢索過程中大幅度降低系統運行負荷,保證了電子商務網站的正常運行,確保了網站的服務品質。
顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明申請專利範圍及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型在內。
10‧‧‧通信單元
11‧‧‧解析單元
12‧‧‧計算單元
13‧‧‧執行單元
14‧‧‧策略單元
120‧‧‧第一計算子單元
121‧‧‧第二計算子單元
圖1為現有技術下商品標題示意圖; 圖2為本發明實施例中網站伺服器功能結構示意圖;圖3為本發明實施例中分類器原理示意圖;圖4為本發明實施例中網站伺服器發佈商品資訊流程圖。

Claims (9)

  1. 一種發佈商品資訊的方法,其特徵在於,包括:接收用戶輸入的商品資訊,並對該商品資訊進行解析;根據解析結果獲得該商品資訊的指定特徵屬性的取值,該指定特徵屬性用於描述商品資訊所包含辭彙的羅列堆砌程度,其中,羅列堆砌程度是指同一商品名稱重複羅列出現的程度或者多種商品名稱堆砌的程度;根據各指定特徵屬性的取值,基於最大熵原理,計算該商品資訊為羅列堆砌資訊的置信度;確定該置信度達到設定閾值時,阻止發佈該商品資訊,並根據該解析結果確定造成該商品資訊包含的辭彙羅列堆砌的關鍵字彙;向用戶返回該關鍵字彙,提示用戶基於該關鍵字彙對商品資訊進行修改。
  2. 如申請專利範圍第1項之方法,其中,該根據各指定特徵屬性的取值,基於最大熵原理,計算該商品資訊為羅列堆砌資訊的置信度,包括:將該各指定特徵屬性的取值,作為基於最大熵原理的條件機率模型的給定資訊;採用條件機率模型計算在該給定資訊的情況下,該商品資訊為羅列堆砌資訊的後驗機率,並將該後驗機率作為商品資訊為羅列堆砌資訊的置信度。
  3. 如申請專利範圍第1或2項之方法,其中,該指定 特徵屬性包含詞法特徵屬性或/和句法特徵屬性;其中,該詞法特徵屬性包含以下任意一種或任意組合:商品資訊包含的逗號個數;商品資訊的句長;商品資訊去除重複後包含的辭彙個數與商品資訊中辭彙總數的比率;商品資訊中出現頻率最高的辭彙的出現次數;按照預設規則將商品資訊劃分為若干片段後,將每個片段中指定位置的辭彙組成集合,針對該集合去除重複後的辭彙個數與集合中辭彙總數的比率;按照預設規則將商品資訊劃分為若干片段後,每個片段的方差;該句法特徵屬性包含以下任意一種或任意組合:商品資訊去除重複後包含的辭彙的詞性個數與資訊標題中辭彙的詞性總數的比率;商品資訊中為名詞的辭彙去除重複後的個數與為名詞的辭彙總數的比率;出現頻率最高的詞性的出現次數;按照預設規則將商品資訊劃分為若干片段後,每個片段中指定位置的辭彙的詞性組成的集合中,去除重複後的詞性個數與集合中詞性總數的比率。
  4. 如申請專利範圍第3項之方法,其中,該按照預設規則將商品資訊劃分為若干片段,包括:按照商品資訊中的逗號所在位置將商品標題劃分為若干片段;或/和按照商品資訊中出現頻率最高的辭彙所在位置將商品標題劃分為若干片段。
  5. 如申請專利範圍第1項之方法,其中,向用戶返回 該關鍵字彙時,向該用戶通知相應的修改策略。
  6. 一種網站伺服器,其特徵在於,包括:通信單元,用於接收用戶輸入的商品資訊;解析單元,用於對該商品資訊進行解析,並根據解析結果獲得該商品資訊的指定特徵屬性的取值,該指定特徵屬性用於描述商品資訊所包含辭彙的羅列堆砌程度,其中,羅列堆砌程度是指同一商品名稱重複羅列出現的程度或者多種商品名稱堆砌的程度;計算單元,用於根據各指定特徵屬性的取值,基於最大熵原理,計算該商品資訊為羅列堆砌資訊的置信度;執行單元,用於在確定該置信度達到設定閾值時,阻止發佈該商品資訊;策略單元,用於在阻止發佈該商品資訊後,根據該解析結果確定造成該商品資訊包含的辭彙羅列堆砌的關鍵字彙,並藉由該通信單元向用戶返回該關鍵字彙,提示用戶基於該關鍵字彙對商品資訊進行修改。
  7. 如申請專利範圍第6項之網站伺服器,其中,該計算單元包括:第一計算子單元,用於將該各指定特徵屬性的取值,作為基於最大熵原理的條件機率模型的給定資訊;第二計算子單元,用於採用條件機率模型計算在該給定資訊的情況下,該商品資訊為羅列堆砌資訊的後驗機率,並將該後驗機率作為商品資訊為羅列堆砌資訊的置信度。
  8. 如申請專利範圍第6或7項之網站伺服器,其中,該指定特徵屬性包含詞法特徵屬性或/和句法特徵屬性;其中,該詞法特徵屬性包含以下任意一種或任意組合:商品資訊包含的逗號個數;商品資訊的句長;商品資訊去除重複後包含的辭彙個數與商品資訊中辭彙總數的比率;商品資訊中出現頻率最高的辭彙的出現次數;按照預設規則將商品資訊劃分為若干片段後,將每個片段中指定位置的辭彙組成集合,針對該集合去除重複後的辭彙個數與集合中辭彙總數的比率;按照預設規則將商品資訊劃分為若干片段後,每個片段的方差;該句法特徵屬性包含以下任意一種或任意組合:商品資訊去除重複後包含的辭彙的詞性個數與資訊標題中辭彙的詞性總數的比率;商品資訊中為名詞的辭彙去除重複後的個數與為名詞的辭彙總數的比率;出現頻率最高的詞性的出現次數;按照預設規則將商品資訊劃分為若干片段後,每個片段中指定位置的辭彙的詞性組成的集合中,去除重複後的詞性個數與集合中詞性總數的比率。
  9. 如申請專利範圍第6項之網站伺服器,其中,該策略單元向用戶返回該關鍵字彙時,向該用戶通知相應的修改策略。
TW099127131A 2010-08-13 2010-08-13 How to publish product information and website server TWI518613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW099127131A TWI518613B (zh) 2010-08-13 2010-08-13 How to publish product information and website server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099127131A TWI518613B (zh) 2010-08-13 2010-08-13 How to publish product information and website server

Publications (2)

Publication Number Publication Date
TW201207758A TW201207758A (en) 2012-02-16
TWI518613B true TWI518613B (zh) 2016-01-21

Family

ID=46762313

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099127131A TWI518613B (zh) 2010-08-13 2010-08-13 How to publish product information and website server

Country Status (1)

Country Link
TW (1) TWI518613B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577989B (zh) * 2012-07-30 2017-11-14 阿里巴巴集团控股有限公司 一种基于产品识别的信息分类方法及信息分类***

Also Published As

Publication number Publication date
TW201207758A (en) 2012-02-16

Similar Documents

Publication Publication Date Title
Qaroush et al. An efficient single document Arabic text summarization using a combination of statistical and semantic features
Mao et al. Extractive summarization using supervised and unsupervised learning
US9864741B2 (en) Automated collective term and phrase index
JP5714702B2 (ja) 商品情報の乱雑さの解析
US20190349320A1 (en) System and method for automatically responding to user requests
US20130060769A1 (en) System and method for identifying social media interactions
US8892422B1 (en) Phrase identification in a sequence of words
US8782037B1 (en) System and method for mark-up language document rank analysis
Aliguliyev Clustering techniques and discrete particle swarm optimization algorithm for multi‐document summarization
US20100306214A1 (en) Identifying modifiers in web queries over structured data
CN109271639B (zh) 热门事件发现方法及装置
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Rajagopal et al. Commonsense-based topic modeling
US9164981B2 (en) Information processing apparatus, information processing method, and program
JP2014106665A (ja) 文書検索装置、文書検索方法
Nguyen et al. Web document summarization by exploiting social context with matrix co-factorization
Piryani et al. Generating aspect-based extractive opinion summary: Drawing inferences from social media texts
Gero et al. Namedkeys: Unsupervised keyphrase extraction for biomedical documents
Ullah et al. A framework for extractive text summarization using semantic graph based approach
US9275064B2 (en) Caching of deep structures for efficient parsing
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
TWI518613B (zh) How to publish product information and website server
CN111274384B (zh) 一种文本标注方法及其设备、计算机存储介质
Appiktala et al. Identifying salient entities of news articles using binary salient classifier
Racca et al. Incorporating prosodic prominence evidence into term weights for spoken content retrieval.