TWI621084B - 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體 - Google Patents

跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體 Download PDF

Info

Publication number
TWI621084B
TWI621084B TW105139743A TW105139743A TWI621084B TW I621084 B TWI621084 B TW I621084B TW 105139743 A TW105139743 A TW 105139743A TW 105139743 A TW105139743 A TW 105139743A TW I621084 B TWI621084 B TW I621084B
Authority
TW
Taiwan
Prior art keywords
product
commodity
region
list
regional
Prior art date
Application number
TW105139743A
Other languages
English (en)
Other versions
TW201822094A (zh
Inventor
吳家齊
謝沛宇
史孟蓉
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW105139743A priority Critical patent/TWI621084B/zh
Priority to CN201611094944.5A priority patent/CN108133383A/zh
Priority to US15/372,377 priority patent/US20180157714A1/en
Application granted granted Critical
Publication of TWI621084B publication Critical patent/TWI621084B/zh
Publication of TW201822094A publication Critical patent/TW201822094A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本案關於跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體。方法包含以下步驟。透過文字與圖形相似度比對第一與第二區域商品清單,建立比對成功之第一與第二商品對應關係。計算第一與第二商品之第一主題機率向量差及第三與第四商品之第二主題機率向量差。當第一主題機率向量差近似第二主題機率向量差,建立比對不成功之第三與第四商品對應關係。產生第一與第二區域商品清單之跨區域商品清單。透過文字相似度將第一與第二區域電子商務商品清單加入第一與第二區域商品清單。將第一與第二區域商品清單對應跨區域商品清單顯示於顯示裝置。

Description

跨區域商品對應方法、系統及非暫態電 腦可讀取記錄媒體
所揭露之實施例是關於一種商品對應技術,更具體而言,是關於跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體。
許多調查報告指出,缺乏海外市場情報是企業進入海外市場最大的阻礙。電子商務平台雖然提供大量、公開且可取得的商品資料,但許多商品在不同地域的名稱可能完全不同,因此僅透過翻譯仍無法使用,亦即對企業的市場評估的幫助有限。
所揭露之實施例係提供跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體。
該跨區域商品對應方法,包含以下步驟。透過 文字相似度與圖形相似度來比對該第一區域商品清單與該第二區域商品清單,並將比對成功之該第一商品與該第二商品建立一對應關係,其中該第一區域商品清單包含該第一商品與一第三商品,該第二區域商品清單包含該第二商品與一第四商品,該第三商品與該第四商品比對不成功。計算該第一商品與該第二商品之一第一主題機率向量差以及該第三商品與該第四商品之一第二主題機率向量差。當該第一主題機率向量差近似於該第二主題機率向量差時,將比對不成功之該第三商品與該第四商品建立一對應關係。產生該第一區域商品清單與該第二區域商品清單之一跨區域商品清單,其中該跨區域商品清單包含該第一商品、該第二商品、該第三商品與該第四商品。透過文字相似度將一第一區域電子商務商品清單加入該第一區域商品清單,並將一第二區域電子商務商品清單加入該第二區域商品清單。將該第一區域商品清單與該第二區域商品清單對應該跨區域商品清單顯示於一顯示裝置。
該跨區域商品對應系統,其包含資料庫與處理器,並且處理器耦接該資料庫。資料庫用以儲存一第一區域商品清單與一第二區域商品清單。第一區域商品清單包含一第一商品與一第三商品,該第二區域商品清單包含一第二商品與一第四商品。處理器用以透過文字相似度與圖形相似度來比對該第一區域商品清單與該第二區域商品清單,並將比對成功之該第一商品與該第二商品建立一對應關係。第三商品與該第四商品比對不成功。處理器更用以計算該第一商品 與該第二商品之一第一主題機率向量差以及該第三商品與該第四商品之一第二主題機率向量差,當該第一主題機率向量差近似於該第二主題機率向量差時,將比對不成功之該第三商品與該第四商品建立一對應關係。處理器更用以產生該第一區域商品清單與該第二區域商品清單之一跨區域商品清單,透過文字相似度將一第一區域電子商務商品清單加入該第一區域商品清單,並將一第二區域電子商務商品清單加入該第二區域商品清單,以及將該第一區域商品清單與該第二區域商品清單對應該跨區域商品清單顯示於一顯示裝置。跨區域商品清單包含該第一商品、該第二商品、該第三商品與該第四商品。
該非暫態電腦可讀取記錄媒體儲存一電腦可執行指令,用於使一處理器執行一跨區域商品對應方法,該跨區域商品對應方法包含以下步驟。透過文字相似度與圖形相似度來比對該第一區域商品清單與該第二區域商品清單,並將比對成功之該第一商品與該第二商品建立一對應關係,其中該第一區域商品清單包含該第一商品與一第三商品,該第二區域商品清單包含該第二商品與一第四商品,該第三商品與該第四商品比對不成功。計算該第一商品與該第二商品之一第一主題機率向量差以及該第三商品與該第四商品之一第二主題機率向量差。當該第一主題機率向量差近似於該第二主題機率向量差時,將比對不成功之該第三商品與該第四商品建立一對應關係。產生該第一區域商品清單與該第二區域商品清單之一跨區域商品清單,其中該跨區域商品清單包含 該第一商品、該第二商品、該第三商品與該第四商品。透過文字相似度將一第一區域電子商務商品清單加入該第一區域商品清單,並將一第二區域電子商務商品清單加入該第二區域商品清單。將該第一區域商品清單與該第二區域商品清單對應該跨區域商品清單顯示於一顯示裝置。
綜上所述,本揭示內容可透過文字相似度、圖形相似度與主題機率向量差來將不同區域內名稱不完全相同的相同商品進行比對以產生跨區域商品清單。此外,本揭示內容亦可將名稱複雜的電子商務平台販售項目(包含容量、數量、組合資訊)整合於區域商品清單以進一步對應至跨區域商品清單。因此,使用者根據跨區域商品清單得知不同區域內特定商品的資訊(例如價格、銷售量)以助於商業評估。
以下將以實施方式對上述之說明作詳細的描述,並對本揭示內容之技術方案提供更進一步的解釋。
為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附符號之說明如下:
100‧‧‧跨區域商品對應系統
110‧‧‧資料庫
120‧‧‧處理裝置
200‧‧‧跨區域商品對應方法
S202~S214、S4022~S4024、S4062~S4064、S502~S510、S602~S606‧‧‧步驟
310、320‧‧‧區域
311、321‧‧‧參考網站
312、322‧‧‧區域商品清單
313、323‧‧‧電子商務平台
314、324‧‧‧區域電子商務商品清單
332‧‧‧跨區域商品清單
710‧‧‧向量空間
tp1~tp4‧‧‧主題機率向量
Δtp12、Δtp34‧‧‧主題機率向量差
為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖示之說明如下:第1圖係說明本揭示內容一實施例之跨區域商品對應系統之示意圖;第2圖係說明本揭示內容一實施例之跨區域商品對應方法之示意圖; 第3圖係說明本揭示內容一實施例之應用情境之示意圖;第4圖係說明第2圖流程圖之一子流程圖;第5圖係說明第2圖流程圖之一子流程圖;第6圖係說明第5圖子流程圖之一子流程圖;以及第7圖係說明主題機率向量差之示意圖。
為了使本揭示內容之敘述更加詳盡與完備,可參照附圖及以下所述之各種實施例。但所提供之實施例並非用以限制本發明所涵蓋的範圍;步驟的描述亦非用以限制其執行之順序,任何由重新組合,所產生具有均等功效的裝置,皆為本發明所涵蓋的範圍。
於實施方式與申請專利範圍中,除非內文中對於冠詞有所特別限定,否則「一」與「該」可泛指單一個或複數個。將進一步理解的是,本文中所使用之「包含」、「包括」、「具有」及相似詞彙,指明其所記載的特徵、區域、整數、步驟、操作、元件與/或組件,但不排除其所述或額外的其一個或多個其它特徵、區域、整數、步驟、操作、元件、組件,與/或其中之群組。
關於本文中所使用之「耦接」或「連接」,均可指二或多個元件相互直接作實體或電性接觸,或是相互間接作實體或電性接觸,而「耦接」或「連接」還可指二或多個元件相互操作或動作。相對的,當一元件被稱為「直接連 接」或「直接耦接」至另一元件時,其中是沒有額外元件存在。
關於本文中所使用之「約」、「大約」或「大致約」一般通常係指數值之誤差或範圍約百分之二十以內,較好地是約百分之十以內,而更佳地則是約百分五之以內。文中若無明確說明,其所提及的數值皆視作為近似值,即如「約」、「大約」或「大致約」所表示的誤差或範圍。
請參考第1、2、3圖。第1圖係說明本揭示內容一實施例之跨區域商品對應系統100之示意圖。跨區域商品對應系統100包含資料庫110與處理裝置120。資料庫110耦接處理裝置120並用以儲存第一區域商品清單312與第二區域商品清單322。第一區域商品清單312包含第一商品與第三商品,第二區域商品清單322包含第二商品與第四商品。
第2圖係說明本揭示內容一實施例之跨區域商品對應方法200流程圖。跨區域商品對應方法200具有多個步驟S202~S214,其可應用於如第1圖所述的跨區域商品對應系統100。跨區域商品對應方法200可實作為電腦程式,並儲存於非暫態電腦可讀取記錄媒體中,而使處理器讀取此非暫態電腦記錄媒體後執行跨區域商品對應方法200。非暫態電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。然熟習本案之技藝者應瞭解到,在上述實施例中所提及的步驟,除特別敘明其順序者外,均可依實際需 要調整其前後順序,甚至可同時或部分同時執行。
為了產生區域310(例如國家A)與區域320(例如國家B)的跨區域商品清單332,處理裝置120可從不同區域310、320的參考網站311、321(例如商品評論網站)收集區域商品清單312、322,並且將區域商品清單312、322內重複的商品刪除。須說明的是,區域商品清單312、322可包含商品類別、品牌名稱、商品名稱與商品圖片,區域310、320數目僅為舉例,本揭示內容不以此為限。
於步驟S202,處理裝置120透過文字相似度與圖形相似度來比對第一區域商品清單312與第二區域商品清單322。若比對成功時,處理裝置120於步驟S204將比對成功之第一區域商品清單312的第一商品與第二區域商品清單322的第二商品建立對應關係。須說明的是,處理裝置透過文字相似度與圖形相似度判斷第一區域商品清單312的第三商品與第二區域商品清單322的第四商品比對失敗。
為了進一步比對第三商品與第四商品,處理裝置120於步驟S206計算第一商品與第二商品之第一主題機率向量差以及第三商品與第四商品之第二主題機率向量差。當第一主題機率向量差近似於第二主題機率向量差時,處理裝置120於步驟S208將比對不成功之第三商品與第四商品建立對應關係。如此一來,處理裝置120可於步驟S210產生第一區域商品清單312與第二區域商品清單322之跨區域商品清單332。跨區域商品清單332包含上述已建立對應關係的第一商品、第二商品、第三商品與第四商品。
為了將電子商務商品(例如拍賣網站的商品)與上述第一區域商品清單312與第二區域商品清單322整合,處理裝置120可於區域310、320的電子商務平台313、323(例如拍賣網站)收集區域電子商務商品清單314、324,並且於步驟S212透過文字相似度將第一區域電子商務商品清單314加入第一區域商品清單312,並將第二區域電子商務商品清單324加入第二區域商品清單322。接著,處理裝置120於步驟214將第一區域商品清單312與第二區域商品清單322對應跨區域商品清單332顯示於顯示裝置(例如顯示器)。
如此一來,本揭示內容可透過文字相似度、圖形相似度與主題機率向量差來將不同區域310、320內名稱不完全相同的相同商品進行比對以產生跨區域商品清單332。此外,本揭示內容亦可透過文字相似度來將名稱複雜的電子商務平台販售項目整合於區域商品清單312、322以進一步對應至跨區域商品清單332。因此,使用者可根據跨區域商品清單332得知不同區域310、320內特定商品的資訊(例如價格、銷售量)以助於商業評估。
關於上述步驟S202~S208的一具體實施例,請參考第4圖。首先,處理裝置120可指定一區域i(例如區域310)為指標區域,並以區域i的區域商品清單(例如區域商品清單312)作為跨區域商品清單332的初始內容。於步驟S4022,處理裝置120計算區域310的第一區域商品清單312內商品與區域320的第二區域商品清單322內商品的文 字相似度TextSim與圖形相似度GraphSim。
關於文字相似度計算方式,具體而言,由於在不同區域的商品品牌與商品名稱大多以當地語言或英文表示。舉例而言,區域i(例如區域310)商品清單312的第x項商品具有英文品牌名稱EB(i,x)、當地語言品牌名稱LB(i,x)、英文商品名稱EP(i,x),與當地語言商品名稱LP(i,x)。另一區域d(例如區域320)商品清單322的第y項商品具有英文品牌名稱EB(d,y)、當地語言品牌名稱LB(d,y)、英文商品名稱EP(d,y),與當地語言商品名稱LP(d,y)。
上述文字相似度可利用字串比對技術(例如傑卡德指數(Jaccard index)、編輯距離(Edit distance)、餘弦相似度(Cosine similarity))計算出,並將數值正規化至0到1之間。以編輯距離的最長共同子序列(Longest common subsequence,LCS)為例,LCS(“ABCCD”,“EBCD”)為3,LCS(“ABCCD”,“CDEB”)為5,字串相似度StringSim(“ABCCD”,“EBCD”)為6/9,字串相似度StringSim(“ABCCD”,“CDEB”)為4/9。因此,處理裝置120可根據式(1)、式(2)計算區域i(例如區域310)的第x項商品product(i,x)與區域d(例如區域320)中第y項商品product(d,y)的品牌名稱相似度BrandSim(product(i,x),product(d,y))與商品名稱相似度ProductSim(product(i,x),product(d,y)),並且進而根據式(3)計算出文字相似度TextSim(product(i,x),product(d,y))。上述第y項商品可以是區域320的區域商 品清單322內第一項商品至最後一項商品以計算出區域310的第x項商品product(i,x)與區域320中每一項商品product(d,y)的文字相似度TextSim(product(i,x),product(d,y))。
BrandSim(product(i,x),product(d,y))=max(StringSim(EB(i,x),EB(d,y)),StringSim(EB(i,x),LB(d,y)),StringSim(LB(i,x),EB(d,y)),StringSim(LB(i,x),LB(d,y)))......公式(1)
ProductSim(product(i,x),product(d,y))=max(StringSim(EP(i,x),EP(d,y)),StringSim(EP(i,x),LP(d,y)),StringSim(LP(i,x),EP(d,y)),StringSim(LP(i,x),LP(d,y)))......公式(2)
TextSim(product(i,x),product(d,y))=BrandSim(product(i,x),product(d,y))+ProductSim(product(i,x),product(d,y))......公式(3)
須說明的是,處理裝置120根據公式(1)選取字串相似度StringSim(EB(i,x),EB(d,y))、StringSim(EB(i,x),LB(d,y))、StringSim(LB(i,x),EB(d,y))、StringSim(LB(i,x),LB(d,y))當中的最大值,即上述品牌名稱相似度BrandSim(product(i,x),product(d,y))。類似地,處理裝置120根據公式(2)選取字串相似度StringSim(EP(i,x),EP(d,y))、 StringSim(EP(i,x),LP(d,y))、StringSim(LP(i,x),EP(d,y))、StringSim(LP(i,x),LP(d,y))當中的最大值,即上述商品名稱相似度ProductSim(product(i,x),product(d,y))。接著,處理裝置120將品牌名稱相似度BrandSim(product(i,x),product(d,y))與商品名稱相似度ProductSim(product(i,x),product(d,y))相加以計算出文字相似度TextSim(product(i,x),product(d,y))。
關於圖形相似度計算方式,具體而言,處理裝置120可將區域i(例如區域310)第x項商品的圖片透過搜尋引擎(例如Google)搜尋,並且取得前n個網頁IRR(i,x)。須說明的是,網頁IRR(i,x)定義為{irr1(i,x),irr2(i,x),...,irrn(i,x)},其中irrn(i,x)為第n個網頁,n為正整數。類似地,處理裝置120可將區域d(例如區域320)第y項商品的圖片透過搜尋引擎搜尋,並且取得前n個網頁IRR(d,y)。因此,處理裝置120可根據公式(4)或公式(5)計算出區域i(例如區域310)的區域商品清單312內第x項商品與區域d(例如區域320)的區域商品清單322內第y項商品的圖形相似度GraphSim(product(i,x),product(d,y))。
GraphSim(product(i,x),product(d,y))
須說明的是,irrs(i,x)與irrt(d,y)分別為IRR(i,x)與IRR(d,y)中的第s個及第t個網頁,網頁irrs(i,x)與irrt(d,y)的內文相似度可由習知文章比對方法計算出。舉例而言,處理裝置120將網頁irrs(i,x)與irrt(d,y)斷詞後計算共同字詞比例。或者,處理裝置120亦可計算網頁irrs(i,x)與irrt(d,y)的詞頻與逆向文件頻率(Term frequency-inverse document frequency,TF-IDF)後計算加權相似度。
透過上述方式,處理裝置120可於步驟S4022計算第一區域商品清單312內商品與第二區域商品清單322內商品的文字相似度TextSim與圖形相似度GraphSim。於步驟S4024,處理裝置120判斷文字相似度TextSim是否大於等於第一門檻值以及圖形相似度GraphSim是否大於等於第二門檻值。須說明的是,第一門檻值與第二門檻值可由專家決定,或透過習知的統計分析或機器學習方法決定。
舉例而言,處理裝置120計算出第一區域商品清單312內第一商品與第二區域商品清單322內第二商品的第一文字相似度TextSim1與第一圖形相似度GraphSim1。當第一文字相似度TextSim1大於等於第一門檻值或者第一圖形相似度GraphSim1大於等於第二門檻值時,處理裝置120於步驟S4024判斷第一商品與第二商品比對成功,並於步驟S204將比對成功之第一區域商品清單 312內第一商品與第二區域商品清單322內第二商品建立對應關係。
反之,處理裝置120計算出第一區域商品清單312內第三商品與第二區域商品清單322內第四商品的第二文字相似度TextSim2與第二圖形相似度GraphSim2。當該第二文字相似度TextSim2小於第一門檻值且第二圖形相似度GraphSim2小於第二門檻值時,處理裝置120於步驟S4024判斷第三商品與第四商品比對不成功。
關於上述處理裝置120透過文字相似度與圖形相似度比對不成功的第一區域商品清單312內第三商品與第二區域商品清單322內第四商品,處理裝置120進一步利用主題機率向量差進行比對。於步驟S4062,處理裝置120產生第一區域商品清單312內第一商品、第三商品與第二區域商品清單322內第二商品、第四商品的主題機率向量。須說明的是,處理裝置120可利用機率主題模型(Probabilistic topic model)、主成份分析(Principal components analysis,PCA)、張量分析(Tensor analysis)產生上述主題機率向量。
以機率主題模型中的潛藏狄利克里分配(Latent Dirichlet allocation,LDA)為例,處理裝置可收集關於區域i(例如區域310)的第x項商品product(i,x)的至少n篇(例如50篇)的商品描述或評論,並連接商品描述或評論以產生一篇文件document(i,x)。同理,處理裝置120產生關於區域d(例如區域320)的第y項商品 product(d,y)的文件document(d,y)。接著,處理裝置120透過翻譯工具(例如***翻譯)將所有區域內所有商品的文件語言轉換為相同語言(例如英文),並且據此產生字詞文件矩陣。
處理裝置120利用潛藏狄利克里分配方法將字詞文件矩陣拆解為字詞主題矩陣與主題文件矩陣。須說明的是,主題文件矩陣內的元素p(tl,document(i,x))表示主題tl在文件document(i,x)中出現的機率,而主題機率向量tp_product(i,x)定義為(p(t1,document(i,x)),P(t2,document(i,x)),...,p(tn,document(i,x)),...)。因此,處理裝置120可於步驟S4062產生第一區域商品清單312內第一商品的主題機率向量tp1、第三商品的主題機率向量tp3與第二區域商品清單322內第二商品的主題機率向量tp2、第四商品的主題機率向量tp4,並於步驟S4064計算第一商品與第二商品的第一主題機率向量差Δtp12以及第三商品與第四商品的第二主題機率向量差Δtp34。向量空間710內的主題機率向量tp1~tp4與主題機率向量差Δtp12、Δtp34如第7圖所示。
於步驟S208,當第一主題機率向量差Δtp12近似於第二主題機率向量差Δtp34,處理裝置120將於步驟S4024比對不成功的第三商品與第四商品建立對應關係。具體而言,處理裝置120利用於步驟S4024所有比對成功商品(例如第一商品、第二商品)的主題機率向量差(例如Δtp12)與第三商品的主題機率向量tp3計算出區域320內 主題機率向量最相似的商品(例如透過餘弦相似度並設定門檻值)。於本實施例中,處理裝置120判斷主題機率向量最相似的商品為區域320的第二區域商品清單322內第四商品,因此將第三商品與第四商品建立對應關係。
如此一來,本揭示內容可利用主題機率向量差來將不同區域商品清單312、322內透過文字相似度與圖形相似度比對失敗的商品(亦即第三商品、第四商品)進一步建立對應關係以產生跨區域商品清單332。
為了進一步說明步驟S212,請參考第3、5圖。於步驟S502,處理裝置120收集第一區域電子商務商品清單314與第二區域電子商務商品清單324。具體而言,處理裝置120可從不同區域310、320的電子商務平台313、323(例如拍賣網站)收集區域電子商務商品清單314、324。
於步驟S504,處理裝置120透過文字相似度將第一區域電子商務商品清單314加入第一區域商品清單312,並將第二區域電子商務商品清單324加入第二區域商品清單322。具體而言,處理裝置120計算區域i(例如區域310)的區域電子商務商品清單(例如區域電子商務商品清單314)內第x項販售項目offers(i,x)與同區域(例如區域310)的區域商品清單(例如區域商品清單312)中每一項商品product(i,y)的商品品牌相似度BrandSim(offers(i,x),product(i,y))與商品名稱相似度ProductSim(offers(i,x),product(i,y))。須說明的是,由於區域電子商務商品清單314、324內販售項目offers(i, x)的標題可能包含商品品牌、商品名稱、容量、賣家資訊與其他描述,以英文品牌名稱相似度EBSim(offers(i,x),product(i,y))為例,處理裝置120可先設定英文品牌名稱的字元長度n以分別計算販售項目offers(i,x)標題的不同字元區間的字串相似度,並且選取字串相似度的最大值為英文品牌名稱相似度EBSim(offers(i,x),product(i,y))。
類似地,處理裝置120可計算出區域電子商務商品清單314內販售項目offers(i,x)與區域商品清單312內每一項商品product(i,y)的當地語言品牌名稱相似度LBSim(offers(i,x),product(i,y))、英文商品名稱相似度EPSim(offers(i,x),product(i,y))與當地語言商品名稱相似度LPSim(offers(i,x),product(i,y))。接著,處理裝置透過公式(6)計算出區域310的區域電子商務商品清單314內販售項目offers(i,x)與區域商品清單312內每一項商品product(i,y)的文字相似度TextSim(offers(i,x),product(i,y))。
TextSim(offers(i,x),product(i,y))=max(EBSim(offers(i,x),product(i,y)),LBSim(offers(i,x),product(i,y)))+max(EPSim(offers(i,x),product(i,y)),LPSim(offers(i,x),product(i,y)))......公式(6)
須說明的是,處理裝置120根據公式(6)將英文品牌名稱相似度LBSim(offers(i,x),product(i,y))與當地語言品牌名稱相似度LBSim(offers(i,x),product(i, y))的最大值加上英文商品名稱相似度EPSim(offers(i,x),product(i,y))與當地語言商品名稱相似度LPSim(offers(i,x),product(i,y))的最大值以計算出文字相似度TextSim(offers(i,x),product(i,y))。
如上述,處理裝置120可判斷文字相似度TextSim(offers(i,x),product(i,y))是否大於等於門檻值。門檻值可由專家決定,或透過習知的統計分析或機器學習方法決定。須說明的是,當TextSim(offers(i,x),product(i,y))小於門檻值,表示販售項目offers(i,x)於同區域的區域商品清單內無對應商品。反之,當TextSim(offers(i,x),product(i,y))大於等於門檻值,則處理裝置120將對應商品product(i,y)的販售項目offers(i,x)加入區域商品清單312,將前述販售項目offers(i,x)標題中所對應到商品名稱的字元區間以空格取代,並且重複上述比對流程直到計算出的TextSim(offers(i,x),product(i,y))小於門檻值。
如此一來,本揭示內容可將複雜的區域電子商務商品清單314、324與同區域的區域商品清單312、322整合。
關於對應至區域商品清單312內商品product(i,y)的區域電子商務商品清單314內販賣項目offers(i,x),於一實施例中,處理裝置120可於步驟S506解析第一區域電子商務商品清單314的第一商品容量資料與第二區域電子商務商品清單324的第二商品容量資料。
為了說明步驟S506,請參考第6圖。於步驟S602,處理裝置120根據區域電子商務商品清單314(或324)決定區域商品清單312(或322)內每一商品的容量單位(例如克(g)、毫升(ml))。具體而言,處理裝置120決定對應商品product(i,y)的所有販賣項目offers(i,x)中最常見的容量單位為product(i,y)的容量單位。於步驟S604,處理裝置120根據區域電子商務商品清單314(或324)判斷區域商品清單312(或322)內每一商品的標準容量。具體而言,處理裝置120決定對應商品product(i,y)的所有販賣項目offers(i,x)中最常見的容量為標準容量。舉例而言,處理裝置120判斷對應商品product(i,y)的所有販賣項目offers(i,x)的容量出現的頻率是否高於門檻值(例如10%,其可由專家決定,或透過習知的統計分析或機器學習方法決定)。
於步驟S606,處理裝置120可決定標準容量商品product(i,y)的基準價格(例如所有標準容量商品的價格中位數,但本揭示內容不以此為限),並判斷區域電子商務商品清單314(或324)內對應商品product(i,y)的販售項目的價格是否與基準價格差異過大以產生商品容量資料。由於電子商務平台上販售項目可能有價格波動。處理裝置120可設定合理價格波動範圍(例如50%基準價格至150%基準價格之間,但本揭示內容不以此為限)以判斷電子商務商品清單內對應商品product(i,y)的販售項目的價格是否位於合理價格波動範圍之內,檢查並標記區域電子商 務商品清單314(或324)內價格異常的販賣項目,進而產生第一商品容量資料(或第二商品容量資料)。
處理裝置120於步驟S506無法決定標準容量的販售項目可能有數量大於一或商品組合的情形。關於未決定標準容量的販售項目,處理裝置120可於步驟S508解析第一區域電子商務商品清單314之第一商品數量資料與第二區域電子商務商品清單324之第二商品數量資料。具體而言,處理裝置120首先擷取未決定標準容量的販售項目標題的數量字詞(例如正整數n),並且根據擷取出的數量字詞計算複數商品的基準價格與合理價格波動範圍(例如(50%*n*基準價格)至(150%*n*基準價格)之間,但本揭示內容不以此為限)。處理裝置120進一步判斷未決定標準容量的販售項目的價格是否位於複數商品的合理價格波動範圍內,並根據位於複數商品的合理價格波動範圍內的販賣項目產生第一商品數量資料(或第二商品數量資料)。
須說明的是,處理裝置120亦可於步驟S508解析出商品組合的販售項目。具體而言,處理裝置120可將區域電子商務商品清單314(或324)的販售項目標題內最接近商品名稱的容量字詞作為該商品的容量。因此,處理裝置可計算出商品組合販售項目的合理價格波動範圍,並根據位於商品組合販售項目的合理價格波動範圍內的販賣項目產生第一商品數量資料(或第二商品數量資料)。
於步驟S510,處理裝置120將第一商品容量資料與第一商品數量資料加入第一區域商品清單,將第二商品 容量資料與第二商品數量資料加入第二區域商品清單。
實作上,資料庫110可儲存於儲存裝置,例如電腦硬碟、或其他電腦可讀取之紀錄媒體等,亦可以雲端資料庫的方式來實施,本領域具通常知識者在不超出本揭示內容之精神的情況下,可依應用需求自行訂定。處理裝置120(或處理器)可以是中央處理單元(Central processing unit,CPU)或微處理器(Microprocessor)。
綜上所述,本揭示內容可透過文字相似度、圖形相似度與主題機率向量差來將不同區域310、320內名稱不完全相同的相同商品進行比對以產生跨區域商品清單332。此外,本揭示內容亦可將名稱複雜的電子商務平台販售項目(包含容量、數量、組合資訊)整合於區域商品清單312、322以進一步對應至跨區域商品清單332。因此,使用者根據跨區域商品清單332得知不同區域310、320內特定商品的資訊(例如價格、銷售量)以助於商業評估。
雖然本揭示內容已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本揭示內容之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視申請專利範圍所界定者為準。

Claims (17)

  1. 一種跨區域商品對應方法,包含:透過文字相似度與圖形相似度來比對一第一區域商品清單與一第二區域商品清單,並將比對成功之該第一商品與該第二商品建立對應關係,其中該第一區域商品清單包含該第一商品與一第三商品,該第二區域商品清單包含該第二商品與一第四商品,該第三商品與該第四商品比對不成功;計算該第一商品與該第二商品之一第一主題機率向量差以及該第三商品與該第四商品之一第二主題機率向量差;當該第一主題機率向量差近似於該第二主題機率向量差時,將比對不成功之該第三商品與該第四商品建立對應關係;產生該第一區域商品清單與該第二區域商品清單之一跨區域商品清單,其中該跨區域商品清單包含該第一商品、該第二商品、該第三商品與該第四商品;透過文字相似度將一第一區域電子商務商品清單加入該第一區域商品清單,並將一第二區域電子商務商品清單加入該第二區域商品清單;以及將該第一區域商品清單與該第二區域商品清單對應該跨區域商品清單顯示於一顯示裝置。
  2. 如請求項1所述之跨區域商品對應方法,更包含: 解析該第一區域電子商務商品清單之一第一商品容量資料;解析該第二區域電子商務商品清單之一第二商品容量資料;以及將該第一商品容量資料加入該第一區域商品清單,並將該第二商品容量資料加入該第二區域商品清單。
  3. 如請求項2所述之跨區域商品對應方法,更包含:根據該第一商品容量資料與該第二商品容量資料決定一第一商品標準容量資料與一第二商品標準容量資料;以及根據該第一商品標準容量資料與該第二商品標準容量資料偵測該第一區域電子商務商品清單與該第二區域電子商務商品清單內是否有一價格異常商品。
  4. 如請求項1所述之跨區域商品對應方法,更包含:解析該第一區域電子商務商品清單之一第一商品數量資料;解析該第二區域電子商務商品清單之一第二商品數量資料;以及將該第一商品數量資料加入該第一區域商品清單,並將該第二商品數量資料加入該第二區域商品清單。
  5. 如請求項1所述之跨區域商品對應方法,其中透過文字相似度與圖形相似度來比對該第一區域商品清單與該第二區域商品清單包含:計算該第一商品與該第二商品之一第一文字相似度與一第一圖形相似度;以及當該第一文字相似度大於等於一第一門檻值或該第一圖形相似度大於等於一第二門檻值時,判斷該第一商品與該第二商品比對成功。
  6. 如請求項5所述之跨區域商品對應方法,其中計算該第一商品與該第二商品之該第一文字相似度包含:計算該第一商品與該第二商品之一品牌名稱相似度與一商品名稱相似度;以及將該品牌名稱相似度與該商品名稱相似度相加以產生該第一文字相似度。
  7. 如請求項1所述之跨區域商品對應方法,其中透過文字相似度與圖形相似度來比對該第一區域商品清單與該第二區域商品清單包含:計算該第三商品與該第四商品之一第二文字相似度與一第二圖形相似度;以及當該第二文字相似度小於一第一門檻值且該第二圖形相似度小於一第二門檻值時,判斷該第三商品與該第四商品比對不成功。
  8. 如請求項1所述之跨區域商品對應方法,更包含:透過潛藏狄利克里分配(Latent Dirichlet allocation,LDA)計算該第一主題機率向量差與該第二主題機率向量差。
  9. 一種跨區域商品對應系統,包含:一資料庫,用以儲存一第一區域商品清單與一第二區域商品清單,其中該第一區域商品清單包含一第一商品與一第三商品,該第二區域商品清單包含一第二商品與一第四商品;以及一處理器,耦接該資料庫並用以透過文字相似度與圖形相似度來比對該第一區域商品清單與該第二區域商品清單,並將比對成功之該第一商品與該第二商品建立對應關係,其中該第三商品與該第四商品比對不成功,該處理器更用以計算該第一商品與該第二商品之一第一主題機率向量差以及該第三商品與該第四商品之一第二主題機率向量差,當該第一主題機率向量差近似於該第二主題機率向量差時,將比對不成功之該第三商品與該第四商品建立對應關係,該處理器更用以產生該第一區域商品清單與該第二區域商品清單之一跨區域商品清單,透過文字相似度將一第一區域電子商務商品清單加入該第一區域商品清單,並將一第二區域電子商務商品清單加入該第二區域商品清單,以及將該第一區域商品清單與該第二區域商品清單對 應該跨區域商品清單顯示於一顯示裝置,其中該跨區域商品清單包含該第一商品、該第二商品、該第三商品與該第四商品。
  10. 如請求項9所述之跨區域商品對應系統,其中該處理器更用以解析該第一區域電子商務商品清單之一第一商品容量資料,解析該第二區域電子商務商品清單之一第二商品容量資料,根據該第一商品容量資料與該第二商品容量資料偵測該第一商品容量資料與該第二商品容量資料內是否有一價格異常商品,並且將該第一商品容量資料加入該第一區域商品清單並將該第二商品容量資料加入該第二區域商品清單。
  11. 如請求項10所述之跨區域商品對應系統,其中該處理器更用以根據該第一商品容量資料與該第二商品容量資料決定一第一商品標準容量資料與一第二商品標準容量資料,並且根據該第一商品標準容量資料與該第二商品標準容量資料偵測該第一區域電子商務商品清單與該第二區域電子商務商品清單內是否有一價格異常商品。
  12. 如請求項9所述之跨區域商品對應系統,其中該處理器更用以解析該第一區域電子商務商品清單之一第一商品數量資料,解析該第二區域電子商務商品清單之一第二商品數量資料,並且將該第一商品數量資料加入 該第一區域商品清單並將該第二商品數量資料加入該第二區域商品清單。
  13. 如請求項9所述之跨區域商品對應系統,其中該處理器更用以計算該第一商品與該第二商品之一第一文字相似度與一第一圖形相似度,並且當該第一文字相似度大於等於一第一門檻值或該第一圖形相似度大於等於一第二門檻值時,判斷該第一商品與該第二商品比對成功。
  14. 如請求項13所述之跨區域商品對應系統,其中該處理器更用以計算該第一商品與該第二商品之一品牌名稱相似度與一商品名稱相似度,將該品牌名稱相似度與該商品名稱相似度相加以產生該第一文字相似度。
  15. 如請求項9所述之跨區域商品對應系統,其中該處理器更用以計算該第三商品與該第四商品之一第二文字相似度與一第二圖形相似度,並且當該第二文字相似度小於一第一門檻值且該第二圖形相似度小於一第二門檻值時,判斷該第三商品與該第四商品比對不成功。
  16. 如請求項9所述之跨區域商品對應系統,其中該處理器更用以透過潛藏狄利克里分配計算該第一主題機率向量差與該第二主題機率向量差。
  17. 一種非暫態電腦可讀取記錄媒體儲存一 電腦可執行指令,用於使一處理器執行一跨區域商品對應方法,該跨區域商品對應方法包含:透過文字相似度與圖形相似度來比對一第一區域商品清單與一第二區域商品清單,並將比對成功之該第一商品與該第二商品建立對應關係,其中該第一區域商品清單包含該第一商品與一第三商品,該第二區域商品清單包含該第二商品與一第四商品,該第三商品與該第四商品比對不成功;計算該第一商品與該第二商品之一第一主題機率向量差以及該第三商品與該第四商品之一第二主題機率向量差;當該第一主題機率向量差近似於該第二主題機率向量差時,將比對不成功之該第三商品與該第四商品建立對應關係;產生該第一區域商品清單與該第二區域商品清單之一跨區域商品清單,其中該跨區域商品清單包含該第一商品、該第二商品、該第三商品與該第四商品;透過文字相似度將一第一區域電子商務商品清單加入該第一區域商品清單,並將一第二區域電子商務商品清單加入該第二區域商品清單;以及將該第一區域商品清單與該第二區域商品清單對應該跨區域商品清單顯示於一顯示裝置。
TW105139743A 2016-12-01 2016-12-01 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體 TWI621084B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW105139743A TWI621084B (zh) 2016-12-01 2016-12-01 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體
CN201611094944.5A CN108133383A (zh) 2016-12-01 2016-12-02 跨区域商品对应方法及***
US15/372,377 US20180157714A1 (en) 2016-12-01 2016-12-07 System, method and non-transitory computer readable storage medium for matching cross-area products

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105139743A TWI621084B (zh) 2016-12-01 2016-12-01 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體

Publications (2)

Publication Number Publication Date
TWI621084B true TWI621084B (zh) 2018-04-11
TW201822094A TW201822094A (zh) 2018-06-16

Family

ID=62243975

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105139743A TWI621084B (zh) 2016-12-01 2016-12-01 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體

Country Status (3)

Country Link
US (1) US20180157714A1 (zh)
CN (1) CN108133383A (zh)
TW (1) TWI621084B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895656B (zh) * 2018-09-13 2023-12-29 北京橙果转话科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
US11461829B1 (en) * 2019-06-27 2022-10-04 Amazon Technologies, Inc. Machine learned system for predicting item package quantity relationship between item descriptions

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7065499B1 (en) * 2001-03-19 2006-06-20 I2 Technologies Us, Inc. Intelligent order promising
US7246087B1 (en) * 2000-01-10 2007-07-17 General Electric Company Method and apparatus for product selection assistance
TW200744008A (en) * 2006-05-18 2007-12-01 Geoinfor Scientek Consultant Inc Portable business information service system
US7349868B2 (en) * 2001-05-15 2008-03-25 I2 Technologies Us, Inc. Pre-qualifying sellers during the matching phase of an electronic commerce transaction
TW201310364A (zh) * 2011-08-17 2013-03-01 Nexdoor Inc 商品資訊系統及傳遞方法
TW201405341A (zh) * 2012-07-30 2014-02-01 Alibaba Group Services Ltd 基於產品識別的資訊分類方法及資訊分類系統
TW201422033A (zh) * 2012-11-23 2014-06-01 Ind Tech Res Inst 行動軌跡分析方法與系統
TW201435771A (zh) * 2013-03-15 2014-09-16 Hui-Pin Cheng 購物方法
TW201531974A (zh) * 2014-02-11 2015-08-16 Nen-Fu Huang 商品售後服務通話建立方法及其系統
TW201624386A (zh) * 2014-12-29 2016-07-01 崑山科技大學 商品上架方法
TW201635804A (zh) * 2015-03-27 2016-10-01 Taiwan Wei Shi Value Tech Inc 網路影片商品即時選購系統及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714933B2 (en) * 2000-05-09 2004-03-30 Cnet Networks, Inc. Content aggregation method and apparatus for on-line purchasing system
US7685024B2 (en) * 2005-02-24 2010-03-23 Dolphin Software Ltd. System and method for computerized ordering
JP2008204235A (ja) * 2007-02-21 2008-09-04 Hitachi Ltd 非類似アイテム推薦方法、推薦装置、及びプログラム
US20100169338A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Search System
US8533195B2 (en) * 2011-06-27 2013-09-10 Microsoft Corporation Regularized latent semantic indexing for topic modeling
TWI614705B (zh) * 2013-08-15 2018-02-11 葆光資訊有限公司 跨網站購物伺服器及跨網站線上購物之實現方法
CN105608219B (zh) * 2016-01-07 2019-06-18 上海通创信息技术有限公司 一种基于聚类的流式推荐引擎、推荐***以及推荐方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7246087B1 (en) * 2000-01-10 2007-07-17 General Electric Company Method and apparatus for product selection assistance
US7065499B1 (en) * 2001-03-19 2006-06-20 I2 Technologies Us, Inc. Intelligent order promising
US7349868B2 (en) * 2001-05-15 2008-03-25 I2 Technologies Us, Inc. Pre-qualifying sellers during the matching phase of an electronic commerce transaction
TW200744008A (en) * 2006-05-18 2007-12-01 Geoinfor Scientek Consultant Inc Portable business information service system
TW201310364A (zh) * 2011-08-17 2013-03-01 Nexdoor Inc 商品資訊系統及傳遞方法
TW201405341A (zh) * 2012-07-30 2014-02-01 Alibaba Group Services Ltd 基於產品識別的資訊分類方法及資訊分類系統
TW201422033A (zh) * 2012-11-23 2014-06-01 Ind Tech Res Inst 行動軌跡分析方法與系統
TW201435771A (zh) * 2013-03-15 2014-09-16 Hui-Pin Cheng 購物方法
TW201531974A (zh) * 2014-02-11 2015-08-16 Nen-Fu Huang 商品售後服務通話建立方法及其系統
TW201624386A (zh) * 2014-12-29 2016-07-01 崑山科技大學 商品上架方法
TW201635804A (zh) * 2015-03-27 2016-10-01 Taiwan Wei Shi Value Tech Inc 網路影片商品即時選購系統及方法

Also Published As

Publication number Publication date
TW201822094A (zh) 2018-06-16
CN108133383A (zh) 2018-06-08
US20180157714A1 (en) 2018-06-07

Similar Documents

Publication Publication Date Title
US20190205962A1 (en) Computer Vision and Image Characteristic Search
US8688603B1 (en) System and method for identifying and correcting marginal false positives in machine learning models
US20170200205A1 (en) Method and system for analyzing user reviews
CN107145536B (zh) 用户画像构建方法与装置及推荐方法与装置
US9846885B1 (en) Method and system for comparing commercial entities based on purchase patterns
US9928530B2 (en) Digitization of a catalog of retail products
US20120296900A1 (en) Adaptively learning a similarity model
US20210264463A1 (en) Creating Meta-Descriptors of Marketing Messages to Facilitate In Delivery Performance Analysis, Delivery Performance Prediction and Offer Selection
US8793201B1 (en) System and method for seeding rule-based machine learning models
US11367117B1 (en) Artificial intelligence system for generating network-accessible recommendations with explanatory metadata
CN114969566B (zh) 一种距离度量的政务服务事项协同过滤推荐方法
TWI621084B (zh) 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體
JP2024045510A (ja) 情報処理装置、情報処理方法、およびプログラム
JPWO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
US11055344B2 (en) Product image evaluation system and method
US20240054185A1 (en) Image and video instance association for an e-commerce applications
Raj et al. Loyalty score generation for customers using sentimental analysis of reviews in e-commerce
US11861882B2 (en) Systems and methods for automated product classification
JP2024050174A (ja) 情報処理装置、情報処理方法、及びプログラム
Qiu A predictive model for customer purchase behavior in e-commerce context
JP6809148B2 (ja) プログラムおよび組み合わせ抽出システム
CN112307298A (zh) 个人品牌标签的生成方法及其装置
Ko et al. Suspicious online product reviews: An empirical analysis of brand and product characteristics using Amazon data
Wang et al. Improving Amazon-like review systems by considering the credibility and time-decay of public reviews
US20220092634A1 (en) Information processing device and non-transitory computer readable medium