TW202022782A - 一種神經網路的訓練方法及圖像匹配方法、裝置 - Google Patents
一種神經網路的訓練方法及圖像匹配方法、裝置 Download PDFInfo
- Publication number
- TW202022782A TW202022782A TW108138710A TW108138710A TW202022782A TW 202022782 A TW202022782 A TW 202022782A TW 108138710 A TW108138710 A TW 108138710A TW 108138710 A TW108138710 A TW 108138710A TW 202022782 A TW202022782 A TW 202022782A
- Authority
- TW
- Taiwan
- Prior art keywords
- clothing
- instance
- image
- clothing instance
- annotation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims description 72
- 238000002372 labelling Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 9
- 230000008447 perception Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010191 image analysis Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申請公開一種神經網路的訓練方法及圖像匹配方法、裝置,至少包括:標注第一服裝實例和第二服裝實例的注釋資訊,所述第一服裝實例和第二服裝實例分別來源於第一服裝圖像和第二服裝圖像;回應於所述第一服裝實例和所述第二服裝實例匹配的情況,將所述第一服裝圖像和所述第二服裝圖像進行配對;基於配對的所述第一服裝圖像和所述第二服裝圖像對待訓練的神經網路進行訓練。
Description
本申請關於服裝圖像解析技術,尤其關於一種神經網路的訓練方法及圖像匹配方法、裝置。
服裝圖像解析,因其在學術界和工業界的巨大潛力,成為近年來逐漸熱門的研究領域。然而,在實際應用中,服裝理解仍然面臨著諸多挑戰。比如資料方面,服裝資料集(DeepFashion)成為現有的最大服裝資料集,但DeepFashion有其自身的缺陷,比如,每張圖像中只有單件服裝實例的注釋,如此定義的基準資料集與實際情況之間的差距,會嚴重影響服裝理解的應用。
為解決上述技術問題,本申請實施例提供了一種神經網路的訓練方法及圖像匹配方法、裝置、儲存介質、電腦程式產品、電腦設備。
本申請實施例提供的神經網路的訓練方法,包括:
標注第一服裝實例和第二服裝實例的注釋資訊,所述第一服裝實例和第二服裝實例分別來源於第一服裝圖像和第二服裝圖像;
回應於所述第一服裝實例和所述第二服裝實例匹配的情況,將所述第一服裝圖像和所述第二服裝圖像進行配對;
基於配對的所述第一服裝圖像和所述第二服裝圖像對待訓練的神經網路進行訓練。
本申請實施例中,所述標注第一服裝實例和第二服裝實例的注釋資訊,包括:
分別標注所述第一服裝實例和所述第二服裝實例的服裝邊界框。
本申請實施例中,所述標注第一服裝實例和第二服裝實例的注釋資訊,還包括:
分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點。
本申請實施例中,所述標注第一服裝實例和第二服裝實例的注釋資訊,還包括:分別標注所述第一服裝實例和所述第二服裝實例的服裝輪廓線以及分割遮罩注釋。
本申請實施例中,所述分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點,包括:
分別獲取所述第一服裝實例和所述第二服裝實例的服裝類別;
基於所述服裝類別的標注規則分別標注出所述第一服裝實例和所述第二服裝實例的對應關鍵點。
本申請實施例中,所述分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點之後,還包括:
標注出每個所述關鍵點的屬性資訊,所述屬性資訊用於表明所述關鍵點是屬於可見點還是屬於遮擋點。
本申請實施例中,所述標注第一服裝實例和第二服裝實例的注釋資訊,還包括:
分別標注出所述第一服裝實例和所述第二服裝實例的邊緣點和交界點,其中,所述邊緣點是指所述服裝實例處於服裝圖像邊界上的點,所述交界點是指所述第一服裝實例或者所述第二服裝實例與其他服裝實例相交界的地方用於繪製服裝輪廓線的點。
本申請實施例中,所述分別標注所述第一服裝實例和所述第二服裝實例的服裝輪廓線,包括:
分別基於所述第一服裝實例和第二服裝實例的關鍵點、每個關鍵點的屬性資訊、邊緣點和交界點,分別繪製所述第一服裝實例和所述第二服裝實例的服裝輪廓線。
本申請實施例中,所述分別標注所述第一服裝實例和所述第二服裝實例的分割遮罩注釋,包括:
基於所述第一服裝實例和所述第二服裝實例的服裝輪廓線分別生成相應的初步的分割遮罩圖;
對所述初步的分割遮罩圖進行修正,得到所述分割遮罩注釋。
本申請實施例中,所述將所述第一服裝圖像和所述第二服裝圖像進行配對包括:為所述第一服裝實例和所述第二服裝實例配置相同的商品標識。
本申請實施例提供的圖像匹配方法,包括:
接收待匹配的第三服裝圖像;
從所述第三服裝圖像中提取出第三服裝實例;
獲取所述第三服裝實例的注釋資訊;
基於所述第三服裝實例的注釋資訊查詢匹配的第四服裝實例。
本申請實施例中,所述從所述第三服裝圖像中提取出第三服裝實例之前,還包括:
對所述第三服裝圖像進行特徵提取。
本申請實施例中,所述獲取所述第三服裝實例的注釋資訊,包括:
獲取所述第三服裝實例的關鍵點、服裝類別、服裝邊界框、以及分割遮罩注釋。
本申請實施例中,所述基於所述第三服裝實例的注釋資訊查詢匹配的第四服裝實例,包括:
基於所述第三服裝實例的注釋資訊以及至少一個待查詢的服裝實例的注釋資訊,確定所述第三服裝實例與各個待查詢的服裝實例的相似度資訊;
基於所述第三服裝實例與各個待查詢的服裝實例的相似度資訊,確定與所述第三服裝實例匹配的第四服裝實例。
本申請實施例提供的神經網路的訓練裝置,包括:
標注模組,用於標注第一服裝實例和第二服裝實例的注釋資訊,所述第一服裝實例和第二服裝實例分別來源於第一服裝圖像和第二服裝圖像;回應於所述第一服裝實例和所述第二服裝實例匹配的情況,將所述第一服裝圖像和所述第二服裝圖像進行配對;
訓練模組,用於基於配對的所述第一服裝圖像和所述第二服裝圖像對待訓練的神經網路進行訓練。
本申請實施例中,所述標注模組,用於:
分別標注所述第一服裝實例和所述第二服裝實例的服裝邊界框。
本申請實施例中,所述標注模組,用於:
分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點。
本申請實施例中,所述標注模組,用於:
分別標注所述第一服裝實例和所述第二服裝實例的服裝輪廓線以及分割遮罩注釋。
本申請實施例中,所述標注模組,用於:
分別獲取所述第一服裝實例和所述第二服裝實例的服裝類別;
基於所述服裝類別的標注規則分別標注出所述第一服裝實例和所述第二服裝實例的對應關鍵點。
本申請實施例中,所述標注模組,用於:
標注出每個所述關鍵點的屬性資訊,所述屬性資訊用於表明所述關鍵點是屬於可見點還是屬於遮擋點。
本申請實施例中,所述標注模組,用於:
分別標注出所述第一服裝實例和所述第二服裝實例的邊緣點和交界點,其中,所述邊緣點是指所述服裝實例處於服裝圖像邊界上的點,所述交界點是指所述第一服裝實例或者所述第二服裝實例與其他服裝實例相交界的地方用於繪製服裝輪廓線的點。
本申請實施例中,所述標注模組,用於:
分別基於所述第一服裝實例和第二服裝實例的關鍵點、每個關鍵點的屬性資訊、邊緣點和交界點,分別繪製所述第一服裝實例和所述第二服裝實例的服裝輪廓線。
本申請實施例中,所述標注模組,用於:
基於所述第一服裝實例和所述第二服裝實例的服裝輪廓線分別生成相應的初步的分割遮罩圖;
對所述初步的分割遮罩圖進行修正,得到所述分割遮罩注釋。
本申請實施例中,所述標注模組,用於:
為所述第一服裝實例和所述第二服裝實例配置相同的商品標識。
本申請實施例提供的圖像匹配裝置,包括:
接收模組,用於接收待匹配的第三服裝圖像;
提取模組,用於從所述第三服裝圖像中提取出第三服裝實例;獲取所述第三服裝實例的注釋資訊;
匹配模組,用於基於所述第三服裝實例的注釋資訊查詢匹配的第四服裝實例。
本申請實施例中,所述提取模組,還用於從所述第三服裝圖像中提取出第三服裝實例之前,對所述第三服裝圖像進行特徵提取。
本申請實施例中,所述提取模組,用於獲取所述第三服裝實例的關鍵點、服裝類別、服裝邊界框、以及分割遮罩注釋。
本申請實施例中,所述匹配模組,用於基於所述第三服裝實例的注釋資訊以及至少一個待查詢的服裝實例的注釋資訊,確定所述第三服裝實例與各個待查詢的服裝實例的相似度資訊;
基於所述第三服裝實例與各個待查詢的服裝實例的相似度資訊,確定與所述第三服裝實例匹配的第四服裝實例。
本申請實施例提供的儲存介質上儲存電腦程式,所述電腦程式被電腦設備執行後,能夠實現上述的神經網路的訓練方法或圖像匹配方法。
本申請實施例提供的電腦程式產品包括電腦可執行指令,該電腦可執行指令被執行後,能夠實現上述的神經網路的訓練方法或圖像匹配方法。
本申請實施例提供的電腦設備包括記憶體和處理器,所述記憶體上儲存有電腦可執行指令,所述處理器運行所述記憶體上的電腦可執行指令時可實現上述的神經網路的訓練方法或圖像匹配方法。
本申請實施例的技術方案中,構建的圖像資料集是一種具有全面注釋的大規模基準資料集,通過標注單張圖像中存在的全部服裝實例,為服裝解析演算法的開發與應用提供了一個更加全面的服裝資料集,促進了服裝理解的應用。另一方面,通過端到端方式的深度服裝解析框架,可以實現直接以採集的服裝圖像作為輸入,且實現服裝實例級的檢索任務,該框架具有通用性,適用於任何深度神經網路,也適用於其他目標檢索任務。
601‧‧‧標注模組
602‧‧‧訓練模組
701‧‧‧接收模組
702‧‧‧提取模組
703‧‧‧匹配模組
100‧‧‧電腦設備
1002‧‧‧處理器
1004‧‧‧記憶體
1006‧‧‧傳輸裝置
圖1為本申請實施例提供的圖像資料集的標注方法的流程示意圖;
圖2為本申請實施例提供的服裝圖像的類別及相關注釋的示意圖;
圖3為本申請實施例提供的神經網路的訓練方法的流程示意圖;
圖4為本申請實施例提供的Match R-CNN框架圖;
圖5為本申請實施例提供的圖像匹配方法的流程示意圖;
圖6為本申請實施例提供的神經網路的訓練裝置的結構組成示意圖;
圖7為本申請實施例提供的圖像匹配裝置的結構組成示意圖;
圖8為本申請實施例的電腦設備的結構組成示意圖。
現在將參照附圖來詳細描述本申請的各種示例性實施例。應注意到:除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對佈置、數位運算式和數值不限制本申請的範圍。
同時,應當明白,為了便於描述,附圖中所示出的各個部分的尺寸並不是按照實際的比例關係繪製的。
以下對至少一個示例性實施例的描述實際上僅僅是說明性的,絕不作為對本申請及其應用或使用的任何限制。
對於相關領域普通技術人員已知的技術、方法和設備可能不作詳細討論,但在適當情況下,所述技術、方法和設備應當被視為說明書的一部分。
應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨後的附圖中不需要對其進行進一步討論。
本申請實施例可以應用於電腦系統/伺服器等電子設備,其可與眾多其它通用或專用計算系統環境或配置
一起操作。適於與電腦系統/伺服器等電子設備一起使用的眾所周知的計算系統、環境和/或配置的例子包括但不限於:個人電腦系統、伺服器電腦系統、瘦客戶機、厚客戶機、手持或膝上設備、基於微處理器的系統、機上盒、可程式設計消費電子產品、網路個人電腦、小型電腦系統、大型電腦系統和包括上述任何系統的分散式雲計算技術環境,等等。
電腦系統/伺服器等電子設備可以在由電腦系統執行的電腦系統可執行指令(諸如程式模組)的一般語境下描述。通常,程式模組可以包括常式、程式、目的程式、組件、邏輯、資料結構等等,它們執行特定的任務或者實現特定的抽象資料類型。電腦系統/伺服器可以在分散式雲計算環境中實施,分散式雲計算環境中,任務是由通過通信網路連結的遠端處理設備執行的。在分散式雲計算環境中,程式模組可以位於包括存放裝置的本地或遠端計算系統儲存介質上。
在實現本申請的過程中,本申請人通過研究發現,服裝理解仍然面臨著諸多挑戰,至少存在以下問題:
1)資料方面:首先,衣服本身在款式、質地、剪裁等方面變化很大,單件服裝存在不同程度的變形和遮擋。其次,相同服裝在不同拍攝場景下差異很大,比如消費者自拍圖像(買家秀)與線上商業圖像(賣家秀)。以往的研究試圖通過使用語義屬性、服裝位置或跨域來注釋服裝資料集來處理上述挑戰,但不同的資料集使用不同類型的資訊進行注釋。直到DeepFashion資料集出現,將上述注釋統一起來,
成為最大的服裝資料集。但DeepFashion有其自身的缺陷,比如,每張圖像中只有單件服裝的注釋,而每個服裝類別共用8個稀疏的關鍵點標記,同時沒有精細的分割遮罩注釋。如此定義的基準資料集與實際情況之間的差距,會嚴重影響服裝理解的應用。
2)任務定義方面:首先,近年來出現各種各樣的任務來解析服裝圖像,例如,服裝檢測與識別、關鍵點預測、服裝分割、服裝匹配與檢索。但是,針對服裝不同程度的變化、易變形、多遮擋等特點,缺少一個更廣泛更統一的評測基準來定義和解釋上述所有任務。其次,以往服裝的關鍵點標記是按照人體骨架輪廓定義,只分上裝和下裝兩種類型,這勢必會影響關鍵點預測指標的準確性。另外,在實際情況中單張圖像內會存在多種類型的服飾,基於整張圖像定義的檢索任務會影響演算法的服裝理解能力。
3)演算法實現方面:為了更好的處理服裝圖像在不同場景下的差異,以往的方法已引入深度模型來學習更多的判別表達,但因忽略了服裝圖像中的變形和遮擋而阻礙了識別精度的提高。DeepFashion的工作專門針對服裝識別與檢索任務設計了深度模型--FashionNet,通過預測服裝關鍵點和屬性綜合學習的特徵來達到更具辨別力的服裝解析。然而FashionNet存在兩個明顯的缺陷:首先,其服裝分類與檢索任務的實現並不是直接以獲取的圖像作為輸入,而是以手動標記的邊界框裁剪後的子圖像作為輸入,使實際應用過程中的標注成本大大增加。其次,其使用正負樣本間距離約
束的方式來實現服裝檢索任務,因對樣本有較強的依賴而使通用性變差,在實際訓練過程中較難收斂。
圖1為本申請實施例提供的圖像資料集的標注方法的流程示意圖,如圖1所示,所述圖像資料集的標注方法包括以下步驟:
步驟101:構建圖像資料集,所述圖像資料集包括多張服裝圖像,每張服裝圖像包括至少一個服裝實例。
本申請實施例中,構建的圖像資料集是一個擁有豐富注釋資訊適用於廣泛服裝圖像解析任務的標準資料集(稱為DeepFashion2),該圖像資料集包括多張服裝圖像,其中,每張服裝圖像包括一個或多個服裝實例。這裡,服裝實例是指服裝圖像中的某件服裝。需要說明的是,一個服裝圖像中可以僅僅展示一個或多個服裝;也可以通過人物(也即模特)來展示一個或多個服裝,進一步,人物的數量可以是一個或多個。
在一實施方式中,該圖像資料集包括491k張服裝圖像,這491k張服裝圖像共包括801k個服裝實例。
步驟102:標注出所述圖像資料集中的每個服裝實例的注釋資訊,以及標注出第一服裝實例和第二服裝實例的匹配關係,所述第一服裝實例所在的第一服裝圖像和所述第二服裝實例所在的第二服裝圖像來自所述圖像資料集。
本申請實施例中,針對所述圖像資料集中的每個服裝實例,分別標注出所述服裝實例的服裝類別、服裝邊
界框、關鍵點、服裝輪廓線、以及分割遮罩注釋。以下對各個注釋資訊如何進行標注進行說明。
1)服裝類別
本申請實施例針對圖像資料集定義了13種常見的服裝類別,包括:短袖上衣、長袖上衣、短袖外套、長袖外套、背心、吊帶、短褲、長褲、短裙、短袖連衣裙、長袖連衣裙、背心連衣裙、以及帶吊連衣裙。
標注出服裝實例的服裝類別是指:將服裝實例歸類於上述13種服裝類別的其中一種。
2)服裝邊界框
本申請實施例中,服裝邊界框可以通過一個矩形框來實現。標注出服裝實例的服裝邊界框是指:通過一個矩形框覆蓋住服裝實例的顯示區域。
3)關鍵點
本申請實施例中,每個服裝類別有各自獨立的密集關鍵點的定義,不同的服裝類別對應不同的關鍵點的定義,需要說明的是,不同的服裝類別對應的關鍵點的位置和/或個數不同,例如參照圖4,短袖上衣定義了25個關鍵點,短褲定義了10個關鍵點,長袖外套定義了38個關鍵點,短裙定義了8個關鍵點。基於服裝實例的服裝類別標注出對應的關鍵點。
需要說明的是,每張服裝圖像可以有一個或多個服裝實例,需要針對每個服裝實例標注出相應服裝類別的關鍵點。
進一步,基於服裝實例的服裝類別標注出對應的關鍵點之後,標注出每個關鍵點的屬性資訊,所述屬性資訊用於表明所述關鍵點是屬於可見點還是屬於遮擋點。
4)服裝輪廓線
本申請實施例中,在標注出上述圖像資料集中的每個服裝實例的關鍵點後,還需要針對所述圖像資料集中的每個服裝實例,標注出邊緣點和交界點,其中,所述邊緣點是指所述服裝實例處於服裝圖像邊界上的點,所述交界點是指所述服裝實例與其他服裝實例相交界的地方用於繪製服裝輪廓線的點。
而後,基於所述服裝實例標注出的關鍵點、每個關鍵點的屬性資訊、邊緣點和交界點,繪製所述服裝輪廓線。
5)分割遮罩注釋
本申請實施例中,基於所述服裝輪廓線生成初步的分割遮罩圖;對所述初步的分割遮罩圖進行修正,得到所述分割遮罩注釋。
在一種實施方式中,針對所述圖像資料集中的每個服裝實例,標注出如下至少一種注釋資訊:
尺寸,所述尺寸是指服裝實例佔據服裝圖像的比例;
遮擋,所述遮擋是指服裝實例標注出的關鍵點中遮擋點所占的比例;
聚焦,所述聚焦是指服裝實例標注出的關鍵點中超出服裝圖像範圍的關鍵點的比例;
視角,所述視角是指服裝實例的展示角度。
6)本申請實施例的技術方案,除了標注出每個服裝實例的上述標注資訊以外,還標注出每個服裝實例的商品標識和服裝風格。
其中,商品標識可以是以下內容的任意組合:字母、數字、符號。商品標識用於標識同款商品,即同款商品對於的商品標識相同。需要說明的是,同款商品是指剪裁(即樣式)上相同的商品。進一步,具有相同商品標識的服裝實例在服裝風格上有可能不同,也有可能相同,這裡的服裝風格是指顏色、圖案、商標等。
7)本申請實施例的技術方案,除了標注出所述圖像資料集中的每個服裝實例的注釋資訊以外,還標注出第一服裝實例和第二服裝實例的匹配關係,在一個例子中,所述第一服裝實例所在的服裝圖像的來源為買家,所述第二服裝實例所在的服裝圖像的來源為賣家。這裡,所述第一服裝實例和所述第二服裝實例具有相同的商品標識。
以下結合示例對本申請實施例的技術方案進行解釋說明。
構建一個圖像資料集稱為DeepFashion2,DeepFashion2由491k服裝圖像組成,擁有13個服裝類別,801k個服裝實例,801k個服裝邊界框,801k個密集關鍵點及相應的輪廓標記,801k個像素級的分割遮罩注釋,以及873k對買家秀到賣家秀圖片中服裝實例的匹配關係(這裡,買家秀圖片中的服裝實例對應上述第一服裝實例,賣家秀服裝實例對應上述第二服裝實例)。另外,為了覆蓋
服裝常見的變形及遮擋變化,對每個服裝實例拓展標注了尺寸、遮擋、聚焦、視角四種服裝屬性資訊。同時,針對同一件服裝商品(商品標識相同)的不同服裝實例,增加了顏色、圖案、商標等服裝風格的注釋資訊。DeepFashion2是迄今為止擁有最大注釋資訊、最豐富任務、最具表達力、最多樣的服裝資料集。以下描述DeepFashion2的注釋資訊如何標注。
1)服裝類別與服裝邊界框的標注
DeepFashion2的13個服裝類別是從以往的服裝類別中選取,通過比較不同類別的相似性和頻率統計來定義。13種常見的服裝類別包括:短袖上衣、長袖上衣、短袖外套、長袖外套、背心、吊帶、短褲、長褲、短裙、短袖連衣裙、長袖連衣裙、背心連衣裙、以及帶吊連衣裙。
邊界框的標注可以由標注員標記出目標服裝實例所在區域的座標點。
2)關鍵點、服裝輪廓線與分割遮罩注釋的標注
已有的工作是根據人體結構定義關鍵點,上裝與下裝無論任何服裝類型都共用相同的關鍵點,本申請實施例考慮到不同的服裝類別有不同的變形和外觀變化,針對每個服裝類別定義個性化的關鍵點與輪廓線,首次基於“人體姿勢”提出“衣服姿勢”的概念。
如圖2左側展示了4種不同服裝類別的密集關鍵點與服裝輪廓線的定義,右側展示了與其對應的賣家秀與買家秀圖片及注釋資訊,在圖2中,每一行賣家秀與買家秀圖片中的
一對服裝實例具有相同的商品標識,但每件服裝實例卻有不同的顏色、圖案等服裝風格,同時在尺寸、遮擋、聚焦、視角4種屬性上展示出不同的層級。每個服裝實例均標注出關鍵點、輪廓線及分割遮罩注釋。需要說明的是,商品標識可以是以下內容的任意組合:字母、數字、符號。商品標識用於標識同款商品,即同款商品對於的商品標識相同。需要說明的是,同款商品是指剪裁(即樣式)上相同的商品,進一步,具有相同商品標識的服裝實例在服裝風格上有可能不同,也有可能相同。
標注流程分為以下五個步驟:
I:針對每個服裝實例,標注出該服裝類別定義的所有關鍵點,平均每個服裝類別有22個關鍵點;
II:每個可標注的關鍵點需標記出其屬性,可見或者遮擋;
III:為了輔助分割,除關鍵點外增加了兩種類型的標記點,即:邊緣點和交界點。前者代表該服裝實例處於圖片邊界上的點,後者代表該服裝實例與其他服裝實例相交界的地方不屬於關鍵點但用於勾勒服裝輪廓的點,比如“T恤塞進下衣裡面,T恤與下衣交界上的點”;
IV:根據標注的關鍵點、關鍵點屬性、邊緣點與交界點三方面綜合資訊自動連接生成服裝輪廓線,該服裝輪廓線一方面用於檢測標記點是否合理,另一方面作為初步的分割遮罩圖,減輕分割標注成本;
這裡,衣服在模特身上所呈現的穿搭效果需要符合正常的穿搭邏輯,多種衣服在模特身上穿搭時,會出現衣服與衣服之間相交界的地方,例如上衣穿搭在身體的上身,下衣穿搭在身體的下身,上衣可以塞進下衣裡面也可以覆蓋下衣的部分區域,上衣與下衣之間相交界的地方通過標記點標出,基於此,通過檢測勾勒出的服裝輪廓線是否滿足正常的穿搭邏輯,可以判定出用於勾勒服裝輪廓的標記點是否合理。進一步,如果標記點不合理,可以對該不合理的標記點進行修正,即調整該標記點的位置或者刪除該標記點,直到最終勾勒出的服裝輪廓線滿足正常的穿搭邏輯。
V:初步的分割遮罩圖再進行檢查與修正,得到最終的分割遮罩注釋。
這裡,分割遮罩圖是一個二值圖,在該二值圖中,服裝輪廓線勾勒出的區域賦值為真(如“1”表示真),其餘區域賦值為假(如“0”表示假)。分割遮罩圖呈現出了服裝實例的整體輪廓,考慮到標注關鍵點的過程可能會出現某個或某幾個關鍵點標注錯誤的情況,導致分割遮罩圖與正常的服裝類別(例如短袖上衣、短褲、短裙等等)相比,會出現部分地方畸形,因此,需要對分割遮罩圖進行檢查,查找到錯誤的關鍵點,並對該錯誤的關鍵點進行修正,即調整該關鍵點的位置或者刪除該關鍵點。需要說明的是,對分割遮罩圖進行修正後,即可得到分割遮罩注釋。
3)服裝屬性的標注
為了覆蓋服裝各方面變化,對每個服裝實例拓展了尺寸、遮擋、聚焦、視角四種服裝屬性,每種屬性劃分出三個層級。
尺寸:統計服裝實例占整張圖片的比例,分為小(<10%)、中(>10%且<40%)、大(>40%)三級;
遮擋:統計關鍵點中遮擋點占的比例,分為無遮擋、嚴重遮擋(>50%)、部分遮擋(<50%)三級;
聚焦:統計關鍵點中超出圖片範圍的點占的比例,分為無聚焦、大聚焦(>30%)、中級聚焦(<30%)三級;
視角:按服裝展示視角分為無模特展示、正面展示、背面展示。
4)服裝風格的標注
在873k對買家與賣家秀服裝實例匹配中,有43.8k個不同商品標識的服裝實例,平均每個商品標識的服裝實例有13件,這些對應相同商品標識的服裝實例,增加了比如顏色、圖案、商標等服裝風格的注釋。如圖2所示,每行代表對應相同商品標識的服裝實例,其中,用於不同顏色注釋代表不同的服裝風格。
本申請實施例的上述技術方案,每張服裝圖像有一個或多個服裝實例,每個服裝實例有9種注釋資訊,包括風格、尺寸、遮擋、聚焦、視角、邊界框、密集關鍵點和輪廓線、像素級分割遮罩注釋、以及買家秀到賣家秀之間相同服裝實例的匹配關係。這些全面的注釋使得各項理解服裝
圖像的任務得到支援,DeepFashion2是迄今為止最全面的服裝資料集。
基於DeepFashion2,本申請是私立定義了一套全方位的服裝圖像解析任務評測基準,包括服裝檢測與識別、服裝關鍵點與服裝輪廓線估計、服裝分割,基於實例級的買家秀與賣家秀服裝檢索。具體地:
1)服裝檢測與識別
該任務即在輸入圖像中檢測到所有服裝實例的位置並識別出對應服裝類別,其評估指標與通常目標檢測任務相同。
2)服裝關鍵點與服裝輪廓線估計
即對輸入圖像中檢測到的所有服裝實例進行關鍵點預測與服裝輪廓線估計,其評估指標參考人體關鍵點預測任務。每個服裝類別有各自對應的關鍵點。
3)服裝分割
即對輸入圖像中檢測到的所有服裝實例進行分割,自動獲取像素級的分割遮罩注釋,其評估指標與通常目標分割任務相同。
4)基於實例級的買家秀與賣家秀服裝檢索
即對已知的買家秀圖像,檢索出與其檢測到的服裝實例相匹配的賣家秀圖像。該任務與以往工作不同之處在於,直接以買家拍攝照片作為輸入,無需提供服裝實例的邊界框資訊。這裡,由於本申請實施例的神經網路可以從買家拍攝照片中提取出服裝實例的邊界框等資訊,因而可以直接將買家
拍攝照片作為神經網路的輸入,而無需給神經網路提供服裝實例的邊界框資訊。
本申請實施例的上述技術方案,定義了一套全方位的服裝圖像解析任務評測基準,包括在多種服裝屬性變化下的服裝檢測與識別,關鍵點預測與服裝輪廓線估計,服裝分割,基於實例級的買家秀與賣家秀服裝檢索。這些任務作為服裝圖像理解的基礎任務,可作為後續服裝解析任務的基準。通過這些評測基準能夠在不同演算法之間進行直接比較,並深入瞭解它們的優缺點,促進培養出更強大更魯棒的服裝解析系統。
圖3為本申請實施例提供的神經網路的訓練方法的流程示意圖,如圖3所示,所述神經網路的訓練方法包括以下步驟:
步驟301:標注第一服裝實例和第二服裝實例的注釋資訊,所述第一服裝實例和第二服裝實例分別來源於第一服裝圖像和第二服裝圖像;回應於所述第一服裝實例和所述第二服裝實例匹配的情況,將所述第一服裝圖像和所述第二服裝圖像進行配對。
本申請實施例中,第一服裝圖像的來源可以是買家或賣家,第二服裝圖像的來源也可以是買家或賣家。舉個例子:第一服裝圖像的來源為買家,第二服裝圖像的來源為賣家;或者,第一服裝圖像的來源為賣家,第二服裝圖像的來源為買家;或者,第一服裝圖像的來源為賣家,第二服
裝圖像的來源為賣家;或者,第一服裝圖像的來源為買家,第二服裝圖像的來源為買家。
本申請實施例中,第一服裝圖像和第二服裝圖像的選取可以直接來自圖1所示的方法中的圖像資料集,其中,第一服裝圖像至少包括第一服裝實例,第二服裝圖像至少包括第二服裝實例,第一服裝圖像和第二服裝圖像中的每個服裝實例分別標注有的注釋資訊,且第一服裝實例和第二服裝實例被標注出是匹配的。或者,第一服裝圖像和第二服裝圖像的選取不來自圖1所示的方法中的圖像資料集,這種情況,需要對第一服裝實例和第二服裝實例的注釋資訊進行標注,以及標注出第一服裝實例和第二服裝實例的匹配關係,具體地,可以按照如圖1所示的方法對第一服裝實例和第二服裝實例進行標注,以下對如何標注第一服裝實例和第二服裝實例的注釋資訊進行說明。
1)分別標注所述第一服裝實例和所述第二服裝實例的服裝邊界框。
這裡,服裝邊界框可以通過一個矩形框來實現。標注出服裝實例的服裝邊界框是指:通過一個矩形框覆蓋住服裝實例的顯示區域。需要說明的是,本申請實施例的服裝邊界框不局限於矩形框,還可以是其他形狀的邊界框,例如橢圓形邊界框,不規則多邊形邊界框等等。服裝邊界框從整體上反映了服裝實例在服裝圖像中的顯示區域。
2)分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點。
2.1)服裝類別的標注
本申請實施例定義了13種常見的服裝類別,包括:短袖上衣、長袖上衣、短袖外套、長袖外套、背心、吊帶、短褲、長褲、短裙、短袖連衣裙、長袖連衣裙、背心連衣裙、以及帶吊連衣裙。
標注出服裝實例的服裝類別是指:將服裝實例歸類於上述13種服裝類別的其中一種。
2.2)關鍵點的標注
本申請實施例中,分別獲取所述第一服裝實例和所述第二服裝實例的服裝類別;基於所述服裝類別的標注規則分別標注出所述第一服裝實例和所述第二服裝實例的對應關鍵點。
具體地,每個服裝類別有各自獨立的密集關鍵點的定義,不同的服裝類別對應不同的關鍵點的定義,需要說明的是,不同的服裝類別對應的關鍵點的位置和/或個數不同,例如參照圖4,短袖上衣定義了25個關鍵點,短褲定義了10個關鍵點,長袖外套定義了38個關鍵點,短裙定義了8個關鍵點。基於服裝實例的服裝類別標注出對應的關鍵點。
進一步,分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點之後,標注出每個關鍵點的屬性資訊,所述屬性資訊用於表明所述關鍵點是屬於可見點還是屬於遮擋點。這裡,可見點是指該關鍵點能夠被觀看到,遮擋點是指該關鍵點被其他衣服或物品或肢體遮擋,不能夠被觀看到。
進一步,分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點之後,分別標注出所述第一服裝實例和所述第二服裝實例的邊緣點和交界點,其中,所述邊緣點是指所述服裝實例處於服裝圖像邊界上的點,所述交界點是指所述第一服裝實例或者所述第二服裝實例與其他服裝實例相交界的地方用於繪製服裝輪廓線的點。
這裡,多種衣服在模特身上穿搭時,會出現衣服與衣服之間相交界的地方,例如上衣穿搭在身體的上身,下衣穿搭在身體的下身,上衣可以塞進下衣裡面也可以覆蓋下衣的部分區域,上衣與下衣之間相交界的地方通過交界點標出。
3)分別標注所述第一服裝實例和所述第二服裝實例的服裝輪廓線以及分割遮罩注釋。
3.1)服裝輪廓線的標注
分別基於所述第一服裝實例和第二服裝實例的關鍵點、每個關鍵點的屬性資訊、邊緣點和交界點,分別繪製所述第一服裝實例和所述第二服裝實例的服裝輪廓線。
3.2)分割遮罩注釋的標注
基於所述第一服裝實例和所述第二服裝實例的服裝輪廓線分別生成相應的初步的分割遮罩圖;對所述初步的分割遮罩圖進行修正,得到所述分割遮罩注釋。
這裡,分割遮罩圖是一個二值圖,在該二值圖中,服裝輪廓線勾勒出的區域賦值為真(如“1”表示真),其餘區域賦值為假(如“0”表示假)。分割遮罩圖呈現出了服裝實例的整體輪廓,考慮到標注關鍵點的過程可能會出現某個
或某幾個關鍵點標注錯誤的情況,導致分割遮罩圖與正常的服裝類別(例如短袖上衣、短褲、短裙等等)相比,會出現部分地方畸形,因此,需要對分割遮罩圖進行檢查,查找到錯誤的關鍵點,並對該錯誤的關鍵點進行修正,即調整該關鍵點的位置或者刪除該關鍵點。需要說明的是,對分割遮罩圖進行修正後,即可得到分割遮罩注釋。
4)匹配關係的標注
為所述第一服裝實例和所述第二服裝實例配置相同的商品標識,如此實現將所述第一服裝圖像和所述第二服裝圖像進行配對。
這裡,商品標識可以是以下內容的任意組合:字母、數字、符號。商品標識用於標識同款商品,即同款商品對於的商品標識相同。需要說明的是,同款商品是指剪裁(即樣式)上相同的商品。進一步,具有相同商品標識的服裝實例在服裝風格上有可能不同,也有可能相同,這裡的服裝風格是指顏色、圖案、商標等。
步驟302:基於配對的所述第一服裝圖像和所述第二服裝圖像對待訓練的神經網路進行訓練。
本申請實施例中,提出一種新穎的服裝深度解析框架(Match R-CNN),該神經網路基於Mask R-CNN,直接以採集的服裝圖像作為輸入,集合從服裝類別、密集關鍵點、像素級的分割遮罩注釋學習的所有特徵,以端到端方式同時解決四種服裝解析任務,即:1)服裝檢測與識別;
2)服裝關鍵點與服裝輪廓線估計;3)服裝分割;4)基於實例級的買家秀與賣家秀服裝檢索。
本申請實施例中,所述神經網路(稱為Match R-CNN)包括第一特徵提取網路、第一感知網路、第二特徵提取網路、第二感知網路以及匹配網路。其中,第一特徵提取網路和第二特徵提取網路的結構相同,統稱為FN(Feature Network)。第一感知網路和第二感知網路的結構相同,統稱為PN(Perception Network)。匹配網路稱為MN(Matching Network)。第一服裝圖像直接輸入到第一特徵提取網路,第二服裝圖像直接輸入到第二特徵提取網路;第一特徵提取網路的輸出作為第一感知網路的輸入,第二特徵提取網路的輸出作為第二感知網路的輸入,同時,第一特徵提取網路的輸出和第二特徵提取網路的輸出同時作為匹配網路的輸入。具體如下:
將第一服裝圖像輸入第一特徵提取網路進行處理,得到第一特徵資訊;將所述第一特徵資訊輸入第一感知網路進行處理,得到所述第一服裝圖像中的第一服裝實例的注釋資訊;所述第一服裝圖像的來源為買家;
將第二服裝圖像輸入第二特徵提取網路進行處理,得到第二特徵資訊;將所述第二特徵資訊輸入第二感知網路進行處理,得到所述第二服裝圖像中的第二服裝實例的注釋資訊;所述第二服裝圖像的來源為賣家;
將所述第一特徵資訊和所述第二特徵資訊輸入匹配網路進行處理,得到所述第一服裝實例和所述第二服裝實例的匹配結果。
本申請實施例中,在對所述神經網路進行訓練的過程中,對所述關鍵點對應的關鍵點估計交叉熵損失值、所述服裝類別對應的服裝分類交叉熵損失值、所述服裝邊界框對應的邊界框回歸平滑損失值、所述分割遮罩注釋對應的服裝分割交叉熵損失值、以及所述匹配結果對應的服裝檢索交叉熵損失值,同時進行優化。
以下結合示例對本申請實施例的技術方案進行解釋說明。
參照圖4,圖4為Match R-CNN框架圖,以買家秀圖片I 1和賣家秀圖片I 2作為輸入,每張輸入圖像都會經過三個主要的子網路:FN、PN、MN。圖4中簡化了賣家秀圖片I 2經過的FN和PN的結構,需要說明的是,賣家秀圖片I 2經過的FN和PN的結構與買家秀圖片I 1經過的FN和PN的結構相同。具體地:
1)FN包含主網路模組(殘差網路-特徵金字塔網路)(ResNet-FPN,ResNet-Feature Pyramid Networks)、候選框提取模組(Region Proposal Network,RPN)、以及感興趣區域對齊模組(ROIAlign)。輸入圖像首先輸入主網路模組的ResNet自下而上提取特徵,再通過FPN自上而下上採樣及橫向連接構建特徵金字塔,然後由RPN提取候選框,由ROIAlign獲得各層級候選框特徵。
2)PN包含關鍵點估計、服裝檢測、分割預測三個支流,FN提取的候選框特徵分別輸入PN的三個支流。其中,關鍵點估計支流包含8個卷積層和2個反卷積層來預測服裝實例的關鍵點;服裝檢測支流由兩個共用的全連接層:一個用於最終類別預測的全連接層、一個用於邊界框回歸預測的全連接層組成;分割預測支流包含4個卷積層、1個反卷積層、1個用於像素級分割圖預測的卷積層組成。
3)MN包含特徵提取模組和用於服裝檢索的相似度學習模組。FN提取的候選框特徵在服裝類別、輪廓、蒙版分割方面都有很強的辨別能力,本申請實施例利用圖片I 1和I 2在FN階段提取的候選框特徵,分別由特徵提取模組獲取二者對應的特徵向量v 1和v 2,將其差值的平方輸入到全連接層作為兩件服裝實例相似度的評估判斷。
上述Match R-CNN的參數由5個損失函數共同優化,即:
min ΘL=λ 1L cls +λ 2L box +λ 3L pose +λ 4L mask +λ 5L pair
其中為L cls 為服裝分類交叉熵損失值,L box 為邊界框回歸平滑損失值,L pose 為關鍵點估計交叉熵損失值,L mask 為服裝分割交叉熵損失值,L pair 為服裝檢索交叉熵損失值。其中,L cls ,L box ,L pose ,L mask 與Mask R-CN網路定義相同,而
,其中y i =1代表兩個服裝實
例是相匹配的(具有同一商品標識),反之,y i =0代表兩個服裝實例是不匹配的(具有不同商品標識)。
本申請實施例的上述技術方案,提出一種新穎、通用、端到端方式的深度服裝解析框架(Match R-CNN),該框架基於Mask R-CNN,集合從服裝類別、密集關鍵點、像素級的分割遮罩注釋學習的特徵,可同時解決多項服裝圖像解析任務。其中,與以往服裝檢索實現不同,本框架可直接以採集的服裝圖像輸入,首次以端到端方式實現實例級服裝檢索任務,該框架具有通用性,適用於任何深度神經網路,也適用於其他目標檢索任務。
圖5為本申請實施例提供的圖像匹配方法的流程示意圖,如圖5所示,所述圖像匹配方法包括以下步驟:
步驟501:接收待匹配的第三服裝圖像。
本申請實施例中,利用圖3所示的方法對神經網路訓練完成後,可以利用該神經網路來實現服裝匹配與檢索,具體地,首先將待匹配的第三服裝圖像輸入神經網路中。需要說明的是,該第三服裝圖像的來源不做限制,可以是使用者自己拍攝得到的圖像,也可以是使用者從網路下載得到的圖像等等。
步驟502:從所述第三服裝圖像中提取出第三服裝實例。
本申請實施例中,從所述第三服裝圖像中提取出第三服裝實例之前,需要對所述第三服裝圖像進行特徵提取。
步驟503:獲取所述第三服裝實例的注釋資訊。
具體地,獲取所述第三服裝實例的關鍵點、服裝類別、服裝邊界框、以及分割遮罩注釋。
參照圖4,以第三服裝圖像I 1和待查詢的服裝圖像I 2作為輸入,每張輸入圖像都會經過三個主要的子網路:FN、PN、MN。其中,FN用於提取服裝圖像的特徵,PN用於基於FN提取的特徵進行關鍵點估計、服裝類別檢測、服裝邊界框以及分割遮罩注釋預測,MN用於基於FN提取的特徵進行相似度學習,進而實現服裝實例相似度的評估判斷。
本申請實施例利用圖片I 1和I 2在FN階段提取的特徵,獲取二者對應的特徵向量v 1和v 2,將其差值的平方輸入到全連接層作為兩件服裝實例相似度的評估判斷。
步驟504:基於所述第三服裝實例的注釋資訊查詢匹配的第四服裝實例。
本申請實施例中,待查詢的服裝實例的個數為至少一個,這些待查詢的服裝實例可以部分來自一張服裝圖像,也可以全部來自不同的服裝圖像。舉個例子:有3個待查詢的服裝實例,分別來自服裝圖像1(包含1個服裝實例)和服裝圖像2(包含2個服裝實例)。
本申請實施例中,基於所述第三服裝實例的注釋資訊以及至少一個待查詢的服裝實例的注釋資訊,確定所述第三服裝實例與各個待查詢的服裝實例的相似度資訊;基於所述第三服裝實例與各個待查詢的服裝實例的相似度資訊,確定與所述第三服裝實例匹配的第四服裝實例。
具體地,參照圖4,以第三服裝圖像I 1(包含服裝實例1)和待查詢的服裝圖像I 2(包含服裝實例2和服裝實
例3)作為輸入,可以得到服裝實例1與服裝實例2之間的相似度值,以及服裝實例1與服裝實例3之間的相似度值,其中,相似度值越大,則代表匹配程度越大,相似度值越小,則代表匹配程度越小。待查詢的服裝圖像的數目可以是1個,也可以是多個,基於此,可以獲得服裝實例1與各個待查詢的服裝實例的相似度值,然後,將相似度值大於等於閾值的那個服裝實例作為與服裝實例1相匹配的服裝實例(即第四服裝實例)。進一步,神經網路可以輸出所述第四服裝實例來源的圖像。
圖6為本申請實施例提供的神經網路的訓練裝置的結構組成示意圖,如圖6所示,所述裝置包括:
標注模組601,用於標注第一服裝實例和第二服裝實例的注釋資訊,所述第一服裝實例和第二服裝實例分別來源於第一服裝圖像和第二服裝圖像;回應於所述第一服裝實例和所述第二服裝實例匹配的情況,將所述第一服裝圖像和所述第二服裝圖像進行配對;
訓練模組602,用於基於配對的所述第一服裝圖像和所述第二服裝圖像對待訓練的神經網路進行訓練。
在一實施方式中,所述標注模組602,用於:
分別標注所述第一服裝實例和所述第二服裝實例的服裝邊界框。
在一實施方式中,所述標注模組602,用於:
分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點。
在一實施方式中,所述標注模組602,用於:
分別標注所述第一服裝實例和所述第二服裝實例的服裝輪廓線以及分割遮罩注釋。
在一實施方式中,所述標注模組602,用於:
分別獲取所述第一服裝實例和所述第二服裝實例的服裝類別;
基於所述服裝類別的標注規則分別標注出所述第一服裝實例和所述第二服裝實例的對應關鍵點。
在一實施方式中,所述標注模組602,用於:
標注出每個所述關鍵點的屬性資訊,所述屬性資訊用於表明所述關鍵點是屬於可見點還是屬於遮擋點。
在一實施方式中,所述標注模組602,用於:
分別標注出所述第一服裝實例和所述第二服裝實例的邊緣點和交界點,其中,所述邊緣點是指所述服裝實例處於服裝圖像邊界上的點,所述交界點是指所述第一服裝實例或者所述第二服裝實例與其他服裝實例相交界的地方用於繪製服裝輪廓線的點。
在一實施方式中,所述標注模組602,用於:
分別基於所述第一服裝實例和第二服裝實例的關鍵點、每個關鍵點的屬性資訊、邊緣點和交界點,分別繪製所述第一服裝實例和所述第二服裝實例的服裝輪廓線。
在一實施方式中,所述標注模組602,用於:
基於所述第一服裝實例和所述第二服裝實例的服裝輪廓線分別生成相應的初步的分割遮罩圖;
對所述初步的分割遮罩圖進行修正,得到所述分割遮罩注釋。
在一實施方式中,所述標注模組602,用於:
為所述第一服裝實例和所述第二服裝實例配置相同的商品標識。
本領域技術人員應當理解,本實施例中的神經網路的訓練裝置中各個模組的功能可參照前述神經網路的訓練方法的相關描述而理解。
圖7為本申請實施例提供的圖像匹配裝置的結構組成示意圖,如圖7所示,所述裝置包括:
接收模組701,用於接收待匹配的第三服裝圖像;
提取模組702,用於從所述第三服裝圖像中提取出第三服裝實例;獲取所述第三服裝實例的注釋資訊;
匹配模組703,用於基於所述第三服裝實例的注釋資訊查詢匹配的第四服裝實例。
在一實施方式中,所述提取模組702,還用於從所述第三服裝圖像中提取出第三服裝實例之前,對所述第三服裝圖像進行特徵提取。
在一實施方式中,所述提取模組702,用於獲取所述第三服裝實例的關鍵點、服裝類別、服裝邊界框、以及分割遮罩注釋。
在一實施方式中,所述匹配模組703,用於基於所述第三服裝實例的注釋資訊以及至少一個待查詢的服
裝實例的注釋資訊,確定所述第三服裝實例與各個待查詢的服裝實例的相似度資訊;
基於所述第三服裝實例與各個待查詢的服裝實例的相似度資訊,確定與所述第三服裝實例匹配的第四服裝實例。
本領域技術人員應當理解,本實施例中的圖像匹配裝置中各個模組的功能可參照前述圖像匹配方法的相關描述而理解。
本申請實施例上述圖像資料集及其標注出的注釋資訊以及匹配關係可以儲存在一個電腦可讀取儲存介質中,以軟體功能模組的形式實現並作為獨立的產品銷售或使用。
本申請實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存介質中,包括若干指令用以使得一台電腦設備(可以是個人電腦、伺服器、或者網路設備等)執行本申請各個實施例所述方法的全部或部分。而前述的儲存介質包括:U盤、移動硬碟、唯讀記憶體(ROM,Read Only Memory)、磁碟或者光碟等各種可以儲存程式碼的介質。這樣,本申請實施例不限制於任何特定的硬體和軟體結合。
相應地,本申請實施例還提供一種電腦程式產品,其中儲存有電腦可執行指令,該電腦可執行指令被執行時能夠實現本申請實施例的上述跟蹤系統初始化方法。
圖8為本申請實施例的電腦設備的結構組成示意圖,如圖8所示,電腦設備100可以包括一個或多個(圖
中僅示出一個)處理器1002(處理器1002可以包括但不限於微處理器(MCU,Micro Controller Unit)或可程式設計邏輯器件(FPGA,Field Programmable Gate Array)等的處理裝置)、用於儲存資料的記憶體1004、以及用於通信功能的傳輸裝置1006。本領域普通技術人員可以理解,圖8所示的結構僅為示意,其並不對上述電子裝置的結構造成限定。例如,電腦設備100還可包括比圖8中所示更多或者更少的組件,或者具有與圖8所示不同的配置。
記憶體1004可用於儲存應用軟體的軟體程式以及模組,如本申請實施例中的方法對應的程式指令/模組,處理器1002通過運行儲存在記憶體1004內的軟體程式以及模組,從而執行各種功能應用以及資料處理,即實現上述的方法。記憶體1004可包括高速隨機記憶體,還可包括非易失性記憶體,如一個或者多個磁性儲存裝置、快閃記憶體、或者其他非易失性固態記憶體。在一些實例中,記憶體1004可進一步包括相對於處理器1002遠端設置的記憶體,這些遠端存放器可以通過網路連接至電腦設備100。上述網路的實例包括但不限於互聯網、企業內部網、局域網、移動通信網及其組合。
傳輸裝置1006用於經由一個網路接收或者發送資料。上述的網路具體實例可包括電腦設備100的通信供應商提供的無線網路。在一個實例中,傳輸裝置1006包括一個網路介面卡(NIC,Network Interface Controller),其可通過基站與其他網路設備相連從而可與互聯網進行通
訊。在一個實例中,傳輸裝置1006可以為射頻(RF,Radio Frequency)模組,其用於通過無線方式與互聯網進行通訊。
本申請實施例所記載的技術方案之間,在不衝突的情況下,可以任意組合。
在本申請所提供的幾個實施例中,應該理解到,所揭露的方法和智慧設備,可以通過其它的方式實現。以上所描述的設備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,如:多個單元或元件可以結合,或可以集成到另一個系統,或一些特徵可以忽略,或不執行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些介面,設備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。
上述作為分離部件說明的單元可以是、或也可以不是物理上分開的,作為單元顯示的部件可以是、或也可以不是物理單元,即可以位於一個地方,也可以分佈到多個網路單元上;可以根據實際的需要選擇其中的部分或全部單元來實現本實施例方案的目的。
另外,在本申請各實施例中的各功能單元可以全部集成在一個第二處理單元中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能單元的形式實現。
以上所述,僅為本申請的具體實施方式,但本申請的保護範圍並不局限於此,任何熟悉本技術領域的技術人員在本申請揭露的技術範圍內,可輕易想到變化或替換,都應涵蓋在本申請的保護範圍之內。
圖1代表圖為流程圖,無元件符號說明。
Claims (16)
- 一種神經網路的訓練方法,所述方法包括:標注第一服裝實例和第二服裝實例的注釋資訊,所述第一服裝實例和第二服裝實例分別來源於第一服裝圖像和第二服裝圖像;回應於所述第一服裝實例和所述第二服裝實例匹配的情況,將所述第一服裝圖像和所述第二服裝圖像進行配對;基於配對的所述第一服裝圖像和所述第二服裝圖像對待訓練的神經網路進行訓練。
- 根據請求項1所述的方法,其中所述標注第一服裝實例和第二服裝實例的注釋資訊,包括:分別標注所述第一服裝實例和所述第二服裝實例的服裝邊界框。
- 根據請求項2所述的方法,其中所述標注第一服裝實例和第二服裝實例的注釋資訊,還包括:分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點。
- 根據請求項3所述的方法,其中所述標注第一服裝實例和第二服裝實例的注釋資訊,還包括:分別標注所述第一服裝實例和所述第二服裝實例的服裝輪廓線以及分割遮罩注釋
- 根據請求項4所述的方法,其中所述分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點,包括:分別獲取所述第一服裝實例和所述第二服裝實例的服裝類別;基於所述服裝類別的標注規則分別標注出所述第一服裝實例和所述第二服裝實例的對應關鍵點。
- 根據請求項5所述的方法,其中所述分別標注所述第一服裝實例和所述第二服裝實例的服裝類別和關鍵點之後,還包括:標注出每個所述關鍵點的屬性資訊,所述屬性資訊用於表明所述關鍵點是屬於可見點還是屬於遮擋點。
- 根據請求項6所述的方法,其中所述標注第一服裝實例和第二服裝實例的注釋資訊,還包括:分別標注出所述第一服裝實例和所述第二服裝實例的邊緣點和交界點,其中,所述邊緣點是指所述服裝實例處於服裝圖像邊界上的點,所述交界點是指所述第一服裝實例或者所述第二服裝實例與其他服裝實例相交界的地方用於繪製服裝輪廓線的點。
- 根據請求項7所述的方法,其中所述分別標注所述第一服裝實例和所述第二服裝實例的服裝輪廓線,包括:分別基於所述第一服裝實例和第二服裝實例的關鍵點、每個關鍵點的屬性資訊、邊緣點和交界點,分別繪製所述第一服裝實例和所述第二服裝實例的服裝輪廓線。
- 根據請求項8所述的方法,其中所述分別標注所述第一服裝實例和所述第二服裝實例的分割遮罩注釋,包括:基於所述第一服裝實例和所述第二服裝實例的服裝輪廓線分別生成相應的初步的分割遮罩圖;對所述初步的分割遮罩圖進行修正,得到所述分割遮罩注釋。
- 根據請求項1至9任一項所述的方法,其中所述將所述第一服裝圖像和所述第二服裝圖像進行配對包括:為所述第一服裝實例和所述第二服裝實例配置相同的商品標識。
- 一種圖像匹配方法,所述方法包括:接收待匹配的第三服裝圖像;從所述第三服裝圖像中提取出第三服裝實例;獲取所述第三服裝實例的注釋資訊;基於所述第三服裝實例的注釋資訊查詢匹配的第四服裝實例。
- 根據請求項11所述的方法,其中所述從所述第三服裝圖像中提取出第三服裝實例之前,還包括:對所述第三服裝圖像進行特徵提取。
- 根據請求項11或12所述的方法,其中所述獲取所述第三服裝實例的注釋資訊,包括:獲取所述第三服裝實例的關鍵點、服裝類別、服裝邊界框、以及分割遮罩注釋。
- 根據請求項11或12所述的方法,其中所述基於所述第三服裝實例的注釋資訊查詢匹配的第四服裝實例,包括:基於所述第三服裝實例的注釋資訊以及至少一個待查詢的服裝實例的注釋資訊,確定所述第三服裝實例與各個待查詢的服裝實例的相似度資訊;基於所述第三服裝實例與各個待查詢的服裝實例的相似度資訊,確定與所述第三服裝實例匹配的第四服裝實例。
- 一種儲存介質,所述儲存介質上儲存電腦程式,所述電腦程式使得電腦設備執行如請求項1至10中任一項所述的方法步驟,或者請求項11至14任一項所述的方法步驟。
- 一種電腦設備,所述電腦設備包括記憶體和處理器,所述記憶體上儲存有電腦可執行指令,所述處理器運行所述記憶體上的電腦可執行指令時可實現請求項1至10中任一項所述的方法步驟,或者請求項11至14任一項所述的方法步驟。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535420.4A CN109670591B (zh) | 2018-12-14 | 2018-12-14 | 一种神经网络的训练方法及图像匹配方法、装置 |
CN201811535420.4 | 2018-12-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202022782A true TW202022782A (zh) | 2020-06-16 |
TWI760650B TWI760650B (zh) | 2022-04-11 |
Family
ID=66144863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108138710A TWI760650B (zh) | 2018-12-14 | 2019-10-25 | 一種神經網路的訓練方法及圖像匹配方法、裝置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210287091A1 (zh) |
JP (1) | JP2022510712A (zh) |
CN (1) | CN109670591B (zh) |
SG (1) | SG11202106062WA (zh) |
TW (1) | TWI760650B (zh) |
WO (1) | WO2020119311A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670591B (zh) * | 2018-12-14 | 2022-09-27 | 深圳市商汤科技有限公司 | 一种神经网络的训练方法及图像匹配方法、装置 |
CN110197213B (zh) * | 2019-05-21 | 2021-06-04 | 北京航空航天大学 | 基于神经网络的图像匹配方法、装置和设备 |
CN110555393A (zh) * | 2019-08-16 | 2019-12-10 | 北京慧辰资道资讯股份有限公司 | 一种从视频数据中分析行人着装特征的方法和装置 |
CN110879995A (zh) * | 2019-12-02 | 2020-03-13 | 上海秒针网络科技有限公司 | 目标物品检测方法及装置、存储介质及电子装置 |
US10769198B1 (en) * | 2020-02-06 | 2020-09-08 | Caastle, Inc. | Systems and methods for product identification using image analysis from image mask and trained neural network |
CN111444974A (zh) * | 2020-04-02 | 2020-07-24 | 成都三零凯天通信实业有限公司 | 一种基于零样本识别的服装分类方法 |
CN111723687A (zh) * | 2020-06-02 | 2020-09-29 | 北京的卢深视科技有限公司 | 基于神经网路的人体动作识别方法和装置 |
CN111860304B (zh) * | 2020-07-17 | 2024-04-30 | 北京百度网讯科技有限公司 | 一种图像标注方法、电子装置、设备及存储介质 |
CN111860332B (zh) * | 2020-07-21 | 2022-05-31 | 国网山东省电力公司青岛供电公司 | 基于多阈值级联检测器的双通道电力图零部件检测方法 |
CN112102256B (zh) * | 2020-08-22 | 2022-04-12 | 复旦大学 | 面向窄带内镜图像的早期食管鳞癌的癌灶检测及诊断*** |
CN112330580A (zh) * | 2020-10-30 | 2021-02-05 | 北京百度网讯科技有限公司 | 生成人体衣物融合图像的方法、装置、计算设备、介质 |
CN114550201A (zh) * | 2020-11-24 | 2022-05-27 | 华为云计算技术有限公司 | 服装规范化检测方法及装置 |
CN112529768B (zh) * | 2020-12-04 | 2023-01-06 | 中山大学 | 一种基于生成对抗网络的服装编辑和生成方法 |
US11605176B2 (en) | 2021-01-21 | 2023-03-14 | Adobe, Inc. | Retrieving images that correspond to a target body type and pose |
US11907338B2 (en) * | 2021-01-26 | 2024-02-20 | Adobe Inc. | Retrieving images that correspond to a target subject matter within a target context |
CN113255237B (zh) * | 2021-07-07 | 2021-12-10 | 杭州珞珈数据科技有限公司 | 一种基于自动化建模引擎的服装的检索模型及其方法 |
CN113409455A (zh) * | 2021-07-16 | 2021-09-17 | 北京沃东天骏信息技术有限公司 | 服装展示方法、装置、电子设备和存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8674989B1 (en) * | 2009-12-17 | 2014-03-18 | Google Inc. | System and method for rendering photorealistic images of clothing and apparel |
JP6300677B2 (ja) * | 2014-07-31 | 2018-03-28 | 富士フイルム株式会社 | コーディネート提案装置及び方法 |
JP6387290B2 (ja) * | 2014-11-28 | 2018-09-05 | 日本電信電話株式会社 | 画像検索装置、画像登録装置、画像特徴選択装置、方法、及びプログラム |
CN105469087B (zh) * | 2015-07-13 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 识别服饰图片的方法、服饰图片的标注方法及装置 |
US9811762B2 (en) * | 2015-09-22 | 2017-11-07 | Swati Shah | Clothing matching system and method |
CN105718552A (zh) * | 2016-01-19 | 2016-06-29 | 北京服装学院 | 基于服装手绘草图的服装图像检索方法 |
CN107622071B (zh) * | 2016-07-15 | 2020-01-07 | 上海媒智科技有限公司 | 通过间接相关反馈在无查源下的衣服图像检索***及方法 |
CN106504064A (zh) * | 2016-10-25 | 2017-03-15 | 清华大学 | 基于深度卷积神经网络的服装分类与搭配推荐方法及*** |
CN108229489B (zh) * | 2016-12-30 | 2020-08-11 | 北京市商汤科技开发有限公司 | 关键点预测、网络训练、图像处理方法、装置及电子设备 |
CN108229288B (zh) * | 2017-06-23 | 2020-08-11 | 北京市商汤科技开发有限公司 | 神经网络训练及衣服颜色检测方法、装置、存储介质、电子设备 |
CN107918780B (zh) * | 2017-09-01 | 2021-09-03 | 中山大学 | 一种基于关键点检测的衣服种类和属性分类方法 |
CN107845092A (zh) * | 2017-11-14 | 2018-03-27 | 深圳码隆科技有限公司 | 服装logo效果检测方法、装置及电子设备 |
CN108022161A (zh) * | 2017-12-26 | 2018-05-11 | 河北中晟易通科技有限公司 | 基于图像识别与大数据分析的服装匹配推荐*** |
CN109670591B (zh) * | 2018-12-14 | 2022-09-27 | 深圳市商汤科技有限公司 | 一种神经网络的训练方法及图像匹配方法、装置 |
-
2018
- 2018-12-14 CN CN201811535420.4A patent/CN109670591B/zh active Active
-
2019
- 2019-10-25 TW TW108138710A patent/TWI760650B/zh active
- 2019-10-30 JP JP2021532389A patent/JP2022510712A/ja active Pending
- 2019-10-30 SG SG11202106062WA patent/SG11202106062WA/en unknown
- 2019-10-30 WO PCT/CN2019/114449 patent/WO2020119311A1/zh active Application Filing
-
2021
- 2021-06-02 US US17/337,343 patent/US20210287091A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
SG11202106062WA (en) | 2021-07-29 |
JP2022510712A (ja) | 2022-01-27 |
WO2020119311A1 (zh) | 2020-06-18 |
CN109670591B (zh) | 2022-09-27 |
TWI760650B (zh) | 2022-04-11 |
US20210287091A1 (en) | 2021-09-16 |
CN109670591A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI760650B (zh) | 一種神經網路的訓練方法及圖像匹配方法、裝置 | |
US9940749B2 (en) | Method and system for generating three-dimensional garment model | |
TWI559242B (zh) | 視覺化服飾檢索 | |
US11321769B2 (en) | System and method for automatically generating three-dimensional virtual garment model using product description | |
Yamaguchi et al. | Paper doll parsing: Retrieving similar styles to parse clothing items | |
Yamaguchi et al. | Parsing clothing in fashion photographs | |
Liu et al. | Fashion parsing with weak color-category labels | |
Chen et al. | Describing clothing by semantic attributes | |
Hidayati et al. | Learning and recognition of clothing genres from full-body images | |
US8983142B1 (en) | Programmatic silhouette attribute determination | |
WO2020051959A1 (zh) | 基于图片的服装尺寸测量方法及装置 | |
CN108229559B (zh) | 服饰检测方法、装置、电子设备、程序和介质 | |
CN102332034B (zh) | 一种人像图片检索方法和装置 | |
CN108109055B (zh) | 一种基于图像渲染的跨场景服装检索方法 | |
CN106933867B (zh) | 一种图像查询方法和装置 | |
CN104952113A (zh) | 服饰试穿体验方法、***及设备 | |
CN109215091B (zh) | 一种基于图表示的服装流行色彩自动提取方法 | |
Cychnerski et al. | Clothes detection and classification using convolutional neural networks | |
CN110647906A (zh) | 基于Faster R-CNN方法的服饰目标检测方法 | |
Zhao et al. | Clothing cosegmentation for shopping images with cluttered background | |
KR102580009B1 (ko) | 의류 피팅 시스템 및 의류 피팅 시스템의 동작 방법 | |
CN111767817A (zh) | 一种服饰搭配方法、装置、电子设备及存储介质 | |
CN109166172B (zh) | 服装模型的构建方法、装置、服务器和存储介质 | |
GB2503331A (en) | Aligning garment image with image of a person, locating an object in an image and searching for an image containing an object | |
Huang et al. | Automatic realistic 3D garment generation based on two images |