TWI832340B

TWI832340B - 模型訓練方法與模型訓練系統

Info

Publication number: TWI832340B
Application number: TW111127008A
Authority: TW
Inventors: 黃鵬樺
Original assignee: 和碩聯合科技股份有限公司
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2024-02-11
Also published as: US20240029412A1; JP2024013209A; CN117422733A; TW202405704A

Abstract

一種模型訓練方法與模型訓練系統。所述方法包括：獲得帶有背景置換標記的第一影像；響應於第一影像的背景置換標記，對第一影像執行自動背景置換以生成第二影像，其中第二影像的背景圖案不同於第一影像的背景圖案；根據第二影像產生訓練資料；以及使用所述訓練資料訓練影像辨識模型。

Description

模型訓練方法與模型訓練系統

本發明是有關於一種模型訓練方法與模型訓練系統。

目前現有的深度學習平台，如果想要在訓練時加入背景合成圖片作為模型的訓練資料，以對訓練資料進行擴充，往往需要先透過額外的影像處理軟體對圖片進行去背及前、後景合成以產生合成圖片。然後，在將合成圖片上傳至線上訓練平台對模型進行訓練。但是，實務上，這樣由使用者手動進行線下(off-line)合成並上傳合成圖片到線上訓練平台的方式嚴重缺乏效率。

有鑑於此，本發明提供一種模型訓練方法與模型訓練系統，可改善上述問題。

本發明的實施例提供一種模型訓練方法，其用於訓練影像辨識模型，所述模型訓練方法包括：獲得第一影像；判斷所述第一影像是否帶有背景置換標記；若所述第一影像帶有所述背景置換標記，響應於所述第一影像的所述背景置換標記，對所述第一影像執行自動背景置換以生成第二影像，其中所述第二影像的背景圖案不同於所述第一影像的背景圖案；根據所述第二影像產生訓練資料；以及使用所述訓練資料訓練所述影像辨識模型。

本發明的實施例另提供一種模型訓練系統，其包括儲存電路與處理器。所述儲存電路用以儲存影像辨識模型。所述處理器耦接至所述儲存電路。所述處理器用以：獲得所述第一影像；判斷所述第一影像是否帶有背景置換標記；若所述第一影像帶有所述背景置換標記，響應於所述第一影像的背景置換標記，對所述第一影像執行自動背景置換以生成第二影像，其中所述第二影像的背景圖案不同於所述第一影像的背景圖案；根據所述第二影像產生訓練資料；以及使用所述訓練資料訓練所述影像辨識模型。

基於上述，本發明提供的模型訓練方法與模型訓練系統，可對影像進行自動背景置換並產生相應的訓練資料以使用所述訓練資料來對影像辨識模型進行訓練。藉此，可有效提高對影像辨識模型的訓練效率。

圖1是本發明的實施例所繪示的模型訓練系統的示意圖。

請參照圖1，模型訓練系統10可安裝或實施於智慧型手機、平板電腦、筆記型電腦、桌上型電腦、伺服器或遊戲機等各式電腦系統中，且所述電腦系統的類型不限於此。

模型訓練系統10可包括處理器11、輸入/輸出(Input/Output, IO)介面12及儲存電路13。處理器11用以負責模型訓練系統10的整體或部分運作。例如，處理器11可包括中央處理單元(Central Processing Unit, CPU)或是其他可程式化之一般用途或特殊用途的微處理器、數位訊號處理器(Digital Signal Processor, DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits, ASIC)、可程式化邏輯裝置(Programmable Logic Device, PLD)或其他類似裝置或這些裝置的組合。

輸入/輸出介面12耦接至處理器11。輸入/輸出介面12用以接收輸入訊號或/以及傳送輸出訊號。例如，輸入/輸出介面12可包括滑鼠、鍵盤、螢幕、網路介面卡、揚聲器或麥克風等各式輸入/輸出裝置，且輸入/輸出介面12的類型不限於此。

儲存電路13耦接至處理器11。儲存電路13用以儲存資料。例如，儲存電路13可包括揮發性儲存電路與非揮發性儲存電路。揮發性儲存電路用以揮發性地儲存資料。例如，揮發性儲存電路可包括隨機存取記憶體(Random Access Memory, RAM)或類似的揮發性儲存媒體。非揮發性儲存電路用以非揮發性地儲存資料。例如，非揮發性儲存電路可包括唯讀記憶體(Read Only Memory, ROM)、固態硬碟(solid state disk, SSD)、傳統硬碟(Hard disk drive, HDD)或類似的非揮發性儲存媒體。

儲存電路13儲存有影像辨識模型14。影像辨識模型14可用以辨識影像(亦稱為目標影像)中的目標物。例如，影像辨識模型14可包括神經網路模型及/或深度學習模型。例如，所述神經網路模型及/或深度學習模型可採用卷積神經網路(Convolutional Neural Networks, CNN)或類似的神經網路來執行影像辨識。此外，透過對影像辨識模型14進行訓練，可提高影像辨識模型14對目標物的辨識效率。

處理器11可利用訓練資料來訓練影像辨識模型14。例如，訓練資料可包括多個訓練影像。處理器11可將某一訓練影像作為目標影像輸入至影像辨識模型14。影像辨識模型14可透過內建的神經網路模型及/或深度學習模型辨識目標影像中的目標物。例如，影像辨識模型14可在目標影像中對所辨識出的目標物進行圈選。影像辨識模型14對目標物的圈選結果可反映影像辨識模型14認為目標物在目標影像中的特徵。在完成對目標物的辨識後，處理器11可將影像辨識模型14對目標物的辨識結果與對應於目標影像的驗證資料進行比對並獲得比對結果。此比對結果可反映出影像辨識模型14對目標物的辨識準確率。處理器11可根據比對結果來調整影像辨識模型14的至少部分參數(例如權重值)，以嘗試提高影像辨識模型14對目標物的辨識效率。透過使用大量包含該目標物的訓練影像來對影像辨識模型14進行訓練，可逐漸提高影像辨識模型14對目標物的辨識效率。此外，在一實施例中，影像辨識模型14對目標影像的辨識結果亦可以包含辨識目標影像中的目標物的類型(例如為狗)等，本發明不加以限制。

一般來說，使用越多且越多樣化帶有同一類型之目標物的訓練影像來對影像辨識模型14進行訓練，可越有效地提高影像辨識模型14對該類型之目標物的辨識效率。例如，當欲提高影像辨識模型14對目標影像中的“狗”的辨識能力時，可利用大量帶有“狗”的圖片來對影像辨識模型14進行訓練。特別是，若此些圖片的多樣性或差異度越高(例如多張圖片中都有同一隻狗，且此些圖片中的背景各不相同)，則使用此些圖片來訓練影像辨識模型14的訓練效率越佳。因此，本發明實施例透過自動化的背景置換操作，自動產生帶有不同背景圖案的目標影像。藉此，可有效提高對影像辨識模型的訓練效率。

在一實施例中，處理器11可獲得帶有背景置換標記的一個影像(亦稱為第一影像)。響應於第一影像的背景置換標記，處理器11可對第一影像執行自動背景置換，以生成另一影像(亦稱為第二影像)。特別是，第二影像的背景圖案不同於第一影像的背景圖案。例如，透過自動對第一影像進行背景置換，可在保留第一影像中的目標物於第二影像中的前提下，產生更多帶有不同背景圖案的第二影像。然後，處理器11可根據第二影像產生訓練資料。例如，訓練資料中的訓練影像可包括所述第二影像。然後，處理器11可使用所述訓練資料訓練影像辨識模型14，從而有效提高影像辨識模型14對目標物的辨識效率。

圖2是根據本發明的實施例所繪示的模型訓練系統的操作流程的示意圖。

請參照圖1與圖2，處理器11可獲得影像21(即第一影像)。在本發明實施例中，影像21可由使用者經過輸入/輸出介面12上傳至模型訓練系統10。處理器11可接收對應於影像21的使用者操作。接著，處理器11可在影像21中添加背景置換標記201。詳細地來說，所述使用者操作可包括標記影像21中的前景區域。例如，前景區域可涵蓋影像21中的目標物。然後，處理器11可根據所述使用者操作(或前景區域)產生對應於影像21的背景置換標記201。例如，背景置換標記201可反映出影像21中的前景區域的涵蓋範圍。

在添加背景置換標記201後，處理器11可對帶有背景置換標記201的影像21執行資料前處理202。例如，資料前處理202可包括對影像21執行顏色調整、亮度調整及/或解析度調整等預設的影像處理操作。

特別是，在執行資料前處理202的過程中，處理器11還可對帶有背景置換標記201的影像21執行自動背景置換203，以生成影像22(即第二影像)。例如，在自動背景置換203中，處理器11可根據背景置換標記201決定影像21中的背景區域。特別是，相較於前景區域，影像21中的背景區域不涵蓋影像21中的目標物。例如，處理器11可根據背景置換標記201將影像21中不屬於前景區域或未被前景區域涵蓋的其餘影像區域都決定為背景區域。接著，在自動背景置換203中，處理器11可使用候選圖案(亦稱為候選背景圖案)來替換背景區域中的預設圖案(亦稱為預設背景圖案)，以生成影像22。藉此，所產生的影像22可同時包含影像21中的前景區域中的原始影像及背景區域中經過替換的背景圖案。在一實施例中，背景置換標記201可用以觸發自動背景置換203。

在產生影像22後，處理器11可根據影像22產生訓練資料23。例如，訓練資料23可包含影像22。接著，處理器11可使用訓練資料23來訓練影像辨識模型14，以提高影像辨識模型14對影像21中的目標物的辨識效率。須注意的是，關於使用訓練資料來訓練影像辨識模型14的相關操作皆已詳述於上且屬本領域的現有技術，故在此不多加贅述。

圖3是根據本發明的實施例所繪示的根據第一影像產生第二影像的示意圖。

請參照圖3，假設第一影像包括影像31。背景置換標記301可根據使用者操作而添加至影像31中。例如，所述使用者操作可包括使用者透過手指、滑鼠或觸控筆等輸入工具在影像31中對目標物(例如狗)進行圈選，以產生背景置換標記301。背景置換標記301可用以界定或區分影像31中的不同區域310與320。例如，影像31中的目標物(例如狗)位於區域310內而不位於區域320內，故區域310與320可分別被視為影像31中的前景區域與背景區域。

接著，影像31的自動背景置換可根據背景置換標記301自動執行，以生成影像32。例如，在對影像31的自動背景置換中，區域320中的圖案(即背景圖案)被替換為不同的背景圖案。但是，在對影像31的自動背景置換中，區域310中包含目標物的圖案則不被改變(即被維持)。

須注意的是，在圖2的實施例中，透過使用不同的候選背景圖案來替換背景區域中的預設背景圖案，更多的影像22可被產生。特別是，所產生的多個影像22中的背景圖案各不相同。藉此，可在保留原始影像(即影像21)中的目標物的前提下，有效提高訓練資料23的多樣性，進而提高後續對影像辨識模組14的訓練效率。

在圖3的實施例中，背景置換標記301可為使用者沿著影像31中的目標物(例如狗)的邊緣進行標記，從而產生與目標物之輪廓相對應的前景區域(即區域310)的涵蓋範圍。然而，在一實施例中，背景置換標記亦可以是使用者採用其他形狀(例如多邊形、圓形或橢圓形等)來標記第一影像中的前景區域(或後景區域)的涵蓋範圍，本發明不加以限制。

圖4是根據本發明的實施例根據第一影像產生第二影像的示意圖。

請參照圖4，假設第一影像包括影像41。背景置換標記401可根據使用者操作而添加至影像41中。特別是，相較於圖3的實施例，影像41中的背景置換標記401的形狀是矩形，且背景置換標記401的形狀不限於此。背景置換標記401可用以界定或區分影像41中的不同區域410(即前景區域)與420(即背景區域)。接著，影像41的自動背景置換可根據背景置換標記401自動執行，以生成影像42。例如，在對影像41的自動背景置換中，區域420中的圖案(即背景圖案)被替換為不同的背景圖案。

在一實施例中，所述使用者操作亦可為對第一影像添加一般性(normal)標記，而非背景置換標記。例如，一般性標記可用以描述第一影像中的目標物的類型及/或目標物在第一影像中的位置。但是，相較於可用以觸發自動背景置換的背景置換標記，對應於第一影像的一般性標記並不會觸發對第一影像的自動背景置換。

在一實施例中，若第一影像未帶有背景置換標記(例如僅帶有一般性標記或沒有任何標記)，則處理器11可直接根據第一影像產生訓練資料。或者，從另一角度而言，響應於未帶有背景置換標記的第一影像，處理器11可不執行(或略過)對第一影像的自動背景置換且不產生第二影像。藉此，透過辨識第一影像是否帶有背景置換標記，處理器11可自動判斷使用者當前是否想要對第一影像執行自動化的背景置換，從而有效提高操作便利性。

在一實施例中，一般性標記可單獨添加至第一影像中，或者與背景置換標記一併添加至第一影像中。亦即，對第一影像執行的使用者操作可指示對第一影像添加一般性標記或者同時添加一般性標記與背景置換標記。

在一實施例中，在根據第一影像或第二影像產生訓練資料後，訓練資料所對應的一般性標記可用以對影像辨識模型14的辨識結果進行驗證。例如，假設某一訓練資料是根據第一影像或第二影像所產生，則在將此訓練資料作為目標影像輸入至影像辨識模型14後，影像辨識模型14可產生判定目標影像中的目標物為“狗”的辨識結果。接著，假設對應於目標影像的一般性標記也是“狗”，則處理器11可透過比對影像辨識模型14的辨識結果與對應於目標影像的一般性標記，判定影像辨識模型14對目標影像的辨識結果是正確的。反之，若影像辨識模型14判定目標影像中的目標物是“豬”，則處理器11可透過比對影像辨識模型14的辨識結果與對應於目標影像的一般性標記，判定影像辨識模型14對目標影像的辨識結果是錯誤的。須注意的是，關於使用所述一般性標記來對影像辨識模型的辨識結果進行驗證的相關操作皆已詳述於上且屬本領域的現有技術，故在此不多加贅述。

圖5是根據本發明的實施例所繪示的模型訓練方法的流程圖。

請參照圖5，在步驟501中，獲得帶有背景置換標記的第一影像。在步驟502中，響應於第一影像的背景置換標記，對第一影像執行自動背景置換以生成第二影像，其中第二影像的背景圖案不同於第一影像的背景圖案。在步驟503中，根據第二影像產生訓練資料。在步驟504中，使用所述訓練資料訓練影像辨識模型。

圖6是根據本發明的實施例所繪示的模型訓練方法的流程圖。

請參照圖6，在步驟601中，獲得第一影像。在步驟602中，接收對應於第一影像的使用者操作。在步驟603中，根據所述使用者操作對第一影像添加標記。例如，所述標記可包括一般性標記或者一般性標記與背景置換標記之組合。

在步驟604中，判斷第一影像是否帶有背景置換標記。響應於第一影像的背景置換標記，在步驟605中，對第一影像執行自動背景置換以生成第二影像，其中第二影像的背景圖案不同於第一影像的背景圖案。在步驟606中，根據第二影像產生訓練資料。或者，響應於未帶有背景置換標記的第一影像，在步驟607中，根據第一影像產生訓練資料。在步驟608中，使用所述訓練資料訓練影像辨識模型。

然而，圖5與圖6中各步驟已詳細說明如上，在此便不再贅述。值得注意的是，圖5與圖6中各步驟可以實作為多個程式碼或是電路，本案不加以限制。此外，圖5與圖6的方法可以搭配以上範例實施例使用，也可以單獨使用，本案不加以限制。

綜上所述，本發明提供的模型訓練方法與模型訓練系統，可對第一影像進行自動背景置換並產生相應的訓練資料以使用所述訓練資料來對影像辨識模型進行訓練。特別是，透過識別或偵測第一影像中額外添加的背景置換標記，自動化的背景置換操作亦可以被自動啟動，以自動產生目標物不變但帶有不同背景圖案的第二影像。藉此。可有效提高對影像辨識模型的訓練效率。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10: 模型訓練系統 11: 處理器 12: 輸入/輸出介面 13: 儲存電路 14: 影像辨識模型 21, 22, 31, 32, 41, 42: 影像 201: 添加背景置換標記 202: 資料前處理 203: 自動背景置換 23: 訓練資料 301, 401: 背景置換標記 310, 320, 410, 420: 區域 501~504, 601~608: 步驟

圖1是本發明的實施例所繪示的模型訓練系統的示意圖。圖2是根據本發明的實施例所繪示的模型訓練系統的操作流程的示意圖。圖3是根據本發明的實施例所繪示的根據第一影像產生第二影像的示意圖。圖4是根據本發明的實施例所繪示的根據第一影像產生第二影像的示意圖。圖5是根據本發明的實施例所繪示的模型訓練方法的流程圖。圖6是根據本發明的實施例所繪示的模型訓練方法的流程圖。

501~504: 步驟

Claims

一種模型訓練方法，用於訓練影像辨識模型，該模型訓練方法包括：獲得第一影像；接收對應於該第一影像的使用者操作；根據該使用者操作在該第一影像中對目標物進行圈選，以產生對應於該第一影像的該背景置換標記，並且將該背景置換標記添加至該第一影像中；判斷該第一影像是否帶有背景置換標記；若該第一影像帶有該背景置換標記，響應於該第一影像的該背景置換標記，對該第一影像執行自動背景置換以生成第二影像，該第二影像的背景圖案不同於該第一影像的背景圖案；根據該第二影像產生訓練資料；以及使用該訓練資料訓練該影像辨識模型。
如請求項1所述的模型訓練方法，其中該使用者操作包括標記該第一影像中的前景區域。
如請求項1所述的模型訓練方法，其中對該第一影像執行該自動背景置換以生成該第二影像的步驟包括：根據該背景置換標記決定該第一影像中的背景區域；以及在該自動背景置換中，使用候選背景圖案替換該背景區域中的預設背景圖案，以生該第二影像。
如請求項1所述的模型訓練方法，更包括：若該第一影像未帶有該背景置換標記，根據該第一影像產生該訓練資料。
一種模型訓練系統，包括：儲存電路，用以儲存影像辨識模型；以及處理器，耦接至該儲存電路，其中該處理器用以獲得第一影像；其中該模型訓練系統更包括：輸入/輸出介面，耦接至該處理器，並用以接收對應於該第一影像的使用者操作，其中該處理器更用以：根據該使用者操作在該第一影像中對目標物進行圈選，以產生對應於該第一影像的該背景置換標記，並且將該背景置換標記添加至該第一影像中；判斷該第一影像是否帶有背景置換標記；若該第一影像帶有該背景置換標記，響應於該第一影像的該背景置換標記，對該第一影像執行自動背景置換以生成第二影像，該第二影像的背景圖案不同於該第一影像的背景圖案；根據該第二影像產生訓練資料；以及使用該訓練資料訓練該影像辨識模型。
如請求項5所述的模型訓練系統，其中該使用者操作包括標記該第一影像中的前景區域。
如請求項5所述的模型訓練系統，其中該處理器對該第一影像執行該自動背景置換以生成該第二影像的操作包括：根據該背景置換標記決定該第一影像中的背景區域；以及在該自動背景置換中，使用候選背景圖案替換該背景區域中的預設背景圖案，以生該第二影像。
如請求項5所述的模型訓練系統，其中若該第一影像未帶有該背景置換標記，該處理器更用以根據該第一影像產生該訓練資料。