TWI672639B

TWI672639B - 使用模擬物件影像之物件辨識系統及其方法

Info

Publication number: TWI672639B
Application number: TW107141572A
Authority: TW
Inventors: 陳昱達; 梁峰銘; 鄭景鴻
Original assignee: 台達電子工業股份有限公司
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-09-21
Also published as: TW202020736A

Abstract

本發明係提供一種使用模擬物件影像之物件辨識方法，該方法包括：(A)取得包括一或多張物件影像之一物件影像集合以及包括複數張背景影像之一背景影像集合；(B)依據該物件影像集合及該背景影像集合產生包括複數張模擬物件影像之一模擬物件影像集合；(C)依據該模擬物件影像集合以訓練出一待測物辨識模型；以及(D)將由一待測場景所取得的一待測影像輸入該待測物辨識模型以取得一物件辨識結果。

Description

使用模擬物件影像之物件辨識系統及其方法

本發明係有關於物件辨識，特別是有關於一種使用模擬物件影像之物件辨識系統及其方法。

辨識模型的訓練建立在大量的標註數據，數據量的多寡與數據的品質影響訓練模型的辨識率。對於一些任務或領域而言，這些數據可以透過長時間的收集得到，幫助該領域解決問題。因此，在模型訓練之前必須花費時間蒐集數據並對其分類、標註。

以辨識系統來說，辨識率的高低取決於是否有足夠充分的數據樣本，樣本的多樣性越高，越能克服在各個場域遇到的問題。因此一個好的辨識模型會耗費許多時間在蒐集數據與標註數據上。另外當特定場域辨識率無法達到標準的狀況下，可以透過蒐集該場域的數據，施以針對性的訓練與調整來提高該場域的辨識率。但也導致整體建置時間延長、提高初期建置成本。另一方面對於個資保護較為縝密的地區，則面臨難以取得大量數據的窘境，必須花費更多資源在收集數據上。

本發明係提供一種使用模擬物件影像之物件辨識系統及其方法以解決傳統辨識系統所遇到的問題。

本發明更提供一種使用模擬物件影像之物件辨識系統，包括：一非揮發性記憶體，用以儲存一物件辨識程式；以及一運算單元，用以執行該物件辨識程式以進行下列步驟：取得包括複數張物件影像之一物件影像集合以及包括複數張背景影像之一背景影像集合；依據該物件影像集合及該背景影像集合產生包括複數張模擬物件影像之一模擬物件影像集合；依據該模擬物件影像集合以訓練出一待測物辨識模型；以及將由一待測場景所取得的一待測影像輸入該待測物辨識模型以取得一物件辨識結果。

以下敘述列舉本發明的多種實施方式。以下敘述介紹本發明的基本概念，且並非意圖限制本發明內容。實際發明範圍應依照申請專利範圍界定之。

第1圖係顯示依據本發明一實施例中之物件辨識系統的方塊圖。

在一實施例中，物件辨識系統100可實現於一電子裝置，例如一個人電腦、一伺服器、或一可攜式裝置。物件辨識系統100包括一運算單元110、一影像擷取裝置120、一儲存單元130、及一顯示器150。

運算單元110可透過多種方式實施，例如以專用硬體電路或者通用硬體（例如：單一處理器、具平行處理能力之多處理器、圖形處理器或者其它具有運算能力之處理器），且於執行與本發明各個模型以及流程有關之程式碼或者軟體時，提供之後所描述的功能。影像擷取裝置120例如為一照相機，用以對一待測場景擷取一待測影像。

儲存單元130包括一揮發性記憶體131及一非揮發性記憶體132。非揮發性記憶體132係用以儲存各種不同影像集合之資料庫、在物件辨識流程中所需要的資料以及各種程式碼，例如各種演算法和/或物件辨識模型等等。非揮發性記憶體132例如可為一硬碟機(hard disk drive)、一固態硬碟機(solid-state disk)、一快閃記憶體(flash memory)、或一唯讀記憶體(read-only memory)，但本發明並不限於此。揮發性記憶體131可為一隨機存取記憶體，例如是一靜態隨機存取記憶體(SRAM)或一動態隨機存取記憶體(DRAM)，但本發明並不限於此。揮發性記憶體131例如可暫存在物件辨識流程中之中間資料及影像。

在一實施例中，非揮發性記憶體132係儲存一物件辨識程式133，且運算單元110係將物件辨識程式133由該非揮發性記憶體132讀取至揮發性記憶體131並執行，其中物件辨識程式133係包括一物件辨識方法之程式碼。

顯示單元150可為顯示面板（例如，薄膜液晶顯示面板、有機發光二極體面板或者其它具顯示能力的面板），用以顯示輸入的字元、數字、符號、拖曳鼠標的移動軌跡或者應用程式所提供的使用者介面，以提供給使用者觀看。物件辨識系統100更可包括一輸入裝置（未繪示），用以供使用者執行對應之操作，例如滑鼠、觸控筆、或鍵盤等，但本發明並不限於此。

在一實施例中，非揮發性記憶體132更包括一第一資料庫135、一第二資料庫136、一第三資料庫137、一第四資料庫138、一第五資料庫139、一第六資料庫140、及一待測物辨識模型141。舉例來說，第一資料庫135係儲存複數張物件場景影像。各物件場景影像例如可包括一或多種類型之物件，其中上述物件例如可為文字(例如A～Z、0～9、或其他字體)、人體、車牌、零組件、及標誌等等，但本發明並不限於此。

第二資料庫136係儲存複數張背景影像，例如為一背景影像集合。其中，上述背景影像例如可為在不同拍攝條件下所取得的任意真實場景之真實背景影像，並不限於待測場景之背景影像，且亦可不包括待測物件。在一些實施例中，上述背景影像更包括電腦視覺技術模擬出之虛擬背景影像。

第三資料庫137係儲存複數張物件影像，例如為一物件影像集合，其中各物件影像例如是可由第一資料庫135中之複數張物件場景影像擷取而得。第四資料庫138係儲存複數張模擬物件影像，例如為一模擬物件影像集合。

其中，運算單元110係依據在第三資料庫137中之物件影像集合、以及第二資料庫136中之背景影像集合以產生第四資料庫138中之模擬物件影像集合，其細節將詳述於後。

第2A－2M圖係顯示依據本發明一實施例在物件辨識流程中所使用的不同影像之示意圖。請同時參考第1圖及第2A－2M圖。為了便於說明，在後述實施例中所使用的待測物件為車牌。

第一資料庫135所儲存之各物件場景影像例如可為真實的車牌影像，例如需包括所有的車牌字元(例如A～Z、0～9、或其他字體)，如第2A圖所示。舉例來說，運算單元110例如可對各物件場景影像進行影像擷取處理以取得車牌中之各字元的影像(意即物件影像)，如第2B圖所示。運算單元110並利用光學字元辨識(optical character recognition)技術或是其他物件辨識技術以取得所有車牌字元，且各車牌字元為單獨的物件影像，如第2C圖所示，其中共有10個數字的物件影像，以及26個字母的物件影像，其中所有車牌字元之物件影像例如可儲存於第三資料庫137。

接著，運算單元110係依據一預定規則由一或多張物件影像組成一或多個訓練用物件。因為在此實施例中是以車牌為例，故上述預定規則為車牌制訂規則，例如包括車牌長寬、字體間距、字元限制、字元佈局、字體顏色、車牌顏色、螺絲孔大小及位置等等。第2D圖所示為汽車(自用小客車)車牌之制訂規則，但本發明並不限定於汽車車牌，其他車輛類型之車牌亦可使用，例如是大型重型機車、普通重型機車、大客車、大貨車等等。意即，不同車輛類型之車牌有相應的一車牌制訂規則，運算單元110可依據所選擇的車牌制訂規則使用車牌字元之物件影像之不同組合以產生一或多個訓練用物件(例如模擬車牌影像)，如第2E圖所示。需注意的是，在第2E圖中之模擬車牌影像是由在第三資料庫137中不同的車牌字元之物件影像所組成，且模擬車牌並沒有加入雜訊、模糊、型態變化或真實場景的各種影像特徴。

運算單元110接著執行第一影像處理對模擬車牌影像(即訓練用物件)加入一或多個物件影像特徴及一或多個背景影像特徴。舉例來說，物件影像特徴例如可為在真實場景中之待測物件，受到環境的影響而產生視覺上的差異。物件影像特徴例如包括：模糊(blurriness)、刮痕或汙損(scratches or stains)、陰影(shadow)、遮蔽(shading)、過曝(overexposure)、變形(distortion)、及色差(color aberration)，但本發明並不限於此。第2F圖則顯示了包含不同的物件影像特徴之車牌的示意圖。因為物件影像特徴及背景影像特徴均包括多種不同類型的影像特徴，運算單元110可進行第一影像處理將一或多個物件影像特徴加入各訓練用物件(例如：模擬車牌影像)以產生一或多個模擬待測物件(經過處理的模擬車牌影像)，例如第2H-1～2H-6圖係顯示在第2E圖中之模擬車牌影像分別加入刮痕、色差、陰影、模糊、雜訊、變形、及色差等物件影像特徴後所產生的模擬待測物件。需注意的是，本發明並不限定於僅加入其中一種物件影像特徴至各訓練用物件(例如：模擬車牌影像)。

背景影像特徴例如可為真實場景中所拍攝之影像所產生的雜訊，且背景影像特徴亦可稱為環境雜訊特徴。背景影像特徴例如包括：模糊、刮痕或汙損、陰影、雜訊、遮蔽、過曝、變形、及色差，但本發明並不限於此。第2G圖則顯示了包含不同的背景影像特徴之真實場景的示意圖。物件影像特徴及背景影像特徴之細節將詳述於後。

在一些實施例中，運算單元110可進行第一影像處理將一或多個物件影像特徴及一或多個背景影像特徴加入各訓練用物件(例如：模擬車牌影像)以產生一或多個模擬待測物件。舉例來說，除了車牌可能出現的物件影像特徴之外，車牌影像在真實場景中亦會受到背景的環境雜訊影像，故運算單元110亦可將一或多個物件影像特徴及一或多個背景影像特徴加入各訓練用物件以產生一或多個模擬待測物件。

在一實施例中，儲存於第二資料庫136之背景影像集合中之背景影像例如第2I圖所示。需注意的是，第2I圖中之背景影像可以不包括車牌。

接著，運算單元110係由第二資料庫136所儲存的背景影像集合隨機挑選一背景影像，其中所挑選的背景影像例如可為在背景影像集合之其中一張真實背景影像的全部或是一部分(例如感興趣區域)，分別如第2J-1及2J-2圖所示。假定以第2J-2圖之感興趣區域的背景影像為準(例如為第一背景影像)，運算單元110則進行一第二影像處理將一或多個背景影像特徴加入第一背景影像以產生一模擬背景影像。舉例來說，運算單元110可在第一背景影像中加入例如模糊、刮痕或汙損、陰影、雜訊、遮蔽、過曝、變形等等的一或多個背景影像特徴，使得在第一背景影像之場景得以融入原本未拍攝到之不同的影像特徴，故可採用較少數量的背景影像以達到不同拍攝條件下之背景環境的影像效果。

在前述實施例中，運算單元110可進行第一影像處理將一或多個物件影像特徴及一或多個背景影像特徴加入各訓練用物件(例如：模擬車牌影像)以產生一或多個模擬待測物件，並進行第二影像處理將一或多個背景影像特徴加入第一背景影像以產生一模擬背景影像。因為模擬待測物件是針對車牌的部分以加入一或多個物件影像特徴所產生，且模擬背景影像是針對第一背景影像以加入一或多個背景影像特徴所產生，但是模擬待測物件及模擬背景影像之間可能並沒有關聯性。因此，運算單元110係進行一影像合成處理(image synthesis process)將模擬待測物件加入模擬背景影像以產生一模擬合成影像，如第2K圖所示。

舉例來說，上述影像合成處理可將模擬待測物件調整為適當的影像尺寸並貼上模擬背景影像中之任意位置(例如為在模擬背景影像中之一預定範圍內之位置)，並進行對貼上模擬背景影像的模擬待測物件進行邊緣平滑化處理以產生一模擬合成影像。需注意的是，加入模擬背景影像中之模擬待測物件本身並沒有在模擬背景影像中之模擬場景的影像特徴。因此，運算單元110更進行第二影像處理以將一或多個背景影像特徴加入上述模擬合成影像，並產生一模擬物件影像，其中上述流程是強化模擬待測物件與背景的一致性，才產生用於訓練的模擬物件影像。第2L-1～2L-4圖係分別顯示將背景影像特徴中之模糊、干擾、椒鹽雜訊、高斯雜訊等影像特徴加入模擬合成影像後之結果。在第2M圖所示的模擬物件影像例如是結合了第2L-1～2L-4圖中之不同的背景影像特徴所得到的結果。在本發明的上述流程中，將模擬待測物件覆蓋在任意背景影像上可以提高車牌之背景的複雜度，有助於增強後續物件辨識模型訓練的效果。

運算單元110可選擇不同的物件影像特徴及背景影像特徴之組合及選擇不同的真實背景影像，並重複執行前述實施例中之流程，以產生不同的模擬物件影像。因此，運算單元110可得到複數張模擬物件影像以形成模擬物件影像集合，並將上述模擬物件影像儲存於第四資料庫138中。

接著，運算單元110係依據第四資料庫138中之模擬物件影像集合以訓練出一待測物辨識模型141。舉例來說，運算單元110可使用支持向量機(support vector machine，SVM)、卷積神經網路(convolutional neural network)、深度神經網路(deep neural network)等技術以訓練出待測物辨識模型141，但本發明並不限於此。需注意的是，在開始訓練待測物辨識模型141之過程中，運算單元110均是使用模擬物件影像集合中之模擬物件影像。因為模擬物件影像是經由模擬不同的場景及不同的訓練用物件(例如模擬車牌影像)之變化所得到，故可大幅涵蓋在待測現場實地拍攝而無法取得之情況，故運算單元110可不使用真實場景之影像，而是使用模擬物件影像集合中之模擬物件影像以訓練出待測物辨識模型141。

在一實施例中，當待測物辨識模型141訓練完成後，運算單元110即可將來自外部主機或是由影像擷取裝置120所擷取的待測場景(例如為具有車輛之場景)之待測影像輸入待測物辨識模型141以得到一物件辨識結果，其中上述物件辨識結果例如為待測影像中之車牌號碼。

在另一實施例中，非揮發性記憶體132中之第五資料庫139，其係儲存包括複數張測試影像之測試影像集合，其中測試影像集合亦可稱為未標註(unlabeled)的測試影像集合。上述測試影像例如為在包括車輛及其車牌之真實場景拍攝所得到的影像。運算單元110例如可將測試影像集合中之各測試影像輸入待測物辨識模型141以得到相應的物件辨識結果，並將各測試影像相應的物件辨識結果儲存至非揮發性記憶體132中之第五資料庫139。選擇性地，運算單元110可將各測試影像相應的物件辨識結果標示於各測試影像上，並將標示後的各測試影像另外儲存至非揮發性記憶體132中之第六資料庫140。

在一實施例中，因為各種環境變化的影響，待測物辨識模型141之辨識結果並無法百分之百準確，故使用者可以經由人工檢視的方式以檢查測試影像集合中之各測試影像相應的物件辨識結果是否正確。若判斷有一特定測試影像相應的物件辨識結果不正確，則運算單元110可將該特定測試影像加入第四資料庫138，並將該特定測試影像相應的正確物件辨識結果輸入至待測物辨識模型141，藉以再訓練並更新待測物辨識模型141，故可提高在類似情況下，待測物辨識模型141之辨識率。類似地，若由待測場景所擷取的待測影像輸入至待測物辨識模型141後的物件辨識結果不正確，則運算單元110可將該待測影像加入第四資料庫138，並將該特定測試影像相應的正確物件辨識結果輸入至待測物辨識模型141，藉以再訓練並更新待測物辨識模型141。

在另一實施例中，使用者可先將各測試影像及正確物件辨識結果預先儲存於第五資料庫139中。且運算單元110在初始階段訓練待測物辨識模型141後，即可將第五資料庫139中之各測試影像輸入待測物辨識模型141以產生物件辨識結果，並將所產生的物件辨識結果與預先儲存的正確物件辨識結果進行比對。若所產生的物件辨識結果與預先儲存的正確物件辨識結果不相符(意即物件辨識結果為”失敗”)，則運算單元110可將所產生的物件辨識結果相應的測試影像加入第四資料庫138，並將正確物件辨識結果輸入待測物辨識模型141，藉以再訓練並更新待測物辨識模型141，故可提高待測物辨識模型141之辨識率。

詳細而言，本發明中之待測物辨識模型141之訓練過程是以模擬物件影像為主，並可利用真實場景之待測影像或在第五資料庫139中的測試影像以輔助修正及更新待測物辨識模型141。

在一實施例中，在真實場景所拍攝到的物件影像(例如車牌影像)，均有可能受到環境的影像而產生視覺上的差異，此即為前述的物件影像特徴，亦可稱為待測物件(例如車牌)特徴。物件影像特徴例如包括：模糊、刮痕或汙損、陰影、遮蔽、過曝、變形、及色差。各物件影像特徴例如可分別使用不同的表示方式。

舉例來說，以模糊特徴為例，當車速過快、對焦失敗、或是車輛距離過遠時，都可能造成車牌影像模糊。因此，模糊特徴例如可用一模糊遮罩表示，例如可為一M*N之矩陣，且在模糊遮罩的中心像素乘上M*N之矩陣以得到模糊化的中心像素。舉例來說，模糊遮罩中之車牌影像的三列像素由左而右、由上而下例如分別為a1～a3、b1～b3、及c1～c3，其中b2即為中心像素，如第3A圖所示。模糊遮罩例如可為一3x3矩陣，如第3B圖所示。3x3矩陣中之係數值例如均為1，但本發明並不限定於上述模糊遮罩，本發明亦可利用本發明領域中之習知的模糊遮罩進行處理。因此，經由模糊遮罩處理後的中心像素b2會更新為b2 = (a1*1 + a2*1 + a3*1 + b1*1 + b2*1 + b3*1 + c1*1 + c2*1 + c3*1)* (1/9)。

以刮痕或汙損特徴為例，車牌上的字元可能會有刮痕或汙損，且刮痕例如會以直線或曲線存在，且汙損會以平面存在。因此，運算單元110可分別使用直線方程式或曲線方程式以模擬車牌上的刮痕，並以平面方程式模擬車牌上之汙損。

以陰影特徴為例，光源與環境作用會使車牌影像中之特定區域產生陰影。因此，運算單元110可將一亮度遮罩用於車牌影像以產生陰影之影像效果。舉例來說，若亮度遮罩中之車牌影像的三列像素由上而下例如分別為a1～a3、b1～b3、及c1～c3，其中b2即為中心像素，如第3A圖所示。亮度遮罩例如可為一3x3矩陣，如第3C圖所示，其中亮度遮罩之三列係數由左而右、由上而下例如分別為h1～h3、i1～i3、j1～j3，其中h1～h3、i1～i3、j1～j3之數值可為大於1、或小於/等於1的正數，端視亮度遮罩之設計需求而定。因此，運算單元110可將在亮度遮罩中之車牌影像像素a1更新為a1=a1*h1，車牌影像像素a2更新為a2=a2*h2，依此類推。

以遮蔽特徴為例，天氣（沙塵、雨、雪）或是其他物體（落葉、昆蟲等）覆蓋於車牌上均會產生遮蔽效果。因此，因此，運算單元110可使用一或多個平面方程式做為遮罩以遮蔽車牌影像中之部分區域，且遮罩之大小以不破壞車牌上之字元為原則。

以過曝特徴為例，來自車燈的光源無法抑制而造成車燈附近區域產生過曝的情況。因此，運算單元110可將一亮度遮罩用於車牌影像以產生過曝之影像效果。舉例來說，若亮度遮罩中之車牌影像的三列像素由上而下例如分別為a1～a3、b1～b3、及c1～c3，其中b2即為中心像素，如第3A圖所示。亮度遮罩例如可為一3x3矩陣，如第3C圖所示，其中亮度遮罩之三列係數由左而右、由上而下例如分別為h1～h3、i1～i3、j1～j3，其中參數h1～h3、i1～i3、j1～j3之數值可為大於1、或小於/等於1的正數，端視亮度遮罩之設計需求而定，且用於過曝特徴之亮度遮罩的參數數值與用於陰影特徴之亮度遮罩的參數數值不同。因此，運算單元110可將在亮度遮罩中之車牌影像像素a1更新為a1=a1*h1，車牌影像像素a2更新為a2=a2*h2，依此類推。

以變形特徴為例，攝影機之不同視角會對所擷取的車牌影像產生三軸(X軸、Y軸、Z軸)旋轉。因此，運算單元110可將一透視變換矩陣用於車牌影像以產生變形之影像效果。舉例來說，運算單元110例如可依據方程式(1)以計算透視變換矩陣(transparent transformation matrix)： (1)

運算單元110可依據需求設定在3x3矩陣中之參數a ₁₁～a ₃₃之數值，並將模擬物件(例如用不同字元所組成之模擬車牌)經過透視變換矩陣後(例如可將 (x, y)之像素值用 (x’/w’, y’/w’)之像素值代替)以模擬不同視角的車牌影像。

以色差特徴為例，攝影機會受環境影響導致光源經過透鏡成像產生顏色偏差，故運算單元110可對車牌影像進行一色彩空間轉換以達到色差之影像效果。

在一實施例中，背景影像特徴例如可為真實場景中所拍攝之影像所產生的雜訊，且背景影像特徴亦可稱為環境雜訊特徴。背景影像特徴例如包括：模糊、刮痕或汙損、陰影、雜訊、遮蔽、過曝、變形、及色差，但本發明並不限於此。各背景影像特徴例如可分別使用不同的表示方式。需注意的是，在物件影像特徴及背景影像特徴中有部分影像特徴之名稱相同，這些名稱相同的影像特徴的處理方式類似，但是物件影像特徴是針對各個訓練用物件(例如：模擬車牌影像)進行處理，背景影像特徴則是針對整張背景影像(可不包括車牌)或模擬合成影像進行處理，所以物件影像特徴及背景影像特徴在設定相應類型的遮罩、矩陣、方程式之參數也不同。

在一實施例中，相較於物件影像特徴，背景影像特徴更包含了雜訊特徴。舉例來說，運算單元110可對待處理影像(例如訓練用物件、背景影像或模擬合成影像)加入不同類型的雜訊，例如椒鹽雜訊(salt-and-pepper noise)、高斯雜訊(Gaussian noise)、斑點雜訊(speckle noise)、或週期雜訊(periodic noise)。關於椒鹽雜訊，運算單元110可設定椒鹽雜訊為待處理影像之影像面積的x%，並將椒鹽雜訊隨機地加入於待處理影像中，其中x之數值可視實際情況調整。關於高斯雜訊、斑點雜訊、及週期雜訊，運算單元110可利用習知技術將這些雜訊加入待處理影像中，故其細節於此不再詳述。

第4A-4F圖係顯示依據本發明另一實施例中在物件辨識流程中所使用之訓練用物件的示意圖。在另一實施例中，運算單元110所產生的訓練用物件並不限定於模擬車牌影像。舉例來說，訓練用物件亦包括人體、車牌、零組件、及標誌。在此實施例中，第一資料庫135所儲存的複數張物件場景影像，例如為包括一或多個人體姿勢之人體影像，且運算單元110係由各物件場景影像中辨識出人體區域並擷取為物件影像，並將所擷取物件影像儲存至第三資料庫137。

如第4A-4F圖所示，在第三資料庫137中之物件影像例如可為在不同背景及擷取位置所得到的人體影像。在此實施例中，預定規則例如為可直接使用第三資料庫137中之物件影像以做為訓練用物件，故運算單元110可直接由第三資料庫137所儲存的複數張物件影像中選擇其中一者以做為訓練用物件。在一些實施例中，預定規則例如可為以一預定方式或間距排列不同的一或多個物件影像以產生訓練用物件，但本發明並不限於此。類似地，當欲辨識的物件為文字、零組件、或標誌等等，本發明亦可在第一資料庫135中儲存相應類型的物件場景影像，並由物件場景影像中擷取出物件影像，並利用前述實施例之流程產生相應類型之模擬物件影像以形成模擬物件影像集合，再依據模擬物件影像集合以訓練出待測物辨識模型141。

第5圖係顯示依據本發明一實施例中使用模擬物件影像之物件辨識方法的流程圖。請同時參考第1圖及第5圖。

在步驟S510，取得包括複數張物件影像之一物件影像集合以及包括複數張背景影像之一背景影像集合。物件影像集合例如儲存於第三資料庫137，上述物件影像例如可為包括一或多種類型之物件的影像，其中上述物件例如可為文字、人體、車牌、零組件、及標誌等等，但本發明並不限於此。背景影像集合例如儲存於第二資料庫136。其中，上述背景影像例如可為在不同拍攝條件下所取得的任意真實場景之真實背景影像，並不限於待測場景之背景影像，且亦可不包括待測物件。在一些實施例中，上述背景影像更包括電腦視覺技術模擬出之虛擬背景影像。

在步驟S520，依據該物件影像集合及該背景影像集合產生包括複數張模擬物件影像之一模擬物件影像集合。舉例來說，運算單元110係依據一預定規則由該一或多個物件影像組成一或多個訓練用物件，進行一第一影像處理將一或多個物件影像特徴加入該一或多個訓練用物件之每一者，以產生一或多個模擬待測物件。其中運算單元110可依據一或多個模擬待測物件及背景影像集合以產生模擬物件影像集合。上述一或多個物件影像特徴例如可由第一資料庫135中的物件場景影像擷取而得，或是透過以方程式、矩陣運算以模擬訓練用物件之物件影像特徴。運算單元110接著由第二資料庫136中之背景影像集合取得第一背景影像，並進行一第二影像處理將該一或多個背景影像特徴加入該第一背景影像以產生一模擬背景影像。運算單元110例如可依據一或多個模擬待測物件及模擬背景影像以產生模擬物件影像集合。接著，運算單元110係進行一影像合成處理將該模擬待測物件加入該模擬背景影像以產生一模擬合成影像，並進行該第二影像處理將該一或多個背景影像特徴加入該模擬合成影像以產生該等模擬物件影像之其中一者。

在步驟S530，依據該模擬物件影像集合以訓練出一待測物辨識模型。舉例來說，在一實施例中，運算單元110可先透過模擬物件影像集合訓練出待測物辨識模型141(意即可不使用真實影像進行訓練)。在另一實施例中，運算單元110可直接將真實物件影像加入模擬物件影像集合以產生一混合物件影像集合，並依據該混合物件影像集合以訓練出該待測物辨識模型。

在步驟S540，將由一待測場景所取得的一待測影像輸入該待測物辨識模型以取得一物件辨識結果。舉例來說，使用者可先將各測試影像及正確物件辨識結果預先儲存於第五資料庫139中。運算單元110在初始階段訓練出待測物辨識模型141後，即可將第五資料庫139中之各測試影像輸入待測物辨識模型141以產生物件辨識結果，並將所產生的物件辨識結果與預先儲存的正確物件辨識結果進行比對。若所產生的物件辨識結果與預先儲存的正確物件辨識結果不相符(意即物件辨識結果為”失敗”)。此外，當待測物辨識模型141對待測影像之該物件辨識結果為失敗時，運算單元110可將該待測影像加入該模擬物件影像集合以產生一混合物件影像集合，並依據該混合物件影像集合及該待測影像之一正確物件辨識結果再訓練該待測物辨識模型141。

綜上所述，本發明係提供一種使用模擬物件影像之物件辨識系統及其方法，可使用少量的資料影像抽取物件特徵與環境特徵，並以此產生已標註的大量的模擬物件影像與模擬背景影像，提高訓練資料集合(例如模擬物件影像集合)的多樣性。由於模擬數據貼近實際數據，因此本方法可以模擬數據為主，真實數據為輔，大幅降低資料準備之時間並改善數據取得不易時所遇到的窘境。

本發明之方法，或特定型態或其部份，可以以程式碼的型態包含於實體媒體，如軟碟、光碟片、硬碟、或是任何其他機器可讀取(如電腦可讀取)儲存媒體，其中，當程式碼被機器，如電腦載入且執行時，此機器變成用以參與本發明之裝置或系統。本發明之方法、系統與裝置也可以以程式碼型態透過一些傳送媒體，如電線或電纜、光纖、或是任何傳輸型態進行傳送，其中，當程式碼被機器，如電腦接收、載入且執行時，此機器變成用以參與本發明之裝置或系統。當在一般用途處理器實作時，程式碼結合處理器提供一操作類似於應用特定邏輯電路之獨特裝置。

本發明雖以較佳實施例揭露如上，然其並非用以限定本發明的範圍，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可做些許的更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100‧‧‧物件辨識系統

110‧‧‧運算單元

120‧‧‧影像擷取裝置

130‧‧‧儲存單元

131‧‧‧揮發性記憶體

132‧‧‧非揮發性記憶體

133‧‧‧物件辨識程式

135‧‧‧第一資料庫

136‧‧‧第二資料庫

137‧‧‧第三資料庫

138‧‧‧第四資料庫

139‧‧‧第五資料庫

140‧‧‧第六資料庫

141‧‧‧待測物辨識模型

150‧‧‧顯示器

S510-S540‧‧‧步驟

第1圖係顯示依據本發明一實施例中之物件辨識系統的方塊圖。第2A－2M圖係顯示依據本發明一實施例在物件辨識流程中所使用的不同影像之示意圖。第3A圖係顯示依據本發明一實施例中在模糊遮罩中之訓練用物件之像素的示意圖。第3B圖係顯示依據本發明一實施例在模糊遮罩中之係數的示意圖。第3C圖係顯示依據本發明一實施例在亮度遮罩中之係數的示意圖。第4A-4F圖係顯示依據本發明另一實施例中物件影像的示意圖。第5圖係顯示依據本發明一實施例中使用模擬物件影像之物件辨識方法的流程圖。

Claims

一種使用模擬物件影像之物件辨識方法，該方法包括： (A)取得包括一或多張物件影像之一物件影像集合以及包括一或多張背景影像之一背景影像集合； (B)依據該物件影像集合及該背景影像集合產生包括複數張模擬物件影像之一模擬物件影像集合； (C)依據該模擬物件影像集合以訓練出一待測物辨識模型；以及 (D)將由一待測場景所取得的一待測影像輸入該待測物辨識模型以取得一物件辨識結果。
如申請專利範圍第1項所述之使用模擬物件影像之物件辨識方法，其中該步驟 (B)包括：依據一預定規則由該一或多個物件影像組成一或多個訓練用物件；進行一第一影像處理將一或多個物件影像特徴加入該一或多個訓練用物件之每一者，以產生一或多個模擬待測物件；以及依據該一或多個模擬待測物件及該背景影像集合以產生該模擬物件影像集合。
如申請專利範圍第2項所述之使用模擬物件影像之物件辨識方法，其中該一或多個物件影像特徴係由該等物件影像擷取而得。
如申請專利範圍第2項所述之使用模擬物件影像之物件辨識方法，其中該步驟(B)更包括：由該一或多張背景影像取得一第一背景影像；進行一第二影像處理將該一或多個背景影像特徴加入該第一背景影像以產生一模擬背景影像；以及依據該模擬背景影像及該一或多個模擬待測物件以產生該模擬物件影像集合。
如申請專利範圍第4項所述之使用模擬物件影像之物件辨識方法，其中該步驟(B)更包括：進行一影像合成處理將該模擬待測物件加入該模擬背景影像以產生一模擬合成影像；以及進行該第二影像處理將該一或多個背景影像特徴加入該模擬合成影像以產生該等模擬物件影像之其中一者。
如申請專利範圍第1項所述之使用模擬物件影像之物件辨識方法，更包括： (E)當該物件辨識結果為失敗時，將該待測影像加入該模擬物件影像集合以產生一混合物件影像集合；以及 (F)依據該混合物件影像集合及該待測影像之一正確物件辨識結果再訓練該待測物辨識模型。
如申請專利範圍第1項所述之使用模擬物件影像之物件辨識方法，其中該步驟(C)更包括：將一或多張真實物件影像加入該模擬物件影像集合以產生一混合物件影像集合；以及依據該混合物件影像集合以訓練出該待測物辨識模型。
一種使用模擬物件影像之物件辨識系統，包括：一非揮發性記憶體，用以儲存一物件辨識程式；以及一運算單元，用以執行該物件辨識程式以進行下列步驟： (A)取得包括複數張物件影像之一物件影像集合以及包括複數張背景影像之一背景影像集合； (B)依據該物件影像集合及該背景影像集合產生包括複數張模擬物件影像之一模擬物件影像集合； (C)依據該模擬物件影像集合以訓練出一待測物辨識模型；以及 (D)將由一待測場景所取得的一待測影像輸入該待測物辨識模型以取得一物件辨識結果。
如申請專利範圍第8項所述之使用模擬物件影像之物件辨識系統，其中在該步驟(B)，該運算單元更依據一預定規則由該一或多個物件組成一或多個訓練用物件，並進行一第一影像處理將該一或多個物件影像特徴加入該一或多個訓練用物件之每一者以產生一或多個模擬待測物件，且該運算單元更依據該一或多個模擬待測物件及該背景影像集合以產生該模擬物件影像集合。
如申請專利範圍第9項所述之使用模擬物件影像之物件辨識系統，其中該一或多個物件影像特徴係由該等物件影像擷取而得。
如申請專利範圍第9項所述之使用模擬物件影像之物件辨識系統，其中在該步驟(B)，該運算單元更由該等背景影像取得一第一背景影像，並進行一第二影像處理將該一或多個背景影像特徴加入該第一背景影像以產生一模擬背景影像，且該運算單元更依據該模擬背景影像及該一或多個模擬待測物件以產生該模擬物件影像集合。
如申請專利範圍第11項所述之使用模擬物件影像之物件辨識系統，其中在該步驟(B)，該運算單元更進行一影像合成處理將該模擬待測物件加入該模擬背景影像以產生一模擬合成影像，並進行該第二影像處理將該一或多個背景影像特徴加入該模擬合成影像以產生該等模擬物件影像之其中一者。
如申請專利範圍第8項所述之使用模擬物件影像之物件辨識系統，其中，該運算單元更執行下列步驟：(E)當該物件辨識結果為失敗時，將該待測影像加入該模擬物件影像集合以產生一混合物件影像集合；以及(F)依據該混合物件影像集合及該待測影像之一正確物件辨識結果再訓練該待測物辨識模型。
如申請專利範圍第8項所述之使用模擬物件影像之物件辨識系統，其中在該步驟(C)，該運算單元更將一或多張真實物件影像加入該模擬物件影像集合以產生一混合物件影像集合，並依據該混合物件影像集合以訓練出該待測物辨識模型。