TWI725665B - 影像處理系統及影像處理方法 - Google Patents

影像處理系統及影像處理方法 Download PDF

Info

Publication number
TWI725665B
TWI725665B TW108145733A TW108145733A TWI725665B TW I725665 B TWI725665 B TW I725665B TW 108145733 A TW108145733 A TW 108145733A TW 108145733 A TW108145733 A TW 108145733A TW I725665 B TWI725665 B TW I725665B
Authority
TW
Taiwan
Prior art keywords
feature
image processing
image
dimensional image
model
Prior art date
Application number
TW108145733A
Other languages
English (en)
Other versions
TW202123176A (zh
Inventor
王仁駿
王鈞立
楊東庭
Original Assignee
宏達國際電子股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 宏達國際電子股份有限公司 filed Critical 宏達國際電子股份有限公司
Priority to TW108145733A priority Critical patent/TWI725665B/zh
Application granted granted Critical
Publication of TWI725665B publication Critical patent/TWI725665B/zh
Publication of TW202123176A publication Critical patent/TW202123176A/zh

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一種影像處理方法,包括:接收一二維影像,並分離(Segmentation)二維影像中的一物體區塊,以色塊遮罩物體區塊以產生一遮罩影像;將二維影像及遮罩影像輸入一第一影像處理模型,第一影像處理模型輸出一特徵向量(feature vector);將二維影像輸入一第二影像處理模型,以取得一特徵地圖(feature map);其中,特徵地圖包含複數個特徵通道圖,特徵向量包含複數個特徵值,每個此些特徵通道圖依序各自對應到每個此些特徵值,依據此些特徵通道圖及此些特徵值以產生一加權特徵地圖。

Description

影像處理系統及影像處理方法
本發明係有關於處理系統,特別是有關於一種影像處理系統及影像處理方法。
一般而言,透過已知的模型,例如為卷積神經網路(Convolutional Neural Networks,CNN)模型,可將二維影像進行區塊性的分割(Segmentation),以分離二維影像中的多個物體,並將各個物體以不同顏色進行上色,以輸出色塊圖,由色塊圖可得知二維影像中各物體的分布位置及區塊。得知物體的分布位置及區塊後,可進行透過已知的三維重建方法,例如紋理恢復形狀法(Shape From Texture,SFT)、陰影恢復形狀法(Shape From Shading)、立體視覺法(Multi-View Stereo)、結構光法(Structured Light)...等等,以建構三維物體。此些三維物體可以對如文物保護、遊戲開發、建築設計、臨床醫學等研究起到輔助的作用。
然而,系統先行學習分辨的物體種類有限,因此在分離二維影像中的物體時,系統不一定能準確分辨出特定物體為何, 或特定物體的形狀難以被分辨,例如系統難以精準判斷特定物體為門或窗,亦難以分辨藝術造型座椅。
因此,要如何使系統精準且有效率的判斷特定物體,已成為本領域待解決的問題之一。
本發明實施例係提供一種影像處理系統,包括一處理器。處理器用以接收一二維影像,並分離(Segmentation)二維影像中的一物體區塊,藉由色塊遮罩物體區塊以產生一遮罩影像。處理器將二維影像及遮罩影像輸入一第一影像處理模型。第一影像處理模型輸出一特徵向量(feature vector)。處理器將二維影像輸入一第二影像處理模型,以取得一特徵地圖(feature map)。其中,特徵地圖包含複數個特徵通道圖,特徵向量包含複數個特徵值,每個此些特徵通道圖依序各自對應到每個此些特徵值,處理器依據此些特徵通道圖及此些特徵值以產生一加權特徵地圖。
本發明實施例係提供一種影像處理方法,包括:接收一二維影像,並分離(Segmentation)二維影像中的一物體區塊,以色塊遮罩物體區塊以產生一遮罩影像;將二維影像及遮罩影像輸入一第一影像處理模型,第一影像處理模型輸出一特徵向量(feature vector);將二維影像輸入一第二影像處理模型,以取得一特徵地圖(feature map);其中,特徵地圖包含複數個特徵通道圖,特徵向量包含複數個特徵值,每個此些特徵通道圖依序各自對應到每個此些特徵值,依據此些特徵通道圖及此些特徵值以產生一加權 特徵地圖。
綜上所述,本發明實施例係提供一種影像處理系統及影像處理方法,因此,應用加權特徵地圖可增強物體區塊的特徵,使得第二影像處理模型輸出之色塊圖的標示更為準確,二維影像中的各個物體區塊的位置跟類別(如椅子、衣櫃)都能精準的被判斷出來。此外,當處理器再次收到曾經處理過的場域之二維影像時,處理器可直接由儲存裝置取出先前第一影像處理模型計算出之特徵向量,不用每次收到相似之二維影像都重新計算一次特徵向量,也不需要應用特徵地圖的前一層計算結果以算出加權特徵地圖。因此本發明的影像處理系統及影像處理方法達到了更有效率且更精準的影像標示效果。
100:影像處理系統
10:處理器
20:影像擷取裝置
30:儲存裝置
LK:通訊連結
200:影像處理方法
210~230:步驟
TS:目標串流
IMGO、IMGA:二維影像
OBJ1、OBJ2:物體區塊
ENT:影像處理模型
X1~Xn:特徵通道圖
DE、ENR:影像處理模型
RS:參考串流
IMGM:遮罩影像
OBJ1’、OBJ2’、OBJ2”:色塊
FCL:全連接層
NFV:全域卷積
C1~Cn:特徵資訊
Zc:全局資訊
W1~Wn:特徵值
S:特徵向量
IMGB:遮罩影像
IMGC:調整遮罩色塊圖
第1圖為根據本發明之一實施例繪示的一種影像處理系統之方塊圖。
第2圖為根據本發明之一實施例繪示的一種影像處理方法之流程圖。
第3圖為根據本發明之一實施例繪示的一種影像處理方法之示意圖。
第4A圖為根據本發明之一實施例繪示的一輸入影像之示意圖。
第4B圖為根據本發明之一實施例繪示的一種輸出色塊圖之示意圖。
第4C圖為根據本發明之一實施例繪示的一種輸出調整遮罩色塊圖之示意圖。
以下說明係為完成發明的較佳實現方式,其目的在於描述本發明的基本精神,但並不用以限定本發明。實際的發明內容必須參考之後的權利要求範圍。
必須了解的是,使用於本說明書中的”包含”、”包括”等詞,係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件,但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件,或以上的任意組合。
於權利要求中使用如”第一”、"第二"、"第三"等詞係用來修飾權利要求中的元件,並非用來表示之間具有優先權順序,先行關係,或者是一個元件先於另一個元件,或者是執行方法步驟時的時間先後順序,僅用來區別具有相同名字的元件。
請參照第1~5圖,第1圖為根據本發明之一實施例繪示的一種影像處理系統100之方塊圖。第2圖為根據本發明之一實施例繪示的一種影像處理方法200之流程圖。第3圖為根據本發明之一實施例繪示的一種影像處理方法之示意圖。第4A圖為根據本發明之一實施例繪示的一輸入影像IMGA之示意圖。第4B圖為根據本發明之一實施例繪示的一種色塊圖IMGB之示意圖。第4C圖為根據本發明之一實施例繪示的一種調整遮罩色塊圖IMGC之示意圖。
於一實施例中,影像處理系統100可以應用於一虛 擬實境系統中的辨識物體部分。於一實施例中,影像處理系統100包含一處理器10。於一實施例中,影像處理系統100更包含一影像擷取裝置20及一儲存裝置30,其中處理器10與儲存裝置30電性耦接,處理器10與影像擷取裝置20以有線或無線方式建立通訊連結LK。
於一實施例中,處理器10用以執行各種運算,可由積體電路如微控制單元(micro controller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit,ASIC)或一邏輯電路來實施。
於一實施例中,儲存裝置30可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。
於一實施例中,影像擷取裝置20可以是一擴增實境眼鏡。
通常而言,藉由輸入一張影像至卷積神經網路(Convolutional Neural Networks,CNN)模型後,可以得到該圖片屬於何種類別的結果,這過程稱作分類(Classification),但在真實世界的應用情境通常要從一張圖片中辨識所有出現的物體,並且標示位置(Object Localization),此可透過CNN模型、R-CNN(Regions with CNN)模型或其他可應用於分割影像的演算法將影像進行基於圖像的影像分割(Graph Base Image Segmentation)。
於一實施例中,處理器10應用一場景分割模型(scene segmentation model)以分離二維影像中的物體區塊,並將物體區塊上色。其中,場景分割模型(scene segmentation model) 可以由CNN模型、R-CNN(Regions with CNN)模型或其他可應用於分割影像的演算法實現之。然而,本領域具通常知識者應能理解,本發明不限於採用CNN模型,只要是可以達到場景分割的其它神經網路模型亦可應用之。
舉例而言,在處理器10應用CNN模型分析一張室內影像時,CNN模型辨識15種物體(如床、牆、衣櫥、窗戶、拖把...等家具)出現在此室內影像中各區塊的機率,例如辨識結果表示特定區塊是床的機率為10%、是牆的機率為20%、是衣櫃的機率為90%...等等15種物體的機率,在此些機率中,特定區塊是衣櫃的機率最高,因此將特定區塊視為衣櫃。於一實施例中,處理器10依據此些機率將產生一色塊圖,色塊圖中的每個色塊代表一種物體,例如將特定區塊(判定為衣櫃的區塊)上色為紅色。
於一實施例中,當分割出影像中各個物體後,處理器10將物體區塊進行一三維重建(three-dimension reconstruction)以產生一三維物體。例如將被標示成紅色的衣櫥區塊進行三維重建,以產生衣櫥的三維重建影像,供應用軟體後續的使用。三維重建方法可以應用已知的演算法例如紋理恢復形狀法(Shape From Texture,SFT)、陰影恢復形狀法(Shape From Shading)、立體視覺法(Multi-View Stereo)、結構光法(Structured Light)...等等實現之,此處不贅述之。
為了進一步提升辨識出影像中物體的正確性,可以藉由使用者對影像中的物體進行標示或是調整CNN模型辨識出來的結果。例如,使用者配戴擴增實境眼鏡時,擴增實境眼鏡辨識一瞳孔注視角度所對應到的觀看視野中的至少一視角熱點。擴增實境 眼鏡將多個視角熱點標示在擴增實境眼鏡擷取的二維影像上,產生一熱點圖,或是擴增實境眼鏡將多個視角熱點傳到處理器10,由處理器10產生熱點圖。於一實施例中,處理器10將熱點圖及二維影像輸入CNN模型,以辨識二維影像的物體區塊,並將物體區塊上色,以產生色塊圖。藉此,由於輸入CNN模型的不僅是二維影像,更包含熱點圖,可以使CNN模型辨識出的物體區塊的位置及形狀更精準。
於一例子中,擴增實境眼鏡或其他提示裝置(例如為耳機)可以提示使用者觀看特定物體(例如擴增實境眼鏡上顯示「請觀看衣櫥」及/或耳機發出「請觀看衣櫥」的提示),則使用者會往衣櫥的方向看,擴增實境眼鏡藉此取得對應到衣櫥的視角熱點,並依據至少一個視角熱點產生熱點圖(擴增實境眼鏡亦可以將至少一個視角熱點傳送到處理器10,由處理器10產生熱點圖)。
因此,當熱點圖及二維影像輸入CNN模型時,可以使CNN模型辨識出的物體區塊(即對應於衣櫥的影像區塊)的位置及形狀更精準。
於一實施例中,擴增實境眼鏡之顯示器的顯示畫面中包含一選單、紅色區塊(即對應於衣櫥的影像區塊的色塊)及一指標訊號。使用者可以選擇性地注視選單(例如選單中的選項包含衣櫥、牆及門)中的特定標示(例如衣櫥),擴增實境眼鏡辨識到使用者的視角後,可將指標訊號移到選單上的衣櫥選項,此外,使用者亦可以選擇性地透過一控制器選擇選單上的衣櫥選項,藉由此調整或確認紅色區塊的標示為衣櫥。因此,除了透過CNN模型標示物體區塊之外,透過使用者藉由上述方式的輔助標示,可以達到精準的標示物 體區塊的效果。
請參閱2~3圖,於第3圖中,二維影像IMGO可以是由影像擷取裝置20所擷取的原始影像,遮罩影像IMGM是將二維影像IMGO輸入CNN模型(或其他可分割影像的模型)後,所分離出的特定物體影像,將此特定物體影像應用CNN模形或使用者輔助進行標示,並將此特定物體影像進行上色,例如為紅色,以輸出遮罩影像IMGM。
於一實施例中,二維影像IMGO與遮罩影像IMGM兩者整體被稱為地面實況(Ground Truth),在機器學習中,地面實況指的是為這個測試收集適當的目標資料(用以證明正確性的資料)的過程。
於一實施例中,遮罩影像IMGM可以是已完成標示的影像,標示的方法可以透過CNN模型標示,或透過使用者藉由上述方式輔助標示之,然而其標示方法不限於此。
影像處理方法200應用擷取出來的影像特徵,使影像處理模型能更精準的辨識影像中各物體,以下敘述影像處理方法200的各步驟。如第3圖所示,影像處理方法200可以分成平行或先後運作的兩個子步驟,其中一者為目標串流TS(Target Stream),另一者為參考串流RS(Reference Stream)。
在步驟210中,處理器10接收一二維影像IMGO,並分離(Segmentation)二維影像IMGO中的一物體區塊OBJ1,以色塊遮罩物體區塊OBJ1以產生一遮罩影像IMGM。
於一實施例中,處理器10應用場景分割模型以分離二維影像IMGO中的物體區塊OBJ1,並將物體區塊OBJ1上色,產 生一遮罩影像IMGM。換言之,遮罩影像IMGM中包含對應於物體區塊OBJ1的色塊OBJ1’。
於步驟220中,處理器10將二維影像IMGO及遮罩影像IMGM輸入影像處理模型ENR,影像處理模型ENR輸出一特徵向量S(feature vector set)。
於一實施例中,處理器10在進行參考串流RS的步驟時,接收二維影像IMGO及遮罩影像IMGM,並將二維影像IMGO及遮罩影像IMGM輸入影像處理模型ENR。
於一實施例中,影像處理模型ENR是以CNN模型實現之。處理器10執行影像處理模型ENR中的一系列演算法:將二維影像IMGO及遮罩影像IMGM輸入CNN模型後,CNN模型中會依序進行卷積(convolution)層、ReLU層、卷積層、ReLU層、池化(pooling)層、ReLU層、卷積層、ReLU層、池化層及全連接(fully connected)FCL。然而,CNN模型中各層運算可以依實作調整,不限於此。
於一實施例中,全連接層FCL的輸入層可以來自於卷積層、ReLU層或池化層的輸出,此輸出為N維向量,N的大小對應類別的個數(例如15類)。全連接層FCL在CNN模型中可視為分類器的作用,如果將卷積層、池化層和ReLU層視為將原始資料映射到隱藏層之特徵空間,則全連接層FCL可視為將學到的分散式特徵表示值映射到樣本標記空間。在實際使用中,全連接層FCL可由卷積演算法實現,對前一層是全連接的全連接層FCL可以轉化為卷積核為1x1的卷積,而對於前一層是卷積層的全連接層FCL可以轉化為卷積核為hxw的全域卷積NFV,其中h和w分別為前一層卷積結果的 高和寬,全域卷積NFV可藉由全域平均池化(global average pooling)演算法轉換成1x1xn(n為長度)的全局資訊Zc,全局資訊Zc包含擷取出的複數個特徵資訊C1~Cn,全局資訊Zc經過sigmoid函數、ReLU層等運算進行化減,產生維度相同的特徵向量S,特徵向量S作為後續用以刻劃特徵地圖FM的一組權重,每個權重分別對應一特徵值。
於一實施例中,特徵向量S中包含複數個特徵值W1~Wn。特徵值W1~Wn代表對應於二維影像IMGO的多個特徵的權重,特徵值W1~Wn例如代表包含邊的特徵(直線或斜線)的權重、垂直椅背形狀的權重、沙發毛絨的權重...等等,特徵值W1~Wn中可以包含低階特徵(較具體)到高階特徵(較抽象)的權重。
於一實施例中,儲存裝置30儲存特徵值W1~Wn。
由上述可知,特徵向量S可以在離線(offline)或在線(online)時被計算出來,並儲存於儲存裝置30中,以利處理器10再次處理相同場域(例如同樣場景)或相似(例如包含高於80%的像素與二維影像IMGO相同)的另一張二維影像時,處理器10可直接由儲存裝置30取得對應於二維影像IMGO的特徵向量S進行運算。
於一實施例中,輸入到影像處理模型ENT的二維影像IMGO中的物體區塊OBJ1與輸入到影像處理模型ENR的二維影像IMGO中的物體區塊OBJ1可以是不同視角的相同物體。例如,輸入到影像處理模型ENT的二維影像IMGO中的物體區塊OBJ1是椅子的左視角影像,輸入到影像處理模型ENR的二維影像IMGO中的物體區塊OBJ1是椅子的正面視角影像。
於一實施例中,參考串流RS之二維影像IMGO與參 考串流RS之遮罩影像IMGM的視角相同。
於步驟230中,處理器10將二維影像IMGO輸入影像處理模型ENT,以取得一個特徵地圖FM。其中,一個特徵地圖FM包含複數個特徵通道圖X1~Xn,特徵向量S為包含多個特徵值W1~Wn的向量,每個特徵通道圖X1~Xn依序各自對應特徵向量的特徵值W1~Wn,處理器10依據特徵通道圖X1~Xn及特徵值W1~Wn以產生一加權特徵地圖。
於一實施例中,處理器10在進行目標串流TS的步驟時,接收二維影像IMGO,並將二維影像IMGO輸入影像處理模型ENT。
於一實施例中,影像處理模型ENT是以另一CNN模型實現之。
於一實施例中,影像處理模型ENT可以稱為編碼器(encoder),用以透過一系列的演算法縮小二維影像IMGO(原始影像),並萃取出特徵及強化萃取出來的特徵。
於一實施例中,處理器10執行到影像處理模型ENT中的一卷積運算後,得到第一結果,會將此第一結果再加上激活函數(activation function),激活函數例如為sigmoid函數、tanh函數、ReLU函數,得到一第二結果,接著將第二結果進行非線性轉換,之後得到的圖片稱為特徵地圖FM。
於一實施例中,影像處理模型DE可以稱為解碼器(decoder),用以依據強化萃取出來的特徵還原圖像,還原圖像可以是二維影像IMGO的色塊圖。
於一實施例中,處理器10將每個特徵通道圖 X1~Xn依序對應各自與特徵值W1~Wn相乘,以輸出一加權特徵地圖。例如,特徵通道圖X1(與三角型特徵相關的特徵通道圖)為1,特徵通道圖X2(與直線特徵相關的特徵通道圖)為2,特徵通道圖Xn(與垂直椅背形狀相關的特徵通道圖)為3;特徵值W1為0.8,特徵值W2為0.2,特徵值Wn為0.1;將特徵通道圖X1與特徵值W1相乘後會得到加權特徵0.8、將特徵通道圖X2與特徵值W2相乘後會得到加權特徵0.4、將特徵通道圖X3與特徵值W3相乘後會得到加權特徵0.3,當計算出所有n個加權特徵後,將所有加權特徵的集合視為加權特徵地圖。
由此可知,透過特徵值W1~Wn可以調整各個特徵通道圖X1~Xn的重要性。換言之,加權特徵地圖中的加權特徵較高者,代表其對應的特徵較為明顯或重要,加權特徵較低者,代表其對應的特徵較不明顯或不重要。
於一實施例中,影像處理模型ENR中的一系列運算可與影像處理模形ENT所作的一系列運算對應,此時影像處理模型ENR與影像處理模型ENT計算的層數相同。處理器10可以在影像處理模型ENR的處理過程中,擷取出一或多層(例如第一層運算及第五層運算)的處理結果作為中間特徵權重。影像處理模型ENR的多個中間特徵地圖各自與影像處理模形ENT對應的運算層(例如第一層運算及第五層運算)的處理結果相乘,相乘後所得到的結果可視為其他加權特徵地圖,藉此可增加多筆加權特徵地圖。藉由多個加權特徵地圖可以重新分配每一層影像特徵的權重。
由上述可知,特徵向量S可以在影像特徵明顯時,應用特徵值W1~Wn將明顯的特徵調高,例如,當椅子包含三角形的 特徵時,特徵向量S中與三角型特徵相關的特徵值(例如為特徵值W2)的值會較大(例如為0.8),其他不明顯的特徵則較低(例如與直線特徵相關的特徵值為0.2,與垂直椅背形狀相關的特徵值為0.1),特徵值W2與三角形的特徵值相乘後,會使得三角型特徵被特徵值W2加權後,而突顯出來。
於一實施例中,當處理器10再次將二維影像IMGO像輸入影像處理模型ENT,以取得特徵地圖FM時,處理10直接存取儲存裝置30中對應於二維影像IMGP的特徵值W1~Wn,並將每個特徵值W1~Wn依序各自與每個特徵通道圖X1~Xn相乘,以輸出加權特徵地圖。
請參閱第4A圖,當處理器10接收到二維影像IMGA(例如為RGB原始影像)時,處理器10透過CNN模型以分離出二維影像IMGA中的物體區塊OBJ1及OBJ2,並初步透過CNN模型將物體區塊OBJ1分類為椅子(此時CNN模型分類正確),物體區塊OBJ2分類為窗戶(此時CNN模型分類錯誤,物體區塊OBJ2實際上是衣櫃)。
接著,處理器10應用不同顏色的色塊遮罩物體區塊OBJ1及OBJ2,以產生遮罩影像IMGB(如第4B圖所示),第4A圖中的物體區塊OBJ1上色後對應為第4B圖中的色塊OBJ1’(例如紅色,代表椅子區塊),第4A圖中的物體區塊OBJ2上色後對應為第4B圖中的色塊OBJ2’(例如紫色,代表窗戶區塊)。由此可知,影像處理系統100會為分割出的物體區塊產生遮罩。然而,此處所述的上色,僅是方便人眼確認影像處理系統100計算出的遮罩位置是否正確,例如,人眼可觀看色塊OBJ1’的位置,以確認椅子區塊是否正確地 被遮罩。因此,上色為選擇性的步驟,每個物體區塊的所採用的顏色也不限於此,上述僅為提供一例作為說明。
接著,處理器10將二維影像IMGA輸入影像處理模型ENT後,透過影像處理模型ENT計算出特徵地圖FM。由於在相似的拍攝場域,處理器10由儲存裝置30取出對應物體區塊OBJ1的特徵向量S,並將特徵向量S中的每個特徵值W1~Wn依序各自與每個特徵通道圖X1~Xn相乘得到加權特徵地圖,因此,當影像處理模型DE依據加權特徵地圖輸出調整遮罩色塊圖IMGC時,如第4C圖所示,色塊OBJ1’仍為紅色,代表椅子區塊。
另一方面,假設物體區塊OBJ2也已經在離線時算出對應物體區塊OBJ2的特徵向量S,處理器10由儲存裝置30取出對應物體區塊OBJ2的特徵向量S,並將特徵向量S中的每個特徵值依序各自與每個特徵通道圖相乘得到加權特徵地圖,加權特徵地圖可突顯物體區塊OBJ2的特徵,因此,當影像處理模型DE依據加權特徵地圖輸出調整遮罩色塊圖IMGC時,影像處理模型DE依據加權特徵地圖改為判斷物體區塊OBJ2為衣櫃(而不是初始時判斷的窗戶),如第4C圖所示,影像處理模型DE輸出對應於物體區塊OBJ2的色塊OBJ2”改為橘色,代表衣櫃區塊。
因此,應用加權特徵地圖可增強物體區塊OBJ1、OBJ2的特徵,使得調整遮罩色塊圖IMGC的標示更為準確,二維影像中IMGA的各個物體區塊OBJ1、OBJ2的位置跟類別(如椅子、衣櫃)都能精準的被判斷出來。
於一例子中,由於特徵向量S可以離線計算出來,通常同一房間或場域的椅子是相同的,當處理器10接收到相似的二 維影像IMGO時,透過影像處理模型ENT計算出特徵地圖FM後,處理器10可以由儲存裝置30取出對應二維影像IMGO的特徵向量S,不用每次收到二維影像IMGO都重新計算一次特徵向量S,也不需要應用特徵地圖FM的前一層計算結果以算出加權特徵地圖。
綜上所述,本發明實施例係提供一種影像處理系統及影像處理方法,因此,應用加權特徵地圖可增強物體區塊的特徵,使得第二影像處理模型輸出之色塊圖的標示更為準確,二維影像中的各個物體區塊的位置跟類別(如椅子、衣櫃)都能精準的被判斷出來。此外,當處理器再次收到曾經處理過的場域之二維影像時,處理器可直接由儲存裝置取出先前第一影像處理模型計算出之特徵向量,不用每次收到相似之二維影像都重新計算一次特徵向量,也不需要應用特徵地圖的前一層計算結果以算出加權特徵地圖。因此本發明的影像處理系統及影像處理方法達到了更有效率且更精準的影像標示效果。
本發明雖以較佳實施例揭露如上,然其並非用以限定本發明的範圍,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可做些許的更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
200:影像處理方法
210~230:步驟

Claims (10)

  1. 一種影像處理系統,包括:一處理器,用以接收一二維影像,並分離(Segmentation)該二維影像中的一物體區塊,藉由色塊遮罩該物體區塊以產生一遮罩影像,該處理器將該二維影像及該遮罩影像輸入一第一影像處理模型,該第一影像處理模型輸出一特徵向量(feature vector),該處理器將該二維影像輸入一第二影像處理模型,以取得一特徵地圖(feature map);其中,該特徵地圖包含複數個特徵通道圖,該特徵向量包含複數個特徵值,每個該些特徵通道圖依序各自對應到每個該些特徵值,該處理器依據該些特徵通道圖及該些特徵值以產生一加權特徵地圖;其中該些特徵值代表對應於該二維影像的複數個特徵的權重,該影像處理系統更包含:一儲存裝置,用以儲存該些特徵值;其中,該處理器再次將相同場域或相似的另一二維影像輸入該第二影像處理模型,以取得該特徵地圖時,該處理器直接存取該儲存裝置中對應於該二維影像的該特徵向量,並將該特徵向量中的每個該些特徵值依序各自與每個該些特徵通道圖相乘,以輸出一加權特徵地圖。
  2. 如申請專利範圍第1項所述之影像處理系統,其中該第一影像處理模型是以一卷積神經網路(Convolutional Neural Networks,CNN)模型實現之,該第二影像處理模型是以另一卷積 神經網路模型實現之。
  3. 如申請專利範圍第1項所述之影像處理系統,其中該處理器應用一場景分割模型(scene segmentation model)以分離該二維影像中的該物體區塊,並產生該物體之遮罩影像,將該遮罩影像輸入該第一影像處理模型。
  4. 如申請專利範圍第1項所述之影像處理系統,更包含:一影像擷取裝置,用以擷取該二維影像。
  5. 如申請專利範圍第1項所述之影像處理系統,其中該處理器更用以將每個該些特徵通道圖依序各自與每個該些特徵值相乘,以輸出該加權特徵地圖。
  6. 一種影像處理方法,包括:接收一二維影像,並分離(Segmentation)該二維影像中的一物體區塊,以色塊遮罩該物體區塊以產生一遮罩影像;將該二維影像及該遮罩影像輸入一第一影像處理模型,該第一影像處理模型輸出一特徵向量(feature vector);將該二維影像輸入一第二影像處理模型,以取得一特徵地圖(feature map);其中,該特徵地圖包含複數個特徵通道圖,該特徵向量包含複數個特徵值,每個該些特徵通道圖依序各自對應到每個該些特徵值,依據該些特徵通道圖及該些特徵值以產生一加權特徵地圖;其中該些特徵值代表對應於該二維影像的複數個特徵的權重,該影像處理方法更包含:藉由一儲存裝置以儲存該些特徵值;其中,再次將相同場域或相似的另一二維影像輸入該第二影 像處理模型,以取得該特徵地圖時,直接存取該儲存裝置中對應於該二維影像的該特徵向量,並將該特徵向量中的每個該些特徵值依序各自與每個該些特徵通道圖相乘,以輸出該加權特徵地圖。
  7. 如申請專利範圍第6項所述之影像處理方法,其中該第一影像處理模型是以一卷積神經網路(Convolutional Neural Networks,CNN)模型實現之,該第二影像處理模型是以另一卷積神經網路模型實現之。
  8. 如申請專利範圍第6項所述之影像處理方法,更包含:應用一場景分割模型(scene segmentation model)以分離該二維影像中的該物體區塊,並為該物體區塊產生該遮罩影像,將該遮罩影像輸入該第一影像處理模型。
  9. 如申請專利範圍第6項所述之影像處理方法,更包含:藉由一影像擷取裝置以擷取該二維影像。
  10. 如申請專利範圍第6項所述之影像處理方法,更包含:將每個該些特徵通道圖依序各自與每個該些特徵值相乘,以輸出一加權特徵地圖。
TW108145733A 2019-12-13 2019-12-13 影像處理系統及影像處理方法 TWI725665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108145733A TWI725665B (zh) 2019-12-13 2019-12-13 影像處理系統及影像處理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108145733A TWI725665B (zh) 2019-12-13 2019-12-13 影像處理系統及影像處理方法

Publications (2)

Publication Number Publication Date
TWI725665B true TWI725665B (zh) 2021-04-21
TW202123176A TW202123176A (zh) 2021-06-16

Family

ID=76604683

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108145733A TWI725665B (zh) 2019-12-13 2019-12-13 影像處理系統及影像處理方法

Country Status (1)

Country Link
TW (1) TWI725665B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201913569A (zh) * 2017-08-31 2019-04-01 元智大學 多場景的移動物體偵測方法及其影像處理裝置
WO2019079895A1 (en) * 2017-10-24 2019-05-02 Modiface Inc. SYSTEM AND METHOD FOR IMAGE PROCESSING THROUGH DEEP NEURAL NETWORKS
CN109920012A (zh) * 2019-02-25 2019-06-21 西南石油大学 基于卷积神经网络的图像着色***及方法
CN110390724A (zh) * 2019-07-12 2019-10-29 杭州凌像科技有限公司 一种带有实例分割的slam方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201913569A (zh) * 2017-08-31 2019-04-01 元智大學 多場景的移動物體偵測方法及其影像處理裝置
WO2019079895A1 (en) * 2017-10-24 2019-05-02 Modiface Inc. SYSTEM AND METHOD FOR IMAGE PROCESSING THROUGH DEEP NEURAL NETWORKS
CN109920012A (zh) * 2019-02-25 2019-06-21 西南石油大学 基于卷积神经网络的图像着色***及方法
CN110390724A (zh) * 2019-07-12 2019-10-29 杭州凌像科技有限公司 一种带有实例分割的slam方法

Also Published As

Publication number Publication date
TW202123176A (zh) 2021-06-16

Similar Documents

Publication Publication Date Title
US10885693B1 (en) Animating avatars from headset cameras
JP6849824B2 (ja) セルフィーを撮影するためにユーザをガイドするためのシステム及び方法
US9348950B2 (en) Perceptually guided capture and stylization of 3D human figures
US20220189095A1 (en) Method and computer program product for producing 3 dimensional model data of a garment
CN107484428B (zh) 用于显示对象的方法
CN108388882B (zh) 基于全局-局部rgb-d多模态的手势识别方法
US20180357819A1 (en) Method for generating a set of annotated images
JP7499280B2 (ja) 人物の単眼深度推定のための方法およびシステム
CN111292334B (zh) 一种全景图像分割方法、装置及电子设备
WO2023066120A1 (zh) 图像处理方法、装置、电子设备及存储介质
TWI703348B (zh) 影像處理系統及影像處理方法
US10885708B2 (en) Automated costume augmentation using shape estimation
CN115761791A (zh) 基于2d图像的人体语义预测模块、虚拟换衣模型及方法
TWI725665B (zh) 影像處理系統及影像處理方法
US20200250878A1 (en) Method of displaying an object
US20210042607A1 (en) Cross-domain metric learning system and method
CN112967338B (zh) 影像处理***及影像处理方法
US11107220B2 (en) Image processing system and image processing method
CN111611997B (zh) 一种基于人体动作迁移的卡通定制形象运动视频生成方法
TW202125408A (zh) 圖像語義分割方法及裝置、儲存介質
Jian et al. Realistic face animation generation from videos
Avots et al. From 2D to 3D geodesic-based garment matching
Jiang et al. Facial image processing
US20240078773A1 (en) Electronic device generating 3d model of human and its operation method
JP7526412B2 (ja) パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体