TWI744000B - 影像標記裝置、方法及其電腦程式產品 - Google Patents
影像標記裝置、方法及其電腦程式產品 Download PDFInfo
- Publication number
- TWI744000B TWI744000B TW109132599A TW109132599A TWI744000B TW I744000 B TWI744000 B TW I744000B TW 109132599 A TW109132599 A TW 109132599A TW 109132599 A TW109132599 A TW 109132599A TW I744000 B TWI744000 B TW I744000B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- feature
- group
- groups
- representative
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
一種影像標記裝置、方法及其電腦程式產品。影像標記裝置產生多張待處理影像的影像特徵且將之分為多個群組。影像標記裝置對各群組:(a)從其影像特徵中選取與中心最近者作為代表特徵與比對特徵,(b)從未被選取的影像特徵中選取與比對特徵最遠者作為候選特徵,(c)將候選特徵與各代表特徵間的相似度與一門檻值比較,當所有相似度皆小於門檻值時,以候選特徵作為另一代表特徵及比對特徵,且重複(b)及(c)。代表特徵的數目大於另一門檻值的群組會被重新分群。影像標記裝置根據分群的結果決定待標記群組,且將同一待標記群組中的待處理影像作相同標記。
Description
本發明係關於一種影像標記裝置、方法及其電腦程式產品。具體而言,本發明係關於一種利用分群技術的半自動化的影像標記裝置、方法及其電腦程式產品。
深度學習為機器學習中的一個分支,近年來已廣泛地應用於各種領域以執行各種任務(例如:分類、辨識)。多數應用中所採用的深度學習模型需先經過監督式的學習(亦即,需先利用標記資料予以訓練),而深度學習模型能否高效益地完成任務(例如:提供高準確率的分類、提供高準確率的辨識)則取決於是否有夠大量的標記資料讓深度學習模型在學習階段/訓練階段學習到判別的關鍵。因此,如何取得大量的標記資料,為深度學習此一技術領域無法迴避的技術問題。
實務上,某些領域的資料(例如:製造業的生產影像)較難取得,遑論取得這些領域的標記資料。即使某些領域的資料容易取得,以人工方式逐一標記這些資料的成本也往往難以負擔。以紡織業為例,若要使用深度學習模型判斷各種瑕疵與非瑕疵的布段,需要仰賴專家標記自動光學檢測機台所取得的瑕疵影像,再利用這些標記影像訓練深度學習模型。然而,紡織業的自動光學檢測機台所產生的瑕疵影像數量龐大,且瑕疵的種類(例如:斷經、停車痕、稀弄)與偽瑕疵的種類(例如:污髒、摺痕、棉線覆蓋)繁多,由專家逐一檢視這些瑕疵影像再予以標記極為耗時。再者,紡織業的產品發展趨勢為少量多樣,因此影像也會有不同的態樣,要準備一個可應付所有產品種類的全自動化標記系統有其難度。
有鑑於此,在深度學習的技術領域中,如何降低由使用者(例如:專家)進行資料標記所衍生的成本為亟需解決的技術問題。
本發明的一目的在於提供一種影像標記裝置。該影像標記裝置包含一收發介面、一儲存器及一處理器,且該處理器電性連接至該收發介面及該儲存器。該儲存器儲存複數張待處理影像。該處理器產生各該待處理影像的一影像特徵,且將該等影像特徵區分為複數個群組。針對各該群組,該處理器執行以下運作以決定各該群組的至少一代表特徵:(a)從該群組所包含的該等影像特徵中選取與該群組的一中心最近者作為該群組的該至少一代表特徵其中之一與一比對特徵,(b)從該群組未被選取的該等影像特徵中選取與該比對特徵最遠者作為一候選特徵,其中該候選特徵與各該至少一代表特徵之間具有一相似度,以及(c)將該至少一相似度的至少其中之一與一第一門檻值比較,其中,當該至少一相似度皆小於該第一門檻值時,以該候選特徵作為該群組的該至少一代表特徵其中之一與下一輪的該比對特徵,且再次執行該運作(b)及該運作(c)。
該等群組被一第二門檻值區分為一第一部分及一第二部分,其中該第二部分的各該群組所具有的該至少一代表特徵的一數目大於該第二門檻值。該處理器將該第二部分的各該群組區分為複數個優化群組,且根據該第一部分所包含的該等群組及該等優化群組決定複數個待標記群組。該收發介面接收複數個標記指令,其中各該標記指令對應至該等待標記群組其中之一。該處理器根據各該標記指令標記對應的該待標記群組所對應的該等待處理影像。
本發明的另一目的在於提供一種影像標記方法,其係適用於一電子計算裝置。該電子計算裝置儲存複數張待處理影像,該影像標記方法包含下列步驟(a)至步驟(g)。步驟(a)產生各該待處理影像的一影像特徵。步驟(b)將該等影像特徵區分為複數個群組。步驟(c)針對各該群組執行以下步驟以決定各該群組的至少一代表特徵:(c1)從該群組所包含的該等影像特徵中選取與該群組的一中心最近者作為該群組的該至少一代表特徵其中之一與一比對特徵,(c2)從該群組未被選取的該等影像特徵中選取與該比對特徵最遠者作為一候選特徵,其中該候選特徵與各該至少一代表特徵之間具有一相似度,以及(c3)將該至少一相似度的至少其中之一與一第一門檻值比較,其中當該至少一相似度皆小於該第一門檻值時,以該候選特徵作為該群組的該至少一代表特徵其中之一與下一輪的該比對特徵,且再次執行該步驟(c2)及該步驟(c3)。
該等群組被一第二門檻值區分為一第一部分及一第二部分,其中該第二部分的各該群組所具有的該至少一代表特徵的一數目大於該第二門檻值。步驟(d)將該第二部分的各該群組區分為複數個優化群組。步驟(e)根據該第一部分所包含的該等群組及該等優化群組決定複數個待標記群組。步驟(f)接收複數個標記指令,其中各該標記指令對應至該等待標記群組其中之一。步驟(g)根據各該標記指令標記對應的該待標記群組所對應的該等待處理影像。
本發明的又一目的在於提供一種電腦程式產品。一電子計算裝置載入該電腦程式產品後,該電子計算裝置執行該電腦程式產品所包含的複數個程式指令,以執行前述的該影像標記方法。
本發明所提供的影像標記技術(至少包含裝置、方法及電腦程式產品)係利用分群技術達成對複數張待處理影像的半自動化標記。具體而言,本發明所提供的影像標記技術產生各該待處理影像的一影像特徵,將該等影像特徵區分為複數個群組,再為各該群組決定至少一代表特徵。依據本發明所提供的影像標記技術,若一群組具有複數個代表特徵,則該群組中的任一代表特徵與該群組中的其他代表特徵間的相似度皆小於一第一門檻值。換言之,若一群組具有複數個代表特徵,則該等代表特徵彼此之間具有足夠的差異。
若一群組所具有的代表特徵的數目大於一第二門檻值,意味著該群組未被適當地分群,因而該群組混雜著屬於不同類別或/及具有不同特性的影像特徵。因此,若一群組所具有的代表特徵的數目大於一第二門檻值,本發明所提供的影像標記技術會再將該群組進一步地分群,且可再為進一步分群後所得的各群組決定至少一代表特徵。本發明所提供的影像標記技術可重覆地執行前述運作,直到所有的群組所具有的代表特徵的數目皆不大於第二門檻值(亦即,所有的群組已被適當地分群)。
本發明所提供的影像標記技術會將經前述處理後所得的群組視為待標記群組。由於該等待標記群組已被適當地分群,因此同一待標記群組的所有待處理影像可被賦予同一標記。舉例而言,針對一待標記群組,可由使用者依據該待標記群組的一張或數張待處理影像(例如:代表特徵所對應的待處理影像)決定要如何標記該待標記群組的所有待處理影像,並輸入對應的一標記指令。本發明所提供的影像標記技術再依據該標記指令標記對應的該待標記群組所對應的該等待處理影像。藉由上述運作/步驟,本發明所提供的影像標記技術能達成對複數張待處理影像的半自動化標記,大幅度地降低由使用者進行資料標記所衍生的成本。
以下結合圖式闡述本發明的詳細技術及實施方式,俾使本發明所屬技術領域中具有通常知識者能理解所請求保護的發明的技術特徵。
以下將透過實施方式來解釋本發明所提供的影像標記裝置、方法及其電腦程式產品。然而,該等實施方式並非用以限制本發明需在如該等實施方式所述的任何環境、應用或方式方能實施。因此,關於以下實施方式的說明僅在於闡釋本發明的目的,而非用以限制本發明的範圍。應理解,在以下實施方式及圖式中,與本發明非直接相關的元件已省略而未繪示。此外,圖式中各元件的尺寸以及元件間的尺寸比例僅為便於繪示及說明,而非用以限制本發明的範圍。
本發明的第一實施方式為一影像標記裝置1,其架構示意圖係描繪於第1A圖。影像標記裝置1包含一收發介面11、一儲存器13及一處理器15,其中處理器15電性連接至收發介面11及儲存器13。收發介面11可為任何能與處理器15搭配使用,且能接收與傳送訊號的介面,例如:通用串列匯流排介面、網路介面卡,但不以此為限。儲存器13可為一記憶體、一硬碟(Hard Disk Drive;HDD)、一通用串列匯流排(Universal Serial Bus;USB)碟、一光碟(Compact Disk;CD)或本發明所屬技術領域中具有通常知識者所知的任何其他具有相同功能的非暫態儲存媒體或裝置。處理器15可為各種處理器、中央處理單元(Central Processing Unit;CPU)、微處理器(Microprocessor Unit;MPU)、數位訊號處理器(Digital Signal Processor;DSP)或本發明所屬技術領域中具有通常知識者所知的任何其他具有相同功能的計算裝置。
於本實施方式中,儲存器13先儲存某一領域(例如:紡織業)的複數張原始影像(未繪示),例如:由攝影設備針對某一領域的某一或某些物件所拍攝到的影像。以紡織業為例,原始影像可為由紡織工廠的一或多台自動光學檢測機台所配置的攝影設備針對布段所拍攝的複數張瑕疵影像。處理器15將各張原始影像進行至少一基本資料擴增處理(例如:影像平移、影像翻轉、影像旋轉)以產生各張原始影像的至少一擴增影像。請參第1B圖的一具體範例,其係描繪一原始影像OI以及原始影像OI經多種基本資料擴增處理後所得的擴增影像EI1、EI2、EI3、EI4、EI5、EI6、EI7、EI8、EI9。處理器15再以該等原始影像以及該等擴增影像作為複數張待處理影像10a、10b、……、10c,並將之儲存於儲存器13。
需說明者,處理器15藉由將各張原始影像進行至少一基本資料擴增處理來增加待處理影像的數目,讓某一特徵在多張待處理影像中出現,有助於提高後續分群的準確度。另需說明者,本發明未限制處理器15針對一原始影像所進行的基本資料擴增處理的次數;換言之,本發明未限制一原始影像所對應的擴增影像的數目。再者,在某些實施方式中,處理器15也可不對原始影像進行基本資料擴增處理,而是直接以該等原始影像作為後續所要處理的待處理影像10a、10b、……、10c(例如:儲存器13所儲存的原始影像的數量已經足夠、各種特徵已有足夠數量的原始影像)。
於本實施方式中,處理器15針對待處理影像10a、10b、……、10c個別地產生一影像特徵,因此得到待處理影像10a、10b、……、10c所分別對應的影像特徵12a、12b、……、12c。需說明者,處理器15可採用各種能產生影像特徵的技術,只要所產生的各影像特徵具有能反映出對應的該待處理影像的特徵即可。
在某些實施方式中,處理器15可利用一自編碼器(Autoencoder)來產生待處理影像10a、10b、……、10c所分別對應的影像特徵12a、12b、……、12c。第1C圖係描繪一常見的自編碼器AE的架構。自編碼器AE包含一編碼器EC及一解碼器DC,且可藉由一個多層神經網路來實現。編碼器EC負責將自編碼器AE的輸入資料ID壓縮(亦可理解為降維)為能代表輸入資料ID的一特徵資料FD(例如:特徵向量),而解碼器DC則負責將特徵資料FD解壓縮為一與輸入資料ID具有相同涵義的輸出資料ID’。由於自編碼器AE的輸入資料ID與輸出資料ID’具有相同的涵義,代表特徵資料FD具有能反映出輸入資料ID的特徵。基於自編碼器AE的前述特性,處理器15可將待處理影像10a、10b、……、10c分別輸入自編碼器AE,並以自編碼器AE所包含的編碼器EC的輸出作為待處理影像10a、10b、……、10c所分別對應的影像特徵12a、12b、……、12c。
在某些實施方式中,為使自編碼器AE能夠確實地產生與輸入資料ID具有相同涵義的輸出資料ID’(亦即,為使編碼器EC所產生的特徵資料FD具有能反映輸入資料ID的特徵),處理器15在利用自編碼器AE產生待處理影像10a、10b、……、10c所分別對應的影像特徵12a、12b、……、12c之前,可先利用待處理影像10a、10b、……、10c訓練自編碼器AE。本發明所屬技術領域中具有通常知識者應熟知如何訓練自編碼器AE,故不贅言。於該等實施方式中,在訓練完自編碼器AE後,處理器15才將待處理影像10a、10b、……、10c分別輸入自編碼器AE,並以自編碼器AE所包含的編碼器EC的輸出作為待處理影像10a、10b、……、10c所分別對應的影像特徵12a、12b、……、12c。
在產生待處理影像10a、10b、……、10c所分別對應的影像特徵12a、12b、……、12c後,處理器15將影像特徵12a、12b、……、12c區分為複數個群組(未繪示)。在某些實施方式中,處理器15可採用一分群演算法將影像特徵12a、12b、……、12c區分為複數個群組。處理器15所採用的分群演算法為一分割式分群演算法(Partitional Clustering Algorithm),其特性是將資料物件的集合分割為不重疊的多個子集合,使每個資料物件正好只落在一個子集合中。舉例而言,處理器15可採用K-means演算法將影像特徵12a、12b、……、12c區分為複數個群組。需說明者,在本實施方式中,由於處理器15先前將各張原始影像進行至少一基本資料擴增處理以增加待處理影像的數目,讓某一特徵在多張待處理影像中出現,因此具有相同特性的影像特徵(例如:紡織業中同屬「斷經」的瑕疵影像的影像特徵)會更容易被區分在同一群組。
於本實施方式中,由於待處理影像10a、10b、……、10c包含原始影像與擴增影像,因此處理器15還從各群組中移除對應至擴增影像的影像特徵,使得各群組僅具有對應至原始影像的影像特徵。移除各群組中對應至擴增影像的影像特徵的用意在於避免有任一群組中只有擴增影像的影像特徵而沒有原始影像的特徵。於其他實施方式中,若處理器15僅以原始影像作為待處理影像,則可省略此一運作(因為無擴增影像的影像特徵可以移除)。
於本實施方式中,在處理器15將影像特徵12a、12b、……、12c區分為複數個群組,且從各群組移除對應至擴增影像的影像特徵後,處理器15再以一聚合式階層分群法(Agglomerative Hierarchical Clustering Algorithm)將該等群組中影像特徵數量過少的群組重新聚合分群。具體而言,處理器15可計算各群組所包含的影像特徵的數目(未繪示),從該等群組中找出影像特徵的數目小於一門檻值的一或多個群組(亦即,從該等群組中確認一子集,且該子集所包含的各該群組的影像特徵的數目小於該門檻值),再以聚合式階層分群法整合該子集所包含的該等群組。為便於理解,請參第1D圖所示的一具體範例,但其非用以限制本發明的範圍。於第1D圖中,每一個黑點代表一影像特徵。於該具體範例中,處理器15以分群演算法將影像特徵12a、12b、……、12c區分為九個群組G1、G2、G3、G4、G5、G6、G7、G8、G9,且找出這些群組中的群組G2、G5、G8、G9各自的影像特徵的數目小於一門檻值(例如:4)。因此,處理器15以聚合式階層分群法將群組G2、G5、G8、G9整合為群組G10、G11。
需說明者,本發明所屬技術領域中具有通常知識者應熟知聚合式階層分群法的運作方式,故不贅言。另需說明者,處理器15利用聚合式階層分群法將該等群組中影像特徵數量過少的群組重新聚合分群,其目的在於減少效用較差的群組(亦即,影像特徵數量過少的群組),以減少後續讓使用者觀看並進行類別判斷的影像數目(容後說明)。再者,於某些實施方式中,若不需減少讓使用者觀看並進行類別判斷的影像數目,則處理器15可省略以聚合式階層分群法影像特徵數量過少的群組重新聚合分群。
之後,處理器15進行下一階段的運作,也就是決定各群組的至少一代表特徵。於本實施方式中,因處理器15先前採用聚合式階層分群法將影像特徵數量過少的群組重新聚合分群,因此下一階段所處理的群組為優化後的群組。請參第1D圖的具體範例,若處理器15有採用聚合式階層分群法將影像特徵數量過少的群組重新聚合分群,則下一階段所處理的群組為群組G1、G3、G4、G6、G7、G10、G11。於其他實施方式中,若處理器15未採用聚合式階層分群法將影像特徵數量過少的群組重新聚合分群,則下一階段所處理的群組為前述分群後所產生的該等群組。請參第1D圖的具體範例,若處理器15未採用聚合式階層分群法將影像特徵數量過少的群組重新聚合分群,則進入下一階段時所處理的群組為群組G1、G2、G3、G4、G5、G6、G7、G8、G9。
現詳述處理器15如何決定各群組的至少一代表特徵。具體而言,針對各該群組,處理器15執行以下運作:(a)從該群組所包含的該等影像特徵中選取與該群組的一中心最近者作為該群組的該至少一代表特徵其中之一與作為一比對特徵,(b)從該群組未被選取的該等影像特徵中選取與該比對特徵最遠者作為一候選特徵,其中該候選特徵與各該至少一代表特徵之間具有一相似度,以及(c)將該至少一相似度的至少其中之一與一門檻值比較。若該至少一相似度皆小於該門檻值,則以該候選特徵作為該群組的該至少一代表特徵其中之一與下一輪的該比對特徵,且再次執行該運作(b)及該運作(c)。
處理器15在執行上述運作(a)時,可計算各影像特徵與該群組的該中心間的歐幾里得距離(Euclidean Distance)以評估哪一影像特徵與該群組的該中心最近。此外,處理器15在執行上述運作(b)時,可計算未被選取的各影像特徵與比對特徵間的歐幾里得距離以評估哪一影像特徵與該比對特徵最遠。應理解,前述的歐幾里得距離僅為舉例而已,並非用以限制本發明的範圍。另外,處理器15在計算一候選特徵與各該至少一代表特徵之間的相似度時,可採用該候選特徵與各該至少一代表特徵之間的餘弦相似度(Cosine Similarity)。類似的,前述的餘弦相似度僅為舉例而已,並非用以限制本發明的範圍。
為便於理解,請參第1E圖所示的一具體範例,但該具體範例並非用以限制本發明的範圍。該具體範例係關於如何決定群組G3的至少一代表特徵,且第1E圖中的每一黑點代表一影像特徵。
處理器15先執行運作(a)。具體而言,處理器15根據群組G3所包含的影像特徵P1、P2、P3、P4、P5、P6、P7計算出群組G3的中心,計算影像特徵P1、P2、P3、P4、P5、P6、P7各自與群組G3的中心間的距離(例如:歐幾里得距離),再依據該等距離選取出與群組G3的中心最近的影像特徵(例如:影像特徵P1)作為群組G3的一個代表特徵且作為這一輪執行運作(b)的比對特徵。
接著,處理器15執行運作(b)。具體而言,處理器15計算群組G3中未被選取作為代表特徵的各影像特徵與比對特徵間的距離(例如:歐幾里得距離),再依據該等距離選取與該比對特徵最遠的影像特徵作為一候選特徵。舉例而言,在第一輪執行運作(b)時,比對特徵為影像特徵P1,處理器15計算影像特徵P2、P3、P4、P5、P6、P7各自與影像特徵P1間的距離,處理器15再依據該等距離選取出影像特徵P3作為一候選特徵。
隨後,處理器15執行運作(c)。需說明者,運作(b)所選取的候選特徵與群組G3的各代表特徵(若為第一輪執行,則僅有一個代表特徵)之間具有一相似度(例如:餘弦相似度),處理器15係基於候選特徵與一或多個代表特徵間的相似度進行運作(c)。具體而言,處理器15從群組G3的代表特徵中挑選一個,計算候選特徵與本次挑選到的代表特徵間的一相似度,且將該相似度與一門檻值比較。若該相似度達到該門檻值(亦即,該相似度等於或大於該門檻值),則結束挑選群組G3的代表特徵。若該相似度小於該門檻值,處理器15會再重複前述運作(亦即,挑選群組G3的其他代表特徵(若有),計算候選特徵與本次挑選到的代表特徵間的一相似度,且將該相似度與該門檻值比較)。若處理器15針對所有的代表特徵皆執行完前述運作仍未找到相似度達到該門檻值的代表特徵(亦即,候選特徵與群組G3的所有代表特徵間的相似度皆小於該門檻值),處理器15會以該候選特徵作為群組G3的另一代表特徵,且作為下一輪的比對特徵,並再次執行該運作(b)及該運作(c)。
舉例而言,在第一輪執行運作(c)時,候選特徵為影像特徵P3且群組G3只有一個代表特徵(亦即,影像特徵P1),處理器15計算影像特徵P3與影像特徵P1間的相似度。若影像特徵P3與影像特徵P1間的相似度大於門檻值,則結束挑選群組G3的代表特徵。若影像特徵P3與影像特徵P1間的相似度不大於門檻值,則處理器15會將影像特徵P3作為群組G3的另一代表特徵且作為下一輪的比對特徵,並再次執行該運作(b)及該運作(c)。
需說明者,上述運作(a)的意義在於找出一群組中最具有代表性的影像特徵(亦即,與該群組的中心最近的影像特徵)作為代表特徵。上述運作(b)與運作(c)的意義則在於找出與最新決定的代表特徵最遠的影像特徵作為候選特徵,再評估是否要將該候選特徵作為該群組的另一代表特徵。在那些未被選取作為代表特徵的影像特徵中,候選特徵與最新決定的代表特徵最遠,代表在那些未被選取作為代表特徵的影像特徵中,候選特徵最可能與代表特徵不夠相似。因此,若候選特徵與某一代表特徵的相似度達到該門檻值,意味著最可能不夠相似的影像特徵也已經夠相似了,因而不需再未該群組選取其他的代表特徵。若候選特徵與所有代表特徵的相似度皆不大於該門檻值,則因候選特徵與所有代表特徵之間有足夠的差異,故可作為該群組的另一代表特徵。
處理器15會透過上述運作(a)、運作(b)及運作(c)決定各群組的至少一代表特徵。為便於後續說明,茲假設處理器15係針對群組G1、G3、G4、G6、G7、G10、G11決定其代表特徵,且群組G1、G3、G4、G6、G7、G10、G11各自所具有的代表特徵的數目如第1F圖所示。
於本實施方式中,處理器15以另一門檻值(例如:2個)將此階段的所有群組(亦即,群組G1、G3、G4、G6、G7、G10、G11)區分為一第一部分及一第二部分。第一部分所對應的各群組所具有的代表特徵的數目不大於該門檻值,因此包含群組G1、G3、G4、G6、G10、G11。第二部分所對應的各群組所具有的代表特徵的數目大於該門檻值,因此包含群組G7。
需說明者,若一群組所具有的代表特徵的數目大於該門檻值,代表該群組所對應的影像特徵混雜著應屬於不同類別或/及具有不同特性的影像特徵。因此,處理器15會將該第二部分所對應的各群組(亦即,影像特徵混雜的各群組)區分為複數個優化群組。在某些實施方式中,處理器15可採上述的分群演算法(例如:上述的K-means演算法)將該第二部分所對應的各群組區分為複數個優化群組。在針對一群組進行優化分群時,處理器15可採用該群組全部的代表特徵作為分群演算法的初始中心點。請參第1G圖所示的一具體範例,但其非用以限制本發明的範圍。於該具體範例中,群組G7具有代表特徵P71、P72、P73,處理器15以代表特徵P71、P72、P73作為分群演算法的初始中心點,再以分群演算法將群組G7區分為三個優化群組G12、G13、G14。
接著,處理器15根據該第一部分所包含的群組G1、G3、G4、G6、G10、G11以及優化群組G12、G13、G14決定複數個待標記群組。於本實施方式中,處理器15以群組G1、G3、G4、G6、G10、G11以及優化群組G12、G13、G14作為待標記群組。
在某些實施方式中,處理器15還可針對優化群組G12、G13、G14的每一個執行上述運作(a)、運作(b)及運作(c)以決定優化群組G12、G13、G14各自的至少一代表特徵。接著,處理器15判斷優化群組G12、G13、G14各自所具有的代表特徵的數目是否大於前述門檻值(亦即,前述用來衡量一群組是否混雜著應屬於不同類別或/及具有不同特性的影像特徵的門檻值)。針對代表特徵的數目大於該門檻值的優化群組(若有),處理器15可利用雷同的運作再次優化分群。依據前述說明,本發明所屬技術領域中具有通常知識者應能理解處理器15可重複地執行前述運作,直到找出能將所有影像特徵12a、12b、……、12c適當地分群的群組(亦即,所有的群組的代表特徵的數目皆不大於該門檻值),茲不贅言。於該等實施方式中,處理器15會以最後得到的該等群組(亦即,能將所有影像特徵12a、12b、……、12c適當地分群的群組)作為複數個待標記群組。
如前所述,於本實施方式中,處理器15係以群組G1、G3、G4、G6、G10、G11以及優化群組G12、G13、G14作為待標記群組。接著,處理器15會決定各待標記群組的至少一代表影像。舉例而言,針對一待標記群組,處理器15可選擇該待標記群組的任一影像特徵所對應的待處理影像作為代表影像。再舉例而言,針對一待標記群組,處理器15可選擇該待標記群組的該至少一代表特徵所對應的該至少一待處理影像作為至少一代表影像。再舉例而言,針對一待標記群組,處理器15可將該待標記群組的各該至少一代表特徵輸入自編碼器AE的解碼器DC以得到至少一輸出資料,再以該至少一輸出資料作為至少一代表影像。
影像標記裝置1會讓使用者知道各待標記群組的至少一代表影像。舉例而言,影像標記裝置1可透過收發介面15傳送各待標記群組的至少一代表影像至使用者的終端裝置。再舉例而言,影像標記裝置1可包含一顯示螢幕,且於該顯示螢幕上顯示各待標記群組的至少一代表影像。由於使用者知道各待標記群組所對應的代表影像,因而能根據各待標記群組所對應的代表影像決定各待標記群組所對應的一或多個標記。使用者可透過一輸入介面輸入待標記群組(亦即,群組G1、G3、G4、G6、G10、G11以及優化群組G12、G13、G14)所分別對應的標記指令L1、L3、L4、L6、L10、L11、L12、L13、L14,其中標記指令L1、L3、L4、L6、L10、L11、L12、L13、L14個別地記載對應的待標記群組的一或多個標記。
影像標記裝置1則由收發介面11接收標記指令L1、L3、L4、L6、L10、L11、L12、L13、L14。如前所述,標記指令L1、L3、L4、L6、L10、L11、L12、L13、L14個別地對應至該等待標記群組(亦即,群組G1、G3、G4、G6、G10、G11以及優化群組G12、G13、G14)其中之一。處理器15再根據標記指令L1、L3、L4、L6、L10、L11、L12、L13、L14各自所記載的一或多個標記,標記對應的待標記群組所對應的該等待處理影像。舉例而言,標記指令L1對應至群組G1且記載一個標記「稀弄」,處理器15便將群組G1所包含的待處理影像皆標記為「稀弄」。
由上述說明可知,影像標記裝置1會將待處理影像10a、10b、……、10c的影像特徵12a、12b、……、12c區分為多個群組,為各群組選取至少一代表特徵,再依據各群組的代表特徵的數目判斷影像特徵12a、12b、……、12c是否被適當地分群。針對未被適當地分群的群組,影像標記裝置1會將之優化分群。藉由上述運作,影像標記裝置1最後所決定的複數個待標記群組已將影像特徵12a、12b、……、12c適當地分群,因此同一待標記群組的所有待處理影像可被賦予同一標記。因此,影像標記裝置1能達成對複數張待處理影像的半自動化標記,大幅度地降低由使用者進行資料標記所衍生的成本。
本發明的第二實施方式為一影像標記方法,其主要流程圖係描繪於第2圖。該影像標記方法適用於一電子計算裝置,例如:前述的影像標記裝置1。
於本實施方式中,該影像標記方法先執行步驟S201,由該電子計算裝置將複數張原始影像的每一張進行至少一基本資料擴增處理以分別產生至少一擴增影像,以該等原始影像及該等擴增影像作為複數張待處理影像,且將該等待處理影像儲存於該電子計算裝置。在某些實施方式中,該影像標記方法可以複數張原始影像作為複數張待處理影像,因而可省略步驟S201。
於步驟S203,由該電子計算裝置產生各該待處理影像的一影像特徵。在某些實施方式中,步驟S203可將各該待處理影像輸入一自編碼器以從該自編碼器所包含的一編碼器取得各該待處理影像的該影像特徵。另外,在某些實施方式中,該影像標記方法可先執行一步驟,由該電子計算裝置利用該等待處理影像訓練該自編碼器,之後再執行步驟S203以將各該待處理影像輸入該自編碼器以從該自編碼器所包含的該編碼器取得各該待處理影像的該影像特徵。
於步驟S205,由該電子計算裝置將該等影像特徵區分為複數個群組,例如:可藉由一分群演算法達成。於步驟S207,由該電子計算裝置從該等群組中移除對應至該等擴增影像的該等影像特徵。需說明者,於其他實施方式中,若影像標記方法未曾執行步驟S201,則可省略步驟S207。
在某些實施方式中,於步驟S207之後,影像標記方法還可由該電子計算裝置將過小的群組聚合。具體而言,影像標記方法可由該電子計算裝置執行一步驟以計算各該群組所包含的該至少一影像特徵的一數目,再由該電子計算裝置執行一步驟以從該等群組中確認一子集(該子集所包含的各該群組的影像特徵的數目小於一門檻值),再由該電子計算裝置執行一步驟以一聚合式階層分群法整合該子集所包含的該等群組。
於步驟S209,由該電子計算裝置決定各該群組的至少一代表特徵。具體而言,步驟S209係由該電子計算裝置針對各該群組執行如第3圖所示的流程以決定各該群組的至少一代表特徵。
於步驟S301,由該電子計算裝置從該群組所包含的該等影像特徵中選取與該群組的一中心最近者作為該群組的該至少一代表特徵其中之一且作為一比對特徵。於步驟S303,由該電子計算裝置從該群組未被選取的該等影像特徵中選取與該比對特徵最遠者作為一候選特徵。需說明者,步驟S303所選取的該候選特徵與該群組的各該至少一代表特徵之間具有一相似度,影像標記方法係基於候選特徵與一或多個代表特徵間的相似度進行步驟S305的判斷。
於步驟S305,由該電子計算裝置判斷該候選特徵是否與該群組中的某一代表特徵間的相似度達到另一門檻值。若步驟S305的判斷結果為否(亦即,該候選特徵與該群組中所有的代表特徵間的相似度皆小於該門檻值),則該影像標記方法以該候選特徵作為該群組的該至少一代表特徵其中之一且作為下一輪的該比對特徵,並再次執行步驟S303。若步驟S305的判斷結果為是,則結束對該群組進行代表特徵的選取。
影像標記方法透過步驟S209為各群組決定至少一代表特徵。這些群組依據其代表特徵的數目被另一門檻值區分為一第一部分及一第二部分,其中第一部分的各該群組所具有的代表特徵的數目不大於該門檻值,而第二部分的各該群組所具有的代表特徵的數目大於該門檻值。
於步驟S211,由該電子計算裝置將該第二部分的各該群組區分為複數個優化群組,例如:可藉由一分群演算法達成。於步驟S213,由該電子計算裝置根據該第一部分所包含的該等群組及該等優化群組決定複數個待標記群組。於本實施方式中,步驟S213係以該第一部分所包含的該等群組及步驟S211所得到的該等優化群組作為待標記群組。在某些實施方式中,影像標記方法還可針對步驟S211所得到的各該優化群組執行步驟S301至步驟S305以決定各該優化群組的至少一代表特徵,再判斷各該優化群組所具有的代表特徵的數目是否大於前述門檻值。針對代表特徵的數目大於該門檻值的優化群組(若有),影像標記方法可利用雷同的步驟再次優化分群。依據前述說明,本發明所屬技術領域中具有通常知識者應能理解影像標記方法可重複地執行前述步驟,直到找出能將所有影像特徵適當地分群的群組(亦即,所有的群組的代表特徵的數目皆不大於該門檻值),茲不贅言。於該等實施方式中,影像標記方法會以最後得到的該等群組(亦即,能將所有影像特徵適當地分群的群組)作為複數個待標記群組。
於步驟S215,由該電子計算裝置接收複數個標記指令,其中各該標記指令對應至該等待標記群組其中之一。於步驟S217,由該電子計算裝置根據各該標記指令標記對應的該待標記群組所對應的該等待處理影像。在某些實施方式中,該影像標記方法還可在執行步驟S215前執行一步驟,由該電子計算裝置提供各該待標記群組的至少一代表影像,俾使用者根據各該待標記群組所對應的代表影像決定各該待標記群組所對應的一或多個標記,再透過一輸入介面輸入該等待標記指令。在某些實施方式中,該影像標記方法還可執行一步驟,由該電子計算裝置將各該待標記群組的各該至少一代表特徵輸入該自編碼器所包含的一解碼器以取得對應的一代表影像。
除了上述步驟,第二實施方式還能執行影像標記裝置1所能執行的所有運作及步驟,具有同樣的功能,且達到同樣的技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第二實施方式如何基於上述的影像標記裝置1以執行此等運作及步驟,具有同樣的功能,並達到同樣的技術效果,故不贅述。
第二實施方式中所闡述的影像標記方法可由包含複數個程式指令的一電腦程式產品實現。該電腦程式產品可為能被於網路上傳輸的檔案,亦可被儲存於一非暫態電腦可讀取儲存媒體中。該電腦程式產品所包含的該等程式指令被載入一電子計算裝置(例如:影像標記裝置1)後,該電腦程式執行如在第二實施方式中所述的影像標記方法。該非暫態電腦可讀取儲存媒體可為一電子產品,例如:一唯讀記憶體(Read Only Memory;ROM)、一快閃記憶體、一軟碟、一硬碟、一光碟(Compact Disk;CD)、一數位多功能光碟(Digital Versatile Disc;DVD)、一隨身碟、一可由網路存取的資料庫或本發明所屬技術領域中具有通常知識者所知且具有相同功能的任何其他儲存媒體。
需說明者,於本發明專利說明書及申請專利範圍中,某些用語(包含:比對特徵、候選特徵、相似度、部分、數目、門檻值)前被冠以「第一」、「第二」或「第三」,該等「第一」、「第二」及「第三」僅用來區隔該等用語彼此不同。
綜上所述,本發明提供一種利用分群技術來達成對複數張待處理影像進行半自動化標記的影像標記技術(至少包含裝置、方法及電腦程式產品)。本發明所提供的影像標記技術產生各該待處理影像的一影像特徵,將該等影像特徵區分為複數個群組,再為各該群組決定至少一代表特徵。若一群組所具有的代表特徵的數目大於一第二門檻值,意味著該群組未被適當地分群,因而該群組混雜著屬於不同類別或/及具有不同特性的影像特徵。因此,若一群組所具有的代表特徵的數目大於一第二門檻值,本發明所提供的影像標記技術會再將該群組進一步地分群,且可再為進一步分群後所得的各群組決定至少一代表特徵。本發明所提供的影像標記技術可重覆地執行前述運作,直到該等待處理影像已被適當地分群。
本發明所提供的影像標記技術會將經前述處理後所得的群組視為待標記群組。由於該等待標記群組已被適當地分群,因此同一待標記群組的所有待處理影像可被賦予同一標記。舉例而言,針對一待標記群組,可由使用者依據該待標記群組的一張或數張待處理影像(例如:代表特徵所對應的待處理影像)決定要如何標記該待標記群組的所有待處理影像,並輸入對應的一標記指令。本發明所提供的影像標記技術再依據該標記指令標記對應的該待標記群組所對應的該等待處理影像。藉由上述運作/步驟,本發明所提供的影像標記技術能達成對複數張待處理影像的半自動化標記,大幅度地降低由使用者進行資料標記所衍生的成本。
上述各實施方式係用以例示性地說明本發明的部分實施態樣,以及闡釋本發明的技術特徵,而非用來限制本發明的保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成的改變或均等性的安排均屬於本發明所主張的範圍,本發明的權利保護範圍以申請專利範圍為準。
1:影像標記裝置
11:收發介面
13:儲存器
15:處理器
10a、10b、……、10c:待處理影像
12a、12b、……、12c:影像特徵
L1、L3、L4、L6、L10、L11、L12、L13、L14:標記指令
OI:原始影像
EI1、EI2、EI3、EI4、EI5、EI6、EI7、EI8、EI9:擴增影像
AE:自編碼器
EC:編碼器
DC:解碼器
ID:輸入資料
FD:特徵資料
ID’:輸出資料
G1、G2、G3、G4、G5、G6、G7、G8、G9、G10、G11:群組
P1、P2、P3、P4、P5、P6、P7:影像特徵
P71、P72、P73:代表特徵
G12、G13、G14:優化群組
S201~S217:步驟
S301~S305:步驟
第1A圖描繪影像標記裝置1的架構示意圖。
第1B圖描繪一原始影像及其對應的複數張擴增影像。
第1C圖描繪一常見的自編碼器AE的架構示意圖。
第1D圖為以一聚合式階層分群法整合某些群組的示意圖。
第1E圖描繪如何決定群組G3的至少一代表特徵的示意圖。
第1F圖為複數個群組及其所對應的代表特徵的數目。
第1G圖描繪針對群組G7進行優化分群的示意圖。
第2圖描繪影像標記方法的主要流程圖。
第3圖描繪如何決定一群組的至少一代表特徵的流程圖。
S201~S217:步驟
Claims (20)
- 一種影像標記裝置,包含: 一收發介面; 一儲存器,儲存複數張待處理影像;以及 一處理器,電性連接至該收發介面及該儲存器,且產生各該待處理影像的一影像特徵,將該等影像特徵區分為複數個群組,以及針對各該群組執行以下運作以決定各該群組的至少一代表特徵: (a)從該群組所包含的該等影像特徵中選取與該群組的一中心最近者作為該群組的該至少一代表特徵其中之一與一第一比對特徵, (b)從該群組未被選取的該等影像特徵中選取與該第一比對特徵最遠者作為一第一候選特徵,其中該第一候選特徵與各該至少一代表特徵之間具有一第一相似度,以及 (c)將該至少一第一相似度的至少其中之一與一第一門檻值比較, 其中,當該至少一第一相似度皆小於該第一門檻值時,以該第一候選特徵作為該群組的該至少一代表特徵其中之一與下一輪的該第一比對特徵,且再次執行該運作(b)及該運作(c), 其中,該等群組被一第二門檻值區分為一第一部分及一第二部分,該第二部分的各該群組所具有的該至少一代表特徵的一第一數目大於該第二門檻值,該處理器將該第二部分的各該群組區分為複數個優化群組,且根據該第一部分所包含的該等群組及該等優化群組決定複數個待標記群組, 其中,該收發介面接收複數個標記指令,各該標記指令對應至該等待標記群組其中之一,且該處理器根據各該標記指令標記對應的該待標記群組所對應的該等待處理影像。
- 如請求項1所述的影像標記裝置,其中該處理器還將複數張原始影像的每一張進行至少一基本資料擴增處理以分別產生至少一擴增影像,且以該等原始影像及該等擴增影像作為該等待處理影像。
- 如請求項2所述的影像標記裝置,其中該處理器還從該等群組中移除對應至該等擴增影像的該等影像特徵。
- 如請求項1或3所述的影像標記裝置,其中該處理器還計算各該群組所包含的該至少一影像特徵的一第二數目,該處理器還從該等群組中確認一子集,該子集所包含的各該群組的該第二數目小於一第三門檻值,該處理器還以一聚合式階層分群法整合該子集所包含的該等群組。
- 如請求項1所述的影像標記裝置,其中該處理器還針對各該優化群組執行以下運作以決定各該優化群組的至少一代表特徵: (d)從該優化群組所包含的該等影像特徵中選取與該優化群組的一中心最近者作為該優化群組的該至少一代表特徵其中之一與一第二比對特徵, (e)從該優化群組未被選取的該等影像特徵中選取與該第二比對特徵最遠者作為一第二候選特徵,其中該第二候選特徵與該優化群組的各該至少一代表特徵之間具有一第二相似度,以及 (f)將該至少一第二相似度的至少其中之一與該第一門檻值比較, 其中,當該至少一第二相似度皆小於該第一門檻值時,以該第二候選特徵作為該優化群組的該至少一代表特徵其中之一與下一輪的該第二比對特徵,且再次執行該運作(e)及該運作(f)。
- 如請求項5所述的影像標記裝置,其中該處理器係將各該待處理影像輸入一自編碼器(Autoencoder)以從該自編碼器所包含的一編碼器取得各該待處理影像的該影像特徵。
- 如請求項6所述的影像標記裝置,其中該處理器還將各該待標記群組的各該至少一代表特徵輸入該自編碼器所包含的一解碼器以取得對應的一代表影像。
- 一種影像標記方法,適用於一電子計算裝置,該電子計算裝置儲存複數張待處理影像,該影像標記方法包含下列步驟: (a)產生各該待處理影像的一影像特徵; (b)將該等影像特徵區分為複數個群組;以及 (c)針對各該群組執行以下步驟以決定各該群組的至少一代表特徵: (c1)從該群組所包含的該等影像特徵中選取與該群組的一中心最近者作為該群組的該至少一代表特徵其中之一與一第一比對特徵; (c2)從該群組未被選取的該等影像特徵中選取與該第一比對特徵最遠者作為一第一候選特徵,其中該第一候選特徵與各該至少一代表特徵之間具有一第一相似度;以及 (c3)將該至少一第一相似度的至少其中之一與一第一門檻值比較; 其中,當該至少一第一相似度皆小於該第一門檻值時,以該第一候選特徵作為該群組的該至少一代表特徵其中之一與下一輪的該第一比對特徵,且再次執行該步驟(c2)及該步驟(c3); 其中,該等群組被一第二門檻值區分為一第一部分及一第二部分,該第二部分的各該群組所具有的該至少一代表特徵的一第一數目大於該第二門檻值,該影像標記方法還包含下列步驟: (d)將該第二部分的各該群組區分為複數個優化群組; (e)根據該第一部分所包含的該等群組及該等優化群組決定複數個待標記群組; (f)接收複數個標記指令,其中各該標記指令對應至該等待標記群組其中之一;以及 (g)根據各該標記指令標記對應的該待標記群組所對應的該等待處理影像。
- 如請求項8所述的影像標記方法,還包含下列步驟: 將複數張原始影像的每一張進行至少一基本資料擴增處理以分別產生至少一擴增影像,其中該等待處理影像包含該等原始影像及該等擴增影像。
- 如請求項9所述的影像標記方法,還包含下列步驟: 從該等群組中移除對應至該等擴增影像的該等影像特徵。
- 如請求項8或10所述的影像標記方法,還包含下列步驟: 計算各該群組所包含的該至少一影像特徵的一第二數目; 從該等群組中確認一子集,其中該子集所包含的各該群組的該第二數目小於一第三門檻值;以及 以一聚合式階層分群法整合該子集所包含的該等群組。
- 如請求項8所述的影像標記方法,還包含下列步驟: (h)針對各該優化群組執行以下運作以決定各該優化群組的至少一代表特徵: (h1)從該優化群組所包含的該等影像特徵中選取與該優化群組的一中心最近者作為該優化群組的該至少一代表特徵其中之一與一第二比對特徵; (h2)從該優化群組未被選取的該等影像特徵中選取與該第二比對特徵最遠者作為一第二候選特徵,其中該第二候選特徵與該優化群組的各該至少一代表特徵之間具有一第二相似度;以及 (h3)將該至少一第二相似度的至少其中之一與該第一門檻值比較, 其中,當該至少一第二相似度皆小於該第一門檻值時,以該第二候選特徵作為該優化群組的該至少一代表特徵其中之一與下一輪的該第二比對特徵,且再次執行該步驟(h2)及該步驟(h3)。
- 如請求項12所述的影像標記方法,其中該步驟(a)係將各該待處理影像輸入一自編碼器以從該自編碼器所包含的一編碼器取得各該待處理影像的該影像特徵。
- 如請求項13所述的影像標記方法,還包含下列步驟: 將各該待標記群組的各該至少一代表特徵輸入該自編碼器所包含的一解碼器以取得對應的一代表影像。
- 一種電腦程式產品,經由一電子計算裝置載入該電腦程式產品後,該電子計算裝置執行該電腦程式產品所包含的複數個程式指令,以執行一種影像標記方法,該電子計算裝置儲存複數張待處理影像,該影像標記方法包含下列步驟: (a)產生各該待處理影像的一影像特徵; (b)將該等影像特徵區分為複數個群組;以及 (c)針對各該群組執行以下步驟以決定各該群組的至少一代表特徵: (c1)從該群組所包含的該等影像特徵中選取與該群組的一中心最近者作為該群組的該至少一代表特徵其中之一與一第一比對特徵; (c2)從該群組未被選取的該等影像特徵中選取與該第一比對特徵最遠者作為一第一候選特徵,其中該第一候選特徵與各該至少一代表特徵之間具有一第一相似度;以及 (c3)將該至少一第一相似度的至少其中之一與一第一門檻值比較; 其中,當該至少一第一相似度皆小於該第一門檻值時,以該第一候選特徵作為該群組的該至少一代表特徵其中之一與下一輪的該第一比對特徵,且再次執行該步驟(c2)及該步驟(c3); 其中,該等群組被一第二門檻值區分為一第一部分及一第二部分,該第二部分的各該群組所具有的該至少一代表特徵的一第一數目大於該第二門檻值,該影像標記方法還包含下列步驟: (d)將該第二部分的各該群組區分為複數個優化群組; (e)根據該第一部分所包含的該等群組及該等優化群組決定複數個待標記群組; (f)接收複數個標記指令,其中各該標記指令對應至該等待標記群組其中之一;以及 (g)根據各該標記指令標記對應的該待標記群組所對應的該等待處理影像。
- 如請求項15所述的電腦程式產品,其中該影像標記方法還包含下列步驟: 將複數張原始影像的每一張進行至少一基本資料擴增處理以分別產生至少一擴增影像,其中該等待處理影像包含該等原始影像及該等擴增影像。
- 如請求項16所述的電腦程式產品,其中該影像標記方法還包含下列步驟: 從該等群組中移除對應至該等擴增影像的該等影像特徵。
- 如請求項15或17所述的電腦程式產品,其中該影像標記方法還包含下列步驟: 計算各該群組所包含的該至少一影像特徵的一第二數目; 從該等群組中確認一子集,其中該子集所包含的各該群組的該第二數目小於一第三門檻值;以及 以一聚合式階層分群法整合該子集所包含的該等群組。
- 如請求項15所述的電腦程式產品,其中該影像標記方法還包含下列步驟: (h)針對各該優化群組執行以下運作以決定各該優化群組的至少一代表特徵: (h1)從該優化群組所包含的該等影像特徵中選取與該優化群組的一中心最近者作為該優化群組的該至少一代表特徵其中之一與一第二比對特徵; (h2)從該優化群組未被選取的該等影像特徵中選取與該第二比對特徵最遠者作為一第二候選特徵,其中該第二候選特徵與該優化群組的各該至少一代表特徵之間具有一第二相似度;以及 (h3)將該至少一第二相似度的至少其中之一與該第一門檻值比較, 其中,當該至少一第二相似度皆小於該第一門檻值時,以該第二候選特徵作為該優化群組的該至少一代表特徵其中之一與下一輪的該第二比對特徵,且再次執行該步驟(h2)及該步驟(h3)。
- 如請求項19所述的電腦程式產品,其中該步驟(a)係將各該待處理影像輸入一自編碼器以從該自編碼器所包含的一編碼器取得各該待處理影像的該影像特徵,該影像標記方法還包含下列步驟: 將各該待標記群組的各該至少一代表特徵輸入該自編碼器所包含的一解碼器以取得對應的一代表影像。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109132599A TWI744000B (zh) | 2020-09-21 | 2020-09-21 | 影像標記裝置、方法及其電腦程式產品 |
US17/078,089 US11334774B2 (en) | 2020-09-21 | 2020-10-22 | Image labeling apparatus, method, and non-transitory computer readable storage medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109132599A TWI744000B (zh) | 2020-09-21 | 2020-09-21 | 影像標記裝置、方法及其電腦程式產品 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI744000B true TWI744000B (zh) | 2021-10-21 |
TW202213153A TW202213153A (zh) | 2022-04-01 |
Family
ID=80741592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109132599A TWI744000B (zh) | 2020-09-21 | 2020-09-21 | 影像標記裝置、方法及其電腦程式產品 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11334774B2 (zh) |
TW (1) | TWI744000B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI806500B (zh) * | 2022-03-18 | 2023-06-21 | 廣達電腦股份有限公司 | 影像分類裝置和方法 |
TWI808787B (zh) * | 2022-06-15 | 2023-07-11 | 英業達股份有限公司 | 自動分類過渡動作的方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11869319B2 (en) * | 2020-12-31 | 2024-01-09 | Datalogic Usa, Inc. | Fixed retail scanner with annotated video and related methods |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101419606A (zh) * | 2008-11-13 | 2009-04-29 | 浙江大学 | 一种基于语义和内容的半自动图像标注方法 |
TW201100058A (en) * | 2009-06-17 | 2011-01-01 | Univ Southern Taiwan | System and method of using digital image multi-region analysis to establish and analyze skin parameters |
TW201426637A (zh) * | 2012-12-26 | 2014-07-01 | Ind Tech Res Inst | 非監督式調適方法與應用其之影像自動分類方法 |
TW201510936A (zh) * | 2013-09-13 | 2015-03-16 | Univ Nat Cheng Kung | 細胞影像分割方法以及核質比評估方法 |
US20150206315A1 (en) * | 2014-01-21 | 2015-07-23 | Adobe Systems Incorporated | Labeling Objects in Image Scenes |
TW201530496A (zh) * | 2014-01-23 | 2015-08-01 | Nat Univ Chung Hsing | 多重目標影像辨識與追蹤方法 |
TW201901621A (zh) * | 2017-05-17 | 2019-01-01 | 國立臺灣大學 | 產生針對腦部疾病之影像生物標記之方法 |
CN109558868A (zh) * | 2017-09-27 | 2019-04-02 | 缤果可为(北京)科技有限公司 | 图像自动采集和标注设备及方法 |
CN110458226A (zh) * | 2019-08-08 | 2019-11-15 | 上海商汤智能科技有限公司 | 图像标注方法及装置、电子设备和存储介质 |
US20190370957A1 (en) * | 2018-05-31 | 2019-12-05 | General Electric Company | Methods and systems for labeling whole spine image using deep neural network |
US20200098116A1 (en) * | 2018-09-26 | 2020-03-26 | International Business Machines Corporation | Image labeling |
WO2020185226A1 (en) * | 2019-03-13 | 2020-09-17 | Frenzy Labs, Inc. | Deep neural network visual and contextual image labeling system |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6347313B1 (en) * | 1999-03-01 | 2002-02-12 | Hewlett-Packard Company | Information embedding based on user relevance feedback for object retrieval |
US20020164070A1 (en) * | 2001-03-14 | 2002-11-07 | Kuhner Mark B. | Automatic algorithm generation |
US8094937B2 (en) * | 2007-04-17 | 2012-01-10 | Avago Technologies Ecbu Ip (Singapore) Pte. Ltd. | System and method for labeling feature clusters in frames of image data for optical navigation |
JP5098559B2 (ja) * | 2007-10-11 | 2012-12-12 | 富士ゼロックス株式会社 | 類似画像検索装置、及び類似画像検索プログラム |
US8429173B1 (en) * | 2009-04-20 | 2013-04-23 | Google Inc. | Method, system, and computer readable medium for identifying result images based on an image query |
US9443314B1 (en) * | 2012-03-29 | 2016-09-13 | Google Inc. | Hierarchical conditional random field model for labeling and segmenting images |
KR101693106B1 (ko) * | 2014-04-30 | 2017-01-05 | 한국과학기술원 | 무작위 보팅을 이용하는 동영상에서의 움직임 분할 방법 및 시스템 |
US10025950B1 (en) * | 2017-09-17 | 2018-07-17 | Everalbum, Inc | Systems and methods for image recognition |
JP6829226B2 (ja) * | 2018-07-11 | 2021-02-10 | 株式会社東芝 | ラベル付与装置、ラベル付与方法およびプログラム |
US11756291B2 (en) * | 2018-12-18 | 2023-09-12 | Slyce Acquisition Inc. | Scene and user-input context aided visual search |
-
2020
- 2020-09-21 TW TW109132599A patent/TWI744000B/zh active
- 2020-10-22 US US17/078,089 patent/US11334774B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101419606A (zh) * | 2008-11-13 | 2009-04-29 | 浙江大学 | 一种基于语义和内容的半自动图像标注方法 |
TW201100058A (en) * | 2009-06-17 | 2011-01-01 | Univ Southern Taiwan | System and method of using digital image multi-region analysis to establish and analyze skin parameters |
TW201426637A (zh) * | 2012-12-26 | 2014-07-01 | Ind Tech Res Inst | 非監督式調適方法與應用其之影像自動分類方法 |
TW201510936A (zh) * | 2013-09-13 | 2015-03-16 | Univ Nat Cheng Kung | 細胞影像分割方法以及核質比評估方法 |
US20150206315A1 (en) * | 2014-01-21 | 2015-07-23 | Adobe Systems Incorporated | Labeling Objects in Image Scenes |
TW201530496A (zh) * | 2014-01-23 | 2015-08-01 | Nat Univ Chung Hsing | 多重目標影像辨識與追蹤方法 |
TW201901621A (zh) * | 2017-05-17 | 2019-01-01 | 國立臺灣大學 | 產生針對腦部疾病之影像生物標記之方法 |
CN109558868A (zh) * | 2017-09-27 | 2019-04-02 | 缤果可为(北京)科技有限公司 | 图像自动采集和标注设备及方法 |
US20190370957A1 (en) * | 2018-05-31 | 2019-12-05 | General Electric Company | Methods and systems for labeling whole spine image using deep neural network |
US20200098116A1 (en) * | 2018-09-26 | 2020-03-26 | International Business Machines Corporation | Image labeling |
WO2020185226A1 (en) * | 2019-03-13 | 2020-09-17 | Frenzy Labs, Inc. | Deep neural network visual and contextual image labeling system |
CN110458226A (zh) * | 2019-08-08 | 2019-11-15 | 上海商汤智能科技有限公司 | 图像标注方法及装置、电子设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI806500B (zh) * | 2022-03-18 | 2023-06-21 | 廣達電腦股份有限公司 | 影像分類裝置和方法 |
TWI808787B (zh) * | 2022-06-15 | 2023-07-11 | 英業達股份有限公司 | 自動分類過渡動作的方法 |
Also Published As
Publication number | Publication date |
---|---|
US11334774B2 (en) | 2022-05-17 |
TW202213153A (zh) | 2022-04-01 |
US20220092338A1 (en) | 2022-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI744000B (zh) | 影像標記裝置、方法及其電腦程式產品 | |
Rocco et al. | Ncnet: Neighbourhood consensus networks for estimating image correspondences | |
JP5351958B2 (ja) | デジタルコンテンツ記録のための意味論的イベント検出 | |
CN110472082B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
JP6997369B2 (ja) | プログラム、測距方法、及び測距装置 | |
US20090138434A1 (en) | Method, system, and computer program product for managing data associated with a document stored in an electronic form | |
JP2013161295A (ja) | ラベル付加装置、ラベル付加方法及びプログラム | |
TW201123026A (en) | Methods and systems for gesture recognition, and computer program products thereof | |
CN111046969A (zh) | 数据筛选方法、装置、存储介质及电子设备 | |
CN112052813A (zh) | 染色体间易位识别方法、装置、电子设备及可读存储介质 | |
KR102437962B1 (ko) | 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법 | |
Chen et al. | Instance retrieval using region of interest based CNN features | |
WO2023000764A1 (zh) | 目标检索方法、装置、设备及存储介质 | |
CN114254146A (zh) | 图像数据的分类方法、装置和*** | |
Song et al. | Deep region hashing for generic instance search from images | |
Chakraborty et al. | Application of daisy descriptor for language identification in the wild | |
WO2023124295A1 (zh) | 身份检测方法、设备和可读介质 | |
CN109145991B (zh) | 图像组生成方法、图像组生成装置和电子设备 | |
CN115049889A (zh) | 存储介质和推理方法 | |
CN112446311A (zh) | 对象重识别方法、电子设备、存储介质及装置 | |
CN110647826A (zh) | 商品训练图片的获取方法、装置、计算机设备和存储介质 | |
CN112560813B (zh) | 窄条形指纹的识别方法、存储介质及电子设备 | |
CN116052220B (zh) | 行人重识别方法、装置、设备及介质 | |
CN114333022B (zh) | 角色特征提取模型的训练方法、角色识别方法及相关设备 | |
KR102588192B1 (ko) | 학습 데이터 자동 분류 시스템 |