TWI423168B - Image processing apparatus and method, and a computer readable medium - Google Patents

Image processing apparatus and method, and a computer readable medium Download PDF

Info

Publication number
TWI423168B
TWI423168B TW099112223A TW99112223A TWI423168B TW I423168 B TWI423168 B TW I423168B TW 099112223 A TW099112223 A TW 099112223A TW 99112223 A TW99112223 A TW 99112223A TW I423168 B TWI423168 B TW I423168B
Authority
TW
Taiwan
Prior art keywords
image
information
map
difference
pixels
Prior art date
Application number
TW099112223A
Other languages
English (en)
Other versions
TW201044324A (en
Inventor
Kazuki Aisaka
Masaya Kinoshita
Takashi Kameya
Jun Murayama
Masatoshi Yokokawa
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of TW201044324A publication Critical patent/TW201044324A/zh
Application granted granted Critical
Publication of TWI423168B publication Critical patent/TWI423168B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

圖像處理裝置及方法、以及電腦可讀取媒體
本發明係關於一種圖像處理裝置及方法、以及程式,本發明特別是關於一種可更簡單地確定圖像上之被攝體之區域的圖像處理裝置及方法、以及程式。
先前,作為用以確定圖像上之被攝體之區域的技術,已知有稱作視覺注意力之技術(例如參照非專利文獻1及2)。
於視覺注意力中,自所輸入之輸入圖像中提取亮度資訊、顏色資訊、邊緣資訊,根據該等所提取之資訊,針對每個提取出之資訊而產生表示輸入圖像上之各區域中之被攝體之區域特質的資訊圖。
繼而,藉由使用DOG(difference of Gaussian,高斯差分)濾波器之濾波器處理、或線性正規化而將各資訊圖正規化,並相加求和後,進而進行正規化,將所得之資訊作為被攝體圖。該被攝體圖為表示輸入圖像之各區域中之被攝體之區域特質的資訊,只要使用被攝體圖,便可確定於輸入圖像上之哪一區域含有被攝體。
此處,自輸入圖像中,提取輸入圖像之像素之R(紅)、G(綠)及B(藍)成分之平均值作為亮度資訊,提取輸入圖像之像素之R與G成分之差分、及B與Y(黃色)成分之差分作為顏色資訊。又,使用賈柏濾波器,自輸入圖像中提取0度、45度、90度、135度之各方向之邊緣強度。
[先前技術文獻] [非專利文獻]
[非專利文獻1]Laurent Itti, Christof Koch, and Ernst Niebur, "A Model of Saliency-Based Visual Attention for Rapid Scene Analysis"。
[非專利文獻2]Laurent Itti, Christof Koch, "Feature combination strategies for saliency-based visual attention systems"。
然而,上述技術之中處理量較多,且產生被攝體圖破費時間。例如,使用賈柏濾波器之濾波器處理需要指數運算,故處理量較多,又,由於DOG濾波器中抽頭數較多,故使用DOG濾波器之濾波器處理之處理量亦變多。
再者,於藉由線性正規化進行資訊圖之正規化之情形時,雖可抑制用以進行正規化之處理量,但於正規化時難以自資訊圖中除去雜訊,利用被攝體圖之被攝體之檢測精度下降。即,存在將雜訊之區域誤檢測為被攝體之區域之情形。
進而,若欲以硬體進行獲得被攝體圖之處理,則受到賈柏濾波器之指數運算、或DOG濾波器之抽頭數之影響,電路規模變大。
本發明係鑒於上述狀況研究而成者,其可更簡單且更迅速地獲得用以確定圖像上之被攝體之區域的資訊。
本發明一態樣之圖像處理裝置包括:提取資訊圖像產生機構,其根據自輸入圖像之各區域中提取之包含特定資訊的提取資訊圖像,產生解像度相互不同之複數個上述提取資訊圖像;差分圖像產生機構,其藉由求出上述複數個上述提取資訊圖像中之特定的兩個上述提取資訊圖像之差分,而產生差分圖像;資訊圖產生機構,其藉由將複數個上述差分圖像加權相加,而產生表示上述輸入圖像上之被攝體之區域所具有之特徵的特徵值之資訊圖;正規化機構,其自上述資訊圖之各區域之值中減去上述資訊圖之各區域之值的平均值,使上述資訊圖正規化;及被攝體圖產生機構,其藉由將經正規化之複數個上述資訊圖加權相加,而產生表示上述輸入圖像之各區域中之上述被攝體之區域特質的被攝體圖。
於圖像處理裝置中,可進而設置邊緣圖像產生機構,其藉由使用預先規定之係數將上述輸入圖像之若干像素之像素值加權相加,而產生表示上述輸入圖像之各區域之邊緣強度的圖像來作為上述提取資訊圖像。
於上述提取資訊圖像產生機構中,藉由將上述提取資訊圖像之相互鄰接之像素之像素值的平均值設為與上述提取資訊圖像不同之其他提取資訊圖像之像素的像素值,可產生解像度相互不同之上述複數個上述提取資訊圖像。
本發明一態樣之圖像處理方法或程式包含下述步驟:根據自輸入圖像之各區域中提取之包含特定資訊的提取資訊圖像,產生解像度相互不同之複數個上述提取資訊圖像, 藉由求出上述複數個上述提取資訊圖像中之特定的兩個上述提取資訊圖像之差分,而產生差分圖像,藉由將複數個上述差分圖像加權相加,而產生表示上述輸入圖像上之被攝體之區域所具有之特徵的特徵值之資訊圖,自上述資訊圖之各區域之值中減去上述資訊圖之各區域之值的平均值,使上述資訊圖正規化,並藉由將經正規化之複數個上述資訊圖加權相加,而產生表示上述輸入圖像之各區域中之上述被攝體之區域特質的被攝體圖。
於本發明一態樣中,根據自輸入圖像之各區域中提取之包含特定資訊的提取資訊圖像,產生解像度相互不同之複數個上述提取資訊圖像,藉由求出上述複數個上述提取資訊圖像中之特定的兩個上述提取資訊圖像之差分,而產生差分圖像,藉由將複數個上述差分圖像加權相加,而產生表示上述輸入圖像上之被攝體之區域所具有之特徵的特徵值之資訊圖,自上述資訊圖之各區域之值中減去上述資訊圖之各區域之值的平均值,使上述資訊圖正規化,並藉由將經正規化之複數個上述資訊圖加權相加,而產生表示上述輸入圖像之各區域中之上述被攝體之區域特質的被攝體圖。
根據本發明之一態樣,可更簡單且更迅速地獲得用以確定圖像上之被攝體之區域之資訊。
以下,參照圖式,對應用本發明之實施形態加以說明。
[圖像處理裝置之構成]
圖1係表示應用本發明之圖像處理裝置之一實施形態之構成例的圖。
圖像處理裝置11包含亮度資訊提取部21、顏色資訊提取部22、邊緣資訊提取部23、臉部資訊提取部24、運動資訊提取部25、被攝體圖產生部26、及被攝體區域確定部27。
例如圖像處理裝置11包含對含有被攝體之輸入圖像進行拍攝之攝像裝置等,且將藉由拍攝而獲得之輸入圖像提供給亮度資訊提取部21、運動資訊提取部25及被攝體區域確定部27。該輸入圖像為包含Y(亮度)成分、Cr(色差)成分及Cb(色差)成分之影像信號。
亮度資訊提取部21至運動資訊提取部25自所提供之輸入圖像中提取特定資訊,根據包含提取之資訊之提取資訊圖像,產生表示輸入圖像之各區域中之被攝體之區域特質的資訊圖。該等資訊圖中所包含之資訊為表示含有被攝體之區域中更多地包含之特徵之特徵值的資訊,該資訊與輸入圖像之各區域對應排列而成者為資訊圖。即,可以說資訊圖為表示輸入圖像之各區域中之特徵值之資訊。
此處,所謂被攝體,係指於使用者掃視輸入圖像之情形時,推斷為使用者所關注之輸入圖像上之物體、即推斷為使用者審視之物體。因此,被攝體並不限定於人體。又,於亮度資訊提取部21至運動資訊提取部25中,產生亮度資訊圖、顏色資訊圖、邊緣資訊圖、臉部資訊圖、及運動資訊圖作為資訊圖。
具體而言,亮度資訊提取部21係將包含所提供之輸入圖像之Y(亮度)成分的亮度圖像作為提取資訊圖像而產生亮度資訊圖,並提供給被攝體圖產生部26。顏色資訊提取部22係將包含所提供之輸入圖像之Cr成分的Cr圖像及包含Cb成分之Cb圖像作為提取資訊圖像而產生顏色資訊圖,並提供給被攝體圖產生部26。
邊緣資訊提取部23係將包含所提供之輸入圖像之各區域之邊緣強度的邊緣圖像作為提取資訊圖像而產生邊緣資訊圖,並提供給被攝體圖產生部26。臉部資訊提取部24係將包含所提供之輸入圖像之各區域中的與作為被攝體之人之臉部相關之資訊的圖像作為提取資訊圖像而產生臉部資訊圖,並提供給被攝體圖產生部26。運動資訊提取部25係將包含所提供之輸入圖像之各區域中的與運動相關之資訊之圖像作為提取資訊圖像而產生運動資訊圖,並提供給被攝體圖產生部26。
被攝體圖產生部26係將由亮度資訊提取部21至運動資訊提取部25提供之資訊圖相加而產生被攝體圖,並提供給被攝體區域確定部27。該被攝體圖係用以確定輸入圖像中之含有被攝體之區域的資訊。
被攝體區域確定部27係使用來自被攝體圖產生部26之被攝體圖,確定所提供之輸入圖像上之被攝體之區域,並輸出該確定結果。
[亮度資訊提取部之構成]
其次,對圖1之亮度資訊提取部21至運動資訊提取部25 之更詳細之構成加以說明。
圖2係表示亮度資訊提取部21之構成例之方塊圖。
亮度資訊提取部21包含金字塔圖像產生部51、差分計算部52、加權相加部53、及正規化部54。
金字塔圖像產生部51係將包含所提供之輸入圖像之Y成分的圖像作為亮度圖像,使用亮度圖像而產生解像度相互不同之複數個亮度圖像,將該等亮度圖像作為亮度之金字塔圖像而提供給差分計算部52。此處,根據輸入圖像而產生之亮度圖像之像素的像素值,係位於與該像素相同位置處之輸入圖像之像素之Y成分的值。
又,例如圖3所示,產生級別L1至級別L7之7種解像度之層級之金字塔圖像L1至金字塔圖像L7。再者,級別L1之金字塔圖像L1之解像度最高,金字塔圖像之解像度自級別L1至級別L7依序變低。此時,將包含輸入圖像之Y成分之與輸入圖像解像度(像素數)相同的亮度圖像設為級別L1之金字塔圖像L1。
進而,如圖4所示,藉由求出級別Li(其中,1≦i≦6)之金字塔圖像Li之相互鄰接之像素之像素值的平均值,而產生級別L(i+1)之金字塔圖像L(i+1)。
即,將金字塔圖像Li降頻成於圖中橫方向變為一半像素數,其結果所得之圖像為圖像Li'。例如,將於金字塔圖像Li之橫方向相互鄰接之像素g1及像素g2之像素值的平均值設為圖像Li'之像素g3之像素值。
繼而,進而將圖像Li'降頻成於圖中縱方向變為一半像素 數,其結果所得之圖像為級別L(i+1)之金字塔圖像L(i+1)。例如,將於圖像Li'之縱方向相互鄰接之像素g3及像素g4之像素值的平均值設為金字塔圖像L(i+1)之像素g5之像素值。
返回到圖2之亮度資訊提取部21之說明,差分計算部52係自金字塔圖像產生部51所提供之各層級之金字塔圖像中,選擇層級相互不同之兩個金字塔圖像,求出所選擇之金字塔圖像之差分並產生亮度的差分圖像。
再者,各層級之金字塔圖像之大小(像素數)分別不同,因此於產生差分圖像時,使更小一方之金字塔圖像與更大之金字塔圖像一致而加以升頻。
差分計算部52僅以預先規定之數而產生亮度之差分圖像時,將所產生之該等差分圖像提供給加權相加部53。
加權相加部53將由差分計算部52所提供之差分圖像加權相加而產生亮度資訊圖,並提供給正規化部54。正規化部54使來自加權相加部53之亮度資訊圖正規化,並提供給被攝體圖產生部26。
[顏色資訊提取部之構成]
圖5係表示顏色資訊提取部22之構成例之方塊圖。
顏色資訊提取部22包含金字塔圖像產生部81、金字塔圖像產生部82、差分計算部83、差分計算部84、加權相加部85、加權相加部86、正規化部87、及正規化部88。
金字塔圖像產生部81將包含所提供之輸入圖像之Cr成分的圖像作為Cr圖像,金字塔圖像產生部82將包含所提供之 輸入圖像之Cb成分的圖像作為Cb圖像。此處,Cr圖像及Cb圖像之像素之像素值為位於與該像素相同位置處之輸入圖像之像素之Cr成分及Cb成分的值。
金字塔圖像產生部81及金字塔圖像產生部82係使用Cr圖像及Cb圖像,產生解像度相互不同之複數個Cr圖像及Cb圖像。繼而,金字塔圖像產生部81及金字塔圖像產生部82將所產生之該等Cr圖像及Cb圖像作為Cr之金字塔圖像及Cb之金字塔圖像而提供給差分計算部83及差分計算部84。
例如,作為Cr之金字塔圖像及Cb之金字塔圖像,與亮度之金字塔圖像之情形同樣地,係分別產生級別L1至級別L7之7種解像度之層級的金字塔圖像。
差分計算部83及差分計算部84自來自金字塔圖像產生部81及金字塔圖像產生部82之複數個金字塔圖像中,選擇層級相互不同之兩個金字塔圖像,求出所選擇之金字塔圖像之差分而產生Cr之差分圖像及Cb之差分圖像。
再者,各層級之金字塔圖像之大小分別不同,因此於產生差分圖像時,將更小一方之金字塔圖像升頻,而成為與更大一方之金字塔圖像相同之大小。
差分計算部83及差分計算部84僅以預先規定之數而產生Cr之差分圖像及Cb之差分圖像時,將所產生之該等差分圖像提供給加權相加部85及加權相加部86。
加權相加部85及加權相加部86將由差分計算部83及差分計算部84提供之差分圖像加權相加,而產生Cr之顏色資訊圖及Cb之顏色資訊圖,並提供給正規化部87及正規化部 88。正規化部87及正規化部88使來自加權相加部85及加權相加部86之顏色資訊圖正規化,並提供給被攝體圖產生部26。
[邊緣資訊提取部之構成]
圖6係表示邊緣資訊提取部23之構成例之方塊圖。
邊緣資訊提取部23包含邊緣圖像產生部111至邊緣圖像產生部114、金字塔圖像產生部115至金字塔圖像產生部118、差分計算部119至差分計算部122、加權相加部123至加權相加部126、以及正規化部127至正規化部130。
邊緣圖像產生部111至邊緣圖像產生部114對所提供之輸入圖像實施濾波器處理,例如產生將0度、45度、90度及135度之方向之邊緣強度設為像素之像素值的邊緣圖像作為提取資訊圖像。
例如,藉由邊緣圖像產生部111而產生之邊緣圖像之像素的像素值表示位於與該像素相同位置處之輸入圖像之像素中的0度方向之邊緣強度。再者,所謂各邊緣之方向,係指以輸入圖像上之特定方向為基準而規定之方向。
邊緣圖像產生部111至邊緣圖像產生部114將產生之邊緣圖像提供給金字塔圖像產生部115至金字塔圖像產生部118。
金字塔圖像產生部115至金字塔圖像產生部118使用由邊緣圖像產生部111至邊緣圖像產生部114所提供之邊緣圖像,產生解像度相互不同之複數個邊緣圖像。繼而,金字塔圖像產生部115至金字塔圖像產生部118將所產生之該等 各方向之邊緣圖像作為邊緣之各方向之金字塔圖像而提供給差分計算部119至差分計算部122。
例如,作為邊緣之各方向之金字塔圖像,與亮度之金字塔圖像之情形同樣地,係分別產生級別L1至級別L7之7個層級之金字塔圖像。
差分計算部119至差分計算部122自來自金字塔圖像產生部115至金字塔圖像產生部118之複數個金字塔圖像中,選擇層級相互不同之兩個金字塔圖像,求出所選擇之金字塔圖像之差分而產生邊緣之各方向之差分圖像。
再者,各層級之金字塔圖像之大小分別不同,因此於產生差分圖像時,將更小一方之金字塔圖像升頻,而成為與更大一方之金字塔圖像相同之大小。
差分計算部119至差分計算部122僅以預先規定之數而產生邊緣之各方向的差分圖像時,將所產生之該等差分圖像提供給加權相加部123至加權相加部126。
加權相加部123至加權相加部126將由差分計算部119至差分計算部122所提供之差分圖像加權相加,產生各方向之邊緣資訊圖,並提供給正規化部127至正規化部130。正規化部127至正規化部130將來自加權相加部123至加權相加部126之邊緣資訊圖正規化,並提供給被攝體圖產生部26。
[臉部資訊提取部之構成]
圖7係表示臉部資訊提取部24之構成例之方塊圖。
臉部資訊提取部24包含臉部檢測部161、臉部資訊圖產 生部162、及正規化部163。
臉部檢測部161自所提供之輸入圖像中檢測出作為被攝體之人之臉部的區域,將該檢測結果作為提取資訊圖像而提供給臉部資訊圖產生部162。臉部資訊圖產生部162根據來自臉部檢測部161之檢測結果而產生臉部資訊圖,並提供給正規化部163。正規化部163將由臉部資訊圖產生部162提供之臉部資訊圖正規化,而提供給被攝體圖產生部26。
[運動資訊提取部之構成]
圖8係表示運動資訊提取部25之構成例之方塊圖。
運動資訊提取部25包含局部運動向量提取部191、全局運動向量提取部192、差分計算部193、及正規化部194。
局部運動向量提取部191係使用所提供之輸入圖像及攝像時刻與該輸入圖像不同之其他輸入圖像,檢測出輸入圖像之各像素之運動向量作為局部運動向量,並提供給差分計算部193。
全局運動向量提取部192係使用所提供之輸入圖像及攝像時刻與該輸入圖像不同之其他輸入圖像,檢測出全局運動向量並提供給差分計算部193。該全局運動向量表示輸入圖像整體之運動之方向,例如係輸入圖像之各像素之運動向量的平均值。
差分計算部193係求出來自局部運動向量提取部191之局部運動向量與來自全局運動向量提取部192之全局運動向量之差分的絕對值,而產生運動之差分圖像並提供給正規 化部194。
此處,運動之差分圖像中之像素的像素值係位於與該像素相同位置處的輸入圖像之像素之局部運動向量與輸入圖像整體之全局運動向量之差分的絕對值。因此,運動之差分圖像之像素的像素值表示輸入圖像之像素所表示之物體(或背景)相對於輸入圖像整體即相對於背景之相對運動量。
正規化部194藉由使來自差分計算部193之運動之差分圖像正規化,而產生運動資訊圖,並提供給被攝體圖產生部26。再者,更詳細而言,運動資訊圖之產生係於提供時間上連續拍攝者作為輸入圖像之情形時,例如為連拍輸入圖像而成者或動態圖像之情形時進行。
[被攝體區域確定處理之說明]
另外,對圖像處理裝置11提供輸入圖像後,圖像處理裝置11開始被攝體區域確定處理,確定輸入圖像中之被攝體之區域,並輸出該確定結果。以下,參照圖9之流程圖對被攝體區域確定處理加以說明。
步驟S11中,亮度資訊提取部21進行亮度資訊提取處理,根據所提供之輸入圖像而產生亮度資訊圖,並提供給被攝體圖產生部26。繼而,步驟S12中,顏色資訊提取部22進行顏色資訊提取處理,根據所提供之輸入圖像而產生顏色資訊圖,並提供給被攝體圖產生部26。
步驟S13中,邊緣資訊提取部23進行邊緣資訊提取處理,根據所提供之輸入圖像而產生邊緣資訊圖,並提供給 被攝體圖產生部26。又,步驟S14中,臉部資訊提取部24進行臉部資訊提取處理,根據所提供之輸入圖像而產生臉部資訊圖,並提供給被攝體圖產生部26。進而,步驟S15中,運動資訊提取部25進行運動資訊提取處理,根據所提供之輸入圖像而產生運動資訊圖,並提供給被攝體圖產生部26。
再者,該等亮度資訊提取處理、顏色資訊提取處理、邊緣資訊提取處理、臉部資訊提取處理、及運動資訊提取處理之詳細內容於下文加以說明。又,更詳細而言,於未將時間上連續拍攝之輸入圖像提供給運動資訊提取部25之情形時並不進行運動資訊提取處理。
步驟S16中,被攝體圖產生部26將由亮度資訊提取部21至運動資訊提取部25所提供之亮度資訊圖至運動資訊圖加權相加,而產生被攝體圖並提供給被攝體區域確定部27。
例如,被攝體圖產生部26係使用針對每個資訊圖而預先求出之權重即資訊權重Wb,將各資訊圖線性組合。即,若將藉由線性組合而獲得之資訊圖之特定像素設為醒目像素,則醒目像素之像素值為將位於與醒目像素相同位置處的各資訊圖之像素之像素值乘以各資訊圖之資訊權重Wb所得的值之總和。
其次,被攝體圖產生部26對藉由線性組合而獲得之資訊圖(以下亦稱作線性組合資訊圖)之各像素之像素值實施利用雙彎曲函數之運算處理。
更詳細而言,被攝體圖產生部26預先保持有將雙彎曲函 數表格化而得之轉換表。該轉換表包含作為輸入之特定值與將該值代入至雙彎曲函數而得之輸出值,若藉由轉換表來轉換線性組合資訊圖,則可獲得與藉由雙彎曲函數來轉換線性組合資訊圖之情形相同之資訊圖。
例如雙彎曲函數為下式(1)所示之雙曲線餘弦函數(雙曲正切函數)。
f(x)=a×tanh(x×b)…(1)
再者,式(1)中,a及b表示預先規定之常數,x為之後欲轉換之線性組合資訊圖之像素之像素值。
於此種雙曲線餘弦函數為雙彎曲函數之情形時,轉換表係將輸入值x之範圍限制於-2至2之範圍內,並以1/128單位將輸入值x離散化而得之表格。此種轉換表中,於輸入值x小於-2之情形時,將該輸入值x作為-2來處理,於輸入值x大於2之情形時,將該輸入值x作為2來處理。進而,轉換表中,輸入值x越大,輸出值f(x)越大。
被攝體圖產生部26係藉由將線性組合資訊圖之像素之像素值,自該像素值x(輸入值x)變更為對應於像素值x之輸出值f(x),而轉換線性組合資訊圖。即,被攝體圖產生部26將使用轉換表所轉換之線性組合資訊圖作為已實施利用雙彎曲函數之運算處理之線性組合資訊圖。
如上所述,藉由使用轉換表來轉換線性組合資訊圖,與使用雙彎曲函數本身進行轉換之情形相較,可更簡單且更迅速地進行線性組合資訊圖之轉換。
進而,被攝體圖產生部26係將以轉換表所轉換之線性組 合資訊圖之各像素之像素值乘以針對每個像素而預先求出之權重即被攝體權重Wc,而成為被攝體圖。
即,若將之後欲求出之被攝體圖上之醒目之像素設為醒目像素,則經轉換之線性組合資訊圖之與醒目像素相同位置處之像素的像素值乘以被攝體權重Wc所得之值為醒目像素之像素值。
再者,更詳細而言,作為用於產生被攝體圖之顏色資訊圖,使用Cr之顏色資訊圖與Cb之顏色資訊圖,作為邊緣資訊圖,使用0度、45度、90度、135度之各方向之邊緣資訊圖。又,資訊權重Wb及被攝體權重Wc係預先藉由學習而求出。
以上述方式產生被攝體圖後,將被攝體圖自被攝體圖產生部26提供給被攝體區域確定部27,處理進入步驟S17。
步驟S17中,被攝體區域確定部27使用由被攝體圖產生部26提供之被攝體圖,而確定所提供之輸入圖像上之被攝體之區域。
例如,被攝體圖之像素之像素值越大,與該像素相同位置處之輸入圖像之像素之區域越似被攝體之區域。此時,被攝體區域確定部27係於被攝體圖上,檢測出包含具有預先規定之臨限值以上之像素值的相互鄰接之像素且為特定面積(像素數)以上之區域,將與檢測出之區域相對應之輸入圖像上之區域作為含有被攝體之區域。
被攝體區域確定部27檢測出輸入圖像上之含有被攝體之區域後,將該檢測結果朝後段輸出,被攝體區域確定處理 結束。
以上述方式獲得之被攝體之區域之檢測結果係用於對輸入圖像之被攝體之區域實施特定圖像處理等各種處理。又,被攝體之區域之確定結果例如亦可於幻燈片顯示輸入圖像時,用於使輸入圖像之被攝體之區域顯示於畫面中央之圖像處理等。
再者,被攝體區域確定部27亦可使用被攝體之區域之檢測結果,對輸入圖像實施特定處理並加以輸出。
如上所述,圖像處理裝置11係自輸入圖像產生被攝體圖,使用被攝體圖,確定輸入圖像中之被攝體之區域。
[亮度資訊提取處理之說明]
其次,對與圖9之步驟S11至步驟S15之各處理對應之處理加以說明。
首先,參照圖10之流程圖,對與圖9之步驟S11之處理對應之亮度資訊提取處理加以說明。
步驟S41中,金字塔圖像產生部51根據包含所提供之輸入圖像之Y(亮度)成分的亮度圖像,產生級別L1至級別L7之各層級之金字塔圖像,並提供給差分計算部52。
於先前之視覺注意力中,產生8個層級之金字塔圖像,但於圖像處理裝置11中,產生7個層級之金字塔圖像,因此金字塔圖像之產生張數少1張。因此,與先前相較可更簡單且更迅速地獲得亮度資訊圖。
再者,申請人可確認即便將金字塔圖像之層級數設為7,亦不會對利用被攝體圖之被攝體之區域之確定精度造 成影響,根據圖像處理裝置11,可更迅速地獲得被攝體圖,而不會使被攝體之區域之確定精度下降。
又,於先前之視覺注意力中,藉由求出輸入圖像之R、G及B之各成分之平均值,而進行亮度圖像之產生。與此相對,圖像處理裝置11中,藉由將輸入圖像之Y(亮度)成分直接設為亮度圖像,可更簡單且更迅速地獲得亮度圖像。又,藉此,無需設置用以產生亮度圖像之電路,可實現圖像處理裝置11之小型化。
步驟S42中,差分計算部52使用由金字塔圖像產生部51所提供之金字塔圖像,產生差分圖像並提供給加權相加部53。
具體而言,差分計算部52係求出各層級之亮度之金字塔圖像中級別L2及級別L5、級別L2及級別L6、級別L3及級別L6、級別L3及級別L7、以及級別L4及級別L7之各層級之組合之金字塔圖像的差分。藉此,獲得合計5個亮度之差分圖像。
例如,於產生級別L2及級別L5之組合之差分圖像的情形時,使級別L5之金字塔圖像與級別L2之金字塔圖像之大小一致而加以升頻。
即,將升頻前之級別L5之金字塔圖像之1個像素的像素值設為與該像素對應的升頻後之級別L5之金字塔圖像之相互鄰接的若干像素之像素值。繼而,求出級別L5之金字塔圖像之像素之像素值、與位於與該像素相同位置處之級別L2之金字塔圖像之像素之像素值的差分,將該差分設為差 分圖像之像素之像素值。
產生該等差分圖像之處理係等效於對亮度圖像實施使用帶通濾波器之濾波器處理,而自亮度圖像中提取特定頻率成分。以上述方式獲得之差分圖像之像素之像素值表示各級別之金字塔圖像之像素值之差、即輸入圖像中之特定像素之亮度與該像素周圍之平均亮度之差分。
通常,圖像中與周圍之亮度之差分較大的區域為吸引觀察該圖像之人之目光的區域,因此該區域為被攝體之區域之可能性較高。因此,各差分圖像中,像素值更大之像素可表示作為被攝體之區域之可能性更高的區域。
步驟S43中,加權相加部53根據由差分計算部52提供之差分圖像而產生亮度資訊圖,並提供給正規化部54。
例如,加權相加部53將所提供之5個差分圖像藉由預先求出之各差分圖像之權重即差分權重Wa而加權相加,產生亮度資訊圖。即,將各差分圖像之位於相同位置處之各像素之像素值乘以差分權重Wa,求出乘以差分權重Wa後之像素值的總和。
再者,於產生亮度資訊圖時,以各差分圖像成為相同大小之方式進行差分圖像之升頻。又,差分權重Wa係預先藉由學習而求出。
其次,加權相加部53使用與被攝體圖產生部26所保持之轉換表相同之轉換表,對所得之亮度資訊圖之像素之像素值進行轉換,將其結果所得之亮度資訊圖提供給正規化部54。
加權相加部53中,亦可藉由使用轉換表來轉換亮度資訊圖,而更簡單且更迅速地進行轉換。
步驟S44中,正規化部54將來自加權相加部53之亮度資訊圖正規化,將其結果所得之亮度資訊圖作為最終亮度資訊圖而提供給被攝體圖產生部26。繼而,輸出亮度資訊圖,則亮度資訊提取處理結束,其後,處理進入圖9之步驟S12。
例如,首先正規化部54將亮度資訊圖線性正規化。例如於亮度資訊圖之像素值之範圍為0至200之範圍的情形時,藉由線性正規化而使像素值之範圍成為0至255之範圍。
其次,正規化部54求出經線性正規化之亮度資訊圖之各像素之像素值的平均值。即,將亮度資訊圖之所有像素之像素值之合計值除以亮度資訊圖之像素數而求出平均值。
進而,正規化部54將自經線性正規化之亮度資訊圖之各像素之像素值中減去所求出之平均值後獲得的值,設為最終亮度資訊圖之像素之像素值。
再者,更詳細而言,對於像素值減去平均值所得之值為負值(未達0之值)之亮度資訊圖之像素,將該像素之像素值設為0。即,將經線性正規化之亮度資訊圖之像素中之像素值為平均值以下之像素的最終像素值設為0。
此處,亮度資訊圖中所包含之雜訊之值大體上為亮度資訊圖之各像素之平均值以下,因此藉由自各像素之像素值中減去平均值,可自亮度資訊圖中確實地除去雜訊。其原因在於雜訊部分之像素之像素值為0。又,經線性正規化 之亮度資訊圖中,與輸入圖像上之被攝體之區域相同位置處之像素的像素值大體上均大於平均值,因此即便自亮度資訊圖之像素值中減去平均值而加以正規化,被攝體之檢測精度亦不會下降。
如上所述,藉由將亮度資訊圖線性正規化,並自線性正規化後之亮度資訊圖之像素值中減去平均值,可更簡單且更迅速地將亮度資訊圖正規化。特別是根據亮度資訊提取處理部21,藉由線性正規化與平均值之計算、及減法之簡單處理,可獲得與使用DOG濾波器之情形相同程度之雜訊除去效果。
即,先前資訊圖之正規化係藉由使用DOG濾波器之濾波器處理而進行,但該濾波器處理之處理量較多,無法迅速地進行正規化。與此相對,正規化部54中,與使用DOG濾波器之情形相較,可藉由更簡單之處理而更迅速地將亮度資訊圖正規化。而且,藉由正規化,可自亮度資訊圖中更確實地除去雜訊,被攝體之區域之檢測精度亦不會下降。
如上所述,亮度資訊提取部21根據輸入圖像而產生亮度資訊圖。根據以上述方式獲得之亮度資訊圖,可簡單地檢測出輸入圖像中亮度之差較大之區域、即掃視輸入圖像之觀察者易注視之區域。
[顏色資訊提取處理之說明]
其次,參照圖11之流程圖,對與圖9之步驟S12之處理對應之顏色資訊提取處理加以說明。
步驟S71中,金字塔圖像產生部81及金字塔圖像產生部 82根據包含所提供之輸入圖像之色差成分之Cr圖像及Cb圖像,產生級別L1至級別L7之各層級之金字塔圖像。即,進行與參照圖3及圖4所說明之處理相同之處理,而產生Cr之金字塔圖像及Cb之金字塔圖像。
金字塔圖像產生部81及金字塔圖像產生部82將產生之金字塔圖像提供給差分計算部83及差分計算部84。
如上所述,顏色資訊提取部22中,亦與亮度資訊提取部21中之情形同樣地,只要產生7個層級之金字塔圖像便可,因此與先前相較可更簡單且更迅速地獲得顏色資訊圖。
又,於先前之視覺注意力中,提取輸入圖像之像素之R與G成分之差分、及B與Y(黃色)成分之差分作為顏色資訊,因此需要求出該等之差分之處理。
與此相對,圖像處理裝置11中,藉由將輸入圖像之色差成分直接設為Cr圖像及Cb圖像,可更簡單且更迅速地獲得關於顏色之提取資訊圖像。又,藉此,無需設置用以求出差分之電路,可實現圖像處理裝置11之小型化。
步驟S72中,差分計算部83及差分計算部84根據由金字塔圖像產生部81及金字塔圖像產生部82所提供之金字塔圖像,產生差分圖像並提供給加權相加部85及加權相加部86。
例如差分計算部83求出各層級之Cr之金字塔圖像中級別L2及級別L5、級別L2及級別L6、級別L3及級別L6、級別L3及級別L7、以及級別L4及級別L7之各層級之組合之金 字塔圖像的差分。藉此,獲得合計5個Cr之差分圖像。再者,於產生差分圖像時,對較少一方之金字塔圖像進行升頻,使其與像素數較多一方之金字塔圖像相一致。
又,差分計算部84亦進行與差分計算部83相同之處理,而產生合計5個Cb之差分圖像。
產生該等差分圖像之處理係等效於對Cr圖像或Cb圖像實施使用帶通濾波器之濾波器處理,而自Cr圖像或Cb圖像中提取特定頻率成分。以上述方式獲得之差分圖像之像素之像素值表示各級別之金字塔圖像之差、即輸入圖像之像素之特定顏色成分與該像素之周圍之平均特定顏色成分的差分。
通常,於圖像中顏色較周圍顯眼之區域、即特定顏色成分之與周圍之差分較大之區域係吸引觀察該圖像之人之目光的區域,因此該區域為被攝體之區域之可能性較高。因此,各差分圖像中,像素值更大之像素可表示作為被攝體之區域之可能性更高之區域。
步驟S73中,加權相加部85及加權相加部86根據由差分計算部83及差分計算部84所提供之差分圖像,產生Cr之顏色資訊圖及Cb之顏色資訊圖,並提供給正規化部87及正規化部88。
例如,加權相加部85將由差分計算部83所提供之Cr之差分圖像,藉由預先求出之各差分圖像之差分權重Wa而加權相加,成為1個Cr之顏色資訊圖。其次,加權相加部85使用與被攝體圖產生部26所保持之轉換表相同之轉換表, 對所得之Cr之顏色資訊圖之像素的像素值進行轉換,將其結果所得之顏色資訊圖提供給正規化部87。
同樣,加權相加部86將由差分計算部84提供之Cb之差分圖像,藉由預先求出之差分權重Wa而加權相加,成為1個Cb之顏色資訊圖,使用轉換表轉換該Cb之顏色資訊圖,並提供給正規化部88。
加權相加部85及加權相加部86中,亦可藉由使用轉換表來轉換顏色資訊圖,更簡單且更迅速地進行轉換。再者,於產生顏色資訊圖時,以各差分圖像成為相同大小之方式進行差分圖像之升頻。
步驟S74中,正規化部87及正規化部88將來自加權相加部85及加權相加部86之顏色資訊圖正規化,將其結果所得之顏色資訊圖作為最終顏色資訊圖而提供給被攝體圖產生部26。例如,正規化部87及正規化部88進行與圖10之步驟S44之處理相同之處理,而將Cr之顏色資訊圖及Cb之顏色資訊圖正規化。
繼而,輸出顏色資訊圖,顏色資訊提取處理結束,其後,處理進入圖9之步驟S13。
如上所述,藉由將顏色資訊圖線性正規化,並自線性正規化後之顏色資訊圖之像素值中減去平均值,可更簡單且更迅速地將顏色資訊圖正規化。
如上所述,顏色資訊提取部22自輸入圖像中提取特定顏色成分之圖像,並根據該圖像而產生顏色資訊圖。根據以上述方式獲得之顏色資訊圖,可簡單地檢測出輸入圖像中 與周圍相較特定顏色成分較多之區域、即掃視輸入圖像之觀察者易注視之區域。
再者,於顏色資訊提取部22中,作為自輸入圖像中提取之顏色資訊,說明為提取Cr及Cb成分,但亦可提取R(紅)成分與G(綠)成分之差分、及B(藍)成分與Y(黃)成分之差分。
[邊緣資訊提取處理之說明]
其次,參照圖12之流程圖,對與圖9之步驟S13之處理對應之邊緣資訊提取處理加以說明。
步驟S111中,邊緣圖像產生部111至邊緣圖像產生部114根據所提供之輸入圖像,產生將0度、45度、90度及135度之方向之邊緣強度設為像素之像素值的邊緣圖像。
例如,邊緣圖像產生部111至邊緣圖像產生部114預先保持有圖13所示之濾波器,使用該等濾波器而產生作為提取資訊圖像之邊緣圖像。圖13之例中,將filter1、filter2、filter45及filter135分別作為1個濾波器。
filter1中之數值「-1、-2、-1、2、4、2、-1、-2、-1」表示輸入圖像之像素所乘之係數。
此處,將輸入圖像中之特定方向例如圖4中之圖中橫方向設為x方向,將與x方向垂直之方向即圖4中縱方向稱作y方向。
此時,於使用filter1之濾波器處理中,將於x方向上連續排列之9個像素之各像素值乘以各係數「-1」、「-2」、「-1」、「2」、「4」、「2」、「-1」、「-2」、「-1」, 將乘以係數後之像素值之和除以「16」。繼而,其結果所得之值係對位於連續排列之9個像素之中心的像素實施使用filter1之濾波器處理而獲得之像素值。
圖13中,filter1之係數係以與乘以該等係數之像素相同之配置而排列。因此,例如將位於在x方向上排列之像素之兩端的像素乘以係數「-1」,將於x方向上排列之像素中位於中心之像素乘以係數「4」。
再者,圖13中,其他濾波器之係數亦以與乘以該等係數之像素相同之配置而排列。
又,使用filter2之濾波器處理中,將於x方向上連續排列之8個像素之各像素值乘以各係數「1」、「3」、「3」、「1」、「1」、「3」、「3」、「1」,將乘以係數後之像素值之和除以「16」。而其結果所得之值即為針對位於連續排列之8個像素之中心的像素(更詳細而言,即乘以自圖中左起第4個或第5個係數「1」之像素)實施使用filter2之濾波器處理而獲得之像素值。
使用filter45之濾波器處理中,使用包含於x方向上3個像素、於y方向上3個像素之合計9個像素而成之區域內之像素,將該等像素之像素值乘以係數「0」、「1」、「2」、「-1」、「0」、「1」、「-2」、「-1」、「0」。繼而,將乘以係數後之像素之像素值之和除以「8」,其結果所得之值即為針對位於成為處理對象之區域之中心的像素實施使用filter45之濾波器處理而獲得之像素值。因此,例如將位於處理對象之區域之中心之像素乘 以係數「0」,將與該像素之圖中鄰接於左側之像素乘以係數「-1」。
又,使用filter135之濾波器處理中,使用包含於x方向上3個像素、於y方向上3個像素之合計9個像素而成之區域內之像素,將該等像素之像素值乘以係數「2」、「1」、「0」、「1」、「0」、「-1」、「0」、「-1」、「-2」。繼而,將乘以係數後之像素之像素值之和除以「8」,其結果所得之值即為針對位於成為處理對象之區域之中心的像素實施使用filter135之濾波器處理而獲得之像素值。
例如,邊緣圖像產生部111對輸入圖像實施使用filter1之濾波器處理,對其結果所得之圖像進而實施使用filter2之濾波器處理,而將藉此獲得之圖像作為0度方向之邊緣圖像。又,邊緣圖像產生部112將對輸入圖像實施使用filter45之濾波器處理而獲得之圖像作為45度方向之邊緣圖像。
邊緣圖像產生部113對輸入圖像實施使用filter2之濾波器處理,對其結果所得之圖像進而實施使用filter1之濾波器處理,而將藉此獲得之圖像作為90度方向之邊緣圖像。進而,邊緣圖像產生部114將對輸入圖像實施使用filter135之濾波器處理而獲得之圖像作為135度方向之邊緣圖像。
如上所述,邊緣圖像產生部111至邊緣圖像產生部114使用預先保持之filter1、filter2、filter45及filter135之至少一者而產生各方向之邊緣圖像。該等濾波器係類似於賈柏濾 波器之濾波器,且具有與賈柏濾波器相近之特性。
因此,藉由使用該等濾波器,可獲得與使用賈柏濾波器之情形相同之各方向之邊緣圖像。而且,使用該等濾波器之濾波器處理,係使用預先規定之特定係數之加權相加之計算,在濾波器處理中無需進行指數運算等複雜之運算。
於先前之視覺注意力中,為了獲得邊緣圖像而使用賈柏濾波器,但圖像處理裝置11中,藉由組合filter1、filter2、filter45及filter135來進行濾波器處理,可更簡單且更迅速地獲得邊緣圖像。
再者,用於產生邊緣圖像之濾波器並不限於圖13所示之例,亦可為組合Sobel Filter(索貝爾濾波器)與Roberts Filter(羅伯特濾波器)者等。此時,例如使用圖14所示之濾波器。
圖14之例中,filter0、filter90、filter45及filter135分別為1個濾波器。再者,圖14中各濾波器之係數係以與乘以該等係數之輸入圖像之像素相同之配置而排列。
filter0中之數值「1、2、1、0、0、0、-1、-2、-1」表示輸入圖像之像素所乘之係數。使用filter0之濾波器處理中,使用於x方向上3個像素、於y方向上3個像素之合計9個像素之區域內之像素,將該等像素之像素值乘以係數「1」、「2」、「1」、「0」、「0」、「0」、「-1」、「-2」、「-1」。繼而,將乘以係數後之像素之像素值之和除以「8」,其結果所得之值係對位於成為處理對象之區域之中心的像素實施使用filter0之濾波器處理而獲得之 像素值。因此,例如將位於處理對象之區域之中心之像素乘以係數「0」,將與該像素之圖中上側鄰接之像素乘以係數「2」。
同樣,使用filter90之濾波器處理中,使用於x方向上3個像素、於y方向上3個像素之合計9個像素之區域內之像素,將該等像素之像素值乘以係數「1」、「0」、「-1」、「2」、「0」、「-2」、「1」、「0」、「-1」。繼而,將乘以係數後之像素之像素值之和除以「8」,其結果所得之值係對位於成為處理對象之區域之中心的像素實施使用filter90之濾波器處理而獲得之像素值。
又,使用filter45之濾波器處理中,使用包含於x方向上2個像素、於y方向上2個像素之合計4個像素之區域內之像素,將該等像素之像素值乘以係數「0」、「1」、「-1」、「0」。繼而,將乘以係數後之像素之像素值之和除以「2」,其結果所得之值係對位於成為處理對象之區域之中心的像素(更詳細而言,為乘以圖中左上之係數「0」之像素)實施使用filter45之濾波器處理而獲得之像素值。
進而,使用filter135之濾波器處理中,使用包含於x方向上2個像素、於y方向上2個像素之合計4個像素之區域內之像素,將該等像素之像素值乘以係數「1」、「0」、「0」、「-1」。繼而,將乘以係數後之像素之像素值之和除以「2」,其結果所得之值為位於成為處理對象之區域之中心的像素(更詳細而言,為乘以圖中左上之係數「1」之像素)實施使用filter135之濾波器處理而獲得之像 素值。
例如,邊緣圖像產生部111至邊緣圖像產生部114對輸入圖像實施分別使用filter0、filter45、filter90及filter135之濾波器處理,將其結果所得之圖像作為0度、45度、90度及135度之方向之邊緣圖像。
如上所述,於圖14之例中之情形時,濾波器處理中亦無需指數運算等複雜之運算處理,因此可更簡單且更迅速地獲得邊緣圖像。
返回到圖12之流程圖之說明,邊緣圖像產生部111至邊緣圖像產生部114產生各方向之邊緣圖像後,將產生之邊緣圖像提供給金字塔圖像產生部115至金字塔圖像產生部118。
步驟S112中,金字塔圖像產生部115至金字塔圖像產生部118根據來自邊緣圖像產生部111至邊緣圖像產生部114之邊緣圖像,產生金字塔圖像並提供給差分計算部119至差分計算部122。
即,進行與參照圖3及圖4所說明之處理相同之處理,對於各方向之邊緣圖像,產生級別L1至級別L7之各層級之金字塔圖像。邊緣資訊提取部23中,亦與亮度資訊提取部21中之情形同樣地,只要產生7個層級之金字塔圖像便可,因此與先前相較可更簡單且更迅速地獲得邊緣資訊圖。
步驟S113中,差分計算部119至差分計算部122根據由金字塔圖像產生部115至金字塔圖像產生部118所提供之金字塔圖像,產生差分圖像並提供給加權相加部123至加權相 加部126。
例如,差分計算部119係求出各層級之0度方向之金字塔圖像中級別L2及級別L5、級別L2及級別L6、級別L3及級別L6、級別L3及級別L7、以及級別L4及級別L7之各層級之組合之金字塔圖像的差分。藉此,獲得合計5個差分圖像。再者,於產生差分圖像時,對較少一方之金字塔圖像進行升頻,使其與像素數較多一方之金字塔圖像一致。
又,差分計算部120至差分計算部122亦進行與差分計算部119相同之處理,而產生合計5個差分圖像。
產生該等差分圖像之處理係等效於對邊緣圖像實施使用帶通濾波器之濾波器處理,而自邊緣圖像中提取特定頻率成分。以上述方式獲得之差分圖像之像素之像素值表示各級別之金字塔圖像之邊緣強度之差、即輸入圖像之特定位置之邊緣強度與該位置之周圍之平均邊緣強度的差。
通常,於圖像中與周圍相較邊緣強度較強之區域為吸引觀察該圖像之人之目光的區域,因此該區域為被攝體之區域之可能性較高。因此,各差分圖像中,像素值更大之像素可表示作為被攝體之區域之可能性更高之區域。
步驟S114中,加權相加部123至加權相加部126根據由差分計算部119至差分計算部122所提供之差分圖像,產生0度、45度、90度及135度之方向之邊緣資訊圖。
例如,加權相加部123係將由差分計算部119提供之0度方向之差分圖像,藉由預先求出之各差分圖像之差分權重Wa而加權相加,成為1個0度方向之邊緣資訊圖。其次, 加權相加部123使用與被攝體圖產生部26所保持之轉換表相同之轉換表,對所得之0度方向之邊緣資訊圖之像素的像素值進行轉換,將其結果所得之邊緣資訊圖提供給正規化部127。
同樣,加權相加部124至加權相加部126係將由差分計算部120至差分計算部122提供之各方向之差分圖像,藉由預先求出之差分權重Wa而加權相加,成為1個邊緣資訊圖。繼而,加權相加部124至加權相加部126使用轉換表對所得之邊緣圖進行轉換,而提供給正規化部128至正規化部130。
加權相加部123至加權相加部126中,亦可藉由使用轉換表來轉換邊緣資訊圖,而更簡單且更迅速地進行轉換。再者,於產生邊緣資訊圖時,以各差分圖像成為相同大小之方式進行差分圖像之升頻。
步驟S115中,正規化部127至正規化部130將來自加權相加部123至加權相加部126之邊緣資訊圖正規化,將其結果所得之邊緣資訊圖作為最終邊緣資訊圖而提供給被攝體圖產生部26。例如,正規化部127至正規化部130進行與圖10之步驟S44之處理相同的處理,而將各方向之邊緣資訊圖正規化。
繼而,輸出邊緣資訊圖,邊緣資訊提取處理結束,其後,處理進入圖9之步驟S14。
如上所述,藉由將邊緣資訊圖線性正規化,並自線性正規化後之邊緣資訊圖中減去像素值之平均值,可更簡單且 更迅速地將邊緣資訊圖正規化。
如上所述,邊緣資訊提取部23根據輸入圖像而求出特定方向之邊緣之差分圖像,並根據該差分圖像而產生邊緣資訊圖。根據以上述方式獲得之各方向之邊緣資訊圖,可簡單地檢測出輸入圖像中與周圍之區域相較朝向特定方向之邊緣強度較大之區域、即掃視輸入圖像之觀察者易注視之區域。
[臉部資訊提取處理之說明]
其次,參照圖15之流程圖,對與圖9之步驟S14之處理相對應之臉部資訊提取處理加以說明。
步驟S141中,臉部檢測部161自所提供之輸入圖像中檢測出人之臉部之區域,將該檢測結果提供給臉部資訊圖產生部162。例如,臉部檢測部161對輸入圖像實施使用賈柏濾波器之濾波器處理,自輸入圖像中提取人之眼睛、嘴巴、鼻子等特徵性區域,藉此檢測出輸入圖像中之臉部之區域。
步驟S142中,臉部資訊圖產生部162使用來自臉部檢測部161之檢測結果,產生臉部資訊圖並提供給正規化部163。
例如,作為來自輸入圖像之臉部之檢測結果,檢測出複數個推斷為包含臉部之輸入圖像上之矩形區域(以下稱作候補區域)。此處,亦存在於輸入圖像上之特定位置附近檢測出複數個候補區域,且該等候補區域之一部分相互重疊的情形。即,例如針對輸入圖像上之1個臉部區域,獲 得包含該臉部之複數個區域作為候補區域時,該等候補區域之一部分相互重疊。
臉部資訊圖產生部162對於藉由臉部之檢測而獲得之候補區域,針對各候補區域而產生與輸入圖像相同大小之檢測圖像。該檢測圖像中,與檢測圖像上之處理對象之候補區域相同區域內之像素的像素值係大於與候補區域不同之區域內之像素之像素值的值。
又,檢測圖像上之像素之像素值越為與推斷為包含人之臉部之可能性更高之候補區域之像素相同位置的像素,則像素值越大。臉部資訊圖產生部162將以上述方式獲得之檢測圖像相加而產生1個圖像,作為臉部資訊圖。因此,於臉部資訊圖上,與輸入圖像上之複數個候補區域之一部分重疊之區域相同的區域之像素之像素值變大,包含臉部之可能性更高。
步驟S143中,正規化部163將由臉部資訊圖產生部162所提供之臉部資訊圖正規化,將其結果所得之臉部資訊圖作為最終臉部資訊圖而提供給被攝體圖產生部26。例如,正規化部163進行與圖10之步驟S44之處理相同之處理,而將臉部資訊圖正規化。
繼而,輸出臉部資訊圖,臉部資訊提取處理結束,其後,處理進入圖9之步驟S15。
如上所述,臉部資訊提取部24自輸入圖像中檢測出臉部,根據該檢測結果產生臉部資訊圖。根據以上述方式獲得之臉部資訊圖,可簡單地檢測出輸入圖像中作為被攝體 之人之臉部之區域。
[運動資訊提取處理之說明]
進而,參照圖16之流程圖,對與圖9之步驟S15之處理相對應之運動資訊提取處理加以說明。
步驟S171中,局部運動向量提取部191使用所提供之輸入圖像,藉由梯度法等而檢測輸入圖像之各像素之局部運動向量,並提供給差分計算部193。
步驟S172中,全局運動向量提取部192使用所提供之輸入圖像檢測全局運動向量,並提供給差分計算部193。
步驟S173中,差分計算部193求出來自局部運動向量提取部191之局部運動向量與來自全局運動向量提取部192之全局運動向量之差分的絕對值,而產生運動之差分圖像。繼而,差分計算部193將產生之運動之差分圖像提供給正規化部194。
步驟S174中,正規化部194藉由將由差分計算部193所提供之差分圖像正規化而產生運動資訊圖,將其結果所得之運動資訊圖作為最終運動資訊圖而提供給被攝體圖產生部26。例如,正規化部194進行與圖10之步驟S44之處理相同之處理,而將運動資訊圖正規化。
繼而,輸出運動資訊圖,運動資訊提取處理結束,其後,處理進入圖9之步驟S16。
如上所述,運動資訊提取部25自輸入圖像中檢測出運動,根據該檢測結果產生運動資訊圖。根據以上述方式獲得之運動資訊圖,可簡單地檢測出輸入圖像中存在運動之 物體之區域。輸入圖像中,存在運動之物體之區域為掃視輸入圖像之觀察者易注視之區域,且被攝體之可能性較高。
藉由以上說明之亮度資訊提取處理至運動資訊提取處理,而獲得各資訊圖,根據該等資訊圖產生被攝體圖。
如上所述,各資訊圖之正規化中,將資訊圖線性正規化,並自線性正規化後之資訊圖之像素值中減去平均值,藉此可更簡單且更迅速地將資訊圖正規化。藉此,可更簡單且更迅速地獲得用以確定圖像上之被攝體之區域的資訊圖。而且,於資訊圖之正規化時,藉由自資訊圖之像素值中減去平均值,可藉由更簡單之處理而更確實地除去雜訊。
[權重之學習]
圖像處理裝置11中,自輸入圖像中提取推斷為被攝體之區域更多地具有之複數個資訊,使用該等資訊產生被攝體圖,藉此自輸入圖像中更確實地檢測出被攝體之區域。輸入圖像上越是推斷為掃視輸入圖像之觀察者更關注之區域,則被攝體圖之像素值越大,因此並不限於被攝體為人體之情形,即便為動物或植物、建築物等一般者亦可檢測。
此種被攝體圖係自輸入圖像中提取亮度、顏色、邊緣、臉部、運動等之資訊而產生。即,將自該等提取出之資訊之金字塔圖像所得之差分圖像,藉由差分權重Wa而加權相加,成為資訊圖,再將該等資訊圖藉由資訊權重Wb而 加權相加。並且,進而將其結果所得之圖像(圖)乘以被攝體權重Wc而成為被攝體圖。
於產生被攝體圖時所使用之該等差分權重Wa、資訊權重Wb及被攝體權重Wc例如係藉由利用神經網路之學習而求出。作為於該等權重之學習時所使用之學習圖像,並不限於人體,若使用包含一般之被攝體之圖像,藉由使用學習所得之權重而產生之被攝體圖,可自輸入圖像中更確實地檢測出一般之被攝體。
以下,對用以產生被攝體圖之差分權重Wa、資訊權重Wb及被攝體權重Wc之學習加以說明。
於學習時,如圖17所示,使用賦予初始值之差分權重Wa、資訊權重Wb及被攝體權重Wc與含有被攝體之學習圖像,產生被攝體圖。
具體而言,根據預先準備之學習圖像,而產生被攝體圖產生時所提取之各資訊之差分圖像An(m)(其中,1≦n≦N,1≦m≦6)。此處,差分圖像An(1)至差分圖像An(6)係自學習圖像中提取之關於1個資訊之差分圖像。
例如,差分圖像A1(1)至差分圖像A1(6)為使用自學習圖像獲得之亮度之金字塔圖像而產生之亮度的差分圖像。又,例如,差分圖像AN(1)至差分圖像AN(6)為使用自學習圖像獲得之0度方向之邊緣的金字塔圖像而產生之0度方向之差分圖像。
再者,圖17中,表示針對各個自學習圖像提取之資訊而獲得6個差分圖像之例,但差分圖像之數可為任意。例 如,圖像處理裝置11之例中,將差分圖像之數設為5個。
若根據學習圖像而獲得各資訊之差分圖像An(m),則根據該等差分圖像與各差分圖像之差分權重Wa而產生資訊圖。再者,以下亦將差分圖像An(m)所乘之差分權重Wa稱作差分權重Wan(m)。
例如,將差分圖像A1(1)至差分圖像A1(6)之各個,藉由各差分圖像之差分權重Wa1(1)至差分權重Wa1(6)而加權相加,成為資訊圖B1in。進而,對於該資訊圖B1in,進行利用上述式(1)即雙彎曲函數f(x)之運算,其結果獲得資訊圖B1out
即,將資訊圖B1in之像素之像素值x代入至式(1)中而獲得的值f(x)係位於與該像素相同位置處之資訊圖B1out之像素的像素值。以上述方式獲得之資訊圖B1out相當於圖像處理裝置11中產生之資訊圖例如亮度資訊圖。
再者,雙彎曲函數f(x)並不限於雙曲線餘弦函數,可為任何函數。例如,於理想之模型下將f(x)設為當x≧0時輸出值「1」,當x<0時輸出值「-1」之函數。
如上所述,獲得N個資訊圖B1out至資訊圖BNout後,將該等資訊圖Bnout(其中,1≦n≦N)藉由各資訊圖之資訊權重Wb而加權相加,成為被攝體圖Cin。繼而,對於該被攝體圖Cin,進行利用雙彎曲函數f(x)之運算,其結果獲得被攝體圖Cout。進而,將該被攝體圖Cout乘以被攝體權重Wc加以正規化,而成為最終被攝體圖。
再者,更詳細而言,於產生被攝體圖Cin時,亦使用不 產生差分圖像而獲得之資訊圖例如臉部資訊圖等資訊圖,進行加權相加。又,以下,亦將資訊圖Bnout所乘之資訊權重Wb稱作資訊權重Wbn。
如上所述,將於學習時產生被攝體圖之處理稱作Forward Propagation(正向傳播)。產生被攝體圖,然後如圖18所示,進行稱作Back Propagation(反向傳播)之處理,更新差分權重Wa、資訊權重Wb及被攝體權重Wc。於稱作Back Propagation之處理中,使用所產生之被攝體圖、與對於學習圖像而預先準備之表示學習圖像上之被攝體之區域的資訊即圖像標籤,求出應增減各權重之值即權重之差分。
此處,圖像標籤係與學習圖像大小相同之圖像,且係位於與學習圖像上之被攝體之區域之像素相同位置處的像素之像素值為1,位於與學習圖像上之無被攝體之區域之像素相同位置處的像素之像素值為0的圖像。
於Back Propagation中,首先求出被攝體圖與圖像標籤之差分,將其結果所得之圖像作為評估圖。繼而,根據評估圖與被攝體圖Cin,藉由下式(2)而求出應改變被攝體權重Wc之量即被攝體權重差分△Wc。
△Wc=η×Cin×△C…(2)
式(2)中,η表示作為預先規定之常數之學習速度,Cin表示被攝體圖Cin。再者,更詳細而言,式(2)中之Cin為被攝體圖Cin之1個像素之像素值,被攝體權重差分△Wc係對應各像素而求出。又,△C為被攝體圖之差分,且係藉由下 式(3)而求出。
△C=EV×f'(Cin)…(3)
式(3)中,EV表示評估圖,f'(Cin)係將被攝體圖Cin代入至將雙彎曲函數f(x)微分所得之函數中而獲得之值。將函數f(x)微分而獲得之函數f'(x)具體為下式(4)所示之函數。
f'(x)=a×b×sech(x×b)2…(4)
以上述方式獲得被攝體權重差分△Wc後,將被攝體權重差分△Wc加到至此為止之被攝體權重Wc上而進行更新,求出新的被攝體權重Wc。
繼而,使用經更新之被攝體權重Wc與被攝體圖產生時所產生之資訊圖Bnin,藉由下式(5)而求出應改變資訊權重Wbn之量即資訊權重差分△Wbn。
△Wbn=η×Bnin×△Bn…(5)
式(5)中,η表示作為預先規定之常數之學習速度,Bnin表示資訊圖Bnin。再者,更詳細而言,式(5)中之Bnin為資訊圖Bnin之1個像素之像素值,資訊權重差分△Wbn係對應各像素而求出。又,△Bn為資訊圖之差分,且係藉由下式(6)而求出。
△Bn=△C×f'(Bnin)×Wc…(6)
式(6)中,△C表示計算上述式(3)而獲得之值,f'(Bnin)係將資訊圖Bnin代入至將雙彎曲函數f(x)微分所得之函數中而獲得之值。又,Wc為經更新之被攝體權重Wc。
如上所述,獲得對於資訊圖Bnin之資訊權重差分△Wbn後,將資訊權重差分△Wbn加到資訊圖Bnin之資訊權重Wbn 上而進行更新,求出新的資訊權重Wbn。
進而,使用經更新之資訊權重Wbn與被攝體圖產生時所產生之差分圖像An(m),藉由下式(7)而求出應改變差分權重Wa之量即差分權重之差分△Wan(m)。
△Wan(m)=η×An(m)×△An(m)…(7)
式(7)中,η表示作為預先規定之常數之學習速度,An(m)表示差分圖像An(m)。再者,更詳細而言,式(7)中之An(m)為差分圖像An(m)之1個像素之像素值,差分△Wan(m)係對應各像素而求出。又,△An(m)為差分圖像之差分,且係藉由下式(8)而求出。
△An(m)=△Bn×f'(An(m))×Wbn…(8)
式(8)中,△Bn表示計算上述式(6)而獲得之值,f'(An(m))係將差分圖像An(m)代入至將雙彎曲函數f(x)微分所得之函數而獲得之值。又,Wbn為經更新之資訊權重Wbn。
如上所述,獲得相對於差分圖像An(m)之差分權重之差分△Wan(m)後,將差分權重之差分△Wan(m)加到差分圖像An(m)之差分權重Wan(m)上而進行更新,求出新的差分權重Wan(m)。
繼而,使用以上述方式更新之差分權重Wa、資訊權重Wb及被攝體權重Wc與學習圖像,重複進行上述處理,而獲得最終之差分權重Wa、資訊權重Wb及被攝體權重Wc。
重複更新差分權重Wan(m)、資訊權重Wbn及被攝體權重Wc之處理,係例如進行各權重之更新直到評估圖之像素之像素值之最大值的絕對值為預先規定之臨限值以下;且 進行預先規定之次數以上為止。即,更新權重之處理係進行直到獲得可自圖像中以足夠之精度提取被攝體之被攝體圖為止。
如上所述,於利用神經網路之學習中,根據使用預先賦予之權重而產生之被攝體圖與圖像標籤產生評估圖,進而根據評估圖進行反運算,而求出所應改變各權重之變化量即權重之差分。
此處,圖像標籤係表示學習圖像上之被攝體之區域之資訊,因此可以說是表示被攝體圖之原形之資訊。因此,作為被攝體圖與圖像標籤之差分之評估圖,係表示理想之被攝體圖與使用所賦予之權重而產生之被攝體圖的誤差,若使用評估圖進行反運算,則可求出所賦予之權重與理想之權重之誤差。
繼而,所求出之誤差為應改變所賦予之權重之變化量,若將該變化量加到權重上,會求出現前之理想的權重。若使用以此方式新求出之權重而產生被攝體圖,則利用該被攝體圖,可自圖像中更確實地檢測出被攝體。於利用神經網路之學習中,求出差分△Wan(m)、資訊權重差分△Wbn及被攝體權重差分△Wc作為權重之變化量,並更新各權重。
再者,利用神經網路之學習,例如詳細記載於「Richar O.Duda,Peter E.Hart,David G.Stork著"Patten Classification" WILEY-INTERSCIENCE ISBN 0-471-05669-3」中。
上述一系列之處理可藉由硬體而執行,亦可藉由軟體而執行。於藉由軟體執行一系列之處理之情形時,構成該軟體之程式係自程式記錄媒體安裝至組裝於專用之硬體中之電腦、或藉由安裝各種程式而可執行各種功能之例如通用之個人電腦等中。
圖19係表示藉由程式而執行上述一系列之處理之電腦之硬體之構成例的方塊圖。
電腦中,CPU(Central Processing Unit,中央處理單元)601、ROM(Read Only Memory,唯讀記憶體)602、RAM(Random Access Memory,隨機存取記憶體)603係藉由匯流排604而相互連接。
匯流排604上進而連接有輸入輸出介面605。輸入輸出介面605上連接有包含鍵盤、滑鼠、麥克風等之輸入部606、包含顯示器、揚聲器等之輸出部607、包含硬碟或非揮發性之記憶體等之記錄部608、包含網路介面等之通信部609、對磁碟、光碟、磁光碟或者半導體記憶體等可移媒體611進行驅動之驅動器610。
以上述方式構成之電腦中,CPU 601例如將記錄於記錄部608中之程式,經由輸入輸出介面605及匯流排604而加載至RAM 603中並執行,藉此進行上述一系列之處理。
電腦(CPU 601)所執行之程式例如係記錄於包含磁碟(包括軟碟)、光碟(CD-ROM(Compact Disc-Read Only Memory,緊密光碟-唯讀記憶體)、DVD(Digital Versatile Disc,數位多功能光碟)等)、磁光碟、或者半導體記憶體等之套裝 軟體媒體之可移媒體611中,或者經由區域網路、網際網路、數位衛星廣播等有線或無線之傳輸媒體而提供。
而且,程式可藉由將可移媒體611安裝於驅動器610中,並經由輸入輸出介面605而安裝於記錄部608中。又,程式可經由有線或無線之傳輸媒體,由通信部609接收後安裝於記錄部608中。此外,程式可預先安裝於ROM 602或記錄部608中。
再者,電腦所執行之程式可為按照本說明書中所說明之順序而時間序列地進行處理之程式,亦可為並列地或以進行調用時等必需之時序進行處理之程式。
再者,本發明之實施形態並不限定於上述實施形態,於不脫離本發明之主旨之範圍內可進行各種變更。
11‧‧‧圖像處理裝置
21‧‧‧亮度資訊提取部
22‧‧‧顏色資訊提取部
23‧‧‧邊緣資訊提取部
24‧‧‧臉部資訊提取部
25‧‧‧運動資訊提取部
26‧‧‧被攝體圖產生部
53‧‧‧加權相加部
54‧‧‧正規化部
85‧‧‧加權相加部
86‧‧‧加權相加部
87‧‧‧正規化部
88‧‧‧正規化部
123‧‧‧加權相加部
124‧‧‧加權相加部
125‧‧‧加權相加部
126‧‧‧加權相加部
127‧‧‧正規化部
128‧‧‧正規化部
129‧‧‧正規化部
130‧‧‧正規化部
圖1係表示應用本發明之圖像處理裝置之一實施形態之構成例的圖。
圖2係表示亮度資訊提取部之構成例之圖。
圖3係說明金字塔圖像之圖。
圖4係說明金字塔圖像之產生之圖。
圖5係表示顏色資訊提取部之構成例之圖。
圖6係表示邊緣資訊提取部之構成例之圖。
圖7係表示臉部資訊提取部之構成例之圖。
圖8係表示運動資訊提取部之構成例之圖。
圖9係說明被攝體區域確定處理之流程圖。
圖10係說明亮度資訊提取處理之流程圖。
圖11係說明顏色資訊提取處理之流程圖。
圖12係說明邊緣資訊提取處理之流程圖。
圖13係表示用於邊緣提取之濾波器之一例之圖。
圖14係表示用於邊緣提取之濾波器之一例之圖。
圖15係說明臉部資訊提取處理之流程圖。
圖16係說明運動資訊提取處理之流程圖。
圖17係說明利用神經網路之學習之圖。
圖18係說明利用神經網路之學習之圖。
圖19係表示電腦之構成例之圖。
11‧‧‧圖像處理裝置
21‧‧‧亮度資訊提取部
22‧‧‧顏色資訊提取部
23‧‧‧邊緣資訊提取部
24‧‧‧臉部資訊提取部
25‧‧‧運動資訊提取部
26‧‧‧被攝體圖產生部
27‧‧‧被攝體區域確定部

Claims (5)

  1. 一種圖像處理裝置,其包括:提取資訊圖像產生機構,其根據自輸入圖像之各區域中提取之包含特定資訊的提取資訊圖像,產生解像度相互不同之複數個上述提取資訊圖像;差分圖像產生機構,其藉由求出上述複數個上述提取資訊圖像中之特定的兩個上述提取資訊圖像之差分,而產生差分圖像;資訊圖產生機構,其藉由將複數個上述差分圖像加權相加,而產生表示上述輸入圖像上之被攝體之區域所具有之特徵的特徵值之資訊圖;正規化機構,其自上述資訊圖之各區域之值中減去上述資訊圖之各區域之值的平均值,而使上述資訊圖正規化;被攝體圖產生機構,其藉由將經正規化之複數個上述資訊圖加權相加,而產生表示上述輸入圖像之各區域中之上述被攝體之區域特質的被攝體圖;及邊緣圖像產生機構,該邊緣圖像產生機構係藉由使用預先規定之係數將上述輸入圖像之若干像素之像素值加權相加,而產生表示上述輸入圖像之各區域之邊緣強度的圖像來作為上述提取資訊圖像,其中該邊緣圖像產生機構進一步包括:第1濾波器,其係構成為對於x方向上連續排列之9個像素執行濾波器處理,該處理係藉由將該等像素分 別乘以係數-1、-2、-1、2、4、2、-1、-2及-1,並將總和除以16來執行;第2濾波器,其係構成為對於x方向上連續排列之8個像素執行濾波器處理,該處理係藉由將該等像素分別乘以係數1、3、3、1、1、3、3及1,並將總和除以16來執行;及第3濾波器,其係構成為對排列成3x3矩陣之9個像素執行濾波器處理,該處理係藉由將該等像素分別乘以係數0、1、2、-1、0、1、-2、-1及0,並將總和除以8來執行;第4濾波器,其係構成為對排列成3x3矩陣之9個像素執行濾波器處理,該處理係藉由將該等像素分別乘以係數2、1、0、1、0、-1、0、-1及-2,並將總和除以8來執行。
  2. 如請求項1之圖像處理裝置,其中上述提取資訊圖像產生機構係藉由將上述提取資訊圖像之相互鄰接之像素之像素值的平均值設為與上述提取資訊圖像不同之其他提取資訊圖像之像素的像素值,而產生解像度相互不同之上述複數個上述提取資訊圖像。
  3. 如請求項1之圖像處理裝置,其中上述輸入圖像係包含亮度成分及色差成分之圖像,上述提取資訊圖像係包含作為上述特定資訊之上述輸入圖像之亮度成分或色差成分的圖像。
  4. 一種圖像處理裝置之圖像處理方法,該圖像處理裝置包 括:提取資訊圖像產生機構,其根據自輸入圖像之各區域中提取之包含特定資訊的提取資訊圖像,產生解像度相互不同之複數個上述提取資訊圖像;差分圖像產生機構,其藉由求出上述複數個上述提取資訊圖像中之特定的兩個上述提取資訊圖像之差分,而產生差分圖像;資訊圖產生機構,其藉由將複數個上述差分圖像加權相加,而產生表示上述輸入圖像上之被攝體之區域所具有之特徵的特徵值之資訊圖;正規化機構,其自上述資訊圖之各區域之值中減去上述資訊圖之各區域之值的平均值,而使上述資訊圖正規化;被攝體圖產生機構,其藉由將經正規化之複數個上述資訊圖加權相加,而產生表示上述輸入圖像之各區域中之上述被攝體之區域特質的被攝體圖;及邊緣圖像產生機構,該邊緣圖像產生機構係藉由使用預先規定之係數將上述輸入圖像之若干像素之像素值加權相加,而產生表示上述輸入圖像之各區域之邊緣強度的圖像來作為上述提取資訊圖像,其中該邊緣圖像產生機構進一步包括:第1濾波器,其係構成為對於x方向上連續排列之9個像素執行濾波器處理,該處理係藉由將該等像素分別乘以係數-1、-2、-1、2、4、2、-1、-2及-1,並將總 和除以16來執行;第2濾波器,其係構成為對於x方向上連續排列之8個像素執行濾波器處理,該處理係藉由將該等像素分別乘以係數1、3、3、1、1、3、3及1,並將總和除以16來執行;第3濾波器,其係構成為對排列成3x3矩陣之9個像素執行濾波器處理,該處理係藉由將該等像素分別乘以係數0、1、2、-1、0、1、-2、-1及0,並將總和除以8來執行;及第4濾波器,其係構成為對排列成3x3矩陣之9個像素執行濾波器處理,該處理係藉由將該等像素分別乘以係數2、1、0、1、0、-1、0、-1及-2,並將總和除以8來執行;該圖像處理方法包括如下步驟:上述提取資訊圖像產生機構根據上述輸入圖像而產生上述提取資訊圖像,上述差分圖像產生機構根據上述複數個上述提取資訊圖像而產生上述差分圖像,上述資訊圖產生機構將上述複數個上述差分圖像加權相加而產生上述資訊圖,上述正規化機構使上述資訊圖正規化,上述被攝體圖產生機構將上述資訊圖加權相加而產生上述被攝體圖。
  5. 一種電腦可讀取媒體,其包括使電腦執行包含如下步驟 之處理之指令:根據自輸入圖像之各區域中提取之包含特定資訊之提取資訊圖像,產生解像度相互不同之複數個上述提取資訊圖像,藉由求出上述複數個上述提取資訊圖像中之特定的兩個上述提取資訊圖像之差分,而產生差分圖像,藉由將複數個上述差分圖像加權相加,而產生表示上述輸入圖像上之被攝體之區域所具有之特徵的特徵值之資訊圖,自上述資訊圖之各區域之值中減去上述資訊圖之各區域之值的平均值,而使上述資訊圖正規化,藉由將經正規化之複數個上述資訊圖加權相加,而產生表示上述輸入圖像之各區域中之上述被攝體之區域特質的被攝體圖,及藉由使用預先規定之係數將上述輸入圖像之若干像素之像素值加權相加,而產生表示上述輸入圖像之各區域之邊緣強度的圖像來作為上述提取資訊圖像;其中上述產生之步驟進一步包括:應用第1濾波器,其係構成為對於x方向上連續排列之9個像素執行濾波器處理,該處理係藉由將該等像素分別乘以係數-1、-2、-1、2、4、2、-1、-2及-1,並將總和除以16來執行;應用第2濾波器,其係構成為對於x方向上連續排列之8個像素執行濾波器處理,該處理係藉由將該等像 素分別乘以係數1、3、3、1、1、3、3及1,並將總和除以16來執行;應用第3濾波器,其係構成為對排列成3x3矩陣之9個像素執行濾波器處理,該處理係藉由將該等像素分別乘以係數0、1、2、-1、0、1、-2、-1及0,並將總和除以8來執行;及應用第4濾波器,其係構成為對排列成3x3矩陣之9個像素執行濾波器處理,該處理係藉由將該等像素分別乘以係數2、1、0、1、0、-1、0、-1及-2,並將總和除以8來執行。
TW099112223A 2009-05-08 2010-04-19 Image processing apparatus and method, and a computer readable medium TWI423168B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009113413A JP5229575B2 (ja) 2009-05-08 2009-05-08 画像処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
TW201044324A TW201044324A (en) 2010-12-16
TWI423168B true TWI423168B (zh) 2014-01-11

Family

ID=43050147

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099112223A TWI423168B (zh) 2009-05-08 2010-04-19 Image processing apparatus and method, and a computer readable medium

Country Status (8)

Country Link
US (1) US8577137B2 (zh)
EP (1) EP2299403A1 (zh)
JP (1) JP5229575B2 (zh)
KR (1) KR20120018267A (zh)
CN (1) CN102084396B (zh)
MY (1) MY154278A (zh)
TW (1) TWI423168B (zh)
WO (1) WO2010128646A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011247957A (ja) * 2010-05-24 2011-12-08 Toshiba Corp パターン検査方法および半導体装置の製造方法
WO2013054160A1 (en) * 2011-10-11 2013-04-18 Sony Ericsson Mobile Communications Ab Light sensitive, low height, and high dynamic range camera
JP5826001B2 (ja) * 2011-11-30 2015-12-02 キヤノン株式会社 画像処理装置、及びその制御方法
CN103313049A (zh) * 2012-03-14 2013-09-18 富士通株式会社 图像压缩方法和装置
JP5895720B2 (ja) * 2012-06-06 2016-03-30 富士通株式会社 被写体追跡装置、被写体追跡方法及び被写体追跡用コンピュータプログラム
US9518935B2 (en) * 2013-07-29 2016-12-13 Kla-Tencor Corporation Monitoring changes in photomask defectivity
US10805649B2 (en) 2017-01-04 2020-10-13 Samsung Electronics Co., Ltd. System and method for blending multiple frames into a single frame
US10451563B2 (en) 2017-02-21 2019-10-22 Kla-Tencor Corporation Inspection of photomasks by comparing two photomasks
JP7091031B2 (ja) * 2017-07-27 2022-06-27 サムスン エレクトロニクス カンパニー リミテッド 撮像装置
JP6919539B2 (ja) 2017-12-06 2021-08-18 富士通株式会社 演算処理装置および演算処理装置の制御方法
JP2021005301A (ja) * 2019-06-27 2021-01-14 株式会社パスコ 建物抽出処理装置及びプログラム
CN110728662B (zh) * 2019-09-26 2022-06-28 中国国家铁路集团有限公司 轨道类型识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6670963B2 (en) * 2001-01-17 2003-12-30 Tektronix, Inc. Visual attention model
US20050047647A1 (en) * 2003-06-10 2005-03-03 Ueli Rutishauser System and method for attentional selection
US20070242900A1 (en) * 2006-04-13 2007-10-18 Mei Chen Combining multiple exposure images to increase dynamic range

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3362364B2 (ja) * 1992-07-17 2003-01-07 オムロン株式会社 ファジイ推論システムおよび方法ならびに前件部処理装置
US6005978A (en) * 1996-02-07 1999-12-21 Cognex Corporation Robust search for image features across image sequences exhibiting non-uniform changes in brightness
JP3706755B2 (ja) * 1998-11-09 2005-10-19 キヤノン株式会社 画像処理装置及び方法並びに記憶媒体
US6674915B1 (en) * 1999-10-07 2004-01-06 Sony Corporation Descriptors adjustment when using steerable pyramid to extract features for content based search
US6785427B1 (en) * 2000-09-20 2004-08-31 Arcsoft, Inc. Image matching using resolution pyramids with geometric constraints
JP3658761B2 (ja) * 2000-12-12 2005-06-08 日本電気株式会社 画像検索システムとその画像検索方法、及び画像検索プログラムを記録した記憶媒体
US20020154833A1 (en) * 2001-03-08 2002-10-24 Christof Koch Computation of intrinsic perceptual saliency in visual environments, and applications
DE60218928D1 (de) * 2001-04-30 2007-05-03 St Microelectronics Pvt Ltd Effiziente Niedrigleistungsbewegungsschätzung für eine Video-Vollbildsequenz
US7343028B2 (en) * 2003-05-19 2008-03-11 Fujifilm Corporation Method and apparatus for red-eye detection
JP4277739B2 (ja) * 2004-06-08 2009-06-10 ソニー株式会社 映像デコーダ
US20050286767A1 (en) * 2004-06-23 2005-12-29 Hager Gregory D System and method for 3D object recognition using range and intensity
CN1296861C (zh) * 2004-09-10 2007-01-24 倪蔚民 基于图像纹理特征随机度信息的模式识别方法
JP4985394B2 (ja) * 2005-03-15 2012-07-25 オムロン株式会社 画像処理装置および方法、プログラム、並びに記録媒体
US7334901B2 (en) * 2005-04-22 2008-02-26 Ostendo Technologies, Inc. Low profile, large screen display using a rear projection array system
US7426312B2 (en) * 2005-07-05 2008-09-16 Xerox Corporation Contrast enhancement of images
JP2008210009A (ja) * 2007-02-23 2008-09-11 Fujifilm Corp 画像識別装置,画像識別方法,撮像装置及び撮像方法
CN101408942B (zh) * 2008-04-17 2011-01-12 浙江师范大学 一种复杂背景下的车牌定位方法
JP2010055194A (ja) * 2008-08-26 2010-03-11 Sony Corp 画像処理装置および方法、学習装置および方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6670963B2 (en) * 2001-01-17 2003-12-30 Tektronix, Inc. Visual attention model
US20050047647A1 (en) * 2003-06-10 2005-03-03 Ueli Rutishauser System and method for attentional selection
US20070242900A1 (en) * 2006-04-13 2007-10-18 Mei Chen Combining multiple exposure images to increase dynamic range

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
P. J. Burt and I•. H. Adelson"The Laplacian pyramid as a compact image code," IEEE Trans. Commun., vol. COM-31, pp. 532-540, 1983. *

Also Published As

Publication number Publication date
WO2010128646A1 (ja) 2010-11-11
JP5229575B2 (ja) 2013-07-03
US8577137B2 (en) 2013-11-05
MY154278A (en) 2015-05-29
CN102084396B (zh) 2014-02-05
CN102084396A (zh) 2011-06-01
JP2010262506A (ja) 2010-11-18
EP2299403A1 (en) 2011-03-23
US20120121173A1 (en) 2012-05-17
TW201044324A (en) 2010-12-16
KR20120018267A (ko) 2012-03-02

Similar Documents

Publication Publication Date Title
TWI423168B (zh) Image processing apparatus and method, and a computer readable medium
CN111741211B (zh) 图像显示方法和设备
CN110008817B (zh) 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
CN111402146B (zh) 图像处理方法以及图像处理装置
US8494256B2 (en) Image processing apparatus and method, learning apparatus and method, and program
US9344690B2 (en) Image demosaicing
EP2851867A2 (en) Method and apparatus for filtering an image
Abiko et al. Single image reflection removal based on GAN with gradient constraint
US20220414827A1 (en) Training apparatus, training method, and medium
Jia et al. Effective meta-attention dehazing networks for vision-based outdoor industrial systems
JP2006180268A (ja) 画像処理装置、画像処理方法、プログラム、及び記録媒体
Verma et al. FCNN: fusion-based underwater image enhancement using multilayer convolution neural network
Wang et al. New insights into multi-focus image fusion: A fusion method based on multi-dictionary linear sparse representation and region fusion model
Li et al. Joint learning of motion deblurring and defocus deblurring networks with a real-world dataset
Xu et al. Degraded Structure and Hue Guided Auxiliary Learning for low-light image enhancement
Hung et al. Moran’s I for impulse noise detection and removal in color images
Miyata Inter-channel relation based vectorial total variation for color image recovery
Viacheslav et al. Low-level features for inpainting quality assessment
JP2023003764A (ja) 画像処理装置、画像処理方法、及びプログラム
Vlašánek Fuzzy image inpainting aimed to medical images
JP7512150B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN113344809B (zh) 一种超声图像增强方法、***和设备
Kinoshita et al. Image Enhancement Network Trained by Using HDR images
Jung et al. Deep low-contrast image enhancement using structure tensor representation
Wang et al. DBMKA-Net: Dual branch multi-perception kernel adaptation for underwater image enhancement

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees