KR20120018267A - 화상 처리 장치 및 방법, 및 프로그램 - Google Patents

화상 처리 장치 및 방법, 및 프로그램 Download PDF

Info

Publication number
KR20120018267A
KR20120018267A KR1020107029726A KR20107029726A KR20120018267A KR 20120018267 A KR20120018267 A KR 20120018267A KR 1020107029726 A KR1020107029726 A KR 1020107029726A KR 20107029726 A KR20107029726 A KR 20107029726A KR 20120018267 A KR20120018267 A KR 20120018267A
Authority
KR
South Korea
Prior art keywords
image
information
map
difference
subject
Prior art date
Application number
KR1020107029726A
Other languages
English (en)
Inventor
가즈끼 아이사까
마사야 기노시따
다까시 가메야
준 무라야마
마사또시 요꼬까와
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20120018267A publication Critical patent/KR20120018267A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은, 더욱 간단하고 신속하게 화상 상의 피사체의 영역을 특정하기 위한 정보를 얻을 수 있도록 하는 화상 처리 장치 및 방법, 및 프로그램에 관한 것이다. 휘도 정보 추출부(21) 내지 움직임 정보 추출부(25)는, 입력 화상으로부터 소정의 정보를 추출하여, 입력 화상의 피사체의 영역이 갖는 특징의 특징량을 나타내는 정보 맵을 생성한다. 또한, 휘도 정보 추출부(21) 내지 움직임 정보 추출부(25)는, 생성된 정보 맵의 각 화소의 화소값으로부터 정보 맵 전체의 화소의 화소값의 평균값을 감산하여, 정보 맵을 정규화한다. 이에 의해, DOG 필터를 사용하여 정규화하는 경우에 비하여, 보다 간단한 처리로 정보 맵을 정규화하여, 노이즈를 제거할 수 있다. 피사체 맵 생성부(26)는, 각 정보 맵을 선형 결합하여, 입력 화상의 각 영역에서의 피사체의 영역다움을 나타내는 피사체 맵을 생성한다. 본 발명은, 화상 처리 장치에 적용할 수 있다.

Description

화상 처리 장치 및 방법, 및 프로그램{IMAGE PROCESSING DEVICE, METHOD, AND PROGRAM}
본 발명은 화상 처리 장치 및 방법, 및 프로그램에 관한 것으로, 특히 더욱 간단하게 화상 상의 피사체의 영역을 특정할 수 있도록 한 화상 처리 장치 및 방법, 및 프로그램에 관한 것이다.
종래, 화상 상의 피사체의 영역을 특정하기 위한 기술로서, 비주얼 어텐션이라고 불리는 기술이 알려져 있다(예를 들어, 비특허문헌 1 및 2 참조).
비주얼 어텐션에서는, 입력된 입력 화상으로부터 휘도 정보, 색 정보, 에지 정보가 추출되고, 그들의 추출된 정보에 기초하여, 입력 화상 상의 각 영역에서의 피사체의 영역다움을 나타내는 정보 맵이 추출된 정보마다 생성된다.
그리고, 각 정보 맵이 DOG 필터를 사용한 필터 처리 또는 선형 정규화에 의해 정규화되어 추가된 후, 재차 정규화되고, 그 결과 얻어진 정보가 피사체 맵으로 된다. 이 피사체 맵은, 입력 화상의 각 영역에서의 피사체의 영역다움을 나타내는 정보이며, 피사체 맵을 사용하면, 입력 화상 상의 어느 영역에 피사체가 포함되어 있는지를 특정할 수 있다.
여기서, 입력 화상으로부터는, 휘도 정보로서, 입력 화상의 화소의 R(적색), G(녹색) 및 B(청색)의 성분의 평균값이 추출되고, 색 정보로서, 입력 화상의 화소의 R과 G의 성분의 차분 및 B와 Y(황색)의 성분의 차분이 추출된다. 또한, 입력 화상으로부터는, 가버 필터를 사용하여 0도, 45도, 90도, 135도의 각 방향의 에지 강도가 추출된다.
그러나, 상술한 기술에서는 처리량이 많아, 피사체 맵의 생성에 시간이 걸려 버린다. 예를 들어, 가버 필터를 사용한 필터 처리는 지수 연산이 필요하기 때문에, 처리량이 많고, 또한 DOG 필터는 탭수가 많기 때문에, DOG 필터를 사용한 필터 처리의 처리량도 많아져 버린다.
또한, 선형 정규화에 의해 정보 맵의 정규화를 행하는 경우에는 정규화를 위한 처리량을 억제할 수는 있지만, 정규화 시에 정보 맵으로부터 노이즈를 제거하는 것은 곤란하며, 피사체 맵에 의한 피사체의 검출 정밀도가 저하되어 버린다. 즉, 노이즈의 영역이 피사체의 영역이라고 오검출되어 버리는 경우가 있었다.
또한, 피사체 맵을 얻는 처리를 하드웨어로 행하고자 하면, 가버 필터의 지수 연산이나, DOG 필터의 탭수의 영향에 의해, 회로 규모가 커져 버린다.
본 발명은 이러한 상황을 감안하여 이루어진 것이며, 화상 상의 피사체의 영역을 특정하기 위한 정보를 더욱 간단하고 신속하게 얻을 수 있도록 하는 것이다.
본 발명의 일측면의 화상 처리 장치는, 입력 화상의 각 영역으로부터 추출된 소정의 정보로 이루어지는 추출 정보 화상에 기초하여, 서로 다른 해상도의 복수의 상기 추출 정보 화상을 생성하는 추출 정보 화상 생성 수단과, 상기 복수의 상기 추출 정보 화상 중 소정의 2개의 상기 추출 정보 화상의 차분을 구함으로써, 차분 화상을 생성하는 차분 화상 생성 수단과, 복수의 상기 차분 화상을 가중치 부여 가산함으로써, 상기 입력 화상 상의 피사체의 영역이 갖는 특징의 특징량을 나타내는 정보 맵을 생성하는 정보 맵 생성 수단과, 상기 정보 맵의 각 영역의 값으로부터 상기 정보 맵의 각 영역의 값의 평균값을 감산하여, 상기 정보 맵을 정규화하는 정규화 수단과, 정규화된 복수의 상기 정보 맵을 가중치 부여 가산함으로써, 상기 입력 화상의 각 영역에서의 상기 피사체의 영역다움을 나타내는 피사체 맵을 생성하는 피사체 맵 생성 수단을 구비한다.
화상 처리 장치에는, 상기 입력 화상의 몇개의 화소의 화소값을, 미리 정해진 계수를 사용하여 가중치 부여 가산함으로써, 상기 입력 화상의 각 영역의 에지 강도를 나타내는 화상을, 상기 추출 정보 화상으로서 생성하는 에지 화상 생성 수단을 더 마련할 수 있다.
상기 추출 정보 화상 생성 수단에는, 상기 추출 정보 화상의 서로 인접하는 화소의 화소값의 평균값을, 상기 추출 정보 화상과는 상이한 다른 추출 정보 화상의 화소의 화소값으로 함으로써, 서로 다른 해상도의 상기 복수의 상기 추출 정보 화상을 생성시킬 수 있다.
본 발명의 일측면의 화상 처리 방법 또는 프로그램은, 입력 화상의 각 영역으로부터 추출된 소정의 정보로 이루어지는 추출 정보 화상에 기초하여, 서로 다른 해상도의 복수의 상기 추출 정보 화상을 생성하고, 상기 복수의 상기 추출 정보 화상 중 소정의 2개의 상기 추출 정보 화상의 차분을 구함으로써, 차분 화상을 생성하고, 복수의 상기 차분 화상을 가중치 부여 가산함으로써, 상기 입력 화상 상의 피사체의 영역이 갖는 특징의 특징량을 나타내는 정보 맵을 생성하고, 상기 정보 맵의 각 영역의 값으로부터 상기 정보 맵의 각 영역의 값의 평균값을 감산하여, 상기 정보 맵을 정규화하고, 정규화된 복수의 상기 정보 맵을 가중치 부여 가산함으로써, 상기 입력 화상의 각 영역에서의 상기 피사체의 영역다움을 나타내는 피사체 맵을 생성하는 스텝을 포함한다.
본 발명의 일측면에 있어서는, 입력 화상의 각 영역으로부터 추출된 소정의 정보로 이루어지는 추출 정보 화상에 기초하여, 서로 다른 해상도의 복수의 상기 추출 정보 화상이 생성되고, 상기 복수의 상기 추출 정보 화상 중 소정의 2개의 상기 추출 정보 화상의 차분을 구함으로써, 차분 화상이 생성되고, 복수의 상기 차분 화상을 가중치 부여 가산함으로써, 상기 입력 화상 상의 피사체의 영역이 갖는 특징의 특징량을 나타내는 정보 맵이 생성되고, 상기 정보 맵의 각 영역의 값으로부터 상기 정보 맵의 각 영역의 값의 평균값이 감산되어, 상기 정보 맵이 정규화되고, 정규화된 복수의 상기 정보 맵이 가중치 부여 가산됨으로써, 상기 입력 화상의 각 영역에서의 상기 피사체의 영역다움을 나타내는 피사체 맵이 생성된다.
본 발명의 일측면에 의하면, 화상 상의 피사체의 영역을 특정하기 위한 정보를 더욱 간단하고 신속하게 얻을 수 있다.
도 1은 본 발명을 적용한 화상 처리 장치의 일 실시 형태의 구성예를 도시하는 도면이다.
도 2는 휘도 정보 추출부의 구성예를 도시하는 도면이다.
도 3은 피라미드 화상에 대하여 설명하는 도면이다.
도 4는 피라미드 화상의 생성에 대하여 설명하는 도면이다.
도 5는 색 정보 추출부의 구성예를 도시하는 도면이다.
도 6은 에지 정보 추출부의 구성예를 도시하는 도면이다.
도 7은 얼굴 정보 추출부의 구성예를 도시하는 도면이다.
도 8은 움직임 정보 추출부의 구성예를 도시하는 도면이다.
도 9는 피사체 영역 특정 처리를 설명하는 흐름도이다.
도 10은 휘도 정보 추출 처리를 설명하는 흐름도이다.
도 11은 색 정보 추출 처리를 설명하는 흐름도이다.
도 12는 에지 정보 추출 처리를 설명하는 흐름도이다.
도 13은 에지 추출을 위한 필터의 일례를 도시하는 도면이다.
도 14는 에지 추출을 위한 필터의 일례를 도시하는 도면이다.
도 15는 얼굴 정보 추출 처리를 설명하는 흐름도이다.
도 16은 움직임 정보 추출 처리를 설명하는 흐름도이다.
도 17은 뉴럴 네트워크에 의한 학습에 대하여 설명하는 도면이다.
도 18은 뉴럴 네트워크에 의한 학습에 대하여 설명하는 도면이다.
도 19는 컴퓨터의 구성예를 도시하는 도면이다.
이하, 도면을 참조하여, 본 발명을 적용한 실시 형태에 대하여 설명한다.
[화상 처리 장치의 구성]
도 1은, 본 발명을 적용한 화상 처리 장치의 일 실시 형태의 구성예를 도시하는 도면이다.
화상 처리 장치(11)는, 휘도 정보 추출부(21), 색 정보 추출부(22), 에지 정보 추출부(23), 얼굴 정보 추출부(24), 움직임 정보 추출부(25), 피사체 맵 생성부(26) 및 피사체 영역 특정부(27)로 구성된다.
예를 들어, 화상 처리 장치(11)는, 피사체를 포함하는 입력 화상을 촬상하는 촬상 장치 등으로 이루어지고, 촬상에 의해 얻어진 입력 화상이, 휘도 정보 추출부(21) 내지 움직임 정보 추출부(25) 및 피사체 영역 특정부(27)에 공급된다. 이 입력 화상은, Y(휘도) 성분, Cr(색차) 성분 및 Cb(색차) 성분으로 이루어지는 영상 신호로 된다.
휘도 정보 추출부(21) 내지 움직임 정보 추출부(25)는, 공급된 입력 화상으로부터 소정의 정보를 추출하고, 추출한 정보로 이루어지는 추출 정보 화상에 기초하여, 입력 화상의 각 영역에서의 피사체의 영역다움을 나타내는 정보 맵을 생성한다. 이들 정보 맵에 포함되는 정보는, 피사체가 포함되는 영역에 보다 많이 포함되는 특징의 특징량을 나타내는 정보로 되고, 그 정보가 입력 화상의 각 영역에 대응시켜 배열된 것이 정보 맵으로 된다. 즉, 정보 맵은, 입력 화상의 각 영역에서의 특징량을 나타내는 정보라고 할 수 있다.
여기서, 피사체란, 유저가 입력 화상을 일별한 경우에, 유저가 주목한다고 추정되는 입력 화상 상의 물체, 즉 유저가 관심을 갖는다고 추정되는 물체를 의미한다. 따라서, 피사체는 반드시 사람에게 한정되는 것은 아니다. 또한, 휘도 정보 추출부(21) 내지 움직임 정보 추출부(25)에서는, 정보 맵으로서, 휘도 정보 맵, 색 정보 맵, 에지 정보 맵, 얼굴 정보 맵 및 움직임 정보 맵이 생성된다.
구체적으로는, 휘도 정보 추출부(21)는, 공급된 입력 화상의 Y(휘도) 성분으로 이루어지는 휘도 화상을 추출 정보 화상으로서 휘도 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다. 색 정보 추출부(22)는, 공급된 입력 화상의 Cr 성분으로 이루어지는 Cr 화상 및 Cb 성분으로 이루어지는 Cb 화상을 추출 정보 화상으로서 색 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다.
에지 정보 추출부(23)는, 공급된 입력 화상의 각 영역의 에지 강도로 이루어지는 에지 화상을 추출 정보 화상으로서 에지 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다. 얼굴 정보 추출부(24)는, 공급된 입력 화상의 각 영역에서의, 피사체로서의 사람의 얼굴에 관한 정보로 이루어지는 화상을 추출 정보 화상으로서 얼굴 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다. 움직임 정보 추출부(25)는, 공급된 입력 화상의 각 영역에서의, 움직임에 관한 정보로 이루어지는 화상을 추출 정보 화상으로서 움직임 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다.
피사체 맵 생성부(26)는, 휘도 정보 추출부(21) 내지 움직임 정보 추출부(25)로부터 공급된 정보 맵을 추가하여 피사체 맵을 생성하여, 피사체 영역 특정부(27)에 공급한다. 이 피사체 맵은, 입력 화상에서의 피사체가 포함되는 영역을 특정하기 위한 정보이다.
피사체 영역 특정부(27)는, 피사체 맵 생성부(26)로부터의 피사체 맵을 사용하여, 공급된 입력 화상 상의 피사체의 영역을 특정하고, 그 특정 결과를 출력한다.
[휘도 정보 추출부의 구성]
이어서, 도 1의 휘도 정보 추출부(21) 내지 움직임 정보 추출부(25)의 보다 상세한 구성에 대하여 설명한다.
도 2는, 휘도 정보 추출부(21)의 구성예를 도시하는 블록도이다.
휘도 정보 추출부(21)는, 피라미드 화상 생성부(51), 차분 산출부(52), 가중치 부여 가산부(53) 및 정규화부(54)로 구성된다.
피라미드 화상 생성부(51)는, 공급된 입력 화상의 Y 성분으로 이루어지는 화상을 휘도 화상으로 하고, 휘도 화상을 사용하여, 서로 해상도가 상이한 복수의 휘도 화상을 생성하여, 그들의 휘도 화상을 휘도의 피라미드 화상으로서 차분 산출부(52)에 공급한다. 여기서, 입력 화상으로 생성되는 휘도 화상의 화소의 화소값은, 그 화소와 동일 위치에 있는 입력 화상의 화소의 Y 성분의 값으로 된다.
또한, 예를 들어, 도 3에 도시한 바와 같이, 레벨 L1 내지 레벨 L7까지의 7개의 해상도의 계층의 피라미드 화상 L1 내지 피라미드 화상 L7이 생성된다. 또한, 레벨 L1의 피라미드 화상 L1이 가장 해상도가 높고, 레벨 L1부터 레벨 L7까지 순서대로 피라미드 화상의 해상도가 낮아지도록 된다. 이 경우, 입력 화상의 Y 성분으로 이루어지는, 입력 화상과 동일한 해상도(화소수)의 휘도 화상이, 레벨 L1의 피라미드 화상 L1로 된다.
또한, 도 4에 도시한 바와 같이, 레벨 Li(단, 1≤i≤6)의 피라미드 화상 Li의 서로 인접하는 화소의 화소값의 평균값을 구함으로써, 레벨 L(i+1)의 피라미드 화상 L(i+1)이 생성된다.
즉, 피라미드 화상 Li가 도면 중, 가로 방향으로 절반의 화소수가 되도록 다운 컨버트되고, 그 결과 얻어진 화상이 화상 Li'로 된다. 예를 들어, 피라미드 화상 Li의 가로 방향으로 서로 인접하는 화소 g1 및 화소 g2의 화소값의 평균값이, 화상 Li'의 화소 g3의 화소값으로 된다.
그리고, 또한 화상 Li'가 도면 중, 세로 방향으로 절반의 화소수가 되도록 다운 컨버트되고, 그 결과 얻어진 화상이 레벨 L(i+1)의 피라미드 화상 L(i+1)로 된다. 예를 들어, 화상 Li'의 세로 방향으로 서로 인접하는 화소 g3 및 화소 g4의 화소값의 평균값이, 피라미드 화상 L(i+1)의 화소 g5의 화소값으로 된다.
도 2의 휘도 정보 추출부(21)의 설명으로 되돌아가, 차분 산출부(52)는, 피라미드 화상 생성부(51)로부터 공급된 각 계층의 피라미드 화상 중, 서로 계층이 상이한 2개의 피라미드 화상을 선택하고, 선택한 피라미드 화상의 차분을 구하여 휘도의 차분 화상을 생성한다.
또한, 각 계층의 피라미드 화상은, 각각 크기(화소수)가 다르기 때문에, 차분 화상의 생성 시에는 더 작은 쪽의 피라미드 화상이, 더 큰 피라미드 화상에 맞추어 업 컨버트된다.
차분 산출부(52)는, 미리 정해진 수만큼 휘도의 차분 화상을 생성하면, 생성한 그들의 차분 화상을 가중치 부여 가산부(53)에 공급한다.
가중치 부여 가산부(53)는, 차분 산출부(52)로부터 공급된 차분 화상을 가중치 부여 가산하여 휘도 정보 맵을 생성하여, 정규화부(54)에 공급한다. 정규화부(54)는, 가중치 부여 가산부(53)로부터의 휘도 정보 맵을 정규화하여 피사체 맵 생성부(26)에 공급한다.
[색 정보 추출부의 구성]
도 5는, 색 정보 추출부(22)의 구성예를 도시하는 블록도이다.
색 정보 추출부(22)는, 피라미드 화상 생성부(81), 피라미드 화상 생성부(82), 차분 산출부(83), 차분 산출부(84), 가중치 부여 가산부(85), 가중치 부여 가산부(86), 정규화부(87) 및 정규화부(88)로 구성된다.
피라미드 화상 생성부(81)는, 공급된 입력 화상의 Cr 성분으로 이루어지는 화상을 Cr 화상으로 하고, 피라미드 화상 생성부(82)는 공급된 입력 화상의 Cb 성분으로 이루어지는 화상을 Cb 화상으로 한다. 여기서, Cr 화상 및 Cb 화상의 화소의 화소값은, 그 화소와 동일 위치에 있는 입력 화상의 화소의 Cr 성분 및 Cb 성분의 값으로 된다.
피라미드 화상 생성부(81) 및 피라미드 화상 생성부(82)는, Cr 화상 및 Cb 화상을 사용하여, 서로 해상도가 상이한 복수의 Cr 화상 및 Cb 화상을 생성한다. 그리고, 피라미드 화상 생성부(81) 및 피라미드 화상 생성부(82)는, 생성한 그들의 Cr 화상 및 Cb 화상을, Cr의 피라미드 화상 및 Cb의 피라미드 화상으로서 차분 산출부(83) 및 차분 산출부(84)에 공급한다.
예를 들어, Cr의 피라미드 화상 및 Cb의 피라미드 화상으로서, 휘도의 피라미드 화상의 경우와 마찬가지로, 각각 레벨 L1 내지 레벨 L7까지의 7개의 해상도의 계층의 피라미드 화상이 생성된다.
차분 산출부(83) 및 차분 산출부(84)는, 피라미드 화상 생성부(81) 및 피라미드 화상 생성부(82)로부터의 복수의 피라미드 화상 중, 서로 계층이 상이한 2개의 피라미드 화상을 선택하고, 선택한 피라미드 화상의 차분을 구하여 Cr의 차분 화상 및 Cb의 차분 화상을 생성한다.
또한, 각 계층의 피라미드 화상은, 각각 크기가 다르기 때문에, 차분 화상의 생성 시에는 더 작은 쪽의 피라미드 화상이 업 컨버트되어, 더 큰 쪽의 피라미드 화상과 동일한 크기로 된다.
차분 산출부(83) 및 차분 산출부(84)는, 미리 정해진 수만큼 Cr의 차분 화상 및 Cb의 차분 화상을 생성하면, 생성한 그들의 차분 화상을 가중치 부여 가산부(85) 및 가중치 부여 가산부(86)에 공급한다.
가중치 부여 가산부(85) 및 가중치 부여 가산부(86)는, 차분 산출부(83) 및 차분 산출부(84)로부터 공급된 차분 화상을 가중치 부여 가산하고, Cr의 색 정보 맵 및 Cb의 색 정보 맵을 생성하여, 정규화부(87) 및 정규화부(88)에 공급한다. 정규화부(87) 및 정규화부(88)는, 가중치 부여 가산부(85) 및 가중치 부여 가산부(86)로부터의 색 정보 맵을 정규화하여 피사체 맵 생성부(26)에 공급한다.
[에지 정보 추출부의 구성]
도 6은, 에지 정보 추출부(23)의 구성예를 도시하는 블록도이다.
에지 정보 추출부(23)는, 에지 화상 생성부(111) 내지 에지 화상 생성부(114), 피라미드 화상 생성부(115) 내지 피라미드 화상 생성부(118), 차분 산출부(119) 내지 차분 산출부(122), 가중치 부여 가산부(123) 내지 가중치 부여 가산부(126) 및 정규화부(127) 내지 정규화부(130)로 구성된다.
에지 화상 생성부(111) 내지 에지 화상 생성부(114)는, 공급된 입력 화상에 대하여, 필터 처리를 실시하여, 예를 들어 0도, 45도, 90도 및 135도 방향의 에지 강도를 화소의 화소값으로 하는 에지 화상을, 추출 정보 화상으로서 생성한다.
예를 들어, 에지 화상 생성부(111)에 의해 생성되는 에지 화상의 화소의 화소값은, 그 화소와 동일 위치에 있는 입력 화상의 화소에 있어서의 0도 방향의 에지 강도를 나타내고 있다. 또한, 각 에지의 방향이란, 입력 화상 상의 소정의 방향을 기준으로 하여 정해진 방향을 의미한다.
에지 화상 생성부(111) 내지 에지 화상 생성부(114)는, 생성한 에지 화상을, 피라미드 화상 생성부(115) 내지 피라미드 화상 생성부(118)에 공급한다.
피라미드 화상 생성부(115) 내지 피라미드 화상 생성부(118)는, 에지 화상 생성부(111) 내지 에지 화상 생성부(114)로부터 공급된 에지 화상을 사용하여, 서로 해상도가 상이한 복수의 에지 화상을 생성한다. 그리고, 피라미드 화상 생성부(115) 내지 피라미드 화상 생성부(118)는, 생성한 그들 각 방향의 에지 화상을, 에지의 각 방향의 피라미드 화상으로서 차분 산출부(119) 내지 차분 산출부(122)에 공급한다.
예를 들어, 에지의 각 방향의 피라미드 화상으로서, 휘도의 피라미드 화상의 경우와 마찬가지로, 각각 레벨 L1 내지 레벨 L7까지의 7개의 계층의 피라미드 화상이 생성된다.
차분 산출부(119) 내지 차분 산출부(122)는, 피라미드 화상 생성부(115) 내지 피라미드 화상 생성부(118)로부터의 복수의 피라미드 화상 중, 서로 계층이 상이한 2개의 피라미드 화상을 선택하고, 선택한 피라미드 화상의 차분을 구하여 에지의 각 방향의 차분 화상을 생성한다.
또한, 각 계층의 피라미드 화상은, 각각 크기가 다르기 때문에, 차분 화상의 생성 시에는 더 작은 쪽의 피라미드 화상이 업 컨버트되어, 더 큰 쪽의 피라미드 화상과 동일한 크기로 된다.
차분 산출부(119) 내지 차분 산출부(122)는, 미리 정해진 수만큼 에지의 각 방향의 차분 화상을 생성하면, 생성한 그들의 차분 화상을 가중치 부여 가산부(123) 내지 가중치 부여 가산부(126)에 공급한다.
가중치 부여 가산부(123) 내지 가중치 부여 가산부(126)는, 차분 산출부(119) 내지 차분 산출부(122)로부터 공급된 차분 화상을 가중치 부여 가산하고, 각 방향의 에지 정보 맵을 생성하여, 정규화부(127) 내지 정규화부(130)에 공급한다. 정규화부(127) 내지 정규화부(130)는, 가중치 부여 가산부(123) 내지 가중치 부여 가산부(126)로부터의 에지 정보 맵을 정규화하여 피사체 맵 생성부(26)에 공급한다.
[얼굴 정보 추출부의 구성]
도 7은, 얼굴 정보 추출부(24)의 구성예를 도시하는 블록도이다.
얼굴 정보 추출부(24)는, 얼굴 검출부(161), 얼굴 정보 맵 생성부(162) 및 정규화부(163)로 구성된다.
얼굴 검출부(161)는, 공급된 입력 화상으로부터 피사체로서의 사람의 얼굴의 영역을 검출하고, 그 검출 결과를 추출 정보 화상으로서 얼굴 정보 맵 생성부(162)에 공급한다. 얼굴 정보 맵 생성부(162)는, 얼굴 검출부(161)로부터의 검출 결과에 기초하여 얼굴 정보 맵을 생성하여, 정규화부(163)에 공급한다. 정규화부(163)는, 얼굴 정보 맵 생성부(162)로부터 공급된 얼굴 정보 맵을 정규화하여 피사체 맵 생성부(26)에 공급한다.
[움직임 정보 추출부의 구성]
도 8은, 움직임 정보 추출부(25)의 구성예를 도시하는 블록도이다.
움직임 정보 추출부(25)는, 로컬 모션 벡터 추출부(191), 글로벌 모션 벡터 추출부(192), 차분 산출부(193) 및 정규화부(194)로 구성된다.
로컬 모션 벡터 추출부(191)는, 공급된 입력 화상과, 그 입력 화상과는 촬상 시각이 상이한 다른 입력 화상을 사용하여, 입력 화상의 각 화소의 움직임 벡터를 로컬 모션 벡터로서 검출하여, 차분 산출부(193)에 공급한다.
글로벌 모션 벡터 추출부(192)는, 공급된 입력 화상과, 그 입력 화상과는 촬상 시각이 상이한 다른 입력 화상을 사용하여, 글로벌 모션 벡터를 검출하여, 차분 산출부(193)에 공급한다. 이 글로벌 모션 벡터는, 입력 화상 전체의 움직임의 방향을 나타내고 있는데, 예를 들어, 입력 화상의 각 화소의 움직임 벡터의 평균값으로 된다.
차분 산출부(193)는, 로컬 모션 벡터 추출부(191)로부터의 로컬 모션 벡터와, 글로벌 모션 벡터 추출부(192)로부터의 글로벌 모션 벡터의 차분의 절대값을 구하여 움직임의 차분 화상을 생성하여, 정규화부(194)에 공급한다.
여기서, 움직임의 차분 화상에서의 화소의 화소값은, 그 화소와 동일 위치에 있는 입력 화상의 화소의 로컬 모션 벡터와, 입력 화상 전체의 글로벌 모션 벡터의 차분의 절대값으로 된다. 따라서, 움직임의 차분 화상의 화소의 화소값은, 입력 화상의 화소에 표시되는 물체(또는 배경)의 입력 화상 전체에 대한, 즉 배경에 대한 상대적인 움직임량을 나타내고 있다.
정규화부(194)는, 차분 산출부(193)로부터의 움직임의 차분 화상을 정규화함으로써, 움직임 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다. 또한, 더욱 상세하게는, 움직임 정보 맵의 생성은, 입력 화상으로서, 시간적으로 연속하여 촬상된 것이 공급된 경우, 예를 들어, 입력 화상이 연사된 것이나, 동화상인 경우에 행해진다.
[피사체 영역 특정 처리의 설명]
그런데, 화상 처리 장치(11)에 입력 화상이 공급되면, 화상 처리 장치(11)는 피사체 영역 특정 처리를 개시하여, 입력 화상에서의 피사체의 영역을 특정하고, 그 특정 결과를 출력한다. 이하, 도 9의 흐름도를 참조하여, 피사체 영역 특정 처리에 대하여 설명한다.
스텝 S11에 있어서, 휘도 정보 추출부(21)는, 휘도 정보 추출 처리를 행하여, 공급된 입력 화상에 기초하여 휘도 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다. 그리고, 스텝 S12에 있어서, 색 정보 추출부(22)는, 색 정보 추출 처리를 행하여, 공급된 입력 화상에 기초하여 색 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다.
스텝 S13에 있어서, 에지 정보 추출부(23)는, 에지 정보 추출 처리를 행하여, 공급된 입력 화상에 기초하여 에지 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다. 또한, 스텝 S14에 있어서, 얼굴 정보 추출부(24)는, 얼굴 정보 추출 처리를 행하여, 공급된 입력 화상에 기초하여 얼굴 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다. 또한, 스텝 S15에 있어서, 움직임 정보 추출부(25)는, 움직임 정보 추출 처리를 행하여, 공급된 입력 화상에 기초하여 움직임 정보 맵을 생성하여, 피사체 맵 생성부(26)에 공급한다.
또한, 이들의 휘도 정보 추출 처리, 색 정보 추출 처리, 에지 정보 추출 처리, 얼굴 정보 추출 처리 및 움직임 정보 추출 처리의 상세한 것은 후술한다. 또한, 더욱 상세하게는, 움직임 정보 추출 처리는, 시간적으로 연속하여 촬상된 입력 화상이, 움직임 정보 추출부(25)에 공급되지 않은 경우에는 행해지지 않는다.
스텝 S16에 있어서, 피사체 맵 생성부(26)는, 휘도 정보 추출부(21) 내지 움직임 정보 추출부(25)로부터 공급된 휘도 정보 맵 내지 움직임 정보 맵을 가중치 부여 가산하여 피사체 맵을 생성하여, 피사체 영역 특정부(27)에 공급한다.
예를 들어, 피사체 맵 생성부(26)는, 정보 맵마다 미리 구해져 있는 가중치인, 정보 가중치 Wb를 사용하여 각 정보 맵을 선형 결합한다. 즉, 선형 결합에 의해 얻어지는 정보 맵의 소정의 화소를 주목 화소로 하면, 주목 화소의 화소값은, 주목 화소와 동일 위치에 있는 각 정보 맵의 화소의 화소값에, 정보 맵마다의 정보 가중치 Wb를 승산하여 얻어진 값의 총합으로 된다.
이어서, 피사체 맵 생성부(26)는, 선형 결합에 의해 얻어진 정보 맵(이하, 선형 결합 정보 맵이라고도 칭한다)의 각 화소의 화소값에, 시그모이드 함수에 의한 연산 처리를 실시한다.
보다 상세하게는, 피사체 맵 생성부(26)는, 시그모이드 함수를 테이블화하여 얻어진 변환 테이블을 미리 유지하고 있다. 이 변환 테이블은, 입력으로서의 소정의 값과, 그 값을 시그모이드 함수에 대입하여 얻어지는 출력값으로 이루어지고, 변환 테이블에 의해 선형 결합 정보 맵을 변환하면, 시그모이드 함수에 의해 선형 결합 정보 맵을 변환한 경우와 마찬가지의 정보 맵이 얻어진다.
예를 들어, 시그모이드 함수는, 다음 수학식 1에 표현되는 쌍곡선 여현 함수(하이퍼볼릭 탄젠트 함수)로 된다.
<수학식 1>
f(x)=a×tanh(x×b)
또한, 수학식 1에 있어서, a 및 b는 미리 정해진 상수를 나타내고 있으며, x는, 앞으로 변환하고자 하는 선형 결합 정보 맵의 화소의 화소값으로 된다.
이러한 쌍곡선 여현 함수가 시그모이드 함수로 된 경우, 변환 테이블은, 입력값 x의 범위를 -2부터 2까지의 범위로 제한하여, 입력값 x를 1/128단위로 이산화하여 얻어진 테이블로 된다. 이러한 변환 테이블에서는, 입력값 x가 -2보다 작은 경우에는 그 입력값 x가 -2로서 취급되고, 입력값 x가 2보다 큰 경우에는 그 입력값 x가 2로서 취급된다. 또한, 변환 테이블에서는 입력값 x가 커질수록 출력값 f(x)가 커진다.
피사체 맵 생성부(26)는, 선형 결합 정보 맵의 화소의 화소값을, 그 화소값 x(입력값 x)로부터, 화소값 x에 대응하는 출력값 f(x)로 변경함으로써, 선형 결합 정보 맵을 변환한다. 즉, 피사체 맵 생성부(26)는, 변환 테이블을 사용하여 변환된 선형 결합 정보 맵을, 시그모이드 함수에 의한 연산 처리가 실시된 선형 결합 정보 맵으로 한다.
이와 같이, 변환 테이블을 사용하여 선형 결합 정보 맵을 변환함으로써, 시그모이드 함수 자체를 사용하여 변환하는 경우에 비하여, 더욱 간단하고 신속하게 선형 결합 정보 맵의 변환을 행할 수 있다.
또한, 피사체 맵 생성부(26)는, 변환 테이블에 의해 변환된 선형 결합 정보 맵의 각 화소의 화소값에 화소마다 미리 구해진 가중치인, 피사체 가중치 Wc를 승산하여, 피사체 맵으로 한다.
즉, 앞으로 구하고자 하는 피사체 맵 상의 주목하는 화소를 주목 화소로 하면, 변환된 선형 결합 정보 맵의 주목 화소와 동일 위치의 화소의 화소값에, 피사체 가중치 Wc가 승산된 값이, 주목 화소의 화소값으로 된다.
또한, 더욱 상세하게는, 피사체 맵의 생성에 사용되는 색 정보 맵으로서, Cr의 색 정보 맵과, Cb의 색 정보 맵이 사용되고, 에지 정보 맵으로서, 0도, 45도, 90도, 135도 각각의 방향의 에지 정보 맵이 사용된다. 또한, 정보 가중치 Wb 및 피사체 가중치 Wc는, 미리 학습에 의해 구해져 있다.
이와 같이 하여 피사체 맵이 생성되면, 피사체 맵은, 피사체 맵 생성부(26)로부터 피사체 영역 특정부(27)에 공급되고, 처리는 스텝 S17로 진행된다.
스텝 S17에 있어서, 피사체 영역 특정부(27)는, 피사체 맵 생성부(26)로부터 공급된 피사체 맵을 사용하여, 공급된 입력 화상 상의 피사체의 영역을 특정한다.
예를 들어, 피사체 맵의 화소의 화소값이 클수록, 그 화소와 동일 위치의 입력 화상의 화소의 영역이, 피사체의 영역다움으로 되는 것으로 한다. 이 경우, 피사체 영역 특정부(27)는, 피사체 맵 상에 있어서, 미리 정해진 임계값 이상의 화소값을 갖는 서로 인접하는 화소로 이루어지고, 소정의 면적(화소수) 이상의 영역을 검출하고, 검출된 영역에 대응하는 입력 화상 상의 영역이 피사체가 포함되는 영역으로 한다.
피사체 영역 특정부(27)는, 입력 화상 상의 피사체가 포함되는 영역을 검출하면, 그 검출 결과를 후단에 출력하고, 피사체 영역 특정 처리는 종료된다.
이와 같이 하여 얻어진 피사체의 영역의 검출 결과는, 입력 화상의 피사체의 영역에 소정의 화상 처리를 실시하거나 하여, 각종 처리에 사용된다. 또한, 피사체의 영역의 특정 결과는, 예를 들어, 입력 화상을 슬라이드 쇼 표시할 때에 입력 화상의 피사체의 영역을 화면의 중앙에 표시시키는 화상 처리 등에 이용되어도 좋다.
또한, 피사체 영역 특정부(27)가, 피사체의 영역의 검출 결과를 사용하여, 입력 화상에 소정의 처리를 실시하여 출력하도록 해도 좋다.
이상과 같이 하여, 화상 처리 장치(11)는, 입력 화상으로부터 피사체 맵을 생성하고, 피사체 맵을 사용하여, 입력 화상에서의 피사체의 영역을 특정한다.
[휘도 정보 추출 처리의 설명]
이어서, 도 9의 스텝 S11 내지 스텝 S15의 처리 각각에 대응하는 처리에 대하여 설명한다.
우선, 도 10의 흐름도를 참조하여, 도 9의 스텝 S11의 처리에 대응하는 휘도 정보 추출 처리에 대하여 설명한다.
스텝 S41에 있어서, 피라미드 화상 생성부(51)는, 공급된 입력 화상의 Y(휘도) 성분으로 이루어지는 휘도 화상에 기초하여, 레벨 L1 내지 레벨 L7의 각 계층의 피라미드 화상을 생성하여, 차분 산출부(52)에 공급한다.
종래의 비주얼 어텐션에서는, 8개의 계층의 피라미드 화상이 생성되어 있었지만, 화상 처리 장치(11)에서는 7개의 계층의 피라미드 화상이 생성되기 때문에, 피라미드 화상의 생성 매수가 1매 삭감되게 된다. 따라서, 종래보다 더욱 간단하고 신속하게 휘도 정보 맵을 얻을 수 있게 된다.
또한, 피라미드 화상의 계층수를 7로 해도, 피사체 맵에 의한 피사체의 영역의 특정 정밀도에 영향이 없는 것이 출원인에 의해 확인되고 있으며, 화상 처리 장치(11)에 의하면, 피사체의 영역의 특정 정밀도를 저하시키지 않고, 보다 신속하게 피사체 맵을 얻을 수 있다.
또한, 종래의 비주얼 어텐션에서는, 입력 화상의 R, G 및 B의 각 성분의 평균값을 구함으로써, 휘도 화상의 생성이 행해지고 있었다. 이에 대해, 화상 처리 장치(11)에서는 입력 화상의 Y(휘도) 성분을 그대로 휘도 화상으로 함으로써, 더욱 간단하고 신속하게 휘도 화상을 얻을 수 있다. 또한, 이에 의해, 휘도 화상을 생성하기 위한 회로를 설치할 필요가 없어져, 화상 처리 장치(11)의 소형화를 도모할 수 있다.
스텝 S42에 있어서, 차분 산출부(52)는, 피라미드 화상 생성부(51)로부터 공급된 피라미드 화상을 사용하여 차분 화상을 생성하여, 가중치 부여 가산부(53)에 공급한다.
구체적으로는, 차분 산출부(52)는, 각 계층의 휘도의 피라미드 화상 중, 레벨 L2 및 레벨 L5, 레벨 L2 및 레벨 L6, 레벨 L3 및 레벨 L6, 레벨 L3 및 레벨 L7, 및 레벨 L4 및 레벨 L7의 각 계층의 조합의 피라미드 화상의 차분을 구한다. 이에 의해, 합계 5개의 휘도의 차분 화상이 얻어진다.
예를 들어, 레벨 L2 및 레벨 L5의 조합의 차분 화상이 생성되는 경우, 레벨 L5의 피라미드 화상이, 레벨 L2의 피라미드 화상의 크기에 맞추어 업 컨버트된다.
즉, 업 컨버트 전의 레벨 L5의 피라미드 화상의 1개의 화소의 화소값이, 그 화소에 대응하는, 업 컨버트 후의 레벨 L5의 피라미드 화상의 서로 인접하는 몇개의 화소의 화소값으로 된다. 그리고, 레벨 L5의 피라미드 화상의 화소의 화소값과, 그 화소와 동일 위치에 있는 레벨 L2의 피라미드 화상의 화소의 화소값의 차분이 구해져, 그 차분이 차분 화상의 화소의 화소값으로 된다.
이들의 차분 화상을 생성하는 처리는, 휘도 화상에 밴드 패스 필터를 사용한 필터 처리를 실시하여, 휘도 화상으로부터 소정의 주파수 성분을 추출하는 것과 등가이다. 이와 같이 하여 얻어진 차분 화상의 화소의 화소값은, 각 레벨의 피라미드 화상의 화소값의 차, 즉 입력 화상에서의 소정의 화소에 있어서의 휘도와, 그 화소 주위의 평균적인 휘도의 차분을 나타내고 있다.
일반적으로, 화상에서 주위와의 휘도의 차분이 큰 영역은, 그 화상을 보는 사람의 눈을 끄는 영역이므로, 그 영역은 피사체의 영역일 가능성이 높다. 따라서, 각 차분 화상에서, 더 화소값이 큰 화소가, 보다 피사체의 영역일 가능성이 높은 영역인 것을 나타내고 있다고 할 수 있다.
스텝 S43에 있어서, 가중치 부여 가산부(53)는, 차분 산출부(52)로부터 공급된 차분 화상에 기초하여 휘도 정보 맵을 생성하여, 정규화부(54)에 공급한다.
예를 들어, 가중치 부여 가산부(53)는, 공급된 5개의 차분 화상을, 미리 구해진 차분 화상마다의 가중치인 차분 가중치 Wa에 의해 가중치 부여 가산하여, 휘도 정보 맵을 생성한다. 즉, 각 차분 화상의 동일 위치에 있는 화소의 화소값 각각에 차분 가중치 Wa가 승산되어, 차분 가중치 Wa가 승산된 화소값의 총합이 구해진다.
또한, 휘도 정보 맵의 생성 시에 있어서, 각 차분 화상이 동일한 크기로 되도록 차분 화상의 업 컨버트가 행해진다. 또한, 차분 가중치 Wa는 미리 학습에 의해 구해진 것으로 된다.
이어서, 가중치 부여 가산부(53)는, 얻어진 휘도 정보 맵의 화소의 화소값을, 피사체 맵 생성부(26)가 유지하고 있는 변환 테이블과 동일한 변환 테이블을 사용하여 변환하고, 그 결과 얻어진 휘도 정보 맵을 정규화부(54)에 공급한다.
가중치 부여 가산부(53)에 있어서도, 변환 테이블을 사용하여 휘도 정보 맵을 변환함으로써, 더욱 간단하고 신속하게 변환을 행할 수 있다.
스텝 S44에 있어서, 정규화부(54)는 가중치 부여 가산부(53)로부터의 휘도 정보 맵을 정규화하고, 그 결과 얻어진 휘도 정보 맵을 최종적인 휘도 정보 맵으로서 피사체 맵 생성부(26)에 공급한다. 그리고, 휘도 정보 맵이 출력되면, 휘도 정보 추출 처리는 종료되고, 그 후 처리는 도 9의 스텝 S12로 진행된다.
예를 들어, 우선 정규화부(54)는, 휘도 정보 맵을 선형 정규화한다. 예를 들어, 휘도 정보 맵의 화소값의 범위가 0부터 200까지의 범위인 경우, 선형 정규화에 의해, 화소값의 범위가 0부터 255까지의 범위가 되게 된다.
이어서, 정규화부(54)는, 선형 정규화된 휘도 정보 맵의 각 화소의 화소값의 평균값을 구한다. 즉, 휘도 정보 맵의 모든 화소의 화소값의 합계값이, 휘도 정보 맵의 화소수로 제산되어 평균값이 구해진다.
또한, 정규화부(54)는, 선형 정규화된 휘도 정보 맵의 각 화소의 화소값으로부터 구한 평균값을 감산한 값을 최종적인 휘도 정보 맵의 화소의 화소값으로 한다.
또한, 더욱 상세하게는, 화소값으로부터 평균값을 감산한 값이 음의 값(0 미만의 값)이 되는 휘도 정보 맵의 화소에 대해서는, 그 화소의 화소값은 0으로 된다. 즉, 선형 정규화된 휘도 정보 맵의 화소 중, 화소값이 평균값 이하인 화소는 최종적인 화소값이 0으로 된다.
여기서, 휘도 정보 맵에 포함되는 노이즈의 값은, 휘도 정보 맵의 각 화소의 평균값 이하인 것이 대부분이기 때문에, 각 화소의 화소값으로부터 평균값을 감산함으로써 휘도 정보 맵으로부터 확실하게 노이즈가 제거된다. 이것은, 노이즈 부분의 화소의 화소값이 0으로 되기 때문이다. 또한, 선형 정규화된 휘도 정보 맵에 있어서, 입력 화상 상의 피사체의 영역과 동일 위치의 화소의 화소값은, 평균값보다 큰 경우가 대부분이기 때문에, 휘도 정보 맵의 화소값으로부터 평균값을 감산하여 정규화해도 피사체의 검출 정밀도가 저하되는 일도 없다.
이와 같이, 휘도 정보 맵을 선형 정규화하고, 선형 정규화 후의 휘도 정보 맵의 화소값으로부터 평균값을 감산함으로써, 휘도 정보 맵을 더욱 간단하고 신속하게 정규화할 수 있다. 특히, 휘도 정보 추출 처리부(21)에 의하면, 선형 정규화와 평균값의 계산 및 감산이라는 간단한 처리에 의해, DOG 필터를 사용한 경우와 동일한 정도의 노이즈 제거 효과를 얻을 수 있다.
즉, 종래, 정보 맵의 정규화는, DOG 필터를 사용한 필터 처리에 의해 행해지고 있었지만, 이 필터 처리는 처리량이 많아, 신속히 정규화를 행할 수 없었다. 이에 대해, 정규화부(54)에서는 DOG 필터를 사용한 경우에 비하여, 보다 간단한 처리로 보다 신속하게 휘도 정보 맵을 정규화할 수 있다. 게다가, 정규화에 의해, 휘도 정보 맵으로부터 더 확실하게 노이즈를 제거할 수 있어, 피사체의 영역의 검출 정밀도도 저하하지 않는다.
이상과 같이 하여, 휘도 정보 추출부(21)는 입력 화상으로부터 휘도 정보 맵을 생성한다. 이와 같이 하여 얻어진 휘도 정보 맵에 의하면, 입력 화상에서 휘도의 차가 큰 영역, 즉 입력 화상을 일별한 관찰자의 눈에 뜨이기 쉬운 영역을 간단하게 검출할 수 있다.
[색 정보 추출 처리의 설명]
이어서, 도 11의 흐름도를 참조하여, 도 9의 스텝 S12의 처리에 대응하는 색 정보 추출 처리에 대하여 설명한다.
스텝 S71에 있어서, 피라미드 화상 생성부(81) 및 피라미드 화상 생성부(82)는 공급된 입력 화상의 색차 성분으로 이루어지는 Cr 화상 및 Cb 화상에 기초하여, 레벨 L1 내지 레벨 L7의 각 계층의 피라미드 화상을 생성한다. 즉, 도 3 및 도 4를 참조하여 설명한 처리와 마찬가지의 처리가 행해져, Cr의 피라미드 화상 및 Cb의 피라미드 화상이 생성된다.
피라미드 화상 생성부(81) 및 피라미드 화상 생성부(82)는, 생성한 피라미드 화상을 차분 산출부(83) 및 차분 산출부(84)에 공급한다.
이와 같이, 색 정보 추출부(22)에 있어서도, 휘도 정보 추출부(21)에 있어서의 경우와 마찬가지로, 7개의 계층의 피라미드 화상을 생성하면 되기 때문에, 종래보다 더욱 간단하고 신속하게 색 정보 맵을 얻을 수 있게 된다.
또한, 종래의 비주얼 어텐션에서는 색 정보로서, 입력 화상의 화소의 R과 G의 성분의 차분 및 B와 Y(황색)의 성분의 차분이 추출되고 있었기 때문에, 그들의 차분을 구할 처리가 필요했다.
이에 대해, 화상 처리 장치(11)에서는, 입력 화상의 색차 성분을 그대로 Cr 화상 및 Cb 화상으로 함으로써, 더욱 간단하고 신속하게 색에 관한 추출 정보 화상을 얻을 수 있다. 또한, 이에 의해, 차분을 구하기 위한 회로를 설치할 필요가 없어져, 화상 처리 장치(11)의 소형화를 도모할 수 있다.
스텝 S72에 있어서, 차분 산출부(83) 및 차분 산출부(84)는 피라미드 화상 생성부(81) 및 피라미드 화상 생성부(82)로부터 공급된 피라미드 화상에 기초하여 차분 화상을 생성하여, 가중치 부여 가산부(85) 및 가중치 부여 가산부(86)에 공급한다.
예를 들어, 차분 산출부(83)는, 각 계층의 Cr의 피라미드 화상 중 레벨 L2 및 레벨 L5, 레벨 L2 및 레벨 L6, 레벨 L3 및 레벨 L6, 레벨 L3 및 레벨 L7, 및 레벨 L4 및 레벨 L7의 각 계층의 조합의 피라미드 화상의 차분을 구한다. 이에 의해, 합계 5개의 Cr의 차분 화상이 얻어진다. 또한, 차분 화상의 생성 시에는 화소수가 큰 쪽의 피라미드 화상에 맞추어, 작은 쪽의 피라미드 화상이 업 컨버트된다.
또한, 차분 산출부(84)도, 차분 산출부(83)와 마찬가지의 처리를 행하여, 합계 5개의 Cb의 차분 화상을 생성한다.
이들의 차분 화상을 생성하는 처리는, Cr 화상 또는 Cb 화상에 밴드 패스 필터를 사용한 필터 처리를 실시하여, Cr 화상 또는 Cb 화상으로부터 소정의 주파수 성분을 추출하는 것과 등가이다. 이와 같이 하여 얻어진 차분 화상의 화소의 화소값은, 각 레벨의 피라미드 화상의 차, 즉 입력 화상의 화소에 있어서의 특정한 색의 성분과, 그 화소 주위의 평균적인 특정한 색의 성분의 차분을 나타내고 있다.
일반적으로, 화상에서 주위와 비교하여 두드러지는 색의 영역, 즉 특정한 색 성분 주위의 차분이 큰 영역은 그 화상을 보는 사람의 눈을 끄는 영역이므로, 그 영역은 피사체의 영역일 가능성이 높다. 따라서, 각 차분 화상에서 더 화소값이 큰 화소가, 보다 피사체의 영역일 가능성이 높은 영역인 것을 나타내고 있다고 할 수 있다.
스텝 S73에 있어서, 가중치 부여 가산부(85) 및 가중치 부여 가산부(86)는 차분 산출부(83) 및 차분 산출부(84)로부터 공급된 차분 화상에 기초하여 Cr의 색 정보 맵 및 Cb의 색 정보 맵을 생성하여, 정규화부(87) 및 정규화부(88)에 공급한다.
예를 들어, 가중치 부여 가산부(85)는, 차분 산출부(83)로부터 공급된 Cr의 차분 화상을 미리 구해진 차분 화상마다의 차분 가중치 Wa에 의해 가중치 부여 가산하여, 1개의 Cr의 색 정보 맵으로 한다. 이어서, 가중치 부여 가산부(85)는, 얻어진 Cr의 색 정보 맵의 화소의 화소값을, 피사체 맵 생성부(26)가 유지하고 있는 변환 테이블과 동일한 변환 테이블을 사용하여 변환하고, 그 결과 얻어진 색 정보 맵을 정규화부(87)에 공급한다.
마찬가지로, 가중치 부여 가산부(86)는, 차분 산출부(84)로부터 공급된 Cb의 차분 화상을, 미리 구해진 차분 가중치 Wa에 의해 가중치 부여 가산하고, 1개의 Cb의 색 정보 맵으로서 그 Cb의 색 정보 맵을, 변환 테이블을 사용하여 변환하여 정규화부(88)에 공급한다.
가중치 부여 가산부(85) 및 가중치 부여 가산부(86)에 있어서도, 변환 테이블을 사용하여 색 정보 맵을 변환함으로써, 더욱 간단하고 신속하게 변환을 행할 수 있다. 또한, 색 정보 맵의 생성 시에 있어서, 각 차분 화상이 동일한 크기로 되도록 차분 화상의 업 컨버트가 행해진다.
스텝 S74에 있어서, 정규화부(87) 및 정규화부(88)는, 가중치 부여 가산부(85) 및 가중치 부여 가산부(86)로부터의 색 정보 맵을 정규화하고, 그 결과 얻어진 색 정보 맵을 최종적인 색 정보 맵으로서 피사체 맵 생성부(26)에 공급한다. 예를 들어, 정규화부(87) 및 정규화부(88)는, 도 10의 스텝 S44의 처리와 마찬가지의 처리를 행하여, Cr의 색 정보 맵 및 Cb의 색 정보 맵을 정규화한다.
그리고, 색 정보 맵이 출력되면, 색 정보 추출 처리는 종료되고, 그 후 처리는 도 9의 스텝 S13으로 진행된다.
이와 같이, 색 정보 맵을 선형 정규화하고, 선형 정규화 후의 색 정보 맵의 화소값으로부터 평균값을 감산함으로써, 색 정보 맵을 더욱 간단하고 신속하게 정규화할 수 있다.
이와 같이 하여, 색 정보 추출부(22)는, 입력 화상으로부터 특정한 색의 성분의 화상을 추출하고, 그 화상으로부터 색 정보 맵을 생성한다. 이와 같이 하여 얻어진 색 정보 맵에 의하면, 입력 화상에서, 주위와 비교하여 특정한 색 성분이 큰 영역, 즉 입력 화상을 일별한 관찰자의 눈에 뜨이기 쉬운 영역을 간단하게 검출할 수 있다.
또한, 색 정보 추출부(22)에서는, 입력 화상으로부터 추출되는 색의 정보로서, Cr 및 Cb의 성분이 추출된다고 설명했지만, R(적색)의 성분과, G(녹색)의 성분의 차분 및 B(청색)의 성분과, Y(황색)의 성분의 차분이 추출되도록 해도 좋다.
[에지 정보 추출 처리의 설명]
이어서, 도 12의 흐름도를 참조하여, 도 9의 스텝 S13의 처리에 대응하는 에지 정보 추출 처리에 대하여 설명한다.
스텝 S111에 있어서, 에지 화상 생성부(111) 내지 에지 화상 생성부(114)는, 공급된 입력 화상에 기초하여, 0도, 45도, 90도 및 135도 방향의 에지 강도를 화소의 화소값으로 하는 에지 화상을 생성한다.
예를 들어, 에지 화상 생성부(111) 내지 에지 화상 생성부(114)는, 도 13에 도시하는 필터를 미리 유지하고 있으며, 이들의 필터를 사용하여 추출 정보 화상으로서의 에지 화상을 생성한다. 도 13의 예에서는, filter1, filter2, filter45 및 filter135 각각이 1개의 필터로 된다.
filter1에 있어서의 수치 「-1, -2, -1, 2, 4, 2, -1, -2, -1」은, 입력 화상의 화소에 승산되는 계수를 나타내고 있다.
여기서, 입력 화상에서의 소정의 방향, 예를 들어 도 4에 있어서의 도면 중 가로 방향을 x 방향으로 하고, x 방향에 수직인 방향, 즉 도 4 중 세로 방향을 y 방향이라고 칭하기로 한다.
이 경우, filter1을 사용한 필터 처리에서는 x 방향으로 연속하여 배열되는 9개의 화소의 화소값 각각에, 계수 「-1」, 「-2」, 「-1」, 「2」, 「4」, 「2」, 「-1」, 「-2」, 「-1」 각각이 승산되고, 계수가 승산된 화소값의 합이 「16」으로 제산된다. 그리고, 그 결과 얻어진 값이, 연속하여 배열되는 9개의 화소의 중심에 있는 화소에 대하여, filter1을 사용한 필터 처리를 실시하여 얻어진 화소값으로 된다.
도 13에 있어서, filter1의 계수는, 그들의 계수가 승산되는 화소와 동일 배치로 배열되어 있다. 따라서, 예를 들어, x 방향으로 배열되는 화소의 양단부에 위치하는 화소에 계수 「-1」이 승산되고, x 방향으로 배열되는 화소 중, 중심에 위치하는 화소에 계수 「4」가 승산된다.
또한, 도 13에 있어서, 다른 필터의 계수도, 그들의 계수가 승산되는 화소와 동일 배치로 배열되어 있다.
또한, filter2를 사용한 필터 처리에서는, x 방향으로 연속하여 배열되는 8개의 화소의 화소값 각각에, 계수 「1」, 「3」, 「3」, 「1」, 「1」, 「3」, 「3」, 「1」 각각이 승산되고, 계수가 승산된 화소값의 합이 「16」으로 제산된다. 그리고, 그 결과 얻어진 값이, 연속하여 배열되는 8개의 화소의 중심에 있는 화소(보다 상세하게는, 도면 중, 좌측에서 4번째 또는 5번째의 계수 「1」이 승산되는 화소)에 대하여, filter2를 사용한 필터 처리를 실시하여 얻어진 화소값으로 된다.
filter45를 사용한 필터 처리에서는, x 방향으로 3화소, y 방향으로 3화소의 합계 9화소로 이루어지는 영역 내의 화소가 사용되고, 그들의 화소의 화소값에 계수 「0」, 「1」, 「2」, 「-1」, 「0」, 「1」, 「-2」, 「-1」, 「0」이 승산된다. 그리고, 계수가 승산된 화소의 화소값의 합이 「8」로 제산되고, 그 결과 얻어진 값이, 처리 대상이 되는 영역의 중심에 위치하는 화소에 대하여, filter45를 사용한 필터 처리를 실시하여 얻어진 화소값으로 된다. 따라서, 예를 들어, 처리 대상의 영역의 중심에 위치하는 화소에는 계수 「0」이 승산되고, 그 화소의 도면 중 좌측에 인접하는 화소에는 계수 「-1」이 승산된다.
또한, filter135를 사용한 필터 처리에서는, x 방향으로 3화소, y 방향으로 3화소의 합계 9화소로 이루어지는 영역 내의 화소가 사용되고, 그들의 화소의 화소값에 계수 「2」, 「1」, 「0」, 「1」, 「0」, 「-1」, 「0」, 「-1」, 「-2」가 승산된다. 그리고, 계수가 승산된 화소의 화소값의 합이 「8」로 제산되고, 그 결과 얻어진 값이, 처리 대상이 되는 영역의 중심에 위치하는 화소에 대하여, filter135를 사용한 필터 처리를 실시하여 얻어진 화소값으로 된다.
예를 들어, 에지 화상 생성부(111)는, 입력 화상에 filter1을 사용한 필터 처리를 실시하고, 그 결과 얻어진 화상에 filter2를 더 사용한 필터 처리를 실시하여 얻어진 화상을 0도 방향의 에지 화상으로 한다. 또한, 에지 화상 생성부(112)는, 입력 화상에 filter45를 사용한 필터 처리를 실시하여 얻어진 화상을 45도 방향의 에지 화상으로 한다.
에지 화상 생성부(113)는, 입력 화상에 filter2를 사용한 필터 처리를 실시하고, 그 결과 얻어진 화상에, filter1을 더 사용한 필터 처리를 실시하여 얻어진 화상을 90도 방향의 에지 화상으로 한다. 또한, 에지 화상 생성부(114)는, 입력 화상에 filter135를 사용한 필터 처리를 실시하여 얻어진 화상을 135도 방향의 에지 화상으로 한다.
이와 같이, 에지 화상 생성부(111) 내지 에지 화상 생성부(114)는, 미리 유지하고 있는 filter1, filter2, filter45 및 filter135 중 적어도 하나를 사용하여 각 방향의 에지 화상을 생성한다. 이들의 필터는, 가버 필터를 근사하여 얻어진 필터이며, 가버 필터에 가까운 특성을 갖고 있다.
따라서, 이들의 필터를 사용함으로써, 가버 필터를 사용한 경우와 마찬가지의 각 방향의 에지 화상이 얻어진다. 게다가, 이들의 필터를 사용한 필터 처리는, 미리 정해진 소정의 계수를 사용한 가중치 부여 가산의 계산이며, 필터 처리에 지수 연산 등의 복잡한 연산이 불필요하다.
종래의 비주얼 어텐션에서는, 에지 화상을 얻기 위하여 가버 필터를 사용하고 있었지만, 화상 처리 장치(11)에서는 filter1, filter2, filter45 및 filter135를 조합하여 필터 처리를 행함으로써, 더욱 간단하고 신속하게 에지 화상을 얻을 수 있다.
또한, 에지 화상의 생성에 사용하는 필터는, 도 13에 도시한 예에 한하지 않고, Sobel Filter와 Roberts Filter를 조합한 것 등으로 되어도 좋다. 그러한 경우, 예를 들어 도 14에 도시하는 필터가 사용된다.
도 14의 예에서는, filter0, filter90, filter45 및 filter135 각각이 1개의 필터로 된다. 또한, 도 14에 있어서, 각 필터의 계수는, 그들의 계수가 승산되는 입력 화상의 화소와 동일 배치로 배열되어 있다.
filter0에 있어서의 수치 「1, 2, 1, 0, 0, 0, -1, -2, -1」은, 입력 화상의 화소에 승산되는 계수를 나타내고 있다. filter0을 사용한 필터 처리에서는, x 방향으로 3화소, y 방향으로 3화소의 합계 9화소로 이루어지는 영역 내의 화소가 사용되고, 그들의 화소의 화소값에 계수 「1」, 「2」, 「1」, 「0」, 「0」, 「0」, 「-1」, 「-2」, 「-1」이 승산된다. 그리고, 계수가 승산된 화소의 화소값의 합이 「8」로 제산되고, 그 결과 얻어진 값이, 처리 대상이 되는 영역의 중심에 위치하는 화소에 대하여, filter0을 사용한 필터 처리를 실시하여 얻어진 화소값으로 된다. 따라서, 예를 들어, 처리 대상의 영역의 중심에 위치하는 화소에는 계수 「0」이 승산되고, 그 화소의 도면 중, 상측에 인접하는 화소에는 계수 「2」가 승산된다.
마찬가지로, filter90을 사용한 필터 처리에서는, x 방향으로 3화소, y 방향으로 3화소의 합계 9화소로 이루어지는 영역 내의 화소가 사용되고, 그들의 화소의 화소값에 계수 「1」, 「0」, 「-1」, 「2」, 「0」, 「-2」, 「1」, 「0」, 「-1」이 승산된다. 그리고, 계수가 승산된 화소의 화소값의 합이 「8」로 제산되고, 그 결과 얻어진 값이 처리 대상이 되는 영역의 중심에 위치하는 화소에 대하여, filter90을 사용한 필터 처리를 실시하여 얻어진 화소값으로 된다.
또한, filter45를 사용한 필터 처리에서는 x 방향으로 2화소, y 방향으로 2화소의 합계 4화소로 이루어지는 영역 내의 화소가 사용되고, 그들의 화소의 화소값에 계수 「0」, 「1」, 「-1」, 「0」이 승산된다. 그리고, 계수가 승산된 화소의 화소값의 합이 「2」로 제산되고, 그 결과 얻어진 값이, 처리 대상이 되는 영역의 중심에 위치하는 화소(보다 상세하게는 도면 중 좌측 상단의 계수 「0」이 승산되는 화소)에 대하여, filter45를 사용한 필터 처리를 실시하여 얻어진 화소값으로 된다.
또한, filter135를 사용한 필터 처리에서는 x 방향으로 2 화소, y 방향으로 2화소의 합계 4화소로 이루어지는 영역 내의 화소가 사용되고, 그들의 화소의 화소값에 계수 「1」, 「0」, 「0」, 「-1」이 승산된다. 그리고, 계수가 승산된 화소의 화소값의 합이 「2」로 제산되고, 그 결과 얻어진 값이, 처리 대상이 되는 영역의 중심에 위치하는 화소(보다 상세하게는, 도면 중 좌측 상단의 계수 「1」이 승산되는 화소)에 대하여, filter135를 사용한 필터 처리를 실시하여 얻어진 화소값으로 된다.
예를 들어, 에지 화상 생성부(111) 내지 에지 화상 생성부(114)는, filter0, filter45, filter90 및 filter135 각각을 사용한 필터 처리를 입력 화상에 실시하고, 그 결과 얻어진 화상을 0도, 45도, 90도 및 135도 방향의 에지 화상으로 한다.
이와 같이, 도 14의 예에 있어서의 경우도, 필터 처리에 지수 연산 등의 복잡한 연산 처리가 불필요하기 때문에, 더욱 간단하고 신속하게 에지 화상을 얻을 수 있다.
도 12의 흐름도의 설명으로 되돌아가, 에지 화상 생성부(111) 내지 에지 화상 생성부(114)는, 각 방향의 에지 화상을 생성하면, 생성한 에지 화상을 피라미드 화상 생성부(115) 내지 피라미드 화상 생성부(118)에 공급한다.
스텝 S112에 있어서, 피라미드 화상 생성부(115) 내지 피라미드 화상 생성부(118)는, 에지 화상 생성부(111) 내지 에지 화상 생성부(114)로부터의 에지 화상에 기초하여, 피라미드 화상을 생성하여, 차분 산출부(119) 내지 차분 산출부(122)에 공급한다.
즉, 도 3 및 도 4를 참조하여 설명한 처리와 마찬가지의 처리가 행해져, 각 방향의 에지 화상에 대해, 레벨 L1 내지 레벨 L7의 각 계층의 피라미드 화상이 생성된다. 에지 정보 추출부(23)에 있어서도, 휘도 정보 추출부(21)에 있어서의 경우와 마찬가지로, 7개의 계층의 피라미드 화상을 생성하면 되기 때문에, 종래보다 더욱 간단하고 신속하게 에지 정보 맵을 얻을 수 있게 된다.
스텝 S113에 있어서, 차분 산출부(119) 내지 차분 산출부(122)는, 피라미드 화상 생성부(115) 내지 피라미드 화상 생성부(118)로부터 공급된 피라미드 화상에 기초하여 차분 화상을 생성하여, 가중치 부여 가산부(123) 내지 가중치 부여 가산부(126)에 공급한다.
예를 들어, 차분 산출부(119)는, 각 계층의 0도 방향의 피라미드 화상 중, 레벨 L2 및 레벨 L5, 레벨 L2 및 레벨 L6, 레벨 L3 및 레벨 L6, 레벨 L3 및 레벨 L7, 및 레벨 L4 및 레벨 L7의 각 계층의 조합의 피라미드 화상의 차분을 구한다. 이에 의해, 합계 5개의 차분 화상이 얻어진다. 또한, 차분 화상의 생성 시에는 화소수가 큰 쪽의 피라미드 화상에 맞추어, 작은 쪽의 피라미드 화상이 업 컨버트된다.
또한, 차분 산출부(120) 내지 차분 산출부(122)도, 차분 산출부(119)와 마찬가지의 처리를 행하여, 합계 5개의 차분 화상을 생성한다.
이들의 차분 화상을 생성하는 처리는, 에지 화상에 밴드 패스 필터를 사용한 필터 처리를 실시하여, 에지 화상으로부터 소정의 주파수 성분을 추출하는 것과 등가이다. 이와 같이 하여 얻어진 차분 화상의 화소의 화소값은, 각 레벨의 피라미드 화상의 에지 강도의 차, 즉 입력 화상의 소정의 위치의 에지 강도와, 그 위치 주위의 평균적인 에지 강도의 차를 나타내고 있다.
일반적으로, 화상에서 주위에 비하여 에지 강도가 강한 영역은, 그 화상을 보는 사람의 눈을 끄는 영역이므로, 그 영역은 피사체의 영역일 가능성이 높다. 따라서, 각 차분 화상에서, 더 화소값이 큰 화소가, 보다 피사체의 영역일 가능성이 높은 영역인 것을 나타내고 있다고 할 수 있다.
스텝 S114에 있어서, 가중치 부여 가산부(123) 내지 가중치 부여 가산부(126)는, 차분 산출부(119) 내지 차분 산출부(122)로부터 공급된 차분 화상에 기초하여, 0도, 45도, 90도 및 135도 방향의 에지 정보 맵을 생성한다.
예를 들어, 가중치 부여 가산부(123)는, 차분 산출부(119)로부터 공급된 0도 방향의 차분 화상을, 미리 구해진 차분 화상마다의 차분 가중치 Wa에 의해 가중치 부여 가산하여, 1개의 0도 방향의 에지 정보 맵으로 한다. 이어서, 가중치 부여 가산부(123)는, 얻어진 0도 방향의 에지 정보 맵의 화소의 화소값을, 피사체 맵 생성부(26)가 유지하고 있는 변환 테이블과 동일한 변환 테이블을 사용하여 변환하고, 그 결과 얻어진 에지 정보 맵을 정규화부(127)에 공급한다.
마찬가지로, 가중치 부여 가산부(124) 내지 가중치 부여 가산부(126)는, 차분 산출부(120) 내지 차분 산출부(122)로부터 공급된 각 방향의 차분 화상을, 미리 구해진 차분 가중치 Wa에 의해 가중치 부여 가산하여, 1개의 에지 정보 맵으로 한다. 그리고, 가중치 부여 가산부(124) 내지 가중치 부여 가산부(126)는, 얻어진 에지 맵을, 변환 테이블을 사용하여 변환하여, 정규화부(128) 내지 정규화부(130)에 공급한다.
가중치 부여 가산부(123) 내지 가중치 부여 가산부(126)에 있어서도, 변환 테이블을 사용하여 에지 정보 맵을 변환함으로써, 더욱 간단하고 신속하게 변환을 행할 수 있다. 또한, 에지 정보 맵의 생성 시에 있어서, 각 차분 화상이 동일한 크기로 되도록, 차분 화상의 업 컨버트가 행해진다.
스텝 S115에 있어서, 정규화부(127) 내지 정규화부(130)는, 가중치 부여 가산부(123) 내지 가중치 부여 가산부(126)로부터의 에지 정보 맵을 정규화하고, 그 결과 얻어진 에지 정보 맵을 최종적인 에지 정보 맵으로서 피사체 맵 생성부(26)에 공급한다. 예를 들어, 정규화부(127) 내지 정규화부(130)는, 도 10의 스텝 S44의 처리와 마찬가지의 처리를 행하여, 각 방향의 에지 정보 맵을 정규화한다.
그리고, 에지 정보 맵이 출력되면, 에지 정보 추출 처리는 종료되고, 그 후 처리는 도 9의 스텝 S14로 진행된다.
이와 같이, 에지 정보 맵을 선형 정규화하고, 선형 정규화 후의 에지 정보 맵으로부터 화소값의 평균값을 감산함으로써, 에지 정보 맵을 더욱 간단하고 신속하게 정규화할 수 있다.
이와 같이 하여, 에지 정보 추출부(23)는, 입력 화상으로부터 특정한 방향의 에지의 차분 화상을 구하고, 그 차분 화상으로부터 에지 정보 맵을 생성한다. 이와 같이 하여 얻어진 방향마다의 에지 정보 맵에 의하면, 입력 화상에서, 주위의 영역에 비하여, 특정한 방향으로의 에지 강도가 큰 영역, 즉 입력 화상을 일별한 관찰자의 눈에 뜨이기 쉬운 영역을 간단하게 검출할 수 있다.
[얼굴 정보 추출 처리의 설명]
이어서, 도 15의 흐름도를 참조하여, 도 9의 스텝 S14의 처리에 대응하는 얼굴 정보 추출 처리에 대하여 설명한다.
스텝 S141에 있어서, 얼굴 검출부(161)는 공급된 입력 화상으로부터 사람의 얼굴의 영역을 검출하고, 그 검출 결과를 얼굴 정보 맵 생성부(162)에 공급한다. 예를 들어, 얼굴 검출부(161)는, 입력 화상에 대하여 가버 필터를 사용한 필터 처리를 실시하여, 입력 화상으로부터 사람의 눈, 입, 코 등의 특징적인 영역을 추출함으로써, 입력 화상에서의 얼굴의 영역을 검출한다.
스텝 S142에 있어서, 얼굴 정보 맵 생성부(162)는, 얼굴 검출부(161)로부터의 검출 결과를 사용하여 얼굴 정보 맵을 생성하여, 정규화부(163)에 공급한다.
예를 들어, 입력 화상으로부터의 얼굴의 검출 결과로서, 얼굴이 포함된다고 추정되는 입력 화상 상의 직사각형의 영역(이하, 후보 영역이라고 칭한다)이 복수 검출되었다고 하자. 여기서, 입력 화상 상의 소정의 위치 근방에 복수의 후보 영역이 검출되어, 그들의 후보 영역의 일부가 서로 겹치는 경우도 있는 것으로 한다. 즉, 예를 들어, 입력 화상 상의 1개의 얼굴의 영역에 대하여, 그 얼굴을 포함하는 복수의 영역이 후보 영역으로서 얻어진 경우에는 그들의 후보 영역의 일부가 서로 겹치게 된다.
얼굴 정보 맵 생성부(162)는, 얼굴의 검출에 의해 얻어진 후보 영역에 대하여, 후보 영역마다 입력 화상과 동일한 크기의 검출 화상을 생성한다. 이 검출 화상은, 검출 화상 상에 있어서의 처리 대상의 후보 영역과 동일한 영역 내의 화소의 화소값이, 후보 영역과는 상이한 영역 내의 화소의 화소값보다 큰 값으로 된다.
또한, 검출 화상 상의 화소의 화소값은, 보다 사람의 얼굴이 포함될 가능성이 높다고 추정된 후보 영역의 화소와 동일 위치의 화소일수록 화소값이 커진다. 얼굴 정보 맵 생성부(162)는, 이와 같이 하여 얻어진 검출 화상을 추가하여 1개의 화상을 생성하여, 얼굴 정보 맵으로 한다. 따라서, 얼굴 정보 맵 상에 있어서, 입력 화상 상의 복수의 후보 영역의 일부가 겹치는 영역과 동일한 영역의 화소의 화소값은 커져, 보다 얼굴이 포함될 가능성이 높게 된다.
스텝 S143에 있어서, 정규화부(163)는, 얼굴 정보 맵 생성부(162)로부터 공급된 얼굴 정보 맵을 정규화하고, 그 결과 얻어진 얼굴 정보 맵을 최종적인 얼굴 정보 맵으로서 피사체 맵 생성부(26)에 공급한다. 예를 들어, 정규화부(163)는, 도 10의 스텝 S44의 처리와 마찬가지의 처리를 행하여 얼굴 정보 맵을 정규화한다.
그리고, 얼굴 정보 맵이 출력되면, 얼굴 정보 추출 처리는 종료되고, 그 후 처리는 도 9의 스텝 S15로 진행된다.
이와 같이 하여, 얼굴 정보 추출부(24)는, 입력 화상으로부터 얼굴을 검출하고, 그 검출 결과로부터 얼굴 정보 맵을 생성한다. 이와 같이 하여 얻어진 얼굴 정보 맵에 의하면, 입력 화상에서, 피사체로서의 사람의 얼굴의 영역을 간단하게 검출할 수 있다.
[움직임 정보 추출 처리의 설명]
또한, 도 16의 흐름도를 참조하여, 도 9의 스텝 S15의 처리에 대응하는 움직임 정보 추출 처리에 대하여 설명한다.
스텝 S171에 있어서, 로컬 모션 벡터 추출부(191)는, 공급된 입력 화상을 사용하여, 구배법 등에 의해 입력 화상의 각 화소의 로컬 모션 벡터를 검출하여, 차분 산출부(193)에 공급한다.
스텝 S172에 있어서, 글로벌 모션 벡터 추출부(192)는 공급된 입력 화상을 사용하여 글로벌 모션 벡터를 검출하여, 차분 산출부(193)에 공급한다.
스텝 S173에 있어서, 차분 산출부(193)는 로컬 모션 벡터 추출부(191)로부터의 로컬 모션 벡터와, 글로벌 모션 벡터 추출부(192)로부터의 글로벌 모션 벡터의 차분의 절대값을 구하여 움직임의 차분 화상을 생성한다. 그리고, 차분 산출부(193)는, 생성한 움직임의 차분 화상을 정규화부(194)에 공급한다.
스텝 S174에 있어서, 정규화부(194)는, 차분 산출부(193)로부터 공급된 차분 화상을 정규화함으로써 움직임 정보 맵을 생성하고, 그 결과 얻어진 움직임 정보 맵을 최종적인 움직임 정보 맵으로서 피사체 맵 생성부(26)에 공급한다. 예를 들어, 정규화부(194)는, 도 10의 스텝 S44의 처리와 마찬가지의 처리를 행하여, 움직임 정보 맵을 정규화한다.
그리고, 움직임 정보 맵이 출력되면, 움직임 정보 추출 처리는 종료되고, 그 후 처리는 도 9의 스텝 S16으로 진행된다.
이와 같이 하여, 움직임 정보 추출부(25)는, 입력 화상으로부터 움직임을 검출하고, 그 검출 결과로부터 움직임 정보 맵을 생성한다. 이와 같이 하여 얻어진 움직임 정보 맵에 의하면, 입력 화상에서, 움직임이 있는 물체의 영역을 간단하게 검출할 수 있다. 입력 화상에서, 움직임이 있는 물체의 영역은, 입력 화상을 일별한 관찰자의 눈에 뜨이기 쉬운 영역이며, 피사체일 가능성이 높다.
이상에서 설명한 휘도 정보 추출 처리 내지 움직임 정보 추출 처리에 의해, 각 정보 맵이 얻어지고, 이들 정보 맵으로부터 피사체 맵이 생성된다.
이상과 같이, 각 정보 맵의 정규화에 있어서, 정보 맵을 선형 정규화하고, 선형 정규화 후의 정보 맵의 화소값으로부터 평균값을 감산함으로써, 더욱 간단하고 신속하게 정보 맵을 정규화할 수 있다. 이에 의해, 화상 상의 피사체의 영역을 특정하기 위한 정보 맵을 더욱 간단하고 신속하게 얻을 수 있다. 게다가, 정보 맵의 정규화 시에 정보 맵의 화소값으로부터 평균값을 감산함으로써, 보다 간단한 처리로 보다 확실하게 노이즈를 제거할 수 있다.
[가중치의 학습]
그런데, 화상 처리 장치(11)에서는, 입력 화상으로부터 피사체의 영역이 보다 많이 갖는다고 추정되는 복수의 정보를 추출하고, 그들 정보를 사용하여 피사체 맵을 생성함으로써, 입력 화상으로부터 더욱 확실하게 피사체의 영역을 검출하고 있다. 피사체 맵의 화소값은, 입력 화상 상에 있어서, 입력 화상을 일별한 관찰자가 보다 관심을 갖는다고 추정되는 영역일수록 커지므로, 피사체가 사람인 경우에 한하지 않고, 동물이나 식물, 건물 등의 일반적인 것이어도 검출할 수 있다.
이러한 피사체 맵은, 입력 화상으로부터, 휘도, 색, 에지, 얼굴, 움직임 등의 정보가 추출되어 생성된다. 즉, 그들의 추출된 정보의 피라미드 화상으로부터 얻어진 차분 화상이, 차분 가중치 Wa에 의해 가중치 부여 가산되어 정보 맵으로 되고, 그들 정보 맵이, 정보 가중치 Wb에 의해 가중치 부여 가산된다. 그리고, 또한, 그 결과 얻어진 화상(맵)에 피사체 가중치 Wc가 승산되어 피사체 맵으로 된다.
피사체 맵의 생성 시에 사용되는 이들의 차분 가중치 Wa, 정보 가중치 Wb 및 피사체 가중치 Wc는, 예를 들어 뉴럴 네트워크에 의한 학습에 의해 구해진다. 이들의 가중치의 학습 시에 사용되는 학습 화상으로서, 사람에게 한하지 않고, 일반적인 피사체가 포함되는 화상을 사용하면, 학습에 의해 얻어진 가중치를 사용하여 생성되는 피사체 맵에 의해, 입력 화상으로부터 일반적인 피사체를 더욱 확실하게 검출할 수 있게 된다.
이하, 피사체 맵을 생성하는데 사용되는 차분 가중치 Wa, 정보 가중치 Wb 및 피사체 가중치 Wc의 학습에 대하여 설명한다.
학습 시에는, 도 17에 도시한 바와 같이, 초기값이 부여된 차분 가중치 Wa, 정보 가중치 Wb 및 피사체 가중치 Wc와, 피사체가 포함된 학습 화상이 사용되어, 피사체 맵이 생성된다.
구체적으로는, 미리 준비된 학습 화상으로부터, 피사체 맵 생성 시에 추출되는 정보마다의 차분 화상 An(m)(단, 1≤n≤N, 1≤m≤6)이 생성된다. 여기서, 차분 화상 An(1) 내지 차분 화상 An(6)은, 학습 화상으로부터 추출된, 1개의 정보에 관한 차분 화상이다.
예를 들어, 차분 화상 A1(1) 내지 차분 화상 A1(6)은, 학습 화상으로부터 얻어진 휘도의 피라미드 화상이 사용되어 생성된, 휘도의 차분 화상으로 된다. 또한, 예를 들어, 차분 화상 AN(1) 내지 차분 화상 AN(6)은, 학습 화상으로부터 얻어진 0도 방향의 에지의 피라미드 화상이 사용되어 생성된, 0도 방향의 차분 화상으로 된다.
또한, 도 17에서는, 학습 화상으로부터 추출되는 정보마다 6개의 차분 화상이 얻어지는 예에 대하여 도시되어 있지만, 차분 화상의 수는 몇이든 상관없다. 예를 들어, 화상 처리 장치(11)의 예에서는 차분 화상의 수는 5개로 되어 있다.
학습 화상으로부터 정보마다의 차분 화상 An(m)이 얻어지면, 그들의 차분 화상과, 차분 화상마다의 차분 가중치 Wa로 정보 맵이 생성된다. 또한, 이하, 차분 화상 An(m)에 승산되는 차분 가중치 Wa를 차분 가중치 Wan(m)이라고도 칭한다.
예를 들어, 차분 화상 A1(1) 내지 차분 화상 A1(6) 각각이, 차분 화상마다의 차분 가중치 Wa1(1) 내지 차분 가중치 Wa1(6)에 의해 가중치 부여 가산되어, 정보 맵 B1in으로 된다. 또한, 이 정보 맵 B1in에 대하여, 상술한 수학식 1, 즉 시그모이드 함수 f(x)에 의한 연산이 행해지고, 그 결과로서 정보 맵 B1out이 얻어진다.
즉, 정보 맵 B1in의 화소의 화소값 x가, 수학식 1에 대입되어 얻어진 값 f(x)가, 그 화소와 동일 위치에 있는 정보 맵 B1out의 화소의 화소값으로 된다. 이와 같이 하여 얻어진 정보 맵 B1out은, 화상 처리 장치(11)에 있어서 생성되는 정보 맵, 예를 들어 휘도 정보 맵에 상당한다.
또한, 시그모이드 함수 f(x)는 쌍곡선 여현 함수에 한하지 않고, 어떤 함수이든 상관없다. 예를 들어, f(x)는 이상적인 모델에서는 x≥0인 경우에 값 「1」을 출력하고, x <0인 경우에 값 「-1」을 출력하는 함수로 된다.
이상과 같이 하여, N개의 정보 맵 B1out 내지 정보 맵 BNout이 얻어지면, 그들 정보 맵 Bnout(단, 1≤n≤N)이, 정보 맵마다의 정보 가중치 Wb에 의해 가중치 부여 가산되어, 피사체 맵 Cin으로 된다. 그리고, 이 피사체 맵 Cin에 대하여, 시그모이드 함수 f(x)에 의한 연산이 행해지고, 그 결과로서 피사체 맵 Cout이 얻어진다. 또한, 이 피사체 맵 Cout에 피사체 가중치 Wc가 승산되어 정규화되어, 최종적인 피사체 맵으로 된다.
또한, 더욱 상세하게는, 피사체 맵 Cin의 생성 시에는 차분 화상을 생성하지 않고 얻어지는 정보 맵, 예를 들어, 얼굴 정보 맵 등의 정보 맵도 사용되어 가중치 부여 가산이 행해진다. 또한, 이하에서는, 정보 맵 Bnout에 승산되는 정보 가중치 Wb를, 정보 가중치 Wbn이라고도 칭한다.
그와 같이 하여, 학습 시에 피사체 맵을 생성하는 처리는, Forward Propagation이라고 불린다. 피사체 맵이 생성되면, 계속하여 도 18에 도시한 바와 같이, Back Propagation이라고 불리는 처리가 행해져, 차분 가중치 Wa, 정보 가중치 Wb 및 피사체 가중치 Wc가 갱신된다. Back Propagation이라고 불리는 처리에서는, 생성된 피사체 맵과, 학습 화상에 대하여 미리 준비된, 학습 화상 상에 있어서의 피사체의 영역을 나타내는 정보인 화상 라벨이 사용되어, 각 가중치를 증감시켜야 할 값인 가중치의 차분이 구해진다.
여기서, 화상 라벨은, 학습 화상과 동일한 크기의 화상이며, 학습 화상 상의 피사체의 영역의 화소와 동일 위치에 있는 화소의 화소값이 1로 되고, 학습 화상 상의 피사체가 없는 영역의 화소와 동일 위치에 있는 화소의 화소값이 0으로 되는 화상이다.
Back Propagation에서는, 우선 피사체 맵과 화상 라벨의 차분이 구해지고, 그 결과 얻어진 화상이 평가 맵으로 된다. 그리고, 평가 맵과, 피사체 맵 Cin으로부터, 다음 수학식 2에 의해, 피사체 가중치 Wc를 변화시켜야 할 양인 피사체 가중치 차분 ΔWc가 구해진다.
<수학식 2>
ΔWc=η×Cin×ΔC
수학식 2에 있어서, η은, 미리 정해진 상수인 학습 속도를 나타내고 있으며, Cin은 피사체 맵 Cin을 나타내고 있다. 또한, 더욱 상세하게는, 수학식 2에 있어서의 Cin은, 피사체 맵 Cin의 1개의 화소의 화소값으로 되고, 피사체 가중치 차분 ΔWc는 화소마다 구해진다. 또한, ΔC는, 피사체 맵의 차분이며, 다음 수학식 3에 의해 구해진다.
<수학식 3>
ΔC=EV×f'(Cin)
수학식 3에 있어서, EV는 평가 맵을 나타내고 있으며, f'(Cin)는, 시그모이드 함수 f(x)를 미분하여 얻어지는 함수에 피사체 맵 Cin을 대입하여 얻어지는 값이다. 함수 f(x)를 미분하여 얻어지는 함수 f'(x)는, 구체적으로는 다음 수학식 4에 표현되는 함수이다.
<수학식 4>
f'(x)=a×b×sech(x×b)2
이와 같이 하여 피사체 가중치 차분 ΔWc가 얻어지면, 피사체 가중치 차분 ΔWc가, 지금까지의 피사체 가중치 Wc에 가산되어 갱신되어, 새로운 피사체 가중치 Wc가 구해진다.
계속해서, 갱신된 피사체 가중치 Wc와, 피사체 맵 생성 시에 생성된 정보 맵 Bnin이 사용되어 다음 수학식 5에 의해, 정보 가중치 Wbn을 변화시켜야 할 양인 정보 가중치 차분 ΔWbn이 구해진다.
<수학식 5>
ΔWbn=η×Bnin×ΔBn
수학식 5에 있어서, η은, 미리 정해진 상수인 학습 속도를 나타내고 있으며, Bnin은, 정보 맵 Bnin을 나타내고 있다. 또한, 더욱 상세하게는 수학식 5에 있어서의 Bnin은, 정보 맵 Bnin의 1개의 화소의 화소값으로 되고, 정보 가중치 차분 ΔWbn은 화소마다 구해진다. 또한, ΔBn은 정보 맵의 차분이며, 다음 수학식 6에 의해 구해진다.
<수학식 6>
ΔBn=ΔC×f'(Bnin)×Wc
수학식 6에 있어서, ΔC는 상술한 수학식 3을 계산하여 얻어지는 값을 나타내고 있으며, f'(Bnin)는, 시그모이드 함수 f(x)를 미분하여 얻어지는 함수에, 정보 맵 Bnin을 대입하여 얻어지는 값이다. 또한, Wc는 갱신된 피사체 가중치 Wc이다.
이와 같이 하여, 정보 맵 Bnin에 대한 정보 가중치 차분 ΔWbn이 얻어지면, 정보 가중치 차분 ΔWbn이, 정보 맵 Bnin의 정보 가중치 Wbn에 가산되어 갱신되어, 새로운 정보 가중치 Wbn이 구해진다.
또한, 갱신된 정보 가중치 Wbn과, 피사체 맵 생성 시에 생성된 차분 화상 An(m)이 사용되어 다음 수학식 7에 의해, 차분 가중치 Wa를 변화시켜야 할 양인 차분 가중치의 차분 ΔWan(m)이 구해진다.
<수학식 7>
ΔWan(m)=η×An(m)×ΔAn(m)
수학식 7에 있어서, η은, 미리 정해진 상수인 학습 속도를 나타내고 있으며, An(m)은 차분 화상 An(m)을 나타내고 있다. 또한, 더욱 상세하게는, 수학식 7에 있어서의 An(m)은, 차분 화상 An(m)의 1개의 화소의 화소값으로 되고, 차분 ΔWan(m)은 화소마다 구해진다. 또한, ΔAn(m)은 차분 화상의 차분이며, 다음 수학식 8에 의해 구해진다.
<수학식 8>
ΔAn(m)=ΔBn×f'(An(m))×Wbn
수학식 8에 있어서, ΔBn은 상술한 수학식 6을 계산하여 얻어지는 값을 나타내고 있으며, f'(An(m))는, 시그모이드 함수 f(x)를 미분하여 얻어지는 함수에, 차분 화상 An(m)을 대입하여 얻어지는 값이다. 또한, Wbn은 갱신된 정보 가중치 Wbn이다.
이와 같이 하여, 차분 화상 An(m)에 대한 차분 가중치의 차분 ΔWan(m)이 얻어지면, 차분 가중치의 차분 ΔWan(m)이, 차분 화상 An(m)의 차분 가중치 Wan(m)에 가산되어 갱신되어, 새로운 차분 가중치 Wan(m)이 구해진다.
그리고, 이상과 같이 하여 갱신된 차분 가중치 Wa, 정보 가중치 Wb 및 피사체 가중치 Wc와, 학습 화상이 사용되어 상술한 처리가 반복되어, 최종적인 차분 가중치 Wa, 정보 가중치 Wb 및 피사체 가중치 Wc가 얻어진다.
차분 가중치 Wan(m), 정보 가중치 Wbn 및 피사체 가중치 Wc를 반복하여 갱신하는 처리는, 예를 들어, 평가 맵의 화소의 화소값의 최대값의 절대값이, 미리 정해진 임계값 이하이며, 또한 미리 정해진 횟수 이상, 각 가중치의 갱신이 행해질 때까지 행해진다. 즉, 가중치를 갱신하는 처리는, 화상으로부터 충분한 정밀도로 피사체를 추출할 수 있는 피사체 맵이 얻어질 때까지 행해진다.
이와 같이 하여, 뉴럴 네트워크에 의한 학습에서는, 미리 부여된 가중치가 사용되어 생성된 피사체 맵과, 화상 라벨로 평가 맵이 생성되고, 또한 평가 맵으로부터 역산에 의해, 각 가중치를 변화시켜야 할 변화량인 가중치의 차분이 구해진다.
여기서, 화상 라벨은, 학습 화상 상의 피사체의 영역을 나타내는 정보이므로, 말하자면 피사체 맵의 정해(正解)를 나타내는 정보라고 할 수 있다. 따라서, 피사체 맵과, 화상 라벨의 차분인 평가 맵은, 이상적인 피사체 맵과, 부여된 가중치를 사용하여 생성된 피사체 맵의 오차를 나타내고 있으며, 평가 맵을 사용하여 역산하면, 부여된 가중치와, 이상적인 가중치의 오차가 구해진다.
그리고, 구해진 오차는, 부여된 가중치를 변화시켜야 할 변화량이며, 이 변화량을 가중치에 가산하면, 현 시점에 있어서의 이상적인 가중치가 구해지게 된다. 이와 같이 하여 새롭게 구해진 가중치를 사용하여 피사체 맵을 생성하면, 그 피사체 맵에 의해, 화상으로부터 더욱 확실하게 피사체를 검출할 수 있게 된다. 뉴럴 네트워크에 의한 학습에서는 가중치의 변화량으로서 차분 ΔWan(m), 정보 가중치 차분 ΔWbn 및 피사체 가중치 차분 ΔWc가 구해져, 각 가중치가 갱신된다.
또한, 뉴럴 네트워크에 의한 학습은, 예를 들어 「Richar O. Duda, Peter E. Hart, David G. Stork 저 "Patten Classification" WILEY-INTERSCIENCE ISBN 0-471-05669-3」에 상세하게 기재되어 있다.
상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는 그 소프트웨어를 구성하는 프로그램이, 전용의 하드웨어에 내장되어 있는 컴퓨터 또는 각종 프로그램을 인스톨함으로써 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등에 프로그램 기록 매체로부터 인스톨된다.
도 19는, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 도시하는 블록도이다.
컴퓨터에 있어서, CPU(Central Processing Unit)(601), ROM(Read Only Memory)(602), RAM(Random Access Memory)(603)은 버스(604)에 의해 서로 접속되어 있다.
버스(604)에는, 또한 입출력 인터페이스(605)가 접속되어 있다. 입출력 인터페이스(605)에는 키보드, 마우스, 마이크로폰 등으로 이루어지는 입력부(606), 디스플레이, 스피커 등으로 이루어지는 출력부(607), 하드 디스크나 불휘발성의 메모리 등으로 이루어지는 기록부(608), 네트워크 인터페이스 등으로 이루어지는 통신부(609), 자기 디스크, 광 디스크, 광자기 디스크, 혹은 반도체 메모리 등의 리무버블 미디어(611)를 구동하는 드라이브(610)가 접속되어 있다.
이상과 같이 구성되는 컴퓨터에서는, CPU(601)가, 예를 들어 기록부(608)에 기록되어 있는 프로그램을, 입출력 인터페이스(605) 및 버스(604)를 통하여 RAM(603)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(CPU(601))가 실행하는 프로그램은, 예를 들어 자기 디스크(플렉시블 디스크를 포함한다), 광 디스크(CD-ROM(Compact Disc-Read Only Memory), DVD(Digital Versatile Disc) 등), 광자기 디스크, 혹은 반도체 메모리 등으로 이루어지는 패키지 미디어인 리무버블 미디어(611)에 기록하거나, 혹은 근거리 네트워크, 인터넷, 디지털 위성 방송이라고 한, 유선 또는 무선의 전송 매체를 통하여 제공된다.
그리고, 프로그램은, 리무버블 미디어(611)를 드라이브(610)에 장착함으로써, 입출력 인터페이스(605)를 통하여 기록부(608)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통하여 통신부(609)에 의해 수신하여, 기록부(608)에 인스톨할 수 있다. 그 외, 프로그램은 ROM(602)이나 기록부(608)에 미리 인스톨해 둘 수 있다.
또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라 시계열로 처리가 행해지는 프로그램이어도 좋고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 좋다.
또한, 본 발명의 실시 형태는, 상술한 실시 형태에 한정되는 것이 아니라, 본 발명의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.
11 : 화상 처리 장치
21 : 휘도 정보 추출부
22 : 색 정보 추출부
23 : 에지 정보 추출부
24 : 얼굴 정보 추출부
25 : 움직임 정보 추출부
26 : 피사체 맵 생성부
53, 85, 86, 123, 124, 125, 126 : 가중치 부여 가산부
54, 87, 88, 127, 128, 129, 130 : 정규화부

Claims (6)

  1. 화상 처리 장치로서,
    입력 화상의 각 영역으로부터 추출된 소정의 정보로 이루어지는 추출 정보 화상에 기초하여, 서로 다른 해상도의 복수의 상기 추출 정보 화상을 생성하는 추출 정보 화상 생성 수단과,
    상기 복수의 상기 추출 정보 화상 중 소정의 2개의 상기 추출 정보 화상의 차분을 구함으로써, 차분 화상을 생성하는 차분 화상 생성 수단과,
    복수의 상기 차분 화상을 가중치 부여 가산함으로써, 상기 입력 화상 상의 피사체의 영역이 갖는 특징의 특징량을 나타내는 정보 맵을 생성하는 정보 맵 생성 수단과,
    상기 정보 맵의 각 영역의 값으로부터 상기 정보 맵의 각 영역의 값의 평균값을 감산하여, 상기 정보 맵을 정규화하는 정규화 수단과,
    정규화된 복수의 상기 정보 맵을 가중치 부여 가산함으로써, 상기 입력 화상의 각 영역에서의 상기 피사체의 영역다움을 나타내는 피사체 맵을 생성하는 피사체 맵 생성 수단을 구비하는, 화상 처리 장치.
  2. 제1항에 있어서,
    상기 입력 화상의 몇개의 화소의 화소값을, 미리 정해진 계수를 사용하여 가중치 부여 가산함으로써, 상기 입력 화상의 각 영역의 에지 강도를 나타내는 화상을, 상기 추출 정보 화상으로서 생성하는 에지 화상 생성 수단을 더 구비하는, 화상 처리 장치.
  3. 제1항에 있어서,
    상기 추출 정보 화상 생성 수단은, 상기 추출 정보 화상의 서로 인접하는 화소의 화소값의 평균값을, 상기 추출 정보 화상과는 상이한 다른 추출 정보 화상의 화소의 화소값으로 함으로써, 서로 다른 해상도의 상기 복수의 상기 추출 정보 화상을 생성하는, 화상 처리 장치.
  4. 제1항에 있어서,
    상기 입력 화상은, 휘도 성분 및 색차 성분으로 이루어지는 화상으로 되고,
    상기 추출 정보 화상은, 상기 소정의 정보로서의 상기 입력 화상의 휘도 성분 또는 색차 성분으로 이루어지는 화상으로 되는, 화상 처리 장치.
  5. 입력 화상의 각 영역으로부터 추출된 소정의 정보로 이루어지는 추출 정보 화상에 기초하여, 서로 다른 해상도의 복수의 상기 추출 정보 화상을 생성하는 추출 정보 화상 생성 수단과,
    상기 복수의 상기 추출 정보 화상 중 소정의 2개의 상기 추출 정보 화상의 차분을 구함으로써, 차분 화상을 생성하는 차분 화상 생성 수단과,
    복수의 상기 차분 화상을 가중치 부여 가산함으로써, 상기 입력 화상 상의 피사체의 영역이 갖는 특징의 특징량을 나타내는 정보 맵을 생성하는 정보 맵 생성 수단과,
    상기 정보 맵의 각 영역의 값으로부터 상기 정보 맵의 각 영역의 값의 평균값을 감산하여, 상기 정보 맵을 정규화하는 정규화 수단과,
    정규화된 복수의 상기 정보 맵을 가중치 부여 가산함으로써, 상기 입력 화상의 각 영역에서의 상기 피사체의 영역다움을 나타내는 피사체 맵을 생성하는 피사체 맵 생성 수단을 구비하는 화상 처리 장치의 화상 처리 방법으로서,
    상기 추출 정보 화상 생성 수단이, 상기 입력 화상으로부터 상기 추출 정보 화상을 생성하고,
    상기 차분 화상 생성 수단이, 상기 복수의 상기 추출 정보 화상으로부터 상기 차분 화상을 생성하고,
    상기 정보 맵 생성 수단이, 상기 복수의 상기 차분 화상을 가중치 부여 가산하여 상기 정보 맵을 생성하고,
    상기 정규화 수단이, 상기 정보 맵을 정규화하고,
    상기 피사체 맵 생성 수단이, 상기 정보 맵을 가중치 부여 가산하여 상기 피사체 맵을 생성하는 스텝을 포함하는, 화상 처리 방법.
  6. 입력 화상의 각 영역으로부터 추출된 소정의 정보로 이루어지는 추출 정보 화상에 기초하여, 서로 다른 해상도의 복수의 상기 추출 정보 화상을 생성하고,
    상기 복수의 상기 추출 정보 화상 중 소정의 2개의 상기 추출 정보 화상의 차분을 구함으로써, 차분 화상을 생성하고,
    복수의 상기 차분 화상을 가중치 부여 가산함으로써, 상기 입력 화상 상의 피사체의 영역이 갖는 특징의 특징량을 나타내는 정보 맵을 생성하고,
    상기 정보 맵의 각 영역의 값으로부터 상기 정보 맵의 각 영역의 값의 평균값을 감산하여, 상기 정보 맵을 정규화하고,
    정규화된 복수의 상기 정보 맵을 가중치 부여 가산함으로써, 상기 입력 화상의 각 영역에서의 상기 피사체의 영역다움을 나타내는 피사체 맵을 생성하는 스텝을 포함하는 처리를 컴퓨터에 실행시키는, 프로그램.
KR1020107029726A 2009-05-08 2010-04-30 화상 처리 장치 및 방법, 및 프로그램 KR20120018267A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009113413A JP5229575B2 (ja) 2009-05-08 2009-05-08 画像処理装置および方法、並びにプログラム
JPJP-P-2009-113413 2009-05-08

Publications (1)

Publication Number Publication Date
KR20120018267A true KR20120018267A (ko) 2012-03-02

Family

ID=43050147

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107029726A KR20120018267A (ko) 2009-05-08 2010-04-30 화상 처리 장치 및 방법, 및 프로그램

Country Status (8)

Country Link
US (1) US8577137B2 (ko)
EP (1) EP2299403A1 (ko)
JP (1) JP5229575B2 (ko)
KR (1) KR20120018267A (ko)
CN (1) CN102084396B (ko)
MY (1) MY154278A (ko)
TW (1) TWI423168B (ko)
WO (1) WO2010128646A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011247957A (ja) * 2010-05-24 2011-12-08 Toshiba Corp パターン検査方法および半導体装置の製造方法
WO2013054160A1 (en) * 2011-10-11 2013-04-18 Sony Ericsson Mobile Communications Ab Light sensitive, low height, and high dynamic range camera
JP5826001B2 (ja) * 2011-11-30 2015-12-02 キヤノン株式会社 画像処理装置、及びその制御方法
CN103313049A (zh) * 2012-03-14 2013-09-18 富士通株式会社 图像压缩方法和装置
JP5895720B2 (ja) * 2012-06-06 2016-03-30 富士通株式会社 被写体追跡装置、被写体追跡方法及び被写体追跡用コンピュータプログラム
US9518935B2 (en) * 2013-07-29 2016-12-13 Kla-Tencor Corporation Monitoring changes in photomask defectivity
US10805649B2 (en) 2017-01-04 2020-10-13 Samsung Electronics Co., Ltd. System and method for blending multiple frames into a single frame
US10451563B2 (en) 2017-02-21 2019-10-22 Kla-Tencor Corporation Inspection of photomasks by comparing two photomasks
JP7091031B2 (ja) * 2017-07-27 2022-06-27 サムスン エレクトロニクス カンパニー リミテッド 撮像装置
JP6919539B2 (ja) 2017-12-06 2021-08-18 富士通株式会社 演算処理装置および演算処理装置の制御方法
JP2021005301A (ja) * 2019-06-27 2021-01-14 株式会社パスコ 建物抽出処理装置及びプログラム
CN110728662B (zh) * 2019-09-26 2022-06-28 中国国家铁路集团有限公司 轨道类型识别方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3362364B2 (ja) * 1992-07-17 2003-01-07 オムロン株式会社 ファジイ推論システムおよび方法ならびに前件部処理装置
US6005978A (en) * 1996-02-07 1999-12-21 Cognex Corporation Robust search for image features across image sequences exhibiting non-uniform changes in brightness
JP3706755B2 (ja) * 1998-11-09 2005-10-19 キヤノン株式会社 画像処理装置及び方法並びに記憶媒体
US6674915B1 (en) * 1999-10-07 2004-01-06 Sony Corporation Descriptors adjustment when using steerable pyramid to extract features for content based search
US6785427B1 (en) * 2000-09-20 2004-08-31 Arcsoft, Inc. Image matching using resolution pyramids with geometric constraints
JP3658761B2 (ja) * 2000-12-12 2005-06-08 日本電気株式会社 画像検索システムとその画像検索方法、及び画像検索プログラムを記録した記憶媒体
US6670963B2 (en) * 2001-01-17 2003-12-30 Tektronix, Inc. Visual attention model
US20020154833A1 (en) * 2001-03-08 2002-10-24 Christof Koch Computation of intrinsic perceptual saliency in visual environments, and applications
DE60218928D1 (de) * 2001-04-30 2007-05-03 St Microelectronics Pvt Ltd Effiziente Niedrigleistungsbewegungsschätzung für eine Video-Vollbildsequenz
US7343028B2 (en) * 2003-05-19 2008-03-11 Fujifilm Corporation Method and apparatus for red-eye detection
WO2004111931A2 (en) * 2003-06-10 2004-12-23 California Institute Of Technology A system and method for attentional selection
JP4277739B2 (ja) * 2004-06-08 2009-06-10 ソニー株式会社 映像デコーダ
US20050286767A1 (en) * 2004-06-23 2005-12-29 Hager Gregory D System and method for 3D object recognition using range and intensity
CN1296861C (zh) * 2004-09-10 2007-01-24 倪蔚民 基于图像纹理特征随机度信息的模式识别方法
JP4985394B2 (ja) * 2005-03-15 2012-07-25 オムロン株式会社 画像処理装置および方法、プログラム、並びに記録媒体
US7334901B2 (en) * 2005-04-22 2008-02-26 Ostendo Technologies, Inc. Low profile, large screen display using a rear projection array system
US7426312B2 (en) * 2005-07-05 2008-09-16 Xerox Corporation Contrast enhancement of images
US7623683B2 (en) * 2006-04-13 2009-11-24 Hewlett-Packard Development Company, L.P. Combining multiple exposure images to increase dynamic range
JP2008210009A (ja) * 2007-02-23 2008-09-11 Fujifilm Corp 画像識別装置,画像識別方法,撮像装置及び撮像方法
CN101408942B (zh) * 2008-04-17 2011-01-12 浙江师范大学 一种复杂背景下的车牌定位方法
JP2010055194A (ja) * 2008-08-26 2010-03-11 Sony Corp 画像処理装置および方法、学習装置および方法、並びにプログラム

Also Published As

Publication number Publication date
WO2010128646A1 (ja) 2010-11-11
JP5229575B2 (ja) 2013-07-03
US8577137B2 (en) 2013-11-05
TWI423168B (zh) 2014-01-11
MY154278A (en) 2015-05-29
CN102084396B (zh) 2014-02-05
CN102084396A (zh) 2011-06-01
JP2010262506A (ja) 2010-11-18
EP2299403A1 (en) 2011-03-23
US20120121173A1 (en) 2012-05-17
TW201044324A (en) 2010-12-16

Similar Documents

Publication Publication Date Title
JP5229575B2 (ja) 画像処理装置および方法、並びにプログラム
CN111741211B (zh) 图像显示方法和设备
US8494256B2 (en) Image processing apparatus and method, learning apparatus and method, and program
CN111402146B (zh) 图像处理方法以及图像处理装置
Park et al. Single image dehazing with image entropy and information fidelity
US20150215590A1 (en) Image demosaicing
CN103020965B (zh) 一种基于显著性检测的前景分割方法
CN103745468B (zh) 一种基于图结构和边界先验的显著性物体检测方法
TWI435288B (zh) Image processing apparatus and method, and program product
US9773185B2 (en) Image processing apparatus, image processing method, and computer readable recording device
TWI457853B (zh) 提供深度資訊之影像處理方法及其影像處理系統
CN106875358A (zh) 基于Bayer格式的图像增强方法及图像增强装置
CN112365429B (zh) 一种知识驱动的图像模糊区域清晰度增强方法
CN106657948A (zh) 低照度Bayer图像的增强方法及增强装置
CN117058606A (zh) 一种x射线图像违禁品检测方法
CN113935917A (zh) 一种基于云图运算和多尺度生成对抗网络的光学遥感影像薄云去除方法
CN101873506B (zh) 提供深度信息的影像处理方法及其影像处理***
Banerjee et al. Bacterial foraging-fuzzy synergism based image Dehazing
Hung et al. Moran’s I for impulse noise detection and removal in color images
JP2011018199A (ja) 画像処理装置および方法、並びにプログラム
Hu Content-Adaptive Non-Stationary Projector Resolution Enhancement
Cao et al. Depth Recovery from a Single Image Based on L0 Gradient Minimization
CN115222606A (zh) 图像处理方法、装置、计算机可读介质及电子设备
JP2013257702A (ja) 前後関係推定方法、前後関係推定装置及び前後関係推定プログラム

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid