JP4986797B2 - Image processing apparatus and image processing method - Google Patents

Image processing apparatus and image processing method Download PDF

Info

Publication number
JP4986797B2
JP4986797B2 JP2007259055A JP2007259055A JP4986797B2 JP 4986797 B2 JP4986797 B2 JP 4986797B2 JP 2007259055 A JP2007259055 A JP 2007259055A JP 2007259055 A JP2007259055 A JP 2007259055A JP 4986797 B2 JP4986797 B2 JP 4986797B2
Authority
JP
Japan
Prior art keywords
eye
area
region
eye region
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007259055A
Other languages
Japanese (ja)
Other versions
JP2009087250A (en
Inventor
和之 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007259055A priority Critical patent/JP4986797B2/en
Publication of JP2009087250A publication Critical patent/JP2009087250A/en
Application granted granted Critical
Publication of JP4986797B2 publication Critical patent/JP4986797B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は画像処理装置、画像処理方法、プログラム及び記録媒体に関し、特に、静止画像や動画像から顔や目を抽出するために用いて好適な技術に関する。   The present invention relates to an image processing apparatus, an image processing method, a program, and a recording medium, and particularly to a technique suitable for use in extracting a face and eyes from a still image or a moving image.

従来、画像認識の分野において、認識対象及び背景を含む画像から、認識対象を検出する技術が提案されている。特に、顔や目を特定の認識対象として検出する技術は、検出後の処理も含めて、デジタルカメラなどの民生品からセキュリティなどの公共システムに至る様々な分野で非常に有用な技術である。   Conventionally, in the field of image recognition, a technique for detecting a recognition target from an image including the recognition target and a background has been proposed. In particular, a technique for detecting a face or eyes as a specific recognition target is a very useful technique in various fields ranging from consumer products such as digital cameras to public systems such as security, including post-detection processing.

前述した顔や目を検出する技術としては、例えば、特許文献1に記載の顔画像処理装置によれば、入力画像に対して、予め用意された顔テンプレートを用いて顔領域を探索し、その後、標準的な目の形状を表す部分テンプレートを用いて検出している。   As a technique for detecting the face and eyes described above, for example, according to the face image processing apparatus described in Patent Document 1, a face area is searched for a previously prepared face template with respect to an input image, and thereafter , Using a partial template representing a standard eye shape.

特開平9−44685号公報JP 9-44685 A M. Matsugu, K. Mori, et. al, "Convolutional Spiking Neural Network Model for Robust Face Detection",2002,Internatinal Conference On Neural Information Processing (ICONIP02)M. Matsugu, K. Mori, et. Al, "Convolutional Spiking Neural Network Model for Robust Face Detection", 2002, Internatinal Conference On Neural Information Processing (ICONIP02) Le Cun, Y. and Bengio, Y., 1995, "Convolutional Networks for Images Speech, and Time Series" in Handbook of Brain Theory and Neural Networks (M. Arbib, Ed.), MIT Press, pp.255-258Le Cun, Y. and Bengio, Y., 1995, "Convolutional Networks for Images Speech, and Time Series" in Handbook of Brain Theory and Neural Networks (M. Arbib, Ed.), MIT Press, pp. 255-258

前記特許文献1に記載されているような顔や目を検出する従来の技術においては、初めに顔テンプレートを使用して顔全体でマッチングして顔領域を検出するため、ある程度のサイズの大きな顔テンプレートを保存しておく。このため、そのサイズの大きな顔テンプレートを使用して顔領域を検出すると、処理時間が長くかかってしまう。さらに、顔領域を検出した後に目領域を検出するため、目領域を検出する段階においてもやはり長い処理時間がかかってしまう。また、処理時間を短縮すると目領域を検出する精度が低下してしまうという問題点があった。   In the conventional technique for detecting a face or eyes as described in Patent Document 1, a face template is first used to detect the face area by matching the entire face, and thus a large face of a certain size. Save the template. For this reason, if a face area is detected using a large face template, it takes a long processing time. Furthermore, since the eye area is detected after the face area is detected, a long processing time is also required at the stage of detecting the eye area. Further, when the processing time is shortened, there is a problem that the accuracy of detecting the eye region is lowered.

本発明は前述の問題点に鑑み、目領域を効率よく、かつ高精度に検出できるようにすることを目的としている。   An object of the present invention is to make it possible to detect an eye region efficiently and with high accuracy in view of the above-described problems.

本発明の画像処理装置は、入力された画像から顔領域を検出する顔領域検出手段と、前記顔領域検出手段によって前記顔領域を検出する過程で検出される目頭特徴及び目尻特徴の位置を用いて前記画像の中の目領域を一次抽出する一次抽出手段と、前記一次抽出手段により一次抽出された目領域の画素の輝度値を白黒2値化する2値化手段と、前記2値化手段により得られた黒画素の連結領域の中からそれぞれの面積と位置とに基づいて黒目領域を選択する選択手段と、前記一次抽出された目領域の上下方向を選択された前記黒目領域の上下の端部で限定して目領域を二次抽出する二次抽出手段とを有することを特徴とする。 The image processing apparatus of the present invention includes a face region detecting means for detecting a face region from the input image, the position of the inner corner features and eye area features detected in the step of detecting the face region by the face region detecting means using a primary extracting unit for primary extraction an eye region in the image Te, and binarizing means for binarizing black and white luminance values of the pixels of the primary extracted eye region by the primary extraction unit, said binarizing means Selecting means for selecting a black eye region based on the area and position of each of the black pixel connection regions obtained by the above, and the vertical direction of the primary extracted eye region is selected above and below the selected black eye region. And secondary extraction means for secondary extraction of the eye region limited at the end .

本発明の画像処理方法は、入力された画像から顔領域を検出する顔領域検出ステップと、前記顔領域検出ステップにおいて前記顔領域を検出する過程で検出される目頭特徴及び目尻特徴の位置を用いて前記画像の中の目領域を一次抽出する一次抽出ステップと、前記一次抽出ステップにおいて一次抽出された目領域の画素の輝度値を白黒2値化する2値化ステップと、前記2値化ステップにおいて得られた黒画素の連結領域の中からそれぞれの面積と位置とに基づいて黒目領域を選択する選択ステップと、前記一次抽出された目領域の上下方向を選択された前記黒目領域の上下の端部で限定して目領域を二次抽出する二次抽出ステップとを有することを特徴とする。 The image processing method of the present invention uses a face area detection step for detecting a face area from an input image, and the positions of the eye feature and the eye corner feature detected in the process of detecting the face area in the face area detection step. primary extraction steps, and binarization step of binarizing black and white luminance values of the pixels of the primary extracted eye region in the primary extraction step, the binarization step of the eye region primary extraction in the image Te A selection step of selecting a black eye region based on the area and position of each of the black pixel connection regions obtained in the above, and the vertical direction of the primary extracted eye region is selected above and below the selected black eye region. And a secondary extraction step for secondary extraction of the eye region limited at the end .

本発明のプログラムは、入力された画像から顔領域を検出する顔領域検出ステップと、前記顔領域検出ステップにおいて前記顔領域を検出する過程で検出される目頭特徴及び目尻特徴の位置を用いて前記画像の中の目領域を一次抽出する一次抽出ステップと、前記一次抽出ステップにおいて一次抽出された目領域の画素の輝度値を白黒2値化する2値化ステップと、前記2値化ステップにおいて得られた黒画素の連結領域の中からそれぞれの面積と位置とに基づいて黒目領域を選択する選択ステップと、前記一次抽出された目領域の上下方向を選択された前記黒目領域の上下の端部で限定して目領域を二次抽出する二次抽出ステップとをコンピュータに実行させることを特徴とする。 The program of the present invention uses the face area detection step for detecting a face area from an input image, and the position of the eye feature and the eye corner feature detected in the process of detecting the face area in the face area detection step. a primary extraction step of the eye region primary extraction in the image, and binarization step of binarizing black and white luminance values of the pixels of the primary extracted eye region in the primary extraction step, resulting in the binarization step A selection step of selecting a black eye region based on each area and position from among the connected regions of the black pixels, and upper and lower ends of the black eye region selected in the vertical direction of the primary extracted eye region And a secondary extraction step for secondary extraction of the eye region in a limited manner.

本発明の記録媒体は、前記に記載のプログラムを記録したことを特徴とする。   The recording medium of the present invention is characterized by recording the program described above.

本発明によれば、顔領域を検出する過程で検出される特徴を用いて画像の中の目領域を抽出するようにしたので、目領域を効率よく、かつ高精度に検出することができる。   According to the present invention, since the eye region in the image is extracted using the feature detected in the process of detecting the face region, the eye region can be detected efficiently and with high accuracy.

(第1の実施形態)
以下、図面を参照しながら本発明の実施形態を説明する。
図1は、本実施形態の画像処理装置10の機能構成例を示すブロック図である。
図1において、100は、レンズ、CCDやCMOS等の撮像素子を含む撮像部や、スキャナ等から出力された画像を入力する画像入力部である。101は、画像入力部100から入力された画像から顔領域を検出する顔領域検出部である。
(First embodiment)
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram illustrating a functional configuration example of an image processing apparatus 10 according to the present embodiment.
In FIG. 1, reference numeral 100 denotes an image input unit that inputs an image output from a lens or an image pickup unit including an image pickup device such as a CCD or CMOS, or a scanner. Reference numeral 101 denotes a face area detection unit that detects a face area from an image input from the image input unit 100.

102は、顔領域検出部101で顔領域を検出する過程の中間で得られる結果を保持する中間結果メモリである。103は、入力された画像から目領域を抽出する目領域抽出部である。104は、画像入力部100から入力された画像や、顔領域検出部101で検出された顔領域の検出結果や、目領域抽出部103で抽出された目領域の抽出結果を保持するメモリである。105は、全体を制御するシステム制御部であり、顔領域検出動作の指示や目領域抽出動作の指示などを司る。   Reference numeral 102 denotes an intermediate result memory that holds a result obtained in the middle of the process of detecting the face area by the face area detecting unit 101. Reference numeral 103 denotes an eye area extraction unit that extracts an eye area from the input image. A memory 104 holds an image input from the image input unit 100, a detection result of the face region detected by the face region detection unit 101, and an extraction result of the eye region extracted by the eye region extraction unit 103. . Reference numeral 105 denotes a system control unit that controls the whole, and controls a face area detection operation instruction, an eye area extraction operation instruction, and the like.

106は、メモリ104に保持されている画像入力部100から入力された画像や、顔領域検出部101で検出された顔領域の検出結果や、目領域抽出部103で抽出された目領域の抽出結果を表示する表示部である。107は、画像入力部100から入力された画像や、顔領域検出部101で検出された顔領域の検出結果や、目領域抽出部103で抽出された目領域の抽出結果を記録する記録部である。   Reference numeral 106 denotes an image input from the image input unit 100 held in the memory 104, a detection result of the face area detected by the face area detection unit 101, and an extraction of the eye area extracted by the eye area extraction unit 103. It is a display part which displays a result. A recording unit 107 records an image input from the image input unit 100, a detection result of the face region detected by the face region detection unit 101, and an extraction result of the eye region extracted by the eye region extraction unit 103. is there.

次に、図2〜図10を参照しながら、本実施形態の画像処理装置の動作について説明する。図2は、本実施形態の画像処理装置の主ルーチンの処理手順の一例を示すフローチャートである。
まず、ステップS201において、画像入力部100は、被写体を撮影したり、画像を読み取ったりして、画像を入力する。次に、ステップS202において、顔領域検出部101は顔領域の検出を開始する。
Next, the operation of the image processing apparatus according to the present embodiment will be described with reference to FIGS. FIG. 2 is a flowchart illustrating an example of a processing procedure of a main routine of the image processing apparatus according to the present embodiment.
First, in step S201, the image input unit 100 inputs an image by photographing a subject or reading an image. Next, in step S202, the face area detection unit 101 starts detecting a face area.

次に、ステップS203において、顔領域検出プロセスの途中で目領域の検出結果が中間結果メモリ102に存在しているかどうかを判断する。この判断の結果、目領域の検出結果が存在しない場合は、検出結果が中間結果メモリ102に書き込まれるまで待機する。一方、ステップS203の判断の結果、目領域の検出結果が存在している場合は、ステップS204に進む。そして、ステップS204において、目領域抽出部103は、その検出結果を入力し、目領域の抽出を行う。なお、その一方で、顔領域検出部101では、引き続き顔領域の検出を継続する。   Next, in step S203, it is determined whether or not the eye region detection result exists in the intermediate result memory 102 during the face region detection process. If there is no eye area detection result as a result of this determination, the process waits until the detection result is written to the intermediate result memory 102. On the other hand, as a result of the determination in step S203, if an eye region detection result exists, the process proceeds to step S204. In step S204, the eye region extraction unit 103 inputs the detection result and extracts the eye region. Meanwhile, the face area detection unit 101 continues to detect the face area.

次に、ステップS205において、システム制御部105により、顔領域の検出結果及び目領域の抽出結果を表示部106に表示したり、記録部107に記録したりする。そして、処理を終了する。   In step S <b> 205, the system control unit 105 displays the face area detection result and the eye area extraction result on the display unit 106 or records them in the recording unit 107. Then, the process ends.

次に、図3を参照しながら、顔領域検出部101で行う顔領域検出処理の概略について説明する。
図3は、本実施形態において、階層的処理により顔領域検出を行う過程を示す図である。
図3に示すように、まず、局所特徴をある階層で検出し、その検出結果を統合して次の階層レベルにおいてより複雑な局所特徴を検出する。そして、この処理を繰り返して、最終的に顔領域を検出する。すなわち、最初にプリミティブな特徴である1次特徴量を検出し、その1次特徴量の検出結果(検出レベル及び位置関係)を用いて2次特徴量を検出する。そして、2次特徴量の検出結果を用いて3次特徴量を検出し、最後にその3次特徴量の検出結果を用いて4次特徴量である顔領域を検出する。
Next, an outline of the face area detection process performed by the face area detection unit 101 will be described with reference to FIG.
FIG. 3 is a diagram showing a process of performing face area detection by hierarchical processing in the present embodiment.
As shown in FIG. 3, first, local features are detected in a certain hierarchy, and the detection results are integrated to detect more complicated local features in the next hierarchy level. Then, this process is repeated to finally detect the face area. That is, a primary feature quantity that is a primitive feature is first detected, and a secondary feature quantity is detected using the detection result (detection level and positional relationship) of the primary feature quantity. Then, a tertiary feature value is detected using the detection result of the secondary feature value, and finally, a face area which is a quaternary feature value is detected using the detection result of the tertiary feature value.

次に、顔領域の具体的な検出手順について、図3を参照しながら説明する。最初に、縦特徴311、横特徴312、右上がり斜め特徴313、及び右下がり斜め特徴314といった1次特徴量を検出する。ここで、縦特徴311とは、縦方向のエッジセグメントを表す。なお、横特徴312、右上がり斜め特徴313、及び右下がり斜め特徴314についても同様である。   Next, a specific procedure for detecting a face area will be described with reference to FIG. First, primary feature amounts such as a vertical feature 311, a horizontal feature 312, a right-up diagonal feature 313, and a right-down diagonal feature 314 are detected. Here, the vertical feature 311 represents a vertical edge segment. The same applies to the horizontal feature 312, the right-upward diagonal feature 313, and the right-down diagonal feature 314.

この検出結果は、入力画像と同等の大きさの検出結果画像という形で特徴毎にメモリ104に出力される。つまり、図3に示す例では、4種類の検出結果画像が得られ、各特徴の検出結果画像の各位置の値を参照し、入力画像のその位置に各特徴が存在するか否かが判断できる。   This detection result is output to the memory 104 for each feature in the form of a detection result image having the same size as the input image. That is, in the example shown in FIG. 3, four types of detection result images are obtained, and it is determined whether or not each feature exists at that position of the input image by referring to the value of each position of the detection result image of each feature. it can.

2次特徴量については、右空きV字特徴321、左空きV字特徴322、水平平行線特徴323、及び垂直平行線特徴324がある。右空きV字特徴321及び左空きV字特徴322は、右上がり斜め特徴313と右下がり斜め特徴314とから検出を行う。また、水平平行線特徴323は横特徴312から検出を行い、垂直平行線特徴324は縦特徴311から検出を行う。   The secondary feature amount includes a right empty V-shaped feature 321, a left empty V-shaped feature 322, a horizontal parallel line feature 323, and a vertical parallel line feature 324. The right empty V-shaped feature 321 and the left empty V-shaped feature 322 are detected from a right-upward diagonal feature 313 and a right-down diagonal feature 314. The horizontal parallel line feature 323 is detected from the horizontal feature 312, and the vertical parallel line feature 324 is detected from the vertical feature 311.

3次特徴量については、眼特徴331及び口特徴332がある。眼特徴331は、右空きV字特徴321、左空きV字特徴322、水平平行線特徴323、及び垂直平行線特徴324から検出を行い、口特徴332は、右空きV字特徴321、左空きV字特徴322、及び水平平行線特徴323から検出を行う。そして、4次特徴量である顔特徴341ついては、眼特徴331及び口特徴332から検出を行う。   As for the tertiary feature amount, there are an eye feature 331 and a mouth feature 332. The eye feature 331 is detected from the right empty V-character feature 321, the left empty V-character feature 322, the horizontal parallel line feature 323, and the vertical parallel line feature 324, and the mouth feature 332 is the right empty V-character feature 321, the left empty feature. Detection is performed from the V-shaped feature 322 and the horizontal parallel line feature 323. The face feature 341 that is a quaternary feature quantity is detected from the eye feature 331 and the mouth feature 332.

以上のように、顔領域検出部101では、まずプリミティブな局所特徴を検出し、さらにその検出結果を用いて、階層的に局所特徴を検出し、最終的に顔領域を検出する。なお、前述の検出手法を並列階層処理により画像認識を行う神経回路網を用いて実現することも可能であり、例えば、非特許文献1に記述されている。   As described above, the face area detection unit 101 first detects a primitive local feature, further uses the detection result to detect a local feature hierarchically, and finally detects a face area. Note that the above-described detection method can be realized by using a neural network that performs image recognition by parallel hierarchical processing, and is described in Non-Patent Document 1, for example.

次に、図4を参照しながら神経回路網の処理内容について説明する。この神経回路網は、入力データ中の局所領域において、対象または幾何学的特徴等の認識(検出)に関与する情報を階層的に扱うものであり、その基本構造はいわゆるConvolutional (重畳)ネットワーク構造である(例えば、非特許文献2参照)。この構造によれば、最終層(最上位層)では、検出したい被写体の有無の情報、及び被写体が存在する場合にはその入力データ上の位置情報が得られる。   Next, the processing contents of the neural network will be described with reference to FIG. This neural network hierarchically handles information related to recognition (detection) of objects or geometric features in a local region in input data, and its basic structure is a so-called Convolutional network structure. (For example, see Non-Patent Document 2). According to this structure, in the last layer (uppermost layer), information on the presence / absence of a subject to be detected and position information on the input data when a subject exists are obtained.

データ入力層401は、画像データを入力する層である。最初の第1の特徴検出層402−1は、データ入力層401より入力された画像パターンの局所的な低次の特徴を複数のスケールレベルまたは解像度で複数の特徴カテゴリの数だけ検出する。この時、全画面の各位置を中心とした局所領域(或いは、全画面にわたる所定のサンプリング点の各点を中心とする局所領域)において同一箇所で検出を行う。なお、低次の特徴には、特定方向成分、特定空間周波数成分等の幾何学的特徴のほか色成分特徴を含んでもよい。   The data input layer 401 is a layer for inputting image data. The first first feature detection layer 402-1 detects local low-order features of the image pattern input from the data input layer 401 by a number of feature categories at a plurality of scale levels or resolutions. At this time, detection is performed at the same location in a local region centered on each position of the entire screen (or a local region centered on each point of a predetermined sampling point over the entire screen). The low-order features may include color component features in addition to geometric features such as a specific direction component and a specific spatial frequency component.

第1の特徴統合層403−1は、所定の受容野構造を有し、第1の特徴検出層402−1から出力された同一の受容野405内にある複数のニューロン素子の出力結果の統合(例えば、局所平均化、最大出力検出等によるサブサンプリングなどの演算)を行う。なお、受容野とは直前の層の出力素子との結合範囲を示し、受容野構造とはその結合荷重の分布を示す。この統合処理においては、第1の特徴検出層402−1から出力される出力結果を空間的にぼかすことにより、位置ずれや変形などを許容している。また、第1の特徴統合層403−1内のニューロンの各受容野構造は同一層内のニューロン間で共通の構造を有している。   The first feature integration layer 403-1 has a predetermined receptive field structure, and integrates the output results of a plurality of neuron elements in the same receptive field 405 output from the first feature detection layer 402-1. (For example, sub-sampling by local averaging, maximum output detection, etc.). The receptive field indicates the coupling range with the output element of the immediately preceding layer, and the receptive field structure indicates the distribution of the coupling load. In this integration process, positional deviation or deformation is allowed by spatially blurring the output result output from the first feature detection layer 402-1. In addition, each receptive field structure of the neurons in the first feature integration layer 403-1 has a common structure among neurons in the same layer.

後続の層である第2の特徴検出層402−2〜第Nの特徴検出層402−N、及び第2の特徴統合層403−2〜第Nの特徴統合層403−Nは、前述した各層と同様に検出及び統合を行う。第2の特徴検出層402−2〜第Nの特徴検出層402−Nは、各特徴検出モジュール404において複数の異なる特徴の検出を行う。第2の特徴統合層403−2〜第Nの特徴統合層403−Nは、前段の特徴検出層から出力された複数の異なる特徴に関する検出結果の統合を各特徴統合モジュール406において行う。   The second feature detection layer 402-2 to the Nth feature detection layer 402-N and the second feature integration layer 403-2 to the Nth feature integration layer 403-N which are subsequent layers are the layers described above. Detection and integration is performed in the same way as The second feature detection layer 402-2 to the Nth feature detection layer 402-N detect a plurality of different features in each feature detection module 404. The second feature integration layer 403-2 to the Nth feature integration layer 403 -N perform integration of detection results on a plurality of different features output from the preceding feature detection layer in each feature integration module 406.

また、第2の特徴検出層402−2〜第Nの特徴検出層402−Nは、同一チャネルに属する前段の特徴統合層の細胞素子の出力結果を受けるように前段の特徴統合層と結合されている。一方、第1の特徴統合層403−1〜第Nの特徴統合層403−Nでは、特徴検出された同一特徴カテゴリの細胞集団の局所的な領域(当該特徴統合層ニューロンの局所受容野)の出力結果について平均化などのサブサンプリングを行っている。   The second feature detection layer 402-2 to the Nth feature detection layer 402-N are combined with the previous feature integration layer so as to receive the output results of the cell elements of the previous feature integration layer belonging to the same channel. ing. On the other hand, in the first feature integration layer 403-1 to the N-th feature integration layer 403-N, local regions (local receptive fields of the feature integration layer neurons) of the cell population of the same feature category whose features are detected are detected. Subsampling such as averaging is performed on the output result.

図3に示した各特徴量を入力画像中の各位置で検出するためには、図4に示す第1の特徴検出層402−1〜第Nの特徴検出層402−Nの各ニューロンの受容野構造をその特徴を検出するために共通に用いることによって可能となる。また、最終の顔領域検出層である第Nの特徴検出層402−Nにおける顔領域の検出に用いる受容野構造について、各サイズや各回転量に適したものを用意する。そして、顔特徴の検出において、顔が存在するという結果を得たときに、どの受容野構造を用いて検出したかに基づいて、その顔の大きさや向きなどの顔データを得ることができる。   In order to detect each feature amount shown in FIG. 3 at each position in the input image, reception of each neuron of the first feature detection layer 402-1 to the Nth feature detection layer 402-N shown in FIG. This is possible by using the field structure in common to detect its features. In addition, a receptive field structure used for detection of a face area in the Nth feature detection layer 402-N as the final face area detection layer is prepared for each size and each rotation amount. In the detection of facial features, when a result indicating that a face is present is obtained, face data such as the size and orientation of the face can be obtained based on which receptive field structure is used for detection.

さらに、入力する顔画像をあるスケールに固定して、顔特有の特徴量を検出する受容野構造を構築するように学習させることもできる。これによって、受容野構造において検出する特徴を、例えば、V字特徴を目頭特徴や目尻特徴といった、より目に特化した特徴にすることができる。このように、最終的に顔領域を検出する過程において、眼特徴やV字特徴といった目領域を抽出するための情報量を持った特徴が得られる。   Furthermore, it is possible to learn to construct a receptive field structure that detects a face-specific feature value by fixing an input face image to a certain scale. As a result, the feature detected in the receptive field structure can be made into a more eye-specific feature such as a V-shaped feature or an eye feature or an eye feature. As described above, in the process of finally detecting the face area, a feature having an information amount for extracting the eye area such as an eye characteristic or a V-shaped characteristic is obtained.

図5、図6及び図9は、本実施形態の目領域抽出処理手順の一例を示すフローチャートである。また、図7、図8及び図10は、本実施形態の目領域抽出処理の詳細を示す模式図である。まずは図5を参照しながら、目領域抽出処理について詳しく説明する。   5, 6 and 9 are flowcharts showing an example of the eye region extraction processing procedure of the present embodiment. FIGS. 7, 8, and 10 are schematic diagrams showing details of the eye region extraction processing of the present embodiment. First, the eye region extraction processing will be described in detail with reference to FIG.

ステップS501において、システム制御部105により、顔領域検出プロセスの途中で中間的に検出される結果を、中間結果メモリ102から目領域抽出部103に出力する。次に、ステップS502において、目領域抽出部103は、入力された中間結果を用いて、まず目領域の一次抽出を行う。この一次抽出の詳細は図6につき後述する。   In step S <b> 501, the system control unit 105 outputs a result detected in the middle of the face area detection process from the intermediate result memory 102 to the eye area extraction unit 103. Next, in step S502, the eye area extraction unit 103 first performs primary extraction of the eye area using the input intermediate result. Details of this primary extraction will be described later with reference to FIG.

次に、ステップS503において、ステップS502で一次抽出された目領域(抽出範囲)内で輝度分布を測定し、黒と白のみを使った画像に2値化するための輝度閾値を設定する。輝度閾値としては、輝度分布の平均値や「大津の方法」によるクラス間分散クラス内分散比を最大にする値など挙げられるが、他の方法で輝度閾値を設定してもよい。   Next, in step S503, the luminance distribution is measured within the eye region (extraction range) primarily extracted in step S502, and a luminance threshold value for binarizing the image using only black and white is set. Examples of the luminance threshold include an average value of the luminance distribution and a value that maximizes the inter-class variance ratio within the class according to the “Otsu's method”, but the luminance threshold may be set by other methods.

最後に、ステップS504において、ステップS503で設定された輝度閾値を基に目領域の二次抽出を行う。この二次抽出の詳細は図9につき後述する。一次抽出された目領域がおおよそ目全体を含んでいるのであれば、輝度閾値により黒目部分一帯を黒と判断し、一次抽出された目領域の上下部分の肌色部分を除いた目領域を抽出することができる。そして、ステップS505において、目領域抽出処理を終了する。   Finally, in step S504, secondary extraction of the eye area is performed based on the luminance threshold value set in step S503. Details of this secondary extraction will be described later with reference to FIG. If the primary extracted eye area roughly includes the whole eye, the black eye part is determined to be black by the luminance threshold, and the eye area excluding the upper and lower skin color parts of the primary extracted eye area is extracted. be able to. In step S505, the eye area extraction process is terminated.

次に、図6のフローチャートを参照しながら、ステップS502における目領域の一次抽出処理について詳しく説明する。顔領域検出プロセスの途中で中間的に検出される検出結果として、例えば、目頭特徴位置(Eix,Eiy)と、目尻特徴位置(Eox,Eoy)といったエッジ成分の情報がある。この場合、図5のステップS501において、中間結果メモリ102に蓄積された目頭特徴位置(Eix,Eiy)と、目尻特徴位置(Eox,Eoy)とが目領域抽出部103に入力されることにより処理を開始する。   Next, the primary extraction process of the eye region in step S502 will be described in detail with reference to the flowchart of FIG. As a detection result detected in the middle of the face area detection process, for example, there is information on edge components such as an eye feature position (Eix, Eiy) and an eye corner feature position (Eox, Eoy). In this case, in step S501 in FIG. 5, the eye feature position (Eix, Eiy) and the eye corner feature position (Eox, Eoy) accumulated in the intermediate result memory 102 are input to the eye region extraction unit 103 to perform processing. To start.

まず、ステップS601において、目領域抽出部103は、目領域左右端と目横幅Ew=|Eix−Eox|とを設定する。例えば、右目の場合は、右目頭特徴位置(REix,REiy)、及び右目尻特徴位置(REox,REoy)と定義すると、REixを右目領域右端位置と設定し、REoxを右目領域左端位置と設定し、さらに、|REix−REox|を右目横幅と設定する。   First, in step S601, the eye area extraction unit 103 sets the left and right ends of the eye area and the eye width Ew = | Eix−Eox |. For example, in the case of the right eye, if the right eye feature position (REix, REi) and the right eye corner feature position (REox, REoy) are defined, REix is set as the right edge position of the right eye area, and REox is set as the left edge position of the right eye area. Further, | REix−REox | is set as the right eye width.

一方、左目の場合は、左目頭特徴位置(LEix,LEiy)、及び左目尻特徴位置(LEox,LEoy)と定義すると、LEoxを左目領域右端位置と設定し、LEixを左目領域左端位置と設定し、さらに、|LEix−LEox|を左目横幅と設定する。   On the other hand, in the case of the left eye, if the left eye head feature position (LEix, LEii) and the left eye corner feature position (LEox, LEoy) are defined, LEox is set as the left eye area right edge position, and LEix is set as the left eye area left edge position. Further, | LEix−LEox | is set as the left eye width.

この時、目頭特徴位置及び目尻特徴位置は、図4における特徴検出細胞集団の局所的な領域の出力結果を平均化などして求められるものであるが、位置を一意に決定することができる方法であれば必ずしもこの方法に限らず他の方法でもよい。また、図4に示す方法では、特徴統合層のニューロン細胞集団について演算を行っているが、特徴検出層のニューロン細胞集団を使用してもよい。   At this time, the eye feature position and the eye corner feature position are obtained by averaging the output results of the local regions of the feature detection cell population in FIG. 4, and the method for uniquely determining the position. As long as it is not limited to this method, another method may be used. Further, in the method shown in FIG. 4, the computation is performed on the neuron cell population in the feature integration layer, but the neuron cell population in the feature detection layer may be used.

次に、ステップS602において、目頭特徴の位置及び目尻特徴の位置についてそれぞれの上下方向の大小を比較する。この比較の結果、目頭特徴の上下方向の位置が目尻特徴の上下方向の位置より小さい場合(Eiy<Eoy)は、ステップS603に進む。そして、ステップS603において、目尻特徴の上下方向の位置(Eoy)から目横幅の1/3の長さ分、目領域の範囲を上に広げる。そして、目頭特徴の上下方向位置(Eiy)から目横幅の1/3の長さ分、目領域の範囲を下に広げる。これにより、(Eiy−Ew/3)から(Eoy+Ew/3)までの範囲を目領域上下範囲とする。   Next, in step S602, the size of the eye feature and the position of the eye feature are compared in the vertical direction. As a result of the comparison, when the vertical position of the eye feature is smaller than the vertical position of the corner feature (Eiy <Eoy), the process proceeds to step S603. Then, in step S603, the range of the eye region is expanded upward by the length of 1/3 of the eye width from the vertical position (Eoy) of the eye corner feature. Then, the range of the eye region is expanded downward by the length of 1/3 of the lateral width of the eye from the vertical position (Eiy) of the eye feature. Thereby, the range from (Eiy−Ew / 3) to (Eoy + Ew / 3) is set as the upper and lower range of the eye area.

一方、ステップS602の比較の結果、目頭特徴の上下方向の位置が目尻特徴の上下方向の位置より大きい場合(Eiy>Eoy)は、ステップS604に進む。そして、ステップS604において、目頭特徴の上下方向の位置(Eiy)から目横幅の1/3の長さ分、目領域の範囲を上に広げる。そして、目尻特徴の上下方向の位置(Eoy)から目横幅の1/3の長さ分、目領域の範囲を下に広げる。これにより、(Eoy−Ew/3)から(Eiy+Ew/3)までの範囲を目領域上下範囲とする。   On the other hand, as a result of the comparison in step S602, when the vertical position of the eye feature is larger than the vertical position of the corner feature (Eiy> Eoy), the process proceeds to step S604. Then, in step S604, the range of the eye region is expanded upward by the length of 1/3 of the eye width from the vertical position (Eiy) of the eye feature. Then, the range of the eye region is expanded downward by the length of 1/3 of the eye width from the vertical position (Eoy) of the eye corner feature. Accordingly, the range from (Eoy−Ew / 3) to (Eiy + Ew / 3) is set as the upper and lower range of the eye area.

次に、ステップS605において、これら目領域左右範囲(目横幅)と目領域上下範囲とで囲まれた領域を目領域一次抽出結果とし、目領域の一時抽出処理を終了する。なお、ステップS602の比較の結果、Eiy=Eoyの場合は、ステップS603、S604のどちらへ進んでもよい。   Next, in step S605, the region surrounded by the left and right eye region range (horizontal width) and the upper and lower eye region region is set as the eye region primary extraction result, and the eye region temporary extraction process ends. As a result of the comparison in step S602, if Eiy = Eoy, the process may proceed to either step S603 or S604.

図7は、目頭特徴の上下方向の位置が目尻特徴の上下方向の位置より小さい時の目領域一次抽出結果を示す模式図である。
図7に示すように、右目の場合はREiy<REoyとなり、左目の場合はLEiy<LEoyとなる。一次抽出される目領域は、目頭特徴の上下方向の位置より上に存在する目尻特徴の位置からEw/3だけ上に広がり、目尻特徴の上下方向の位置より下に存在する目頭特徴の位置からEw/3だけ下に広がっている。これにより、目の存在する部分が、一次抽出された目領域からはみ出ることが少なくなる。
FIG. 7 is a schematic diagram showing the primary extraction result of the eye region when the vertical position of the eye feature is smaller than the vertical position of the eye corner feature.
As shown in FIG. 7, in the case of the right eye, REiy <REoy, and in the case of the left eye, LEiy <LEoy. The primary extracted eye region extends by Ew / 3 from the position of the eye corner feature that exists above the vertical position of the eye feature, and from the position of the eye feature that exists below the vertical position of the eye feature. Ew / 3 spreads down. As a result, the portion where the eye exists is less likely to protrude from the eye region that is primarily extracted.

図8は、目頭特徴の上下方向の位置が目尻特徴の上下方向の位置より大きい時の目領域一次抽出結果を示す模式図である。
図8に示すように、右目の場合は、REiy>REoyとなり、左目の場合は、LEiy>LEoyとなる。一次抽出される目領域は、目尻特徴の上下方向の位置より上に存在する目頭特徴の位置からEw/3だけ上に広がって、目頭特徴の上下方向の位置より下に存在する目尻特徴の位置からEw/3だけ下に広がっている。これにより、目の存在する部分が、一次抽出された目領域内からはみ出ることが少なくなる。
FIG. 8 is a schematic diagram showing the primary extraction result of the eye region when the vertical position of the eye feature is larger than the vertical position of the eye corner feature.
As shown in FIG. 8, in the case of the right eye, REi> REoy, and in the case of the left eye, LEiy> LEoy. The primary extracted eye region extends by Ew / 3 from the position of the eye feature existing above the vertical position of the eye feature, and the position of the eye feature existing below the vertical position of the eye feature. From Ew / 3. As a result, the portion where the eye exists is less likely to protrude from the primary extracted eye region.

このように、目領域左右範囲で設定された目横幅Ewに対して、1/3ずつ上下に目領域の範囲を広げると、目の存在する部分が目領域からはみ出ることが少ない一次抽出結果を得ることができる。   As described above, when the range of the eye area is expanded by 1/3 up and down with respect to the eye width Ew set in the left and right range of the eye area, the primary extraction result in which the portion where the eyes are present hardly protrudes from the eye area is obtained. Obtainable.

次に、図9を参照しながら、図5のステップS504における目領域の二次抽出処理について詳しく説明する。
まず、ステップS901において、システム制御部105は、図5のステップS503において目領域抽出部103で一次抽出された目領域内で演算により求められた輝度閾値を用いて、一次抽出された目領域を黒と白とに2値化する。
Next, the secondary extraction process of the eye region in step S504 of FIG. 5 will be described in detail with reference to FIG.
First, in step S901, the system control unit 105 uses the luminance threshold obtained by calculation in the eye region primarily extracted by the eye region extraction unit 103 in step S503 in FIG. Binarize into black and white.

次に、ステップS902において、2値化した結果で黒と選ばれた画素で連結している領域(黒画素連結領域)をすべて抽出する。次に、ステップS903において、横ラインで目領域の下側から画素をスキャンした時に、初めて検出された黒画素連結領域をすべて選択する。   Next, in step S902, all regions connected by pixels selected as black as a result of binarization (black pixel connection regions) are extracted. In step S903, all black pixel connection areas detected for the first time when pixels are scanned from the lower side of the eye area in the horizontal line are selected.

次に、ステップS904において、ステップS903で選択された単一または複数の黒画素連結領域の面積及び重心を算出する。次に、ステップS905において、面積が最大であり、かつ一次抽出された目領域の中心に一番近い黒画素連結領域が存在するか否か判断する。この時、一次抽出された目領域の中心に一番近いかどうかを決定する方法としては、一次抽出された目領域の中心位置と黒画素連結領域の重心位置との距離の二乗誤差が一番小さい黒画素連結領域を選択する方法などがある。ところが、距離が最小になるものを選択する方法であれば他の方法でもよい。   Next, in step S904, the area and the center of gravity of the single or plural black pixel connection regions selected in step S903 are calculated. Next, in step S905, it is determined whether or not there is a black pixel connection region that has the largest area and is closest to the center of the eye region that is primarily extracted. At this time, as a method of determining whether or not it is closest to the center of the primary extracted eye area, the square error of the distance between the center position of the primary extracted eye area and the gravity center position of the black pixel connected area is the most. There is a method of selecting a small black pixel connection region. However, any other method may be used as long as it is a method for selecting the one having the smallest distance.

ステップS905の判断の結果、面積が最大であり、かつ一次抽出された目領域の中心から所定距離範囲内で一番近い黒画素連結領域が存在しない場合は、ステップS906に進み、輝度閾値を再設定する。そして、ステップS901に戻る。これは、目領域の中心に存在すると考えられる黒目領域が、輝度閾値を使用した2値化により、適切な黒画素連結領域として設定されてないと考えられるためである。なお、輝度閾値を再設定する方法としては、閾値を決定するための演算を行う領域を目領域より少し小さくしたり、閾値を所定値だけシフトさせたりするなど様々な方法がある。   If the result of determination in step S905 is that the area is the maximum and there is no black pixel connected region within the predetermined distance range from the center of the primary extracted eye region, the process proceeds to step S906, and the brightness threshold is reset. Set. Then, the process returns to step S901. This is because it is considered that the black eye area considered to exist in the center of the eye area is not set as an appropriate black pixel connection area by binarization using the luminance threshold. Note that there are various methods for resetting the luminance threshold, such as making the area for calculating the threshold a little smaller than the eye area or shifting the threshold by a predetermined value.

一方、ステップS905の判断の結果、面積が最大であり、かつ一次抽出された目領域の中心から所定距離範囲内で一番近い黒画素連結領域が存在する場合は、ステップS907に進む。そして、ステップS907において、黒画素連結領域の上下方向位置で一番上の画素と一番下の画素とを選択する。次に、ステップS908において、選択された黒画素の上下方向位置で一次抽出された目領域の上下方向を限定する。そして、ステップS909において、その領域を目領域二次抽出結果とし、目領域の二次抽出処理を終了する。   On the other hand, if the result of determination in step S905 is that there is a black pixel connected region that has the largest area and is closest within the predetermined distance range from the center of the primary extracted eye region, the process proceeds to step S907. In step S907, the uppermost pixel and the lowermost pixel are selected at the vertical position of the black pixel connection region. Next, in step S908, the vertical direction of the eye region primarily extracted at the vertical position of the selected black pixel is limited. In step S909, the region is set as the eye region secondary extraction result, and the eye region secondary extraction process is terminated.

図10は、目領域の二次抽出処理過程を示す図である。
図10に示すように、一次抽出された目領域を輝度閾値により黒画素と白画素とに2値化すると、黒目や目の輪郭や眉毛が一次抽出された目領域に入っていれば眉毛にも黒画素が多く存在し、肌色部分は白画素となる。そして、黒画素で連結された領域を抽出するために、さらに、一次抽出された目領域の下側から画素をスキャンして初めて現れる黒画素連結領域を横ラインで選出する。
FIG. 10 is a diagram illustrating a secondary extraction process of the eye region.
As shown in FIG. 10, when the primary extracted eye region is binarized into a black pixel and a white pixel based on the luminance threshold, if the black eye, the eye outline, or the eyebrows are in the primary extracted eye region, There are many black pixels, and the skin color portion becomes white pixels. In order to extract a region connected by black pixels, a black pixel connection region that appears only after scanning the pixels from the lower side of the primary extracted eye region is selected by a horizontal line.

選出された黒画素連結領域のうち、面積が大きな黒画素連結領域は、黒目や眉毛などに相当するものであり、面積が小さな黒画素連結領域はその他の部分に相当するものである。そして、一次抽出された目領域の中心位置に近く、さらに、選出された黒画素連結領域のうち、面積が大きな黒画素連結領域は、黒目に相当する。   Among the selected black pixel connection regions, the black pixel connection region having a large area corresponds to black eyes or eyebrows, and the black pixel connection region having a small area corresponds to other portions. A black pixel connection region that is close to the center position of the eye region that is primarily extracted and has a large area among the selected black pixel connection regions corresponds to a black eye.

その後、選出された黒画素連結領域の中で、上下方向で黒画素の一番上の画素と一番下の画素とを選択し、その画素の位置で一次抽出された目領域の上下を限定する。これにより、図10に示すように、瞼や目の下の部分を取り除いた目領域を抽出できる。   After that, in the selected black pixel connection area, the top and bottom pixels of the black pixel are selected in the vertical direction, and the top and bottom of the eye area primarily extracted at the pixel position are limited. To do. Thereby, as shown in FIG. 10, the eye area | region which remove | eliminated the part under the eyelid and eyes can be extracted.

輝度閾値により黒画素と白画素とに2値化する際に、輝度ダイナミックレンジを広げるために、ヒストグラム補正を行ったり、黒目と肌色との境界を際立たせるために、エッジ強調を行ったりして、より適切に2値化を行うようにしてもよい。また、画像処理の方法については、本実施形態で説明した方法だけでなく、同様の目的を果たすものであれば、他の方法でも構わない。   When binarizing into black and white pixels using the luminance threshold, histogram correction is performed to widen the luminance dynamic range, and edge enhancement is performed to make the boundary between black eyes and skin color stand out. The binarization may be performed more appropriately. The image processing method is not limited to the method described in the present embodiment, and other methods may be used as long as they can achieve the same purpose.

以上のように本実施形態においては、顔領域の検出を行っているときに中間結果メモリ102に蓄積される目頭特徴位置(Eix,Eiy)及び目尻特徴位置(Eox,Eoy)を用いて目領域の一次抽出を行う。そして、一次抽出された目領域(抽出範囲)からさらに輝度情報を用いて目領域の二次抽出を行うようにした。これにより、顔領域の検出を行っているときに目領域の抽出を行うことができ、目領域を効率よく、かつ高精度に検出することができる。   As described above, in the present embodiment, the eye area is detected using the eye feature position (Eix, Eiy) and the eye corner feature position (Eox, Eoy) accumulated in the intermediate result memory 102 when the face area is detected. The primary extraction is performed. Then, secondary extraction of the eye area is further performed using luminance information from the eye area (extraction range) that has been primarily extracted. Thereby, the eye area can be extracted while the face area is detected, and the eye area can be detected efficiently and with high accuracy.

(第2の実施形態)
第1の実施形態で示した顔領域検出プロセスの途中で中間的に検出される結果は、目頭特徴位置及び目尻特徴位置のようなピンポイントで高精度な情報であった。本実施形態ではこのようなピンポイントで高精度な情報ではなく、目中心付近位置のような情報が得られた場合の一次抽出処理の例について説明する。なお、本実施形態の画像処理装置の機能構成など、目領域の一次抽出処理以外については第1の実施形態と同様であるため、説明を省略する。
(Second Embodiment)
The result detected in the middle of the face area detection process shown in the first embodiment is pinpoint and highly accurate information such as the eye feature position and the eye feature position. In the present embodiment, an example of primary extraction processing when information such as the position near the center of the eye is obtained instead of such pinpoint and highly accurate information will be described. Since the functional configuration of the image processing apparatus according to the present embodiment is the same as that of the first embodiment except for the eye region primary extraction processing, the description thereof is omitted.

図11は、本実施形態における目領域の一次抽出処理手順の一例を示すフローチャートである。
図5のステップS501において、顔領域検出プロセスの途中で中間的に検出される結果として、右眼特徴位置(REx,REy)と、左眼特徴位置(LEx,LEy)とが目領域抽出部103に入力されることにより処理を開始する。
FIG. 11 is a flowchart showing an example of the primary extraction processing procedure of the eye area in the present embodiment.
In step S501 in FIG. 5, the right eye feature position (REx, REy) and the left eye feature position (LEx, LEy) are detected as an intermediate result during the face area detection process. The process is started by being input to.

まず、ステップS1101において、目領域抽出部103は、両目間距離Ebwnを測定する。この時、眼特徴位置(Ex,Ey)は、図4における特徴検出細胞集団の局所的な領域の出力結果を平均化などして求められる。ところが、位置を一意に決定することができる方法であれば必ずしもこの方法に限らず他の方法でもよい。また図4では、特徴統合層のニューロン細胞集団について演算を行っているが、特徴検出層のニューロン細胞集団を使用してもよい。   First, in step S1101, the eye region extraction unit 103 measures a distance Ebwn between both eyes. At this time, the eye feature position (Ex, Ey) is obtained by averaging the output results of local regions of the feature detection cell population in FIG. However, the method is not necessarily limited to this method as long as the position can be uniquely determined, and another method may be used. In FIG. 4, the computation is performed on the neuron cell population in the feature integration layer, but the neuron cell population in the feature detection layer may be used.

次に、ステップS1102において、眼特徴の左右方向の位置から両目間距離の1/2の長さ分、目領域の範囲を左右方向に広げ、目領域左右範囲を決定する。次に、ステップS1103において、眼特徴の上下方向位置から両目間距離の1/2の長さ分、目領域の範囲を上下方向に広げ、目領域上下範囲を決定する。そして、ステップS1104において、これら目領域左右範囲と目領域上下範囲とで囲まれた領域を目領域の一次抽出結果とし、目領域の一次抽出処理を終了する。   Next, in step S1102, the range of the eye region is expanded in the left-right direction by a length that is ½ of the distance between the eyes from the position in the left-right direction of the eye feature to determine the left-right range of the eye region. Next, in step S1103, the range of the eye area is expanded in the vertical direction by the length of ½ of the distance between the eyes from the vertical position of the eye feature, and the vertical range of the eye area is determined. In step S1104, the area surrounded by the left and right eye area ranges and the upper and lower eye area areas is set as the primary extraction result of the eye area, and the primary extraction process of the eye area is ended.

図12は、右眼特徴位置(REx,REy)と左眼特徴位置(LEx,LEy)とから目領域を一次抽出した結果を示す模式図である。
図12に示すように、両目間距離Ebwnを測定し、右眼特徴位置と、左眼特徴位置とからそれぞれ上下左右に両目間距離の半分のEbwn/2ずつ広げた領域を目領域の一次抽出結果としている。両目間距離は、目横幅に比べて充分に大きいことが多い。このため、一次抽出される目領域として、眼特徴位置から両目間距離の半分のEbwn/2だけ上下左右に広げると、目の存在する部分が、一次抽出された目領域からはみ出ることが少なくなる。なお、この後の目領域の二次抽出処理については、第1の実施形態と同様であるため、説明を省略する。
FIG. 12 is a schematic diagram illustrating a result of primary extraction of the eye region from the right eye feature position (REx, REy) and the left eye feature position (LEx, LEy).
As shown in FIG. 12, the distance Ebwn between both eyes is measured, and an area obtained by expanding Ebwn / 2 that is half of the distance between both eyes vertically and horizontally from the right eye feature position and the left eye feature position is primarily extracted. As a result. The distance between both eyes is often sufficiently larger than the eye width. For this reason, when the eye region is primarily expanded by Ebwn / 2 that is half the distance between the eyes from the eye feature position in the vertical and horizontal directions, the portion where the eyes exist is less likely to protrude from the primary extracted eye region. . Note that the subsequent secondary extraction processing of the eye region is the same as that in the first embodiment, and thus description thereof is omitted.

以上のように本実施形態においては、顔領域の検出を行っているときに中間結果メモリ102に蓄積される右眼特徴位置(REx,REy)及び左眼特徴位置(LEx,LEy)を用いて目領域の一次抽出を行う。そして、一次抽出された目領域(抽出範囲)からさらに輝度情報を用いて目領域の二次抽出を行うようにした。これにより、顔領域の検出を行っているときに目領域の抽出を行うことができ、目領域を効率よく、かつ高精度に検出することができる。   As described above, in this embodiment, the right eye feature position (REx, REy) and the left eye feature position (LEx, LEy) accumulated in the intermediate result memory 102 when the face area is detected are used. Perform primary extraction of the eye area. Then, secondary extraction of the eye area is further performed using luminance information from the eye area (extraction range) that has been primarily extracted. Thereby, the eye area can be extracted while the face area is detected, and the eye area can be detected efficiently and with high accuracy.

(本発明に係る他の実施形態)
前述した本発明の実施形態における画像処理装置を構成する各手段、並びに画像処理方法の各ステップは、コンピュータのRAMやROMなどに記憶されたプログラムが動作することによって実現できる。このプログラム及び前記プログラムを記録したコンピュータ読み取り可能な記録媒体は本発明に含まれる。
(Other embodiments according to the present invention)
Each means constituting the image processing apparatus and each step of the image processing method in the embodiment of the present invention described above can be realized by operating a program stored in a RAM or ROM of a computer. This program and a computer-readable recording medium recording the program are included in the present invention.

また、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施形態も可能であり、具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。   Further, the present invention can be implemented as, for example, a system, apparatus, method, program, or recording medium. Specifically, the present invention may be applied to a system including a plurality of devices. The present invention may be applied to an apparatus composed of a single device.

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図2、5、6、9、11に示すフローチャートに対応したプログラム)を、システムまたは装置に直接、または遠隔から供給する場合も含む。そして、そのシステムまたは装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。   In the present invention, a software program (in the embodiment, a program corresponding to the flowcharts shown in FIGS. 2, 5, 6, 9, and 11) that realizes the functions of the above-described embodiments is directly or remotely transmitted to the system or apparatus. Including the case of supplying from This includes the case where the system or the computer of the apparatus is also achieved by reading and executing the supplied program code.

したがって、本発明の機能処理をコンピュータで実現するために、前記コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。   Accordingly, since the functions of the present invention are implemented by computer, the program code installed in the computer also implements the present invention. In other words, the present invention includes a computer program itself for realizing the functional processing of the present invention.

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であってもよい。   In that case, as long as it has the function of a program, it may be in the form of object code, a program executed by an interpreter, script data supplied to the OS, and the like.

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスクなどがある。さらに、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などもある。   Examples of the recording medium for supplying the program include a flexible disk, a hard disk, an optical disk, and a magneto-optical disk. Further, there are MO, CD-ROM, CD-R, CD-RW, magnetic tape, nonvolatile memory card, ROM, DVD (DVD-ROM, DVD-R) and the like.

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する方法がある。そして、前記ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。   As another program supply method, there is a method of connecting to a homepage on the Internet using a browser of a client computer. The computer program itself of the present invention or a compressed file including an automatic installation function can be downloaded from the homepage by downloading it to a recording medium such as a hard disk.

また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。   It can also be realized by dividing the program code constituting the program of the present invention into a plurality of files and downloading each file from a different homepage. That is, a WWW server that allows a plurality of users to download a program file for realizing the functional processing of the present invention on a computer is also included in the present invention.

また、その他の方法として、本発明のプログラムを暗号化してCD−ROM等の記録媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。   As another method, the program of the present invention is encrypted, stored in a recording medium such as a CD-ROM, distributed to users, and encrypted from a homepage via the Internet to users who have cleared predetermined conditions. Download the key information to be solved. It is also possible to execute the encrypted program by using the key information and install the program on a computer.

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。さらに、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。   Further, the functions of the above-described embodiments are realized by the computer executing the read program. Furthermore, based on the instructions of the program, an OS or the like running on the computer performs part or all of the actual processing, and the functions of the above-described embodiments can be realized by the processing.

さらに、その他の方法として、まず記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。そして、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。   As another method, the program read from the recording medium is first written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer. Then, based on the instructions of the program, the CPU or the like provided in the function expansion board or function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are also realized by the processing.

本発明の第1の実施形態の画像処理装置の機能構成例を示すブロック図である。It is a block diagram which shows the function structural example of the image processing apparatus of the 1st Embodiment of this invention. 本発明の第1の実施形態の画像処理装置の主ルーチンの処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of the main routine of the image processing apparatus of the 1st Embodiment of this invention. 本発明の第1の実施形態において、階層的に被写体を検出する過程を示す模式図である。In the 1st Embodiment of this invention, it is a schematic diagram which shows the process in which a to-be-photographed object is detected hierarchically. 階層的神経回路網を示す図である。1 is a diagram showing a hierarchical neural network. FIG. 本発明の第1の実施形態における目領域の抽出処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the extraction process procedure of the eye area | region in the 1st Embodiment of this invention. 本発明の第1の実施形態における目領域の一次抽出処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the primary extraction process procedure of the eye area | region in the 1st Embodiment of this invention. 本発明の第1の実施形態における目領域の一次抽出結果の一例を示す図である。It is a figure which shows an example of the primary extraction result of the eye area | region in the 1st Embodiment of this invention. 本発明の第1の実施形態における目領域の一次抽出結果の一例を示す図である。It is a figure which shows an example of the primary extraction result of the eye area | region in the 1st Embodiment of this invention. 本発明の第1の実施形態における目領域の二次抽出処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the secondary extraction process procedure of the eye area | region in the 1st Embodiment of this invention. 本発明の第1の実施形態における目領域の二次抽出処理過程の一例を示す図である。It is a figure which shows an example of the secondary extraction process of an eye area | region in the 1st Embodiment of this invention. 本発明の第2の実施形態における目領域の一次抽出処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the primary extraction process sequence of the eye area | region in the 2nd Embodiment of this invention. 本発明の第2の実施形態における目領域の一次抽出結果の一例を示す図である。It is a figure which shows an example of the primary extraction result of the eye area | region in the 2nd Embodiment of this invention.

符号の説明Explanation of symbols

10 画像処理装置
100 画像入力部
101 顔領域検出部
102 中間結果メモリ
103 目領域抽出部
104 メモリ
105 システム制御部
106 表示部
107 記録部
DESCRIPTION OF SYMBOLS 10 Image processing apparatus 100 Image input part 101 Face area detection part 102 Intermediate result memory 103 Eye area extraction part 104 Memory 105 System control part 106 Display part 107 Recording part

Claims (8)

入力された画像から顔領域を検出する顔領域検出手段と、
前記顔領域検出手段によって前記顔領域を検出する過程で検出される目頭特徴及び目尻特徴の位置を用いて前記画像の中の目領域を一次抽出する一次抽出手段と
前記一次抽出手段により一次抽出された目領域の画素の輝度値を白黒2値化する2値化手段と、
前記2値化手段により得られた黒画素の連結領域の中からそれぞれの面積と位置とに基づいて黒目領域を選択する選択手段と、
前記一次抽出された目領域の上下方向を選択された前記黒目領域の上下の端部で限定して目領域を二次抽出する二次抽出手段とを有することを特徴とする画像処理装置。
Face area detecting means for detecting a face area from an input image;
A primary extracting unit for primary extraction an eye region in the image using the position of the inner corner features and eye area features detected in the step of detecting a face region by the face region detecting means,
Binarization means for binarizing the luminance value of the pixel in the eye region primarily extracted by the primary extraction means;
Selection means for selecting a black eye region based on the area and position of each of the black pixel connection regions obtained by the binarization unit;
An image processing apparatus comprising : secondary extraction means for performing secondary extraction of the eye region by limiting the vertical direction of the primary extracted eye region at the upper and lower ends of the selected black eye region .
前記選択手段は、前記黒画素の連結領域のうち、面積が最大であり、かつ、当該連結領域の重心位置と前記一次抽出された目領域の中心位置との距離が最小である領域を黒目領域として選択することを特徴とする請求項に記載の画像処理装置。 It said selecting means, among the connecting region of the black pixels, the area is the maximum, and area iris region is the distance between the center positions of the primary extracted eye region and the center of gravity position of the coupling region is minimal be selected as an image processing apparatus according to claim 1, wherein the. 前記2値化手段は、前記一次抽出された目領域の輝度分布に基づいて輝度閾値を決定し、当該輝度閾値により、前記一次抽出された目領域の画素の輝度値を白黒2値化することを特徴とする請求項1または2に記載の画像処理装置。The binarizing means determines a luminance threshold based on the luminance distribution of the primary extracted eye region, and binarizes the luminance value of the pixel of the primary extracted eye region based on the luminance threshold. The image processing apparatus according to claim 1, wherein: 入力された画像から顔領域を検出する顔領域検出ステップと、
前記顔領域検出ステップにおいて前記顔領域を検出する過程で検出される目頭特徴及び目尻特徴の位置を用いて前記画像の中の目領域を一次抽出する一次抽出ステップと
前記一次抽出ステップにおいて一次抽出された目領域の画素の輝度値を白黒2値化する2値化ステップと、
前記2値化ステップにおいて得られた黒画素の連結領域の中からそれぞれの面積と位置とに基づいて黒目領域を選択する選択ステップと、
前記一次抽出された目領域の上下方向を選択された前記黒目領域の上下の端部で限定して目領域を二次抽出する二次抽出ステップとを有することを特徴とする画像処理方法。
A face area detecting step for detecting a face area from the input image;
A primary extraction step of primary extraction an eye region in the image using the position of the inner corner features and eye area features detected in the step of detecting a face area in the face area detection step,
A binarization step for binarizing the luminance value of the pixel in the eye region primarily extracted in the primary extraction step;
A selection step of selecting a black eye region based on the area and position of each of the black pixel connection regions obtained in the binarization step;
And a secondary extraction step for secondary extraction of the eye region by limiting the vertical direction of the primary extracted eye region at the upper and lower ends of the selected black eye region .
前記選択ステップにおいては、前記黒画素の連結領域のうち、面積が最大であり、かつ、当該連結領域の重心位置と前記一次抽出された目領域の中心位置との距離が最小である領域を黒目領域として選択することを特徴とする請求項に記載の画像処理方法。 In the selection step, of the connecting region of the black pixels, the area is the maximum, and iris distance between the center positions of the primary extracted eye region and the center of gravity position of the connecting region an area is minimal The image processing method according to claim 4 , wherein the image processing method is selected as an area . 前記2値化ステップにおいては、前記一次抽出された目領域の輝度分布に基づいて輝度閾値を決定し、当該輝度閾値により、前記一次抽出された目領域の画素の輝度値を白黒2値化することを特徴とする請求項4または5に記載の画像処理方法。In the binarization step, a luminance threshold value is determined based on the luminance distribution of the primary extracted eye region, and the luminance value of the pixel of the primary extracted eye region is converted into a black and white binary by the luminance threshold value. The image processing method according to claim 4, wherein the image processing method is an image processing method. 入力された画像から顔領域を検出する顔領域検出ステップと、
前記顔領域検出ステップにおいて前記顔領域を検出する過程で検出される目頭特徴及び目尻特徴の位置を用いて前記画像の中の目領域を一次抽出する一次抽出ステップと
前記一次抽出ステップにおいて一次抽出された目領域の画素の輝度値を白黒2値化する2値化ステップと、
前記2値化ステップにおいて得られた黒画素の連結領域の中からそれぞれの面積と位置とに基づいて黒目領域を選択する選択ステップと、
前記一次抽出された目領域の上下方向を選択された前記黒目領域の上下の端部で限定して目領域を二次抽出する二次抽出ステップとをコンピュータに実行させることを特徴とするプログラム。
A face area detecting step for detecting a face area from the input image;
A primary extraction step of primary extraction an eye region in the image using the position of the inner corner features and eye area features detected in the step of detecting a face area in the face area detection step,
A binarization step for binarizing the luminance value of the pixel in the eye region primarily extracted in the primary extraction step;
A selection step of selecting a black eye region based on the area and position of each of the black pixel connection regions obtained in the binarization step;
A program for causing a computer to execute a secondary extraction step of secondary extraction of an eye region by limiting the vertical direction of the primary extracted eye region with upper and lower ends of the selected black eye region .
請求項に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium, wherein the program according to claim 7 is recorded.
JP2007259055A 2007-10-02 2007-10-02 Image processing apparatus and image processing method Expired - Fee Related JP4986797B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007259055A JP4986797B2 (en) 2007-10-02 2007-10-02 Image processing apparatus and image processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007259055A JP4986797B2 (en) 2007-10-02 2007-10-02 Image processing apparatus and image processing method

Publications (2)

Publication Number Publication Date
JP2009087250A JP2009087250A (en) 2009-04-23
JP4986797B2 true JP4986797B2 (en) 2012-07-25

Family

ID=40660561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007259055A Expired - Fee Related JP4986797B2 (en) 2007-10-02 2007-10-02 Image processing apparatus and image processing method

Country Status (1)

Country Link
JP (1) JP4986797B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6299300B2 (en) * 2014-03-14 2018-03-28 オムロン株式会社 Image processing apparatus and image processing method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4050842B2 (en) * 1998-06-15 2008-02-20 富士フイルム株式会社 Image processing method
JP4898026B2 (en) * 2001-06-29 2012-03-14 本田技研工業株式会社 Face / Gaze Recognition Device Using Stereo Camera
JP4298283B2 (en) * 2002-12-16 2009-07-15 キヤノン株式会社 Pattern recognition apparatus, pattern recognition method, and program

Also Published As

Publication number Publication date
JP2009087250A (en) 2009-04-23

Similar Documents

Publication Publication Date Title
JP4469873B2 (en) Image document search device, program, and recording medium
JP5775225B2 (en) Text detection using multi-layer connected components with histograms
CN111666842B (en) Shadow detection method based on double-current-cavity convolution neural network
US9171224B2 (en) Method of improving contrast for text extraction and recognition applications
JP2009211179A (en) Image processing method, pattern detection method, pattern recognition method, and image processing device
BE1026159B1 (en) IMAGE PROCESSING SYSTEM AND IMAGE PROCESSING METHOD
US11915465B2 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
CN106446885A (en) Paper-based Braille recognition method and system
CN113591831A (en) Font identification method and system based on deep learning and storage medium
CN109902751B (en) Dial digital character recognition method integrating convolution neural network and half-word template matching
CN117541546A (en) Method and device for determining image cropping effect, storage medium and electronic equipment
JP4986797B2 (en) Image processing apparatus and image processing method
CN112365451A (en) Method, device and equipment for determining image quality grade and computer readable medium
CN108133205B (en) Method and device for copying text content in image
KR20190093752A (en) Method and system for scene text detection using deep learning
CN111931689B (en) Method for extracting video satellite data identification features on line
CN112132822B (en) Suspicious illegal building detection algorithm based on transfer learning
JP4890351B2 (en) Image processing apparatus, image processing program, computer-readable recording medium storing the image processing program, and image processing method
KR101329492B1 (en) Apparatus and method for controlling camera for locating scene text to proper position and size
Rani et al. Object Detection in Natural Scene Images Using Thresholding Techniques
CN112749696B (en) Text detection method and device
CN114283403B (en) Image detection method, device, storage medium and equipment
KR101627653B1 (en) RANSAC based automatic game of go recording system and the method
CN109886276A (en) A kind of dial plate rolls the half-word judgment method of numerical character
KR102131243B1 (en) Plant Area Extraction System and Method Based on Deep Running and Connectivity Graphs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120424

R151 Written notification of patent or utility model registration

Ref document number: 4986797

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees