JP2009048347A - Image processing apparatus, method and program - Google Patents

Image processing apparatus, method and program Download PDF

Info

Publication number
JP2009048347A
JP2009048347A JP2007212659A JP2007212659A JP2009048347A JP 2009048347 A JP2009048347 A JP 2009048347A JP 2007212659 A JP2007212659 A JP 2007212659A JP 2007212659 A JP2007212659 A JP 2007212659A JP 2009048347 A JP2009048347 A JP 2009048347A
Authority
JP
Japan
Prior art keywords
image
face
detected
tracking
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007212659A
Other languages
Japanese (ja)
Inventor
Toshinori Nagahashi
敏則 長橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2007212659A priority Critical patent/JP2009048347A/en
Publication of JP2009048347A publication Critical patent/JP2009048347A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an image processing apparatus for tracking a person in a moving image regardless of the presence of an obstacle or changes in the background. <P>SOLUTION: The image processing apparatus includes a first detecting means (face detection/recognition module 62) for detecting a face image showing the face of a person to be tracked from a frame constituting a moving image; a second detecting means (second tracking area detection module 66) for detecting an image showing at least a portion of the body of the person from the frame; and a tracking means (central control module 65) for tracking the person based on the face image when the face image is detected and for tracking the person based on the image showing at least a portion of the body when the face image is not detected. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、画像処理装置、画像処理方法、および、画像処理プログラムに関する。   The present invention relates to an image processing device, an image processing method, and an image processing program.

特許文献1には、画像中の人物の顔などを抽出処理する技術が開示されている。この技
術では、互いに排他である2つの仮想領域を取得画像中に設定し、これら仮想領域間の分
離度に基づいて部分画像(顔の画像)を抽出する。
特開平11−296659号公報
Patent Document 1 discloses a technique for extracting a human face in an image. In this technique, two virtual regions that are mutually exclusive are set in an acquired image, and a partial image (face image) is extracted based on the degree of separation between these virtual regions.
Japanese Patent Laid-Open No. 11-296659

しかしながら、特許文献1に開示される技術では、動画像中における人物の顔をトラッ
キング(追跡)しようとすると、人物の顔が遮蔽物の背後に隠れた場合には、トラッキン
グが正常に行われなくなり、対象となる人物を見失ってしまう場合がある。また、シーン
によって背景が変化したり、時系列的に背景が変化したりする場合には、分離度が変化し
、人物の顔を適正にトラッキングできない場合がある。
However, in the technique disclosed in Patent Document 1, when a person's face in a moving image is tracked (tracked), if the person's face is hidden behind a shield, tracking is not performed normally. The target person may be lost. In addition, when the background changes depending on the scene or the background changes in time series, the degree of separation may change, and the person's face may not be properly tracked.

本発明は、上述した事情に鑑みてなされたものであり、遮蔽物の存在または背景の変化
によらず、動画中の人物を追跡することが可能な画像処理装置、画像処理方法、および、
画像処理プログラムを提供することを目的とする。
The present invention has been made in view of the above-described circumstances, and an image processing apparatus, an image processing method, and an image processing apparatus capable of tracking a person in a moving image regardless of the presence of a shielding object or a change in background.
An object is to provide an image processing program.

上記目的を達成するために、本発明は、動画を構成するフレームからトラッキング対象
である人物の顔を表す顔画像を検出する第1の検出手段と、前記人物の体の少なくとも一
部を表す画像を前記フレームから検出する第2の検出手段と、前記顔画像が検出された場
合には当該顔画像に基づいて前記人物のトラッキングを行い、前記顔画像が検出されない
場合には前記体の少なくとも一部を表す画像に基づいて前記人物のトラッキングを行うト
ラッキング手段と、を有することを特徴とする。
この構成によれば、顔が検出できた場合には顔により、また、顔が検出できなかった場
合には、体の一部、例えば、胴体に基づいてトラッキングが行われる。このため、遮蔽物
の存在または背景の変化によらず、動画中の人物を追跡することが可能になる。
To achieve the above object, the present invention provides a first detection means for detecting a face image representing the face of a person to be tracked from a frame constituting a moving image, and an image representing at least a part of the person's body. Second detection means for detecting the face from the frame, tracking the person based on the face image when the face image is detected, and at least one of the body when the face image is not detected. Tracking means for tracking the person based on an image representing a portion.
According to this configuration, tracking is performed based on a face when a face can be detected, and based on a part of the body, for example, a torso when a face cannot be detected. For this reason, it becomes possible to track the person in the moving image regardless of the presence of the shielding object or the change of the background.

また、本発明は、上記発明において、前記第1の検出手段は、顔を表す画像の特徴に基
づいて前記顔画像を検出し、前記第2の検出手段は、前記体の少なくとも一部を表す画像
の特徴量と、前記フレームのうち背景を表す画像の特徴量との差異に基づいて前記体の少
なくとも一部を表す画像を検出することを特徴とする。
この構成によれば、顔については顔が有する目、鼻、口等による画像としての特徴に基
づいて検出が行われ、体の少なくとも一部については背景との特徴量の差異に基づいて検
出が行われる。このため、異なる2つの検出方法によって対象がトラッキングされるので
、対象を見失う可能性を低くすることができる。
Also, in the present invention according to the above invention, the first detection unit detects the face image based on a feature of the image representing the face, and the second detection unit represents at least a part of the body. An image representing at least a part of the body is detected based on a difference between a feature amount of the image and a feature amount of an image representing a background in the frame.
According to this configuration, the face is detected based on the features of the face, such as the eyes, nose, mouth, and the like, and at least a part of the body is detected based on the difference in the feature amount from the background. Done. For this reason, since the object is tracked by two different detection methods, the possibility of losing the object can be reduced.

また、本発明は、上記発明において、前記第2の検出手段は、前記体の少なくとも一部
を表す画像及び前記背景を表す画像の複数の異なる種類の特徴量のうち、前記体の少なく
とも一部を表す画像と、前記背景を表す画像とを識別する能力が最も高い特徴量に基づい
て、前記体の少なくとも一部を表す画像を検出することを特徴とする。
この構成によれば、体の少なくとも一部を検出する際には、複数の特徴量が算出され、
その中から最も識別性が高いものが選択されて使用される。このため、対象の移動等に伴
って変化する背景の影響を最小限に抑えつつ、対象をトラッキングすることができる。
Also, in the present invention according to the above-described invention, the second detection unit includes at least a part of the body among a plurality of different types of feature amounts of an image representing at least a part of the body and an image representing the background. An image representing at least a part of the body is detected based on a feature amount having the highest ability to discriminate between an image representing the background and an image representing the background.
According to this configuration, when detecting at least a part of the body, a plurality of feature amounts are calculated,
Among them, the one with the highest discriminability is selected and used. For this reason, it is possible to track the object while minimizing the influence of the background that changes as the object moves.

また、本発明は、上記発明において、前記第2の検出手段は、前記体の少なくとも一部
を表す画像に該当する第1の領域を推定し、前記第1の領域の特徴量の分布と、前記第1
の領域以外の第2の領域の特徴量の分布との重複が最も少ない特徴量を前記識別する能力
が最も高い特徴量とする。
この構成によれば、体の少なくとも一部と背景との特徴量の分布曲線の重複部分が最も
少ないものが識別性が高い特徴量として判定される。このため、特徴量の統計的な性質に
基づいて、最も識別性が高い特徴量を的確かつ迅速に判定することができる。
Further, the present invention is the above invention, wherein the second detection means estimates a first region corresponding to an image representing at least a part of the body, and a distribution of feature amounts of the first region; The first
The feature amount having the smallest overlap with the feature amount distribution of the second region other than the second region is set as the feature amount having the highest identification capability.
According to this configuration, the feature amount distribution curve having at least a part of the body and the background having the smallest overlapping portion is determined as the feature amount having high discriminability. For this reason, it is possible to accurately and quickly determine the feature quantity with the highest discriminability based on the statistical properties of the feature quantity.

また、本発明は、上記発明において、前記第2の検出手段は、前記フレームよりも時系
列において前のフレームである前フレームから検出された前記体の少なくとも一部を表す
画像に基づいて算出される動きベクトルに基づいて、前記第1の領域を推定するか、また
は、前記フレームから検出された顔画像の位置、若しくは、大きさ、若しくは、向きに基
づいて前記第1の領域を推定することを特徴とする。
この構成によれば、第2の検出手段は、それよりも前のフレームで検出された体の少な
くとも一部に基づく動きベクトルまたは第1の検出手段によって検出された顔の位置、大
きさ、向きに基づいて、体の少なくとも一部に該当する領域を推定する。このため、動き
ベクトルまたは顔のいずれかまたは双方に基づいて推定を行うことにより、体の少なくと
も一部をより正確に推定することができることから、第2の検出手段による検出の精度を
向上できる。
Further, in the present invention according to the above invention, the second detection means is calculated based on an image representing at least a part of the body detected from a previous frame that is a previous frame in time series than the frame. The first region is estimated based on a motion vector to be estimated, or the first region is estimated based on the position, size, or orientation of a face image detected from the frame. It is characterized by.
According to this configuration, the second detection means is a motion vector based on at least a part of the body detected in the previous frame, or the position, size, and orientation of the face detected by the first detection means. Based on the above, an area corresponding to at least a part of the body is estimated. For this reason, by performing estimation based on either or both of the motion vector and the face, it is possible to more accurately estimate at least a part of the body, thereby improving the accuracy of detection by the second detection unit.

また、本発明は、上記発明において、前記第1の検出手段は、前記フレームよりも時系
列において前のフレームである前フレームから検出された前記顔画像または前記体の少な
くとも一部を表す画像に基づいて算出される動きベクトルに基づいて、前記フレームから
前記顔画像に該当する領域を推定し、前記推定された領域を優先して前記顔画像を検出す
ることを特徴とする。
この構成によれば、第1の検出手段は前のフレームにおける顔または体の少なくとも一
部に基づく動きベクトルに基づいて顔が存在する領域を推定し、推定された領域を優先的
に検出処理を行う。このため、第1の検出手段により顔を迅速に検出することが可能にな
ることから、顔の検出処理の負荷を軽減することができる。
Also, in the present invention according to the above-described invention, the first detection unit may convert the face image or the image representing at least a part of the body detected from a previous frame which is a previous frame in time series with respect to the frame. An area corresponding to the face image is estimated from the frame based on a motion vector calculated based on the motion vector, and the face image is detected with priority on the estimated area.
According to this configuration, the first detection means estimates a region where the face exists based on a motion vector based on at least a part of the face or body in the previous frame, and performs preferential detection processing on the estimated region. Do. For this reason, since the face can be quickly detected by the first detection means, the load of the face detection process can be reduced.

また、本発明は、動画を構成するフレームからトラッキング対象である人物の顔を表す
顔画像を検出し、前記人物の体の少なくとも一部を表す画像を前記フレームから検出し、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い、
前記顔画像が検出されなかった場合には前記体の少なくとも一部を表す画像に基づいて前
記人物のトラッキングを行うことを特徴とする。
この構成によれば、顔が検出できた場合には顔により、また、顔が検出できなかった場
合には、体の一部、例えば、胴体によってトラッキングが行われる。このため、遮蔽物の
存在または背景の変化によらず、動画中の人物を追跡することが可能になる。
Further, the present invention detects a face image representing a face of a person who is a tracking target from a frame constituting a moving image, detects an image representing at least a part of the person's body from the frame,
When the face image is detected, the person is tracked based on the face image,
When the face image is not detected, the person is tracked based on an image representing at least a part of the body.
According to this configuration, tracking is performed by the face when the face can be detected, and by a part of the body, for example, the torso when the face cannot be detected. For this reason, it becomes possible to track the person in the moving image regardless of the presence of the shielding object or the change of the background.

また、本発明は、動画を構成するフレームからトラッキング対象である人物の顔を表す
顔画像を検出する第1の検出手段、前記人物の体の一部を表す画像を前記フレームから検
出する第2の検出手段、前記顔画像が検出された場合には当該顔画像に基づいて前記人物
のトラッキングを行い、前記顔画像が検出されない場合には前記体の少なくとも一部を表
す画像に基づいて前記人物のトラッキングを行うトラッキング手段、としてコンピュータ
を機能させる。
この構成によれば、顔が検出できた場合には顔により、また、顔が検出できなかった場
合には、体の一部、例えば、胴体によってトラッキングが行われる。このため、遮蔽物の
存在または背景の変化によらず、動画中の人物を追跡することが可能になる。
Further, the present invention provides a first detection unit for detecting a face image representing a face of a person who is a tracking target from a frame constituting a moving image, and a second detection unit for detecting an image representing a part of the person's body from the frame. Detecting means for tracking the person based on the face image when the face image is detected, and for detecting the person based on an image representing at least a part of the body when the face image is not detected. The computer functions as a tracking means for performing tracking.
According to this configuration, tracking is performed by the face when the face can be detected, and by a part of the body, for example, the torso when the face cannot be detected. For this reason, it becomes possible to track the person in the moving image regardless of the presence of the shielding object or the change of the background.

以下、図面を参照して本発明の実施形態について説明する。なお、以下では、本発明の
画像処理装置を印刷装置として実施した場合を例に挙げて説明する。また、本発明の画像
処理方法および画像処理プログラムは、印刷装置の動作および印刷装置を制御するプログ
ラムとして説明する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. Hereinafter, a case where the image processing apparatus of the present invention is implemented as a printing apparatus will be described as an example. The image processing method and the image processing program of the present invention will be described as a program for controlling the operation of the printing apparatus and the printing apparatus.

(A)実施の形態の構成の説明
図1は、本発明を適用した実施形態に係る印刷装置の概略構成を示す図である。図1に
示すように、印刷装置10は、CPU(Central Processing Unit)11、ROM(Read
Only Memory)12、EEPROM(Electrically Erasable and Programmable ROM)1
3、RAM(Random Access Memory)14、画像処理部15、I/F(Interface)16
、バス17、LCD18、操作ボタン19、カードI/F回路20、メモリカードMが挿
入されるカードスロット21、プリンタエンジンコントローラ22、紙送りモータ23、
ローラ24、キャリッジモータ25、駆動ベルト26、キャリッジ27、および、記録ヘ
ッド28を有しており、この例では、動画再生装置40が接続ケーブル41によって接続
されている。
(A) Description of Configuration of Embodiment FIG. 1 is a diagram illustrating a schematic configuration of a printing apparatus according to an embodiment to which the present invention is applied. As shown in FIG. 1, a printing apparatus 10 includes a CPU (Central Processing Unit) 11 and a ROM (Read
Only Memory (12), EEPROM (Electrically Erasable and Programmable ROM) 1
3, RAM (Random Access Memory) 14, image processing unit 15, I / F (Interface) 16
, Bus 17, LCD 18, operation button 19, card I / F circuit 20, card slot 21 into which memory card M is inserted, printer engine controller 22, paper feed motor 23,
A roller 24, a carriage motor 25, a drive belt 26, a carriage 27, and a recording head 28 are provided. In this example, a moving image reproducing device 40 is connected by a connection cable 41.

ここで、CPU11は、ROM12に格納されているプログラム12aに応じて各種演
算処理を実行するとともに、紙送りモータ23およびキャリッジモータ25をはじめとす
る装置の各部を制御する。ROM12は、CPU11が実行するプログラム12aおよび
その他のデータを格納している半導体メモリである。RAM14は、CPU11が実行対
象とするプログラムやデータを一時的に格納する半導体メモリである。EEPROM13
は、CPU11における演算処理結果の所定のデータ等が格納され、印刷装置の電源が切
断された後もこのデータを保持することが可能な不揮発性の半導体メモリである。画像処
理部15は、CPU11から供給された描画命令に基づいて描画処理を実行し、得られた
画像データをLCD18に供給して表示させる。I/F16は、操作ボタン19、カード
I/F回路20、プリンタエンジンコントローラ22、および、動画再生装置40の間で
情報を授受する際に、データの表現形式を適宜変換する装置である。バス17は、CPU
11、ROM12、EEPROM13、RAM14、画像処理部15、および、I/F1
6、を相互に接続し、これらの間で情報の授受を可能とするための信号線群である。
Here, the CPU 11 executes various arithmetic processes in accordance with the program 12 a stored in the ROM 12 and controls each part of the apparatus including the paper feed motor 23 and the carriage motor 25. The ROM 12 is a semiconductor memory that stores a program 12a executed by the CPU 11 and other data. The RAM 14 is a semiconductor memory that temporarily stores programs and data to be executed by the CPU 11. EEPROM 13
Is a non-volatile semiconductor memory that stores predetermined data as a result of arithmetic processing in the CPU 11 and can retain this data even after the power of the printing apparatus is turned off. The image processing unit 15 executes a drawing process based on the drawing command supplied from the CPU 11 and supplies the obtained image data to the LCD 18 for display. The I / F 16 is a device that appropriately converts the data representation format when information is exchanged among the operation buttons 19, the card I / F circuit 20, the printer engine controller 22, and the moving image playback device 40. Bus 17 is a CPU
11, ROM 12, EEPROM 13, RAM 14, image processing unit 15, and I / F 1
6 is a signal line group for mutually connecting and enabling information exchange between them.

操作ボタン19は、ユーザの操作に応じた所定の情報を生成して出力する。メモリカー
ドMは、例えば、ディジタルカメラ等によって撮像された画像データ(静止画)が格納さ
れている不揮発メモリである。カードスロット21は、印刷装置10の筐体の一部に設け
られており、この部分にメモリカードMが挿入される。カードI/F回路20は、メモリ
カードMに情報を書き込んだり、メモリカードMから情報を読み出したりするためのイン
タフェースである。プリンタエンジンコントローラ22は、紙送りモータ23、キャリッ
ジモータ25、および、記録ヘッド28を制御するための制御部である。紙送りモータ2
3は、ローラ24を回転させることにより印刷用紙またはロール紙を副走査方向(キャリ
ッジ27の移動方向(主走査方向)に直交する方向)に移動させる。ローラ24は、円柱
状の部材によって構成され、印刷用紙またはロール紙を副走査方向に移動させる。キャリ
ッジモータ25は、キャリッジ27に一端が固定されている駆動ベルト26に駆動力を与
えることにより、キャリッジ27を主走査方向に往復動させる。記録ヘッド28は、印刷
用紙に対向する面に複数のノズルが形成されており、これら複数のノズルからインクを吐
出させることにより情報を印刷用紙に記録する。
The operation button 19 generates and outputs predetermined information corresponding to a user operation. The memory card M is a non-volatile memory that stores image data (still images) captured by a digital camera or the like, for example. The card slot 21 is provided in a part of the casing of the printing apparatus 10, and the memory card M is inserted into this part. The card I / F circuit 20 is an interface for writing information to the memory card M and reading information from the memory card M. The printer engine controller 22 is a control unit for controlling the paper feed motor 23, the carriage motor 25, and the recording head 28. Paper feed motor 2
3, the printing paper or the roll paper is moved in the sub-scanning direction (direction orthogonal to the moving direction of the carriage 27 (main scanning direction)) by rotating the roller 24. The roller 24 is configured by a cylindrical member, and moves printing paper or roll paper in the sub-scanning direction. The carriage motor 25 reciprocates the carriage 27 in the main scanning direction by applying a driving force to the driving belt 26 whose one end is fixed to the carriage 27. The recording head 28 has a plurality of nozzles formed on the surface facing the printing paper, and records information on the printing paper by discharging ink from the plurality of nozzles.

動画再生装置40は、例えば、DVD(Digital Versatile Disk)再生装置、ビデオ再
生装置、ビデオカメラ等によって構成されており、複数のフレームより構成される動画像
を再生して出力する。接続ケーブル41は、例えば、USB(Universal Serial Bus)ケ
ーブルまたはIEEE(Institute of Electrical and Electronic Engineers)1394
ケーブルによって構成され、USB規格またはIEEE1394規格に基づいた信号を、
動画再生装置40からI/F16に伝送する。なお、記録された動画像を再生するのでは
なく、例えば、テレビカメラ等によってリアルタイムで撮影された動画像を入力するよう
にしてもよい。
The moving image playback device 40 includes, for example, a DVD (Digital Versatile Disk) playback device, a video playback device, a video camera, and the like, and plays back and outputs a moving image composed of a plurality of frames. The connection cable 41 is, for example, a USB (Universal Serial Bus) cable or an IEEE (Institute of Electrical and Electronic Engineers) 1394.
Consists of cables and signals based on the USB standard or the IEEE 1394 standard.
It is transmitted from the moving image playback device 40 to the I / F 16. Instead of reproducing the recorded moving image, for example, a moving image captured in real time by a television camera or the like may be input.

つぎに、図2を参照して、図1に示すROM12に格納されているプログラム12aが
実行されることにより、ソフトウエアとしてのプログラム12aと、ハードウエアとして
のCPU11その他が協働することにより実現される機能ブロック群について説明する。
図2に示すように、プログラム12aが実行されることにより実現される機能ブロック群
60としては、動画像入力モジュール61、顔検出・認識モジュール62、第2のトラッ
キング領域推定モジュール63、画像特徴量算出モジュール64、中央制御モジュール6
5、第2のトラッキング領域検出モジュール66、および、演算結果出力モジュール67
が主に存在する。
ここで、動画像入力モジュール61は、動画再生装置40から出力される動画を入力す
るモジュールである。顔検出・認識モジュール62(請求項中「第1の検出手段」に対応
)は、動画を構成する各フレームから所定の人物の顔を第1のトラッキング領域として検
出するとともに、必要に応じて顔の認識処理(同一人物であるか否かの同定処理)を実行
するモジュールである。第2のトラッキング領域推定モジュール63(請求項中「第2の
検出手段」に対応)は、人物の顔以外の領域(主に胴体部分)を第2のトラッキング領域
とし、このトラッキング領域を、それよりも前のフレームにおける第2のトラッキング領
域の動きベクトル、または、顔の位置、大きさ、方向に基づいて各フレーム中から推定す
るモジュールである。画像特徴量算出モジュール64(請求項中「第2の検出手段」に対
応)は、推定された第2のトラッキング領域と背景のそれぞれについて、複数の種類の画
像特徴量(詳細は後述する)を算出し、出力する。中央制御モジュール65(請求項中「
トラッキング手段」に対応)は、処理の中核となるモジュールであり、一連の処理が適切
に実行されるように他のモジュールを制御する。第2のトラッキング領域検出モジュール
66(請求項中「第2の検出手段」に対応)は、画像特徴量算出モジュール64によって
算出された複数の画像特徴量のうち、最も識別性の高い特徴量に基づいて、第2のトラッ
キング領域を検出する。演算結果出力モジュール67は、演算処理の結果(トラッキング
の結果)のデータを出力する。
Next, referring to FIG. 2, the program 12a stored in the ROM 12 shown in FIG. 1 is executed, so that the program 12a as software and the CPU 11 as hardware cooperate with each other. The functional block group to be performed will be described.
As shown in FIG. 2, the functional block group 60 realized by executing the program 12a includes a moving image input module 61, a face detection / recognition module 62, a second tracking area estimation module 63, an image feature amount. Calculation module 64, central control module 6
5. Second tracking region detection module 66 and calculation result output module 67
Is mainly present.
Here, the moving image input module 61 is a module for inputting a moving image output from the moving image playback device 40. The face detection / recognition module 62 (corresponding to “first detection means” in the claims) detects a face of a predetermined person from each frame constituting the moving image as the first tracking area, and if necessary, the face This is a module for executing the recognition process (identification process for identifying whether or not they are the same person). The second tracking area estimation module 63 (corresponding to “second detection means” in the claims) uses an area other than the human face (mainly the body part) as the second tracking area, and uses this tracking area as the second tracking area. This is a module that estimates from each frame based on the motion vector of the second tracking area in the previous frame or the position, size, and direction of the face. The image feature amount calculation module 64 (corresponding to “second detection means” in the claims) obtains a plurality of types of image feature amounts (details will be described later) for each of the estimated second tracking region and background. Calculate and output. Central control module 65 ("
Corresponding to “tracking means”) is a module that is the core of the process, and controls other modules so that a series of processes are appropriately executed. The second tracking area detection module 66 (corresponding to “second detection means” in the claims) selects the feature quantity having the highest discriminability among the plurality of image feature quantities calculated by the image feature quantity calculation module 64. Based on this, a second tracking region is detected. The calculation result output module 67 outputs data of the calculation processing result (tracking result).

(B)実施の形態の動作の概要説明
つぎに、本実施の形態の動作の概要について説明する。本実施の形態では、動画像中の
人物をトラッキング(追跡)する。より詳細には、図3に示すように、動画像を構成する
フレーム80中の人物81の顔を含む領域としての第1のトラッキング領域82を顔検出
処理によって検出する。
そして、第1のトラッキング領域82の検出に成功した場合には、第1のトラッキング
領域82(顔)の大きさ、位置、および、方向等に基づいて、胴体を含む領域としての第
2のトラッキング領域83を推定する。また、第1のトラッキング領域82の検出に失敗
した場合には、時間的に前のフレームにおいて検出された第2のトラッキング領域83の
動きベクトルに基づいて、現フレームにおける第2のトラッキング領域83を推定する。
具体的には、図4に示すように、遮蔽物(この例ではボール95)の存在等によって第1
のトラッキング領域82が検出できない場合には、時間的に前のフレームにおいて検出さ
れた第2のトラッキング領域83の動きベクトルに基づいて、第2のトラッキング領域8
3の位置および範囲が推定される。
そして、第2のトラッキング領域83の領域の推定が完了すると、図3に示すように、
フレーム80を複数の小領域85に分割し、各小領域85のそれぞれについて、複数種類
の特徴量を算出する。算出する特徴量の種類としては、例えば、輝度、RGB(Red Gree
n Blue)色で指定されるヒストグラム、テキスチャ情報、空間周波数成分等がある。これ
ら複数の特徴量がそれぞれの小領域85について算出されると、つぎに、推定された第2
のトラッキング領域83に属する小領域85と、それ以外の領域(背景90)に属する小
領域85のそれぞれについて、特徴量の平均値および分散値を求める。
つづいて、それぞれの特徴量について、平均値と分散値に基づいて識別力を求める。こ
こで、識別力とは、当該特徴量に基づいて小領域85を第2のトラッキング領域83(胴
体部分)と背景とに分類する場合に、各小領域85がどちらに分類されるかを識別する能
力の高さをいう。より詳細には、図5に示すように、第2のトラッキング領域83に属す
る全ての小領域85の特徴量の分布曲線111と、背景90に属する全ての小領域85の
特徴量の分布曲線110との重複する部分(図中ハッチングを施した部分)の面積が最小
となる種類の特徴量を選択する。例えば、特徴量として、輝度、色ヒストグラム、テキス
チャ情報、空間周波数成分の4種類を使用する場合、これらのうち、分布曲線の重複する
部分の面積が最小であるのが色ヒストグラムである場合には、色ヒストグラムの識別力が
最も高いと判定される。なお、特徴量の分布曲線を正規分布曲線と仮定し、求められた特
徴量の平均値と分散値から、分布曲線の重複する部分を計算により数学的に求めてもよい
。すなわち、必ずしも正確な分布曲線を求める必要はなく、また分布曲線を描画して重複
する部分を求める必要はない。
(B) Outline of Operation of Embodiment Next, an outline of operation of the present embodiment will be described. In the present embodiment, a person in a moving image is tracked. More specifically, as shown in FIG. 3, a first tracking region 82 as a region including the face of a person 81 in a frame 80 constituting a moving image is detected by face detection processing.
If the detection of the first tracking region 82 is successful, the second tracking as a region including the body is performed based on the size, position, direction, and the like of the first tracking region 82 (face). Region 83 is estimated. If the detection of the first tracking area 82 fails, the second tracking area 83 in the current frame is determined based on the motion vector of the second tracking area 83 detected in the previous frame in time. presume.
Specifically, as shown in FIG. 4, the first is determined by the presence of a shield (ball 95 in this example).
If the tracking area 82 of the second tracking area 83 cannot be detected, the second tracking area 8 is detected based on the motion vector of the second tracking area 83 detected in the previous frame in time.
3 positions and ranges are estimated.
When the estimation of the second tracking area 83 is completed, as shown in FIG.
The frame 80 is divided into a plurality of small areas 85, and a plurality of types of feature amounts are calculated for each of the small areas 85. The types of feature quantities to be calculated include, for example, luminance, RGB (Red Gree
n Blue) histogram, texture information, spatial frequency components, etc. When the plurality of feature amounts are calculated for each small region 85, the estimated second value is then calculated.
For each of the small area 85 belonging to the tracking area 83 and the small area 85 belonging to the other area (background 90), the average value and the variance value of the feature values are obtained.
Subsequently, for each feature amount, the discriminating power is obtained based on the average value and the variance value. Here, the discriminating power is used to identify which small area 85 is classified when the small area 85 is classified into the second tracking area 83 (body part) and the background based on the feature amount. High ability to do. More specifically, as shown in FIG. 5, the feature amount distribution curve 111 of all small regions 85 belonging to the second tracking region 83 and the feature amount distribution curve 110 of all small regions 85 belonging to the background 90. The feature quantity of the type that minimizes the area of the overlapping part (the hatched part in the figure) is selected. For example, when four types of luminance, color histogram, texture information, and spatial frequency component are used as feature amounts, the color histogram has the smallest area of the overlapping portions of the distribution curve. The color histogram is determined to have the highest discriminating power. Note that the distribution curve of the feature amount may be assumed to be a normal distribution curve, and the overlapping portion of the distribution curve may be mathematically obtained by calculation from the average value and the variance value of the obtained feature amount. That is, it is not always necessary to obtain an accurate distribution curve, and it is not necessary to draw an overlapping portion by drawing the distribution curve.

つづいて、選択された特徴量に基づいて閾値を設定し、各小領域85を第2のトラッキ
ング領域83(胴体部分)と背景とに区別する。図5の例では、閾値Thよりも特徴量が
小さい小領域85については背景に属すると判断され、閾値Thよりも特徴量が大きい小
領域85については第2のトラッキング領域83(胴体部分)に属すると判断される。こ
れにより、胴体に属する小領域85が特定される。
つづいて、前述した顔検出処理によって第1のトラッキング領域82が検出された場合
には、第1のトラッキング領域82を代表する座標値およびその範囲を、トラッキング結
果として出力する。また、顔検出処理によって第1のトラッキング領域82が検出されな
かった場合には、第2のトラッキング領域83(胴体部分)に属する小領域85を代表す
る座標値およびその範囲を、トラッキング結果として出力する。これにより、遮蔽物によ
って顔が隠れた場合であっても、胴体によってトラッキングがなされるので、対象を見失
うことがない。
そして、つづく処理では、前回の処理において第1のトラッキング領域82(顔)が検
出された場合には第1のトラッキング領域82の動きベクトルに基づいて、新たなフレー
ム中において第1のトラッキング領域82が存在する領域を推定し、推定された領域内を
優先して顔検出処理を実行する。これにより、顔検出処理にかかる時間を短縮することが
できる。また、前回の処理において第1のトラッキング領域82が検出されなかった場合
には第2のトラッキング領域83の動きベクトルに基づいて、新たなフレーム中において
第2のトラッキング領域83が存在する領域を推定し、推定された第2のトラッキング領
域83に基づいて第1のトラッキング領域82が存在する領域をさらに推定し、推定され
た領域内を優先して顔検出処理を実行する。これにより、第1のトラッキング領域82を
見失うことを防止できるとともに、顔検出処理にかかる時間を短縮することができる。
Subsequently, a threshold value is set based on the selected feature amount, and each small area 85 is distinguished from the second tracking area 83 (body part) and the background. In the example of FIG. 5, it is determined that the small region 85 having a feature amount smaller than the threshold Th belongs to the background, and the small region 85 having a feature amount larger than the threshold Th is in the second tracking region 83 (body portion). Judged to belong. Thereby, the small region 85 belonging to the trunk is specified.
Subsequently, when the first tracking area 82 is detected by the face detection process described above, a coordinate value representing the first tracking area 82 and its range are output as a tracking result. If the first tracking area 82 is not detected by the face detection process, the coordinate value representing the small area 85 belonging to the second tracking area 83 (the body part) and its range are output as the tracking result. To do. As a result, even if the face is hidden by the shielding object, tracking is performed by the torso, so that the target is not lost.
In the subsequent process, when the first tracking area 82 (face) is detected in the previous process, the first tracking area 82 in the new frame is based on the motion vector of the first tracking area 82. The area in which the image exists is estimated, and the face detection process is executed with priority on the estimated area. Thereby, the time required for the face detection process can be shortened. If the first tracking area 82 is not detected in the previous process, the area where the second tracking area 83 exists in the new frame is estimated based on the motion vector of the second tracking area 83. Then, a region where the first tracking region 82 exists is further estimated based on the estimated second tracking region 83, and the face detection process is executed with priority in the estimated region. Thereby, it is possible to prevent the first tracking area 82 from being lost, and it is possible to shorten the time required for the face detection process.

(C)実施の形態の動作の詳細説明
つぎに、本発明の実施の形態の動作について詳細に説明する。図6は、図2に示す機能
ブロックにより実行される処理を説明するフローチャートである。この処理では、動画像
中の人物をトラッキングする。なお、トラッキング対象となる人物については、例えば、
ユーザが操作ボタン19を操作することにより特定するようにしてもよいし、あるいは、
動画像中の全ての人物についてトラッキングの対象としてもよい。
動画再生装置40から接続ケーブル41およびI/F16を介して動画像が入力される
と、動画像入力モジュール61は、入力された動画像から一つのフレームを抽出し、中央
制御モジュール65に供給する。中央制御モジュール65は、供給された動画像のフレー
ムから、動きベクトルを算出する(ステップS10)。より詳細には、直前の2フレーム
において第1のトラッキング領域82としての顔が検出された場合には、これら2つのフ
レームにおける顔の位置座標F1=(X1,Y1)、F2=(X2,Y2)およびフレー
ム間の時間Tに基づき、動きベクトルV=(F2−F1)/Tを算出し、1つ前のフレー
ムの位置座標F2と動きベクトルVと時間Tに基づいて、現フレームにおける顔の位置座
標F3=(X3,Y3)を推定する。また、直前の2フレームの少なくとも1つにおいて
顔が検出されなかった場合には、直前の2フレームにおける胴体(第2のトラッキング領
域83)の位置座標に基づいて、前述の場合と同様の処理により、胴体の動きベクトルを
検出し、この動きベクトルに基づいて現フレームにおける胴体の位置座標を推定する。
(C) Detailed Description of Operation of Embodiment Next, the operation of the embodiment of the present invention will be described in detail. FIG. 6 is a flowchart for explaining processing executed by the functional blocks shown in FIG. In this process, a person in the moving image is tracked. As for the person to be tracked, for example,
The user may specify by operating the operation button 19, or
All persons in the moving image may be subject to tracking.
When a moving image is input from the moving image playback device 40 via the connection cable 41 and the I / F 16, the moving image input module 61 extracts one frame from the input moving image and supplies it to the central control module 65. . The central control module 65 calculates a motion vector from the supplied moving image frame (step S10). More specifically, when a face as the first tracking area 82 is detected in the immediately preceding two frames, the face position coordinates F1 = (X1, Y1) and F2 = (X2, Y2) in these two frames. ) And the time T between the frames, the motion vector V = (F2−F1) / T is calculated, and the face coordinates in the current frame are calculated based on the position coordinates F2 of the previous frame, the motion vector V, and the time T. The position coordinate F3 = (X3, Y3) is estimated. If no face is detected in at least one of the immediately preceding two frames, the same processing as described above is performed based on the position coordinates of the body (second tracking area 83) in the immediately preceding two frames. The body motion vector is detected, and the position coordinates of the body in the current frame are estimated based on the motion vector.

顔または胴体の動きベクトルが計算されると、中央制御モジュール65は、顔検出・認
識モジュール62に対して、推定された顔または胴体(第1または第2のトラッキング領
域)の位置座標を供給するとともに、現フレームから対象となる人物の顔を検出するよう
に指示する。その結果、顔検出・認識モジュール62は、現フレームに対して顔検出処理
を実行する(ステップS11)。その際、推定された顔の位置座標が供給された場合には
、当該位置座標の周辺を優先して顔検出処理を実行する。また、推定された胴体の位置座
標が供給された場合には、当該位置座標から顔の位置座標を推定し、推定された位置座標
の周辺を優先して顔検出処理を実行する。なお、胴体から顔の位置を検出する方法として
は、例えば、胴体を矩形の領域として表した場合に、当該矩形の短手方向に存在する辺の
いずれか一方の近傍に顔が存在すると判定でき、また、顔の大きさとしては矩形の面積か
ら推定することができる(例えば、1/4の面積として推定することができる)。
顔検出処理の具体的な内容としては、例えば、図7(A)に示すテンプレート(顔の特
徴点である目、鼻、口を含む画像)と相関が高い領域が含まれている領域に顔が含まれて
いると判定する。なお、含まれている顔の大きさは、被写体とカメラの距離によって変化
し、また、被写体が複数である場合も想定されるので、図7(A)に示すように大きさの
異なる複数のテンプレート(図7(A)では第1から第5の5枚のテンプレート)を用い
て顔の検出を行うとともに、例えば、10人分の顔領域が発見されるまで処理を繰り返し
てもよい。また、テンプレートの画像の解像度が高い場合には、各個人の顔の特徴に影響
を受けてマッチング処理の精度が低下するので、図7(B)に示すように、テンプレート
にモザイク処理を施すことにより、各個人の特徴に影響を受けにくくしている。
なお、実際には、人物は正面ではなく、上、下、左、右の方向を向いている場合も想定
され、また、顔の角度もフレーム中において右または左のいずれかに傾いていることも想
定される。そのため、実際の処理では、上、下、左、右の方向を向いているものに対応す
る複数のテンプレートを使用する。また、顔の角度に対応するために、これら複数のテン
プレートを、右または左に所定の角度ずつ傾けながら検出処理を実行する。
そして、フレーム中に顔(第1のトラッキング領域82)が検出された場合には、顔検
出・認識モジュール62は、顔の中心座標とその大きさを、中央制御モジュール65に供
給する。また、顔が検出できなかった場合には、検出できなかった旨を中央制御モジュー
ル65に通知する。
なお、特定の人物をトラッキングする場合には、顔検出・認識モジュール62は、検出
された顔から特徴量(例えば、目、鼻、口の大きさおよび配置関係を示す情報)を抽出し
、人物の同定処理(認識処理)を実行する。
When the motion vector of the face or torso is calculated, the central control module 65 supplies the estimated position coordinates of the face or torso (first or second tracking region) to the face detection / recognition module 62. At the same time, an instruction is given to detect the face of the target person from the current frame. As a result, the face detection / recognition module 62 performs face detection processing on the current frame (step S11). At this time, when the estimated position coordinates of the face are supplied, the face detection process is executed with priority on the periphery of the position coordinates. Further, when the estimated position coordinates of the body are supplied, the position coordinates of the face are estimated from the position coordinates, and face detection processing is executed with priority on the periphery of the estimated position coordinates. As a method for detecting the position of the face from the torso, for example, when the torso is represented as a rectangular area, it can be determined that the face exists in the vicinity of one of the sides existing in the short direction of the rectangle. In addition, the face size can be estimated from a rectangular area (for example, it can be estimated as a quarter area).
As specific contents of the face detection processing, for example, a face is included in an area that includes an area highly correlated with the template shown in FIG. 7A (an image including eyes, nose, and mouth that are facial feature points). Is determined to be included. Note that the size of the included face varies depending on the distance between the subject and the camera, and it is also assumed that there are a plurality of subjects, so a plurality of different sizes as shown in FIG. While detecting a face using a template (first to fifth templates in FIG. 7A), for example, the processing may be repeated until a face area for 10 people is found. In addition, when the resolution of the template image is high, the accuracy of the matching process is affected by the characteristics of each individual's face, so the template is subjected to mosaic processing as shown in FIG. 7B. This makes it less susceptible to the characteristics of each individual.
Actually, it is assumed that the person is facing the top, bottom, left, and right directions instead of the front, and the face angle is tilted to the right or left in the frame. Is also envisaged. Therefore, in actual processing, a plurality of templates corresponding to those facing in the upward, downward, left, and right directions are used. Further, in order to correspond to the angle of the face, detection processing is executed while tilting the plurality of templates to the right or left by a predetermined angle.
When a face (first tracking area 82) is detected in the frame, the face detection / recognition module 62 supplies the center coordinates and the size of the face to the central control module 65. If the face cannot be detected, the central control module 65 is notified that the face has not been detected.
When tracking a specific person, the face detection / recognition module 62 extracts a feature amount (for example, information indicating the size of the eyes, the nose, the mouth, and the arrangement relationship) from the detected face. The identification process (recognition process) is executed.

顔の検出処理が完了すると、つぎに、中央制御モジュール65は、第2のトラッキング
領域推定モジュール63に対して、第2のトラッキング領域83(胴体)を推定するよう
に指示をする。その結果、第2のトラッキング領域推定モジュール63は、ステップS1
1で検出された顔(第1のトラッキング領域82)に基づいて第2のトラッキング領域8
3を推定するか、または、直前のフレームから求めた第2のトラッキング領域83の動き
ベクトルに基づいて現フレームにおける第2のトラッキング領域83を推定する(ステッ
プS12)。より詳細には、ステップS11において顔が検出できた場合には、顔の大き
さ、位置、および、方向に基づいて第2のトラッキング領域83を推定する。一例として
、顔の検出に使用されたテンプレートの縦、横がそれぞれ2倍の大きさの矩形を第2のト
ラッキング領域83と想定し、検出された顔の位置(例えば、中心座標)と方向(顔の左
右方向の傾き)に基づいて、第2のトラッキング領域83の位置を推定する。すなわち、
顔の傾き方向の直線上であって、顔の中心位置から所定の距離だけ離れた位置を第2のト
ラッキング領域83の中心とする。胴体は顔から一定の距離を隔てて存在し、また、胴体
の大きさは顔の大きさと一定の相関を有するからである。
また、顔が検出できなかった場合には、それよりも前のフレームにおける第2のトラッ
キング領域83の動きベクトルに基づいて、現フレームにおける第2のトラッキング領域
83を推定する。具体的には、直前の2フレームにおいて検出された第2のトラッキング
領域83の中心座標の位置の変化から動きベクトルを検出し、この動きベクトルに基づい
て現フレームにおける第2のトラッキング領域83の中心座標を推定する。また、直前の
フレームにおける第2のトラッキング領域83の大きさに基づいて現フレームにおける第
2のトラッキング領域83の大きさを推定する。なお、配置角度については、例えば、直
前の2フレームにおける回転ベクトル(回転方向および速度を示すベクトル)を計算し、
これに基づいて現フレームにおける第2のトラッキング領域83の配置角度を推定するよ
うにしてもよい。
なお、以上の説明では、顔が検出された場合には、顔に基づいて第2のトラッキング領
域83を推定し、顔が検出されなかった場合には、直前のフレームにおける第2のトラッ
キング領域83に基づいて現フレームにおける第2のトラッキング領域83を推定するよ
うにしたが、顔が検出された場合には、これらを組み合わせて使用するようにしてもよい
。具体的には、例えば、動きベクトルを用いて第2のトラッキング領域83の中心座標を
推定し、顔の大きさ、位置、方向に基づいて、第2のトラッキング領域83の大きさおよ
び方向を推定するようにしてもよい。
第2のトラッキング領域83が推定されると、第2のトラッキング領域推定モジュール
63は、推定された第2のトラッキング領域83の中心座標、大きさ、および、方向を中
央制御モジュール65に通知する。
When the face detection process is completed, the central control module 65 then instructs the second tracking area estimation module 63 to estimate the second tracking area 83 (torso). As a result, the second tracking region estimation module 63 performs step S1.
2 based on the face detected in 1 (first tracking area 82).
3 or the second tracking region 83 in the current frame is estimated based on the motion vector of the second tracking region 83 obtained from the immediately preceding frame (step S12). More specifically, when a face can be detected in step S11, the second tracking area 83 is estimated based on the size, position, and direction of the face. As an example, assuming that the second tracking area 83 is a rectangle whose vertical and horizontal dimensions are twice as large as that of the template used for face detection, the detected face position (for example, center coordinates) and direction ( The position of the second tracking region 83 is estimated based on the inclination of the face in the horizontal direction. That is,
The center of the second tracking area 83 is a position on the straight line in the tilt direction of the face that is a predetermined distance away from the center position of the face. This is because the torso exists at a certain distance from the face, and the size of the torso has a certain correlation with the size of the face.
If the face cannot be detected, the second tracking area 83 in the current frame is estimated based on the motion vector of the second tracking area 83 in the previous frame. Specifically, a motion vector is detected from a change in the center coordinate position of the second tracking region 83 detected in the immediately preceding two frames, and the center of the second tracking region 83 in the current frame is detected based on the motion vector. Estimate the coordinates. Further, the size of the second tracking region 83 in the current frame is estimated based on the size of the second tracking region 83 in the immediately preceding frame. As for the arrangement angle, for example, a rotation vector (vector indicating the rotation direction and speed) in the immediately preceding two frames is calculated,
Based on this, the arrangement angle of the second tracking region 83 in the current frame may be estimated.
In the above description, when a face is detected, the second tracking area 83 is estimated based on the face, and when no face is detected, the second tracking area 83 in the immediately preceding frame is estimated. The second tracking region 83 in the current frame is estimated based on the above, but when a face is detected, these may be used in combination. Specifically, for example, the center coordinates of the second tracking region 83 are estimated using a motion vector, and the size and direction of the second tracking region 83 are estimated based on the size, position, and direction of the face. You may make it do.
When the second tracking region 83 is estimated, the second tracking region estimation module 63 notifies the central control module 65 of the estimated center coordinates, size, and direction of the second tracking region 83.

中央制御モジュール65は、推定された第2のトラッキング領域83に関する情報を受
け取ると、画像特徴量算出モジュール64に対して、当該情報を供給するとともに、画像
を小領域に分割するように指示する。その結果、画像特徴量算出モジュール64は、現フ
レームの画像を図3に示すように複数の小領域85に分割する(ステップS13)。なお
、分割の方法としては、例えば、各小領域85がMCU(Minimum Coded Unit)と同サイ
ズである縦、横、それぞれ8画素を有するように分割することができる。
When the central control module 65 receives the information on the estimated second tracking area 83, the central control module 65 supplies the information to the image feature amount calculation module 64 and instructs the image to be divided into small areas. As a result, the image feature amount calculation module 64 divides the image of the current frame into a plurality of small regions 85 as shown in FIG. 3 (step S13). As a division method, for example, each small area 85 can be divided so as to have 8 pixels in the vertical and horizontal directions, each having the same size as an MCU (Minimum Coded Unit).

小領域85への分割処理が完了すると、中央制御モジュール65は、画像特徴量算出モ
ジュール64に対して推定された第2のトラッキング領域83と、背景のそれぞれに属す
る小領域85の特徴量を複数算出するように指示する。その結果、画像特徴量算出モジュ
ール64は、まず、第2のトラッキング領域83の属する小領域85(図3では推定され
た第2のトラッキング領域83にその面積の半分以上が属している小領域85)のそれぞ
れについて、輝度、RGBで指定される色ヒストグラム、テキスチャ情報、および、空間
周波数成分を計算する(ステップS14)。
より詳細には、輝度としては、各小領域85を構成する画素のRGBの画像データに基
づいて周知の計算式により輝度を算出する。色ヒストグラムについては、各小領域85を
構成する画素のRGB毎の色の分布を示すヒストグラムを算出する。テキスチャ情報につ
いては、例えば、各小領域85を構成する画素の明暗のパターンを示す情報を算出する。
また、色空間周波数成分については、各小領域85をガボール変換またはフーリエ変換し
た場合に得られる周波数成分を算出する。
そして、全ての小領域85に対して全ての種類の特徴量の算出が完了すると、画像特徴
量算出モジュール64は、計算結果を中央制御モジュール65に供給する。
When the division processing into the small areas 85 is completed, the central control module 65 sets a plurality of feature quantities of the second tracking area 83 estimated for the image feature quantity calculation module 64 and the small areas 85 belonging to the background. Instruct to calculate. As a result, the image feature amount calculation module 64 firstly has a small region 85 to which the second tracking region 83 belongs (the small region 85 to which more than half of the area belongs to the second tracking region 83 estimated in FIG. 3). ), Luminance, a color histogram specified by RGB, texture information, and a spatial frequency component are calculated (step S14).
More specifically, as the luminance, the luminance is calculated by a well-known calculation formula based on the RGB image data of the pixels constituting each small region 85. As for the color histogram, a histogram indicating the color distribution for each RGB of the pixels constituting each small region 85 is calculated. For the texture information, for example, information indicating the light / dark pattern of the pixels constituting each small region 85 is calculated.
For the color space frequency component, a frequency component obtained when each small region 85 is subjected to Gabor transform or Fourier transform is calculated.
When the calculation of all types of feature amounts for all the small regions 85 is completed, the image feature amount calculation module 64 supplies the calculation result to the central control module 65.

中央制御モジュール65は、ステップS14において算出された特徴量に基づいて、識
別性が最も高い特徴量を選択する(ステップS15)。より詳細には、それぞれの特徴量
について、推定された第2のトラッキング領域83に属する小領域85全ての特徴量に対
する分布式と、それ以外の領域に属する小領域85全ての特徴量に対する分布曲線を以下
の式(1)に基づいて求める。なお、μは各領域に属する全ての小領域85の特徴量の平
均値であり、σは各領域に属する全ての小領域85の特徴量の分散値を示す。

Figure 2009048347
そして、図5に示すように、第2のトラッキング領域83に属する全ての小領域85の
特徴量の分布曲線111と、背景90に属する全ての小領域85の特徴量の分布曲線11
0を比較した場合に、これらの分布曲線110,111の重複する面積が少ないものを、
最も識別性が高い特徴量と判断する。例えば、分布曲線の重複する面積が最も少ないのが
、色ヒストグラムである場合には色ヒストグラムが識別性が最も高い特徴量として選択さ
れる。なお、このとき、図5に示すように、重複する領域の中間値を閾値Thとして算出
する。 The central control module 65 selects the feature quantity having the highest discriminability based on the feature quantity calculated in step S14 (step S15). More specifically, for each feature quantity, a distribution formula for the feature quantities of all the small areas 85 belonging to the estimated second tracking area 83 and a distribution curve for the feature quantities of all the small areas 85 belonging to the other areas. Is obtained based on the following equation (1). Note that μ is an average value of feature values of all small regions 85 belonging to each region, and σ represents a variance value of feature values of all small regions 85 belonging to each region.
Figure 2009048347
Then, as shown in FIG. 5, the feature amount distribution curve 111 of all the small regions 85 belonging to the second tracking region 83 and the feature amount distribution curve 11 of all the small regions 85 belonging to the background 90.
When 0 is compared, the one where these distribution curves 110 and 111 have a small overlapping area,
Judge as the feature quantity with the highest discriminability. For example, when the area where the distribution curve overlaps is the smallest in the color histogram, the color histogram is selected as the feature quantity having the highest discriminability. At this time, as shown in FIG. 5, an intermediate value of overlapping regions is calculated as a threshold Th.

識別性が高い特徴量が選択されると、中央制御モジュール65は、選択された特徴量お
よび閾値Thを第2のトラッキング領域検出モジュール66に通知するとともに、第2の
トラッキング領域83を検出するように指示する。この結果、第2のトラッキング領域検
出モジュール66は、選択された特徴量と閾値Thに基づいて、各小領域85の特徴量と
閾値Thとを比較し、第2のトラッキング領域83(胴体)に属するか否かを判定するこ
とにより、第2のトラッキング領域83を検出する(ステップS16)。例えば、図5に
示す例では、各小領域85の特徴量が閾値Th以上である場合には第2のトラッキング領
域83に属すると判定し、Th未満である場合には属しないと判定する。そして、このよ
うな判定処理を全ての小領域85に対して実行する。この結果、例えば、図8にハッチン
グを示す領域が、第2のトラッキング領域83として検出される。このようにして検出さ
れた第2のトラッキング領域83に関する情報(例えば、第2のトラッキング領域83に
属する小領域85の位置を示す情報)は、中央制御モジュール65に通知される。
なお、全ての小領域85について判定するのではなく、例えば、ステップS12におい
て推定された第2のトラッキング領域83に属する小領域85およびその周辺に存在する
小領域85のみを対象として判定するようにしてもよい。
When a feature quantity with high discriminability is selected, the central control module 65 notifies the second tracking area detection module 66 of the selected feature quantity and threshold value Th, and detects the second tracking area 83. To instruct. As a result, the second tracking region detection module 66 compares the feature amount of each small region 85 with the threshold Th based on the selected feature amount and the threshold Th, and the second tracking region 83 (body) By determining whether or not it belongs, the second tracking region 83 is detected (step S16). For example, in the example shown in FIG. 5, when the feature amount of each small region 85 is equal to or greater than the threshold Th, it is determined that it belongs to the second tracking region 83, and when it is less than Th, it is determined that it does not belong. Then, such a determination process is executed for all the small areas 85. As a result, for example, the hatched area in FIG. 8 is detected as the second tracking area 83. Information regarding the second tracking area 83 detected in this way (for example, information indicating the position of the small area 85 belonging to the second tracking area 83) is notified to the central control module 65.
Instead of determining all the small areas 85, for example, only the small area 85 belonging to the second tracking area 83 estimated in step S12 and the small areas 85 existing in the vicinity thereof are determined as targets. May be.

つづいて、中央制御モジュール65は、ステップS11において、第1のトラッキング
領域82の検出に成功したか否かを判定する(ステップS17)。その結果、ステップS
11において第1のトラッキング領域82(顔)の検出に成功した場合(ステップS17
においてYesと判定した場合)にはステップS18に進み、それ以外の場合(ステップ
S17においてNoと判定した場合)にはステップS19に進む。例えば、第1のトラッ
キング領域82の検出に成功した場合にはステップS18に進む。
Subsequently, the central control module 65 determines whether or not the first tracking area 82 has been successfully detected in step S11 (step S17). As a result, step S
11 successfully detects the first tracking area 82 (face) (step S17).
If YES in step S18), the process proceeds to step S18. In other cases (NO in step S17), the process proceeds to step S19. For example, if the first tracking area 82 is successfully detected, the process proceeds to step S18.

第1のトラッキング領域82の検出に成功した場合にはステップS18に進み、中央制
御モジュール65は、第1のトラッキング領域82としての顔を代表する位置座標(例え
ば、顔の中心座標)と、その範囲を示す情報(例えば、顔を含む矩形)とを演算結果出力
モジュール67を介して出力する。この結果、例えば、LCD18には、図9に示すよう
に、第1のトラッキング領域82である顔を囲む矩形120が、画像とともに表示される
If the detection of the first tracking area 82 is successful, the process proceeds to step S18, and the central control module 65 determines the position coordinates representing the face as the first tracking area 82 (for example, the center coordinates of the face), Information indicating the range (for example, a rectangle including the face) is output via the calculation result output module 67. As a result, for example, as shown in FIG. 9, a rectangle 120 surrounding the face, which is the first tracking area 82, is displayed on the LCD 18 together with the image.

第1のトラッキング領域82が検出できなかった場合にはステップS19に進み、中央
制御モジュール65は、第2のトラッキング領域83としての胴体を代表する位置座標(
例えば、図8に示すハッチングが施された全ての小領域85の重心座標)と、その範囲を
示す情報(例えば、図8に示すハッチングが施された全ての小領域85を囲む矩形)とを
演算結果出力モジュール67を介して出力する。この結果、例えば、LCD18には、図
10に示すように、第2のトラッキング領域83である胴体を囲む矩形121が、画像と
ともに表示される。
If the first tracking area 82 cannot be detected, the process proceeds to step S19, where the central control module 65 determines the position coordinates (representing the body as the second tracking area 83) (
For example, the coordinates of the center of gravity of all the small regions 85 shown in FIG. 8) and information indicating the range (for example, a rectangle surrounding all the small regions 85 shown in FIG. 8). The result is output via the calculation result output module 67. As a result, for example, as shown in FIG. 10, a rectangle 121 surrounding the body that is the second tracking region 83 is displayed on the LCD 18 together with the image.

このようにしてLCD18に表示された画像と、矩形120,121を参照することに
より、同一の人物をトラッキングすることができる。また、顔が遮蔽物によって遮られた
場合であっても、トラッキングが途絶えることがない。したがって、例えば、図4に示す
ように、サッカーの試合等において、ボールが顔の付近に存在しているような場合(例え
ば、ヘディングをしている場合)であっても、トラッキングが途絶えることがない。した
がって、特定の選手の決定的な瞬間(例えば、ヘディングシュートをした瞬間)を逃すこ
となく、トラッキングするとともに、そのような瞬間を、印刷用紙に印刷することができ
る。
Thus, the same person can be tracked by referring to the image displayed on the LCD 18 and the rectangles 120 and 121. Further, even when the face is blocked by the shielding object, tracking is not interrupted. Therefore, for example, as shown in FIG. 4, in a soccer game or the like, even when the ball is present near the face (for example, when heading), tracking may be interrupted. Absent. Therefore, it is possible to track without missing a decisive moment of a specific player (for example, a moment when a heading shot is taken) and to print such a moment on a print sheet.

つぎに、中央制御モジュール65は、処理を終了するか否かを判定し(ステップS20
)、終了する場合(ステップS20においてNoと判定した場合)にはステップS10に
戻って、前述の場合と同様の処理を繰り返し、それ以外の場合(ステップS20において
Yesと判定した場合)には処理を終了する。
Next, the central control module 65 determines whether or not to end the process (step S20).
), If finished (if determined No in step S20), return to step S10 and repeat the same process as described above, otherwise process (if determined Yes in step S20) Exit.

図6に示す処理では、第1のトラッキング領域(顔)を検出できた場合でも第2のトラ
ッキング領域を検出している。この理由は、第1のトラッキング領域が検出できなくなっ
た時点で第2のトラッキング領域の検出を行う構成では、以前のフレームに第2のトラッ
キング領域に関する情報が存在しないため、第2のトラッキング領域の検出精度が悪くな
ることを考慮し、常に第2のトラッキング領域を検出しておく構成を取っているためであ
る。これにより以降のフレームにおいて第1のトラッキング領域が検出できなくなった場
合でも、検出しておいた第2のトラッキング領域に基づいてトラッキングを中断すること
なく継続させることができる。また、図6に示す処理は、例えば、フレーム単位で実行さ
れるので、各フレーム中における人物を連続してトラッキングすることができる。また、
図3,4の例では、人物が1人である場合を例に挙げて説明したが、複数の人物が存在す
る場合には、それぞれの人物または指定された特定の人物がトラッキングの対象となる。
これにより、複数の人物を並行してトラッキングしたり、特定の人物を複数の人物の中か
ら選択してトラッキングしたりすることができる。
In the process shown in FIG. 6, even when the first tracking area (face) can be detected, the second tracking area is detected. This is because in the configuration in which the second tracking area is detected when the first tracking area cannot be detected, there is no information about the second tracking area in the previous frame. This is because the configuration in which the second tracking area is always detected is taken into consideration that the detection accuracy is deteriorated. As a result, even when the first tracking area cannot be detected in the subsequent frames, the tracking can be continued without interruption based on the detected second tracking area. Further, since the process shown in FIG. 6 is executed, for example, in units of frames, it is possible to continuously track a person in each frame. Also,
In the examples of FIGS. 3 and 4, the case where there is one person has been described as an example. However, when there are a plurality of persons, each person or a specified specific person is a target of tracking. .
Thereby, a plurality of persons can be tracked in parallel, or a specific person can be selected from a plurality of persons for tracking.

以上の実施の形態では、第1のトラッキング領域82と第2のトラッキング領域83の
2つの領域に基づいてトラッキングを行うようにした。このため、例えば、遮蔽物等によ
って第1のトラッキング領域82が検出できない場合であっても、第2のトラッキング領
域83に基づいて、対象を見逃すことなくトラッキングを継続することができる。
In the above embodiment, tracking is performed based on the two areas of the first tracking area 82 and the second tracking area 83. For this reason, for example, even when the first tracking area 82 cannot be detected due to an obstacle or the like, tracking can be continued based on the second tracking area 83 without missing the target.

また、以上の実施の形態では、第1のトラッキング領域82については顔の画像的な特
徴(目、鼻、口等)に基づく検出処理を実行し、第2のトラッキング領域83については
背景の特徴量との差異に基づく検出処理を実行するようにした。このため、異なる2つの
方法によって検出処理が実行されることから、対象を見失う可能性を低くすることができ
る。
In the above embodiment, detection processing based on facial image characteristics (eyes, nose, mouth, etc.) is executed for the first tracking area 82, and background characteristics for the second tracking area 83. The detection process based on the difference from the quantity was executed. For this reason, since the detection process is executed by two different methods, the possibility of losing the object can be reduced.

また、以上の実施の形態では、第2のトラッキング領域83を検出する際には、複数の
特徴量を算出し、これらの特徴量の中でも最も識別性が高い特徴量を用いて、第2のトラ
ッキング領域83を検出するようにした。このため、対象が移動して、背景が変化するよ
うな場合に、それぞれの背景毎に最適な(識別性が高い)特徴量が選択されることから、
背景が変化する場合であっても、対象を見失うことなく、トラッキングすることができる
In the above embodiment, when the second tracking region 83 is detected, a plurality of feature amounts are calculated, and the feature amount having the highest discriminability among these feature amounts is used, The tracking area 83 is detected. For this reason, when the object moves and the background changes, the optimum feature amount (high discriminability) is selected for each background.
Even when the background changes, tracking can be performed without losing sight of the object.

また、以上の実施の形態では、第1または第2のトラッキング領域82,83に基づい
て動きベクトルを算出し、当該動きベクトルに基づいて顔が存在する位置を推定し、推定
された領域を優先して顔検出処理するようにした。これにより、顔を検出する時間を短縮
することができる。
In the above embodiment, a motion vector is calculated based on the first or second tracking regions 82 and 83, the position where the face exists is estimated based on the motion vector, and the estimated region is prioritized. And face detection processing. Thereby, the time for detecting a face can be shortened.

また、以上の実施の形態では、顔が検出できた場合には第1のトラッキング領域82に
基づいて第2のトラッキング領域83を推定するようにするとともに、顔が検出できなか
った場合には前のフレームから第2のトラッキング領域83に基づいて動きベクトルを算
出し、当該動きベクトルに基づいて現フレームにおいて第2のトラッキング領域83を推
定するようにした。これにより、顔の位置から第2のトラッキング領域83を的確に検出
することができるとともに、顔が検出できない場合であっても、直前のフレームにおける
第2のトラッキング領域83に基づいて、現フレームの第2のトラッキング領域83を的
確に検出することができる。
In the above embodiment, the second tracking area 83 is estimated based on the first tracking area 82 when the face can be detected, and the front is detected when the face cannot be detected. The motion vector is calculated from the second frame based on the second tracking region 83, and the second tracking region 83 is estimated in the current frame based on the motion vector. As a result, the second tracking area 83 can be accurately detected from the position of the face, and even if the face cannot be detected, the current frame can be detected based on the second tracking area 83 in the immediately preceding frame. The second tracking region 83 can be accurately detected.

また、以上の実施の形態では、第1のトラッキング領域82が検出できた場合には図9
に示すように顔の領域を囲む矩形120を出力し、検出できない場合には図10に示すよ
うに胴体を囲む矩形121を出力するようにした。これにより、ユーザは、トラッキング
の状態を的確に知ることができる。すなわち、顔の領域を囲む矩形120が出力されてい
る場合にはトラッキングが安定している状態であることを知ることができ、また、胴体の
領域を囲む矩形121が出力されている場合にはトラッキングが不安定な状態であること
を知ることができる。
Further, in the above embodiment, when the first tracking region 82 can be detected, FIG.
As shown in FIG. 10, a rectangle 120 surrounding the face area is output. If the rectangle 120 cannot be detected, a rectangle 121 surrounding the body is output as shown in FIG. Thereby, the user can know the tracking state accurately. That is, when the rectangle 120 surrounding the face area is output, it can be known that the tracking is stable, and when the rectangle 121 surrounding the body area is output. You can know that tracking is unstable.

(D)変形実施の態様
なお、上述した実施の形態は、あくまでも本発明の一態様を示すものであり、本発明の
範囲内で任意に変形および応用が可能であることは勿論である。
たとえば、以上の実施の形態では、本発明の画像処理装置をプリンタに適用した場合を
例に挙げて説明したが、本発明は、これ以外にも多くの機器に適用することができる。具
体的には、監視カメラと連動したセキュリティ装置に本発明を適用することができる。例
えば、ATM(Automated Teller Machine)の近傍に配置されるカメラからの動画像を入
力して前述したトラッキング処理を実行する。そして、第2のトラッキング領域83しか
検出できない状態が所定の時間以上継続した場合(例えば、ATMの利用者が一定時間以
上下を向いている場合、または、機械の下を覗き込んでいる場合)には、何らかのトラブ
ルが発生しているか、犯罪が行われていると判定し、警告等を行うようにしてもよい。
(D) Modified Embodiment The above-described embodiment is merely an aspect of the present invention, and it is needless to say that modifications and applications can be arbitrarily made within the scope of the present invention.
For example, in the above embodiment, the case where the image processing apparatus of the present invention is applied to a printer has been described as an example. However, the present invention can be applied to many other devices. Specifically, the present invention can be applied to a security device linked with a surveillance camera. For example, a moving image from a camera arranged in the vicinity of an ATM (Automated Teller Machine) is input to execute the tracking process described above. And when the state in which only the second tracking area 83 can be detected continues for a predetermined time or longer (for example, when the ATM user looks down for a certain time or more, or looks under the machine) It may be determined that some trouble has occurred or that a crime has been committed, and a warning or the like may be given.

また、撮像領域を自由に移動する機能を有するカメラと、本発明の画像処理装置を組み
合わせ、被写体の移動に応じて撮像範囲を自動的に移動させることにより、対象を広範囲
に渡って追尾できるようにしてもよい。より詳細には、検出された第1および第2のトラ
ッキング領域82,83が常に撮像領域の中央に位置するように、カメラをパンおよびチ
ルトするとともに、オートフォーカスすることにより、対象を追尾することができる。そ
のような場合、本発明では、対象が物陰に隠れた場合であっても胴体に基づいて追尾を継
続することができる。また、対象が移動して、背景が変化した場合であっても、第2のト
ラッキング領域83については、最適な特徴量に基づいて検出が行われるので、対象を見
逃すことを防止できる。
In addition, by combining a camera having a function of moving an imaging region freely with the image processing apparatus of the present invention and automatically moving the imaging range in accordance with the movement of the subject, the target can be tracked over a wide range. It may be. More specifically, the target is tracked by panning and tilting the camera so that the detected first and second tracking areas 82 and 83 are always located at the center of the imaging area and performing autofocus. Can do. In such a case, in the present invention, tracking can be continued based on the trunk even when the object is hidden behind the object. Further, even when the object moves and the background changes, the second tracking region 83 is detected based on the optimum feature amount, so that it is possible to prevent the object from being overlooked.

また、第1または第2のトラッキング領域82,83を示す矩形120,121を出力
するのみならず、これらに囲まれた領域内の画素に基づいて、印刷に最適なフレームを選
択するようにしたり、これらの画素の状態に基づいて補正処理を施したりするようにして
もよい。具体的には、前者の場合、面積が広く、また、単一色の場合が多い第2のトラッ
キング領域83に基づいてピントおよび露光が適切か否かを判定し、色合いの判断が容易
な第1のトラッキング領域82に基づいて色合いを判定し、これらの双方が適切であるフ
レームを印刷候補として一覧表示することができる。また、後者の場合には、第1のトラ
ッキング領域82に基づいてピントおよび露光の補正を行い、第2のトラッキング領域8
3に基づいて色合いの補正を行うことができる。
In addition to outputting the rectangles 120 and 121 indicating the first or second tracking regions 82 and 83, the optimum frame for printing may be selected based on the pixels in the regions surrounded by the rectangles 120 and 121. The correction process may be performed based on the state of these pixels. Specifically, in the former case, it is determined whether the focus and exposure are appropriate based on the second tracking region 83 that has a large area and often has a single color. It is possible to determine the hue based on the tracking area 82 and to display a list of frames for which both are appropriate as print candidates. In the latter case, the focus and exposure are corrected based on the first tracking area 82, and the second tracking area 8 is corrected.
3 can be used to correct the hue.

なお、以上の実施の形態では、特徴量として輝度、色ヒストグラム、テキスチャ情報、
および、空間周波数成分を用いるようにしたが、これ以外の情報を用いるようにしたり、
これ以外の情報も含めた複数の特徴量の一部を用いるようにしたりしてもよい。
In the above embodiment, luminance, color histogram, texture information,
And the spatial frequency component was used, but other information could be used,
A part of a plurality of feature amounts including other information may be used.

また、以上の実施の形態では、複数の特徴量の中から最適な特徴量を選択して使用する
ようにしたが、例えば、複数の特徴量の少なくとも一部を使用し、それぞれの識別力に応
じた重み付けを行って得られた判定値に基づいてステップS16の判定を行うようにして
もよい。
In the above embodiment, the optimum feature amount is selected and used from a plurality of feature amounts. For example, at least a part of the plurality of feature amounts is used, and each discriminating power is used. The determination in step S16 may be performed based on the determination value obtained by performing the corresponding weighting.

また、以上の実施の形態では、第2のトラッキング領域83として胴体を採用したが、
例えば、手および足を含む体全体としてもよい。あるいは、胴体ではなく、衣服の特徴的
な部分(例えば、Tシャツ)を第2のトラッキング領域83としてもよい。
In the above embodiment, the body is adopted as the second tracking region 83.
For example, the whole body including hands and feet may be used. Alternatively, a characteristic part of clothing (for example, a T-shirt) may be used as the second tracking region 83 instead of the trunk.

また、以上の実施の形態では、人物を検出対象とするようにしたが、例えば、動物を対
象としてトラッキングを行うようにしてもよい。その場合、第1のトラッキング領域とし
ては動物の顔を使用し、第2のトラッキング領域としては動物の胴体を使用することがで
きる。
In the above embodiment, a person is a detection target. However, for example, tracking may be performed for an animal. In this case, an animal face can be used as the first tracking area, and an animal body can be used as the second tracking area.

なお、上記の処理機能は、コンピュータによって実現することができる。その場合、画
像処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラ
ムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録してお
くことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光デ
ィスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク
装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクに
は、DVD(Digital Versatile Disk)、DVD−RAM、CD−ROM(Compact Disk
ROM)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には
、MO(Magneto-Optical disk)などがある。
The above processing functions can be realized by a computer. In that case, a program describing the processing contents of the functions that the image processing apparatus should have is provided. By executing the program on a computer, the above processing functions are realized on the computer.
The program describing the processing contents can be recorded on a computer-readable recording medium. Examples of the computer-readable recording medium include a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory. Examples of the magnetic recording device include a hard disk device (HDD), a flexible disk (FD), and a magnetic tape. Optical disks include DVD (Digital Versatile Disk), DVD-RAM, CD-ROM (Compact Disk)
ROM), CD-R (Recordable) / RW (ReWritable), and the like. Magneto-optical recording media include MO (Magneto-Optical disk).

プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、C
D−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータ
の記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピ
ュータにそのプログラムを転送することもできる。
When distributing the program, for example, the DVD or C on which the program is recorded
Portable recording media such as D-ROM are sold. It is also possible to store the program in a storage device of a server computer and transfer the program from the server computer to another computer via a network.

プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログ
ラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納す
る。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに
従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読
み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、
サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従
った処理を実行することもできる。
The computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute processing according to the program. Also, the computer
Each time the program is transferred from the server computer, it is possible to sequentially execute processing according to the received program.

本発明の実施形態に係る画像処理装置のブロック図である。1 is a block diagram of an image processing apparatus according to an embodiment of the present invention. プログラムが実行された場合に実現される機能ブロック図である。It is a functional block diagram implement | achieved when a program is performed. 第1および第2のトラッキング領域を示す図である。It is a figure which shows the 1st and 2nd tracking area | region. 第2のトラッキング領域を示す図である。It is a figure which shows the 2nd tracking area | region. 特徴量の分布曲線を示す図である。It is a figure which shows the distribution curve of a feature-value. 図2に示すブロックによって実行される処理のフローチャートである。It is a flowchart of the process performed by the block shown in FIG. 顔の検出に利用するテンプレートの一例である。It is an example of the template utilized for the detection of a face. 検出された第2のトラッキング領域に属する小領域を示す図である。It is a figure which shows the small area | region which belongs to the detected 2nd tracking area | region. 検出された第1のトラッキング領域を示す図である。It is a figure which shows the detected 1st tracking area | region. 検出された第2のトラッキング領域を示す図である。It is a figure which shows the detected 2nd tracking area | region.

符号の説明Explanation of symbols

10…印刷装置、62…顔検出・認識モジュール62(第1の検出手段)、63…第2
のトラッキング領域推定モジュール(第2の検出手段)、64…画像特徴量算出モジュー
ル(第2の検出手段)、65…中央制御モジュール(第2の検出手段)、66…第2のト
ラッキング領域検出モジュール(トラッキング手段)。
DESCRIPTION OF SYMBOLS 10 ... Printing apparatus 62 ... Face detection / recognition module 62 (1st detection means), 63 ... 2nd
Tracking area estimation module (second detection means), 64 ... image feature quantity calculation module (second detection means), 65 ... central control module (second detection means), 66 ... second tracking area detection module (Tracking means).

Claims (8)

動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像を検出する
第1の検出手段と、
前記人物の体の少なくとも一部を表す画像を前記フレームから検出する第2の検出手段
と、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い
、前記顔画像が検出されない場合には前記体の少なくとも一部を表す画像に基づいて前記
人物のトラッキングを行うトラッキング手段と、
を有することを特徴とする画像処理装置。
First detection means for detecting a face image representing a face of a person to be tracked from a frame constituting a moving image;
Second detection means for detecting from the frame an image representing at least a part of the person's body;
When the face image is detected, the person is tracked based on the face image, and when the face image is not detected, the person is tracked based on an image representing at least a part of the body. Tracking means;
An image processing apparatus comprising:
請求項1に記載の画像処理装置において、
前記第1の検出手段は、顔を表す画像の特徴に基づいて前記顔画像を検出し、
前記第2の検出手段は、前記体の少なくとも一部を表す画像の特徴量と、前記フレーム
のうち背景を表す画像の特徴量との差異に基づいて前記体の少なくとも一部を表す画像を
検出する、
ことを特徴とする画像処理装置。
The image processing apparatus according to claim 1.
The first detection means detects the face image based on the feature of the image representing the face,
The second detection means detects an image representing at least a part of the body based on a difference between a feature amount of an image representing at least a part of the body and a feature amount of an image representing a background in the frame. To
An image processing apparatus.
請求項2に記載の画像処理装置において、
前記第2の検出手段は、前記体の少なくとも一部を表す画像及び前記背景を表す画像の
複数の異なる種類の特徴量のうち、前記体の少なくとも一部を表す画像と、前記背景を表
す画像とを識別する能力が最も高い特徴量に基づいて、前記体の少なくとも一部を表す画
像を検出する、
ことを特徴とする画像処理装置。
The image processing apparatus according to claim 2,
The second detection means includes an image representing at least a part of the body and an image representing the background among a plurality of different types of feature quantities of an image representing at least a part of the body and an image representing the background. Detecting an image representing at least a part of the body based on a feature amount having the highest ability to distinguish between
An image processing apparatus.
請求項3に記載の画像処理装置において、
前記第2の検出手段は、前記体の少なくとも一部を表す画像に該当する第1の領域を推
定し、前記第1の領域の特徴量の分布と、前記第1の領域以外の第2の領域の特徴量の分
布との重複が最も少ない特徴量を前記識別する能力が最も高い特徴量とする、
ことを特徴とする画像処理装置。
The image processing apparatus according to claim 3.
The second detection means estimates a first region corresponding to an image representing at least a part of the body, and a distribution of feature amounts of the first region and a second region other than the first region. The feature quantity that has the least amount of overlap with the distribution of the feature quantity of the region is the feature quantity having the highest ability to identify,
An image processing apparatus.
請求項4に記載の画像処理装置において、
前記第2の検出手段は、前記フレームよりも時系列において前のフレームである前フレ
ームから検出された前記体の少なくとも一部を表す画像に基づいて算出される動きベクト
ルに基づいて、前記第1の領域を推定するか、または、前記フレームから検出された顔画
像の位置、若しくは、大きさ、若しくは、向きに基づいて前記第1の領域を推定する、
ことを特徴とする画像処理装置。
The image processing apparatus according to claim 4.
The second detection means, based on a motion vector calculated based on an image representing at least a part of the body detected from a previous frame that is a previous frame in time series from the frame. Or the first region is estimated based on the position, size, or orientation of the face image detected from the frame.
An image processing apparatus.
請求項1乃至5のいずれか1項に記載の画像処理装置において、
前記第1の検出手段は、前記フレームよりも時系列において前のフレームである前フレ
ームから検出された前記顔画像または前記体の少なくとも一部を表す画像に基づいて算出
される動きベクトルに基づいて、前記フレームから前記顔画像に該当する領域を推定し、
前記推定された領域を優先して前記顔画像を検出する、
ことを特徴とする画像処理装置。
The image processing apparatus according to any one of claims 1 to 5,
The first detection means is based on a motion vector calculated based on the face image or an image representing at least a part of the body detected from a previous frame that is a previous frame in time series than the frame. , The region corresponding to the face image is estimated from the frame,
Detecting the face image in preference to the estimated area;
An image processing apparatus.
動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像を検出し、
前記人物の体の少なくとも一部を表す画像を前記フレームから検出し、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い
、前記顔画像が検出されなかった場合には前記体の少なくとも一部を表す画像に基づいて
前記人物のトラッキングを行う、
ことを特徴とする画像処理方法。
Detect a face image representing the face of the person being tracked from the frames that make up the video,
Detecting an image representing at least part of the person's body from the frame;
If the face image is detected, the person is tracked based on the face image, and if the face image is not detected, the person is tracked based on an image representing at least a part of the body. I do,
An image processing method.
動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像を検出する
第1の検出手段、
前記人物の体の一部を表す画像を前記フレームから検出する第2の検出手段、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い
、前記顔画像が検出されない場合には前記体の少なくとも一部を表す画像に基づいて前記
人物のトラッキングを行うトラッキング手段、
としてコンピュータを機能させる画像処理プログラム。
First detection means for detecting a face image representing a face of a person to be tracked from a frame constituting a moving image;
Second detection means for detecting an image representing a part of the person's body from the frame;
When the face image is detected, the person is tracked based on the face image, and when the face image is not detected, the person is tracked based on an image representing at least a part of the body. Tracking means,
An image processing program that causes a computer to function.
JP2007212659A 2007-08-17 2007-08-17 Image processing apparatus, method and program Withdrawn JP2009048347A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007212659A JP2009048347A (en) 2007-08-17 2007-08-17 Image processing apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007212659A JP2009048347A (en) 2007-08-17 2007-08-17 Image processing apparatus, method and program

Publications (1)

Publication Number Publication Date
JP2009048347A true JP2009048347A (en) 2009-03-05

Family

ID=40500514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007212659A Withdrawn JP2009048347A (en) 2007-08-17 2007-08-17 Image processing apparatus, method and program

Country Status (1)

Country Link
JP (1) JP2009048347A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118782A (en) * 2009-12-04 2011-06-16 Sony Corp Image processor, image processing method, and program
JP2013125340A (en) * 2011-12-13 2013-06-24 Fujitsu Ltd User detecting apparatus, user detecting method, and user detecting program
JP2013162329A (en) * 2012-02-06 2013-08-19 Sony Corp Image processing apparatus, image processing method, program, and recording medium
JP2013228930A (en) * 2012-04-26 2013-11-07 Canon Inc Subject area detection device, method and program for controlling the same, imaging device and display device
JP2014063280A (en) * 2012-09-20 2014-04-10 Fujifilm Corp Object tracking method and device and program
US9836655B2 (en) 2014-06-24 2017-12-05 Nec Corporation Information processing apparatus, information processing method, and computer-readable medium
JP2020511048A (en) * 2017-07-18 2020-04-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド Virtual prop allocation method, server, client and storage medium
CN111028272A (en) * 2019-12-11 2020-04-17 北京百度网讯科技有限公司 Object tracking method and device
CN111339855A (en) * 2020-02-14 2020-06-26 睿魔智能科技(深圳)有限公司 Vision-based target tracking method, system, equipment and storage medium
JPWO2020115890A1 (en) * 2018-12-07 2021-10-28 日本電気株式会社 Information processing equipment, information processing methods, and programs
JP2022525272A (en) * 2019-01-25 2022-05-12 グーグル エルエルシー Image display with selective motion drawing

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118782A (en) * 2009-12-04 2011-06-16 Sony Corp Image processor, image processing method, and program
JP2013125340A (en) * 2011-12-13 2013-06-24 Fujitsu Ltd User detecting apparatus, user detecting method, and user detecting program
JP2013162329A (en) * 2012-02-06 2013-08-19 Sony Corp Image processing apparatus, image processing method, program, and recording medium
US20140247374A1 (en) 2012-02-06 2014-09-04 Sony Corporation Image processing apparatus, image processing method, program, and recording medium
US10225462B2 (en) 2012-02-06 2019-03-05 Sony Corporation Image processing to track face region of person
JP2013228930A (en) * 2012-04-26 2013-11-07 Canon Inc Subject area detection device, method and program for controlling the same, imaging device and display device
US11036966B2 (en) 2012-04-26 2021-06-15 Canon Kabushiki Kaisha Subject area detection apparatus that extracts subject area from image, control method therefor, and storage medium, as well as image pickup apparatus and display apparatus
JP2014063280A (en) * 2012-09-20 2014-04-10 Fujifilm Corp Object tracking method and device and program
US9836655B2 (en) 2014-06-24 2017-12-05 Nec Corporation Information processing apparatus, information processing method, and computer-readable medium
JP2020511048A (en) * 2017-07-18 2020-04-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド Virtual prop allocation method, server, client and storage medium
US11228811B2 (en) 2017-07-18 2022-01-18 Tencent Technology (Shenzhen) Company Limited Virtual prop allocation method, server, client, and storage medium
US11847848B2 (en) 2018-12-07 2023-12-19 Nec Corporation Information processing apparatus, information processing method, and program
JPWO2020115890A1 (en) * 2018-12-07 2021-10-28 日本電気株式会社 Information processing equipment, information processing methods, and programs
EP3893192A4 (en) * 2018-12-07 2021-12-15 NEC Corporation Information processing system, information processing device, information processing method, and program
JP2022525272A (en) * 2019-01-25 2022-05-12 グーグル エルエルシー Image display with selective motion drawing
JP7514848B2 (en) 2019-01-25 2024-07-11 グーグル エルエルシー Image display with selective motion rendering
CN111028272B (en) * 2019-12-11 2023-06-20 北京百度网讯科技有限公司 Object tracking method and device
CN111028272A (en) * 2019-12-11 2020-04-17 北京百度网讯科技有限公司 Object tracking method and device
CN111339855A (en) * 2020-02-14 2020-06-26 睿魔智能科技(深圳)有限公司 Vision-based target tracking method, system, equipment and storage medium
CN111339855B (en) * 2020-02-14 2023-05-23 睿魔智能科技(深圳)有限公司 Vision-based target tracking method, system, equipment and storage medium

Similar Documents

Publication Publication Date Title
JP2009048347A (en) Image processing apparatus, method and program
US10417773B2 (en) Method and apparatus for detecting object in moving image and storage medium storing program thereof
JP5090474B2 (en) Electronic camera and image processing method
US8836777B2 (en) Automatic detection of vertical gaze using an embedded imaging device
US8432357B2 (en) Tracking object selection apparatus, method, program and circuit
US8254630B2 (en) Subject extracting method and device by eliminating a background region using binary masks
JP4461747B2 (en) Object determination device
JP5247356B2 (en) Information processing apparatus and control method thereof
US8358838B2 (en) Red eye detecting apparatus, red eye detecting method and red eye detecting program stored on a computer readable medium
JP6555906B2 (en) Information processing apparatus, information processing method, and program
US20090285488A1 (en) Face tracking method for electronic camera device
US10181075B2 (en) Image analyzing apparatus,image analyzing, and storage medium
US10574904B2 (en) Imaging method and electronic device thereof
US12033429B2 (en) Image processing device of determining authenticity of object, image processing method of determining authenticity of object, and storage medium storing program of determining authenticity of object
JP4987513B2 (en) TRACKING DEVICE, TRACKING METHOD, AND TRACKING PROGRAM
US9154682B2 (en) Method of detecting predetermined object from image and apparatus therefor
JP2011089784A (en) Device for estimating direction of object
JP2012068948A (en) Face attribute estimating apparatus and method therefor
US8331667B2 (en) Image forming system, apparatus and method of discriminative color features extraction thereof
JPWO2005096130A1 (en) Method and apparatus for detecting designated position of imaging apparatus, and program for detecting designated position of imaging apparatus
WO2012014946A1 (en) Image processing device and image processing program
JP2008211534A (en) Face detecting device
JPWO2022145294A5 (en)
JP6460510B2 (en) Image processing apparatus, image processing method, and program
JP2003208614A (en) Image processing device and program

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20101102