JP3855349B2 - 画像の認識方法および画像情報の符号化方法 - Google Patents
画像の認識方法および画像情報の符号化方法 Download PDFInfo
- Publication number
- JP3855349B2 JP3855349B2 JP08070297A JP8070297A JP3855349B2 JP 3855349 B2 JP3855349 B2 JP 3855349B2 JP 08070297 A JP08070297 A JP 08070297A JP 8070297 A JP8070297 A JP 8070297A JP 3855349 B2 JP3855349 B2 JP 3855349B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- model
- information
- region
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Description
【発明の属する技術分野】
本発明は、画像から動きのある対象物を抽出して認識する画像の認識方法、および画像を符号化する場合に、限られた情報伝送量の範囲内で、全体としての符号化の情報量の増大を抑制しながら特定領域の画質を向上させるための画像情報の符号化方法に関する。
【0002】
【発明が解決しようとする課題】
自動車電話や携帯電話などの移動体通信におけるデジタル通信では、データ伝送レートは現在9600bps(bit per second)が主流となっている。通信コストを考えた場合に、技術的には広帯域移動通信が可能になるとしても低コストで実現できる狭帯域通信の優位性は2000年以降においても当分は崩れないと言われている。
【0003】
そこで、このような点を考慮して、データ伝送レートを9600bpsとした準動画伝送を可能とするパソコンベースでの自動車TV電話のプロトタイプが開発されたが、この場合においては、画像更新速度のレベルとしては1秒から2秒の間に1フレーム(画面)程度がせいぜいであった。ところが、このような画像更新速度では利用者が見る場合に動画像の表現能力に欠けるため、実用的なレベルでの使用が難しいものであった。
【0004】
一方、ITU−T/LBCで標準化された画像情報の圧縮に関するH.263規格は、有線系超低レート画像伝送(64kbps〜4.8kbps)において最も高性能な方式と言われるが、この規格はデコーダ(復号化器)に関する規定であり、エンコーダ(符号化器)の演算アルゴリズムについての詳細な部分は利用者側の仕様に委ねられている。そこで、H.263評価ソフトウェアTMN5(Telenor 社)を用いて画質評価を行なったところ、フレームレートは比較的高い(9600bpsで約5フレーム/秒)が、画質に関しては顔の表情の伝達能力が低いことがわかった。
【0005】
また、実際の製品化にあたっては音声情報も送信する必要があるので、AV多重化に際しては、画像の実質レートとしては4kbps程度しか取れないようになることが予想されるので、通信レートの制約はさらに厳しいものとなる。その一方で、製品としての性能を考慮すると、対話をする場合の顔の表情を表示させる場合には、5フレーム/秒以上の動画レートと顔の表情が良く分かる画質の両方が要求される。換言すると、画像の全体が高い精度で更新されなくとも、対象となる顔領域や手などの動きの部分のみを良好な精度で伝送することにより、利用者にとっては質の高い画像であると認識されるのである。
【0006】
そこで、画像情報から動きのある対象物のうちの特定の対象領域である顔領域をいかにして効率的に検出して認識するかが第1の課題となり、さらに、限られた伝送容量の範囲内で、いかにしてその顔領域について他の領域よりも高い精度で符号化を行なうかという点が第2の課題となってくる。
【0007】
この場合、人物領域の抽出処理に関しては、クラスタリングやテンプレートマッチング、あるいは動的輪郭モデルなどの多くの手法が提案されているが、様々な状況(帽子,髪形,背景色,肌色,陰影,全身/上半身/顔のみ等)に対して安定して抽出を行なえると共に、低い演算コストを同時に満足するものが少ないのが実情である。
【0008】
本発明は、上記事情に鑑みてなされたもので、第1の目的は、動きのある対象物のうちの顔などの特定の対象領域を画像情報から効率的に検出して認識することができる画像の認識方法を提供することにあり、第2の目的は、その認識方法で得られた画像情報を高効率で符号化する画像情報の符号化方法を提供することにある。
【0009】
【課題を解決するための手段】
請求項1記載の画像情報の符号化方法によれば、まず、画像の認識方法では、動領域検出過程において、動きのある対象物を撮影した画像を複数のブロックに分割したときに、時間的に前後する少なくとも2フレーム分の画像の各ブロックの画素データに基づいて動きが発生しているブロックを検出して対象物に相当する動領域を検出し、続いてモデル適合過程において、検出された動領域に対してあらかじめ規定されている対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識し、これによって画像中に占める動きのある対象物の領域を効率的に認識することができるようになる。
【0010】
そして、上記した画像の認識方法により得られた画像情報に基づいて画像情報を符号化する場合に、モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なうことにより所定の伝送容量の範囲内で画像を符号化するので、抽出された推定領域について符号化における精度を高くして情報量を多くすることができ、対象物として利用者が最も注視すると予想されるもの例えば人物の顔などを設定することにより、利用者が復調された画像を見る場合に、注視する対象物の領域を重点的に高精度で表示させることができるので見た目に精度が高く感じられ、これにより、限られた伝送容量の範囲内で良好な画像を送るようにすることができる。
上記のような前提となる処理に加えて、
さらに、動領域検出過程においては、検出された動きブロックの情報に加えて画像の色情報に基づいて動領域を検出するので、動きの少ないブロックに対しても色情報から対象物に対応したブロックであるか否かの判定を行なえるようになり、対象物に相当する推定領域の抽出の精度を向上させることができるようになる。
加えて、動領域検出過程においては、色情報の検出を重心色の計算による対象物の色の決定と色距離計算としきい値判定により行なうので、具体的な演算処理が比較的簡単に行なうことができるようになる。
さらに、動領域検出過程においては、色距離計算に続くしきい値判定で用いるしきい値の設定を時間の経過に伴って低いレベルに変更するので、例えば、あるシーンの画像から対象物の推定領域を抽出する場合に、シーンの開始直後における変化に対して時間が経過するにしたがって推定領域の抽出精度が向上してくるのでしきい値を低レベルにしてより精度の高い判定処理を行なうことができるようになる。
請求項2記載の画像情報の符号化方法によれば、請求項1の説明で述べた前提となる処理に加えて、動領域検出過程において、検出した動きブロックについて時間的に前後するフレームの画像の動きブロックを参照してヒストグラムを作成して時間方向のフィルタリングを行なうことにより雑音除去処理を行なうので、ひとつの画像では判定しかねる雑音ブロックに対しても、複数のフレームの画像に渡って対応するブロックが存在しているか否かという時間的な経過を伴うフィルタリング処理を施すことにより簡単に除去することができるようになる。
請求項3記載の画像情報の符号化方法によれば、請求項1の説明で述べた前提となる処理に加えて、対象物のモデルとして、3次元モデル、色情報およびシーン構造を含むモデルを規定したモデルデータベースを設け、モデルデータベースからモデルを選択する場合に、確率的に状態遷移を行なうときの確率値を変更または状態遷移経路を変更するので、時間の経過と共に画像の状態に応じて適切なモデルを選択するようにして迅速かつ正確に推定領域の抽出を行なうことができるようになる。
請求項4記載の画像情報の符号化方法によれば、請求項1の説明で述べた前提となる処理に加えて、評価修正過程において、モデル適合過程により抽出された推定領域の適合度を画像のデータに基づいて評価し、その評価結果に応じて適合度がより高くなるように推定領域を修正するので、画像中の動きのある対象物を精度良く認識することができ、しかも、符号化処理過程では、修正されたより精度の高い推定領域を用いて符号化処理を行なうことができ、これによって、対象物に対応した推定領域をより精度よく抽出してその推定領域に対して符号化の精度を高めて符号化処理を行なえるので、限られた伝送容量の範囲内で対象物の動きをより滑らかにした画像を伝送することができる。
さらに、評価修正過程においては、3次元位置姿勢の決定を物理的制約や常識的な値を用いたしきい値判定により行なうので、実際的状況に即した安定した演算結果を比較的簡単に得ることができるようになる。
請求項5記載の画像情報の符号化方法によれば、請求項1の説明で述べた前提となる処理に加えて、評価修正過程において、モデル適合過程により抽出された推定領域の適合度を画像のデータに基づいて評価し、その評価結果に応じて適合度がより高くなるように推定領域を修正するので、画像中の動きのある対象物を精度良く認識することができ、しか も、符号化処理過程では、修正されたより精度の高い推定領域を用いて符号化処理を行なうことができ、これによって、対象物に対応した推定領域をより精度よく抽出してその推定領域に対して符号化の精度を高めて符号化処理を行なえるので、限られた伝送容量の範囲内で対象物の動きをより滑らかにした画像を伝送することができる。
さらに、評価修正過程においては、3次元位置姿勢算出値のしきい値判定で用いるしきい値の設定を時間の経過に伴って動的に変更するので、例えば、あるシーンの画像から対象物の3次元位置姿勢を推定する場合に、シーンの開始直後における変化に対して時間変化が経過するにしたがって逐次処理に伴い推定精度が向上してくるので、時間変化や予測誤差に関するしきい値を低いレベルに変更して少ない変化に対しても感度を高めてこれを検出できるように判定処理を行なうことができるようになる。
【0011】
請求項6記載の画像情報の符号化方法あるいは請求項24記載の画像の認識方法によれば、対象物の形状モデルをあらかじめ3次元モデルとして規定しておき、モデル適合過程では、動領域検出過程で得られた動領域の形状特徴に基づいて対象物の3次元モデルの概略の位置姿勢を推定しこれに基づいて推定領域を抽出するので、対象物の動きに応じて高い精度で追随して動領域に対する推定領域の抽出を行なうことができるようになる。
【0012】
請求項7記載の画像情報の符号化方法あるいは請求項25記載の画像の認識方法によれば、モデル適合過程では、対象物の3次元モデルの位置姿勢情報に基づいてそのワイヤフレームモデルを画像面上に投影して2次元的な領域を割り当て、その割り当てたワイヤフレームモデルの内部領域を前記対象物の推定領域として抽出するので、対象物の位置姿勢情報から対象物の推定領域の抽出に必要な演算処理を迅速に行なわせることができるようになる。
【0013】
請求項8記載の画像情報の符号化方法あるいは請求項26記載の画像の認識方法によれば、評価修正過程において、モデル適合過程により抽出された推定領域の適合度を画像のデータに基づいて評価し、その評価結果に応じて適合度がより高くなるように推定領域を修正するので、画像中の動きのある対象物を精度良く認識することができ、しかも、符号化処理過程では、修正されたより精度の高い推定領域を用いて符号化処理を行なうことができ、これによって、対象物に対応した推定領域をより精度よく抽出してその推定領域に対して符号化の精度を高めて符号化処理を行なえるので、限られた伝送容量の範囲内で対象物の動きをより滑らかにした画像を伝送することができる。
【0014】
請求項9記載の画像情報の符号化方法あるいは請求項27記載の画像の認識方法によれば、対象物の常識的なモデル情報として例えば色情報や運動情報あるいは3次元構造の情報があらかじめ規定されているので、評価修正過程においては、抽出されている推定領域のデータがその常識的なモデル情報に適合しているかを評価修正を行なうことにより、より正確な推定領域の抽出をすることができるようになる。
【0015】
請求項10記載の画像情報の符号化方法あるいは請求項28記載の画像の認識方法によれば、評価修正過程においては、時間的に前後する画像のそれぞれにおいて抽出した推定領域が対象物の物理的な動き条件や常識的な動き条件に適合しているか否かを判定するので、抽出された推定領域が対象物の不自然な動きや位置などに相当している場合に、物理的条件を満たさないことにより除外することができるようになる。この場合、常識的な動きや位置条件とは、例えば、対象物が人物である場合に、前フレームと現フレームとの間での動き量は常識的にみて自ずと上限が存在するし、また、人物が空中に浮かんだり上下が転倒した状態となったり、あるいは突然消えたり現れたりすることはあまり考えられないというように、その対象物の性質として規定される条件である。
【0016】
請求項11記載の画像情報の符号化方法あるいは請求項29記載の画像の認識方法によれば、評価修正過程において、対象物に対応してあらかじめ規定されている常識的色情報の条件,重心色の再評価および推定領域内の色連続性の評価を行なって推定領域の修正を行なうので、例えば、推定領域の境界に位置するブロックが領域内か外かを判定する際に、重心位置のブロックの色情報に基づいて色の連続性を評価することにより正確に判定を行なうことができ、推定領域の修正を高精度で行なうことができるようになる。
【0017】
請求項12記載の画像情報の符号化方法によれば、符号化処理過程では、抽出された推定領域の情報を次の画像の符号化処理に適用するので、推定領域の抽出に使用した画像のデータを繰り返し符号化処理のために読出して演算する場合に比べて、演算処理を並列に行なうことにより迅速に対応することができるようになる。なお、この場合において、現画像の推定領域を次の画像に適用することから、動きが発生している場合には対象物の領域のある程度のずれが生ずるが、人物の顔など対象物によっては実用上ほとんど悪影響を受けることがないので、演算量を減じて迅速な対応をすることができる。
【0018】
請求項13記載の画像情報の符号化方法によれば、領域予測過程において、推定領域の抽出過程で得られた情報に基づいて次の画像における対象物の推定領域を予測し、符号化処理過程ではこの予測された推定領域の情報に基づいて次の画像の符号化処理を行なうので、対象物の動きが大きい場合でもそれに追随して次の画像の対象物の推定領域を予測した結果に基づいて、より的確に符号化処理をすることができるようになる。
【0019】
請求項14記載の画像情報の符号化方法あるいは請求項30記載の画像の認識方法によれば、動領域検出過程において、画像のパニングベクトルを検出してこれに基づいて検出された動きブロックの情報を補正するので、対象物を撮影する撮像手段が動く場合でも、その撮像手段が動いた分を差し引いて画面中の動きブロックを判定することができるようになり、対象物の動領域をより精度高く抽出することができるようになる。
【0020】
請求項15記載の画像情報の符号化方法あるいは請求項31記載の画像の認識方法によれば、動領域検出過程においては、検出された動きブロックの情報に加えて画像の色情報に基づいて動領域を検出するので、動きの少ないブロックに対しても色情報から対象物に対応したブロックであるか否かの判定を行なえるようになり、対象物に相当する推定領域の抽出の精度を向上させることができるようになる。
【0021】
請求項16記載の画像情報の符号化方法あるいは請求項32記載の画像の認識方法によれば、動領域検出過程においては、色情報の検出を重心色の計算による対象物の色の決定と色距離計算としきい値判定により行なうので、具体的な演算処理が比較的簡単に行なうことができるようになる。
【0023】
請求項17記載の画像情報の符号化方法あるいは請求項33記載の画像の認識方法によれば、動領域検出過程において、検出した動きブロックについて重心位置との間の距離計算としきい値判定を行なうことにより雑音除去処理を行なうので、大きな領域に近接する孤立した雑音領域などを簡単に除去することができるようになる。
【0025】
請求項18記載の画像情報の符号化方法あるいは請求項34記載の画像の認識方法によれば、評価修正過程においては、対象物の3次元モデルのワイヤフレームモデルを画像面に投影する際に、その対象物の所定部位の適合性が高くなるようにワイヤフレームモデルを当てはめてモデルの適応化を図るので、特徴的な部位を選定することにより簡単かつ迅速にワイヤフレームモデルの当てはめの処理を行なうことができるようになる。
【0029】
【発明の実施の形態】
以下、本発明の一実施例について図面を参照しながら説明する。
図2は符号化器1の全体の概略的構成を示すもので、撮像手段としてのカメラ2は、対象物を含むシーンを撮影して画像情報を出力するもので、A/D変換部3を介してデジタル信号に変換された状態で原画像情報として符号化部4に入力するようになっている。
【0030】
符号化部4は、既存の動き補償予測符号化方式(例えば、H.261,H.263あるいはMPEGなど)で原画像情報を符号化するもので、これは、後述するモデルベース対象領域抽出部5に対して2次元動きベクトル検出部6にて原画像情報から動きベクトルを検出してその情報を与えるようになっており、また、モデルベース対象領域抽出部5から与えられる領域情報に基づいて符号化属性判定・制御部7にて抽出された領域について動き補償予測符号化の符号化処理を行なって圧縮ビットストリームを生成して通信路に出力するものである。
【0031】
モデルベース対象領域抽出部5は、上述したように符号化部4の2次元動きベクトル検出部6から動きベクトルの情報が与えられると共に、原画像の情報が与えられるようになっており、これらの情報に基づいてモデルベースを用いて対象領域を抽出して領域情報として出力するものである。図1は、その構成を機能ブロックで示すものであり、以下、これについて詳述する。
【0032】
モデルベース対象領域抽出部5は、動領域解析部8,モデル適合部9,評価・修正部10,領域予測部11およびモデルデータベース部12の5つの機能ブロックから構成される。このうち、動領域解析部8は、パニングベクトル検出部8a,動きブロック判定部8b,重心計算部8c,平均色計算部8d,背景雑音除去部8eおよび2次元形状パラメータ抽出部8fからなり、原画像情報からパニングベクトルを検出して動きベクトルから差し引いて動きブロックを判定し、その重心位置から重心を求め、雑音を除去して領域形状のデータを求めるものである。
【0033】
モデル適合部9は、3次元位置姿勢推定部9a,透視変換部9bおよび投影領域計算部9cからなる。このモデル適合部9では、動領域解析部8において得られた結果に基づいてワイヤフレームモデルを画像面上に投影して当てはめを行なう。評価修正部10は、色評価部10a,適合度計算部10bおよび3次元位置姿勢決定部10cからなる。この評価修正部10では、ワイヤフレーム投影によって得た切り出し領域である2次元推定領域の評価を行なうもので、原画像データとの適合度の評価演算を行ないフィードバックすることにより2次元推定領域の修正およびワイヤフレームモデルの適応的変形の処理を行なう。領域予測部11は、移動平均処理部11a,3次元動き予測処理部11bおよび領域計算部11cからなる。この領域予測部11では、評価修正部10において抽出された領域を現フレームの推定領域としてこれに基づいて次のフレームの推定領域を予測する。
【0034】
モデルデータベース部12は、色情報データベース部12a,3次元形状データベース部12bおよびシーン構造データベース部12cからなる。これらは、あらかじめ分かっている対象物についてモデル化したデータを記憶するもので、これらのデータベースを駆動するモデル情報およびモード情報は符号化器の外部に設けられたシステム制御部から入力されるようになっている。
【0035】
以上のように符号化器1が構成されている。一方、この符号化器1からのデータを受ける復号化器は、一般的な構成のもので良く、例えば、H.261,H.263あるいはMPEGの規格に対応した構成を有するものである。
【0036】
次に本実施例の作用について図3ないし図24も参照して説明する。なお、本実施例の具体的動作の説明に先だって、動作原理についてまず述べる。
すなわち、本実施例で対象としているのは、原画像の中から対象となる人物の顔の領域をいかに効率的に抽出するかということであり、その原理について図3を参照して概略的に説明する。ここでは、このような課題を人物の3次元的形状を標準的なワイヤフレームモデル(以下、WFMと略する)を設定し、これを原画像に映った人物像に対していかに忠実に割り付けるかという問題として捕らえる。そして、この割り付けを行なうためには、以下の5つの条件が満たされる必要がある。
【0037】
(1)カメラ特性(焦点距離と視野角)が既知であること
(2)対象物(人物)のWFMの3次元構造データが既知であること
(3)対象物(人物)が略剛体と見なせる運動姿勢を保っていること
(4)対象物(人物)に対するカメラの3次元位置姿勢が既知であること
(5)被写体の人物がWFMと同等の常識的なサイズであること
【0038】
上述の5つの条件(1)〜(5)が既知であるときに、WFMの画像面への2次元投影像は人物領域と略一致するはずである。しかし、上記(4)の条件を満たすことは通常の撮影環境では困難であるため、他の条件(1)〜(3)および(5)が満たされていると仮定すると共に、これに加えてさらに以下の情報を活用することによりWFMを割り付けることにする。
【0039】
(a)画像中のテクスチャや色の空間的変化および時間的変化
(b)人物の持つテクスチャ、色の常識的情報(形状情報については上記WFMに相当)
(c)人物の持つ物理的特性(速度、慣性、運動特性など)
(d)人物の常識的位置姿勢(倒立した状態や、宙に浮いた状態でカメラに映る可能性は非常に低い)
【0040】
以上を総合した結果、WFM、画像情報、常識・物理的制約の3つを有機的に関連付けて問題を解決する手段として得られたのが、以下に示すような計算処理過程を含んでなる画像の符号化方法における対象物の領域の抽出方法である。
【0041】
(ア)動き情報と色情報とにより画像から2次元の推定領域を抽出する
(イ)抽出された推定領域の2次元形状情報とあらかじめ規定されているモデル情報(色情報、WFM情報)により、対象物の概略の3次元位置姿勢を算出する
(ウ)WFMをこの3次元位置姿勢から得た透視変換処理をすることにより画像面に投影し、領域別にラベル指定をすることにより顔領域を抽出する
(エ)抽出した顔領域の再評価(色、大きさ、位置姿勢の時間変化など)により、現フレームに関する3次元位置姿勢の最終推定値を算出する
(オ)ワイヤフレーム投影により顔領域の最終推定結果を出力する
(カ)必要に応じて、3次元位置姿勢時系列の線形予測により、次フレームにおける顔領域を推定する
【0042】
図4ないし図8は、上述の原理に基づいて作成したプログラムのフローチャートである。ここで、図4のプログラムは全体の流れを示す概略的なもので、各ステップに対応して図5ないし図8のプログラムが設定されている。以下、これらのフローチャートを参照して全体の動作の流れについて説明する。
【0043】
なお、一連の処理過程は、あるシーンが始まると、領域抽出のために、まず(A)動領域解析過程を行なって推定領域を抽出し(ステップS1)、そのレベル判定を行なってLEVEL1以上の場合には、続いて(B)モデル適合過程を実施する(ステップS2)。そして、LEVEL2以上の場合には(ステップS3)、続いて(C)評価修正過程(ステップS4)および(D)領域予測過程(ステップS5)を実行し、シーンが終了するまで上述を繰り返す(ステップS6)。以下、これらの各処理過程(A)〜(D)を単位として説明する。
【0044】
(A)動領域解析過程
これは、図4の全体のプログラムの動領域解析の処理ステップS1に相当するもので、動領域解析部8は、図5に示すような処理を実行する。画像情報が読み込まれてフレーム番号Nfをインクリメントした後にブロックマッチング法などによって動ベクトルの検出処理を行なうと(ステップA1〜3)、続いて、パニングベクトル検出処理を実施するようになる(ステップA4)。そして、得られたパニングベクトルに基づいて動ベクトルを修正する(ステップA5)。
【0045】
ここで、パニングベクトルとは、画像中の一部が動くのではなく、画面全体が動く場合(パンする場合)、つまり、撮像手段としてのカメラ2が動いた場合などの状況に対応するもので、このカメラ2の動きの大きさと方向をパニングベクトルとして表すものである。そして、上述のようにして検出した動ベクトルからこのパニングベクトルを差し引いて修正することにより、画像中の動き領域をより正確に検出しようというものである。このパニングベクトルの検出については後述する。
【0046】
さて、得られた動ベクトルに基づいて、画像中の動きブロックを16×16のブロック画素単位(マクロブロックMBK単位)で動きの有無に関するラベリングを行う(ステップA6)。このときラベリング結果に基づいて、あらかじめ設定されているレベルLEVEL0〜3の値と比較してレベル判定を行ない、以降の処理段階の判断基準とする。この場合、各レベルは、所用演算量に対応した動作レベルを考え、最も演算量を抑えたレベルをLEVEL0とする。
【0047】
▲1▼LEVEL0の場合
動きブロック数が非常に少なく、あるしきい値以下の場合、WFMの位置姿勢は変化していないとしてLEVEL0の判定を行ない(ステップA7)、ステップA1に戻って次フレームの読み込みを開始する。この場合には、前回の処理で得られているWFMの位置姿勢情報や推定領域の情報が符号化処理に使用されるようになっている。
【0048】
▲2▼LEVEL1以上の場合
(a)動きブロック数が非常に少なくあるしきい値以下の場合には(ステップA7)、抽出された推定領域の重心ブロック内の平均色を計算し、それとの誤差が一定以内の平均色を持つブロックを領域に含めてラベリングする。
(b)動きブロック数がある一定しきい値以上の場合、上記の色ベクトル評価によるラベル修正は行わない。
【0049】
次に、色ベクトル評価によるラベル修正を行ない(ステップA8)、ラベル画像のクラスタリングを行ない(ステップA9)、クラスタリングされた領域の数である領域数Kを決定する(ステップA10)。そして、これらの各領域k(=1,…,K)について重心位置をブロックアドレスで計算し、その重心色を領域色とする(ステップA11〜A14)。この後に重心からの距離Lが最も近い別のクラスタ中心との距離の2分の1を超えるときにラベルを「0」にするといった距離によるフィルタ操作を施す(ステップA15)。
【0050】
次に、過去の複数フレームの情報を利用して出現回数の頻度で雑音成分を除去する時間フィルタリング手法や、大きなクラスタから孤立しているブロックを雑音成分と見なして除去する孤立点除去などの方法により雑音除去を施す(ステップA16,A17)。この後、領域kの重心を再計算し(ステップA18)、重心色との誤差評価により雑音除去を行う(ステップA19)。そして、得られた領域形状の長軸と短軸およびその傾きを抽出し(ステップA20)、以降、クラスタの数Kだけ同じことを繰り返す(ステップA12〜A21)。
【0051】
(B)モデル適合過程
図4に示したモデル適合過程(ステップS2)では、モデル適合部9において、図6に示すプログラムのフローチャートに従ってモデル適合過程が行なわれる。すなわち、まず、図3にも示したように、人物の上半身に対応したWFM(ワイヤフレームモデル)を選択し(ステップB1)、続いて、各領域に対応して、姿勢角の算出および距離rの算出を行なう(ステップB2〜B5)。
【0052】
この場合、例えば、前述の領域形状の短軸を頭部の投影領域の幅であると見なして姿勢角パラメータである角度α、β、γの算出と比例計算により、距離rを求める。これを用いてWFMの端点を透視変換し、WFMの投影像を得る(ステップB6)。この投影像の内部領域をWFMの部位(頭、胴体など)情報に基づいてラベリングする(ステップB7)。例えば、頭部のラベル値を「1」、目を「2」、胴体を「7」、背景は「0」といった値に割り付けてラベリングする。そして、以上のことを人物の数つまり領域の数Kだけ繰り返し実行する。
【0053】
すべての領域(人物)について上記演算を行った後、動作レベル指定がLEVEL1の場合は、ここで1フレームの領域抽出演算を終了して、次の画像読み込みに移る。すなわち、以下の評価修正過程、領域予測過程については実行しないのである。これによって、モデル適合の正確さは若干失われるが、全体の演算量を削減することができる。なお、このLEVEL1処理をシーンカット後しばらく時間が経過した後に適用すれば、対象物とWFMのずれとはそれほど大きくならないと考えられる。そして、動作レベルがLEVEL2以上の場合は、以下の処理過程を実行する。
【0054】
(C)評価修正過程
次に、図4に示した評価修正過程(ステップS4)では、評価修正部10において、図7に示すプログラムのフローチャートに従って評価修正過程が行なわれる。すなわち、ワイヤフレーム投影によって得た切り出し領域(2次元推定領域)の評価を行なうために、原画像データをもとにして評価を行なって2次元推定領域の修正を行なうと共にワイヤフレームモデルの適応的変形の処理を行なうものである。
【0055】
例えば、前述のようにラベリングした結果のデータを用いて、人物頭部領域を抽出してその領域重心の色を後述するようにして評価し(ステップC1)、この後、前述したレベルがLEVEL2である場合には以降の評価修正過程(ステップC3〜C6)を省略し、LEVEL3である場合には続く色連続性評価,適合度評価,2次元位置修正および3次元位置姿勢修正を行なう(ステップC3〜C6)。この場合、LEVEL2では、ステップC1の領域重心としての評価で妥当と判断されたときには、そのWFM領域重心および色を採用し、不適と判断されたときには動領域解析部8にて得られた値を用いるようになっている。
【0056】
次に、シーンカット以後のフレーム時刻Nfがあるしきい値Nf_THに達している場合にはパラメータ評価しきい値の変更を行う(ステップC7,C8)。これは、シーンカット直後の例えば1〜3秒程度は大きくしきい値を取り、それ以後は小さくするものである。この値をもとにして、物理的制約による評価および常識適用による総合評価を行い(ステップC9〜C12)、評価結果が良好であればこの処理を終了し、そうでない場合にはもう一度モデル適合過程(ステップS2)に戻って繰り返し行なう(ステップC13)。
【0057】
(D)領域予測過程
次に、図4に示した領域予測過程(ステップS5)では、領域予測部11において、図8に示すプログラムのフローチャートに従って領域予測過程が行なわれる。上述したような1フレーム全体に渡る大局的処理により抽出した領域は現在フレームにおける推定領域であるが、これをもとにして現在フレームを再度処理して符号化を行うことは遅延時間と演算時間の増大を招く。そこで、ここでは、この推定領域から次のフレームの予測領域を求めることを行なう。
【0058】
この場合、領域の平均動きベクトルの線形予測という形で2次元的に実現することも可能であるが、ここでは、各領域について(ステップD1,D2,D7)3次元位置姿勢の時系列の線形予測により(ステップD3)、Nf+1時刻のWFMの投影領域を予測する(ステップD4〜D6)。これにより、現在フレームの符号化と次フレームの領域予測を同時に並行して進めることができるようになる。
【0059】
次に、上述した処理の流れにおける各部の処理内容の詳細について項目別に説明する。
A.動領域解析過程について
(1)動ベクトルの検出
動きベクトルの検出は、本実施例においては、例えば、原画像(例えばCIF)サイズの画像についてブロック毎のフレーム間相関を計算することによって行うブロックマッチング法を用いる。この動ベクトルの検出方法については、ブロックマッチング法以外にも利用することができる。
【0060】
(2)パニングベクトルの検出
カメラ2が静止している場合は、上述のようにして検出される動ベクトルがそのまま対象物の動きの2次元投影に対応することが多いが、カメラ2が動いている場合(パニングが有る場合)には、このカメラ2の動きに対応したパニングベクトルを検出して対象物の動きと分離する必要がある。
【0061】
[a]パニングの有無の判定と計算
パニングベクトルが発生しているか否かの判定については、図9に示す計算手順に従う。これは、例えば、図10のように、画像周辺部の4辺(あるいは矩形領域)について、各1個の平均動ベクトルを計算する(ステップE1)。特に、ここでは実施例として画像の最も外側から2番目のMBKで構成する辺のブロック列BL1〜BL4をエッジ領域として、それらの各BL1〜4の平均動きベクトルPMVn(n=1〜4)を次式(1)〜(4)に基づいて計算する。
【0062】
【数1】
PMVn;エッジ領域BLn(n=1〜4)のパニングベクトル
MV(i,j);MBK座標(i,j)のMBKの動きベクトル
【0063】
この4個のパニングベクトルPMV1〜4が大体同じ大きさ(≠0)と方向であれば画像全体が動いていると見なすことができるので、パニングベクトルが発生していると判定する。そこでまず、4個のパニングベクトルPMV1〜4の分散値VPAN 2を次式(5),(6)で計算する(ステップE2,E3)。
【0064】
【数2】
d(vi,vj);ベクトルviとvjの間の距離関数(ここでは2乗距離)
MPV ;4個のPMVの平均ベクトル
【0065】
また、画面全体のパニングベクトルの推定値であるMPVの大きさについても評価する必要があるため、平均ベクトルMPVの大きさを2乗距離値APAN 2として表し、次式(7)により求める(ステップE5)。すなわち、
APAN 2=d(MPV,0) …(7)
であり、この2乗距離値APAN 2および分散値VPAN 2を用いて以下のようにしきい値判定する(ステップE4,E6,E7,E8)。
【0066】
▲1▼VPAN 2≧VPAN 2_THのとき、
あるいは、
APAN 2<APAN 2_THのとき
→ パニングはなしと判定する(ステップE8)
▲2▼上記以外の場合
→ パニングありと判定し、MPVをパニングベクトルとする(ステップ
E7)
しきい値については、経験的に設定するが、例えば、次のように設定することで、比較的良好な結果を得ることができる。
(VPAN 2_TH,APAN 2_TH)=(50,1)
【0067】
[b]パニングベクトル除去による動き量の補正
パニングありと判定したとき、各MBKの動きベクトルを次式(8)を用いて補正する。
TMV(i,j)=MV(i,j)−MPV …(8)
この補正された動きベクトルTMVを実質的な動きベクトルとし、以下の動領域解析過程を進める。
【0068】
(3)変化ブロックの重心位置の計算
変化ブロックの検出には以下の方法が考えられる。
▲1▼フレーム間差分のしきい値判定
▲2▼動き補償フレーム間差分のしきい値判定(パニングを考慮しない)
▲3▼パニング補正動きベクトルによる動領域判定
【0069】
ここで、カメラ2が固定の場合は上記▲1▼の方法で十分である。しかし、この方法では、カメラ2のほんの僅かなぶれに対しても敏感に反応してしまうので、符号化器1の演算容量に余裕がある場合は上記▲2▼の方法または▲3▼の方法を使用することが望ましい。ここで、▲2▼の方法は主として色合いや輝度の変化に基づく変化ブロックの検出に対応し、▲3▼の方法は本来の対象物の動きに起因する変化ブロックの検出に対応する。そこで、▲2▼および▲3▼の方法の併用で検出した変化ブロックについて重心位置を検出する。
【0070】
これらの操作は、画面内の対象物が1個と仮定できる場合である。対象物が複数個ある場合には上記で得た変化ブロック群のクラスタリングが必要になる。この場合において、クラスタリングを行うかどうかは以下のようなプロセスで決定される。
【0071】
[a]第1ステップ …重心計算またはクラスタリングの起動
ケース1 …被写体モードにおいて人物が一人 → 重心計算
ケース2 …対象領域の数が不明 → 重心計算
ケース3 …対象領域の数が既知(2以上) → クラスタリング
ケース4 …対象領域の数が不明(2以上) → クラスタリング
[b]第2ステップ …クラスタリング
クラスタリングにおいては重心を求めると同時にクラスタ半径も抽出する
【0072】
第1ステップのケース2の場合の処理は、対象領域数K=1の仮定を行ったことに相当しており、この仮定のもとに計算を進めた結果、後述の評価プロセスで矛盾する(誤差評価関数があるしきい値を超える)場合には、次のフレームにおいては仮定を変更してケース4を選択するようになっている。
【0073】
(4)色解析
[a]重心色の計算
上述の(3)変化ブロックの重心位置の計算で決定された1個以上の領域重心ブロックについてブロック画素の平均色を計算する。これを重心色と呼び、例えば人物を対象とする場合はこの重心色を肌色の1次推定結果とする。なお、平均色は以下の式(9)〜(11)で計算する。
【0074】
【数3】
【0075】
CPAT (k,i,j);MBK(i,j)の平均色ベクトルのk番目の成分 (k=1,2,3)
MBK_Y(i,j,ix,jy);MBK(i,j)の(ix,jy)画素のY成分画素値
BLK_U(i,j,ix,jy);MBK(i,j)のUブロックの(ix,jy)画素値
BLK_V(i,j,ix,jy);MBK(i,j)のVブロックの(ix,jy)画素値
【0076】
[b]各ブロックの平均色と重心色との距離計算
これは次式(12)にしたがって求める。
【0077】
【数4】
LCD(i,j);MBK(i,j)の平均色と重心色との間の絶対値距離
IG;重心ブロックの水平座標
JG;重心ブロックの垂直座標
【0078】
[c]各ブロックのしきい値判定
各MBKについて計算した色距離LCDをもとに、次のような判定を行う。
LCD>LCD_THの場合
→ MBK(i,j)は領域外
LCD≦LCD_THの場合
→ MBK(i,j)は領域内
LCD_TH;しきい値
【0079】
ここで、LCDは0〜255の値をとる3成分の絶対値距離の和として計算されるので、0≦LCD≦765、となる。これをもとに、LCD_THを設定する(100〜200程度が妥当である)。なお、このしきい値はシーンカット直後と、その後で動的に変更することが望ましい。例えば、次のようである。
【0080】
0≦Nf≦Nf_THのとき
→ LCD_TH=300
Nf_TH<Nfのとき
→ LCD_TH=100
Nf;ある1カットのシーンのフレーム番号
というように、再帰的領域抽出結果が安定して対象物をトラッキングできるようになるまでのフレーム時間をNf_THとしてその間は大きい変化を許容し、その後は許容誤差を小さく設定する。シーンカットの判定手法は限定しないが、画面全体についてのフレーム間動き補償差分電力の総和のしきい値判定に基づく方法が考えられる。
【0081】
(5)雑音除去
[a]距離判定による雑音除去
重心ブロックと各ブロックとの間の距離を計算し、あるしきい値以上のブロックを対象領域の候補から除去する。これは、クラスタリングを適用した場合では、クラスタ半径を基準にした領域判定を行うことに相当する。すなわち、領域重心MVK(IG,JG)について、次式(13)により2乗距離dRを計算し、その結果に基づいて下記のように判断する。
【0082】
dR=d[(IG,JG),(i,j)] …(13)
dR<(Rc+δ)
→ MBK(i,j)は領域候補である
dR≧(Rc+δ)
→ MBK(i,j)は領域候補ではない
Rc;クラスタ半径
δ;正整数(例えば1〜3程度)
【0083】
[b]時間フィルタリングによる雑音除去
時間方向のヒストグラム処理により、雑音ブロックを除去する。これは、過去の複数フレームの処理で得られているデータに基づいてフィルタリング処理を行なうもので、例えば、3フレーム時間程度に渡って検出した動きベクトルの発生領域について重ね合わせた状態で得られるパターンについてヒストグラムをとって発生頻度の高いブロックを検出するようにした方法である。
【0084】
[c]孤立点除去や輪郭形状の滑らかさによるフィルタリング
通常の2値画像処理において用いられているのと同様の孤立点除去および輪郭雑音のフィルタリングをMBKラベル画像に対して適用する。
【0085】
[d]領域内の穴埋め
領域内の穴は水平スキャンにおける2値平滑化により穴埋めを施す。ここで領域形状があらかじめモデル等で予測できる場合は(例えば楕円など)隣接する水平ブロック間での長さを予測することでブロック帯を安定して抽出できる。
【0086】
(6)傾き検出
図4に示したように、抽出した領域の傾きから、ワイヤフレームの配置における回転角γを決定する。このとき、回転角γの決定は、例えば次のような方法で行なう。すなわち、抽出した領域の端部に位置する縦方向あるいは横方向のブロック列の対向する中点間を結んで長軸あるいは短軸を検出し、その軸の中点に直交する直線を求めて領域の端部と交差する位置を求めることにより残った短軸あるいは長軸を検出する。得られた長軸および短軸のデータから傾きを決定することができる。
【0087】
回転角γの決定については、次のようにして求めることもできる。すなわち、領域の重心位置を求めこの重心位置を通る直線について傾きを変化させたときに領域端部と交差する線分の長さが最大となるものを長軸として検出し、この長軸に直交する線分を短軸として検出することもできる。
【0088】
これは、隣接する水平ブロック帯の間の中心位置を結ぶことによって得られる局所的な傾きの平均に等しい(図11(a)参照)。しかし、前述のようにして雑音除去を施して抽出した領域であっても、ある程度は抽出された領域形状に雑音を含んでいるため、傾き検出方法(特にエッジのみを用いる簡単な方法の場合)によっては長軸/短軸が反転する可能性がある(図11(b)参照)。これに対しては、次の方法が考えられる。
【0089】
[a]雑音除去を高度化し、完全に凸領域になるようにする
[b]傾き検出をロバスト化する
[c]フレーム間の傾き変化に対して制約を設定する
[a]、[b]は画像処理の改善による方法であるので省略する。[c]については、後述する評価修正過程の説明で述べる。
【0090】
B.モデル適合過程について
上記で得られた動領域解析結果をもとに、ワイヤフレームモデルを配置する。そのために、まず、3次元位置姿勢を計算する。ワイヤフレームの画像面上への投影に当たっては透視変換行列を計算するための位置姿勢パラメータr,θ,φ,α,β,γを上記の動領域解析結果から計算する。なお、これらの位置姿勢パラメータについては、rはカメラ2との間の距離を示す値であり、θ,φは対象物の姿勢を示す値であり、α,βはカメラ2の傾きを示す値であり、γはカメラ2の光軸回りの回転角を示す値である。
【0091】
(1)対象物の3次元位置姿勢の計算
[a]光軸まわりの回転角γ
投影面上の長軸の直線の傾き角度をDRCTとすると、次式(14)で表すことができる。
γE=arctan(DRCT) …(14)
【0092】
[b]対象物中心の偏差角α,β
領域重心(IG,JG)を対象物中心とみなし、CIF画像の画素座標(NPA,NPB)に変換すると、次式(15)、(16)のようになる。そして、これより、画像中心からの偏差角α,βは次式(17)、(18)で表される。
【0093】
【数5】
H_SIZE;CIF画像の水平画素サイズ
V_SIZE;CIF画像の垂直画素サイズ
【数6】
FL;カメラの焦点距離
【0094】
[c]距離r
動領域解析で抽出した一次推定領域をもとに、次式(19),(20)でカメラ2と対象物との間の距離rEを計算する。
【0095】
【数7】
MHW:距離r=rsの時に3次元対象物を画像面に投影した際に得られる対象領域の水平幅(あるいは垂直幅),ただし,対象物の光軸周り回転
角はγ=0とする
RHW0:一次推定領域のラインスキャンで得られる水平(垂直)方向の幅
RHW :一次推定領域の傾き角度γEで補正した水平(垂直)方向の幅
【0096】
[d]位置を示す角度θ,φ
角度θ,φを1回目の動領域解析の1次推定結果から計算する方法は限定していない。1次推定においては、通常、先見的知識がない限り対象物は計算開始時点において正面を向いていると仮定する。即ち、
θ=0,φ=0
とする。
【0097】
(2)投影領域のラベリング
MBKラベル画像と同じ解像度に変換したワイヤフレームをMBKラベル画像にオーバレイし、直線部分をラベリングする。その後、ラインスキャンにより穴をラベリングする。
【0098】
(3)部分領域のラベリング
上記の投影領域のラベリングにおいて、ワイヤフレームの3次元座標をもとに対象物の部分領域毎にラベル値を変えてやることにより、対象物の特徴部分と2次元部分領域を対応づけることができる。
【0099】
C.評価修正処理について
(1)ワイヤフレーム投影によって得た切り出し領域(2次推定領域)の評価ここでは、原画像データをもとにして前述のモデル適合処理過程で適合処理を行なったワイヤフレームモデルの適合度の評価を行ない、そのフィードバックにより、次の事項について処理を実行する。
[a]2次推定領域の修正(3次元位置姿勢の修正)
[b]ワイヤフレームモデルの適応的変形
【0100】
(2)常識の利用
評価手段としてはワイヤフレームモデルに対応するオブジェクト(車、人等)が持つ形状情報,位置姿勢、画像テクスチャに対して以下のような制約条件のもとで評価を行なう。
【0101】
[a]物理的制約
▲1▼力学的慣性の妥当性
▲2▼速度、振動周波数の妥当性
▲3▼位置関係の妥当性
[b]概念的制約
▲1▼位置関係の妥当性評価
▲2▼色の妥当性
▲3▼運動軌跡の妥当性
【0102】
(3)色の妥当性評価
図12に色の評価に関する基本方針を示す。
[a]重心色の再評価
切り出し領域(2次推定領域)の重心色を動領域解析過程における色解析処理と同様にして計算する。即ち、切り出し領域の重心座標を(IG1,JG1)とすると重心色は次式(21)〜(23)で表わされる。これらを用いて距離計算を式(24)に基づいて行なう。
【0103】
【数8】
【0104】
これに対して次のようにしきい値判定を行なう。
【0105】
LCDG>LCDG_TH
→MBK(IG1,JG1)は領域重心から外れている
LCDG≦LCDG_ΤH
→MBK(IG1,JG1)は領域重心として妥当である
LCDG_TH;しきい値,対象領域を何であると仮定しているかによって値は異なりうる。
【0106】
[b]領域内の色の連続性評価
ここでは、領域の境界部分の色の連続性評価を次のようにして行なう。図12のように領域内をブロック毎にスキャンし、重心色と各ブロックの平均色との間の誤差を再評価する。即ち、LCDGを各ブロックについて計算し、その値に応じて次のようにラベリングを行なう。尚、ここであらかじめ推定領域は「1」、領域外は「0」にラベリングしておく。
【0107】
LCDG>LCDG_TH
→MBK(i,j)は領域外であると判定し,「2」にラベリングする
LCDG≦LCDG_TH
→MBK(i,j)は領域内にあると判定する
LCDG_TH;しきい値,対象領域の仮定によって値は異なりうる
【0108】
[c]3次元位置姿勢の修正ベクトルの計算
(ア)2次元の近似修正ベクトルの計算
上述の[b]領域内の色の連続性評価で得られたラベル画像をもとに次の2つの部分領域の重心G1,G2を計算する。
G1(ISG1,JSG1);2次推定領域内でラベル1(推定領域内)の部分領域の重心
G2(ISG2,JSG2);2次推定領域内でラベル2(色誤差が大)の部分領域の重心
【0109】
これをもとにして、2次元領域としての位置修正ベクトルの方向を次式(25)で計算する。
DSG12=(ISG2−ISG1,JSG2−JSG1) …(25)
ただし、これは方向のみ有効であり、大きさはあまり正確ではない。大きさを知るには図13に示すようにG1、G2を通るベクトルを延長して推定領域境界との交点ブロックB2と実物領域境界との交点ブロックB1を求める。その座標の差の値DSB12は次式(26)で示され、これが2次元近似修正ベクトルとなる。
DSB12=(ISB2−1SB1,JSB2−JSB1) …(26)
これを用いるか、あるいは後述の水平垂直スキヤンによって2次元位置修正ベクトルDV(=DVx+DVy)を計算する。
【0110】
(イ)位置関係
3次元位置姿勢を修正するためには次の2つを判定する必要がある。
1)推定領域と真の領域の間の大小関係
2)推定領域の境界部分における色の連続性
これは以下のようにして判定する。
【0111】
▲1▼水平スキャン
図8のように5.3.2で得たラベル画像をもとにして推定領域の重心G(IG1,JG1)から右と左の両方向に[ii0,ii1]の範囲で水平スキャンを行ない、次の2つの位置を求める。
【0112】
CL(ii0L,JG1);左スキャンで初めて2または0のラベル値のブロックに当たる位置
CR(ii0R,JG1);右スキャンで初めて2または0のラベル値のブロックに当たる位置
この2点における色べクトルの連続性を以下のようにして判定する
(case−HC1)
LCD[(ii0L,JG1),(ii0L−1,JG1)]≦LCDTH
→左連続
(case−HC2)
LCD[(ii0R,JG1),(ii0R+1,JG1)]≦LCDTH
→右連続
また、位置関係を以下のようにして判定する。
【0113】
<case−HP1>
ii0<ii0L 且つ ii0R<ii1
→真の領域は推定領域よりも小さい
DVx=(0,DSG12x) …(28)
RD=R×W/WD …(29)
WD=ii0D−ii0R+1 …(30)
W=ii1−ii0+1 …(31)
<case−HP2>
ii0<ii0L 且つ ii0R=ii1 且つ 右連続
→真の領域は推定領域よりも右にずれている
DVx=(0,ii0−ii0L) …(32)
【0114】
<case−HP3>
ii0≧ii0L 且つ ii0R<ii1 且つ 左連続
→真の領域は推定領域よりも左にずれている
DVx=(0,ii1−ii0R) …(33)
<case−HP4>
ii0=ii0L 且つii0R=ii1 且つ 右連続且つ 左連続
→真の領域は推定領域よりも大きい
DVx=(0,DSG12x) …(34)
RD=R×W/WD …(35)
WD=ii0R−ii0L+1 …(36)
W=ii1−ii0+1 …(37)
ただし、
DVx;水平方向の2次元位置修正ベクトル
RD;修正後の距離値
である。
【0115】
▲2▼垂直スキャン
図14のように[b]領域内の色の連続性評価で得たラベル画像をもとにして推定領域の重心G(IG1,JG1)から上下両方向に[jj0,jj1]の範囲で垂直スキャンを行ない、次の2つの位置を求める。
【0116】
CU(IG1,jj0U);上スキャンで初めて2または0のラベル値のブロックに当たる位置
CD(IG1,jj0D);下スキャンで初めて2または0のラベル値のブロックに当たる位置
この2点における色べクトルの連続性を以下の様にして判定する
(case−VCI)
LCD[(IG1,jj0U),(IG1,jj0U−1)]≦LCDTH
→上連続
(case−VC2)
LCD[(IG1,jj0D),(IG1,jj0D+1)]≦LCDTH
→下連続
また、位置関係及び垂直方向の2次元修正を以下のようにして判定する。
【0117】
<case−VP1>
jj0<jj0U 且つ jj0D<jj1
→真の領域は推定領域よりも小さい。
【0118】
DVy=(0,DSG12y) …(38)
RD=R×H/HD …(39)
HD=jj0D−jj0U+1 …(40)
H=jj1−jj0+1 …(41)
<case−VP2>
jj0<jj0U 且つ jj0D=jj1 且つ 下連続
→推定領域は真の領域よりも上にずれている
DVy=(0,jj0−jj0U) …(42)
【0119】
<case−VP3>
jj0≧jj0U 且つ jj0D<jj1 且つ 上連続
→推定領域は真の領域よりも下にずれている
DVy=(0,jj1−jj0D) …(43)
<case−VP4>
jj0=jj0U 且つ jj0D=jj1 且つ 下連続 且つ 上連続
→真の領域は推定領域よりも大きい
DVy=(0,DSG12y) …(44)
RD=R×H/HD …(45)
HD=jj0D−jj0U+1 …(46)
H=jj1−jj0+1 …(47)
ただし、
DVy;垂直方向の2次元位置修正ベクトル
RD;修正後の距離値
である。
以上の結果から位置関係が図15(a)〜(f)のどの場合に相当するかが判別できる。
【0120】
(ウ)3次元位置姿勢修正ベクトルの推定
上記によって場合分けされた結果と2次元位置修正近似ベクトルDV及び距離修正値RDによって3次元位置に関する修正を行なう。
【0121】
(4)物理的制約
対象物の動きに関して、対象物の物理的性質から常識的に判断した場合に自ずと決まる条件の範囲がある。このような条件をあらかじめ考慮しておくことにより対象物の位置姿勢の時間変化を評価する。
【0122】
[a]位置姿勢パラメータにおける時系列変化の妥当性
フレーム間の連続性を考えずに上記のプロセスで位置姿勢を推定した場合、対象物の速度や加速度、振動数が常識的範囲を越えてしまう場合がある。そこで、以下の3つの方法でフレーム毎の計算結果に修正を加える。
【0123】
▲1▼時系列の移動平均
▲2▼位置姿勢の時間差分の上限を設定する
▲3▼フレーム間予測値と誤差の上限を設定する
以下、▲2▼を重点的に説明する。また、▲3▼については領域予測処理の説明で詳述する。
【0124】
[b]画面に平行な面内の時間的偏位の評価
画面内における領域重心Gの時間変化はα,βのフレーム間変化から計算できる。αおよびβの時間変化を次式(48),(49)で定義する。
【0125】
【数9】
n;ビデオレート(30frame/s)画像に対してKdropフレームに1枚サンプルしたフレームの番号
これから、領域重心を起点とした画面に平行な面内の偏位量DPLを次式(50)〜(52)で計算する。
【0126】
【数10】
上式(52)においては、絶対値距離尺度を用いれば次式(53)のようになる。
【0127】
DPL(n)=|Dx(n)+Dy(n)| …(53)
これらに対して、しきい値DPL_THを設定し、以下のような判定処理を行う。
【0128】
DPL(n)>DPL_TH
→α(n)=α(n−1),β(n)=β(n−1)
DPL_TH≧DPL(n)
→α(n),β(n)を承認
例えば、特殊な場合は別として1秒間で人間が日常範囲の運動で動く量は1〜2m位であると考えると、1/30秒間の動き量のしきい値DPL_THは大体30〜70mm程度に設定できる。
【0129】
[c]距離の時間変化の評価
視点から領域重心までの距離rの時間変化は、次式(54)のように記述できる。
【0130】
【数11】
これに対してしきい値AR_THを設定し、以下のような判定処理を行う。
【0131】
Dr(n)>AR_TH
→r(n)=r(n−1)
AR_TH≧DPL(n)
→r(n)を承認
【0132】
[d]姿勢の時間変化の評価
対象物の3次元姿勢θ,φについても時間変化としきい値判定を上記と同様に考えることができる。
▲1▼水平方向の姿勢θ
【数12】
Dth(n)>THE_TH
→θ(n)=θ(n−1)
THE_TH≧Dth(n)
→θ(n)を承認
▲2▼垂直方向の姿勢φ
【数13】
Dph(n)>PHA_TH
→φ(n)=φ(n−1)
PHA_TH≧Dph(n)
→φ(n)を承認
【0133】
[e]動的制御
動領域解析において物理的制約を適用する際に、初期段階(例えば最初の1秒位)では、パラメータの制約を緩め、時間がたった後で徐々に制約を強める(図16(a)〜(c)参照)。すなわち、上記で設定した各しきい値XXX_THはシーンカット直後とその後で動的に変更することが望ましい。すなわち、
0≦Nf≦Nf_TH
→XXX_TH=TH1(TH1>TH2)
Nf_TH≦Nf
→XXX_TH=TH2
Nf;ある1カットのシーンのフレーム番号
というように、再帰的領域抽出結果が安定して対象物をトラッキングできるようになるまでのフレーム時間をNf_THとしてその間は大きい変化を許容し、その後は、許容誤差を小さく設定する。
【0134】
(5)モデルの適応化
[a]肩幅の適応
ほぼ正面画像であると仮定できるとき、初期ワイヤフレームに対して胴体部分の水平幅をある範囲内で変更して胴体部分のみの適合度評価関数が最大となる値を選択する。
【0135】
▲1▼動領域解析結果から得られるおおよその肩幅Wshを探索中心とする
▲2▼最大探索幅は頭部領域の水平幅Whdに対して比率wを次式(57)の範囲で考える。なお、目安として(w1,w2)=(1.0,5.0)位である
Wsh=Whd×w(w1≦w≦w2) …(57)
[b]頭部の幅の適応
基本的に肩幅と同じ考え方で行う。
【0136】
(6)常識の適用による制約
図1のモデルデータベースから色情報、3次元形状、シーン構造を選択するには、システム制御部から得られるモード情報とモデル情報に加えて、上記のプロセスで得られたモデル適合の評価修正結果を基にして、シーンの状況を決定する必要がある。そこで、使用環境や被写体に関するモード制御を行なうにあたって、状態遷移のパターンをあらかじめ設定しておき、それらの分岐においては、状態遷移の判定情報が不足する初期段階においては確率値のデフォルト値に基づいて状態遷移を判定し、このような判定動作を繰り返すうちに評価結果に応じて適切な状態遷移が行なえるようにこの確率値を変更設定する。
【0137】
[a]確率ラベルの更新
状態遷移の解釈木のパスを一度通り、その評価プロセスによる評価スコア値SCOREがしきい値SC_TH1,SC_TH2の値に対して次の場合に応じて確率ラベルの変更を行なう。
【0138】
SCORE≧SC_TH1
→p(path−i)の確率ラベルを上げる
SC_TH1>SCORE≧SC_TH2
→p(path−i)の確率ラベルを変更しない
SC_TH2>SCORE
→p(path−i)の確率ラベルを下げる
【0139】
[b]他の経路の並列評価の判定
確率ラベルの経路和の値SP(path−i)の値に応じて各パスの解析・評価計算を行うかどうかを決定する。最も確率値の高いパスをpath−iとするとき、以下のように判定する。
【0140】
▲1▼SP(path−i)≧0.8
→path−iの計算のみ行う
▲2▼0.8>SP(path−i)≧0.5
→path−iの次に確率の高いpath−jを選択し
path−iとpath−jの並列計算を進める
▲3▼0.5>SP(path−i)≧0.2
→確率の高い上位3個のpath−kを選択する
▲4▼0.2>SP(path−i)
→状況仮定の変更を行う
【0141】
次に、発明者が実験的に行なった推定領域の抽出処理過程の結果について概略的に説明する。図17ないし図24は、CIF形式のブロックに分割した場合の結果を示している。人物の頭部を撮影したある画像について、まず、動ベクトル検出によるラベリングを行なった結果が図17に示される。これに対して、パニングベクトルを検出して補正を行なった結果が図18に示される。さらに、時間方向のヒストグラム処理による雑音除去処理を行なった結果が図19に示される。図中の値は頻度を示している。また、顔領域について重心色による評価を行なった結果が図20に示される。そして、ワイヤフレーム適合による投影を行なった結果が図21に示される。
【0142】
また、図22ないし図24にはこのようにして抽出された図20に相当する推定領域の結果について時間的に変化する状態を、シーン開始時点から数えて、第1フレーム(Nf=1),第7フレーム(Nf=7)および第13フレーム(Nf=15)について示している。
【0143】
このような本実施例によれば、画像の動領域を抽出して対象物の推定領域とし、その推定領域に対して符号化処理における符号化レートを他の領域に比べて高くするので、限られた伝送容量の範囲で画像の符号化信号を送信する場合においても、使用者が見た時の印象として人物の顔などの注目する領域に関して高精度で動き情報が良く表現されるようになり、動画像としての見た目の印象を良くすることができるようになる。
【0144】
また、本実施例によれが、対象物の3次元形状をワイヤフレームモデルとして規定すると共に、色のモデル情報やシーン構造を規定してモデルベースとして設定し、抽出された動領域の形状特徴に基づいてワイヤフレームモデルの位置姿勢を推定しこれに基づいて推定領域を抽出するので、対象物の動きに応じて高い精度で追随して動領域に対する推定領域の抽出を行なうことができる。
【0145】
さらに、モデル適合過程により抽出された推定領域の適合度を画像のデータに基づいて評価し、その評価結果に応じて適合度がより高くなるように推定領域を修正するので、符号化処理過程で、修正されたより精度の高い推定領域を用いて符号化処理を行なうことができ、これによって、対象物に対応した推定領域をより精度よく抽出できる。
【0146】
そして、対象物の常識的なモデル情報として例えば色情報や運動情報あるいは3次元構造の情報があらかじめ規定されているので、評価修正過程においては、抽出されている推定領域のデータがその常識的なモデル情報に適合しているかを評価修正を行なうことにより、より正確な推定領域の抽出をすることができるようになる。
【0147】
符号化処理過程では、前回のフレームで抽出された推定領域の情報に基づいてその推定領域に対応して精度を高めて符号化処理を行なうので、同じフレームの画像データについて繰り返し読出して信号処理をすることがなくなり、演算処理を迅速に実施することができる。また、必要に応じて、推定領域に対して次フレームの予測を行なうので、速い動きがある場合にもこれに追随して的確な推定領域の情報を得ることができる。
【0148】
また、動領域検出過程においては、検出された動きブロックの情報に加えて画像の色情報に基づいて動領域を検出するので、動きの少ないブロックに対しても色情報から対象物に対応したブロックであるか否かの判定を行なえ、対象物に相当する推定領域の抽出の精度を向上させることができるようになる。
【0149】
動領域検出過程においては、色距離計算に続くしきい値判定で用いるしきい値の設定を時間の経過に伴って低いレベルに変更するので、画像から対象物の推定領域を抽出する場合に、シーンの開始直後から時間が経過するにしたがって推定領域の抽出精度が向上してくることに基づいてより精度の高い判定処理を行なうことができるようになる。
【0150】
動領域検出過程において、重心位置からの距離による雑音除去を行なうと共に時間的に前後するフレームの画像のデータから雑音除去を行なうので、動領域の抽出を高精度で行なうことができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す符号化器のブロック構成図
【図2】全体の概略的構成図
【図3】領域情報を抽出する原理説明図
【図4】領域抽出プログラムのフローチャート
【図5】動領域解析処理プログラムのフローチャート
【図6】モデル適合処理プログラムのフローチャート
【図7】評価・修正処理プログラムのフローチャート
【図8】領域予測処理プログラムのフローチャート
【図9】パニングベクトル計算プログラムのフローチャート
【図10】画像中のパニングベクトル検出の計算に使用するブロックの説明図
【図11】抽出領域の傾きを検出する場合の作用説明図
【図12】抽出した推定領域の色評価に関する概念的な説明図
【図13】2次元の近似修正ベクトルの計算をする場合の概念的な説明図
【図14】推定領域内の色連続性の判定処理をする場合の概念的な説明図
【図15】推定領域と実物領域とのさまざまなずれの関係を示す説明図
【図16】しきい値変更を示す作用説明図
【図17】実験例を示す1フレームの各ブロックにおける、動ベクトル検出によるラベリング結果図
【図18】同、パニングベクトル除去後のラベリング結果図
【図19】同、時間方向のヒストグラム処理を行なった後のラベリング結果図
【図20】同、重心色による評価結果図
【図21】同、ワイヤフレーム適合による投影結果図
【図22】同、時間の推移に伴う図21相当図(その1)
【図23】同、時間の推移に伴う図21相当図(その2)
【図24】同、時間の推移に伴う図21相当図(その3)
【符号の説明】
1は符号化器、2はカメラ、3はA/D変換部、4は動き補償予測符号化部、5はモデルベース対象領域抽出部、6は2次元動きベクトル検出部、7は符号化属性判定・制御部、8は動領域解析部、8aはパニングベクトル検出部、8bは動きブロック判定部、8cは重心計算部、8dは平均色計算部、8eは背景雑音除去部、8fは2次元形状パラメータ抽出部、9はモデル適合部、9aは3次元位置姿勢推定部、9bは透視変換部、9cは投影領域計算部、10は評価・修正部、10aは色評価部、10bは適合度計算部、10cは3次元位置姿勢速度決定部、11は領域予測部、11aは移動平均部、11bは3次元動き予測部、11cは領域計算部、12はモデルデータベース、12aは色情報データベース、12bは3次元形状データベース、12cはシーン構造データベースである。
Claims (34)
- 画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも2フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを有する画像の認識方法により得られた画像情報を符号化する画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なう符号化処理過程を備え、
前記動領域検出過程では、検出された動きブロックの情報に加えて画像の色情報に基づいて前記動領域を検出し、
前記色情報の検出は、重心色の計算による対象物の色の決定と、色距離計算としきい値判定により行ない、
前記しきい値判定で用いるしきい値の設定を時間の経過に伴って低いレベルに変更することを特徴とする画像情報の符号化方法。 - 画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも2フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを有する画像の認識方法により得られた画像情報を符号化する画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なう符号化処理過程を備え、
前記動領域検出過程では、検出した動きブロックについて時間的に前後するフレームの画像の動きブロックを参照してヒストグラムを作成して時間方向のフィルタリングを行なうことにより雑音除去処理を行なうことを特徴とする画像情報の符号化方法。 - 画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも2フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを有する画像の認識方法により得られた画像情報を符号化する画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なう符号化処理過程を備え、
前記対象物のモデルとして、3次元モデル、色情報およびシーン構造を含むモデルを規定したモデルデータベースを設け、
前記モデルデータベースから前記モデルを選択する場合に、確率的に状態遷移を行なうときの確率値を変更または状態遷移経路を変更することを特徴とする画像情報の符号化方法。 - 画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも2フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを有する画像の認識方法により得られた画像情報を符号化する画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を 割り当てるように符号化処理を行なう符号化処理過程と、
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程と
を設け、
前記符号化処理過程では、この評価修正過程を経て修正された推定領域に対して前記符号化処理を行ない、
前記評価修正過程では、対象物の3次元位置姿勢のパラメータ値およびその時間変化および予測誤差のしきい値判定により3次元位置姿勢の算出値を評価修正することを特徴とする画像情報の符号化方法。 - 画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも2フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを有する画像の認識方法により得られた画像情報を符号化する画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なう符号化処理過程と
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程と
を設け、
前記符号化処理過程では、この評価修正過程を経て修正された推定領域に対して前記符号化処理を行ない、
前記評価修正過程では、3次元位置姿勢算出値のしきい値判定で用いるしきい値の設定を時間の経過に伴って動的に変更することを特徴とする画像情報の符号化方法。 - 請求項1ないし5のいずれかに記載の画像情報の符号化方法において、
前記対象物の形状モデルは3次元モデルとしてデータが規定されており、
前記モデル適合過程では、前記動領域の2次元的な形状特徴に基づいて前記対象物の3次元モデルの概略の位置姿勢を推定しこれに基づいて前記推定領域を抽出することを特徴とする画像情報の符号化方法。 - 請求項6記載の画像情報の符号化方法において、
前記モデル適合過程では、前記対象物の3次元モデルの位置姿勢情報に基づいてそのワイヤフレームモデルを画像面上に投影し、その内部領域を前記対象物の推定領域として抽出することを特徴とする画像情報の符号化方法。 - 請求項1ないし3、6、7のいずれかに記載の画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程を設け、
前記符号化処理過程では、この評価修正過程を経て修正された推定領域に対して前記符号化処理を行なうことを特徴とする画像情報の符号化方法。 - 請求項4、5、8のいずれかに記載の画像情報の符号化方法において、
前記評価修正過程では、前記対象物の常識的なモデル情報をあらかじめ規定してこれに基づいて評価修正を行なうことを特徴とする画像情報の符号化方法。 - 請求項9記載の画像情報の符号化方法において、
前記評価修正過程では、時間的に前後する画像のそれぞれにおいて抽出した推定領域が 前記対象物の物理的な動き条件や常識的な動き条件に適合しているか否かを判定する処理過程を含んでいることを特徴とする画像情報の符号化方法。 - 請求項8ないし10のいずれかに記載の画像情報の符号化方法において、
前記評価修正過程では、前記対象物に対応した常識的色情報,重心色の再評価および推定領域内の色連続性評価を行なって前記推定領域の修正を行なうことを特徴とする画像情報の符号化方法。 - 請求項1ないし11のいずれかに記載の画像情報の符号化方法において、
前記符号化処理過程では、前記抽出された推定領域の情報を次のフレームの画像の符号化処理に適用することを特徴とする画像情報の符号化方法。 - 請求項1ないし11のいずれかに記載の画像情報の符号化方法において、
前記推定領域の抽出過程で得られた情報に基づいて次の画像の前記対象物の推定領域を予測する領域予測過程を設け、
前記符号化処理過程では、前記領域予測過程で予測された予測推定領域の情報を次のフレームの画像の符号化処理に適用することを特徴とする画像情報の符号化方法。 - 請求項1ないし13のいずれかに記載の画像情報の符号化方法において、
前記動領域検出過程は、画像のパニングベクトルを検出してこれに基づいて検出された動きブロックの情報を補正することを特徴とする画像情報の符号化方法。 - 請求項1ないし14のいずれかに記載の画像情報の符号化方法において、
前記動領域検出過程では、検出された動きブロックの情報に加えて画像の色情報に基づいて前記動領域を検出することを特徴とする画像情報の符号化方法。 - 請求項15記載の画像情報の符号化方法において、
前記動領域検出過程では、前記色情報の検出を、重心色の計算による対象物の色の決定と、色距離計算としきい値判定により行なうことを特徴とする画像情報の符号化方法。 - 請求項1ないし16のいずれかに記載の画像情報の符号化方法において、
前記動領域検出過程では、検出した動きブロックについて重心位置との間の距離計算としきい値判定を行なうことにより雑音除去処理を行なうことを特徴とする画像情報の符号化方法。 - 請求項7ないし16のいずれかに記載の画像情報の符号化方法において、
前記評価修正過程では、前記対象物の3次元モデルのワイヤフレームモデルを画像面に投影する際に、その対象物の所定部位の適合性が高くなるようにワイヤフレームモデルを当てはめてモデルの適応化を図ることを特徴とする画像情報の符号化方法。 - 画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも2フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを備え、
前記動領域検出過程では、検出された動きブロックの情報に加えて画像の色情報に基づいて前記動領域を検出し、
前記色情報の検出は、重心色の計算による対象物の色の決定と、色距離計算としきい値判定により行ない、
前記しきい値判定で用いるしきい値の設定を時間の経過に伴って低いレベルに変更することを特徴とする画像の認識方法。 - 画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも2フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを備え、
前記動領域検出過程では、検出した動きブロックについて時間的に前後するフレームの画像の動きブロックを参照してヒストグラムを作成して時間方向のフィルタリングを行なうことにより雑音除去処理を行なうことを特徴とする画像の認識方法。 - 画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも2フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを備え、
前記対象物のモデルとして、3次元モデル、色情報およびシーン構造を含むモデルを規定したモデルデータベースを設け、
前記モデルデータベースから前記モデルを選択する場合に、確率的に状態遷移を行なうときの確率値を変更または状態遷移経路を変更することを特徴とする画像の認識方法。 - 画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも2フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程と、
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程とを設け、
前記評価修正過程では、前記対象物の常識的なモデル情報をあらかじめ規定してこれに基づいて評価修正を行なうと共に、対象物の3次元位置姿勢のパラメータ値およびその時間変化および予測誤差のしきい値判定により3次元位置姿勢の算出値を評価修正することを特徴とする画像の認識方法。 - 画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも2フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程と、
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程とを設け、
前記評価修正過程では、前記対象物の常識的なモデル情報をあらかじめ規定してこれに基づいて評価修正を行なうと共に、3次元位置姿勢算出値のしきい値判定で用いるしきい値の設定を時間の経過に伴って動的に変更することを特徴とする画像の認識方法。 - 請求項19ないし23のいずれかに記載の画像の認識方法において、
前記対象物の形状モデルは3次元モデルとしてデータが規定されており、
前記モデル適合過程では、前記動領域の2次元的な形状特徴に基づいて前記対象物の3次元モデルの概略の位置姿勢を推定しこれに基づいて前記推定領域を抽出することを特徴とする画像の認識方法。 - 請求項24記載の画像の認識方法において、
前記モデル適合過程では、前記対象物の3次元モデルの位置姿勢情報に基づいてそのワイヤフレームモデルを画像面上に投影し、その内部領域を前記対象物の推定領域として抽出することを特徴とする画像の認識方法。 - 請求項19ないし21、23、25のいずれかに記載の画像の認識方法において、
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程を設けたことを特徴とする画像の認識方法。 - 請求項26記載の画像の認識方法において、
前記評価修正過程では、前記対象物の常識的なモデル情報をあらかじめ規定してこれに基づいて評価修正を行なうことを特徴とする画像の認識方法。 - 請求項27記載の画像の認識方法において、
前記評価修正過程では、時間的に前後する画像のそれぞれにおいて抽出した推定領域が前記対象物の物理的な動き条件や常識的な動き条件に適合しているか否かを判定する処理過程を含んでいることを特徴とする画像の認識方法。 - 請求項26ないし28のいずれかに記載の画像の認識方法において、
前記評価修正過程では、前記対象物に対応した常識的色情報,重心色の再評価および推定領域内の色連続性評価を行なって前記推定領域の修正を行なうことを特徴とする画像の認識方法。 - 請求項19ないし29のいずれかに記載の画像の認識方法において、
前記動領域検出過程は、画像のパニングベクトルを検出してこれに基づいて検出された動きブロックの情報を補正することを特徴とする画像の認識方法。 - 請求項19ないし30のいずれかに記載の画像の認識方法において、
前記動領域検出過程では、検出された動きブロックの情報に加えて画像の色情報に基づいて前記動領域を検出することを特徴とする画像の認識方法。 - 請求項31記載の画像の認識方法において、
前記動領域検出過程では、前記色情報の検出を、重心色の計算による対象物の色の決定と、色距離計算としきい値判定により行なうことを特徴とする画像の認識。 - 請求項19ないし32のいずれかに記載の画像の認識方法において、
前記動領域検出過程では、検出した動きブロックについて重心位置との間の距離計算としきい値判定を行なうことにより雑音除去処理を行なうことを特徴とする画像の認識方法。 - 請求項26ないし33のいずれかに記載の画像の認識方法において、
前記評価修正過程では、前記対象物の3次元モデルのワイヤフレームモデルを画像面に投影する際に、その対象物の所定部位の適合性が高くなるようにワイヤフレームモデルを当てはめてモデルの適応化を図ることを特徴とする画像の認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08070297A JP3855349B2 (ja) | 1997-03-31 | 1997-03-31 | 画像の認識方法および画像情報の符号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08070297A JP3855349B2 (ja) | 1997-03-31 | 1997-03-31 | 画像の認識方法および画像情報の符号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10275237A JPH10275237A (ja) | 1998-10-13 |
JP3855349B2 true JP3855349B2 (ja) | 2006-12-06 |
Family
ID=13725673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08070297A Expired - Lifetime JP3855349B2 (ja) | 1997-03-31 | 1997-03-31 | 画像の認識方法および画像情報の符号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3855349B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003196017A (ja) * | 2001-12-25 | 2003-07-11 | Gen Tec:Kk | データ入力方法及び同装置等 |
JP4764273B2 (ja) * | 2006-06-30 | 2011-08-31 | キヤノン株式会社 | 画像処理装置、画像処理方法、プログラム、記憶媒体 |
JP2009268088A (ja) * | 2008-04-04 | 2009-11-12 | Fujifilm Corp | 画像処理システム、画像処理方法、およびプログラム |
EP2311007B1 (en) * | 2008-08-08 | 2016-12-28 | Thomson Licensing | Method and apparatus for banding artifact detection |
JP6350082B2 (ja) * | 2014-08-01 | 2018-07-04 | 株式会社デンソー | 画像処理装置 |
JP6729786B2 (ja) * | 2017-02-28 | 2020-07-22 | 株式会社島津製作所 | 画像処理方法 |
-
1997
- 1997-03-31 JP JP08070297A patent/JP3855349B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH10275237A (ja) | 1998-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2053844B1 (en) | Image processing device, image processing method, and program | |
JP4938861B2 (ja) | 複雑適応2D−to−3Dビデオシーケンス変換 | |
EP2330812B1 (en) | Apparatus for generating a panoramic image, method for generating a panoramic image, and computer-readable medium | |
US9480417B2 (en) | Posture estimation device, posture estimation system, and posture estimation method | |
US8442318B2 (en) | Method and apparatus for modifying a moving image sequence | |
US8837591B2 (en) | Image block classification | |
US7477289B2 (en) | Image processing apparatus and method, and image pickup apparatus | |
Yu et al. | Multi-level video frame interpolation: Exploiting the interaction among different levels | |
WO2005116910A2 (en) | Image comparison | |
WO2004077828A1 (ja) | 画像処理装置および方法、学習装置および方法、記録媒体、並びにプログラム | |
JPH06168330A (ja) | 移動対象のトラッキング | |
JPH1051755A (ja) | テレビ会議端末の画面表示制御装置 | |
US20100208140A1 (en) | Image processing apparatus, image processing method and storage medium storing image processing program | |
Yin et al. | Generating realistic facial expressions with wrinkles for model-based coding | |
JP3855349B2 (ja) | 画像の認識方法および画像情報の符号化方法 | |
Argyriou et al. | Image, video and 3D data registration: medical, satellite and video processing applications with quality metrics | |
WO2021095085A1 (ja) | 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム | |
CN113610865A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
JPH08205149A (ja) | ビデオ信号の符号化方法 | |
KR100453222B1 (ko) | 카메라 움직임 판별 장치 및 방법 | |
JP2003203237A (ja) | 画像マッチング方法と装置、および画像符号化方法と装置 | |
Hou et al. | F3DsCNN: A fast two-branch 3D separable CNN for moving object detection | |
KR100408829B1 (ko) | 모델 기반 부호화 시스템에서의 얼굴 영상 세그멘테이션 방법 | |
US20120206578A1 (en) | Apparatus and method for eye contact using composition of front view image | |
Guilluy et al. | Feature trajectories selection for video stabilization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060822 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060904 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090922 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100922 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100922 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110922 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110922 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120922 Year of fee payment: 6 |