JP3855349B2

JP3855349B2 - 画像の認識方法および画像情報の符号化方法

Info

Publication number: JP3855349B2
Application number: JP08070297A
Authority: JP
Inventors: 美樹男笹木
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 1997-03-31
Filing date: 1997-03-31
Publication date: 2006-12-06
Anticipated expiration: 2017-03-31
Also published as: JPH10275237A

Description

【０００１】
【発明の属する技術分野】
本発明は、画像から動きのある対象物を抽出して認識する画像の認識方法、および画像を符号化する場合に、限られた情報伝送量の範囲内で、全体としての符号化の情報量の増大を抑制しながら特定領域の画質を向上させるための画像情報の符号化方法に関する。
【０００２】
【発明が解決しようとする課題】
自動車電話や携帯電話などの移動体通信におけるデジタル通信では、データ伝送レートは現在９６００ｂｐｓ（bit per second）が主流となっている。通信コストを考えた場合に、技術的には広帯域移動通信が可能になるとしても低コストで実現できる狭帯域通信の優位性は２０００年以降においても当分は崩れないと言われている。
【０００３】
そこで、このような点を考慮して、データ伝送レートを９６００ｂｐｓとした準動画伝送を可能とするパソコンベースでの自動車ＴＶ電話のプロトタイプが開発されたが、この場合においては、画像更新速度のレベルとしては１秒から２秒の間に１フレーム（画面）程度がせいぜいであった。ところが、このような画像更新速度では利用者が見る場合に動画像の表現能力に欠けるため、実用的なレベルでの使用が難しいものであった。
【０００４】
一方、ＩＴＵ−Ｔ／ＬＢＣで標準化された画像情報の圧縮に関するＨ．２６３規格は、有線系超低レート画像伝送（６４ｋｂｐｓ〜４．８ｋｂｐｓ）において最も高性能な方式と言われるが、この規格はデコーダ（復号化器）に関する規定であり、エンコーダ（符号化器）の演算アルゴリズムについての詳細な部分は利用者側の仕様に委ねられている。そこで、Ｈ．２６３評価ソフトウェアＴＭＮ５（Telenor 社）を用いて画質評価を行なったところ、フレームレートは比較的高い（９６００ｂｐｓで約５フレーム／秒）が、画質に関しては顔の表情の伝達能力が低いことがわかった。
【０００５】
また、実際の製品化にあたっては音声情報も送信する必要があるので、ＡＶ多重化に際しては、画像の実質レートとしては４ｋｂｐｓ程度しか取れないようになることが予想されるので、通信レートの制約はさらに厳しいものとなる。その一方で、製品としての性能を考慮すると、対話をする場合の顔の表情を表示させる場合には、５フレーム／秒以上の動画レートと顔の表情が良く分かる画質の両方が要求される。換言すると、画像の全体が高い精度で更新されなくとも、対象となる顔領域や手などの動きの部分のみを良好な精度で伝送することにより、利用者にとっては質の高い画像であると認識されるのである。
【０００６】
そこで、画像情報から動きのある対象物のうちの特定の対象領域である顔領域をいかにして効率的に検出して認識するかが第１の課題となり、さらに、限られた伝送容量の範囲内で、いかにしてその顔領域について他の領域よりも高い精度で符号化を行なうかという点が第２の課題となってくる。
【０００７】
この場合、人物領域の抽出処理に関しては、クラスタリングやテンプレートマッチング、あるいは動的輪郭モデルなどの多くの手法が提案されているが、様々な状況（帽子，髪形，背景色，肌色，陰影，全身／上半身／顔のみ等）に対して安定して抽出を行なえると共に、低い演算コストを同時に満足するものが少ないのが実情である。
【０００８】
本発明は、上記事情に鑑みてなされたもので、第１の目的は、動きのある対象物のうちの顔などの特定の対象領域を画像情報から効率的に検出して認識することができる画像の認識方法を提供することにあり、第２の目的は、その認識方法で得られた画像情報を高効率で符号化する画像情報の符号化方法を提供することにある。
【０００９】
【課題を解決するための手段】
請求項１記載の画像情報の符号化方法によれば、まず、画像の認識方法では、動領域検出過程において、動きのある対象物を撮影した画像を複数のブロックに分割したときに、時間的に前後する少なくとも２フレーム分の画像の各ブロックの画素データに基づいて動きが発生しているブロックを検出して対象物に相当する動領域を検出し、続いてモデル適合過程において、検出された動領域に対してあらかじめ規定されている対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識し、これによって画像中に占める動きのある対象物の領域を効率的に認識することができるようになる。
【００１０】
そして、上記した画像の認識方法により得られた画像情報に基づいて画像情報を符号化する場合に、モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なうことにより所定の伝送容量の範囲内で画像を符号化するので、抽出された推定領域について符号化における精度を高くして情報量を多くすることができ、対象物として利用者が最も注視すると予想されるもの例えば人物の顔などを設定することにより、利用者が復調された画像を見る場合に、注視する対象物の領域を重点的に高精度で表示させることができるので見た目に精度が高く感じられ、これにより、限られた伝送容量の範囲内で良好な画像を送るようにすることができる。
上記のような前提となる処理に加えて、
さらに、動領域検出過程においては、検出された動きブロックの情報に加えて画像の色情報に基づいて動領域を検出するので、動きの少ないブロックに対しても色情報から対象物に対応したブロックであるか否かの判定を行なえるようになり、対象物に相当する推定領域の抽出の精度を向上させることができるようになる。
加えて、動領域検出過程においては、色情報の検出を重心色の計算による対象物の色の決定と色距離計算としきい値判定により行なうので、具体的な演算処理が比較的簡単に行なうことができるようになる。
さらに、動領域検出過程においては、色距離計算に続くしきい値判定で用いるしきい値の設定を時間の経過に伴って低いレベルに変更するので、例えば、あるシーンの画像から対象物の推定領域を抽出する場合に、シーンの開始直後における変化に対して時間が経過するにしたがって推定領域の抽出精度が向上してくるのでしきい値を低レベルにしてより精度の高い判定処理を行なうことができるようになる。
請求項２記載の画像情報の符号化方法によれば、請求項１の説明で述べた前提となる処理に加えて、動領域検出過程において、検出した動きブロックについて時間的に前後するフレームの画像の動きブロックを参照してヒストグラムを作成して時間方向のフィルタリングを行なうことにより雑音除去処理を行なうので、ひとつの画像では判定しかねる雑音ブロックに対しても、複数のフレームの画像に渡って対応するブロックが存在しているか否かという時間的な経過を伴うフィルタリング処理を施すことにより簡単に除去することができるようになる。
請求項３記載の画像情報の符号化方法によれば、請求項１の説明で述べた前提となる処理に加えて、対象物のモデルとして、３次元モデル、色情報およびシーン構造を含むモデルを規定したモデルデータベースを設け、モデルデータベースからモデルを選択する場合に、確率的に状態遷移を行なうときの確率値を変更または状態遷移経路を変更するので、時間の経過と共に画像の状態に応じて適切なモデルを選択するようにして迅速かつ正確に推定領域の抽出を行なうことができるようになる。
請求項４記載の画像情報の符号化方法によれば、請求項１の説明で述べた前提となる処理に加えて、評価修正過程において、モデル適合過程により抽出された推定領域の適合度を画像のデータに基づいて評価し、その評価結果に応じて適合度がより高くなるように推定領域を修正するので、画像中の動きのある対象物を精度良く認識することができ、しかも、符号化処理過程では、修正されたより精度の高い推定領域を用いて符号化処理を行なうことができ、これによって、対象物に対応した推定領域をより精度よく抽出してその推定領域に対して符号化の精度を高めて符号化処理を行なえるので、限られた伝送容量の範囲内で対象物の動きをより滑らかにした画像を伝送することができる。
さらに、評価修正過程においては、３次元位置姿勢の決定を物理的制約や常識的な値を用いたしきい値判定により行なうので、実際的状況に即した安定した演算結果を比較的簡単に得ることができるようになる。
請求項５記載の画像情報の符号化方法によれば、請求項１の説明で述べた前提となる処理に加えて、評価修正過程において、モデル適合過程により抽出された推定領域の適合度を画像のデータに基づいて評価し、その評価結果に応じて適合度がより高くなるように推定領域を修正するので、画像中の動きのある対象物を精度良く認識することができ、しかも、符号化処理過程では、修正されたより精度の高い推定領域を用いて符号化処理を行なうことができ、これによって、対象物に対応した推定領域をより精度よく抽出してその推定領域に対して符号化の精度を高めて符号化処理を行なえるので、限られた伝送容量の範囲内で対象物の動きをより滑らかにした画像を伝送することができる。
さらに、評価修正過程においては、３次元位置姿勢算出値のしきい値判定で用いるしきい値の設定を時間の経過に伴って動的に変更するので、例えば、あるシーンの画像から対象物の３次元位置姿勢を推定する場合に、シーンの開始直後における変化に対して時間変化が経過するにしたがって逐次処理に伴い推定精度が向上してくるので、時間変化や予測誤差に関するしきい値を低いレベルに変更して少ない変化に対しても感度を高めてこれを検出できるように判定処理を行なうことができるようになる。
【００１１】
請求項６記載の画像情報の符号化方法あるいは請求項２４記載の画像の認識方法によれば、対象物の形状モデルをあらかじめ３次元モデルとして規定しておき、モデル適合過程では、動領域検出過程で得られた動領域の形状特徴に基づいて対象物の３次元モデルの概略の位置姿勢を推定しこれに基づいて推定領域を抽出するので、対象物の動きに応じて高い精度で追随して動領域に対する推定領域の抽出を行なうことができるようになる。
【００１２】
請求項７記載の画像情報の符号化方法あるいは請求項２５記載の画像の認識方法によれば、モデル適合過程では、対象物の３次元モデルの位置姿勢情報に基づいてそのワイヤフレームモデルを画像面上に投影して２次元的な領域を割り当て、その割り当てたワイヤフレームモデルの内部領域を前記対象物の推定領域として抽出するので、対象物の位置姿勢情報から対象物の推定領域の抽出に必要な演算処理を迅速に行なわせることができるようになる。
【００１３】
請求項８記載の画像情報の符号化方法あるいは請求項２６記載の画像の認識方法によれば、評価修正過程において、モデル適合過程により抽出された推定領域の適合度を画像のデータに基づいて評価し、その評価結果に応じて適合度がより高くなるように推定領域を修正するので、画像中の動きのある対象物を精度良く認識することができ、しかも、符号化処理過程では、修正されたより精度の高い推定領域を用いて符号化処理を行なうことができ、これによって、対象物に対応した推定領域をより精度よく抽出してその推定領域に対して符号化の精度を高めて符号化処理を行なえるので、限られた伝送容量の範囲内で対象物の動きをより滑らかにした画像を伝送することができる。
【００１４】
請求項９記載の画像情報の符号化方法あるいは請求項２７記載の画像の認識方法によれば、対象物の常識的なモデル情報として例えば色情報や運動情報あるいは３次元構造の情報があらかじめ規定されているので、評価修正過程においては、抽出されている推定領域のデータがその常識的なモデル情報に適合しているかを評価修正を行なうことにより、より正確な推定領域の抽出をすることができるようになる。
【００１５】
請求項１０記載の画像情報の符号化方法あるいは請求項２８記載の画像の認識方法によれば、評価修正過程においては、時間的に前後する画像のそれぞれにおいて抽出した推定領域が対象物の物理的な動き条件や常識的な動き条件に適合しているか否かを判定するので、抽出された推定領域が対象物の不自然な動きや位置などに相当している場合に、物理的条件を満たさないことにより除外することができるようになる。この場合、常識的な動きや位置条件とは、例えば、対象物が人物である場合に、前フレームと現フレームとの間での動き量は常識的にみて自ずと上限が存在するし、また、人物が空中に浮かんだり上下が転倒した状態となったり、あるいは突然消えたり現れたりすることはあまり考えられないというように、その対象物の性質として規定される条件である。
【００１６】
請求項１１記載の画像情報の符号化方法あるいは請求項２９記載の画像の認識方法によれば、評価修正過程において、対象物に対応してあらかじめ規定されている常識的色情報の条件，重心色の再評価および推定領域内の色連続性の評価を行なって推定領域の修正を行なうので、例えば、推定領域の境界に位置するブロックが領域内か外かを判定する際に、重心位置のブロックの色情報に基づいて色の連続性を評価することにより正確に判定を行なうことができ、推定領域の修正を高精度で行なうことができるようになる。
【００１７】
請求項１２記載の画像情報の符号化方法によれば、符号化処理過程では、抽出された推定領域の情報を次の画像の符号化処理に適用するので、推定領域の抽出に使用した画像のデータを繰り返し符号化処理のために読出して演算する場合に比べて、演算処理を並列に行なうことにより迅速に対応することができるようになる。なお、この場合において、現画像の推定領域を次の画像に適用することから、動きが発生している場合には対象物の領域のある程度のずれが生ずるが、人物の顔など対象物によっては実用上ほとんど悪影響を受けることがないので、演算量を減じて迅速な対応をすることができる。
【００１８】
請求項１３記載の画像情報の符号化方法によれば、領域予測過程において、推定領域の抽出過程で得られた情報に基づいて次の画像における対象物の推定領域を予測し、符号化処理過程ではこの予測された推定領域の情報に基づいて次の画像の符号化処理を行なうので、対象物の動きが大きい場合でもそれに追随して次の画像の対象物の推定領域を予測した結果に基づいて、より的確に符号化処理をすることができるようになる。
【００１９】
請求項１４記載の画像情報の符号化方法あるいは請求項３０記載の画像の認識方法によれば、動領域検出過程において、画像のパニングベクトルを検出してこれに基づいて検出された動きブロックの情報を補正するので、対象物を撮影する撮像手段が動く場合でも、その撮像手段が動いた分を差し引いて画面中の動きブロックを判定することができるようになり、対象物の動領域をより精度高く抽出することができるようになる。
【００２０】
請求項１５記載の画像情報の符号化方法あるいは請求項３１記載の画像の認識方法によれば、動領域検出過程においては、検出された動きブロックの情報に加えて画像の色情報に基づいて動領域を検出するので、動きの少ないブロックに対しても色情報から対象物に対応したブロックであるか否かの判定を行なえるようになり、対象物に相当する推定領域の抽出の精度を向上させることができるようになる。
【００２１】
請求項１６記載の画像情報の符号化方法あるいは請求項３２記載の画像の認識方法によれば、動領域検出過程においては、色情報の検出を重心色の計算による対象物の色の決定と色距離計算としきい値判定により行なうので、具体的な演算処理が比較的簡単に行なうことができるようになる。
【００２３】
請求項１７記載の画像情報の符号化方法あるいは請求項３３記載の画像の認識方法によれば、動領域検出過程において、検出した動きブロックについて重心位置との間の距離計算としきい値判定を行なうことにより雑音除去処理を行なうので、大きな領域に近接する孤立した雑音領域などを簡単に除去することができるようになる。
【００２５】
請求項１８記載の画像情報の符号化方法あるいは請求項３４記載の画像の認識方法によれば、評価修正過程においては、対象物の３次元モデルのワイヤフレームモデルを画像面に投影する際に、その対象物の所定部位の適合性が高くなるようにワイヤフレームモデルを当てはめてモデルの適応化を図るので、特徴的な部位を選定することにより簡単かつ迅速にワイヤフレームモデルの当てはめの処理を行なうことができるようになる。
【００２９】
【発明の実施の形態】
以下、本発明の一実施例について図面を参照しながら説明する。
図２は符号化器１の全体の概略的構成を示すもので、撮像手段としてのカメラ２は、対象物を含むシーンを撮影して画像情報を出力するもので、Ａ／Ｄ変換部３を介してデジタル信号に変換された状態で原画像情報として符号化部４に入力するようになっている。
【００３０】
符号化部４は、既存の動き補償予測符号化方式（例えば、Ｈ．２６１，Ｈ．２６３あるいはＭＰＥＧなど）で原画像情報を符号化するもので、これは、後述するモデルベース対象領域抽出部５に対して２次元動きベクトル検出部６にて原画像情報から動きベクトルを検出してその情報を与えるようになっており、また、モデルベース対象領域抽出部５から与えられる領域情報に基づいて符号化属性判定・制御部７にて抽出された領域について動き補償予測符号化の符号化処理を行なって圧縮ビットストリームを生成して通信路に出力するものである。
【００３１】
モデルベース対象領域抽出部５は、上述したように符号化部４の２次元動きベクトル検出部６から動きベクトルの情報が与えられると共に、原画像の情報が与えられるようになっており、これらの情報に基づいてモデルベースを用いて対象領域を抽出して領域情報として出力するものである。図１は、その構成を機能ブロックで示すものであり、以下、これについて詳述する。
【００３２】
モデルベース対象領域抽出部５は、動領域解析部８，モデル適合部９，評価・修正部１０，領域予測部１１およびモデルデータベース部１２の５つの機能ブロックから構成される。このうち、動領域解析部８は、パニングベクトル検出部８ａ，動きブロック判定部８ｂ，重心計算部８ｃ，平均色計算部８ｄ，背景雑音除去部８ｅおよび２次元形状パラメータ抽出部８ｆからなり、原画像情報からパニングベクトルを検出して動きベクトルから差し引いて動きブロックを判定し、その重心位置から重心を求め、雑音を除去して領域形状のデータを求めるものである。
【００３３】
モデル適合部９は、３次元位置姿勢推定部９ａ，透視変換部９ｂおよび投影領域計算部９ｃからなる。このモデル適合部９では、動領域解析部８において得られた結果に基づいてワイヤフレームモデルを画像面上に投影して当てはめを行なう。評価修正部１０は、色評価部１０ａ，適合度計算部１０ｂおよび３次元位置姿勢決定部１０ｃからなる。この評価修正部１０では、ワイヤフレーム投影によって得た切り出し領域である２次元推定領域の評価を行なうもので、原画像データとの適合度の評価演算を行ないフィードバックすることにより２次元推定領域の修正およびワイヤフレームモデルの適応的変形の処理を行なう。領域予測部１１は、移動平均処理部１１ａ，３次元動き予測処理部１１ｂおよび領域計算部１１ｃからなる。この領域予測部１１では、評価修正部１０において抽出された領域を現フレームの推定領域としてこれに基づいて次のフレームの推定領域を予測する。
【００３４】
モデルデータベース部１２は、色情報データベース部１２ａ，３次元形状データベース部１２ｂおよびシーン構造データベース部１２ｃからなる。これらは、あらかじめ分かっている対象物についてモデル化したデータを記憶するもので、これらのデータベースを駆動するモデル情報およびモード情報は符号化器の外部に設けられたシステム制御部から入力されるようになっている。
【００３５】
以上のように符号化器１が構成されている。一方、この符号化器１からのデータを受ける復号化器は、一般的な構成のもので良く、例えば、Ｈ．２６１，Ｈ．２６３あるいはＭＰＥＧの規格に対応した構成を有するものである。
【００３６】
次に本実施例の作用について図３ないし図２４も参照して説明する。なお、本実施例の具体的動作の説明に先だって、動作原理についてまず述べる。
すなわち、本実施例で対象としているのは、原画像の中から対象となる人物の顔の領域をいかに効率的に抽出するかということであり、その原理について図３を参照して概略的に説明する。ここでは、このような課題を人物の３次元的形状を標準的なワイヤフレームモデル（以下、ＷＦＭと略する）を設定し、これを原画像に映った人物像に対していかに忠実に割り付けるかという問題として捕らえる。そして、この割り付けを行なうためには、以下の５つの条件が満たされる必要がある。
【００３７】
（１）カメラ特性（焦点距離と視野角）が既知であること
（２）対象物（人物）のＷＦＭの３次元構造データが既知であること
（３）対象物（人物）が略剛体と見なせる運動姿勢を保っていること
（４）対象物（人物）に対するカメラの３次元位置姿勢が既知であること
（５）被写体の人物がＷＦＭと同等の常識的なサイズであること
【００３８】
上述の５つの条件（１）〜（５）が既知であるときに、ＷＦＭの画像面への２次元投影像は人物領域と略一致するはずである。しかし、上記（４）の条件を満たすことは通常の撮影環境では困難であるため、他の条件（１）〜（３）および（５）が満たされていると仮定すると共に、これに加えてさらに以下の情報を活用することによりＷＦＭを割り付けることにする。
【００３９】
（ａ）画像中のテクスチャや色の空間的変化および時間的変化
（ｂ）人物の持つテクスチャ、色の常識的情報（形状情報については上記ＷＦＭに相当）
（ｃ）人物の持つ物理的特性（速度、慣性、運動特性など）
（ｄ）人物の常識的位置姿勢（倒立した状態や、宙に浮いた状態でカメラに映る可能性は非常に低い）
【００４０】
以上を総合した結果、ＷＦＭ、画像情報、常識・物理的制約の３つを有機的に関連付けて問題を解決する手段として得られたのが、以下に示すような計算処理過程を含んでなる画像の符号化方法における対象物の領域の抽出方法である。
【００４１】
（ア）動き情報と色情報とにより画像から２次元の推定領域を抽出する
（イ）抽出された推定領域の２次元形状情報とあらかじめ規定されているモデル情報（色情報、ＷＦＭ情報）により、対象物の概略の３次元位置姿勢を算出する
（ウ）ＷＦＭをこの３次元位置姿勢から得た透視変換処理をすることにより画像面に投影し、領域別にラベル指定をすることにより顔領域を抽出する
（エ）抽出した顔領域の再評価（色、大きさ、位置姿勢の時間変化など）により、現フレームに関する３次元位置姿勢の最終推定値を算出する
（オ）ワイヤフレーム投影により顔領域の最終推定結果を出力する
（カ）必要に応じて、３次元位置姿勢時系列の線形予測により、次フレームにおける顔領域を推定する
【００４２】
図４ないし図８は、上述の原理に基づいて作成したプログラムのフローチャートである。ここで、図４のプログラムは全体の流れを示す概略的なもので、各ステップに対応して図５ないし図８のプログラムが設定されている。以下、これらのフローチャートを参照して全体の動作の流れについて説明する。
【００４３】
なお、一連の処理過程は、あるシーンが始まると、領域抽出のために、まず（Ａ）動領域解析過程を行なって推定領域を抽出し（ステップＳ１）、そのレベル判定を行なってＬＥＶＥＬ１以上の場合には、続いて（Ｂ）モデル適合過程を実施する（ステップＳ２）。そして、ＬＥＶＥＬ２以上の場合には（ステップＳ３）、続いて（Ｃ）評価修正過程（ステップＳ４）および（Ｄ）領域予測過程（ステップＳ５）を実行し、シーンが終了するまで上述を繰り返す（ステップＳ６）。以下、これらの各処理過程（Ａ）〜（Ｄ）を単位として説明する。
【００４４】
（Ａ）動領域解析過程
これは、図４の全体のプログラムの動領域解析の処理ステップＳ１に相当するもので、動領域解析部８は、図５に示すような処理を実行する。画像情報が読み込まれてフレーム番号Ｎｆをインクリメントした後にブロックマッチング法などによって動ベクトルの検出処理を行なうと（ステップＡ１〜３）、続いて、パニングベクトル検出処理を実施するようになる（ステップＡ４）。そして、得られたパニングベクトルに基づいて動ベクトルを修正する（ステップＡ５）。
【００４５】
ここで、パニングベクトルとは、画像中の一部が動くのではなく、画面全体が動く場合（パンする場合）、つまり、撮像手段としてのカメラ２が動いた場合などの状況に対応するもので、このカメラ２の動きの大きさと方向をパニングベクトルとして表すものである。そして、上述のようにして検出した動ベクトルからこのパニングベクトルを差し引いて修正することにより、画像中の動き領域をより正確に検出しようというものである。このパニングベクトルの検出については後述する。
【００４６】
さて、得られた動ベクトルに基づいて、画像中の動きブロックを１６×１６のブロック画素単位（マクロブロックＭＢＫ単位）で動きの有無に関するラベリングを行う（ステップＡ６）。このときラベリング結果に基づいて、あらかじめ設定されているレベルＬＥＶＥＬ０〜３の値と比較してレベル判定を行ない、以降の処理段階の判断基準とする。この場合、各レベルは、所用演算量に対応した動作レベルを考え、最も演算量を抑えたレベルをＬＥＶＥＬ０とする。
【００４７】
▲１▼ＬＥＶＥＬ０の場合
動きブロック数が非常に少なく、あるしきい値以下の場合、ＷＦＭの位置姿勢は変化していないとしてＬＥＶＥＬ０の判定を行ない（ステップＡ７）、ステップＡ１に戻って次フレームの読み込みを開始する。この場合には、前回の処理で得られているＷＦＭの位置姿勢情報や推定領域の情報が符号化処理に使用されるようになっている。
【００４８】
▲２▼ＬＥＶＥＬ１以上の場合
（ａ）動きブロック数が非常に少なくあるしきい値以下の場合には（ステップＡ７）、抽出された推定領域の重心ブロック内の平均色を計算し、それとの誤差が一定以内の平均色を持つブロックを領域に含めてラベリングする。
（ｂ）動きブロック数がある一定しきい値以上の場合、上記の色ベクトル評価によるラベル修正は行わない。
【００４９】
次に、色ベクトル評価によるラベル修正を行ない（ステップＡ８）、ラベル画像のクラスタリングを行ない（ステップＡ９）、クラスタリングされた領域の数である領域数Ｋを決定する（ステップＡ１０）。そして、これらの各領域ｋ（＝１，…，Ｋ）について重心位置をブロックアドレスで計算し、その重心色を領域色とする（ステップＡ１１〜Ａ１４）。この後に重心からの距離Ｌが最も近い別のクラスタ中心との距離の２分の１を超えるときにラベルを「０」にするといった距離によるフィルタ操作を施す（ステップＡ１５）。
【００５０】
次に、過去の複数フレームの情報を利用して出現回数の頻度で雑音成分を除去する時間フィルタリング手法や、大きなクラスタから孤立しているブロックを雑音成分と見なして除去する孤立点除去などの方法により雑音除去を施す（ステップＡ１６，Ａ１７）。この後、領域ｋの重心を再計算し（ステップＡ１８）、重心色との誤差評価により雑音除去を行う（ステップＡ１９）。そして、得られた領域形状の長軸と短軸およびその傾きを抽出し（ステップＡ２０）、以降、クラスタの数Ｋだけ同じことを繰り返す（ステップＡ１２〜Ａ２１）。
【００５１】
（Ｂ）モデル適合過程
図４に示したモデル適合過程（ステップＳ２）では、モデル適合部９において、図６に示すプログラムのフローチャートに従ってモデル適合過程が行なわれる。すなわち、まず、図３にも示したように、人物の上半身に対応したＷＦＭ（ワイヤフレームモデル）を選択し（ステップＢ１）、続いて、各領域に対応して、姿勢角の算出および距離ｒの算出を行なう（ステップＢ２〜Ｂ５）。
【００５２】
この場合、例えば、前述の領域形状の短軸を頭部の投影領域の幅であると見なして姿勢角パラメータである角度α、β、γの算出と比例計算により、距離ｒを求める。これを用いてＷＦＭの端点を透視変換し、ＷＦＭの投影像を得る（ステップＢ６）。この投影像の内部領域をＷＦＭの部位（頭、胴体など）情報に基づいてラベリングする（ステップＢ７）。例えば、頭部のラベル値を「１」、目を「２」、胴体を「７」、背景は「０」といった値に割り付けてラベリングする。そして、以上のことを人物の数つまり領域の数Ｋだけ繰り返し実行する。
【００５３】
すべての領域（人物）について上記演算を行った後、動作レベル指定がＬＥＶＥＬ１の場合は、ここで１フレームの領域抽出演算を終了して、次の画像読み込みに移る。すなわち、以下の評価修正過程、領域予測過程については実行しないのである。これによって、モデル適合の正確さは若干失われるが、全体の演算量を削減することができる。なお、このＬＥＶＥＬ１処理をシーンカット後しばらく時間が経過した後に適用すれば、対象物とＷＦＭのずれとはそれほど大きくならないと考えられる。そして、動作レベルがＬＥＶＥＬ２以上の場合は、以下の処理過程を実行する。
【００５４】
（Ｃ）評価修正過程
次に、図４に示した評価修正過程（ステップＳ４）では、評価修正部１０において、図７に示すプログラムのフローチャートに従って評価修正過程が行なわれる。すなわち、ワイヤフレーム投影によって得た切り出し領域（２次元推定領域）の評価を行なうために、原画像データをもとにして評価を行なって２次元推定領域の修正を行なうと共にワイヤフレームモデルの適応的変形の処理を行なうものである。
【００５５】
例えば、前述のようにラベリングした結果のデータを用いて、人物頭部領域を抽出してその領域重心の色を後述するようにして評価し（ステップＣ１）、この後、前述したレベルがＬＥＶＥＬ２である場合には以降の評価修正過程（ステップＣ３〜Ｃ６）を省略し、ＬＥＶＥＬ３である場合には続く色連続性評価，適合度評価，２次元位置修正および３次元位置姿勢修正を行なう（ステップＣ３〜Ｃ６）。この場合、ＬＥＶＥＬ２では、ステップＣ１の領域重心としての評価で妥当と判断されたときには、そのＷＦＭ領域重心および色を採用し、不適と判断されたときには動領域解析部８にて得られた値を用いるようになっている。
【００５６】
次に、シーンカット以後のフレーム時刻Ｎｆがあるしきい値Ｎｆ＿ＴＨに達している場合にはパラメータ評価しきい値の変更を行う（ステップＣ７，Ｃ８）。これは、シーンカット直後の例えば１〜３秒程度は大きくしきい値を取り、それ以後は小さくするものである。この値をもとにして、物理的制約による評価および常識適用による総合評価を行い（ステップＣ９〜Ｃ１２）、評価結果が良好であればこの処理を終了し、そうでない場合にはもう一度モデル適合過程（ステップＳ２）に戻って繰り返し行なう（ステップＣ１３）。
【００５７】
（Ｄ）領域予測過程
次に、図４に示した領域予測過程（ステップＳ５）では、領域予測部１１において、図８に示すプログラムのフローチャートに従って領域予測過程が行なわれる。上述したような１フレーム全体に渡る大局的処理により抽出した領域は現在フレームにおける推定領域であるが、これをもとにして現在フレームを再度処理して符号化を行うことは遅延時間と演算時間の増大を招く。そこで、ここでは、この推定領域から次のフレームの予測領域を求めることを行なう。
【００５８】
この場合、領域の平均動きベクトルの線形予測という形で２次元的に実現することも可能であるが、ここでは、各領域について（ステップＤ１，Ｄ２，Ｄ７）３次元位置姿勢の時系列の線形予測により（ステップＤ３）、Ｎｆ＋１時刻のＷＦＭの投影領域を予測する（ステップＤ４〜Ｄ６）。これにより、現在フレームの符号化と次フレームの領域予測を同時に並行して進めることができるようになる。
【００５９】
次に、上述した処理の流れにおける各部の処理内容の詳細について項目別に説明する。
Ａ．動領域解析過程について
（１）動ベクトルの検出
動きベクトルの検出は、本実施例においては、例えば、原画像（例えばＣＩＦ）サイズの画像についてブロック毎のフレーム間相関を計算することによって行うブロックマッチング法を用いる。この動ベクトルの検出方法については、ブロックマッチング法以外にも利用することができる。
【００６０】
（２）パニングベクトルの検出
カメラ２が静止している場合は、上述のようにして検出される動ベクトルがそのまま対象物の動きの２次元投影に対応することが多いが、カメラ２が動いている場合（パニングが有る場合）には、このカメラ２の動きに対応したパニングベクトルを検出して対象物の動きと分離する必要がある。
【００６１】
［ａ］パニングの有無の判定と計算
パニングベクトルが発生しているか否かの判定については、図９に示す計算手順に従う。これは、例えば、図１０のように、画像周辺部の４辺（あるいは矩形領域）について、各１個の平均動ベクトルを計算する（ステップＥ１）。特に、ここでは実施例として画像の最も外側から２番目のＭＢＫで構成する辺のブロック列ＢＬ１〜ＢＬ４をエッジ領域として、それらの各ＢＬ１〜４の平均動きベクトルＰＭＶｎ（ｎ＝１〜４）を次式（１）〜（４）に基づいて計算する。
【００６２】
【数１】

ＰＭＶｎ；エッジ領域ＢＬｎ（ｎ＝１〜４）のパニングベクトル
ＭＶ（ｉ，ｊ）；ＭＢＫ座標（ｉ，ｊ）のＭＢＫの動きベクトル
【００６３】
この４個のパニングベクトルＰＭＶ１〜４が大体同じ大きさ（≠０）と方向であれば画像全体が動いていると見なすことができるので、パニングベクトルが発生していると判定する。そこでまず、４個のパニングベクトルＰＭＶ１〜４の分散値ＶPAN ２を次式（５），（６）で計算する（ステップＥ２，Ｅ３）。
【００６４】
【数２】

ｄ（ｖｉ，ｖｊ）；ベクトルｖｉとｖｊの間の距離関数（ここでは２乗距離）
ＭＰＶ；４個のＰＭＶの平均ベクトル
【００６５】
また、画面全体のパニングベクトルの推定値であるＭＰＶの大きさについても評価する必要があるため、平均ベクトルＭＰＶの大きさを２乗距離値ＡPAN ２として表し、次式（７）により求める（ステップＥ５）。すなわち、
ＡPAN ２＝ｄ（ＭＰＶ，０） …（７）
であり、この２乗距離値ＡPAN ２および分散値ＶPAN ２を用いて以下のようにしきい値判定する（ステップＥ４，Ｅ６，Ｅ７，Ｅ８）。
【００６６】
▲１▼ＶPAN ２≧ＶPAN ２＿ＴＨのとき、
あるいは、
ＡPAN ２＜ＡPAN ２＿ＴＨのとき
→ パニングはなしと判定する（ステップＥ８）
▲２▼上記以外の場合
→ パニングありと判定し、ＭＰＶをパニングベクトルとする（ステップ
Ｅ７）
しきい値については、経験的に設定するが、例えば、次のように設定することで、比較的良好な結果を得ることができる。
（ＶPAN ２＿ＴＨ，ＡPAN ２＿ＴＨ）＝（５０，１）
【００６７】
［ｂ］パニングベクトル除去による動き量の補正
パニングありと判定したとき、各ＭＢＫの動きベクトルを次式（８）を用いて補正する。
ＴＭＶ（ｉ，ｊ）＝ＭＶ（ｉ，ｊ）−ＭＰＶ …（８）
この補正された動きベクトルＴＭＶを実質的な動きベクトルとし、以下の動領域解析過程を進める。
【００６８】
（３）変化ブロックの重心位置の計算
変化ブロックの検出には以下の方法が考えられる。
▲１▼フレーム間差分のしきい値判定
▲２▼動き補償フレーム間差分のしきい値判定（パニングを考慮しない）
▲３▼パニング補正動きベクトルによる動領域判定
【００６９】
ここで、カメラ２が固定の場合は上記▲１▼の方法で十分である。しかし、この方法では、カメラ２のほんの僅かなぶれに対しても敏感に反応してしまうので、符号化器１の演算容量に余裕がある場合は上記▲２▼の方法または▲３▼の方法を使用することが望ましい。ここで、▲２▼の方法は主として色合いや輝度の変化に基づく変化ブロックの検出に対応し、▲３▼の方法は本来の対象物の動きに起因する変化ブロックの検出に対応する。そこで、▲２▼および▲３▼の方法の併用で検出した変化ブロックについて重心位置を検出する。
【００７０】
これらの操作は、画面内の対象物が１個と仮定できる場合である。対象物が複数個ある場合には上記で得た変化ブロック群のクラスタリングが必要になる。この場合において、クラスタリングを行うかどうかは以下のようなプロセスで決定される。
【００７１】
［ａ］第１ステップ …重心計算またはクラスタリングの起動
ケース１ …被写体モードにおいて人物が一人 → 重心計算
ケース２ …対象領域の数が不明 → 重心計算
ケース３ …対象領域の数が既知（２以上） → クラスタリング
ケース４ …対象領域の数が不明（２以上） → クラスタリング
［ｂ］第２ステップ …クラスタリング
クラスタリングにおいては重心を求めると同時にクラスタ半径も抽出する
【００７２】
第１ステップのケース２の場合の処理は、対象領域数Ｋ＝１の仮定を行ったことに相当しており、この仮定のもとに計算を進めた結果、後述の評価プロセスで矛盾する（誤差評価関数があるしきい値を超える）場合には、次のフレームにおいては仮定を変更してケース４を選択するようになっている。
【００７３】
（４）色解析
［ａ］重心色の計算
上述の（３）変化ブロックの重心位置の計算で決定された１個以上の領域重心ブロックについてブロック画素の平均色を計算する。これを重心色と呼び、例えば人物を対象とする場合はこの重心色を肌色の１次推定結果とする。なお、平均色は以下の式（９）〜（１１）で計算する。
【００７４】
【数３】

【００７５】
ＣPAT （ｋ，ｉ，ｊ）；ＭＢＫ（ｉ，ｊ）の平均色ベクトルのｋ番目の成分（ｋ＝１，２，３）
ＭＢＫ＿Ｙ（ｉ，ｊ，ix，jy）；ＭＢＫ（ｉ，ｊ）の（ix，jy）画素のＹ成分画素値
ＢＬＫ＿Ｕ（ｉ，ｊ，ix，jy）；ＭＢＫ（ｉ，ｊ）のＵブロックの（ix，jy）画素値
ＢＬＫ＿Ｖ（ｉ，ｊ，ix，jy）；ＭＢＫ（ｉ，ｊ）のＶブロックの（ix，jy）画素値
【００７６】
［ｂ］各ブロックの平均色と重心色との距離計算
これは次式（１２）にしたがって求める。
【００７７】
【数４】

ＬＣＤ（ｉ，ｊ）；ＭＢＫ（ｉ，ｊ）の平均色と重心色との間の絶対値距離
ＩＧ；重心ブロックの水平座標
ＪＧ；重心ブロックの垂直座標
【００７８】
［ｃ］各ブロックのしきい値判定
各ＭＢＫについて計算した色距離ＬＣＤをもとに、次のような判定を行う。
ＬＣＤ＞ＬＣＤ＿ＴＨの場合
→ ＭＢＫ（ｉ，ｊ）は領域外
ＬＣＤ≦ＬＣＤ＿ＴＨの場合
→ ＭＢＫ（ｉ，ｊ）は領域内
ＬＣＤ＿ＴＨ；しきい値
【００７９】
ここで、ＬＣＤは０〜２５５の値をとる３成分の絶対値距離の和として計算されるので、０≦ＬＣＤ≦７６５、となる。これをもとに、ＬＣＤ＿ＴＨを設定する（１００〜２００程度が妥当である）。なお、このしきい値はシーンカット直後と、その後で動的に変更することが望ましい。例えば、次のようである。
【００８０】
０≦Ｎｆ≦Ｎｆ＿ＴＨのとき
→ ＬＣＤ＿ＴＨ＝３００
Ｎｆ＿ＴＨ＜Ｎｆのとき
→ ＬＣＤ＿ＴＨ＝１００
Ｎｆ；ある１カットのシーンのフレーム番号
というように、再帰的領域抽出結果が安定して対象物をトラッキングできるようになるまでのフレーム時間をＮｆ＿ＴＨとしてその間は大きい変化を許容し、その後は許容誤差を小さく設定する。シーンカットの判定手法は限定しないが、画面全体についてのフレーム間動き補償差分電力の総和のしきい値判定に基づく方法が考えられる。
【００８１】
（５）雑音除去
［ａ］距離判定による雑音除去
重心ブロックと各ブロックとの間の距離を計算し、あるしきい値以上のブロックを対象領域の候補から除去する。これは、クラスタリングを適用した場合では、クラスタ半径を基準にした領域判定を行うことに相当する。すなわち、領域重心ＭＶＫ（ＩＧ，ＪＧ）について、次式（１３）により２乗距離ｄＲを計算し、その結果に基づいて下記のように判断する。
【００８２】
ｄＲ＝ｄ［（ＩＧ，ＪＧ），（ｉ，ｊ）］ …（１３）
ｄＲ＜（Ｒｃ＋δ）
→ ＭＢＫ（ｉ，ｊ）は領域候補である
ｄＲ≧（Ｒｃ＋δ）
→ ＭＢＫ（ｉ，ｊ）は領域候補ではない
Ｒｃ；クラスタ半径
δ；正整数（例えば１〜３程度）
【００８３】
［ｂ］時間フィルタリングによる雑音除去
時間方向のヒストグラム処理により、雑音ブロックを除去する。これは、過去の複数フレームの処理で得られているデータに基づいてフィルタリング処理を行なうもので、例えば、３フレーム時間程度に渡って検出した動きベクトルの発生領域について重ね合わせた状態で得られるパターンについてヒストグラムをとって発生頻度の高いブロックを検出するようにした方法である。
【００８４】
［ｃ］孤立点除去や輪郭形状の滑らかさによるフィルタリング
通常の２値画像処理において用いられているのと同様の孤立点除去および輪郭雑音のフィルタリングをＭＢＫラベル画像に対して適用する。
【００８５】
［ｄ］領域内の穴埋め
領域内の穴は水平スキャンにおける２値平滑化により穴埋めを施す。ここで領域形状があらかじめモデル等で予測できる場合は（例えば楕円など）隣接する水平ブロック間での長さを予測することでブロック帯を安定して抽出できる。
【００８６】
（６）傾き検出
図４に示したように、抽出した領域の傾きから、ワイヤフレームの配置における回転角γを決定する。このとき、回転角γの決定は、例えば次のような方法で行なう。すなわち、抽出した領域の端部に位置する縦方向あるいは横方向のブロック列の対向する中点間を結んで長軸あるいは短軸を検出し、その軸の中点に直交する直線を求めて領域の端部と交差する位置を求めることにより残った短軸あるいは長軸を検出する。得られた長軸および短軸のデータから傾きを決定することができる。
【００８７】
回転角γの決定については、次のようにして求めることもできる。すなわち、領域の重心位置を求めこの重心位置を通る直線について傾きを変化させたときに領域端部と交差する線分の長さが最大となるものを長軸として検出し、この長軸に直交する線分を短軸として検出することもできる。
【００８８】
これは、隣接する水平ブロック帯の間の中心位置を結ぶことによって得られる局所的な傾きの平均に等しい（図１１（ａ）参照）。しかし、前述のようにして雑音除去を施して抽出した領域であっても、ある程度は抽出された領域形状に雑音を含んでいるため、傾き検出方法（特にエッジのみを用いる簡単な方法の場合）によっては長軸／短軸が反転する可能性がある（図１１（ｂ）参照）。これに対しては、次の方法が考えられる。
【００８９】
［ａ］雑音除去を高度化し、完全に凸領域になるようにする
［ｂ］傾き検出をロバスト化する
［ｃ］フレーム間の傾き変化に対して制約を設定する
［ａ］、［ｂ］は画像処理の改善による方法であるので省略する。［ｃ］については、後述する評価修正過程の説明で述べる。
【００９０】
Ｂ．モデル適合過程について
上記で得られた動領域解析結果をもとに、ワイヤフレームモデルを配置する。そのために、まず、３次元位置姿勢を計算する。ワイヤフレームの画像面上への投影に当たっては透視変換行列を計算するための位置姿勢パラメータｒ，θ，φ，α，β，γを上記の動領域解析結果から計算する。なお、これらの位置姿勢パラメータについては、ｒはカメラ２との間の距離を示す値であり、θ，φは対象物の姿勢を示す値であり、α，βはカメラ２の傾きを示す値であり、γはカメラ２の光軸回りの回転角を示す値である。
【００９１】
（１）対象物の３次元位置姿勢の計算
［ａ］光軸まわりの回転角γ
投影面上の長軸の直線の傾き角度をＤＲＣＴとすると、次式（１４）で表すことができる。
γＥ＝ａｒｃｔａｎ（ＤＲＣＴ） …（１４）
【００９２】
［ｂ］対象物中心の偏差角α，β
領域重心（ＩＧ，ＪＧ）を対象物中心とみなし、ＣＩＦ画像の画素座標（ＮＰＡ，ＮＰＢ）に変換すると、次式（１５）、（１６）のようになる。そして、これより、画像中心からの偏差角α，βは次式（１７）、（１８）で表される。
【００９３】
【数５】

Ｈ＿ＳＩＺＥ；ＣＩＦ画像の水平画素サイズ
Ｖ＿ＳＩＺＥ；ＣＩＦ画像の垂直画素サイズ
【数６】

ＦＬ；カメラの焦点距離
【００９４】
［ｃ］距離ｒ
動領域解析で抽出した一次推定領域をもとに、次式（１９），（２０）でカメラ２と対象物との間の距離ｒＥを計算する。
【００９５】
【数７】

ＭＨＷ：距離ｒ＝ｒｓの時に３次元対象物を画像面に投影した際に得られる対象領域の水平幅（あるいは垂直幅），ただし，対象物の光軸周り回転
角はγ＝０とする
ＲＨＷ０：一次推定領域のラインスキャンで得られる水平（垂直）方向の幅
ＲＨＷ：一次推定領域の傾き角度γＥで補正した水平（垂直）方向の幅
【００９６】
［ｄ］位置を示す角度θ，φ
角度θ，φを１回目の動領域解析の１次推定結果から計算する方法は限定していない。１次推定においては、通常、先見的知識がない限り対象物は計算開始時点において正面を向いていると仮定する。即ち、
θ＝０，φ＝０
とする。
【００９７】
（２）投影領域のラベリング
ＭＢＫラベル画像と同じ解像度に変換したワイヤフレームをＭＢＫラベル画像にオーバレイし、直線部分をラベリングする。その後、ラインスキャンにより穴をラベリングする。
【００９８】
（３）部分領域のラベリング
上記の投影領域のラベリングにおいて、ワイヤフレームの３次元座標をもとに対象物の部分領域毎にラベル値を変えてやることにより、対象物の特徴部分と２次元部分領域を対応づけることができる。
【００９９】
Ｃ．評価修正処理について
（１）ワイヤフレーム投影によって得た切り出し領域（２次推定領域）の評価ここでは、原画像データをもとにして前述のモデル適合処理過程で適合処理を行なったワイヤフレームモデルの適合度の評価を行ない、そのフィードバックにより、次の事項について処理を実行する。
［ａ］２次推定領域の修正（３次元位置姿勢の修正）
［ｂ］ワイヤフレームモデルの適応的変形
【０１００】
（２）常識の利用
評価手段としてはワイヤフレームモデルに対応するオブジェクト（車、人等）が持つ形状情報，位置姿勢、画像テクスチャに対して以下のような制約条件のもとで評価を行なう。
【０１０１】
［ａ］物理的制約
▲１▼力学的慣性の妥当性
▲２▼速度、振動周波数の妥当性
▲３▼位置関係の妥当性
［ｂ］概念的制約
▲１▼位置関係の妥当性評価
▲２▼色の妥当性
▲３▼運動軌跡の妥当性
【０１０２】
（３）色の妥当性評価
図１２に色の評価に関する基本方針を示す。
［ａ］重心色の再評価
切り出し領域（２次推定領域）の重心色を動領域解析過程における色解析処理と同様にして計算する。即ち、切り出し領域の重心座標を（IG１，JG１）とすると重心色は次式（２１）〜（２３）で表わされる。これらを用いて距離計算を式（２４）に基づいて行なう。
【０１０３】
【数８】

【０１０４】
これに対して次のようにしきい値判定を行なう。
【０１０５】
ＬＣＤＧ＞ＬＣＤＧ＿ＴＨ
→ＭＢＫ（ＩＧ１，ＪＧ１）は領域重心から外れている
ＬＣＤＧ≦ＬＣＤＧ＿ΤＨ
→ＭＢＫ（ＩＧ１，ＪＧ１）は領域重心として妥当である
ＬＣＤＧ＿ＴＨ；しきい値，対象領域を何であると仮定しているかによって値は異なりうる。
【０１０６】
［ｂ］領域内の色の連続性評価
ここでは、領域の境界部分の色の連続性評価を次のようにして行なう。図１２のように領域内をブロック毎にスキャンし、重心色と各ブロックの平均色との間の誤差を再評価する。即ち、ＬＣＤＧを各ブロックについて計算し、その値に応じて次のようにラベリングを行なう。尚、ここであらかじめ推定領域は「１」、領域外は「０」にラベリングしておく。
【０１０７】
ＬＣＤＧ＞ＬＣＤＧ＿ＴＨ
→ＭＢＫ（ｉ，ｊ）は領域外であると判定し，「２」にラベリングする
ＬＣＤＧ≦ＬＣＤＧ＿ＴＨ
→ＭＢＫ（ｉ，ｊ）は領域内にあると判定する
ＬＣＤＧ＿ＴＨ；しきい値，対象領域の仮定によって値は異なりうる
【０１０８】
［ｃ］３次元位置姿勢の修正ベクトルの計算
（ア）２次元の近似修正ベクトルの計算
上述の［ｂ］領域内の色の連続性評価で得られたラベル画像をもとに次の２つの部分領域の重心Ｇ１，Ｇ２を計算する。
Ｇ１（ＩＳＧ１，ＪＳＧ１）；２次推定領域内でラベル１（推定領域内）の部分領域の重心
Ｇ２（ＩＳＧ２，ＪＳＧ２）；２次推定領域内でラベル２（色誤差が大）の部分領域の重心
【０１０９】
これをもとにして、２次元領域としての位置修正ベクトルの方向を次式（２５）で計算する。
ＤＳＧ１２＝（ＩＳＧ２−ＩＳＧ１，ＪＳＧ２−ＪＳＧ１） …（２５）
ただし、これは方向のみ有効であり、大きさはあまり正確ではない。大きさを知るには図１３に示すようにＧ１、Ｇ２を通るベクトルを延長して推定領域境界との交点ブロックＢ２と実物領域境界との交点ブロックＢ１を求める。その座標の差の値ＤＳＢ１２は次式（２６）で示され、これが２次元近似修正ベクトルとなる。
ＤＳＢ１２＝（ＩＳＢ２−１ＳＢ１，ＪＳＢ２−ＪＳＢ１） …（２６）
これを用いるか、あるいは後述の水平垂直スキヤンによって２次元位置修正ベクトルＤＶ（＝ＤＶｘ＋ＤＶｙ）を計算する。
【０１１０】
（イ）位置関係
３次元位置姿勢を修正するためには次の２つを判定する必要がある。
１）推定領域と真の領域の間の大小関係
２）推定領域の境界部分における色の連続性
これは以下のようにして判定する。
【０１１１】
▲１▼水平スキャン
図８のように５．３．２で得たラベル画像をもとにして推定領域の重心Ｇ（IG１，JG１）から右と左の両方向に［ii０，ii１］の範囲で水平スキャンを行ない、次の２つの位置を求める。
【０１１２】
ＣＬ（ii０Ｌ，JG１）；左スキャンで初めて２または０のラベル値のブロックに当たる位置
ＣＲ（ii０Ｒ，JG１）；右スキャンで初めて２または０のラベル値のブロックに当たる位置
この２点における色べクトルの連続性を以下のようにして判定する
（ｃａｓｅ−ＨＣ１）
ＬＣＤ［（ii０Ｌ，JG１），（ii０Ｌ−１，JG１）］≦ＬＣＤＴＨ
→左連続
（ｃａｓｅ−ＨＣ２）
ＬＣＤ［（ii０Ｒ，JG１），（ii０Ｒ＋１，JG１）］≦ＬＣＤＴＨ
→右連続
また、位置関係を以下のようにして判定する。
【０１１３】
＜ｃａｓｅ−ＨＰ１＞
ii０＜ii０Ｌ且つ ii０Ｒ＜ii１
→真の領域は推定領域よりも小さい
ＤＶｘ＝（０，ＤＳＧ１２ｘ） …（２８）
ＲＤ＝Ｒ×Ｗ／ＷＤ …（２９）
ＷＤ＝ii０Ｄ−ii０Ｒ＋１ …（３０）
Ｗ＝ii１−ii０＋１ …（３１）
＜ｃａｓｅ−ＨＰ２＞
ii０＜ii０Ｌ且つ ii０Ｒ＝ii１且つ右連続
→真の領域は推定領域よりも右にずれている
ＤＶｘ＝（０，ii０−ii０Ｌ） …（３２）
【０１１４】
＜ｃａｓｅ−ＨＰ３＞
ii０≧ii０Ｌ且つ ii０Ｒ＜ii１且つ左連続
→真の領域は推定領域よりも左にずれている
ＤＶｘ＝（０，ii１−ii０Ｒ） …（３３）
＜ｃａｓｅ−ＨＰ４＞
ii０＝ii０Ｌ且つii０Ｒ＝ii１且つ右連続且つ左連続
→真の領域は推定領域よりも大きい
ＤＶｘ＝（０，ＤＳＧ１２ｘ） …（３４）
ＲＤ＝Ｒ×Ｗ／ＷＤ …（３５）
ＷＤ＝ii０Ｒ−ii０Ｌ＋１ …（３６）
Ｗ＝ii１−ii０＋１ …（３７）
ただし、
ＤＶｘ；水平方向の２次元位置修正ベクトル
ＲＤ；修正後の距離値
である。
【０１１５】
▲２▼垂直スキャン
図１４のように［ｂ］領域内の色の連続性評価で得たラベル画像をもとにして推定領域の重心Ｇ（IG１，JG１）から上下両方向に［jj０，jj１］の範囲で垂直スキャンを行ない、次の２つの位置を求める。
【０１１６】
ＣＵ（IG１，jj０Ｕ）；上スキャンで初めて２または０のラベル値のブロックに当たる位置
ＣＤ（IG１，jj０Ｄ）；下スキャンで初めて２または０のラベル値のブロックに当たる位置
この２点における色べクトルの連続性を以下の様にして判定する
（ｃａｓｅ−ＶＣＩ）
ＬＣＤ［（IG１，jj０Ｕ），（IG１，jj０Ｕ−１）］≦ＬＣＤＴＨ
→上連続
（ｃａｓｅ−ＶＣ２）
ＬＣＤ［（IG１，jj０Ｄ），（IG１，jj０Ｄ＋１）］≦ＬＣＤＴＨ
→下連続
また、位置関係及び垂直方向の２次元修正を以下のようにして判定する。
【０１１７】
＜ｃａｓｅ−ＶＰ１＞
jj０＜jj０Ｕ且つ jj０Ｄ＜jj１
→真の領域は推定領域よりも小さい。
【０１１８】
ＤＶｙ＝（０，ＤＳＧ１２ｙ） …（３８）
ＲＤ＝Ｒ×Ｈ／ＨＤ …（３９）
ＨＤ＝jj０Ｄ−jj０Ｕ＋１ …（４０）
Ｈ＝jj１−jj０＋１ …（４１）
＜ｃａｓｅ−ＶＰ２＞
jj０＜jj０Ｕ且つ jj０Ｄ＝jj１且つ下連続
→推定領域は真の領域よりも上にずれている
ＤＶｙ＝（０，jj０−jj０Ｕ） …（４２）
【０１１９】
＜ｃａｓｅ−ＶＰ３＞
jj０≧jj０Ｕ且つ jj０Ｄ＜jj１且つ上連続
→推定領域は真の領域よりも下にずれている
ＤＶｙ＝（０，jj１−jj０Ｄ） …（４３）
＜ｃａｓｅ−ＶＰ４＞
jj０＝jj０Ｕ且つ jj０Ｄ＝jj１且つ下連続且つ上連続
→真の領域は推定領域よりも大きい
ＤＶｙ＝（０，ＤＳＧ１２ｙ） …（４４）
ＲＤ＝Ｒ×Ｈ／ＨＤ …（４５）
ＨＤ＝jj０Ｄ−jj０Ｕ＋１ …（４６）
Ｈ＝jj１−jj０＋１ …（４７）
ただし、
ＤＶｙ；垂直方向の２次元位置修正ベクトル
ＲＤ；修正後の距離値
である。
以上の結果から位置関係が図１５（ａ）〜（ｆ）のどの場合に相当するかが判別できる。
【０１２０】
（ウ）３次元位置姿勢修正ベクトルの推定
上記によって場合分けされた結果と２次元位置修正近似ベクトルＤＶ及び距離修正値ＲＤによって３次元位置に関する修正を行なう。
【０１２１】
（４）物理的制約
対象物の動きに関して、対象物の物理的性質から常識的に判断した場合に自ずと決まる条件の範囲がある。このような条件をあらかじめ考慮しておくことにより対象物の位置姿勢の時間変化を評価する。
【０１２２】
［ａ］位置姿勢パラメータにおける時系列変化の妥当性
フレーム間の連続性を考えずに上記のプロセスで位置姿勢を推定した場合、対象物の速度や加速度、振動数が常識的範囲を越えてしまう場合がある。そこで、以下の３つの方法でフレーム毎の計算結果に修正を加える。
【０１２３】
▲１▼時系列の移動平均
▲２▼位置姿勢の時間差分の上限を設定する
▲３▼フレーム間予測値と誤差の上限を設定する
以下、▲２▼を重点的に説明する。また、▲３▼については領域予測処理の説明で詳述する。
【０１２４】
［ｂ］画面に平行な面内の時間的偏位の評価
画面内における領域重心Ｇの時間変化はα，βのフレーム間変化から計算できる。αおよびβの時間変化を次式（４８），（４９）で定義する。
【０１２５】
【数９】

ｎ；ビデオレート（３０ｆｒａｍｅ／ｓ）画像に対してＫｄｒｏｐフレームに１枚サンプルしたフレームの番号
これから、領域重心を起点とした画面に平行な面内の偏位量ＤＰＬを次式（５０）〜（５２）で計算する。
【０１２６】
【数１０】

上式（５２）においては、絶対値距離尺度を用いれば次式（５３）のようになる。
【０１２７】
ＤＰＬ（ｎ）＝｜Ｄｘ（ｎ）＋Ｄｙ（ｎ）｜ …（５３）
これらに対して、しきい値ＤＰＬ＿ＴＨを設定し、以下のような判定処理を行う。
【０１２８】
ＤＰＬ（ｎ）＞ＤＰＬ＿ＴＨ
→α（ｎ）＝α（ｎ−１），β（ｎ）＝β（ｎ−１）
ＤＰＬ＿ＴＨ≧ＤＰＬ（ｎ）
→α（ｎ），β（ｎ）を承認
例えば、特殊な場合は別として１秒間で人間が日常範囲の運動で動く量は１〜２ｍ位であると考えると、１／３０秒間の動き量のしきい値ＤＰＬ＿ＴＨは大体３０〜７０ｍｍ程度に設定できる。
【０１２９】
［ｃ］距離の時間変化の評価
視点から領域重心までの距離ｒの時間変化は、次式（５４）のように記述できる。
【０１３０】
【数１１】

これに対してしきい値ＡＲ＿ＴＨを設定し、以下のような判定処理を行う。
【０１３１】
Ｄｒ（ｎ）＞ＡＲ＿ＴＨ
→ｒ（ｎ）＝ｒ（ｎ−１）
ＡＲ＿ＴＨ≧ＤＰＬ（ｎ）
→ｒ（ｎ）を承認
【０１３２】
［ｄ］姿勢の時間変化の評価
対象物の３次元姿勢θ，φについても時間変化としきい値判定を上記と同様に考えることができる。
▲１▼水平方向の姿勢θ
【数１２】

Ｄｔｈ（ｎ）＞ＴＨＥ＿ＴＨ
→θ（ｎ）＝θ（ｎ−１）
ＴＨＥ＿ＴＨ≧Ｄｔｈ（ｎ）
→θ（ｎ）を承認
▲２▼垂直方向の姿勢φ
【数１３】

Ｄｐｈ（ｎ）＞ＰＨＡ＿ＴＨ
→φ（ｎ）＝φ（ｎ−１）
ＰＨＡ＿ＴＨ≧Ｄｐｈ（ｎ）
→φ（ｎ）を承認
【０１３３】
［ｅ］動的制御
動領域解析において物理的制約を適用する際に、初期段階（例えば最初の１秒位）では、パラメータの制約を緩め、時間がたった後で徐々に制約を強める（図１６（ａ）〜（ｃ）参照）。すなわち、上記で設定した各しきい値ＸＸＸ＿ＴＨはシーンカット直後とその後で動的に変更することが望ましい。すなわち、
０≦Ｎｆ≦Ｎｆ＿ＴＨ
→ＸＸＸ＿ＴＨ＝ＴＨ１（ＴＨ１＞ＴＨ２）
Ｎｆ＿ＴＨ≦Ｎｆ
→ＸＸＸ＿ＴＨ＝ＴＨ２
Ｎｆ；ある１カットのシーンのフレーム番号
というように、再帰的領域抽出結果が安定して対象物をトラッキングできるようになるまでのフレーム時間をＮｆ＿ＴＨとしてその間は大きい変化を許容し、その後は、許容誤差を小さく設定する。
【０１３４】
（５）モデルの適応化
［ａ］肩幅の適応
ほぼ正面画像であると仮定できるとき、初期ワイヤフレームに対して胴体部分の水平幅をある範囲内で変更して胴体部分のみの適合度評価関数が最大となる値を選択する。
【０１３５】
▲１▼動領域解析結果から得られるおおよその肩幅Ｗｓｈを探索中心とする
▲２▼最大探索幅は頭部領域の水平幅Ｗｈｄに対して比率ｗを次式（５７）の範囲で考える。なお、目安として（ｗ１，ｗ２）＝（１．０，５．０）位である
Ｗｓｈ＝Ｗｈｄ×ｗ（ｗ１≦ｗ≦ｗ２） …（５７）
［ｂ］頭部の幅の適応
基本的に肩幅と同じ考え方で行う。
【０１３６】
（６）常識の適用による制約
図１のモデルデータベースから色情報、３次元形状、シーン構造を選択するには、システム制御部から得られるモード情報とモデル情報に加えて、上記のプロセスで得られたモデル適合の評価修正結果を基にして、シーンの状況を決定する必要がある。そこで、使用環境や被写体に関するモード制御を行なうにあたって、状態遷移のパターンをあらかじめ設定しておき、それらの分岐においては、状態遷移の判定情報が不足する初期段階においては確率値のデフォルト値に基づいて状態遷移を判定し、このような判定動作を繰り返すうちに評価結果に応じて適切な状態遷移が行なえるようにこの確率値を変更設定する。
【０１３７】
［ａ］確率ラベルの更新
状態遷移の解釈木のパスを一度通り、その評価プロセスによる評価スコア値ＳＣＯＲＥがしきい値ＳＣ＿ＴＨ１，ＳＣ＿ＴＨ２の値に対して次の場合に応じて確率ラベルの変更を行なう。
【０１３８】
ＳＣＯＲＥ≧ＳＣ＿ＴＨ１
→ｐ（ｐａｔｈ−ｉ）の確率ラベルを上げる
ＳＣ＿ＴＨ１＞ＳＣＯＲＥ≧ＳＣ＿ＴＨ２
→ｐ（ｐａｔｈ−ｉ）の確率ラベルを変更しない
ＳＣ＿ＴＨ２＞ＳＣＯＲＥ
→ｐ（ｐａｔｈ−ｉ）の確率ラベルを下げる
【０１３９】
［ｂ］他の経路の並列評価の判定
確率ラベルの経路和の値ＳＰ（ｐａｔｈ−ｉ）の値に応じて各パスの解析・評価計算を行うかどうかを決定する。最も確率値の高いパスをｐａｔｈ−ｉとするとき、以下のように判定する。
【０１４０】
▲１▼ＳＰ（ｐａｔｈ−ｉ）≧０．８
→ｐａｔｈ−ｉの計算のみ行う
▲２▼０．８＞ＳＰ（ｐａｔｈ−ｉ）≧０．５
→ｐａｔｈ−ｉの次に確率の高いｐａｔｈ−ｊを選択し
ｐａｔｈ−ｉとｐａｔｈ−ｊの並列計算を進める
▲３▼０．５＞ＳＰ（ｐａｔｈ−ｉ）≧０．２
→確率の高い上位３個のｐａｔｈ−ｋを選択する
▲４▼０．２＞ＳＰ（ｐａｔｈ−ｉ）
→状況仮定の変更を行う
【０１４１】
次に、発明者が実験的に行なった推定領域の抽出処理過程の結果について概略的に説明する。図１７ないし図２４は、ＣＩＦ形式のブロックに分割した場合の結果を示している。人物の頭部を撮影したある画像について、まず、動ベクトル検出によるラベリングを行なった結果が図１７に示される。これに対して、パニングベクトルを検出して補正を行なった結果が図１８に示される。さらに、時間方向のヒストグラム処理による雑音除去処理を行なった結果が図１９に示される。図中の値は頻度を示している。また、顔領域について重心色による評価を行なった結果が図２０に示される。そして、ワイヤフレーム適合による投影を行なった結果が図２１に示される。
【０１４２】
また、図２２ないし図２４にはこのようにして抽出された図２０に相当する推定領域の結果について時間的に変化する状態を、シーン開始時点から数えて、第１フレーム（Ｎｆ＝１），第７フレーム（Ｎｆ＝７）および第１３フレーム（Ｎｆ＝１５）について示している。
【０１４３】
このような本実施例によれば、画像の動領域を抽出して対象物の推定領域とし、その推定領域に対して符号化処理における符号化レートを他の領域に比べて高くするので、限られた伝送容量の範囲で画像の符号化信号を送信する場合においても、使用者が見た時の印象として人物の顔などの注目する領域に関して高精度で動き情報が良く表現されるようになり、動画像としての見た目の印象を良くすることができるようになる。
【０１４４】
また、本実施例によれが、対象物の３次元形状をワイヤフレームモデルとして規定すると共に、色のモデル情報やシーン構造を規定してモデルベースとして設定し、抽出された動領域の形状特徴に基づいてワイヤフレームモデルの位置姿勢を推定しこれに基づいて推定領域を抽出するので、対象物の動きに応じて高い精度で追随して動領域に対する推定領域の抽出を行なうことができる。
【０１４５】
さらに、モデル適合過程により抽出された推定領域の適合度を画像のデータに基づいて評価し、その評価結果に応じて適合度がより高くなるように推定領域を修正するので、符号化処理過程で、修正されたより精度の高い推定領域を用いて符号化処理を行なうことができ、これによって、対象物に対応した推定領域をより精度よく抽出できる。
【０１４６】
そして、対象物の常識的なモデル情報として例えば色情報や運動情報あるいは３次元構造の情報があらかじめ規定されているので、評価修正過程においては、抽出されている推定領域のデータがその常識的なモデル情報に適合しているかを評価修正を行なうことにより、より正確な推定領域の抽出をすることができるようになる。
【０１４７】
符号化処理過程では、前回のフレームで抽出された推定領域の情報に基づいてその推定領域に対応して精度を高めて符号化処理を行なうので、同じフレームの画像データについて繰り返し読出して信号処理をすることがなくなり、演算処理を迅速に実施することができる。また、必要に応じて、推定領域に対して次フレームの予測を行なうので、速い動きがある場合にもこれに追随して的確な推定領域の情報を得ることができる。
【０１４８】
また、動領域検出過程においては、検出された動きブロックの情報に加えて画像の色情報に基づいて動領域を検出するので、動きの少ないブロックに対しても色情報から対象物に対応したブロックであるか否かの判定を行なえ、対象物に相当する推定領域の抽出の精度を向上させることができるようになる。
【０１４９】
動領域検出過程においては、色距離計算に続くしきい値判定で用いるしきい値の設定を時間の経過に伴って低いレベルに変更するので、画像から対象物の推定領域を抽出する場合に、シーンの開始直後から時間が経過するにしたがって推定領域の抽出精度が向上してくることに基づいてより精度の高い判定処理を行なうことができるようになる。
【０１５０】
動領域検出過程において、重心位置からの距離による雑音除去を行なうと共に時間的に前後するフレームの画像のデータから雑音除去を行なうので、動領域の抽出を高精度で行なうことができる。
【図面の簡単な説明】
【図１】本発明の一実施例を示す符号化器のブロック構成図
【図２】全体の概略的構成図
【図３】領域情報を抽出する原理説明図
【図４】領域抽出プログラムのフローチャート
【図５】動領域解析処理プログラムのフローチャート
【図６】モデル適合処理プログラムのフローチャート
【図７】評価・修正処理プログラムのフローチャート
【図８】領域予測処理プログラムのフローチャート
【図９】パニングベクトル計算プログラムのフローチャート
【図１０】画像中のパニングベクトル検出の計算に使用するブロックの説明図
【図１１】抽出領域の傾きを検出する場合の作用説明図
【図１２】抽出した推定領域の色評価に関する概念的な説明図
【図１３】２次元の近似修正ベクトルの計算をする場合の概念的な説明図
【図１４】推定領域内の色連続性の判定処理をする場合の概念的な説明図
【図１５】推定領域と実物領域とのさまざまなずれの関係を示す説明図
【図１６】しきい値変更を示す作用説明図
【図１７】実験例を示す１フレームの各ブロックにおける、動ベクトル検出によるラベリング結果図
【図１８】同、パニングベクトル除去後のラベリング結果図
【図１９】同、時間方向のヒストグラム処理を行なった後のラベリング結果図
【図２０】同、重心色による評価結果図
【図２１】同、ワイヤフレーム適合による投影結果図
【図２２】同、時間の推移に伴う図２１相当図（その１）
【図２３】同、時間の推移に伴う図２１相当図（その２）
【図２４】同、時間の推移に伴う図２１相当図（その３）
【符号の説明】
１は符号化器、２はカメラ、３はＡ／Ｄ変換部、４は動き補償予測符号化部、５はモデルベース対象領域抽出部、６は２次元動きベクトル検出部、７は符号化属性判定・制御部、８は動領域解析部、８ａはパニングベクトル検出部、８ｂは動きブロック判定部、８ｃは重心計算部、８ｄは平均色計算部、８ｅは背景雑音除去部、８ｆは２次元形状パラメータ抽出部、９はモデル適合部、９ａは３次元位置姿勢推定部、９ｂは透視変換部、９ｃは投影領域計算部、１０は評価・修正部、１０ａは色評価部、１０ｂは適合度計算部、１０ｃは３次元位置姿勢速度決定部、１１は領域予測部、１１ａは移動平均部、１１ｂは３次元動き予測部、１１ｃは領域計算部、１２はモデルデータベース、１２ａは色情報データベース、１２ｂは３次元形状データベース、１２ｃはシーン構造データベースである。

Claims

画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも２フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを有する画像の認識方法により得られた画像情報を符号化する画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なう符号化処理過程を備え、
前記動領域検出過程では、検出された動きブロックの情報に加えて画像の色情報に基づいて前記動領域を検出し、
前記色情報の検出は、重心色の計算による対象物の色の決定と、色距離計算としきい値判定により行ない、
前記しきい値判定で用いるしきい値の設定を時間の経過に伴って低いレベルに変更することを特徴とする画像情報の符号化方法。
画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも２フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを有する画像の認識方法により得られた画像情報を符号化する画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なう符号化処理過程を備え、
前記動領域検出過程では、検出した動きブロックについて時間的に前後するフレームの画像の動きブロックを参照してヒストグラムを作成して時間方向のフィルタリングを行なうことにより雑音除去処理を行なうことを特徴とする画像情報の符号化方法。
画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも２フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを有する画像の認識方法により得られた画像情報を符号化する画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なう符号化処理過程を備え、
前記対象物のモデルとして、３次元モデル、色情報およびシーン構造を含むモデルを規定したモデルデータベースを設け、
前記モデルデータベースから前記モデルを選択する場合に、確率的に状態遷移を行なうときの確率値を変更または状態遷移経路を変更することを特徴とする画像情報の符号化方法。
画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも２フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを有する画像の認識方法により得られた画像情報を符号化する画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なう符号化処理過程と、
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程と
を設け、
前記符号化処理過程では、この評価修正過程を経て修正された推定領域に対して前記符号化処理を行ない、
前記評価修正過程では、対象物の３次元位置姿勢のパラメータ値およびその時間変化および予測誤差のしきい値判定により３次元位置姿勢の算出値を評価修正することを特徴とする画像情報の符号化方法。
画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも２フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを有する画像の認識方法により得られた画像情報を符号化する画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域に対して他の領域よりも多くの情報量を割り当てるように符号化処理を行なう符号化処理過程と
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程と
を設け、
前記符号化処理過程では、この評価修正過程を経て修正された推定領域に対して前記符号化処理を行ない、
前記評価修正過程では、３次元位置姿勢算出値のしきい値判定で用いるしきい値の設定を時間の経過に伴って動的に変更することを特徴とする画像情報の符号化方法。
請求項１ないし５のいずれかに記載の画像情報の符号化方法において、
前記対象物の形状モデルは３次元モデルとしてデータが規定されており、
前記モデル適合過程では、前記動領域の２次元的な形状特徴に基づいて前記対象物の３次元モデルの概略の位置姿勢を推定しこれに基づいて前記推定領域を抽出することを特徴とする画像情報の符号化方法。
請求項６記載の画像情報の符号化方法において、
前記モデル適合過程では、前記対象物の３次元モデルの位置姿勢情報に基づいてそのワイヤフレームモデルを画像面上に投影し、その内部領域を前記対象物の推定領域として抽出することを特徴とする画像情報の符号化方法。
請求項１ないし３、６、７のいずれかに記載の画像情報の符号化方法において、
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程を設け、
前記符号化処理過程では、この評価修正過程を経て修正された推定領域に対して前記符号化処理を行なうことを特徴とする画像情報の符号化方法。
請求項４、５、８のいずれかに記載の画像情報の符号化方法において、
前記評価修正過程では、前記対象物の常識的なモデル情報をあらかじめ規定してこれに基づいて評価修正を行なうことを特徴とする画像情報の符号化方法。
請求項９記載の画像情報の符号化方法において、
前記評価修正過程では、時間的に前後する画像のそれぞれにおいて抽出した推定領域が前記対象物の物理的な動き条件や常識的な動き条件に適合しているか否かを判定する処理過程を含んでいることを特徴とする画像情報の符号化方法。
請求項８ないし１０のいずれかに記載の画像情報の符号化方法において、
前記評価修正過程では、前記対象物に対応した常識的色情報，重心色の再評価および推定領域内の色連続性評価を行なって前記推定領域の修正を行なうことを特徴とする画像情報の符号化方法。
請求項１ないし１１のいずれかに記載の画像情報の符号化方法において、
前記符号化処理過程では、前記抽出された推定領域の情報を次のフレームの画像の符号化処理に適用することを特徴とする画像情報の符号化方法。
請求項１ないし１１のいずれかに記載の画像情報の符号化方法において、
前記推定領域の抽出過程で得られた情報に基づいて次の画像の前記対象物の推定領域を予測する領域予測過程を設け、
前記符号化処理過程では、前記領域予測過程で予測された予測推定領域の情報を次のフレームの画像の符号化処理に適用することを特徴とする画像情報の符号化方法。
請求項１ないし１３のいずれかに記載の画像情報の符号化方法において、
前記動領域検出過程は、画像のパニングベクトルを検出してこれに基づいて検出された動きブロックの情報を補正することを特徴とする画像情報の符号化方法。
請求項１ないし１４のいずれかに記載の画像情報の符号化方法において、
前記動領域検出過程では、検出された動きブロックの情報に加えて画像の色情報に基づいて前記動領域を検出することを特徴とする画像情報の符号化方法。
請求項１５記載の画像情報の符号化方法において、
前記動領域検出過程では、前記色情報の検出を、重心色の計算による対象物の色の決定と、色距離計算としきい値判定により行なうことを特徴とする画像情報の符号化方法。
請求項１ないし１６のいずれかに記載の画像情報の符号化方法において、
前記動領域検出過程では、検出した動きブロックについて重心位置との間の距離計算としきい値判定を行なうことにより雑音除去処理を行なうことを特徴とする画像情報の符号化方法。
請求項７ないし１６のいずれかに記載の画像情報の符号化方法において、
前記評価修正過程では、前記対象物の３次元モデルのワイヤフレームモデルを画像面に投影する際に、その対象物の所定部位の適合性が高くなるようにワイヤフレームモデルを当てはめてモデルの適応化を図ることを特徴とする画像情報の符号化方法。
画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも２フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを備え、
前記動領域検出過程では、検出された動きブロックの情報に加えて画像の色情報に基づいて前記動領域を検出し、
前記色情報の検出は、重心色の計算による対象物の色の決定と、色距離計算としきい値判定により行ない、
前記しきい値判定で用いるしきい値の設定を時間の経過に伴って低いレベルに変更することを特徴とする画像の認識方法。
画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも２フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを備え、
前記動領域検出過程では、検出した動きブロックについて時間的に前後するフレームの画像の動きブロックを参照してヒストグラムを作成して時間方向のフィルタリングを行なうことにより雑音除去処理を行なうことを特徴とする画像の認識方法。
画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも２フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程とを備え、
前記対象物のモデルとして、３次元モデル、色情報およびシーン構造を含むモデルを規定したモデルデータベースを設け、
前記モデルデータベースから前記モデルを選択する場合に、確率的に状態遷移を行なうときの確率値を変更または状態遷移経路を変更することを特徴とする画像の認識方法。
画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも２フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程と、
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程とを設け、
前記評価修正過程では、前記対象物の常識的なモデル情報をあらかじめ規定してこれに基づいて評価修正を行なうと共に、対象物の３次元位置姿勢のパラメータ値およびその時間変化および予測誤差のしきい値判定により３次元位置姿勢の算出値を評価修正することを特徴とする画像の認識方法。
画像情報をブロック単位で検出すると共に、動きのある対象物を撮影した時間的に前後する少なくとも２フレーム分の画像から動きが発生しているブロックを検出することにより前記対象物に相当する動領域を検出する動領域検出過程と、
この動領域検出過程で検出された動領域に対して、あらかじめ規定されている前記対象物の形状モデルを当てはめてその内部に含まれる領域を対象物の推定領域として認識するモデル適合過程と、
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程とを設け、
前記評価修正過程では、前記対象物の常識的なモデル情報をあらかじめ規定してこれに基づいて評価修正を行なうと共に、３次元位置姿勢算出値のしきい値判定で用いるしきい値の設定を時間の経過に伴って動的に変更することを特徴とする画像の認識方法。
請求項１９ないし２３のいずれかに記載の画像の認識方法において、
前記対象物の形状モデルは３次元モデルとしてデータが規定されており、
前記モデル適合過程では、前記動領域の２次元的な形状特徴に基づいて前記対象物の３次元モデルの概略の位置姿勢を推定しこれに基づいて前記推定領域を抽出することを特徴とする画像の認識方法。
請求項２４記載の画像の認識方法において、
前記モデル適合過程では、前記対象物の３次元モデルの位置姿勢情報に基づいてそのワイヤフレームモデルを画像面上に投影し、その内部領域を前記対象物の推定領域として抽出することを特徴とする画像の認識方法。
請求項１９ないし２１、２３、２５のいずれかに記載の画像の認識方法において、
前記モデル適合過程により抽出された推定領域について、前記画像のデータに基づいて適合度の評価を行ない、その評価結果に応じて適合度がより高くなるように推定領域を修正する評価修正過程を設けたことを特徴とする画像の認識方法。
請求項２６記載の画像の認識方法において、
前記評価修正過程では、前記対象物の常識的なモデル情報をあらかじめ規定してこれに基づいて評価修正を行なうことを特徴とする画像の認識方法。
請求項２７記載の画像の認識方法において、
前記評価修正過程では、時間的に前後する画像のそれぞれにおいて抽出した推定領域が前記対象物の物理的な動き条件や常識的な動き条件に適合しているか否かを判定する処理過程を含んでいることを特徴とする画像の認識方法。
請求項２６ないし２８のいずれかに記載の画像の認識方法において、
前記評価修正過程では、前記対象物に対応した常識的色情報，重心色の再評価および推定領域内の色連続性評価を行なって前記推定領域の修正を行なうことを特徴とする画像の認識方法。
請求項１９ないし２９のいずれかに記載の画像の認識方法において、
前記動領域検出過程は、画像のパニングベクトルを検出してこれに基づいて検出された動きブロックの情報を補正することを特徴とする画像の認識方法。
請求項１９ないし３０のいずれかに記載の画像の認識方法において、
前記動領域検出過程では、検出された動きブロックの情報に加えて画像の色情報に基づいて前記動領域を検出することを特徴とする画像の認識方法。
請求項３１記載の画像の認識方法において、
前記動領域検出過程では、前記色情報の検出を、重心色の計算による対象物の色の決定と、色距離計算としきい値判定により行なうことを特徴とする画像の認識。
請求項１９ないし３２のいずれかに記載の画像の認識方法において、
前記動領域検出過程では、検出した動きブロックについて重心位置との間の距離計算としきい値判定を行なうことにより雑音除去処理を行なうことを特徴とする画像の認識方法。
請求項２６ないし３３のいずれかに記載の画像の認識方法において、
前記評価修正過程では、前記対象物の３次元モデルのワイヤフレームモデルを画像面に投影する際に、その対象物の所定部位の適合性が高くなるようにワイヤフレームモデルを当てはめてモデルの適応化を図ることを特徴とする画像の認識方法。