JP5274181B2

JP5274181B2 - 動画像符号化装置および動画像符号化方法

Info

Publication number: JP5274181B2
Application number: JP2008246595A
Authority: JP
Inventors: 大輔坂本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-09-25
Filing date: 2008-09-25
Publication date: 2013-08-28
Anticipated expiration: 2028-09-25
Also published as: JP2010081241A

Description

本発明は、動画像符号化装置および動画像符号化方法に関し、特には、動き補償によるフレーム間予測を用いて動画像データを符号化する動画像符号化装置および動画像符号化方法に関する。

近年では、動画像データの高解像度化が進み、従来から用いられる７２０画素×４８０画素の映像に対して、例えば地上デジタル放送では、フルハイビジョン映像と呼ばれる１９２０画素×１０８０画素の映像が用いられることが多くなっている。このような高解像度の動画像データは、単位時間当たりに伝送されるデータ量も膨大なものになるため、従来の技術に対してより高能率な圧縮符号化技術が求められている。

これらの要求に対し、ＩＴＵ−ＴＳＧ１６やＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１の活動で、画像間の相関を利用したフレーム間予測を用いた符号化圧縮方式の標準化作業が進められている。この中でも、現状で最も高能率な符号化を実現しているといわれる符号化方式に、Ｈ．２６４／ＭＰＥＧ−４ＰＡＲＴ１０（ＡＶＣ）（以下、Ｈ．２６４と呼ぶ）がある。Ｈ．２６４の符号化および復号化の仕様については、例えば特許文献１などに記載されている。

このＨ．２６４で新たに導入された技術の一つとして、フレーム間予測に用いる参照画像を、複数の画像の中から選択する技術がある（以下、複数参照フレーム間予測と呼ぶ）。Ｈ．２６４方式では、従来から用いられるＭＰＥＧ−１、ＭＰＥＧ−２方式に対し、直交変換処理をアダマール変換および整数精度ＤＣＴを用いて行うことにより誤差の蓄積を抑制する。それと共に、フレーム内予測符号化および動き補償を用いたフレーム間予測符号化とを行い、より精度の高い予測符号化を実現している。

従来のＭＰＥＧ−１方式やＭＰＥＧ−２方式などの符号化方式（以下、ＭＰＥＧ符号化方式と呼ぶ）では、動き予測を行う場合、順方向予測および逆方向予測を用いることができる。ここで、順方向予測とは、時間的に前に位置する画像フレームから時間的に後に位置する画像フレームを予測する予測方式をいう。また、逆方向予測とは、時間的に後に位置する画像フレームから時間的に前に位置する画像フレームを予測する予測方式をいう。逆方向予測では、現在の画像フレームに基づいて、それ以前の符号化をスキップした画像フレームを予測することができる。逆方向予測は、順方向予測と共に用いられ（双方向予測と呼ばれる）、符号化対象の画像フレームに対してより高い圧縮率を実現する。

なお、ＭＰＥＧ符号化方式において、順方向予測により符号化された画像フレームをＰピクチャ、双方向予測により符号化された画像フレームをＢピクチャと呼ぶ。また、フレーム間予測を用いず、その画像フレームだけで符号化が完結する画像ピクチャをＩピクチャと呼ぶ。

このＭＰＥＧ符号化方式における順方向予測および両方向予測では、処理対象となる画像フレームに対して、動き予測を行う際に参照する参照フレームが予め決められている。一例として、１枚のＩピクチャ、４枚のＰピクチャおよび１０枚のＢピクチャからなるＧＯＰ単位で符号化がなされる場合、添字を画像フレームの入力（表示）順とすると、各ピクチャの符号化順は、下記のようになる。
Ｉ_３Ｂ_１Ｂ_２Ｐ_６Ｂ_４Ｂ_５Ｐ_９Ｂ_７Ｂ_８Ｐ_１２Ｂ_１０Ｂ_１１Ｐ_１５Ｂ_１３Ｂ_１４

この場合、Ｐ_６ピクチャは、Ｉ_３ピクチャを参照フレームとして予測符号化され、Ｂ_４およびＢ_５ピクチャは、Ｉ_３ピクチャおよびＰ_６ピクチャを参照フレームとして予測符号化される。同様に、Ｐ_９ピクチャは、Ｐ_６ピクチャを参照フレームとして予測符号化され、Ｂ_７およびＢ_８ピクチャは、Ｐ_６およびＰ_９ピクチャを参照フレームとして予測符号化される。

このＭＰＥＧ符号化方式における順方向予測および逆方向予測では、処理対象となる画像フレームに対して、時間的に近傍に位置する画像フレームを、動き予測を行う際に参照する参照フレームとして用いることが多い。例えば、上述のように、Ｐピクチャは、直前のＩピクチャまたはＰピクチャを参照フレームとして予測符号化がなされる。また、Ｂピクチャは、直前および直後のＩピクチャおよびＰピクチャ、若しくは、直前および直後のＰピクチャを参照フレームとして、予測符号化がなされる。これは、処理対象となる画像フレームと時間的に近傍に位置する画像フレームとにおいて、画像の相関が、多くの場合において高いためである。

しかし、これらのＭＰＥＧ符号化方式では、画像フレーム間で画像の急激な変化があった場合、動き補償を用いたフレーム間予測の利点が活用できない可能性がある。これは、画像の急激な変化があると、時間的に近傍に位置する画像フレームであっても、符号化対象の画像フレームの画像との相関が低くなるからである。例えば、人物の表情を捉えた動画像の撮影時において、被写体となる人物が目を瞬いた場合や笑うなどして突然大きく口を開けた場合、短時間で画像が変化し、動き補償を用いたフレーム間予測の利点が活用できず、圧縮効率が低下する可能性がある。

上述のＨ．２６４では、１つの符号化対象の画像フレームに対して複数の参照フレームを用いてフレーム間予測を行う、複数参照フレーム間予測を導入して、この問題に対応している。この複数参照フレーム間予測によれば、処理対象となる画像フレームに対して、参照フレームをブロック毎に柔軟に選択できる。例えば、Ｐピクチャであれば、最大で１５枚のＰピクチャまで遡り、動き補償ブロック毎に最適なピクチャを選択して参照フレームとして利用できる。

このように、Ｈ．２６４では、入力された画像と、既に符号化された画像との誤差が最小となる画像を、複数の画像の中から選択して参照フレームとして利用することで、動き補償を用いたフレーム間予測を行うことができる。これにより、動画像データを圧縮符号化するときに、上述したような、符号化対象の画像フレームと、当該画像フレームに対して時間的に近い位置の参照フレームとの画像間の相関が低い場合でも、効率的な符号化が可能となる。
特開２００５−１６７７２０号公報

しかしながら、既に符号化された複数の画像フレームについて、入力画像フレームとの誤差が最小となる画像フレームをブロック毎に選択する演算を常に行うと、参照する画像フレーム数に比例して演算量が増大してしまう。その結果、符号化に要する時間が膨大になってしまうという問題点があった。これは特に、デジタルビデオカメラなど、撮影に対してリアルタイムに符号化が行われることが必要とされる機器においては、演算が間に合わなくなるおそれがある。

また、デジタルビデオカメラなどの、携帯用に設計された機器の場合には、演算負荷の増大は、駆動するバッテリ消費量の増大に結びつくため、撮影時間に対する影響が無視できなくなってしまうという問題点があった。

このように、従来では、複数参照フレーム間予測を用いる場合において、動き補償を用いたフレーム間予測を少ない演算量で、且つ、効率的に実行することが困難であった。

本発明は、特に人物の顔を含む動画像データを複数参照フレーム間予測を用いて符号化する場合において、動き補償を用いたフレーム間予測を少ない演算量で、且つ、効率的に実行できる動画像符号化装置および動画像符号化方法を提供することにある。

本発明は、上述した課題を解決するために、符号化対象の画像フレームを分割したブロック単位で参照フレームに対してなされた動き検出の結果を用いて動き補償フレーム間予測符号化を行い、該参照フレームを複数の参照フレームの候補から選択可能な動画像符号化装置であって、入力された画像フレームを一時的に保存する入力画像フレーム保存手段と、前記入力画像フレーム保存手段に保存された前記画像フレームに基づき生成した参照候補フレームの複数を保存する参照候補フレーム保存手段と、前記入力画像フレーム保存手段から出力された画像フレームから顔領域を検出して該顔領域に含まれる顔パーツをさらに検出し、該顔パーツの状態を判定する判定手段と、前記判定手段に判定された前記顔パーツの前記状態を、該顔パーツが含まれる前記画像フレームを示す情報に関連付けて保存する顔パーツ情報保存手段と、符号化対象フレームが参照可能な画像フレームのうち、前記判定手段により判定された前記符号化対象フレームの前記顔パーツの状態と一致する顔パーツの状態に関連づけられた画像フレームを示す情報を前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報の中から検索する検索手段と、前記参照候補フレーム保存手段に保存された前記複数の参照候補フレームのうち、前記検索手段で検索された前記画像フレームを示す情報に対応する該参照候補フレームを、前記符号化対象フレームの前記顔パーツに対応する前記ブロックの前記参照フレームに決定する参照フレーム決定手段とを有し、前記参照フレーム決定手段で決定された前記参照フレームを用いて前記符号化対象フレームに対する動き補償フレーム間予測符号化を行うことを特徴とする動画像符号化装置である。

また、本発明は、符号化対象の画像フレームを分割したブロック単位で参照フレームに対してなされた動き検出の結果を用いて動き補償フレーム間予測符号化を行い、該参照フレームを複数の参照フレームの候補から選択可能な動画像符号化装置における動画像符号化方法であって、前記動画像符号化装置の制御手段が、入力された画像フレームを入力画像フレーム保存手段に一時的に保存する入力画像フレーム保存ステップと、前記制御手段が、前記入力画像フレーム保存手段に保存された前記画像フレームに基づき生成した参照候補フレームの複数を参照候補フレーム保存手段に保存する参照候補フレーム保存ステップと、前記動画像符号化装置の判定手段が、前記入力画像フレーム保存手段から出力された画像フレームから顔領域を検出して該顔領域に含まれる顔パーツをさらに検出し、該顔パーツの状態を判定する判定ステップと、前記制御手段が、前記判定ステップに判定された前記顔パーツの前記状態を、該顔パーツが含まれる前記画像フレームを示す情報に関連付けて顔パーツ情報保存手段に保存する顔パーツ情報保存ステップと、前記動画像符号化装置の検索手段が、符号化対象フレームが参照可能な画像フレームのうち、前記判定ステップにより判定された前記符号化対象フレームの前記顔パーツの状態と一致する顔パーツの状態に関連づけられた画像フレームを示す情報を前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報の中から検索する検索ステップと、前記動画像符号化装置の参照フレーム決定手段が、前記参照候補フレーム保存手段に保存された前記複数の参照候補フレームのうち、前記検索ステップで検索された前記画像フレームを示す情報に対応する該参照候補フレームを、前記符号化対象フレームの前記顔パーツに対応する前記ブロックの前記参照フレームに決定する参照フレーム決定ステップとを有し、前記制御手段が、前記参照フレーム決定ステップで決定された前記参照フレームを用いて前記符号化対象フレームに対する動き補償フレーム間予測符号化を行うことを特徴とする動画像符号化方法である。

本発明は、上述した構成を有するため、特に人物の顔を含む動画像データを複数参照フレーム間予測を用いて符号化する場合において、動き補償を用いたフレーム間予測を少ない演算量で、且つ、効率的に実行できる。

以下、本発明の実施形態について説明する。本発明に適用される動画像符号化装置では、符号化対象の画像フレームを分割したブロック単位で参照フレームに対してなされた動き検出の結果を用いて動き補償フレーム間予測符号化を行う。このとき、参照フレームは、複数の参照フレームの候補から選択可能とされている。

このような動画像符号化装置において、本発明では、動画像データの画像フレームに対して顔検出を行い、検出された顔から、さらに目、鼻、口などの顔パーツを検出し、検出された顔パーツのそれぞれについて状態を判定する。顔パーツの状態の判定結果は、顔検出を行った画像フレームを示す情報と関連付けて保存する。そして、符号化対象の画像フレームから検出された顔パーツの状態を、保存された顔パーツの状態と比較し、一致する顔パーツの状態に対応する画像フレーム検索し、当該顔パーツの参照フレームとして用いるようにする。そして、顔パーツのそれぞれを、各顔パーツについて検索された参照フレームを用いて、動き補償ブロック単位で動き補償フレーム間予測符号化を行う。

これにより、動画像の被写体である顔の各顔パーツが急に動くような場合でも、各顔パーツそれぞれに対して最適な予測符号化を行うことができる。また、参照フレームの検索を、符号化対象の画像フレームに対する顔パーツの検出が行われた際に保存した顔パーツの状態を用いて行うようにしている。そのため、動き補償を用いたフレーム間予測符号化を少ない演算量で、且つ、効率的に実行することが可能となる。

図１は、本発明の実施形態による符号化装置１００の一例の構成を示す。符号化装置１００は、供給されたベースバンドの動画像データに対し、１画面を所定サイズに分割したブロック単位で動き検出を行い、動き補償を用いたフレーム間予測符号化を行う。符号化は、アダマール変換および整数精度ＤＣＴを用いた直交変換および変換係数に対する量子化と、フレーム内予測符号化および動き補償を用いたフレーム間予測符号化とを用い、さらにエントロピー符号化を施すことで行う。

以下では、アダマール変換および整数精度ＤＣＴを用いた直交変換を整数変換と呼び、フレーム内予測符号化およびフレーム間予測符号化をそれぞれイントラ符号化、インター符号化と呼ぶ。

インター符号化により、動き補償の単位となる動き補償ブロックに対して時間的に前に位置する参照フレームとの予測を行うＰピクチャが形成される。また、インター符号化により、動き補償ブロックに対して時系列的に前および／または後の２枚までの参照フレームとの予測を行うＢピクチャも形成される。さらに、イントラ符号化によりＩピクチャが形成される。このように、インター符号化およびイントラ符号化により、時間的な参照関係が異なる複数のタイプのピクチャが形成される。さらに、フレーム間予測符号化では、動画像データを、これらＩピクチャ、ＰピクチャおよびＢピクチャが所定に配列されたＧＯＰ構造を持つデータとして符号化する。

例えば、符号化装置１００が１枚のＩピクチャ、４枚のＰピクチャおよび１０枚のＢピクチャからなる１５フレームで１ＧＯＰを形成する場合、符号化装置１００に入力されるフレームに対し、下記の順にピクチャタイプが割り当てられる。なお、添字は、入力順または表示順を示す。
Ｂ_１Ｂ_２Ｉ_３Ｂ_４Ｂ_５Ｐ_６Ｂ_７Ｂ_８Ｐ_９Ｂ_１０Ｂ_１１Ｐ_１２Ｂ_１３Ｂ_１４Ｐ_１５

ここで、Ｂピクチャは、時系列的に過去のピクチャと未来のピクチャとを用いて予測符号化を行うことができるため、符号化は、Ｂピクチャの順序をＩピクチャおよびＰピクチャに対して入れ替えて、例えば下記の順序で行われる。なお、Ｉ_３ピクチャに続くＢ_１ピクチャおよびＢ_２ピクチャは、Ｉ_３ピクチャと、直前のＧＯＰにおけるＰ_１５ピクチャとを用いて予測符号化される。
Ｉ_３Ｂ_１Ｂ_２Ｐ_６Ｂ_４Ｂ_５Ｐ_９Ｂ_７Ｂ_８Ｐ_１２Ｂ_１０Ｂ_１１Ｐ_１５Ｂ_１３Ｂ_１４

この符号化装置１００は、図示されないＣＰＵにより、所定のプログラムに従って制御される。ＣＰＵは、符号化装置１００を専用に制御するものでもよいし、この符号化装置１００が組み込まれるより上位のシステムを制御するものでもよい。ＣＰＵは、図示されないＲＯＭおよびＲＡＭを有し、ＲＯＭに予め格納されたプログラムに従いＲＡＭをワークメモリとして動作し、符号化装置１００の各部を制御する。

符号化装置１００に対して、ベースバンドの動画像データ５０が画像フレーム単位で、上述した入力順で入力され、入力画像フレーム保存手段としての、フレームメモリからなる現在フレーム保存部１０に一時的に保存される。現在フレーム保存部１０に保存された画像フレームは、上述した符号化順に並び替えられ、符号化のために、所定サイズ（例えば１６画素×１６画素）のマクロブロックに分割されて読み出される。マクロブロックは、例えば画面の左端から右端に水平方向にスキャンされ、それが垂直方向に繰り返されて読み出される。また、マクロブロックに対して、例えばスキャンの順序に従って画像フレーム内における座標情報が定義される。

さらに、現在フレーム保存部１０から、動画像データ５０の、マクロブロック単位で読み出された画像データに対応する画像フレームが読み出され、顔検出部３２に供給される。なお、現在フレーム保存部１０から符号化のためにマクロブロック単位で読み出された画像データに対応する画像フレームを、以下、符号化対象フレームと呼ぶ。

顔検出部３２は、現在フレーム保存部１０から供給された符号化対象フレームに対して、人間の顔が含まれる顔領域の検出を行う。顔検出部３２で検出された顔領域を示す情報は、顔検出を行った符号化対象フレームを示す識別情報と共に、顔表情認識部３３に供給される。顔表情認識部３３は、顔検出部３２から供給された顔領域を示す情報に基づき、顔に含まれる各パーツ（以下、顔パーツと呼ぶ）の状態を判定する。ここでは、顔パーツを、顔の中でも動きが頻繁に発生すると考えられる部分であるものとする。顔の中のこのような部分としては、例えば左目、右目および口が挙げられる。例えば、顔表情認識部３３は、これら左目、右目および口のうち少なくとも１つの状態を判定する。顔検出部３２および顔表情認識部３３は、判定手段を構成する。

各顔パーツ状態の判定結果は、対応する顔パーツが含まれるマクロブロックの座標情報および符号化対象フレームの識別情報と関連付けられて、顔表情認識部３３が有する図示されないメモリに対して、蓄積的に記憶される。顔表情認識部３３は、顔パーツ情報保存手段も構成する。顔表情認識部３３における処理の詳細は、後述する。

なお、顔検出部３２による顔領域の検出方法は、様々に考えられるが、例えば、特開２００１−３０９２２５号公報に記載される方法を用いることができる。これは、先ず、画像データに対して、色および形状に基いて肌を含む可能性が高いと思われる中央部と、色および形状に基いて毛髪を含む可能性が高いと思われる周辺領域とを探す。その結果に基づき、第１の顔候補検出アルゴリズムにより、パターン認識オペレータを用いて顔を含む可能性の高い領域を探す。そして、第１のアルゴリズムで求められた顔候補領域中の顔の存在を、パターンマッチにより確かめる第２のアルゴリズムとを併用して顔を検出する。

また、顔表情認識部３３による、顔領域の各顔パーツの状態情報を解析する方法としては、次のような方法が考えられる。先ず、顔の肌色領域を「０」、顔の肌色領域以外を「１」として２値化する。そして、顔の肌色領域から顔の重心を検出し、その重心の斜め上方にあるホールの位置を目領域と決定する。なお、ホールが検出できない場合は、その目を閉じているものと判断する。また、人体の一般的な構造から、顔領域の重心よりも下方で右目と左目との間の垂直２等分線上の所定位置を、口領域とする。顔領域に占める口領域の割合が所定以上である場合には、口を開いているものと判定する。

一方、現在フレーム保存部１０からマクロブロック単位で読み出された画像データは、減算器１１の被減算入力に入力されると共に、動き検出部２３に供給される。動き検出部２３は、現在フレーム保存部１０から供給された画像データにおける動きベクトルを検出し、検出した動きベクトル情報をインター予測部２２とエントロピー符号化部１６とに出力する。

減算器１１は、被減算入力に入力された画像データから、後述するスイッチ２６から出力される予測画像データを減算し、画像残差データを生成する。画像残差データは、直交変換部１２でアダマール変換や整数精度ＤＣＴといった直交変換処理によりＤＣＴ係数に変換される。

このＤＣＴ係数は、量子化部１３で所定の量子化パラメータを用いて量子化される。量子化パラメータは、ＤＣＴ係数を量子化する際の量子化ステップと所定の関係を有するパラメータで、例えば量子化パラメータと量子化ステップの対数が比例するように決められる。量子化部１３から出力された量子化値は、エントロピー符号化部１６に供給される。

量子化部１３から出力された量子化値は、逆量子化部１７にも供給される。量子化値は、逆量子化部１７で逆量子化され、逆直交変換部１８で逆直交変換され、ローカルデコード画像データとされる。ローカルデコード画像データは、スイッチ２６から出力される予測画像データが加算器１９で加算され、復元画像データが形成される。復元画像データは、フレームメモリ２４に格納されると共に、デブロッキングフィルタ２０で符号化歪みを軽減されてフレームメモリからなる復元画像フレーム保存部３０に格納される。参照候補フレーム保存手段としての復元画像フレーム保存部３０は、複数フレーム分の復元画像データを格納可能とされている。

検索手段および参照フレーム決定手段としての参照フレーム決定部３１は、参照フレームとして用いるデータを選択および決定する。本発明の実施形態においては、参照フレーム決定部３１は、顔表情認識部３３における顔パーツ状態の判定結果に基づき、復元画像フレーム保存部３０に格納された復元画像データの中から、参照フレームを選択し決定することができる。

すなわち、参照フレーム決定部３１は、顔表情認識部３３における符号化対象フレームに対する顔パーツ状態の判定結果と、顔表情認識部３３に保存された顔パーツ状態の判定結果とを比較する。比較の結果、顔表情認識部３３に保存された顔パーツ状態のうち、符号化対象フレームに対する顔パーツ状態の判定結果と一致するものを検索する。そして、復元画像フレーム保存部３０に格納された復元画像フレームのうち、検索結果として得られた顔パーツ状態に対応する復元画像フレームを、参照フレームに決定し、参照フレーム保存部２１に保存する。

なお、参照フレーム決定部３１における処理は、各顔パーツのそれぞれについて行われる。つまり、各顔パーツのそれぞれについて、参照フレームを決定することができる。なお、参照フレーム決定部３１における処理の詳細は、後述する。

イントラ予測部２５は、フレームメモリ２４に格納された復元画像データを用いてフレーム内予測処理を行い、予測画像データを生成する。イントラ予測部２５から出力されたイントラ予測画像データは、スイッチ２６の入力端２６Ａに供給される。

動き検出部２３は、参照フレーム決定部３１で決定された参照フレームを用いて、現在フレーム保存部１０からマクロブロック単位で供給された画像データの動き検出を行う。インター予測部２２は、参照フレーム保存部２１に格納された復元画像データと、動き検出部２３により検出された動きベクトルとに基づきフレーム間予測処理を行い、インター予測画像データを生成する。インター予測画像データは、スイッチ２６の入力端２６Ｂに供給される。

スイッチ２６は、イントラ予測およびインター予測の何方を用いるかを選択する。イントラ予測部２５から出力されたイントラ予測画像データと、インター予測部２２から出力されたインター予測画像データとのうち一方を選択し、選択された予測画像データを減算器１１の減算入力に供給すると共に、加算器１９に供給する。

エントロピー符号化部１６は、量子化部１３から供給された量子化パラメータおよび動き検出部２３から出力された動きベクトル情報をエントロピー符号化する。また、エントロピー符号化部１６は、イントラ符号化およびインター符号化の何れを行ったかを示す情報（マクロブロックタイプ）や、インター予測の際に用いた参照フレームを、マクロブロック単位で示す情報をさらにエントロピー符号化する。エントロピー符号化部１６の出力は、例えば画面の並び順に従って符号か配列された符号化ストリームとして、符号化装置１００から出力される。

次に、参照フレーム決定部３１による参照フレーム決定処理について、より詳細に説明する。図２は、本発明の実施形態による参照フレーム決定の一例の処理を示すフローチャートである。図２の各ステップは、例えば符号化装置１００の全体を制御する図示されないＣＰＵにより実行および／または制御される。

ステップＳ１０で、顔検出部３２により、符号化対象フレームにおける顔領域が検出される。次のステップＳ１１で、顔表情認識部３３で、顔検出部３２で検出された顔領域に含まれる顔パーツを検出すると共に、検出された各顔パーツの状態を判定する。

一例として、図３（ａ）に示されるような符号化対象フレーム２００に対して顔検出を行い、検出された顔領域から左目、右目および口の各顔パーツを検出する。なお、図３（ａ）および以下の同様の図において符号化対象フレーム２００に格子で示されるブロックは、マクロブロックであるものとし、左上隅のブロックのブロック座標を（０，０）とする。

本実施形態では、各顔パーツにおける顔表情の一例として、左目、右目および口の各顔パーツについて、各々、開いている場合を状態情報「０」、閉じている場合を状態情報「１」として解析結果を保存しておくものとする。図３（ａ）の例では、符号化対象フレーム２００から検出された顔領域中の各顔パーツについて、左目２１０および右目２１１が開いており、口２１２が閉じていることが、顔表情認識部３３において判定される。したがって、図３（ｂ）に例示されるように、左目２１０および右目２１１の状態情報が「０」、口２１２の状態情報が「１」になる。

また、左目２１０がブロック座標（３，３）および（４，４）で対角座標を示される矩形領域、右目２１１がブロック座標（５，３）および（６，４）で対角座標示される矩形領域に含まれる。また、口２１２がブロック座標（４，５）、（７，５）で対角座標を示される矩形領域に含まれる。

説明は図２のフローチャートに戻り、ステップＳ１１で顔表情認識部３３において各顔パーツの状態が判定されると、処理はステップＳ１２に移行される。ステップＳ１２以下では、各顔パーツについて、参照フレームを決定するための処理が順次行われる。ここでは、顔パーツについて、左目、右目、口の順に処理を行うものとする。

ステップＳ１２では、参照フレーム決定部３１において、符号化対象フレームにおける判定対象の顔パーツの状態と、顔表情認識部３３に記憶される顔パーツの状態とが比較される。判定対象の顔パーツに対応する顔パーツは、例えば顔パーツの座標情報や、顔領域における顔パーツの位置関係などに基づき判断することが考えられる。参照フレーム決定部３１は、顔表情認識部３３に記憶されている顔パーツの状態情報のうち、符号化対象フレームに対して時間的に直近に位置するフレームに対応する顔パーツの状態情報を取得する。

なお、以下では、復元画像フレーム保存部３０に格納される復元画像フレームを参照候補フレームと呼ぶ。すなわち、参照フレーム決定部３１は、符号化対象フレームについて判定された顔パーツの状態情報と、顔表情認識部３３に記憶されている顔パーツの状態情報とを比較した結果に基づき、復元画像フレーム保存部３０から復元画像フレームを読み出す。この復元画像フレームを参照フレームとして、動き検出部２３による動き検出と、インター予測部２２におけるインター予測とを行う。

また、符号化対象フレームに対して時間的に直近とは、当該符号化対象フレームのピクチャタイプに基づき、当該符号化対象フレームが参照可能な参照候補フレームのうち、当該符号化対象フレームに時間的に最も近いことをいう。例えば、符号化対象フレームのピクチャタイプがＰピクチャであれば、参照候補フレームは、当該符号化対象フレームに時間的に最も近い位置にある過去のＰまたはＩピクチャを指す。また例えば、符号化対象フレームのピクチャタイプがＢピクチャであれば、参照候補フレームは、当該符号化対象フレームに時間的に最も近い位置にある過去のＢ、ＰまたはＩピクチャを指す。

ステップＳ１２の比較の結果に基づき、符号化対象フレームと参照候補フレームとで、対応する顔パーツの状態情報が一致するか否かがステップＳ１３で判定される。若し、一致すると判定されれば、処理はステップＳ１４に移行され、参照フレーム決定部３１は、判定対象の顔パーツについて、参照候補フレームを参照フレームに決定する。そして、処理はステップＳ１５に移行される。

一方、ステップＳ１３で、顔パーツの状態情報が符号化対象フレームと参照候補フレームとで一致しないと判定されたら、処理はステップＳ１６に移行される。ステップＳ１６では、ステップＳ１２で比較が行われた参照候補フレームが最後の参照候補フレームであるか否かが判定される。ここで、最後の参照候補フレームとは、参照候補フレームとして用いるように設定された、符号化対象フレームに対して最も時間的に遠い位置にある参照候補フレームを指す。若し、最後の参照候補フレームではないと判定されたら、処理はステップＳ１２に戻され、次に時間的に近い位置にある参照候補フレームについて、判定対象の顔パーツに対する処理が行われる。

一方、ステップＳ１６で、判定対象の顔パーツについて、最後の参照候補フレームに対する処理が終了したと判断されたら、処理はステップＳ１７に移行される。すなわち、この場合、当該判定対象の顔パーツに対して状態情報が一致する顔パーツが、参照候補フレームとして用いるように設定された全ての参照候補フレームに存在しなかったことになる。この場合、ステップＳ１７で、符号化対象フレームに対して時間的に直近に位置する参照候補フレームを参照フレームに決定する。そして、処理はステップＳ１５に移行される。

ステップＳ１５では、上述のステップＳ１１において符号化対象フレームで検出された全ての顔パーツについて判定が終了したか否かが判断される。若し、判定が終了していないと判断されたら、処理はステップＳ１２に戻され、次の顔パーツについて処理がなされる。一方、判定が終了したと判断されたら、当該符号化対象フレームに対する一連の処理が完了される。

図４〜図６を用いて、図２のフローチャートの処理について、より具体的に説明する。一例として、図４に例示されるように、符号化対象フレーム２００に対して、２枚の参照候補フレーム２０１および２０２を用いるように設定されているものとする。参照候補フレーム２０１は、符号化対象フレーム２００に対して時間的に直前のフレームであるものとする。また、参照候補フレーム２０２は、符号化対象フレーム２００に対して参照候補フレーム２０１よりも時間的に遠いフレームであるものとする。

参照候補フレーム２０１は、図５（ａ）に例示されるように、顔領域中の各顔パーツにおいて、左目２１０、右目２１１および口２１２が閉じた状態となっている。したがって、図５（ｂ）に例示されるように、左目２１０、右目２１１および口２１２の状態情報がそれぞれ「０」とされる。また、左目２１０がブロック座標（３，３）、（４，３）で対角座標を示される矩形領域、右目２１１がブロック座標（４，３）、（５，３）で対角座標を示される矩形領域に含まれる。また、口２１２がブロック座標（３，５）、（５，５）で対角座標を示される矩形領域に含まれる。

一方、参照候補フレーム２０２は、図６（ａ）に例示されるように、顔領域中の各顔パーツについて、左目２１０、右目２１１および口２１２が開いた状態となっている。したがって、図６（ｂ）に例示されるように、左目２１０、右目２１１および口２１２の状態情報がそれぞれ「１」とされる。また、左目２１０がブロック座標（２，３）、（３，４）で対角座標を示される矩形領域、右目２１１がブロック座標（４，３）、（５，３）で対角座標を示される矩形領域に含まれる。また、口２１２がブロック座標（３，５）、（５，５）で対角座標を示される矩形領域に含まれる。

判定対象の顔パーツが左目２１０である場合を例に挙げて説明する。符号化対象フレーム２００において、左目２１０が開いており状態情報は「１」である（図３（ａ）および図３（ｂ）参照）。これに対して、符号化対象フレーム２００に対して時間的に直前の参照候補フレーム２０１の左目２１０は閉じており、状態情報は「０」である（図５（ａ）および図５（ｂ）参照）。したがって、上述のステップＳ１２の比較の結果、両者の状態情報が一致しないと判定される（ステップＳ１３）。そのため、参照フレーム決定部３１は、左目２１０について、参照候補フレーム２０１を参照フレームとすることを保留し、処理がステップＳ１６に移行される。

ステップＳ１６では、参照候補フレーム２０１が最後の参照候補フレームではないと判定される。そして、処理がステップＳ１６からステップＳ１２に戻され、次の参照候補フレームである参照候補フレーム２０２について、左目２１０の状態情報が符号化対象フレーム２００と比較される。参照候補フレーム２０２の左目２１０は開いており、状態情報は「１」である（図６（ａ）および図６（ｂ）参照）。したがって、上述のステップＳ１２の比較の結果、両者の状態情報が一致すると判定され（ステップＳ１３）、参照候補フレーム２０２が符号化対象フレーム２００の参照フレームに決定される（ステップＳ１４）。

このように、本発明の実施形態では、顔の表情が符号化対象フレームに近い参照候補フレームを、参照フレームとして決定することが可能になる。そのため、動きベクトル検出の際に参照できる参照フレーム数が制限される符号化装置においても、高い符号化効率を実現することが可能になる。

また、顔の表情が符号化対象フレームに近い参照候補フレームが存在しない場合には、符号化対象フレームとの変化が最も少ないと考えられる、符号化対象フレームに対して時間的に最も近い参照候補フレームを参照フレームとして決定することができる。これにより、顔の表情が符号化対象フレームに近い参照候補フレームが存在しない場合でも、符号化時の画質の劣化を抑えられる可能性が大きくなる。

なお、上述したように、本実施形態では、顔パーツとしての左目、右目および口の状態を、開いているか閉じているかの２状態に分類しているが、これはこの例に限定されない。例えば、左目、右目および口の開き具合によってさらに状態数を増やしてもよい。これにより、符号化対象フレームと参照候補フレームとの間での顔パーツ状態の比較を、より詳細に行うことができる。

この場合、符号化対象フレームと参照候補フレームとの間で顔パーツ状態が必ずしも一致しなくても、符号化対象フレームに対して顔パーツ状態が所定以上近い参照候補フレームを、参照フレームとして決定するようにしてもよい。符号化対象フレームに対して顔パーツ状態が所定以上近い参照候補フレームが存在しない場合には、符号化対象フレームに対して時間的に直近の参照候補フレームが参照フレームとして決定される。

また、本実施形態では、顔パーツを左目、右目および口とし、この３つの顔パーツについて、状態が一致しているか否かを判定しているが、これはこの例に限定されない。例えば、顔パーツとして、鼻、眉など顔の他の部分をさらに用いて状態一致の判定を行うことも考えられる。鼻の位置は、左目、右目および口の位置関係と、左目および右目と口との間の２つのホールや影の位置に基づき特定することが考えられる。眉の位置は、左目および右目の位置から特定可能である。

なお、上述の図２のフローチャートでは、顔パーツ毎に参照候補フレームの決定処理を行っているが、これはこの例に限定されない。例えば、参照候補フレーム毎に各顔パーツの判定を行うようにしてもよい。より具体的には、先ず、符号化対象フレームに対して時間的に直近の参照候補フレームについて、各顔パーツに対する判定処理を行う。全ての顔パーツについて参照フレームが決定しなければ、符号化対象フレームに対して時間的に次に近い参照候補フレームについて、参照フレームが決定していない顔パーツに対して判定処理を行う。この処理を、各顔パーツ全てに参照フレームが決定するまで繰り返す。

＜他の実施形態＞
上述の実施形態は、システムまたは装置のコンピュータ（あるいはＣＰＵ、ＭＰＵなど）によりソフトウェア的に実現することも可能である。

従って、上述の実施形態をコンピュータで実現するために、該コンピュータに供給されるコンピュータプログラム自体も本発明を実現するものである。つまり、上述の実施形態の機能を実現するためのコンピュータプログラム自体も本発明の一つである。

なお、上述の実施形態を実現するためのコンピュータプログラムは、コンピュータで読み取り可能であれば、どのような形態であってもよい。例えば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等で構成することができるが、これらに限るものではない。

上述の実施形態を実現するためのコンピュータプログラムは、記憶媒体又は有線／無線通信によりコンピュータに供給される。プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、磁気テープ等の磁気記憶媒体、ＭＯ、ＣＤ、ＤＶＤ等の光／光磁気記憶媒体、不揮発性の半導体メモリなどがある。

有線／無線通信を用いたコンピュータプログラムの供給方法としては、コンピュータネットワーク上のサーバを利用する方法がある。この場合、本発明を形成するコンピュータプログラムとなりうるデータファイル（プログラムファイル）をサーバに記憶しておく。プログラムファイルとしては、実行形式のものであっても、ソースコードであっても良い。

そして、このサーバにアクセスしたクライアントコンピュータに、プログラムファイルをダウンロードすることによって供給する。この場合、プログラムファイルを複数のセグメントファイルに分割し、セグメントファイルを異なるサーバに分散して配置することも可能である。

つまり、上述の実施形態を実現するためのプログラムファイルをクライアントコンピュータに提供するサーバ装置も本発明の一つである。

また、上述の実施形態を実現するためのコンピュータプログラムを暗号化して格納した記憶媒体を配布し、所定の条件を満たしたユーザに、暗号化を解く鍵情報を供給し、ユーザの有するコンピュータへのインストールを許可してもよい。鍵情報は、例えばインターネットを介してホームページからダウンロードさせることによって供給することができる。

また、上述の実施形態を実現するためのコンピュータプログラムは、既にコンピュータ上で稼働するＯＳの機能を利用するものであってもよい。

さらに、上述の実施形態を実現するためのコンピュータプログラムは、その一部をコンピュータに装着される拡張ボードなどのファームウェアで構成してもよいし、拡張ボードなどが備えるＣＰＵで実行するようにしてもよい。

本発明の実施形態による符号化装置の一例の構成を示すブロック図である。本発明の実施形態による参照フレーム決定の一例の処理を示すフローチャートである。符号化対象フレームの顔パーツ状態を説明するための図である。符号化対象フレームと参照候補フレームとを説明するための図である。参照候補フレームの顔パーツ状態を説明するための図である。参照候補フレームの顔パーツ状態を説明するための図である。

符号の説明

１０現在フレーム保存部
２１参照フレーム保存部
２２インター予測部
２３動き検出部
３０復元画像保存部
３１参照フレーム保存部
３２顔検出部
３３顔表情認識部
１００符号化装置
２００符号化対象フレーム
２０１，２０２参照候補フレーム

Claims

符号化対象の画像フレームを分割したブロック単位で参照フレームに対してなされた動き検出の結果を用いて動き補償フレーム間予測符号化を行い、該参照フレームを複数の参照フレームの候補から選択可能な動画像符号化装置であって、
入力された画像フレームを一時的に保存する入力画像フレーム保存手段と、
前記入力画像フレーム保存手段に保存された前記画像フレームに基づき生成した参照候補フレームの複数を保存する参照候補フレーム保存手段と、
前記入力画像フレーム保存手段から出力された画像フレームから顔領域を検出して該顔領域に含まれる顔パーツをさらに検出し、該顔パーツの状態を判定する判定手段と、
前記判定手段に判定された前記顔パーツの前記状態を、該顔パーツが含まれる前記画像フレームを示す情報に関連付けて保存する顔パーツ情報保存手段と、
符号化対象フレームが参照可能な画像フレームのうち、前記判定手段により判定された前記符号化対象フレームの前記顔パーツの状態と一致する顔パーツの状態に関連づけられた画像フレームを示す情報を前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報の中から検索する検索手段と、
前記参照候補フレーム保存手段に保存された前記複数の参照候補フレームのうち、前記検索手段で検索された前記画像フレームを示す情報に対応する該参照候補フレームを、前記符号化対象フレームの前記顔パーツに対応する前記ブロックの前記参照フレームに決定する参照フレーム決定手段と
を有し、
前記参照フレーム決定手段で決定された前記参照フレームを用いて前記符号化対象フレームに対する動き補償フレーム間予測符号化を行う
ことを特徴とする動画像符号化装置。
前記判定手段は、前記顔領域に含まれる目または口のうち少なくとも一方を顔パーツとして検出する
ことを特徴とする請求項１に記載の動画像符号化装置。
前記判定手段は、前記顔パーツの状態として前記目または口の開き具合を判定する
ことを特徴とする請求項２に記載の動画像符号化装置。
前記判定手段は、前記顔パーツの状態として前記目または口が開いているか閉じているかを判定する
ことを特徴とする請求項２または請求項３に記載の動画像符号化装置。
前記検索手段は、前記入力画像フレーム保存手段から出力された１の前記符号化対象フレームについて、該符号化対象フレームから前記判定手段で検出され判定された前記顔パーツ毎に前記検索を行い、
前記参照フレーム決定手段は、前記検索手段で前記顔パーツ毎に検索された前記画像フレームを示す情報それぞれについて、対応する前記参照候補フレームを決定する
ことを特徴とする請求項１乃至請求項４の何れか１項に記載の動画像符号化装置。
前記検索手段は、前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報のうち、前記符号化対象フレームに対して時間的に近い方から順に、前記画像フレームを示す情報を検索する
ことを特徴とする請求項１乃至請求項５の何れか１項に記載の動画像符号化装置。
前記検索手段は、前記顔パーツの状態が一致する前記画像フレームを示す情報が検索されなかったら、前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報のうち、前記符号化対象フレームが参照可能で、且つ、該画像フレームに対して時間的に最も近い前記画像フレームを示す情報を検索結果とする
ことを特徴とする請求項１乃至請求項６の何れか１項に記載の動画像符号化装置。
前記検索手段は、前記顔パーツの状態が一致する前記画像フレームを示す情報が検索されなかったら、前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報のうち、前記符号化対象フレームが参照可能で、且つ、該顔パーツの状態が最も近い前記画像フレームを示す情報を検索結果とする
ことを特徴とする請求項１乃至請求項６の何れか１項に記載の動画像符号化装置。
前記入力画像フレーム保存手段から前記画像フレームを分割したブロック単位で読み出した画像データの参照フレームに対する動き検出を行う動き検出手段と、
前記動き検出手段による前記動き検出の結果に基づき、前記ブロック単位の前記画像データに対して動き補償フレーム間予測を行う動き補償手段と
をさらに有し、
前記参照候補フレームは、
前記入力画像フレーム保存手段から前記ブロック単位で読み出した画像データに対して前記動き補償手段で動き補償フレーム間予測された画像データに基づき生成される
ことを特徴とする請求項１乃至請求項８の何れか１項に記載の動画像符号化装置。
符号化対象の画像フレームを分割したブロック単位で参照フレームに対してなされた動き検出の結果を用いて動き補償フレーム間予測符号化を行い、該参照フレームを複数の参照フレームの候補から選択可能な動画像符号化装置における動画像符号化方法であって、
前記動画像符号化装置の制御手段が、入力された画像フレームを入力画像フレーム保存手段に一時的に保存する入力画像フレーム保存ステップと、
前記制御手段が、前記入力画像フレーム保存手段に保存された前記画像フレームに基づき生成した参照候補フレームの複数を参照候補フレーム保存手段に保存する参照候補フレーム保存ステップと、
前記動画像符号化装置の判定手段が、前記入力画像フレーム保存手段から出力された画像フレームから顔領域を検出して該顔領域に含まれる顔パーツをさらに検出し、該顔パーツの状態を判定する判定ステップと、
前記制御手段が、前記判定ステップに判定された前記顔パーツの前記状態を、該顔パーツが含まれる前記画像フレームを示す情報に関連付けて顔パーツ情報保存手段に保存する顔パーツ情報保存ステップと、
前記動画像符号化装置の検索手段が、符号化対象フレームが参照可能な画像フレームのうち、前記判定ステップにより判定された前記符号化対象フレームの前記顔パーツの状態と一致する顔パーツの状態に関連づけられた画像フレームを示す情報を前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報の中から検索する検索ステップと、
前記動画像符号化装置の参照フレーム決定手段が、前記参照候補フレーム保存手段に保存された前記複数の参照候補フレームのうち、前記検索ステップで検索された前記画像フレームを示す情報に対応する該参照候補フレームを、前記符号化対象フレームの前記顔パーツに対応する前記ブロックの前記参照フレームに決定する参照フレーム決定ステップとを有し、
前記制御手段が、前記参照フレーム決定ステップで決定された前記参照フレームを用いて前記符号化対象フレームに対する動き補償フレーム間予測符号化を行う
ことを特徴とする動画像符号化方法。
コンピュータを請求項１乃至請求項９の何れか１項に記載の動画像符号化装置の各手段として機能させるプログラム。