JP5274181B2 - 動画像符号化装置および動画像符号化方法 - Google Patents

動画像符号化装置および動画像符号化方法 Download PDF

Info

Publication number
JP5274181B2
JP5274181B2 JP2008246595A JP2008246595A JP5274181B2 JP 5274181 B2 JP5274181 B2 JP 5274181B2 JP 2008246595 A JP2008246595 A JP 2008246595A JP 2008246595 A JP2008246595 A JP 2008246595A JP 5274181 B2 JP5274181 B2 JP 5274181B2
Authority
JP
Japan
Prior art keywords
frame
face part
image
image frame
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008246595A
Other languages
English (en)
Other versions
JP2010081241A5 (ja
JP2010081241A (ja
Inventor
大輔 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008246595A priority Critical patent/JP5274181B2/ja
Publication of JP2010081241A publication Critical patent/JP2010081241A/ja
Publication of JP2010081241A5 publication Critical patent/JP2010081241A5/ja
Application granted granted Critical
Publication of JP5274181B2 publication Critical patent/JP5274181B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、動画像符号化装置および動画像符号化方法に関し、特には、動き補償によるフレーム間予測を用いて動画像データを符号化する動画像符号化装置および動画像符号化方法に関する。
近年では、動画像データの高解像度化が進み、従来から用いられる720画素×480画素の映像に対して、例えば地上デジタル放送では、フルハイビジョン映像と呼ばれる1920画素×1080画素の映像が用いられることが多くなっている。このような高解像度の動画像データは、単位時間当たりに伝送されるデータ量も膨大なものになるため、従来の技術に対してより高能率な圧縮符号化技術が求められている。
これらの要求に対し、ITU−T SG16やISO/IEC JTC1/SC29/WG11の活動で、画像間の相関を利用したフレーム間予測を用いた符号化圧縮方式の標準化作業が進められている。この中でも、現状で最も高能率な符号化を実現しているといわれる符号化方式に、H.264/MPEG−4 PART10(AVC)(以下、H.264と呼ぶ)がある。H.264の符号化および復号化の仕様については、例えば特許文献1などに記載されている。
このH.264で新たに導入された技術の一つとして、フレーム間予測に用いる参照画像を、複数の画像の中から選択する技術がある(以下、複数参照フレーム間予測と呼ぶ)。H.264方式では、従来から用いられるMPEG−1、MPEG−2方式に対し、直交変換処理をアダマール変換および整数精度DCTを用いて行うことにより誤差の蓄積を抑制する。それと共に、フレーム内予測符号化および動き補償を用いたフレーム間予測符号化とを行い、より精度の高い予測符号化を実現している。
従来のMPEG−1方式やMPEG−2方式などの符号化方式(以下、MPEG符号化方式と呼ぶ)では、動き予測を行う場合、順方向予測および逆方向予測を用いることができる。ここで、順方向予測とは、時間的に前に位置する画像フレームから時間的に後に位置する画像フレームを予測する予測方式をいう。また、逆方向予測とは、時間的に後に位置する画像フレームから時間的に前に位置する画像フレームを予測する予測方式をいう。逆方向予測では、現在の画像フレームに基づいて、それ以前の符号化をスキップした画像フレームを予測することができる。逆方向予測は、順方向予測と共に用いられ(双方向予測と呼ばれる)、符号化対象の画像フレームに対してより高い圧縮率を実現する。
なお、MPEG符号化方式において、順方向予測により符号化された画像フレームをPピクチャ、双方向予測により符号化された画像フレームをBピクチャと呼ぶ。また、フレーム間予測を用いず、その画像フレームだけで符号化が完結する画像ピクチャをIピクチャと呼ぶ。
このMPEG符号化方式における順方向予測および両方向予測では、処理対象となる画像フレームに対して、動き予測を行う際に参照する参照フレームが予め決められている。一例として、1枚のIピクチャ、4枚のPピクチャおよび10枚のBピクチャからなるGOP単位で符号化がなされる場合、添字を画像フレームの入力(表示)順とすると、各ピクチャの符号化順は、下記のようになる。
121011151314
この場合、Pピクチャは、Iピクチャを参照フレームとして予測符号化され、BおよびBピクチャは、IピクチャおよびPピクチャを参照フレームとして予測符号化される。同様に、Pピクチャは、Pピクチャを参照フレームとして予測符号化され、BおよびBピクチャは、PおよびPピクチャを参照フレームとして予測符号化される。
このMPEG符号化方式における順方向予測および逆方向予測では、処理対象となる画像フレームに対して、時間的に近傍に位置する画像フレームを、動き予測を行う際に参照する参照フレームとして用いることが多い。例えば、上述のように、Pピクチャは、直前のIピクチャまたはPピクチャを参照フレームとして予測符号化がなされる。また、Bピクチャは、直前および直後のIピクチャおよびPピクチャ、若しくは、直前および直後のPピクチャを参照フレームとして、予測符号化がなされる。これは、処理対象となる画像フレームと時間的に近傍に位置する画像フレームとにおいて、画像の相関が、多くの場合において高いためである。
しかし、これらのMPEG符号化方式では、画像フレーム間で画像の急激な変化があった場合、動き補償を用いたフレーム間予測の利点が活用できない可能性がある。これは、画像の急激な変化があると、時間的に近傍に位置する画像フレームであっても、符号化対象の画像フレームの画像との相関が低くなるからである。例えば、人物の表情を捉えた動画像の撮影時において、被写体となる人物が目を瞬いた場合や笑うなどして突然大きく口を開けた場合、短時間で画像が変化し、動き補償を用いたフレーム間予測の利点が活用できず、圧縮効率が低下する可能性がある。
上述のH.264では、1つの符号化対象の画像フレームに対して複数の参照フレームを用いてフレーム間予測を行う、複数参照フレーム間予測を導入して、この問題に対応している。この複数参照フレーム間予測によれば、処理対象となる画像フレームに対して、参照フレームをブロック毎に柔軟に選択できる。例えば、Pピクチャであれば、最大で15枚のPピクチャまで遡り、動き補償ブロック毎に最適なピクチャを選択して参照フレームとして利用できる。
このように、H.264では、入力された画像と、既に符号化された画像との誤差が最小となる画像を、複数の画像の中から選択して参照フレームとして利用することで、動き補償を用いたフレーム間予測を行うことができる。これにより、動画像データを圧縮符号化するときに、上述したような、符号化対象の画像フレームと、当該画像フレームに対して時間的に近い位置の参照フレームとの画像間の相関が低い場合でも、効率的な符号化が可能となる。
特開2005−167720号公報
しかしながら、既に符号化された複数の画像フレームについて、入力画像フレームとの誤差が最小となる画像フレームをブロック毎に選択する演算を常に行うと、参照する画像フレーム数に比例して演算量が増大してしまう。その結果、符号化に要する時間が膨大になってしまうという問題点があった。これは特に、デジタルビデオカメラなど、撮影に対してリアルタイムに符号化が行われることが必要とされる機器においては、演算が間に合わなくなるおそれがある。
また、デジタルビデオカメラなどの、携帯用に設計された機器の場合には、演算負荷の増大は、駆動するバッテリ消費量の増大に結びつくため、撮影時間に対する影響が無視できなくなってしまうという問題点があった。
このように、従来では、複数参照フレーム間予測を用いる場合において、動き補償を用いたフレーム間予測を少ない演算量で、且つ、効率的に実行することが困難であった。
本発明は、特に人物の顔を含む動画像データを複数参照フレーム間予測を用いて符号化する場合において、動き補償を用いたフレーム間予測を少ない演算量で、且つ、効率的に実行できる動画像符号化装置および動画像符号化方法を提供することにある。
本発明は、上述した課題を解決するために、符号化対象の画像フレームを分割したブロック単位で参照フレームに対してなされた動き検出の結果を用いて動き補償フレーム間予測符号化を行い、該参照フレームを複数の参照フレームの候補から選択可能な動画像符号化装置であって、入力された画像フレームを一時的に保存する入力画像フレーム保存手段と、前記入力画像フレーム保存手段に保存された前記画像フレームに基づき生成した参照候補フレームの複数を保存する参照候補フレーム保存手段と、前記入力画像フレーム保存手段から出力された画像フレームから顔領域を検出して該顔領域に含まれる顔パーツをさらに検出し、該顔パーツの状態を判定する判定手段と、前記判定手段に判定された前記顔パーツの前記状態を、該顔パーツが含まれる前記画像フレームを示す情報に関連付けて保存する顔パーツ情報保存手段と、符号化対象フレームが参照可能な画像フレームのうち、前記判定手段により判定された前記符号化対象フレームの前記顔パーツの状態と一致する顔パーツの状態に関連づけられた画像フレームを示す情報を前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報の中から検索する検索手段と、前記参照候補フレーム保存手段に保存された前記複数の参照候補フレームのうち、前記検索手段で検索された前記画像フレームを示す情報に対応する該参照候補フレームを、前記符号化対象フレームの前記顔パーツに対応する前記ブロックの前記参照フレームに決定する参照フレーム決定手段とを有し、前記参照フレーム決定手段で決定された前記参照フレームを用いて前記符号化対象フレームに対する動き補償フレーム間予測符号化を行うことを特徴とする動画像符号化装置である。
また、本発明は、符号化対象の画像フレームを分割したブロック単位で参照フレームに対してなされた動き検出の結果を用いて動き補償フレーム間予測符号化を行い、該参照フレームを複数の参照フレームの候補から選択可能な動画像符号化装置における動画像符号化方法であって、前記動画像符号化装置の制御手段が、入力された画像フレームを入力画像フレーム保存手段に一時的に保存する入力画像フレーム保存ステップと、前記制御手段が、前記入力画像フレーム保存手段に保存された前記画像フレームに基づき生成した参照候補フレームの複数を参照候補フレーム保存手段に保存する参照候補フレーム保存ステップと、前記動画像符号化装置の判定手段が、前記入力画像フレーム保存手段から出力された画像フレームから顔領域を検出して該顔領域に含まれる顔パーツをさらに検出し、該顔パーツの状態を判定する判定ステップと、前記制御手段が、前記判定ステップに判定された前記顔パーツの前記状態を、該顔パーツが含まれる前記画像フレームを示す情報に関連付けて顔パーツ情報保存手段に保存する顔パーツ情報保存ステップと、前記動画像符号化装置の検索手段が、符号化対象フレームが参照可能な画像フレームのうち、前記判定ステップにより判定された前記符号化対象フレームの前記顔パーツの状態と一致する顔パーツの状態に関連づけられた画像フレームを示す情報を前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報の中から検索する検索ステップと、前記動画像符号化装置の参照フレーム決定手段が、前記参照候補フレーム保存手段に保存された前記複数の参照候補フレームのうち、前記検索ステップで検索された前記画像フレームを示す情報に対応する該参照候補フレームを、前記符号化対象フレームの前記顔パーツに対応する前記ブロックの前記参照フレームに決定する参照フレーム決定ステップとを有し、前記制御手段が、前記参照フレーム決定ステップで決定された前記参照フレームを用いて前記符号化対象フレームに対する動き補償フレーム間予測符号化を行うことを特徴とする動画像符号化方法である。
本発明は、上述した構成を有するため、特に人物の顔を含む動画像データを複数参照フレーム間予測を用いて符号化する場合において、動き補償を用いたフレーム間予測を少ない演算量で、且つ、効率的に実行できる。
以下、本発明の実施形態について説明する。本発明に適用される動画像符号化装置では、符号化対象の画像フレームを分割したブロック単位で参照フレームに対してなされた動き検出の結果を用いて動き補償フレーム間予測符号化を行う。このとき、参照フレームは、複数の参照フレームの候補から選択可能とされている。
このような動画像符号化装置において、本発明では、動画像データの画像フレームに対して顔検出を行い、検出された顔から、さらに目、鼻、口などの顔パーツを検出し、検出された顔パーツのそれぞれについて状態を判定する。顔パーツの状態の判定結果は、顔検出を行った画像フレームを示す情報と関連付けて保存する。そして、符号化対象の画像フレームから検出された顔パーツの状態を、保存された顔パーツの状態と比較し、一致する顔パーツの状態に対応する画像フレーム検索し、当該顔パーツの参照フレームとして用いるようにする。そして、顔パーツのそれぞれを、各顔パーツについて検索された参照フレームを用いて、動き補償ブロック単位で動き補償フレーム間予測符号化を行う。
これにより、動画像の被写体である顔の各顔パーツが急に動くような場合でも、各顔パーツそれぞれに対して最適な予測符号化を行うことができる。また、参照フレームの検索を、符号化対象の画像フレームに対する顔パーツの検出が行われた際に保存した顔パーツの状態を用いて行うようにしている。そのため、動き補償を用いたフレーム間予測符号化を少ない演算量で、且つ、効率的に実行することが可能となる。
図1は、本発明の実施形態による符号化装置100の一例の構成を示す。符号化装置100は、供給されたベースバンドの動画像データに対し、1画面を所定サイズに分割したブロック単位で動き検出を行い、動き補償を用いたフレーム間予測符号化を行う。符号化は、アダマール変換および整数精度DCTを用いた直交変換および変換係数に対する量子化と、フレーム内予測符号化および動き補償を用いたフレーム間予測符号化とを用い、さらにエントロピー符号化を施すことで行う。
以下では、アダマール変換および整数精度DCTを用いた直交変換を整数変換と呼び、フレーム内予測符号化およびフレーム間予測符号化をそれぞれイントラ符号化、インター符号化と呼ぶ。
インター符号化により、動き補償の単位となる動き補償ブロックに対して時間的に前に位置する参照フレームとの予測を行うPピクチャが形成される。また、インター符号化により、動き補償ブロックに対して時系列的に前および/または後の2枚までの参照フレームとの予測を行うBピクチャも形成される。さらに、イントラ符号化によりIピクチャが形成される。このように、インター符号化およびイントラ符号化により、時間的な参照関係が異なる複数のタイプのピクチャが形成される。さらに、フレーム間予測符号化では、動画像データを、これらIピクチャ、PピクチャおよびBピクチャが所定に配列されたGOP構造を持つデータとして符号化する。
例えば、符号化装置100が1枚のIピクチャ、4枚のPピクチャおよび10枚のBピクチャからなる15フレームで1GOPを形成する場合、符号化装置100に入力されるフレームに対し、下記の順にピクチャタイプが割り当てられる。なお、添字は、入力順または表示順を示す。
101112131415
ここで、Bピクチャは、時系列的に過去のピクチャと未来のピクチャとを用いて予測符号化を行うことができるため、符号化は、Bピクチャの順序をIピクチャおよびPピクチャに対して入れ替えて、例えば下記の順序で行われる。なお、Iピクチャに続くBピクチャおよびBピクチャは、Iピクチャと、直前のGOPにおけるP15ピクチャとを用いて予測符号化される。
121011151314
この符号化装置100は、図示されないCPUにより、所定のプログラムに従って制御される。CPUは、符号化装置100を専用に制御するものでもよいし、この符号化装置100が組み込まれるより上位のシステムを制御するものでもよい。CPUは、図示されないROMおよびRAMを有し、ROMに予め格納されたプログラムに従いRAMをワークメモリとして動作し、符号化装置100の各部を制御する。
符号化装置100に対して、ベースバンドの動画像データ50が画像フレーム単位で、上述した入力順で入力され、入力画像フレーム保存手段としての、フレームメモリからなる現在フレーム保存部10に一時的に保存される。現在フレーム保存部10に保存された画像フレームは、上述した符号化順に並び替えられ、符号化のために、所定サイズ(例えば16画素×16画素)のマクロブロックに分割されて読み出される。マクロブロックは、例えば画面の左端から右端に水平方向にスキャンされ、それが垂直方向に繰り返されて読み出される。また、マクロブロックに対して、例えばスキャンの順序に従って画像フレーム内における座標情報が定義される。
さらに、現在フレーム保存部10から、動画像データ50の、マクロブロック単位で読み出された画像データに対応する画像フレームが読み出され、顔検出部32に供給される。なお、現在フレーム保存部10から符号化のためにマクロブロック単位で読み出された画像データに対応する画像フレームを、以下、符号化対象フレームと呼ぶ。
顔検出部32は、現在フレーム保存部10から供給された符号化対象フレームに対して、人間の顔が含まれる顔領域の検出を行う。顔検出部32で検出された顔領域を示す情報は、顔検出を行った符号化対象フレームを示す識別情報と共に、顔表情認識部33に供給される。顔表情認識部33は、顔検出部32から供給された顔領域を示す情報に基づき、顔に含まれる各パーツ(以下、顔パーツと呼ぶ)の状態を判定する。ここでは、顔パーツを、顔の中でも動きが頻繁に発生すると考えられる部分であるものとする。顔の中のこのような部分としては、例えば左目、右目および口が挙げられる。例えば、顔表情認識部33は、これら左目、右目および口のうち少なくとも1つの状態を判定する。顔検出部32および顔表情認識部33は、判定手段を構成する。
各顔パーツ状態の判定結果は、対応する顔パーツが含まれるマクロブロックの座標情報および符号化対象フレームの識別情報と関連付けられて、顔表情認識部33が有する図示されないメモリに対して、蓄積的に記憶される。顔表情認識部33は、顔パーツ情報保存手段も構成する。顔表情認識部33における処理の詳細は、後述する。
なお、顔検出部32による顔領域の検出方法は、様々に考えられるが、例えば、特開2001−309225号公報に記載される方法を用いることができる。これは、先ず、画像データに対して、色および形状に基いて肌を含む可能性が高いと思われる中央部と、色および形状に基いて毛髪を含む可能性が高いと思われる周辺領域とを探す。その結果に基づき、第1の顔候補検出アルゴリズムにより、パターン認識オペレータを用いて顔を含む可能性の高い領域を探す。そして、第1のアルゴリズムで求められた顔候補領域中の顔の存在を、パターンマッチにより確かめる第2のアルゴリズムとを併用して顔を検出する。
また、顔表情認識部33による、顔領域の各顔パーツの状態情報を解析する方法としては、次のような方法が考えられる。先ず、顔の肌色領域を「0」、顔の肌色領域以外を「1」として2値化する。そして、顔の肌色領域から顔の重心を検出し、その重心の斜め上方にあるホールの位置を目領域と決定する。なお、ホールが検出できない場合は、その目を閉じているものと判断する。また、人体の一般的な構造から、顔領域の重心よりも下方で右目と左目との間の垂直2等分線上の所定位置を、口領域とする。顔領域に占める口領域の割合が所定以上である場合には、口を開いているものと判定する。
一方、現在フレーム保存部10からマクロブロック単位で読み出された画像データは、減算器11の被減算入力に入力されると共に、動き検出部23に供給される。動き検出部23は、現在フレーム保存部10から供給された画像データにおける動きベクトルを検出し、検出した動きベクトル情報をインター予測部22とエントロピー符号化部16とに出力する。
減算器11は、被減算入力に入力された画像データから、後述するスイッチ26から出力される予測画像データを減算し、画像残差データを生成する。画像残差データは、直交変換部12でアダマール変換や整数精度DCTといった直交変換処理によりDCT係数に変換される。
このDCT係数は、量子化部13で所定の量子化パラメータを用いて量子化される。量子化パラメータは、DCT係数を量子化する際の量子化ステップと所定の関係を有するパラメータで、例えば量子化パラメータと量子化ステップの対数が比例するように決められる。量子化部13から出力された量子化値は、エントロピー符号化部16に供給される。
量子化部13から出力された量子化値は、逆量子化部17にも供給される。量子化値は、逆量子化部17で逆量子化され、逆直交変換部18で逆直交変換され、ローカルデコード画像データとされる。ローカルデコード画像データは、スイッチ26から出力される予測画像データが加算器19で加算され、復元画像データが形成される。復元画像データは、フレームメモリ24に格納されると共に、デブロッキングフィルタ20で符号化歪みを軽減されてフレームメモリからなる復元画像フレーム保存部30に格納される。参照候補フレーム保存手段としての復元画像フレーム保存部30は、複数フレーム分の復元画像データを格納可能とされている。
検索手段および参照フレーム決定手段としての参照フレーム決定部31は、参照フレームとして用いるデータを選択および決定する。本発明の実施形態においては、参照フレーム決定部31は、顔表情認識部33における顔パーツ状態の判定結果に基づき、復元画像フレーム保存部30に格納された復元画像データの中から、参照フレームを選択し決定することができる。
すなわち、参照フレーム決定部31は、顔表情認識部33における符号化対象フレームに対する顔パーツ状態の判定結果と、顔表情認識部33に保存された顔パーツ状態の判定結果とを比較する。比較の結果、顔表情認識部33に保存された顔パーツ状態のうち、符号化対象フレームに対する顔パーツ状態の判定結果と一致するものを検索する。そして、復元画像フレーム保存部30に格納された復元画像フレームのうち、検索結果として得られた顔パーツ状態に対応する復元画像フレームを、参照フレームに決定し、参照フレーム保存部21に保存する。
なお、参照フレーム決定部31における処理は、各顔パーツのそれぞれについて行われる。つまり、各顔パーツのそれぞれについて、参照フレームを決定することができる。なお、参照フレーム決定部31における処理の詳細は、後述する。
イントラ予測部25は、フレームメモリ24に格納された復元画像データを用いてフレーム内予測処理を行い、予測画像データを生成する。イントラ予測部25から出力されたイントラ予測画像データは、スイッチ26の入力端26Aに供給される。
動き検出部23は、参照フレーム決定部31で決定された参照フレームを用いて、現在フレーム保存部10からマクロブロック単位で供給された画像データの動き検出を行う。インター予測部22は、参照フレーム保存部21に格納された復元画像データと、動き検出部23により検出された動きベクトルとに基づきフレーム間予測処理を行い、インター予測画像データを生成する。インター予測画像データは、スイッチ26の入力端26Bに供給される。
スイッチ26は、イントラ予測およびインター予測の何方を用いるかを選択する。イントラ予測部25から出力されたイントラ予測画像データと、インター予測部22から出力されたインター予測画像データとのうち一方を選択し、選択された予測画像データを減算器11の減算入力に供給すると共に、加算器19に供給する。
エントロピー符号化部16は、量子化部13から供給された量子化パラメータおよび動き検出部23から出力された動きベクトル情報をエントロピー符号化する。また、エントロピー符号化部16は、イントラ符号化およびインター符号化の何れを行ったかを示す情報(マクロブロックタイプ)や、インター予測の際に用いた参照フレームを、マクロブロック単位で示す情報をさらにエントロピー符号化する。エントロピー符号化部16の出力は、例えば画面の並び順に従って符号か配列された符号化ストリームとして、符号化装置100から出力される。
次に、参照フレーム決定部31による参照フレーム決定処理について、より詳細に説明する。図2は、本発明の実施形態による参照フレーム決定の一例の処理を示すフローチャートである。図2の各ステップは、例えば符号化装置100の全体を制御する図示されないCPUにより実行および/または制御される。
ステップS10で、顔検出部32により、符号化対象フレームにおける顔領域が検出される。次のステップS11で、顔表情認識部33で、顔検出部32で検出された顔領域に含まれる顔パーツを検出すると共に、検出された各顔パーツの状態を判定する。
一例として、図3(a)に示されるような符号化対象フレーム200に対して顔検出を行い、検出された顔領域から左目、右目および口の各顔パーツを検出する。なお、図3(a)および以下の同様の図において符号化対象フレーム200に格子で示されるブロックは、マクロブロックであるものとし、左上隅のブロックのブロック座標を(0,0)とする。
本実施形態では、各顔パーツにおける顔表情の一例として、左目、右目および口の各顔パーツについて、各々、開いている場合を状態情報「0」、閉じている場合を状態情報「1」として解析結果を保存しておくものとする。図3(a)の例では、符号化対象フレーム200から検出された顔領域中の各顔パーツについて、左目210および右目211が開いており、口212が閉じていることが、顔表情認識部33において判定される。したがって、図3(b)に例示されるように、左目210および右目211の状態情報が「0」、口212の状態情報が「1」になる。
また、左目210がブロック座標(3,3)および(4,4)で対角座標を示される矩形領域、右目211がブロック座標(5,3)および(6,4)で対角座標示される矩形領域に含まれる。また、口212がブロック座標(4,5)、(7,5)で対角座標を示される矩形領域に含まれる。
説明は図2のフローチャートに戻り、ステップS11で顔表情認識部33において各顔パーツの状態が判定されると、処理はステップS12に移行される。ステップS12以下では、各顔パーツについて、参照フレームを決定するための処理が順次行われる。ここでは、顔パーツについて、左目、右目、口の順に処理を行うものとする。
ステップS12では、参照フレーム決定部31において、符号化対象フレームにおける判定対象の顔パーツの状態と、顔表情認識部33に記憶される顔パーツの状態とが比較される。判定対象の顔パーツに対応する顔パーツは、例えば顔パーツの座標情報や、顔領域における顔パーツの位置関係などに基づき判断することが考えられる。参照フレーム決定部31は、顔表情認識部33に記憶されている顔パーツの状態情報のうち、符号化対象フレームに対して時間的に直近に位置するフレームに対応する顔パーツの状態情報を取得する。
なお、以下では、復元画像フレーム保存部30に格納される復元画像フレームを参照候補フレームと呼ぶ。すなわち、参照フレーム決定部31は、符号化対象フレームについて判定された顔パーツの状態情報と、顔表情認識部33に記憶されている顔パーツの状態情報とを比較した結果に基づき、復元画像フレーム保存部30から復元画像フレームを読み出す。この復元画像フレームを参照フレームとして、動き検出部23による動き検出と、インター予測部22におけるインター予測とを行う。
また、符号化対象フレームに対して時間的に直近とは、当該符号化対象フレームのピクチャタイプに基づき、当該符号化対象フレームが参照可能な参照候補フレームのうち、当該符号化対象フレームに時間的に最も近いことをいう。例えば、符号化対象フレームのピクチャタイプがPピクチャであれば、参照候補フレームは、当該符号化対象フレームに時間的に最も近い位置にある過去のPまたはIピクチャを指す。また例えば、符号化対象フレームのピクチャタイプがBピクチャであれば、参照候補フレームは、当該符号化対象フレームに時間的に最も近い位置にある過去のB、PまたはIピクチャを指す。
ステップS12の比較の結果に基づき、符号化対象フレームと参照候補フレームとで、対応する顔パーツの状態情報が一致するか否かがステップS13で判定される。若し、一致すると判定されれば、処理はステップS14に移行され、参照フレーム決定部31は、判定対象の顔パーツについて、参照候補フレームを参照フレームに決定する。そして、処理はステップS15に移行される。
一方、ステップS13で、顔パーツの状態情報が符号化対象フレームと参照候補フレームとで一致しないと判定されたら、処理はステップS16に移行される。ステップS16では、ステップS12で比較が行われた参照候補フレームが最後の参照候補フレームであるか否かが判定される。ここで、最後の参照候補フレームとは、参照候補フレームとして用いるように設定された、符号化対象フレームに対して最も時間的に遠い位置にある参照候補フレームを指す。若し、最後の参照候補フレームではないと判定されたら、処理はステップS12に戻され、次に時間的に近い位置にある参照候補フレームについて、判定対象の顔パーツに対する処理が行われる。
一方、ステップS16で、判定対象の顔パーツについて、最後の参照候補フレームに対する処理が終了したと判断されたら、処理はステップS17に移行される。すなわち、この場合、当該判定対象の顔パーツに対して状態情報が一致する顔パーツが、参照候補フレームとして用いるように設定された全ての参照候補フレームに存在しなかったことになる。この場合、ステップS17で、符号化対象フレームに対して時間的に直近に位置する参照候補フレームを参照フレームに決定する。そして、処理はステップS15に移行される。
ステップS15では、上述のステップS11において符号化対象フレームで検出された全ての顔パーツについて判定が終了したか否かが判断される。若し、判定が終了していないと判断されたら、処理はステップS12に戻され、次の顔パーツについて処理がなされる。一方、判定が終了したと判断されたら、当該符号化対象フレームに対する一連の処理が完了される。
図4〜図6を用いて、図2のフローチャートの処理について、より具体的に説明する。一例として、図4に例示されるように、符号化対象フレーム200に対して、2枚の参照候補フレーム201および202を用いるように設定されているものとする。参照候補フレーム201は、符号化対象フレーム200に対して時間的に直前のフレームであるものとする。また、参照候補フレーム202は、符号化対象フレーム200に対して参照候補フレーム201よりも時間的に遠いフレームであるものとする。
参照候補フレーム201は、図5(a)に例示されるように、顔領域中の各顔パーツにおいて、左目210、右目211および口212が閉じた状態となっている。したがって、図5(b)に例示されるように、左目210、右目211および口212の状態情報がそれぞれ「0」とされる。また、左目210がブロック座標(3,3)、(4,3)で対角座標を示される矩形領域、右目211がブロック座標(4,3)、(5,3)で対角座標を示される矩形領域に含まれる。また、口212がブロック座標(3,5)、(5,5)で対角座標を示される矩形領域に含まれる。
一方、参照候補フレーム202は、図6(a)に例示されるように、顔領域中の各顔パーツについて、左目210、右目211および口212が開いた状態となっている。したがって、図6(b)に例示されるように、左目210、右目211および口212の状態情報がそれぞれ「1」とされる。また、左目210がブロック座標(2,3)、(3,4)で対角座標を示される矩形領域、右目211がブロック座標(4,3)、(5,3)で対角座標を示される矩形領域に含まれる。また、口212がブロック座標(3,5)、(5,5)で対角座標を示される矩形領域に含まれる。
判定対象の顔パーツが左目210である場合を例に挙げて説明する。符号化対象フレーム200において、左目210が開いており状態情報は「1」である(図3(a)および図3(b)参照)。これに対して、符号化対象フレーム200に対して時間的に直前の参照候補フレーム201の左目210は閉じており、状態情報は「0」である(図5(a)および図5(b)参照)。したがって、上述のステップS12の比較の結果、両者の状態情報が一致しないと判定される(ステップS13)。そのため、参照フレーム決定部31は、左目210について、参照候補フレーム201を参照フレームとすることを保留し、処理がステップS16に移行される。
ステップS16では、参照候補フレーム201が最後の参照候補フレームではないと判定される。そして、処理がステップS16からステップS12に戻され、次の参照候補フレームである参照候補フレーム202について、左目210の状態情報が符号化対象フレーム200と比較される。参照候補フレーム202の左目210は開いており、状態情報は「1」である(図6(a)および図6(b)参照)。したがって、上述のステップS12の比較の結果、両者の状態情報が一致すると判定され(ステップS13)、参照候補フレーム202が符号化対象フレーム200の参照フレームに決定される(ステップS14)。
このように、本発明の実施形態では、顔の表情が符号化対象フレームに近い参照候補フレームを、参照フレームとして決定することが可能になる。そのため、動きベクトル検出の際に参照できる参照フレーム数が制限される符号化装置においても、高い符号化効率を実現することが可能になる。
また、顔の表情が符号化対象フレームに近い参照候補フレームが存在しない場合には、符号化対象フレームとの変化が最も少ないと考えられる、符号化対象フレームに対して時間的に最も近い参照候補フレームを参照フレームとして決定することができる。これにより、顔の表情が符号化対象フレームに近い参照候補フレームが存在しない場合でも、符号化時の画質の劣化を抑えられる可能性が大きくなる。
なお、上述したように、本実施形態では、顔パーツとしての左目、右目および口の状態を、開いているか閉じているかの2状態に分類しているが、これはこの例に限定されない。例えば、左目、右目および口の開き具合によってさらに状態数を増やしてもよい。これにより、符号化対象フレームと参照候補フレームとの間での顔パーツ状態の比較を、より詳細に行うことができる。
この場合、符号化対象フレームと参照候補フレームとの間で顔パーツ状態が必ずしも一致しなくても、符号化対象フレームに対して顔パーツ状態が所定以上近い参照候補フレームを、参照フレームとして決定するようにしてもよい。符号化対象フレームに対して顔パーツ状態が所定以上近い参照候補フレームが存在しない場合には、符号化対象フレームに対して時間的に直近の参照候補フレームが参照フレームとして決定される。
また、本実施形態では、顔パーツを左目、右目および口とし、この3つの顔パーツについて、状態が一致しているか否かを判定しているが、これはこの例に限定されない。例えば、顔パーツとして、鼻、眉など顔の他の部分をさらに用いて状態一致の判定を行うことも考えられる。鼻の位置は、左目、右目および口の位置関係と、左目および右目と口との間の2つのホールや影の位置に基づき特定することが考えられる。眉の位置は、左目および右目の位置から特定可能である。
なお、上述の図2のフローチャートでは、顔パーツ毎に参照候補フレームの決定処理を行っているが、これはこの例に限定されない。例えば、参照候補フレーム毎に各顔パーツの判定を行うようにしてもよい。より具体的には、先ず、符号化対象フレームに対して時間的に直近の参照候補フレームについて、各顔パーツに対する判定処理を行う。全ての顔パーツについて参照フレームが決定しなければ、符号化対象フレームに対して時間的に次に近い参照候補フレームについて、参照フレームが決定していない顔パーツに対して判定処理を行う。この処理を、各顔パーツ全てに参照フレームが決定するまで繰り返す。
<他の実施形態>
上述の実施形態は、システムまたは装置のコンピュータ(あるいはCPU、MPUなど)によりソフトウェア的に実現することも可能である。
従って、上述の実施形態をコンピュータで実現するために、該コンピュータに供給されるコンピュータプログラム自体も本発明を実現するものである。つまり、上述の実施形態の機能を実現するためのコンピュータプログラム自体も本発明の一つである。
なお、上述の実施形態を実現するためのコンピュータプログラムは、コンピュータで読み取り可能であれば、どのような形態であってもよい。例えば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等で構成することができるが、これらに限るものではない。
上述の実施形態を実現するためのコンピュータプログラムは、記憶媒体又は有線/無線通信によりコンピュータに供給される。プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、磁気テープ等の磁気記憶媒体、MO、CD、DVD等の光/光磁気記憶媒体、不揮発性の半導体メモリなどがある。
有線/無線通信を用いたコンピュータプログラムの供給方法としては、コンピュータネットワーク上のサーバを利用する方法がある。この場合、本発明を形成するコンピュータプログラムとなりうるデータファイル(プログラムファイル)をサーバに記憶しておく。プログラムファイルとしては、実行形式のものであっても、ソースコードであっても良い。
そして、このサーバにアクセスしたクライアントコンピュータに、プログラムファイルをダウンロードすることによって供給する。この場合、プログラムファイルを複数のセグメントファイルに分割し、セグメントファイルを異なるサーバに分散して配置することも可能である。
つまり、上述の実施形態を実現するためのプログラムファイルをクライアントコンピュータに提供するサーバ装置も本発明の一つである。
また、上述の実施形態を実現するためのコンピュータプログラムを暗号化して格納した記憶媒体を配布し、所定の条件を満たしたユーザに、暗号化を解く鍵情報を供給し、ユーザの有するコンピュータへのインストールを許可してもよい。鍵情報は、例えばインターネットを介してホームページからダウンロードさせることによって供給することができる。
また、上述の実施形態を実現するためのコンピュータプログラムは、既にコンピュータ上で稼働するOSの機能を利用するものであってもよい。
さらに、上述の実施形態を実現するためのコンピュータプログラムは、その一部をコンピュータに装着される拡張ボードなどのファームウェアで構成してもよいし、拡張ボードなどが備えるCPUで実行するようにしてもよい。
本発明の実施形態による符号化装置の一例の構成を示すブロック図である。 本発明の実施形態による参照フレーム決定の一例の処理を示すフローチャートである。 符号化対象フレームの顔パーツ状態を説明するための図である。 符号化対象フレームと参照候補フレームとを説明するための図である。 参照候補フレームの顔パーツ状態を説明するための図である。 参照候補フレームの顔パーツ状態を説明するための図である。
符号の説明
10 現在フレーム保存部
21 参照フレーム保存部
22 インター予測部
23 動き検出部
30 復元画像保存部
31 参照フレーム保存部
32 顔検出部
33 顔表情認識部
100 符号化装置
200 符号化対象フレーム
201,202 参照候補フレーム

Claims (11)

  1. 符号化対象の画像フレームを分割したブロック単位で参照フレームに対してなされた動き検出の結果を用いて動き補償フレーム間予測符号化を行い、該参照フレームを複数の参照フレームの候補から選択可能な動画像符号化装置であって、
    入力された画像フレームを一時的に保存する入力画像フレーム保存手段と、
    前記入力画像フレーム保存手段に保存された前記画像フレームに基づき生成した参照候補フレームの複数を保存する参照候補フレーム保存手段と、
    前記入力画像フレーム保存手段から出力された画像フレームから顔領域を検出して該顔領域に含まれる顔パーツをさらに検出し、該顔パーツの状態を判定する判定手段と、
    前記判定手段に判定された前記顔パーツの前記状態を、該顔パーツが含まれる前記画像フレームを示す情報に関連付けて保存する顔パーツ情報保存手段と、
    符号化対象フレームが参照可能な画像フレームのうち、前記判定手段により判定された前記符号化対象フレームの前記顔パーツの状態と一致する顔パーツの状態に関連づけられた画像フレームを示す情報を前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報の中から検索する検索手段と、
    前記参照候補フレーム保存手段に保存された前記複数の参照候補フレームのうち、前記検索手段で検索された前記画像フレームを示す情報に対応する該参照候補フレームを、前記符号化対象フレームの前記顔パーツに対応する前記ブロックの前記参照フレームに決定する参照フレーム決定手段と
    を有し、
    前記参照フレーム決定手段で決定された前記参照フレームを用いて前記符号化対象フレームに対する動き補償フレーム間予測符号化を行う
    ことを特徴とする動画像符号化装置。
  2. 前記判定手段は、前記顔領域に含まれる目または口のうち少なくとも一方を顔パーツとして検出する
    ことを特徴とする請求項1に記載の動画像符号化装置。
  3. 前記判定手段は、前記顔パーツの状態として前記目または口の開き具合を判定する
    ことを特徴とする請求項2に記載の動画像符号化装置。
  4. 前記判定手段は、前記顔パーツの状態として前記目または口が開いているか閉じているかを判定する
    ことを特徴とする請求項2または請求項3に記載の動画像符号化装置。
  5. 前記検索手段は、前記入力画像フレーム保存手段から出力された1の前記符号化対象フレームについて、該符号化対象フレームから前記判定手段で検出され判定された前記顔パーツ毎に前記検索を行い、
    前記参照フレーム決定手段は、前記検索手段で前記顔パーツ毎に検索された前記画像フレームを示す情報それぞれについて、対応する前記参照候補フレームを決定する
    ことを特徴とする請求項1乃至請求項4の何れか1項に記載の動画像符号化装置。
  6. 前記検索手段は、前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報のうち、前記符号化対象フレームに対して時間的に近い方から順に、前記画像フレームを示す情報を検索する
    ことを特徴とする請求項1乃至請求項5の何れか1項に記載の動画像符号化装置。
  7. 前記検索手段は、前記顔パーツの状態が一致する前記画像フレームを示す情報が検索されなかったら、前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報のうち、前記符号化対象フレームが参照可能で、且つ、該画像フレームに対して時間的に最も近い前記画像フレームを示す情報を検索結果とする
    ことを特徴とする請求項1乃至請求項6の何れか1項に記載の動画像符号化装置。
  8. 前記検索手段は、前記顔パーツの状態が一致する前記画像フレームを示す情報が検索されなかったら、前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報のうち、前記符号化対象フレームが参照可能で、且つ、該顔パーツの状態が最も近い前記画像フレームを示す情報を検索結果とする
    ことを特徴とする請求項1乃至請求項6の何れか1項に記載の動画像符号化装置。
  9. 前記入力画像フレーム保存手段から前記画像フレームを分割したブロック単位で読み出した画像データの参照フレームに対する動き検出を行う動き検出手段と、
    前記動き検出手段による前記動き検出の結果に基づき、前記ブロック単位の前記画像データに対して動き補償フレーム間予測を行う動き補償手段と
    をさらに有し、
    前記参照候補フレームは、
    前記入力画像フレーム保存手段から前記ブロック単位で読み出した画像データに対して前記動き補償手段で動き補償フレーム間予測された画像データに基づき生成される
    ことを特徴とする請求項1乃至請求項8の何れか1項に記載の動画像符号化装置。
  10. 符号化対象の画像フレームを分割したブロック単位で参照フレームに対してなされた動き検出の結果を用いて動き補償フレーム間予測符号化を行い、該参照フレームを複数の参照フレームの候補から選択可能な動画像符号化装置における動画像符号化方法であって、
    前記動画像符号化装置の制御手段が、入力された画像フレームを入力画像フレーム保存手段に一時的に保存する入力画像フレーム保存ステップと、
    前記制御手段が、前記入力画像フレーム保存手段に保存された前記画像フレームに基づき生成した参照候補フレームの複数を参照候補フレーム保存手段に保存する参照候補フレーム保存ステップと、
    前記動画像符号化装置の判定手段が、前記入力画像フレーム保存手段から出力された画像フレームから顔領域を検出して該顔領域に含まれる顔パーツをさらに検出し、該顔パーツの状態を判定する判定ステップと、
    前記制御手段が、前記判定ステップに判定された前記顔パーツの前記状態を、該顔パーツが含まれる前記画像フレームを示す情報に関連付けて顔パーツ情報保存手段に保存する顔パーツ情報保存ステップと、
    前記動画像符号化装置の検索手段が、符号化対象フレームが参照可能な画像フレームのうち、前記判定ステップにより判定された前記符号化対象フレームの前記顔パーツの状態と一致する顔パーツの状態に関連づけられた画像フレームを示す情報を前記顔パーツ情報保存手段に保存された前記画像フレームを示す情報の中から検索する検索ステップと、
    前記動画像符号化装置の参照フレーム決定手段が、前記参照候補フレーム保存手段に保存された前記複数の参照候補フレームのうち、前記検索ステップで検索された前記画像フレームを示す情報に対応する該参照候補フレームを、前記符号化対象フレームの前記顔パーツに対応する前記ブロックの前記参照フレームに決定する参照フレーム決定ステップとを有し、
    前記制御手段が、前記参照フレーム決定ステップで決定された前記参照フレームを用いて前記符号化対象フレームに対する動き補償フレーム間予測符号化を行う
    ことを特徴とする動画像符号化方法。
  11. コンピュータを請求項1乃至請求項9の何れか1項に記載の動画像符号化装置の各手段として機能させるプログラム。
JP2008246595A 2008-09-25 2008-09-25 動画像符号化装置および動画像符号化方法 Expired - Fee Related JP5274181B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008246595A JP5274181B2 (ja) 2008-09-25 2008-09-25 動画像符号化装置および動画像符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008246595A JP5274181B2 (ja) 2008-09-25 2008-09-25 動画像符号化装置および動画像符号化方法

Publications (3)

Publication Number Publication Date
JP2010081241A JP2010081241A (ja) 2010-04-08
JP2010081241A5 JP2010081241A5 (ja) 2011-10-27
JP5274181B2 true JP5274181B2 (ja) 2013-08-28

Family

ID=42211197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008246595A Expired - Fee Related JP5274181B2 (ja) 2008-09-25 2008-09-25 動画像符号化装置および動画像符号化方法

Country Status (1)

Country Link
JP (1) JP5274181B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4377472B2 (ja) * 1999-03-08 2009-12-02 株式会社東芝 顔画像処理装置
JP2002199391A (ja) * 2000-12-26 2002-07-12 Canon Inc 画像処理装置、画像処理方法及び記録媒体
JP2005184062A (ja) * 2003-12-16 2005-07-07 Fuji Photo Film Co Ltd 画像データ変換装置および画像データ変換プログラム

Also Published As

Publication number Publication date
JP2010081241A (ja) 2010-04-08

Similar Documents

Publication Publication Date Title
RU2720702C1 (ru) Устройство прогнозирующего декодирования изображений, способ прогнозирующего декодирования изображений
US8761254B2 (en) Image prediction encoding device, image prediction decoding device, image prediction encoding method, image prediction decoding method, image prediction encoding program, and image prediction decoding program
KR101471831B1 (ko) 화상 예측 부호화 장치, 화상 예측 복호 장치, 화상 예측 부호화 방법, 화상 예측 복호 방법, 화상 예측 부호화 프로그램, 및 화상 예측 복호 프로그램
KR102032772B1 (ko) 화상 예측 부호화 장치, 화상 예측 부호화 방법, 화상 예측 복호 장치, 및 화상 예측 복호 방법
TWI511531B (zh) 影像編碼裝置、影像編碼方法及影像編碼程式
JP4732184B2 (ja) 動画像符号化装置及びその制御方法、コンピュータプログラム、記憶媒体
JP2010193401A (ja) 画像符号化方法及び画像符号化装置
JPH1188888A (ja) 動きベクトル予測符号化方法および動きベクトル復号方法、予測符号化装置および復号装置、並びに、動きベクトルの予測符号化プログラムおよび復号プログラムを記録した記録媒体
JP5274181B2 (ja) 動画像符号化装置および動画像符号化方法
EP1683361B1 (en) Power optimized collocated motion estimation method
JP5063548B2 (ja) 符号化装置および符号化方法
JP2008072608A (ja) 画像符号化装置及び画像符号化方法
AU2015202089A1 (en) Image predictive encoding device, image predictive encoding method, image predictive encoding program, image predictive decoding device, image predictive decoding method, and image predictive decoding program

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110912

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120709

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130514

R151 Written notification of patent or utility model registration

Ref document number: 5274181

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees