JP2006020354A - 動画像情報の符号化装置 - Google Patents

動画像情報の符号化装置 Download PDF

Info

Publication number
JP2006020354A
JP2006020354A JP2005225428A JP2005225428A JP2006020354A JP 2006020354 A JP2006020354 A JP 2006020354A JP 2005225428 A JP2005225428 A JP 2005225428A JP 2005225428 A JP2005225428 A JP 2005225428A JP 2006020354 A JP2006020354 A JP 2006020354A
Authority
JP
Japan
Prior art keywords
encoding
image information
moving image
change
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005225428A
Other languages
English (en)
Other versions
JP4508029B2 (ja
Inventor
Mikio Sasaki
美樹男 笹木
Kenji Yamamoto
健詞 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2005225428A priority Critical patent/JP4508029B2/ja
Publication of JP2006020354A publication Critical patent/JP2006020354A/ja
Application granted granted Critical
Publication of JP4508029B2 publication Critical patent/JP4508029B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】 伝送容量が制約されている範囲内で画像情報を効率的に符号化して良質な動画像情報を提供する。
【解決手段】 符号化器1の構成は、カメラ2により取り込む画像データをCIF変換した後、前フレームに対するデータ変化量がしきい値以上ある変化ブロックのみについてフレーム内符号化処理を行なって送信信号を生成する。符号化に際しては、情報発生量と音声情報の発生状況に応じて決まる画像伝送容量に対応して画像の領域で精度をあげることが必要な部分と精度が必要ない部分とで符号化の程度を異ならせて行なう。これにより、演算量の削減、限られた伝送容量内での効果的な画像情報伝送、無線系の伝送誤り発生に強い画像伝送を行なうことができる。
【選択図】 図1

Description

本発明は、動画像情報を所定の伝送容量の範囲内で伝送可能となるように圧縮符号化する場合において動画像の動きを損なうことなく有効な符号化を行なうことができるようにした動画像情報の符号化装置に関する。
近年、情報通信端末のマルチメディア化が急速に進んでおり、電話においてもディジタルデータ伝送に基づく様々な付加価値を生み出していくことが、今後のビジネス展開において必須な条件となってきている。特に、自動車電話やPHS(Personal Handy-phone System )においては既に従来の音声,文字情報のみならず、静止画像や動画像を伝送することが本格的に検討されつつあり、電話機のマルチメディア化は近い将来に当たり前のこととなることが予想される。
しかし、画像を伝送する場合に、何等処置を行わずそのまま伝送するのでは、約166Mbps(mega bit per second )に相当する膨大なTV映像のデータ量であるから、自動車電話(9.6kbps)やPHS(32kbps)や既存の電話回線の伝送レート(10〜30kbps程度)程度の伝送容量では1フレームの画像データを送信するのに多大な時間を要してしまい、動画像の伝送には不適切である。
このようなことに対応して、従来のTV会議やビデオCDに用いられている動画像圧縮技術が要求されるが、現行のTV会議用規格であるITU−T/H.261では、64kbps〜2Mbps程度、ISO/MPEG1では1.5Mbps程度のものを対象としており、ここで対象としている64kbps以下の超低レート伝送には適用することができないものである。
一方、現在ITU−Tで審議されているH.263は、64Kbps以下の伝送レートを対象としているが、この場合には有線系の伝送を対象とするものであり、移動体通信の無線系で発生するデータ伝送誤りのレベル(10−2〜10−3程度)に対する対策がなされていないものである。また、これらの規格におけるエンコーダは動き補償技術を用いるため、演算量が増大することになり、低コスト化の実現は困難なものである。
さらには、上述のような伝送容量の範囲内であっても、画像情報のみならず、同時に音声情報についても送信する場合には、画像情報の伝送容量についてはさらに制約を受けることになる。また、このような音声情報は、発生量の変動が大きくなることが予想されるので、伝送容量を割り当てる場合においても弾力的に変動させて有効に利用する必要がある。そして、音声情報の伝送容量が変動することは画像情報の伝送容量についてもこれに追随して変動することになるが、そのような状況の下でいかに動画像情報を有効に符号化して伝送するかということが課題となってくる。
本発明は、上記事情に鑑みてなされたもので、その目的は、伝送容量が制約されている範囲内で使用者にとって必要と思われる画像情報を効率的に選択符号化して良質な動画像情報を提供できるようにする画像情報の符号化装置を提供することにある。
請求項1の発明では、変化ブロック検出手段により、そのフレーム内の複数のブロックについてそれらの画像データが前フレームの該当するブロックの画像データとの変化量が所定レベル以上となる変化ブロックを検出し、その検出された変化ブロックについてのみ符号化処理手段により符号化を行なうので、限られた伝送容量の範囲内で変化が生じている領域についての情報を有効に伝送することができる。
さらに、符号化条件設定手段を設けているので、上述の変化ブロックについての符号化を行なう際に、変化ブロックの発生量や変化量等のデータに応じて符号化処理の条件を伝送容量の範囲内で変更して有用な情報を取捨選択してより良質な動画像を伝送することができるようになる。さらに、符号化条件設定手段は、変化ブロックの画素データをブロック単位で符号化する際に、符号化データに変換した場合の変換係数の伝送対象とするレベルを変化ブロックの総数に応じて設定するので、例えば、画面全体的に動きがある場合には低次数の変換係数のみを符号化して伝送することにより情報発生量を効率的に制御することができるようになる。
請求項2の発明では、符号化条件設定手段により、フレーム内の領域に応じて符号化のレベルを異なるように設定することが可能に構成されているので、精度の高い動画像を伝送すべき対象となる特定の領域をあらかじめ設定しておくことにより、対象となる領域のみを効率的な符号化処理を行なうことができるようになる。
請求項3の発明では、符号化条件設定手段により、前記符号化のレベルを異ならせる領域を設定可能に構成されているので、上述同様に効率的な符号化処理を行なうことができるようになる。
請求項4の発明では、符号化条件設定手段は、領域を設定するためのデータをあらかじめ決められているフォーマットにより設定可能であるので、対応する領域を指定する場合にそのフォーマットでコードを付加して伝送することにより情報量を増大させることなく符号化処理を行なうことができるようになる。
請求項5の発明では、符号化条件設定手段により、領域を複数設定したときには、それぞれの領域に対して符号化処理をする際に優先順位を設定することができるので、情報量の発生の度合いに応じて符号化レベルを優先順位の高いものから順に優先的に行なうことができ、使用者の要求に応じた効率的な符号化処理を行なうことができるようになる。
請求項6の発明では、符号化条件設定手段により、領域を複数設定したときにそれぞれの領域に対して異なる符号化条件を設定可能に設けられているので、画面の状態に応じて必要となる情報を効率的に符号化処理することができるようになる。
請求項7の発明では、符号化条件設定手段により、フレーム全体の画像データの変化量が減少したときに、変化ブロック検出手段による変化ブロックの検出に際して用いる判定のしきい値を低くするように変更設定するので、変化ブロックの個数が多いときや情報量が多いときにしきい値を高くして変化ブロックの検出個数を低下させるように制御していた場合などにおいては、変化が少なくなってきた状態で余裕度が大きくなったことを条件として、その小さな変化に追随させて変化ブロックの検出を行なうことができるようになる。これにより、例えば、フレーム中で動くべき領域の一部分が張り付いたような状況が発生している場合でもこれを解消させて自然な画面を提供することができるようになる。
請求項8の発明では、符号化条件設定手段により、フレーム全体の画像データの変化量が減少したときに、前記変化ブロック検出手段による変化ブロックの符号化に際して用いる量子化スケールを低くするように変更設定するので、変化ブロックの個数が多いときや情報量が多いときにしきい値を高くして変化ブロックの検出個数を低下させるように制御していた場合などにおいては、変化が少なくなってきた状態で余裕度が大きくなったことを条件として、小さな動きに対してもこれに追随させるように量子化スケールを細かく設定することができるようになる。これにより、例えば、フレーム中で動くべき領域の一部分が張り付いたような状況が発生している場合でもこれを解消させて自然な画面を提供することができるようになる。
請求項9,10および11の発明では、符号化条件設定手段により、上述の場合にフレーム内の画像データの不変領域や画面全体あるいは特定領域に対して変更設定を行なうので、このような余裕度の高い状態の期間を利用して不変領域の更新や画面全体の動きの向上あるいは特定領域の動きを向上させることができるようになる。
請求項12の発明では、符号化条件設定手段により、フレームにおける画像情報の発生量と送信可能な伝送容量との関係から必要に応じてフレームサイズを変更設定するので、情報の発生量に応じた適切なフレームサイズで符号化処理を行なうことができるようになる。
請求項13の発明では、符号化処理手段により、フレームサイズを縮小する側に変更設定するときには、変更前のフレームの画像データを変更後のフレームの画像データに対応するようにサンプリングすることにより適合させるので、フレームサイズの変更時点で新たなフレーム内符号化処理を行なう必要がなく、情報発生量を増大させることなく変更をすることができるようになる。
請求項14の発明では、符号化処理手段により、フレームサイズを拡大する側に変更設定するときには、変更前のフレームの画像データを変更後のフレームの画像データに対応させたときに補間フィルタを利用して画像データのない画素について隣接する画素の画像データから補間して画像データを生成するので、フレームサイズの変更時点で新たなフレーム内符号化処理を行なう必要がなく、情報発生量を増大させることなく変更をすることができるようになる。
請求項15の発明では、符号化条件設定手段により、外部から符号化条件を変更設定する入力に対してこれを無効化させるプロテクト機能を設定できるので、使用者がプロテクト機能を設定することにより、使用者が望まない符号化処理のモードを拒否することができ、外部から必要以上の精度の符号化を行なわせることを阻止してプライバシーの保護を図ることができるようになる。
請求項16の発明では、符号化条件設定手段には、フレームを形成している被写体あるいは用途等に応じてその付帯状況をあらかじめ決められたコードで設定するモード条件が記憶されており、符号化処理の際にモード条件を使用して符号化を行なったときにはその送信信号にモード条件を指定するコードを付加するので、付帯状況を設定することを簡単に行なえると共に、モード条件設定のための符号化処理の情報量を削減することができるようになる。
請求項17,18または19の発明では、音声情報処理手段により音声情報を符号化して画像情報と同時に送信し、このとき、画像情報については、符号化処理手段により、画像情報を符号化して伝送する際の画像伝送容量を、全体の伝送容量から音声情報の伝送に割り当てられる音声伝送容量を差し引いた分としてその範囲内で符号化処理を行なうので、音声情報の伝送を画像情報のレベルによって妨げられることなく、しかも残りの伝送容量を画像伝送容量に割り当てることにより、伝送容量を効率的に利用して画像情報を伝送することができるようになる。
請求項20の発明では、容量比設定手段により、全体の伝送容量に対して音声伝送容量の比率を設定することができ、これによって、符号化条件設定手段においては、容量比設定手段により設定された比率に基づいて音声伝送容量を設定するようになり、使用者の要求に応じた音声情報および画像情報の伝送制御を行なうことができるようになる。
請求項21の発明では、符号化条件設定手段により、送信信号を授受する他の装置から全体の伝送容量に対する音声伝送容量の比率が指定されると、これに基づいて音声伝送容量を設定するので、外部から音声情報や画像情報をモニタする場合などにおいては使用者の要求に応じた情報を効率的に得ることができきるようになる。
請求項22の発明では、音声情報処理手段により、音声通信に支障を来さない程度に設定される許容遅延時間の範囲内で、インパルスノイズを識別できる程度で且つ十分短く設定されるサンプリング時間を単位としてそのサンプリング時間内で入力される音声信号を積分してその積分値が音声増大判定のしきい値を超えたときに、あらかじめ設定されている伝送量の限度の範囲内で伝送容量を大きく設定するので、音声情報の発生状態に敏感に対応して伝送することができると共に、音声情報の発生量が少ないときには画像情報の伝送容量を大きくして伝送することができる。
請求項23の発明では、符号化条件設定手段により、外部から符号化条件を変更設定する入力に対してこれを無効化させるプロテクト機能を設定することができるので、使用者がプロテクト機能を設定することにより、使用者が望まない符号化処理のモードを拒否することができ、外部から必要以上の精度の符号化を行なわせることを阻止してプライバシーの保護を図ることができるようになる。
請求項24の発明では、符号化処理手段により、フレーム内の複数のブロックをひとつのグループとして設定される符号化処理ブロックグループの設定パターンをあらかじめ複数種類登録しているので、伝送信号に符号化処理を行ったときの設定パターンの情報を付加するだけで効率的に画像情報を伝送することができるようになる。また、このとき、符号化処理ブロックグループのパターンをフレーム内の中心部から順に設定したものや、特定領域に対応する部分から順次設定したものなどを選択することにより、伝送信号の最初の部分でフレームの要部のブロックデータを伝送することができるようになり、効率的な画像情報の伝送を行なうことができるようになる。
以下、本発明を音声情報および画像情報を同時に伝送するようにした無線系の通信装置に適用した場合の一実施例について図面を参照しながら説明する。
図1を参照して本実施例の構成について説明する。まず、送信機として機能する符号化器1において、撮像手段としてのカメラ2は使用者の上半身を撮影するもので、画像情報をRGBアナログ信号として出力する。A/D変換部3は、カメラ2から与えられるアナログ信号をデジタル信号に変換して出力する。RGB/CIF変換部4は、A/D変換部3から与えられるRGBデジタル信号をCIF(Common Intermediate Format;共通中間フォーマット)信号に変換して出力する。
二次元高速DCT(離散コサイン変換)部5は、RGB/CIF変換部4からCIF信号が与えられると、変換処理すべきブロックに対して二次元直交変換の一つである二次元DCT(H.261規定の二次元直交変換に対応している)処理してDCT係数の信号を出力する。また、変化ブロック検出手段としての変化領域抽出部6は、RGB/CIF変換部4からCIF信号が与えられるようになっており、そのCIF信号に基づいて後述するようにして変化ブロックを検出し、その結果に応じて二次元高速DCT部5に対して二次元DCT処理を行なうべき変化ブロックを指定する。
量子化部7は、符号化条件設定手段としての符号化制御部8により量子化スケールQSCが設定されており、二次元高速DCT部5から与えられるDCT係数の信号を設定されている量子化スケールQSCで直線量子化変換あるいはデッドゾーン付量子化変換処理をして例えば9ビットの精度で量子化して出力する。有意係数属性制御部9は、符号化制御部8から与えられる条件にしたがって量子化部7から与えられる量子化されたDCT係数の信号に対して属性制御を行なって可変長符号化部10に出力する。
可変長符号化部10は、DCT係数の信号に対して対応する可変長符号を割り当てて階層結合部11を介して変換することによりシンタックスに基づくビットストリームを生成してバッファ12に出力する。バッファ12では、信号送信部13に出力するデータの出力速度を制御すると共に、内部のデータ量を符号化制御部8に出力するようになっている。信号送信部13は、RS232c通信処理部14およびデジタル携帯電話機15から構成されており、バッファ12から出力されるビットストリーム信号をデジタル携帯電話機15を介して無線により伝送する。デジタル携帯電話機15は、例えば9600bps(bit per second)の伝送容量(伝送レート)に設定されており、音声信号と画像信号がこの伝送容量の範囲内で伝送されるようになっている。
次に、受信機として機能する復号化器16の構成について説明する。信号受信部17は、デジタル携帯電話機18およびRS232c通信処理部19から構成され、デジタル携帯電話機18により受信したビットストリーム信号を入力バッファ20で受け取るようになっている。パーザ21は、バッファ20に蓄積されるデータを取り込んでシンタックス解析を行ない可変長復号化部22に出力する。可変長復号化部22は、入力された信号の可変長符号を復号化して有意係数属性再生部23を介して逆量子化部24に出力する。
逆量子化部24では再構成した量子化出力9ビットを12ビットの信号に逆変換して出力する。さらに、二次元高速逆DCT25では二次元逆DCT処理を行うことにより8ビットの画素データに戻す。復号化制御部26では有意係数属性再生部23にて復号化した符号化属性をもとにして逆量子化部24の制御を行うようになっている。
CIF/RGB変換部27では、8ビットの画素データをCIF形式からRGB信号に変換し、D/A変換部28を介してアナログ信号に変換して表示器29に出力するようになっている。
なお、この復号化器16の構成では、可変GOBパターンおよび画像データサイズの適応的変更の2つの機能を実行するように構成されているが、符号化器1側でこの機能を実施しない場合には、復号化器16の構成を既存規格のものと同等のものを採用することができる。
次に本実施例の作用について、まず、全体の流れを図2ないし図6を参照して説明し、さらに詳細について図7以下を参照して説明する。なお、説明の都合上、次のように項目別に分けて述べる。(1)符号化処理の原理の概略説明、(2)符号化処理の全体の流れ(図2ないし図6参照)、(3)各部処理内容の詳細説明。
(1)符号化処理の原理の概略説明
通常、H.261やMPEG規格ではフレーム間符号化が用いられ、そこでは空間領域のブロック画素値のフレーム間差分に対して二次元DCT(二次元離散コサイン変換)が施される。したがって、復号時にはこの差分データを復号処理してフレーム間の累積を行うことにより、画像を再構成していくことになる。ところが、この方法ではデジタル無線通信路においてビット誤りが発生した場合に、H.261やH.263あるいはMPEG規格のような複雑なシンタックスのプロトコルでは、各符号語の持つ値が全くもとの値とずれてしまう上に、時間方向に誤りが伝播してしまうことになる。
そこで、本実施例では、データ圧縮度は有線系で用いる一般的なフレーム間差分の符号化をする場合ほどには期待できないが、誤りがフレーム内で完結してしまうフレーム内符号化(イントラ符号化)のみをブロックベースで適用する構成を採用することにより無線系に強いものとしているのである。つまり、最初の1フレームについては全てのブロックについてフレーム内符号化であるイントラDCT符号化を実施し、2フレーム目以降の符号化処理においては、後述する変化ブロックの検出によって『変化あり』と判定されたブロックつまり変化ブロックのみについてイントラDCT符号化を行うのである。
なお、この方式では、フレーム間差分を符号化しないので、H261規格での動き補償差分を求めるループ演算が不要となる。したがって、これによって、動きベクトル検出処理および逆量子化処理のための構成が不要となると共に、ループフィルタおよび1フレーム分の画素データを記憶するための予測メモリが構成から不要になる。この結果、主要な演算内容としては、(a)二次元DCT処理、(b)量子化処理、(c)可変長符号化処理、(d)バッファ制御および(e)変化ブロック検出処理だけとなり、この結果、パソコンのソフトウェアを用いた構成で、リアルタイムで動作可能な程度のレベルの機能ブロック構成とすることができるのである。
(2)符号化処理の全体の流れの説明(図2ないし図6)
符号化器1は、図2ないし図6に示す概略的な流れを示すフローチャートにしたがって次のようにして画像情報を符号化する。まず、符号化器1は、フレーム数を示す変数PICをゼロにクリアし(ステップS1)、カメラ2によって撮影された画像情報を取り込んで(ステップS2)、A/D変換部3においてデジタル信号に変換し(ステップS3)、この後、RGB/CIF変換部4においてRGB/CIF変換を行う(ステップS4)。
続いて、符号化器1は、画像情報の状態観測のステップS5(図3参照),符号化状態と要求の判定のステップS6(図4参照),符号化パラメータ決定のステップS7(図5参照)および符号化演算処理のステップS8(図6参照)と順次実行し、フレーム番号LPICが所定の個数NPICに達するまで繰り返し実行する(ステップS9)。以下に、ステップS5ないしS9の内容について図3ないし図6を参照して説明する。
(A)画像信号の状態観測(図3参照)
符号化器1は、画像情報の状態観測のステップS5に進むと、プログラム(図3参照)にしたがって、シーンの特徴に応じてGOBパターンの設定を行う(ステップA1)。次に、符号化器1は、2フレーム目以降の場合は現在フレームの符号化計算を行う前に、前フレームでの計算結果に基づき、変化ブロック数を計算するために(ステップA3)、まず、画像1フレーム全体の色変化量,動き量,情報発生量のレベル判定を各々について行う(ステップA4〜6)。
なお、このようなレベル判定については別途に詳述する。また、シーンが変わってから第1番目のフレームについては強制的に全ブロックについてイントラDCT符号化を行うので、ステップA4〜A6の処理については実施しないようになっている。
各フレームにおいてブロック間変化量の定義に基づいてMBK(マクロブロック)単位に輝度変化量,色変化量を計算し(ステップA11,A12)、デフォルト値あるいは前フレームの計算で設定された変化判定しきい値を基にして変化ブロックの判定を行う(ステップA13)。そして、変化ブロックでない場合には図6に示すステップS8の符号化演算処理のステップD8にジャンプし、変化ブロックと判定された場合には、変化ブロック数のカウンタをインクリメントしてこのプログラムを終了する。
(B)符号化状態と要求の判定(図4参照)
符号化器1のバッファ12に溜め込まれた符号化ビットストリームのビット数(バッファ量BF)をチェックする(ステップB1)。次に、符号化器1は、使用者からのプロテクト要求の設定状態(ON/OFF)を判定する(ステップB2)。また、AV比率に関する要求度Raを相手端末と自己端末の要求値に基づいて判定する(ステップB3)。次に、音声信号の状態を検出して(ステップB4)、無音状態や突発的音声などの検出された音声信号の状態に応じて音声符号化レートBRAを決定する(ステップB5)。次に、バッファ12のバッファ量BFと音声符号化レートBRAの値からデータレート余裕度ADRと目標画像符号化レートBRV0を決定する(ステップB6)。
一方で、動き量SMのレベル判定値LM,色変化量DCのレベル判定値LC,情報発生量のレベル判定値LIの各々から画像のフレーム間変化量の総合的なレベル判定値Lを計算し(ステップB7)、データレート余裕度ADRのレベル判定値LADRと総合的なレベル判定値Lとからテーブル(後述する表1参照)を参照して符号化パラメータの推奨値を計算する(ステップB8)。
(C)符号化パラメータ決定(図5参照)
次に、符号化パラメータの決定を行う。ここでは、音声符号化レートBRAと目標画像符号化レートBRV0との値に基づいて、全体の伝送容量である符号化レートBRから画像符号化レートBRVを演算する(ステップC1)。この場合、これらの値の間には、
BRA+BRV≦BR
という関係が満たされることが条件となっており、この条件のもとに画像符号化レートBRVの値が決定されるが、データレート余裕度ADRはバッファ量BFを監視した後に決定される。したがって、データレート余裕度ADRの値に応じて画像符号化レートBRVは若干修正を受けることになる。これは、例えば、バッファ量BFが平均充足量BFaよりも少なければ、その分だけデータレート余裕度ADRが大きくなるので、画像符号化レートBRVを大きく設定することができるのである。
フレームレートと画像サイズは総合判定レベルLとデータレート余裕度ADRおよび画像への要求度RVからテーブル(表3参照)を参照して決定される(ステップC2,C3)。また、量子化スケールQSCは前述のテーブルを参照して決定する(ステップC4)。
次に、画面全体の変化ブロック数の判定しきい値NCB_THはDCT有意係数の伝送個数を制御するが、これは前述の表1を参照して決定する(ステップC5)。変化ブロック判定しきい値DTHも同様に表1を参照して決定する(ステップC6)。また、ブロック間変化量計算のサンプリング密度はシステム全体のCPU負荷の現在値のレベル判定結果から決定する(ステップC7)。
(D)符号化演算(図6参照)
符号化演算は、上記した(A)〜(C)で決定された符号化パラメータを基にしてH.261/263の方式で行う(ステップD1〜D14)。なお、この実施例においては、変化ブロックのMBK属性を強制的にイントラ(フレーム内符号化)とする以外には特別な処理は含まれていない。すなわち、二次元DCT処理,量子化処理,有意係数制御処理,可変長符号化処理を順次行い(ステップD3〜D6)、続いて、MBK属性制御処理,MBK属性符号化処理,GOB属性符号化処理,PIC属性符号化処理を順次行ない(ステップD8〜D13),この後、ビットストリームの階層結合を行なう(ステップD14)。
(3)各部処理内容の詳細説明
次に、上述した符号化処理の全体の流れの説明で取り上げた各部の処理内容について詳細に説明する。なお、説明の項目は次に示すとおりである。
[a]変化ブロックの検出
[a−1]ブロック間変化量の計算
[a−2]しきい値判定
[b]符号化と通信状態の判定
[b−1]データレートの余裕度
[b−2]動き量の判定
[b−3]色変化量の判定
[b−4]情報発生量の判定
[c]情報発生量削減のための制御
[c−1]画面全体の変化量の判定と伝送係数の制御
[c−2]符号化状態に基づく変化判定しきい値制御
[c−3]領域に応じた制御
[d]画像データサイズの適応的変更
[e]音声データと画像データとの比率に対する要求度の抽出
[e−1]連続制御
[e−2]プロテクト機能
[e−3]AV比率の制御に関する優先順序
[e−4]モード制御
[f]パラメータ制御
[f−1]要求度に基づく符号化レートの決定
[f−2]遠隔モニタリングモードの符号化パラメータの遠隔制御
[f−3]システム全体のパラメータ制御
[g]ブロック雑音の除去
[h]可変GOB構造と識別番号の伝送
[a]変化ブロックの検出
あるアドレスのマクロブロックが前フレームに対してどれだけ変化したかを以下のようにして判定する。
[a−1]ブロック間変化量の計算
(ア)ブロック間変化量
原画像として入力されたマクロブロック(以下MBKと称する)について、1フレーム前のMBKとの間のフレーム間誤差分の絶対値和をMBK毎に演算する。ここで、MBKは6個のBLK(ブロック)からなるので、以下のように総変化量E(n,m),輝度変化量EL(n,m),色変化量EC(n,m)を定義することができる。
Figure 2006020354
ここで、
E(n,m);第nフレームの第m番目のMBKについて前フレームとの間の総変化量
を示す値
EL(n,m);第nフレームの第m番目のMBKについて前フレームとの間の輝度変
化量を示す値
EC(n,m);第nフレームの第m番目のMBKについて前フレームとの間の色変化
量を示す値
MB(n,m,k);第nフレームの第m番目のMBKの第k番目のBLK
d(BLKi,BLKj);BLKiとBLKjとの間の誤差関数。ここでは画素単位
の差分の絶対値和を計算する。
BLKi ;i番目のブロック画素
α ;色情報の誤差の荷重係数
(イ)計算の簡略化
上述したd(BLKi,BLKj)の計算において、ブロック内画素のすべてについて差分を演算するのではなく、例えば、図7に示すように、サンプリングした画素についてのみ変化量計算の対象とすることができる。同図(a)はBLK内の全ての画素(8×8=64個)について計算を行なう場合を示し、同図(b)はBLK内の画素を1個置きにサンプリングする(4×8=32個、全画素の1/2)場合を示し、同図(c)はBLK内の画素を1列置き且つ1個置きにサンプリングする(4×4=16個、全画素の1/4)場合を示している。
(ウ)簡易動ベクトル検出
上述の(イ)と同様にして、ブロック内画素をサンプリングすることにより、ブロックマッチング法の演算量を削減できるので、動ベクトル検出の演算量も削減することができる。
(エ)変化量域・注視領域に限定した動き検出の実行
符号化対象領域を信号変化条件やモデル条件、注視条件の適用などにより特定領域に限定することができる場合には、その限定された領域内でのみ動き検出を実行することにより、演算量を削減することができる。
[a−2]しきい値判定
ここでは、あるしきい値DTHによってE(n,m)を判定し、例えば、以下のようにして前フレームに対して変化があったか否かを判定する。
case1)E(n,m)≧DTHのとき
→変化があったと判定し、イントラ符号化を開始する。
case2)E(n,m)<DTHのとき
→変化はないと判定し、符号化を行わない。
上述の内容は、例えば、実験によると、データレートが9.6kbpsの場合に、CIF画像に対して、量子化スケールパラメータQSCALEを20(量子化ステップ=40)、変化検出しきい値DTHを2000程度に設定することで比較的良好な準動画像伝送を行うことができる。
[b]符号化と通信状態の判定
[b−1]データレートの余裕度ADR
(ア)定義
超低レート通信では、人物像など動く対象物を符号化する場合に通信データレート(伝送容量)に余裕が発生することはあまりないが、人物が不在の状態や遠隔モニタリングなどの場合には変化があまり発生しないことから、データレートに余裕ができることがある。このようなデータレート余裕度ADRを次式のように定義づけることにする。
ADR=(画像通信レート)−(前フレームの符号化情報量)
これは符号化器出力バッファ12のバッファ量BFの増減に対応したバッファ余裕度を検出することで代用することもできるものである。
(イ)画像通信レートの動的適用制御
画像通信レート(画像伝送容量)は後述するAV比率の要求度と現在の音声通信データ量に応じて時々刻々と変化させることができる。したがって、音声通信データが少ないと判断したときは要求度で初期設定した通信レートを変更して画像通信レートを拡大させることができるモードを設定する。
(ウ)音声データの急増に対する迅速な対応
上記のような方法で音声通信レート(音声伝送容量)を縮小した場合、突発的な音声データ増大に迅速に対応するには、画像符号化器1の出力停止、画像符号化器出力バッファ12の送出停止、AVレート設定の初期値(要求度から決定した値)への復帰を実行する。音声データ増大の検出には、音声通信に支障のない最大遅延時間TAdelayに対して十分小さい時間Tとしてインパルス雑音と十分識別が可能な程度の時間幅として設定し、その時間T内での音声信号の積分値IAを計算してあるしきい値以上になったときに音声データの増大であると判定するようにしたものである。
(エ)動作フローチャートの説明
上述した(イ)および(ウ)での音声データ発生量の増減に対する画像データレートの適応制御では、図8に示すプログラムのフローチャートにしたがって制御を行なう。
まず、突発的な音声データの増大があるか否かを検出する(ステップT1,T2)。ここでは、上述したごとく、サンプリングの時間T内での音声信号の積分値IAを計算して(ステップT1)、その積分値IAがあるしきい値以上になったときに有意の変化が生じたとしてこれをもって音声データの増大であると判定する(ステップT2)。
次に、判定結果から音声データの増大が検出されない場合、つまり無音状態の場合には、音声符号化レートを低減して(ステップT5)、代わりに画像符号化レートを増大させる(ステップT6)。一方、突発的な音声データの増大が検出された場合には、画像符号化の演算を停止する(ステップT7)と共に画像データの送出を停止し(ステップT8)、適応制御をしていた音声符号化レート,画像符号化レート(AVレート)を使用者の要求度に基づいて設定した初期値に戻す(ステップT9)。また、無音状態ではないが、突発的な音声データの増大でもない状態であるときには、音声符号化レートは変更せず従前の状態を保持するようになっている。
[b−2]動き量の判定
動き量の判定については、次の2つの場合について総動き量を演算する方法について説明する。なお、動き検出を行なわない場合(ア)および動き検出を行なう場合(イ)の違いは、動き検出を行なう方が正確な動き量を判定できる反面、動き検出を行なうことによる演算量の大幅な増大となる点で、これらは、制御部を構成するCPUの処理能力に応じて、リアルタイムで処理する場合の大きな負担とならない場合には動き検出を行なう方を採用することができる。
(ア)動き検出を行わない場合
変化ブロックの重心計算を行い、1フレーム前に対するその動きベクトルの大きさを重心動ベクトルvgとする。この重心動ベクトルvgを変化ブロック数NCBだけ乗じた値を総動き量SMとする。これらは次式のように示される。
Figure 2006020354
ここで、
NMB;フレーム内のMBK数
IG(n);第nフレームにおける対象領域重心座標の水平成分
JG(n);第nフレームにおける対象領域重心座標の垂直成分
(イ)動き検出を行う場合
フレーム内の全てのマクロブロックの前フレームに対する動きベクトルの大きさを計算し、得られた動きベクトルの大きさの総和を求めてこれを総動き量SMとするもので、次式で示される。
Figure 2006020354
上述のようにして得られる総動き量SMから、あらかじめ設定されている複数のしきい値を用いて複数段階のレベルに判定してレベル判定値LMを得る。この動き量のレベル判定値LMは後述する符号化制御において用いられるようになっている。
[b−3]色変化量の判定
変化ブロック検出で演算した変化量のうちで、色ブロックのみについての変化量を画面全体で合計して、総色変化量DCを演算する。これは次式のように示される。
Figure 2006020354
ここで、
DC(n);第nフレームの総色変化量
NMBK ;1フレーム中のMBK個数(CIF形式の画像では22×18=396個
である)
EC(n,m);第nフレームの第m番目のMBKについて前フレームとの間の色変化

このDC(n)をいくつかの設定しきい値によりレベル判定し、これをレベル判定値LCとする。
[b−4]情報発生量の判定
1フレーム前の画面全体の情報発生量をいくつかの設定しきい値によりレベル判定する。この判定結果をレベル判定値LIとする。LIは以下の因果関係で定められる。
RA→[Rv,ADR]→LI
これは、音声要求度Raが設定されることによって、全体の符号化レートの容量に対して画像要求度Rvが決まり、この画像要求度Rvとデータレート余裕度ADRとの関係から許容される情報発生量のレベル判定値LIが定められる。
[c]情報発生量削減のための制御
[c−1]画面全体の変化量の判定と伝送係数の制御
上述したしきい値判定の結果として得られた変化ブロック個数に基づいて、画面全体の変化度を判定する。これを用いて、例えば、以下のようにDCT係数の伝送を制御する。
case1)NCB≧NCB_TH1のとき
→変化ブロックのDCT有意係数のうち、DC成分のみを伝送する
case2)NCB_TH1>NCB≧NCB_TH2のとき
→注視領域以外の変化ブロックはDC成分のみ伝送する
case3)NCB_TH2>NCBのとき
→変化ブロックの有意係数をすべて伝送する
ただし、
NCB;1画面における変化ブロック個数
NCB_THi(i=1,2,…);判定しきい値(データレート余裕度や使用モードによって可変)
である。
[c−2]符号化状態に基づく変化判定しきい値制御
動き量判定レベルLM、色変化量判定レベルLC、情報発生量判定レベルLI、データレート余裕度の判定レベルLADRから変化領域判定しきい値DTHおよび量子化スケールQSCを動的に決定する。すなわち、
[LM,LC,LI,LADR]→[DTH,QSC,NCB_TH]
とする。この場合、各レベル判定値のうちLM,LC,LIについては、具体的には、例えば、次式を用いて、総合判定レベルLを演算してその結果に基づいて決定を行なう。
Figure 2006020354
したがって、総合判定レベルLとデータレート余裕度LADRとの組み合わせから、変化領域判定しきい値DTH,量子化スケールQSC,画面全体の変化判定しきい値NCB_THを決定する。したがって、
[L,LADR]→[DTH,QSC,NCB_TH]
を考えると、LおよびLADRがそれぞれ0〜3の4段階の値をとる場合には、次の表1のような制御例を採用することができる。
Figure 2006020354
[c−3]領域に応じた制御
(ア)領域の設定
<1>領域の自動設定
注視領域、動きや色のクラスタリング等の手法により複数個の領域を設定する。この手法についてはいくつかの方法が考えられるが、本実施例では採用していないので、その可能性を述べるのみにとどめてここでは言及しない。
<2>マニュアル設定
たとえば、以下に示すような種々の設定方法があり、いずれか一方あるいは両方を採用して設定に用いることができる。
i )送信側でユーザがモニタ画像を見ながら送信するシーンについて設定する方法。
ii)受信側でユーザが受信画像を見ながら送信側のシーンについて設定する方法。
(イ)複数個の領域の記述
上記で設定した複数個の領域をその重心と領域の幅により記述する。例えば、ライン方向に並行な矩形領域を記述する場合、以下の表2のようになる。ここではCIF形式のマクロブロックを単位として記述している。
Figure 2006020354
上述の場合に、領域のカテゴリに関しては、前述したようなマニュアル設定では人間の介在により決定することができる。また、自動設定に関してもいくつかの方法が考えられるが、ここでは省略する。
(ウ)領域のモニタリング
<1>固定領域のモニタリング
領域の重心と大きさが決まれば、二次元の固定された窓としてモニタリングができる。この場合、この窓内の画像領域は優先的に情報量を割り当てることにより、高画質や更新速度の高い動画として再生させることができる。
<2>動領域のトラッキング
最初に設定した領域重心と大きさを固定化するのではなく、自動設定に用いた手法やフレーム相関(例えば動き検出など)により、領域内に映った対象物の動きに基づいてトラッキングしていくことができる。これは、対象物や対象人物の三次元形状をモデル化して登録すると共にその動きについて推定されるものを予測するモデルベース三次元運動推定に用いた移動体領域抽出手法などによって実現できる。
<3>領域情報の伝送
前述のように定義した領域情報(領域番号、重心、水平幅、垂直幅)とその領域内の画像情報のみを伝送することにより、必要な領域に絞った符号化処理を行なうことができ、効率的に情報発生量を削減することができる。
<4>領域のプライオリティ
複数の領域を指定する場合には、情報量を割り当てる場合にプライオリティ (優先順位)をつける。ここで、領域番号は画像伝送上、重要と思われる領域から順番につける。ただし、背景の領域番号は0とする。プライオリティの変更については変更を示すフラグと変更情報のみを送る。変更情報は例えば、複数の領域に対応して順番を番号により設定して送る。
(3421)→この場合には、領域3を最優先、領域4を2番目、領域2を3番目、領域1を4番目に伝送することを示す。
(エ)領域別しきい値設定
プライオリティに応じて変化判定しきい値DTHを自動設定する。例えば、DTH0〜DTH3の順番に、
[1000,1500,2000,2500]
のように設定する。あるいは個別に領域毎の変化判定しきい値DTHを設定することもできる。
(オ)設定しきい値の適応的変更
画像内容の急激な変化(シーンチェンジ、移動物の出現/消失など)が終息し、画面全体の変化量が少なくなると、データレート余裕度ADRも高くなる。このとき、画質を向上させるためには以下のような方法が考えられる。
<1>不変領域の変化判定しきい値DTHを下げる〈不変領域の更新〉
<2>画面全体の変化判定しきい値DTHを下げる〈画面全体の動き向上〉
<3>注視領域に対してのみ変化判定しきい値DTHを下げる〈注視部分の動き向上〉
特に、<1>は事前に変化判定しきい値DTHを上げ過ぎた場合におこる画像劣化現象への対処である。例えば、カメラの前に手をかざした場合、一度は画面全体が肌色に切換わるが、その後、手をのけても変化判定しきい値DTHを超えないブロックが存在するときには、壁等の背景に手の一部が不変領域として張付いたように残るという状況が発生する。
また、<2>については、あまり下げ過ぎると、ほんのわずかな輝度のむらや色相変化により変化ブロックが急増するため、逆にフレームレートが低くなってしまうという現象が起きてしまう。
一方、量子化スケールQSCについては、次のような方法が考えられる。
<1>不変領域の量子化スケールQSCを下げる〈不変領域の画質向上〉
<2>画面全体の量子化スケールQSCを下げる〈画面全体の画質向上〉
<3>注視領域に対してのみ量子化スケールQSCを下げる〈注視部分の画質向上〉
図9は、以上の制御内容についての流れを示すフローチャートである。なお、ここで変化判定しきい値DTH0〜DTH3および量子化スケールQSC0〜QSC3の設定条件は次のようになっている。
<1>データレート余裕度ADR上昇の場合
DTH0≧DTH3≧DTH2≧DTH1
QSC0≧QSC3≧QSC2≧QSC1
<2>データレート余裕度ADR上昇の場合
DTH3≧DTH2≧DTH1≧DTH0
QSC3≧QSC2≧QSC1≧QSC0
符号化器1は、変化判定しきい値DTHおよび量子化スケールQSCの初期値DTH0,QSC0が設定された状態で(ステップP1)、データレート余裕度ADRが変化したか否かを監視する(ステップP2)。そして、データレート余裕度ADRの値が変化した場合には、領域別適応化を行なわないときには(ステップP3)、前述したようにテーブル(表1)を参照して変化判定しきい値DTHおよび量子化スケールQSCを変更設定する(ステップP4)。
また、領域別適応化を行なう場合には、注視領域優先モードであるか否かを判定し(ステップP5)、「YES」の場合には注視領域の変化判定しきい値DTHをDTH1に変更設定し(ステップP6)、量子化スケールQSCをQSC1に変更設定する(ステップP7)。
そして、注視領域優先モードに設定されている場合には、注視領域の変化判定しきい値をDTH2に、不変表示領域の変化判定しきい値をDTH3に設定すると共に(ステップP8,P9)、注視領域の量子化スケールをQSC2に、不変表示領域の量子化スケールをQSC3に設定する(ステップP10,P11)。この後、変化判定しきい値の最低値DTHminを超える有意変化ブロックが有るか否かに応じて(ステップP12)、「YES」の場合には有意変化ブロックの変化判定しきい値をDTH2に設定し(ステップP13)、そうでないときには終了する。
[d]画像データサイズの適応的変更
上述と同様に、動き量判定レベルLM、色変化量判定レベルLC、変化ブロック数NCB、データレート余裕度ADRの判定レベルLADRの総合的判定に加えて、画像要求度RVのレベルLRV(後述する)も考慮して画像データサイズの適応的変更を行うことができる。
ここで、画像データサイズは、通常のCIFに加えて、QCIF、SQCIFについて設定可能な場合を想定している。そして、例えば、
[L,LADR,LRV]→[SQCIF/QCIF/CIF]
の参照テーブルを考える場合には、LおよびLADR,LRVが0〜3の4段階の値をとるとすると、次の表3のように制御内容を設定することができる。
Figure 2006020354
上述の画像データサイズの変更を行なう場合に、変更直後のフレームに対してイントラ符号化を行なったイントラフレームを介さずに、連続的にフレーム間のサイズ変更を行なうことができる。拡大変更と縮小変更の両者についてそれぞれ以下のように実現することができる。
(ア)CIF→QCIF
CIF/QCIFダウンサンプリングの駆動により、時刻t(n−1)のCIF符号化フレーム(フレームメモリに格納されている)をQCIFに変換する。このQCIFに対して時刻t(n)のQCIFベースのフレーム間符号化を行う。デコーダ側ではピクチャヘッダ中のQCIF指示フラグにより、ダウンサンプリングを駆動する。
(イ)QCIF→CIF
QCIF/CIF双一次補間フィルタの駆動により、時刻t(n−1)のQCIF符号化フレーム(フレームメモリに格納されている)をCIFに変換する。このCIFに対して時刻t(n)のCIFベースのフレーム間符号化を行う。デコーダ側ではピクチャヘッダ中のCIF指示フラグにより、補間フィルタを駆動する。なお、この補間フィルタについてはサイズ間の切換えを行なう場合に対応して推奨されているものがある。
以上の方法により、イントラフレームを差し挟まなくともサイズ変更を実現することができるようになるので、符号化器1側で情報量を極端に増大させることなくフレームレートを維持することができるようになる。
[e]音声データと画像データとの比率に対する要求度の抽出
ヒューマンインターフェイスを簡略化するために、通信品質への要求を表現する場合において、必要な最低限の制御入力手段を以下に示す一次元尺度で考慮する。すなわち、音声比率に対する要求度Raとして、
Raij ;端末iで設定する端末jの符号化器の音声比率への要求度
として示す。
[e−1]連続制御
図10に示すように、音声(A)と映像(V)との間の比率(AV比率)を指定するつまみ29を表示装置29の前面部に設ける。これは、使用者によってスライド操作することにより比率を設定可能に設けられるもので、今、つまみ29aの示す値Tが0から1まで変化するとき、
Raij=T ;データ全体に占める音声データの割合
Rvij=1−T ;データ全体に占める映像データの割合
となる。これにより、
<1>モード制御
<2>変化検出しきい値の変更(DTH)
<3>量子化スケールの変更(QSCALE)
を行う。
[e−2]プロテクト機能
通信におけるプライバシ保護のため、自分の端末(端末1)の伝送品質を相手端末(端末2)に操作させる際には必ず使用者の許可を必要とするようにプロテクト機能を設けている。具体的には、図11にも示すように、モード設定用スイッチによるプロテクトON/OFFで実現する。通常の対話モードにおいては、プロテクトOFFの場合は、種々の音声および画像パラメータについて手動で設定するマニュアルモードと次項に示すように自己端末(端末1)と相手端末(端末2)との両者の要求度に基づいて決定される自動設定モードがある。また、上述の趣旨から、プロテクトONの場合は相手端末(端末2)から設定される要求を一切受け付けないようになっている。
[e−3]AV比率の制御に関する優先順序
上記プロテクト機能がOFFされた場合には、1対1の通信の場合においては、Raijの定義から端末1において以下の2つの要求度が発生して競合することになる。
Ra11;自分の端末(端末1)の音声符号化器に対する要求度
Ra21;相手の端末(端末2)から自分の端末1の音声符号化器に対して発生する要求度
上述の場合に、一般的には、背景情報についてユーザが持つ可制御性は音声情報よりも映像情報の方が低いと推察されるから、音声に比べて映像の方が自分の端末から送る際の可制御性を高める必要があると考えて次のような決定規則を設定する。
RA1=max[Ra11,Ra21]
RA1 ;端末iの音声符号化器に送る最終的な要求度
これは、コミュニケーションとしての電話機能を最低限満足するためには聞き手の音声品質に対する要求を満たすことが必須であることにも対応している。
[e−4]モード制御
被写体、用途などに応じたモード制御は、例えば、画像の付帯状況として使用環境や被写体あるいは用途などに応じて、符号化器1と復号化器16との間であらかじめ取り決められた符号化条件を備えており、それら各モードに対応して付されるコードをビットストリームデータに付加することにより、発生する情報量を大幅に削減させることができる。
ここで、設定可能なモードとしては、次のようなものが考えられている。例えば、使用環境に対応するモードとしては、屋内,屋外,あるいは自動車の中、さらには、それらの環境の中で固定モードか可動モードか等がある。また、被写体のモードとしては、人物,風景,静止物体あるいは図面,文字などのモードがあり、さらには人物のモードにおいては、頭部,上半身,全身あるいは複数人物などの様々なモードが考えられる。
さらには、符号化制御に関するモードとしては、画像中心優先モード,対象領域優先モード,動き優先モード,準動画モード,静止画モード,モデルベース予測モードなどの様々なモードがあるが、ここではモードの例を概略的に述べるにとどめる。
[f]パラメータ制御
[f−1]要求度に基づく符号化レートの決定
要求度に基づく符号化レートの決定画像要求度とデータレート余裕度とから符号化レートを決定する。すなわち、
[RV,ADR]→[BRA,BRV]
BRA;音声符号化レート
BRV;画像符号化レート
この目標に基づき、量子化スケール(QSCALE)と変化検出しきい値(DTH)の2つを既に記載した方法で変化させることで画像データ量を調整し、AV比率を制御する。
[f−2]遠隔モニタリングモードの符号化パラメータの遠隔制御
前述した音声要求度を決定した場合と同様にして、符号化パラメータの各値を設定する際にも自己の端末に対する制御値を優先するようなプロテクト機能を設ける。
このような遠隔モニタリングモードにおいては、前述したようなプロテクト機能をONさせて実行することにより、次のような効果を得ることができる。すなわち、通常の遠隔モニタリングモードにおいては、プロテクト機能をOFFにしている場合には、自己の端末(端末1)側で、相手端末(端末2)から送信される細かい符号化制御パラメータのセット(領域情報,量子化スケール,各種しきい値など)を受け取ることができるようになっているのに対して、プロテクト機能をONに設定することによりこれらのパラメータセットの受付を却下することになり、パラメータの変更設定を禁止した状態つまり、同一条件で符号化を行なうように保持してモニタリングを継続することになる。
[f−3]システム全体のパラメータ制御
以上のパラメータ決定関係を総合すると図12に表すことができる。すなわち、符号化パラメータの決定の要因として、画像により発生する情報量があり、これには動き量SM,色変化量DC,変化ブロック数NBC,1フレーム前の情報発生量LI,バッファ量(データレート余裕度ADR)などの要素があり、これらのレベルを判定した結果から画像関係の情報発生レベルを考慮し、一方で、音声に関する要求度Ra,音声信号の発生状況などから画像情報の符号化レートBRVが決まり、これによってそのときのフレームの符号化パラメータを対応づけて決定する。
決定する符号化パラメータの要素としては、前述したように、画像符号化レートBRV,量子化スケールQSC,変化ブロック判定しきい値DTH,画像データサイズCIF/QCIF/SQCIF,ブロック間変化量のサンプリング密度SD,画面全体の変化判定ブロック数のしきい値NCB_THなどがある。
そして、このようにして決定された符号化パラメータに基づいて符号化処理の演算が実行される。また、このような符号化の状態は常時観測されており、次回以降の符号化パラメータ決定に際して利用されるようになっている。
[g]ブロック雑音の除去
ブロック雑音の除去のために図13のようにしてポストフィルタを用いる。これは、復号化器16側において復号処理を行なって画像を再生する場合に、ブロック単位で再生を行なう際に、DCT係数の送信レベルを制御することにより、隣接するブロック間での輝度や色信号の変動が雑音として悪影響を与えるのを除去あるいはその影響力を緩和するためのものである。
実際には、例えば、図13(a)のように再生されたMBK(マクロブロック)間のラインに沿ってポストフィルタを用いてBLK雑音除去処理を行なう。このBLK雑音除去処理では、同図(b)に示すように、BLK境界に沿って並ぶ画素のデータに対して、隣接する8個の画素のデータを利用して重み付けを行なって加算演算することにより変換して周囲の画素のデータとの中間的な画素データとなるように変換するものである。この場合においては、例えば、自己の画素データを4,隣接する画素データを2,斜めに隣接する画素データを1の割合で重み付けして加算することにより変換処理を施す。
[h]可変GOB構造と識別番号の伝送
符号化器1および復号化器16の両者に、あらかじめ定義した共通のGOBパターンとそのIDコードを記憶しておき、符号化器1で用いたGOBパターンのIDコードのみを画像圧縮データに付加して既存プロトコル(H.261やH.263あるいはMPEG等)におけるユーザデータエリアなどを利用して伝送する。
可変GOBパターンとしては、例えば、図14および図15に示すようなものが考えられる。すなわち、図14(a),(b)では一般的なH.261規格,H.263規格にしたがったGOBパターンを示し、同図(c),(d)および図15(a)では変形させたGOBパターンを採用している。
変形GOB(その1)では、マクロブロックを4×4個まとめて1つのGOB単位を構成して画面に並べたパターンであり、変形GOB(その2)では、画面中央にマクロブロックを4×8個配置すると共に、その外周に隣接するマクロブロックを順次GOBの単位として配置したものである。また、変形GOB(その3)においては、所定のパターンに区切った変形GOBを配置している。図15(b)では、指定領域をGOBとして設定しており、同図(c),(d)では、QCIF,SQCIFを埋込んで配置したGOBパターンとしている。
さて、このようにGOBパターンを設定しておくことにより、復号化器16は送られてきた圧縮ビットストリームをGOB単位で通常の画像復号プロトコルによって解凍した後に、ユーザデータエリアなどに格納されたGOBパターンのIDコードをもとにGOBパターンデータベースから該当するGOBパターンを選択して、あらかじめ取り決められたGOB番号とGOB中のマクロブロック数に基づいて、復号したGOBデータを配置する。この方式によって、例えば、従来の画像のように左上部分から右下に向かう水平スキャンによる画一的なGOB構造に比べて、画像内容に則したGOB間のプライオリティを付けることができるようになる。
例えば、「変形GOBパターンその2」(図14(d)参照)では、画面中央の中心部分から先に伝送するので、伝送線路に誤りが混入して再送を繰り返すといった場合でも、重要な画像部分だけは統計的に少ない遅延時間で速く送ることができる。また、「変形GOBパターンその3」(図15(a)参照)では、略人物正面像に近い形状でGOBを区切ることができるようにしているので、GOB単位での効率的な符号割り当てを可能にしている。
また「QCIF埋込」(同図(c)参照)では、伝送レート内の画像に割り当てる符号レートが少なくなっても重要部分を良好な画質で且つ動きのある画像として見たいという場合に対応して、中央のQCIFのみの符号化への移行を簡単に行なうことができるようになる。なお、複数指定領域をGOBとする場合は、パターン識別番号のみでは不十分となるので、前述した[c−3]の領域に応じた制御の項で述べた領域の記述と伝送方法を用いることが必要になる。
ここで、指定領域外の背景画像部分をどのようにGOBとして区分けするかという問題が生ずるが、このような場合に対応した規則を符号化器1と復号化器16との両者の間で同じ内容として規定して記憶しておけば、特に新しい区分け情報を伝送する必要はなくなる。
このような本実施例によれば、次のような効果を得ることができる。
すなわち、第1に、変化領域抽出部6により、そのフレーム内のマクロブロックのうちの変化ブロックを検出してその変化ブロックについてのみフレーム内符号化処理を行なうので、携帯電話機のような限られた伝送容量(例えば、9600bps)の範囲内で変化が生じている領域についての情報を有効に伝送することができると共に、伝送誤りに強い画像再生を行なえて、無線系にも強い動画像伝送を行なえる。
さらに、フレーム内符号化を行なうので、一般的な動画像圧縮の場合と異なり、前フレームに対する差分を演算したり動き補償差分符号化の演算ループなどの構成が不要となり、その分だけ演算処理量を大幅に削減することができて、例えば、パソコンなどの処理によっても十分に対応でき、携帯用情報端末を用いた画像伝送を行うことができるようになる。
また、符号化条件設定手段としての符号化制御部8により、変化ブロックについての符号化を行なう際に、変化ブロックの発生量や変化量等のデータに応じて符号化処理の条件を伝送容量の範囲内で変更して必要な情報を取捨選択してより良質な動画像を伝送することができるようになる。
第2に、符号化制御部8において、変化ブロックにより発生する情報発生量を、動き量,色変化量,変化ブロック個数,データレートの余裕度,音声符号化レートなどから符号化パラメータを決定するので、画像の変化に応じて弾力的に符号化条件の変更設定を行なうことができる。
第3に、上述のように情報発生量およびデータレートの余裕度の変化に基づいて、符号化パラメータとして、画像符号化レート,量子化スケール,変化ブロック判定しきい値,画像データサイズ,ブロック間変化量計算のサンプリング密度あるいは画面全体の変化判定のブロック数のしきい値を変更設定するので、符号化処理に際して有効な符号化を行なうことができるようになる。
第4に、音声情報を同時に伝送する場合に、その音声情報の発生状況に応じて画像情報の伝送容量を求めて、符号化条件を適応的に変更設定するので、限られた伝送容量の中で、画像情報を効率的に送信して使用者が必要とする領域を精度良く再生することができる。
第5に、音声情報の突発的増大を検出して画像情報の送信を弾力的に制限するので、音声情報の送信を優先しながら、音声情報が少ないときに画像情報を精度良く送信することができるようになる。
第6に、音声情報の符号化要求度を設定可能にしたので、画像情報に対して音声情報を優先しながら伝送容量の範囲で画像情報を有効に利用して送信することができるようになる。
第7に、プロテクト機能を設けたので、外部からの符号化要求度設定に対してプライバシーの保護を図ることもできる。
本発明は、上記実施例にのみ限定されるものではなく、次のように変形また拡張できる。
映像ソースとしては、カメラ2に限らず、ビデオ映像の画像情報を利用するものでも良い。
信号送信部および信号受信部で信号の授受を行なう媒体としてはデジタル携帯電話機に限らず、他の通信手段を用いても良いし、さらには無線系だけではなく有線系の通信経路に適用することもできる。
音声情報と画像情報とを同時に送信する場合に限らず、画像情報のみの通信を行なう場合にも適用できる。
AV比率の設定用つまみはスライド式以外に、回転式のものでも良いし、デジタル的に設定するものでも良い。また、必要に応じて省いた構成とすることもできる。
プロテクト機能は必要に応じて設ければ良い。
符号化レートを決定するための参照テーブルは、表1〜3以外に適宜設定することができる。
可変GOBパターンの適応的変更や画像データサイズの適応的変更の制御については必要に応じて設けることができる。また、これらを使用しない場合には、復号化器の構成上において、既存の規格のものを適用することができる。
9600bpsの携帯電話機の場合を説明したが、H.263規格で対象とされている64kbps程度以下の伝送容量の場合にも同様に適用でき、動画像伝送に有効に利用することができる。
本発明の一実施例を示す全体のブロック構成図 全体の概略的動作を示すフローチャート 画像情報の状態観測動作を示すフローチャート 符号化状態と要求の判定動作を示すフローチャート 符号化パラメータ決定動作を示すフローチャート 符号化演算処理動作を示すフローチャート 画素のサンプリングパターンを示す説明図 音声データ量変動の検出動作を示すフローチャート 領域に応じたしきい値変更制御の動作を示すフローチャート AV比率を設定するつまみの部分を示す表示装置の正面図 プロテクト機能の動作を示す作用説明図 符号化パラメータ決定の総合的な関係を示すブロック図 ポストフィルタの説明図 可変GOBパターン(その1) 可変GOBパターン(その2)
符号の説明
1は符号化器、2はカメラ(撮像手段)、3はA/D変換部、4はRGB/CIF変換部、5は二次元高速DCT部、6は変化領域抽出部(変化ブロック検出手段)、7は量子化部、8は符号化制御部(符号化条件設定手段)、9は有意係数属性制御部、10は可変長符号化部、11は階層結合部、12はバッファ、13は信号送信部、14はRS232c通信処理部、15はデジタル携帯電話機、16は復号化器、17は信号受信部、18はデジタル携帯電話機、19はRS232c通信処理部、20はバッファ、21はパーザ、22は可変長復号化部、23は有意係数属性再生部、24は逆量子化部、25は二次元高速逆DCT部、26は復号化制御部、27はCIF/RGB変換部、28はD/A変換部、29は表示器、29aはAV比率設定用のつまみである。

Claims (24)

  1. 複数のブロックから構成される1フレームの画像データをそのブロック単位で符号化および圧縮処理をすることにより所定の伝送容量の範囲内の送信信号を生成する動画像情報の符号化装置において、
    前記フレーム中の複数のブロックのうちで前フレームの画像データとの変化量が判定しきい値以上であるときにこれを変化ブロックとして検出する変化ブロック検出手段と、
    送信可能な伝送容量の範囲内で前記フレームの画像データを符号化する際に、前記変化ブロック検出手段により検出された前記変化ブロックの情報量に応じて符号化条件を変更設定する符号化条件設定手段と、
    この符号化条件設定手段により設定される符号化条件で前記変化ブロックのみを符号化処理をして伝送信号を生成する符号化処理手段とを具備し、
    前記符号化条件設定手段は、前記変化ブロック検出手段により検出された変化ブロックの総数に応じて変換係数の伝送量を制御するようにしきい値が設定されていることを特徴とする動画像情報の符号化装置。
  2. 複数のブロックから構成される1フレームの画像データをそのブロック単位で符号化および圧縮処理をすることにより所定の伝送容量の範囲内の送信信号を生成する動画像情報の符号化装置において、
    前記フレーム中の複数のブロックのうちで前フレームの画像データとの変化量が判定しきい値以上であるときにこれを変化ブロックとして検出する変化ブロック検出手段と、
    送信可能な伝送容量の範囲内で前記フレームの画像データを符号化する際に、前記変化ブロック検出手段により検出された前記変化ブロックの情報量に応じて符号化条件を変更設定する符号化条件設定手段と、
    この符号化条件設定手段により設定される符号化条件で前記変化ブロックのみを符号化処理をして伝送信号を生成する符号化処理手段とを具備し、
    前記符号化条件設定手段は、フレーム内の領域に応じて符号化のレベルを異なるように設定することが可能に構成されていることを特徴とする動画像情報の符号化装置。
  3. 請求項2記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、前記符号化のレベルを異ならせる領域を設定可能に構成されていることを特徴とする動画像情報の符号化装置。
  4. 請求項2または3に記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、前記領域を設定するためのデータをあらかじめ決められているフォーマットにより設定可能に設けられていることを特徴とする動画像情報の符号化装置。
  5. 請求項2ないし4のいずれかに記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、前記領域を複数設定したときにそれぞれの領域に対して符号化処理をする際に優先順位を設定可能に設けられていることを特徴とする動画像情報の符号化装置。
  6. 請求項5記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、前記領域を複数設定したときにそれぞれの領域に対して異なる符号化条件を設定可能に設けられていることを特徴とする動画像情報の符号化装置。
  7. 請求項2ないし6のいずれかに記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、フレーム全体の画像データの変化量が減少したときに、前記変化ブロック検出手段による変化ブロックの検出に際して用いる判定のしきい値を低くするように変更設定することを特徴とする動画像情報の符号化装置。
  8. 請求項2ないし7のいずれかに記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、フレーム全体の画像データの変化量が減少したときに、前記変化ブロック検出手段による変化ブロックの符号化に際して用いる量子化スケールを低くするように変更設定することを特徴とする動画像情報の符号化装置。
  9. 請求項7または8に記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、フレーム内の画像データの不変領域に対して前記変更設定を行なうことを特徴とする動画像情報の符号化装置。
  10. 請求項7ないし9のいずれかに記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、フレーム内の画像データの画面全体に対して前記変更設定を行なうことを特徴とする動画像情報の符号化装置。
  11. 請求項7ないし10のいずれかに記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、フレーム内の画像データの特定領域に対して前記変更設定を行なうことを特徴とする動画像情報の符号化装置。
  12. 請求項1ないし11のいずれかに記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、前記フレームにおける画像情報の発生量と送信可能な伝送容量との関係から必要に応じてフレームサイズを変更設定するように構成されていることを特徴とする動画像情報の符号化装置。
  13. 請求項12記載の動画像情報の符号化装置において、
    前記符号化処理手段は、前記フレームサイズを縮小する側に変更設定されたときには、変更前のフレームの画像データを変更後のフレームの画像データに対応するようにサンプリングすることにより適合させるように構成されていることを特徴とする動画像情報の符号化装置。
  14. 請求項12または13記載の動画像情報の符号化装置において、
    前記符号化処理手段は、フレームサイズを拡大する側に変更設定されたときには、変更前のフレームの画像データを変更後のフレームの画像データに対応させたときに画像データのない画素について隣接する画素の画像データから補間して画像データを生成する補間フィルタを備えていることを特徴とする動画像情報の符号化装置。
  15. 請求項1ないし14のいずれかに記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、外部から符号化条件を変更設定する入力に対してこれを無効化させるプロテクト機能を設定可能に構成されていることを特徴とする動画像情報の符号化装置。
  16. 請求項1ないし15のいずれかに記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、フレームを形成している被写体あるいは用途等に応じてその付帯状況をあらかじめ決められたコードで設定するモード条件が記憶されており、前記符号化処理の際にモード条件を使用して符号化を行なったときにはその送信信号にモード条件を指定するコードを付加するように構成されていることを特徴とする動画像情報の符号化装置。
  17. 請求項1ないし16のいずれかに記載の動画像情報の符号化装置において、
    画像情報と同時に送信するための音声情報を符号化する音声情報処理手段を備え、
    前記符号化処理手段は、画像情報を符号化して伝送する際の画像伝送容量を、前記伝送容量から前記音声情報の伝送に割り当てられる音声伝送容量を差し引いた分としてその範囲内で符号化処理を行なうように構成されていることを特徴とする動画像情報の符号化装置。
  18. 請求項17記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、前記伝送容量に対する画像伝送容量の判定を前記音声伝送容量に基づいて判定するように構成されていることを特徴とする動画像情報の符号化装置。
  19. 請求項17または18記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、前記音声伝送容量をあらかじめ設定可能に設けられ、音声情報の発生に応じて前記設定された音声伝送容量の範囲で符号化条件を設定し、音声情報の発生量が音声伝送容量よりも低下しているときには前記画像伝送容量を増加させて符号化条件を設定するように構成されていることを特徴とする動画像情報の符号化装置。
  20. 請求項19に記載の動画像情報の符号化装置において、
    前記伝送容量に対する前記音声伝送容量の比率を設定する容量比設定手段を設け、
    前記符号化条件設定手段は、前記容量比設定手段により設定された比率に基づいて音声伝送容量を設定することを特徴とする動画像情報の符号化装置。
  21. 請求項19または20記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、前記送信信号を授受する他の装置から指定される伝送容量に対する音声伝送容量の比率に基づいて音声伝送容量を設定することを特徴とする動画像情報の符号化装置。
  22. 請求項17ないし21のいずれかに記載の動画像情報の符号化装置において、
    前記音声情報処理手段は、音声通信に支障を来さない程度に設定される許容遅延時間の範囲内で、インパルスノイズを識別できる程度で且つ十分短く設定されるサンプリング時間を単位としてそのサンプリング時間内で入力される音声信号を積分してその積分値が音声増大判定のしきい値を超えたときに、前記あらかじめ設定されている伝送量の限度の範囲内で前記伝送容量を大きく設定するように構成されていることを特徴とする動画像情報の符号化装置。
  23. 請求項17ないし22のいずれかに記載の動画像情報の符号化装置において、
    前記符号化条件設定手段は、外部から符号化条件を変更設定する入力に対してこれを無効化させるプロテクト機能を設定可能に構成されていることを特徴とする動画像情報の符号化装置。
  24. 請求項1ないし23のいずれかに記載の動画像情報の符号化装置において、
    前記符号化処理手段は、フレーム内の複数のブロックをひとつのグループとして設定される符号化処理ブロックグループの設定パターンをあらかじめ複数種類登録されており、伝送信号に符号化処理を行ったときの設定パターンの情報を付加することを特徴とする動画像情報の符号化装置。

JP2005225428A 2005-08-03 2005-08-03 動画像情報の符号化装置 Expired - Fee Related JP4508029B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005225428A JP4508029B2 (ja) 2005-08-03 2005-08-03 動画像情報の符号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005225428A JP4508029B2 (ja) 2005-08-03 2005-08-03 動画像情報の符号化装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP03047897A Division JP4341078B2 (ja) 1997-02-14 1997-02-14 動画像情報の符号化装置

Publications (2)

Publication Number Publication Date
JP2006020354A true JP2006020354A (ja) 2006-01-19
JP4508029B2 JP4508029B2 (ja) 2010-07-21

Family

ID=35794090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005225428A Expired - Fee Related JP4508029B2 (ja) 2005-08-03 2005-08-03 動画像情報の符号化装置

Country Status (1)

Country Link
JP (1) JP4508029B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1885120A2 (en) 2006-08-01 2008-02-06 Samsung Electronics Co., Ltd. Apparatus and method for taking moving picture in portable terminal
JP2009177443A (ja) * 2008-01-24 2009-08-06 Canon Inc 符号化装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07131787A (ja) * 1993-11-05 1995-05-19 Fujitsu Ltd 画像データ符号化方法および装置
JPH07131794A (ja) * 1993-11-05 1995-05-19 Fujitsu Ltd 画像データ符号化方法および装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07131787A (ja) * 1993-11-05 1995-05-19 Fujitsu Ltd 画像データ符号化方法および装置
JPH07131794A (ja) * 1993-11-05 1995-05-19 Fujitsu Ltd 画像データ符号化方法および装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1885120A2 (en) 2006-08-01 2008-02-06 Samsung Electronics Co., Ltd. Apparatus and method for taking moving picture in portable terminal
US20080030582A1 (en) * 2006-08-01 2008-02-07 Samsung Electronics Co., Ltd. Apparatus and method for taking moving picture in portable terminal
EP1885120A3 (en) * 2006-08-01 2011-07-20 Samsung Electronics Co., Ltd. Apparatus and method for taking moving picture in portable terminal
JP2009177443A (ja) * 2008-01-24 2009-08-06 Canon Inc 符号化装置

Also Published As

Publication number Publication date
JP4508029B2 (ja) 2010-07-21

Similar Documents

Publication Publication Date Title
JP5318424B2 (ja) 関心領域映像符号化に関するコンテンツ適応型背景スキップ
JP5301645B2 (ja) テレビ電話のための背景のスキッピングを用いた関心領域の符号化
JP5301720B2 (ja) ロー領域ビット割り振りを使用するテレビ電話における関心領域の符号化
US20160100166A1 (en) Adapting Quantization
JP5410553B2 (ja) テレビ電話のための品質メトリックバイアス関心領域コーディング
US8270476B2 (en) Face detection system for video encoders
US20040158719A1 (en) Video encoder capable of differentially encoding image of speaker during visual call and method for compressing video signal using the same
JP2008532427A5 (ja)
JPH10257489A (ja) 映像符号化のためのビット発生量調節装置及び方法
JPH04196976A (ja) 画像符号化装置
JPH0879748A (ja) 神経網を用いた量子化ステップサイズ制御装置
JP4341078B2 (ja) 動画像情報の符号化装置
JP4508029B2 (ja) 動画像情報の符号化装置
JP2005507621A (ja) ビットレート誘導された周波数加重行列選択
KR20040062732A (ko) 오브젝트 기반 비트율 제어방법 및 장치
WO2016054307A1 (en) Adapting quantization within regions-of-interest
EP1641269A1 (en) Image encoding device and image encoding method
KR100770873B1 (ko) 영상 부호화시 비트율 제어 방법 및 장치
JP4517453B2 (ja) 画像情報変換装置及び方法並びに符号化装置及び方法
JPH0244881A (ja) 動画像符号化方式
KR100543608B1 (ko) 오브젝트 기반 비트율 제어방법 및 장치
JP2004248124A (ja) 階層的画像符号化装置および階層的画像復号装置
JP2004532568A (ja) 映像通信
JPH08181997A (ja) 画像符号化装置及び画像復号化装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091013

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100413

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100426

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees