WO2011030680A1

WO2011030680A1 - 符号化装置、符号化方法、および符号化プログラム

Info

Publication number: WO2011030680A1
Application number: PCT/JP2010/064603
Authority: WO
Inventors: 天野勝博
Original assignee: ブラザー工業株式会社
Priority date: 2009-09-08
Filing date: 2010-08-27
Publication date: 2011-03-17
Also published as: JP2011061362A

Abstract

　ネットワークへのデータ出力のビットレートを、ネットワークの帯域の変動に素早く追従して変更することができる符号化装置、符号化方法、および符号化プログラムを提供する。テレビ会議装置は、ネットワークの帯域の情報を検出する。検出した情報に基づいて非参照ピクチャの生成条件を決定する。決定した生成条件で入力画像４１を符号化し、符号化データ４８を生成する。テレビ会議装置は、ネットワークの可用帯域が低下した場合に、生成した符号化データのうち、他のいずれのピクチャの復号化時にも参照されないピクチャである非参照ピクチャを削除する。削除されなかった残りのピクチャのみをネットワークへ出力する。

Description

符号化装置、符号化方法、および符号化プログラム

　本発明は、画像データを画像圧縮符号化してネットワークに出力する符号化装置、符号化方法、および符号化プログラムに関する。

　従来、動画像のデータをネットワークに出力するための様々な技術が知られている。データをネットワークに出力する場合、出力のビットレートをネットワークの帯域に応じて制御する技術が知られている。例えば、特許文献１に記載の通信サービスユニットは、バッファにデータを一時的に保存することで、帯域に応じたデータ送信を行っている。この場合、バッファのオーバーフローの発生を防止する必要があるため、エンコーダのビットレートを減少させることも行われている。

特開２００２－２１７９８９号公報

　しかしながら、エンコーダのビットレートを減少させる従来の技術では、ビットレートを減少させてから、減少させたビットレートで実際にデータが出力されるまでには、符号化処理等を経る必要があるため時間遅延が生じる。従って、帯域の変動に素早く追従してネットワークへの出力のビットレートを変更することはできなかった。

　本発明は、ネットワークへのデータ出力のビットレートを、ネットワークの帯域の変動に素早く追従して変更することができる符号化装置、符号化方法、および符号化プログラムを提供することを目的とする。

　本発明の第一の態様に係る符号化装置は、画像入力手段によって入力される画像データを符号化して、他のピクチャの復号化時に参照されるピクチャである参照ピクチャ、および他のいずれのピクチャの復号化時にも参照されないピクチャである非参照ピクチャからなる連続するピクチャを生成し、ネットワークに出力する符号化装置であって、前記ネットワークの帯域の情報を検出する検出手段と、前記非参照ピクチャの生成条件を、前記検出手段によって検出された帯域の情報に基づいて決定する決定手段と、前記決定手段によって決定された生成条件で画像データを符号化する符号化手段と、前記符号化手段によって符号化されたピクチャのうち非参照ピクチャを、前記検出手段によって検出された帯域の情報に応じて削除する削除手段と、前記削除手段によって前記非参照ピクチャが削除された残りのピクチャを前記ネットワークへ出力する出力手段とを備えている。

　第一の態様に係る符号化装置は、削除しても映像品質への影響が少ない非参照ピクチャの生成条件を、ネットワークの帯域の情報に応じて決定することができる。そして、生成した非参照ピクチャを、ネットワークの帯域の情報に応じて、ネットワークへの出力前に削除することができる。よって、符号化処理等を経ることによる時間遅延を生じさせずに、ネットワークの帯域の変動に素早く追従して、データ出力のビットレートを変更することができる。

　前記検出手段は、前記ネットワークの帯域の変動量を前記帯域の情報として検出する第一検出手段を備えてもよい。前記決定手段は、前記第一検出手段によって検出された前記変動量に基づいて、参照ピクチャと非参照ピクチャとからなる所定期間内で生成されるピクチャの数に対する非参照ピクチャの数の割合を前記生成条件として決定すればよい。符号化装置は、非参照ピクチャの割合を増やせば、多くの非参照ピクチャを削除することができるため、ネットワークへの出力のビットレートを急激に減少させることもできる。一方、符号化装置は、非参照ピクチャの割合を減らせば、効率よく符号化処理を行うことができる。従って、符号化装置は、削除しても映像品質への影響が少ない非参照ピクチャの割合を、帯域の変動量に合わせて生成することで、適切な処理を行うことができる。

　前記決定手段は、フレーム間符号化によって他のピクチャとの間の予測誤差が符号化されることで生成される非参照ピクチャについての、前記所定期間内で生成されるピクチャの数に対する割合を、前記生成条件として決定してもよい。画像圧縮符号化では、フレーム内符号化によって生成されるＩピクチャ（Ｉｎｔｒａ－ｃｏｄｅｄ　Ｐｉｃｔｕｒｅ）が非参照ピクチャとなる場合と、フレーム間符号化によって生成されるＰピクチャ（Ｐｒｅｄｉｃｔｉｖｅ－ｃｏｄｅｄ　Ｐｉｃｔｕｒｅ）およびＢピクチャ（Ｂｉｄｉｒｅｃｔｉｏｎａｌ－ｃｏｄｅｄ　Ｐｉｃｔｕｒｅ）が非参照ピクチャとなる場合とがある。フレーム間符号化によって生成されるピクチャのデータサイズは、フレーム内符号化によって生成されるＩピクチャのデータサイズよりも小さい。従って、決定手段が、フレーム間符号化によって生成される非参照ピクチャの生成割合を決定すると、生成割合を変更した場合でも、生成されるピクチャのデータサイズが急激に増大することはない。よって、ネットワークの帯域に与える負荷を増大させることがない。

　前記検出手段は、前記ネットワークの帯域を前記帯域の情報として検出する第二検出手段を備えてもよい。前記削除手段は、前記第二検出手段によって検出された帯域が低下した場合に非参照ピクチャを削除すればよい。この場合、符号化装置は、帯域が低下した場合に、データ出力のビットレートを素早く減少させることができる。よって、帯域が輻輳状態となることを適切に防止することができる。

　前記符号化装置は、データを一時的に保存するバッファに、前記符号化手段によって符号化されたピクチャを記憶させる記憶制御手段を備えてもよい。前記削除手段は、前記バッファに保存されている非参照ピクチャを削除すればよい。この場合、符号化装置は、バッファ内に保存されている非参照ピクチャを適宜削除することができるため、削除処理を容易に行うことができる。

　前記検出手段は、前記バッファの空き容量の変動量を前記帯域の情報として検出する第三検出手段を備えてもよい。前記決定手段は、前記第三検出手段によって検出された前記バッファの空き容量の変動量に基づいて前記生成条件を決定すればよい。この場合、符号化装置は、装置内の内部的要因を含めたネットワークの帯域の情報をバッファから計測し、非参照ピクチャの生成条件を決定することができる。よって、より適切に非参照ピクチャを生成することができる。

　前記決定手段は、繰り返し生成される複数のピクチャの中で、非参照ピクチャが生成されてから次に非参照ピクチャが生成されるまでの間に生成される参照ピクチャの数の偏りを最小とする前記生成条件を決定することが望ましい。この場合、連続するピクチャの中の非参照ピクチャが偏って生成されることなく、分散して生成される。よって、符号化装置が非参照ピクチャを削除した場合でも、映像が途切れるように再生されるおそれを低下させることができる。

　前記削除手段は、Ｐピクチャである非参照ピクチャよりも、Ｉピクチャである非参照ピクチャを優先して削除することが望ましい。データ量がＰピクチャよりも大きいＩピクチャを優先して削除することで、ネットワークの帯域の変動により素早く追従し、削除するピクチャの数を減少させることができる。

　本発明の第二の態様に係る符号化方法は、画像入力手段によって入力された画像データを符号化して、他のピクチャの復号化時に参照されるピクチャである参照ピクチャ、および他のいずれのピクチャの復号化時にも参照されないピクチャである非参照ピクチャからなる連続するピクチャを生成し、ネットワークに出力する符号化方法であって、前記ネットワークの帯域の情報を検出する検出ステップと、前記非参照ピクチャの生成条件を、前記検出ステップによって検出された帯域の情報に基づいて決定する決定ステップと、前記決定ステップによって決定された生成条件で画像データを符号化する符号化ステップと、前記符号化ステップによって符号化されたピクチャのうち非参照ピクチャを、前記検出ステップによって検出された帯域の情報に応じて削除する削除ステップと、前記削除ステップによって前記非参照ピクチャが削除された残りのピクチャを前記ネットワークへ出力する出力ステップとを備えている。

　第二の態様に係る符号化方法によると、削除しても映像品質への影響が少ない非参照ピクチャの生成条件を、ネットワークの帯域の情報に応じて決定することができる。そして、生成した非参照ピクチャを、ネットワークの帯域の情報に応じて、出力前に削除することができる。よって、符号化処理等を経ることによる時間遅延を生じさせずに、ネットワークの帯域の変動に素早く追従して、データ出力のビットレートを変更することができる。

　本発明の第三の態様に係る符号化プログラムは、画像入力手段によって入力された画像データを符号化して、他のピクチャの復号化時に参照されるピクチャである参照ピクチャ、および他のいずれのピクチャの復号化時にも参照されないピクチャである非参照ピクチャからなる連続するピクチャを生成し、ネットワークに出力する符号化プログラムであって、コンピュータに、前記ネットワークの帯域の情報を検出する検出ステップと、前記非参照ピクチャの生成条件を、前記検出ステップによって検出された帯域の情報に基づいて決定する決定ステップと、前記決定ステップによって決定された生成条件で画像データを符号化する符号化ステップと、前記符号化ステップによって符号化されたピクチャのうち非参照ピクチャを、前記検出ステップによって検出された帯域の情報に応じて削除する削除ステップと、前記削除ステップによって前記非参照ピクチャが削除された残りのピクチャを前記ネットワークへ出力する出力ステップとを実行させることを特徴とする。

　本発明の第三の態様に係る符号化プログラムによると、削除しても映像品質への影響が少ない非参照ピクチャの生成条件を、ネットワークの帯域の情報に応じて決定することができる。そして、生成した非参照ピクチャを、ネットワークの帯域の情報に応じて、出力前に削除することができる。よって、符号化処理等を経ることによる時間遅延を生じさせずに、ネットワークの帯域の変動に素早く追従して、データ出力のビットレートを変更することができる。

テレビ会議装置１の電気的構成を示すブロック図である。第一の実施形態に係るテレビ会議装置１の機能ブロック図である。テレビ会議装置１が行うメイン処理のフローチャートである。変動量の割合が０％、ＧＯＰ中のピクチャ数が１０である場合に決定される生成条件の例である。変動量の割合が５０％、ＧＯＰ中のピクチャ数が１０である場合に決定される生成条件の例である。変動量の割合が４０％、ＧＯＰ中のピクチャ数が１０である場合に決定される生成条件の例である。変動量の割合が９０％、ＧＯＰ中のピクチャ数が１０である場合に決定される生成条件の例である。第一の実施形態に係るメイン処理で実行されるフレーム毎処理のフローチャートである。第二の実施形態に係るテレビ会議装置１０１の機能ブロック図である。第二の実施形態に係るメイン処理で実行されるフレーム毎処理のフローチャートである。

　以下、本発明の符号化装置を具現化した第一の実施形態であるテレビ会議装置１について、図面を参照して説明する。なお、参照する図面は、本発明が採用し得る技術的特徴を説明するために用いられるものである。図面に記載されている装置の構成、各種処理のフローチャート等は、それのみに限定する趣旨ではなく、単なる説明例である。

　テレビ会議装置１は、ネットワーク８（図１参照）を介して他のテレビ会議装置１と接続する。各テレビ会議装置１は、画像データおよび音声データを互いに入出力する。その結果、複数の拠点のユーザが映像および音声を共有することができる。よって、全てのユーザが同一拠点にいない場合でも、ユーザは円滑に会議を実行することができる。

　図１を参照して、テレビ会議装置１の電気的構成について説明する。テレビ会議装置１は、テレビ会議装置１の制御を司るＣＰＵ１０を備えている。ＣＰＵ１０には、ＲＯＭ１１、ＲＡＭ１２、ハードディスクドライブ（以下、「ＨＤＤ」という。）１３、および入出力インターフェース１９が、バス１８を介して接続されている。

　ＲＯＭ１１は、テレビ会議装置１を動作させるためのプログラムおよび初期値等を記憶している。ＲＡＭ１２は、制御プログラムで使用される各種の情報を一時的に記憶する。ＨＤＤ１３は、各種の情報を記憶する不揮発性の記憶装置である。ＨＤＤ１３の代わりに、ＥＥＰＲＯＭまたはメモリカード等の記憶装置を用いてもよい。

　入出力インターフェース１９には、音声入力処理部２１、音声出力処理部２２、映像入力処理部２３、映像出力処理部２４、操作部２５、および外部通信Ｉ／Ｆ２６が接続されている。音声入力処理部２１は、音声を入力するマイク３１からの音声データの入力を処理する。音声出力処理部２２は、音声を出力するスピーカ３２の動作を処理する。映像入力処理部２３は、映像を撮像するカメラ３３からの映像データ（動画像データ）の入力を処理する。映像出力処理部２４は、映像を表示する表示装置３４の動作を処理する。操作部２５は、ユーザがテレビ会議装置１に各種指示を入力するために用いられる。外部通信Ｉ／Ｆ２６は、テレビ会議装置１をネットワーク８に接続する。

　ＲＡＭ１２について詳細に説明する。ＲＡＭ１２には、ワークエリア１２１、およびＦＩＦＯバッファエリア１２２（以下、「ＦＩＦＯバッファ１２２」とも言う。）等の各種記憶エリアが設けられている。ワークエリア１２１には、処理に必要なフラグ等の各種データが記憶される。ＦＩＦＯバッファエリア１２２には、符号化された画像のデータである符号化データが、ネットワーク８に出力される前に一時的に記憶される。なお、ＦＩＦＯバッファとは、格納したデータを先に格納した順に出力する方式のバッファである。

　次に、テレビ会議装置１における画像データの処理の概要について説明する。テレビ会議装置１は、カメラ３３から入力された画像データを、Ｈ．２６４の規格に基づいて画像圧縮符号化し、符号化データを生成する。テレビ会議装置１は、生成した符号化データを、ネットワーク８を介して他のテレビ会議装置１に出力する。なお、テレビ会議装置１は、他のテレビ会議装置１からネットワーク８を介して入力された符号化データを復号して表示装置３４に表示させる。しかし、この処理は本発明の要部ではないため、以下では画像圧縮符号化および符号化データの出力の処理について説明を行う。画像圧縮符号化には、フレーム内符号化とフレーム間符号化とがある。

　フレーム内符号化とは、カメラによって入力された連続する複数フレーム分の画像データのうちの１フレーム分の画像データ内で、画面内予測によって行われる符号化である。フレーム内符号化によって生成される符号化データであるＩピクチャ（Ｉｎｔｒａ－ｃｏｄｅｄ　Ｐｉｃｔｕｒｅ）は、他のピクチャを参照することなく単独で復号化される。

　一方、フレーム間符号化では、連続するフレームのデータのうち、符号化されるフレームのデータとは異なるフレームのデータが参照されて予測誤差が計算され、計算された予測誤差が符号化される。フレーム間符号化によって生成される符号化データには、Ｐピクチャ（Ｐｒｅｄｉｃｔｉｖｅ－ｃｏｄｅｄ　Ｐｉｃｔｕｒｅ）およびＢピクチャ（Ｂｉｄｉｒｅｃｔｉｏｎａｌ－ｃｏｄｅｄ　Ｐｉｃｔｕｒｅ）がある。本実施形態では、過去のピクチャを参照することで生成されるＰピクチャが主に利用される。Ｐピクチャを復号するには、符号化時に参照されたピクチャが必要となる。しかし、Ｐピクチャのデータ量は、単独で復号化されるＩピクチャに比べて少ない。

　他のいずれかのＰピクチャの復号化時に参照されるピクチャを「参照ピクチャ」という。一方、他のいずれのＰピクチャの復号化時にも参照されないピクチャを「非参照ピクチャ」という。一般に、ＩピクチャとＰピクチャとを連続して生成する場合、Ｉピクチャは参照ピクチャとされる場合が多い。しかし、Ｉピクチャ、Ｉピクチャ、Ｐピクチャという順に符号化データが生成された場合、Ｐピクチャの復号化時にそのＰピクチャの直前のＩピクチャを参照していれば、最初のＩピクチャは非参照ピクチャとなる。Ｐピクチャの復号化時には、ＩピクチャおよびＰピクチャのいずれを参照することもできる。また、Ｐピクチャは、参照ピクチャおよび非参照ピクチャのいずれにもなり得る。

　図２に示すように、テレビ会議装置１では、まず、カメラ３３からの入力画像４１に対してＤＣＴ／量子化４２が行われる。ここでは、ＤＣＴ（Ｄｉｓｃｒｅｔｅ　Ｃｏｓｉｎｅ　Ｔｒａｎｓｆｏｒｍ：離散コサイン変換）によって変換された係数が、量子化パラメータに従って量子化される。次いで、量子化された後のデータの一部に対し、逆量子化／逆ＤＣＴ４３が行われる。逆量子化／逆ＤＣＴ４３が施されたデータにデブロッキングフィルタ４４がかけられて、フレームメモリ４５に記憶される。

　フレーム内符号化が行われる場合には、フレームメモリ４５に記憶されたデータに対し、画面内予測４６が行われ、さらにＤＣＴ／量子化４２が行われる。量子化されたデータに対し、エントロピー符号化４７が行われる。エントロピー符号化４７によって生成された符号化データ４８は、ＦＩＦＯバッファ１２２に入力される。ＦＩＦＯバッファ１２２に入力された符号化データは、後述する非参照ピクチャ削除手段４９を経て、削除されなかった符号化データのみがネットワーク出力５０の対象となる。

　フレーム間符号化が行われる場合には、入力画像４１によって動き予測５１が行われ、フレームメモリ４５内の以前の予測画像に基づく動き補償５２が行われる。動き補償５２によって算出された予測誤差に対して、明るさに関する重み係数による重み付き予測５３が行われ、さらにＤＣＴ／量子化４２が行われる。量子化されたデータに対し、エントロピー符号化４７が行われて、符号化データ４８が生成される。以後の流れは、フレーム内符号化の場合と同じである。

　ここで、ネットワーク８の帯域が低下した場合（狭くなった場合）の処理について説明する。高いビットレートによるデータ出力を、帯域が低下した状態で行うと、輻輳状態の発生、パケットロス等の不具合が生じるおそれがある。その結果、映像品質の劣化が生じる。

　従来では、例えば、符号化データを一時的に保存するバッファ（本実施形態における「ＦＩＦＯバッファ１２２」）を設けることで、帯域に応じた符号化データの出力を行う装置がある。この装置では、ＦＩＦＯバッファ１２２のオーバーフローを防止する必要がある。そこで、ＦＩＦＯバッファ１２２の空き容量を監視し、空き容量が減少した場合に、ＤＣＴ／量子化４２における量子化パラメータへのフィードバックを行うことで、符号化データのデータ量を調整している。しかし、量子化パラメータを変更してから、変更された量子化パラメータに基づいて符号化データが実際に生成されるまでには、符号化処理等を経る必要があるため時間遅延が生じる。よって、ビットレートを素早く変更することはできず、オーバーフローが生じるおそれは残る。さらに、ＦＩＦＯバッファ１２２で符号化データをバッファリングする方法では、バッファリングされた符号化データがネットワーク８に出力されるまでに時間遅延が生じる。従って、帯域の変動に素早く追従してビットレートを変更することはできなかった。その結果、例えばテレビ会議を行っている場合には、映像の再生が遅れ、ユーザは円滑に会議を実行できなかった。

　第一の実施形態のテレビ会議装置１は、ネットワーク８の可用帯域計測５５、およびＦＩＦＯバッファ監視５６を行う。そして、非参照ピクチャ削除手段４９は、ネットワーク８の可用帯域が低下した場合に、ＦＩＦＯバッファ１２２内の符号化データの一部を削除する。出力する符号化データの一部を削除することで、可用帯域が低下した場合に、ネットワーク８への出力のビットレートを素早く減少させることができる。

　但し、参照ピクチャが削除されると、符号化データを受信する装置は、削除されたピクチャだけでなく、削除されたピクチャを復号化時に参照する必要があるＰピクチャも復号化できなくなる。よって、映像品質の大幅な劣化を防ぐためには、非参照ピクチャを削除すべきである。可用帯域が低下した場合に、削除可能な非参照ピクチャがＦＩＦＯバッファ１２２に保存されていなければ、可用帯域の低下に合わせてビットレートを変更することができない。そこで、テレビ会議装置１では、ネットワーク８の可用帯域の変動量、およびＦＩＦＯバッファ１２２の空き容量の変動量が計測される。ピクチャモード制御ブロック５８は、計測された変動量に基づいて、全てのピクチャに対するＰピクチャの生成割合を変化させる。参照ピクチャ制御ブロック５９は、計測された変動量に基づいてＰピクチャの参照ピクチャを選択することで、全てのピクチャに対する非参照ピクチャの割合を変化させる。そして、可用帯域が低下すると、非参照ピクチャを削除する。以上の処理の詳細について、以下説明する。

　図３から図８を参照して、テレビ会議装置１が行うメイン処理について説明する。メイン処理は、ＲＯＭ１１に記憶されているプログラムに従ってＣＰＵ１０により実行される。メイン処理は、画像データの送受信の実行指示が入力されると開始される。

　図３に示すように、メイン処理が開始されると、各種データが初期化される（Ｓ１）。ネットワーク８の可用帯域（Ｗ）と、可用帯域の変動量（Ａ）とが計測される（Ｓ２）。可用帯域の計測には、例えばプローブパケットの転送にパケットトレイン転送方式を用い、各プローブパケット間の片道転送遅延の増加傾向を利用し可用帯域幅の推定を行うｐａｔｈｌｏａｄや、ＩＣＭＰ（ＩＮＴＥＲＮＥＴ　ＣＯＮＴＲＯＬ　ＭＥＳＳＡＧＥ　ＰＲＯＴＯＣＯＬ）のＥＣＨＯ　ＲＥＱＵＥＳＴパケットを連続して送信し、その応答パケットのパケット間隔を観測することで利用可能帯域を求めるｃｐｒｏｂｅ等の公知の帯域計測技術を用いればよい。可用帯域の変動量には、今回検出された可用帯域（Ｗ）の値と、前回検出された可用帯域（Ｗ）の値との差を用いればよい。変動量は、増加量および減少量を共に含む。

　次いで、計測された可用帯域（Ｗ）で符号化データが出力されるように、量子化パラメータへのフィードバックが行われる（Ｓ３）。可用帯域（Ｗ）に占める、可用帯域の変動量（Ａ）の割合が算出される（Ｓ４）。算出された変動量の割合から、非参照ピクチャの生成条件が決定される（Ｓ５）。

　図４から図７を参照して、非参照ピクチャの生成条件の決定方法について詳細に説明する。非参照ピクチャの生成条件とは、主に、所定時間内（例えば１秒間）で生成される予め設定されたピクチャの数に対する非参照ピクチャの数の割合を示す。詳細には、テレビ会議装置１は、ＧＯＰ（Ｇｒｏｕｐ　ｏｆ　Ｐｉｃｔｕｒｅｓ）中のピクチャ数と、Ｐピクチャの符号化時および復号化時に参照される参照ピクチャの数とを決定することで、非参照ピクチャの割合を決定する。ＧＯＰとは、複数のデータを効率的に管理するために、所定期間内で生成される予め設定された数のピクチャのまとまりである。ＧＯＰ中の参照ピクチャ数を減少させることで、ＧＯＰ中のピクチャ数に占める非参照ピクチャ数の割合を増加させることができる。また、以下説明するように、Ｐピクチャの参照ピクチャをいずれにするか適宜決定することで、非参照ピクチャの割合を決定することもできる。先述した参照ピクチャ制御ブロック５９（図２参照）は、決定されたＰピクチャと参照ピクチャとの関係に基づいて動き補償５２を制御する。

　図４は、可用帯域の変動量の割合が０％、ＧＯＰ中のピクチャ数が１０とされた場合に最終的に決定される、非参照ピクチャの生成条件の例である。可用帯域の変動量の割合が０％であれば、可用帯域が急激に低下するおそれは低いため、ピクチャを大量に削除してビットレートを急激に減少させる場合は稀である。従って、非参照ピクチャの割合を上げる必要性は低い。非参照ピクチャの数を増加させる必要がなければ、Ｐピクチャの参照ピクチャは、そのＰピクチャの直前のピクチャとすることが望ましい。直前のピクチャを参照ピクチャとすることで、予測誤差が小さくなり、データ量が小さくなるためである。よって、図４に示すように、Ｐピクチャの参照ピクチャは、全てそのＰピクチャの直前のピクチャとしている。その結果、非参照ピクチャは、ＧＯＰ中の最後のピクチャのみとなる。

　図５は、可用帯域の変動量の割合が５０％、ＧＯＰ中のピクチャ数が１０とされた場合に決定される、非参照ピクチャの生成条件の例である。テレビ会議装置１は、可用帯域の変動量の割合と、ＧＯＰ中のピクチャにおける非参照ピクチャの割合とが最も近くなるように、非参照ピクチャの生成条件を決定する。よって、図５に示す例では、可用帯域の変動量の割合が５０％であるため、１０枚中５枚のピクチャが非参照ピクチャとなるように生成条件を決定する。

　さらに、テレビ会議装置１は、参照ピクチャと非参照ピクチャとが均等に配置されるように生成条件を決定する。換言すると、直近の２つの非参照ピクチャの間に位置する参照ピクチャの数の偏りが最小となるように、生成条件を決定する。この偏りが大きい場合は、参照ピクチャと非参照ピクチャとが均等に配置されない。よって、非参照ピクチャを削除した場合に、映像が途切れる等の不具合が生じるおそれが高い。そこで、テレビ会議装置１は、図５に示す例では、参照ピクチャと非参照ピクチャとを交互に配置する。その結果、非参照ピクチャ間に位置する参照ピクチャの数の偏りが無くなる。そして、Ｐピクチャの参照ピクチャを決定する場合、そのＰピクチャよりも前の参照ピクチャのうち最も近い（最も新しい）ピクチャを、そのＰピクチャの参照ピクチャに決定する。つまり、複数のＰピクチャの参照ピクチャを同一のピクチャとすることで、Ｐピクチャである非参照ピクチャの割合を増やすことができる。

　図６は、可用帯域の変動量の割合が４０％、ＧＯＰ中のピクチャ数が１０とされた場合に決定される生成条件の例である。可用帯域の変動量の割合が４０％であれば、テレビ会議装置１は、１０枚中４枚のピクチャが非参照ピクチャとなるように生成条件を決定する。そして、非参照ピクチャ間に位置する参照ピクチャの数が順に「２」「１」「２」「１」となるように、参照ピクチャおよび非参照ピクチャの配置を決定する。

　図７は、可用帯域の変動量の割合が９０％、ＧＯＰ中のピクチャ数が１０とされた場合に決定される生成条件の例である。可用帯域の変動量の割合が９０％であれば、テレビ会議装置１は、１０枚中９枚のピクチャが非参照ピクチャとなるように生成条件を決定する。この場合、全てのＰピクチャの参照ピクチャは、ＧＯＰ中の先頭のＩピクチャとなる。このように、ＧＯＰ中の全てのＰピクチャの参照ピクチャをＩピクチャとすることで、Ｐピクチャである非参照ピクチャの割合を最大にすることができる。

　なお、図４から図７に示すように、テレビ会議装置１は、Ｐピクチャである非参照ピクチャが生成される割合を、Ｓ５の処理で決定することができる。全ピクチャに対するＩピクチャの割合を増やしても、非参照ピクチャの割合を上げることは可能である。しかし、Ｉピクチャのデータサイズは、Ｐピクチャのデータサイズよりも大きい。よって、ネットワーク８に加わる負荷が増大する。これに対し、テレビ会議装置１は、Ｐピクチャである非参照ピクチャの割合を変化させることで、ネットワーク８に与える負荷を急激に増大させることなく、非参照ピクチャの生成割合を変化させることができる。

　図３の説明に戻る。非参照ピクチャの生成条件が決定されると（Ｓ５）、フレーム毎処理が行われる（Ｓ６）。フレーム毎処理では、決定された生成条件に従って画像データが符号化（エンコード）され、ネットワークの帯域の情報に基づいて非参照ピクチャが削除される。

　図８に示すように、フレーム毎処理が開始されると、まず、決定されている量子化パラメータ（Ｓ３、図３参照）、および非参照ピクチャの生成条件（Ｓ５、図３参照）に従って、画像データが１枚ずつ順にエンコードされる（Ｓ１１）。エンコードされたデータである符号化データが、ＦＩＦＯバッファエリア１２２へ入力される（Ｓ１２）。ＦＩＦＯバッファエリア１２２内に非参照ピクチャがあるか否かが判断され（Ｓ１３）、非参照ピクチャがなければ（Ｓ１３：ＮＯ）、処理はＳ２１へ移行する。非参照ピクチャがある場合（Ｓ１３：ＹＥＳ）、ネットワーク８の可用帯域（Ｗ）が計測される（Ｓ１５）。ＦＩＦＯバッファエリア１２２の空き容量の変動量（Ｃ）が計測される（Ｓ１６）。変動量（Ｃ）は、前回のＦＩＦＯバッファエリア１２２の空き容量と、今回のＦＩＦＯバッファエリア１２２の空き容量との差である。

　Ｓ２（図３参照）またはＳ１５で前回計測された可用帯域（Ｗ）より、Ｓ１５で今回計測された可用帯域（Ｗ）の方が低いか否かが判断される（Ｓ１７）。今回の方が低くなければ（Ｓ１７：ＮＯ）、処理はそのままＳ１９へ移行する。今回計測された可用帯域（Ｗ）の方が低ければ（Ｓ１７：ＹＥＳ）、ＦＩＦＯバッファエリア１２２内の非参照ピクチャが削除される（Ｓ１８）。

　テレビ会議装置１では、ＦＩＦＯバッファエリア１２２内に複数の非参照ピクチャが存在する場合、可用帯域（Ｗ）の低下量に応じた数の非参照ピクチャが削除される。さらに、Ｐピクチャである非参照ピクチャと、Ｉピクチャである非参照ピクチャとが共にＦＩＦＯバッファエリア１２２に記憶されている場合には、データ量がより大きいＩピクチャが優先して削除される。例えば、Ｉピクチャ（Ｉ）およびＰピクチャ（Ｐ）が、Ｉ／Ｉ／Ｐ／Ｉ／Ｉ／Ｐの順に生成され、Ｐピクチャが直前のＩピクチャを参照している場合には、Ｐピクチャの２フレーム分前のＩピクチャが優先して削除される。なお、本実施形態ではＨ．２６４の規格が採用されているため、非参照ピクチャのみで構成されたアクセスユニット（Ｈ．２６４で定義されたピクチャの単位）が削除される。

　次いで、非参照ピクチャの生成条件を決定するためにＳ２（図３参照）で前回計測された可用帯域の変動量（Ａ）と、Ｓ１６で今回計測されたＦＩＦＯバッファエリア１２２の空き容量の変動量（Ｃ）との差が算出される（Ｓ１９）。データ出力のビットレートがネットワーク８の可用帯域（Ｗ）に追従するように、ＦＩＦＯバッファエリア１２２内で削除されなかった残りの符号化データが、順にネットワーク８に出力される（Ｓ２１）。

　次いで、Ｓ１９で算出された変動量の差の絶対値が、生成条件を更新した場合の出力ビットレートの変更可能値の差の絶対値以上であるか否かが判断される（Ｓ２２）。例えば、ＧＯＰ中のピクチャ数を１５枚として処理を行っている場合には、１つのＧＯＰ中の非参照ピクチャを１枚新たに削除、または削除を１枚分停止する毎に、出力ビットレートの平均値を約６．７％変更することができる。従って、この場合、ＧＯＰ中の非参照ピクチャの数を１枚増加させるように生成条件を更新することで、出力ビットレートの変更可能値が約６．７％増加する。逆に、ＧＯＰ中の非参照ピクチャの数を１枚減少させるように生成条件を変更すると、出力ビットレートの変更可能値が約６．７％減少する。テレビ会議装置１は、変動量の変化が少ない場合には生成条件の更新を行わず、変動量の変化が大きい場合のみ更新を行う。そこで、Ｓ２２では、生成条件の更新前の出力ビットレートの変更可能値と、更新後の出力ビットレートの変更可能値との差の絶対値が算出される。Ｓ１９で算出された変動量の差の絶対値が、出力ビットレートの変更可能値の差の絶対値より小さければ（Ｓ２２：ＮＯ）、処理はそのままＳ１１へ戻る。出力ビットレートの変更可能値の差の絶対値以上であれば（Ｓ２２：ＹＥＳ）、生成条件を更新するために、処理はメイン処理（図３参照）へ戻る。メイン処理では、フレーム毎処理（Ｓ６）が終了すると、処理はＳ２へ戻り、非参照ピクチャの生成条件が更新される（Ｓ２～Ｓ５）。

　以上説明したように、第一の実施形態のテレビ会議装置１は、ネットワーク８の帯域の情報に基づいて非参照ピクチャの生成条件を決定する。決定した生成条件で画像データを符号化する。帯域の情報に応じて、符号化されたピクチャから非参照ピクチャを削除し、残りのピクチャをネットワークへ出力する。従って、テレビ会議装置１は、削除しても映像品質への影響が少ない非参照ピクチャの生成条件を、ネットワーク８の帯域の情報に応じて決定し、生成された非参照ピクチャをネットワークへの出力前に削除することができる。よって、テレビ会議装置１は、符号化処理やバッファリング等を経ることによる時間遅延を生じさせずに、ネットワーク８の帯域の変動に素早く追従して、出力ビットレートを変更することができる。

　詳細には、テレビ会議装置１は、非参照ピクチャの割合を増やしておくことで、出力ビットレートを素早く急激に減少させることができる。一方、非参照ピクチャの割合を減らせば、Ｐピクチャの参照ピクチャをそのＰピクチャになるべく近いピクチャとすることができ、効率よく符号化処理を行うことができる。テレビ会議装置１は、ネットワーク８の可用帯域の変動量から、全ピクチャに対する非参照ピクチャの割合を生成条件として決定する。よって、削除しても映像品質への影響が少ない非参照ピクチャを、可用帯域の変動量に合わせて適切に生成することができる。そして、実際に可用帯域が低下した場合に、生成されている非参照ピクチャを削除することで、出力ビットレートを素早く低下させることができる。

　画像圧縮符号化では、フレーム内符号化によって生成されるＩピクチャが非参照ピクチャとなる場合と、フレーム間符号化によって生成されるＰピクチャおよびＢピクチャが非参照ピクチャとなる場合とがある。フレーム間符号化によって生成されるピクチャのデータサイズは、フレーム内符号化によって生成されるＩピクチャのデータサイズよりも小さい。テレビ会議装置１は、フレーム間符号化によって生成される非参照ピクチャ（Ｐピクチャである非参照ピクチャ）の生成割合を適宜決定することができる。その結果、生成割合を変更した場合でも、生成されるピクチャのデータサイズの総量が急激に増大することはない。よって、ネットワークの帯域に与える負荷を増大させることがない。

　テレビ会議装置１は、生成した符号化データをＦＩＦＯバッファエリア１２２に一時的に保存する。従って、ＦＩＦＯバッファエリア１２２に保存されている非参照ピクチャを適宜削除することで、削除処理を容易に行うことができる。複数の非参照ピクチャを１度に削除することもできる。また、テレビ会議装置１は、テレビ会議装置１自身の内部的要因を含めたネットワークの帯域の情報を、ＦＩＦＯバッファエリア１２２の空き容量の変動量を計測することで取得する。取得した変動量が大きくなった場合に、非参照ピクチャの生成条件を更新することができる。よって、テレビ会議装置１自身の内部的要因も適切に反映させて非参照ピクチャを生成することができる。

　テレビ会議装置１は、複数の非参照ピクチャを偏らせることなく分散させて生成することができる。よって、複数の非参照ピクチャを削除した場合でも、映像が途切れるように再生されるおそれを低下させることができる。また、テレビ会議装置１は、非参照ピクチャを削除する場合、データ量がＰピクチャよりも大きいＩピクチャを優先して削除することで、より素早く、且つ効率よく出力ビットレートを減少させることができる。

　なお、上記第一の実施形態において、テレビ会議装置１が本発明の「符号化装置」に相当する。カメラ３３が「画像入力手段」に相当する。ネットワーク８の可用帯域（Ｗ）、可用帯域の変動量（Ａ）、およびＦＩＦＯバッファエリア１２２の空き容量の変動量（Ｃ）が「ネットワークの帯域の情報」に相当する。図３のＳ２、および図８のＳ１５，Ｓ１６で帯域の情報を検出するＣＰＵ１０が「検出手段」として機能する。図３のＳ５で非参照ピクチャの生成条件を決定するＣＰＵ１０が「決定手段」として機能する。図８のＳ１１で画像データをエンコードするＣＰＵ１０が「符号化手段」として機能する。図８のＳ１８で非参照ピクチャを削除するＣＰＵ１０が「削除手段」として機能する。図８のＳ２１で符号化データを出力するＣＰＵ１０が「出力手段」として機能する。

　図３のＳ２でネットワーク８の可用帯域の変動量（Ａ）を計測するＣＰＵ１０が「第一検出手段」として機能する。図３のＳ２および図８のＳ１５でネットワーク８の可用帯域（Ｗ）を計測するＣＰＵ１０が「第二検出手段」として機能する。ＲＡＭ１２のＦＩＦＯバッファエリア１２２が「バッファ」に相当する。図８のＳ１２で符号化データをＦＩＦＯバッファエリア１２２へ入力するＣＰＵ１０が「記憶制御手段」として機能する。図８のＳ１６でＦＩＦＯバッファエリア１２２の空き容量の変動量を計測するＣＰＵ１０が「第三検出手段」として機能する。

　図３のＳ２、および図８のＳ１５，Ｓ１６で帯域の情報を検出する処理が、本発明の「検出ステップ」に相当する。図３のＳ５で非参照ピクチャの生成条件を決定する処理が「決定ステップ」に相当する。図８のＳ１１で画像データをエンコードする処理が「符号化ステップ」に相当する。図８のＳ１８で非参照ピクチャを削除する処理が「削除ステップ」に相当する。図８のＳ２１で符号化データを出力する処理が「出力ステップ」に相当する。

　次に、本発明の第二の実施形態に係るテレビ会議装置１０１について、図９および図１０を参照して説明する。第二の実施形態に係るテレビ会議装置１０１は、符号化データをバッファリングしない点が上記第一の実施形態に係るテレビ会議装置１と異なるのみである。よって、同一の構成および処理については同一の番号を付し、この説明を省略または簡略化する。

　図９を参照して、テレビ会議装置１０１における画像データの処理の概要について説明する。図９に示すように、テレビ会議装置１０１はＦＩＦＯバッファ１２２（図２参照）を備えていない。ピクチャモード制御ブロック５８および参照ピクチャ制御ブロック５９は、ネットワーク８の可用帯域計測５５によって得られた情報を用いて非参照ピクチャを生成する。このように、本発明は、符号化データをバッファリングするバッファを用いなくとも実施することが可能である。以下、処理の詳細について説明する。

　テレビ会議装置１０１のＣＰＵ１０は、画像データの送受信の実行指示が入力されるとメイン処理を開始する。メイン処理は、以下説明するフレーム毎処理以外は、第一の実施形態のテレビ会議装置１が行うメイン処理（図３参照）と同じである。よって、メイン処理の説明は省略する。図１０に示すように、フレーム毎処理が開始されると、決定されている量子化パラメータ（Ｓ３、図３参照）、および非参照ピクチャの生成条件（Ｓ５、図３参照）に従って、画像データが１枚ずつエンコードされる（Ｓ１１）。ネットワーク８に出力される符号化データに非参照ピクチャがあるか否かが判断される（Ｓ１１３）。非参照ピクチャがなければ（Ｓ１１３：ＮＯ）、処理はＳ１２１へ移行する。

　非参照ピクチャがある場合（Ｓ１１３：ＹＥＳ）、ネットワーク８の可用帯域（Ｗ）が計測される（Ｓ１５）。ネットワーク８の可用帯域の変動量（Ｂ）が計測される（Ｓ１１６）。Ｓ２（図３参照）またはＳ１５で前回計測された可用帯域（Ｗ）より、Ｓ１５で今回計測された可用帯域（Ｗ）の方が低いか否かが判断される（Ｓ１７）。今回の方が低くなければ（Ｓ１７：ＮＯ）、処理はそのままＳ１１９へ移行する。今回のＳ１５の処理で計測された可用帯域（Ｗ）の方が低ければ（Ｓ１７：ＹＥＳ）、ネットワークへの出力前の非参照ピクチャが削除される（Ｓ１１８）。

　次いで、Ｓ２（図３参照）で前回計測された可用帯域の変動量（Ａ）と、Ｓ１１６で今回計測された可用帯域の変動量（Ｂ）との差が算出される（Ｓ１１９）。削除されなかった符号化データが、ネットワーク８に出力される（Ｓ１２１）。Ｓ１１９で算出された可用帯域の変動量の差の絶対値が、生成条件を更新した場合の出力ビットレートの変更可能値の差の絶対値以上であるか否かが判断される（Ｓ２２）。可用帯域の変動量の差の絶対値が、出力ビットレートの変更可能値の差の絶対値より小さい場合には（Ｓ２２：ＮＯ）、処理はそのままＳ１１へ戻る。変更可能値の差の絶対値以上である場合には（Ｓ２２：ＹＥＳ）、生成条件を更新するために、処理はメイン処理（Ｓ３参照）へ戻る。

　以上説明したように、第二の実施形態のテレビ会議装置１０１は、ネットワーク８の可用帯域の変動量に応じて非参照ピクチャの生成条件を決定し、可用帯域が低下した場合に非参照ピクチャを削除することができる。従って、可用帯域の変動に素早く追従して、ネットワーク８への出力ビットレートを変更することができる。このように、本発明は、符号化データをバッファリングするバッファを用いなくとも実施できる。

　なお、第二の実施形態において、ネットワーク８の可用帯域（Ｗ）、および可用帯域の変動量（Ａ，Ｂ）が、本発明の「ネットワークの帯域の情報」に相当する。図３のＳ２、および図１０のＳ１５，Ｓ１１６で帯域の情報を検出するＣＰＵ１０が「検出手段」として機能する。図１０のＳ１１で画像データをエンコードするＣＰＵ１０が「符号化手段」として機能する。図１０のＳ１１８で非参照ピクチャを削除するＣＰＵ１０が「削除手段」として機能する。図１０のＳ１２１で符号化データを出力するＣＰＵ１０が「出力手段」として機能する。

　本発明は、上記実施形態に限定されることはなく、様々な変形が可能であることは言うまでもない。例えば、本発明が適用できるのはテレビ会議装置に限られない。他にも、映像を配信するサーバ等、ネットワークを介して符号化データを出力する装置であれば、本発明を適用できる。上記実施形態ではＨ．２６４の規格に基づいて符号化が行われているが、他の規格を採用することもできる。

　上記実施形態のテレビ会議装置１，１０１は、ネットワーク８の可用帯域の値に基づいて、非参照ピクチャの削除等の処理を行っている。しかし、テレビ会議装置１，１０１は、ネットワーク８の実際に利用している帯域を計測して処理を行ってもよい。

　図３のＳ５で行われる非参照ピクチャの生成条件の決定では、上記実施形態で決定されている条件以外の条件を決定してもよい。例えば、全ピクチャに対する非参照ピクチャの割合以外に、フレームレート、解像度等を生成条件として決定してもよい。

　第二の実施形態における図１０のＳ１１８の処理では、ネットワーク８の可用帯域が低下した場合に非参照ピクチャを必ず削除する必要はない。例えば、テレビ会議装置１０１は、可用帯域の低下量が閾値を超えた場合に非参照ピクチャを削除してもよい。

　上記実施の形態では、ＦＩＦＯバッファ１２２の空き容量の変動量の変化量、または可用帯域の変動量の変化量が大きくなった場合に、非参照ピクチャの生成条件を更新している（図８のＳ２２、および図１０のＳ２２参照）。しかし、非参照ピクチャの生成条件の更新契機も変更できる。例えば、所定時間毎、又は所定数のピクチャの出力が終了する毎に、繰り返し生成条件を更新してもよい。

１，１０１　　テレビ会議装置
８　　ネットワーク
１０　　ＣＰＵ
１２　　ＲＡＭ
３３　　カメラ
１２２　　ＦＩＦＯバッファエリア

Claims

　画像入力手段によって入力される画像データを符号化して、他のピクチャの復号化時に参照されるピクチャである参照ピクチャ、および他のいずれのピクチャの復号化時にも参照されないピクチャである非参照ピクチャからなる連続するピクチャを生成し、ネットワークに出力する符号化装置であって、
　前記ネットワークの帯域の情報を検出する検出手段と、
　前記非参照ピクチャの生成条件を、前記検出手段によって検出された帯域の情報に基づいて決定する決定手段と、
　前記決定手段によって決定された生成条件で画像データを符号化する符号化手段と、
　前記符号化手段によって符号化されたピクチャのうち非参照ピクチャを、前記検出手段によって検出された帯域の情報に応じて削除する削除手段と、
　前記削除手段によって前記非参照ピクチャが削除された残りのピクチャを前記ネットワークへ出力する出力手段と
　を備えたことを特徴とする符号化装置。
　前記検出手段は、前記ネットワークの帯域の変動量を前記帯域の情報として検出する第一検出手段を備え、
　前記決定手段は、前記第一検出手段によって検出された前記変動量に基づいて、参照ピクチャと非参照ピクチャとからなる所定時間内で生成されるピクチャの数に対する非参照ピクチャの数の割合を前記生成条件として決定することを特徴とする請求項１に記載の符号化装置。
　前記決定手段は、フレーム間符号化によって他のピクチャとの間の予測誤差が符号化されることで生成される非参照ピクチャについての、前記所定時間内で生成されるピクチャの数に対する割合を、前記生成条件として決定することを特徴とする請求項２に記載の符号化装置。
　前記検出手段は、前記ネットワークの帯域を前記帯域の情報として検出する第二検出手段を備え、
　前記削除手段は、前記第二検出手段によって検出された帯域が低下した場合に非参照ピクチャを削除することを特徴とする請求項１に記載の符号化装置。
　データを一時的に保存するバッファに、前記符号化手段によって符号化されたピクチャを記憶させる記憶制御手段を備え、
　前記削除手段は、前記バッファに保存されている非参照ピクチャを削除することを特徴とする請求項１に記載の符号化装置。
　前記検出手段は、前記バッファの空き容量の変動量を前記帯域の情報として検出する第三検出手段を備え、
　前記決定手段は、前記第三検出手段によって検出された前記バッファの空き容量の変動量に基づいて前記生成条件を決定することを特徴とする請求項５に記載の符号化装置。
　前記決定手段は、繰り返し生成されるピクチャの中で、非参照ピクチャが生成されてから次に非参照ピクチャが生成されるまでの間に生成される参照ピクチャの数の偏りを最小とする前記生成条件を決定することを特徴とする請求項１に記載の符号化装置。
　前記削除手段は、フレーム間符号化によって他のピクチャとの間の予測誤差が符号化されることで生成されるＰピクチャである非参照ピクチャよりも、フレーム内符号化によって生成されるＩピクチャである非参照ピクチャを優先して削除することを特徴とする請求項１に記載の符号化装置。
　画像入力手段によって入力された画像データを符号化して、他のピクチャの復号化時に参照されるピクチャである参照ピクチャ、および他のいずれのピクチャの復号化時にも参照されないピクチャである非参照ピクチャからなる連続するピクチャを生成し、ネットワークに出力する符号化方法であって、
　前記ネットワークの帯域の情報を検出する検出ステップと、
　前記非参照ピクチャの生成条件を、前記検出ステップによって検出された帯域の情報に基づいて決定する決定ステップと、
　前記決定ステップによって決定された生成条件で画像データを符号化する符号化ステップと、
　前記符号化ステップによって符号化されたピクチャのうち非参照ピクチャを、前記検出ステップによって検出された帯域の情報に応じて削除する削除ステップと、
　前記削除ステップによって前記非参照ピクチャが削除された残りのピクチャを前記ネットワークへ出力する出力ステップと
　を備えたことを特徴とする符号化方法。
　画像入力手段によって入力された画像データを符号化して、他のピクチャの復号化時に参照されるピクチャである参照ピクチャ、および他のいずれのピクチャの復号化時にも参照されないピクチャである非参照ピクチャからなる連続するピクチャを生成し、ネットワークに出力する符号化プログラムであって、
　コンピュータに、
　前記ネットワークの帯域の情報を検出する検出ステップと、
　前記非参照ピクチャの生成条件を、前記検出ステップによって検出された帯域の情報に基づいて決定する決定ステップと、
　前記決定ステップによって決定された生成条件で画像データを符号化する符号化ステップと、
　前記符号化ステップによって符号化されたピクチャのうち非参照ピクチャを、前記検出ステップによって検出された帯域の情報に応じて削除する削除ステップと、
　前記削除ステップによって前記非参照ピクチャが削除された残りのピクチャを前記ネットワークへ出力する出力ステップと
　を実行させることを特徴とする符号化プログラム。