JP4208533B2

JP4208533B2 - 画像処理装置及び画像処理方法

Info

Publication number: JP4208533B2
Application number: JP2002273254A
Authority: JP
Inventors: 裕樹岸
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-09-19
Filing date: 2002-09-19
Publication date: 2009-01-14
Anticipated expiration: 2022-09-19
Also published as: US7702513B2; JP2004112440A; US20040057514A1

Description

【０００１】
【発明の属する技術分野】
本発明は、画像及び音声を符号化する画像処理装置及びその方法に関するものである。
【０００２】
【従来の技術】
従来、画像を記録再生できる記録再生装置として、民生用のデジタルビデオカメラやデジタルスチルカメラがある。
【０００３】
これらの装置においては静止画や動画といった画像を記録や伝送する際に、画像データの圧縮処理を行っている。
【０００４】
画像の圧縮技術（規格）としては、静止画はＪＰＥＧ、動画はＭｏｔｉｏｎ−ＪＰＥＧ、ＭＰＥＧ１、ＭＰＥＧ２やＭＰＥＧ４といったものが一般的であり、最近では新たにＪＰＥＧ２０００といった規格も検討されている。
【０００５】
また、一部の画像圧縮技術の中には、画像の特定領域を他の領域に比べて高画質になる様に符号化できるものがある。例えば、ＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）符号化法を用いれば、復号後に、ある画面における興味ある領域（ＲＯＩ）を高画質に表示、もしくは伝送の初期段階で優先的に表示することが可能になる。
【０００６】
このようなＲＯＩ符号化を用いたカメラとして、撮像画像中の特定領域をＲＯＩに設定して圧縮し、記録再生できるデジタルスチルカメラが考えられている（例えば、特許文献１参照。）。カメラでＲＯＩとして設定する場合は、その設定される範囲或いは被写体が画面の中で重要な、注目すべき対象物を含んでいる場合が多い。
【０００７】
【特許文献１】
特開２００１−２３０９４７号公報
【０００８】
【発明が解決しようとする課題】
ところで、動画においてＲＯＩ符号化を適用した場合には、動画を構成する各フレーム単位でのＲＯＩ設定が可能であるが、このときＲＯＩが含まれているフレーム（ＲＯＩフレーム）は注目すべき対象物を含んでいるので、ＲＯＩフレームはＲＯＩが含まれていないフレーム（非ＲＯＩフレーム）より、撮像者にとって重要となる場合が考えられる。
【０００９】
しかしながら、ＲＯＩフレームを含んで符号化されている動画データを再生する際には、符号化された動画データを復号して表示するのみであって、フレーム間での重要度に差が生じている場合であっても、そのフレームの重要度に合わせて、動画と共に再生される音声（オーディオ）の音質までを変動させることはできなかった。
【００１０】
本発明は上記の如き問題点を解決して、画像の重要度に応じて音声も音質を変更できるよう設定する画像処理装置及びその方法を提供することを目的とする。
【００１１】
【課題を解決するための手段】
斯かる目的を達成する為の手段として、本発明は以下の構成からなる手段を有する。
【００１２】
本発明の画像処理装置は、動画像及び音声を符号化する画像処理装置において、入力した画像データを符号化する画像符号化手段と、前記画像データとともに入力した音声データを第１の音声符号化方法によって符号化する第１の音声符号化手段と、前記音声データを前記第１の音声符号化方法とは異なる第２の音声符号化方法によって符号化する第２の音声符号化手段と、前記画像データで表される画像の一部領域を高画質に符号化するように前記画像符号化手段を設定する画像符号化設定手段と、前記画像符号化設定手段による設定がなされないときは、前記第１及び第２の音声符号化手段のうち予め定められた一方の音声符号化手段からの音声符号化データを出力し、前記画像符号化設定手段による設定がなされたときは、前記第１及び第２の音声符号化手段から出力された音声符号化データの音質を比較し、高音質と判定された方の音声符号化データを出力する音声出力決定手段とを備えたことを特徴とする。
【００１３】
また、本発明の画像処理方法は、動画像及び音声を符号化するための画像処理方法であって、前記動画像を入力してその画像データを符号化する画像符号化ステップと、前記画像データとともに入力した音声データを第１の音声符号化方法を用いて符号化する第１の音声符号化ステップと、前記音声データを前記第１の音声符号化方法とは異なる第２の音声符号化方法を用いて符号化する第２の音声符号化ステップと、前記動画像を構成する各画面の一部領域を高画質に符号化するように設定する画像符号化設定ステップと、前記画像符号化設定ステップにおける設定がなされないときは、前記第１及び第２の音声符号化ステップのうち予め定められた一方の音声符号化ステップで符号化された音声符号化データを出力し、前記画像符号化設定ステップにおける設定がなされたときは、前記第１及び第２の音声符号化ステップで符号化された音声符号化データの音質を比較し、高音質と判定された方の音声符号化データを出力する音声出力決定ステップとを有することを特徴とする。
【００１４】
【発明の実施の形態】
以下、図面を参照しながら本発明の好適な実施の形態を説明する。
【００１５】
（第１の実施形態）
本発明で扱う動画像は、図１に示したように、所定の周期（一例としては１／３０秒）ごとの画面（フレーム）が複数集まって構成される画像データと、それに対応する音声データから構成されている。
【００１６】
本実施の形態においてはこのような動画像のデータ（動画データ）に対して、図３のように、任意のフレームにおける任意の領域に対して、関心領域（ＲＯＩ）を設定するものとする。さらに、本実施の形態における画像処理装置は、画像のＲＯＩが設定されている間（ＲＯＩ時間）に流れるオーディオ（音声）の音質が、画像のＲＯＩが設定されない間（非ＲＯＩ時間）に流れる音声の音質より高くなるように、ビットレート（割り当てビット量）を変えて音声データを符号化する構成となっている。以下にその構成の詳細を記す。
【００１７】
本実施の形態における画像処理装置のブロック図を図２に示し、当該画像処理装置の動作を説明するフローチャートを図４に示す。
【００１８】
図２において、画像処理装置２００の構成は、画像データ取得部２０１、フレームデータ符号化部２０２、音声データ取得部２０３、音声データ符号化部２０４、データ統合部２０５、動画像符号化データ出力部２０６、ＲＯＩ設定指示部２０７、ＲＯＩ設定部２０８から成る。
【００１９】
図４のフローチャートに従いながら説明する。
【００２０】
まず、動画データと音声データが、画像データ取得部２０１と音声データ取得部２０３からそれぞれ入力される（ステップＳ４０１）。この画像データ取得部２０１と音声データ取得部２０３は、例えばデジタルビデオカメラやデジタルスチルカメラ等の撮像装置、或いはＣＣＤなどの撮像デバイスやネットワーク回線のインターフェース及びマイクや外部音声の入力装置等が用いられる。また、画像データ取得部２０１と音声データ取得部２０３はＲＡＭ、ＲＯＭ、ハードディスク、ＣＤ−ＲＯＭ等の記録媒体とその再生装置であっても良い。
【００２１】
画像データ取得部２０１から取得された動画データは、フレーム単位のデータ（フレームデータ）毎にフレームデータ符号化部２０２に入力され、音声データ取得部２０３から取得された音声データは、音声データ符号化部２０４に入力される。
【００２２】
この動画データのフレームデータ符号化部２０２への入力に際して、ユーザーがＲＯＩ設定指示部２０７からＲＯＩの設定を指示していない場合（ステップＳ４０２でＮｏ）、フレームデータはフレームデータ符号化部２０２でフレーム単位毎に通常の符号化が行われ、音声データは音声データ符号化部２０４で通常どおり低ビットレートでの符号化が行われる（ステップＳ４０２）。生成されたフレーム符号化データと音声符号化データは、データ統合部２０２に出力される。
【００２３】
一方、動画データのフレームデータ符号化部２０２への入力に際して、ユーザーがＲＯＩ設定指示部２０７からＲＯＩの設定を指示している場合（ステップＳ４０２でＹｅｓ）、ＲＯＩ設定部２０８がフレーム中のどの領域がＲＯＩであるかを示す情報をフレームデータ符号化部２０２に送り、ＲＯＩの設定が行われる旨の情報を音声データ符号化部２０４へ送るといったＲＯＩの設定を行う（ステップＳ４０４）。その上で、フレームデータ符号化部２０２は入力したフレームデータを、ＲＯＩに指定された領域を高画質に、その他の領域を低画質にするよう符号化（ＲＯＩ符号化）して、また音声データ符号化部２０４は入力された音声データを高音質となるよう高ビットレートで符号化する（ステップＳ４０５）。生成されたフレーム符号化データと音声符号化データは、データ統合部２０２に出力される。
【００２４】
データ統合部２０５に音声符号化データとフレーム符号化データが入力されると、図５に示されているように、フレーム符号化データと音声符号化データが所定の規則に基づき並べられデータの統合がなされる。さらに、図６に示されているように、ヘッダ等の復号に必要となるデータが所定の個所に挿入されて、動画像符号化データが生成される（ステップＳ４０６）。
【００２５】
その後、生成された動画像符号化データは、動画像符号化データ出力部２０６から外部へ出力される（ステップＳ４０７）。この動画像符号化データ出力部２０６には、有線、公衆回線、無線回線、ＬＡＮ等のインターフェースを用いることができ、出力された動画像符号化データは記録装置や表示装置等に伝送される。
【００２６】
次にＲＯＩ設定部２０８の動作を説明する。図７にＲＯＩ設定部２０８の詳細ブロック図を示すと共に、ＲＯＩ設定に関する処理のフローチャートを図８に示す。
【００２７】
ＲＯＩ設定指示部２０７がユーザーからＲＯＩの設定の指示を受けると、その旨をＲＯＩ設定部２０８に伝達する。ＲＯＩ設定部２０８がこの伝達を受けると、前もってユーザーが設定しておいたＲＯＩオブジェクトがいずれであるかを入手する（ステップＳ８０１）。
【００２８】
このＲＯＩオブジェクトとは、画像処理装置２００が不図示のメモリ上に格納しているオブジェクトのことであり、ユーザーが設定するＲＯＩにはＲＯＩオブジェクトが含まれる必要がある。なお、ユーザーがＲＯＩオブジェクトを選択する方法の一形態として、図９に示されているように、画像処理装置２００を搭載したデジタルビデオカメラや、デジタルスチルカメラに具備されている液晶ディスプレイ上で行う方法が挙げられる。
【００２９】
ＲＯＩオブジェクト情報の入手が終ると、フレームデータ入力部７０１はフレームデータ符号化部２０２から符号化前のフレームデータのコピーを得る（ステップＳ８０２）。次に、ＲＯＩオブジェクト認識部７０２は、ユーザーが選択したＲＯＩオブジェクトに相当する、当該フレームデータ上のオブジェクトを検索する（ステップＳ８０３）。ＲＯＩ認識部７０２はこの検索によりオブジェクトを検出すると（ステップＳ８０４）、図１０に示されているように、このオブジェクトを包含するような領域をＲＯＩと設定する（ステップＳ８０５）。その後、ＲＯＩマスク生成部７０３は、図１１に示されているように、フレームにおけるＲＯＩの位置を示すＲＯＩマスクを生成し（ステップＳ８０６）、このＲＯＩマスクをＲＯＩマスク出力部７０４に出力する。
【００３０】
ＲＯＩマスク出力部７０４は、入力されたＲＯＩマスク情報をフレームデータ符号化部２０２に出力する（ステップＳ８０７）。
【００３１】
その後、続いて処理するフレームがＲＯＩフレームであるかどうかが判断され（ステップＳ８０８）、当該フレームがＲＯＩフレームであれば処理がステップＳ８０２に戻される。
【００３２】
次に、フレームデータ符号化部２０２の詳細ブロック図を図１２に示し、当該フレームデータ符号化部２０２の処理動作を説明する為のフローチャートを図１３に示し、これらの図を用いてフレームデータの符号化の処理を詳細に説明する。
【００３３】
本実施の形態におけるフレーム中の符号化対象となるフレームデータは、８ビットのモノクロフレームデータとする。しかしながら、各画素４ビット、１０ビット、１２ビットといった具合に８ビット以外のビット数で表すモノクロ画像、或いは各画素における各色成分（ＲＧＢ／Ｌａｂ／ＹＣｒＣｂ）を８ビットで表現するカラーの多値フレームデータである場合に適用することも可能である。また、画像を構成する各画素の状態等を表す多値情報である場合、例えば各画素の色を表す多値のインデックス値である場合にも適用できる。これらに応用する場合には、各種類の多値情報を後述するモノクロフレームデータとすればよい。
【００３４】
まず、画像データ取得部２０１から、フレームデータ／ＲＯＩマスク入力部１２０１へ、符号化対象となるフレームデータを構成する画素データがラスタースキャン順に入力され、離散ウェーブレット変換部１２０２に出力される（ステップＳ１３０１）。
【００３５】
また、ＲＯＩ設定部２０８が、当該フレームに対応するＲＯＩマスクを生成している場合、当処理部からフレームデータ／ＲＯＩマスク入力部１２０１へ、ＲＯＩマスクが入力され、バッファ１２０９へ出力される（ステップＳ１３０１）。このフレームデータ／ＲＯＩマスク入力部１２０１は、例えばスキャナ、デジタルカメラ等の撮像装置、或いはＣＣＤなどの撮像デバイス、或いはネットワーク回線のインターフェース等が接続される。また、フレームデータ入力部１２０１はＲＡＭ、ＲＯＭ、ハードディスク、ＣＤ−ＲＯＭ等の記録媒体から読み出した情報を入力しても良い。
【００３６】
離散ウェーブレット変換部１２０２は、フレームデータ／ＲＯＩマスク入力部１２０１から入力される１つの静止画像中の、１つのタイルデータｘ（ｎ）における複数の画素（参照画素）のデータ（参照画素データ）を用いて離散ウェーブレット変換を行う（ステップＳ１３０２）。
【００３７】
以下に、離散ウェーブレット変換後のフレームデータ（離散ウェーブレット変換係数）を示す。
Y(2n) = X(2n)+floor{ (Y(2n-1)+Y(2n+1)+2)/4 }
Y(2n+1) = X(2n+1)-floor{ (X(2n)+X(2n+2))/2 }
Y(2n),Y(2n+1)は離散ウェーブレット変換係数列であり、Y(2n)は低周波サブバンド、Y(2n+1)は高周波サブバンドである。また、上式においてfloor{X}はＸを超えない最大の整数値を表す。この離散ウェーブレット変換を模式的に表わしたのが図１４である。
【００３８】
本変換式は一次元のデータに対するものであるが、この変換を水平方向、垂直方向の順に適用して二次元の変換を行うことにより、図１５（ａ）の様なＬＬ，ＨＬ，ＬＨ，ＨＨの４つのサブバンドに分割することができる。ここで、Ｌは低周波サブバンド、Ｈは高周波サブバンドを示している。次にＬＬサブバンドを、同じ様に４つのサブバンドに分け（図１５（ｂ））、その中のＬＬサブバンドをまた４サブバンドに分ける（図１５（ｃ））。合計１０サブバンドを作る。１０個のサブバンドそれぞれに対して、図１５（ｃ）の様にＨＨ１，ＨＬ１，…と呼ぶことにする。ここで、各サブバンドの名称における数字を、それぞれのサブバンドのレベルとする。つまり、レベル１のサブバンドは、ＨＬ１，ＨＨ１，ＬＨ１、レベル２のサブバンドは、ＨＬ２，ＨＨ２，ＬＨ２である。なおＬＬサブバンドは、レベル０のサブバンドとする。ＬＬサブバンドはひとつしかないので添字を付けない。またレベル０からレベルｎまでのサブバンドを復号することで得られる復号画像を、レベルｎの復号画像と呼ぶ。復号画像は、そのレベルが高い程解像度は高い。
【００３９】
１０個のサブバンドの変換係数は、いったんバッファ１２０３に格納されＬＬ，ＨＬ１，ＬＨ１，ＨＨ１，ＨＬ２，ＬＨ２，ＨＨ２，ＨＬ３，ＬＨ３，ＨＨ３の順に、つまり、レベルが低いサブバンドからレベルが高いサブバンドの順に、係数量子化部１２０４へ出力される。
【００４０】
係数量子化部１２０４では、バッファ１２０３から出力される各サブバンドの変換係数を各周波数成分毎に定めた量子化ステップで量子化し、量子化後の値（係数量子化値）を生成する（ステップＳ１３０３）。係数値をＸ、この係数の属する周波数成分に対する量子化ステップの値をｑとするとき、量子化後の係数値Ｑ（Ｘ）は次式によって求めるものとする。
Q(X)=floor{(X/q)+0.5}
【００４１】
本実施の形態における各周波数成分と量子化ステップとの対応を図１６に示す。同図に示す様に、よりレベルが高いサブバンドの方に、大きい量子化ステップを与えている。なお、各サブバンドの量子化ステップは予め不図示のＲＡＭやＲＯＭなどのメモリに格納されているものとする。
【００４２】
そして、係数量子化部１２０４は、現在処理中のフレームデータに付随するＲＯＩマスクがバッファ１２０９に存在する場合（ステップＳ１３０４でＹｅｓ）、これら係数量子化値をシフトアップ部１２０５へ出力する。また、当該フレームデータに付随するＲＯＩマスクがバッファ１２０９に存在しない場合（ステップＳ１３０４でＮｏ）、これら係数量子化値をエントロピー符号化部１２０６へ出力する。
【００４３】
シフトアップ部１２０５は、バッファ１２０９に格納されているＲＯＩマスクを基に、ＲＯＩ内の画像の画質が非ＲＯＩ内の画像の画質より高くなるように、次式に基づき係数量子化値を変更（シフトアップ）する（ステップＳ１３０５）。
Ｑ’＝Ｑ^＊２^Ｂ；（Ｑ：ＲＯＩ内に存在する係数量子化値の絶対値）
Ｑ’＝Ｑ；（Ｑ：ＲＯＩ外に存在する係数量子化値の絶対値）
ここで、Ｂはサブバンド毎に与えられるものであり、注目サブバンドにおいて、各Ｑ’はいかなるＱ’’よりも大きくなるように設定される。
【００４４】
以上の処理により、シフトアップ部１２０５において指定された空間領域に属する係数量子化値のみがＢビット上方にシフトアップされる。
【００４５】
図１７（ａ）は各サブバンドにおけるＲＯＩと非ＲＯＩを示していて、（ｂ）および（ｃ）はシフトアップによる係数量子化値の変化を示したものである。（ｂ）において、３つのサブバンドに各々３個の係数量子化値が存在しており、網がけされた係数量子化値がＲＯＩを構成している係数量子化値であり、それらはシフトアップ後（ｃ）のようになる。
【００４６】
以上の処理が行われた係数量子化値は、エントロピー符号化部１２０６へ出力される。
【００４７】
エントロピー符号化部１２０６では、入力された係数量子化値がエントロピー符号化される（ステップＳ１３０６）。ここでは、まず、図１８に示されているように、入力された係数量子化値の集まりである各サブバンドが矩形（コードブロックと呼ぶ）に分割される。なお、このコードブロックの大きさには、２ｍ×２ｎ（ｍ、ｎは２以上の整数）等が設定される。
【００４８】
さらにこのコードブロックは、図１９に示されているように、ビットプレーンに分割される。その上で、図２０に示されているように、あるビットプレーンにおける各ビットは、ある分類規則に基づいて３種類に分けられて、同じ種類のビットを集めたコーディングパスが３種類生成される。入力された係数量子化値は、ここで得られたコーディングパスを単位として、エントロピー符号化である二値算術符号化が行われ、エントロピー符号化値が生成される。
【００４９】
なお、ここでエントロピー符号化の具体的な処理順序は、１つのコードブロックに注目すると上位ビットプレーンから下位ビットプレーンの順に符号化され、その１コードブロックのあるビットプレーンに注目すると、図２０にある３種類のパスを上から順に符号化する様になっている。
【００５０】
エントロピー符号化されたコーディングパスは、フレーム符号化データ生成部１２０７に出力される。
【００５１】
フレーム符号化データ生成部１２０７では、入力された複数のコーディングパスから、単一もしくは複数のレイヤーが構成され、それらレイヤーをデータの単位としてフレーム符号化データが生成される（ステップＳ１３０７）。以下にレイヤーの構成に関する説明を行う。
【００５２】
当該処理部は、図２１に示されているように、複数のサブバンドにおける複数のコードブロックから、エントロピー符号化されたコーディングパスを集めた上で、レイヤーを構成する。なお、図２２に示されているように、あるコードブロックからコーディングパスを取得する際、常に該コードブロックにおいて最上位に存在するコーディングパスが選ばれる。
【００５３】
その後、フレーム符号化データ生成部１２０７は、図２３に示されているように、生成したレイヤーを、上位に位置するレイヤーから順に並べた上で、その先頭にヘッダを付加してフレーム符号化データを生成する。このヘッダには、フレームを識別する情報や、当該フレーム符号化データの符号長や入力フレームの縦横のサイズ、圧縮に使用した様々なパラメータ等が格納される。
【００５４】
このように生成されたフレーム符号化データは、フレーム符号化データ出力部１２０８に出力される（ステップＳ１３０８）。
【００５５】
以上が、フレームデータ符号化部２０２の詳細な説明である。
【００５６】
次に、音声データ符号化部２０４の詳細ブロック図を図２４に示し、当該音声データ符号化部２０４の処理動作を説明する為のフローチャートを図２５に示し、これらの図を用いて音声データの符号化の処理を詳細に説明する。
【００５７】
まず、１６ビット直線量子化された入力音声データが、音声データ入力部２４０１に入力され（ステップＳ２５０１）、サブバンド分割部２４０２と高速フーリエ変換部（ＦＦＴ部）２４０４に出力される。
【００５８】
サブバンド分割部２４０２では、入力された音声データは５１２タップＰＦＢ（ポリフェーズフィルタバンク）により、３２個のサブバンドに分割される（ステップＳ２５０２）。以下に、このサブバンド分割の手順を示す。
【００５９】
まず、５１２個の入力信号サンプルＸ_０，．．．，Ｘ_５１１に対して、
Ｚ_ｉ＝Ｃ_ｉｘＸ_ｉ
を計算する。ここで、Ｃ_ｉの一形態として、ＩＳＯ／ＩＥＣ１１１７２−３内の表で定義されたものが考えられる。
【００６０】
次に、
【外１】

【００６１】
を算出し、
【００６２】
【外２】

【００６３】
に従ってサブバンド出力Ｓ_ｉを導出する。なお本実施の形態において、生成されるサブバンドの数はＮ個とする。
【００６４】
次に、音声データ符号化部２０４は、不図示のカウンタｉをｉ＝０に設定し（ステップＳ２５０３）、スケールファクタ抽出部２４０３に各サブバンドのスケールファクタの算出を実行させる（ステップＳ２５０４）。このスケールファクタの抽出は、以下のとおり行われる。
【００６５】
まず、各サブバンドごとに１２サンプルを１ブロックとして、絶対値が最大となるサンプルを探索する。さらに、所定のスケールファクタの表から、当該最大となるサンプルの絶対値より大きい最小の値を選び、その値をスケールファクタとする。
【００６６】
ここで得られたスケールファクタは線形量子化部２４０７，サイド情報符号化部２４０８および心理聴覚モデル部２４０５に出力される。また、必要となるスケールファクタが抽出されたサブバンドは、線形量子化部２４０７に出力される（ステップＳ２５０５）。
【００６７】
ここで不図示のカウンタｉがｉ＝Ｎ−１でなければ、ｉを１増加させた上で処理をステップＳ２５０３に戻す。ｉ＝Ｎ−１であれば、処理をステップＳ２５０７に進める（ステップＳ２５０６）。
【００６８】
ＦＦＴ部２４０４に入力された音声信号は、５１２のサンプル数を１ブロックとして、Ｍ個のブロックに分割される。その後、各ブロックに対してＦＦＴが行われる（ステップＳ２５０７）。生成された各ブロックの係数値は、心理聴覚モデル部２４０５に出力される。
【００６９】
心理聴覚分析モデル部２４０５では、入力された係数値とスケールファクタを基に、信号対マスク比（ＳＭＲ）を算出する（ステップＳ２５０８）。この算出されたＳＭＲは、動的ビット割り当て部２４０６に出力される。なお、このＳＭＲは各サブバンドの音圧と最小マスキングレベルの比で与えられるものである。このＳＭＲの導出は公知であるので、ここではその説明を割愛する。
【００７０】
動的ビット割り当て部２４０６は、入力されたＳＭＲを用いて、各サブバンドに割り当てるビット量を算出して決定する（ステップＳ２５０９）。この算出方法について、図２６のフローチャートを使用し、以下に説明する。
【００７１】
まず、各サブバンドのサンプルを入力する（ステップＳ２６０１）。次に、利用可能である総ビット量のうち、ヘッダや利用者が自由に使えるデータ，誤り訂正に必要となるデータ等に必要となるビット量を減算して得られる、割り当て可能ビット量を算出する（ステップＳ２６０２）。
【００７２】
次に、信号対雑音比（ＳＭＲ）やＭＮＲ（マスク対雑音比）を使用し、割り当て可能ビット量を基に、各サブバンドに対して量子化ステップを設定し、各サブバンドに割り当てるビット量を算出する（Ｓ２６０３）。この割り当て可能ビット量を導き出す手法は、様々な文献で紹介されているので、この手法に関する説明は割愛される。
【００７３】
その後、割り当てられた各サブバンドに対する量子化ステップは、線形量子化部２４０７とサイド情報符号化部２４０８に出力される（ステップＳ２６０４）。
【００７４】
なお本実施の形態においては、動的ビット割り当て部２４０６は、ＲＯＩ時間に流れる音声符号化データの符号量が、非ＲＯＩ時間に流れる音声符号化データの符号量より多くなるように、利用可能である総ビットの割り当てが行われる。これにより、ＲＯＩ時間と非ＲＯＩ時間に流れる音声の音質の差を出すことが可能となる。
【００７５】
動的ビット割り当て決定部２４０６により各サブバンドに割り当てられるビット量と量子化ステップが決定されると、線形量子化部２４０７は当該量子化ステップを基に量子化を行う（ステップＳ２５１０）。ここで得られた量子化されたサブバンドサンプルは、音声符号化データ形成部２４０９に出力される。また、サイド情報符号化部２４０８は、入力されたスケールファクタや量子化ステップ情報を符号化し（ステップＳ２５１１）、音声符号化データ形成部２４０９に出力する。
【００７６】
音声符号化データ形成部２４０９は、図２７のようにヘッダとサブバンドサンプルとアンシラリデータ（利用者が任意に利用できるデータ）から音声符号化データを形成し（ステップＳ２５１２）、音声符号化データ出力部２４１０に出力される。なおヘッダには、当該音声符号化データを復号するのに必要となる、符号化されたサイド情報やサンプリング周波数等の情報が格納される。
【００７７】
音声符号化データ出力部２４１０は、データ統合部２０５に音声符号化データを出力する（ステップＳ２５１３）。
【００７８】
以上、本実施の形態では、撮影者にとって重要な時間であるＲＯＩ時間において、ビットレート（割り当てビット量）を変更させることで、音声を高音質に符号化することが可能になる。
【００７９】
（第２の実施の形態）
次に実施の形態２について説明する。
【００８０】
第１の実施の形態における画像処理装置２００では、ＲＯＩ時間と非ＲＯＩ時間に流れる音声データの復号音質の差をビットレートの変更により実現した。本実施の形態においては、復号音質の差を、圧縮を行うか否かにより実現する。
【００８１】
図３１に本実施の形態における画像処理装置３１００のブロック図を示す。これは、第１の実施の形態における画像処理装置２００に対して、音声データ取得部２０３の後段にスイッチ３１０１と、スイッチ３１０１からデータ統合部２０５へのパスを挿入したものである。
【００８２】
このスイッチ３１０１は通常、音声データ符号化部２０４につながっているが、撮像者によりＲＯＩ設定指示部２０７からＲＯＩの設定の指示が入力されると、スイッチ３３０１は音声データ符号化部２０４をバイパスする経路につながる。これにより、音声データの符号化の有無を実現できる。
【００８３】
以上、本実施の形態では、非ＲＯＩ時間に流れる音声データに対して圧縮を行い、ＲＯＩ時間に流れる音声データに対して圧縮を行わないことにより、２つの時間に流れる復号音声の音質に差をつける方法が示された。
【００８４】
（第３の実施の形態）
次に実施の形態３について説明する。
【００８５】
実施の形態３における画像処理装置２８００の構成を図２８に示す。図２８の画像処理装置２８００において、図２の画像処理装置２００の構成と同符号のブロックは図２と同様なので、ここでの説明は書略する。図２８に示した本実施の形態の画像処理装置２８００は、実施の形態１における画像処理装置２００の音声データ符号化部２０４を音声データ符号化部２８０１に置き換えたものである。
【００８６】
例えば、画像処理装置２８００を図９に記したようなデジタルスチルカメラやデジタルビデオカメラに搭載した場合、撮像中において、時間によって、入力される音声がスピーチのみであるときと、そうでないときがあると考えられる。そこで、画像処理装置２８００は音声データの符号化器として、スピーチデータ用の符号化器と一般音声データ用の符号化器を具備する音声データ符号化部２８０１を備えた。これによって、２つの符号化器が出力する音声符号化データが、復号音声の音質に関して比較された上で、最適な音声符号化データが格納されるようにする。
【００８７】
しかしこの処理は、高品位に音声データを符号化することが可能であるが、消費電力の増加を招く。そこで本実施の形態においては、特にＲＯＩ時間においてのみ、上述処理を行う構成とする。
【００８８】
なお、本実施の形態において具備される２つの音声データ符号化器は、ビットレートが９６ｋｂｐｓ以上であると、様々な音声に対して高効率に圧縮するＡＡＣ（Advanced Audio Coding）と、６４ｋｂｐｓ以下のビットレートにおけるスピーチデータの圧縮では、ＡＡＣに符号化効率で勝るＣＥＬＰ（Code Excited Linear Prediction）である。
【００８９】
本実施の形態におけるフレームデータの符号化方法は、実施の形態１におけるフレームデータの符号化方法と同様であるので、ここでは、フレームデータの符号化方法に関する説明を割愛する。
【００９０】
本実施の形態における音声データ符号化部２８０１のブロック図を図２９に示す。本実施の形態における音声データの符号化は、３２−６４ｋｂｐｓ程度のビットレートで行われるものとする。
【００９１】
まず、フレームデータがＲＯＩを設定されずに符号化されている場合、入力された音声データはＡＡＣ符号化部２９０２に流れ、音声データはＡＡＣ符号化部により３２ｋｂｐｓ程度のビットレートで符号化される。なお、このＡＡＣによる符号化方法は公知であるので、ここではその説明を割愛する。
【００９２】
さらに、フレームデータが、ＲＯＩを設定された上で符号化されている場合、音声データはＡＡＣ符号化部２９０２とＣＥＬＰ符号化部２９０３に入力される。当該２つの符号化部は、それぞれ音声データを符号化し、音声符号化データを生成し、最適音声符号化データ決定部２９０４に出力する。
【００９３】
続いて、最適音声符号化データ決定部２９０４の動作を説明するにあたり、図３０に示されている最適音声符号化データ決定部２９０４の詳細ブロック図を用いる。
【００９４】
まず、所定の時間間隔における、ＡＡＣ符号化部２９０２で生成された音声符号化データ（ＡＡＣ音声符号化データ）とＣＥＬＰ符号化部２９０３で生成された音声符号化データ（ＣＥＬＰ音声符号化データ）は、それぞれＡＡＣ音声符号化データ入力部３００１，ＣＥＬＰ音声符号化データ入力部３００２から入力され、いったんバッファ３００３に蓄積される。
【００９５】
ＡＡＣ復号部３００４とＣＥＬＰ復号部３００５は、バッファ３００３に蓄積されているＡＡＣ音声符号化データとＣＥＬＰ音声符号化データを、内部に保持しているメモリにコピーする。その上で、当該２つの復号部は音声符号化データを復号し、復号データを判定部３００６に出力する。なお、ＡＡＣの復号方法とＣＥＬＰの復号方法は公知であるので、ここに詳細を記さない。
【００９６】
判定部３００６は、所定の方法に基づき、２つの復号データから得られる復号音声のどちらが高音質であるかを判定し、低音質な音声符号化データの一方をバッファ３００３上から除去し、高音質な音声符号化データをバッファ３００３から音声符号化データ出力部２９０５に出力する。
【００９７】
選択された音声符号化データは、音声符号化データ出力部２９０５からデータ統合部２０５に出力される。
【００９８】
以上、本実施の形態では、ＲＯＩ時間にのみ、スピーチ用の音声符号化器と非スピーチ用の音声符号化器の使用を判断しながら使う方法を示した。こうすることで、ＲＯＩ時間における復号音声の音質を、非ＲＯＩ時間における復号音声の音質より高めることが可能となる。
【００９９】
（その他の実施形態）
全ての実施形態において、フレームデータの系列変換に離散ウェーブレット変換を使用したが、本発明はこれに限定されるわけではない。系列変換に離散コサイン変換等を使用しても構わない。
【０１００】
なお、本発明は複数の機器（例えばホストコンピュ−タ、インタ−フェ−ス機器、リ−ダ、プリンタ等）から構成されるシステムの一部として適用しても、１つの機器（例えば複写機、デジタルカメラ、デジタルビデオカメラ等）からなる装置の一部に搭載して適用しても良い。
【０１０１】
また、本発明は上記実施の形態を実現するための装置及び方法のみに限定されるものではなく、上記システム又は装置内のコンピュ−タ（ＣＰＵ或いはＭＰＵ）に、上記実施の形態を実現するためのソフトウエアのプログラムコ−ドを供給し、このプログラムコ−ドに従って上記システム或いは装置のコンピュ−タが上記各種デバイスを動作させることにより上記実施の形態を実現する場合も本発明の範疇に含まれる。
【０１０２】
またこの場合、前記ソフトウエアに関するプログラムコ−ド自体が上記実施の形態の機能を実現することになり、そのプログラムコ−ド自体、及びそのプログラムコ−ドをコンピュ−タに供給するための手段、具体的には上記プログラムコ−ドを格納した記憶媒体は本発明の範疇に含まれる。
【０１０３】
この様なプログラムコ−ドを格納する記憶媒体としては、例えばフロッピ−（Ｒ）ディスク、ハ−ドディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、磁気テ−プ、不揮発性のメモリカ−ド、ＲＯＭ等を用いることができる。
【０１０４】
また、上記コンピュ−タが、供給されたプログラムコ−ドのみに従って各種デバイスを制御することにより、上記実施の形態の機能が実現される場合だけではなく、上記プログラムコ−ドがコンピュ−タ上で稼動しているＯＳ（オペレ−ティングシステム）、或いは他のアプリケ−ションソフト等と共同して上記実施の形態が実現される場合にもかかるプログラムコ−ドは本発明の範疇に含まれる。
【０１０５】
更に、この供給されたプログラムコ−ドが、コンピュ−タの機能拡張ボ−ドやコンピュ−タに接続された機能拡張ユニットに備わるメモリに格納された後、そのプログラムコ−ドの指示に基づいてその機能拡張ボ−ドや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって上記実施の形態が実現される場合も本発明の範疇に含まれる。
【０１０６】
【発明の効果】
以上説明したように本発明によれば、画像の一部領域を高画質に符号化するときに、その画像の重要度（例えば被写体）に合わせて音声の音質を変化させることが可能となるので、視覚効果の高い動画及び音声の再生が可能になる。
【図面の簡単な説明】
【図１】本発明で用いる動画像データの説明図である。
【図２】本発明の第１の実施の形態における画像処理装置２００のブロック図である。
【図３】ＲＯＩ時間と非ＲＯＩ時間の説明図である。
【図４】本発明の第１の実施形態における画像処理装置２００が行う動画像データの符号化処理のフローチャートである。
【図５】動画像符号化データの構成の説明図である。
【図６】動画像符号化データの構成の説明図である。
【図７】ＲＯＩ設定部２０８のブロック図である。
【図８】ＲＯＩ設定部２０８の処理のフローチャートである。
【図９】デジタルカメラ（デジタルビデオカメラ）においてＲＯＩオブジェクトを選択する方法の説明図である。
【図１０】ＲＯＩとＲＯＩオブジェクトの説明図である。
【図１１】ＲＯＩマスクの説明図である。
【図１２】フレームデータ符号化部２０２のブロック図である。
【図１３】フレームデータ符号化部２０２の処理のフローチャートである。
【図１４】１次元離散ウェーブレット変換の説明図である。
【図１５】（ａ）は４つのサブバンドに分解する図、（ｂ）は（ａ）のＬＬサブバンドを更に４つのサブバンドに分解する図、（ｃ）は（ｂ）のＬＬサブバンドを更に４つのサブバンドに分解する図である。
【図１６】量子化ステップの説明図である。
【図１７】（ａ）、（ｂ）、（ｃ）は各サブバンドにおけるＲＯＩと非ＲＯＩの説明図である。
【図１８】コードブロック分割の説明図である。
【図１９】ビットプレーン分割の説明図である。
【図２０】コーディングパスの説明図である。
【図２１】レイヤー生成の説明図である。
【図２２】レイヤー生成の説明図である。
【図２３】フレーム符号化データの構成の説明図である。
【図２４】音声データ符号化部２０４のブロック図である。
【図２５】音声データ符号化部２０４の処理のフローチャートである。
【図２６】動的ビット割り当て部２４０６の処理のフローチャートである。
【図２７】音声符号化データの構成の説明図である。
【図２８】本発明の第３の実施の形態における画像処理装置２８００のブロック図である。
【図２９】音声データ符号化部２８０１のブロック図である。
【図３０】最適音声符号化データ決定部２９０４のブロック図である。
【図３１】本発明の第２の実施の形態における画像処理装置３１００のブロック図である。
【符号の説明】
２０１画像データ取得部
２０２フレームデータ符号化部
２０３音声データ取得部
２０４音声データ符号化部
２０５データ統合部
２０６動画像符号化データ出力部
２０７ＲＯＩ設定指示部
２０８ＲＯＩ設定部
２８０１音声データ符号化部
３１０１スイッチ

Claims

動画像及び音声を符号化する画像処理装置において、
入力した画像データを符号化する画像符号化手段と、
前記画像データとともに入力した音声データを第１の音声符号化方法によって符号化する第１の音声符号化手段と、
前記音声データを前記第１の音声符号化方法とは異なる第２の音声符号化方法によって符号化する第２の音声符号化手段と、
前記画像データで表される画像の一部領域を高画質に符号化するように前記画像符号化手段を設定する画像符号化設定手段と、
前記画像符号化設定手段による設定がなされないときは、前記第１及び第２の音声符号化手段のうち予め定められた一方の音声符号化手段からの音声符号化データを出力し、前記画像符号化設定手段による設定がなされたときは、前記第１及び第２の音声符号化手段から出力された音声符号化データの音質を比較し、高音質と判定された方の音声符号化データを出力する音声出力決定手段とを備えたことを特徴とする画像処理装置。
請求項１において、前記画像符号化設定手段は、前記画像データからなる動画像の任意のｎ枚（ｎは１以上の整数）のフレーム画に対して選択的に一部領域を高画質にする設定が可能であって、前記音声出力決定手段は、前記画像符号化設定手段によって設定が行われた前記ｎ枚のフレーム画の期間において前記音質の比較を行い、高音質と判定された方の音声符号化データを出力することを特徴とする画像処理装置。
請求項１において、前記画像符号化設定手段による設定がなされたときは、前記第１及び第２の音声符号化手段がそれぞれ前記音声データの符号化を行い、前記画像符号化設定手段による設定がなされないときは、前記予め定められた一方の音声符号化手段が前記音声データの符号化を行うことを特徴とする画像処理装置。
請求項１において、前記画像符号化設定手段はユーザーの指示に応じて、ユーザーが指定した領域を高画質に符号化するように設定することを特徴とする画像処理装置。
請求項１において、前記画像符号化設定手段は画像中のオブジェクトを指定するユーザーの指示に応じて、前記画像中のオブジェクトを高画質に符号化するように設定することを特徴とする画像処理装置。
動画像及び音声を符号化するための画像処理方法であって、
前記動画像を入力してその画像データを符号化する画像符号化ステップと、
前記画像データとともに入力した音声データを第１の音声符号化方法を用いて符号化する第１の音声符号化ステップと、
前記音声データを前記第１の音声符号化方法とは異なる第２の音声符号化方法を用いて符号化する第２の音声符号化ステップと、
前記動画像を構成する各画面の一部領域を高画質に符号化するように設定する画像符号化設定ステップと、
前記画像符号化設定ステップにおける設定がなされないときは、前記第１及び第２の音声符号化ステップのうち予め定められた一方の音声符号化ステップで符号化された音声符号化データを出力し、前記画像符号化設定ステップにおける設定がなされたときは、前記第１及び第２の音声符号化ステップで符号化された音声符号化データの音質を比較し、高音質と判定された方の音声符号化データを出力する音声出力決定ステップとを有することを特徴とする画像処理方法。
請求項６において、前記画像符号化設定ステップは、前記動画像の任意のｎ枚（ｎは１以上の整数）のフレーム画に対して選択的に一部領域を高画質にする設定が可能であって、前記音声出力決定ステップは、前記画像符号化設定ステップにおける設定が行われた前記ｎ枚のフレーム画の期間において前記音質の比較を行い、高音質と判定された方の音声符号化データを出力することを特徴とする画像処理方法。
請求項６において、前記画像符号化設定ステップにおける設定がなされたときは、前記第１及び第２の音声符号化ステップでそれぞれ前記音声データの符号化を行い、前記画像符号化設定ステップにおける設定がなされないときは、前記予め定められた一方の音声符号化ステップで前記音声データの符号化を行うことを特徴とする画像処理方法。
請求項６において、前記画像符号化設定ステップはユーザーの指示に応じて、ユーザーが指定した領域を高画質に符号化するように設定することを特徴とする画像処理方法。
請求項６において、前記画像符号化設定ステップは画像中のオブジェクトを指定するユーザーの指示に応じて、前記画像中のオブジェクトを高画質に符号化するように設定することを特徴とする画像処理方法。