JP7213662B2

JP7213662B2 - 画像処理装置、画像処理方法

Info

Publication number: JP7213662B2
Application number: JP2018211699A
Authority: JP
Inventors: 恵子米沢
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2023-01-27
Anticipated expiration: 2038-11-09
Also published as: US11281927B2; JP2020078031A; US20200151487A1

Description

本発明は、画像の符号化技術に関するものである。

近年、スマートフォンやデジタルビデオカメラ等の普及に伴い、撮像を行って画像データを生成する機会が増えている。その一方、データを記録しておくストレージの容量や、データを送受信する際の通信帯域には限りがある。そのため、画像データを効率的に圧縮する技術が求められている。画像圧縮の方法としては、Ｈ．２６４／ＡＶＣという標準規格が知られている。また、Ｈ．２６５／ＨＥＶＣという標準規格も普及し始めている。

画像の圧縮符号化技術において、画質を調整するために、量子化パラメータ（Quantization Parameter）等のパラメータが規定されている。これらのパラメータを用いて、画質の劣化を防ぎつつ、データ量をできるだけ少なくすることが求められている。具体的には、画像中の注目領域をＲＯＩ(Region of Interest)として抽出し、ＲＯＩとそれ以外の領域とで量子化パラメータを変える手法がある。これまで、ユーザが注目領域をＲＯＩとして設定し（以下、ユーザ設定ＲＯＩと称する）、その領域のみを高画質化する手法が知られている。さらに、動体もしくは動きのある人や車の検知結果に基づきＲＯＩを設定し（以下、動的ＲＯＩと称する）、その領域を高画質化する手法も知られている。ユーザ設定ＲＯＩを用いると、映像に全く変化がないような状況下でもＲＯＩが常に高画質化されてしまうという問題がある。これに対して動的ＲＯＩを用いると、映像に変化がある場合に高画質化されるが、動きが小さい場合にＲＯＩが設定されず、必要な領域が高画質化されなくなる問題がある。

このような問題に対し、特許文献１には、ユーザ設定ＲＯＩと動的ＲＯＩの両者が重なる場合には双方を含む領域を合成してＲＯＩを生成する方法が開示されている。また特許文献２には、駐車場内の入り口付近にユーザ設定ＲＯＩを設定し、車検知を行った結果の動的ＲＯＩが、ユーザ設定ＲＯＩに含まれる場合には、追尾を開始してどこに駐車されるかを特定することで、駐車場の占有率を求める方法が開示されている。

特開２００６－９３７８４号公報特開２０１５－３６９８０号公報

しかしながら、特許文献１や特許文献２に開示されている方法では、ユーザがシーンに応じて適切なＲＯＩを設定する必要があり、あらかじめＲＯＩとする領域が想定できない場合には適切に用いることが困難という課題がある。さらに特許文献１においては、動的ＲＯＩもすべて高画質化するために、常に動きのある植生や水面などが存在する場合にＲＯＩが必要以上に大きくなるという課題がある。本発明では、より簡便且つより効率的な画像圧縮符号化技術を提供する。

本発明の一様態は、動画像におけるフレーム画像から特定物体を検出する検出手段と、
前記検出手段による前記特定物体の検出結果に基づいて、前記フレーム画像に対して注目領域を設定する設定手段と、
前記設定手段により前記フレーム画像に設定された複数の注目領域のうち前記フレーム画像から検出された動体の領域を含まない注目領域を、第１符号化パラメータを用いて符号化し、前記複数の注目領域のうち前記フレーム画像から検出された動体の領域を含む注目領域を、前記第１符号化パラメータよりも相対的に高画質になるように符号化することが可能な第２符号化パラメータを用いて符号化する符号化手段と
を備えることを特徴とする。

本発明の構成によれば、より簡便且つより効率的な画像圧縮符号化技術を提供することができる。

画像処理システムの構成例を示す図。（Ａ）は撮像装置１００の機能構成例を示すブロック図、（Ｂ）は撮像装置１００のハードウェア構成例を示す図。特定物体ＲＯＩを説明する図。動的ＲＯＩを説明する図。フレーム画像の圧縮符号化のフローチャート。ステップＳ５３０における処理の詳細を示すフローチャート。（Ａ）、（Ｂ）は図５のＳ５５０～ステップＳ５７０の処理を視覚的に説明する図。ステップＳ５３０における処理の詳細を示すフローチャート。特定物体ＲＯＩの一例を示す図。

以下、添付図面を参照し、本発明の実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施形態の１つである。

［第１の実施形態］
本実施形態では、動画像におけるフレーム画像から特定物体を検出すると、該検出の結果（検出結果）に基づいて、フレーム画像に対して注目領域（ＲＯＩ）を設定する。つまり、フレーム画像に対し、特定物体に基づくＲＯＩを、ユーザによる操作を介さずに設定する。

そして、設定した注目領域のうち動体の領域の少なくとも一部と重なっている注目領域が相対的に高画質で符号化されるように、フレーム画像を符号化する。つまり、常に全てのＲＯＩを高画質で符号化するのではなく、「動体の領域の少なくとも一部が重なっているＲＯＩ」を高画質で符号化を行う対象とし、それ以外の画像領域については高画質で符号化を行う対象としない。これにより、ビットレートの上昇を抑えるだけでなく、効果的な符号化を行うことが可能となる。

先ず、本実施形態に係る画像処理システムの構成例について、図１を用いて説明する。図１に示す如く、本実施形態に係る画像処理システム１０は、撮像装置１００とクライアント端末装置２００とを有する。そして、撮像装置１００とクライアント端末装置２００とは、有線および／または無線のネットワーク３００を介して互いにデータ通信が可能なように構成されている。

先ず、撮像装置１００について説明する。撮像装置１００は、動画像を撮像し、該撮像した動画像の各フレームの撮像画像（フレーム画像）に対して画像処理を行って圧縮符号化する画像処理装置として機能する。撮像装置１００は、クライアント端末装置２００からの配信要求コマンドに応じて映像ストリームを該クライアント端末装置２００に対して送信（配信）する。また撮像装置１００は、クライアント端末装置２００から送信された設定パラメータや設定コマンドに応じて各種の設定処理を行う。撮像装置１００のハードウェア構成例について、図２（Ｂ）のブロック図を用いて説明する。

撮像部２２１は、レンズを通して結像した光を撮像素子において受光し、該受光した光を電荷に変換して動画像を取得する。撮像素子には、例えば、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサを用いることができる。また、撮像素子にはＣＣＤ（Charge Coupled Device）イメージセンサを用いてもよい。なお、撮像部２２１は、動画像に限らず、定期的若しくは不定期的に静止画像をフレーム画像として撮像するものであっても良い。

記憶部２２２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、等のメモリ装置により構成されている。記憶部２２２には、撮像装置１００の設定データや起動プログラム、撮像装置１００が行うものとして後述する各処理を制御部２２３に実行若しくは制御させるためのコンピュータプログラムやデータ、が保存されている。また記憶部２２２は、通信部２２４を介して外部（例えばクライアント端末装置２００）から受信したデータ（例えば設定データ）を格納するためのエリアや、制御部２２３が各種の処理を実行するために要するエリア等の各種のエリアを適宜提供する。

例えば、記憶部２２２は、撮像部２２１に関するホワイトバランスや露出等の設定であるカメラパラメータや、圧縮符号化に関する圧縮符号化パラメータ等を記憶する。圧縮符号化パラメータには、ＲＯＩを高画質化（高画質で符号化する）する時間（高画質化処理の継続時間）やＲＯＩ内外それぞれの量子化パラメータ（以下ｑＰ値）が含まれる。ｑＰ値は、値が大きくなるほど量子化ステップが大きくなることから、より大きいｑＰ値で圧縮符号化するほど画質はより低下する。また、記憶部２２２は、クライアント端末装置２００に配信するフレーム画像のフレームレートやフレーム画像のサイズ（解像度）を含む、フレーム画像に関するパラメータも記憶し得る。

さらに記憶部２２２は、フレームメモリやバッファメモリとして機能することも可能である。なお、記憶部２２２として、ＲＯＭ、ＲＡＭ等のメモリ装置の他に、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＤＶＤなどの記憶媒体を用いてもよい。

制御部２２３は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等の１つ以上のプロセッサにより構成されている。制御部２２３は、記憶部２２２に記憶されているコンピュータプログラムやデータを用いて各種の処理を行う。これにより制御部２２３は、撮像装置１００全体の動作制御を行うと共に、撮像装置１００が行うものとして後述する各処理を実行若しくは制御する。

なお、制御部２２３は、記憶部２２２に記憶されているコンピュータプログラムとＯＳ（Operating System）との協働により撮像装置１００全体を制御するようにしてもよい。なお、制御部２２３は、ＤＳＰ（Digital Signal Processor）等のプロセッサやＡＳＩＣ（Application Specific Integrated Circuit）により構成されてもよい。

通信部２２４は、ネットワーク３００を介してクライアント端末装置２００との間のデータ通信を行うべく、クライアント端末装置２００との間の有線信号または無線信号の送受信を行う。

次に、撮像装置１００の機能構成例について、図２（Ａ）のブロック図を用いて説明する。なお、以下では図２（Ａ）の機能部を処理の主体として説明する場合があるが、実際には、図２（Ａ）の機能部に対応する機能を制御部２２３に実現させるためのコンピュータプログラムを制御部２２３が実行することで、該機能部の機能を実現させる。なお、図２（Ａ）の機能部をハードウェアで実装するようにしても良い。

画像取得部２１１は、撮像部２２１により撮像されたフレーム画像を取得し、該フレーム画像に対し、クライアント端末装置２００から受信した各種のパラメータに従って各種の画像処理を施すことで、圧縮符号化対象のフレーム画像を生成する。なお、フレーム画像の取得元は撮像部２２１に限らず、例えば、ネットワーク３００に接続されている他の機器であっても良い。

第１検出部２１２は、画像取得部２１１による画像処理済みのフレーム画像から特定物体を検出する。画像から物体を検出する方法には様々な方法があり、特定の方法に限らない。例えば、機械学習により特定物体の特徴を学習した識別機を生成しておき、フレーム画像に適用することで該フレーム画像から特定物体を検出する既知の方法を用いても良い。

領域生成部２１３は、第１検出部２１２による特定物体の検出結果に基づいてＲＯＩを設定したり、特定物体が規定時間以上検出されなくなったＲＯＩを削除したりする。

第２検出部２１４は、画像取得部２１１による画像処理済みのフレーム画像から動体を検出する。フレーム画像から動体を検出する方法には様々な方法があり、特定の方法に限らない。例えば、フレーム画像間の差分から動き領域を検出するフレーム間差分法や、背景画像を生成しておき、その差分から背景に対する前景として動き領域を検出する背景差分法が知られている。これらの動体検出方法は、検出対象のフレーム画像の画素値と他の画像（例えば背景画像）の画素値との差分値に基づく検出方法である。

圧縮符号化部２１５は、記憶部２２２に記憶されている圧縮符号化パラメータに従ってフレーム画像を圧縮符号化する。通信制御部２１６は通信部２２４を制御し、圧縮符号化部２１５により圧縮符号化されたフレーム画像を、例えば、ストリーム形式でネットワーク３００を介してクライアント端末装置２００に対して送信する。なお、圧縮符号化されたフレーム画像の送信先はクライアント端末装置２００に限らず、例えば、ネットワーク３００を介して他の機器に対して送信しても良いし、記憶部２２２に出力しても良い。

次に、クライアント端末装置２００について説明する。クライアント端末装置２００は、撮像装置１００に対して上記の設定パラメータや設定コマンド等の各種のパラメータやコマンドを送信すると共に、撮像装置１００から送信された圧縮符号化済みのフレーム画像を復号する。復号したフレーム画像はクライアント端末装置２００以外の他の装置に転送しても良いし、クライアント端末装置２００が有するメモリに格納しても良いし、表示装置に表示しても良い。クライアント端末装置２００は、例えば、パーソナルコンピュータ、タブレット型端末装置、スマートフォン等のコンピュータ装置であり、ＣＰＵ等のプロセッサとＲＡＭや不揮発性メモリなどのメモリ装置とを有する。

ここで、フレーム画像中における特定物体の領域や動体の領域をＲＯＩとして設定し、該ＲＯＩを他の画像領域よりも高画質に圧縮符号化する場合の問題点について、図３，４を用いて説明する。

図３のフレーム画像３０は、駐車場におけるシーンが撮像されて生成されたフレーム画像であり、このフレーム画像３０には、駐車場内に止められた車３１０、その周囲に存在する人３２０、駐車場の周囲の木立３３０が含まれている。図３では、特定物体として車３１０を検出し、車３１０を含む領域をＲＯＩ（特定物体ＲＯＩ）３４０として設定した例を示している。特定物体ＲＯＩを特定物体ＲＯＩ以外の領域よりも高画質で圧縮符号化する場合、図３の例では、車３１０やその周囲の動きに関わらず、常に特定物体ＲＯＩ３４０が特定物体ＲＯＩ３４０外の領域よりも高画質で圧縮符号化される。

図４のフレーム画像４０は、駐車場におけるシーンが撮像されて生成されたフレーム画像である。このフレーム画像４０には、駐車場内に止められた静止物体としての車３１０、その周囲に存在する動体としての人３２０、駐車場の周囲の動体としての木立３３０が含まれている。図４では、動体として人３２０を検出して人３２０を含む領域をＲＯＩ（動的ＲＯＩ）４２０として設定するとと共に、動体として木立３３０を検出して木立３３０を含む領域を動的ＲＯＩ４３０として設定した例を示している。動的ＲＯＩをそれ以外の領域よりも高画質で圧縮符号化する場合、図４の例では、フレーム画像４０中の画質を高めるべき領域の位置を、状況に合わせて動的に変更することが可能となる。

ここで、圧縮符号化では、画像中の各領域を、それぞれ異なる量子化パラメータを用いて量子化して符号化することが可能である。上述したように、より大きいｑＰ値（量子化パラメータ値）で圧縮すると、画質はより低下する。図３，４の例では、ＲＯＩが小さいほど圧縮効率は高くなるので、できるだけＲＯＩが小さくなることが望ましい。図３で示した特定物体ＲＯＩ３４０の場合、駐車場に車が止めてある間は常に特定物体ＲＯＩ３４０が高画質化（低ｑＰ値）されるため、圧縮効率が悪くなる。すなわち、時間方向に不必要な高画質化が生じ得る。

それに対し、図４の動的ＲＯＩ４２０は、人３２０の動きがある場合のみ高画質化されるため、不必要な高画質化が低減される。しかしながら、人３２０の動きが少ない場合や車３１０の後方に見え隠れするような場合には、動きが精度よく検出されず、人３２０とその周辺が動的ＲＯＩとして設定されず、高画質化されない場合がある。さらに、木立３３０のように常に動きのある物体（他にも、はためく旗や水面など）が存在する場合、そのような物体を含む領域が常に動的ＲＯＩとして設定されるので、不必要に高画質化される場合がある。また、撮像装置１００が監視目的で設置される場合、通常のビデオカメラと比べて、取得される動画像に動きが少ない場合や注目すべきターゲット（対象）が限定される場合が多い。

このような問題に鑑みた本実施形態に係るフレーム画像の圧縮符号化について、図５のフローチャートに従って説明する。ステップＳ５１０では、画像取得部２１１は、上記の各種のパラメータや設定データを記憶部２２２から取得する。本実施形態では一例として、フレーム画像のサイズは３８４０画素×２１６０画素、配信のフレームレートは３０ｆｐｓ、ＲＯＩ内のｑＰ値を３５、ＲＯＩ外のｑＰ値を４３とする。

ステップＳ５２０では、画像取得部２１１は、フレーム画像群（動画像における各フレーム画像や、定期的若しくは不定期的に撮像されたフレーム画像の集合）を取得する。そして画像取得部２１１は、取得したそれぞれのフレーム画像に対し、ステップＳ５１０で取得した各種のパラメータに従って各種の画像処理を施すことで、圧縮符号化対象のフレーム画像を生成する。

ステップＳ５３０では、特定物体ＲＯＩの設定（特定物体ＲＯＩの追加や削除）に係る処理を行う。ステップＳ５３０における処理の詳細について、図６のフローチャートに従って説明する。

ステップＳ６１０では、第１検出部２１２は、ステップＳ５２０で生成されたフレーム画像群のうち未選択の１つを選択フレーム画像として選択し、該選択フレーム画像から特定物体を検出する。フレーム画像からの特定物体の検出は、各フレームについて行っても良いし、数フレームおきに行っても良い。ここで、ステップＳ６１０における処理を、駐車場におけるシーンが撮像されて生成されたフレーム画像から車を特定物体として検出する処理を例に取り説明する。

車検出の一例として、画像特徴量としてＨａａｒ－Ｌｉｋｅ特徴量、学習アルゴリズムとしてＡｄａｂｏｏｓｔを用いる方法が知られている。具体的には、車が映っている画像（車画像）と映っていない画像（非車画像）を準備し、それぞれからＨａａｒ－Ｌｉｋｅ特徴量を抽出する。そして抽出した各特徴量に対して、識別力の高いものを選択しつつ弱識別機を生成することで、車両判定のＡｄａｂｏｏｓｔによる強識別機を生成する。

フレーム画像をスキャンするウィンドウを入力としてウィンドウ内で車両が含まれるか否かを識別することで、フレーム画像内に車が含まれている場合にはその位置と共に、車が検出される。

フレーム画像からの特定物体の検出により、フレーム画像中における特定物体の位置およびサイズを得ることができる。「フレーム画像中における特定物体の位置」は、例えば、フレーム画像の左上隅の位置を原点としたときの特定物体の領域の位置（例えば中心位置、重心位置、四隅のいずれかの位置）である。また、「フレーム画像中における特定物体のサイズ」は、例えば、特定物体の領域の縦の画素数および横の画素数である。

ステップＳ６２０では、領域生成部２１３は、現在設定されている特定物体ＲＯＩに関する情報が登録されているテーブルを記憶部２２２から取得する。このテーブルには、現在設定されているそれぞれの特定物体ＲＯＩについて、該特定物体ＲＯＩの位置およびサイズ、該特定物体ＲＯＩから特定物体が検出されていない最近の期間の期間長、が登録されている。

「特定物体ＲＯＩの位置」は、例えば、フレーム画像の左上隅の位置を原点とした場合における特定物体ＲＯＩの位置（例えば中心位置、重心位置、四隅のいずれかの位置）である。また、「特定物体ＲＯＩのサイズ」は、例えば、特定物体ＲＯＩの縦の画素数および横の画素数である。

「特定物体ＲＯＩから特定物体が検出されていない最近の期間の期間長」は、特定物体ＲＯＩから特定物体が検出されなくなってから現在までの経過時間であり、特定物体ＲＯＩから特定物体が検出されると、この経過時間は０にリセットされる。

なお、画像取得部２１１が最初のフレーム画像（１フレーム目の撮像画像）を取得する時点では、未だフレーム画像上には特定物体ＲＯＩは設定されていないので、テーブルには何も登録されておらず、記憶部２２２には、空のテーブルが登録されている。

そして、テーブルに登録されている特定物体ＲＯＩのうち、ステップＳ６１０で検出した特定物体の何れも含まない特定物体ＲＯＩが、ステップＳ６３０およびステップＳ６４０の対象となる。領域生成部２１３は、テーブルに登録されている各特定物体ＲＯＩの位置およびサイズから、フレーム画像上のそれぞれの特定物体ＲＯＩを特定する。そして領域生成部２１３は、該それぞれの特定物体ＲＯＩのうち、ステップＳ６１０で検出された特定物体の領域や位置を含まない特定物体ＲＯＩを、ステップＳ６３０およびステップＳ６４０の対象（対象特定物体ＲＯＩ）とする。

一方、ステップＳ６１０で検出された特定物体のうち、テーブルに登録されている特定物体ＲＯＩの何れにも含まれていない特定物体を、ステップＳ６５０およびステップＳ６６０の対象とする。つまり領域生成部２１３は、テーブルに登録されている各特定物体ＲＯＩの位置およびサイズから、フレーム画像上のそれぞれの特定物体ＲＯＩを特定する。そして領域生成部２１３は、ステップＳ６１０で検出された特定物体のうち、その位置や領域が、フレーム画像上の特定物体ＲＯＩの何れにも含まれていない特定物体を、ステップＳ６５０およびステップＳ６６０の対象（対象特定物体）とする。

ステップＳ６３０では、領域生成部２１３は、対象特定物体ＲＯＩについて、特定物体を含まない状態でテーブルに登録されている期間長Ｔが閾値以上であるか否かを判断する。つまり領域生成部２１３は、ステップＳ６１０で検出した特定物体の何れも含まない特定物体ＲＯＩが、特定物体が検出されなくなってから現在までの経過時間が閾値以上であるか否かを判断する。この判断の結果、期間長Ｔが閾値以上であれば、処理はステップＳ６４０に進み、期間長Ｔが閾値未満であれば、処理はステップＳ５３５に進む。なお、この閾値は、本実施形態では固定値（例えば３分）とするが、状況に応じて変更するようにしても良い。

ステップＳ６４０では、領域生成部２１３は、対象特定物体ＲＯＩについてテーブルに登録されている情報（位置およびサイズ、期間長）を削除することによって、フレーム画像上における対象特定物体ＲＯＩを削除する。

一方、ステップＳ６５０では、領域生成部２１３は、対象特定物体が静止物体であるか否かを判断する。例えば、前回のステップＳ６１０で検出した対象特定物体の位置と、今回のステップＳ６１０で検出した対象特定物体の位置と、の間の距離（動き量）が閾値距離（位置誤差）未満であれば、対象特定物体は静止物体であると判断するようにしても良い。この場合、動き量が閾値距離以上であれば、対象特定物体は静止物体ではないと判断する。この閾値距離は、本実施形態では固定値（例えば３画素）とするが、画面内の位置に応じてかえるなど、状況に応じて変更するようにしても良い。なお、対象特定物体が静止物体であるか否かを判断するための方法は特定の方法に限らない。

この判断の結果、対象特定物体が静止物体であると判断した場合には、処理はステップＳ６６０に進み、対象特定物体が静止物体ではないと判断した場合には、処理はステップＳ５３５に進む。

ステップＳ６６０では領域生成部２１３は、対象特定物体の領域を包含する領域（例えば、縦横のサイズが対象特定物体の領域の縦横１．５倍のサイズ）を特定物体ＲＯＩとする。そして領域生成部２１３は、この特定物体ＲＯＩの位置およびサイズと、期間長（＝０）を上記のテーブルに追加登録することによって、フレーム画像上に新たに、対象特定物体に基づく特定物体ＲＯＩを設定する。

図５に戻って、次に、ステップＳ５３５では、領域生成部２１３は、特定物体ＲＯＩが設定されているか否か（テーブルが空か否か）を判断する。この判断の結果、特定物体ＲＯＩが設定されている（テーブルが空ではない）場合には、処理はステップＳ５４０に進む。一方、この判断の結果、特定物体ＲＯＩは設定されていない（テーブルが空である）場合には、処理はステップＳ５３０に進む。

ステップＳ５４０では、第２検出部２１４は、選択フレーム画像から動体を検出する。フレーム画像からの動体の検出は、各フレームについて行っても良いし、数フレームおきに行っても良い。また、動体は、選択フレーム画像全体を範囲として該範囲から検出するようにしても良いし、領域生成部２１３により設定された特定物体ＲＯＩを範囲として該範囲から検出するようにしても良い。動体検出方法としては、上述したように、フレーム間差分法や背景差分法が知られている。以下、それぞれの方法を用いる場合の動体検出処理について説明する。

（１）フレーム間差分法を用いる場合の動体検出処理
フレーム間差分法を用いる場合は、第２検出部２１４は、次のように動作する。つまり、動体検出対象のフレーム（例えば現在のフレーム）の撮像画像の画素値と、そのフレームとは異なるタイミングに撮像されたフレーム（例えば１つ前のフレーム（基準のフレーム））の撮像画像の画素値と、の差分値を算出する。そして、該差分値が閾値以上である部分領域を動体の領域（動体領域）として検出する。なお、画素値は一例であって、フレーム画像における他の特徴量を用いてもよい。

（２）背景差分法を用いる場合の動体検出処理
背景差分法を用いる場合は、まず、第２検出部２１４は、動体が存在しないと想定される時に撮像されたフレーム（基準のフレーム）の撮像画像を背景画像とする。そして第２検出部２１４は、背景画像の画素値と、動体検出対象のフレーム（例えば現在のフレーム）の撮像画像の画素値と、の差分値を算出する。なお、画素値は一例であって、フレーム画像における他の特徴量を用いてもよい。そして第２検出部２１４は、差分値が閾値以上である部分領域を動体領域として検出する。なお、第２検出部２１４は、差分値が閾値以上となる画素の位置に基づいて、差分値が閾値よりも小さい画素から成る領域を動体領域として検出してもよい。例えば、差分値が閾値よりも小さい画素の周りが、差分値が閾値以上の画素によって囲まれている場合は、第２検出部２１４は、差分値が閾値よりも小さい画素も動体領域として検出してもよい。

また、背景差分法を用いる場合は、次のようにしてもよい。すなわち、第２検出部２１４は、フレーム画像を複数の領域（ブロック）に分割し、領域ごとに特徴量を抽出し、該特徴量と、背景画像における特徴量と、を比較することにより、該領域が背景か前景（動体領域）かを判定してもよい。１つの領域のサイズは、一例として、Ｈ．２６４のマクロブロックの単位である１６画素×１６画素とするが、フレーム画像のサイズ等によって変更することも可能である。また、特徴量としては、領域内のピクセル輝度値をＤＣＴ（離散コサイン変換）変換した場合の、低周波数側の変換係数などを用いることができる。また、特徴量として、色情報なども用いてもよい。

また、背景画像の特徴量として、複数のフレーム画像の特徴量の平均値等を用いてもよい。なお、背景画像の特徴量は、領域ごとに用意することができる。この領域ごとの特徴量は、画像が時間的に変化することに伴って、徐々に更新され得る。更新の方法としては、背景画像として参照される頻度が少なくなったものを新しい背景画像で置き換える方法を用いることができる。また、参照された際に現フレームの領域の特徴量が反映されるよう更新する方法も用いることができる。前者の更新方法は、背景自体がかわった場合に対応することができ、後者の更新方法は、日照の変化などで背景が徐々に変化していく場合に対応することが可能である。

第２検出部２１４は、領域ごとに、抽出した特徴量と、１つ以上の背景の特徴量と、を比較することで、背景（非動体領域）であるか、前景（動体領域）であるかを判断する。そして第２検出部２１４は、孤立点除去（前景と判断された画素に囲まれた背景を前景とする処理）等の後処理を施して、最終的な動体領域を決定する。

次に、ステップＳ５５０では、圧縮符号化部２１５は、上記のテーブルに登録されている各特定物体ＲＯＩの位置およびサイズから、選択フレーム画像上のそれぞれの特定物体ＲＯＩを特定する。そして圧縮符号化部２１５は、選択フレーム画像上の特定物体ＲＯＩのうち、ステップＳ５４０で検出した動体の領域の一部若しくは全部を含む特定物体ＲＯＩがあるか否かを判断する。この判断の結果、選択フレーム画像上の特定物体ＲＯＩのうち、ステップＳ５４０で検出した動体の領域の一部若しくは全部を含む特定物体ＲＯＩがある場合には、処理はステップＳ５６０に進む。一方、選択フレーム画像上の特定物体ＲＯＩの中に、ステップＳ５４０で検出した動体の領域の一部若しくは全部を含む特定物体ＲＯＩはない場合には、処理はステップＳ５７０に進む。

なお、動体を選択フレーム画像全体からではなく特定物体ＲＯＩから検出するようにした場合、ステップＳ５５０では、該特定物体ＲＯＩから動体が検出されたのか否かを判断するようにしても良い。

ステップＳ５６０では、圧縮符号化部２１５は、動体領域の一部若しくは全部を含む特定物体ＲＯＩに対しては、「ＲＯＩ内のｑＰ値」として「３５」を設定する。一方、圧縮符号化部２１５は、選択フレーム画像において「動体領域の一部若しくは全部を含む特定物体ＲＯＩ」以外の画像領域に対しては、「ＲＯＩ外のｑＰ値」として「４３」を設定する。

なお、ステップＳ５６０では、圧縮符号化部２１５は更に、「動体領域の一部若しくは全部を含む特定物体ＲＯＩ」に対して、高画質化する時間（高画質化処理の継続時間）を設定するようにしても良い。「高画質化処理の継続時間」は予め記憶部２２２に登録されているものとする。

ここで、高画質化処理の継続時間の意義について説明する。図３～図４を用いて説明したように、駐車場に止められた車の周囲では、人３２０が車のかげに隠れて動きが見え隠れする状況があるが、高画質化のターゲットである人３２０が車の周囲に存在する間は特定物体ＲＯＩ内の高画質化を継続することが望ましい。更に、特定物体ＲＯＩ内の画質が短期間で高画質と低画質に切り替わることは、映像の視認性を下げることになり得る。そのため、本実施形態では、一度、動体領域の少なくとも一部が特定物体ＲＯＩに含まれると判定されて高画質化された場合に、その後、動体が検出されなくなっても、高画質化処理の継続時間の間、高画質化処理を行う。すなわち、動体領域の少なくとも一部が特定物体ＲＯＩに含まれると判定された後に、該特定物体ＲＯＩから動体が検出されなくなった場合、または、動体領域が特定物体ＲＯＩに含まれないと判定された場合であっても、一定時間は高画質化処理が行われる。ここで、高画質化処理とは、他の画像領域よりも高画質で符号化する（例えばより小さい量子化ステップで量子化して符号化する）ことを意味する。高画質化処理の継続時間はシーンによっても異なり得るため、ユーザが設定できるようにしてもよい。もしくは、制御部２２３が過去の動体検出の履歴を管理し、イベントごとの高画質化処理の継続時間を設定するようにしてもよい。

ステップＳ５７０では、圧縮符号化部２１５は、特定物体ＲＯＩであっても、動体領域の一部若しくは全部を含まない特定物体ＲＯＩは、高画質化の対象とはせず、特定物体ＲＯＩ内外で同じ画質となるような符号化の設定を行う。一例として、圧縮符号化部２１５は、特定物体ＲＯＩ内外の共通のｑＰ値「４３」を選択フレーム画像に対して設定する。

ステップＳ５８０では、圧縮符号化部２１５は、ステップＳ５６０で設定したｑＰ値もしくはステップＳ５７０で設定したｑＰ値を用いて選択フレーム画像を量子化して符号化する圧縮符号化を行う。

ステップＳ５６０からステップＳ５８０に進んだ場合、圧縮符号化部２１５は、動体領域の一部若しくは全部を含む特定物体ＲＯＩをｑＰ値「３５」で量子化し、動体領域の一部若しくは全部を含む特定物体ＲＯＩ以外の画像領域をｑＰ値「４３」で量子化する。ステップＳ５７０からステップＳ５８０に進んだ場合、圧縮符号化部２１５は、選択フレーム画像全体をｑＰ値「４３」で量子化する。

そして通信制御部２１６は通信部２２４を制御し、ステップＳ５８０で圧縮符号化部２１５により圧縮符号化されたフレーム画像を、例えば、ストリーム形式でネットワーク３００を介してクライアント端末装置２００に対して送信する。

ステップＳ５９０では、制御部２２３は、ステップＳ５２０で生成されたフレーム画像群の全てを選択フレーム画像として選択したか否かを判断する。この判断の結果、ステップＳ５２０で生成されたフレーム画像群の全てを選択フレーム画像として選択した場合には、図５のフローチャートに従った処理は完了する。一方、ステップＳ５２０で生成されたフレーム画像のうち、未だ選択フレーム画像として選択していないフレーム画像が残っている場合には、処理はステップＳ５３０に進む。

次に、図７（Ａ）と図７（Ｂ）を参照して、図５のＳ５５０～ステップＳ５７０の処理を視覚的に説明する。図７（Ａ）と図７（Ｂ）はそれぞれ、図３や図４と同様に、駐車場に駐車された車とその周囲におけるシーンが撮像されて生成されたフレーム画像７０、フレーム画像７１を示す。

図７（Ａ）のフレーム画像７０では、特定物体である車７１０に対する特定物体ＲＯＩ７４０内に動体が含まれていない。このようなフレーム画像７０は、例えば、夜間でだれもいない駐車場に車が駐車されているシーンを撮像して生成された撮像画像である。この場合、圧縮符号化部２１５は、特定物体ＲＯＩ７４０であっても高画質化を行わない。すなわち、圧縮符号化部２１５は、特定物体ＲＯＩ７４０内外で同じ画質となるような符号化の設定を行い（ステップＳ５７０）、該設定に従ってフレーム画像７０の圧縮符号化を行う（ステップＳ５８０）。

図７（Ｂ）のフレーム画像７１では、特定物体である車７１０に対する特定物体ＲＯＩ７４０内に動体としての人７２０が含まれている。このようなフレーム画像７１は、例えば、車７１０の所有者以外の人（不審者）７２０が車に近づき、車７１０の中を物色しているシーンに対応する撮像画像である。この場合、圧縮符号化部２１５は、特定物体ＲＯＩ７４０内を高画質化する。すなわち、圧縮符号化部２１５は、特定物体ＲＯＩ７４０が特定物体ＲＯＩ７４０以外の画像領域よりも高画質で符号化されるように設定を行い（ステップＳ５６０）、該設定に従ってフレーム画像７１の圧縮符号化を行う（ステップＳ５８０）。また、圧縮符号化部２１５は、高画質化処理の継続時間を設定した場合、該継続時間の間、特定物体ＲＯＩ７４０内を高画質化する。これにより、例えば、不審者である人７２０が車の影に隠れて体の一部しか見えなくなったり、動きがほとんどなくなったりする場合であっても、特定物体ＲＯＩ７４０内の高画質化が継続される。このため、不審者である人７２０が車７１０の周囲に存在する間は常に、特定物体ＲＯＩ７４０内を高画質化することができる。

このように、本実施形態によれば、ＲＯＩ内であっても何ら動きを伴うイベントが発生していない場合には、高画質化することがないため、ビットレートを低減させることができる。さらに、ＲＯＩが動体領域の少なくとも一部を含む場合には、必要な領域全体（すなわちＲＯＩ）を高画質化することにより、動体検出の精度に依存して高画質化する領域が変動することを防ぎ、結果として、情報の取りこぼしを防止することができる。

［第２の実施形態］
本実施形態を含む以下の各実施形態では第１の実施形態との差分について説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。第１の実施形態では、駐車場のシーンを想定し、特定物体が車であるケースについて説明したが、特定物体はユースケースに応じて様々なものが考えられる。例えば駐輪場における自転車や空港シーンでのスーツケース、海上での船舶、車両基地の電車や飛行機、店頭や倉庫に保管される商品などがある。検出対象とする特定物体が異なると、検出結果に応じて特定物体ＲＯＩを生成する方法が異なる場合がある。このような場合の処理の手順について説明する。

本実施形態では、車に限らず、自転車やスーツケース、電車や飛行機など様々なものを特定物体とする。そのため、本実施形態に係るステップＳ６１０では、特定物体に該当する物体を選択フレーム画像から検出することになる。本実施形態においても、特定物体の検出方法としては、第１の実施形態と同様、機械学習をベースとしたオブジェクト検出方法を用いることができる。その際に学習画像として、特定物体が自転車であれば自転車の画像を収集する必要があり、スーツケースであればスーツケースの画像を収集する必要がある。それらの画像に対して、第１の実施形態と同様に、画像特徴量としてＨａａｒ－Ｌｉｋｅ特徴量、学習アルゴリズムとしてＡｄａｂｏｏｓｔを用いることで、自転車やスーツケースを選択フレーム画像から検出する特定物体識別機を生成することができる。

本実施形態では、ステップＳ５３０において図８のフローチャートに従った処理を行う。図８において、図６に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

ステップＳ８６０では、領域生成部２１３は、対象特定物体の領域を包含する領域を特定物体ＲＯＩとして設定するが、その設定方法が第１の実施形態と異なる。つまり本実施形態では、特定物体の周辺に存在する人の動きの範囲を想定して特定物体ＲＯＩを設定する。

例えば、特定物体が自転車やスーツケースである場合、特定物体の重心位置に対して、それを扱う人の顔はより高い位置に存在することが考えられる。よって、特定物体が自転車やスーツケースである場合には、検出した特定物体の領域の重心を基準として、上方に拡大した領域を特定物体ＲＯＩとして設定することが望ましい。

特定物体としてスーツケースを検出した場合に設定される特定物体ＲＯＩの一例を図９に示す。空港などのシーンで人９１０がスーツケース９２０を持って歩いている。領域９３０は、スーツケース９２０の検出結果（スーツケース９２０の領域）である。図９に示す如く、領域９３０の縦のサイズおよび横のサイズをそれぞれａ、ｂとする。このとき、スーツケース９２０に対して設定される特定物体ＲＯＩ９４０の上辺は、領域９３０の上辺から上方に１．５ａだけ移動した位置、特定物体ＲＯＩ９４０の下辺は、領域９３０の下辺から下方に０．５ａだけ移動した位置、に設定する。また、特定物体ＲＯＩ９４０の左辺は、領域９３０の左辺から左方にｂだけ移動した位置、特定物体ＲＯＩ９４０の右辺は、領域９３０の右辺から右方にｂだけ移動した位置、に設定する。つまり、領域９３０を、状況に応じた拡大率でもって上下左右に拡大した領域を特定物体ＲＯＩ９４０としている。

なお、スーツケースには様々な大きさのタイプがあり、もっと小型のものも存在する。その場合に設定する特定物体ＲＯＩは、より高い拡大率でスーツケースの領域を拡大した領域となる。なお、特定物体の検出の際に、スーツケースのタイプを検出し、該タイプに応じて拡大率を変更することもできるし、カメラが設置された場所によって拡大率を変えることも考えられる。例えば、空港の手荷物カウンターを通過した後のスペースに設置されるカメラの場合には、手荷物として機内持ち込みが可能な大きさのスーツケースしか存在しないため、例えば、それに応じてより上方に拡大した特定物体ＲＯＩを設定する。

さらに、特定物体ＲＯＩは、カメラと被写体との位置関係に応じて拡大率を変えることも考えられる。被写体が図９に示すように真横に近い方向から撮影されている場合には、図９で示したような比率での拡大でよい。しかし、カメラが高い位置に設置され、被写体に対して上方から撮影されるような場合には、上下左右関係なく被写体の領域の重心を中心として周囲に拡大した領域を特定物体ＲＯＩとしてもよい。

他にも、特定物体の種類（属性）によって、特定物体ＲＯＩに関する様々なパラメータを変更することが考えられる。例えば、第１の実施形態における車検出において、車種によって異なるパラメータを設定する場合が考えられる。例えば、車上あらしなどの被害にあう件数が多いことが報告されている車種に関しては、特定物体ＲＯＩを大きくする他、特定物体ＲＯＩに動体が含まれなくなっても高画質化が継続する時間を長くすることなどが考えらえる。さらに、車種に応じて高画質化する際のｑＰ値を変更することも可能である。つまり、特定物体ＲＯＩ内（注目領域内）の特定物体の属性に応じて該特定物体ＲＯＩの画質を制御する。

また、第１の実施形態では、高画質化の継続時間や高画質化する際のｑＰ値はすべての特定物体ＲＯＩに対して同じとしていたが、本実施形態では、検出された特定物体の属性（車の場合には車種）に応じて異なる値を設定することも可能とする。同様の対象としては、店頭や倉庫におかれる商品に対しても適応可能である。店頭や倉庫におかれる商品に関しては、盗難の被害が多い商品に関してのみ特定物体ＲＯＩを設定することも可能である。

このように、本実施形態では、特定物体とする対象には様々なものが適用可能である。特定物体の検出に用いる識別機は、対象とするターゲットの画像を大量に集めて学習することで構成することが可能である。同様に、特定物体の属性を特定することも、対応する学習データを集めることにより目的にあった識別機を構成することで可能となる。そして対象とするターゲットに応じて、特定物体ＲＯＩの生成方法や高画質化に関する各種パラメータの値を変更することができる。また、特定物体ＲＯＩとして高画質化したい対象と特定物体との位置関係により、特定物体ＲＯＩの拡大方法を設定してもよいし、カメラと被写体との位置関係に基づき特定物体ＲＯＩを設定してもよい。

［第３の実施形態］
路上駐車などを取り締まりたい場合に、路上に駐車された車に対して特定物体ＲＯＩを設定し、運転者が戻ったときに該特定物体ＲＯＩを高画質化したい場合を想定する。このとき、特定物体ＲＯＩは駐車禁止エリアに止められた車のみであり、信号待ちで止まっている車や、駐車可能エリアに止められている車は対象外としたい。

このような場合を想定した撮像装置１００は、特定物体を検出する範囲を予めユーザが指定しておき、該指定した範囲内でのみ特定物体の検出を行うことが考えられる。もしくは、特定物体を検出する範囲をフレーム画像全体とした場合であっても、ユーザが指定した範囲内の特定物体についてのみ特定物体ＲＯＩを設定するようにしても良い。

［第４の実施形態］
第１～３の実施形態では、動体の種別に関係なく処理を行っていたが、フレーム画像内の動体のうち特定の種別の動体のみを対象とするようにしても良い。例えば、動体検出の対象を人などに限定するようにしても良い。このような制限を加えることにより、フレーム画像内に犬や猫などの小動物、カラスなどの鳥類が現れた場合であっても、これらが動体として検出されて高画質化のトリガとなることがなくなり、より無駄の少ない高画質化が可能となる。

［第５の実施形態］
第１～４の実施形態では、動体を含む特定物体ＲＯＩ全体を高画質化するものとして説明したが、状況によっては、動体を含む特定物体ＲＯＩの部分領域のみを高画質化するようにしても良い。

具体的には、車両基地に置かれた飛行機など大型の特定物体に対しては、かなり大きな特定物体ＲＯＩを設定することになるが、そこに不審者が現れた場合であっても、飛行機全体を含む特定物体ＲＯＩの全体を高画質化するのは無駄が生じる。

そこで、そのような場合には、特定物体ＲＯＩ内の動体領域のみを高画質化した方がより効率のよい符号化が可能になる。よってそのような場合を想定し、特定物体ＲＯＩ内に動体が検出された場合に、特定物体ＲＯＩ全体を高画質化するモードと、特定物体ＲＯＩ内の動体領域のみを高画質化するモードと、を設けるようにしても良い。そして上記の設定コマンドに、何れのモードを使用するのかを指定するコマンドを含めておけば、撮像装置１００は、クライアント端末装置２００から受信した設定コマンドに応じて、指定されたモードで動作することになる。

［第６の実施形態］
第１～５の実施形態では、監視目的の撮像を例に説明したが、放送目的等、種々の目的の撮像技術に適用することも可能である。また、第１～５の実施形態では、撮像装置１００はネットワーク３００に接続されているものとして説明したが、ネットワーク３００に接続されていなくても良い。

また、第１～５の実施形態では、撮像装置１００が動画像を撮像し、該撮像した動画像の各フレームの撮像画像（フレーム画像）に対して画像処理を行って圧縮符号化するものとして説明したが、このような構成に限らない。例えば、撮像装置１００は撮像を行い、該撮像装置１００と接続されているコンピュータ装置が、該撮像された動画像の各フレームの撮像画像（フレーム画像）に対して画像処理を行って圧縮符号化するようにしても良い。この場合におけるコンピュータ装置には、例えば、図２（Ｂ）において撮像部２２１を除く構成を適用することができる。つまり、撮像装置１００が行うものとして上述した各処理を複数台の装置で分担して実行するようにしても良い。

また、第１～５の実施形態において使用した具体的な数値は、より具体的な説明を行うために例示的に使用したものであって、この数値に限定されることを意図したものではない。

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

２１１：画像取得部２１２：第１検出部２１３：領域生成部２１４：第２検出部２１５：圧縮符号化部２１６：通信制御部

Claims

動画像におけるフレーム画像から特定物体を検出する検出手段と、
前記検出手段による前記特定物体の検出結果に基づいて、前記フレーム画像に対して注目領域を設定する設定手段と、
前記設定手段により前記フレーム画像に設定された複数の注目領域のうち前記フレーム画像から検出された動体の領域を含まない注目領域を、第１符号化パラメータを用いて符号化し、前記複数の注目領域のうち前記フレーム画像から検出された動体の領域を含む注目領域を、前記第１符号化パラメータよりも相対的に高画質になるように符号化することが可能な第２符号化パラメータを用いて符号化する符号化手段と
を備えることを特徴とする画像処理装置。
前記設定手段は、特定物体が規定時間以上検出されていない注目領域を削除することを特徴とする請求項１に記載の画像処理装置。
前記設定手段は、特定物体の領域を拡大した領域を注目領域として設定することを特徴とする請求項１または２に記載の画像処理装置。
前記設定手段は、特定物体の属性に応じて前記拡大の率を制御することを特徴とする請求項３に記載の画像処理装置。
前記設定手段は、注目領域に含まれていない静止物体として判定された特定物体の検出結果に基づいて注目領域を設定することを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
注目領域に含まれていない静止物体として判定された特定物体は、ユーザにより指定された範囲内の特定物体であることを特徴とする請求項５に記載の画像処理装置。
前記符号化手段は、前記複数の注目領域のうち動体の領域を含む注目領域が一定時間、前記第２符号化パラメータを用いて符号化されるように、前記フレーム画像を符号化することを特徴とする請求項１乃至６の何れか１項に記載の画像処理装置。
前記符号化手段は、前記複数の注目領域のうち前記フレーム画像から検出された動体の領域を含む注目領域がない場合には、各注目領域とその他の領域とが同じ画質で符号化されるように、前記フレーム画像を符号化することを特徴とする請求項１乃至７の何れか１項に記載の画像処理装置。
前記第１符号化パラメータは第１量子化パラメータであり、前記第２符号化パラメータは前記第１量子化パラメータより小さい第２量子化パラメータであることを特徴とする請求項１乃至８の何れか１項に記載の画像処理装置。
前記符号化手段は、注目領域内の特定物体の属性に応じて該注目領域の画質を制御することを特徴とする請求項１乃至９の何れか１項に記載の画像処理装置。
更に、
動画像におけるフレーム画像を撮像により取得する手段を備えることを特徴とする請求項１乃至１０の何れか１項に記載の画像処理装置。
更に、
動画像におけるフレーム画像を外部の装置から取得する手段を備えることを特徴とする請求項１乃至１０の何れか１項に記載の画像処理装置。
前記特定物体は、検出する対象として予め指定された物体であることを特徴とする請求項１乃至１２の何れか１項に記載の画像処理装置。
前記動体は、検出する対象として予め指定された物体であることを特徴とする請求項１乃至１３の何れか１項に記載の画像処理装置。
動画像におけるフレーム画像から特定物体を検出する検出工程と、
前記検出工程による前記特定物体の検出結果に基づいて、前記フレーム画像に対して注目領域を設定する設定工程と、
前記設定工程で前記フレーム画像に設定された複数の注目領域のうち前記フレーム画像から検出された動体の領域を含まない注目領域を、第１符号化パラメータを用いて符号化し、前記複数の注目領域のうち前記フレーム画像から検出された動体の領域を含む注目領域を、前記第１符号化パラメータよりも相対的に高画質になるように符号化することが可能な第２符号化パラメータを用いて符号化する符号化工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至１４の何れか１項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。