JP2021170727A

JP2021170727A - 装置、画像処理装置、撮像装置、移動体、プログラム及び方法

Info

Publication number: JP2021170727A
Application number: JP2020073147A
Authority: JP
Inventors: 数史佐藤; Kazufumi Sato
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2021-10-28

Abstract

【課題】学習済みニューラルネットワークを用いて画質劣化を改善する画像処理装置を提供する。【解決手段】撮像装置において、制御部は、符号化による画質劣化量に対応づけて、復号化した画像を処理するための複数の学習済みニューラルネットワークを記憶し、画像の符号化により生成された符号化データ及び画像の符号化により生じた画質劣化量を取得し、符号化データを復号化することにより、復号化画像を生成し、複数の学習済みニューラルネットワークのうち取得した画質劣化量に対応づけられた学習済みニューラルネットワークを選択し、選択した学習済みニューラルネットワークを用いて、復号化画像を処理する復号化器を備える。【選択図】図７

Description

本発明は、装置、画像処理装置、撮像装置、移動体、プログラム及び方法に関する。

非特許文献１及び２には、動画像の符号化装置において、動き予測ループ内に機械学習によるフィルタを挿入した構成が記載されている。非特許文献３には、構造的類似性（ＳｔｒｕｃｔｕａｌＳｉｍｉｌａｒｉｔｙ）に基づいて画質を評価する技術が記載されている。
［先行技術文献］
［特許文献］
［非特許文献１］ＬｕｌｕＺｈｏｕ，ＸｉａｏｄａｎＳｏｎｇ，ＪｉａｂａｏＹａｏ，ＬｉＷａｎｇ，ＦａｎｇｄｏｎｇＣｈｅｎ， "ＪＶＥＴ−Ｉ００２２：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｉｌｔｅｒ（ＣＮＮＦ）ｆｏｒｉｎｔｒａｆｒａｍｅ"，ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ（ＪＶＥＴ）９ｔｈＭｅｅｔｉｎｇ：Ｇｗａｎｇｊｕ，Ｋｏｒｅａ，２０１８年１月
［非特許文献２］ＪｉａｂａｏＹａｏ，ＸｉａｏｄａｎＳｏｎｇ，ＳｈｕｑｉｎｇＦａｎｇ，ＬｉＷａｎｇ， "ＡＨＧ９：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋＦｉｌｔｅｒｆｏｒｉｎｔｅｒｆｒａｍｅ"，ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９ＷＧ１１，ＪＶＥＴ−Ｋ０２２２，２０１８年７月
［非特許文献３］ＺｈｏｕＷａｎｇ，ＡｌａｎＣ．Ｂｏｖｉｋ，ＨａｍｉｄＲ．Ｓｈｅｉｋｈ，ＥｅｒｏＰ．Ｓｉｍｏｎｃｅｌｌｉ， "ＩｍａｇｅＱｕａｌｉｔｙＡｓｓｅｓｓｍｅｎｔ：ＦｒｏｍＥｒｒｏｒＶｉｓｉｂｉｌｉｔｙｔｏＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙ"，ＩＥＥＥＴｒａｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ１３，Ｎｏ４，２００４年４月

本発明の第１の形態に係る装置は、符号化による画質劣化量に対応づけて、復号化した画像を処理するための複数の学習済みニューラルネットワークを記憶するように構成される回路を備える。回路は、画像の符号化により生成された符号化データ及び画像の符号化により生じた画質劣化量を取得するように構成される。回路は、符号化データを復号化することにより、復号化画像を生成するように構成される。回路は、複数の学習済みニューラルネットワークのうち取得した画質劣化量に対応づけられた学習済みニューラルネットワークを選択するように構成される。回路は、選択した学習済みニューラルネットワークを用いて、復号化画像を処理するように構成される。

画質劣化量は、符号化前の画像及び復号化画像から算出される（ｉ）ピーク信号対雑音比（ＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）、（ｉｉ）構造的類似性（ＳＳＩＭ）及び（ｉｉｉ）平均二乗誤差（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）の少なくとも一つであってよい。

画像は、動画を構成する動画構成画像であってよい。符号化データは、動画構成画像のインター予測又はイントラ予測によって得られた動画構成画像の予測差分情報を量子化することによって得られた量子化差分情報を含んでよい。回路は、符号化データから取得した量子化差分情報の逆量子化を含む処理によって得られた予測差分情報に基づいて差分画像を生成し、差分画像にインター予測画像又はイントラ予測画像を加算することにより、復号化画像を生成するように構成される。回路は、選択した学習済みニューラルネットワークを用いて、復号化画像を処理するように構成される。

画像は、動画を構成する動画構成画像であってよい。回路は、動画構成画像のピクチャ種別にさらに対応づけて、複数の学習済みニューラルネットワークを記憶するように構成される。回路は、複数の学習済みニューラルネットワークのうち、動画構成画像のピクチャ種別と、取得した画質劣化量とに対応づけられた学習済みニューラルネットワークを選択するように構成される。

ニューラルネットワークは、学習用画像と学習用画像の符号化データとを学習データとして用いて、符号化による画質劣化量に応じて機械学習を行うことによって得られた畳み込みニューラルネットワークであってよい。

本発明の第２の態様に係る装置は、符号化による画質劣化量に対応づけて、復号化された画像データを処理するための複数の学習済みニューラルネットワークを記憶するように構成された回路を備える。回路は、符号化対象画像をインター予測又はイントラ予測を含む符号化処理により符号化することによって、符号化データを生成するように構成される。回路は、符号化データを復号化することによって復号化画像を生成するように構成される。回路は、符号化対象画像と復号化画像に基づいて、符号化対象画像の符号化により生じた画質劣化量を算出するように構成される。回路は、符号化データ及び算出した画質劣化量を出力するように構成される。回路は、複数の学習済みニューラルネットワークのうち算出した画質劣化量に対応づけられた学習済みニューラルネットワークを選択するように構成される。回路は、選択した学習済みニューラルネットワークを用いて、生成した復号化画像を処理することによって、インター予測又はイントラ予測に用いられる参照用画像を生成するように構成される。

本発明の第３の態様に係る画像処理装置は、第１の態様に係る装置と、第２の態様に係る装置とを備える。

本発明の第４の態様に係る撮像装置は、上記の装置と、画像を生成するイメージセンサとを備える。

本発明の第５の態様に係る移動体は、上記の撮像装置を備えて移動する。

移動体は、無人航空機であってよい。

本発明の第６の態様に係るプログラムは、コンピュータを上記の装置として機能させる。プログラムは、非一時的記録媒体に記録されてよい。

本発明の第７の態様に係る方法は、符号化による画質劣化量に対応づけて、復号化した画像を処理するための複数の学習済みニューラルネットワークを記憶する段階を備える。方法は、画像の符号化により生成された符号化データ及び画像の符号化により生じた画質劣化量を取得する段階を備える。方法は、符号化データを復号化することにより、復号化画像を生成する段階を備える。方法は、複数の学習済みニューラルネットワークのうち取得した画質劣化量に対応づけられた学習済みニューラルネットワークを選択する段階を備える。方法は、選択した学習済みニューラルネットワークを用いて、復号化画像を処理する段階を備える。

本発明の第８の態様に係る方法は、符号化による画質劣化量に対応づけて、復号化された画像データを処理するための複数の学習済みニューラルネットワークを記憶する段階を備える。方法は、符号化対象画像をインター予測又はイントラ予測を含む符号化処理により符号化することによって、符号化データを生成する段階を備える。方法は、符号化データを復号化することによって復号化画像を生成する段階を備える。方法は、符号化対象画像と復号化画像に基づいて、符号化対象画像の符号化により生じた画質劣化量を算出する段階を備える。方法は、符号化データ及び算出した画質劣化量を出力する段階を備える。方法は、複数の学習済みニューラルネットワークのうち算出した画質劣化量に対応づけられた学習済みニューラルネットワークを選択する段階を備える。方法は、選択した学習済みニューラルネットワークを用いて、生成した復号化画像を処理することによって、インター予測又はイントラ予測に用いられる参照用画像を生成する段階を備える。

本発明の上記の態様によれば、画像の符号化又は復号化を適切に行うことができる。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

本実施形態に係る撮像装置１００の外観斜視図の一例を示す図である。本実施形態に係る撮像装置１００の機能ブロックを示す図である。学習器のブロック図を示す。ＰＳＮＲに基づくクラス分類を行うためのクラス情報を示す。ニューラルネットワークのパラメータ情報を示す。制御部１１０が備える符号化器のブロック構成を示す。制御部１１０が備える復号化器のブロック構成を示す。制御部１１０が符号化対象ピクチャを符号化する場合に実行する処理のフローチャートを示す。制御部１１０が復号化対象ピクチャを復号化する場合に実行する処理のフローチャートを示す。インター予測で用いられるピクチャの参照関係の一例を示す。無人航空機（ＵＡＶ）の一例を示す。本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ１２００の一例を示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施の形態は特許請求の範囲に係る発明を限定するものではない。また、実施の形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。以下の実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、図面、及び要約書には、著作権による保護の対象となる事項が含まれる。著作権者は、これらの書類の何人による複製に対しても、特許庁のファイルまたはレコードに表示される通りであれば異議を唱えない。ただし、それ以外の場合、一切の著作権を留保する。

本発明の様々な実施形態は、フローチャート及びブロック図を参照して記載されてよく、ここにおいてブロックは、（１）操作が実行されるプロセスの段階または（２）操作を実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、プログラマブル回路、及び／またはプロセッサによって実装されてよい。専用回路は、デジタル及び／またはアナログハードウェア回路を含んでよい。集積回路（ＩＣ）及び／またはディスクリート回路を含んでよい。プログラマブル回路は、再構成可能なハードウェア回路を含んでよい。再構成可能なハードウェア回路は、論理ＡＮＤ、論理ＯＲ、論理ＸＯＲ、論理ＮＡＮＤ、論理ＮＯＲ、及び他の論理操作、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルロジックアレイ（ＰＬＡ）等の様なメモリ要素等を含んでよい。

コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよい。その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、１または複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードの何れかを含んでよい。ソースコードまたはオブジェクトコードは、従来の手続型プログラミング言語を含む。従来の手続型プログラミング言語は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ（登録商標）、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語または同様のプログラミング言語でよい。コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサまたはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して提供されてよい。プロセッサまたはプログラマブル回路は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

図１は、本実施形態に係る撮像装置１００の外観斜視図の一例を示す図である。図２は、本実施形態に係る撮像装置１００の機能ブロックを示す図である。

撮像装置１００は、撮像部１０２、レンズ部２００を備える。撮像部１０２は、イメージセンサ１２０、制御部１１０、メモリ１３０、指示部１６２、及び表示部１６０を有する。

イメージセンサ１２０は、ＣＣＤまたはＣＭＯＳにより構成されてよい。イメージセンサ１２０は、レンズ部２００が有するレンズ２１０を介して光を受光する。イメージセンサ１２０は、レンズ２１０を介して結像された光学像の画像データを制御部１１０に出力する。

制御部１１０は、ＣＰＵまたはＭＰＵなどのマイクロプロセッサ、ＭＣＵなどのマイクロコントローラなどにより構成されてよい。メモリ１３０は、コンピュータ可読可能な記録媒体でよく、ＳＲＡＭ、ＤＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びＵＳＢメモリなどのフラッシュメモリの少なくとも１つを含んでよい。制御部１１０は回路に対応する。メモリ１３０は、制御部１１０がイメージセンサ１２０などを制御するのに必要なプログラム等を格納する。メモリ１３０は、撮像装置１００の筐体の内部に設けられてよい。メモリ１３０は、撮像装置１００の筐体から取り外し可能に設けられてよい。

指示部１６２は、撮像装置１００に対する指示をユーザから受け付けるユーザインタフェースである。表示部１６０は、イメージセンサ１２０により撮像され、制御部１１０により処理された画像、撮像装置１００の各種設定情報などを表示する。表示部１６０は、タッチパネルで構成されてよい。

制御部１１０は、レンズ部２００及びイメージセンサ１２０を制御する。例えば、制御部１１０は、レンズ２１０の焦点の位置や焦点距離を制御する。制御部１１０は、ユーザからの指示を示す情報に基づいて、レンズ部２００が備えるレンズ制御部２２０に制御命令を出力することにより、レンズ部２００を制御する。

レンズ部２００は、１以上のレンズ２１０、レンズ駆動部２１２、レンズ制御部２２０、及びメモリ２２２を有する。本実施形態において１以上のレンズ２１０のことを「レンズ２１０」と総称する。レンズ２１０は、フォーカスレンズ及びズームレンズを含んでよい。レンズ２１０が含むレンズのうちの少なくとも一部または全部は、レンズ２１０の光軸に沿って移動可能に配置される。レンズ部２００は、撮像部１０２に対して着脱可能に設けられる交換レンズであってよい。

レンズ駆動部２１２は、レンズ２１０のうちの少なくとも一部または全部を、レンズ２１０の光軸に沿って移動させる。レンズ制御部２２０は、撮像部１０２からのレンズ制御命令に従って、レンズ駆動部２１２を駆動して、レンズ２１０全体又はレンズ２１０が含むズームレンズやフォーカスレンズを光軸方向に沿って移動させることで、ズーム動作やフォーカス動作の少なくとも一方を実行する。レンズ制御命令は、例えば、ズーム制御命令、及びフォーカス制御命令等である。

レンズ駆動部２１２は、複数のレンズ２１０の少なくとも一部または全部を光軸方向に移動させるボイスコイルモータ（ＶＣＭ）を含んでよい。レンズ駆動部２１２は、ＤＣモータ、コアレスモータ、または超音波モータ等の電動機を含んでよい。レンズ駆動部２１２は、電動機からの動力をカム環、ガイド軸等の機構部材を介して複数のレンズ２１０の少なくとも一部または全部に伝達して、レンズ２１０の少なくとも一部または全部を光軸に沿って移動させてよい。

メモリ２２２は、レンズ駆動部２１２を介して移動するフォーカスレンズやズームレンズ用の制御値を記憶する。メモリ２２２は、ＳＲＡＭ、ＤＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びＵＳＢメモリなどのフラッシュメモリの少なくとも１つを含んでよい。

制御部１１０は、指示部１６２等を通じて取得したユーザの指示を示す情報に基づいて、イメージセンサ１２０に制御命令を出力することにより、イメージセンサ１２０に撮像動作の制御を含む制御を実行する。制御部１１０は、イメージセンサ１２０により撮像された画像を取得する。制御部１１０は、イメージセンサ１２０から取得した画像に画像処理を施してメモリ１３０に格納する。

制御部１１０が実行する符号化処理及び復号化処理について説明する。制御部１１０は、符号化による画質劣化量に対応づけて、復号化した画像を処理するための複数の学習済みニューラルネットワークを記憶する。制御部１１０は、学習済みニューラルネットワークを外部のメモリ１３０に記憶してよい。制御部１１０は、学習済みニューラルネットワークを制御部１１０内の不揮発性メモリに記憶してよい。また、本実施形態において、符号化対象及び復号化対象の画像は、動画を構成する動画構成画像である。しかし、画像は静止画であってもよい。

まず、制御部１１０が符号化対象画像を符号化する処理の概要を説明する。制御部１１０は、符号化対象画像をインター予測又はイントラ予測を含む符号化処理により符号化することによって、符号化データを生成する。制御部１１０は、符号化データを復号化することによって復号化画像を生成し、符号化対象画像と復号化画像に基づいて、符号化対象画像の符号化により生じた画質劣化量を算出する。制御部１１０は、符号化データ及び算出した画質劣化量を出力する。例えば、制御部１１０は、生成した符号化データと、画質劣化量と、符号化に用いた動きベクトル等の圧縮情報とを含む圧縮画像データをメモリ１３０に記録する。

制御部１１０は、インター予測又はイントラ予測に用いる参照画像を生成する場合に、複数の学習済みニューラルネットワークのうち、算出した画質劣化量に対応づけられた学習済みニューラルネットワークを選択する。制御部１１０は、選択した学習済みニューラルネットワークを用いて、生成した復号化画像を処理することによって、インター予測又はイントラ予測に用いられる参照用画像を生成する。

なお、画質劣化量は、符号化前の画像及び復号化画像データから算出されるピーク信号対雑音比（ＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）であってよい。）画質劣化量は、符号化前の画像及び復号化画像データから算出される構造的類似性（ＳＳＩＭ、ＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙ）であってよい。画質劣化量は、符号化前の画像及び復号化画像データから算出される平均二乗誤差（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）であってよい。画質劣化量は、符号化前の画像及び復号化画像データに基づく任意の損失関数の値を指標としてよい。

次に、制御部１１０が復号化対象画像を復号化する処理の概要を説明する。制御部１１０は、画像の符号化により生成された符号化データ及び画像の符号化により生じた画質劣化量を取得する。例えば、制御部１１０は、メモリ１３０から、画像の符号化データ、画質劣化量及び圧縮情報を含む圧縮画像データを読み出す。制御部１１０は、符号化データを復号化することにより、復号化画像を生成する。制御部１１０は、複数の学習済みニューラルネットワークのうち、取得した画質劣化量に対応づけられた学習済みニューラルネットワークを選択する。そして、制御部１１０は、選択した学習済みニューラルネットワークを用いて、復号化画像を処理する。制御部１１０は、学習済みニューラルネットワークを用いて処理した復号化画像を、例えば表示部１６０に出力する。

一例として、動画構成画像の符号化データは、動画構成画像のインター予測又はイントラ予測によって得られた動画構成画像の予測差分情報を量子化することによって得られた量子化差分情報を含む。例えば、予測差分情報は、符号化対象画像と参照画像との差分画像を離散コサイン変換（「ＤＣＴ変換」と呼ぶ場合がある）することにより得られたＤＣＴ係数であり、量子化差分情報は、当該ＤＣＴ係数を量子化することによって得られた量子化ＤＣＴ係数である。制御部１１０は、符号化データから取得した量子化差分情報の逆量子化を含む処理によって得られた予測差分情報に基づいて差分画像を生成し、差分画像にインター予測画像又はイントラ予測画像を加算することにより、復号化画像を生成する。制御部１１０は、選択した学習済みニューラルネットワークを用いて、復号化画像を処理する。

制御部１１０は、動画構成画像のピクチャ種別にさらに対応づけて、複数の学習済みニューラルネットワークを記憶してよい。制御部１１０は、複数の学習済みニューラルネットワークのうち、動画構成画像のピクチャ種別と、取得した画質劣化量とに対応づけられた学習済みニューラルネットワークを選択してよい。

「学習済みニューラルネットワーク」は、学習用画像と当該学習用画像の符号化データとを学習データとして用いて、符号化による画質劣化量に応じて機械学習を行うことによって得られた畳み込みニューラルネットワーク（ＣＮＮ）であってよい。図４から図１０に関連して、ＣＮＮを用いた画像処理を行う「ＣＮＮフィルタ」を採用した形態を説明する。

図３は、学習器のブロック図を示す。図４は、ＰＳＮＲに基づくクラス分類を行うためのクラス情報を示す。なお、学習器は、制御部１１０が使用するニューラルネットワークのパラメータ（ＣＮＮパラメータ）を生成する機械学習を行う装置である。制御部１１０が学習器を備える必要はない。

学習器は、入力画像と劣化画像とを用いた機械学習を行うことによって、ＣＮＮパラメータを生成する。劣化画像は、入力画像の符号化によって生成された符号化画像を復号化することによって生成された復号化画像である。復号化画像は、復号器が備えるループフィルタによる画像処理が施された画像である。ループフィルタについては後述する。

画質測定部３１０は、入力画像及び劣化画像に基づいて画質劣化量を測定する。本実施形態では、画質劣化量としてＰＳＮＲを採用した形態を説明する。画質測定部３１０は、入力画像及び劣化画像に基づいてＰＳＮＲを算出する。ＰＳＮＲは、次の式で定義される。

ＭＳＥは、平均二乗誤差である。例えば、ＭＳＥは、各色の画素値の差の平均二乗誤差により算出される値である。ＭＡＸ_Ｉは、画像の画素値が取り得る最大値である。例えば、画素値を８ビットで表現する場合、ＭＡＸ_Ｉは２５５である。

クラス決定部３２０は、図４に示すクラス情報とＰＳＮＲとに基づいて、クラスを決定する。図４に示されるように、クラス情報は、クラス識別子とＰＳＮＲの範囲とを対応づける情報である。クラス決定部３２０は、クラス情報における複数のＰＳＮＲの範囲のうち、算出したＰＳＮＲの値を含む範囲を特定して、特定した範囲に対応づけられたクラス識別子を特定する。

ＣＮＮ学習器３３０は、クラス決定部３２０が決定したクラス毎に、入力画像及び劣化画像を用いた機械学習を行うことによって、後述するＣＮＮフィルタを構成するＣＮＮパラメータを算出する。具体的には、ＣＮＮ学習器３３０は、劣化画像にＣＮＮフィルタを適用することによって生成される画像と入力画像とに基づいて、予め定められた損失関数を最小化するような重み付け値及びオフセットを算出する。

図５は、ニューラルネットワークのパラメータ情報を示す。パラメータ情報は、機械学習によって算出されたＣＮＮパラメータとクラス識別子とを対応づける情報である。ＣＮＮパラメータは、ＣＮＮを構成する重み付け値及びオフセットを含む。制御部１１０は、図４に示すクラス情報及び図５に示すパラメータ情報を記憶する。制御部１１０は、画像の符号化処理及び復号化処理の一部として、クラス情報を参照してクラスを決定し、決定したクラスとパラメータ情報とから定まるＣＮＮパラメータを用いて画像処理を実行する。

図６は、制御部１１０が備える符号化器のブロック構成を示す。符号化器には、符号化対象となる入力画像データとして、動画構成画像としての時系列の複数のピクチャが入力される。リオーダ部６１０は、ピクチャ種別に基づいてピクチャの符号化を行う順序を決定する。例えば、リオーダ部６１０は、双方向予測によって符号化されるＢピクチャの符号化を行う前に、Ｂピクチャより後のＩピクチャ又はＰピクチャを符号化するように、符号化するピクチャの順序を並べ替える。

直交変換部６２０は、リオーダ部６１０から出力されるピクチャと参照画像との差分画像をＤＣＴ変換することによって、ＤＣＴ係数を算出する。量子化部６３０は、直交変換部６２０から出力されるＤＣＴ係数を量子化することによって量子化ＤＣＴ係数を生成する。量子化部６３０は、後述するレート制御部６６０から出力される圧縮レートに基づいて、ＤＣＴ係数の量子化に用いる量子化パラメータを調整する。エントロピー符号化部６５０は、量子化部６３０が出力する量子化ＤＣＴ係数にエントロピー符号化を施すことによって符号化ピクチャを生成する。バッファ６７０は、エントロピー符号化部６５０が出力する符号化ピクチャを記憶する。レート制御部６６０は、符号化ピクチャのデータ量に基づいて圧縮レートを決定して、量子化部６３０に出力する。

次に、符号化器が備えるループ構造の処理を説明する。逆量子化部６４１は、量子化部６３０から出力された量子化ＤＣＴ係数を逆量子化する。逆直交変換部６４２は、逆量子化部６４１の出力を逆ＤＣＴ変換することにより差分画像を生成する。ループフィルタ６４３は、逆直交変換部６４２が生成した差分画像に参照画像を加算することによって得られた画像情報にフィルタ処理を施す。ループフィルタ６４３は、例えばデブロッキングフィルタを含んでよい。ループフィルタ６４３が生成した画像はＣＮＮフィルタ６４４及び画質測定部６４６に出力される。

画質測定部６４６には、ループフィルタ６４３が生成した画像と、入力画像データが入力される。画質測定部６４６は、ループフィルタ６４３が生成した画像と入力画像データとに基づいて、ＰＮＳＲを算出する。クラス決定部６４７は、画質測定部６４６により算出されたＰＳＮＲと、図４に関連して説明したクラス情報とを用いて、クラス識別子を決定する。クラス決定部６４７が決定したクラス識別子は、ＣＮＮフィルタ６４４及びエントロピー符号化部６５０に出力される。

ＣＮＮフィルタ６４４は、上述した学習器によって生成されたＣＮＮパラメータにより形成されるＣＮＮによって構成されるフィルタである。ＣＮＮフィルタ６４４は、ループフィルタ６４３が出力した画像にＣＮＮを用いて畳み込み演算を行うことによって参照用ピクチャを生成する。具体的には、ＣＮＮフィルタ６４４は、パラメータ情報を参照して、クラス決定部６４７が決定したクラス識別子に対応づけられたＣＮＮパラメータによって構成されるＣＮＮフィルタを、ループフィルタ６４３により処理された画像情報に適用して、参照用ピクチャを生成する。メモリ６４５は、ＣＮＮフィルタ６４４が生成した参照用ピクチャを記憶する。イントラ予測部６４８は、メモリ６４５に記憶されている参照用ピクチャを用いて、符号化対象ピクチャを符号化するためのイントラ予測を行って、参照画像としてのイントラ予測画像を生成する。インター予測部６４９は、メモリ６４５に記憶されている参照用ピクチャを用いて、他の符号化対象ピクチャを符号化するためのインター予測を行って、参照画像としてのインター予測画像を生成する。インター予測部６４９は、例えば動きベクトルを算出し、動き補償を行うことによってインター予測画像を生成してよい。

なお、エントロピー符号化部６５０は、符号化ピクチャと、動きベクトル等の圧縮情報と、画質測定部６４６が算出したＰＳＮＲをエントロピー符号化してバッファ６７０に記憶する。制御部１１０は、エントロピー符号化部６５０がバッファ６７０に記憶した情報を含む圧縮画像データをメモリ１３０等に記録する。

図７は、制御部１１０が備える復号化器のブロック構成を示す。制御部１１０は、メモリ１３０から圧縮動画データを読み出して復号化する。エントロピー復号化部７５０は、メモリ１３０から読み出された圧縮画像データをエントロピー復号化することによって、量子化ＤＣＴ係数及びＰＳＮＲを取得する。逆量子化部７４１は、エントロピー復号化部７５０から出力された量子化ＤＣＴ係数を逆量子化する。逆直交変換部７４２は、逆量子化部７４１の出力を逆ＤＣＴ変換することにより差分画像を生成する。ループフィルタ７４３は、逆直交変換部７４２が生成した差分画像に参照画像を加算することによって得られた画像情報にフィルタ処理を施す。ループフィルタ７４３は、例えばデブロッキングフィルタを含んでよい。ループフィルタ７４３は、ループフィルタ６４３と同一のフィルタであってよい。ループフィルタ７４３が生成した画像はＣＮＮフィルタ７４４に出力される。

クラス決定部７４７は、エントロピー復号化部７５０から出力されるＰＳＮＲとクラス情報とを用いてクラス識別子を決定する。クラス決定部７４７が決定したクラス識別子を示す情報はＣＮＮフィルタ７４４に出力される。

ＣＮＮフィルタ７４４は、上述した学習器によって生成されたＣＮＮパラメータにより形成されるＣＮＮである。ＣＮＮフィルタ７４４は、ループフィルタ７４３が出力した画像にニューラルネットワークを用いて畳み込み演算を行うことによって復号化ピクチャを生成する。具体的には、ＣＮＮフィルタ７４４は、パラメータ情報を参照して、クラス決定部７４７が決定したクラス識別子に対応づけられたＣＮＮパラメータによって構成されるＣＮＮフィルタを、ループフィルタ７４３により処理された画像情報に適用して、復号化ピクチャを生成する。リオーダー部７１０は、ピクチャ種別に基づいて、復号化ピクチャを時系列に並べ替える処理を行い、復号化画像データを出力する。復号化画像データは、例えば表示部１６０における画像の表示に用いられる。

メモリ７４５は、ＣＮＮフィルタ７４４が生成した復号化ピクチャを記憶する。イントラ予測部７４８は、メモリ７４５に記憶されている復号化ピクチャを参照用ピクチャとして用いて、復号化対象ピクチャを符号化するためのイントラ予測を行い、参照画像としてのイントラ予測画像を生成する。インター予測部７４９は、メモリ７４５に記憶されている復号化ピクチャを参照用ピクチャとして用いて、他の復号化対象ピクチャを符号化するためのインター予測を行って、参照画像としてのインター予測画像を生成する。インター予測部７４９は、例えば動きベクトルを算出し、動きベクトルに基づいて動き補償を行うことによってインター予測画像を生成してよい。

図８は、制御部１１０が符号化対象ピクチャを符号化する場合に実行する処理のフローチャートを示す。Ｓ８１０において、制御部１１０は、符号化対象ピクチャを符号化する。具体的には、直交変換部６２０が符号化対象ピクチャの直交変換を行ってＤＣＴ係数を算出し、量子化部６３０が算出されたＤＣＴ係数を量子化することにより、量子化ＤＣＴ係数を生成する。

Ｓ８２０において、Ｓ８１０における符号化によって生成された符号化データを復号化し、ループフィルタを適用する。具体的には、逆量子化部６４１が量子化ＤＣＴ係数を逆量子化し、逆直交変換部６４２が逆量子化により得られたＤＣＴ係数を逆直交変換することにより差分画像を生成する。そして、生成した差分画像にループフィルタ６４３を適用する。

Ｓ８３０において、画質測定部６４６は、ＰＳＮＲを算出する。Ｓ８４０において、クラス決定部６４７はクラス情報を参照して、Ｓ８３０で算出したＰＳＮＲに基づいてクラス識別子を決定する。

Ｓ８５０において、Ｓ８２０において差分画像にループフィルタ６４３を適用することによって生成されたピクチャを、クラス識別子に対応づけられたＣＮＮパラメータで構成されるＣＮＮフィルタ６４４によって画像処理を行い、参照用ピクチャを生成する。

Ｓ８６０において、Ｓ８１０で生成した量子化ＤＣＴ係数を含む符号化データとＳ８３０で生成したＰＳＮＲを含む情報をエントロピー符号化することによって圧縮画像データを生成して、生成した圧縮画像データをメモリ１３０に出力する。

図９は、制御部１１０が復号化対象ピクチャを復号化する場合に実行する処理のフローチャートを示す。Ｓ９１０において、エントロピー復号化部７５０は、圧縮画像データをエントロピー復号化することにより、画像の符号化データ及びＰＳＮＲを取得する。Ｓ９２０において、Ｓ９１０で取得した符号化データを復号化する。具体的には、逆量子化部７４１は、符号化データに含まれる量子化ＤＣＴ係数を逆量子化し、逆直交変換部７４２は、逆量子化により得られたＤＣＴ係数を逆直交変換することにより、差分画像を生成する。また、イントラ予測部７４８又はインター予測部が生成した予測画像を差分画像に加算する。続いて、Ｓ９３０において、Ｓ９２０で生成された画像にループフィルタ７４３を適用する。

Ｓ９４０において、クラス決定部７４７は、クラス情報を参照して、Ｓ９１０において取得したＰＳＮＲに基づいてクラス識別子を決定し、Ｓ９３０においてループフィルタが適用された画像を、クラス識別子に対応づけられたＣＮＮパラメータによって構成されるＣＮＮフィルタ６４４により処理して、復号化ピクチャを生成する。上述したように、復号化ピクチャは、復号化画像データとして出力されるとともに、参照用ピクチャとして使用される。

なお、図６から図９に関連して説明した形態では、圧縮画像データにＰＳＮＲを含めて出力される。しかし、圧縮画像データに含める画質劣化量情報として、ＰＳＮＲ以外の情報を採用してもよい。例えば、クラス決定部６４７が決定したクラス識別子を、画質劣化量情報として圧縮画像データに含めてもよい。

図１０は、インター予測で用いられるピクチャの参照関係の一例を示す。図１０には、Ｈ．２６５等の画像符号化方式において用いられるＩピクチャ１０００、Ｐピクチャ１００４、Ｓｔｏｒｅｄ−Ｂピクチャ１００２、Ｎｏｎ−Ｓｔｏｒｅｄ−Ｂピクチャ１００１、及びＮｏｎ−Ｓｔｏｒｅｄ−Ｂピクチャ１００３の参照関係が示されている。図１０に示されるように、ピクチャ種別によって参照関係が異なる。したがって、ピクチャ種別によって画質劣化量が異なり得る。そのため、上述したＰＳＮＲに基づくクラス分類に加え、ピクチャ種別に応じてクラス分類を行ってもよい。具体的には、ピクチャ種別及びＰＳＮＲの組み合わせ毎にクラス識別子を設定することによってクラス分類を行ってよい。機械学習において学習器は、ピクチャ種別及びＰＳＮＲの組み合わせ毎に機械学習を行って、ピクチャ種別及びＰＳＮＲの組み合わせ毎にＣＮＮパラメータを算出してよい。制御部１１０は、ピクチャ種別及びＰＳＮＲの組み合わせに対応づけてＣＮＮパラメータを記憶してよく、符号化及び復号化において、ピクチャ種別及びＰＳＮＲの組み合わせに対応づけられたＣＮＮパラメータを用いてＣＮＮフィルタを構成してよい。

上述した実施形態では、画像全体のＰＳＮＲを算出して、算出したＰＳＮＲに対応するＣＮＮフィルタを選択して、ループフィルタが適用された画像に適用する。しかし、画像の部分領域毎にＰＳＮＲに対応するＣＮＮフィルタを選択し、部分領域毎に選択したＣＮＮフィルタを、ループフィルタが適用された画像におけるそれぞれの部分領域に適用してもよい。例えば、複数の部分領域毎にＰＳＮＲを算出し、複数の部分領域毎にクラス識別子を決定し、ループフィルタが適用された画像における複数の部分領域のそれぞれに、それぞれの部分領域に対して決定されたクラス識別子に対応するＣＮＮパラメータにより構成されるＣＮＮフィルタを適用してよい。なお、「部分領域」は任意の形状を持つ領域であってよい。例えば、画像の列方向に沿って分割されるスライスや画像を矩形形状に分割するタイルを「部分領域」として適用してよい。

なお、上記の実施形態の変形例として、ループフィルタ６４３及びループフィルタ７４３を備えない形態を採用してもよい。

上述した非特許文献１及び非特許文献２には、量子化パラメータを固定してフィルタパラメータの学習を行うことが記載されている。一般に、動画の圧縮符号化において、圧縮率が低い場合と圧縮率が高い場合とでは符号化による画質劣化量が異なる。実際に商用で用いられる符号化器では、通常、ピクチャ内で量子化パラメータを可変とし、量子化行列を適用する場合が多いため、画質劣化量に違いが生じる。そのため、非特許文献１及び非特許文献２に記載されたような量子化パラメータを固定して学習したフィルタパラメータを商用の符号化器に適用すると、符号化効率が悪化する場合があり得る。これに対し、本実施形態によれば、ＰＳＮＲ等の画質劣化量に基づくクラス分類を行ってＣＮＮパラメータを選択するので、インター予測又はイントラ予測のループ構造内において、圧縮率に応じた適切なフィルタを適用することができる。これにより、符号化効率を高めることができる場合がある。

上記のような撮像装置１００は、移動体に搭載されてもよい。撮像装置１００は、図１１に示すような、無人航空機（ＵＡＶ）に搭載されてもよい。ＵＡＶ１０は、ＵＡＶ本体２０、ジンバル５０、複数の撮像装置６０、及び撮像装置１００を備えてよい。ジンバル５０、及び撮像装置１００は、撮像システムの一例である。ＵＡＶ１０は、推進部により推進される移動体の一例である。移動体とは、ＵＡＶの他、空中を移動する他の航空機などの飛行体、地上を移動する車両、水上を移動する船舶等を含む概念である。

ＵＡＶ本体２０は、複数の回転翼を備える。複数の回転翼は、推進部の一例である。ＵＡＶ本体２０は、複数の回転翼の回転を制御することでＵＡＶ１０を飛行させる。ＵＡＶ本体２０は、例えば、４つの回転翼を用いてＵＡＶ１０を飛行させる。回転翼の数は、４つには限定されない。また、ＵＡＶ１０は、回転翼を有さない固定翼機でもよい。

撮像装置１００は、所望の撮像範囲に含まれる被写体を撮像する撮像用のカメラである。ジンバル５０は、撮像装置１００を回転可能に支持する。ジンバル５０は、支持機構の一例である。例えば、ジンバル５０は、撮像装置１００を、アクチュエータを用いてピッチ軸で回転可能に支持する。ジンバル５０は、撮像装置１００を、アクチュエータを用いて更にロール軸及びヨー軸のそれぞれを中心に回転可能に支持する。ジンバル５０は、ヨー軸、ピッチ軸、及びロール軸の少なくとも１つを中心に撮像装置１００を回転させることで、撮像装置１００の姿勢を変更してよい。

複数の撮像装置６０は、ＵＡＶ１０の飛行を制御するためにＵＡＶ１０の周囲を撮像するセンシング用のカメラである。２つの撮像装置６０が、ＵＡＶ１０の機首である正面に設けられてよい。更に他の２つの撮像装置６０が、ＵＡＶ１０の底面に設けられてよい。正面側の２つの撮像装置６０はペアとなり、いわゆるステレオカメラとして機能してよい。底面側の２つの撮像装置６０もペアとなり、ステレオカメラとして機能してよい。複数の撮像装置６０により撮像された画像に基づいて、ＵＡＶ１０の周囲の３次元空間データが生成されてよい。ＵＡＶ１０が備える撮像装置６０の数は４つには限定されない。ＵＡＶ１０は、少なくとも１つの撮像装置６０を備えていればよい。ＵＡＶ１０は、ＵＡＶ１０の機首、機尾、側面、底面、及び天井面のそれぞれに少なくとも１つの撮像装置６０を備えてもよい。撮像装置６０で設定できる画角は、撮像装置１００で設定できる画角より広くてよい。撮像装置６０は、単焦点レンズまたは魚眼レンズを有してもよい。

遠隔操作装置３００は、ＵＡＶ１０と通信して、ＵＡＶ１０を遠隔操作する。遠隔操作装置３００は、ＵＡＶ１０と無線で通信してよい。遠隔操作装置３００は、ＵＡＶ１０に上昇、下降、加速、減速、前進、後進、回転などのＵＡＶ１０の移動に関する各種命令を示す指示情報を送信する。指示情報は、例えば、ＵＡＶ１０の高度を上昇させる指示情報を含む。指示情報は、ＵＡＶ１０が位置すべき高度を示してよい。ＵＡＶ１０は、遠隔操作装置３００から受信した指示情報により示される高度に位置するように移動する。指示情報は、ＵＡＶ１０を上昇させる上昇命令を含んでよい。ＵＡＶ１０は、上昇命令を受け付けている間、上昇する。ＵＡＶ１０は、上昇命令を受け付けても、ＵＡＶ１０の高度が上限高度に達している場合には、上昇を制限してよい。

図１２は、本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ１２００の一例を示す。コンピュータ１２００にインストールされたプログラムは、コンピュータ１２００に、本発明の実施形態に係る装置に関連付けられるオペレーションまたは当該装置の１または複数の「部」として機能させることができる。例えば、コンピュータ１２００にインストールされたプログラムは、コンピュータ１２００に、制御部１１０として機能させることができる。または、当該プログラムは、コンピュータ１２００に当該オペレーションまたは当該１または複数の「部」の機能を実行させることができる。当該プログラムは、コンピュータ１２００に、本発明の実施形態に係るプロセスまたは当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ１２００に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつかまたはすべてに関連付けられた特定のオペレーションを実行させるべく、ＣＰＵ１２１２によって実行されてよい。

本実施形態によるコンピュータ１２００は、ＣＰＵ１２１２、及びＲＡＭ１２１４を含み、それらはホストコントローラ１２１０によって相互に接続されている。コンピュータ１２００はまた、通信インタフェース１２２２、入力／出力ユニットを含み、それらは入力／出力コントローラ１２２０を介してホストコントローラ１２１０に接続されている。コンピュータ１２００はまた、ＲＯＭ１２３０を含む。ＣＰＵ１２１２は、ＲＯＭ１２３０及びＲＡＭ１２１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。

通信インタフェース１２２２は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブが、コンピュータ１２００内のＣＰＵ１２１２によって使用されるプログラム及びデータを格納してよい。ＲＯＭ１２３０はその中に、アクティブ化時にコンピュータ１２００によって実行されるブートプログラム等、及び／またはコンピュータ１２００のハードウェアに依存するプログラムを格納する。プログラムが、ＣＲ−ＲＯＭ、ＵＳＢメモリまたはＩＣカードのようなコンピュータ可読記録媒体またはネットワークを介して提供される。プログラムは、コンピュータ可読記録媒体の例でもあるＲＡＭ１２１４、またはＲＯＭ１２３０にインストールされ、ＣＰＵ１２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ１２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置または方法が、コンピュータ１２００の使用に従い情報のオペレーションまたは処理を実現することによって構成されてよい。

例えば、通信がコンピュータ１２００及び外部デバイス間で実行される場合、ＣＰＵ１２１２は、ＲＡＭ１２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース１２２２に対し、通信処理を命令してよい。通信インタフェース１２２２は、ＣＰＵ１２１２の制御の下、ＲＡＭ１２１４、またはＵＳＢメモリのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、またはネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。

また、ＣＰＵ１２１２は、ＵＳＢメモリ等のような外部記録媒体に格納されたファイルまたはデータベースの全部または必要な部分がＲＡＭ１２１４に読み取られるようにし、ＲＡＭ１２１４上のデータに対し様々なタイプの処理を実行してよい。ＣＰＵ１２１２は次に、処理されたデータを外部記録媒体にライトバックしてよい。

様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。ＣＰＵ１２１２は、ＲＡＭ１２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ１２１４に対しライトバックする。また、ＣＰＵ１２１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、ＣＰＵ１２１２は、第１の属性の属性値が指定される、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

上で説明したプログラムまたはソフトウェアモジュールは、コンピュータ１２００上またはコンピュータ１２００近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワークまたはインターネットに接続されたサーバーシステム内に提供されるハードディスクまたはＲＡＭのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ１２００に提供する。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１０ＵＡＶ
２０ＵＡＶ本体
５０ジンバル
６０撮像装置
１００撮像装置
１０２撮像部
１１０制御部
１２０イメージセンサ
１３０メモリ
１６０表示部
１６２指示部
２００レンズ部
２１０レンズ
２１２レンズ駆動部
２２０レンズ制御部
２２２メモリ
３００遠隔操作装置
３１０画質測定部
３２０クラス決定部
３３０ＣＮＮ学習器
６１０リオーダ部
６２０直交変換部
６３０量子化部
６４１逆量子化部
６４２逆直交変換部
６４３ループフィルタ
６４４ＣＮＮフィルタ
６４５メモリ
６４６画質測定部
６４７クラス決定部
６４８イントラ予測部
６４９インター予測部
６５０エントロピー符号化部
６６０レート制御部
６７０バッファ
７１０リオーダー部
７４１逆量子化部
７４２逆直交変換部
７４３ループフィルタ
７４４ＣＮＮフィルタ
７４５メモリ
７４７クラス決定部
７４８イントラ予測部
７４９インター予測部
７５０エントロピー復号化部
１０００Ｉピクチャ
１００１、１００３Ｎｏｎ−Ｓｔｏｒｅｄ−Ｂピクチャ
１００２Ｓｔｏｒｅｄ−Ｂピクチャ
１００４Ｐピクチャ
１２００コンピュータ
１２１０ホストコントローラ
１２１２ＣＰＵ
１２１４ＲＡＭ
１２２０入力／出力コントローラ
１２２２通信インタフェース
１２３０ＲＯＭ

Claims

符号化による画質劣化量に対応づけて、復号化した画像を処理するための複数の学習済みニューラルネットワークを記憶し、
画像の符号化により生成された符号化データ及び前記画像の前記符号化により生じた画質劣化量を取得し、
前記符号化データを復号化することにより、復号化画像を生成し、
前記複数の学習済みニューラルネットワークのうち前記取得した前記画質劣化量に対応づけられた学習済みニューラルネットワークを選択し、
前記選択した前記学習済みニューラルネットワークを用いて、前記復号化画像を処理する
ように構成された回路
を備える装置。
前記画質劣化量は、符号化前の前記画像及び前記復号化画像から算出される（ｉ）ピーク信号対雑音比（ＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）、（ｉｉ）構造的類似性（ＳＳＩＭ）及び（ｉｉｉ）平均二乗誤差（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）の少なくとも一つである
請求項１に記載の装置。
前記画像は、動画を構成する動画構成画像であり、
前記符号化データは、動画構成画像のインター予測又はイントラ予測によって得られた動画構成画像の予測差分情報を量子化することによって得られた量子化差分情報を含み、
前記回路は、
前記符号化データから取得した前記量子化差分情報の逆量子化を含む処理によって得られた予測差分情報に基づいて差分画像を生成し、前記差分画像にインター予測画像又はイントラ予測画像を加算することにより、前記復号化画像を生成し、
前記選択した前記学習済みニューラルネットワークを用いて、前記復号化画像を処理する
ように構成される請求項１又は２に記載の装置。
前記画像は、動画を構成する動画構成画像であり、
前記回路は、
動画構成画像のピクチャ種別にさらに対応づけて、前記複数の学習済みニューラルネットワークを記憶し、
前記複数の学習済みニューラルネットワークのうち、前記動画構成画像のピクチャ種別と、前記取得した前記画質劣化量とに対応づけられた学習済みニューラルネットワークを選択する
ように構成される請求項１又は２に記載の装置。
前記ニューラルネットワークは、学習用画像と前記学習用画像の符号化データとを学習データとして用いて、前記符号化による画質劣化量に応じて機械学習を行うことによって得られた畳み込みニューラルネットワークである
請求項１又は２に記載の装置。
符号化による画質劣化量に対応づけて、復号化された画像データを処理するための複数の学習済みニューラルネットワークを記憶し、
符号化対象画像をインター予測又はイントラ予測を含む符号化処理により符号化することによって、符号化データを生成し、
前記符号化データを復号化することによって復号化画像を生成し、
符号化対象画像と前記復号化画像に基づいて、前記符号化対象画像の符号化により生じた画質劣化量を算出し、
前記符号化データ及び前記算出した前記画質劣化量を出力し、
前記複数の学習済みニューラルネットワークのうち前記算出した前記画質劣化量に対応づけられた学習済みニューラルネットワークを選択し、
前記選択した前記学習済みニューラルネットワークを用いて、前記生成した前記復号化画像を処理することによって、前記インター予測又は前記イントラ予測に用いられる参照用画像を生成する
ように構成された回路
を備える装置。
請求項１に記載の装置と、
請求項６に記載の装置と
を備える画像処理装置。
請求項１又は２に記載の装置と、
画像を生成するイメージセンサと
を備える撮像装置。
請求項８に記載の撮像装置を備えて移動する移動体。
前記移動体は、無人航空機である
請求項９に記載の移動体。
コンピュータを請求項１又は２に記載の装置
として機能させるためのプログラム。
符号化による画質劣化量に対応づけて、復号化した画像を処理するための複数の学習済みニューラルネットワークを記憶する段階と、
画像の符号化により生成された符号化データ及び前記画像の前記符号化により生じた画質劣化量を取得する段階と、
前記符号化データを復号化することにより、復号化画像を生成する段階と、
前記複数の学習済みニューラルネットワークのうち前記取得した前記画質劣化量に対応づけられた学習済みニューラルネットワークを選択する段階と、
前記選択した前記学習済みニューラルネットワークを用いて、前記復号化画像を処理する段階と
を備える方法。
符号化による画質劣化量に対応づけて、復号化された画像データを処理するための複数の学習済みニューラルネットワークを記憶する段階と、
符号化対象画像をインター予測又はイントラ予測を含む符号化処理により符号化することによって、符号化データを生成する段階と、
前記符号化データを復号化することによって復号化画像を生成する段階と、
符号化対象画像と前記復号化画像に基づいて、前記符号化対象画像の符号化により生じた画質劣化量を算出する段階と、
前記符号化データ及び前記算出した前記画質劣化量を出力する段階と、
前記複数の学習済みニューラルネットワークのうち前記算出した前記画質劣化量に対応づけられた学習済みニューラルネットワークを選択する段階と、
前記選択した前記学習済みニューラルネットワークを用いて、前記生成した前記復号化画像を処理することによって、前記インター予測又は前記イントラ予測に用いられる参照用画像を生成する段階と
を備える方法。