JP7026878B2

JP7026878B2 - ディープニューラルネットワークを用いた、視覚的品質を維持した量子化パラメータ予測

Info

Publication number: JP7026878B2
Application number: JP2019558385A
Authority: JP
Inventors: シュンシュー; 章中村
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-07-11
Filing date: 2018-06-29
Publication date: 2022-03-01
Anticipated expiration: 2038-06-29
Also published as: CN110637460A; KR20190127909A; JP2020518191A; US10728553B2; CN110637460B; US20190020871A1; WO2019012363A1

Description

本発明は、ビデオ符号化に関する。具体的には、本発明は、ビデオ符号化における量子化パラメータ予測に関する。

ビデオ符号化における量子化パラメータ（ＱＰ）は、各符号化単位（画像ブロック）を符号化するためにどれだけのビットを割り当てるべきであるかを決定するパラメータである。従来、ＱＰは包括的に割り当てられることが多く、結果的に一様なビット割り当て戦略となる。しかしながら、異なる画像ブロックは、圧縮によって生じた歪みを隠す能力も異なるため、この戦略では視覚的品質が一貫しなくなってしまう。

ＱＰマッピング法が、符号化フレームにわたって一貫した視覚的品質を維持することができる。この方法は、圧縮歪みの影響を受けやすい画像ブロックに自動的に多くのビットを割り当てる。ＱＰ予測に使用されるテクスチャ記述特徴（ｔｅｘｔｕｒｅ－ｄｅｓｃｒｉｐｔｉｖｅｆｅａｔｕｒｅｓ）は計算が速く、ディープニューラルネットワークと共に、視覚的品質尺度から推定される潜在的なＱＰマッピング戦略を効果的に近似することができる。

１つの態様では、装置の非一時的メモリにプログラムされる方法が、ビデオコンテンツを取得するステップと、ビデオコンテンツから画像特徴を抽出するステップと、ディープニューラルネットワークを通じて画像特徴を供給するステップと、最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測するステップとを含む。ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる。事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する。この方法は、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善するステップをさらに含む。画像特徴は、Ｈａｒａｌｉｃｋテクスチャ記述子（Ｈａｒａｌｉｃｋｔｅｘｔｕｒｅｄｅｓｃｒｉｐｔｏｒｓ）、全変動（ｔｏｔａｌ－ｖａｒｉａｔｉｏｎ）及び分散（ｖａｒｉａｎｃｅ）を含む。画像特徴を抽出するステップは、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される。空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む。

別の態様では、システムが、レンズと、ビデオコンテンツを取得するように構成されたセンサと、ビデオコンテンツから画像特徴を抽出し、ディープニューラルネットワークを通じて画像特徴を供給し、最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測するように構成された処理コンポーネントとを備える。ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる。事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する。処理コンポーネントは、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善するようにさらに構成される。画像特徴は、Ｈａｒａｌｉｃｋテクスチャ記述子、全変動及び分散を含む。画像特徴の抽出は、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される。空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む。

別の態様では、カメラ装置が、レンズと、ビデオコンテンツを取得するように構成されたセンサと、ビデオコンテンツから画像特徴を抽出し、ディープニューラルネットワークを通じて画像特徴を供給し、最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測するアプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成された処理コンポーネントとを備える。ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる。事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する。アプリケーションは、さらに、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善する。画像特徴は、Ｈａｒａｌｉｃｋテクスチャ記述子、全変動及び分散を含む。画像特徴の抽出は、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される。空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む。

別の態様では、装置の非一時的メモリにプログラムされる方法が、ビデオコンテンツを取得するステップと、０の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させるステップと、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用するステップとを含む。視覚的品質閾値は、予め選択される。

別の態様では、システムが、レンズと、ビデオコンテンツを取得するように構成されたセンサと、０の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させ、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用するように構成された処理コンポーネントとを備える。視覚的品質閾値は、予め選択される。

別の態様では、カメラ装置が、レンズと、ビデオコンテンツを取得するように構成されたセンサと、０の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させ、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用するアプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成された処理コンポーネントとを備える。視覚的品質閾値は、予め選択される。

いくつかの実施形態による、視覚的品質を維持するＱＰ割り当ての図である。いくつかの実施形態によるＱＰ予測ニューラルネットワークの図である。いくつかの実施形態による、ＱＰマッピング法を実行するように構成された例示的なコンピュータ装置のブロック図である。

符号化フレームにわたって視覚的品質を維持する能力を有する、画像ブロックに量子化パラメータ（ＱＰ）パラメータを割り当てるフレームワークについて説明する。ディープニューラルネットワークに基づく高速、自動ＱＰ予測アルゴリズムについて説明する。この予測アルゴリズムでは、様々な効果的な画像特徴が使用される。

ビデオ符号化における量子化パラメータ（ＱＰ）は、各符号化単位（画像ブロック）を符号化するためにどれだけのビットを割り当てるべきであるかを決定するパラメータである。ビデオ符号化手順では、これらのパラメータが最終的な符号化ビデオの品質に直接影響するため重要である。

従来、ＱＰは包括的に割り当てられ、結果的に一様なビット割り当て戦略となる。この戦略は、異なる画像ブロックの視覚特性を考慮しない。異なる画像ブロックは、その様々な外観に起因して、圧縮によって生じた歪みを隠す能力が異なる。この結果、一部の画像ブロックは圧縮の影響を受けやすく（例えば、これらのブロックでは圧縮アーチファクトが容易に観察され）、従ってこれらの画像ブロックには、符号化のために多くのビットを割り振るか、或いは同じ意味で低いＱＰを割り当てるべきである。

さらに合理的なＱＰ割り当て戦略は、均一なビット数ではなく均一な視覚的品質を維持することである。ＱＰパラメータを割り当てるための、例えば各画像ブロックをＱＰ値にマッピングするための自動アルゴリズムであって、視覚的品質を維持することができる自動アルゴリズムについて説明する。

視覚的品質を維持したＱＰマッピング
視覚的品質を維持できるＱＰマッピング戦略を設計するために、視覚的品質評価（ＶＱＡ）のためのアプローチを使用する。このようなＶＱＡアルゴリズムは、原画像及び歪み画像（例えば、圧縮画像）を所与として歪み画像の品質を測定することができる。このアルゴリズムは、一般性を失うことなく、視覚的品質を０（低品質）から１（高品質）までの実数として格付けする。本明細書で説明するフレームワークは、あらゆるＶＱＡアルゴリズムを使用することができる。１つのＶＱＡアルゴリズムは、特徴類似度指数モデル（ＦＳＩＭ）である。ＦＳＩＭアルゴリズムは計算が速く、適度に良好な視覚的品質測定を達成する。

最初に、予め選択される視覚的品質閾値（ＶＱＴ）を、例えば０．９５などの０～１の数字として選択するが、あらゆる範囲／数字を使用することができる。次に、（圧縮すべき原ビデオフレームからの）各所与の入力画像ブロックについて、この画像ブロックを全ての考えられるＱＰ（０～５１の整数値）で圧縮する。ＱＰが増加すると、一般に視覚的品質尺度は（必ずしも単調にではないが）低下する。品質尺度が最初にＶＱＴを下回った時の直前のＱＰを、視覚的品質を維持するＱＰ（例えば、ニューラルネットワークのトレーニングに使用される目標ＱＰ）として決定する。図１に、視覚的品質を維持したＱＰ割り当ての図を示す。

この手順をビデオフレーム内の全ての画像ブロックについて実行し、視覚的品質を維持するＱＰのマップにこれらをマッピングする。

ディープニューラルネットワークを用いたＱＰマップ予測
このＱＰマッピング手順は、ビデオ符号化ワークフロー内で直接実行することができる。別のアプローチは、このようなＱＰマッピング戦略を近似することができる高速アルゴリズムを発見することである。この目的のために、図２に示すようなディープニューラルネットワークを使用する。ネットワークの入力層は、特徴抽出器を用いて入力画像ブロックから抽出された画像特徴を含む。本明細書ではこれらの特徴について説明する。ネットワークの出力層は、それぞれが考えられるＱＰ値のうちの１つに対応する５２個のノード（例えば、ＱＰ＝０、．．．、ＱＰ＝５１）から成る。出力ノードは、－１～１の活性化値を有し、活性化の最も高いノードが目標ＱＰ値を予測する。

最初に、トレーニング画像ブロックから抽出された大量の画像特徴を与えて、ＱＰ予測ネットワークを教師なし方式で事前トレーニングする。事前トレーニングは、トレーニング入力を最良に復元できるようにネットワークパラメータを調整するオートエンコーダフレームワークを使用して実行される。次に、大量の画像特徴の対と、本明細書で説明する戦略によって割り当てられたそのＱＰ値とを与えることによって、ネットワークをさらに改善する。これを達成するために、バックプロパゲーションアルゴリズムを使用する。

ＱＰ予測ニューラルネットワークのための画像特徴
ＱＰ予測ニューラルネットワークの入力層は、Ｈａｒａｌｉｃｋテクスチャ記述子、全変動及び分散という３つの異なるタイプの画像特徴によって構成される。１３次元Ｈａｒａｌｉｃｋテクスチャ記述子は、入力画像からの典型的な特徴抽出テクスチャ情報（ｆｅａｔｕｒｅｓｅｘｔｒａｃｔｉｎｇｔｅｘｔｕｒａｌｉｎｆｏｒｍａｔｉｏｎ）である。Ｈａｒａｌｉｃｋテクスチャ記述子は、グレーレベル同時生起行列（ＧＬＣＭ）から計算される。全変動及び分散の特徴は、処理される画像内の画素値の統計である。

空間ピラミッドフレームワークを使用して、様々な粒度で画像特徴を抽出する。入力画像ブロックは、逐次的に一連のさらに小さな部分画像のグリッドに分割する。これらのグリッドは、１×１（原画像ブロック）、２×２、４×４及び８×８のサイズである。これらの各グリッドについて、本明細書で説明した画像特徴を部分画像毎に抽出した後に、これらの部分特徴を最終的な特徴ベクトルに連結させて、ＱＰ予測ニューラルネットワーク内に供給する。

図３は、いくつかの実施形態による、ＱＰマッピング法を実行するように構成された例示的なコンピュータ装置のブロック図である。コンピュータ装置３００は、画像及びビデオなどの情報の取得、記憶、計算、処理、通信及び／又は表示のために使用することができる。一般に、コンピュータ装置３００を実装するのに適したハードウェア構造は、ネットワークインターフェイス３０２、メモリ３０４、プロセッサ３０６、（単複の）Ｉ／Ｏ装置３０８、バス３１０及び記憶装置３１２を含む。プロセッサの選択は、十分な速度の好適なプロセッサを選択する限り重要ではない。メモリ３０４は、当業で周知のいずれかの従来のコンピュータメモリとすることができる。記憶装置３１２は、ハードドライブ、ＣＤＲＯＭ、ＣＤＲＷ、ＤＶＤ、ＤＶＤＲＷ、高精細ディスク／ドライブ、ウルトラＨＤドライブ、フラッシュメモリカード、又はその他のいずれかの記憶装置を含むことができる。コンピュータ装置３００は、１又は２以上のネットワークインターフェイス３０２を含むことができる。ネットワークインターフェイスの例としては、イーサネット又は他のタイプのＬＡＮに接続されたネットワークカードが挙げられる。（単複の）Ｉ／Ｏ装置３０８は、キーボード、マウス、モニタ、画面、プリンタ、モデム、タッチ画面、ボタンインターフェイス及びその他の装置のうちの１つ又は２つ以上を含むことができる。記憶装置３１２及びメモリ３０４には、レンズセンサ傾斜較正法（ｌｅｎｓ－ｓｅｎｓｏｒｔｉｌｔｃａｌｉｂｒａｔｉｏｎｍｅｔｈｏｄ）を実行するために使用されるＱＰマッピングアプリケーション３３０が記憶されて、アプリケーションが通常処理されるように処理される可能性が高い。コンピュータ装置３００には、図３に示すものよりも多くの又は少ないコンポーネントを含めることもできる。いくつかの実施形態では、ＱＰマッピングハードウェア３２０が含まれる。図３のコンピュータ装置３００は、ＱＰマッピング法のためのアプリケーション３３０及びハードウェア３２０を含むが、ＱＰマッピング法は、ハードウェア、ファームウェア、ソフトウェア、又はこれらのあらゆる組み合わせでコンピュータ装置上に実装することもできる。例えば、いくつかの実施形態では、ＱＰマッピングアプリケーション３３０がメモリにプログラムされ、プロセッサを用いて実行される。別の例として、いくつかの実施形態では、ＱＰマッピングハードウェア３２０が、ＱＰマッピング法を実行するように特別に設計されたゲートを含むプログラムされたハードウェアロジックである。

いくつかの実施形態では、ＱＰマッピングアプリケーション３３０が、複数のアプリケーション及び／又はモジュールを含む。いくつかの実施形態では、モジュールが、１又は２以上のサブモジュールをさらに含む。いくつかの実施形態では、これよりも少ない又はさらなるモジュールを含めることもできる。

好適なコンピュータ装置の例としては、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ／携帯電話機、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き電話機、スマートホン、ポータブル音楽プレーヤ、タブレットコンピュータ、モバイル装置、ビデオプレーヤ、ビデオディスクライタ／プレーヤ（ＤＶＤライタ／プレーヤ、高精細ディスクライタ／プレーヤ、超高精細ディスクライタ／プレーヤなど）、テレビ、家庭用エンターテイメントシステム、スマートジュエリ（例えば、スマートウォッチ）、又はその他のあらゆる好適なコンピュータ装置が挙げられる。

本明細書で説明したＱＰマッピング法を利用するには、デジタルカムコーダなどの装置を使用してビデオを取得する。ＱＰマッピング法は、この取得データを処理するために自動的に使用される。ＱＰマッピング法は、ユーザの関与を伴わずに自動的に実行することができる。

動作時には、ＱＰマッピング法が、符号化フレームにわたって一貫した視覚的品質を維持することができる。この方法は、圧縮歪みの影響を受けやすい画像ブロックに自動的に多くのビットを割り当てる。ＱＰ予測に使用されるテクスチャ記述特徴は計算が速く、視覚的品質尺度から推定される潜在的なＱＰマッピング戦略を効果的に近似することができる。

ディープニューラルネットワークを用いた、視覚的品質を維持した量子化パラメータ予測のいくつかの実施形態
１．装置の非一時的メモリにプログラムされる方法であって、
ａ．ビデオコンテンツを取得するステップと、
ｂ．ビデオコンテンツから画像特徴を抽出するステップと、
ｃ．ディープニューラルネットワークを通じて画像特徴を供給するステップと、
ｄ．最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測するステップと、を含む方法。

２．ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、条項１の方法。

３．事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する、条項２の方法。

４．バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善するステップをさらに含む、条項１の方法。

５．画像特徴は、Ｈａｒａｌｉｃｋテクスチャ記述子、全変動及び分散を含む、条項１の方法。

６．画像特徴を抽出するステップは、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、条項１の方法。

７．空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む、条項６の方法。

８．システムであって、
ａ．レンズと、
ｂ．ビデオコンテンツを取得するように構成されたセンサと、
ｃ．ビデオコンテンツから画像特徴を抽出し、ディープニューラルネットワークを通じて画像特徴を供給し、最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測するように構成された処理コンポーネントと、を備えるシステム。

９．ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、条項８のシステム。

１０．事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する、条項９のシステム。

１１．処理コンポーネントは、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善するようにさらに構成される、条項８のシステム。

１２．画像特徴は、Ｈａｒａｌｉｃｋテクスチャ記述子、全変動及び分散を含む、条項８のシステム。

１３．画像特徴の抽出は、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、条項８のシステム。

１４．空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む、条項１３のシステム。

１５．カメラ装置であって、
ａ．レンズと、
ｂ．ビデオコンテンツを取得するように構成されたセンサと、
ｃ．
ｉ．ビデオコンテンツから画像特徴を抽出し、
ｉｉ．ディープニューラルネットワークを通じて画像特徴を供給し、
ｉｉｉ．最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測する、
アプリケーションを記憶する非一時的メモリと、
ｄ．メモリに結合されて、アプリケーションを処理するように構成された処理コンポーネントと、を備えるカメラ装置。

１６．ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、条項１５のカメラ装置。

１７．事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する、条項１６のカメラ装置。

１８．アプリケーションは、さらに、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善する、条項１５のカメラ装置。

１９．画像特徴は、Ｈａｒａｌｉｃｋテクスチャ記述子、全変動及び分散を含む、条項１５のカメラ装置。

２０．画像特徴の抽出は、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、条項１５のカメラ装置。

２１．空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む、条項２０のカメラ装置。

２２．装置の非一時的メモリにプログラムされる方法であって、
ａ．ビデオコンテンツを取得するステップと、
ｂ．０の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させるステップと、
ｃ．圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用するステップと、を含む方法。

２３．視覚的品質閾値は、予め選択される、条項２２の方法。

２４．システムであって、
ａ．レンズと、
ｂ．ビデオコンテンツを取得するように構成されたセンサと、
ｃ．０の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させ、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用するように構成された処理コンポーネントと、を備えるシステム。

２５．視覚的品質閾値は、予め選択される、条項２４のシステム。

２６．カメラ装置であって、
ａ．レンズと、
ｂ．ビデオコンテンツを取得するように構成されたセンサと、
ｃ．
ｉ．０の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させ、
ｉｉ．圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用する、
アプリケーションを記憶する非一時的メモリと、
ｄ．メモリに結合されて、アプリケーションを処理するように構成された処理コンポーネントと、を備えるカメラ装置。

２７．視覚的品質閾値は、予め選択される、条項２６のカメラ装置。

本発明の構成及び動作の原理を容易に理解できるように、詳細を含む特定の実施形態に関して本発明を説明した。本明細書におけるこのような特定の実施形態及びこれらの実施形態の詳細についての言及は、本明細書に添付する特許請求の範囲を限定することを意図したものではない。当業者には、特許請求の範囲によって定められる本発明の趣旨及び範囲から逸脱することなく、例示のために選択した実施形態において他の様々な修正を行えることが容易に明らかになるであろう。

Claims

装置の非一時的メモリにプログラムされる方法であって、
ａ．ビデオコンテンツを取得するステップと、
ｂ．前記ビデオコンテンツから、Ｈａｒａｌｉｃｋテクスチャ記述子、全変動及び分散を含む画像特徴を抽出するステップと、
ｃ．ディープニューラルネットワークを通じて前記画像特徴を供給するステップと、
ｄ．最も高い活性化値を有するノードに対応する目標とする量子化パラメータ値を予測するステップと、
を含み、
出力層は５２個のノードを含み、各ノードは量子化パラメータ値の１つに対応し、
前記画像特徴を抽出するステップは、前記画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、
ることを特徴とする方法。
前記ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、
請求項１に記載の方法。
バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、前記ニューラルネットワークを改善するステップをさらに含む、
請求項１に記載の方法。
前記空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、前記グリッドの各々について部分画像毎に前記画像特徴を抽出し、その後に前記画像特徴を最終的な特徴ベクトルに連結させて前記ニューラルネットワーク内に入力するステップを含む、
請求項１に記載の方法。
ｅ．レンズと、
ｆ．ビデオコンテンツを取得するように構成されたセンサと、
ｇ．前記ビデオコンテンツから、Ｈａｒａｌｉｃｋテクスチャ記述子、全変動及び分散を含む画像特徴を抽出し、ディープニューラルネットワークを通じて前記画像特徴を供給し、最も高い活性化値を有するノードに対応する目標とする量子化パラメータ値を予測するように構成された処理コンポーネントと、
を備え、
出力層は５２個のノードを含み、各ノードは量子化パラメータ値の１つに対応し、
前記画像特徴の抽出は、前記画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、
ことを特徴とするシステム。
前記ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、
請求項５に記載のシステム。
前記処理コンポーネントは、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、前記ニューラルネットワークを改善するようにさらに構成される、
請求項５に記載のシステム。
前記空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、前記グリッドの各々について部分画像毎に前記画像特徴を抽出し、その後に前記画像特徴を最終的な特徴ベクトルに連結させて前記ニューラルネットワーク内に入力するステップを含む、
請求項５に記載のシステム。
ｈ．レンズと、
ｉ．ビデオコンテンツを取得するように構成されたセンサと、
ｊ．
ｉ．前記ビデオコンテンツから、Ｈａｒａｌｉｃｋテクスチャ記述子、全変動及び分散を含む画像特徴を抽出し、
ｉｉ．ディープニューラルネットワークを通じて前記画像特徴を供給し、
ｉｉｉ．前記複数のノードの各ノードの活性化値の比較に基づいて、最も高い活性化値を有するノードに対応する目標とする量子化パラメータ値を予測し、出力層は５２個のノードを含み、各ノードは量子化パラメータ値の１つに対応し、各ノードは－１と１の間の活性化値を有する、
アプリケーションを記憶する非一時的メモリと、
ｋ．前記メモリに結合されて、前記アプリケーションを処理するように構成された処理コンポーネントと、
を備え、
前記画像特徴の抽出は、前記画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、
ことを特徴とするカメラ装置。
前記ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、
請求項９に記載のカメラ装置。
前記アプリケーションは、さらに、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、前記ニューラルネットワークを改善する、
請求項９に記載のカメラ装置。
前記空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、前記グリッドの各々について部分画像毎に前記画像特徴を抽出し、その後に前記画像特徴を最終的な特徴ベクトルに連結させて前記ニューラルネットワーク内に入力するステップを含む、
請求項９に記載のカメラ装置。