JP7026878B2 - ディープニューラルネットワークを用いた、視覚的品質を維持した量子化パラメータ予測 - Google Patents

ディープニューラルネットワークを用いた、視覚的品質を維持した量子化パラメータ予測 Download PDF

Info

Publication number
JP7026878B2
JP7026878B2 JP2019558385A JP2019558385A JP7026878B2 JP 7026878 B2 JP7026878 B2 JP 7026878B2 JP 2019558385 A JP2019558385 A JP 2019558385A JP 2019558385 A JP2019558385 A JP 2019558385A JP 7026878 B2 JP7026878 B2 JP 7026878B2
Authority
JP
Japan
Prior art keywords
image features
neural network
image
quantization parameter
video content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019558385A
Other languages
English (en)
Other versions
JP2020518191A (ja
Inventor
シュン シュー
章 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2020518191A publication Critical patent/JP2020518191A/ja
Application granted granted Critical
Publication of JP7026878B2 publication Critical patent/JP7026878B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • H04N19/197Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters including determination of the initial value of an encoding parameter

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Description

本発明は、ビデオ符号化に関する。具体的には、本発明は、ビデオ符号化における量子化パラメータ予測に関する。
ビデオ符号化における量子化パラメータ(QP)は、各符号化単位(画像ブロック)を符号化するためにどれだけのビットを割り当てるべきであるかを決定するパラメータである。従来、QPは包括的に割り当てられることが多く、結果的に一様なビット割り当て戦略となる。しかしながら、異なる画像ブロックは、圧縮によって生じた歪みを隠す能力も異なるため、この戦略では視覚的品質が一貫しなくなってしまう。
QPマッピング法が、符号化フレームにわたって一貫した視覚的品質を維持することができる。この方法は、圧縮歪みの影響を受けやすい画像ブロックに自動的に多くのビットを割り当てる。QP予測に使用されるテクスチャ記述特徴(texture-descriptive features)は計算が速く、ディープニューラルネットワークと共に、視覚的品質尺度から推定される潜在的なQPマッピング戦略を効果的に近似することができる。
1つの態様では、装置の非一時的メモリにプログラムされる方法が、ビデオコンテンツを取得するステップと、ビデオコンテンツから画像特徴を抽出するステップと、ディープニューラルネットワークを通じて画像特徴を供給するステップと、最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測するステップとを含む。ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる。事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する。この方法は、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善するステップをさらに含む。画像特徴は、Haralickテクスチャ記述子(Haralick texture descriptors)、全変動(total-variation)及び分散(variance)を含む。画像特徴を抽出するステップは、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される。空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む。
別の態様では、システムが、レンズと、ビデオコンテンツを取得するように構成されたセンサと、ビデオコンテンツから画像特徴を抽出し、ディープニューラルネットワークを通じて画像特徴を供給し、最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測するように構成された処理コンポーネントとを備える。ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる。事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する。処理コンポーネントは、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善するようにさらに構成される。画像特徴は、Haralickテクスチャ記述子、全変動及び分散を含む。画像特徴の抽出は、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される。空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む。
別の態様では、カメラ装置が、レンズと、ビデオコンテンツを取得するように構成されたセンサと、ビデオコンテンツから画像特徴を抽出し、ディープニューラルネットワークを通じて画像特徴を供給し、最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測するアプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成された処理コンポーネントとを備える。ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる。事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する。アプリケーションは、さらに、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善する。画像特徴は、Haralickテクスチャ記述子、全変動及び分散を含む。画像特徴の抽出は、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される。空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む。
別の態様では、装置の非一時的メモリにプログラムされる方法が、ビデオコンテンツを取得するステップと、0の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させるステップと、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用するステップとを含む。視覚的品質閾値は、予め選択される。
別の態様では、システムが、レンズと、ビデオコンテンツを取得するように構成されたセンサと、0の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させ、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用するように構成された処理コンポーネントとを備える。視覚的品質閾値は、予め選択される。
別の態様では、カメラ装置が、レンズと、ビデオコンテンツを取得するように構成されたセンサと、0の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させ、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用するアプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成された処理コンポーネントとを備える。視覚的品質閾値は、予め選択される。
いくつかの実施形態による、視覚的品質を維持するQP割り当ての図である。 いくつかの実施形態によるQP予測ニューラルネットワークの図である。 いくつかの実施形態による、QPマッピング法を実行するように構成された例示的なコンピュータ装置のブロック図である。
符号化フレームにわたって視覚的品質を維持する能力を有する、画像ブロックに量子化パラメータ(QP)パラメータを割り当てるフレームワークについて説明する。ディープニューラルネットワークに基づく高速、自動QP予測アルゴリズムについて説明する。この予測アルゴリズムでは、様々な効果的な画像特徴が使用される。
ビデオ符号化における量子化パラメータ(QP)は、各符号化単位(画像ブロック)を符号化するためにどれだけのビットを割り当てるべきであるかを決定するパラメータである。ビデオ符号化手順では、これらのパラメータが最終的な符号化ビデオの品質に直接影響するため重要である。
従来、QPは包括的に割り当てられ、結果的に一様なビット割り当て戦略となる。この戦略は、異なる画像ブロックの視覚特性を考慮しない。異なる画像ブロックは、その様々な外観に起因して、圧縮によって生じた歪みを隠す能力が異なる。この結果、一部の画像ブロックは圧縮の影響を受けやすく(例えば、これらのブロックでは圧縮アーチファクトが容易に観察され)、従ってこれらの画像ブロックには、符号化のために多くのビットを割り振るか、或いは同じ意味で低いQPを割り当てるべきである。
さらに合理的なQP割り当て戦略は、均一なビット数ではなく均一な視覚的品質を維持することである。QPパラメータを割り当てるための、例えば各画像ブロックをQP値にマッピングするための自動アルゴリズムであって、視覚的品質を維持することができる自動アルゴリズムについて説明する。
視覚的品質を維持したQPマッピング
視覚的品質を維持できるQPマッピング戦略を設計するために、視覚的品質評価(VQA)のためのアプローチを使用する。このようなVQAアルゴリズムは、原画像及び歪み画像(例えば、圧縮画像)を所与として歪み画像の品質を測定することができる。このアルゴリズムは、一般性を失うことなく、視覚的品質を0(低品質)から1(高品質)までの実数として格付けする。本明細書で説明するフレームワークは、あらゆるVQAアルゴリズムを使用することができる。1つのVQAアルゴリズムは、特徴類似度指数モデル(FSIM)である。FSIMアルゴリズムは計算が速く、適度に良好な視覚的品質測定を達成する。
最初に、予め選択される視覚的品質閾値(VQT)を、例えば0.95などの0~1の数字として選択するが、あらゆる範囲/数字を使用することができる。次に、(圧縮すべき原ビデオフレームからの)各所与の入力画像ブロックについて、この画像ブロックを全ての考えられるQP(0~51の整数値)で圧縮する。QPが増加すると、一般に視覚的品質尺度は(必ずしも単調にではないが)低下する。品質尺度が最初にVQTを下回った時の直前のQPを、視覚的品質を維持するQP(例えば、ニューラルネットワークのトレーニングに使用される目標QP)として決定する。図1に、視覚的品質を維持したQP割り当ての図を示す。
この手順をビデオフレーム内の全ての画像ブロックについて実行し、視覚的品質を維持するQPのマップにこれらをマッピングする。
ディープニューラルネットワークを用いたQPマップ予測
このQPマッピング手順は、ビデオ符号化ワークフロー内で直接実行することができる。別のアプローチは、このようなQPマッピング戦略を近似することができる高速アルゴリズムを発見することである。この目的のために、図2に示すようなディープニューラルネットワークを使用する。ネットワークの入力層は、特徴抽出器を用いて入力画像ブロックから抽出された画像特徴を含む。本明細書ではこれらの特徴について説明する。ネットワークの出力層は、それぞれが考えられるQP値のうちの1つに対応する52個のノード(例えば、QP=0、...、QP=51)から成る。出力ノードは、-1~1の活性化値を有し、活性化の最も高いノードが目標QP値を予測する。
最初に、トレーニング画像ブロックから抽出された大量の画像特徴を与えて、QP予測ネットワークを教師なし方式で事前トレーニングする。事前トレーニングは、トレーニング入力を最良に復元できるようにネットワークパラメータを調整するオートエンコーダフレームワークを使用して実行される。次に、大量の画像特徴の対と、本明細書で説明する戦略によって割り当てられたそのQP値とを与えることによって、ネットワークをさらに改善する。これを達成するために、バックプロパゲーションアルゴリズムを使用する。
QP予測ニューラルネットワークのための画像特徴
QP予測ニューラルネットワークの入力層は、Haralickテクスチャ記述子、全変動及び分散という3つの異なるタイプの画像特徴によって構成される。13次元Haralickテクスチャ記述子は、入力画像からの典型的な特徴抽出テクスチャ情報(features extracting textural information)である。Haralickテクスチャ記述子は、グレーレベル同時生起行列(GLCM)から計算される。全変動及び分散の特徴は、処理される画像内の画素値の統計である。
空間ピラミッドフレームワークを使用して、様々な粒度で画像特徴を抽出する。入力画像ブロックは、逐次的に一連のさらに小さな部分画像のグリッドに分割する。これらのグリッドは、1×1(原画像ブロック)、2×2、4×4及び8×8のサイズである。これらの各グリッドについて、本明細書で説明した画像特徴を部分画像毎に抽出した後に、これらの部分特徴を最終的な特徴ベクトルに連結させて、QP予測ニューラルネットワーク内に供給する。
図3は、いくつかの実施形態による、QPマッピング法を実行するように構成された例示的なコンピュータ装置のブロック図である。コンピュータ装置300は、画像及びビデオなどの情報の取得、記憶、計算、処理、通信及び/又は表示のために使用することができる。一般に、コンピュータ装置300を実装するのに適したハードウェア構造は、ネットワークインターフェイス302、メモリ304、プロセッサ306、(単複の)I/O装置308、バス310及び記憶装置312を含む。プロセッサの選択は、十分な速度の好適なプロセッサを選択する限り重要ではない。メモリ304は、当業で周知のいずれかの従来のコンピュータメモリとすることができる。記憶装置312は、ハードドライブ、CDROM、CDRW、DVD、DVDRW、高精細ディスク/ドライブ、ウルトラHDドライブ、フラッシュメモリカード、又はその他のいずれかの記憶装置を含むことができる。コンピュータ装置300は、1又は2以上のネットワークインターフェイス302を含むことができる。ネットワークインターフェイスの例としては、イーサネット又は他のタイプのLANに接続されたネットワークカードが挙げられる。(単複の)I/O装置308は、キーボード、マウス、モニタ、画面、プリンタ、モデム、タッチ画面、ボタンインターフェイス及びその他の装置のうちの1つ又は2つ以上を含むことができる。記憶装置312及びメモリ304には、レンズセンサ傾斜較正法(lens-sensor tilt calibration method)を実行するために使用されるQPマッピングアプリケーション330が記憶されて、アプリケーションが通常処理されるように処理される可能性が高い。コンピュータ装置300には、図3に示すものよりも多くの又は少ないコンポーネントを含めることもできる。いくつかの実施形態では、QPマッピングハードウェア320が含まれる。図3のコンピュータ装置300は、QPマッピング法のためのアプリケーション330及びハードウェア320を含むが、QPマッピング法は、ハードウェア、ファームウェア、ソフトウェア、又はこれらのあらゆる組み合わせでコンピュータ装置上に実装することもできる。例えば、いくつかの実施形態では、QPマッピングアプリケーション330がメモリにプログラムされ、プロセッサを用いて実行される。別の例として、いくつかの実施形態では、QPマッピングハードウェア320が、QPマッピング法を実行するように特別に設計されたゲートを含むプログラムされたハードウェアロジックである。
いくつかの実施形態では、QPマッピングアプリケーション330が、複数のアプリケーション及び/又はモジュールを含む。いくつかの実施形態では、モジュールが、1又は2以上のサブモジュールをさらに含む。いくつかの実施形態では、これよりも少ない又はさらなるモジュールを含めることもできる。
好適なコンピュータ装置の例としては、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ/携帯電話機、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き電話機、スマートホン、ポータブル音楽プレーヤ、タブレットコンピュータ、モバイル装置、ビデオプレーヤ、ビデオディスクライタ/プレーヤ(DVDライタ/プレーヤ、高精細ディスクライタ/プレーヤ、超高精細ディスクライタ/プレーヤなど)、テレビ、家庭用エンターテイメントシステム、スマートジュエリ(例えば、スマートウォッチ)、又はその他のあらゆる好適なコンピュータ装置が挙げられる。
本明細書で説明したQPマッピング法を利用するには、デジタルカムコーダなどの装置を使用してビデオを取得する。QPマッピング法は、この取得データを処理するために自動的に使用される。QPマッピング法は、ユーザの関与を伴わずに自動的に実行することができる。
動作時には、QPマッピング法が、符号化フレームにわたって一貫した視覚的品質を維持することができる。この方法は、圧縮歪みの影響を受けやすい画像ブロックに自動的に多くのビットを割り当てる。QP予測に使用されるテクスチャ記述特徴は計算が速く、視覚的品質尺度から推定される潜在的なQPマッピング戦略を効果的に近似することができる。
ディープニューラルネットワークを用いた、視覚的品質を維持した量子化パラメータ予測のいくつかの実施形態
1.装置の非一時的メモリにプログラムされる方法であって、
a.ビデオコンテンツを取得するステップと、
b.ビデオコンテンツから画像特徴を抽出するステップと、
c.ディープニューラルネットワークを通じて画像特徴を供給するステップと、
d.最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測するステップと、を含む方法。
2.ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、条項1の方法。
3.事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する、条項2の方法。
4.バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善するステップをさらに含む、条項1の方法。
5.画像特徴は、Haralickテクスチャ記述子、全変動及び分散を含む、条項1の方法。
6.画像特徴を抽出するステップは、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、条項1の方法。
7.空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む、条項6の方法。
8.システムであって、
a.レンズと、
b.ビデオコンテンツを取得するように構成されたセンサと、
c.ビデオコンテンツから画像特徴を抽出し、ディープニューラルネットワークを通じて画像特徴を供給し、最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測するように構成された処理コンポーネントと、を備えるシステム。
9.ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、条項8のシステム。
10.事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する、条項9のシステム。
11.処理コンポーネントは、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善するようにさらに構成される、条項8のシステム。
12.画像特徴は、Haralickテクスチャ記述子、全変動及び分散を含む、条項8のシステム。
13.画像特徴の抽出は、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、条項8のシステム。
14.空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む、条項13のシステム。
15.カメラ装置であって、
a.レンズと、
b.ビデオコンテンツを取得するように構成されたセンサと、
c.
i.ビデオコンテンツから画像特徴を抽出し、
ii.ディープニューラルネットワークを通じて画像特徴を供給し、
iii.最も高い活性化値を有するノードに対応する目標量子化パラメータ値を予測する、
アプリケーションを記憶する非一時的メモリと、
d.メモリに結合されて、アプリケーションを処理するように構成された処理コンポーネントと、を備えるカメラ装置。
16.ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、条項15のカメラ装置。
17.事前トレーニングは、トレーニング入力を復元するようにネットワークパラメータを調整するオートエンコーダフレームワークを使用する、条項16のカメラ装置。
18.アプリケーションは、さらに、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、ニューラルネットワークを改善する、条項15のカメラ装置。
19.画像特徴は、Haralickテクスチャ記述子、全変動及び分散を含む、条項15のカメラ装置。
20.画像特徴の抽出は、画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、条項15のカメラ装置。
21.空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、グリッドの各々について部分画像毎に画像特徴を抽出し、その後に画像特徴を最終的な特徴ベクトルに連結させてニューラルネットワーク内に入力するステップを含む、条項20のカメラ装置。
22.装置の非一時的メモリにプログラムされる方法であって、
a.ビデオコンテンツを取得するステップと、
b.0の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させるステップと、
c.圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用するステップと、を含む方法。
23.視覚的品質閾値は、予め選択される、条項22の方法。
24.システムであって、
a.レンズと、
b.ビデオコンテンツを取得するように構成されたセンサと、
c.0の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させ、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用するように構成された処理コンポーネントと、を備えるシステム。
25.視覚的品質閾値は、予め選択される、条項24のシステム。
26.カメラ装置であって、
a.レンズと、
b.ビデオコンテンツを取得するように構成されたセンサと、
c.
i.0の量子化パラメータから開始する量子化パラメータを使用してビデオコンテンツの各画像ブロックを圧縮し、圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回るまで量子化パラメータを増加させ、
ii.圧縮された画像ブロックの品質尺度が視覚的品質閾値を下回る量子化パラメータの直前の量子化パラメータを、視覚的品質を維持する量子化パラメータとして利用する、
アプリケーションを記憶する非一時的メモリと、
d.メモリに結合されて、アプリケーションを処理するように構成された処理コンポーネントと、を備えるカメラ装置。
27.視覚的品質閾値は、予め選択される、条項26のカメラ装置。
本発明の構成及び動作の原理を容易に理解できるように、詳細を含む特定の実施形態に関して本発明を説明した。本明細書におけるこのような特定の実施形態及びこれらの実施形態の詳細についての言及は、本明細書に添付する特許請求の範囲を限定することを意図したものではない。当業者には、特許請求の範囲によって定められる本発明の趣旨及び範囲から逸脱することなく、例示のために選択した実施形態において他の様々な修正を行えることが容易に明らかになるであろう。

Claims (12)

  1. 装置の非一時的メモリにプログラムされる方法であって、
    a.ビデオコンテンツを取得するステップと、
    b.前記ビデオコンテンツから、Haralickテクスチャ記述子、全変動及び分散を含む画像特徴を抽出するステップと、
    c.ディープニューラルネットワークを通じて前記画像特徴を供給するステップと、
    d.最も高い活性化値を有するノードに対応する目標とする量子化パラメータ値を予測するステップと、
    を含み、
    出力層は52個のノードを含み、各ノードは量子化パラメータ値の1つに対応し、
    前記画像特徴を抽出するステップは、前記画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、
    ることを特徴とする方法。
  2. 前記ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、
    請求項1に記載の方法。
  3. バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、前記ニューラルネットワークを改善するステップをさらに含む、
    請求項1に記載の方法。
  4. 前記空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、前記グリッドの各々について部分画像毎に前記画像特徴を抽出し、その後に前記画像特徴を最終的な特徴ベクトルに連結させて前記ニューラルネットワーク内に入力するステップを含む、
    請求項1に記載の方法。
  5. e.レンズと、
    f.ビデオコンテンツを取得するように構成されたセンサと、
    g.前記ビデオコンテンツから、Haralickテクスチャ記述子、全変動及び分散を含む画像特徴を抽出し、ディープニューラルネットワークを通じて前記画像特徴を供給し、最も高い活性化値を有するノードに対応する目標とする量子化パラメータ値を予測するように構成された処理コンポーネントと、
    を備え、
    出力層は52個のノードを含み、各ノードは量子化パラメータ値の1つに対応し、
    前記画像特徴の抽出は、前記画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、
    ことを特徴とするシステム。
  6. 前記ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、
    請求項5に記載のシステム。
  7. 前記処理コンポーネントは、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、前記ニューラルネットワークを改善するようにさらに構成される、
    請求項5に記載のシステム。
  8. 前記空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、前記グリッドの各々について部分画像毎に前記画像特徴を抽出し、その後に前記画像特徴を最終的な特徴ベクトルに連結させて前記ニューラルネットワーク内に入力するステップを含む、
    請求項5に記載のシステム。
  9. h.レンズと、
    i.ビデオコンテンツを取得するように構成されたセンサと、
    j.
    i.前記ビデオコンテンツから、Haralickテクスチャ記述子、全変動及び分散を含む画像特徴を抽出し、
    ii.ディープニューラルネットワークを通じて前記画像特徴を供給し、
    iii.前記複数のノードの各ノードの活性化値の比較に基づいて、最も高い活性化値を有するノードに対応する目標とする量子化パラメータ値を予測し、出力層は52個のノードを含み、各ノードは量子化パラメータ値の1つに対応し、各ノードは-1と1の間の活性化値を有する、
    アプリケーションを記憶する非一時的メモリと、
    k.前記メモリに結合されて、前記アプリケーションを処理するように構成された処理コンポーネントと、
    を備え
    前記画像特徴の抽出は、前記画像特徴を様々な粒度で抽出する空間ピラミッドフレームワークを用いて実行される、
    ことを特徴とするカメラ装置。
  10. 前記ディープニューラルネットワークは、最初に、トレーニング画像ブロックから抽出された画像特徴を用いて教師なしで事前トレーニングされる、
    請求項9に記載のカメラ装置。
  11. 前記アプリケーションは、さらに、バックプロパゲーションアルゴリズムを使用して画像特徴及びその割り当てられた量子化パラメータ値を入力することによって、前記ニューラルネットワークを改善する、
    請求項9に記載のカメラ装置。
  12. 前記空間ピラミッドフレームワークは、画像ブロックを逐次的にさらに小さな部分画像の一連のグリッドに分割し、前記グリッドの各々について部分画像毎に前記画像特徴を抽出し、その後に前記画像特徴を最終的な特徴ベクトルに連結させて前記ニューラルネットワーク内に入力するステップを含む、
    請求項9に記載のカメラ装置。
JP2019558385A 2017-07-11 2018-06-29 ディープニューラルネットワークを用いた、視覚的品質を維持した量子化パラメータ予測 Active JP7026878B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/646,737 US10728553B2 (en) 2017-07-11 2017-07-11 Visual quality preserving quantization parameter prediction with deep neural network
US15/646,737 2017-07-11
PCT/IB2018/054832 WO2019012363A1 (en) 2017-07-11 2018-06-29 PREDICTION OF QUANTIFICATION PARAMETER PRESERVING VISUAL QUALITY THROUGH DEEP NEURAL NETWORK

Publications (2)

Publication Number Publication Date
JP2020518191A JP2020518191A (ja) 2020-06-18
JP7026878B2 true JP7026878B2 (ja) 2022-03-01

Family

ID=63209629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019558385A Active JP7026878B2 (ja) 2017-07-11 2018-06-29 ディープニューラルネットワークを用いた、視覚的品質を維持した量子化パラメータ予測

Country Status (5)

Country Link
US (1) US10728553B2 (ja)
JP (1) JP7026878B2 (ja)
KR (1) KR20190127909A (ja)
CN (1) CN110637460B (ja)
WO (1) WO2019012363A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195096B2 (en) * 2017-10-24 2021-12-07 International Business Machines Corporation Facilitating neural network efficiency
US10721471B2 (en) * 2017-10-26 2020-07-21 Intel Corporation Deep learning based quantization parameter estimation for video encoding
US10560696B2 (en) * 2018-06-25 2020-02-11 Tfi Digital Media Limited Method for initial quantization parameter optimization in video coding
US10963742B2 (en) * 2018-11-02 2021-03-30 University Of South Florida Leveraging smart-phone cameras and image processing techniques to classify mosquito genus and species
KR20200082227A (ko) * 2018-12-28 2020-07-08 한국전자통신연구원 오디오 신호를 위한 손실 함수 결정 방법 및 손실 함수 결정 장치
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US20210233259A1 (en) * 2020-01-28 2021-07-29 Ssimwave Inc. No-reference visual media assessment combining deep neural networks and models of human visual system and video content/distortion analysis
CN111314698A (zh) * 2020-02-27 2020-06-19 浙江大华技术股份有限公司 一种图像编码处理方法及装置
KR20210155695A (ko) 2020-06-16 2021-12-23 삼성전자주식회사 화질 튜닝을 수행하는 이미지 처리 시스템 및 화질 튜닝 방법
US11335033B2 (en) 2020-09-25 2022-05-17 Adobe Inc. Compressing digital images utilizing deep learning-based perceptual similarity
KR20220043694A (ko) * 2020-09-29 2022-04-05 삼성전자주식회사 영상을 처리하는 디바이스 및 그 동작 방법
CN114363624B (zh) * 2020-10-13 2023-03-31 北京大学 一种基于敏感度的码率分配特征压缩方法
CN112733863B (zh) * 2021-01-07 2022-06-07 苏州浪潮智能科技有限公司 一种图像特征提取方法、装置、设备及存储介质
CN113259163B (zh) * 2021-05-17 2022-02-08 云南大学 一种基于网络拓扑感知的Web服务质量预测方法及***
EP4145394A1 (en) * 2021-09-06 2023-03-08 Nokia Technologies Oy Personalized perceptual video encoder for mission-critical tasks
WO2023169501A1 (en) * 2022-03-09 2023-09-14 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for visual data processing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003153007A (ja) 2001-07-23 2003-05-23 Eastman Kodak Co 画像重要度に基づく画像圧縮制御システム及び方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5444820A (en) * 1993-12-09 1995-08-22 Long Island Lighting Company Adaptive system and method for predicting response times in a service environment
KR0139154B1 (ko) * 1994-07-08 1998-06-15 김광호 신경망을 이용한 부호화방법 및 그 장치
US20060280242A1 (en) 2005-06-13 2006-12-14 Nokia Corporation System and method for providing one-pass rate control for encoders
CN101325707B (zh) * 2007-06-12 2012-04-18 浙江大学 纹理自适应视频编解码***
US8473657B2 (en) 2009-03-23 2013-06-25 Lsi Corporation High speed packet FIFO output buffers for switch fabric with speedup
US20120316421A1 (en) * 2009-07-07 2012-12-13 The Johns Hopkins University System and method for automated disease assessment in capsule endoscopy
WO2012096988A2 (en) * 2011-01-10 2012-07-19 Rutgers, The State University Of New Jersey Method and apparatus for shape based deformable segmentation of multiple overlapping objects
US8594385B2 (en) * 2011-04-19 2013-11-26 Xerox Corporation Predicting the aesthetic value of an image
US8731323B2 (en) * 2011-11-23 2014-05-20 Stmicroelectronics Asia Pacific Pte Ltd. General banding and codec banding artifact removal
US9143776B2 (en) * 2012-05-07 2015-09-22 Futurewei Technologies, Inc. No-reference video/image quality measurement with compressed domain features
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US9536177B2 (en) * 2013-12-01 2017-01-03 University Of Florida Research Foundation, Inc. Distributive hierarchical model for object recognition in video
US20150193947A1 (en) * 2014-01-06 2015-07-09 Qualcomm Incorporated System and method to generate high dynamic range images with reduced ghosting and motion blur
US20170272778A9 (en) * 2014-01-06 2017-09-21 Samsung Electronics Co., Ltd. Image encoding and decoding methods for preserving film grain noise, and image encoding and decoding apparatuses for preserving film grain noise
US9639806B2 (en) * 2014-04-15 2017-05-02 Xerox Corporation System and method for predicting iconicity of an image
EP3271863B1 (en) 2015-03-20 2021-07-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Relevance score assignment for artificial neural network
US10373050B2 (en) * 2015-05-08 2019-08-06 Qualcomm Incorporated Fixed point neural network based on floating point neural network quantization
CN104992347B (zh) * 2015-06-17 2018-12-14 北京奇艺世纪科技有限公司 一种视频匹配广告的方法及装置
US10499056B2 (en) 2016-03-09 2019-12-03 Sony Corporation System and method for video processing based on quantization parameter
CN106485316B (zh) * 2016-10-31 2019-04-02 北京百度网讯科技有限公司 神经网络模型压缩方法以及装置
CN106778918B (zh) * 2017-01-22 2020-10-30 苏州飞搜科技有限公司 一种应用于手机端的深度学习图像识别***及实现方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003153007A (ja) 2001-07-23 2003-05-23 Eastman Kodak Co 画像重要度に基づく画像圧縮制御システム及び方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIU, Xin et al.,Spatial complexity based optimal initial quantization parameter determination,2015 Visual Communications and Image Processing (VCIP),IEEE,2016年04月25日,pp. 1-4,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7457913,<DOI: 10.1109/VCIP.2015.7457913>
SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMS Infrastructure of audiovisual services - Coding of moving video,Recommendation ITU-T H.264 (10/16) Advanced video coding for generic audiovisual services,ITU-T,2017年01月31日,第90頁
ZHANG, Yong and ZHANG, Ming Ming,Application of Artificial Neural Network in Video Compression Coding,2008 International Conference on Information Management, Innovation Management and Industrial Engineering,IEEE,2009年01月06日,pp. 207-210,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=4737529,<DOI: 10.1109/ICIII.2008.298>
ZHU, Jianying et al.,A novel quantization parameter estimation model based on neural network,2012 International Conference on Systems and Informatics (ICSAI2012),IEEE,2012年06月25日,pp. 2020-2023,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6223448,<DOI: 10.1109/ICSAI.2012.6223448>

Also Published As

Publication number Publication date
CN110637460A (zh) 2019-12-31
KR20190127909A (ko) 2019-11-13
JP2020518191A (ja) 2020-06-18
US10728553B2 (en) 2020-07-28
CN110637460B (zh) 2021-09-28
US20190020871A1 (en) 2019-01-17
WO2019012363A1 (en) 2019-01-17

Similar Documents

Publication Publication Date Title
JP7026878B2 (ja) ディープニューラルネットワークを用いた、視覚的品質を維持した量子化パラメータ予測
KR102332490B1 (ko) 심층 신경망용 압축 방법, 칩, 전자 장치 및 매체
US11095925B2 (en) Artificial intelligence based resolution improvement system
US10834415B2 (en) Devices for compression/decompression, system, chip, and electronic device
CN110765860B (zh) 摔倒判定方法、装置、计算机设备及存储介质
CN111869220B (zh) 电子装置及其控制方法
CN108780499A (zh) 基于量化参数的视频处理的***和方法
CN110622214B (zh) 基于超体素的时空视频分割的快速渐进式方法
KR102343648B1 (ko) 영상 부호화 장치 및 영상 부호화 시스템
CN115618051A (zh) 一种基于互联网的智慧校园监控视频存储方法
TWI577178B (zh) 影像處理裝置及其影像壓縮方法
CN110650339A (zh) 一种视频压缩方法、装置及终端设备
CN116757962A (zh) 一种图像去噪方法、装置
CN111243046B (zh) 图像质量检测方法、装置、电子设备及存储介质
WO2018123202A1 (ja) 動画像処理装置、表示装置、動画像処理方法、および制御プログラム
Bakhtiari et al. No-reference video quality assessment by deep feature maps relations
CN111488476B (zh) 图像推送方法、模型训练方法及对应装置
Ding et al. Improved frequency table adjusting algorithms for context-based adaptive lossless image coding
JP2022546774A (ja) イントラ予測のための補間フィルタリング方法と装置、コンピュータプログラム及び電子装置
EP4391533A1 (en) Feature map encoding method and apparatus and feature map decoding method and apparatus
WO2024084660A1 (ja) 画像符号化装置、画像復号装置、画像処理システム、モデル学習装置、画像符号化方法、画像復号方法、および、コンピュータ可読記憶媒体
TW201521429A (zh) 用於移動估計的視訊前處理方法與裝置
RU2782583C1 (ru) Слияние изображений на блочной основе для контекстной сегментации и обработки
Laazoufi et al. Point Cloud Quality Assessment using 1D VGG16 based Transfer Learning Model
CN116934647A (zh) 基于空间角度可变形卷积网络的压缩光场质量增强方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201028

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210714

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220126

R151 Written notification of patent or utility model registration

Ref document number: 7026878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151