JP7168896B2 - 画像符号化方法、及び画像復号方法 - Google Patents
画像符号化方法、及び画像復号方法 Download PDFInfo
- Publication number
- JP7168896B2 JP7168896B2 JP2021528645A JP2021528645A JP7168896B2 JP 7168896 B2 JP7168896 B2 JP 7168896B2 JP 2021528645 A JP2021528645 A JP 2021528645A JP 2021528645 A JP2021528645 A JP 2021528645A JP 7168896 B2 JP7168896 B2 JP 7168896B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- representative
- vector
- gram matrix
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
本発明は、画像符号化方法、及び画像復号方法に関する。
一般的な画像符号化では、DCT(Discrete Cosine Transform;離散コサイン変換)、DST(Discrete Sine Transform;離散サイン変換)、及びウェーブレット変換等によって、画像領域から周波数領域への直交変換が行われてからエントロピー符号化が行われる。変換基底の次元と画像の次元とが同一であるため、変換の前後でデータの数は変わらず情報量は削減されないが、変換によってデータの分布が偏ることでエントロピー符号化による符号化効率が向上する。また、このとき主観的な画像品質への寄与率が低いといわれている高周波成分を荒く量子化することで、さらに情報量を削減することもできる。これらの方法では、一般的には、変換基底はエンコーダ・デコーダのどちらにおいても既知であるとして、基底自体の符号化は行われない。
また、特に複数の画像を効率的に圧縮する必要のある映像符号化では、より圧縮率を上げるため、画像を処理単位ブロックに分割し、被写体の空間的/時間的な連続性を利用してブロック毎にその画像信号を空間的/時間的に予測する。その予測方法を示す予測情報と、予測残差信号に対して上述の変換や量子化を行ったものとを符号化することで、画像信号そのものを符号化する場合に比べて大幅な符号化効率の向上が図られる。
画像/映像符号化の標準規格であるJPEG(Joint Photographic Experts Group)、H.264/MPEG(Moving Picture Experts Group)-4 AVC(Advanced Video Coding)、及びH.265/HEVC(High Efficiency Video Coding)では、DCTやDSTの係数を量子化する際のQP(Quantization Parameter;量子化パラメータ)が調整されることで発生符号量が制御される。一方で、QPの上昇に伴う高周波成分の欠落、またブロック境界に発生するブロック歪みが画像品質に影響を与え、対象となる画像によってはコンテキストに関わる情報が欠損する。
画像コンテキストを維持するタイプの符号化方法としては、PCA(Principle Component Analysis;主成分分析)による次元削減がある。この方法では、事前に画像データを多量に用いて、画像を表す基底である主成分ベクトルを学習する必要がある。この方法は、学習対象及び符号化対象が似通った特徴を持っている場合、元の画素数に比べてごく少数の係数で画像を表現することが可能で、顔画像等限定されたカテゴリに対する符号化の方法として用いられることがある。しかしながら異なる特徴を持つ画像データから効率的な主成分ベクトルを得ることはできないため、一般化した基底を作ることはできない。任意の画像を符号化する場合、主成分ベクトルも同時に符号化する必要があるが、基底ひとつあたりの要素数が符号化対象画像の画素数と同じであるため、情報量は削減されない。
また、画像を分割しブロックごとに変換を行う場合に、符号化対象のブロック集合を用いて基底を学習し、生成した基底も符号化対象とする方法もある。この方法では、基底の要素数が符号化対象画像の画素数より少ないため、ブロック数が画像に対して十分多く、また、全てのブロックが類似した特徴を持つ場合に情報量を削減することができる。しかしながら、各ブロックは画像の局所的な特徴を持つに過ぎないため、同じ画像から得られたブロック同士が類似した特徴を持つことは一般的ではない。
一方で、画像の特徴マップ同士の内積によって生成されるグラム行列は、画像の大域的なスタイル特徴を反映することが知られている。グラム行列とスタイル特徴については、例えば非特許文献1に詳しい。非特許文献1には、画像に対して一般的な画像認識のためのCNN(Convolutional Neural Network;畳み込みニューラルネットワーク)が適用された際の中間変数である特徴マップの集合について、階層ごとにその階層に属する特徴マップ同士の内積を要素に持つグラム行列を生成し、これを使用して原画像に類似した別の画像を生成する方法が示されている。第L層の特徴マップ集合について、各特徴マップを1次元行ベクトルとし、これを縦に並べたものをFLとするとき、グラム行列GLの各要素は、以下の(1)式で表される。
生成されるグラム行列は、特徴マップの枚数がM枚であるとき、原画像及び特徴マップの画素数によらずM×Mの行列となる。非特許文献1では、適当なガウシアンノイズの行列を初期値として、この行列から求まるグラム行列が原画像のものに近づくような最適化問題を解くことで、原画像と同等のコンテキストを持つ鮮明な画像が生成されている。
グラム行列の要素数が元の画像の画素数よりも十分少ない場合、原画像のコンテキストをより少ない要素で表現することができると言える。しかしながら、鮮明な画像を生成するためには、浅い層から深い層にかけて複数のグラム行列を必要とし、また、画像の解像度が多いほど必要となる層の数は多くなるため、条件を満たすことは難しい。
L. A. Gatys, A. S. Ecker, and M. Bethge, "Image Style Transfer Using Convolutional Neural Networks," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.2414-2423, 2016.
K. Nakanishi, S. Maeda, T. Miyato, and D. Okanohara, "Neural Multi-scale Image Compression," [online] arXiv, May 16, 2018, [2019年6月14日検索],インターネット <URL:http://arxiv.org/abs/1805.06386>
上述したように、一般的な画像符号化では直交変換と量子化により符号量の削減を行うことが可能である。しかしながら、量子化歪、対象となる画像によってはコンテキストに関わる情報が欠損し、画像の品質が低下する。PCA等の方法では画像コンテキストを維持した圧縮が可能であるが、基底の一般化ができないため任意の画像を符号化する場合基底ベクトルも同時に符号化する必要があるが、基底ベクトルひとつあたりの要素数が符号化対象画像の画素数と同じであるため、情報量は削減されない。
一方で画像特徴マップのグラム行列を符号化対象とすることで原画像のコンテキストをよく表現することが可能であるが、鮮明な画像を生成するために必要な数のグラム行列について、要素数の合計を画像の画素数より十分小さくすることは難しい。
本発明は、このような事情に鑑みてなされたもので、画像コンテキストを維持したまま符号量削減を行うことができる画像符号化方法、及び画像復号方法を提供することを目的とする。
本発明の一態様は、符号化対象画像を符号化する場合に、画像特徴を表すグラム行列を生成して符号化する画像符号化方法であって、前記符号化対象画像から複数の特徴マップを生成する特徴マップ生成ステップと、前記特徴マップ同士の演算により前記グラム行列を生成するグラム行列生成ステップと、前記グラム行列の特異値分解により代表ベクトルと代表係数値とを生成する代表ベクトル決定ステップと、前記代表係数値と前記代表ベクトルを符号化するベクトル符号化ステップと、を有する画像符号化方法である。
本発明により、画像コンテキストを維持したまま符号量削減を行うことができる。
以下、本発明の一実施形態における画像符号化装置100及び画像復号装置200について説明する。
[画像符号化装置の機能構成]
以下、図1を参照して、画像符号化装置100の機能構成について説明する。図1は、本発明の一実施形態における画像符号化装置100の構成を示すブロック図である。画像符号化装置100は、図1に示すように、画像入力部101と、特徴マップ生成部102と、グラム行列生成部103と、固有値分解部104と、代表ベクトル決定部105と、初期化パラメータ生成部106と、エントロピー符号化部107と、を備えている。
以下、図1を参照して、画像符号化装置100の機能構成について説明する。図1は、本発明の一実施形態における画像符号化装置100の構成を示すブロック図である。画像符号化装置100は、図1に示すように、画像入力部101と、特徴マップ生成部102と、グラム行列生成部103と、固有値分解部104と、代表ベクトル決定部105と、初期化パラメータ生成部106と、エントロピー符号化部107と、を備えている。
画像入力部101は、外部の装置から出力された、処理対象となる画像(以下、「符号化対象画像」という。)の入力を受け付ける。画像入力部101は、符号化対象画像を、特徴マップ生成部102、及び初期化パラメータ生成部106へそれぞれ出力する。
特徴マップ生成部102は、画像入力部101から出力された符号化対象画像を取得する。特徴マップ生成部102は、符号化対象画像から、特徴マップを生成する。特徴マップ生成部102は、生成された特徴マップをグラム行列生成部103へ出力する。
なお、ここでいう特徴マップとは、処理対象画像に対して、フィルタによってフィルタ処理が施された画像を示す。
グラム行列生成部103は、特徴マップ生成部102から出力された特徴マップを取得する。グラム行列生成部103は、特徴マップから、グラム行列を生成する。グラム行列生成部103は、生成されたグラム行列を固有値分解部104へ出力する。
なお、グラム行列とは正方行列Aが与えられたときに、その随伴行列A*とAを掛け合わせたA*Aのことである。
固有値分解部104は、グラム行列生成部103から出力されたグラム行列を取得する。固有値分解部104は、グラム行列から、固有値と固有ベクトルとを生成する。固有値分解部104は、生成された固有値と固有ベクトルとを代表ベクトル決定部105へ出力する。
代表ベクトル決定部105は、固有値分解部104から出力された固有値と固有ベクトルとを取得する。代表ベクトル決定部105は、固有値と固有ベクトルとから、代表係数値と代表ベクトルとを生成する。代表ベクトル決定部105は、生成された代表係数値と代表ベクトルとを、初期化パラメータ生成部106、及びエントロピー符号化部107へ出力する。
初期化パラメータ生成部106は、画像入力部101から出力された符号化対象画像を取得する。また、初期化パラメータ生成部106は、代表ベクトル決定部105から出力された代表係数値と代表ベクトルとを取得する。初期化パラメータ生成部106は、代表係数値と代表ベクトルと符号化対象画像とから、初期化パラメータを生成する。初期化パラメータ生成部106は、生成された初期化パラメータをエントロピー符号化部107へ出力する。
エントロピー符号化部107は、代表ベクトル決定部105から出力された代表係数値と代表ベクトルとを取得する。また、エントロピー符号化部107は、初期化パラメータ生成部106から出力された初期化パラメータを取得する。エントロピー符号化部107は、代表係数値と代表ベクトルと初期化パラメータとをエントロピー符号化する。エントロピー符号化部107は、生成された符号を外部の装置へ出力する。
[画像符号化装置の動作]
以下、図2を参照して、画像符号化装置100の動作について説明する。図2は、本発明の一実施形態における画像符号化装置100の動作を示すフローチャートである。
以下、図2を参照して、画像符号化装置100の動作について説明する。図2は、本発明の一実施形態における画像符号化装置100の動作を示すフローチャートである。
まず、画像入力部101は、符号化対象画像の入力を受け付ける(ステップS101)。次に、特徴マップ生成部102は、符号化対象画像から特徴マップを生成する(ステップS101)。
なお、特徴マップはどのような方法で生成されてもよい。例えば、特徴マップの生成において、例えば、エッジ抽出フィルタ、平滑化フィルタ、先鋭化フィルタ、又は統計フィルタ等の、線形又は非線形の任意のフィルタを使用することができる。また、使用されるフィルタの数及び組み合わせについても任意である。例えば、画像に線形フィルタを適用したものに対して、さらに、絶対値、ステップ関数、シグモイド関数、ソフトサイン、及びランプ関数等の非線形関数を適用したものを特徴マップとしてもよい。また、特徴マップの解像度は、入力画像の解像度と同じである必要はなく、入力画像の解像度より大きくても小さくてもよい。また、生成される特徴マップの数は、いくつであってもよい。
以下、説明を簡単にするため、符号化対象画像Iがn×nの二階のテンソルであるものとする。また、特徴マップ生成部102が、符号化対象画像Iにm個のフィルタfiを畳み込み、それぞれの結果に非線形関数gを適用したものを特徴マップとすることとして説明する。i番目の特徴マップfiは、以下の(2)式で表される。
また、特徴マップ生成部102は、生成された特徴マップに、さらに階層的に任意のフィルタを適用して、各階層における全ての結果又は一部の結果を特徴マップとしてもよい。階層的な畳込みにより得られる各階層の特徴マップは、一般に、上位の層ではディティールに関わる特徴が反映されたものとなり、下位の層では画像のコンテキストに関わる特徴が反映されたものになることが知られている。
また、特徴マップ生成部102が、符号化対象画像に対して任意の方法で第1層目の特徴マップを生成した上で、さらに符号化対象画像をダウンサンプリングしたものに対して同じ方法によって特徴マップを生成したものを第2層目の特徴マップとし、これらを任意の回数繰り返すことで特徴マップを生成するようにしてもよい。この方法によれば、画像の大域的な特徴をより良く捉えることができる(例えば、非特許文献2参照)。
次に、グラム行列生成部103は、特徴マップからグラム行列を生成する(ステップS103)。第L層の特徴マップ集合(特徴マップグループ)について、各特徴マップを1次元行ベクトルとし、これを縦に並べたものをFLとするとき、グラム行列GLの各要素は以下の(3)式で表される。
次に、固有値分解部104は、グラム行列から、固有値と固有ベクトルとを生成する(ステップS104)。グラム行列は、当該グラム行列の導出過程からも明らかなように実対称行列である。そのため、グラム行列は、必ず対角化が可能である。このとき、後の代表ベクトル決定部105によっては使用されない固有値と固有ベクトルとの組み合わせが存在しうるため、その場合、固有値と固有ベクトルとは生成されなくてもよい。
以下の(4)~(6)式のように、グラム行列Gは、固有値を対角に並べた行列Dと、固有ベクトルを列ベクトルとして横に並べた行列Vと、に分解可能である。
次に、代表ベクトル決定部105は、固有値と固有ベクトルとから、代表係数値と代表ベクトルとを生成する(ステップS105)。なお、代表係数値及び代表ベクトルの生成方法は任意である。最も単純な生成方法としては、例えば、代表ベクトル決定部105が、固有値の最も大きいものから順に少数の固有値と固有ベクトルとを選択し、これらを代表係数値と代表ベクトルとする方法がある。これにより、よりよく元のグラム行列を低ランク近似させることができる。
このとき、選択される代表係数値の数、及び代表ベクトルの数は、予め定められた数であってもよいし、代表係数値の分布から決定された数であってもよい。また、代表ベクトル決定部105は、実際に画像復号を行いながら、復号品質を最大化する最適な数を決定するようにしてもよい。k組の組み合わせが選択される場合、グラム行列は、代表係数値を対角成分にもつD^Lと代表ベクトルV^とLを用いて、以下の(7)~(9)式のように近似される。
また、異なる層の間においてグラム行列の要素数が同一である場合、全グラム行列について、共通の代表ベクトルが使用されることとしてもよい。例えば、非特許文献2に記載の方法でグラム行列が生成される場合、層が異なっていても特徴量自体の性質が類似するため、同じ基底ベクトルで効率よく表現することが可能である。
共通の代表ベクトルの導出は、どのような方法で行われてもよい。例えば、一方の固有ベクトルを共通の代表ベクトルとし、もう一方はそれに合わせて新たに係数値を導出し、当該系数値を上記代表ベクトルに対応する代表係数値としてもよい。例えば、第l層の代表ベクトルV^lとして第l-1層の代表ベクトルV^l-1を使用する場合、代表ベクトル決定部105は、第l層の代表係数値を対角成分に持つ行列D^lを、以下の(10)式の関係が成立するように選択する。
又は、一方の固有ベクトルを共通の代表ベクトルとし、もう一方は共通ベクトルに対する差分を代表ベクトルとしてもよい。
この場合、後述する画像復号装置200において、第l層のグラム行列が復元される際に、第l-1層の代表ベクトルに第l層の代表ベクトルが加算された上で使用される。
また、両者共通する基底ベクトルが別途求められてもよいし、共通ベクトルに対する差分値が各自符号化されてもよい。また、代表係数値も共通のものとしてもよいし、又は、共通のものに対する差分値を代表係数値としてもよい。対象画像にフラクタル性がある場合、層が異なっていて特徴量の性質が類似するため、類似の代表係数値で効率よく表現することが可能である。
また、異なる層の間でグラム行列の要素数が同一でない場合でも、一方の固有ベクトルのサブセットをもう一方の代表ベクトルに使用する等してもよい。その他にも任意の写像によってもう一方の代表ベクトルを生成することができる。
又は、部が映像のある1フレームである場合に、他の復号済みのフレームで使用された代表ベクトルが使用されることとしてもよいし、その差分が代表ベクトル(差分ベクトル)であってもよい。その場合、代表係数値も共通としてもよいし、差分を代表係数値としてもよい。又は、他の復号済みのフレームが一般の画像符号化方式で符号化されている場合は、改めてそこから固有ベクトルを導出し、これを部の代表ベクトル(予測代表ベクトル)としてもよいし、差分を代表ベクトル(差分ベクトル)としてもよい。
このように、代表係数値及び代表ベクトルの生成方法は、後述する画像復号装置200側で方法の特定が可能であれば、どのような方法であってもよい。また、生成方法を特定するために必要な情報(予測パラメータ)が、別途付加情報として符号化されてもよい。
なお、固有値分解部104と代表ベクトル決定部105とによる処理は、同時に行われてもよい。例えば、固有値分解部104が、固有値と固有ベクトルとを一組生成するたびに、代表ベクトル決定部105が近似を求め、さらに必要に応じて、固有値分解部104が固有値と固有ベクトルとをもう一組生成する等の処理である。
又は、異なる層の間でグラム行列の要素数が同一である場合、固有値分解部104が、複数のグラム行列を効率よく表現する代表ベクトルを導出するようにしてもよい。
初期化パラメータ生成部106は、代表係数値と代表ベクトルと符号化対象画像とから、初期化パラメータを生成する(ステップS106)。初期化パラメータは、後述する画像復号装置200が画像を復元する際の初期画像を生成するために必要な情報であるならば、どのようなものでもよいし、どのように決定されてもよい。例えば、ノイズによって初期画像を生成するものとした場合、初期化パラメータは、その生成パラメータでもよい。
又は、任意の初期画像そのもの、又は、初期画像を生成可能な画像を、初期化パラメータとしてもよい。例えば、符号化対象画像を任意のサイズにダウンサンプリングした画像を再度アップサンプリングしたものを初期画像とすることとした場合、ダウンサンプリングした画像を初期化パラメータとすることができる。この場合、アップサンプルパラメータを初期化パラメータに含めてもよい。又は、符号化対象画像の色空間を量子化したものを初期化パラメータとし、逆量子化したものを初期画像としてもよい。又は、符号化対象画像を任意の画像又は任意の映像符号化方法で圧縮した画像を初期化パラメータとし、復号された画像を初期画像としてもよい。その他、どのような画像が使用されてもよい。
又は、部が映像のある1フレームである場合に、他の復号済みのフレームを初期画像とするものとして、当該フレームを特定可能な情報を初期化パラメータとしてもよい。このとき、フレーム間の変化を表す情報が初期化パラメータにさらに含められるようにし、当該情報に基づいて初期画像が生成されることとしてもよい。例えば、フレーム間の動き情報を表すベクトルを初期化パラメータとした場合、それに従って変形させた復号済みのフレームを初期画像とすることができる。
又は、部に対して任意の低次元の特徴量を求め、後述する画像復号装置200側において当該特徴量に類似する画像を自由に選択させることとした場合、当該特徴量を初期化パラメータとしてもよい。この場合、特徴量として代表係数値と代表ベクトルとが使用される場合には、初期化パラメータが生成されなくても構わない。
なお、初期化パラメータを後述する画像復号装置200において特定できる場合、又は、後述する画像復号装置200において復号品質を制御しなくてもかまわない場合には、初期化パラメータは生成されなくてもよい。
エントロピー符号化部107は、代表係数値と代表ベクトルと初期化パラメータとをエントロピー符号化し、符号を出力する(ステップS107)。なお、上述したように初期化パラメータが生成されない場合は、エントロピー符号化部107は、初期化パラメータの符号化を行わず、代表係数値と代表ベクトルのみを符号化するようにしてもよい。
また、エントロピー符号化部107は、代表係数値と代表ベクトルと初期化パラメータとを直接符号化する代わりに、代表係数値と代表ベクトルと初期化パラメータとを特定可能な情報を符号化してもよい。当該情報とは、例えば、ルックアップテーブルに対するインデックス等である。
また、エントロピー符号化部107は、後述する画像復号装置200において画像を復元する際の最適化問題を指定するパラメータ、及び拘束条件を定義するパラメータを、付加情報として別途符号化してもよい。
以上説明したように、本発明の一実施形態における画像符号化装置100による画像符号化方法は、符号化対象画像を符号化する場合に、画像特徴を表すグラム行列を生成して符号化する画像符号化方法である。当該符号化方法は、前記符号化対象画像から複数の特徴マップを生成する特徴マップ生成ステップと、前記特徴マップ同士の演算により前記グラム行列を生成するグラム行列生成ステップと、前記グラム行列の特異値分解により代表ベクトルと代表係数値とを生成する代表ベクトル決定ステップと、前記代表係数値と前記代表ベクトルを符号化するベクトル符号化ステップと、を有する。
本発明の一実施形態における画像符号化装置100は、任意の符号化対象画像について、画像の特徴マップについてグラム行列を求め、これを近似する少数の代表値及び代表ベクトルを符号化対象とする。各層のグラム行列の要素数は、特徴マップの枚数をNとするときN2であるが、画像符号化装置100によれば、固有値分解を行うことで、各層のグラム行列を少ない数の固有ベクトルで表現可能、又は、複数の層のグラム行列をさらに少ない数の代表ベクトルで効率よく表現可能となる。
[画像復号装置の機能構成]
以下、図3を参照して、画像復号装置200の機能構成について説明する。図3は、本発明の一実施形態における画像復号装置200の構成を示すブロック図である。画像復号装置200は、図3に示すように、符号入力部201と、エントロピー復号部202と、グラム行列復元部203と、画像初期化部204と、画像復元部205と、を備えている。
以下、図3を参照して、画像復号装置200の機能構成について説明する。図3は、本発明の一実施形態における画像復号装置200の構成を示すブロック図である。画像復号装置200は、図3に示すように、符号入力部201と、エントロピー復号部202と、グラム行列復元部203と、画像初期化部204と、画像復元部205と、を備えている。
符号入力部201は、外部の装置から出力された、処理対象となる符号(以下、「復号対象符号」という。)の入力を受け付ける。符号入力部201は、復号対象符号を、エントロピー復号部202へ出力する。
エントロピー復号部202は、符号入力部201から出力された復号対象符号を取得する。エントロピー復号部202は、復号対象符号をエントロピー復号し、復号代表固有値と復号代表固有ベクトルと初期化パラメータとを生成する。エントロピー復号部202は、生成された復号代表固有値と復号代表固有ベクトルとをグラム行列復元部203に出力する。また、エントロピー復号部202は、生成された初期化パラメータを画像初期化部204に出力する。
グラム行列復元部203は、エントロピー復号部202から出力された復号代表固有値と復号代表固有ベクトルとを取得する。グラム行列復元部203は、復号代表固有値と復号代表固有ベクトルとから、復号グラム行列を生成する。グラム行列復元部203は、生成された復号グラム行列を画像復元部205へ出力する。
画像初期化部204は、エントロピー復号部202から出力された初期化パラメータを取得する。画像初期化部204は、初期化パラメータを使用して初期画像を生成する。画像初期化部204は、生成された初期画像を画像復元部205へ出力する。
画像復元部205は、グラム行列復元部203から出力された復号グラム行列を取得する。また、画像復元部205は、画像初期化部204から出力された初期画像を取得する。画像復元部205は、復号グラム行列と初期画像とから復号画像を生成する。画像復元部205は、生成された復号画像を外部の装置へ出力する。
[画像復号装置の動作]
以下、図4を参照して、画像復号装置200の動作について説明する。図4は、本発明の一実施形態における画像復号装置200の動作を示すフローチャートである。
以下、図4を参照して、画像復号装置200の動作について説明する。図4は、本発明の一実施形態における画像復号装置200の動作を示すフローチャートである。
まず、符号入力部201は、復号対象符号の入力を受け付ける(ステップS201)。次に、エントロピー復号部202は、復号対象符号をエントロピー復号し、復号代表固有値と復号代表固有ベクトルと初期化パラメータとを生成する(ステ
ップS202)。
ップS202)。
グラム行列復元部203は、復号代表固有値と復号代表固有ベクトルとから、復号グラム行列を生成する(ステップS203)。復号グラム行列の生成方法は、画像符号化装置100において、固有値と固有ベクトルとから、代表係数値と代表ベクトルを生成した方法に依存する。例えば、生成対象層の代表係数値が別の層の代表係数値に対する差分である場合、グラム行列復元部203は、両者を加算し、(両者の和を)対応する代表ベクトル(の復号値)として演算することで、対象層の復号グラム行列を生成する。その他、グラム行列復元部203は、上述したグラム行列の生成方法等、どのような生成方法を用いても構わない。また、生成方法を特定する情報が付加情報として符号化されている場合には、グラム行列復元部203は、当該情報を復号して用いるようにしてもよい。
画像初期化部204は、初期化パラメータを使用して初期画像を生成する(ステップS204)。初期画像の生成方法は、初期化パラメータの種類に依存する。例えば、初期化パラメータが符号化対象画像に対するダウンサンプリング画像である場合、画像初期化部204は、当該ダウンサンプリング画像をアップサンプリングして初期画像を生成する。その他、画像初期化部204は、上述した初期画像の生成方法等、どのような生成方法を用いても構わない。また、初期化パラメータが符号化されていない場合は、画像初期化部204は、その他の方法で初期化方法を特定して、初期化を行ってもよい。例えば、復号代表固有値及び復号代表固有ベクトルの統計情報毎に適した初期化方法を予め定義しておくことで、画像初期化部204は、この定義を利用して初期化方法を特定することができる。また、画像初期化部204は、全く自由に初期化を行ってもよい。
画像復元部205は、復号グラム行列と初期画像とから復号画像を生成し、出力する(ステップS205)。復号画像の生成においては、復号画像のグラム行列を復号グラム行列に近づけるような生成を行う。
例えば、最も単純な方法としては、以下の(12)式で表される最適化問題を解くことで復号画像を生成する。ここで、復号画像をI、画像から第l層目のグラム行列を生成する操作をφlとし、第l層目の復号グラム行列をG^lとする。
ここで、wlは、層ごとの重みである。wlは、予め定められた値であってもよい。又は、wlは、画像符号化装置100によって生成されて付加情報として符号化され、画像復号装置200において復号されたものであってもよい。また、画像に対するTotal Variation等の平滑化項がさらに追加されてもよい。
最適化の方法には、どのような方法が用いられてもよい。例えば、誤差逆伝搬法による逐次更新を繰り返す方法等が用いられてよい。
また、グラム行列から画像を生成するニューラルネットワークの学習を予め行い、これにより得られた学習モデルが使用されてもよい。
なお、固有値及び固有ベクトルは元の行列の相似である。そのため、グラム行列復元部203にが、復号グラム行列を生成せずに、復号代表固有値と復号代表固有ベクトルとを画像復元部205に直接入力し、画像復元部205が、復元画像のグラム行列について固有値分解を行いながら画像を復元するようにしてもよい。
以上説明したように、本発明の一実施期待における画像復号装置200による画像復号方法は、符号データから画像特徴を表すグラム行列を復号し、復号画像を生成する画像復号方法である。当該画像復号方法は、前記符号データから代表係数値と代表ベクトルを復号するベクトル復号ステップと、前記代表係数値と前記代表ベクトルからグラム行列を復号するグラム行列復号ステップと、前記グラム行列に基づき復号画像を復元する画像復元ステップと、を有する。
これにより、本発明の一実施形態における画像復号装置200は、代表値及び代表ベクトルから復元されたグラム行列を用いて、元の画像と類似したコンテキストを持つ画像を生成し復号画像とすることで、画像コンテキストを維持したまま符号量削減を行うことができる。
以上説明したように、上述した実施形態における画像符号化装置100は、任意の符号化対象画像について、画像の特徴マップについてグラム行列を求め、これを近似する少数の代表値及び代表ベクトルを符号化する。また、上述した実施形態における画像復号装置200は、代表値及び代表ベクトルから復元されたグラム行列を用いて、元の画像と類似したコンテキストを持つ画像を生成し復号画像とする。このような構成を備えることにより、上述した実施形態における画像符号化装置100及び画像復号装置200は、画像コンテキストを維持したまま符号量削減を行うことができる。
上述した実施形態における画像符号化装置100及び画像復号装置200を、コンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
また上記プログラムは、上述した機能の一部を実現するためのものであっても良く、さらに上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
また上記プログラムは、上述した機能の一部を実現するためのものであっても良く、さらに上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。
100・・・画像符号化装置、101・・・画像入力部、102・・・特徴マップ生成部、103・・・グラム行列生成部、104・・・固有値分解部、105・・・代表ベクトル決定部、106・・・初期化パラメータ生成部、107・・・エントロピー符号化部、200・・・画像復号装置、201・・・符号入力部、202・・・エントロピー復号部、203・・・グラム行列復元部、204・・・画像初期化部、205・・・画像復元部
Claims (9)
- 符号化対象画像を符号化する場合に、画像特徴を表すグラム行列を生成して符号化する画像符号化方法であって、
前記符号化対象画像から複数の特徴マップを生成する特徴マップ生成ステップと、
前記特徴マップ同士の演算により前記グラム行列を生成するグラム行列生成ステップと、
前記グラム行列の特異値分解により代表ベクトルと代表係数値とを生成する代表ベクトル決定ステップと、
前記代表係数値と前記代表ベクトルとを符号化するベクトル符号化ステップと、
を有する画像符号化方法。 - 前記特徴マップ生成ステップは、複数の特徴マップの集合である特徴マップグループを複数生成し、
前記グラム行列生成ステップは、前記特徴マップグループ毎に対応するグラム行列を生成し、
前記代表ベクトル決定ステップは、前記各グラム行列について対応する代表ベクトルと代表係数値の組を生成する
請求項1に記載の画像符号化方法。 - 前記代表ベクトル決定ステップは、全グラム行列について共通のベクトルを代表ベクトルとして決定し、前記各グラム行列において前記代表ベクトルに対応する代表係数値を決定する
請求項2に記載の画像符号化方法。 - 前記ベクトル符号化ステップは、ある組における前記代表ベクトルを他の代表ベクトルの演算によって予測して予測代表ベクトルを生成し、その演算を特定する予測パラメータと、前記予測代表ベクトルと前記代表ベクトルとの差分値である差分ベクトルを符号化する
請求項2に記載の画像符号化方法。 - 前記符号化対象画像から、画像復元の場合に使用する初期化パラメータを生成する初期化パラメータ生成ステップ
をさらに備え、
前記ベクトル符号化ステップは、前記代表係数値と前記代表ベクトルと共に前記初期化パラメータを符号化する
請求項1に記載の画像符号化方法。 - 符号データから画像特徴を表すグラム行列を復号し、復号画像を生成する画像復号方法であって、
前記符号データから代表係数値と代表ベクトルを復号するベクトル復号ステップと、
前記代表係数値と前記代表ベクトルからグラム行列を復号するグラム行列復号ステップと、
前記グラム行列に基づき前記復号画像を復元する画像復元ステップと、
を有する画像復号方法。 - 前記ベクトル復号ステップは、代表ベクトルと代表係数値の組を複数復号し、
前記グラム行列復号ステップは、前記代表ベクトルと前記代表係数値の各組に対応するグラム行列を生成し、
前記グラム行列復号ステップは、前記グラム行列の全てに基づき復号画像を復元する
請求項6に記載の画像復号方法。 - 前記ベクトル復号ステップは、ある組における前記代表ベクトルの符号化の際に、予測パラメータと差分ベクトルを復号し、他の代表ベクトルを前記予測パラメータに基づく演算によって予測して予測代表ベクトルを生成し、前記差分ベクトルと前記予測代表ベクトルとの和をその組の代表ベクトルの復号値とする
請求項7に記載の画像復号方法。 - 初期画像生成ステップ
をさらに備え、
前記ベクトル復号ステップは、符号データから代表係数値と代表ベクトルと共に初期化パラメータを復号し、
前記初期画像生成ステップは、初期化パラメータから初期画像を生成し、
前記画像復元ステップは、前記初期画像と前記グラム行列に基づき復号画像を生成する
請求項6に記載の画像復号方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/024865 WO2020261314A1 (ja) | 2019-06-24 | 2019-06-24 | 画像符号化方法、及び画像復号方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020261314A1 JPWO2020261314A1 (ja) | 2020-12-30 |
JP7168896B2 true JP7168896B2 (ja) | 2022-11-10 |
Family
ID=74061520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021528645A Active JP7168896B2 (ja) | 2019-06-24 | 2019-06-24 | 画像符号化方法、及び画像復号方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220360788A1 (ja) |
JP (1) | JP7168896B2 (ja) |
WO (1) | WO2020261314A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210279594A1 (en) * | 2020-03-06 | 2021-09-09 | Tencent America LLC | Method and apparatus for video coding |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111988629B (zh) | 2019-05-22 | 2024-02-09 | 富士通株式会社 | 图像编码装置和图像解码装置 |
JPWO2022225025A1 (ja) * | 2021-04-23 | 2022-10-27 | ||
AU2022202474A1 (en) * | 2022-04-13 | 2023-11-02 | Canon Kabushiki Kaisha | Method, apparatus and system for encoding and decoding a tensor |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190141353A1 (en) | 2017-11-09 | 2019-05-09 | Boe Technology Group Co., Ltd. | Image compression/decompression method and device, and image processing system |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0814562D0 (en) * | 2008-08-08 | 2008-09-17 | Qinetiq Ltd | Processing for coded aperture imaging |
US8433148B2 (en) * | 2011-03-31 | 2013-04-30 | Mitsubishi Electric Research Laboratories, Inc. | Method for compressing textured images |
US20190095787A1 (en) * | 2017-09-27 | 2019-03-28 | Hsiang Tsung Kung | Sparse coding based classification |
-
2019
- 2019-06-24 WO PCT/JP2019/024865 patent/WO2020261314A1/ja active Application Filing
- 2019-06-24 US US17/621,550 patent/US20220360788A1/en active Pending
- 2019-06-24 JP JP2021528645A patent/JP7168896B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190141353A1 (en) | 2017-11-09 | 2019-05-09 | Boe Technology Group Co., Ltd. | Image compression/decompression method and device, and image processing system |
Non-Patent Citations (4)
Title |
---|
Ken Nakanishi et al.,Neural Multi-scale Image Compression,arXiv,2018年05月16日,pp.1-15,http://arxiv.org/abs/1805.06386 |
Leon A. Gatys, Alexander S. Ecker and Matthias Bethge,Image Style Transfer Using Convolutional Neural Networks,Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2016年,pp.2414-2423 |
Peter Hoff,Kernel PCA,2018年02月08日,pp.1-14,http://www2.stat.duke.edu/~pdh10/Teaching/832/Notes/kpca.pdf |
Shin Matsuo and Keiji Yanai,CNN-based Style Vector for Style Image Retrieval,ICMR’16,ACM,2016年06月,pp.309-312 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210279594A1 (en) * | 2020-03-06 | 2021-09-09 | Tencent America LLC | Method and apparatus for video coding |
US11948090B2 (en) * | 2020-03-06 | 2024-04-02 | Tencent America LLC | Method and apparatus for video coding |
Also Published As
Publication number | Publication date |
---|---|
WO2020261314A1 (ja) | 2020-12-30 |
US20220360788A1 (en) | 2022-11-10 |
JPWO2020261314A1 (ja) | 2020-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7168896B2 (ja) | 画像符号化方法、及び画像復号方法 | |
Cheng et al. | Deep convolutional autoencoder-based lossy image compression | |
EP3846476B1 (en) | Image data processing | |
US11593632B2 (en) | Deep learning based on image encoding and decoding | |
Zhao et al. | Multiple description convolutional neural networks for image compression | |
EP3799431B1 (en) | Preprocessing image data | |
US11983906B2 (en) | Systems and methods for image compression at multiple, different bitrates | |
CN110024391B (zh) | 用于编码和解码数字图像或视频流的方法和装置 | |
US11394966B2 (en) | Video encoding and decoding method and apparatus | |
Sun et al. | Dictionary learning for image coding based on multisample sparse representation | |
Zafari et al. | Attention-based generative neural image compression on solar dynamics observatory | |
Tolambiya et al. | Relevance vector machine with adaptive wavelet kernels for efficient image coding | |
Al-Khafaji et al. | Grey-Level image compression using 1-d polynomial and hybrid encoding technique | |
JP7401822B2 (ja) | 画像符号化方法、画像符号化装置及びプログラム | |
Akbari et al. | Downsampling based image coding using dual dictionary learning and sparse representations | |
Petrov et al. | Intra frame compression and video restoration based on conditional markov processes theory | |
AL-Khafaji et al. | Adaptive polynomial coding of multi-base hybrid compression | |
Prantl | Image compression overview | |
US20220321879A1 (en) | Processing image data | |
US20240223762A1 (en) | A method, an apparatus and a computer program product for video encoding and video decoding | |
JP7453561B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム | |
Dumitrescu et al. | Image compression and noise reduction through algorithms in wavelet domain | |
JP7075012B2 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
JP7265114B2 (ja) | 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム | |
WO2022229495A1 (en) | A method, an apparatus and a computer program product for video encoding and video decoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7168896 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |