JP6985609B2 - 符号化装置、画像補間システム及び符号化プログラム - Google Patents

符号化装置、画像補間システム及び符号化プログラム Download PDF

Info

Publication number
JP6985609B2
JP6985609B2 JP2018097426A JP2018097426A JP6985609B2 JP 6985609 B2 JP6985609 B2 JP 6985609B2 JP 2018097426 A JP2018097426 A JP 2018097426A JP 2018097426 A JP2018097426 A JP 2018097426A JP 6985609 B2 JP6985609 B2 JP 6985609B2
Authority
JP
Japan
Prior art keywords
image
auxiliary information
network
coding
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018097426A
Other languages
English (en)
Other versions
JP2019205010A (ja
Inventor
翔太 折橋
忍 工藤
正樹 北原
淳 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018097426A priority Critical patent/JP6985609B2/ja
Priority to US17/057,006 priority patent/US11350134B2/en
Priority to PCT/JP2019/018635 priority patent/WO2019225344A1/ja
Publication of JP2019205010A publication Critical patent/JP2019205010A/ja
Application granted granted Critical
Publication of JP6985609B2 publication Critical patent/JP6985609B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、符号化装置、画像補間システム及び符号化プログラムに関する。
映像データを圧縮符号化するための標準規格として、MPEG−4やH.264/AVC、H.265/HEVC(以下、「HEVC」という。)が知られている。また、HEVCに次ぐ新たな規格の標準化も検討が進められている。これらの映像圧縮符号化規格では、画像を矩形のブロックに分割した単位で処理を行い、予測対象ブロックに隣接する予測ブロックを参照して予測対象ブロックの画素値を予測し、予測残差信号のみを送信する予測符号化方式が採用されている。以下、HEVCを例に、フレーム内に閉じて画素信号の予測を行うイントラ予測符号化の方法を述べる。
HEVCでは、図17に示すように画面全体を64画素×64画素(以下、「64×64」という。)のブロックに区切り、各ユニットをCTU(Coding Tree Unit)として定義する。CTUは、CU(Coding Unit)と呼ばれる4つの正方形に分割することができ、これを再帰的に処理することで、細かなブロックに分割を行う。HEVCでは、CUのサイズは64×64、32×32、16×16及び8×8の4種類を用いることができ、このCUをさらに分割したPU(Prediction Unit)と呼ばれる単位で予測処理を行う。イントラ予測の場合、CUを4つの正方形に分割するか否かの2通りのPUを用いることができる。各PUは35種類の予測パラメータを選択的に適用可能であり、例えば原画像との予測残差信号が最小となる予測パラメータを符号化側で選択し、予測パラメータ及び予測残差信号を復号側に送信する。
HEVCでは、予測方式はPlanar予測、DC(Direct Current;直流成分)予測及び方向性予測の3種類から選択可能であり、方向性予測には33の予測パラメータが割り当てられていることから、予測パラメータの総数は35である。各予測方式は、図18に示すように、予測対象ブロックの左及び上に位置する参照画素の画素値を用いて予測を行い、方向性予測では、定義された33方向から1つの方向を参照方向として選択し、参照方向の画素値を参照ブロックに割り当てることで、予測対象ブロックの予測画素を生成する。Planar予測では、予測対象ブロックの左下、右上、予測対象画素の左、上の4画素を参照し、それらの重み付き平均として予測対象ブロック内の各画素を予測する。DC予測では、予測対象ブロックの左及び上に位置する参照画素の平均として、予測対象ブロックの予測値を単一に生成する。
このように、上記の各予測方式は、参照可能な画素を参照し、上記のような単純な予測ルールに基づいて予測を行うが、例えば画面内に高周波成分が無作為に分布する画像では予測効率が低下するという課題がある。このような画像に対しても主観品質を保持したまま符号量を削減する圧縮符号化を実現するための方法として、擬似的に画像を再構成する処理方式を導入する方法が考えられる。
非特許文献1に記載の技術によれば、畳み込みニューラルネットワークにより構成される補間ネットワークと、畳み込みニューラルネットワークにより構成され補間ネットワークが補間した補間画像と補間されていない真の画像を識別する識別ネットワークの2つのネットワークを、敵対的生成ネットワークの枠組みに倣って交互に学習する。これにより、補間ネットワークが、画像の欠損領域を擬似的に再構成できるようになる。
S.Iizuka, E.Simo-Serra, H.Ishikawa, "Globally and Locally Consistent Image Completion", ACM Transactions on Graphics, Vol.36, No.4, July 2017
しかしながら、非特許文献1に記載の技術による構成では、補間すべき欠損領域の面積が大きくなるほど、補間ネットワークに入力される情報量が少なくなるため、画像補間処理における欠損領域の推定が困難となり、出力画像の主観画質が劣化する。また、上記の構成では、補間すべき欠損領域に、参照可能な領域から推論できない複雑な要素が含まれていた場合に、出力画像の主観画質が劣化する。
上記事情に鑑み、本発明は、主観画質の劣化を抑制しつつ画像補間処理を実行することができる技術の提供を目的としている。
本発明の一態様は、画像を符号化する符号化装置であって、第一の画像に含まれる、所定の条件に合致する領域を取得する領域取得部と、前記第一の画像と、取得された領域と、前記第一の画像から前記取得された領域が除かれた領域と、を関連付けることで、第二の画像を得る画像取得部と、前記第二の画像を符号化する符号化部と、を備える符号化装置である。
また、本発明の一態様は、上記の符号化装置であって、前記第一の画像と前記取得された領域とを入力として画像補間を補助する情報である補助情報を出力する補助情報抽出ネットワークと、前記補助情報を入力として補助情報参照による第一の中間画像を出力する補助情報参照ネットワークと、前記取得された領域が除かれた領域と前記取得された領域とを入力として欠損画像参照による第二の中間画像を出力する欠損画像参照ネットワークと、前記第一の中間画像と前記第二の中間画像とを入力として前記第二の画像を出力する再構成ネットワークと、を更に備える。
また、本発明の一態様は、上記の符号化装置であって、前記第一の画像と欠損画像参照ネットワークから出力された第二の中間画像との差分画像と、前記取得された領域と、を入力として画像補間を補助する情報である補助情報を出力する補助情報抽出ネットワークと、前記補助情報を入力として補助情報参照による第一の中間画像を出力する補助情報参照ネットワークと、前記取得された領域が除かれた領域と前記取得された領域とを入力として欠損画像参照による前記第二の中間画像を出力する前記欠損画像参照ネットワークと、前記第一の中間画像と前記第二の中間画像とを入力として前記第二の画像を出力する再構成ネットワークと、を更に備える。
また、本発明の一態様は、上記の符号化装置であって、前記欠損画像参照ネットワークは、前記第二の中間画像と前記第一の画像との画素誤差を最小化するように、前記第二の中間画像についての学習パラメータの学習を行う。
また、本発明の一態様は、上記の符号化装置であって、前記補助情報抽出ネットワークは、前記補助情報参照ネットワークによって出力される第一の中間画像と第一の画像との画素誤差を最小化するように、前記補助情報についての学習パラメータの学習を行う。
また、本発明の一態様は、上記の符号化装置であって、前記補助情報参照ネットワークは、前記第一の中間画像と前記第一の画像との画素誤差を最小化するように、前記第一の中間画像についての学習パラメータの学習を行う。
また、本発明の一態様は、第一の画像を補間する画像補間システムであって、第二の画像と、前記第二の画像に含まれる所定の条件に合致する領域である合致領域と、前記第二の画像から前記合致領域を除いた領域と、を関連付けることで、前記第一の画像及び補助情報を得る取得部と、前記補助情報を用いて前記第一の画像を補間し、前記第二の画像に近似する画像を得る補間部と、を有する画像補間システムである。
また、本発明の一態様は、上記の符号化装置としてコンピュータを機能させるための符号化プログラムである。
本発明により、主観画質の劣化を抑制しつつ画像補間処理を実行することができる。
第1の実施形態に係る符号化装置10による処理の流れを示すフローチャートである。 第1の実施形態に係る符号化装置10の機能構成を示すブロック図である。 第1の実施形態に係る復号装置20による処理の流れを示すフローチャートである。 第1の実施形態に係る復号装置20の機能構成を示すブロック図である。 第2の実施形態に係る符号化装置30の機能構成を示すブロック図である。 第2の実施形態に係る復号装置40の機能構成を示すブロック図である。 従来技術に係る符号化装置50及び復号装置60による処理の流れを示すフローチャートである。 従来技術に係る符号化装置50及び復号装置60の機能構成を示すブロック図である。 第3の実施形態に係る符号化装置70及び復号装置80による処理の流れを示すフローチャートである。 第3の実施形態に係る符号化装置70及び復号装置80の機能構成を示すブロック図である。 第3の実施形態に係る符号化装置70及び復号装置80によるネットワークの構成を示すブロック図である。 第3の実施形態に係る符号化装置70及び復号装置80による学習処理の流れを示すフローチャートである。 第3の実施形態に係る欠損画像参照ネットワーク学習処理におけるネットワークの構成を示すブロック図である。 第4の実施形態に係る符号化装置70及び復号装置80によるネットワークの構成を示すブロック図である。 第4の実施形態に係る符号化装置70及び復号装置80によるネットワークの構成を示すブロック図である。 第4の実施形態に係る補助情報抽出/参照ネットワーク学習処理におけるネットワークの構成を示すブロック図である。 HEVC画面内予測のブロック分割の構成を説明するための模式図である。 HEVCにおけるイントラ予測の構成を説明するための模式図である。
以下、HEVCのイントラ予測符号化との併用を例に、本発明の実施形態について説明するが、本発明はHEVCならびにイントラ予測に限定されるものではない。つまり、本発明は、HEVC以外の画像符号化方式ならびにインター予測に対しても適用できるものである。
本発明では、HEVCのCTUやCU等のブロック毎に符号化側で再構成対象とするか非再構成対象とするかを判定し、再構成対象と判定されたブロック(以下、再構成対象ブロック)から補助情報を抽出し送信する。ここで、再構成とはTexture合成や画像の補間合成処理等によって、画像の着目領域に適合する擬似的な画像を生成する処理を指す。なお、ここでいう擬似的な画像とは、例えば、入力画像と比較して、主観的な観点から差異を感じ辛い画像のことである。
また、再構成対象ブロックには、HEVCのイントラ予測で予測残差の情報量が小さくなるよう、ブロック全体に均一な画像処理を施して、HEVC符号化器に入力する。言い換えると、HEVCでは予測精度が低いブロックや、一定の精度の主観画質を確保できれば符号化前の画像の画素を正確に再現する必要が少ない被写体に係るブロックを、再構成対象ブロックとし、HEVCが予測しやすい画素で構成させるようにすることで所望の画質を保ったまま符号化に要する符号量の低減を図る。復号側では、ブロック全体に均一な画像処理が施されているか否かを判定することにより、再構成対象ブロックを判別する。
<第1の実施形態>
以下、第1の実施形態について、図面を参照しながら説明する。
[符号化装置の処理]
まず、本発明による符号化装置の処理について説明する。
図1に、本発明の第1の実施形態における符号化装置の処理フローを示す。
ブロック分割処理は、入力ピクチャから符号化処理ブロックの形状を決定する(ステップS101)。出力されるブロック分割の形状は、図17に示したようなCTU、CU及びPUに倣い、このブロックを復号側の再構成処理の単位かつHEVC符号化処理の単位とする。
分割形状の決定方法としては、CTUのように均一の矩形として決定する方法のほか、HEVCテストモデル(HM;HEVC Test Model)に実装されるようなレート歪最適化により決定されるCU分割形状として決定する方法、又は、画像認識で用いられる物体毎に領域分割を実行した結果をブロック単位で近似したものとして決定する方法等を用いることができる。
符号化方式判定処理は、ブロック分割処理により分割されたブロック単位で、再構成対象ブロックとするか又は非再構成対象ブロックとするかを判定する(ステップS102)。なお、判定方法としては、例えば、再構成対象とする場合と非再構成対象とする場合とで、推定発生符号量ならびに推定歪量をそれぞれ導出し、レート歪最適化を適用することで判定する方法を用いることができる。
再構成対象ブロックとして判定された場合(ステップS103・Yes)、補助情報抽出処理により、再構成処理を補助するために復号装置へ送信する補助情報を、再構成対象ブロックから抽出する(ステップS104)。なお、再構成処理とは、再構成対象のブロックに対し、後述するような何らかの変換を施したブロックを、復号側で逆変換する処理のことである。なお、補助情報抽出処理は、例えば画像合成により再構成対象ブロックを合成することによって再構成する場合には、合成時に使用する代表Texture又は物体を識別したラベル等を補助情報として抽出する。
抽出された補助情報は、補助情報エントロピー符号化処理によりエントロピー符号化され、補助情報の符号化データとなる。なお、補助情報エントロピー符号化処理には、例えばハフマン符号化又はランレングス符号化等の任意の符号化方法を用いることができる(ステップS105)。
補助情報が抽出された後の再構成対象ブロックは、画像変換処理により、HEVCでより少ない符号量で送信可能な画像に変換される(ステップS106)。なお、画像変換処理は、例えば再構成対象ブロックを当該ブロックの平均値に置き換えてもよいし、HEVCイントラ方向性予測において任意又は特定のモード番号で予測した場合の予測残差がゼロに漸近するような変換を施してもよい。
また、変換に用いたHEVCイントラ予測のモード番号を、補助情報の一部として復号側に送信してもよく、HEVCイントラ予測の特定のモード番号と復号側での再構成処理の方法とを対応付けて画像変換を行い、その対応関係を補助情報の一部として復号側へ送信してもよい。
例えば、Texture合成を再構成処理とする場合、イントラ予測モード番号と代表Textureとを対応付けて、その対応関係を補助情報として復号側へ送信してもよい。また、画像変換の方法は、HEVCイントラ予測に基づく変換以外の方法でもよい。入力ピクチャに存在しない出力を得ることができる任意の変換方法を、画像変換処理の過程で定義又は事前に定義したものから選択し、その変換方法を補助情報として復号側へ送信してもよい。
変換後の画像(以下、「変換後画像」という。)は、変換後画像イントラ符号化処理で符号化し、変換後画像の符号化データを得る(ステップS107)。
上記の処理を、全てのブロックに対して処理順に適用し(ステップS108及びステップS109)、送信情報として補助情報の符号化データならびに変換後画像の符号化データを得る。
[符号化装置の構成例]
次に、上記の処理を実現するための符号化装置の構成例について説明する。
図2に、第1の実施形態における符号化装置10の構成例を示す。図示するように、符号化装置10は、ブロック分割部101と、符号化方式判定部102と、補助情報抽出部103と、補助情報エントロピー符号化部104と、画像変換部105と、イントラ予測部107と、変換/量子化部108と、エントロピー符号化部109と、逆量子化/逆変換部110と、予測用メモリ111と、を含んで構成される。
ブロック分割部101は、入力ピクチャを入力として、ブロック分割処理を行う。ブロック分割部101は、ブロック分割された入力ピクチャを出力する。
符号化方式判定部102は、ブロック分割された入力ピクチャを入力として、符号化方式判定処理を行う。符号化方式判定部102は、ブロックの符号化方式の判定結果を出力する。
補助情報抽出部103は、再構成対象ブロック及び参照ブロックを入力として、補助情報抽出処理を行う。参照ブロックは、再構成処理で参照すべき画素を含むブロックであり、例えば再構成処理として画像の補間合成を用いる場合、補間処理で参照する画素を含むブロックである。補助情報抽出部103は、補助情報を出力する。
補助情報エントロピー符号化部104は、入力された補助情報に対してエントロピー符号化を行い、補助情報の符号化データを得る。補助情報エントロピー符号化部104は、補助情報の符号化データを出力する。
画像変換部105は、再構成対象ブロックを入力として、画像変換処理を行う。画像変換部105は、変換後ブロックを出力する。
変換後ブロック及び非再構成対象ブロックは、イントラ符号化により符号化される。イントラ符号化では、イントラ予測部107から出力される予測画像との予測残差が、変換/量子化部108により直行変換及び量子化され、エントロピー符号化部109により符号化される。これにより、画像の符号化データが得られる。
なお、本実施形態においては、上記予測残差を符号化するエントロピー符号化部109と補助情報を符号化する補助情報エントロピー符号化部104とが別々の機能ブロックである構成としたが、これらが同一の機能ブロックで構成されてもよい。すなわち、1つの符号化部によって、例えば共通のエントロピー符号化方式で、上記予測残差の符号化及び補助情報の符号化が行われる構成であってもよい。
変換/量子化部108により量子化された予測残差は、逆量子化/逆変換部110により逆量子化及び逆変換の処理がなされ、予測用メモリ111に蓄積される。予測用メモリ111に蓄積されたデータは、イントラ予測部107によるイントラ予測処理、及び、補助情報抽出部103による補助情報報抽出処理に用いられる。
[復号装置の処理]
次に、上記の処理方法及び機能構成によって生成された符号化データから画像を復号する復号装置の処理について説明する。
図3に、第1の実施形態における復号装置の処理フローを示す。
変換後画像復号処理は、変換後画像の符号化データを復号し、変換後画像の復号画像のブロックを得る(ステップS201)。なお、復号画像は、入力画像に相当する単位の画像でもよいし、入力画像がブロック化されたブロックに相当する単位の画像でもよい。以下の各処理では、復号画像は、ブロックに相当する単位の画像であるものとして説明を続ける。
符号化方式判定処理は、符号化装置10の画像変換部105によって用いられた画像変換方法で変換されたブロックを、再構成対象ブロックとして判定する(ステップS202)。例えば、符号化装置10の画像変換部105が再構成対象ブロックを平均値で均一に置き換える処理を行う場合、符号化方式判定処理は、変換後画像の復号画像から得たブロックに対して、当該処理がなされたブロックを再構成対象ブロックとして判定する。
再構成対象ブロックに対しては(ステップS203・Yes)、符号化方式判定処理は、符号化装置10の補助情報エントロピー符号化部104で適用した符号化方式に基づき、当該再構成対象ブロックに対応する補助情報の符号化データを復号する(ステップS204)。
再構成処理は、補助情報と当該再構成対象ブロックが参照できる参照ブロックとを入力として、再構成処理を行う(ステップS205)。
上記の処理を、全てのブロックに対して処理順に適用し(ステップS206及びステップS207)、最終的な復号画像を得る。
[復号装置の構成例]
次に、上記の処理を実現するための復号装置の構成例について説明する。
図4に、第1の実施形態における復号装置20の構成例を示す。図示するように、復号装置20は、エントロピー復号部201と、逆変換/逆量子化部202と、イントラ予測部203と、予測用メモリ204と、再構成部205と、符号化方式判定部206と、補助情報エントロピー復号部207と、を含んで構成される。
変換後画像の符号化データは、HEVCにより復号される。HEVCによる復号では、まず変換後画像の符号化データがエントロピー復号部201によりエントロピー復号され、逆変換/逆量子化部202により逆変換及び逆量子化の処理が施される。これにより、予測残差画像が復号され、イントラ予測部203による予測結果が加算されることで、変換後画像の復号画像のブロックが得られる。
復号された変換後画像は、予測用メモリ204に蓄積されて、イントラ予測部203及び再構成部205への入力として用いられる。
符号化方式判定部206は、変換後画像の復号画像のブロックを入力とし、符号化方式判定処理を行い、判定結果を出力する。
補助情報エントロピー復号部207は、入力された補助情報の符号化データに対してエントロピー復号を行い、補助情報を得る。補助情報エントロピー復号部207は、補助情報を再構成部205へ出力する。
再構成部205は、補助情報、再構成対象ブロックが参照できる参照画素及び再構成対象ブロックを入力として再構成処理を行い、最終的な出力ピクチャを出力する。
以上説明したように、上記実施形態に係る符号化方法及び復号方法では、従来技術とは異なり、入力画像に対し、処理ブロックの単位で再構成対象とするか又は非再構成対象とするかに分類して、再構成処理を適用する。上記実施形態に係る符号化方法及び復号方法は、ブロック単位で処理を行うことに制約することによって、境界情報を送信する際の符号量を少なくすることができる。上記実施形態に係る符号化方法及び復号方法は、例えば再構成対象ブロック内を平均値で置き換えるという規則を符号化装置10と復号装置20との間で共有させることにより、境界情報を送信することなく再構成対象ブロック位置の特定を実現することができる。
従来、任意の形状で再構成対象を指定できる一方で、領域毎に、再構成対象であるか否かの情報及び再構成の方法を復号側に補助情報として送信する必要があった。これにより、従来、補助情報の符号量が多くなるという課題があった。一方、上記実施形態に係る符号化方法及び復号方法では、ブロック毎に再構成対象ブロックを指定し、指定された再構成対象ブロックに対して、符号化側でより少ない符号量でHEVCによって符号化できる処理(例えば、ブロック全体を平均値に置き換える処理)を施し、復号側で当該処理の有無を判定する処理を施す。これにより、上記実施形態に係る符号化方法及び復号方法では、補助情報として境界情報を復号側へ送信しなくても、復号側で再構成ブロックを判定することができる。また、HEVCのモード番号と再構成の方法とを関連付けることにより、再構成の方法も復号側へ同時に送信することができる。
<第2の実施形態>
以下、第2の実施形態について、図面を参照しながら説明する。以下に説明する第2の実施形態では、上述した第1の実施形態に対して、符号化装置及び復号装置の構成が異なる。
[符号化装置の構成例]
第2の実施形態における符号化装置30の構成を図5に示す。図示するように、符号化装置30は、前処理装置31と、従来型符号化装置32と、から構成される。前処理装置31は、ブロック分割部301と、符号化方式判定部302と、補助情報抽出部303と、補助情報エントロピー符号化部304と、画像変換部305と、変換後画像メモリ306と、を含んで構成される。従来型符号化装置32は、イントラ予測部307と、変換/量子化部308と、エントロピー符号化部309と、逆量子化/逆変換部310と、予測用メモリ311と、を含んで構成される。
図5に示すように、第2の実施形態における符号化装置30と第1の実施形態における符号化装置10との違いは、ブロック分割部、符号化方式判定部、画像変換部、補助情報抽出部及びエントロピー符号化部を備える装置が、前処理装置31として、その他の構成部(すなわち、従来型の符号化装置が備える構成部)とは独立して備えられる点である。
この場合、図5に例示した構成のように、変換後画像メモリ306に変換後画像が蓄積され、補助情報抽出部303が変換後画像メモリ306に蓄積された変換後画像を参照する構成であってもよい。前処理装置31に含まれる構成部以外の構成部は、従来型符号化装置32として独立して構成される。従来型符号化装置32として、例えば、HEVCのイントラ符号化装置のほか、JPEG(Joint Photographic Experts Group)等の画像符号化標準に則った符号化装置等を用いることができる。
なお、符号化装置30の処理の流れは図1に示した処理フローと共通であるため、説明を省略する。
[復号装置の構成例]
次に、第2の実施形態における復号装置40の構成を図6に示す。図示するように、復号装置40は、従来型復号装置41と、後処理装置42と、から構成される。従来型復号装置41は、エントロピー復号部401と、逆変換/逆量子化部402と、イントラ予測部403と、予測用メモリ404と、を含んで構成される。後処理装置42は、再構成部405と、符号化方式判定部406と、補助情報エントロピー復号部407と、を含んで構成される。
図6に示すように、第2の実施形態における復号装置40と第1の実施形態における復号装置20との違いは、符号化方式判定部、補助情報エントロピー復号部、再構成部を備える装置が、後処理装置42として、その他の構成部(すなわち、従来型の復号装置が備える構成部)とは独立して備えられる点である。
この場合、図6に例示した構成のように、出力ピクチャメモリ408に出力ピクチャが蓄積され、再構成部405が出力ピクチャメモリ408に蓄積された出力ピクチャを参照する構成であってもよい。後処理装置42に含まれる構成部以外の構成部は、従来型復号装置41として独立して構成される。
なお、復号装置40の処理の流れは図3に示した処理フローと共通であるため、説明を省略する。
以上説明した第2の実施形態に係る符号化方法及び復号方法によれば、従来の符号化装置及び復号装置と併用が可能な、前処理装置31及び後処理装置42を実現することができる。これにより、標準規格と、前処理装置31及び後処理装置42とにおいて、符号化効率の改善が加算的となるため、第2の実施形態に係る符号化方法及び復号方法によれば、標準規格に基づく符号化装置が高効率化した場合に、符号化装置30全体の符号化効率を改善できる。
以下、再構成対象ブロックを、機械学習を用いた画像の補間合成処理により復号側で再構成する手段について説明する。当然、本手段を上記第1及び第2の実施形態において用いることは可能である。
<第3の実施形態>
以下、第3の実施形態について、図面を参照しながら説明する。
上述したように、HEVCにおいて選択可能な各予測方式(Planar予測、DC予測及び方向性予測)は参照可能な画素を参照し、単純な予測ルールに基づいて予測を行うが、例えば画面内に高周波成分が無作為に分布する画像では予測効率が低下するという課題がある。このような画像では、予測残差信号の情報量が多くなるため、予測残差信号の量子化幅を一定として符号化した場合、符号量が過剰に発生する。
このような画像に対しても主観品質を保持したまま符号量を削減する圧縮符号化を実現する方法として、予測方式の高精度化以外に、上記の予測とは異なり、擬似的に画像を再構成する処理方式を導入する方法が考えられる。
非特許文献1に記載の技術(以下、「従来技術1」という。)によれば、畳み込みニューラルネットワークにより構成される補間ネットワークと、畳み込みニューラルネットワークにより構成され補間ネットワークが補間した補間画像と補間されていない真の画像を識別する識別ネットワークの2つのネットワークを、敵対的生成ネットワークの枠組みに倣って交互に学習することで、補間ネットワークが画像の欠損領域を擬似的に再構成できるようになる。
従来技術1の補間ネットワークを復号側に適用することで、上述の予測効率が低下する画像の領域に対し復号側で画像を再構成でき、再構成領域の送信が不要になることから、符号量を削減することができる。
[補間ネットワークを用いた画像符号化、復号処理の例]
補間ネットワークを用いた画像符号化、復号処理の例を図7に示す。
画像欠損処理は、入力画像から画像補間により復号側で再構成対象とする領域を選択し、欠損させて欠損画像を生成し、欠損領域を示す欠損領域情報とともに出力する(ステップS301)。ここで、欠損領域情報は欠損領域を示す2値画像等である。
欠損領域情報符号化処理は、欠損領域情報を復号側に送信するため、欠損領域情報を符号化する処理を、JPEG(Joint Photographic Experts Group)やHEVC等の従来の画像符号化方式や、ランレングス符号化等のエントロピー符号化方式により行う。これにより、欠損領域情報符号化処理は、欠損領域情報の符号化データを得る(ステップS302)。
画像符号化処理は、欠損画像をJPEGやHEVC等の従来の画像符号化方式を用いて符号化処理を行う。これにより、画像符号化処理は、欠損画像の符号化データを得る(ステップS303)。
画像復号処理は、欠損画像の符号化データから復号済み欠損画像を得る(ステップS304)。
欠損領域情報復号処理は、欠損領域情報の符号化データから、欠損領域情報を得る(ステップS305)。
画像補間処理は、従来技術1の補間ネットワークに対し、復号済み欠損画像と欠損領域情報とを入力し、最終的な出力画像を得る。なお、符号化処理及び復号処理の処理単位は、画面全体としてもよいし、HEVCのCTUのような構造を用いて画面を分割したブロック単位としてもよい(ステップS306)。
[符号化装置及び復号装置の構成例]
上記の符号化処理及び復号処理を実現する符号化装置50及び復号装置60の構成例を、図8に示す。図示するように、符号化装置50は、画像欠損処理部501と、画像符号化部502と、欠損領域情報符号化部503と、から構成される。
画像欠損処理部501は、入力画像を入力とし、画像欠損処理を行う。これにより、画像欠損処理部501は、欠損画像と欠損領域情報を出力する。
画像符号化部502は、欠損画像を入力とし、画像符号化処理を行う。これにより、画像符号化部502は、欠損画像の符号化データを出力する。
欠損領域情報符号化部503は、欠損領域情報を入力とし、欠損領域情報符号化処理を行う。これにより、欠損領域情報符号化部503は、欠損領域情報の符号化データを出力する。
欠損画像の符号化データならびに欠損領域情報の符号化データは、復号装置60に送信される。
図8に示すように、復号装置60は、画像復号部601と、欠損領域情報復号部602と、画像補間部603と、から構成される。
画像復号部601は、欠損画像の符号化データを入力とし、画像復号処理を行う。これにより、画像復号部601は、復号済み欠損画像を得る。
欠損領域情報復号部602は、欠損領域情報の符号化データを入力とし、欠損領域情報復号処理を行う。これにより、欠損領域情報を得る。
画像補間部603は、画像補間ネットワーク604を備え、復号済み欠損画像と欠損領域情報を入力とし、画像補間処理を行う。これにより、画像補間部603は、最終的な出力画像を得る。
上記の構成では、画像補間処理において欠損画像の欠損領域の面積に出力画像の主観画質が大きく依存する。具体的には、補間すべき欠損領域の面積が大きくなるほど、補間ネットワークに入力される情報量が少なくなるため、画像補間処理における欠損領域の推定が困難となり、出力画像の主観画質が劣化する。また、上記の構成では、補間すべき欠損領域に、参照可能な領域から推論できない複雑な要素が含まれていた場合に、復号側で再構成されない、もしくは出力の主観画質が劣化する。
よって、欠損領域の面積が大きな場合や欠損領域が複雑な場合にも、主観画質の劣化を抑制しながら画像補間処理を実行できる画像補間処理を含む符号化方式及び復号方式、ならびに構成要素となるネットワークの効率的な学習方法が望まれる。
以下、畳み込みニューラルネットワークを用い、識別ネットワークを用いた敵対的生成ネットワークによる学習を例に、本発明の第3の実施形態について説明するが、本発明は畳み込みニューラルネットワークによる画像補間及び敵対的生成ネットワークの枠組みによる学習に限定されるものではない。つまり、画像補間に対しては、学習によりその画像補間方法が獲得される任意の学習モデルを適用できる。また、その学習方法に対しては、任意の誤差関数を用いた学習方法を適用できる。
第3の実施形態では、符号化装置は、原画像を参照して特徴抽出を行い、画像補間を補助するための画像補間補助情報を、復号装置へ送信する。復号装置は、画像補間補助情報を用いて画像補間を行う。また、画像補間補助情報の抽出及び画像補間に用いられるネットワークは、ネットワーク毎に個別に最適化がなされた後、各ネットワークが結合されて全体最適化される。
[符号化処理及び復号処理の流れ]
まず、本発明による補間ネットワーク及び補助情報抽出ネットワークを用いた符号化処理及び復号処理について概要を説明する。
図9に、第3の実施形態による符号化処理及び復号処理の流れを示す。
画像欠損処理は、入力画像から画像補間により復号側で再構成対象とする領域を選択する。画像欠損処理は、当該領域を、例えば平均値に置き換える等の処理により欠損させて欠損画像を生成する。画像欠損処理は、生成した欠損画像を、欠損させた領域の画素値の集合である欠損領域の位置を示す欠損領域情報とともに出力する。
ここで、欠損領域情報としては、例えば欠損領域を示す2値マスク画像(以下、欠損領域マスク画像)を用いることができる。また、画像欠損処理における領域選択方法としては、HEVCのイントラ符号化において固定量子化幅を用いた際の発生符号量が多い領域を選択する方法、又は、画像認識で用いられる物体毎に領域分割を実行し補間可能な領域として選択する方法等を用いることができる(ステップS401)。
補助情報抽出処理は、入力画像のうち欠損領域情報から導出される欠損領域に対応する領域、又は、入力画像そのものから、画像補間補助情報抽出のためのネットワークを用いて画像補間補助情報を抽出する(ステップS402)。画像補間補助情報抽出のためのネットワークの詳細は後述する。
補助情報符号化処理は、補助情報抽出処理によって抽出された画像補間補助情報を、ハフマン符号化等の従来のエントロピー符号化方式により符号化する。これにより、補助情報符号化処理は、画像補間補助情報の符号化データを得る(ステップS403)。
欠損領域情報符号化処理は、欠損領域情報を復号側に送信するため、再構成対象領域を符号化する処理を、JPEGやHEVC等の従来の画像符号化方式や、ランレングス符号化等のエントロピー符号化方式により行う。これにより、欠損領域情報符号化処理は、欠損領域情報の符号化データを得る(ステップS404)。
画像符号化処理は、欠損画像に対して、JPEGやHEVC等の従来の画像符号化方式を用いて符号化処理を行う。これにより、画像符号化処理は、欠損画像の符号化データを得る(ステップS405)。
画像復号処理は、欠損画像の符号化データから、復号済み欠損画像を得る(ステップS406)。
欠損領域情報復号処理は、欠損領域情報の符号化データから、欠損領域情報を得る(ステップS407)。
補助情報復号処理は、画像補間補助情報の符号化データから、画像補間補助情報を得る(ステップS407)。
画像補間処理は、画像補間のためのネットワークに、復号済み欠損画像、欠損領域情報、及び画像補間補助情報を入力し、最終的な出力画像を得る。画像補間のためのネットワークの詳細については、後述する(ステップS408)。
なお、符号化処理及び復号処理の処理単位は、画面全体としてもよいし、HEVCのCTUのような構造を用いて画面を分割したブロック単位としてもよい。
[符号化装置及び復号装置の構成例]
次に、上記の符号化処理及び復号処理を実現する符号化装置及び復号装置の構成例を、図10に示す。図示するように、符号化装置70は、画像欠損処理部701と、画像符号化部702と、欠損領域情報符号化部703と、補助情報抽出部704と、補助情報符号化部705と、から構成される。
画像欠損処理部701は、入力画像を入力とし、画像欠損処理を行う。これにより、画像欠損処理部701は、欠損画像と欠損領域情報とを出力する。
画像符号化部702は、欠損画像を入力とし、画像符号化処理を行う。これにより、画像符号化部702は、欠損画像の符号化データを出力する。
欠損領域情報符号化部703は、欠損領域情報を入力とし、欠損領域情報符号化処理を行う。これにより、欠損領域情報符号化部703は、欠損領域情報の符号化データを出力する。
補助情報抽出部704は、入力画像のうち欠損領域情報から導出される欠損領域に対応する領域、又は、欠損領域でない領域を含む画像全体を入力とし、補助情報抽出処理を行う。これにより、補助情報抽出部704は、画像補間補助情報を抽出する。
補助情報符号化部705は、画像補間補助情報を入力とし、補助情報符号化処理を行う。これにより、補助情報符号化部705は、画像補間補助情報の符号化データを出力する。
欠損画像の符号化データ、欠損領域情報の符号化データ及び画像補間補助情報の符号化データは、復号装置80へ送信される。
図10に示すように、復号装置80は、画像復号部801と、欠損領域情報復号部802と、画像補間部803と、補助情報復号部805と、から構成される。
画像復号部801は、欠損画像の符号化データを入力とし、画像復号処理を行う。これにより、画像復号部801は、復号済み欠損画像を得る。
欠損領域情報復号部802は、欠損領域情報の符号化データを入力とし、欠損領域情報復号処理を行う。これにより、欠損領域情報復号部802は、欠損領域情報を得る。
補助情報復号部805は、画像補間補助情報の符号化データを入力とし、補助情報復号処理を行う。これにより、補助情報復号部805は、画像補間補助情報を得る。
画像補間部803は、復号済み欠損画像、欠損領域情報及び画像補間補助情報を入力とし、画像補間補助情報を参照した画像補間処理を行う。これにより、画像補間部803は、最終的な出力画像を得る。
[補助情報抽出部と画像補間部の構成ならびに学習方法]
次に、補助情報抽出部704及び画像補間部803の構成、ならびに学習方法について説明する。
補助情報抽出部704及び画像補間部803のネットワークの構成を図11に示す。図示するように、補助情報抽出部704は、復号側に送信する画像補間補助情報を抽出するための補助情報抽出ネットワーク7041から構成される。
補助情報抽出ネットワーク7041は、入力画像及び欠損領域情報を入力として、画像補間補助情報を出力するネットワークである。補助情報抽出ネットワーク7041は、例えば入力を入力画像及び欠損領域マスク画像の2枚の画像とし、出力を任意の数のユニットとして、畳み込み層や全結合層等により中間層を構成する。
図11に示すように、画像補間部803は、画像補間補助情報を参照して欠損領域を予測するための補助情報参照ネットワーク8031、欠損画像を参照して欠損領域を予測するための欠損画像参照ネットワーク8032、及び、前記2つのネットワークの出力から最終的な補間画像を生成するための再構成ネットワーク8033から構成される。
補助情報参照ネットワーク8031は、画像補間補助情報を入力として、補助情報参照による中間画像を出力するネットワークである。補助情報参照ネットワーク8031は、例えば入力を画像補間補助情報と同数のユニットとし、出力を1枚の補助情報参照による中間画像として、全結合層、逆畳み込み層、及び、畳み込み層等により中間層を構成する。
欠損画像参照ネットワーク8032は、入力画像の欠損画像及び欠損領域マスク画像を入力として、欠損画像参照による中間画像を出力するネットワークである。欠損画像参照ネットワーク8032は、例えば入力を入力画像の欠損画像及び欠損領域マスク画像の2枚の画像、出力を1枚の欠損画像参照による中間画像として、畳み込み層、全結合層、及び、逆畳み込み層等により中間層を構成する。
再構成ネットワーク8033は、補助情報参照による中間画像及び欠損画像参照による中間画像を入力として、欠損領域が補間された最終的な出力画像を出力するネットワークである。再構成ネットワーク8033は、例えば入力を2枚の中間画像とし、出力を1枚の出力画像として、畳み込み層、全結合層、及び、逆畳み込み層等により中間層を構成する。
以上の構成により、補助情報抽出部704及び画像補間部803を学習する。学習時は、従来技術1と同様に、敵対的生成ネットワークの枠組みを用いることができる。このとき、従来技術1と同様、補間した領域の自然さを評価するための識別ネットワーク9000は、画像補間部803の出力画像を入力とし、出力画像が補間されていない真の画像である確率を出力する。
次に、図11の構成を用いたネットワークの学習方法について説明する。学習処理は、教師データとして、原画像と、原画像に欠損領域をランダムに与えて生成した原画像の欠損画像と、欠損領域情報との組を多数用意する。学習で用いる誤差関数としては、例えば原画像とネットワークの出力画像の画素の平均二乗誤差(以下、平均二乗誤差)、及び敵対的生成ネットワークの枠組みを適用し、識別ネットワークによってネットワークの出力画像が識別された誤差(以下、「識別ネットワーク誤差」という。)、又は平均二乗誤差と識別ネットワーク誤差の重み付き和による誤差(以下、重み付き誤差)のいずれかを用いることができる。
[ネットワークの学習方法]
学習処理の流れを図12に示す。
欠損画像参照ネットワーク学習処理は、図11の欠損画像参照ネットワーク8032及び識別ネットワーク9000を切り出し、図13のように結合して、欠損画像参照ネットワーク8032の出力を識別ネットワーク9000への入力とみなし、欠損画像参照ネットワーク8032を学習する(ステップS501)。
具体的には、欠損画像参照ネットワーク学習処理は、原画像の欠損画像と欠損領域情報とを欠損画像参照ネットワーク8032に入力し、出力される画像が原画像に近付くよう、誤差逆伝播法によりネットワークのパラメータを更新する。ここで、欠損画像参照ネットワーク学習処理は、誤差関数として、まず平均二乗誤差を適用して学習を行った後、重み付き誤差を適用して学習を行う。以降の各ネットワークの学習処理でも、同様に平均二乗誤差を用いて学習が行われた後、重み付き誤差を用いて学習が行われる。
補助情報抽出/参照ネットワーク学習処理は、図11の補助情報抽出ネットワーク7041、補助情報参照ネットワーク8031、及び識別ネットワーク9000を切り出し、図14のように結合して、補助情報参照ネットワーク8031の出力を識別ネットワーク9000への入力とみなし、補助情報抽出ネットワーク7041と補助情報参照ネットワーク8031とを学習する(ステップS502)。
具体的には、補助情報抽出/参照ネットワーク学習処理は、原画像と欠損領域情報とを、補助情報抽出ネットワーク7041及び補助情報参照ネットワーク8031が結合されたネットワークに入力する。補助情報抽出/参照ネットワーク学習処理は、出力される画像が原画像に近付くよう、平均二乗誤差と重み付き誤差を順に適用して、誤差逆伝播法によりネットワークのパラメータを更新する。
再構成ネットワーク学習処理は、欠損画像参照ネットワーク学習処理及び補助情報抽出/参照ネットワーク学習処理で構築された欠損画像参照ネットワーク8032、補助情報抽出ネットワーク7041、補助情報参照ネットワーク8031、再構成ネットワーク8033、及び識別ネットワーク9000を図11のように結合し、再構成ネットワーク8033のみ学習する(ステップS503)。
具体的には、再構成ネットワーク学習処理は、原画像、原画像の欠損画像、及び欠損領域情報を結合されたネットワークに入力し、出力される画像が原画像に近付くよう、平均二乗誤差と重み付き誤差を順に適用して、再構成ネットワークのパラメータのみを誤差逆伝播法により更新する。
全体学習処理は、再構成ネットワーク学習処理において図11のように結合された、欠損画像参照ネットワーク8032、補助情報抽出ネットワーク7041、補助情報参照ネットワーク8031、及び再構成ネットワーク8033を同時に学習する(ステップS504)。
具体的には、全体学習処理は、原画像、原画像の欠損画像、及び欠損領域情報を結合されたネットワークに入力し、出力される画像が原画像に近付くよう、平均二乗誤差と重み付き誤差を順に適用して、全ネットワークのパラメータを誤差逆伝播法により更新する。なお、補助情報抽出ネットワークのみネットワークのパラメータを固定して学習する構成であってもよい。
なお、上記の誤差関数の適用順は一例であり、識別ネットワーク9000を含む敵対的生成ネットワークの枠組みを用いずに学習してもよく、識別ネットワーク誤差や平均二乗誤差、もしくは重み付き誤差を、学習の反復回数等に応じて随時変更しながら適用してもよい。
また、敵対的生成ネットワークの枠組みで学習する場合には、図12の各ネットワークの学習処理とは独立に、識別ネットワーク9000を、反復回数や識別ネットワーク9000の正解率に応じて学習する構成であってもよい。
識別ネットワーク9000の学習では、例えば図12の各学習処理で用いられるネットワークの出力画像と原画像とを交互に識別ネットワーク9000に入力して、入力が原画像である確率を出力させ、出力と0又は1の正解値との誤差を相互情報量等の誤差関数によって評価して、誤差逆伝播法によりパラメータを更新すればよい。
また、各学習処理の終了は、反復回数や誤差の減少に対する閾値処理を用いて判定してもよい。なお、処理の単位は、画面全体としてもよいし、HEVCのCTUのような構造を用いて画面を分割したブロック単位としてもよい。
以上説明したように、第3の実施形態における符号化方法及び復号方法は、従来技術における補間ネットワークを復号側に適用し画像生成により出力画像を得る方法とは異なり、画像補間補助情報を用いて画像生成を行う。これにより、第3の実施形態における符号化方法及び復号方法は、従来技術を用いる方法に対して予測精度を向上させることができ、原画の特徴を用いた生成を実現することができる。
また、第3の実施形態における符号化方法及び復号方法は、送信する画像補間補助情報を学習により決定可能なことから、従来のHEVCのような人手の試行錯誤により決定された画像補間補助情報の抽出に比べて、より高精度な再構成結果が得られる画像補間補助情報を抽出することができる。さらに、第3の実施形態における符号化方法及び復号方法は、ネットワークの学習順序や適用する誤差関数を制御することで、学習すべき複雑な構成のネットワークに対し、意図する動作を各ネットワークに獲得させることができる。
上述した従来技術1では、画像の補間ネットワークを学習により獲得する方法が提案されているが、この補間ネットワークを画像符号化の枠組みにおける復号側に適用する場合、特に広い面積を補間する場合や、補間したい領域が周囲から推論できない程度に複雑な場合に生成精度が低下する。
一方、第3の実施形態における符号化方法及び復号方法は、符号化側に補助情報抽出部704を設け、補間ネットワークに画像補間補助情報を与えることでこれを解決する。また、このとき、画像補間補助情報を定義する補助情報抽出ネットワーク7041も学習により獲得することで、第3の実施形態における符号化方法及び復号方法は、HEVC等の画像符号化のように、人手で設計した画像補間補助情報に比べて、画像生成の精度がより高まる画像補間補助情報を抽出することができる。
第3の実施形態における符号化方法及び復号方法の構成は、画像補間補助情報を生成する補助情報抽出部704も含めて、学習によりネットワークのパラメータを獲得させることから、補助情報抽出部704及び画像補間部803を同時に学習した場合に、各ネットワークに意図する動作を学習させることが難しい。特に、敵対的生成ネットワークの枠組みを用いた場合は、学習の調整が難しいためこの傾向は顕著となる。
しかしながら、第3の実施形態における符号化方法及び復号方法では、補助情報抽出部704及び画像補間部803を、役割毎のネットワークに分割し、学習の反復回数によって学習対象とするネットワーク及び適用する誤差関数を制御することで、各ネットワークに意図する動作を獲得させることができる。
<第4の実施形態>
以下、第4の実施形態について、図面を参照しながら説明する。
第4の実施形態は、第3の実施形態と,補助情報抽出部及び画像補間部のネットワークの構成が異なり、画像補間補助情報を、欠損画像参照ネットワークの出力と入力画像の差分とから生成する。
第4の実施形態におけるネットワークの構成を、図15に示す。図示するように、補助情報抽出部704は、補助情報抽出ネットワーク7041と、画像補間部803と共通のネットワークのパラメータを用いた欠損画像参照ネットワーク8032と、から構成される。
補助情報抽出ネットワーク7041は、入力画像と欠損画像参照による中間画像の差分、及び欠損領域情報を入力として、画像補間補助情報を出力するネットワークである。補助情報抽出ネットワーク7041は、例えば入力を入力画像と欠損画像参照による中間画像との差分画像、及び欠損領域マスク画像の2枚の画像とし、出力を任意の数のユニットとして、畳み込み層及び全結合層等により中間層を構成する。
図15に示すように、画像補間部803は、補助情報参照ネットワーク8031と、欠損画像参照ネットワーク8032と、再構成ネットワーク8033と、から構成される。これら各ネットワークの入出力は、欠損画像参照ネットワーク8032を除き第3の実施形態と共通である。
補助情報参照ネットワーク8031は、画像補間補助情報を入力として、補助情報参照による中間画像を出力するネットワークである。
欠損画像参照ネットワーク8032は、入力画像の欠損画像と欠損領域マスク画像とを入力として、欠損画像参照による中間画像を出力するネットワークである。
欠損画像参照による中間画像は、画像補間部803の構成要素として、再構成ネットワーク8033に入力される。また、欠損画像参照による中間画像と入力画像との差分が、補助情報抽出部704の構成要素として、補助情報抽出ネットワーク7041に入力される。
再構成ネットワーク8033は、補助情報参照による中間画像と欠損画像参照による中間画像とを入力として、欠損領域が補間された最終的な出力画像を出力するネットワークである。
以上の構成によって、補助情報抽出部704及び画像補間部803の学習が行われる。なお、学習の処理は第3の実施形態と共通であるが、補助情報抽出/参照ネットワーク学習処理におけるネットワークの構成が図16のようになる。当該処理では、図16の構成で、補助情報抽出ネットワーク7041及び補助情報参照ネットワーク8031のみの学習が行われる。
以上説明したように、第4の実施形態による補助情報抽出部704は、第3の実施形態のように原画像を直接入力とすることもできるが、上述したように復号側と符号化側で周辺ブロックからの予測結果(欠損画像参照による中間画像)を共通にするという前提を置くことによって、原画像と周辺ブロックからの予測画像との差分画像を入力とすることができる。これにより、画像補間部803の出力画像が原画像から離れすぎないようにする制約を明示的に導入することができ、補間結果の主観品質が向上する。
上述した実施形態における符号化装置及び復号装置の一部又は全部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
10,30…符号化装置、101,301…ブロック分割部、102,302…符号化方式判定部、103,303…補助情報抽出部、104.304…補助情報エントロピー符号化部、105,305…画像変換部、306…変換後画像メモリ、107,307…イントラ予測部、108,308…変換/量子化部、109,309…エントロピー符号化部、110,310…逆量子化/逆変換部、111,311…予測用メモリ、20…復号装置、201,401…エントロピー復号部、202,402…逆変換/逆量子化部、
203,403…イントラ予測部、204,404…予測用メモリ、205,405…再構成部、206,406…符号化方式判定部、207,407…補助情報エントロピー復号部、408…出力ピクチャメモリ、50,70…符号化装置、501,701…画像欠損処理部、502,702…画像符号化部、503,703…欠損領域情報符号化部、704…補助情報抽出部、7041…補助情報抽出ネットワーク、705…補助情報符号化部、60,80…復号装置、601,801…画像復号部、602,802…欠損領域情報復号部、603,803…画像補間部、8031…補助情報参照ネットワーク、8032…欠損画像参照ネットワーク、8033…再構成ネットワーク、604…画像補間ネットワーク、805…補助情報復号部、9000…識別ネットワーク

Claims (8)

  1. 画像を符号化する符号化装置であって、
    第一の画像に含まれる、所定の条件に合致する領域を取得する領域取得部と、
    前記第一の画像と、取得された領域と、前記第一の画像から前記取得された領域が除かれた領域と、を関連付けることで、第二の画像を得る画像取得部と、
    前記第二の画像を符号化する符号化部と、
    前記第一の画像と前記取得された領域とを入力として画像補間を補助する情報である補助情報を出力する補助情報抽出ネットワークと、
    前記補助情報を入力として補助情報参照による第一の中間画像を出力する補助情報参照ネットワークと、
    前記取得された領域が除かれた領域と前記取得された領域とを入力として欠損画像参照による第二の中間画像を出力する欠損画像参照ネットワークと、
    前記第一の中間画像と前記第二の中間画像とを入力として前記第二の画像を出力する再構成ネットワークと、
    を備える符号化装置。
  2. 画像を符号化する符号化装置であって、
    第一の画像に含まれる、所定の条件に合致する領域を取得する領域取得部と、
    前記第一の画像と、取得された領域と、前記第一の画像から前記取得された領域が除かれた領域と、を関連付けることで、第二の画像を得る画像取得部と、
    前記第二の画像を符号化する符号化部と、
    前記第一の画像と欠損画像参照ネットワークから出力された第二の中間画像との差分画像と、前記取得された領域と、を入力として画像補間を補助する情報である補助情報を出力する補助情報抽出ネットワークと、
    前記補助情報を入力として補助情報参照による第一の中間画像を出力する補助情報参照ネットワークと、
    前記取得された領域が除かれた領域と前記取得された領域とを入力として欠損画像参照による前記第二の中間画像を出力する前記欠損画像参照ネットワークと、
    前記第一の中間画像と前記第二の中間画像とを入力として前記第二の画像を出力する再構成ネットワークと、
    を備える符号化装置。
  3. 前記欠損画像参照ネットワークは、前記第二の中間画像と前記第一の画像との画素誤差を最小化するように、前記第二の中間画像についての学習パラメータの学習を行う
    請求項1又は請求項2に記載の符号化装置。
  4. 前記補助情報抽出ネットワークは、前記補助情報参照ネットワークによって出力される第一の中間画像と第一の画像との画素誤差を最小化するように、前記補助情報についての学習パラメータの学習を行う
    請求項1から請求項3のうちいずれか一項に記載の符号化装置。
  5. 前記補助情報参照ネットワークは、前記第一の中間画像と前記第一の画像との画素誤差を最小化するように、前記第一の中間画像についての学習パラメータの学習を行う
    請求項1から請求項4のうちいずれか一項に記載の符号化装置。
  6. 第一の画像を補間する画像補間システムであって、
    第二の画像と、前記第二の画像に含まれる所定の条件に合致する領域である合致領域と、前記第二の画像から前記合致領域を除いた領域と、を関連付けることで、前記第一の画像及び補助情報を得る取得部と、
    前記補助情報を用いて前記第一の画像を補間し、前記第二の画像に近似する画像を得る補間部と、
    前記第の画像と前記合致領域とを入力として画像補間を補助する情報である補助情報を出力する補助情報抽出ネットワークと、
    前記補助情報を入力として補助情報参照による第一の中間画像を出力する補助情報参照ネットワークと、
    前記合致領域が除かれた領域と前記合致領域とを入力として欠損画像参照による第二の中間画像を出力する欠損画像参照ネットワークと、
    前記第一の中間画像と前記第二の中間画像とを入力として前記第の画像を出力する再構成ネットワークと、
    を有する画像補間システム。
  7. 第一の画像を補間する画像補間システムであって、
    第二の画像と、前記第二の画像に含まれる所定の条件に合致する領域である合致領域と、前記第二の画像から前記合致領域を除いた領域と、を関連付けることで、前記第一の画像及び補助情報を得る取得部と、
    前記補助情報を用いて前記第一の画像を補間し、前記第二の画像に近似する画像を得る補間部と、
    前記第の画像と欠損画像参照ネットワークから出力された第二の中間画像との差分画像と、前記合致領域と、を入力として画像補間を補助する情報である補助情報を出力する補助情報抽出ネットワークと、
    前記補助情報を入力として補助情報参照による第一の中間画像を出力する補助情報参照ネットワークと、
    前記合致領域が除かれた領域と前記合致領域とを入力として欠損画像参照による前記第二の中間画像を出力する前記欠損画像参照ネットワークと、
    前記第一の中間画像と前記第二の中間画像とを入力として前記第の画像を出力する再構成ネットワークと、
    を有する画像補間システム。
  8. 請求項1から請求項5のうちいずれか一項に記載の符号化装置としてコンピュータを機能させるための符号化プログラム。
JP2018097426A 2018-05-21 2018-05-21 符号化装置、画像補間システム及び符号化プログラム Active JP6985609B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018097426A JP6985609B2 (ja) 2018-05-21 2018-05-21 符号化装置、画像補間システム及び符号化プログラム
US17/057,006 US11350134B2 (en) 2018-05-21 2019-05-09 Encoding apparatus, image interpolating apparatus and encoding program
PCT/JP2019/018635 WO2019225344A1 (ja) 2018-05-21 2019-05-09 符号化装置、画像補間システム及び符号化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018097426A JP6985609B2 (ja) 2018-05-21 2018-05-21 符号化装置、画像補間システム及び符号化プログラム

Publications (2)

Publication Number Publication Date
JP2019205010A JP2019205010A (ja) 2019-11-28
JP6985609B2 true JP6985609B2 (ja) 2021-12-22

Family

ID=68617148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018097426A Active JP6985609B2 (ja) 2018-05-21 2018-05-21 符号化装置、画像補間システム及び符号化プログラム

Country Status (3)

Country Link
US (1) US11350134B2 (ja)
JP (1) JP6985609B2 (ja)
WO (1) WO2019225344A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11818373B1 (en) * 2020-09-08 2023-11-14 Block, Inc. Machine-learning based data compression for streaming media

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10300048B4 (de) * 2002-01-05 2005-05-12 Samsung Electronics Co., Ltd., Suwon Verfahren und Vorrichtung zur Bildcodierung und -decodierung
JP4956375B2 (ja) * 2007-10-30 2012-06-20 キヤノン株式会社 画像処理装置、画像処理方法
KR20110059766A (ko) * 2008-09-18 2011-06-03 톰슨 라이센싱 비디오 영상 프루닝 방법 및 장치
GB2526495B (en) * 2013-03-15 2021-12-01 Ernest Troxler Robert Systems and methods for identifying and separately presenting different portions of multimedia content
US9536335B2 (en) * 2015-03-19 2017-01-03 Sony Corporation Using frequency decomposition for better color consistency in a synthesized region
CN107847117B (zh) * 2015-04-30 2019-12-17 富士胶片株式会社 图像处理装置及图像处理方法
WO2017041295A1 (en) * 2015-09-11 2017-03-16 Intel Corporation Real-time face beautification features for video images
WO2017080420A1 (en) * 2015-11-09 2017-05-18 Versitech Limited Auxiliary data for artifacts –aware view synthesis
US10846895B2 (en) * 2015-11-23 2020-11-24 Anantha Pradeep Image processing mechanism
US20190051039A1 (en) * 2016-02-26 2019-02-14 Sony Corporation Image processing apparatus, image processing method, program, and surgical system
US10715804B2 (en) 2016-04-22 2020-07-14 Sony Corporation Encoding apparatus and encoding method as well as decoding apparatus and decoding method
US20180300937A1 (en) * 2017-04-13 2018-10-18 National Taiwan University System and a method of restoring an occluded background region
KR101856546B1 (ko) * 2017-06-29 2018-05-11 링크플로우 주식회사 영상에서 처리 대상 객체를 제거하는 방법 및 이러한 방법을 수행하는 장치

Also Published As

Publication number Publication date
US20210112283A1 (en) 2021-04-15
WO2019225344A1 (ja) 2019-11-28
JP2019205010A (ja) 2019-11-28
US11350134B2 (en) 2022-05-31

Similar Documents

Publication Publication Date Title
US11159789B2 (en) Generative adversarial network based intra prediction for video coding
JP4514734B2 (ja) 動画像復号装置
Kim et al. Hierarchical prediction and context adaptive coding for lossless color image compression
RU2492586C2 (ru) Способ автоматического формирования процедуры генерации прогнозируемого значения пикселя, способ кодирования изображений, способ декодирования изображений, соответствующее устройство, соответствующие программы и носители информации, которые хранят программы
JP2004519155A (ja) 任意の形状のオブジェクトのテクスチャに適用される前処理方法
JP5194119B2 (ja) 画像処理方法及び対応する電子装置
US11671576B2 (en) Method and apparatus for inter-channel prediction and transform for point-cloud attribute coding
JP6356913B2 (ja) グラフテンプレートから誘導された変換を用いてビデオ信号をデコーディング/エンコーディングする方法及び装置
CN110383695B (zh) 用于对数字图像或视频流进行编码和解码的方法和装置
JP6727011B2 (ja) 画像符号化装置及びその制御方法
CN116438796A (zh) 图像预测方法、编码器、解码器以及计算机存储介质
JP6985609B2 (ja) 符号化装置、画像補間システム及び符号化プログラム
JP2015035720A (ja) 変換量子化方法、変換量子化装置及び変換量子化プログラム
WO2019225337A1 (ja) 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム及び復号プログラム
CN111901595B (zh) 一种基于深度神经网络的视频编码方法及装置、介质
JP2024511084A (ja) ニューラルネットワークを用いた画像及びビデオコーディングにおける潜時特徴の多分布エントロピーモデリング
CN116325732A (zh) 点云的解码、编码方法、解码器、编码器和编解码***
CN107409216B (zh) 图像编码和解码方法、编码和解码设备以及相应的计算机程序
JP7185467B2 (ja) 画像復号装置、画像符号化装置、画像処理システム及びプログラム
JP6557483B2 (ja) 符号化装置、符号化システム、及びプログラム
JP7303456B2 (ja) 符号化装置、符号化方法及びプログラム
JP7310919B2 (ja) フィルタ生成方法、フィルタ生成装置及びプログラム
JP2010010768A (ja) 画像符号化装置及び画像符号化方法
WO2011049175A1 (ja) 画像符号化装置、画像復号化装置、画像符号化方法、及び画像復号化方法
JP2011109390A (ja) 画像符号化装置、画像符号化方法、画像復号装置、及び、画像復号方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211108

R150 Certificate of patent or registration of utility model

Ref document number: 6985609

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150