JP2023504817A - ポスト・フィルタリングを用いるブロック・ワイズ・ニューラル画像圧縮のための方法及び装置 - Google Patents
ポスト・フィルタリングを用いるブロック・ワイズ・ニューラル画像圧縮のための方法及び装置 Download PDFInfo
- Publication number
- JP2023504817A JP2023504817A JP2022533334A JP2022533334A JP2023504817A JP 2023504817 A JP2023504817 A JP 2023504817A JP 2022533334 A JP2022533334 A JP 2022533334A JP 2022533334 A JP2022533334 A JP 2022533334A JP 2023504817 A JP2023504817 A JP 2023504817A
- Authority
- JP
- Japan
- Prior art keywords
- block
- reconstructed
- prediction
- blocks
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 144
- 230000001537 neural effect Effects 0.000 title claims abstract description 42
- 230000006835 compression Effects 0.000 title claims abstract description 33
- 238000007906 compression Methods 0.000 title claims abstract description 33
- 238000001914 filtration Methods 0.000 title claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 65
- 230000009466 transformation Effects 0.000 claims description 11
- 238000000844 transformation Methods 0.000 claims description 9
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 27
- 238000012549 training Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- 241000023320 Luma <angiosperm> Species 0.000 description 11
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 238000012935 Averaging Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 7
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007596 consolidation process Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/86—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本件出願は、米国特許商標庁に2020年9月30日付で出願された米国仮特許出願第63/085,900号、2020年9月30日付で出願された米国仮特許出願第63/085,908号、2020年10月7日付で出願された米国仮特許出願第63/088,675号、及び2021年6月29日付で出願された米国特許出願第17/362,003号を基礎とし且つ優先権を主張しており、それらの開示全体が参照により本件に援用される。
1) 再構成されたサンプルの平均ルマ・レベルに依存するデブロッキング・フィルタのフィルタ強度
2) デブロッキングtCテーブルの拡張
3) ルマ用のより強力なデブロッキング・フィルタ
4) クロマ用のより強力なデブロッキング・フィルタ
5) 4×4サンプル・グリッドに関するルマ・デブロッキング、及び8×8サンプル・グリッドに関するクロマ・デブロッキング
テーブル1 - ルマに対する強デブロッキング・パラメータの導出
テーブル2 - 修正される境界強度
デブロッキング・フィルタリング・プロセスは、サブブロック境界に加えてCU境界にも適用される。サブブロック境界は、STMVP及びアフィン・モードによって導入される予測ユニット境界や、SBT及びISPモードによって導入される変換ユニット境界を含む。
が、圧縮された表現のビット消費を測定するために計算される。従って、トレードオフ・ハイパーパラメータλを用いて、ジョイント・レート歪(R-D)損失を最適化する:
効率を改善するために活用される。柔軟で一般的なフレームワークは、様々なイントラ予測法及びイントラ予測プロセスからの残差に対する様々なニューラル符号化法に適合する。柔軟で一般的なフレームワークは、様々なタイプの品質メトリックに適合する。
ポスト・フィルタリングを用いるブロック・ワイズ・ニューラル画像圧縮の方法であって:
第1ニューラル・ネットワークを使用して、入力画像のブロックを符号化するステップであって、符号化されたブロックは、再構成されたブロックを生成するために、第2ニューラル・ネットワークを使用してデコーダによって復号化される、ステップ;
予測ブロックを生成するために、第3ニューラル・ネットワークを使用して、前記再構成されたブロックに関してイントラ予測を実行するステップ;
予測残差を生成するために、前記入力画像のブロックと生成された予測ブロックとの間の差分を決定するステップ;
第4ニューラル・ネットワークを使用して、生成された予測残差を符号化するステップであって、符号化された予測残差は、第5ニューラル・ネットワークを使用して前記デコーダにより復号化される、ステップ;及び
復元された予測ブロックを生成するために、復号化された予測残差を、前記生成された予測ブロックに加えるステップ;
を含む方法。
(付記2)
付記1に記載の方法において、更に:
前記入力画像のブロックに関してより少ない損失をもたらすものを、前記再構成されたブロック及び生成され復元された予測ブロックの中から選択するステップ;及び
前記再構成されたブロック及び復元された予測ブロックの中から選択されたものを示す選択信号を、前記再構成されたブロック及び復元された予測ブロックの中から選択されたものに対応する、前記符号化されたブロック及び符号化された予測残差のうちのもの、とともに前記デコーダへ送信するステップ;
を含み、前記符号化されたブロック及び符号化された予測残差のうちの送信されたものは、送信された選択信号に基づいて前記デコーダにより復号化される、方法。
(付記3)
付記1に記載の方法において、前記再構成されたブロックに関してイントラ予測を実行するステップは:
複数の再構成されたブロックを1つ以上のグループに、前記複数の再構成されたブロックの位置に基づいてグループ化するステップ;
1つ以上の潜在空間を生成するために、前記1つ以上のグループの各々に関して個々の変換を実行するステップ;
生成された1つ以上の潜在空間を統合するステップ;及び
前記予測ブロックを生成するために、統合された1つ以上の潜在空間に関して前記イントラ予測を実行するステップ;
を含む、方法。
(付記4)
付記1に記載の方法において、更に:
複数の再構成されたブロックの各々から、アーチファクトを含む境界エリアを取り除くステップ;
1つ以上のニューラル・ネットワークを使用して、取り除かれた境界エリアに関してデブロッキングを実行して、前記アーチファクトを伴わないデブロック化されたエリアを生成するステップ; 及び
前記複数の再構成されたブロックの各々を、生成されたデブロック化されたエリアでアップデートするステップ;
を含む、方法。
(付記5)
付記4に記載の方法において、更に:
前記複数の再構成されたブロックの各々から、取り除かれた境界エリアを伴わない残りのブロック・エリアを取り除くステップ;
エンハンスト・ブロック・エリアを生成するために、少なくとも1つのニューラル・ネットワークを使用して、取り除かれた残りのブロック・エリアに関してポスト・エンハンスメントを実行するステップ;及び
前記複数の再構成されたブロックの各々を、生成されたエンハンスト・ブロック・エリアでアップデートするステップ;
を含む、方法。
(付記6)
付記1に記載の方法において、前記再構成されたブロックに関してイントラ予測を実行するステップは:
前記再構成されたブロックの上にある再構成されたピクセルの第1コンテキスト・エリアと、前記再構成されたブロックの左にある再構成されたピクセルの第2コンテキスト・エリアとを取得するステップ;
潜在表現を生成するために、取得された前記第1コンテキスト・エリアと取得された前記第2コンテキスト・エリアの各々に関して個々の変換を実行するステップ;
生成された潜在表現を統合するステップ;及び
前記予測ブロックを生成するために、統合された潜在表現に関して前記イントラ予測を実行するステップ;
を含む、方法。
(付記7)
付記1に記載の方法において、前記再構成されたブロックに関してイントラ予測を実行するステップは:
前記再構成されたブロックの上にある再構成されたピクセルの第1コンテキスト・エリアと、前記再構成されたブロックの左にある再構成されたピクセルの第2コンテキスト・エリアと、前記第1コンテキスト・エリアの下及び前記第2コンテキスト・エリアの右にあるパディング・エリアとを取得するステップ;
矩形エリアを取得するために、取得された前記第1コンテキスト・エリアと、取得された前記第2コンテキスト・エリアと、取得された前記パディング・エリアを統合するステップ;
潜在表現を生成するために、取得された前記矩形エリアに関して変換を実行するステップ;及び
前記予測ブロックを生成するために、生成された潜在表現に関して前記イントラ予測を実行するステップ;
を含む、方法。
(付記8)
ポスト・フィルタリングを用いるブロック・ワイズ・ニューラル画像圧縮のための装置であって、前記装置はエンコーダとして実装され、前記装置は:
プログラム・コードを記憶するように構成された少なくとも1つのメモリ;及び
前記プログラム・コードを読み込み、前記プログラム・コードにより指示されるとおりに動作するように構成された少なくとも1つのプロセッサ;
を含み、前記プログラム・コードは:
第1ニューラル・ネットワークを使用して、入力画像のブロックを符号化することを、前記少なくとも1つのプロセッサに行わせるように構成された第1符号化コードであって、符号化されたブロックは、再構成されたブロックを生成するために、第2ニューラル・ネットワークを使用してデコーダによって復号化される、第1符号化コード;
予測ブロックを生成するために、第3ニューラル・ネットワークを使用して、前記再構成されたブロックに関してイントラ予測を実行することを、前記少なくとも1つのプロセッサに行わせるように構成された第1実行コード;
予測残差を生成するために、前記入力画像のブロックと生成された予測ブロックとの間の差分を決定することを、前記少なくとも1つのプロセッサに行わせるように構成された決定コード;
第4ニューラル・ネットワークを使用して、生成された予測残差を符号化することを、前記少なくとも1つのプロセッサに行わせるように構成された第2符号化コードであって、符号化された予測残差は、第5ニューラル・ネットワークを使用して前記デコーダにより復号化される、第2符号化コード;及び
復元された予測ブロックを生成するために、復号化された予測残差を、前記生成された予測ブロックに加えることを、前記少なくとも1つのプロセッサに行わせるように構成された加算コード;
を含む、装置。
(付記9)
付記8に記載の装置において、前記プログラム・コードは、更に:
前記入力画像のブロックに関してより少ない損失をもたらすものを、前記再構成されたブロック及び生成され復元された予測ブロックの中から選択することを、前記少なくとも1つのプロセッサに行わせるように構成された選択コード;及び
前記再構成されたブロック及び復元された予測ブロックの中から選択されたものを示す選択信号を、前記再構成されたブロック及び復元された予測ブロックの中から選択されたものに対応する、前記符号化されたブロック及び符号化された予測残差のうちのもの、とともに前記デコーダへ送信することを、前記少なくとも1つのプロセッサに行わせるように構成された送信コード;
を含み、前記符号化されたブロック及び符号化された予測残差のうちの送信されたものは、送信された選択信号に基づいて前記デコーダにより復号化される、装置。
(付記10)
付記8に記載の装置において、前記第1実行コードは、更に:
複数の再構成されたブロックを1つ以上のグループに、前記複数の再構成されたブロックの位置に基づいてグループ化すること;
1つ以上の潜在空間を生成するために、前記1つ以上のグループの各々に関して個々の変換を実行すること;
生成された1つ以上の潜在空間を統合すること;及び
前記予測ブロックを生成するために、統合された1つ以上の潜在空間に関して前記イントラ予測を実行すること;
を、前記少なくとも1つのプロセッサに行わせるように構成されている、装置。
(付記11)
付記8に記載の装置において、前記プログラム・コードは、更に:
複数の再構成されたブロックの各々から、アーチファクトを含む境界エリアを取り除くことを、前記少なくとも1つのプロセッサに行わせるように構成された第1除去コード;
1つ以上のニューラル・ネットワークを使用して、取り除かれた境界エリアに関してデブロッキングを実行して、前記アーチファクトを伴わないデブロック化されたエリアを生成することを、前記少なくとも1つのプロセッサに行わせるように構成された第2実行コード;及び
前記複数の再構成されたブロックの各々を、生成されたデブロック化されたエリアでアップデートすることを、前記少なくとも1つのプロセッサに行わせるように構成された第1アップデート・コード;
を含む、装置。
(付記12)
付記11に記載の装置において、前記プログラム・コードは、更に:
前記複数の再構成されたブロックの各々から、取り除かれた境界エリアを伴わない残りのブロック・エリアを取り除くことを、前記少なくとも1つのプロセッサに行わせるように構成された第2除去コード;
エンハンスト・ブロック・エリアを生成するために、少なくとも1つのニューラル・ネットワークを使用して、取り除かれた残りのブロック・エリアに関してポスト・エンハンスメントを実行することを、前記少なくとも1つのプロセッサに行わせるように構成された第3実行コード;及び
前記複数の再構成されたブロックの各々を、生成されたエンハンスト・ブロック・エリアでアップデートすることを、前記少なくとも1つのプロセッサに行わせるように構成された第2アップデート・コード;
を含む、装置。
(付記13)
付記8に記載の装置において、前記第1実行コードは、更に:
前記再構成されたブロックの上にある再構成されたピクセルの第1コンテキスト・エリアと、前記再構成されたブロックの左にある再構成されたピクセルの第2コンテキスト・エリアとを取得すること;
潜在表現を生成するために、取得された前記第1コンテキスト・エリアと取得された前記第2コンテキスト・エリアの各々に関して個々の変換を実行すること;
生成された潜在表現を統合すること;及び
前記予測ブロックを生成するために、統合された潜在表現に関して前記イントラ予測を実行すること;
を、前記少なくとも1つのプロセッサに行わせるように構成されている、装置。
(付記14)
付記8に記載の装置において、前記第1実行コードは、更に:
前記再構成されたブロックの上にある再構成されたピクセルの第1コンテキスト・エリアと、前記再構成されたブロックの左にある再構成されたピクセルの第2コンテキスト・エリアと、前記第1コンテキスト・エリアの下及び前記第2コンテキスト・エリアの右にあるパディング・エリアとを取得すること;
矩形エリアを取得するために、取得された前記第1コンテキスト・エリアと、取得された前記第2コンテキスト・エリアと、取得された前記パディング・エリアを統合すること;
潜在表現を生成するために、取得された前記矩形エリアに関して変換を実行すること;及び
前記予測ブロックを生成するために、生成された潜在表現に関して前記イントラ予測を実行すること;
を、前記少なくとも1つのプロセッサに行わせるように構成されている、装置。
(付記15)
命令を記憶する非一時的なコンピュータ読み取り可能な媒体であって、前記命令は、エンコーダのポスト・フィルタリングを用いるブロック・ワイズ・ニューラル画像圧縮のために、少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに:
第1ニューラル・ネットワークを使用して、入力画像のブロックを符号化するステップであって、符号化されたブロックは、再構成されたブロックを生成するために、第2ニューラル・ネットワークを使用してデコーダによって復号化される、ステップ;
予測ブロックを生成するために、第3ニューラル・ネットワークを使用して、前記再構成されたブロックに関してイントラ予測を実行するステップ;
予測残差を生成するために、前記入力画像のブロックと生成された予測ブロックとの間の差分を決定するステップ;
第4ニューラル・ネットワークを使用して、生成された予測残差を符号化するステップであって、符号化された予測残差は、第5ニューラル・ネットワークを使用して前記デコーダにより復号化される、ステップ;及び
復元された予測ブロックを生成するために、復号化された予測残差を、前記生成された予測ブロックに加えるステップ;
を行わせる、非一時的なコンピュータ読み取り可能な媒体。
(付記16)
付記15に記載の非一時的なコンピュータ読み取り可能な媒体において、前記命令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに、更に:
前記入力画像のブロックに関してより少ない損失をもたらすものを、前記再構成されたブロック及び生成され復元された予測ブロックの中から選択するステップ;及び
前記再構成されたブロック及び復元された予測ブロックの中から選択されたものを示す選択信号を、前記再構成されたブロック及び復元された予測ブロックの中から選択されたものに対応する、前記符号化されたブロック及び符号化された予測残差のうちのもの、とともに前記デコーダへ送信するステップ;
を行わせ、前記符号化されたブロック及び符号化された予測残差のうちの送信されたものは、送信された選択信号に基づいて前記デコーダにより復号化される、非一時的なコンピュータ読み取り可能な媒体。
(付記17)
付記15に記載の非一時的なコンピュータ読み取り可能な媒体において、前記命令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに、更に:
複数の再構成されたブロックを1つ以上のグループに、前記複数の再構成されたブロックの位置に基づいてグループ化するステップ;
1つ以上の潜在空間を生成するために、前記1つ以上のグループの各々に関して個々の変換を実行するステップ;
生成された1つ以上の潜在空間を統合するステップ;及び
前記予測ブロックを生成するために、統合された1つ以上の潜在空間に関して前記イントラ予測を実行するステップ;
を行わせる、非一時的なコンピュータ読み取り可能な媒体。
(付記18)
付記15に記載の非一時的なコンピュータ読み取り可能な媒体において、前記命令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに、更に:
複数の再構成されたブロックの各々から、アーチファクトを含む境界エリアを取り除くステップ;
1つ以上のニューラル・ネットワークを使用して、取り除かれた境界エリアに関してデブロッキングを実行して、前記アーチファクトを伴わないデブロック化されたエリアを生成するステップ; 及び
前記複数の再構成されたブロックの各々を、生成されたデブロック化されたエリアでアップデートするステップ;
を行わせる、非一時的なコンピュータ読み取り可能な媒体。
(付記19)
付記18に記載の非一時的なコンピュータ読み取り可能な媒体において、前記命令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに、更に:
前記複数の再構成されたブロックの各々から、取り除かれた境界エリアを伴わない残りのブロック・エリアを取り除くステップ;
エンハンスト・ブロック・エリアを生成するために、少なくとも1つのニューラル・ネットワークを使用して、取り除かれた残りのブロック・エリアに関してポスト・エンハンスメントを実行するステップ;及び
前記複数の再構成されたブロックの各々を、生成されたエンハンスト・ブロック・エリアでアップデートするステップ;
を行わせる、非一時的なコンピュータ読み取り可能な媒体。
(付記20)
付記15に記載の非一時的なコンピュータ読み取り可能な媒体において、前記命令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに、更に:
前記再構成されたブロックの上にある再構成されたピクセルの第1コンテキスト・エリアと、前記再構成されたブロックの左にある再構成されたピクセルの第2コンテキスト・エリアとを取得するステップ;
潜在表現を生成するために、取得された前記第1コンテキスト・エリアと取得された前記第2コンテキスト・エリアの各々に関して個々の変換を実行するステップ;
生成された潜在表現を統合するステップ;及び
前記予測ブロックを生成するために、統合された潜在表現に関して前記イントラ予測を実行するステップ;
を行わせる、非一時的なコンピュータ読み取り可能な媒体。
Claims (9)
- ポスト・フィルタリングを用いるブロック・ワイズ・ニューラル画像圧縮の方法であって:
第1ニューラル・ネットワークを使用して、入力画像のブロックを符号化するステップであって、符号化されたブロックは、再構成されたブロックを生成するために、第2ニューラル・ネットワークを使用してデコーダによって復号化される、ステップ;
予測ブロックを生成するために、第3ニューラル・ネットワークを使用して、前記再構成されたブロックに関してイントラ予測を実行するステップ;
予測残差を生成するために、前記入力画像のブロックと生成された予測ブロックとの間の差分を決定するステップ;
第4ニューラル・ネットワークを使用して、生成された予測残差を符号化するステップであって、符号化された予測残差は、第5ニューラル・ネットワークを使用して前記デコーダにより復号化される、ステップ;及び
復元された予測ブロックを生成するために、復号化された予測残差を、前記生成された予測ブロックに加えるステップ;
を含む方法。 - 請求項1に記載の方法において、更に:
前記入力画像のブロックに関してより少ない損失をもたらすものを、前記再構成されたブロック及び生成され復元された予測ブロックの中から選択するステップ;及び
前記再構成されたブロック及び復元された予測ブロックの中から選択されたものを示す選択信号を、前記再構成されたブロック及び復元された予測ブロックの中から選択されたものに対応する、前記符号化されたブロック及び符号化された予測残差のうちのもの、とともに前記デコーダへ送信するステップ;
を含み、前記符号化されたブロック及び符号化された予測残差のうちの送信されたものは、送信された選択信号に基づいて前記デコーダにより復号化される、方法。 - 請求項1に記載の方法において、前記再構成されたブロックに関してイントラ予測を実行するステップは:
複数の再構成されたブロックを1つ以上のグループに、前記複数の再構成されたブロックの位置に基づいてグループ化するステップ;
1つ以上の潜在空間を生成するために、前記1つ以上のグループの各々に関して個々の変換を実行するステップ;
生成された1つ以上の潜在空間を統合するステップ;及び
前記予測ブロックを生成するために、統合された1つ以上の潜在空間に関して前記イントラ予測を実行するステップ;
を含む、方法。 - 請求項1に記載の方法において、更に:
複数の再構成されたブロックの各々から、アーチファクトを含む境界エリアを取り除くステップ;
1つ以上のニューラル・ネットワークを使用して、取り除かれた境界エリアに関してデブロッキングを実行して、前記アーチファクトを伴わないデブロック化されたエリアを生成するステップ; 及び
前記複数の再構成されたブロックの各々を、生成されたデブロック化されたエリアでアップデートするステップ;
を含む、方法。 - 請求項4に記載の方法において、更に:
前記複数の再構成されたブロックの各々から、取り除かれた境界エリアを伴わない残りのブロック・エリアを取り除くステップ;
エンハンスト・ブロック・エリアを生成するために、少なくとも1つのニューラル・ネットワークを使用して、取り除かれた残りのブロック・エリアに関してポスト・エンハンスメントを実行するステップ;及び
前記複数の再構成されたブロックの各々を、生成されたエンハンスト・ブロック・エリアでアップデートするステップ;
を含む、方法。 - 請求項1に記載の方法において、前記再構成されたブロックに関してイントラ予測を実行するステップは:
前記再構成されたブロックの上にある再構成されたピクセルの第1コンテキスト・エリアと、前記再構成されたブロックの左にある再構成されたピクセルの第2コンテキスト・エリアとを取得するステップ;
潜在表現を生成するために、取得された前記第1コンテキスト・エリアと取得された前記第2コンテキスト・エリアの各々に関して個々の変換を実行するステップ;
生成された潜在表現を統合するステップ;及び
前記予測ブロックを生成するために、統合された潜在表現に関して前記イントラ予測を実行するステップ;
を含む、方法。 - 請求項1に記載の方法において、前記再構成されたブロックに関してイントラ予測を実行するステップは:
前記再構成されたブロックの上にある再構成されたピクセルの第1コンテキスト・エリアと、前記再構成されたブロックの左にある再構成されたピクセルの第2コンテキスト・エリアと、前記第1コンテキスト・エリアの下及び前記第2コンテキスト・エリアの右にあるパディング・エリアとを取得するステップ;
矩形エリアを取得するために、取得された前記第1コンテキスト・エリアと、取得された前記第2コンテキスト・エリアと、取得された前記パディング・エリアを統合するステップ;
潜在表現を生成するために、取得された前記矩形エリアに関して変換を実行するステップ;及び
前記予測ブロックを生成するために、生成された潜在表現に関して前記イントラ予測を実行するステップ;
を含む、方法。 - ポスト・フィルタリングを用いるブロック・ワイズ・ニューラル画像圧縮のための装置であって、前記装置はエンコーダとして実装され、前記装置は:
プログラム・コードを記憶するように構成された少なくとも1つのメモリ;及び
前記プログラム・コードを読み込み、前記プログラム・コードにより指示されるとおりに動作するように構成された少なくとも1つのプロセッサ;
を含み、前記プログラム・コードは、請求項1-7のうちの何れか一項に記載の方法を前記少なくとも1つのプロセッサに実行させる、装置。 - 請求項1-7のうちの何れか一項に記載の方法を少なくとも1つのプロセッサに実行させるコンピュータ・プログラム。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063085900P | 2020-09-30 | 2020-09-30 | |
US202063085908P | 2020-09-30 | 2020-09-30 | |
US63/085,900 | 2020-09-30 | ||
US63/085,908 | 2020-09-30 | ||
US202063088675P | 2020-10-07 | 2020-10-07 | |
US63/088,675 | 2020-10-07 | ||
US17/362,003 | 2021-06-29 | ||
US17/362,003 US20220101492A1 (en) | 2020-09-30 | 2021-06-29 | Method and apparatus for block-wise neural image compression with post filtering |
PCT/US2021/047996 WO2022072093A1 (en) | 2020-09-30 | 2021-08-27 | Method and apparatus for block-wise neural image compression with post filtering |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023504817A true JP2023504817A (ja) | 2023-02-07 |
JPWO2022072093A5 JPWO2022072093A5 (ja) | 2023-12-14 |
Family
ID=80822706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022533334A Pending JP2023504817A (ja) | 2020-09-30 | 2021-08-27 | ポスト・フィルタリングを用いるブロック・ワイズ・ニューラル画像圧縮のための方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220101492A1 (ja) |
EP (1) | EP4046375A4 (ja) |
JP (1) | JP2023504817A (ja) |
KR (1) | KR20220091606A (ja) |
CN (1) | CN114747207A (ja) |
WO (1) | WO2022072093A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230105436A1 (en) * | 2021-10-06 | 2023-04-06 | Kwai Inc. | Generative adversarial network for video compression |
WO2023198057A1 (en) * | 2022-04-12 | 2023-10-19 | Beijing Bytedance Network Technology Co., Ltd. | Method, apparatus, and medium for video processing |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3451293A1 (en) * | 2017-08-28 | 2019-03-06 | Thomson Licensing | Method and apparatus for filtering with multi-branch deep learning |
EP3725081A4 (en) * | 2017-12-13 | 2021-08-18 | Nokia Technologies Oy | APPARATUS, METHOD AND COMPUTER PROGRAM FOR CODING AND DECODING OF VIDEO |
US11019355B2 (en) * | 2018-04-03 | 2021-05-25 | Electronics And Telecommunications Research Institute | Inter-prediction method and apparatus using reference frame generated based on deep learning |
-
2021
- 2021-06-29 US US17/362,003 patent/US20220101492A1/en active Pending
- 2021-08-27 EP EP21876188.0A patent/EP4046375A4/en active Pending
- 2021-08-27 JP JP2022533334A patent/JP2023504817A/ja active Pending
- 2021-08-27 KR KR1020227019790A patent/KR20220091606A/ko active Search and Examination
- 2021-08-27 WO PCT/US2021/047996 patent/WO2022072093A1/en unknown
- 2021-08-27 CN CN202180006196.3A patent/CN114747207A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4046375A4 (en) | 2022-12-14 |
CN114747207A (zh) | 2022-07-12 |
KR20220091606A (ko) | 2022-06-30 |
US20220101492A1 (en) | 2022-03-31 |
EP4046375A1 (en) | 2022-08-24 |
WO2022072093A1 (en) | 2022-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111066326B (zh) | 机器学习视频处理***和方法 | |
KR102549824B1 (ko) | 픽처 예측 방법 및 픽처 예측 장치 | |
RU2696237C2 (ru) | Способ декодирования видеосигнала | |
JP6342500B2 (ja) | 再帰的なブロック・パーティショニング | |
KR102435595B1 (ko) | 분산 처리 환경에서의 학습 파라미터의 압축 및 전송을 제공하는 방법 및 장치 | |
WO2014190468A1 (en) | Video encoder for images | |
JP7480303B2 (ja) | ビデオ符号化のための方法並びに、その装置、及びコンピュータプログラム | |
JP2023504817A (ja) | ポスト・フィルタリングを用いるブロック・ワイズ・ニューラル画像圧縮のための方法及び装置 | |
KR20220162786A (ko) | 비디오 코딩에서 심층 신경 네트워크 기반 인터프레임 예측을 위한 방법 및 장치 | |
JP2022531131A (ja) | インタ予測における融合モード候補のための大域的運動 | |
JP6962193B2 (ja) | 動画像符号化装置、動画像符号化方法および動画像符号化プログラムを記憶する記録媒体 | |
KR20230010259A (ko) | 사후-필터링을 위한 콘텐츠-적응형 온라인 트레이닝 방법 및 장치 | |
KR20240000583A (ko) | 블록 단위 이미지 압축에서의 디블로킹을 위한 콘텐츠 적응적 온라인 트레이닝 방법 및 장치 | |
CN113039793A (zh) | 指数分区的方法与*** | |
JP2023518301A (ja) | 品質入力を有するループフィルタのためのマスクされたニューラルネットワークによるモデル共有 | |
JP7437426B2 (ja) | インター予測方法および装置、機器、記憶媒体 | |
EP3959889A1 (en) | Adaptive motion vector prediction candidates in frames with global motion | |
JP7483030B2 (ja) | 潜在特徴領域におけるイントラ予測によるニューラル画像圧縮 | |
JPWO2022072093A5 (ja) | ||
JP6992815B2 (ja) | 動画像符号化装置、動画像符号化方法および動画像符号化プログラム | |
CA3157445A1 (en) | Methods and systems for adaptive cropping | |
JP7471734B2 (ja) | メタ学習による滑らかな品質管理を用いた品質適応型のニューラル・ネットワーク・ベースのループフィルタ | |
Krishnegowda et al. | Optimal coding unit decision for early termination in high efficiency video coding using enhanced whale optimization algorithm | |
KR20230003566A (ko) | 포스트 필터링에 의한 신경 이미지 압축에서의 블록별 컨텐츠-적응적 온라인 훈련 | |
JP2023530068A (ja) | 品質適応型ニューラル・ネットワーク・ベースのループフィルタのための代替品質ファクター学習 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220603 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20231205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240524 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240611 |