JP2023512570A - 画像処理方法および関連装置 - Google Patents

画像処理方法および関連装置 Download PDF

Info

Publication number
JP2023512570A
JP2023512570A JP2022548020A JP2022548020A JP2023512570A JP 2023512570 A JP2023512570 A JP 2023512570A JP 2022548020 A JP2022548020 A JP 2022548020A JP 2022548020 A JP2022548020 A JP 2022548020A JP 2023512570 A JP2023512570 A JP 2023512570A
Authority
JP
Japan
Prior art keywords
target
values
feature
gain
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022548020A
Other languages
English (en)
Inventor
晶 王
▲澤▼ 崔
博 白
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2023512570A publication Critical patent/JP2023512570A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)
  • Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
  • Farming Of Fish And Shellfish (AREA)
  • Threshing Machine Elements (AREA)

Abstract

本出願は、人工知能の分野に関し、第1の画像を取得するステップと、少なくとも1つの第1の特徴マップを取得するために、第1の画像に対して特徴抽出を実行するステップであって、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ステップと、目標圧縮ビットレートを取得するステップであって、目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数である、ステップと、M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するステップと、符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行するステップであって、少なくとも1つの処理された第1の特徴マップがM個の第2の特徴値を含む、ステップと、を含む画像処理方法を開示する。本出願では、圧縮ビットレート制御が同じ圧縮モデルで実施され得る。

Description

関連出願の相互参照本出願は、2020年2月7日に中国国家知的財産権局に出願された「IMAGE PROCESSING METHOD AND RELATED DEVICE」と題する中国特許出願第202010082808.4号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
本出願は、人工知能の分野に関し、詳細には、画像処理方法および関連装置に関する。
今日、マルチメディアデータは、インターネットトラフィックの大部分を占めている。画像データの圧縮は、マルチメディアデータの記憶および効率的な伝送において極めて重要な役割を果たす。そのため、画像符号化は、実用的価値の高い技術である。
画像符号化は、長い歴史にわたって研究されてきた。研究者らは、大量の方法を提案し、JPEG、JPEG2000、WebP、およびBPGなどの様々な国際規格を策定している。これらの符号化方法は、現在広く応用されているが、これらの従来の方法は、画像データの量の増加および絶えず出現する新しいメディアタイプに対していくつかの制限を示す。
近年、研究者らは、深層学習に基づく画像符号化方法の研究を始めている。一部の研究者は、既に良好な結果を達成している。例えば、Balleらは、現在の最良の画像符号化性能を凌駕し、さらに現在の最良の従来の符号化標準BPGを凌駕する、エンドツーエンドの最適画像符号化方法を提案した。しかしながら、現在、深層畳み込みネットワークに基づくほとんどの画像符号化には欠点があり、すなわち、1つの訓練されたモデルは、1つのタイプの入力画像に対して1つの符号化結果しか出力することができず、その結果、実際の要求に基づいた目標圧縮ビットレートの符号化効果が、得られることができない。
本出願は、同一の圧縮モデルにおいて圧縮ビットレート制御を実施するための画像処理方法を提供する。
第1の態様によると、本出願は、画像処理方法を提供する。本方法は、
第1の画像を取得するステップと、少なくとも1つの第1の特徴マップを取得するために、第1の画像に対して特徴抽出を実行するステップであって、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ステップと、目標圧縮ビットレートを取得するステップであって、目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数である、ステップと、M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するステップであって、元の第1の特徴マップが、本出願の本実施形態において少なくとも1つの処理された第1の特徴マップと置き換えられてもよい、ステップと、符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行するステップであって、少なくとも1つの処理された第1の特徴マップがM個の第2の特徴値を含む、ステップと、を含む。前述の方式では、圧縮ビットレート制御を実施するために、異なる目標圧縮ビットレートに対して異なる目標ゲイン値が設定される。
第1の態様の任意選択の設計において、少なくとも1つの処理された第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーは、予め設定された条件を満たし、予め設定された条件は、目標圧縮ビットレートに関連する。
第1の態様の任意選択の設計において、目標圧縮ビットレートが大きいほど、量子化されたデータの情報エントロピーがより大きくなることを示す。
第1の態様の任意選択の設計において、符号化データに対応する圧縮ビットレートと目標圧縮ビットレートとの差は、予め設定された範囲内に入る。
第1の態様の任意選択の設計において、M個の第2の特徴値は、M個の目標ゲイン値と、対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される。
第1の態様の任意選択の設計において、少なくとも1つの第1の特徴マップは、第1の目標特徴マップを含み、第1の目標特徴マップは、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である。
第1の態様の任意選択の設計において、本方法は、
目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標ゲイン値を決定するステップであって、目標マッピング関係が、圧縮ビットレートとM個の目標ゲイン値との間の相関関係を示すために使用される、ステップをさらに含み、
目標マッピング関係が、複数の圧縮ビットレート、複数のゲインベクトル、および複数の圧縮ビットレートと複数のゲインベクトルとの間の相関関係を含み、目標圧縮ビットレートが、複数の圧縮ビットレートのうちの1つであり、M個の目標ゲイン値が、複数のゲインベクトルのうちの1つの要素であり、または
目標マッピング関係が、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標ゲイン値を含む。
第1の態様の任意選択の設計において、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1のゲイン値に対応し、第2の圧縮ビットレートは、M個の第2のゲイン値に対応し、M個の目標ゲイン値は、M個の第1のゲイン値およびM個の第2のゲイン値に対して補間演算を実行することによって取得される。
第1の態様の任意選択の設計において、M個の第1のゲイン値は、第1の目標ゲイン値を含み、M個の第2のゲイン値は、第2の目標ゲイン値を含み、M個の目標ゲイン値は、第3の目標ゲイン値を含み、第1の目標ゲイン値、第2の目標ゲイン値、および第3の目標ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標ゲイン値は、第1の目標ゲイン値および第2の目標ゲイン値に対して補間演算を実行することによって取得される。
第1の態様の任意選択の設計において、第1の画像は、目標オブジェクトを含み、M個の第1の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
第1の態様の任意選択の設計において、M個の目標ゲイン値のそれぞれは、1つの逆ゲイン値に対応し、逆ゲイン値は、符号化データの復号プロセスにおいて取得された特徴値を処理するために使用され、M個の目標ゲイン値のそれぞれと、対応する逆ゲイン値との積は、予め設定された範囲内に入る。
第1の態様の任意選択の設計において、本方法は、少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を実行するステップであって、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、各第3の特徴値が1つの第1の特徴値に対応する、ステップと、M個の目標逆ゲイン値を取得するステップであって、各目標逆ゲイン値が1つの第3の特徴値に対応する、ステップと、M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値に対してそれぞれゲイン処理を実行するステップと、第2の画像を取得するために、逆ゲイン処理後に取得された少なくとも1つの第2の特徴マップに対して画像再構成を行うステップであって、逆ゲイン処理後に取得された少なくとも1つの第2の特徴マップがM個の第4の特徴値を含む、ステップと、をさらに含む。
第1の態様の任意選択の設計において、M個の第4の特徴値は、M個の目標逆ゲイン値と、対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される。
第1の態様の任意選択の設計において、少なくとも1つの第2の特徴マップは、第2の目標特徴マップを含み、第2の目標特徴マップは、P個の第3の特徴値を含み、P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である。
第1の態様の任意選択の設計において、本方法は、目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標逆ゲイン値を決定するステップであって、目標マッピング関係が圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用される、ステップをさらに含む。
第1の態様の任意選択の設計において、目標マッピング関係は、複数の圧縮ビットレート、複数の逆ゲインベクトル、および複数の圧縮ビットレートと複数の逆ゲインベクトルとの間の相関関係を含み、目標圧縮ビットレートは、複数の圧縮ビットレートのうちの1つであり、M個の目標逆ゲイン値は、複数の逆ゲインベクトルのうちの1つの要素である。
第1の態様の任意選択の設計において、目標マッピング関係は、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標逆ゲイン値を含む。
第1の態様の任意選択の設計において、第2の画像は、目標オブジェクトを含み、M個の第3の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
第1の態様の任意選択の設計において、M個の目標ゲイン値のそれぞれと、対応する目標逆ゲイン値との積は、予め設定された範囲内に入る。
第1の態様の任意選択の設計において、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1の逆ゲイン値に対応し、第2の圧縮ビットレートは、M個の第2の逆ゲイン値に対応し、M個の目標逆ゲイン値は、M個の第1の逆ゲイン値およびM個の第2の逆ゲイン値に対して補間演算を実行することによって取得される。
第1の態様の任意選択の設計において、M個の第1の逆ゲイン値は、第1の目標逆ゲイン値を含み、M個の第2の逆ゲイン値は、第2の目標逆ゲイン値を含み、M個の目標逆ゲイン値は、第3の目標逆ゲイン値を含み、第1の目標逆ゲイン値、第2の目標逆ゲイン値、および第3の目標逆ゲイン値は、M個の第3の特徴値のうちの同じ特徴値に対応し、第3の目標逆ゲイン値は、第1の目標逆ゲイン値および第2の目標逆ゲイン値に対して補間演算を実行することによって取得される。
第2の態様によると、本出願は、画像処理方法を提供する。本方法は、
符号化データを取得するステップと、少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を実行するステップであって、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、Nが正の整数である、ステップと、M個の目標逆ゲイン値を取得するステップであって、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である、ステップと、M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理するステップと、第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに基づいて画像再構成を行うステップであって、少なくとも1つの処理された第2の特徴マップがM個の第4の特徴値を含む、ステップと、を含む。
第2の態様の任意選択の設計において、M個の第4の特徴値は、M個の目標逆ゲイン値と、対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される。
第2の態様の任意選択の設計において、少なくとも1つの第2の特徴マップは、第2の目標特徴マップを含み、第2の目標特徴マップは、P個の第3の特徴値を含み、P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である。
第2の態様の任意選択の設計において、本方法は、
目標圧縮ビットレートを取得するステップと、
目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標逆ゲイン値を決定するステップであって、目標マッピング関係が、圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用される、ステップをさらに含み、
目標マッピング関係が、複数の圧縮ビットレート、複数の逆ゲインベクトル、および複数の圧縮ビットレートと複数の逆ゲインベクトルとの間の相関関係を含み、
目標圧縮ビットレートが、複数の圧縮ビットレートのうちの1つであり、M個の目標逆ゲイン値が、複数の逆ゲインベクトルのうちの1つの要素であり、または
目標マッピング関係が、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標逆ゲイン値を含む。
第2の態様の任意選択の設計において、第2の画像は、目標オブジェクトを含み、M個の第3の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
第2の態様の任意選択の設計において、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1の逆ゲイン値に対応し、第2の圧縮ビットレートは、M個の第2の逆ゲイン値に対応し、M個の目標逆ゲイン値は、M個の第1の逆ゲイン値およびM個の第2の逆ゲイン値に対して補間演算を実行することによって取得される。
第2の態様の任意選択の設計において、M個の第1の逆ゲイン値は、第1の目標逆ゲイン値を含み、M個の第2の逆ゲイン値は、第2の目標逆ゲイン値を含み、M個の目標逆ゲイン値は、第3の目標逆ゲイン値を含み、第1の目標逆ゲイン値、第2の目標逆ゲイン値、および第3の目標逆ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標逆ゲイン値は、第1の目標逆ゲイン値および第2の目標逆ゲイン値に対して補間演算を実行することによって取得される。
第3の態様によると、本出願は、画像処理方法を提供する。本方法は、
第1の画像を取得するステップと、
少なくとも1つの第1の特徴マップを取得するために、符号化ネットワークに基づいて第1の画像に対して特徴抽出を実行するステップであって、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ステップと、
目標圧縮ビットレートを取得するステップであって、目標圧縮ビットレートがM個の初期ゲイン値およびM個の初期逆ゲイン値に対応し、各初期ゲイン値が1つの第1の特徴値に対応し、各初期逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である、ステップと、
M個の第2の特徴値を取得するために、M個の初期ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するステップと、
符号化データおよびビットレート損失を取得するために、量子化ネットワークおよびエントロピー符号化ネットワークに基づいて、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行するステップであって、ゲイン処理後に取得された少なくとも1つの第1の特徴マップがM個の第2の特徴値を含む、ステップと、
少なくとも1つの第2の特徴マップを取得するために、エントロピー復号ネットワークに基づいて符号化データに対してエントロピー復号を実行するステップであって、少なくとも1つの第2の特徴マップがM個の第3の特徴値を含み、各第3の特徴値が1つの第1の特徴値に対応する、ステップと、
M個の第4の特徴値を取得するために、M個の初期逆ゲイン値に基づいて対応する第3の特徴値をそれぞれ処理するステップと、
第2の画像を取得するために、復号ネットワークに基づいて、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行うステップであって、少なくとも1つの処理された特徴マップがM個の第4の特徴値を含む、ステップと、
第1の画像に対する第2の画像の歪み損失を取得するステップと、
第1の画像と第2の画像との間の画像歪み値が第1の予め設定された程度に達するまで、損失関数を使用することによって、第1の符号化/復号ネットワーク、M個の初期ゲイン値、およびM個の初期逆ゲイン値に対して共同訓練を実行するステップであって、画像歪み値がビットレート損失および歪み損失に関連し、符号化/復号ネットワークが符号化ネットワーク、量子化ネットワーク、エントロピー符号化ネットワーク、およびエントロピー復号ネットワークを含む、ステップと、
第2の符号化/復号ネットワーク、M個の目標ゲイン値、およびM個の目標逆ゲイン値を出力するステップであって、第2の符号化/復号ネットワークが、第1の符号化/復号ネットワークに対して反復訓練が実行された後に取得されたモデルであり、M個の目標ゲイン値およびM個の目標逆ゲイン値が、M個の初期ゲイン値およびM個の初期逆ゲイン値に対して反復訓練が実行された後に取得される、ステップと、
を含む。
第3の態様の任意選択の設計において、ゲイン処理後に取得された少なくとも1つの第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーは、予め設定された条件を満たし、予め設定された条件は、目標圧縮ビットレートに関連する。
第3の態様の任意選択の設計において、予め設定された条件は、少なくとも、目標圧縮ビットレートが大きいほど量子化されたデータの情報エントロピーがより大きくなることを示すことを含む。
第3の態様の任意選択の設計において、M個の第2の特徴値は、M個の目標ゲイン値と、対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される。
第3の態様の任意選択の設計において、少なくとも1つの第1の特徴マップは、第1の目標特徴マップを含み、第1の目標特徴マップは、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である。
第3の態様の任意選択の設計において、第1の画像は、目標オブジェクトを含み、M個の第1の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
第3の態様の任意選択の設計において、M個の目標ゲイン値のそれぞれと、対応する目標逆ゲイン値との積は、予め設定された範囲内に入り、M個の初期ゲイン値のそれぞれと、対応する初期逆ゲイン値との積は、予め設定された範囲内に入る。
第4の態様によると、本出願は、画像処理装置を提供する。本装置は、
第1の画像を取得するように構成された取得モジュールと、
少なくとも1つの第1の特徴マップを取得するために、第1の画像に対して特徴抽出を実行し、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ように構成された特徴抽出モジュールを備え、
取得モジュールが、目標圧縮ビットレートを取得し、目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数であり、
M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するように構成されたゲインモジュールと、
符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行し、少なくとも1つの処理された第1の特徴マップがM個の第2の特徴値を含む、ように構成された量子化およびエントロピー符号化モジュールと、
を備える。
第4の態様の任意選択の設計において、少なくとも1つの処理された第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーは、予め設定された条件を満たし、予め設定された条件は、目標圧縮ビットレートに関連する。
第4の態様の任意選択の設計において、予め設定された条件は、少なくとも、
目標圧縮ビットレートが大きいほど、量子化されたデータの情報エントロピーがより大きくなることを示すことを含む。
第4の態様の任意選択の設計において、符号化データに対応する圧縮ビットレートと目標圧縮ビットレートとの差は、予め設定された範囲内に入る。
第4の態様の任意選択の設計において、M個の第2の特徴値は、M個の目標ゲイン値と、対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される。
第4の態様の任意選択の設計において、少なくとも1つの第1の特徴マップは、第1の目標特徴マップを含み、第1の目標特徴マップは、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である。
第4の態様の任意選択の設計において、本装置は、
目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標ゲイン値を決定し、目標マッピング関係が、圧縮ビットレートとM個の目標ゲイン値との間の相関関係を示すために使用される、ように構成された決定モジュールをさらに備え、
目標マッピング関係が、複数の圧縮ビットレート、複数のゲインベクトル、および複数の圧縮ビットレートと複数のゲインベクトルとの間の相関関係を含み、目標圧縮ビットレートが、複数の圧縮ビットレートのうちの1つであり、M個の目標ゲイン値が、複数のゲインベクトルのうちの1つの要素であり、または
目標マッピング関係が、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標ゲイン値を含む。
第4の態様の任意選択の設計において、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1のゲイン値に対応し、第2の圧縮ビットレートは、M個の第2のゲイン値に対応し、M個の目標ゲイン値は、M個の第1のゲイン値およびM個の第2のゲイン値に対して補間演算を実行することによって取得される。
第4の態様の任意選択の設計において、M個の第1のゲイン値は、第1の目標ゲイン値を含み、M個の第2のゲイン値は、第2の目標ゲイン値を含み、M個の目標ゲイン値は、第3の目標ゲイン値を含み、第1の目標ゲイン値、第2の目標ゲイン値、および第3の目標ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標ゲイン値は、第1の目標ゲイン値および第2の目標ゲイン値に対して補間演算を実行することによって取得される。
第4の態様の任意選択の設計において、第1の画像は、目標オブジェクトを含み、M個の第1の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
第4の態様の任意選択の設計において、M個の目標ゲイン値のそれぞれは、1つの逆ゲイン値に対応し、逆ゲイン値は、符号化データの復号プロセスにおいて取得された特徴値を処理するために使用され、M個の目標ゲイン値のそれぞれと、対応する逆ゲイン値との積は、予め設定された範囲内に入る。
第4の態様の任意選択の設計において、本装置は、
少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、各第3の特徴値が1つの第1の特徴値に対応する、ように構成された復号モジュールをさらに備え、
取得モジュールが、M個の目標逆ゲイン値を取得し、各目標逆ゲイン値が1つの第3の特徴値に対応する、ようにさらに構成され、
本装置は、
M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値に対してそれぞれゲイン処理を実行するように構成された逆ゲインモジュールと、
第2の画像を取得するために、逆ゲイン処理後に取得された少なくとも1つの第2の特徴マップに対して画像再構成を行い、逆ゲイン処理後に取得された少なくとも1つの第2の特徴マップがM個の第4の特徴値を含む、ように構成された再構成モジュールと、
をさらに備える。
第4の態様の任意選択の設計において、M個の第4の特徴値は、M個の目標逆ゲイン値と、対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される。
第4の態様の任意選択の設計において、少なくとも1つの第2の特徴マップは、第2の目標特徴マップを含み、第2の目標特徴マップは、P個の第3の特徴値を含み、P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である。
第4の態様の光学設計において、決定モジュールは、
目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標逆ゲイン値を決定し、目標マッピング関係が圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用される、ようにさらに構成されている。
第4の態様の任意選択の設計において、目標マッピング関係は、複数の圧縮ビットレート、複数の逆ゲインベクトル、および複数の圧縮ビットレートと複数の逆ゲインベクトルとの間の相関関係を含み、目標圧縮ビットレートは、複数の圧縮ビットレートのうちの1つであり、M個の目標逆ゲイン値は、複数の逆ゲインベクトルのうちの1つの要素である。
第4の態様の任意選択の設計において、目標マッピング関係は、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標逆ゲイン値を含む。
第4の態様の任意選択の設計において、第2の画像は、目標オブジェクトを含み、M個の第3の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
第4の態様の任意選択の設計において、M個の目標ゲイン値のそれぞれと、対応する目標逆ゲイン値との積は、予め設定された範囲内に入る。
第4の態様の任意選択の設計において、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1の逆ゲイン値に対応し、第2の圧縮ビットレートは、M個の第2の逆ゲイン値に対応し、M個の目標逆ゲイン値は、M個の第1の逆ゲイン値およびM個の第2の逆ゲイン値に対して補間演算を実行することによって取得される。
第4の態様の任意選択の設計において、M個の第1の逆ゲイン値は、第1の目標逆ゲイン値を含み、M個の第2の逆ゲイン値は、第2の目標逆ゲイン値を含み、M個の目標逆ゲイン値は、第3の目標逆ゲイン値を含み、第1の目標逆ゲイン値、第2の目標逆ゲイン値、および第3の目標逆ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標逆ゲイン値は、第1の目標逆ゲイン値および第2の目標逆ゲイン値に対して補間演算を実行することによって取得される。
第5の態様によると、本出願は、画像処理装置を提供する。本装置は、
符号化データを取得するように構成された取得モジュールと、
少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、Nが正の整数である、ように構成された復号モジュールを備え、
取得モジュールが、M個の目標逆ゲイン値を取得し、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である、ようにさらに構成され、
M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理するように構成された逆ゲインモジュールと、
第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、少なくとも1つの処理された第2の特徴マップがM個の第4の特徴値を含む、ように構成された再構成モジュールと、
を備える。
第5の態様の任意選択の設計において、M個の第4の特徴値は、M個の目標逆ゲイン値と、対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される。
第5の態様の任意選択の設計において、少なくとも1つの第2の特徴マップは、第2の目標特徴マップを含み、第2の目標特徴マップは、P個の第3の特徴値を含み、P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である。
第5の態様の任意選択の設計において、取得モジュールは、目標圧縮ビットレートを取得するようにさらに構成され、
本装置は、
目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標逆ゲイン値を決定し、目標マッピング関係が、圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用される、決定モジュールをさらに備え、
目標マッピング関係が、複数の圧縮ビットレート、複数の逆ゲインベクトル、および複数の圧縮ビットレートと複数の逆ゲインベクトルとの間の相関関係を含み、目標圧縮ビットレートが、複数の圧縮ビットレートのうちの1つであり、M個の目標逆ゲイン値が、複数の逆ゲインベクトルのうちの1つの要素であり、または
目標マッピング関係が、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標逆ゲイン値を含む。
第5の態様の任意選択の設計において、第2の画像は、目標オブジェクトを含み、M個の第3の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
第5の態様の任意選択の設計において、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1の逆ゲイン値に対応し、第2の圧縮ビットレートは、M個の第2の逆ゲイン値に対応し、M個の目標逆ゲイン値は、M個の第1の逆ゲイン値およびM個の第2の逆ゲイン値に対して補間演算を実行することによって取得される。
第5の態様の任意選択の設計において、M個の第1の逆ゲイン値は、第1の目標逆ゲイン値を含み、M個の第2の逆ゲイン値は、第2の目標逆ゲイン値を含み、M個の目標逆ゲイン値は、第3の目標逆ゲイン値を含み、第1の目標逆ゲイン値、第2の目標逆ゲイン値、および第3の目標逆ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標逆ゲイン値は、第1の目標逆ゲイン値および第2の目標逆ゲイン値に対して補間演算を実行することによって取得される。
第6の態様によると、本出願は、画像処理装置を提供する。本装置は、
第1の画像を取得するように構成された取得モジュールと、
少なくとも1つの第1の特徴マップを取得するために、符号化ネットワークに基づいて第1の画像に対して特徴抽出を実行し、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ように構成された特徴抽出モジュールと、を備え、
取得モジュールが、目標圧縮ビットレートを取得し、目標圧縮ビットレートがM個の初期ゲイン値およびM個の初期逆ゲイン値に対応し、各初期ゲイン値が1つの第1の特徴値に対応し、各初期逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である、ようにさらに構成され、
M個の第2の特徴値を取得するために、M個の初期ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するように構成されたゲインモジュールと、
符号化データおよびビットレート損失を取得するために、量子化ネットワークおよびエントロピー符号化ネットワークに基づいて、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行し、ゲイン処理後に取得された少なくとも1つの第1の特徴マップがM個の第2の特徴値を含む、ように構成された量子化およびエントロピー符号化モジュールと、
少なくとも1つの第2の特徴マップを取得するために、エントロピー復号ネットワークに基づいて符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがM個の第3の特徴値を含み、各第3の特徴値が1つの第1の特徴値に対応する、ように構成された復号モジュールと、
M個の第4の特徴値を取得するために、M個の初期逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理するように構成された逆ゲインモジュールと、
第2の画像を取得するために、復号ネットワークに基づいて少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、少なくとも1つの処理された特徴マップがM個の第4の特徴値を含む、ように構成された再構成モジュールと、を備え、
取得モジュールが、第1の画像に対する第2の画像の歪み損失を取得するようにさらに構成され、
第1の画像と第2の画像との間の画像歪み値が第1の予め設定された程度に達するまで、損失関数を使用することによって、第1の符号化/復号ネットワーク、M個の初期ゲイン値、およびM個の初期逆ゲイン値に対して共同訓練を実行し、画像歪み値がビットレート損失および歪み損失に関連し、符号化/復号ネットワークが符号化ネットワーク、量子化ネットワーク、エントロピー符号化ネットワーク、およびエントロピー復号ネットワークを含む、ように構成された訓練モジュールと、
第2の符号化/復号ネットワーク、M個の目標ゲイン値、およびM個の目標逆ゲイン値を出力し、第2の符号化/復号ネットワークが、第1の符号化/復号ネットワークに対して反復訓練が実行された後に取得されたモデルであり、M個の目標ゲイン値およびM個の目標逆ゲイン値が、M個の初期ゲイン値およびM個の初期逆ゲイン値に対して反復訓練が実行された後に取得される、ように構成された出力モジュールと、
を備える。
第6の態様の任意選択の設計において、ゲイン処理後に取得された少なくとも1つの第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーは、予め設定された条件を満たし、予め設定された条件は、目標圧縮ビットレートに関連する。
第6の態様の任意選択の設計において、予め設定された条件は、少なくとも、
目標圧縮ビットレートが大きいほど、量子化されたデータの情報エントロピーがより大きくなることを示すことを含む。
第6の態様の任意選択の設計において、M個の第2の特徴値は、M個の目標ゲイン値と、対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される。
第6の態様の任意選択の設計において、少なくとも1つの第1の特徴マップは、第1の目標特徴マップを含み、第1の目標特徴マップは、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である。
第6の態様の任意選択の設計において、第1の画像は、目標オブジェクトを含み、M個の第1の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
第6の態様の任意選択の設計において、M個の目標ゲイン値のそれぞれと、対応する目標逆ゲイン値との積は、予め設定された範囲内に入り、M個の初期ゲイン値のそれぞれと、対応する初期逆ゲイン値との積は、予め設定された範囲内に入る。
第7の態様によると、本出願の一実施形態は、実行装置を提供する。実行装置は、メモリ、プロセッサ、およびバスシステムを含むことができる。メモリは、プログラムを記憶するように構成され、プロセッサは、メモリ内のプログラムを実行するように構成され、本プログラムは、
第1の画像を取得するステップと、
少なくとも1つの第1の特徴マップを取得するために、第1の画像に対して特徴抽出を実行するステップであって、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ステップと、
目標圧縮ビットレートを取得するステップであって、目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数である、ステップと、
M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するステップと、
符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行するステップであって、少なくとも1つの処理された第1の特徴マップがM個の第2の特徴値を含む、ステップと、
を含む。
第7の態様の任意選択の設計において、実行装置は、仮想現実VR装置、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、サーバ、またはインテリジェントウェアラブルデバイスである。
本出願の第7の態様では、プロセッサは、第1の態様または第1の態様の任意の可能な実施態様のステップを実行するようにさらに構成されてもよい。詳細については、第1の態様を参照されたい。詳細は、ここでは再び説明されない。
第8の態様によると、本出願の一実施形態は、実行装置を提供する。実行装置は、メモリ、プロセッサ、およびバスシステムを含むことができる。メモリは、プログラムを記憶するように構成され、プロセッサは、メモリ内のプログラムを実行するように構成され、本プログラムは、
符号化データを取得するステップと、
少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を実行するステップであって、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、Nが正の整数である、ステップと、
M個の目標逆ゲイン値を取得するステップであって、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である、ステップと、
M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理するステップと、
第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行うステップであって、少なくとも1つの処理された第2の特徴マップがM個の第4の特徴値を含む、ステップと、
を含む。
第8の態様の任意選択の設計において、実行装置は、仮想現実VR装置、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、サーバ、またはインテリジェントウェアラブルデバイスである。
本出願の第8の態様では、プロセッサは、第2の態様または第2の態様の任意の可能な実施態様のステップを実行するようにさらに構成されてもよい。詳細については、第2の態様を参照されたい。詳細は、ここでは再び説明されない。
第9の態様によると、本出願の一実施形態は、訓練装置を提供する。訓練装置は、メモリと、プロセッサと、バスシステムとを含むことができる。メモリは、プログラムを記憶するように構成され、プロセッサは、メモリ内のプログラムを実行するように構成され、本プログラムは、
第1の画像を取得するステップと、
少なくとも1つの第1の特徴マップを取得するために、符号化ネットワークに基づいて第1の画像に対して特徴抽出を実行するステップであって、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ステップと、
目標圧縮ビットレートを取得するステップであって、目標圧縮ビットレートがM個の初期ゲイン値およびM個の初期逆ゲイン値に対応し、各初期ゲイン値が1つの第1の特徴値に対応し、各初期逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である、ステップと、
M個の第2の特徴値を取得するために、M個の初期ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するステップと、
符号化データおよびビットレート損失を取得するために、量子化ネットワークおよびエントロピー符号化ネットワークに基づいて、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行するステップであって、ゲイン処理後に取得された少なくとも1つの第1の特徴マップがM個の第2の特徴値を含む、ステップと、
少なくとも1つの第2の特徴マップを取得するために、エントロピー復号ネットワークに基づいて符号化データに対してエントロピー復号を実行するステップであって、少なくとも1つの第2の特徴マップがM個の第3の特徴値を含み、各第3の特徴値が1つの第1の特徴値に対応する、ステップと、
M個の第4の特徴値を取得するために、M個の初期逆ゲイン値に基づいて対応する第3の特徴値をそれぞれ処理するステップと、
第2の画像を取得するために、復号ネットワークに基づいて少なくとも1つの処理された第2の特徴マップに対して画像再構成を行うステップであって、少なくとも1つの処理された特徴マップがM個の第4の特徴値を含む、ステップと、
第1の画像に対する第2の画像の歪み損失を取得するステップと、
第1の画像と第2の画像との間の画像歪み値が第1の予め設定された程度に達するまで、損失関数を使用することによって、第1の符号化/復号ネットワーク、M個の初期ゲイン値、およびM個の初期逆ゲイン値に対して共同訓練を実行するステップであって、画像歪み値がビットレート損失および歪み損失に関連し、符号化/復号ネットワークが符号化ネットワーク、量子化ネットワーク、エントロピー符号化ネットワーク、およびエントロピー復号ネットワークを含む、ステップと、
第2の符号化/復号ネットワーク、M個の目標ゲイン値、およびM個の目標逆ゲイン値を出力するステップであって、第2の符号化/復号ネットワークが、第1の符号化/復号ネットワークに対して反復訓練が実行された後に取得されたモデルであり、M個の目標ゲイン値およびM個の目標逆ゲイン値が、M個の初期ゲイン値およびM個の初期逆ゲイン値に対して反復訓練が実行された後に取得される、ステップと、
を含む。
本出願の第9の態様では、プロセッサは、第3の態様または第3の態様の任意の可能な実施態様のステップを実行するようにさらに構成されてもよい。詳細については、第3の態様を参照されたい。詳細は、ここでは再び説明されない。
第10の態様によると、本出願の一実施形態は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は、コンピュータプログラムを記憶する。コンピュータプログラムがコンピュータ上で動作すると、コンピュータは、第1の態様から第3の態様のいずれか一つに記載の画像処理方法を実行することを可能にされる。
第11の態様によると、本出願の一実施形態は、コンピュータプログラムを提供する。コンピュータプログラムがコンピュータ上で動作すると、コンピュータは、第1の態様から第3の態様のいずれか一つに記載の画像処理方法を実行することを可能にされる。
第12の態様によると、本出願は、チップシステムを提供する。チップシステムは、前述の態様における機能を実施する際に、例えば、前述の方法におけるデータおよび/または情報を送信または処理する際に、実行装置または訓練装置をサポートするように構成されたプロセッサを含む。想定し得る設計では、チップシステムは、メモリをさらに含む。メモリは、実行装置または訓練装置の必要なプログラム命令およびデータを記憶するように構成されている。チップシステムは、チップを含んでもよく、またはチップおよび別のディスクリート部品を含んでもよい。
本出願の実施形態は、画像処理方法を提供する。第1の画像が取得され、少なくとも1つの第1の特徴マップを取得するために、第1の画像に対して特徴抽出が実行され、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数であり、目標圧縮ビットレートが取得され、目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数であり、対応する第1の特徴値は、M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいてそれぞれ処理され、符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化が実行され、少なくとも1つの処理された第1の特徴マップがM個の第2の特徴値を含む。前述の方式では、圧縮ビットレート制御を実施するために、異なる目標圧縮ビットレートに対して異なる目標ゲイン値が設定される。
人工知能メインフレームワークの構造の概略図である。 本出願の一実施形態によるアプリケーションシナリオを示す図である。 本出願の一実施形態によるアプリケーションシナリオを示す図である。 本出願の一実施形態による画像処理方法の実施形態を示す図である。 CNNベースの画像処理プロセスを示す図である。 本出願の一実施形態による圧縮ビットレートでの特徴マップの情報エントロピー分布を示す図である。 本出願の一実施形態による圧縮ビットレートでの特徴マップの情報エントロピー分布を示す図である。 本出願の一実施形態による目標関数マッピング関係を示す図である。 本出願の一実施形態による画像処理方法の一実施形態を示す図である。 本出願の一実施形態による画像圧縮手順を示す図である。 本出願の一実施形態による圧縮効果を示す図である。 本出願の一実施形態による訓練プロセスを示す図である。 本出願の一実施形態による画像処理プロセスを示す図である。 本発明の一実施形態による画像処理システムのシステムアーキテクチャを示す図である。 本出願の一実施形態による画像処理方法の概略流れ図である。 本発明の一実施形態による画像処理装置の構造の概略図である。 本発明の一実施形態による画像処理装置の構造の概略図である。 本発明の一実施形態による画像処理装置の構造の概略図である。 本出願の一実施形態による実行装置の構造の概略図である。 本出願の一実施形態による訓練装置の構造の概略図である。 本出願の一実施形態によるチップの構造の概略図である。
以下、本発明の実施形態における図面を参照して本発明の実施形態を説明する。本発明の実施形態で使用される用語は、単に本発明の特定の実施形態を説明するために使用され、本発明を限定することは意図されていない。
以下、本出願の実施形態について図面を参照して説明する。当業者は、本出願の実施形態において提供される技術的解決策が、技術が進化し、新たなシナリオが出現するにつれて、同様の技術的問題にも適用されることを学ぶことができる。
本出願の明細書、特許請求の範囲、および添付の図面において、「第1」、「第2」などの用語は、同様の対象を区別することが意図されているが、必ずしも特定の順番または順序示すものではない。このように使用される用語は、適切な状況において交換可能であり、これは、本出願の実施形態において同じ属性を有する対象を説明する際に使用される区別方式にすぎないことを理解されたい。加えて、「含む(include)」、「有する(have)」という用語およびそれらの任意の他の変形は、非排他的な包含をカバーすることを意味しており、したがって、一連のユニットを含むプロセス、方法、システム、製品、またはデバイスは、必ずしもそれらのユニットに限定されず、明示的に列挙されていない他のユニット、またはそのようなプロセス、方法、製品、もしくはデバイスに固有の他のユニットを含むことができる。
まず、人工知能システムの全体的な動作手順が説明される。図1は、人工知能メインフレームワークの構造の概略図である。以下は、前述の人工知能メインフレームワークを、2つの次元、すなわち、「インテリジェント情報チェーン」(横軸)および「ITバリューチェーン」(縦軸)から説明する。「インテリジェント情報チェーン」は、データ取得からデータ処理までの全般的なプロセスを反映する。例えば、プロセスは、インテリジェント情報知覚、インテリジェント情報表現および形成、インテリジェント推論、インテリジェント意思決定、ならびにインテリジェント実行および出力の一般的なプロセスであってもよい。このプロセスでは、データは、「データ情報-知識-知恵」の凝縮プロセスを受ける。「ITバリューチェーン」は、人工知能が情報技術産業にもたらす価値を、人間の知能の基盤となるインフラストラクチャおよび情報(技術の提供や処理の実装)から、システムの産業生態プロセスに反映する。
(1)インフラストラクチャ
インフラストラクチャは、人工知能システムに計算能力のサポートを提供し、外界と通信し、基本プラットフォームを使用することによってサポートを実施する。インフラストラクチャは、センサを使うことによって外部と通信する。計算能力は、インテリジェントチップ(CPU、NPU、GPU、ASIC、またはFPGAなどのハードウェアアクセラレーションチップ)によって提供される。ベースプラットフォームは、分散計算フレームワークおよびネットワークなどの関連するプラットフォームの保障およびサポートを含み、クラウドストレージおよび計算、相互接続および相互作用ネットワークなどを含むことができる。例えば、センサは、データを取得するために外部と通信し、データは、計算のために、基本プラットフォームによって提供される分散コンピューティングシステム内のインテリジェントチップに提供される。
(2)データ
インフラストラクチャの上位層からのデータは、人工知能分野におけるデータソースを示す。データは、グラフ、画像、音声、テキストに関連し、従来の装置のモノのインターネットデータにさらに関連し、既存のシステムのサービスデータと、力、変位、液位、温度、湿度などの知覚データと、を含む。
(3)データ処理
データ処理は、通常、データ訓練、機械学習、深層学習、検索、推論、および意思決定などの方式を含む。
機械学習および深層学習は、データに対して記号化および形式化されたインテリジェント情報モデリング、抽出、前処理、訓練などを行うことを意味することがある。
推論は、コンピュータまたはインテリジェントシステムにおいて人間のインテリジェントな推論方法をシミュレートし、推論制御ポリシーに基づいて、形式化された情報を使用して機械思考を実行し、問題を解決するプロセスである。推論の典型的な機能は、検索およびマッチングである。
意思決定は、インテリジェント情報の推論の後に決定が行われるプロセスであり、通常、分類、ランク付け、および予測などの機能を提供する。
(4)一般的な能力
データに対して上述のデータ処理が行われた後、翻訳、テキスト分析、コンピュータビジョン処理、音声認識、画像認識などを行うために、いくつかの一般的な能力が、データ処理結果、例えば、アルゴリズムまたは一般的なシステムに基づいてさらに形成されてもよい。
(5)インテリジェント製品および産業応用
インテリジェント製品および産業応用とは、様々な分野における人工知能システムの製品および応用であり、人工知能ソリューション全体のカプセル化、インテリジェント情報意思決定の製品化、および着地応用の実現を示す。その応用分野は、主にインテリジェント端末、インテリジェント交通、インテリジェント医療、自動運転、安全都市などを含む。
本出願は、人工知能分野における画像処理分野に適用されてもよく、以下は、製品着地の複数の適用シナリオを説明する。
I.端末装置における画像圧縮処理への適用
本出願の実施形態において提供される画像圧縮方法は、端末装置における画像圧縮プロセスに適用されてもよく、具体的には、端末装置におけるアルバム、ビデオ監視などに適用されてよい。詳細については、図2aを参照されたい。図2aは、本出願の一実施形態による適用シナリオを示す。図2aに示されているように、端末装置は、圧縮対象の写真を取得することができる。圧縮対象の写真は、カメラによって撮影された写真またはビデオから抽出された写真のフレームであってもよい。端末装置は、埋め込みニューラルネットワーク処理ユニット(neural network processing unit、NPU)の人工知能(artificial intelligence、AI)符号化ユニットを使用することによって、取得された圧縮対象の写真に対して特徴抽出を実行し、画像データを冗長度がより低い出力特徴に変換し、出力特徴内の点の確率推定値を生成することができる。中央処理装置(central processing unit、CPU)は、出力特徴における各点の確率推定値を使用することによって、抽出された出力特徴に対して算術符号化を行い、出力特徴の符号化冗長度を低減し、画像圧縮プロセスにおけるデータ伝送量をさらに低減し、符号化後に得られた符号化データをデータファイルの形式で対応する記憶位置に記憶する。ユーザが記憶位置に記憶されたファイルを取得する必要がある場合、CPUは、対応する記憶位置から、記憶されたファイルを取得およびロードし、算術復号に基づいて復号された特徴マップを取得し、再構成画像を取得するために、NPU内のAI復号ユニットを使用することによって特徴マップに対して再構成を行うことができる。
2.クラウド側での画像圧縮処理への適用
本出願の実施形態において提供される画像圧縮方法は、クラウド側での画像圧縮プロセスに適用されてもよく、具体的には、クラウド側のサーバにおいてクラウドアルバムなどの機能に適用されてもよい。詳細については、図2bを参照されたい。図2bは、本出願の一実施形態による適用シナリオを示す。図2bに示されているように、端末装置は、圧縮対象の写真を取得することができる。圧縮対象の写真は、カメラによって撮影された写真またはビデオから抽出された写真のフレームであってもよい。端末装置は、符号化データを取得するために、CPUを使用することによって、圧縮対象の写真に対して可逆符号化圧縮を行うことができ、可逆符号化圧縮は、例えば、従来技術における任意の可逆圧縮方法に基づいて実行されてよいが、それに基づいて実行されることに限定されない。端末装置は、符号化データをクラウド側のサーバに送信することができる。サーバは、圧縮対象の画像を取得するために、受信された符号化データに対して対応する可逆復号を実行することができる。サーバは、グラフィックス処理ユニット(graphics processing unit、GPU)内のAI符号化ユニットを使用することによって、取得された圧縮対象の写真に対して特徴抽出を実行して、画像データを冗長度がより低い出力特徴に変換し、出力特徴内の点の確率推定値を生成することができる。CPUは、出力特徴内の点の確率推定値を使用することによって、抽出された出力特徴に対して算術符号化を実行して、出力特徴の符号化冗長度を低減し、画像圧縮プロセスにおけるデータ伝送量をさらに低減し、符号化後に得られた符号化データをデータファイルの形式で対応する記憶位置に記憶する。ユーザが記憶位置に記憶されたファイルを取得する必要がある場合、CPUは、対応する記憶位置から、記憶されたファイルを取得およびロードし、算術復号に基づいて復号された特徴マップを取得し、再構成画像を取得するために、NPU内のAI復号ユニットを使用することによって特徴マップに対して再構成を行うことができる。サーバは、符号化データを取得するために、CPUを使用することによって、圧縮対象の写真に対して可逆符号化圧縮を実行することができ、可逆符号化圧縮は、例えば、従来技術における任意の可逆圧縮方法に基づいて実行されてよいが、それに基づいて実行されることに限定されない。サーバは、符号化データを端末装置に送信することができ、端末装置は、復号画像を取得するために、受信された符号化データに対して対応する可逆復号を実行することができる。
本出願の本実施形態では、AI符号化ユニットと量子化ユニットとの間に、特徴マップ内の特徴値に対してゲイン処理を行うステップが追加されてよく、算術復号ユニットとAI復号ユニットとの間に、特徴マップ内の特徴値に対して逆ゲイン処理を行うステップが追加されてよい。次に、本発明の実施形態における画像処理方法が詳細に説明される。
本出願の実施形態は大量のニューラルネットワークアプリケーションに関するものであるため、理解を容易にするために、以下ではまず、本出願の実施形態において使用され得るニューラルネットワークの関連用語および概念について説明する。
(1)ニューラルネットワーク
ニューラルネットワークは、ニューロンを含むことができる。ニューロンは、xsおよび切片1を入力として使用する演算ユニットであってもよく、演算ユニットの出力は、以下の通りであってもよい。
Figure 2023512570000002
ここで、
s=1,2,…,nであり、nは1よりも大きい自然数であり、WsはXsの重みであり、bはニューロンのオフセットである。fはニューロンの活性化関数(activation function)であり、活性化関数は、非線形特性をニューラルネットワークに導入して、ニューロンの入力信号を出力信号に変換するために使用される。活性化関数の出力信号は、次の畳み込み層の入力として使用されてもよく、活性化関数は、sigmoid関数であってもよい。ニューラルネットワークは、複数の単一ニューロンを一緒に接続することによって構成されるネットワークである。具体的には、あるニューロンの出力が別のニューロンの入力であってもよい。各ニューロンの入力は、局所受容野の特徴を抽出するために前の層の局所受容野に接続され得る。局所受容野は、いくつかのニューロンを含む領域であってもよい。
(2)深層ニューラルネットワーク
多層ニューラルネットワークとも呼ばれる深層ニューラルネットワーク(deep neural network、DNN)は、複数の隠れ層を有するニューラルネットワークとして理解されてもよい。DNNは、異なる層の位置に基づいて分割される。DNN内部のニューラルネットワークは、入力層、隠れ層および出力層の3つのタイプに分類される。一般に、最初の層は入力層であり、最後の層は出力層であり、中間の層は隠れ層である。層は、完全に接続されている。具体的には、第i層の任意のニューロンは、必ず第(i+1)層の任意のニューロンに接続されている。
DNNは、非常に複雑に見えるが、各層の働きは、複雑ではない。つまり、DNNは、以下の線形関係式である。
Figure 2023512570000003
ここで、
Figure 2023512570000004
は入力ベクトルであり、
Figure 2023512570000005
は出力ベクトルであり、
Figure 2023512570000006
はオフセットベクトルであり、Wは重み行列(係数とも呼ばれる)であり、α()は活性化関数である。各層は、出力ベクトル
Figure 2023512570000007
を得るために、単に、入力ベクトル
Figure 2023512570000008
に対してこのような単純な演算を実行する。DNNの大量の層に起因して、大量の係数Wおよびオフセットベクトル
Figure 2023512570000009
も存在する。これらのパラメータは、DNNにおいて以下のように定義される。係数Wが一例として使用される。3層DNNにおいて、第2層の4番目のニューロンから第3層の2番目のニューロンへの線形係数が
Figure 2023512570000010
と定義されると仮定される。上付き文字3は、係数Wが位置される層を表し、下付き文字は、出力の第3層のインデックス2および入力の第2層のインデックス4に対応する。
結論として、第(L-1)層のk番目のニューロンから第L層のj番目のニューロンへの係数が
Figure 2023512570000011
と定義される。
入力層にパラメータWが存在しないことに留意されたい。深層ニューラルネットワークでは、隠れ層が多いほど、ネットワークは、現実世界における複雑なケースを記述する能力が高くなる。理論的には、パラメータの多いモデルほどより複雑になり、「容量」が大きくなる。これは、モデルがより複雑な学習タスクを完了できることを示す。深層ニューラルネットワークの訓練は、重み行列を学習するプロセスであり、訓練の最終目的は、訓練された深層ニューラルネットワークのすべての層の重み行列(複数の層のベクトルWによって形成された重み行列)を取得することである。
(3)畳み込みニューラルネットワーク
畳み込みニューラルネットワーク(convolutional neuron network、CNN)は、畳み込み構造を有する深層ニューラルネットワークである。畳み込みニューラルネットワークは、畳み込み層およびサブサンプリング層を含む特徴抽出器を含む。特徴抽出器は、フィルタとみなすことができる。畳み込み層は、畳み込みニューラルネットワークにおいて、入力信号に対して畳み込み処理を行うニューロン層である。畳み込みニューラルネットワークの畳み込み層では、1つのニューロンは、隣接する層のニューロンの一部にのみ接続されることがある。畳み込み層は、一般に、いくつかの特徴面を含み、各特徴面は、いくつかの矩形に配置されたニューロンを含むことができる。同じ特徴面内のニューロンは重みを共有し、ここで共有される重みは畳み込みカーネルである。重みの共有は、画像情報を抽出する方式が位置に無関係であると理解されてもよい。畳み込みカーネルは、ランダムなサイズの行列の形態で初期化されてもよい。畳み込みニューラルネットワークの訓練プロセスにおいて、学習を通じて畳み込みカーネルに対して適切な重みが取得され得る。加えて、重みの共有は、畳み込みニューラルネットワークの層間の接続が低減され、過剰適合のリスクが低減されるため有利である。
(4)損失関数
深層ニューラルネットワークを訓練するプロセスでは、深層ニューラルネットワークの出力が実際に予測された値に最大限近いことが期待されるため、現在のネットワークの予測値が、期待される目標値と比較されてもよく、次いで、ニューラルネットワークの各層における重みベクトルが、現在の予測値と目標値との差に基づいて更新される(通常、最初の更新の前に初期化プロセスがあり、言い換えれば、パラメータが深層ニューラルネットワークの各層に対して予め設定される)。例えば、ネットワークの予測値が大きい場合、深層ニューラルネットワークが実際に期待される目標値、または実際に期待される目標値に近い値を予測することができるまで、予測値を下げるように重みベクトルが調整される。したがって、「比較によってどのようにして予測値と目標値との差を得るか」は、予め定義される必要がある。これが、損失関数(loss function)または目的関数(objective function)である。損失関数および目的関数は、予測値と目標値との差を測定するために使用される重要な式である。損失関数が例として使用される。損失関数の出力値(loss)が大きいほど、差が大きいことを示す。したがって、深層ニューラルネットワークの訓練は、lossをできるだけ最小化するプロセスである。
(5)逆伝播アルゴリズム
訓練プロセスにおいて、ニューラルネットワークは、誤差逆伝播(back propagation、BP)アルゴリズムを使用することによって初期のニューラルネットワークモデルにおけるパラメータの値を補正することができ、それにより、ニューラルネットワークモデルの再構成誤差損失がますます小さくなる。具体的には、出力に誤差損失が生成されるまで入力信号が順方向に転送され、誤差逆伝播誤差損失情報に基づいて、誤差損失が小さくなるように初期のニューラルネットワークモデルのパラメータが更新される。逆伝播アルゴリズムは、主に誤差損失に依存する逆伝播の動きであり、最適なニューラルネットワークモデルのパラメータ、例えば、重み行列を取得することを目的とする。
本出願の実施形態は、まずアプリケーションシナリオが端末装置である例を使用することによって説明を提供する。
例えば、端末装置は、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、またはインテリジェントウェアラブルデバイスであってよく、端末装置は、取得された写真に対して圧縮処理を行うことができる。別の例では、端末装置は、仮想現実(virtual reality、VR)装置であってもよい。別の例として、本出願の実施形態は、インテリジェントモニタリングにも適用されてもよい。インテリジェントモニタリングでは、カメラが構成されてもよい。この場合、インテリジェントモニタリングでは、カメラを用いることによって圧縮対象の写真などが取得されてもよい。本出願の実施形態は、画像圧縮が行われる必要がある他のシナリオにさらに適用されてもよいことを理解されたい。他のアプリケーションシナリオは、ここでは1つずつ列挙されない。
図3は、本出願の一実施形態による画像処理方法の一実施形態を示す。図3に示されるように、本出願の本実施形態において提供される画像処理方法は、以下のステップを含む。
301.第1の画像を取得する。
本出願の本実施形態では、第1の画像は、圧縮対象の画像である。第1の画像は、カメラを使用することによって前述の端末装置によって撮影された画像であってもよく、または第1の画像は、端末装置から取得された画像(例えば、端末装置のアルバムに記憶された画像、または端末装置によってクラウドから取得された写真)であってもよい。第1の画像は、画像圧縮要件を有する画像であってよく、処理対象の画像のソースは本出願において限定されないことを理解されたい。
302.少なくとも1つの第1の特徴マップを取得するために、第1の画像に対して特徴抽出を実行し、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である。
本出願の本実施形態では、任意選択で、端末装置は、少なくとも1つの第1の特徴マップを取得するために、CNNに基づいて第1の画像に対して特徴抽出を実行することができる。以下では、第1の特徴マップは、チャネルワイズ特徴マップと呼ばれることもあり、各セマンティックチャネルは、1つの第1の特徴マップ(チャネルワイズ特徴マップ)に対応する。
本出願の本実施形態において、図4は、CNNベースの画像処理プロセスを示す。図4は、第1の画像401、CNN402、および複数の第1の特徴マップ403を示す。CNN402は、複数のCNN層を含むことができる。
例えば、CNN402は、入力データ(第1の画像)の左上3×3画素に重みを乗算し、第1の特徴マップの左上ニューロンにマッピングすることができる。乗算される重みも3×3である。次いで、同様の処理において、CNN402は、入力データ(第1の画像)を左から右へ、上から下へ走査し、入力データに重みを乗算して特徴マップのニューロンにマッピングする。本明細書では、使用される3×3重みは、フィルタまたはフィルタコアと呼ばれる。すなわち、CNN402にフィルタを適用する処理は、フィルタコアを用いることによって畳み込み演算を行う処理であり、抽出された結果は、「第1の特徴マップ」と呼ばれる。第1の特徴マップは、マルチチャネルワイズ特徴マップと呼ばれることもあり、「マルチチャネルワイズ特徴マップ」という用語は、複数のチャネルに対応する特徴マップのセットであってもよい。一実施形態によると、マルチチャネルワイズ特徴マップは、CNN402によって生成されてもよく、CNN402は、CNNの「特徴抽出層」または「畳み込み層」とも呼ばれる。CNNの層は、出力から入力へのマッピングを定義することができる。層によって定義されたマッピングは、入力データに適用される1つまたは複数のフィルタコア(畳み込みコア)として実行され、次の層に出力される特徴マップを生成する。入力データは、特定の層の画像または特徴マッピング画像であってもよい。
図4を参照されたい。順方向実行中、CNN402は、第1の画像401を受信し、出力としてマルチチャネルワイズ特徴マップ403を生成する。加えて、順方向実行中、次の層402は、入力としてマルチチャネルワイズ特徴マップ403を受信し、出力としてマルチチャネルワイズ特徴マップ403を生成する。次いで、各後続の層は、前の層で生成されたマルチチャネルワイズ特徴マップを受信し、出力として次のマルチチャネルワイズ特徴マップを生成する。最後に、第(N)層で生成されたマルチチャネルワイズ特徴マップが受信される。
加えて、入力特徴マップを出力特徴マップにマッピングするための畳み込みコアを適用する動作に加えて、別の処理動作が行われてもよい。別の処理動作の例は、活性化関数の適用、プーリング、リサンプリングなどを含むことができるが、これらに限定されない。
上記は、第1の画像に対して特徴抽出を実行するための1つの実施態様にすぎないことに留意されたい。実際の応用では、具体的な特徴抽出の実施態様は限定されない。
本出願の本実施形態では、前述の方式において、元の画像(第1の画像)が、CNN畳み込みニューラルネットワークを使用することによって別の空間(少なくとも1つの第1の特徴マップ)に変換される。任意選択で、192個の特徴マップがあり、すなわち、192個のセマンティックチャネルがあり、各セマンティックチャネルは、1つの第1の特徴マップに対応する。本出願の本実施形態では、少なくとも1つの第1の特徴マップは、3次元テンソルの形態であってもよく、テンソルのサイズは、192×w×hであってもよく、w×hは、単一チャネルの第1の特徴マップに対応する行列の幅および長さである。
本出願の本実施形態では、複数の特徴値を取得するために、第1の画像に対して特徴抽出が実行されてもよい。少なくとも1つの第1の特徴マップは、複数の特徴値の一部または全部を含むことができる。圧縮結果に対して比較的小さい影響を及ぼす一部のセマンティックチャネルに対応する特徴マップに対してはゲイン処理が行われなくてもよい。この場合、少なくとも1つの第1の特徴マップは、複数の特徴値の一部を含む。
本出願の本実施形態では、少なくとも1つの第1の特徴マップは、N個の第1の特徴値を含み、Nが正の整数である。
303.目標圧縮ビットレートを取得し、目標圧縮ビットレートは、M個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数である。
本出願の本実施形態では、端末装置は、目標圧縮ビットレートを取得することができる。目標圧縮ビットレートは、ユーザによって指定されてもよく、第1の画像に基づいて端末装置によって決定されてもよい。これは、ここでは限定されない。
本出願の本実施形態では、目標圧縮ビットレートは、M個の目標ゲイン値に対応し、各目標ゲイン値は、1つの第1の特徴値に対応し、MがN以下の正の整数である。すなわち、目標圧縮ビットレートとM個の目標ゲイン値との間に特定の相関関係があり、目標圧縮ビットレートを取得した後、端末装置は、取得された目標圧縮ビットレートに基づいて、M個の対応する目標ゲイン値を決定することができる。
任意選択で、一実施形態では、端末装置は、目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標ゲイン値を決定することができる。目標マッピング関係は、圧縮ビットレートとM個の目標ゲイン値との間の相関関係を示すために使用される。目標マッピング関係は、予め記憶されたマッピング関係であってもよい。目標圧縮ビットレートを取得した後、端末装置は、対応する記憶位置において、目標圧縮ビットレートに対応する目標マッピング関係を直接見つけることができる。
任意選択で、一実施形態では、目標マッピング関係は、複数の圧縮ビットレート、複数のゲインベクトル、および複数の圧縮ビットレートと複数のゲインベクトルとの間の相関関係を含んでもよく、目標圧縮ビットレートは、複数の圧縮ビットレートのうちの1つであり、M個の目標ゲイン値は、複数のゲインベクトルのうちの1つの要素である。
本出願の本実施形態では、目標マッピング関係は、予め設定されたテーブルまたは別の形態であってよい。目標マッピング関係は、複数の圧縮ビットレートと、圧縮ビットレートに対応するゲインベクトルとを含む。ゲインベクトルは、複数の要素を含むことができ、各圧縮ビットレートは、M個の目標ゲイン値に対応し、M個の目標ゲイン値は、各圧縮ビットレートに対応するゲインベクトルに含まれる要素である。
任意選択で、一実施形態では、目標マッピング関係は、目標関数マッピング関係を含むことができ、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標ゲイン値を含む。
本出願の本実施形態では、目標マッピング関係は、予め設定された目標関数マッピング関係または別の形態であってもよい。目標関数マッピング関係は、少なくとも圧縮ビットレートとゲイン値との対応関係を示すことができる。目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標ゲイン値を含む。
本出願の本実施形態では、M個の目標ゲイン値の一部または全部が同じであってもよいことに留意されたい。この場合、M個の目標特徴値内の、第1の特徴値に対応する目標ゲイン値を示すために、M個未満の数が使用されてもよい。例えば、一実施形態では、少なくとも1つの第1の特徴マップは、第1の目標特徴マップを含み、第1の目標特徴マップは、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である。すなわち、P個の第1の特徴値は、同じセマンティックチャネルの特徴値であり、同じ目標ゲイン値に対応する。この場合、P個の第1の特徴値は、1つのゲイン値を使用することによって示されてもよい。
別の実施形態では、各セマンティックチャネルに対応する第1の特徴値のゲイン値が同じである場合、M個の第1のゲイン値は、セマンティックチャネルと同じ数の目標ゲイン値を使用することによって示されてもよい。具体的には、192個のセマンティックチャネル(第1の特徴マップ)がある場合、M個の第1のゲイン値は、192個のゲイン値を使用することによって示されてもよい。
本出願の本実施形態では、少なくとも1つの第1の特徴マップのすべてまたは一部のそれぞれに含まれる第1の特徴値は、同じ目標ゲイン値に対応することができる。この場合、少なくとも1つの第1の特徴マップは、第1の目標特徴マップを含み、第1の目標特徴マップは、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である。すなわち、第1の目標特徴マップは、少なくとも1つの第1の特徴マップのうちの1つであり、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応する。
本出願の本実施形態では、N個の第1の特徴値は、少なくとも1つの第1の特徴マップに含まれるすべての特徴値であってよい。MがNと同じである場合、これは、少なくとも1つの第1の特徴マップに含まれるすべての特徴値のそれぞれが、対応する目標ゲイン値を有することに相当する。MがN未満である場合、これは、少なくとも1つの第1の特徴マップに含まれる特徴値の一部が、対応する目標ゲイン値を有することに相当する。一実施形態では、第1の特徴マップの数が1よりも大きい場合、少なくとも1つの第1の特徴マップの一部のそれぞれに含まれるすべての特徴値のそれぞれは、対応する目標ゲイン値を有し、少なくとも1つの第1の特徴マップの一部のそれぞれに含まれる特徴値の一部は、対応する目標ゲイン値を有する。
任意選択で、一実施形態では、第1の画像は、目標オブジェクトを含み、M個の第1の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
本出願の本実施形態では、一部のシナリオにおいて、M個の第1の特徴値は、N個の第1の特徴値内の、1つまたは複数の目標オブジェクトに対応する特徴値である。例えば、モニタで撮影された映像コンテンツについては、ゲイン処理は、シーンが比較的固定されている領域に対しては行われなくてもよく、ゲイン処理は、その領域を通過する物体や人物のコンテンツに対して行われてもよい。
304.M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理する。
本出願の本実施形態では、目標圧縮ビットレートおよび目標圧縮ビットレートに対応するM個の目標ゲイン値が取得された後、M個の第2の特徴値を取得するために、対応する第1の特徴値は、M個の目標ゲイン値に基づいてそれぞれ処理されてもよい。一実施形態では、M個の第2の特徴値は、M個の目標ゲイン値と、対応する第1の特徴値に対して個々に乗算演算を行うことによって取得され、すなわち、対応する第2の特徴値は、第1の特徴値に、対応する目標ゲイン値が乗算された後に取得されてもよい。
本出願の本実施形態では、同じAI圧縮モデルにおいて異なる圧縮ビットレートの効果を実装するために、異なる目標ゲイン値が、異なる取得された目標圧縮ビットレートに対して取得されてもよい。M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいて、対応する第1の特徴値がそれぞれ処理された後、元の第1の画像に対応する少なくとも1つの特徴マップに含まれるN個の第1の特徴値の分布は、ゲイン処理が行われるM個の第1の特徴値に起因して変化する。
本出願の本実施形態では、図5aおよび図5bは、本出願の実施形態による異なる圧縮ビットレートに対する特徴マップの分布を示す。異なる圧縮ビットレートは、異なる画素当たりのビット(bits per pixel、bpp)を使用することによって表される。bppは、各画素を記憶するために使用されるビットの数を表し、bppが小さいほど、圧縮ビットレートが小さいことを示す。図5aは、bppが1の場合のN個の第1の特徴値の分布を示す。図5bは、bppが0.15の場合のN個の第1の特徴値の分布を示す。より高い圧縮ビットレートのモデルの符号化ネットワークの出力特徴(N個の第1の特徴値)は、統計的ヒストグラムにおいてより大きい分散を有し、したがって、量子化後に取得される情報エントロピーがより大きくなる。したがって、異なる圧縮ビットレートが異なる目標ゲイン値に対応することを条件として、異なる目標圧縮ビットレートに基づいてN個の第1の特徴値に対して異なる程度にゲイン処理が行われ、その結果、単一のAI圧縮モデルで複数のビットレートの再構成効果が実装され得る。具体的には、M個の目標ゲイン値の選択規則は以下の通りである。目標圧縮ビットレートが大きいほど、対応する第1の特徴値がM個の目標ゲイン値に基づいてそれぞれ処理された後に取得されるN個の第1の特徴値がより分散した分布を示しており、したがって、量子化後に取得される情報エントロピーがより大きくなる。
本出願の本実施形態では、複数の第1の特徴マップを取得するために、第1の画像に対して特徴抽出が行われた後、すべての抽出された第1の特徴マップが処理される必要がある。複数の第1の特徴マップに含まれる特徴値は、同一の目標ゲイン値に対応する。この場合、複数の第1の特徴マップに含まれるN個の第1の特徴値の分布を変更するために、複数の第1の特徴マップに含まれるすべての特徴値に、対応する目標ゲイン値が乗算される。目標圧縮ビットレートが大きいほど、N個の第1の特徴値の分布がより分散することを示す。
本出願の本実施形態では、複数の第1の特徴マップを取得するために、第1の画像に対して特徴抽出が行われた後、すべての抽出された第1の特徴マップが処理される必要がある。複数の第1の特徴マップのそれぞれに含まれる特徴値は、同じ目標ゲイン値に対応し、すなわち、各第1の特徴マップは、1つの目標ゲイン値に対応する。この場合、複数の第1の特徴マップに含まれるN個の第1の特徴値の分布を変更するために、複数の第1の特徴マップのそれぞれに含まれる特徴値に、対応する目標ゲイン値が乗算される。目標圧縮ビットレートが大きいほど、N個の第1の特徴値の分布がより分散することを示す。
本出願の本実施形態では、複数の第1の特徴マップを取得するために、第1の画像に対して特徴抽出が行われた後、すべての抽出された第1の特徴マップが処理される必要がある。第1の特徴マップの一部のそれぞれに含まれる特徴値は、同じ目標ゲイン値に対応し、第1の特徴マップの残りの部分のそれぞれに含まれる特徴値は、異なる目標ゲイン値に対応し、すなわち、第1の特徴マップの一部のそれぞれは、1つの目標ゲイン値に対応し、第1の特徴マップの残りの部分のそれぞれは、複数の目標ゲイン値に対応する(同じ特徴マップにおける異なる特徴値は、異なる目標ゲイン値に対応することがある)。この場合、複数の第1の特徴マップに含まれるN個の第1の特徴値の分布を変更するために、複数の第1の特徴マップの一部のそれぞれに含まれる特徴値に、対応する目標ゲイン値が乗算され、複数の第1の特徴マップの残りの部分に含まれる特徴値に、対応する目標ゲイン値が乗算される。目標圧縮ビットレートが大きいほど、N個の第1の特徴値の分布がより分散することを示す。
本出願の本実施形態では、複数の第1の特徴マップを取得するために、第1の画像に対して特徴抽出が行われた後、抽出された第1の特徴マップの一部が処理される必要がある(圧縮結果に対して比較的小さい影響を及ぼす一部のセマンティックチャネルに対応する第1の特徴マップに対してはゲイン処理が行われなくてもよい)。処理される必要がある抽出された第1の特徴マップの数は、1よりも大きい。複数の第1の特徴マップのそれぞれに含まれる特徴値は、同じ目標ゲイン値に対応し、すなわち、各第1の特徴マップは、1つの目標ゲイン値に対応する。この場合、複数の第1の特徴マップに含まれるN個の第1の特徴値の分布を変更するために、複数の第1の特徴マップのそれぞれに含まれる特徴値に、対応する目標ゲイン値が乗算される。目標圧縮ビットレートが大きいほど、N個の第1の特徴値の分布がより分散することを示す。
本出願の本実施形態では、複数の第1の特徴マップを取得するために、第1の画像に対して特徴抽出が行われた後、抽出された第1の特徴マップの一部が処理される必要がある(圧縮結果に対して比較的小さい影響を及ぼす一部のセマンティックチャネルに対応する第1の特徴マップに対してはゲイン処理が行われなくてもよい)。処理される必要がある抽出された第1の特徴マップの数は、1よりも大きい。第1の特徴マップの一部のそれぞれに含まれる特徴値は、同じ目標ゲイン値に対応し、第1の特徴マップの残りの部分のそれぞれに含まれる特徴値は、異なる目標ゲイン値に対応し、すなわち、第1の特徴マップの一部のそれぞれは、1つの目標ゲイン値に対応し、第1の特徴マップの残りの部分のそれぞれは、複数の目標ゲイン値に対応する(同じ特徴マップにおける異なる特徴値は、異なる目標ゲイン値に対応することがある)。この場合、複数の第1の特徴マップに含まれるN個の第1の特徴値の分布を変更するために、複数の第1の特徴マップの一部のそれぞれに含まれる特徴値に、対応する目標ゲイン値が乗算され、複数の第1の特徴マップの残りの部分に含まれる特徴値に、対応する目標ゲイン値が乗算される。目標圧縮ビットレートが大きいほど、N個の第1の特徴値の分布がより分散することを示す。
本出願の本実施形態では、複数の第1の特徴マップを取得するために、第1の画像に対して特徴抽出が行われた後、抽出された第1の特徴マップの一部が処理される必要がある(圧縮結果に対して比較的小さい影響を及ぼす一部のセマンティックチャネルに対応する第1の特徴マップに対してはゲイン処理が行われなくてもよい)。処理される必要がある抽出された第1の特徴マップの数は、1に等しく、第1の特徴マップに含まれる特徴値は、同じ目標ゲイン値に対応し、すなわち、第1の特徴マップは、1つの目標ゲイン値に対応する。この場合、複数の第1の特徴マップに含まれるN個の第1の特徴値の分布を変更するために、第1の特徴マップに含まれる特徴値に、対応する目標ゲイン値が乗算される。目標圧縮ビットレートが大きいほど、N個の第1の特徴値の分布がより分散することを示す。
本出願の本実施形態では、複数の第1の特徴マップを取得するために、第1の画像に対して特徴抽出が行われた後、抽出された第1の特徴マップの一部が処理される必要がある(圧縮結果に対して比較的小さい影響を及ぼす一部のセマンティックチャネルに対応する第1の特徴マップに対してはゲイン処理が行われなくてもよい)。処理される必要がある抽出された第1の特徴マップの数は、1に等しく、第1の特徴マップに含まれる特徴値は、異なる目標ゲイン値に対応し、すなわち、第1の特徴マップは、複数の目標ゲイン値に対応する(同じ特徴マップにおける異なる特徴値は、異なる目標ゲイン値に対応することがある)。この場合、複数の第1の特徴マップに含まれるN個の第1の特徴値の分布を変更するために、第1の特徴マップに含まれる特徴値に、対応する目標ゲイン値が乗算される。目標圧縮ビットレートが大きいほど、N個の第1の特徴値の分布がより分散することを示す。
第1の特徴マップに含まれる第1の特徴値に対してのみゲイン処理が行われてもよいことに留意されたい。
セマンティックチャネルの特徴値に対して同じスケールのゲイン処理が行われる場合、すなわち、すべてのセマンティックチャネルに対応する複数の第1の特徴マップに含まれる第1の特徴値が同じ目標ゲイン値に対応する場合、N個の第1の特徴値の情報エントロピーは、変更され得るが、圧縮効果は、比較的低いことに留意されたい。したがって、基本ゲイン演算ユニットは、セマンティックチャネルレベル(すべてのセマンティックチャネルのうちの少なくとも2つに対応する第1の特徴マップのそれぞれに含まれる第1の特徴値が、異なる目標ゲイン値に対応する)または特徴値レベル(セマンティックチャネルに対応する第1の特徴マップに含まれるすべての第1の特徴値のうちの少なくとも2つが、異なる目標ゲイン値に対応する)に設定され、その結果、比較的良好な圧縮効果が達成され得る。
以下では、前述の技術的効果を実装することができるM個の目標ゲイン値をどのように取得するかを説明する。
1.手動決定方式
本出願の本実施形態では、目標関数マッピング関係は、手動で決定されてもよい。各セマンティックチャネルに対応する第1の特徴マップに含まれる第1の特徴値が同じ目標ゲイン値に対応する場合、目標関数マッピング関係の入力は、セマンティックチャネルおよび目標圧縮ビットレートであってもよく、目標関数マッピング関係の出力は、対応する目標ゲイン値である(第1の特徴マップに含まれる第1の特徴値が同じ目標ゲイン値に対応するため、セマンティックチャネルに対応するすべての目標ゲイン値は、1つの目標ゲイン値を使用することによって表され得る)。例えば、各セマンティックチャネルに対応する目標ゲイン値は、線形関数、二次関数、三次関数、または四次関数を使用することによって決定され得る。図6は、本出願の一実施形態による目標関数マッピング関係を示す。図6に示されるように、目標関数マッピング関係は、線形関数であり、関数の入力は、セマンティックチャネルシーケンス番号(例えば、セマンティックチャネルシーケンス番号1~192がある)であり、関数の出力は、目標マッピング関数であり、各目標圧縮ビットレートは、異なる目標関数マッピング関係に対応する。目標圧縮ビットレートが大きいほど、目標関数マッピング関係の傾きがより小さくなることに対応する。二次非線形関数または三次非線形関数の近似分布則もこれと同様であり、詳細は、ここでは説明されない。
本出願の本実施形態では、M個の第1の特徴値のそれぞれに対応する目標ゲイン値は、手動で決定され得る。目標圧縮ビットレートが大きいほど、N個の第1の特徴値の分布がより分散されることを示すことを条件として、具体的な設定方式は、本出願において限定されない。
2.訓練方式
本出願の本実施形態では、各目標圧縮ビットレートに対応するM個の目標ゲイン値を訓練方式で取得することは、復号側の処理と組み合わされる必要がある。したがって、各目標圧縮ビットレートに対応するM個の目標ゲイン値を訓練方式で取得することは、後続の実施形態において詳細に説明され、詳細は、ここでは説明されない。
305.符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を行い、少なくとも1つの処理された第1の特徴マップがM個の第2の特徴値を含む。
本出願の本実施形態では、M個の第2の特徴値を取得するために、対応する第1の特徴値がM個の目標ゲイン値に基づいてそれぞれ処理された後、符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化が行われてもよい。少なくとも1つの処理された第1の特徴マップは、M個の第2の特徴値を含む。
本出願の本実施形態では、N個の第1の特徴値は、後続のエントロピー符号化を容易にするために、指定された規則に従って量子化中心に変換される。量子化演算は、N個の第1の特徴値を浮動小数点数からビットストリーム(例えば、8ビット整数または4ビット整数などの特定ビット整数を使用するビットストリーム)に変換することができる。一部の実施形態では、量子化演算は、丸め(round)を行うことによってN個の第1の特徴値に対して実行されてもよいが、これに限定されない。
本出願の本実施形態では、少なくとも1つの処理された第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーは、予め設定された条件を満たし、予め設定された条件は、目標圧縮ビットレートに関連する。具体的には、目標圧縮ビットレートが大きいほど、量子化データの情報エントロピーがより大きくなることを示す。
本出願の本実施形態では、出力特徴における点の確率推定値は、エントロピー推定ネットワークを使用することによって取得されてよく、バイナリビットストリームを取得するために、この確率推定値を使用することによって出力特徴に対してエントロピー符号化が行われる。本出願におけるエントロピー符号化処理では、既存のエントロピー符号化技術が使用されてもよく、詳細は本出願において説明されないことに留意されたい。
本出願の本実施形態では、符号化データに対応する圧縮ビットレートと目標圧縮ビットレートとの差は、予め設定された範囲内に入る。予め設定された範囲は、実際の応用において選択されてよい。符号化データに対応する圧縮ビットレートと目標圧縮ビットレートとの差が許容可能な範囲内に入るという条件で、具体的な予め設定された範囲は、本出願において限定されない。
本出願の本実施形態では、符号化データが取得された後、符号化データは、伸張用の端末装置に送信されてもよい。この場合、伸張用の画像処理装置がデータを伸張することができる。あるいは、圧縮用の端末装置は、符号化データを記憶装置に記憶することができる。符号化データが必要とされる場合、端末装置は、記憶装置から符号化データを取得し、符号化データを伸張することができる。
任意選択で、一実施形態では、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1のゲイン値に対応し、第2の圧縮ビットレートは、M個の第2のゲイン値に対応し、M個の目標ゲイン値は、M個の第1のゲイン値およびM個の第2のゲイン値に対して補間演算を実行することによって取得される。本出願の本実施形態では、M個の第1の値は、第1の目標ゲイン値を含み、M個の第2のゲイン値は、第2の目標ゲイン値を含み、M個の目標ゲイン値は、第3の目標ゲイン値を含み、第1の目標ゲイン値、第2の目標ゲイン値、および第3の目標ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標ゲイン値は、第1の目標ゲイン値および第2の目標ゲイン値に対して補間演算を実行することによって取得される。
本出願の本実施形態では、複数の圧縮ビットレートの圧縮効果が単一のモデルにおいて実装され得る。具体的には、異なる圧縮ビットレートに対する圧縮効果を実装するために、複数の目標圧縮ビットレートに対して異なる目標ゲイン値が対応して設定されてもよい。次いで、圧縮ビットレート範囲内の任意の圧縮効果の新しいゲイン値を取得するために、補間アルゴリズムを使用することによって目標ゲイン値に対して補間演算が実行されてもよい。具体的には、M個の第1ゲイン値は、第1の目標ゲイン値を含み、M個の第2ゲイン値は、第2の目標ゲイン値を含み、M個の目標ゲイン値は、第3の目標ゲイン値を含み、第1の目標ゲイン値、第2の目標ゲイン値および第3の目標ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標ゲイン値は、第1の目標ゲイン値および第2の目標ゲイン値に対して補間演算を実行することによって取得される。補間演算は、以下の式に基づいて実行され得る。
=[(m・(m1-l]、ここで
は、第3の目標ゲイン値を表し、mは、第1の目標ゲイン値を表し、mは、第2の目標ゲイン値を表し、m、m、およびmは、同じ特徴値に対応し、l∈(0,1)は、調整係数であり、目標圧縮ビットレートのサイズに基づいて決定されてもよい。
本出願の本実施形態では、複数の圧縮ビットレートのそれぞれに対応するM個の目標ゲイン値が取得された後、目標圧縮ビットレートに対応する圧縮が実行される場合、目標圧縮ビットレートに隣接する2つの圧縮ビットレートに対応する2つのグループの目標ゲイン値(各グループはM個の目標ゲイン値を含む)が複数の圧縮ビットレートから決定されてよく、目標圧縮ビットレートに対応するM個の目標ゲイン値を取得するために、2つのグループの目標ゲイン値に対して前述の補間処理が実行される。本出願の本実施形態では、圧縮ビットレート区間におけるAI圧縮モデルの任意の圧縮効果が実装され得る。
本出願の本実施形態では、M個の目標ゲイン値のそれぞれは、1つの逆ゲイン値に対応し、逆ゲイン値は、符号化データの復号プロセスにおいて取得された特徴値を処理するために使用され、M個の目標ゲイン値のそれぞれと、対応する逆ゲイン値との積は、予め設定された範囲内に入る。復号側の逆ゲインプロセスは、後続の実施形態において説明され、詳細は、ここでは説明されない。
本出願の本実施形態は、画像処理方法を提供する。第1の画像が取得され、少なくとも1つの第1の特徴マップを取得するために、第1の画像に対して特徴抽出が実行され、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数であり、目標圧縮ビットレートが取得され、目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数であり、対応する第1の特徴値は、M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいてそれぞれ処理され、符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化が実行され、少なくとも1つの処理された第1の特徴マップがM個の第2の特徴値を含む。前述の方式では、圧縮ビットレート制御を実施するために、異なる目標圧縮ビットレートに対して異なる目標ゲイン値が設定される。
図7は、本出願の一実施形態による画像処理方法の一実施形態を示す。図7に示されるように、本実施形態において提供される画像処理方法は、以下のステップを含む。
701.符号化データを取得する。
本出願の本実施形態では、図3および対応する実施形態において取得された符号化データが取得され得る。
本出願の本実施形態では、符号化データが取得された後、符号化データは、伸張用の端末装置に送信されてもよい。この場合、伸張用の画像処理装置は、符号化データを取得して伸張することができる。あるいは、圧縮用の端末装置は、符号化データを記憶装置に記憶することができる。符号化データが必要とされる場合、端末装置は、記憶装置から符号化データを取得し、符号化データを伸張することができる。
702.少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を行い、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、Nが正の整数である。
本出願の本実施形態では、符号化データは、再構成された出力特徴(少なくとも1つの第2の特徴マップ)を取得するために、従来技術におけるエントロピー復号技術を使用することによって復号されてもよい。少なくとも1つの第2の特徴マップは、N個の第3の特徴値を含む。
本出願の本実施形態における少なくとも1つの第2の特徴マップは、前述の少なくとも1つの処理された第1の特徴マップと同じであってもよいことに留意されたい。
703.M個の目標逆ゲイン値を取得し、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である。
任意選択で、一実施形態では、目標圧縮ビットレートが取得されてよく、目標圧縮ビットレートに対応するM個の目標逆ゲイン値は、目標マッピング関係に基づいて決定されてよい。目標マッピング関係は、圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用される。目標マッピング関係は、複数の圧縮ビットレート、複数の逆ゲインベクトル、および複数の圧縮ビットレートと複数の逆ゲインベクトルとの間の相関関係を含み、目標圧縮ビットレートは、複数の圧縮ビットレートのうちの1つであり、M個の目標逆ゲイン値は、複数の逆ゲインベクトルのうちの1つの要素であり、または目標マッピング関係は、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標逆ゲイン値を含む。
本出願の本実施形態では、目標逆ゲイン値は、図3に対応する実施形態における目標ゲイン値を取得するステップにおいて取得されてもよい。これは、ここでは限定されない。
任意選択で、一実施形態では、少なくとも1つの第2の特徴マップは、第2の目標特徴マップを含み、第2の目標特徴マップは、P個の第3の特徴値を含み、P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である。
任意選択で、一実施形態では、第2の画像は、目標オブジェクトを含み、M個の第3の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
704.M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理する。
本出願の本実施形態では、M個の第4の特徴値は、M個の目標逆ゲイン値と、対応する第3の特徴値に対して個々に乗算演算を実行することによって取得されてもよい。具体的には、本出願の本実施形態では、M個の第4の特徴値を取得するために、少なくとも1つの第2の特徴マップ内のM個の第3の特徴値に、対応する逆ゲイン値がそれぞれ乗算され、その結果、逆ゲイン処理後に取得される少なくとも1つの第2の特徴マップがM個の第4の特徴値を含む。逆ゲイン処理は、図3に対応する実施形態におけるゲイン処理と組み合わされ、その結果、正常な画像解析が保証され得る。
705.第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、少なくとも1つの処理された第2の特徴マップがM個の第4の特徴値を含む。
本出願の本実施形態では、M個の第4の特徴値が取得された後、第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成が実行されてもよい。少なくとも1つの処理された第2の特徴マップは、M個の第4の特徴値を含む。少なくとも1つの第2の特徴マップは、前述のやり方で解析され、第2の画像に再構成される。
任意選択で、一実施形態では、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1の逆ゲイン値に対応し、第2の圧縮ビットレートは、M個の第2の逆ゲイン値に対応し、M個の目標逆ゲイン値は、M個の第1の逆ゲイン値およびM個の第2の逆ゲイン値に対して補間演算を実行することによって取得される。本出願の本実施形態では、M個の第1の逆ゲイン値は、第1の目標逆ゲイン値を含み、M個の第2の逆ゲイン値は、第2の目標逆ゲイン値を含み、M個の目標逆ゲイン値は、第3の目標逆ゲイン値を含み、第1の目標逆ゲイン値、第2の目標逆ゲイン値、および第3の目標逆ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標逆ゲイン値は、第1の目標逆ゲイン値および第2の目標逆ゲイン値に対して補間演算を実行することによって取得される。
本出願の本実施形態では、M個の目標ゲイン値のそれぞれは、1つの逆ゲイン値に対応し、逆ゲイン値は、符号化データの復号プロセスにおいて取得される特徴値を処理するために使用され、M個の目標ゲイン値のそれぞれと、対応する逆ゲイン値との積は、予め設定された範囲内に入り、すなわち、同じ特徴値に対応する目標ゲイン値と逆ゲイン値との間には、以下の特定の値関係がある。2つの値の積は、予め設定された範囲内に入る。予め設定された範囲は、値「1」に近い値範囲であってもよく、ここでは限定されない。
本出願の本実施形態は、画像処理方法を提供する。符号化データが取得され、少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号が実行され、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、Nが正の整数であり、M個の目標逆ゲイン値が取得され、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である。M個の第4の特徴値を取得するために、対応する第3の特徴値がM個の目標逆ゲイン値に基づいてそれぞれ処理され、第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成が実行され、少なくとも1つの処理された第2の特徴マップがM個の第4の特徴値を含む。前述の方式では、圧縮ビットレート制御を実施するために、異なる目標圧縮ビットレートに対して異なる目標逆ゲイン値が設定される。
次に、変分オートエンコーダ(variational autoencoder、VAE)のアーキテクチャが、本出願の実施形態において提供される画像圧縮方法を説明するための例として使用される。変分オートエンコーダは、データ圧縮またはノイズ低減のために使用されるオートエンコーダである。
図8は、本出願の一実施形態による画像圧縮手順を示す。
本実施形態は、同じセマンティックチャネルに対応する目標ゲイン値が同じであり、同じセマンティックチャネルに対応する目標逆ゲイン値が同じである例を使用することによって説明を提供する。192個のセマンティックチャネルが存在し、訓練中に4つの指定されたコードポイント(4つの圧縮ビットレート)で訓練が行われる必要がある。各圧縮ビットレートは、1つの目標ゲインベクトルおよび1つの目標逆ゲインベクトルに対応する。目標ゲインベクトルmは、圧縮ビットレートに対応する、サイズが192×1であるベクトルである。目標逆ゲインベクトル
Figure 2023512570000012
は、圧縮ビットレートに対応する、サイズが192×1であるベクトルである。yは、符号化ネットワークの出力特徴(少なくとも1つの第1の特徴マップを含む)であり、出力特徴のサイズは、192×w×hである。w×hは、単一のセマンティックチャネルの特徴マップの幅および長さである。
Figure 2023512570000013
およびy’は、それぞれ、ゲイン処理、量子化、エントロピー符号化、エントロピー復号、および逆ゲイン処理後に取得される新しい出力特徴であり、サイズが、すべてyと同じである。本実施形態では、VAE法が基本モデルフレームとして使用され、ゲインユニットおよび逆ゲインユニットが追加される。図8に示されるように、モデル実行は以下のステップであってもよい。
801.第1の画像が符号化ネットワークに入った後に出力特徴yを取得する。
802.ゲイン処理後に取得される出力特徴
Figure 2023512570000014
を取得するために、チャネルごとに出力特徴yと、対応するゲインベクトルmを乗算する。
803.特徴
Figure 2023512570000015
を取得するために、出力特徴
Figure 2023512570000016
を量子化する。
804.エントロピー推定モジュールを使用することによって出力特徴における点の確率推定値を取得し、バイナリビットストリームを取得するために、確率推定値を使用することによって出力特徴に対してエントロピー符号化を実行する。
805.再構成された出力特徴
Figure 2023512570000017
を取得するために、エントロピー復号器を使用することによってバイナリビットストリームに対してエントロピー復号を実行する。
806.逆ゲイン処理後に取得される出力特徴y’を取得するために、チャネルごとに出力特徴
Figure 2023512570000018
と、対応する逆ゲインベクトル
Figure 2023512570000019
を乗算する。
807.出力特徴が復号ネットワークに入った後、出力特徴y’を解析して第2の画像に再構成する。
図9を参照されたい。図9の左図は、マルチスケール構造類似度指標尺度(multi-scale structural similarity index measure、MS-SSIM)が評価指標として使用される条件下で、本実施形態の単一モデルにおけるレート歪み性能(非破線)と、従来技術におけるVAE法を用いることによって4つの圧縮モデルを別々に訓練する場合のレート歪み性能(破線)との比較を示し、横座標がBPPであり、縦座標がMS-SSIMである。図9の右図は、ピーク信号対雑音比(peak signal to noise ratio、PSNR)が評価指標として使用される条件下で、本実施形態の単一モデルにおけるレート歪み性能(非破線)と、従来技術におけるVAE法を用いることによって4つの圧縮モデルを別々に訓練した場合のレート歪み性能(破線)との比較を示し、横座標がBPPであり、縦座標がPSNRである。本実施形態では、モデルパラメータ数がVAE法の単一モデルのモデルパラメータ数と基本的に一致するという前提で、両方の評価指標に基づいて任意のビットレートの圧縮効果が実装され得て、圧縮効果は、VAE法のマルチモデル実装効果よりも悪くなく、モデルの記憶量がN倍(Nは、本発明の本実施形態の異なるビットレートの圧縮効果を実装するためにVAE法において必要なモデルの数である)低減され得ることが分かる。
図10は、本出願の一実施形態による訓練プロセスを示す。図10に示されるように、本実施形態におけるモデルの損失関数は、以下の通りである。
loss=l+β・l、ここで
は、第1の画像に対する第2の画像の、評価指標に基づいて計算される歪み損失であり、lは、計算を通してエントロピー推定ネットワークによって取得されるビットレート損失(またはビットレート推定値と呼ばれる)であり、βは、歪み損失とビットレート推定値との間のトレードオフを調整するためのラグランジュ係数である。
異なる圧縮ビットレートと一致するゲイン行列および逆ゲイン行列{M,M’}を取得するために、モデル訓練プロセスが図10に示されてもよい。損失関数におけるラグランジュ係数βは、モデル訓練プロセスにおいて絶えず変換され、対応するゲインおよび逆ゲインベクトル
Figure 2023512570000020
は、ゲインおよび逆ゲイン行列{M,M’}とモデルとの共同最適化を実施するために、ランダムに初期化されたゲインおよび逆ゲイン行列{M,M’}から選択され、符号化ネットワークのバックエンドおよび復号ネットワークのフロントエンドにそれぞれ配置される。このようにして、複数の圧縮ビットレートの圧縮効果が単一モデルで実装され得る。
例えば、4つの圧縮ビットレートの圧縮効果が単一モデルにおいて実装され得る。訓練によって得られた4つのゲインベクトルに、対応する逆ゲインベクトルが乗算される。異なる圧縮ビットレートに対応する目標ゲインベクトルおよび目標逆ゲインベクトルにおける対応する要素の乗算結果は、ほぼ等しく、その結果、以下の関係式が得られることができる。
Figure 2023512570000021
ここで
Figure 2023512570000022
および
Figure 2023512570000023
は、それぞれ、異なる圧縮ビットレートに対応するゲインと逆ゲインベクトルの対であり、Cは、要素がすべて定数であるベクトルであり、i,j∈(1,4)である。
単一モデルにおいて連続的なビットレートの調整を実施するために、本実施形態では、前述の式を使用することによって、以下の導出が実行されてもよい。
Figure 2023512570000024
およびmは、ゲイン/逆ゲイン行列における2つの隣接するゲイン/逆ゲインベクトルであり、l∈(0,1)は、調整係数である。
本出願の本実施形態では、新しいゲインと逆ゲインベクトルの対を取得するために、訓練を通して取得された4つの隣接するゲインと逆ゲインベクトルの対に対して補間演算が実行されてもよい。
異なる圧縮ビットレートにマッチングするゲイン行列Mを取得するために、訓練プロセスは以下の通りである。本実施形態では、損失関数におけるラグランジュ係数は、モデル訓練プロセスにおいて絶えず変換され、対応するゲインベクトルmおよび逆ゲインベクトル
Figure 2023512570000025
は、ランダムに初期化されたゲイン行列Mから選択される。逆ゲインベクトル
Figure 2023512570000026
は、ゲインベクトルmの逆数を取得することによって生成されてもよい。詳細については、前述の実施形態のステップ705における目標ゲイン値および目標逆ゲイン値の選択規則の説明を参照されたい。詳細は、ここでは説明されない。
本出願の本実施形態では、ゲインベクトルmおよび逆ゲインベクトル
Figure 2023512570000027
は、ゲイン行列Mおよびモデルの共同最適化を実施するために、符号化ネットワークのバックエンドおよび復号ネットワークのフロントエンドにそれぞれ配置される。このようにして、4つのビットレートの圧縮効果が単一モデルにおいて実装され得る。詳細については、図11を参照されたい。図11は、本出願の一実施形態による画像処理プロセスを示す。次いで、補間アルゴリズムを使用することによって、訓練を通して取得された4つの隣接するゲインと逆ゲインベクトルの対に対して補間演算が実行され、その結果、ビットレート区間における任意の圧縮効果の新しいゲインベクトルが取得され得る。
本実施形態では、モデルパラメータの数が単一のVAE法モデルのモデルパラメータの数と基本的に一致するという前提で、任意のビットレートの圧縮効果が実装され得て、圧縮効果は、各ビットレートでの独立した訓練の効果よりも悪くなく、モデルの記憶量がN倍削減され得る(Nは、VAE法において本発明の本実施形態の異なるビットレートの圧縮効果を実装するために必要なモデルの数である)。
VAEのみが、説明のためのアーキテクチャとして上記で使用されていることに留意されたい。実際の適用においては、画像圧縮方法は、別のAI圧縮モデルアーキテクチャ(例えば、オートエンコーダauto-encoderまたは別の画像圧縮モデル)にさらに適用されてもよい。これは、本出願では限定されない。
図12は、本出願の一実施形態による画像処理システムのシステムアーキテクチャの図である。図12において、画像処理システム200は、実行装置210と、訓練装置220と、データベース230と、クライアント装置240と、データ記憶システム250と、を含む。実行装置210は、計算モジュール211を含む。
データベース230は、第1の画像のセットを記憶する。訓練装置220は、第1の画像を処理するために使用される目標モデル/ルール201を生成し、成熟した目標モデル/ルール201を取得するために、データベース内の第1の画像を使用することによって目標モデル/ルール201に対して反復訓練を実行する。本出願の本実施形態は、目標モデル/ルール201が第2の符号化/復号ネットワークと、各圧縮ビットレートに対応するM個の目標ゲイン値およびM個の目標逆ゲイン値と、を含む例を使用することによって説明を提供する。
第2の符号化/復号ネットワーク、ならびに訓練装置220によって取得される各圧縮ビットレートに対応するM個の目標ゲイン値およびM個の目標逆ゲイン値は、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、VR装置、または監視システムなどの異なるシステムまたは装置に適用されてもよい。実行装置210は、データ記憶システム250内のデータ、コードなどを呼び出すことができ、またはデータ記憶システム250内のデータ、命令などを記憶することができる。データ記憶システム250は、実行装置210内に配置されてもよく、またはデータ記憶システム250は、実行装置210に対する外部メモリであってもよい。
計算モジュール211は、少なくとも1つの第1の特徴マップを取得するために、第2の符号化/復号ネットワークを使用することによって、クライアント装置240によって受信された第1の画像に対して特徴抽出を実行し、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数であり、目標圧縮ビットレートを取得し、目標圧縮ビットレートが、M個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数であり、M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理し、符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行し、少なくとも1つの処理された第1の特徴マップがM個の第2の特徴値を含む。
計算モジュール211は、少なくとも1つの第2の特徴マップを取得するために、第2の符号化/復号ネットワークを使用することによって、符号化データに対してエントロピー復号をさらに実行し、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、Nが正の整数であり、M個の目標逆ゲイン値を取得し、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数であり、M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理し、第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、少なくとも1つの処理された第2の特徴マップがM個の第4の特徴値を含む。
本出願の一部の実施形態において、図12を参照されたい。実行装置210およびクライアント装置240は、独立した装置であってもよい。I/Oインターフェース212は、クライアント装置240とデータを交換するために実行装置210内に構成されている。「ユーザ」は、クライアント装置240を使用することによって第1の画像をI/Oインターフェース212に入力することができ、実行装置210は、第2の画像をユーザに提供するために、I/Oインターフェース212を使用することによって第2の画像をクライアント装置240に返す。
図12は、本発明の一実施形態による画像処理システムのアーキテクチャの概略図にすぎず、図に示される装置、構成要素、モジュールなどの位置関係は、なんら限定を構成するものではないことに留意されたい。例えば、本出願の一部の他の実施形態では、実行装置210は、クライアント装置240内に構成されてもよい。例えば、クライアント装置が携帯電話またはタブレットコンピュータである場合、実行装置210は、携帯電話またはタブレットコンピュータのホスト中央処理ユニット(Host CPU)内の、アレイ画像を処理するように構成されたモジュールであってもよく、または実行装置210は、携帯電話またはタブレットコンピュータ内のグラフィックス処理ユニット(graphics processing unit、GPU)またはニューラルネットワーク処理ユニット(NPU)であってもよい。GPUまたはNPUは、コプロセッサとしてホスト中央処理装置に搭載され、ホスト中央処理装置は、GPUまたはNPUにタスクを割り当てる。
前述の説明を参照して、以下は、本出願の実施形態において提供される画像処理方法の訓練段階の具体的な実施手順を説明することから始まる。
1.訓練段階
詳細については、図13を参照されたい。図13は、本出願の一実施形態による画像処理方法の概略流れ図である。本出願の本実施形態において提供される画像処理方法は、以下のステップを含むことができる。
1301.第1の画像を取得する。
1302.少なくとも1つの第1の特徴マップを取得するために、符号化ネットワークに基づいて第1の画像に対して特徴抽出を行い、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である。
1303.目標圧縮ビットレートを取得し、目標圧縮ビットレートがM個の初期ゲイン値およびM個の初期逆ゲイン値に対応し、各初期ゲイン値が1つの第1の特徴値に対応し、各初期逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である。
1304.M個の第2の特徴値を取得するために、M個の初期ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理する。
1305.符号化データおよびビットレート損失を取得するために、量子化ネットワークおよびエントロピー符号化ネットワークに基づいて、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行し、ゲイン処理後に取得された少なくとも1つの第1の特徴マップがM個の第2の特徴値を含む。
1306.少なくとも1つの第2の特徴マップを取得するために、エントロピー復号ネットワークに基づいて符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがM個の第3の特徴値を含み、各第3の特徴値が1つの第1の特徴値に対応する。
1307.M個の第4の特徴値を取得するために、M個の初期逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理する。
1308.第2の画像を取得するために、復号ネットワークに基づいて、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、少なくとも1つの処理された特徴マップがM個の第4の特徴値を含む。
1309.第1の画像に対する第2の画像の歪み損失を取得する。
1310.第1の画像と第2の画像との間の画像歪み値が第1の予め設定された程度に達するまで、損失関数を使用することによって、第1の符号化/復号ネットワーク、M個の初期ゲイン値、およびM個の初期逆ゲイン値に対して共同訓練を実行し、画像歪み値がビットレート損失および歪み損失に関連し、符号化/復号ネットワークが符号化ネットワーク、量子化ネットワーク、エントロピー符号化ネットワーク、およびエントロピー復号ネットワークを含む。
1311.第2の符号化/復号ネットワーク、M個の目標ゲイン値、およびM個の目標逆ゲイン値を出力し、第2の符号化/復号ネットワークが、反復訓練が第1の符号化/復号ネットワークに対して実行された後に取得されたモデルであり、M個の目標ゲイン値およびM個の目標逆ゲイン値が、反復訓練がM個の初期ゲイン値およびM個の初期逆ゲイン値に対して実行された後に取得される。
ステップ1301~ステップ1311の具体的な説明については、前述の実施形態における説明を参照されたい。これは、ここでは限定されない。
任意選択で、少なくとも1つの処理された第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーは、予め設定された条件を満たし、予め設定された条件は、目標圧縮ビットレートに関連する。
任意選択で、予め設定された条件は、少なくとも、
目標圧縮ビットレートが大きいほど、量子化されたデータの情報エントロピーがより大きくなることを示すことを含む。
任意選択で、M個の第2の特徴値は、M個の初期ゲイン値と、対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される。
任意選択で、M個の第4の特徴値は、M個の初期逆ゲイン値と、対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される。
任意選択で、M個の目標ゲイン値のそれぞれと、対応する目標逆ゲイン値との積は、予め設定された範囲内に入り、M個の初期ゲイン値のそれぞれと、対応する初期逆ゲイン値との積は、予め設定された範囲内に入る。
図1~図13に対応する実施形態によると、本出願の実施形態における前述の解決策をより良好に実施するために、以下は、前述の解決策を実施するように構成された関連装置をさらに提供する。詳細については、図14を参照されたい。図14は、本出願の一実施形態による画像処理装置1400の構成の概略図である。画像処理装置1400は、端末装置またはサーバであってもよく、画像処理装置1400は、
第1の画像を取得するように構成された取得モジュール1401と、
少なくとも1つの第1の特徴マップを取得するために、第1の画像に対して特徴抽出を実行し、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ように構成された特徴抽出モジュール1402と、を備え、
取得モジュール1401が、目標圧縮ビットレートを取得するようにさらに構成され、目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数であり、
M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するように構成されたゲインモジュール1403と、
符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行し、少なくとも1つの処理された第1の特徴マップがM個の第2の特徴値を含む、ように構成された量子化およびエントロピー符号化モジュール1404と、
を備える。
任意選択で、少なくとも1つの処理された第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーは、予め設定された条件を満たし、予め設定された条件は、目標圧縮ビットレートに関連する。
任意選択で、予め設定された条件は、少なくとも、
目標圧縮ビットレートが大きいほど、量子化されたデータの情報エントロピーがより大きくなることを示すことを含む。
任意選択で、符号化データに対応する圧縮ビットレートと目標圧縮ビットレートとの差は、予め設定された範囲内に入る。
任意選択で、M個の第2の特徴値は、M個の目標ゲイン値と、対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される。
任意選択で、少なくとも1つの第1の特徴マップは、第1の目標特徴マップを含み、第1の目標特徴マップは、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である。
任意選択で、本装置は、
目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標ゲイン値を決定するように構成された決定モジュールであって、目標マッピング関係が、圧縮ビットレートとM個の目標ゲイン値との間の相関関係を示すために使用される、決定モジュールをさらに備え、
目標マッピング関係が、複数の圧縮ビットレート、複数のゲインベクトル、および複数の圧縮ビットレートと複数のゲインベクトルとの間の相関関係を含み、目標圧縮ビットレートが、複数の圧縮ビットレートのうちの1つであり、M個の目標ゲイン値が、複数のゲインベクトルのうちの1つの要素であり、または
目標マッピング関係が、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標ゲイン値を含む。
任意選択で、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1のゲイン値に対応し、第2の圧縮ビットレートは、M個の第2のゲイン値に対応し、M個の目標ゲイン値は、M個の第1のゲイン値およびM個の第2のゲイン値に対して補間演算を実行することによって取得される。
任意選択で、M個の第1のゲイン値は、第1の目標ゲイン値を含み、M個の第2のゲイン値は、第2の目標ゲイン値を含み、M個の目標ゲイン値は、第3の目標ゲイン値を含み、第1の目標ゲイン値、第2の目標ゲイン値、および第3の目標ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標ゲイン値は、第1の目標ゲイン値および第2の目標ゲイン値に対して補間演算を実行することによって取得される。
任意選択で、第1の画像は、目標オブジェクトを含み、M個の第1の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
任意選択で、M個の目標ゲイン値のそれぞれは、1つの逆ゲイン値に対応し、逆ゲイン値は、符号化データの復号プロセスにおいて取得された特徴値を処理するために使用され、M個の目標ゲイン値のそれぞれと、対応する逆ゲイン値との積は、予め設定された範囲内に入る。
任意選択で、本装置は、
少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、各第3の特徴値が1つの第1の特徴値に対応する、ように構成された復号モジュールをさらに備え、
取得モジュールが、M個の目標逆ゲイン値を取得し、各目標逆ゲイン値が1つの第3の特徴値に対応する、ようにさらに構成され、
本装置は、
M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値に対してそれぞれゲイン処理を実行するように構成された逆ゲインモジュールと、
第2の画像を取得するために、逆ゲイン処理後に取得された少なくとも1つの第2の特徴マップに対して画像再構成を行い、逆ゲイン処理後に取得された少なくとも1つの第2の特徴マップがM個の第4の特徴値を含む、ように構成された再構成モジュールと、
をさらに備える。
任意選択で、M個の第4の特徴値は、M個の目標逆ゲイン値と、対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される。
任意選択で、少なくとも1つの第2の特徴マップは、第2の目標特徴マップを含み、第2の目標特徴マップは、P個の第3の特徴値を含み、P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である。
任意選択で、決定モジュールは、
目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標逆ゲイン値を決定し、目標マッピング関係が圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用される、ようにさらに構成されている。
任意選択で、目標マッピング関係は、複数の圧縮ビットレートと、複数の逆ゲインベクトルと、複数の圧縮ビットレートと複数の逆ゲインベクトルとの間の相関関係とを含み、目標圧縮ビットレートは、複数の圧縮ビットレートのうちの1つであり、M個の目標逆ゲイン値は、複数の逆ゲインベクトルのうちの1つの要素である。
任意選択で、目標マッピング関係は、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標逆ゲイン値を含む。
任意選択で、第2の画像は、目標オブジェクトを含み、M個の第3の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
任意選択で、M個の目標ゲイン値のそれぞれと、対応する目標逆ゲイン値との積は、予め設定された範囲内に入る。
任意選択で、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1の逆ゲイン値に対応し、第2の圧縮ビットレートは、M個の第2の逆ゲイン値に対応し、M個の目標逆ゲイン値は、M個の第1の逆ゲイン値およびM個の第2の逆ゲイン値に対して補間演算を実行することによって取得される。
任意選択で、M個の第1の逆ゲイン値は、第1の目標逆ゲイン値を含み、M個の第2の逆ゲイン値は、第2の目標逆ゲイン値を含み、M個の目標逆ゲイン値は、第3の目標逆ゲイン値を含み、第1の目標逆ゲイン値、第2の目標逆ゲイン値、および第3の目標逆ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標逆ゲイン値は、第1の目標逆ゲイン値および第2の目標逆ゲイン値に対して補間演算を実行することによって取得される。
本出願の本実施形態は、画像処理装置1400を提供する。取得モジュール1401は、第1の画像を取得する。特徴抽出モジュール1402は、少なくとも1つの第1の特徴マップを取得するために、第1の画像に対して特徴抽出を実行し、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である。取得モジュール1401は、目標圧縮ビットレートを取得し、目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数である。ゲインモジュール1403は、M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいて、対応する第1の特徴値を処理する。量子化およびエントロピー符号化モジュール1404は、符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行し、少なくとも1つの処理された第1の特徴マップがM個の第2の特徴値を含む。前述の方式では、圧縮ビットレート制御を実施するために、異なる目標圧縮ビットレートに対して異なる目標ゲイン値が設定される。
図15は、本発明の一実施形態による画像処理装置1500の構成の概略図である。画像処理装置1500は、端末装置またはサーバであってもよく、画像処理装置1500は、
符号化データを取得するように構成された取得モジュール1501と、
少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、Nが正の整数である、ように構成された復号モジュール1502と、を備え、
取得モジュール1501がM個の目標逆ゲイン値を取得し、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である、ようにさらに構成され、
M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理するように構成された逆ゲインモジュール1503と、
第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、少なくとも1つの処理された第2の特徴マップがM個の第4の特徴値を含む、ように構成された再構成モジュール1504と、
を備える。
任意選択で、M個の第4の特徴値は、M個の目標逆ゲイン値と、対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される。
任意選択で、少なくとも1つの第2の特徴マップは、第2の目標特徴マップを含み、第2の目標特徴マップは、P個の第3の特徴値を含み、P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である。
任意選択で、取得モジュールは、目標圧縮ビットレートを取得するようにさらに構成され、
本装置は、
目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標逆ゲイン値を決定し、目標マッピング関係が、圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用される、決定モジュールをさらに備え、
目標マッピング関係が、複数の圧縮ビットレート、複数の逆ゲインベクトル、および複数の圧縮ビットレートと複数の逆ゲインベクトルとの間の相関関係を含み、目標圧縮ビットレートが、複数の圧縮ビットレートのうちの1つであり、M個の目標逆ゲイン値が、複数の逆ゲインベクトルのうちの1つの要素であり、または
目標マッピング関係が、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標逆ゲイン値を含む。
任意選択で、第2の画像は、目標オブジェクトを含み、M個の第3の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
任意選択で、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1の逆ゲイン値に対応し、第2の圧縮ビットレートは、M個の第2の逆ゲイン値に対応し、M個の目標逆ゲイン値は、M個の第1の逆ゲイン値およびM個の第2の逆ゲイン値に対して補間演算を実行することによって取得される。
任意選択で、M個の第1の逆ゲイン値は、第1の目標逆ゲイン値を含み、M個の第2の逆ゲイン値は、第2の目標逆ゲイン値を含み、M個の目標逆ゲイン値は、第3の目標逆ゲイン値を含み、第1の目標逆ゲイン値、第2の目標逆ゲイン値、および第3の目標逆ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標逆ゲイン値は、第1の目標逆ゲイン値および第2の目標逆ゲイン値に対して補間演算を実行することによって取得される。
本発明の本実施形態は、画像処理装置を提供する。取得モジュール1501は、符号化データを取得する。復号モジュール1502は、少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、Nが正の整数である。取得モジュール1501は、M個の目標逆ゲイン値を取得し、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である。逆ゲインモジュール1503は、M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理する。再構成モジュール1504は、第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、少なくとも1つの処理された第2の特徴マップがM個の第4の特徴値を含む。前述の方式では、圧縮ビットレート制御を実施するために、異なる目標圧縮ビットレートに対して異なる目標ゲイン値が設定される。
図16は、本出願の一実施形態による画像処理装置1600の構成の概略図である。画像処理装置1600は、端末装置またはサーバであってもよく、画像処理装置1600は、
第1の画像を取得するように構成された取得モジュール1601と、
少なくとも1つの第1の特徴マップを取得するために、符号化ネットワークに基づいて第1の画像に対して特徴抽出を実行し、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ように構成された特徴抽出モジュール1602と、を備え、
取得モジュール1601が、目標圧縮ビットレートを取得し、目標圧縮ビットレートがM個の初期ゲイン値およびM個の初期逆ゲイン値に対応し、各初期ゲイン値が1つの第1の特徴値に対応し、各初期逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である、ようにさらに構成され、
M個の第2の特徴値を取得するために、M個の初期ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するように構成されたゲインモジュール1603と、
符号化データおよびビットレート損失を取得するために、量子化ネットワークおよびエントロピー符号化ネットワークに基づいて、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行し、ゲイン処理後に取得された少なくとも1つの第1の特徴マップがM個の第2の特徴値を含む、ように構成された量子化およびエントロピー符号化モジュール1604と、
少なくとも1つの第2の特徴マップを取得するために、エントロピー復号ネットワークに基づいて符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがM個の第3の特徴値を含み、各第3の特徴値が1つの第1の特徴値に対応する、ように構成された復号モジュール1605と、
M個の第4の特徴値を取得するために、M個の初期逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理するように構成された逆ゲインモジュール1606と、
第2の画像を取得するために、復号ネットワークに基づいて、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、少なくとも1つの処理された特徴マップがM個の第4の特徴値を含む、ように構成された再構成モジュール1607と、を備え、
取得モジュール1601が第1の画像に対する第2の画像の歪み損失を取得するようにさらに構成され、
第1の画像と第2の画像との間の画像歪み値が第1の予め設定された程度に達するまで、損失関数を使用することによって、第1の符号化/復号ネットワーク、M個の初期ゲイン値、およびM個の初期逆ゲイン値に対して共同訓練を実行し、画像歪み値がビットレート損失および歪み損失に関連し、符号化/復号ネットワークが、符号化ネットワーク、量子化ネットワーク、エントロピー符号化ネットワーク、およびエントロピー復号ネットワークを含む、ように構成された訓練モジュール1608と、
第2の符号化/復号ネットワーク、M個の目標ゲイン値、およびM個の目標逆ゲイン値を出力し、第2の符号化/復号ネットワークが、第1の符号化/復号ネットワークに対して反復訓練が実行された後に取得されたモデルであり、M個の目標ゲイン値およびM個の目標逆ゲイン値が、M個の初期ゲイン値およびM個の初期逆ゲイン値に対して反復訓練が実行された後に取得される、ように構成された出力モジュール1609と、
を含む。
任意選択で、ゲイン処理後に取得された少なくとも1つの第1の特徴マップが量子化された後に取得された量子化データの情報エントロピーは、予め設定された条件を満たし、予め設定された条件が目標圧縮ビットレートに関連し、NがM以上の正の整数である。
任意選択で、予め設定された条件は、少なくとも、
目標圧縮ビットレートが大きいほど、量子化されたデータの情報エントロピーがより大きくなることを示すことを含む。
任意選択で、M個の第2の特徴値は、M個の目標ゲイン値と、対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される。
任意選択で、少なくとも1つの第1の特徴マップは、第1の目標特徴マップを含み、第1の目標特徴マップは、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である。
任意選択で、第1の画像は、目標オブジェクトを含み、M個の第1の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
任意選択で、M個の目標ゲイン値のそれぞれと、対応する目標逆ゲイン値との積は、予め設定された範囲内に入り、M個の初期ゲイン値のそれぞれと、対応する初期逆ゲイン値との積は、予め設定された範囲内に入る。
以下は、本出願の実施形態において提供される実行装置を説明する。図17は、本出願の一実施形態による実行装置の構造の概略図である。実行装置1700は、具体的には、仮想現実VR装置、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、インテリジェントウェアラブル装置、監視データ処理装置などとして表されることがある。これは、ここでは限定されない。図14および図15に対応する実施形態に記載される画像処理装置は、図14および図15に対応する実施形態の画像処理装置の機能を実施するために、実行装置1700に配備されてもよい。具体的には、実行装置1700は、受信機1701、送信機1702、プロセッサ1703、およびメモリ1704を含む(実行装置1700内に1つまたは複数のプロセッサ1703があってもよく、図17では1つのプロセッサが例として使用されている)。プロセッサ1703は、アプリケーションプロセッサ17031および通信プロセッサ17032を含むことができる。本出願の一部の実施形態では、受信機1701、送信機1702、プロセッサ1703、およびメモリ1704は、バスを使用することによって、または別の方式で接続されてもよい。
メモリ1704は、読み取り専用メモリおよびランダムアクセスメモリを含み、プロセッサ1703に命令およびデータを提供することができる。メモリ1704の一部は、不揮発性ランダムアクセスメモリ(non-volatile random access memory、NVRAM)をさらに含むことができる。メモリ1704は、プロセッサ実行可能動作命令、実行可能モジュール、データ構造、それらのサブセット、またはそれらの拡張セットを記憶する。動作命令は、様々な動作を実施するための様々な動作命令を含むことができる。
プロセッサ1703は、実行装置の動作を制御する。特定のアプリケーションの間、実行装置のコンポーネントは、バスシステムを使用することによって互いに結合される。データバスに加えて、バスシステムは、電源バス、制御バス、ステータス信号バスなどをさらに含んでもよい。しかしながら、明確な説明のために、図中の様々なタイプのバスは、バスシステムとして表記されている。
本出願の前述の実施形態において開示された方法は、プロセッサ1703に適用されてもよく、またはプロセッサ1703によって実施されてもよい。プロセッサ1703は、集積回路チップであってもよく、信号処理能力を有する。実施プロセスにおいて、前述の方法におけるステップは、プロセッサ1703内のハードウェア集積論理回路を使用することによって、またはソフトウェアの形態の命令を使用することによって実施され得る。プロセッサ1703は、汎用プロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)、マイクロプロセッサ、もしくはマイクロコントローラであってもよく、または特定用途向け集積回路(application-specific integrated circuit、ASIC)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)もしくは別のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、またはディスクリートハードウェアコンポーネントをさらに含んでもよい。プロセッサ1703は、本出願の実施形態において開示された方法、ステップ、および論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサであってもよく、またはプロセッサは、任意の従来のプロセッサなどであってもよい。本出願の実施形態を参照して開示された方法のステップは、ハードウェア復号プロセッサによって直接実行され完了されてもよく、または復号プロセッサ内のハードウェアモジュールとソフトウェアモジュールとの組合せを使用することによって実行され完了されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラマブル読み取り専用メモリ、電気的消去可能プログラマブルメモリ、またはレジスタなど、当技術分野における成熟した記憶媒体内に位置されてもよい。記憶媒体は、メモリ1704内に位置され、プロセッサ1703は、メモリ1704内の情報を読み取り、プロセッサのハードウェアと組み合わせて前述の方法のステップを完了する。
受信機1701は、入力されたデジタルまたは文字情報を受信し、実行装置の関連設定および機能制御に関連する信号入力を生成するように構成されてもよい。送信機1702は、第1のインターフェースを介してデジタルまたは文字情報を出力するように構成されてもよい。送信機1702は、ディスクグループ内のデータを修正するために、第1のインターフェースを介してディスクグループに命令を送信するようにさらに構成されてもよい。送信機1702は、ディスプレイスクリーンなどのディスプレイ装置をさらに含むことができる。
本出願の本実施形態では、場合によっては、プロセッサ1703は、図9~図11に対応する実施形態において実行装置によって実行される画像処理方法を実行するように構成されている。具体的には、アプリケーションプロセッサ17031は、第1の画像を取得し、
少なくとも1つの第1の特徴マップを取得するために、第1の画像に対して特徴抽出を実行し、第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数であり、
目標圧縮ビットレートを取得し、目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数であり、
M個の第2の特徴値を取得するために、M個の目標ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理し、
符号化データを取得するために、M個の第2の特徴値を含む少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行する、
ように構成されている。
任意選択で、少なくとも1つの処理された第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーは、予め設定された条件を満たし、予め設定された条件は、目標圧縮ビットレートに関連する。
任意選択で、予め設定された条件は、少なくとも、
目標圧縮ビットレートが大きいほど、量子化されたデータの情報エントロピーがより大きくなることを示すことを含む。
任意選択で、符号化データに対応する圧縮ビットレートと目標圧縮ビットレートとの差は、予め設定された範囲内に入る。
任意選択で、M個の第2の特徴値は、M個の目標ゲイン値と、対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される。
任意選択で、少なくとも1つの第1の特徴マップは、第1の目標特徴マップを含み、第1の目標特徴マップは、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である。
任意選択で、アプリケーションプロセッサ17031は、
目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標ゲイン値を決定し、目標マッピング関係が、圧縮ビットレートとM個の目標ゲイン値との間の相関関係を示すために使用され、
目標マッピング関係が、複数の圧縮ビットレート、複数のゲインベクトル、および複数の圧縮ビットレートと複数のゲインベクトルとの間の相関関係を含み、目標圧縮ビットレートが、複数の圧縮ビットレートのうちの1つであり、M個の目標ゲイン値が、複数のゲインベクトルのうちの1つの要素であり、または
目標マッピング関係が、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標ゲイン値を含む、
ようにさらに構成されている。
任意選択で、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1のゲイン値に対応し、第2の圧縮ビットレートは、M個の第2のゲイン値に対応し、M個の目標ゲイン値は、M個の第1のゲイン値およびM個の第2のゲイン値に対して補間演算を実行することによって取得される。
任意選択で、M個の第1のゲイン値は、第1の目標ゲイン値を含み、M個の第2のゲイン値は、第2の目標ゲイン値を含み、M個の目標ゲイン値は、第3の目標ゲイン値を含み、第1の目標ゲイン値、第2の目標ゲイン値、および第3の目標ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標ゲイン値は、第1の目標ゲイン値および第2の目標ゲイン値に対して補間演算を実行することによって取得される。
任意選択で、第1の画像は、目標オブジェクトを含み、M個の第1の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
任意選択で、M個の目標ゲイン値のそれぞれは、1つの逆ゲイン値に対応し、逆ゲイン値は、符号化データの復号プロセスにおいて取得された特徴値を処理するために使用され、M個の目標ゲイン値のそれぞれと、対応する逆ゲイン値との積は、予め設定された範囲内に入る。
任意選択で、アプリケーションプロセッサ17031は、
少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、各第3の特徴値が1つの第1の特徴値に対応し、M個の目標逆ゲイン値を取得し、各目標逆ゲイン値が1つの第3の特徴値に対応し、M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値に対してゲイン処理をそれぞれ実行し、第2の画像を取得するために、逆ゲイン処理後に取得された少なくとも1つの第2の特徴マップに対して画像再構成を行い、逆ゲイン処理後に取得された少なくとも1つの第2の特徴マップがM個の第4の特徴値を含む、
ようにさらに構成されている。
任意選択で、M個の第4の特徴値は、M個の目標逆ゲイン値と、対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される。
任意選択で、少なくとも1つの第2の特徴マップは、第2の目標特徴マップを含み、第2の目標特徴マップは、P個の第3の特徴値を含み、P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である。
任意選択で、アプリケーションプロセッサ17031は、目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標逆ゲイン値を決定し、目標マッピング関係が圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用される、ようにさらに構成されている。
任意選択で、目標マッピング関係は、複数の圧縮ビットレートと、複数の逆ゲインベクトルと、複数の圧縮ビットレートと複数の逆ゲインベクトルとの間の相関関係とを含み、目標圧縮ビットレートは、複数の圧縮ビットレートのうちの1つであり、M個の目標逆ゲイン値は、複数の逆ゲインベクトルのうちの1つの要素である。
任意選択で、目標マッピング関係は、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標逆ゲイン値を含む。
任意選択で、第2の画像は、目標オブジェクトを含み、M個の第3の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
任意選択で、M個の目標ゲイン値のそれぞれと、対応する目標逆ゲイン値との積は、予め設定された範囲内に入る。
任意選択で、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1の逆ゲイン値に対応し、第2の圧縮ビットレートは、M個の第2の逆ゲイン値に対応し、M個の目標逆ゲイン値は、M個の第1の逆ゲイン値およびM個の第2の逆ゲイン値に対して補間演算を実行することによって取得される。
任意選択で、M個の第1の逆ゲイン値は、第1の目標逆ゲイン値を含み、M個の第2の逆ゲイン値は、第2の目標逆ゲイン値を含み、M個の目標逆ゲイン値は、第3の目標逆ゲイン値を含み、第1の目標逆ゲイン値、第2の目標逆ゲイン値、および第3の目標逆ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標逆ゲイン値は、第1の目標逆ゲイン値および第2の目標逆ゲイン値に対して補間演算を実行することによって取得される。
具体的には、アプリケーションプロセッサ17031は、
符号化データを取得し、
少なくとも1つの第2の特徴マップを取得するために、符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、Nが正の整数であり、
M個の目標逆ゲイン値を取得し、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数であり、
M個の第4の特徴値を取得するために、M個の目標逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理し、
第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、少なくとも1つの処理された第2の特徴マップがM個の第4の特徴値を含む、
ように構成されている。
任意選択で、M個の第4の特徴値は、M個の目標逆ゲイン値と、対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される。
任意選択で、少なくとも1つの第2の特徴マップは、第2の目標特徴マップを含み、第2の目標特徴マップは、P個の第3の特徴値を含み、P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である。
任意選択で、アプリケーションプロセッサ17031は、
目標圧縮ビットレートを取得し、目標マッピング関係に基づいて、目標圧縮ビットレートに対応するM個の目標逆ゲイン値を決定し、目標マッピング関係が、圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用され、目標マッピング関係が、複数の圧縮ビットレート、複数の逆ゲインベクトル、および複数の圧縮ビットレートと複数の逆ゲインベクトルとの相関関係を含み、目標圧縮ビットレートは、複数の圧縮ビットレートのうちの1つであり、M個の目標逆ゲイン値が、複数の逆ゲインベクトルのうちの1つの要素であり、または目標マッピング関係が、目標関数マッピング関係を含み、目標関数関係の入力が目標圧縮ビットレートを含む場合、目標関数関係の出力がM個の目標逆ゲイン値を含む、ようにさらに構成されている。
任意選択で、第2の画像は、目標オブジェクトを含み、M個の第3の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
任意選択で、目標圧縮ビットレートは、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、第1の圧縮ビットレートは、M個の第1の逆ゲイン値に対応し、第2の圧縮ビットレートは、M個の第2の逆ゲイン値に対応し、M個の目標逆ゲイン値は、M個の第1の逆ゲイン値およびM個の第2の逆ゲイン値に対して補間演算を実行することによって取得される。
任意選択で、M個の第1の逆ゲイン値は、第1の目標逆ゲイン値を含み、M個の第2の逆ゲイン値は、第2の目標逆ゲイン値を含み、M個の目標逆ゲイン値は、第3の目標逆ゲイン値を含み、第1の目標逆ゲイン値、第2の目標逆ゲイン値、および第3の目標逆ゲイン値は、M個の第1の特徴値のうちの同じ特徴値に対応し、第3の目標逆ゲイン値は、第1の目標逆ゲイン値および第2の目標逆ゲイン値に対して補間演算を実行することによって取得される。
本出願の一実施形態は、訓練装置をさらに提供する。図18は、本出願の一実施形態による訓練装置の構造の概略図である。図16に対応する実施形態に記載された画像処理装置は、図16に対応する実施形態における画像処理装置の機能を実施するために、訓練装置1800に配備されてもよい。具体的には、訓練装置1800は、1つまたは複数のサーバによって実施される。訓練装置1800は、異なる構成または性能に起因して比較的大きな差異を生成することがあり、1つまたは複数の中央処理装置(central processing unit、CPU)1822(例えば、1つまたは複数のプロセッサ)、メモリ1832、ならびにアプリケーション1842またはデータ1844を記憶する1つもしくは複数の記憶媒体1830(例えば、1つもしくは複数の大容量記憶装置)を含むことができる。メモリ1832および記憶媒体1830は、一過性記憶装置または永続的記憶装置であってもよい。記憶媒体1830に記憶されたプログラムは、少なくとも1つのモジュール(図示せず)を含むことができ、各モジュールは、訓練装置のための一連の命令動作を含むことができる。さらに、中央処理装置1822は、記憶媒体1830と通信するように配置され、訓練装置1800において、記憶媒体1830における一連の命令動作を実行することができる。
訓練装置1800は、1つもしくは複数の電源1826、1つもしくは複数の有線または無線ネットワークインターフェース1850、1つもしくは複数の入力/出力インターフェース1858、および/またはWindows Server(商標)、Mac OS X(商標)、Unix(商標)、Linux(商標)、もしくはFreeBSD(商標)などの1つもしくは複数のオペレーティングシステム1841をさらに含むことができる。
本出願の本実施形態において、中央処理装置1822は、図16に対応する実施形態の画像処理装置によって実行される画像処理方法を実行するように構成されている。具体的には、中央処理装置1822は、
第1の画像を取得し、
少なくとも1つの第1の特徴マップを取得するために、符号化ネットワークに基づいて第1の画像に対して特徴抽出を実行し、少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数であり、
目標圧縮ビットレートを取得し、目標圧縮ビットレートが、M個の初期ゲイン値およびM個の初期逆ゲイン値に対応し、各初期ゲイン値が1つの第1の特徴値に対応し、各初期逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数であり、
M個の第2の特徴値を取得するために、M個の初期ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理し、
符号化データおよびビットレート損失を取得するために、量子化ネットワークおよびエントロピー符号化ネットワークに基づいて、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行し、ゲイン処理後に取得された少なくとも1つの第1の特徴マップがM個の第2の特徴値を含み、
少なくとも1つの第2の特徴マップを取得するために、エントロピー復号ネットワークに基づいて、符号化データに対してエントロピー復号を実行し、少なくとも1つの第2の特徴マップがM個の第3の特徴値を含み、各第3の特徴値が1つの第1の特徴値に対応し、
M個の第4の特徴値を取得するために、M個の初期逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理し、
第2の画像を取得するために、復号ネットワークに基づいて、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、少なくとも1つの処理された第2の特徴マップがM個の第4の特徴値を含み、
第1の画像に対する第2の画像の歪み損失を取得し、
第1の画像と第2の画像との間の画像歪み値が第1の予め設定された程度に達するまで、損失関数を使用することによって、第1の符号化/復号ネットワーク、M個の初期ゲイン値、およびM個の初期逆ゲイン値に対して共同訓練を実行し、画像歪み値がビットレート損失および歪み損失に関連し、符号化/復号ネットワークが符号化ネットワーク、量子化ネットワーク、エントロピー符号化ネットワーク、およびエントロピー復号ネットワークを含み、
第2の符号化/復号ネットワーク、M個の目標ゲイン値、およびM個の目標逆ゲイン値を出力し、第2の符号化/復号ネットワークが、第1の符号化/復号ネットワークに対して反復訓練が実行された後に取得されたモデルであり、M個の目標ゲイン値およびM個の目標逆ゲイン値が、M個の初期ゲイン値およびM個の初期逆ゲイン値に対して反復訓練が実行された後に取得される、
ように構成されている。
任意選択で、ゲイン処理後に取得された少なくとも1つの第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーは、予め設定された条件を満たし、予め設定された条件は、目標圧縮ビットレートに関連する。
任意選択で、予め設定された条件は、少なくとも、
目標圧縮ビットレートが大きいほど、量子化されたデータの情報エントロピーがより大きくなることを示すことを含む。
任意選択で、M個の第2の特徴値は、M個の目標ゲイン値と、対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される。
任意選択で、少なくとも1つの第1の特徴マップは、第1の目標特徴マップを含み、第1の目標特徴マップは、P個の第1の特徴値を含み、P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である。
任意選択で、第1の画像は、目標オブジェクトを含み、M個の第1の特徴値は、少なくとも1つの特徴マップ内の、目標オブジェクトに対応する特徴値である。
任意選択で、M個の目標ゲイン値のそれぞれと、対応する目標逆ゲイン値との積は、予め設定された範囲内に入り、M個の初期ゲイン値のそれぞれと、対応する初期逆ゲイン値との積は、予め設定された範囲内に入る。
本出願の一実施形態は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品がコンピュータ上で動作すると、コンピュータは、図17に示される前述の実施形態に記載された方法において実行装置によって実行されるステップを実行することを可能にされ、またはコンピュータは、図18に示される前述の実施形態に記載された方法において訓練装置によって実行されるステップを実行することを可能にされる。
本出願の一実施形態は、コンピュータ可読記憶媒体をさらに提供する。コンピュータ可読記憶媒体は、信号処理を行うためのプログラムを記憶する。プログラムがコンピュータ上で動作すると、コンピュータは、図17に示される前述の実施形態に記載された方法において実行装置によって実行されるステップを実行することを可能にされ、またはコンピュータは、図18に示される前述の実施形態に記載された方法において訓練装置によって実行されるステップを実行することを可能にされる。
本出願の実施形態において提供される実行装置、訓練装置、または端末装置は、具体的にはチップであってよい。チップは、処理ユニットおよび通信ユニットを含む。処理ユニットは、例えば、プロセッサであってもよい。通信ユニットは、例えば、入力/出力インターフェース、ピン、または回路であってもよい。処理ユニットは、記憶ユニットに記憶されたコンピュータ実行可能命令を実行して、実行装置内のチップに図3~図7に示される実施形態に記載された画像処理方法を実行させることができ、または訓練装置内のチップに図13に示される実施形態に記載された画像処理方法を実行させることができる。任意選択で、記憶ユニットは、チップ内の記憶ユニット、例えば、レジスタまたはキャッシュである。記憶ユニットは、代替として、無線アクセスデバイス端のチップの外部に位置される記憶ユニット、例えば、読み取り専用メモリ(read-only memory、ROM)または静的情報および命令を記憶することができる別のタイプの静的記憶デバイス、またはランダムアクセスメモリ(random access memory、RAM)であってもよい。
詳細については、図19を参照されたい。図19は、本出願の一実施形態によるチップの構造の概略図である。チップは、ニューラルネットワーク処理ユニットNPU2000として表されてもよい。NPU2000は、コプロセッサとしてホストCPU(Host CPU)に搭載され、Host CPUがNPUにタスクを割り当てる。NPUのコア部分は演算回路2003であり、演算回路2003は、コントローラ2004を使用することによって、メモリから行列データを抽出し、乗算演算を実行するように制御される。
一部の実施態様では、演算回路2003は、複数のプロセスエンジン(Process Engine、PE)を含む。一部の実施態様では、演算回路2003は、2次元シストリックアレイである。演算回路2003は、1次元シストリックアレイであってもよく、または乗算や加算などの数学的演算を実行することができる他の電子回路であってもよい。一部の実施態様では、演算回路2003は、汎用マトリックスプロセッサである。
例えば、入力行列A、重み行列B、出力行列Cがあると仮定される。演算回路は、重みメモリ2002から行列Bの対応するデータを取り出し、そのデータを演算回路内の各PEにバッファリングする。演算回路は、入力メモリ2001から行列Aのデータを取得し、そのデータと行列Bとの行列演算を行い、得られた行列の部分結果または最終結果をアキュムレータ(accumulator)2008に記憶する。
統合メモリ2006は、入力データおよび出力データを記憶するように構成されている。重みデータは、ダイレクトメモリアクセスコントローラ(Direct Memory Access Controller、DMAC)2005を使用することによって重みメモリ2002に直接転送される。入力データも、DMACを使用することによって統合メモリ2006に転送される。
BIUは、バスインターフェースユニット(Bus Interface Unit)、すなわち、AXIバスを使用することによってDMACおよび命令フェッチバッファ(Instruction Fetch Buffer、IFB)2009と相互作用するように構成されたバスインターフェースユニット2010である。
バスインターフェースユニット2010(Bus Interface Unit、略してBIU)は、命令フェッチバッファ2009が外部メモリから命令を取得するように構成され、ダイレクトメモリアクセスコントローラ2005が外部メモリから入力行列Aまたは重み行列Bの生データを取得するようにさらに構成されている。
DMACは、主に、外部メモリDDR内の入力データを統合メモリ2006に転送し、重みデータを重みメモリ2002に転送し、または入力データを入力メモリ2001に転送するように構成されている。
ベクトル計算ユニット2007は、複数の演算処理ユニットを含む。必要な場合は、演算回路の出力に対して、ベクトル乗算、ベクトル加算、指数演算、対数演算、値比較などのさらなる処理が実行される。ベクトル計算ユニット2007は、主に、ニューラルネットワークにおける非畳み込み/全接続層に対して、バッチ正規化(Batch Normalization)、画素レベル加算、および特徴面のアップサンプリングなどのネットワーク計算を実行するように構成されている。
一部の実施態様では、ベクトル計算ユニット2007は、処理された出力ベクトルを統合メモリ2006に記憶することができる。例えば、ベクトル計算ユニット2007は、演算回路2003の出力に線形関数および/または非線形関数を適用してもよく、例えば、畳み込み層で抽出された特徴面に対して線形補間を行ってもよい。別の例では、線形関数および/または非線形関数は、活性化値を生成するために累算値のベクトルに適用される。一部の実施態様では、ベクトル計算ユニット2007は、正規化値、画素レベルの和、または正規化値と画素レベルの和を生成する。一部の実施態様では、処理された出力ベクトルは、演算回路2003への活性化された入力として使用され得て、例えば、処理された出力ベクトルは、ニューラルネットワークの後続の層において使用され得る。
コントローラ2004に接続された命令フェッチバッファ(instruction fetch buffer)2009は、コントローラ2004によって使用される命令を記憶するように構成されている。
統合メモリ2006、入力メモリ2001、重みメモリ2002、命令フェッチバッファ2009は、いずれもOn-Chipメモリである。外部メモリは、NPUのハードウェアアーキテクチャに専用である。
上記のいずれかで言及されたプロセッサは、汎用中央処理ユニット、マイクロプロセッサ、ASIC、または第1の態様による方法のプログラム実行を制御するように構成された1つもしくは複数の集積回路であってもよい。
加えて、記載された装置の実施形態は、単なる例であることに留意されたい。別個の部分として説明されるユニットは、物理的に別個であってもなくてもよく、ユニットとして表示される部分は、物理的ユニットであってもなくてもよく、1つの場所に位置されてもよく、または複数のネットワークユニット上に分散されてもよい。一部またはすべてのモジュールは、実施形態の解決策の目的を達成するために、実際の要求に従って選択されてもよい。加えて、本出願において提供される装置の実施形態の添付図面において、モジュール間の接続関係は、モジュールが互いに通信接続を有することを示し、これは、具体的には、1つまたは複数の通信バスまたは信号ケーブルとして実施されてもよい。
前述の実施態様の説明に基づいて、当業者は、本出願が、必要な汎用ハードウェアに加えてソフトウェアによって実施され得ること、または、当然ながら、特定用途向け集積回路、専用CPU、専用メモリ、専用コンポーネントなどを含む専用ハードウェアによって実施され得ることを明確に理解することができる。一般に、コンピュータプログラムによって実行され得る任意の機能は、対応するハードウェアを使用することによって容易に実施され得て、同じ機能を達成するために使用される特定のハードウェア構造は、様々な形態、例えば、アナログ回路、デジタル回路、または専用回路の形態であってもよい。しかしながら、本出願では、ソフトウェアプログラムの実施態様が、ほとんどの場合、より良い実施態様である。このような理解に基づいて、本出願の技術的解決策は、本質的に、または従来技術に寄与する部分は、ソフトウェア製品の形態で実施されてもよい。ソフトウェア製品は、コンピュータのフロッピーディスク、USBフラッシュドライブ、リムーバブルハードディスク、ROM、RAM、磁気ディスク、または光ディスクなどの可読記憶媒体に記憶され、コンピュータ装置(パーソナルコンピュータ、訓練装置、またはネットワーク装置であってもよい)に本出願の実施形態に記載された方法を実行するように命令するためのいくつかの命令を含む。
前述の実施形態のすべてまたは一部は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せを使用して実施されてもよい。ソフトウェアが実施形態を実施するために使用される場合、実施形態のすべてまたは一部は、コンピュータプログラム製品の形態で実施されてもよい。
コンピュータプログラム製品は、1つまたは複数のコンピュータ命令を含む。コンピュータプログラム命令がコンピュータにロードされて実行されると、本出願の実施形態による手順または機能のすべてまたは一部が生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または他のプログラム可能な装置であってもよい。コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、またはコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に送信されてもよい。例えば、コンピュータ命令は、有線(例えば、同軸ケーブル、光ファイバ、もしくはデジタル加入者線(DSL))または無線(例えば、赤外線、高周波、もしくはマイクロ波)方式で、ウェブサイト、コンピュータ、訓練装置、またはデータセンタから別のウェブサイト、コンピュータ、訓練装置、またはデータセンタに送信されてもよい。コンピュータ可読記憶媒体は、コンピュータによってアクセス可能な任意の使用可能な媒体、あるいは1つまたは複数の使用可能な媒体を統合するデータ記憶装置、例えば、訓練装置またはデータセンタであってもよい。使用可能な媒体は、磁気媒体(例えば、フロッピーディスク、ハードディスク、または磁気テープ)、光媒体(例えば、DVD)、半導体媒体(例えば、ソリッドステートディスク(Solid State Disk、SSD))などであってもよい。
200 画像処理システム
201 目標モデル/ルール
210 実行装置
211 計算モジュール
212 I/Oインターフェース
220 訓練装置
230 データベース
240 クライアント装置
250 データ記憶システム
401 第1の画像
402 CNN/層
403 マルチチャネルワイズ特徴マップ
1400 画像処理装置
1401 取得モジュール
1402 特徴抽出モジュール
1403 ゲインモジュール
1404 エントロピー符号化モジュール
1500 画像処理装置
1501 取得モジュール
1502 復号モジュール
1503 逆ゲインモジュール
1504 再構成モジュール
1600 画像処理装置
1601 取得モジュール
1602 特徴抽出モジュール
1603 ゲインモジュール
1604 エントロピー符号化モジュール
1605 復号モジュール
1606 逆ゲインモジュール
1607 再構成モジュール
1608 訓練モジュール
1609 出力モジュール
1700 実行装置
1701 受信機
1702 送信機
1703 プロセッサ
1704 メモリ
1800 訓練装置
1822 中央処理装置
1826 電源
1830 記憶媒体
1832 メモリ
1841 オペレーティングシステム
1842 アプリケーション
1844 データ
1850 無線ネットワークインターフェース
1858 出力インターフェース
2000 ニューラルネットワーク処理ユニット(NPU)
2001 入力メモリ
2002 重みメモリ
2003 演算回路
2004 コントローラ
2005 ダイレクトメモリアクセスコントローラ
2006 統合メモリ
2007 ベクトル計算ユニット
2008 アキュムレータ
2009 命令フェッチバッファ
2010 バスインターフェースユニット
17031 アプリケーションプロセッサ
17032 通信プロセッサ

Claims (33)

  1. 画像処理方法であって、
    第1の画像を取得するステップと、
    少なくとも1つの第1の特徴マップを取得するために、前記第1の画像に対して特徴抽出を実行するステップであって、前記少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ステップと、
    目標圧縮ビットレートを取得するステップであって、前記目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数である、ステップと、
    M個の第2の特徴値を取得するために、前記M個の目標ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するステップと、
    符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行するステップであって、前記少なくとも1つの処理された第1の特徴マップが前記M個の第2の特徴値を含む、ステップと
    を含む、画像処理方法。
  2. 前記少なくとも1つの処理された第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーが予め設定された条件を満たし、前記予め設定された条件が前記目標圧縮ビットレートに関連する、請求項1に記載の方法。
  3. 前記予め設定された条件が、少なくとも、
    目標圧縮ビットレートが大きいほど、前記量子化データの情報エントロピーがより大きくなることを示す、請求項2に記載の方法。
  4. 前記符号化データに対応する圧縮ビットレートと前記目標圧縮ビットレートとの差が、予め設定された範囲内に入る、請求項1から3のいずれか一項に記載の方法。
  5. 前記M個の第2の特徴値が、前記M個の目標ゲイン値と、前記対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される、請求項1から4のいずれか一項に記載の方法。
  6. 前記少なくとも1つの第1の特徴マップが第1の目標特徴マップを含み、前記第1の目標特徴マップがP個の第1の特徴値を含み、前記P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である、請求項1から5のいずれか一項に記載の方法。
  7. 前記方法が、
    目標マッピング関係に基づいて、前記目標圧縮ビットレートに対応する前記M個の目標ゲイン値を決定するステップであって、前記目標マッピング関係が、圧縮ビットレートとM個の目標ゲイン値との間の相関関係を示すために使用される、ステップをさらに含み、
    前記目標マッピング関係が、複数の圧縮ビットレート、複数のゲインベクトル、および前記複数の圧縮ビットレートと前記複数のゲインベクトルとの間の相関関係を含み、前記目標圧縮ビットレートが、前記複数の圧縮ビットレートのうちの1つであり、前記M個の目標ゲイン値が、前記複数のゲインベクトルのうちの1つの要素であり、または
    前記目標マッピング関係が、目標関数マッピング関係を含み、前記目標関数関係の入力が前記目標圧縮ビットレートを含む場合、前記目標関数関係の出力が前記M個の目標ゲイン値を含む、
    請求項1から6のいずれか一項に記載の方法。
  8. 前記目標圧縮ビットレートが、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、前記第1の圧縮ビットレートが、M個の第1のゲイン値に対応し、前記第2の圧縮ビットレートが、M個の第2のゲイン値に対応し、前記M個の目標ゲイン値が、前記M個の第1のゲイン値および前記M個の第2のゲイン値に対して補間演算を実行することによって取得される、請求項1から7のいずれか一項に記載の方法。
  9. 前記第1の画像が目標オブジェクトを含み、前記M個の第1の特徴値が、前記少なくとも1つの特徴マップ内の、前記目標オブジェクトに対応する特徴値である、請求項1から8のいずれか一項に記載の方法。
  10. 前記M個の目標ゲイン値のそれぞれが、1つの逆ゲイン値に対応し、前記逆ゲイン値が、前記符号化データの復号プロセスにおいて取得される特徴値を処理するために使用され、前記M個の目標ゲイン値のそれぞれと、前記対応する逆ゲイン値との積が、予め設定された範囲内に入る、請求項1から9のいずれか一項に記載の方法。
  11. 画像処理方法であって、
    符号化データを取得するステップと、
    少なくとも1つの第2の特徴マップを取得するために、前記符号化データに対してエントロピー復号を行うステップであって、前記少なくとも1つの第2の特徴マップが、N個の第3の特徴値を含み、Nが正の整数である、ステップと、
    M個の目標逆ゲイン値を取得するステップであって、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数である、ステップと、
    M個の第4の特徴値を取得するために、前記M個の目標逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理するステップと、
    第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行うステップであって、前記少なくとも1つの処理された第2の特徴マップが、前記M個の第4の特徴値を含む、ステップと
    を含む、画像処理方法。
  12. 前記M個の第4の特徴値が、前記M個の目標逆ゲイン値と、前記対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される、請求項11に記載の方法。
  13. 前記少なくとも1つの第2の特徴マップが第2の目標特徴マップを含み、前記第2の目標特徴マップがP個の第3の特徴値を含み、前記P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である、請求項11または12に記載の方法。
  14. 前記方法が、
    目標圧縮ビットレートを取得するステップと、
    目標マッピング関係に基づいて、前記目標圧縮ビットレートに対応する前記M個の目標逆ゲイン値を決定するステップであって、前記目標マッピング関係が、圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用される、ステップをさらに含み
    前記目標マッピング関係が、複数の圧縮ビットレート、複数の逆ゲインベクトル、および前記複数の圧縮ビットレートと前記複数の逆ゲインベクトルとの間の相関関係を含み、前記目標圧縮ビットレートが、前記複数の圧縮ビットレートのうちの1つであり、前記M個の目標逆ゲイン値が、前記複数の逆ゲインベクトルのうちの1つの要素であり、または
    前記目標マッピング関係が、目標関数マッピング関係を含み、前記目標関数関係の入力が前記目標圧縮ビットレートを含む場合、前記目標関数関係の出力が前記M個の目標逆ゲイン値を含む、
    請求項11から13のいずれか一項に記載の方法。
  15. 前記第2の画像が目標オブジェクトを含み、前記M個の第3の特徴値が、前記少なくとも1つの特徴マップ内の、前記目標オブジェクトに対応する特徴値である、請求項11から14のいずれか一項に記載の方法。
  16. 前記目標圧縮ビットレートが、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、前記第1の圧縮ビットレートが、M個の第1の逆ゲイン値に対応し、前記第2の圧縮ビットレートが、M個の第2の逆ゲイン値に対応し、前記M個の目標逆ゲイン値が、前記M個の第1の逆ゲイン値および前記M個の第2の逆ゲイン値に対して補間演算を実行することによって取得される、請求項11から15のいずれか一項に記載の方法。
  17. 画像処理装置であって、
    第1の画像を取得するように構成された取得モジュールと、
    少なくとも1つの第1の特徴マップを取得するために、前記第1の画像に対して特徴抽出を実行し、前記少なくとも1つの第1の特徴マップがN個の第1の特徴値を含み、Nが正の整数である、ように構成された特徴抽出モジュールを備え、
    前記取得モジュールが、目標圧縮ビットレートを取得するようにさらに構成され、前記目標圧縮ビットレートがM個の目標ゲイン値に対応し、各目標ゲイン値が1つの第1の特徴値に対応し、MがN以下の正の整数であり、
    M個の第2の特徴値を取得するために、前記M個の目標ゲイン値に基づいて、対応する第1の特徴値をそれぞれ処理するように構成されたゲインモジュールと、
    符号化データを取得するために、少なくとも1つの処理された第1の特徴マップに対して量子化およびエントロピー符号化を実行し、前記少なくとも1つの処理された第1の特徴マップが前記M個の第2の特徴値を含む、ように構成された量子化およびエントロピー符号化モジュールと
    を備える、画像処理装置。
  18. 前記少なくとも1つの処理された第1の特徴マップを量子化することによって取得された量子化データの情報エントロピーが予め設定された条件を満たし、前記予め設定された条件が前記目標圧縮ビットレートに関連する、請求項17に記載の装置。
  19. 前記予め設定された条件が、少なくとも、
    目標圧縮ビットレートが大きいほど、前記量子化データの情報エントロピーがより大きくなることを示す、請求項18に記載の装置。
  20. 前記符号化データに対応する圧縮ビットレートと前記目標圧縮ビットレートとの差が、予め設定された範囲内に入る、請求項17から19のいずれか一項に記載の装置。
  21. 前記M個の第2の特徴値が、前記M個の目標ゲイン値と、前記対応する第1の特徴値に対して個々に乗算演算を実行することによって取得される、請求項17から20のいずれか一項に記載の装置。
  22. 前記少なくとも1つの第1の特徴マップが第1の目標特徴マップを含み、前記第1の目標特徴マップがP個の第1の特徴値を含み、前記P個の第1の特徴値のすべてが同じ目標ゲイン値に対応し、PがM以下の正の整数である、請求項17から21のいずれか一項に記載の装置。
  23. 前記装置が、
    目標マッピング関係に基づいて、前記目標圧縮ビットレートに対応する前記M個の目標ゲイン値を決定し、前記目標マッピング関係が、圧縮ビットレートとM個の目標ゲイン値との間の相関関係を示すために使用される、決定モジュールをさらに備え、
    前記目標マッピング関係が、複数の圧縮ビットレート、複数のゲインベクトル、および前記複数の圧縮ビットレートと前記複数のゲインベクトルとの間の相関関係を含み、前記目標圧縮ビットレートが、前記複数の圧縮ビットレートのうちの1つであり、前記M個の目標ゲイン値が、前記複数のゲインベクトルのうちの1つの要素であり、または
    前記目標マッピング関係が、目標関数マッピング関係を含み、前記目標関数関係の入力が前記目標圧縮ビットレートを含む場合、前記目標関数関係の出力が前記M個の目標ゲイン値を含む、
    請求項17から22のいずれか一項に記載の装置。
  24. 前記目標圧縮ビットレートが、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、前記第1の圧縮ビットレートが、M個の第1のゲイン値に対応し、前記第2の圧縮ビットレートが、M個の第2のゲイン値に対応し、前記M個の目標ゲイン値が、前記M個の第1のゲイン値および前記M個の第2のゲイン値に対して補間演算を実行することによって取得される、請求項17から23のいずれか一項に記載の装置。
  25. 前記第1の画像が目標オブジェクトを含み、前記M個の第1の特徴値が、前記少なくとも1つの特徴マップ内の、前記目標オブジェクトに対応する特徴値である、請求項17から24のいずれか一項に記載の装置。
  26. 前記M個の目標ゲイン値のそれぞれが、1つの逆ゲイン値に対応し、前記逆ゲイン値が、前記符号化データの復号プロセスにおいて取得される特徴値を処理するために使用され、前記M個の目標ゲイン値のそれぞれと、前記対応する逆ゲイン値との積が、予め設定された範囲内に入る、請求項17から25のいずれか一項に記載の装置。
  27. 画像処理装置であって、
    符号化データを取得するように構成された取得モジュールと、
    少なくとも1つの第2の特徴マップを取得するために、前記符号化データに対してエントロピー復号を実行し、前記少なくとも1つの第2の特徴マップがN個の第3の特徴値を含み、Nが正の整数である、ように構成された復号モジュールを備え、
    前記取得モジュールがM個の目標逆ゲイン値を取得するようにさらに構成され、各目標逆ゲイン値が1つの第3の特徴値に対応し、MがN以下の正の整数であり、
    M個の第4の特徴値を取得するために、前記M個の目標逆ゲイン値に基づいて、対応する第3の特徴値をそれぞれ処理するように構成された逆ゲインモジュールと、
    第2の画像を取得するために、少なくとも1つの処理された第2の特徴マップに対して画像再構成を行い、前記少なくとも1つの処理された第2の特徴マップが前記M個の第4の特徴値を含む、ように構成された再構成モジュールと
    を備える、画像処理装置。
  28. 前記M個の第4の特徴値が、前記M個の目標逆ゲイン値と、前記対応する第3の特徴値に対して個々に乗算演算を実行することによって取得される、請求項27に記載の装置。
  29. 前記少なくとも1つの第2の特徴マップが第2の目標特徴マップを含み、前記第2の目標特徴マップがP個の第3の特徴値を含み、前記P個の第3の特徴値のすべてが同じ目標逆ゲイン値に対応し、PがM以下の正の整数である、請求項27または28に記載の装置。
  30. 前記取得モジュールが目標圧縮ビットレートを取得するようにさらに構成され、
    前記装置が、
    目標マッピング関係に基づいて、前記目標圧縮ビットレートに対応する前記M個の目標逆ゲイン値を決定し、前記目標マッピング関係が、圧縮ビットレートと逆ゲインベクトルとの間の相関関係を示すために使用される、決定モジュールをさらに備え、
    前記目標マッピング関係が、複数の圧縮ビットレート、複数の逆ゲインベクトル、および前記複数の圧縮ビットレートと前記複数の逆ゲインベクトルとの間の相関関係を含み、前記目標圧縮ビットレートが、前記複数の圧縮ビットレートのうちの1つであり、前記M個の目標逆ゲイン値が、前記複数の逆ゲインベクトルのうちの1つの要素であり、または
    前記目標マッピング関係が、目標関数マッピング関係を含み、前記目標関数関係の入力が前記目標圧縮ビットレートを含む場合、前記目標関数関係の出力が前記M個の目標逆ゲイン値を含む、
    請求項27から29のいずれか一項に記載の装置。
  31. 前記第2の画像が目標オブジェクトを含み、前記M個の第3の特徴値が、前記少なくとも1つの特徴マップ内の、前記目標オブジェクトに対応する特徴値である、請求項27から30のいずれか一項に記載の装置。
  32. 前記目標圧縮ビットレートが、第1の圧縮ビットレートよりも大きく、第2の圧縮ビットレートよりも小さく、前記第1の圧縮ビットレートが、M個の第1の逆ゲイン値に対応し、前記第2の圧縮ビットレートが、M個の第2の逆ゲイン値に対応し、前記M個の目標逆ゲイン値が、前記M個の第1の逆ゲイン値および前記M個の第2の逆ゲイン値に対して補間演算を実行することによって取得される、請求項27から31のいずれか一項に記載の装置。
  33. 互いに結合された不揮発性メモリおよびプロセッサを備える画像処理装置であって、前記プロセッサが請求項1から16のいずれか一項に記載の方法を実行するために、前記メモリに記憶されたプログラムコードを呼び出す、画像処理装置。
JP2022548020A 2020-02-07 2021-02-05 画像処理方法および関連装置 Pending JP2023512570A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010082808.4A CN113259665B (zh) 2020-02-07 2020-02-07 一种图像处理方法以及相关设备
CN202010082808.4 2020-02-07
PCT/CN2021/075405 WO2021155832A1 (zh) 2020-02-07 2021-02-05 一种图像处理方法以及相关设备

Publications (1)

Publication Number Publication Date
JP2023512570A true JP2023512570A (ja) 2023-03-27

Family

ID=77200542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022548020A Pending JP2023512570A (ja) 2020-02-07 2021-02-05 画像処理方法および関連装置

Country Status (10)

Country Link
US (1) US20220375133A1 (ja)
EP (1) EP4090022A4 (ja)
JP (1) JP2023512570A (ja)
KR (1) KR20220137076A (ja)
CN (2) CN113259665B (ja)
AU (1) AU2021215764A1 (ja)
BR (1) BR112022015510A2 (ja)
CA (1) CA3167227A1 (ja)
MX (1) MX2022009686A (ja)
WO (1) WO2021155832A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111988629B (zh) 2019-05-22 2024-02-09 富士通株式会社 图像编码装置和图像解码装置
CN113840145B (zh) * 2021-09-23 2023-06-09 鹏城实验室 一种面向人眼观看和视觉分析联合优化的图像压缩方法
CN115913245A (zh) * 2021-09-30 2023-04-04 华为技术有限公司 数据编码方法、数据解码方法以及数据处理装置
CN114051082B (zh) * 2021-10-19 2023-10-27 河南师范大学 基于失真度和信息增益比的隐写检测特征选取方法及装置
CN113822955B (zh) * 2021-11-18 2022-02-22 腾讯医疗健康(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质
CN116778003A (zh) * 2022-03-10 2023-09-19 华为技术有限公司 一种特征图编码、特征图解码方法及装置
CN114630125B (zh) * 2022-03-23 2023-10-27 徐州百事利电动车业有限公司 基于人工智能与大数据的车辆图像压缩方法与***
CN114944945A (zh) * 2022-05-09 2022-08-26 江苏易安联网络技术有限公司 一种基于变分自编码器和属性的动态访问控制方法
CN118250463A (zh) * 2022-12-23 2024-06-25 维沃移动通信有限公司 图像处理方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200027247A1 (en) * 2018-07-20 2020-01-23 Google Llc Data compression using conditional entropy models
JP2021535689A (ja) * 2019-05-24 2021-12-16 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co., Ltd. ディープ・ニューラル・ネットワークのための圧縮方法、チップ、電子デバイス、および媒体
US20220224926A1 (en) * 2021-01-12 2022-07-14 Qualcomm Incorporated Variable bit rate compression using neural network models

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903271B (zh) * 2014-04-11 2017-01-18 北京航空航天大学 一种针对自然图像和基于dwt压缩篡改图像的图像的取证方法
ITUB20153912A1 (it) * 2015-09-25 2017-03-25 Sisvel Tech S R L Metodi e apparati per codificare e decodificare immagini digitali mediante superpixel
US10721471B2 (en) * 2017-10-26 2020-07-21 Intel Corporation Deep learning based quantization parameter estimation for video encoding
CN109996066A (zh) * 2017-12-29 2019-07-09 富士通株式会社 图像编码装置,图像解码装置和电子设备
CN110225342B (zh) * 2019-04-10 2021-03-09 中国科学技术大学 基于语义失真度量的视频编码的比特分配***及方法
CN110222717B (zh) * 2019-05-09 2022-01-14 华为技术有限公司 图像处理方法和装置
CN110222758B (zh) * 2019-05-31 2024-04-23 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及存储介质
WO2022155245A1 (en) * 2021-01-12 2022-07-21 Qualcomm Incorporated Variable bit rate compression using neural network models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200027247A1 (en) * 2018-07-20 2020-01-23 Google Llc Data compression using conditional entropy models
JP2021535689A (ja) * 2019-05-24 2021-12-16 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co., Ltd. ディープ・ニューラル・ネットワークのための圧縮方法、チップ、電子デバイス、および媒体
US20220224926A1 (en) * 2021-01-12 2022-07-14 Qualcomm Incorporated Variable bit rate compression using neural network models

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Neural Image Compression via Non-Local Attention Optimization and Improved Context Modeling", ARXRIV.ORG, JPN7023003381, 11 October 2019 (2019-10-11), ISSN: 0005142918 *

Also Published As

Publication number Publication date
KR20220137076A (ko) 2022-10-11
CA3167227A1 (en) 2021-08-12
BR112022015510A2 (pt) 2022-09-27
CN113259665A (zh) 2021-08-13
WO2021155832A1 (zh) 2021-08-12
CN113259665B (zh) 2022-08-09
EP4090022A1 (en) 2022-11-16
EP4090022A4 (en) 2023-06-07
CN115088257A (zh) 2022-09-20
US20220375133A1 (en) 2022-11-24
AU2021215764A1 (en) 2022-09-15
MX2022009686A (es) 2022-11-16

Similar Documents

Publication Publication Date Title
JP2023512570A (ja) 画像処理方法および関連装置
US11729406B2 (en) Video compression using deep generative models
US20210125070A1 (en) Generating a compressed representation of a neural network with proficient inference speed and power consumption
WO2022021938A1 (zh) 图像处理方法与装置、神经网络训练的方法与装置
WO2022179588A1 (zh) 一种数据编码方法以及相关设备
CN112887728A (zh) 电子装置、电子装置的控制方法以及***
CN114766035A (zh) 频域数据的预处理和数据增强
WO2022028197A1 (zh) 一种图像处理方法及其设备
WO2023207836A1 (zh) 一种图像编码方法、图像解压方法以及装置
CN111950700A (zh) 一种神经网络的优化方法及相关设备
WO2022022176A1 (zh) 一种图像处理方法以及相关设备
US20240078414A1 (en) Parallelized context modelling using information shared between patches
WO2022001364A1 (zh) 一种提取数据特征的方法和相关装置
CN115409697A (zh) 一种图像处理方法及相关装置
US11403782B2 (en) Static channel filtering in frequency domain
WO2023174256A1 (zh) 一种数据压缩方法以及相关设备
TWI826160B (zh) 圖像編解碼方法和裝置
WO2022100140A1 (zh) 一种压缩编码、解压缩方法以及装置
CN113554719B (zh) 一种图像编码方法、解码方法、存储介质及终端设备
WO2021189321A1 (zh) 一种图像处理方法和装置
CN114693811A (zh) 一种图像处理方法以及相关设备
WO2024032075A1 (zh) 图像处理网络的训练、编解码方法及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220915

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230904

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240723