JP2024511675A - 画像特徴を送信する方法、装置、及びシステム - Google Patents

画像特徴を送信する方法、装置、及びシステム Download PDF

Info

Publication number
JP2024511675A
JP2024511675A JP2023560607A JP2023560607A JP2024511675A JP 2024511675 A JP2024511675 A JP 2024511675A JP 2023560607 A JP2023560607 A JP 2023560607A JP 2023560607 A JP2023560607 A JP 2023560607A JP 2024511675 A JP2024511675 A JP 2024511675A
Authority
JP
Japan
Prior art keywords
matrix
feature
matrices
correlation
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023560607A
Other languages
English (en)
Inventor
ワン,フーイフェン
チャン,ユアン
ヤン,ミンチュアン
ヒー,チャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Publication of JP2024511675A publication Critical patent/JP2024511675A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本発明は、画像特徴の送信方法、送信デバイス及び送信システムに関し、通信の技術分野に関する。本送信方法は、次のステップ、すなわち、機械学習モデルを使用することによって各チャネルの処理対象画像の特徴行列を抽出するステップと、特徴行列の間の相関度と第1の閾値との比較結果に従って1つ以上のインシデンス行列対を求めるステップと、情報量に従って、各インシデンス行列対の2つの特徴行列において表現行列及び被表現行列を決定するステップと、各表現行列と各被表現行列との間の対応する関係を求めるステップと、各表現行列と、対応する関係と、各被表現行列における最大特徴値及び最小特徴値とに対して量子化処理及び符号化処理を実行するステップと、その後、復号端に送信するステップとを含む。【選択図】図1

Description

[関連出願の相互参照]
本開示は、2021年3月30日付けで出願された中国特許出願第202110339533.2号に基づくものであり、この出願の優先権を主張する。この中国特許出願の開示内容は、その全体が、引用することによって本開示内容の一部をなす。
本開示は、通信技術の分野に関し、特に、画像特徴の送信方法、画像特徴の送信装置、画像特徴の送信システム、及び非一時的コンピューター可読記憶媒体に関する。
機械学習アプリケーションの発展に伴って、多くのインテリジェントプラットフォームが、車両のインターネット、ビデオ監視、及びスマートシティ等の様々な分野において採用されてきた。これらのプラットフォームは、多数のセンサーとの大量のデータ通信を生み出す。
関連技術において、通信におけるデータは、人間の視覚に基づく符号化方法を使用して符号化される。
本開示のいくつかの実施の形態によれば、機械学習モデルを使用して、処理される画像のチャネルの特徴行列を抽出することと、特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求めることと、情報量に基づいて1つ以上の相関行列対のそれぞれの2つの特徴行列から表現行列及び被表現行列を決定することと、表現行列と被表現行列との間の対応関係を求めることと、量子化及び符号化された表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを復号器に送信することとを含む、画像特徴の送信方法が提供される。
いくつかの実施の形態において、特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求めることは、特徴行列の特徴値の分布に基づいて特徴行列の間の相関度を計算することと、2つの特徴行列の間の相関度が第1の閾値よりも大きい場合には、その2つの特徴行列を相関行列対として決定することとを含む。
いくつかの実施の形態において、特徴行列の特徴値の分布に基づいて特徴行列の間の相関度を計算することは、特徴行列の間の等分散性の確率を相関度として計算することを含む。
いくつかの実施の形態において、表現行列と被表現行列との間の対応関係を求めることは、被表現行列が複数の表現行列に対応する場合には、複数の表現行列の中で最大の情報量を有する表現行列を、被表現行列に対応する表現行列として決定することを含む。
いくつかの実施の形態において、特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求めることは、選択されていない特徴行列である候補特徴行列から特徴行列を現在の対象として選択することと、現在の対象と候補特徴行列のそれぞれとの間の相関度を計算することと、残っている候補特徴行列が1つのみとなるまで、次の特徴行列を現在の対象として選択して相関度を計算することとを含む。
いくつかの実施の形態において、特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求めることは、特徴行列のそれぞれの特徴値を正規化することと、正規化された特徴行列の間の相関度を計算することとを含む。
いくつかの実施の形態において、送信方法は、特徴行列の情報量を計算することと、特徴行列の情報量が第2の閾値未満であるか否かを判断することとを更に含み、特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求めることは、第2の閾値未満の情報量を有する特徴行列の間の相関度を計算することと、相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求めることとを含む。
いくつかの実施の形態において、量子化及び符号化された表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを復号器に送信することは、対応関係を有する表現行列に対して量子化プロセスを実行することと、符号化された量子化の結果と、符号化された対応関係と、被表現行列の最大特徴値及び最小特徴値とを復号器に送信することとを含む。
いくつかの実施の形態において、送信方法は、復号器において復号及び逆量子化(脱量子化)処理を実行して、対応関係を有する表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを取得することを更に含む。
いくつかの実施の形態において、送信方法は、表現行列の最大特徴値及び最小特徴値と、表現行列に対応する被表現行列の最大特徴値及び最小特徴値とに基づいて、復号器において被表現行列を取得することを更に含む。
いくつかの実施の形態において、表現行列と被表現行列との間の対応関係を求めることは、1つ以上の相関行列対のそれぞれにおける被表現行列のチャネルシーケンス番号をキー値として使用するとともに、相関行列対のそれぞれにおける被表現行列のチャネルシーケンス番号をデータ値として使用して、相関行列対のそれぞれをキー値対として記憶することと、キー値を使用して、同じ被表現行列に対応する複数の表現行列を集約して表現関係辞書を生成することと、表現関係辞書に基づいて、表現行列と被表現行列との間の対応関係を求めることとを含む。
本開示の他の実施の形態によれば、機械学習モデルを使用して、処理される画像のチャネルの特徴行列を抽出する抽出ユニットと、特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求め、情報量に基づいて1つ以上の相関行列対のそれぞれの2つの特徴行列から表現行列及び被表現行列を決定し、表現行列と被表現行列との間の対応関係を求める決定ユニットと、量子化及び符号化された表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを復号器に送信する送信ユニットとを備える、画像特徴の送信装置が提供される。
いくつかの実施の形態において、決定ユニットは、様々な特徴行列の特徴値の分布に基づいて任意の2つの特徴行列の間の相関度を計算し、2つの特徴行列の間の相関度が第1の閾値よりも大きい場合には、その2つの特徴行列を相関行列対として決定する。
いくつかの実施の形態において、決定ユニットは、任意の2つの特徴行列の間の等分散性の確率を相関度として計算する。
いくつかの実施の形態において、被表現行列が複数の表現行列に対応する場合には、決定ユニットは、複数の表現行列の中で最大の情報量を有する表現行列を、被表現行列に対応する表現行列として決定する。
いくつかの実施の形態において、決定ユニットは、選択されていない特徴行列である候補特徴行列から特徴行列を現在の対象として選択し、現在の対象とそれぞれの候補特徴行列との間の相関度を計算し、残っている候補特徴行列が1つのみとなるまで、次の特徴行列を現在の対象として選択して相関度を計算する。
いくつかの実施の形態において、決定ユニットは、各特徴行列の特徴値に対して正規化処理を実行し、任意の2つの正規化された特徴行列の間の相関度を計算する。
いくつかの実施の形態において、決定ユニットは、各特徴行列の情報量を計算し、特徴行列の情報量が第2の閾値未満であるか否かを判断し、第2の閾値未満の情報量をそれぞれ有する任意の2つの特徴行列の間の相関度を計算し、相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求める。
いくつかの実施の形態において、送信ユニットは、対応する被表現行列を有する各表現行列に対して量子化プロセスを実行し、量子化結果と、対応関係と、各被表現行列の最大特徴値及び最小特徴値とを符号化し、その後、それらを復号器に送信する。
いくつかの実施の形態において、送信装置は、復号器において復号プロセス及び逆量子化プロセスを実行して、対応関係を有する表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを取得する獲得ユニットを更に備える。
いくつかの実施の形態において、表現行列の最大特徴値及び最小特徴値と、表現行列に対応する被表現行列の最大特徴値及び最小特徴値とに基づいて、獲得ユニットは、復号器において被表現行列を取得する。
いくつかの実施の形態において、各相関行列対における被表現行列のチャネルシーケンス番号をキー値として使用するとともに、被表現行列のチャネルシーケンス番号をデータ値として使用して、決定ユニットは、各相関行列対をキー値対として記憶し、キー値を使用して、同じ被表現行列に対応する複数の表現行列を集約して表現関係辞書を生成し、表現関係辞書に基づいて、様々な表現行列と様々な被表現行列との間の対応関係を求める。
本開示の更に他の実施の形態によれば、機械学習モデルを使用して、処理される画像のチャネルの特徴行列を抽出し、特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求め、情報量に基づいて1つ以上の相関行列対のそれぞれの2つの特徴行列から表現行列及び被表現行列を決定し、表現行列と被表現行列との間の対応関係を求め、量子化及び符号化された表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを復号器に送信する符号化器と、復号プロセス及び逆量子化プロセスを実行して、対応関係を有する表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを取得する復号器とを備える、画像特徴の送信システムが提供される。
本開示の更に他の実施の形態によれば、メモリと、メモリに結合されたプロセッサであって、メモリに記憶された命令に基づいて、上記実施の形態のうちいずれか1つに記載の画像特徴の送信方法を実行するように構成されるプロセッサとを備える、画像特徴の送信装置が提供される。
本開示の更に他の実施の形態によれば、プロセッサによって実行されると、上記実施の形態のうちいずれか1つに記載の画像特徴の送信方法を実施するコンピュータープログラムを記憶する不揮発性コンピューター可読記憶媒体が提供される。
本明細書に組み込まれて本明細書の一部をなす添付図面は、本開示の実施形態を示し、この説明とともに、本開示の原理を説明する役割を果たす。
本開示は、添付図面に関する以下の詳細な説明からより明瞭に理解される。
本開示のいくつかの実施形態による画像特徴の送信方法のフローチャートである。 本開示の他の実施形態による画像特徴の送信方法のフローチャートである。 本開示の更に他の実施形態による画像特徴の送信方法のフローチャートである。 本開示のいくつかの実施形態による画像特徴の送信装置のブロック図である。 本開示の他の実施形態による画像特徴の送信装置のブロック図である。 本開示の更に他の実施形態による画像特徴の送信装置のブロック図である。 本開示のいくつかの実施形態による画像特徴の送信システムのブロック図である。
ここでは、本開示の様々な例示的な実施形態が、添付図面を参照して詳細に説明される。別段の指定がない限り、これらの例において述べられる構成要素及びステップの相対的な配置、数式及び数値は、本発明の範囲を限定するものでないことを留意されたい。
同時に、説明を簡単にするために、図面に示されている様々な部分の寸法は、実際の比率で描かれていないことを理解すべきである。
少なくとも1つの例示的な実施形態の以下の説明は、実際上、単なる例示にすぎず、決して本発明、その用途又は使用を限定するものとして意図されたものでない。
関連技術の当業者に知られている技法、方法、及び装置は、詳細に論述されない場合があるが、適切な場合には、これらの技法、方法、及び装置は、本明細書の一部とみなされることになる。
本出願に図示及び論述される全ての例について、どの特定の値も、単なる例示であって、限定ではないと解釈されるべきである。したがって、例示的な実施形態の他の例は、異なる値を有してもよい。
同様の参照番号及び参照文字は、添付図面において同様のものによって示され、したがって、図面において項目が定義されると、添付図面において更に議論する必要はないことを留意されたい。
本開示の本発明者らは、符号圧縮率が低いという問題が関連技術に存在することを発見した。符号圧縮率が低いと、通信データ量が増加した場合に通信品質を確保することが困難になる。
これに鑑み、本開示は、符号圧縮率の改善及び通信品質の確保を行うことができる、画像特徴を送信するための技術的解決策を提案する。
上述したように、データ量の増加は、既存の人間の視覚に基づく符号化方法の低効率を直接もたらし、レイテンシー及びスケールの実世界の要件を満たすことも困難にする。したがって、インテリジェント機械に基づく特徴符号化方法が必要とされている。
符号圧縮の前提は、冗長性であり、符号圧縮の目的は、冗長性を除去して、圧縮目的を達成することである。したがって、本開示は、ニューラルネットワークにおける冗長な特徴に基づいて特徴符号の圧縮率を改善する。
例えば、畳み込みニューラルネットワークには、画像のタイプに依存する初期入力画像サンプルのチャネル(RGB(赤、緑、青)チャネル等)、畳み込みカーネルの数に依存する畳み込みの完了後の出力用のチャネル(out_channels)の3つのタイプのチャネルがある。out_channelsは、その後、次の畳み込みのために畳み込みカーネルのin_channelsとして使用され、畳み込みカーネルのin_channelsは、先行の畳み込みのout_channelsである。
これは、チャネルの特徴が、先行層及び出力チャネルと同じ数の層を有する畳み込みカーネルにおける全ての出力チャネルの畳み込み出力の重ね合わせの結果であることを意味する。ニューラルネットワークは、トレーニングプロセス中に各畳み込みカーネルの重み値を自律的に学習し、種々の畳み込みカーネル重み値に基づいて関係のある情報を抽出する。したがって、畳み込みニューラルネットワークの中間層特徴マップは、大量の関係していない情報、すなわち、冗長な特徴情報を必然的に含む。特徴マップにおける冗長性は、畳み込みニューラルネットワークの重要な特徴である。
生体模倣の観点から、脳に関する研究は、生体ニューロンの情報符号化が通常は分散され、スパースであることを示してきた。通常、脳内のニューロンの1%~4%しか同時に活性化していない。線形補正及び正則化を使用して、機械ニューラルネットワーク内のニューロンの活動(すなわち、正の出力を有する)を調整することができる。
対照的に、論理関数は、入力が0であるときに1/2に達し、これは、既に安定した半飽和状態にあり、ニューラルネットワークをシミュレーションする実際の生物学の予想を満たさない。一般に、正規化線形ユニット(ReLU、すなわち線形正規化)を使用するニューラルネットワーク内のニューロンの約50%は活性化している。
ニューラルネットワークの浅い中間層におけるチャネル特徴の分布特性を考慮して、本開示は、チャネル相関に基づいて相関チャネルを線形にスケーリング及び特徴付けして、符号化されるデータの量を削減し、特徴符号の圧縮率を改善することを提案する。
いくつかの実施形態において、チャネルの間の相関は、等分散性のルビーン検定を通じて分析することができる。等分散性は、分散のt検定及び分析の必要条件である。F検定及びバートレットのカイ2乗検定は、データの厳密な正規性を必要とする一方、ルビーン検定は、任意の分布のデータとともに使用することができ、等分散性の検定に対して相対的にロバストな方法である。例えば、ルビーン検定は、以下の実施形態によって実現することができる。
図1は、本開示のいくつかの実施形態による画像特徴の送信方法のフローチャートを示している。
図1に示すように、ステップ110において、特徴行列が、機械学習モデルを使用して、処理される画像のチャネルごとに抽出される。
いくつかの実施形態において、4864×3648×3のサイズで処理されるRGB(赤緑青)画像が、カスケードR-CNN(Regions with Convolutional Neural Network:畳み込みニューラルネットワークを有する領域)ResNet101(Residual Network:残差ネットワーク)を使用して処理される。
例えば、カスケードR-CNN ResNet101の最初のプーリング層の後の中間層によって出力される特徴によって含まれる特徴層の出力は、符号化される対象として使用することができる。この中間層は、64×200×272層であってもよく、ここで、64は、チャネル数(すなわち、含まれる特徴層の数)であり、200×272は、各特徴層によって出力される特徴行列のサイズである。すなわち、中間層によって出力される特徴情報は、N個のチャネルに対応するN個の特徴行列を含む。
ステップ120において、1つ以上の相関行列対が、任意の2つの特徴行列の間の相関度と第1の閾値との比較結果に基づいて求められる。
いくつかの実施形態において、各特徴行列の特徴値が正規化され、任意の2つの正規化された特徴行列の間の相関度が計算される。例えば、Min-Max正規化が、相関分析を必要とする各チャネルの特徴行列Fに対して実行され、以下の式の各チャネルの正規化された特徴行列F’が取得される。
Figure 2024511675000002
ここで、i=0,1,2,...,N-1(例えば、N=46)であり、F’(l,m)は、行列F’の行i及び列mにおける要素であり、F(l,m)は、Fの行i及び列mにおける要素であり、Fiminは、Fにおける最小要素であり、Fimaxは、Fにおける最大要素である。
いくつかの実施形態において、各特徴行列の情報量が計算され、各特徴行列の情報量が第2の閾値未満であるか否かが判断され、第2の閾値未満の情報量をそれぞれ有する任意の2つの特徴行列の間の相関度が計算され、この相関度と第1の閾値との比較結果に基づいて、1つ以上の相関行列対が求められる。
例えば、正規化された特徴行列における全ての特徴値の平均が、その情報量として計算され、その情報量が第2の閾値(0.4等の1未満の正数とすることができる)未満である場合には、この特徴行列の相関度が計算され、情報量が第2の閾値(0.4等の1未満の正数とすることができる)以上である場合には、これは、特徴行列が大きな情報量を有することを示し、この大きな情報量は、量子化と、圧縮を伴わない符号化との後に復号器に送信される。
いくつかの実施形態において、任意の2つの特徴行列の間の相関度は、各特徴行列の特徴値の分布に基づいて計算される。例えば、任意の2つの特徴行列の間の等分散性の確率が、相関度として計算される。
いくつかの実施形態において、特徴行列が、選択されていない特徴行列である候補特徴行列から現在の対象として選択され、この現在の対象と候補特徴行列のそれぞれとの間の相関度が計算され、残っている候補特徴行列が1つのみとなるまで、次の特徴行列が、相関度を計算する現在の対象として選択される。
例えば、0の初期値を有するiが、現在のシーケンス番号を設定するために使用される。正規化された特徴行列F’と他の特徴行列F’(kは現在のシーケンス番号として設定されていないものである)との間の等分散性の確率Pik、k=i+1、i+2,...,N-1。Pikは、等分散性のルビーン検定を通じて取得することができる。
いくつかの実施形態において、2つの特徴行列の間の相関度が第1の閾値よりも大きい場合には、これらの2つの特徴行列は、相関行列対として求められる。
例えば、そのPikが第1の閾値(0.05等の1未満の正数)よりも大きいF’は、1つの相関行列対としてF’と紐付けされ、相関行列対の紐付けされたチャネルシーケンス番号は、(i,k),(i,k),...,(i,k)の形で記録される。ここで、mは、それぞれがiよりも大きなチャネルシーケンス番号と、チャネルiに関する第1の閾値よりも大きなPik値とを有するチャネルの数である。現在のシーケンス番号iは、iがN-1よりも大きくなるまで上記ステップを繰り返すために1ずつ増加される。
例えば、表1に示す以下の行列対を取得することができる。
ステップ130において、1つ以上の相関行列対のそれぞれの2つの特徴行列からの表現行列及び被表現行列が、情報量に基づいて決定される。
いくつかの実施形態において、行列対における正規化前の特徴値の合計が大きい方のチャネルのチャネルシーケンス番号が、表現チャネル(表現行列)として使用され、正規化前の特徴値の合計が小さい方のチャネルのチャネルシーケンス番号が、対応する被表現チャネル(被表現行列)として使用される。
例えば、行列対における被表現行列のチャネルシーケンス番号をキー値として使用するとともに、被表現行列のチャネルシーケンス番号をデータ値として使用すると、行列対は、キー値対として記憶され、これらのキー値を使用すると、同じ被表現行列に対応する複数の表現行列が集約され、表2に示す表現関係辞書が生成される。
ステップ140において、表現行列と被表現行列との間の対応関係が求められる。
いくつかの実施形態において、被表現行列が複数の表現行列に対応する場合には、それらの複数の表現行列の中で最大の情報量を有する表現行列が、被表現行列に対応する表現行列として決定される。
例えば、表2における行列対6、7、8のそれぞれは、複数の表現行列に対応する被表現行列を含む。同じ被表現行列Cに対応する表現チャネルCknの複数の表現行列Fknのそれぞれについて、正規化前のその特徴値の合計が計算され、最大合計値を有する特徴行列が、Cに対応する表現行列Cとして使用される。
Figure 2024511675000005
対応関係は、以下のマッピング表に記録することができる。
ステップ150において、量子化及び符号化された表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とが、復号器に送信される。
いくつかの実施形態において、量子化プロセスは、対応関係を有する表現行列に対して実行され、符号化された量子化の結果と、対応関係と、被表現行列の最大特徴値及び最小特徴値とが、復号器に送信される。
例えば、表3における7個の表現チャネルに対応する表現行列F(j=0,1,26,40,44,52,57)は、F’に量子化される。この量子化は、一様な量子化等とすることができる。線形スケーリング情報及び各F’を符号化して、バイナリストリームを形成することができる。線形スケーリング情報は、マッピング表、各被表現行列の最大値及び最小値等を含む。
上記実施形態において、機械学習モデルにおける異なるチャネルの特徴行列の間の相関に基づいて、送信される情報内の冗長情報が除去され、それによって、符号圧縮率が改善され、通信品質が確保される。
いくつかの実施形態において、本開示の技術的解決策は、図2に示す実施形態による復号器によって実施することができる。
図2は、本開示の他の実施形態による画像特徴の送信方法のフローチャートを示している。
図2に示すように、ステップ210において、復号プロセス及び逆量子化プロセスが復号器において実行され、対応関係を有する表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とが取得される。
ステップ220において、表現行列の最大特徴値及び最小特徴値と、この表現行列に対応する被表現行列の最大特徴値及び最小特徴値とに基づいて、復号器における被表現行列が取得される。
いくつかの実施形態において、バイナリストリームが復号され、線形スケーリング情報及び各F’が取得され、F’が逆量子化されて、表現チャネルの特徴行列Fが取得され、表現チャネルの特徴行列Fに対応する被表現チャネルの特徴行列Fが、以下の式にように特徴行列Fと線形に表される。
Figure 2024511675000007
ここで、max()及びmin()は、行列内の要素の最大値及び最小値を抽出する関数である。上記式を解くことによって、被表現行列Fが取得される。
上記実施形態において、畳み込みニューラルネットワークの中間層においてチャネル特徴の分布特性を考慮して、チャネル相関が、等分散性のルビーン検定を使用して分析され、相関チャネルが、線形スケーリングによって表される。したがって、符号化されるデータの量を削減することができ、特徴符号の圧縮率を改善することができる。
図3は、本開示の更に他の実施形態による画像特徴の送信方法のフローチャートを示している。
図3に示すように、Min-Max正規化が、ステップ310において、相関分析を必要とする各チャネルの特徴行列Fに対して実行され、以下の式の各チャネルの正規化された特徴行列F’が取得される。
Figure 2024511675000008
ここで、i=0,1,2,...,N-1(例えば、N=46)であり、F’(l,m)は、行列F’の行i及び列mにおける要素であり、F(l,m)は、Fの行i及び列mにおける要素であり、Fiminは、Fにおける最小要素であり、Fimaxは、Fにおける最大要素である。
ステップ320において、0の初期値を有するチャネルインデックスiが、現在のシーケンス番号として使用される。
ステップ330において、チャネルiの特徴行列における特徴値の平均が閾値よりも大きいか否かが判断される。大きくない場合には、本方法はステップ340に進み、大きい場合には、本方法はステップ360に進む。
ステップ340において、正規化された特徴行列F’と他の特徴行列F’(kは現在のシーケンス番号として設定されていないものである)との間の等分散性の確率Pik、k=i+1、i+2,...,N-1。
ステップ350において、チャネルiに関する等分散性のルビーン検定によって生成される、閾値よりも大きなPik値を有するチャネル対、すなわち(i,k)、(i,k),...,(i,k)が記録される。mは、それぞれがiよりも大きなチャネルシーケンスを有する番号チャネルと、チャネルiに関する第1の閾値よりも大きなPikとを有するチャネルの数である。
ステップ360において、現在のシーケンス番号であるチャネルインデックスが、1だけ増加される。
ステップ370において、iがN-1未満であるか否かが判断される。iがN-1未満である場合には、本方法はステップ330に戻って、iがN-1よりも大きくなるまで、ステップ330~360を繰り返し、iがN-1未満でない場合には、本方法はステップ380に進む。
ステップ380において、行列対における正規化前の特徴値の合計が大きい方のチャネルのチャネルシーケンス番号が、表現チャネル(表現行列)として使用され、正規化前の特徴値の合計が小さい方のチャネルのチャネルシーケンス番号が、対応する被表現チャネル(被表現行列)として使用される。
ステップ390において、行列対における被表現行列Cのチャネルシーケンス番号をキー値として使用するとともに、表現行列Cknのチャネルシーケンス番号をデータ値として使用すると、行列対は、キー値対として記憶され、これらのキー値を使用すると、同じ被表現行列に対応する複数の表現行列が集約され、以下の式の表現関係辞書が生成される。
Figure 2024511675000009
ここで、nは、チャネルkに対応する表現チャネルの数である。
ステップ395において、同じ被表現行列Cに対応する複数の表現行列Cknの表現行列Fknのそれぞれについて、正規化前のFknの特徴値の合計が計算され、最大合計値を有する特徴チャネルが、Cに対応する唯一の表現チャネルCとして使用される。
Figure 2024511675000010
対応関係は、マッピング表に記録することができる。
図4は、本開示のいくつかの実施形態による画像特徴の送信装置のブロック図を示している。
図4に示すように、画像特徴の送信装置4は、抽出ユニット41と、決定ユニット42と、送信ユニット43を備える。
抽出ユニット41は、機械学習モデルを使用して、処理される画像のチャネルの特徴行列を抽出することに使用される。
決定ユニット42は、特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求めることと、情報量に基づいて1つ以上の相関行列対のそれぞれの2つの特徴行列から表現行列及び被表現行列を決定することと、表現行列と被表現行列との間の対応関係を求めることとに使用される。
いくつかの実施形態において、決定ユニット42は、特徴行列の特徴値の分布に基づいて特徴行列の間の相関度を計算することと、2つの特徴行列の間の相関度が第1の閾値よりも大きい場合には、2つの特徴行列を相関行列対として求めることとに使用される。
いくつかの実施形態において、決定ユニット42は、任意の2つの特徴行列の間の等分散性の確率を相関度として計算する。
いくつかの実施形態において、被表現行列が複数の表現行列に対応する場合には、決定ユニット42は、複数の表現行列の中で最大の情報量を有する表現行列を、この被表現行列に対応する表現行列として決定する。
いくつかの実施形態において、決定ユニット42は、選択されていない特徴行列である候補特徴行列から特徴行列を現在の対象として選択する。決定ユニット42は、現在の対象とそれぞれの候補特徴行列との間の相関度を計算し、残っている候補特徴行列が1つのみとなるまで、次の特徴行列を現在の対象として選択して相関度を計算する。
いくつかの実施形態において、決定ユニット42は、各特徴行列の特徴値に対して正規化処理を実行し、任意の2つの正規化された特徴行列の間の相関度を計算する。
いくつかの実施形態において、決定ユニット42は、各特徴行列の情報量を計算し、特徴行列の情報量が第2の閾値未満であるか否かを判断し、第2の閾値未満の情報量をそれぞれ有する任意の2つの特徴行列の間の相関度を計算し、相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求める。
送信ユニット43は、量子化及び符号化された表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを復号器に送信することに使用される。
いくつかの実施形態において、送信ユニット43は、対応する被表現行列を有する各表現行列に対して量子化プロセスを実行し、量子化結果と、対応関係と、各被表現行列の最大特徴値及び最小特徴値とを符号化し、その後、それらを復号器に送信する。
いくつかの実施形態において、送信装置4は、復号器における復号プロセス及び逆量子化プロセスを実行して、対応関係を有する表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを取得する獲得ユニット44を更に備える。
いくつかの実施形態において、表現行列の最大特徴値及び最小特徴値と、この表現行列に対応する被表現行列の最大特徴値及び最小特徴値とに基づいて、獲得ユニット44は、復号器における被表現行列を取得する。
いくつかの実施形態において、各相関行列対における被表現行列のチャネルシーケンス番号をキー値として使用するとともに、被表現行列のチャネルシーケンス番号をデータ値として使用して、決定ユニット42は、各相関行列対をキー値対として記憶し、これらのキー値を使用して、同じ被表現行列に対応する複数の表現行列を集約して表現関係辞書を生成し、この表現関係辞書に基づいて、様々な表現行列と様々な被表現行列との間の対応関係を求める。
図5は、本開示の他の実施形態による画像特徴の送信装置のブロック図を示している。
図5に示すように、この実施形態の画像特徴の送信装置5は、メモリ51と、メモリ51に結合されたプロセッサ52とを備え、プロセッサ52は、メモリ51に記憶された命令に基づいて、本開示の実施形態のうちのいずれか1つによる画像特徴の送信方法を実行するように構成される。
ここで、メモリ51は、例えば、システムメモリ、固定された非一時的記憶媒体等を含むことができる。システムメモリは、例えば、オペレーティングシステム、アプリケーション、ブートローダー、データベース、及び他のプログラムを記憶する。
図6は、本開示の更に他の実施形態による画像特徴の送信装置のブロック図を示している。
図6に示すように、この実施形態の画像特徴の送信装置6は、メモリ610と、メモリ610に結合されたプロセッサ620とを備え、プロセッサ620は、メモリ610に記憶された命令に基づいて、本開示の実施形態のうちのいずれか1つによる画像特徴の送信方法を実行するように構成される。
メモリ610は、例えば、システムメモリ、固定された非一時的記憶媒体等を含むことができる。システムメモリは、例えば、オペレーティングシステム、アプリケーションプログラム、ブートローダー、データベース、及び他のプログラムを記憶する。
画像特徴の送信装置6は、入出力インターフェース630、ネットワークインターフェース640、ストレージインターフェース650等を更に備えることもできる。これらのインターフェース630、640、650、メモリ610及びプロセッサ620は、例えばバス660を通じて接続することができる。ここで、入出力インターフェース630は、ディスプレイ、マウス、キーボード、タッチスクリーン、マイクロホン、ラウドスピーカー等の入出力デバイスの接続インターフェースを提供する。ネットワークインターフェース640は、様々なネットワーク化デバイスの接続インターフェースを提供する。ストレージインターフェース650は、SDカード及びUSBフラッシュディスク等の外部記憶デバイスの接続インターフェースを提供する。
図7は、本開示のいくつかの実施形態による画像特徴の送信システムのブロック図を示している。
図7に示すように、画像特徴の送信システム7は、符号化器71と復号器72とを備える。
符号化器71は、機械学習モデルを使用して、処理される画像のチャネルの特徴行列を抽出し、特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求め、情報量に基づいて1つ以上の相関行列対のそれぞれの2つの特徴行列から表現行列及び被表現行列を決定し、表現行列と被表現行列との間の対応関係を求め、量子化及び符号化された表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを復号器に送信する。
復号器72は、復号器における復号プロセス及び逆量子化プロセスを実行して、対応関係を有する表現行列と、対応関係と、被表現行列の最大特徴値及び最小特徴値とを取得する。
当業者であれば、本開示の実施形態が、方法、システム、又はコンピュータープログラム製品として提供することができることを理解するであろう。したがって、本開示の実施形態は、全体がハードウェアの実施形態の形、全体がソフトウェアの実施形態の形、又はハードウェア要素及びソフトウェア要素の双方を含む実施形態の形を取ることができる。その上、本開示は、コンピューター使用可能プログラムコードが具現化された1つ以上のコンピューター使用可能非一時的記憶媒体(ディスク記憶装置、CD-ROM、光学メモリ等を含むが、これらに限定されるものではない)上に具現化されるコンピュータープログラム製品の形を取ってもよい。
これまで、本開示による画像特徴の送信方法、画像特徴の送信装置、画像特徴の送信システム、及び非一時的コンピューター可読記憶媒体を詳細に説明してきた。本開示の概念を不明瞭にすることを回避するために、当該技術において知られているいくつかの詳細は説明されていない。上記説明に基づくと、当業者であれば、本明細書に開示された技術的な解決策をどのように実施するのかを理解することができる。
本開示の方法及びシステムは、多くの方法で実施することができる。例えば、本開示の方法及びシステムは、ソフトウェア、ハードウェア、ファームウェア、又はソフトウェア、ハードウェア、及びファームウェアの任意の組み合わせによって実施することができる。方法のステップの上記シーケンスは、単に例示を目的としたものにすぎず、本開示の方法のステップは、別段の指定がない限り、上記に記載の特定の順序に限定されるものではない。加えて、いくつかの実施形態において、本開示は、本開示による方法を実施する機械可読命令を含む記録媒体に記録されたプログラムとして実施されてもよい。したがって、本開示は、本開示による方法を実行するプログラムを記憶する記録媒体も包含する。
本開示のいくつかの特定の実施形態を、例として詳細に説明してきたが、当業者であれば、上記例が例示を目的としたものにすぎず、本開示の範囲を限定することを意図したものでないことを理解するであろう。上記実施形態は、本開示の範囲及び趣旨から逸脱することなく変更することができることが当業者によって理解されるであろう。本開示の範囲は、添付の特許請求の範囲によって画定される。

Claims (24)

  1. 機械学習モデルを使用して、処理される画像のチャネルの特徴行列を抽出することと、
    特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求めることと、
    情報量に基づいて前記1つ以上の相関行列対のそれぞれの2つの特徴行列から表現行列及び被表現行列を決定することと、
    前記表現行列と前記被表現行列との間の対応関係を求めることと、
    量子化及び符号化された前記表現行列と、前記対応関係と、前記被表現行列の最大特徴値及び最小特徴値とを復号器に送信することと、
    を含む、画像特徴の送信方法。
  2. 前記特徴行列の間の前記相関度と前記第1の閾値との前記比較結果に基づいて前記1つ以上の相関行列対を前記求めることは、
    前記特徴行列の特徴値の分布に基づいて前記特徴行列の間の前記相関度を計算することと、
    2つの特徴行列の間の相関度が第1の閾値よりも大きい場合には、前記2つの特徴行列を相関行列対として決定することと、
    を含む、請求項1に記載の送信方法。
  3. 前記特徴行列の前記特徴値の分布に基づいて前記特徴行列の間の前記相関度を前記計算することは、
    前記特徴行列の間の等分散性の確率を前記相関度として計算すること、
    を含む、請求項2に記載の送信方法。
  4. 前記表現行列と前記被表現行列との間の対応関係を前記求めることは、
    被表現行列が複数の表現行列に対応する場合には、前記複数の表現行列の中で最大の情報量を有する表現行列を、前記被表現行列に対応する表現行列として決定すること、
    を含む、請求項1に記載の送信方法。
  5. 前記特徴行列の間の相関度と前記第1の閾値との前記比較結果に基づいて1つ以上の相関行列対を前記求めることは、
    選択されていない特徴行列である候補特徴行列から特徴行列を現在の対象として選択することと、
    前記現在の対象と前記候補特徴行列のそれぞれとの間の相関度を計算することと、
    残っている候補特徴行列が1つのみとなるまで、次の特徴行列を現在の対象として選択して相関度を計算することと、
    を含む、請求項1に記載の送信方法。
  6. 前記特徴行列の間の前記相関度と前記第1の閾値との前記比較結果に基づいて1つ以上の相関行列対を前記求めることは、
    前記特徴行列のそれぞれの特徴値を正規化することと、
    正規化された特徴行列の間の前記相関度を計算することと、
    を含む、請求項1に記載の送信方法。
  7. 前記特徴行列の情報量を計算することと、
    前記特徴行列の前記情報量が第2の閾値未満であるか否かを判断することと、
    を更に含み、
    前記特徴行列の間の相関度と前記第1の閾値との前記比較結果に基づいて1つ以上の相関行列対を求めることは、
    前記第2の閾値未満の情報量を有する特徴行列の間の前記相関度を計算することと、
    前記相関度と前記第1の閾値との比較結果に基づいて前記1つ以上の相関行列対を求めることと、
    を含む、請求項1に記載の送信方法。
  8. 量子化及び符号化された前記表現行列と、前記対応関係と、前記被表現行列の前記最大特徴値及び前記最小特徴値とを前記復号器に前記送信することは、
    前記対応関係を有する前記表現行列に対して量子化プロセスを実行することと、
    符号化された前記量子化の結果と、前記対応関係と、前記被表現行列の前記最大特徴値及び前記最小特徴値とを前記復号器に送信することと、
    を含む、請求項1に記載の送信方法。
  9. 前記復号器において復号プロセス及び逆量子化プロセスを実行して、前記対応関係を有する前記表現行列と、前記対応関係と、前記被表現行列の前記最大特徴値及び前記最小特徴値とを取得すること、
    を更に含む、請求項1~8のいずれか1項に記載の送信方法。
  10. 前記表現行列の最大特徴値及び最小特徴値と、前記表現行列に対応する前記被表現行列の前記最大特徴値及び前記最小特徴値とに基づいて、前記復号器において前記被表現行列を取得すること、
    を更に含む、請求項9に記載の送信方法。
  11. 前記表現行列と前記被表現行列との間の前記対応関係を求めることは、
    前記1つ以上の相関行列対のそれぞれにおける被表現行列のチャネルシーケンス番号をキー値として使用するとともに、前記相関行列対の前記それぞれにおける前記被表現行列のチャネルシーケンス番号をデータ値として使用して、前記相関行列対の前記それぞれをキー値対として記憶することと、
    前記キー値を使用して、同じ被表現行列に対応する複数の表現行列を集約して表現関係辞書を生成することと、
    前記表現関係辞書に基づいて、前記表現行列と前記被表現行列との間の前記対応関係を求めることと、
    を含む、請求項1~8のいずれか1項に記載の送信方法。
  12. 機械学習モデルを使用して、処理される画像のチャネルの特徴行列を抽出する抽出ユニットと、
    特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求め、情報量に基づいて前記1つ以上の相関行列対のそれぞれの2つの特徴行列から表現行列及び被表現行列を決定し、前記表現行列と前記被表現行列との間の対応関係を求める決定ユニットと、
    量子化及び符号化された前記表現行列と、前記対応関係と、前記被表現行列の最大特徴値及び最小特徴値とを復号器に送信する送信ユニットと、
    を備える、画像特徴の送信装置。
  13. 前記決定ユニットは、前記特徴行列の特徴値の分布に基づいて前記特徴行列の間の前記相関度を計算し、2つの特徴行列の間の相関度が第1の閾値よりも大きい場合には、前記2つの特徴行列を相関行列対として決定する、請求項12に記載の送信装置。
  14. 前記決定ユニットは、前記特徴行列の間の等分散性の確率を前記相関度として計算する、請求項13に記載の送信装置。
  15. 前記決定ユニットは、被表現行列が複数の表現行列に対応する場合には、前記複数の表現行列の中で最大の情報量を有する表現行列を、前記被表現行列に対応する表現行列として決定する、請求項12に記載の送信装置。
  16. 前記決定ユニットは、選択されていない特徴行列である候補特徴行列から特徴行列を現在の対象として選択し、前記現在の対象と前記候補特徴行列のそれぞれとの間の相関度を計算し、残っている候補特徴行列が1つのみとなるまで、次の特徴行列を現在の対象として選択して相関度を計算する、請求項12に記載の送信装置。
  17. 前記決定ユニットは、前記特徴行列のそれぞれの特徴値を正規化し、正規化された特徴行列の間の前記相関度を計算する、請求項12に記載の送信装置。
  18. 前記決定ユニットは、前記特徴行列の情報量を計算し、前記特徴行列の前記情報量が第2の閾値未満であるか否かを判断し、前記第2の閾値未満の情報量を有する特徴行列の間の前記相関度を計算し、前記相関度と前記第1の閾値との比較結果に基づいて前記1つ以上の相関行列対を求める、請求項12に記載の送信装置。
  19. 前記送信ユニットは、前記対応関係を有する前記表現行列に対して量子化プロセスを実行し、符号化された前記量子化の結果と、前記対応関係と、前記被表現行列の前記最大特徴値及び前記最小特徴値とを前記復号器に送信する、請求項12に記載の送信装置。
  20. 前記復号器において復号プロセス及び逆量子化プロセスを実行して、前記対応関係を有する前記表現行列と、前記対応関係と、前記被表現行列の前記最大特徴値及び前記最小特徴値とを取得する獲得ユニット、
    を更に備える、請求項12~19のいずれか1項に記載の送信装置。
  21. 前記獲得ユニットは、前記表現行列の最大特徴値及び最小特徴値と、前記表現行列に対応する前記被表現行列の前記最大特徴値及び前記最小特徴値とに基づいて、前記復号器において前記被表現行列を取得する、請求項20に記載の送信装置。
  22. 機械学習モデルを使用して、処理される画像のチャネルの特徴行列を抽出し、特徴行列の間の相関度と第1の閾値との比較結果に基づいて1つ以上の相関行列対を求め、情報量に基づいて前記1つ以上の相関行列対のそれぞれの2つの特徴行列から表現行列及び被表現行列を決定し、前記表現行列と前記被表現行列との間の対応関係を求め、量子化及び符号化された前記表現行列と、前記対応関係と、前記被表現行列の最大特徴値及び最小特徴値とを復号器に送信する符号化器と、
    復号器において復号プロセス及び逆量子化プロセスを実行して、前記対応関係を有する前記表現行列と、前記対応関係と、前記被表現行列の前記最大特徴値及び前記最小特徴値とを取得する該復号器と、
    を備える、画像特徴の送信システム。
  23. メモリと、
    前記メモリに結合されたプロセッサであって、前記メモリに記憶された命令に基づいて、請求項1~11のいずれか1項に記載の画像特徴の送信方法を実施するように構成される、プロセッサと、
    を備える、画像特徴の送信装置。
  24. プロセッサによって実行されると、請求項1~11のいずれか1項に記載の画像特徴の送信方法を実施するコンピュータープログラムを記憶する非一時的コンピューター可読記憶媒体。
JP2023560607A 2021-03-30 2021-11-01 画像特徴を送信する方法、装置、及びシステム Pending JP2024511675A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110339533.2 2021-03-30
CN202110339533.2A CN115147500B (zh) 2021-03-30 2021-03-30 图像特征的传输方法、装置和***
PCT/CN2021/127900 WO2022205890A1 (zh) 2021-03-30 2021-11-01 图像特征的传输方法、装置和***

Publications (1)

Publication Number Publication Date
JP2024511675A true JP2024511675A (ja) 2024-03-14

Family

ID=83403904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023560607A Pending JP2024511675A (ja) 2021-03-30 2021-11-01 画像特徴を送信する方法、装置、及びシステム

Country Status (5)

Country Link
US (1) US20240169713A1 (ja)
EP (1) EP4300425A1 (ja)
JP (1) JP2024511675A (ja)
CN (1) CN115147500B (ja)
WO (1) WO2022205890A1 (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076754A1 (en) * 2015-09-11 2017-03-16 Evergig Music S.A.S.U. Systems and methods for matching two or more digital multimedia files
US10218976B2 (en) * 2016-03-02 2019-02-26 MatrixView, Inc. Quantization matrices for compression of video
CN107507153B (zh) * 2017-09-21 2021-03-09 百度在线网络技术(北京)有限公司 图像去噪方法和装置
US10839543B2 (en) * 2019-02-26 2020-11-17 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN109948700B (zh) * 2019-03-19 2020-07-24 北京字节跳动网络技术有限公司 用于生成特征图的方法和装置
CN110348462B (zh) * 2019-07-09 2022-03-04 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN112307243B (zh) * 2019-07-23 2023-11-03 北京京东振世信息技术有限公司 用于检索图像的方法和装置
CN111444957B (zh) * 2020-03-25 2023-11-07 腾讯科技(深圳)有限公司 图像数据处理方法、装置、计算机设备和存储介质
CN111787323B (zh) * 2020-05-23 2021-09-03 清华大学 一种基于对抗学习的可变比特率生成式压缩方法
CN111950699A (zh) * 2020-07-03 2020-11-17 清华大学深圳国际研究生院 一种基于特征空间相关性的神经网络正则化方法

Also Published As

Publication number Publication date
CN115147500A (zh) 2022-10-04
WO2022205890A1 (zh) 2022-10-06
CN115147500B (zh) 2024-06-28
US20240169713A1 (en) 2024-05-23
EP4300425A1 (en) 2024-01-03

Similar Documents

Publication Publication Date Title
CN110119745B (zh) 深度学习模型的压缩方法、装置、计算机设备及存储介质
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111026915A (zh) 视频分类方法、视频分类装置、存储介质与电子设备
CN109948735B (zh) 一种多标签分类方法、***、装置及存储介质
WO2019226429A1 (en) Data compression by local entropy encoding
CN113947136A (zh) 图像压缩和分类方法、装置及电子设备
WO2022028197A1 (zh) 一种图像处理方法及其设备
CN111768457A (zh) 图像数据压缩方法、装置、电子设备和存储介质
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN113688955B (zh) 文本识别方法、装置、设备及介质
CN115022637A (zh) 一种图像编码方法、图像解压方法以及装置
JP2024511103A (ja) 近似値に基づいて画像又はビデオの品質を評価する方法及び装置、第1のモデルの訓練方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN114708343A (zh) 基于图字典学习的三维点云编解码方法、压缩方法及装置
CN110633735A (zh) 基于小波变换的渐进式深度卷积网络图像识别方法及装置
CN113256744B (zh) 一种图像编码、解码方法及***
JP2024511675A (ja) 画像特徴を送信する方法、装置、及びシステム
CN115457638A (zh) 模型训练方法、数据检索方法、装置、设备及存储介质
CN113554719B (zh) 一种图像编码方法、解码方法、存储介质及终端设备
CN113780324A (zh) 数据处理方法、装置、电子设备及存储介质
WO2022205893A1 (zh) 图像特征的传输方法、装置和***
Xu et al. Rank learning on training set selection and image quality assessment
CN117974833B (zh) 图像生成方法、装置、设备、可读存储介质及程序产品
CN115375934B (zh) 用于对进行聚类的模型进行训练分析的方法和相关产品
US20230298326A1 (en) Image augmentation method, electronic device and readable storage medium
CN117953339A (zh) 视觉模型训练及图像处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231128