JP2022505775A - 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム - Google Patents
画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP2022505775A JP2022505775A JP2021522436A JP2021522436A JP2022505775A JP 2022505775 A JP2022505775 A JP 2022505775A JP 2021522436 A JP2021522436 A JP 2021522436A JP 2021522436 A JP2021522436 A JP 2021522436A JP 2022505775 A JP2022505775 A JP 2022505775A
- Authority
- JP
- Japan
- Prior art keywords
- image
- trained
- network
- model
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 title claims abstract description 119
- 238000013145 classification model Methods 0.000 title claims abstract description 30
- 238000003672 processing method Methods 0.000 title claims description 15
- 238000004590 computer program Methods 0.000 title claims description 6
- 230000011218 segmentation Effects 0.000 claims abstract description 163
- 230000006870 function Effects 0.000 claims description 130
- 238000012545 processing Methods 0.000 claims description 50
- 238000003709 image segmentation Methods 0.000 claims description 27
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 10
- 238000013461 design Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002860 competitive effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本願は、2019年03月26日に提出された出願番号が201910233985.5であり、発明名称が「画像分類モデルの訓練方法、画像処理方法及びその装置」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップと、
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を含む。
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を含む。
前記取得モジュールは、訓練されるべき画像を取得するように構成され、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものであり、
前記取得モジュールは更に、訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するように構成され、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記決定モジュールは、前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するように構成され、
前記取得モジュールは更に、前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するように構成され、
前記訓練モジュールは、前記決定モジュールにより決定された前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである。
前記決定モジュールは具体的には、前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最小値である場合、前記訓練されるべき画像分類ネットワークに対応する前記第2モデルパラメータを決定するように構成される。
前記決定モジュールは具体的には、前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最大値である場合、前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを決定するように構成される。
前記分類損失関数は、
ここで、前記Lは、前記分類損失関数を表し、前記I()は、ディラック関数を表し、前記Nは、カテゴリの総数を表し、前記cは、第cカテゴリを表し、前記kは、1以上であって前記N以下であり、前記Pcは、前記第cカテゴリに対応する予測確率値を表す。
前記取得モジュールは更に、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得する前に、変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するように構成され、前記変形可能な畳み込みニューラルネットワークは、前記訓練されるべき画像のオフセット変数を予測するためのものであり、
前記取得モジュールは具体的には、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき特徴画像に対応する前記第2予測カテゴリアノテーション情報を取得するように構成される。
前記取得モジュールは具体的には、
式
ここで、前記y(p0)は、前記訓練されるべき特徴画像を表し、前記p0は、前記訓練されるべき特徴画像における画素値を表し、前記pnは、畳み込みカーネルにおける、サンプリング点の位置を表し、前記Δpnは、前記オフセット変数を表し、前記w(pn)は、前記畳み込みカーネルが前記訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、前記x(p0+pn+Δpn)は、前記訓練されるべき画像における対応する位置の画素値を表す。
前記取得モジュールは更に、前記決定モジュールが前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定した後、前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを一定にした場合、前記訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第3予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第3予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第4モデルパラメータを決定するように構成され、
前記取得モジュールは更に、前記訓練されるべき画像分類ネットワークの前記第4モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第4予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第4予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第5モデルパラメータを決定するように構成され、
前記訓練モジュールは具体的には、前記決定モジュール302により決定された前記第2モデルパラメータ、前記第3モデルパラメータ、前記第4モデルパラメータ及び前記第5モデルパラメータに基づいて、前記訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、前記画像セマンティックセグメンテーションネットワークモデルを得るように構成される。
前記訓練モジュールは具体的には、前記第2モデルパラメータ及び前記第3モデルパラメータを用いて前記訓練されるべきオフセットネットワークをN回訓練した場合、前記訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、前記訓練されるべき画像に対応する画像コンテンツ領域を決定するように構成され、前記Nは、1以上の整数であり、
前記訓練モジュールは具体的には、前記画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、
前記ターゲット損失関数の損失結果が最小値である場合、前記画像セマンティックセグメンテーションネットワークモデルを生成するように構成される。
前記ターゲット損失関数は、
ここで、前記Lsegは、前記ターゲット損失関数を表し、前記Nは、カテゴリ総数を表し、前記cは、第cカテゴリを表し、前記kは、1以上であって前記N以下であり、前記I()は、ディラック関数を表し、前記
前記取得モジュールは、処理されるべき画像を取得するように構成され、
前記取得モジュールは更に、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記処理モジュールは、前記取得モジュールにより取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成される。
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップと、
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
任意選択的に、上記図3に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第1選択可能な実施例において、画像コンテンツカテゴリ情報及び第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて、訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップは、
画像コンテンツカテゴリ情報及び第1予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
各カテゴリに対応する予測確率値に基づいて、分類損失関数の分類損失を決定するステップと、
分類損失関数の分類損失が最小値である場合、訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップと、を含む。
画像コンテンツカテゴリ情報及び第2予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
各カテゴリに対応する予測確率値に基づいて、分類損失関数の分類損失を決定するステップと、
分類損失関数の分類損失が最大値である場合、訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップと、を含む。
ここで、Lは、分類損失関数を表し、I()は、ディラック関数を表し、Nは、カテゴリの総数を表し、cは、第cカテゴリを表し、kは、1以上であってN以下であり、Pcは、第cカテゴリに対応する予測確率値を表す。
変形可能な畳み込みニューラルネットワークを介して訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップであって、変形可能な畳み込みニューラルネットワークは訓練されるべき画像のオフセット変数を予測するためのものである、ステップを更に含んでもよく、
訓練されるべきオフセットネットワークを介して訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップは、
訓練されるべきオフセットネットワークを介して訓練されるべき特徴画像に対応する第2予測カテゴリアノテーション情報を取得するステップを含んでもよい。
ここで、y(p0)は、訓練されるべき特徴画像を表し、p0は、訓練されるべき特徴画像における画素値を表し、pnは、畳み込みカーネルにおける、サンプリング点の位置を表し、Δpnは、オフセット変数を表し、w(pn)は、畳み込みカーネルが訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、
x(p0+pn+Δpn)は、訓練されるべき画像における対応する位置の画素値を表す。
ここで、y(p0)は、訓練されるべき特徴画像を表し、p0は、訓練されるべき特徴画像における画素値を表し、pnは、畳み込みカーネルにおける、サンプリング点の位置を表し、Δpnは、オフセット変数を表し、w(pn)は、畳み込みカーネルが訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、x(p0+pn+Δpn)は、訓練されるべき画像における対応する位置の画素値を表す。
訓練されるべきオフセットネットワークに対応する第3モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して訓練されるべき画像の第3予測カテゴリアノテーション情報を取得するステップと、
画像コンテンツカテゴリ情報及び第3予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべき画像分類ネットワークに対応する第4モデルパラメータを決定するステップと、
訓練されるべき画像分類ネットワークの第4モデルパラメータを一定にした場合、訓練されるべきオフセットネットワークを介して訓練されるべき画像の第4予測カテゴリアノテーション情報を取得するステップと、
画像コンテンツカテゴリ情報及び第4予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべきオフセットネットワークに対応する第5モデルパラメータを決定するステップと、を更に含んでもよく
第2モデルパラメータ及び第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
第2モデルパラメータ、第3モデルパラメータ、第4モデルパラメータ及び第5モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップを含む。
第2モデルパラメータ及び第3モデルパラメータを用いて訓練されるべきオフセットネットワークをN回訓練した場合、訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、訓練されるべき画像に対応する画像コンテンツ領域を決定するステップであって、Nは、1以上の整数である、ステップと、
画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練するステップと、
ターゲット損失関数の損失結果が最小値である場合、画像セマンティックセグメンテーションネットワークモデルを生成するステップと、を含んでもよい。
ここで、Lsegは、ターゲット損失関数を表し、Nは、カテゴリ総数を表し、cは、第cカテゴリを表し、kは、1以上であって前記N以下であり、I()は、ディラック関数を表し、
前記取得モジュール301は、訓練されるべき画像を取得するように構成され、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものであり、
前記取得モジュール301は更に、訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するように構成され、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記決定モジュール302は、前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するように構成され、
前記取得モジュール301は更に、前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュール302は更に、前記画像コンテンツカテゴリ情報及び前記取得モジュール301により取得された前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するように構成され、
前記訓練モジュール303は、前記決定モジュール302により決定された前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである。
前記決定モジュール302は具体的には、前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最小値である場合、前記訓練されるべき画像分類ネットワークに対応する前記第2モデルパラメータを決定するように構成される。
前記決定モジュール302は具体的には、前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最大値である場合、前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを決定するように構成される。
前記分類損失関数は、
ここで、前記Lは、前記分類損失関数を表し、前記I()は、ディラック関数を表し、前記Nは、カテゴリの総数を表し、前記cは、第cカテゴリを表し、前記kは、1以上であって前記N以下であり、前記Pcは、前記第cカテゴリに対応する予測確率値を表す。
前記取得モジュール301は更に、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得する前に、変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するように構成され、前記変形可能な畳み込みニューラルネットワークは、前記訓練されるべき画像のオフセット変数を予測するためのものであり、
前記取得モジュールは具体的には、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき特徴画像に対応する前記第2予測カテゴリアノテーション情報を取得するように構成される。
前記取得モジュール301は具体的には、
ここで、前記y(p0)は、前記訓練されるべき特徴画像を表し、前記p0は、前記訓練されるべき特徴画像における画素値を表し、前記pnは、畳み込みカーネルにおける、サンプリング点の位置を表し、前記Δpnは、前記オフセット変数を表し、前記w(pn)は、前記畳み込みカーネルが前記訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、前記x(p0+pn+Δpn)は、前記訓練されるべき画像における対応する位置の画素値を表す。
前記取得モジュール301は更に、前記決定モジュール302が前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定した後、前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを一定にした場合、前記訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第3予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュール302は更に、前記画像コンテンツカテゴリ情報及び前記取得モジュール301により取得された前記第3予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第4モデルパラメータを決定するように構成され、
前記取得モジュール301は更に、前記訓練されるべき画像分類ネットワークの前記第4モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第4予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュール302は更に、前記画像コンテンツカテゴリ情報及び前記取得モジュール301により取得された前記第4予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第5モデルパラメータを決定するように構成され、
前記訓練モジュール303は具体的には、前記決定モジュール302により決定された前記第2モデルパラメータ、前記第3モデルパラメータ、前記第4モデルパラメータ及び前記第5モデルパラメータに基づいて、前記訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、前記画像セマンティックセグメンテーションネットワークモデルを得るように構成される。
前記訓練モジュール303は具体的には、前記第2モデルパラメータ及び前記第3モデルパラメータを用いて前記訓練されるべきオフセットネットワークをN回訓練した場合、前記訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、前記訓練されるべき画像に対応する画像コンテンツ領域を決定するように構成され、前記Nは、1以上の整数であり、
前記訓練モジュール303は具体的には、前記画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、
前記ターゲット損失関数の損失結果が最小値である場合、前記画像セマンティックセグメンテーションネットワークモデルを生成するように構成される。
前記ターゲット損失関数は、
ここで、前記Lsegは、前記ターゲット損失関数を表し、前記Nは、カテゴリ総数を表し、前記cは、第cカテゴリを表し、前記kは、1以上であって前記N以下であり、前記I()は、ディラック関数を表し、前記
前記取得モジュール401は、処理されるべき画像を取得するように構成され、
前記取得モジュール401は更に、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記処理モジュール402は、前記取得モジュールにより取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成される。
22 カテゴリアノテーション情報
23 画像セマンティックセグメンテーションネットワークモデル
24 試験画像
25 セマンティックセグメンテーション結果
30 モデル訓練装置
40 画像処理装置
41 画像分類ネットワーク
42 オフセットネットワーク
43 画像
44 オフセット変数
51 オフセット領域
52 画像
53 特徴画像
71 画像
72 層
73 関心領域プーリング層
74 特徴マップ
75 全結合層
76 オフセット変数
77 全結合層
78 分類情報
79 情報
301 取得モジュール
302 決定モジュール
303 訓練モジュール
401 取得モジュール
402 処理モジュール
500 サーバ
522 中央演算処理装置
526 電源
530 記憶媒体
532 メモリ
541 オペレーティングシステム
542 アプリケーションプログラム
544 データ
550 無線ネットワークインタフェース
558 入力出力インタフェース
610 RF回路
620 メモリ
630 入力ユニット
631 タッチパネル
632 入力装置
640 表示ユニット
641 表示パネル
650 センサ
660 オーディオ回路
661 スピーカー
662 マイクロホン
670 WiFiモジュール
680 プロセッサ
690 電源
Claims (15)
- コンピュータ機器が実行する画像分類モデルの訓練方法であって、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップと、
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を含むことを特徴とする、画像分類モデルの訓練方法。 - 前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップは、
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定するステップと、
前記分類損失関数の分類損失が最小値である場合、前記訓練されるべき画像分類ネットワークに対応する前記第2モデルパラメータを決定するステップと、を含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。 - 前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップは、
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定するステップと、
前記分類損失関数の分類損失が最大値である場合、前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを決定するステップと、を含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。 - 前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得する前に、
変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップであって、前記変形可能な畳み込みニューラルネットワークは、前記訓練されるべき画像のオフセット変数を予測するためのものである、ステップを更に含み、
前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップは、
前記訓練されるべきオフセットネットワークを介して前記訓練されるべき特徴画像に対応する前記第2予測カテゴリアノテーション情報を取得するステップを含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。 - 前記変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップは、
ここで、前記y(p0)は、前記訓練されるべき特徴画像を表し、前記p0は、前記訓練されるべき特徴画像における画素値を表し、前記pnは、畳み込みカーネルにおける、サンプリング点の位置を表し、前記Δpnは、前記オフセット変数を表し、前記w(pn)は、前記畳み込みカーネルが前記訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、前記x(p0+pn+Δpn)は、前記訓練されるべき画像における対応する位置の画素値を表すことを特徴とする
請求項5に記載の画像分類モデルの訓練方法。 - 前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定した後、
前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを一定にした場合、前記訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第3予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第3予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第4モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第4モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第4予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第4予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第5モデルパラメータを決定するステップと、を更に含み、
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
前記第2モデルパラメータ、前記第3モデルパラメータ、前記第4モデルパラメータ及び前記第5モデルパラメータに基づいて、前記訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、前記画像セマンティックセグメンテーションネットワークモデルを得るステップを含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。 - 前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
前記第2モデルパラメータ及び前記第3モデルパラメータを用いて前記訓練されるべきオフセットネットワークをN回訓練した場合、前記訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、前記訓練されるべき画像に対応する画像コンテンツ領域を決定するステップであって、前記Nは、1以上の整数である、ステップと、
前記画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練するステップと、
前記ターゲット損失関数の損失結果が最小値である場合、前記画像セマンティックセグメンテーションネットワークモデルを生成するステップと、を含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。 - コンピュータ機器が実行する画像処理方法であって、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を含むことを特徴とする、画像処理方法。 - コンピュータ機器に適用されるモデル訓練装置であって、前記モデル訓練装置は、取得モジュールと、決定モジュールと、訓練モジュールと、を備え、
前記取得モジュールは、訓練されるべき画像を取得するように構成され、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものであり、
前記取得モジュールは更に、訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するように構成され、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記決定モジュールは、前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するように構成され、
前記取得モジュールは更に、前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するように構成され、
前記訓練モジュールは、前記決定モジュールにより決定された前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものであることを特徴とする、モデル訓練装置。 - コンピュータ機器に適用される画像処理装置であって、前記画像処理装置は、取得モジュールと、処理モジュールと、を備え、
前記取得モジュールは、処理されるべき画像を取得するように構成され、
前記取得モジュールは更に、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記処理モジュールは、前記取得モジュールにより取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成されることを特徴とする、画像処理装置。 - サーバであって、前記サーバは、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップと、
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成されることを特徴とする、サーバ。 - 端末装置であって、前記端末装置は、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成されることを特徴とする、端末装置。 - コンピュータに請求項1から9のうちいずれか一項に記載の方法又は請求項10に記載の方法を実行させることを特徴とする、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910233985.5 | 2019-03-26 | ||
CN201910233985.5A CN109784424B (zh) | 2019-03-26 | 2019-03-26 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
PCT/CN2020/079496 WO2020192471A1 (zh) | 2019-03-26 | 2020-03-16 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022505775A true JP2022505775A (ja) | 2022-01-14 |
JP7185039B2 JP7185039B2 (ja) | 2022-12-06 |
Family
ID=66490551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021522436A Active JP7185039B2 (ja) | 2019-03-26 | 2020-03-16 | 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210241109A1 (ja) |
EP (1) | EP3951654A4 (ja) |
JP (1) | JP7185039B2 (ja) |
KR (1) | KR20210072051A (ja) |
CN (1) | CN109784424B (ja) |
WO (1) | WO2020192471A1 (ja) |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161274B (zh) * | 2018-11-08 | 2023-07-07 | 上海市第六人民医院 | 腹部图像分割方法、计算机设备 |
CN109784424B (zh) * | 2019-03-26 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN110210544B (zh) * | 2019-05-24 | 2021-11-23 | 上海联影智能医疗科技有限公司 | 图像分类方法、计算机设备和存储介质 |
CN110223230A (zh) * | 2019-05-30 | 2019-09-10 | 华南理工大学 | 一种多前端深度图像超分辨率***及其数据处理方法 |
CN111047130B (zh) * | 2019-06-11 | 2021-03-02 | 北京嘀嘀无限科技发展有限公司 | 用于交通分析和管理的方法和*** |
CN110363709A (zh) * | 2019-07-23 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、图像展示方法、模型训练方法及装置 |
CN110458218B (zh) * | 2019-07-31 | 2022-09-27 | 北京市商汤科技开发有限公司 | 图像分类方法及装置、分类网络训练方法及装置 |
CN110490239B (zh) * | 2019-08-06 | 2024-02-27 | 腾讯医疗健康(深圳)有限公司 | 图像质控网络的训练方法、质量分类方法、装置及设备 |
CN110807760B (zh) * | 2019-09-16 | 2022-04-08 | 北京农业信息技术研究中心 | 一种烟叶分级方法及*** |
CN110705460B (zh) * | 2019-09-29 | 2023-06-20 | 北京百度网讯科技有限公司 | 图像类别识别方法及装置 |
CN110737783B (zh) * | 2019-10-08 | 2023-01-17 | 腾讯科技(深圳)有限公司 | 一种推荐多媒体内容的方法、装置及计算设备 |
CN110826596A (zh) * | 2019-10-09 | 2020-02-21 | 天津大学 | 一种基于多尺度可变形卷积的语义分割方法 |
CN110704661B (zh) * | 2019-10-12 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 一种图像分类方法和装置 |
CN110930417B (zh) * | 2019-11-26 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法和装置、图像分割方法和装置 |
CN110956214B (zh) * | 2019-12-03 | 2023-10-13 | 北京车和家信息技术有限公司 | 一种自动驾驶视觉定位模型的训练方法及装置 |
CN112750128B (zh) * | 2019-12-13 | 2023-08-01 | 腾讯科技(深圳)有限公司 | 图像语义分割方法、装置、终端及可读存储介质 |
CN113053332B (zh) * | 2019-12-28 | 2022-04-22 | Oppo广东移动通信有限公司 | 背光亮度调节方法、装置、电子设备及可读存储介质 |
CN111259904B (zh) * | 2020-01-16 | 2022-12-27 | 西南科技大学 | 一种基于深度学习和聚类的语义图像分割方法及*** |
CN111369564B (zh) * | 2020-03-04 | 2022-08-09 | 腾讯科技(深圳)有限公司 | 一种图像处理的方法、模型训练的方法及装置 |
CN111523548B (zh) * | 2020-04-24 | 2023-11-28 | 北京市商汤科技开发有限公司 | 一种图像语义分割、智能行驶控制方法及装置 |
CN113673668A (zh) * | 2020-05-13 | 2021-11-19 | 北京君正集成电路股份有限公司 | 一种车辆检测训练中二级损失函数的计算方法 |
CN111723813B (zh) * | 2020-06-05 | 2021-07-06 | 中国科学院自动化研究所 | 基于类内判别器的弱监督图像语义分割方法、***、装置 |
CN111814833B (zh) * | 2020-06-11 | 2024-06-07 | 浙江大华技术股份有限公司 | 票据处理模型的训练方法及图像处理方法、图像处理设备 |
CN111784673B (zh) * | 2020-06-30 | 2023-04-18 | 创新奇智(上海)科技有限公司 | 缺陷检测模型训练和缺陷检测方法、设备及存储介质 |
CN111783635A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像标注方法、装置、设备以及存储介质 |
CN112132841B (zh) * | 2020-09-22 | 2024-04-09 | 上海交通大学 | 医疗图像切割方法及装置 |
CN112333402B (zh) * | 2020-10-20 | 2021-10-22 | 浙江大学 | 一种基于声波的图像对抗样本生成方法及*** |
CN112257727B (zh) * | 2020-11-03 | 2023-10-27 | 西南石油大学 | 一种基于深度学习自适应可变形卷积的特征图像提取方法 |
CN112418232B (zh) * | 2020-11-18 | 2024-07-09 | 北京有竹居网络技术有限公司 | 图像分割方法、装置、可读介质及电子设备 |
CN112487479B (zh) * | 2020-12-10 | 2023-10-13 | 支付宝(杭州)信息技术有限公司 | 一种训练隐私保护模型的方法、隐私保护方法及装置 |
CN112232355B (zh) * | 2020-12-11 | 2021-04-02 | 腾讯科技(深圳)有限公司 | 图像分割网络处理、图像分割方法、装置和计算机设备 |
CN112950639B (zh) * | 2020-12-31 | 2024-05-10 | 山西三友和智慧信息技术股份有限公司 | 一种基于SA-Net的MRI医学图像分割方法 |
CN112819008B (zh) * | 2021-01-11 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 实例检测网络的优化方法、装置、介质及电子设备 |
CN112767420B (zh) * | 2021-02-26 | 2021-11-23 | 中国人民解放军总医院 | 基于人工智能的核磁影像分割方法、装置、设备和介质 |
CN113033549B (zh) * | 2021-03-09 | 2022-09-20 | 北京百度网讯科技有限公司 | 定位图获取模型的训练方法和装置 |
CN113033436B (zh) * | 2021-03-29 | 2024-04-16 | 京东鲲鹏(江苏)科技有限公司 | 障碍物识别模型训练方法及装置、电子设备、存储介质 |
CN113139618B (zh) * | 2021-05-12 | 2022-10-14 | 电子科技大学 | 一种基于集成防御的鲁棒性增强的分类方法及装置 |
CN113505800A (zh) * | 2021-06-30 | 2021-10-15 | 深圳市慧鲤科技有限公司 | 图像处理方法及其模型的训练方法和装置、设备、介质 |
CN113822901B (zh) * | 2021-07-21 | 2023-12-12 | 南京旭锐软件科技有限公司 | 图像分割方法、装置、存储介质及电子设备 |
CN113610807B (zh) * | 2021-08-09 | 2024-02-09 | 西安电子科技大学 | 基于弱监督多任务学习的新冠肺炎分割方法 |
CN113642581B (zh) * | 2021-08-12 | 2023-09-22 | 福州大学 | 基于编码多路径语义交叉网络的图像语义分割方法及*** |
CN114004854B (zh) * | 2021-09-16 | 2024-06-07 | 清华大学 | 一种显微镜下的切片图像实时处理显示***和方法 |
KR102430989B1 (ko) | 2021-10-19 | 2022-08-11 | 주식회사 노티플러스 | 인공지능 기반 콘텐츠 카테고리 예측 방법, 장치 및 시스템 |
CN113723378B (zh) * | 2021-11-02 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、装置、计算机设备和存储介质 |
CN114049516A (zh) * | 2021-11-09 | 2022-02-15 | 北京百度网讯科技有限公司 | 训练方法、图像处理方法、装置、电子设备以及存储介质 |
CN113780249B (zh) * | 2021-11-10 | 2022-02-15 | 腾讯科技(深圳)有限公司 | 表情识别模型的处理方法、装置、设备、介质和程序产品 |
CN114332554A (zh) * | 2021-11-10 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、图像分割方法、装置及设备 |
CN113963220A (zh) * | 2021-12-22 | 2022-01-21 | 熵基科技股份有限公司 | 安检图像分类模型训练方法、安检图像分类方法及装置 |
TWI806392B (zh) * | 2022-01-27 | 2023-06-21 | 國立高雄師範大學 | 表格文本的表格辨識方法 |
CN115019038B (zh) * | 2022-05-23 | 2024-04-30 | 杭州海马体摄影有限公司 | 一种相似图像像素级语义匹配方法 |
CN114677677B (zh) * | 2022-05-30 | 2022-08-19 | 南京友一智能科技有限公司 | 一种质子交换膜燃料电池气体扩散层材料比例预测方法 |
CN114792398B (zh) * | 2022-06-23 | 2022-09-27 | 阿里巴巴(中国)有限公司 | 图像分类的方法、存储介质、处理器及*** |
CN115170809B (zh) * | 2022-09-06 | 2023-01-03 | 浙江大华技术股份有限公司 | 图像分割模型训练、图像分割方法、装置、设备及介质 |
CN116503686B (zh) * | 2023-03-28 | 2024-07-02 | 北京百度网讯科技有限公司 | 图像矫正模型的训练方法、图像矫正方法、装置及介质 |
CN116403163B (zh) * | 2023-04-20 | 2023-10-27 | 慧铁科技有限公司 | 一种截断塞门手把开合状态的识别方法和装置 |
CN116363374B (zh) * | 2023-06-02 | 2023-08-29 | 中国科学技术大学 | 图像语义分割网络持续学习方法、***、设备及存储介质 |
CN117218686B (zh) * | 2023-10-20 | 2024-03-29 | 广州脉泽科技有限公司 | 一种开放场景下的掌静脉roi提取方法及*** |
CN117333493B (zh) * | 2023-12-01 | 2024-03-15 | 深圳市志达精密科技有限公司 | 一种基于机器视觉的显示器底座生产用检测***以及方法 |
CN117911501B (zh) * | 2024-03-20 | 2024-06-04 | 陕西中铁华博实业发展有限公司 | 一种金属加工钻孔高精度定位方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018198233A1 (ja) * | 2017-04-26 | 2018-11-01 | 株式会社ソニー・インタラクティブエンタテインメント | 学習装置、画像認識装置、学習方法及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436583B (zh) * | 2011-09-26 | 2013-10-30 | 哈尔滨工程大学 | 基于对标注图像学习的图像分割方法 |
US10019657B2 (en) * | 2015-05-28 | 2018-07-10 | Adobe Systems Incorporated | Joint depth estimation and semantic segmentation from a single image |
US10657364B2 (en) * | 2016-09-23 | 2020-05-19 | Samsung Electronics Co., Ltd | System and method for deep network fusion for fast and robust object detection |
EP3432263B1 (en) * | 2017-07-17 | 2020-09-16 | Siemens Healthcare GmbH | Semantic segmentation for cancer detection in digital breast tomosynthesis |
CN108764164B (zh) * | 2018-05-30 | 2020-12-08 | 华中科技大学 | 一种基于可变形卷积网络的人脸检测方法及*** |
CN109101897A (zh) * | 2018-07-20 | 2018-12-28 | 中国科学院自动化研究所 | 水下机器人的目标检测方法、***及相关设备 |
CN109493330A (zh) * | 2018-11-06 | 2019-03-19 | 电子科技大学 | 一种基于多任务学习的细胞核实例分割方法 |
CN109784424B (zh) * | 2019-03-26 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
-
2019
- 2019-03-26 CN CN201910233985.5A patent/CN109784424B/zh active Active
-
2020
- 2020-03-16 KR KR1020217013575A patent/KR20210072051A/ko not_active Application Discontinuation
- 2020-03-16 JP JP2021522436A patent/JP7185039B2/ja active Active
- 2020-03-16 WO PCT/CN2020/079496 patent/WO2020192471A1/zh unknown
- 2020-03-16 EP EP20777689.9A patent/EP3951654A4/en active Pending
-
2021
- 2021-04-23 US US17/238,634 patent/US20210241109A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018198233A1 (ja) * | 2017-04-26 | 2018-11-01 | 株式会社ソニー・インタラクティブエンタテインメント | 学習装置、画像認識装置、学習方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
JIFENG DAI,外6名: ""Deformable Convolutional Networks"", 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, JPN6022020060, 25 December 2017 (2017-12-25), pages 764 - 773, ISSN: 0004777707 * |
YUNCHAO WEI,外5名: ""Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation App", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6022020061, 9 November 2017 (2017-11-09), pages 6488 - 6496, ISSN: 0004777706 * |
Also Published As
Publication number | Publication date |
---|---|
US20210241109A1 (en) | 2021-08-05 |
CN109784424A (zh) | 2019-05-21 |
WO2020192471A1 (zh) | 2020-10-01 |
EP3951654A4 (en) | 2022-05-25 |
JP7185039B2 (ja) | 2022-12-06 |
CN109784424B (zh) | 2021-02-09 |
KR20210072051A (ko) | 2021-06-16 |
EP3951654A1 (en) | 2022-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7185039B2 (ja) | 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム | |
JP7096444B2 (ja) | 画像領域位置決め方法、モデル訓練方法及び関連装置 | |
WO2020215984A1 (zh) | 基于深度学习的医学图像检测方法及相关设备 | |
WO2022083536A1 (zh) | 一种神经网络构建方法以及装置 | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类***及相关设备 | |
US20220036135A1 (en) | Method and apparatus for determining image to be labeled and model training method and apparatus | |
WO2020182121A1 (zh) | 表情识别方法及相关装置 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN113807399B (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN109559300A (zh) | 图像处理方法、电子设备及计算机可读存储介质 | |
CN112419326B (zh) | 图像分割数据处理方法、装置、设备及存储介质 | |
CN111813532A (zh) | 一种基于多任务机器学习模型的图像管理方法及装置 | |
CN113723378B (zh) | 一种模型训练的方法、装置、计算机设备和存储介质 | |
WO2021190433A1 (zh) | 更新物体识别模型的方法和装置 | |
CN116935188B (zh) | 模型训练方法、图像识别方法、装置、设备及介质 | |
WO2024083121A1 (zh) | 一种数据处理方法及其装置 | |
CN111950700A (zh) | 一种神经网络的优化方法及相关设备 | |
CN111091010A (zh) | 相似度确定、网络训练、查找方法及装置和存储介质 | |
WO2023231753A1 (zh) | 一种神经网络的训练方法、数据的处理方法以及设备 | |
CN115238909A (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
CN112529149A (zh) | 一种数据处理方法及相关装置 | |
Arun Prasath et al. | Prediction of sign language recognition based on multi layered CNN | |
WO2023207531A1 (zh) | 一种图像处理方法及相关设备 | |
Rawat et al. | Indian sign language recognition system for interrogative words using deep learning | |
John et al. | Static hand gesture recognition using multi-dilated DenseNet-based deep learning architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210423 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220523 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7185039 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |