JP2022505775A

JP2022505775A - 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム

Info

Publication number: JP2022505775A
Application number: JP2021522436A
Authority: JP
Inventors: ▲澤▼群 ▲掲▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-26
Filing date: 2020-03-16
Publication date: 2022-01-14
Anticipated expiration: 2040-03-16
Also published as: US20210241109A1; CN109784424A; WO2020192471A1; EP3951654A4; JP7185039B2; CN109784424B; KR20210072051A; EP3951654A1

Abstract

本願は、画像分類モデルの訓練方法を開示する。前記方法は、訓練されるべき画像を取得するステップと、訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して訓練されるべき画像の第１予測カテゴリアノテーション情報を取得するステップと、画像コンテンツカテゴリ情報及び第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて第２モデルパラメータを決定するステップと、訓練されるべき画像分類ネットワークの第２モデルパラメータを一定にした場合、訓練されるべきオフセットネットワークを介して訓練されるべき画像の第２予測カテゴリアノテーション情報を取得するステップと、画像コンテンツカテゴリ情報及び第２予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて第３モデルパラメータを決定するステップと、第２モデルパラメータ及び第３モデルパラメータに基づいて、画像セマンティックセグメンテーションネットワークモデルを得るステップと、を含む。本願は、ＡＩにより、画素レベルのアノテーション及びモデル訓練を実現させ、手動アノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる。

Description

（関連出願の相互参照）
本願は、２０１９年０３月２６日に提出された出願番号が２０１９１０２３３９８５．５であり、発明名称が「画像分類モデルの訓練方法、画像処理方法及びその装置」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、人工知能分野に関し、特に画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラムに関する。

画像セマンティックセグメンテーションは、画像理解の基本的な技術であり、自動運転システム（例えば、ストリートビュー認識及び理解）、無人機の適用（例えば、着陸点の判定）及びウェアラブル機器の適用において、極めて重要な役割を果たしている。画像は、多数の画素からなるものであり、セマンティックセグメンテーションは、画素を画像において表現されたセマンティック意味によってセグメンテーションし、機械を、画像におけるコンテンツを自動的にセグメンテーションして認識するようにすることである。

現在、一般的には、１つの深層畳み込みニューラルネットワークを訓練することで、画像全体の分類を実現させ、更に、該深層畳み込みニューラルネットワークに基づいて、訓練されるべき画像における対応する画像コンテンツ領域を位置決めし、続いて、これらの画像全体分類アノテーションされた画像コンテンツ領域を分割のための教師情報として、最後に、画像セマンティックセグメンテーションネットワークモデルを訓練により得る。

しかしながら、画像セマンティックセグメンテーションネットワークモデルを訓練する時、用いられる訓練されるべき画像は、画素レベルのアノテーションを必要とすることが多い。解像度が１０２４×２０４８である訓練されるべき画像を例として、該解像度の一枚の画像を手動でアノテーションするために、一般的には１．５時間を必要とする。これにより、手動アノテーションコストが高すぎて、モデル訓練効率が低くなることを招く。

本願の実施例は、画像レベルとアノテーションされた訓練されるべき画像に対して訓練を行うことができ、画像セマンティックセグメンテーションネットワークモデルの性能を確保する上で、手動による画素レベルのアノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる、画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラムを提供する。

これに鑑み、本願の第１態様は、コンピュータ機器が実行する画像分類モデルの訓練方法を提供する。前記画像分類モデルの訓練方法は、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第１予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第２モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定するステップと、
前記第２モデルパラメータ及び前記第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を含む。

本願の第２態様は、コンピュータ機器が実行する画像処理方法を提供する。前記画像処理方法は、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を含む。

本願の第３態様は、コンピュータ機器に適用されるモデル訓練装置を提供する。前記モデル訓練装置は、取得モジュールと、決定モジュールと、訓練モジュールと、を備え、
前記取得モジュールは、訓練されるべき画像を取得するように構成され、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものであり、
前記取得モジュールは更に、訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第１予測カテゴリアノテーション情報を取得するように構成され、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記決定モジュールは、前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定するように構成され、
前記取得モジュールは更に、前記訓練されるべき画像分類ネットワークの前記第２モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第２予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定するように構成され、
前記訓練モジュールは、前記決定モジュールにより決定された前記第２モデルパラメータ及び前記第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである。

可能な設計では、本願の実施例の第３態様の第１実施形態において、
前記決定モジュールは具体的には、前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最小値である場合、前記訓練されるべき画像分類ネットワークに対応する前記第２モデルパラメータを決定するように構成される。

可能な設計では、本願の実施例の第３態様の第２実施形態において、
前記決定モジュールは具体的には、前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最大値である場合、前記訓練されるべきオフセットネットワークに対応する前記第３モデルパラメータを決定するように構成される。

可能な設計では、本願の実施例の第３態様の第３実施形態において、
前記分類損失関数は、

で表され、
ここで、前記Ｌは、前記分類損失関数を表し、前記Ｉ（）は、ディラック関数を表し、前記Ｎは、カテゴリの総数を表し、前記ｃは、第ｃカテゴリを表し、前記ｋは、１以上であって前記Ｎ以下であり、前記Ｐ_ｃは、前記第ｃカテゴリに対応する予測確率値を表す。

可能な設計では、本願の実施例の第３態様の第４実施形態において、
前記取得モジュールは更に、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得する前に、変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するように構成され、前記変形可能な畳み込みニューラルネットワークは、前記訓練されるべき画像のオフセット変数を予測するためのものであり、
前記取得モジュールは具体的には、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき特徴画像に対応する前記第２予測カテゴリアノテーション情報を取得するように構成される。

可能な設計では、本願の実施例の第３態様の第５実施形態において、
前記取得モジュールは具体的には、
式

で前記訓練されるべき特徴画像を生成するように構成され、
ここで、前記ｙ（ｐ_０）は、前記訓練されるべき特徴画像を表し、前記ｐ_０は、前記訓練されるべき特徴画像における画素値を表し、前記ｐ_ｎは、畳み込みカーネルにおける、サンプリング点の位置を表し、前記Δｐ_ｎは、前記オフセット変数を表し、前記ｗ（ｐ_ｎ）は、前記畳み込みカーネルが前記訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、前記ｘ（ｐ_０＋ｐ_ｎ＋Δｐ_ｎ）は、前記訓練されるべき画像における対応する位置の画素値を表す。

可能な設計では、本願の実施例の第３態様の第６実施形態において、
前記取得モジュールは更に、前記決定モジュールが前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定した後、前記訓練されるべきオフセットネットワークに対応する前記第３モデルパラメータを一定にした場合、前記訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第３予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第３予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第４モデルパラメータを決定するように構成され、
前記取得モジュールは更に、前記訓練されるべき画像分類ネットワークの前記第４モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第４予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第４予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第５モデルパラメータを決定するように構成され、
前記訓練モジュールは具体的には、前記決定モジュール３０２により決定された前記第２モデルパラメータ、前記第３モデルパラメータ、前記第４モデルパラメータ及び前記第５モデルパラメータに基づいて、前記訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、前記画像セマンティックセグメンテーションネットワークモデルを得るように構成される。

可能な設計では、本願の実施例の第３態様の第７実施形態において、
前記訓練モジュールは具体的には、前記第２モデルパラメータ及び前記第３モデルパラメータを用いて前記訓練されるべきオフセットネットワークをＮ回訓練した場合、前記訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、前記訓練されるべき画像に対応する画像コンテンツ領域を決定するように構成され、前記Ｎは、１以上の整数であり、
前記訓練モジュールは具体的には、前記画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、
前記ターゲット損失関数の損失結果が最小値である場合、前記画像セマンティックセグメンテーションネットワークモデルを生成するように構成される。

可能な設計では、本願の実施例の第３態様の第８実施形態において、
前記ターゲット損失関数は、

で表され、
ここで、前記Ｌ_segは、前記ターゲット損失関数を表し、前記Ｎは、カテゴリ総数を表し、前記ｃは、第ｃカテゴリを表し、前記ｋは、１以上であって前記Ｎ以下であり、前記Ｉ（）は、ディラック関数を表し、前記

は、画素点での、前記第ｃカテゴリの予測確率値を表し、前記ｉは、前記訓練されるべき画像における、前記画素点の横座標位置を表し、前記ｊは、前記訓練されるべき画像における、前記画素点の縦座標位置を表す。

本願の第４態様は、コンピュータ機器に適用される画像処理装置を提供する。前記画像処理装置は、取得モジュールと、処理モジュールと、を備え、
前記取得モジュールは、処理されるべき画像を取得するように構成され、
前記取得モジュールは更に、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記処理モジュールは、前記取得モジュールにより取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成される。

本願の第５態様は、サーバを提供する。前記サーバは、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第１予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第２モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定するステップと、
前記第２モデルパラメータ及び前記第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。

本願の第６態様は、サーバを提供する。前記サーバは、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。

本願の第７態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に命令が記憶されており、該命令がコンピュータで実行されるときに、コンピュータに上記各態様に記載の方法を実行させる。

本願の第８態様は、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータに上記各態様に記載の方法を実行させる。

上記技術的解決手段から分かるように、本願の実施例は、下記利点を有する。

本願の実施例において、画像分類モデルの訓練方法を提供する。まず、訓練されるべき画像を取得し、訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して訓練されるべき画像の第１予測カテゴリアノテーション情報を取得し、続いて、画像コンテンツカテゴリ情報及び第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定し、訓練されるべき画像分類ネットワークの第２モデルパラメータを一定にした場合、訓練されるべきオフセットネットワークを介して訓練されるべき画像の第２予測カテゴリアノテーション情報を取得し、続いて、画像コンテンツカテゴリ情報及び第２予測カテゴリアノテーション情報に基づいて分類損失関数を用いて訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定し、最後に、第２モデルパラメータ及び第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得ることができる。上記方式で、オフセットネットワーク及び画像分類ネットワークを用いて、画像レベルとアノテーションされた訓練されるべき画像を訓練することができ、画像セマンティックセグメンテーションネットワークモデルの性能を確保する上で、手動による画素レベルのアノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる。

本願の実施例による画像処理システムのアーキテクチャを示す概略図である。本願の実施例による画像セマンティックセグメンテーションネットワークモデルのフローフレームワークを示す概略図である。本願の実施例による画像分類モデルの訓練方法の一実施例を示す概略図である。本願の実施例によるオフセットネットワーク及び画像分類ネットワーク的の構造を示す概略図である。本願の実施例による変形可能な畳み込みニューラルネットワークの構造を示す概略図である。本願の実施例による画像処理方法の一実施例を示す概略図である。本願の実施例による変形可能な畳み込みニューラルネットワークに基づく画像処理フローを示す概略図である。本願の実施例によるモデル訓練装置の一実施例を示す概略図である。本願の実施例による画像処理装置の一実施例を示す概略図である。本願の実施例によるサーバの構造を示す概略図である。本願の実施例による端末装置の構造を示す概略図である。

本願の実施例は、画像レベルとアノテーションされた訓練されるべき画像に対して訓練を行うことができ、画像セマンティックセグメンテーションネットワークモデルの性能を確保する上で、手動による画素レベルのアノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる、画像分類モデルの訓練方法、画像処理方法及びその装置を提供する。

本願の明細書、特許請求の範囲及び上記図面に言及された「第１」、「第２」、「第３」、「第４」等の用語（存在すれば）は、類似した対象を区別するためのものであり、特定の順番又は前後順序を説明するためのものではない。ここで説明した本願の実施例をここで示した又は説明した順番以外の順番で実施可能なものにするために、このように使用されたデータは適した場合であれば互いに取り替え可能なことは、理解されるべきである。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、明記されたステップ又はユニットに限定されず、明記されていないか又はこれらのプロセス、方法、製品又は装置固有の他のステップ又はユニットを含んでもよい。

本願は、画像セマンティックセグメンテーションネットワークモデルの訓練方法、及び該画像セマンティックセグメンテーションネットワークモデルを利用した画像処理方法を提供する。該方法は、人工知能により、画像セマンティックセグメンテーションモデル訓練過程における手動アノテーションを減少させ、モデル訓練効率を向上させることができる。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：ＡＩ）は、デジタルコンピュータ又はデジタルコンピュータにより制御された機器を利用して人間の知能をシミュレーション、延長、拡張し、環境を感知して知識を取得し、知識を利用して最適な結果を得る理論、方法、技術及び適用システムである。換言すれば、人工知能は、コンピュータサイエンスにおける１つの総合技術であり、知能の本質を理解し、人間知能と同様な方式で反応可能な新たな知能機器を生み出すことを意図する。人工知能は、種々の知能機器の設計原理及び実現方法を検討し、機器に、感知、推理及び意思決定機能を持たせるためのものである。

人工知能技術は、総合的な学科であり、広い分野に関し、ハードウェアレベルの技術を含むだけでなく、ソフトウェアレベルの技術も含む。人工知能基礎技術は一般的には、センサ、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、オペレーティング／インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習などの分野を含む。

コンピュータビジョン技術（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ：ＣＶ）は、マシンに「見る」ようにする方法を研究する科学であり、さらに、人間の肉眼の代わりに撮影機及びコンピュータを使用して目標を識別、追跡、測定等のマシンビジョンを行って、さらに画像処理をして、コンピュータで、人間の肉眼観察または機器へ送信して検出することに適した画像になるように処理することである。１つの科学分野として、コンピュータビジョンは、関連した理論及び技術を検討し、画像又は多次元データから情報を取得できる人工知能システムを構築することを意図している。コンピュータビジョン技術は一般的には、画像処理、画像認識、画像セマンティック理解、画像検索、光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ：ＯＣＲ）、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ／挙動認識、三次元物体再構築、３Ｄ技術、仮想現実、拡張現実、位置推定とマッピングの同時実行等の技術を含み、一般的な顔認識、指紋認識などの生体特徴認識技術を更に含む。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ：ＭＬ）は、多数の分野に関わる学科であり、確率論、統計学、近似論、凸分析、アルゴリズム複雑度理論などの複数の学科に関する。それは、コンピュータが人間の学習挙動を如何に模擬又は実現するかを鋭意検討し、新たな知識及びスキルを取得し、既存の知識構造を再構成し、自体の性能を絶え間なく改良する。機械学習は、人工知能のキーポイントであり、コンピュータに知能を持たせる根本的な手段であり、その適用は、人工知能の各分野にわたる。機械学習及び深層学習は一般的には、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納的学習、教示的学習などの技術を含む。

本願で提供される方法は、主に、人工知能分野におけるコンピュータビジョン分野に適用される。コンピュータビジョン分野において、セグメンテーション、検出、認識及び追跡という課題は、密に関連している。従来の、グレースケール、色、テクスチャ及び形状などの特徴に基づく画像セグメンテーション課題と異なっており、画像セマンティックセグメンテーションは、画素レベルで画像を理解し、画像における各画素に対応するターゲットカテゴリを決定する必要がある。カテゴリのアルゴリズム精度に求められる要件は、とどまるところを知らない。コンピュータによる画像コンテンツの理解は、最初の画像全体に対するセマンティックラベルの提供（画像分類）から、画像に出現した画像コンテンツ位置の画成までに進歩することができる。更に、コンピュータに画像における各画素点のセマンティック情報を理解させ、コンピュータに人間のように画像を見てもらう。これは、画像セマンティックセグメンテーションである。

画像セマンティックセグメンテーションの目的は画像における各画素点についてラベルをアノテーションするという点で、画像分類及び画像コンテンツ検出と相違している。簡単に理解すれば、セマンティックセグメンテーションは、コンピュータビジョンにおける十分に重要な分野であり、これは、画像を画素レベルで認識することである。つまり、画像における各画素が属する対象カテゴリをアノテーションする。本願で提供される画像処理方法は、自動運転シーンに適用可能である。つまり、車両に、必要な感知機能を追加し、車両が位置する環境を了解し、自動運転される自動車の安全な走行に寄与する。また、医用画像による診断にも適用可能である。機械は、放射線医による分析を補強し、診断試験に必要な時間を大幅に低減させる。例えば、胸部のＸ線フィルムをセグメンテーションすることで、心臓領域及び肺部領域を得ることができる。

理解しやすくするために、本願は、画像処理方法を提供する。該方法は、図１に示す画像処理システムに適用される。図１を参照すると、図１は、本願の実施例による画像処理システムのアーキテクチャを示す概略図である。図面に示すように、本願で提供されるモデル訓練装置は、サーバに配置されてもよく、画像処理装置は、クライアントに配置されてもよい。任意選択的に、画像処理装置は、サーバに配置されてもよい。ここで、画像処理装置がクライアントに配置されることを例として説明する。まず、サーバは、変形可能な畳み込みニューラルネットワークを訓練して画像全体の分類を実現させる。続いて、サーバは、競合的学習ポリシーを利用して使ネットワークバックボーン（即ち、画像分類ネットワーク）及びネットワーク分岐（即ち、オフセットネットワーク）を交互に訓練する。オフセットネットワークを訓練するたびに、サーバは、分類損失関数の増大により生成された勾配を利用して該ネットワーク分岐を更新し、画像全体分類に対する貢献が弱い領域を次第に見付けるようにする。これにより、ターゲット画像コンテンツの画像コンテンツ領域を得る。最後に、位置決めにより得られた画像コンテンツ領域をセグメンテーションのための教師情報として、訓練を行うことで、画像セマンティックセグメンテーションネットワークモデルを得、画像セグメンテーションを実現させる。

クライアントがサーバに接続された場合、クライアントは、サーバから画像セマンティックセグメンテーションネットワークモデルをダウンロードし、更に、処理されるべき画像を該画像セマンティックセグメンテーションネットワークモデルに入力し、画像セマンティックセグメンテーションネットワークモデルにより、処理されるべき画像のセマンティックセグメンテーション結果を出力することができる。又は、クライアントは、処理されるべき画像をサーバにアップロードし、サーバは、画像セマンティックセグメンテーションネットワークモデルを利用して、処理されるべき画像を処理し、セマンティックセグメンテーション結果を得、音声セグメンテーション結果をクライアントに返信することもできる。クライアントがサーバに接続されていない場合、サーバは、直接的にバックグラウンドで画像セマンティックセグメンテーションネットワークモデルを利用して、処理されるべき画像を処理し、セマンティックセグメンテーション結果を得ることもできる。

クライアントは、端末装置に配置されてもよく、端末装置は、無人車両、ロボット、タブレット、ノートパソコン、パーソナルテジタルアシスタント、携帯電話、音声対話端末及びパーソナルコンピュータ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ：ＰＣ）を含むが、これに限定されないことに留意されたい。

理解しやすくするために、図２を参照されたい。図２は、本願の実施例による画像セマンティックセグメンテーションネットワークモデルのフローフレームワークを示す概略図である。図面に示すように、まず、訓練画像２１及び画像レベルのカテゴリアノテーション情報２２を取得し、次に、訓練画像２１及びカテゴリアノテーション情報２２を利用して訓練を行い、弱教師あり画像セマンティックセグメンテーションネットワークモデル２３を得る。続いて、未知の試験画像２４を取得し、該試験画像２４を画像セマンティックセグメンテーションネットワークモデル２３に入力し、該画像セマンティックセグメンテーションネットワークモデル２３により、未知の試験画像２４に対してセグメンテーションを行うことで、試験画像のセマンティックセグメンテーション結果２５を予測する。

上記説明を参照しながら、以下、本願における画像分類モデルの訓練方法を説明する。ここで、該方法は、コンピュータ機器により実行されてもよい。例えば、コンピュータ機器におけるモデル訓練装置により実行されてもよい。ここで、該コンピュータ機器は、上記図１に示すシステムにおけるサーバであってもよい。図３を参照すると、本願の実施例における画像分類モデルの訓練方法の一実施例は、以下を含む。

１０１において、訓練されるべき画像を取得し、訓練されるべき画像は、カテゴリアノテーション情報を有し、カテゴリアノテーション情報は、訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである。

本実施例において、モデル訓練装置は、まず、訓練されるべき画像を取得する必要がある。ここで、訓練されるべき画像は、カテゴリアノテーション情報を有する。カテゴリアノテーション情報は、訓練されるべき画像中存在的に存在する画像コンテンツカテゴリ情報を表すためのものである。例えば、訓練されるべき画像において、「人間」、「馬」、「テレビ」及び「ソファー」などの画像コンテンツカテゴリ情報をアノテーションする。任意選択的に、画像コンテンツカテゴリ情報は、画像における物体に対応するカテゴリ情報に加えて、空、雲、芝生及び海などのシーンに対応するカテゴリ情報であってもよい。

一例において、データベースから訓練されるべき画像をダウンロードし、続いて、手動アノテーションの方式で訓練されるべき画像をアノテーションすることで、訓練されるべき画像のカテゴリアノテーション情報を得ることができる。大量のユーザデータを有するウェブサイトから、カテゴリアノテーション情報を有する訓練されるべき画像を自動的にクローリングすることもできる。訓練されるべき画像は、ビットマップ（ＢｉｔＭａＰ：ＢＭＰ）フォーマット、パーソナルコンピュータ交換（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒＥｘｃｈａｎｇｅ：ＰＣＸ）フォーマット、タグ画像ファイルフォーマット（ＴａｇＩｍａｇｅＦｉｌｅＦｏｒｍａｔ：ＴＩＦ）、グラフィックインターチェンジフォーマット（ＧｒａｐｈｉｃｓＩｎｔｅｒｃｈａｎｇｅＦｏｒｍａｔ：ＧＩＦ）、共同写真専門家グループ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔＧｒｏｕｐ：ＪＰＥＧ）フォーマット、交換可能な画像ファイルフォーマット（ＥｘｃｈａｎｇｅａｂｌｅＩｍａｇｅｆｉｌｅＦｏｒｍａｔ：ＥＸＩＦ）、スケーラブルベクトルグラフィックス（ＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ：ＳＶＧ）フォーマット、図面交換フォーマット（ＤｒａｗｉｎｇＥｘｃｈａｎｇｅＦｏｒｍａｔ：ＤＸＦ）、カプセル化されたページ記述言語（ＥｎｃａｐｓｕｌａｔｅｄＰｏｓｔＳｃｒｉｐｔ：ＥＰＳ）フォーマット、ポータブルネットワークグラフィックス（ＰｏｒｔａｂｌｅＮｅｔｗｏｒｋＧｒａｐｈｉｃｓ：ＰＮＧ）フォーマット、ハイダイナミックレンジイメージング（ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅＩｍａｇｉｎｇ：ＨＤＲＩ）及びメタファイルフォーマット（ＷｉｎｄｏｗｓＭｅｔａｆｉｌｅＦｏｒｍａｔ：ＷＭＦ）というフォーマットを含むが、これらに限定されない。

ウェブサイトにおける訓練されるべき画像をクローリングする場合、該訓練されるべき画像は、ハイパーテキストマークアップ言語（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ，ＨＴＭＬ）、ピクチャ、ドキュメント（Ｄｏｃｕｍｅｎｔ：Ｄｏｃ）、マルチメディア、ダイナミックウェブページ及びポータブルドキュメントフォーマット（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ：ＰＤＦ）等のフォーマットに存在してもよい。

１０２において、訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して訓練されるべき画像の第１予測カテゴリアノテーション情報を取得し、訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである。

本実施例において、モデル訓練装置は、訓練されるべき画像及び該訓練されるべき画像に対応するカテゴリアノテーション情報を取得した後、画像分類ネットワークとオフセットネットワークに対する交互訓練を開始する。例えば、図４を参照されたい。図４は、本願の実施例によるオフセットネットワーク及び画像分類ネットワークの構造を示す概略図である。図面に示すように、訓練されるべき画像分類ネットワーク４１を訓練する場合、まず、訓練されるべきオフセットネットワーク４２の重み値を一定にする必要がある。つまり、訓練されるべきオフセットネットワーク４２の第１モデルパラメータを一定にする。続いて、訓練されるべき画像４３を訓練されるべき画像分類ネットワーク４１に入力し、該訓練されるべき画像分類ネットワーク４１により、訓練されるべき画像４３の第１予測カテゴリアノテーション情報を出力する。

ここで、訓練されるべきオフセットネットワーク４２は、分類に対する貢献が弱い入力点位置を提供し、変更したオフセット変数４４に基づいて、判別性が弱い画像コンテンツ領域までに位置決めするという目的を達成することができる。訓練されるべき画像分類ネットワーク４１は、画像全体における画像コンテンツ領域を分類するために用いられる。

１０３において、画像コンテンツカテゴリ情報及び第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定する。

本実施例において、モデル訓練装置は、分類損失関数を用いて、訓練されるべき画像分類ネットワークを訓練する。分類損失関数は、モデル予測値と真値との不一致度合いを予測するためのものである。ここで、訓練されるべき画像の画像コンテンツカテゴリ情報は、真値であり、訓練されるべき画像の第１予測カテゴリアノテーション情報は、予測値である。分類損失関数は小さいほど、画像分類ネットワークのロバスト性は高くなる。従って、分類損失関数によれば、訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを得ることができる。

１０４において、訓練されるべき画像分類ネットワークの第２モデルパラメータを一定にした場合、訓練されるべきオフセットネットワークを介して訓練されるべき画像の第２予測カテゴリアノテーション情報を取得する。

本実施例において、モデル訓練装置は、訓練により、訓練されるべき画像分類ネットワークの第２モデルパラメータを得た後、モデルの交互訓練に基づいて、訓練されるべき画像分類ネットワークの重み値を一定にする必要がある。つまり、訓練されるべき画像分類ネットワークの第２モデルパラメータを一定にする。続いて、訓練されるべき画像を訓練されるべきオフセットネットワークに入力し、該訓練されるべきオフセットネットワークにより、訓練されるべき画像の第２予測カテゴリアノテーション情報を出力する。

訓練されるべき画像分類ネットワークと訓練されるべきオフセットネットワークを交互に訓練する場合、まず、固定訓練されるべきオフセットネットワークのモデルパラメータを一定にし、続いて、訓練されるべき画像分類ネットワークを訓練することができることは、理解されるべきである。まず、訓練されるべき画像分類ネットワークのモデルパラメータを一定にし、続いて、訓練されるべきオフセットネットワークを訓練することもできる。本願は、まず、訓練されるべきオフセットネットワークのモデルパラメータを一定にし、続いて、訓練されるべき画像分類ネットワークを訓練することを例として説明するが、これは、本願を限定するものと理解すべきではない。

１０５において、画像コンテンツカテゴリ情報及び第２予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定する。

本実施例において、モデル訓練装置は、同一の分類損失関数を用いて、訓練されるべきオフセットネットワークを訓練する。分類損失関数は、モデル予測値と真値との不一致度合いを予測するためのものである。ここで、訓練されるべき画像の画像コンテンツカテゴリ情報は、真値であり、訓練されるべき画像の第２予測カテゴリアノテーション情報は、予測値である。従って、分類損失関数によれば、オフセットネットワークに対応する第２モデルパラメータを得ることができる。

１０６において、第２モデルパラメータ及び第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得、画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである。

本実施例において、少なくとも１回の交互訓練を行った後、モデル訓練装置は、毎回の訓練で得られたモデルパラメータ（訓練により得られた第２モデルパラメータ及び第３モデルパラメータを含む）に基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練する。例示的な解決手段において、交互訓練を終了した後、オフセットネットワークを訓練する過程において予測されたオフセット変数を１つの画像コンテンツ領域となるように融合し、最後に、得られた画像コンテンツ領域を画素レベルのセグメンテーションの教師情報として用い、該教師情報を用いて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得る。処理されるべき画像を画像セマンティックセグメンテーションネットワークモデルに入力する場合、該画像セマンティックセグメンテーションネットワークモデルにより、対応するセマンティックセグメンテーション結果を出力する。

教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）は、主に、回帰（ｒｅｇｒｅｓｓｉｏｎ）及び分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）という２つの解題を解決するために用いられる。回帰は、定量的出力に対応し、分類は、定性的出力に対応する。簡潔に言えば、既知のデータから、演算により、明確な値を得ることは、回帰である。例えば、ｙ＝ｆ（ｘ）は、典型的な回帰関係を示す。既知のデータ又はアノテーションされたデータから、演算により、カテゴリを得ることは、分類である。

本願の実施例において、上記方式で、オフセットネットワーク及び画像分類ネットワークを用いて、画像レベルとアノテーションされた訓練されるべき画像を訓練することができ、画像セマンティックセグメンテーションネットワークモデルの性能を確保する上で、手動による画素レベルのアノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる
任意選択的に、上記図３に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第１選択可能な実施例において、画像コンテンツカテゴリ情報及び第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて、訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定するステップは、
画像コンテンツカテゴリ情報及び第１予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
各カテゴリに対応する予測確率値に基づいて、分類損失関数の分類損失を決定するステップと、
分類損失関数の分類損失が最小値である場合、訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定するステップと、を含む。

本実施例において、第２モデルパラメータの決定方法を説明する。まず、真値（即ち、訓練されるべき画像の画像コンテンツカテゴリ情報）及び予測値（即ち、訓練されるべき画像の第１予測カテゴリアノテーション情報）に基づいて、各カテゴリに対応する予測確率値を決定する。「人間」、「馬」、「冷蔵庫」、「テレビ」及び「ソファー」という５つのカテゴリがあると仮定すれば、第１予測カテゴリアノテーション情報は、「人間」、「冷蔵庫」、「テレビ」及び「ソファー」含み、下記予測確率値を得ることができる。「人間」の予測確率値は、０．９３であり、「冷蔵庫」の予測確率値は、０．８８であり、「馬」の予測確率値は、０であり、「テレビ」の予測確率値は、０．５であり、「ソファー」の予測確率値は、０．６５である。続いて、各カテゴリに対応する予測確率値に基づいて、分類損失関数の分類損失を決定する。

該分類損失関数の分類損失が最小値になった場合、該最小値で、訓練されるべき画像分類ネットワークに対応するモデルパラメータを取得することができる。該モデルパラメータは、第２モデルパラメータである。本願における分類損失関数の分類損失は、クロスエントロピー分類損失であってもよいことは、理解されるべきである。

次に、本願の実施例において、上記方式で、画像レベルの分類損失関数の分類損失を最小化することで、画像全体分類能力を持つ画像分類ネットワークを得ることができ、また、該画像分類ネットワークは、高いロバスト性を有し、より高い画像分類効果を有する。

任意選択的に、上記図３に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第２選択可能な実施例において、画像コンテンツカテゴリ情報及び第２予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて、訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定するステップは、
画像コンテンツカテゴリ情報及び第２予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
各カテゴリに対応する予測確率値に基づいて、分類損失関数の分類損失を決定するステップと、
分類損失関数の分類損失が最大値である場合、訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定するステップと、を含む。

本実施例において、第３モデルパラメータの決定方法を説明する。まず、真値（即ち、訓練されるべき画像の画像コンテンツカテゴリ情報）及び予測値（即ち、訓練されるべき画像の第２予測カテゴリアノテーション情報）に基づいて、各カテゴリに対応する予測確率値を決定する。ここの第２予測カテゴリアノテーション情報は、変形可能な畳み込みニューラルネットワークにより処理されたものである。「人間」、「馬」、「冷蔵庫」、「テレビ」及び「ソファー」という５つのカテゴリがあると仮定すれば、第２予測カテゴリアノテーション情報は、「人間」、「馬」、「冷蔵庫」、「テレビ」及び「ソファー」含み、下記予測確率値を得ることができる。「人間」の予測確率値は、０．７５であり、「冷蔵庫」の予測確率値は、０．６５であり、「馬」の予測確率値は、０．１９であり、「冷蔵庫」の予測確率値は、０．６６であり、「テレビ」の予測確率値は、０．４３であり、「ソファー」の予測確率値は、０．７８である。続いて、各カテゴリに対応する予測確率値に基づいて、分類損失関数の分類損失を決定する。

該分類損失関数の分類損失が最大値になった場合、該最大値で、訓練されるべきオフセットネットワークに対応するモデルパラメータを取得することができる。該モデルパラメータは、第３モデルパラメータである。本願における分類損失関数の分類損失は、クロスエントロピー分類損失であってもよいことは、理解されるべきである。

実際の適用において、時系列又は画像は連続したものであることが多いが、モデルに入力されたデータは、不連続的なものであることが多い。従って、入力に微小な摂動を加えることで、モデルを、ノイズ摂動に対してより良好に対抗するようにする。つまり、対抗サンプルを取得し、これを最大限分類し、サンプル空間において１つの元のサンプルに近接させる（距離は、無限に小さい）。勾配降下法又はニュートン法などを用いて、モデルパラメータを算出することができることは、理解されるべきである。

次に、本願の実施例において、上記方式で、画像レベルの分類損失関数の分類損失を最大化することで、画像分類ネットワークの分類難度を向上させ、敵対的訓練の効果を達成し、画像分類ネットワークの分類効果を高くし、つまり、より高い画像分類効果を持たせる。なお、画像レベルの分類損失関数の分類損失を最大化することで、オフセットネットワークが、分類に対する貢献が弱い入力点の位置を提供し、変更したオフセット変数に基づいて、判別性が弱い画像コンテンツ領域を位置決めするという目的を達成することもできる。

任意選択的に、上記図３及び上記図３に対応する第１又は第２実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第３選択可能な実施例において、分類損失関数は、

で表されてもよく、
ここで、Ｌは、分類損失関数を表し、Ｉ（）は、ディラック関数を表し、Ｎは、カテゴリの総数を表し、ｃは、第ｃカテゴリを表し、ｋは、１以上であってＮ以下であり、Ｐ_ｃは、第ｃカテゴリに対応する予測確率値を表す。

本実施例において、画像分類ネットワーク及びオフセットネットワークを訓練により得るための分類損失関数を定義する。つまり、下記分類損失関数を用いる。

上記から分かるように、画像分類ネットワーク及びオフセットネットワークを訓練する場合、画像レベルの画像コンテンツ領域を訓練対象とすることで得られた画像分類ネットワーク及びオフセットネットワークは、画像における各画像コンテンツ領域のカテゴリを予測することができる。

また、本願の実施例において、分類損失関数の例示的なコンテンツを提供する。上記方式によれば、解決手段の実現のために、実行可能な方法を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。

任意選択的に、上記図３に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第４選択可能な実施例において、訓練されるべきオフセットネットワークを介して訓練されるべき画像の第２予測カテゴリアノテーション情報を取得する前に、
変形可能な畳み込みニューラルネットワークを介して訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップであって、変形可能な畳み込みニューラルネットワークは訓練されるべき画像のオフセット変数を予測するためのものである、ステップを更に含んでもよく、
訓練されるべきオフセットネットワークを介して訓練されるべき画像の第２予測カテゴリアノテーション情報を取得するステップは、
訓練されるべきオフセットネットワークを介して訓練されるべき特徴画像に対応する第２予測カテゴリアノテーション情報を取得するステップを含んでもよい。

本実施例において、利用変形可能な畳み込みニューラルネットワークを利用して第２予測カテゴリアノテーション情報を生成する方法を説明する。一例示的な解決手段において、まず、訓練されるべき画像を変形可能な畳み込みニューラルネットワーク（ｄｅｆｏｒｍａｂｌｅｃｏｎｖｏｌｕｔｉｏｎ）に入力し、変形可能な畳み込みニューラルネットワークにより、予測されたオフセット変数を出力する。オフセット変数は、１つの畳み込みカーネルの各重み値に対応する入力画素の位置オフセットである。オフセット変数によれば、操作の実際の入力特徴を変更することができる。

理解しやすくするために、図５を参照されたい。図５は、本願の実施例による変形可能な畳み込みニューラルネットワークの構造を示す概略図である。図面に示すように、従来の畳み込みウィンドウは、各畳み込みウィンドウの画素重み値のみを訓練すればよいが、変形可能な畳み込みネットワークは、畳み込みウィンドウの形状を訓練するための幾つかのパラメータを追加する必要がある。図５におけるオフセット領域５１は、変形畳み込みに追加された訓練されるべきパラメータである。訓練されるべきパラメータの大きさは、訓練されるべき画像５２の大きさと同じである。畳み込みウィンドウがオフセット領域５１でスライドすると、畳み込み画素のオフセット効果を示し、サンプリング点の最適化の効果を達成する。最後に、訓練されるべき特徴画像５３を出力する。訓練されるべき特徴画像を訓練されるべきオフセットネットワークに入力し、訓練されるべきオフセットネットワークにより、第２予測カテゴリアノテーション情報を出力する。

次に、本願の実施例において、上記方式で、１つの畳み込みカーネルにおける各重みに対応する入力画素の位置オフセット変数を予測し、畳み込み操作の実際の入力特徴を変更し、これにより、最も有効な変換方式を訓練により得、敵対的訓練のモードを実現させることができる。

任意選択的に、上記図３に対応する第４実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第５選択可能な実施例において、変形可能な畳み込みニューラルネットワークを介して訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップは、

で訓練されるべき特徴画像を生成するステップを含んでもよく、
ここで、ｙ（ｐ_０）は、訓練されるべき特徴画像を表し、ｐ_０は、訓練されるべき特徴画像における画素値を表し、ｐ_ｎは、畳み込みカーネルにおける、サンプリング点の位置を表し、Δｐ_ｎは、オフセット変数を表し、ｗ（ｐ_ｎ）は、畳み込みカーネルが訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、
ｘ（ｐ_０＋ｐ_ｎ＋Δｐ_ｎ）は、訓練されるべき画像における対応する位置の画素値を表す。

本実施例において、変形可能な畳み込みニューラルネットワークを介して訓練されるべき特徴画像を取得する方法を説明する。出力位置がｐ_０である特徴に対して、従来の畳み込み層を用いると、対応する入力特徴位置集合は、ｐ_０＋ｐ_ｎである。ここで、ｐ_ｎ∈Ｒであり、Ｒは、０を中心とした全ての標準的な正方形オフセット量である例えば、１つの３×３畳み込みカーネルに対応するＲは、｛（０，０），（－１，－１），（－１，１），（１，１），（１，－１），（－１，０），（１，０），（０，１），（０，１）｝である。変形可能な畳み込みニューラルネットワークの入力特徴集合は、ｐ_０＋ｐ_ｎを基に、予測された追加のオフセット変数を導入する。従って、実際に入力された特徴位置集合は、ｐ_０＋ｐ_ｎ＋Δｐ_ｎである。つまり、出力層ｙ（ｐ_０）は、

で表され、
ここで、ｙ（ｐ_０）は、訓練されるべき特徴画像を表し、ｐ_０は、訓練されるべき特徴画像における画素値を表し、ｐ_ｎは、畳み込みカーネルにおける、サンプリング点の位置を表し、Δｐ_ｎは、オフセット変数を表し、ｗ（ｐ_ｎ）は、畳み込みカーネルが訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、ｘ（ｐ_０＋ｐ_ｎ＋Δｐ_ｎ）は、訓練されるべき画像における対応する位置の画素値を表す。

また、本願の実施例において、訓練されるべき特徴画像を生成するための例示的な方式を提供する。上記方式で、解決手段の実現のために、実行可能方法を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。

任意選択的に、上記図３に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第６選択可能な実施例において、画像コンテンツカテゴリ情報及び第２予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定した後、
訓練されるべきオフセットネットワークに対応する第３モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して訓練されるべき画像の第３予測カテゴリアノテーション情報を取得するステップと、
画像コンテンツカテゴリ情報及び第３予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべき画像分類ネットワークに対応する第４モデルパラメータを決定するステップと、
訓練されるべき画像分類ネットワークの第４モデルパラメータを一定にした場合、訓練されるべきオフセットネットワークを介して訓練されるべき画像の第４予測カテゴリアノテーション情報を取得するステップと、
画像コンテンツカテゴリ情報及び第４予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべきオフセットネットワークに対応する第５モデルパラメータを決定するステップと、を更に含んでもよく
第２モデルパラメータ及び第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
第２モデルパラメータ、第３モデルパラメータ、第４モデルパラメータ及び第５モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップを含む。

本実施例において、もう１つのモデル交互訓練過程を説明する。モデル訓練装置は、一回の交互訓練を完了した後、次回の要件訓練を開始することができる。例えば、訓練されるべき画像分類ネットワークを訓練する場合、まず、訓練されるべきオフセットネットワークの重み値を一定にする必要がある。つまり、固定訓練されるべきオフセットネットワークの第３モデルパラメータを一定にする。続いて、訓練されるべき画像を訓練されるべき画像分類ネットワークに入力し、該訓練されるべき画像分類ネットワークにより、訓練されるべき画像の第３予測カテゴリアノテーション情報を出力する。従って、モデル訓練装置は、分類損失関数を用いて、訓練されるべき画像分類ネットワークを訓練する。分類損失関数は、モデル予測値と真値との不一致度合いを予測するためのものである。ここで、訓練されるべき画像の画像コンテンツカテゴリ情報は、真値であり、訓練されるべき画像の第３予測カテゴリアノテーション情報は、予測値である。分類損失関数は小さいほど、画像分類ネットワークのロバスト性は高くなる。従って、分類損失関数によれば、訓練されるべき画像分類ネットワークに対応する第４モデルパラメータを得ることができる。

モデル訓練装置は、訓練により、訓練されるべき画像分類ネットワークの第４モデルパラメータを得た後、モデルの交互訓練に基づいて、訓練されるべき画像分類ネットワークの重み値を一定にする必要がある。つまり、訓練されるべき画像分類ネットワークの第４モデルパラメータを一定にする。続いて、訓練されるべき画像を訓練されるべきオフセットネットワークに入力し、該訓練されるべきオフセットネットワークにより、訓練されるべき画像の第４予測カテゴリアノテーション情報を出力する。

モデル訓練装置は、同一の分類損失関数を用いて、訓練されるべきオフセットネットワークを訓練する。分類損失関数は、モデル予測値と真値との不一致度合いを予測するためのものである。ここで、訓練されるべき画像の画像コンテンツカテゴリ情報は、真値であり、訓練されるべき画像の第４予測カテゴリアノテーション情報は、予測値である。従って、分類損失関数によれば、オフセットネットワークに対応する第５モデルパラメータを得ることができる。

複数回の交互訓練を行った後、モデル訓練装置は、毎回の訓練で得られたモデルパラメータ（訓練により得られた第２モデルパラメータ、第３モデルパラメータ、第４モデルパラメータ及び第５モデルパラメータを含む）に基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練する。例示的な解決手段において、交互訓練を終了した後、オフセットネットワークを訓練する過程において予測されたオフセット変数を１つの比較的完全な画像コンテンツ領域となるように融合し、最後に、得られた画像コンテンツ領域を画素レベルのセグメンテーションの教師情報として用い、該教師情報を用いて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得る。処理されるべき画像を画像セマンティックセグメンテーションネットワークモデルに入力する場合、該画像セマンティックセグメンテーションネットワークモデルにより、対応するセマンティックセグメンテーション結果を出力する。

次に、本願の実施例において、上記方式で、１つの分岐を一定にし、もう１つの分岐を訓練するという方策により、画像分類ネットワークとオフセットネットワークに絶え間なく競合的学習を実行させることができ、画像分類ネットワークは情報量のより小さい領域を入力とした後に分類器を絶え間なく補強するように訓練する一方で、オフセットネットワークの分岐により判別性がより弱い領域を絶え間なく位置決めすることもできる。

任意選択的に、上記図３に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第１選択可能な実施例において、第２モデルパラメータ及び第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
第２モデルパラメータ及び第３モデルパラメータを用いて訓練されるべきオフセットネットワークをＮ回訓練した場合、訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、訓練されるべき画像に対応する画像コンテンツ領域を決定するステップであって、Ｎは、１以上の整数である、ステップと、
画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練するステップと、
ターゲット損失関数の損失結果が最小値である場合、画像セマンティックセグメンテーションネットワークモデルを生成するステップと、を含んでもよい。

本実施例において、画像セマンティックセグメンテーションネットワークモデルの生成方法を説明する。Ｎ回の交互訓練を終了した後、オフセットネットワークを訓練する過程において予測されたオフセット変数を全て融合することで、比較的完全な画像コンテンツ領域を得、つまり、訓練されるべき画像に対応する画像コンテンツ領域を得ることができる。得られた画像コンテンツ領域を画素レベルのセグメンテーションの教師情報として用い、続いて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練する。ターゲット損失関数が最小値である場合、画像セマンティックセグメンテーションネットワークモデルを生成する。

画像セマンティックセグメンテーションネットワークモデルの適用範囲は広い。例えば、画像修正者が画像を正確に美化するのを補助するか又は無人運転自動車が前方の障害物を正確に理解するのを補助する。画像セマンティックセグメンテーションネットワークモデルを用いてセマンティックセグメンテーションを行う方法は多数である。例えば、閾値法を用いる。閾値法の目的は、グレースケール画像を前背景が分離した二値画像に変換することである。グレースケール画像に、前景画像コンテンツ及び背景画像という２つの主なカテゴリのみを含むと仮定する。続いて、平衡画像統計ヒストグラムの方式で、良好な画素閾値を見付け、画像における全ての点を該２つのカテゴリに分ける。ここで、閾値より大きい点は、画像コンテンツであり、閾値以下の点は、背景である。

また例えば、画素クラスタリングの方法で、まず、Ｋ個の中心点を選択し、続いて、各画素点と該Ｋ個の画素との差別の大きさに基づいて、画像の全ての点を該Ｋ個の中心点に割り当て、続いて、各カテゴリの中心を再演算し、上記ステップに応じて反復最適化を行い、画像における全ての画素をＫ個のカテゴリに分ける。

また例えば、画素縁セグメンテーションの方法で、抽出された縁情報を利用して、画像における異なる領域をセグメンテーションする。

次に、本願の実施例において、上記方式で、データアノテーションに対する要件が高すぎるという問題を解決し、大量の画像に対して画素レベルのアノテーションを行う必要がなく、弱教師あり要件での画像セマンティックセグメンテーションを実現させる。高価な画素レベルの情報を必要とせず、画像レベルのアノテーションのみを提供すれば、従来方法に匹敵するセマンティックセグメンテーション精度を取得することができる。

任意選択的に、上記図３に対応する第７実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第８選択可能な実施例において、ターゲット損失関数は、

で表されてもよく、
ここで、Ｌ_segは、ターゲット損失関数を表し、Ｎは、カテゴリ総数を表し、ｃは、第ｃカテゴリを表し、ｋは、１以上であって前記Ｎ以下であり、Ｉ（）は、ディラック関数を表し、

は、画素点での、第ｃカテゴリの予測確率値を表し、ｉは、訓練されるべき画像における、画素点の横座標位置を表し、ｊは、訓練されるべき画像における、画素点の縦座標位置を表す。

本実施例において、画像セマンティックセグメンテーションネットワークモデルを訓練により得るためのターゲット損失関数を定義する。つまり、

というターゲット損失関数を用いる。

上記から分かるように、画像セマンティックセグメンテーションネットワークモデルを訓練する場合、画素レベルの画像を訓練対象とすることで得られた画像セマンティックセグメンテーションネットワークモデルは、画像における各特徴点のカテゴリを予測することができる。

また、本願の実施例において、ターゲット損失関数の例示的なコンテンツを提供する。上記方式によれば、解決手段の実現のために、実行可能な方法を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。

上記説明を参照しながら、以下、本願における画像処理方法を説明する。ここで、該方法は、コンピュータ機器により実行されてもよい。例えば、コンピュータ機器におけるモデル訓練装置により実行されてもよい。ここで、該コンピュータ機器は、上記図１に示すシステムにおける端末機器又はサーバであってもよい。図６を参照すると、本願の実施例における画像処理方法の一実施例は、以下を含む。

２０１において、処理されるべき画像を取得する。

本実施例において、モデル訓練装置は、１つの画像セマンティックセグメンテーションネットワークモデルを訓練により得た後、画像処理装置は、１つの処理されるべき画像を取得することができる。ここで、画像処理装置は、無人車両に配置される場合、カメラにより、無人車両の走行過程において収集されたストリートビュー画像を取得することができる。画像処理装置は、ロボットに配置される場合、ロボットが位置する環境でのストリートビュー画像をリアルタイムで収集することができる。画像処理装置は、携帯電話又はタブレットなどのハンドヘルド機器に配置される場合、ユーザにより撮られた写真又はウェブサイトからダウンロードされたピクチャを取得することができる。これらの画像はいずれも、処理されるべき画像とすることができる。

処理されるべき画像は、ＢＭＰフォーマット、ＰＣＸフォーマット、ＴＩＦ、ＧＩＦ、ＪＰＥＧフォーマット、ＥＸＩＦ、ＳＶＧフォーマット、ＤＸＦ、ＥＰＳフォーマット、ＰＮＧフォーマット、ＨＤＲＩフォーマット及びＷＭＦというフォーマットを含むが、これらに限定されない。

２０２において、画像セマンティックセグメンテーションネットワークモデルにより、処理されるべき画像のセマンティックセグメンテーション結果を取得し、画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである。

本実施例において、画像処理装置は、処理されるべき画像を画像セマンティックセグメンテーションネットワークモデルに入力し、該画像セマンティックセグメンテーションネットワークモデルにより、対応するセマンティックセグメンテーション結果を出力する。ここで、画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークを交互に訓練することで得られたものであり、該訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである。画像セマンティックセグメンテーションネットワークモデルの訓練過程は、上記図３及び図３に対応する第１から第８実施例に記載したとおりであり、ここで、詳細な説明を省略することは、理解されるべきである。

画像セマンティックセグメンテーションネットワークモデルは、全畳み込みニューラルネットワーク（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ：ＦＣＮ）、条件付き確率場（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ：ＣＲＦ）又はマルコフ確率場（Ｍａｒｋｏｖｒａｎｄｏｍｆｉｅｌｄ：ＭＲＦ）に基づいて訓練されたものであり、他の構造のニューラルネットワークに基づいて訓練されたものであってもよく、ここで、詳細な説明を省略することは、理解されるべきである。

ここで、ＦＣＮは主に、畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎａｌ）、アップサンプリング（Ｕｐｓａｍｐｌｅ）及びスキップ構造（ＳｋｉｐＬａｙｅｒ）という３つの技術を用いる。畳み込みは、ＶＧＧ１６又は残差ネットワーク（ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲｅｓＮｅｔ）５０／１０１等などのような一般的な分類ネットワークの全結合層を捨て、対応する畳み込み層を交換することである。アップサンプリングは、逆畳み込み（Ｄｅｃｏｎｖｏｌｕｔｉｏｎ）であり、逆畳み込みは、畳み込みと同様であり、いずも乗算及び加算を行う。逆畳み込みは、１対多式であり、逆畳み込みのフォワードプロパゲーション及びバックプロパゲーションとして、畳み込みのフォワードプロパゲーション及びバックプロパゲーションを逆転したものを利用すればよい。スキップ構造の役割は、結果最適化である。全畳み込みを行った結果を直接的にアップサンプリングすることで得られた結果は粗いため、異なるプーリング層の結果をアップサンプリングした後に出力を最適化する必要がある。

２０３において、セマンティックセグメンテーション結果に基づいて、処理されるべき画像を処理する。

本実施例において、画像処理装置は、セマンティックセグメンテーション結果に基づいて該処理されるべき画像を処理する。任意選択的に、セマンティックセグメンテーション結果は、ウェブサイトで画像を利用して画像を検索するために用いられる。つまり、処理されるべき画像に関わる他の画像を検索するために用いられる。また、画像コンテンツ分析に基づくカスタマイズ推薦などにも適用可能である。セマンティックセグメンテーション結果は、一般的には下記特徴を有する。１つ目の特徴は、セグメンテーションで得られた異なる領域の内部は、平滑であり、そのテクスチャ及びグレースケールは類似性を有することである。２つ目の特徴は、隣接セマンティックセグメンテーション領域のセグメンテーションの根拠とした性質が明らかに相違していることである。３つ目の特徴は、セグメンテーションした後の異なるセマンティック領域の境界は明確であって規則的である。

本願の実施例において、上記方式で、弱教師あり画像セマンティックセグメンテーションを実現させ、精細な画素レベルのセグメンテーションアノテーションデータを欠けている場合に適用可能であり、画像全体の分類アノテーションのみに依存し、正確率の高い画像セグメンテーションを実現させる。

理解しやすくするために、図７を参照されたい。図７は、本願の実施例による変形可能な畳み込みニューラルネットワークに基づく画像処理フローを示す概略図である。図面に示すように、まず、処理されるべき画像７１を取得し、該処理されるべき画像から、例えば図７に示す赤色自動車のような関心画像を抽出し、処理されるべき画像から抽出された関心画像を畳み込み層７２に入力し、関心領域プーリング層７３により、関心画像の特徴マップ７４を得る。一例示的な解決手段において、プーリング対象が３×３の特徴マップであると仮定すると、まず、入力された関心画像に対して関心領域プーリングを行い、大きさが３×３である特徴マップ７４を得、続いて、全結合層７５により、各領域に対応するオフセット変数７６を出力する。もう１つの全結合層７７により処理を行うことで、セマンティックセグメンテーション結果（分類情報７８及び位置決め情報７９を含む）を得る。

以下、本願におけるモデル訓練装置を詳しく説明する。ここで、該モデル訓練装置は、コンピュータに適用可能である。例えば、該コンピュータ機器は、上記図１に示すシステムにおけるサーバであってもよい。図８を参照すると、図８は、本願の実施例によるモデル訓練装置の一実施例を示す概略図である。モデル訓練装置３０は、取得モジュール３０１と、決定モジュール３０２と、訓練モジュール３０３と、を備え、
前記取得モジュール３０１は、訓練されるべき画像を取得するように構成され、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものであり、
前記取得モジュール３０１は更に、訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第１予測カテゴリアノテーション情報を取得するように構成され、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記決定モジュール３０２は、前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定するように構成され、
前記取得モジュール３０１は更に、前記訓練されるべき画像分類ネットワークの前記第２モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュール３０２は更に、前記画像コンテンツカテゴリ情報及び前記取得モジュール３０１により取得された前記第２予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定するように構成され、
前記訓練モジュール３０３は、前記決定モジュール３０２により決定された前記第２モデルパラメータ及び前記第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである。

本実施例において、取得モジュール３０１は、訓練されるべき画像を取得し、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである。訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、前記取得モジュール３０１は、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第１予測カテゴリアノテーション情報を取得し、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである。決定モジュール３０２は、前記画像コンテンツカテゴリ情報及び前記取得モジュール３０１により取得された前記第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定する。前記訓練されるべき画像分類ネットワークの前記第２モデルパラメータを一定にした場合、前記取得モジュール３０１は、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得する。前記決定モジュール３０２は、前記画像コンテンツカテゴリ情報及び前記取得モジュール３０１により取得された前記第２予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定する。訓練モジュール３０３は、前記決定モジュール３０２により決定された前記第２モデルパラメータ及び前記第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである。

本願の実施例において、上記方式で、オフセットネットワーク及び画像分類ネットワークを用いて、画像レベルとアノテーションされた訓練されるべき画像を訓練することができ、画像セマンティックセグメンテーションネットワークモデルの性能を確保する上で、手動による画素レベルのアノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる。

任意選択的に、上記図８に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置３０のもう１つの実施例において、
前記決定モジュール３０２は具体的には、前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最小値である場合、前記訓練されるべき画像分類ネットワークに対応する前記第２モデルパラメータを決定するように構成される。

任意選択的に、上記図８に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置３０のもう１つの実施例において、
前記決定モジュール３０２は具体的には、前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最大値である場合、前記訓練されるべきオフセットネットワークに対応する前記第３モデルパラメータを決定するように構成される。

任意選択的に、上記図８に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置３０のもう１つの実施例において、
前記分類損失関数は、

任意選択的に、上記図８に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置３０のもう１つの実施例において、
前記取得モジュール３０１は更に、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得する前に、変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するように構成され、前記変形可能な畳み込みニューラルネットワークは、前記訓練されるべき画像のオフセット変数を予測するためのものであり、
前記取得モジュールは具体的には、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき特徴画像に対応する前記第２予測カテゴリアノテーション情報を取得するように構成される。

任意選択的に、上記図８に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置３０のもう１つの実施例において、
前記取得モジュール３０１は具体的には、

任意選択的に、上記図８に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置３０のもう１つの実施例において、
前記取得モジュール３０１は更に、前記決定モジュール３０２が前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定した後、前記訓練されるべきオフセットネットワークに対応する前記第３モデルパラメータを一定にした場合、前記訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第３予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュール３０２は更に、前記画像コンテンツカテゴリ情報及び前記取得モジュール３０１により取得された前記第３予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第４モデルパラメータを決定するように構成され、
前記取得モジュール３０１は更に、前記訓練されるべき画像分類ネットワークの前記第４モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第４予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュール３０２は更に、前記画像コンテンツカテゴリ情報及び前記取得モジュール３０１により取得された前記第４予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第５モデルパラメータを決定するように構成され、
前記訓練モジュール３０３は具体的には、前記決定モジュール３０２により決定された前記第２モデルパラメータ、前記第３モデルパラメータ、前記第４モデルパラメータ及び前記第５モデルパラメータに基づいて、前記訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、前記画像セマンティックセグメンテーションネットワークモデルを得るように構成される。

任意選択的に、上記図８に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置３０のもう１つの実施例において、
前記訓練モジュール３０３は具体的には、前記第２モデルパラメータ及び前記第３モデルパラメータを用いて前記訓練されるべきオフセットネットワークをＮ回訓練した場合、前記訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、前記訓練されるべき画像に対応する画像コンテンツ領域を決定するように構成され、前記Ｎは、１以上の整数であり、
前記訓練モジュール３０３は具体的には、前記画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、
前記ターゲット損失関数の損失結果が最小値である場合、前記画像セマンティックセグメンテーションネットワークモデルを生成するように構成される。

任意選択的に、上記図８に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置３０のもう１つの実施例において、
前記ターゲット損失関数は、

以下、本願における画像処理装置を詳しく説明する。ここで、該画像処理装置は、コンピュータ機器に適用可能である。例えば、該コンピュータ機器は、上記図１に示すシステムにおけるサーバ又は端末装置であってもよい。図９を参照すると、図９は、本願の実施例による画像処理装置の一実施例を示す概略図である。画像処理装置４０は、取得モジュール４０１と、処理モジュール４０２と、を備え、
前記取得モジュール４０１は、処理されるべき画像を取得するように構成され、
前記取得モジュール４０１は更に、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記処理モジュール４０２は、前記取得モジュールにより取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成される。

本実施例において、取得モジュール４０１は、処理されるべき画像を取得する。前記取得モジュール４０１は、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得し、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである。前記処理モジュール４０２は、前記取得モジュール４０１により取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成される。

図１０は、本願の実施例によるサーバ構造を示す概略図である。該サーバ５００は、構成又は性能によって大きく異なることがあり、１つ又は１つ以上の中央演算処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ：ＣＰＵ）５２２（例えば、１つ又は１つ以上のプロセッサ）と、メモリ５３２と、アプリケーションプログラム５４２又はデータ５４４を記憶するための記憶媒体５３０（例えば１つ又は１つ以上の大容量記憶媒体）と、を備えてもよい。ここで、メモリ５３２及び記憶媒体５３０は一時的媒体又は永久的記憶媒体であってもよい。記憶媒体５３０に記憶されたプログラムは、１つ又は１つ以上のモジュール（図示されず）を含んでもよい。各モジュールは、サーバにおける一連の指令操作を含んでもよい。更に、中央演算処理装置５２２は、記憶媒体５３０と通信して、サーバ５００で記憶媒体５３０における一連の命令操作を実行するように構成されてもよい。

サーバ５００は、１つ又は１つ以上の電源５２６、１つ又は１つ以上の有線又は無線ネットワークインタフェース５５０、１つ又は１つ以上の入力出力インタフェース５５８、及び／又は、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ，ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭ等のような１つ又は１つ以上のオペレーティングシステム５４１を更に含んでもよい。

上記実施例におけるサーバにより実行されたステップは、該図１０に示すサーバ構造に基づいたものであってもよい。

本願の実施例において、該サーバに含まれるＣＰＵ５２２は、上記図３又は図６に示す実施例における全て又は一部のステップを実行するように構成される。

本願の実施例は、もう１つの画像処理装置を提供する。図１１に示すように、説明しやすくするために、本願の実施例に係わる部分のみを示す。開示されていない具体的な技術的細部は、本願の実施例の方法を参照されたい。該端末装置は、携帯電話、タブレット、パーソナルデジタルアシスタント（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ：ＰＤＡ）、ポイントオブセールス機器（ｐｏｉｎｔｏｆｓａｌｅｓ：ＰＯＳ）、車載コンピュータなどの任意の端末装置であってもよい。端末装置が携帯電話であることを例とする。

図１１は、本願の実施例による端末装置に関わる携帯電話の一部の構造を示すブロック図である。図１１を参照すると、携帯電話は、無線周波数（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ：ＲＦ）回路６１０と、メモリ６２０、入力ユニット６３０、表示ユニット６４０、センサ６５０、オーディオ回路６６０、ワイヤレスフィデリティ（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ：ＷｉＦｉ）モジュール６７０、プロセッサ６８０、電源６９０などの部材を備える。図１１に示す携帯電話構造は、携帯電話を限定するものではなく、図示されているものよりも多いまたは少ない部材を備えてもよく、又は、幾つかの部材を組み合わせてもよく、又は、異なる部材を配置してもよいことは、当業者であれば、理解すべきである。

以下、図１１を参照しながら、携帯電話の各構成部材を具体的に説明する。

ＲＦ回路６１０は、情報を受信するか通話過程中で信号を送受信するように構成される。特に、基地局の下り情報を受信した後に、プロセッサ６８０に送信し、なお、設計された上りデータを基地局に送信するように構成される。

メモリ６２０は、ソフトウェアプログラム及びモジュールを記憶するように構成され、プロセッサ６８０は、メモリ６２０に記憶されたソフトウェアプログラム及びモジュールを実行することで、携帯電話の種々の機能適用及びデータ処理を実行する。

入力ユニット６３０は、入力された数字又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関わるキー信号入力を生成するように構成される。例えば、入力ユニット６３０は、タッチパネル６３１及び他の入力機器６３２を備えてもよい。タッチパネル６３１に加えて、入力ユニット６３０は、他の入力装置６３２を備えてもよい。例えば、他の入力装置６３２は、物理的キーボード、機能キー（例えば、音量制御キー、スイッチキーなど）、トラックボール、マウス、操作レバーなどのうちの１つ又は複数を含んでもよいが、これらに限定されない。

表示ユニット６４０は、ユーザから入力された情報又はユーザに提供された情報及び携帯電話の種々のメニューを表示するように構成される。表示ユニット６４０は、表示パネル６４１を備えてもよい。任意選択的に、液晶ディスプレイ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ：ＬＣＤ）、有機発光ダイオード（ｏｒｇａｎｉｃｌｉｇｈｔ－ｅｍｉｔｔｉｎｇｄｉｏｄｅ：ＯＬＥＤ）等の形態で表示パネル６４１を構成することができる。更に、タッチパネル６３１は、表示パネル６４１を被覆してもよい。図１１において、タッチパネル６３１と表示パネル６４１は、２つの独立した部材として携帯電話の入力及び出力機能を実現するが、幾つかの実施例において、タッチパネル６３１と表示パネル６４１を集積することで、携帯電話の入力及び出力機能を実現させることができる。

携帯電話は、例えば、光センサ、動きセンサ及び他のセンサのような、少なくとも１つのセンサ６５０を更に備えてもよい。

オーディオ回路６６０、スピーカー６６１、マイクロホン６６２は、ユーザと携帯電話とのオーディオインタフェースを提供することができる。

図１１は、ＷｉＦｉモジュール６７０を示すが、これが携帯電話の不可欠な構造ではなく、本発明の本質を変更することなくこれを省略されてもよいことは、理解されるべきである。

プロセッサ６８０は、携帯電話の制御センターである。これは、種々のインタフェース及び回路を利用して携帯電話全体の各部分を接続する。メモリ６２０に記憶されたソフトウェアプログラム及び／又はモジュールを行うか又は実行し、メモリ６２０に記憶されたデータを呼び出すことで、携帯電話の種々の機能を実行してデータを処理し、携帯電話全体に対してモニタリングする。

携帯電話は、各部材に給電する電源６９０（例えば、バッテリ）を更に備える。任意選択的に、電源は、電源管理システムを介してプロセッサ６８０に論理的に接続されてもよい。

図示されていないが、携帯電話は、カメラ、ブルートゥースモジュールなどを更に備えてもよく、ここで、詳細な説明を省略する。

本願の実施例において、該端末装置に備えられるプロセッサ６８０は、上記図３又は図６に示す実施例における全て又は一部のステップを実行するように構成される。

説明上の便宜及び簡素化を図るために、上記説明されたシステム、装置及びユニットの具体的な作動過程は、前記方法の実施例における対応した過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。

本発明で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した前記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットは、ハードウェアの形態で実現してもよく、ソフトウェア機能ユニットの形態で実現してもよい。

前記集積したユニットはソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ設備（パソコン、サーバ、又はネットワーク装置など）に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、読み出し専用メモリ（Ｒｅａｄ－ｏｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

なお、上記実施例は本願の具体的な実施形態に過ぎず、本願の技術的解決手段を説明するためのものであり、これを限定するものではなく、本願の保護範囲はこれに制限されるものではなく、前記実施例を参照しながら、本願を詳細に説明したが、本技術分野を周知するいかなる当業者であれば、本願で開示された技術範囲内で、前記実施例に記載の技術的解決手段に対して変化または代替を容易に想到することができ、又は一部の技術的特徴に対して均等物による置換を行うこともでき、これらの修正、変化又は置換は、対応する技術的解決手段の本質を本願の実施例の技術的解決手段の製品及び範囲を離脱させるものではなく、本願の保護範囲内に含まれるものとすることは、当業者であれば、理解すべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

２１訓練画像
２２カテゴリアノテーション情報
２３画像セマンティックセグメンテーションネットワークモデル
２４試験画像
２５セマンティックセグメンテーション結果
３０モデル訓練装置
４０画像処理装置
４１画像分類ネットワーク
４２オフセットネットワーク
４３画像
４４オフセット変数
５１オフセット領域
５２画像
５３特徴画像
７１画像
７２層
７３関心領域プーリング層
７４特徴マップ
７５全結合層
７６オフセット変数
７７全結合層
７８分類情報
７９情報
３０１取得モジュール
３０２決定モジュール
３０３訓練モジュール
４０１取得モジュール
４０２処理モジュール
５００サーバ
５２２中央演算処理装置
５２６電源
５３０記憶媒体
５３２メモリ
５４１オペレーティングシステム
５４２アプリケーションプログラム
５４４データ
５５０無線ネットワークインタフェース
５５８入力出力インタフェース
６１０ＲＦ回路
６２０メモリ
６３０入力ユニット
６３１タッチパネル
６３２入力装置
６４０表示ユニット
６４１表示パネル
６５０センサ
６６０オーディオ回路
６６１スピーカー
６６２マイクロホン
６７０ＷｉＦｉモジュール
６８０プロセッサ
６９０電源

Claims

コンピュータ機器が実行する画像分類モデルの訓練方法であって、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第１予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第２モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定するステップと、
前記第２モデルパラメータ及び前記第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を含むことを特徴とする、画像分類モデルの訓練方法。
前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定するステップは、
前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定するステップと、
前記分類損失関数の分類損失が最小値である場合、前記訓練されるべき画像分類ネットワークに対応する前記第２モデルパラメータを決定するステップと、を含むことを特徴とする
請求項１に記載の画像分類モデルの訓練方法。
前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定するステップは、
前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定するステップと、
前記分類損失関数の分類損失が最大値である場合、前記訓練されるべきオフセットネットワークに対応する前記第３モデルパラメータを決定するステップと、を含むことを特徴とする
請求項１に記載の画像分類モデルの訓練方法。
前記分類損失関数は、

で表され、
ここで、前記Ｌは、前記分類損失関数を表し、前記Ｉ（）は、ディラック関数を表し、前記Ｎは、カテゴリの総数を表し、前記ｃは、第ｃカテゴリを表し、前記ｋは、１以上であって前記Ｎ以下であり、前記Ｐ_ｃは、前記第ｃカテゴリに対応する予測確率値を表すことを特徴とする
請求項１から３のうちいずれか一項に記載の画像分類モデルの訓練方法。
前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得する前に、
変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップであって、前記変形可能な畳み込みニューラルネットワークは、前記訓練されるべき画像のオフセット変数を予測するためのものである、ステップを更に含み、
前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得するステップは、
前記訓練されるべきオフセットネットワークを介して前記訓練されるべき特徴画像に対応する前記第２予測カテゴリアノテーション情報を取得するステップを含むことを特徴とする
請求項１に記載の画像分類モデルの訓練方法。
前記変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップは、

で前記訓練されるべき特徴画像を生成するステップを含み、
ここで、前記ｙ（ｐ_０）は、前記訓練されるべき特徴画像を表し、前記ｐ_０は、前記訓練されるべき特徴画像における画素値を表し、前記ｐ_ｎは、畳み込みカーネルにおける、サンプリング点の位置を表し、前記Δｐ_ｎは、前記オフセット変数を表し、前記ｗ（ｐ_ｎ）は、前記畳み込みカーネルが前記訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、前記ｘ（ｐ_０＋ｐ_ｎ＋Δｐ_ｎ）は、前記訓練されるべき画像における対応する位置の画素値を表すことを特徴とする
請求項５に記載の画像分類モデルの訓練方法。
前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定した後、
前記訓練されるべきオフセットネットワークに対応する前記第３モデルパラメータを一定にした場合、前記訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第３予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第３予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第４モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第４モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第４予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第４予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第５モデルパラメータを決定するステップと、を更に含み、
前記第２モデルパラメータ及び前記第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
前記第２モデルパラメータ、前記第３モデルパラメータ、前記第４モデルパラメータ及び前記第５モデルパラメータに基づいて、前記訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、前記画像セマンティックセグメンテーションネットワークモデルを得るステップを含むことを特徴とする
請求項１に記載の画像分類モデルの訓練方法。
前記第２モデルパラメータ及び前記第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
前記第２モデルパラメータ及び前記第３モデルパラメータを用いて前記訓練されるべきオフセットネットワークをＮ回訓練した場合、前記訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、前記訓練されるべき画像に対応する画像コンテンツ領域を決定するステップであって、前記Ｎは、１以上の整数である、ステップと、
前記画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練するステップと、
前記ターゲット損失関数の損失結果が最小値である場合、前記画像セマンティックセグメンテーションネットワークモデルを生成するステップと、を含むことを特徴とする
請求項１に記載の画像分類モデルの訓練方法。
前記ターゲット損失関数は、

で表され、
ここで、前記Ｌ_segは、前記ターゲット損失関数を表し、前記Ｎは、カテゴリ総数を表し、前記ｃは、第ｃカテゴリを表し、前記ｋは、１以上であって前記Ｎ以下であり、前記Ｉ（）は、ディラック関数を表し、前記

は、画素点での、前記第ｃカテゴリの予測確率値を表し、前記ｉは、前記訓練されるべき画像における、前記画素点の横座標位置を表し、前記ｊは、前記訓練されるべき画像における、前記画素点の縦座標位置を表すことを特徴とする
請求項８に記載の画像分類モデルの訓練方法。
コンピュータ機器が実行する画像処理方法であって、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を含むことを特徴とする、画像処理方法。
コンピュータ機器に適用されるモデル訓練装置であって、前記モデル訓練装置は、取得モジュールと、決定モジュールと、訓練モジュールと、を備え、
前記取得モジュールは、訓練されるべき画像を取得するように構成され、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものであり、
前記取得モジュールは更に、訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第１予測カテゴリアノテーション情報を取得するように構成され、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記決定モジュールは、前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定するように構成され、
前記取得モジュールは更に、前記訓練されるべき画像分類ネットワークの前記第２モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第２予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定するように構成され、
前記訓練モジュールは、前記決定モジュールにより決定された前記第２モデルパラメータ及び前記第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものであることを特徴とする、モデル訓練装置。
コンピュータ機器に適用される画像処理装置であって、前記画像処理装置は、取得モジュールと、処理モジュールと、を備え、
前記取得モジュールは、処理されるべき画像を取得するように構成され、
前記取得モジュールは更に、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記処理モジュールは、前記取得モジュールにより取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成されることを特徴とする、画像処理装置。
サーバであって、前記サーバは、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第１モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第１予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第１予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第２モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第２モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第２予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第２予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第３モデルパラメータを決定するステップと、
前記第２モデルパラメータ及び前記第３モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成されることを特徴とする、サーバ。
端末装置であって、前記端末装置は、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成されることを特徴とする、端末装置。
コンピュータに請求項１から９のうちいずれか一項に記載の方法又は請求項１０に記載の方法を実行させることを特徴とする、コンピュータプログラム。