JP2020533696A

JP2020533696A - 画像認識方法、端末及び記憶媒体

Info

Publication number: JP2020533696A
Application number: JP2020514506A
Authority: JP
Inventors: 文浩姜; 林 ▲馬▼; 威 ▲劉▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-11
Filing date: 2018-09-11
Publication date: 2020-11-19
Anticipated expiration: 2038-09-11
Also published as: WO2019047971A1; CN108304846A; CN108304846B; CN110490213B; EP3611663A4; KR102270394B1; CN110490213A; EP3611663A1; US20190385004A1; US10956771B2; JP6972319B2; KR20200007022A

Abstract

画像認識方法、端末及び記憶媒体は機械学習分野に属し、前記方法は、エンコーダによって認識対象の画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得する（１０１）ことと、該特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得する（１０２）ことと、該第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成し、該第１ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられる（１０３）ことと、該第１ガイド情報、該第１アノテーションベクトル集合及び該第１初期入力データに基づき、デコーダによって該画像の表現語句を決定する（１０４）ことと、を含む。本願は、エンコーダとデコーダとの間に、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することができるガイドネットワークモデルを追加しているため、該ガイドネットワークモデルにより生成されたガイド情報がより正確であり、エンコード過程を正確にガイドすることができ、表現語句の生成品質を向上させる。

Description

関連出願の相互参照
本願は、２０１７年０９月１１日に提出した中国特許出願第２０１７１０８１４１８７．２号、発明の名称「画像認識方法、装置及び記憶媒体」の優先権を主張し、その全内容が本願の一部として援用される。

本願の実施例は機械学習分野に関し、特に画像認識方法、端末及び記憶媒体に関する。

科学技術の発展及び人々の便利なマンマシンインタラクション方式へのニーズに伴って、機械学習は画像認識分野で広く応用されている。例えば、早期幼児教育、画像検索及び盲人ナビゲーション等のシーンにおいて、通常、人々は、マシンが画像を自動的に認識して、画像内容を正確に表現することができる表現語句を得ることを期待する。つまり、自然言語によって画像を迅速に理解し又は画像を分類するように、画像を自然言語に翻訳することである。

現在、画像認識システムフレームワークは、一般的にエンコーダ（Ｅｎｃｏｄｅｒ）及びデコーダ（Ｄｅｃｏｄｅｒ）を備え、該システムフレームワークに基づき、関連技術において画像認識方法が提供され、下記を含む。まず、エンコーダによって画像に対して特徴抽出を行って、特徴ベクトル及びアノテーションベクトル（ＡｎｎｏｔａｔｉｏｎＶｅｃｔｏｒｓ）集合を取得し、特徴ベクトルが画像に対してグローバル特徴抽出を行って取得されたものであり、アノテーションベクトル集合が画像に対して局所特徴抽出を行って取得されたものである。次に、特徴ベクトルに対して初期化処理を行って、初期入力データを取得し、該初期入力データはデコーダの初期状態を示すことに用いられ、一般的に初期隠れ状態（ＨｉｄｄｅｎＳｔａｔｅ）情報及び初期メモリセル（ＭｅｍｏｒｙＣｅｌｌ）状態情報を含む。その後、画像から人為的に設計した特定情報をガイド情報として抽出して、該ガイド情報に基づき、デコーダによって該アノテーションベクトル集合及び初期入力データをデコードして、画像の表現語句を取得する。表現語句の生成品質を向上させて、生成された表現語句が画像をより正確に表現することができ、語義に一致するように、ここで、該ガイド情報はエンコーダのエンコード過程をガイドすることに用いられる。

本願の実施例は、人為的に設計した特定のガイド情報によって画像の表現語句を正確に生成できず、生成された表現語句の品質が低いという関連技術における問題を解決することができる画像認識方法、端末及び記憶媒体を提供する。前記技術案は下記のとおりである。

第１態様に係る画像認識方法であって、端末により実行され、前記方法は、
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得することと、
前記特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得することと、
前記第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成し、前記第１ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられることと、
前記第１ガイド情報、前記第１アノテーションベクトル集合及び前記第１初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定することと、を含む。

第２態様に係る画像認識装置であって、
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得するための抽出モジュールと、
前記特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得するための処理モジュールと、
前記第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成することに用いられ、前記第１ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられる生成モジュールと、
前記第１ガイド情報、前記第１アノテーションベクトル集合及び前記第１初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定するための決定モジュールと、を備える。

第３態様に係る端末であって、プロセッサ及びメモリを備え、前記メモリに少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得し、
前記特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得し、
前記第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成し、前記第１ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられ、
前記第１ガイド情報、前記第１アノテーションベクトル集合及び前記第１初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定する操作を実現するように実行される。

第４態様に係るコンピュータ可読記憶媒体であって、前記記憶媒体に少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、前記命令、前記プログラム、前記コードセット又は前記命令セットは、プロセッサによりロードされ、第１態様に記載の画像認識方法を実現するように実行されることを特徴とする。

本願の実施例に係る技術案は下記の有益な効果を有する。

本願の実施例において、エンコーダとデコーダとの間にガイドネットワークモデルを追加し、目標画像からアノテーションベクトル集合を抽出した後、該アノテーションベクトル集合に基づいて該ガイドネットワークモデルによってガイド情報を生成することができ、該ガイドネットワークモデルは、いずれの画像のアノテーションベクトル集合に基づいて該画像のガイド情報を生成することができるため、該ガイドネットワークモデルにより生成されたガイド情報は、目標画像の表現語句の生成過程に適用でき、精度がより高く、従って、目標画像のエンコード過程を正確にガイドすることができ、表現語句の生成品質を向上させる。

図１は本願の実施例に係るＲＮＮモデルの論理構造図である。図２は本願の実施例に係るＬＳＴＭモデルの論理構造図である。図３は本願の実施例に係る画像認識システムの構造模式図である。図４は本願の実施例に係る他の画像認識システムの構造模式図である。図５は本願の実施例に係る別の画像認識システムの構造模式図である。図６は本願の実施例に係る別の画像認識システムの構造模式図である。図７は本願の実施例に係る画像認識方法のフローチャートである。図８は本願の実施例に係る他の画像認識方法のフローチャートである。図９は本願の実施例に係る画像認識装置の構造模式図である。図１０は本願の実施例に係る生成モジュール３０３の構造模式図である。図１１は本願の実施例に係る他の生成モジュール３０３の構造模式図である。図１２は本願の実施例に係る決定モジュール３０４の構造模式図である。図１３は本願の実施例に係る他の画像認識装置の構造模式図である。図１４は本願の実施例に係る他の決定モジュール３０４の構造模式図である。図１５は本願の実施例に係る別の画像認識装置の構造模式図である。図１６は本願の実施例に係る端末４００の構造模式図である。

本願の実施例の技術案をより明確に説明するために、下記に実施例の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、下記に記載する図面は単に本願の実施例の一例であって、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到し得る。

本願の目的、技術案及び利点をより明確にするために、下記に図面を参照しながら本願の実施形態を更に詳しく説明する。

本願の実施例を詳しく説明する前に、まず本願の実施例の用語を説明する。

エンコーダ
エンコーダは、画像をエンコードしてベクトルを生成することに用いられ、通常、エンコーダはＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、畳み込みニューラルネットワーク）モデルを用いる。

デコーダ
デコーダは、エンコーダにより生成されたベクトルに対してデコードすることに用いられ、エンコーダにより生成されたベクトルを画像の表現語句に翻訳するようにする。通常、デコーダはＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、リカレントニューラルネットワーク）モデルを用いる。

ガイド情報
ガイド情報は、画像を処理して得られた情報であり、通常、ベクトルとして表れ、デコーダの入力の一部としてデコード過程をガイドすることができる。デコーダにガイド情報を導入することにより、デコーダの性能を向上させることができ、デコーダがより良い表現語句を生成できるように確保し、表現語句の生成品質を向上させることができる。

ＣＮＮモデル
ＣＮＮモデルは、従来の多層ニューラルネットワークに基づいて発展してきた画像に対する分類、認識を行うニューラルネットワークモデルを指し、通常、ＣＮＮモデルは、複数の畳み込み層及び少なくとも１つの全結合層を備え、画像に対して特徴抽出を行うことができる。

ＲＮＮモデル
従来のニューラルネットワークは記憶機能を有せず、つまり、従来のニューラルネットワークは、その入力がコンテクストの関連画なく、独立したデータである。しかしながら、実際の応用では、通常、入力が明らかなコンテクスト特徴を有する直列化した入力であり、例えば予測すべき表現語句内の次の単語であり、この時、ニューラルネットワークの出力が前回の入力に依存する必要がある。つまり、ニューラルネットワークが記憶機能を有するように要求される。それに対して、ＲＮＮモデルは、ノードが一定方向で環状に連接されて記憶機能を有するニューラルネットワークであり、内部の記憶機能を利用して入力データを繰り返し処理することができる。

図１は本願の実施例に係るＲＮＮモデルの論理構造図であり、図１の左側に示すように、該ＲＮＮモデルは入力層、隠れ層及び出力層の３層構造を備え、隠れ層が環状構造である。入力層が隠れ層に接続され、隠れ層が出力層に接続される。

該ＲＮＮモデルの機能を説明しやすくするために、図１の左側に示されるＲＮＮモデルの構造を時系列で展開すると、図１の右側に示される構造を得ることができる。ＲＮＮモデルの入力層で受け取った入力データが一定の時系列で並べるデータであり、つまり、入力層で受け取った入力データが直列データであるため、説明しやすくするために、該直列データをｘ_１、ｘ_２・・・ｘ_ｉ・・・ｘ_ｎと記し、該直列データ内の各データのそれぞれに対応する時刻をｔ_１、ｔ_２・・・ｔ_ｉ・・・ｔ_ｎと記し、ｘ_１、ｘ_２・・・ｘ_ｉ・・・ｘ_ｎをそれぞれ処理して得られた出力データをｆ_１、ｆ_２・・・ｆ_ｉ・・・ｆ_ｎと記す。ＲＮＮモデルにおいて、時系列で各入力データを順に処理するステップは時系列ステップと称されてもよい。ｎがＲＮＮモデルの入力データに対する繰り返し処理の回数である。

図１の右側に示すように、展開後のＲＮＮモデルにおいて、ｔ_１時刻に入力層で受け取った入力データがｘ_１であり、ｘ_１を隠れ層に渡され、隠れ層がｘ_１を処理して、処理後のデータを出力層に渡して、ｔ_１時刻の出力データｆ_１を取得する。ｔ_２時刻に入力層で受け取った入力データがｘ_２であり、ｘ_２を隠れ層に渡し、この時、隠れ層がｔ_１時刻の出力データｆ_１に基づいてｘ_２を処理して、処理後のデータを出力層に渡して、ｔ_２時刻の出力データｆ_２を取得する。つまり、任意の時刻ｔ_ｉに、隠れ層がｔ_ｉ時刻に入力層の渡した入力データｘ_ｉを受け取る以外に、更にｔ_ｉ−１時刻の出力データｆ_ｉ−１も受け取り、ｆ_ｉ−１に基づいてｘ_ｉを処理して、ｔ_ｉ時刻の出力データｆ_ｉを取得する。

ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、長期短期記憶）ネットワークモデル
ＬＳＴＭネットワークモデルは特別なＲＮＮモデルであり、時系列の間隔及び遅延の長い、重要なイベントを処理、予測することができる。ＬＳＴＭネットワークモデルはＬＳＴＭユニットを備え、ＬＳＴＭユニットに入力ゲート、忘却ゲート及び出力ゲートが設置され、各時系列ステップにおいて、設置された入力ゲート、忘却ゲート及び出力ゲートに基づいて入力データを処理することができる。

図２は本願の実施例に係るＬＳＴＭネットワークモデルの論理構造図であり、図２の左側に示すように、該ＬＳＴＭネットワークモデルはＬＳＴＭユニットを備え、ＬＳＴＭユニットが環状構造であり、ＬＳＴＭユニットの実行するいずれの時系列ステップｔに対して、該ＬＳＴＭユニットは時系列ステップｔの入力データｘ_ｔ及び一つ前の時系列ステップｔ−１の出力データｆ_ｔ−１を処理して、時系列ステップｔの出力データｆ_ｔを得ることができる。

図２の右側に示すように、時系列で展開したＬＳＴＭネットワークモデルにおいて、ＬＳＴＭユニットは時系列ステップｔ_１の入力データｘ_１を受け取った後、ｘ_１を処理して時系列ステップｔ_１の出力データｆ_１を得ることができ、次にｆ_１をＬＳＴＭユニットに入力し、ＬＳＴＭユニットは時系列ステップｔ_２の入力データｘ_２を受け取った後、時系列ステップｔ_ｎの入力データｘ_ｎ及び時系列ステップｔ_ｎ−１の出力データｆ_ｎ−１に基づいて時系列ステップｔ_ｎの出力データｆ_ｎを得るまで、ｆ_１及びｘ_２を処理することができ、時系列ステップｔ_２の出力データｆ_２が得られる。ｎがＬＳＴＭネットワークモデルの入力データに対する繰り返し処理の回数である。

レビューネット（Ｒｅｖｉｅｗ−ｎｅｔ）
レビューネットは、エンコーダ−デコーダフレームワークに基づく画像認識ネットワークであり、レビューアー（ｒｅｖｉｅｗｅｒ）及びデコーダを備える。通常、レビューアー及びデコーダがＣＮＮモデルを用いる。デコーダの性能を向上させるために、レビューアーは、エンコーダにより画像から抽出されたグローバル特徴と局所特徴との相互関係を更に探り、グローバル特徴と局所特徴との相互関係に基づいてデコーダのために初期入力データを生成することができる。

次に、本願の実施例の応用シーンを説明する。

本願の実施例は早期幼児教育、画像検索、盲人閲読又はチャットシステム等のシーンに適用されてもよく、これらのシーンにおいて一般的に画像を自然言語に自動的に翻訳する必要がある。

例えば、幼児が絵を見て物事を認識する能力を向上させるために、本願の実施例に係る画像認識方法を利用して、幼児の見た画像を対応する表現語句に翻訳し、次に、幼児が画像と音声とを組み合わせて画像内容を覚えることができるように、表現語句を音声に変換して再生することができる。

更に、例えば、データベースに記憶される大量の画像に対して、本願の実施例に係る画像認識方法を利用して、画像を対応する表現語句に翻訳することができ、画像の表現語句に基づいて画像を正確に分類し、又は画像の表現語句に基づいて画像を正確に検索するようにする。

更に、例えば、盲人が認識しようとする画像に対して、まずこの画像を対応する表現語句に翻訳し、次に表現語句を音声に変換して再生し、盲人が聞いた音声によって画像を認識するようし、又は、盲人が点字を閲読することで画像等を認識することができるように、表現語句を点字に変換することができる。

更に、例えば、チャットシステムにおいて、チャットウィンドウにおける画像を対応する表現語句に翻訳して、表現語句を表示することができる。

説明すべきなのは、本願の実施例は上記複数の応用シーンを例として説明したが、実際の応用では、本願の実施例に係る画像認識方法は更に他のシーンに適用されてもよく、本願の実施例は列挙しない。

次に、本願の実施例に係るシステムアーキテクチャを説明する。

図３は本願の実施例に係る画像認識システムの構造模式図であり、図３に示すように、該画像認識システムはエンコーダ１０、第１ガイドネットワークモデル２０及びデコーダ３０を備える。

エンコーダ１０は認識対象の目標画像をエンコードし、つまり、目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得することに用いられる。特徴ベクトルは目標画像のグローバル特徴を示すことに用いられ、第１アノテーションベクトル集合は目標画像の局所特徴を示すことに用いられる。

第１アノテーションベクトル集合に対して、エンコーダ１０はそれをそれぞれデコーダ３０及び第１ガイドネットワークモデル２０に出力することができる。特徴ベクトルに対して、エンコーダ１０はそれに対して初期化処理を行って、第１初期入力データを取得し、次に第１初期入力データをデコーダ３０に出力することができ、又は、エンコーダ１０は特徴ベクトルを他のモデルに出力し、他のモデルによって目標エンコーダ１０の出力した特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得して、第１初期入力データをデコーダ３０に出力することもできる。

第１ガイドネットワークモデル２０はエンコーダ１０の出力した第１アノテーションベクトル集合に基づいて第１ガイド情報を生成し、次に第１ガイド情報をデコーダ３０に出力することに用いられ、該第１ガイドネットワークモデルがサンプル画像のアノテーションベクトル集合によって訓練して取得されたものである。

デコーダ３０は第１ガイド情報、第１アノテーションベクトル集合及び第１初期入力データに基づいて該目標画像の表現語句を決定することに用いられる。

よって、関連技術に比べて、図３に示される画像認識システムはエンコーダとデコーダとの間にガイドネットワークモデルを追加し、該ガイドネットワークモデルがいずれの画像のアノテーションベクトル集合に基づいて該画像の表現語句を生成することができるため、人為的に設計したガイド情報に比べて、該ガイドネットワークモデルにより生成されたガイド情報は目標画像の表現語句の生成過程に適用でき、精度がより高く、従って、画像のエンコード過程を正確にガイドすることができ、それにより表現語句の生成品質を向上させる。

図４は本願の実施例に係る他の画像認識システムの構造模式図であり、図４に示すように、該画像認識システムはエンコーダ１０、第１ガイドネットワークモデル２０、デコーダ３０及びマルチインスタンスモデル４０を備える。

図４は図３におけるエンコーダ１０及びデコーダ３０の作用と同じであり、具体的な説明は図３を参照してもよく、ここで詳細な説明は省略する。

マルチインスタンスモデル４０は認識対象の目標画像を処理して、目標画像の属性情報を取得することに用いられ、該属性情報は、予測される、該目標画像の表現語句に単語が現れる確率を示し、目標画像の属性情報を第１ガイドネットワークモデル２０に出力することに用いられる。

第１ガイドネットワークモデル２０はエンコーダ１０の出力した第１アノテーションベクトル集合及びマルチインスタンスモデル４０の出力した目標画像の属性情報に基づいて第１ガイド情報を生成することに用いられる。

図４では、第１ガイドネットワークモデル２０の前にマルチインスタンスモデル４０を追加することにより、第１ガイドネットワークモデル２０は目標画像の第１アノテーションベクトル集合及び属性情報に基づいて第１ガイド情報を総合的に決定することができ、生成された第１ガイド情報の精度を更に向上させる。

図５は本願の実施例に係る別の画像認識システムの構造模式図であり、図５に示すように、該画像認識システムはエンコーダ１０、第１ガイドネットワークモデル２０、レビューアー５０、第２ガイドネットワークモデル６０及びデコーダ３０を備える。

図５は図３におけるエンコーダ１０の作用と同じであり、具体的な説明は図３を参照してもよく、ここで詳細な説明は省略する。

第１ガイドネットワークモデル２０はエンコーダ１０の入力した第１アノテーションベクトル集合に基づいて第１ガイド情報を生成して、第１ガイド情報をレビューアー５０に出力することに用いられる。

レビューアー５０は第１初期入力データ、第１アノテーションベクトル集合及び第１ガイド情報に基づいて第２アノテーションベクトル集合及び第２初期入力データを決定して、第２アノテーションベクトル集合及び第２初期入力データをデコーダ３０に出力し、第２アノテーションベクトル集合を第２ガイドネットワークモデル６０に出力することに用いられる。第２初期入力データはデコーダ３０の初期入力データであり、デコーダ３０の初期状態を示すことに用いられ、具体的に初期隠れ状態情報及び初期メモリセル状態情報を含んでもよい。

第２ガイドネットワークモデル６０は第２アノテーションベクトル集合に基づいて第２ガイド情報を生成して、第２ガイド情報をデコーダ３０に出力することに用いられ、該第２ガイドネットワークモデルもサンプル画像によって訓練して取得されたものである。

デコーダ３０は第２ガイド情報に基づき、第２アノテーションベクトル集合及び第２初期入力データをデコードして、該目標画像の表現語句を取得することに用いられる。

図５では、エンコーダとデコーダとの間にレビューアーを追加することにより、レビューアーによって目標画像の局所特徴とグローバル特徴との相互関係を更に引き出し、生成された第２アノテーションベクトル集合及び第２初期入力データに目標画像の特徴をより正確に示させることができ、画像認識システムのシステム性能を更に向上させ、更に表現語句の生成品質を向上させる。

図６は本願の実施例に係る別の画像認識システムの構造模式図であり、図６に示すように、該画像認識システムはエンコーダ１０、第１ガイドネットワークモデル２０、レビューアー５０、第２ガイドネットワークモデル６０、デコーダ３０及びマルチインスタンスモデル４０を備える。

図６は図５におけるエンコーダ１０、レビューアー５０及びデコーダ３０の作用と同じであり、具体的な説明は図５を参照してもよく、ここで詳細な説明は省略する。

マルチインスタンスモデル４０は認識対象の目標画像を処理して、目標画像の属性情報を取得して、目標画像の属性情報をそれぞれ第１ガイドネットワークモデル２０及び第２ガイドネットワークモデル６０に出力することに用いられる。

第１ガイドネットワークモデル２０はエンコーダ１０の出力した第１アノテーションベクトル集合及びマルチインスタンスモデル４０の出力した目標画像の属性情報に基づいて第１ガイド情報を生成して、第１ガイド情報をレビューアー５０に出力することに用いられる。

エンコーダ３０が第２ガイド情報に基づき、第２アノテーションベクトル集合及び第２初期入力データをエンコードして、目標画像の表現語句を取得するよう、第２ガイドネットワークモデル６０はレビューアー５０の出力した第２アノテーションベクトル集合及びマルチインスタンスモデル４０の出力した目標画像の属性情報に基づいて第２ガイド情報を生成して、第２ガイド情報をデコーダ３０に出力することに用いられる。

図６では、第１ガイドネットワークモデル２０及び第２ガイドネットワークモデル６０の前にマルチインスタンスモデル４０を追加することにより、第１ガイドネットワークモデル２０及び第２ガイドネットワークモデル６０はいずれも目標画像の属性情報及びアノテーションベクトル集合に基づいてガイド情報を総合的に決定することができ、生成されたガイド情報の精度を更に向上させる。

説明すべきなのは、上記図３〜図６に示される画像認識システムはいずれも複数のサンプル画像及び複数のサンプル画像の表現語句に基づいて訓練して取得されてもよく、つまり、訓練によって上記エンコーダ、第１ガイドネットワークモデル、レビューアー、第２ガイドネットワークモデル及びデコーダを取得することができ、これにより、第１ガイドネットワークモデル及び第２ガイドネットワークモデルは訓練中にどのように正確なガイド情報を生成するかを適応的に学習することができ、それによりガイド情報の生成精度を向上させる。

次に、上記図３〜図６に示される画像認識システムの構造模式図を参照しながら、本願の実施例に係る画像認識方法を詳しく説明する。図７は本願の実施例に係る画像認識方法のフローチャートであり、該方法が端末により実行されてもよく、該端末が携帯電話、タブレットＰＣ又はコンピュータ等であってもよく、該端末が上記画像認識システムを備えてもよく、例えばインストールされるソフトウェアによって上記画像認識システムをサポートすることができる。図７に示すように、該方法は下記を含む。

ステップ１０１において、エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得する。

認識対象の目標画像を認識するとき、まず目標画像をエンコーダに入力し、エンコーダによって目標画像に対して特徴抽出を行って、それぞれ目標画像の特徴ベクトル及び第１アノテーションベクトル集合を取得することができる。

具体的に、エンコーダによって目標画像に対してグローバル特徴抽出を行って、特徴ベクトルを取得し、エンコーダによって目標画像に対して局所特徴抽出を行って、アノテーションベクトル集合を取得することができる。特徴ベクトルは目標画像のグローバル特徴を示すことに用いられ、第２アノテーションベクトル集合におけるアノテーションベクトルは目標画像の局所特徴を示すことに用いられる。

好ましくは、エンコーダはＣＮＮモデルを用いてもよく、エンコーダがＣＮＮモデルを用いて目標画像に対して特徴抽出を行う場合、該特徴ベクトルがＣＮＮモデルの最後の全結合層によって抽出して取得されてもよく、該第２アノテーションベクトル集合がＣＮＮモデルの最後の畳み込み層によって抽出して取得されてもよい。

ステップ１０２において、特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得する。

第１初期入力データは、エンコーダに入力すべき次の処理モデルの初期入力データを指し、次の処理モデルの初期状態を示すことに用いられ、該次の処理モデルはデコーダ又はレビューアーであってもよい。第１初期入力データは、第１初期隠れ状態情報及び第１初期メモリセル状態情報を含んでもよく、第１初期隠れ状態情報は次の処理モデルの隠れ層の初期状態を示すことに用いられ、第１初期メモリセル状態情報は次の処理モデルのメモリセルの初期状態を示すことに用いられる。

具体的に、特徴ベクトルに対して線形変換等の初期化処理を行って、第１初期入力データを取得することができる。且つ、エンコーダによって該特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得してもよいし、他のモデルによってエンコーダの出力した特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得してもよく、本願の実施例は制限しない。

例えば、該エンコーダはＲＮＮモデル及び初期化モデルを備えてもよく、ＲＮＮモデルは目標画像に対して特徴抽出を行うことに用いられ、初期化モデルは特徴ベクトルに対して初期化処理を行うことに用いられ、該エンコーダはＲＮＮモデルによって画像に対して特徴抽出を行って特徴ベクトルを取得した後、更に初期化モデルによって特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得することができる。

又は、エンコーダは目標画像に対して特徴抽出を行うのみに用いられてもよく、且つエンコーダの後に初期化モデルを追加し、該初期化モデルは特徴ベクトルに対して初期化処理を行うことに用いられ、エンコーダによって目標画像に対して特徴抽出を行って特徴ベクトルを取得した後、特徴ベクトルを該初期化モデルに出力することができ、次に該初期化モデルによって該特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得する。

ステップ１０３において、第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成し、該第１ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられる。

具体的に、第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成することは、下記の２つの方式で実現されてもよい。

第１実現方式
第１ガイドネットワークモデルにおけるモデルパラメータにより形成される第１行列に基づいて第１アノテーションベクトル集合に対して線形変換を行って、第２行列を取得し、第２行列における各行の最大値に基づいて該第１ガイド情報を決定する。

第１ガイドネットワークモデルがサンプル画像のアノテーションベクトル集合に基づいて訓練して取得されてもよい。一実施例において、図３における各モデルを訓練対象のモデルに変換し、次に複数のサンプル画像及び複数のサンプル画像の表現語句に基づいて変換後の画像認識システムを訓練することができ、訓練中、訓練待ちエンコーダは複数のサンプル画像からアノテーションベクトルをそれぞれ抽出して、訓練待ちガイドネットワークモデルに出力して訓練することができ、このように、画像認識システム全体の訓練を完了した後、訓練待ちガイドネットワークモデルを第１ガイドネットワークモデルに訓練することができる。

訓練待ちエンコーダは未訓練のエンコーダであってもよいし、事前訓練後のエンコーダであってもよく、本願の実施例は制限しない。事前訓練後のエンコーダを用いて訓練待ちガイドネットワークモデルに対して訓練することにより、画像認識システム全体の訓練効率を向上させることができ、更にその中の訓練待ちガイドネットワークモデルの訓練効率を向上させる。

第１アノテーションベクトル集合も行列形式であり、第１行列は第１ガイドネットワークモデルのモデルパラメータにより形成される、第１アノテーションベクトル集合に対して線形変換を行うための行列である。具体的に、第１アノテーションベクトル集合に対して線形変換を行って、第２行列を取得するよう、第１アノテーションベクトル集合を第１行列に乗じることができる。

具体的に、第２行列における各行の最大値に基づいて該第１ガイド情報を決定することは、第２行列における各行の最大値を選択し、次に行数が変化しない限り、選択された最大値を１列の行列に構成して、構成された行列を該第１ガイド情報として決定することを含む。

例えば、第１アノテーションベクトル集合が

であり、

が目標画像から抽出された各アノテーションベクトルであり、第１行列がＰ_１であり、第１ガイド情報がνであると仮定する場合、下記の式（１）で第１ガイド情報を決定することができ、

ここで、ｍａｘ関数とは、処理対象の行列の各行に対して最大値を取って、行数が変化せず列数が１である行列を形成することを意味する。

第２実現方式
該第１ガイドネットワークモデルは、いずれの画像のアノテーションベクトル集合及び属性情報に基づいてガイド情報を生成することに用いられる場合、該目標画像をマルチインスタンスモデルの入力とし、該マルチインスタンスモデルによって該目標画像を処理して、該目標画像の属性情報を取得し、該第１ガイドネットワークモデルにおけるモデルパラメータにより形成される第３行列に基づいて該第１アノテーションベクトル集合に対して線形変換を行って、第４行列を取得し、該第４行列及び該目標画像の属性情報に基づき、第５行列を生成し、該第５行列における各行の最大値に基づいて該第１ガイド情報を決定することができる。サンプル画像の属性情報は、予測される、該サンプル画像の表現語句に単語が現れる確率を示すことに用いられる。

該マルチインスタンスモデルは複数のサンプル画像及び該複数のサンプル画像の表現語句によって訓練して取得されたものであって、サンプル画像の属性情報のモデルを出力することができ、つまり、該マルチインスタンスモデルは、画像の表現語句内の現れ得る単語の確率を予測することができる。例示的に、該属性情報がＭＩＬ（Ｍｕｌｔｉ−ｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇ、マルチインスタンス学習）情報等であってもよい。

ここで、該第１ガイドネットワークモデルがサンプル画像のアノテーションベクトル集合及び属性情報によって訓練して取得されてもよい。例えば、図４の各モデルを訓練対象のモデルに変換し、次に複数のサンプル画像及び複数のサンプル画像の表現語句に基づいて変換後の画像認識システムを訓練することができ、訓練中、訓練待ちエンコーダはサンプル画像からアノテーションベクトルを抽出して訓練待ちガイドネットワークモデルに出力することができ、且つ訓練対象のマルチインスタンスモデルは画像を処理して属性情報を取得して、属性情報を訓練待ちガイドネットワークモデルに出力することができ、訓練待ちガイドネットワークモデルはサンプル画像のアノテーションベクトル及び属性情報に基づいて訓練することができ、このように、画像認識システム全体の訓練を完了した後、訓練待ちガイドネットワークモデルを該第１ガイドネットワークモデルに訓練することができる。

訓練待ちエンコーダは未訓練のエンコーダであってもよいし、事前訓練後のエンコーダであってもよく、訓練対象のマルチインスタンスモデルは未訓練のマルチインスタンスモデルであってもよいし、事前訓練後のマルチインスタンスモデルであってもよく、本願の実施例は制限しない。事前訓練後のエンコーダ及び／又は事前訓練後のマルチインスタンスモデルを用いて訓練待ちガイドネットワークモデルに対して訓練することにより、画像認識システム全体の訓練効率を向上させることができ、その中の訓練待ちガイドネットワークモデルの訓練効率を向上させる。

ここで、第１アノテーションベクトル集合も行列形式であり、第３行列は該第１ガイドネットワークモデルのモデルパラメータにより形成される、第１アノテーションベクトル集合に対して線形変換を行うための行列である。具体的に、第１アノテーションベクトル集合に対して線形変換を行って、第４行列を取得するよう、第１アノテーションベクトル集合を第３行列に乗じることができ、次に第４行列及び目標画像の属性情報に基づき、第５行列を生成する。

第５行列における各行の最大値に基づいて第１ガイド情報を決定することは、第５行列における各行の最大値を選択し、次に行数が変化しない限り、選択された最大値を１列の行列に構成して、構成された行列を該第１ガイド情報として決定することを含む。

具体的に、第１アノテーションベクトル集合が

であり、

が目標画像から抽出された各アノテーションベクトルであり、第３行列がＰ_２であり、目標画像の属性情報がｅであり、第１ガイド情報がνであると仮定する場合、下記の式（２）で第１ガイド情報νを決定することができ、

ｍａｘ関数とは、処理対象の行列の各行に対して最大値を取って、行数が変化せず列数が１である行列を構成することを意味する。

以上から、第１ガイドネットワークモデルは学習によって取得されてもよく、つまり、複数のサンプル画像及び複数のサンプル画像の表現語句によって訓練して取得されてもよく、且つ訓練中にガイド情報を自動的に学習することができ、従って、該第１ガイドネットワークモデルによる第１ガイド情報の生成精度がより高く、生成された第１ガイド情報はエンコードのエンコード過程を正確にガイドすることができ、更に目標画像の表現語句の生成品質を向上させることができる。

ステップ１０４において、第１ガイド情報、第１アノテーションベクトル集合及び第１初期入力データに基づき、デコーダによって該目標画像の表現語句を決定する。

本願の実施例において、第１ガイド情報、第１アノテーションベクトル集合及び第１初期入力データに基づき、デコーダによって該目標画像の表現語句を決定することは、下記の２つの実現方式を用いてもよい。

第１実現方式
第１ガイド情報に基づき、デコーダによって第１アノテーションベクトル集合及び第１初期入力データをデコードして、該目標画像の表現語句を取得する。

好ましくは、該デコーダが一般的にＲＮＮモデルを用い、例えばＬＳＴＭネットワークモデルを用いてもよい。

具体的に、第１ガイド情報に基づき、デコーダによって第１アノテーションベクトル集合及び第１初期入力データをデコードして、該目標画像の表現語句を取得することは、下記のステップ１）〜ステップ３）を含んでもよい。

１）該デコーダが第１ＲＮＮモデルを用いる場合、且つ、該第１ＲＮＮモデルがＭ個の第１時系列ステップを実行することに用いられる場合、該第１ＲＮＮモデルで実行される各第１時系列ステップに対して、該第１目標ガイド情報に基づいて該第１時系列ステップの入力データを決定する。

前記Ｍが、該第１ＲＮＮモデルが入力データに対して繰り返し処理を行う回数を指し、該Ｍが正の整数であり、各第１時系列ステップが該第１ＲＮＮモデルの入力データに対する処理ステップである。

第１ガイド情報に基づいて該第１時系列ステップの入力データを決定することは、該第１ガイド情報に基づき、下記の式（３）で該第１時系列ステップの入力データを決定することを含んでもよい。

ｔが該第１時系列ステップであり、ｘ_ｔが該第１時系列ステップの入力データであり、Ｅが単語埋め込み行列であり、且つ、該第１ＲＮＮモデルのモデルパラメータであり、ｙ_ｔが該第１時系列ステップに対応する単語のワンホット（ｏｎｅ−ｈｏｔ）ベクトルであり、該第１時系列ステップに対応する単語が該第１時系列ステップの前の第１時系列ステップの出力データに基づいて決定することによって取得されたものであり、Ｑが第６行列であり、且つ、該第１ＲＮＮモデルのモデルパラメータであり、νが該第１ガイド情報である。

２）該第１時系列ステップの入力データ、該第１アノテーションベクトル集合及び該第１時系列ステップの前の第１時系列ステップの出力データに基づき、該第１時系列ステップの出力データを決定する。

本願の実施例において、該第１ＲＮＮモデルによって該第１時系列ステップの入力データ、該第１アノテーションベクトル集合及び該第１時系列ステップの前の第１時系列ステップの出力データを処理して、該第１時系列ステップの出力データを取得することができる。

該第１時系列ステップの出力データが隠れ状態情報及びメモリセル状態情報を含んでもよい。且つ、該第１時系列ステップが該Ｍ個の第１時系列ステップにおける１番目の第１時系列ステップである場合、該第１時系列ステップの前の第１時系列ステップの出力データが該第１初期入力データに基づいて決定することによって取得されたものである。例えば、該第１初期入力データが第１初期隠れ状態情報ｈ_０及び第１初期メモリセル状態情報ｃ_０を含んで、該第１時系列ステップが１番目の第１時系列ステップである場合、該第１時系列ステップの前の第１時系列ステップの出力データがｈ_０及びｃ_０である。

本願の実施例において、生成された表現語句の品質を向上させるために、用いた第１ＲＮＮモデルがＬＳＴＭネットワークモデルであってもよい。ＬＳＴＭネットワークモデルを例とし、該第１時系列ステップの入力データ、該第１アノテーションベクトル集合及び該第１時系列ステップの前の第１時系列ステップの出力データに基づき、該第１時系列ステップの出力データを決定することは、下記の式（４）と抽象的に示されてもよく、

ｔが該第１時系列ステップであり、ｘｔが該第１時系列ステップの入力データであり、ｈ_ｔ−１が該第１時系列ステップの前の時系列ステップの隠れ状態情報であり、

が第１アノテーションベクトル集合であり、ｈｔが該第１時系列ステップの隠れ状態情報であり、ＬＳＴＭがＬＳＴＭネットワークモデルの処理過程を示す。

具体的に、ＬＳＴＭネットワークモデルの処理過程は下記の式で示されてもよく、

ｉ_ｔ、ｆ_ｔ、ｃ_ｔ及びｏ_ｔがそれぞれ該第１時系列ステップの入力ゲート、忘却ゲート、記憶ゲート及び出力ゲートにおける出力データであり、σがＬＳＴＭネットワークモデルの活性化関数、例えばｓｉｇｍｏｉｄ関数であり、ｔａｎｈ（）が双曲線正接関数であり、Ｔが線形変換用の行列であり、ｘ_ｔが該第１時系列ステップの入力データであり、ｈ_ｔ−１が該第１時系列ステップの前の時系列ステップの隠れ状態情報であり、ｄ_ｔが第１アノテーションベクトル集合に基づいて決定することによって取得された目標データであり、ｃ_ｔが該第１時系列ステップのメモリセル状態情報であり、ｃ_ｔ−１が該第１時系列ステップの前の第１時系列ステップのメモリセル状態情報であり、ｈ_ｔが該第１時系列ステップの隠れ状態情報である。

目標データｄ_ｔが第１アノテーションベクトル集合であってもよいし、コンテクストベクトル（ＣｏｎｔｅｘｔＶｅｃｔｏｒ）であってもよく、該コンテクストベクトルが第１アノテーションベクトル集合及び該第１時系列ステップの前の時系列ステップの隠れ状態情報に基づき、注意モデルによって決定することによって取得されたものである。

注意モデルは前の第１時系列ステップが目標画像のどの領域を注意しているかを決定することに用いられてもよく、つまり、

内の各アノテーションベクトルのために１つの重み値を計算することができ、アノテーションベクトルの重みが大きければ大きいほど、該アノテーションベクトルが注意されていると示される。

可能な実現方式では、該ＬＳＴＭネットワークモデルは注意モデルが設置されるＬＳＴＭネットワークモデルであってもよく、第１アノテーションベクトル集合及び該第１時系列ステップの前の時系列ステップの隠れ状態情報を取得した後、該第１アノテーションベクトル集合及び該第１時系列ステップの前の時系列ステップの隠れ状態情報に基づき、注意モデルによってコンテクストベクトルを決定して、該コンテクストベクトルを該目標データとすることができる。

具体的に、該注意モデルはａ_ｉにおけるいずれのアノテーションベクトルａ_ｉ及びｈ_ｔ−１の類似度ｅ_ｉを計算することができ、次にａ_ｉの注意力の重み

を計算し、その後、各アノテーションベクトルの重みを用いてコンテクストベクトル

を生成することができる。

３）該Ｍ個の第１時系列ステップのすべての出力データに基づき、該目標画像の表現語句を決定する。

具体的に、該Ｍ個の第１時系列ステップにおけるすべての第１時系列ステップの出力データに対して組み合わせ処理を行って、該目標画像の表現語句を取得することができる。実際の応用では、各第１時系列ステップの出力データが一般的に１つの単語であり、次に該Ｍ個の第１時系列ステップの出力したＭ個の単語を組み合わせて、該目標画像の表現語句を取得することができる。

図３に示される目標画像を例とし、該Ｍ個の第１時系列ステップのすべての出力データがそれぞれ「男の子」「に」「女の子」「贈る」「花」である場合、該目標画像の表現語句が「男の子が女の子に花を贈る」である。

更に、目標画像のアノテーションベクトル集合に基づいてガイド情報を正確に生成することができる上記第１ガイドネットワークモデルを取得するために、エンコーダによって目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得する前に、更に、第１訓練待ちエンコーダ、第１訓練待ちガイドネットワークモデル及び第１訓練待ちデコーダを組み合わせて、第１カスケードネットワークモデルを取得し、次に複数のサンプル画像及び該複数のサンプル画像の表現語句に基づき、勾配降下法で該第１カスケードネットワークモデルに対して訓練して、該エンコーダ、該第１ガイドネットワークモデル及び該デコーダを取得することができる。

つまり、まず図３又は図４の接続方式で第１訓練待ちエンコーダ、第１訓練待ちガイドネットワークモデル及び第１訓練待ちデコーダを、画像を処理して画像の表現語句を取得することができる画像認識システムに構築し、次に複数のサンプル画像及び該複数のサンプル画像の表現語句に基づいて該画像認識システムを訓練することができ、画像認識システムの訓練過程において、その中の第１訓練待ちガイドネットワークモデルに対して訓練することができ、第１訓練待ちガイドネットワークモデルが訓練中にガイド情報を適応的に学習できるようにし、それにより生成されたガイド情報がより正確になるように確保する。

第１訓練待ちガイドネットワークモデルの訓練過程において、該第１ガイドネットワークモデルを取得するよう、Ｍｕｌｔｉ−ｌａｂｅｌｍａｒｇｉｎｌｏｓｓ（間隔に基づくマルチラベル損失関数）を該第１訓練待ちガイドネットワークモデルの損失関数として、該損失関数に基づいて確率的勾配降下法で該第１訓練待ちガイドネットワークモデルのモデルパラメータを調整することができる。

実際の訓練では、表記後の訓練セットを用いて訓練することができ、該訓練セットが＜サンプル画像、表現語句＞対の集合、例えばＭＳＣＯＣＯデータセット（よく使用されるデータセット）等である。

第１訓練待ちエンコーダは未訓練のエンコーダであってもよいし、事前訓練後のエンコーダであってもよく、本願の実施例は制限しない。例えば、該第１訓練待ちエンコーダはＩｍａｇｅＮｅｔ（１つのコンピュータ視覚システム認識項目の名称であり、現在世界において画像認識量が最大であるデータベースである）において事前訓練されたＣＮＮモデルを用いてもよく、該ＣＮＮモデルはｉｎｃｅｐｔｉｏｎＶ３モデル（ＣＮＮモデルの１つ）、Ｒｅｓｎｅｔモデル（ＣＮＮモデルの１つ）又はＶＧＧモデル（ＣＮＮモデルの１つ）等であってもよい。

事前訓練後のエンコーダを第１訓練待ちエンコーダとして第１ガイドネットワークモデルに対して訓練することにより、第１カスケードネットワークモデル全体の訓練効率を向上させることができ、更にその中の第１ガイドネットワークモデルの訓練効率を向上させる。

説明すべきなのは、本願の実施例において、目標画像を認識して目標画像の表現語句を取得する過程、及びガイドネットワークモデルに対して訓練する過程は同じ端末において実行されてもよいし、異なる端末において実行されてもよく、本願の実施例は制限しない。

第２実現方式
第１ガイド情報、第１アノテーションベクトル集合及び第１初期入力データに基づき、レビューアーによって第２アノテーションベクトル集合及び第２初期入力データを決定し、該第２アノテーションベクトル集合に基づき、第２ガイドネットワークモデルによって第２ガイド情報を生成し、該第２ガイド情報に基づき、該エンコーダによって該第２アノテーションベクトル集合及び該第２初期入力データをエンコードして、該目標画像の表現語句を取得する。

説明すべきなのは、該第２実現方式は下記図８の実施例において詳しく説明し、本願の実施例では詳細な説明は省略する。

本願の実施例において、エンコーダとデコーダとの間にガイドネットワークモデルを追加し、画像からアノテーションベクトル集合を抽出した後、該アノテーションベクトル集合に基づいて該ガイドネットワークモデルによってガイド情報を生成することができ、該ガイドネットワークモデルがサンプル画像のアノテーションベクトル集合によって訓練して取得されたものであるため、訓練中にどのように画像のアノテーションベクトル集合に基づいてガイド情報を正確に生成するかを適応的に学習することができ、従って、該ガイドネットワークモデルにより生成されたガイド情報の精度がより高く、画像のエンコード過程を正確にガイドすることができ、それにより表現語句の生成品質を向上させる。

次に、上記図５及び図６に示される画像認識システムの構造模式図を参照しながら、本願の実施例に係る画像認識方法を詳しく説明する。図８は本願の実施例に係る他の画像認識方法のフローチャートであり、該方法は端末に適用される。図８に示すように、該方法は下記を含む。

ステップ２０１において、エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得する。

ステップ２０２において、特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得する。

ステップ２０３において、第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成する。

ステップ２０１〜ステップ２０３の具体的な実現方式は上記ステップ１０１〜ステップ１０３の関連説明を参照してもよく、本願の実施例では詳細な説明は省略する。

ステップ２０４において、第１ガイド情報、第１アノテーションベクトル集合及び第１初期入力データに基づき、レビューアーによって第２アノテーションベクトル集合及び第２初期入力データを決定する。

本願の実施例において、デコーダ及びレビューアーが一般的にＲＮＮモデルを用いるが、当然ながら、他のモデルを用いてもよく、本願の実施例は制限しない。

デコーダの性能を向上させ、更に表現語句の生成品質を向上させるよう、レビューアーはエンコーダが画像から抽出されたグローバル特徴と局所特徴との相互関係を更に引き出して、グローバル特徴と局所特徴との相互関係に基づいてデコーダのために初期入力データ、すなわち第２初期入力データを生成することに用いられる。

第１初期入力データはレビューアーに入力すべき入力データを指し、該レビューアーの初期状態を示すことに用いられ、具体的に第１初期隠れ状態情報及び第１初期メモリセル状態情報を含んでもよく、第１初期隠れ状態情報はレビューアーの隠れ層の初期状態を示すことに用いられ、第１初期メモリセル状態情報はレビューアーのメモリセルの初期状態を示すことに用いられる。

第２初期入力データはデコーダに入力すべき入力データを指し、該デコーダの初期状態を示すことに用いられ、具体的に第２初期隠れ状態情報及び第２初期メモリセル状態情報を含んでもよく、第２初期隠れ状態情報はデコーダの隠れ層の初期状態を示すことに用いられ、第２初期メモリセル状態情報はデコーダのメモリセルの初期状態を示すことに用いられる。

具体的に、該第１ガイド情報、該第１アノテーションベクトル集合及び該第１初期入力データに基づき、レビューアーによって第２アノテーションベクトル集合及び第２初期入力データを決定することは、下記のステップ１）〜ステップ３）を含んでもよい。

１）該第１レビューアーが第２ＲＮＮモデルを用いる場合、且つ、該第２ＲＮＮモデルがＮ個の第２時系列ステップを実行することに用いられる場合、該第２ＲＮＮモデルで実行される各第２時系列ステップに対して、該第１目標ガイド情報に基づいて該第２時系列ステップの入力データを決定する。

該Ｎが、該第２ＲＮＮモデルが入力データに対して繰り返し処理を行う回数を指し、該Ｎが正の整数であり、各第２時系列ステップが該第２ＲＮＮモデルの入力データに対する処理ステップである。

具体的に、該第２ガイド情報に基づき、下記の式（６）で該第２時系列ステップの入力データを決定することができ、

ｔが該第２時系列ステップであり、ｘ′_ｔが該第２時系列ステップの入力データであり、Ｅ′が単語埋め込み行列であり、且つ、該第２ＲＮＮモデルのモデルパラメータであり、Ｑ′が第７行列であり、且つ、該第２ＲＮＮモデルのモデルパラメータであり、ν′が該第２ガイド情報である。

２）該第２時系列ステップの入力データ、該第１アノテーションベクトル集合及び該第２時系列ステップの前の第２時系列ステップの出力データに基づき、該第２時系列ステップの出力データを決定する。

該第２時系列ステップの出力データが隠れ状態情報及びメモリセル状態情報を含んでもよく、該第該第１ガイド情報に基づき、下記の式で該第１時系列ステップの入力データを決定することに用いられ、
時系列ステップが該Ｎ個の第２時系列ステップにおける１番目の第２時系列ステップである場合、該第２時系列ステップの前の第２時系列ステップの出力データが該第１初期入力データに基づいて決定することによって取得されたものである。

本願の実施例において、該第２ＲＮＮモデルによって該第２時系列ステップの入力データ、該第２アノテーションベクトル集合及び該第２時系列ステップの前の第２時系列ステップの出力データを処理して、該第２時系列ステップの出力データを取得することができる。

具体的に、該第１時系列ステップの入力データ、該第１アノテーションベクトル集合及び該第１時系列ステップの前の第１時系列ステップの出力データに基づき、該第１時系列ステップの出力データを決定する上記方法を用いて、該第２時系列ステップの入力データ、該第１アノテーションベクトル集合及び該第２時系列ステップの前の第２時系列ステップの出力データに基づき、該第２時系列ステップの出力データを決定することができ、具体的な実現方式は上記関連説明を参照してもよく、ここで詳細な説明は省略する。

３）該Ｎ個の第２時系列ステップにおける最後の第２時系列ステップの出力データに基づき、該第２初期入力データを決定する。

具体的に、最後の第２時系列ステップの出力データを該第２初期入力データとして決定することができ、例えば、最後の第２時系列ステップの隠れ状態情報及びメモリセル状態情報を該第２初期入力データとして決定し、つまり、該目標エンコーダの初期隠れ状態情報及び初期メモリセル状態情報として決定することができる。

４）該Ｎ個の第２時系列ステップのすべての出力データに基づき、該第２アノテーションベクトル集合を決定する。

具体的に、該Ｎ個の第２時系列ステップにおけるすべての時系列ステップの隠れ状態情報の集合を該第２アノテーションベクトル集合として決定することができる。

ステップ２０５、該第２アノテーションベクトル集合に基づき、第２目標ガイドネットワークモデルによって第２ガイド情報を生成し、該第２ガイドネットワークモデルは、アノテーションベクトル集合に基づいてガイド情報を生成することに用いられる。

具体的に、図７の実施例におけるステップ１０３に記載の第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成する上記方法を用いて、第２アノテーションベクトル集合に基づき、第２ガイドネットワークモデルによって第２ガイド情報を生成することができる。具体的な実現方式は上記ステップ１０３の関連説明を参照してもよく、ここで詳細な説明は省略する。

第２ガイドネットワークモデルは第１ガイドネットワークモデルとともにサンプル画像によって訓練して取得されてもよく、訓練中にガイド情報を自動的に学習することができ、従って、該第１ガイドネットワークモデル及び第２ガイドネットワークモデルにより生成されたガイド情報の精度がより高く、生成されたガイド情報はエンコードのエンコード過程を正確にガイドすることができ、更に目標画像の表現語句の生成品質を向上させることができる。

ステップ２０６、該第２ガイド情報に基づき、該エンコーダによって該第２アノテーションベクトル集合及び該第２初期入力データをエンコードして、該目標画像の表現語句を取得する。

具体的に、図７の実施例におけるステップ１０４に記載の第１ガイド情報に基づき、デコーダによって第１アノテーションベクトル集合及び第１初期入力データをデコードして、該目標画像の表現語句を取得する上記方法を用いて、該第２ガイド情報に基づき、該エンコーダによって該第２アノテーションベクトル集合及び該第２初期入力データをエンコードして、該目標画像の表現語句を取得することができる。具体的な実現方式は上記ステップ１０４における第１実現方式の関連説明を参照してもよく、ここで詳細な説明は省略する。

更に、目標画像の第１アノテーションベクトル集合に基づいて第１ガイド情報を正確に生成することができる上記第１ガイドネットワークモデル、及び第２アノテーションベクトル集合に基づいて第２ガイド情報を正確に生成することができる上記第２ガイドネットワークモデルを取得するために、エンコーダによって目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得する前に、更に、第２訓練待ちエンコーダ、第２訓練待ちガイドネットワークモデル、訓練待ちレビューアー、第３訓練待ちガイドネットワークモデル及び第２訓練待ちデコーダを組み合わせて、第２カスケードネットワークモデルを取得し、次に複数のサンプル画像及び該複数のサンプル画像の表現語句に基づき、勾配降下法で該第２カスケードネットワークモデルに対して訓練して、該エンコーダ、該第１ガイドネットワークモデル、該レビューアー、該第２ガイドネットワークモデル及び該デコーダを取得することができる。

つまり、まず図５の接続方式で第２訓練待ちエンコーダ、第２訓練待ちガイドネットワークモデル、訓練待ちレビューアー、第３訓練待ちガイドネットワークモデル及び第２訓練待ちデコーダを、画像を処理して画像の表現語句を取得することができる画像認識システムに構築し、次に複数のサンプル画像及び該複数のサンプル画像の表現語句に基づいて該画像認識システムを訓練することができ、画像認識システムの訓練過程において、その中の第２訓練待ちガイドネットワークモデル及び第３訓練待ちガイドネットワークモデルに対して訓練することができ、第２訓練待ちガイドネットワークモデル及び第３訓練待ちガイドネットワークモデルが訓練中にガイド情報を適応的に学習できるようにし、それにより生成されたガイド情報がより正確になるように確保する。

第２訓練待ちエンコーダは未訓練のエンコーダであってもよいし、事前訓練後のエンコーダであってもよく、訓練レビューアーは未訓練のレビューアーであってもよいし、事前訓練後のレビューアーであってもよく、本願の実施例は制限しない。

説明すべきなのは、事前訓練後のエンコーダを第２訓練待ちエンコーダとし、又は事前訓練後のレビューアーを訓練待ちレビューアーとして第１ガイドネットワークモデル及び第２ガイドネットワークモデルに対して訓練することにより、第２カスケードネットワークモデル全体の訓練効率を向上させることができ、更にその中の第１ガイドネットワークモデル及び第２ガイドネットワークモデルの訓練効率を向上させる。

更に説明すべきなのは、本願の実施例において、目標画像を認識して目標画像の表現語句を取得する過程、及びガイドネットワークモデルに対して訓練する過程は同じ端末において実行されてもよいし、異なる端末において実行されてもよく、本願の実施例は制限しない。

本願の実施例において、エンコーダとデコーダとの間にガイドネットワークモデルを追加し、画像からアノテーションベクトル集合を抽出した後、該アノテーションベクトル集合に基づいて該ガイドネットワークモデルによってガイド情報を生成することができ、該ガイドネットワークモデルがサンプル画像によって訓練して取得されたものであるため、訓練中にガイド情報を適応的に学習することができ、従って、該ガイドネットワークモデルにより生成されたガイド情報の精度がより高く、画像のエンコード過程を正確にガイドすることができ、それにより表現語句の生成品質を向上させる。

更に、エンコーダとデコーダとの間にレビューアーを追加することにより、レビューアーによって目標画像の局所特徴とグローバル特徴との相互関係を更に引き出すことができ、生成された第２アノテーションベクトル集合及び第２初期入力データに目標画像の特徴をより正確に示させ、画像認識システムのシステム性能を更に向上させ、更に表現語句の生成品質を向上させる。

図９は本願の実施例に係る画像認識装置の構造模式図であり、該装置が端末であってもよい。図９に示すように、該装置は、
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得するための抽出モジュール３０１と、
該特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得するための処理モジュール３０２と、
該第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成することに用いられ、該第１ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられる生成モジュール３０３と、
該第１ガイド情報、該第１アノテーションベクトル集合及び該第１初期入力データに基づき、デコーダによって該目標画像の表現語句を決定するための決定モジュール３０４と、を備える。

好ましくは、図１０に示すように、該生成モジュール３０３は、
該第１ガイドネットワークモデルにおけるモデルパラメータにより形成される第１行列に基づいて該第１アノテーションベクトル集合に対して線形変換を行って、第２行列を取得するための第１線形変換ユニット３０３１と、
該第２行列における各行の最大値に基づいて該第１ガイド情報を決定するための第１決定ユニット３０３２と、を備える。

好ましくは、図１１に示すように、該第１ガイドネットワークモデルはいずれの画像のアノテーションベクトル集合及び属性情報に基づいてガイド情報を生成することに用いられ、該属性情報は、予測される、該画像の表現語句に単語が現れる確率を示すことに用いられ、
該生成モジュール３０３は、
該目標画像をマルチインスタンスモデルの入力とし、該マルチインスタンスモデルによって該目標画像を処理して、該目標画像の属性情報を取得するための処理ユニット３０３３と、
該第２ガイドネットワークモデルにおけるモデルパラメータにより形成される第３行列に基づいて該第１アノテーションベクトル集合に対して線形変換を行って、第４行列を取得するための第２線形変換ユニット３０３４と、
該第４行列及び該目標画像の属性情報に基づき、第５行列を生成するための第１生成ユニット３０３５と、
該第５行列における各行の最大値に基づいて該第１ガイド情報を決定するための第２決定ユニット３０３６と、を備える。

好ましくは、該決定モデル３０４は、
該第１ガイド情報に基づき、該デコーダによって該第１アノテーションベクトル集合及び該第１初期入力データをデコードして、該目標画像の表現語句を取得することに用いられる。

好ましくは、図１２に示すように、該決定モデル３０４は、
該デコーダが第１リカレントニューラルネットワーク（ＲＮＮ）モデルを用いる場合、且つ、該第１ＲＮＮモデルがＭ個の第１時系列ステップを実行することに用いられる場合、該第１ＲＮＮモデルで実行される各第１時系列ステップに対して、該第１ガイド情報に基づいて該第１時系列ステップの入力データを決定することに用いられ、
該Ｍが、該第１ＲＮＮモデルが入力データに対して繰り返し処理を行う回数を指し、該Ｍが正の整数であり、各第１時系列ステップが該第１ＲＮＮモデルの入力データに対する処理ステップである第３決定ユニット３０４１と、
該第１時系列ステップの入力データ、該第１アノテーションベクトル集合及び該第１時系列ステップの前の第１時系列ステップの出力データに基づき、該第１時系列ステップの出力データを決定することに用いられ、
該第１時系列ステップが該Ｍ個の第１時系列ステップにおける１番目の第１時系列ステップである場合、該第１時系列ステップの前の第１時系列ステップの出力データが該第１初期入力データに基づいて決定することによって取得されたものである第４決定ユニット３０４２と、
該Ｍ個の第１時系列ステップのすべての出力データに基づき、該目標画像の表現語句を決定するための第５決定ユニット３０４３と、を備える。

好ましくは、該第３決定ユニット３０４１は、
該第１ガイド情報に基づき、下記の式で該第１時系列ステップの入力データを決定することに用いられ、

好ましくは、図１３に示すように、該装置は、更に、
第１訓練待ちエンコーダ、第１訓練待ちガイドネットワークモデル及び第１訓練待ちデコーダを組み合わせて、第１カスケードネットワークモデルを取得するための第１組み合わせモジュール３０５と、
複数のサンプル画像及び該複数のサンプル画像の表現語句に基づき、勾配降下法で該第１カスケードネットワークモデルに対して訓練して、該エンコーダ、該第１ガイドネットワークモデル及び該デコーダを取得するための第１訓練モジュール３０６と、を備える。

好ましくは、図１４に示すように、該決定モデル３０４は、
該第１ガイド情報、該第１アノテーションベクトル集合及び該第１初期入力データに基づき、レビューアーによって第２アノテーションベクトル集合及び第２初期入力データを決定するための第６決定ユニット３０４４と、
該第２アノテーションベクトル集合に基づき、第２ガイドネットワークモデルによって第２ガイド情報を生成することに用いられ、該第２ガイドネットワークモデルがサンプル画像によって訓練して取得されたものである第２生成ユニット３０４５と、
該第２ガイド情報に基づき、該エンコーダによって該第２アノテーションベクトル集合及び該第２初期入力データをエンコードして、該目標画像の表現語句を取得するためのエンコードユニット３０４６と、を備える。

好ましくは、該第６決定ユニット３０４４は、
該第１レビューアーが第２ＲＮＮモデルを用いる場合、且つ、該第２ＲＮＮモデルがＮ個の第２時系列ステップを実行することに用いられる場合、該第２ＲＮＮモデルで実行される各第２時系列ステップに対して、該第１目標ガイド情報に基づいて該第２時系列ステップの入力データを決定し、
該Ｎが、該第２ＲＮＮモデルが入力データに対して繰り返し処理を行う回数を指し、該Ｎが正の整数であり、各第２時系列ステップが該第２ＲＮＮモデルの入力データに対する処理ステップであり、
該第２時系列ステップの入力データ、該第１アノテーションベクトル集合及び該第２時系列ステップの前の第２時系列ステップの出力データに基づき、該第２時系列ステップの出力データを決定し、
該第２時系列ステップが該Ｎ個の第２時系列ステップにおける１番目の第２時系列ステップである場合、該第２時系列ステップの前の第２時系列ステップの出力データが該第１初期入力データに基づいて決定することによって取得されたものであり、
該Ｎ個の第２時系列ステップにおける最後の第２時系列ステップの出力データに基づき、該第２初期入力データを決定し、
該Ｎ個の第２時系列ステップのすべての出力データに基づき、該第２アノテーションベクトル集合を決定することに用いられる。

好ましくは、図１５に示すように、該装置は、更に、
第２訓練待ちエンコーダ、第２訓練待ちガイドネットワークモデル、訓練待ちレビューアー、第３訓練待ちガイドネットワークモデル及び第２訓練待ちデコーダを組み合わせて、第２カスケードネットワークモデルを取得するための第２組み合わせモジュール３０７と、
複数のサンプル画像及び該複数のサンプル画像の表現語句に基づき、勾配降下法で該第２カスケードネットワークモデルに対して訓練して、該エンコーダ、該第１ガイドネットワークモデル、該レビューアー、該第２ガイドネットワークモデル及び該デコーダを取得するための第２訓練モジュール３０８と、を備える。

説明すべきなのは、上記実施例に係る画像認識装置が画像認識を行うとき、上記各機能モジュールの分割のみを例として説明したが、実際の応用では、必要に応じて上記機能を異なる機能モジュールで完了するように分配し、つまり、以上に説明される機能の全部又は一部を完了するよう、装置の内部構造を異なる機能モジュールに分割することができる。また、上記実施例に係る画像認識装置及び画像認識方法の実施例は同じ構想に属し、その具体的な実現過程が方法実施例を参照してもよく、ここで詳細な説明は省略する。

図１６は本願の実施例に係る端末４００の構造模式図である。図１６に示すように、端末４００は通信ユニット４１０、１つ又は１つ以上のコンピュータ可読記憶媒体を含むメモリ４２０、入力ユニット４３０、表示ユニット４４０、センサ４５０、オーディオ回路４６０、ＷＩＦＩ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ、ワイヤレスフィデリティ）モジュール４７０、１つ又は１つ以上の処理コアを含むプロセッサ４８０、及び電源４９０等の部材を備えてもよい。当業者であれば、図１６に示される端末の構造が端末を制限するためのものではなく、図示より多く又は少ない部材を備え、又はいくつかの部材を組み合わせ、又は異なる部材を配置してもよいと理解される。

通信ユニット４１０は情報を送受信し、又は通話中に信号を受信及び送信することに用いられてもよく、該通信ユニット４１０はＲＦ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、無線周波数）回路、ルータ、モデム等のネットワーク通信装置であってもよい。特に、通信ユニット４１０がＲＦ回路である場合、基地局のダウンリンク情報を受信した後、１つ又は１つ以上のプロセッサ４８０に送って処理し、また、アップリンクに関わるデータを基地局に送信する。一般的に、通信ユニットとしてのＲＦ回路はアンテナ、少なくとも１つの増幅器、チューナー、１つ又は複数の発振器、加入者識別モジュール（ＳＩＭ）カード、送受信機、結合器、ＬＮＡ（ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ、低雑音増幅器）、デュプレクサ等を含むが、それらに限らない。なお、通信ユニット４１０は更に無線通信及びネットワーク経由で他の装置と通信することができる。前記無線通信はいずれの通信規格又はプロトコルを用いてもよく、前記通信規格又はプロトコルはＧＳＭ（登録商標）（ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ、モバイル通信用グローバルシステム）、ＧＰＲＳ（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ、汎用パケット無線サービス）、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、符号分割多元接続）、ＷＣＤＭＡ（登録商標）（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、広帯域符号分割多元接続）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ、ロングタームエボリューション）、電子メール、ＳＭＳ（ＳｈｏｒｔＭｅｓｓａｇｉｎｇＳｅｒｖｉｃｅ、ショートメッセージサービス）等を含むが、それらに限らない。メモリ４２０がソフトウェアプログラム及びモジュールを記憶することに用いられてもよく、プロセッサ４８０がメモリ４２０に記憶されるソフトウェアプログラム及びモジュールを実行することにより、様々な機能アプリケーション及びデータ処理を実行する。メモリ４２０は主に記憶プログラム領域及び記憶データ領域を備えてもよく、記憶プログラム領域はオペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラム（例えば、音声再生機能、画像再生機能等）等を記憶することができ、記憶データ領域は端末４００の使用に応じて新規作成されたデータ（例えば、オーディオデータ、電話帳等）等を記憶することができる。なお、メモリ４２０は高速ランダムアクセスメモリを含んでもよく、更に不揮発性メモリ、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュメモリデバイス又は他の揮発性固体記憶装置を含んでもよい。それに対応して、プロセッサ４８０及び入力ユニット４３０のメモリ４２０へのアクセスを実現するよう、メモリ４２０は更にメモリコントローラを備えてもよい。

入力ユニット４３０は入力された数字又は文字情報を受信し、ユーザー設定及び機能制御に関連するキーボード、マウス、操作レバー、光学又はトラックボール信号の入力を発生させることに用いられてもよい。好ましくは、入力ユニット４３０はタッチ操作面４３１及び他の入力装置４３２を備えてもよい。タッチ操作面４３１は更にタッチディスプレイ又はタッチパッドと称され、ユーザーのその上又は近傍のタッチ操作（例えば、ユーザーが指、スタイラス等の任意の適切な物体又は付属品でタッチ操作面４３１上又はタッチ操作面４３１近傍に行った操作）を収集して、予め設定されたプログラムに基づいて対応する接続装置を駆動することができる。好ましくは、タッチ操作面４３１はタッチ検出装置及びタッチコントローラの２つの部分を備えてもよい。タッチ検出装置はユーザーのタッチ位置を検出して、タッチ操作による信号を検出し、信号をタッチコントローラに渡し、タッチコントローラはタッチ検出装置からタッチ情報を受信して、それを接点座標に変換し、更にプロセッサ４８０に送信して、プロセッサ４８０から送信された命令を受信して実行することができる。なお、抵抗式、静電容量式、赤外線及び表面音波等の様々なタイプでタッチ操作面４３１を実現することができる。タッチ操作面４３１を除き、入力ユニット４３０は更に他の入力装置４３２を備えてもよい。好ましくは、他の入力装置４３２は物理キーボード、機能キー（例えば、音量制御ボタン、切り替えボタン等）、トラックボール、マウス、操作レバー等における１つ又は複数を含むが、それらに限らない。

表示ユニット４４０はユーザーの入力した情報又はユーザーに提供した情報及び端末４００の様々なグラフィカルユーザーインターフェースを表示することに用いられてもよく、これらのグラフィカルユーザーインターフェースが図形、テキスト、アイコン、ビデオ及びその任意の組み合わせで構成されてもよい。表示ユニット４４０は表示パネル４４１を備えてもよく、好ましくは、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、液晶ディスプレイ）、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔ−ＥｍｉｔｔｉｎｇＤｉｏｄｅ、有機発光ダイオード）等の形式で表示パネル４４１を配置することができる。更に、タッチ操作面４３１は表示パネル４４１を覆うことができ、タッチ操作面４３１はその上又は近傍のタッチ操作を検出した後、タッチイベントのタイプを決定するよう、プロセッサ４８０に伝送し、その後、プロセッサ４８０はタッチイベントのタイプに基づいて表示パネル４４１に対応する視覚出力を提供する。図１６では、タッチ操作面４３１及び表示パネル４４１が２つの独立した部材として入力及び入力機能を実現するが、いくつかの実施例において、タッチ操作面４３１及び表示パネル４４１を統合して入力及び出力機能を実現することができる。

端末４００は更に少なくとも１つのセンサ４５０、例えば光センサ、運動センサ及び他のセンサを備えてもよい。光センサは環境光センサ及び近接センサを含んでもよく、環境光センサは環境光の輝度に基づいて表示パネル４４１の輝度を調整することができ、近接センサは端末４００が耳元に移動するとき、表示パネル４４１及び／又はバックライトを閉じることができる。運動センサの１つとして、重力加速度センサは各方向における（一般的に三軸）加速度の大きさを検出することができ、静止時、重力の大きさ及び方向を検出することができ、携帯電話姿勢を認識するアプリケーション（例えば、横画面と縦画面の切り替え、関連ゲーム、磁力計姿勢の補正）、振動認識関連機能（例えば、万歩計（登録商標）、ハンマリング）等に用いられてもよく、端末４００に更に配置できるジャイロスコープ、気圧計、湿度計、温度計、赤外線センサ等の他のセンサは省略する。

オーディオ回路４６０、拡声器４６１、マイクロホン４６２はユーザーと端末４００とのオーディオインターフェースを提供することができる。オーディオ回路４６０は受信されたオーディオデータを変換した電気信号を拡声器４６１に伝送し、拡声器４６１によって音声信号に変換して出力することができる一方、マイクロホン４６２は収集された音声信号を電気信号に変換し、オーディオ回路４６０によって受信してからオーディオデータに変換し、更にオーディオデータをプロセッサ４８０に出力して処理した後、通信ユニット４１０によって例えば他の端末に送信し、又は、更なる処理を行うよう、オーディオデータをメモリ４２０に出力する。外部イヤホンと端末４００との通信を実現するよう、オーディオ回路４６０は更にイヤホンジャックを備えてもよい。

無線通信を実現するために、該端末に無線通信ユニット４７０が配置されてもよく、該無線通信ユニット４７０がＷＩＦＩモジュールであってもよい。ＷＩＦＩは近距離無線伝送技術に属し、端末４００は無線通信ユニット４７０によってユーザーが電子メールを送受信し、ホームページをブラウジングし及びストリーミングメディア等にアクセスすることに役立ち、ユーザーに無線のブロードバンドインターネットアクセスを提供する。図面に無線通信ユニット４７０を示すが、それが端末４００の不可欠な構造ではなく、必要に応じて発明の本質を変えない範囲内に省略してもよいと理解される。

プロセッサ４８０は端末４００のコントロールセンターであり、様々なインターフェース及び回路を利用して携帯電話全体の各部分に接続され、メモリ４２０に記憶されるソフトウェアプログラム及び／又はモジュールを動作又は実行し、メモリ４２０に記憶されるデータを呼び出すことにより、端末４００の様々な機能及び処理データを実行し、それにより携帯電話全体を監視する。好ましくは、プロセッサ４８０は１つ又は複数の処理コアを備えてもよく、好ましくは、プロセッサ４８０はアプリケーションプロセッサ及びモデムプロセッサを統合することができ、アプリケーションプロセッサは主にオペレーティングシステム、ユーザーインターフェース及びアプリケーションプログラム等を処理し、モデムプロセッサは主に無線通信を処理する。上記モデムプロセッサは更にプロセッサ４８０に統合されなくてもよいと理解される。

端末４００は更に各部材に給電する電源４９０（例えば、電池）を備え、好ましくは、電源は電源管理システムによってプロセッサ４８０に論理的に接続されてもよく、それにより電源管理システムによって充電、放電管理及び電力消費管理等の機能を実現する。電源４６０は更に１つ又は１つ以上の直流又は交流電源、再充電システム、電源故障検出回路、電源タップ又はインバータ、電源状態インジケータ等の任意のコンポーネントを備えてもよい。

図示しないが、端末４００は更にＷｅｂカメラ、ブルートゥース（登録商標）モジュール等を備えてもよく、ここで詳細な説明は省略する。

本実施例において、端末はプロセッサ及びメモリを備え、メモリに更に少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、上記図７又は図８の実施例に記載の画像認識方法を実現するように実行される。

他の実施例は更にコンピュータ可読記憶媒体を提供し、前記記憶媒体に少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、前記命令、前記プログラム、前記コードセット又は前記命令セットは、プロセッサによりロードされ、上記図７又は図８の実施例に記載の画像認識方法を実現するように実行される。

当業者であれば、上記実施例の全部又は一部のステップの実現はハードウェアにより完了してもよいし、プログラムによって関連するハードウェアを命令することで完了してもよく、前記プログラムがコンピュータ可読記憶媒体に記憶されてもよく、上記言及した記憶媒体が読み出し専用メモリ、磁気ディスク又は光ディスク等であってもよいと理解される。

以上の説明は本願の実施例の好適な実施例であって、本願の実施例を制限するためのものではなく、本願の実施例の趣旨及び原則内に行ったいかなる修正、等価置換、改良等は、いずれも本願の実施例の保護範囲内に含まれるべきである。

10 エンコーダ
20 第１ガイドネットワークモデル
30 デコーダ
40 マルチインスタンスモデル
50 レビューアー
60 第２ガイドネットワークモデル
301 抽出モジュール
302 処理モジュール
303 生成モジュール
304 確定モジュール
305 第１組み合わせモジュール
306 第１訓練モジュール
307 第２組み合わせモジュール
308 第２訓練モジュール
410 通信ユニット
420 メモリ
430 入力ユニット
431 タッチ操作面
432 他の入力装置
440 表示ユニット
441 表示パネル
450 センサ
460 オーディオ回路
470 無線通信ユニット
480 プロセッサ
490 電源
3033 処理ユニット
3034 第２線形変換ユニット
3035 第１生成ユニット
3036 第２確定ユニット
3041 第３確定ユニット
3042 第４確定ユニット
3043 第５確定ユニット
3044 第６確定ユニット
3045 第２生成ユニット
3046 エンコードユニット

Claims

端末により実行される画像認識方法であって、
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得することと、
前記特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得することと、
前記第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成し、前記第１ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられることと、
前記第１ガイド情報、前記第１アノテーションベクトル集合及び前記第１初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定することと、を含むことを特徴とする、前記画像認識方法。
前記第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成することは、
前記第１ガイドネットワークモデルにおけるモデルパラメータにより形成される第１行列に基づき、前記第１アノテーションベクトル集合に対して線形変換を行って、第２行列を取得することと、
前記第２行列における各行の最大値に基づいて前記第１ガイド情報を決定することと、を含むことを特徴とする
請求項１に記載の方法。
前記第１ガイドネットワークモデルは、いずれの画像のアノテーションベクトル集合及び属性情報に基づいてガイド情報を生成することに用いられ、前記属性情報は、予測される、前記画像の表現語句に単語が現れる確率を示すことに用いられ、
前記第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成することは、
前記目標画像をマルチインスタンスモデルの入力とし、前記マルチインスタンスモデルによって前記目標画像を処理して、前記目標画像の属性情報を取得することと、
前記第１ガイドネットワークモデルにおけるモデルパラメータにより形成される第３行列に基づき、前記第１アノテーションベクトル集合に対して線形変換を行って、第４行列を取得することと、
前記第４行列及び前記目標画像の属性情報に基づき、第５行列を生成することと、
前記第５行列における各行の最大値に基づいて前記第１ガイド情報を決定することと、を含むことを特徴とする
請求項１に記載の方法。
前記第１ガイド情報、前記第１アノテーションベクトル集合及び前記第１初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定することは、
前記第１ガイド情報に基づき、前記デコーダによって前記第１アノテーションベクトル集合及び前記第１初期入力データをデコードして、前記目標画像の表現語句を取得することを含むことを特徴とする
請求項１に記載の方法。
前記第１ガイド情報に基づき、前記デコーダによって前記第１アノテーションベクトル集合及び前記第１初期入力データをデコードして、前記目標画像の表現語句を取得することは、
前記デコーダが第１リカレントニューラルネットワーク（ＲＮＮ）モデルを用いる場合、且つ、前記第１ＲＮＮモデルがＭ個の第１時系列ステップを実行することに用いられる場合、前記第１ＲＮＮモデルで実行される各第１時系列ステップに対して、前記第１ガイド情報に基づいて前記第１時系列ステップの入力データを決定し、
前記Ｍが、前記第１ＲＮＮモデルが入力データに対して繰り返し処理を行う回数を指し、前記Ｍが正の整数であり、各第１時系列ステップが前記第１ＲＮＮモデルの入力データに対する処理ステップであることと、
前記第１時系列ステップの入力データ、前記第１アノテーションベクトル集合及び前記第１時系列ステップの前の第１時系列ステップの出力データに基づき、前記第１時系列ステップの出力データを決定し、
前記第１時系列ステップが前記Ｍ個の第１時系列ステップにおける１番目の第１時系列ステップである場合、前記第１時系列ステップの前の第１時系列ステップの出力データが前記第１初期入力データに基づいて決定することによって取得されたものであることと、
前記Ｍ個の第１時系列ステップのすべての出力データに基づき、前記目標画像の表現語句を決定することと、を含むことを特徴とする
請求項４に記載の方法。
前記第１ガイド情報に基づいて前記第１時系列ステップの入力データを決定することは、
前記第１ガイド情報に基づき、

式で前記第１時系列ステップの入力データを決定し、
ｔが前記第１時系列ステップであり、ｘ_ｔが前記第１時系列ステップの入力データであり、Ｅが単語埋め込み行列であり、且つ、前記第１ＲＮＮモデルのモデルパラメータであり、ｙ_ｔが前記第１時系列ステップに対応する単語のワンホット（ｏｎｅ−ｈｏｔ）ベクトルであり、前記第１時系列ステップに対応する単語は、前記第１時系列ステップの前の第１時系列ステップの出力データに基づいて決定することによって取得されたものであり、Ｑが第６行列であり、且つ、前記第１ＲＮＮモデルのモデルパラメータであり、νが前記第１ガイド情報であることを含むことを特徴とする
請求項５に記載の方法。
エンコーダによって目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得する前に、更に、
第１訓練待ちエンコーダ、第１訓練待ちガイドネットワークモデル及び第１訓練待ちデコーダを組み合わせて、第１カスケードネットワークモデルを取得することと、
複数のサンプル画像及び前記複数のサンプル画像の表現語句に基づき、勾配降下法で前記第１カスケードネットワークモデルに対して訓練して、前記エンコーダ、前記第１ガイドネットワークモデル及び前記デコーダを取得することと、を含むことを特徴とする
請求項１〜６のいずれか１項に記載の方法。
前記第１ガイド情報、前記第１アノテーションベクトル集合及び前記第１初期入力データに基づき、前記デコーダによって前記目標画像の表現語句を決定することは、
前記第１ガイド情報、前記第１アノテーションベクトル集合及び前記第１初期入力データに基づき、レビューアーによって第２アノテーションベクトル集合及び第２初期入力データを決定することと、
前記第２アノテーションベクトル集合に基づき、第２ガイドネットワークモデルによって第２ガイド情報を生成し、前記第２ガイドネットワークモデルは、アノテーションベクトル集合に基づいてガイド情報を生成することに用いられることと、
前記第２ガイド情報に基づき、前記エンコーダによって前記第２アノテーションベクトル集合及び前記第２初期入力データをエンコードして、前記目標画像の表現語句を取得することと、を含むことを特徴とする
請求項１に記載の方法。
前記第１ガイド情報、前記第１アノテーションベクトル集合及び前記第１初期入力データに基づき、レビューアーによって第２アノテーションベクトル集合及び第２初期入力データを決定することは、
第１レビューアーが第２ＲＮＮモデルを用いる場合、且つ、前記第２ＲＮＮモデルがＮ個の第２時系列ステップを実行することに用いられる場合、前記第２ＲＮＮモデルで実行される各第２時系列ステップに対して、前記第１ガイド情報に基づいて前記第２時系列ステップの入力データを決定し、
前記Ｎが、前記第２ＲＮＮモデルが入力データに対して繰り返し処理を行う回数を指し、前記Ｎが正の整数であり、各第２時系列ステップが前記第２ＲＮＮモデルの入力データに対する処理ステップであることと、
前記第２時系列ステップの入力データ、前記第１アノテーションベクトル集合及び前記第２時系列ステップの前の第２時系列ステップの出力データに基づき、前記第２時系列ステップの出力データを決定し、
前記第２時系列ステップが前記Ｎ個の第２時系列ステップにおける１番目の第２時系列ステップである場合、前記第２時系列ステップの前の第２時系列ステップの出力データが前記第１初期入力データに基づいて決定することによって取得されたものであることと、
前記Ｎ個の第２時系列ステップにおける最後の第２時系列ステップの出力データに基づき、前記第２初期入力データを決定することと、
前記Ｎ個の第２時系列ステップのすべての出力データに基づき、前記第２アノテーションベクトル集合を決定することと、を含むことを特徴とする
請求項８に記載の方法。
エンコーダによって目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得する前に、更に、
第２訓練待ちエンコーダ、第２訓練待ちガイドネットワークモデル、訓練待ちレビューアー、第３訓練待ちガイドネットワークモデル及び第２訓練待ちデコーダを組み合わせて、第２カスケードネットワークモデルを取得することと、
複数のサンプル画像及び前記複数のサンプル画像の表現語句に基づき、勾配降下法で前記第２カスケードネットワークモデルに対して訓練して、前記エンコーダ、前記第１ガイドネットワークモデル、前記レビューアー、前記第２ガイドネットワークモデル及び前記デコーダを取得することと、を含むことを特徴とする
請求項８又は９に記載の方法。
端末であって、
プロセッサ及びメモリを備え、前記メモリに少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第１アノテーションベクトル集合を取得し、
前記特徴ベクトルに対して初期化処理を行って、第１初期入力データを取得し、
前記第１アノテーションベクトル集合に基づき、第１ガイドネットワークモデルによって第１ガイド情報を生成し、前記第１ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられ、
前記第１ガイド情報、前記第１アノテーションベクトル集合及び前記第１初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定する操作を実現するように実行されることを特徴とする、前記端末。
前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、前記第１ガイドネットワークモデルにおけるモデルパラメータにより形成される第１行列に基づき、前記第１アノテーションベクトル集合に対して線形変換を行って、第２行列を取得し、
前記第２行列における各行の最大値に基づいて前記第１ガイド情報を決定する操作を実現するように実行されることを特徴とする
請求項１１に記載の端末。
前記第１ガイドネットワークモデルは、いずれの画像のアノテーションベクトル集合及び属性情報に基づいてガイド情報を生成することに用いられ、前記属性情報は、予測される、前記画像の表現語句に単語が現れる確率を示すことに用いられ、
前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
前記目標画像をマルチインスタンスモデルの入力とし、前記マルチインスタンスモデルによって前記目標画像を処理して、前記目標画像の属性情報を取得し、
前記第１ガイドネットワークモデルにおけるモデルパラメータにより形成される第３行列に基づき、前記第１アノテーションベクトル集合に対して線形変換を行って、第４行列を取得し、
前記第４行列及び前記目標画像の属性情報に基づき、第５行列を生成し、
前記第５行列における各行の最大値に基づいて前記第１ガイド情報を決定する操作を実現するように実行されることを特徴とする
請求項１１に記載の端末。
前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、前記第１ガイド情報に基づき、前記デコーダによって前記第１アノテーションベクトル集合及び前記第１初期入力データをデコードして、前記目標画像の表現語句を取得する操作を実現するように実行されることを特徴とする
請求項１１に記載の端末。
前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
第１レビューアーが第２ＲＮＮモデルを用いる場合、且つ、前記第２ＲＮＮモデルがＮ個の第２時系列ステップを実行することに用いられる場合、前記第２ＲＮＮモデルで実行される各第２時系列ステップに対して、前記第１ガイド情報に基づいて前記第２時系列ステップの入力データを決定し、
前記Ｎが、前記第２ＲＮＮモデルが入力データに対して繰り返し処理を行う回数を指し、前記Ｎが正の整数であり、各第２時系列ステップが前記第２ＲＮＮモデルの入力データに対する処理ステップであり、
前記第２時系列ステップの入力データ、前記第１アノテーションベクトル集合及び前記第２時系列ステップの前の第２時系列ステップの出力データに基づき、前記第２時系列ステップの出力データを決定し、
前記第２時系列ステップが前記Ｎ個の第２時系列ステップにおける１番目の第２時系列ステップである場合、前記第２時系列ステップの前の第２時系列ステップの出力データが前記第１初期入力データに基づいて決定することによって取得されたものであり、
前記Ｎ個の第２時系列ステップにおける最後の第２時系列ステップの出力データに基づき、第２初期入力データを決定し、
前記Ｎ個の第２時系列ステップのすべての出力データに基づき、第２アノテーションベクトル集合を決定する操作を実現するように実行されることを特徴とする
請求項１４に記載の端末。
前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
第１訓練待ちエンコーダ、第１訓練待ちガイドネットワークモデル及び第１訓練待ちデコーダを組み合わせて、第１カスケードネットワークモデルを取得し、
複数のサンプル画像及び前記複数のサンプル画像の表現語句に基づき、勾配降下法で前記第１カスケードネットワークモデルに対して訓練して、前記エンコーダ、前記第１ガイドネットワークモデル及び前記デコーダを取得する操作を実現するように実行されることを特徴とする
請求項１１〜１５のいずれか１項に記載の端末。
前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
前記第１ガイド情報、前記第１アノテーションベクトル集合及び前記第１初期入力データに基づき、レビューアーによって第２アノテーションベクトル集合及び第２初期入力データを決定し、
前記第２アノテーションベクトル集合に基づき、第２ガイドネットワークモデルによって第２ガイド情報を生成し、前記第２ガイドネットワークモデルは、アノテーションベクトル集合に基づいてガイド情報を生成することに用いられ、
前記第２ガイド情報に基づき、前記エンコーダによって前記第２アノテーションベクトル集合及び前記第２初期入力データをエンコードして、前記目標画像の表現語句を取得する操作を実現するように実行されることを特徴とする
請求項１１に記載の端末。
前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
第１レビューアーが第２ＲＮＮモデルを用いる場合、且つ、前記第２ＲＮＮモデルがＮ個の第２時系列ステップを実行することに用いられる場合、前記第２ＲＮＮモデルで実行される各第２時系列ステップに対して、前記第１ガイド情報に基づいて前記第２時系列ステップの入力データを決定し、
前記Ｎが、前記第２ＲＮＮモデルが入力データに対して繰り返し処理を行う回数を指し、前記Ｎが正の整数であり、各第２時系列ステップが前記第２ＲＮＮモデルの入力データに対する処理ステップであり、
前記第２時系列ステップの入力データ、前記第１アノテーションベクトル集合及び前記第２時系列ステップの前の第２時系列ステップの出力データに基づき、前記第２時系列ステップの出力データを決定し、
前記第２時系列ステップが前記Ｎ個の第２時系列ステップにおける１番目の第２時系列ステップである場合、前記第２時系列ステップの前の第２時系列ステップの出力データが前記第１初期入力データに基づいて決定することによって取得されたものであり、
前記Ｎ個の第２時系列ステップにおける最後の第２時系列ステップの出力データに基づき、前記第２初期入力データを決定し、
前記Ｎ個の第２時系列ステップのすべての出力データに基づき、前記第２アノテーションベクトル集合を決定する操作を実現するように実行されることを特徴とする
請求項１７に記載の端末。
前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
第２訓練待ちエンコーダ、第２訓練待ちガイドネットワークモデル、訓練待ちレビューアー、第３訓練待ちガイドネットワークモデル及び第２訓練待ちデコーダを組み合わせて、第２カスケードネットワークモデルを取得し、
複数のサンプル画像及び前記複数のサンプル画像の表現語句に基づき、勾配降下法で前記第２カスケードネットワークモデルに対して訓練して、前記エンコーダ、前記第１ガイドネットワークモデル、前記レビューアー、前記第２ガイドネットワークモデル及び前記デコーダを取得する操作を実現するように実行されることを特徴とする
請求項１７又は１８に記載の端末。
コンピュータ可読記憶媒体であって、
少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、前記命令、前記プログラム、前記コードセット又は前記命令セットは、プロセッサによりロードされ、請求項１〜１０のいずれか１項に記載の画像認識方法を実現するように実行されることを特徴とする、前記コンピュータ可読記憶媒体。