JP6417739B2

JP6417739B2 - マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法

Info

Publication number: JP6417739B2
Application number: JP2014124050A
Authority: JP
Inventors: リィウ・シィ; リィウ・ルゥジエ
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-06-24
Filing date: 2014-06-17
Publication date: 2018-11-07
Anticipated expiration: 2034-06-17
Also published as: US20140379730A1; CN104239359A; US9830380B2; CN104239359B; JP2015007975A

Description

本発明は、画像処理技術に関し、特にマルチモダリティ（multi-modality）の後期融合（late fusion）に基づく画像タグ付け（image tagging）装置及び方法に関する。

Ｗｅｂ２．０技術の急速な発展に伴い、画像の数は急激に増加し、必要な画像を迅速に閲覧、検索する際に、時間がかかり、面倒になる。画像を迅速、且つ効果的に閲覧するため、画像タグ付け技術はますます重要、且つ不可欠である。

通常、従来の画像タグ付け方法は１つのモダリティ（modality）のみを考慮する。しかし、単一のモダリティは、画像を特徴付けるための十分な情報提供できず、より多くの研究によると、複数のモダリティを同時に考慮することが有益である。よって、画像の複数のモダリティを融合する画像タグ付け技術はますます重要になる。

最近、マルチモダリティを融合する画像タグ付け方法として、検索に基づく画像タグ付け方法が提出されている。この方法は、各モダリティを正規化し、正規化されたモダリティの全てを直接に連結して単一のモダリティを取得し、連結された単一のモダリティにより近接画像を見つけて、全ての近接画像のタグを統計して最終のタグ付け結果を取得する。

しかし、この方法は、単なる全ての正規化されたモダリティを直接に連結し、各モダリティの尺度（measure）の問題があり、正規化で各モダリティの尺度を統一し難いため、複数のモダリティを効果的に融合できない問題点がある。

なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により公知されたものではない。

以下は、本発明及び従来技術の理解を容易にするための文献が列挙され、これらは、本文に完全に述べられるように、本文に援用されている。

P. Gehler and S. Nowozin. On feature combination for multiclass object classification, In Proceedings of International Conference on Computer Vision, 2009 X. Li, C. Snoek, and M. Worring. Learning social tag relevance by neighbor voting, IEEE Transactions on Multimedia, 1310-1322, 2009

本発明の実施例は、画像の複数のモダリティを効果的に融合でき、ロバスト性のよく（robust）、且つ正確な画像タグ付けの結果を取得できるマルチモダリティに基づく画像タグ付け装置及び方法を提供することを目的とする。

本発明の実施例の一の態様では、マルチモダリティ（multi-modality）に基づく画像タグ付け装置であって、トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第１の得点を生成する得点生成手段と、得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合（late fusion）手段と、全てのタグの最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを前記照会画像のタグとして選択するタグ選択手段と、を含む、画像タグ付け装置を提供する。

本発明の実施例の他の態様では、マルチモダリティ（multi-modality）に基づく画像タグ付け方法であって、トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第１の得点を生成するステップと、得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップと、全てのタグの最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを前記照会画像のタグとして選択するステップと、を含む、画像タグ付け方法を提供する。

本発明の効果としては、複数のモダリティに対して同時に後期融合を行うことで、各モダリティ間の尺度の問題を回避できるため、複数のモダリティを効果的に融合できる。画像の複数のモダリティを効果的に融合することによって、単一モダリティの画像タグ付け方法に比べて、ロバストで正確な画像タグ付けの結果を取得できる。

本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び同等的なものが含まれる。

ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。

なお、用語「包括／含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。

本発明の実施例１に係る画像タグ付け装置の構成を示す図である。本発明の実施例２に係る画像タグ付け装置の構成を示す図である。本発明の実施例２に係る画像タグ付けプロセスを示す図である。本発明の実施例２に係る画像タグ付け装置の他の構成を示す図である。本発明の実施例２に係る画像タグ付けのプロセスを示す他の図である。本発明の実施例３に係る画像タグ付け方法のフローチャートである。本発明の実施例４に係る画像タグ付け方法のフローチャートである。本発明の実施例４に係る画像タグ付け方法の他のフローチャートである。

本発明の上記及びその他の特徴は、図面及び下記の説明により理解できるものである。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変更されたもの、及び均等なものを含む。

＜実施例１＞
本発明の実施例は、マルチモダリティに基づく画像タグ付け装置を提供する。図１は、本発明の実施例１に係る画像タグ付け装置の構成を示す図である。図１に示すように、画像タグ付け装置１００は、得点生成部１０１、後期融合部１０２及びタグ選択部１０３を含む。

得点生成部１０１は、トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の得点を生成する。後期融合部１０２は、得られた複数組の得点を融合し、全てのタグについての最終得点を取得する。タグ選択部１０３は、全てのタグの最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを照会画像のタグとして選択する。

本実施例では、１つの照会画像について１つ又は複数のタグを付ける必要がある。Ｋ個のキーワードを含むタグ辞書Ｄ及びＮ個のタグトレーニング画像を含む画像集合Ｔを予め設定してもよい。ここで、Ｋ個のキーワードはタグの候補としてもよく、各トレーニング画像I_i=({X_1i,X_2i,…,X_Mi},Y_i)、i=1,…,N、{X_1i,X_2i,…,X_Mi}はトレーニング画像I_iのＭ個のモダリティを表し、Y_iはＫ次元の0-1ベクトルであり、トレーニング画像I_iのタグ付け情報を表し、Y_ij=1はトレーニング画像I_iがj個目のタグを含むことを表し、Y_ij=1はトレーニング画像I_iがj個目のタグを含まないことを表し、j=1,…K。本発明では、Ｍ個のモダリティを含む任意の照会画像について、タグ辞書Ｄ及びトレーニング画像集合Ｔにより該照会画像の全てのタグを自動的に推定できる。

なお、任意の画像について、従来技術により該画像のＭ個のモダリティを取得できるため、照会画像及びトレーニング画像は共にＭ個のモダリティを有してもよい。モダリティの具体的な内容及びその取得は、従来技術を参照してもよい。

本実施例では、得点生成部１０１は、各モダリティに対し、全てのタグについての一組の得点を生成してもよく、具体的には、モダリティに基づいて、該照会画像と最も類似するｋ個のトレーニング画像を計算し、ｋ個のトレーニング画像から各タグの出現頻度を統計し、正規化されたタグの頻度を該モダリティにおける全てのタグについての一組の得点とする。

本実施例では、得点生成部１０１は、複数組の得点を生成し、後期融合部１０２は、得られた複数組の得点を融合し、全てのタグについての一組の最終得点を取得し、タグ選択部１０３は、全てのタグの一組の最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを照会画像のタグとして選択してもよい。

従来技術に比べて、本発明は、複数のモダリティのタグ得点を計算した後で、後期融合の方法により複数のモダリティを効果的に融合することで、各モダリティ間の尺度の問題を回避できる、単一モダリティの画像タグ付け方法に比べて、ロバストで正確な画像タグ付けの結果を取得できる。

＜実施例２＞
実施例１を基にして、本発明の実施例はマルチモダリティに基づく画像タグ付け装置を提供し、以下は本発明の実施例をさらに説明する。

図２は、本発明の実施例２に係る画像タグ付け装置の構成を示す図である。図２に示すように、該画像タグ付け装置２００は、得点生成部１０１、後期融合部１０２及びタグ選択部１０３を含む。ここで、実施例１に述べたように、得点生成部１０１は、照会画像に対し、トレーニング画像及び画像の複数のモダリティにより、タグ辞書における全てのタグについての複数組の第１の得点を生成する。

図２に示すように、画像タグ付け装置２００は、画像の全てのモダリティを結合モダリティに直接に連結するモダリティ連結部２０４をさらに含んでもよい。得点生成部１０１は、トレーニング画像及び該結合モダリティにより、照会画像に対し、全てのタグについての一組の第２の得点を生成し、後期融合部１０２は、複数組の第１の得点と第２の得点とを融合し、全てのタグについての最終得点を取得する。

本実施例では、複数組（例えばＭ組）の第１の得点と第２の得点により後期融合を行うことで、画像タグ付けの結果をより正確にすることができる。以下は、後期融合部１０２による線形結合を例として本発明を詳細に説明する。なお、本発明の後期融合は、線形結合に限定されず、他の融合方法を採用してもよく、実際の状況に応じて具体的な実施形態を決定してもよい。

具体的には、得点生成部１０１は、各単一モダリティに基づいて一組のタグ得点を生成してもよい。例えば、モダリティtについて、距離尺度（例えばユークリッド距離、コサイン距離など）に基づいて照会画像I_qとトレーニング画像集合における全ての画像との距離を計算し、最小距離を有する上位ｋ個のトレーニング画像I_q1,I_q2,…I_qkを抽出する。また、式（１）により全てのタグのこのｋ個の最も近いトレーニング画像に出現する頻度を統計し、これらの頻度を該モダリティtにおいて生成された全てのタグについての一組の得点としてもよい。

画像の各モダリティは１つのベクトルで表されてもよく、モダリティ連結部２０４は、各モダリティに対して0-1正規化を行い、連結するとこで１つの新しい単一モダリティ（結合モダリティ）を取得してもよい。また、得点生成部１０１は、該連結された単一モダリティについて、距離尺度（例えばユークリッド距離、コサイン距離など）に基づいて照会画像I_qとトレーニング画像集合における全ての画像との距離を計算し、最小距離を有する上位ｋ個のトレーニング画像I_q1,I_q2,…I_qkを抽出する。同様に、式（１）により全てのタグのこのｋ個の最も近いトレーニング画像に出現する頻度を統計し、これらの頻度を該連結されたモダリティtにおいて生成された一組のタグ得点とする。

具体的には、後期融合部１０２は、複数組の第１の得点に対して線形結合を行い、結合モダリティにより生成された第２の得点を制限条件として線形結合を導いてもよい。

各単一のモダリティtに基づいて生成された一組のタグ得点がTS_t=(TS_t1,TS_t2,…,TS_tK)、t=1,…,Mであり、連結モダリティに基づいて生成された一組のタグ得点がTS_a=(TS_a1,TS_a2,…,TS_aK)であると仮定する。後期融合部１０２は、以下のステップにより、複数組のタグ得点を融合し、全てのタグについての一組の最終の得点TS_fを生成してもよい。

具体的には、後期融合部１０２は、全てのTS_t=(TS_t1,TS_t2,…,TS_tK)、t=1,…,Mに対して線形結合を行い、線形結合のタグ得点

を取得してもよい。ここで、TS_tは該第１の得点であり、Mは該複数のモダリティの数であり、W_tは線形重みである。ここで、線形重みw=(w₁,w₂,…,w_M)^Tは、下記の条件
（１）全ての線形重みが０以上であること、即ちwt≧0、t=1,…,M、
（２）線形重みのL2-ノルム(||w||₂)ができる限り小さいこと、及び
（３）線形結合におけるTS_cとTS_aとはできる限り近接し、TS_aは該第２の得点であることを満たす。

具体的には、線形重みwは、以下の問題を解くことで得られてもよく、

、mは所定の定数である。

（２）を変換することで下記の目的関数（３）が得られた。

ここで、

、Iは単位マトリックスであり、s.t.は条件が満たされたことを表す。（３）は、標準の制限二次計画問題（standard constrained quadratic programming problem）であり、容易に解くことができるものである。よって、後期融合部１０２は、複数組の第１の得点と一組の第２の得点とを融合することで、全てのタグについての最終得点を取得できる。

図３は、本発明の実施例２に係る画像タグ付けプロセスを示す図である。図３に示すように、照会画像について、タグ辞書Ｄ及びトレーニング画像集合ＴによりＭ個のモダリティに対応する第１の得点、及びＭ個のモダリティにより連結された結合モダリティに対応する第２の得点を生成し、複数組の第１の得点と第２の得点とを融合して結合された一組のタグ得点を生成し、比較的大きいタグ得点を有する１つ又は複数のタグを該照会画像のタグとしてもよい。

また、画像タグ付けの結果をよりロバスト、正確にするため、タグ得点をさらに更新してもよい。図４は、本発明の実施例２に係る画像タグ付け装置の他の構成を示す図である。図４に示すように、画像タグ付け装置４００は、得点生成部１０１、後期融合部１０２、タグ選択部１０３及びモダリティ連結部２０４を含む。

図４に示すように、該画像タグ付け装置４００は、得点更新部４０５をさらに含んでもよい。得点更新部４０５は、線形結合により得られたタグ得点TS_cに基づいて第２の得点TS_aを更新する。後期融合部１０２は、更新された第２の得点TS_aに基づいて線形重みwを求め、線形結合により得られたタグ得点TS_cを更新する。

図４に示すように、該画像タグ付け装置４００は、条件判断部４０６をさらに含んでもよい。条件判断部４０６は、所定の条件が満たされているか否かを判断し、所定の条件が満たされている場合、後期融合部１０２は、得られたタグ得点TS_cを全てのタグについての最終得点とし、所定の条件が満たされていない場合、得点更新部４０５は、第２の得点TS_aを更新し続ける。

具体的には、得点更新部４０５は、下記の式

を用いてもよい。ここで、aは定数である。従って、新しいTS_aは上述した計画問題（２）を更新し、線形結合の重みwを改めて求める。なお、式（４）は単なる本発明の１つの具体的な実施形態であり、本発明はこれに限定されず、実際の状況に応じて他の更新式などを決定してもよいし、この式を適切に変形又は調整してもよい。

本実施例では、所定の条件は、例えば所定の実行回数に達したこと、線形結合のタグ得点TS_Cの変化が所定の範囲内にある（例えば今回得られたTS_Cと前回得られたTS_Cとの差が所定閾値よりも小さい）ことなどであってもよい。なお、本発明はこれに限定されず、実際の状況に応じて具体的な所定の条件を決定してもよい。

本実施例では、所定の条件が満たされるまで、上記のステップを繰り返してもよく、最後の線形結合のタグ得点TS_cを全てのタグについての最終の得点TS_fとしてもよい。全てのタグについての最終の得点TS_f=(TS_f1,TS_f2,…,TS_fK)と仮定すると、大きい順に並び替え、上位k_l個の最大のタグ得点を選択してもよい。対応するk_l個のタグは照会画像I_qのタグ付けの結果である。

図５は、本発明の実施例２に係る画像タグ付けのプロセスを示す他の図である。図５に示すように、照会画像について、タグ辞書Ｄ及びトレーニング画像集合ＴによりＭ個のモダリティに対応する第１の得点、及びＭ個のモダリティにより連結された結合モダリティに対応する第２の得点を生成し、複数組の第１の得点と第２の得点とを融合し、結合された一組のタグ得点を生成し、タグ得点を更新して、線形結合の重みを求め、比較的大きいタグ得点を有する１つ又は複数のタグを該照会画像のタグとしてもよい。

本発明では、画像の複数のモダリティが考慮され、単一モダリティのみを用いる従来の画像タグ付け方法に比べて、よりロバストであり、且つ正確である。また、本発明は、複数のモダリティにより生成されたタグ得点に対して線形結合を行い、全ての正規化モダリティを１つの単一モダリティに直接に連結する従来の融合方法に比べて、このような融合方法はよりロバストであり、且つ効果的である。さらに、web画像について複数のモダリティを取得しやすいため、本発明はweb画像タグ付けタスクに特に好適である。

上記実施例によれば、複数のモダリティに対して同時に後期融合を行うことで、各モダリティ間の尺度の問題を回避できるため、複数のモダリティを効果的に融合できる。画像の複数のモダリティを効果的に融合することによって、単一モダリティの画像タグ付け方法に比べて、ロバストで正確な画像タグ付けの結果を取得できる。

＜実施例３＞
本発明の実施例は、マルチモダリティに基づく画像タグ付け方法を提供する。実施例１の画像タグ付け装置と重複する内容についてその説明が省略される。

図６は、本発明の実施例３に係る画像タグ付け方法のフローチャートである。図６に示すように、該画像タグ付け方法は、下記のステップを含む。

ステップ６０１：トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の得点を生成する。

ステップ６０２：得られた複数組の得点を融合し、全てのタグについての最終得点を取得する。

ステップ６０３：全てのタグの最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを照会画像のタグとして選択する。

＜実施例４＞
本発明の実施例は、マルチモダリティに基づく画像タグ付け方法を提供する。実施例２の画像タグ付け装置と重複する内容についてその説明が省略される。

図７は、本発明の実施例４に係る画像タグ付け方法のフローチャートである。図７に示すように、該画像タグ付け方法は、下記のステップを含む。

ステップ７０１：トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第１の得点を生成する。

ステップ７０２：画像の全てのモダリティを結合モダリティに直接に連結し、トレーニング画像及び該結合モダリティにより、該照会画像に対し、全てのタグについての一組の第２の得点を生成する。

ステップ７０３：得られた複数組の第１の得点と第２の得点とを融合し、全てのタグについての最終得点を取得する。ここで、複数組の第１の得点に対して線形結合を行い、該結合モダリティにより生成された第２の得点を制限条件として該線形結合を導いてもよい。具体的な計算は実施例２を参照してもよい。

ステップ７０４：全てのタグの最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを照会画像のタグとして選択する。

本実施例では、画像タグ付けの結果をよりロバスト、正確にするため、タグ得点をさらに更新してもよい。図８は、本発明の実施例４に係る画像タグ付け方法の他のフローチャートである。図８に示すように、該画像タグ付け方法は、下記のステップを含む。

ステップ８０１：トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第１の得点を生成する。

ステップ８０２：画像の全てのモダリティを結合モダリティに直接に連結し、トレーニング画像及び該結合モダリティにより、該照会画像に対し、全てのタグについての一組の第２の得点を生成する。

ステップ８０３：得られた複数組の第１の得点と第２の得点とを融合し、全てのタグについての最終得点を取得する。ここで、複数組の第１の得点に対して線形結合を行い、該結合モダリティにより生成された第２の得点を制限条件として該線形結合を導いてもよい。具体的な計算は実施例２を参照してもよい。

ステップ８０４：所定の条件が満たされているか否かを判断し、所定の条件が満たされていない場合、ステップ８０５に進み、所定の条件が満たされている場合、該タグ得点を最終得点として、ステップ８０６に進む。

ステップ８０５：第２の得点を更新する。そして、ステップ８０３を再び実行し、再び線形結合の重みを求めて全てのタグについての得点を取得する。更新及び線形結合の重みを再び求めることは、実施例２を参照してもよい。

ステップ８０６：全てのタグの最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを該照会画像のタグとして選択する。

本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムはロジック部により実行される時に、該ロジック部に上述した装置又は構成要件を実現させる、或いは該ロジック部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、ディスク、光ディスク、ＤＶＤ、フラッシュメモリ等に関する。

以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び修正を行ってもよく、これらの変形及び修正も本発明の範囲に属する。

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。

（付記１）
マルチモダリティ（multi-modality）に基づく画像タグ付け装置であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第１の得点を生成する得点生成手段と、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合（late fusion）手段と、
全てのタグの最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを前記照会画像のタグとして選択するタグ選択手段と、を含む、画像タグ付け装置。

（付記２）
画像の全てのモダリティを結合モダリティに直接に連結するモダリティ連結手段をさらに含み、
前記得点生成手段は、前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第２の得点を生成し、
前記後期融合手段は、前記複数組の第１の得点と前記第２の得点とを融合し、前記全てのタグについての最終得点を取得する、付記１に記載の画像タグ付け装置。

（付記３）
前記後期融合手段は、前記複数組の第１の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第２の得点を制限条件として前記線形結合を導く、付記２に記載の画像タグ付け装置。

（付記４）
前記後期融合手段の前記線形結合により得られたタグの得点は、

となり、TS_tは前記第１の得点であり、Mは前記複数のモダリティの数であり、W_tは線形重みであり、前記線形重みは、下記の条件
（１）全ての線形重みが０以上であること、
（２）線形重みのL2-ノルムが最も小さいこと、及び
（３）線形結合におけるTS_cとTS_aとはできる限り近接し、前記TS_aは前記第２の得点であることを満たす、付記３に記載の画像タグ付け装置。

（付記５）
前記線形結合は、下記の制限

を満たし、
W=(w₁,w₂,…,w_M)^T、mは所定の定数である、付記４に記載の画像タグ付け装置。

（付記６）
前記線形結合により得られたタグ得点TS_cに基づいて前記第２の得点TS_aを更新する得点更新手段、をさらに含み、
前記後期融合手段は、更新された前記第２の得点TS_aに基づいて前記線形重みを求め、前記線形結合により得られたタグ得点TS_cを更新する、付記４に記載の画像タグ付け装置。

（付記７）
所定の条件が満たされているか否かを判断する条件判断手段、をさらに含み、
所定の条件が満たされている場合、前記後期融合手段は、得られたタグ得点TS_cを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記得点更新手段は、前記第２の得点TS_aを更新し続ける、付記６に記載の画像タグ付け装置。

（付記８）
前記得点更新手段は、下記の式

を用い、aは定数である、付記６に記載の画像タグ付け装置。

（付記９）
マルチモダリティ（multi-modality）に基づく画像タグ付け方法であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第１の得点を生成するステップと、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップと、
全てのタグの最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを前記照会画像のタグとして選択するステップと、を含む、画像タグ付け方法。

（付記１０）
画像の全てのモダリティを結合モダリティに直接に連結するステップをさらに含み、
前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第２の得点を生成し、
前記複数組の第１の得点と前記第２の得点とを融合し、前記全てのタグについての最終得点を取得する、付記９に記載の画像タグ付け方法。

（付記１１）
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップにおいて、
前記複数組の第１の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第２の得点を制限条件として前記線形結合を導く、付記１０に記載の画像タグ付け方法。

（付記１２）
前記線形結合により得られたタグの得点は、

となり、TS_tは前記第１の得点であり、Mは前記複数のモダリティの数であり、W_tは線形重みであり、前記線形重みは、下記の条件
（１）全ての線形重みが０以上であること、
（２）線形重みのL2-ノルムが最も小さいこと、及び
（３）線形結合におけるTS_cとTS_aとはできる限り近接し、前記TS_aは前記第２の得点であることを満たす、付記１１に記載の画像タグ付け方法。

（付記１３）
前記線形結合は、下記の制限

を満たし、
W=(w₁,w₂,…,w_M)^T、mは所定の定数である、付記１２に記載の画像タグ付け方法。

（付記１４）
前記線形結合により得られたタグ得点TS_cに基づいて前記第２の得点TS_aを更新するステップ、をさらに含み、
更新された前記第２の得点TS_aに基づいて前記線形重みを求め、前記線形結合により得られたタグ得点TS_cを更新する、付記１２に記載の画像タグ付け方法。

（付記１５）
所定の条件が満たされているか否かを判断するステップ、をさらに含み、
所定の条件が満たされている場合、得られたタグ得点TS_cを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記第２の得点TS_aを更新し続ける、付記１４に記載の画像タグ付け方法。

（付記１６）
前記線形結合により得られたタグ得点TS_cに基づいて前記第２の得点TS_aを更新するステップにおいて、下記の式

を用い、aは定数である、付記１４に記載の画像タグ付け方法。

（付記１７）
画像処理装置においてプログラムを実行する際に、コンピュータに、付記９乃至１６のいずれかに記載の画像タグ付け方法を前記画像処理装置において実行させる、コンピュータ読み取り可能なプログラム。

（付記１８）
コンピュータに、付記９乃至１６のいずれかに記載の画像タグ付け方法を画像処理装置において実行させるためのコンピュータ読み取り可能なプログラムを記録する、記録媒体。

Claims

マルチモダリティ（multi-modality）に基づく画像タグ付け装置であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第１の得点を生成する得点生成手段と、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合（late fusion）手段と、
全てのタグの最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを前記照会画像のタグとして選択するタグ選択手段と、を含み、
画像の全てのモダリティを結合モダリティに直接に連結するモダリティ連結手段をさらに含み、
前記得点生成手段は、前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第２の得点を生成し、
前記後期融合手段は、前記複数組の第１の得点と前記第２の得点とを融合し、前記全てのタグについての最終得点を取得する、画像タグ付け装置。
前記後期融合手段は、前記複数組の第１の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第２の得点を制限条件として前記線形結合を導く、請求項１に記載の画像タグ付け装置。
前記後期融合手段の前記線形結合により得られたタグの得点は、

となり、TS_tは前記第１の得点であり、Mは前記複数のモダリティの数であり、W_tは線形重みであり、前記線形重みは、下記の条件
（１）全ての線形重みが０以上であること、
（２）線形重みのL2-ノルムが最も小さいこと、及び
（３）線形結合におけるTS_cとTS_aとはできる限り近接し、前記TS_aは前記第２の得点であることを満たす、請求項２に記載の画像タグ付け装置。
前記線形結合は、下記の制限

を満たし、
W=(w₁,w₂,…,w_M)^T、mは所定の定数である、請求項３に記載の画像タグ付け装置。
前記線形結合により得られたタグ得点TS_cに基づいて前記第２の得点TS_aを更新する得点更新手段、をさらに含み、
前記後期融合手段は、更新された前記第２の得点TS_aに基づいて前記線形重みwを求め、前記線形結合により得られたタグ得点TS_cを更新する、請求項３に記載の画像タグ付け装置。
所定の条件が満たされているか否かを判断する条件判断手段、をさらに含み、
所定の条件が満たされている場合、前記後期融合手段は、得られたタグ得点TS_cを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記得点更新手段は、前記第２の得点TS_aを更新し続ける、請求項５に記載の画像タグ付け装置。
前記得点更新手段は、下記の式

を用い、aは定数である、請求項５に記載の画像タグ付け装置。
マルチモダリティ（multi-modality）に基づく画像タグ付け方法であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第１の得点を生成するステップと、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップと、
全てのタグの最終得点に基づいて、比較的大きい得点を有する１つ又は複数のタグを前記照会画像のタグとして選択するステップと、を含み、
画像の全てのモダリティを結合モダリティに直接に連結するステップをさらに含み、
前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第２の得点を生成し、
前記複数組の第１の得点と前記第２の得点とを融合し、前記全てのタグについての最終得点を取得する、画像タグ付け方法。