JP2015007975A - マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 - Google Patents

マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 Download PDF

Info

Publication number
JP2015007975A
JP2015007975A JP2014124050A JP2014124050A JP2015007975A JP 2015007975 A JP2015007975 A JP 2015007975A JP 2014124050 A JP2014124050 A JP 2014124050A JP 2014124050 A JP2014124050 A JP 2014124050A JP 2015007975 A JP2015007975 A JP 2015007975A
Authority
JP
Japan
Prior art keywords
image
score
tags
scores
modality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014124050A
Other languages
English (en)
Other versions
JP6417739B2 (ja
Inventor
リィウ・シィ
Xi Liu
リィウ・ルゥジエ
Rujie Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2015007975A publication Critical patent/JP2015007975A/ja
Application granted granted Critical
Publication of JP6417739B2 publication Critical patent/JP6417739B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Image Analysis (AREA)

Abstract

【課題】マルチモダリティに基づく画像タグ付け装置及び方法を提供する。
【解決手段】画像タグ付け装置は、トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する得点生成手段と、得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合手段と、全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを照会画像のタグとして選択するタグ選択手段と、を含む。本発明の実施例によれば、複数のモダリティを効果的に融合でき、ロバスト性のよく、且つ正確な画像タグ付けの結果を取得できる。
【選択図】図1

Description

本発明は、画像処理技術に関し、特にマルチモダリティ(multi-modality)の後期融合(late fusion)に基づく画像タグ付け(image tagging)装置及び方法に関する。
Web2.0技術の急速な発展に伴い、画像の数は急激に増加し、必要な画像を迅速に閲覧、検索する際に、時間がかかり、面倒になる。画像を迅速、且つ効果的に閲覧するため、画像タグ付け技術はますます重要、且つ不可欠である。
通常、従来の画像タグ付け方法は1つのモダリティ(modality)のみを考慮する。しかし、単一のモダリティは、画像を特徴付けるための十分な情報提供できず、より多くの研究によると、複数のモダリティを同時に考慮することが有益である。よって、画像の複数のモダリティを融合する画像タグ付け技術はますます重要になる。
最近、マルチモダリティを融合する画像タグ付け方法として、検索に基づく画像タグ付け方法が提出されている。この方法は、各モダリティを正規化し、正規化されたモダリティの全てを直接に連結して単一のモダリティを取得し、連結された単一のモダリティにより近接画像を見つけて、全ての近接画像のタグを統計して最終のタグ付け結果を取得する。
しかし、この方法は、単なる全ての正規化されたモダリティを直接に連結し、各モダリティの尺度(measure)の問題があり、正規化で各モダリティの尺度を統一し難いため、複数のモダリティを効果的に融合できない問題点がある。
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により公知されたものではない。
以下は、本発明及び従来技術の理解を容易にするための文献が列挙され、これらは、本文に完全に述べられるように、本文に援用されている。
P. Gehler and S. Nowozin. On feature combination for multiclass object classification, In Proceedings of International Conference on Computer Vision, 2009 X. Li, C. Snoek, and M. Worring. Learning social tag relevance by neighbor voting, IEEE Transactions on Multimedia, 1310-1322, 2009
本発明の実施例は、画像の複数のモダリティを効果的に融合でき、ロバスト性のよく(robust)、且つ正確な画像タグ付けの結果を取得できるマルチモダリティに基づく画像タグ付け装置及び方法を提供することを目的とする。
本発明の実施例の一の態様では、マルチモダリティ(multi-modality)に基づく画像タグ付け装置であって、トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する得点生成手段と、得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合(late fusion)手段と、全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するタグ選択手段と、を含む、画像タグ付け装置を提供する。
本発明の実施例の他の態様では、マルチモダリティ(multi-modality)に基づく画像タグ付け方法であって、トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成するステップと、得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップと、全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するステップと、を含む、画像タグ付け方法を提供する。
本発明の効果としては、複数のモダリティに対して同時に後期融合を行うことで、各モダリティ間の尺度の問題を回避できるため、複数のモダリティを効果的に融合できる。画像の複数のモダリティを効果的に融合することによって、単一モダリティの画像タグ付け方法に比べて、ロバストで正確な画像タグ付けの結果を取得できる。
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び同等的なものが含まれる。
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
なお、用語「包括/含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
本発明の実施例1に係る画像タグ付け装置の構成を示す図である。 本発明の実施例2に係る画像タグ付け装置の構成を示す図である。 本発明の実施例2に係る画像タグ付けプロセスを示す図である。 本発明の実施例2に係る画像タグ付け装置の他の構成を示す図である。 本発明の実施例2に係る画像タグ付けのプロセスを示す他の図である。 本発明の実施例3に係る画像タグ付け方法のフローチャートである。 本発明の実施例4に係る画像タグ付け方法のフローチャートである。 本発明の実施例4に係る画像タグ付け方法の他のフローチャートである。
本発明の上記及びその他の特徴は、図面及び下記の説明により理解できるものである。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変更されたもの、及び均等なものを含む。
<実施例1>
本発明の実施例は、マルチモダリティに基づく画像タグ付け装置を提供する。図1は、本発明の実施例1に係る画像タグ付け装置の構成を示す図である。図1に示すように、画像タグ付け装置100は、得点生成部101、後期融合部102及びタグ選択部103を含む。
得点生成部101は、トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の得点を生成する。後期融合部102は、得られた複数組の得点を融合し、全てのタグについての最終得点を取得する。タグ選択部103は、全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを照会画像のタグとして選択する。
本実施例では、1つの照会画像について1つ又は複数のタグを付ける必要がある。K個のキーワードを含むタグ辞書D及びN個のタグトレーニング画像を含む画像集合Tを予め設定してもよい。ここで、K個のキーワードはタグの候補としてもよく、各トレーニング画像Ii=({X1i,X2i,…,XMi},Yi)、i=1,…,N、{X1i,X2i,…,XMi}はトレーニング画像IiのM個のモダリティを表し、YiはK次元の0-1ベクトルであり、トレーニング画像Iiのタグ付け情報を表し、Yij=1はトレーニング画像Iiがj個目のタグを含むことを表し、Yij=1はトレーニング画像Iiがj個目のタグを含まないことを表し、j=1,…K。本発明では、M個のモダリティを含む任意の照会画像について、タグ辞書D及びトレーニング画像集合Tにより該照会画像の全てのタグを自動的に推定できる。
なお、任意の画像について、従来技術により該画像のM個のモダリティを取得できるため、照会画像及びトレーニング画像は共にM個のモダリティを有してもよい。モダリティの具体的な内容及びその取得は、従来技術を参照してもよい。
本実施例では、得点生成部101は、各モダリティに対し、全てのタグについての一組の得点を生成してもよく、具体的には、モダリティに基づいて、該照会画像と最も類似するk個のトレーニング画像を計算し、k個のトレーニング画像から各タグの出現頻度を統計し、正規化されたタグの頻度を該モダリティにおける全てのタグについての一組の得点とする。
本実施例では、得点生成部101は、複数組の得点を生成し、後期融合部102は、得られた複数組の得点を融合し、全てのタグについての一組の最終得点を取得し、タグ選択部103は、全てのタグの一組の最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを照会画像のタグとして選択してもよい。
従来技術に比べて、本発明は、複数のモダリティのタグ得点を計算した後で、後期融合の方法により複数のモダリティを効果的に融合することで、各モダリティ間の尺度の問題を回避できる、単一モダリティの画像タグ付け方法に比べて、ロバストで正確な画像タグ付けの結果を取得できる。
<実施例2>
実施例1を基にして、本発明の実施例はマルチモダリティに基づく画像タグ付け装置を提供し、以下は本発明の実施例をさらに説明する。
図2は、本発明の実施例2に係る画像タグ付け装置の構成を示す図である。図2に示すように、該画像タグ付け装置200は、得点生成部101、後期融合部102及びタグ選択部103を含む。ここで、実施例1に述べたように、得点生成部101は、照会画像に対し、トレーニング画像及び画像の複数のモダリティにより、タグ辞書における全てのタグについての複数組の第1の得点を生成する。
図2に示すように、画像タグ付け装置200は、画像の全てのモダリティを結合モダリティに直接に連結するモダリティ連結部204をさらに含んでもよい。得点生成部101は、トレーニング画像及び該結合モダリティにより、照会画像に対し、全てのタグについての一組の第2の得点を生成し、後期融合部102は、複数組の第1の得点と第2の得点とを融合し、全てのタグについての最終得点を取得する。
本実施例では、複数組(例えばM組)の第1の得点と第2の得点により後期融合を行うことで、画像タグ付けの結果をより正確にすることができる。以下は、後期融合部102による線形結合を例として本発明を詳細に説明する。なお、本発明の後期融合は、線形結合に限定されず、他の融合方法を採用してもよく、実際の状況に応じて具体的な実施形態を決定してもよい。
具体的には、得点生成部101は、各単一モダリティに基づいて一組のタグ得点を生成してもよい。例えば、モダリティtについて、距離尺度(例えばユークリッド距離、コサイン距離など)に基づいて照会画像Iqとトレーニング画像集合における全ての画像との距離を計算し、最小距離を有する上位k個のトレーニング画像Iq1,Iq2,…Iqkを抽出する。また、式(1)により全てのタグのこのk個の最も近いトレーニング画像に出現する頻度を統計し、これらの頻度を該モダリティtにおいて生成された全てのタグについての一組の得点としてもよい。
Figure 2015007975
画像の各モダリティは1つのベクトルで表されてもよく、モダリティ連結部204は、各モダリティに対して0-1正規化を行い、連結するとこで1つの新しい単一モダリティ(結合モダリティ)を取得してもよい。また、得点生成部101は、該連結された単一モダリティについて、距離尺度(例えばユークリッド距離、コサイン距離など)に基づいて照会画像Iqとトレーニング画像集合における全ての画像との距離を計算し、最小距離を有する上位k個のトレーニング画像Iq1,Iq2,…Iqkを抽出する。同様に、式(1)により全てのタグのこのk個の最も近いトレーニング画像に出現する頻度を統計し、これらの頻度を該連結されたモダリティtにおいて生成された一組のタグ得点とする。
具体的には、後期融合部102は、複数組の第1の得点に対して線形結合を行い、結合モダリティにより生成された第2の得点を制限条件として線形結合を導いてもよい。
各単一のモダリティtに基づいて生成された一組のタグ得点がTSt=(TSt1,TSt2,…,TStK)、t=1,…,Mであり、連結モダリティに基づいて生成された一組のタグ得点がTSa=(TSa1,TSa2,…,TSaK)であると仮定する。後期融合部102は、以下のステップにより、複数組のタグ得点を融合し、全てのタグについての一組の最終の得点TSfを生成してもよい。
具体的には、後期融合部102は、全てのTSt=(TSt1,TSt2,…,TStK)、t=1,…,Mに対して線形結合を行い、線形結合のタグ得点
Figure 2015007975
を取得してもよい。ここで、TStは該第1の得点であり、Mは該複数のモダリティの数であり、Wtは線形重みである。ここで、線形重みw=(w1,w2,…,wM)Tは、下記の条件
(1)全ての線形重みが0以上であること、即ちwt≧0、t=1,…,M、
(2)線形重みのL2-ノルム(||w||2)ができる限り小さいこと、及び
(3)線形結合におけるTScとTSaとはできる限り近接し、TSaは該第2の得点であることを満たす。
具体的には、線形重みwは、以下の問題を解くことで得られてもよく、
Figure 2015007975
、mは所定の定数である。
(2)を変換することで下記の目的関数(3)が得られた。
Figure 2015007975
ここで、
Figure 2015007975
、Iは単位マトリックスであり、s.t.は条件が満たされたことを表す。(3)は、標準の制限二次計画問題(standard constrained quadratic programming problem)であり、容易に解くことができるものである。よって、後期融合部102は、複数組の第1の得点と一組の第2の得点とを融合することで、全てのタグについての最終得点を取得できる。
図3は、本発明の実施例2に係る画像タグ付けプロセスを示す図である。図3に示すように、照会画像について、タグ辞書D及びトレーニング画像集合TによりM個のモダリティに対応する第1の得点、及びM個のモダリティにより連結された結合モダリティに対応する第2の得点を生成し、複数組の第1の得点と第2の得点とを融合して結合された一組のタグ得点を生成し、比較的大きいタグ得点を有する1つ又は複数のタグを該照会画像のタグとしてもよい。
また、画像タグ付けの結果をよりロバスト、正確にするため、タグ得点をさらに更新してもよい。図4は、本発明の実施例2に係る画像タグ付け装置の他の構成を示す図である。図4に示すように、画像タグ付け装置400は、得点生成部101、後期融合部102、タグ選択部103及びモダリティ連結部204を含む。
図4に示すように、該画像タグ付け装置400は、得点更新部405をさらに含んでもよい。得点更新部405は、線形結合により得られたタグ得点TScに基づいて第2の得点TSaを更新する。後期融合部102は、更新された第2の得点TSaに基づいて線形重みwを求め、線形結合により得られたタグ得点TScを更新する。
図4に示すように、該画像タグ付け装置400は、条件判断部406をさらに含んでもよい。条件判断部406は、所定の条件が満たされているか否かを判断し、所定の条件が満たされている場合、後期融合部102は、得られたタグ得点TScを全てのタグについての最終得点とし、所定の条件が満たされていない場合、得点更新部405は、第2の得点TSaを更新し続ける。
具体的には、得点更新部405は、下記の式
Figure 2015007975
を用いてもよい。ここで、aは定数である。従って、新しいTSaは上述した計画問題(2)を更新し、線形結合の重みwを改めて求める。なお、式(4)は単なる本発明の1つの具体的な実施形態であり、本発明はこれに限定されず、実際の状況に応じて他の更新式などを決定してもよいし、この式を適切に変形又は調整してもよい。
本実施例では、所定の条件は、例えば所定の実行回数に達したこと、線形結合のタグ得点TSCの変化が所定の範囲内にある(例えば今回得られたTSCと前回得られたTSCとの差が所定閾値よりも小さい)ことなどであってもよい。なお、本発明はこれに限定されず、実際の状況に応じて具体的な所定の条件を決定してもよい。
本実施例では、所定の条件が満たされるまで、上記のステップを繰り返してもよく、最後の線形結合のタグ得点TScを全てのタグについての最終の得点TSfとしてもよい。全てのタグについての最終の得点TSf=(TSf1,TSf2,…,TSfK)と仮定すると、大きい順に並び替え、上位kl個の最大のタグ得点を選択してもよい。対応するkl個のタグは照会画像Iqのタグ付けの結果である。
図5は、本発明の実施例2に係る画像タグ付けのプロセスを示す他の図である。図5に示すように、照会画像について、タグ辞書D及びトレーニング画像集合TによりM個のモダリティに対応する第1の得点、及びM個のモダリティにより連結された結合モダリティに対応する第2の得点を生成し、複数組の第1の得点と第2の得点とを融合し、結合された一組のタグ得点を生成し、タグ得点を更新して、線形結合の重みを求め、比較的大きいタグ得点を有する1つ又は複数のタグを該照会画像のタグとしてもよい。
本発明では、画像の複数のモダリティが考慮され、単一モダリティのみを用いる従来の画像タグ付け方法に比べて、よりロバストであり、且つ正確である。また、本発明は、複数のモダリティにより生成されたタグ得点に対して線形結合を行い、全ての正規化モダリティを1つの単一モダリティに直接に連結する従来の融合方法に比べて、このような融合方法はよりロバストであり、且つ効果的である。さらに、web画像について複数のモダリティを取得しやすいため、本発明はweb画像タグ付けタスクに特に好適である。
上記実施例によれば、複数のモダリティに対して同時に後期融合を行うことで、各モダリティ間の尺度の問題を回避できるため、複数のモダリティを効果的に融合できる。画像の複数のモダリティを効果的に融合することによって、単一モダリティの画像タグ付け方法に比べて、ロバストで正確な画像タグ付けの結果を取得できる。
<実施例3>
本発明の実施例は、マルチモダリティに基づく画像タグ付け方法を提供する。実施例1の画像タグ付け装置と重複する内容についてその説明が省略される。
図6は、本発明の実施例3に係る画像タグ付け方法のフローチャートである。図6に示すように、該画像タグ付け方法は、下記のステップを含む。
ステップ601:トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の得点を生成する。
ステップ602:得られた複数組の得点を融合し、全てのタグについての最終得点を取得する。
ステップ603:全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを照会画像のタグとして選択する。
上記実施例によれば、複数のモダリティに対して同時に後期融合を行うことで、各モダリティ間の尺度の問題を回避できるため、複数のモダリティを効果的に融合できる。画像の複数のモダリティを効果的に融合することによって、単一モダリティの画像タグ付け方法に比べて、ロバストで正確な画像タグ付けの結果を取得できる。
<実施例4>
本発明の実施例は、マルチモダリティに基づく画像タグ付け方法を提供する。実施例2の画像タグ付け装置と重複する内容についてその説明が省略される。
図7は、本発明の実施例4に係る画像タグ付け方法のフローチャートである。図7に示すように、該画像タグ付け方法は、下記のステップを含む。
ステップ701:トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する。
ステップ702:画像の全てのモダリティを結合モダリティに直接に連結し、トレーニング画像及び該結合モダリティにより、該照会画像に対し、全てのタグについての一組の第2の得点を生成する。
ステップ703:得られた複数組の第1の得点と第2の得点とを融合し、全てのタグについての最終得点を取得する。ここで、複数組の第1の得点に対して線形結合を行い、該結合モダリティにより生成された第2の得点を制限条件として該線形結合を導いてもよい。具体的な計算は実施例2を参照してもよい。
ステップ704:全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを照会画像のタグとして選択する。
本実施例では、画像タグ付けの結果をよりロバスト、正確にするため、タグ得点をさらに更新してもよい。図8は、本発明の実施例4に係る画像タグ付け方法の他のフローチャートである。図8に示すように、該画像タグ付け方法は、下記のステップを含む。
ステップ801:トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する。
ステップ802:画像の全てのモダリティを結合モダリティに直接に連結し、トレーニング画像及び該結合モダリティにより、該照会画像に対し、全てのタグについての一組の第2の得点を生成する。
ステップ803:得られた複数組の第1の得点と第2の得点とを融合し、全てのタグについての最終得点を取得する。ここで、複数組の第1の得点に対して線形結合を行い、該結合モダリティにより生成された第2の得点を制限条件として該線形結合を導いてもよい。具体的な計算は実施例2を参照してもよい。
ステップ804:所定の条件が満たされているか否かを判断し、所定の条件が満たされていない場合、ステップ805に進み、所定の条件が満たされている場合、該タグ得点を最終得点として、ステップ806に進む。
ステップ805:第2の得点を更新する。そして、ステップ803を再び実行し、再び線形結合の重みを求めて全てのタグについての得点を取得する。更新及び線形結合の重みを再び求めることは、実施例2を参照してもよい。
ステップ806:全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを該照会画像のタグとして選択する。
上記実施例によれば、複数のモダリティに対して同時に後期融合を行うことで、各モダリティ間の尺度の問題を回避できるため、複数のモダリティを効果的に融合できる。画像の複数のモダリティを効果的に融合することによって、単一モダリティの画像タグ付け方法に比べて、ロバストで正確な画像タグ付けの結果を取得できる。
本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムはロジック部により実行される時に、該ロジック部に上述した装置又は構成要件を実現させる、或いは該ロジック部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、ディスク、光ディスク、DVD、フラッシュメモリ等に関する。
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び修正を行ってもよく、これらの変形及び修正も本発明の範囲に属する。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
マルチモダリティ(multi-modality)に基づく画像タグ付け装置であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する得点生成手段と、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合(late fusion)手段と、
全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するタグ選択手段と、を含む、画像タグ付け装置。
(付記2)
画像の全てのモダリティを結合モダリティに直接に連結するモダリティ連結手段をさらに含み、
前記得点生成手段は、前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
前記後期融合手段は、前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、付記1に記載の画像タグ付け装置。
(付記3)
前記後期融合手段は、前記複数組の第1の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第2の得点を制限条件として前記線形結合を導く、付記2に記載の画像タグ付け装置。
(付記4)
前記後期融合手段の前記線形結合により得られたタグの得点は、
Figure 2015007975
となり、TStは前記第1の得点であり、Mは前記複数のモダリティの数であり、Wtは線形重みであり、前記線形重みは、下記の条件
(1)全ての線形重みが0以上であること、
(2)線形重みのL2-ノルムが最も小さいこと、及び
(3)線形結合におけるTScとTSaとはできる限り近接し、前記TSaは前記第2の得点であることを満たす、付記3に記載の画像タグ付け装置。
(付記5)
前記線形結合は、下記の制限
Figure 2015007975
を満たし、
W=(w1,w2,…,wM)T、mは所定の定数である、付記4に記載の画像タグ付け装置。
(付記6)
前記線形結合により得られたタグ得点TScに基づいて前記第2の得点TSaを更新する得点更新手段、をさらに含み、
前記後期融合手段は、更新された前記第2の得点TSaに基づいて前記線形重みを求め、前記線形結合により得られたタグ得点TScを更新する、付記4に記載の画像タグ付け装置。
(付記7)
所定の条件が満たされているか否かを判断する条件判断手段、をさらに含み、
所定の条件が満たされている場合、前記後期融合手段は、得られたタグ得点TScを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記得点更新手段は、前記第2の得点TSaを更新し続ける、付記6に記載の画像タグ付け装置。
(付記8)
前記得点更新手段は、下記の式
Figure 2015007975
を用い、aは定数である、付記6に記載の画像タグ付け装置。
(付記9)
マルチモダリティ(multi-modality)に基づく画像タグ付け方法であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成するステップと、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップと、
全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するステップと、を含む、画像タグ付け方法。
(付記10)
画像の全てのモダリティを結合モダリティに直接に連結するステップをさらに含み、
前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、付記9に記載の画像タグ付け方法。
(付記11)
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップにおいて、
前記複数組の第1の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第2の得点を制限条件として前記線形結合を導く、付記10に記載の画像タグ付け方法。
(付記12)
前記線形結合により得られたタグの得点は、
Figure 2015007975
となり、TStは前記第1の得点であり、Mは前記複数のモダリティの数であり、Wtは線形重みであり、前記線形重みは、下記の条件
(1)全ての線形重みが0以上であること、
(2)線形重みのL2-ノルムが最も小さいこと、及び
(3)線形結合におけるTScとTSaとはできる限り近接し、前記TSaは前記第2の得点であることを満たす、付記11に記載の画像タグ付け方法。
(付記13)
前記線形結合は、下記の制限
Figure 2015007975
を満たし、
W=(w1,w2,…,wM)T、mは所定の定数である、付記12に記載の画像タグ付け方法。
(付記14)
前記線形結合により得られたタグ得点TScに基づいて前記第2の得点TSaを更新するステップ、をさらに含み、
更新された前記第2の得点TSaに基づいて前記線形重みを求め、前記線形結合により得られたタグ得点TScを更新する、付記12に記載の画像タグ付け方法。
(付記15)
所定の条件が満たされているか否かを判断するステップ、をさらに含み、
所定の条件が満たされている場合、得られたタグ得点TScを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記第2の得点TSaを更新し続ける、付記14に記載の画像タグ付け方法。
(付記16)
前記線形結合により得られたタグ得点TScに基づいて前記第2の得点TSaを更新するステップにおいて、下記の式
Figure 2015007975
を用い、aは定数である、付記14に記載の画像タグ付け方法。
(付記17)
画像処理装置においてプログラムを実行する際に、コンピュータに、付記9乃至16のいずれかに記載の画像タグ付け方法を前記画像処理装置において実行させる、コンピュータ読み取り可能なプログラム。
(付記18)
コンピュータに、付記9乃至16のいずれかに記載の画像タグ付け方法を画像処理装置において実行させるためのコンピュータ読み取り可能なプログラムを記録する、記録媒体。

Claims (10)

  1. マルチモダリティ(multi-modality)に基づく画像タグ付け装置であって、
    トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する得点生成手段と、
    得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合(late fusion)手段と、
    全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するタグ選択手段と、を含む、画像タグ付け装置。
  2. 画像の全てのモダリティを結合モダリティに直接に連結するモダリティ連結手段をさらに含み、
    前記得点生成手段は、前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
    前記後期融合手段は、前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、請求項1に記載の画像タグ付け装置。
  3. 前記後期融合手段は、前記複数組の第1の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第2の得点を制限条件として前記線形結合を導く、請求項2に記載の画像タグ付け装置。
  4. 前記後期融合手段の前記線形結合により得られたタグの得点は、
    Figure 2015007975
    となり、TStは前記第1の得点であり、Mは前記複数のモダリティの数であり、Wtは線形重みであり、前記線形重みは、下記の条件
    (1)全ての線形重みが0以上であること、
    (2)線形重みのL2-ノルムが最も小さいこと、及び
    (3)線形結合におけるTScとTSaとはできる限り近接し、前記TSaは前記第2の得点であることを満たす、請求項3に記載の画像タグ付け装置。
  5. 前記線形結合は、下記の制限
    Figure 2015007975
    を満たし、
    W=(w1,w2,…,wM)T、mは所定の定数である、請求項4に記載の画像タグ付け装置。
  6. 前記線形結合により得られたタグ得点TScに基づいて前記第2の得点TSaを更新する得点更新手段、をさらに含み、
    前記後期融合手段は、更新された前記第2の得点TSaに基づいて前記線形重みwを求め、前記線形結合により得られたタグ得点TScを更新する、請求項4に記載の画像タグ付け装置。
  7. 所定の条件が満たされているか否かを判断する条件判断手段、をさらに含み、
    所定の条件が満たされている場合、前記後期融合手段は、得られたタグ得点TScを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記得点更新手段は、前記第2の得点TSaを更新し続ける、請求項6に記載の画像タグ付け装置。
  8. 前記得点更新手段は、下記の式
    Figure 2015007975
    を用い、aは定数である、請求項6に記載の画像タグ付け装置。
  9. マルチモダリティ(multi-modality)に基づく画像タグ付け方法であって、
    トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成するステップと、
    得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップと、
    全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するステップと、を含む、画像タグ付け方法。
  10. 画像の全てのモダリティを結合モダリティに直接に連結するステップをさらに含み、
    前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
    前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、請求項9に記載の画像タグ付け方法。
JP2014124050A 2013-06-24 2014-06-17 マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 Active JP6417739B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310251807.8 2013-06-24
CN201310251807.8A CN104239359B (zh) 2013-06-24 2013-06-24 基于多模态的图像标注装置以及方法

Publications (2)

Publication Number Publication Date
JP2015007975A true JP2015007975A (ja) 2015-01-15
JP6417739B2 JP6417739B2 (ja) 2018-11-07

Family

ID=52111833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014124050A Active JP6417739B2 (ja) 2013-06-24 2014-06-17 マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法

Country Status (3)

Country Link
US (1) US9830380B2 (ja)
JP (1) JP6417739B2 (ja)
CN (1) CN104239359B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830522B2 (en) 2013-05-01 2017-11-28 Cloudsight, Inc. Image processing including object selection
US9665595B2 (en) 2013-05-01 2017-05-30 Cloudsight, Inc. Image processing client
US9575995B2 (en) 2013-05-01 2017-02-21 Cloudsight, Inc. Image processing methods
US9569465B2 (en) 2013-05-01 2017-02-14 Cloudsight, Inc. Image processing
US10140631B2 (en) 2013-05-01 2018-11-27 Cloudsignt, Inc. Image processing server
US10223454B2 (en) 2013-05-01 2019-03-05 Cloudsight, Inc. Image directed search
US9639867B2 (en) 2013-05-01 2017-05-02 Cloudsight, Inc. Image processing system including image priority
DE212015000240U1 (de) * 2015-12-17 2017-05-24 Hefei University Of Technology System zur medizinischen Bildannotation
CN111325200B (zh) * 2018-12-17 2024-06-18 北京京东尚科信息技术有限公司 图像标注方法、装置、设备及计算机可读存储介质
CN110046669B (zh) * 2019-04-22 2019-12-24 广东石油化工学院 基于素描图像的半耦合度量鉴别字典学习的行人检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050185843A1 (en) * 2004-02-20 2005-08-25 Fuji Photo Film Co., Ltd. Digital pictorial book system, pictorial book searching method, and machine readable medium storing thereon pictorial book searching program
JP2012093991A (ja) * 2010-10-27 2012-05-17 Buffalo Inc タグ情報管理装置、タグ情報管理システム、タグ情報管理プログラム、タグ情報管理方法
JP2012234500A (ja) * 2011-05-09 2012-11-29 Canon Inc パターン識別装置、パターン識別方法およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005114557A2 (en) * 2004-05-13 2005-12-01 Proximex Multimodal high-dimensional data fusion for classification and identification
KR100785928B1 (ko) * 2006-07-04 2007-12-17 삼성전자주식회사 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템
US8463053B1 (en) * 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
JP4623387B2 (ja) * 2008-09-04 2011-02-02 ソニー株式会社 学習装置および方法、認識装置および方法、並びにプログラム
US8213725B2 (en) 2009-03-20 2012-07-03 Eastman Kodak Company Semantic event detection using cross-domain knowledge
US8171049B2 (en) * 2009-09-18 2012-05-01 Xerox Corporation System and method for information seeking in a multimedia collection
US9710760B2 (en) * 2010-06-29 2017-07-18 International Business Machines Corporation Multi-facet classification scheme for cataloging of information artifacts
US20120124029A1 (en) * 2010-08-02 2012-05-17 Shashi Kant Cross media knowledge storage, management and information discovery and retrieval
US8774515B2 (en) * 2011-04-20 2014-07-08 Xerox Corporation Learning structured prediction models for interactive image labeling
RU2014102345A (ru) * 2011-06-27 2015-08-10 Конинклейке Филипс Н.В. Анатомическая пометка обнаруженных изменений в данных изображений, полученных в ходе длительных наблюдений
US8812496B2 (en) * 2011-10-24 2014-08-19 Xerox Corporation Relevant persons identification leveraging both textual data and social context
US9411830B2 (en) * 2011-11-24 2016-08-09 Microsoft Technology Licensing, Llc Interactive multi-modal image search
FR2996939B1 (fr) * 2012-10-12 2014-12-19 Commissariat Energie Atomique Procede de classification d'un objet multimodal
US9190026B2 (en) * 2013-03-14 2015-11-17 Canon Kabushiki Kaisha Systems and methods for feature fusion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050185843A1 (en) * 2004-02-20 2005-08-25 Fuji Photo Film Co., Ltd. Digital pictorial book system, pictorial book searching method, and machine readable medium storing thereon pictorial book searching program
JP2005267608A (ja) * 2004-02-20 2005-09-29 Fuji Photo Film Co Ltd デジタル図鑑システム、図鑑検索方法、及び図鑑検索プログラム
JP2012093991A (ja) * 2010-10-27 2012-05-17 Buffalo Inc タグ情報管理装置、タグ情報管理システム、タグ情報管理プログラム、タグ情報管理方法
JP2012234500A (ja) * 2011-05-09 2012-11-29 Canon Inc パターン識別装置、パターン識別方法およびプログラム

Also Published As

Publication number Publication date
CN104239359B (zh) 2017-09-01
CN104239359A (zh) 2014-12-24
JP6417739B2 (ja) 2018-11-07
US20140379730A1 (en) 2014-12-25
US9830380B2 (en) 2017-11-28

Similar Documents

Publication Publication Date Title
JP6417739B2 (ja) マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法
Liao et al. Interpretable multimodal retrieval for fashion products
US10430255B2 (en) Application program interface mashup generation
US11074434B2 (en) Detection of near-duplicate images in profiles for detection of fake-profile accounts
US20190318256A1 (en) Method, apparatus and system for estimating causality among observed variables
Lou et al. Matchminer: Efficient spanning structure mining in large image collections
TW202029079A (zh) 異常群體識別方法及裝置
JP6434162B2 (ja) データ管理システム、データ管理方法およびプログラム
Cheng et al. Feedback-driven multiclass active learning for data streams
Xu et al. Coupled dictionary learning and feature mapping for cross-modal retrieval
Taheriyan et al. A scalable approach to learn semantic models of structured sources
Setyono et al. Betawi traditional food image detection using ResNet and DenseNet
Ying et al. PGRank: Personalized geographical ranking for point-of-interest recommendation
Cui et al. Ranking-oriented nearest-neighbor based method for automatic image annotation
Soheily-Khah et al. Progressive and iterative approaches for time series averaging
Li et al. Symmetry discovery and retrieval of nonrigid 3D shapes using geodesic skeleton paths
Liao et al. Depthwise grouped convolution for object detection
US10191786B2 (en) Application program interface mashup generation
US9195940B2 (en) Jabba-type override for correcting or improving output of a model
KR20180067976A (ko) 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
US20220172455A1 (en) Systems and methods for fractal-based visual searching
KR20150124825A (ko) 화상분류 기반의 나이브 베이즈 분류기
Cao et al. A bootstrapping framework with interactive information modeling for network alignment
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
Papadakis et al. A hyper-box approach using relational databases for large scale machine learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180924

R150 Certificate of patent or registration of utility model

Ref document number: 6417739

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150