JP6417739B2 - マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 - Google Patents
マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 Download PDFInfo
- Publication number
- JP6417739B2 JP6417739B2 JP2014124050A JP2014124050A JP6417739B2 JP 6417739 B2 JP6417739 B2 JP 6417739B2 JP 2014124050 A JP2014124050 A JP 2014124050A JP 2014124050 A JP2014124050 A JP 2014124050A JP 6417739 B2 JP6417739 B2 JP 6417739B2
- Authority
- JP
- Japan
- Prior art keywords
- score
- image
- tags
- scores
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Description
本発明の実施例は、マルチモダリティに基づく画像タグ付け装置を提供する。図1は、本発明の実施例1に係る画像タグ付け装置の構成を示す図である。図1に示すように、画像タグ付け装置100は、得点生成部101、後期融合部102及びタグ選択部103を含む。
実施例1を基にして、本発明の実施例はマルチモダリティに基づく画像タグ付け装置を提供し、以下は本発明の実施例をさらに説明する。
(1)全ての線形重みが0以上であること、即ちwt≧0、t=1,…,M、
(2)線形重みのL2-ノルム(||w||2)ができる限り小さいこと、及び
(3)線形結合におけるTScとTSaとはできる限り近接し、TSaは該第2の得点であることを満たす。
本発明の実施例は、マルチモダリティに基づく画像タグ付け方法を提供する。実施例1の画像タグ付け装置と重複する内容についてその説明が省略される。
本発明の実施例は、マルチモダリティに基づく画像タグ付け方法を提供する。実施例2の画像タグ付け装置と重複する内容についてその説明が省略される。
マルチモダリティ(multi-modality)に基づく画像タグ付け装置であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する得点生成手段と、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合(late fusion)手段と、
全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するタグ選択手段と、を含む、画像タグ付け装置。
画像の全てのモダリティを結合モダリティに直接に連結するモダリティ連結手段をさらに含み、
前記得点生成手段は、前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
前記後期融合手段は、前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、付記1に記載の画像タグ付け装置。
前記後期融合手段は、前記複数組の第1の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第2の得点を制限条件として前記線形結合を導く、付記2に記載の画像タグ付け装置。
前記後期融合手段の前記線形結合により得られたタグの得点は、
(1)全ての線形重みが0以上であること、
(2)線形重みのL2-ノルムが最も小さいこと、及び
(3)線形結合におけるTScとTSaとはできる限り近接し、前記TSaは前記第2の得点であることを満たす、付記3に記載の画像タグ付け装置。
前記線形結合により得られたタグ得点TScに基づいて前記第2の得点TSaを更新する得点更新手段、をさらに含み、
前記後期融合手段は、更新された前記第2の得点TSaに基づいて前記線形重みを求め、前記線形結合により得られたタグ得点TScを更新する、付記4に記載の画像タグ付け装置。
所定の条件が満たされているか否かを判断する条件判断手段、をさらに含み、
所定の条件が満たされている場合、前記後期融合手段は、得られたタグ得点TScを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記得点更新手段は、前記第2の得点TSaを更新し続ける、付記6に記載の画像タグ付け装置。
マルチモダリティ(multi-modality)に基づく画像タグ付け方法であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成するステップと、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップと、
全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するステップと、を含む、画像タグ付け方法。
画像の全てのモダリティを結合モダリティに直接に連結するステップをさらに含み、
前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、付記9に記載の画像タグ付け方法。
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップにおいて、
前記複数組の第1の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第2の得点を制限条件として前記線形結合を導く、付記10に記載の画像タグ付け方法。
前記線形結合により得られたタグの得点は、
(1)全ての線形重みが0以上であること、
(2)線形重みのL2-ノルムが最も小さいこと、及び
(3)線形結合におけるTScとTSaとはできる限り近接し、前記TSaは前記第2の得点であることを満たす、付記11に記載の画像タグ付け方法。
前記線形結合により得られたタグ得点TScに基づいて前記第2の得点TSaを更新するステップ、をさらに含み、
更新された前記第2の得点TSaに基づいて前記線形重みを求め、前記線形結合により得られたタグ得点TScを更新する、付記12に記載の画像タグ付け方法。
所定の条件が満たされているか否かを判断するステップ、をさらに含み、
所定の条件が満たされている場合、得られたタグ得点TScを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記第2の得点TSaを更新し続ける、付記14に記載の画像タグ付け方法。
画像処理装置においてプログラムを実行する際に、コンピュータに、付記9乃至16のいずれかに記載の画像タグ付け方法を前記画像処理装置において実行させる、コンピュータ読み取り可能なプログラム。
コンピュータに、付記9乃至16のいずれかに記載の画像タグ付け方法を画像処理装置において実行させるためのコンピュータ読み取り可能なプログラムを記録する、記録媒体。
Claims (8)
- マルチモダリティ(multi-modality)に基づく画像タグ付け装置であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する得点生成手段と、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合(late fusion)手段と、
全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するタグ選択手段と、を含み、
画像の全てのモダリティを結合モダリティに直接に連結するモダリティ連結手段をさらに含み、
前記得点生成手段は、前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
前記後期融合手段は、前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、画像タグ付け装置。 - 前記後期融合手段は、前記複数組の第1の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第2の得点を制限条件として前記線形結合を導く、請求項1に記載の画像タグ付け装置。
- 前記線形結合により得られたタグ得点TScに基づいて前記第2の得点TSaを更新する得点更新手段、をさらに含み、
前記後期融合手段は、更新された前記第2の得点TSaに基づいて前記線形重みwを求め、前記線形結合により得られたタグ得点TScを更新する、請求項3に記載の画像タグ付け装置。 - 所定の条件が満たされているか否かを判断する条件判断手段、をさらに含み、
所定の条件が満たされている場合、前記後期融合手段は、得られたタグ得点TScを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記得点更新手段は、前記第2の得点TSaを更新し続ける、請求項5に記載の画像タグ付け装置。 - マルチモダリティ(multi-modality)に基づく画像タグ付け方法であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成するステップと、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップと、
全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するステップと、を含み、
画像の全てのモダリティを結合モダリティに直接に連結するステップをさらに含み、
前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、画像タグ付け方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310251807.8A CN104239359B (zh) | 2013-06-24 | 2013-06-24 | 基于多模态的图像标注装置以及方法 |
CN201310251807.8 | 2013-06-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015007975A JP2015007975A (ja) | 2015-01-15 |
JP6417739B2 true JP6417739B2 (ja) | 2018-11-07 |
Family
ID=52111833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014124050A Active JP6417739B2 (ja) | 2013-06-24 | 2014-06-17 | マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9830380B2 (ja) |
JP (1) | JP6417739B2 (ja) |
CN (1) | CN104239359B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9639867B2 (en) | 2013-05-01 | 2017-05-02 | Cloudsight, Inc. | Image processing system including image priority |
US9665595B2 (en) | 2013-05-01 | 2017-05-30 | Cloudsight, Inc. | Image processing client |
US9569465B2 (en) | 2013-05-01 | 2017-02-14 | Cloudsight, Inc. | Image processing |
US9575995B2 (en) | 2013-05-01 | 2017-02-21 | Cloudsight, Inc. | Image processing methods |
US10223454B2 (en) | 2013-05-01 | 2019-03-05 | Cloudsight, Inc. | Image directed search |
US10140631B2 (en) | 2013-05-01 | 2018-11-27 | Cloudsignt, Inc. | Image processing server |
US9830522B2 (en) | 2013-05-01 | 2017-11-28 | Cloudsight, Inc. | Image processing including object selection |
CN114398511A (zh) * | 2015-12-17 | 2022-04-26 | 北京安和福祉科技有限公司 | 一种医疗***可视化设备及其标签标注方法 |
CN111325200B (zh) * | 2018-12-17 | 2024-06-18 | 北京京东尚科信息技术有限公司 | 图像标注方法、装置、设备及计算机可读存储介质 |
CN110046669B (zh) * | 2019-04-22 | 2019-12-24 | 广东石油化工学院 | 基于素描图像的半耦合度量鉴别字典学习的行人检索方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005267608A (ja) * | 2004-02-20 | 2005-09-29 | Fuji Photo Film Co Ltd | デジタル図鑑システム、図鑑検索方法、及び図鑑検索プログラム |
US7242810B2 (en) * | 2004-05-13 | 2007-07-10 | Proximex Corporation | Multimodal high-dimensional data fusion for classification and identification |
KR100785928B1 (ko) * | 2006-07-04 | 2007-12-17 | 삼성전자주식회사 | 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템 |
US8463053B1 (en) * | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
JP4623387B2 (ja) | 2008-09-04 | 2011-02-02 | ソニー株式会社 | 学習装置および方法、認識装置および方法、並びにプログラム |
US8213725B2 (en) | 2009-03-20 | 2012-07-03 | Eastman Kodak Company | Semantic event detection using cross-domain knowledge |
US8171049B2 (en) * | 2009-09-18 | 2012-05-01 | Xerox Corporation | System and method for information seeking in a multimedia collection |
US9710760B2 (en) * | 2010-06-29 | 2017-07-18 | International Business Machines Corporation | Multi-facet classification scheme for cataloging of information artifacts |
WO2012018847A2 (en) * | 2010-08-02 | 2012-02-09 | Cognika Corporation | Cross media knowledge storage, management and information discovery and retrieval |
JP2012093991A (ja) * | 2010-10-27 | 2012-05-17 | Buffalo Inc | タグ情報管理装置、タグ情報管理システム、タグ情報管理プログラム、タグ情報管理方法 |
US8774515B2 (en) * | 2011-04-20 | 2014-07-08 | Xerox Corporation | Learning structured prediction models for interactive image labeling |
JP5791361B2 (ja) * | 2011-05-09 | 2015-10-07 | キヤノン株式会社 | パターン識別装置、パターン識別方法およびプログラム |
JP6023189B2 (ja) * | 2011-06-27 | 2016-11-09 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 一連の調査の画像データ内における発見の解剖学的タグ付け |
US8812496B2 (en) * | 2011-10-24 | 2014-08-19 | Xerox Corporation | Relevant persons identification leveraging both textual data and social context |
EP2783305A4 (en) * | 2011-11-24 | 2015-08-12 | Microsoft Technology Licensing Llc | MULTIMODAL INTERACTIVE IMAGE SEARCH |
FR2996939B1 (fr) * | 2012-10-12 | 2014-12-19 | Commissariat Energie Atomique | Procede de classification d'un objet multimodal |
US9190026B2 (en) * | 2013-03-14 | 2015-11-17 | Canon Kabushiki Kaisha | Systems and methods for feature fusion |
-
2013
- 2013-06-24 CN CN201310251807.8A patent/CN104239359B/zh active Active
-
2014
- 2014-06-17 JP JP2014124050A patent/JP6417739B2/ja active Active
- 2014-06-18 US US14/307,687 patent/US9830380B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20140379730A1 (en) | 2014-12-25 |
CN104239359A (zh) | 2014-12-24 |
US9830380B2 (en) | 2017-11-28 |
CN104239359B (zh) | 2017-09-01 |
JP2015007975A (ja) | 2015-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6417739B2 (ja) | マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 | |
Liao et al. | Interpretable multimodal retrieval for fashion products | |
Shrivastava et al. | Asymmetric LSH (ALSH) for sublinear time maximum inner product search (MIPS) | |
Lou et al. | Matchminer: Efficient spanning structure mining in large image collections | |
CN106844518B (zh) | 一种基于子空间学习的不完整跨模态检索方法 | |
CN113039539B (zh) | 使用ai模型推荐来扩展搜索引擎能力 | |
Zhang et al. | Social image tagging using graph-based reinforcement on multi-type interrelated objects | |
US10198497B2 (en) | Search term clustering | |
Peng et al. | Multi-level preference regression for cold-start recommendations | |
Xu et al. | Coupled dictionary learning and feature mapping for cross-modal retrieval | |
Zhang et al. | Gaussian metric learning for few-shot uncertain knowledge graph completion | |
JPWO2017072890A1 (ja) | データ管理システム、データ管理方法およびプログラム | |
Setyono et al. | Betawi traditional food image detection using ResNet and DenseNet | |
Conti et al. | Vocabulary-free image classification | |
Syriani et al. | Assessing the ability of chatgpt to screen articles for systematic reviews | |
Ying et al. | PGRank: Personalized geographical ranking for point-of-interest recommendation | |
Cui et al. | Ranking-oriented nearest-neighbor based method for automatic image annotation | |
Li et al. | Symmetry discovery and retrieval of nonrigid 3D shapes using geodesic skeleton paths | |
Soheily-Khah et al. | Progressive and iterative approaches for time series averaging | |
US20130151517A1 (en) | File search apparatus and method using tag graph | |
Liao et al. | Depthwise grouped convolution for object detection | |
KR101592670B1 (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 | |
US9195940B2 (en) | Jabba-type override for correcting or improving output of a model | |
CN110275990B (zh) | Kv存储的键与值的生成方法及装置 | |
US20220172455A1 (en) | Systems and methods for fractal-based visual searching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180911 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6417739 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |