JP2015007975A - マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 - Google Patents
マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 Download PDFInfo
- Publication number
- JP2015007975A JP2015007975A JP2014124050A JP2014124050A JP2015007975A JP 2015007975 A JP2015007975 A JP 2015007975A JP 2014124050 A JP2014124050 A JP 2014124050A JP 2014124050 A JP2014124050 A JP 2014124050A JP 2015007975 A JP2015007975 A JP 2015007975A
- Authority
- JP
- Japan
- Prior art keywords
- image
- score
- tags
- scores
- modality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】画像タグ付け装置は、トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する得点生成手段と、得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合手段と、全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを照会画像のタグとして選択するタグ選択手段と、を含む。本発明の実施例によれば、複数のモダリティを効果的に融合でき、ロバスト性のよく、且つ正確な画像タグ付けの結果を取得できる。
【選択図】図1
Description
本発明の実施例は、マルチモダリティに基づく画像タグ付け装置を提供する。図1は、本発明の実施例1に係る画像タグ付け装置の構成を示す図である。図1に示すように、画像タグ付け装置100は、得点生成部101、後期融合部102及びタグ選択部103を含む。
実施例1を基にして、本発明の実施例はマルチモダリティに基づく画像タグ付け装置を提供し、以下は本発明の実施例をさらに説明する。
(1)全ての線形重みが0以上であること、即ちwt≧0、t=1,…,M、
(2)線形重みのL2-ノルム(||w||2)ができる限り小さいこと、及び
(3)線形結合におけるTScとTSaとはできる限り近接し、TSaは該第2の得点であることを満たす。
本発明の実施例は、マルチモダリティに基づく画像タグ付け方法を提供する。実施例1の画像タグ付け装置と重複する内容についてその説明が省略される。
本発明の実施例は、マルチモダリティに基づく画像タグ付け方法を提供する。実施例2の画像タグ付け装置と重複する内容についてその説明が省略される。
マルチモダリティ(multi-modality)に基づく画像タグ付け装置であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する得点生成手段と、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合(late fusion)手段と、
全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するタグ選択手段と、を含む、画像タグ付け装置。
画像の全てのモダリティを結合モダリティに直接に連結するモダリティ連結手段をさらに含み、
前記得点生成手段は、前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
前記後期融合手段は、前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、付記1に記載の画像タグ付け装置。
前記後期融合手段は、前記複数組の第1の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第2の得点を制限条件として前記線形結合を導く、付記2に記載の画像タグ付け装置。
前記後期融合手段の前記線形結合により得られたタグの得点は、
(1)全ての線形重みが0以上であること、
(2)線形重みのL2-ノルムが最も小さいこと、及び
(3)線形結合におけるTScとTSaとはできる限り近接し、前記TSaは前記第2の得点であることを満たす、付記3に記載の画像タグ付け装置。
前記線形結合により得られたタグ得点TScに基づいて前記第2の得点TSaを更新する得点更新手段、をさらに含み、
前記後期融合手段は、更新された前記第2の得点TSaに基づいて前記線形重みを求め、前記線形結合により得られたタグ得点TScを更新する、付記4に記載の画像タグ付け装置。
所定の条件が満たされているか否かを判断する条件判断手段、をさらに含み、
所定の条件が満たされている場合、前記後期融合手段は、得られたタグ得点TScを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記得点更新手段は、前記第2の得点TSaを更新し続ける、付記6に記載の画像タグ付け装置。
マルチモダリティ(multi-modality)に基づく画像タグ付け方法であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成するステップと、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップと、
全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するステップと、を含む、画像タグ付け方法。
画像の全てのモダリティを結合モダリティに直接に連結するステップをさらに含み、
前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、付記9に記載の画像タグ付け方法。
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップにおいて、
前記複数組の第1の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第2の得点を制限条件として前記線形結合を導く、付記10に記載の画像タグ付け方法。
前記線形結合により得られたタグの得点は、
(1)全ての線形重みが0以上であること、
(2)線形重みのL2-ノルムが最も小さいこと、及び
(3)線形結合におけるTScとTSaとはできる限り近接し、前記TSaは前記第2の得点であることを満たす、付記11に記載の画像タグ付け方法。
前記線形結合により得られたタグ得点TScに基づいて前記第2の得点TSaを更新するステップ、をさらに含み、
更新された前記第2の得点TSaに基づいて前記線形重みを求め、前記線形結合により得られたタグ得点TScを更新する、付記12に記載の画像タグ付け方法。
所定の条件が満たされているか否かを判断するステップ、をさらに含み、
所定の条件が満たされている場合、得られたタグ得点TScを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記第2の得点TSaを更新し続ける、付記14に記載の画像タグ付け方法。
画像処理装置においてプログラムを実行する際に、コンピュータに、付記9乃至16のいずれかに記載の画像タグ付け方法を前記画像処理装置において実行させる、コンピュータ読み取り可能なプログラム。
コンピュータに、付記9乃至16のいずれかに記載の画像タグ付け方法を画像処理装置において実行させるためのコンピュータ読み取り可能なプログラムを記録する、記録媒体。
Claims (10)
- マルチモダリティ(multi-modality)に基づく画像タグ付け装置であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成する得点生成手段と、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得する後期融合(late fusion)手段と、
全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するタグ選択手段と、を含む、画像タグ付け装置。 - 画像の全てのモダリティを結合モダリティに直接に連結するモダリティ連結手段をさらに含み、
前記得点生成手段は、前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
前記後期融合手段は、前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、請求項1に記載の画像タグ付け装置。 - 前記後期融合手段は、前記複数組の第1の得点に対して線形結合を行い、前記結合モダリティにより生成された前記第2の得点を制限条件として前記線形結合を導く、請求項2に記載の画像タグ付け装置。
- 前記線形結合により得られたタグ得点TScに基づいて前記第2の得点TSaを更新する得点更新手段、をさらに含み、
前記後期融合手段は、更新された前記第2の得点TSaに基づいて前記線形重みwを求め、前記線形結合により得られたタグ得点TScを更新する、請求項4に記載の画像タグ付け装置。 - 所定の条件が満たされているか否かを判断する条件判断手段、をさらに含み、
所定の条件が満たされている場合、前記後期融合手段は、得られたタグ得点TScを全てのタグについての最終得点とし、所定の条件が満たされていない場合、前記得点更新手段は、前記第2の得点TSaを更新し続ける、請求項6に記載の画像タグ付け装置。 - マルチモダリティ(multi-modality)に基づく画像タグ付け方法であって、
トレーニング画像及び画像の複数のモダリティにより、照会画像に対し、タグ辞書における全てのタグについての複数組の第1の得点を生成するステップと、
得られた複数組の得点を融合し、全てのタグについての最終得点を取得するステップと、
全てのタグの最終得点に基づいて、比較的大きい得点を有する1つ又は複数のタグを前記照会画像のタグとして選択するステップと、を含む、画像タグ付け方法。 - 画像の全てのモダリティを結合モダリティに直接に連結するステップをさらに含み、
前記トレーニング画像及び前記結合モダリティにより、前記照会画像に対し、前記全てのタグについての一組の第2の得点を生成し、
前記複数組の第1の得点と前記第2の得点とを融合し、前記全てのタグについての最終得点を取得する、請求項9に記載の画像タグ付け方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310251807.8 | 2013-06-24 | ||
CN201310251807.8A CN104239359B (zh) | 2013-06-24 | 2013-06-24 | 基于多模态的图像标注装置以及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015007975A true JP2015007975A (ja) | 2015-01-15 |
JP6417739B2 JP6417739B2 (ja) | 2018-11-07 |
Family
ID=52111833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014124050A Active JP6417739B2 (ja) | 2013-06-24 | 2014-06-17 | マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9830380B2 (ja) |
JP (1) | JP6417739B2 (ja) |
CN (1) | CN104239359B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9830522B2 (en) | 2013-05-01 | 2017-11-28 | Cloudsight, Inc. | Image processing including object selection |
US9665595B2 (en) | 2013-05-01 | 2017-05-30 | Cloudsight, Inc. | Image processing client |
US9575995B2 (en) | 2013-05-01 | 2017-02-21 | Cloudsight, Inc. | Image processing methods |
US9569465B2 (en) | 2013-05-01 | 2017-02-14 | Cloudsight, Inc. | Image processing |
US10140631B2 (en) | 2013-05-01 | 2018-11-27 | Cloudsignt, Inc. | Image processing server |
US10223454B2 (en) | 2013-05-01 | 2019-03-05 | Cloudsight, Inc. | Image directed search |
US9639867B2 (en) | 2013-05-01 | 2017-05-02 | Cloudsight, Inc. | Image processing system including image priority |
DE212015000240U1 (de) * | 2015-12-17 | 2017-05-24 | Hefei University Of Technology | System zur medizinischen Bildannotation |
CN111325200B (zh) * | 2018-12-17 | 2024-06-18 | 北京京东尚科信息技术有限公司 | 图像标注方法、装置、设备及计算机可读存储介质 |
CN110046669B (zh) * | 2019-04-22 | 2019-12-24 | 广东石油化工学院 | 基于素描图像的半耦合度量鉴别字典学习的行人检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050185843A1 (en) * | 2004-02-20 | 2005-08-25 | Fuji Photo Film Co., Ltd. | Digital pictorial book system, pictorial book searching method, and machine readable medium storing thereon pictorial book searching program |
JP2012093991A (ja) * | 2010-10-27 | 2012-05-17 | Buffalo Inc | タグ情報管理装置、タグ情報管理システム、タグ情報管理プログラム、タグ情報管理方法 |
JP2012234500A (ja) * | 2011-05-09 | 2012-11-29 | Canon Inc | パターン識別装置、パターン識別方法およびプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005114557A2 (en) * | 2004-05-13 | 2005-12-01 | Proximex | Multimodal high-dimensional data fusion for classification and identification |
KR100785928B1 (ko) * | 2006-07-04 | 2007-12-17 | 삼성전자주식회사 | 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템 |
US8463053B1 (en) * | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
JP4623387B2 (ja) * | 2008-09-04 | 2011-02-02 | ソニー株式会社 | 学習装置および方法、認識装置および方法、並びにプログラム |
US8213725B2 (en) | 2009-03-20 | 2012-07-03 | Eastman Kodak Company | Semantic event detection using cross-domain knowledge |
US8171049B2 (en) * | 2009-09-18 | 2012-05-01 | Xerox Corporation | System and method for information seeking in a multimedia collection |
US9710760B2 (en) * | 2010-06-29 | 2017-07-18 | International Business Machines Corporation | Multi-facet classification scheme for cataloging of information artifacts |
US20120124029A1 (en) * | 2010-08-02 | 2012-05-17 | Shashi Kant | Cross media knowledge storage, management and information discovery and retrieval |
US8774515B2 (en) * | 2011-04-20 | 2014-07-08 | Xerox Corporation | Learning structured prediction models for interactive image labeling |
RU2014102345A (ru) * | 2011-06-27 | 2015-08-10 | Конинклейке Филипс Н.В. | Анатомическая пометка обнаруженных изменений в данных изображений, полученных в ходе длительных наблюдений |
US8812496B2 (en) * | 2011-10-24 | 2014-08-19 | Xerox Corporation | Relevant persons identification leveraging both textual data and social context |
US9411830B2 (en) * | 2011-11-24 | 2016-08-09 | Microsoft Technology Licensing, Llc | Interactive multi-modal image search |
FR2996939B1 (fr) * | 2012-10-12 | 2014-12-19 | Commissariat Energie Atomique | Procede de classification d'un objet multimodal |
US9190026B2 (en) * | 2013-03-14 | 2015-11-17 | Canon Kabushiki Kaisha | Systems and methods for feature fusion |
-
2013
- 2013-06-24 CN CN201310251807.8A patent/CN104239359B/zh active Active
-
2014
- 2014-06-17 JP JP2014124050A patent/JP6417739B2/ja active Active
- 2014-06-18 US US14/307,687 patent/US9830380B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050185843A1 (en) * | 2004-02-20 | 2005-08-25 | Fuji Photo Film Co., Ltd. | Digital pictorial book system, pictorial book searching method, and machine readable medium storing thereon pictorial book searching program |
JP2005267608A (ja) * | 2004-02-20 | 2005-09-29 | Fuji Photo Film Co Ltd | デジタル図鑑システム、図鑑検索方法、及び図鑑検索プログラム |
JP2012093991A (ja) * | 2010-10-27 | 2012-05-17 | Buffalo Inc | タグ情報管理装置、タグ情報管理システム、タグ情報管理プログラム、タグ情報管理方法 |
JP2012234500A (ja) * | 2011-05-09 | 2012-11-29 | Canon Inc | パターン識別装置、パターン識別方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN104239359B (zh) | 2017-09-01 |
CN104239359A (zh) | 2014-12-24 |
JP6417739B2 (ja) | 2018-11-07 |
US20140379730A1 (en) | 2014-12-25 |
US9830380B2 (en) | 2017-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6417739B2 (ja) | マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 | |
Liao et al. | Interpretable multimodal retrieval for fashion products | |
US10430255B2 (en) | Application program interface mashup generation | |
US11074434B2 (en) | Detection of near-duplicate images in profiles for detection of fake-profile accounts | |
US20190318256A1 (en) | Method, apparatus and system for estimating causality among observed variables | |
Lou et al. | Matchminer: Efficient spanning structure mining in large image collections | |
TW202029079A (zh) | 異常群體識別方法及裝置 | |
JP6434162B2 (ja) | データ管理システム、データ管理方法およびプログラム | |
Cheng et al. | Feedback-driven multiclass active learning for data streams | |
Xu et al. | Coupled dictionary learning and feature mapping for cross-modal retrieval | |
Taheriyan et al. | A scalable approach to learn semantic models of structured sources | |
Setyono et al. | Betawi traditional food image detection using ResNet and DenseNet | |
Ying et al. | PGRank: Personalized geographical ranking for point-of-interest recommendation | |
Cui et al. | Ranking-oriented nearest-neighbor based method for automatic image annotation | |
Soheily-Khah et al. | Progressive and iterative approaches for time series averaging | |
Li et al. | Symmetry discovery and retrieval of nonrigid 3D shapes using geodesic skeleton paths | |
Liao et al. | Depthwise grouped convolution for object detection | |
US10191786B2 (en) | Application program interface mashup generation | |
US9195940B2 (en) | Jabba-type override for correcting or improving output of a model | |
KR20180067976A (ko) | 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
US20220172455A1 (en) | Systems and methods for fractal-based visual searching | |
KR20150124825A (ko) | 화상분류 기반의 나이브 베이즈 분류기 | |
Cao et al. | A bootstrapping framework with interactive information modeling for network alignment | |
KR101592670B1 (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 | |
Papadakis et al. | A hyper-box approach using relational databases for large scale machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180911 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6417739 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |