JP2021157570A - 画像類似度推定システム、学習装置、推定装置、及びプログラム - Google Patents
画像類似度推定システム、学習装置、推定装置、及びプログラム Download PDFInfo
- Publication number
- JP2021157570A JP2021157570A JP2020057919A JP2020057919A JP2021157570A JP 2021157570 A JP2021157570 A JP 2021157570A JP 2020057919 A JP2020057919 A JP 2020057919A JP 2020057919 A JP2020057919 A JP 2020057919A JP 2021157570 A JP2021157570 A JP 2021157570A
- Authority
- JP
- Japan
- Prior art keywords
- image
- appearance
- model
- classification
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000013016 learning Effects 0.000 title claims abstract description 98
- 238000000605 extraction Methods 0.000 claims abstract description 209
- 239000000284 extract Substances 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000013136 deep learning model Methods 0.000 description 7
- 230000000052 comparative effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
図2は、実施形態の画像Gの例を示すブロック図である。図3は、実施形態の図形分類Zの例を示す図である。図4は、実施形態の外観情報170の構成例を示す図である。図5は、実施形態の分類情報171の構成例を示す図である。
10 外観情報取得部
11 外観特徴抽出部
12 分類情報取得部
13 分類テキスト特徴抽出部
14 全体特徴抽出部
15 モデル生成部
16 画像類似度推定部
17 記憶部
18 推定結果出力部
170 外観情報
171 分類情報
172 外観特徴抽出モデル
173 分類テキスト特徴抽出モデル
174 マルチモーダルモデル
Claims (9)
- 画像の外観を示す外観情報を取得する外観情報取得部と、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
画像類似度推定システム。 - 前記外観特徴抽出モデルは、深層学習の学習モデルの内部状態に重み付けした値を出力するアテンション機構を含み、
前記モデル生成部は、前記アテンション機構に、前記学習用画像における前記外観情報と前記分類情報との対応関係に応じた重みを学習させる、
請求項1に記載の画像類似度推定システム。 - 前記分類テキスト特徴抽出モデルは、文言に含まれる単語の特徴量を示す単語特徴量を、前記単語のidf値で重みづけした値に基づいて当該文言の特徴を抽出するモデルであり、
前記idf値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値である、
請求項1又は請求項2に記載の画像類似度推定システム。 - 前記idf値は、分類済みの画像の集合である画像群の数における、前記分類テキスト特徴量を含む画像の数に対する割合を用いて算出される値である、
請求項3に記載の画像類似度推定システム。 - 前記モデル生成部は、前記学習用画像における前記外観特徴量及び前記分類テキスト特徴量が、同一の範囲内に含まれるデータとなるように正規化する処理を行い、前記正規化する処理を行った前記学習用画像における、前記外観特徴量及び前記分類テキスト特徴量と前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
請求項1から請求項4の何れか一項に記載の画像類似度推定システム。 - 画像の外観を示す外観情報を取得する外観情報取得部と、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
学習装置。 - 画像の外観を示す外観情報を取得する外観情報取得部と、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、
推定装置。 - コンピュータを、
画像の外観を示す外観情報を取得する外観情報取得手段、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、
画像の分類を示す分類情報を取得する分類情報取得手段、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出手段、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成手段、
として機能させるためのプログラムであって、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成手段において、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルが生成され、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成手段において、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルが生成される、
プログラム。 - コンピュータを、
画像の外観を示す外観情報を取得する外観情報取得手段、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、
画像の分類を示す分類情報を取得する分類情報取得手段、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定手段、
として機能させるためのプログラムであって、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020057919A JP7394680B2 (ja) | 2020-03-27 | 2020-03-27 | 画像類似度推定システム、学習装置、推定装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020057919A JP7394680B2 (ja) | 2020-03-27 | 2020-03-27 | 画像類似度推定システム、学習装置、推定装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021157570A true JP2021157570A (ja) | 2021-10-07 |
JP7394680B2 JP7394680B2 (ja) | 2023-12-08 |
Family
ID=77918039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020057919A Active JP7394680B2 (ja) | 2020-03-27 | 2020-03-27 | 画像類似度推定システム、学習装置、推定装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7394680B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004966A1 (en) * | 2001-06-18 | 2003-01-02 | International Business Machines Corporation | Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities |
JP6310599B1 (ja) * | 2017-05-10 | 2018-04-11 | ヤフー株式会社 | 検索装置、検索方法および検索プログラム |
CN110298338A (zh) * | 2019-06-20 | 2019-10-01 | 北京易道博识科技有限公司 | 一种文档图像分类方法及装置 |
-
2020
- 2020-03-27 JP JP2020057919A patent/JP7394680B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004966A1 (en) * | 2001-06-18 | 2003-01-02 | International Business Machines Corporation | Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities |
JP6310599B1 (ja) * | 2017-05-10 | 2018-04-11 | ヤフー株式会社 | 検索装置、検索方法および検索プログラム |
CN110298338A (zh) * | 2019-06-20 | 2019-10-01 | 北京易道博识科技有限公司 | 一种文档图像分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7394680B2 (ja) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11256918B2 (en) | Object detection in images | |
US11669739B2 (en) | Name and face matching | |
US8965891B1 (en) | Training scoring models optimized for highly-ranked results | |
Fu et al. | Transductive multi-view embedding for zero-shot recognition and annotation | |
US11151425B2 (en) | Methods and apparatus to perform image analyses in a computing environment | |
CN110019790B (zh) | 文本识别、文本监控、数据对象识别、数据处理方法 | |
US10127475B1 (en) | Classifying images | |
Kolouri et al. | Joint dictionaries for zero-shot learning | |
CN113139664A (zh) | 一种跨模态的迁移学习方法 | |
Tran et al. | Aggregating image and text quantized correlated components | |
WO2023088174A1 (zh) | 目标检测方法及装置 | |
Noroozi et al. | Seven: deep semi-supervised verification networks | |
CN111859940A (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
Zhu et al. | Context aware document embedding | |
Rehman et al. | Efficient coarser‐to‐fine holistic traffic sign detection for occlusion handling | |
US20210365719A1 (en) | System and method for few-shot learning | |
WO2020179378A1 (ja) | 情報処理システム、情報処理方法および記録媒体 | |
Zhu et al. | Gala: Toward geometry-and-lighting-aware object search for compositing | |
JP5197492B2 (ja) | 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム | |
JP2021157570A (ja) | 画像類似度推定システム、学習装置、推定装置、及びプログラム | |
JP6509391B1 (ja) | 計算機システム | |
CN110766439A (zh) | 一种酒店网络口碑评价方法、***及电子设备 | |
EP3942477A1 (en) | Systems, apparatuses, and methods for adapted generative adversarial network for classification | |
Du et al. | Classifier Adaptation Based on Modified Label Propagation for Unsupervised Domain Adaptation | |
Parseh et al. | Semantic embedding: scene image classification using scene-specific objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200413 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7394680 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |