JP7394680B2 - 画像類似度推定システム、学習装置、推定装置、及びプログラム - Google Patents
画像類似度推定システム、学習装置、推定装置、及びプログラム Download PDFInfo
- Publication number
- JP7394680B2 JP7394680B2 JP2020057919A JP2020057919A JP7394680B2 JP 7394680 B2 JP7394680 B2 JP 7394680B2 JP 2020057919 A JP2020057919 A JP 2020057919A JP 2020057919 A JP2020057919 A JP 2020057919A JP 7394680 B2 JP7394680 B2 JP 7394680B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- appearance
- model
- feature
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 claims description 186
- 239000000284 extract Substances 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 28
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 description 18
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 238000013136 deep learning model Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
図2は、実施形態の画像Gの例を示すブロック図である。図3は、実施形態の図形分類Zの例を示す図である。図4は、実施形態の外観情報170の構成例を示す図である。図5は、実施形態の分類情報171の構成例を示す図である。
10 外観情報取得部
11 外観特徴抽出部
12 分類情報取得部
13 分類テキスト特徴抽出部
14 全体特徴抽出部
15 モデル生成部
16 画像類似度推定部
17 記憶部
18 推定結果出力部
170 外観情報
171 分類情報
172 外観特徴抽出モデル
173 分類テキスト特徴抽出モデル
174 マルチモーダルモデル
Claims (9)
- 画像の外観を示す外観情報を取得する外観情報取得部と、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
画像類似度推定システム。 - 前記外観特徴抽出モデルは、深層学習の学習モデルの内部状態に重み付けした値を出力するアテンション機構を含み、
前記モデル生成部は、前記アテンション機構に、前記学習用画像における前記外観情報と前記分類情報との対応関係に応じた重みを学習させる、
請求項1に記載の画像類似度推定システム。 - 前記分類テキスト特徴抽出モデルは、文言に含まれる単語の特徴量を示す単語特徴量を、前記単語のidf値で重みづけした値に基づいて当該文言の特徴を抽出するモデルであり、
前記idf値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値である、
請求項1又は請求項2に記載の画像類似度推定システム。 - 前記idf値は、分類済みの画像の集合である画像群の数における、前記分類テキスト特徴量を含む画像の数に対する割合を用いて算出される値である、
請求項3に記載の画像類似度推定システム。 - 前記モデル生成部は、前記学習用画像における前記外観特徴量及び前記分類テキスト特徴量が、同一の範囲内に含まれるデータとなるように正規化する処理を行い、前記正規化する処理を行った前記学習用画像における、前記外観特徴量及び前記分類テキスト特徴量と前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
請求項1から請求項4の何れか一項に記載の画像類似度推定システム。 - 画像の外観を示す外観情報を取得する外観情報取得部と、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
学習装置。 - 画像の外観を示す外観情報を取得する外観情報取得部と、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、
推定装置。 - コンピュータを、
画像の外観を示す外観情報を取得する外観情報取得手段、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、
画像の分類を示す分類情報を取得する分類情報取得手段、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出手段、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成手段、
として機能させるためのプログラムであって、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成手段において、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルが生成され、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成手段において、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルが生成される、
プログラム。 - コンピュータを、
画像の外観を示す外観情報を取得する外観情報取得手段、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、
画像の分類を示す分類情報を取得する分類情報取得手段、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定手段、
として機能させるためのプログラムであって、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020057919A JP7394680B2 (ja) | 2020-03-27 | 2020-03-27 | 画像類似度推定システム、学習装置、推定装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020057919A JP7394680B2 (ja) | 2020-03-27 | 2020-03-27 | 画像類似度推定システム、学習装置、推定装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021157570A JP2021157570A (ja) | 2021-10-07 |
JP7394680B2 true JP7394680B2 (ja) | 2023-12-08 |
Family
ID=77918039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020057919A Active JP7394680B2 (ja) | 2020-03-27 | 2020-03-27 | 画像類似度推定システム、学習装置、推定装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7394680B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004966A1 (en) | 2001-06-18 | 2003-01-02 | International Business Machines Corporation | Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities |
JP6310599B1 (ja) | 2017-05-10 | 2018-04-11 | ヤフー株式会社 | 検索装置、検索方法および検索プログラム |
CN110298338A (zh) | 2019-06-20 | 2019-10-01 | 北京易道博识科技有限公司 | 一种文档图像分类方法及装置 |
-
2020
- 2020-03-27 JP JP2020057919A patent/JP7394680B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004966A1 (en) | 2001-06-18 | 2003-01-02 | International Business Machines Corporation | Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities |
JP6310599B1 (ja) | 2017-05-10 | 2018-04-11 | ヤフー株式会社 | 検索装置、検索方法および検索プログラム |
CN110298338A (zh) | 2019-06-20 | 2019-10-01 | 北京易道博识科技有限公司 | 一种文档图像分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021157570A (ja) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019222819B2 (en) | Method for scaling object detection to a very large number of categories | |
US11861307B2 (en) | Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system | |
El Aziz et al. | Multi-objective whale optimization algorithm for multilevel thresholding segmentation | |
Chen et al. | Mind's eye: A recurrent visual representation for image caption generation | |
US10380502B2 (en) | Calculation apparatus, calculation method, learning apparatus, learning method, and program | |
US10949615B2 (en) | Apparatus and method for verifying sentence | |
AU2016225947A1 (en) | System and method for multimedia document summarization | |
Hwang et al. | Fairfacegan: Fairness-aware facial image-to-image translation | |
CN113139664B (zh) | 一种跨模态的迁移学习方法 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、***、设备及存储介质 | |
JPWO2019106965A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2021069983A1 (en) | Method and system for producing digital image | |
US20200134454A1 (en) | Apparatus and method for training deep learning model | |
WO2023088174A1 (zh) | 目标检测方法及装置 | |
CN109033321B (zh) | 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法 | |
EP3910549A1 (en) | System and method for few-shot learning | |
Roy et al. | Tips: Text-induced pose synthesis | |
JP7259935B2 (ja) | 情報処理システム、情報処理方法およびプログラム | |
JP7394680B2 (ja) | 画像類似度推定システム、学習装置、推定装置、及びプログラム | |
CN111373391A (zh) | 语言处理装置、语言处理***和语言处理方法 | |
JP7270839B2 (ja) | 顔認識のための汎用特徴表現学習 | |
US11961249B2 (en) | Generating stereo-based dense depth images | |
WO2021137942A1 (en) | Pattern generation | |
Tompkins | Data Fusion on the Space of Sparse Positive Definite Matrices: An Application on Misinformation Detection | |
Eken | Using subspaces of weight matrix for evaluating generative adversarial networks with Frechet distance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200413 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7394680 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |