JP7394680B2 - 画像類似度推定システム、学習装置、推定装置、及びプログラム - Google Patents

画像類似度推定システム、学習装置、推定装置、及びプログラム Download PDF

Info

Publication number
JP7394680B2
JP7394680B2 JP2020057919A JP2020057919A JP7394680B2 JP 7394680 B2 JP7394680 B2 JP 7394680B2 JP 2020057919 A JP2020057919 A JP 2020057919A JP 2020057919 A JP2020057919 A JP 2020057919A JP 7394680 B2 JP7394680 B2 JP 7394680B2
Authority
JP
Japan
Prior art keywords
image
appearance
model
feature
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020057919A
Other languages
English (en)
Other versions
JP2021157570A (ja
Inventor
大地 小池
高志 末永
Original Assignee
株式会社Nttデータグループ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttデータグループ filed Critical 株式会社Nttデータグループ
Priority to JP2020057919A priority Critical patent/JP7394680B2/ja
Publication of JP2021157570A publication Critical patent/JP2021157570A/ja
Application granted granted Critical
Publication of JP7394680B2 publication Critical patent/JP7394680B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

特許法第30条第2項適用 (1) 発行者名 一般社団法人 電子情報通信学会 刊行物名 信学技報,vol.119,no.386,MVE2019-30,pp.31-32,2020年1月 発行年月日 令和2年1月16日 (2) 公開日 令和2年1月23日 集会名 メディアエクスペリエンス・バーチャル環境基礎研究会(MVE) 開催場所 奈良先端科学技術大学院大学 情報科学棟 A会場(奈良県生駒市高山町8916番地の5(けいはんな学研都市))
本発明は、画像類似度推定システム、学習装置、推定装置、及びプログラムに関する。
特許庁における商標出願の審査においては、出願に係る商標と、既に出願済みの商標とが類似するか否かが判断される。文字や図形等などの画像が類似するか否かを判定する技術として、画像の特徴に基づく深層学習を行い、類似する画像を抽出するものがある。例えば、特許文献1には、画像の複数個所を特定し、特定したそれぞれの箇所の特徴量を算出し、算出したそれぞれの特徴量に基づき、類似する画像を抽出する技術が開示されている。
特許第5934653号公報
しかしながら、商標の類否は、出願商標及び引用商標がその外観、称呼又は観念等によって需要者に与える印象、記憶、連想等を総合して全体的に観察し、出願商標を指定商品又は指定役務に使用した場合に引用商標と出所混同のおそれがあるか否かにより判断する(商標法第4条第1項第11号の審査基準)。つまり、外観のみならず、称呼及び観念のそれぞれの観点から、総合的に商標の類否が判断される。このため、特許文献1の技術を用いて画像の類似性、つまり外観の類似性のみを判定するだけでは、商標の類比を判断するうえで不十分となる問題があった。
本発明は、上記問題を解決すべくなされたもので、その目的は、外観のみならず観念を考慮して画像の類否を判定することができる画像類似度推定システム、学習装置、推定装置、及びプログラムを提供することにある。
上記問題を解決するために、本発明の一態様は、画像の外観を示す外観情報を取得する外観情報取得部と、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、画像の分類を示す分類情報を取得する分類情報取得部と、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、を備え、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、ことを特徴とする画像類似度推定システムである。
また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記外観特徴抽出モデルは、深層学習の学習モデルの内部状態に重み付けした値を出力するアテンション機構を含み、前記モデル生成部は、前記アテンション機構に、前記学習用画像における前記外観情報と前記分類情報との対応関係に応じた重みを学習させるようにしてもよい。
また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記分類テキスト特徴抽出モデルは、文言に含まれる単語の特徴量を示す単語特徴量を、前記単語のidf値で重みづけした値に基づいて当該文言の特徴を抽出するモデルであり、前記idf値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値であるようにしてもよい。
また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記idf値は、分類済みの画像の集合である画像群の数における、前記分類テキスト特徴量を含む画像の数に対する割合を用いて算出される値であるようにしてもよい。
また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記モデル生成部は、前記学習用画像における前記外観特徴量及び前記分類テキスト特徴量が、同一の範囲内に含まれるデータとなるように正規化する前処理を行い、前記前処理を行った前記学習用画像における、前記外観特徴量及び前記分類テキスト特徴量と前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成するようにしてもよい。
また、本発明の一態様は、画像の外観を示す外観情報を取得する外観情報取得部と、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、画像の分類を示す分類情報を取得する分類情報取得部と、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、を備え、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する学習装置である。
また、本発明の一態様は、画像の外観を示す外観情報を取得する外観情報取得部と、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、画像の分類を示す分類情報を取得する分類情報取得部と、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、を備え、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである推定装置である。
また、本発明の一態様は、コンピュータを、画像の外観を示す外観情報を取得する外観情報取得手段、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、画像の分類を示す分類情報を取得する分類情報取得手段、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出手段、前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成手段、として機能させるためのプログラムであって、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、前記モデル生成手段において、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルが生成され、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記モデル生成手段において、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルが生成される、プログラムである。
また、本発明の一態様は、コンピュータを、画像の外観を示す外観情報を取得する外観情報取得手段、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、画像の分類を示す分類情報を取得する分類情報取得手段、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定手段、として機能させるためのプログラムであって、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、プログラムである。
この発明によれば、外観のみならず観念を考慮して画像の類否を判定することができる。
実施形態の画像類似度推定システム1の構成例を示すブロック図である。 実施形態の画像Gの例を示す図である。 実施形態の図形分類Zの例を示す図である。 実施形態の外観情報170の構成例を示す図である。 実施形態の分類情報171の構成例を示す図である。 実施形態の画像類似度推定システム1が行う処理を説明する図である。 実施形態の外観特徴抽出モデル172を説明する図である。 実施形態の分類テキスト特徴抽出モデル173を説明する図である。 実施形態のマルチモーダルモデル174を説明する図である。 実施形態の画像類似度推定システム1が行う処理の流れを示すフロー図である。 実施形態の画像類似度推定システム1が行う処理の流れを示すフロー図である。 実施形態の画像類似度推定システム1が行う処理の流れを示すフロー図である。
以下、本発明の実施形態について図面を参照して説明する。
実施形態の画像類似度推定システム1は、画像同士が類似する度合いを推定するシステムである。画像類似度推定システム1は、例えば、特許庁における商標出願の審査における、出願に係る商標の類似の判定に適用される。
商標の審査においては、外観の類似のみならず、称呼や概念的な類似を考慮した類似が判断される。例えば、商標の審査では、商標に付与される図形分類を用いて検索の論理式が作成される。そして、作成された論理式を用いた検索が実行されることにより、既に出願済みの商標の中から、出願に係る商標に類似する可能性がある商標の絞り込みが行われる。絞り込まれた商標の中から、外観、称呼、又は概念が類似するものが抽出される。
一般的に、深層学習のモデルを用いた画像処理では、画像における外観の特徴が多次元で抽出される。そして、外観の特徴を多次元空間で表現したベクトル同士の距離の近さに応じて類似度合いが推定される。すなわち、画像における外観の特徴から、類似度合いが推定される。このため、外観の特徴が全く異なる画像を類似すると推定することはほとんどあり得ない。例えば、同じ物体(例えば、たて琴など)を表現した画像であって、一方が写真など写実的な自然画像であり、他方がデザインされたイラスト画像である場合を考える。この場合、両画像における外観の特徴が大きく異なっている場合には、両者が類似すると推定されることは困難である。すなわち、たて琴の写真を示す画像と、たて琴をデザインしたイラスト画像とが類似すると推定されることは困難である。しかしながら、「たて琴」という概念が同一であることから、商標の類否判定においては、しばしば、両者が概念的に類似すると判断される場合がある。一般的な深層学習のモデルを用いた画像処理では、このような商標における概念が類似する画像を精度よく推定することが困難であった。
この対策として、本実施形態の画像類似度推定システム1では、分類テキスト特徴抽出モデル173を用いた推定を行う。分類テキスト特徴抽出モデル173は、画像における概念の特徴を学習させたモデルである。すなわち、本実施形態の画像類似度推定システム1では、画像における外観の特徴のみならず、画像における概念の特徴を抽出することができる。これにより、画像から抽出した概念の特徴を示すベクトル同士の距離の近さに応じて、概念の観点から類似度合いを推定することが可能となる。したがって、概念が類似する画像を抽出することができる。
なお、ここでの画像における概念とは、画像の分類を示す文言であり、例えば、商標に付与された図形分類に相当する文言である。本実施形態における概念の特徴とは、文言に含まれる単語の特徴であり、例えば、単語を分散表現した単語ベクトルである。以下の説明では、画像における概念の特徴を、分類テキスト特徴と称する場合がある。
また、本実施形態の画像類似度推定システム1では、深層学習のモデルを用いて外観特徴抽出モデル172と分類テキスト特徴抽出モデル173を生成する。外観特徴抽出モデル172は、画像における外観の特徴を学習させたモデルである。分類テキスト特徴抽出モデル173は、外観と概念のそれぞれの特徴量に基づいて画像全体の特徴(以下、全体特徴ともいう)を抽出するモデルである。すなわち、本実施形態の画像類似度推定システム1では、画像における外観と概念のそれぞれの特徴量を統合させた特徴(全体特徴)を抽出することができる。これにより、画像から抽出した外観と概念の特徴を統合的に示すベクトル同士の距離の近さに応じて、外観と概念の両方を統合させた観点から類似度合いを推定することが可能となる。したがって、外観と概念とを統合的にみて類似する画像を抽出することができる。
図1は、実施形態の画像類似度推定システム1の構成例を示すブロック図である。画像類似度推定システム1は、例えば、外観情報取得部10と、外観特徴抽出部11と、分類情報取得部12と、分類テキスト特徴抽出部13と、全体特徴抽出部14と、モデル生成部15と、画像類似度推定部16と、記憶部17と、推定結果出力部18とを備える。
外観情報取得部10は、画像における外観を示す情報を取得する。画像における外観を示す情報は、画像の見た目を示す情報であって、例えば、画素ごとの座標にRGB値が対応づけられた情報である。外観情報取得部10は、取得した情報を、記憶部17の外観情報170として記憶させる。
外観特徴抽出部11は、画像における外観情報170、及び外観特徴抽出モデル172を用いて、当該画像における外観の特徴量(外観特徴量)を抽出する。外観特徴抽出モデル172は、画像における外観情報から当該画像における外観特徴量を出力するモデルである。外観特徴抽出モデル172は、モデル生成部15によって生成される。外観特徴抽出モデル172の詳細については後で詳しく説明する。
分類情報取得部12は、画像における分類を示す情報を取得する。画像における分類を示す情報は、画像に示された内容を分類する情報であって、例えば、商標における図形分類を示す情報である。分類情報取得部12は、取得した情報を、記憶部17の分類情報171として記憶させる。
分類テキスト特徴抽出部13は、画像における分類情報171、及び分類テキスト特徴抽出モデル173を用いて、当該画像における分類を示す文言の特徴量(分類テキスト特徴量)を抽出する。分類テキスト特徴抽出モデル173は、画像における分類情報から当該画像における分類テキスト特徴量を出力するモデルである。分類テキスト特徴抽出モデル173は、モデル生成部15によって生成される。分類テキスト特徴抽出モデル173の詳細については後で詳しく説明する。
全体特徴抽出部14は、画像における外観特徴量、分類テキスト特徴量、及びマルチモーダルモデル174を用いて、当該画像における画像全体の特徴量(全体特徴量)を抽出する。全体特徴抽出部14は、画像における外観特徴量を外観特徴抽出部11から取得する。全体特徴抽出部14は、画像における分類テキスト特徴量を分類テキスト特徴抽出部13から取得する。マルチモーダルモデル174は、画像における外観特徴量及び分類テキスト特徴量から、当該画像における全体特徴量を出力するモデルである。マルチモーダルモデル174の詳細については後で詳しく説明する。
モデル生成部15は、外観特徴抽出モデル172を生成する。この際、モデル生成部15は、学習用画像における外観情報と分類情報との対応関係を深層学習のモデルに学習させる。これにより、モデル生成部15は、入力された画像の外観情報から、当該画像における分類情報を出力するモデルを生成し、生成したモデルを示す情報を記憶部17の外観特徴抽出モデル172として記憶させる。モデルを示す情報は、例えば、深層学習のモデルがCNN(Convolutional Neural Network)の学習モデルであれば、CNNの入力層、中間層、出力層の各層のユニット数、隠れ層の層数、活性化関数などを示す情報や、各階層のノードを結合する結合係数や重みを示す情報である。
また、モデル生成部15は、マルチモーダルモデル174を生成する。この際、モデル生成部15は、学習用画像における外観特徴量及び分類テキスト特徴量と、分類情報との対応関係を深層学習のモデルに学習させる。モデル生成部15は、外観特徴抽出部11によって抽出された学習用画像における外観特徴量を取得する。モデル生成部15は、分類テキスト特徴抽出部13によって抽出された学習用画像における分類テキスト特徴量を取得する。これにより、モデル生成部15は、入力された画像の外観特徴量及び分類テキスト特徴量から、当該画像における分類情報を出力するモデルを生成する。
ここで、画像の外観特徴量及び分類テキスト特徴量から抽出された分類情報は、画像の外観特徴量及び分類テキスト特徴量の双方に基づく特徴であり、全体特徴ということができる。すなわち、モデル生成部15は、学習用画像における外観特徴量及び分類テキスト特徴量と、分類情報との対応関係を深層学習のモデルに学習させることにより、当該画像における全体特徴を出力するモデルを生成する。モデル生成部15は、作成したモデルを示す情報を記憶部17のマルチモーダルモデル174として記憶させる。
画像類似度推定部16は、画像の類似度合い(画像類似度)を推定する。画像類似度推定部16は、複数の画像のそれぞれについて全体特徴量を取得する。画像類似度推定部16は、全体特徴抽出部14によって抽出された画像の全体特徴量を取得する。画像類似度推定部16は、それぞれの画像から抽出された全体特徴における互いのベクトル空間上の距離(例えば、コサイン類似度)を算出する。例えば、画像類似度推定部16は、算出した距離の順番を、類似する可能性が高い順序として推定する。或いは、画像類似度推定部16は、算出した距離が所定の閾値未満であった場合、両画像が類似すると推定するようにしてもよい。
推定結果出力部18は、画像類似度推定部16によって推定された推定結果を出力する。推定結果出力部18は、例えば、推定結果を図示しないディスプレイに出力することにより、推定結果を表示させる。或いは、推定結果出力部18は、推定結果を図示しないプリンタに出力することにより、推定結果を印刷するようにしてもよい。
上述した画像類似度推定システム1の機能部(外観情報取得部10、外観特徴抽出部11、分類情報取得部12、分類テキスト特徴抽出部13、全体特徴抽出部14、モデル生成部15、画像類似度推定部16、及び推定結果出力部18)は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
記憶部17は、少なくとも1つの記憶媒体を任意に組み合わせることによって構成される。記憶媒体は、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)である。記憶部17は、画像類似度推定システム1の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。
記憶部17は、例えば、外観情報170と、分類情報171と、外観特徴抽出モデル172と、分類テキスト特徴抽出モデル173と、マルチモーダルモデル174とを記憶する。
ここで、外観情報170と、分類情報171について、図2から図5を用いて説明する。
図2は、実施形態の画像Gの例を示すブロック図である。図3は、実施形態の図形分類Zの例を示す図である。図4は、実施形態の外観情報170の構成例を示す図である。図5は、実施形態の分類情報171の構成例を示す図である。
図2に示すように、画像Gは、例えば、円の中に描かれた看護師のイラストを示す画像である。図2の例に示す画像Gにおける外観の特徴として、例えば、図3に示すような図形分類Zが付与される。この例では、図形分類Zは、「2.3.1 頭部、上半身」及び「2.3.3 尼僧、看護婦」などである。
図4に示すように外観情報170は、例えば、画像IDと外観情報とを備える。画像IDは画像を一意に識別する識別情報である。外観情報は、画像における外観を示す情報である。この例では、外観情報として、画素ごとの座標とRGB値とを示す情報が示されている。
図5に示すように分類情報171は、例えば、画像IDと分類情報とを備える。画像IDは画像を一意に識別する識別情報である。分類情報は、画像における分類を示す情報である。この例では、分類情報として、商標における図形分類の番号体系とその番号体系に対応する分類の文言とが対応づけられた情報が示されている。
ここで、画像類似度推定システム1が画像の全体特徴を抽出する処理の流れを説明する。図6は、実施形態の画像類似度推定システム1が行う処理を説明する図である。
図6に示すように、画像類似度推定システム1は、画像Gにおける外観情報を外観特徴抽出モデル172に入力させることにより、外観特徴抽出モデル172から画像Gの外観特徴量を出力させる。また、画像類似度推定システム1は、画像Gにおける分類情報を分類テキスト特徴抽出モデル173に入力させることにより、分類テキスト特徴抽出モデル173から画像Gの分類テキスト特徴量を出力させる。そして、画像類似度推定システム1は、マルチモーダルモデル174に、画像Gにおける外観特徴量及び分類テキスト特徴量を入力させることにより、マルチモーダルモデル174から、画像Gにおける全体特徴量を出力させる。このように、画像類似度推定システム1では、外観特徴抽出モデル172、分類テキスト特徴抽出モデル173、及びマルチモーダルモデル174を用いて、画像Gにおける外観情報及び分類情報から、画像Gの全体特徴量を抽出する。
ここで、外観特徴抽出モデル172について、図7を用いて詳しく説明する。図7は、実施形態の外観特徴抽出モデル172を説明する図である。図7に示すように、外観特徴抽出モデル172は、例えば、CNN部172Aと、アテンション機構172Bと、乗算部172Cと、外観特徴出力部172Dとを備える。
CNN部172Aは、CNNによる深層学習のモデルである。アテンション機構172Bは、CNN部172Aから出力される内部状態に重みを付けて出力する機構である。例えば、アテンション機構172Bは、推定に重要でない部分(例えば、画像における背景の領域など)に、重要な部分と比較して小さな重みづけを行う。これにより、推定に有効な特徴に焦点をあて、推定結果により大きな影響を与えることが可能となる。加算部172Cは、CNN部172Aからの出力と、アテンション機構172Bからの出力とのそれぞれに重みを乗算して出力する。乗算部172Cは、例えば、CNN部172Aからの出力、又はアテンション機構172Bからの出力のいずれか一方を出力するスイッチとして機能する。これにより、アテンション機構172Bの有無を制御し、アテンション機構172Bの有無が推定の精度に与える影響を検証することが可能となる。外観特徴出力部172Dは、外観特徴抽出モデル172からの出力、つまり画像Gにおける外観特徴量が格納される出力層である。
例えば、まず、モデル生成部15は、CNN部172Aのファインチューニングを行う。具体的に、モデル生成部15は、CNN部172Aに、学習用画像における外観情報と分類情報との対応関係を、所定の終了条件を満たすまで繰り返し学習させる。学習用画像は、モデルの学習に用いられる画像であって、画像に対して、既にその分類情報が対応づけられている画像である。学習用画像は、例えば、出願済みの商標であって、商標における図形分類が付与されているものが用いられる。所定の終了条件は、任意に定められた条件であってよいが、例えば、学習段階における推定の精度の変化が収束することである。或いは所定の終了条件は、学習の回数が所定の上限に到達する、或いは推定の精度が所定の閾値以上になる、などの条件であってもよい。
次に、モデル生成部15は、ファインチューニングをしたCNN部172Aを用いて、アテンション機構172Bを学習させる。モデル生成部15は、学習用画像における外観情報を入力することにより、CNN部172Aを介してアテンション機構172Bから出力される特徴量に基づき付与される確率が高い分類情報が、学習用画像における分類情報に近づくように、アテンション機構172Bにおけるパラメータを調整することにより、アテンション機構172Bを学習させる。
このように、モデル生成部15は、CNN部172Aのファインチューニング、及びアテンション機構172Bの学習の二つの手順を行うことにより、外観特徴抽出モデル172を生成する。
ここで、分類テキスト特徴抽出モデル173について、図8を用いて詳しく説明する。図8は、分類テキスト特徴抽出モデル173を説明する図である。図8に示すように、分類テキスト特徴抽出モデル173は、例えば、抽出単語入力層173Aと、単語特徴埋込部173Bと、加重平均部173Cと、分類テキスト特徴出力部173Dとを備える。
抽出単語入力層173Aは、画像Gの分類を示す文言から抽出された単語が入力される入力層である。抽出単語入力層173Aには、例えば、画像Gの分類を示す文言において分かち書きされた単語のそれぞれが入力される。例えば、分類を示す文言が「頭部、上半身」である場合、抽出単語入力層173Aには、「頭部」と「上半身」がそれぞれ入力される。図8の例では、例えば、抽出単語入力層173Aにおける、w1に「頭部」が入力され、w2に「上半身」が入力される。この例のように、抽出単語入力層173Aには、単語の数に応じた数のノードが設定されてよい。また、分類を示す文言が分かち書きされていない場合に、分類を示す文言を形態素解析することにより、品詞ごとに分離して、分類を示す文言から、分類を示す単語(例えば、名詞など)を抽出するようにしてもよい。
単語特徴埋込部173Bには、抽出単語入力層173Aのそれぞれのノードに入力された単語の特徴が出力される。単語の特徴は、いわゆる単語の分散表現であり、例えば、コーパスを用いて学習したWord2Vec(以下、W2V)などの自然言語処理モデルに単語を入力させることにより得られる、単語の特徴を示す情報である。
ここで、図形の分類情報、特に商標における図形分類には、類似する商標を漏れなく抽出する必要があることから、比較的広い概念で図形分類が付与されているものがある。ここでの広い概念とは、例えば、「26.1.1 円」などの分類である。円が用いられている画像は数多く存在しており、この様な比較的広い概念での分類を示す文言の特徴を用いると、多数の画像が類似することになり、実質的な絞り込みとならない可能性が高い。つまり、比較的広い概念での分類を示す文言の特徴を反映させると、推定の精度を劣化させてしまう可能性がある。
この対策として、本実施形態では、絞り込みの効果が期待できない単語の影響が小さくなるように重みづけを行う。具体的に、加重平均部173Cは、単語から抽出された単語ベクトル(単語の特徴量)に、その単語のidf値で重みづけし、単語ベクトルごとに加重平均した値を出力する。idf値は以下の(1)式で示される値である。
idf(X)=log(N_total/N_X) …(1)
(1)式において、idf(X)は単語(X)におけるidf値である。N_totalは、図形分類が付与された画像の総数である。N_Xは、単語(X)を含む図形分類が付与された画像の数である。(1)式に示す通り、画像の総数に対して多くの画像に付与されている分類に含まれる単語におけるidf値は小さな値となり、画像の総数に対して少ない画像に付与されている分類に含まれる単語におけるidf値は大きな値となる。このようなidf値で重みづけがなされることにより、絞り込みに有効な単語の特徴を、分類テキスト特徴量により大きく影響させることができる。その一方で、絞り込みに効果が期待できない単語の特徴が分類テキスト特徴量に与える影響を抑制させることができる。
分類テキスト特徴出力部173Dは、分類テキスト特徴抽出モデル173からの出力、つまり画像Gにおける分類テキスト特徴量が格納される出力層である。
ここで、マルチモーダルモデル174について、図9を用いて詳しく説明する。図9は、マルチモーダルモデル174を説明する図である。図9に示すように、マルチモーダルモデル174は、例えば、特徴結合入力層174Aと、全結合層174Bと、全体特徴出力部174Cとを備える。
特徴結合入力層174Aは、画像Gにおける外観特徴量及び分類テキスト特徴量が入力される、マルチモーダルモデル174の入力層である。全体特徴出力部174Cは、マルチモーダルモデル174からの出力、つまり画像Gにおける全体特徴量が格納される出力層である。全結合層174Bは、特徴結合入力層174Aと全体特徴出力部174Cとの間を全結合するFC(Full Connection)層である。
ここで、画像Gにおける外観特徴量は、外観特徴抽出モデル172から出力される。また、画像Gにおける分類テキスト特徴量は、分類テキスト特徴抽出モデル173から出力される。それぞれの特徴量が、互いに異なるモデルから出力されることから、それぞれの特徴量が取り得る範囲が、同じような範囲とならない可能性がある。このような取り得る範囲が異なる特徴量を単純にそのまま統合させて入力させてしまうと、モデルが一方の特徴量と出力との対応関係のみを学習してしまい、他方の特徴量が反映されていない偏った推定がなされる可能性が高くなる。
このための対策として、本実施形態では、マルチモーダルモデル174に入力させる二つの特徴量を正規化する前処理を行う。具体的に、モデル生成部15は、画像Gにおける外観特徴量と、画像Gにおける分類テキスト特徴量とが同程度の範囲(例えば、0から1)となるように、一方の特徴量に所定の一律の値を乗算する。モデル生成部15は、必要に応じて他方の特徴量に、一方の特徴量に乗算した値とは異なる別の一律の値を乗算する。これにより、モデル生成部15は、マルチモーダルモデル174を、二つの特徴量の両方を考慮して全体特徴量を出力するように学習させることができる。
ここで、画像類似度推定システム1が行う処理の流れについて、図10から図12を用いて説明する。図10から図12は、実施形態の画像類似度推定システム1が行う処理の流れを示すフロー図である。
図10には、画像類似度推定システム1が分類テキスト特徴抽出モデル173を用いて画像から分類テキスト特徴量を抽出する処理の流れが示されている。画像類似度推定システム1は、画像Gの分類情報を取得する(ステップS10)。画像類似度推定システム1は、分類情報を用いて、画像Gの分類を示す文言を単語ごとに分離(分かち書き)する(ステップS11)。画像類似度推定システム1は、単語それぞれの単語ベクトルを抽出する(ステップS12)。
一方、画像類似度推定システム1は、単語それぞれのidf値を算出する(ステップS13)。画像類似度推定システム1は、単語の単語ベクトルに、その単語のidf値を重みづけ(乗算)する(ステップS14)。画像類似度推定システム1は、重みづけしたそれぞれの単語における単語ベクトルを、単語ベクトルごとに加重平均した値を、画像Gにおける分類テキスト特徴量として出力する(ステップS15)。
なお、図10では、ステップS12で単語ベクトルを抽出した後に、ステップS13で単語のidf値を算出する流れを例示して説明したが、少なくともステップS14において単語ベクトルにidf値が乗算できればよく、単語のidf値を算出した後に、ステップS10~S12に示す処理を行うことにより単語ベクトルを抽出してもよい。或いは、図10における単語ベクトルを抽出する処理とは独立させた処理として、idf値を算出する処理を行ってもよい。
図11には、画像類似度推定システム1が、外観特徴抽出モデル172、及びマルチモーダルモデル174を生成する処理の流れが示されている。画像類似度推定システム1は、学習用画像の外観情報を取得する(ステップS20)。画像類似度推定システム1は、学習用画像の分類情報を取得する(ステップS21)。画像類似度推定システム1は、学習用画像の外観情報と分類情報との対応関係をCNN部172Aに学習させることにより、外観特徴抽出モデル172のCNN部172Aを学習させる(ステップS22)。画像類似度推定システム1は、学習用画像の外観情報を入力させることにより得られるCNN部172Aの内部状態に基づき出力される可能性の高い分類情報が、学習用画像の分類情報に近づくように、外観特徴抽出モデル172のアテンション機構172Bを学習させる(ステップS23)。これにより、画像類似度推定システム1は、外観特徴抽出モデル172を生成する。
画像類似度推定システム1は、外観特徴抽出モデル172に学習用画像の外観情報を入力させることにより、学習用画像の外観特徴量を抽出する(ステップS24)。画像類似度推定システム1は、分類テキスト特徴抽出モデル173に学習用画像の分類情報を入力させることにより、学習用画像の分類テキスト特徴量を抽出する(ステップS25)。画像類似度推定システム1は、学習用画像の外観特徴量と分類テキスト特徴量とを正規化する処理を行う(ステップS26)。画像類似度推定システム1は、正規化する処理をした学習用画像の外観特徴量と分類テキスト特徴量に基づき出力される可能性が高い分類情報が、学習用画像の分類情報(ここでは全体特徴量に相当する)近づくように、全結合層174Bを学習させる(パラメータを調整する)ことにより、マルチモーダルモデル174を生成する(ステップS27)。画像類似度推定システム1は、生成した外観特徴抽出モデル172、マルチモーダルモデル174を記憶させる(ステップS28)。
なお、図11では、ステップS24で外観特徴量を抽出した後に、ステップS25で分類テキスト特徴量を抽出する流れを例示して説明したが、少なくともステップS26において二つの特徴量(外観特徴量と分類テキスト特徴量)が正規化できればよく、分類テキスト特徴量を抽出した後に外観特徴量を抽出してもよい。
図12には、画像類似度推定システム1が、二つの画像(ここでは対象画像と比較画像)の類似度を推定する処理の流れが示されている。画像類似度推定システム1は、対象画像における外観情報を取得し(ステップS30)、取得した情報と外観特徴抽出モデル172とを用いて、対象画像における外観特徴量を抽出する(ステップS31)。また、画像類似度推定システム1は、対象画像における分類情報を取得し(ステップS32)、取得した情報と分類テキスト特徴抽出モデル173とを用いて、対象画像における分類テキスト特徴量を抽出する(ステップS33)。そして、画像類似度推定システム1は、対象画像における外観特徴量と、分類テキスト特徴量と、マルチモーダルモデル174を用いて、対象画像における全体特徴量を抽出する(ステップS34)。
一方、画像類似度推定システム1は、比較画像における全体特徴量を抽出する(ステップS35)。画像類似度推定システム1が比較画像における全体特徴量を抽出する処理の流れは、対象画像における全体特徴量を抽出する処理の流れと同様である。
画像類似度推定システム1は、対象画像との類似度を推定したい全ての比較画像についてその全体特徴量を算出したか否かを判定する(ステップS36)。画像類似度推定システム1は、対象画像と比較画像のそれぞれの全体特徴におけるベクトル空間上の距離をコサイン類似度として算出する(ステップS37)。
なお、図12では、ステップS36で対象画像との類似度を推定したい全ての比較画像についてその全体特徴量を算出した後に、ステップS36でそれぞれのコサイン類似度を算出する流れを例示して説明したが、少なくとも対象画像と比較画像の類似度を算出できればよく、比較画像における全体特徴量を抽出する都度、コサイン類似度を算出するようにしてもよい。
以上説明したように、実施形態の画像類似度推定システム1は、外観情報取得部10と、外観特徴抽出部11と、分類情報取得部12と、分類テキスト特徴抽出部13と、全体特徴抽出部14と、モデル生成部15と、画像類似度推定部16とを備える。外観情報取得部10は画像Gの外観を示す外観情報170を取得する。外観特徴抽出部11は画像Gにおける外観情報170、及び外観特徴抽出モデル172を用いて、画像Gの外観の特徴を示す外観特徴量を抽出する。分類情報取得部12は画像Gの分類を示す分類情報171を取得する。分類テキスト特徴抽出部13は、画像Gにおける分類情報171、及び分類テキスト特徴抽出モデル173を用いて、画像Gの分類を示す文言の特徴を示す分類テキスト特徴量を抽出する。全体特徴抽出部14は、画像Gにおける外観特徴量、分類テキスト特徴量、及びマルチモーダルモデル174を用いて、画像Gにおける画像全体の特徴である全体特徴量を抽出する。モデル生成部15は、外観特徴抽出モデル172と、マルチモーダルモデル174を生成する。画像類似度推定部16は、対象画像における全体特徴量、及び比較画像における全体特徴量に基づいて、対象画像と比較画像の類似度合いを推定する。これにより、実施形態の画像類似度推定システム1は、画像Gにおける外観と概念との両方を考慮した特徴を抽出することができ、外観のみならず観念を考慮して画像の類否を判定することが可能である。
また、実施形態の画像類似度推定システム1では、外観特徴抽出モデル172は、深層学習の学習モデルの内部状態に重み付けした値を出力するアテンション機構172Bを含む。モデル生成部15は、アテンション機構172Bに、学習用画像における外観情報と前記分類情報との対応関係に応じた重みを学習させる。これにより、実施形態の画像類似度推定システム1では、外観特徴抽出モデル172の内部状態において外観の特徴を抽出するのに有効なものに焦点をあてることができ、より精度よく外観特徴量を抽出することが可能となる。
また、実施形態の画像類似度推定システム1では、分類テキスト特徴抽出モデル173は、文言に含まれる単語の特徴量を示す単語特徴量を、単語のidf値で重みづけした値に基づいて当該文言の特徴を抽出するモデルである。idf値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値である。これにより、実施形態の画像類似度推定システム1では、絞り込みに効果が期待できない図形分類の影響を弱め、絞り込みに有効な図形分類の影響を強めることができる。したがって、絞り込みにより効果的な分類テキスト特徴量を抽出することが可能となる。
また、実施形態の画像類似度推定システム1では、idf値は、分類済みの画像の集合である画像群の数に対する、前記分類テキスト特徴量を抽出する画像と同じ分類とされた画像の数の割合を用いて算出される値である。これにより、実施形態の画像類似度推定システム1では、上述した効果と同様の効果を奏する。
また、実施形態の画像類似度推定システム1では、モデル生成部15は、学習用画像における外観特徴量及び分類テキスト特徴量が、同一の範囲内に含まれるデータとなるように正規化する処理を行う。モデル生成部15は、正規化する処理を行った前記学習用画像における、外観特徴量及び分類テキスト特徴量と前記分類情報との対応関係を学習モデルに学習させることにより、マルチモーダルモデル174を生成する。これにより、実施形態の画像類似度推定システム1では、二つの特徴量の一方に偏ることなく、両方の特徴量が共に反映された全体特徴量を抽出することができる。したがって、外観と概念の双方を鑑みて類似する画像を推定することができる。
また、実施形態の画像類似度推定システム1は、学習装置として適用されてもよい。この場合、学習装置は、外観情報取得部10と、外観特徴抽出部11と、分類情報取得部12と、分類テキスト特徴抽出部13と、全体特徴抽出部14と、モデル生成部15とを備える。これにより、学習装置は、画像Gにおける外観と概念とを考慮した全体特徴を抽出することができるモデルを生成することができる。
また、実施形態の画像類似度推定システム1は、推定装置として適用されてもよい。この場合、推定装置は、外観情報取得部10と、外観特徴抽出部11と、分類情報取得部12と、分類テキスト特徴抽出部13と、全体特徴抽出部14と、画像類似度推定部16とを備える。これにより、推定装置は、画像Gにおける外観と概念とを考慮した全体特徴を抽出することができる。したがって、画像Gにおける外観と概念とを考慮して、類似する画像を推定することが可能である。
上述した実施形態における画像類似度推定システム1の全部又は一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1 画像類似度推定システム
10 外観情報取得部
11 外観特徴抽出部
12 分類情報取得部
13 分類テキスト特徴抽出部
14 全体特徴抽出部
15 モデル生成部
16 画像類似度推定部
17 記憶部
18 推定結果出力部
170 外観情報
171 分類情報
172 外観特徴抽出モデル
173 分類テキスト特徴抽出モデル
174 マルチモーダルモデル

Claims (9)

  1. 画像の外観を示す外観情報を取得する外観情報取得部と、
    画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
    画像の分類を示す分類情報を取得する分類情報取得部と、
    画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
    画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
    前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、
    対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、
    を備え、
    前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
    前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、
    前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
    前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
    前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
    画像類似度推定システム。
  2. 前記外観特徴抽出モデルは、深層学習の学習モデルの内部状態に重み付けした値を出力するアテンション機構を含み、
    前記モデル生成部は、前記アテンション機構に、前記学習用画像における前記外観情報と前記分類情報との対応関係に応じた重みを学習させる、
    請求項1に記載の画像類似度推定システム。
  3. 前記分類テキスト特徴抽出モデルは、文言に含まれる単語の特徴量を示す単語特徴量を、前記単語のidf値で重みづけした値に基づいて当該文言の特徴を抽出するモデルであり、
    前記idf値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値である、
    請求項1又は請求項2に記載の画像類似度推定システム。
  4. 前記idf値は、分類済みの画像の集合である画像群の数における、前記分類テキスト特徴量を含む画像の数に対する割合を用いて算出される値である、
    請求項3に記載の画像類似度推定システム。
  5. 前記モデル生成部は、前記学習用画像における前記外観特徴量及び前記分類テキスト特徴量が、同一の範囲内に含まれるデータとなるように正規化する処理を行い、前記正規化する処理を行った前記学習用画像における、前記外観特徴量及び前記分類テキスト特徴量と前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
    請求項1から請求項4の何れか一項に記載の画像類似度推定システム。
  6. 画像の外観を示す外観情報を取得する外観情報取得部と、
    画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
    画像の分類を示す分類情報を取得する分類情報取得部と、
    画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
    画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
    前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、
    を備え、
    前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
    前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、
    前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
    前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
    前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
    学習装置。
  7. 画像の外観を示す外観情報を取得する外観情報取得部と、
    画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
    画像の分類を示す分類情報を取得する分類情報取得部と、
    画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
    画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
    対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、
    を備え、
    前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、
    前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
    前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、
    推定装置。
  8. コンピュータを、
    画像の外観を示す外観情報を取得する外観情報取得手段、
    画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、
    画像の分類を示す分類情報を取得する分類情報取得手段、
    画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、
    画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出手段、
    前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成手段、
    として機能させるためのプログラムであって、
    前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
    前記モデル生成手段において、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルが生成され、
    前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
    前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
    前記モデル生成手段において、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルが生成される、
    プログラム。
  9. コンピュータを、
    画像の外観を示す外観情報を取得する外観情報取得手段、
    画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、
    画像の分類を示す分類情報を取得する分類情報取得手段、
    画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、
    画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
    対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定手段、
    として機能させるためのプログラムであって、
    前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、
    前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
    前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、
    プログラム。
JP2020057919A 2020-03-27 2020-03-27 画像類似度推定システム、学習装置、推定装置、及びプログラム Active JP7394680B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020057919A JP7394680B2 (ja) 2020-03-27 2020-03-27 画像類似度推定システム、学習装置、推定装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020057919A JP7394680B2 (ja) 2020-03-27 2020-03-27 画像類似度推定システム、学習装置、推定装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021157570A JP2021157570A (ja) 2021-10-07
JP7394680B2 true JP7394680B2 (ja) 2023-12-08

Family

ID=77918039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020057919A Active JP7394680B2 (ja) 2020-03-27 2020-03-27 画像類似度推定システム、学習装置、推定装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP7394680B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004966A1 (en) 2001-06-18 2003-01-02 International Business Machines Corporation Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities
JP6310599B1 (ja) 2017-05-10 2018-04-11 ヤフー株式会社 検索装置、検索方法および検索プログラム
CN110298338A (zh) 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004966A1 (en) 2001-06-18 2003-01-02 International Business Machines Corporation Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities
JP6310599B1 (ja) 2017-05-10 2018-04-11 ヤフー株式会社 検索装置、検索方法および検索プログラム
CN110298338A (zh) 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置

Also Published As

Publication number Publication date
JP2021157570A (ja) 2021-10-07

Similar Documents

Publication Publication Date Title
AU2019222819B2 (en) Method for scaling object detection to a very large number of categories
US11861307B2 (en) Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system
El Aziz et al. Multi-objective whale optimization algorithm for multilevel thresholding segmentation
Chen et al. Mind's eye: A recurrent visual representation for image caption generation
US10380502B2 (en) Calculation apparatus, calculation method, learning apparatus, learning method, and program
US10949615B2 (en) Apparatus and method for verifying sentence
AU2016225947A1 (en) System and method for multimedia document summarization
Hwang et al. Fairfacegan: Fairness-aware facial image-to-image translation
CN113139664B (zh) 一种跨模态的迁移学习方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、***、设备及存储介质
JPWO2019106965A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2021069983A1 (en) Method and system for producing digital image
US20200134454A1 (en) Apparatus and method for training deep learning model
WO2023088174A1 (zh) 目标检测方法及装置
CN109033321B (zh) 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
EP3910549A1 (en) System and method for few-shot learning
Roy et al. Tips: Text-induced pose synthesis
JP7259935B2 (ja) 情報処理システム、情報処理方法およびプログラム
JP7394680B2 (ja) 画像類似度推定システム、学習装置、推定装置、及びプログラム
CN111373391A (zh) 语言处理装置、语言处理***和语言处理方法
JP7270839B2 (ja) 顔認識のための汎用特徴表現学習
US11961249B2 (en) Generating stereo-based dense depth images
WO2021137942A1 (en) Pattern generation
Tompkins Data Fusion on the Space of Sparse Positive Definite Matrices: An Application on Misinformation Detection
Eken Using subspaces of weight matrix for evaluating generative adversarial networks with Frechet distance

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20200413

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231128

R150 Certificate of patent or registration of utility model

Ref document number: 7394680

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150