JP2021157570A

JP2021157570A - 画像類似度推定システム、学習装置、推定装置、及びプログラム

Info

Publication number: JP2021157570A
Application number: JP2020057919A
Authority: JP
Inventors: 大地小池; Daichi Koike; 高志末永; Takashi Suenaga
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2021-10-07
Anticipated expiration: 2040-03-27
Also published as: JP7394680B2

Abstract

【課題】外観のみならず観念を考慮して画像の類否を判定することができる画像類似度推定システム、学習装置、推定装置及びプログラムを提供する。【解決手段】画像類似度推定システム１は、画像の外観を示す外観情報を取得する外観情報取得部１０と、画像における外観情報及び外観特徴抽出モデルを用いて画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部１１と、画像の分類を示す分類情報を取得する分類情報取得部１２と、画像における分類情報及び分類テキスト特徴抽出モデルを用いて画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部１３と、画像における外観特徴量、分類テキスト特徴量及びマルチモーダルモデルを用いて、画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部１４と、を備える。【選択図】図１

Description

本発明は、画像類似度推定システム、学習装置、推定装置、及びプログラムに関する。

特許庁における商標出願の審査においては、出願に係る商標と、既に出願済みの商標とが類似するか否かが判断される。文字や図形等などの画像が類似するか否かを判定する技術として、画像の特徴に基づく深層学習を行い、類似する画像を抽出するものがある。例えば、特許文献１には、画像の複数個所を特定し、特定したそれぞれの箇所の特徴量を算出し、算出したそれぞれの特徴量に基づき、類似する画像を抽出する技術が開示されている。

特許第５９３４６５３号公報

しかしながら、商標の類否は、出願商標及び引用商標がその外観、称呼又は観念等によって需要者に与える印象、記憶、連想等を総合して全体的に観察し、出願商標を指定商品又は指定役務に使用した場合に引用商標と出所混同のおそれがあるか否かにより判断する（商標法第４条第１項第１１号の審査基準）。つまり、外観のみならず、称呼及び観念のそれぞれの観点から、総合的に商標の類否が判断される。このため、特許文献１の技術を用いて画像の類似性、つまり外観の類似性のみを判定するだけでは、商標の類比を判断するうえで不十分となる問題があった。

本発明は、上記問題を解決すべくなされたもので、その目的は、外観のみならず観念を考慮して画像の類否を判定することができる画像類似度推定システム、学習装置、推定装置、及びプログラムを提供することにある。

上記問題を解決するために、本発明の一態様は、画像の外観を示す外観情報を取得する外観情報取得部と、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、画像の分類を示す分類情報を取得する分類情報取得部と、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、を備え、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、ことを特徴とする画像類似度推定システムである。

また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記外観特徴抽出モデルは、深層学習の学習モデルの内部状態に重み付けした値を出力するアテンション機構を含み、前記モデル生成部は、前記アテンション機構に、前記学習用画像における前記外観情報と前記分類情報との対応関係に応じた重みを学習させるようにしてもよい。

また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記分類テキスト特徴抽出モデルは、文言に含まれる単語の特徴量を示す単語特徴量を、前記単語のｉｄｆ値で重みづけした値に基づいて当該文言の特徴を抽出するモデルであり、前記ｉｄｆ値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値であるようにしてもよい。

また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記ｉｄｆ値は、分類済みの画像の集合である画像群の数における、前記分類テキスト特徴量を含む画像の数に対する割合を用いて算出される値であるようにしてもよい。

また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記モデル生成部は、前記学習用画像における前記外観特徴量及び前記分類テキスト特徴量が、同一の範囲内に含まれるデータとなるように正規化する前処理を行い、前記前処理を行った前記学習用画像における、前記外観特徴量及び前記分類テキスト特徴量と前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成するようにしてもよい。

また、本発明の一態様は、画像の外観を示す外観情報を取得する外観情報取得部と、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、画像の分類を示す分類情報を取得する分類情報取得部と、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、を備え、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する学習装置である。

また、本発明の一態様は、画像の外観を示す外観情報を取得する外観情報取得部と、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、画像の分類を示す分類情報を取得する分類情報取得部と、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、を備え、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである推定装置である。

また、本発明の一態様は、コンピュータを、画像の外観を示す外観情報を取得する外観情報取得手段、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、画像の分類を示す分類情報を取得する分類情報取得手段、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出手段、前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成手段、として機能させるためのプログラムであって、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、前記モデル生成手段において、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルが生成され、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記モデル生成手段において、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルが生成される、プログラムである。

また、本発明の一態様は、コンピュータを、画像の外観を示す外観情報を取得する外観情報取得手段、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、画像の分類を示す分類情報を取得する分類情報取得手段、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定手段、として機能させるためのプログラムであって、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、プログラムである。

この発明によれば、外観のみならず観念を考慮して画像の類否を判定することができる。

実施形態の画像類似度推定システム１の構成例を示すブロック図である。実施形態の画像Ｇの例を示す図である。実施形態の図形分類Ｚの例を示す図である。実施形態の外観情報１７０の構成例を示す図である。実施形態の分類情報１７１の構成例を示す図である。実施形態の画像類似度推定システム１が行う処理を説明する図である。実施形態の外観特徴抽出モデル１７２を説明する図である。実施形態の分類テキスト特徴抽出モデル１７３を説明する図である。実施形態のマルチモーダルモデル１７４を説明する図である。実施形態の画像類似度推定システム１が行う処理の流れを示すフロー図である。実施形態の画像類似度推定システム１が行う処理の流れを示すフロー図である。実施形態の画像類似度推定システム１が行う処理の流れを示すフロー図である。

以下、本発明の実施形態について図面を参照して説明する。

実施形態の画像類似度推定システム１は、画像同士が類似する度合いを推定するシステムである。画像類似度推定システム１は、例えば、特許庁における商標出願の審査における、出願に係る商標の類似の判定に適用される。

商標の審査においては、外観の類似のみならず、称呼や概念的な類似を考慮した類似が判断される。例えば、商標の審査では、商標に付与される図形分類を用いて検索の論理式が作成される。そして、作成された論理式を用いた検索が実行されることにより、既に出願済みの商標の中から、出願に係る商標に類似する可能性がある商標の絞り込みが行われる。絞り込まれた商標の中から、外観、称呼、又は概念が類似するものが抽出される。

一般的に、深層学習のモデルを用いた画像処理では、画像における外観の特徴が多次元で抽出される。そして、外観の特徴を多次元空間で表現したベクトル同士の距離の近さに応じて類似度合いが推定される。すなわち、画像における外観の特徴から、類似度合いが推定される。このため、外観の特徴が全く異なる画像を類似すると推定することはほとんどあり得ない。例えば、同じ物体（例えば、たて琴など）を表現した画像であって、一方が写真など写実的な自然画像であり、他方がデザインされたイラスト画像である場合を考える。この場合、両画像における外観の特徴が大きく異なっている場合には、両者が類似すると推定されることは困難である。すなわち、たて琴の写真を示す画像と、たて琴をデザインしたイラスト画像とが類似すると推定されることは困難である。しかしながら、「たて琴」という概念が同一であることから、商標の類否判定においては、しばしば、両者が概念的に類似すると判断される場合がある。一般的な深層学習のモデルを用いた画像処理では、このような商標における概念が類似する画像を精度よく推定することが困難であった。

この対策として、本実施形態の画像類似度推定システム１では、分類テキスト特徴抽出モデル１７３を用いた推定を行う。分類テキスト特徴抽出モデル１７３は、画像における概念の特徴を学習させたモデルである。すなわち、本実施形態の画像類似度推定システム１では、画像における外観の特徴のみならず、画像における概念の特徴を抽出することができる。これにより、画像から抽出した概念の特徴を示すベクトル同士の距離の近さに応じて、概念の観点から類似度合いを推定することが可能となる。したがって、概念が類似する画像を抽出することができる。

なお、ここでの画像における概念とは、画像の分類を示す文言であり、例えば、商標に付与された図形分類に相当する文言である。本実施形態における概念の特徴とは、文言に含まれる単語の特徴であり、例えば、単語を分散表現した単語ベクトルである。以下の説明では、画像における概念の特徴を、分類テキスト特徴と称する場合がある。

また、本実施形態の画像類似度推定システム１では、深層学習のモデルを用いて外観特徴抽出モデル１７２と分類テキスト特徴抽出モデル１７３を生成する。外観特徴抽出モデル１７２は、画像における外観の特徴を学習させたモデルである。分類テキスト特徴抽出モデル１７３は、外観と概念のそれぞれの特徴量に基づいて画像全体の特徴（以下、全体特徴ともいう）を抽出するモデルである。すなわち、本実施形態の画像類似度推定システム１では、画像における外観と概念のそれぞれの特徴量を統合させた特徴（全体特徴）を抽出することができる。これにより、画像から抽出した外観と概念の特徴を統合的に示すベクトル同士の距離の近さに応じて、外観と概念の両方を統合させた観点から類似度合いを推定することが可能となる。したがって、外観と概念とを統合的にみて類似する画像を抽出することができる。

図１は、実施形態の画像類似度推定システム１の構成例を示すブロック図である。画像類似度推定システム１は、例えば、外観情報取得部１０と、外観特徴抽出部１１と、分類情報取得部１２と、分類テキスト特徴抽出部１３と、全体特徴抽出部１４と、モデル生成部１５と、画像類似度推定部１６と、記憶部１７と、推定結果出力部１８とを備える。

外観情報取得部１０は、画像における外観を示す情報を取得する。画像における外観を示す情報は、画像の見た目を示す情報であって、例えば、画素ごとの座標にＲＧＢ値が対応づけられた情報である。外観情報取得部１０は、取得した情報を、記憶部１７の外観情報１７０として記憶させる。

外観特徴抽出部１１は、画像における外観情報１７０、及び外観特徴抽出モデル１７２を用いて、当該画像における外観の特徴量（外観特徴量）を抽出する。外観特徴抽出モデル１７２は、画像における外観情報から当該画像における外観特徴量を出力するモデルである。外観特徴抽出モデル１７２は、モデル生成部１５によって生成される。外観特徴抽出モデル１７２の詳細については後で詳しく説明する。

分類情報取得部１２は、画像における分類を示す情報を取得する。画像における分類を示す情報は、画像に示された内容を分類する情報であって、例えば、商標における図形分類を示す情報である。分類情報取得部１２は、取得した情報を、記憶部１７の分類情報１７１として記憶させる。

分類テキスト特徴抽出部１３は、画像における分類情報１７１、及び分類テキスト特徴抽出モデル１７３を用いて、当該画像における分類を示す文言の特徴量（分類テキスト特徴量）を抽出する。分類テキスト特徴抽出モデル１７３は、画像における分類情報から当該画像における分類テキスト特徴量を出力するモデルである。分類テキスト特徴抽出モデル１７３は、モデル生成部１５によって生成される。分類テキスト特徴抽出モデル１７３の詳細については後で詳しく説明する。

全体特徴抽出部１４は、画像における外観特徴量、分類テキスト特徴量、及びマルチモーダルモデル１７４を用いて、当該画像における画像全体の特徴量（全体特徴量）を抽出する。全体特徴抽出部１４は、画像における外観特徴量を外観特徴抽出部１１から取得する。全体特徴抽出部１４は、画像における分類テキスト特徴量を分類テキスト特徴抽出部１３から取得する。マルチモーダルモデル１７４は、画像における外観特徴量及び分類テキスト特徴量から、当該画像における全体特徴量を出力するモデルである。マルチモーダルモデル１７４の詳細については後で詳しく説明する。

モデル生成部１５は、外観特徴抽出モデル１７２を生成する。この際、モデル生成部１５は、学習用画像における外観情報と分類情報との対応関係を深層学習のモデルに学習させる。これにより、モデル生成部１５は、入力された画像の外観情報から、当該画像における分類情報を出力するモデルを生成し、生成したモデルを示す情報を記憶部１７の外観特徴抽出モデル１７２として記憶させる。モデルを示す情報は、例えば、深層学習のモデルがＣＮＮ（Convolutional Neural Network）の学習モデルであれば、ＣＮＮの入力層、中間層、出力層の各層のユニット数、隠れ層の層数、活性化関数などを示す情報や、各階層のノードを結合する結合係数や重みを示す情報である。

また、モデル生成部１５は、マルチモーダルモデル１７４を生成する。この際、モデル生成部１５は、学習用画像における外観特徴量及び分類テキスト特徴量と、分類情報との対応関係を深層学習のモデルに学習させる。モデル生成部１５は、外観特徴抽出部１１によって抽出された学習用画像における外観特徴量を取得する。モデル生成部１５は、分類テキスト特徴抽出部１３によって抽出された学習用画像における分類テキスト特徴量を取得する。これにより、モデル生成部１５は、入力された画像の外観特徴量及び分類テキスト特徴量から、当該画像における分類情報を出力するモデルを生成する。

ここで、画像の外観特徴量及び分類テキスト特徴量から抽出された分類情報は、画像の外観特徴量及び分類テキスト特徴量の双方に基づく特徴であり、全体特徴ということができる。すなわち、モデル生成部１５は、学習用画像における外観特徴量及び分類テキスト特徴量と、分類情報との対応関係を深層学習のモデルに学習させることにより、当該画像における全体特徴を出力するモデルを生成する。モデル生成部１５は、作成したモデルを示す情報を記憶部１７のマルチモーダルモデル１７４として記憶させる。

画像類似度推定部１６は、画像の類似度合い（画像類似度）を推定する。画像類似度推定部１６は、複数の画像のそれぞれについて全体特徴量を取得する。画像類似度推定部１６は、全体特徴抽出部１４によって抽出された画像の全体特徴量を取得する。画像類似度推定部１６は、それぞれの画像から抽出された全体特徴における互いのベクトル空間上の距離（例えば、コサイン類似度）を算出する。例えば、画像類似度推定部１６は、算出した距離の順番を、類似する可能性が高い順序として推定する。或いは、画像類似度推定部１６は、算出した距離が所定の閾値未満であった場合、両画像が類似すると推定するようにしてもよい。

推定結果出力部１８は、画像類似度推定部１６によって推定された推定結果を出力する。推定結果出力部１８は、例えば、推定結果を図示しないディスプレイに出力することにより、推定結果を表示させる。或いは、推定結果出力部１８は、推定結果を図示しないプリンタに出力することにより、推定結果を印刷するようにしてもよい。

上述した画像類似度推定システム１の機能部（外観情報取得部１０、外観特徴抽出部１１、分類情報取得部１２、分類テキスト特徴抽出部１３、全体特徴抽出部１４、モデル生成部１５、画像類似度推定部１６、及び推定結果出力部１８）は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

記憶部１７は、少なくとも１つの記憶媒体を任意に組み合わせることによって構成される。記憶媒体は、例えば、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＡＭ（Random Access read/write Memory）、ＲＯＭ（Read Only Memory）である。記憶部１７は、画像類似度推定システム１の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。

記憶部１７は、例えば、外観情報１７０と、分類情報１７１と、外観特徴抽出モデル１７２と、分類テキスト特徴抽出モデル１７３と、マルチモーダルモデル１７４とを記憶する。

ここで、外観情報１７０と、分類情報１７１について、図２から図５を用いて説明する。
図２は、実施形態の画像Ｇの例を示すブロック図である。図３は、実施形態の図形分類Ｚの例を示す図である。図４は、実施形態の外観情報１７０の構成例を示す図である。図５は、実施形態の分類情報１７１の構成例を示す図である。

図２に示すように、画像Ｇは、例えば、円の中に描かれた看護師のイラストを示す画像である。図２の例に示す画像Ｇにおける外観の特徴として、例えば、図３に示すような図形分類Ｚが付与される。この例では、図形分類Ｚは、「２．３．１頭部、上半身」及び「２．３．３尼僧、看護婦」などである。

図４に示すように外観情報１７０は、例えば、画像ＩＤと外観情報とを備える。画像ＩＤは画像を一意に識別する識別情報である。外観情報は、画像における外観を示す情報である。この例では、外観情報として、画素ごとの座標とＲＧＢ値とを示す情報が示されている。

図５に示すように分類情報１７１は、例えば、画像ＩＤと分類情報とを備える。画像ＩＤは画像を一意に識別する識別情報である。分類情報は、画像における分類を示す情報である。この例では、分類情報として、商標における図形分類の番号体系とその番号体系に対応する分類の文言とが対応づけられた情報が示されている。

ここで、画像類似度推定システム１が画像の全体特徴を抽出する処理の流れを説明する。図６は、実施形態の画像類似度推定システム１が行う処理を説明する図である。

図６に示すように、画像類似度推定システム１は、画像Ｇにおける外観情報を外観特徴抽出モデル１７２に入力させることにより、外観特徴抽出モデル１７２から画像Ｇの外観特徴量を出力させる。また、画像類似度推定システム１は、画像Ｇにおける分類情報を分類テキスト特徴抽出モデル１７３に入力させることにより、分類テキスト特徴抽出モデル１７３から画像Ｇの分類テキスト特徴量を出力させる。そして、画像類似度推定システム１は、マルチモーダルモデル１７４に、画像Ｇにおける外観特徴量及び分類テキスト特徴量を入力させることにより、マルチモーダルモデル１７４から、画像Ｇにおける全体特徴量を出力させる。このように、画像類似度推定システム１では、外観特徴抽出モデル１７２、分類テキスト特徴抽出モデル１７３、及びマルチモーダルモデル１７４を用いて、画像Ｇにおける外観情報及び分類情報から、画像Ｇの全体特徴量を抽出する。

ここで、外観特徴抽出モデル１７２について、図７を用いて詳しく説明する。図７は、実施形態の外観特徴抽出モデル１７２を説明する図である。図７に示すように、外観特徴抽出モデル１７２は、例えば、ＣＮＮ部１７２Ａと、アテンション機構１７２Ｂと、乗算部１７２Ｃと、外観特徴出力部１７２Ｄとを備える。

ＣＮＮ部１７２Ａは、ＣＮＮによる深層学習のモデルである。アテンション機構１７２Ｂは、ＣＮＮ部１７２Ａから出力される内部状態に重みを付けて出力する機構である。例えば、アテンション機構１７２Ｂは、推定に重要でない部分（例えば、画像における背景の領域など）に、重要な部分と比較して小さな重みづけを行う。これにより、推定に有効な特徴に焦点をあて、推定結果により大きな影響を与えることが可能となる。加算部１７２Ｃは、ＣＮＮ部１７２Ａからの出力と、アテンション機構１７２Ｂからの出力とのそれぞれに重みを乗算して出力する。乗算部１７２Ｃは、例えば、ＣＮＮ部１７２Ａからの出力、又はアテンション機構１７２Ｂからの出力のいずれか一方を出力するスイッチとして機能する。これにより、アテンション機構１７２Ｂの有無を制御し、アテンション機構１７２Ｂの有無が推定の精度に与える影響を検証することが可能となる。外観特徴出力部１７２Ｄは、外観特徴抽出モデル１７２からの出力、つまり画像Ｇにおける外観特徴量が格納される出力層である。

例えば、まず、モデル生成部１５は、ＣＮＮ部１７２Ａのファインチューニングを行う。具体的に、モデル生成部１５は、ＣＮＮ部１７２Ａに、学習用画像における外観情報と分類情報との対応関係を、所定の終了条件を満たすまで繰り返し学習させる。学習用画像は、モデルの学習に用いられる画像であって、画像に対して、既にその分類情報が対応づけられている画像である。学習用画像は、例えば、出願済みの商標であって、商標における図形分類が付与されているものが用いられる。所定の終了条件は、任意に定められた条件であってよいが、例えば、学習段階における推定の精度の変化が収束することである。或いは所定の終了条件は、学習の回数が所定の上限に到達する、或いは推定の精度が所定の閾値以上になる、などの条件であってもよい。

次に、モデル生成部１５は、ファインチューニングをしたＣＮＮ部１７２Ａを用いて、アテンション機構１７２Ｂを学習させる。モデル生成部１５は、学習用画像における外観情報を入力することにより、ＣＮＮ部１７２Ａを介してアテンション機構１７２Ｂから出力される特徴量に基づき付与される確率が高い分類情報が、学習用画像における分類情報に近づくように、アテンション機構１７２Ｂにおけるパラメータを調整することにより、アテンション機構１７２Ｂを学習させる。

このように、モデル生成部１５は、ＣＮＮ部１７２Ａのファインチューニング、及びアテンション機構１７２Ｂの学習の二つの手順を行うことにより、外観特徴抽出モデル１７２を生成する。

ここで、分類テキスト特徴抽出モデル１７３について、図８を用いて詳しく説明する。図８は、分類テキスト特徴抽出モデル１７３を説明する図である。図８に示すように、分類テキスト特徴抽出モデル１７３は、例えば、抽出単語入力層１７３Ａと、単語特徴埋込部１７３Ｂと、加重平均部１７３Ｃと、分類テキスト特徴出力部１７３Ｄとを備える。

抽出単語入力層１７３Ａは、画像Ｇの分類を示す文言から抽出された単語が入力される入力層である。抽出単語入力層１７３Ａには、例えば、画像Ｇの分類を示す文言において分かち書きされた単語のそれぞれが入力される。例えば、分類を示す文言が「頭部、上半身」である場合、抽出単語入力層１７３Ａには、「頭部」と「上半身」がそれぞれ入力される。図８の例では、例えば、抽出単語入力層１７３Ａにおける、ｗ１に「頭部」が入力され、ｗ２に「上半身」が入力される。この例のように、抽出単語入力層１７３Ａには、単語の数に応じた数のノードが設定されてよい。また、分類を示す文言が分かち書きされていない場合に、分類を示す文言を形態素解析することにより、品詞ごとに分離して、分類を示す文言から、分類を示す単語（例えば、名詞など）を抽出するようにしてもよい。

単語特徴埋込部１７３Ｂには、抽出単語入力層１７３Ａのそれぞれのノードに入力された単語の特徴が出力される。単語の特徴は、いわゆる単語の分散表現であり、例えば、コーパスを用いて学習したＷｏｒｄ２Ｖｅｃ（以下、Ｗ２Ｖ）などの自然言語処理モデルに単語を入力させることにより得られる、単語の特徴を示す情報である。

ここで、図形の分類情報、特に商標における図形分類には、類似する商標を漏れなく抽出する必要があることから、比較的広い概念で図形分類が付与されているものがある。ここでの広い概念とは、例えば、「２６．１．１円」などの分類である。円が用いられている画像は数多く存在しており、この様な比較的広い概念での分類を示す文言の特徴を用いると、多数の画像が類似することになり、実質的な絞り込みとならない可能性が高い。つまり、比較的広い概念での分類を示す文言の特徴を反映させると、推定の精度を劣化させてしまう可能性がある。

この対策として、本実施形態では、絞り込みの効果が期待できない単語の影響が小さくなるように重みづけを行う。具体的に、加重平均部１７３Ｃは、単語から抽出された単語ベクトル（単語の特徴量）に、その単語のｉｄｆ値で重みづけし、単語ベクトルごとに加重平均した値を出力する。ｉｄｆ値は以下の（１）式で示される値である。

ｉｄｆ（Ｘ）＝ｌｏｇ（Ｎ＿ｔｏｔａｌ／Ｎ＿Ｘ） …（１）

（１）式において、ｉｄｆ（Ｘ）は単語（Ｘ）におけるｉｄｆ値である。Ｎ＿ｔｏｔａｌは、図形分類が付与された画像の総数である。Ｎ＿Ｘは、単語（Ｘ）を含む図形分類が付与された画像の数である。（１）式に示す通り、画像の総数に対して多くの画像に付与されている分類に含まれる単語におけるｉｄｆ値は小さな値となり、画像の総数に対して少ない画像に付与されている分類に含まれる単語におけるｉｄｆ値は大きな値となる。このようなｉｄｆ値で重みづけがなされることにより、絞り込みに有効な単語の特徴を、分類テキスト特徴量により大きく影響させることができる。その一方で、絞り込みに効果が期待できない単語の特徴が分類テキスト特徴量に与える影響を抑制させることができる。

分類テキスト特徴出力部１７３Ｄは、分類テキスト特徴抽出モデル１７３からの出力、つまり画像Ｇにおける分類テキスト特徴量が格納される出力層である。

ここで、マルチモーダルモデル１７４について、図９を用いて詳しく説明する。図９は、マルチモーダルモデル１７４を説明する図である。図９に示すように、マルチモーダルモデル１７４は、例えば、特徴結合入力層１７４Ａと、全結合層１７４Ｂと、全体特徴出力部１７４Ｃとを備える。

特徴結合入力層１７４Ａは、画像Ｇにおける外観特徴量及び分類テキスト特徴量が入力される、マルチモーダルモデル１７４の入力層である。全体特徴出力部１７４Ｃは、マルチモーダルモデル１７４からの出力、つまり画像Ｇにおける全体特徴量が格納される出力層である。全結合層１７４Ｂは、特徴結合入力層１７４Ａと全体特徴出力部１７４Ｃとの間を全結合するＦＣ（Full Connection）層である。

ここで、画像Ｇにおける外観特徴量は、外観特徴抽出モデル１７２から出力される。また、画像Ｇにおける分類テキスト特徴量は、分類テキスト特徴抽出モデル１７３から出力される。それぞれの特徴量が、互いに異なるモデルから出力されることから、それぞれの特徴量が取り得る範囲が、同じような範囲とならない可能性がある。このような取り得る範囲が異なる特徴量を単純にそのまま統合させて入力させてしまうと、モデルが一方の特徴量と出力との対応関係のみを学習してしまい、他方の特徴量が反映されていない偏った推定がなされる可能性が高くなる。

このための対策として、本実施形態では、マルチモーダルモデル１７４に入力させる二つの特徴量を正規化する前処理を行う。具体的に、モデル生成部１５は、画像Ｇにおける外観特徴量と、画像Ｇにおける分類テキスト特徴量とが同程度の範囲（例えば、０から１）となるように、一方の特徴量に所定の一律の値を乗算する。モデル生成部１５は、必要に応じて他方の特徴量に、一方の特徴量に乗算した値とは異なる別の一律の値を乗算する。これにより、モデル生成部１５は、マルチモーダルモデル１７４を、二つの特徴量の両方を考慮して全体特徴量を出力するように学習させることができる。

ここで、画像類似度推定システム１が行う処理の流れについて、図１０から図１２を用いて説明する。図１０から図１２は、実施形態の画像類似度推定システム１が行う処理の流れを示すフロー図である。

図１０には、画像類似度推定システム１が分類テキスト特徴抽出モデル１７３を用いて画像から分類テキスト特徴量を抽出する処理の流れが示されている。画像類似度推定システム１は、画像Ｇの分類情報を取得する（ステップＳ１０）。画像類似度推定システム１は、分類情報を用いて、画像Ｇの分類を示す文言を単語ごとに分離（分かち書き）する（ステップＳ１１）。画像類似度推定システム１は、単語それぞれの単語ベクトルを抽出する（ステップＳ１２）。

一方、画像類似度推定システム１は、単語それぞれのｉｄｆ値を算出する（ステップＳ１３）。画像類似度推定システム１は、単語の単語ベクトルに、その単語のｉｄｆ値を重みづけ（乗算）する（ステップＳ１４）。画像類似度推定システム１は、重みづけしたそれぞれの単語における単語ベクトルを、単語ベクトルごとに加重平均した値を、画像Ｇにおける分類テキスト特徴量として出力する（ステップＳ１５）。

なお、図１０では、ステップＳ１２で単語ベクトルを抽出した後に、ステップＳ１３で単語のｉｄｆ値を算出する流れを例示して説明したが、少なくともステップＳ１４において単語ベクトルにｉｄｆ値が乗算できればよく、単語のｉｄｆ値を算出した後に、ステップＳ１０〜Ｓ１２に示す処理を行うことにより単語ベクトルを抽出してもよい。或いは、図１０における単語ベクトルを抽出する処理とは独立させた処理として、ｉｄｆ値を算出する処理を行ってもよい。

図１１には、画像類似度推定システム１が、外観特徴抽出モデル１７２、及びマルチモーダルモデル１７４を生成する処理の流れが示されている。画像類似度推定システム１は、学習用画像の外観情報を取得する（ステップＳ２０）。画像類似度推定システム１は、学習用画像の分類情報を取得する（ステップＳ２１）。画像類似度推定システム１は、学習用画像の外観情報と分類情報との対応関係をＣＮＮ部１７２Ａに学習させることにより、外観特徴抽出モデル１７２のＣＮＮ部１７２Ａを学習させる（ステップＳ２２）。画像類似度推定システム１は、学習用画像の外観情報を入力させることにより得られるＣＮＮ部１７２Ａの内部状態に基づき出力される可能性の高い分類情報が、学習用画像の分類情報に近づくように、外観特徴抽出モデル１７２のアテンション機構１７２Ｂを学習させる（ステップＳ２３）。これにより、画像類似度推定システム１は、外観特徴抽出モデル１７２を生成する。

画像類似度推定システム１は、外観特徴抽出モデル１７２に学習用画像の外観情報を入力させることにより、学習用画像の外観特徴量を抽出する（ステップＳ２４）。画像類似度推定システム１は、分類テキスト特徴抽出モデル１７３に学習用画像の分類情報を入力させることにより、学習用画像の分類テキスト特徴量を抽出する（ステップＳ２５）。画像類似度推定システム１は、学習用画像の外観特徴量と分類テキスト特徴量とを正規化する処理を行う（ステップＳ２６）。画像類似度推定システム１は、正規化する処理をした学習用画像の外観特徴量と分類テキスト特徴量に基づき出力される可能性が高い分類情報が、学習用画像の分類情報（ここでは全体特徴量に相当する）近づくように、全結合層１７４Ｂを学習させる（パラメータを調整する）ことにより、マルチモーダルモデル１７４を生成する（ステップＳ２７）。画像類似度推定システム１は、生成した外観特徴抽出モデル１７２、マルチモーダルモデル１７４を記憶させる（ステップＳ２８）。

なお、図１１では、ステップＳ２４で外観特徴量を抽出した後に、ステップＳ２５で分類テキスト特徴量を抽出する流れを例示して説明したが、少なくともステップＳ２６において二つの特徴量（外観特徴量と分類テキスト特徴量）が正規化できればよく、分類テキスト特徴量を抽出した後に外観特徴量を抽出してもよい。

図１２には、画像類似度推定システム１が、二つの画像（ここでは対象画像と比較画像）の類似度を推定する処理の流れが示されている。画像類似度推定システム１は、対象画像における外観情報を取得し（ステップＳ３０）、取得した情報と外観特徴抽出モデル１７２とを用いて、対象画像における外観特徴量を抽出する（ステップＳ３１）。また、画像類似度推定システム１は、対象画像における分類情報を取得し（ステップＳ３２）、取得した情報と分類テキスト特徴抽出モデル１７３とを用いて、対象画像における分類テキスト特徴量を抽出する（ステップＳ３３）。そして、画像類似度推定システム１は、対象画像における外観特徴量と、分類テキスト特徴量と、マルチモーダルモデル１７４を用いて、対象画像における全体特徴量を抽出する（ステップＳ３４）。

一方、画像類似度推定システム１は、比較画像における全体特徴量を抽出する（ステップＳ３５）。画像類似度推定システム１が比較画像における全体特徴量を抽出する処理の流れは、対象画像における全体特徴量を抽出する処理の流れと同様である。

画像類似度推定システム１は、対象画像との類似度を推定したい全ての比較画像についてその全体特徴量を算出したか否かを判定する（ステップＳ３６）。画像類似度推定システム１は、対象画像と比較画像のそれぞれの全体特徴におけるベクトル空間上の距離をコサイン類似度として算出する（ステップＳ３７）。

なお、図１２では、ステップＳ３６で対象画像との類似度を推定したい全ての比較画像についてその全体特徴量を算出した後に、ステップＳ３６でそれぞれのコサイン類似度を算出する流れを例示して説明したが、少なくとも対象画像と比較画像の類似度を算出できればよく、比較画像における全体特徴量を抽出する都度、コサイン類似度を算出するようにしてもよい。

以上説明したように、実施形態の画像類似度推定システム１は、外観情報取得部１０と、外観特徴抽出部１１と、分類情報取得部１２と、分類テキスト特徴抽出部１３と、全体特徴抽出部１４と、モデル生成部１５と、画像類似度推定部１６とを備える。外観情報取得部１０は画像Ｇの外観を示す外観情報１７０を取得する。外観特徴抽出部１１は画像Ｇにおける外観情報１７０、及び外観特徴抽出モデル１７２を用いて、画像Ｇの外観の特徴を示す外観特徴量を抽出する。分類情報取得部１２は画像Ｇの分類を示す分類情報１７１を取得する。分類テキスト特徴抽出部１３は、画像Ｇにおける分類情報１７１、及び分類テキスト特徴抽出モデル１７３を用いて、画像Ｇの分類を示す文言の特徴を示す分類テキスト特徴量を抽出する。全体特徴抽出部１４は、画像Ｇにおける外観特徴量、分類テキスト特徴量、及びマルチモーダルモデル１７４を用いて、画像Ｇにおける画像全体の特徴である全体特徴量を抽出する。モデル生成部１５は、外観特徴抽出モデル１７２と、マルチモーダルモデル１７４を生成する。画像類似度推定部１６は、対象画像における全体特徴量、及び比較画像における全体特徴量に基づいて、対象画像と比較画像の類似度合いを推定する。これにより、実施形態の画像類似度推定システム１は、画像Ｇにおける外観と概念との両方を考慮した特徴を抽出することができ、外観のみならず観念を考慮して画像の類否を判定することが可能である。

また、実施形態の画像類似度推定システム１では、外観特徴抽出モデル１７２は、深層学習の学習モデルの内部状態に重み付けした値を出力するアテンション機構１７２Ｂを含む。モデル生成部１５は、アテンション機構１７２Ｂに、学習用画像における外観情報と前記分類情報との対応関係に応じた重みを学習させる。これにより、実施形態の画像類似度推定システム１では、外観特徴抽出モデル１７２の内部状態において外観の特徴を抽出するのに有効なものに焦点をあてることができ、より精度よく外観特徴量を抽出することが可能となる。

また、実施形態の画像類似度推定システム１では、分類テキスト特徴抽出モデル１７３は、文言に含まれる単語の特徴量を示す単語特徴量を、単語のｉｄｆ値で重みづけした値に基づいて当該文言の特徴を抽出するモデルである。ｉｄｆ値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値である。これにより、実施形態の画像類似度推定システム１では、絞り込みに効果が期待できない図形分類の影響を弱め、絞り込みに有効な図形分類の影響を強めることができる。したがって、絞り込みにより効果的な分類テキスト特徴量を抽出することが可能となる。

また、実施形態の画像類似度推定システム１では、ｉｄｆ値は、分類済みの画像の集合である画像群の数に対する、前記分類テキスト特徴量を抽出する画像と同じ分類とされた画像の数の割合を用いて算出される値である。これにより、実施形態の画像類似度推定システム１では、上述した効果と同様の効果を奏する。

また、実施形態の画像類似度推定システム１では、モデル生成部１５は、学習用画像における外観特徴量及び分類テキスト特徴量が、同一の範囲内に含まれるデータとなるように正規化する処理を行う。モデル生成部１５は、正規化する処理を行った前記学習用画像における、外観特徴量及び分類テキスト特徴量と前記分類情報との対応関係を学習モデルに学習させることにより、マルチモーダルモデル１７４を生成する。これにより、実施形態の画像類似度推定システム１では、二つの特徴量の一方に偏ることなく、両方の特徴量が共に反映された全体特徴量を抽出することができる。したがって、外観と概念の双方を鑑みて類似する画像を推定することができる。

また、実施形態の画像類似度推定システム１は、学習装置として適用されてもよい。この場合、学習装置は、外観情報取得部１０と、外観特徴抽出部１１と、分類情報取得部１２と、分類テキスト特徴抽出部１３と、全体特徴抽出部１４と、モデル生成部１５とを備える。これにより、学習装置は、画像Ｇにおける外観と概念とを考慮した全体特徴を抽出することができるモデルを生成することができる。

また、実施形態の画像類似度推定システム１は、推定装置として適用されてもよい。この場合、推定装置は、外観情報取得部１０と、外観特徴抽出部１１と、分類情報取得部１２と、分類テキスト特徴抽出部１３と、全体特徴抽出部１４と、画像類似度推定部１６とを備える。これにより、推定装置は、画像Ｇにおける外観と概念とを考慮した全体特徴を抽出することができる。したがって、画像Ｇにおける外観と概念とを考慮して、類似する画像を推定することが可能である。

上述した実施形態における画像類似度推定システム１の全部又は一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１画像類似度推定システム
１０外観情報取得部
１１外観特徴抽出部
１２分類情報取得部
１３分類テキスト特徴抽出部
１４全体特徴抽出部
１５モデル生成部
１６画像類似度推定部
１７記憶部
１８推定結果出力部
１７０外観情報
１７１分類情報
１７２外観特徴抽出モデル
１７３分類テキスト特徴抽出モデル
１７４マルチモーダルモデル

Claims

画像の外観を示す外観情報を取得する外観情報取得部と、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
画像類似度推定システム。
前記外観特徴抽出モデルは、深層学習の学習モデルの内部状態に重み付けした値を出力するアテンション機構を含み、
前記モデル生成部は、前記アテンション機構に、前記学習用画像における前記外観情報と前記分類情報との対応関係に応じた重みを学習させる、
請求項１に記載の画像類似度推定システム。
前記分類テキスト特徴抽出モデルは、文言に含まれる単語の特徴量を示す単語特徴量を、前記単語のｉｄｆ値で重みづけした値に基づいて当該文言の特徴を抽出するモデルであり、
前記ｉｄｆ値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値である、
請求項１又は請求項２に記載の画像類似度推定システム。
前記ｉｄｆ値は、分類済みの画像の集合である画像群の数における、前記分類テキスト特徴量を含む画像の数に対する割合を用いて算出される値である、
請求項３に記載の画像類似度推定システム。
前記モデル生成部は、前記学習用画像における前記外観特徴量及び前記分類テキスト特徴量が、同一の範囲内に含まれるデータとなるように正規化する処理を行い、前記正規化する処理を行った前記学習用画像における、前記外観特徴量及び前記分類テキスト特徴量と前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
請求項１から請求項４の何れか一項に記載の画像類似度推定システム。
画像の外観を示す外観情報を取得する外観情報取得部と、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
学習装置。
画像の外観を示す外観情報を取得する外観情報取得部と、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、
推定装置。
コンピュータを、
画像の外観を示す外観情報を取得する外観情報取得手段、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、
画像の分類を示す分類情報を取得する分類情報取得手段、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出手段、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成手段、
として機能させるためのプログラムであって、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成手段において、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルが生成され、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成手段において、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルが生成される、
プログラム。
コンピュータを、
画像の外観を示す外観情報を取得する外観情報取得手段、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、
画像の分類を示す分類情報を取得する分類情報取得手段、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定手段、
として機能させるためのプログラムであって、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、
プログラム。