JP2004287782A

JP2004287782A - 画像の意味を判定する方法および装置

Info

Publication number: JP2004287782A
Application number: JP2003078298A
Authority: JP
Inventors: Sadataka Akahori; 貞登赤堀
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2003-03-20
Filing date: 2003-03-20
Publication date: 2004-10-14

Abstract

【課題】自己組織化マップを用いて画像の意味を判定する際に、意味判定の対象として自己組織化マップが予め学習していないような画像が入力された場合には、意味判定を行わないようにする。
【解決手段】意味判定対象である画像から抽出した特徴ベクトルと勝者ベクトルとの類似度が、所定の類似度閾値よりも低い場合には画像の意味の判定を行わずに、類似度閾値よりも高い場合に、勝者ベクトルの自己組織化マップ上における位置に基づいて画像の意味の判定を行う。
【選択図】図６

Description

【０００１】
【発明の属する技術分野】
本発明は、画像の意味を判定する方法および装置に関し、特に、自己組織化マップ（Ｓｅｌｆ−ＯｒｇａｎｉｚａｔｉｏｎＭａｐ；ＳＯＭ）を用いて画像の意味を判定する方法および装置に関する。
【０００２】
【従来の技術】
情報の内容判定、分類、検索等の手法として、従来からのクラスタリング法等に代わるものとして、近年、自己組織化マップを利用した手法が用いられ始めている。
【０００３】
自己組織化マップとは、複数の多次元ベクトルが空間的に配されたマップであり、各多次元ベクトルは、１つの参照情報の特徴を示す複数のパラメータを成分とするベクトルである。この自己組織化マップでは、予め多数の情報を学習することにより、互いに類似するベクトルが互いに近い位置に配置されるように構成されている。
【０００４】
かかる学習後の自己組織化マップを用いれば、複数の入力情報について、その各々の特徴を示すベクトルと最も類似度の高い勝者ベクトルを自己組織化マップ上から探索し、該入力情報を自己組織化マップ上のその勝者ベクトルの位置に写像することにより、情報を２次元マップ状に一覧表示すること等が可能となる（たとえば、特許文献１および２参照）。このような一覧表示では、類似の特徴を有する情報（たとえば類似の画像や類似の商品情報等）が互いに近くに配置され表示されることになるので、視覚的に捉え易く、一覧性がよい。
【０００５】
また、学習後の自己組織化マップにおいて特に類似の傾向が強いベクトルが集まった複数の島状の領域をクラスターとして定め、入力情報の特徴を示すベクトルと最も類似度の高い勝者ベクトルがいずれのクラスターに属するかを調べることにより、入力情報の分類や優先順位付けを行う手法も提案されている（たとえば、特許文献３および４参照）。
【０００６】
また、予めクラス分けされいずれのクラスに属するかが分かっている情報を学習させる「教師あり学習」と自己組織化マップを組み合せた「修正対向伝搬ネットワーク（ＭｏｄｉｆｉｅｄＣｏｕｎｔｅｒＰｒｏｐａｇａｔｉｏｎ；ＭＣＰ）」という手法も知られている（たとえば、非特許文献１参照）。この手法では、自己組織化マップと同じ大きさの「頻度マップ」がクラスごとに用意され、自己組織化マップの学習と並行して、各クラスごとに、自己組織化マップ上の各点に勝者ベクトルが現れる頻度を示す頻度マップの学習が行われる。これにより、学習終了後には、互いに類似するベクトルに対応する点が互いに近い位置に配置された自己組織化マップと、自己組織化マップ上の各点における各クラス情報の出現確率を示した確率分布マップとが得られることとなるので、入力情報の特徴を示すベクトルと最も類似度の高い勝者ベクトルを自己組織化マップ上から探索し、さらに確率分布マップにおける対応点を参照することにより、入力情報がいずれのクラスに属する情報であるのかを判定することが可能となる。
【０００７】
【特許文献１】
特開２００２−４１５４５号公報
【０００８】
【特許文献２】
特開２００１−３３７９５３号公報
【０００９】
【特許文献３】
特開２００１−３０６６１２号公報
【００１０】
【特許文献４】
特開２００１−２８３１８４号公報
【００１１】
【非特許文献１】
徳高、岸田、藤村、「自己組織化マップの応用−多次元情報の２次元可視化」、海文堂、１９９９年、ｐ．６３−７３
【００１２】
【発明が解決しようとする課題】
このような自己組織化マップの使用は、画像の意味判定にも応用することができる。たとえば、上記の修正対向伝搬ネットワークの手法を用いれば、予め画像の意味（上記の「クラス」に相当）、すなわち「空」や「木」の画像であることが分かっている多数の画像の特徴ベクトルを学習して、自己組織化マップと対応する意味のマップ（すなわち各意味の確率分布マップ）とを作成しておくことにより、未知の入力画像の意味を判定することができる。
【００１３】
ここで、画像の意味判定は、判定された意味に基いて多数の写真画像等を分類したり、全体画像に含まれる「空」の部分、「木」の部分等の各画像領域に、意味ごとに区別された画像処理を施すため等に行われる。したがって、誤った意味の判定は、誤分類等を引き起こし、特に意味判定後に意味ごとに区別された画像処理を施す場合には、誤った画像領域に画像処理が施され、テクスチャーの喪失等の深刻な問題を招く。
【００１４】
一方、自己組織化マップを用いた画像の意味の判定では、ベクトル間のユークリッド距離等を指標として、学習後の自己組織化マップ上に分布する複数の参照特徴ベクトルから、入力画像の特徴ベクトルに最も類似した勝者ベクトルを探索し、その勝者ベクトルの自己組織化マップ上での位置に基づいて意味の判定を行う。ここで、たとえば、「空」、「木」、「土」の画像ばかりを学習した自己組織化マップに対し、入力画像がベージュ色の「建物」の画像である場合には、入力画像は「土」等の意味に誤って判定され、上記のような問題を招いてしまう。かかる意味判定の誤りは、予めの学習において、あらゆる意味の画像を多数学習することにより防止することができるが、画像のような多様性の高い情報に関しては、そのような学習は実質的に不可能である。
【００１５】
これらを考慮すると、自己組織化マップを用いた画像の意味判定においては、予めの学習において全く学習していないような画像が入力された場合にも、その自己組織化マップ上に存在する参照特徴ベクトルの中から強いて選ぶならば当該画像の特徴ベクトルと最も類似している勝者ベクトルに基づいて、いわばむりやり意味を判定するよりも、むしろそのような画像はその自己組織化マップでは「意味判定不能」なものと判断して意味判定を行わない方が好ましい。
【００１６】
本発明は、かかる事情に鑑み、自己組織化マップを用いて画像の意味を判定する際に、意味判定の対象として自己組織化マップが予め学習していないような画像が入力された場合には、意味判定を行わないようにすることを目的とするものである。
【００１７】
【課題を解決するための手段】
すなわち、本発明に係る画像の意味を判定する方法は、自己組織化マップを用いて画像の意味を判定する方法であって、該画像から抽出した特徴ベクトルと、自己組織化マップ上の複数の参照特徴ベクトルの各々との組合せに関し、類似度を導出する工程と、上記の特徴ベクトルとの類似度が最も高い、最高類似度を示す勝者ベクトルを特定する工程と、該最高類似度を、所定の類似度閾値と比較する工程と、最高類似度が類似度閾値よりも低い場合には意味の判定を行わずに、最高類似度が類似度閾値よりも高い場合に、勝者ベクトルの自己組織化マップ上における位置に基づいて意味の判定を行う工程を含むことを特徴とする方法である。
【００１８】
また、本発明に係る画像の意味を判定する装置は、自己組織化マップを用いて画像の意味を判定する装置であって、該画像から抽出した特徴ベクトルと、自己組織化マップ上の複数の参照特徴ベクトルの各々との組合せに関し、類似度を導出する手段と、上記の特徴ベクトルとの類似度が最も高い、最高類似度を示す勝者ベクトルを特定する手段と、該最高類似度を、所定の類似度閾値と比較する手段と、最高類似度が類似度閾値よりも低い場合には意味の判定を行わずに、最高類似度が類似度閾値よりも高い場合に、勝者ベクトルの前記自己組織化マップ上における位置に基づいて意味の判定を行う手段を備えることを特徴とする装置である。
【００１９】
ここで、画像の「意味を判定する」とは、その画像が何を撮影した画像であるか、どのような分類に属するか等を判定することを指す。また、本発明による画像の意味を判定する方法および装置には、具体的な意味づけの結果を出力として得ることを目的とする方法および装置のほか、たとえば判定された意味または自己組織化マップ上における勝者ベクトルの位置に基づき画像の探索、抽出、分類等を行うことを目的とする方法および装置も含まれるものとする。
【００２０】
また、「特徴ベクトル」とは、意味を判定する対象である画像から抽出されるベクトルであって、当該画像の特徴を示す複数のパラメータ（以下、「特徴量」と呼ぶ）を成分とするベクトルを指す。特徴ベクトルの成分である特徴量としては、たとえば色の特徴、輝度の特徴、奥行情報、該画像に含まれるエッジの特徴等を示す特徴量が使用され得る。
【００２１】
また、「類似度」とは、画像から抽出された特徴ベクトルと、該特徴ベクトルと同次元であり自己組織化マップ上に配された参照特徴ベクトルの類似の度合い、または参照特徴ベクトル同士の類似の度合いを示す指標であって、たとえば２つのベクトル間のユークリッド距離や内積等が使用され得る。なお、類似度が「高い」または「低い」とは、その類似度の値の大小そのものではなく、たとえば上記のユークリッド距離を類似度として採用した場合には、類似度（すなわちユークリッド距離）の値が小さい方が両ベクトルは類似しているので「類似度が高い」こととなる。
【００２２】
なお、上記の本発明による方法または装置は、勝者ベクトルが示す最高類似度が類似度閾値よりも低い場合には意味の判定を行わずに、最高類似度が類似度閾値よりも高い場合に意味の判定を行う工程または手段を含むが、最高類似度が類似度閾値と等しい場合に意味の判定を行うか否かが定められているものも、本発明の範囲に含まれるものとする。すなわち、勝者ベクトルが示す最高類似度が類似度閾値よりも低い場合または類似度閾値と等しい場合には意味の判定を行わずに、最高類似度が類似度閾値よりも高い場合に意味の判定を行うものと、勝者ベクトルが示す最高類似度が類似度閾値よりも低い場合には意味の判定を行わずに、最高類似度が類似度閾値よりも高い場合または類似度閾値と等しい場合に意味の判定を行うもののいずれも、上記の本発明による方法または装置に含まれるものとする。
【００２３】
上記の本発明に係る方法または装置は、意味の判定を行った場合には該意味の判定の結果の出力を行い、意味の判定を行わなかった場合にはその旨を知らせる出力を行う工程または手段をさらに含むものであってもよい。
【００２４】
また、上記の類似度閾値は、勝者ベクトルの自己組織化マップ上における位置によって異なるように定められた値であることが好ましく、その値は、勝者ベクトルと、自己組織化マップ上において該勝者ベクトルの近傍領域内にある複数の他の参照特徴ベクトルとの類似度を反映して定められた値であることがさらに好ましい。この場合において、上記の近傍領域を、自己組織化マップ上における勝者ベクトルの周辺ｎ×ｎ（ｎは３以上の奇数）の領域とし、勝者ベクトルと、該近傍領域内にある複数の他の参照特徴ベクトルの各々との類似度の最低値または平均値を類似度閾値としてもよい。
【００２５】
また、意味を判定する対象である画像は、全体画像であってもよいし、全体画像を分割して得られたブロック画像であってもよい。
【００２６】
ここで、「全体画像」とは、撮影したデジタル写真画像や、動画の１フレームの、１枚分全体に相当する画像を指すものとする。一方、「ブロック画像」とは、全体画像をいくつかの領域（ブロック）に分割した各画像片を指し、たとえば、１０２４×１２８０画素の全体画像を３２×３２画素の大きさに分割したそれぞれの画像片等がこれに相当する。なお、上記の「意味を判定する」ことには、たとえば、ブロック画像について、「空」、「木」、「草原」等のいずれの対象が撮影されたブロックであるかを判定することや、全体画像について、「人物写真」、「建物の写真」、「海の風景写真」等のいずれであるかを判定することが含まれる。
【００２７】
【発明の効果】
本発明に係る画像の意味を判定する方法および装置は、勝者ベクトルの示す最高類似度を類似度閾値と比較して、最高類似度が類似度閾値よりも低い場合には意味の判定を行わないものであるので、自己組織化マップが予め学習していないような画像が入力された場合にもいわばむりやりに意味を判定する事態を回避し、意味判定結果に対する信頼性を高めることができる。
【００２８】
また、上記の類似度閾値を、勝者ベクトルの自己組織化マップ上における位置によって異なるように定めた場合、とりわけ、勝者ベクトルと、自己組織化マップ上において該勝者ベクトルの近傍領域内にある複数の他の参照特徴ベクトルとの類似度を反映して定めた場合には、学習内容の偏りや各意味の画像の多様性の違いによって生じる、勝者ベクトルの各位置に基づく意味判定の信頼性の相違を、閾値に反映させることができる。たとえば、「空」の画像には多少の色や輝度の違いはあるものの、その多様性は「建物」の画像に比べれば小さい。したがって、自己組織化マップが予め「空」の画像と「建物」の画像を同程度の枚数学習したとしても、意味判定対象の画像が「空」の画像である場合と「建物」の画像である場合とでは、勝者ベクトルとその近傍領域内にある複数の他の参照特徴ベクトルとの類似度、すなわち勝者ベクトルの守備範囲のようなものが異なる。同様の事態は、学習枚数の相違等の学習内容の偏りによっても生じる。これらの場合に、守備範囲の狭い勝者ベクトルに合わせて一定値の閾値を決定したのでは、十分に意味判定が可能な画像についても「意味判定不能」と判断してしまう可能性が高くなり、逆に守備範囲の広い勝者ベクトルに合わせて一定値の閾値を決定したのでは、意味判定の信頼性が低くなってしまう。勝者ベクトルの自己組織化マップ上における位置に依存する、一定値でない閾値を採用すれば、いずれの位置における閾値も、所望の意味判定の信頼性を達成するのために必要十分な値とすることができる。
【００２９】
【発明の実施の形態】
以下、図面により、本発明の例示的な実施形態を詳細に説明する。
【００３０】
図１は、本発明の第１の実施形態である、２次元の全体画像に含まれる各画像領域の意味特定処理の手順を示したフローチャートである。この処理は、全体画像中の個々の画像領域、すなわち「空」、「木」、「草原」等の撮影対象のいずれかに対応すると考えられる個々の有意な領域について、その意味を特定するものであり、その後、意味に基づく画像分類や、各意味に対応する画像領域ごとに区別された条件による画像処理を行うために有用な処理である。まず、ステップ１０において処理対象である全体画像を表す画像データが読み込まれ、ステップ１２において適当な画像領域が特定され、ステップ１４において全体画像がブロック画像に分割され、ステップ１６において各ブロック画像の意味が判定され、それに基づいて各画像領域の意味が特定される。これらの各ステップのうち、本発明は特にステップ１６において使用される方法および装置に関するものであるが、他のステップについても、以下、順を追って説明していく。
【００３１】
ステップ１２における画像領域の特定手法の例については、図２を用いて説明する。
【００３２】
図２の（ａ）は処理対象である原画像としての全体画像を示す。まず、この原画像を構成する各画素に関し、隣接する画素の色の特徴を比較して、類似画素を統合することとする。ここで、色の特徴を比較して類似画素を統合するとは、たとえば、ＲＧＢ表色系で表された原画像の各成分信号値、すなわちＲ、ＧおよびＢの各成分の濃度値を、隣接画素間でそれぞれ比較して、いずれの成分信号値の差もが所定の閾値を超える場合に、それらの画素を統合する等の処理を行うことである。ＲＧＢ表色系に代えて、ＹＣＣ表色系で表された各成分信号値を比較してもよい。この比較および統合は、上記の閾値等の所定の基準によりそれ以上の統合が起こらなくなるまで順次繰り返され、類似の色の特徴を有する画素からなる区域が拡大していく。この類似画素の統合が完了した後の状態が、図２の（ｂ）の状態であるとする。
【００３３】
ここに、図２の（ｂ）に示した画像を構成する各区域のうち、周囲長が所定の長さより短い区域を「微小区域」と呼び、周囲長が該所定の長さ以上である区域を「非微小区域」と呼ぶこととする。図２の（ｂ）においては、区域２０および２２等は微小区域、区域２４、２６および２８等は非微小区域である。
【００３４】
次に、図２の（ｂ）の画像を構成する各区域を隣接する区域と比較して、統合可能なものをさらに統合するのであるが、この区域の統合の基準は、微小区域と非微小区域で異なる。微小区域については、一の非微小区域に完全に包含されている微小区域（たとえば非微小区域２６に完全に包含されている微小区域２０）は、その一の非微小区域に統合されるものとする。また、２以上の非微小区域と境界を接する微小区域は、接する境界の長さが長い方の非微小区域に統合されるものとする。この基準によれば、微小区域統合後の状態は、図２の（ｃ）のようになる。
【００３５】
非微小区域については、当該非微小区域をなす画素の平均の色の特徴を、隣接する各非微小区域をなす画素の平均の色の特徴と比較し、類似の度合いが閾値等による所定の基準を超える隣接非微小区域がある場合は、統合が行われる。たとえば、図２の（ｃ）における非微小区域２４の平均の色の特徴について、非微小区域２６の平均の色の特徴との類似の度合いは上記の所定の基準を超えるが、非微小区域２８の平均の色の特徴との類似の度合いは上記の所定の基準以下である場合は、当該非微小区域２４は、非微小区域２６と統合され、非微小区域２８とは統合されない。かかる所定の基準による非微小区域の統合の最終的な結果は、たとえば図２の（ｄ）のようになる。この最終的な状態の画像を構成する各領域が、「画像領域」として特定される。
【００３６】
以上、図１のステップ１２における画像領域への分割手法の例を図２を用いて説明したが、このステップ１２における画像領域への分割が、他のいかなる周知の手法によるものでもよいことは言うまでもない。
【００３７】
図１に戻って、ステップ１４では、処理対象である全体画像がブロック画像に分割される。本実施形態では、全体画像は１０２４×１２８０画素のデジタル写真画像であるとし、ブロック画像は各々３２×３２画素の画像であるとする。なお、図１では、説明の便宜のため、実際よりも粗い分割で示してある。
【００３８】
続いて、ステップ１６において、分割された各ブロック画像の意味が判定され、それに基づいて各画像領域の意味が特定される。ステップ１６において行われる処理の詳細な工程を、図３のフローチャートに示す。
【００３９】
まず、図３のステップ３０において、図２の（ｄ）のように特定された複数の画像領域のうちの一の画像領域に包含されるブロック画像が特定される。ここで、一の画像領域に包含されるブロック画像とは、その画像領域に完全に包含されているブロック画像を言い、画像領域間の境界にまたがるブロック画像は含まないものとする。
【００４０】
次に、ステップ３２において、ステップ３０で特定されたブロック画像の１つから、特徴ベクトルが抽出される。本実施形態では、抽出する特徴ベクトルは１０次元のベクトルとし、該特徴ベクトルの成分となる１０個の特徴量として、ＹＣＣ表色系で表された当該ブロック画像の３つの成分信号値の、各々の平均値ならびに標準偏差、および縦エッジ画像と横エッジ画像の成分信号値の、各々の絶対値の平均値ならびに標準偏差を抽出するものとする。縦エッジ画像および横エッジ画像は、当該ブロック画像のＹＣＣ表色系における輝度成分の画像に対し、図４に示すようなエッジ検出用のフィルターを適用することにより求めるものとする。
【００４１】
続いて、ステップ３４において、ステップ３２で抽出した特徴ベクトルと、学習済の自己組織化マップ上の各々の参照特徴ベクトルとの類似度が導出される。ここで「自己組織化マップ」とは、図５の上段に示すような、複数の参照特徴ベクトルが空間的に配されたマップであり、予め行われる学習により、互いに類似する参照特徴ベクトルは互いに近い位置に配置されている。本実施形態では、予め行われる学習過程においていわゆる「教師あり学習」を行い、図５の下段に示すような対応する大きさの意味のマップが付随した自己組織化マップを用いるものとする。この意味のマップは、自己組織化マップ上の各参照特徴ベクトルに対応する画像が「空」の画像である確率の分布マップ、「木」の画像である確率の分布マップ等の、複数の確率分布マップが重ね合わされたものである。
【００４２】
この「教師あり学習」の学習過程の例を概略的に説明すると、学習前の状態においては、自己組織化マップ上には、様々な参照特徴ベクトルが、ランダムに分布している。また、各確率分布マップの各点の初期値は、０とされている。ここに、学習対象として、まず「空」であることが分かっている１枚の画像の特徴ベクトルが入力されると、自己組織化マップ上において、この入力された特徴ベクトルに最も類似する参照特徴ベクトルが特定される。この特定は、たとえば、入力された特徴ベクトルとのユークリッド距離が最も小さい参照特徴ベクトルを探索する等により行われる。すると、自己組織化マップ上においてその特定された参照特徴ベクトル、およびその近傍たとえば７×７の範囲にある参照特徴ベクトルが、上記の入力された特徴ベクトルに近づくように（すなわち、学習対象である入力された特徴ベクトルとの類似度が高まるように）修正される。一方、「空」の画像である確率の分布マップ上では、上記の特定された参照特徴ベクトルに対応する点およびその７×７の範囲の近傍の点に、たとえば「１」の頻度値が加算される。次に、「木」であることが分かっている１枚の画像の特徴ベクトルが入力されると、上記と同様に、自己組織化マップ上において、最も類似する参照特徴ベクトルの特定、および近傍の参照特徴ベクトルの修正が行われる。一方、「木」の画像である確率の分布マップ上では、特定された参照特徴ベクトルに対応する点およびその近傍の点に、「１」の頻度値が加算される。このようにして「空」や「木」等の画像であることが分かっている多数の画像学習を繰り返すと、自己組織化マップ上では、類似の特徴を示す参照特徴ベクトルが、徐々に互いに近い位置に集まってくる。一方、それぞれの確率分布マップ上でも、徐々に島状の頻度の分布が形成されていく。学習が進んで類似の参照特徴ベクトルが集合してくるにしたがって、当初７×７であった参照特徴ベクトルの修正を行う近傍の大きさは、徐々に小さくされていく。学習終了後、それぞれの確率分布マップは規格化されて重ね合わされ、図５の下段に示すような意味のマップが形成される。
【００４３】
本実施形態では、図３のステップ３４において導出される類似度として、ユークリッド距離を使用するものとする。すなわち、ステップ３２で抽出した特徴ベクトルと、上記に説明した教師あり学習後の自己組織化マップ上の各参照特徴ベクトルとのユークリッド距離が計算される。この場合、導出されたユークリッド距離が小さいほど、ベクトル間の類似度が高いこととなる。
【００４４】
次に、ステップ３６において、ステップ３４で導出した特徴ベクトルとのユークリッド距離が最も小さい参照特徴ベクトル、すなわち特徴ベクトルに対し最高類似度を示す参照特徴ベクトルが、「勝者ベクトル」として特定される。
【００４５】
続いて、ステップ３８において、上記の最高類似度、すなわち勝者ベクトルと特徴ベクトルとのユークリッド距離が、所定の閾値と比較される。その結果、このユークリッド距離が閾値以下である場合には、ステップ４０において、勝者ベクトルの位置に対応する意味のマップ上の対応点が参照され、「空」、「木」等の意味のうち、当該対応点において最も高い確率を示している意味が、現在のブロック画像の意味として特定される。一方、勝者ベクトルと特徴ベクトルとのユークリッド距離が閾値より大きい場合には、ステップ４０’において、現在のブロック画像は「意味判定不能」なものであるとの判断が下される。かかる閾値を使用することにより、自己組織化マップが予め学習していないような画像が入力された場合にもいわばむりやりに意味を判定する事態を回避できるので、意味判定結果に対する信頼性を高めることができる。判定された意味または「意味判定不能」という結果は、メモリに出力されて記憶される。さらに表示画面上等にも出力が行われてもよい。
【００４６】
ステップ３８で用いられる閾値としては、自己組織化マップ上における勝者ベクトルの位置によって異なるように定められた位置依存の閾値が好ましく、特に、勝者ベクトルと、自己組織化マップ上において該勝者ベクトルの近傍領域内にある複数の他の参照特徴ベクトルとの類似度を反映して定められた閾値が好ましい。これは、かかる閾値の使用により、学習内容の偏りや各意味の画像の多様性の違いによって生じる各参照特徴ベクトルの「守備範囲」の相違を、閾値に反映させることができるためである。具体的には、本実施形態では、勝者ベクトルと、自己組織化マップ上において勝者ベクトルの周辺５×５の近傍領域内にある他の２４個の参照特徴ベクトルとのユークリッド距離の最大値を、閾値として用いる。
【００４７】
ここで、本実施形態において、最高類似度としてのユークリッド距離が閾値より大きくなり、現在のブロック画像が「意味判定不能」と判断される場合の例を、図６を用いてより詳細に説明する。処理対象の全体画像は図２の（ｄ）に示す画像領域に分割されているが、ここでは、図６の（ａ）に示すように、実際には建物の部分である画像領域２６内のブロック画像の意味判定について考える。このブロック画像から抽出した特徴ベクトル５０とのユークリッド距離が最も近い勝者ベクトルは、図６の（ｂ）に示す勝者ベクトル５２であるとする。ここで、図６の（ｂ）に示した自己組織化マップおよび意味のマップは、図５と同一のものであるが、この意味のマップには「建物」の確率分布が示されていない。これは、予めの学習において、「建物」の画像の学習サンプルが全く学習されなかったか、あるいは著しく少なかったためである。すなわち、図５に示す自己組織化マップと意味のマップの対では、「建物」の画像については正しい意味判定を行うことができない。この場合に、閾値による判別を行わなければ、意味のマップ上における勝者ベクトル５２の対応点５６が参照され、当該ブロック画像は「土」の意味に誤って判定されてしまう。ところが、勝者ベクトル５２と、自己組織化マップ上において勝者ベクトル５２の周辺５×５の近傍領域５４内にある他の２４個の参照特徴ベクトルとのユークリッド距離の最大値を閾値として用いているので、特徴ベクトル５０と勝者ベクトル５２との距離が、近傍領域５４内の参照特徴ベクトル間において許容され得る距離、すなわち勝者ベクトル５２の守備範囲を超えているような場合には、特徴ベクトル５０と勝者ベクトル５２との距離は閾値より大きくなり、「意味判定不能」の判断が下される。一方、「土」の画像であるが勝者ベクトルが表す画像とは色やテクスチャーが多少異なる程度の画像から抽出した特徴ベクトルであれば、必ず上記の閾値の範囲内となるか、そもそも別の参照特徴ベクトルが勝者ベクトルとなるはずであるので、正しい意味の特定が行われる。要するに、本実施形態によれば、全く学習していないか学習量が著しく少ないために、有意な意味判定ができないような画像のみが「意味判定不能」と判断され、意味判定対象から除外されることとなる。
【００４８】
なお、自己組織化マップ上における勝者ベクトルの位置によって異なるように定められた閾値としては、本実施形態では、勝者ベクトルの周辺５×５の近傍領域内にある他の参照特徴ベクトルとのユークリッド距離の最大値を用いたが、これに限られないことは言うまでもない。たとえば、最大値に代えて平均値等を用いてもよいし、近傍領域の大きさも５×５に限られない。あるいは、近傍領域内にある参照特徴ベクトルのベクトル長の標準偏差等を基準にしてもよい。
【００４９】
図３に戻って、次のステップ４２において、現在の画像領域に含まれるブロック画像がまだ残っているかどうかが確認され、現在の画像領域に含まれる全てのブロック画像の意味が判定または「意味判定不能」と判断されるまで、ステップ３２から４２が繰り返される。
【００５０】
現在の画像領域に含まれる全てのブロック画像の意味の判定が終了すると、ステップ４４において、各ブロック画像の判定された意味のうち最多のものが、現在の画像領域の意味として特定される。たとえば、図２の（ｄ）の画像領域２８に含まれるブロック画像の中には、「水」等の意味に判定されるものも混在し得るが、大半は「空」の意味に判定されるので、画像領域２８は「空」の領域として特定される。「意味判定不能」と判断されたブロック画像を含む画像領域については、正しく意味が判定されたブロック画像に基づいて意味を特定し、全てのブロック画像が「意味判定不能」であった場合にのみ画像領域全体の意味を「不明」と判断することとしてもよいし、意味が判定できたブロック画像を含んでいても、「意味判定不能」と判断されたブロック画像の数が一定割合を超える場合には画像領域全体の意味を「不明」と判断することとしてもよい。
【００５１】
続いて、ステップ４６において、未処理の画像領域が残っているかどうかが確認され、全ての画像領域の意味が特定または「不明」と判断されるまで、図３に示した工程が繰り返される。
【００５２】
以上、本発明の第１の実施形態として、２次元の全体画像をブロック画像に分割し、それぞれのブロック画像の意味を判定することにより、該全体画像に含まれる各画像領域の意味を特定する処理について説明したが、この変更例として、全体画像の意味判定処理への適用も考えられる。この場合、たとえば、「人物写真」、「建物の写真」、「海の風景写真」等であることが分かっている全体画像を予め学習して自己組織化マップと意味のマップを作成しておき、意味判定対象である全体画像から抽出した特徴ベクトルと最も類似する勝者ベクトルを、自己組織化マップ上から探索する。
【００５３】
次に、図７および図８を用いて、本発明の第２の実施形態として、複数の全体画像を検索して特定シーンの画像のみを抽出する処理を説明する。
【００５４】
まず、図７のステップ６０において、検索対象である複数の全体画像のうちの１つを表す画像データが読み込まれる。
【００５５】
次に、ステップ６２において、読み込んだ全体画像から特徴ベクトルが抽出される。この特徴ベクトルは、第１の実施形態と同様に１０次元のものであり、各成分となる特徴量も、第１の実施形態と同様のものとする。
【００５６】
続いて、ステップ６４において、ステップ６２で抽出した特徴ベクトルと、学習済の自己組織化マップ上の各々の参照特徴ベクトルとの類似度が導出され、ステップ６６において、最高類似度を示す参照特徴ベクトルが勝者ベクトルとして特定される。類似度としては、第１の実施形態と同様にベクトル間のユークリッド距離を使用する。
【００５７】
ここで、第１の実施形態では、予め「教師あり学習」を行い、意味のマップと対になった自己組織化マップを用いたが、本実施形態では、特定シーンの多数の画像をいわゆる「教師なし学習」により学習した自己組織化マップを用いる。たとえば、抽出したい特定シーンが「海の風景」である場合には、海の風景の画像のみを多数、自己組織化マップに学習させるが、第１の実施形態と異なり、並行して意味のマップを作成することは行わない。自己組織化マップの学習工程は、意味のマップを作成しない点を除けば、教師あり学習の場合と同様であり、初期状態では様々な参照特徴ベクトルがランダムに分布している自己組織化マップについて、学習サンプルである画像の特徴ベクトルに最も類似する参照特徴ベクトルの特定、および近傍の参照特徴ベクトルの修正を繰り返すことにより学習が行われる。十分な枚数の特定シーンの画像を学習した後、図８に示すように、隣接参照ベクトル間の類似度が所定の基準値以上である等の有意なクラスターを、特定シーンのクラスターとする。
【００５８】
図７に戻って、ステップ６８において、勝者ベクトルが上記の特定シーンのクラスターに属するか否かが判断され、属しない場合は直ちにステップ７２’へ進み、読み込まれた全体画像は特定シーンの画像ではないと判断される。しかしながら、勝者ベクトルが特定シーンのクラスターに属する場合でも、実際には、読み込まれた全体画像が特定シーンの画像ではなく特徴ベクトルも相当異なるにもかかわらず、類似度（ここではユークリッド距離）の値から見れば、その自己組織化マップ上から強いて選ぶならば最も類似する勝者ベクトルが、クラスター内のものとなる場合もある。
【００５９】
そこで、ステップ７０において、かかる画像を特定シーンの画像であると誤って判断することを防ぐため、閾値による判別が行われる。すなわち、特徴ベクトルと勝者ベクトルのユークリッド距離が所定の閾値以下の場合にのみ、ステップ７２において当該画像は特定シーンの画像であると判断し、該ユークリッド距離が所定の閾値より大きい場合には、ステップ７２’において特定シーンの画像ではないと判断する。閾値としては、第１の実施形態と同様に、勝者ベクトルと、自己組織化マップ上において勝者ベクトルの周辺５×５の近傍領域内にある他の２４個の参照特徴ベクトルとのユークリッド距離の最大値等を使用することができる。ステップ７２または７２’における判断の結果は、メモリおよび／または表示画面上に出力される。なお、ステップ７２における、勝者ベクトルが自己組織化マップ上で特定シーンのクラスターに属することに基づく、当該画像が特定シーンの画像であるとの判断も、本発明で言う「勝者ベクトルの自己組織化マップ上における位置に基づく意味の判定」に含まれるものとする。
【００６０】
一の全体画像について以上の処理が完了すると、ステップ７４において次の全体画像があるかどうかが確認され、検索対象である全ての全体画像が処理され特定シーンの画像の抽出が終了するまで、ステップ６０から７４が繰り返される。
【００６１】
なお、たとえば特定シーンとして多様な海の風景の画像が十分な枚数学習され、自己組織化マップ上のすべての参照特徴ベクトルが何らかの「海の風景」の特徴を表すベクトルとなっているような場合には、特定シーンのクラスターの設定を行わず、上記のステップ６８を省略し、閾値のみに基づいて、入力画像が特定シーンの画像であるか否かを判断してもよい。このような、十分に学習した自己組織化マップ上に所定の類似度閾値よりも高い類似度を示す勝者ベクトルが存在するか否かによる、特定シーンであるか否かの判断も、本発明で言う「勝者ベクトルの自己組織化マップ上における位置に基づく意味の判定」に含まれるものとする。
【００６２】
また、以上の各実施形態においては、特徴ベクトルは、ＹＣＣ表色系による３つの成分信号値の各々の平均値ならびに標準偏差、および縦エッジ画像と横エッジ画像の成分信号値の各々の絶対値の平均値ならびに標準偏差を成分とする１０次元の特徴ベクトルとしたが、特徴ベクトルの次元および各成分の内容のいずれも、これらに限られないことは当然である。
【００６３】
以上、本発明の２つの実施形態について詳細に述べたが、これらの実施形態は例示的なものに過ぎず、本発明の技術的範囲は、本明細書中の特許請求の範囲のみによって定められるべきものであることは言うまでもない。
【図面の簡単な説明】
【図１】本発明の第１の実施形態である、２次元の全体画像に含まれる各画像領域の意味特定処理の手順を示したフローチャート
【図２】図１の意味特定処理における画像領域の特定手法の例を示した工程図
【図３】図１の意味特定処理における意味特定手法の詳細な工程を示したフローチャート
【図４】エッジ画像の導出に用いられるエッジ検出用フィルターの例を示した図
【図５】第１の実施形態で使用する、教師あり学習後の自己組織化マップおよび対応する意味のマップの例を示した概念図
【図６】第１の実施形態において、現在のブロック画像が「意味判定不能」と判断される場合の例を示した図
【図７】本発明の第２の実施形態である、複数の全体画像を検索して特定シーンの画像のみを抽出する処理の手順を示したフローチャート
【図８】第２の実施形態で使用する、教師なし学習後の自己組織化マップの例を示した概念図

Claims

自己組織化マップを用いて画像の意味を判定する方法であって、
該画像から抽出した特徴ベクトルと、前記自己組織化マップ上の複数の参照特徴ベクトルの各々との組合せに関し、類似度を導出する工程と、
前記特徴ベクトルとの前記類似度が最も高い、最高類似度を示す勝者ベクトルを特定する工程と、
前記最高類似度を、所定の類似度閾値と比較する工程と、
前記最高類似度が前記類似度閾値よりも低い場合には前記意味の判定を行わずに、前記最高類似度が前記類似度閾値よりも高い場合に、前記勝者ベクトルの前記自己組織化マップ上における位置に基づいて前記意味の判定を行う工程を含むことを特徴とする方法。
前記意味の判定を行った場合には該意味の判定の結果の出力を行い、前記意味の判定を行わなかった場合にはその旨を知らせる出力を行う工程をさらに含むことを特徴とする請求項１記載の方法。
前記類似度閾値が、前記勝者ベクトルの前記自己組織化マップ上における前記位置によって異なるように定められた値であることを特徴とする請求項１または２記載の方法。
前記類似度閾値が、前記勝者ベクトルと、前記自己組織化マップ上において該勝者ベクトルの近傍領域内にある複数の他の参照特徴ベクトルとの類似度を反映して定められた値であることを特徴とする請求項３記載の方法。
前記近傍領域が、前記自己組織化マップ上における前記勝者ベクトルの周辺ｎ×ｎ（ｎは３以上の奇数）の領域であって、
前記類似度閾値が、前記勝者ベクトルと、該近傍領域内にある前記複数の他の参照特徴ベクトルの各々との類似度の最低値または平均値であることを特徴とする請求項４記載の方法。
前記画像が、全体画像であることを特徴とする請求項１から５いずれか１項記載の方法。
前記画像が、全体画像を分割して得られたブロック画像であることを特徴とする請求項１から５いずれか１項記載の方法。
自己組織化マップを用いて画像の意味を判定する装置であって、
該画像から抽出した特徴ベクトルと、前記自己組織化マップ上の複数の参照特徴ベクトルの各々との組合せに関し、類似度を導出する手段と、
前記特徴ベクトルとの前記類似度が最も高い、最高類似度を示す勝者ベクトルを特定する手段と、
前記最高類似度を、所定の類似度閾値と比較する手段と、
前記最高類似度が前記類似度閾値よりも低い場合には前記意味の判定を行わずに、前記最高類似度が前記類似度閾値よりも高い場合に、前記勝者ベクトルの前記自己組織化マップ上における位置に基づいて前記意味の判定を行う手段を備えることを特徴とする装置。
前記意味の判定を行った場合には該意味の判定の結果の出力を行い、前記意味の判定を行わなかった場合にはその旨を知らせる出力を行う手段をさらに備えることを特徴とする請求項８記載の装置。
前記類似度閾値が、前記勝者ベクトルの前記自己組織化マップ上における前記位置によって異なるように定められた値であることを特徴とする請求項８または９記載の装置。
前記類似度閾値が、前記勝者ベクトルと、前記自己組織化マップ上において該勝者ベクトルの近傍領域内にある複数の他の参照特徴ベクトルとの類似度を反映して定められた値であることを特徴とする請求項１０記載の装置。
前記近傍領域が、前記自己組織化マップ上における前記勝者ベクトルの周辺ｎ×ｎ（ｎは３以上の奇数）の領域であって、
前記類似度閾値が、前記勝者ベクトルと、該近傍領域内にある前記複数の他の参照特徴ベクトルの各々との類似度の最低値または平均値であることを特徴とする請求項１１記載の装置。
前記画像が、全体画像であることを特徴とする請求項８から１２いずれか１項記載の装置。
前記画像が、全体画像を分割して得られたブロック画像であることを特徴とする請求項８から１２いずれか１項記載の装置。