JP2004287782A - 画像の意味を判定する方法および装置 - Google Patents

画像の意味を判定する方法および装置 Download PDF

Info

Publication number
JP2004287782A
JP2004287782A JP2003078298A JP2003078298A JP2004287782A JP 2004287782 A JP2004287782 A JP 2004287782A JP 2003078298 A JP2003078298 A JP 2003078298A JP 2003078298 A JP2003078298 A JP 2003078298A JP 2004287782 A JP2004287782 A JP 2004287782A
Authority
JP
Japan
Prior art keywords
image
meaning
self
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003078298A
Other languages
English (en)
Inventor
Sadataka Akahori
貞登 赤堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2003078298A priority Critical patent/JP2004287782A/ja
Publication of JP2004287782A publication Critical patent/JP2004287782A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】自己組織化マップを用いて画像の意味を判定する際に、意味判定の対象として自己組織化マップが予め学習していないような画像が入力された場合には、意味判定を行わないようにする。
【解決手段】意味判定対象である画像から抽出した特徴ベクトルと勝者ベクトルとの類似度が、所定の類似度閾値よりも低い場合には画像の意味の判定を行わずに、類似度閾値よりも高い場合に、勝者ベクトルの自己組織化マップ上における位置に基づいて画像の意味の判定を行う。
【選択図】 図6

Description

【0001】
【発明の属する技術分野】
本発明は、画像の意味を判定する方法および装置に関し、特に、自己組織化マップ(Self−Organization Map;SOM)を用いて画像の意味を判定する方法および装置に関する。
【0002】
【従来の技術】
情報の内容判定、分類、検索等の手法として、従来からのクラスタリング法等に代わるものとして、近年、自己組織化マップを利用した手法が用いられ始めている。
【0003】
自己組織化マップとは、複数の多次元ベクトルが空間的に配されたマップであり、各多次元ベクトルは、1つの参照情報の特徴を示す複数のパラメータを成分とするベクトルである。この自己組織化マップでは、予め多数の情報を学習することにより、互いに類似するベクトルが互いに近い位置に配置されるように構成されている。
【0004】
かかる学習後の自己組織化マップを用いれば、複数の入力情報について、その各々の特徴を示すベクトルと最も類似度の高い勝者ベクトルを自己組織化マップ上から探索し、該入力情報を自己組織化マップ上のその勝者ベクトルの位置に写像することにより、情報を2次元マップ状に一覧表示すること等が可能となる(たとえば、特許文献1および2参照)。このような一覧表示では、類似の特徴を有する情報(たとえば類似の画像や類似の商品情報等)が互いに近くに配置され表示されることになるので、視覚的に捉え易く、一覧性がよい。
【0005】
また、学習後の自己組織化マップにおいて特に類似の傾向が強いベクトルが集まった複数の島状の領域をクラスターとして定め、入力情報の特徴を示すベクトルと最も類似度の高い勝者ベクトルがいずれのクラスターに属するかを調べることにより、入力情報の分類や優先順位付けを行う手法も提案されている(たとえば、特許文献3および4参照)。
【0006】
また、予めクラス分けされいずれのクラスに属するかが分かっている情報を学習させる「教師あり学習」と自己組織化マップを組み合せた「修正対向伝搬ネットワーク(Modified CounterPropagation;MCP)」という手法も知られている(たとえば、非特許文献1参照)。この手法では、自己組織化マップと同じ大きさの「頻度マップ」がクラスごとに用意され、自己組織化マップの学習と並行して、各クラスごとに、自己組織化マップ上の各点に勝者ベクトルが現れる頻度を示す頻度マップの学習が行われる。これにより、学習終了後には、互いに類似するベクトルに対応する点が互いに近い位置に配置された自己組織化マップと、自己組織化マップ上の各点における各クラス情報の出現確率を示した確率分布マップとが得られることとなるので、入力情報の特徴を示すベクトルと最も類似度の高い勝者ベクトルを自己組織化マップ上から探索し、さらに確率分布マップにおける対応点を参照することにより、入力情報がいずれのクラスに属する情報であるのかを判定することが可能となる。
【0007】
【特許文献1】
特開2002−41545号公報
【0008】
【特許文献2】
特開2001−337953号公報
【0009】
【特許文献3】
特開2001−306612号公報
【0010】
【特許文献4】
特開2001−283184号公報
【0011】
【非特許文献1】
徳高、岸田、藤村、「自己組織化マップの応用−多次元情報の2次元可視化」、海文堂、1999年、p.63−73
【0012】
【発明が解決しようとする課題】
このような自己組織化マップの使用は、画像の意味判定にも応用することができる。たとえば、上記の修正対向伝搬ネットワークの手法を用いれば、予め画像の意味(上記の「クラス」に相当)、すなわち「空」や「木」の画像であることが分かっている多数の画像の特徴ベクトルを学習して、自己組織化マップと対応する意味のマップ(すなわち各意味の確率分布マップ)とを作成しておくことにより、未知の入力画像の意味を判定することができる。
【0013】
ここで、画像の意味判定は、判定された意味に基いて多数の写真画像等を分類したり、全体画像に含まれる「空」の部分、「木」の部分等の各画像領域に、意味ごとに区別された画像処理を施すため等に行われる。したがって、誤った意味の判定は、誤分類等を引き起こし、特に意味判定後に意味ごとに区別された画像処理を施す場合には、誤った画像領域に画像処理が施され、テクスチャーの喪失等の深刻な問題を招く。
【0014】
一方、自己組織化マップを用いた画像の意味の判定では、ベクトル間のユークリッド距離等を指標として、学習後の自己組織化マップ上に分布する複数の参照特徴ベクトルから、入力画像の特徴ベクトルに最も類似した勝者ベクトルを探索し、その勝者ベクトルの自己組織化マップ上での位置に基づいて意味の判定を行う。ここで、たとえば、「空」、「木」、「土」の画像ばかりを学習した自己組織化マップに対し、入力画像がベージュ色の「建物」の画像である場合には、入力画像は「土」等の意味に誤って判定され、上記のような問題を招いてしまう。かかる意味判定の誤りは、予めの学習において、あらゆる意味の画像を多数学習することにより防止することができるが、画像のような多様性の高い情報に関しては、そのような学習は実質的に不可能である。
【0015】
これらを考慮すると、自己組織化マップを用いた画像の意味判定においては、予めの学習において全く学習していないような画像が入力された場合にも、その自己組織化マップ上に存在する参照特徴ベクトルの中から強いて選ぶならば当該画像の特徴ベクトルと最も類似している勝者ベクトルに基づいて、いわばむりやり意味を判定するよりも、むしろそのような画像はその自己組織化マップでは「意味判定不能」なものと判断して意味判定を行わない方が好ましい。
【0016】
本発明は、かかる事情に鑑み、自己組織化マップを用いて画像の意味を判定する際に、意味判定の対象として自己組織化マップが予め学習していないような画像が入力された場合には、意味判定を行わないようにすることを目的とするものである。
【0017】
【課題を解決するための手段】
すなわち、本発明に係る画像の意味を判定する方法は、自己組織化マップを用いて画像の意味を判定する方法であって、該画像から抽出した特徴ベクトルと、自己組織化マップ上の複数の参照特徴ベクトルの各々との組合せに関し、類似度を導出する工程と、上記の特徴ベクトルとの類似度が最も高い、最高類似度を示す勝者ベクトルを特定する工程と、該最高類似度を、所定の類似度閾値と比較する工程と、最高類似度が類似度閾値よりも低い場合には意味の判定を行わずに、最高類似度が類似度閾値よりも高い場合に、勝者ベクトルの自己組織化マップ上における位置に基づいて意味の判定を行う工程を含むことを特徴とする方法である。
【0018】
また、本発明に係る画像の意味を判定する装置は、自己組織化マップを用いて画像の意味を判定する装置であって、該画像から抽出した特徴ベクトルと、自己組織化マップ上の複数の参照特徴ベクトルの各々との組合せに関し、類似度を導出する手段と、上記の特徴ベクトルとの類似度が最も高い、最高類似度を示す勝者ベクトルを特定する手段と、該最高類似度を、所定の類似度閾値と比較する手段と、最高類似度が類似度閾値よりも低い場合には意味の判定を行わずに、最高類似度が類似度閾値よりも高い場合に、勝者ベクトルの前記自己組織化マップ上における位置に基づいて意味の判定を行う手段を備えることを特徴とする装置である。
【0019】
ここで、画像の「意味を判定する」とは、その画像が何を撮影した画像であるか、どのような分類に属するか等を判定することを指す。また、本発明による画像の意味を判定する方法および装置には、具体的な意味づけの結果を出力として得ることを目的とする方法および装置のほか、たとえば判定された意味または自己組織化マップ上における勝者ベクトルの位置に基づき画像の探索、抽出、分類等を行うことを目的とする方法および装置も含まれるものとする。
【0020】
また、「特徴ベクトル」とは、意味を判定する対象である画像から抽出されるベクトルであって、当該画像の特徴を示す複数のパラメータ(以下、「特徴量」と呼ぶ)を成分とするベクトルを指す。特徴ベクトルの成分である特徴量としては、たとえば色の特徴、輝度の特徴、奥行情報、該画像に含まれるエッジの特徴等を示す特徴量が使用され得る。
【0021】
また、「類似度」とは、画像から抽出された特徴ベクトルと、該特徴ベクトルと同次元であり自己組織化マップ上に配された参照特徴ベクトルの類似の度合い、または参照特徴ベクトル同士の類似の度合いを示す指標であって、たとえば2つのベクトル間のユークリッド距離や内積等が使用され得る。なお、類似度が「高い」または「低い」とは、その類似度の値の大小そのものではなく、たとえば上記のユークリッド距離を類似度として採用した場合には、類似度(すなわちユークリッド距離)の値が小さい方が両ベクトルは類似しているので「類似度が高い」こととなる。
【0022】
なお、上記の本発明による方法または装置は、勝者ベクトルが示す最高類似度が類似度閾値よりも低い場合には意味の判定を行わずに、最高類似度が類似度閾値よりも高い場合に意味の判定を行う工程または手段を含むが、最高類似度が類似度閾値と等しい場合に意味の判定を行うか否かが定められているものも、本発明の範囲に含まれるものとする。すなわち、勝者ベクトルが示す最高類似度が類似度閾値よりも低い場合または類似度閾値と等しい場合には意味の判定を行わずに、最高類似度が類似度閾値よりも高い場合に意味の判定を行うものと、勝者ベクトルが示す最高類似度が類似度閾値よりも低い場合には意味の判定を行わずに、最高類似度が類似度閾値よりも高い場合または類似度閾値と等しい場合に意味の判定を行うもののいずれも、上記の本発明による方法または装置に含まれるものとする。
【0023】
上記の本発明に係る方法または装置は、意味の判定を行った場合には該意味の判定の結果の出力を行い、意味の判定を行わなかった場合にはその旨を知らせる出力を行う工程または手段をさらに含むものであってもよい。
【0024】
また、上記の類似度閾値は、勝者ベクトルの自己組織化マップ上における位置によって異なるように定められた値であることが好ましく、その値は、勝者ベクトルと、自己組織化マップ上において該勝者ベクトルの近傍領域内にある複数の他の参照特徴ベクトルとの類似度を反映して定められた値であることがさらに好ましい。この場合において、上記の近傍領域を、自己組織化マップ上における勝者ベクトルの周辺n×n(nは3以上の奇数)の領域とし、勝者ベクトルと、該近傍領域内にある複数の他の参照特徴ベクトルの各々との類似度の最低値または平均値を類似度閾値としてもよい。
【0025】
また、意味を判定する対象である画像は、全体画像であってもよいし、全体画像を分割して得られたブロック画像であってもよい。
【0026】
ここで、「全体画像」とは、撮影したデジタル写真画像や、動画の1フレームの、1枚分全体に相当する画像を指すものとする。一方、「ブロック画像」とは、全体画像をいくつかの領域(ブロック)に分割した各画像片を指し、たとえば、1024×1280画素の全体画像を32×32画素の大きさに分割したそれぞれの画像片等がこれに相当する。なお、上記の「意味を判定する」ことには、たとえば、ブロック画像について、「空」、「木」、「草原」等のいずれの対象が撮影されたブロックであるかを判定することや、全体画像について、「人物写真」、「建物の写真」、「海の風景写真」等のいずれであるかを判定することが含まれる。
【0027】
【発明の効果】
本発明に係る画像の意味を判定する方法および装置は、勝者ベクトルの示す最高類似度を類似度閾値と比較して、最高類似度が類似度閾値よりも低い場合には意味の判定を行わないものであるので、自己組織化マップが予め学習していないような画像が入力された場合にもいわばむりやりに意味を判定する事態を回避し、意味判定結果に対する信頼性を高めることができる。
【0028】
また、上記の類似度閾値を、勝者ベクトルの自己組織化マップ上における位置によって異なるように定めた場合、とりわけ、勝者ベクトルと、自己組織化マップ上において該勝者ベクトルの近傍領域内にある複数の他の参照特徴ベクトルとの類似度を反映して定めた場合には、学習内容の偏りや各意味の画像の多様性の違いによって生じる、勝者ベクトルの各位置に基づく意味判定の信頼性の相違を、閾値に反映させることができる。たとえば、「空」の画像には多少の色や輝度の違いはあるものの、その多様性は「建物」の画像に比べれば小さい。したがって、自己組織化マップが予め「空」の画像と「建物」の画像を同程度の枚数学習したとしても、意味判定対象の画像が「空」の画像である場合と「建物」の画像である場合とでは、勝者ベクトルとその近傍領域内にある複数の他の参照特徴ベクトルとの類似度、すなわち勝者ベクトルの守備範囲のようなものが異なる。同様の事態は、学習枚数の相違等の学習内容の偏りによっても生じる。これらの場合に、守備範囲の狭い勝者ベクトルに合わせて一定値の閾値を決定したのでは、十分に意味判定が可能な画像についても「意味判定不能」と判断してしまう可能性が高くなり、逆に守備範囲の広い勝者ベクトルに合わせて一定値の閾値を決定したのでは、意味判定の信頼性が低くなってしまう。勝者ベクトルの自己組織化マップ上における位置に依存する、一定値でない閾値を採用すれば、いずれの位置における閾値も、所望の意味判定の信頼性を達成するのために必要十分な値とすることができる。
【0029】
【発明の実施の形態】
以下、図面により、本発明の例示的な実施形態を詳細に説明する。
【0030】
図1は、本発明の第1の実施形態である、2次元の全体画像に含まれる各画像領域の意味特定処理の手順を示したフローチャートである。この処理は、全体画像中の個々の画像領域、すなわち「空」、「木」、「草原」等の撮影対象のいずれかに対応すると考えられる個々の有意な領域について、その意味を特定するものであり、その後、意味に基づく画像分類や、各意味に対応する画像領域ごとに区別された条件による画像処理を行うために有用な処理である。まず、ステップ10において処理対象である全体画像を表す画像データが読み込まれ、ステップ12において適当な画像領域が特定され、ステップ14において全体画像がブロック画像に分割され、ステップ16において各ブロック画像の意味が判定され、それに基づいて各画像領域の意味が特定される。これらの各ステップのうち、本発明は特にステップ16において使用される方法および装置に関するものであるが、他のステップについても、以下、順を追って説明していく。
【0031】
ステップ12における画像領域の特定手法の例については、図2を用いて説明する。
【0032】
図2の(a)は処理対象である原画像としての全体画像を示す。まず、この原画像を構成する各画素に関し、隣接する画素の色の特徴を比較して、類似画素を統合することとする。ここで、色の特徴を比較して類似画素を統合するとは、たとえば、RGB表色系で表された原画像の各成分信号値、すなわちR、GおよびBの各成分の濃度値を、隣接画素間でそれぞれ比較して、いずれの成分信号値の差もが所定の閾値を超える場合に、それらの画素を統合する等の処理を行うことである。RGB表色系に代えて、YCC表色系で表された各成分信号値を比較してもよい。この比較および統合は、上記の閾値等の所定の基準によりそれ以上の統合が起こらなくなるまで順次繰り返され、類似の色の特徴を有する画素からなる区域が拡大していく。この類似画素の統合が完了した後の状態が、図2の(b)の状態であるとする。
【0033】
ここに、図2の(b)に示した画像を構成する各区域のうち、周囲長が所定の長さより短い区域を「微小区域」と呼び、周囲長が該所定の長さ以上である区域を「非微小区域」と呼ぶこととする。図2の(b)においては、区域20および22等は微小区域、区域24、26および28等は非微小区域である。
【0034】
次に、図2の(b)の画像を構成する各区域を隣接する区域と比較して、統合可能なものをさらに統合するのであるが、この区域の統合の基準は、微小区域と非微小区域で異なる。微小区域については、一の非微小区域に完全に包含されている微小区域(たとえば非微小区域26に完全に包含されている微小区域20)は、その一の非微小区域に統合されるものとする。また、2以上の非微小区域と境界を接する微小区域は、接する境界の長さが長い方の非微小区域に統合されるものとする。この基準によれば、微小区域統合後の状態は、図2の(c)のようになる。
【0035】
非微小区域については、当該非微小区域をなす画素の平均の色の特徴を、隣接する各非微小区域をなす画素の平均の色の特徴と比較し、類似の度合いが閾値等による所定の基準を超える隣接非微小区域がある場合は、統合が行われる。たとえば、図2の(c)における非微小区域24の平均の色の特徴について、非微小区域26の平均の色の特徴との類似の度合いは上記の所定の基準を超えるが、非微小区域28の平均の色の特徴との類似の度合いは上記の所定の基準以下である場合は、当該非微小区域24は、非微小区域26と統合され、非微小区域28とは統合されない。かかる所定の基準による非微小区域の統合の最終的な結果は、たとえば図2の(d)のようになる。この最終的な状態の画像を構成する各領域が、「画像領域」として特定される。
【0036】
以上、図1のステップ12における画像領域への分割手法の例を図2を用いて説明したが、このステップ12における画像領域への分割が、他のいかなる周知の手法によるものでもよいことは言うまでもない。
【0037】
図1に戻って、ステップ14では、処理対象である全体画像がブロック画像に分割される。本実施形態では、全体画像は1024×1280画素のデジタル写真画像であるとし、ブロック画像は各々32×32画素の画像であるとする。なお、図1では、説明の便宜のため、実際よりも粗い分割で示してある。
【0038】
続いて、ステップ16において、分割された各ブロック画像の意味が判定され、それに基づいて各画像領域の意味が特定される。ステップ16において行われる処理の詳細な工程を、図3のフローチャートに示す。
【0039】
まず、図3のステップ30において、図2の(d)のように特定された複数の画像領域のうちの一の画像領域に包含されるブロック画像が特定される。ここで、一の画像領域に包含されるブロック画像とは、その画像領域に完全に包含されているブロック画像を言い、画像領域間の境界にまたがるブロック画像は含まないものとする。
【0040】
次に、ステップ32において、ステップ30で特定されたブロック画像の1つから、特徴ベクトルが抽出される。本実施形態では、抽出する特徴ベクトルは10次元のベクトルとし、該特徴ベクトルの成分となる10個の特徴量として、YCC表色系で表された当該ブロック画像の3つの成分信号値の、各々の平均値ならびに標準偏差、および縦エッジ画像と横エッジ画像の成分信号値の、各々の絶対値の平均値ならびに標準偏差を抽出するものとする。縦エッジ画像および横エッジ画像は、当該ブロック画像のYCC表色系における輝度成分の画像に対し、図4に示すようなエッジ検出用のフィルターを適用することにより求めるものとする。
【0041】
続いて、ステップ34において、ステップ32で抽出した特徴ベクトルと、学習済の自己組織化マップ上の各々の参照特徴ベクトルとの類似度が導出される。ここで「自己組織化マップ」とは、図5の上段に示すような、複数の参照特徴ベクトルが空間的に配されたマップであり、予め行われる学習により、互いに類似する参照特徴ベクトルは互いに近い位置に配置されている。本実施形態では、予め行われる学習過程においていわゆる「教師あり学習」を行い、図5の下段に示すような対応する大きさの意味のマップが付随した自己組織化マップを用いるものとする。この意味のマップは、自己組織化マップ上の各参照特徴ベクトルに対応する画像が「空」の画像である確率の分布マップ、「木」の画像である確率の分布マップ等の、複数の確率分布マップが重ね合わされたものである。
【0042】
この「教師あり学習」の学習過程の例を概略的に説明すると、学習前の状態においては、自己組織化マップ上には、様々な参照特徴ベクトルが、ランダムに分布している。また、各確率分布マップの各点の初期値は、0とされている。ここに、学習対象として、まず「空」であることが分かっている1枚の画像の特徴ベクトルが入力されると、自己組織化マップ上において、この入力された特徴ベクトルに最も類似する参照特徴ベクトルが特定される。この特定は、たとえば、入力された特徴ベクトルとのユークリッド距離が最も小さい参照特徴ベクトルを探索する等により行われる。すると、自己組織化マップ上においてその特定された参照特徴ベクトル、およびその近傍たとえば7×7の範囲にある参照特徴ベクトルが、上記の入力された特徴ベクトルに近づくように(すなわち、学習対象である入力された特徴ベクトルとの類似度が高まるように)修正される。一方、「空」の画像である確率の分布マップ上では、上記の特定された参照特徴ベクトルに対応する点およびその7×7の範囲の近傍の点に、たとえば「1」の頻度値が加算される。次に、「木」であることが分かっている1枚の画像の特徴ベクトルが入力されると、上記と同様に、自己組織化マップ上において、最も類似する参照特徴ベクトルの特定、および近傍の参照特徴ベクトルの修正が行われる。一方、「木」の画像である確率の分布マップ上では、特定された参照特徴ベクトルに対応する点およびその近傍の点に、「1」の頻度値が加算される。このようにして「空」や「木」等の画像であることが分かっている多数の画像学習を繰り返すと、自己組織化マップ上では、類似の特徴を示す参照特徴ベクトルが、徐々に互いに近い位置に集まってくる。一方、それぞれの確率分布マップ上でも、徐々に島状の頻度の分布が形成されていく。学習が進んで類似の参照特徴ベクトルが集合してくるにしたがって、当初7×7であった参照特徴ベクトルの修正を行う近傍の大きさは、徐々に小さくされていく。学習終了後、それぞれの確率分布マップは規格化されて重ね合わされ、図5の下段に示すような意味のマップが形成される。
【0043】
本実施形態では、図3のステップ34において導出される類似度として、ユークリッド距離を使用するものとする。すなわち、ステップ32で抽出した特徴ベクトルと、上記に説明した教師あり学習後の自己組織化マップ上の各参照特徴ベクトルとのユークリッド距離が計算される。この場合、導出されたユークリッド距離が小さいほど、ベクトル間の類似度が高いこととなる。
【0044】
次に、ステップ36において、ステップ34で導出した特徴ベクトルとのユークリッド距離が最も小さい参照特徴ベクトル、すなわち特徴ベクトルに対し最高類似度を示す参照特徴ベクトルが、「勝者ベクトル」として特定される。
【0045】
続いて、ステップ38において、上記の最高類似度、すなわち勝者ベクトルと特徴ベクトルとのユークリッド距離が、所定の閾値と比較される。その結果、このユークリッド距離が閾値以下である場合には、ステップ40において、勝者ベクトルの位置に対応する意味のマップ上の対応点が参照され、「空」、「木」等の意味のうち、当該対応点において最も高い確率を示している意味が、現在のブロック画像の意味として特定される。一方、勝者ベクトルと特徴ベクトルとのユークリッド距離が閾値より大きい場合には、ステップ40’において、現在のブロック画像は「意味判定不能」なものであるとの判断が下される。かかる閾値を使用することにより、自己組織化マップが予め学習していないような画像が入力された場合にもいわばむりやりに意味を判定する事態を回避できるので、意味判定結果に対する信頼性を高めることができる。判定された意味または「意味判定不能」という結果は、メモリに出力されて記憶される。さらに表示画面上等にも出力が行われてもよい。
【0046】
ステップ38で用いられる閾値としては、自己組織化マップ上における勝者ベクトルの位置によって異なるように定められた位置依存の閾値が好ましく、特に、勝者ベクトルと、自己組織化マップ上において該勝者ベクトルの近傍領域内にある複数の他の参照特徴ベクトルとの類似度を反映して定められた閾値が好ましい。これは、かかる閾値の使用により、学習内容の偏りや各意味の画像の多様性の違いによって生じる各参照特徴ベクトルの「守備範囲」の相違を、閾値に反映させることができるためである。具体的には、本実施形態では、勝者ベクトルと、自己組織化マップ上において勝者ベクトルの周辺5×5の近傍領域内にある他の24個の参照特徴ベクトルとのユークリッド距離の最大値を、閾値として用いる。
【0047】
ここで、本実施形態において、最高類似度としてのユークリッド距離が閾値より大きくなり、現在のブロック画像が「意味判定不能」と判断される場合の例を、図6を用いてより詳細に説明する。処理対象の全体画像は図2の(d)に示す画像領域に分割されているが、ここでは、図6の(a)に示すように、実際には建物の部分である画像領域26内のブロック画像の意味判定について考える。このブロック画像から抽出した特徴ベクトル50とのユークリッド距離が最も近い勝者ベクトルは、図6の(b)に示す勝者ベクトル52であるとする。ここで、図6の(b)に示した自己組織化マップおよび意味のマップは、図5と同一のものであるが、この意味のマップには「建物」の確率分布が示されていない。これは、予めの学習において、「建物」の画像の学習サンプルが全く学習されなかったか、あるいは著しく少なかったためである。すなわち、図5に示す自己組織化マップと意味のマップの対では、「建物」の画像については正しい意味判定を行うことができない。この場合に、閾値による判別を行わなければ、意味のマップ上における勝者ベクトル52の対応点56が参照され、当該ブロック画像は「土」の意味に誤って判定されてしまう。ところが、勝者ベクトル52と、自己組織化マップ上において勝者ベクトル52の周辺5×5の近傍領域54内にある他の24個の参照特徴ベクトルとのユークリッド距離の最大値を閾値として用いているので、特徴ベクトル50と勝者ベクトル52との距離が、近傍領域54内の参照特徴ベクトル間において許容され得る距離、すなわち勝者ベクトル52の守備範囲を超えているような場合には、特徴ベクトル50と勝者ベクトル52との距離は閾値より大きくなり、「意味判定不能」の判断が下される。一方、「土」の画像であるが勝者ベクトルが表す画像とは色やテクスチャーが多少異なる程度の画像から抽出した特徴ベクトルであれば、必ず上記の閾値の範囲内となるか、そもそも別の参照特徴ベクトルが勝者ベクトルとなるはずであるので、正しい意味の特定が行われる。要するに、本実施形態によれば、全く学習していないか学習量が著しく少ないために、有意な意味判定ができないような画像のみが「意味判定不能」と判断され、意味判定対象から除外されることとなる。
【0048】
なお、自己組織化マップ上における勝者ベクトルの位置によって異なるように定められた閾値としては、本実施形態では、勝者ベクトルの周辺5×5の近傍領域内にある他の参照特徴ベクトルとのユークリッド距離の最大値を用いたが、これに限られないことは言うまでもない。たとえば、最大値に代えて平均値等を用いてもよいし、近傍領域の大きさも5×5に限られない。あるいは、近傍領域内にある参照特徴ベクトルのベクトル長の標準偏差等を基準にしてもよい。
【0049】
図3に戻って、次のステップ42において、現在の画像領域に含まれるブロック画像がまだ残っているかどうかが確認され、現在の画像領域に含まれる全てのブロック画像の意味が判定または「意味判定不能」と判断されるまで、ステップ32から42が繰り返される。
【0050】
現在の画像領域に含まれる全てのブロック画像の意味の判定が終了すると、ステップ44において、各ブロック画像の判定された意味のうち最多のものが、現在の画像領域の意味として特定される。たとえば、図2の(d)の画像領域28に含まれるブロック画像の中には、「水」等の意味に判定されるものも混在し得るが、大半は「空」の意味に判定されるので、画像領域28は「空」の領域として特定される。「意味判定不能」と判断されたブロック画像を含む画像領域については、正しく意味が判定されたブロック画像に基づいて意味を特定し、全てのブロック画像が「意味判定不能」であった場合にのみ画像領域全体の意味を「不明」と判断することとしてもよいし、意味が判定できたブロック画像を含んでいても、「意味判定不能」と判断されたブロック画像の数が一定割合を超える場合には画像領域全体の意味を「不明」と判断することとしてもよい。
【0051】
続いて、ステップ46において、未処理の画像領域が残っているかどうかが確認され、全ての画像領域の意味が特定または「不明」と判断されるまで、図3に示した工程が繰り返される。
【0052】
以上、本発明の第1の実施形態として、2次元の全体画像をブロック画像に分割し、それぞれのブロック画像の意味を判定することにより、該全体画像に含まれる各画像領域の意味を特定する処理について説明したが、この変更例として、全体画像の意味判定処理への適用も考えられる。この場合、たとえば、「人物写真」、「建物の写真」、「海の風景写真」等であることが分かっている全体画像を予め学習して自己組織化マップと意味のマップを作成しておき、意味判定対象である全体画像から抽出した特徴ベクトルと最も類似する勝者ベクトルを、自己組織化マップ上から探索する。
【0053】
次に、図7および図8を用いて、本発明の第2の実施形態として、複数の全体画像を検索して特定シーンの画像のみを抽出する処理を説明する。
【0054】
まず、図7のステップ60において、検索対象である複数の全体画像のうちの1つを表す画像データが読み込まれる。
【0055】
次に、ステップ62において、読み込んだ全体画像から特徴ベクトルが抽出される。この特徴ベクトルは、第1の実施形態と同様に10次元のものであり、各成分となる特徴量も、第1の実施形態と同様のものとする。
【0056】
続いて、ステップ64において、ステップ62で抽出した特徴ベクトルと、学習済の自己組織化マップ上の各々の参照特徴ベクトルとの類似度が導出され、ステップ66において、最高類似度を示す参照特徴ベクトルが勝者ベクトルとして特定される。類似度としては、第1の実施形態と同様にベクトル間のユークリッド距離を使用する。
【0057】
ここで、第1の実施形態では、予め「教師あり学習」を行い、意味のマップと対になった自己組織化マップを用いたが、本実施形態では、特定シーンの多数の画像をいわゆる「教師なし学習」により学習した自己組織化マップを用いる。たとえば、抽出したい特定シーンが「海の風景」である場合には、海の風景の画像のみを多数、自己組織化マップに学習させるが、第1の実施形態と異なり、並行して意味のマップを作成することは行わない。自己組織化マップの学習工程は、意味のマップを作成しない点を除けば、教師あり学習の場合と同様であり、初期状態では様々な参照特徴ベクトルがランダムに分布している自己組織化マップについて、学習サンプルである画像の特徴ベクトルに最も類似する参照特徴ベクトルの特定、および近傍の参照特徴ベクトルの修正を繰り返すことにより学習が行われる。十分な枚数の特定シーンの画像を学習した後、図8に示すように、隣接参照ベクトル間の類似度が所定の基準値以上である等の有意なクラスターを、特定シーンのクラスターとする。
【0058】
図7に戻って、ステップ68において、勝者ベクトルが上記の特定シーンのクラスターに属するか否かが判断され、属しない場合は直ちにステップ72’へ進み、読み込まれた全体画像は特定シーンの画像ではないと判断される。しかしながら、勝者ベクトルが特定シーンのクラスターに属する場合でも、実際には、読み込まれた全体画像が特定シーンの画像ではなく特徴ベクトルも相当異なるにもかかわらず、類似度(ここではユークリッド距離)の値から見れば、その自己組織化マップ上から強いて選ぶならば最も類似する勝者ベクトルが、クラスター内のものとなる場合もある。
【0059】
そこで、ステップ70において、かかる画像を特定シーンの画像であると誤って判断することを防ぐため、閾値による判別が行われる。すなわち、特徴ベクトルと勝者ベクトルのユークリッド距離が所定の閾値以下の場合にのみ、ステップ72において当該画像は特定シーンの画像であると判断し、該ユークリッド距離が所定の閾値より大きい場合には、ステップ72’において特定シーンの画像ではないと判断する。閾値としては、第1の実施形態と同様に、勝者ベクトルと、自己組織化マップ上において勝者ベクトルの周辺5×5の近傍領域内にある他の24個の参照特徴ベクトルとのユークリッド距離の最大値等を使用することができる。ステップ72または72’における判断の結果は、メモリおよび/または表示画面上に出力される。なお、ステップ72における、勝者ベクトルが自己組織化マップ上で特定シーンのクラスターに属することに基づく、当該画像が特定シーンの画像であるとの判断も、本発明で言う「勝者ベクトルの自己組織化マップ上における位置に基づく意味の判定」に含まれるものとする。
【0060】
一の全体画像について以上の処理が完了すると、ステップ74において次の全体画像があるかどうかが確認され、検索対象である全ての全体画像が処理され特定シーンの画像の抽出が終了するまで、ステップ60から74が繰り返される。
【0061】
なお、たとえば特定シーンとして多様な海の風景の画像が十分な枚数学習され、自己組織化マップ上のすべての参照特徴ベクトルが何らかの「海の風景」の特徴を表すベクトルとなっているような場合には、特定シーンのクラスターの設定を行わず、上記のステップ68を省略し、閾値のみに基づいて、入力画像が特定シーンの画像であるか否かを判断してもよい。このような、十分に学習した自己組織化マップ上に所定の類似度閾値よりも高い類似度を示す勝者ベクトルが存在するか否かによる、特定シーンであるか否かの判断も、本発明で言う「勝者ベクトルの自己組織化マップ上における位置に基づく意味の判定」に含まれるものとする。
【0062】
また、以上の各実施形態においては、特徴ベクトルは、YCC表色系による3つの成分信号値の各々の平均値ならびに標準偏差、および縦エッジ画像と横エッジ画像の成分信号値の各々の絶対値の平均値ならびに標準偏差を成分とする10次元の特徴ベクトルとしたが、特徴ベクトルの次元および各成分の内容のいずれも、これらに限られないことは当然である。
【0063】
以上、本発明の2つの実施形態について詳細に述べたが、これらの実施形態は例示的なものに過ぎず、本発明の技術的範囲は、本明細書中の特許請求の範囲のみによって定められるべきものであることは言うまでもない。
【図面の簡単な説明】
【図1】本発明の第1の実施形態である、2次元の全体画像に含まれる各画像領域の意味特定処理の手順を示したフローチャート
【図2】図1の意味特定処理における画像領域の特定手法の例を示した工程図
【図3】図1の意味特定処理における意味特定手法の詳細な工程を示したフローチャート
【図4】エッジ画像の導出に用いられるエッジ検出用フィルターの例を示した図
【図5】第1の実施形態で使用する、教師あり学習後の自己組織化マップおよび対応する意味のマップの例を示した概念図
【図6】第1の実施形態において、現在のブロック画像が「意味判定不能」と判断される場合の例を示した図
【図7】本発明の第2の実施形態である、複数の全体画像を検索して特定シーンの画像のみを抽出する処理の手順を示したフローチャート
【図8】第2の実施形態で使用する、教師なし学習後の自己組織化マップの例を示した概念図

Claims (14)

  1. 自己組織化マップを用いて画像の意味を判定する方法であって、
    該画像から抽出した特徴ベクトルと、前記自己組織化マップ上の複数の参照特徴ベクトルの各々との組合せに関し、類似度を導出する工程と、
    前記特徴ベクトルとの前記類似度が最も高い、最高類似度を示す勝者ベクトルを特定する工程と、
    前記最高類似度を、所定の類似度閾値と比較する工程と、
    前記最高類似度が前記類似度閾値よりも低い場合には前記意味の判定を行わずに、前記最高類似度が前記類似度閾値よりも高い場合に、前記勝者ベクトルの前記自己組織化マップ上における位置に基づいて前記意味の判定を行う工程を含むことを特徴とする方法。
  2. 前記意味の判定を行った場合には該意味の判定の結果の出力を行い、前記意味の判定を行わなかった場合にはその旨を知らせる出力を行う工程をさらに含むことを特徴とする請求項1記載の方法。
  3. 前記類似度閾値が、前記勝者ベクトルの前記自己組織化マップ上における前記位置によって異なるように定められた値であることを特徴とする請求項1または2記載の方法。
  4. 前記類似度閾値が、前記勝者ベクトルと、前記自己組織化マップ上において該勝者ベクトルの近傍領域内にある複数の他の参照特徴ベクトルとの類似度を反映して定められた値であることを特徴とする請求項3記載の方法。
  5. 前記近傍領域が、前記自己組織化マップ上における前記勝者ベクトルの周辺n×n(nは3以上の奇数)の領域であって、
    前記類似度閾値が、前記勝者ベクトルと、該近傍領域内にある前記複数の他の参照特徴ベクトルの各々との類似度の最低値または平均値であることを特徴とする請求項4記載の方法。
  6. 前記画像が、全体画像であることを特徴とする請求項1から5いずれか1項記載の方法。
  7. 前記画像が、全体画像を分割して得られたブロック画像であることを特徴とする請求項1から5いずれか1項記載の方法。
  8. 自己組織化マップを用いて画像の意味を判定する装置であって、
    該画像から抽出した特徴ベクトルと、前記自己組織化マップ上の複数の参照特徴ベクトルの各々との組合せに関し、類似度を導出する手段と、
    前記特徴ベクトルとの前記類似度が最も高い、最高類似度を示す勝者ベクトルを特定する手段と、
    前記最高類似度を、所定の類似度閾値と比較する手段と、
    前記最高類似度が前記類似度閾値よりも低い場合には前記意味の判定を行わずに、前記最高類似度が前記類似度閾値よりも高い場合に、前記勝者ベクトルの前記自己組織化マップ上における位置に基づいて前記意味の判定を行う手段を備えることを特徴とする装置。
  9. 前記意味の判定を行った場合には該意味の判定の結果の出力を行い、前記意味の判定を行わなかった場合にはその旨を知らせる出力を行う手段をさらに備えることを特徴とする請求項8記載の装置。
  10. 前記類似度閾値が、前記勝者ベクトルの前記自己組織化マップ上における前記位置によって異なるように定められた値であることを特徴とする請求項8または9記載の装置。
  11. 前記類似度閾値が、前記勝者ベクトルと、前記自己組織化マップ上において該勝者ベクトルの近傍領域内にある複数の他の参照特徴ベクトルとの類似度を反映して定められた値であることを特徴とする請求項10記載の装置。
  12. 前記近傍領域が、前記自己組織化マップ上における前記勝者ベクトルの周辺n×n(nは3以上の奇数)の領域であって、
    前記類似度閾値が、前記勝者ベクトルと、該近傍領域内にある前記複数の他の参照特徴ベクトルの各々との類似度の最低値または平均値であることを特徴とする請求項11記載の装置。
  13. 前記画像が、全体画像であることを特徴とする請求項8から12いずれか1項記載の装置。
  14. 前記画像が、全体画像を分割して得られたブロック画像であることを特徴とする請求項8から12いずれか1項記載の装置。
JP2003078298A 2003-03-20 2003-03-20 画像の意味を判定する方法および装置 Withdrawn JP2004287782A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003078298A JP2004287782A (ja) 2003-03-20 2003-03-20 画像の意味を判定する方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003078298A JP2004287782A (ja) 2003-03-20 2003-03-20 画像の意味を判定する方法および装置

Publications (1)

Publication Number Publication Date
JP2004287782A true JP2004287782A (ja) 2004-10-14

Family

ID=33292820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003078298A Withdrawn JP2004287782A (ja) 2003-03-20 2003-03-20 画像の意味を判定する方法および装置

Country Status (1)

Country Link
JP (1) JP2004287782A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008027176A (ja) * 2006-07-20 2008-02-07 Kyushu Institute Of Technology データ生成回路及びデータ生成方法
JP2008065477A (ja) * 2006-09-05 2008-03-21 Kyushu Institute Of Technology データ処理装置及び方法
JP2020530634A (ja) * 2017-07-18 2020-10-22 アナリティクス フォア ライフ インコーポレイテッド 病状診断のための機械学習法などの機械学習法において使用する新規特徴の発見

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008027176A (ja) * 2006-07-20 2008-02-07 Kyushu Institute Of Technology データ生成回路及びデータ生成方法
JP2008065477A (ja) * 2006-09-05 2008-03-21 Kyushu Institute Of Technology データ処理装置及び方法
JP2020530634A (ja) * 2017-07-18 2020-10-22 アナリティクス フォア ライフ インコーポレイテッド 病状診断のための機械学習法などの機械学習法において使用する新規特徴の発見

Similar Documents

Publication Publication Date Title
Park et al. Double JPEG detection in mixed JPEG quality factors using deep convolutional neural network
US7336819B2 (en) Detection of sky in digital color images
EP2367138B1 (en) Image attribute discrimination apparatus, attribute discrimination support apparatus, image attribute discrimination method, attribute discrimination support apparatus controlling method, and control program
US8660351B2 (en) Auto-cropping images using saliency maps
EP1810245B1 (en) Detecting irises and pupils in human images
JP4139615B2 (ja) 前景/背景セグメント化を用いた画像のイベント・クラスタリング
JP4505362B2 (ja) 赤目検出装置および方法並びにプログラム
Zhao et al. Detecting digital image splicing in chroma spaces
US8295593B2 (en) Method of detecting red-eye objects in digital images using color, structural, and geometric characteristics
CN110033040B (zh) 一种火焰识别方法、***、介质和设备
JP2001236497A (ja) 写真画像のクロッピングされズームされた変形を自動的に形成する方法
JP2007513555A (ja) 画像処理
US7574036B2 (en) Apparatus, program, and recording medium for learning data to form a self-organizing map comprised of reference vectors corresponding to features of an image and used for determining objects in an image
US7627166B2 (en) Method and mechanism for processing image data
JP2010072699A (ja) 画像分類装置および画像処理装置
JP2005190400A (ja) 顔画像検出方法及び顔画像検出システム並びに顔画像検出プログラム
WO2018068143A1 (en) Method, medium, and system for detecting potato virus in a crop image
JP2011054080A (ja) 画像処理装置および方法、並びにプログラム
JP5155250B2 (ja) 対象物検出装置
EP2966613A1 (en) Method and apparatus for generating a super-resolved image from an input image
JP2004287782A (ja) 画像の意味を判定する方法および装置
JP6044138B2 (ja) 画像領域分割装置、方法、およびプログラム
JP6278757B2 (ja) 特徴量生成装置、特徴量生成方法、およびプログラム
EP3076370A1 (en) Method and system for selecting optimum values for parameter set for disparity calculation
JP6091400B2 (ja) 画像処理装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060606