JP4300098B2 - オブジェクト識別方法とその装置、プログラム及び記録媒体 - Google Patents

オブジェクト識別方法とその装置、プログラム及び記録媒体 Download PDF

Info

Publication number
JP4300098B2
JP4300098B2 JP2003383579A JP2003383579A JP4300098B2 JP 4300098 B2 JP4300098 B2 JP 4300098B2 JP 2003383579 A JP2003383579 A JP 2003383579A JP 2003383579 A JP2003383579 A JP 2003383579A JP 4300098 B2 JP4300098 B2 JP 4300098B2
Authority
JP
Japan
Prior art keywords
calculating
region
image
matching degree
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003383579A
Other languages
English (en)
Other versions
JP2005148987A (ja
Inventor
良規 草地
章 鈴木
直己 伊藤
賢一 荒川
慎吾 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003383579A priority Critical patent/JP4300098B2/ja
Publication of JP2005148987A publication Critical patent/JP2005148987A/ja
Application granted granted Critical
Publication of JP4300098B2 publication Critical patent/JP4300098B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、画像内にどのようなオブジェクトが写っているかを識別する画像識別技術を利用した産業応用システム例えば景観中文字認識システムに関するものである。
従来の景観に写った文字を認識する技術は、大きく分けて2つに分類される。
1つの方法は、景観の中から文字が写った領域を切り出し、その領域を2値化し、従来の文字認識技術により判別するという技術(以下、文字切り出し方式と称する)である。この方法には特許公報1(特開平6−131492号公報)に開示されたナンバープレート認識方法がある。
もう一つは、文字の変形テンプレートを用意し、画像全面をスキャニングするという技術(以下、テンプレートマッチング方式と称する)である。この方法には特許公報2(特開2001−307021号公報)に「パターン列抽出方法及びナンバープレート認識方法」がある。
特開平6−131492号公報 特開2001−307021号公報
しかしながら、前記文字切り出し方式においては、背景が複雑なテクスチャーを有する場合や文字同士がくっ付いている場合に、文字領域を切り出すこと自体が非常に難しい。また、文字領域に陰影が存在する場合には、2値化に失敗し易いという問題がある。そのため、文字切り出し方式は、適用できる景観画像に大きな制約があった。
テンプレートマッチング方式においては、マッチングの計算自体に多大な時間を要するため、実用的なシステムを構築するには、判別するカテゴリ数が限られるという問題がある。また、景観中文字のようにフォント等の幾何学的形状が非常に多様な場合は、事前に万全なテンプレートを用意することは困難であり、実用的ではないという問題がある。さらに、例えば看板の端を「1」として識別してしまうような、本来は文字ではないところを文字として識別してしまうという問題がある。
本発明は、かかる事情に鑑みなされたもので、その目的は、景観中文字の識別能力を高めたオブジェクト識別方法とその装置、プログラム及び記録媒体の提供にある。
そこで、本発明のオブジェクト識別方法とその装置は、入力画像のある領域に対して特徴ベクトルを求め、辞書との照合により照合度を算出し、この照合度の分布傾向を利用して候補の絞り込みを行うことで、識別の高速化、誤抽出の削減を実現している。
すなわち、本発明のオブジェクト識別方法とその装置は、オブジェクトを識別する段階において、(1)対象画像において注目する位置(注目位置)及び大きさ(注目サイズ)を変更しながら注目する画像(注目領域画像)を切り出し、この切り出し画像から特徴(対象特徴ベクトル)を抽出し、下記繰り返しの回数に応じて特徴ベクトルを圧縮し(対象圧縮特徴ベクトル)した後に、予め入力された部分空間(認識辞書)を用いて対象圧縮特徴ベクトルを部分空間に投影した際の距離(照合度)を算出し、注目する位置が隣り合う2つの照合度が閾値以下であれば連結と判定し、(2)前記連結領域内での最大のピークを検出し、(3)この検出されたピークを候補として登録し、そして、(1)〜(3)の工程を指定された回数繰り返し実行している。
前記特徴抽出の過程では、各画像の横方向の微分と縦方向の微分成分を計算して微分の方向と強さを算出し、次いで、各画像の定められた領域内の各画素の微分方向を定められた段階に量子化し、次いで、微分の強さを段階毎に累積加算した微分方向ヒストグラム作成し、微分方向ヒストグラムをベクトルとみなしてその大きさを定められた値に正規化している。
辞書との照合度は、注目位置同上が近ければ急激には変化せず、滑らかに変化する。本発明は、注目位置同上が近いものの中で、そのピークを検出し、後段で詳細な辞書と比較するため、辞書とは似ているのだが、より良い候補が近辺にある候補を削減することができ、識別処理の高速化を実現できる。
また、辞書との照合度を算出してその空間的な連結惟を判定し連結領域内でピークを検出するため、文字領域以外での誤検出を抑制することができる。例えば、看板の端を「1」と誤検出してしまう誤りは看板の端全体に出現するが、本ピーク検出によりその誤り候補位置を1点に絞り込むことができる。また、粗探索においてピーク検出を行うことによって多くの候補を削除できるので、識別処理を高速化できる。
さらに、圧縮率の高いベクトルにおいては、識別率が低い反面、投影距離を高速に求めることができ、多くの候補を高速に除外できる。圧縮率の低いベクトルにおいては、識別率が高い反面、投影距離の計算にコストがかかる。本発明によると、複数の圧縮率により、精度が悪い高速処理と、精度を重視した低速処理を組み合わせることが可能となる。これにより全体の処理を高速且つ高精度に実現できる。
また、正規化した微分方向ヒストグラムは、2値化を必要としないため、陰影の混入に強い。さらに、文字のフォントの多様な形状変動に対して、正規化した微分方向ヒストグラムは大きく変動しないため、代表的なフォントを用いて事前に万全な認識辞一書を作成することが可能である。
尚、本発明のオブジェクト識別方法とその装置はコンピュータにその手順及び手段を実行するためのプログラムによっても実現でき、さらには、このプログラムをコンピュータ読み取り可能な記録媒体に記録すること、ネットワークを通して提供することも可能である。記録媒体としては、フレキシブルディスクや、HDD、MO、ROM、メモリカード、CD、DVD、リムーバルディスク等が例示される。
本発明によれば、辞書との照合度を算出してその空間的な連結性を判定し連結領域内でピークを検出するので、文字領域以外での誤検出を抑制することができる。また、粗探索においてピーク検出を行うことによって多くの候補を削除できるので、識別処理を高速化することができる。
さらに、圧縮率の高いベクトルにおいては、識別率が低い反面、投影距離を高速に求めることができるので、多くの候補を高速に除外できる。圧縮率の低いベクトルにおいては、識別率が高い反面、投影距離の計算にコストがかかるが、本発明によれば、精度を保ったまま、画像中に存在する多数オブジェクトの抽出及び識別を高速化できる。
また、本発明によって正規化した微分方向ヒストグラムは、2値化を必要としないので、陰影の混入に強い。さらに、文字のフォントの多様な形状変動に対して、正規化した微分方向ヒストグラムは大きく変動しないので、代表的なフォントを用いて事前に万全な辞書を作成することが可能である。
本発明の実施の形態について図面を参照しながら説明する。
図1は、本発明を景観中文字認識翻訳システムの概略構成図である。
本システムにより、ユーザは撮影した文字の画像を基にその文字の翻訳情報をみることができる。但し、文字の翻訳辞書を有していることが前提となる。システムは、本発明の認識装置及び翻訳情報蓄積検索装置から構成される。
本発明に係る識別装置1は、ユーザ2によって入力された画像と認識辞書(図1においては辞書3と表記)を利用し、画像に撮影された文字を識別する。
翻訳装置4は、文字列と翻訳情報を蓄積しておき、文字列から翻訳情報を検索する手段であり、一般のデータベースにより構築できるため、本実施形態例ではその詳細な説明は省略する。
以下の実施形態例では、「電」、「信」、「話」の3種類の文字を識別する事例について説明する。但し、本実施形態例は、オブジェクトを3種類に限定するものではなく、何種類にでも拡張可能である。
図2は、請求項1に係る発明の実施形態例を示した概略構成図であって、特に識別装置1の構成を説明したものである。
識別装置1は、入力手段10と全カテゴリ登録手段11と繰り返し制御手段12と切り出す画像切り出し手段13と特徴抽出手段14と照合度算出手段15連結領域内ピーク検出手段16と連結領域内ピーク検出手段16と候補カテゴリ更新手段17とを備える。
入力手段10は、識別したい対象画像を入力する。
全カテゴリ登録手段11は、定められた位置及びその大きさに対して全カテゴリを候補カテゴリとして登録する。
繰り返し制御手段12は、入力された数(I)分の後述の画像切り出し手段13、特徴抽出手段14、照合度算出手段15、連結領域内ピーク検出手段16、候補カテゴリ更新手段15の処理を繰り返し実行制御する。
画像切り出し手段13は、対象画像において注目する位置(注目位置)及び大きさ(注目サイズ)を変更しながら注目する阿像(切り出し画像)を切り出す。
特徴抽出手段14は、切り出し画像から特徴(対象特徴ベクトル)を抽出する。
照合度算出手段15は、予め作成してある繰り返しの回数(i)に応じた各オブジェクトの認識辞書(辞書3)と対象特徴ベクトルを比較して、その照合度合いを表す照合度を算出する。
連結領域内ピーク検出手段16は、各オブジェクトの照合度の空間的な連結性を判定し、連結領域内での照合度の最大ピークを検出する。
候補カテゴリ更新手段17は、検出されたピークを候補として登録する。
全カテゴリ登録手段11によるカテゴリの登録例について説明する。
図8は対象画像の一例である。図9は、対象画像中の注目点(画像中の灰色の画素)を示した図であって、「定められた位置」の一例を示すものである。注目点を中心として、定められた大きさの矩形画像を定義されている。図10は、「定められた大きさ」の例であって、サイズAとサイズBが示されている。
初期の候補カテゴリは、以下のフォーマットで登録される。
「画像中の注目位置(x)、画像中の注目位置(y)、注目サイズ、候補カテゴリ1、候補カテゴリ2 … 候補カテゴリQ」
本例では、3つのカテゴリがあるため、候補カテゴリは以下のようになる。
「注目位置x、注目位置y、各注目サイズ、電、信、話」。つまり、各画素、各注目サイズを切り出した矩形画像の文字カテゴリの候補は「電」、「信」、「話」であることを意味する。
次に、照合度算出手段15に入力される認識辞書について説明する。
繰り返しの回数(i)に応じた各オブジェクトの認識辞書は、例えば、次のように作成する。各オブジェクトの複数画像から、解像度の異なる特徴ベクトルや圧縮度合いを変えた特徴ベクトルを生成し、特徴ベクトル群を主成分分析することによって作成する。繰り返しの回数i=1には、解像度の低い認識辞書を対応させ、繰り返しの回数i=Iには、解像度の高い認識辞書を対応させる。この方法の一例として、以下のオブジェクト認識方法がある。
この方法は、オブジェクトを含む複数画像を用いて複数のオブジェクトを登録し、画像中に1個以上存在する登録されたオブジェクトを識別するものであって、前記複数のオブジェクトを登録する過程は、複数画像から特徴ベクトルを抽出する特徴抽出過程と、前記抽出した全ての特徴ベクトルに対して主成分分析を行う主成分分析過程と、計算された特徴ベクトルから圧縮した圧縮主成分ベクトルを出力する圧縮主成分出力過程と、各特徴ベクトルを入力された異なる圧縮率により圧縮して出力する圧縮過程と、前記圧縮された各オブジェクトの圧縮特徴ベクトルの部分空間を求めて出力する部分空間生成過程と、指定された複数圧縮率の個数分だけ前記圧縮過程と部分空間生成過程を複数回繰り返す制御過程とを有している。
前記圧縮過程としては、全オブジェクトの特徴ベクトルを全て入力する全特徴入力過程と、入力された圧縮率から圧縮する特徴ベクトルの次元数(N)を求めて上位N個の主成分ベクトルと特徴ベクトルの内積を計算し、各内積値をベクトルとみなした圧縮特徴ベクトルを出力する圧縮特徴出力過程とを有するものがある。
前記部分空間生成過程としては、各オブジェクトの圧縮特徴ベクトルを入力する各オブジェクト圧縮特徴入力過程と、前記圧縮特徴ベクトルに対して主成分分析を行う主成分分析過程と、前記分析した部分空間主成分を出力する部分空間主成分出力過程とを有するものがある。
オブジェクトを識別する過程としては、識別したい対象画像を入力する入力過程と、対象画像において注目する位置及びそのサイズを変更しながら注目する領域画像を切り出す注目領域画像切り出し過程と、領域画像から対象特徴ベクトルを抽出する特徴抽出過程と、全カテゴリを候補カテゴリとして登録する全カテゴリ登録過程と、指定された複数の圧縮率により候補を絞り込む候補識別過程と、入力された複数圧縮率の個数分だけ前記候補識別過程の処理を繰り返す制御過程とを有するものがある。
前記候補識別過程としては、入力された圧縮率から次元数(N)を求めて上位N個の前記主成分と対象特徴ベクトルの内積を計算し、各内積値をベクトルとみなした対象圧縮特徴ベクトルを算出する対象圧縮特徴ベクトル算出過程と、各候補カテゴリの該当する圧縮率に対する部分空間主成分を用いて対象圧縮特徴ベクトルを部分空間に投影した際の投影距離を算出する投影距離算出過程と、入力された閾値以下の各候補の投影距離の上位K個を新しい候補とする候補カテゴリ更新過程と、入力された閾値以下の候補を識別結果として出力する識別結果出力過程と、を有するものがある。
図3は、請求項2及び3に係る発明の実施形態例を示した概略構成図であって、特に照合度算出手段15の概略構成を示している。
照合度算出手段15は、圧縮手段151と投影距離算出手段152と順位算出手段153と順位カット手段154とを備える。
圧縮手段151は、繰り返しの回数(i)に応じた入力された圧縮率(例えば対応する辞書と同じ圧縮率)により特徴ベクトルを圧縮した対象圧縮特徴ベクトルを算出する。
投影距離算出手段152は、各候補カテゴリの該当する圧縮率に対するあらかじめ入力された部分空間(認識辞書)を用いて対象圧縮特徴ベクトルを部分空間に投影した際の距離(投影距離)を算出する。
順位算出手段153は、各候補カテゴリの投影距離による順位を求める。
順位カット手段154は、指定された順位以下の候補カテゴリの投影距離を大きくする。
照合度は、矩形画像とカテゴリとの類似性を表すものであり、各サイズの各注目位置毎に算出する。
図11は、照合度算出手段15による算出結果の一例を示したものである。
サイズAでの「電」の照合度、サイズBでの照合度の例が示されている。図において、黒い画素ほど照合度合いが高い(投影距離である照合度からみると小さい)ことを意味する。この時点で、ある位置の照合度の値が閾値以上であるか、識別順位が決められた順位以下である場合は、その位置は候補として削除される。
圧縮には、予め特徴ベクトル群を主成分分析して求めた上位K個の主成分を用いて、特徴変換することにより圧縮する。Kを変更することにより圧縮率を変更できる。主成分分析は、既知のものを採用すればよく、例えば、大津展之ほか著の「パターン認識」(朝倉書店発行,pp.35)に開示されたものを用いるとよい。また、部分空間は、予め圧縮した特徴ベクトル群に対して再び主成分分析を行い、その主成分の上位L個により部分空間を構成する。Lは繰り返しの回数iにより変化するパラメータである。
投影距離は、以下の方法により算出すればよい。この方法は各候補カテゴリの該当する圧縮率に対する部分空間主成分を用いて対象圧縮特徴ベクトルを部分空間に投影した際の投影距離を算出する。
先ず、入力された圧縮率から次元数(N)を求めて上位N個の主成分と対象特徴ベクトル(IF)の内積を計算し、各内積値をベクトルとみなした対象圧縮特徴ベクトル(AIF)を算出する。次いで、各候補カテゴリの該当する圧縮率に対する部分空間主成分を用いて対象圧縮特徴ベクトルを部分空間に投影した際の距離(投影距離)を算出する。各カテゴリの投影距離L(c)は数1式により算出される。この式において、第r部分空間主成分をBAF(c,r)と表し、BAF(c,r)はN次元のベクトルで表現される(ただし、r=1〜N)。また、各圧縮率に対応したRは事前に入力された定数である。
Figure 0004300098
図4は、請求項4に係る発明の実施形態例における特徴抽出手段の概略構成図である。
特徴抽出手段14は、入力手段141と微分強度方向計算手段142と微分方向ヒストグラム化手段143と微分ヒストグラム正規化手段144とを備える。
入力手段141は、複数画像を入力する。
微分強度方向計算手段142は、各画像の横方向の微分と縦方向の微分成分を計算して微分の方向と強さを算出する。
微分方向ヒストグラム化手段143は、各画像に対し、定められた領域内の各画素の微分方向を定められた段階に量子化し、微分の強さを段階毎に累積加算した微分方向ヒストグラムを作成する。
微分ヒストグラム正規化手段144は、前記作成された微分方向ヒストグラムをベクトルとみなしてその大きさを定められた値に正規化する。
図5は微分強度方向計算手段142の動作例を説明したものである。
原画像Iの横をx軸、縦をy軸と考える。画像は横Xピクセル×縦Yピクセルであり、画像サイズはX×Yとなる。先ず、原画像に対し、ソーベルオペレータを作用させ、x方向の微分を計算したx方向微分画像Dxとy方向の微分を計算したy方向微分画像Dyを生成する。但し、ソーベルオペレータを用いるのは一例であって、その他の方法であってもよい。次に、微分強度画像Diと微分方向画像Ddの各画素を以下の数2式で算出する。
Figure 0004300098
微分方向ヒストグラム化手段の動作例を図6に示す。
各画素において、まず、角度を量子化する。次に、その画素の強度を、その画素が所属する領域の、該当する角度のヒストグラムに、加算する。以上により、微分方向ヒストグラムが作成される。例では、画像を4(n)分割した領域内で方向を5(m)段階に量子化してヒストグラムを作成しており、特徴は、20(n×m)次元のベクトルGで表現される。
微分方向ヒストグラムは、以下の数3式計算により正規化し、特徴ベクトル(F)とする。但し、ベクトルGのk次元目のスカラー値をG(k)と表す。
Figure 0004300098
図7は、請求項5に係る発明の実施形態例における連結領域内ピーク検出手段の概略構成図である。
連結領域内ピーク検出手段16は、繰り返し制御手段A161と繰り返し制御手段B162と右横連結性判定手段163と下連結性判定手段164と領域抽出手段165とピーク点出力手段166とを備える。
繰り返し制御手段A161は、全ての注目位置・注目サイズにおいて後述の繰り返し制御手段B162の処理の繰り返しを実行制御する。
繰り返し制御手段B162は、注目位置及び注目サイズに候補として登録されたカテゴリに対して後述の右横連結性判定手段163と下連結性判定手段164による処理の繰り返しを実行制御する。
右横連結性判定手段163は、注目位置及びその右横の位置の照合度が閾値TH以下の場合に連結と判定する。
下連結性判定手段164は、注目位置及びその下の位置の照合度が定められた閾値TH以下の場合に連結と判定する。
領域抽出手段165は、連結された注目位置群を1つの領域として抽出する。
ピーク点出力手段166は、各領域内においての照合度の値(投影距離)最小である位置及び大きさを求めて出力する。
また、請求項6に係る発明の実施形態例として、連結領域内ピーク検出手段16において前連結性判定手段を備えてもよい。
図7に示された連結領域内ピーク検出手段16において、繰り返し制御手段A161は、全ての注目位置・注目サイズにおいて繰り返し制御手段B162の処理を繰り返す。次いで、繰り返し制御手段B162は、注目位置及び注目サイズに候補として登録されたカテゴリに対して右横連結性判定手段と下連結性判定手摩の処理を繰り返す。次いで、右横連結性判定手段163は、注目位置及びその右横の位置の照合度が閾値TH以下の場合に連結と判定する。次いで、下連結性判定手段164は、注目位置及びその下の位置の照合度が定められた閾値TH以下の場合に連結と判定する。
ここで、図示省略された前連結性判定手段は、注目位置及びその注目サイズの1段階上のサイズの同位置の照合度が定められた閾値以下の場合に連結と判定する。
次いで、領域抽出手段165は連結された注目位置群を1つの領域として抽出する。そして、ピーク点出力手段166が、各領域内においての照合度の値(投影距離)最小である位置及び大きさを求めて出力する。
図12は、P点における連結判定の一例を示したものであって、本例の場合、P点の右横及び下及び1段階上のサイズBの同位置が連結と判定される。
図13は、全点における連結判定の一例であって、本例の場合、P点の左横、右横並びに上下及び1段階上のサイズBの同位置(Q点)が連結と判定される。また、Q点においても、左様、右横並びに上下及び1段階下のサイズAの同位置(P点)が連結と判定される。
図14は、領域抽出の結果の一例を示すものであって、連結されている領域を1領域とみなして抽出し、各々に対してラベルを付けた結果を示している。P点及びQ点が含まれる領域の画素は、領域1とラベリングされ、R点及びS点が含まれる領域の画素は、領域2とラベリングされている。
図15は、ピーク点出力の結果の一例を示すものであって、領域1内での投影距離が最小であるP点と、領域2内での投影距離が最小であるR点がピーク点として出力されている。
図16は、請求項7に係るオブジェクト認識装置における候補カテゴリ更新手段の概略構成図である。
図示された候補カテゴリ更新手段17は、周辺領域計算手段171と周辺領域登録手段172とを備える。周辺領域計算手段171は、求められたピーク点の周辺領域を計算する。周辺領域登録手段172は、ピーク点及びその周辺領域を候補として登録する。
図17は、周辺領域計算手段171の結果の一例を示すもので、本例では、ピーク点の上下左右及びサイズの一段階上を周辺領域として定義している。但し、本例はあくまで一例であって、その他の多面体等の定義であってもよい。
以上説明したオブジェクト認識装置の構成要素の動作例を示す。
図18は、識別装置1の動作例を示したフローチャートである。
ステップ1) 対象画像の入力
ステップ2) 全カテゴリの登録
ステップ3) 注目点の数V×想定する大きさの数W分繰り返し[1]
ステップ4) 注目領域の切り出し
ステップ5) 特徴の抽出
ステップ6) 繰り返し[1]終了
ステップ7) 入力された数I分繰り返し[2]
ステップ8) 照合度の算出
ステップ9) ピークの検出
ステップ10) 候補カテゴリの更新
ステップ11) 繰り返し[2]終了
ステップ12) 識別結果の出力
図19は、特徴抽出手段14の動作例を示したフローチャートである。
ステップ1) 画像のピクセル数P分繰り返し[1]
ステップ2) 微分強度の計算
ステップ3) 繰り返し[1]終了
ステップ4) 分割数n分繰り返し[2]
ステップ5) 微分方向ヒストグラムの計算
ステップ6) 繰り返し[2]終了
ステップ7) 微分ヒストグラムの正規化
図20は、照合度算出手段15の動作例を示したフローチャートである。
ステップ1) 圧縮
ステップ2) カテゴリ数C分繰り返し[1]
ステップ3) 投影距離算出
ステップ4) 繰り返し[1]終了
ステップ5) カテゴリ数C分繰り返し[1]
ステップ6) 順位算出
ステップ7) 繰り返し[1]終了
ステップ8) 順位カット
図21は、連結領域内ピーク検出手段16の動作例を示したフローチャートである。
ステップ1) 候補数J分繰り返し[1]
ステップ2) 右横連結性判定
ステップ3) 下連結性判定
ステップ4) 前連結性判定
ステップ5) 繰り返し[1]終了
ステップ6) 領域抽出(ラベリング)
ステップ7) 領域数分繰り返し[2]
ステップ8) ピーク点出力
ステップ9) 繰り返し[2]終了
図22は、候補カテゴリ更新手段17の動作例を示したフローチャートである。
ステップ1) iがIであるかどうか。 Yesであれば終了
ステップ2) 周辺領域計算
ステップ3) 周辺領域登録
以上のフローチャートに従うと、図8の例の対象画像に対して、以下のような識別結果の出力例を得ることができる。
[5,5,10,電,1000.]
[10,5,10,信,900]
[15,5,10,電,820]
[20,5,10、話、1200]
尚、これまでの実施形態例で述べたオブジェクト識別方法は、図1〜図22で示した処理工程をコンピュータのプログラムで構成し、このプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラム、あるいは、コンピュータにその処理の工程の実行させるためのプログラムを、そのコンピュータが読み取りできる記録媒体、例えば、フレキシブルディスクや、MO、ROM、メモリカード、CD、DVD、リムーバルディスク、HDD等に記録して、保存したり、配布したりすることが可能である。また、このプログラムをインターネットや電子メールなど、ネットワークを介して提供することも可能である。
そして、これら記録媒体からコンピュータに前記のプログラムをインストールすることにより、あるいはネットワークからダウンロードしてコンピュータに前記のプログラムをインストールすることにより、本発明を実施することが可能となる。但し、コンピュータへのインストールはコンピュータ単位であり、装置やシステムが複数あることなどでインストールの対象となるコンピュータが複数ある場合には、当該プログラムは必要な処理部分毎にインストールされることは当然である。この場合、当該プログラムはコンピュータ対応に記録媒体に記録するか、またはネットワークを介してダウンロードしてもよい。
本発明を景観中文字認識翻訳システムの概略構成図。 請求項1に係る発明の実施形態例を示した概略構成図。 請求項2及び3に係る発明の実施形態例で、特に照合度算出手段15の概略構成図。 請求項4に係る発明の実施形態例における特徴抽出手段の概略構成図。 微分強度方向計算手段の動作例の説明図。 微分方向ヒストグラム化手段の動作例の説明図。 請求項5に係る発明の実施形態例における連結領域内ピーク検出手段の概略構成図。 対象画像の一例。 対象画像中の注目点を示した図。 「定められた大きさ」の一例。 照合度算出手段による算出結果の一例。 P点における連結判定の一例。 P点における連結判定の一例。 領域抽出の結果の一例。 ピーク点出力の結果の一例。 請求項7に係るオブジェクト認識装置における候補カテゴリ更新手段の概略構成図。 周辺領域計算手段の結果の一例。 識別装置の動作例を示したフローチャート。 特徴抽出手段の動作例を示したフローチャート。 照合度算出手段の動作例を示したフローチャート。 連結領域内ピーク検出手段の動作例を示したフローチャート。 候補カテゴリ更新手段の動作例を示したフローチャート。
符号の説明
1…識別装置、2…ユーザ、3…辞書、4…翻訳装置
10…入力手段、11…全カテゴリ登録手段、12…繰り返し制御手段、13…画像切り出し手段、14…特徴抽出手段、15…照合度算出手段、16…連結領域内ピーク検出手段、17…候補カテゴリ更新手段
151…圧縮手段、152…投影距離算出手段、153…順位算出手段、154…順位カット手段
141…入力手段、142…微分強度方向計算手段、143…微分方向ヒストグラム化手段、144…微分ヒストグラム正規化手段
161…繰り返し制御手段A、162…繰り返し制御手段B、163…右横連結性判定手段、164…下連結性判定手段、165…領域抽出手段、166…ピーク点出力手段

Claims (16)

  1. 画像中の複数のオブジェクトを識別するオブジェクト識別装置であって、
    識別対象画像が入力され、この画像中の定められた位置とその大きさに対して全カテゴリを候補カテゴリとして登録する全カテゴリ登録手段と、
    以下の手段による処理を繰り返し実行する制御手段と、
    前記対象画像において注目する位置とその大きさを変更しながら注目する画像を切り出す画像切り出し手段と、
    この切り出した画像から対象特徴ベクトルを抽出する特徴抽出手段と、
    予め作成してある前記繰り返しの回数に応じた各オブジェクトの認識辞書と前記対象特徴ベクトルを比較して、その照合度合いを表す照合度であり、値が小さいほどに照合度合いが高くなる照合度を算出する照合度算出手段と、
    注目する位置が隣り合う前記算出された2つの照合度が閾値以下であれば連結と判定し、連結領域内での照合度の最大ピークを検出する連結領域内ピーク検出手段と、
    検出されたピークを候補として登録する候補カテゴリ更新手段と
    を備えることを特徴とするオブジェクト識別装置。
  2. 前記照合度算出手段は、
    前記繰り返しの回数に応じた入力された圧縮率により特徴ベクトルを圧縮した対象圧縮特徴ベクトルを算出する圧縮手段と、
    各候補カテゴリの該当する圧縮率に対する予め入力された部分空間を用いて対象圧縮特徴ベクトルを部分空間に投影した際の距離を算出する投影距離算出手段と
    を備えることを特徴とする請求項1に記載のオブジェクト識別装置。
  3. 前記照合度算出手段は、
    前記繰り返しの回数に応じた入力された圧縮率により特徴ベクトルを圧縮した対象圧縮特徴ベクトルを算出する圧縮手段と、
    各候補カテゴリの該当する圧縮率に対する予め入力された部分空間を用いて対象圧縮特徴ベクトルを部分空間に投影した際の投影距離を算出する投影距離算出手段と、
    各候補カテゴリの投影距離による順位を求める順位算出手段と、
    指定された順位以下の候補カテゴリの投影距離を大きくする順位カット手段と
    を備えることを特徴とする請求項1に記載のオブジェクト識別装置。
  4. 前記特徴抽出手段は、
    各画像の横方向の微分と縦方向の微分成分を計算して微分の方向と強さを計算する微分強度方向計算手段と、
    各画像に対し、定められた領域内の各画素の微分方向を定められた段階に量子化し、微分の強さを段階毎に累積加算した微分方向ヒストグラムを作成する微分方向ヒストグラム化手段と、
    作成された微分方向ヒストグラムをベクトルとみなしてその大きさを定められた値に正規化する正規化手段と
    を備えたことを特徴とする請求項1から3のいずれか1項に記載のオブジェクト識別装置。
  5. 前記連結領域内ピーク検出手段は、
    前記注目した位置及びその右横の位置の照合度が定められた閾値以下の場合に連結と判定する右横連結性判定手段と、
    前記注目した位置及びその下の位置の照合度が定められた閾値以下の場合に連結と判定する下連結性判定手段と、
    連結された注目した位置の群を1つの領域として抽出する領域抽出手段と、
    各領域内においての照合度が最小である位置及び大きさを求めて出力するピーク点出力手段と、
    前記注目した位置及びその大きさに候補として登録されたカテゴリに対して右横連結性判定手段と下連結性判定手段とによる処理を繰り返し実行させる工程と、全ての注目した位置とその大きさにおいて前記工程の処理を繰り返し実行させる工程とを制御する制御手段と
    を備えることを特徴とする請求項1から4のいずれか1項に記載のオブジェクト識別装置。
  6. 前記連結領域内ピーク検出手段は、
    前記注目した位置及びその右横の位置の照合度が定められた閾値以下の場合に連結と判定する右横連結性判定手段と、
    前記注目した位置及びその下の位置の照合度が定められた閾値以下の場合に連結と判定する下連結性判定手段と、
    前記注目した位置及びその大きさの1段階上の大きさの同位置の照合度が定められた閾値以下の場合に連結と判定する前連結性判定手段と、
    連結された注目位置群を1つの領域として抽出する領域抽出手段と、
    各領域内においての照合度が最小である位置及び大きさを求めて出力する候補点出力手段と、
    前記注目した位置及びその大きさに候補として登録されたカテゴリに対して右横連結性判定手段と下連結性判定手段と前連結性判定手段とによる処理を繰り返し実行する工程と、全ての注目した位置及びその大きさにおいて前記工程の処理を繰り返し実行する工程とを制御する制御手段と
    を備えることを特徴とする請求項1から5のいずれか1項に記載のオブジェクト識別装置。
  7. 前記候補カテゴリ更新手段は、
    求められたピーク点の周辺領域を計算する周辺領域計算手段と、
    前記ピーク点及びその周辺領域を候補として登録する周辺領域登録手段と
    を備えることを特徴とする請求項1から6のいずれか1項に記載のオブジェクト識別装置。
  8. 画像中の複数のオブジェクトを識別するオブジェクト識別方法であって、
    全カテゴリ登録手段と、画像切り出し手段と、特徴抽出手段と、照合度算出手段と、連結領域内ピーク検出手段と、これらの手段を制御する制御手段とを有し、
    全カテゴリ登録手段が、入力された識別対象画像中の定められた位置とその大きさに対して全カテゴリを候補カテゴリとして登録する工程と、
    制御手段が、以下の手段による処理を繰り返し実行する工程と、
    画像切り出し手段が、前記対象画像において注目する位置とその大きさを変更しながら注目する画像を切り出す工程と、
    特徴抽出手段が、この切り出し画像から対象特徴ベクトルを抽出する工程と、
    照合度算出手段が、予め作成してある前記繰り返しの回数に応じた各オブジェクトの認識辞書と対象特徴ベクトルを比較して、その照合度合いを表す照合度であり、値が小さいほどに照合度合いが高くなる照合度を算出する工程と、
    連結領域内ピーク検出手段が、注目する位置が隣り合う前記算出された2つの照合度が閾値以下であれば連結と判定し、連結領域内での照合度の最大ピークを検出する工程と、
    候補カテゴリ更新手段が、前記検出されたピークを候補として登録する工程と
    を有することを特徴とするオブジェクト識別方法。
  9. 前記照合度算出手段が照合度を算出する工程においては、
    前記繰り返しの回数に応じた入力された圧縮率により特徴ベクトルを圧縮した対象圧縮特徴ベクトルを算出する工程と、
    各候補カテゴリの該当する圧縮率に対する予め入力された部分空間を用いて対象圧縮特徴ベクトルを部分空間に投影した際の距離を算出する工程と
    を有することを特徴とする請求項8に記載のオブジェクト識別方法。
  10. 前記照合度算出手段が照合度を算出する工程においては、
    前記繰り返しの回数に応じた入力された圧縮率により特徴ベクトルを圧縮した対象圧縮特徴ベクトルを算出する工程と、
    各候補カテゴリの該当する圧縮率に対する予め入力された部分空間を用いて対象圧縮特徴ベクトルを部分空間に投影した際の投影距離を算出する工程と、
    各候補カテゴリの投影距離による順位を算出する工程と、
    指定された順位以下の候補カテゴリの投影距離を大きくする工程と
    を有することを特徴とする請求項8に記載のオブジェクト識別方法。
  11. 前記特徴抽出手段が対象特徴ベクトルを抽出する工程においては、
    各画像の横方向の微分と縦方向の微分成分を計算して微分の方向と強さを算出する工程と、
    各画像に対し、定められた領域内の各画素の微分方向を定められた段階に量子化し、微分の強さを段階毎に累積加算した微分方向ヒストグラムを作成する工程と、
    作成された微分方向ヒストグラムをベクトルとみなしてその大きさを定められた値に正規化する工程と
    を有することを特徴とする請求項8から10のいずれか1項に記載のオブジェクト識別方法。
  12. 前記連結領域内ピーク検出手段が照合度の最大ピークを検出する工程においては、
    右横連結性判定手段が前記注目した位置及びその右横の位置の照合度が定められた閾値以下の場合に連結と判定する工程と、
    下連結性判定手段が前記注目した位置及びその下の位置の照合度が定められた閾値以下の場合に連結と判定する工程と、
    領域抽出手段が連結された注目した位置の群を1つの領域として抽出する工程と、
    ピーク点出力手段が各領域内においての照合度が最小である位置及び大きさを求めて出力する工程と
    前記注目した位置及びその大きさに候補として登録されたカテゴリに対して右横連結性判定手段と下連結性判定手段とによる処理を繰り返し実行させる工程と、
    全ての注目した位置とその大きさにおいて前記工程の処理を繰り返し実行させる工程とを有することを特徴とする請求項8から11のいずれか1項に記載のオブジェクト識別方法。
  13. 前記連結領域内ピーク検出手段が照合度の最大ピークを検出する工程においては、
    右横連結性判定手段が前記注目した位置及びその右横の位置の照合度が定められた閾値以下の場合に連結と判定する工程と、
    下連結性判定手段が前記注目した位置及びその下の位置の照合度が定められた閾値以下の場合に連結と判定する工程と、
    前連結性判定手段が前記注目した位置及びその大きさの1段階上の大きさの同位置の照合度が定められた閾値以下の場合に連結と判定する工程と、
    領域抽出手段が連結された注目位置群を1つの領域として抽出する工程と、
    各領域内においての照合度が最小である位置及び大きさを求めて出力する工程と、
    前記注目した位置及びその大きさに候補として登録されたカテゴリに対して右横連結性判定手段と下連結性判定手段と前連結性判定手段とによる処理を繰り返し実行する工程と、
    全ての注目した位置及びその大きさにおいて前記工程の処理を繰り返し実行する工程とを有するとを特徴とする請求項8から12のいずれか1項に記載のオブジェクト識別方法。
  14. 前記候補カテゴリ更新手段の実行する工程においては、
    求められたピーク点の周辺領域を計算する工程と、
    前記ピーク点及びその周辺領域を候補として登録する工程と
    を有することを特徴とする請求項8から13のいずれか1項に記載のオブジェクト識別方法。
  15. 請求項8から14のいずれか1項に記載のオブジェクト識別方法をコンピュータに実行させるためのプログラム。
  16. 請求項8から14のいずれか1項に記載のオブジェクト識別方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003383579A 2003-11-13 2003-11-13 オブジェクト識別方法とその装置、プログラム及び記録媒体 Expired - Fee Related JP4300098B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003383579A JP4300098B2 (ja) 2003-11-13 2003-11-13 オブジェクト識別方法とその装置、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003383579A JP4300098B2 (ja) 2003-11-13 2003-11-13 オブジェクト識別方法とその装置、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2005148987A JP2005148987A (ja) 2005-06-09
JP4300098B2 true JP4300098B2 (ja) 2009-07-22

Family

ID=34692261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003383579A Expired - Fee Related JP4300098B2 (ja) 2003-11-13 2003-11-13 オブジェクト識別方法とその装置、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4300098B2 (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11487288B2 (en) 2017-03-23 2022-11-01 Tesla, Inc. Data synthesis for autonomous control systems
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11665108B2 (en) 2018-10-25 2023-05-30 Tesla, Inc. QoS manager for system on a chip communications
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11734562B2 (en) 2018-06-20 2023-08-22 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11748620B2 (en) 2019-02-01 2023-09-05 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11790664B2 (en) 2019-02-19 2023-10-17 Tesla, Inc. Estimating object properties using visual image data
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11841434B2 (en) 2018-07-20 2023-12-12 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11893774B2 (en) 2018-10-11 2024-02-06 Tesla, Inc. Systems and methods for training machine models with augmented data
US12014553B2 (en) 2019-02-01 2024-06-18 Tesla, Inc. Predicting three-dimensional features for autonomous driving

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112718B (zh) * 2023-10-16 2024-01-26 达文恒业科技(深圳)有限公司 一种车载电脑***数据快速存储方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487288B2 (en) 2017-03-23 2022-11-01 Tesla, Inc. Data synthesis for autonomous control systems
US12020476B2 (en) 2017-03-23 2024-06-25 Tesla, Inc. Data synthesis for autonomous control systems
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11797304B2 (en) 2018-02-01 2023-10-24 Tesla, Inc. Instruction set architecture for a vector computational unit
US11734562B2 (en) 2018-06-20 2023-08-22 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11841434B2 (en) 2018-07-20 2023-12-12 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11983630B2 (en) 2018-09-03 2024-05-14 Tesla, Inc. Neural networks for embedded devices
US11893774B2 (en) 2018-10-11 2024-02-06 Tesla, Inc. Systems and methods for training machine models with augmented data
US11665108B2 (en) 2018-10-25 2023-05-30 Tesla, Inc. QoS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11908171B2 (en) 2018-12-04 2024-02-20 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11748620B2 (en) 2019-02-01 2023-09-05 Tesla, Inc. Generating ground truth for machine learning from time series elements
US12014553B2 (en) 2019-02-01 2024-06-18 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11790664B2 (en) 2019-02-19 2023-10-17 Tesla, Inc. Estimating object properties using visual image data

Also Published As

Publication number Publication date
JP2005148987A (ja) 2005-06-09

Similar Documents

Publication Publication Date Title
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
CN109409398B (zh) 图像处理装置、图像处理方法以及存储介质
US7120318B2 (en) Automatic document reading system for technical drawings
JP4018354B2 (ja) 形状記述子抽出方法
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
US20090041361A1 (en) Character recognition apparatus, character recognition method, and computer product
KR19980023917A (ko) 패턴 인식 장치 및 방법
US8027978B2 (en) Image search method, apparatus, and program
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
JP2022063599A (ja) 図面構造化システムおよび図面構造化方法
EP1930852B1 (en) Image search method and device
JP4885112B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
JP3113769B2 (ja) 文字認識装置
Gupta et al. HTML Atomic UI Elements Extraction from Hand-Drawn Website Images using Mask-RCNN and novel Multi-Pass Inference Technique.
JP4199594B2 (ja) オブジェクト識別装置およびそのプログラムとそのプログラムを記録した記録媒体
JP2005078555A (ja) オブジェクト識別装置、識別方法、この方法のプログラム、およびこのプログラムを記録した記録媒体
JP2728117B2 (ja) 文字認識装置
JP2005267406A (ja) パターン検出方法及び装置
JP2006235817A (ja) 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体
JP4594765B2 (ja) 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体
JP3077929B2 (ja) 文字切出し方式
JP2003123023A (ja) 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体
JP3209197B2 (ja) 文字認識装置及び文字認識プログラムを記録した記録媒体
Saeed et al. Intelligent feature extract system for cursive-script recognition
JP2004192310A (ja) オブジェクト学習装置、オブジェクト識別装置、これらの方法、これらのプログラムおよびこれらのプログラムを記録した媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081027

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090130

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090420

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees