JP5636674B2 - 画像処理装置及び画像処理プログラム - Google Patents
画像処理装置及び画像処理プログラム Download PDFInfo
- Publication number
- JP5636674B2 JP5636674B2 JP2010001705A JP2010001705A JP5636674B2 JP 5636674 B2 JP5636674 B2 JP 5636674B2 JP 2010001705 A JP2010001705 A JP 2010001705A JP 2010001705 A JP2010001705 A JP 2010001705A JP 5636674 B2 JP5636674 B2 JP 5636674B2
- Authority
- JP
- Japan
- Prior art keywords
- region
- image
- area
- regions
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
- Facsimile Image Signal Circuits (AREA)
Description
これに関連する技術として、例えば、特許文献1には、画像中の文字領域内の色を損なうことなく圧縮、伸長を行うことを課題とし、2値画像から文字領域を検出し、文字領域座標を作成し、そして2値画像の黒の領域に該当する原画像中の領域を黒の領域の周囲の色で塗りつぶし、画像Aを作成し、そして画像Aを縮小した画像BをJPEG圧縮し、そして、2値画像の黒の領域に該当する原画像の領域の色を算出し、複数のパレットを作成し、また減色部はパレットにしたがって原画像に対して減色処理を行い、減色画像を生成し、減色画像が1ビットであるときには、減色画像をMMR圧縮し、減色画像が2ビット以上であるときには、減色画像を可逆圧縮することが開示されている。
請求項1の発明は、対象とする領域の外周に接する領域数が1となるように、画像内の領域を統合する統合手段と、前記統合手段によって統合された領域間の接続関係を抽出する接続関係抽出手段と、前記接続関係抽出手段によって抽出された接続関係に基づいて、前記統合手段によって統合された領域の種類を特定する種類特定手段と、画像から縦2画素、横2画素の矩形を抽出する矩形抽出手段を具備し、前記統合手段は、前記矩形抽出手段によって抽出された矩形内の領域数が2以下になるように領域の統合を行うことを特徴とする画像処理装置である。
まず、実施の形態の説明の準備として、画像内の文字画像と背景画像(文字画像以外の部分)の関係について説明する。
文字画像と背景画像の関係について、特許文献4に記載されている技術では、以下に示すような処理を行って画像フォーマットを作成する。
(1)対象とするカラー画像から文字画像を抜き出し、その抜き出した文字画像は2値画像として圧縮し、その抜き出した文字画像の色を別途保持する。
(2)文字画像を抜き出した後の画像に対しては、文字画像部分を任意の画素値で埋めた後にJPEGなどの多値画像圧縮を行う。
(3)前記2値画像と、JPEGなどの多値画像を合わせて、一つの画像フォーマットとする。
(4)そして、この画像フォーマットの画像を表示する場合は、JPEGを復号した上に、復号して色付けした2値画像を重ね合わせて、復号画像とする。
このために、多値画像(カラー画像、グレイ画像を含む)から文字画像を2値画像として抜き出す必要がある。
このとき、例えば、図1(a)の対象画像110aに示すようなグラデーション上に描かれた文字や図1(b)の対象画像110bに示すような反転文字(濃い色の背景上に描画された薄い色の文字)なども図1(a)の文字抽出結果画像120a、図1(b)の文字抽出結果画像120bに示すように抽出したいという要望がある。
本実施の形態は、このような画像フォーマットの作成、文字認識処理等のために用いられるものである。
領域310は文字画像らしくないと判断し、領域320と領域330が文字画像らしいと判断したとする。ここで、領域320と領域330は、異なる色の領域であるため、これら2つの領域が接している場合には、どちらかを文字画像として、どちらかを非文字画像とすべきである。
文字認識処理をする場合などには、領域320と領域330ともに文字画像とすると、領域320と領域330をあわせた形状を認識することになるため、不都合な文字認識結果となってしまう。
図4は、文字と長方形が接触している場合の例を示す説明図である。領域(文字画像)410(Aの文字)は赤色であり、領域(文字画像)410の背後にある領域(長方形画像)420は青色であるとする。これら2つの領域は接している。ここで、領域(文字画像)410のほうが文字画像らしいと判断すれば、図5の例に示すように領域(文字画像)410を抽出し得るため、この画像を対象として文字認識処理が行えることとなる。
ところが、領域(文字画像)410と領域(長方形画像)420のいずれも文字画像らしいと判断して抽出してしまうと、文字認識処理の対象として用いる2値画像は、図6の例に示す画像となり、文字認識処理の対象としてはふさわしくなく、当然文字認識結果も誤りとなることが多い。
しかしながら、より文字らしいほうを採用する場合には、領域間の接触関係を全て把握する必要がある。
図7は、複数の領域が接触している場合の例を示す説明図である。図7の例に示すように、領域1と、領域2,3,4,5,6が接しているとする。この中で接している領域どうしを比較して、その中で最も「文字画像らしい」ものを抽出すればよい。
しかし、ある領域に接する領域を抽出するためには、領域の周囲を全てたどって、領域間の接触関係を把握する必要がある。
例えば、領域1の周囲を全部調査して、接触領域2,3,4,5,6を抽出する。次に、領域2の周囲を全部調査して、接触領域1,6を抽出する。このような処理を領域1〜7全てについて調査する必要がある。この調査の処理量が大きい。
また、領域間の接触関係を把握できたとしても、互いに非接触で抽出できる領域の組み合わせの数が大きいため、それらの組み合わせを全て比較する処理量が大きい。あるいは組み合わせの発見方法や、比較方法自体に確定したものはない。
例えば、ここで、領域1,3,5,7のみを考える。領域1,3,5,7は1次元上に並んでおり、その順序は下から領域3,1,5,7とする。この場合、文字として抽出するパターン(非接触の組み合わせ)は、(1)領域3と5、(2)領域1と7、(3)領域3と7、のように複数ある。これらのうちからどれを採用すればよいか、確定した方法はない。
ここでは、領域1,3,5,7のみを考慮に入れていた。これらのように1次元上の相対関係の場合はまだ比較的単純である。しかし、相対関係が2次元となると複雑さは増大する。すなわち、領域2,4,6も考慮に入れる場合、パターン数(非接触の組み合わせ数)はさらに多くなる。そのパターンを抽出する方法、パターン数を削減する方法等について確定したものはない。実際の画像では領域数は図7の例のように7個ではなく、さらに膨大なものとなる。
<2.1>から<2.3>において、本実施の形態における処理の概略的な説明を行う。
本実施の形態では、領域間の相互関係が「完全包含関係」になるように領域を統合する。「完全包含関係」とは、「ある領域の外周に接する領域数が1となる関係」のように定義する。図8は、完全包含関係の例を示す説明図である。図8の例では、領域810は、領域820に完全に包含されている。このように対象となる領域(領域810)が他の1つだけの領域(領域820)によって包含される状態を完全包含関係とする。つまり、完全包含関係の状態にある場合、対象となる領域の外周は2つ以上の他の領域に接していないこととなる。
前述のように、対象となる領域の外周に接するのは一つの領域だけであるが、対象となる領域の内側にある領域数は1とは限らない。0あるいは1あるいは2以上の場合もありうる。図9に2の場合の例を示す。図9の例に示すように、領域930の内側に領域910と領域920の2つの領域が存在している場合でも、領域910と領域930、領域920と領域930の間には完全包含関係が成り立つとする。
領域の種類として、文字画像と非文字画像を例示する。
完全包含関係が成り立つとき、外側の領域から順に文字画像らしさを判定していけばよい。ある領域が文字画像であると判定されたとする。その場合、その領域の内側に接する領域は全て非文字画像とすればよい。そして、その非文字画像の領域の内側に接する領域は、全て文字画像とすればよい。
このように、外側から順に、
文字画像 → 非文字画像 → 文字画像 → 非文字画像 → ・・・
とすることによって、文字領域を判定する。
図10は、領域の種類を特定する処理例を示す説明図である。図10(a)の例に示す画像は、接している領域間で完全包含関係が成り立っている場合である。1番外側の領域を文字画像とした場合、図10(b)の例に示すように黒色の領域が文字画像の領域となる。外側から2番目の領域を文字とした場合、図10(c)の例に示すような結果となる。
・領域の外接矩形の大きさが、予め定められた大きさの範囲内に入っていること。
・領域の内部に存在している領域数が、予め定められた数値範囲内に入っていること。
・領域の縦横比が、予め定められた数値範囲内に入っていること。
・近隣に類似サイズの領域が存在していること。なお、類似とは、2つの間の差が予め定められた閾値範囲内であることをいう。
・近隣に文字画像と判定された類似サイズの領域が存在していること。
・近隣に文字画像と判定された類似色の領域が存在していること。
・内部に存在している領域数が、予め定められた閾値範囲内であること。
・内部に存在している領域の階層数が、予め定められた閾値範囲内であること。等がある。
完全包含関係は以下のように構築する。
対象画像を縦2画素、横2画素のブロック(2×2ブロック)でラスタスキャンする。
ここでラスタスキャンとは、例えば、画像1120の左上から右に向かってスキャンして、右端に達した時点で1画素下の行に行って、さらに左端から右端に向かってスキャンする。そして、右端に達した時点で1画素下の行に行って、さらに左端から右端に向かってスキャンする。これを繰り返して、右下の画素までをスキャンすることをいう。この例では、左上から右下へ向かってスキャンする例を示したが、これが右下から左上、右上から左下、左下から右上のいずれであっても構わない。
また、2×2ブロック1110で画像1120をラスタスキャンすることについて、図11を用いて説明する。最初2×2ブロック1110の左上画素を画像1120の左上画素に合わせて(図11(b)の例に示すステップS1101)、スキャンを始める。次に2×2ブロック1110を1画素右にずらす(図11(c)の例に示すステップS1102)。以降、1画素右ずらしを順に行う。2×2ブロック1110の右画素が、画像1120の右端に達した時点(図11(d)の例に示すステップS1103)で、2×2ブロック1110の左上画素を画像1120の最も左で、上から2画素目に移動する(図11(d)の例に示すステップS1104)。さらに1画素右にずらしていく(図11(d)の例に示すステップS1105)。右端に到達したら、左端に戻って1画素下にずらす(図11(d)の例に示すステップS1106)。これを繰り返して(図11(d)の例に示すステップS1107)、2×2ブロック1110の右下画素が、画像1120の右下画素まで到達した時点で終了である(図11(d)の例に示すステップS1108)。
まず、対象画像は予め複数の領域に分割されているとする。1画素1領域とすれば、領域分割の処理が行われていない場合であっても、領域分割が行われているとみなすこともできる。領域分割の方法としては、特許文献4等に記載された様々な方法を用いることができる。各領域にはID(番号)が付与されているとする。
2×2ブロックの中には4画素が含まれる。
4画素の各領域IDの種類数をチェックする。4画素中のIDは最大で4種類あることになる。X,Y,Z,Wを異なるID番号とする。
例えば、4画素中のIDが、
・X,X,X,Xであれば、ID種類数は1
・X,X,X,Yであれば、ID種類数は2
・X,X,Y,Yであれば、ID種類数は2
・X,X,Y,Zであれば、ID種類数は3
・X,Y,Z,Wであれば、ID種類数は4
である。
・ID種類数が1のとき、何もしない。
・ID種類数が2のとき、何もしない。
・ID種類数が3のとき、ID種類数が2となるように、領域を統合する。
・ID種類数が4のとき、ID種類数が2となるように、領域を統合する。
このようにID種類数を各2×2ブロックで2以下とする。
この処理を行うことによって、全ての領域が相互に完全包含関係を満たすようになる。
図12(a1)の例に示す画像1210は、領域1212、領域1214を有している。2×2ブロックによるラスタスキャンを行った場合、全ての位置で2×2ブロック内の領域数が1又は2であるので統合は行わない。
例えば、対象画像の外周に接している領域は文字画像として抽出しないようにする。このような処理によって、文字画像として抽出する領域は全て完全包含関係を満たすこととなる。あるいは、対象画像の外周に接している領域は、全て統合してしまってもよい。こうすることで、全領域の関係は完全包含関係となる。あるいは、2×2ブロックのラスタスキャン時に、対象画像の1画素外側も含めてラスタスキャンしてもよい。対象画像の外側は、適当な画素値(例えば、背景色としての白色を表す画素値)を設定した同一領域であるとする。このようにすることで、全領域の関係を完全包含関係とする。
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
図13は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
IDテーブル1400は、ID種類数計測モジュール1340、ID統合モジュール1350、制御モジュール1310によって参照、書き込み、書き換え等が行われる。
以下、真のIDの取得方法を示す。
準備として、IDテーブル関数Y=F(X)を定義する。
ここで、変数Xは、IDテーブル1400の領域IDフィールド1410が記憶している領域IDである。Xを領域IDとして、その行に存在している統合後ID(統合後IDフィールド1420に記憶されている統合後ID)を出力Yとする。
まず、2×2ブロック内に記述されているIDを変数Xとする。
ステップ1.F(X)=Xのとき、Xが真のIDとして終了する。
ステップ2.F(X)≠Xのとき、F(X)=Xとして(XにF(X)を代入して)、ステップ1へ行く。
このように、領域ID=統合後IDとなるまで、IDテーブル1400を参照することによって、真のIDを求める。
ID種類数が3のとき、以下のような統合処理を行う。
3つの真のIDの領域色を比較する。ここでIDを1、2、3とする。それぞれの領域色をC1,C2,C3とする。2つの領域色Cx,Cyの色差を、dxyで表すとする。dxyとしては、RGB空間のユークリッド距離や、CIEL*a*b*空間に変換した場合のユークリッド距離など様々なものが対象となる。d12,d23,d31のうち最も小さなものを、dxyとする。このとき、IDxと、IDyを統合する。
統合処理は次のように行う。
xとyのうち大きなほうを小さなほうに統合する。x<yとすると、IDテーブル1400は図15の例に示すようになる。すなわち、領域IDがyの統合後IDをxに変更する。
さらに、領域色を変更する。IDxの領域色を(Rx, Gx, Bx)、IDyの領域色を(Ry, Gy, By)とする。IDxの領域画素数をNx、IDyの領域画素数をNyとする。IDxの領域色を(1)式で変更する。
4つの真のIDの領域色を比較する。IDを1、2、3,4とする。それぞれの領域色をC1,C2,C3,C4とする。4つの色の間の色差dxyとする。x∈{1,2,3,4}, y∈{1,2,3,4}, x<yの条件下で、dxyの場合の数は6通りある。
6通りのdxyのうちで最も小さいものをdx1y1とする。このときIDx1とIDy1を統合する。次に小さいものをdx2y2とする。このときIDx2とIDy2を統合する。このようにdxyの小さい順にIDを統合していって、ID数が2となった時点で統合を終了する。
2つのIDの統合方法はID種類数が3の場合と同じである。
制御モジュール1310は、図11の例に示した2×2ブロックのラスタスキャン移動を制御し、2×2ブロックが右下になった時点でラスタスキャンを終了する。
画像内のラスタスキャンが終了した時点で、IDテーブル1400内の値を用いて、画像メモリ1320中の領域IDを真のIDに変換する。
以上で、完全包含関係を満たす領域統合が終了する。
以下、より具体的に文字領域の決定方法を説明する。
まず、画像メモリ1320中の画素値は、全て真のID値に変換されているとする。また、包含関係テーブル記憶モジュール1370内に包含関係テーブル1600を用意する。包含関係テーブル記憶モジュール1370は、制御モジュール1310と接続されている。制御モジュール1310が、画像メモリ1320、包含関係テーブル1600を用いて文字領域の決定を行う。
図16は、包含関係テーブル1600のデータ構造例を示す説明図である。包含関係テーブル1600は、領域IDフィールド1610、外側領域IDフィールド1620、内側領域IDフィールド1630、文字TAGフィールド1640を有している。領域IDフィールド1610は、画像メモリ1320内の画像の領域統合処理後の領域IDを記憶する。外側領域IDフィールド1620は、その領域IDの領域の外周に接している領域の領域IDを記憶する。内側領域IDフィールド1630は、その領域IDの領域の内側にある領域の領域IDを記憶する。文字TAGフィールド1640は、その領域IDの領域が文字画像領域であるか否かを示す符号を記憶する。
画像メモリ1320内の画像で、領域IDがXの領域に関して、外側の領域のIDをチェックする。例えば、画像メモリ1320内の画像で領域IDがXの領域のうち、最も上の画素で、最も左の画素を抽出する。この画素の直上の画素(あるいは直左の画素)が外側領域のIDである。完全包含関係が成り立っているため、外側に接する領域はこの1画素のみをチェックすればよい。この画素値(つまり領域ID)をYとする。
包含関係テーブル1600内の領域IDフィールド1610の領域IDがXの行の外側領域IDフィールド1620にYを記憶させる。
次に、そのYを包含関係テーブル1600内の領域IDフィールド1610内から検索して(つまり、外側領域ID:Yを領域IDとするもの)、その行の内側領域IDフィールド1630にXを記憶させる。内側領域IDの数は複数ある場合があるため、既に内側領域IDフィールド1630に記憶されている場合は、内側領域ID数を増加させて、Xを追加する。
ステップ1.領域Xが文字画像であると判断したとき、領域Xの文字TAGをONとする。
ステップ2.次に、領域Xの内側領域IDをYとし、内側領域ID:Y(複数ある場合がある)の文字TAGを全てOFFとする。
ステップ3.さらに内側領域ID:Yのそのまた内側領域IDをZとする。
ステップ4.内側領域ID:Zのさらに内側領域IDがあるため、この後、ステップ1に戻って、ZをXとみなして、ステップ1からステップ3までの処理を再帰的に行う。全ての領域の内側領域IDがなくなるまで再帰処理を行う。
上記の処理を行うことによって、図10に例示するような文字領域の指定が可能となる。
なお、包含関係テーブル1600において、外側領域IDフィールド1620は不要としてもよい。つまり、外側領域IDを抽出し、その抽出した外側領域IDを領域IDとするものを検索すればよい。また、文字画像らしさの判断処理では外側領域IDは不要である。
文字画像を抽出する場合は、最終的に文字TAGフィールド1640内がONとなっている領域IDを画素値として持つ場所を文字画像の領域として抽出する。
<3.2.1>
IDテーブル1400がない構成としてもよい。
領域IDを画素値とする画像と対象画像の2枚の画像を用いればよい。つまり、ID統合処理のときには、領域IDを画素値とする画素のID(つまり画素値)を全て書き換えてしまえばよい。領域色や領域画素数は領域IDを画素値とする画像と、対象画像を用いて算出する。つまり、領域IDに対応する対象画像内の画素値が領域色となり、領域画素数はその領域IDを画素値とする画素数を計測すればよい。
IDテーブル1400を1回だけ参照すればよいように毎回書き換えてもよい。
領域IDを統合する場合について説明する。
例えば、領域xと領域yを統合するとする。また、領域yの統合後IDをxとするとする。
このとき、IDテーブル1400内を検索して、統合後IDフィールド1420内がyとなっている箇所を全てxに書き換えればよい。
このようにすれば、IDテーブル1400を1回だけ参照することで真のIDを得ることができる。
<3.2.3>
前述の実施の形態では、領域IDの統合処理において領域IDの小さいほうに統合したが、これは小さいほうでも大きなほうでもいずれであってもよい。
領域種類数が3又は4のときに領域IDを統合するが、その場合、色差が最も小さな組み合わせの領域を統合した。統合する領域の選択方法としては、他の特徴を用いてもよい。
例えば、以下に示すようなものがある。つまり、領域間の色差又は領域のサイズに基づいて、領域を統合するか否かの判断を行う。領域のサイズとして、領域画素数、縦画素数、横画素数、領域の外接矩形の面積等を用いる。なお、「縦画素数」とは、領域の外接矩形の縦画素数をいう。「横画素数」とは、領域の外接矩形の横画素数をいう。以下同様。なお、制御モジュール1310が、画像メモリ1320内の画像を用いて、色差、領域のサイズを計測するが、領域間の色差を計測する色差計測モジュール、領域のサイズを計測するサイズ計測モジュールを具備してもよい。なお、色差計測モジュール、サイズ計測モジュールの形態として、制御モジュール1310が計測を行う場合も含む。
・領域画素数が小さいものを選択する。
・領域画素数が大きいものを選択する。
・領域画素数が、予め定められた数以下のものを優先的に選択する。なお、優先的に選択するとは、他の条件と組み合わせて利用する場合に、1次的なふるい分けに用いるものである。以下同様。
・領域画素数が、予め定められた数以下のものを優先的に選択しない。
・領域色が予め定められた色範囲内であるものを優先的に選択する(又は優先的に選択しない)。
・縦画素数又は横画素数が大きい(又は小さい)ものを選択する(又は選択しない)。
・縦画素数と横画素数の比が大きい(又は小さい)ものを選択する(又は選択しない)。
・領域の外接矩形の面積が大きい(又は小さい)ものを選択する(又は選択しない)。
・領域の外接矩形の面積と領域画素数の比が大きい(又は小さい)ものを選択する(又は選択しない)。
前述の実施の形態においてはIDテーブル1400に非文字画像を表すタグフィールドはないが、そのタグフィールドを設けてもよい。つまり、図17に例示するIDテーブル1700としてもよい。IDテーブル1700は、領域IDフィールド1710、統合後IDフィールド1720、領域色(R,G,B)フィールド1730、領域画素数フィールド1740、非文字TAGフィールド1750を有している。領域IDフィールド1710、統合後IDフィールド1720、領域色(R,G,B)フィールド1730、領域画素数フィールド1740は、図14に例示したIDテーブル1400の領域IDフィールド1410、統合後IDフィールド1420、領域色(R,G,B)フィールド1430、領域画素数フィールド1440と同等のものである。
このIDテーブル1700を用いた処理について説明する。
まず、初期状態では、非文字TAGフィールド1750内は全てOFFとする。
2つの領域を統合するときに、2つの領域の色差を算出し、色差が所定の閾値以上である場合、非文字TAGフィールド1750をONとする。
又は、2つの領域を統合するときに、いずれかの領域の非文字TAGがONである場合にも、統合後の非文字TAGフィールド1750をONとする。
非文字TAGがONの場合、図16に例示した包含関係テーブル1600内の文字TAGフィールド1640をOFFに強制的に設定すればよい。
IDテーブル1700は、文字内の画素値が均一ではなくなることを抑制するために用いる。
前述の実施の形態においてのIDテーブル1400に、領域の外接矩形の形状を示すフィールドを設けてもよい。つまり、図18に例示するIDテーブル1800としてもよい。IDテーブル1800は、領域IDフィールド1810、統合後IDフィールド1820、領域色(R,G,B)フィールド1830、領域画素数フィールド1840、外接矩形形状フィールド1850を有している。領域IDフィールド1810、統合後IDフィールド1820、領域色(R,G,B)フィールド1830、領域画素数フィールド1840は、図14に例示したIDテーブル1400の領域IDフィールド1410、統合後IDフィールド1420、領域色(R,G,B)フィールド1430、領域画素数フィールド1440と同等のものである。
外接矩形形状フィールド1850が記憶する外接矩形形状とは、領域の最も上の画素位置、最も下の画素位置、最も左の画素位置、及び、最も右の画素位置の4つのデータである。又は、前記データと同等のもの(変換できるもの)であればよい。例えば、最も上の画素位置、最も左の画素位置と、外接矩形の縦、横サイズなどがある。
2つの領域統合時に、外接矩形形状も統合して、変更すればよい。
統合する領域の選択方法として、外接矩形形状を使う場合に利用する。
前述の実施の形態においてのIDテーブル1400に、領域の端点の位置を示すフィールドを設けてもよい。つまり、図19に例示するIDテーブル1900としてもよい。IDテーブル1900は、領域IDフィールド1910、統合後IDフィールド1920、領域色(R,G,B)フィールド1930、領域画素数フィールド1940、端点位置フィールド1950を有している。領域IDフィールド1910、統合後IDフィールド1920、領域色(R,G,B)フィールド1930、領域画素数フィールド1940は、図14に例示したIDテーブル1400の領域IDフィールド1410、統合後IDフィールド1420、領域色(R,G,B)フィールド1430、領域画素数フィールド1440と同等のものである。
端点とは、領域Aの外周に接する領域Bを特定するために用いる領域A内の点であり、例えば、領域Aの最も上のラインにあって、最も左の画素である。より具体的な例として、図20(a)に示すように領域2010では端点2011、図20(b)に示すように領域2020では端点2021のようになる。制御モジュール1310が、画像メモリ1320内の画像から端点を抽出してIDテーブル記憶モジュール1360内のIDテーブル1900に記憶させる。また、端点を抽出する端点抽出モジュールを具備してもよい。なお、端点抽出モジュールの形態として、制御モジュール1310が処理を行う場合も含む。
2つの領域の統合処理のときに、端点位置も統合して、端点位置フィールド1950を変更すればよい。
さらに、これで作成された端点位置を、図21に例示する包含関係テーブル2100の端点位置フィールド2150に記憶させる。包含関係テーブル2100は、領域IDフィールド2110、外側領域IDフィールド2120、内側領域IDフィールド2130、文字TAGフィールド2140、端点位置フィールド2150を有している。領域IDフィールド2110、外側領域IDフィールド2120、内側領域IDフィールド2130、文字TAGフィールド2140は、図16に例示した包含関係テーブル1600の領域IDフィールド1610、外側領域IDフィールド1620、内側領域IDフィールド1630、文字TAGフィールド1640と同等のものである。
文字領域決定処理のときの演算負荷を軽減する場合に用いる。つまり、端点位置を既に計算済みであるので、端点を毎回探索する手間を省いているものである。
端点は、「領域の最も上のラインにある、最も左の画素」に限定されるものではない。例えば、以下のようなものであってもよい。
「領域の最も上のラインにある、最も右の画素」
「領域の最も下のラインにある、最も左の画素」
「領域の最も下のラインにある、最も右の画素」
等でもよい。
ただし、外側領域を求める場合に、この端点を用いて、端点よりもその端点を含む領域とは反対側に位置している領域を外側領域とする。具体的には、次のような画素を利用すればよい。なお、直上、直下、直左、直右という用語を用いているが、その方向にさらに1画素以上ずれた画素であってもよい。ただし、幅が1画素である領域も扱う場合には、直上、直下、直左、直右がよい。
「領域の最も上のラインにある、最も左の画素」を端点とする場合、端点の直上か直左画素を外側領域として用いる。
「領域の最も上のラインにある、最も右の画素」を端点とする場合、端点の直上か直右画素を外側領域として用いる。
「領域の最も下のラインにある、最も左の画素」を端点とする場合、端点の直下か直左画素を外側領域として用いる。
「領域の最も下のラインにある、最も右の画素」を端点とする場合、端点の直下か直右画素を外側領域として用いる。
また、前述の各種の実施の形態を組み合わせてもよく(例えば、ある実施の形態内のモジュールを他の実施の形態内に適用する、入れ替えする等も含む)、また、背景技術として説明した技術を採用してもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
1320…画像メモリ
1330…2×2ブロック抽出モジュール
1340…ID種類数計測モジュール
1350…ID統合モジュール
1360…IDテーブル記憶モジュール
1370…包含関係テーブル記憶モジュール
Claims (4)
- 対象とする領域の外周に接する領域数が1となるように、画像内の領域を統合する統合手段と、
前記統合手段によって統合された領域間の接続関係を抽出する接続関係抽出手段と、
前記接続関係抽出手段によって抽出された接続関係に基づいて、前記統合手段によって統合された領域の種類を特定する種類特定手段と、
画像から縦2画素、横2画素の矩形を抽出する矩形抽出手段
を具備し、
前記統合手段は、前記矩形抽出手段によって抽出された矩形内の領域数が2以下になるように領域の統合を行う
ことを特徴とする画像処理装置。 - 前記統合手段は、領域間の色差又は領域の大きさに基づいて、領域を統合するか否かの判断を行う
ことを特徴とする請求項1に記載の画像処理装置。 - 前記領域の外周に接する領域を特定するための端点を抽出する端点抽出手段
をさらに具備し、
前記接続関係抽出手段は、前記端点抽出手段によって抽出された領域の端点よりも該領域とは反対側に位置している領域を外側領域とする
ことを特徴とする請求項1又は2に記載の画像処理装置。 - コンピュータを、
対象とする領域の外周に接する領域数が1となるように、画像内の領域を統合する統合手段と、
前記統合手段によって統合された領域間の接続関係を抽出する接続関係抽出手段と、
前記接続関係抽出手段によって抽出された接続関係に基づいて、前記統合手段によって統合された領域の種類を特定する種類特定手段と、
画像から縦2画素、横2画素の矩形を抽出する矩形抽出手段
として機能させ、
前記統合手段は、前記矩形抽出手段によって抽出された矩形内の領域数が2以下になるように領域の統合を行う
ことを特徴とする画像処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010001705A JP5636674B2 (ja) | 2010-01-07 | 2010-01-07 | 画像処理装置及び画像処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010001705A JP5636674B2 (ja) | 2010-01-07 | 2010-01-07 | 画像処理装置及び画像処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011141715A JP2011141715A (ja) | 2011-07-21 |
JP5636674B2 true JP5636674B2 (ja) | 2014-12-10 |
Family
ID=44457509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010001705A Active JP5636674B2 (ja) | 2010-01-07 | 2010-01-07 | 画像処理装置及び画像処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5636674B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004220555A (ja) * | 2002-12-27 | 2004-08-05 | Fuji Photo Film Co Ltd | 画像から被写体領域を抽出する装置、方法、プログラムおよびプログラムを記録した記録媒体 |
US7343046B2 (en) * | 2004-02-12 | 2008-03-11 | Xerox Corporation | Systems and methods for organizing image data into regions |
JP2008059081A (ja) * | 2006-08-29 | 2008-03-13 | Sony Corp | 画像処理装置及び画像処理方法、並びにコンピュータ・プログラム |
JP5104528B2 (ja) * | 2008-05-07 | 2012-12-19 | 富士ゼロックス株式会社 | 画像処理装置および画像処理プログラム |
-
2010
- 2010-01-07 JP JP2010001705A patent/JP5636674B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011141715A (ja) | 2011-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8768052B2 (en) | Image processing apparatus, image processing method, and non-transitory computer readable medium | |
JP4016342B2 (ja) | コード認識のための装置及びその方法 | |
KR101078699B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 컴퓨터 판독 가능한 기억매체 | |
JP4918776B2 (ja) | 電子文書比較プログラム、電子文書比較装置および電子文書比較方法 | |
CN100356768C (zh) | 图像处理设备和图像处理方法 | |
CN102243704B (zh) | 用于二维码的定位***、二维码的识别方法及设备 | |
CN101827191B (zh) | 图像处理装置和图像处理方法 | |
JP6098298B2 (ja) | 画像処理装置およびコンピュータプログラム | |
KR101235226B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 기록 매체 | |
CN112215266B (zh) | 一种基于小样本学习的x光图像违禁物品检测方法 | |
JP5636674B2 (ja) | 画像処理装置及び画像処理プログラム | |
WO2022074746A1 (ja) | 劣化検出装置、劣化検出方法、及びプログラム | |
JP2007199865A (ja) | 画像処理アルゴリズム評価装置、画像処理アルゴリズムの生成装置および画像検査装置ならびに画像処理アルゴリズム評価方法、画像処理アルゴリズムの生成方法および画像検査方法 | |
JP4857975B2 (ja) | 画像処理システムおよび画像処理プログラム | |
JP2012185810A (ja) | 画像処理装置及び画像処理プログラム | |
JP5251489B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5104528B2 (ja) | 画像処理装置および画像処理プログラム | |
JP4720805B2 (ja) | 画像処理装置及びプログラム | |
JP2002269574A (ja) | 囲み領域抽出アルゴリズムの性能を向上させるランレングスに基づく連結成分と輪郭追跡 | |
JP6145983B2 (ja) | 画像処理装置およびコンピュータプログラム | |
JP5407582B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP4383187B2 (ja) | 画像処理装置、画像処理用プログラム及び記憶媒体 | |
JP2013161158A (ja) | 画像処理装置及び画像処理プログラム | |
JP2012142872A (ja) | 画像処理装置及び画像処理プログラム | |
KR101052487B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 컴퓨터 판독 가능한 기억 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140401 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141007 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5636674 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |