JP4694613B2 - 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体 - Google Patents

原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP4694613B2
JP4694613B2 JP2008324396A JP2008324396A JP4694613B2 JP 4694613 B2 JP4694613 B2 JP 4694613B2 JP 2008324396 A JP2008324396 A JP 2008324396A JP 2008324396 A JP2008324396 A JP 2008324396A JP 4694613 B2 JP4694613 B2 JP 4694613B2
Authority
JP
Japan
Prior art keywords
region
document
image
stroke
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008324396A
Other languages
English (en)
Other versions
JP2009169948A (ja
Inventor
シャオ‐シェン チェン ローレンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2009169948A publication Critical patent/JP2009169948A/ja
Application granted granted Critical
Publication of JP4694613B2 publication Critical patent/JP4694613B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Description

本発明は、原稿の向きを判定する技術に関するものである。より具体的には、原稿の画像内に含まれる韓国語の文字の特徴に基づいて原稿の向きを判定する技術に関するものである。
何らかの目的を達成するために多数の原稿を読み取る場合には、原稿の全ページを誤りなく読み取ることが極めて重要である。なぜなら、後から読み取りミスが見つかっても、元の原稿を入手できない場合があるからである。したがって、読み取った画像毎に読み取りミスがないかを確認する必要がある。しかしながら、読み取った画像を全て確認することは非常に手間がかかり、読み取り作業をする人に過度の負担がかかる。さらに、多数の画像を確認することは退屈な作業であり、ミスが発生しやすい。
人によるこの確認プロセスを省略する1つの方法は、新たに読み取られた各画像を自動的に確認し、必要に応じて関連する画像処理技術を用いて不良画像を自動的に補正する自動化システムを用いることである。
従来技術では、文字列の向き(天地方向(上下方向)が正であるか否か)を検出するために次の方法が用いられている。伝統的な方法では、文字列の天地方向が正であると仮定して文字認識を行い、この認識結果に対する第1評価値(ポイント数)を各文字について取得し、各文字についての上記第1評価値の平均値またはそれに類似する値を算出して第1総括評価値を得る。次に、文字列の天地方向が逆(正の方向に対して180度回転している)と仮定して文字認識を行い、この認識結果に対する第2評価値を各文字について取得し、各文字についての平均値またはそれに類似する値を算出して第2総括評価値を得る。その後、これら2つの総括評価値に基づいて、いずれの方向の文字認識率が高いかを特定し、この特定結果に基づいて文字列の向きが天地方向に対して正方向であるか逆方向であるか判断する。
非特許文献1には、原稿の文字を大きく2つの種類(漢字とラテン文字)に分類する技術が開示されている。この技術は、上向きの凹部と光学密度とを用いて、文字の種別および言語を判定するものである。しかしながら、この技術は文字の向きを判定するものではない。
また、特許文献1には、画像シーケンス内のテキストを認識する技術が開示されている。特許文献1では、1組の文字の向きを互いに異なる複数の向きと想定し、想定した各向きについて上記1組の文字の底線と上端線とを検出することにより、テキストの向きを識別している。上記1組の文字の向きは、テキストの向きを特定するために所定数の向きに想定される。
A.L.Spitzによる「Determination of the Script and Language Content of Document Image」(IEEE Trans PAMI,19(3),235〜245頁,1997年3月) 米国特許第7,031,553号明細書
しかしながら、上記非特許文献1では、文字の種別および言語を判定することが記載されているものの、文字の向きを判定することについては何ら考慮されていない。
また、上記特許文献1の技術では、テキストの向きを識別するために、1組の文字に対して複数の向きと想定し、想定した各向きについて底線と上端線とを検出する必要があるので、処理が複雑であるという問題がある。
また、上記各文献には、言語の特定の文字特徴を用いて原稿の向きを判定することについては何ら考慮されていない。
本発明は、上記の課題に鑑みてなされたものであり、その目的は、ハングル文字を含む原稿の向きを容易かつ適切に判定することのできる原稿方向判定装置および原稿方向判定方法を提供することにある。
本発明の原稿方向判定装置は、上記の課題を解決するために、ハングル文字を含む原稿から読み取った原稿画像の画像データに基づいて、上記画像データの基準方向に対する上記原稿画像の90度単位の向きである原稿方向を判定する原稿方向判定装置であって、上記画像データの各画素を黒画素または白画素に分類した二値化画像データを生成する二値化処理部と、上記二値化画像データに基づいて黒画素が連続する部分である連結部分を抽出するとともに、この連結部分を含む矩形領域を1つの文字に対応する文字領域として検出する文字領域検出部と、上記矩形領域内において当該矩形領域の幅方向または高さ方向に所定値以上の長さで延伸する上記連結部分からなる画像であるストローク画像を検出するストローク検出部と、上記ストローク検出部の検出したストローク画像が当該ストローク画像に対応する上記矩形領域における左半分の領域である第1領域、右半分の領域である第2領域、上半分の領域である第3領域、および下半分の領域である第4領域のうちのいずれの領域に存在するかを上記矩形領域毎に判定し、上記第1〜第4領域毎にストローク画像が存在すると判定された回数を計数するストローク位置判定部と、上記第1〜第4領域のそれぞれに対する上記回数の計数値の比較結果に基づいて上記原稿方向を判定する原稿方向判定部とを備えていることを特徴としている。
また、本発明の原稿方向判定方法は、上記の課題を解決するために、ハングル文字を含む原稿から読み取った原稿画像の画像データに基づいて、上記画像データの基準方向に対する上記原稿画像の90度単位の向きである原稿方向を判定する原稿方向判定方法であって、上記画像データの各画素を黒画素または白画素に分類した二値化画像データを生成する二値化工程と、上記二値化画像データに基づいて黒画素が連続する部分である連結部分を抽出するとともに、この連結部分を含む矩形領域を1つの文字に対応する文字領域として検出する文字領域検出工程と、上記矩形領域内において当該矩形領域の幅方向または高さ方向に所定値以上の長さで延伸する上記連結部分からなる画像であるストローク画像を検出するストローク検出工程と、上記ストローク検出工程で検出したストローク画像が当該ストローク画像に対応する上記矩形領域における左半分の領域である第1領域、右半分の領域である第2領域、上半分の領域である第3領域、および下半分の領域である第4領域のうちのいずれの領域に存在するかを上記矩形領域毎に判定し、上記第1〜第4領域毎にストローク画像が存在すると判定された回数を計数するストローク位置判定工程と、上記第1〜第4領域のそれぞれに対する上記回数の計数値の比較結果に基づいて上記原稿方向を判定する原稿方向判定工程とを含むことを特徴としている。
韓国語のハングル文字は、少なくとも1つの子音と少なくとも1つの母音との組み合わせによって構成されており、ハングル文字の母音は、縦方向に延伸する縦ストローク(縦字画)または横方向に延伸する横ストローク(横字画)を有しており、縦ストロークは当該文字を囲む矩形領域の右半分に配置され、横ストロークは当該文字を囲む矩形領域の上半分または下半分に配置されるという特性を有している。
そこで、上記の原稿方向判定装置および原稿方向判定方法によれば、原稿画像の二値化画像データに基づいて連続する黒画素部分を抽出するとともに、抽出した黒画素部分を含む矩形領域を1つの文字に対応する文字領域として検出する。そして、上記矩形領域内において当該矩形領域の幅方向または高さ方向に延伸する、連続する黒画素からなる画像であって所定値以上の長さを有する画像であるストローク画像を検出し、上記ストローク画像が当該ストローク画像に対応する上記矩形領域における左半分の領域である第1領域、右半分の領域である第2領域、上半分の領域である第3領域、および下半分の領域である第4領域のうちのいずれの領域に存在するかを上記矩形領域毎に判定し、上記第1〜第4領域毎にストローク画像が存在すると判定された回数を計数し、上記第1〜第4領域のそれぞれに対する上記回数の計数値の比較結果に基づいて上記原稿方向を判定する。これにより、ハングル文字を含む原稿の向きを容易かつ適切に判定することができる。
なお、上記文字領域検出部は、上記矩形領域を、予め定められた寸法、形状、およびアスペクト比に設定する構成であってもよい。
上記の構成によれば、各文字のサイズが予め予想可能である場合などに、各文字をそれぞれ取り囲むように矩形領域を設定できる。
また、上記文字領域検出部は、上記連結部分の一部が上記矩形領域の外側にはみ出す場合に、当該矩形領域を上記ストローク検出部による上記ストローク画像の検出処理から除外する構成としてもよい。
上記の構成によれば、連続する黒画素からなる画像のうち文字ではない画像を原稿方向判定処理に用いる画像から除外することができる。したがって、原稿方向の判定精度を高めることができる。
また、上記文字領域検出部は、上記連結部分同士の間隔に基づいて上記原稿に含まれる文章における各行、および各行内における文字同士の間隔または各文字の幅を検出し、この検出結果に基づいて各文字をそれぞれ囲むように上記矩形領域を設定する構成としてもよい。
上記の構成によれば、母音と子音とに分離される文字における母音部分と子音部分とが別々の文字として取り扱われることを抑制することができる。したがって、原稿方向の判定精度を高めることができる。
また、上記原稿方向判定部は、上記第1領域に対する上記回数の計数値をCL、上記第2領域に対する上記回数の計数値をCR、上記第3領域に対する上記回数の計数値をCT、上記第4領域に対する上記回数の計数値をCBとしたときに、CR>CLであり、かつABS(CR−CL)>ABS(CB−CT)である場合に、上記画像データの基準方向に対する上記原稿画像の方向を0度と判定する構成であってもよい。
また、上記原稿方向判定部は、上記第1領域に対する上記回数の計数値をCL、上記第2領域に対する上記回数の計数値をCR、上記第3領域に対する上記回数の計数値をCT、上記第4領域に対する上記回数の計数値をCBとしたときに、CR≦CLであり、かつABS(CR−CL)>ABS(CB−CT)である場合に、上記画像データの基準方向に対する上記原稿画像の方向を180度と判定する構成であってもよい。
また、上記原稿方向判定部は、上記第1領域に対する上記回数の計数値をCL、上記第2領域に対する上記回数の計数値をCR、上記第3領域に対する上記回数の計数値をCT、上記第4領域に対する上記回数の計数値をCBとしたときに、CB>CTであり、かつABS(CR−CL)≦ABS(CB−CT)である場合に、上記画像データの基準方向に対する上記原稿画像の方向を270度と判定する構成であってもよい。
また、上記原稿方向判定部は、上記第1領域に対する上記回数の計数値をCL、上記第2領域に対する上記回数の計数値をCR、上記第3領域に対する上記回数の計数値をCT、上記第4領域に対する上記回数の計数値をCBとしたときに、CB≦CTであり、かつABS(CR−CL)≦ABS(CB−CT)である場合に、上記画像データの基準方向に対する上記原稿画像の方向を90度と判定する構成であってもよい。
また、上記ストローク位置判定部は、上記各矩形領域における各行および各列のうち、黒画素の数が所定数以上である行または列を上記ストローク画像が存在する位置として検出する構成であってもよい。例えば、上記ストローク位置判定部は、上記各矩形領域の画像における各行の黒画素の数を示す水平投影ヒストグラムと、各列の黒画素の数を示す垂直投影ヒストグラムとを生成し、これら両ヒストグラムに基づいて上記ストローク画像が存在する位置を検出する構成であってもよい。
上記の構成によれば、矩形領域の幅方向に延伸するストローク画像および高さ方向に延伸するストローク画像を適切に検出することができる。
なお、上記原稿方向判定装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各部として動作させることにより、上記原稿方向判定装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。
以上のように、本発明の原稿方向判定装置は、上記画像データの各画素を黒画素または白画素に分類した二値化画像データを生成する二値化処理部と、上記二値化画像データに基づいて黒画素が連続する部分である連結部分を抽出するとともに、この連結部分を含む矩形領域を1つの文字に対応する文字領域として検出する文字領域検出部と、上記矩形領域内において当該矩形領域の幅方向または高さ方向に所定値以上の長さで延伸する上記連結部分からなる画像であるストローク画像を検出するストローク検出部と、上記ストローク検出部の検出したストローク画像が当該ストローク画像に対応する上記矩形領域における左半分の領域である第1領域、右半分の領域である第2領域、上半分の領域である第3領域、および下半分の領域である第4領域のうちのいずれの領域に存在するかを上記矩形領域毎に判定し、上記第1〜第4領域毎にストローク画像が存在すると判定された回数を計数するストローク位置判定部と、上記第1〜第4領域のそれぞれに対する上記回数の計数値の比較結果に基づいて上記原稿方向を判定する原稿方向判定部とを備えている。
また、本発明の原稿方向判定方法は、上記画像データの各画素を黒画素または白画素に分類した二値化画像データを生成する二値化工程と、上記二値化画像データに基づいて黒画素が連続する部分である連結部分を抽出するとともに、この連結部分を含む矩形領域を1つの文字に対応する文字領域として検出する文字領域検出工程と、上記矩形領域内において当該矩形領域の幅方向または高さ方向に所定値以上の長さで延伸する上記連結部分からなる画像であるストローク画像を検出するストローク検出工程と、上記ストローク検出工程で検出したストローク画像が当該ストローク画像に対応する上記矩形領域における左半分の領域である第1領域、右半分の領域である第2領域、上半分の領域である第3領域、および下半分の領域である第4領域のうちのいずれの領域に存在するかを上記矩形領域毎に判定し、上記第1〜第4領域毎にストローク画像が存在すると判定された回数を計数するストローク位置判定工程と、上記第1〜第4領域のそれぞれに対する上記回数の計数値の比較結果に基づいて上記原稿方向を判定する原稿方向判定工程とを含む。
それゆえ、本発明の原稿方向判定装置および原稿方向判定方向によれば、ハングル文字を含む原稿の向きを容易かつ適切に判定することができる。
本発明の一実施形態について説明する。図1は、韓国語の文字、すなわちハングル文字の例を示す図である。
この図に示す例では、複数のハングル文字からなる行が2行記載されている。各ハングル文字は、少なくとも1つの子音と少なくとも1つの母音とが組み合わさったものである。例えば、図1における第1行目の左から1つ目の文字aは、1つの子音a1と1つの母音a2」とを含んでいる。
図1における第1行目には6つのハングル文字があり、そのうち5つの文字は当該各文字の高さ方向または幅方向に伸びるストロークを有している。具体的には、3つの文字a,b,およびdは、これら各文字の幅方向に伸びるストローク、つまりa2,b1,およびd1を有している。また、2つの文字eおよびfは、これら各文字の高さ方向に伸びるストローク、つまりe1およびf1を有している。
図1における第2行目には8つのハングル文字があり、そのうち4つの文字は当該各文字の高さ方向または幅方向に伸びるストロークを有している。具体的には、2つの文字hおよびnは、これら各文字の幅方向に伸びるストローク、つまりh1およびn1を有している。また、2つの文字iおよびlはこれら各文字の高さ方向に伸びるストローク、つまりi1」およびl1を有している。
ハングル文字では、文字の高さ方向に伸びるストローク(以下「縦ストローク」と呼ぶ)は、文字の右半分に配置されている。図1の例では、文字eのe1、文字fのf1、文字iのi1、および文字lのl1において、文字の右半分に縦ストロークが存在する。縦ストロークとは異なり、文字の幅方向に伸びるストローク(以下「横ストローク」と呼ぶ)は、文字の上半分または下半分に存在する。図1の例では、文字aのa1、文字bのb1、文字dのd1、文字hのh1、および文字nのn1において、文字の上半分または下半分に横ストロークが存在する(この例では、n1は文字nの上半分に存在するが、a1,b1,d1,h1は、それぞれ文字a,b,d,hの下半分に存在する)。
したがって、ハングル文字が記載された原稿の向きが正の場合(画像データの天地方向と原稿の天地方向との角度が0°である場合)、縦ストロークは文字の左半分には確認されずに右半分に確認されることになる。しかしながら、原稿が横向きになっている場合(例えば、画像データの天地方向に対する原稿の天地方向の角度が90°あるいは270°の場合)、文字の左半分および右半分の両方にストロークが確認され得る。これは、横向きになった原稿の文字の左半分および右半分は、原稿の向きが正である場合の文字の上半分および下半分か、または、文字の下半分および上半分に該当するからである。
同様に、原稿の向きが画像データの天地方向に対して逆である場合(つまり、原稿の上下方向が画像データの上下方向に対して180°回転している場合)、文字の右半分にはストロークが確認されず左半分に確認される。これは、原稿の天地方向が逆の状態における文字の左半分および右半分は、原稿の向きが正しい場合の文字の右半分および左半分に該当するからである。
図6は、本実施形態にかかる原稿方向判定装置10の概略構成を示すブロック図である。この図に示すように、原稿方向判定装置10は、画像読取装置20、原稿方向判定部30、記憶部36、原稿方向補正部37、および画像データ出力処理装置38を備えている。
画像読取装置20は、原稿をスキャンしてこの原稿の画像データである原稿画像データを取得する。また、画像読取装置20は、取得した原稿画像データを原稿方向判定部30と原稿方向補正部37とに出力する。
原稿方向判定部30は、二値化処理部31、文字領域検出部32、ストローク検出部33、ストローク位置判定部34、および原稿方向判定部35を備えている。また、記憶部36は、右カウンタCR、左カウンタCL、上カウンタCT、および下カウンタCBを備えている。
ここで、原稿方向判定部30における上記各部の処理について、図2を参照しながら説明する。図2は、原稿方向判定部30における処理の流れを示すフローチャートである。なお、本実施形態では、原稿の画像データは、原稿の1つの端辺または原稿におけるテキストの行方向に対する4つの主要角度(つまり0°、90°、180°、および270°)のうちのいずれか1つの角度において読み取られたものであると仮定する。この仮定が満たさない場合、原稿画像が画像データの基準方向に対して傾いていることを意味する。なお、原稿の傾き角度を検知する傾き検知部と、傾き検知結果に基づいて原稿の傾き補正処理を行う傾き補正部とを備え、原稿の傾き検知処理および傾き補正処理を行ってから原稿方向の判定処理を行うようにしてもよい。傾き検知方法および傾き補正方法としては、従来から公知の種々の方法を用いることができる。
まず、ステップS101では、二値化処理部31が、画像読取装置20が原稿を読み取って取得した原稿画像データ二値画像に変換する。この二値画像は多数の画素データからなり、各画素データは2つの値のうちのいずれか1つを有している。原稿の画像データが2以上の色成分を有する場合、この画像データはグレースケールに変換してから二値化処理を行うようにすればよい。また、グレースケール画像を平滑化フィルタによって平滑化してから二値化処理を行ってもよい。最終的には、グレースケール画像における各画素データは、例えば閾値との比較結果に基づいて二値データに変換される。
ステップS102では、文字領域検出部32が、黒画素が連続する部分である連結部分のグループ(近接する連結部分からなるグループ)を囲むように所定の寸法、形状、およびアスペクト比を有する矩形領域を設定し、この矩形領域によって囲まれる領域を1つの文字に対応する領域とするグループ化処理と、各グループに固有のラベルを割り付けるラベル付け処理とを行う。この連続する黒画素のグループは1つのハングル文字に相当する。すなわち、本実施形態では、各矩形領域の寸法、形状、およびアスペクト比を、1つのハングル文字を囲み、かつ隣接するハングル文字に対応する矩形領域と重畳しないようなサイズに予め設定している。
ステップS103では、文字領域検出部32が、上記二値画像における上記連結部分のグループのうちの少なくとも一部の画素が、上記矩形領域の外側に位置している場合に、この連結部分のグループを原稿方向判定処理に用いるグループから除外する。連結部分のグループ内に上記矩形領域の外側に位置する画素が1つも無い場合、この連結部分を原稿方向判定処理に用いるグループとして残す。これにより、ハングル文字ではない矩形領域を除外できる。なお、ステップS103の処理は必須ではなく、省略することもできる。
ステップS104では、ストローク検出部33が、ステップS103の処理で残ったグループを分析し、各グループにおける上記矩形領域の幅方向または高さ方向に伸びるストロークの位置を検出する。ここで、1つのハングル文字から検出されるストロークの位置は、上述したように、当該ハングル文字に対応する上記矩形領域の上半分、下半分、右半分、および、左半分のうちのいずれか1つに分類できる。ストローク検出部33は、例えば、二値化された文字の画像を水平方向および垂直方向に投影して投影ヒストグラムを生成し、この投影ヒストグラムにおいて所定値以上の頻度(度数)を有するピークを検出する。そして、このようにして検出された上記ヒストグラム内のピークをハングル文字のストロークとして検出する。そして、ストローク検出部33は、各矩形領域に対するストロークの位置の検出結果に基づいて、ストロークの位置の検出回数を記憶部36に備えられる4つのカウンタ、すなわち左半分に位置すると判定された回数を計数する左カウンタCL、右半分に位置すると判定された回数を計数する右カウンタCR、上半分に位置すると判定された回数を計数する上カウンタCT、および下半分に位置すると判定された回数を計数する下カウンタCBのカウント値を変更する。すなわち、ストローク検出部33は、各矩形領域におけるストロークの位置が検出されると、検出された位置に対応するカウンタの値を増加させる。
その後、ステップS105において、原稿方向判定部35が原稿方向(画像データの基準方向に対する原稿の90°単位の向き)を判定し、判定結果を原稿方向補正部37に出力する。この際、原稿方向判定部35は、矩形領域の左半分、右半分、上半分、および下半分についての上記カウント値を用いて向きを判定する。例えば、原稿の向きが正である場合(画像データの基準方向(天地方向)と原稿の天地方向とが一致している場合)、左カウンタCLと右カウンタCRとのカウント値の差が、上カウンタCTと下カウンタCBとのカウント値の差よりも大きく、かつ右カウンタCRのカウント値が左カウンタCLのカウント値よりも大きくなるはずである。
原稿方向補正部37は、原稿方向判定部35による原稿方向の判定結果に基づいて、画像読取装置20から入力された原稿画像データにおける原稿画像の向きを適宜補正し、画像データ出力処理部38に出力する。例えば、原稿方向補正部37は、原稿画像の向きが画像データの天地方向に対して反転している場合、原稿画像データを180°回転させる。
画像データ出力処理装置38は、原稿方向補正部37から入力された画像データに対して、所定の出力処理を施す。なお、上記所定の処理は、例えば、画像データに応じた画像を記録材上に形成する処理であってもよく、画像データに応じた画像を表示装置に表示させる処理であってもよく、画像データを所定の保存先に保存する処理であってもよく、画像データを所定の送信先に送信する処理であってもよい。
図3は、図2のステップS105における原稿方向判定処理のアルゴリズムを示す説明図である。上述したように、ステップS104では、ストローク位置判定部34によって、原稿方向判定処理に用いる各矩形領域について当該矩形領域の左半分、右半分、上半分、および下半分のいずれの位置にストロークが存在するかが判定され、これら各矩形領域に対する判定結果に基づいて左カウンタCL、右カウンタCR、上カウンタCT、および下カウンタCBの各カウント値が求められる。原稿方向判定部35は、これら各カウント値に基づいて、D1=ABS(CL−CR)およびD2=ABS(CT−CB)を算出する(S501)。ここで、ABS(CL−CR)はCL−CRの絶対値であり、ABS(CT−CB)はCT−CBの絶対値である。
次に、原稿方向判定部35は、ステップS501で算出した値D1と値D2との大小関係を比較し、D1>D2であるか否かを判定する(S502)。
D1の値がD2よりも大きい場合、すなわちD1>D2である場合、原稿方向判定部35は、CR>CLであるか否かを判定する(S503)。
そして、ステップS503においてCRがCLよりも大きい場合、すなわちCR>CLである場合、原稿方向判定部35は、原稿の向きを画像データの天地方向に対して正、つまり画像データの基準方向に対する原稿の向きは0°であると判定する(S505)。
一方、ステップS503においてCRがCLよりも大きくない場合、すなわちCR≦CLである場合、原稿方向判定部35は、原稿の向きを画像データの天地方向に対して逆、すなわち画像データの基準方向に対する原稿の向きは180°であると判定する(S506)。
ステップS502においてD1がD2よりも大きくない場合、すなわちD1≦D2である場合、CB>CTであるか否かを判定する(S504)。
そして、CBがCTよりも大きい場合、すなわちCB>CTである場合、原稿方向判定部35は、画像データの基準方向に対する原稿の向きは270°であると判定する(S507)。
一方、ステップS504においてCBがCTよりも大きくない場合、すなわちCB≦CTである場合、原稿方向判定部35は、画像データの基準方向に対する原稿の向きは90°であると判定する(S508)。
図4(a)は高さh=35画素、幅w=37画素、アスペクト比ar≒0.9の矩形領域内に含まれる図4(d)に符号pで示したハングル文字の二値画像を示しており、図4(b)は図4(a)に示した二値画像についての水平投影ヒストグラム(画像データの各行についての黒画素の数を示すヒストグラム)を示しており、図4(c)は図4(a)に示した二値画像についての垂直投影ヒストグラム(画像データの各列についての黒画素の数を示すヒストグラム)を示している。なお、図4(d)に示したハングル文字の場合、図4(d)に示したp1の部分が矩形領域(文字の画像を包囲している矩形)の高さ方向に伸びるストロークである。図4(b)の縦軸は文字画像における垂直方向の位置を示しており、横軸は黒画素の検出数を垂直方向の位置毎に計数した値を示している。また、図4(c)の横軸は文字画像における水平方向の位置を示しており、縦軸は黒画素の検出数を水平方向の位置毎に計数した値を示している。
本実施形態では、水平投影ヒストグラムおよび垂直投影ヒストグラムにおける計数値が所定値(本実施形態では30)より大きい位置に対応する黒画素群によって構成される画像をストロークと判定する。したがって、図4(b)に示したように、水平投影ヒストグラム内には、ストロークと判定される基準を満たしているピークは存在しない。一方、図4(c)に示したように、垂直投影ヒストグラム内の右側のピーク(横軸の位置30付近に存在するピーク)は、上記の基準を満たしているので、ストロークであると判定される。したがって、図4(a)〜図4(d)の例では、矩形領域の右半分にストロークがあると判定され、右カウンタCRのカウンタ値が増やされる。
図5は、縦ストロークまたは横ストロークを含む多数のハングル文字を含むテキストが記載された韓国語の原稿の一部を示す説明図である。
本実施形態では、上述のステップS102で説明したように、文字領域検出部32が、所定の寸法、形状、およびアスペクト比を有する矩形領域を用いて連結部分のグループ同士を区切るグループ化処理と、各グループに固有のラベルを割り付けるラベル付け処理とを行うようになっている。この場合、母音と子音とに分離される文字の中には、母音部分と子音部分とが別々の文字として取り扱われ、上述のグループ化およびラベル付け処理から排除される文字もいくつか存在し得る。
そこで、上述のステップS102において、連結部分のグループ同士の距離に応じて文字間の間隔(行間隔および同一行内における文字同士の間隔)を推定し、この推定結果に基づいて上記矩形領域のサイズを設定するようにしてもよい。これにより、母音と子音とに分離される文字における母音部分と子音部分とが別々の文字として取り扱われることを抑制することができる。
また、上述のステップS102において、連結部分の一部が矩形領域からはみ出す場合に、このはみ出す部分を含むように当該矩形領域のサイズを広げるようにしてもよい。
また、上述のステップS102において、連結部分のグループ同士の距離に応じて文字間の間隔(行間隔および同一行内における文字同士の間隔)を推定し、この推定結果に基づいて上記矩形領域のサイズを設定するとともに、連結部分の一部が矩形領域からはみ出す場合に、このはみ出す部分を含むように当該矩形領域のサイズを広げるようにしてもよい。
また、上記実施形態において、原稿方向判定装置10に備えられる各部(各ブロック)、特に原稿方向判定部30および原稿方向補正部37を、CPU等のプロセッサを用いてソフトウェアによって実現してもよい。この場合、原稿方向判定装置10は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである原稿方向判定装置10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、原稿方向判定装置10に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによって達成される。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、原稿方向判定装置10を通信ネットワークと接続可能に構成し、通信ネットワークを介して上記プログラムコードを供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
また、原稿方向判定装置10の各ブロックは、ソフトウェアを用いて実現されるものに限らず、ハードウェアロジックによって構成されるものであってもよく、処理の一部を行うハードウェアと当該ハードウェアの制御や残余の処理を行うソフトウェアを実行する演算手段とを組み合わせたものであってもよい。
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
本発明は、複数のハングル文字を含む原稿であって、ハングル文字からなる行の行方向が原稿の1辺に略平行である原稿の向きを判定する方法および装置に適用できる。
ハングル文字の例を示す図である。 本発明の一実施形態にかかる原稿方向判定装置における流れを示すフローチャートである。 図2のステップS105における原稿方向判定処理のアルゴリズムを示す図である。 (d)はハングル文字の一例を示しており、(a)は(d)に示したハングル文字の二値画像を示しており、(b)は(a)に示した二値画像についての水平投影ヒストグラムを示しており、(c)は(a)に示した二値画像についての垂直投影ヒストグラムを示している。 多数のハングル文字を含む原稿の一例を示す説明図である。 本発明の一実施形態にかかる原稿方向判定装置の概略構成を示すブロック図である。
符号の説明
10 原稿方向判定装置
20 画像読取装置
30 原稿方向判定部
31 二値化処理部
32 文字領域検出部
33 ストローク検出部
34 ストローク位置判定部
35 原稿方向判定部
36 記憶部
37 原稿方向補正部
38 画像データ出力処理装置
CL 左カウンタ
CR 右カウンタ
CT 上カウンタ
CB 下カウンタ

Claims (13)

  1. ハングル文字を含む原稿から読み取った原稿画像の画像データに基づいて、上記画像データの基準方向に対する上記原稿画像の90度単位の向きである原稿方向を判定する原稿方向判定装置であって、
    上記画像データの各画素を黒画素または白画素に分類した二値化画像データを生成する二値化処理部と、
    上記二値化画像データに基づいて黒画素が連続する部分である連結部分を抽出するとともに、この連結部分を含む矩形領域を1つの文字に対応する文字領域として検出する文字領域検出部と、
    上記矩形領域内において当該矩形領域の幅方向または高さ方向に所定値以上の長さで延伸する上記連結部分からなる画像であるストローク画像を検出するストローク検出部と、
    上記ストローク検出部の検出したストローク画像が当該ストローク画像に対応する上記矩形領域における左半分の領域である第1領域、右半分の領域である第2領域、上半分の領域である第3領域、および下半分の領域である第4領域のうちのいずれの領域に存在するかを上記矩形領域毎に判定し、上記第1〜第4領域毎にストローク画像が存在すると判定された回数を計数するストローク位置判定部と、
    上記第1〜第4領域のそれぞれに対する上記回数の計数値の比較結果に基づいて上記原稿方向を判定する原稿方向判定部とを備えていることを特徴とする原稿方向判定装置。
  2. 上記文字領域検出部は、上記矩形領域を、予め定められた寸法、形状、およびアスペクト比に設定することを特徴とする請求項1に記載の原稿方向判定装置。
  3. 上記文字領域検出部は、上記連結部分同士の間隔に基づいて上記原稿に含まれる文章における各行、および各行内における文字同士の間隔または各文字の幅を検出し、この検出結果に基づいて各文字をそれぞれ囲むように上記矩形領域を設定することを特徴とする請求項1に記載の原稿方向判定装置。
  4. 上記原稿方向判定部は、
    上記第1領域に対する上記回数の計数値をCL、上記第2領域に対する上記回数の計数値をCR、上記第3領域に対する上記回数の計数値をCT、上記第4領域に対する上記回数の計数値をCBとしたときに、CR>CLであり、かつABS(CR−CL)>ABS(CB−CT)である場合に、上記画像データの基準方向に対する上記原稿画像の方向を0度と判定することを特徴とする請求項1から3のいずれか1項に記載の原稿方向判定装置。
  5. 上記原稿方向判定部は、
    上記第1領域に対する上記回数の計数値をCL、上記第2領域に対する上記回数の計数値をCR、上記第3領域に対する上記回数の計数値をCT、上記第4領域に対する上記回数の計数値をCBとしたときに、CR≦CLであり、かつABS(CR−CL)>ABS(CB−CT)である場合に、上記画像データの基準方向に対する上記原稿画像の方向を180度と判定することを特徴とする請求項1から4のいずれか1項に記載の原稿方向判定装置。
  6. 上記原稿方向判定部は、
    上記第1領域に対する上記回数の計数値をCL、上記第2領域に対する上記回数の計数値をCR、上記第3領域に対する上記回数の計数値をCT、上記第4領域に対する上記回数の計数値をCBとしたときに、CB>CTであり、かつABS(CR−CL)≦ABS(CB−CT)である場合に、上記画像データの基準方向に対する上記原稿画像の方向を270度と判定することを特徴とする請求項1から5のいずれか1項に記載の原稿方向判定装置。
  7. 上記原稿方向判定部は、
    上記第1領域に対する上記回数の計数値をCL、上記第2領域に対する上記回数の計数値をCR、上記第3領域に対する上記回数の計数値をCT、上記第4領域に対する上記回数の計数値をCBとしたときに、CB≦CTであり、かつABS(CR−CL)≦ABS(CB−CT)である場合に、上記画像データの基準方向に対する上記原稿画像の方向を90度と判定することを特徴とする請求項1から5のいずれか1項に記載の原稿方向判定装置。
  8. 上記文字領域検出部は、上記連結部分の一部が上記矩形領域の外側にはみ出す場合に、当該矩形領域を上記ストローク検出部による上記ストローク画像の検出処理から除外することを特徴とする請求項2に記載の原稿方向判定装置。
  9. 上記ストローク位置判定部は、
    上記各矩形領域における各行および各列のうち、黒画素の数が所定数以上である行または列を上記ストローク画像が存在する位置として検出することを特徴とする請求項1から8のいずれか1項に記載の原稿方向判定装置。
  10. 上記ストローク位置判定部は、
    上記各矩形領域の画像における各行の黒画素の数を示す水平投影ヒストグラムと、各列の黒画素の数を示す垂直投影ヒストグラムとを生成し、これら両ヒストグラムに基づいて上記ストローク画像が存在する位置を検出することを特徴とする請求項9に記載の原稿方向判定装置。
  11. ハングル文字を含む原稿から読み取った原稿画像の画像データに基づいて、上記画像データの基準方向に対する上記原稿画像の90度単位の向きである原稿方向を判定する原稿方向判定方法であって、
    上記画像データの各画素を黒画素または白画素に分類した二値化画像データを生成する二値化工程と、
    上記二値化画像データに基づいて黒画素が連続する部分である連結部分を抽出するとともに、この連結部分を含む矩形領域を1つの文字に対応する文字領域として検出する文字領域検出工程と、
    上記矩形領域内において当該矩形領域の幅方向または高さ方向に所定値以上の長さで延伸する上記連結部分からなる画像であるストローク画像を検出するストローク検出工程と、
    上記ストローク検出工程で検出したストローク画像が当該ストローク画像に対応する上記矩形領域における左半分の領域である第1領域、右半分の領域である第2領域、上半分の領域である第3領域、および下半分の領域である第4領域のうちのいずれの領域に存在するかを上記矩形領域毎に判定し、上記第1〜第4領域毎にストローク画像が存在すると判定された回数を計数するストローク位置判定工程と、
    上記第1〜第4領域のそれぞれに対する上記回数の計数値の比較結果に基づいて上記原稿方向を判定する原稿方向判定工程とを含むことを特徴とする原稿方向判定方法。
  12. 請求項1から10のいずれか1項に記載の原稿方向判定装置を動作させるプログラムであって、コンピュータを上記各部として機能させるためのプログラム。
  13. 請求項12に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008324396A 2008-01-11 2008-12-19 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体 Expired - Fee Related JP4694613B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/007,524 US8027539B2 (en) 2008-01-11 2008-01-11 Method and apparatus for determining an orientation of a document including Korean characters
US12/007,524 2008-01-11

Publications (2)

Publication Number Publication Date
JP2009169948A JP2009169948A (ja) 2009-07-30
JP4694613B2 true JP4694613B2 (ja) 2011-06-08

Family

ID=40850680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008324396A Expired - Fee Related JP4694613B2 (ja) 2008-01-11 2008-12-19 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体

Country Status (2)

Country Link
US (1) US8027539B2 (ja)
JP (1) JP4694613B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9547799B2 (en) * 2008-07-17 2017-01-17 Sharp Laboratories Of America, Inc. Methods and systems for content-boundary detection
US9087337B2 (en) * 2008-10-03 2015-07-21 Google Inc. Displaying vertical content on small display devices
US8873864B2 (en) * 2009-12-16 2014-10-28 Sharp Laboratories Of America, Inc. Methods and systems for automatic content-boundary detection
US8218875B2 (en) 2010-06-12 2012-07-10 Hussein Khalid Al-Omari Method and system for preprocessing an image for optical character recognition
CN101996390B (zh) * 2010-10-20 2013-11-06 中兴通讯股份有限公司 一种图像拷贝的方法和装置
JP6161484B2 (ja) * 2013-09-19 2017-07-12 株式会社Pfu 画像処理装置、画像処理方法及びコンピュータプログラム
RU2613847C2 (ru) 2013-12-20 2017-03-21 ООО "Аби Девелопмент" Выявление китайской, японской и корейской письменности
RU2648638C2 (ru) 2014-01-30 2018-03-26 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов, использующие множество кластеров эталонов символов
RU2640322C2 (ru) 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов
US9589185B2 (en) 2014-12-10 2017-03-07 Abbyy Development Llc Symbol recognition using decision forests
US9552527B1 (en) 2015-08-27 2017-01-24 Lead Technologies, Inc. Apparatus, method, and computer-readable storage medium for determining a rotation angle of text
US10956730B2 (en) * 2019-02-15 2021-03-23 Wipro Limited Method and system for identifying bold text in a digital document

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11338974A (ja) * 1998-05-28 1999-12-10 Canon Inc 文書処理方法及び装置、記憶媒体
JP2006260274A (ja) * 2005-03-17 2006-09-28 Ricoh Co Ltd 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5592572A (en) * 1993-11-05 1997-01-07 The United States Of America As Represented By The Department Of Health And Human Services Automated portrait/landscape mode detection on a binary image

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11338974A (ja) * 1998-05-28 1999-12-10 Canon Inc 文書処理方法及び装置、記憶媒体
JP2006260274A (ja) * 2005-03-17 2006-09-28 Ricoh Co Ltd 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法

Also Published As

Publication number Publication date
US20090180694A1 (en) 2009-07-16
JP2009169948A (ja) 2009-07-30
US8027539B2 (en) 2011-09-27

Similar Documents

Publication Publication Date Title
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
CN110942074B (zh) 字符切分识别方法、装置、电子设备、存储介质
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
TWI606406B (zh) 從成像檔案擷取正文之方法、設備以及有形電腦可讀儲存媒體
JP4758461B2 (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
JP2017516204A (ja) 美的要素を備える機械読み取り可能な光学式コードの生成および復号化
RU2621601C1 (ru) Устранение искривлений изображения документа
WO2014160433A2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
JP4738469B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
JP2008217347A (ja) ナンバープレート認識装置、その制御方法、コンピュータプログラム
CN105303156B (zh) 字符检测装置、方法及程序
JP2009003937A (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
JP6000992B2 (ja) 文書ファイル生成装置及び文書ファイル生成方法
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
JP2010218420A (ja) 文字認識装置、画像読取装置、およびプログラム
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
US9224065B2 (en) Character-recognition method and character-recognition device and program using said method
JP2016162420A (ja) 注目領域検出装置、注目領域検出方法及びプログラム
JP5906788B2 (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
JP5347793B2 (ja) 文字認識装置、文字認識プログラムおよび文字認識方法
KR20160053544A (ko) 후보 문자의 추출 방법
JP4518212B2 (ja) 画像処理装置及びプログラム
JP2004086436A (ja) 画像処理装置および画像処理方法、プログラムおよび記憶媒体
Tian et al. Self-verifiable paper documents and automatic content verification

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110223

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140304

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4694613

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees