JP4607633B2 - 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 - Google Patents

文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 Download PDF

Info

Publication number
JP4607633B2
JP4607633B2 JP2005077879A JP2005077879A JP4607633B2 JP 4607633 B2 JP4607633 B2 JP 4607633B2 JP 2005077879 A JP2005077879 A JP 2005077879A JP 2005077879 A JP2005077879 A JP 2005077879A JP 4607633 B2 JP4607633 B2 JP 4607633B2
Authority
JP
Japan
Prior art keywords
line
character
row
rectangle
degrees
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005077879A
Other languages
English (en)
Other versions
JP2006260274A (ja
Inventor
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005077879A priority Critical patent/JP4607633B2/ja
Priority to EP06251145A priority patent/EP1703444B1/en
Priority to US11/375,130 priority patent/US7567730B2/en
Priority to CN200610067618A priority patent/CN100576233C/zh
Publication of JP2006260274A publication Critical patent/JP2006260274A/ja
Application granted granted Critical
Publication of JP4607633B2 publication Critical patent/JP4607633B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Control Or Security For Electrophotography (AREA)
  • Character Discrimination (AREA)
  • Facsimile Scanning Arrangements (AREA)

Description

本発明は、文書画像の文字行の方向を識別する文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法に関する。
デジタル複写機及びスキャナ等の文書処理装置においては、原稿読取り時の主走査・副走査方向が原稿台上で固定されており、原稿台への原稿の戴置方向により文書処理装置に入力される原稿の方向が決定される。このため、原稿入力時に原稿の方向を誤って入力した場合、原稿を正しい方向にセットし直して再度入力を行うか、或いは文書処理装置の画像編集機能を用いて入力画像を正しい向きへ回転させることが行われている。したがって、ユーザは、常に原稿の戴置方向を意識して入力作業を行わなければならないという煩わしさがあった。
そこで、この煩わしさから開放すべく、原稿の戴置方向を意識しなくても良いようにする技術が特許文献1に開示されている。この特許文献1に開示されている技術は、入力回路で入力した画像情報を画像メモリに記憶し、記憶した画像情報から文字切出回路により文字を切り出し、その切り出した領域の文字の向きを文字認識装置で検出し、文字が正立していると検出された時以外は、画像処理回路が画像メモリに記憶された画像情報を正立する向きに回転させるというものである。
また、特許文献2には、原稿の端部の空白(綴じ代のために左空白の方が一般的に広い)に注目して原稿の天地識別を行う技術が開示されている。
実開平5−12960号公報(実願平3−59785号明細書) 特開平5−205103号公報
しかしながら、特許文献1に開示されている技術によれば、文字認識装置(OCR)の使用が前提とされており、OCRは原稿で使用される文字を予め知ることはできないので、OCRを使用して文字方向を検出しようとすると、認識対象文字の全てを含む認識辞書を用意し、その全ての文字特徴と認識対象文字とを照合し、最も近い文字を選択しなければならない。しかも、文字方向の可能性だけ、例えば0度、90度、180度、270度回転であれば4回、照合処理、文字選択処理を繰り返す必要がある。したがって、特許文献1に開示されている技術によれば、多くの記憶容量と多大な演算量とを要することになり、文字方向検出に多大な時間がかかることになる。
また、特許文献2に開示されている技術によれば、原稿のレイアウト特徴にのみ注目しており、文字方向の特徴は一切考慮していない。したがって、端部の空白が上下左右、ほぼ等しい場合には、文字方向を決定することができないという問題がある。
本発明は、上記に鑑みてなされたものであって、計算負荷、記憶容量の増大を招くことなく、高速に文字方向識別処理を実現できる文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、発明の文字方向識別装置は、文書画像から文字行を切り出す文字行切出し手段と、前記文字行切出し手段により切り出された前記文書画像の文字行における行内矩形の配置情報を表す特徴を量子化する量子化手段と、前記量子化手段により量子化された前記行内矩形の配置情報を表す特徴に識別情報を付与して行内矩形の識別情報の系列を作成する系列作成手段と、前記量子化手段及び前記系列作成手段により前記文書画像訓練行における前記行内矩形の配置情報を表す特徴を識別情報の系列に変換し、前記行内矩形の並び傾向を学習する訓練行学習手段と、文字方向識別対象行である試験行の行内矩形に対して所定の角度で順次回転変換処理を実施する回転変換手段と、前記回転変換手段により順次回転変換処理された試験行における前記行内矩形の配置情報を表す特徴を、前記量子化手段及び前記系列作成手段により識別情報の系列に変換し、前記訓練行学習手段による訓練行の学習結果を用いて、試験行の生起確率演算を行い識別情報の系列の出現確率を算出する評価値算出手段と、前記評価値算出手段により算出された出現確率に基づいて、最も高い出現確率を示した回転角度である試験行の属する文字方向を、文書画像の文字方向として判定する文字方向判定手段と、を備える。
また、発明の画像形成装置は、画像を用紙上に印刷する画像形成装置において、文書原稿を読み取る画像読取手段と、前記画像読取手段により読み取られた文書画像から文字行を切り出す文字行切出し手段と、前記文字行切出し手段により切り出された前記文書画像の文字行における行内矩形の配置情報を表す特徴を量子化する量子化手段と、前記量子化手段により量子化された前記行内矩形の配置情報を表す特徴に識別情報を付与して行内矩形の識別情報の系列を作成する系列作成手段と、前記量子化手段及び前記系列作成手段により前記文書画像訓練行における前記行内矩形の配置情報を表す特徴を識別情報の系列に変換し、前記行内矩形の並び傾向を学習する訓練行学習手段と、文字方向識別対象行である試験行の行内矩形に対して所定の角度で順次回転変換処理を実施する回転変換手段と、前記回転変換手段により順次回転変換処理された試験行における前記行内矩形の配置情報を表す特徴を、前記量子化手段及び前記系列作成手段により識別情報の系列に変換し、前記訓練行学習手段による訓練行の学習結果を用いて、試験行の生起確率演算を行い識別情報の系列の出現確率を算出する評価値算出手段と、前記評価値算出手段により算出された出現確率に基づいて、最も高い出現確率を示した回転角度である試験行の属する文字方向を、文書画像の文字方向として判定する文字方向判定手段と、前記文字方向判定手段により判定された文書画像の文字方向に基づいて、前記画像読取手段により読み取られた文書画像を正立する向きに回転させる文書画像回転手段と、を備える。
また、発明のプログラムは、文書画像から文字行を切り出す文字行切出し機能と、前記文字行切出し機能により切り出された前記文書画像の文字行における行内矩形の配置情報を表す特徴を量子化する量子化機能と、前記量子化機能により量子化された前記行内矩形の配置情報を表す特徴に識別情報を付与して行内矩形の識別情報の系列を作成する系列作成機能と、前記量子化機能及び前記系列作成機能により前記文書画像訓練行における前記行内矩形の配置情報を表す特徴を識別情報の系列に変換し、前記行内矩形の並び傾向を学習する訓練行学習機能と、文字方向識別対象行である試験行の行内矩形に対して所定の角度で順次回転変換処理を実施する回転変換機能と、前記回転変換機能により順次回転変換処理された試験行における前記行内矩形の配置情報を表す特徴を、前記量子化機能及び前記系列作成機能により識別情報の系列に変換し、前記訓練行学習機能による訓練行の学習結果を用いて、試験行の生起確率演算を行い識別情報の系列の出現確率を算出する評価値算出機能と、前記評価値算出機能により算出された出現確率に基づいて、最も高い出現確率を示した回転角度である試験行の属する文字方向を、文書画像の文字方向として判定する文字方向判定機能と、をコンピュータに実行させる。
また、発明の文字方向識別方法は、文字方向識別装置で実行される文字方向識別方法であって、前記文字方向識別装置は、制御部と記憶部を備え、前記制御部において実行される、文字行切出し手段が、文書画像から文字行を切り出す文字行切出し工程と、量子化手段が、前記文字行切出し工程により切り出された前記文書画像の文字行における行内矩形の配置情報を表す特徴を量子化する量子化工程と、系列作成手段が、前記量子化工程により量子化された前記行内矩形の配置情報を表す特徴に識別情報を付与して行内矩形の識別情報の系列を作成する系列作成工程と、訓練行学習手段が、前記量子化工程及び前記系列作成工程により前記文書画像訓練行における前記行内矩形の配置情報を表す特徴を識別情報の系列に変換し、前記行内矩形の並び傾向を学習する訓練行学習工程と、回転変換手段が、文字方向識別対象行である試験行の行内矩形に対して所定の角度で順次回転変換処理を実施する回転変換工程と、評価値算出手段が、前記回転変換工程により順次回転変換処理された試験行における前記行内矩形の配置情報を表す特徴を、前記量子化工程及び前記系列作成工程により識別情報の系列に変換し、前記訓練行学習工程による訓練行の学習結果を用いて、試験行の生起確率演算を行い識別情報の系列の出現確率を算出する評価値算出工程と、文字方向判定手段が、前記評価値算出工程により算出された試験行の出現確率に基づいて、最も高い出現確率を示した回転角度である試験行の属する文字方向を、文書画像の文字方向として判定する文字方向判定工程と、を含む。
請求項1にかかる発明によれば、文書画像の文字行における行内矩形の配置情報を表す特徴(例えば、始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など)を量子化し、シンボルに変換した後、それらの並びの傾向を、文書画像が正立方向である場合の訓練行における行内矩形の配置情報を表す特徴から学習して記録する。そして、文字方向識別対象行である試験行の行内矩形に対して、回転変換処理を順次実施した結果に対して、先の学習した正立方向の学習傾向を適用することによって、当該行の文字方向別の出現しやすさを評価し、文字方向を判定する。これにより、文字方向識別対象行の文字方向を行内矩形の配置情報によって分類するので、特に新たに行の特徴を抽出する処理を行わずに行切り出し処理の過程で得られる特徴を利用することにより、計算負荷、記憶容量の増大を招くことなく、高速に文字方向識別処理を実現できる。
また、請求項2にかかる発明によれば、予め学習しておく行内矩形の並び傾向を、水平行と垂直行との2種類を用意しておき、回転角度を試験する行の切り出し方向に応じて、切り替えて処理することができる。これは、文字行切出し手段において切り出される文字行は、水平行あるいは垂直行のいずれかであり、一つの行が、同時に水平行であり垂直行であることはないからである。
また、請求項3にかかる発明によれば、回転変換手段における試験行の回転角度が、0度、90度、180度、270度であることにより、行内矩形座標の回転変換を行うには三角関数演算は不要になり(0度、90度、180度、270度の場合、sinθおよびcosθは固定値)、計算速度の向上および計算資源の節約を実現することができる。これは、一般的に、原稿は読み取りガイドに原稿の用紙を接触させて置くことが多く、回転角度の可能性としては0度、90度、180度、270度の4種で、実用上は十分であることによる。また、試験行の回転処理機能としては90度だけを備え、180度、270度は、90度回転の繰り返しによって実現することにより、現在の回転角度の場合の出現確率の演算が終了したら、現在の行内矩形をさらに90度回転変換すれば、180度回転、270度回転処理も実現でき、無駄がないという効果を奏する。
また、請求項4にかかる発明によれば、文字行内における空白の存在は、行内矩形の隣接矩形との距離を行高さと比較することによって検出可能であることにより、単語間に空白を挿入する習慣があるラテン系文字行での方向識別が可能になる。
また、請求項5にかかる発明によれば、量子化手段及び系列作成手段は、試験行の圧縮画像に対して処理を実施することにより、記憶容量節約および演算量低減を図ることができる。これは、記憶容量節約および演算量低減のためなどの理由で、画像処理においては原画像そのものではなく圧縮画像を処理対象にする場合が多いが、量子化手段及び系列作成手段は、文字画像の外接矩形に注目するものであり、画像そのものの詳細な特徴に基づくものではなく、圧縮画像に対しても有効に機能しうるからである。
また、請求項6にかかる発明によれば、回転変換手段には、試験行の矩形座標の鏡像変換を含むことにより、例えばスキャナとしてハンドスキャナなどを使用する場合において、読み込み画像が鏡像になった場合でも、正立画像に復元することができ、使用感を著しく改善することができる。
また、請求項7にかかる発明によれば、回転変換について全方向を仮定する必要がない場合には、回転変換の可能性を限定することにより、検知精度を向上させることができる。例えば、原稿の上下反転だけのみ検知するなら、0度と180度だけを試すだけでよい。
また、請求項8にかかる発明によれば、文書画像の文字行における行内矩形の配置情報を表す特徴(例えば、始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など)を量子化し、シンボルに変換した後、それらの並びの傾向を、文書画像が正立方向である場合の訓練行における行内矩形の配置情報を表す特徴から学習して記録する。そして、文字方向識別対象行である試験行の行内矩形に対して、回転変換処理を順次実施した結果に対して、先の学習した正立方向の学習傾向を適用することによって、当該行の文字方向別の出現しやすさを評価し、文字方向を判定する。これにより、文字方向識別対象行の文字方向を行内矩形の配置情報によって分類するので、特に新たに行の特徴を抽出する処理を行わずに行切り出し処理の過程で得られる特徴を利用することにより、計算負荷、記憶容量の増大を招くことなく、高速に文字方向識別処理を実現できる。そして、この文字方向識別結果に応じて、使用者が所望する文字方向(正立方向)に文書画像を自動回転することができる。よって、使用者は、目視によって確認した後に原稿を回転させる必要がなく、使用感を著しく改善することができる。
また、請求項9にかかる発明によれば、文書画像の文字行における行内矩形の配置情報を表す特徴(例えば、始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など)を量子化し、シンボルに変換した後、それらの並びの傾向を、文書画像が正立方向である場合の訓練行における行内矩形の配置情報を表す特徴から学習して記録する。そして、文字方向識別対象行である試験行の行内矩形に対して、回転変換処理を順次実施した結果に対して、先の学習した正立方向の学習傾向を適用することによって、当該行の文字方向別の出現しやすさを評価し、文字方向を判定する。これにより、文字方向識別対象行の文字方向を行内矩形の配置情報によって分類するので、特に新たに行の特徴を抽出する処理を行わずに行切り出し処理の過程で得られる特徴を利用することにより、計算負荷、記憶容量の増大を招くことなく、高速に文字方向識別処理を実現できる。
また、請求項10にかかる発明によれば、予め学習しておく行内矩形の並び傾向を、水平行と垂直行との2種類を用意しておき、回転角度を試験する行の切り出し方向に応じて、切り替えて処理することができる。これは、文字行切出し機能において切り出される文字行は、水平行あるいは垂直行のいずれかであり、一つの行が、同時に水平行であり垂直行であることはないからである。
また、請求項11にかかる発明によれば、回転変換機能における試験行の回転角度が、0度、90度、180度、270度であることにより、行内矩形座標の回転変換を行うには三角関数演算は不要になり(0度、90度、180度、270度の場合、sinθおよびcosθは固定値)、計算速度の向上および計算資源の節約を実現することができる。これは、一般的に、原稿は読み取りガイドに原稿の用紙を接触させて置くことが多く、回転角度の可能性としては0度、90度、180度、270度の4種で、実用上は十分であることによる。また、試験行の回転処理機能としては90度だけを備え、180度、270度は、90度回転の繰り返しによって実現することにより、現在の回転角度の場合の出現確率の演算が終了したら、現在の行内矩形をさらに90度回転変換すれば、180度回転、270度回転処理も実現でき、無駄がないという効果を奏する。
また、請求項12にかかる発明によれば、文字行内における空白の存在は、行内矩形の隣接矩形との距離を行高さと比較することによって検出可能であることにより、単語間に空白を挿入する習慣があるラテン系文字行での方向識別が可能になる。
また、請求項13にかかる発明によれば、量子化機能及び系列作成機能は、試験行の圧縮画像に対して処理を実施することにより、記憶容量節約および演算量低減を図ることができる。これは、記憶容量節約および演算量低減のためなどの理由で、画像処理においては原画像そのものではなく圧縮画像を処理対象にする場合が多いが、量子化機能及び系列作成機能は、文字画像の外接矩形に注目するものであり、画像そのものの詳細な特徴に基づくものではなく、圧縮画像に対しても有効に機能しうるからである。
また、請求項14にかかる発明によれば、回転変換機能には、試験行の矩形座標の鏡像変換を含むことにより、例えばスキャナとしてハンドスキャナなどを使用する場合において、読み込み画像が鏡像になった場合でも、正立画像に復元することができ、使用感を著しく改善することができる。
また、請求項15にかかる発明によれば、回転変換について全方向を仮定する必要がない場合には、回転変換の可能性を限定することにより、検知精度を向上させることができる。例えば、原稿の上下反転だけのみ検知するなら、0度と180度だけを試すだけでよい。
また、請求項16にかかる発明によれば、請求項9ないし15のいずれか一記載のプログラムを記憶していることにより、この記憶媒体に記憶されたプログラムをコンピュータに読み取らせることで、請求項9ないし15のいずれか一記載の発明と同様の作用効果を得ることができる。
また、請求項17にかかる発明によれば、文書画像の文字行における行内矩形の配置情報を表す特徴(例えば、始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など)を量子化し、シンボルに変換した後、それらの並びの傾向を、文書画像が正立方向である場合の訓練行における行内矩形の配置情報を表す特徴から学習して記録する。そして、文字方向識別対象行である試験行の行内矩形に対して、回転変換処理を順次実施した結果に対して、先の学習した正立方向の学習傾向を適用することによって、当該行の文字方向別の出現しやすさを評価し、文字方向を判定する。これにより、文字方向識別対象行の文字方向を行内矩形の配置情報によって分類するので、特に新たに行の特徴を抽出する処理を行わずに行切り出し処理の過程で得られる特徴を利用することにより、計算負荷、記憶容量の増大を招くことなく、高速に文字方向識別処理を実現できる。
また、請求項18にかかる発明によれば、予め学習しておく行内矩形の並び傾向を、水平行と垂直行との2種類を用意しておき、回転角度を試験する行の切り出し方向に応じて、切り替えて処理することができる。これは、文字行切出し工程において切り出される文字行は、水平行あるいは垂直行のいずれかであり、一つの行が、同時に水平行であり垂直行であることはないからである。
また、請求項19にかかる発明によれば、回転変換工程における試験行の回転角度が、0度、90度、180度、270度であることにより、行内矩形座標の回転変換を行うには三角関数演算は不要になり(0度、90度、180度、270度の場合、sinθおよびcosθは固定値)、計算速度の向上および計算資源の節約を実現することができる。これは、一般的に、原稿は読み取りガイドに原稿の用紙を接触させて置くことが多く、回転角度の可能性としては0度、90度、180度、270度の4種で、実用上は十分であることによる。また、試験行の回転処理機能としては90度だけを備え、180度、270度は、90度回転の繰り返しによって実現することにより、現在の回転角度の場合の出現確率の演算が終了したら、現在の行内矩形をさらに90度回転変換すれば、180度回転、270度回転処理も実現でき、無駄がないという効果を奏する。
また、請求項20にかかる発明によれば、文字行内における空白の存在は、行内矩形の隣接矩形との距離を行高さと比較することによって検出可能であることにより、単語間に空白を挿入する習慣があるラテン系文字行での方向識別が可能になる。
また、請求項21にかかる発明によれば、量子化工程及び系列作成工程は、試験行の圧縮画像に対して処理を実施することにより、記憶容量節約および演算量低減を図ることができる。これは、記憶容量節約および演算量低減のためなどの理由で、画像処理においては原画像そのものではなく圧縮画像を処理対象にする場合が多いが、量子化工程及び系列作成工程は、文字画像の外接矩形に注目するものであり、画像そのものの詳細な特徴に基づくものではなく、圧縮画像に対しても有効に機能しうるからである。
また、請求項22にかかる発明によれば、回転変換工程には、試験行の矩形座標の鏡像変換を含むことにより、例えばスキャナとしてハンドスキャナなどを使用する場合において、読み込み画像が鏡像になった場合でも、正立画像に復元することができ、使用感を著しく改善することができる。
また、請求項23にかかる発明によれば、回転変換について全方向を仮定する必要がない場合には、回転変換の可能性を限定することにより、検知精度を向上させることができる。例えば、原稿の上下反転だけのみ検知するなら、0度と180度だけを試すだけでよい。
[第1の実施の形態]
以下に添付図面を参照して、本発明にかかる文字方向識別装置(画像形成装置)の好適な実施の形態を詳細に説明する。なお、本実施の形態では、日本語、英語の原稿の文字方向を識別する例について説明するが、特にこれらの言語に限定されるものではない。
(文字方向識別装置のハードウェア構成)
図1は、本発明の第1の実施の形態にかかる文字方向識別装置100のハードウェア構成を示すブロック図である。図1に示すように、この文字方向識別装置100は、PCなどのコンピュータであり、文字方向識別装置100の各部を制御するCPU(Central Processing Unit)1、CPU1を起動するためのプログラムが記憶されるROM(Read Only Memory)2、不図示のスキャナにより読み取られた原稿画像やオペレーティングシステム、アプリケーションプログラム等を記憶するハードディスク3、文字方向識別処理を行うためにハードディスク3に記憶された原稿画像等を一時的に読み出して展開するワークエリアとして機能するRAM(Random Access Memory)4、基準となる言語毎の訓練用データについて求めた配置情報のtrigram表を記憶する不揮発性メモリ(NVRAM)5、オペレータからの各種入力を受け付けるキーボード6、入力状況等を表示する表示装置7、CD−ROMなどの各種光情報記録メディア(図示せず)に記憶されたプログラム等を読み取る光ディスクドライブ8、インターネットやLAN(Local Area Network)等の電気通信回線を介して原稿画像を送受信する通信装置9等から構成されており、これらの各部間で送受信されるデータをバスコントローラ10が調停して動作する。
このような文字方向識別装置100では、オペレータが電源を投入するとCPU1がROM2内のローダーというプログラムを起動させ、ハードディスク3よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM4に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、オペレータの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。
ここで、文字方向識別装置100は、アプリケーションプログラムとして、文字方向識別プログラムをハードディスク3に記憶している。この意味で、ハードディスク3は、文字方向識別プログラムを記憶する記憶媒体として機能する。
また、一般的には、文字方向識別装置100のハードディスク3にインストールされるアプリケーションプログラムは、CD−ROMなどの各種光情報記録メディアやFD等の磁気メディア等の記憶媒体に記録され、この記憶媒体に記録されたアプリケーションプログラムがハードディスク3にインストールされる。このため、CD−ROMなどの各種光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体も、文字方向識別プログラムを記憶する記憶媒体となり得る。さらには、文字方向識別プログラムは、例えば通信装置9を介して外部から取り込まれ、ハードディスク3にインストールされても良い。
(文字方向識別処理)
文字方向識別装置100は、オペレーティングシステム上で動作する文字方向識別プログラムが起動すると、この文字方向識別プログラムに従い、CPU1が各種の演算処理を実行して各部を集中的に制御する。文字方向識別装置100のCPU1が実行する各種の演算処理のうち、本実施の形態の特長的な処理である文字方向識別処理について以下に説明する。
なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路(図示せず)を別途設け、論理回路の動作により各種の演算処理を実行するようにするのが望ましい。
図2は、文字方向識別処理の流れを示すフローチャートである。図2に示すように、キーボード6から文字方向識別の指示が入力されると、CPU1は、スキャナから原稿画像を入力させ(ステップS1)、入力した原稿画像の黒画素の連結成分を求め、それと外接する矩形を求め、この外接矩形(行内矩形)を、近隣同士を連結して文字行に成長させた後(ステップS2)、文字行を切り出す(ステップS3:文字行切出し手段)。
ここで、入力された原稿画像の行の切り出しについて図3−1〜図3−3を参照して簡単に説明する。スキャナから入力された文字方向識別用文書の原稿画像(図3−1)について、黒画素の連結成分を求め、それと外接する矩形A,B,C・・・を求める(図3−2)。そして、求めた外接矩形を、近隣同士を連結して文字行Zに成長させる(図3−3)。外接矩形の成長を水平方向及び垂直方向の両方で実施すれば、水平行と垂直行の両方が切り出される。この時点では文字方向は不明であるので、切り出された文字行の外接矩形(以下、行内矩形)に対して文字方向識別処理を行い、文字方向を識別する。なお、行内矩形の作成処理及び文字行の切り出し処理自体は、公知の手法を使えば良いので詳細な説明は省略する。
図4−1及び図4−2は、日本語の原稿画像について水平行及び垂直行切り出しを行った場合の文字方向配置の可能性を示すものである。図4−1は、未知の水平行に対し、横書きか縦書きかにより、横書き0度回転、横書き180度回転、縦書き90度回転、縦書き270度回転の4種類の可能性のある配置例である。また、図4−2は、未知の垂直行に対し、横書きか縦書きかにより、横書き90度回転、横書き270度回転、縦書き0度回転、縦書き180度回転の4種類の可能性のある配置例である。なお、回転角度は、正立位置から時計回りを基準にする。このように、未知の水平行に対して、縦書き/横書き、回転角度4種の組み合わせから、文字行の可能性は4種が存在する。未知の垂直行に関しても、同様に4種類、文字方向の可能性が存在する。行切り出し処理が終わった時点で、水平行と垂直行が切り出されるから、文字方向識別処理は、各々の可能性4種の内から、正しい1方向を選択すればよい。
続くステップS4においては、ステップS3で切り出した文字行について、行内矩形の始点の頻度を集計して、文字方向を識別する文字方向判定(識別)の処理を行う。より詳細には、矩形の配置状態を表す特徴の量子化処理、および量子化された矩形の配置状態を表す特徴からシンボルを生成する処理である。
まず、矩形の配置状態を表す特徴の量子化処理(量子化手段)について説明する。
ほとんどの文字は上下左右に対称ではないから、矩形の配置状態も上下左右に対称ではない。したがって、矩形の配置状態の上下左右を識別できれば、文字画像そのものの上下左右を識別できることになる。しかし、1文字を構成する、黒ランの外接矩形は多くなく、1文字で1矩形になることも多い。その場合には矩形の配置状態に上下左右の差はないので、文字方向を識別することができない。そこで、本実施の形態においては、複数の文字、つまり一行全体の矩形の配置状態を、文字方向識別特徴として利用する。一行に含まれる文字のすべてが1文字1矩形であることは、通常文では稀れであるから、ほとんどの行は文字方向毎に矩形の配置状態は傾向が異なるはずである。行単位の上下左右を判定するにあたって、再度、矩形の配置状態に注目する。句読点、ピリオド、アポストロフィーなどの記号類や、英文における大文字/小文字の差の存在により、1文字内の矩形配置状態だけでなく、行内における矩形の存在も、上下左右に特徴がある。
ここで、図5−1および図5−2は行内矩形の配置例を示す説明図である。欧米系文字行は、図5−1に示すように、大文字と小文字とが混在していることに加え、アポストロフィー、アクサンテギュ、ウムラウトなど、記号類の有無が存在するので、行内矩形の始点の高さは、図5−1のaの位置とbの位置との2カ所に集中することは明らかである。つまり、矩形の配置位置は上下に対称ではない。一方、アジア系文字行は、図5−2に示すように、漢字、ひらがな、カタカナ、ハングルなど、文字の構造が複雑であり、行内矩形の始点の高さは、欧米系文字行で見られるような、2カ所への明確な集中はない。しかし、矩形の配置位置が上下左右、対称ではないことは、欧米系行と同じである。
図5−1の欧文文字の行内矩形と、図5−2のアジア系文字の行内矩形とを比較してみると、行内矩形の並び方は、言語の種類に関わらず、その文字行の内容に応じて変化していることがわかる。そこで、文字の外接矩形を抽出することで、文字の大まかな特徴を捉えることができる。すなわち、文字そのものを特定しなくても、例えば図6に示すように、矩形座標の始点(Xs,Ys)と終点(Xe,Ye)を求め、これを利用した文字画像の外接矩形の配置状態を表す特徴を取得するだけで文字行の画像特徴を捉えることができる。
行内における一つの矩形は、行内矩形の始点の高さ、矩形サイズ(幅、高さ)行内矩形中の黒画素密度を計測することによって唯一に定義される。これらの計測結果を用いて、行内矩形の配置状態を定義する。行内矩形は、行切り出し処理の過程で既に求められているので、文字行を特定するために、追加の特徴抽出処理を行う必要がないので都合が良い。
以下、行内矩形の始点の高さを基準にして行内矩形の配置状態を定義する一例を示す。図7は、行内矩形の配置状態を示す特徴を量子化する方法を示す説明図である。原稿を特定していない状況下では、行高さは可変であり、処理が行高さの値に依存しないように、行内矩形の高さを次式で正規化する。
YsRate=ys/H ・・・(1)
(ただし、ysは行内矩形始点の高さ、Hは行高さを示す。)
ここで、0<YsRate≦1であるから、YsRateを固定段階に量子化することは容易である。例えば、N段階に量子化するなら、
YsVal=INT(YsRate*(N−1)) ・・・(2)
(ただし、INT():小数点以下切捨て)
とすればよい。各段階は、0〜(N−1)とラベル付けされる。矩形幅wおよび矩形高さhも同様な手順で量子化される。
ところで、記憶容量節約および演算量低減のためなどの理由で、画像処理においては原画像そのものではなく圧縮画像を処理対象にする場合が多い。圧縮画像は、画素数が減るために文字画像の細部に関する情報は失われる。本発明は、図7に示すように、文字画像の外接矩形に注目するものであり、画像そのものの詳細な特徴に基づくものではない。したがって、原画像だけでなく、圧縮画像に対しても有効に機能しうる。
なお、原稿をスキャンする際に原稿が傾いてしまうと、図8に示すように文字行も傾いてしまう。極端な傾きの場合には、行切り出し処理が失敗してしまうが、少々の傾きであれば、行間の空白部を利用して、行を切り出すことができる。しかし、行内矩形の始点の高さに注目する場合、行のわずかな傾きでも、結果に大きく影響する。図8において、行内矩形の終点から始点までの距離は、行高さに対して万遍なく分布することになり、欧米系文字行の特徴である、頻度の明確な2ヶ所への集中が観測できない。そこで、傾きを補正するために、図8における破線dのようなベースラインを求め、そこから行内矩形の始点までの高さを求めることにする。ベースラインdを求めるには、行内矩形の終点を結ぶような直線を求めればよい。具体的には、行内矩形の終点座標の分布の回帰直線を求めればよい。回帰直線の求め方に関しては周知であるため、ここでは説明しないが、例えば、「工科系のための統計概論」(培風館)I・ガットマン、S・S・ウィルクス共著などに詳しい。
以上の処理により、行内矩形の始点の高さは量子化できる。
同様に、文字行画像の特徴として行内矩形の高さを用いる場合は、図7において、次のとおりである。
HeightRate=h/H ・・・(3)
HeightVal
=INT(HeightRate*(N−1))+0.5 ・・・(4)
(ただし、INT():小数点以下切捨て)
各段階は、0〜(N−1)とラベル付けされる。
また、文字行画像の特徴として行内矩形の幅を用いる場合は、次のとおりである。
WidthRate=w/H ・・・(5)
WidthVal
=INT(WidthRate*(N−1))+0.5 ・・・(6)
(ただし、INT():小数点以下切捨て)
各段階は、0〜(N−1)とラベル付けされる。
次に、量子化された矩形の配置状態を表す特徴からシンボルを生成する処理(シンボル系列作成手段)を説明する。ここでは、一つの行内矩形に関する、複数種類の測定結果を一つにまとめてシンボル化することによって、一つの行内矩形を一つのシンボルに対応させることが可能になる。例えば、矩形の始点の高さ、矩形高さ、矩形幅の3種の情報をまとめる。仮に、前述の処理で、矩形の始点の高さ(ys/H)を15段階、矩形高さ(h/H)を8段階、矩形幅(w/H)を2段階に量子化するとする。この結果、図9に示すように、各情報は、矩形の始点の高さ(ys/H)は15段階であるから4bits、矩形高さ(h/H)は8段階であるから3bits、矩形幅(w/H)は2段階であるから1bitで表現することができる。また、
4bits+3bits+1bit=8bits
であるから、1byteの各ビットに全情報を格納することができる。そして、これらの3種の情報を一つにまとめたシンボルの種類は、
15段階×8段階×2段階=240種
となる。
ところで、矩形の配置状態を表す複数の特徴を多次元ベクトルの各次元とみなせば、矩形は、その各特徴を用いて一つのベクトルデータに変換(ベクトル量子化)できる。ベクトル量子化とは、周知のように、ベクトルデータの多数のバラエティから、それらを代表する少数のベクトルデータを求めることである。求められた代表ベクトルに順にラベル付けすれば、ベクトルデータの系列を単なる一次元のシンボルデータの系列に変換することができる。ベクトル量子化に関しては、「ベクトル量子化と情報圧縮」(コロナ社)Allen Gersho,Robert M.Gray著、田崎三郎ほか訳、に詳しい。
このように、シンボル系列に変換することができれば、先に述べたように、その並び傾向を学習できる。例えば、訓練データから矩形の配置に関する3次元のベクトルデータを求め、それらから240種の代表ベクトルを求める。この代表ベクトル群をコードブックと呼ぶ。つまり、コードブック中の240種のベクトルを区別するIDが、シンボルである。識別対象の文字行データにおける行内矩形の配置を3次元ベクトルに変換し、コードブロック内のベクトルと最も類似するベクトルを選び、そのIDを当該矩形のシンボルとする。
以上の作業を経ることによって、行に含まれる矩形は、固定個のシンボル(ラベル)に変換することができる。したがって、実際の行内矩形の配置は、図10に示すような単なるシンボル系列とみなすことができる。これで、シンボル系列の並び傾向を記録することができ、行内矩形の並び傾向を記録することと等価となる。シンボル系列に変換された後には、テキスト検索と同様に、一般的な検索手法によって検索することが可能になる。つまり、シンボル系列間の完全一致を求めればよい。ただし、文字行画像の読み取り誤差によって、文字矩形の特徴の計測結果は異なるので、文字行画像が同一であっても、そのシンボル変換結果が同一にならない場合もある。よって、シンボル列の完全一致を求めるのみでは、同一文字行画像を検索できないおそれがある。
そこで、本発明の文字方向識別装置100では、シンボル列の完全一致ではなく、シンボルの並び傾向の類似度を求める。具体的には、変換されたシンボルに対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したtrigram表を適用し、当該シンボル系列の出現確率を言語別に算出し、集計する。以下、詳述する。
並びの傾向を記録する手段としては、n−gramモデルがある。n−gramモデルは、クロード・エルウッドシャノンによって提案された言語モデルである。系列中のシンボルの出現が、直前のn個(nは自然数)のシンボルに影響されるとする。現在の状態がn個前の入力に依存して決まる確率プロセスをn重マルコフ過程と呼び、n−gramモデルは(n−1)重マルコフモデルとも呼ばれる。特に、n=3の場合をtrigramと呼び、広く使用されている。
具体的には、次の式(7)で示されるモデルである。さらに、式(8)にしたがって、訓練用のシンボル系列データからシンボルの3つ組みの出現頻度を計数し、条件付き確率を求めることが、シンボルの並びの傾向を記録することに相当する。
Figure 0004607633
ここで、表1は訓練用データについて求めたtrigram確率表の例を示すものである。
Figure 0004607633
表1において、trigramモデル[s013,s045,s032]では、s013,s045の後ろにs032が出現する確率は1回中1回(1.00000(1/1))であり、trigramモデル[s013,s064,s033]では、s013,s064の後ろにs033が出現する確率は4回中3回(0.75000(3/4))、以下、当該2つのシンボルの後ろに所定のシンボルが出現する確率を算出する。そして、試験行の評価値である出現確率の演算が高速で行えるように、確率値の対数をマイナス1000(-1000)倍して整数にする。これによって整数の和算のみで確率値が算出できる。このtrigramモデルを縦書き、横書きをそれぞれ0度、90度、180度、270度回転した各訓練用データについて作成し、trigram表として、不揮発性メモリ(NVRAM)5に記憶する。
なお、行切り出し処理は、水平方向および垂直方向に2方向を仮定して、各々実行される。すなわち行切り出し処理において切り出される行は、水平行あるいは垂直行のいずれかであり、一つの行が、同時に水平行であり垂直行であることはない。したがって、本実施の形態においては、予め学習しておく行内矩形の並び傾向(trigram表)は、水平行と垂直行との2種類を用意しておき、回転角度を試験する行の切り出し方向に応じて、trigram表を切り替えて処理することになる。
このように、学習データとして、原稿を正立方向のみにそろえて、訓練用シンボル系列データを用意すれば、原稿が正立している場合における文字方向に固有な行内矩形の並び傾向を学習できる。ここに、訓練行学習手段が実現されている。
そして、識別したい文字行の行内矩形の配置情報を学習時と同じ要領でシンボル系列に変換した後、学習済みのtrigram表を用いて、そのシンボル系列の出現確率を算出する(評価値算出手段)。
上述したような処理を終了すると、識別したい文字行の行内矩形の座標を90度回転させた後(回転変換手段)、同様に、行内矩形の配置情報を学習時と同じ要領でシンボル系列に変換した後、学習済みのtrigram表を用いて、そのシンボル系列の出現確率を算出する(評価値算出手段)。
このように回転角度が90度きざみになっていることに注目すると、回転処理は90度を、所定回数だけ繰り返すことによって実現可能である。回転角度毎に出現確率を演算する必要があるので、現在の回転角度の場合の出現確率の演算が終了したら、現在の行内矩形をさらに90度回転変換すれば、90度回転用の処理を用意するだけで、180度回転、270度回転処理も実現でき、無駄がない。
座標の回転演算には三角関数を用いる。回転前の座標を(x,y)、回転角をθ、回転後の座標を(rx,ry)とした場合、原点(0,0)を中心に回転する式は以下のように定義される。
rx=cosθ*x+sinθ*y
ry=−sinθ*x+cosθ*y
なお、一般的に、原稿は読み取りガイドに原稿の用紙を接触させて置くことが多く、回転角度の可能性としては0度、90度、180度、270度の4種で、実用上は十分である。上記の4種に限定した場合、行内矩形座標の回転変換を行うには三角関数演算は不要になり(0度、90度、180度、270度の場合、sinθおよびcosθは固定値)、計算速度の向上および計算資源の節約が実現できる。
また、回転変換について全方向を仮定する必要がない場合には、回転変換の可能性を限定することにより、検知精度を向上させることができることは明らかである。例えば、原稿の上下反転だけのみ検知するなら、0度と180度だけを試すだけでよい。
図7に示すように、行内矩形をシンボルに変換する処理は、行内における相対的な位置関係に基づくものであり、絶対座標に依存しない。
その後、識別したい文字行の行内矩形の座標を180度回転させた場合(回転変換手段)、および、270度回転させた場合(回転変換手段)にも、一連の同じ処理を経て、行内矩形座標を回転させた後の各出現確率を算出する(評価値算出手段)。
図11は、図2におけるステップS4の処理の流れを示すフローチャートである。まず、ステップS41では、行高さを集計する。行内矩形の高さの最大高さを求め、実際の行高さと比較する。
行内矩形の高さの最大高さ×A(例えば1.2)倍>実際の行高さ
なら、行内矩形の高さの最大高さを行高さとみなす。そうでないなら、実際の行高さ(=行切り出し結果)を行高さとする。スキュー行や、行内矩形が小さなものばかりで構成されている場合への対策である。
続くステップS42においては、行内矩形の終点Ye(水平行の場合)、あるいはXs(垂直行の場合)の回帰直線を求める。その際、終点Ye、あるいはXs位置は行の半分以下のものに限定する。求められた直線は行のベースラインとする。
続くステップS43においては、行内矩形の始点Ys(水平行の場合)、あるいはXs(垂直行の場合)に基づいて、行内矩形を整列する。
そして、図7に基づいて行内矩形の配置情報を量子化してシンボルに変換し(ステップS44)、注目行の出現確率を学習済みのtrigram表を用いて文字方向別に算出する(ステップS45)。
ステップS46においては、考慮する回転角度の可能性が残っているか否かを判断し、考慮する回転角度の可能性が残っている場合には(ステップS46のY)、回転すべき角度を設定し(最初の回転角度は0度)、行内矩形座標を回転し(ステップS47)、ステップS41に戻る。考慮する回転角度の可能性を全て処理し終えた場合には(ステップS46のN)、ステップS4の処理を終了する。なお、変換可能性は、メモリ等にデフォルト設定を記憶しておき、必要ならば操作者が作業前にキーボード等により指定することができる。
そして、ステップS4における1行毎の言語判定結果を原稿全体で集計し(ステップS5)、原稿全体の集計結果に基づいて、当該原稿の文字方向を決定する(ステップS6:文字方向判定手段)。一般的には、文書における文字方向は原稿毎あるいは領域毎に一種である場合が多く、ある範囲において文字方向が混在して使われることは稀れである。よって、1行毎の識別結果を1枚の原稿全体あるいは、領域識別の一領域にわたって集計すれば、当該原稿もしくは当該領域が属する文字方向を決定することができる。集計結果を判断する基準は、たとえば多数決などが考えられる。なお、多数決により決定する場合、差が設定値以上(僅差なら不明と判断)、長い行の多い方を考慮(短い行は考慮しない)、最頻値の行高さを持つ行のみで多数決(本文行のみを決定対象とする)、などにより決定しても良い。
図12は、文字方向識別処理の流れを示す説明図である。図12の矢印に従って説明すると、行内矩形座標の回転すべき角度を設定した後(最初の回転角度は0度)、識別対象の原稿画像を行切り出し、図7を用いて行内矩形の配置情報をシンボルに変換し、一行内の行内矩形をシンボル系列に変換する。該シンボル系列に対し、予め訓練用の行内矩形シンボルデータで学習したtrigram表を適用し、各行の生起確率演算を行い、該シンボル系列の出現確率を算出する。以上の処理を回転角度の可能性だけ繰り返す。これにより、回転角度別に出現確率が算出される。そして、1行毎の言語判定結果を原稿全体で集計し、垂直方向0度の行数10、垂直方向90度の行数5、・・・、水平方向0度の行数68、・・・、水平方向270度の行数2のように集計する。そして、単純多数決により、本原稿は、最も高い出現確率を示した回転角度である当該行の属する文字方向、横書原稿0度であると判断する。
このように本実施の形態によれば、文書画像の文字行における行内矩形の配置情報を表す特徴(例えば、始点の高さ、矩形サイズ(高さ、幅)、黒画素密度)を量子化し、シンボルに変換した後、それらの並びの傾向を、文書画像が正立方向である場合の訓練行における行内矩形の配置情報を表す特徴から学習して記録する。そして、文字方向識別対象行である試験行の行内矩形に対して、回転変換処理を順次実施した結果に対して、先の学習した正立方向の学習傾向を適用することによって、当該行の文字方向別の出現しやすさを評価し、文字方向を判定する。これにより、文字方向識別対象行の文字方向を行内矩形の配置情報によって分類するので、特に新たに行の特徴を抽出する処理を行わずに行切り出し処理の過程で得られる特徴を利用することにより、計算負荷、記憶容量の増大を招くことなく、高速に文字方向識別処理を実現できる。
なお、スキャナとしてハンドスキャナなどを使用する場合、主走査方向を本来とは逆にすると、図13に示すように、読み込み画像は鏡像になる。この場合を自動的に検出し、正立画像に復元することができれば、使用感を著しく改善することができる。鏡像変換されていることを検出するには、回転変換処理の部分を鏡像変換処理に置換すればよい。鏡像変換する前と後の行内矩形データ系列の、各々の出現確率を、正立画像から学習済みのtrigram表を用いて算出し、鏡像変換前と後とのどちらが出現確率が高いかを判断の基準にする。平面図形の鏡像変換は、その座標のアフィン変換によって容易に実現できる。なお、回転変換処理もアフィン変換によって実現可能であるし、鏡像変換と回転変換とを組み合わせた変換も同様であることは言うまでもない。このような鏡像変換は、フラッドベットスキャナのような、主走査方向とデータ格納順序とが固定である装置に関しては考慮する必要がない。
[第2の実施の形態]
次に、本発明の第2の実施の形態を図14および図15に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。文字行内における空白の存在情報も、当該行を特徴づける。特に、単語間に空白を挿入する習慣があるラテン系文字行では重要な特徴である。行内における空白の存在は、行内矩形の隣接矩形との距離を行高さと比較することによって検出可能である。また、句読点やピリオドなどは、その右側に空白が挿入される場合が多いので、文字間に空白が存在するか否かも、文字方向識別の特徴となる。そこで、本実施の形態においては、文書画像の文字行における行内矩形の配置情報を表す特徴として隣接矩形との距離も含めるようにしたものである。
図14は、隣接矩形間距離を量子化する方法を示す説明図である。図14において、行高さHの文字行内に存在する行内矩形1は始点(X1s,Y1s)、終点(X1e,Y1e)により規定される矩形であり、行内矩形2は始点(X2s,Y2s)、終点(X2e,Y2e)により規定される矩形である。矩形1と矩形2とは、距離dだけ離れている。つまり、矩形1と矩形2とは正値の距離dを有する。よって、
RightDistanceRate=d/H ・・・(8)
RightDistanceVal=
INT(RightDistanceRate*(N−1))+0.5 ・・・(9)
(ただし、INT():小数点以下切捨て)
となり、距離dの空白部を0〜(N−1)段階にラベル付け(ID付与)することができる。
図15は、行内矩形の配置情報を表す特徴及び矩形間距離からシンボルを生成した例を示す説明図である。図15において、行高さに対する矩形間距離の割合(a/H,b/H,c/H)に、しきい値を設ける。そして、それら行高さに対する矩形間距離の割合としきい値とを比較して、しきい値より行高さに対する矩形間距離の割合が大きい値を示した場合に空白ありと判定する。空白ありと判定された場合には、空白を意味するシンボル(例えば、sSPC)を挿入する。第1の実施の形態の例であれば、矩形の配置情報に対応するシンボルが240種類であることに対し、記憶領域サイズは1byteなので16種類(=256−240)の特別シンボルを、さらに設定することができる。空白用のシンボルsSPCは、この16種類のいずれかに対応させる。
このように本実施の形態によれば、文書画像の文字行における行内矩形の配置情報を表す特徴(例えば、始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離)を量子化し、シンボルに変換した後、それらの並びの傾向を、文書画像が正立方向である場合の訓練行における行内矩形の配置情報を表す特徴から学習して記録する。そして、文字方向識別対象行である試験行の行内矩形に対して、回転変換処理を順次実施した結果に対して、先の学習した正立方向の学習傾向を適用することによって、当該行の文字方向別の出現しやすさを評価し、文字方向を判定する。これにより、文字方向識別対象行の文字方向を行内矩形の配置情報によって分類するので、特に新たに行の特徴を抽出する処理を行わずに行切り出し処理の過程で得られる特徴を利用することにより、計算負荷、記憶容量の増大を招くことなく、高速に文字方向識別処理を実現できる。
なお、各実施の形態の文字方向識別装置100においては、通信装置9を備えているので、通信装置9を介してインターネットやLAN等のネットワークと接続することができる。例えば、図16に示すように、複数の文字方向識別装置100をネットワークNと接続することで、機能の一部をネットワークN上に持つような形態で実施しても良い。
また、各実施の形態においては、文字方向識別装置100としてPCなどのコンピュータを適用したがこれに限るものではない。例えば、図17に示すように、画像読取手段であるスキャナ部201及び画像印刷装置であるプリンタ部202を備えた画像形成装置であるデジタル複合機200に備えられる情報処理装置に文字方向識別装置100を適用し、デジタル複合機200のスキャナ部201で読み取ったスキャン画像(文書画像)に対して文字方向識別処理を施し、スキャン画像を正立する向きに回転(文書画像回転手段)させるようにしても良い。スキャン画像を正立する向きに回転する技術(文書画像回転手段)については、周知であるので、説明は省略する。これにより、文字方向識別結果に応じて、使用者が所望する文字方向(正立方向)にスキャン画像(文書画像)を自動回転することができる。よって、使用者は、目視によって確認した後に原稿を回転させる必要がなく、使用感を著しく改善することができる。
本発明の第1の実施の形態にかかる文字方向識別装置のハードウェア構成を示すブロック図である。 文字方向識別処理の流れを示すフローチャートである。 スキャナから入力された文字方向識別用文書の原稿画像の一例を示す説明図である。 原稿画像から求められる黒画素の外接矩形の一例を模式的に示す説明図である。 行切り出し処理を模式的に示す説明図である。 水平行切り出しを行った場合の文字方向の配置の可能性を示す説明図である。 垂直行切り出しを行った場合の文字方向の配置の可能性を示す説明図である。 欧米系文字行の行内矩形の配置例を示す説明図である。 アジア系文字行の行内矩形の配置例を示す説明図である。 矩形に対する座標の設定例を示す説明図である。 行内矩形の配置状態を示す特徴を量子化する方法を示す説明図である。 矩形の終点座標を利用してベースラインを求める例を示す説明図である。 行内矩形の配置情報のデータ構造を示す模式図である。 行内矩形の配置情報を表す特徴からシンボルを生成した例を示す説明図である。 図2におけるステップS4の処理の流れを示すフローチャートである。 文字方向識別処理の流れを示す説明図である。 鏡像の一例を示す説明図である。 本発明の第2の実施の形態にかかる隣接矩形間距離を量子化する方法を示す説明図である。 行内矩形の配置情報を表す特徴及び矩形間距離からシンボルを生成した例を示す説明図である。 文字方向識別装置を用いたネットワーク構成の一例を示すシステム構成図である。 デジタル複合機を示す外観斜視図である。
符号の説明
3 記憶媒体
100 文字方向識別装置
200 画像形成装置
201 画像読取手段

Claims (23)

  1. 文書画像から文字行を切り出す文字行切出し手段と、
    前記文字行切出し手段により切り出された前記文書画像の文字行における行内矩形の配置情報を表す特徴を量子化する量子化手段と、
    前記量子化手段により量子化された前記行内矩形の配置情報を表す特徴に識別情報を付与して行内矩形の識別情報の系列を作成する系列作成手段と、
    前記量子化手段及び前記系列作成手段により前記文書画像訓練行における前記行内矩形の配置情報を表す特徴を識別情報の系列に変換し、前記行内矩形の並び傾向を学習する訓練行学習手段と、
    文字方向識別対象行である試験行の行内矩形に対して所定の角度で順次回転変換処理を実施する回転変換手段と、
    前記回転変換手段により順次回転変換処理された試験行における前記行内矩形の配置情報を表す特徴を、前記量子化手段及び前記系列作成手段により識別情報の系列に変換し、前記訓練行学習手段による訓練行の学習結果を用いて、試験行の生起確率演算を行い識別情報の系列の出現確率を算出する評価値算出手段と、
    前記評価値算出手段により算出された出現確率に基づいて、最も高い出現確率を示した回転角度である試験行の属する文字方向を、文書画像の文字方向として判定する文字方向判定手段と、
    を備えることを特徴とする文字方向識別装置。
  2. 前記訓練行学習手段は、訓練行における前記行内矩形の配置情報を、水平行および垂直行別に識別情報の系列に変換し、前記行内矩形の並び傾向を学習する、
    ことを特徴とする請求項1記載の文字方向識別装置。
  3. 前記回転変換手段における試験行の回転角度が、0度、90度、180度、270度であり、
    前記回転変換手段における試験行の回転処理機能としては90度だけを備え、180度、270度は、90度回転の繰り返しによって実現する、
    ことを特徴とする請求項1記載の文字方向識別装置。
  4. 前記系列作成手段は、量子化された前記行内矩形の配置情報を表す特徴として、隣接矩形との距離も含める、
    ことを特徴とする請求項1記載の文字方向識別装置。
  5. 前記量子化手段及び前記系列作成手段は、試験行の圧縮画像に対して処理を実施する、
    ことを特徴とする請求項1記載の文字方向識別装置。
  6. 前記回転変換手段には、試験行の矩形座標の鏡像変換を含む、
    ことを特徴とする請求項1記載の文字方向識別装置。
  7. 前記回転変換手段は、回転変換について全方向を仮定する必要がない場合には、回転変換の可能性を限定する、
    ことを特徴とする請求項1記載の文字方向識別装置。
  8. 画像を用紙上に印刷する画像形成装置において、
    文書原稿を読み取る画像読取手段と、
    前記画像読取手段により読み取られた文書画像から文字行を切り出す文字行切出し手段と、
    前記文字行切出し手段により切り出された前記文書画像の文字行における行内矩形の配置情報を表す特徴を量子化する量子化手段と、
    前記量子化手段により量子化された前記行内矩形の配置情報を表す特徴に識別情報を付与して行内矩形の識別情報の系列を作成する系列作成手段と、
    前記量子化手段及び前記系列作成手段により前記文書画像訓練行における前記行内矩形の配置情報を表す特徴を識別情報の系列に変換し、前記行内矩形の並び傾向を学習する訓練行学習手段と、
    文字方向識別対象行である試験行の行内矩形に対して所定の角度で順次回転変換処理を実施する回転変換手段と、
    前記回転変換手段により順次回転変換処理された試験行における前記行内矩形の配置情報を表す特徴を、前記量子化手段及び前記系列作成手段により識別情報の系列に変換し、前記訓練行学習手段による訓練行の学習結果を用いて、試験行の生起確率演算を行い識別情報の系列の出現確率を算出する評価値算出手段と、
    前記評価値算出手段により算出された出現確率に基づいて、最も高い出現確率を示した回転角度である試験行の属する文字方向を、文書画像の文字方向として判定する文字方向判定手段と、
    前記文字方向判定手段により判定された文書画像の文字方向に基づいて、前記画像読取手段により読み取られた文書画像を正立する向きに回転させる文書画像回転手段と、
    を備えることを特徴とする画像形成装置。
  9. 文書画像から文字行を切り出す文字行切出し機能と、
    前記文字行切出し機能により切り出された前記文書画像の文字行における行内矩形の配置情報を表す特徴を量子化する量子化機能と、
    前記量子化機能により量子化された前記行内矩形の配置情報を表す特徴に識別情報を付与して行内矩形の識別情報の系列を作成する系列作成機能と、
    前記量子化機能及び前記系列作成機能により前記文書画像訓練行における前記行内矩形の配置情報を表す特徴を識別情報の系列に変換し、前記行内矩形の並び傾向を学習する訓練行学習機能と、
    文字方向識別対象行である試験行の行内矩形に対して所定の角度で順次回転変換処理を実施する回転変換機能と、
    前記回転変換機能により順次回転変換処理された試験行における前記行内矩形の配置情報を表す特徴を、前記量子化機能及び前記系列作成機能により識別情報の系列に変換し、前記訓練行学習機能による訓練行の学習結果を用いて、試験行の生起確率演算を行い識別情報の系列の出現確率を算出する評価値算出機能と、
    前記評価値算出機能により算出された出現確率に基づいて、最も高い出現確率を示した回転角度である試験行の属する文字方向を、文書画像の文字方向として判定する文字方向判定機能と、
    をコンピュータに実行させることを特徴とするプログラム。
  10. 前記訓練行学習機能は、訓練行における前記行内矩形の配置情報を、水平行および垂直行別に識別情報の系列に変換し、前記行内矩形の並び傾向を学習する、
    ことを特徴とする請求項9記載のプログラム。
  11. 前記回転変換機能における試験行の回転角度が、0度、90度、180度、270度であり、
    前記回転変換機能における試験行の回転処理機能としては90度だけを備え、180度、270度は、90度回転の繰り返しによって実現する、
    ことを特徴とする請求項9記載のプログラム。
  12. 前記系列作成機能は、量子化された前記行内矩形の配置情報を表す特徴として、隣接矩形との距離も含める、
    ことを特徴とする請求項9記載のプログラム。
  13. 前記量子化機能及び前記系列作成機能は、試験行の圧縮画像に対して処理を実施する、
    ことを特徴とする請求項9記載のプログラム。
  14. 前記回転変換機能には、試験行の矩形座標の鏡像変換を含む、
    ことを特徴とする請求項9記載のプログラム。
  15. 前記回転変換機能は、回転変換について全方向を仮定する必要がない場合には、回転変換の可能性を限定する、
    ことを特徴とする請求項9記載のプログラム。
  16. 請求項9ないし15のいずれか一記載のプログラムを記憶することを特徴とする記憶媒体。
  17. 文字方向識別装置で実行される文字方向識別方法であって、
    前記文字方向識別装置は、制御部と記憶部を備え、
    前記制御部において実行される、
    文字行切出し手段が、文書画像から文字行を切り出す文字行切出し工程と、
    量子化手段が、前記文字行切出し工程により切り出された前記文書画像の文字行における行内矩形の配置情報を表す特徴を量子化する量子化工程と、
    系列作成手段が、前記量子化工程により量子化された前記行内矩形の配置情報を表す特徴に識別情報を付与して行内矩形の識別情報の系列を作成する系列作成工程と、
    訓練行学習手段が、前記量子化工程及び前記系列作成工程により前記文書画像訓練行における前記行内矩形の配置情報を表す特徴を識別情報の系列に変換し、前記行内矩形の並び傾向を学習する訓練行学習工程と、
    回転変換手段が、文字方向識別対象行である試験行の行内矩形に対して所定の角度で順次回転変換処理を実施する回転変換工程と、
    評価値算出手段が、前記回転変換工程により順次回転変換処理された試験行における前記行内矩形の配置情報を表す特徴を、前記量子化工程及び前記系列作成工程により識別情報の系列に変換し、前記訓練行学習工程による訓練行の学習結果を用いて、試験行の生起確率演算を行い識別情報の系列の出現確率を算出する評価値算出工程と、
    文字方向判定手段が、前記評価値算出工程により算出された試験行の出現確率に基づいて、最も高い出現確率を示した回転角度である試験行の属する文字方向を、文書画像の文字方向として判定する文字方向判定工程と、
    を含むことを特徴とする文字方向識別方法。
  18. 前記訓練行学習工程は、訓練行における前記行内矩形の配置情報を、水平行および垂直行別に識別情報の系列に変換し、前記行内矩形の並び傾向を学習する、
    ことを特徴とする請求項17記載の文字方向識別方法。
  19. 前記回転変換工程における試験行の回転角度が、0度、90度、180度、270度であり、
    前記回転変換工程における試験行の回転処理機能としては90度だけを備え、180度、270度は、90度回転の繰り返しによって実現する、
    ことを特徴とする請求項17記載の文字方向識別方法。
  20. 前記系列作成工程は、量子化された前記行内矩形の配置情報を表す特徴として、隣接矩形との距離も含める、
    ことを特徴とする請求項17記載の文字方向識別方法。
  21. 前記量子化工程及び前記系列作成工程は、試験行の圧縮画像に対して処理を実施する、
    ことを特徴とする請求項17記載の文字方向識別方法。
  22. 前記回転変換工程には、試験行の矩形座標の鏡像変換を含む、
    ことを特徴とする請求項17記載の文字方向識別方法。
  23. 前記回転変換工程は、回転変換について全方向を仮定する必要がない場合には、回転変換の可能性を限定する、
    ことを特徴とする請求項17記載の文字方向識別方法。
JP2005077879A 2005-03-17 2005-03-17 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 Expired - Fee Related JP4607633B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2005077879A JP4607633B2 (ja) 2005-03-17 2005-03-17 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
EP06251145A EP1703444B1 (en) 2005-03-17 2006-03-02 Detecting an orientation of characters in a document image
US11/375,130 US7567730B2 (en) 2005-03-17 2006-03-15 Detecting an orientation of characters in a document image
CN200610067618A CN100576233C (zh) 2005-03-17 2006-03-17 检测文档图像中的字符的方向

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005077879A JP4607633B2 (ja) 2005-03-17 2005-03-17 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法

Publications (2)

Publication Number Publication Date
JP2006260274A JP2006260274A (ja) 2006-09-28
JP4607633B2 true JP4607633B2 (ja) 2011-01-05

Family

ID=36581976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005077879A Expired - Fee Related JP4607633B2 (ja) 2005-03-17 2005-03-17 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法

Country Status (4)

Country Link
US (1) US7567730B2 (ja)
EP (1) EP1703444B1 (ja)
JP (1) JP4607633B2 (ja)
CN (1) CN100576233C (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170107039A (ko) * 2015-01-23 2017-09-22 이베이 인크. 이미지로 묘사된 아이템 인식
US11120478B2 (en) 2015-01-12 2021-09-14 Ebay Inc. Joint-based item recognition

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10192279B1 (en) * 2007-07-11 2019-01-29 Ricoh Co., Ltd. Indexed document modification sharing with mixed media reality
US7516130B2 (en) * 2005-05-09 2009-04-07 Trend Micro, Inc. Matching engine with signature generation
JP4869841B2 (ja) 2006-03-14 2012-02-08 株式会社リコー 画像処理装置、画像方向判別方法、および画像方向判別プログラム
US20080225340A1 (en) * 2007-03-14 2008-09-18 Ricoh Company, Limited Image processing apparatus, image processing method, and computer program product
US8144989B2 (en) * 2007-06-21 2012-03-27 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
US8208725B2 (en) * 2007-06-21 2012-06-26 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8027539B2 (en) 2008-01-11 2011-09-27 Sharp Laboratories Of America, Inc. Method and apparatus for determining an orientation of a document including Korean characters
US8023741B2 (en) * 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for detecting numerals in a digital image
US8023770B2 (en) * 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for identifying the orientation of a digital image
US8160365B2 (en) * 2008-06-30 2012-04-17 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8537409B2 (en) * 2008-10-13 2013-09-17 Xerox Corporation Image summarization by a learning approach
JP5299225B2 (ja) 2009-01-20 2013-09-25 株式会社リコー 情報処理装置、情報処理方法、及びプログラム
KR101035739B1 (ko) * 2009-02-13 2011-05-20 전남대학교산학협력단 문자 인식의 왜곡을 보정하는 방법
US20110052094A1 (en) * 2009-08-28 2011-03-03 Chunyu Gao Skew Correction for Scanned Japanese/English Document Images
US20110090253A1 (en) * 2009-10-19 2011-04-21 Quest Visual, Inc. Augmented reality language translation system and method
JP5538812B2 (ja) * 2009-10-23 2014-07-02 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
KR101207127B1 (ko) * 2010-03-19 2012-11-30 전남대학교산학협력단 문자 인식 전처리 방법 및 장치
CN102855477B (zh) 2011-06-29 2014-12-17 富士通株式会社 识别图像块中文字的方向的方法和装置
CN102890783B (zh) * 2011-07-20 2015-07-29 富士通株式会社 识别图像块中文字的方向的方法和装置
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
CA2863522C (en) 2012-01-23 2018-08-28 Microsoft Corporation Formula detection engine
EP2828793A4 (en) * 2012-03-23 2015-07-01 Microsoft Technology Licensing Llc ROTATION-FREE DETECTION OF HAND-WRITTEN CHARACTERS
CN103455806B (zh) * 2012-05-31 2017-06-13 富士通株式会社 文档处理装置、文档处理方法以及扫描仪
US9076058B2 (en) 2013-01-29 2015-07-07 Sharp Laboratories Of America, Inc. Methods, systems and apparatus for determining orientation in a document image
US9330070B2 (en) * 2013-03-11 2016-05-03 Microsoft Technology Licensing, Llc Detection and reconstruction of east asian layout features in a fixed format document
JP6116531B2 (ja) * 2014-08-08 2017-04-19 京セラドキュメントソリューションズ株式会社 画像処理装置
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
WO2017013720A1 (ja) * 2015-07-17 2017-01-26 楽天株式会社 基準線設定装置、基準線設定方法及び基準線設定プログラム
CN106485193A (zh) * 2015-09-02 2017-03-08 富士通株式会社 文档图像的方向检测装置及方法
CN105740860B (zh) * 2016-01-28 2018-04-06 河南大学 自然场景中商铺标牌汉字区域自动检测方法
CN107284039B (zh) * 2016-04-01 2023-12-26 常州金品精密技术有限公司 多通道在线自动打标装置及打标方法
CN106407976B (zh) * 2016-08-30 2019-11-05 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
CN106407979B (zh) * 2016-10-25 2019-12-10 深圳怡化电脑股份有限公司 一种票据字符校正的方法及装置
CN110603541B (zh) * 2017-05-05 2023-04-25 北京嘀嘀无限科技发展有限公司 用于图像重定向的***和方法
CN108229470B (zh) * 2017-12-22 2022-04-01 北京市商汤科技开发有限公司 文字图像处理方法、装置、设备及存储介质
JP7234495B2 (ja) 2018-01-25 2023-03-08 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム
CN109670480B (zh) * 2018-12-29 2023-01-24 深圳市丰巢科技有限公司 图像判别方法、装置、设备及存储介质
CN110647882A (zh) * 2019-09-20 2020-01-03 上海眼控科技股份有限公司 图像校正方法、装置、设备及存储介质
CN111241365B (zh) * 2019-12-23 2023-06-30 望海康信(北京)科技股份公司 表格图片解析方法及***
CN114187435A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 文本识别方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05314309A (ja) * 1992-05-13 1993-11-26 Ricoh Co Ltd 文字列方向判別方法
JPH0773274A (ja) * 1993-09-07 1995-03-17 Matsushita Electric Ind Co Ltd 文字認識装置
JPH08293000A (ja) * 1995-04-21 1996-11-05 Canon Inc 画像処理装置及び方法
JPH11338973A (ja) * 1998-05-22 1999-12-10 Fujitsu Ltd 文書画像補正装置および文書画像補正方法
JP2005063419A (ja) * 2003-07-31 2005-03-10 Ricoh Co Ltd 言語識別装置、プログラム及び記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63268081A (ja) * 1987-04-17 1988-11-04 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 文書の文字を認識する方法及び装置
US5031225A (en) * 1987-12-09 1991-07-09 Ricoh Company, Ltd. Character recognition method for recognizing character in an arbitrary rotation position
JPH04195485A (ja) * 1990-11-28 1992-07-15 Hitachi Ltd 画像情報入力装置
JP2530393B2 (ja) 1991-06-28 1996-09-04 三菱電機株式会社 キ―ロックスイッチ
JP3359651B2 (ja) 1992-01-30 2002-12-24 株式会社リコー 画像方向認識・統一方法および画像方向認識・統一装置
JP4170441B2 (ja) * 1997-11-28 2008-10-22 富士通株式会社 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
US6804414B1 (en) * 1998-05-01 2004-10-12 Fujitsu Limited Image status detecting apparatus and document image correcting apparatus
TW457458B (en) * 1998-06-01 2001-10-01 Canon Kk Image processing method, device and storage medium therefor
JP2000067156A (ja) 1998-08-24 2000-03-03 Canon Inc 画像処理装置及び方法
JP2001043310A (ja) * 1999-07-30 2001-02-16 Fujitsu Ltd 文書画像補正装置および補正方法
JP2004272798A (ja) * 2003-03-11 2004-09-30 Pfu Ltd 画像読み取り装置
US7508984B2 (en) * 2003-07-31 2009-03-24 Ricoh Company, Ltd. Language recognition method, system and software
JP4553241B2 (ja) * 2004-07-20 2010-09-29 株式会社リコー 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05314309A (ja) * 1992-05-13 1993-11-26 Ricoh Co Ltd 文字列方向判別方法
JPH0773274A (ja) * 1993-09-07 1995-03-17 Matsushita Electric Ind Co Ltd 文字認識装置
JPH08293000A (ja) * 1995-04-21 1996-11-05 Canon Inc 画像処理装置及び方法
JPH11338973A (ja) * 1998-05-22 1999-12-10 Fujitsu Ltd 文書画像補正装置および文書画像補正方法
JP2005063419A (ja) * 2003-07-31 2005-03-10 Ricoh Co Ltd 言語識別装置、プログラム及び記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120478B2 (en) 2015-01-12 2021-09-14 Ebay Inc. Joint-based item recognition
KR20170107039A (ko) * 2015-01-23 2017-09-22 이베이 인크. 이미지로 묘사된 아이템 인식
KR102032038B1 (ko) * 2015-01-23 2019-10-14 이베이 인크. 이미지로 묘사된 아이템 인식

Also Published As

Publication number Publication date
US7567730B2 (en) 2009-07-28
EP1703444A3 (en) 2009-12-02
CN1834992A (zh) 2006-09-20
EP1703444B1 (en) 2012-05-23
EP1703444A2 (en) 2006-09-20
CN100576233C (zh) 2009-12-30
JP2006260274A (ja) 2006-09-28
US20060210195A1 (en) 2006-09-21

Similar Documents

Publication Publication Date Title
JP4607633B2 (ja) 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US5410611A (en) Method for identifying word bounding boxes in text
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
EP1999688B1 (en) Converting digital images containing text to token-based files for rendering
JP4553241B2 (ja) 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JP4023706B2 (ja) データ処理方法及び装置
US6940617B2 (en) Printing control interface system and method with handwriting discrimination capability
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JPH07152867A (ja) パターン認識方法および装置
JPH06508465A (ja) 文字ビットマップにおける終点特性を測定する手段を用いる文字認識システム及び方法
US8351086B2 (en) Two-dimensional code generating device
JPH11338974A (ja) 文書処理方法及び装置、記憶媒体
EP0433359A1 (en) Image recognition
Shirali-Shahreza et al. Persian/Arabic text font estimation using dots
JP2000076378A (ja) 文字認識方法
JP4697387B2 (ja) 原稿画像判定装置、原稿画像判定方法及びそのプログラム
US20080225340A1 (en) Image processing apparatus, image processing method, and computer program product
JP3320083B2 (ja) 文字認識装置及び方法
JP2867531B2 (ja) 文字サイズ認識装置
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2827227B2 (ja) 文字認識方法
JP2918363B2 (ja) 文字分類方法及び文字認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101007

R150 Certificate of patent or registration of utility model

Ref document number: 4607633

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees