JP2009053826A - 文書処理装置及び文書処理プログラム - Google Patents

文書処理装置及び文書処理プログラム Download PDF

Info

Publication number
JP2009053826A
JP2009053826A JP2007218456A JP2007218456A JP2009053826A JP 2009053826 A JP2009053826 A JP 2009053826A JP 2007218456 A JP2007218456 A JP 2007218456A JP 2007218456 A JP2007218456 A JP 2007218456A JP 2009053826 A JP2009053826 A JP 2009053826A
Authority
JP
Japan
Prior art keywords
character
line segment
curvature
document processing
character image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007218456A
Other languages
English (en)
Inventor
Hironari Konno
裕也 今野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2007218456A priority Critical patent/JP2009053826A/ja
Publication of JP2009053826A publication Critical patent/JP2009053826A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】高解像度の文字画像を使用せずに手書き文字と活字文字の判別を行う文書処理装置及び文書処理プログラムを提供する。
【解決手段】文字画像取得部22が判別対象である文字画像を取得すると、線分抽出部24は、上記取得した文字画像に対して細線化処理を実行し、文字画像から線分を抽出する。この場合、文字画像から端点及び交点を抽出し、この端点及び交点により文字を線分毎に分解して線分を抽出してもよい。曲率変化量演算部26は、線分抽出部24が抽出した線分毎に曲率変化量を演算する。文字判別部28は、曲率変化量演算部26が算出した曲率変化量を集計し、ヒストグラムを生成し、ヒストグラムの低域部分における計測数が予め設定した閾値を超えているか否かを判定する。上記計測数が閾値を超えている場合に、対象となる文字が手書き文字と判別し、閾値を超えていない場合には活字文字と判別する。
【選択図】図2

Description

本発明は、文書処理装置及び文書処理プログラムに関する。
従来から、原稿中の文字列に対して手書き文字・活字文字の判別を行う技術が提案されている。例えば、下記特許文献1では、文字の輪郭線情報に着目し、文字の輪郭線が直線的であるかどうかを見ることにより手書き文字と活字文字との判別を行っている。この技術では、輪郭線情報を鮮明に抽出するために、高い解像度が必要となる。
特開昭58−37776号公報
本発明の目的は、高解像度の文字画像を使用せずに手書き文字と活字文字の判別を行う文書処理装置及び文書処理プログラムを提供することにある。
上記目的を達成するために、請求項1記載の文書処理装置の発明は、文字画像から線分を抽出する線分抽出手段と、前記線分の曲率の変化量を演算する曲率変化量演算手段と、前記曲率の変化量に基づいて手書き文字と活字文字とを判別する文字判別手段と、を備えることを特徴とする。
請求項2記載の発明は、請求項1記載の発明において、前記線分抽出手段が、文字を構成する線分を細線化処理した後に線分抽出を行うことを特徴とする。
請求項3記載の発明は、請求項2記載の発明において、前記線分抽出手段が、文字を構成する線分の端点及び交点を抽出し、これらの点で文字を線分毎に分解して線分を抽出することを特徴とする。
請求項4記載の発明は、請求項1から請求項3のいずれか一項記載の発明において、前記文字判別手段が、前記曲率変化量のヒストグラムから手書き文字と活字文字とを判別することを特徴とする。
請求項5記載の発明は、請求項4記載の発明において、前記文字判別手段が、前記ヒストグラムのピーク形状から手書き文字と活字文字とを判別することを特徴とする。
請求項6記載の文書処理プログラムの発明は、コンピュータを、文字画像から線分を抽出する線分抽出手段、前記線分の曲率の変化量を演算する曲率変化量演算手段、前記曲率の変化量に基づいて手書き文字と活字文字とを判別する文字判別手段、として機能させることを特徴とする。
請求項1の発明によれば、文字の輪郭線情報を使用する場合に比べて、高解像度の文字画像を使用せずに手書き文字と活字文字の判別を行うことができる。
請求項2及び請求項3の発明によれば、本構成を有していない場合に比べて、文字画像から簡単に線分を抽出することができる。
請求項4及び請求項5の発明によれば、本構成を有していない場合に比べて、手書き文字と活字文字とを容易に判別することができる。
請求項6の発明によれば、本構成を有していない場合に比べて、高解像度の文字画像を使用せずに手書き文字と活字文字の判別を行うことができる文書処理プログラムを提供できる。
以下、本発明を実施するための最良の形態(以下、実施形態という)を、図面に従って説明する。
図1には、本発明にかかる文書処理装置の一実施形態のハードウェア構成が示される。図1において、文書処理装置は、中央処理装置(例えばCPUを用いることができる)10、ランダムアクセスメモリ(RAM)12、画像読取装置14、表示装置16、入力装置18及びハードディスク装置(HDD)20を含んで構成されている。また、これらの構成要素は、バス21により互いに接続されている。
CPU10は、RAM12またはハードディスク装置20に格納されている制御プログラムに基づいて、後述する各部の動作を制御する。RAM12は主としてCPU10の作業領域として機能する。
また、画像読取装置14は、スキャナ等により構成され、文字画像を読み取る装置である。
また、表示装置16は、液晶ディスプレイ等により構成され、判定対象の文字画像等を表示する。
また、入力装置18は、キーボード、ポインティングデバイス等により構成され、使用者が動作指示等を入力するために使用する。
また、ハードディスク装置20は、コンピュータが読み取り可能な大容量の記憶装置であり、後述する処理に必要となる種々のデータを記憶することができる。
図2には、本発明にかかる文書処理装置の一実施形態の機能ブロック図が示される。図2において、文書処理装置は、文字画像取得部22、線分抽出部24、曲率変化量演算部26及び文字判別部28を含んで構成されている。
文字画像取得部22は、例えば図1に示される画像読取装置14及びこれをCPU10により制御するためのプログラムにより構成され、判別対象である文字の画像データを取得する。なお、文字画像取得部22は、画像読取装置14の代わりに適宜な通信手段等を介して文字画像の電子データを取得する構成としてもよい。
線分抽出部24は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、文字画像取得部22が取得した文字画像から線分を抽出する。線分の抽出は、文字を構成する線分の幅を狭くする細線化処理を行った後に、文字を構成する線分を追跡することにより行うことができる。また、例えば文字を構成する線分の端点及び交点を抽出し、これらの点で文字を線分毎に分解することにより線分の抽出を行うこともできる。なお、上記細線化処理及び線分抽出方法については後述する。
曲率変化量演算部26は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、線分抽出部24が抽出した線分の曲率の変化量(曲率変化量)を演算する。曲率変化量は、例えば線分を構成する画素間に引いた直線の傾きから求めることができる。曲率変化量の演算方法については後述する。
文字判別部28は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、上記曲率変化量に基づいて手書き文字と活字文字とを判別する。手書き文字と活字文字との判別は、例えば曲率変化量のヒストグラムをとることにより行うことができる。この判別方法については後述する。
図3(a),(b)には、線分抽出部24が行う細線化処理の説明図が示される。図3(a)が細線化処理前の文字画像(大切)であり、図3(b)が細線化処理後の文字画像である。細線処理は、文字を構成する線分の幅方向の画素数を減らし、幅1画素の線画像に変換する処理である。
図4には、線分抽出部24が行う線分抽出方法の一例の説明図が示される。図4では、ひらがなの「あ」を例に説明する。図4において、「あ」を構成する線分上には、白丸(○)で示される端点と、三角(△)で示され、線分同士が交わる交点とが存在する。線分抽出部24は、各線分を上記端点及び交点により分解し、これらに挟まれた線分を抽出する。その際に、例えば端点aと交点αで挟まれた線分、交点αと交点βで挟まれた線分及び交点αと交点γで挟まれた線分のように長さが短い線分は、文字判別部28における判別処理が不正確になる可能性が有るので、判別処理から除外してもよい。また、上記端点のみを使用し、端点に挟まれた線分を判別処理に使用してもよい。なお、線分抽出方法は、図4に示された例に限定されない。文字を構成する線分を追跡できる方法であればいずれも本発明に適用することができる。
図5には、曲率変化量演算部26が行う曲率変化量の演算方法の例が示される。図5では、9つの画素で構成された線分を例に説明する。図5において、曲率変化量演算部26は、隣接する画素毎または数画素飛ばしで画素を結ぶ線を設定し、その線の傾きの変化から曲率変化量を求める。
例えば、隣接する画素毎に線分を設定する場合には、図5に示された1番目の画素と2番目の画素を結ぶ線、2番目の画素と3番目の画素を結ぶ線というように隣り合う画素を結ぶ線を設定し、それらの傾きの変化を線分の曲率変化量として求める。また、数画素飛ばしで画素を結ぶ線を設定する場合には、図5に示された1番目の画素と7番目の画素を結ぶ線、2番目の画素と8番目の画素を結ぶ線というように数画素飛ばした(図5の例では5画素飛ばしている)画素を結ぶ線を設定し、それらの傾きの変化を線分の曲率変化量として求める。なお、飛ばす画素数は限定されない。
図6(a),(b)には、文字判別部28が手書き文字と活字文字との判別処理に使用するヒストグラムの例が示される。図6(a),(b)では、横軸が演算した曲率変化量であり、縦軸が曲率変化量の各値毎の計測数(頻度)である。また、図6(a)が手書き文字のヒストグラムの例であり、図6(b)が活字文字のヒストグラムの例である。
一般に、文字を構成する線分の曲率変化量をヒストグラム化すると、活字文字と比較して手書き文字では曲率変化量の小さな値(低域)の計測数が大きくなる。これは、手書きによる曲率の揺れが曲率変化量の低域に現れるためである。このようなヒストグラムの違いを比較することで、手書き文字と活字文字を判別が可能となる。例えば、図6(a)に示された手書き文字のヒストグラムでは、曲率変化量の低域における計測数が、図6(b)に示された活字文字のヒストグラムより大きくなっている。そこで、適宜な閾値を設定し、曲率変化量の低域における計測数が閾値を超えた場合に手書き文字と判別することができる。
また、手書きで文字を書く場合、純粋な直線や一定の曲率の曲線を描くことは困難であるので、手書き文字には活字文字に比べて線分にぶれすなわち小さな蛇行が多い。このため、手書き文字のヒストグラムでは、図6(a)の丸で囲まれた部分に示されるように、低域にある程度の幅をもったピークが形成される。これに対して、活字文字のヒストグラムでは、幅の少ないピークが現れる。従って、ピーク形状をみることによっても手書き文字と活字文字との判別を行うことができる。
以上述べたことから、文字判別部28は、曲率変化量演算部26が演算した曲率変化量を受け取り、その値毎に計測数を求め、図6(a),(b)に示されるヒストグラムを生成することにより、手書き文字と活字文字との判別を行う。
図7には、本発明にかかる文書処理装置の動作例のフローが示される。図7において、文字画像取得部22が判別対象である文字画像を取得する(S1)。文字画像は、例えば利用者が画像読取装置14にセットし、入力装置18から読み取り指示を入力する等の工程により取得される。
線分抽出部24は、文字画像取得部22が取得した文字画像に対して細線化処理を実行し(S2)、文字画像から線分を抽出する(S3)。ここで、線分抽出部24は、細線化処理後の文字画像から端点及び交点を抽出し、この端点及び交点により文字を線分毎に分解することにより文字画像から線分を抽出してもよい。
曲率変化量演算部26は、線分抽出部24が抽出した線分毎に曲率変化量を演算する(S4)。
文字判別部28は、曲率変化量演算部26が算出した曲率変化量を集計し、ヒストグラムを生成する(S5)。次に、文字判別部28は、図6(a),(b)で説明したヒストグラムの低域部分における計測数が予め設定した閾値を超えているか否かを判定する(S6)。
文字判別部28は、上記計測数が閾値を超えている場合に、対象となる文字が手書き文字と判別し(S7)、閾値を超えていない場合には活字文字と判別する(S8)。
以上、本発明の実施形態をいくつか紹介したが、本発明は上記実施形態に限定されるものではない。
本発明にかかる文書処理装置の一実施形態のハードウェア構成を示す図である。 本発明にかかる文書処理装置の一実施形態の機能ブロック図である。 線分抽出部が行う細線化処理の説明図である。 線分抽出部が行う線分抽出方法の一例の説明図である。 曲率変化量演算部が行う曲率変化量の演算方法の例を示す図である。 文字判別部が手書き文字と活字文字との判別処理に使用するヒストグラムの例を示す図である。 本発明にかかる文書処理装置の動作例のフロー図である。
符号の説明
10 CPU、12 RAM、14 画像読取装置、16 表示装置、18 入力装置、20 ハードディスク装置、21 バス、22 文字画像取得部、24 線分抽出部、26 曲率変化量演算部、28 文字判別部。

Claims (6)

  1. 文字画像から線分を抽出する線分抽出手段と、
    前記線分の曲率の変化量を演算する曲率変化量演算手段と、
    前記曲率の変化量に基づいて手書き文字と活字文字とを判別する文字判別手段と、
    を備えることを特徴とする文書処理装置。
  2. 請求項1記載の文書処理装置において、前記線分抽出手段は、文字を構成する線分を細線化処理した後に線分抽出を行うことを特徴とする文書処理装置。
  3. 請求項2記載の文書処理装置において、前記線分抽出手段は、文字を構成する線分の端点及び交点を抽出し、これらの点で文字を線分毎に分解して線分を抽出することを特徴とする文書処理装置。
  4. 請求項1から請求項3のいずれか一項記載の文書処理装置において、前記文字判別手段は、前記曲率変化量のヒストグラムから手書き文字と活字文字とを判別することを特徴とする文書処理装置。
  5. 請求項4記載の文書処理装置において、前記文字判別手段は、前記ヒストグラムのピーク形状から手書き文字と活字文字とを判別することを特徴とする文書処理装置。
  6. コンピュータを、
    文字画像から線分を抽出する線分抽出手段、
    前記線分の曲率の変化量を演算する曲率変化量演算手段、
    前記曲率の変化量に基づいて手書き文字と活字文字とを判別する文字判別手段、
    として機能させることを特徴とする文書処理プログラム。
JP2007218456A 2007-08-24 2007-08-24 文書処理装置及び文書処理プログラム Pending JP2009053826A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007218456A JP2009053826A (ja) 2007-08-24 2007-08-24 文書処理装置及び文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007218456A JP2009053826A (ja) 2007-08-24 2007-08-24 文書処理装置及び文書処理プログラム

Publications (1)

Publication Number Publication Date
JP2009053826A true JP2009053826A (ja) 2009-03-12

Family

ID=40504875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007218456A Pending JP2009053826A (ja) 2007-08-24 2007-08-24 文書処理装置及び文書処理プログラム

Country Status (1)

Country Link
JP (1) JP2009053826A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011074067A1 (ja) * 2009-12-15 2011-06-23 富士通フロンテック株式会社 文字認識方法、文字認識装置および文字認識プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011074067A1 (ja) * 2009-12-15 2011-06-23 富士通フロンテック株式会社 文字認識方法、文字認識装置および文字認識プログラム
US8588520B2 (en) 2009-12-15 2013-11-19 Fujitsu Frontech Limited Character recognition method, character recognition apparatus, and character recognition program
JP5363591B2 (ja) * 2009-12-15 2013-12-11 富士通フロンテック株式会社 文字認識方法、文字認識装置および文字認識プログラム

Similar Documents

Publication Publication Date Title
US8503780B2 (en) Apparatus for detecting text recognition region and method of recognizing text
US20110273474A1 (en) Image display apparatus and image display method
US9076067B2 (en) Information processing apparatus and method for classifier-based object detection
JP4738469B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
JP5600723B2 (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
JP7244223B2 (ja) 電子文書における強調テキストの識別
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
RU2673015C1 (ru) Способы и системы оптического распознавания символов серии изображений
JP2013171309A (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
JP5633188B2 (ja) 移植可能な電子文書からラスタ画像を抽出する方法及び装置
US20140359451A1 (en) Computer-readable non-transitory storage medium with image processing program stored thereon, image processing device, and image processing system
US20100014752A1 (en) Image processing apparatus, image processing method and program
JP2009053826A (ja) 文書処理装置及び文書処理プログラム
JP2008027058A (ja) 画像検出装置及び画像検出方法
JP2014078168A (ja) 文字認識装置及びプログラム
JP2012022413A (ja) 画像処理装置、画像処理方法、およびプログラム
JP4291870B1 (ja) 漢字認識プログラム、携帯端末装置、及び、漢字認識方法
JP5277750B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP2010092426A (ja) 画像処理装置、画像処理方法およびプログラム
US9047535B2 (en) Image processing apparatus, image processing method, and computer readable medium
JP2010258627A (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP2004158041A (ja) 表画像処理装置及びそのプログラム記憶媒体
JP2013186610A (ja) 文字抽出装置および文字抽出プログラム
JP3880091B2 (ja) 情報処理装置及び方法