JP4079333B2 - 文書画像の日本語英語判定方法および記録媒体 - Google Patents
文書画像の日本語英語判定方法および記録媒体 Download PDFInfo
- Publication number
- JP4079333B2 JP4079333B2 JP2005341393A JP2005341393A JP4079333B2 JP 4079333 B2 JP4079333 B2 JP 4079333B2 JP 2005341393 A JP2005341393 A JP 2005341393A JP 2005341393 A JP2005341393 A JP 2005341393A JP 4079333 B2 JP4079333 B2 JP 4079333B2
- Authority
- JP
- Japan
- Prior art keywords
- english
- japanese
- region
- determined
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Description
従って、文字認識処理を施す前に、言語識別を行う必要が生じる。従来から文書中の文字種を識別する種々の手法が提案されている。例えば、2値化された文字行の縦方向または横方向の黒白反転回数を計数し、その分布を基に文字種の識別を行う文書認識装置がある(特許文献1を参照)。
本発明の目的は、精度よくかつ高速に日本語と英語の識別を行うと共に、識別する範囲についても各文字領域毎に、またページ単位毎に両者を識別できる文書画像の日本語英語判別方法および記録媒体を提供することにある。
実施例1:
図1は、本発明の実施例1の構成を示す。図において、101は、文書画像を入力する画像入力手段、102は、入力文書画像を縮小する画像縮小手段、103は、文書画像から連結成分を抽出する連結成分抽出手段、104は、抽出した連結成分を分類し、統合することによって文字領域を生成する領域生成手段、105は、文字領域単位またはページ単位で日本語と英語を判別する日英判別手段、106は、全体を制御する制御部、107は、入力された文書画像データや連結成分データ、領域データなど各種データを記憶するデータ記憶部、108は、データ通信路、109は、ネットワーク、回線などを介してホストなどに接続するデータ通信手段である。
まず、画像入力手段101は、文書を読み取ることによって文書画像を得る(ステップ201)。この画像入力手段は、例えばスキャナ、ファックスなどであり、またデータ通信手段109を介してネットワーク経由で別の機器から画像を得るようにしてもよい。
上記した実施例1では、文字領域単位で日英の判定を行っている。この場合、文字領域によっては文字数が非常に少ない場合がある。そのような場合は、矩形の数が十分に得られないので矩形数の比率で日英判定を行うことが難しくなる可能性がある。実施例2は、矩形の数が十分でない場合を考慮した実施例である。
次に、ページ単位で日英識別を行う実施例3について説明する。図6、7は、実施例3に係るステップ205の詳細フローチャートを示す。図6に示す方法は、「短」、「中」、「長」矩形の数の集計を文字領域毎でなくページ全体について行い(ステップ601、602)、その結果を使用してページ単位に日英の判定を行う(ステップ603)。この日英の判定方法は、図8の処理フローチャートに従って行う。このときのしきい値Th1,Th2は文字領域単位の処理の場合と異なるしきい値としてもよい。
上記した実施例とは異なる特徴を利用した日英識別方法について説明する。図9は、実施例4の構成を示す。実施例1と異なる点は、行切り出し部902と、ブロック抽出部903と、ブロック内文字種判別部904を設けている点である。他の構成要素は実施例1のものと同様である、図10は、実施例4の処理フローチャートを示す。
上記した実施例4では、文字領域単位で日英の判定を行っている。この場合、文字領域によっては文字数が非常に少ない場合がある。そのような場合は、矩形の数が十分に得られないのでブロックの判別結果数の比率で日英判定を行うことが難しくなる可能性がある。実施例5は、ブロックの数が十分でない場合の実施例である。
実施例6は、実施例4の文字領域毎の日英判別を、ページ単位の日英判別に変更したものである。実施例6の処理フローチャートは、図6、7を用いる。
実施例7では、文字領域毎またはページ単位で日英判別を行う際に、図13に示すように矩形長を利用する日英判別処理(ステップ1301)と、ブロック毎の判別結果を利用する日英判別処理(ステップ1302)によって、それぞれ日英の判別を行う。そして、それぞれの判別結果から最終的に日英に判別を行う(ステップ1303)。
(1)リジェクトとする。
(2)両者の確信度を算出し、値の大きな方の結果を採用する。
矩形長を利用する判別方法の確信度としては、例えば
LCNT/(NCNT+SCNT)>Thlで、Thl=0.3の場合にはLCNT/(NCNT+SCNT)*2.5の値(ただし上限を1とする)
NCNT/(LCNT+SCNT)<Th2で、Th2=3の場合には(LCNT+SCNT)/NCNT*2.5の値(ただし上限を1とする)
NCNT/(LCNT+SCNT)>Th2で、Th2=3の場合にはNCNT/(LCNT+SCNT)*0.33の値(ただし上限を1とする)
とする。
JCNT*Th3>ECNTで、Th3=2の場合には、JCTN/(ECNT*3)の値(ただし上限を1とする)
ECNT>JCNTの場合には、ECNT/JCNT*0.7の値(ただし上限を1とする)
とする。
図14は、実施例8の構成を示す。また、図15は、実施例8の処理フローチャートを示す。この実施例では、入力された文書のページ全体について、日英判別部1412は、前述した実施例3、6の方法を用いて、そのページが日本語であるか英語であるかの日英識別処理を行い(ステップ1501、1502)、その判別結果に基づいて選択部1403は英文文書認識部1404または日本語文書認識部1405を選択し、選択された言語の文書認識処理を行い(ステップ1504、1505)、その認識結果をディスプレイなどの出力部に出力する(ステップ1506)。
図16は、実施例9の構成を示し、図17は、実施例9の処理フローチャートを示す。実施例8と異なる点は、日英識別を文字領域毎に行う点である。そのために、領域分割部1602は、入力文書を文字領域に分割する(ステップ1701、1702)。ここで、領域分割部では、日英両方に適応できる領域分割方法を使用する。分割処理された後、日英判別部1603は文字領域毎に、例えば前述した実施例1の方法を用いて日英識別処理を行い(ステップ1704)、その判別結果に基づいて選択部1604は英文文書認識部1605または日本語文書認識部1606を選択し、選択された言語の文書認識処理を行い(ステップ1705、1706)、その認識結果をディスプレイなどの出力部1607に出力する(ステップ1707)。なお、実施例9の文書認識部では、文書認識処理の他にフォント識別処理も行う。
前述した各実施例は、黒画素連結成分や矩形長を特徴量として日本語と英語を判定している。しかし、黒画素連結成分を用いる判定方法は処理時間がかかり、また矩形長を利用する方法はリジェクトの発生が高くなることもある。なお、外接矩形の上辺、下辺の行内での相対位置の頻度分布のピーク位置を基に和文か英文かを識別する方法もあるが(特公平7−21817号公報を参照)、傾きがある文書が入力された場合には、頻度分布が大きく変化し、識別精度が低下してしまうという問題点がある。
とし(ステップ2903)、Valueが所定の閾値th eocrを超えれば(ステップ2904)、英語と判定し、それ以下ならば日本語と判定する。
Bad=Bad+Zelo×3であるから
Value=Good/(Good+Bad)
となり、Valueが閾値th eocrを超えれば英語、それ以下ならば日本語と判定することもできる。このように、日英識別判定のための文字数が少ない領域でも、英文認識による確信度で日英識別しているので、精度よく領域単位の日英識別が行われる。
本実施例は、入力文書画像を縮小した画像から外接矩形を生成し、生成された矩形同士で適当な統合を行い、統合後の矩形長の縦横比のヒストグラムを用いて日英識別をより精度良く行なう実施例である。
領域内での中矩形の領域数ncnt
領域内での小矩形の領域数scnt
領域内での極小矩形の領域数sscnt(ノイズの場合が多い)を算出し(ステップ3501)、領域内での長矩形の割合ratio1=lcnt/(ncnt+scnt)を算出し(ステップ3502)、領域内での中矩形の割合ratio2=ncnt/(lcnt+scnt)を算出する(ステップ3503)。なお、上記割合を算出するとき、sscntはノイズとして無視した。
本発明は上記した実施例に限定されず、ソフトウェアによっても実現することができる。本発明をソフトウェアによって実現する場合には、図36に示すように、CPU、メモリ、表示装置、ハードディスク、キーボード、CD−ROMドライブ、スキャナなどからなるコンピュータシステムを用意し、CD−ROMなどのコンピュータ読み取り可能な記録媒体には、本発明の日本語英語判定機能、文書認識機能を実現するプログラムなどが記録されている。また、スキャナなどの画像入力手段から入力された文書画像などは一時的にハードディスクなどに格納される。そして、該プログラムが起動されると、一時保存された文書画像データが読み込まれて、日本語英語判定処理、文書認識処理を実行し、その結果をディスプレイなどに出力する。
102 画像縮小手段
103 連結成分抽出手段
104 領域生成手段
105 日英判別手段
106 制御部
107 データ記憶部
108 データ通信路
109 データ通信手段
Claims (2)
- 文書画像中の各文字領域が日本語領域であるか英語領域であるかを判定する文書画像の日本語英語判定方法であって、前記各文字領域から行を切り出し、行内の矩形の最大高さに対する行内の各矩形の高さの割合が高い場合の矩形の頻度数(以下、第1の頻度数)と、行内の矩形の最大高さに対する行内の各矩形の高さの割合が低い場合の矩形の頻度数(以下、第2の頻度数)とを算出し、前記第1の頻度数/第2の頻度数が所定の第1の閾値を超えるとき前記各文字領域が日本語領域であると判定し、前記第1の頻度数/第2の頻度数が所定の第2の閾値未満のとき前記各文字領域が英語領域であると判定し、それ以外のときは不明領域と判定し、前記不明領域については、予め算出された日本語の特性値に近いとき日本語領域であると判定し、予め算出された英語の特性値に近いとき英語領域であると判定し、それ以外のときは不明領域と判定し、さらに不明と判定された領域に対して、英文認識による確信度を算出し、算出された確信度を用いて日本語領域であるか英語領域であるかを判定することを特徴とする文書画像の日本語英語判定方法。
- 請求項1記載の文書画像の日本語英語判定方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005341393A JP4079333B2 (ja) | 1997-09-10 | 2005-11-28 | 文書画像の日本語英語判定方法および記録媒体 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24552397 | 1997-09-10 | ||
JP28720497 | 1997-10-20 | ||
JP2005341393A JP4079333B2 (ja) | 1997-09-10 | 2005-11-28 | 文書画像の日本語英語判定方法および記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12510398A Division JP3835652B2 (ja) | 1997-09-10 | 1998-05-07 | 文書画像の日本語英語判定方法および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006107527A JP2006107527A (ja) | 2006-04-20 |
JP4079333B2 true JP4079333B2 (ja) | 2008-04-23 |
Family
ID=36377062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005341393A Expired - Lifetime JP4079333B2 (ja) | 1997-09-10 | 2005-11-28 | 文書画像の日本語英語判定方法および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4079333B2 (ja) |
-
2005
- 2005-11-28 JP JP2005341393A patent/JP4079333B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2006107527A (ja) | 2006-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7519226B2 (en) | Form search apparatus and method | |
US6754385B2 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
US6643401B1 (en) | Apparatus and method for recognizing character | |
US5335290A (en) | Segmentation of text, picture and lines of a document image | |
US5828771A (en) | Method and article of manufacture for determining whether a scanned image is an original image or fax image | |
JPH05233873A (ja) | 領域分割方法 | |
US7146047B2 (en) | Image processing apparatus and method generating binary image from a multilevel image | |
EP0680005B1 (en) | Speed and recognition enhancement for OCR using normalized height/width position | |
JP3835652B2 (ja) | 文書画像の日本語英語判定方法および記録媒体 | |
JP2002015280A (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JP3215163B2 (ja) | 罫線識別方法及び領域識別方法 | |
JP4079333B2 (ja) | 文書画像の日本語英語判定方法および記録媒体 | |
JP2728086B2 (ja) | 文字切り出し方法 | |
JP2565150B2 (ja) | 文字切り出し方法 | |
JP3384634B2 (ja) | 文字種識別方法 | |
JP3344062B2 (ja) | カタカナ手書き文字切り出し回路 | |
JP2728085B2 (ja) | 文字切り出し方法 | |
JP3220226B2 (ja) | 文字列方向判別方法 | |
JPH0916715A (ja) | 文字認識装置および方法 | |
JPH10214308A (ja) | 文字判別方法 | |
JP3100825B2 (ja) | 線認識方法 | |
JPH05174185A (ja) | 日本語文字認識装置 | |
JP2000113101A (ja) | 文字切り出し方法および装置 | |
JPH09297817A (ja) | 文字切り出し方法 | |
JPH06259597A (ja) | ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080131 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110215 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110215 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120215 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130215 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130215 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140215 Year of fee payment: 6 |
|
EXPY | Cancellation because of completion of term |