JP2753094B2 - 単語切り出し装置 - Google Patents

単語切り出し装置

Info

Publication number
JP2753094B2
JP2753094B2 JP2021508A JP2150890A JP2753094B2 JP 2753094 B2 JP2753094 B2 JP 2753094B2 JP 2021508 A JP2021508 A JP 2021508A JP 2150890 A JP2150890 A JP 2150890A JP 2753094 B2 JP2753094 B2 JP 2753094B2
Authority
JP
Japan
Prior art keywords
character string
pitch
word
character
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2021508A
Other languages
English (en)
Other versions
JPH03225576A (ja
Inventor
孔司 桜田
晃治 伊東
義征 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=12056911&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2753094(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2021508A priority Critical patent/JP2753094B2/ja
Publication of JPH03225576A publication Critical patent/JPH03225576A/ja
Application granted granted Critical
Publication of JP2753094B2 publication Critical patent/JP2753094B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、欧文文書等の画像情報から単語を切り出す
ための単語切り出し装置に関するものである。
(従来の技術) 従来、このような分野の技術としては、特開昭62-133
585号公報に記載されるものがあった。
一般に、文書画像を処理する装置において、欧文等を
扱う場合、文字単位の処理だけではなく、単語単位の処
理が必要となることが多い。例えば、光学的文字読取装
置(OCR)では、文字認識処理を行った後に単語認識処
理を行うことにより、文字単位での認識結果が誤った場
合でも、単語認識処理によって誤った文字を修正するこ
とが可能となる。この際、対象となる文書の画像情報か
ら文字行を切り出し、各文字行中から文字を切り出すと
共に、単語をも切り出すことが必要となる。
従来のこの種の単語切り出し装置としては、前記文献
に記載されるものがあった。この単語切り出し装置で
は、文字列の画像情報の文字列方向に沿った周辺分布に
基づき、該周辺分布の切れ目の幅のヒストグラム(hist
ogram;単一のランダム変数の発生頻度分布図)を作成す
る。そして、そのヒストグラムのピークに対応する最大
の幅に従って単語間ギャップの判定閾値を決定し、その
判定閾値以上の幅の周辺分布の切れ目を単語間のギャッ
プと判定して単語を切り出すものであった。
(発明が解決しようとする課題) しかしながら、上記構成の装置では、次のような課題
があった。
(a) 従来の装置では、文字列に含まれる単語数が少
ない場合、作成したヒストグラムにおいて単語間ギャッ
プに対応するピークが得られにくいため、単語間ギャッ
プの判定閾値を決定することが困難となり、その結果、
正しく単語を切り出すことができない。
(b) 従来の装置では、単語間ギャップの判定閾値を
決定するためにヒストグラムを作成する必要があるの
で、装置構成が複雑化すると共に、処理速度が低下する
という問題があった。
本発明は前記従来技術が持っていた課題として、単語
の切り出しが正確に行えないという点と、装置構成が複
雑化すると共に処理速度が低下するという点について解
決した単語切り出し装置を提供するものである。
(課題を解決するための手段) 前記課題を解決するために、本発明のうちの請求項1
に係る発明では、単語切り出し装置において、欧文等の
文書の画像情報を入力して該文書の画像情報より文字列
パタンを抽出する前処理手段と、前記文字列パタンの文
字列方向についての周辺分布に基づいて推定文字ピッチ
を検出するピッチ推定手段と、前記推定文字ピッチに応
じて判定閾値を設定し、該判定閾値よりも大きな空白幅
を検出し、該空白幅の位置により前記文書の単語を切り
出す切り出し手段とを、備えている。
請求項2に係る発明では、請求項1の単語切り出し装
置において、前記ピッチ推定手段は、前記文字列パタン
中の周辺分布に基づいて文字列を構成する部分図形の位
置情報を求め、該部分図形の最大幅とこの最大幅を持つ
部分図形に隣接する空白領域の最小幅との和により、前
記推定文字ピッチを検出する構成にしている。
(作用) 本発明によれば、以上のように単語切り出し装置を構
成したので、前処理手段は、欧文等の文書の画像情報よ
り文字列パタンを抽出し、それをピッチ推定手段に与え
る。ピッチ推定手段は、文字列パタンの文字列方向につ
いての周辺分布に基づき、推定文字ピッチを検出し、そ
の推定文字ピッチを切り出し手段に与える。切り出し手
段は、推定文字ピッチに基づいて判定閾値を設定し、そ
の判定閾値を基準にしてそれよりも大きな空白幅を検出
し、その空白幅位置により単語を切り出す。これによ
り、文字列に含まれる単語数の大小にかかわらず、高精
度に単語の切り出しが行えると共に、従来のようなヒス
トグラムの作成が不要になって装置構成の簡単化と処理
速度の高速化が図れる。従って、前記課題を解決できる
のである。
(実施例) 第1図は、本発明の一実施例を示す単語切り出し装置
の構成ブロック図である。
この単語切り出し装置は、文字列パタンデータS103を
得るための前処理手段100と、文字列パタンデータS103
に基づき推定文字ピッチを検出するピッチ推定手段11
0と、推定文字ピッチに応じて判定閾値THを定め、文
字列パタンデータS103において判定閾値THより大きい空
白幅を検出してその空白位置により単語を切り出す切り
出し手段120とで、構成されている。
前処理手段100は、欧文印刷文書等の記録媒体より白
黒2値の画像情報S101を読み取る画像読取部101を有し
ている。この画像読取部101は、イメージスキャナ等で
構成され、その出力側には、画像情報S101を記憶する画
像バッファ等かたなる画像記憶部102と、文字列抽出部1
03とが、接続されている。文字列抽出部103は、画像記
憶部102に記憶された画像情報S101より、文字列パタン
データS103を抽出し、それをピッチ推定手段110に与え
る機能を有している。
ピッチ推定手段110は、文字列パタンデータS103の文
字列方向に沿った周辺分布に基づいて文字列を構成する
部分図形(これを黒ブロックという)の位置情報S111を
検出するブロック抽出部111と、黒ブロックの位置情報S
111に基づき推定文字ピッチを検出するピッチ計算部1
12とで、構成され、その出力側に切り出し手段120が接
続されている。
切り出し手段120は、推定文字ピッチに基づき判定
閾値THを計算する閾値計算部121と、単語抽出部122と
で、構成されている。単語抽出部122は、黒ブロックの
位置情報S111に基づいて計算される隣接する黒ブロック
間の空白幅が、判定閾値THより大きいことを検知して該
空白位置により、単語を切り出すことを示す単語切り出
し信号S122を出力する機能を有している。
第2図は、第1図の単語切り出しの動作例を説明する
ための図であり、この図を参照しつつ第1図の装置の動
作を説明する。
なお、第2図中の111aは文字列パタンデータS103にお
ける文字列方向に沿った周辺分布、B1〜B22は黒ブロッ
ク、W1〜W4は空白領域、Hは黒ブロックB8と空白領域W1
を合わせた幅である。
先ず、欧文印刷文書等の記録情報は、画像読取部101
により読み取られ、白黒2値の画像情報S101として画像
記憶部102に記憶される。次に、文字列抽出部103は、画
像記憶部102に記憶された2値の画像情報より、1行分
に相当する文字列パタンデータS103(例えば、word seg
mentation method)を抽出し、それをブロック抽出部11
1に与える。
ブロック抽出部111は、文字列パタンデータS103の文
字列方向に沿った周辺分布111aを計算により作成し、さ
らにその周辺分布111aが正の値となる連続領域の各々を
黒ブロックB1〜B22として抽出する。そして各黒ブロッ
クB1〜B22の文字列方向に沿った始端位置及び終端位置
からなる各黒ブロックB1〜B22の位置情報S111を計算
し、その計算結果を保存する。
次にピッチ計算部112は、黒ブロックの位置情報S111
(始端位置及び終端位置)に基づき、黒ブロックの最大
幅と該最大幅を持つ黒ブロックに隣接する空白領域の最
小幅との和を求め、これを推定文字ピッチとして閾値
計算部121へ出力する。すなわち、第i番目の黒ブロッ
クに対する文字列方向に沿った始端位置と終端位置をそ
れぞれSi,Ei(但し、Si<Ei<Si+1、i=1,2,3,…,N、
Nは黒ブロック数)とすると、推定文字ピッチは次式
で示される。
但し、zは値(Ei−Si)が最大値を取る場合のiを表
し、min(A,B)はAとBの最小値を表す。このようにし
て求めた推定文字ピッチは、各単語内の文字ピッチと
近似的に等しい値となる。
つまりピッチ計算部112では、第2図に示すように、
黒ブロックB1〜B22より最大幅を持つ黒ブロックB8を検
出すると共に、その黒ブロックB8に隣接する空白領域W1
及びW2のうち最小幅となる空白領域W1を検出し、黒ブロ
ックB8と空白領域W1を合わせた幅Hを計算してそれを推
定文字ピッチとして閾値計算部120へ出力する。
閾値計算部121は、推定文字ピッチ(=H)に基づ
き、単語を切り出すための空白幅に関する判定閾値THを
次式に従って計算し、単語抽出部122へ出力する。
TH=a× 但し、aは定数であり、本実施例では例えばa=0.25
とする。
単語抽出部122では、ブロック抽出部111に保存された
各黒ブロックの位置情報S111に基づき、隣接する黒ブロ
ック間の空白領域(例えば、W3及びW4)の幅が判定閾値
THを越える場合に、該空白位置により、単語を切り出す
ことを示す単語切り出し信号S122を出力する。すなわ
ち、値(Si+1−Ei−1)が値THより大きい場合に、第i
番目の黒ブロックと第(i+1)番目の黒ブロックとの
間を、単語切れ目と判断して単語切り出し信号S122を出
力する(i=1,2,…,N−1)。従って本実施例において
は、推定文字ピッチの0.25倍を越える空白幅を検出す
る毎に、1つの単語を切り出し位置(始端位置及び終端
位置)が確定する。
例えば、第2図では、黒ブロックB1〜B4(“wor
d")、黒ブロックB5〜B16(“segmentation")、及び黒
ブロックB17〜B22(“method")が各々単語を構成する
ことを示す単語切り出し信号S122となる。このような単
語切り出し信号S122が単語抽出部122から出力される
と、文字列パタンデータS103に対する単語切り出しの処
理が完了する。
以上のように、本実施例では、次のような利点を有し
ている。
(a) 文字列パタンデータS103の推定文字ピッチを
検出し、文字列パタンデータS103において推定文字ピッ
チに応じて定められる判定閾値THより大きい空白幅を
検出してその空白位置により、単語パタンを切り出す構
成にしたので、文字列に含まれる単語数の大小にかかわ
らず、高精度に単語を切り出すことができる。
(b) ピッチ推定手段110は、文字列パタンデータS10
3の文字列方向についての周辺分布111aに基づき、黒ブ
ロックの位置情報S111を求め、黒ブロックの最大幅と該
最大幅を持つ黒ブロックに隣接する空白領域の最小幅と
の和(H)により、推定文字ピッチを検出する構成に
したので、周辺分布111aの切れ目の幅のヒストグラムを
作成する必要のあった従来の単語切り出し装置に比べ、
装置構成が簡単になると共に、処理速度をより高速化で
きる。
なお、本発明は図示の実施例に限定されず、種々の変
形が可能である。その変形例としては、例えば次のよう
なものがある。
(i) 上記実施例において、ピッチ推定手段110は、
文字列パタンデータS103の文字列方向についての周辺分
布111aに基づき、黒ブロックの位置情報S111を求め、黒
ブロックの最大幅と該最大幅を持つ黒ブロックに隣接す
る空白領域の最小幅との和(H)により、推定文字ピッ
チを検出する構成にしたが、これを他の構成にしても
よい。例えば、文字列パタンデータS103の文字列方向に
ついての周辺分布111aに基づき、黒ブロックの位置情報
を求め、黒ブロックの最大幅と空白領域の最小幅との和
により、推定ピッチを検出する等、種々の方法で推定
文字ピッチの検出が可能である。
(ii) 第1図の各ブロックは、個別回路で構成する他
に、マイクロプロセッサ等を用いたソフトウエア処理等
によって構成してもよい。
(発明の効果) 以上詳細に説明したように、請求項1及び2に係る発
明によれば、前処理手段により抽出した文字列パタンに
基づき、ピッチ推定手段で推定文字ピッチを検出し、次
いで切り出し手段により、推定文字ピッチに応じて判定
閾値を設定し、該判定閾値より大きい空白幅を検出して
その空白位置により単語パタンを切り出す構成にしたの
で、文字列に含まれる単語数の大小にかかわらず、高精
度に単語を切り出すことができる。
その上、文字列パタンの文字列方向についての周辺分
布に基づいて推定文字ピッチを検出する構成にしたの
で、従来のようなヒストグラムの作成が不要となり、装
置構成の簡単化と、処理速度の高速化という効果も期待
できる。
【図面の簡単な説明】
第1図は本発明の実施例を示す単語切り出し装置の構成
ブロック図、第2図は第1図の単語切り出し動作例を説
明するための図である。 100……前処理手段、101……画像読取部、102……画像
記憶部、103……文字列抽出部、110……ピッチ推定手
段、111……ブロック抽出部、112……ピッチ計算部、12
0……切り出し手段、121……閾値計算部、122……単語
抽出部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭62−133585(JP,A) 特開 昭63−158678(JP,A) 特開 平2−255995(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06K 9/00 - 9/82

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】文書の画像情報を入力して該文書の画像情
    報より文字列パタンを抽出する前処理手段と、 前記文字列パタンの文字列方向についての周辺分布に基
    づいて推定文字ピッチを検出するピッチ推定手段と、 前記推定文字ピッチに応じて判定閾値を設定し、該判定
    閾値よりも大きな空白幅を検出し、該空白幅の位置によ
    り前記文書の単語を切り出す切り出し手段とを、備えた
    ことを特徴とする単語切り出し装置。
  2. 【請求項2】請求項1記載の単語切り出し装置におい
    て、 前記ピッチ推定手段は、前記文字列パタン中の周辺分布
    に基づいて文字列を構成する部分図形の位置情報を求
    め、該部分図形の最大幅とこの最大幅を持つ部分図形に
    隣接する空白領域の最小幅との和により、前記推定文字
    ピッチを検出する構成にしたことを特徴とする単語切り
    出し装置。
JP2021508A 1990-01-31 1990-01-31 単語切り出し装置 Expired - Lifetime JP2753094B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021508A JP2753094B2 (ja) 1990-01-31 1990-01-31 単語切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021508A JP2753094B2 (ja) 1990-01-31 1990-01-31 単語切り出し装置

Publications (2)

Publication Number Publication Date
JPH03225576A JPH03225576A (ja) 1991-10-04
JP2753094B2 true JP2753094B2 (ja) 1998-05-18

Family

ID=12056911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021508A Expired - Lifetime JP2753094B2 (ja) 1990-01-31 1990-01-31 単語切り出し装置

Country Status (1)

Country Link
JP (1) JP2753094B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5508359B2 (ja) 2011-08-03 2014-05-28 シャープ株式会社 文字認識装置、文字認識方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62133585A (ja) * 1985-12-05 1987-06-16 Ricoh Co Ltd 単語切出方式
JPS63158678A (ja) * 1986-12-23 1988-07-01 Sharp Corp 単語間スペ−ス検出方法
JP2570415B2 (ja) * 1988-04-28 1997-01-08 セイコーエプソン株式会社 文字切り出し方法

Also Published As

Publication number Publication date
JPH03225576A (ja) 1991-10-04

Similar Documents

Publication Publication Date Title
EP1310912A2 (en) Image processing method, apparatus and system
JP5600723B2 (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
JPH08287184A (ja) 画像切り出し装置及び文字認識装置
JP2753094B2 (ja) 単語切り出し装置
JPH10307889A (ja) 文字認識方法、装置及び文字認識プログラムを記録した記録媒体
JP3090342B2 (ja) 文字列方向判別装置
US6580805B1 (en) Method and recognizing music and computer-readable recording medium having music-recognizing program recorded therein
JP2821303B2 (ja) 掠れ文字結合方式
JP2918666B2 (ja) 文字画像切出し方法
JP3848792B2 (ja) 文字列認識方法及び記録媒体
JP3379663B2 (ja) 文字認識装置
JP3712825B2 (ja) 画像処理方法、装置および記録媒体
JP3071479B2 (ja) 行間スペース検出方法
JP2844728B2 (ja) 文書読取装置
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JP3167551B2 (ja) 文字認識装置
JPH1185905A (ja) 書体識別装置および書体識別方法および情報記憶媒体
JP3193573B2 (ja) かぎかっこ付文字認識装置
JP3345469B2 (ja) 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置
JP2576080B2 (ja) 文字切出し方法
JP2768289B2 (ja) 文字切り出し装置
JP2795222B2 (ja) 文字切り出し方法および文字切り出し装置
JPS62169286A (ja) 文字切出方式
JPH05128308A (ja) 文字認識装置
JPH04353989A (ja) 単語切り出し方式