JP2795003B2 - 文字認識処理装置 - Google Patents

文字認識処理装置

Info

Publication number
JP2795003B2
JP2795003B2 JP3242667A JP24266791A JP2795003B2 JP 2795003 B2 JP2795003 B2 JP 2795003B2 JP 3242667 A JP3242667 A JP 3242667A JP 24266791 A JP24266791 A JP 24266791A JP 2795003 B2 JP2795003 B2 JP 2795003B2
Authority
JP
Japan
Prior art keywords
address
word
unit
character recognition
collating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3242667A
Other languages
English (en)
Other versions
JPH0554198A (ja
Inventor
慎治 佐瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP3242667A priority Critical patent/JP2795003B2/ja
Publication of JPH0554198A publication Critical patent/JPH0554198A/ja
Application granted granted Critical
Publication of JP2795003B2 publication Critical patent/JP2795003B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は文字認識処理装置に関し、特に光
学的文字認識処理装置(OCR)における住所読取り結
果の照合処理をなす住所認識処理方式に関するものであ
る。
【0002】
【従来技術】日本語OCRは近年急速に普及しつつある
が、文字読取り性能が未だ充分でないこと、読取対象文
字種が制限されていること等により、全ての文字を正し
く読取ることは困難である。
【0003】そのために、予め登録されている単語群を
利用して文字認識結果の確認補正を行う文字認識の後処
理は、日本語OCRには欠くことができないものとなっ
ている。
【0004】住所に関する文字認識の後処理において
も、予め登録されている住所単語群を用いることによ
り、数十万件にもおよぶ住所から最も近い住所を選択
し、更には通常使用されない様な文字をも単語辞書を用
いて容易に補正することができるようになっており、多
大な効果をあげているのが現状である。
【0005】特に、住所の場合、個人や法人の住所は集
合住宅(アパートやマンション)に係わるものが多くな
っており、住所欄には通常の住所に加えこの集合住宅の
名前が併記されることが頻繁になっている。
【0006】かかる集合住宅について従来と同様に登録
単語と照合をとることは、データベース入手の困難さに
加えて、記憶容量が膨大となることや、多くの集合住宅
部分は仮名と数字で記載されて単なる単語照合では多く
の候補が出現して性能的に十分でない等の理により、困
難となっている。
【0007】また、集合住宅の集合は、集合住宅専用の
処理を行わないと十分な性能が得られず、同時に参照単
語群の数を少なくする必要がある。
【0008】
【発明の目的】本発明の目的は、集合住宅を含む住所の
認識処理において、集合住宅参照単語格納数をできるだ
け少なくして正確な住所認識が可能な文字認識処理装置
を提供することである。
【0009】
【発明の構成】本発明によれば、入力された文字認識結
果の文字コード群を、予め格納されている住所単語群と
照合をとり前記文字認識結果の確認補正を行う住所照合
手段を有する住所文字の認識処理装置であって、前記文
字コード群のうち前記住所照合手段により確認補正が行
われなかった未処理部分と前記住所照合手段による住所
照合結果とを照合して地名部分の検索をなす地名照合手
段と、前記未処理部分の末尾の文字コード群を確認補正
する末尾照合手段と、前記末尾照合手段の処理までに確
認補正が行われなかった文字コード群から連続する数
字,アルファベット文字列を抽出する数字照合手段と、
前記数字照合手段の処理までに確認補正が行われなかっ
た文字コード群を、予め登録された集合住宅単語群と照
合をとり文字認識結果の確認補正を行う集合住宅単語照
合手段とを含むことを特徴とする文字認識処理装置が得
られる。
【0010】
【実施例】以下、本発明の実施例について図面を参照し
つつ詳述する。
【0011】先ず、図2に集合住宅名を含む住所の代表
例をA〜Eとして5例示している。図において、下線部
は住所部,〜が夫々集合住宅部である。
【0012】集合住宅部は地名部,末尾部,部屋番
号部,集合住宅単語部からなる。更に集合住宅単語
部は一般単語―A,固有単語―B,姓名単語―
Cに分類可能である。
【0013】集合住宅の各分類項目は、全ての上記項目
が必ず集合住宅部に出現するわけではなく、出現しない
ものも、するものもある。また、項目により照合の難易
に差もある。
【0014】従って、これ等条件により、必然的に集合
住宅の照合処理手順は定まるものであり、図1はこうし
て得られた本発明の実施例の機能ブロック図である。
【0015】文字認識結果は入力文字コード11として
入力される。この入力文字コード11に対して、住所照
合部12において住所部の照合,確認,補正行われ住所
部が決定される。更に、集合住宅が記載されていると判
断される場合は、集合住宅照合部13で集合住宅部の照
合,確認,補正行われ、その結果が照合結果14として
出力される。
【0016】集合住宅照合部13では、入力文字コード
の集合住宅部のうち先ず地名部の照合が住所部の照合結
果12を利用して地名照合部21で実施される。次に、
未照合の入力集合住宅部の末尾部の照合が末尾照合部2
2においてなされる。次に未照合の末尾から連続したア
ルファベット・数字の文字列検索が数字照合部23にお
いて実行され、最後に残された入力文字コード部分と予
め格納された集合住宅単語群との照合が集合住宅単語照
合部24において実施される。
【0017】なお、住所照合部12については、周知の
技術を用いて実現することができるので、ここではその
詳細は省略する。
【0018】以上のような構成の文字認識後処理装置
は、CPU(中央演算処理装置)と各種処理プログラム
及び照合参照単語群を格納する記憶媒体と、各種データ
を一時的に格納するRAM(ランダムアクセスメモリ)
等の回路装置で構成することができる。
【0019】図3はこの実施例の入力文字コードとして
入力されたコード群の一例である。正解と書かれた行が
記入内容であり、入力文字コードと書かれた各行が図1
の入力文字コード11であって文字認識結果であり、一
例としてここでは各記載文字に対して文字認識は1位〜
6位の6候補を出力するものとしている。
【0020】住所照合部12では、予め登録してある住
所単語群と照合する。住所単語群の例を図4に、これを
照合した結果を図5に夫々示す。
【0021】図4は住所単語の格納形式の一例を模式的
に表現したもので、一つの枠が一単語に相当し、矢印で
住所が階層的に検索できるような構造を表現している。
図5は住所照合部の処理結果である。
【0022】以降、判定結果の行は該当する各処理にお
いて判定された部分には下線部を施し、未照合の部分は
空白で表現するもとする。従って、住所照合部12にお
ける本動作例では、住所照合結果により「世田谷区」と
「南烏山」の単語が照合されたことになる。
【0023】地名照合部21では、住宅照合部12にお
いて未照合の部分すなわち集合住宅の部分を、住所照合
部12の住所照合結果の単語と照合をとり、同一単語が
この集合住宅部に存在するかどうか集合住宅部の入力文
字コードより検索する。
【0024】本例では、「世田谷区」と「南烏山」の2
単語を用いて検索を行い、図6の矢印の位置を単語の先
頭位置として「南烏山」が検出される。次に矢印の照合
位置において、単語の先頭および末尾から夫々単語中で
最初に照合の行われた文字および最後に照合の行われた
文字をチェックしこの間を地名照合部の結果とする。
【0025】本例では、図6のごとく「烏」が最初に照
合の行われた文字,「山」が最後に照合の行われた文字
であり、「烏山」の部分が照合されたことになる。
【0026】末尾照合部22は、集合住宅部の末尾から
「号」「号室」「方」「様方」等、通常、集合住宅部の
末尾に記載される文字を検出する。図7に本処理後の結
果を示す。
【0027】数字集合部23では、現時点で未照合の部
分の末尾から連続するアルファベット,―(ハイフン)
あるいは数字の文字列を抽出する。抽出文字数は―(ハ
イフン)がある場合で最大5文字、ない場合で4文字に
制限し、この範囲内でこれらの文字が検出されるまで処
理を続ける。本処理の例を図8に示す。
【0028】集合住宅単語照合部24では、図9のよう
な集合住宅単語群を用いて、入力文字コードの未照合部
分を照合する。本処理の例を図10に示す。ここで、集
合住宅単語群を図9に示すごとく予め一般と集合住宅登
録単語群と固有集合住宅登録単語群とに分類しておき、
一般集合住宅登録単語群に関しては一つ以下、固有集合
住宅登録単語群に関しては複数の単語の選択を夫々行う
ことにより、マンション/アパート等の一般単語が同一
記載内に一つしか判定されなくなって、より矛盾の少な
い文字認識が可能となる。
【0029】集合住宅単語照合部24の処理の後に、更
に住所文字認識後処理としてしばしば併用される姓名処
理用辞書を利用して、姓名単語の照合を追加すれば、図
2Eに示すごとき姓名を利用した集合住宅の照合も可能
となる。
【0030】また、地名照合部21の処理において、住
所照合結果の単語をもとに、住所単語群(住所照合部1
2で用いられる辞書)を逆検索するようにすれば、関連
単語を住所単語群から選択することができることにな
る。これにより、図2Cに示すごとく、住所部とは異
なる単語の地名(東京)を集合住宅部に用いたものの
認識が可能となるのである。
【0031】更に、地名照合部21における地名照合に
際して、前述した住所単語群に最寄りの駅名が併記して
あれば、住所照合結果から最寄り駅名を検索するように
して、図2Dに示すような駅名を利用したと思われる集
合住宅も照合が可能となる。
【0032】
【発明の効果】叙上の如く、本発明によれば、単に集合
住宅単語群を登録した辞書のみを新たに追加するだけ
で、他は既存の住所単語群や、姓名辞書等を利用して集
合住宅を含む住所の文字認識が可能となるという効果が
ある。
【図面の簡単な説明】
【図1】本発明の実施例のシステムブロック図である。
【図2】集合住宅を含む住所の記載例を示す図である。
【図3】入力文字コードの例と正解例とを示す図であ
る。
【図4】住宅単語の格納例を示す図である。
【図5】住宅照合部の処理結果を示す例である。
【図6】地名照合部の処理結果を示す図である。
【図7】末尾照合部の処理結果を示す図である。
【図8】数字照合部の処理結果を示す図である。
【図9】集合住宅単語群の例を示す図である。
【図10】集合住宅単語照合部の処理結果を示す図であ
る。
【符号の説明】
11 入力文字コード 12 住所照合部 13 集合住宅照合部 21 地名照合部 22 末尾照合部 23 数字照合部 24 集合住宅単語照合部
フロントページの続き (56)参考文献 特開 平2−77988(JP,A) 特開 昭61−234481(JP,A) 特開 昭63−153689(JP,A) 特開 昭2−181287(JP,A) 特開 平2−173885(JP,A) 情報処理学会全国大会講演論文集、V OL.38TH (1989),NO.2,P AGE.649 情報処理学会全国大会講演論文集、V OL.41TH (1990),NO.2,P AGE.2−142 (58)調査した分野(Int.Cl.6,DB名) G06K 9/72

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された文字認識結果の文字コード群
    を、予め格納されている住所単語群と照合をとり前記文
    字認識結果の確認補正を行う住所照合手段を有する住所
    文字の認識処理装置であって、前記文字コード群のうち
    前記住所照合手段により確認補正が行われなかった未処
    理部分と前記住所照合手段による住所照合結果とを照合
    して地名部分の検索をなす地名照合手段と、前記未処理
    部分の末尾の文字コード群を確認補正する末尾照合手段
    と、前記末尾照合手段の処理までに確認補正が行われな
    かった文字コード群から連続する数字,アルファベット
    文字列を抽出する数字照合手段と、前記数字照合手段の
    処理までに確認補正が行われなかった文字コード群を、
    予め登録された集合住宅単語群と照合をとり文字認識結
    果の確認補正を行う集合住宅単語照合手段とを含むこと
    を特徴とする文字認識処理装置。
  2. 【請求項2】 前記集合住宅単語照合手段は、予め登録
    された一般集合住宅単語からなる一般集合住宅登録単語
    群により文字認識結果の確認照合を行う第1の集合住宅
    単語照合部と、予め登録された固有集合住宅単語からな
    る固有集合住宅単語登録群により文字認識結果の確認照
    合を行う第2の集合住宅単語照合部とを有することを特
    徴とする請求項1記載の文字認識処理装置。
  3. 【請求項3】 前記地名照合手段は、前記住所照合手段
    による住所照合結果をもとに前記住所単語群を検索して
    地名照合用単語を選択する地名単語生成部と、この選択
    された地名単語により前記文字コード群の確認補正をな
    す地名照合部とを有することを特徴とする請求項1また
    は2記載の文字認識処理装置。
  4. 【請求項4】 前記地名照合手段は、各住所に対応した
    最寄り駅の駅名情報を付加した住所辞書と、前記住所照
    合結果をもとに前記住所辞書を検索して関連住所に対応
    する最寄り駅単語を選択する地名単語生成部とを有する
    ことを特徴とする請求項1,2または3記載の文字認識
    処理装置。
  5. 【請求項5】 前記集合住宅単語照合手段の処理の後
    に、姓名辞書による文字認識結果の確認補正を行う姓名
    照合手段を付加したことを特徴とする請求項1,2,3
    または4記載の文字認識処理装置。
JP3242667A 1991-08-28 1991-08-28 文字認識処理装置 Expired - Lifetime JP2795003B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3242667A JP2795003B2 (ja) 1991-08-28 1991-08-28 文字認識処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3242667A JP2795003B2 (ja) 1991-08-28 1991-08-28 文字認識処理装置

Publications (2)

Publication Number Publication Date
JPH0554198A JPH0554198A (ja) 1993-03-05
JP2795003B2 true JP2795003B2 (ja) 1998-09-10

Family

ID=17092452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3242667A Expired - Lifetime JP2795003B2 (ja) 1991-08-28 1991-08-28 文字認識処理装置

Country Status (1)

Country Link
JP (1) JP2795003B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4584507B2 (ja) * 2000-09-11 2010-11-24 富士通株式会社 住所認識装置、記録媒体及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
情報処理学会全国大会講演論文集、VOL.38TH (1989),NO.2,PAGE.649
情報処理学会全国大会講演論文集、VOL.41TH (1990),NO.2,PAGE.2−142

Also Published As

Publication number Publication date
JPH0554198A (ja) 1993-03-05

Similar Documents

Publication Publication Date Title
US7769778B2 (en) Systems and methods for validating an address
JPS6262387B2 (ja)
US20020064311A1 (en) Apparatus and method for retrieving character string based on classification of character
JP2001291060A (ja) 単語列照合装置および単語列照合方法
JPH10230226A (ja) 住所読み取り装置
JP2795003B2 (ja) 文字認識処理装置
JPS6262388B2 (ja)
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP2655087B2 (ja) 文字認識後処理方式
JPH0441388B2 (ja)
JP2671311B2 (ja) 住所読取装置
JP2942375B2 (ja) 文字読取装置
JP4584507B2 (ja) 住所認識装置、記録媒体及びプログラム
JPH07271920A (ja) 文字認識装置
JP2874199B2 (ja) 単語辞書照合装置
JP2839515B2 (ja) 文字読取システム
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH05258100A (ja) 文字認識装置
JP2865443B2 (ja) カナ氏名もしくはカナ法人名表記の漢字変換装置
JPS61161588A (ja) 文字認識後処理方式
JPH06103404A (ja) 名刺認識装置
JPH04280394A (ja) 文字認識装置及び認識文字確定方法
JPH076213A (ja) 文字列認識装置
JPH1115920A (ja) 文字認識結果修正方法及び装置、記録媒体
JP2001084262A (ja) シンボル名検索システム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080626

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090626

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100626

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100626

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110626

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110626

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 14