JP2795003B2 - 文字認識処理装置 - Google Patents
文字認識処理装置Info
- Publication number
- JP2795003B2 JP2795003B2 JP3242667A JP24266791A JP2795003B2 JP 2795003 B2 JP2795003 B2 JP 2795003B2 JP 3242667 A JP3242667 A JP 3242667A JP 24266791 A JP24266791 A JP 24266791A JP 2795003 B2 JP2795003 B2 JP 2795003B2
- Authority
- JP
- Japan
- Prior art keywords
- address
- word
- unit
- character recognition
- collating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Discrimination (AREA)
Description
学的文字認識処理装置(OCR)における住所読取り結
果の照合処理をなす住所認識処理方式に関するものであ
る。
が、文字読取り性能が未だ充分でないこと、読取対象文
字種が制限されていること等により、全ての文字を正し
く読取ることは困難である。
利用して文字認識結果の確認補正を行う文字認識の後処
理は、日本語OCRには欠くことができないものとなっ
ている。
も、予め登録されている住所単語群を用いることによ
り、数十万件にもおよぶ住所から最も近い住所を選択
し、更には通常使用されない様な文字をも単語辞書を用
いて容易に補正することができるようになっており、多
大な効果をあげているのが現状である。
合住宅(アパートやマンション)に係わるものが多くな
っており、住所欄には通常の住所に加えこの集合住宅の
名前が併記されることが頻繁になっている。
単語と照合をとることは、データベース入手の困難さに
加えて、記憶容量が膨大となることや、多くの集合住宅
部分は仮名と数字で記載されて単なる単語照合では多く
の候補が出現して性能的に十分でない等の理により、困
難となっている。
処理を行わないと十分な性能が得られず、同時に参照単
語群の数を少なくする必要がある。
認識処理において、集合住宅参照単語格納数をできるだ
け少なくして正確な住所認識が可能な文字認識処理装置
を提供することである。
果の文字コード群を、予め格納されている住所単語群と
照合をとり前記文字認識結果の確認補正を行う住所照合
手段を有する住所文字の認識処理装置であって、前記文
字コード群のうち前記住所照合手段により確認補正が行
われなかった未処理部分と前記住所照合手段による住所
照合結果とを照合して地名部分の検索をなす地名照合手
段と、前記未処理部分の末尾の文字コード群を確認補正
する末尾照合手段と、前記末尾照合手段の処理までに確
認補正が行われなかった文字コード群から連続する数
字,アルファベット文字列を抽出する数字照合手段と、
前記数字照合手段の処理までに確認補正が行われなかっ
た文字コード群を、予め登録された集合住宅単語群と照
合をとり文字認識結果の確認補正を行う集合住宅単語照
合手段とを含むことを特徴とする文字認識処理装置が得
られる。
つつ詳述する。
例をA〜Eとして5例示している。図において、下線部
は住所部,〜が夫々集合住宅部である。
号部,集合住宅単語部からなる。更に集合住宅単語
部は一般単語―A,固有単語―B,姓名単語―
Cに分類可能である。
が必ず集合住宅部に出現するわけではなく、出現しない
ものも、するものもある。また、項目により照合の難易
に差もある。
住宅の照合処理手順は定まるものであり、図1はこうし
て得られた本発明の実施例の機能ブロック図である。
入力される。この入力文字コード11に対して、住所照
合部12において住所部の照合,確認,補正行われ住所
部が決定される。更に、集合住宅が記載されていると判
断される場合は、集合住宅照合部13で集合住宅部の照
合,確認,補正行われ、その結果が照合結果14として
出力される。
の集合住宅部のうち先ず地名部の照合が住所部の照合結
果12を利用して地名照合部21で実施される。次に、
未照合の入力集合住宅部の末尾部の照合が末尾照合部2
2においてなされる。次に未照合の末尾から連続したア
ルファベット・数字の文字列検索が数字照合部23にお
いて実行され、最後に残された入力文字コード部分と予
め格納された集合住宅単語群との照合が集合住宅単語照
合部24において実施される。
技術を用いて実現することができるので、ここではその
詳細は省略する。
は、CPU(中央演算処理装置)と各種処理プログラム
及び照合参照単語群を格納する記憶媒体と、各種データ
を一時的に格納するRAM(ランダムアクセスメモリ)
等の回路装置で構成することができる。
入力されたコード群の一例である。正解と書かれた行が
記入内容であり、入力文字コードと書かれた各行が図1
の入力文字コード11であって文字認識結果であり、一
例としてここでは各記載文字に対して文字認識は1位〜
6位の6候補を出力するものとしている。
所単語群と照合する。住所単語群の例を図4に、これを
照合した結果を図5に夫々示す。
に表現したもので、一つの枠が一単語に相当し、矢印で
住所が階層的に検索できるような構造を表現している。
図5は住所照合部の処理結果である。
いて判定された部分には下線部を施し、未照合の部分は
空白で表現するもとする。従って、住所照合部12にお
ける本動作例では、住所照合結果により「世田谷区」と
「南烏山」の単語が照合されたことになる。
いて未照合の部分すなわち集合住宅の部分を、住所照合
部12の住所照合結果の単語と照合をとり、同一単語が
この集合住宅部に存在するかどうか集合住宅部の入力文
字コードより検索する。
単語を用いて検索を行い、図6の矢印の位置を単語の先
頭位置として「南烏山」が検出される。次に矢印の照合
位置において、単語の先頭および末尾から夫々単語中で
最初に照合の行われた文字および最後に照合の行われた
文字をチェックしこの間を地名照合部の結果とする。
合の行われた文字,「山」が最後に照合の行われた文字
であり、「烏山」の部分が照合されたことになる。
「号」「号室」「方」「様方」等、通常、集合住宅部の
末尾に記載される文字を検出する。図7に本処理後の結
果を示す。
分の末尾から連続するアルファベット,―(ハイフン)
あるいは数字の文字列を抽出する。抽出文字数は―(ハ
イフン)がある場合で最大5文字、ない場合で4文字に
制限し、この範囲内でこれらの文字が検出されるまで処
理を続ける。本処理の例を図8に示す。
な集合住宅単語群を用いて、入力文字コードの未照合部
分を照合する。本処理の例を図10に示す。ここで、集
合住宅単語群を図9に示すごとく予め一般と集合住宅登
録単語群と固有集合住宅登録単語群とに分類しておき、
一般集合住宅登録単語群に関しては一つ以下、固有集合
住宅登録単語群に関しては複数の単語の選択を夫々行う
ことにより、マンション/アパート等の一般単語が同一
記載内に一つしか判定されなくなって、より矛盾の少な
い文字認識が可能となる。
に住所文字認識後処理としてしばしば併用される姓名処
理用辞書を利用して、姓名単語の照合を追加すれば、図
2Eに示すごとき姓名を利用した集合住宅の照合も可能
となる。
所照合結果の単語をもとに、住所単語群(住所照合部1
2で用いられる辞書)を逆検索するようにすれば、関連
単語を住所単語群から選択することができることにな
る。これにより、図2Cに示すごとく、住所部とは異
なる単語の地名(東京)を集合住宅部に用いたものの
認識が可能となるのである。
際して、前述した住所単語群に最寄りの駅名が併記して
あれば、住所照合結果から最寄り駅名を検索するように
して、図2Dに示すような駅名を利用したと思われる集
合住宅も照合が可能となる。
住宅単語群を登録した辞書のみを新たに追加するだけ
で、他は既存の住所単語群や、姓名辞書等を利用して集
合住宅を含む住所の文字認識が可能となるという効果が
ある。
る。
る。
Claims (5)
- 【請求項1】 入力された文字認識結果の文字コード群
を、予め格納されている住所単語群と照合をとり前記文
字認識結果の確認補正を行う住所照合手段を有する住所
文字の認識処理装置であって、前記文字コード群のうち
前記住所照合手段により確認補正が行われなかった未処
理部分と前記住所照合手段による住所照合結果とを照合
して地名部分の検索をなす地名照合手段と、前記未処理
部分の末尾の文字コード群を確認補正する末尾照合手段
と、前記末尾照合手段の処理までに確認補正が行われな
かった文字コード群から連続する数字,アルファベット
文字列を抽出する数字照合手段と、前記数字照合手段の
処理までに確認補正が行われなかった文字コード群を、
予め登録された集合住宅単語群と照合をとり文字認識結
果の確認補正を行う集合住宅単語照合手段とを含むこと
を特徴とする文字認識処理装置。 - 【請求項2】 前記集合住宅単語照合手段は、予め登録
された一般集合住宅単語からなる一般集合住宅登録単語
群により文字認識結果の確認照合を行う第1の集合住宅
単語照合部と、予め登録された固有集合住宅単語からな
る固有集合住宅単語登録群により文字認識結果の確認照
合を行う第2の集合住宅単語照合部とを有することを特
徴とする請求項1記載の文字認識処理装置。 - 【請求項3】 前記地名照合手段は、前記住所照合手段
による住所照合結果をもとに前記住所単語群を検索して
地名照合用単語を選択する地名単語生成部と、この選択
された地名単語により前記文字コード群の確認補正をな
す地名照合部とを有することを特徴とする請求項1また
は2記載の文字認識処理装置。 - 【請求項4】 前記地名照合手段は、各住所に対応した
最寄り駅の駅名情報を付加した住所辞書と、前記住所照
合結果をもとに前記住所辞書を検索して関連住所に対応
する最寄り駅単語を選択する地名単語生成部とを有する
ことを特徴とする請求項1,2または3記載の文字認識
処理装置。 - 【請求項5】 前記集合住宅単語照合手段の処理の後
に、姓名辞書による文字認識結果の確認補正を行う姓名
照合手段を付加したことを特徴とする請求項1,2,3
または4記載の文字認識処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3242667A JP2795003B2 (ja) | 1991-08-28 | 1991-08-28 | 文字認識処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3242667A JP2795003B2 (ja) | 1991-08-28 | 1991-08-28 | 文字認識処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0554198A JPH0554198A (ja) | 1993-03-05 |
JP2795003B2 true JP2795003B2 (ja) | 1998-09-10 |
Family
ID=17092452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3242667A Expired - Lifetime JP2795003B2 (ja) | 1991-08-28 | 1991-08-28 | 文字認識処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2795003B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4584507B2 (ja) * | 2000-09-11 | 2010-11-24 | 富士通株式会社 | 住所認識装置、記録媒体及びプログラム |
-
1991
- 1991-08-28 JP JP3242667A patent/JP2795003B2/ja not_active Expired - Lifetime
Non-Patent Citations (2)
Title |
---|
情報処理学会全国大会講演論文集、VOL.38TH (1989),NO.2,PAGE.649 |
情報処理学会全国大会講演論文集、VOL.41TH (1990),NO.2,PAGE.2−142 |
Also Published As
Publication number | Publication date |
---|---|
JPH0554198A (ja) | 1993-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7769778B2 (en) | Systems and methods for validating an address | |
JPS6262387B2 (ja) | ||
US20020064311A1 (en) | Apparatus and method for retrieving character string based on classification of character | |
JP2001291060A (ja) | 単語列照合装置および単語列照合方法 | |
JPH10230226A (ja) | 住所読み取り装置 | |
JP2795003B2 (ja) | 文字認識処理装置 | |
JPS6262388B2 (ja) | ||
JP2586372B2 (ja) | 情報検索装置及び情報検索方法 | |
JP2655087B2 (ja) | 文字認識後処理方式 | |
JPH0441388B2 (ja) | ||
JP2671311B2 (ja) | 住所読取装置 | |
JP2942375B2 (ja) | 文字読取装置 | |
JP4584507B2 (ja) | 住所認識装置、記録媒体及びプログラム | |
JPH07271920A (ja) | 文字認識装置 | |
JP2874199B2 (ja) | 単語辞書照合装置 | |
JP2839515B2 (ja) | 文字読取システム | |
JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
JPH05258100A (ja) | 文字認識装置 | |
JP2865443B2 (ja) | カナ氏名もしくはカナ法人名表記の漢字変換装置 | |
JPS61161588A (ja) | 文字認識後処理方式 | |
JPH06103404A (ja) | 名刺認識装置 | |
JPH04280394A (ja) | 文字認識装置及び認識文字確定方法 | |
JPH076213A (ja) | 文字列認識装置 | |
JPH1115920A (ja) | 文字認識結果修正方法及び装置、記録媒体 | |
JP2001084262A (ja) | シンボル名検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080626 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090626 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100626 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100626 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110626 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110626 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 14 |