JP5750930B2 - 住所認識装置、データベース更新方法およびプログラム - Google Patents

住所認識装置、データベース更新方法およびプログラム Download PDF

Info

Publication number
JP5750930B2
JP5750930B2 JP2011031745A JP2011031745A JP5750930B2 JP 5750930 B2 JP5750930 B2 JP 5750930B2 JP 2011031745 A JP2011031745 A JP 2011031745A JP 2011031745 A JP2011031745 A JP 2011031745A JP 5750930 B2 JP5750930 B2 JP 5750930B2
Authority
JP
Japan
Prior art keywords
address
information
last name
database
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011031745A
Other languages
English (en)
Other versions
JP2012173750A (ja
Inventor
寛光 森
寛光 森
里志 和田
里志 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011031745A priority Critical patent/JP5750930B2/ja
Publication of JP2012173750A publication Critical patent/JP2012173750A/ja
Application granted granted Critical
Publication of JP5750930B2 publication Critical patent/JP5750930B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、郵便物の自動的仕分等に用いられる住所認識装置、住所認識装置等の知識処理データベースの更新に用いられるデータベース更新方法およびプログラムに関する。
紙葉類に住所とそれに対応する姓名が記載されている代表的な例として郵便物が挙げられる。また、それら郵便物から宛名(郵便番号、都道府県、市町村、丁目、番地、会社名、宛先氏名等)及び、カスタマーバーコードを読み取り、読み取った情報から導き出される仕分け区分情報(例えば、仕分け区分コード)に基づいて、郵便物を自動的に仕分け区分する郵便物自動区分機が知られている。
郵便物自動区分機は、郵便物の画像を取得し、取得した画像を、住所認識部(OCR;Optical Character Reader)およびカスタマーバーコード読取部(CBCR;Customer Bar Code Reader)に出力し、宛名情報の読み取りを行っている。住所認識部は、知識処理を用いて住所データベースを参照し、住所コードを導出している。また、住所コードが郵便物を仕分け区分するために不十分な場合の処理として、更に宛名氏名を読み取り、住所姓名データベースを検索して、宛名氏名に対応する住所を読み出し、読み取れなかった住所階層を補完する処理が知られている。
しかしながら、宛名氏名から住所を補完するために用いる住所姓名データベースは、通常、人手により整備されているため、データ漏れが発生するおそれがある。例えば、会社や学校の寮など入居者数が多く、出入りが頻繁に発生する住居において、これらの住所姓名データベースを修正するために、仕分け区分できなかった住所一覧を帳票等に印刷し、人手によって調査・登録等の作業を行うと、データ漏れが発生するおそれがあり、さらには、時間がかかってしまい効率が悪い。住所姓名データベースのデータ漏れは、住所階層補完処理の効果を薄め、仕分け区分率を低下させる原因となる。
そこで、OCRを用いて自動若しくは半自動にて住所姓名データベースを整備する方法が提案されている。例えば、特許文献1に記載される住所認識装置及び方法では、郵便物画像より読み取られる宛名及び住所を宛名データベースに登録して、同一の宛名及び住所の読み取り回数を計数し、当該同一の宛名及び住所の読み取り回数が、予め定められた読み取り回数基準値以となったと判定すると、この読み取り結果の宛名及び住所を宛名辞書(住所姓名データベース)に反映させる。
特開2000−279894号公報
しかしながら、特許文献1に記載される住所認識装置及び方法では、OCRが読み間違えた住所情報が、そのまま宛名辞書(住所姓名データベース)に登録されてしまうおそれがある。
本発明は、上述の課題を解決することのできる住所認識装置、データベース更新方法およびプログラムを提供することを目的としている。
この発明は上述した課題を解決するためになされたもので、本発明の一態様による住所認識装置は、住所及び姓名の文字と共に、住所情報を含むバーコードが記載された紙葉類の画像を読み取るスキャナ部と、前記スキャナ部からの紙葉類の読取り画像から文字認識により住所情報を取得する住所認識部と、前記スキャナ部からの紙葉類の読取り画像中のバーコードから住所情報を取得するバーコード読取部と、前記住所認識部から出力された住所情報と前記バーコード読取部から出力された住所情報とを比較して、前記スキャナ部により読み取った住所情報の信頼性を評価する住所コード評価部と、住所情報とそれに対応する姓名情報とが蓄積されている住所姓名データベースと、前記スキャナ部からの紙葉類の読取り画像から文字認識により姓名情報を取得すると共に、前記住所姓名データベースの検索を行い、前記スキャナ部により読み取った住所及び姓名情報が前記住所姓名データベースに登録済みか否かを判定する姓名認識部と、前記姓名認識部が未登録と判定した場合に、前記住所コード評価部による住所情報の信頼性評価結果に基づいて、前記住所情報が信頼性ありと判定されたときに、前記住所姓名データベースの更新を行う自動更新部と、前記姓名認識部が未登録と判定した場合に、予め定められた信頼性判定条件に従って、前記姓名認識部が文字認識により取得した前記姓名情報の信頼性を評価するデータベース更新情報評価部と、を備え、前記自動更新部は、前記データベース更新情報評価部が、前記姓名情報が信頼性ありと判定した場合に、前記住所姓名データベースの更新を行う、ことを特徴とする。
また、本発明の一態様によるデータベース更新方法は、住所情報とそれに対応する姓名情報とが蓄積されている住所姓名データベースを備える住所認識装置のデータベース更新方法であって、住所及び姓名の文字と共に、住所情報を含むバーコードが記載された紙葉類の画像を読み取るスキャンステップと、前記スキャンステップにて読み取った前記紙葉類の読取り画像から文字認識により住所情報を取得すると共に、前記スキャンステップにて読み取った前記紙葉類の読取り画像中のバーコードから住所情報を取得する住所情報取得ステップと、前記文字認識にて得られた住所情報と前記バーコードから得られた住所情報とを比較して、前記スキャンステップにて読み取った住所情報の信頼性を評価する住所情報評価ステップと、前記スキャンステップにて読み取った前記紙葉類の読取り画像から文字認識により姓名情報を取得すると共に、前記住所姓名データベースの検索を行い、前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに登録済みか否かを判定する姓名認識ステップと、前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに未登録と判定した場合に、前記住所情報の信頼性評価結果に基づいて、前記住所情報が信頼性ありと判定されたときに、前記住所姓名データベースの更新を行自動更新ステップと、前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに未登録と判定した場合に、予め定められた信頼性判定条件に従って、前記文字認識により取得した前記姓名情報の信頼性を評価するデータベース更新情報評価ステップと、を備え、前記自動更新ステップでは、前記データベース更新情報評価ステップにて、前記姓名情報が信頼性ありと判定した場合に、前記住所姓名データベースの更新を行う、ことを特徴とする。
また、本発明の一態様によるプログラムは、住所情報とそれに対応する姓名情報とが蓄積されている住所姓名データベースを備える住所認識装置としてのコンピュータに、住所及び姓名の文字と共に、住所情報を含むバーコードが記載された紙葉類の画像を読み取るスキャンステップと、前記スキャンステップにて読み取った前記紙葉類の読取り画像から文字認識により住所情報を取得すると共に、前記スキャンステップにて読み取った前記紙葉類の読取り画像中のバーコードから住所情報を取得する住所情報取得ステップと、前記文字認識にて得られた住所情報と前記バーコードから得られた住所情報とを比較して、前記スキャンステップにて読み取った住所情報の信頼性を評価する住所情報評価ステップと、前記スキャンステップにて読み取った前記紙葉類の読取り画像から文字認識により姓名情報を取得すると共に、前記住所姓名データベースの検索を行い、前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに登録済みか否かを判定する姓名認識ステップと、前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに未登録と判定した場合に、前記住所情報の信頼性評価結果に基づいて、前記住所情報が信頼性ありと判定されたときに、前記住所姓名データベースの更新を行自動更新ステップと、前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに未登録と判定した場合に、予め定められた信頼性判定条件に従って、前記文字認識により取得した前記姓名情報の信頼性を評価するデータベース更新情報評価ステップと、を実行させ、前記自動更新ステップでは、前記データベース更新情報評価ステップにて、前記姓名情報が信頼性ありと判定した場合に、前記住所姓名データベースの更新を行わせる、ためのプログラムである。
本発明によれば、OCRが住所情報を読み間違えた場合にも、正しい住所情報を住所姓名データベースに登録し得る。
本発明の第1の実施形態に係る住所認識装置の構成を示すブロック図である。 同実施形態に係る住所認識装置のデータベース更新手順を示すフローチャートである。 同実施形態に係る紙葉類の読取り画像の説明図である。 同実施形態に係る住所姓名データベースの例を示す説明図である。 同実施形態に係る住所姓名情報蓄積部の例を示す説明図である。 同実施形態に係るデータベース登録情報表示修正部が表示する画面の例を示す説明図である。
以下、本発明の実施の形態について図面を参照しながら説明する。図1は、本発明の実施形態に係る住所認識装置の構成を示すブロック図である。
同図において、住所認識装置100は、スキャナ部1と、住所認識部2と、カスタマーバーコード読取部(バーコード読取部)3と、住所コード評価部4と、姓名認識部5と、住所姓名データベース(Database;DB)6と、データベース更新情報評価部7と、住所姓名情報蓄積部8と、データベース更新情報表示修正部9と、自動更新部10とを具備する。
なお、ここでいう「カスタマーバーコード」は、郵便物の処理を自動化するために使用されているバーコードであり、郵便番号と住所とを組み合わせた住所コードの情報をバーコード化したものである。例えば、「東京都府中市日新町1−1−10日電寮103」の場合、「東京都府中市日新町」の郵便番号「183−0036」と、番地等とに基づいて、住所コードは「18300361−1−10−103」となる。この住所コードに対して、桁数調整やチェックデジット付加やコード化など所定の処理を行うことにより、カスタマーバーコードが得られる。
スキャナ部1は、住所及び姓名の文字と共にカスタマーバーコードが記載された紙葉類の画像を、スキャンして読み取り、読み取られた画像をデジタル画像データに変換して、住所認識部2及びカスタマーバーコード読取部3へ出力する。
住所認識部2は、スキャナ部1からの紙葉類の読取り画像から住所の文字に相当する部分を抽出し、OCRによる文字認識を行って住所情報を取得する。そして、住所認識部2は、取得した住所情報を住所コードに変換して、住所コード評価部4へ出力する。このとき、住所認識部2は、スキャナ部1からの紙葉類の読取り画像も、住所コードと共に、住所コード評価部4に出力する。
カスタマーバーコード読取部3は、スキャナ部1からの紙葉類の読取り画像から、カスタマーバーコード情報を読み取り、住所コードに変換し、住所コード評価部4へ出力する。
住所コード評価部4は、住所認識部2から出力された住所コードと、カスタマーバーコード読取部3から出力された住所コードとを比較し、住所コードの信頼性を評価する。例えば、住所コード評価部4は、住所コードの各要素(郵便番号、街区番号及び住居番号)の比較を行うことで、住所コードの信頼性を検証する。住所コード評価部4は、住所認識部2から出力された住所コードとカスタマーバーコード読取部3から出力された住所コードとが一致している場合には、住所コードの信頼性が高いとして、姓名認識部5に住所コードを出力する。このとき、住所コード評価部4は、スキャナ部1からの紙葉類の読取り画像も、住所コードと共に、姓名認識部5に出力する。
住所姓名データベース6は、住所情報とそれに対応する姓名情報とを蓄積している。この住所姓名データベース6は、郵便物自動区分けにおいて読み取り判定を行う際に、知識データベースとして利用される。
姓名認識部5は、スキャナ部1からの紙葉類の読取り画像中の、姓名の文字に相当する部分を抽出し、OCRによる文字認識を行って姓名情報を取得する。さらに、姓名認識部5は、読み取った姓名情報の各文字認識結果情報(距離値)や、記載特徴情報(単独行か否か、および、「様」「殿」等のキーワードの有無)を取得する。ここで、距離値としては、例えば、文字認識処理を行った際の、認識対象とされた文字と基準となるパターンとの間のユークリッド距離を用いる。この距離値は、文字認識結果の確からしさを示す指標値として用いられる。
また、姓名認識部5は、住所姓名データベース6を検索することで、読み取った住所コードに対応する姓名情報が住所姓名データベース6に既に登録されているか否かを判定する。読み取った住所コードに対応する姓名情報が住所姓名データベース6に未登録であると判定した場合、姓名認識部5は、読み取った姓名情報及びこれに対応する住所コードをデータベース更新情報評価部7へ出力する。このとき、姓名認識部5は、読み取った姓名情報及びこれに対応する住所コードと共に、紙葉類の読取り画像と、読み取った姓名情報の各文字認識結果情報(距離値)と、記載特徴情報(単独行か否か、および、「様」「殿」等のキーワードの有無)とをデータベース更新情報評価部7へ出力する。
データベース更新情報評価部7は、姓名認識部5から、住所姓名データベース6に未登録の姓名情報を受け取ると、これと共に送られてきた姓名読取時の各文字認識結果情報(距離値)と、記載特徴情報(単独行否か、および、「様」「殿」等のキーワードの有無)とを、信頼性判定条件に適用して、姓名認識部5が読み取った姓名情報の信頼性を評価する。ここで、各文字認識結果の距離値が所定の閾値以下であれば、文字認識の信頼性が高いと評価できる。また、姓名の行数が単独行であれば、姓名である信頼性が高いと評価できる。また、「様」「殿」等のキーワードが有れば、姓名である信頼性が高いと評価できる。そこで、データベース更新情報評価部7は、例えば以下の信頼性判定条件を用いて、姓名情報の信頼性を評価する。
(1)各文字認識結果の距離値が、所定の閾値以下である。
(2)姓名の行数が1(単独行)である。
(3)「様」「殿」等のキーワードがある。
なお、ここに挙げた信頼性判定条件は一例であり、この信頼性判定条件は、これに限定されるものではない。また、これらの条件を全て用いても良いし、これらの条件の1つを用いても良いし、これらの組み合わせを用いても良い。
また、データベース更新情報評価部7は、住所姓名情報蓄積部8に、同一住所及び姓名の情報の出現回数を問い合わせる。すなわち、正しい更新情報であれば、同じ住所及び姓名で、既に何件かの認識処理が行われた可能性が高い。そこで、住所姓名情報蓄積部8は、住所姓名情報蓄積部8に同一住所及び姓名の情報の出現回数を問い合わせ、信頼性を判定する。
また、データベース更新情報評価部7は、住所姓名情報蓄積部8からの情報により、同一住所及び姓名の情報の出現回数が規定回数以下か否かを判定する。規定回数以下であると判定した場合、データベース更新情報評価部7は、住所コードと、姓名情報と、紙葉類の読取り画像とを住所姓名情報蓄積部8に出力する。
一方、同一住所及び姓名情報の出現回数が規定回数以上であると判定した場合、データベース更新情報評価部7は、前述した信頼性判定条件を満たしているか否かを判定する。信頼性判定条件を満たしていると判定した場合、データベース更新情報評価部7は、住所コードの示す住所に対応する姓名情報が1つか否かをさらに判定する。住所に対応する姓名情報が1つであると判定した場合、住所とこれに対応する姓名の更新情報が一意に定まるので、データベース更新情報評価部7は、登録すべき住所コード及び姓名情報を自動更新部10に出力することにより、住所姓名データベース6の自動更新を行う。
一方、住所に対応する姓名情報が複数あり、住所及び姓名の更新情報が一意に定まらない場合は、手動更新となり、データベース更新情報評価部7は、更新対象の紙葉類の読取り画像情報、住所コード及び姓名情報を住所姓名情報蓄積部8へ要求し、住所姓名情報蓄積部8から出力されるデータをデータベース更新情報表示修正部9に出力する。
住所姓名情報蓄積部8は、データベース更新情報評価部が信頼性ありと判定した住所コードと、姓名情報と、紙葉類の読取り画像と、同一住所及び姓名情報の出現回数とを蓄積しており、データベース更新情報評価部7からの要求に対して、住所コードや、姓名情報や、紙葉類の読取り画像や、出現回数情報を出力する。
データベース更新情報表示修正部9は、データベース更新情報評価部7から出力された住所情報と、姓名情報と、該当紙葉類の読取り画像とを、グラフィックユーザーインターフェイスを用いて画面上に表示させ、オペレーターの入力操作に基づく(手動による)住所姓名データベース6の更新を行う。
図2は、住所認識処理100における住所姓名データベース更新手順を示すフローチャートである。
同図において、住所姓名認識処理がスタートすると、スキャナ部1は、紙葉類をスキャンし、デジタル画像データに変換して、住所認識部2とカスタマーバーコード読取部3とに送る(ステップA1)。
次に、カスタマーバーコード読取部3は、スキャナ部1から送られてきた紙葉類の読取り画像中のカスタマーバーコードを読み取り、住所コードに変換して、住所コード評価部4に出力する(ステップA2)。また、住所認識部2は、スキャナ部1から送られてきた紙葉類の読取り画像中の住所の文字情報を認識し、住所コードに変換して、紙葉類の読取り画像と併せて住所コード評価部4へ出力する(ステップA3)。
住所認識部2からの住所コード及びカスタマーバーコード読取部3からの住所コードの出力を受けると、住所コード評価部4は、住所認識部2からの住所コードとカスタマーバーコード読取部3からの住所コードとが同一か否かを判定する(ステップA4)。
ステップA4で、住所コードが異なると判定した場合(ステップA4 N)、住所読み取りの信頼性が低いため、住所コード評価部4は、住所姓名データベース6の更新を抑制する。住所姓名データベース6の更新の抑制は、例えば、住所コード評価部4が、住所コード等を姓名認識部5に出力しないことによって行われる。
一方、ステップA4で、住所コードが同一であると判定した場合(ステップA4 Y)、住所コード評価部4は、紙葉類の読取り画像と住所コードとを姓名認識部5へ出力する。
姓名認識部5は、紙葉類の読取り画像から姓名記載位置を特定し、姓名の文字認識を行う(ステップA5)。姓名認識部5は、姓名を読み取るにあたり、記載特徴情報(単独行か否か、および、「様」「殿」等のキーワードの有無)、各文字認識結果情報(距離値)も併せて取得する。
また、姓名認識部5は、住所コードに対応する姓名情報が住所姓名データベース6に登録されているか否かの判定を行う(ステップA6)。ステップA6で、住所コードに対応する姓名情報が既に住所姓名データベース6に登録済みと判定した場合(ステップA6 Y)、同図の処理を終了する。
一方、ステップA6で、読み取った住所コードに対応する姓名情報が住所姓名データベース6に登録されていないと判定した場合(ステップA6 N)、姓名認識部5は、住所コードと、紙葉類の読取り画像と、記載特徴情報(単独行か否か、および、「様」「殿」等のキーワードの有無)と、姓名文字認識したときの各文字認識結果情報(距離値)とをデータベース更新情報評価部7へ出力する。データベース更新情報評価部7は、記載特徴情報および各文字認識結果を上述の信頼性判定条件に適用して(ステップA7)、信頼先判定条件を満足しているか否かを判定する(ステップA8)。
信頼性判定条件を1つでも満たしていないと判定した場合(ステップA8 N)、データベース更新情報評価部7は、姓名らしさの信頼性が低いとして、住所姓名データベース6の更新を行わない。
一方、ステップA8において、信頼性判定条件を全て満たしていると判定した場合(ステップA8 Y)、データベース更新情報評価部7は、登録しようとしている住所コードの出現回数を住所姓名情報蓄積部8へ問い合わせ、出現回数が規定回数以上か否かを判定する(ステップA9)。
ステップA9で、出現回数が規定回数未満であると判定した場合(ステップA9 N)、データベース更新情報評価部7は、住所コードと、姓名情報と、対象となる紙葉類の読取り画像とを住所姓名情報蓄積部8へ出力する(ステップA10)。そして、住所姓名情報蓄積部8は、データベース更新情報評価部7から出力されたデータを未登録の場合は新たに登録し、一方、登録済みである場合は、出現回数をカウントアップする(1増やす)。
一方、ステップA9で、出現回数が規定回数以上であると判定した場合(ステップA9 Y)、データベース更新情報評価部7は、住所コードの示す住所に対応する姓名情報が、住所姓名情報蓄積部8に1つだけ蓄積されているか否かを判定する(ステップA11)。
ステップA11で、住所に対応する姓名情報が1つであると判定した場合(ステップA11 Y)、更新すべき住所及び姓名情報が一意に定まるので、データベース更新情報評価部7は、住所姓名情報を自動更新部10へ出力し、自動更新部10は住所姓名データベース6の自動更新を行う(ステップA12)。
一方、ステップA11で、住所に対応する姓名情報が複数あると判定した場合(ステップA11 N)、更新すべき住所及び姓名情報が一意に定まらないので、データベース更新情報評価部7は、住所姓名情報蓄積部8に対して、登録住所コードとそれに対応する複数の姓名情報、対象紙葉類の読取り画像を要求する。そして、データベース更新情報評価部7は、住所姓名情報蓄積部8から受け取った住所コードと、複数の姓名情報と、対象となる紙葉類の読取り画像とを、データベース更新情報表示修正部9へ出力する。データベース更新情報表示修正部9は、その具備するグラフィックユーザーインターフェイスを用いて、DB更新情報評価部7から出力された紙葉類の読取り画像と認識結果とを表示し、住所コードの修正、又は複数ある姓名候補の選択若しくは修正をオペレーターに要求する。オペレーターによる修正等の処理が完了したら、データベース更新情報表示修正部9は、当該住所および姓名を、住所姓名データベース6に登録する(ステップA13)。
次に、本発明の実施形態に係る住所認識装置における住所姓名データベース6の更新の具体例について説明する。
ここで、スキャナ部1で紙葉類を読み取ったときに、図3に示すような紙葉類の読取り画像51が得られたとする。この紙葉類の読取り画像51には、住所に対応する文字52として、「東京都府中市日新町1−1−10日電寮103」が記載され、姓名に対応する文字53として、「日電太郎様」が印字されている。また、紙葉類の読取り画像51には、カスタマーバーコード54が記載されている。
図3に示すような紙葉類の読取り画像51は、スキャナ部1においてデジタル画像データに変換され、住所認識部2及びカスタマーバーコード読取部3へ送られる。
カスタマーバーコード読取部3において、カスタマーバーコード54が読み取られ、住所コードに変換される。ここでは、図3におけるカスタマーバーコード54から住所コード「18300011−1−10−103」と変換されたとする。この住所コードは、カスタマーバーコード読取部3から住所コード評価部4へ出力される。
また、住所認識部2において、紙葉類の読取り画像中の文字52の部分がOCRで文字認識される。ここでは、住所認識部2で紙葉類の読取り画像から「東京都府中市日新町1−1−10日電寮103」の住所が文字認識されたとする。また、住所認識部2において、読み取られた住所の文字から住所コードへの変換が行われる。ここでは、「東京都府中市日新町1−1−10日電寮103」の住所から、住所コード「18300011−1−10−103」に変換されたとする。この住所コードは、認識処理に用いた紙葉類の読取り画像と併せて、住所認識部2から住所コード評価部4へ出力される。
住所コード評価部4は、住所認識部2からの住所コードと、カスタマーバーコード読取部3からの住所コードとを比較評価する。この例では、文字52を認識して得られた住所情報から変換された住所コードは「18300011−1−10−103」であり、カスタマーバーコード54から変換された住所コードは「18300011−1−10−103」であり、住所認識部2からの住所コードと、カスタマーバーコード読取部3からの住所コードとが一致している。このため、住所コード評価部4は、信頼性が高いとして、住所コードと、紙葉類の読取り画像51を姓名認識部5へ出力する。住所コードが異なる場合は、住所姓名データベース6への登録は行わない。
姓名認識部5では、入力された紙葉類の読取り画像51から、姓名の文字53の位置を特定し、姓名の文字認識を行う。また、姓名を読み取るにあたり、各文字認識結果情報(距離値)と、記載特徴情報(単独行か否か、および、「様」「殿」等のキーワードの有無)とを取得する。そして、姓名認識部5は、住所姓名データベース6に対して、住所コードと読み取った姓名情報とが既に登録されているか否かの確認を行う。この例では、姓名認識部5において、図3に示した紙葉類の読取り画像51中の文字53の部分から、「日電太郎」が姓名情報として取得されたとする。この場合、姓名認識部5は、住所コード「18300011−1−10−103」に、姓名「日電太郎」が登録されているか否かを住所姓名データベース6に問い合わせる。
図4は、住所姓名データベース6の一例を示す。同図に示すように、住所姓名データベース6には、郵便番号、丁目、番地、号、号棟、部屋番、世帯主姓、世帯主名、集合住宅名からなる住所姓名データが登録されている。同図に示す住所姓名データベース6の例では、住所コード「18300011−1−10−103」、姓名「日電太郎」に対応する情報は存在していない。したがって、この情報は住所姓名データベース6に未登録である。
姓名認識部5において、住所姓名データベース6に未登録と判定した場合、姓名認識部5は、認識された姓名情報、住所コード、紙葉類の読取り画像、記載特徴情報(単独行か否か、および、「様」「殿」等のキーワードの有無)、姓名認識の各文字認識結果情報(距離値)をデータベース更新情報評価部7に送る。
データベース更新情報評価部7は、姓名認識部5から送られてきた記載特徴情報と、各文字認識結果とを用いて、信頼性判定条件を満足しているか否かを確認する。すなわち、データベース更新情報評価部7は、信頼性判定条件として、各文字認識結果の距離値が所定値以下か否か、姓名の行数が1(単独行)か否か、「様」「殿」等のキーワードがあるか否かを確認する。図3に示す紙葉類の読取り画像51の例では、姓名に対応する文字53は単独行であり、キーワード「様」があり、これらの信頼性判定条件を満足している。
全ての信頼性判定条件を満たしていると判定した場合、データベース更新情報評価部7は住所姓名情報蓄積部8に、対象となる住所コードの出現回数を問い合わせる。出現回数が規定回数以下であると判定した場合、データベース更新情報評価部7は住所姓名情報蓄積部8に、住所コードと、姓名情報と、紙葉類の読取り画像と、出現回数とを蓄積する。出現回数が規定回数以上で、住所コードに対する姓名登録が1つの場合は、自動更新部10へ住所コードと姓名情報を出力し、自動更新部10によって住所姓名データベース6が自動更新される。住所コードに対する姓名登録が複数の場合は、データベース更新情報表示修正部9に、紙葉類の読取り画像と、住所情報と、姓名情報が送られ、オペレーターによる情報入力がなされる。
図5は、住所姓名情報蓄積部8の蓄積する情報の一例を示す。同図に示すように、住所姓名情報蓄積部8には、出現回数、郵便番号、丁目、番地、号、号棟、部屋番、世帯主姓、世帯主名、集合住宅名からなるデータが登録されている。同図に示す住所姓名情報蓄積部8の情報において、住所コード「18300011−1−10−103」に対応する情報は2つあり、一方は姓名が「日電太郎」で、その出現回数は101回であり、他方は姓名が「日電大郎」で、その出現回数は30回である。
この例では、このように、住所コード「18300011−1−10−103」に対して、出現回数が規定回数以上となる姓名情報が複数あるため、自動更新は行われず、データベース更新情報評価部7は住所コード「18300011−1−10−103」に対する姓名情報(2つ)とそれに対応する紙葉類の読取り画像を住所姓名情報蓄積部8に要求し、この姓名情報と紙葉類の読取り画像がデータベース更新情報表示修正部9に出力される。
データベース更新情報表示修正部9は、画像表示用のディスプレイ、情報入力用のマウス及びキーボードを備えており、住所コードと、それに対応する複数の姓名情報と、紙葉類の読取り画像を基にグラフィックユーザーインターフェイス画面をディスプレイに表示する。このグラフィックユーザーインターフェイス画面を用いて、オペレーターの情報入力がなされる。
図6に、データベース更新情報表示修正部9における画像表示例を示す。同図に示すデータベース更新情報表示修正部9の表示画面は、画面最上段に示されている住所コード表示部101、二段目以降に示されている姓名情報表示部102、画像表示部103、および、最下部に示されているコマンドボタン部104に分かれている。住所コード表示部101は、読み取られた住所コードを示す。姓名情報表示部102は、住所コード表示部101に対応する姓名情報を表示している。
画像表示部103は、姓名情報表示で選択されている姓名情報を読み取った元のスキャン画像を表示する。姓名情報表示部102の姓名候補の選択をマウスで変更することで、画面表示に表示される画像も対象の画像に切り替わる。
コマンドボタン部104は、「更新」、「修正」、「更新せず」の3つのボタンを備えている。更新ボタン104aは、当該ボタンを押す(例えばマウスクリックする)ことで住所姓名データベースを更新することができる。修正ボタン104bは、間違っている住所コード若しくは姓名情報をマウスで選択した後、キーボード入力を用いて情報を修正することができる。更新せずボタン104cは、画像中の住所又は姓名が窓枠等で隠れ、登録か否か判断できない場合に使用する。更新せずボタン104cが押された時には、住所姓名データベース6は更新されることなく処理を終了する。
オペレーターは、データベース更新情報表示修正部9の画面に表示された住所コードと姓名情報と画像を目視で確認し、修正が必要な場合は修正ボタン104bで修正後、更新が可能であれば更新ボタン104aを押すことで、住所姓名データベース6を更新することができる。住所認識装置100では、データベース更新情報表示修正部9の画面に、住所コード、姓名情報、画像の3つをセットにして同時に表示している。これにより、自動登録が困難であった場合の画像について、適切に住所姓名データベース6の内容に展開することが可能となる。
上述の例では、住所姓名データベース6のデータ登録を例に挙げたが、還付郵便物のように、住所姓名データベース6に登録されている姓名データを削除したい場合においても、スキャナで削除したい姓名データが記載された紙葉類をスキャンし、図2のステップA6において、住所姓名データベースの登録がある場合にステップA7以降の処理を行い、住所姓名データベース更新の際、姓名情報を削除することで、姓名データ削除が可能となる。
以上のように、住所認識装置100では、住所認識部2で認識された住所コードと、カスタマーバーコード読取部3で認識された住所コードとを、住所コード評価部4が比較して信頼性評価することで、住所情報を正しく抽出することができる。
また、姓名情報についても、データベース更新情報評価部7が、信頼性判定条件を満足するか否かを判定することで、読み取った姓名の信頼性を評価することができ、姓名情報を正しく抽出することができる。
また、データベース更新情報評価部7が、住所認識結果と姓名認識結果とが、規定の出現回数以上であるか否か(すなわち、当該住所と姓名との組み合わせが、住所認識部2および姓名認識部6によって読み取られた回数が、所定の閾値以上か否か)を判定することで、読み取った住所および姓名の信頼性を、より適切に評価することができ、姓名情報を正しく抽出することができる。
また、データベース更新情報評価部7が、住所認識結果と姓名認識結果とが、一意に決定可能か否か(すなわち、住所姓名情報蓄積部に、当該住所に対応して他の姓名が登録されていないか否か)を判定し、一意に決定可能であると判定した場合に、住所姓名データベースを自動更新可能とし、一方、住所認識結果に対して、姓名情報が一意に決まらないと判定した場合は、グラフィックユーザーインターフェイスを用いて、ユーザによる正解情報の入力を受け付けて手動更新する。これにより、住所認識結果と姓名認識結果とが、一意に決定可能な場合は、自動更新によりユーザの負担の軽減し、一意に決定負荷である場合は、手動更新により誤りの少ない情報を住所姓名データベースに登録または更新することができる。このように、住所認識装置100では、住所姓名データベースの信頼性向上と、ユーザの負担軽減とを両立させることができる。
また、データベース更新情報評価部7が、姓名認識部5の行う文字認識における距離値が所定の閾値以下か否かに基づいて、姓名情報の信頼性を評価するので、スキャナ部1の読み取った氏名の画像が、文字認識において基準となるパターンに類似する場合に、信頼性ありと評価し得る。すなわち、データベース更新情報評価部7は、姓名情報の信頼性を適切に評価することができる。これにより、自動更新部10が、より適切に住所姓名データベース6を更新することができる。
また、データベース更新情報評価部7が、スキャナ部1の読み取ったスキャン画像における姓名の記載特徴情報(単独行か否か、および、「様」「殿」等のキーワードの有無)に基づいて、姓名情報の信頼性を評価するので、姓名情報の信頼性を適切に評価することができる。これにより、自動更新部10が、より適切に住所姓名データベース6を更新することができる。
なお、住所認識装置100の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
1:スキャナ部
2:住所認識部
3:カスタマーバーコード読取部
4:住所コード評価部
5:姓名認識部
6:住所姓名データベース
7:データベース更新情報評価部
8:住所姓名情報蓄積部
9:データベース更新情報表示修正部
10:自動更新部
100:住所認識装置

Claims (7)

  1. 住所及び姓名の文字と共に、住所情報を含むバーコードが記載された紙葉類の画像を読み取るスキャナ部と、
    前記スキャナ部からの紙葉類の読取り画像から文字認識により住所情報を取得する住所認識部と、
    前記スキャナ部からの紙葉類の読取り画像中のバーコードから住所情報を取得するバーコード読取部と、
    前記住所認識部から出力された住所情報と前記バーコード読取部から出力された住所情報とを比較して、前記スキャナ部により読み取った住所情報の信頼性を評価する住所コード評価部と、
    住所情報とそれに対応する姓名情報とが蓄積されている住所姓名データベースと、
    前記スキャナ部からの紙葉類の読取り画像から文字認識により姓名情報を取得すると共に、前記住所姓名データベースの検索を行い、前記スキャナ部により読み取った住所及び姓名情報が前記住所姓名データベースに登録済みか否かを判定する姓名認識部と、
    前記姓名認識部が未登録と判定した場合に、前記住所コード評価部による住所情報の信頼性評価結果に基づいて、前記住所情報が信頼性ありと判定されたときに、前記住所姓名データベースの更新を行う自動更新部と、
    前記姓名認識部が未登録と判定した場合に、予め定められた信頼性判定条件に従って、前記姓名認識部が文字認識により取得した前記姓名情報の信頼性を評価するデータベース更新情報評価部と、
    を備え
    前記自動更新部は、前記データベース更新情報評価部が、前記姓名情報が信頼性ありと判定した場合に、前記住所姓名データベースの更新を行う、
    ことを特徴とする住所認識装置。
  2. 過去に得られた住所及び姓名情報の出現回数を蓄積する住所姓名情報蓄積部を備え、
    前記データベース更新情報評価部は、前記信頼性判定条件に従って前記姓名情報が信頼性ありと判定すると、前記住所姓名情報蓄積部により同一住所及び姓名の情報の出現回数が規定値以上か否かをさらに判定し、
    前記自動更新部は、前記データベース更新情報評価部が前記同一住所及び姓名の情報の出現回数が規定値以上であると判定した場合に、前記住所姓名データベースの更新を行うことを特徴とする請求項に記載の住所認識装置。
  3. 前記データベース更新情報評価部は、住所情報に対する姓名情報が一意に決定できるか否かを判定し、住所情報に対する姓名情報が一意に決定できないと判定した場合に、対象となる住所及び姓名情報と、対象となる紙葉類の読取り画像とを表示し、ユーザの操作に基づいて、前記住所姓名データベースの更新を行うことを特徴とする請求項又はに記載の住所認識装置。
  4. 前記データベース更新情報評価部は、前記姓名認識部が姓名情報を取得する際に行った文字認識における距離値が所定の閾値以下か否かに基づいて、前記姓名情報の信頼性を評価することを特徴とする請求項からのいずれか一項に記載の住所認識装置。
  5. 前記データベース更新情報評価部は、前記スキャナ部の読み取った前記姓名の画像の行数の情報、または、当該姓名の画像に所定のキーワードが含まれるか否かを示す情報を含む、記載特徴情報に基づいて、前記姓名情報の信頼性を評価することを特徴とする請求項からのいずれか一項に記載の住所認識装置。
  6. 住所情報とそれに対応する姓名情報とが蓄積されている住所姓名データベースを備える住所認識装置のデータベース更新方法であって、
    住所及び姓名の文字と共に、住所情報を含むバーコードが記載された紙葉類の画像を読み取るスキャンステップと、
    前記スキャンステップにて読み取った前記紙葉類の読取り画像から文字認識により住所情報を取得すると共に、前記スキャンステップにて読み取った前記紙葉類の読取り画像中のバーコードから住所情報を取得する住所情報取得ステップと、
    前記文字認識にて得られた住所情報と前記バーコードから得られた住所情報とを比較して、前記スキャンステップにて読み取った住所情報の信頼性を評価する住所情報評価ステップと、
    前記スキャンステップにて読み取った前記紙葉類の読取り画像から文字認識により姓名情報を取得すると共に、前記住所姓名データベースの検索を行い、前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに登録済みか否かを判定する姓名認識ステップと、
    前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに未登録と判定した場合に、前記住所情報の信頼性評価結果に基づいて、前記住所情報が信頼性ありと判定されたときに、前記住所姓名データベースの更新を行自動更新ステップと、
    前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに未登録と判定した場合に、予め定められた信頼性判定条件に従って、前記文字認識により取得した前記姓名情報の信頼性を評価するデータベース更新情報評価ステップと、
    を備え
    前記自動更新ステップでは、前記データベース更新情報評価ステップにて、前記姓名情報が信頼性ありと判定した場合に、前記住所姓名データベースの更新を行う、
    ことを特徴とするデータベース更新方法。
  7. 住所情報とそれに対応する姓名情報とが蓄積されている住所姓名データベースを備える住所認識装置としてのコンピュータに、
    住所及び姓名の文字と共に、住所情報を含むバーコードが記載された紙葉類の画像を読み取るスキャンステップと、
    前記スキャンステップにて読み取った前記紙葉類の読取り画像から文字認識により住所情報を取得すると共に、前記スキャンステップにて読み取った前記紙葉類の読取り画像中のバーコードから住所情報を取得する住所情報取得ステップと、
    前記文字認識にて得られた住所情報と前記バーコードから得られた住所情報とを比較して、前記スキャンステップにて読み取った住所情報の信頼性を評価する住所情報評価ステップと、
    前記スキャンステップにて読み取った前記紙葉類の読取り画像から文字認識により姓名情報を取得すると共に、前記住所姓名データベースの検索を行い、前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに登録済みか否かを判定する姓名認識ステップと、
    前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに未登録と判定した場合に、前記住所情報の信頼性評価結果に基づいて、前記住所情報が信頼性ありと判定されたときに、前記住所姓名データベースの更新を行自動更新ステップと、
    前記スキャンステップにて読み取った住所及び姓名情報が前記住所姓名データベースに未登録と判定した場合に、予め定められた信頼性判定条件に従って、前記文字認識により取得した前記姓名情報の信頼性を評価するデータベース更新情報評価ステップと、
    を実行させ
    前記自動更新ステップでは、前記データベース更新情報評価ステップにて、前記姓名情報が信頼性ありと判定した場合に、前記住所姓名データベースの更新を行わせる、
    ためのプログラム。
JP2011031745A 2011-02-17 2011-02-17 住所認識装置、データベース更新方法およびプログラム Expired - Fee Related JP5750930B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011031745A JP5750930B2 (ja) 2011-02-17 2011-02-17 住所認識装置、データベース更新方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011031745A JP5750930B2 (ja) 2011-02-17 2011-02-17 住所認識装置、データベース更新方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2012173750A JP2012173750A (ja) 2012-09-10
JP5750930B2 true JP5750930B2 (ja) 2015-07-22

Family

ID=46976639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011031745A Expired - Fee Related JP5750930B2 (ja) 2011-02-17 2011-02-17 住所認識装置、データベース更新方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5750930B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103909066B (zh) * 2014-04-03 2016-07-06 上海邮政科学研究院 图像信息和网络信息相校验的给据邮件分拣方法及其***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000298701A (ja) * 1999-04-13 2000-10-24 Toshiba Corp 宛先特定装置

Also Published As

Publication number Publication date
JP2012173750A (ja) 2012-09-10

Similar Documents

Publication Publication Date Title
US10552674B2 (en) Computer, document identification method, and system
US7849398B2 (en) Decision criteria for automated form population
US20080170786A1 (en) Image processing system, image processing method, and image processing program
US20080195378A1 (en) Question and Answer Data Editing Device, Question and Answer Data Editing Method and Question Answer Data Editing Program
US20050234851A1 (en) Automatic modification of web pages
JP4867941B2 (ja) 帳票処理方法、帳票処理プログラム、帳票処理装置、および、帳票処理システム
CN106030580B (zh) 商品搜索装置、商品搜索***、服务器***及商品搜索方法
US20150186739A1 (en) Method and system of identifying an entity from a digital image of a physical text
US9256805B2 (en) Method and system of identifying an entity from a digital image of a physical text
JP5003051B2 (ja) 郵便自動区分機及び郵便自動区分方法
JP6525624B2 (ja) 文書管理システム、文書登録装置、文書登録方法
KR20130139469A (ko) 모바일 카메라를 이용한 영수증 인식 방법 및 시스템
CN109074355A (zh) 用于表意字符分析的方法和***
JP5750930B2 (ja) 住所認識装置、データベース更新方法およびプログラム
JP2019211869A (ja) 検索対象情報絞込システム
JP2014006758A (ja) 保存文書出庫管理システム及び保存文書出庫管理方法
JP2015103035A (ja) 名刺データベリファイシステム
US8818023B2 (en) Bulk region of interest learning
JP2015176241A (ja) データベース管理装置、および住所認識装置
JP4964080B2 (ja) 画像処理システム、画像処理方法、画像処理プログラム
JP2003317034A (ja) 文書分類システムおよび該システム実現のためのプログラム
JP3979288B2 (ja) 文書検索装置および文書検索プログラム
WO2020240820A1 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
JP6943669B2 (ja) 名刺情報管理システム、名刺情報管理装置、名刺情報管理方法及びプログラム
JP2001318941A (ja) 情報処理装置および情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150504

R150 Certificate of patent or registration of utility model

Ref document number: 5750930

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees