JP3928739B2 - 文書ファイリングシステム - Google Patents
文書ファイリングシステム Download PDFInfo
- Publication number
- JP3928739B2 JP3928739B2 JP4579495A JP4579495A JP3928739B2 JP 3928739 B2 JP3928739 B2 JP 3928739B2 JP 4579495 A JP4579495 A JP 4579495A JP 4579495 A JP4579495 A JP 4579495A JP 3928739 B2 JP3928739 B2 JP 3928739B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- pattern
- information
- unit
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 238000000926 separation method Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 description 23
- 230000000295 complement effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000000354 decomposition reaction Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Document Processing Apparatus (AREA)
- Processing Or Creating Images (AREA)
Description
【産業上の利用分野】
本発明は、文書のイメージから文字を認識する文字認識装置を適用した文書ファイリングシステムに関し、特に、戸籍データなどのように、文字認識装置による認識率が低いことが予想される文書に対応する文書ファイリングシステムに関するものである。
【0002】
文字認識装置は、光学的に読み取った文書のイメージに含まれる文字のパターンを内蔵している文字パターンと照合することにより、文書の内容をコード化するものであり、横書きで適当な間隔で活字体の文字が配列された文書を対象としたものが多数製品化されている。
したがって、このような文字認識装置を文書ファイリングシステムに適用することにより、書籍をはじめ、活字を用いて印刷された様々な資料や報告書など、オフィス内の膨大な文書の内容をコード化し、コンパクトなサイズのファイルとして保存しておくことができ、また、検索なども容易となるため、情報の共有化を図ることができる。
【0003】
ところで、近年では、ワードプロセッサなどの普及に伴って、活字で印刷された文書の比率が圧倒的であるが、例えば、全国の自治体で管理している戸籍原本のように、手書きによる文書や手書き部分とタイプによる活字部分とが混在した文書も相当な量があり、これらの資料もコード化して保存する必要に迫られている。
【0004】
特に、戸籍原本は、戸籍に記載された全ての人物の除籍後80年間の保存が義務づけられているため、タイプの導入以前に編成された戸籍原本が全体に占める割合はかなり大きく、戸籍データをコード化して保存する際には、手書き文字の存在を考慮することがぜひとも必要である。
【0005】
【従来の技術】
上述したように、従来の文字認識装置は、活字体の文字が一定の間隔で配列された文書に対応するものであり、罫線が施されたテンプレートに毛筆によって縦方向に非常に詰まった状態で文字が記載されている文書のイメージから、それぞれの文字を認識することは非常に困難である。
【0006】
このため、従来は、図8に示すように、戸籍原本を撮影したマイクロフィルム301をマイクロフィルムリーダー302にかけて戸籍原本のイメージを紙に印刷して写し303を作成し、この写し303に基づいて、戸籍原本に記載された情報を操作者が読み取って、文書ファイリングシステム310に備えられたキーボード311などの入力装置を介して、読み取り結果を入力していた。
【0007】
また、この読み取り結果の入力に応じて、編集処理部312により、戸籍に記載されている各項目の情報をそれぞれ抽出して戸籍データファイル313を作成し、これらの各項目の情報を確認するために、照合リスト作成部314により、項目別に記載した照合リスト304を印刷出力しており、この照合リスト304と上述した写し303とが人手によって照合されていた。
【0008】
このときに、誤りが発見されると、再び端末操作者がキーボード311を操作して該当部分の修正を行い、上述した照合処理で誤りが発見されなくなったときに、初めて、各項目に対応するコード情報が、戸籍データファイル313に保存される構成となっている。
ここで、戸籍原本に記載された情報を読み取る作業を支援するために、必要な項目に対応する部分を示すマークを写し303に予め施しておく作業(以下、マーキング作業と称する)を行う場合がある。
【0009】
このマーキング作業で、各項目の区切りなどを明確に指示しておけば、上述した編集処理部312は、項目ごとに区切られた情報を受け取ることができるから、それぞれの情報が項目に適合しているか否かを判定し、この判定結果を編集処理に反映すればよい。
一方、マーキング作業で、必要な情報として入力すべき範囲を示した場合は、編集処理部312により、入力された情報から各項目に対応する部分を抽出する処理を行う必要があるが、マーキング作業に要する手間を大幅に軽減することができる。
【0010】
このように、従来は、上述したマーキング作業や編集処理部312による処理によって、戸籍情報の入力作業の若干の効率化が図られていたが、写し303からの情報読み取り作業,入力作業およびこの作業結果の確認作業を全て人手で行っており、これらの作業を自動化する試みは行われていなかった。
【0011】
【発明が解決しようとする課題】
上述したように、情報読み取り作業と入力作業と照合作業との全てを人手で処理するのでは、操作者の負担があまりにも大きく、このため、読み取りミスや読み取った情報を入力する際の単純なタイプミス,照合作業の際のチェックミスなど様々な段階で多くのミスを誘発してしまう可能性が高い。
【0012】
また、上述したような人手に頼る方法で膨大な戸籍原本を全て電子化するためには、莫大な人手が必要となり、そのために天文学的な費用が必要となってしまう。
このため、戸籍情報をファイリングするためには、情報読み取り,入力作業の自動化を図るとともに、照合作業を支援することが必要である。
【0013】
ところで、罫線を有するテンプレートに文字列が縦書きで配置されているという特殊な文書に特殊化したアプローチにより、戸籍原本のような文書に対応するイメージデータからそれぞれの文字をある程度の認識率で認識する目処が付き、これにより、このような文書に含まれる個々の文字のコード化作業の自動化を図ることは可能となった。
【0014】
しかしながら、このように単にコード化しただけでは、項目名など各項目の情報としては不必要な情報もコード化されてしまうため、コード化されたテキスト情報から各項目の情報を抽出する処理に工夫が必要である。
また、手書き文字ではかなりの頻度で認識漏れが発生する可能性があるので、文字認識装置による認識漏れに対する配慮も必要である。
【0015】
本発明は、文書の特徴を利用して、自動的に情報読み取り処理を行うことが可能な文書ファイリングシステムおよびコード化された情報と元の原稿との間の照合処理を支援することが可能な文書ファイリングシステムを提供することを目的とする。
【0016】
【課題を解決するための手段】
図1は、本発明にかかわる文書ファイリングシステムの原理ブロック図である。
図2は、請求項1ないし請求項3の文書ファイリングシステムの原理ブロック図である。
請求項1の発明は、原稿に記載された文字を読み取って、文字コードに変換して保存する文書ファイリングシステムにおいて、原稿に対応するイメージに含まれている文字を表すドットパターンに基づいて各文字を認識し、対応する文字コードからなるテキスト情報を認識結果として出力する文字認識手段111と、認識結果として得られるテキスト情報をその構成要素である形態素に分解する分解手段112と、分解手段112で得られた形態素の連なりにおいて、各形態素の配置や前後関係の規則に基づく構文解析および各形態素あるいは複数の形態素のまとまりが表す意味に関する意味解析を実行して、構文上の不整合および意味上の不整合を検出する不整合検出手段114と、不整合検出手段114による検出結果に基づいて、認識結果のテキスト情報を修正して保存処理に供する修正手段115とを備え、分解手段112は、テキスト情報に含まれる形態素辞書に登録されていない文字列を仮の固有名詞として分解し、テキスト情報の他の部分を分解して得られる形態素とともに不整合検出手段114の処理に供する仮分解手段を備えたことを特徴とする。
【0018】
請求項2の発明は、請求項1に記載の文書ファイリングシステムにおいて、修正手段115は、原稿に対応するイメージにおいて不整合検出手段114によって検出された不整合個所に対応するドットパターンに隣接する領域に、不整合個所に対応する検出理由を示す情報を表すドットパターンを配置して、原稿に対応するイメージと合成する第1の合成手段122と、第1の合成手段122で得られたイメージを表示する第1の表示手段123と、不整合個所を修正するためのテキスト情報を受け付け、テキスト情報によって不整合個所を置き換えて、保存処理に供する置換手段123とを備えた構成であることを特徴とする。
【0019】
請求項3の発明は、請求項1に記載の文書ファイリングシステムにおいて、修正手段115は、書体を指定する指示の入力に応じて、不整合個所を修正するために入力された候補文字を指定された書体に対応する文字パターンに変換し、この文字パターンを候補文字に対応する文字パターンとして出力する変換手段125と、候補文字に対応する文字パターンの入力に応じて、未認識のドットパターンに隣接する領域のイメージ情報を文字パターンで置き換え、得られたイメージ情報を表示処理に供するイメージ置換手段124とを備えた構成であることを特徴とする。
ことを特徴とする
【0020】
請求項4の発明は、請求項1に記載の文書ファイリングシステムにおいて、文字認識手段111は、文字コードに対応して該当する文字を表す文字パターンを格納するパターン辞書131と、原稿に対応するイメージに含まれる各文字を表すドットパターンの入力に応じて、パターン辞書131に格納された文字パターンのそれぞれと照合し、ドットパターンと一致する文字パターンに対応する文字コードを認識結果として出力する照合手段132と、照合手段132による照合結果に応じて、ドットパターンに対応する文字パターンに新たな文字コードを与えてパターン辞書に登録する登録手段133とを備えた構成であることを特徴とする。
【0022】
【作用】
請求項1の発明は、文字認識手段111による認識結果を分解手段112によって一連の形態素に分解する際に、形態素辞書に登録されていない文字列を、仮分解手段によって仮の固有名詞として分解することにより、人名のように形態素辞書に網羅しきれない文字列に対応する仮の固有名詞を含む形態素解析結果を不整合検出手段114の検出処理に供する。この検出結果に応じて、修正手段115が動作することにより、情報としての整合性を考慮して、認識結果の修正を行うことができる。
【0023】
請求項2の発明は、第1の合成手段が、不整合個所に対応する検出理由を表すドットパターンとその検出理由を表すドットパターンとを合成し、第1の表示手段による表示処理に供することにより、第1の表示手段の表示画面上でこれらを関連付けて表示する。これにより、利用者は、不整合検出手段によって検出された不整合個所とその理由とを参照しながら、認識結果を修正するためのテキスト情報を入力することができる。このようにして入力されたテキスト情報は、置換手段によって受け付けられ、不整合個所の代わりに認識結果の一部となり、保存処理に供される。
【0024】
請求項3の発明は、変換手段125が、候補文字を指定された書体の文字パターンに変換してイメージ置換手段124の処理に供することにより、候補文字を原稿に記載された認識対象の文字と類似した書体を用いて例えば、第1の表示手段123に表示することができる。
請求項4の発明は、文字認識手段111において、照合手段132による照合結果に応じて、登録手段133が新しい文字コードに対応する文字パターンをパターン辞書131に登録することにより、以後は、この新しい文字パターンも文字認識処理に利用することが可能となる。これにより、人名などに頻繁に出現する所謂「造字」にも柔軟に対応して、文字認識手段111の認識率を向上することができる。
【0026】
【実施例】
以下、図面に基づいて本発明の実施例について詳細に説明する。
図3は、請求項3の発明を適用した戸籍情報ファイリングシステムの実施例構成図である。
図3において、マイクロフィルムリーダ302は、戸籍原本を撮影したマイクロフィルムによる像を紙に印刷する代わりに、この像に対応するイメージデータをイメージバッファ201を介して文字認識装置210に送出する。
【0027】
これに応じて、文字認識装置210の領域抽出部211は、イメージバッファ201に保持されたイメージデータから各文字に対応する領域を切り出し、パターン照合部212は、これらの各領域のドットパターンをパターン辞書213内の文字パターンと照合することにより、各領域のドットパターンで示される文字を認識する構成となっている。
【0028】
このパターン照合部212は、各領域のドットパターンについての照合結果として、ドットパターンと文字パターンとの一致率が所定の閾値以上であった場合に、その領域のドットパターンの認識結果として、該当する文字パターンで示される文字に対応する文字コードを出力し、一致率が所定の閾値以下であった場合には、認識結果が未確定である旨を出力すればよい。
【0029】
ここで、上述したパターン辞書213は、通常のタイプ印刷で用いられる明朝体などの標準書体に対応する文字パターンとともに、毛筆体の文字パターンを備えており、更に、それぞれの書体について、当用漢字だけでなく、人名漢字や旧字体の文字パターンも備えている。
このようにして得られた各領域についての認識結果の入力に応じて、認識補完処理部220が動作する。
【0030】
図3に示した認識補完処理部220において、コード保持部221は、文字認識装置210による認識結果を示すコードを保持しており、パターン変換部222を介してイメージ合成部223に送出し、このイメージ合成部223が、イメージバッファ201内のイメージデータとパターン変換部222から受け取った認識結果を表す一連の文字パターンとを合成して、ディスプレイ装置202による表示動作に供する構成となっている。
【0031】
このイメージ合成部223は、第1の合成手段122に相当するものであり、まず、図4(a) に示すように、戸籍原本に記載された各文字に対応するイメージそれぞれの領域に隣接した領域に、認識結果として得られた文字あるいは未確定である旨のマーク(図4において、符号?を付して示す)を表す文字パターンを合成すればよい。
【0032】
また、図3において、候補入力部224は、キーボード(図示せず)などを介して入力される操作者からの指示に応じて、未確定領域のドットパターンに対応する文字の候補を示す文字コードの入力を受け付け、置換処理部225を介して、上述したコード保持部221の該当する文字コードを書き換える構成となっている。
【0033】
この場合は、例えば、図4(a) に符号▲1▼で示したドットパターンについて、候補入力部224を介して候補文字「編」が入力されると、置換処理部224により、コード保持部221の該当する認識結果(この場合は未確定を示す「?」)が候補文字「編」を示す文字コードに置き換えられ、これに応じて、パターン変換部222により、候補文字「編」を表す文字パターンが得られ、イメージ合成部223による合成処理に供される。これにより、図4(b) に示すように、該当する領域のドットパターンは、候補文字「編」を表す文字パターンで書き換えられる。
【0034】
このように、置換処理部225がコード保持部221の内容を置換し、全ての未確定領域のドットパターンについての置き換えを終了したときに、コード保持部221が、保持している内容を認識結果として出力することにより、未確定のドットパターンに対応する文字を確定し、文字認識装置210による認識結果を補完することができる。
【0035】
この場合は、イメージ合成部223により、未確定のドットパターンと候補文字に対応する文字パターンとが並べて表示されるので、操作者は、認識対象のドットパターンと候補文字の文字パターンとを十分に見比べることができ、2つのドットパターンの一致不一致を直観的に、しかも正確に判断することができる。これにより、手書き文字のように、文字認識装置210による認識率が低くなりがちな文字にも柔軟に対応して、正確な文字認識を支援することができ、戸籍原本のような手書き文字を含んだ文書を文字コードに変換し、原稿の内容を示すテキスト情報を得ることができる。
【0036】
このようにして得られたテキスト情報は、解析処理部230による処理に供される。
図3に示した解析処理部230において、分解処理部231は、形態素辞書232に基づいて、入力されたテキスト情報を形態素に分解することにより、分解手段112の機能を実現し、一連の形態素を構文解析部233および意味解析部234の処理に供する構成となっている。
【0037】
上述した形態素辞書232は、戸籍簿に含まれる情報の種類に対応する領域を備えており、それぞれに該当する形態素を格納する構成となっている。この形態素辞書232には、例えば、住所領域に市町村名などの地名を格納し、氏名領域には姓と名前とを分けて格納しておけばよい。
また、解析処理部230は、戸籍簿に記載される文における各形態素のつながりに関する規則を保持する構文規則保持部235を備えており、構文解析部233は、この構文規則保持部235に保持された規則を参照しながら、分解処理部231で得られた一連の形態素のつながりを解析する構成となっている。
【0038】
このとき、構文解析部233は、構文規則に従って、一連の形態素をまとめてそれぞれ項目に対応付ければよい。例えば、図3に示した戸籍原本の認識結果を分解して得られる6つの形態素「東京都」,「丸の内」,「一」,「丁目」,「一」,「番」は、本籍地を表す形態素のまとまりとして、項目名「本籍」に対応づければよい。同様にして、「氏名」,「編成日」など様々な項目名と該当する形態素のまとまりとを対応付ければよい。
【0039】
一方、意味解析部234は、各項目に対応付けられた形態素のまとまりの意味を解析し、それぞれの意味が対応する項目と整合しているか否かを判定する構成となっている。
この意味解析部234は、各項目に対応して、対応付けられる情報の範囲に関する情報を保持しており、例えば、項目名「編成日」に対応する形態素のまとまりで示される日付と項目名「編成日」に対応する日付の範囲とを比較することにより、該当する情報の整合性を判定すればよい。
【0040】
また、解析処理部230の解析制御部236は、意味解析部234により、各項目と対応する情報とが整合しているとされた場合に、各項目と形態素のまとまりとを組み合わせて戸籍データファイル203に保存するとともに出力処理部240に送出し、照合作業のための出力処理に供する構成となっている。
一方、構文解析部233あるいは意味解析部234により、不整合が検出された場合には、解析制御部236は、修正処理部237を起動し、この修正処理部237が、操作者から必要な修正指示を受け取って、形態素の区切り位置あるいは元のテキスト情報そのものを修正し、再び構文解析部233および意味解析部234の処理に供すればよい。
【0041】
このように、解析制御部236からの指示に応じて、構文解析部233,意味解析部234および修正処理部237が動作することにより、文字認識装置による認識結果として得られるテキスト情報に含まれている各項目の情報を自動的に分類し、コード化された情報として保存することができる。
【0042】
これにより、戸籍情報の読み取り作業および情報入力作業の自動化を図るとともに、従来の人手によるマーキング作業を省いて、操作者の負担を大幅に軽減することができる。
また、この解析処理部230の処理と上述した文字認識装置210および認識補完処理部220の処理とを組み合わせることにより、人手による情報入力作業の大部分を省き、操作者の負担を大幅に軽減することが可能である。
【0043】
上述したように構成すれば、人手によるマーキング作業や情報入力作業を省いて、戸籍データの変換処理の自動化を図り、最終的な照合作業に供することができる。
例えば、上述した戸籍データファイル203の内容とともに、イメージバッファ201内のイメージデータを上述した出力処理部240に送出しておき、出力処理部240が、このイメージデータで表される戸籍原本の像と新しい戸籍フォーマットに項目に分類された情報を配置して得られた戸籍簿とを並べて印刷出力すればよい。
【0044】
これにより、元の戸籍原本と新しいフォーマットの戸籍簿とを同一の紙面上で見比べながら照合作業を行うことができる。
ところで、認識補完処理部220による修正処理にもかかわらず、認識結果のテキスト情報に誤りが残る場合がある。このような認識誤りは、解析処理部230による解析結果を認識補完処理部220にフィードバックすることによって解決することが可能である。
【0045】
図5に、請求項1の発明を適用した戸籍情報ファイリングシステムの実施例構成図を示す。
この場合に、解析処理部230の分解処理部231は、形態素辞書232に登録されていない文字列の入力に応じて、この文字列を仮に固有名詞として分解し、他の分解結果とともに構文解析部233および意味解析部234の処理に供すればよい。
【0046】
また、構文解析部233は、仮に分解された固有名詞をその前後の形態素との関係と構文規則とに基づいて適当な項目に分類し、意味解析部234は、通常の判定処理とともに、上述した仮の固有名詞が分類された項目が仮の固有名詞が許される項目であるか否かを判定し、項目とその内容との不整合を検出すればよい。
例えば、本籍地や届け出場所など地名が記載される項目や日付が記載される項目には、仮の固有名詞は許容されないから、これらの項目に対応する情報に上述したような仮の固有名詞が含まれていた場合に、これを不整合として検出し、これに応じて、解析制御部236は、修正処理部237の代わりに、認識補完処理部220を起動して、認識結果の修正処理の再試行を指示すればよい。
【0047】
ここで、上述した構文解析部233の処理により、誤った認識結果とされた文字列を含む情報は、適切な項目に分類されているから、解析制御部236は、修正処理の再試行指示とともに、不整合が検出された箇所と不整合となった理由を示す情報として、該当する項目の情報の範囲と整合しない旨を通知すればよい。上述した再試行指示の入力に応じて、イメージ合成部223は、再び、戸籍原本に対応するイメージとコード保持部221に保持された認識結果を表す文字パターンとを合成し、ディスプレイ装置202を介して表示すればよい。
【0048】
また、このとき、イメージ合成部223は、上述したようにして合成したイメージにおいて、認識結果のうち不整合とされた部分とこの部分に対応するドットパターンとを強調表示して、修正が必要な箇所を示すとともに、上述した不整合理由を示す情報を表す表示データを作成し、それぞれディスプレイ装置202に送出すればよい。
【0049】
このように、解析制御部236からの指示に応じて、認識補完処理部220の各部が動作することにより、修正手段115の機能を実現し、構文解析処理および意味解析処理によって不整合が検出された箇所の認識結果を修正することができる。
この場合は、不整合が検出された部分の認識結果は、認識結果が未確定である部分と同様に扱われ、文字認識結果が誤っている可能性の高い部分が、その前後の認識結果とともに対応するドットパターンに隣接した領域に表示され、また、それぞれに対応する不整合理由も表示される。
【0050】
したがって、操作者は、それぞれに対応する不整合理由で示された項目に適合する情報の種類の範囲と該当する領域のイメージデータと前後の認識結果とを手掛かりにして、正しい文字列を推測することができる。
この推測結果をキーボードなどを介して候補入力部223に候補文字として入力し、置換処理部224がこの候補文字を示す文字コードでコード保持部223の該当するコードを置換することにより、該当する部分の文字認識結果を修正することができる。
【0051】
これにより、読み取り結果が誤っている可能性が高い部分を選択的に、しかも、多角的な情報に基づいて修正することができる。
特に、不整合理由が提供されることにより、操作者は、該当する領域のイメージデータに対応すべき文字として考えられる範囲を絞り込むことができるから、操作者による修正作業を支援して、より正確な読み取り結果を得ることが可能となる。
【0052】
更に、形態素辞書232の住所領域に、町名変更など地名の変更に関する情報を各年代における地名とともに保持しておき、意味解析部234が、地名が記載される項目に分類された情報の整合性を判定する際に、対応する日付が記載された項目の情報と上述した地名変更に関する情報とを参照する構成とすれば、より精密な判定が可能となる。
【0053】
この場合に、例えば、形態素辞書232の住所領域から、前後の地名や地名変更に関する情報に基づいて、誤った認識結果に対応する形態素を検索して、認識補完処理部220に候補文字列の例として提供してもよい。
これにより、形態素辞書232の内容や戸籍原本に記載された関連する記述の内容を活用して、より強力にイメージからの文字認識処理を支援することができる。
【0054】
また、パターン辞書213の構成を工夫することにより、常用漢字,当用漢字以外の造られた文字(以下、造字と称する)にも柔軟に対応して、以後の文字認識に利用することが可能である。
図6に、請求項4の発明を適用した戸籍情報ファイリングシステムの実施例構成図を示す。
【0055】
図6において、戸籍情報ファイリングシステムは、図3に示した戸籍情報ファイリングシステムに登録手段133に相当する登録処理部250を付加し、この登録処理部250が、操作者からの指示に応じて、指定された領域のドットパターンに新規の文字コードを対応付けて、文字認識装置210のパターン辞書213に設けた造字領域214に登録する構成となっている。
【0056】
この登録処理部250において、イメージ切出部251は、利用者からの登録指示に応じて、指定されたドットパターンをイメージバッファ201から読み出し、パターン作成部252は、このドットパターンに基づいて、新規に文字パターンとして登録する造字パターンを作成する構成となっている。
このパターン作成部253は、例えば、指定された領域のドットパターンに細線化処理を施すことにより、少なくとも1つの線分が特定の位置関係で配置されたパターンを抽出すればよい。そして、このパターンを上述したドットパターンで表された文字に対応する照合用の文字パターンとして、書込処理部254に送出すればよい。このとき、元のドットパターンが毛筆による文字の像である場合は、このドットパターンを毛筆体用の照合用文字パターンとして利用してもよい。
【0057】
また、コード決定部253は、上述した登録指示の入力に応じて、造字領域214から未登録の文字コードを検索し、この文字コードを新しい文字パターンに対応する文字コードとして出力する構成となっており、書込処理部254は、この文字コードに対応して、上述した造字パターンおよびドットパターンそのものをパターン辞書213の造字領域214に書き込む構成となっている。
【0058】
このようにして、照合手段132に相当する照合処理部212により、パターン辞書213に該当する文字パターンが存在しないとされた場合に、必要に応じて、新しい文字パターンを造字パターンとして登録することができる。
例えば、照合処理部212によって未確定とされたドットパターンに対して、認識補完処理部220の処理により、操作者が様々な候補文字との照合を行い、その結果、操作者が該当するドットパターンが造字に対応するものであると判断したときに、キーボードなどを操作して登録指示を入力し、上述した登録処理を起動すればよい。
【0059】
なお、この場合は、解析処理部230の分解処理部231は、造字用の文字コードの入力に応じて、この文字コードを含む文字列を固有名詞として分解し、構文解析部233,意味解析部234の処理に供すればよい。これにより、造字の有無にかかわらず、解析処理部230の処理によって、認識結果として得られたテキスト情報を項目ごとに分類することができる。
【0060】
また、上述したようにして、パターン辞書213に新たな造字を登録したことにより、以後は、照合処理部212および認識補完処理部220により、この造字も含めて文字認識を行うことができるから、認識率の向上を図ることができる。
更に、解析処理部230において、構文解析部233の処理結果に基づいて、造字を含んだ固有名詞に適切な情報の種類(例えば、姓,名など)を判断し、形態素辞書232の該当する情報の種類の新しい要素として登録すれば、以降は、この固有名詞も他の形態素と同様に扱うことができる。
【0061】
このようにして、人名を表す文字としてしばしば出現する造字に柔軟に対応して、文字認識装置210による認識処理を強力に支援することができ、造字を含んだ認識結果を解析処理部230による項目化処理に供することができるから、戸籍情報のファイリング作業をより効率よく進めることができる。
更に、新しいフォーマットの戸籍簿と元の戸籍原本とを紙の上で比較する代わりに、両者をディスプレイ装置202の表示画面上で比較することも可能である。
【0062】
図7に、本発明にかかわる戸籍情報ファイリングシステムの別実施例構成図を示す。
図7において、戸籍情報ファイリングシステムは、図3に示した出力処理部240を備える代わりに、照合データ作成部261を備え、戸籍データファイル203の内容に基づいて作成した照合データをパターン変換部222を介して認識補完処理部220のイメージ合成部223に送出し、イメージバッファ201に保持された戸籍原本のイメージとの合成処理に供する構成となっている。
【0063】
この照合データ作成部261は、例えば、戸籍データファイル203の内容と認識結果として得られたテキスト情報とを比較し、重複している部分以外の文字コードを全て空白を示す文字コードに変換して、各項目に対応する情報が元のテキスト情報において占める位置であり、他の部分が空白であるような照合データを作成すればよい。
【0064】
この場合は、上述した照合データ作成部261は、照合データにおける空白以外の文字コードの位置により、各項目に対応する情報を表示すべき位置を示している。
また、パターン変換部222は、上述した照合データをコード保持部221からの認識結果の代わりに受け取り、文字認識装置210のパターン辞書213から該当する文字パターンを検索して、順次にイメージ合成部223に送出すればよい。
【0065】
これに応じて、イメージ合成部223は、認識結果との合成処理と同様にして、戸籍原本に対応するイメージにおいて、各文字を表すドットパターンが分布している範囲に隣接する領域に、受け取った文字パターンを順次に配置して合成し、ディスプレイ装置202に送出すればよい。
このように、照合データの入力に応じて、パターン変換部262とイメージ合成部223とが動作することにより、戸籍原本のイメージと各項目の情報を表す一連の文字パターンとを合成し、ディスプレイ装置202に表示することができる。
【0066】
これにより、操作者は、戸籍原本に記載された情報と項目に分類された情報とを極く近くで見比べながら照合作業を進めることができるから、各項目の情報に対応する戸籍原本の情報を直観的にかつ正確に把握し、効率よく作業を行うことが可能となり、操作者の作業負担を大幅に軽減することができる。
また、イメージ合成部223が、戸籍原本のイメージにおいて、各項目に対応するドットパターンの領域を強調表示すれば、各項目の情報に対応する戸籍原本の情報の把握をより容易にすることができる。
【0067】
更に、パターン変換部222が、操作者からの指示に応じて、指定された項目についてパターン辞書213から標準書体の文字パターンを検索する代わりに、毛筆体の文字パターンを検索する構成とすれば、請求項3で述べた変換手段125の機能を実現し、戸籍原本において毛筆で記載された部分については、該当する項目の情報を毛筆体で表示することができる。
【0068】
このように、戸籍原本と類似した書体を用いて、該当する項目の情報を元のイメージデータに隣接して表示することにより、操作者が、戸籍原本に記載された情報と項目に分類された情報とをドットパターンの一致不一致として直観的に照合することが可能である。
これにより、照合作業の際の操作者の作業負担をより一層軽減することができる。
【0069】
また、上述したようにして、画面上で照合作業を行う構成としたことにより、照合作業で不整合が検出された場合に、そのまま認識補完処理部220の処理に移ることが可能となる。
例えば、操作者は、キーボード202を介して認識補完処理部220の候補入力部222に候補文字列を入力し、置換処理部223を動作させて、該当する項目の情報を候補文字列に対応する文字コードに置換すればよい。
【0070】
このようにして、照合作業を進めながら、逐次、検出した誤りを訂正していくことが可能であるから、照合作業およびこれに伴う最終的な訂正作業の操作性を飛躍的に向上して、戸籍情報のファイリング作業を効率よく進めることができる。
上述したように、本発明は、認識補完処理部220,解析処理部230の処理および認識補完処理部220を利用した照合処理により、文字認識装置による認識結果を補完することができるから、従来は、このようなファイリング作業の対象になりえなかった様々な文書のファイリング作業に適用することができる。
【0071】
例えば、文字認識装置210に備えるパターン辞書213として、草書,行書に対応するものを用意し、また、古文における形態素および構文規則をそれぞれ形態素辞書222および構文規則保持部235に格納しておけばよい。
これにより、古文書などのファイリングにも本発明システムを適用することが可能となるから、貴重な文化財の保存および活用に多大な貢献をすることができる。
【0072】
【発明の効果】
以上説明したように請求項1の発明は、未認識の文字を含む仮の固有名詞が含まれた形態素解析結果を考慮しながら認識結果の修正を行うことにより、認識誤りが発生したときに、その前後の文字列のつながりに加えて構文解析結果を手掛かりにして認識誤りを修正することができるから、文字認識手段による認識処理を補完することができる。
【0073】
更に、請求項2の発明は、構文解析によって不整合が検出されたテキストに関連付けて、不整合を検出した理由を表示して操作者に提供することにより、操作者が不適当な認識結果と不整合理由とを直感的に把握することを助け、構文解析の結果として得られる情報を修正作業に有効に活用することができる。
また、未認識のドットパターンと候補文字とを並べて表示することにより、これらを十分に見比べながら修正作業を行った結果を認識結果とすることができるから、文字認識手段による認識処理を補完して、より正確な認識結果を得ることができる。
【0074】
特に、候補パターンを未認識の文字に対応する書体に変換して表示することにより、書体による文字の形状の特徴を考慮しながら、認識結果の修正作業を行うことができ、文字認識手段による認識処理をさらに強力に支援することができる。また、請求項4の発明を適用し、必要に応じて新たな文字パターンをパターン辞書に登録すれば、更に認識率の向上が期待できる。
【図面の簡単な説明】
【図1】 請求項1、2の発明にかかわる文書ファイリングシステムの原理ブロック図である。
【図2】 請求項3、4の発明にかかわる文書ファイリングシステムの原理ブロック図である。
【図3】 請求項3の発明を適用した戸籍情報ファイリングシステムの実施例構成図である。
【図4】 イメージ合成処理を説明する図である。
【図5】 請求項1の発明を適用した戸籍情報ファイリングシステムの実施例構成図である。
【図6】 請求項4の発明を適用した戸籍情報ファイリングシステムの実施例構成図である。
【図7】 本発明にかかわる戸籍情報ファイリングシステムの別実施例構成図である。
【図8】 従来の戸籍情報ファイリングシステムの構成例を示す図である。
Claims (4)
- 原稿に記載された文字を読み取って、文字コードに変換して保存する
文書ファイリングシステムにおいて、
前記原稿に対応するイメージに含まれている文字を表すドットパターンに基づいて各文字を認識し、対応する文字コードからなるテキスト情報を認識結果として出力する文字認識手段と、
認識結果として得られる前記テキスト情報をその構成要素である形態素に分解する分解手段と、
前記分解手段で得られた形態素の連なりにおいて、前記各形態素の配置や前後関係の規則に基づく構文解析および各形態素あるいは複数の形態素のまとまりが表す意味に関する意味解析を実行して、構文上の不整合および意味上の不整合を検出する不整合検出手段と、
前記不整合検出手段によって検出された不整合個所を操作者に通知し、操作者によって入力された修正情報に基づいて、認識結果のテキスト情報を修正して保存処理に供する修正手段とを備え、
前記分解手段は、前記テキスト情報に含まれる形態素辞書に登録されていない文字列を仮の固有名詞として分解し、前記テキスト情報の他の部分を分解して得られる形態素とともに前記不整合検出手段の処理に供する仮分解手段を備えた
ことを特徴とする文書ファイリングシステム。 - 請求項1に記載の文書ファイリングシステムにおいて、
前記修正手段は、
原稿に対応するイメージにおいて前記不整合検出手段によって検出された不整合個所に対応するドットパターンに隣接する領域に、前記不整合個所に対応する検出理由を示す情報を表すドットパターンを配置して、前記原稿に対応するイメージと合成する第1の合成手段と、
前記第1の合成手段で得られたイメージを表示する第1の表示手段と、
前記不整合個所を修正するためのテキスト情報を受け付け、前記テキスト情報によって前記不整合個所を置き換えて、前記保存処理に供する置換手段とを備えた構成である
ことを特徴とする文書ファイリングシステム。 - 請求項1に記載の文書ファイリングシステムにおいて、
前記修正手段は、
書体を指定する指示の入力に応じて、不整合個所を修正するために入力された候補文字を前記指定された書体に対応する文字パターンに変換し、この文字パターンを前記候補文字に対応する文字パターンとして出力する変換手段と、
前記候補文字に対応する文字パターンの入力に応じて、未認識のドットパターンに隣接する領域のイメージ情報を前記文字パターンで置き換え、得られたイメージ情報を表示処理に供するイメージ置換手段とを備えた構成である
ことを特徴とする文書ファイリングシステム。 - 請求項1に記載の文書ファイリングシステムにおいて、
文字認識手段は、
文字コードに対応して該当する文字を表す文字パターンを格納するパターン辞書と、
原稿に対応するイメージに含まれる各文字を表すドットパターンの入力に応じて、前記パターン辞書に格納された文字パターンのそれぞれと照合し、前記ドットパターンと一致する文字パターンに対応する文字コードを認識結果として出力する照合手段と、
前記照合手段による照合結果に応じて、前記ドットパターンに対応する文字パターンに新たな文字コードを与えて前記パターン辞書に登録する登録手段とを備えた構成である
ことを特徴とする文書ファイリングシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4579495A JP3928739B2 (ja) | 1995-03-06 | 1995-03-06 | 文書ファイリングシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4579495A JP3928739B2 (ja) | 1995-03-06 | 1995-03-06 | 文書ファイリングシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08241314A JPH08241314A (ja) | 1996-09-17 |
JP3928739B2 true JP3928739B2 (ja) | 2007-06-13 |
Family
ID=12729196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4579495A Expired - Fee Related JP3928739B2 (ja) | 1995-03-06 | 1995-03-06 | 文書ファイリングシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3928739B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7567902B2 (en) | 2002-09-18 | 2009-07-28 | Nuance Communications, Inc. | Generating speech recognition grammars from a large corpus of data |
JP5204448B2 (ja) * | 2007-09-20 | 2013-06-05 | 株式会社Pfu | 証明書読取認識装置 |
CN118071304A (zh) * | 2024-04-17 | 2024-05-24 | 广联达科技股份有限公司 | 一种工程项目资料管理方法、装置、设备及可读存储介质 |
-
1995
- 1995-03-06 JP JP4579495A patent/JP3928739B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08241314A (ja) | 1996-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6917438B1 (en) | Information input device | |
JPH03161873A (ja) | データベース構築機能を有する電子フアイリング装置 | |
JPH04195692A (ja) | 文書読取装置 | |
JP3928739B2 (ja) | 文書ファイリングシステム | |
JP2001166683A (ja) | 自動点訳システム及びそれを用いた自動点訳方法 | |
JP2007011683A (ja) | 文書管理支援装置 | |
JP3159087B2 (ja) | 文書照合装置および方法 | |
JP3083171B2 (ja) | 文字認識装置及び方法 | |
JP2001005831A (ja) | ファイリング方法及びそれを格納した記録媒体 | |
JPS6251866A (ja) | 電子フアイルシステム | |
JPH05233705A (ja) | イメージファイリングシステムにおけるインデックス作成方式 | |
JPH09204511A (ja) | ファイリング装置 | |
JP4092768B2 (ja) | 文字認識装置および文字認識方法 | |
JP2529421B2 (ja) | 文字認識装置 | |
JPH08287189A (ja) | 文書処理装置 | |
JPS62212774A (ja) | 文書画像フアイルの登録方式 | |
JP2829186B2 (ja) | 光学的文字読取装置 | |
JP4044158B2 (ja) | 符号照合装置及び符合照合方法 | |
JPH09138835A (ja) | 文字認識装置 | |
JPH0628519A (ja) | 入力装置 | |
JPH08147329A (ja) | 読み取りイメージ処理装置 | |
JPH0628336A (ja) | 入力装置 | |
JPH0668136A (ja) | 機械翻訳システム | |
JPH02240788A (ja) | 光学式文字読み取り装置 | |
JPH1055405A (ja) | 住所録読み取り装置及び住所録読み取り方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20031216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040216 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040315 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070228 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100316 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120316 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130316 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130316 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140316 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |