JPH0757040A

JPH0757040A - Ｏｃｒ付きファイリング装置

Info

Publication number: JPH0757040A
Application number: JP5202253A
Authority: JP
Inventors: Yutaka Katsuyama; 裕勝山
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-08-16
Filing date: 1993-08-16
Publication date: 1995-03-03

Abstract

(57)【要約】【目的】本発明はＯＣＲ付きファイリング装置に関
し、文字認識用の認識辞書に対し、ファイル装置に保存
されている文字の認識結果を基に、常に学習を行うこと
により、認識辞書の認識性能を向上させることを目的と
する。【構成】画像入力部２Ａと、入力画像を解析して属性
の異なる領域に分離する文書構造解析部４と、認識辞書
９を用いて文字認識を行う文字認識部５と、ファイル装
置７を備えた装置において、ファイル装置に格納された
文字領域内の文字データを対象とし、単語辞書、及び文
法を用いて文章解析処理を行い、誤認識文字を抽出し
て、その正解文字情報を求める文章解析処理部２４を設
け、誤認識文字に関する情報を基に、文字認識部５が認
識辞書９の更新処理を行うことにより、認識辞書の最適
化を可能にした。また、文章解析処理、認識辞書更新処
理を、常時、バックグラウンド処理として実行可能に構
成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ＯＣＲ付きファイリン
グ装置に関する。この装置は、例えば、新聞の切り抜き
等の文書をスキャナで読み取り、入力画像を文字領域、
図表領域、写真領域等の属性の異なる領域に分離してフ
ァイル装置に格納すると共に、文字領域については文字
認識を行い、認識結果のデータも前記ファイル装置に格
納する機能を備えた装置である。

【０００２】また、この装置では、ファイル装置に蓄積
したデータに対し、キーワード検索等を行うことによ
り、データの再編集等ができるようになっている。

【０００３】

【従来の技術】図９は、従来技術の説明図であり、図９
中、１はＯＣＲ付きファイリング装置、２はスキャナ、
３はイメージメモリ、４は文書構造解析部、５は文字認
識部、７はファイル装置、８はキーワード検索部、９は
認識辞書、１０はディスプレイを示す。

【０００４】従来、ＯＣＲ付きファイリング装置とし
て、例えば、図９に示したような装置が知られていた。
図示のように、このＯＣＲ付きファイリング装置１に
は、スキャナ２、イメージメモリ３、文書構造解析部
４、文字認識部５、ファイル装置７、キーワード検索部
８、ディスプレイ１０等が設けてある。また、前記文字
認識部５には、文字認識処理で使用する認識辞書９が設
けてある。

【０００５】この装置では、例えば、新聞の切り抜き等
の文書を入力し、その入力画像（イメージデータ）か
ら、本文、見出し等の「文字領域」、「図表領域」、
「写真領域」を抽出して自動的に分離し、ファイル装置
に格納する。また、「文字領域」については文字認識処
理を行い、その文字データも、ファイル装置に格納す
る。具体的には次の通りである。

【０００６】先ず、スキャナ２で文書の読み取りを行
い、入力画像（イメージデータ）を２値化して、イメー
ジメモリ３に格納する。次に、イメージメモリ３に格納
した入力画像に対し、文書構造解析部４が、自動解析を
行い、「文字領域」、「図表領域」、「写真領域」を識
別して自動的に分離し、ファイル装置７に格納（ファイ
リング）する。

【０００７】また、前記分離した「文字領域」は、文字
認識部５へ送り、文字認識を行う。この場合、文字認識
部５では、認識辞書９を用いて、前記の「文字領域」に
対し、文字認識処理を行い、認識結果のデータ（文字コ
ード）もファイル装置７に格納（ファイリング）する。

【０００８】なお、前記ファイル装置７へのデータ格納
時には、文書構造解析部４で文書解析処理を行った際に
得られた各領域毎の属性データ等（本文、見出し、図
表、写真等に関する情報）も一緒に格納しておく。

【０００９】このようにしてファイル装置７に蓄積した
データに対し、キーワード検索部８からキーワードを入
力して、キーワードによる文字データの検索ができるよ
うになっている。このキーワード検索で一致したデータ
があれば、その画像情報、及び属性データ等をディスプ
レイ１０で表示する。

【００１０】

【発明が解決しようとする課題】上記のような従来のも
のにおいては、次のような課題があった。検索対象とな
る文字データを生成する文字認識機能は、完璧な認識が
行われず、数％程度の誤りが生じるのが普通である。こ
のため、本来の情報には、キーワードがあるにも係わら
ず、検索に失敗し、検索できなくなる場合がある。

【００１１】本発明は、このような従来の課題を解決
し、文字認識処理に使用する認識辞書に対して、ファイ
ル装置に保存されている文字の認識結果を基に、常に学
習を行うことにより、認識辞書の認識性能を向上させる
ことを目的とする。

【００１２】

【課題を解決するための手段】図１は本発明の原理説明
図であり、図１中、図９と同じものは、同一符号で示し
てある。また、２Ａは画像入力部、２４は文章解析処理
部、２５は単語辞書／文法部を示す。

【００１３】本発明は上記の課題を解決するため、次の
ように構成した。：文書画像を入力する画像入力部２Ａと、入力した文
書画像を解析して、異なる属性の領域（文字領域、図表
領域、写真領域）に分離し、各種情報を抽出する文書構
造解析部４と、前記分離された領域の内、文字領域を対
象とし、認識辞書９を用いて文字認識を行う文字認識部
５と、前記各部で得られた文書データ（画像データ、文
字データ等）を格納するファイル装置７を備えたＯＣＲ
付きファイリング装置において、前記ファイル装置７に
格納された文書データの内、文字領域内の文字データを
対象として文章解析処理を行い、誤認識文字を抽出し
て、その正解文字情報を求める文章解析処理部２４を設
け、前記誤認識文字に関する情報を基に、文字認識部５
が認識辞書９の更新処理を行うことにより、認識辞書の
最適化を可能にしたＯＣＲ付きファイリング装置。

【００１４】：構成において、単語辞書、及び文法
情報を格納した単語辞書／文法部２５を設け、単語辞書
／文法部２５の単語辞書、及び文法を使用して、前記文
章解析処理部２４による文章解析処理を行うＯＣＲ付き
ファイリング装置。

【００１５】：構成において、文字認識部５による
認識辞書更新処理を行う際、前記誤認識文字に関する情
報を基に、誤認識文字に対応する画像データを切り出し
て特徴量を求め、該特徴量を基に、認識辞書９の更新処
理を行うＯＣＲ付きファイリング装置。

【００１６】：構成において、内部処理をマルチタ
スクとすることにより、文章解析処理部２４による文章
解析処理、及び文字認識部５による認識辞書更新処理
を、他の処理等とは関係なく、常時、バックグラウンド
ジョブとして実行可能にしたＯＣＲ付きファイリング装
置。

【００１７】

【作用】上記構成に基づく本発明の作用を、図１に基づ
いて説明する。：文書データを入力して、ファイル装置に保存する場
合には、次のように処理を行う。

【００１８】先ず、画像入力部２Ａで文書を読み込み、
画像を入力する。入力画像は、一旦イメージメモリ３に
格納した後、文書構造解析部４が文書解析処理を行う。
この時、文書構造解析部４は、イメージメモリ３上のデ
ータを走査して、「文字領域」と「図表領域」と「写真
領域」を抽出して分離する。また、前記各領域につい
て、領域の数、位置、横幅、縦高さ等の情報を抽出す
る。そして、これらのデータはファイル装置７へ転送し
て格納する。

【００１９】また、前記処理で「文字領域」と判定した
場合には、文字認識部５で認識辞書９を用いて、文字認
識処理を行い、認識結果のデータも、ファイル装置７へ
転送して格納する。このようにして、ファイル装置７に
は、画像データと、文字データを格納する。

【００２０】：バックグラウンドジョブによる認識辞
書の最適化処理の説明バックグラウンドジョブによる認識辞書の最適化処理
は、次のようにして行う。

【００２１】まず、文章解析処理部２４は、ファイル装
置７に格納されている文字領域内の文字データを対象と
して、文章解析処理を行う。この場合、文章解析処理部
２４では、単語辞書／文法部２５の単語辞書、及び文法
を使用して、文章解析処理を行い、誤認識している文字
を抽出すると共に、文字の正解情報を求め、文字認識部
５へ送る。

【００２２】その後、文字認識部５では、ファイル装置
７から、誤認識した文字に対応する画像データを切り出
し、特徴量に変換する。文字認識部５では、変換した特
徴量と、認識辞書９に格納してあるカテゴリの特徴量か
ら、辞書が認識に最適となるように、認識辞書９の更新
を行う。

【００２３】以上の処理を、バックグラウンドジョブと
して、常に行うことにより、認識辞書に対する学習を行
って認識辞書の最適化を行うことができる。その結果、
認識辞書の認識性能を向上させることができる。

【００２４】

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図２〜図８は、本発明の実施例を示した図であ
り、図２〜図８中、図１、図９と同じものは、同一符号
で示してある。

【００２５】また、１１はＣＰＵ（中央処理装置）、１
２、１３は入／出力制御部（以下単に「Ｉ／Ｏ」とい
う）、１４はメモリ、１７は光ディスク装置入／出力制
御部（以下、単に「光ディスク装置Ｉ／Ｏ」という）、
１８は光ディスク装置、２１はイメージ処理部、２２は
整合部（または照合部）、２３はキーワード記録／検索
部を示す。

【００２６】§１：ＯＣＲ付きファイリング装置の構成
説明・・・図２参照図２は実施例の装置構成図である。図示のように、ＯＣ
Ｒ付きファイリング装置１には、ＣＰＵ１１、Ｉ／Ｏ１
２、１３、スキャナ２、イメージメモリ３、ディスプレ
イ１０、メモリ１４、光ディスク装置Ｉ／Ｏ１７、光デ
ィスク装置１８、文書構造解析部４、文字認識部５、キ
ーワード記録／検索部２３、文章解析処理部２４、単語
辞書／文法部２５を設ける。

【００２７】また、前記文字認識部５には、イメージ処
理部２１、整合部２２、認識辞書９を設ける。前記各部
の機能等は、次の通りである。 (1) ：ＣＰＵ１１は、ＯＣＲ付きファイリング装置内
で、各種の制御を行うプロセッサである。

【００２８】(2) ：Ｉ／Ｏ１２、１３は、スキャナ２、
及びディスプレイの各入／出力制御を行うものである。 (3) ：スキャナ２は、光学的に文書を読み取って、文書
画像を入力するものである。

【００２９】(4) ：ディスプレイ１０は、各種情報の表
示を行うものである。 (5) ：光ディスク装置Ｉ／Ｏ１７は、光ディスク装置１
８の入／出力制御を行うものである。

【００３０】(6) ：光ディスク装置１８は、データの記
録、及び再生の可能なファイル装置（例えば、光磁気デ
ィスク装置）である。 (7) ：文書構造解析部４は、入力画像を解析して、「文
字領域」、「図表領域」、「写真領域」等の各領域に分
離したり、各領域毎の座標を検知したりするものである
（詳細は後述する）。

【００３１】(8) ：イメージ処理部２１は、文字認識部
５において、文字認識処理を行う際のイメージデータ
（画像データ）の処理、例えば、特徴抽出処理等を行う
ものである。

【００３２】(9) ：整合部２２は、イメージ処理部２１
で処理した情報（特徴量等）を、認識辞書９と比較し
て、文字認識処理を行うものである。 (10)：キーワード記録／検索部２３は、文字データのキ
ーワードを光ディスク装置１８に記録したり、光ディス
ク装置１８に格納されている文字データを対象として、
キーワード検索を行ったりするものである。

【００３３】(11)：文章解析処理部２４は、光ディスク
装置１８内の文字データについて、単語辞書／文法部２
５の情報を用いて、文章解析処理を行うものである（詳
細は後述する）。

【００３４】(12)：単語辞書／文法部２５は、単語辞
書、及び文章解析を行う場合に必要な文法情報を格納し
たものである。 (13)：メモリ１４はワーク用のメモリである。

【００３５】§２：光ディスク装置内のデータの説明・
・・図２参照光ディスク装置１８に格納するデータとしては、例え
ば、：ファイル番号、：画像情報、：全領域数、
：画像領域数、：文字領域数等である。

【００３６】前記：画像情報は、画像データ、バイナ
リコード列等で構成され、「横幅」、「縦高さ」等の情
報であり、：画像領域数は、「画像領域番号」と、
「画像領域開始位置」、「横幅」、「縦高さ」等からな
る。

【００３７】また、前記：文字領域数は、「文字領域
内容」、「属性」からなり、「属性」は、「縦書き／横
書き」、「領域の開始位置」、「横幅」、「縦高さ」、
「画像領域との関係」等の情報からなる。

【００３８】§３：文書データ保存手順の説明・・・図
２参照以下、図２に基づいて、文書データ保存手順を説明す
る。 (1) ：先ず、装置が起動すると、ＣＰＵ１１は、スキャ
ナ２を起動して、文書を読み込み、画像の入力を開始す
る。入力画像（イメージデータ）は、２値化した後、一
旦イメージメモリ３に格納する。

【００３９】(2) ：次に、ＣＰＵ１１は、文書構造解析
部４を起動し、イメージメモリ３内の入力画像（イメー
ジデータ）を解析する。この時、文書構造解析部４は、
イメージメモリ３上のデータを走査して、「文字領域」
と「図表領域」と「写真領域」を抽出して分離する。ま
た、前記各領域について、領域の数、位置、横幅、縦高
さの各情報を抽出する。

【００４０】そして、これらのデータはＣＰＵ１１の制
御により、光ディスク装置１８へ転送して媒体（光ディ
スク）に格納する。この場合、「文字領域」について
は、その内容が、「縦書き」か、「横書き」かを自動判
定し、その情報も光ディスク装置１８に格納する。

【００４１】更に、写真や、図表等の側の文字領域につ
いては、例えば、ヒストグラム計算と、閾値による判定
により、その写真や図表の説明文の属性を判定し、光デ
ィスク装置１８へ転送して媒体（光ディスク）に格納す
る。

【００４２】すなわち、「図表領域」及び「写真領域」
からなる「画像領域」と、「文字領域」との関係を自動
判定し（画像領域と文字領域が、或る閾値以内の距離
で、画像領域の大きさに比べて、文字領域が十分小さい
等の条件判定で判定し）、「画像領域」の説明文である
と判定した「文字領域」については、その情報も光ディ
スク装置１８に格納する。

【００４３】なお、前記処理で「文字領域」と判定した
場合には、該当する領域について、文字認識部５による
文字認識処理を行い、光ディスク装置１８に格納する。 (3) ：前記文書構造解析部４による解析処理において、
「文字領域」と判定された領域については、ＣＰＵ１１
が文字認識部５を起動して文字認識処理を行う。

【００４４】この場合、文字認識部５では、イメージメ
モリ３上の前記「文字領域」と判定した領域の範囲だけ
を対象として、イメージ処理部２１がイメージ処理（特
徴抽出等）を行い、整合部２２が、認識辞書９を用い
て、文字認識処理を行う。

【００４５】(4) ：前記文字認識部５による文字認識処
理が終了すると、前記文書構造解析部４で得られた属性
と共に、認識結果の文字データ（文字コード等）を、光
ディスク装置１８に格納する。この場合、光ディスク装
置１８内では、「画像データ」と「文字データ」は、２
つで１対をなすように管理される。

【００４６】(5) ：前記各処理を、例えば、読み込む文
書の１頁ごとに処理し、オペレータが指定した文書の単
位が終了するまで、繰り返す。 §４：キーワード検索手順の説明・・・図２参照光ディスク装置に格納したデータについて、キーワード
検索する場合には、次のようにして行う。

【００４７】(1) ：先ず、キーボード等の入力手段によ
り、検索したい文書データに含まれていると思われるキ
ーワードを入力する。 (2) ：キーワード記録／検索部２３では、前記入力され
たキーワードを基に、光ディスク装置１８に格納されて
いる文字データ部分全てを対象として、全文検索を行
う。この時、文字データ部分の中に、キーワードが存在
したら、そのファイルだけを、以降の検索の対象とす
る。

【００４８】(3) ：前記処理を繰り返して行い、多数の
ファイルから検索しようとしているファイルの候補を絞
り込み、候補が少なくなったら、オペレータの指示によ
り、文字データに対応している画像データを抽出する。

【００４９】そして、ＣＰＵ１１の制御により、検索結
果のデータをディスプレイ１０へ送って表示する。オペ
レータは、この表示画面を見て、目的のファイルであっ
たかどうかを確認する。

【００５０】(4) ：目的のファイルであった場合には、
プリントアウト、別ディスク装置へのデータ転送、ＦＡ
Ｘ送信等の手段により、前記データを出力する。 §５：文書構造検索手順の説明・・・図２参照 (1) ：先ず、オペレータは、表示された文書構造キーワ
ードから、１つを選択、又はキー入力し、それを使用し
て検索を起動する。この時、ＣＰＵ１１は、キーワード
記録／検索部２３を起動する。

【００５１】(2) ：キーワード記録／検索部２３は、光
ディスク装置１８に格納されている全文書の文字データ
を検索し、前記文書構造キーワードの含まれているもの
だけを以降の対象とする。

【００５２】(3) ：前記処理を繰り返して行い、多数の
ファイルから、検索しようとしているファイルの候補を
絞り込む。そして、候補が少なくなったら、オペレータ
の指示により、文字データに対応している画像データを
抽出する。

【００５３】そして、ＣＰＵ１１の制御により、検索結
果のデータをディスプレイ１０へ送って表示する。オペ
レータは、この表示画面を見て、目的のファイルであっ
たかどうかを確認する。

【００５４】(4) ：目的のファイルであった場合には、
プリントアウト、別ディスク装置へのデータ転送、ＦＡ
Ｘ送信等の手段により、前記データを出力する。 §６：バックグラウンドジョブによる辞書の最適化処理
（自動辞書更新処理）の説明・・・図２参照バックグラウンドジョブによる認識辞書の最適化処理
（自動辞書更新処理）は、次のようにして行う。

【００５５】(1) ：ＣＰＵ１１により文章解析処理部２
４が起動されると、該文章解析処理部２４では、光ディ
スク装置１８に格納されているファイルの文字データ領
域内の文字データを読み出し、メモリ１４に格納する。

【００５６】(2) ：この時、このファイルの画像情報
の、この文字領域を表す画像データを、メモリ１４に格
納する。 (3) ：文章解析処理部２４では、メモリ１４上の文字デ
ータに、単語辞書／文法部２５の単語辞書、及び文法を
使用して、文章解析処理を行い、誤認識している文字を
抽出する。

【００５７】そして、その位置、及びこの領域の最初か
ら何文字目かの情報を、前記メモリ１４に記憶してお
く。また、この文字の正しいカテゴリを前記メモリ１４
に記憶しておく。

【００５８】(4) ：次に、ＣＰＵ１１では、メモリ１４
上にある誤認識した文字に関する情報を用い、光ディス
ク装置１８から、誤認識した文字に対応する画像データ
（原画像データ）を切り出して文字認識部５へ送り、文
字認識部５を起動する。

【００５９】(5) ：文字認識部５では、イメージ処理部
２１が、前記切り出した画像データから特徴量を抽出す
る。そして、文字認識部５では、前記抽出した特徴量
と、認識辞書９に格納してあるカテゴリの特徴量から、
辞書が認識に最適となるように、認識辞書の更新を行
う。

【００６０】なお、認識辞書の更新処理としては、次の
ような方法がある（いずれも従来から使用されている方
法である）。：辞書の正しい文字のカテゴリの特徴量と、誤認識し
た文字の特徴量とを、加重平均する方法。

【００６１】：辞書内の全カテゴリの特徴量を対象
に、誤認識した文字の特徴量とで、クラスタリングを行
い、最も近いカテゴリを探す。そして、そのカテゴリ
が、誤認識した文字の正しいカテゴリでなかった場合
は、誤認識した文字の特徴量を、新たな文字の辞書に追
加する方法。

【００６２】以上の処理を、光ディスク装置１８に格納
されているファイルの全てを対象として行い、認識辞書
に対して学習を行う。 §７：文書データの説明と、文書構造解析部の処理説明
・・・図３参照図３は文書データの説明図である。以下、図３を参照し
ながら、光ディスク装置に格納された文書データ（画像
データ、及び文字データ）、及び文書構造解析部の処理
を説明する。

【００６３】前記のように、新聞の切り抜き等の文書
（活字文書）をスキャナ２で入力した後、２値化処理を
行い、イメージデータとして、イメージメモリ３に格納
する。この場合の２値化処理としては、次の通りであ
る。

【００６４】例えば、読み込み濃度のヒストグラムをと
り、その最大頻度を含む頻度よりも、少し濃い濃度を閾
値とする処理を行う。最近では、スキャナ本体に付属す
る２値化アルゴリズムを利用するのが普通である。

【００６５】これは、可変閾値をユーザが設定するもの
から、自動露出度測定によって読み込むライン毎に、閾
値を変化させて、成るべく背景濃度と図柄の濃度を区別
するようにするものである。

【００６６】前記のようにして入力した文書データは、
図示のように、「文字領域１」、「文字領域２」、「文
字領域３」、「図表領域１」、「写真領域１」等で構成
されている。すなわち、文字が集まり、その外接が矩形
をなす「文字領域」、写真の外接を矩形で囲んだ「写真
領域」、画の外接が矩形をなす「図表領域」である。

【００６７】ところで、前記文書構造解析部４では、以
下の３つの処理を行う。：文書の中の「文字領域」、「写真領域」、「図表領
域」の各領域毎に座標、大きさを求め、それらを記憶す
る。

【００６８】：「文字領域」と判定した領域では、更
に、その領域内の文字列（行）の方向から、縦書き、横
書きの判定を行い、それも記憶する。：「写真領域」や、「図表領域」内にある文字領域に
ついては、写真、または図表と前記文字領域との近さ
が、或る一定閾値より小さければ、その写真、又は図表
の説明文であると判定し、その情報も記憶する。

【００６９】§８：文書データの各領域抽出処理の説明
・・・図４参照図４は領域抽出／判定処理フローチャートである。以
下、図４に基づいて、領域抽出／判定処理を説明する。
なお、Ｓ１〜Ｓ９は各処理番号を示す。

【００７０】この処理は、文書を入力してイメージメモ
リ３に格納した入力画像（イメージデータ）を走査し
て、「文字領域」、「図表領域」、及び「写真領域」の
抽出を行う文書構造解析部４の処理である。

【００７１】先ず、黒画素の塊の輪郭追跡から、それの
外接矩形の座標を求める（Ｓ１）。次に、矩形の高さの
ヒストグラムを求め、閾値以上の高さで、ヒストグラム
の山が途切れる所まで、文字部分と判断する（Ｓ２）。
そして、この範囲に入った矩形だけを抽出する（Ｓ
３）。この場合、小さな矩形だけが残る。

【００７２】前記小さな矩形相互が閾値以下の距離にあ
り、それを１つにまとめて大きな矩形を形成する場合に
は、２つの小さな矩形の統合を行い１つの矩形とする。
この処理を繰り返して行い、大きな文字矩形領域を作
り、メモリ１４に記憶する（Ｓ４）。

【００７３】その後、原画像から前記文字矩形領域を取
り除き（Ｓ５）、残った画像から、先ず、線で構成され
ている部分を抽出する。これには、例えば、３×３の線
分検出マスクで画像を走査して、線分と思われる所をチ
ェックする。

【００７４】線分と思われる所が多くある領域内で、黒
画素で連続している部分を「図表領域」として記憶する
（Ｓ６）。前記処理終了後、原画像から「図表領域」を
取り除き（Ｓ７）、残った画像は、「写真領域」と見な
して、連続する黒画素の外接矩形を求め、記憶する（Ｓ
８）。そして、前記各領域で重なりが出た場合には、
「文字領域」を優先して重なりを除く処理を行う（Ｓ
９）。

【００７５】§９：文字領域の縦書き／横書き判定処理
の説明・・・図５参照図５は文字領域の縦書き／横書き判定処理フローチャー
トである。以下、図５に基づいて、領域抽出／判定処理
を説明する。

【００７６】なお、Ｓ１１〜Ｓ１４は各処理番号を示
す。また、この処理は、前記文書構造解析部４が行う処
理である。先ず、文字領域内にある、文字を表す黒画素
の外接矩形の並びを調査する（Ｓ１１）。そして、矩形
の座標を、横書きを仮定して、矩形列を横に走査する。
この走査により、左上点座標、右上点座標の上下座標
が、或る閾値の範囲内に収まれば、横書きと判定する
（Ｓ１２）。

【００７７】同じようにして、矩形の座標を、縦書きを
仮定して、矩形列を縦に走査して、左上点座標、右上点
座標の左右の座標が、或る閾値の範囲内に収まれば、縦
書きと判定する（Ｓ１３）。

【００７８】また、どちらか片方の判定の場合には、そ
れを採用する。両方の判定が出た場合には、隣の矩形と
の平均距離が近い方を選択する（Ｓ１４）。 §１０：文書データの説明・・・図６参照図６は文書データの説明図である。図示の文書データ例
は、光ディスク装置１８に格納されている文書データの
１例である。

【００７９】この例では、文書データは、「ページ」、
「写真領域」、「図表領域」、「文字領域」のそれぞれ
が、リスト構造となっている。これは、各要素が、幾つ
であるか、事前に予測がつかないためである。認識結果
の文字は、図の構造体の中に格納されるので、原画像
（入力画像）の中の、どの部分の文字領域の中の、どの
文字の認識した結果かが、特定できるようになっている
（文字ＩＤが付されているため）。

【００８０】文書データ例の各項目は次の通りである。：「struct BOOK 」の項の「struct PAGE *page;」は
最初のページのデータへのポインタ、「struct IMAGE *
image;」は画像データへのポインタを示す。

【００８１】：「struct PAGE 」の項の「struct PAG
E *page;」は次のページのデータへのポインタ」、「st
ruct PHOTO *photo;」は最初の写真領域のデータへのポ
インタ、「struct PICTURE *picture;」は最初の図表領
域のデータへのポインタ、「struct CHAR *char;」は最
初の文字領域のデータへのポインタを示す。

【００８２】：「struct PHOTO」の項の「struct PHO
TO *photo;」は次の写真領域のデータへのポインタ」、
「int x1,y1,x2,y2;」は写真領域の矩形座標（左上、右
下）、「int beside; 」は説明文の文字領域番号を示
す。

【００８３】：「struct PICTURE」の項の「struct P
ICTURE *picture;」は次の図表領域のデータへのポイン
タ、「int x1,y1,x2,y2;」は図表領域の矩形座標（左
上、右下）、「int beside; 」は説明文の文字領域番号
を示す。

【００８４】：「struct CHAR 」の項の「struct CHA
R *char;」は次の文字領域のデータへのポインタ、「in
t x1,y1,x2,y2;」は文字領域の矩形座標（左上、右
下）、「struct CHARS *chars;」は認識結果文字列情報
へのポインタを示す。

【００８５】：「struct CHARS」の項の「struct CHA
RS *chars;」は次の認識結果文字列情報へのポインタ、
「int x1,y1,x2,y2;」は文字を構成する画像の矩形座標
（左上、右下）、「int ID; 」は文字領域内での文字を
特定する文字ＩＤ、「int code; 」はこの文字のコード
（認識結果）を示す。

【００８６】：「struct IMAGE」の項の「int x1,y1,
x2,y2;」は画像の範囲、「char image［1000000 ］；」
は画像情報中身（２値化されたもの）を示す。 §１１：バックグラウンドジョブ１の説明・・・図７参
照図７はバックグラウンドジョブの説明図１であり、Ａは
単語辞書の構造例、Ｂは単語辞書を使用した誤認識文字
検知処理フローチャートである。

【００８７】：単語辞書の説明・・・図７Ａ参照図７Ａに示したように、単語辞書／文法部２５の単語辞
書は、複数の単語の集合で構成されている。単語の並べ
順は、ＪＩＳで規定された順序とする。

【００８８】この場合、各単語は特定のコード（０等）
で区切られている。例えば、図示のように「亜細亜，
０，亜熱帯，０，・・・・」のように構成されている。：単語辞書を使用した誤認識文字検知処理の説明・・
・図７Ｂ参照以下、図７Ｂに基づいて、文章解析処理部２４による単
語辞書を使用した誤認識文字検知処理を説明する。な
お、Ｓ２１〜Ｓ２６は各処理番号を示す。

【００８９】先ず、光ディスク装置１８に格納されてい
る認識結果の文字列の中から、漢字が連続している箇所
を抽出する（Ｓ２１）。そして、抽出した文字列に対し
て、単語辞書と比較する（Ｓ２２）。

【００９０】その結果、両者が一致しない場合には（Ｓ
２３）、抽出文字列はそのまま（Ｓ２４）とし、前記処
理（Ｓ２１）から繰り返す。しかし、一致した場合（一
致度が、閾値より大きい場合）には（Ｓ２３）、単語内
で、単語辞書と抽出文字列との違っている箇所を探し
て、その文字の「文字ＩＤ」を求める。また、その部分
の正しい文字コードを単語辞書から求める（Ｓ２５）。
次に、「文字ＩＤ」及び正解コードをメモリ１４へ格納
して（Ｓ２６）処理を終了する。

【００９１】なお前記処理を行う際、文章解析処理部２
４では、単語辞書／文法部２５の文法も使用して解析処
理を行う。 §１２：バックグラウンドジョブ２の説明・・・図８参
照図８はバックグラウンドジョブの説明図２であり、Ａは
認識辞書の構造例、Ｂは認識辞書更新処理フローチャー
トである。

【００９２】：認識辞書の構造例の説明・・・図８Ａ
参照認識辞書は、図示のように、「文字コード」と、「特徴
量」の組みの集合である。例えば、文字「亜」の文字コ
ードは、「３０２１」であり、その特徴量は、３，５，
７，９０，３，・・・となっている。

【００９３】また、文字「唖」の文字コードは、「３０
２２」であり、その特徴量は、１，４，７，８，４５
３，・・・となっている。：認識辞書更新処理の説明・・・図８Ｂ参照以下、図８Ｂに基づいて、認識辞書更新処理を説明す
る。なお、Ｓ３１〜Ｓ３５は各処理番号を示す。

【００９４】この処理は文章解析処理部２４による文章
解析処理で得られた情報（誤認識文字に関する情報）を
基に、文字認識部５が行う処理である。文字認識部５の
イメージ処理部２１では、先ず、文章解析処理部２４が
格納した文字ＩＤ、正解コードをメモリ１４から取り出
す（Ｓ３１）。そして、画像情報から、文字ＩＤにあた
る部分を取り出し、特徴量ベクトルを生成する（Ｓ３
２）。このようにして特徴量ベクトルを得たら、これを
「更新用特徴量ベクトル」とする（Ｓ３３）。

【００９５】次に、認識辞書９の中で、正解コードの辞
書特徴量ベクトルを、重み付きで足して、正規化する
（Ｓ３４）。そして、更新後の特徴量ベクトルを、新し
い辞書ベクトルとする（Ｓ３５）。

【００９６】

【発明の効果】以上説明したように、本発明によれば次
のような効果がある。：蓄積されている大量の文書データから学習し、最適
化された認識辞書を使用するため、文字認識精度が向上
する。

【００９７】：辞書更新処理をバックグラウンドジョ
ブとして行うので、ユーザが意識することなく、また、
ユーザが本装置を使用していない時でも、認識辞書の最
適化が可能となる。

【図面の簡単な説明】

【図１】本発明の原理説明図である。

【図２】実施例の装置構成図である。

【図３】実施例における文書データの説明図である。

【図４】実施例における領域抽出／判定処理フローチャ
ートである。

【図５】実施例における文字領域の縦書き／横書き判定
処理フローチャートである。

【図６】実施例における文書データの説明図である。

【図７】実施例におけるバックグラウンドジョブの説明
図１である。

【図８】実施例におけるバックグラウンドジョブの説明
図２である。

【図９】従来技術の説明図である。

【符号の説明】

２Ａ画像入力部３イメージメモリ４文書構造解析部５文字認識部７ファイル装置９認識辞書２４文章解析処理部２５単語辞書／文法部

Claims

【特許請求の範囲】

【請求項１】文書画像を入力する画像入力部（２Ａ）
と、入力した文書画像を解析して、異なる属性の領域（文字
領域、図表領域、写真領域）に分離し、各種情報を抽出
する文書構造解析部（４）と、前記分離された領域の内、文字領域を対象とし、認識辞
書（９）を用いて文字認識を行う文字認識部（５）と、前記各部で得られた文書データ（画像データ、文字デー
タ等）を格納するファイル装置（７）を備えたＯＣＲ付
きファイリング装置において、前記ファイル装置（７）に格納された文書データの内、
文字領域内の文字データを対象として文章解析処理を行
い、誤認識文字を抽出して、その正解文字情報を求める
文章解析処理部（２４）を設け、前記誤認識文字に関する情報を基に、文字認識部（５）
が認識辞書（９）の更新処理を行うことにより、認識辞
書の最適化を可能にしたことを特徴とするＯＣＲ付きフ
ァイリング装置。
【請求項２】請求項１記載のＯＣＲ付きファイリング
装置において、単語辞書、及び文法情報を格納した単語辞書／文法部
（２５）を設け、単語辞書／文法部（２５）の単語辞書、及び文法を使用
して、前記文章解析処理部（２４）による文章解析処理
を行うことを特徴としたＯＣＲ付きファイリング装置。
【請求項３】請求項１記載のＯＣＲ付きファイリング
装置において、文字認識部（５）による認識辞書更新処理を行う際、前記誤認識文字に関する情報を基に、誤認識文字に対応
する画像データを切り出して特徴量を求め、該特徴量を基に、認識辞書（９）の更新処理を行うこと
を特徴としたＯＣＲ付きファイリング装置。
【請求項４】請求項１記載のＯＣＲ付きファイリング
装置において、内部処理をマルチタスクとすることにより、文章解析処理部（２４）による文章解析処理、及び文字
認識部（５）による認識辞書更新処理を、他の処理等と
は関係なく、常時、バックグラウンドジョブとして実行
可能にしたことを特徴とするＯＣＲ付きファイリング装
置。