JP3803219B2 - 全文検索装置及び全文検索方法 - Google Patents

全文検索装置及び全文検索方法 Download PDF

Info

Publication number
JP3803219B2
JP3803219B2 JP35477799A JP35477799A JP3803219B2 JP 3803219 B2 JP3803219 B2 JP 3803219B2 JP 35477799 A JP35477799 A JP 35477799A JP 35477799 A JP35477799 A JP 35477799A JP 3803219 B2 JP3803219 B2 JP 3803219B2
Authority
JP
Japan
Prior art keywords
character
recognition candidate
document
index
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35477799A
Other languages
English (en)
Other versions
JP2001175661A (ja
Inventor
泰三 亀代
敬 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP35477799A priority Critical patent/JP3803219B2/ja
Priority to CN00134962.7A priority patent/CN1118034C/zh
Publication of JP2001175661A publication Critical patent/JP2001175661A/ja
Application granted granted Critical
Publication of JP3803219B2 publication Critical patent/JP3803219B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、例えば、文書や図面に記載された文字画像を識別することにより作成された文書・図面データから、任意のキーワードを用いて全文検索する全文検索装置及び全文検索方法に関するものである。
【0002】
【従来の技術】
コンピュータが読取可能な電子化テキストを蓄積し、キーワードを用いて電子化テキストの検索処理を行う方法には、(1)テキストの内容とキーワードを1文字ずつ直接照合する方法、(2)テキスト内に出現する文字とその位置情報を予め抽出してインデックスを作成し、検索時にインデックスを用いてキーワードとテキスト内の文字の位置関係を検定する方法とがある。
【0003】
上記(2)ではインデックスを作成する文字列の単位から、連続するN(Nは整数)文字単位でのインデックスと、単語、形態素等の文法的要素を含む単位によるインデックスに大きく分類できる。更に位置情報の記述内容からテキスト番号等を記述する方法、テキスト番号に加えてテキスト内の文字の出現位置を記述する方法がある。
【0004】
上記(1)では、テキストとキーワードの照合を高速に行うためには、テキストをメモリに展開する必要があるが、保存しているテキスト数が多くなるとテキストをメモリに展開する時間が長くなるため、高速に検索できない問題が発生する。しかし、予めインデックスを作成せずに済む点から、頻繁に登録、削除を行う場合に都合がよい。
上記(2)は、予めインデックスを作成する必要があるため、上記(1)に比べ登録、削除に時間を費やすが、一般的に検索における処理時間は、上記(1)に比べ少ない。このため、登録、削除があまり頻繁に行われず、大量文書を扱う場合に適している。
【0005】
図21は例えば特開平10−149367号公報に示された従来の全文検索装置(以下、従来例1という)を示す構成図であり、当該従来例1は上記(2)に関するインデックス作成方法を適用するものである。
図において、201はテキスト格納手段、202は主インデックス登録手段、203は副インデックス登録手段、204は主インデックス格納手段、205は副インデックス格納手段、206は副インデックス管理手段、207は主インデックス検索手段、208は副インデックス検索手段、209はキーワード検索制御手段、210はキーワード検索結果格納手段、211は検索条件入力手段、212は論理条件解析手段、213は検索結果出力手段である。
【0006】
次に動作について説明する。
テキスト格納手段201によって格納されたテキストは、主インデックス登録手段202によって連続するN文字のインデックスを登録し、主インデックス格納手段204によって格納される。
【0007】
検索時には、検索条件入力手段211から得た検索条件を用いて、キーワード検索制御手段209が主インデックスと副インデックスを検索することにより検索結果を得る。その検索結果からキーワード検索結果格納手段210が検索結果の件数(テキスト識別数)の多いものや、検索結果のテキスト内文字位置数とテキスト識別数の比が大きいものに対し、副インデックス作成手段206を起動し、副インデックスの作成を行う。
【0008】
従来例1では、N文字インデックスの主インデックスに加え、副インデックスを保持し、始めに副インデックスをアクセスし、キーワードが副インデックスに存在しない場合、主インデックスをアクセスする。
主インデックスは文書番号と文字位置番号を保持し、副インデックスは文書番号のみを保持している。このため、副インデックスは主インデックスに比べ、サイズが小さく、インデックスの検定処理も少なく済む。
副インデックス内にキーワードのN文字インデックスがある場合、主インデックスをアクセスする必要がなく、検索処理時間が短くなる。また、検索履歴を元に検索される頻度が小さいインデックスを副インデックスから削除することで、インデックスのサイズを小さくすることができる。
【0009】
次に、文書を文字コード化していない(電子化テキストを作成していない)文書画像に対して検索を行うには、文字認識処理を実行して文書画像から文字部分を抽出することにより、電子化テキストを作成して保存するようにする。例えば、特開平8−7033号公報では、文字認識の結果として、各文字画像に対する認識候補文字を複数保持することにより、正解文字が含まれる割合を高める技術を開示している。
【0010】
図22は特開平8−7033号公報に示された従来の全文検索装置(以下、従来例2という)を示す構成図であり、図において、221は画像入力手段、222は出力手段、223は文字認識手段、224は文書検索手段、225はキーワード入力手段、226はイメージデータ、227はテキスト情報、228は検索用ファイルである。
【0011】
次に動作について説明する。
従来例2では、文書画像を画像入力手段221から入力すると、文字認識手段223を用いて文字認識を実行し、その認識候補文字を検索用ファイル228に格納する。
複数の認識候補文字を格納するために、検索用ファイル228の記述は、認識候補文字数と認識候補文字を用いて、[候補文字数][候補文字1][候補文字2]・・・と記述する。
【0012】
例えば、「新文書ファイリング」という文字画像に対して、複数の認識候補文字を格納する場合、[1]新[4]丈文女交[1]書[1]フ[1]ァ[1]イ[1]リ[1]ン[1]グなどと記述する。
検索時には、文書検索手段224が検索用ファイル228内のテキストとキーワードの照合を実行し、認識候補文字中にキーワードと同一文字が全て含まれている場合に、照合の成功を認定する。例えば、「新文書ファイリング」のテキストに対してキーワード「文書」で検索すると、[4][丈文女交][1][書]の認識候補文字内に「文」及び「書」が存在するので照合に成功し、検索結果として出力する。
【0013】
なお、従来例1と従来例2を組み合わせることによって、認識候補文字を含めたインデックスを作成して検索を行うことが可能となる。例えば、N=2とすると、従来例2の「新文書ファイリング」の例では、「新丈」、「新文」、「新女」、「新交」、「丈書」、「文書」、「女書」、「交書」のような認識候補文字を用いたインデックスを作成することで、従来例1に適応可能となる。
【0014】
【発明が解決しようとする課題】
従来の全文検索装置は以上のように構成されているので、文字認識の結果作成されたテキストからインデックスを作成する場合において、文字認識結果の第1位認識候補文字のみを用いたインデックスを作成すると、文字認識結果が誤りを含む確率が高くなり、キーワードとテキスト内の文字が一致せず、正しく検索されないことが多くなる課題があった。
【0015】
また、従来例2のように認識候補文字を用いたテキストを実際に照合する検索では、正解文字がテキストに含まれる確率が第1位認識候補文字のみを保持する場合に比べて高くなるが、大量データになる程、テキストファイルをメモリにロードするための時間が長くなるため、検索の高速を図ることができなくなる課題があった。
【0016】
また、認識候補文字を用いてインデックスを作成して検索する場合、正解文字が認識候補文字内に全て含まれないと、正解文字列のインデックスを正しく作成することができず、検索時に正しく検索されない課題があった。
例えば、「文字認識」という文字画像の認識結果が「文宇認識」のように「字」を「宇」に誤って認識した場合、作成するインデックスは「文宇」、「宇認」、「認識」となり、本来あるべき「文字」、「字認」のインデックスが作成できず、その結果「文字認識」のキーワードで正しく検索されなくなる。
【0017】
さらに、例えば、各文字に対して認識候補文字を3文字ずつ保持すると、連続する2文字のインデックスを作成する場合の組合せは3×3=9通りとなり、認識候補文字を1文字ずつ保持する場合の9倍となる。連続する3文字の組合せでは3×3×3=27通りとなり、認識候補文字を多く保持するほど、連続するN文字の組合せが多くなり、その結果、インデックスの容量が非常に大きくなる課題もあった。
【0018】
この発明は上記のような課題を解決するためになされたもので、高速かつ高精度な全文検索を実施することができる全文検索装置及び全文検索方法を得ることを目的とする。
また、この発明は、インデックスの容量を小さくすることができる全文検索装置を得ることを目的とする。
【0019】
【課題を解決するための手段】
この発明に係る全文検索装置は、連接文字を構成している各認識候補文字が、文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
また、この発明に係る全文検索装置は、キーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
また、この発明に係る全文検索装置は、文字認識手段が出力する認識候補文字が修正された場合、修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
【0021】
この発明に係る全文検索装置は、文字認識手段が出力する各認識候補文字の中で、基準確度より確度が低い認識候補文字をインデックスの作成対象から除外するようにしたものである。
【0022】
この発明に係る全文検索装置は、文字認識手段が出力する認識候補文字の確度が基準確度より低い場合でも、基準確度を超える確度の認識候補文字を有しない文字画像に係る認識候補文字の場合、その認識候補文字をインデックスの作成対象に含めるとともに、その認識候補文字に対して他の認識候補文字と区別する識別記号を付加するようにしたものである。
【0023】
この発明に係る全文検索装置は、文字画像の形状特徴をデータベースに格納するとともに、その文字画像に対する各認識候補文字と単語を構成する可能性のある文字の文字コードをデータベースに格納するようにしたものである。
【0024】
この発明に係る全文検索装置は、言語的情報又は文字の種類を考慮して、各認識候補文字と単語を構成する可能性のある文字を判定するようにしたものである。
【0025】
この発明に係る全文検索装置は、特徴抽出手段により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴との距離を計算し、その距離が所定の基準を満たすとき検索条件の合致を認定するようにしたものである。
【0026】
この発明に係る全文検索装置は、検索手段による形状特徴照合処理の実行の有無を設定する設定手段を設けたものである。
【0027】
この発明に係る全文検索装置は、キーワードと一致する認識候補文字を含む文書を形状特徴の照合対象から除外するようにしたものである。
【0028】
この発明に係る全文検索装置は、キーワードと一致する認識候補文字が存在しない場合に限り、特徴抽出手段により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴を照合するようにしたものである。
【0029】
この発明に係る全文検索装置は、キーワードに対する形状特徴の照合対象を特定する際、識別符号が付加された認識候補文字をワイルド・カードとして取り扱うようにしたものである。
【0034】
この発明に係る全文検索方法は、出現確率更新手段が連接文字を構成している各認識候補文字が、文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
また、この発明に係る全文検索方法は、出現確率更新手段がキーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
また、この発明に係る全文検索方法は、文字認識手段が出力する認識候補文字が修正された場合、出現確率更新手段が修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
【0035】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による全文検索装置を示す構成図であり、図において、1は画像を入力する画像入力手段、2は入力画像に含まれる各文字画像を識別して、各文字画像に対する1以上の認識候補文字を出力するとともに、各認識候補文字の確度(類似度)を出力する文字認識手段、3は文字認識手段2が出力する各認識候補文字と文字位置の対応関係を示すインデックスを作成するインデックス作成手段である。
【0036】
4は入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像が存在する場合、その文字画像の形状特徴を抽出するとともに、言語的情報又は文字の種類を考慮して、その文字画像に対する認識候補文字と単語(文字列)を構成する可能性のある文字を判定し、その文字列を曖昧テキストとして抽出する曖昧テキスト抽出手段(特徴抽出手段)、5は文書の検索条件としてキーワードを入力する検索条件入力手段(入力手段、設定手段)、6はインデックスを参照して、そのキーワードと一致する認識候補文字の文書番号を検索する一方、曖昧テキスト抽出手段4により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴を照合して、文書の検索条件に合致する文書番号を検索する検索手段、7は検索手段6の検索結果を出力する出力手段である。
【0037】
8は文字認識手段2が文字認識に使用する文字認識辞書、9は検索手段6がキーワード検索時に使用する形状特徴辞書、10は曖昧テキスト抽出手段4により抽出された曖昧テキストを格納する曖昧テキストデータベース、11はインデックス作成手段3により作成されたインデックスを格納するインデックスデータベース、12は認識候補文字等を格納する認識文字データベースである。
【0038】
次に動作について説明する。
最初に、図2を参照して文書の登録方法を説明する。まず、ステップST100において、画像入力手段1はコンピュータで処理可能な文書画像を入力する。画像入力手段1の構成としては、スキャナあるいはディジタルカメラ等を用いてもよいし、予め作成されたコンピュータ処理可能な画像をネットワーク経由等で入力してもよい。ここでは、画像入力手段1から図3の文書イメージを入力するものとする。
【0039】
次に、ステップST110において、文字認識手段2は、画像入力手段1から入力された入力画像に対し文字認識処理を実行し、文字コードとその確からしさを示す類似度を出力する。
文字認識の方法は、公知となっている技術を用いることにより可能であるので詳細は省略する。文字認識手段2は入力画像に含まれる各文字画像に対し、複数の認識候補文字とそれぞれの類似度を出力する。
【0040】
図4は文字認識手段2の認識結果の一部であり、ここでは、図3の1行目から2行目までの各文字画像の認識結果について、認識候補第1位から第5位までの認識候補文字とその類似度を示している。
図4で認識候補文字中に存在する「◆」は、対応する文字コードが格納されていないことを意味する。
【0041】
次に、ステップST120において、インデックス作成手段3は、図4に示す認識結果から検索に用いる認識候補文字の絞込みを実施する。
認識候補文字の絞込みを行う方法としては、例えば、認識候補文字の類似度の値と当該認識候補文字が、正解である確率を予め学習データから求めておき、正解である確率が高く、かつ、十分な絞込みが行える閾値TH1を設定し、閾値TH1以上の類似度の認識候補文字を保持するようにする。
【0042】
閾値TH1以上の類似度の認識候補文字が存在しない場合は、正解文字が含まれない確率が高いため、各認識候補文字に加えて正解文字が含まれない可能性が高いことを示す「*」記号を付加する。
この例では「*」を用いているが、他の文字コードを割り当ててもよいし、文字コード以外の値を割り当てるようにしてもよい。
図5は認識候補文字の絞込み結果を示している。例えば、TH1=80と設定すると、文字位置番号4と文字位置番号9に対しては、類似度が80以上の認識候補文字が存在しないので(図4を参照)、これらに対して、「*」を付加するようにしている(図5の符号23,24を参照)。インデックス作成手段3は図5に示す絞込み後の認識候補文字を認識文字データベース12に保存する。
【0043】
次に、ステップST130において、インデックス作成手段3は、インデックスを作成する。ここでは、図5に示す認識候補文字から1文字毎のインデックスと、連続する2文字のインデックスを作成する。
ここで、インデックスの作成方法を具体的に説明する。
図9はインデックス作成手段3が図5に示す認識候補文字から作成した2文字のインデックスを示している。その作成方法は、図5の1文字目から順番に隣り合う文字同士について、隣り合う2文字の前の文字と後の文字の文字コード、前の文字の出現位置、前の文字の認識候補順位と後の文字の認識候補順位との積を計算して保存する。出現位置は「X−Y」と記述し、文書番号Xの文頭からY文字目を意味する。ここでは、図3の文書イメージの文書番号を“1”としている。
【0044】
例えば、図5の「文」21と「書」22から図9の「文書」25のインデックスを作成する。この場合、「文」21の位置情報が文書1の先頭から1文字目であるので、文字位置は「1−1」となり、「文」21と「書」22の認識候補順位が共に1位であるので、認識候補順位は1×1=1となる。
図10は1文字インデックスの位置と認識順位を記憶したテーブルであり、文字コード、文字出現位置及び認識候補順位を保持する。正解文字コードが含まれないと判定した文字に対しては、「*」31と文字位置32を保持するようにしている。
【0045】
次に、ステップST140において、曖昧テキスト抽出手段4は、正解文字コードが含まれない文字を含む曖昧テキストを抽出する。
即ち、曖昧テキスト抽出手段4は、図5に示す認識候補文字から、「*」が付いた文字コードの文字画像から文字の形状特徴を作成し、その前後の数文字と共に曖昧テキストデータベース10内に格納する。
前後の文字の判定方法は、例えば、公知である形態素解析を実行し、「*」が付いた文字コードの前後から形態素解析に失敗した文字としてもよいし、「*」が付いた文字コードと同一カテゴリ(英字、漢字、数字、ひらがな、かたかなの何れか)で連続する文字としてもよいし、文字数を固定してもよい。ここでは、後ろの1文字を保持するようにしている。
【0046】
図8は具体的な形状特徴の作成方法を示し、図8では文字画像のイメージを8分割して、各領域の黒画素数を求めるようにしている。例えば、領域41に対して黒画素数が13個(符号49を参照)、領域42に対しては黒画素数が10個(符号50を参照)として求まる。こうして作成した形状特徴を認識候補文字とともに保存する。図6は4文字目と9文字目の文字画像から抽出された形状特徴を保持する例を示している。
また、曖昧テキスト抽出手段4は、認識文字データベース12に形状特徴を作成した文字の位置とその特徴値を格納する(図5の下部を参照)。
【0047】
次に、文書の検索方法を説明する。
ここでは、文書登録処理の結果、インデックスデータベース11及び曖昧テキストデータベース10には文書番号1の文書に関するデータのみが格納されているものとする。図11は文書の検索方法を示すフローチャートである。
【0048】
まず、ステップST200において、ユーザは検索条件入力手段5を用いて、キーワードを入力する。検索条件入力手段5を構成するには、コンピュータのキーボードやマウスで可能であるが、これに限らずマイク、電話などを用いた音声入力も可能である。ここでは「文字」というキーワードを入力するものとする。
次に、ステップST210において、検索手段6は、入力されたキーワードを分割する。ここでは、1文字および2文字連接文字列の組に分解する。即ち、「文」、「字」、「文字」に分割する。
【0049】
次に、ステップST220において、検索手段6は、インデックスを用いた文書の検索を実施する。図12はインデックス照合を示すフローチャートである。
まず、ステップST221において、検索手段6は、その分割した「文字」、「文」、「字」の各インデックス(図9の符号26、図10の符号27,28を参照)を取り出す処理を実行する。具体的には、図示しないメモリ上に各インデックスの内容をロードする。
【0050】
次に、ステップST222において、文字位置の検証を実施して文書番号を検索する。即ち、「文」、「字」の文字位置をそれぞれ検証して文書番号を検索してもよいが、「文字」のインデックス26を用いて文書番号を検索するようにしてもよい。ここでは、「文字」のインデックス26を用いて検索する。この場合、「文字」の文字位置が「1−7」であるので、文書番号1が検索結果となる。
最後に、ステップST224において、検索手段6は、インデックス検索での検索結果を出力する。
【0051】
次に、図11のステップST230において、検索手段6は曖昧テキストを用いた検索を実施する。図13は曖昧テキスト照合を示すフローチャートである。
まず、ステップST231において、検索対象文書の決定を実行する。ここでは、処理の無駄を省くためにインデックス照合(ステップST220)による検索の結果、出力候補となった文書番号の文書を検索対象から除外する。
【0052】
具体的には、キーワード「文字」の「文」、「字」何れかの文字を含む文書番号をピックアップし、そこからステップST220において出力された文書番号の文書を除いたものを検索対象文書とする。つまり、図10から「文」のインデックス27が示す文書番号と「字」のインデックス28が示す文書番号とのORをとり、これからステップST220での検索結果を除くようにする。
この場合、「文」と「字」の文書番号のORは“1”であり、ステップST220において、文書番号1を出力しているので、文書番号1から文書番号1を除いて対象文書なしとする。
【0053】
次に、ステップST232において、対象文書をメモリにロードする。ここでは、対象文書なしなのでロードしない。続いて、ステップST233において、文字コードレベルでの照合を行うが、対象文書なしなので照合を行わない。同様に、ステップST234において、形状特徴の照合を行うが対象文書なしなので照合を行わない。ステップST235において、Yに進み、ステップST236において、結果なしを出力して終了する。
最後に、図11のステップST240において、各検索結果(文書番号1)を出力して終了する。
【0054】
次に、ユーザがキーワードとして「課題」を入力した場合の検索について説明する。
図11のステップST200において、ユーザは検索条件入力手段5から「課題」をキーワードとして入力する。ステップST210において、検索手段6はキーワード分割する。ここでは、「課」、「題」、「課題」とに分割する。
次に、ステップST220において、検索手段6は、インデックス照合による検索を実行する。図12のステップST221において、各インデックスを取り出すが、ここでは、「題」のインデックス30は存在するが、「課題」、「課」のインデックスは存在しない。ステップST222,ステップST224と進み、「課題」のインデックスが存在しないので、結果なしで終了する。
【0055】
次に、図11のステップST230において、検索手段6は曖昧テキストを検索する。まず、図13のステップST231において、検索対象文書の決定を実行する。「課」のインデックスが示す文書番号と、「題」のインデックスが示す文書番号とのORをとり、これからステップST220における検索結果を除く処理を実行する。
【0056】
「題」のインデックス30が示す文書番号が“1”で、ステップST220での検索結果がなしであるから対象文書の文書番号は“1”となる。
次に、ステップST232において、対象文書の曖昧テキストをメモリにロードする。ここでは、図6に示す文書番号1のテキスト及び形状特徴をメモリにロードする。
【0057】
次に、ステップST233において、検索手段6は文字コードレベルでの照合を実行する。ここでは、検索キーワードと1文字でも一致した場合に、一致した文字位置付近を形状特徴照合範囲として記憶し次に進む。具体的には、キーワード「課題」の「課」又は「題」いずれかの文字が存在した部分の付近を形状特徴照合範囲とする。ここでは、図6で「題」33が一致するので、これを形状特徴照合範囲とする。
【0058】
次に、ステップST234において、検索手段6は、形状特徴を用いた照合を実行する。ここでは、図6の形状特徴34と形状特徴辞書9から「課」の形状特徴をロードする。図8で、41〜48の領域を領域1〜領域8に割り当てる。形状特徴の計算は、下記に示すように、各領域毎の特徴の差分を計算する。
【0059】
【数1】
Figure 0003803219
【0060】
ここで、Dは形状特徴間の距離、Xi は曖昧テキストデータベース10内のテキストのi番目の形状特徴であり、Yi は対応するキーワード文字のi番目の形状特徴(形状特徴辞書9内に格納されている)である。
【0061】
距離Dがある閾値THR以下の場合に形状特徴の照合に成功したものとし、この文書を検索結果として出力する。いま、形状特徴辞書9内の「課」の領域1〜8までの特徴値をそれぞれ「10」「7」「12」「12」「10」「5」「10」「9」とすると、図6の形状特徴34との距離はD=30となる。
従って、THR≧Dが成立するので、この特徴間の照合は成功し、文書番号1を検索結果として出力する。
最後に、ステップST240において、その検索結果である文書番号1を出力する。
【0062】
この実施の形態1では、インデックスを1文字と2文字の場合で説明したが、これに限らず、連続する3文字のインデックスを用いてもよいし、それ以上でもよい。
また、この実施の形態1では、インデックスと曖昧テキストの両方を用いて検索を行ったが、これに限らず、図20に示すように、曖昧テキストの照合を実施せずに検索結果を出力してもよい。曖昧テキストを用いないことで、文字認識で失敗した部分の検索を実施することができないが、結果出力の高速化を図ることができる。
また、曖昧テキストを用いることによって高精度検索が可能となるので、検索条件入力手段5に検索条件を入力する際、曖昧テキストを用いた検索を行うか否かを指定することで、検索精度の優先又は検索速度の優先を自由に指定することができる。
【0063】
また、曖昧テキストは図6を用いたが、図7に示すように曖昧テキストのある文書番号の開始位置と終了位置及び曖昧テキストの文字コードをどの文書に含むかを示す表を作成してもよい。
この場合の動作について説明する。登録時において、曖昧テキスト抽出手段4は、上述したように、類似度がTH1以下の文字を含む前後数文字の文字列を曖昧テキストと決定し、その開始文字位置と終了文字位置及び文書番号を保持する。いま、図5の「*」23で説明すると、ここでは、この文字を含む後1文字を曖昧テキストとする。図7で開始文字位置4(符号500を参照)、終了文字位置5(符号501を参照)、文書番号1(符号502を参照)を保持する。
【0064】
また、曖昧テキスト抽出手段4は、図7(B)に示す曖昧テキストが出現する文字の表を作成する。いま、開始文字位置4と終了文字位置5に存在する認識候補文字の全てに対して文書番号1を保持する。図5からこの例では、図7(B)の「諜」503,「訓」504,「詰」505,「語」506,「話」507,「題」508に対して文書番号1を保持する。
【0065】
検索処理は、図11のステップST220まで、上記実施の形態1と同一である。ステップST230において、キーワード「課題」に対しては、検索手段6は図7(B)の表から「課」、「題」のインデックスをロードし、該当文書を決定する。
ここでは、「課」を含む文書が存在せず、「題」を含む文書の文書番号が“1”であるので、文書番号1に対し、形状特徴を用いた検索を実行する。
図7(A)で文書番号1の4から5文字目と、9から10文字目に対し、図5の認識文字データベース12から文字と形状特徴をロードして照合を行う。以下、上記実施の形態1と同一である。
これにより、認識文字データベース12と曖昧テキストデータベース10の2重保持が防止され、大量データになる程、データ保持のための容量を抑えることが可能となる。
【0066】
以上で明らかなように、この実施の形態1によれば、インデックスを参照して、キーワードと一致する認識候補文字の文書番号を検索する一方、文字画像の形状特徴とキーワードを構成する文字の形状特徴を照合して、文書の検索条件に合致する文書番号を検索するように構成したので、高速かつ高精度な全文検索を実施することができる効果を奏する。
【0067】
実施の形態2.
上記実施の形態1では、文字コードが全て一致しない場合、形状特徴を用いて文書番号を検索するものについて示したが、形状特徴を用いずにインデックスファイルのみで検索を実施するようにしてもよい。
文書の登録方法は上記実施の形態1と同様であるので、文書の検索方法について説明する。
【0068】
まず、図11のステップST200において、キーワード「課題」を入力するものとする。次に、ステップST210において、キーワード分割を実施する。ここでは、「課」、「題」、「課題」を作成する。次に、ステップST220において、インデックス照合による検索を実施するが、インデックス照合のフローチャートは図14を用いる。
ステップST221において、検索手段6は、各分割キーワード文字列のインデックスを取り出す処理を実行する。「課題」、「課」のインデックスは存在せず「題」のみのインデックスが存在するので、図10から「題」のインデックス30を取り出す。
【0069】
次に、ステップST222において、文字位置の照合を実施する。ここでは、「課題」のインデックスが存在しないので、照合した文書は該当なしとなりステップST223に進む。ステップST223では、一部不一致である文字位置に対して「*」記号を用いた照合を実施する。
この検索は、「課題」のようにキーワードと完全に一致しなくとも「*題」、「課*」の文字列でも照合を可能とする。処理の手順は、「課」、「題」のインデックスを用いて、「課」または「題」のインデックスから文字位置を検出する。「課」に対してはインデックスが存在しないが、「題」についてはインデックス30が存在する。
【0070】
次に、「*」文字のインデックス31をロードする。「*」のインデックス31で、「題」のインデックス30に連接するものが存在するかを検証する。「*」の始めの文字位置「1−4」32は「題」の1−5の1文字前にあるため条件を満たす。他に、「題」の文字位置が存在しないので、ステップST224において、検索結果(文書番号1)を出力して終了する。
図11で、ステップST230の曖昧テキスト照合を実施せず、ステップST240へと進み、その検索結果(文書番号1)を出力して終了する。
【0071】
この実施の形態2では、認識候補文字に正解が存在しないと思われる文字に対し「*」記号を認識候補文字に加え、この文字はどの文字とも照合に一致するものとして検索を行う。ただし、「**」のように正解文字が1文字も含まれない場合は成功としない。これにより、誤認識による検索もれを減少させることができる効果を奏する。
【0072】
実施の形態3.
図15はこの発明の実施の形態3による全文検索装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
13は文字認識手段2の認識結果を修正する認識結果修正手段、14は文字連鎖出現確率を変更する文字連鎖出現確率辞書更新手段(出現確率更新手段)、15は文字連鎖の出現確率を格納する文字連鎖出現確率辞書、16はインデックスを作成する際、文字連鎖出現確率辞書15を参照して、2以上の認識候補文字が組み合わされた連接文字をインデックスの作成対象に含めるか否かを判定するインデックス作成手段である。
【0073】
次に動作について説明する。
ここでは、文字連鎖出現確率辞書15を用いたインデックスの作成方法と、文字連鎖出現確率辞書15の更新方法について説明する。
文書の登録処理では、図2のステップST120までは上記実施の形態1と同様に処理する。
【0074】
図2のステップST130において、インデックス作成手段16は、上記実施の形態1と同様に認識候補文字の絞り込みを実施し、図5に示す認識候補文字からインデックスを作成する。このとき、文字連鎖出現確率辞書15を用いて、認識候補文字の組み合わせに対し、インデックスを作成するか否かを決定する。
図16は文字連鎖出現確率辞書15の一例を示し、図15の「確率」には、予め多くの学習文書から文書内に連続するN文字の組合せの出現数を計算し、文書全体に対して出現確率を求める。総数は実際に学習文書に出現する組合せ数である。組合せ文字(連接文字)の始めの文字が同一であるグループの確率の和は“1”である。例えば、「文字」、「文学」、「文章」など「文」から始まる組合せの確率の和は“1”となる。
【0075】
以下の式を定義し、図5の認識候補文字の組合せから、Eを計算し、そのEの値によってインデックスを作成するか否かを決定する。
【0076】
【数2】
Figure 0003803219
【0077】
ここで、Rは文字認識での類似度を表し、Rijとは、文頭からi番目の文字位置における第j位認識候補文字の類似度を示す。同様に、R(i+1)kとは、文頭から(i+1)番目の文字位置における第k位認識候補文字の類似度を示す。
ij(i+1)kは、文頭からi番目の文字位置における第j位認識候補文字の次に、文頭から(i+1)番目の文字位置における第k位認識候補文字が続いて出現する確率を示す。α,βは定数である。
【0078】
具体的には、図5において、例えば、i=7の場合、「文宇」、「文字」、「文学」、「丈宇」、「丈字」、「丈学」の6通りに対して、Eの計算を実施し、各値がある閾値以上になれば、その組合せをインデックスに作成し、ある閾値以下になれば、インデックスに残さないようにする。
いま、α=0.5、β=300とすると、E(文宇)=0.5×(90+86)+(1−0.5)×300×0.001=88.15となる。同様に計算し、E(文字)=102、E(文学)=86.5、E(丈宇)=78.15、E(丈字)=77.15、E(丈学)=75.15となる。
したがって、E>85以上の文字組をインデックスとして保存する場合、「文字」、「文宇」、「文学」の組み合わせのみを登録する。このとき、図9の2文字インデックスでは、Eの値が大きい順に割り当てるようにしている。ここでは、「文字」を1、「文宇」を2、「文学」を3と保持する。
【0079】
文書の検索方法は、上記実施の形態1と同様である。
文字認識に用いた類似度と、文書中に文字同士の組合せが連続して出現する確率を用いて値を算出することで、文字としての正解である可能性が低かったり、文字列として文書中に存在する確率が低い組合せを排除することにより、検索のためのインデックスをコンパクトに、かつ正解文字の誤った削除を少なく作成することが可能となる。
【0080】
実施の形態4.
次に、文字連鎖出現確率辞書15を変更する方法について説明する。
内容、分野が同一又は類似する文書においては、各文書内に出現する重要単語が類似しており、比較的多く出現する。そこで、出現する文字の組合せを学習し、各分野毎の文書の文字連鎖出現確率辞書15を更新していくことで、検索の精度をそれほど落とさずにインデックスのコンパクト化が可能となる。
この実施の形態4では、文字認識結果から、正しいと思われる文字の組合せに対して出現数をカウントし、この値を文字連鎖出現確率辞書15に反映させる例について説明する。
【0081】
図17は文書の登録方法を示すフローチャートである。文書登録に用いる文書は、上記実施の形態1と同一とする。
ステップST120までは、上記実施の形態1と同様に処理する。ステップST135において、上記実施の形態1と同様にインデックスを作成する。その後、文字連鎖出現確率辞書更新手段14は、図5に示す認識候補文字の中から、候補数が1文字で連続する文字の組合せの出現数をカウントする。
【0082】
図5では、「文書」、「識性」、「性能」、「能の」、「の向」、「向上」の組み合わせに対して出現数をカウントする。文字連鎖出現確率辞書更新手段14は、各組合せとその数を図示しないバッファに保持し、あるタイミング、例えば、数回の文書登録に一度の割合で図16の文字連鎖出現確率辞書15を更新する。または、ユーザが更新の命令を行うことによって更新してもよい。
以下、ステップST140では、上記実施の形態1と同様に曖昧テキストを作成して終了する。
【0083】
また、認識候補文字に対し、ユーザが認識結果修正手段13を用いて、文字認識誤りを修正した場合に、修正した文字の組合せの数をカウントして文字連鎖出現確率辞書15を更新することも可能である。
図19は文書の登録方法を示すフローチャートである。図19でステップST120までは上記実施の形態1と同様に処理する。
【0084】
ステップST125において、認識結果修正手段13を用いて文字の修正を行う。例えば、図5の文字位置8,9を図18の60,61のようにユーザが修正する。
次に、ステップST133において、インデックス作成手段16は、図18に示す認識候補文字からインデックスを作成する。次に、ステップST143において、文字連鎖出現頻度をカウントする。文字連鎖出現確率辞書更新手段14は、修正した文字の前後も含め認識候補文字が1文字である組み合わせの数をカウントする。ここでは、図18で「字認」、「認識」に対して組合せ数をカウントする。文字連鎖出現確率辞書15の更新は、あるタイミング、例えば、一定数修正した後に更新する。
【0085】
また、誤認識文字の修正に限らず、検索に用いたキーワードから文字連鎖出現頻度をカウントし、文字連鎖出現確率辞書15に反映させることで、登録時においてキーワードに用いた文字列をより正確に残すことが可能となる。
【0086】
【発明の効果】
以上のように、この発明によれば、連接文字を構成している各認識候補文字が、文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要なキーワードが検索されない確率を低減することができる効果がある。
また、この発明によれば、キーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要な文字の優先度が高められて、重要な文字が検索されない確率を低減することができる効果がある。
また、この発明によれば、文字認識手段が出力する認識候補文字が修正された場合、修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要な文字の優先度が高められて、重要な文字が検索されない確率を低減することができる効果がある。
【0088】
この発明によれば、文字認識手段が出力する各認識候補文字の中で、基準確度より確度が低い認識候補文字をインデックスの作成対象から除外するように構成したので、検索精度の劣化を招くことなく、インデックスの容量を小さくすることができる効果がある。
【0089】
この発明によれば、文字認識手段が出力する認識候補文字の確度が基準確度より低い場合でも、基準確度を超える確度の認識候補文字を有しない文字画像に係る認識候補文字の場合、その認識候補文字をインデックスの作成対象に含めるとともに、その認識候補文字に対して他の認識候補文字と区別する識別記号を付加するように構成したので、キーワードと文字コードが一致しない検索において、インデックスデータベースのみを用いた検索が可能になる効果がある。
【0090】
この発明によれば、文字画像の形状特徴をデータベースに格納するとともに、その文字画像に対する各認識候補文字と単語を構成する可能性のある文字の文字コードをデータベースに格納するように構成したので、検索精度の向上を図ることができる効果がある。
【0091】
この発明によれば、言語的情報又は文字の種類を考慮して、各認識候補文字と単語を構成する可能性のある文字を判定するように構成したので、検索精度が向上する効果がある。
【0092】
この発明によれば、特徴抽出手段により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴との距離を計算し、その距離が所定の基準を満たすとき検索条件の合致を認定するように構成したので、形状特徴辞書をカスタマイズすることができる効果がある。
【0093】
この発明によれば、検索手段による形状特徴照合処理の実行の有無を設定する設定手段を設けるように構成したので、検索速度と検索精度の重要性を考慮して、検索処理における処理種別の優先度を設定することができる効果がある。
【0094】
この発明によれば、キーワードと一致する認識候補文字を含む文書を形状特徴の照合対象から除外するように構成したので、形状特徴を照合する際の検索の無駄を削減することができる効果がある。
【0095】
この発明によれば、キーワードと一致する認識候補文字が存在しない場合に限り、特徴抽出手段により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴を照合するように構成したので、検索速度を高めることができる効果がある。
【0096】
この発明によれば、キーワードに対する形状特徴の照合対象を特定する際、識別符号が付加された認識候補文字をワイルド・カードとして取り扱うように構成したので、インデックスデータベースのみを用いた検索を実施することができる効果がある。
【0101】
この発明によれば、出現確率更新手段が連接文字を構成している各認識候補文字が、文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要なキーワードが検索されない確率を低減することができる効果がある。
また、この発明によれば、出現確率更新手段がキーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要な文字の優先度が高められて、重要な文字が検索されない確率を低減することができる効果がある。
また、この発明に係る全文検索方法は、文字認識手段が出力する認識候補文字が修正された場合、出現確率更新手段が修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要な文字の優先度が高められて、重要な文字が検索されない確率を低減することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による全文検索装置を示す構成図である。
【図2】 文書の登録方法を示すフローチャートである。
【図3】 入力画像を示す説明図である。
【図4】 文字認識手段の認識結果を示す説明図である。
【図5】 認識候補文字の絞込み結果を示す説明図である。
【図6】 文字画像から抽出された形状特徴を保持する例を示す説明図である。
【図7】 曖昧テキストのある文書番号の開始位置等を示す説明図である。
【図8】 具体的な形状特徴の作成方法を示す説明図である。
【図9】 2文字のインデックス例を示す説明図である。
【図10】 1文字インデックスの位置と認識順位を記憶したテーブルを示す説明図である。
【図11】 文書の検索方法を示すフローチャートである。
【図12】 インデックス照合を示すフローチャートである。
【図13】 曖昧テキスト照合を示すフローチャートである。
【図14】 インデックス照合を示すフローチャートである。
【図15】 この発明の実施の形態3による全文検索装置を示す構成図である。
【図16】 文字連鎖出現確率辞書を示す説明図である。
【図17】 文書の登録方法を示すフローチャートである。
【図18】 認識結果の修正内容を示す説明図である。
【図19】 文書の登録方法を示すフローチャートである。
【図20】 文書の検索方法を示すフローチャートである。
【図21】 従来の全文検索装置(従来例1)を示す構成図である。
【図22】 従来の全文検索装置(従来例2)を示す構成図である。
【符号の説明】
1 画像入力手段、2 文字認識手段、3 インデックス作成手段、4 曖昧テキスト抽出手段(特徴抽出手段)、5 検索条件入力手段(入力手段、設定手段)、6 検索手段、7 出力手段、8 文字認識辞書、9 形状特徴辞書、
10 曖昧テキストデータベース、11 インデックスデータベース、12 認識文字データベース、13 認識結果修正手段、14 文字連鎖出現確率辞書更新手段(出現確率更新手段)、15 文字連鎖出現確率辞書、16 インデックス作成手段。

Claims (15)

  1. 入力画像に含まれる各文字画像を識別して、各文字画像に対する1以上の認識候補文字を出力するとともに、各認識候補文字の確度を出力する文字認識手段と、上記文字認識手段が出力する各認識候補文字と文書の対応関係を示すインデックスを作成するインデックス作成手段と、上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像が存在する場合、その文字画像の形状特徴を抽出する特徴抽出手段と、文書の検索条件としてキーワードを入力する入力手段と、上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記特徴抽出手段により抽出された文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する検索手段とを備えた全文検索装置において、連接文字を構成している各認識候補文字が、当該文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索装置。
  2. 入力画像に含まれる各文字画像を識別して、各文字画像に対する1以上の認識候補文字を出力するとともに、各認識候補文字の確度を出力する文字認識手段と、上記文字認識手段が出力する各認識候補文字と文書の対応関係を示すインデックスを作成するインデックス作成手段と、上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像が存在する場合、その文字画像の形状特徴を抽出する特徴抽出手段と、文書の検索条件としてキーワードを入力する入力手段と、上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記特徴抽出手段により抽出された文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する検索手段とを備えた全文検索装置において、キーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索装置。
  3. 入力画像に含まれる各文字画像を識別して、各文字画像に対する1以上の認識候補文字を出力するとともに、各認識候補文字の確度を出力する文字認識手段と、上記文字認識手段が出力する各認識候補文字と文書の対応関係を示すインデックスを作成するインデックス作成手段と、上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像が存在する場合、その文字画像の形状特徴を抽出する特徴抽出手段と、文書の検索条件としてキーワードを入力する入力手段と、上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記特徴抽出手段により抽出された文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する検索手段とを備えた全文検索装置において、上記文字認識手段が出力する認識候補文字が修正された場合、修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索装置。
  4. インデックス作成手段は、文字認識手段が出力する各認識候補文字の中で、基準確度より確度が低い認識候補文字をインデックスの作成対象から除外することを特徴とする請求項1から請求項3のうちのいずれか1項記載の全文検索装置。
  5. インデックス作成手段は、文字認識手段が出力する認識候補文字の確度が基準確度より低い場合でも、基準確度を超える確度の認識候補文字を有しない文字画像に係る認識候補文字の場合、その認識候補文字をインデックスの作成対象に含めるとともに、その認識候補文字に対して他の認識候補文字と区別する識別記号を付加することを特徴とする請求項記載の全文検索装置。
  6. 特徴抽出手段は、文字画像の形状特徴をデータベースに格納するとともに、その文字画像に対する各認識候補文字と単語を構成する可能性のある文字の文字コードを当該データベースに格納することを特徴とする請求項1から請求項のうちのいずれか1項記載の全文検索装置。
  7. 特徴抽出手段は、言語的情報又は文字の種類を考慮して、各認識候補文字と単語を構成する可能性のある文字を判定することを特徴とする請求項記載の全文検索装置。
  8. 検索手段は、特徴抽出手段により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴との距離を計算し、その距離が所定の基準を満たすとき検索条件の合致を認定することを特徴とする請求項1から請求項のうちのいずれか1項記載の全文検索装置。
  9. 検索手段による形状特徴照合処理の実行の有無を設定する設定手段を設けたことを特徴とする請求項1から請求項のうちのいずれか1項記載の全文検索装置。
  10. 検索手段は、キーワードと一致する認識候補文字を含む文書を形状特徴の照合対象から除外することを特徴とする請求項1から請求項のうちのいずれか1項記載の全文検索装置。
  11. 検索手段は、キーワードと一致する認識候補文字が存在しない場合に限り、特徴抽出手段により抽出された文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合することを特徴とする請求項1から請求項のうちのいずれか1項記載の全文検索装置。
  12. 検索手段は、キーワードに対する形状特徴の照合対象を特定する際、識別符号が付加された認識候補文字をワイルド・カードとして取り扱うことを特徴とする請求項記載の全文検索装置。
  13. 文字認識手段が入力画像に含まれる各文字画像を識別して、各文字画像に対する1以上の認識候補文字と各認識候補文字の確度を出力し、インデックス作成手段が各認識候補文字と文書の対応関係を示すインデックスを作成するとともに、特徴抽出手段が上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像の形状特徴を抽出し、入力手段が文書の検索条件としてキーワードを入力すると、検索手段が上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する全文検索方法において、出現確率更新手段が連接文字を構成している各認識候補文字が、当該文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索方法。
  14. 文字認識手段が入力画像に含まれる各文字画像を識別して、各文字画像に対する1以上の認識候補文字と各認識候補文字の確度を出力し、インデックス作成手段が各認識候補文字と文書の対応関係を示すインデックスを作成するとともに、特徴抽出手段が上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像の形状特徴を抽出し、入力手段が文書の検索条件としてキーワードを入力すると、検索手段が上記インデックスを参照して、そのキーワードと一致する認識 候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する全文検索方法において、出現確率更新手段がキーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索方法。
  15. 文字認識手段が入力画像に含まれる各文字画像を識別して、各文字画像に対する1以上の認識候補文字と各認識候補文字の確度を出力し、インデックス作成手段が各認識候補文字と文書の対応関係を示すインデックスを作成するとともに、特徴抽出手段が上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像の形状特徴を抽出し、入力手段が文書の検索条件としてキーワードを入力すると、検索手段が上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する全文検索方法において、上記文字認識手段が出力する認識候補文字が修正された場合、出現確率更新手段が修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索方法。
JP35477799A 1999-12-14 1999-12-14 全文検索装置及び全文検索方法 Expired - Fee Related JP3803219B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP35477799A JP3803219B2 (ja) 1999-12-14 1999-12-14 全文検索装置及び全文検索方法
CN00134962.7A CN1118034C (zh) 1999-12-14 2000-12-13 全文检索设备及全文检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35477799A JP3803219B2 (ja) 1999-12-14 1999-12-14 全文検索装置及び全文検索方法

Publications (2)

Publication Number Publication Date
JP2001175661A JP2001175661A (ja) 2001-06-29
JP3803219B2 true JP3803219B2 (ja) 2006-08-02

Family

ID=18439841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35477799A Expired - Fee Related JP3803219B2 (ja) 1999-12-14 1999-12-14 全文検索装置及び全文検索方法

Country Status (2)

Country Link
JP (1) JP3803219B2 (ja)
CN (1) CN1118034C (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996208B2 (en) * 2004-09-30 2011-08-09 Google Inc. Methods and systems for selecting a language for text segmentation
JP4470913B2 (ja) * 2005-07-14 2010-06-02 セイコーエプソン株式会社 文字列検索装置およびプログラム
CN100424704C (zh) * 2006-09-30 2008-10-08 华中科技大学 基于密文的全文检索***
EP2315134A4 (en) * 2008-10-14 2012-12-26 Mitsubishi Electric Corp SEARCHING DEVICE, RESEARCH INDEX CREATING DEVICE, AND SEARCHING SYSTEM
CN101477569B (zh) * 2009-02-03 2011-02-02 传神联合(北京)信息技术有限公司 一种词典图片检索***
JP5043074B2 (ja) * 2009-07-30 2012-10-10 楽天株式会社 インデックス生成方法
CN101866366B (zh) * 2010-07-15 2012-01-18 哈尔滨工业大学 一种基于内容的图像格式中文文档检索方法
JP6545740B2 (ja) * 2017-03-08 2019-07-17 株式会社東芝 生成装置、プログラム、認識システムおよび生成方法
CN107103075A (zh) * 2017-04-24 2017-08-29 广东浪潮大数据研究有限公司 一种ftp文件的全文检索方法及装置
CN111291152A (zh) * 2018-12-07 2020-06-16 北大方正集团有限公司 案例文书的推荐方法、装置、设备及存储介质
WO2020194576A1 (ja) * 2019-03-27 2020-10-01 三菱電機ビルテクノサービス株式会社 設備機器情報収集システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2586372B2 (ja) * 1993-01-22 1997-02-26 日本電気株式会社 情報検索装置及び情報検索方法
JP3405155B2 (ja) * 1997-11-07 2003-05-12 松下電器産業株式会社 文書検索装置
JP3589007B2 (ja) * 1998-02-18 2004-11-17 三菱電機株式会社 文書ファイリングシステムおよび文書ファイリング方法

Also Published As

Publication number Publication date
CN1300026A (zh) 2001-06-20
CN1118034C (zh) 2003-08-13
JP2001175661A (ja) 2001-06-29

Similar Documents

Publication Publication Date Title
CN109582972B (zh) 一种基于自然语言识别的光学字符识别纠错方法
US7689409B2 (en) Text language identification
JP4421134B2 (ja) 文書画像検索装置
US7743327B2 (en) Table of contents extraction with improved robustness
US8391614B2 (en) Determining near duplicate “noisy” data objects
KR100451978B1 (ko) 정보 검색 방법과 정보 검색 장치
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
JPH0916619A (ja) 情報処理方法及び装置
US9798776B2 (en) Systems and methods for parsing search queries
US20070208733A1 (en) Query Correction Using Indexed Content on a Desktop Indexer Program
JP3803219B2 (ja) 全文検索装置及び全文検索方法
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
US20230342400A1 (en) Document search device, document search program, and document search method
CN110765767B (zh) 局部优化关键词的提取方法、装置、服务器及存储介质
JP3361563B2 (ja) 形態素解析装置及びキーワード抽出装置
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
CN113157869A (zh) 一种文档精准定位检索方法及***
CN113220821A (zh) 一种针对试题检索的索引建立方法、装置及电子设备
US11494555B2 (en) Identifying section headings in a document
CN116881536A (zh) 搜索引擎下拉提示词提取方法及***
JP3589007B2 (ja) 文書ファイリングシステムおよび文書ファイリング方法
Chen et al. Efficient automatic OCR word validation using word partial format derivation and language model
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JPH06325091A (ja) 類似度評価型データベース検索装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050816

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060502

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100512

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100512

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110512

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110512

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120512

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120512

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130512

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140512

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees