JP3026397B2 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP3026397B2
JP3026397B2 JP4342333A JP34233392A JP3026397B2 JP 3026397 B2 JP3026397 B2 JP 3026397B2 JP 4342333 A JP4342333 A JP 4342333A JP 34233392 A JP34233392 A JP 34233392A JP 3026397 B2 JP3026397 B2 JP 3026397B2
Authority
JP
Japan
Prior art keywords
search
character
search condition
condition
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4342333A
Other languages
English (en)
Other versions
JPH06195387A (ja
Inventor
藤 正 雄 伊
藤 敦 史 安
野 祐 司 菅
健 ▲鶴▼林
知 一 晃 倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP4342333A priority Critical patent/JP3026397B2/ja
Publication of JPH06195387A publication Critical patent/JPH06195387A/ja
Application granted granted Critical
Publication of JP3026397B2 publication Critical patent/JP3026397B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学的文字認識装置に
よって文字コード化した文書から全文検索を行なう文書
検索装置に関するものである。
【0002】
【従来の技術】近年、光学的文字認識装置の実用化に伴
い、紙の文書情報を文字コード化して検索したいという
要求が高まっている。しかしながら、光学的文字認識装
置の認識率はかなり向上したとはいえ、まだ特定の文字
に対しては認識率が悪いというのが現状であり、そのよ
うな文書から検索する場合には、予め認識した文書を校
正する必要があった。この校正作業は、日本語処理技術
によって誤認識位置を指定することはある程度可能では
あるが、依然人手を介する必要があり、全文検索装置の
文書入力手段として光学的文字認識装置が利用されない
一つの理由であった。
【0003】以下、従来の文書検索装置について説明す
る。図8は従来の文書検索装置全体構成を示すものであ
る。図8において、801は光学的文字認識装置、80
2は光学的文字認識装置で認識した文字コードを格納す
る文字コード格納手段、803は検索条件入力手段、8
04は入力された検索条件により検索する検索手段、8
05は検索結果を格納する検索結果格納手段、806は
検索結果を表示・印刷する検索結果出力手段である。
【0004】以上のように構成された文書検索装置につ
いて、以下その動作について説明する。まず、光学的文
字認識装置801で認識した文字コードを一度文字コー
ド格納手段802に格納する。次に、検索条件入力手段
803で入力された検索条件により、文字コード格納手
段802に格納された文字コードに対して検索手段80
4で検索を行なう。検索結果は検索結果格納手段805
に格納し、さらに格納した検索結果を検索結果出力手段
806で表示・印刷する。
【0005】このように、上記従来の文書検索装置で
も、光学的文字認識装置を用いて文字コード化した文書
から全文検索を行なうことができる。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の文書検索装置では、光学的文字認識装置の認識に誤
りがあるため、検索を行なう場合に検索漏れが生じると
いう課題を有していた。
【0007】本発明は、上記従来の課題を解決するもの
で、光学的文字認識装置が認識誤りを起こした場合で
も、検索漏れを防ぐことができる文書検索装置を提供す
ることを目的とするものである。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、本発明の文書検索装置は、活字から文字コード化を
行なう光学的文字認識装置と、光学的文字認識装置で文
字コード化した文書を格納する文字コード格納手段と、
検索条件を入力する検索条件入力手段と、光学的文字認
識装置が文字を分割する際に分割誤りが生じやすい例を
規則として格納する分割誤り規則格納手段と、文字の表
記が似ているために認識誤りが生じやすい例を規則とし
て格納する表記誤り規則格納手段と、前記検索条件入力
手段で入力された検索条件に対して前記分割誤り規則格
納手段を用いて条件拡張を行ない、さらに表記誤り規則
格納手段を用いて条件拡張を行なう検索条件拡張手段
と、検索条件拡張手段で拡張した検索条件により文字コ
ード格納手段から検索する検索手段と、検索手段の結果
を格納する検索結果格納手段と、検索結果を表示・印刷
する検索結果出力手段とを備えたものである。
【0009】本発明はまた、光学的文字認識装置の文字
の表記が似ているために認識誤りが生じやすい例を規則
として格納する表記誤り規則格納手段を備え、分割誤り
規則格納手段を用いて条件拡張を行なった後、検索条件
拡張手段が表記誤り規則格納手段を用いて条件拡張する
ようにしたものである。
【0010】
【作用】本発明は、上記構成によって、検索条件の文字
コードが光学的文字認識装置で誤認識しやすい文字コー
ドの場合は、認識規則から検索条件を拡張することによ
って検索漏れを少なくすることができる。光学的文字認
識装置は、1つの文字の領域を確定するために分割処理
を行なうが、偏と旁が離れている文字については別の文
字と判断され、分割誤りが発生する。このような場合
は、事前に文字の形から判断可能であるため、これを登
録しておき、検索条件にこの文字が含まれている場合に
は、分割誤りを起こした文字も付け加える、すなわち条
件拡張することにより、分割誤りによる検索もれを防ぐ
ことができる。
【0011】本発明はまた、表記が似ているため光学的
文字認識装置では認識することが不可能な場合でも、表
記が似ているものは事前に文字の形から判断可能である
ため、これを登録しておき、検索条件にこの文字が含ま
れている場合には、条件拡張することにより検索漏れを
防ぐことができる。
【0012】
【実施例】
(実施例1)以下、本発明の第1の実施例について、図
1を参照しながら説明する。図1において、101は活
字から文字コードに変換する光学的文字認識装置、10
2は光学的文字認識装置101で認識した文字コードを
格納する文字コード格納手段、103は検索条件を入力
する検索条件入力手段、104は光学的文字認識装置1
01が文字の分割誤りを起こしやすいと予想される例を
規則として格納する分割誤り規則格納手段、105は検
索条件入力手段103で入力された検索条件に対して分
割誤り規則格納手段104を用いて検索条件の拡張を行
なう検索条件拡張手段、106は文字コード格納手段1
02に対して検索条件拡張手段105で作成した検索条
件により検索を行なう検索手段、107は検索手段10
6で検索した結果を格納する検索結果格納手段、108
は検索結果格納手段107の検索結果を画面に表示した
り、印刷する検索結果出力手段である。
【0013】以上のように構成された文書検索装置につ
いて、以下その動作を説明する。まず活字の文書は、光
学的文字認識装置101で文字コードとして認識され、
文字コード格納手段102に格納される。また検索条件
は検索条件入力手段103から力され、検索条件拡張手
段105が検索条件の単語を文字単位に分解する。次
に、分解された各文字が分割誤り規則格納手段104内
に格納された分割誤り規則のどれかに該当するか否かを
分割誤り規則格納手段104に問い合わせる。分割誤り
規則にある場合には、検索条件拡張手段105で規則に
従い検索条件に付加する形で条件の拡張を行なう。さら
に、検索手段106で文字コード格納手段102に格納
されている文字コードに対して、検索条件拡張手段10
5で拡張された検索条件により検索を行なう。その検索
結果は、検索結果格納手段107に格納され、表示・印
刷する場合には検索結果出力手段108に出力される。
【0014】図2は光学的文字認識装置が、文字201
を偏と旁の二つに分けて認識した場合の拡張例202を
示したものであり、図1の分割誤り規則格納手段104
に入力される規則を示している。例えば“化”という文
字は偏と旁が離れているために“イ”と“ヒ”の2つの
文字に誤認識されやすい。
【0015】図3は図1の検索条件拡張手段105の拡
張手順を示すフローチャートである。検索条件が入力さ
れると処理が開始され(ステップ301)、最初に検索
条件の単語が文字単位に分解される(ステップ30
2)。次に分解された各文字が分割誤り規則に含まれて
いるかどうかが判定される(ステップ303)、もし規
則に含まれる場合には、分割誤り規則に従って拡張さ
れ、OR条件として検索条件に付加される(ステップ3
04)。もし規則に含まれない場合には、何もしないで
終了する。(ステップ305)
【0016】以上のように、本実施例によれば、光学的
文字認識装置で分割誤りを起こしやすい文字に対しても
分割誤り規則で検索条件を拡張することにより、検索漏
れを防ぐことができる。
【0017】(実施例2)次に、本発明の第2の実施例
について図4を参照しながら説明する。図4において、
401は光学的文字認識装置、402は文字コード格納
手段、403は検索条件入力手段、404は分割誤り規
則格納手段、405は検索条件拡張手段、406は表記
誤り規則格納手段、407は検索手段、408は検索結
果格納手段、409は検索結果出力手段である。図1の
構成と異なるのは、文字の表記が似ているために認識誤
りが生じやすい例を規則として格納する表記誤り規則格
納手段407が付加されている点である。
【0018】上記のように構成された文書検索装置につ
いて、以下その動作を説明する。まず活字の文書は、光
学的文字認識装置401で文字コードとして認識され、
文字コード格納手段402に格納される。また検索条件
は、検索条件入力手段403から入力され、検索条件拡
張手段405は検索条件の単語を文字単位に分解する。
次に、分解された各文字が分割誤り規則に該当するかど
うかを分割誤り規則格納手段404に問い合わせ、分割
誤り規則にある場合には、検索条件拡張手段405で規
則に従い検索条件に付加して検索条件の拡張を行なう。
ここまでは上記第1の実施例と同じである。異なるのは
その後、分割誤り規則で拡張したそれぞれの文字につい
て、同様な表記で異なる文字コードが存在するかどうか
判定する。例えば片仮名の“ロ”は漢字の“口(く
ち)”と表記がほぼ同じであるため誤認識しやすく、ま
た“ア”と“ァ”は文字の大きさのみが違うので誤認識
しやすい。このような誤認識しやすい文字コードを表記
誤り規則格納手段406に表記誤り規則として登録して
おき、条件拡張を行なう。さらに、検索手段407で文
字コード格納手段402に格納されている文字コードに
対して、検索条件拡張手段405で拡張された検索条件
により検索を行なう。その検索結果は、検索結果格納手
段408に格納され、表示・印刷する場合には検索結果
出力手段409に出力される。
【0019】図5は表記誤り規則格納手段406に格納
された表記誤り規則の例であり、表記が似ている場合の
拡張例501、文字の大きさが異なる場合の拡張例50
2、濁点の誤りの場合の拡張例503を示している。例
えば、片仮名の“カ”は漢字の“力(ちから)”と表記
がほぼ同じであり、誤認識を起こしやすく、片仮名の大
きい“イ”と小さい“ィ”も表記は同じで大きさのみが
異なるので、誤認識しやすい。
【0020】図6は図4の検索条件拡張手段405の拡
張手順を示すフローチャートである。検索条件が入力さ
れると処理が開始される(ステップ601)。最初に検
索条件の単語が文字単位に分解され(ステップ60
2)、次に分解された各文字が分割誤り規則に含まれて
いるかどうかが判定される(ステップ603)。もし規
則に含まれる場合には、分割誤り規則に従って拡張さ
れ、OR条件として検索条件に付加される(ステップ6
04)。ここまでは上記第1の実施例と同じである。異
なるのはその後であり、分割誤り規則で拡張した文字も
含めて各文字が表記誤り規則に含まれているかどうかを
判定する(ステップ605)。もし含まれているのであ
れば、表記誤り規則に従って拡張し、OR条件として付
加する(ステップ606)。もし規則に含まれていない
のであれば、何もしないで終了する(ステップ60
7)。
【0021】図7は“加工”という文字の検索条件につ
いて条件拡張がどのようにして行なわれるかを示した図
である。まず最初に“加工”を検索条件として設定し
(ステップ701)、次に分割誤り規則を適用すると、
“加”が“力”と“口”に誤認識されやすいので検索条
件は“加工”と“力口工”に拡張される(ステップ70
2)。さらに、表記誤り規則を適用すると“工(こ
う)”は“エ”と表記が同じであり、“力”は“カ”と
表記が同じであり、“口”は“ロ”と表記が同じである
ため、“加工”と“力口工”のそれぞれにこの規則を適
用する(ステップ703)。この結果、“加工”という
検索条件は10個の文字に条件拡張される。
【0022】以上のように、本実施例によれば、光学的
文字認識装置で文字を分割する際に似ている表記に対し
て認識誤りがある場合でも、表記誤り規則で検索条件を
拡張することにより、検索漏れを防ぐことができる。
【0023】
【発明の効果】以上のように、本発明は、光学的文字認
識装置の認識誤りを補うために検索条件を拡張するため
の分割誤り規則格納手段と表記誤り規則格納手段と検索
条件拡張手段とを付加することにより、認識誤りによる
検索漏れを防ぐことができ、優れた文書検索装置を実現
することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例における文書検索装置の
構成を示すブロック図
【図2】第1の実施例における分割誤り規則の例を示す
一覧図
【図3】第1の実施例における検索条件拡張の手順を示
すフローチャート
【図4】本発明の第2の実施例における文書検索装置の
構成を示すブロック図
【図5】第2の実施例における表記誤り規則の例を示す
一覧図
【図6】第2の実施例における検索条件拡張の手順を示
すフローチャート
【図7】第2の実施例における検索条件拡張の具体例を
示すアローチャート
【図8】従来の文書検索装置の構成を示すブロック図
【符号の説明】
101 光学的文字認識装置 102 文字コード格納手段 103 検索条件入力手段 104 分割誤り規則格納手段 105 検索条件拡張手段 106 検索手段 107 検索結果格納手段 108 検索結果出力手段 401 光学的文字認識装置 402 文字コード格納手段 403 検索条件入力手段 404 分割誤り規則格納手段 405 検索条件拡張手段 406 表記誤り規則格納手段 407 検索手段 408 検索結果格納手段 409 検索結果出力手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ▲鶴▼林 健 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (72)発明者 倉 知 一 晃 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (56)参考文献 特開 平4−92971(JP,A) 特開 昭61−221889(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 活字から文字コード化を行なう光学的文
    字認識装置と、前記光学的文字認識装置で文字コード化
    した文書を格納する文字コード格納手段と、検索条件を
    入力する検索条件入力手段と、前記光学的文字認識装置
    が文字を分割する際に分割誤りが生じやすい例を規則と
    して格納する分割誤り規則格納手段と、文字の表記が似
    ているために認識誤りが生じやすい例を規則として格納
    する表記誤り規則格納手段と、前記検索条件入力手段で
    入力された検索条件に対して前記分割誤り規則格納手段
    を用いて条件拡張を行ない、さらに表記誤り規則格納手
    を用いて条件拡張を行なう検索条件拡張手段と、前記
    検索条件拡張手段で拡張した検索条件により前記文字コ
    ード格納手段から検索する検索手段と、前記検索手段の
    結果を格納する検索結果格納手段と、検索結果を表示・
    印刷する検索結果出力手段とを備えた文書検索装置。
JP4342333A 1992-12-22 1992-12-22 文書検索装置 Expired - Fee Related JP3026397B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4342333A JP3026397B2 (ja) 1992-12-22 1992-12-22 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4342333A JP3026397B2 (ja) 1992-12-22 1992-12-22 文書検索装置

Publications (2)

Publication Number Publication Date
JPH06195387A JPH06195387A (ja) 1994-07-15
JP3026397B2 true JP3026397B2 (ja) 2000-03-27

Family

ID=18352919

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4342333A Expired - Fee Related JP3026397B2 (ja) 1992-12-22 1992-12-22 文書検索装置

Country Status (1)

Country Link
JP (1) JP3026397B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3689455B2 (ja) * 1995-07-03 2005-08-31 キヤノン株式会社 情報処理方法及び装置
JP2023041155A (ja) 2021-09-13 2023-03-24 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム

Also Published As

Publication number Publication date
JPH06195387A (ja) 1994-07-15

Similar Documents

Publication Publication Date Title
KR101203352B1 (ko) 언어 모델을 이용한 와일드카드 확장
KR950033795A (ko) 미지 문자의 상형문자 발생 시스템 및 방법
JPS5924391A (ja) テキスト・デ−タの右余白の行をそろえる方法
JP3026397B2 (ja) 文書検索装置
JPH11143893A (ja) 単語照合装置
JPH07121547A (ja) 情報検索装置
JPS607514A (ja) ワ−ドプロセツサ
JPH08180064A (ja) 文書検索方法及び文書ファイリング装置
JP3164086B2 (ja) 手書き文字フォント作成方法及びそれを適用した手書き文字情報処理装置
JPH0554145B2 (ja)
JP3270590B2 (ja) 文字認識装置
JP3441546B2 (ja) 文字処理装置及び文字処理装置における変換制御方法
JP3344793B2 (ja) かな漢字変換装置
JPS6174060A (ja) 外来語簡易入力方式
JP3305343B2 (ja) 辞書編集装置
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JPH0434189B2 (ja)
JPS61128364A (ja) 辞書検索装置
JPH06259413A (ja) 日本語入力方式
JPS63106069A (ja) 日本語用ワ−ドプロセツサ
JPH0589164A (ja) 文書変換装置
JPS62189568A (ja) かな漢字相互交換装置
JPH1125229A (ja) ローマ字住所認識装置
JPS5932068A (ja) 光学文字読取装置
JPH0460754A (ja) 仮名漢字変換方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees