JPH09223160A - 文書検索方法 - Google Patents

文書検索方法

Info

Publication number
JPH09223160A
JPH09223160A JP8055482A JP5548296A JPH09223160A JP H09223160 A JPH09223160 A JP H09223160A JP 8055482 A JP8055482 A JP 8055482A JP 5548296 A JP5548296 A JP 5548296A JP H09223160 A JPH09223160 A JP H09223160A
Authority
JP
Japan
Prior art keywords
document
character
noise
registered
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8055482A
Other languages
English (en)
Inventor
Hisamitsu Kawaguchi
川口  久光
Natsuko Mizutani
奈津子 水谷
Atsushi Hatakeyama
敦 畠山
Katsumi Tada
勝己 多田
Kanji Kato
寛次 加藤
Satoshi Asakawa
悟志 浅川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8055482A priority Critical patent/JPH09223160A/ja
Publication of JPH09223160A publication Critical patent/JPH09223160A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文字成分表を用いた文書検索方法において、
検索ノイズを削減することにある。 【解決手段】 文字成分表を用いた文書検索方法におい
て、文書の登録の際に、登録文書から抽出した文字列が
既登録文書にはないが、既登録文書の文字成分表では全
てヒットする文字列と、既登録文書から抽出した文字列
が登録文書にはないが、登録文書の文字成分表では全て
ヒットする文字列をノイズ文字成分表に登録し、検索時
に、質問語(例、ガード)に対応するノイズ文字成分表
が作成されている場合には、該質問語により文字成分表
検索した結果得られた文書から、該質問語(ガード)に
対応するノイズ文字成分表に登録されている文書を除く
ことにより、検索ノイズとして検索される文書を文字成
分表検索結果から削除する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザの指定する
質問語から所望の文書を検索する文書検索方法に関わ
り、データベース、文書ファイリングシステムおよびD
TP(DeskTop Publishing)システ
ムなどに適用されるものである。
【0002】
【従来の技術】先に、文書の登録の際にキーワード付け
を行う必要のないフルテキストサーチ方式を「特開平0
3−174652」で提案した。この方式は、文書を単
語単位に圧縮した凝縮本文と、文書中の使用文字を一文
字単位で登録した文字成分表を用いて、検索語に関連し
ない文書をふるい落とすことでサーチ速度を等価的に高
めることにより、フルテキストサーチを実用レベルで高
速に行うことを目的としたものである。また、この文字
成分表を改良し更に高速なフルテキストサーチを実現す
る連接文字成分表方式を「特開平05−174064」
で提案した。この公知例で用いられれている連接文字成
分表は、登録文書の中に含まれる所定の長さの連続文字
を重複なく全て取り出し、これらを含む文書の識別子情
報をビット列で記述したものである。
【0003】公知例の文字成分表を用いた文書検索方法
について具体的に説明する。まず、文字成分表の作成方
法について図2を用いて説明する。本例では、何も登録
されてない初期状態の文字成分表に、文書1:“ガード
する”および文書2:“ツアーガイド”を登録すること
を想定している。また、文字成分表のビット列の長さは
文書検索システムに登録する最大文書数分確保され、初
期設定として、これらのビット列には全て“0”がセッ
トされる。文書1の登録時には、所定の長さの連接文字
(以後、文字成分表作成文字列と呼ぶ)が抽出される。
本例では文字成分表作成文字列の長さを1文字に想定し
ているため、文字単位に抽出される。したがって、 文書1:“ガードする”の場合には、文字成分表作成文
字列として“ガ”、“ー”、“ド”、“す”および
“る”が抽出される。本文字成分表では、文書の識別子
情報をビット列で記述しているため、図2に示すように
文書1に対応する第1ビット目のビットを用いる。文書
1から抽出された文字成分表作成文字列“ガ”、
“ー”、“ド”、“す”および“る”に対応するビット
列の第1ビット目のみに“1”をセットする。 文書2:“ツアーガイド”の登録時には、同様に文書2
から文字成分表作成文字列の抽出が行われ、“ツ”、
“ア”、“ー”、“ガ”、“イ”および“ド”が抽出さ
れる。したがって、これらに対応するビット列の2番目
文字を表わす第2ビット目のみに“1”をセットする。
このような処理を登録する文書に対して適用することに
より文字成分表が作成される。
【0004】次に文字成分表を用いた文書の検索方法に
ついて図3を用いて説明する。本例では、ユーザが指定
した質問語(以下、検索タームと呼ぶ)として、“ガイ
ド”を、文字成分表としては図2のものを想定してい
る。まず、検索ターム“ガイド”から、登録時と同様に
文字成分表作成文字列の抽出が行われ、本例では
“ガ”、“イ”および“ド”が抽出される。次に、これ
らの抽出された文字成分表作成文字列“ガ”、“イ”お
よび“ド”に対応する文字成分表のビット列を読み出
し、ビット列間のAND演算を行う。この結果得られた
ビット列が検索結果となる。本例では、文書2に対応す
る第2ビット目のビットに“1”がセットされているた
め、文書2が検索されたことを表わしている。このよう
に、検索タームから抽出された文字成分表作成文字列に
対応する文字成分表のビット列を参照することにより文
書検索を実現している。
【0005】
【発明が解決しようとする課題】しかしながら、文書成
分表を用いた文書検索方法では、文字成分表の参照時に
検索タームに含まれる文字成分表作成文字列が全て文書
中に存在するかどうかを調べているだけで、文字成分表
作成文字列の検索ターム中における順序関係および接続
関係まで調べていないため検索タームと一致する文字列
が存在しない文書まで検索してしまうという問題が生じ
る。このように、検索タームが存在しないのに検索され
る文書をノイズと呼ぶ。
【0006】このようなノイズが検索される具体例につ
いて図4を用いて説明する。本例では、検索タームとし
て“ガード”を、文字成分表としては図2のものを想定
している。まず、検索タームとして“ガード”から、文
字成分表作成文字列の抽出が行われ、“ガ”、“ー”お
よび“ド”が抽出される。次にこれらの抽出された、文
字成分表作成文字列“ガ”、“ー”および“ド”に対応
する文字成分表のビット列が読み出され、ビット列間の
AND演算が行われる。本例では、文書1に対応する第
1ビット目と文書2に対応する第2ビット目の両方のビ
ットに“1”がセットされているため、文書1と文書2
の両方が検索されたことを表わしている。しかしなが
ら、文書2:“ツアーガイド”には、“ガ”、“ー”お
よび“ド”は存在するが“ガード”は存在しない。した
がって、文書2は検索ノイズとして検索されている。こ
のように、文字成分表を用いた文書検索方法には、検索
ノイズが発生するという問題がある。
【0007】本発明の課題は、文字成分表を用いた文書
検索方法において、検索ノイズを削減することにある。
【0008】
【課題を解決するための手段】上記課題を解決するため
に、本発明は、データベースへの文書の登録に際し、1
文字以上からなる連接文字を該文書から抽出し、これに
基づいて、連接文字が出現した文書の識別子情報を格納
した文字成分表を作成し、検索時には質問語に含まれる
連接文字に対応する文字成分表を参照することにより、
該連接文字を含む文書の検索を行う文書検索方法におい
て、文書の登録の際に、登録対象文書から抽出した文字
列によりノイズとして検索される登録済み文書がある
か、および登録済み文書から抽出した文字列によりノイ
ズとして登録対象文書が検索されるかを調べ、ノイズが
発生する場合には発生する文書をノイズ文字成分表に登
録し、検索時に、質問語に対応するノイズ文字成分表が
作成されている場合には、該質問語により文字成分表検
索した結果検索された文書から該質問語に対応するノイ
ズ文字成分表に登録されている文書を除くことにより、
ノイズとして検索される文書を削除するようにしてい
る。
【0009】
【発明の実施の形態】本発明の原理を以下に説明する。
文書登録時には、登録対象文書を1件ずつ読み込みノイ
ズ文字成分表と文字成分表の作成を行う。まず、登録対
象文書を本検索システムに登録することにより検索ノイ
ズが発生するかどうかを調査する。この調査は、登録文
書および登録済み文書から抽出した1〜n文字までの全
ての文字列を対象として行う。
【0010】まず、登録文書から抽出した文字列(以
後、登録対象文書内ノイズ判定文字列と呼ぶ)によりノ
イズが発生するかを調べる場合について説明する。登録
対象文書から登録対象文書内ノイズ判定文字列を抽出
し、既に文字成分表に登録した登録済み文書の中で、そ
の登録対象文書内ノイズ判定文字列と一致する文字列が
存在せずに、その登録対象文書内ノイズ判定文字列に含
まれる文字を文字成分表作成文字列に全て含む登録済み
文書が存在するかどうか調べる。すなわちノイズとして
検索される登録済み文書があるかを調べる。ノイズとし
て検索される登録済み文書がある場合には、登録対象文
書内ノイズ判定文字列をノイズ検出文字列とし、これに
対応するノイズ文字成分表にその登録済み文書を登録す
る。
【0011】次に登録済み文書から抽出した文字列(以
後、登録済み文書内ノイズ判定文字列と呼ぶ)により検
索ノイズが発生するかを調べる場合について説明する。
登録済み文書から登録済み文書内ノイズ判定文字列を抽
出し、登録対象文書の中で、その登録済み文書内ノイズ
判定文字列と一致する文字列が存在せずに、その登録済
み文書内ノイズ判定文字列に含まれる文字を文字成分表
作成文字列に全て含む登録対象文書が存在するかどうか
を調べる。その登録済み文書内ノイズ判定文字列に含ま
れる文字成分表作成文字列が全て存在する場合には、そ
の登録済み文書内ノイズ判定文字列をノイズ検出文字列
とし、これに対応するノイズ文字成分表に登録対象文書
を登録する。その後、登録対象文書から文字成分表作成
文字列を抽出し、文字成分表を作成する。
【0012】文書の検索時には、検索タームから文字成
分表作成文字列を抽出し、これらに対応する文字成分表
のビット列を読み出し、ビット列間のAND演算を行
う。さらに、検索タームと一致するノイズ検出文字列が
ノイズ文字成分表に登録されている場合には、このビッ
ト列間のAND演算結果と検索タームに対応するノイズ
文字成分表のビット列とAND−NOT演算を行う。こ
のように、文書登録時に検索タームに指定される可能性
のあるノイズ判定文字列に対しノイズで検索される文書
を登録したノイズ文字成分表を作成し、検索時には検索
タームと一致するノイズ判定文字列が存在する場合には
ノイズ文字成分表を参照し、文字成分表検索結果とAN
D−NOT演算を行うことによりノイズとして検索され
る文書を削減することができる。
【0013】以上説明した原理について、さらに具体例
を用いて詳細に説明にする。まず、文字成分表およびノ
イズ文字成分表の作成方法について説明する。文字成分
表およびノイズ文字成分表は、文書を全く登録していな
い初期状態から作成するものとする。登録文書として
は、 文書1:“ガードする”、 文書2:“ツアーガイド”、 文書3:“ハンガーをサイドボードに付ける” を想定し、文字成分表作成文字列の文字数としては1文
字を、登録対象文書内ノイズ判定文字列と登録済み文書
内ノイズ判定文字列の長さとしては2〜3文字を想定す
る。下限値が2文字なのは、文字成分表作成文字列の長
さとして1文字を想定しているため、1文字では検索ノ
イズが発生しないからである。
【0014】ノイズ文字成分表作成処理では、文書1:
“ガードする”を読み込むと、文書1から登録対象文書
内ノイズ判定文字列の抽出を行い、登録対象文書内ノイ
ズ判定文字列について検索した場合にノイズが発生する
かを調べる。本例では、登録対象文書内ノイズ判定文字
列として、“ガ”、“ード”、“ードす”、“する”、
“ガード”、“ードす”および“ドする”が得られる。
しかし、この時点では、文字成分表は初期登録の状態の
ため、ノイズの検出処理を行わない。ここで抽出した登
録対象文書内ノイズ判定文字列は、登録済み文書におけ
るノイズ判定文字列(以後、登録済み文書内ノイズ判定
文字列と呼ぶ)として、ワークエリアに格納する。その
後、文字成分表を作成するために文書1から文字成分表
作成文字列の抽出を行う。その結果、“ガ”、“ー”、
“ド”、“す”および“る”を抽出し、これらに対応す
る文字成分表のビット列に文書1を登録する。
【0015】次に、文書2:“ツアーガイド”を読み込
み、文書2から登録対象文書内ノイズ判定文字列を抽出
し、本例では、“ツア”、“アー”、“ーガ”、“ガ
イ”、“イド”、“ツアー”、“アーガ”、“ーガ
イ”、“ガイド”が得られる。これらの登録対象文書内
ノイズ判定文字列についてノイズが発生するかを調べ
る。これらのノイズ判定文字列において、登録済み文書
である文書1中に現れないものがあるかを調べる。その
結果、“ツア”、“アー”、“ーガ”、“ガイ”、“イ
ド”、“ツアー”、“アーガ”、“ーガイ”、“ガイ
ド”がこれ条件に該当する。さらに登録対象文書内ノイ
ズ判定文字列に含まれる文字が登録済み文書である文書
1に全て現れるものが存在するかを調べる。すなわち、
例えば、文書1の文字成分表に全て現れるものが存在す
るかを調べる。その結果、“ーガ”がこの条件に該当す
る。したがって、“ーガ”をノイズ検出文字列として、
これに対応するノイズ文字成分表のビット列に文書1を
登録する。このノイズ文字成分表はノイズ文字成分表と
同様にノイズ検出文字列に対応するビット列で構成して
おり、新たなノイズ検出文字列が出現した場合には、新
たにノイズ文字成分表のビット列を作成し、文字成分表
と同様にビット列の初期設定として全ビットに“0”
(ゼロ)を格納する。本例では、ノイズ検出文字列“ー
ガ”に対応するノイズ文字成分表のビット列が存在しな
いため、対応するビット列を新設し、そのビット列の第
1ビット目に“1”をセットする。
【0016】その後、登録済み文書である文書1から抽
出した登録済み文書内ノイズ判定文字列“ガー”、“ー
ド”、“ドす”、“する”“ガード”、“ードす”、お
よび“ドする”について検索ノイズが発生するかを調べ
る。まず、これらの文書内ノイズ判定文字列において、
登録対象文書である文書2中に現れないものがあるかを
調べる。その結果、全ての登録済み文書内ノイズ判定文
字列“ガー”、“ード”、“ドす”、“する”“ガー
ド”、“ードす”、および“ドする”が該当する。さら
に、これらの登録済み文書内ノイズ判定文字列に含まれ
る文字が登録対象文書である文書2に現れるものが存在
するかを調べる。本例では、“ガー”、“ード”と“ガ
ード”がこれに該当する。これは、“ガー”、“ード”
と“ガード”が検索タームとして指定されると文書2が
ノイズとして検索されることを示している。したがっ
て、“ガー”、“ード”および“ガード”に対応するノ
イズ文字成分表のビット列を作成し、そこに文書2を登
録する。ここで抽出した登録対象文書内ノイズ判定文字
列は、登録済み文書におけるノイズ判定文字列として、
ワークエリアに重複しないように追加格納する。その
後、文字成分表を作成するために文書2から文字成分表
作成文字列として“ツ”、“ア”、“ー”、“ガ”、
“イ”、“ド”を抽出し、これらに対応する文字成分表
のビット列に文書2を登録する。
【0017】次に、文書3:“ハンガーをサイドボード
に付ける”を読み込むと、登録対象文書内ノイズ判定文
字列の抽出を行い、登録対象文書内ノイズ判定文字列と
して“ハン”、“ンガ”、“ガー”、…を抽出する。こ
れらの登録対象文書内ノイズ判定文字列について、ノイ
ズの調査を行う。その結果、“ガー”および“ード”が
文書2においてノイズを発生する。その後、ワークエリ
アに格納した登録済み文書である文書1および文書2か
ら抽出した登録対象文書内ノイズ判定文字列“ガー”、
“ード”、“ドす”、“する”、“ガード”、“ード
す”、“ドする”、“ツア”、“アー”、…について、
登録対象文書である文書3においてノイズが発生するか
を調べる。
【0018】その結果、“ーガ”、“ガイ”、“ーガ
イ”、“ガード”および“ガイド”が該当する。したが
って、“ーガ”、“ガイ”、“ーガイ”、“ガード”お
よび“ガイド”に対応するノイズ文字成分表に文書3を
登録する。さらに、登録対象文書内ノイズ判定文字列
“ハン”、“ンガ”、“ガー”、…を登録済み文書内ノ
イズ判定文字列として、ワークエリアに追加格納する。
【0019】その後、登録文書から文字成分表作成文字
列として“ハ”、“ン”、“ガ”、“ー”、“を”、…
を抽出し、これらに対応する文字成分表に文書3の登録
を行う。この処理の結果得られた文字成分表を図5に、
ノイズ文字成分表を図6に示す。
【0020】次に、これらの文字成分表およびノイズ文
字成分表を用いた検索処理について説明する。図7はそ
の処理経過を示す。検索タームには、“ガード”を想定
する。まず、検索タームから文字成分表作成文字列
“ガ”、“ー”および“ド”を抽出する。次に、これら
に対応する文字成分表のビット列を読み込み、ビット列
間のAND演算を行う。本例では“ガ”、“ー”および
“ド”のいずれのビット列も全ビットが1であるため、
AND演算の結果も全ビットが1となる。すなわち、文
書1〜文書3の全てのビットが検索されていることを示
している。ここまでは、従来の文字成分表検索である
が、本発明では、更に、検索ターム“ガード”がノイズ
文字成分表に登録されているかを調べ、登録されている
場合には、検索タームに対応する文字成分表のビット列
とAND−NOT演算を行う。本例の図6のノイズ文字
成分表には“ガード”が登録されているため、文字成分
表検索結果から検索ターム“ガード”に対応する文字成
分表のビット列に登録されている文書を除く処理を行
う。この処理を実現するため、文字成分表検索結果から
そのノイズ文字成分表のビット列とAND−NOT演算
を行う。その結果、第1ビット目のみが1、すなわち文
書1のみが検索されており、文書2および文書3はノイ
ズとして落とされている。このように文字成分表検索結
果から検索タームに対応するノイズ文字成分表のビット
列に登録されている文書を除くことによりノイズを削除
することができる。
【0021】以上説明したように、登録文書に含まれる
ノイズとなる文字列に対して作成したノイズ文字成分表
を用いることによりノイズとなる文書を検索結果から除
くことが可能となり、ノイズの少ない文字成分表を用い
た文書検索方法を実現することができる。
【0022】以下、本発明の実施例を説明する。本発明
が適用された文書検索システムの構成について図1を用
いて説明する。本システムは、ディスプレイ101、キ
ーボード102、CPU103、メモリ104、磁気デ
ィスク105およびフロッピーディスクドライブ(FD
D)106から構成される。ディスプレイ101、キー
ボード102、メモリ104、磁気ディスク105およ
びFDD106は、CPU103よりバスを介してアク
セスされる。磁気ディスク105には、文字成分表ファ
イル8000およびノイズ文字成分表ファイル9000
が格納される。メモリ104には、システム制御プログ
ラム5000、検索インタフェースプログラム600
0、登録制御プログラム2000、検索制御プログラム
3000、ノイズ文字成分表登録プログラム2100、
文字成分表検索プログラム3100およびノイズ文字成
分表検索プログラム3200がロードされ、ワークエリ
ア4000が確保される。本文書検索システムの文書デ
ータベースに登録される文書は、フロッピーディスク1
07に格納され、FDD106を介してCPU103よ
りアクセスされる。本システムでは、電源投入時CPU
103によりシステム制御プログラム5000が起動さ
れ、システム制御プログラム5000の制御のもとに登
録制御プログラム2000および検索制御プログラム3
000が起動される。
【0023】まず、このような構成の本システムにおけ
る文書の登録処理の概略について説明する。ユーザがキ
ーボード102から入力した指示に従って、システム制
御プログラム5000が登録制御プログラム2000を
起動する。登録制御プログラム2000では、本検索シ
ステムに文書が未登録な場合に、本システムの初期設定
として、文字成分表ファイル8000に格納されている
文字成分表のビット列の全ビットをリセットするととも
に文書番号として0(ゼロ)を初期設定する。さらに、
フロッピーディスクに格納された登録文書がワークエリ
ア4000に取り込まれ、文書番号を割り付ける。この
文書番号は、登録された順番に付けられる文書のシリア
ル番号である。
【0024】その後、登録制御プログラム2000で
は、ノイズ文字成分表登録プログラム2100を起動
し、登録文書に対するノイズ文字成分表の作成を行う。
ノイズ文字成分表登録プログラム2100では、登録文
書から抽出した登録文書内ノイズ判定文字列を用いて登
録済みの文書を検索した場合、または登録済み文書内か
ら抽出した登録済み文書内ノイズ判定文字列を用いて登
録文書を検索しようとした場合に、ノイズを発生するか
否かの判定を行う。これらの判定においてノイズが発生
する場合には、ノイズが発生する登録文書内ノイズ判定
文字列ないしは登録済み文書内ノイズ判定文字列をノイ
ズ検出文字列とし、ノイズとして検索される文書をノイ
ズ検出文字列に対応するノイズ文字成分表に登録する。
【0025】その後、登録制御プログラム2000で
は、文字成分表登録プログラム2100を起動し、登録
文書に対して、文字成分表作成文字列を抽出し、これら
に対応する文字成分表に登録文書を登録する。このよう
な文字成分表を登録する技術は、「特開平03−174
652」(単一文字に対応した文字成分表方式)および
「特開平05−174064」(連接文字に対応した文
字成分表方式)に記載されている。本実施例ではこれら
の文字成分表作成技術をそのまま利用する。その後、登
録制御プログラム2000では、フロッピーディスクに
他の登録文書が格納されている場合には、ノイズ文字成
分表登録プログラム2100を起動し、次の登録文書の
ノイズ文字成分表登録処理を行う。登録制御プログラム
2000は、以上の一連の登録処理をフロッピーディス
クに格納されている全ての文書について実施する。
【0026】次に、本システムにおける文書の検索動作
の概略について説明する。ユーザがキーボード102か
ら入力した指示に従い、システム制御プログラム500
0は検索制御プログラム3000と検索インタフェース
プログラム6000を起動する。その後、ユーザがキー
ボード102から入力した検索タームは、検索インタフ
ェースプログラム6000に入力され、検索制御プログ
ラム3000に送られる。検索制御プログラム3000
では、文字成分表検索プログラム3100を起動すると
ともに本プログラムへ前記質問語を送る。
【0027】文字成分表検索プログラム3100では、
受け取った検索タームから所定の長さの文字列を抽出
し、これらの文字列に対応する文字成分表のビット列を
参照することにより文字成分表の検索を行い、その検索
結果を検索制御プログラム3000へ送る。このような
文字成分表を検索する技術は、「特開平03−1746
52」(単一文字に対応した文字成分表方式)および
「特開平05−174064」(連続文字に対応した文
字成分表方式)に記載されており、本実施例ではこれら
の文字成分表検索技術をそのまま利用する。
【0028】その後、検索制御プログラム3000で
は、ノイズ文字成分表検索プログラム3200を起動す
るとともに前記質問語と前記検索結果を送る。ノイズ文
字成分表検索プログラム3200では、前記質問語に対
応するノイズ文字成分表が存在するかを調べ、存在する
場合には前記検索結果からノイズ文字成分表に登録され
ている文書を除き、これを新たな検索結果として検索制
御プログラム3000へ送る。存在しない場合は送られ
てきた検索結果をそのまま検索制御プログラム3000
へ送る。本検索結果は、ビット列から文書番号列へ変換
し、検索インタフェースプログラム6000へと送ら
れ、検索結果文書番号としてディスプレイ101に表示
される。
【0029】次に、ノイズ文字成分表登録プログラム2
100の構成とノイズ文字成分登録処理について図8を
用いて説明する。ノイズ文字成分表登録プログラム21
00は、登録文書内ノイズ判定文字列抽出ステップ21
10、登録文書内ノイズ判定文字列数繰り返しステップ
2120、登録済み文書内出現判定ステップ2130、
登録済み文書内部分文字列出現判定ステップ2140、
登録文書内ノイズ判定文字列対応ノイズ文字成分表登録
ステップ2150、登録済み文書内ノイズ判定文字列数
繰り返しステップ2160、登録文書内出現判定ステッ
プ2170、登録文書内部分文字列出現判定ステップ2
180、登録済み文書内ノイズ判定文字列対応ノイズ文
字成分表登録ステップ2190、および登録済み文書内
ノイズ判定文字列登録ステップ2195から構成され
る。
【0030】ノイズ文字成分表登録プログラム2100
における各ステップの動作について、以下説明する。ま
ず、ノイズ判定文字列抽出ステップ2110では、ワー
クエリア4000に格納された文書から全ての文字列を
抽出し、登録文書内ノイズ判定文字列としてワークエリ
ア4000に格納する。次に、登録文書内ノイズ判定文
字列数繰り返しステップ2120では、ワークエリア4
000に格納されている登録文書内ノイズ判定文字列に
ついて、ステップ2130〜ステップ2150の処理を
繰り返す。
【0031】本ステップの繰り返し処理について次に説
明する。登録済み文書内出現判定ステップ2130で
は、処理対象の登録文書内ノイズ判定文字列と同じ文字
列が登録済み文書中に出現するか判定し、出現しない場
合は登録済み文書内部分文字列出現判定ステップ214
0を実行する。登録済み文書内部分文字列出現判定ステ
ップ2140では、処理対象の登録文書内ノイズ判定文
字列に含まれる文字成分表作成文字列を抽出し、登録文
書内ノイズ判定文字列と同じ文字列が出現していない登
録済み文書中に、これらの抽出された文字成分表作成文
字列が全て出現するかを判定する。その結果、抽出され
た文字成分表作成文字列が全て出現する登録済み文書が
存在する場合には、登録文書内ノイズ判定文字列対応ノ
イズ文字成分表登録ステップ2150を実行する。登録
文書内ノイズ判定文字列対応ノイズ文字成分表登録ステ
ップ2150では、処理対象の登録文書内ノイズ判定文
字列に対応するノイズ文字成分表に該当登録済み文書を
登録する。以上の一連の処理が、登録文書内ノイズ判定
文字列数繰り返しステップ2120により、全ての登録
文書内ノイズ判定文字列について実施される。
【0032】その後、登録済み文書内ノイズ判定文字列
数繰り返しステップ2160では、ワークエリア400
0に格納されている登録済み文書内ノイズ判定文字列に
ついて、ステップ2170〜ステップ2190の処理を
繰り返す。本ステップの繰り返し処理について次に説明
する。登録文書内出現判定ステップ2170では、処理
対象の登録済み文書内ノイズ判定文字列と同じ文字列が
登録文書中に出現するか判定し、出現しない場合は登録
文書内部分文字列出現判定ステップ2180を実行す
る。登録文書内部分文字列出現判定ステップ2180で
は、処理対象の登録済み文書内ノイズ判定文字列に含ま
れる文字成分表作成文字列を抽出し、これらの抽出され
た文字成分表作成文字列が登録文書中に全て出現するか
を判定する。その結果、抽出された文字成分表作成文字
列が全て出現する場合には、登録済み文書内ノイズ判定
文字列対応ノイズ文字成分表登録ステップ2190を実
行する。登録済み文書内ノイズ判定文字列対応ノイズ文
字成分表登録ステップ2190では、処理対象の登録済
み文書内ノイズ判定文字列に対応するノイズ文字成分表
に該当登録文書を登録する。以上の一連の処理が、登録
文書内ノイズ判定文字列数繰り返しステップ2160に
より、全ての登録済み文書内ノイズ判定文字列について
実施される。
【0033】その後、登録済み文書内ノイズ判定文字列
登録ステップ2195では、登録文書内ノイズ判定文字
列を登録済み文書内ノイズ判定文字列として、ワークエ
リア4000に追加格納する。以上の処理を行うことに
より、ノイズの発生する文字列を調査し、それに対応す
るノイズ文字成分表を作成することができる。
【0034】さらに、ノイズ文字成分表検索プログラム
3200の構成とノイズ文字成分表検索処理について図
9を用いて説明する。ノイズ文字成分表検索プログラム
3200は、文字成分表検索結果取得ステップ321
0、ノイズ発生文字列判定ステップ3220、ノイズ文
字成分表読み出しステップ3230、ノイズ文書削除手
段3240、および文字成分表検索結果格納ステップ3
250から構成される。
【0035】ノイズ文字成分表検索プログラム3200
における各ステップの動作について、以下説明する。ま
ず、文字成分表検索結果取得ステップ3210では、文
字成分表検索プログラム3100で作成された文字成分
表検索結果と検索タームをワークエリア4000から読
み出す。次に、ノイズ発生文字列判定ステップ3220
では、検索タームと一致するノイズ文字発生文字列が存
在するかを判定する。一致する場合には、ノイズ文字成
分表読み出しステップ3230およびノイズ文書削除手
段3240を実行する。ノイズ文字成分表読み出しステ
ップ3230では、検索タームと一致したノイズ文字列
に対応するノイズ文字成分表のビット列をノイズ文字成
分表ファイル9000から読み出す。ノイズ文書削除ス
テップ3240では、文字成分表検索結果から、読み出
されたノイズ文字成分表に登録されている文書を除くた
めに、文字成分表検索結果とそのノイズ文字成分表のビ
ット列とでAND−NOT演算を行う。そして、この演
算結果を新たな文字成分表検索結果とする。その後、文
字成分表検索結果格納ステップ3250では、文字成分
表検索結果をワークファイル4000に格納する。この
文字成分表検索結果は、検索制御プログラムにから、検
索結果として送出される。
【0036】以上の処理を行うことにより、文字成分表
検索結果から検索タームに対応するノイズ文字成分表の
ビット列に登録されている文書を除くことによりノイズ
を削減することができる。
【0037】次に、ノイズ文字成分表登録処理につい
て、具体例を用いて動作を詳細に説明する。まず、ノイ
ズ文字成分表登録処理について、図8を用いて詳細に説
明する。文字成分表およびノイズ文字成分表は、文書を
全く登録しない初期状態から作成するものとする。ま
た、登録済み文書内ノイズ判定文字列は初期状態のた
め、登録されていないものとする。さらに、登録文書と
しては、文書1:“ガードする”および文書2:“ツア
ーガイド”、を想定し、文字成分表作成文字列の文字数
としては1文字、登録対象文書内ノイズ判定文字列と登
録済み文書内ノイズ判定文字列の長さとしては2〜3文
字を想定する。下限値が2文字なのは、文字成分表作成
文字列の長さとして1文字を想定しているため、1文字
では検索ノイズが発生しないからである。
【0038】まず、登録文書内ノイズ判定文字列抽出ス
テップ2110では、文書1:“ガードする”を読み込
むと、文書1から登録対象文書内ノイズ判定文字列の抽
出を行い、本例では、登録対象文書内ノイズ判定文字列
として、“ガー”,“ード”,“ドす”,“する”,
“ガード”,“ードす”および“ドする”が得られる。
これらをワークエリア4000に格納する。
【0039】その後、登録文書内ノイズ判定文字列数繰
り返しステップ2120では、登録済み文書内出現判定
ステップ2130、登録済み文書内部分文字列出現判定
ステップ2140および登録文書内ノイズ判定文字列対
応ノイズ文字成分表登録ステップ2150を実行し、ワ
ークエリア4000に格納された登録対象文字内ノイズ
判定文字列が検索タームの一部として指定され、検索を
行った場合にノイズが発生するか否かを調べる。しか
し、この時点では、文字成分表は初期登録の状態のため
ノイズの検出処理を行わない。
【0040】次に、登録済み文書内ノイズ判定文字列数
繰り返しステップ2160では、登録文書内出現判定ス
テップ2170、登録文書内部分文字列出現判定ステッ
プ2180および登録済み文書内ノイズ判定文字列対応
ノイズ文字成分表登録ステップ2190を実行し、ワー
クエリア4000に格納されている登録済み文書内ノイ
ズ判定文字列が検索タームの一部として指定され、検索
を行った場合にノイズが発生するか否かを調べる。しか
し、この時点では、登録済み文書内ノイズ判定文字列が
ワークエリア4000に格納されていないため、ノイズ
の検出処理を行わない。
【0041】この後に、登録済み文書内ノイズ判定文字
列登録判定ステップ2195を実行する。本ステップで
は、ワークエリア4000に格納されている登録文書内
ノイズ判定文字列“ガー”,“ード”,“ドす”,“す
る”,“ガード”,“ードす”および“ドする”を登録
済み文書内ノイズ判定文字列としてワークエリア400
0に格納する。その後、文字成分表作成プログラム22
00において、文字成分表を作成するために文書1から
文字成分表作成文字列が抽出され、本例ではその結果
“ガ”,“ー”,“ド”,“す”,“る”が抽出され、
これらに対応する文字成分表のビット列に文書1が登録
される。以上が初期状態における文書1の登録処理であ
る。
【0042】次に、2番目の文書である文書2:“ツア
ーガイド”の登録処理について説明する。まず、登録文
書内ノイズ判定文字列抽出ステップ2110では、文書
2を読み込み、登録対象文書内ノイズ判定文字列を抽出
する。本例では、“ツア”,“アー”,“ーガ”,“ガ
イ”,“イド”,“ツアー”“アーガ”“ーガイ”およ
び“ガイド”が得られ、これらを登録対象文書内ノイズ
判定文字列としてワークエリア4000に格納する。
【0043】登録文書内ノイズ判定文字列数繰り返しス
テップ2120では、ワークエリア4000に格納した
上記登録対象文書内ノイズ判定文字列について、登録済
み文書内出現判定ステップ2130、登録済み文書内部
分文字列出現判定ステップ2140、および登録文書内
ノイズ判定文字列対応ノイズ文字成分表登録ステップ2
150を実行し、ワークエリア4000に格納された登
録対象文書内ノイズ判定文字列が検索タームの一部とし
て指定され、検索を行った場合にノイズ発生するか否か
を調べる。その結果、ワークエリア4000に格納した
登録対象文書内ノイズ判定文字列は、登録済み文書内出
現判定ステップ2130において、登録済み文書内部分
文字列と全て一致しなかったため、全ての登録対象文書
内ノイズ判定文字列は、登録済み文書内部分文字列出現
判定ステップ2140の対象となる。
【0044】次に、登録済み文書内部分文字列出現判定
ステップ2140では、登録対象文書内ノイズ判定文字
列“ツア”,“アー”,“ーガ”,“ガイ”,“イ
ド”,“ツアー”“アーガ”“ーガイ”および“ガイ
ド”について、構成要素の文字が登録済み文書に全て現
われるものが存在するかを調べる。すなわち、この時点
では文書1に全て現われるものが存在するかを調べる。
これは、登録対象文書内ノイズ判定文字列を文字成分表
で検索することにより調べることができる。つまり、登
録対象文書内ノイズ判定文字列を文字成分表で検索し、
ヒットした場合には、そのヒットした文書に構成要素の
文字が全て存在することになる。本例では、登録対象文
書内ノイズ判定文字列“ーガ”がこの条件に該当する。
【0045】したがって、登録対象文書内ノイズ判定文
字列“ーガ”について、登録文書内ノイズ判定文字列対
応ノイズ文字成分表登録ステップ2150を実行し、
“ーガ”に対応するノイズ文字成分表に文書1を登録す
る。本例では、ノイズ検出文字列“ーガ”に対応するノ
イズ文字成分表のビット列が存在しないため、対応する
ビット列を新設し、文書1を示すビット列の第1ビット
目に“1”をセットする。このようにすることにより、
“ーガ”に対応するノイズ文字成分表に文書1を登録す
る。
【0046】次に、登録済み文書内ノイズ判定文字列数
繰り返しステップ2160では、登録文書内出現判定ス
テップ2170、登録文書内部分文字列出現判定ステッ
プ2180および登録済み文書内ノイズ判定文字列対応
ノイズ文字成分表登録ステップ2190を実行し、ワー
クエリア4000に格納されている登録済み文書内ノイ
ズ判定文字列が検索タームの一部として指定され、検索
を行った場合にノイズが発生するか否かを調べる。
【0047】まず、登録文書内出現判定ステップ217
0では、ワークエリア4000に格納されている登録済
み文書内ノイズ判定文字列“ガー”,“ード”,“ド
す”,“する”,“ガード”,“ードす”および“ドす
る”について、ワークエリア4000に格納されている
登録対象文書内ノイズ判定文字列“ツア”,“アー”,
“ーガ”,“ガイ”,“イド”,“ツアー”“アーガ”
“ーガイ”および“ガイド”と一致しているものがある
かを各々調べる。その結果、全ての登録対象文書内ノイ
ズ判定文字列が該当しないため、全ての登録済み文書内
ノイズ判定文字列が次の登録文書内部分文字列出現判定
ステップ2180の処理対象となる。本ステップでは、
登録済み文書内ノイズ判定文字列において、その構成文
字が全て現われる登録対象文書内ノイズ判定文字列が存
在するか否かを判定する。本例では、登録済み文書内ノ
イズ判定文字列“ガー”,“ード”と“ガード”が該当
する。したがって、これらについて、登録済み文書内ノ
イズ判定文字列対応ノイズ文字成分表登録ステップ21
90を実行し、“ガー”,“ード”および“ガード”に
対応するノイズ文字成分表のビット列を作成し、そこに
文書2を登録する。
【0048】その後、登録済み文書内ノイズ判定文字列
登録ステップ2195を実行する。本ステップでは、ワ
ークエリア4000に格納されている登録対象文書内ノ
イズ判定文字列“ツア”,“アー”,“ーガ”,“ガ
イ”,“イド”,“ツアー”“アーガ”“ーガイ”およ
び“ガイド”を登録済み文書内ノイズ判定文字列として
ワークエリア4000に格納する。このように、ノイズ
文字成分表プログラム2100を動作することにより、
ノイズ文字成分表を作成することができる。さらに、登
録文書が大量になると登録済み文書内ノイズ判定文字列
が増加する。このような場合に、コンパクトに格納する
方法として、「情報処理 Vol.34 No.2 ト
ライとその応用 93.2」で開示されているトライと
いう手法がある。
【0049】以上説明したように、登録文書に含まれる
ノイズとなる文字列に対して作成したノイズ文字成分表
を用いることによりノイズとなる文書を検索結果から除
くことが可能となり、ノイズの少ない文字成分表を用い
た文字検索方法を実現することができる。
【0050】
【発明の効果】登録文書に含まれるノイズとなる文字列
に対して作成したノイズ文字成分表を用いることにより
ノイズとなる文書を検索結果から除くことができ、ノイ
ズの少ない文字成分表を用いた文書検索方法を実現する
ことが可能となる。
【図面の簡単な説明】
【図1】本発明が適用された文書検索システムの構成を
示す図である。
【図2】文字成分表作成処理の具体例を示す図である。
【図3】文字成分表を用いた文字成分表検索の例を示す
図である。
【図4】文字成分表を用いた文字成分表検索においてノ
イズが発生する例を示す図である。
【図5】文書1〜文書3を登録した場合の文字成分表の
構成例を示す図である。
【図6】文書1〜文書3を登録した場合のノイズ文字成
分表の構成例を示す図である。
【図7】ノイズ文字成分表を用いた文字成分表検索の例
を示す図である。
【図8】ノイズ文字成分表作成プログラム2100の処
理手順を示す図である。
【図9】ノイズ文字成分表検索プログラム3200の処
理手順を示す図である。
【符号の説明】
101 ディスプレイ 102 キーボード 103 CPU 104 メモリ 105 磁気ディスク 106 FDD 107 フロッピーディスク 2000 登録制御プログラム 2100 ノイズ文字成分表登録プログラム 2200 文字成分表登録プログラム 3000 検索制御プログラム 3100 文字成分表検索プログラム 3200 ノイズ文字成分表検索プログラム 4000 ワークエリア 5000 システム制御プログラム 6000 検索インタフェースプログラム 8000 文字成分表ファイル 9000 ノイズ文字成分表ファイル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 多田 勝己 神奈川県川崎市幸区鹿島田890番地の12 株式会社日立製作所情報・通信開発本部内 (72)発明者 加藤 寛次 神奈川県川崎市幸区鹿島田890番地の12 株式会社日立製作所情報・通信開発本部内 (72)発明者 浅川 悟志 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 データベースへの文書の登録に際し、1
    文字以上からなる連接文字を該文書から抽出し、これに
    基づいて、連接文字が出現した文書の識別子情報を格納
    した文字成分表を作成し、検索時には質問語に含まれる
    連接文字に対応する文字成分表を参照することにより、
    該連接文字を含む文書の検索を行う文書検索方法におい
    て、 文書の登録の際に、登録対象文書から抽出した文字列に
    よりノイズとして検索される登録済み文書があるか、お
    よび登録済み文書から抽出した文字列によりノイズとし
    て登録対象文書が検索されるかを調べ、ノイズが発生す
    る場合には発生する文書をノイズ文字成分表に登録する
    ノイズ文字成分表登録ステップと、 検索時に、質問語に対応するノイズ文字成分表が作成さ
    れている場合には、該質問語により文字成分表検索した
    結果検索された文書から該質問語に対応するノイズ文字
    成分表に登録されている文書を除くステップにより、 ノイズとして検索される文書を削除することを特徴とす
    る文書検索方法。
  2. 【請求項2】 請求項1記載の文書検索方法において、 前記ノイズ文字成分表登録ステップは、 登録対象文書の中に存在する文字列と同じ文字列が登録
    済み文書中に存在せずに、該文字列を構成する部分文字
    列が全て登録済み文書中に存在する場合には、該文字列
    が該登録済み文書においてノイズが発生するものと判定
    し、該文字列と該登録済み文書をノイズ文字成分表に登
    録し、 登録済み文書の中に存在する文字列と同じ文字列が登録
    対象文書中に存在せずに、該文字列を構成する部分文字
    列が全て登録対象文書中に存在する場合には、該文字列
    が該登録対象文書においてノイズが発生するものと判定
    し、該文字列と該登録対象文書をノイズ文字成分表に登
    録することを特徴とする文書検索方法。
  3. 【請求項3】 請求項1記載の文書検索方法において、 前記ノイズ文字成分表登録ステップは、 登録対象文書の中に存在する文字列の中で文字成分表に
    登録する文字列の長さ以上の文字列について、これと同
    じ文字列が登録済み文書中に存在せずに、該文字列を構
    成する部分文字列が全て登録済み文書中に存在する場合
    には、該文字列が該登録済み文書においてノイズが発生
    するものと判定し、該文字列と該登録済み文書をノイズ
    文字成分表に登録し、 登録済み文書の中に存在する文字列の中で文字成分表に
    登録する文字列の長さ以上の文字列について、これと同
    じ文字列が登録対象文書中に存在せずに、該文字列を構
    成する部分文字列が全て登録対象文書中に存在する場合
    には、該文字列が該登録対象文書においてノイズが発生
    するものと判定し、該文字列と該登録対象文書をノイズ
    文字成分表に登録することを特徴とする文書検索方法。
  4. 【請求項4】 請求項1記載の文書検索方法において、 前記ノイズ文字成分表登録ステップは、 登録対象文書の中に存在する文字列の中で文字成分表に
    登録する文字列の長さ以上でかつ所定の長さ以下の文字
    列について、これと同じ文字列が登録済み文書中に存在
    せずに、該文字列を構成する部分文字列が全て登録済み
    文書中に存在する場合には、該文字列が該登録済み文書
    においてノイズが発生するものと判定し、該文字列と該
    登録済み文書をノイズ文字成分表に登録し、 登録済み文書の中に存在する文字列の中で文字成分表に
    登録する文字列の長さ以上でかつ所定の長さ以下の文字
    列について、これと同じ文字列が登録対象文書中に存在
    せずに、該文字列を構成する部分文字列が全て登録対象
    文書中に存在する場合には、該文字列が該登録対象文書
    においてノイズが発生するものと判定し、該文字列と該
    登録対象文書をノイズ文字成分表に登録することを特徴
    とする文書検索方法。
  5. 【請求項5】 請求項1記載の文書検索方法において、 前記ノイズ文字成分表登録ステップは、 登録対象文書の中に存在する文字列と同じ文字列が登録
    済み文書中に存在しない場合には、該文字列を文字成分
    表で検索し、検索された場合には、該文字列が該検索文
    書においてノイズが発生するものと判定し、該文字列と
    該検索文書をノイズ文字成分表に登録し、 登録済み文書の中に存在する文字列と同じ文字列が登録
    対象文書中に存在せずに、該文字列を文字成分表で検索
    し、検索された場合には、該文字列が該検索文書におい
    てノイズが発生するものと判定し、該文字列と該検索文
    書をノイズ文字成分表に登録することを特徴とする文書
    検索方法。
JP8055482A 1996-02-19 1996-02-19 文書検索方法 Pending JPH09223160A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8055482A JPH09223160A (ja) 1996-02-19 1996-02-19 文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8055482A JPH09223160A (ja) 1996-02-19 1996-02-19 文書検索方法

Publications (1)

Publication Number Publication Date
JPH09223160A true JPH09223160A (ja) 1997-08-26

Family

ID=12999849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8055482A Pending JPH09223160A (ja) 1996-02-19 1996-02-19 文書検索方法

Country Status (1)

Country Link
JP (1) JPH09223160A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016001991A1 (ja) * 2014-06-30 2016-01-07 株式会社日立製作所 検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016001991A1 (ja) * 2014-06-30 2016-01-07 株式会社日立製作所 検索方法
JPWO2016001991A1 (ja) * 2014-06-30 2017-04-27 株式会社日立製作所 検索方法

Similar Documents

Publication Publication Date Title
US5745745A (en) Text search method and apparatus for structured documents
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JP2008536195A (ja) 曖昧な地理的参照の分類
US7222129B2 (en) Database retrieval apparatus, retrieval method, storage medium, and program
JP3022539B1 (ja) 文書検索装置
JP2006178599A (ja) 文書検索装置および方法
JP2001109754A (ja) 索引ファイルを使用した検索方法及びそれに用いる装置
JP3497243B2 (ja) 文書検索方法及び装置
JPH08329116A (ja) 構造化文書検索方法
JPH08147311A (ja) 構造化文書検索方法及び装置
JP2011133928A (ja) 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム
JP2003242179A (ja) 文字列照合方法、これを用いた文書処理装置及びプログラム
JPH09223160A (ja) 文書検索方法
JPH0773197A (ja) 異表記語辞書作成支援装置
JPH05101102A (ja) 検索装置
JP3859044B2 (ja) インデクス作成方法および検索方法
JPH08190571A (ja) 文書検索方法
JP2001147923A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP3555181B2 (ja) 構造化文書検索方法
JPH11110395A (ja) 類似文書検索装置および類似文書検索方法
JP3511724B2 (ja) 文書検索方法
JP2006004283A (ja) テキスト情報源からのキーワード抽出・絞り込み方法およびシステム
JP2000112990A (ja) テキスト検索装置、有効語頻度作成装置、テキスト検索方法、及び有効語頻度作成方法並びに記録媒体
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JP2000311170A (ja) テキスト情報抽出方法