JPH04281558A - 文書検索方法および装置 - Google Patents
文書検索方法および装置Info
- Publication number
- JPH04281558A JPH04281558A JP3069319A JP6931991A JPH04281558A JP H04281558 A JPH04281558 A JP H04281558A JP 3069319 A JP3069319 A JP 3069319A JP 6931991 A JP6931991 A JP 6931991A JP H04281558 A JPH04281558 A JP H04281558A
- Authority
- JP
- Japan
- Prior art keywords
- document
- candidate
- data
- list
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000013500 data storage Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 12
- 239000000872 buffer Substances 0.000 abstract description 19
- 230000014509 gene expression Effects 0.000 abstract description 8
- 239000012536 storage buffer Substances 0.000 description 44
- 238000000034 method Methods 0.000 description 16
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
め要約のデータは記録されません。
Description
からユーザの目的とする文書を効率よく検索することが
可能な文書検索装置に関する。
ションを用いた文書検索システムが実用化されている。
索を行なう場合には、まずユーザはキーワードを入力す
る。その後、装置側が入力されたキーワードを、本文中
に含んでいるか、あるいは検索キーとしてヘッダ部分に
含んでいる文書をデータベースの中から捜し出し、その
検索結果をユーザに与える。
かった場合には、ユーザはさらにこのうなかから必要な
ものを選び出す必要がある。そのため、装置側は、捜し
出された各文書のタイトルおよび各文書に付属する文書
情報あるいはアブストラクトなどの文書内容リストを文
書番号とともに列挙表示し、ユーザはここに付加されて
いる文書内容を参照して、各文書が目的にあったものか
否かの判断を行なってから文書本体を閲覧している。
の検索装置においては、候補文書が複数ある場合に、装
置側が与えた文書内容リストなどを参照して、ユーザが
必要なものを選択するという形態が採られているが、文
書内容リストが文書の内容を的確に表現しているケース
が少なく、また、ユーザの必要とする記述が本文中に存
在してもそれが文書のタイトルあるいはヘッダ情報に表
されていないケースもあった。特に、候補文書数が増え
た場合には、目的とする文書を検索するまでに要するユ
ーザの負担は大きかった。また、文書内容リスト中に詳
しく各文書の内容を表現すると、文書内容リストの表示
量自体が大きくなり、表示画面の表示領域に収まらず、
ユーザは画面のスクロールなどを頻繁に行なわなければ
ならないといった操作上の不具合も生じていた。
で、文書内容リスト中に各文書の内容を的確に、かつ最
少限の記述量で表現できる文書検索装置を提供すること
を目的とする。
成するために、テキスト・データや図表データなどから
なる文書データを格納する文書データ格納手段と、この
文書データ格納手段に格納されている文書データを検索
するキーワードを入力するキーワード入力手段と、この
キーワード入力手段から入力されたキーワードを含む文
書を上記文書データ格納手段の中から検索するキーワー
ドサーチ手段とを備えた文書検索装置において、上記各
文書データごとに上記キーワードサーチ手段によって抽
出された上記キーワードを含む候補文を格納する格納手
段と、この格納手段に格納されている候補文に対し文章
解析処理を施し上記キーワードを含む簡略化された文を
候補文書リストの要素として表示する候補文書一覧表示
手段と、この候補文書一覧表示手段で表示された文書一
覧における上記要素の一つを指定する文書選択手段と、
この文書選択手段で指定された文書に対応する文書デー
タの内容を表示する文書表示手段とを具備したことを特
徴とする。
ドを用いることにことによって得られた複数の候補文書
データの中から目的とするものを選ぶ場合に、候補文書
リストの要素としてキーワードをテキスト中の周囲の語
と対応づけて表示することにより、文書中でのそのキー
ワードの現われ方が明示表現され、文書全体の内容が目
的に合致したものかどうかの判断が的確に行なわれる。
含む文に対し文章解析処理を行ない、キーワードを含ん
で短く表現された文章を候補文書リストの要素として表
示することにより、候補文書リストの表示画面上での占
有面積が小さくなる。
する。
の構成を示すブロック図である。
装置1 、表示装置2 、文書データ格納装置3 、制
御装置4 、およびメモリ5から構成される。
ド・位置情報などを入力する装置で、例えばキーボード
1aとマウス1bおよびこれらを制御する装置で構成さ
れる。
るためのプロンプトメッセージ、入力された文字列、あ
るいは検索の後に得られた文書データなどの表示を行な
うものであり、例えばVRAMと、このVRAMに格納
されたビット情報をドット列として表示するためのディ
スプレイからなっている。
を格納するためのものであり、例えばハードディスク装
置などからなる。この文書格納装置3 における文書デ
ータの格納形式を図2に示す。1個の文書データは、文
書中のテキスト情報のみを含むテキストデータ部3aと
イメージデータ、フォーマット情報などを含む非テキス
トデータ部3bからなり、文書データ格納装置3 には
このような形式の文書データが複数個格納されている。 すなわち、複数の文書データ31,32,…,3n は
、それぞれテキストデータ部31a,32a,…,3n
aと非テキストデータ部31b,32b,…,3nbか
らなる形式で文書データ格納装置3 に格納されている
。
るもので、入力装置1 、表示装置2 、文書データ格
納装置3 、およびメモリ5とバスにより接続されてお
り、各装置の制御、装置間のデータの転送などの制御や
処理を行なうものである。
からなり、図3に示すように、制御装置4 が各種制御
や処理を実行するためのプログラムを格納するプログラ
ム部5aと、処理の際に必要なデータをバッファするバ
ッファ部5bとからなっている。さらに、プログラム部
5aは、メイン処理部5c、初期化部5d、キーワード
入力部5e、キーワードサーチ部5f、候補文書一覧表
示部5g、文書選択部5h、および文書表示部5iのモ
ジュールに分割され、また、データバッファ部5bは、
キーワード格納バッファ5j、キーワードサーチ用バッ
ファ5k、候補文書格納バッファ5l、候補文書数格納
バッファ5m、文字列格納バッファ5n、構文木格納バ
ッファ5p、および文骨格格納バッファ5qから構成さ
れる。以下、プログラム部5aとバッファ部5bの各部
の機能について説明する。
御を司どるものであり、プログラムの分岐、初期化部5
d以下の各モジュールの呼び出し(起動)などを行ない
、また、初期化部5dは、各ハードウェア装置の初期設
定およびデータバッファ部5bを構成する各バッファの
内容の初期化を行なう。
キーボード1aを介してユーザに検索の際にキーとなる
キーワードである文字列を入力させ、これをキーワード
格納バッファ5jに格納する。
納装置3 に格納されている文書データを格納されてい
る順序で読み出してキーワードサーチ用バッファ5kに
格納し、キーワード格納バッファ5iに格納されている
文字列を含む文書データをキーワードサーチ用バッファ
5k上で捜しだす。この検索の結果、得られる複数の文
書データを候補文書データとして候補文書格納バッファ
5lに格納する。
バッファ5lに格納されている各候補文書データの内容
を表わす表現(以下、文書内容表現と称す)を表示装置
2 の表示画面上に列挙表示する。すなわち、文書内容
表現は、候補文書一覧の要素として表示画面上に列挙表
示される。
示部5gによって列挙表示されている文書内容表現のい
ずれか一つをユーザに選択させる。
て選択された文書内容表現に対応する文書データを候補
文書格納バッファ5lより読み出し、テキスト・図表な
どを表示装置2 の表示画面上に表示する。
格納バッファ5lに含まれる文書データ数を格納するバ
ッファである。
ードを含む一文単位の文字列を格納するバッファ、構文
木格納バッファ5pは文章解析処理の一つである構文解
析の結果を格納するバッファ、また、文骨格データ格納
バッファ5qは文の骨格を表わす文字列を格納するバッ
ファである。
処理動作について、図4の処理の流れを示すフローチャ
ートを参照し説明する。
っており、メイン処理部5cはまず初期化部5dを起動
する。 起動された初期化部5dはバッファ部5bのキーワード
格納バッファ5j、キーワードサーチ用バッファ5kお
よび候補文書格納バッファ5lの初期化、候補文書数格
納バッファ5mの内容のクリア、入力装置1 と表示装
置2 の初期設定などを行なう。さらに、コマンド入力
のために必要な各種のアイコンの表示も行なう。(ステ
ップS1)。
力部5eを起動する。起動されたキーワード入力部5e
はユーザに入力装置1 のキーボード1aを介してコー
ド列からなるキーワードを一般に複数個入力させる。入
力されたコード列に対して、カナ漢字変換などの処理を
施し、得られた文字列をキーワード格納バッファ5jに
格納する。キーワードが入力されキーワード格納バッフ
ァ5jに格納された後、処理はステップS3に移行する
。(ステップS2)。
が起動される。起動されたキーワードサーチ部5fは、
文書データ格納装置3 に格納されている文書データを
格納されている順序、例えば最初に文書データ31を読
み出し、キーワードサーチ用バッファ5kに格納する。 さらに、キーワードサーチ部5fは、キーワードサーチ
用バッファ5kに格納されいる文書データ31のテキス
トデータ部31a を参照し、この中にキーワード格納
バッファ5jに格納されている複数のキーワードのいず
れかの文字列と同一の文字列が含まれているか否かを調
べる。含まれている場合には、キーワードサーチ用バッ
ファ5kに格納されいる文書データ31全体を候補文書
格納バッファ5lに候補文書として格納し、候補文書数
格納バッファ5mの内容を“1”増加させる。続いて、
キーワードサーチ部5fは、文書データ32から文書デ
ータ3nまでの文書データに対して上記した一連の処理
を順次実行する。すなわち、文書データ格納装置3 に
格納されている全ての文書データに対して上記処理を実
行する。(ステップS3)。
と、候補文書格納バッファ5lの内容が参照され、ステ
ップS2で入力されたキーワードをそのテキストデータ
に含む文書データが存在するか否か、すなわち、候補文
書が存在するか否かが調べられる。条件が満たされなか
った(候補文書が存在しない)場合には処理はステップ
S5に、また、条件が満たされた(候補文書が存在する
)場合には処理はステップS6にそれぞれ移行する。(
ステップS4)。
見つからなかった旨を示すメッセージを表示装置2 の
表示画面上に表示した後、処理をステップS2に戻して
ユーザに新たなキーワードを入力させ、上記処理を繰り
返す。
示部5gが起動され、候補文書一覧表示部5gは候補文
書格納バッファ5lに格納されている各文書データのテ
キストデータ部の内容を参照して、文書ごとに候補文書
一覧の要素としてその文書内容表現を表示する。文書内
容表現は文字列から構成されており、各文書内容表現は
後の処理のために表示装置2 の画面上の矩形領域の内
部に格納し、この矩形の輪郭を表示する。このステップ
S6は、ステップS61 〜S65 の5ステップから
なっており、以下、ステップS6における処理について
詳述する。
れている文書データのテキストデータ部の内容を参照し
て、キーワード格納バッファ5iに格納されている、キ
ーワードを含む文字列からなる箇所を抽出して文字列格
納バッファ5nに格納する。ここで、抽出される単位は
文、つまりテキストデータ中で句点(「。」)で区切ら
れる単位である。なお、一つの候補文書データのテキス
ト部にキーワードを含む箇所が複数存在した場合には、
その最初に出現したものを採用する。候補文書格納バッ
ファ5lに格納されている図5に示す原テキスト10か
ら、キーワードとして「ワークステーション」という語
で抽出した文字列11の例を図6に示す。この抽出結果
は、文字列格納バッファ5nに格納される。(ステップ
S61 )。
れている抽出された文字列に対して構文解析を行なう。 すなわち、まず抽出された文字列11を、図7に示すよ
うに、主語、述語、目的語、補語、および修飾語に分解
し、リスト形式データである構文木情報を得る。得られ
た構文木情報を構文木格納バッファ5pに格納する。図
6に示す抽出された文字列11に対し構文解釈を行なっ
た結果、構文木格納バッファ5pに格納される構文木情
報12内容の例を図7に示す。(ステップS62 )。
格納後、構文木格納バッファ5p中の構文木情報が参照
され、構文木における主種動詞およびこの主動詞に直結
する各語句が取り出されて、これらを結合した文骨格デ
ータ13が生成される。生成された文骨格データは文骨
格データ格納バッファ5qに格納される。図7に示す構
文木情報から生成され文骨格データ格納バッファ5qに
格納される文骨格データ13の例を図8に示す。このよ
うにして生成された文骨格データは候補文書データから
抽出された文字列に比べ、短く表現され、簡略化された
文となる。 (ステップS63 )。
内容の文字列が表示装置2 の画面上の矩形領域の内部
に候補文書の文書内容表現として表示され、この矩形の
輪郭が表示される。(ステップS64 、ステップS6
5)。
が起動されると、ステップS61 〜ステップS65
の処理を候補文書格納バッファ5lに格納されている全
ての文書データに対して各文書データごとに実行する。 画面上において、各文書に対応する文書内容表現を表示
する順序は、候補文書文書格納バッファ5lに格納され
ている順序に従って行なわれる。このようにして表示装
置2 の画面上に表示された候補文書の一覧14の例を
図9に示す。
の処理が終了すると、文書選択部5hが起動される。文
書選択部5hが起動されると、入力装置1 のマウス1
bを介してユーザによる表示装置2 の画面上の位置入
力が行なわれる。ここで、ユーザによって指定された位
置が、ステップS1で表示されたアイコンと同様の終了
コマンドを表すアイコンの内部であれば、一連の検索処
理が終了する。 (ステップS7、ステップS8)。
図9に示す文書内容表現を含む画面上の矩形領域の内部
であれば、その矩形が画面上で何番目のものかが調べら
れ、対応する文書データが候補文書格納バッファ5lか
ら読み出されるとともに文書表示部5iが起動される。 文書表示部5iが起動されると、読み出された文書デー
タを構成するテキストデータおよびイメージデータなど
が画面上に表示される。文書データの表示処理が終わる
と、制御はステップS7に戻り、新たな文書データを表
示すべく、候補文書一覧に表示されている文書の選択が
再度行なわれる。なお、ユーザによって指定された位置
が、文書内容表現を含む画面上の矩形領域の外側である
場合には、ユーザに正しい位置を指定させるために、ス
テップS7に戻り、再度位置入力が行なわれる。(ステ
ップS9、ステップS10 )。
する際、一文単位で構文解析を行ないこれを候補文書一
覧の要素としたが、これに限ることはなく、一つの段落
に含まれる複数の文に構文解析を行ない、その結果をひ
とまとめにして候補文書一覧の要素としてもよい。
文書一覧の要素として文骨格データを表示するようにし
たが、これに限ることはなく、他の文章解析処理により
解析された解析データを表示するようにしてもよい。例
えば、文字列格納バッファ5nに格納されているキーワ
ードを含む文字列に対して形態素解析を実行し、該当す
るキーワードおよびその前後の一定語数、例えば2語ま
で含む領域を抽出する。このとき、付属語(例えば、の
、を、に等)は語数としてカウントせず、また、対象と
なる文字列中で該当するキーワードの前方に上記条件を
満たす語が所定数以上存在しなかった場合には、抽出す
る文の先頭を対象とする文の先頭とする。図6に示す候
補文書データから抽出されたキーワードを含む文字列1
1に対して形態素解析を実行した文字列15の例を図1
0に示す。この例の場合にも、構文解析を実行した場合
と同様に、候補文書データから抽出された文字列に比べ
、キーワードを含んで簡略化された文となる。要するに
、キーワードを含む文字列、すなわち、候補文を簡略化
して短く表現された文に変換する文章解析処理方法であ
れば、いかなる文章解析方法であってもよい。
のではなく、本発明の要旨を逸脱しない範囲で種々変形
可能であることは勿論である。
装置によれば、キーワードを用いて検索して得た候補文
書の一覧表の要素として、テキスト中の指定されたキー
ワードを含む箇所を列挙表示する際に、簡略化された文
の骨格を表示することにより、一度に表示画面上に表示
できる候補文書の数を増加することができるので、画面
のスクロール操作などの回数を減少でき、操作性の向上
が図れる。
キスト中のキーワードを含む簡略化された文の骨格を表
示することにより、候補として与えられた文書が目的と
するものかどうかの判定を瞬時にかつ正確に行なうこと
ができ、その結果、文書データベース中から目的とする
ものを検索する際に要するユーザの労力を著しく削減す
ることが可能になるなどその実用的効果は多大である。
ブロック図である。
納形式を示した図である。
る。
る。
た図である。
示す図である。
タ格納装置(文書データ格納手段)5f…キーワードサ
ーチ部(キーワードサーチ手段)5g…候補文書一覧表
示部(文書一覧表示手段)5h…文書選択部(文書選択
手段) 5i…文書表示部(文書表示手段)
Claims (1)
- 【請求項1】 テキスト・データや図表データなどか
らなる文書データを格納する文書データ格納手段と、こ
の文書データ格納手段に格納されている文書データを検
索するキーワードを入力するキーワード入力手段と、こ
のキーワード入力手段から入力されたキーワードを含む
文書を上記文書データ格納手段の中から検索するキーワ
ードサーチ手段とを備えた文書検索装置において、上記
各文書データごとに上記キーワードサーチ手段によって
抽出された上記キーワードを含む候補文を格納する格納
手段と、この格納手段に格納されている候補文に対し文
章解析処理を施し上記キーワードを含む簡略化された文
を候補文書リストの要素として表示する候補文書一覧表
示手段と、この候補文書一覧表示手段で表示された文書
一覧における上記要素の一つを指定する文書選択手段と
、この文書選択手段で指定された文書に対応する文書デ
ータの内容を表示する文書表示手段とを具備したことを
特徴とする文書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3069319A JP3056810B2 (ja) | 1991-03-08 | 1991-03-08 | 文書検索方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3069319A JP3056810B2 (ja) | 1991-03-08 | 1991-03-08 | 文書検索方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04281558A true JPH04281558A (ja) | 1992-10-07 |
JP3056810B2 JP3056810B2 (ja) | 2000-06-26 |
Family
ID=13399119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3069319A Expired - Lifetime JP3056810B2 (ja) | 1991-03-08 | 1991-03-08 | 文書検索方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3056810B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207891A (ja) * | 1997-01-17 | 1998-08-07 | Fujitsu Ltd | 文書要約装置およびその方法 |
JPH10340271A (ja) * | 1997-06-09 | 1998-12-22 | Fuji Xerox Co Ltd | 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体 |
JP2006178978A (ja) * | 2004-12-21 | 2006-07-06 | Palo Alto Research Center Inc | ユーザ関心反映型検索結果指示子使用及び作成システム及び方法 |
-
1991
- 1991-03-08 JP JP3069319A patent/JP3056810B2/ja not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207891A (ja) * | 1997-01-17 | 1998-08-07 | Fujitsu Ltd | 文書要約装置およびその方法 |
JPH10340271A (ja) * | 1997-06-09 | 1998-12-22 | Fuji Xerox Co Ltd | 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体 |
JP2006178978A (ja) * | 2004-12-21 | 2006-07-06 | Palo Alto Research Center Inc | ユーザ関心反映型検索結果指示子使用及び作成システム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3056810B2 (ja) | 2000-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5982365A (en) | System and methods for interactively generating and testing help systems | |
JP2937520B2 (ja) | 文書検索装置 | |
JP2937521B2 (ja) | 文書検索装置 | |
EP0118187B1 (en) | Menu-based natural language understanding system | |
JPH0395673A (ja) | 文章間リンク設定方法およびその装置 | |
JP3056810B2 (ja) | 文書検索方法および装置 | |
JPH08287088A (ja) | 情報検索方法及びその装置 | |
JP2947686B2 (ja) | 翻訳支援システムにおける検索結果表示方式 | |
JP2785692B2 (ja) | 辞書検索表示装置 | |
JPH08137892A (ja) | 文書検索方法及び文書検索装置 | |
JP3710463B2 (ja) | 翻訳支援辞書装置 | |
JP3498635B2 (ja) | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 | |
JPH06195386A (ja) | データ検索装置 | |
JPH05257980A (ja) | 文書検索装置 | |
JP2004334690A (ja) | 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体 | |
JPH05181912A (ja) | 文書検索装置 | |
JP3537260B2 (ja) | リンク付文書検索表示システム | |
JPH08153112A (ja) | 文書作成装置及び文書作成方法 | |
JPH06208584A (ja) | 文書検索装置 | |
JPH04169971A (ja) | 文書検索装置 | |
JPS63262750A (ja) | デ−タ入力方式 | |
JPH08115336A (ja) | マルチメディア処理装置 | |
JPH08297659A (ja) | 文字列変換処理方式 | |
JPH0528129A (ja) | 文書作成装置 | |
JPH0256673A (ja) | 仮名漢字変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080414 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090414 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090414 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100414 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100414 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110414 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term |