JP3422350B2 - 追加検索語候補提示方法、文書検索方法およびそれらの装置 - Google Patents

追加検索語候補提示方法、文書検索方法およびそれらの装置

Info

Publication number
JP3422350B2
JP3422350B2 JP04838596A JP4838596A JP3422350B2 JP 3422350 B2 JP3422350 B2 JP 3422350B2 JP 04838596 A JP04838596 A JP 04838596A JP 4838596 A JP4838596 A JP 4838596A JP 3422350 B2 JP3422350 B2 JP 3422350B2
Authority
JP
Japan
Prior art keywords
word
search
occurrence
document
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04838596A
Other languages
English (en)
Other versions
JPH09218881A (ja
Inventor
孝史 井上
一男 田中
敦 竹下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP04838596A priority Critical patent/JP3422350B2/ja
Publication of JPH09218881A publication Critical patent/JPH09218881A/ja
Application granted granted Critical
Publication of JP3422350B2 publication Critical patent/JP3422350B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、所定の文書をデー
タベースに登録し、所定の検索語が含まれる文書等を上
記データベースから取り出す場合における追加検索語候
補提示方法、文書検索方法およびそれらの装置に関する
ものである。
【0002】
【従来の技術】全文検索とは、1つの文書の全体を登録
対象として、複数の文書をデータベースに予め登録し、
ユーザが与えた検索条件に関連する文書をそのデータベ
ースから取り出す技術である。検索条件は、たとえば
「通信」のように1つの検索語だけに関連する文書、
「通信AND計算機」のように「通信」と「計算機」と
の両方の検索語に関連する文書、「通信OR計算機」の
ようにいずれかの検索語に関連する文書も受諾されるこ
とが多い。
【0003】ここで、「所定の検索条件に関連する文
書」とは、「所定の検索語が含まれる文書」とほぼ同義
であり、「所定の検索語と同一の単語が含まれる文書」
以外に、「所定の検索語と同義の単語が含まれる文
書」、「所定の検索語と送りがなのみが異なる単語が含
まれる文書」も含まれる。
【0004】図17は、従来の一般的な検索方法を示す
フローチャートである。
【0005】図17に示すフローチャートにおいて、ま
ず、ユーザが1つの検索語を与えて検索し(S1)、そ
の検索結果がディスプレイに表示され(S2)、この検
索結果に応じて、ユーザが新たな検索語を考え、この考
えた新たな検索語を追加することによって検索条件を変
更し(S3)、再度検索する(S4)。
【0006】たとえば、最初「通信」という語を検索条
件として検索したときに、この検索の結果、希望する文
書数よりも多くの文書が検索された場合、「通信AND
計算機」等のように検索条件を変更して検索条件を絞り
込む。
【0007】
【発明が解決しようとする課題】従来の全文検索方法に
おいては、最初の検索結果に対して、ユーザが、AND
条件で検索語を追加することによって検索条件を変更す
る場合、どの検索語を新たに追加すればよいかという明
確な指針が存在しない。したがって、ユーザは、経験と
直感とに頼って新たな検索語を決め、この決められた検
索語を追加して再検索するが、このようにして再検索し
ても、以前の検索結果とほとんど変化がなかったり、ま
たは逆に、必要以上に検索結果が少なくなる(典型的に
は空になる)等、適切な結果が得られないことが多い。
【0008】従来方法においては、検索条件の変更が試
行錯誤で何度も行なわれることになり、結局、検索効率
が悪いという問題がある。この問題は、文書の一部を検
索対象とした場合、文書のキーワードのみを検索対象と
した場合のように、全文検索以外の検索の場合も同様に
生じる問題である。
【0009】本発明は、再検索によって適切な検索結果
を得ることができ、したがって、ユーザは、本当に必要
な情報を短時間にしかも容易に取得することができる追
加検索語候補提示方法、文書検索方法およびそれらの装
置を提供することを目的とするものである。
【0010】
【課題を解決するための手段】本発明は、所定の文書を
データベースに登録し、所定の検索条件に関連する文書
を上記データベースから取り出す場合、データベース中
の全文書に存在する単語をピックアップし、このピック
アップされた単語中の所定の単語と、上記所定の単語と
ともに同一の文書に存在する単語である共起単語と、上
記共起単語が上記所定の単語とともに存在する文書の数
である共起文書数とが対応する共起表を、検索前に作成
し、所定の検索条件を用いた検索によって得られた文書
中に存在する各単語について、対応する共起単語と共起
文書数とを上記共起表から取り出し、次回の検索時に追
加すべき新たな検索語の候補として、上記ピックアップ
された共起単語を提示するものである。
【0011】
【発明の実施の形態および実施例】図1は、本発明の一
実施例である追加検索語候補提示装置PS1を示すブロ
ック図である。
【0012】追加検索語候補提示装置PS1は、制御部
10と、検索語用メモリ11と、出現単語表用メモリ1
2と、追加検索語候補提示手段20とを有する。追加検
索語候補提示手段20は、出現単語順位付け部21と、
追加検索語候補選択部22と、追加検索語候補提示部2
3とを有する。
【0013】追加検索語候補提示装置PS1は、全文検
索の対象になる文書全体をデータベースに登録し、所定
の検索条件に関連する文書を上記データベースから取り
出す文書検索装置において、追加すべき検索語の候補を
提示する装置である。ここで、「所定の検索条件に関連
する文書」は、「所定の検索語と同一の単語が含まれる
文書」、「所定の検索語と同義の単語が含まれる文
書」、「所定の検索語と送りがなが異なる単語が含まれ
る文書」である。また、上記の場合、所定の検索語と
は、1つの検索語または複数の検索語のことである。
【0014】検索語用メモリ11は、所定の検索語を記
憶する記憶部であり、2回目以降の検索において、上記
所定の検索語を追加検索語とANDまたはORする場合
に、その所定の検索語を取り出すために記憶させるもの
である。出現単語表用メモリ12は、図2に示す出現単
語表T1を記憶する部分である。
【0015】制御部10は、所定の検索条件を用いた検
索によって得られた文書中に存在する単語をピックアッ
プする単語ピックアップ手段の例である。追加検索語候
補提示手段20は、次回の検索時に追加すべき新たな検
索語の候補として、上記ピックアップされた単語を提示
する追加検索語候補提示手段の例である。
【0016】図2は、上記実施例における出現単語表T
1の例を示す図である。
【0017】出現単語表T1は、ヒットした所定の文書
に存在する全ての単語をピックアッップし、このピック
アップされた各単語と、このピックアップされた各単語
が存在する文書(ヒットした所定の文書に限る)の数と
を対応させた表である。
【0018】つまり、所定の検索語に基づく検索によっ
てヒットした文書中に、「ネットワーク」、「システ
ム」等の単語が存在し、そのうちの「ネットワーク」と
いう単語が含まれるヒット文書が10個あり、「システ
ム」という単語が含まれるヒット文書が4つ存在してい
る例が図2に示されている。
【0019】なお、出現単語表T1に表示される単語
は、助詞、助動詞等の付属語を含まない自立語である。
【0020】追加検索語候補提示手段20は、所定の検
索語に対応する単語を追加検索語候補として提示する手
段であり、出現単語順位付け部21と、追加検索語候補
選択部22と、追加検索語候補提示部23とを有する。
【0021】出現単語順位付け部21は、出現単語を所
定の方法で順位付けする部分であり、追加検索語候補選
択部22は、この順位付けされた出現単語を所定の順序
で所定数選択する部分であり、追加検索語候補提示部2
3は、この追加検索語候補選択部22が選択した出現単
語を追加検索語候補として提示する部分である。
【0022】なお、追加検索語候補を提示する場合、そ
の追加検索語候補を追加したときに検索結果が空になら
ないという条件(第1の条件)と、その追加検索語候補
を追加したときの検索結果の文書数が適切に減少すると
いう条件(第2の条件)とを満たすものとする。
【0023】図3は、上記実施例において出現単語を順
位付けする場合に使用する関数の一例をグラフ化したも
のである。
【0024】図3に示すグラフにおいて、その横軸は、
(所定の出現単語に関する出現文書数)/(検索された
文書の数)であり、0〜1の値を取るものであり、その
縦軸は、追加検索語としての出現単語の評価を示す点数
であり、この点数が高い程、その出現単語の上記順位が
高くなるとする。
【0025】図4は、上記実施例において、順位付けさ
れた出現単語の例を示す図である。図4に示す例におい
て、出現単語「ファイル」、「システム」、「通信」、
「処理」、「ネットワーク」、……の順位は、それぞ
れ、1位、2位、3位、4位、5位、……である。
【0026】図5は、上記実施例において、追加検索語
候補選択部22によって選択された追加検索語候補の例
を示す図である。図5に示す例は、出現単語順位付け部
21によって順位付けられた追加検索語候補のうち、順
位1〜4位のものが選択されている。
【0027】次に、上記実施例の動作について説明す
る。
【0028】図6は、上記第1の実施例の動作を示すフ
ローチャートである。
【0029】まず、1つの単語が最初の検索語として入
力され(S1)、この検索語に対する検索が終わり、こ
の検索結果が表示されたが(S2)、ヒットした文書数
が多いので、ユーザはその結果に満足せず、新たな検索
語をANDで追加したいと考えたとする。ここで、従来
例では、ユーザが任意に思いつく単語を検索語として追
加することになるが、上記実施例においては、ユーザか
ら要求があると有効な追加検索語の候補が提示され(S
10)(または、ユーザからの要求がなくても自動的に
有効な追加検索語の候補が提示され)、ユーザはその中
から追加すべき検索語を任意に選択し(S20)、選択
した検索語を追加し(S3)、再検索する(S4)。
【0030】図7は、上記実施例における追加検索語候
補提示動作(S10)を具体的に示すフローチャートで
ある。
【0031】図7に示すフローチャートにおいて、ユー
ザからの追加検索語候補提示要求を制御部10が受ける
と(S11)、制御部10が出現単語表T1を作成する
(S12)。そして、その出現単語を取り出し、順位付
けする(S13)。順位づけの方法としては種々の方法
が考えられるが、出現文書数の少ないものから順位づけ
する方法(第1の方法)や、出現文書数が中程度のもの
を絞り込むことがより有効であるとして、図3に示すグ
ラフの関数に応じて、点数づけし(評価し)、その点数
の高いものから順位づけする方法(第2の方法)等が考
えられる。
【0032】このように順位づけされた出現単語の中か
ら、所定数の出現単語を絞って追加検索語候補とするよ
うな追加検索語候補選択を行なう(S14)。この場
合、適当な閾値を定め、この定められた閾値よりも低い
順位の出現単語を、追加検索語候補から除去する。
【0033】このようにして残った出現単語を追加検索
語候補として、出現文書数とともにユーザに提示する
(S15)。ユーザは、この中から追加検索語を任意に
選び出し、検索条件にAND条件として追加し(S
3)、再検索を行なう(S4)。
【0034】図8は、上記実施例における出現単語表T
1の作り方(S12)を示すフローチャートである。
【0035】まず、空の出現単語表T1を作成し(S2
1)、直前に設定した検索語(検索条件)でヒットした
文書の集合を文書群Sdとし(S22)、ヒット文書群
Sdから1つの文書Dを抜き出し(S24)、文書Dに
出現する(存在する)単語の集合を単語群Swとする
(S25)。ただし、単語群Sw中に同一の単語は1つ
のみ含むとする。そして、単語群Swから1つの単語W
を抜き出し(S27)、この単語Wが出現単語表T1の
出現単語欄に存在していなければ(S28)、出現単語
表T1の出現単語欄に単語Wを追加し、対応する出現文
書数の欄を「1」にする(S29)。単語Wが出現単語
表T1の出現単語欄に存在していれば(S28)、2つ
目以降の文書が検出されたのであるから、出現単語表T
1の出現単語欄に既に記載されている単語Wに対応する
出現文書数の欄の数字を1インクリメントする(S3
0)。
【0036】そして、単語群Swから当該単語Wを除去
し(S31)、単語群Swから次の単語Wを抜き出し
(S26、S27)、上記動作(S28〜S31)を実
行し、これらを繰り返し、単語群Swに単語Wが無くな
れば(S26)、ヒット文書群Sdから当該文書Dを取
り除く(S32)。その後、ヒット文書群Sdから次の
文書Dを抜き出し(S23、S24)、上記動作(S2
5〜S32)を実行し、これらを繰り返し、ヒット文書
群Sdに文書Dが無くなれば(S23)、リターンす
る。
【0037】次に、上記実施例をより具体的に説明す
る。
【0038】まず、ユーザは「計算機」という単語を最
初の検索語として検索を行ない、その検索された文書数
が当初の希望数よりも多かったとし、AND条件で新た
な検索語を追加するために、追加検索語候補提示要求を
出したとする。このときに、図2に示す出現単語表T1
が制御部10によって与えられ、「出現単語順位づけ方
法」として、「出現文書数の少ないものから順位づけす
る方法」を採用することとし、追加検索語候補選択部2
2の閾値として「4」を用いる(順位第4位までを抜き
出す)ものとする。
【0039】ここで、要求を受けた制御部10は、出現
単語表T1を調べ、結果として図5に示す順位づけされ
た出現単語を得る。
【0040】最後に、追加検索語候補選択部22におい
て、図5に示すように、順位の上位4個の出現単語が残
り、この上位4個の出現単語を追加検索語候補としてユ
ーザーに提示する。この場合、その候補を表示装置等に
表示することによって提示する。ユーザーは、提示され
た4個の追加検索語候補の中から適当なものを選び、こ
の選ばれた追加検索語を検索条件に追加し、再検索を行
なう。
【0041】上記実施例によれば、所定の検索語による
検索結果に応じて、AND条件で追加すべき有効な追加
検索語の候補を、ユーザに提示するようにしているの
で、ユーザ自身の勘に頼ることなく、ユーザがその中か
ら追加検索語を容易に選択でき、また、このようにして
選択された追加検索語を追加して検索するので、より適
切な文書を得ることができる。
【0042】なお、追加検索語候補提示手段20が、追
加検索語候補提示部23のみで構成されているものであ
るとしてもよく、この場合、追加検索語候補提示手段2
0は、所定の検索語に対応する出現単語を追加検索語候
補として提示する手段であり、順位付け、追加検索語の
選択を行わない。このようにしても、従来方法と比較す
ると、必要な情報を短時間にしかも容易に取得すること
ができる。
【0043】また、追加検索語候補提示手段20が、出
現単語順位付け部21と、追加検索語候補提示部23と
で構成され、追加検索語候補選択部22が削除されたも
のであるとしてもよく、この場合、追加検索語候補提示
手段20は、出現単語を所定の方法で順位付けする出現
単語順位付け部と、この順位付けされた出現単語を上記
順位とともに追加検索語候補として提示する追加検索語
候補提示部とで構成されている。このようにすれば、追
加検索語候補提示手段20が追加検索語候補提示部23
のみで構成されている場合よりも、2回目の検索が容易
になる。
【0044】上記実施例において、追加検索語選択22
は、提示された追加検索語候補から所望の追加検索語を
選択する追加検索語選択手段の例であり、制御部10
は、選択された追加検索語と所定の検索語とを用いて、
再び検索を行う再検索手段の例である。
【0045】また、制御部10は、単語ピックアップ手
段の例であるが、この単語ピックアップ手段は、所定の
検索条件に基づく検索によってヒットした所定の文書を
得た後に、上記ヒットした所定の文書中の1つの文書に
存在する所定の単語と、上記ヒットした所定の文書中の
他の文書に存在する単語とがともに存在する文書の数を
検出する手段である。
【0046】追加検索語候補提示装置PS1において
は、所定の検索語に基づく検索によって所定の文書を得
ており、1つの検索語を使用して検索しているが、2つ
以上の検索語を同時に使用して検索するようにしてもよ
く、つまり、所定の検索条件で検索するようにしてもよ
い。
【0047】図9は、本発明の他の実施例である追加検
索語候補提示装置PS2を示すブロック図である。
【0048】追加検索語候補提示装置PS2は、制御部
30と、検索語用メモリ31と、共起表用メモリ32
と、追加検索語候補提示手段40とを有する。追加検索
語候補提示手段40は、共起単語順位付け部41と、追
加検索語候補選択部42と、追加検索語候補提示部43
とを有する。
【0049】追加検索語候補提示装置PS2は、全文検
索の対象になる文書全体をデータベースに登録し、所定
の検索条件に関連する文書を上記データベースから取り
出す文書検索装置であり、基本的には、追加検索語候補
提示装置PSと同じであるが、出現単語表T1の代わり
に共起表T2を使用し、制御部10の代わりに制御部3
0を使用し、追加検索語候補提示手段20の代わりに、
追加検索語候補提示手段40を使用している点が異な
る。
【0050】また、共起表T2は、原則として、データ
ベース完成時に1回のみ作れば足りるものであり、検索
する度に作る必要はない(データベースを更新した場合
には共起表も更新する)。制御部30は、基本的には、
制御部10と同じであるが、出現単語表T1の代わりに
共起表T2を使用することに応じて動作が多少異なる。
また、追加検索語候補提示手段40も、基本的には、追
加検索語候補提示手段20と同じであるが、出現単語表
T1の代わりに共起表T2を使用することに応じて、そ
の構成、動作が多少異なる。検索語用メモリ31は、最
初の検索語を記憶する記憶部である。
【0051】制御部30は、単語ピックアップ手段の例
であり、この単語ピックアップ手段は、データベース中
の全文書に存在する単語をピックアップし、このピック
アップされた単語中の1つの単語と、このピックアップ
された単語中の1つの単語とともに同一の文書に存在す
る共起単語と、共起文書数とが対応する共起表を、検索
前に作成し、検索してヒットした文書中に存在する各単
語について、上記共起表から対応する共起単語と共起文
書数とを取り出す手段の例である。
【0052】さらに、共起単語順位付け部41は、ピッ
クアップされた単語が存在する文書の数に応じた所定の
基準によって、上記ピックアップされた単語を順位付け
て提示する手段の例であり、追加検索語候補提示部43
は、ピックアップされた単語と、このピックアップされ
た単語が存在する文書の数とを対応させて提示する手段
の例でありる。
【0053】ところで、「共起単語」は、データベース
中の全文書に存在する単語をピックアップし、このピッ
クアップされた単語中の1つの単語と、このピックアッ
プされた単語中の1つの単語とともに同一の文書に存在
する単語である。また、「共起文書数」は、ピックアッ
プされた単語中の1つの単語とともに共起単語が存在す
る文書の数である。「共起表」は、ピックアップされた
単語中の1つの単語と、その共起単語と、その共起文書
数とが対応している表である。
【0054】図10は、上記第2の実施例における共起
表T2の例を示す図である。
【0055】図10に示す共起表T2おいて、各行の左
端に示す「単語の欄」には、データベースに登録されて
いる文書中の単語が記載され、「単語の欄」の右に記載
されている「共起単語の欄」には、「単語の欄」に記載
されている単語と共起する単語(同一文書中に存在する
単語)が列挙されている。なお、「共起単語」の欄に記
載されている括弧中の数字は、共起単語が記載されてい
る文書の数である。また、「共起単語」として採用され
る単語は、助詞、助動詞等の付属語を含まない自立語で
ある。
【0056】つまり、データベースに登録されている文
書中には、「ファイル」、「計算機」、「処理」等の単
語が含まれ、たとえば「計算機」という単語と共起する
単語(共起単語)、すなわち、「計算機」という単語が
含まれる文書中に含まれる単語は、図10の例によれ
ば、「通信」、「ネットワーク」、「処理」、「ファイ
ル」等である。この場合、「通信」という単語が含まれ
る文書はデータベースに3つ登録され、「ネットワー
ク」という単語が含まれる文書はデータベースに10個
登録されている。
【0057】制御部30は、データベース完成時に共起
表T2を作成する部分であり、この作成した共起表を共
起表用メモリ32に記憶し、この共起表T2から、所定
の検索語に対応する共起単語を追加検索語として取得す
る部分である。たとえば、所定の検索語を「計算機」と
した場合、「通信」、「ネットワーク」、「処理」、
「ファイル」等の共起単語を追加検索語として取得す
る。
【0058】共起単語順位付け部41は、共起単語を所
定の方法で順位付けする部分であり、追加検索語候補選
択部42は、この順位付けされた共起単語を所定の順序
で所定数選択する部分であり、追加検索語候補提示部4
3は、この追加検索語候補選択部が選択した上記共起単
語を追加検索語候補として提示する部分である。
【0059】図11は、上記第2の実施例において共起
単語を順位付けする場合に使用する関数の一例をグラフ
化したものである。
【0060】図11に示すグラフにおいて、その横軸
は、(最初の検索語の共起単語が含まれる文書の数)/
(最初の検索によって得られた文書の数)であり、0〜
1の値を取るものであり、その縦軸は、追加検索語とし
ての共起単語の評価を示す点数であり、この点数が高い
程、その共起単語の上記順位が高くなるとする。
【0061】図12は、上記第2の実施例において、順
位付けされた共起単語の例を示す図である。図12に示
す例において、共起単語「ファイル」、「システム」、
「通信」、「処理」、「ネットワーク」、……の順位
は、それぞれ、1位、2位、3位、4位、5位、……で
ある。
【0062】図13は、上記第2の実施例において、追
加検索語候補選択部42によって選択された追加検索語
候補の例を示す図である。図13に示す例は、共起単語
順位付け部41によって順位付けられた追加検索語候補
のうち、順位1〜4位のものが選択されている。
【0063】次に、上記第2の実施例の動作について説
明する。
【0064】図14は、上記第2の実施例の動作を示す
フローチャートである。
【0065】まず、データベース完成時に共起表T2を
作成しておく(S0)。そして、検索時に、1つの単語
が最初の検索語として入力され(S1)、この検索語に
対する検索が終わり、この検索結果が表示されたが(S
2)、ヒットした文書数が多いので、ユーザはその結果
に満足せず、新たな検索語をANDで追加したいと考え
たとする。ここで、従来例では、ユーザが任意に思いつ
く単語を検索語として追加することになるが、上記第2
の実施例においては、ユーザから要求があると有効な追
加検索語の候補が提示され(S10a)(または、ユー
ザからの要求がなくても自動的に有効な追加検索語の候
補が提示され)、ユーザはその中から追加すべき検索語
を選択し(S20a)、選択した検索語を追加し(S
3)、再検索する(S4)。
【0066】図15は、上記第2の実施例における追加
検索語候補提示動作(S10a)を具体的に示すフロー
チャートである。
【0067】図15に示すフローチャートにおいて、ユ
ーザが追加検索語候補提示を制御部30に要求すると
(S11)、最初の検索語を検索語用メモリ31から取
り出し、この最初の検索語と共起する共起単語を、共起
表T2の対応する行から取り出し、このときに、共起単
語とともに共起する文書の数(共起単語が含まれる文書
の数)も取り出す(S12a)。
【0068】このときに取り出した共起単語が、追加検
索語の初期候補になる。つまり、最初の検索語とその取
り出した共起単語とをAND条件で追加検索した場合
に、その検索結果として得られる文書は、最初の検索語
と追加された共起単語との両方が同時に含まれている文
書であるので、第1の条件(その語を追加したときに検
索結果が空にならないという条件)を満たす共起単語
は、追加検索語の初期候補になり、しかも、その共起単
語は必ず第1の条件を満たす。また、共起表T2中の共
起文書の数は、その共起単語を最初の検索語とAND条
件で追加検索した場合に検索される文書数である。
【0069】そして、取り出された共起単語に順位づけ
を行なう(S13a)。順位づけの方法としては種々の
方法が考えられるが、共起文書数の少ないものから順位
づけする方法(第1の方法)や、共起文書数が中程度の
ものを絞り込むことがより有効であるとして、図11に
示すグラフの関数に応じて、点数づけし(評価し)、そ
の点数の高いものから順位づけする方法(第2の方法)
等が考えられる。
【0070】このように順位づけされた共起単語の中か
ら、所定数の共起単語を絞って追加検索語候補とするよ
うな追加検索語候補選択を行なう(S14a)。この場
合、適当な閾値を定め、この定められた閾値よりも低い
順位の共起単語を、追加検索語候補から除去する。
【0071】このようにして残った共起単語を追加検索
語候補として、共起文書数とともにユーザに提示する
(S15a)。ユーザは、この中から追加検索語を選び
出し、検索条件にAND条件として追加し(S3)、再
検索を行なう(S4)。
【0072】図16は、上記第2の実施例における共起
表T2の作り方(S0)を示すフローチャートである。
【0073】まず、空の共起表T2を作成し、テキスト
データベース中の文書の集合をSdとし(S41)、文
書群Sdから1つの文書Dを抜き出し(S43)、文書
Dに存在する全ての単語の集合を単語群Swとする(S
44)。ただし、単語群Sw中に同一の単語は1つのみ
含むとする。そして、単語群Swから1つの単語Wを抜
き出し(S46)、この単語Wが共起表T2の単語欄に
存在していなければ(S47)、共起表T2の単語欄に
単語Wを追加する(S48)。
【0074】そして、文書D中に存在する全ての単語の
集合を、共起単語検索用の単語群Scとする(S4
9)。ただし、単語群Sc中に同一の単語は1つのみ含
むとする。その後、単語群Scから1つの単語Wcを抜
き出し(S52)、単語Wcが共起表T2の単語Wに対
応する共起単語欄に存在しなければ(S53)、共起表
T2の単語Wに対応する共起単語の欄に単語Wcを追加
し、その共起文書の数を「1」にする(S54)。単語
Wcが共起表T2の単語Wに対応する共起単語欄に存在
すれば(S53)、単語Wcに対応する共起文書の数を
1インクリメントし(S55)、単語群Scから単語W
cを取り除き(S56)、単語群Scから次の単語Wc
を抜き出し(S51、S52)、上記動作(S53〜S
56)を実行し、これらを繰り返す。
【0075】そして、単語群Scに単語Wが無くなれば
(S51)、所定単語に関する共起単語を検索するため
の単語としての単語Wを単語群Swから取り除き(S5
7)、新たな単語について共起単語を検索するために、
単語群Swから次の単語Wを抜き出し(S46)、上記
動作(S47〜S56)を実行し、これらを繰り返す。
そして、Swが無くなれば(S45)、文書群Sdから
文書Dを取り除き(S58)、文書群Sdから次の文書
Dを抜き出し(S43)、上記動作(S44〜S56)
を繰り返し、文書群Sdに文書Dが無くなれば(S4
2)、リターンする。
【0076】次に、上記第2の実施例をより具体的に説
明する。
【0077】まず、ユーザは「計算機」という単語を最
初の検索語として検索を行ない、その検索された文書数
が当初の希望数よりも多かったとし、AND条件で新た
な検索語を追加するために、追加検索語候補提示要求を
出したとする。このときに、共起表用メモリ32に図1
0に示す共起表T2が記憶されているので、候補提示要
求を受けた制御部30は、検索語用メモリ31から最初
の検索語である「計算機」を取り出し、共起表T2を調
べ、「計算機」の右に書かれている共起単語を取り出
す。この例では「通信(5)」、「ネットワーク(1
O)」、「処理(8)」、「ファイル(3)」、「ソフ
トウェア(10)」、「システム(4)」等を取り出
す。なお、括弧内は共起文書の数である。
【0078】次に、共起単語順位づけ部41において、
制御部30で取り出した共起単語の順位づけを行う。順
位づけの方法として、「共起文書の少ないものから順位
づけする方法」を採用しているから、結果として図13
に示す順位づけされた共起単語を得る。
【0079】最後に、追加検索語候補選択部42におい
て、図13に示すように、順位の上位4個の共起単語が
残り、この上位4個の共起単語を追加検索語候補として
ユーザーに提示する。ユーザーは、提示された4個の追
加検索語候補の中から適当なものを選び、この選ばれた
追加検索語を検索条件に追加し、再検索を行なう。
【0080】上記第2の実施例によれば、所定の検索語
による検索結果に応じて、AND条件で追加すべき有効
な追加検索語の候補をユーザに提示するようにしている
ので、ユーザがその中から追加検索語を選んで追加する
ので、より適切な文書を得ることができ、しかも追加検
索語の選択が容易である。さらに、上記第2の実施例に
よれば、共起表T2がデータベース完成時に作成される
ので、検索の度に共起表T2を作成する必要がなく、こ
の作成時間だけ、追加検索語の候補を提示する準備時間
が短くなる。
【0081】上記第2の実施例においては、共起表T2
における「単語の欄」の1行に1つの単語のみが記載さ
れているが、その1行に2つ以上の単語を記載するよう
にしてもよい。この場合、共起表における「単語の欄」
の1行に2つ以上の単語が記載されている共起表を、デ
ータベース完成時に作成してもよく、また、検索時に作
成するようにしてもよい。
【0082】なお、上記各実施例において、再検索する
場合、選択された追加検索語と所定の検索語とを、AN
D条件で検索するようにしてもよく、また、選択された
追加検索語と所定の検索語とを、OR条件で検索するよ
うにしてもよい。このようにOR条件で検索できるよう
にすれば、最初の検索語(所定の検索語)による検索が
いわゆる絞り込み過ぎていた場合に、より適切な検索を
行うことができる。
【0083】また、上記各実施例を方法として把握する
と、所定の文書をデータベースに登録し、所定の検索条
件に関連する文書を上記データベースから取り出す文書
検索方法において、所定の検索条件を用いた検索によっ
て得られた文書中に存在する単語をピックアップする単
語ピックアップ段階と、次回の検索時に追加すべき新た
な検索語の候補として、上記ピックアップされた単語を
提示する追加検索語候補提示段階とを有する追加検索語
候補提示方法である。また、この方法において、上記提
示された追加検索語候補から所望の追加検索語を選択す
る追加検索語選択段階と、上記選択された追加検索語と
上記所定の検索条件とを用いて、再び検索を行う再検索
段階とを追加することによって、文書検索方法を構成す
るようにしてもよい。
【0084】また、上記各実施例は、文書の一部を検索
対象とした場合、文書のキーワードのみを検索対象とし
た場合等のように、全文検索する場合以外の検索にも適
用できるものである。
【0085】
【発明の効果】本発明によれば、所定の文書をデータベ
ースに登録し、所定の検索条件に関連する文書を上記デ
ータベースから取り出す場合、上記データベースの完成
時に、共起表が作成されているので、再検索する度に共
起表を新たに作成する必要がなく、この作成時間だけ、
追記検索語の候補を提示する準備時間が短くなるという
効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例である追加検索語候補提示装
置PS1を示すブロック図である。
【図2】上記実施例における出現単語表T1の例を示す
図である。
【図3】上記実施例において出現単語を順位付けする場
合に使用する関数の一例をグラフ化したものである。
【図4】上記実施例において、順位付けされた共起単語
の例を示す図である。
【図5】上記実施例において、追加検索語候補選択部2
2によって選択された追加検索語候補の例を示す図であ
る。
【図6】上記第1の実施例の動作を示すフローチャート
である。
【図7】上記実施例における追加検索語候補提示動作
(S10)を具体的に示すフローチャートである。
【図8】上記実施例における出現単語表T1の作り方
(S12)を示すフローチャートである。
【図9】本発明の他の実施例である追加検索語候補提示
装置PS2を示すブロック図である。
【図10】上記第2の実施例における共起表T2の例を
示す図である。
【図11】上記第2の実施例において共起単語を順位付
けする場合に使用する関数の一例をグラフ化したもので
ある。
【図12】上記第2の実施例において、順位付けされた
共起単語の例を示す図である。
【図13】上記第2の実施例において、追加検索語候補
選択部42によって選択された追加検索語候補の例を示
す図である。
【図14】上記第2の実施例の動作を示すフローチャー
トである。
【図15】上記第2の実施例における追加検索語候補提
示動作(S10a)を具体的に示すフローチャートであ
る。
【図16】上記第2の実施例における共起表T2の作り
方(S0)を示すフローチャートである。
【図17】従来の一般的な検索方法を示すフローチャー
トである。
【符号の説明】
PS1、PS2…追加検索語候補提示装置、 10、30…制御部、 11、31…検索語用メモリ、 12…出現単語表用メモリ、 20、40…追加検索語候補提示手段、 21…出現単語順位付け部、 22、42…追加検索語候補選択部、 23、43…追加検索語候補提示部、 32…共起表用メモリ、 41…共起単語順位付け部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−294964(JP,A) 特開 平7−192010(JP,A) 特開 平5−314182(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 所定の文書をデータベースに登録し、所
    定の検索条件に関連する文書を上記データベースから取
    り出す文書検索方法において、データベース中の全文書に存在する単語をピックアップ
    し、このピックアップされた単語中の所定の単語と、上
    記所定の単語とともに同一の文書に存在する単語である
    共起単語と、上記共起単語が上記所定の単語とともに存
    在する文書の数である共起文書数とが対応する共起表
    を、検索前に作成する共起表作成段階と; 所定の検索条件を用いた検索によって得られた文書中に
    存在する各単語について、対応する共起単語と共起文書
    数とを上記共起表から取り出す単語ピックアップ段階
    と; 次回の検索時に追加すべき新たな検索語の候補として、
    上記ピックアップされた共起単語を提示する追加検索語
    候補提示段階と; を有することを特徴とする追加検索語候補提示方法。
  2. 【請求項2】 請求項1において、 記提示された追加検索語候補から所望の追加検索語を
    選択する追加検索語選択段階と; 上記選択された追加検索語と上記所定の検索条件とを用
    いて、再び検索を行う再検索段階と; をさらに有することを特徴とする文書検索方法。
  3. 【請求項3】 請求項1または請求項2において、 追加検索語候補提示段階は、上記ピックアップされた共
    起単語と、このピックアップされた共起単語が存在する
    文書の数とを対応させて提示する段階である ことを特徴
    とする文書検索方法
  4. 【請求項4】 請求項1〜請求項3のいずれか1項にお
    いて、 追加検索語候補提示段階は、上記ピックアップされた共
    起単語が存在する文書の数に応じた所定の基準によっ
    て、上記ピックアップされた共起単語を順位付けて提示
    する段階である ことを特徴とする文書検索方法
  5. 【請求項5】 所定の文書をデータベースに登録し、所
    定の検索条件に関連する文書を上記データベースから取
    り出す文書検索装置において、 データベース中の全文書に存在する単語をピックアップ
    し、このピックアップされた単語中の所定の単語と、上
    記所定の単語とともに同一の文書に存在する単語である
    共起単語と、上記共起単語が上記所定の単語とともに存
    在する文書の数である共起文書数とが対応する共起表
    を、検索前に作成する共起表作成手段と; 所定の検索条件を用いた検索によって得られた文書中に
    存在する各単語について、対応する共起単語と共起文書
    数とを上記共起表から取り出す単語ピックアップ手段
    と; 次回の検索時に追加すべき新たな検索語の候補として、
    上記ピックアップされた共起単語を提示する追加検索語
    候補提示手段と; を有することを特徴とする追加検索語候補提示装置
  6. 【請求項6】 請求項において、上記提示された追加検索語候補から所望の追加検索語を
    選択する追加検索語選択手段と; 上記選択された追加検索語と上記所定の検索条件とを用
    いて、再び検索を行う再建策手段と; をさらに有する ことを特徴とする文書検索装置。
  7. 【請求項7】 請求項または請求項において、 追加検索語候補提示手段は、上記ピックアップされた
    単語と、このピックアップされた共起単語が存在する
    文書の数とを対応させて提示する手段であることを特徴
    とする文書検索装置。
  8. 【請求項8】 請求項〜7のいずれか1項において、 追加検索語候補提示手段は、上記ピックアップされた
    単語が存在する文書の数に応じた所定の基準によっ
    て、上記ピックアップされた共起単語を順位付けて提示
    する手段であることを特徴とする文書検索装置。
  9. 【請求項9】 請求項において、 上記再検索手段は、上記選択された追加検索語と上記所
    定の検索語とを、AND条件またはOR条件で検索する
    手段であることを特徴とする文書検索装置。
JP04838596A 1996-02-09 1996-02-09 追加検索語候補提示方法、文書検索方法およびそれらの装置 Expired - Fee Related JP3422350B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04838596A JP3422350B2 (ja) 1996-02-09 1996-02-09 追加検索語候補提示方法、文書検索方法およびそれらの装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04838596A JP3422350B2 (ja) 1996-02-09 1996-02-09 追加検索語候補提示方法、文書検索方法およびそれらの装置

Publications (2)

Publication Number Publication Date
JPH09218881A JPH09218881A (ja) 1997-08-19
JP3422350B2 true JP3422350B2 (ja) 2003-06-30

Family

ID=12801847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04838596A Expired - Fee Related JP3422350B2 (ja) 1996-02-09 1996-02-09 追加検索語候補提示方法、文書検索方法およびそれらの装置

Country Status (1)

Country Link
JP (1) JP3422350B2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3643470B2 (ja) * 1997-09-05 2005-04-27 株式会社日立製作所 文書検索システムおよび文書検索支援方法
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
JP3760057B2 (ja) * 1998-11-19 2006-03-29 株式会社日立製作所 複数文書データベースを対象とした文書検索方法および文書検索サービス
JP3603721B2 (ja) * 1999-02-25 2004-12-22 日本電信電話株式会社 データ検索支援方法及び装置及びデータ検索支援プログラムを格納した記憶媒体
JP3379931B2 (ja) * 2000-02-01 2003-02-24 株式会社ジャストシステム 知識発見装置
JP4888677B2 (ja) * 2001-07-06 2012-02-29 独立行政法人情報通信研究機構 文書検索システム
JP2003316807A (ja) * 2002-04-23 2003-11-07 Communication Research Laboratory 情報検索装置及び情報検索ソフトウェアを格納した記憶媒体
JP2004054619A (ja) * 2002-07-19 2004-02-19 Nec Soft Ltd 文書検索システム、文書検索方法、および、文書検索プログラム
JP3760148B2 (ja) * 2002-09-17 2006-03-29 株式会社日立製作所 複数文書データベースを対象とした文書検索方法および文書検索サービス
JP4049317B2 (ja) 2003-05-14 2008-02-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索支援装置およびプログラム
US7917480B2 (en) 2004-08-13 2011-03-29 Google Inc. Document compression system and method for use with tokenspace repository
US8407239B2 (en) * 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
GB0423879D0 (en) 2004-10-28 2004-12-01 Koninkl Philips Electronics Nv Data processing system and method
JP4689401B2 (ja) * 2005-08-05 2011-05-25 本田技研工業株式会社 情報検索装置
JP4894510B2 (ja) * 2006-12-27 2012-03-14 富士通株式会社 文献検索プログラム、文献検索装置、文献検索方法
JP2009069874A (ja) * 2007-09-10 2009-04-02 Sharp Corp コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体
JP5161658B2 (ja) 2008-05-30 2013-03-13 株式会社東芝 キーワード入力支援装置、キーワード入力支援方法及びプログラム
JP5380989B2 (ja) * 2008-09-30 2014-01-08 カシオ計算機株式会社 辞書機能を備えた電子装置およびプログラム
JP5208229B2 (ja) * 2011-02-16 2013-06-12 ヤフー株式会社 検索サジェスト装置及び方法
JP2013003796A (ja) * 2011-06-15 2013-01-07 Navitime Japan Co Ltd 施設情報提供装置、施設情報提供システム、サーバ装置、端末装置、施設情報提供方法、およびプログラム
US20130246392A1 (en) * 2012-03-14 2013-09-19 Inago Inc. Conversational System and Method of Searching for Information
JP5727415B2 (ja) * 2012-05-17 2015-06-03 日本電信電話株式会社 文書検索用関連語発見装置及び方法及びプログラム
JP6079207B2 (ja) * 2012-12-18 2017-02-15 富士通株式会社 キーワード提示プログラム、キーワード提示方法及びキーワード提示装置
JP6520052B2 (ja) * 2014-11-06 2019-05-29 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2019066979A (ja) * 2017-09-29 2019-04-25 キヤノンマーケティングジャパン株式会社 検索装置、その制御方法、及びプログラム、並びに、検索システム、その制御方法、及びプログラム
WO2020005986A1 (en) * 2018-06-25 2020-01-02 Diffeo, Inc. Systems and method for investigating relationships among entities
JP7172187B2 (ja) * 2018-06-29 2022-11-16 富士通株式会社 情報表示方法、情報表示プログラムおよび情報表示装置
JP2020123134A (ja) * 2019-01-30 2020-08-13 富士通株式会社 抽出方法,情報処理装置および抽出プログラム
JP6739584B1 (ja) * 2019-04-22 2020-08-12 株式会社プレシジョン 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03294964A (ja) * 1990-04-12 1991-12-26 Ricoh Co Ltd 文書検索方法
JP3219840B2 (ja) * 1992-05-13 2001-10-15 富士通株式会社 情報検索装置
JPH07192010A (ja) * 1993-12-27 1995-07-28 Canon Inc 文書処理装置

Also Published As

Publication number Publication date
JPH09218881A (ja) 1997-08-19

Similar Documents

Publication Publication Date Title
JP3422350B2 (ja) 追加検索語候補提示方法、文書検索方法およびそれらの装置
US7096218B2 (en) Search refinement graphical user interface
JP5740029B2 (ja) 対話型サーチクエリーを改良するためのシステム及び方法
US5696963A (en) System, method and computer program product for searching through an individual document and a group of documents
US6567805B1 (en) Interactive automated response system
US6691107B1 (en) Method and system for improving a text search
US9245004B1 (en) Predicted query generation from partial search query input
US7519595B2 (en) Method and system for adaptive categorial presentation of search results
US8209314B2 (en) Search criteria control system and method
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US6807544B1 (en) Method and system for information retrieval based on parts of speech conditions
US20090125504A1 (en) Systems and methods for visualizing web page query results
JPH11102376A (ja) 検索照会に関係のあるデータベースから抽出されたテキストを自動表示する方法および装置
JPH11203294A (ja) 情報検索システム、装置、方法及び記録媒体
JP2001216316A (ja) 電子マニュアル検索システム、方法、及び記録媒体
JP2000090111A (ja) 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4375626B2 (ja) カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法
JP2002230037A (ja) 検索システム、方法及びプログラム
JP3994188B2 (ja) マルチメディアデータ検索システム、マルチメディア検索方法および該検索方法を実現するためのプログラム
JP2001167096A (ja) 文書検索システム、文書検索方法及びその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4860439B2 (ja) 質問文の自動生成システム
JPH11272709A (ja) ファイル検索方式
JPH11154164A (ja) 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
JP2812357B2 (ja) データベース検索システム
JP2006092251A (ja) キーワード付与支援装置及びキーワード付与支援方法、キーワード付与支援プログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees