JPH11213008A - テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法 - Google Patents

テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法

Info

Publication number
JPH11213008A
JPH11213008A JP10029026A JP2902698A JPH11213008A JP H11213008 A JPH11213008 A JP H11213008A JP 10029026 A JP10029026 A JP 10029026A JP 2902698 A JP2902698 A JP 2902698A JP H11213008 A JPH11213008 A JP H11213008A
Authority
JP
Japan
Prior art keywords
holding
search
common url
url
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10029026A
Other languages
English (en)
Inventor
Noriko Otani
紀子 大谷
Shiro Ito
史朗 伊藤
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP10029026A priority Critical patent/JPH11213008A/ja
Publication of JPH11213008A publication Critical patent/JPH11213008A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 WWW上のテキスト等を対象とした検索にお
いて、同系統のテキストをまとめて見ることのできるテ
キスト検索装置を提供する。 【解決手段】 被検索テキスト保持部101に保持され
ている被検索テキストから、検索キー保持部102に保
持されている検索文字列に一致する文字列を検索部10
3により検索し、共通URL候補抽出部105により、
検索結果保持部104に保持されている検索結果のUR
Lから共通URLの候補を抽出して共通URLリストを
作成し、グルーピング部107により共通URL候補保
持部106を参照して、URLのグルーピングを行な
う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索対象文書から
検索キーに対応した文書を提示するテキスト検索装置及
びテキスト検索方法と、検索結果をURLでグルーピン
グするURLグルーピング装置及びURLグルーピング
方法に関する。
【0002】
【従来の技術】一般に、テキスト検索装置では、検索対
象文書から与えられた検索キーを含む文書を検索結果と
して提示する。さらに、検索結果には、検索条件に対す
る適合度によってスコアが付けられ、スコア順に整列さ
れて提示される。ユーザはスコアの高い方から検索結果
を見ることで、目的の文書が見つけやすくなっている。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来のテキスト検索装置では、例えばインターネットのW
WW(World Wide Web)上のテキストを
対象とする検索において、単に検索条件に対する適合度
で整列されるので、同じディレクトリに置かれている同
系統のテキストをまとめて見ることができないという問
題があった。
【0004】すなわち、WWW上のテキストには、UR
L(Universal Resource Loca
tor)が付けられているが、このURLには、各テキ
ストファイルの置かれているディレクトリ構造が反映さ
れている。図9に示すように、9件の検索結果が適合度
順に並んでいると、同系統のテキストが離れて提示され
ているので、目的の文書を見付けにくいことがあった。
【0005】本発明は上記従来の問題点に鑑み、検索結
果において、同系統のテキストをまとめて見ることので
きるテキスト検索装置及びテキスト検索方法を提供する
ことを目的とする。また、簡単かつ的確に検索結果をU
RLでグルーピングすることができるURLグルーピン
グ装置及びURLグルーピング方法を提供することを目
的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、第1の発明は、被検索テキストから検索文字列に一
致する文字列を検索する検索手段と、前記検索手段の検
索結果のURLを参照して共通URLの候補を抽出し、
共通URLリストを作成する共通URL候補抽出手段
と、前記共通URLリストを参照して、URLのグルー
ピングを行なうグルーピング手段と、前記グルーピング
手段により作成された共通URLリストを出力するグル
ーピング結果提示手段とを備えたものである。
【0007】第2の発明は、被検索テキストを保持する
被検索テキスト保持手段と、検索を行なう文字列を保持
する検索キー保持手段と、前記被検索テキスト保持手段
に保持されている被検索テキストから、前記検索キー保
持手段に保持されている検索文字列に一致する文字列を
検索する検索手段と、前記検索手段により検索された検
索結果を保持する検索結果保持手段と、前記検索結果保
持手段に保持されている検索結果のURLを参照して共
通URLの候補を抽出し、共通URLリストを作成する
共通URL候補抽出手段と、前記共通URL候補抽出手
段により作成された共通URLリストを保持する共通U
RL候補保持手段と、前記共通URL候補保持手段に保
持されている共通URLリストを参照して、URLのグ
ルーピングを行なうグルーピング手段と、前記グルーピ
ング手段により作成された共通URLリストを保持する
グルーピング結果保持手段と、前記グルーピング結果保
持手段に保持されている共通URLリストを出力する共
通URLリスト提示手段とを備えたものである。
【0008】第3の発明は、被検索テキストから検索文
字列に一致する文字列を検索した結果を保持する検索結
果保持手段と、前記検索結果保持手段に保持されている
検索結果のURLを参照して、共通URLの候補を抽出
し、共通URLリストを作成する共通URL候補抽出手
段と、前記共通URL候補抽出手段により作成された共
通URLリストを保持する共通URL候補保持手段と、
前記共通URL候補保持手段に保持されている共通UR
Lリストを参照して、URLのグルーピングを行なうグ
ルーピング手段とを備えたものである。
【0009】第4の発明は、被検索テキストを保持する
被検索テキスト保持手段と、前記被検索テキスト保持手
段に保持されている被検索テキストに対してインデック
スを作成するインデックス作成手段と、前記インデック
ス作成手段で作成したインデックスを保持するインデッ
クス保持手段と、検索を行なう文字列を保持する検索キ
ー保持手段と、前記インデックス保持手段に保持されて
いるインデックスにより、前記検索キー保持手段に保持
されている検索文字列に一致する文字列を検索する検索
手段と、前記検索手段により検索された検索結果を保持
する検索結果保持手段と、前記検索結果保持手段に保持
されている検索結果のURLを参照して、共通URLの
候補を抽出して共通URLリストを作成する共通URL
候補抽出手段と、前記共通URL候補抽出手段により作
成された共通URLリストを保持する共通URL候補保
持手段と、前記共通URL候補保持手段に保持されてい
る共通URLリストを参照して、URLのグルーピング
を行なうグルーピング手段と、前記グルーピング手段に
より作成された共通URLリストを保持するグルーピン
グ結果保持手段と、前記グルーピング結果保持手段に保
持されている共通URLリストを出力する共通URLリ
スト提示手段とを備えたものである。
【0010】第5の発明は、被検索テキストから検索文
字列に一致する文字列を検索する検索行程と、前記検索
行程の検索結果のURLを参照して共通URLの候補を
抽出し、共通URLリストを作成する共通URL候補抽
出行程と、前記共通URLリストを参照して、URLの
グルーピングを行なうグルーピング行程と、前記グルー
ピング行程により作成された共通URLリストを出力す
るグルーピング結果提示行程とを実行するものである。
【0011】第6の発明は、被検索テキストを保持する
被検索テキスト保持行程と、検索を行なう文字列を保持
する検索キー保持行程と、前記被検索テキスト保持行程
に保持されている被検索テキストから、前記検索キー保
持行程に保持されている検索文字列に一致する文字列を
検索する検索行程と、前記検索行程により検索された検
索結果を保持する検索結果保持行程と、前記検索結果保
持行程に保持されている検索結果のURLを参照して共
通URLの候補を抽出し、共通URLリストを作成する
共通URL候補抽出行程と、前記共通URL候補抽出行
程により作成された共通URLリストを保持する共通U
RL候補保持行程と、前記共通URL候補保持行程に保
持されている共通URLリストを参照して、URLのグ
ルーピングを行なうグルーピング行程と、前記グルーピ
ング行程により作成された共通URLリストを保持する
グルーピング結果保持行程と、前記グルーピング結果保
持行程に保持されている共通URLリストを出力する共
通URLリスト提示行程とを実行するものである。
【0012】第7の発明は、被検索テキストから検索文
字列に一致する文字列を検索した結果を保持する検索結
果保持行程と、前記検索結果保持行程に保持されている
検索結果のURLを参照して、共通URLの候補を抽出
し、共通URLリストを作成する共通URL候補抽出行
程と、前記共通URL候補抽出行程により作成された共
通URLリストを保持する共通URL候補保持行程と、
前記共通URL候補保持行程に保持されている共通UR
Lリストを参照して、URLのグルーピングを行なうグ
ルーピング行程とを実行するものである。
【0013】第8の発明は、被検索テキストを保持する
被検索テキスト保持行程と、前記被検索テキスト保持行
程に保持されている被検索テキストに対してインデック
スを作成するインデックス作成行程と、前記インデック
ス作成行程で作成したインデックスを保持するインデッ
クス保持行程と、検索を行なう文字列を保持する検索キ
ー保持行程と、前記インデックス保持行程に保持されて
いるインデックスにより、前記検索キー保持行程に保持
されている検索文字列に一致する文字列を検索する検索
行程と、前記検索行程により検索された検索結果を保持
する検索結果保持行程と、前記検索結果保持行程に保持
されている検索結果のURLを参照して、共通URLの
候補を抽出して共通URLリストを作成する共通URL
候補抽出行程と、前記共通URL候補抽出行程により作
成された共通URLリストを保持する共通URL候補保
持行程と、前記共通URL候補保持行程に保持されてい
る共通URLリストを参照して、URLのグルーピング
を行なうグルーピング行程と、前記グルーピング行程に
より作成された共通URLリストを保持するグルーピン
グ結果保持行程と、前記グルーピング結果保持行程に保
持されている共通URLリストを出力する共通URLリ
スト提示行程とを備えたものである。
【0014】第9の発明は、被検索テキストから検索文
字列に一致する文字列を検索する検索行程と、前記検索
行程の検索結果のURLを参照して共通URLの候補を
抽出し、共通URLリストを作成する共通URL候補抽
出行程と、前記共通URLリストを参照して、URLの
グルーピングを行なうグルーピング行程と、前記グルー
ピング行程により作成された共通URLリストを出力す
るグルーピング結果提示行程とを含むプログラムを格納
したことを特徴とするコンピュータ読取り可能な記録媒
体。
【0015】第10の発明は、被検索テキストを保持す
る被検索テキスト保持行程と、検索を行なう文字列を保
持する検索キー保持行程と、前記被検索テキスト保持行
程に保持されている被検索テキストから、前記検索キー
保持行程に保持されている検索文字列に一致する文字列
を検索する検索行程と、前記検索行程により検索された
検索結果を保持する検索結果保持行程と、前記検索結果
保持行程に保持されている検索結果のURLを参照して
共通URLの候補を抽出し、共通URLリストを作成す
る共通URL候補抽出行程と、前記共通URL候補抽出
行程により作成された共通URLリストを保持する共通
URL候補保持行程と、前記共通URL候補保持行程に
保持されている共通URLリストを参照して、URLの
グルーピングを行なうグルーピング行程と、前記グルー
ピング行程により作成された共通URLリストを保持す
るグルーピング結果保持行程と、前記グルーピング結果
保持行程に保持されている共通URLリストを出力する
共通URLリスト提示行程とを含むプログラムを格納し
たものである。
【0016】第11の発明は、被検索テキストから検索
文字列に一致する文字列を検索した結果を保持する検索
結果保持行程と、前記検索結果保持行程に保持されてい
る検索結果のURLを参照して、共通URLの候補を抽
出し、共通URLリストを作成する共通URL候補抽出
行程と、前記共通URL候補抽出行程により作成された
共通URLリストを保持する共通URL候補保持行程
と、前記共通URL候補保持行程に保持されている共通
URLリストを参照して、URLのグルーピングを行な
うグルーピング行程とを含むプログラムを格納したもの
である。
【0017】第12の発明は、被検索テキストを保持す
る被検索テキスト保持行程と、前記被検索テキスト保持
行程に保持されている被検索テキストに対してインデッ
クスを作成するインデックス作成行程と、前記インデッ
クス作成行程で作成したインデックスを保持するインデ
ックス保持行程と、検索を行なう文字列を保持する検索
キー保持行程と、前記インデックス保持行程に保持され
ているインデックスにより、前記検索キー保持行程に保
持されている検索文字列に一致する文字列を検索する検
索行程と、前記検索行程により検索された検索結果を保
持する検索結果保持行程と、前記検索結果保持行程に保
持されている検索結果のURLを参照して、共通URL
の候補を抽出して共通URLリストを作成する共通UR
L候補抽出行程と、前記共通URL候補抽出行程により
作成された共通URLリストを保持する共通URL候補
保持行程と、前記共通URL候補保持行程に保持されて
いる共通URLリストを参照して、URLのグルーピン
グを行なうグルーピング行程と、前記グルーピング行程
により作成された共通URLリストを保持するグルーピ
ング結果保持行程と、前記グルーピング結果保持行程に
保持されている共通URLリストを出力する共通URL
リスト提示行程とを含むプログラムを格納したものであ
る。
【0018】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。
【0019】[第1実施形態]図1は、本発明の第1実
施形態のテキスト検索装置の機能構成を示すブロック図
である。
【0020】同図において、101は、被検索テキスト
を保持する被検索テキスト保持部である。102は、検
索を行なう文字列を保持する検索キー保持部である。1
03は検索部であり、被検索テキスト保持部101に保
持されている被検索テキストから、検索キー保持部10
2に保持されている検索文字列に一致する文字列を検索
する。
【0021】104は、検索部103により検索された
検索結果を保持する検索結果保持部である。105は共
通URL候補抽出部であり、検索結果保持部104に保
持されている検索結果のURLを参照して、共通URL
の候補を抽出し、共通URLリストを作成する。共通U
RLとは、検索結果をグルーピングしたときの各グルー
プに共通のURL部分文字列のことであり、URLに含
まれる各「/」までの部分文字列とURL全体が共通U
RLの候補として抽出される。図9の「1.」「2.」
「3.」のURLから共通URLの候補を抽出した時の
共通URLリストの例を図2に示す。
【0022】106は、共通URL候補抽出部105に
より作成された共通URLリストを保持する共通URL
候補保持部である。107は、共通URL候補保持部1
06を参照して、URLのグルーピングを行なうグルー
ピング部である。共通URLリストの要素のうち、頻度
が低いものは深さが1つ浅いものにマージし、各要素の
頻度が最低頻度以上になるように共通URLリストを変
更する。ただし、深さが1の要素は削除できないように
頻度を負の値にする。図9の「1.」〜「9.」のUR
Lをグルーピングした結果得られた共通URLリストの
例を図3に示す。
【0023】108は、グルーピング部107により作
成された共通URLリストを保持するグルーピング結果
保持部である。グルーピング結果保持部に保持された共
通URLリストの要素のうち、頻度が0,−1以外のも
のが共通URLとなる。これを基に図9の「1.」〜
「9.」をグルーピング表示した例を図4に示す。
【0024】図5は、本実施形態に係るテキスト検索装
置のハードウェア構成を示す図である。
【0025】同図において、201は後述する制御手順
を実現するプログラムを保持するROMである。202
はRAMであり、検索キー保持部102、検索結果保持
部104、共通URL候補保持部105、及びグルーピ
ング結果保持部108と、上記プログラムの動作に必要
な記憶領域とを提供する。
【0026】203は、ROM201に保持されている
プログラムに従って処理を行なう中央処理装置である。
204はディスク装置であり、被検索テキスト保持部1
01を実現する。205はバスであり、上記の各構成を
接続し、各構成間におけるデータの授受を可能とする。
【0027】次に、図6のフローチャートを参照して、
本実施形態のテキスト検索装置における処理手順を説明
する。
【0028】まず、ステップS301では、検索キーを
含む文書を検索する。そしてステップS302に移る。
ステップS302では、カウンタiの初期化を行なう。
カウンタiは、ステップS301で得られた検索結果の
結果番号を示すもので、これを0に初期化する。そして
ステップS303に移る。
【0029】ステップS303では、カウンタiが検索
結果数に達したか否かを判定して、達した場合はステッ
プS307に移る。達していない場合は、ステップS3
04に移る。ステップS304では、i番目の検索結果
のURLから、共通URL候補となる文字列を抽出す
る。そしてステップS305に移る。
【0030】ステップS305では、ステップS304
で抽出された共通URL候補のうち未登録のものを共通
URLリストに追加する。そしてステップS306に移
る。ステップS306では、カウンタiの値を1増や
す。そしてステップS303に戻る。
【0031】ステップS307では、カウンタjの初期
化を行なう。カウンタjは、現在処理の対象としている
共通URLの深さを示すもので、これを共通URLリス
トの最大の深さに初期化する。そしてステップS308
に移る。ステップS308では、カウンタjが1より大
きいか否かを判定して、大きい場合はステップS309
に移る。1以下の場合は、処理を終了する。
【0032】ステップS309では、ポインタpの初期
化を行なう。ポインタpは、共通URLリストの要素を
指すもので、これを共通URLリストの先頭を指すよう
に初期化する。そしてステップS310に移る。
【0033】ステップS310では、ポインタpが共通
URLリストの最後に達したか否かを判定して、達した
場合はステップS314に移る。達していない場合は、
ステップS311に移る。ステップS311では、ポイ
ンタpの指す要素の頻度が0より大きく最低頻度より小
さく、かつ深さがjと等しいか否かを判定して、条件を
満たしている場合はステップS312に移る。満たして
いない場合は、ステップS313に移る。
【0034】ステップS312では、ポインタpの指す
要素を深さが1つ浅い要素にマージする。そしてステッ
プS313に移る。ステップS313では、ポインタp
が次の要素を指すようにする。そしてステップS310
に戻る。ステップS314では、カウンタjの値を1減
らす。そしてステップS308に戻る。
【0035】以上に述べたように、検索結果のURLを
比較し、URLがあるところまで一致している検索結果
をグルーピングして提示することで、同系統のテキスト
をまとめて見ることのできるテキスト検索装置を実現す
ることができる。
【0036】[第2実施形態]上記第1実施形態におい
ては、検索とグルーピング処理を同一装置で行なう場合
について説明したが、これに限定されるものではない。
例えば、グルーピング処理だけを行なう装置であっても
よい。図7は、この場合を示す第2実施形態の基本的な
機能構成を示すブロック図である。
【0037】図7において、801は、グルーピング対
象となる検索結果を保持する検索結果保持部である。8
02は共通URL候補抽出部であり、検索結果保持部8
01に保持されている検索結果のURLを参照して共通
URLの候補を抽出し、共通URLリストを作成する。
803は、共通URL候補抽出部802により作成され
た共通URLリストを保持する共通URL候補保持部で
ある。804は、共通URL候補保持部803を参照し
て、URLのグルーピングを行なうグルーピング部であ
る。805は、グルーピング部804により作成された
共通URLリストを保持するグルーピング結果保持部で
ある。
【0038】検索結果保持部801に保持された検索結
果には、上記第1実施形態の手順で検索された検索結果
が、通信回線或いは可搬記録媒体等を介して提供され、
保持される。
【0039】[第3実施形態]上記第1実施形態では、
検索部が被検索テキストを直接検索するよう説明してい
るが、これに限定されるものではない。例えば、被検索
テキストからインデックスを作成し、インデックスを用
いて検索する装置であってもよい。図8はこの場合を示
す第3実施形態の基本的な機能構成を示すブロック図で
ある。
【0040】図8において、901は、被検索テキスト
を保持する被検索テキスト保持部である。902は、被
検索テキスト保持部901に保持されている被検索テキ
ストに対してして、検索を高速に行なうためのインデッ
クスを作成するインデックス作成部である。903は、
インデックス作成部902で作成したインデックスを保
持するインデックス保持部である。
【0041】904は、検索を行なう文字列を保持する
検索キー保持部である。905は検索部であり、インデ
ックス保持部903に保持されているインデックスを用
いて、検索キー保持部904に保持されている検索文字
列に一致する文字列を検索する。906は、検索部90
5により検索された検索結果を保持する検索結果保持部
である。907は共通URL候補抽出部であり、検索結
果保持部906に保持されている検索結果のURLを参
照して、共通URLの候補を抽出し、共通URLリスト
を作成する。
【0042】908は、共通URL候補抽出部907に
より作成された共通URLリストを保持する共通URL
候補保持部である。909は、共通URL候補保持部9
08を参照して、URLのグルーピングを行なうグルー
ピング部である。910は、グルーピング部909によ
り作成された共通URLリストを保持するグルーピング
結果保持部である。
【0043】なお、本発明は図示の実施形態に限定され
ず種々の変形が可能である。その変形例としては例えば
次のようなものがある。
【0044】(1)上記実施形態では、グルーピングす
る際の最低頻度を設定し、この値よりも頻度が大きいも
のを共通URLとするように説明しているが、この最低
頻度はユーザが指定できるようにしてもよい。
【0045】(2)上記実施形態では、共通URLの深
さが動的に変わるように説明しているが、共通URLの
深さを定め、それによりグルーピングを行なうようにし
ても良い。
【0046】(3)上記実施形態では、必ず検索結果を
グルーピングするように説明しているが、これに限定さ
れるものではなく、検索結果をグルーピングして提示す
るかしないかをユーザが指定するようにしてもよい。
【0047】(4)上記実施形態において示したグルー
ピング手法は処理の一例であり、他のアルゴリズムによ
る方法でグルーピングを行なってもよい。
【0048】(5)上記実施形態においては、検索キー
保持部102、検索結果保持部104、共通URL候補
保持部105、グルーピング結果保持部108をRAM
で、被検索テキスト保持部101をディスク装置で実現
する場合について説明したが、これに限定されるもので
はなく、任意の記憶媒体を用いて実現してもよい。
【0049】(6)上記第1実施形態においては、各部
を同一の計算機上で構成する場合について説明したが、
これに限定されるものではなく、ネットワーク上に分散
した計算機や処理装置などに分かれて各部を構成しても
よい。
【0050】(7)上記実施形態においては、プログラ
ムをROMに保持する場合について説明したが、これに
限定されるものではなく、任意の記憶媒体を用いて実現
してもよい。また、同様の動作をする回路で実現しても
よい。
【0051】(8)本発明は、複数の機器から構成され
るシステムに適用しても、1つの機器からなる装置に適
用してもよい。前述した実施形態の機能を実現するソフ
トウェアのプログラムコードを記録した記録媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ(またはCPUやMPU)が記録媒体に格
納されたプログラムコードを読み出し実行することによ
っても、達成されることは言うまでもない。この場合、
記録媒体から読み出されたプログラムコード自体が前述
した実施形態の機能を実現することになり、そのプログ
ラムコードを記録した記録媒体は本発明を構成すること
になる。
【0052】(9)プログラムコードを供給するための
記録媒体としては、例えば、フロッピーディスク、ハー
ドディスク、光ディスク、光磁気ディスク、CD−RO
M、CD−R、磁気テープ、不揮発性のメモリカード、
ROMなどを用いることができる。
【0053】(10)コンピュータが読み出したプログ
ラムコードを実行することにより、前述した実施形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼働しているOSなど
が実際の処理の一部または全部を行ない、その処理によ
って前述した実施形態の機能が実現される場合も合まれ
ることは言うまでもない。
【0054】(11)記録媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張ボー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書き込まれた後、そのプログラムコードの指
示に基づき、その機能拡張ボードや機能拡張ユニットに
備わるCPUなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施形態の機能が実現さ
れる場合も含まれることは言うまでもない。
【0055】
【発明の効果】以上詳述したように、第1、第2及び第
4の発明であるテキスト検索装置によれば、検索結果に
おいて同系続のテキストをまとめて見ることのできるテ
キスト検索を実現できる。
【0056】第5、第6及び第8の発明であるテキスト
検索方法によれば、上記第1、第2及び第4の発明と同
等の効果を奏する。
【0057】第9、第10及び第12の発明であるコン
ピュータ読み取り可能な記録媒体によれば、コンピュー
タによりプログラムを読み出して実行することにより上
記第1、第2及び第4の発明と同等の効果を奏する。
【0058】第3の発明であるURLグルーピング装置
によれば、簡単かつ的確に検索結果をURLでグルーピ
ングすることが可能になる。
【0059】第7の発明であるURLグルーピング方法
によれば、上記第3の発明と同等の効果を奏する。
【0060】第11の発明であるコンピュータ読み取り
可能な記録媒体によれば、コンピュータによりプログラ
ムを読み出して実行することにより上記第3の発明と同
等の効果を奏する。
【図面の簡単な説明】
【図1】本発明の第1実施形態のテキスト検索装置の機
能構成を示すブロック図である。
【図2】URLから共通URLの候補を抽出した時の共
通URLリストの例を示す図である。
【図3】URLをグルーピングした結果得られた共通U
RLリストの例を示す図である。
【図4】グルーピング表示した例を示す図である。
【図5】実施形態に係るテキスト検索装置のハードウェ
ア構成を示す図である。
【図6】実施形態のテキスト検索装置における処理手順
を示すフローチャートである。
【図7】本発明の第2実施形態の基本的な機能構成を示
すブロック図である。
【図8】本発明の第3実施形態の基本的な機能構成を示
すブロック図である。
【図9】従来の技術における検索結果の表示例を示す図
である。
【符号の説明】
101 被検索テキスト保持部 102 検索キー保持部 103 検索部 104 検索結果保持部 105 共通URL候補抽出部 106 共通URL候補保持部 107 グルーピング部 108 グルーピング結果保持部 801 検索結果保持部 802 共通URL候補抽出部 803 共通URL候補保持部 804 グルーピング部 805 グルーピング結果保持部 901 被検索テキスト保持部 902 インデックス作成部 903 インデックス保持部 904 検索キー保持部 905 検索部 906 検索結果保持部 907 共通URL候補抽出部 908 共通URL候補保持部 909 グルーピング部 910 グルーピング結果保持部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 被検索テキストから検索文字列に一致す
    る文字列を検索する検索手段と、 前記検索手段の検索結果のURLを参照して共通URL
    の候補を抽出し、共通URLリストを作成する共通UR
    L候補抽出手段と、 前記共通URLリストを参照して、URLのグルーピン
    グを行なうグルーピング手段と、 前記グルーピング手段により作成された共通URLリス
    トを出力するグルーピング結果提示手段とを備えたこと
    を特徴とするテキスト検索装置。
  2. 【請求項2】 被検索テキストを保持する被検索テキス
    ト保持手段と、 検索を行なう文字列を保持する検索キー保持手段と、 前記被検索テキスト保持手段に保持されている被検索テ
    キストから、前記検索キー保持手段に保持されている検
    索文字列に一致する文字列を検索する検索手段と、 前記検索手段により検索された検索結果を保持する検索
    結果保持手段と、 前記検索結果保持手段に保持されている検索結果のUR
    Lを参照して共通URLの候補を抽出し、共通URLリ
    ストを作成する共通URL候補抽出手段と、 前記共通URL候補抽出手段により作成された共通UR
    Lリストを保持する共通URL候補保持手段と、 前記共通URL候補保持手段に保持されている共通UR
    Lリストを参照して、URLのグルーピングを行なうグ
    ルーピング手段と、 前記グルーピング手段により作成された共通URLリス
    トを保持するグルーピング結果保持手段と、 前記グルーピング結果保持手段に保持されている共通U
    RLリストを出力する共通URLリスト提示手段とを備
    えたことを特徴とするテキスト検索装置。
  3. 【請求項3】 被検索テキストから検索文字列に一致す
    る文字列を検索した結果を保持する検索結果保持手段
    と、 前記検索結果保持手段に保持されている検索結果のUR
    Lを参照して、共通URLの候補を抽出し、共通URL
    リストを作成する共通URL候補抽出手段と、 前記共通URL候補抽出手段により作成された共通UR
    Lリストを保持する共通URL候補保持手段と、 前記共通URL候補保持手段に保持されている共通UR
    Lリストを参照して、URLのグルーピングを行なうグ
    ルーピング手段とを備えたことを特徴とするURLグル
    ーピング装置。
  4. 【請求項4】 被検索テキストを保持する被検索テキス
    ト保持手段と、 前記被検索テキスト保持手段に保持されている被検索テ
    キストに対してインデックスを作成するインデックス作
    成手段と、 前記インデックス作成手段で作成したインデックスを保
    持するインデックス保持手段と、 検索を行なう文字列を保持する検索キー保持手段と、 前記インデックス保持手段に保持されているインデック
    スにより、 前記検索キー保持手段に保持されている検索文字列に一
    致する文字列を検索する検索手段と、 前記検索手段により検索された検索結果を保持する検索
    結果保持手段と、 前記検索結果保持手段に保持されている検索結果のUR
    Lを参照して、共通URLの候補を抽出して共通URL
    リストを作成する共通URL候補抽出手段と、 前記共通URL候補抽出手段により作成された共通UR
    Lリストを保持する共通URL候補保持手段と、 前記共通URL候補保持手段に保持されている共通UR
    Lリストを参照して、URLのグルーピングを行なうグ
    ルーピング手段と、 前記グルーピング手段により作成された共通URLリス
    トを保持するグルーピング結果保持手段と、 前記グルーピング結果保持手段に保持されている共通U
    RLリストを出力する共通URLリスト提示手段とを備
    えたことを特徴とするテキスト検索装置。
  5. 【請求項5】 被検索テキストから検索文字列に一致す
    る文字列を検索する検索行程と、 前記検索行程の検索結果のURLを参照して共通URL
    の候補を抽出し、共通URLリストを作成する共通UR
    L候補抽出行程と、 前記共通URLリストを参照して、URLのグルーピン
    グを行なうグルーピング行程と、 前記グルーピング行程により作成された共通URLリス
    トを出力するグルーピング結果提示行程とを実行するこ
    とを特徴とするテキスト検索方法。
  6. 【請求項6】 被検索テキストを保持する被検索テキス
    ト保持行程と、 検索を行なう文字列を保持する検索キー保持行程と、 前記被検索テキスト保持行程に保持されている被検索テ
    キストから、前記検索キー保持行程に保持されている検
    索文字列に一致する文字列を検索する検索行程と、 前記検索行程により検索された検索結果を保持する検索
    結果保持行程と、 前記検索結果保持行程に保持されている検索結果のUR
    Lを参照して共通URLの候補を抽出し、共通URLリ
    ストを作成する共通URL候補抽出行程と、 前記共通URL候補抽出行程により作成された共通UR
    Lリストを保持する共通URL候補保持行程と、 前記共通URL候補保持行程に保持されている共通UR
    Lリストを参照して、URLのグルーピングを行なうグ
    ルーピング行程と、 前記グルーピング行程により作成された共通URLリス
    トを保持するグルーピング結果保持行程と、 前記グルーピング結果保持行程に保持されている共通U
    RLリストを出力する共通URLリスト提示行程とを実
    行することを特徴とするテキスト検索方法。
  7. 【請求項7】 被検索テキストから検索文字列に一致す
    る文字列を検索した結果を保持する検索結果保持行程
    と、 前記検索結果保持行程に保持されている検索結果のUR
    Lを参照して、共通URLの候補を抽出し、共通URL
    リストを作成する共通URL候補抽出行程と、 前記共通URL候補抽出行程により作成された共通UR
    Lリストを保持する共通URL候補保持行程と、 前記共通URL候補保持行程に保持されている共通UR
    Lリストを参照して、URLのグルーピングを行なうグ
    ルーピング行程とを実行することを特徴とするURLグ
    ルーピング方法。
  8. 【請求項8】 被検索テキストを保持する被検索テキス
    ト保持行程と、 前記被検索テキスト保持行程に保持されている被検索テ
    キストに対してインデックスを作成するインデックス作
    成行程と、 前記インデックス作成行程で作成したインデックスを保
    持するインデックス保持行程と、 検索を行なう文字列を保持する検索キー保持行程と、 前記インデックス保持行程に保持されているインデック
    スにより、前記検索キー保持行程に保持されている検索
    文字列に一致する文字列を検索する検索行程と、 前記検索行程により検索された検索結果を保持する検索
    結果保持行程と、 前記検索結果保持行程に保持されている検索結果のUR
    Lを参照して、共通URLの候補を抽出して共通URL
    リストを作成する共通URL候補抽出行程と、前記共通
    URL候補抽出行程により作成された共通URLリスト
    を保持する共通URL候補保持行程と、 前記共通URL候補保持行程に保持されている共通UR
    Lリストを参照して、URLのグルーピングを行なうグ
    ルーピング行程と、 前記グルーピング行程により作成された共通URLリス
    トを保持するグルーピング結果保持行程と、 前記グルーピング結果保持行程に保持されている共通U
    RLリストを出力する共通URLリスト提示行程とを備
    えたことを特徴とするテキスト検索方法。
  9. 【請求項9】 被検索テキストから検索文字列に一致す
    る文字列を検索する検索行程と、 前記検索行程の検索結果のURLを参照して共通URL
    の候補を抽出し、共通URLリストを作成する共通UR
    L候補抽出行程と、 前記共通URLリストを参照して、URLのグルーピン
    グを行なうグルーピング行程と、 前記グルーピング行程により作成された共通URLリス
    トを出力するグルーピング結果提示行程とを含むプログ
    ラムを格納したことを特徴とするコンピュータ読取り可
    能な記録媒体。
  10. 【請求項10】 被検索テキストを保持する被検索テキ
    スト保持行程と、 検索を行なう文字列を保持する検索キー保持行程と、 前記被検索テキスト保持行程に保持されている被検索テ
    キストから、前記検索キー保持行程に保持されている検
    索文字列に一致する文字列を検索する検索行程と、 前記検索行程により検索された検索結果を保持する検索
    結果保持行程と、 前記検索結果保持行程に保持されている検索結果のUR
    Lを参照して共通URLの候補を抽出し、共通URLリ
    ストを作成する共通URL候補抽出行程と、 前記共通URL候補抽出行程により作成された共通UR
    Lリストを保持する共通URL候補保持行程と、 前記共通URL候補保持行程に保持されている共通UR
    Lリストを参照して、URLのグルーピングを行なうグ
    ルーピング行程と、 前記グルーピング行程により作成された共通URLリス
    トを保持するグルーピング結果保持行程と、 前記グルーピング結果保持行程に保持されている共通U
    RLリストを出力する共通URLリスト提示行程とを含
    むプログラムを格納したことを特徴とするコンピュータ
    読取り可能な記録媒体。
  11. 【請求項11】 被検索テキストから検索文字列に一致
    する文字列を検索した結果を保持する検索結果保持行程
    と、 前記検索結果保持行程に保持されている検索結果のUR
    Lを参照して、共通URLの候補を抽出し、共通URL
    リストを作成する共通URL候補抽出行程と、 前記共通URL候補抽出行程により作成された共通UR
    Lリストを保持する共通URL候補保持行程と、 前記共通URL候補保持行程に保持されている共通UR
    Lリストを参照して、URLのグルーピングを行なうグ
    ルーピング行程とを含むプログラムを格納したことを特
    徴とするコンピュータ読取り可能な記録媒体。
  12. 【請求項12】 被検索テキストを保持する被検索テキ
    スト保持行程と、 前記被検索テキスト保持行程に保持されている被検索テ
    キストに対してインデックスを作成するインデックス作
    成行程と、 前記インデックス作成行程で作成したインデックスを保
    持するインデックス保持行程と、 検索を行なう文字列を保持する検索キー保持行程と、 前記インデックス保持行程に保持されているインデック
    スにより、前記検索キー保持行程に保持されている検索
    文字列に一致する文字列を検索する検索行程と、 前記検索行程により検索された検索結果を保持する検索
    結果保持行程と、 前記検索結果保持行程に保持されている検索結果のUR
    Lを参照して、共通URLの候補を抽出して共通URL
    リストを作成する共通URL候補抽出行程と、 前記共通URL候補抽出行程により作成された共通UR
    Lリストを保持する共通URL候補保持行程と、 前記共通URL候補保持行程に保持されている共通UR
    Lリストを参照して、URLのグルーピングを行なうグ
    ルーピング行程と、 前記グルーピング行程により作成された共通URLリス
    トを保持するグルーピング結果保持行程と、 前記グルーピング結果保持行程に保持されている共通U
    RLリストを出力する共通URLリスト提示行程とを含
    むプログラムを格納したことを特徴とするコンピュータ
    読取り可能な記録媒体。
JP10029026A 1998-01-28 1998-01-28 テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法 Pending JPH11213008A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10029026A JPH11213008A (ja) 1998-01-28 1998-01-28 テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10029026A JPH11213008A (ja) 1998-01-28 1998-01-28 テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法

Publications (1)

Publication Number Publication Date
JPH11213008A true JPH11213008A (ja) 1999-08-06

Family

ID=12264912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10029026A Pending JPH11213008A (ja) 1998-01-28 1998-01-28 テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法

Country Status (1)

Country Link
JP (1) JPH11213008A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010045876A (ko) * 1999-11-09 2001-06-05 박현호 원클릭 접속이 가능한 맞춤형 정보 채널접속 도구를이용한 인터넷 서비스 제공방법
KR20010111389A (ko) * 2000-06-08 2001-12-17 황재엽 홈페이지 검색시스템
KR20020043329A (ko) * 2000-12-02 2002-06-10 함경수 키워드 도메인 서비스 제공방법 및 시스템
KR100343854B1 (ko) * 1999-08-10 2002-07-20 주승철 분류도표형 정보 검색 시스템
KR100347255B1 (ko) * 1999-11-26 2002-08-07 지성민 웹 상에서 정보검색 지원을 위한 원거리 정찰 에이젼트시스템 및 그 구성 방법
USRE42262E1 (en) 1999-08-30 2011-03-29 Frederick Monocacy Llc Method and apparatus for representing and navigating search results

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100343854B1 (ko) * 1999-08-10 2002-07-20 주승철 분류도표형 정보 검색 시스템
USRE42262E1 (en) 1999-08-30 2011-03-29 Frederick Monocacy Llc Method and apparatus for representing and navigating search results
USRE44794E1 (en) 1999-08-30 2014-03-04 Frederick Monocacy Llc Method and apparatus for representing and navigating search results
KR20010045876A (ko) * 1999-11-09 2001-06-05 박현호 원클릭 접속이 가능한 맞춤형 정보 채널접속 도구를이용한 인터넷 서비스 제공방법
KR100347255B1 (ko) * 1999-11-26 2002-08-07 지성민 웹 상에서 정보검색 지원을 위한 원거리 정찰 에이젼트시스템 및 그 구성 방법
KR20010111389A (ko) * 2000-06-08 2001-12-17 황재엽 홈페이지 검색시스템
KR20020043329A (ko) * 2000-12-02 2002-06-10 함경수 키워드 도메인 서비스 제공방법 및 시스템

Similar Documents

Publication Publication Date Title
US11803596B2 (en) Efficient forward ranking in a search engine
US8577882B2 (en) Method and system for searching multilingual documents
WO2012071169A2 (en) Efficient forward ranking in a search engine
JP3220886B2 (ja) 文書検索方法および装置
Li et al. Interactive multimodal visual search on mobile device
US20080168049A1 (en) Automatic acquisition of a parallel corpus from a network
JP2004102803A (ja) 掲示板システム及び情報表示方法
JP4054428B2 (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JPH11213008A (ja) テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法
US20080033931A1 (en) Cap-sensitive text search for documents
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JPH10307835A (ja) 情報処理装置及びその方法
JP2004213091A (ja) 文書画像検索装置及びその方法、文書画像検索システム、プログラム
JP2000112990A (ja) テキスト検索装置、有効語頻度作成装置、テキスト検索方法、及び有効語頻度作成方法並びに記録媒体
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2002312401A (ja) 電子ファイリング装置及びその制御方法、記憶媒体並びにプログラム
JP3825829B2 (ja) 登録情報検索装置及びその方法
JP2006085381A (ja) 情報提示装置、情報提示方法およびプログラム
JP2001256228A (ja) Web検索サーバ、Web検索方法およびWeb検索プログラムを記録した記録媒体
JP2000276468A (ja) 特徴抽出装置及び方法、及びそのプログラムを記憶した記憶媒体
JPH1139334A (ja) 文書処理装置及び方法、及びそのプログラムを記憶した記憶媒体
JP2601139B2 (ja) 文字列検索装置
JP2023125592A (ja) 情報処理システム、情報処理方法、プログラム