JP2006178599A - 文書検索装置および方法 - Google Patents

文書検索装置および方法 Download PDF

Info

Publication number
JP2006178599A
JP2006178599A JP2004369143A JP2004369143A JP2006178599A JP 2006178599 A JP2006178599 A JP 2006178599A JP 2004369143 A JP2004369143 A JP 2004369143A JP 2004369143 A JP2004369143 A JP 2004369143A JP 2006178599 A JP2006178599 A JP 2006178599A
Authority
JP
Japan
Prior art keywords
search
document
word
important
refinement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004369143A
Other languages
English (en)
Inventor
Yasuhiro Ishitobi
康浩 石飛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004369143A priority Critical patent/JP2006178599A/ja
Publication of JP2006178599A publication Critical patent/JP2006178599A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 簡易かつ適切に絞込み検索を行なう。
【解決手段】 検索条件Aが、ユーザインタフェース部10を介して、入力され、文書検索部13に送られる(X01)。全文検索実行部20または属性検索実行部22が検索条件Aについて検索を行ない、検索結果を検索結果取得部14に出力する(X02)。検索結果取得部14は、検索結果を重要語抽出部15に引き渡して、関連文書検索用インデックスを参照して特徴的な重要語群を取得するよう要求する(X03)。表示合成部16は、重要語(特徴語)群を受け取って検索結果と併せて表示する表示データを生成して、ユーザインタフェース部10がこれを表示する(X04)。絞り込み検索ボタンBを操作等して絞り込み検索を行なう(X05)。検索表示、絞込み検索は検索ボタンBの操作で簡易に繰り返し行なえる。
【選択図】 図1

Description

この発明は、文書検索技術に関し、とくに、検索結果の絞り込みを、適切かつ簡易に行なえるようにしたものである。
検索を行った場合に検索結果件数が多いことがある。この場合、さらに、絞込み検索を行い、アクセス件数を削減することが望まれる。ここで、検索結果から適切な絞込み条件の作成を効率的に行うことが重要である。以下に示す従来技術では、絞込みの検索語候補の決定方法がポイントとなっているが、それぞれ欠点がある。
特許文献1では、検索対象文書に対して名詞句を抽出しインデキシングした情報を準備しておき、この名詞句ごとのインデックスレコードを用いて、ユーザが入力した検索語を含む名詞句を絞込み検索用の検索語として提示する。この方法では、ユーザが入力した単語と関連するが字面が異なる単語が提示されないという欠点がある。
特許文献2では、ユーザから入力された検索条件の履歴を用いて、入力した検索語と関連する検索語候補を求めている。しかしながら、本方法では履歴として蓄積された検索条件データが存在しなければ候補が得られないという欠点がある。
特許文献3では、検索時に各検索結果を形態素解析し、結果中の語およびその語の文書内での出現頻度を求め、ある閾値以下の検索語を絞込みのための検索語候補としている。この従来技術での問題点は、検索時に各検索結果を形態素解析しており、ユーザが検索結果を得るまでの処理時間が長い点、絞込み検索語の候補として出現頻度が低い語を選択しており、適切な検索語が選択できない点が挙げられる。具体的には、各検索結果のテキスト長(文章が短いものが選択される傾向になる問題)や検索結果群あるいは検索対象文書全体での文書出現頻度が加味されていない点である。
また、複数の絞り込み用の検索語が指定できるので、結果文書群からの絞込みが極端に行われ、絞込み結果が0件になってしまう可能性が高くなる。
特開2002−342373公報 特開2003−108594公報 特開2004−54619公報
この発明は、以上の事情を考慮してなされたものであり、検索結果の絞り込みを適切かつ簡易に行なえる文書検索技術を提供することを目的としている。
この発明の原理的な構成例においては、属性検索や文書内容検索の結果文書群に対して、関連文書検索用のインデックス情報(所定の単語集合に含まれる単語とその重要度を含む)を用いて、結果文書群内の特徴的な語(関連語およびその重要度。重要度は典型的にはインデックス情報から算出したスコアで表される)を取得し、その関連語を検索結果文書群と共に提示する。
このとき、関連語群から既に検索条件内で用いられている文字列を含む関連語や検索結果すべてに含まれる関連語を除き、重要度順に上位の関連語を絞込みに利用する。なお、検索結果文書すべてに含まれる関連語を用いて絞り込みを行なっても何ら絞り込みができない。
具体的には、文書管理システムへ文書を格納した際に以下の2種類のインデックスデータを作成する。第1は、文書の識別子から当該文書内に出現する単語とその頻度情報を求めることができるインデックスデータであり、いわゆる関連文書検索に用いられる。第2は、単語(キーワードや属性)からその単語を含む文書の識別子群を得ることができるインデックスデータであり、属性検索や内容検索(全文検索、キーワード検索)に用いられる。
この構成例では、文書に割り当てた属性を用いた属性検索や、n−gramを用いた全文検索のためのインデックスデータを用いる。これら属性検索や全文検索(内容検索)を行なったのち、関連文書検索のインデックスを用いて結果文書群内の特徴的な語を取得して、検索結果を絞り込めるようにする。
単語(関連語)およびその重要度の計算方法については、弊社の特許第3427674号公報または特開2002−32411公報に記載された方法を利用する。端的にいえば、例えば、TF(Term Frequency)およびIDF(Inverse Document Frequency)による重みで重要度を計算する。単語の重みを要素とする重みベクトルを各文書のインデックスデータとして用いる(「情報検索と言語処理」徳永健伸著、東京大学出版会、1999年)。
この構成例では、検索結果を表示する際に、絞込検索条件が設定された複数の絞込み検索実行ボタン等を表示する。例えば絞り込み用の単語ごとにボタンを表示する。この絞込検索条件は、上述のようにして求めた関連語を当初の「検索条件」とAND検索条件で連結した絞込み検索条件とする。絞込み検索ボタンを操作することにより、1ステップで絞込検索の実行/検索結果取得が行え、これを繰り返すこともできる。
なお「検索条件」には限らず、その条件を満たす「文書識別子の集合」でもよい。つまり、絞り込む対象を限定できる情報があればよい。
この構成例は、具体的は、以下の手順を実行する。
[ステップ1]:検索条件を入力する。
[ステップ2]:検索条件に適合する検索結果を求める。
[ステップ3]:検索結果内の関連語を求める。ここで、検索条件内の検索文字列を含む関連語、および、検索結果文書全てに出現する関連語は除き、上位X件(Xは正の整数)を求める。
[ステップ4]:ステップ3で求めた関連語と、ステップ1の検索条件またはステップ2で求めた文書識別子集合とを、AND論理演算で結合した絞込検索条件を作成する。
[ステップ5]:検索結果および絞込検索条件式をセットした絞込み検索ボタンを検索結果表示する。
上述のステップ2〜5は繰り返し実行できる。
さらに、この発明を説明する。なお、理解を容易にするために後述する実施例で用いた参照符号を付すが、これは権利内容を限定する意図ではない。
この発明の一側面によれば、上述の目的を達成するために、文書検索装置(100)に:文書群に対して検索を行なう検索手段(20、22)と;文書ごとに重要語句情報を記憶する重要語句情報記憶手段(25)と;上記重要語句情報記憶手段を参照して上記検索手段の検索結果に含まれる文書の重要語句情報を取得し、取得した重要語句情報に基づいて絞り込み用の語を決定する絞り込み語決定手段(15)と;上記検索手段に対して、上記絞り込み用の語を用いた上記検索結果の絞り込み検索を実行するように指示する絞り込み検索指示手段(10、16)とを設けている。
この構成においては、検索結果から検索結果に含まれる文書の重要語句情報を、重要語句情報記憶手段を参照して取得して、重要な語句を絞り込み用の語として選定することができる。
この構成において、上記検索手段は、例えば、n−gramに基づくインデックスデータを参照して全文検索を行なう検索手段や、語ごと準備されたインデックスデータを参照して全文検索を行なう検索手段や、文書の属性に基づいて準備されたインデックスデータを参照して属性検索を行なう検索手段である。
上記重要語句情報は、文書ごとに準備された、所定の単語集合に含まれる単語の重みの組である。この場合、文書ごとの各単語の重みは、当該文書中の当該各単語の頻度および上記単語が表れる文書の数に基づいて計算されることが好ましい。
上記重要語句情報記憶手段に記憶されている、文書ごとの重要語句情報は、典型的には、所定の語に関連する文書を検索する関連文書検索手段に用いる関連文書検索証インデックスの情報である。
また、上記絞り込み語決定手段は、絞り込み用の語の候補が検索結果の文書に所定割合以上含まれている場合には、絞り込み用の語から外すことが好ましい。所定割合は、絞り込みの程度に応じて選定するようにしても良い。所定割合は、各文書における各単語の頻度情報から取得できる。tf*IDFを計算するためのtfを用いて(当該語のtf>0である文書の割合)絞込み割合を算出できる。
典型的には、検索結果の文書すべてに含まれる候補を絞込み用の語から外すようにしても良い。この場合tfからも判別できるが、IDF=log(N/df)(Nは対象文書総数、dfは当該語を含む文書の頻度)がゼロとなるので(tf*IDFもゼロ)、これから判別することもできる。
文書ごとの重要語句情報を、所定の単語集合に含まれる各単語の当該文書における重要度(例えば単語ベクトル)とすることができる。この場合、単語ベクトルの各要素を検索結果文書に渡って足し込んでいき各要素ごとのスコアを取得し、検索結果全体における重要度を判定する指標にできる。ただし、スコアが大きい場合には、検索結果中の大部分の文書において出現している蓋然性が大きいので、スコアが所定の閾値より小さな上位X個と選定しても良い。
また、絞り込み用の語の各々について、検索結果の文書中、当該絞り込み用の語を含む文書が占める割合を表示するようにしてもよい。このようにすると、各語を用いた場合に絞り込み結果を知ることができ、それを指標にして絞り込み用の語を選択できる。当該絞り込み用の語を含む文書が占める割合は、上述のとおり、例えばtfの値を参照して算出できる。
また、この発明の他の側面によれば、文書検索装置(100)に:文書群に対して検索を行なう検索手段(20、22)と;文書ごとに重要語句情報を記憶する重要語句情報記憶手段(25)と;上記重要語句情報記憶手段を参照して上記検索手段の検索結果に含まれる文書の重要語句情報を決定する手段(15)と;上記検索結果と上記重要語句とを表示する検索結果・重要語句表示手段(10、16)と;表示された上記重要語句に対するユーザの操作に応答して操作対象の重要語句を用いた上記検索結果の絞り込み検索を実行するように指示する絞り込み検索指示手段(10)とを設けるようにしている。
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
この発明によれば、属性検索や内容検索の検索結果を簡易かつ適切に絞り込みことができる。
以下、この発明の実施例について説明する。
図1は、この発明を文書管理システムに適用した実施例を全体として示している。この例では、コンピュータ101に記録媒体102を用いてコンピュータプログラムをインストールすることにより文書管理システム100が実現される。図示の各ブロックは、コンピュータ101のハードウェア資源およびソフトウェア資源を協働させることにより実現される機能を表している。この例では、単一のコンピュータシステムによる実装手法を用いたが、サーバコンピュータとクライアント装置とをネットワークで接続して構成しても良い。
図1において、文書管理システム100は、ユーザインタフェース部10、文書管理部11、登録文書群記憶部12、文書検索部13、検索結果取得部14、重要語抽出部15、表示合成部16、インデックス生成部17等を含んで構成されている。文書検索部13は、この例では、全文検索実行部20、全文検索用インデックス記憶部21、属性検索実行部22、属性検索用インデックス記憶部23、関連文書検索実行部24、関連文書検索用インデックス記憶部25等を含んで構成される。
ユーザインタフェース部10は、ユーザからの入力を受け付け、文書管理システム100からの出力を表示するものである。検索に限定して述べれば、図4に示すような入力フォームを用いてユーザが検索条件を入力する。キーボード入力しても良いし、属性検索の属性等はプルダウンメニューを用いることができる。検索条件は、キーワード、属性、自然文等で指定できる。自然文は形態素解析されてキーワード抽出され、当該キーワードの形態または後述する単語ベクトルの形態で検索に用いることができる。ユーザインタフェース部10は例えばウェブベースで実装することができるが、これに限定されない。
文書管理部11は、ユーザが登録した文書群を登録文書群記憶部12に保持して管理するものである。各文書は図8に示すような管理属性等が割り当てられる。
文書検索部13は、全文検索、属性検索、関連文書検索を行なう。これら各種の検索を論理式で組み合わせて行なっても良い。
文書検索部13の全文検索実行部20が全文検索用インデックス記憶部21に保持された全文検索用インデックスを用いて全文検索を行なう。全文検索用インデックスは、例えば図5に示すように各n−gramごとにそれが含まれる文書識別子、その出現位置(複数の場合もある)がインデックスレコードとして記録されて構成されている。インデックスレコードは検索対象文書、典型的には登録文書群記憶部12に記憶された文書をカバーするように生成される。
検索条件として入力されたキーワードを構成するn−gramとその位置関係から、図5に示すようなインデックスレコードを参照して該当する文書識別子をリストアップして検索結果とする。なお、図5に示すn−gramごとのインデックスレコードでなく、文書を形態素解析してその形態素(語、キーワード)ごとのインデックスレコードを用いても良い。この例を図9に示す。
属性検索実行部22は、属性検索用インデックス記憶部23に保持された属性検索用インデックスを用いて属性検索を行なう。属性検索用インデックスは例えば図6に示すように各属性の属性値(属性値範囲)ごとに該当する文書識別子がインデックスレコードとして記録された構成されている。インデックスレコードは検索対象文書、典型的には登録文書群記憶部12に記憶された文書をカバーするように生成される。属性は属性管理部11が管理する属性情報(図8)である。属性検索実行部22は、検索条件を構成する属性値に該当する属性を有する文書の文書識別子を属性検索用インデックスを参照してリストアップして検索結果とする。
関連文書検索実行部24は、関連文書検索用インデックス記憶部25に保持された関連文書検索用インデックスを用いて関連文書検索を行なう。この例では、関連文書検索用のインデックスは図7に示すようなインデックスレコードを保持する。各インデックスは、検索対象の文書、典型的には登録文書群記憶部12に記憶された文書(文書識別子)ごとに重要語句情報、例えば、単語ベクトルを割り当てている。単語ベクトルは所定範囲の単語集合の当該文書における重みw1,w2,・・・wnで構成される。重みは、典型的にはtf*IDFに基づいて生成される。単語ベクトルはそれぞれ正規化されている。tfは当該文書中に当該語が出現する頻度であり、IDFは一例としてはlog(N/df)であるが、これに限定されない。log(N/df)+1等でもよく、対数の底も種々採用できる。ただしNは対象文書の総数、dfは当該語が出現する文書数である。
関連文書検索実行部24は、入力された1または複数のキーワード(単語ベクトル)と各文書の単語ベクトルとの内積等を行なって、所定数または所定の閾値を越える値の文書をリストアップして検索結果とする。自然文から得たキーワード(単語ベクトル)や種文書の単語ベクトルを用いた関連文書検索も行なえる。
検索結果取得部14は文書検索部13から検索結果として文書識別子集合を取得する。検索結果としての文書識別子集合は典型的には表示合成部16に渡され、表示合成部16が検索結果一覧の表示データを生成してユーザインタフェース部10に供給する。ユーザインタフェース部10は表示データに基づいて検索結果一覧を表示する。
さらに、検索結果取得部14は、検索が関連文書検索以外の場合、すなわち、全文検索や属性検索またはその組み合わせである場合には、検索結果の文書識別子集合を重要語抽出部15にも供給する。重要語抽出部15は、検索結果(文書識別子集合)の重要語句情報(単語ベクトル)を関連文書検索用インデックス記憶部25を参照して取得し、これに基づいて検索結果に対して重要と予想される語を抽出する。例えば、検索結果の文書の単語ベクトルを各要素(単語)ごとに累積してその要素の値に応じて単語を選択する。すなわち、検索結果がm個の文書からなる場合、単語ベクトルの各要素wiをm個の文書について累積していき、所定の閾値または上位所定数の要素i(単語)を重要語として表示合成部16に出力する。
表示合成部16は、図3に示すように、検索結果の一覧Aとともに、重要語抽出部で決定された重要語(特徴語ともいう)を表示する絞り込み検索用ボタンBを表示する表示データを生成する。ユーザインタフェース部10は、これに基づいて検索結果および絞り込みボタンを含む表示をユーザに提示する。図3では、「特徴語1」、「特徴語2」等と表示されるが、具体的な語が表示される。ユーザがいずれかのボタンBをクリック等して操作した場合には、これに基づいてユーザインタフェース部10が絞り込み検索条件を文書検索部13に供給する。
当初の検索条件を検索条件Aとすると絞り込み検索条件は「重要語 AND 検索条件A」となる。検索結果の文書識別子集合との論理積をとるようにしてもよい。
なお、重要語を複数選択してそれらの論理積または論理和等の論理式で絞り込み検索を指示しても良い。例えば、各絞り込み用検索ボタンをクリックすると、該当する重要語が選択され、条件入力用の入力フォームに転記され、これと演算子入力とも組み合わせて、重要語(特徴語)を含む論理式で当初の検索条件A(文書識別子集合)を絞り込むことができる。
インデックス生成部17は、登録文書群記憶部12に保持されている文書群について全文検索用インデックス、属性検索用インデックス、関連文書検索用インデックスを生成・更新するものである。適宜なタイミングで新規の登録文書や変更文書を反映したインデックスを生成することが好ましい。なお、関連文書検索用インデックスとして例えばtfおよびIDFから算出される重みを用いる場合には、tfおよびIDFを保持して新たな文書の情報をこれに反映させるようにする。このtfやIDFを用いて補助的な情報例えば絞込み率を算出することができる。
つぎに実施例の動作を図2に示す例に即して説明する。なお、この例では、検索条件Aで全文検索または属性検索を行う場合のみ説明する。
まず、検索条件Aが、ユーザインタフェース部10を介して、図4に示すような入力フォームを用いて入力され、文書検索部13に送られる(X01)。全文検索実行部20または属性検索実行部22が検索条件Aについて検索を行ない、検索結果を検索結果取得部14に出力する(X02)。検索結果取得部14は、検索結果を重要語抽出部15に引き渡して、関連文書検索用インデックスを参照して特徴的な重要語(特徴語)群を取得するよう要求する(X03)。重要語群は、例えば、検索条件A内の検索文字列を含む語(関連語、単語ベクトルの要素をなす語)や、検索結果文書すべてに含まれる語を除いた、上位N個の語からなる。検索結果文書すべてに当該語が含まれるかどうかは、検索結果文書のtfを参照したり、検索結果文書のIDF(tf*IDF)がゼロになるかどうかを調べて判別できる。表示合成部16は、重要語(特徴語)群を受け取って検索結果と併せて表示する表示データを生成して、ユーザインタフェース部10がこれを表示する(X04)。絞り込み検索ボタンBを操作等して絞り込み検索を行なう(X05)。処理X02〜X05を繰り返し行なえる。また、絞込みを取り消すボタンを設けて直前の状態に戻れるようにしても良い。このようにして絞込みに用いる重要語を選択し直しても良い。
なお、重要語は、キーワードであるので、典型的には、絞り込み条件は全文検索が対象になるが、重要語が属性として把握できる場合には絞り込み条件を属性検索とすることも可能である。
この実施例によれば、検索結果の特徴を表す語を関連文書検索用インデックスを参照するだけで取得することができ、簡易にかつ精度良く絞り込みが可能になる。
すなわち、この実施例では、ある検索条件で文書検索を実施した際に、検索結果と共にその検索結果をさらに絞込むために有効な検索条件候補を複数提示することができる。
しかも、関連文書検索コンポーネントのようなインデックスを保持したシステムを利用して、検索結果文書群の中に特徴的に用いられている語を識別し、この語を用いて、当初の検索条件にAND検索条件として付加した絞込検索条件式を作成し、絞込に有効な検索条件候補を自動生成できる。
すなわち、実施例のシステムでは、文書から文書内に出現する語とその頻度情報が得られ、検索結果文書群で特徴的な語群をスコア順に取得することができる。
文書管理システムに保持された文書に対して、属性検索/文書内容検索/関連文書検索用の各種のインデックスデータが揃っているので、属性検索や全文検索の結果に対して、関連文書検索用のインデックスデータを利用することで、全文検索による絞込みのために有効な検索語候補を容易に取得することができる。
なお、この発明は上述実施例に限定されるものではなく種々変更が可能である。例えば、上述例では、関連文書検索インデックスを用いて、検索結果の絞り込み用の語を選定するようにしたが、関連文書検索インデックスとは無関係に文書ごとに各単語の頻度(重要度)等の情報を保持するようにし、これを用いて検索結果文書群中で特徴的な語を選定するようにしてもよい。
また、検索結果文書群の属性情報(図8)から重要な属性値を抽出して、これを重要語として属性検索により絞り込み検索条件とすることができる。なお、この場合も、すべての検索結果文書が含む属性値は重要語から除かれる。この場合には前提となる検索(絞り込み前の検索)を関連文書検索としても良い。
また、図10に示すように、重要語(特徴語)ごとの絞込み率を計算して表示するようにしても良い。この絞込み率の計算は重要語抽出部15で行なっても良いし、他に設けた機能ブロック(図示しない)で行なっても良い。この絞込み率は、例えば、検索結果文書のtfを参照して計算される。tfの値はIDFの値等とともに、例えば、登録文書群記憶部12に登録文書に併せて管理データとして記憶されても良いし、関連文書検索用インデックスの補助的な情報として関連文書検索用インデックス記憶部25に記憶されても良い。
この発明の実施例の構成を全体として示すブロック図である。 上述実施例の動作例を説明する図である。 上述実施例の検索結果(絞込み検索)表示例を説明する図である。 上述実施例の検索条件入力フォームの例を説明する図である。 上述実施例の全文検索用インデックスのレコードの例を説明する図である。 上述実施例の属性検索用インデックスのレコードの例を説明する図である。 上述実施例の関連文書検索用インデックスのレコードの例を説明する図である。 上述実施例の文書属性レコードの例を説明する図である。 上述実施例の他の全文検索用インデックスのレコードの例を説明する図である。 上述実施例の変形例を説明する図である。
符号の説明
10 ユーザインタフェース部
11 属性管理部
11 文書管理部
12 登録文書群記憶部
13 文書検索部
14 検索結果取得部
15 重要語抽出部
16 表示合成部
17 インデックス生成部
20 全文検索実行部
21 全文検索用インデックス記憶部
22 属性検索実行部
23 属性検索用インデックス記憶部
24 関連文書検索実行部
25 関連文書検索用インデックス記憶部
100 文書管理システム
101 コンピュータ
102 記録媒体

Claims (14)

  1. 文書群に対して検索を行なう検索手段と、
    文書ごとに重要語句情報を記憶する重要語句情報記憶手段と、
    上記重要語句情報記憶手段を参照して上記検索手段の検索結果に含まれる文書の重要語句情報を取得し、取得した重要語句情報に基づいて絞り込み用の語を決定する絞り込み語決定手段と、
    上記検索手段に対して、上記絞り込み用の語を用いた上記検索結果の絞り込み検索を実行するように指示する絞り込み検索指示手段とを実現するために用いられることを特徴とする文書検索用コンピュータプログラム。
  2. 上記検索手段は、n−gramに基づくインデックスデータを参照して全文検索を行なう検索手段である請求項1記載の文書検索用コンピュータプログラム。
  3. 上記検索手段は、語ごと準備されたインデックスデータを参照して全文検索を行なう検索手段である請求項1記載の文書検索用コンピュータプログラム。
  4. 上記検索手段は、文書の属性に基づいて準備されたインデックスデータを参照して属性検索を行なう検索手段である請求項1記載の文書検索用コンピュータプログラム。
  5. 上記重要語句情報は、文書ごとに準備された、所定の単語集合に含まれる単語の重みの組である請求項1〜4のいずれかに記載の文書検索用コンピュータプログラム。
  6. 文書ごとの各単語の重みは、当該文書中の当該各単語の頻度および上記単語が表れる文書の数に基づいて計算される請求項5記載の文書検索用コンピュータプログラム。
  7. 上記重要語句情報記憶手段に記憶されている、文書ごとの重要語句情報を参照して、所定の語に関連する文書を検索する関連文書検索手段をさらに有する請求項1〜6のいずれかに記載の文書検索用コンピュータプログラム。
  8. 上記絞り込み語決定手段は、絞り込み用の語の候補が検索結果の文書に所定割合以上含まれている場合には、絞り込み用の語から外す請求項1〜7のいずれかに記載の文書検索用コンピュータプログラム。
  9. 絞り込み用の語の各々について、検索結果の文書中、当該絞り込み用の語を含む文書が占める割合を表示するようにした請求項1〜8のいずれかに記載の文書検索用コンピュータプログラム。
  10. 文書群に対して検索を行なう検索手段と、
    文書ごとに重要語句情報を記憶する重要語句情報記憶手段と、
    上記重要語句情報記憶手段を参照して上記検索手段の検索結果に含まれる文書の重要語句情報を決定する絞り込み語決定手段と、
    上記検索結果と上記重要語句とを表示する検索結果・重要語句表示手段と、
    表示された上記重要語句に対するユーザの操作に応答して操作対象の重要語句を用いた上記検索結果の絞り込み検索を実行するように指示する絞り込み検索指示手段とを実現するために用いられることを特徴とする文書検索用コンピュータプログラム。
  11. 文書群に対して検索を行なう検索手段と、
    文書ごとに重要語句情報を記憶する重要語句情報記憶手段と、
    上記重要語句情報記憶手段を参照して上記検索手段の検索結果に含まれる文書の重要語句情報を取得し、取得した重要語句情報に基づいて絞り込み用の語を決定する絞り込み語決定手段と、
    上記検索手段に対して、上記絞り込み用の語を用いた上記検索結果の絞り込み検索を実行するように指示する絞り込み検索指示手段とを有することを特徴とする文書検索装置。
  12. 文書群に対して検索を行なう検索手段と、
    文書ごとに重要語句情報を記憶する重要語句情報記憶手段と、
    上記重要語句情報記憶手段を参照して上記検索手段の検索結果に含まれる文書の重要語句情報を決定する手段と、
    上記検索結果と上記重要語句とを表示する検索結果・重要語句表示手段と、
    表示された上記重要語句に対するユーザの操作に応答して操作対象の重要語句を用いた上記検索結果の絞り込み検索を実行するように指示する絞り込み検索指示手段とを有することを特徴とする文書検索装置。
  13. 検索手段により文書群に対して検索を行なう検索ステップと、
    絞り込み語決定手段により、文書ごとに重要語句情報を記憶する重要語句情報記憶手段を参照して上記検索手段の検索結果に含まれる文書の重要語句情報を取得し、取得した重要語句情報に基づいて絞り込み用の語を決定する絞り込み語決定ステップと、
    絞り込み検索指示手段により、上記検索手段に対して、上記絞り込み用の語を用いた上記検索結果の絞り込み検索を実行するように指示する絞り込み検索指示ステップとを有することを特徴とする文書検索方法。
  14. 検索手段により文書群に対して検索を行なう検索ステップと、
    絞り込み語決定手段により、文書ごとに重要語句情報を記憶する重要語句情報記憶手段を参照して上記検索手段の検索結果に含まれる文書の重要語句情報を決定する絞り込み語決定ステップと、
    検索結果・重要語句表示手段により、上記検索結果と上記重要語句とを表示する表示ステップと、
    絞り込み検索指示手段により、表示された上記重要語句に対するユーザの操作に応答して操作対象の重要語句を用いた上記検索結果の絞り込み検索を実行するように指示する絞り込み検索指示ステップとを有することを特徴とする文書検索方法。
JP2004369143A 2004-12-21 2004-12-21 文書検索装置および方法 Pending JP2006178599A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004369143A JP2006178599A (ja) 2004-12-21 2004-12-21 文書検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004369143A JP2006178599A (ja) 2004-12-21 2004-12-21 文書検索装置および方法

Publications (1)

Publication Number Publication Date
JP2006178599A true JP2006178599A (ja) 2006-07-06

Family

ID=36732678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004369143A Pending JP2006178599A (ja) 2004-12-21 2004-12-21 文書検索装置および方法

Country Status (1)

Country Link
JP (1) JP2006178599A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176619A (ja) * 2007-01-19 2008-07-31 Nec Corp 情報検索システム、サーバ、方法、及びプログラム
JP2008234559A (ja) * 2007-03-23 2008-10-02 Yahoo Japan Corp ドキュメント絞り込み検索装置、方法及びプログラム
WO2009019858A1 (ja) * 2007-08-08 2009-02-12 Panasonic Corporation 番組検索支援装置およびその方法
JP2009058690A (ja) * 2007-08-30 2009-03-19 Fujitsu Ltd 記憶位置抽出装置および記憶位置抽出方法
JP2010055518A (ja) * 2008-08-29 2010-03-11 Nippon Telegraph & Telephone West Corp 検索装置及び方法、ならびに、コンピュータプログラム
WO2011033734A1 (en) * 2009-09-18 2011-03-24 Hitachi Solutions, Ltd. File search system and program
JP2012084029A (ja) * 2010-10-14 2012-04-26 Kyocera Mita Corp 文書管理装置及び文書管理プログラム
JP2012113434A (ja) * 2010-11-22 2012-06-14 Internatl Business Mach Corp <Ibm> 複数の投稿(データのグループ)を複数の軸に沿ってリアルタイムにコンピュータ画面に表示する方法およびコンピュータ・プログラム
JP2013196315A (ja) * 2012-03-19 2013-09-30 Yahoo Japan Corp 情報処理装置及び方法
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法
JP2016091354A (ja) * 2014-11-06 2016-05-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2017049836A (ja) * 2015-09-02 2017-03-09 和直 恩田 検索支援装置、検索支援プログラムおよび記憶媒体
WO2020255307A1 (ja) * 2019-06-19 2020-12-24 日本電気株式会社 情報処理装置、情報処理方法、および記録媒体

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176619A (ja) * 2007-01-19 2008-07-31 Nec Corp 情報検索システム、サーバ、方法、及びプログラム
JP2008234559A (ja) * 2007-03-23 2008-10-02 Yahoo Japan Corp ドキュメント絞り込み検索装置、方法及びプログラム
WO2009019858A1 (ja) * 2007-08-08 2009-02-12 Panasonic Corporation 番組検索支援装置およびその方法
US8195687B2 (en) 2007-08-08 2012-06-05 Panasonic Corporation Program retrieval support device for accumulating and searching pieces of program information and corresponding programs and a method for performing the same
JP2009058690A (ja) * 2007-08-30 2009-03-19 Fujitsu Ltd 記憶位置抽出装置および記憶位置抽出方法
JP2010055518A (ja) * 2008-08-29 2010-03-11 Nippon Telegraph & Telephone West Corp 検索装置及び方法、ならびに、コンピュータプログラム
WO2011033734A1 (en) * 2009-09-18 2011-03-24 Hitachi Solutions, Ltd. File search system and program
JP2012084029A (ja) * 2010-10-14 2012-04-26 Kyocera Mita Corp 文書管理装置及び文書管理プログラム
JP2012113434A (ja) * 2010-11-22 2012-06-14 Internatl Business Mach Corp <Ibm> 複数の投稿(データのグループ)を複数の軸に沿ってリアルタイムにコンピュータ画面に表示する方法およびコンピュータ・プログラム
US9513767B2 (en) 2010-11-22 2016-12-06 International Business Machines Corporation Displaying posts in real time along axes on a computer screen
JP2013196315A (ja) * 2012-03-19 2013-09-30 Yahoo Japan Corp 情報処理装置及び方法
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法
JP2016091354A (ja) * 2014-11-06 2016-05-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2017049836A (ja) * 2015-09-02 2017-03-09 和直 恩田 検索支援装置、検索支援プログラムおよび記憶媒体
WO2020255307A1 (ja) * 2019-06-19 2020-12-24 日本電気株式会社 情報処理装置、情報処理方法、および記録媒体
JPWO2020255307A1 (ja) * 2019-06-19 2020-12-24

Similar Documents

Publication Publication Date Title
US9558264B2 (en) Identifying and displaying relationships between candidate answers
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US7440947B2 (en) System and method for identifying query-relevant keywords in documents with latent semantic analysis
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
JP2010257488A (ja) 対話形サーチクエリー改良のためのシステム及び方法
US11573989B2 (en) Corpus specific generative query completion assistant
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
JP2006178599A (ja) 文書検索装置および方法
Gowri et al. Efficacious IR system for investigation in digital textual data
US10102199B2 (en) Corpus specific natural language query completion assistant
WO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
JP4969209B2 (ja) 検索システム
JPH1145267A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JPH05324728A (ja) 情報検索装置
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP3486406B2 (ja) 特許情報検索装置
JP2005234772A (ja) 文書管理装置および方法
JP2006163645A (ja) 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JP2009003731A (ja) 特許検索システム
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP2004334690A (ja) 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体
JP2005234635A (ja) 文書要約装置および方法