JP2006309377A

JP2006309377A - 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体

Info

Publication number: JP2006309377A
Application number: JP2005129079A
Authority: JP
Inventors: Ayahiro Nakajima; 紋宏中島
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2005-04-27
Filing date: 2005-04-27
Publication date: 2006-11-09

Abstract

【課題】関連語辞書のデータベースを自動的に作成できる文書検索装置であって、従来よりも検索文に含まれる単語の関連語をより精度良く検出することで、さらなる文書検索の精度を上げることができる文書検索装置を提供する。
【解決手段】検索文とその検索文内の単語を関連語に置き換えた検索文とにより、検索対象文書をベクトル検索する。そして、検索結果において、選択された件名に含まれる単語と、検索文に含まれる単語とを用いて関連語辞書のデータベースを自動生成する。
【選択図】図１

Description

本発明は、入力された検索文に関連する検索対象文書を出力する、文書検索装置および文書検索方法ならびにそのプログラムと記録媒体に関する。

近年、インターネットに接続されたＷｅｂサーバにアクセスしてＷｅｂページを端末へ表示する技術の普及や、大量の文書の電子化などにより、文書検索システムに関心が高まっている。文書検索システムにおいては、利用者は、検索文や検索語を入力し、所望の文書を得ることができる。ところで、文書検索システムにおいて、利用者が、文書に含まれていない単語を含む検索文で検索すると、検索に失敗したり、不適切な検索結果になったりするなどの問題が起こる。このような問題を解決するため、文書検索システムの中には、関連語辞書を備えこの問題に対処するものがある。このような文書検索システムは、利用者が入力した検索文の中に、検索対象文書に含まれない単語が現れると、単語の関連語を関連語辞書から取得し、単語を関連語に置き換えたり、追加したりして、検索文を補う処理を行う。ここで、この関連語辞書に人手で関連語を追加する作業は、労力がかかるので、半自動あるいは自動的に関連語を追加する手法が望まれる。なお、自動的に関連語辞書を作る方法として、特許文献１が公開されている。
特開平１１−３１２１６８号公報

ここで、上述の特許文献１における同義語計算装置及びプログラムでは、検索履歴を取得し、その履歴が含む単語の時間間隔と頻度に基づき関連度を求め、関連度の高い単語同士を関連語辞書に登録する方法を提案している。この方法を文書検索システムに組み込めば、自動的に関連語辞書を作り、検索文を補うものができる。しかしこの方法だと、単純に時間間隔が近い単語同士が関連付けられてしまうので、検索に失敗したときや、所望の検索結果が得られないときの検索文に含まれる単語同士も、関連付けられてしまい、結果として、検索結果が改善されないという問題点があった。

そこでこの発明は、関連語辞書のデータベースを自動的に作成できる文書検索装置であって、従来よりも検索文に含まれる単語の関連語をより精度良く検出することで、さらなる文書検索の精度を上げることができる、文書検索装置および文書検索方法ならびにそのプログラムと記録媒体を提供することを目的としている。

本発明は、上述の課題を解決すべくなされたもので、入力された検索文に関連する検索対象文書を出力する文書検索装置であって、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部と、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える検索語置換処理部と、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する検索対象文書抽出処理部と、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示できる検索結果画面データを生成する検索結果画面生成処理部と、前記検索結果画面データを出力する検索結果画面出力処理部と、を備えることを特徴とする文書検索装置である。

本発明によれば、より精度高く検索対象文書を検索するために学習された、関連語への置き換えが行われる。その置き換え後の検索文によって検索処理が行われる。これにより、従来よりも精度の高い検索の処理を行うことができる。

また本発明は、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定処理部と、複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、前記検索結果画面において件名が選択された際のその検索結果画面の出力を促した、検索文中の単語を関連語として検出する関連語検出処理部と、当該検索と同一セッションにおいて、以前に前記検索結果画面の件名を選択しなかった検索を特定し、その検索文中の単語を被関連語として検出する被関連語検出処理部と、前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて関連語辞書ＤＢに登録する関連語学習処理部と、を備えることを特徴とする。

本発明によれば、同一セッションの情報によって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、それらが関連している検索文であると考えることができるので、その複数の検索文に含まれる単語同士を関連語ペア（関連語と被関連語の組合せ）として自動登録することができる。そしてこれにより関連語辞書データベースの登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。

また本発明は、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定手段と、複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、前記同一セッションにおいて入力された複数の検索文のうち、前回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面の件名が選択されなかった検索文を特定し、当該検索文中の単語を被関連語として検出する被関連語検出処理部と、前記同一セッションにおいて入力された複数の検索文のうち、今回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面において選択された件名に含まれる単語のうち、前記前回入力された検索文の入力に応じて出力された前記検索結果画面の件名の中で表示されていない単語を、関連語として検出する関連語検出処理部と、前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて登録する関連語学習処理部と、を備えることを特徴とする。

本発明によれば、同一セッションＩＤによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、選択されなかった検索結果画面の出力を促す前の検索文の単語と、次の検索文に基づいて出力された検索結果画面における選択された件名の単語とは、それらが関連していると考えることができるので、その単語同士を関連語ペアとして自動登録することができる。そしてこれにより関連語辞書データベースの登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。

また本発明は、前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に既に対応付けられて記憶されている場合には、所定の算出式に基づいて得られた関連度を、その被関連語と関連語に対応付けられて記憶されている関連度に加算する関連度増加処理部と、を備えることを特徴とする。これにより関連の強い関連語ペアにおける被関連語と関連語に対応する関連度の自動修正を行うことができる。

また本発明は、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定処理部と、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れの件名についても選択されなかった場合には、その検索結果画面の出力に利用された前記検索文中の単語と、前記選択されなかった件名に含まれる単語の対応関係のうち、前記関連語記憶部に既に対応付けられて記憶されている対応関係を特定し、当該対応関係の各単語の組合せについて記録されている関連度を、所定の算出式に基づいて得られた関連度を用いて減算する関連度削減処理部と、を備えることを特徴とする。これにより関連の弱い関連語ペアにおける被関連語と関連語に対応する関連度の自動修正を行うことができる。

また本発明は、入力された検索文に関連する検索対象文書を出力する文書検索装置における文書検索方法であって、関連語記憶部が、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶し、検索語置換処理部が、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換え、検索対象文書抽出処理部が、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出し、検索結果画面生成処理部が、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成し、検索結果画面出力処理部が、前記検索結果画面データを出力する、ことを特徴とする文書検索方法である。

また本発明は、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部を備え、前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムであって、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、前記検索結果画面データを出力する処理と、をコンピュータに実行させるプログラムである。

また本発明は、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部を備え、前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムを記憶する記録媒体であって、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、前記検索結果画面データを出力する処理と、をコンピュータに実行させるプログラムを記憶する記録媒体である。

以下、本発明の一実施形態による文書検索システム（文書検索装置）を図面を用いて説明する。図１は同実施形態による文書検索システムの構成を示すブロック図である。この図において、符号１は文書検索サーバである。また２はＷｅｂサーバである。また３はＰＣ（Personal Computer）などの端末である。そして、文書検索サーバ１はＷｅｂサーバ２と通信ネットワークを介して接続され、また端末３はＷｅｂサーバとインターネットなどを介して接続されている。本実施形態においては、端末３がＷｅｂサーバ２にアクセスして検索文の情報を通知すると、Ｗｅｂサーバ２はその検索文の情報を文書検索サーバ３へ転送する。そして文書検索サーバ３が検索対象文書の中から検索文に関連する検索対象文書の情報をＷｅｂサーバへ出力する。またＷｅｂサーバ２は検索文に関連する検索対象文書の情報を表示するためのウェブページのデータを端末３へ送信する処理を行う。この過程において、文書検索サーバ１は、後述の処理により、検索精度の良い検索対象文書、つまり、従来にも増して検索文に内容の近い検索対象文書の情報を抽出する処理を行う。

図２はＷｅｂサーバと文書検索サーバの機能ブロックを示す図である。
この図が示すように、Ｗｅｂサーバ２はセッションＩＤ生成部２１とウェブページ処理部２２を備える。セッションＩＤは一連の文書検索を特定する識別情報であって、このセッションＩＤにより、ユーザが、ある内容の文書を検索した一連の処理において受付けた検索文を特定することが可能となる。セッションＩＤ生成部２１はこのセッションＩＤを後述する処理により生成する。またウェブページ処理部２２は検索文の情報の受け付けや、その検索結果のウェブページのデータを送信する処理を行う。

また文書検索サーバ１において、１０１は各処理部を制御する制御部である。また１０２は検索文ベクトルと、対象文書ベクトルを生成する文書ベクトル生成部である。また１０３は複数の検索対象文書の中から、検索文に関連する所定の数の検索対象文書を抽出する処理を行う文書検索部である。また１０４は、検索文に含まれる単語の関連語をデータベースに登録する処理などを行う関連語学習部である。また１０５は、形態素解析を行う為の各単語などを記憶する形態素解析辞書ＤＢ（データベース）である。また１０６は、検索文に含まれる単語（被関連語）と、その単語に関連する単語（関連語）と、その単語の組合せの関連度とを対応付けて記憶する関連語辞書ＤＢである。また１０７は、複数の検索対象文書を記憶する検索対象文書ＤＢである。また１０８は、検索文の情報を受け付ける度に、その検索文により検索処理した際の情報の履歴を記憶する検索履歴ＤＢである。

図３は、検索対象文書ＤＢが記憶するデータの構成を示す図である。
この図が示すように検索対象文書ＤＢ１０７は、文書ＩＤと件名の情報と、本文の情報と、文書ベクトルと、件名に含まれる単語の情報とを対応付けて記憶している。ここで、検索対象文書ＤＢ１０７の記憶する文書ベクトルは、件名と本文に含まれる単語のそれぞれの重みの値によって表される。

図４は、検索履歴ＤＢが記憶するデータの構成を示す図である。
この図が示すように検索履歴ＤＢ１０８は、セッションＩＤと、検索ＩＤと、検索文単語と、検索結果と、閲覧文書と、関連語ペアとを対応付けて記憶している。ここで検索ＩＤとは検索文の情報を受付けるごとの処理を識別するための情報である。また検索文単語は、検索文に含まれる単語である。また検索結果とは、検索文に基づいて文書検索サーバ１が検索した検索対象文書の文書ＩＤである。また閲覧文書とは、検索結果のうち端末３を利用するユーザが閲覧した検索対象文書の文書ＩＤである。また関連語ペアとは文書検索サーバ１において、検索文に含まれる単語（被関連語）と、当該単語に対応付けられて関連語辞書ＤＢ１０６に記憶されている単語（関連語）の組合せを記憶した情報である。

図５は、関連語辞書ＤＢの記憶するデータの構成を示す図である。
この図が示すように、関連語辞書ＤＢ１０６は、検索文に含まれる単語（被関連語）とその単語に関連する単語（関連語）と、それら単語の組合せにおける関連の強さを示す関連度ａ（０≦ａ≦１）とを対応付けて記憶する。なお、文書検索サーバ１は、後述の処理により関連語辞書ＤＢ１０６に記憶する被関連語と関連語の組合せについて、検索文が入力される度に、増加するか否かの判定処理や、増加、減少の処理を行う。また関連度ａについても増加または減算する処理を行う。これにより、自動的に関連語辞書ＤＢ１０６の生成を行って管理者の労力を軽減し、また関連語辞書ＤＢ１０６の記憶する情報に基づいて、精度良い検索結果を出力する処理を行う。

図６は文書検索サーバの処理フローを示す図である。
次に、図６を用いて、文書検索サーバの処理フローについて説明する。
まず、端末３のＷｅｂブラウザの機能よりアクセスを受付けたＷｅｂサーバ２は、文書検索の為の検索文入力画面を端末３に出力する。この検索文入力画面において端末３を利用するユーザが検索文を入力し、検索指示を与えると、端末３は検索文の情報をＷｅｂサーバ２へ送信する。するとＷｅｂサーバ２が検索文を受信し、セッションＩＤ生成部２１がセッションＩＤを生成して、検索文とセッションＩＤとを文書検索サーバ１へ送信する。なお、この時既に同一セッションＩＤを示す前の検索文を文書検索サーバ１が受信しており、これについての検索履歴の情報が検索履歴ＤＢ１０８に記録されているものとする。セッションＩＤは、例えば所定の時間間隔を超えない間隔で受付けた検索文を同一セッションＩＤにより管理しても良いし、または、検索文入力画面において、“検索変更”等の指示を受付け、その情報を文書検索サーバ１で受信するまで同一セッションＩＤにより管理するようにしても良い。文書検索サーバ１は同一の内容を検索する一連の処理が終了したと判断するまで、後述する処理により端末３から受付けた検索文を同一セッションＩＤに対応付けて検索履歴ＤＢ１０８に記憶していく。

文書検索サーバ１において検索文を受付けると、文書ベクトル生成部１０２がその検索文を単語に分解する（ステップＳ１０１）。そして、文書ベクトル生成部１０２は、検索文内の単語を被関連語とし、その被関連語の単語を、関連語辞書ＤＢ１０６に記録されている関連語に置き換えて（ステップＳ１０２）、その置き換え後の検索文の検索文ベクトルを生成する（ステップＳ１０３）。なおこの時、置き換え後の検索文の検索文ベクトルに含まれる各単語の重みを関連度を用いて変更する処理を行う。そして文書検索部１０３は、置き換え後の検索文の検索文ベクトルと対象文書ベクトルとの成す角度を、検索文と検索対象文書の組み合わせ毎に計算する。

次に、文書ベクトル生成部１０２は、ベクトル検索の処理として、置き換え後の検索文の検索文ベクトルとの成す角度が小さい対象文書ベクトルを特定し、所定の数の検索対象文書を検索結果と決定する（ステップＳ１０４）。ここで、検索対象文書１０７に含まれる全ての検索対象文書の対象文書ベクトルと置き換え後の検索文の検索文ベクトルとを用いて検索処理を行っても良いし、また、検索対象文書ＤＢ１０７に含まれる検索対象文書のうち、置き換え後の検索文に含まれる何れかの単語を必ず含む複数の検索対象文書の対象文書ベクトルと置き換え後の検索文の検索文ベクトルとを用いて検索処理を行っても良い。なお、検索結果となる検索対象文書の決定の処理について、より詳細に後述する。

次に、検索結果が特定されると文書検索部１０３は、検索文に一意な検索ＩＤを生成する。そして検索結果として決定した検索対象文書の文書ＩＤと、件名の情報と、を検索対象文書ＤＢ１０７から読み取って、それら読み取った情報を、前記セッションＩＤ生成部２１から受付けたセッションＩＤと前記生成した検索ＩＤとに対応付けて検索履歴ＤＢ１０８に登録する。また文書検索部１０３は、検索文を形態素解析して各単語を抽出しそれら各単語についても対応付けて検索履歴ＤＢ１０８に登録する。また文書検索部１０３は、文書ベクトル生成部１０２が検索文ベクトルの生成に利用した関連語とその関連語の抽出に利用した被関連語の単語の組合せを、関連語ペアとして検索履歴ＤＢ１０８に登録する。以上の処理により文書検索サーバ１が検索の処理を完了する。

そして、制御部１０１が、検索結果として決定した検索対象文書の文書ＩＤと、件名の情報とをＷｅｂサーバ２へ送信する。次にＷｅｂサーバ２のウェブページ処理部２２が、検索結果として決定した検索対象文書の文書ＩＤと、件名の情報との一覧を表示する検索結果画面データを生成し、その検索結果画面のデータを端末３へ送信する。

端末３においては、検索結果画面に表示された件名の中に、ユーザが閲覧したいと希望する文書の内容を表す件名が表示されていれば、その件名の検索対象文書の表示指示が入力される。また検索結果画面に表示された件名の中に、ユーザが閲覧したいと希望する文書の内容を表す件名が表示されていなければ、その件名の検索対象文書の表示指示は入力されない。ここで、ある件名についての検索対象文書の表示指示が端末３に入力されると、端末３はその件名と文書ＩＤの情報を含む検索対象文書表示要求の情報をＷｅｂサーバ２へ送信する。Ｗｅｂサーバ２は検索対象文書表示要求の情報を文書検索サーバ１へ送信する。文書検索サーバ１は、この検索対象文書表示要求の情報を受付けるか否かによって、ユーザが検索結果の何れかの検索対象文書を閲覧したか否かを判定する（ステップＳ１０５）。そして閲覧したと判断した場合には、文書検索部１０３は文書ＩＤに関連づけられて検索対象文書ＤＢ１０７に記録されている本文の情報などを読み取り、制御部１０１を介してＷｅｂサーバ２へ送信する。Ｗｅｂサーバ２のウェブページ処理部は本文表示画面データを生成し、そのデータを端末３へ送信する。

この本文表示画面のデータを端末３へ送信する場合において、関連語学習部１０４は関連語辞書ＤＢ１０６の自動更新の処理を行う。この自動更新の処理は、関連語ペア候補の作成処理（ステップＳ１０６）、関連語ペア候補の関連語辞書ＤＢ１０６における登録済み判定処理（ステップＳ１０７）、未登録の関連語ペア候補の関連語辞書ＤＢ１０６への登録処理（ステップＳ１０８）、登録済みの関連語ペアの関連度増加処理（ステップＳ１０９）などが行われる。また関連語学習部１０４は、検索結果画面に表示された件名が選択されなかった場合（つまり検索結果の何れかの検索対象文書が全て閲覧されなかったと判定した場合）には、後述する処理により、置き換え後の検索文における、置き換え前の単語と置き換え後の単語からなる関連語ペアについての関連度減少の処理を行う（ステップＳ１１０）。また再度、検索文の情報を受付けるか否かの判定を行って（ステップＳ１１１）、検索文を受付けた場合には検索処理を開始する。

次に、ステップＳ１０５の処理において、検索結果画面の何れかの検索対象文書が閲覧されたと判定した場合の文書検索サーバ１のステップＳ１０５以降の詳細な処理フローについて説明する。
まず、本文表示画面を端末３に送信した後、関連語学習部１０４は、本文表示画面の送信を促した検索文の単語を読み取る。また、その検索文を受付けたセッションＩＤと同一のセッションＩＤに対応付けられて検索履歴ＤＢ１０８に記録されている他の検索文の検索ＩＤであって、閲覧文書の記録領域に情報が記録されていない検索ＩＤ（つまり検索結果画面において検索対象文書が全て閲覧されなかった検索文のＩＤ）の検索文の単語を読み取る。そして、それら読み取った単語同士を対応付けた関連語ペア候補を作成する（上記ステップＳ１０６の処理）。この時、本文表示画面の送信を促した検索文の単語を関連語、検索結果画面において検索対象文書が全て閲覧されなかった検索文の単語を被関連語とする。またその単語に対応する関連度の総和は０．５とする。この関連度の総和の値は適宜変更可能である。

この上記ステップＳ１０６の処理を図４を用いてより詳細に説明すると、まず、本文表示画面の送信を促した検索文の検索ＩＤが「Ｒ１０３」で、同一セッションの他の検索文の検索ＩＤであって検索結果画面において閲覧されなかった前回の検索文の検索ＩＤが「Ｒ１０２」および「Ｒ１０１」であるとすると、まず、検索ＩＤ「Ｒ１０３」と「Ｒ１０２」の組合せにより、検索ＩＤ「Ｒ１０３」の検索文には「圧縮ツール」と「復元」の単語（関連語）が、また検索ＩＤ「Ｒ１０２」の検索文には「ｃａｂ」の単語（被関連語）が含まれていることがわかる。従って、関連語学習部１０４は、「ｃａｂ」→「圧縮ツール」という関係と、「ｃａｂ」→「復元」という関係とを、関連語ペア候補として作成する。この時、今回の検索文に含まれる単語が２つであるので、「関連度の総和÷今回の検索文に含まれる単語数」＝「０．５÷２」によりそれぞれの関連語ペア候補の関連度を計算する。図７は、抽出した被関連語と関連語の関連語ペア候補とその関連度を示す第１の図である。

また図４において、関連語学習部１０４は、検索ＩＤ「Ｒ１０３」の検索文には「圧縮ツール」と「復元」の単語（関連語）が、また検索ＩＤ「Ｒ１０１」の検索文には「ｚｉｐ」と「展開」の単語（被関連語）が含まれていることを確認する。そして、「ｚｉｐ」→「圧縮ツール」、「ｚｉｐ」→「復元」、「展開」→「圧縮ツール」、「展開」→「復元」という４つの関係を関連語ペアとして抽出する。この時、関連度の計算は、被関連語「ｚｉｐ」に対して、検索ＩＤ「Ｒ１０１」の検索文の単語（関連語）が２つあるので、「ｚｉｐ」→「圧縮ツール」と「ｚｉｐ」→「復元」のそれぞれの関連度は「関連度の総和÷今回の検索文に含まれる単語数」＝０．２５である。また同様に、「展開」→「圧縮ツール」、「展開」→「復元」の各関連度も０．２５である。図８は、抽出した被関連語と関連語の関連語ペア候補とその関連度を示す第２の図である。

以上の図７や図８のような関連語ペア候補の作成によれば、同一セッションＩＤによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、検索結果が閲覧された検索文と閲覧されなかった検索文が関連している検索文であると考えることができるので、その検索結果が閲覧された検索文と閲覧されなかった検索文の単語同士を関連語ペアとして自動登録することができる。そしてこれにより関連語辞書ＤＢ１０６の登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。

また関連語学習部１０４は上述の処理以外にも次の処理により関連語ペア候補を作成する処理を行う。
関連語学習部１０４は、同一セッションＩＤに対応付けられた複数の検索ＩＤのうち、検索結果画面において検索対象文書が全て閲覧されなかった検索文の検索ＩＤを特定し、その検索ＩＤの検索文に基づいて検索した結果の検索対象文書の文書ＩＤを検索履歴ＤＢ１０８から読み取る。またその文書ＩＤに対応付けられて検索対象文書ＤＢ１０７に記録されている件名に含まれる単語（件名単語）を読み取る。そして、その読み取った単語に含まれていない単語を、検索結果から閲覧された件名に含まれる単語の中から取得する。そして、この取得した単語（関連語）と、検索対象文書が全て閲覧されなかった検索文に含まれる単語（被関連語）とを関係のある関連語ペアとして抽出する。以下、この処理についてより詳細に説明する。

まず、
１．検索対象文書が全て閲覧されなかった検索文に含まれる単語＜この単語のまとまりを、仮に検索文単語Ａとする＞を「ｚｉｐ」,「展開」とする。
また、
２．検索対象文書が全て閲覧されなかった検索結果画面に表示されている件名に含まれる単語＜この単語のまとまりを、仮に件名単語Ａとする＞を「ドライブ」,「フォルダ」,「エラー」,「コンピュータ」とする。
また、
３．検索結果画面において表示された件名が選択されて本文を送信した、当該検索結果画面に表示される件名に含まれる単語＜この単語のまとまりを、仮に件名単語Ｂとする＞を「圧縮」,「フォルダ」,「右クリック」とする。

このような場合において、以下のような処理として言い換えることができる。つまり、「ユーザが、検索文単語Ａを入力し、その結果、件名単語Ａが出力されるが、件名単語Ａを見ても、所望の検索対象文書が結果として得られていないと判定する。そしてさらに次の検索として検索文単語Ｂを入力し、その検索結果画面が出力されて、その画面に所望の検索対象文書の件名がある場合にはその件名に含まれる件名単語Ｂを選択する。」といった処理として言い換えることができる。

そして、この時、件名単語Ｂの単語群＜「圧縮」,「フォルダ」,「右クリック」＞から件名単語Ａの単語群＜「ドライブ」,「フォルダ」,「エラー」,「コンピュータ」＞に含まれる単語を除いた各単語＜「圧縮」,「右クリック」＞は、検索文単語Ａの単語群＜「ｚｉｐ」,「展開」＞に関係のある単語であると考えることができる。なぜなら、選択されなかった検索結果画面に表示されている各件名の単語は、所望の検索対象文書を表す単語としては不適格であるため、その不適格な単語を、選択された検索結果画面に表示されている件名の単語から除けば、選択されなかった検索結果画面の出力を促す検索文の各単語に関連があるといえるためである。従って、同一セッションＩＤによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、選択されなかった検索結果画面の出力を促す前の検索文の単語＜「ｚｉｐ」,「展開」＞（被関連語）と、次の検索文に基づいて出力された検索結果画面における選択された件名の単語のうち前の検索文によって出力された検索結果画面に表示されていない単語＜「圧縮」,「右クリック」＞（関連語）の、被関連語と関連語の４つの組合せを関連語ペア候補として抽出する。

以上の関連語ペアの抽出によれば、同一セッションＩＤによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、選択されなかった検索結果画面の出力を促す前の検索文の単語と、次の検索文に基づいて出力された検索結果画面における選択された件名の単語から、選択されなかった検索結果画面に表示されている件名の単語を除いた単語とは、それらが関連している検索文であると考えることができるので、その単語同士を関連語ペアとして自動登録することができる。そしてこれにより関連語辞書ＤＢ１０６の登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。

次に関連語学習部１０４は、上述の処理によって抽出した関連語ペア候補が関連語辞書ＤＢ１０６に登録されているか否かを判定する（上記ステップＳ１０７の処理）。そして既に関連語辞書ＤＢ１０６に登録されている場合には、その関連語ペアに対応付けられて関連語辞書ＤＢ１０６に記録されている関連度を増加させる処理を行う（上記ステップＳ１０８の処理）。また関連語辞書ＤＢ１０６に登録されていなければ、それら抽出した関連語ペア候補を関連語辞書ＤＢ１０６に登録する（上記ステップＳ１０９の処理）。この関連度の増加の処理において、関連語ペアが「ｃａｂ」→「復元」と「ｃａｂ」→「展開」であるとする。また既にこの関連語ペアについての関連度が関連語辞書ＤＢ１０６に登録されており、「ｃａｂ」→「復元」の関連語ペアの関連度が０．５、「ｃａｂ」→「展開」の関連語ペアの関連度が０．６であるとする。

まず、関連語学習部１０４は、上記ステップＳ１０５の処理において判断した、閲覧された検索対象文書の件名において、上述の処理によって作成した関連語ペア候補の関連語（復元，展開）を含む検索対象文書の文書ＩＤを検索履歴ＤＢ１０８より読み取る。そして、この文書ＩＤに対応付けられて検索対象文書ＤＢ１０７に記録されている文書ベクトルを読み取る。そして、この文書ベクトルのうちの関連語ペア候補の関連語（復元，展開）に対応するベクトル値を抽出する。ここで、復元のベクトル値がＷ１、展開のベクトル値がＷ２であるとする。なお上述したようにこのベクトル値は単語の文書内の重みの値により表されるものである。この重みの値は、従来のＴＦ（Term Frequency：一つの文書中での一つの単語の出現回数）値や、ＩＤＦ（inverse document frequency：全文書中での単語の出現頻度）値などの計算により予め算出されて記録されている値である。そして、関連語ペア候補に対する最大増加値を０．１とし、その値を関連語ペア候補の「関連語」のベクトル値で比例配分した値を、それぞれの「被関連語」→「関連語」の関連語ペアに割当てるとすると、「復元」を関連語とする関連語ペアにおいては、

０．１× Ｗ１／（Ｗ１＋Ｗ２）・・・（１）

また、「展開」を関連語とする関連語ペアにおいては、

０．１× Ｗ２／（Ｗ１＋Ｗ２）・・・（２）

により関連度の増加分を算出する。例えば、式（１）の計算結果が０．０１である場合には、「ｃａｂ」→「復元」の関連語ペアの関連度が０．５１へ、また、式（２）の計算結果が０．０９である場合には、「ｃａｂ」→「展開」の関連語ペアの関連度が０．６９へと増加される。なお関連語ペアに対する最大増加値を０．１としたが、この値はこれに限らず適宜設定可能である。

次に、上述の検索結果画面において、件名が選択されなかった場合の処理について説明する。次の検索文の情報が端末３から送信され、それを受信した場合や、端末３から“検索変更”等の指示の情報を受信した場合や、検索結果画面を出力してから所定の時間が経過したことを検出した場合などは、検索結果画面において表示されている件名が選択されなかったと判断する（上記ステップＳ１０５の処理）。そして、その検索結果画面の出力を促した検索文の検索ＩＤに対応付けられて検索履歴ＤＢ１０８に記録されている検索対象文書の文書ＩＤを検索結果の欄から読み取る。そして、その文書ＩＤに対応付けられて検索対象文書ＤＢ１０７に記録されている件名単語を読み取る。そしてその読み取った件名単語を関連語、前記検索文の単語を被関連語として、被関連語→関連語の関連語ペアの関連度を減算する。この削減の値は、例えば０．１以下である方が望ましい。なお、関連度ａは０≦ａ≦１の範囲で増減させることができる。この理由については後述する。

次に、上述の検索対象文書の検索についての詳細を説明する。
ステップＳ１０４の処理において、例えば、元の検索文に含まれる単語として「ｚｉｐ」、「展開」が含まれるとし、関連語ペアとして「ｚｉｐ」→「圧縮ツール」と「ｚｉｐ」→「復元」が関連語辞書ＤＢ１０６登録されているとする。この時、被関連語を関連語に置き換えた検索文に含まれる単語は「圧縮ツール」、「復元」、「展開」となる。置き換えた後の検索文に含まれる単語を利用して、従来のベクトル検索方と同じ手法により検索文ベクトルを生成する。今、置き換えによって検索文に含まれる単語が、
１．「圧縮ツール」
２．「復元」
３．「展開」
であり、関連語辞書ＤＢ１０６に登録されている関連語ペアが
ｚｉｐ（被関連語）→圧縮ツール（関連語）：０．２（関連度）
ｚｉｐ（被関連語）→復元（関連語）：０．３（関連度）
であるので、上記置き換え後の検索文に含まれる単語の検索対象文書における重みの値が（圧縮ツール、復元、展開）＝（Ｗ１、Ｗ２、Ｗ３）であるとすると、検索文ベクトルは、（Ｗ１×０．２、Ｗ２×０．３、Ｗ３）として計算される。つまり、置き換え後の検索文の検索文ベクトルを生成する際には、その検索文に含まれる単語の重みの値に、その単語を関連語とする関連度ペアに対応付けられている関連度を乗じて、その単語についてのベクトル値を算出する。また、検索対象文書のベクトル（対象文書ベクトル）は、検索文に含まれる単語の何れかを保持する検索対象文書の、当該検索文に含まれる単語に対応する重み成分により決定される。つまり、検索文に含まれる単語は「圧縮ツール」、「復元」、「展開」であり、その全ての単語を含む検索対象文書の対象文書ベクトルは、当該検索対象文書における「圧縮ツール」、「復元」、「展開」の各単語の重みにより表される。この重みの値は、検索対象文書ＤＢ１０７の文書ベクトル内に含まれる複数の値のうち、各単語に対応する値を取得することで得られる。

そして文書検索部１０３は、置き換え後の検索文の検索文ベクトルと対象文書ベクトルとの成す角度を、検索文と複数の検索対象文書の組み合わせ毎に計算する。そして、文書ベクトル生成部１０２は、検索文ベクトルとの成す角度が小さい対象文書ベクトルに対応する、所定の数の検索対象文書を検索結果と決定する。以上の処理により検索対象文書の検索を行う。ここで、対象文書ベクトルを計算する複数の検索対象文書は、検索対象文書１０７に含まれる全ての検索対象文書であってもよいし、検索対象文書１０７に含まれる検索対象文書のうち、検索文に含まれる単語を必ず含む複数の検索対象文書であってもよい。そして、文書検索部１０３は、その検索の処理を示す検索ＩＤに対応付けた検索履歴ＤＢ１０８へ検索結果として決定した検索対象文書の文書ＩＤを登録する。

この処理によれば、０≦関連度ａ≦１の範囲の値を示す関連度を、関連語への置き換え後の検索文に含まれる単語の重みの値に乗じて、その値によって検索文ベクトルを生成している。これにより関連語へ置き換えない検索文の検索文ベクトルに比べて、検索対象文書の対象文書ベクトルとの成す角度が小さくなる。従って、本来の検索文の検索文ベクトルと検索対象文書の対象文書ベクトルとの成す角度よりも、関連語への置き換え後の検索文の検索文ベクトルと検索対象文書の対象文書ベクトルとの成す角度の方が小さいことが予想される為、本来の検索文による結果を上位の検索結果とする検索結果画面を出力する事ができる。これにより、本来の検索文を用いた検索結果を優先した端末３への表示が可能となる。

そして次に、制御部１０１が、検索結果として決定した検索対象文書の文書ＩＤと、件名の情報とをＷｅｂサーバ２へ送信する。次にＷｅｂサーバ２のウェブページ処理部２２が、検索結果として決定した検索対象文書の文書ＩＤと、件名の情報との一覧を表示する検索結果画面を生成し、その検索結果画面のデータを端末３へ送信する。

なお上述の各サーバや端末は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

文書検索システムの構成を示すブロック図である。Ｗｅｂサーバと文書検索サーバの機能ブロックを示す図である。検索対象文書ＤＢが記憶するデータの構成を示す図である。検索履歴ＤＢが記憶するデータの構成を示す図である。関連語辞書ＤＢの記憶するデータの構成を示す図である。文書検索サーバの処理フローをを示す図である。被関連語と関連語の関連語ペアとその関連度を示す第１の図である。被関連語と関連語の関連語ペアとその関連度を示す第２の図である。

符号の説明

１・・・文書検索サーバ、２・・・Ｗｅｂサーバ、３・・・端末、１０１・・・制御部、１０２・・・文書ベクトル生成部、１０３・・・文書検索部、１０４・・・関連語学習部、１０５・・・形態素解析辞書ＤＢ、１０６・・・関連語辞書ＤＢ、１０７・・・検索対象文書ＤＢ、１０８・・・検索履歴ＤＢ、２１・・・セッションＩＤ生成部、２２・・・ウェブページ処理部

Claims

入力された検索文に関連する検索対象文書を出力する文書検索装置であって、
既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部と、
前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える検索語置換処理部と、
前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する検索対象文書抽出処理部と、
前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示できる検索結果画面データを生成する検索結果画面生成処理部と、
前記検索結果画面データを出力する検索結果画面出力処理部と、
を備えることを特徴とする文書検索装置。
前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定処理部と、
複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、
前記検索結果画面において件名が選択された際のその検索結果画面の出力を促した、検索文中の単語を関連語として検出する関連語検出処理部と、
当該検索と同一セッションにおいて、以前に前記検索結果画面の件名を選択しなかった検索を特定し、その検索文中の単語を被関連語として検出する被関連語検出処理部と、
前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて関連語辞書ＤＢに登録する関連語学習処理部と、
を備えることを特徴とする請求項１に記載の文書検索装置。
前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定手段と、
複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、
前記同一セッションにおいて入力された複数の検索文のうち、前回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面の件名が選択されなかった検索文を特定し、当該検索文中の単語を被関連語として検出する被関連語検出処理部と、
前記同一セッションにおいて入力された複数の検索文のうち、今回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面において選択された件名に含まれる単語のうち、前記前回入力された検索文の入力に応じて出力された前記検索結果画面の件名の中で表示されていない単語を、関連語として検出する関連語検出処理部と、
前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて登録する関連語学習処理部と、
を備えることを特徴とする請求項１に記載の文書検索装置。
前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に既に対応付けられて記憶されている場合には、所定の算出式に基づいて得られた関連度を、その被関連語と関連語に対応付けられて記憶されている関連度に加算する関連度増加処理部と、
を備えることを特徴とする請求項２または請求項３に記載の文書検索装置。
前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定処理部と、
前記出力した検索結果画面に表示する検索対象文書の件名のうち何れの件名についても選択されなかった場合には、その検索結果画面の出力に利用された前記検索文中の単語と、前記選択されなかった件名に含まれる単語の対応関係のうち、前記関連語記憶部に既に対応付けられて記憶されている対応関係を特定し、当該対応関係の各単語の組合せについて記録されている関連度を、所定の算出式に基づいて得られた関連度を用いて減算する関連度削減処理部と、
を備えることを特徴とする請求項１に記載の文書検索装置。
入力された検索文に関連する検索対象文書を出力する文書検索装置における文書検索方法であって、
関連語記憶部が、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶し、
検索語置換処理部が、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換え、
検索対象文書抽出処理部が、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出し、
検索結果画面生成処理部が、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成し、
検索結果画面出力処理部が、前記検索結果画面データを出力する、
ことを特徴とする文書検索方法。
既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部を備え、
前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムであって、
前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、
前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、
前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、
前記検索結果画面データを出力する処理と、
をコンピュータに実行させるプログラム。
既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部を備え、
前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムを記憶する記録媒体であって、
前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、
前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、
前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、
前記検索結果画面データを出力する処理と、
をコンピュータに実行させるプログラムを記憶する記録媒体。