JP2006309377A - 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体 - Google Patents
文書検索装置および文書検索方法ならびにそのプログラムと記録媒体 Download PDFInfo
- Publication number
- JP2006309377A JP2006309377A JP2005129079A JP2005129079A JP2006309377A JP 2006309377 A JP2006309377 A JP 2006309377A JP 2005129079 A JP2005129079 A JP 2005129079A JP 2005129079 A JP2005129079 A JP 2005129079A JP 2006309377 A JP2006309377 A JP 2006309377A
- Authority
- JP
- Japan
- Prior art keywords
- search
- word
- related word
- document
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 関連語辞書のデータベースを自動的に作成できる文書検索装置であって、従来よりも検索文に含まれる単語の関連語をより精度良く検出することで、さらなる文書検索の精度を上げることができる文書検索装置を提供する。
【解決手段】 検索文とその検索文内の単語を関連語に置き換えた検索文とにより、検索対象文書をベクトル検索する。そして、検索結果において、選択された件名に含まれる単語と、検索文に含まれる単語とを用いて関連語辞書のデータベースを自動生成する。
【選択図】 図1
【解決手段】 検索文とその検索文内の単語を関連語に置き換えた検索文とにより、検索対象文書をベクトル検索する。そして、検索結果において、選択された件名に含まれる単語と、検索文に含まれる単語とを用いて関連語辞書のデータベースを自動生成する。
【選択図】 図1
Description
本発明は、入力された検索文に関連する検索対象文書を出力する、文書検索装置および文書検索方法ならびにそのプログラムと記録媒体に関する。
近年、インターネットに接続されたWebサーバにアクセスしてWebページを端末へ表示する技術の普及や、大量の文書の電子化などにより、文書検索システムに関心が高まっている。文書検索システムにおいては、利用者は、検索文や検索語を入力し、所望の文書を得ることができる。ところで、文書検索システムにおいて、利用者が、文書に含まれていない単語を含む検索文で検索すると、検索に失敗したり、不適切な検索結果になったりするなどの問題が起こる。このような問題を解決するため、文書検索システムの中には、関連語辞書を備えこの問題に対処するものがある。このような文書検索システムは、利用者が入力した検索文の中に、検索対象文書に含まれない単語が現れると、単語の関連語を関連語辞書から取得し、単語を関連語に置き換えたり、追加したりして、検索文を補う処理を行う。ここで、この関連語辞書に人手で関連語を追加する作業は、労力がかかるので、半自動あるいは自動的に関連語を追加する手法が望まれる。なお、自動的に関連語辞書を作る方法として、特許文献1が公開されている。
特開平11−312168号公報
ここで、上述の特許文献1における同義語計算装置及びプログラムでは、検索履歴を取得し、その履歴が含む単語の時間間隔と頻度に基づき関連度を求め、関連度の高い単語同士を関連語辞書に登録する方法を提案している。この方法を文書検索システムに組み込めば、自動的に関連語辞書を作り、検索文を補うものができる。しかしこの方法だと、単純に時間間隔が近い単語同士が関連付けられてしまうので、検索に失敗したときや、所望の検索結果が得られないときの検索文に含まれる単語同士も、関連付けられてしまい、結果として、検索結果が改善されないという問題点があった。
そこでこの発明は、関連語辞書のデータベースを自動的に作成できる文書検索装置であって、従来よりも検索文に含まれる単語の関連語をより精度良く検出することで、さらなる文書検索の精度を上げることができる、文書検索装置および文書検索方法ならびにそのプログラムと記録媒体を提供することを目的としている。
本発明は、上述の課題を解決すべくなされたもので、入力された検索文に関連する検索対象文書を出力する文書検索装置であって、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部と、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える検索語置換処理部と、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する検索対象文書抽出処理部と、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示できる検索結果画面データを生成する検索結果画面生成処理部と、前記検索結果画面データを出力する検索結果画面出力処理部と、を備えることを特徴とする文書検索装置である。
本発明によれば、より精度高く検索対象文書を検索するために学習された、関連語への置き換えが行われる。その置き換え後の検索文によって検索処理が行われる。これにより、従来よりも精度の高い検索の処理を行うことができる。
また本発明は、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定処理部と、複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、前記検索結果画面において件名が選択された際のその検索結果画面の出力を促した、検索文中の単語を関連語として検出する関連語検出処理部と、当該検索と同一セッションにおいて、以前に前記検索結果画面の件名を選択しなかった検索を特定し、その検索文中の単語を被関連語として検出する被関連語検出処理部と、前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて関連語辞書DBに登録する関連語学習処理部と、を備えることを特徴とする。
本発明によれば、同一セッションの情報によって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、それらが関連している検索文であると考えることができるので、その複数の検索文に含まれる単語同士を関連語ペア(関連語と被関連語の組合せ)として自動登録することができる。そしてこれにより関連語辞書データベースの登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。
また本発明は、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定手段と、複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、前記同一セッションにおいて入力された複数の検索文のうち、前回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面の件名が選択されなかった検索文を特定し、当該検索文中の単語を被関連語として検出する被関連語検出処理部と、前記同一セッションにおいて入力された複数の検索文のうち、今回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面において選択された件名に含まれる単語のうち、前記前回入力された検索文の入力に応じて出力された前記検索結果画面の件名の中で表示されていない単語を、関連語として検出する関連語検出処理部と、前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて登録する関連語学習処理部と、を備えることを特徴とする。
本発明によれば、同一セッションIDによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、選択されなかった検索結果画面の出力を促す前の検索文の単語と、次の検索文に基づいて出力された検索結果画面における選択された件名の単語とは、それらが関連していると考えることができるので、その単語同士を関連語ペアとして自動登録することができる。そしてこれにより関連語辞書データベースの登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。
また本発明は、前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に既に対応付けられて記憶されている場合には、所定の算出式に基づいて得られた関連度を、その被関連語と関連語に対応付けられて記憶されている関連度に加算する関連度増加処理部と、を備えることを特徴とする。これにより関連の強い関連語ペアにおける被関連語と関連語に対応する関連度の自動修正を行うことができる。
また本発明は、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定処理部と、前記出力した検索結果画面に表示する検索対象文書の件名のうち何れの件名についても選択されなかった場合には、その検索結果画面の出力に利用された前記検索文中の単語と、前記選択されなかった件名に含まれる単語の対応関係のうち、前記関連語記憶部に既に対応付けられて記憶されている対応関係を特定し、当該対応関係の各単語の組合せについて記録されている関連度を、所定の算出式に基づいて得られた関連度を用いて減算する関連度削減処理部と、を備えることを特徴とする。これにより関連の弱い関連語ペアにおける被関連語と関連語に対応する関連度の自動修正を行うことができる。
また本発明は、入力された検索文に関連する検索対象文書を出力する文書検索装置における文書検索方法であって、関連語記憶部が、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶し、検索語置換処理部が、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換え、検索対象文書抽出処理部が、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出し、検索結果画面生成処理部が、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成し、検索結果画面出力処理部が、前記検索結果画面データを出力する、ことを特徴とする文書検索方法である。
また本発明は、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部を備え、前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムであって、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、前記検索結果画面データを出力する処理と、をコンピュータに実行させるプログラムである。
また本発明は、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部を備え、前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムを記憶する記録媒体であって、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、前記検索結果画面データを出力する処理と、をコンピュータに実行させるプログラムを記憶する記録媒体である。
以下、本発明の一実施形態による文書検索システム(文書検索装置)を図面を用いて説明する。図1は同実施形態による文書検索システムの構成を示すブロック図である。この図において、符号1は文書検索サーバである。また2はWebサーバである。また3はPC(Personal Computer)などの端末である。そして、文書検索サーバ1はWebサーバ2と通信ネットワークを介して接続され、また端末3はWebサーバとインターネットなどを介して接続されている。本実施形態においては、端末3がWebサーバ2にアクセスして検索文の情報を通知すると、Webサーバ2はその検索文の情報を文書検索サーバ3へ転送する。そして文書検索サーバ3が検索対象文書の中から検索文に関連する検索対象文書の情報をWebサーバへ出力する。またWebサーバ2は検索文に関連する検索対象文書の情報を表示するためのウェブページのデータを端末3へ送信する処理を行う。この過程において、文書検索サーバ1は、後述の処理により、検索精度の良い検索対象文書、つまり、従来にも増して検索文に内容の近い検索対象文書の情報を抽出する処理を行う。
図2はWebサーバと文書検索サーバの機能ブロックを示す図である。
この図が示すように、Webサーバ2はセッションID生成部21とウェブページ処理部22を備える。セッションIDは一連の文書検索を特定する識別情報であって、このセッションIDにより、ユーザが、ある内容の文書を検索した一連の処理において受付けた検索文を特定することが可能となる。セッションID生成部21はこのセッションIDを後述する処理により生成する。またウェブページ処理部22は検索文の情報の受け付けや、その検索結果のウェブページのデータを送信する処理を行う。
この図が示すように、Webサーバ2はセッションID生成部21とウェブページ処理部22を備える。セッションIDは一連の文書検索を特定する識別情報であって、このセッションIDにより、ユーザが、ある内容の文書を検索した一連の処理において受付けた検索文を特定することが可能となる。セッションID生成部21はこのセッションIDを後述する処理により生成する。またウェブページ処理部22は検索文の情報の受け付けや、その検索結果のウェブページのデータを送信する処理を行う。
また文書検索サーバ1において、101は各処理部を制御する制御部である。また102は検索文ベクトルと、対象文書ベクトルを生成する文書ベクトル生成部である。また103は複数の検索対象文書の中から、検索文に関連する所定の数の検索対象文書を抽出する処理を行う文書検索部である。また104は、検索文に含まれる単語の関連語をデータベースに登録する処理などを行う関連語学習部である。また105は、形態素解析を行う為の各単語などを記憶する形態素解析辞書DB(データベース)である。また106は、検索文に含まれる単語(被関連語)と、その単語に関連する単語(関連語)と、その単語の組合せの関連度とを対応付けて記憶する関連語辞書DBである。また107は、複数の検索対象文書を記憶する検索対象文書DBである。また108は、検索文の情報を受け付ける度に、その検索文により検索処理した際の情報の履歴を記憶する検索履歴DBである。
図3は、検索対象文書DBが記憶するデータの構成を示す図である。
この図が示すように検索対象文書DB107は、文書IDと件名の情報と、本文の情報と、文書ベクトルと、件名に含まれる単語の情報とを対応付けて記憶している。ここで、検索対象文書DB107の記憶する文書ベクトルは、件名と本文に含まれる単語のそれぞれの重みの値によって表される。
この図が示すように検索対象文書DB107は、文書IDと件名の情報と、本文の情報と、文書ベクトルと、件名に含まれる単語の情報とを対応付けて記憶している。ここで、検索対象文書DB107の記憶する文書ベクトルは、件名と本文に含まれる単語のそれぞれの重みの値によって表される。
図4は、検索履歴DBが記憶するデータの構成を示す図である。
この図が示すように検索履歴DB108は、セッションIDと、検索IDと、検索文単語と、検索結果と、閲覧文書と、関連語ペアとを対応付けて記憶している。ここで検索IDとは検索文の情報を受付けるごとの処理を識別するための情報である。また検索文単語は、検索文に含まれる単語である。また検索結果とは、検索文に基づいて文書検索サーバ1が検索した検索対象文書の文書IDである。また閲覧文書とは、検索結果のうち端末3を利用するユーザが閲覧した検索対象文書の文書IDである。また関連語ペアとは文書検索サーバ1において、検索文に含まれる単語(被関連語)と、当該単語に対応付けられて関連語辞書DB106に記憶されている単語(関連語)の組合せを記憶した情報である。
この図が示すように検索履歴DB108は、セッションIDと、検索IDと、検索文単語と、検索結果と、閲覧文書と、関連語ペアとを対応付けて記憶している。ここで検索IDとは検索文の情報を受付けるごとの処理を識別するための情報である。また検索文単語は、検索文に含まれる単語である。また検索結果とは、検索文に基づいて文書検索サーバ1が検索した検索対象文書の文書IDである。また閲覧文書とは、検索結果のうち端末3を利用するユーザが閲覧した検索対象文書の文書IDである。また関連語ペアとは文書検索サーバ1において、検索文に含まれる単語(被関連語)と、当該単語に対応付けられて関連語辞書DB106に記憶されている単語(関連語)の組合せを記憶した情報である。
図5は、関連語辞書DBの記憶するデータの構成を示す図である。
この図が示すように、関連語辞書DB106は、検索文に含まれる単語(被関連語)とその単語に関連する単語(関連語)と、それら単語の組合せにおける関連の強さを示す関連度a(0≦a≦1)とを対応付けて記憶する。なお、文書検索サーバ1は、後述の処理により関連語辞書DB106に記憶する被関連語と関連語の組合せについて、検索文が入力される度に、増加するか否かの判定処理や、増加、減少の処理を行う。また関連度aについても増加または減算する処理を行う。これにより、自動的に関連語辞書DB106の生成を行って管理者の労力を軽減し、また関連語辞書DB106の記憶する情報に基づいて、精度良い検索結果を出力する処理を行う。
この図が示すように、関連語辞書DB106は、検索文に含まれる単語(被関連語)とその単語に関連する単語(関連語)と、それら単語の組合せにおける関連の強さを示す関連度a(0≦a≦1)とを対応付けて記憶する。なお、文書検索サーバ1は、後述の処理により関連語辞書DB106に記憶する被関連語と関連語の組合せについて、検索文が入力される度に、増加するか否かの判定処理や、増加、減少の処理を行う。また関連度aについても増加または減算する処理を行う。これにより、自動的に関連語辞書DB106の生成を行って管理者の労力を軽減し、また関連語辞書DB106の記憶する情報に基づいて、精度良い検索結果を出力する処理を行う。
図6は文書検索サーバの処理フローを示す図である。
次に、図6を用いて、文書検索サーバの処理フローについて説明する。
まず、端末3のWebブラウザの機能よりアクセスを受付けたWebサーバ2は、文書検索の為の検索文入力画面を端末3に出力する。この検索文入力画面において端末3を利用するユーザが検索文を入力し、検索指示を与えると、端末3は検索文の情報をWebサーバ2へ送信する。するとWebサーバ2が検索文を受信し、セッションID生成部21がセッションIDを生成して、検索文とセッションIDとを文書検索サーバ1へ送信する。なお、この時既に同一セッションIDを示す前の検索文を文書検索サーバ1が受信しており、これについての検索履歴の情報が検索履歴DB108に記録されているものとする。セッションIDは、例えば所定の時間間隔を超えない間隔で受付けた検索文を同一セッションIDにより管理しても良いし、または、検索文入力画面において、“検索変更”等の指示を受付け、その情報を文書検索サーバ1で受信するまで同一セッションIDにより管理するようにしても良い。文書検索サーバ1は同一の内容を検索する一連の処理が終了したと判断するまで、後述する処理により端末3から受付けた検索文を同一セッションIDに対応付けて検索履歴DB108に記憶していく。
次に、図6を用いて、文書検索サーバの処理フローについて説明する。
まず、端末3のWebブラウザの機能よりアクセスを受付けたWebサーバ2は、文書検索の為の検索文入力画面を端末3に出力する。この検索文入力画面において端末3を利用するユーザが検索文を入力し、検索指示を与えると、端末3は検索文の情報をWebサーバ2へ送信する。するとWebサーバ2が検索文を受信し、セッションID生成部21がセッションIDを生成して、検索文とセッションIDとを文書検索サーバ1へ送信する。なお、この時既に同一セッションIDを示す前の検索文を文書検索サーバ1が受信しており、これについての検索履歴の情報が検索履歴DB108に記録されているものとする。セッションIDは、例えば所定の時間間隔を超えない間隔で受付けた検索文を同一セッションIDにより管理しても良いし、または、検索文入力画面において、“検索変更”等の指示を受付け、その情報を文書検索サーバ1で受信するまで同一セッションIDにより管理するようにしても良い。文書検索サーバ1は同一の内容を検索する一連の処理が終了したと判断するまで、後述する処理により端末3から受付けた検索文を同一セッションIDに対応付けて検索履歴DB108に記憶していく。
文書検索サーバ1において検索文を受付けると、文書ベクトル生成部102がその検索文を単語に分解する(ステップS101)。そして、文書ベクトル生成部102は、検索文内の単語を被関連語とし、その被関連語の単語を、関連語辞書DB106に記録されている関連語に置き換えて(ステップS102)、その置き換え後の検索文の検索文ベクトルを生成する(ステップS103)。なおこの時、置き換え後の検索文の検索文ベクトルに含まれる各単語の重みを関連度を用いて変更する処理を行う。そして文書検索部103は、置き換え後の検索文の検索文ベクトルと対象文書ベクトルとの成す角度を、検索文と検索対象文書の組み合わせ毎に計算する。
次に、文書ベクトル生成部102は、ベクトル検索の処理として、置き換え後の検索文の検索文ベクトルとの成す角度が小さい対象文書ベクトルを特定し、所定の数の検索対象文書を検索結果と決定する(ステップS104)。ここで、検索対象文書107に含まれる全ての検索対象文書の対象文書ベクトルと置き換え後の検索文の検索文ベクトルとを用いて検索処理を行っても良いし、また、検索対象文書DB107に含まれる検索対象文書のうち、置き換え後の検索文に含まれる何れかの単語を必ず含む複数の検索対象文書の対象文書ベクトルと置き換え後の検索文の検索文ベクトルとを用いて検索処理を行っても良い。なお、検索結果となる検索対象文書の決定の処理について、より詳細に後述する。
次に、検索結果が特定されると文書検索部103は、検索文に一意な検索IDを生成する。そして検索結果として決定した検索対象文書の文書IDと、件名の情報と、を検索対象文書DB107から読み取って、それら読み取った情報を、前記セッションID生成部21から受付けたセッションIDと前記生成した検索IDとに対応付けて検索履歴DB108に登録する。また文書検索部103は、検索文を形態素解析して各単語を抽出しそれら各単語についても対応付けて検索履歴DB108に登録する。また文書検索部103は、文書ベクトル生成部102が検索文ベクトルの生成に利用した関連語とその関連語の抽出に利用した被関連語の単語の組合せを、関連語ペアとして検索履歴DB108に登録する。以上の処理により文書検索サーバ1が検索の処理を完了する。
そして、制御部101が、検索結果として決定した検索対象文書の文書IDと、件名の情報とをWebサーバ2へ送信する。次にWebサーバ2のウェブページ処理部22が、検索結果として決定した検索対象文書の文書IDと、件名の情報との一覧を表示する検索結果画面データを生成し、その検索結果画面のデータを端末3へ送信する。
端末3においては、検索結果画面に表示された件名の中に、ユーザが閲覧したいと希望する文書の内容を表す件名が表示されていれば、その件名の検索対象文書の表示指示が入力される。また検索結果画面に表示された件名の中に、ユーザが閲覧したいと希望する文書の内容を表す件名が表示されていなければ、その件名の検索対象文書の表示指示は入力されない。ここで、ある件名についての検索対象文書の表示指示が端末3に入力されると、端末3はその件名と文書IDの情報を含む検索対象文書表示要求の情報をWebサーバ2へ送信する。Webサーバ2は検索対象文書表示要求の情報を文書検索サーバ1へ送信する。文書検索サーバ1は、この検索対象文書表示要求の情報を受付けるか否かによって、ユーザが検索結果の何れかの検索対象文書を閲覧したか否かを判定する(ステップS105)。そして閲覧したと判断した場合には、文書検索部103は文書IDに関連づけられて検索対象文書DB107に記録されている本文の情報などを読み取り、制御部101を介してWebサーバ2へ送信する。Webサーバ2のウェブページ処理部は本文表示画面データを生成し、そのデータを端末3へ送信する。
この本文表示画面のデータを端末3へ送信する場合において、関連語学習部104は関連語辞書DB106の自動更新の処理を行う。この自動更新の処理は、関連語ペア候補の作成処理(ステップS106)、関連語ペア候補の関連語辞書DB106における登録済み判定処理(ステップS107)、未登録の関連語ペア候補の関連語辞書DB106への登録処理(ステップS108)、登録済みの関連語ペアの関連度増加処理(ステップS109)などが行われる。また関連語学習部104は、検索結果画面に表示された件名が選択されなかった場合(つまり検索結果の何れかの検索対象文書が全て閲覧されなかったと判定した場合)には、後述する処理により、置き換え後の検索文における、置き換え前の単語と置き換え後の単語からなる関連語ペアについての関連度減少の処理を行う(ステップS110)。また再度、検索文の情報を受付けるか否かの判定を行って(ステップS111)、検索文を受付けた場合には検索処理を開始する。
次に、ステップS105の処理において、検索結果画面の何れかの検索対象文書が閲覧されたと判定した場合の文書検索サーバ1のステップS105以降の詳細な処理フローについて説明する。
まず、本文表示画面を端末3に送信した後、関連語学習部104は、本文表示画面の送信を促した検索文の単語を読み取る。また、その検索文を受付けたセッションIDと同一のセッションIDに対応付けられて検索履歴DB108に記録されている他の検索文の検索IDであって、閲覧文書の記録領域に情報が記録されていない検索ID(つまり検索結果画面において検索対象文書が全て閲覧されなかった検索文のID)の検索文の単語を読み取る。そして、それら読み取った単語同士を対応付けた関連語ペア候補を作成する(上記ステップS106の処理)。この時、本文表示画面の送信を促した検索文の単語を関連語、検索結果画面において検索対象文書が全て閲覧されなかった検索文の単語を被関連語とする。またその単語に対応する関連度の総和は0.5とする。この関連度の総和の値は適宜変更可能である。
まず、本文表示画面を端末3に送信した後、関連語学習部104は、本文表示画面の送信を促した検索文の単語を読み取る。また、その検索文を受付けたセッションIDと同一のセッションIDに対応付けられて検索履歴DB108に記録されている他の検索文の検索IDであって、閲覧文書の記録領域に情報が記録されていない検索ID(つまり検索結果画面において検索対象文書が全て閲覧されなかった検索文のID)の検索文の単語を読み取る。そして、それら読み取った単語同士を対応付けた関連語ペア候補を作成する(上記ステップS106の処理)。この時、本文表示画面の送信を促した検索文の単語を関連語、検索結果画面において検索対象文書が全て閲覧されなかった検索文の単語を被関連語とする。またその単語に対応する関連度の総和は0.5とする。この関連度の総和の値は適宜変更可能である。
この上記ステップS106の処理を図4を用いてより詳細に説明すると、まず、本文表示画面の送信を促した検索文の検索IDが「R103」で、同一セッションの他の検索文の検索IDであって検索結果画面において閲覧されなかった前回の検索文の検索IDが「R102」および「R101」であるとすると、まず、検索ID「R103」と「R102」の組合せにより、検索ID「R103」の検索文には「圧縮ツール」と「復元」の単語(関連語)が、また検索ID「R102」の検索文には「cab」の単語(被関連語)が含まれていることがわかる。従って、関連語学習部104は、「cab」→「圧縮ツール」という関係と、「cab」→「復元」という関係とを、関連語ペア候補として作成する。この時、今回の検索文に含まれる単語が2つであるので、「関連度の総和÷今回の検索文に含まれる単語数」=「0.5÷2」によりそれぞれの関連語ペア候補の関連度を計算する。図7は、抽出した被関連語と関連語の関連語ペア候補とその関連度を示す第1の図である。
また図4において、関連語学習部104は、検索ID「R103」の検索文には「圧縮ツール」と「復元」の単語(関連語)が、また検索ID「R101」の検索文には「zip」と「展開」の単語(被関連語)が含まれていることを確認する。そして、「zip」→「圧縮ツール」、「zip」→「復元」、「展開」→「圧縮ツール」、「展開」→「復元」という4つの関係を関連語ペアとして抽出する。この時、関連度の計算は、被関連語「zip」に対して、検索ID「R101」の検索文の単語(関連語)が2つあるので、「zip」→「圧縮ツール」と「zip」→「復元」のそれぞれの関連度は「関連度の総和÷今回の検索文に含まれる単語数」=0.25である。また同様に、「展開」→「圧縮ツール」、「展開」→「復元」の各関連度も0.25である。図8は、抽出した被関連語と関連語の関連語ペア候補とその関連度を示す第2の図である。
以上の図7や図8のような関連語ペア候補の作成によれば、同一セッションIDによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、検索結果が閲覧された検索文と閲覧されなかった検索文が関連している検索文であると考えることができるので、その検索結果が閲覧された検索文と閲覧されなかった検索文の単語同士を関連語ペアとして自動登録することができる。そしてこれにより関連語辞書DB106の登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。
また関連語学習部104は上述の処理以外にも次の処理により関連語ペア候補を作成する処理を行う。
関連語学習部104は、同一セッションIDに対応付けられた複数の検索IDのうち、検索結果画面において検索対象文書が全て閲覧されなかった検索文の検索IDを特定し、その検索IDの検索文に基づいて検索した結果の検索対象文書の文書IDを検索履歴DB108から読み取る。またその文書IDに対応付けられて検索対象文書DB107に記録されている件名に含まれる単語(件名単語)を読み取る。そして、その読み取った単語に含まれていない単語を、検索結果から閲覧された件名に含まれる単語の中から取得する。そして、この取得した単語(関連語)と、検索対象文書が全て閲覧されなかった検索文に含まれる単語(被関連語)とを関係のある関連語ペアとして抽出する。以下、この処理についてより詳細に説明する。
関連語学習部104は、同一セッションIDに対応付けられた複数の検索IDのうち、検索結果画面において検索対象文書が全て閲覧されなかった検索文の検索IDを特定し、その検索IDの検索文に基づいて検索した結果の検索対象文書の文書IDを検索履歴DB108から読み取る。またその文書IDに対応付けられて検索対象文書DB107に記録されている件名に含まれる単語(件名単語)を読み取る。そして、その読み取った単語に含まれていない単語を、検索結果から閲覧された件名に含まれる単語の中から取得する。そして、この取得した単語(関連語)と、検索対象文書が全て閲覧されなかった検索文に含まれる単語(被関連語)とを関係のある関連語ペアとして抽出する。以下、この処理についてより詳細に説明する。
まず、
1.検索対象文書が全て閲覧されなかった検索文に含まれる単語<この単語のまとまりを、仮に検索文単語Aとする>を「zip」,「展開」とする。
また、
2.検索対象文書が全て閲覧されなかった検索結果画面に表示されている件名に含まれる単語<この単語のまとまりを、仮に件名単語Aとする>を「ドライブ」,「フォルダ」,「エラー」,「コンピュータ」とする。
また、
3.検索結果画面において表示された件名が選択されて本文を送信した、当該検索結果画面に表示される件名に含まれる単語<この単語のまとまりを、仮に件名単語Bとする>を「圧縮」,「フォルダ」,「右クリック」とする。
1.検索対象文書が全て閲覧されなかった検索文に含まれる単語<この単語のまとまりを、仮に検索文単語Aとする>を「zip」,「展開」とする。
また、
2.検索対象文書が全て閲覧されなかった検索結果画面に表示されている件名に含まれる単語<この単語のまとまりを、仮に件名単語Aとする>を「ドライブ」,「フォルダ」,「エラー」,「コンピュータ」とする。
また、
3.検索結果画面において表示された件名が選択されて本文を送信した、当該検索結果画面に表示される件名に含まれる単語<この単語のまとまりを、仮に件名単語Bとする>を「圧縮」,「フォルダ」,「右クリック」とする。
このような場合において、以下のような処理として言い換えることができる。つまり、「ユーザが、検索文単語Aを入力し、その結果、件名単語Aが出力されるが、件名単語Aを見ても、所望の検索対象文書が結果として得られていないと判定する。そしてさらに次の検索として検索文単語Bを入力し、その検索結果画面が出力されて、その画面に所望の検索対象文書の件名がある場合にはその件名に含まれる件名単語Bを選択する。」といった処理として言い換えることができる。
そして、この時、件名単語Bの単語群<「圧縮」,「フォルダ」,「右クリック」>から件名単語Aの単語群<「ドライブ」,「フォルダ」,「エラー」,「コンピュータ」>に含まれる単語を除いた各単語<「圧縮」,「右クリック」>は、検索文単語Aの単語群<「zip」,「展開」>に関係のある単語であると考えることができる。なぜなら、選択されなかった検索結果画面に表示されている各件名の単語は、所望の検索対象文書を表す単語としては不適格であるため、その不適格な単語を、選択された検索結果画面に表示されている件名の単語から除けば、選択されなかった検索結果画面の出力を促す検索文の各単語に関連があるといえるためである。従って、同一セッションIDによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、選択されなかった検索結果画面の出力を促す前の検索文の単語<「zip」,「展開」>(被関連語)と、次の検索文に基づいて出力された検索結果画面における選択された件名の単語のうち前の検索文によって出力された検索結果画面に表示されていない単語<「圧縮」,「右クリック」>(関連語)の、被関連語と関連語の4つの組合せを関連語ペア候補として抽出する。
以上の関連語ペアの抽出によれば、同一セッションIDによって管理される一連の検索処理において、ユーザが異なる検索文を入力した場合には、選択されなかった検索結果画面の出力を促す前の検索文の単語と、次の検索文に基づいて出力された検索結果画面における選択された件名の単語から、選択されなかった検索結果画面に表示されている件名の単語を除いた単語とは、それらが関連している検索文であると考えることができるので、その単語同士を関連語ペアとして自動登録することができる。そしてこれにより関連語辞書DB106の登録の管理者の作業を軽減することができる。また関連語ペアの登録を多くすることで、ユーザが入力した検索文に含まれる単語以外の関連語での検索も自動的に行われるので、従来よりも検索の精度を向上させることができる。
次に関連語学習部104は、上述の処理によって抽出した関連語ペア候補が関連語辞書DB106に登録されているか否かを判定する(上記ステップS107の処理)。そして既に関連語辞書DB106に登録されている場合には、その関連語ペアに対応付けられて関連語辞書DB106に記録されている関連度を増加させる処理を行う(上記ステップS108の処理)。また関連語辞書DB106に登録されていなければ、それら抽出した関連語ペア候補を関連語辞書DB106に登録する(上記ステップS109の処理)。この関連度の増加の処理において、関連語ペアが「cab」→「復元」と「cab」→「展開」であるとする。また既にこの関連語ペアについての関連度が関連語辞書DB106に登録されており、「cab」→「復元」の関連語ペアの関連度が0.5、「cab」→「展開」の関連語ペアの関連度が0.6であるとする。
まず、関連語学習部104は、上記ステップS105の処理において判断した、閲覧された検索対象文書の件名において、上述の処理によって作成した関連語ペア候補の関連語(復元,展開)を含む検索対象文書の文書IDを検索履歴DB108より読み取る。そして、この文書IDに対応付けられて検索対象文書DB107に記録されている文書ベクトルを読み取る。そして、この文書ベクトルのうちの関連語ペア候補の関連語(復元,展開)に対応するベクトル値を抽出する。ここで、復元のベクトル値がW1、展開のベクトル値がW2であるとする。なお上述したようにこのベクトル値は単語の文書内の重みの値により表されるものである。この重みの値は、従来のTF(Term Frequency:一つの文書中での一つの単語の出現回数)値や、IDF(inverse document frequency:全文書中での単語の出現頻度)値などの計算により予め算出されて記録されている値である。そして、関連語ペア候補に対する最大増加値を0.1とし、その値を関連語ペア候補の「関連語」のベクトル値で比例配分した値を、それぞれの「被関連語」→「関連語」の関連語ペアに割当てるとすると、「復元」を関連語とする関連語ペアにおいては、
0.1× W1/(W1 + W2)・・・(1)
また、「展開」を関連語とする関連語ペアにおいては、
0.1× W2/(W1 + W2)・・・(2)
により関連度の増加分を算出する。例えば、式(1)の計算結果が0.01である場合には、「cab」→「復元」の関連語ペアの関連度が0.51へ、また、式(2)の計算結果が0.09である場合には、「cab」→「展開」の関連語ペアの関連度が0.69へと増加される。なお関連語ペアに対する最大増加値を0.1としたが、この値はこれに限らず適宜設定可能である。
次に、上述の検索結果画面において、件名が選択されなかった場合の処理について説明する。次の検索文の情報が端末3から送信され、それを受信した場合や、端末3から“検索変更”等の指示の情報を受信した場合や、検索結果画面を出力してから所定の時間が経過したことを検出した場合などは、検索結果画面において表示されている件名が選択されなかったと判断する(上記ステップS105の処理)。そして、その検索結果画面の出力を促した検索文の検索IDに対応付けられて検索履歴DB108に記録されている検索対象文書の文書IDを検索結果の欄から読み取る。そして、その文書IDに対応付けられて検索対象文書DB107に記録されている件名単語を読み取る。そしてその読み取った件名単語を関連語、前記検索文の単語を被関連語として、被関連語→関連語の関連語ペアの関連度を減算する。この削減の値は、例えば0.1以下である方が望ましい。なお、関連度aは0≦a≦1の範囲で増減させることができる。この理由については後述する。
次に、上述の検索対象文書の検索についての詳細を説明する。
ステップS104の処理において、例えば、元の検索文に含まれる単語として「zip」、「展開」が含まれるとし、関連語ペアとして「zip」→「圧縮ツール」と「zip」→「復元」が関連語辞書DB106登録されているとする。この時、被関連語を関連語に置き換えた検索文に含まれる単語は「圧縮ツール」、「復元」、「展開」となる。置き換えた後の検索文に含まれる単語を利用して、従来のベクトル検索方と同じ手法により検索文ベクトルを生成する。今、置き換えによって検索文に含まれる単語が、
1.「圧縮ツール」
2.「復元」
3.「展開」
であり、関連語辞書DB106に登録されている関連語ペアが
zip(被関連語)→圧縮ツール(関連語):0.2(関連度)
zip(被関連語)→復元(関連語) :0.3(関連度)
であるので、上記置き換え後の検索文に含まれる単語の検索対象文書における重みの値が(圧縮ツール、復元、展開)=(W1、W2、W3)であるとすると、検索文ベクトルは、(W1×0.2、W2×0.3、W3)として計算される。つまり、置き換え後の検索文の検索文ベクトルを生成する際には、その検索文に含まれる単語の重みの値に、その単語を関連語とする関連度ペアに対応付けられている関連度を乗じて、その単語についてのベクトル値を算出する。また、検索対象文書のベクトル(対象文書ベクトル)は、検索文に含まれる単語の何れかを保持する検索対象文書の、当該検索文に含まれる単語に対応する重み成分により決定される。つまり、検索文に含まれる単語は「圧縮ツール」、「復元」、「展開」であり、その全ての単語を含む検索対象文書の対象文書ベクトルは、当該検索対象文書における「圧縮ツール」、「復元」、「展開」の各単語の重みにより表される。この重みの値は、検索対象文書DB107の文書ベクトル内に含まれる複数の値のうち、各単語に対応する値を取得することで得られる。
ステップS104の処理において、例えば、元の検索文に含まれる単語として「zip」、「展開」が含まれるとし、関連語ペアとして「zip」→「圧縮ツール」と「zip」→「復元」が関連語辞書DB106登録されているとする。この時、被関連語を関連語に置き換えた検索文に含まれる単語は「圧縮ツール」、「復元」、「展開」となる。置き換えた後の検索文に含まれる単語を利用して、従来のベクトル検索方と同じ手法により検索文ベクトルを生成する。今、置き換えによって検索文に含まれる単語が、
1.「圧縮ツール」
2.「復元」
3.「展開」
であり、関連語辞書DB106に登録されている関連語ペアが
zip(被関連語)→圧縮ツール(関連語):0.2(関連度)
zip(被関連語)→復元(関連語) :0.3(関連度)
であるので、上記置き換え後の検索文に含まれる単語の検索対象文書における重みの値が(圧縮ツール、復元、展開)=(W1、W2、W3)であるとすると、検索文ベクトルは、(W1×0.2、W2×0.3、W3)として計算される。つまり、置き換え後の検索文の検索文ベクトルを生成する際には、その検索文に含まれる単語の重みの値に、その単語を関連語とする関連度ペアに対応付けられている関連度を乗じて、その単語についてのベクトル値を算出する。また、検索対象文書のベクトル(対象文書ベクトル)は、検索文に含まれる単語の何れかを保持する検索対象文書の、当該検索文に含まれる単語に対応する重み成分により決定される。つまり、検索文に含まれる単語は「圧縮ツール」、「復元」、「展開」であり、その全ての単語を含む検索対象文書の対象文書ベクトルは、当該検索対象文書における「圧縮ツール」、「復元」、「展開」の各単語の重みにより表される。この重みの値は、検索対象文書DB107の文書ベクトル内に含まれる複数の値のうち、各単語に対応する値を取得することで得られる。
そして文書検索部103は、置き換え後の検索文の検索文ベクトルと対象文書ベクトルとの成す角度を、検索文と複数の検索対象文書の組み合わせ毎に計算する。そして、文書ベクトル生成部102は、検索文ベクトルとの成す角度が小さい対象文書ベクトルに対応する、所定の数の検索対象文書を検索結果と決定する。以上の処理により検索対象文書の検索を行う。ここで、対象文書ベクトルを計算する複数の検索対象文書は、検索対象文書107に含まれる全ての検索対象文書であってもよいし、検索対象文書107に含まれる検索対象文書のうち、検索文に含まれる単語を必ず含む複数の検索対象文書であってもよい。そして、文書検索部103は、その検索の処理を示す検索IDに対応付けた検索履歴DB108へ検索結果として決定した検索対象文書の文書IDを登録する。
この処理によれば、0≦関連度a≦1の範囲の値を示す関連度を、関連語への置き換え後の検索文に含まれる単語の重みの値に乗じて、その値によって検索文ベクトルを生成している。これにより関連語へ置き換えない検索文の検索文ベクトルに比べて、検索対象文書の対象文書ベクトルとの成す角度が小さくなる。従って、本来の検索文の検索文ベクトルと検索対象文書の対象文書ベクトルとの成す角度よりも、関連語への置き換え後の検索文の検索文ベクトルと検索対象文書の対象文書ベクトルとの成す角度の方が小さいことが予想される為、本来の検索文による結果を上位の検索結果とする検索結果画面を出力する事ができる。これにより、本来の検索文を用いた検索結果を優先した端末3への表示が可能となる。
そして次に、制御部101が、検索結果として決定した検索対象文書の文書IDと、件名の情報とをWebサーバ2へ送信する。次にWebサーバ2のウェブページ処理部22が、検索結果として決定した検索対象文書の文書IDと、件名の情報との一覧を表示する検索結果画面を生成し、その検索結果画面のデータを端末3へ送信する。
なお上述の各サーバや端末は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1・・・文書検索サーバ、2・・・Webサーバ、3・・・端末、101・・・制御部、102・・・文書ベクトル生成部、103・・・文書検索部、104・・・関連語学習部、105・・・形態素解析辞書DB、106・・・関連語辞書DB、107・・・検索対象文書DB、108・・・検索履歴DB、21・・・セッションID生成部、22・・・ウェブページ処理部
Claims (8)
- 入力された検索文に関連する検索対象文書を出力する文書検索装置であって、
既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部と、
前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える検索語置換処理部と、
前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する検索対象文書抽出処理部と、
前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示できる検索結果画面データを生成する検索結果画面生成処理部と、
前記検索結果画面データを出力する検索結果画面出力処理部と、
を備えることを特徴とする文書検索装置。 - 前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定処理部と、
複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、
前記検索結果画面において件名が選択された際のその検索結果画面の出力を促した、検索文中の単語を関連語として検出する関連語検出処理部と、
当該検索と同一セッションにおいて、以前に前記検索結果画面の件名を選択しなかった検索を特定し、その検索文中の単語を被関連語として検出する被関連語検出処理部と、
前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて関連語辞書DBに登録する関連語学習処理部と、
を備えることを特徴とする請求項1に記載の文書検索装置。 - 前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定手段と、
複数に渡り前記検索文が入力された場合のそれら各検索文が、同一セッションであるか否かを判定する同一セッション判定処理部と、
前記同一セッションにおいて入力された複数の検索文のうち、前回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面の件名が選択されなかった検索文を特定し、当該検索文中の単語を被関連語として検出する被関連語検出処理部と、
前記同一セッションにおいて入力された複数の検索文のうち、今回入力された検索文であってその検索文の入力に応じて出力された前記検索結果画面において選択された件名に含まれる単語のうち、前記前回入力された検索文の入力に応じて出力された前記検索結果画面の件名の中で表示されていない単語を、関連語として検出する関連語検出処理部と、
前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に予め対応付けられて記憶されていない場合には、その被関連語と関連語の対応関係と所定の関連度とを対応付けて登録する関連語学習処理部と、
を備えることを特徴とする請求項1に記載の文書検索装置。 - 前記検出した被関連語と関連語の対応関係が、前記関連語記憶部に既に対応付けられて記憶されている場合には、所定の算出式に基づいて得られた関連度を、その被関連語と関連語に対応付けられて記憶されている関連度に加算する関連度増加処理部と、
を備えることを特徴とする請求項2または請求項3に記載の文書検索装置。 - 前記出力した検索結果画面に表示する検索対象文書の件名のうち何れかの件名が選択されたか否かを、少なくとも当該件名の選択により受付ける前記検索対象文書の表示指示に基づいて検出する件名選択判定処理部と、
前記出力した検索結果画面に表示する検索対象文書の件名のうち何れの件名についても選択されなかった場合には、その検索結果画面の出力に利用された前記検索文中の単語と、前記選択されなかった件名に含まれる単語の対応関係のうち、前記関連語記憶部に既に対応付けられて記憶されている対応関係を特定し、当該対応関係の各単語の組合せについて記録されている関連度を、所定の算出式に基づいて得られた関連度を用いて減算する関連度削減処理部と、
を備えることを特徴とする請求項1に記載の文書検索装置。 - 入力された検索文に関連する検索対象文書を出力する文書検索装置における文書検索方法であって、
関連語記憶部が、既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶し、
検索語置換処理部が、前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換え、
検索対象文書抽出処理部が、前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出し、
検索結果画面生成処理部が、前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成し、
検索結果画面出力処理部が、前記検索結果画面データを出力する、
ことを特徴とする文書検索方法。 - 既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部を備え、
前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムであって、
前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、
前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、
前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、
前記検索結果画面データを出力する処理と、
をコンピュータに実行させるプログラム。 - 既に学習された情報として、前記検索文に含まれる単語を被関連語とその被関連語に関連する関連語との対応関係の情報を記憶し、またそれら被関連語と関連語との関連の強さを示す関連度を対応付けて記憶する関連語記憶部を備え、
前記検索文に関連する検索対象文書を出力する文書検索装置のコンピュータに実行させるプログラムを記憶する記録媒体であって、
前記検索文に含まれる各単語のうち、前記関連語記憶部に前記関連語が対応付けられて記憶されている単語については、その関連語に置き換える処理と、
前記置き換え後の検索文のうち、置き換えた単語についてはその単語の重みに前記関連度を乗じた値を用いて、当該置き換え後の検索文の各単語の検索文書ベクトルを生成し、また、当該置き換え後の検索文に含まれる各単語の前記検索対象文書における重みの値に基づいて対象文書ベクトルを生成し、それら検索文書ベクトルと対象文書ベクトルと、の成す角度に応じて、当該成す角度が小さい所定の数の検索対象文書を、検索対象文書記憶部に記憶している複数の検索対象文書の中から抽出する処理と、
前記抽出された検索文書の件名を、前記検索文書ベクトルと対象文書ベクトルとの成す角度に応じて順次表示する検索結果画面データを生成する処理と、
前記検索結果画面データを出力する処理と、
をコンピュータに実行させるプログラムを記憶する記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005129079A JP2006309377A (ja) | 2005-04-27 | 2005-04-27 | 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005129079A JP2006309377A (ja) | 2005-04-27 | 2005-04-27 | 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006309377A true JP2006309377A (ja) | 2006-11-09 |
Family
ID=37476211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005129079A Withdrawn JP2006309377A (ja) | 2005-04-27 | 2005-04-27 | 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006309377A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014153744A (ja) * | 2013-02-05 | 2014-08-25 | Nippon Hoso Kyokai <Nhk> | 情報検索装置及び情報検索プログラム |
JP2015014980A (ja) * | 2013-07-08 | 2015-01-22 | 国立大学法人九州大学 | 検索システム |
CN111274808A (zh) * | 2020-02-11 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 文本检索方法、模型训练方法、文本检索装置及存储介质 |
JP2020102035A (ja) * | 2018-12-21 | 2020-07-02 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
-
2005
- 2005-04-27 JP JP2005129079A patent/JP2006309377A/ja not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014153744A (ja) * | 2013-02-05 | 2014-08-25 | Nippon Hoso Kyokai <Nhk> | 情報検索装置及び情報検索プログラム |
JP2015014980A (ja) * | 2013-07-08 | 2015-01-22 | 国立大学法人九州大学 | 検索システム |
JP2020102035A (ja) * | 2018-12-21 | 2020-07-02 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP7346818B2 (ja) | 2018-12-21 | 2023-09-20 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN111274808A (zh) * | 2020-02-11 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 文本检索方法、模型训练方法、文本检索装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5204244B2 (ja) | 誤訳の検出を支援する装置及び方法 | |
CN109815390B (zh) | 多语言信息的检索方法、装置、计算机设备及计算机存储介质 | |
JP2007334799A (ja) | 情報提供プログラム、該プログラムを記録した記録媒体、情報提供装置、および情報提供方法 | |
JP5687312B2 (ja) | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム | |
Zopf et al. | Beyond centrality and structural features: Learning information importance for text summarization | |
JP2006309377A (ja) | 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体 | |
JP2006343925A (ja) | 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム | |
JP5153839B2 (ja) | 対訳辞書生成装置、方法及びプログラム | |
JP2005107931A (ja) | 画像検索装置 | |
JP3744136B2 (ja) | 訳語選択装置と記憶媒体 | |
JP2840258B2 (ja) | 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法 | |
JP4574186B2 (ja) | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 | |
JP7293782B2 (ja) | 電子機器、テキスト表示方法およびプログラム | |
JP2012230460A (ja) | 機械翻訳システム、方法及びプログラム | |
JP2011095802A (ja) | 機械翻訳装置及びプログラム | |
JP2010211530A (ja) | 情報検索端末装置、情報検索システム、情報検索方法、および情報検索プログラム | |
JP3447127B2 (ja) | 機械翻訳装置 | |
JP3949874B2 (ja) | 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム | |
JP2004264960A (ja) | 用例ベースの文変換装置、およびコンピュータプログラム | |
JP4992210B2 (ja) | 翻訳装置 | |
JP5853090B2 (ja) | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム | |
CN114564932A (zh) | 篇章对齐方法、装置、计算机设备和介质 | |
JP5378109B2 (ja) | タスクモデル生成装置およびタスクモデル生成方法 | |
JP2005141490A (ja) | 用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体 | |
JP3057988B2 (ja) | 機械翻訳システムの文表示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070404 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080701 |