JP2009181524A

JP2009181524A - 文書検索システム及び文書検索方法

Info

Publication number: JP2009181524A
Application number: JP2008022273A
Authority: JP
Inventors: Taichi Kageyama; 太一影山
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-02-01
Filing date: 2008-02-01
Publication date: 2009-08-13

Abstract

【課題】文書検索システムにおいて、使用者の語彙レベルに適合した文書を抽出できるようにする。
【解決手段】複数の文書に関する情報を格納するデータベース５から所望の文書を抽出するための文書検索システム１であって、使用者により入力される検索キーワード１０に基づいて、前記データベース５から適合する文書を抽出するキーワード検索手段２と、前記キーワード検索手段２により抽出された情報に対して、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件１２に基づいて絞り込み処理を行う語彙的条件処理手段３とを備える。
【選択図】図１

Description

本発明は、様々な文書に関する情報が格納されたデータベースから、所望の文書に関する情報を抽出するための文書検索システム及び文書検索方法に関し、特に文書に含まれる語彙のレベル（難易度）を考慮した検索を可能にする技術に関する。

従来の文書検索システムとして、使用者により文書の著作名、著者名、内容、ジャンル等に関するキーワードを入力すると、データベース内に格納された文書に関するデータ群の中から、入力されたキーワードに適合する文書を抽出し、これを検索結果としてディスプレイ、プリンタ等に出力するものがある。

このような通常の文書検索システムにおいては、文書の抽出がその文書に含まれる語彙のレベルに関係なくなされるので、含まれる語彙のレベルが高いために、使用者が読むことのできない文書が抽出される場合があった。例えば、教育現場等において、特定の言語を学習するための文書を検索しようとする場合、学習者の習得レベルに応じた語彙を含む文書が抽出されるべきであるが、上記のようなキーワード検索によっては、語彙レベルを考慮した文書検索を行うことは不可能であった。

語彙レベルを考慮した従来の処理技術として、次のような発明が開示されている。この従来発明は、かな漢字辞書を備え、入力されたひらがなを漢字を含む文字列に変換する文書作成編集方法において、かな漢字辞書には、漢字の難易度により定めた教育レベルを示す情報を持たせて、その教育レベルを記憶する手段と、表記毎に教育レベル情報を持ち、表記から読みを検索するための表記教育レベル辞書とを設け、予め所望の教育レベルを設定して、入力されたひらがなを漢字に変換する場合、かな漢字辞書から検出した変換候補の教育レベルとその設定教育レベルを比較して、設定教育レベルより高レベルの変換候補の抽出を自動的に抑制するものであり、これにより使用者が設定した教育レベルに応じて、自動的に適切な漢字を選択することできるとされている（特許文献１参照）。
特開平３−８５６６６号公報

しかしながら、上記特許文献１に開示される発明は、日本語ワードプロセッサ等のかな／漢字変換手段として用いられるものであり、上述したような文書検索システムの文書検索処理において、レベルの高い語彙を含む文書が抽出されないようにするといった処理を実現できるものではない。また、英語等の外国語についての語彙レベルを考慮することはできないといった問題がある。

そこで、本発明は、語彙レベルを考慮した文書検索を可能にすることを目的とする。

上記課題を解決するために、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、使用者により入力される検索キーワードと、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件とに基づいて、前記データベースから適合する文書を抽出する手段を備えるものである。

また、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、使用者により入力される検索キーワードに基づいて、前記データベースから適合する文書を抽出するキーワード検索手段と、前記キーワード検索手段により抽出された情報に対して、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件に基づいて絞り込み処理を行う語彙的条件処理手段とを備えるものである。

また、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、使用者により入力される検索キーワードと、語彙レベルを考慮して予め作成された複数の語彙リストを特定するものであると共に使用者により選択される語彙リスト番号とに基づいて、前記データベースから適合する文書を抽出するキーワード兼語彙的条件検索手段と、前記文書に関する情報を前記データベースに取り込む際に、各文書について語彙的情報を付加して記録させる文書データ取込手段とを備えるものである。

また、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、使用者により入力される検索キーワードと、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件とに基づいて、前記データベースから適合する文書を抽出するステップを備えるものである。

また、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、使用者により入力される検索キーワードに基づいて、前記データベースから適合する文書を抽出するステップと、前記検索キーワードに基づいて抽出された情報に対して、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件に基づいて絞り込み処理を行うステップとを備えるものである。

また、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、前記文書に関する情報を前記データベースに取り込む際に、各文書について語彙的情報を付加して記録させるステップと、使用者により入力される検索キーワードと、語彙レベルを考慮して予め作成された複数の語彙リストを特定するものであると共に使用者により選択される語彙リスト番号とに基づいて、前記データベースから適合する文書を抽出するステップとを備えるものである。

本発明によれば、文書検索システムにおいて、使用者の語彙レベルに適合した文書を抽出することが可能となる。

発明の実施の形態１．
図１に示す本実施の形態に係る文書検索システム１は、キーワード検索手段２、語彙的条件処理手段３、及びデータベース５を有して構成される。この文書検索システム１を実現するための代表的な形態は、中央演算処理装置（ＣＰＵ）、記憶手段（ＲＯＭ、ＲＡＭ、ＨＤＤ等）、入出力ポート（Ｉ／Ｏ）、入力手段（キーボード、マウス等）、出力手段（ディスプレイ、プリンタ等）等を有して構成されるコンピュータ及び周辺機器に、特定のプログラムがインストールされてなるものである。キーワード検索手段２は、使用者により入力された検索キーワード１０に基づいて、様々な文書に関する情報が格納されたデータベース５から複数又は単数の文書を抽出し、この抽出された文書に関する情報を纏めた文書リスト１１を作成する。そして、語彙的条件処理手段３は、使用者により入力された語彙的条件１２に基づいて、前記文書リスト１１を調整し、この調整された情報を検索結果１３として出力する。

以下、図２〜図５において、前記文書検索システム１の詳細な構造及び機能について説明する。本発明の特徴部分をなす語彙的条件処理手段３は、図２に示すように、語彙含有調査手段２０、順位付け手段２１、含有率フィルタ手段２２を有して構成される。

語彙含有調査手段２０は、キーワード検索手段２により作成された文書リスト１１に含まれる各文書に、語彙的条件１２によって指定された語彙が含まれているか、又含まれている場合はその含有率を算出する。

文書リスト１１は、例えば図４（ａ）に示すような形式で作成される。この文書リスト１１には、文書関連順位欄３５及び文書識別子欄３６が設けられている。文書関連順位欄３５内の各数字は、前記キーワード検索手段２による処理時に入力された検索キーワード１０に対する関連度を示すものであり、この段階では昇順にソートされている。文書識別子欄３６内の各記号は、データベース５に格納された各文書データへのアクセスを可能にするインデックスである。

図３（ａ）において、前記文書リスト１１に含まれる文書の文書例３０が示されている。この文書例３０には、日本語、英語等の複数の言語による文章が含まれている。語彙含有調査手段２０（図２参照）は、図３（ｂ）に示すように、文書例３０の文章から語彙を抜き出し、重複を削除し、所定の順序（例えば英字ａ〜ｚ、日本語読み仮名あ〜ん、数字０〜）でソートした文書語彙リスト３１を作成する。この文書語彙リスト３１を作成する処理は、言語の特徴に合わせて行われる。例えば英語のように、各単語の間に必ず空白が入る言語においては、一単語を一語彙として抜き出す。また、日本語のように、単語の区切りを判別し難い言語においては、一文字単位の語を抜き出す。ここで使う語彙という言葉には、前記単語及び前記語の両方が含まれるものとする。また、言語の特徴を調べる方法としては、各文字間にどの程度空白文字が含まれているかを調べる方法や、文字コードから言語を特定する方法等がある。更に、様々な言語が混在した文書を扱う場合には、文書の文字コードをUCS(Universal Character Set)等で一旦変換し、文字を一意に扱うことを可能にしてから文書を解析し、言語毎に語彙を抜き出す方法を選択することが可能である。

語彙含有調査手段２０は、上記のようにして作成された文書語彙リスト３１を、図３（ｃ）に示す含有希望語彙リスト３２と比較する。この含有希望語彙リスト３２は、本文書検索システム１の使用者が文書中に含有されることを望む語彙群を示すものであり、図１及び図２における語彙的条件１２に相当し、この実施の形態においては、主に使用者により予め用意された情報に基づいて作成され、前記文書語彙リスト３１と同一手段でソートされている。

更に、語彙含有調査手段２０は、文書語彙リスト３１と含有希望語彙リスト３２とを比較して、対象とされる文書（文書例３０）内に、希望される語彙がどれ程の割合で含まれているかを示す語彙含有率を算出する。語彙含有率Ｒは、文書語彙リスト３１と含有希望語彙リスト３２との差分を調査し、両リスト３１，３２の共通語彙数Ｎcを算出し、この共通語彙数Ｎcを文書語彙リスト３１の全語彙数Ｎaで除することにより算出される。即ち、Ｒ＝Ｎc／Ｎa＊１００なる数式を用いて算出することができる。尚、文書語彙リスト３１及び含有希望語彙リスト３２は、上記したように、この段階で既にソートが完了しているので、両者の差分を求める処理は容易である。

前記語彙含有率は、前記文書リスト１１（図４（ａ）参照）にリストアップされた各文書について算出される。そして、語彙含有手段２０は、図４（ｂ）に示すように、算出された各語彙含有率をそれぞれ対応する文書識別子に関連付けた語彙含有率欄３７を有するソート前結果リスト２５を作成する。

次に、順位付け手段２１（図２参照）による処理を説明する。順位付け手段２１は、上記のようにして作成されたソート前結果リスト２５を、前記語彙含有率及び文書関連順位に基づいてソートし直し、図４（ｃ）に示すようなソート後結果リスト２６を作成する。このソート後結果リスト２６は、語彙含有率について降順にソートされている。同一の語彙含有率については、文書識別子FFFF及びHHHHの例に示すように、文書関連順位が上位となるようにソートされる。

次に、含有率フィルタ手段２２（図２参照）による処理を説明する。含有率フィルタ手段２２は、上記のようにして作成されたソート後結果リスト２６に対して、所定の語彙含有率（上限語彙含有率）以下のリストを抜粋し、これを検索結果１３（図１及び図２参照）とする処理を行う。この上限語彙含有率とは、基本的には使用者の希望する文書の用途に応じて決定される数値であり、例えば小説等の文書を快適に読みたいのか、学習用に使用したいのか等に応じてシステム側が自動的に設定するものであってもよいし、又使用者が直接数値入力するものであってもよい。図４（ｄ）に示すのは、前記上限語彙含有率が１００％の場合の検索結果１３ａであり、この場合は全ての語彙含有率のリストが含まれることとなるため、図４（ｃ）に示すソート後文書リスト２６と同一となる。そして、図４（ｅ）に示すのは、前記上限語彙含有率が６５％の場合の検索結果１３ｂであり、この場合は図４（ｃ）に示すソート後文書リスト２６のうち語彙含有率が６５％を越える上位３つのリスト（文書識別子BBBB，FFFF，HHHH）が削除されたものとなる。

図５において、上記構成の文書検索システム１における一連の処理例を説明する。先ず、キーワード検索手段２（図１及び図２参照）が、使用者のキーボード操作等により入力された検索キーワード１０（文書の内容、著作名、著者名等に関する情報）に基づいて、文書リスト（図４（ａ）参照）を作成する（Ｓ１００）。次いで、この文書リスト１１にエントリがあるか否かが判定され、エントリがない場合（Ｎ）には、抽出案件が０件である旨の情報を検索結果１３として出力し（Ｓ１０７）、このルーチンを終了する。一方、エントリが１つ以上あると判定された場合（Ｙ）には、語彙含有調査ループ（Ｓ１０２）が実行される。

語彙含有調査ループ（Ｓ１０２）において、語彙含有調査手段２０が文書リスト１１に挙げられた個々の文書について、文書中に含まれる語彙を抜き出してソート及び重複削除を行い、文書語彙リスト３１（図３（ｂ）参照）を作成する（Ｓ１０３）。次いで、語彙含有調査手段２０によって、文書語彙リスト３１と、使用者により入力される語彙的条件１２（図１又は図２参照）に基づいて作成される含有希望語彙リスト３２（図３（ｃ）参照）とを比較し、使用者が希望するレベルの語彙が文書中に含まれる割合である語彙含有率が算出され、ソート前結果リスト２５（図４（ｂ）参照）が作成される（Ｓ１０４）。そして、この語彙含有調査ループ（Ｓ１０２）は、エントリされた全ての文書について完了するまで繰り返される。

前記語彙含有調査ループ（Ｓ１０２）が完了すると、順位付け手段２１（図２参照）が前記ソート前結果リスト２５を、語彙含有率を第１優先、文書関連順位を第２優先としてソートし直し、ソート後結果リスト２６（図４（ｃ）参照）を作成する（Ｓ１０５）。次いで、ソート後結果リスト２５を上限語彙含有率以下のリストのみを残すようにフィルタし、これを検索結果１３としてディスプレイ、プリンタ等に出力する（Ｓ１０６）。

以上のように、本構成によれば、文書を検索する際に、従来のような通常のキーワード検索に加え、語彙レベルを考慮した絞込みを行うことができる。また、希望するレベルの語彙が文書中にどの程度含まれるかを考慮した絞込みを行うこともできるので、用途に適した文書を的確に抽出することが可能となる。例えば、英語学習のための文書を抽出しようとする場合、希望する語彙レベルを学習者の能力よりも少し高いところに設定し、且つそのレベルの語彙含有率を所定値（例えば６５％）以下とすることにより、知らない単語を調べながら読み進めることができる程度の文書を抽出することができる。

発明の実施の形態２．
以下に、本発明の他の実施の形態について説明する。尚、上記実施の形態１と同一又は同様の作用効果を奏する箇所については、同一の符号を付してその説明を省略する。図６に示す本実施の形態に係る文書検索システム５１は、キーワード兼語彙的条件検索手段５２、文書データ取込手段６４、及びデータベース７２を有して構成される。キーワード兼語彙的条件検索手段５２は、使用者により入力される検索キーワード１０と語彙リスト番号５４とに基づいて、検索結果５５を出力する。文書データ取込手段６４は、様々な文書に関する情報からなる文書データ群６７をデータベース７２に取り込む際に、各文書データについて語彙的情報を付加して記録させるものである。

前記語彙リスト番号５４とは、予め設定された語彙群からなる複数の語彙リスト１，２，・・，ｎに対してそれぞれ付された番号である。これらの語彙リスト１，２，・・，ｎの具体的な例は、小学生レベルの漢字を集めたものや、中学生レベルの英単語を集めたもの等である。語彙リスト番号５４は、これらの語彙リスト１，２，・・，ｎを識別するための識別子であり、例えば使用者がディスプレイ上に表示された複数の語彙リスト１，２，・・，ｎのうちから所望の語彙リスト１，２，・・，ｎをマウスにより選択したり、所定の欄にキーボードにより番号を直接入力したりすることにより決定される。

図７において、キーワード兼語彙的条件検索手段５２の構成が示されている。キーワード兼語彙的条件検索手段５２は、語彙含有調査手段６０、順位付け手段２１、含有率フィルタ手段２２を有して構成されている。本実施の形態に係る語彙含有調査手段６０は、上記実施の形態１に係る語彙含有調査手段２０とその機能を異にするものであり、後に詳述する。順位付け手段２１及び含有率フィルタ手段２２に関しては、上記実施の形態１に係るものと同様の作用効果を奏する。

図８において、文書データ取込手段６４の構成が示されている。この文書データ取込手段６４は、語彙含有調査手段６０及び検索インデックス作成手段７０を含んで構成されている。本実施の形態に係る語彙含有調査手段６０は、様々な文書に関する情報（内容、著作名、著者名等）からなる文書データ群６７をデータベース７２に取り込む際に、各文書について各語彙リスト１，２，・・，ｎの語彙含有率を調査する。そして、検索インデックス作成手段７０が、この語彙含有調査手段６０により求められた語彙含有率に基づいて、図９に示すような語彙含有率テーブル７５を作成する。

この語彙含有調査手段６０及び検索インデックス作成手段７０の作用によって、データベース７２の構築時に、各文書の各語彙リスト１，２，・・，ｎに対する語彙含有率を求めることができるので、使用者による文書検索時にはこの語彙含有率を求める処理が行われず、検索結果が出力されるまでの処理時間が大幅に短縮される。

図１０において、前記語彙含有調査手段６０及び検索インデックス作成手段７０によるデータベース７２構築時における処理を説明する。データベース７２に格納しようとする文書一つ一つに対して、文書解析ループ（Ｓ２００）が実行される。先ず、検索インデックス作成手段７０により、それぞれの文書データに対して、使用者により入力される検索キーワード１０に対応する検索が可能となるようにインデックスを作成（キーワードを設定）し、データベース７２に登録する（Ｓ２０１）。このインデックスの作成方法は、本発明の要部ではないためその説明を省略するが、周知の技術を適宜用いることができる。

次に、語彙含有調査ループ（Ｓ２０２）へ移行する。ここでは、予め用意された複数の語彙リスト１，２，・・，ｎ毎に下記するＳ２０３及びＳ２０４を実行し、データベース７２上の語彙含有率テーブル７５（図９参照）にエントリを追加していき、未調査の語彙リスト１，２，・・，ｎがなくなったらこのループを抜けて終了する。

Ｓ２０３では、処理中の文書に含まれる語彙を抜き出して所定のソート及び語彙の削除を行い、図３（ｂ）に示すような文書語彙リスト３１を作成する。この処理は、上記実施の形態１における図５中Ｓ１０３の処理と同様である。次いでＳ２０４において、処理中の文書からＳ２０３で作成した文書語彙リスト３１を用いて、図５中Ｓ１０４と同様に語彙含有率を求め、前記語彙含有率テーブル７５に、語彙含有率、語彙リスト番号、文書識別子をエントリとして追加する。

次に、図１１において、本システム５の使用者による検索時の処理について説明する。先ず、使用者により検索キーワード１０及び語彙リスト番号５４（図７参照）が入力されると、文書リスト６５が出力される（Ｓ３００）。この実施の形態における文書リスト６５は、図１２に示すように、文書関連順位と文書を一意に識別する文書識別子欄６６と、語彙リスト番号で指定された語彙リスト１，２，・・，ｎの語彙含有率欄６７を有するリストである。次いで、この文書リスト６５についてエントリがあるか否か判定され（Ｓ３０１）、エントリがない場合（Ｎ）には、抽出案件が０件である旨の情報を検索結果５５として出力し（Ｓ３０４）、エントリが１つ以上あると判定された場合（Ｙ）には、順位付け手段２１（図７参照）が文書リスト６５に対して、語彙含有率を第１優先、文書関連順位を第２優先としてソートし直し、ソート後結果リスト２６（図４（ｃ）参照）を作成する（Ｓ３０２）。この順位付け手段２１及びソート後結果リスト２６は、上記実施の形態１の場合と同様のものである。次いで、含有率フィルタ手段２２（図７参照）がソート後結果リスト２５に対して上限語彙含有率以下のリストのみを残すようにフィルタし、これを検索結果５５としてディスプレイ、プリンタ等に出力する（Ｓ３０３）。この含有率フィルタ手段２２及び上限語彙含有率は、上記実施の形態１の場合と同様のものである。

以上のように、本実施の形態に係る文書検索システム５１においては、本システム５１の管理者等が複数の文書に関するデータ（内容、著作名、著者名等）をデータベース７２に取り込んでいく際に、各文書について、予め用意された各語彙リスト１，２，・・，ｎの語彙含有率を調査し、この語彙含有率を対応する各文書に関するデータと関連付けて登録していく。これにより、使用者による検索作業時には、既にデータベース７２内において各文書データについての語彙含有率が登録されているため、語彙的条件による絞込処理が簡素化され、検索結果が出力されるまでに要する時間が飛躍的に短縮される。

上記実施の形態１に係る文書検索システム１においては、検索キーワード１０による検索結果（文書リスト１１）が出た後に、この結果に対して語彙含有率を求めていたので、最終的な検索結果１３が出力されるまでの時間は、本実施の形態に係る文書検索システム５１に比べて長くなる。しかし、本実施の形態に係る文書検索システム５１においては、処理速度を向上させるために語彙リスト１，２，・・，ｎを予め用意しておく必要があるため、使用者はこれらの用意された語彙リスト１，２，・・，ｎを用いなければならないが、実施の形態１に係る文書検索システム１においては、使用者は語彙的条件（含有希望語彙リスト３２）を検索時に自由に設定できるというメリットがある。

尚、上記した両実施の形態においては、上限語彙含有率（例えば６５％）以下のリストを抜粋して検索結果１３，５５とする例を示したが、他の形態として、語彙含有率が特定の範囲内（例えば５０〜６５％）にあるもの、語彙含有率が所定値以上（例えば６５％以上）のもの、又特定の言語を含むものを抜粋するようにしてもよい。

実施の形態１に係る文書検索システムの構成を示すブロック図である。実施の形態１に係る文書検索システムの語彙的条件処理手段の構成及び機能を説明するためのブロック図である。（ａ）は文書例であり、（ｂ）は文書語彙リストの例であり、（ｃ）は含有希望語彙リストの例である。（ａ）は文書リストの例であり、（ｂ）はソート前結果リストの例であり、（ｃ）はソート後結果リストの例であり、（ｄ）は上限語彙含有率を１００％とした時の検索結果の例であり、（ｅ）は上限語彙含有率を６５％とした時の検索結果の例である。実施の形態１に係る文書検索システムにおける文書検索時の処理を示すフローチャートである。実施の形態２に係る文書検索システムの構成を示すブロック図である。実施の形態２に係る文書検索システムのキーワード兼語彙的条件検索手段の構成及び機能を説明するためのブロック図である。実施の形態２に係る文書データ取込手段の構成及び機能を説明するためのブロック図である。語彙含有率テーブルの例を示す図である。実施の形態２に係る文書検索システムにおいて文書データをデータベースに取り込む際の処理を示すフローチャートである。実施の形態２に係る文書検索システムにおける文書検索時の処理を示すフローチャートである。実施の形態２における文書リストの例を示す図である。

符号の説明

１，５１文書検索システム
２キーワード検索手段
３語彙的条件処理手段
５，７２データベース
２０，６０語彙含有調査手段
２１順位付け手段
２２含有率フィルタ
５２キーワード兼語彙的条件検索手段
６４文書データ取込手段
７０検索インデックス作成手段

Claims

複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、
使用者により入力される検索キーワードと、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件とに基づいて、前記データベースから適合する文書を抽出する手段を備える文書検索システム。
複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、
使用者により入力される検索キーワードに基づいて、前記データベースから適合する文書を抽出するキーワード検索手段と、
前記キーワード検索手段により抽出された情報に対して、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件に基づいて絞り込み処理を行う語彙的条件処理手段と、
を備える文書検索システム。
前記語彙的条件処理手段は、
使用者が文書に含まれることを希望する語彙群が文書中にどの位含まれるか示す語彙含有率を算出する語彙含有調査手段を備える請求項２記載の文書検索システム。
前記語彙的条件処理手段は、更に、
前記語彙含有率に基づいて、前記キーワード検索手段により抽出された文書群に対して順位付けを行う順位付け手段を備える請求項３記載の文書検索システム。
前記語彙的条件処理手段は、更に、
前記語彙含有率に基づいて、前記順位付け手段により順位付けされた文書群に対して絞り込みを行う含有率フィルタ手段を備える請求項４記載の文書検索システム。
複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、
使用者により入力される検索キーワードと、語彙レベルを考慮して予め作成された複数の語彙リストを特定するものであると共に使用者により選択される語彙リスト番号とに基づいて、前記データベースから適合する文書を抽出するキーワード兼語彙的条件検索手段と、
前記文書に関する情報を前記データベースに取り込む際に、各文書について語彙的情報を付加して記録させる文書データ取込手段と、
を備える文書検索システム。
前記キーワード兼語彙的条件検索手段は、
使用者により選択された前記語彙リストを構成する語彙群が文書中にどの位含まれるかを示す語彙含有率を算出する語彙含有調査手段を備える請求項６記載の文書検索システム。
前記キーワード兼語彙的条件検索手段は、更に、
前記語彙含有率に基づいて、前記検索キーワードに基づいて検索された抽出結果に対して順位付けを行う順位付け手段を備える請求項７記載の文書検索システム。
前記キーワード兼語彙的条件検索手段は、更に、
前記語彙含有率に基づいて、前記順位付け手段により順位付けされた文書群に対して絞り込みを行う含有率フィルタ手段を備える請求項８記載の文書検索システム。
前記文書データ取込手段は、前記語彙含有率を前記語彙的情報として前記データベースに記録する請求項７〜９のいずれか１つに記載の文書検索システム。
複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、
使用者により入力される検索キーワードと、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件とに基づいて、前記データベースから適合する文書を抽出するステップを備える文書検索方法。
複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、
使用者により入力される検索キーワードに基づいて、前記データベースから適合する文書を抽出するステップと、
前記検索キーワードに基づいて抽出された情報に対して、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件に基づいて絞り込み処理を行うステップと、
を備える文書検索方法。
更に、使用者が文書に含まれることを希望する語彙群が文書中にどの位含まれるかを示す語彙含有率を算出するステップを備える請求項１２記載の文書検索方法。
更に、前記語彙含有率に基づいて、前記キーワード検索手段により抽出された文書群に対して順位付けを行うステップを備える請求項１３記載の文書検索方法。
更に、前記語彙含有率に基づいて、前記順位付けされた文書群に対して絞り込みを行うステップを備える請求項１４記載の文書検索方法。
複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、
前記文書に関する情報を前記データベースに取り込む際に、各文書について語彙的情報を付加して記録させるステップと、
使用者により入力される検索キーワードと、語彙レベルを考慮して予め作成された複数の語彙リストを特定するものであると共に使用者により選択される語彙リスト番号とに基づいて、前記データベースから適合する文書を抽出するステップと、
を備える文書検索方法。
更に、使用者により選択された前記語彙リストを構成する語彙群が文書中にどの位含まれるか示す語彙含有率を算出するステップを備える請求項１６記載の文書検索方法。
更に、前記語彙含有率に基づいて、前記検索キーワードに基づいて検索された抽出結果に対して順位付けを行うステップを備える請求項１７記載の文書検索方法。
更に、前記語彙含有率に基づいて、前記順位付け手段により順位付けされた文書群に対して絞り込みを行うステップを備える請求項１８記載の文書検索方法。