JP2009181524A - 文書検索システム及び文書検索方法 - Google Patents

文書検索システム及び文書検索方法 Download PDF

Info

Publication number
JP2009181524A
JP2009181524A JP2008022273A JP2008022273A JP2009181524A JP 2009181524 A JP2009181524 A JP 2009181524A JP 2008022273 A JP2008022273 A JP 2008022273A JP 2008022273 A JP2008022273 A JP 2008022273A JP 2009181524 A JP2009181524 A JP 2009181524A
Authority
JP
Japan
Prior art keywords
document
vocabulary
search
user
lexical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008022273A
Other languages
English (en)
Inventor
Taichi Kageyama
太一 影山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008022273A priority Critical patent/JP2009181524A/ja
Publication of JP2009181524A publication Critical patent/JP2009181524A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書検索システムにおいて、使用者の語彙レベルに適合した文書を抽出できるようにする。
【解決手段】複数の文書に関する情報を格納するデータベース5から所望の文書を抽出するための文書検索システム1であって、使用者により入力される検索キーワード10に基づいて、前記データベース5から適合する文書を抽出するキーワード検索手段2と、前記キーワード検索手段2により抽出された情報に対して、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件12に基づいて絞り込み処理を行う語彙的条件処理手段3とを備える。
【選択図】 図1

Description

本発明は、様々な文書に関する情報が格納されたデータベースから、所望の文書に関する情報を抽出するための文書検索システム及び文書検索方法に関し、特に文書に含まれる語彙のレベル(難易度)を考慮した検索を可能にする技術に関する。
従来の文書検索システムとして、使用者により文書の著作名、著者名、内容、ジャンル等に関するキーワードを入力すると、データベース内に格納された文書に関するデータ群の中から、入力されたキーワードに適合する文書を抽出し、これを検索結果としてディスプレイ、プリンタ等に出力するものがある。
このような通常の文書検索システムにおいては、文書の抽出がその文書に含まれる語彙のレベルに関係なくなされるので、含まれる語彙のレベルが高いために、使用者が読むことのできない文書が抽出される場合があった。例えば、教育現場等において、特定の言語を学習するための文書を検索しようとする場合、学習者の習得レベルに応じた語彙を含む文書が抽出されるべきであるが、上記のようなキーワード検索によっては、語彙レベルを考慮した文書検索を行うことは不可能であった。
語彙レベルを考慮した従来の処理技術として、次のような発明が開示されている。この従来発明は、かな漢字辞書を備え、入力されたひらがなを漢字を含む文字列に変換する文書作成編集方法において、かな漢字辞書には、漢字の難易度により定めた教育レベルを示す情報を持たせて、その教育レベルを記憶する手段と、表記毎に教育レベル情報を持ち、表記から読みを検索するための表記教育レベル辞書とを設け、予め所望の教育レベルを設定して、入力されたひらがなを漢字に変換する場合、かな漢字辞書から検出した変換候補の教育レベルとその設定教育レベルを比較して、設定教育レベルより高レベルの変換候補の抽出を自動的に抑制するものであり、これにより使用者が設定した教育レベルに応じて、自動的に適切な漢字を選択することできるとされている(特許文献1参照)。
特開平3−85666号公報
しかしながら、上記特許文献1に開示される発明は、日本語ワードプロセッサ等のかな/漢字変換手段として用いられるものであり、上述したような文書検索システムの文書検索処理において、レベルの高い語彙を含む文書が抽出されないようにするといった処理を実現できるものではない。また、英語等の外国語についての語彙レベルを考慮することはできないといった問題がある。
そこで、本発明は、語彙レベルを考慮した文書検索を可能にすることを目的とする。
上記課題を解決するために、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、使用者により入力される検索キーワードと、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件とに基づいて、前記データベースから適合する文書を抽出する手段を備えるものである。
また、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、使用者により入力される検索キーワードに基づいて、前記データベースから適合する文書を抽出するキーワード検索手段と、前記キーワード検索手段により抽出された情報に対して、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件に基づいて絞り込み処理を行う語彙的条件処理手段とを備えるものである。
また、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、使用者により入力される検索キーワードと、語彙レベルを考慮して予め作成された複数の語彙リストを特定するものであると共に使用者により選択される語彙リスト番号とに基づいて、前記データベースから適合する文書を抽出するキーワード兼語彙的条件検索手段と、前記文書に関する情報を前記データベースに取り込む際に、各文書について語彙的情報を付加して記録させる文書データ取込手段とを備えるものである。
また、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、使用者により入力される検索キーワードと、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件とに基づいて、前記データベースから適合する文書を抽出するステップを備えるものである。
また、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、使用者により入力される検索キーワードに基づいて、前記データベースから適合する文書を抽出するステップと、前記検索キーワードに基づいて抽出された情報に対して、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件に基づいて絞り込み処理を行うステップとを備えるものである。
また、本発明は、複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、前記文書に関する情報を前記データベースに取り込む際に、各文書について語彙的情報を付加して記録させるステップと、使用者により入力される検索キーワードと、語彙レベルを考慮して予め作成された複数の語彙リストを特定するものであると共に使用者により選択される語彙リスト番号とに基づいて、前記データベースから適合する文書を抽出するステップとを備えるものである。
本発明によれば、文書検索システムにおいて、使用者の語彙レベルに適合した文書を抽出することが可能となる。
発明の実施の形態1.
図1に示す本実施の形態に係る文書検索システム1は、キーワード検索手段2、語彙的条件処理手段3、及びデータベース5を有して構成される。この文書検索システム1を実現するための代表的な形態は、中央演算処理装置(CPU)、記憶手段(ROM、RAM、HDD等)、入出力ポート(I/O)、入力手段(キーボード、マウス等)、出力手段(ディスプレイ、プリンタ等)等を有して構成されるコンピュータ及び周辺機器に、特定のプログラムがインストールされてなるものである。キーワード検索手段2は、使用者により入力された検索キーワード10に基づいて、様々な文書に関する情報が格納されたデータベース5から複数又は単数の文書を抽出し、この抽出された文書に関する情報を纏めた文書リスト11を作成する。そして、語彙的条件処理手段3は、使用者により入力された語彙的条件12に基づいて、前記文書リスト11を調整し、この調整された情報を検索結果13として出力する。
以下、図2〜図5において、前記文書検索システム1の詳細な構造及び機能について説明する。本発明の特徴部分をなす語彙的条件処理手段3は、図2に示すように、語彙含有調査手段20、順位付け手段21、含有率フィルタ手段22を有して構成される。
語彙含有調査手段20は、キーワード検索手段2により作成された文書リスト11に含まれる各文書に、語彙的条件12によって指定された語彙が含まれているか、又含まれている場合はその含有率を算出する。
文書リスト11は、例えば図4(a)に示すような形式で作成される。この文書リスト11には、文書関連順位欄35及び文書識別子欄36が設けられている。文書関連順位欄35内の各数字は、前記キーワード検索手段2による処理時に入力された検索キーワード10に対する関連度を示すものであり、この段階では昇順にソートされている。文書識別子欄36内の各記号は、データベース5に格納された各文書データへのアクセスを可能にするインデックスである。
図3(a)において、前記文書リスト11に含まれる文書の文書例30が示されている。この文書例30には、日本語、英語等の複数の言語による文章が含まれている。語彙含有調査手段20(図2参照)は、図3(b)に示すように、文書例30の文章から語彙を抜き出し、重複を削除し、所定の順序(例えば英字a〜z、日本語読み仮名あ〜ん、数字0〜)でソートした文書語彙リスト31を作成する。この文書語彙リスト31を作成する処理は、言語の特徴に合わせて行われる。例えば英語のように、各単語の間に必ず空白が入る言語においては、一単語を一語彙として抜き出す。また、日本語のように、単語の区切りを判別し難い言語においては、一文字単位の語を抜き出す。ここで使う語彙という言葉には、前記単語及び前記語の両方が含まれるものとする。また、言語の特徴を調べる方法としては、各文字間にどの程度空白文字が含まれているかを調べる方法や、文字コードから言語を特定する方法等がある。更に、様々な言語が混在した文書を扱う場合には、文書の文字コードをUCS(Universal Character Set)等で一旦変換し、文字を一意に扱うことを可能にしてから文書を解析し、言語毎に語彙を抜き出す方法を選択することが可能である。
語彙含有調査手段20は、上記のようにして作成された文書語彙リスト31を、図3(c)に示す含有希望語彙リスト32と比較する。この含有希望語彙リスト32は、本文書検索システム1の使用者が文書中に含有されることを望む語彙群を示すものであり、図1及び図2における語彙的条件12に相当し、この実施の形態においては、主に使用者により予め用意された情報に基づいて作成され、前記文書語彙リスト31と同一手段でソートされている。
更に、語彙含有調査手段20は、文書語彙リスト31と含有希望語彙リスト32とを比較して、対象とされる文書(文書例30)内に、希望される語彙がどれ程の割合で含まれているかを示す語彙含有率を算出する。語彙含有率Rは、文書語彙リスト31と含有希望語彙リスト32との差分を調査し、両リスト31,32の共通語彙数Ncを算出し、この共通語彙数Ncを文書語彙リスト31の全語彙数Naで除することにより算出される。即ち、R=Nc/Na*100なる数式を用いて算出することができる。尚、文書語彙リスト31及び含有希望語彙リスト32は、上記したように、この段階で既にソートが完了しているので、両者の差分を求める処理は容易である。
前記語彙含有率は、前記文書リスト11(図4(a)参照)にリストアップされた各文書について算出される。そして、語彙含有手段20は、図4(b)に示すように、算出された各語彙含有率をそれぞれ対応する文書識別子に関連付けた語彙含有率欄37を有するソート前結果リスト25を作成する。
次に、順位付け手段21(図2参照)による処理を説明する。順位付け手段21は、上記のようにして作成されたソート前結果リスト25を、前記語彙含有率及び文書関連順位に基づいてソートし直し、図4(c)に示すようなソート後結果リスト26を作成する。このソート後結果リスト26は、語彙含有率について降順にソートされている。同一の語彙含有率については、文書識別子FFFF及びHHHHの例に示すように、文書関連順位が上位となるようにソートされる。
次に、含有率フィルタ手段22(図2参照)による処理を説明する。含有率フィルタ手段22は、上記のようにして作成されたソート後結果リスト26に対して、所定の語彙含有率(上限語彙含有率)以下のリストを抜粋し、これを検索結果13(図1及び図2参照)とする処理を行う。この上限語彙含有率とは、基本的には使用者の希望する文書の用途に応じて決定される数値であり、例えば小説等の文書を快適に読みたいのか、学習用に使用したいのか等に応じてシステム側が自動的に設定するものであってもよいし、又使用者が直接数値入力するものであってもよい。図4(d)に示すのは、前記上限語彙含有率が100%の場合の検索結果13aであり、この場合は全ての語彙含有率のリストが含まれることとなるため、図4(c)に示すソート後文書リスト26と同一となる。そして、図4(e)に示すのは、前記上限語彙含有率が65%の場合の検索結果13bであり、この場合は図4(c)に示すソート後文書リスト26のうち語彙含有率が65%を越える上位3つのリスト(文書識別子BBBB,FFFF,HHHH)が削除されたものとなる。
図5において、上記構成の文書検索システム1における一連の処理例を説明する。先ず、キーワード検索手段2(図1及び図2参照)が、使用者のキーボード操作等により入力された検索キーワード10(文書の内容、著作名、著者名等に関する情報)に基づいて、文書リスト(図4(a)参照)を作成する(S100)。次いで、この文書リスト11にエントリがあるか否かが判定され、エントリがない場合(N)には、抽出案件が0件である旨の情報を検索結果13として出力し(S107)、このルーチンを終了する。一方、エントリが1つ以上あると判定された場合(Y)には、語彙含有調査ループ(S102)が実行される。
語彙含有調査ループ(S102)において、語彙含有調査手段20が文書リスト11に挙げられた個々の文書について、文書中に含まれる語彙を抜き出してソート及び重複削除を行い、文書語彙リスト31(図3(b)参照)を作成する(S103)。次いで、語彙含有調査手段20によって、文書語彙リスト31と、使用者により入力される語彙的条件12(図1又は図2参照)に基づいて作成される含有希望語彙リスト32(図3(c)参照)とを比較し、使用者が希望するレベルの語彙が文書中に含まれる割合である語彙含有率が算出され、ソート前結果リスト25(図4(b)参照)が作成される(S104)。そして、この語彙含有調査ループ(S102)は、エントリされた全ての文書について完了するまで繰り返される。
前記語彙含有調査ループ(S102)が完了すると、順位付け手段21(図2参照)が前記ソート前結果リスト25を、語彙含有率を第1優先、文書関連順位を第2優先としてソートし直し、ソート後結果リスト26(図4(c)参照)を作成する(S105)。次いで、ソート後結果リスト25を上限語彙含有率以下のリストのみを残すようにフィルタし、これを検索結果13としてディスプレイ、プリンタ等に出力する(S106)。
以上のように、本構成によれば、文書を検索する際に、従来のような通常のキーワード検索に加え、語彙レベルを考慮した絞込みを行うことができる。また、希望するレベルの語彙が文書中にどの程度含まれるかを考慮した絞込みを行うこともできるので、用途に適した文書を的確に抽出することが可能となる。例えば、英語学習のための文書を抽出しようとする場合、希望する語彙レベルを学習者の能力よりも少し高いところに設定し、且つそのレベルの語彙含有率を所定値(例えば65%)以下とすることにより、知らない単語を調べながら読み進めることができる程度の文書を抽出することができる。
発明の実施の形態2.
以下に、本発明の他の実施の形態について説明する。尚、上記実施の形態1と同一又は同様の作用効果を奏する箇所については、同一の符号を付してその説明を省略する。図6に示す本実施の形態に係る文書検索システム51は、キーワード兼語彙的条件検索手段52、文書データ取込手段64、及びデータベース72を有して構成される。キーワード兼語彙的条件検索手段52は、使用者により入力される検索キーワード10と語彙リスト番号54とに基づいて、検索結果55を出力する。文書データ取込手段64は、様々な文書に関する情報からなる文書データ群67をデータベース72に取り込む際に、各文書データについて語彙的情報を付加して記録させるものである。
前記語彙リスト番号54とは、予め設定された語彙群からなる複数の語彙リスト1,2,・・,nに対してそれぞれ付された番号である。これらの語彙リスト1,2,・・,nの具体的な例は、小学生レベルの漢字を集めたものや、中学生レベルの英単語を集めたもの等である。語彙リスト番号54は、これらの語彙リスト1,2,・・,nを識別するための識別子であり、例えば使用者がディスプレイ上に表示された複数の語彙リスト1,2,・・,nのうちから所望の語彙リスト1,2,・・,nをマウスにより選択したり、所定の欄にキーボードにより番号を直接入力したりすることにより決定される。
図7において、キーワード兼語彙的条件検索手段52の構成が示されている。キーワード兼語彙的条件検索手段52は、語彙含有調査手段60、順位付け手段21、含有率フィルタ手段22を有して構成されている。本実施の形態に係る語彙含有調査手段60は、上記実施の形態1に係る語彙含有調査手段20とその機能を異にするものであり、後に詳述する。順位付け手段21及び含有率フィルタ手段22に関しては、上記実施の形態1に係るものと同様の作用効果を奏する。
図8において、文書データ取込手段64の構成が示されている。この文書データ取込手段64は、語彙含有調査手段60及び検索インデックス作成手段70を含んで構成されている。本実施の形態に係る語彙含有調査手段60は、様々な文書に関する情報(内容、著作名、著者名等)からなる文書データ群67をデータベース72に取り込む際に、各文書について各語彙リスト1,2,・・,nの語彙含有率を調査する。そして、検索インデックス作成手段70が、この語彙含有調査手段60により求められた語彙含有率に基づいて、図9に示すような語彙含有率テーブル75を作成する。
この語彙含有調査手段60及び検索インデックス作成手段70の作用によって、データベース72の構築時に、各文書の各語彙リスト1,2,・・,nに対する語彙含有率を求めることができるので、使用者による文書検索時にはこの語彙含有率を求める処理が行われず、検索結果が出力されるまでの処理時間が大幅に短縮される。
図10において、前記語彙含有調査手段60及び検索インデックス作成手段70によるデータベース72構築時における処理を説明する。データベース72に格納しようとする文書一つ一つに対して、文書解析ループ(S200)が実行される。先ず、検索インデックス作成手段70により、それぞれの文書データに対して、使用者により入力される検索キーワード10に対応する検索が可能となるようにインデックスを作成(キーワードを設定)し、データベース72に登録する(S201)。このインデックスの作成方法は、本発明の要部ではないためその説明を省略するが、周知の技術を適宜用いることができる。
次に、語彙含有調査ループ(S202)へ移行する。ここでは、予め用意された複数の語彙リスト1,2,・・,n毎に下記するS203及びS204を実行し、データベース72上の語彙含有率テーブル75(図9参照)にエントリを追加していき、未調査の語彙リスト1,2,・・,nがなくなったらこのループを抜けて終了する。
S203では、処理中の文書に含まれる語彙を抜き出して所定のソート及び語彙の削除を行い、図3(b)に示すような文書語彙リスト31を作成する。この処理は、上記実施の形態1における図5中S103の処理と同様である。次いでS204において、処理中の文書からS203で作成した文書語彙リスト31を用いて、図5中S104と同様に語彙含有率を求め、前記語彙含有率テーブル75に、語彙含有率、語彙リスト番号、文書識別子をエントリとして追加する。
次に、図11において、本システム5の使用者による検索時の処理について説明する。先ず、使用者により検索キーワード10及び語彙リスト番号54(図7参照)が入力されると、文書リスト65が出力される(S300)。この実施の形態における文書リスト65は、図12に示すように、文書関連順位と文書を一意に識別する文書識別子欄66と、語彙リスト番号で指定された語彙リスト1,2,・・,nの語彙含有率欄67を有するリストである。次いで、この文書リスト65についてエントリがあるか否か判定され(S301)、エントリがない場合(N)には、抽出案件が0件である旨の情報を検索結果55として出力し(S304)、エントリが1つ以上あると判定された場合(Y)には、順位付け手段21(図7参照)が文書リスト65に対して、語彙含有率を第1優先、文書関連順位を第2優先としてソートし直し、ソート後結果リスト26(図4(c)参照)を作成する(S302)。この順位付け手段21及びソート後結果リスト26は、上記実施の形態1の場合と同様のものである。次いで、含有率フィルタ手段22(図7参照)がソート後結果リスト25に対して上限語彙含有率以下のリストのみを残すようにフィルタし、これを検索結果55としてディスプレイ、プリンタ等に出力する(S303)。この含有率フィルタ手段22及び上限語彙含有率は、上記実施の形態1の場合と同様のものである。
以上のように、本実施の形態に係る文書検索システム51においては、本システム51の管理者等が複数の文書に関するデータ(内容、著作名、著者名等)をデータベース72に取り込んでいく際に、各文書について、予め用意された各語彙リスト1,2,・・,nの語彙含有率を調査し、この語彙含有率を対応する各文書に関するデータと関連付けて登録していく。これにより、使用者による検索作業時には、既にデータベース72内において各文書データについての語彙含有率が登録されているため、語彙的条件による絞込処理が簡素化され、検索結果が出力されるまでに要する時間が飛躍的に短縮される。
上記実施の形態1に係る文書検索システム1においては、検索キーワード10による検索結果(文書リスト11)が出た後に、この結果に対して語彙含有率を求めていたので、最終的な検索結果13が出力されるまでの時間は、本実施の形態に係る文書検索システム51に比べて長くなる。しかし、本実施の形態に係る文書検索システム51においては、処理速度を向上させるために語彙リスト1,2,・・,nを予め用意しておく必要があるため、使用者はこれらの用意された語彙リスト1,2,・・,nを用いなければならないが、実施の形態1に係る文書検索システム1においては、使用者は語彙的条件(含有希望語彙リスト32)を検索時に自由に設定できるというメリットがある。
尚、上記した両実施の形態においては、上限語彙含有率(例えば65%)以下のリストを抜粋して検索結果13,55とする例を示したが、他の形態として、語彙含有率が特定の範囲内(例えば50〜65%)にあるもの、語彙含有率が所定値以上(例えば65%以上)のもの、又特定の言語を含むものを抜粋するようにしてもよい。
実施の形態1に係る文書検索システムの構成を示すブロック図である。 実施の形態1に係る文書検索システムの語彙的条件処理手段の構成及び機能を説明するためのブロック図である。 (a)は文書例であり、(b)は文書語彙リストの例であり、(c)は含有希望語彙リストの例である。 (a)は文書リストの例であり、(b)はソート前結果リストの例であり、(c)はソート後結果リストの例であり、(d)は上限語彙含有率を100%とした時の検索結果の例であり、(e)は上限語彙含有率を65%とした時の検索結果の例である。 実施の形態1に係る文書検索システムにおける文書検索時の処理を示すフローチャートである。 実施の形態2に係る文書検索システムの構成を示すブロック図である。 実施の形態2に係る文書検索システムのキーワード兼語彙的条件検索手段の構成及び機能を説明するためのブロック図である。 実施の形態2に係る文書データ取込手段の構成及び機能を説明するためのブロック図である。 語彙含有率テーブルの例を示す図である。 実施の形態2に係る文書検索システムにおいて文書データをデータベースに取り込む際の処理を示すフローチャートである。 実施の形態2に係る文書検索システムにおける文書検索時の処理を示すフローチャートである。 実施の形態2における文書リストの例を示す図である。
符号の説明
1,51 文書検索システム
2 キーワード検索手段
3 語彙的条件処理手段
5,72 データベース
20,60 語彙含有調査手段
21 順位付け手段
22 含有率フィルタ
52 キーワード兼語彙的条件検索手段
64 文書データ取込手段
70 検索インデックス作成手段

Claims (19)

  1. 複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、
    使用者により入力される検索キーワードと、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件とに基づいて、前記データベースから適合する文書を抽出する手段を備える文書検索システム。
  2. 複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、
    使用者により入力される検索キーワードに基づいて、前記データベースから適合する文書を抽出するキーワード検索手段と、
    前記キーワード検索手段により抽出された情報に対して、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件に基づいて絞り込み処理を行う語彙的条件処理手段と、
    を備える文書検索システム。
  3. 前記語彙的条件処理手段は、
    使用者が文書に含まれることを希望する語彙群が文書中にどの位含まれるか示す語彙含有率を算出する語彙含有調査手段を備える請求項2記載の文書検索システム。
  4. 前記語彙的条件処理手段は、更に、
    前記語彙含有率に基づいて、前記キーワード検索手段により抽出された文書群に対して順位付けを行う順位付け手段を備える請求項3記載の文書検索システム。
  5. 前記語彙的条件処理手段は、更に、
    前記語彙含有率に基づいて、前記順位付け手段により順位付けされた文書群に対して絞り込みを行う含有率フィルタ手段を備える請求項4記載の文書検索システム。
  6. 複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索システムであって、
    使用者により入力される検索キーワードと、語彙レベルを考慮して予め作成された複数の語彙リストを特定するものであると共に使用者により選択される語彙リスト番号とに基づいて、前記データベースから適合する文書を抽出するキーワード兼語彙的条件検索手段と、
    前記文書に関する情報を前記データベースに取り込む際に、各文書について語彙的情報を付加して記録させる文書データ取込手段と、
    を備える文書検索システム。
  7. 前記キーワード兼語彙的条件検索手段は、
    使用者により選択された前記語彙リストを構成する語彙群が文書中にどの位含まれるかを示す語彙含有率を算出する語彙含有調査手段を備える請求項6記載の文書検索システム。
  8. 前記キーワード兼語彙的条件検索手段は、更に、
    前記語彙含有率に基づいて、前記検索キーワードに基づいて検索された抽出結果に対して順位付けを行う順位付け手段を備える請求項7記載の文書検索システム。
  9. 前記キーワード兼語彙的条件検索手段は、更に、
    前記語彙含有率に基づいて、前記順位付け手段により順位付けされた文書群に対して絞り込みを行う含有率フィルタ手段を備える請求項8記載の文書検索システム。
  10. 前記文書データ取込手段は、前記語彙含有率を前記語彙的情報として前記データベースに記録する請求項7〜9のいずれか1つに記載の文書検索システム。
  11. 複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、
    使用者により入力される検索キーワードと、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件とに基づいて、前記データベースから適合する文書を抽出するステップを備える文書検索方法。
  12. 複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、
    使用者により入力される検索キーワードに基づいて、前記データベースから適合する文書を抽出するステップと、
    前記検索キーワードに基づいて抽出された情報に対して、使用者により設定された語彙レベルに関する情報を含んだ語彙的条件に基づいて絞り込み処理を行うステップと、
    を備える文書検索方法。
  13. 更に、使用者が文書に含まれることを希望する語彙群が文書中にどの位含まれるかを示す語彙含有率を算出するステップを備える請求項12記載の文書検索方法。
  14. 更に、前記語彙含有率に基づいて、前記キーワード検索手段により抽出された文書群に対して順位付けを行うステップを備える請求項13記載の文書検索方法。
  15. 更に、前記語彙含有率に基づいて、前記順位付けされた文書群に対して絞り込みを行うステップを備える請求項14記載の文書検索方法。
  16. 複数の文書に関する情報を格納するデータベースから所望の文書を抽出するための文書検索方法であって、
    前記文書に関する情報を前記データベースに取り込む際に、各文書について語彙的情報を付加して記録させるステップと、
    使用者により入力される検索キーワードと、語彙レベルを考慮して予め作成された複数の語彙リストを特定するものであると共に使用者により選択される語彙リスト番号とに基づいて、前記データベースから適合する文書を抽出するステップと、
    を備える文書検索方法。
  17. 更に、使用者により選択された前記語彙リストを構成する語彙群が文書中にどの位含まれるか示す語彙含有率を算出するステップを備える請求項16記載の文書検索方法。
  18. 更に、前記語彙含有率に基づいて、前記検索キーワードに基づいて検索された抽出結果に対して順位付けを行うステップを備える請求項17記載の文書検索方法。
  19. 更に、前記語彙含有率に基づいて、前記順位付け手段により順位付けされた文書群に対して絞り込みを行うステップを備える請求項18記載の文書検索方法。
JP2008022273A 2008-02-01 2008-02-01 文書検索システム及び文書検索方法 Pending JP2009181524A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008022273A JP2009181524A (ja) 2008-02-01 2008-02-01 文書検索システム及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008022273A JP2009181524A (ja) 2008-02-01 2008-02-01 文書検索システム及び文書検索方法

Publications (1)

Publication Number Publication Date
JP2009181524A true JP2009181524A (ja) 2009-08-13

Family

ID=41035419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008022273A Pending JP2009181524A (ja) 2008-02-01 2008-02-01 文書検索システム及び文書検索方法

Country Status (1)

Country Link
JP (1) JP2009181524A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015094950A (ja) * 2013-11-11 2015-05-18 育君 夏 言語学習システム及びその方法
WO2022039214A1 (ja) * 2020-08-21 2022-02-24 言語研究開発合同会社 言語学習支援装置、プログラム及び情報処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015094950A (ja) * 2013-11-11 2015-05-18 育君 夏 言語学習システム及びその方法
WO2022039214A1 (ja) * 2020-08-21 2022-02-24 言語研究開発合同会社 言語学習支援装置、プログラム及び情報処理方法

Similar Documents

Publication Publication Date Title
CN109344230B (zh) 代码库文件生成、代码搜索、联结、优化以及移植方法
JP6260294B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
KR100847376B1 (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
JP2005501321A (ja) ドキュメントを自動的にインデックスする方法
US20130013604A1 (en) Method and System for Making Document Module
Agatonovic et al. Large-scale, parallel automatic patent annotation
JP2005038395A (ja) データベース検索装置
Derczynski et al. A data driven approach to query expansion in question answering
EP3432161A1 (en) Information processing system and information processing method
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
CN112818645A (zh) 一种化学信息抽取方法、装置、设备及存储介质
JP4719921B2 (ja) データ表示装置およびデータ表示プログラム
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
JP2009181524A (ja) 文書検索システム及び文書検索方法
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
KR20010107810A (ko) 웹 검색시스템 및 그 방법
Schmidt et al. A concept for plagiarism detection based on compressed bitmaps
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
Aksan et al. The Turkish National Corpus (TNC): comparing the architectures of v1 and v2
KR102338949B1 (ko) 기술문서 번역 지원 시스템
US20230409620A1 (en) Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system
JP4206266B2 (ja) 全文検索装置、処理方法、処理プログラム及び記録媒体
KR100289332B1 (ko) 전자화된 문서의 어절 데이터베이스 자동 구축장치 및 방법
JPH09138809A (ja) 全文検索方法