JP2006323575A - 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体 - Google Patents

文書検索システム、文書検索方法、文書検索プログラム及び記録媒体 Download PDF

Info

Publication number
JP2006323575A
JP2006323575A JP2005145378A JP2005145378A JP2006323575A JP 2006323575 A JP2006323575 A JP 2006323575A JP 2005145378 A JP2005145378 A JP 2005145378A JP 2005145378 A JP2005145378 A JP 2005145378A JP 2006323575 A JP2006323575 A JP 2006323575A
Authority
JP
Japan
Prior art keywords
document
numerical
numerical information
input
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005145378A
Other languages
English (en)
Inventor
Yoshitaka Hamaguchi
佳孝 濱口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2005145378A priority Critical patent/JP2006323575A/ja
Publication of JP2006323575A publication Critical patent/JP2006323575A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索条件に少なくとも数値情報が含まれる場合の文書検索処理を向上させる。
【解決手段】本発明の文書検索システムは、入力文書から抽出された1又は複数の数値情報のそれぞれを、数値情報の単位種類毎に分類する数値情報分類手段と、数値情報を含む文書を推定させる特徴量を、単位種類毎の所定の数値範囲を伴って算出する特徴量算出手段と、特徴量算出手段が算出した特徴量を単位種類毎に記憶する特徴量記憶手段と、検索条件として入力された入力数値情報の単位種類に基づいて、対応する単位種類の特徴量を特徴量記憶手段から取得し、少なくとも取得した特徴量に基づいて検索条件として入力された入力数値情報の重みを算出する数値重要度算出手段と、数値重要度算出手段が算出した入力数値情報の重みに基づいて登録文書から文書を検索する文書検索手段とを備える。
【選択図】 図1

Description

本発明は、文書検索システム、文書検索方法、文書検索プログラム及び記録媒体に関し、特に、入力されたキーワードあるいは文章に数値が検索条件として含まれる場合の文書検索を可能とする文書検索システム、文書検索方法、文書検索プログラム及び記録媒体に適用し得る。
従来、単数又は複数のキーワードに基づいて文書検索を行なう文書検索システムは、特許文献1に示すように、単語出現頻度tf(Term Frequency)や文書出現数df(Document Frequency)に基づいてキーワードとの適合度を算出し、適合度の高い文書から検索結果として出力していた。
ここで、単語出現頻度tfは、ある文書におけるキーワードの出現頻度であり、文書出現数dfは、キーワードが出現する文書の数である。
このとき、dfはそのキーワードの文書絞込みへの貢献度を測るために用いられる。すなわち、少ない文書にしか出現しないdfの小さなキーワードは文書の絞込みに貢献しやすく、dfの大きなキーワード(極端な場合ほとんどの文書に出現するキーワード)は検索での絞り込みにあまり役立たない。したがって、dfが小さい単語ほど適合度の計算に大きな影響を与えるように適合度の算出式を設定するのが一般的である。
また、tfはキーワードを多く含む文書がより検索条件にマッチすることを測るために用いられ、tfが大きいほど文書の適合度が上がるように使われる。
以上のように、文書ごとにdfとtfとの積を全キーワードについて加算することで、その文書のキーワードに対する適合度を算出し、文書検索を行う。
特開2000−322416号公報
ところで、上述した従来の文書検索システムを用いて、数値も検索条件として文書検索をしようとすると、従来の方法では、dfに相当するものを効率良く利用することができず、文書検索に係る処理速度が遅くなるという問題が発生する。以下、それについて説明する。
単語のキーワードの場合、文書のDB(データベース)に投入時に、出現単語ごとにその単語が出現する文書数即ちdfを計数し、単語と対応付けて予め記憶させておくことができる。そうすれば、文書検索時にはキーワードごとにその値を参照するだけでいい。即ちキーワードが含まれる文書を検索して数える動作を検索時に行う必要はなく、処理速度を向上させることができる。このようなことは、従来一般の検索において行なわれている。
しかしながら、数値の場合、条件に指定される数値の値や範囲により絞り込まれる文書数は異なる。例えば「10m」と指定される場合と「1m〜100m」と指定される場合では前者のほうが適合する文書が少ないなど、検索条件となる数値の値や範囲によりdfが変わる。すなわち、これらを反映したdfの情報が必要となるのだが、このような数値の検索条件のバリエーションは無数にあり、そのあらゆる数値による検索条件について事前にdfを計数・記憶することはできない。したがって、キーワードにおけるような処理速度の向上策を取れない。
このため、検索処理時に、実際に検索を行ない、数値条件の比較を行ない、条件の範囲に収まった文書の数を数えて始めてdfが得られる。これは従来のキーワードにおいてdfを得るのに比較して検索時の処理が非常に重くなり、検索対象の文書数が大規模であるほど顕著な問題となる。
かかる課題を解決するために、第1の本発明の文書検索システムは、少なくとも数値情報を検索条件として登録されている登録文書から検索条件に適合する文書を検索する文書検索システムであって、(1)入力文書から抽出された1又は複数の数値情報のそれぞれを、数値情報の単位種類毎に分類する数値情報分類手段と、(2)数値情報を含む文書を推定させる特徴量を、単位種類毎の所定の数値範囲を伴って算出する特徴量算出手段と、(3)特徴量算出手段が算出した特徴量を単位種類毎に記憶する特徴量記憶手段と、(4)検索条件として入力された入力数値情報の単位種類に基づいて、対応する単位種類の特徴量を特徴量記憶手段から取得し、少なくとも取得した特徴量に基づいて検索条件として入力された入力数値情報の重みを算出する数値重要度算出手段と、(5)数値重要度算出手段が算出した入力数値情報の重みに基づいて登録文書から文書を検索する文書検索手段とを備えることを特徴とする。
また、第2の本発明の文書検索方法は、少なくとも数値情報を検索条件として登録されている登録文書から検索条件に適合する文書を検索する文書検索方法であって、(1)入力文書から抽出された1又は複数の数値情報のそれぞれを、数値情報の単位種類毎に分類する数値情報分類工程と、(2)数値情報を含む文書を推定させる特徴量を、単位種類毎の所定の数値範囲を伴って算出する特徴量算出工程と、(3)特徴量算出工程で算出した特徴量を単位種類毎に記憶する特徴量記憶手段を有し、(4)検索条件として入力された入力数値情報の単位種類に基づいて、対応する単位種類の特徴量を特徴量記憶手段から取得し、少なくとも取得した特徴量に基づいて検索条件として入力された入力数値情報の重みを算出する数値重要度算出工程と、(5)数値重要度算出工程で算出した入力数値情報の重みに基づいて登録文書から文書を検索する文書検索工程とを備えることを特徴とする
さらに、第3の本発明の文書検索プログラムは、少なくとも数値情報を検索条件として登録されている登録文書から検索条件に適合する文書を検索する文書検索プログラムであって、コンピュータに、(1)入力文書から抽出された1又は複数の数値情報のそれぞれを、数値情報の単位種類毎に分類する数値情報分類手段、(2)数値情報を含む文書を推定させる特徴量を、単位種類毎の所定の数値範囲を伴って算出する特徴量算出手段、(3)特徴量算出手段が算出した特徴量を単位種類毎に記憶する特徴量記憶手段、(4)検索条件として入力された入力数値情報の単位種類に基づいて、対応する単位種類の特徴量を特徴量記憶手段から取得し、少なくとも取得した特徴量に基づいて検索条件として入力された入力数値情報の重みを算出する数値重要度算出手段、(5)数値重要度算出手段が算出した入力数値情報の重みに基づいて登録文書から文書を検索する文書検索手段として機能させるための文書検索プログラムである。
また、第4の本発明の記録媒体は、少なくとも数値情報を検索条件として登録されている登録文書から検索条件に適合する文書を検索する文書検索プログラムを記録したコンピュータに読み取り可能な記録媒体であって、文書検索プログラムが第3の本発明の文書検索プログラムに対応するものであることを特徴とする文書検索プログラムを記録したコンピュータに読み取り可能な記録媒体である。
本発明によれば、文書の登録時に、数値情報の単位種類毎に、数値及び又は数値範囲を含む文書についての特徴量を算出することで、文書登録時に所定の数値情報を含む文書に関する情報を予め求めることができるので、数値及び又は数値範囲を検索条件とした場合でも検索処理に、数値情報を含む文書に関する情報を求めることなく検索することができる。これにより、検索処理に係る処理時間を短くすることができる。
以下、本発明の文書検索システム、文書検索方法、文書検索プログラム及び記録媒体の実施形態について図面を参照して説明する。
なお、以下の実施形態における文書検索システムは、コンピュータが実行可能なプログラムとして実現可能なものである。また、このプログラムは、コンピュータに読み取り可能な記録媒体に格納されるものとしてもよく、また装置のハードディスクに格納されるものとしてもよい。
(A)第1の実施形態
まず、以下、本発明の文書検索システム、文書検索方法、文書検索プログラム及び記録媒体の第1の実施形態について説明する。
本実施形態は、登録された複数の文書の中から、入力されたキーワード、数値及び又は数値の範囲を検索条件とし、評価値が高い文書を検索文書として出力する文書検索システムに、本発明の文書検索システム、文書検索方法、文書検索プログラムを適用した場合を説明する。
本実施形態は、所定の数値区間ごとの出現文書数(df)で近似することで、検索条件となる数値の値を反映させるものである。
(A−1)第1の実施形態の構成
図1は、本実施形態に係る文書検索システムの機能を説明する機能ブロック図である。
図1に示すように、本実施形態の文書検索システム1は、入力文書の情報をデータベースに投入する文書投入部3000と、入力文書の情報をデータベースとして記憶する文書記憶部2000と、入力条件(例えばキーワード等)に適した文書を文書記憶部2000から検索する文書検索部1000とを少なくとも有して構成される。
まず、文書記憶部2000の構成について説明する。文書記憶部2000は、DFデータ記憶部2200と、数値範囲分布データ記憶部2300と、文書DB(データベース)部2400とを少なくとも有する。
DFデータ記憶部2200は、後述する文書数計数部3200が計数した結果を記憶するものであり、投入された文書のうち見出し語となる単語を含む文書数を示すdfデータを、見出し語となる単語毎に記憶するものである。
数値範囲分布データ記憶部2300は、後述する数値範囲分布統計部3400が算出した算出結果を記憶するものであり、数値の単位種類毎に予め設定された所定の数値区間の数値を含む文書の数を記憶するものである。
ここで、数値の単位種類毎の所定の数値区間とは、数値が示す単位種類毎に、数値範囲を所定の規則により有限個に区切った区間をいう。例えば、本実施形態では、数値の単位種類の例を「bps」とし、この単位について数値区間を数値の1桁の範囲(1以上10未満、10以上100未満等)を1区間として説明する。
なお、数値の単位種類毎の所定の数値区間は「桁」である必要はなく、例えば、広い範囲をもつ数値の場合には、数値の対数とし、それが一定間隔となるように所定幅に区切るようにしてもよい。このようにして、広い範囲をもつ数値についても有限個の区間に分けることができる。また、数値区間は、数値の単位種類毎にそれぞれ異なる区間を設定することが可能である。
文書DB部2400は、文書投入部3000に投入された文書(あるいは文書を識別する文書識別情報)毎に、文書に出現した見出し語となる単語及びその出現数(tf)と、文書に出現した数値情報及びその出現数を記憶するものである。ここで、数値情報とは、数値と単位とを少なくとも有する情報をいい、例えば文書中の数値と単位とを含む文字列を、後述する数値抽出部3300が抽出した情報をいう。また、以下では、文書から抽出した数値及び単位からなる文字列を所定の数値表現に変換したものも数値情報と示して説明する。なお、数値情報の表現方法は、特に限定されておらず、単位種類などに応じて異なる表現を用いることができる。なお、文書DB部2400は、全登録文書における見出し語となる単語や数値情報毎の総出現回数を記憶するようにしてもよい。
次に、文書投入部3000の構成について説明する。文書投入部3000は、数値抽出部3300と、見出し語抽出部3100と、見出し語計数部3200と、数値範囲分布統計部3400とを少なくとも有する。
見出し語抽出部3100は、検索対象となる文書中から見出し語となる単語を検索・抽出するものであり、抽出した見出し語となる単語及びその出現数(tf)を、文書あるいは文章識別情報と対応付けて文書DB部2400に記憶させるものである。ここで、見出し語抽出部3100が見出し語となる単語を抽出する方法は、種々の方法を適用することができるが、例えば、見出し語となる単語を格納する単語辞書と品詞に関する規則とを有し、その単語辞書を参照して入力文書に含まれる見出し語となる単語を検索して、その検索単語を抽出する形態素解析による方法を適用することができる。
文書数計数部3200は、見出し語抽出部3100が見出し語として得られた単語が出現する文書数を、見出し語とした単語毎に計数するものであり、その計数した単語毎の文書数をDFデータ記憶部2200に記憶させるものである。
数値抽出部3300は、検索対象となる文書中から数値を表わす文字列を検索・抽出するものであり、抽出した数値を表わす文字列を所定の数値表現と解釈し、その解釈に従って単位種類毎の数値情報に変換するものである。また、数値抽出部3300は、所定の数値表現に解釈した数値情報を、文書DB部2400及び数値範囲分布統計部3400に与えるものである。ここで、数値抽出部3300が数値を表わす文字列を抽出する方法は、種々の方法を適用することができるが、例えば、文書から数値を検索し、その数値を含む文字列について、予め設定された数値に関連する単語(項目)を格納する単語辞書を参照して形態素解析を行なって数値と単位種類を抽出する方法や、また例えば、予め設定された文字の種類や品詞に基づく規則に基づいて文書の中から数値と単位種類を抽出する方法などを適用することができる。
数値範囲分布統計部3400は、数値抽出部3300から数値情報を受け取ると、単位種類毎の所定の数値区間に従って、数値情報を分類するものである。これにより、単位種類毎の予め設定した有限の区間に、数値を分類することができる。
例えば、数値情報が「5×10^7bps(「^」は自乗を示す)」であれば、その桁数は7桁であるから、この数値情報を「7桁の区間」に分類し、また例えば、数値情報が「1×10^9」であれば、桁数は9桁であるから、この数値情報を「9桁の区間」に分類する。
また、数値範囲分布統計部3400は、数値情報を分類すると、数値情報が属する数値区間の出現文書数(df)を計数し、数値区間毎の出現文書数(df)を更新させるものである。これにより、数値区間に属す数値情報を含む文書数を管理させることができる。なお、数値範囲分布統計部3400が計数した数値区間毎の出現文書数は数値範囲分布データ記憶部2300に与えて記憶させる。
例えば、上記例において、「7桁の区間」の出現文書数が「71」であれば、今回の数値情報「5×10^7bps」の分類により、出現文書数を「72」にする。なお、数値情報の範囲が数桁に及ぶ場合(複数区間にまたがる場合)、それぞれの数値区間について計数することにより処理が可能である。
なお、数値範囲分布統計部3400は、単位種類毎の各数値区間のそれぞれの出現文書数を計数し、記憶させるものとしたが、全登録文書における各数値区間のそれぞれの出現総数(CF)を計数し、記憶させるようにしてもよい。このように、全登録文書中における各数値区間の出現回数を算出して記憶させることで、その数値区間を検索条件としたときに、その各数値区間の出現回数を推定量として利用することができる。
次に、文書検索部1000の構成について説明する。文書検索部1000は、入力部1100、単語重要度算出部1200、数値重要度算出部1300、文書評価値算出部1400、出力部1500とを少なくとも有するものである。
入力部1100は、文書検索条件であるキーワード、数値、数値範囲等を取り込み、取り込んだ情報を単語重要度算出部1200及び数値重要度算出部1300を与えるものである。ここで、入力部1100が取り込み得る情報は、単語であるキーワード、数値、数値範囲等が該当し、これらの情報のそれぞれや、又はこれらをそれぞれ組み合わせたものを検索条件とする。
単語重要度算出部1200は、入力部1100から入力キーワードが与えられると、DFデータ記憶部2200から入力キーワードについてのdfデータを得、単語の検索キーとしての重要度を算出するものである。ここで、単語重要度算出部1200による単語重要度の算出方法は、例えば、文書DB部2400に登録されている全登録文書数を取り出し、log(<全登録文書数>/df)により求めたidfなどを用いる一般的な評価方法を適用することができる。また、単語重要度算出部1200は、算出したキーワードの検索条件とする重要度を文書評価値算出部1400に与えるものである。
数値重要度算出部1300は、入力部1100から入力された数値が与えられると、その入力数値による検索条件の重要度を、数値範囲分布データ記憶部2300のうち該検索条件に適合するデータを参照して算出するものである。ここで、数値重要度算出部1300による重要度の算出方法は、例えば、数値範囲分布データ記憶部2300が単位種類及び桁ごとの出現文書数が記憶されているのであれば、検索条件の単位種類及び桁についてのその出現文書数を、キーワードにおけるdfに相当するものとして、その重要度を算出する。その算出式は、単語重要度算出部1200と同様に、種々の方法を適用することができるが、例えば、idfなどの一般的に知られた手法を用いることができる。また、数値重要度算出部1300は、算出した入力数値の検索条件とする重要度を文書評価値算出部1400に与えるものである。
文書評価値算出部1400は、キーワード及び又は数値による検索条件を含む文書DB部2400中の各文書について、そのキーワードである単語出現数及び又は数値検索条件に適合する数値情報の数を得てtfとするものである。また、文書評価値算出部1400は、各文書のtfと、単語重要度算出部1200及び又は数値重要度算出部1300より得られた各検索条件の重要度とに基づいて、文書DB部2400中の各文書の評価値を算出するものである。ここで、文書評価値算出部1400による各文書の評価値の算出方法は、例えば、各検索条件についてのtf×idfの和を取るなどの一般的な検索の手法を用いることで実現できる。また、文書評価値算出部1400は、算出した各文書の評価値を出力部1500に与えるものである。
出力部1500は、文書評価値算出部1400で得られた各文書の評価値に基づいて、検索結果として出力する文書を決定し、出力するものである。なお、出力部1500は、文書DB部2400に記憶されているのが文書そのものではなく文書識別情報である場合には、その文書識別情報を出力するか、又は文書識別情報に基づいて対応する文書を取得して出力するようにしてもよい。
(A−2)第1の実施形態の動作
次に、本実施形態の文書検索システム1における処理について図面を参照して説明する。
まず、文書投入部3000における文書が投入された場合の動作について図2のフローチャートを参照して説明する。以下では、図3に示した文書11(図3は文書の部分である)が投入された場合を例に挙げて説明する。
また、図4はDFデータ記憶部2200の記憶内容例を示し、図5は数値範囲分布データ記憶部2300の記憶内容例を示し、図6は文書DB部2400の記憶内容例を示す。
図2において、投入された文書が文書投入部3000に取り込まれると(S1)、文書は、見出し語抽出部3100により形態素解析が行なわれ、その形態素解析の結果から、例えば名詞などの見出し語となる単語が抽出される(S2)。
例えば、文書11が取り込まれると、見出し語抽出部3100による形態素解析の結果から、予め見出し語として登録されている単語である、W11の「通信速度」、W13の「プロバイダ」、W15の「プロバイダ」が抽出される。ここで、見出し語は、予め用意された単語辞書などを参照することで抽出することができる。
見出し語抽出部3100により見出し語となる単語が抽出されると、抽出された単語は、その出現数と共に文書あるいは文書識別情報に対応付けられ、文書DB部2400に記憶される(S3)。
例えば、文書11において、見出し語となる単語「通信速度」の出現数は「1」であり、単語「プロバイダ」の出現数は「2」であり、これらが文書あるいは文書識別情報と対応付けられ、文書DB部2400に記憶される(図6参照)。
また、見出し語抽出部3100により文書から見出し語となる単語が抽出されると、その抽出された見出し語の単語が文書数計数部3200に与えられ、文書数計数部3200により、抽出された見出し語の単語のdfが計数される(S4)。そして、文書数計数部3200により計数された見出し語の単語のdfは、DFデータ記憶部2200に記憶される(S5)。
例えば、見出し語抽出部3100により文書11から「通信速度」の単語W11が見出し語として抽出されると、その「通信速度」の単語W11が文書数計数部3200に与えられる。そして、文書数計数部3200は、その単語W11の「通信速度」について、dfを1つ増やして(例えば、文書11の投入前が「119」とすると「120」にして)、数値範囲分布データ記憶部2300に記憶させる(図4参照)。
また、S1において、投入された文書が取り込まれると、文書は、数値抽出部3300により、数値と単位とからなる数値情報が抽出される(S6)。
例えば、文書11が投入されると、数値抽出部3300は、「50Mbps」の単語W12を抽出する。この数値抽出部3300による数値と単位からなる文字列の抽出処理については上述したので詳細な説明は省略する。
数値抽出部3300により数値と単位とからなる文字列の数値情報が抽出されると、数値抽出部3300により、当該数値情報を、予め設定された数値区間に区分けすることができるように、当該数値情報の数値表現を所定の数値表現と解釈するように所定形式に変換する(S7)。
例えば、本実施形態では数値区間の区分けを数値の「桁」に基づいて行なうものとするので、数値抽出部3300は、文書11から抽出した「50Mbps」を「5×10^7bps」という数値表現に解釈し、仮数部「5」、指数部「7」、単位「bps」という数値情報に変換する。
数値抽出部3300により数値情報の解釈が行なわれると、数値情報は、その出現数と共に文書あるいは文書識別情報に対応付けられて文書DB部2400に記憶される(S8)。
例えば、文書11において、数値情報として抽出された「50Mbps」は「5×10^7bps」という数値表現に解釈されるので、数値情報「5×10^7bps」の出現数は「1」であり、これが文書あるいは文書識別情報と対応付けられて文書DB部2400に記憶される(図6参照)。
また、数値抽出部3300により数値情報の解釈が行なわれると、数値抽出部3300により変換された数値情報が数値範囲分布統計部3400に与えられる。そして、数値範囲分布統計部3400により、当該数値情報の単位が確認され、数値範囲分布データにおける当該単位の当該数値情報の桁数の出現文書数が計数される(S9)。また、数値範囲分布統計部3400により計数された、数値範囲分布データにおける当該単位の当該数値情報の桁数の出現文書数は、数値範囲分布範囲データ記憶部2300に記憶される(S10)。
例えば、数値抽出部3300から数値情報として、仮数部「5」、指数部「7」、単位「bps」の情報が、数値範囲分布統計部3400に与えられる。そして、数値範囲分布統計部3400は、単位「bps」を確認すると、単位「bps」の数値範囲分布データのうち、指数部「7」に相当する区間の出現文書数を1つ増やすようにする(例えば、文書11を投入する前の当該出現文書数が「71」とすると「72」とする)(S9)。
以上のように、投入された文書に対して上記処理を行ない、例えば2000個の文書を登録文書として文書記憶部2000に登録した場合の一部データを図4、図5、図6に例示する。
続いて、文書記憶部2000から入力に基づく文書を検索する動作について図面を参照して説明する。
例えば、入力部1100からの検索条件として「無線」、「プロバイダ」、「1Gbps以上」が入力されたものとする。
入力部1100に検索条件が取り込まれると(S21)、入力された検索条件が、単語重要度算出部1200及び数値重要度算出部1300に与えられる。
入力された検索条件が単語重要度算出部1200に与えられると、単語重要度算出部1200により、DFデータ記憶部2200から各キーワードのdfが取り出され、その各キーワードのdfデータと、文書DB部2400の登録文書数とに基づいて、各キーワードの重要度が算出される(S22)。また、入力された各キーワードと算出された各キーワードの重要度とは、文書評価値算出部1400に与えられる。
例えば、単語重要度算出部1200において、図4に例示したDFデータ記憶部2200を参照して、入力された単語のキーワード「無線」についてのdf=36が取り出される。また、文書DB部2400に登録されている登録文書数が2000であるから、単語重要度算出部1200は、キーワード「無線」の重要度idf=log(2000/36)=1.74を算出する。また、単語重要度算出部1200は、キーワード「プロバイダ」についても、同様にして、df=452をDFデータ記憶部2200から取り出し、重要度idf=0.64を算出する。
また、入力された検索条件が数値重要度算出部1300に与えられると、数値重要度算出部1300により、入力された条件について所定の数値表現に解釈し、その解釈された数値の単位及び数値の桁数が確認され、当該数値情報の単位について、当該数値情報の桁数の出現文書数が、数値範囲分布データ記憶部2300から取り出される。また、数値重要度算出部1300により、数値範囲分布データ記憶部2300から取り出した当該単位の当該数値情報の桁数の出現文書数と、文書DB部2400に登録されている登録文書数とに基づいて、数値の重要度が算出される(S23)。また、入力条件である数値と算出された数値の重要度とは、文書評価値算出部1400に与えられる。
例えば、数値重要度算出部1300において、入力部1100から得られた検索条件のうち数値である「1Gbps以上」について処理を行う。ここで、「1Gbps以上」についての解釈をすると、「1G=10^9」であるから数値の桁数は9桁であり、かつ、数値範囲が「以上」であるので、図5に例示した数値範囲分布データ記憶部2300から、単位「bps」の「9桁以上」について記憶された出現文書数を得る。すなわち、数値重要度算出部1300は、図5において、「9桁」の「14」と、「10桁」の「3」を加算して「17」を出現文書数とする。そして、これをdfと同等値とし、idfに相当するlog(2000/17)=2.07を、この数値条件の重要度として算出する。
文書評価値算出部1400では、単語重要度算出部1200及び数値重要度算出部1300から入力条件であるキーワード及び数値を受け取ると、文書DB部2400を参照して、これらキーワード及び数値を含む文書のそれぞれにおける、各キーワード及び数値の出現数(tf)を得る。そして、各キーワード及び数値の出現数(tf)と、単語重要度算出部1200及び数値重要度算出部1300で算出された重要度(idf)とに基づいて、各文書の評価値を算出する(S24)。
例えば、文書評価値算出部1400において、図5に例示した文書DB部2400を参照して、入力条件である「無線」、「プロバイダ」、「1Gbps以上」を含む文書を検索する。例えば、図5における文書11を取り出すと、文書11において、「無線」の出現数tf=0、「プロバイダ」のtf=2、「1Gbps以上=(1×10^9bps以上)」のtf=0を算出する。
そうすると、文書評価値算出部1400において、文書11の評価値Σtf・idf=(0×1.7)+(2×0.64)+(0×2.07)=1.28が算出される。
同様に、文書12については、「無線」のtf=0、「プロバイダ」のtf=2、「1Gbps以上」は「1〜4×10^9bPs」に適合するのでtf=1が得られる。この結果、文書12の評価値Σtf・idf=(0×1.74)+(2×0.64)+(1×2.07)=3.35を算出する。
さらに、文書13については、「無線」のtf=1、「プロバイダ」のtf=2、「1GbPs以上」のtf=0が得られる。この結果、文書13の評価値Σtf・idf=(1×1.74)+(2×0.64)+(0×2.07)=3.02を算出する。
出力部1500では、文書評価値算出部1400により算出された各文書の評価値に基づいて、出力する文書を決定し、決定した文書を出力する(S25)。
例えば、以上のように、図5の文書11〜13においては、「無線」、「1Gbps以上」の双方の条件を満たす文書がないが、いずれか一方を含む文書12と文書13がある場合、出現数がより少ない(dfが小さい)、すなわち文書がより絞り込まれる「1Gbps以上」を含む文書12のほうが、文書13より評価値が高くなる。
また、例えば、入力部1100より「無線」、「プロバイダ」、「10〜80Mbps」という条件が与えられた場合についても、上記と同様な動作(図7に示す処理)が行なわれる。
「無線」、「プロバイダ」の重要度については、単語重要度算出部1200により、それぞれ上記と同じ値idf「1.74」、「0.64」が得られる。
また、「10〜80Mbps」の重要度については、数値重要度算出部1300において、所定の数値表現である「1〜8×10^7bps」と解釈される。従って、数値重要度算出部1300により、図5の数値範囲分布データ記憶部2300から同じ単位「bps」で桁が「7桁」の出現文書数「72」が得られる。その結果、「10〜80Mbps」の重要度は、log(2000/72)=1.44と算出される。
その後、文書評価値算出部1400において、各文書における「無線」、「プロバイダ」のそれぞれのtfが上記と同様にして求められる。
また、「10〜80Mbps」に関しては、この条件と桁数が適合する「5×10^7bps」についてのtfを参照しながら各文書の評価値を算出するものとする。
その結果、文書11についてはΣtf・idf=(0×1.74)+(2×0.64)+(1×1.44)=2.72が、文書12については(0×1.74)+(2×0.64)+(0×1.44)=1.28、文書13については(1×1.74)+(2×0.64)+(0×1.44)=3.02の評価値が得られる。
このように、「無線」と「10〜80Mbps」双方の検索条件を満たす文書がない場合、より出現文書数が少なく絞り込み効果がある「無線」を含む文書13が高い評価値となる。
(A−3)第1の実施形態の効果
以上のように、本実施形態によれば、数値による検索条件におけるdfに相当するデータを、一定区間ごと(実施形態では桁ごと)に出現数を計数して得て数値範囲分布データ記憶部2300に記憶することで有限の情報とし、これにより、この情報を登録時に作ることを可能とした。
これにより、検索処理時に数値による検索条件に適合する文書数を数えることなく数値による検索条件の値を反映した重みの算出を行うことができるので、文書検索に係る処理速度を向上させることができる。
また、本実施形態によれば、実施形態に例示したように、単語による検索条件か数値による検索条件かによらず、与えられた検索条件による文書の絞込み具合に基づく重み付けができ、より絞り込まれた検索結果を得ることができる。
(B)第2の実施形態
次に、本発明の文書検索システム、文書検索方法、文書検索プログラム及び記録媒体の第2の実施形態について図面を参照して説明する。
本実施形態は、全登録文書中の数値情報の幅の統計量を元に、数値による検索条件の数値の幅を反映したdfの近似値を算出するものである。
(B−1)第2の実施形態の構成
第2の実施形態の構成は、図1に示す第1の実施形態の構成に対応する。ただし、数値範囲分布統計部3400が得る数値情報の範囲の統計量と、数値数値範囲分布データ記憶部2300に記憶される数値情報の範囲の統計量と、数値重要度算出部1300による数値による検索条件の重要度の算出方法が、第1の実施形態と異なる。
従って、以下では、図1に示す文章検索システムの構成及び対応符号を用いながら、第2の実施形態の文書検索システムについて説明する。
図8は、第2の実施形態の数値範囲分布統計部3400における機能構成と共に、数値範囲分布データ記憶部2300が記憶する内容例を示したものである。
図8に示すように、第2の実施形態の数値範囲分布統計部3400は、その機能として、最小値・最大値更新部3401、標準幅算出・更新部3402、出現数更新部3403、出現文書数更新部3404、出現文書期待値更新部3405を少なくとも有する。
数値範囲分布統計部3400は、数値抽出部3300から数値情報を受け取り、その数値情報の単位種類で分類し、各分類毎にその数を計数し、各分類毎の数値情報の数を数値範囲分布データ記憶部2300に記憶するものである。
最小値・最大値更新部3401は、数値抽出部3300からの数値情報に基づいて、数値情報の最大値と最小値とを各単位種類毎に求めて、数値範囲分布データ記憶部2300に記憶させるものである。また、最小値・最大値更新部3401は、同一単位種類の数値情報が新たに与えられると、数値範囲分布データ記憶部2300の最小値2301及び最大値2302を参照し、各単位種類毎の最小値、最大値を更新するかどうかを判断し、更新する必要がある場合には最小値・最大値を更新するものである。ここで、最小値及び最大値は、例えば、数値情報が指数的な数値である場合には、その数値の対数をとって記してもよい。
出現数更新部3403は、単位種類の数値情報が与えられると、その単位種類の出現数を更新して、数値範囲分布データ記憶部2300の出現数2303に記憶させるものである。
標準幅算出・更新部3402は、受け取った数値情報の数値範囲の幅の標準的な値(以下、これを標準幅という)を算出し、その算出した標準幅を数値範囲分布データ記憶部2300の標準幅2304に記憶させるものである。
ここで、数値範囲の幅は、ユーザの直感に合うように、ユーザ操作に応じて所定の変換することができ、例えば、指数的な数値情報である場合には、その数値情報の対数で表現した範囲の幅等とすることが望ましい。
また、範囲の標準幅の更新方法は、種々の方法が考えられるが、例えば、新たな数値情報が与えられると、既に数値範囲分布データ記憶部2300に記憶されている標準幅2304に各分類の出現数を乗算し、それに新たに得られた数値情報の範囲を加えて、再度その数値情報が加えられた単位種類の出現数で除算することで得ることができる。
さらに、標準値算出・更新部3402は、範囲を持たない数値情報が与えられると、その数値に対して最低限の一定幅を設定することができる。例えば、数値の幅が値の10%以下の場合はその値の幅を10%とみなすことができる。
出現文書数更新部3404は、数値情報が出現する文書数を更新して、数値範囲分布データ記憶部2300の出現文書数2305に記憶させるものである。
出現文書期待値更新部3405は、数値範囲分布データ記憶部2300の最小値2301、最大値2302、標準幅2304、出現文書数2305の情報を取り出し、これらの情報に基づいて、登録された全文書において一定幅の数値範囲に適合する数値情報を含む文書数の期待値DNを推定するものである。また、出現文書期待値更新部3405は、期待値をDNを数値範囲分布データ記憶部2300の出現文書数期待値2306に記憶させるものである。
ここで、出現文書期待値更新部3405による期待値DNの求め方は、種々の方法を適用できるが、例えば、{(標準幅)×(出現文書数)}/{(最大値)−(最小値)}により求めることができる。
数値範囲分布データ記憶部2300は、各単位種ごとに、その単位種の数値情報の全入力文書中での総数(出現数)2303、その単位種類の数値情報を含む出現文書数2305、その単位種の数値情報の数値範囲の標準的な幅(標準幅)2304、その単位種で文書中に現れた数値の最大値2302と最小値2301、出現文書数期待値2306を記憶するものである。なお、本実施形態では、標準幅2304、最小値2301、最大値2302は、数値情報の対数とした値であらわされる。
数値重要度算出部1300は、入力部110から数値の検索条件を受け取ると、数値範囲分布データ記憶部2300から、その検索条件とする数値の単位種類についての全登録文書において一定幅の数値範囲に適合する数値情報を含む文書数の期待値DNを取り出し、その期待値DNを用いて検索条件となる数値が出現する文書数の期待値を推定するものである。
ここで、検索条件となる数値が出現する文書数の期待値は、(検索条件の数値の幅)×DNにより推定することができる。
また、数値重要度算出部1300は、検索条件が範囲の幅を持たない数値である場合には、数値範囲分布統計部3400の場合と同様に、その検索条件となる数値に対して一定の割合の幅を持たせるように、例えば10%が幅の下限として、それ以下の幅のものは値の10%の幅を持つものとして扱う、などの方法で処理ができる。
このように、数値重要度算出部1300により算出された検索条件の出現文書数の期待値を用いて、第1の実施形態で説明したように、この期待値をdf相当と扱い検索条件の重要度であるidfを算出し、処理を続行できる。
(B−2)第2の実施形態の動作
以下では、第2の実施形態に係る数値範囲分布統計部3400における動作について、図8の数値範囲分布統計部3400の機能構成図を参照しながら説明する。
以下では、例えば、ある登録された文書のうち、文書D21には「1.5〜25Mbps」という数値情報が含まれていて、また、文書D22には「1〜15Mbps」と「50Mbps」という2つの数値情報が含まれていたものとする。また、他の文書には単位種「bps」である数値情報はなかったものとして、具体的な処理例を示す。
数値抽出部3300により抽出された数値情報が、数値範囲分布統計部3400に与えられると、単位種類毎の出現数及び当該単位種類を含む文書の出現文書数が更新される。
例えば、文書D21における「1.5〜25Mbps」が数値範囲分布範囲統計部3400に与えられると、「bps」という単位に関する数値情報があることを確認し、数値範囲分布データ記憶部2300に記憶された単位「bps」に関する出現する文書数に「1」を加算する。また、「bps」という単位種類の数値の出現数に「1」加算する。
次に、数値範囲分布統計部3400において、数値範囲の最小値1.5Mと最大値25Mについて対数を取り、最小値6.18と最大値7.40を得る。この最小値、最大値で数値範囲分布データ記憶部2300に記憶された単位「bps」についての最小値、最大値を更新し、また、最大値と最小値との幅(7.40−6.18)=1.22を求め、この幅を標準幅として更新する。
この情報が単位「bps」についての最初のものであるとすると、そのまま書き込まれる。その結果、数値範囲分布データ記憶部2300の単位種「bps」について、出現文書数「1」、出現数「1」、最小値「6.18」、最大値「7.40」、標準幅「1.22」となる。
次に、文書D22が投入されると、まず「1〜15Mbps」という数値情報について数値範囲分布統計部3400が実行されるものとする。
「1〜15M」の対数での幅が1.18であるので、この時点での数値範囲分布データ記憶部2300の単位「bps」についての標準幅1.22と出現数1から、(1.22×1+1.18)/(1+1)=1.2で標準幅を更新する。
その他は先同様に動作し、出現文書数が1加えられて「2」に、出現数が「1」加えられて2に、最小値が「1M」の対数で更新され「6」になる。
次に、同じ文書D22中の「50Mbps」という数値情報が処理されるものとする。この場合、幅が無い数値なので、幅は10%相当の対数の0.04とする。
これについて、この時点での標準幅1.2と出現数2から、(1.2×2+0.04)/(2+1)=0.81で、数値範囲分布データ記憶部2300の単位種「bps」についての標準幅を更新する。
また、最大値を「50M」の対数である「7.70」で更新する。文書は先と同じ文書D22であるので出現文書数は更新されず、数値情報の「bps」についての出現数が1が加えられて「3」に更新される。
以上の操作により、数値範囲分布データ記憶部2300には、単位種「bps」について、その数値情報の出現数の総数が3、数値情報が出現する文書数が2、数値の標準的な幅は対数で「0.81」、最小値は対数で「6」、最大値は対数で「7.70」となる。
また、これらより、単位「bps」について登録された全文書において一定幅の数値範囲に適合する数値情報を含む文書数の期待値DNは、(0.81×2)/(7.70−6)=0.95と算出され、これも数値範囲分布データ記憶部2300に記憶される。
続いて、文書検索時の数値重要度算出部1300の動作について説明する。
例えば、入力部1100が取り込んだ数値検索条件が「1〜10Mbps」であったとする。
まず、この検索条件の単位種「bps」について数値範囲分布データ記憶部2300を参照して得られる期待値DNは0.95である。従って、この期待値DNと、検索条件の対数での最小値「6」、最大値「7」から、出現文書数の推定値を(7−6)×0.95=0.95と算出する。
これを用いて、あとは第1の実施形態と同様に、この出現文書数の推定値をidf相当の値として検索条件の重要度を算出し、文書の検索処理が行なわれる。
また、数値検索条件が「20〜25Mbps」と、先の説明の「1〜10Mbps」より狭い範囲の検索条件の場合については、文書あたりの情報出現数の算出までは同様に動作する。
そして、検索条件での対数の最小値「7.30」と、最大値「7.40」から、出現文書数の推定値を(7.40−7.30)×0.95=0.095と算出する。
以上の数値範囲分布データ記憶部2300の数値範囲分布統計部3400による登録と数値重要度算出部1300による参照は、単位種ごとに行なうように説明した。
しかし、第1の実施形態のように、数値を単位種ごと、さらに桁などの数値の一定区間ごとに分類したうえで実施することもできる。
このような組み合わせにより、数値による検索条件の値と、値の持つ幅双方を考慮した出現文書数の推定を行うことができ、それに基づく数値による検索条件の重み付けが可能となる。
(B−3)第2の実施形態の効果
以上のように、本実施形態によれば、入力された検索条件が「20〜25Mbps」と「1〜10Mbps」の場合を比較すると、より狭い範囲の検索条件、すなわち、より文書を絞り込む可能性が高いもののほうが推定される出現文書数の期待値が少なくなる。これに基づいて数値重要度算出部1300においてその検索条件の重み付けが行なわれるため、狭い範囲の数値による検索条件のほうが、より高い重要度が算出される。
また、本実施形態によれば、この出現文書数の推定に必要な統計量が、文書投入時に数値範囲分布統計部3400によりあらかじめ算出され、数値範囲分布データ記憶部2300に記憶されている。
すなわち、推定に必要な統計量の算出のために検索条件に合致する文書の検索および計数を検索時に行うことなく、検索条件となる数値の範囲による絞込みの可能性を考慮した、数値検索条件の重要度の算出が可能となっている。
(C)他の実施形態
本発明は、数値を検索条件として文書検索を行う場合に、複数の数値の条件、もしくは数値による条件と単語による検索条件が設定された場合、それぞれの検索条件の重みを算出する処理の効率を向上させるために用いることができる。
具体的には、文書をデータベースに登録する時点で文書中の数値の情報の統計的な傾向を算出してデータベースに収めるような文書登録を行なうことができる。これにより、検索時には数値の文書集合中での傾向を算出する必要をなくすことができる。また、検索時には数値による検索条件の場合はその数値の範囲によって重みを変えるような検索処理を行なうことができる。
このように、文書中の数値の出現傾向について登録時に可能なものは算出してデータベースに収め、検索時にはそれを参照することで処理パフォーマンスの低下を抑えるために、本発明は利用される。
上述した第2の実施形態では、数値範囲分布統計部3400が、単語種類毎に標準幅、出現数、出現文書数、最大値、最小値及び期待値を算出するものとして説明したが、第1の実施形態と融合させて、各単語種類毎に予め設定した数値区間毎に標準幅、出現数、出現文書数、最大値、最小値及び期待値を算出するようにしてもよい。
第1及び第2の実施形態の文書検索システムの機能構成を示す機能ブロック図である。 第1の実施形態の文書投入部における動作を示す動作フローチャートである。 第1の実施形態の文書投入部に投入する文書例を説明する説明図である。 第1の実施形態のDFデータ記憶部の内容例を示す説明図である。 第1の実施形態の数値範囲分布データ記憶部の内容を示す説明図である。 第1の実施形態の文書DB部の内容例を示す説明図である。 第1の実施形態の文書検索部における動作を示すフローチャートである。 第2の実施形態の数値範囲分布統計部の機能構成及び数値範囲分布データ記憶部の内容例を示すブロック図である。
符号の説明
1…文書検索システム、1000…文書検索部、1100…入力部、1200…単語重要度算出部、1300…数値重要度算出部、1400…文書評価値算出部、1500…出力部、2000…文書記憶部、2200…DFデータ記憶部、2300…数値範囲分布データ記憶部、2400…文素DB部、3000…文書投入部、3100…見出し語抽出部、3200…文書数計数部、3300…数値抽出部、3400…数値範囲分布統計部。

Claims (9)

  1. 少なくとも数値情報を検索条件として登録されている登録文書から上記検索条件に適合する文書を検索する文書検索システムであって、
    入力文書から抽出された1又は複数の数値情報のそれぞれを、数値情報の単位種類毎に分類する数値情報分類手段と、
    上記数値情報を含む文書を推定させる特徴量を、上記単位種類毎の所定の数値範囲を伴って算出する特徴量算出手段と、
    上記特徴量算出手段が算出した上記特徴量を上記単位種類毎に記憶する特徴量記憶手段と、
    検索条件として入力された入力数値情報の単位種類に基づいて、対応する単位種類の上記特徴量を上記特徴量記憶手段から取得し、少なくとも取得した上記特徴量に基づいて上記検索条件として入力された入力数値情報の重みを算出する数値重要度算出手段と、
    上記数値重要度算出手段が算出した入力数値情報の重みに基づいて登録文書から文書を検索する文書検索手段と
    を備えることを特徴とする文書検索システム。
  2. 上記特徴量算出手段が、
    上記単位種類に応じて予め設定された所定の数値区間に従って、上記入力文書から抽出した上記各数値情報を区分し、上記単位種類毎の所定の数値区間の分布統計を求める分布統計部を有し、
    上記数値重要度算出手段が、上記入力数値情報の単位種類に応じた上記所定の数値区間の分布統計結果に基づいて、上記検索条件として入力された入力数値情報の重みを計算することを特徴とする請求項1に記載の文書検索システム。
  3. 上記数値重要度算出手段は、上記特徴量記憶手段に記憶された特徴量に基づいて、検索条件として入力された入力数値情報と適合する文書の数の推定値を算出し、その文書の推定値を基に当該検索条件として入力された入力数値情報の重みを算出することを特徴とする請求項1又は2に記載の文書検索システム。
  4. 上記特徴量算出手段が、
    上記単位種類毎に分類された上記各数値情報に基づいて、一定幅の範囲を持つ数値条件に一致する数値情報を含む登録文書数の期待値を算出する期待値算出部を有し、
    上記数値重要度算出手段が、上記入力数値情報の単位種類に応じた上記期待値に基づいて、上記検索条件として入力された入力数値情報の重みを計算することを特徴とする請求項1〜3のいずれかに記載の文書検索システム。
  5. 上記期待値算出部は、上記全登録文書中の数値情報について、単位種類毎及び又は予め定められた所定の数値区間毎に、数値の幅の標準的な幅と上記数値情報が出現する出現文書数とを算出すると共に、全数値情報の出現する数値範囲を算出し、上記標準的な幅、上記出現文書数及び上記数値範囲に基づいて、上記単位種類及び又は上記所定の数値区間毎に一定幅の範囲の数値を含む登録文書の数を期待値として算出することを特徴とする請求項4に記載の文書検索システム。
  6. 上記分布統計部は、上記入力文書から抽出した上記数値情報の数値に対して対数を取ったものを処理することを特徴とし、
    上記数値重要度算出手段が、上記入力数値情報の数値に対して対数を取ったものを処理することを特徴とする
    ことを特徴とする請求項2に記載の文書検索システム。
  7. 少なくとも数値情報を検索条件として登録されている登録文書から上記検索条件に適合する文書を検索する文書検索方法であって、
    入力文書から抽出された1又は複数の数値情報のそれぞれを、数値情報の単位種類毎に分類する数値情報分類工程と、
    上記数値情報を含む文書を推定させる特徴量を、上記単位種類毎の所定の数値範囲を伴って算出する特徴量算出工程と、
    上記特徴量算出工程で算出した上記特徴量を上記単位種類毎に記憶する特徴量記憶手段を有し、
    検索条件として入力された入力数値情報の単位種類に基づいて、対応する単位種類の上記特徴量を上記特徴量記憶手段から取得し、少なくとも取得した上記特徴量に基づいて上記検索条件として入力された入力数値情報の重みを算出する数値重要度算出工程と、
    上記数値重要度算出工程が算出した入力数値情報の重みに基づいて登録文書から文書を検索する文書検索工程と
    を備えることを特徴とする文書検索方法。
  8. 少なくとも数値情報を検索条件として登録されている登録文書から上記検索条件に適合する文書を検索する文書検索プログラムであって、
    コンピュータに、
    入力文書から抽出された1又は複数の数値情報のそれぞれを、数値情報の単位種類毎に分類する数値情報分類手段、
    上記数値情報を含む文書を推定させる特徴量を、上記単位種類毎の所定の数値範囲を伴って算出する特徴量算出手段、
    上記特徴量算出手段が算出した上記特徴量を上記単位種類毎に記憶する特徴量記憶手段、
    検索条件として入力された入力数値情報の単位種類に基づいて、対応する単位種類の上記特徴量を上記特徴量記憶手段から取得し、少なくとも取得した上記特徴量に基づいて上記検索条件として入力された入力数値情報の重みを算出する数値重要度算出手段、
    上記数値重要度算出手段が算出した入力数値情報の重みに基づいて登録文書から文書を検索する文書検索手段
    として機能させるための文書検索プログラム。
  9. 少なくとも数値情報を検索条件として登録されている登録文書から上記検索条件に適合する文書を検索する文書検索プログラムを記録したコンピュータに読み取り可能な記録媒体であって、上記文書検索プログラムが請求項7に記載の文書検索プログラムに対応するものであることを特徴とする文書検索プログラムを記録したコンピュータに読み取り可能な記録媒体。

JP2005145378A 2005-05-18 2005-05-18 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体 Pending JP2006323575A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005145378A JP2006323575A (ja) 2005-05-18 2005-05-18 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005145378A JP2006323575A (ja) 2005-05-18 2005-05-18 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2006323575A true JP2006323575A (ja) 2006-11-30

Family

ID=37543214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005145378A Pending JP2006323575A (ja) 2005-05-18 2005-05-18 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2006323575A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182165A (ja) * 2009-02-06 2010-08-19 Hitachi Ltd 分析システム及び情報分析方法
JP2011107767A (ja) * 2009-11-12 2011-06-02 Hitachi Ltd 文書分析システム及び辞書作成システム
JP2020080087A (ja) * 2018-11-14 2020-05-28 株式会社村田製作所 数値検索装置、数値検索方法および、数値検索プログラム
JP2021068376A (ja) * 2019-10-28 2021-04-30 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
CN115392939A (zh) * 2022-10-28 2022-11-25 中国环境科学研究院 一种基于检索对比和匹配度计算的危险废物溯源方法
JPWO2023281691A1 (ja) * 2021-07-08 2023-01-12

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182165A (ja) * 2009-02-06 2010-08-19 Hitachi Ltd 分析システム及び情報分析方法
JP2011107767A (ja) * 2009-11-12 2011-06-02 Hitachi Ltd 文書分析システム及び辞書作成システム
JP2020080087A (ja) * 2018-11-14 2020-05-28 株式会社村田製作所 数値検索装置、数値検索方法および、数値検索プログラム
JP7092001B2 (ja) 2018-11-14 2022-06-28 株式会社村田製作所 数値検索装置、数値検索方法および、数値検索プログラム
JP2021068376A (ja) * 2019-10-28 2021-04-30 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
JP7389330B2 (ja) 2019-10-28 2023-11-30 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
JPWO2023281691A1 (ja) * 2021-07-08 2023-01-12
WO2023281691A1 (ja) * 2021-07-08 2023-01-12 三菱電機株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7333891B2 (ja) 2021-07-08 2023-08-25 三菱電機株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN115392939A (zh) * 2022-10-28 2022-11-25 中国环境科学研究院 一种基于检索对比和匹配度计算的危险废物溯源方法

Similar Documents

Publication Publication Date Title
JP4980148B2 (ja) 文書検索方法
CN106874292B (zh) 话题处理方法及装置
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
CN104199965B (zh) 一种语义信息检索方法
KR101479040B1 (ko) 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체
WO2016180270A1 (zh) 网页分类方法和装置、计算设备以及机器可读存储介质
US10909427B2 (en) Method and device for classifying webpages
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
KR20150036117A (ko) 쿼리 확장
JP2008525897A (ja) 適応型クエリ識別及び加速のためのシステム及び方法
EP2558988A1 (en) Ascribing actionable attributes to data that describes a personal identity
JP2006323575A (ja) 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体
JP2007219929A (ja) 感性評価システム及び方法
CN110688593A (zh) 一种社交媒体账号识别方法及***
CN103324641B (zh) 信息记录推荐方法和装置
CN111324705B (zh) 自适应性调整关联搜索词的***及其方法
CN110619212B (zh) 一种基于字符串的恶意软件识别方法、***及相关装置
CN117171331B (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
CN117149956A (zh) 一种文本检索方法、装置、电子设备及可读存储介质
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及***
JP2011090463A (ja) 文書検索システム、情報処理装置およびプログラム
CN114443820A (zh) 一种文本聚合方法以及文本推荐方法
CN109684442B (zh) 一种文本检索方法、装置、设备及程序产品
CN114610793B (zh) 一种基于大数据统计分析的交互方法、***和存储介质
CN117648444B (zh) 基于图卷积属性聚合的专利聚类方法和***