JP3829506B2

JP3829506B2 - 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Info

Publication number: JP3829506B2
Application number: JP33738998A
Authority: JP
Inventors: 道博長石
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1998-11-27
Filing date: 1998-11-27
Publication date: 2006-10-04
Anticipated expiration: 2018-11-27
Also published as: JP2000163437A

Description

【０００１】
【発明の属する技術分野】
本発明は、多数の文書からある分野に関連する文書かどうか判定して区別する文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体に関する。
【０００２】
【従来の技術】
多数の文書の中からある分野に関連する文書かどうか判定して区別することが従来より行われている。特に、最近ではインターネットの普及によって、ユーザの欲しい情報を比較的簡単に取り出せるようになってきている。しかし、インターネット上には膨大な量の文書が存在し、その中から、ユーザの所望とする文書を適切に判断して取り出すのは容易なことではない。このように、膨大な量の文書の中からユーザの所望とする文書を抽出するには、ユーザの検索要求を受けると、その検索要求に基づいて多数の文書を分野別に分類してその中からユーザの所望とする文書を抽出するというような処理が必要となってくる。このような文書の分類を可能とする技術は、従来より、様々提案されている。
【０００３】
これまで、複数の文書を分類する方法として最も多く使われるのは、ユーザの所望とする文書を捜すために、何らかのキーワードを設定し、そのキーワードがそれぞれの文書にどのくらい存在するか調べる方法である。キーワードが沢山ある文書は、ユーザの所望とする有用度が高い文書であるといえる。
【０００４】
しかし、この方法はキーワードが存在しているか否かしか見ていないため、非常に沢山の文書の中から、おおまかに候補を絞り込む場合には、ある程度有効なものとなるが、本当に欲しい文書に絞り込むのは難しい。ただし、これは単純なキーワード照合なので、webのようなある程度実時間処理を求められる用途でも使われている。
【０００５】
これに対して、単にキーワードが存在するか否かの判断だけではなく、１つ１つの文書において、個々の文書内全体における各用語の出現頻度や割合から、文書中で有効な用語を選出し、検索の時に入力されたキーワードをそれらの用語と照合させることで、文書分類の精度を向上させる方法も使われている。代表的な方法として、ＴＦ・ＩＤＦ法が知られている。この方法は単純な文書中のキーワード照合方法に比べて精度が高い。
【０００６】
【発明が解決しようとする課題】
しかし、上述のＴＦ・ＩＤＦ法は、たとえば、ある商品についての文書を沢山の文書の中から的確に探し出すという場合にはかなり有効であるが、そのある商品についてのの文書から、その商品の評判などが詳しく書かれた文書を捜し出すことは難しい。また、事前に検索対象にする全文書について、単語頻度などを計算する必要があるので、計算量が多いという問題点もある。
【０００７】
しかも、形態素解析で文章を単語に切り分ける必要があり、検索対象文書が多くなると、計算量は莫大なものとなる。したがって、単純にキーワードを与えて、すぐに該当する文書を探し出すことが難しい。
【０００８】
このように、これまで使われている主な文書分類方法は、キーワードの出現頻度を利用している。一方、我々は単純に頻度ではなく、関連するキーワードがどの程度の密度で文書中に存在するのか、存在位置も見ていると考えられる。実際、キーワードの出現位置を考慮したキーワード出現密度がその文書で重要な場所を的確に示していることが報告されている（黒橋、白木、長尾：出現密度分布を用いた語の重要説明箇所の特定、情報処理学会論文誌、Vol.38，No.4，pp.845-854 (1997)）。この文献を以下では第１の文献という。
【０００９】
この第１の文献に書かれている方法は、設定したキーワードと一致する語句の文書上の位置から簡単にキーワード出現密度を計算することができる。したがって、事前に頻度や形態素分析をする必要がなく、単純に設定したキーワードと照合するだけでよい。しかも、文書中の有用な部分がわかるので、そのような有用部分が相対的に数多く存在する文書を見つければ、精度の高い文書分類が可能になると考えられる。
【００１０】
なお、キーワードの位置を利用する方法として、語彙の連鎖の一致度を文書全体で計算・分類する方法も検討されている（望月，岩山，奥村：語彙的連鎖に基づくパッセージ検索、情報処理学会研究会報告、98-NL-127，pp.39-46，1998）。この文献を以下では第２の文献という。
【００１１】
この第２の文献に記載された方法は、キーワード検索時に入力されたクエリー（検索エンジンなどで最初に入力することばなど）に適応する部分を文書中で見つける一種のパターンマッチングである。しかし、この方法は与えられたクエリーとのマッチングだけを調べるので、前述のようなある商品の評判などが詳しく書かれた文書を捜すというように、単純なクエリーでは表現しにくい内容の文書を捜すには向かない。
【００１２】
そこで本発明は、文書内におけるキーワード出現位置を考慮したキーワード出現密度を求めて、このキーワード出現密度を利用して文書の分類を行うことで、非常に計算が簡単で精度の高い文書分類を可能とすることを目的としている。
【００１３】
【課題を解決するための手段】
上述の目的を達成するために、本発明の文書分類方法は、ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力する文書分類方法において、処理対象文書を１次元文字列に展開して、前記ユーザの検索要求に基づくキーワードの出現位置を前記１次元文字列上において特定するとともに、その１次元文字列上で所定の範囲を重み付け範囲として設定し、その重み付け範囲の中心位置付近におけるキーワードの出現に対しては重みを重くし、中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出することによって、前記１次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザの検索要求に対する当該処理対象文書の有用度を求め、その有用度によって複数の処理対象文書の分類を行うようにしている。
【００１４】
また、本発明の文書分類装置は、ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力する文書分類装置において、処理対象文書をそれぞれの処理対象文書ごとに１次元文字列に展開して、前記ユーザの検索要求に基づくキーワードの出現位置を前記１次元文字列上において特定するとともに、その１次元文字列上で所定の範囲を重みけ範囲として設定し、その重み付け範囲の中心文字位置付近におけるキーワードの出現に対しては重みを重くし中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出するキーワード出現密度計算手段と、このキーワード密度計算手段によって求められたキーワード出現密度に基づいて前記処理対象文書の前記１次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザ検索要求に対する当該文書の有用度を求める有用文書判定手段とを含む構成としている。
【００１５】
これら文書分類方法および文書分類装置において、前記重み付け関数は、ハニング窓関数またはガウス関数であり、ガウス関数を用いる場合は、前記設定された重み付け範囲から外側は前記重みの値をゼロにするような設定として用いる。
【００１６】
また、前記キーワードの出現位置は、検出されたキーワードを構成する文字列の中心の文字位置とし、キーワードを構成する文字数が偶数文字である場合は、その文字数を２で割って得られた値に位置する文字またはその次に位置する文字とするようにしている。
【００１７】
また、前記１次元文字列上におけるキーワード出現密度分布は、それぞれの処理対象文書ごとに得られたキーワード出現密度の最大値を1.0とした正規化を行ってそれぞれの処理対象文書ごとに求めるようにする。
【００１８】
また、前記キーワード出現密度計算を行う際の前記重み付け範囲は、それぞれの処理対象文書ごとにそれぞれの処理対象文書長の1/10程度を目安に設定することが望ましい。
【００１９】
また、前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書を構成する全ての文字位置について計算するようにしてもよく、また、前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書内の前記キーワードの出現位置について計算し、かつ、計算されたキーワード出現密度のピーク値を包絡線でつないで、当該処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算した場合のキーワード出現密度分布を推定するようにしてもよい。
【００２０】
さらに、前記キーワード出現密度計算は、それぞれの処理対象文書ごとにそれぞれの処理対象文書をテキスト変換した後に行い、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付け内容を保存しておくようにする。
【００２１】
また、前記処理対象文書ごとに得られた前記ユーザ検索要求に対する有用度は、当該処理対象文書において算出されたキーワード出現密度の総和を求めることによって得るようにする。
【００２２】
さらに、前記処理対象文書ごとに得られた前記ユーザ検索要求に対する有用度は、当該処理対象文書において算出されたキーワード出現密度に基づき、そのエントロピを計算して求めるようにしてもよい。
【００２３】
そして、分類された結果を出力する際、出力される文書が複数存在する場合、分類を行うために求められた有用度の高い方から順番に出力し、その出力内容は、それぞれの文書におけるユーザの検索要求に対する有用度、それぞれの文書におけるユーザの検索要求に対する有用部分、それぞれの文書の要約を表す部分の少なくとも１つを表示するようにする。
【００２４】
前記有用部分は、キーワード出現密度の特に高い部分の区間を設定しその区間を抽出することで有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出するようにする。
【００２５】
さらに、前記出力内容に対する詳細な文書内容を当該出力内容にリンクして設け、所定部分がユーザによって指示されることにより、前記詳細な文書内容を出力可能とし、その詳細な文書内容において、キーワード出現密度の特に高い部分については、その部分の表示の仕方を他の部分と異ならせて表示する。
【００２６】
また、前記キーワードの設定は、ユーザの検索要求入力によって、システム側がその検索要求に基づいて適正な用語を選択することによって行われ、当該選択された用語に関連する類義語や類似語さらには前記選択された用語に付加される形容詞、副詞、感嘆詞をもキーワードとして設定可能とする。
【００２７】
また、本発明の文書分類装置は、前記キーワード出現密度計算手段の前段に、前記処理対象文書をテキスト文書に変換するテキスト変換手段を設けることが可能である。このテキスト変換手段は、前述したように、処理対象文書をテキスト変換する際、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付け内容を保存することを可能とする。また、ユーザの検索要求を受け付ける検索要求入力手段とキーワード設定手段を設ける。このキーワード設定手段は、検索要求入力手段に入力されたユーザの検索要求に対してどの用語をキーワードとして選択するかの知識データベースを有し、当該選択された用語に関連する類義語や類似語さらには前記選択された用語に付加される形容詞、副詞、感嘆詞をもキーワードとして設定可能とする。
【００２８】
また、本発明の文書分類装置は、出力すべき文書の表示レイアウトを生成して文書を出力する文書出力手段を設けることを可能とし、この文書出力手段から出力される内容は、前述したように、それぞれの文書におけるユーザの検索要求に対する有用度、それぞれの文書におけるユーザの検索要求に対する有用部分、それぞれの文書の要約を表す部分の少なくとも１つであり、これらを出力する文書対応に所定の表示レイアウト設定を行って出力する。
【００２９】
さらに、有用部分を抽出する有用部分抽出手段を設けることを可能としている。この有用部分抽出手段は、前述したように、キーワード出現密度の特に高い部分の区間を設定しその区間を抽出することで有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出する。
【００３０】
また、本発明の文書分類処理プログラムを記録した記録媒体は、ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力する文書分類処理プログラムを記録した記録媒体であって、その文書分類処理プログラムは、複数の処理対象文書をそれぞれの処理対象文書ごとに１次元文字列に展開する手順と、前記ユーザの検索要求に基づくキーワードの出現位置を前記１次元文字列上において特定するとともに、その１次元文字列上で所定の範囲を重み付け範囲として設定し、その重み付け範囲の中心文字位置付近におけるキーワードの出現に対しては重みを重くし中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出する手順と、これによって求められたキーワード出現密度に基づいて前記処理対象文書の前記１次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザ検索要求に対する当該文書の有用度を求める手順とを含むものでる。
【００３１】
本発明は、膨大な文書の中からユーザの所望とする文書を取り出す際の前処理としての文書分類を如何に効率的に行うかについての発明である。これを実現するために、まず、設定されたキーワードが文書内にどのような密度で存在するかを判断する。このキーワードが文書内にどのような密度で存在するかを本発明では、キーワード出現密度と呼び、このキーワード出現密度を調べて、その結果に基づいて文書の有用度について判定する。
【００３２】
このキーワード出現密度は、既に公知の方法、つまり、前述の第１の文献（黒橋、白木、長尾：出現密度分布を用いた語の重要説明箇所の特定、情報処理学会論文誌、Vol.38，No.4，pp.845-854 (1997)）に記載された方法を用いて求めるが、本発明は、このキーワード出現密度そのもの求めることを要旨とするものではない。本発明は、このキーワード出現密度を用いて如何に文書を効率よくかつ高精度に分類するかを主旨としている。
【００３３】
また、キーワード出現密度を求める際に用いられる関数は、ハニング窓関数やガウス関数など中心から両側になだらかに減少する関数を用いることができる。
【００３４】
また、本発明では、キーワード出現位置はそれぞれのキーワードを構成する文字の中心の文字またはその中心付近の文字とすることによって、キーワードの位置を正確に表すことができる。つまり、前述の第１の文献では、キーワード出現位置をキーワードの先頭としており、このように、キーワードを構成する文字の先頭の文字位置をキーワード位置とすると、キーワードが文字数の多い熟語のような場合、キーワードの位置を正確に表すことができないなどの問題が生じる。
【００３５】
また、それぞれの処理対象文書ごとに、キーワード出現密度の最大値を1.0とした正規化を行ってキーワード出現密度分布を求めることによって、他の処理対象文書との比較が容易となる。
【００３６】
前記キーワード出現密度計算を行う際に設定される重み付け範囲は、それぞれの処理対象文書ごとにそれぞれの処理対象文書長の1/10程度を目安に設定することによって、得られるキーワード出現密度分布が有用箇所を適切に表したものとなり、その後の処理としての分類処理を適切に行うことができる。
【００３７】
また、それぞれの処理対象文書ごとにそれぞれの処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算することにより、キーワード出現密度分布を高精度に出すことができる。
【００３８】
これに対して、それぞれの処理対象文書内の前記キーワードの出現位置についてのみキーワード出現密度を計算することも可能であり、これによれば、多少おおまかなキーワード出現密度分布となるが、計算量が少なく高速な処理が可能となる。また、計算されたキーワード出現密度のピーク値を包絡線でつないで、当該処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算した場合のキーワード出現密度分布を推定することもできる。
【００３９】
また、それぞれの処理対象文書ごとにそれぞれの処理対象文書をテキスト変換した後にキーワード出現密度計算を行うことで、どのような形式の文書に対してもキーワード出現密度計算以降の処理を共通化することができる。しかも、テキスト変換を行う際、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付けした内容を保存しておくことで、有用部分を表示する場合、無理のない自然なレイアウトでの表示が行える。
【００４０】
また、それぞれの処理対象文書が有用であるか否かの判定は、算出されたキーワード出現密度の総和を求めて、その総和の値によって判断することができる。この総和によって有用度を方法は、それぞれの文書ごとにキーワード出現密度の総和を求めるだけでよいので、計算量が少なく容易に有用度の判定を行うことができる。
【００４１】
また、それぞれの処理対象文書が有用であるか否かの判定を行う際、それぞれの処理対象文書において求められたキーワード出現密度のエントロピを計算してそのエントロピから判断することもできる。これによれば、キーワード出現密度の総和だけでは、判定が微妙なものとなるような場合にも、高精度な有用度の判定が行える。
【００４２】
また、分類された結果の出力は、分類を行うために求められた有用度の高い文書から順番に出力し、その出力内容は、有用度やどの部分が有用であるかを示す有用部分さらにそれぞれの文書の要約など（全てでなくともよい）を表示するので、ユーザは、出力された文書内容を即座に把握することができる。
【００４３】
そして、有用部分を表示する場合、有用部分としては、キーワード出現密度の特に高い部分の区間を設定しその区間を有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出するようにしたので、有用部分を１つのまとまった内容を持つ文として出力することができる。
【００４４】
また、上述の出力内容についてさらに詳細な内容を出力可能としておき、その詳細な文書内容において、重要部分は色を変えたりブリンクさせるようにしたので、ユーザは自分の知りたい詳細な情報を一目で見ることができる。
【００４５】
また、ユーザの検索要求入力によって、システム側がその検索要求に基づいて適正な用語を選択することによって自動的にキーワードが選択されるので、ユーザがキーワードの設定を行う必要がなく、ユーザは何を知りたいかを検索要求として入力するだけでよいので、入力操作が簡単となる。また、キーワードとして設定された用語に関連する類義語や類似語さらには、その形容詞、副詞、感嘆詞などをもキーワードとして設定可能とするので、より一層、検索精度が向上し、ユーザの所望とする情報を適切に取り出すことができるようになる。
【００４６】
【発明の実施の形態】
本発明は、複数の文書からある分野に関連する文書かどうかを判定し、区分する方法であって、その分野かどうかを複数のキーワード（キーワードとして設定された語句だけでなくそれに関連する類義語や類似語、さらには、その形容詞、副詞、感嘆詞などの語句も含んでもよい）が、どの程度の密度で存在するかを、検索対象文書ごとに計算し、求められたキーワード出現密度に基づいて、それぞれの文書の有用度を求めその有用度によって文書を分類するものである。
【００４７】
以下、文書中のキーワードの位置情報から当該文書におけるキーワード出現密度分布を用いて文書の分類を行う方法について述べる。なお、以下に説明する内容は、本発明の文書分類処理プログラムの内容の説明でもある。
【００４８】
最初に文書の分類についてここでの定義を述べる。複数の文書からある分野に関する内容がその文書に存在するかどうか判定して区別する方法というのは、次のようなものを指す。
【００４９】
まず、「ある分野」かどうかはその分野について複数のキーワードや表現などで記述できるある知識があるものと考える。たとえば、商品の評判についての内容を想定すると、「批評」、「好評」、「感想」などのキーワードが多く含まれるような内容は、商品の評判という分野に関する内容が存在するといえる。
【００５０】
本発明は、このようなキーワードが各文書内にどの程度の密度で出現するのかを文書ごとに計算し、密度の高い文書をその分野の内容をよく含んでいる文書として選出して分類するものである。
【００５１】
続いて、具体的な文書密度計算方法について述べる。ここでは文書としてタグや特殊記号などが一切ない単純なテキストを処理対象文書として考える。図１（ａ），（ｂ），（ｃ）は、ある３つの文書（文書Ａ、文書Ｂ、文書Ｃという）において、あるキーワードのキーワード出現密度の概念を示したものである。図中、×印は文書中に存在するキーワードを示している。そして、これら文書を図示の左から右方向に見たときのキーワードの数を曲線Ｒで示す山の高さで表している。この図１の例では、同図（ａ）の文書Ａはある狭い範囲に高い山が形成され、その部分にキーワードが集中していることを示し、同図（ｂ）の文書Ｂは広い範囲に低い山が幾つか形成され、キーワードが文書全体にまんべんなく散らばっていることを示している。また、同図（ｃ）の文書Ｃは２箇所の狭い範囲にそれぞれ高い山が形成され、その２つの範囲にキーワードが集中していることを示している。
【００５２】
このようなキーワード出現密度は次のように計算する。まず、図２（ａ）に示すような処理対象文書を、図２（ｂ）に示すように、単純な一次元文字列に展開する。つまり、図２（ａ）に示す文書は横書きで書かれた文書であり、その横書きの文書の先頭をＳ、文書末をＥとし、文書の先頭Ｓから図示左方向にその行の終わりまで展開したあと、次の行の初めに戻ってそこから再び左方向に展開して行くといようにしてある１つの処理対象文書全体を１次元文字列に展開する。
【００５３】
そして、このような１次元文字列に展開された文書上でキーワードの存在した位置を記録して行く。キーワードは、分類すべき分野や項目別にあらかじめ用意しておく（これについては後述する）。なお、図２（ａ），（ｂ）において、図中、楕円Ｆ１で示す部分にはあるキーワードｋ１が存在し、三角形Ｆ２で示す部分には他のキーワードｋ２が存在するものとする。このように、この場合は、２種類のキーワードｋ１，ｋ２が存在することになるが、ここではキーワードの種類による区別はせず、あらかじめ決めたキーワードが存在するか否かだけを見て、キーワードが存在したらその出現位置を全て記録する。
【００５４】
なお、ここでいうキーワードの出現位置とは、見つかったキーワードの中心を指し、キーワードの中心位置のみを記録する。たとえば、図２（ｂ）に示すような１次元文字列に変換された文書内容の一部が、図３（ａ）のような文書内容であって、予め決められたキーワードｋ１が「人民政府軍」、キーワードｋ２が「再登録」（それぞれ、図３（ａ）において下線を施してある）であったとすれば、図３（ｂ）に示すように、キーワードｋ１である「人民政府軍」を構成する１つ１つの文字の列方向の中心となる文字の位置、キーワードｋ２である「再登録」を構成する１つ１つの文字の列方向の中心となる文字の位置をそれぞれキーワードの中心位置として記録する。
【００５５】
図３（ｂ）では、１つ１つの丸印（白丸及び黒丸）が文書内容の１つ１つの文字に対応し、黒丸がそれぞれキーワードｋ１，ｋ２の中心となる文字を示している。つまり、キーワードｋ１である「人民政府軍」にあっては、「政」がキーワードの中心文字であり、「再登録」にあっては、「登」がキーワードの中心文字である。
【００５６】
なお、この図３で示すキーワードｋ１，ｋ２は、キーワードｋ１（人民政府軍）が５文字でキーワードｋ２（再登録）が３文字であり、両者とも文字数が奇数であるため、その中心の文字が存在するが、キーワードの文字数が偶数であった場合には、それを２で割って得られた値に基づいて中心文字を決定することができる。たとえば、６文字であれば、それを２で割って得られた値３を基に、３文字目を中心としてみなしたり、その３に＋１した４文字目を中心としてみなしたりする。これは、予めどのようにするかを決めておくことで対処できる。
【００５７】
このように、本発明では、キーワード出現位置はそれぞれのキーワードを構成する文字の中心の文字またはその中心付近のある１つの文字位置としている。
【００５８】
これによって、ある１つのキーワードを構成する文字数に関係なく、１つのキーワードについてその中心または中心付近の１つの文字に対応した位置をキーワードの出現位置情報として持っていればよいので、後で述べるキーワード出現密度を求める際、キーワードを構成する文字数に影響されない正確な出現密度を求めることができ、さらに、キーワードを構成する文字全てについてキーワード位置情報を持つ場合に比べて大幅にデータ量を少なくすることができ、それに伴う計算量も大幅に少なくすることができる。
【００５９】
しかも、本発明では、キーワードを構成する文字列の中心または中心付近のある１つの文字をキーワード出現位置としているので、たとえ、キーワードが文字数の多い熟語などであってもその出現位置を正確に表すことができる。
【００６０】
このようにして、それぞれのキーワードの中心位置が検出されてそれが記録されると、今度は、ある位置におけるキーワード出現密度をここでは図４に示すようなハニング窓関数を用いて求める。
【００６１】
今、文書内容の中でキーワード（種類は問わない）の見つかった位置をａ（ｉ）とする。ただし、ｉは文字位置（処理対象文書を１次元文字列に展開したときの文字位置）を表し、その位置にキーワードがあればａ（ｉ）＝１、キーワードがなければａ（ｉ）＝０とする。
【００６２】
そして、文書の先頭（ｉ＝０）からスタートして、順次、各文字位置をハニング窓の中心位置ｌとし、その中心位置ｌに対するキーワード出現密度ｄ（ｌ）を求める。文字位置ｉにおける重み関数ｈｌ（ｉ）、重み付けする範囲（ハニング窓の幅）をＷとすると、
【００６３】
【数１】

【００６４】
で表される。なお、ハニング関数を示す図４は横軸に文字位置ｉをとり、縦軸に重みをとったもので、この図４の場合は、重み付けをする範囲Ｗは、ハニング窓の中心位置ｌに対し左右両側に１５文字分をとった場合が示されている。
【００６５】
このように、処理対象文書を１次元文字列に展開して、キーワードの出現位置からキーワード出現密度を求めるのは、前述した第１の文献（黒橋、白木、長尾：出現密度分布を用いた語の重要説明箇所の特定、情報処理学会論文誌、Vol.38，No.4，pp.845-854 (1997)）に述べられており、これは公知の技術である。ただし、この第１の文献では、キーワード位置としては、それぞれのキーワードの先頭位置としているが、本発明では、それぞれのキーワードの中心位置としている点は異なる。
【００６６】
なお、重み関数ｈｌ（ｉ）としてはここではハニング関数を用いたが、これは、中心から周辺になだらかに変化する関数ならば色々使える。たとえば、ガウス関数もその１つであるが、ここでは、重み付け範囲Wでゼロになるハニング窓関数を用いる。ガウス関数は無限遠方でもゼロにならないため、キーワード近傍の影響だけ調べるにはハニング窓関数が向いていると考えられる。しかし、応用の仕方によって関数を適宜変えることは可能である。なお、ガウス関数でも重み付け範囲W以外は強制的にゼロとするような設定を行えば使える。
【００６７】
図５は上述した計算方法で文書密度を計算した例である。この文書はある商品についてのレポートであるが、その商品の評判に関するキーワードを適切に設定しておくと、文書中で商品の感想、批評の記述に関する部分の密度が高くなっていることがわかる。
【００６８】
この図５は、処理対象文書が商品についてのレポートであって、このレポートに対し、前述の（１）式を用いてキーワード出現密度を求めることによって得られたキーワード出現密度分布を示すものである。図５において、横軸は処理対象文書の文字位置、縦軸は上述の（１）式で求められたキーワード出現密度ｄ（ｌ）を示している。
【００６９】
なお、横軸の文字位置は、レポートの文書を１次元文字列に展開し、その文書の先頭から文書末までを文書の先頭からのバイト数で表している。また、縦軸のキーワード出現密度は、（１）式で求められたキーワード出現密度ｄ（ｌ）であるが、その処理対象文書について求められたキーワード出現密度の中で最大値を1.0にした正規化を行って表わされている。このように、処理対象文書ごとに正規化を行うことで、他の処理対象文書との比較が容易となる。
【００７０】
この図５に示される処理対象文書は、具体的にはあるメーカのディジタルカメラについての評価をまとめたレポートであり、設定されたキーワードとしては、たとえば、「評価」、「性能」、「価格」、「使い勝手」などであるとし、これらのキーワードは、デザインについて触れた部分や、画質について触れた部分でのキーワード出現密度が特に高く、その他、パノラマ機能などについてやメモリなどについて触れた部分においてもキーワード出現密度が比較的高いことがわかる。
【００７１】
ところで、上述の密度計算を行う際、重み付け範囲Wの設定の仕方により密度の出方が変わる。一般には重み付け範囲Wを広くとると、キーワード出現位置近傍のキーワード出現密度が求められることになり、逆に重み付け範囲Ｗを広くとると、広い範囲に存在するキーワードの影響まで計算されることになる。しかし、重み付け範囲Wが広すぎると重要箇所が不明瞭になり、狭すぎると単なるキーワード頻度と変わりなくなるので、重み付け範囲の設定の仕方は重要である。
【００７２】
そこで、それぞれの処理対象文書ごとに１つの処理対象文書の文書長により適切な重み付け範囲W を設定する必要がある。図６は重み付け範囲Ｗの取り方によって、前述の（１）式により求められるキーワード出現密度ｄ（ｌ）分布曲線がどのようになるかを示したものである。図６において、分布曲線Ｕ１は重み付け範囲Ｗを４０９６バイト、分布曲線Ｕ２は重み付け範囲Ｗを２０４８バイト、分布曲線Ｕ３は重み付け範囲Ｗを１０２４バイトとして、それぞれ（１）式を用いて求められたキーワード出現密度ｄ（ｌ）の分布曲線を示すものである。なお、分布曲線Ｕ３は図５の分布曲線とほぼ同じである。つまり、図５は重み付け範囲Ｗを１０２４バイトとした場合であるといえる。
【００７３】
この図６からわかるように、重み付け範囲Ｗを広くとりすぎると、密度の変化に明確性を欠き（範囲Ｗを２０４８バイトや４０９６バイトとした場合）、重要箇所が不明瞭となる。この３つの範囲の中では、重み付け範囲ｗを１０２４バイトとした場合が最も適切であるといえる。この場合、ここで用いられた処理対象文書の文書長が、1.2×１０の４乗バイトの文書長を有する場合であるので、おおよそ、１つの処理対象文書の文書長の１／１０を目安にするのがよいことがわかる。特に、技術系の文書においてはその傾向が強いことがわかった。
【００７４】
次に、このようにして求められたキーワード出現密度を用いてシステム上で文書を分類する方法について説明する。
【００７５】
前述した説明では、処理対象文書はプレインテキストであることを前提にしているが、実際に我々が扱う文書は色々な形式が存在する。したがって、キーワード位置検出を行う場合、文書形式によって検出方法が異なる。一般に前述したキーワード出現位置というのは、人間が視覚的に見たレイアウト上の位置である。処理対象文書が蓄積されている文書ファイルの内容自体には、文字自身の情報の他に制御に関する情報も多いので、これらを適宜排除した上でないと視覚的に見たレイアウトに一致するような位置を見つけることは難しい。たとえば、HTML文書では表示に使うタグが多数あるので、このタグは読み飛ばして文字の位置を計算する必要がある。
【００７６】
すなわち、本発明を実施するには、文書を制御記号などの存在しない文字だけの一次元文字列に変換して行うが、たとえば、文書中に様々な制御記号などが入った文書にあっては、それらの制御記号を省いて文字だけで１次元文字列を構成する必要がある。
【００７７】
したがって、処理対象文書を文字だけによる１次元文字列に展開し、キーワード位置検出を行う処理は、処理対象文書ごとに、その文書がどのような形式の文書であるかを判定し、その判定結果に基づいて、処理対象文書の文書形式ごとにアルゴリズムを設定して行う必要がある。しかし、これを実際に行うのは処理負担が大きく実用的ではない。
【００７８】
したがって、ここでは、どのような文書でも全て一旦プレインテキストに変換し、その上でキーワード出現位置の検出を行ってキーワード出現密度計算を行う方法をとる。この方法をとれば、文書形式ごとにキーワード位置検出アルゴリズムを開発する必要がない。また、プレインテキスト変換は殆どの文書作成ソフトで備えられている機能であるので、システムに組み込むことが容易である。
【００７９】
また、全ての文書形式をプレインテキストに変換してキーワード位置検出を行う場合は、キーワード位置検出は、単純なキーワードマッチングで可能となる。しかし、プレインテキストに変換せず、各文書形式ごとにキーワード位置を見る場合は、それぞれの文書形式ごとに、キーワード位置検出アルゴリズムが必要となる。具体的には、タグや特殊記号、ヘッダなどの知識と、それらがどのような場合は何文字飛ばすなどの指示が必要である。
【００８０】
次にこれまで説明した方法により、多数の文書について図５に示すようなキーワード出現密度分布が求められたとして、それぞれの文書の中から最も適当と思われる文書を抽出する処理（文書分類処理）について説明する。
【００８１】
この文書分類の仕方としては、まず、図５に示すように求められたキーワード出現密度の総和を求めて（積分する）、その中から最も大きい値の文書を出力したり、あるいは、値の高い順から幾つかの文書を出力する方法が考えられる。
【００８２】
これとは別の方法としてエントロピを計算して分類する方法もある。この方法は、上述の総和だけでは判定が微妙となるような場合に有効なものとなる。
【００８３】
たとえば、図１に示すような３つの文書Ａ〜Ｃについて考えると、この３つの文書Ａ〜Ｃは、キーワード（×印）の数はどれも１０個で同じであり、また、その密度を積分した値もほぼ同じであるとする。しかし、これらの文書のキーワード分布はそれぞれ大きく異なっている。つまり、文書Ａはページのある一部に詳しい情報がまとまって記載されており、文書Ｂはページ全体に関連する記事があるが、その内容は薄いと思われる。また、文書Ｃは文書Ａと文書Ｂの中間程度の詳しい情報が２箇所あるというように、それぞれの文書の分布形態は異なる。
【００８４】
これらの点から、抽出されるべき文書が、文書Ａあるいは文書Ｃであることが望ましいとして、これら文書Ａあるいは文書Ｃを選択するような処理がなされるような処理を行う。これを、キーワード出現密度以外の値（キーワードのヒット数やキーワードが存在した場所の数など）で総合的に判定するのは容易ではない。つまり、キーワード出現密度以外の値で総合的に判定しようとすると、判定の条件分岐が複雑になり、微妙な判定が難しくなる。そこで、エントロピを使う。求めるべきエントロピをＥとすると、
【００８５】
【数２】

【００８６】
で表される。
【００８７】
エントロピＥはそれぞれの処理対象文書におけるキーワード出現密度ｄ（ｌ）の分布が平坦であると小さく、先鋭な部分が多い分布では大きくなる傾向をもっている。したがって、それぞれの処理対象文書ごとのキーワード出現密度全体の状況を一意に表現する尺度として有用だと考えられ、図１に示すようなキーワード出現密度の総和が似ている場合の微妙な判定に役立つ。
【００８８】
図７は処理対象文書として９０個の雑誌（ある商品の評判が書かれている）の内容を主観評価で３段階に分類した結果と、文書密度のエントロピＥの相関をとったグラフである。ここで、主観評価で３段階の分類というのは、たとえば、Ｈ３は商品の評判について非常によく書かれている文書群、Ｈ２は商品の評判について比較的よく書かれている文書群、Ｈ１は商品の評判について一応書かれている文書群というように、ここでは主観的な評価を３つの段階Ｈ１，Ｈ２，Ｈ３に分けて、９０個の雑誌をそれぞれの段階に分類している。
【００８９】
このように粗い分類をしたのち、それぞれの処理対象文書（それぞれの雑誌）についてエントロピを計算する。エントロピは先鋭な部分の多いキーワード出現密度分布ほど大きな値となるので、エントロピの値の大きいものほどその内容についてよく書かれているものであるといえる。
【００９０】
上述したような３つの段階Ｈ１，Ｈ２，Ｈ３の分類は、かなり粗い分類であるが、それぞれの分類の中で、内容が濃くなるほどエントロピの値も高いものとなるので、エントロピを指標にして文書内容の程度を定量的に評価できる。なお、図７において、それぞれの文書に対して求められたエントロピを１つ１つの四角形で表している（たとえば、段階Ｈ１の文書群については、求められたエントロピをＥ１１，Ｅ１２，・・・，Ｅ１ｎで表し、Ｈ２の文書群については、求められたエントロピをＥ２１．Ｅ２２，・・・，Ｅ２ｎで表し、Ｈ３の文書群については、求められたエントロピをＥ３１，Ｅ３２，・・・，Ｅ３ｎで表している）が、それぞれの文書群において求められたエントロピは似た値になる場合もあり、その場合は、エントロピの値を示す四角形が重なるので、四角形は９０個全ては図示されてはいない。
【００９１】
このようにして幾つかの文書がユーザの所望とする文書候補として抽出されるが、これら抽出された複数の文書が一定以上存在する場合は、有用度の高い順から並べて表示する。このような表示を行う際、有用度の高い順から並べただけでは内容が解りにくいので、その他の情報も合わせて表示することが好ましい。
【００９２】
図８はその表示例を示すものである。図８（ａ）において、＃１，＃２，＃３，・・・は有用度の高い順番を示すもので、その順番に対するそれぞれの文書の重要度ｚ１としてキーワード出現密度、求められたエントロピ、キーワードヒット数なども表示する。さらに、文書の概要（見出しや文書の冒頭部分を抽出）ｚ２、その文書の重要部分（これについては後述する）ｚ３などの併せて表示する。さらに、図８（ｂ）に示すように、それぞれの文書ごとに文書全文の特にキーワード出現密度の高い部分を色やブリンクでの表示を可能とする。すなわち、それぞれの文書対応にアイコンのようなマークＭ１，Ｍ２，Ｍ３などを付して、たとえば、マークＭ１をクリックすると、＃１の文書全体を表示し、かつ、その文書の中で特に密度の高い部分ｚ０を他の部分とは異なった色やブリンクで表示する。
【００９３】
本発明は複数の文書を分類することが主な目的としているが、分類した文書のどのが重要だったか示すことは、その文書が選ばれた理由を知ったり、分類された文書の概要を把握する上で有用である。以下にその有用部分の切り出しについて説明する。
【００９４】
まず、文書の有用部分を特定する方法を述べる。基本的には図１のように、局所的にキーワード出現密度の高い部分（山の部分）を有用部分とし、あるしきい値を設定して、そのしきい値以上の密度を有する部分を有用部分として抽出することができる。
【００９５】
なお、これまでの説明では、文書分類を主としているので、キーワード出現密度は文書の全ての文字位置について計算をするが、有用部分切り出しを主とし、それとともに文書分類も行いたいというような場合は、キーワードが出現した位置のみのキーワード出現密度から文書全体の様子を推定することも可能である。
【００９６】
図９はキーワード出現位置のみについて、キーワード出現密度と全ての文字位置について計算した例を比較して示すもので、図５で説明した文書と同じ文書を用いた場合である。この図９からもわかるように、キーワード出現位置のみにおけるキーワード出現密度のピークｐ１，ｐ２，ｐ３，・・・を包絡線でつないで得られたキーワード出現密度分布曲線Ｌは、文書の全ての文字位置についてのキーワード出現密度分布曲線（図５参照）とほぼ同じになる。
【００９７】
このように、キーワード出現位置のみについてキーワード出現密度を求める方法は、計算時間が速いので、多少精度が悪くても、速くおおよその判定をしたい場合などに有効である。
【００９８】
次に有用部分の表示方法について述べる。抽出するかしないかの基準は上述したように、適当なしきい値以上のキーワード出現密度部分を単純に切り出せばよいが、そのまま単純に切り出すと、不具合が生じ、それに対処する必要がある。
【００９９】
これを示したものが図１０である。図１０（ａ）で示すような元文書（その一部のみが図示されている）が存在したとし、アンダーライン部分が、あるしきい値以上のキーワード出現密度を有する有用部分として抽出された区間であるとする。
【０１００】
しかし、この抽出された区間の内容は、この場合、「い表示を後処理と」であり、これでは、何が書かれているのか意味がわからないことになる。そこで、図１０（ｂ）に示すような形態素解析を行い、語句の切れ目が自然なものとなる境界を有用部分として抽出する。つまり、この場合は、形態素解析結果は、「無理」・「が」・「ない」・「表示」・「を」・「後処理」・「として」・「行う」・「こと」であり、このような形態素解析結果において、「表示」・「を」・「後処理」・「として」を抽出し、図１１（ｃ）に示すように、「表示を後処理として」という内容を抽出する。
【０１０１】
この例では、有用部分の先頭に助詞（上述の例では「い」）が単独で出現する場合はそれを無視し、語尾の一部（上述の例では「と」）が存在しているときは語尾として意味をなすような処理を行い、有用部分が意味のある文章になるようにしている。このように、形態素解析を行ってその結果に基づき、有用部分として抽出された部分の文が不自然なものとならないようにすることができる。
【０１０２】
以上は文書が文字だけのテキストの場合について述べたが、実際にはHTML文書などのレイアウトや画像などの複数の要素が組み合わされた文書の場合、密度の高い場所だけ抽出して表示を行うと不自然なものとなる。このような場合、次のような方法をとることで、抽出した有用部分を自然な内容として表示できる。
【０１０３】
すなわち、一般文書からテキスト文書に変換する際に、テキスト文書のどの文字はテキスト変換前の元の文書のどの位置かを記録しておく。そして、テキスト文書状態で有用部分を決定し、その有用部分の文字の位置に相当する元の文書の位置を特定する。そして、特定した元文書の位置を中心にレイアウトが不自然でない区切りを判定する。たとえば、その領域を含む最低のかたまり（段落や章）で区切る。ただし、有用部分の中に段落が存在しているような場合、その段落部分で区切ると不自然となるので、前後の段落を含めた少し広い範囲で区切るようにしたり、あるいは、有用部分の中に異なった章が存在しているような場合、その章の変わるで区切ると不自然となるので、前後の章を含めた少し広い範囲で区切るようにしたりする。
【０１０４】
このように、文書密度計算のためのテキスト変換を行った際に、元文書とテキスト文書の位置の対応づけを行っておけば、レイアウトに無理がない表示を後処理として行うことが可能である。
【０１０５】
次に本発明を実現する際のシステム構成を説明する。図１１は、本発明を実現するためのシステム構成図を示すもので、検索要求入力部１、知識データベース部２、キーワード群決定部３、検索対象文書データベース部４、文書タイプ判定部５、テキスト変換部６、キーワード出現密度計算部７、有用文書判定部８、表示部９、有用部分抽出部１０、表示レイアウト生成部１１などから構成されている。なお、知識データベース部２とキーワード群決定部３によってキーワード群設定部２０が構成され、表示部９、有用部分抽出部１０、表示レイアウト生成部１１によって文書出力部３０が構成される。
【０１０６】
検索要求入力部１は、ユーザが何らかの情報を収集しようとしたとき、ユーザの知りたい内容について入力可能となっており、これは、自然言語で入力するようにしてもよく、あるいは、予め多数の項目を用意しておき、ユーザがその中から所定の項目を指示するようにしてもよい。
【０１０７】
知識データベース部２は、ユーザの入力した検索要求内容に基づいてその内容に対してはどのような用語（単語など）がキーワードとして適切であるかを判断して、ユーザの検索入力内容に対する適切な用語を複数個選択し、ここで選択された複数の用語はキーワード群決定部３によって、キーワード群として決定される。ここで設定されるキーワードは、ユーザの入力した検索内容によっては、数十あるいは１００個以上ということもある。
【０１０８】
ところで、ユーザの検索要求に対しそれに適合したキーワードを決定する処理は次のようにして行われる。
【０１０９】
たとえば、検索要求入力部１から、ユーザがある製品について知りたい旨を入力すると、知識データベース部２では、そのユーザの入力に対して、「性能」、「価格」、「評価」、「使い勝手」などその製品を表す上で必要な用語を選び、これらが、キーワードとして決定される。つまり、ユーザ検索要求に対して有用な文書を抽出する際文書の分類が必要となるが、このとき、分類したい分野によって、その分野に関する一般的な知識や連想される用語をキーワードとする。また、連想される用語の類似語や類義語も利用できる。これらは個人の直感または辞書、国語辞典などの事例などから予め作成して知識データベース部２に持たせることができる。また、分類したい分野に該当する文書を複数収集して、これら収集された文書に数多く目にする用語を探し出し、その頻度が高いものをキーワードとする方法も可能である。
【０１１０】
さらに、１つのキーワードについてそのキーワードに対する類義語や類似語などの関連語も適宜組み合わせて使用したり、そのキーワードに一緒に使われる形容詞、副詞、感嘆詞などを含んだ表現とすることで、検索精度がより一層向上する。たとえば、前者の場合、キーワードが「評価」であれば、その類義語や関連後「批判」、「評判」、「好評」などというように「評価」から連想される類義語や類似語を適宜組み合わせて用いる。また、後者の場合は、キーワードが「評価」であれば、「素晴らしい」、「品質のよい」、「非常に」などを適宜組み合わせて用いる。
【０１１１】
文書タイプ判定部５は、検索対象文書データベース部４に存在する文書がどのような形式で書かれた文書であるかを判定するものである。また、テキスト変換部６は、文書タイプ判定部５による判定結果に基づいて、その文書をテキスト文書に変換する。なお、検索対象文書データベース４は、たとえば、インターネット上のサーバ側に存在するデータベースを考えているが、これに限らず、ユーザ個人のパーソナルコンピュータなどの情報処理機器に保存されている文書であってもよい。
【０１１２】
キーワード出現密度計算部７は、キーワード群決定部３で決定された複数のキーワードに基づき、テキスト変換された文書に対し前述したような方法でキーワード出現密度を計算する。このキーワード出現密度計算については、すでに詳細に説明したので、ここではその説明は省略する。
【０１１３】
このキーワード出現密度計算部４によってそれぞれの文書について、キーワード出現密度が計算されると、有用文書判定部８は、それぞれの文書ごとに、たとえば図５に示すようなキーワード出現密度分布を作成して、その結果に基づいて、有用度（ユーザの所望とする文書としての有用度）を判定し、その判定結果を用いて表示すべき文書を決定する。なお、重要度の判定は、前述したように、たとえば、図５に示すようなグラフを積分してその結果よって判定する。
【０１１４】
一方、有用部分抽出部１０は、キーワード出現密度計算部４によって計算されたそれぞれの文書ごとに計算されたキーワード出現文書密度を用いて、前述したような方法により有用部分の抽出を行う。そして表示レイアウト生成部１１によって、図８に示すような表示レイアウトを生成し、それを表示部９で表示する。その表示結果の一例が図８である。
【０１１５】
以上のような手順によって、ユーザの検索要求に対し、それに適合した幾つかの文書が表示されることになる。
【０１１６】
なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の実施の形態では、表示部９での表示例は図８のような表示の仕方であるが、この表示の仕方は種々設定可能である。
【０１１７】
また、以上説明した本発明の文書分類処理を行う処理プログラムは、フロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその記録媒体をも含むものである。また、ネットワークから処理プログラムを得るようにしてもよい。
【０１１８】
【発明の効果】
本発明によれば、処理対象文書ごとに、設定されたキーワードが当該処理対象文書内にどのような密度で存在するか（キーワード出現密度）を判断し、このキーワード出現密度に基づいてユーザの検索要求に対する文書の有用度について判定するようにしているので、膨大な文書の中からユーザの所望とする文書を取り出す際の前処理としての文書分類を、精度よく効率的に、しかも、少ない計算量で可能となる。
【０１１９】
このように、計算量を少なくできる１つの例として、本発明では、キーワード出現位置はそれぞれのキーワードを構成する文字の中心の文字またはその中心付近のある１つの文字としていることが挙げられる。すなわち、ある１つのキーワードを構成する文字数に関係なく、キーワード出現位置を示すデータは、１つのキーワードについて中心またはその付近の１つの文字に対応した位置のデータのみを持っていればよいので、キーワードを構成する文字全てについてキーワード出現位置を示すデータを持つ場合に比べて大幅にデータ量を少なくすることができ、またそれに伴う計算量も大幅に少なくすることができる。
【０１２０】
また、本発明では、処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算することによって、より高精度なキーワード出現密度分布を得ることも可能であるが、それぞれの処理対象文書内の前記キーワードの出現位置についてのみキーワード出現密度を計算することも可能であり、これによれば、多少おおまかなキーワード出現密度分布となるが、計算量が少なく高速な処理が可能となる。
【０１２１】
また、処理対象文書をテキスト変換した後にキーワード出現密度計算を行うことで、どのような形式の文書に対してもキーワード出現密度計算以降の処理を共通化することができる。しかも、テキスト変換を行う際、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付けした内容を保存しておくことで、有用部分を表示する場合、無理のない自然なレイアウトでの表示が行える。
【０１２２】
また、それぞれの処理対象文書が有用であるか否かの判定は、算出されたキーワード出現密度の総和を求めて、その総和の値によって判断することができ、このように、キーワード出現密度の総和によって有用度を判断する方法は、それぞれの文書ごとにキーワード出現密度の総和を求めるだけでよいので、少ない計算量で容易に有用度の判定を行うことができる。
【０１２３】
また、それぞれの処理対象文書が有用であるか否かの判定を行う際、それぞれの処理対象文書において求められたキーワード出現密度のエントロピを計算してそのエントロピから判断することもできる。これによれば、キーワード出現密度の総和だけでは、判定が微妙となるような場合でも、高精度な有用度の判定が行える。
【０１２４】
また、分類された結果の出力は、分類を行うために求められた有用度の高い文書から順番に出力し、その出力内容は、有用度やどの部分が有用であるかを示す有用部分さらにそれぞれの文書の要約など（全てでなくともよい）を表示可能とするので、ユーザは、出力された文書内容を即座に把握することができる。
【０１２５】
そして、有用部分を表示する場合、有用部分としては、キーワード出現密度の特に高い部分の区間を設定しその区間を有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出するようにしたので、有用部分を１つのまとまった内容の文として出力することができる。
【０１２６】
また、上述の出力内容についてさらに詳細な内容を出力可能としておき、その詳細な文書内容において、重要部分は色を変えたりブリンクさせるようにすることによって、ユーザは自分の知りたい情報を一目で見ることができる。
【０１２７】
また、ユーザの検索要求入力によって、システム側がその検索要求に基づいて適正な用語をキーワードとして選択するようにしているので、ユーザ自身がキーワードの設定を行う必要がない。したがって、ユーザは何を知りたいかを検索要求として入力するだけでよいので、ユーザの行う入力操作をきわめて簡単なものとすることができる。また、キーワードとして設定された用語に関連する類義語や類似語さらにはキーワードに付加される形容詞、副詞、感嘆詞などをもキーワードとすることができるので、これによって、より一層、検索精度が向上し、ユーザの所望とする情報を適切に取り出すことができるようになる。
【０１２８】
このように、本発明は、計算量が少なく高精度な文書分類が可能となりる。しかも、どこがどの程度有用なのかを適切に表示することができる。また、本発明を適用すれば、作成した文書にキーワードやインデックスをつけて分類できるように準備しておく必要がなく、作成された文書に対し後に行われる分類処理について何等意識する必要がない。つまり、どのような文書であっても、キーワードさえ設定されれば適切な分類がなされる。
【図面の簡単な説明】
【図１】本発明の実施の形態を説明するためにキーワード出現密度の概念を説明する図である。
【図２】処理対象文書を１次元文字列に展開してキーワード出現位置を求める例を説明する図である。
【図３】個々のキーワードの出現位置を決定する処理を説明する図である。
【図４】ハニング窓関数の一例を示す図である。
【図５】処理対象文書の１次元文字列上におけるキーワード出現密度分布を示す図である。
【図６】キーワード出現密度を計算する際にハニング窓の幅（重み付け範囲）を変えて計算して得られたキーワード出現密度分布を示す図である。
【図７】複数の処理対象文書を３段階の文書群に分けてそれぞれの文書ごとに得られたキーワード出現密度からエントロピを求めてそのエントロピの分布を示す図である。
【図８】本発明の実施の形態の表示例を示す図であり、（ａ）は有用度の大きい順に必要な表示項目を併せて表示する表示例を示す図、（ｂ）はその中から指定された文書内容を表示する例を示す図である。
【図９】キーワード出現位置のみでキーワード出現密度を計算した場合の１次元文字列上におけるキーワード出現密度分布を示す図である。
【図１０】有用部分の抽出処理法法を説明する図である。
【図１１】本発明の実施の形態のシステム構成を示す図である。
【符号の説明】
１検索要求入力部
２知識データベース部
３キーワード群決定部
４検索対象文書データベース部
５文書タイプ検出部
６テキスト変換部
７キーワード出現密度計算部
８有用文書判定部
９表示部
１０有用部分抽出部
１１表示レイアウト生成部
２０キーワード設定部
３０文書出力部

Claims

ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力するコンピュータを用いて構築された文書分類装置において、
前記コンピュータが備えるキーワード出現密度計算手段が、処理対象文書を１次元文字列に展開して、前記ユーザの検索要求に基づくキーワードの出現位置を前記１次元文字列上において特定するとともに、その１次元文字列上で所定の範囲を重み付け範囲として設定し、その重み付け範囲の中心位置付近におけるキーワードの出現に対しては重みを重くし、中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出するステップと、
前記コンピュータが備える有用文書判定手段が、前記キーワード出現密度計算手段によって求められたキーワード出現密度に基づいて前記処理対象文書の前記１次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザの検索要求に対する当該処理対象文書の有用度を求めるステップと、を実行するものであり、
前記処理対象文書ごとに得られた前記ユーザ検索要求に対する有用度は、当該処理対象文書において算出されたキーワード出現密度に基づき、そのエントロピを計算して求めることを特徴とする文書分類方法。
前記重み付け関数は、ハニング窓関数またはガウス関数であり、ガウス関数を用いる場合は、前記設定された重み付け範囲から外側は前記重みの値をゼロにすることを特徴とする請求項１記載の文書分類方法。
前記キーワードの出現位置は、検出されたキーワードを構成する文字列の中心の文字位置とし、キーワードを構成する文字数が偶数文字である場合は、その文字数を２で割って得られた値に位置する文字またはその次に位置する文字とすることを特徴とする請求項１または２記載の文書分類方法。
前記１次元文字列上におけるキーワード出現密度分布は、それぞれの処理対象文書ごとに得られたキーワード出現密度の最大値を1.0とした正規化を行ってそれぞれの処理対象文書ごとに求めることを特徴とする請求項１から３のいずれか１項に記載の文書分類方法。
前記キーワード出現密度計算を行う際の前記重み付け範囲は、それぞれの処理対象文書ごとにそれぞれの処理対象文書長の1/10程度を目安に設定することを特徴とする請求項１から４のいずれか１項に記載の文書分類方法。
前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書を構成する全ての文字位置について計算することを特徴とする請求項１から５のいずれか１項に記載の文書分類方法。
前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書内の前記キーワードの出現位置について計算し、かつ、計算されたキーワード出現密度のピーク値を包絡線でつないで、当該処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算した場合のキーワード出現密度分布を推定することを特徴とする請求項１から５のいずれか１項に記載の文書分類方法。
前記キーワード出現密度計算は、それぞれの処理対象文書ごとにそれぞれの処理対象文書をテキスト変換した後に行い、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付け内容を保存しておくことを特徴とする請求項１から７のいずれか１項に記載の文書分類方法。
分類された結果を出力する際、出力される文書が複数存在する場合、分類を行うために求められた有用度の高い方から順番に出力し、その出力内容は、それぞれの文書におけるユーザの検索要求に対する有用度、それぞれの文書におけるユーザの検索要求に対する有用部分、それぞれの文書の要約を表す部分の少なくとも１つを表示することを特徴とする請求項１から８のいずれか１項に記載の文書分類方法。
前記有用部分は、キーワード出現密度の特に高い部分の区間を設定しその区間を抽出することで有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出することを特徴とする請求項９に記載の文書分類方法。
前記出力内容に対する詳細な文書内容を当該出力内容にリンクして設け、所定部分がユーザによって指示されることにより、前記詳細な文書内容を出力可能とし、その詳細な文書内容において、キーワード出現密度の特に高い部分については、その部分の表示の仕方を他の部分と異ならせることを特徴とする請求項９または１０に記載の文書分類方法。
前記キーワードの設定は、ユーザの検索要求入力によって、システム側がその検索要求に基づいて適正な用語を選択することによって行われ、当該選択された用語に関連する類義語や類似語さらには前記選択された用語に付加される形容詞、副詞、感嘆詞をもキーワードとして設定可能とすることを特徴とする請求項１から１１のいずれか１項に記載の文書分類方法。
ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力する文書分類装置において、
処理対象文書をそれぞれの処理対象文書ごとに１次元文字列に展開して、前記ユーザの検索要求に基づくキーワードの出現位置を前記１次元文字列上において特定するとともに、その１次元文字列上で所定の範囲を重み付け範囲として設定し、その重み付け範囲の中心文字位置付近におけるキーワードの出現に対しては重みを重くし中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出するキーワード出現密度計算手段と、
このキーワード密度計算手段によって求められたキーワード出現密度に基づいて前記処理対象文書の前記１次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザ検索要求に対する当該文書の有用度を求める有用文書判定手段と、を有し、
前記処理対象文書ごとに得られた前記ユーザ検索要求に対する有用度は、当該処理対象文書において算出されたキーワード出現密度に基づき、そのエントロピを計算して求めることを特徴とする文書分類装置。
前記重み付け関数は、ハニング窓関数またはガウス関数であり、ガウス関数を用いる場合は、前記設定された重み付け範囲からり外側は前記重みの値をゼロにすることを特徴とする請求項１３に記載の文書分類装置。
前記キーワードの出現位置は、検出されたキーワードを構成する文字列の中心の文字位置とし、キーワードを構成する文字数が偶数文字である場合は、その文字数を２で割って得られた値に位置する文字またはその次に位置する文字とすることを特徴とする請求項１３または１４に記載の文書分類装置。
前記１次元文字列上におけるキーワード出現密度分布は、それぞれの処理対象文書ごとに得られたキーワード出現密度の最大値を1.0とした正規化を行ってそれぞれの処理対象文書ごとに求めることを特徴とする請求項１３から１５のいずれか１項に記載の文書分類装置。
前記キーワード出現密度計算を行う際の前記重み付け範囲は、それぞれの処理対象文書ごとにそれぞれの処理対象文書長の1/10程度を目安に設定することを特徴とする請求項１３から１６のいずれか１項に記載の文書分類装置。
前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書を構成する全ての文字位置について計算することを特徴とする請求項１３から１７のいずれか１項に記載の文書分類装置。
前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書内の前記キーワードの出現位置について計算し、かつ、計算されたキーワード出現密度のピーク値を包絡線でつないで、当該処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算した場合のキーワード出現密度分布を推定することを特徴とする請求項１３から１７のいずれか１項に記載の文書分類装置。
前記キーワード出現密度計算手段の前段に、前記処理対象文書をテキスト文書に変換するテキスト変換手段を設け、前記処理対象文書をテキスト変換する際、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付け内容を保存しておくことを特徴とする請求項１３から１９のいずれか１項に記載の文書分類装置。
前記キーワード出現密度計算手段の前段に、ユーザの検索要求を受け付ける検索要求入力手段と、この検索要求入力手段に入力されたユーザの検索要求に対してどの用語をキーワードとして選択するかの知識データベースを有し、当該選択された用語に関連する類義語や類似語さらには前記選択された用語に付加される形容詞、副詞、感嘆詞をもキーワードとして設定可能とするキーワード設定手段とを設けたことを特徴とする請求項１３から１９のいずれか１項に記載の文書分類装置。
出力すべき文書の表示レイアウトを生成して文書を出力する文書出力手段を設け、出力される内容は、それぞれの文書におけるユーザの検索要求に対する有用度、それぞれの文書におけるユーザの検索要求に対する有用部分、それぞれの文書の要約を表す部分の少なくとも１つであり、これらを出力する文書対応に所定の表示レイアウト設定を行って出力することを特徴とする請求項１３から２１のいずれか１項に記載の文書分類装置。
前記有用部分を抽出する有用部分抽出手段を設け、この有用部分抽出手段は、キーワード出現密度の特に高い部分の区間を設定しその区間を抽出することで有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出することを特徴とする請求項２２に記載の文書分類装置。
前記出力内容に対する詳細な文書内容を当該出力内容にリンクして設け、所定部分がユーザによって指示されることにより、前記詳細な文書内容を出力可能とし、その詳細な文書内容において、キーワード出現密度の特に高い部分については、その部分の表示の仕方を他の部分と異ならせることを特徴とする請求項２２または２３に記載の文書分類装置。
ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力するコンピュータに、
複数の処理対象文書をそれぞれの処理対象文書ごとに１次元文字列に展開する手順、
前記ユーザの検索要求に基づくキーワードの出現位置を前記１次元文字列上において特定するとともに、その１次元文字列上で所定の範囲を重み付け範囲として設定し、その重み付け範囲の中心文字位置付近におけるキーワードの出現に対しては重みを重くし中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出する手順、
これによって求められたキーワード出現密度に基づいて前記処理対象文書の前記１次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザ検索要求に対する当該文書の有用度を求める手順、
前記処理対象文書ごとに得られた前記ユーザ検索要求に対する有用度として、当該処理対象文書において算出されたキーワード出現密度に基づき、そのエントロピを計算して求める手順、
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。