JP3829506B2 - 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 - Google Patents

文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3829506B2
JP3829506B2 JP33738998A JP33738998A JP3829506B2 JP 3829506 B2 JP3829506 B2 JP 3829506B2 JP 33738998 A JP33738998 A JP 33738998A JP 33738998 A JP33738998 A JP 33738998A JP 3829506 B2 JP3829506 B2 JP 3829506B2
Authority
JP
Japan
Prior art keywords
document
keyword
processing target
appearance density
keyword appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33738998A
Other languages
English (en)
Other versions
JP2000163437A (ja
Inventor
道博 長石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP33738998A priority Critical patent/JP3829506B2/ja
Publication of JP2000163437A publication Critical patent/JP2000163437A/ja
Application granted granted Critical
Publication of JP3829506B2 publication Critical patent/JP3829506B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、多数の文書からある分野に関連する文書かどうか判定して区別する文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
多数の文書の中からある分野に関連する文書かどうか判定して区別することが従来より行われている。特に、最近ではインターネットの普及によって、ユーザの欲しい情報を比較的簡単に取り出せるようになってきている。しかし、インターネット上には膨大な量の文書が存在し、その中から、ユーザの所望とする文書を適切に判断して取り出すのは容易なことではない。このように、膨大な量の文書の中からユーザの所望とする文書を抽出するには、ユーザの検索要求を受けると、その検索要求に基づいて多数の文書を分野別に分類してその中からユーザの所望とする文書を抽出するというような処理が必要となってくる。このような文書の分類を可能とする技術は、従来より、様々提案されている。
【0003】
これまで、複数の文書を分類する方法として最も多く使われるのは、ユーザの所望とする文書を捜すために、何らかのキーワードを設定し、そのキーワードがそれぞれの文書にどのくらい存在するか調べる方法である。キーワードが沢山ある文書は、ユーザの所望とする有用度が高い文書であるといえる。
【0004】
しかし、この方法はキーワードが存在しているか否かしか見ていないため、非常に沢山の文書の中から、おおまかに候補を絞り込む場合には、ある程度有効なものとなるが、本当に欲しい文書に絞り込むのは難しい。ただし、これは単純なキーワード照合なので、webのようなある程度実時間処理を求められる用途でも使われている。
【0005】
これに対して、単にキーワードが存在するか否かの判断だけではなく、1つ1つの文書において、個々の文書内全体における各用語の出現頻度や割合から、文書中で有効な用語を選出し、検索の時に入力されたキーワードをそれらの用語と照合させることで、文書分類の精度を向上させる方法も使われている。代表的な方法として、TF・IDF法が知られている。この方法は単純な文書中のキーワード照合方法に比べて精度が高い。
【0006】
【発明が解決しようとする課題】
しかし、上述のTF・IDF法は、たとえば、ある商品についての文書を沢山の文書の中から的確に探し出すという場合にはかなり有効であるが、そのある商品についてのの文書から、その商品の評判などが詳しく書かれた文書を捜し出すことは難しい。また、事前に検索対象にする全文書について、単語頻度などを計算する必要があるので、計算量が多いという問題点もある。
【0007】
しかも、形態素解析で文章を単語に切り分ける必要があり、検索対象文書が多くなると、計算量は莫大なものとなる。したがって、単純にキーワードを与えて、すぐに該当する文書を探し出すことが難しい。
【0008】
このように、これまで使われている主な文書分類方法は、キーワードの出現頻度を利用している。一方、我々は単純に頻度ではなく、関連するキーワードがどの程度の密度で文書中に存在するのか、存在位置も見ていると考えられる。実際、キーワードの出現位置を考慮したキーワード出現密度がその文書で重要な場所を的確に示していることが報告されている(黒橋、白木、長尾:出現密度分布を用いた語の重要説明箇所の特定、情報処理学会論文誌、Vol.38,No.4,pp.845-854 (1997))。この文献を以下では第1の文献という。
【0009】
この第1の文献に書かれている方法は、設定したキーワードと一致する語句の文書上の位置から簡単にキーワード出現密度を計算することができる。したがって、事前に頻度や形態素分析をする必要がなく、単純に設定したキーワードと照合するだけでよい。しかも、文書中の有用な部分がわかるので、そのような有用部分が相対的に数多く存在する文書を見つければ、精度の高い文書分類が可能になると考えられる。
【0010】
なお、キーワードの位置を利用する方法として、語彙の連鎖の一致度を文書全体で計算・分類する方法も検討されている(望月,岩山,奥村:語彙的連鎖に基づくパッセージ検索、情報処理学会研究会報告、98-NL-127,pp.39-46,1998)。この文献を以下では第2の文献という。
【0011】
この第2の文献に記載された方法は、キーワード検索時に入力されたクエリー(検索エンジンなどで最初に入力することばなど)に適応する部分を文書中で見つける一種のパターンマッチングである。しかし、この方法は与えられたクエリーとのマッチングだけを調べるので、前述のようなある商品の評判などが詳しく書かれた文書を捜すというように、単純なクエリーでは表現しにくい内容の文書を捜すには向かない。
【0012】
そこで本発明は、文書内におけるキーワード出現位置を考慮したキーワード出現密度を求めて、このキーワード出現密度を利用して文書の分類を行うことで、非常に計算が簡単で精度の高い文書分類を可能とすることを目的としている。
【0013】
【課題を解決するための手段】
上述の目的を達成するために、本発明の文書分類方法は、ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力する文書分類方法において、処理対象文書を1次元文字列に展開して、前記ユーザの検索要求に基づくキーワードの出現位置を前記1次元文字列上において特定するとともに、その1次元文字列上で所定の範囲を重み付け範囲として設定し、その重み付け範囲の中心位置付近におけるキーワードの出現に対しては重みを重くし、中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出することによって、前記1次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザの検索要求に対する当該処理対象文書の有用度を求め、その有用度によって複数の処理対象文書の分類を行うようにしている。
【0014】
また、本発明の文書分類装置は、ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力する文書分類装置において、処理対象文書をそれぞれの処理対象文書ごとに1次元文字列に展開して、前記ユーザの検索要求に基づくキーワードの出現位置を前記1次元文字列上において特定するとともに、その1次元文字列上で所定の範囲を重みけ範囲として設定し、その重み付け範囲の中心文字位置付近におけるキーワードの出現に対しては重みを重くし中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出するキーワード出現密度計算手段と、このキーワード密度計算手段によって求められたキーワード出現密度に基づいて前記処理対象文書の前記1次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザ検索要求に対する当該文書の有用度を求める有用文書判定手段とを含む構成としている。
【0015】
これら文書分類方法および文書分類装置において、前記重み付け関数は、ハニング窓関数またはガウス関数であり、ガウス関数を用いる場合は、前記設定された重み付け範囲から外側は前記重みの値をゼロにするような設定として用いる。
【0016】
また、前記キーワードの出現位置は、検出されたキーワードを構成する文字列の中心の文字位置とし、キーワードを構成する文字数が偶数文字である場合は、その文字数を2で割って得られた値に位置する文字またはその次に位置する文字とするようにしている。
【0017】
また、前記1次元文字列上におけるキーワード出現密度分布は、それぞれの処理対象文書ごとに得られたキーワード出現密度の最大値を1.0とした正規化を行ってそれぞれの処理対象文書ごとに求めるようにする。
【0018】
また、前記キーワード出現密度計算を行う際の前記重み付け範囲は、それぞれの処理対象文書ごとにそれぞれの処理対象文書長の1/10程度を目安に設定することが望ましい。
【0019】
また、前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書を構成する全ての文字位置について計算するようにしてもよく、また、前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書内の前記キーワードの出現位置について計算し、かつ、計算されたキーワード出現密度のピーク値を包絡線でつないで、当該処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算した場合のキーワード出現密度分布を推定するようにしてもよい。
【0020】
さらに、前記キーワード出現密度計算は、それぞれの処理対象文書ごとにそれぞれの処理対象文書をテキスト変換した後に行い、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付け内容を保存しておくようにする。
【0021】
また、前記処理対象文書ごとに得られた前記ユーザ検索要求に対する有用度は、当該処理対象文書において算出されたキーワード出現密度の総和を求めることによって得るようにする。
【0022】
さらに、前記処理対象文書ごとに得られた前記ユーザ検索要求に対する有用度は、当該処理対象文書において算出されたキーワード出現密度に基づき、そのエントロピを計算して求めるようにしてもよい。
【0023】
そして、分類された結果を出力する際、出力される文書が複数存在する場合、分類を行うために求められた有用度の高い方から順番に出力し、その出力内容は、それぞれの文書におけるユーザの検索要求に対する有用度、それぞれの文書におけるユーザの検索要求に対する有用部分、それぞれの文書の要約を表す部分の少なくとも1つを表示するようにする。
【0024】
前記有用部分は、キーワード出現密度の特に高い部分の区間を設定しその区間を抽出することで有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出するようにする。
【0025】
さらに、前記出力内容に対する詳細な文書内容を当該出力内容にリンクして設け、所定部分がユーザによって指示されることにより、前記詳細な文書内容を出力可能とし、その詳細な文書内容において、キーワード出現密度の特に高い部分については、その部分の表示の仕方を他の部分と異ならせて表示する。
【0026】
また、前記キーワードの設定は、ユーザの検索要求入力によって、システム側がその検索要求に基づいて適正な用語を選択することによって行われ、当該選択された用語に関連する類義語や類似語さらには前記選択された用語に付加される形容詞、副詞、感嘆詞をもキーワードとして設定可能とする。
【0027】
また、本発明の文書分類装置は、前記キーワード出現密度計算手段の前段に、前記処理対象文書をテキスト文書に変換するテキスト変換手段を設けることが可能である。このテキスト変換手段は、前述したように、処理対象文書をテキスト変換する際、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付け内容を保存することを可能とする。また、ユーザの検索要求を受け付ける検索要求入力手段とキーワード設定手段を設ける。このキーワード設定手段は、検索要求入力手段に入力されたユーザの検索要求に対してどの用語をキーワードとして選択するかの知識データベースを有し、当該選択された用語に関連する類義語や類似語さらには前記選択された用語に付加される形容詞、副詞、感嘆詞をもキーワードとして設定可能とする。
【0028】
また、本発明の文書分類装置は、出力すべき文書の表示レイアウトを生成して文書を出力する文書出力手段を設けることを可能とし、この文書出力手段から出力される内容は、前述したように、それぞれの文書におけるユーザの検索要求に対する有用度、それぞれの文書におけるユーザの検索要求に対する有用部分、それぞれの文書の要約を表す部分の少なくとも1つであり、これらを出力する文書対応に所定の表示レイアウト設定を行って出力する。
【0029】
さらに、有用部分を抽出する有用部分抽出手段を設けることを可能としている。この有用部分抽出手段は、前述したように、キーワード出現密度の特に高い部分の区間を設定しその区間を抽出することで有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出する。
【0030】
また、本発明の文書分類処理プログラムを記録した記録媒体は、ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力する文書分類処理プログラムを記録した記録媒体であって、その文書分類処理プログラムは、複数の処理対象文書をそれぞれの処理対象文書ごとに1次元文字列に展開する手順と、前記ユーザの検索要求に基づくキーワードの出現位置を前記1次元文字列上において特定するとともに、その1次元文字列上で所定の範囲を重み付け範囲として設定し、その重み付け範囲の中心文字位置付近におけるキーワードの出現に対しては重みを重くし中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出する手順と、これによって求められたキーワード出現密度に基づいて前記処理対象文書の前記1次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザ検索要求に対する当該文書の有用度を求める手順とを含むものでる。
【0031】
本発明は、膨大な文書の中からユーザの所望とする文書を取り出す際の前処理としての文書分類を如何に効率的に行うかについての発明である。これを実現するために、まず、設定されたキーワードが文書内にどのような密度で存在するかを判断する。このキーワードが文書内にどのような密度で存在するかを本発明では、キーワード出現密度と呼び、このキーワード出現密度を調べて、その結果に基づいて文書の有用度について判定する。
【0032】
このキーワード出現密度は、既に公知の方法、つまり、前述の第1の文献(黒橋、白木、長尾:出現密度分布を用いた語の重要説明箇所の特定、情報処理学会論文誌、Vol.38,No.4,pp.845-854 (1997))に記載された方法を用いて求めるが、本発明は、このキーワード出現密度そのもの求めることを要旨とするものではない。本発明は、このキーワード出現密度を用いて如何に文書を効率よくかつ高精度に分類するかを主旨としている。
【0033】
また、キーワード出現密度を求める際に用いられる関数は、ハニング窓関数やガウス関数など中心から両側になだらかに減少する関数を用いることができる。
【0034】
また、本発明では、キーワード出現位置はそれぞれのキーワードを構成する文字の中心の文字またはその中心付近の文字とすることによって、キーワードの位置を正確に表すことができる。つまり、前述の第1の文献では、キーワード出現位置をキーワードの先頭としており、このように、キーワードを構成する文字の先頭の文字位置をキーワード位置とすると、キーワードが文字数の多い熟語のような場合、キーワードの位置を正確に表すことができないなどの問題が生じる。
【0035】
また、それぞれの処理対象文書ごとに、キーワード出現密度の最大値を1.0とした正規化を行ってキーワード出現密度分布を求めることによって、他の処理対象文書との比較が容易となる。
【0036】
前記キーワード出現密度計算を行う際に設定される重み付け範囲は、それぞれの処理対象文書ごとにそれぞれの処理対象文書長の1/10程度を目安に設定することによって、得られるキーワード出現密度分布が有用箇所を適切に表したものとなり、その後の処理としての分類処理を適切に行うことができる。
【0037】
また、それぞれの処理対象文書ごとにそれぞれの処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算することにより、キーワード出現密度分布を高精度に出すことができる。
【0038】
これに対して、それぞれの処理対象文書内の前記キーワードの出現位置についてのみキーワード出現密度を計算することも可能であり、これによれば、多少おおまかなキーワード出現密度分布となるが、計算量が少なく高速な処理が可能となる。また、計算されたキーワード出現密度のピーク値を包絡線でつないで、当該処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算した場合のキーワード出現密度分布を推定することもできる。
【0039】
また、それぞれの処理対象文書ごとにそれぞれの処理対象文書をテキスト変換した後にキーワード出現密度計算を行うことで、どのような形式の文書に対してもキーワード出現密度計算以降の処理を共通化することができる。しかも、テキスト変換を行う際、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付けした内容を保存しておくことで、有用部分を表示する場合、無理のない自然なレイアウトでの表示が行える。
【0040】
また、それぞれの処理対象文書が有用であるか否かの判定は、算出されたキーワード出現密度の総和を求めて、その総和の値によって判断することができる。この総和によって有用度を方法は、それぞれの文書ごとにキーワード出現密度の総和を求めるだけでよいので、計算量が少なく容易に有用度の判定を行うことができる。
【0041】
また、それぞれの処理対象文書が有用であるか否かの判定を行う際、それぞれの処理対象文書において求められたキーワード出現密度のエントロピを計算してそのエントロピから判断することもできる。これによれば、キーワード出現密度の総和だけでは、判定が微妙なものとなるような場合にも、高精度な有用度の判定が行える。
【0042】
また、分類された結果の出力は、分類を行うために求められた有用度の高い文書から順番に出力し、その出力内容は、有用度やどの部分が有用であるかを示す有用部分さらにそれぞれの文書の要約など(全てでなくともよい)を表示するので、ユーザは、出力された文書内容を即座に把握することができる。
【0043】
そして、有用部分を表示する場合、有用部分としては、キーワード出現密度の特に高い部分の区間を設定しその区間を有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出するようにしたので、有用部分を1つのまとまった内容を持つ文として出力することができる。
【0044】
また、上述の出力内容についてさらに詳細な内容を出力可能としておき、その詳細な文書内容において、重要部分は色を変えたりブリンクさせるようにしたので、ユーザは自分の知りたい詳細な情報を一目で見ることができる。
【0045】
また、ユーザの検索要求入力によって、システム側がその検索要求に基づいて適正な用語を選択することによって自動的にキーワードが選択されるので、ユーザがキーワードの設定を行う必要がなく、ユーザは何を知りたいかを検索要求として入力するだけでよいので、入力操作が簡単となる。また、キーワードとして設定された用語に関連する類義語や類似語さらには、その形容詞、副詞、感嘆詞などをもキーワードとして設定可能とするので、より一層、検索精度が向上し、ユーザの所望とする情報を適切に取り出すことができるようになる。
【0046】
【発明の実施の形態】
本発明は、複数の文書からある分野に関連する文書かどうかを判定し、区分する方法であって、その分野かどうかを複数のキーワード(キーワードとして設定された語句だけでなくそれに関連する類義語や類似語、さらには、その形容詞、副詞、感嘆詞などの語句も含んでもよい)が、どの程度の密度で存在するかを、検索対象文書ごとに計算し、求められたキーワード出現密度に基づいて、それぞれの文書の有用度を求めその有用度によって文書を分類するものである。
【0047】
以下、文書中のキーワードの位置情報から当該文書におけるキーワード出現密度分布を用いて文書の分類を行う方法について述べる。なお、以下に説明する内容は、本発明の文書分類処理プログラムの内容の説明でもある。
【0048】
最初に文書の分類についてここでの定義を述べる。複数の文書からある分野に関する内容がその文書に存在するかどうか判定して区別する方法というのは、次のようなものを指す。
【0049】
まず、「ある分野」かどうかはその分野について複数のキーワードや表現などで記述できるある知識があるものと考える。たとえば、商品の評判についての内容を想定すると、「批評」、「好評」、「感想」などのキーワードが多く含まれるような内容は、商品の評判という分野に関する内容が存在するといえる。
【0050】
本発明は、このようなキーワードが各文書内にどの程度の密度で出現するのかを文書ごとに計算し、密度の高い文書をその分野の内容をよく含んでいる文書として選出して分類するものである。
【0051】
続いて、具体的な文書密度計算方法について述べる。ここでは文書としてタグや特殊記号などが一切ない単純なテキストを処理対象文書として考える。図1(a),(b),(c)は、ある3つの文書(文書A、文書B、文書Cという)において、あるキーワードのキーワード出現密度の概念を示したものである。図中、×印は文書中に存在するキーワードを示している。そして、これら文書を図示の左から右方向に見たときのキーワードの数を曲線Rで示す山の高さで表している。この図1の例では、同図(a)の文書Aはある狭い範囲に高い山が形成され、その部分にキーワードが集中していることを示し、同図(b)の文書Bは広い範囲に低い山が幾つか形成され、キーワードが文書全体にまんべんなく散らばっていることを示している。また、同図(c)の文書Cは2箇所の狭い範囲にそれぞれ高い山が形成され、その2つの範囲にキーワードが集中していることを示している。
【0052】
このようなキーワード出現密度は次のように計算する。まず、図2(a)に示すような処理対象文書を、図2(b)に示すように、単純な一次元文字列に展開する。つまり、図2(a)に示す文書は横書きで書かれた文書であり、その横書きの文書の先頭をS、文書末をEとし、文書の先頭Sから図示左方向にその行の終わりまで展開したあと、次の行の初めに戻ってそこから再び左方向に展開して行くといようにしてある1つの処理対象文書全体を1次元文字列に展開する。
【0053】
そして、このような1次元文字列に展開された文書上でキーワードの存在した位置を記録して行く。キーワードは、分類すべき分野や項目別にあらかじめ用意しておく(これについては後述する)。なお、図2(a),(b)において、図中、楕円F1で示す部分にはあるキーワードk1が存在し、三角形F2で示す部分には他のキーワードk2が存在するものとする。このように、この場合は、2種類のキーワードk1,k2が存在することになるが、ここではキーワードの種類による区別はせず、あらかじめ決めたキーワードが存在するか否かだけを見て、キーワードが存在したらその出現位置を全て記録する。
【0054】
なお、ここでいうキーワードの出現位置とは、見つかったキーワードの中心を指し、キーワードの中心位置のみを記録する。たとえば、図2(b)に示すような1次元文字列に変換された文書内容の一部が、図3(a)のような文書内容であって、予め決められたキーワードk1が「人民政府軍」、キーワードk2が「再登録」(それぞれ、図3(a)において下線を施してある)であったとすれば、図3(b)に示すように、キーワードk1である「人民政府軍」を構成する1つ1つの文字の列方向の中心となる文字の位置、キーワードk2である「再登録」を構成する1つ1つの文字の列方向の中心となる文字の位置をそれぞれキーワードの中心位置として記録する。
【0055】
図3(b)では、1つ1つの丸印(白丸及び黒丸)が文書内容の1つ1つの文字に対応し、黒丸がそれぞれキーワードk1,k2の中心となる文字を示している。つまり、キーワードk1である「人民政府軍」にあっては、「政」がキーワードの中心文字であり、「再登録」にあっては、「登」がキーワードの中心文字である。
【0056】
なお、この図3で示すキーワードk1,k2は、キーワードk1(人民政府軍)が5文字でキーワードk2(再登録)が3文字であり、両者とも文字数が奇数であるため、その中心の文字が存在するが、キーワードの文字数が偶数であった場合には、それを2で割って得られた値に基づいて中心文字を決定することができる。たとえば、6文字であれば、それを2で割って得られた値3を基に、3文字目を中心としてみなしたり、その3に+1した4文字目を中心としてみなしたりする。これは、予めどのようにするかを決めておくことで対処できる。
【0057】
このように、本発明では、キーワード出現位置はそれぞれのキーワードを構成する文字の中心の文字またはその中心付近のある1つの文字位置としている。
【0058】
これによって、ある1つのキーワードを構成する文字数に関係なく、1つのキーワードについてその中心または中心付近の1つの文字に対応した位置をキーワードの出現位置情報として持っていればよいので、後で述べるキーワード出現密度を求める際、キーワードを構成する文字数に影響されない正確な出現密度を求めることができ、さらに、キーワードを構成する文字全てについてキーワード位置情報を持つ場合に比べて大幅にデータ量を少なくすることができ、それに伴う計算量も大幅に少なくすることができる。
【0059】
しかも、本発明では、キーワードを構成する文字列の中心または中心付近のある1つの文字をキーワード出現位置としているので、たとえ、キーワードが文字数の多い熟語などであってもその出現位置を正確に表すことができる。
【0060】
このようにして、それぞれのキーワードの中心位置が検出されてそれが記録されると、今度は、ある位置におけるキーワード出現密度をここでは図4に示すようなハニング窓関数を用いて求める。
【0061】
今、文書内容の中でキーワード(種類は問わない)の見つかった位置をa(i)とする。ただし、iは文字位置(処理対象文書を1次元文字列に展開したときの文字位置)を表し、その位置にキーワードがあればa(i)=1、キーワードがなければa(i)=0とする。
【0062】
そして、文書の先頭(i=0)からスタートして、順次、各文字位置をハニング窓の中心位置lとし、その中心位置lに対するキーワード出現密度d(l)を求める。文字位置iにおける重み関数hl(i)、重み付けする範囲(ハニング窓の幅)をWとすると、
【0063】
【数1】
Figure 0003829506
【0064】
で表される。なお、ハニング関数を示す図4は横軸に文字位置iをとり、縦軸に重みをとったもので、この図4の場合は、重み付けをする範囲Wは、ハニング窓の中心位置lに対し左右両側に15文字分をとった場合が示されている。
【0065】
このように、処理対象文書を1次元文字列に展開して、キーワードの出現位置からキーワード出現密度を求めるのは、前述した第1の文献(黒橋、白木、長尾:出現密度分布を用いた語の重要説明箇所の特定、情報処理学会論文誌、Vol.38,No.4,pp.845-854 (1997))に述べられており、これは公知の技術である。ただし、この第1の文献では、キーワード位置としては、それぞれのキーワードの先頭位置としているが、本発明では、それぞれのキーワードの中心位置としている点は異なる。
【0066】
なお、重み関数hl(i)としてはここではハニング関数を用いたが、これは、中心から周辺になだらかに変化する関数ならば色々使える。たとえば、ガウス関数もその1つであるが、ここでは、重み付け範囲Wでゼロになるハニング窓関数を用いる。ガウス関数は無限遠方でもゼロにならないため、キーワード近傍の影響だけ調べるにはハニング窓関数が向いていると考えられる。しかし、応用の仕方によって関数を適宜変えることは可能である。なお、ガウス関数でも重み付け範囲W以外は強制的にゼロとするような設定を行えば使える。
【0067】
図5は上述した計算方法で文書密度を計算した例である。この文書はある商品についてのレポートであるが、その商品の評判に関するキーワードを適切に設定しておくと、文書中で商品の感想、批評の記述に関する部分の密度が高くなっていることがわかる。
【0068】
この図5は、処理対象文書が商品についてのレポートであって、このレポートに対し、前述の(1)式を用いてキーワード出現密度を求めることによって得られたキーワード出現密度分布を示すものである。図5において、横軸は処理対象文書の文字位置、縦軸は上述の(1)式で求められたキーワード出現密度d(l)を示している。
【0069】
なお、横軸の文字位置は、レポートの文書を1次元文字列に展開し、その文書の先頭から文書末までを文書の先頭からのバイト数で表している。また、縦軸のキーワード出現密度は、(1)式で求められたキーワード出現密度d(l)であるが、その処理対象文書について求められたキーワード出現密度の中で最大値を1.0にした正規化を行って表わされている。このように、処理対象文書ごとに正規化を行うことで、他の処理対象文書との比較が容易となる。
【0070】
この図5に示される処理対象文書は、具体的にはあるメーカのディジタルカメラについての評価をまとめたレポートであり、設定されたキーワードとしては、たとえば、「評価」、「性能」、「価格」、「使い勝手」などであるとし、これらのキーワードは、デザインについて触れた部分や、画質について触れた部分でのキーワード出現密度が特に高く、その他、パノラマ機能などについてやメモリなどについて触れた部分においてもキーワード出現密度が比較的高いことがわかる。
【0071】
ところで、上述の密度計算を行う際、重み付け範囲Wの設定の仕方により密度の出方が変わる。一般には重み付け範囲Wを広くとると、キーワード出現位置近傍のキーワード出現密度が求められることになり、逆に重み付け範囲Wを広くとると、広い範囲に存在するキーワードの影響まで計算されることになる。しかし、重み付け範囲Wが広すぎると重要箇所が不明瞭になり、狭すぎると単なるキーワード頻度と変わりなくなるので、重み付け範囲の設定の仕方は重要である。
【0072】
そこで、それぞれの処理対象文書ごとに1つの処理対象文書の文書長により適切な重み付け範囲W を設定する必要がある。図6は重み付け範囲Wの取り方によって、前述の(1)式により求められるキーワード出現密度d(l)分布曲線がどのようになるかを示したものである。図6において、分布曲線U1は重み付け範囲Wを4096バイト、分布曲線U2は重み付け範囲Wを2048バイト、分布曲線U3は重み付け範囲Wを1024バイトとして、それぞれ(1)式を用いて求められたキーワード出現密度d(l)の分布曲線を示すものである。なお、分布曲線U3は図5の分布曲線とほぼ同じである。つまり、図5は重み付け範囲Wを1024バイトとした場合であるといえる。
【0073】
この図6からわかるように、重み付け範囲Wを広くとりすぎると、密度の変化に明確性を欠き(範囲Wを2048バイトや4096バイトとした場合)、重要箇所が不明瞭となる。この3つの範囲の中では、重み付け範囲wを1024バイトとした場合が最も適切であるといえる。この場合、ここで用いられた処理対象文書の文書長が、1.2×10の4乗バイトの文書長を有する場合であるので、おおよそ、1つの処理対象文書の文書長の1/10を目安にするのがよいことがわかる。特に、技術系の文書においてはその傾向が強いことがわかった。
【0074】
次に、このようにして求められたキーワード出現密度を用いてシステム上で文書を分類する方法について説明する。
【0075】
前述した説明では、処理対象文書はプレインテキストであることを前提にしているが、実際に我々が扱う文書は色々な形式が存在する。したがって、キーワード位置検出を行う場合、文書形式によって検出方法が異なる。一般に前述したキーワード出現位置というのは、人間が視覚的に見たレイアウト上の位置である。処理対象文書が蓄積されている文書ファイルの内容自体には、文字自身の情報の他に制御に関する情報も多いので、これらを適宜排除した上でないと視覚的に見たレイアウトに一致するような位置を見つけることは難しい。たとえば、HTML文書では表示に使うタグが多数あるので、このタグは読み飛ばして文字の位置を計算する必要がある。
【0076】
すなわち、本発明を実施するには、文書を制御記号などの存在しない文字だけの一次元文字列に変換して行うが、たとえば、文書中に様々な制御記号などが入った文書にあっては、それらの制御記号を省いて文字だけで1次元文字列を構成する必要がある。
【0077】
したがって、処理対象文書を文字だけによる1次元文字列に展開し、キーワード位置検出を行う処理は、処理対象文書ごとに、その文書がどのような形式の文書であるかを判定し、その判定結果に基づいて、処理対象文書の文書形式ごとにアルゴリズムを設定して行う必要がある。しかし、これを実際に行うのは処理負担が大きく実用的ではない。
【0078】
したがって、ここでは、どのような文書でも全て一旦プレインテキストに変換し、その上でキーワード出現位置の検出を行ってキーワード出現密度計算を行う方法をとる。この方法をとれば、文書形式ごとにキーワード位置検出アルゴリズムを開発する必要がない。また、プレインテキスト変換は殆どの文書作成ソフトで備えられている機能であるので、システムに組み込むことが容易である。
【0079】
また、全ての文書形式をプレインテキストに変換してキーワード位置検出を行う場合は、キーワード位置検出は、単純なキーワードマッチングで可能となる。しかし、プレインテキストに変換せず、各文書形式ごとにキーワード位置を見る場合は、それぞれの文書形式ごとに、キーワード位置検出アルゴリズムが必要となる。具体的には、タグや特殊記号、ヘッダなどの知識と、それらがどのような場合は何文字飛ばすなどの指示が必要である。
【0080】
次にこれまで説明した方法により、多数の文書について図5に示すようなキーワード出現密度分布が求められたとして、それぞれの文書の中から最も適当と思われる文書を抽出する処理(文書分類処理)について説明する。
【0081】
この文書分類の仕方としては、まず、図5に示すように求められたキーワード出現密度の総和を求めて(積分する)、その中から最も大きい値の文書を出力したり、あるいは、値の高い順から幾つかの文書を出力する方法が考えられる。
【0082】
これとは別の方法としてエントロピを計算して分類する方法もある。この方法は、上述の総和だけでは判定が微妙となるような場合に有効なものとなる。
【0083】
たとえば、図1に示すような3つの文書A〜Cについて考えると、この3つの文書A〜Cは、キーワード(×印)の数はどれも10個で同じであり、また、その密度を積分した値もほぼ同じであるとする。しかし、これらの文書のキーワード分布はそれぞれ大きく異なっている。つまり、文書Aはページのある一部に詳しい情報がまとまって記載されており、文書Bはページ全体に関連する記事があるが、その内容は薄いと思われる。また、文書Cは文書Aと文書Bの中間程度の詳しい情報が2箇所あるというように、それぞれの文書の分布形態は異なる。
【0084】
これらの点から、抽出されるべき文書が、文書Aあるいは文書Cであることが望ましいとして、これら文書Aあるいは文書Cを選択するような処理がなされるような処理を行う。これを、キーワード出現密度以外の値(キーワードのヒット数やキーワードが存在した場所の数など)で総合的に判定するのは容易ではない。つまり、キーワード出現密度以外の値で総合的に判定しようとすると、判定の条件分岐が複雑になり、微妙な判定が難しくなる。そこで、エントロピを使う。求めるべきエントロピをEとすると、
【0085】
【数2】
Figure 0003829506
【0086】
で表される。
【0087】
エントロピEはそれぞれの処理対象文書におけるキーワード出現密度d(l)の分布が平坦であると小さく、先鋭な部分が多い分布では大きくなる傾向をもっている。したがって、それぞれの処理対象文書ごとのキーワード出現密度全体の状況を一意に表現する尺度として有用だと考えられ、図1に示すようなキーワード出現密度の総和が似ている場合の微妙な判定に役立つ。
【0088】
図7は処理対象文書として90個の雑誌(ある商品の評判が書かれている)の内容を主観評価で3段階に分類した結果と、文書密度のエントロピEの相関をとったグラフである。ここで、主観評価で3段階の分類というのは、たとえば、H3は商品の評判について非常によく書かれている文書群、H2は商品の評判について比較的よく書かれている文書群、H1は商品の評判について一応書かれている文書群というように、ここでは主観的な評価を3つの段階H1,H2,H3に分けて、90個の雑誌をそれぞれの段階に分類している。
【0089】
このように粗い分類をしたのち、それぞれの処理対象文書(それぞれの雑誌)についてエントロピを計算する。エントロピは先鋭な部分の多いキーワード出現密度分布ほど大きな値となるので、エントロピの値の大きいものほどその内容についてよく書かれているものであるといえる。
【0090】
上述したような3つの段階H1,H2,H3の分類は、かなり粗い分類であるが、それぞれの分類の中で、内容が濃くなるほどエントロピの値も高いものとなるので、エントロピを指標にして文書内容の程度を定量的に評価できる。なお、図7において、それぞれの文書に対して求められたエントロピを1つ1つの四角形で表している(たとえば、段階H1の文書群については、求められたエントロピをE11,E12,・・・, E1nで表し、H2の文書群については、求められたエントロピをE21.E22,・・・,E2nで表し、 H3の文書群については、求められたエントロピをE31,E32,・・・,E3nで表している)が、それぞれの文書群において求められたエントロピは似た値になる場合もあり、その場合は、エントロピの値を示す四角形が重なるので、四角形は90個全ては図示されてはいない。
【0091】
このようにして幾つかの文書がユーザの所望とする文書候補として抽出されるが、これら抽出された複数の文書が一定以上存在する場合は、有用度の高い順から並べて表示する。このような表示を行う際、有用度の高い順から並べただけでは内容が解りにくいので、その他の情報も合わせて表示することが好ましい。
【0092】
図8はその表示例を示すものである。図8(a)において、#1,#2,#3,・・・は有用度の高い順番を示すもので、その順番に対するそれぞれの文書の重要度z1としてキーワード出現密度、求められたエントロピ、キーワードヒット数なども表示する。さらに、文書の概要(見出しや文書の冒頭部分を抽出)z2、その文書の重要部分(これについては後述する)z3などの併せて表示する。さらに、図8(b)に示すように、それぞれの文書ごとに文書全文の特にキーワード出現密度の高い部分を色やブリンクでの表示を可能とする。すなわち、それぞれの文書対応にアイコンのようなマークM1,M2,M3などを付して、たとえば、マークM1をクリックすると、#1の文書全体を表示し、かつ、その文書の中で特に密度の高い部分z0を他の部分とは異なった色やブリンクで表示する。
【0093】
本発明は複数の文書を分類することが主な目的としているが、分類した文書のどのが重要だったか示すことは、その文書が選ばれた理由を知ったり、分類された文書の概要を把握する上で有用である。以下にその有用部分の切り出しについて説明する。
【0094】
まず、文書の有用部分を特定する方法を述べる。基本的には図1のように、局所的にキーワード出現密度の高い部分(山の部分)を有用部分とし、あるしきい値を設定して、そのしきい値以上の密度を有する部分を有用部分として抽出することができる。
【0095】
なお、これまでの説明では、文書分類を主としているので、キーワード出現密度は文書の全ての文字位置について計算をするが、有用部分切り出しを主とし、それとともに文書分類も行いたいというような場合は、キーワードが出現した位置のみのキーワード出現密度から文書全体の様子を推定することも可能である。
【0096】
図9はキーワード出現位置のみについて、キーワード出現密度と全ての文字位置について計算した例を比較して示すもので、図5で説明した文書と同じ文書を用いた場合である。この図9からもわかるように、キーワード出現位置のみにおけるキーワード出現密度のピークp1,p2,p3,・・・を包絡線でつないで得られたキーワード出現密度分布曲線Lは、文書の全ての文字位置についてのキーワード出現密度分布曲線(図5参照)とほぼ同じになる。
【0097】
このように、キーワード出現位置のみについてキーワード出現密度を求める方法は、計算時間が速いので、多少精度が悪くても、速くおおよその判定をしたい場合などに有効である。
【0098】
次に有用部分の表示方法について述べる。抽出するかしないかの基準は上述したように、適当なしきい値以上のキーワード出現密度部分を単純に切り出せばよいが、そのまま単純に切り出すと、不具合が生じ、それに対処する必要がある。
【0099】
これを示したものが図10である。図10(a)で示すような元文書(その一部のみが図示されている)が存在したとし、アンダーライン部分が、あるしきい値以上のキーワード出現密度を有する有用部分として抽出された区間であるとする。
【0100】
しかし、この抽出された区間の内容は、この場合、「い表示を後処理と」であり、これでは、何が書かれているのか意味がわからないことになる。そこで、図10(b)に示すような形態素解析を行い、語句の切れ目が自然なものとなる境界を有用部分として抽出する。つまり、この場合は、形態素解析結果は、「無理」・「が」・「ない」・「表示」・「を」・「後処理」・「として」・「行う」・「こと」であり、このような形態素解析結果において、「表示」・「を」・「後処理」・「として」を抽出し、図11(c)に示すように、「表示を後処理として」という内容を抽出する。
【0101】
この例では、有用部分の先頭に助詞(上述の例では「い」)が単独で出現する場合はそれを無視し、語尾の一部(上述の例では「と」)が存在しているときは語尾として意味をなすような処理を行い、有用部分が意味のある文章になるようにしている。このように、形態素解析を行ってその結果に基づき、有用部分として抽出された部分の文が不自然なものとならないようにすることができる。
【0102】
以上は文書が文字だけのテキストの場合について述べたが、実際にはHTML文書などのレイアウトや画像などの複数の要素が組み合わされた文書の場合、密度の高い場所だけ抽出して表示を行うと不自然なものとなる。このような場合、次のような方法をとることで、抽出した有用部分を自然な内容として表示できる。
【0103】
すなわち、一般文書からテキスト文書に変換する際に、テキスト文書のどの文字はテキスト変換前の元の文書のどの位置かを記録しておく。そして、テキスト文書状態で有用部分を決定し、その有用部分の文字の位置に相当する元の文書の位置を特定する。そして、特定した元文書の位置を中心にレイアウトが不自然でない区切りを判定する。たとえば、その領域を含む最低のかたまり(段落や章)で区切る。ただし、有用部分の中に段落が存在しているような場合、その段落部分で区切ると不自然となるので、前後の段落を含めた少し広い範囲で区切るようにしたり、あるいは、有用部分の中に異なった章が存在しているような場合、その章の変わるで区切ると不自然となるので、前後の章を含めた少し広い範囲で区切るようにしたりする。
【0104】
このように、文書密度計算のためのテキスト変換を行った際に、元文書とテキスト文書の位置の対応づけを行っておけば、レイアウトに無理がない表示を後処理として行うことが可能である。
【0105】
次に本発明を実現する際のシステム構成を説明する。図11は、本発明を実現するためのシステム構成図を示すもので、検索要求入力部1、知識データベース部2、キーワード群決定部3、検索対象文書データベース部4、文書タイプ判定部5、テキスト変換部6、キーワード出現密度計算部7、有用文書判定部8、表示部9、有用部分抽出部10、表示レイアウト生成部11などから構成されている。なお、知識データベース部2とキーワード群決定部3によってキーワード群設定部20が構成され、表示部9、有用部分抽出部10、表示レイアウト生成部11によって文書出力部30が構成される。
【0106】
検索要求入力部1は、ユーザが何らかの情報を収集しようとしたとき、ユーザの知りたい内容について入力可能となっており、これは、自然言語で入力するようにしてもよく、あるいは、予め多数の項目を用意しておき、ユーザがその中から所定の項目を指示するようにしてもよい。
【0107】
知識データベース部2は、ユーザの入力した検索要求内容に基づいてその内容に対してはどのような用語(単語など)がキーワードとして適切であるかを判断して、ユーザの検索入力内容に対する適切な用語を複数個選択し、ここで選択された複数の用語はキーワード群決定部3によって、キーワード群として決定される。ここで設定されるキーワードは、ユーザの入力した検索内容によっては、数十あるいは100個以上ということもある。
【0108】
ところで、ユーザの検索要求に対しそれに適合したキーワードを決定する処理は次のようにして行われる。
【0109】
たとえば、検索要求入力部1から、ユーザがある製品について知りたい旨を入力すると、知識データベース部2では、そのユーザの入力に対して、「性能」、「価格」、「評価」、「使い勝手」などその製品を表す上で必要な用語を選び、これらが、キーワードとして決定される。つまり、ユーザ検索要求に対して有用な文書を抽出する際文書の分類が必要となるが、このとき、分類したい分野によって、その分野に関する一般的な知識や連想される用語をキーワードとする。また、連想される用語の類似語や類義語も利用できる。これらは個人の直感または辞書、国語辞典などの事例などから予め作成して知識データベース部2に持たせることができる。また、分類したい分野に該当する文書を複数収集して、これら収集された文書に数多く目にする用語を探し出し、その頻度が高いものをキーワードとする方法も可能である。
【0110】
さらに、1つのキーワードについてそのキーワードに対する類義語や類似語などの関連語も適宜組み合わせて使用したり、そのキーワードに一緒に使われる形容詞、副詞、感嘆詞などを含んだ表現とすることで、検索精度がより一層向上する。たとえば、前者の場合、キーワードが「評価」であれば、その類義語や関連後「批判」、「評判」、「好評」などというように「評価」から連想される類義語や類似語を適宜組み合わせて用いる。また、後者の場合は、キーワードが「評価」であれば、「素晴らしい」、「品質のよい」、「非常に」などを適宜組み合わせて用いる。
【0111】
文書タイプ判定部5は、検索対象文書データベース部4に存在する文書がどのような形式で書かれた文書であるかを判定するものである。また、テキスト変換部6は、文書タイプ判定部5による判定結果に基づいて、その文書をテキスト文書に変換する。なお、検索対象文書データベース4は、たとえば、インターネット上のサーバ側に存在するデータベースを考えているが、これに限らず、ユーザ個人のパーソナルコンピュータなどの情報処理機器に保存されている文書であってもよい。
【0112】
キーワード出現密度計算部7は、キーワード群決定部3で決定された複数のキーワードに基づき、テキスト変換された文書に対し前述したような方法でキーワード出現密度を計算する。このキーワード出現密度計算については、すでに詳細に説明したので、ここではその説明は省略する。
【0113】
このキーワード出現密度計算部4によってそれぞれの文書について、キーワード出現密度が計算されると、有用文書判定部8は、それぞれの文書ごとに、たとえば図5に示すようなキーワード出現密度分布を作成して、その結果に基づいて、有用度(ユーザの所望とする文書としての有用度)を判定し、その判定結果を用いて表示すべき文書を決定する。なお、重要度の判定は、前述したように、たとえば、図5に示すようなグラフを積分してその結果よって判定する。
【0114】
一方、有用部分抽出部10は、キーワード出現密度計算部4によって計算されたそれぞれの文書ごとに計算されたキーワード出現文書密度を用いて、前述したような方法により有用部分の抽出を行う。そして表示レイアウト生成部11によって、図8に示すような表示レイアウトを生成し、それを表示部9で表示する。その表示結果の一例が図8である。
【0115】
以上のような手順によって、ユーザの検索要求に対し、それに適合した幾つかの文書が表示されることになる。
【0116】
なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の実施の形態では、表示部9での表示例は図8のような表示の仕方であるが、この表示の仕方は種々設定可能である。
【0117】
また、以上説明した本発明の文書分類処理を行う処理プログラムは、フロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその記録媒体をも含むものである。また、ネットワークから処理プログラムを得るようにしてもよい。
【0118】
【発明の効果】
本発明によれば、処理対象文書ごとに、設定されたキーワードが当該処理対象文書内にどのような密度で存在するか(キーワード出現密度)を判断し、このキーワード出現密度に基づいてユーザの検索要求に対する文書の有用度について判定するようにしているので、膨大な文書の中からユーザの所望とする文書を取り出す際の前処理としての文書分類を、精度よく効率的に、しかも、少ない計算量で可能となる。
【0119】
このように、計算量を少なくできる1つの例として、本発明では、キーワード出現位置はそれぞれのキーワードを構成する文字の中心の文字またはその中心付近のある1つの文字としていることが挙げられる。すなわち、ある1つのキーワードを構成する文字数に関係なく、キーワード出現位置を示すデータは、1つのキーワードについて中心またはその付近の1つの文字に対応した位置のデータのみを持っていればよいので、キーワードを構成する文字全てについてキーワード出現位置を示すデータを持つ場合に比べて大幅にデータ量を少なくすることができ、またそれに伴う計算量も大幅に少なくすることができる。
【0120】
また、本発明では、処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算することによって、より高精度なキーワード出現密度分布を得ることも可能であるが、それぞれの処理対象文書内の前記キーワードの出現位置についてのみキーワード出現密度を計算することも可能であり、これによれば、多少おおまかなキーワード出現密度分布となるが、計算量が少なく高速な処理が可能となる。
【0121】
また、処理対象文書をテキスト変換した後にキーワード出現密度計算を行うことで、どのような形式の文書に対してもキーワード出現密度計算以降の処理を共通化することができる。しかも、テキスト変換を行う際、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付けした内容を保存しておくことで、有用部分を表示する場合、無理のない自然なレイアウトでの表示が行える。
【0122】
また、それぞれの処理対象文書が有用であるか否かの判定は、算出されたキーワード出現密度の総和を求めて、その総和の値によって判断することができ、このように、キーワード出現密度の総和によって有用度を判断する方法は、それぞれの文書ごとにキーワード出現密度の総和を求めるだけでよいので、少ない計算量で容易に有用度の判定を行うことができる。
【0123】
また、それぞれの処理対象文書が有用であるか否かの判定を行う際、それぞれの処理対象文書において求められたキーワード出現密度のエントロピを計算してそのエントロピから判断することもできる。これによれば、キーワード出現密度の総和だけでは、判定が微妙となるような場合でも、高精度な有用度の判定が行える。
【0124】
また、分類された結果の出力は、分類を行うために求められた有用度の高い文書から順番に出力し、その出力内容は、有用度やどの部分が有用であるかを示す有用部分さらにそれぞれの文書の要約など(全てでなくともよい)を表示可能とするので、ユーザは、出力された文書内容を即座に把握することができる。
【0125】
そして、有用部分を表示する場合、有用部分としては、キーワード出現密度の特に高い部分の区間を設定しその区間を有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出するようにしたので、有用部分を1つのまとまった内容の文として出力することができる。
【0126】
また、上述の出力内容についてさらに詳細な内容を出力可能としておき、その詳細な文書内容において、重要部分は色を変えたりブリンクさせるようにすることによって、ユーザは自分の知りたい情報を一目で見ることができる。
【0127】
また、ユーザの検索要求入力によって、システム側がその検索要求に基づいて適正な用語をキーワードとして選択するようにしているので、ユーザ自身がキーワードの設定を行う必要がない。したがって、ユーザは何を知りたいかを検索要求として入力するだけでよいので、ユーザの行う入力操作をきわめて簡単なものとすることができる。また、キーワードとして設定された用語に関連する類義語や類似語さらにはキーワードに付加される形容詞、副詞、感嘆詞などをもキーワードとすることができるので、これによって、より一層、検索精度が向上し、ユーザの所望とする情報を適切に取り出すことができるようになる。
【0128】
このように、本発明は、計算量が少なく高精度な文書分類が可能となりる。しかも、どこがどの程度有用なのかを適切に表示することができる。また、本発明を適用すれば、作成した文書にキーワードやインデックスをつけて分類できるように準備しておく必要がなく、作成された文書に対し後に行われる分類処理について何等意識する必要がない。つまり、どのような文書であっても、キーワードさえ設定されれば適切な分類がなされる。
【図面の簡単な説明】
【図1】本発明の実施の形態を説明するためにキーワード出現密度の概念を説明する図である。
【図2】処理対象文書を1次元文字列に展開してキーワード出現位置を求める例を説明する図である。
【図3】個々のキーワードの出現位置を決定する処理を説明する図である。
【図4】ハニング窓関数の一例を示す図である。
【図5】処理対象文書の1次元文字列上におけるキーワード出現密度分布を示す図である。
【図6】キーワード出現密度を計算する際にハニング窓の幅(重み付け範囲)を変えて計算して得られたキーワード出現密度分布を示す図である。
【図7】複数の処理対象文書を3段階の文書群に分けてそれぞれの文書ごとに得られたキーワード出現密度からエントロピを求めてそのエントロピの分布を示す図である。
【図8】本発明の実施の形態の表示例を示す図であり、(a)は有用度の大きい順に必要な表示項目を併せて表示する表示例を示す図、(b)はその中から指定された文書内容を表示する例を示す図である。
【図9】キーワード出現位置のみでキーワード出現密度を計算した場合の1次元文字列上におけるキーワード出現密度分布を示す図である。
【図10】有用部分の抽出処理法法を説明する図である。
【図11】本発明の実施の形態のシステム構成を示す図である。
【符号の説明】
1 検索要求入力部
2 知識データベース部
3 キーワード群決定部
4 検索対象文書データベース部
5 文書タイプ検出部
6 テキスト変換部
7 キーワード出現密度計算部
8 有用文書判定部
9 表示部
10 有用部分抽出部
11 表示レイアウト生成部
20 キーワード設定部
30 文書出力部

Claims (25)

  1. ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力するコンピュータを用いて構築された文書分類装置において、
    前記コンピュータが備えるキーワード出現密度計算手段が、処理対象文書を1次元文字列に展開して、前記ユーザの検索要求に基づくキーワードの出現位置を前記1次元文字列上において特定するとともに、その1次元文字列上で所定の範囲を重み付け範囲として設定し、その重み付け範囲の中心位置付近におけるキーワードの出現に対しては重みを重くし、中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出するステップと、
    前記コンピュータが備える有用文書判定手段が、前記キーワード出現密度計算手段によって求められたキーワード出現密度に基づいて前記処理対象文書の前記1次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザの検索要求に対する当該処理対象文書の有用度を求めるステップと、を実行するものであり、
    前記処理対象文書ごとに得られた前記ユーザ検索要求に対する有用度は、当該処理対象文書において算出されたキーワード出現密度に基づき、そのエントロピを計算して求めることを特徴とする文書分類方法。
  2. 前記重み付け関数は、ハニング窓関数またはガウス関数であり、ガウス関数を用いる場合は、前記設定された重み付け範囲から外側は前記重みの値をゼロにすることを特徴とする請求項1記載の文書分類方法。
  3. 前記キーワードの出現位置は、検出されたキーワードを構成する文字列の中心の文字位置とし、キーワードを構成する文字数が偶数文字である場合は、その文字数を2で割って得られた値に位置する文字またはその次に位置する文字とすることを特徴とする請求項1または2記載の文書分類方法。
  4. 前記1次元文字列上におけるキーワード出現密度分布は、それぞれの処理対象文書ごとに得られたキーワード出現密度の最大値を1.0とした正規化を行ってそれぞれの処理対象文書ごとに求めることを特徴とする請求項1から3のいずれか1項に記載の文書分類方法。
  5. 前記キーワード出現密度計算を行う際の前記重み付け範囲は、それぞれの処理対象文書ごとにそれぞれの処理対象文書長の1/10程度を目安に設定することを特徴とする請求項1から4のいずれか1項に記載の文書分類方法。
  6. 前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書を構成する全ての文字位置について計算することを特徴とする請求項1から5のいずれか1項に記載の文書分類方法。
  7. 前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書内の前記キーワードの出現位置について計算し、かつ、計算されたキーワード出現密度のピーク値を包絡線でつないで、当該処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算した場合のキーワード出現密度分布を推定することを特徴とする請求項1から5のいずれか1項に記載の文書分類方法。
  8. 前記キーワード出現密度計算は、それぞれの処理対象文書ごとにそれぞれの処理対象文書をテキスト変換した後に行い、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付け内容を保存しておくことを特徴とする請求項1から7のいずれか1項に記載の文書分類方法。
  9. 分類された結果を出力する際、出力される文書が複数存在する場合、分類を行うために求められた有用度の高い方から順番に出力し、その出力内容は、それぞれの文書におけるユーザの検索要求に対する有用度、それぞれの文書におけるユーザの検索要求に対する有用部分、それぞれの文書の要約を表す部分の少なくとも1つを表示することを特徴とする請求項1から8のいずれか1項に記載の文書分類方法。
  10. 前記有用部分は、キーワード出現密度の特に高い部分の区間を設定しその区間を抽出することで有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出することを特徴とする請求項9に記載の文書分類方法。
  11. 前記出力内容に対する詳細な文書内容を当該出力内容にリンクして設け、所定部分がユーザによって指示されることにより、前記詳細な文書内容を出力可能とし、その詳細な文書内容において、キーワード出現密度の特に高い部分については、その部分の表示の仕方を他の部分と異ならせることを特徴とする請求項9または10に記載の文書分類方法。
  12. 前記キーワードの設定は、ユーザの検索要求入力によって、システム側がその検索要求に基づいて適正な用語を選択することによって行われ、当該選択された用語に関連する類義語や類似語さらには前記選択された用語に付加される形容詞、副詞、感嘆詞をもキーワードとして設定可能とすることを特徴とする請求項1から11のいずれか1項に記載の文書分類方法。
  13. ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力する文書分類装置において、
    処理対象文書をそれぞれの処理対象文書ごとに1次元文字列に展開して、前記ユーザの検索要求に基づくキーワードの出現位置を前記1次元文字列上において特定するとともに、その1次元文字列上で所定の範囲を重み付け範囲として設定し、その重み付け範囲の中心文字位置付近におけるキーワードの出現に対しては重みを重くし中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出するキーワード出現密度計算手段と、
    このキーワード密度計算手段によって求められたキーワード出現密度に基づいて前記処理対象文書の前記1次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザ検索要求に対する当該文書の有用度を求める有用文書判定手段と、を有し、
    前記処理対象文書ごとに得られた前記ユーザ検索要求に対する有用度は、当該処理対象文書において算出されたキーワード出現密度に基づき、そのエントロピを計算して求めることを特徴とする文書分類装置。
  14. 前記重み付け関数は、ハニング窓関数またはガウス関数であり、ガウス関数を用いる場合は、前記設定された重み付け範囲からり外側は前記重みの値をゼロにすることを特徴とする請求項13に記載の文書分類装置。
  15. 前記キーワードの出現位置は、検出されたキーワードを構成する文字列の中心の文字位置とし、キーワードを構成する文字数が偶数文字である場合は、その文字数を2で割って得られた値に位置する文字またはその次に位置する文字とすることを特徴とする請求項13または14に記載の文書分類装置。
  16. 前記1次元文字列上におけるキーワード出現密度分布は、それぞれの処理対象文書ごとに得られたキーワード出現密度の最大値を1.0とした正規化を行ってそれぞれの処理対象文書ごとに求めることを特徴とする請求項13から15のいずれか1項に記載の文書分類装置。
  17. 前記キーワード出現密度計算を行う際の前記重み付け範囲は、それぞれの処理対象文書ごとにそれぞれの処理対象文書長の1/10程度を目安に設定することを特徴とする請求項13から16のいずれか1項に記載の文書分類装置。
  18. 前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書を構成する全ての文字位置について計算することを特徴とする請求項13から17のいずれか1項に記載の文書分類装置。
  19. 前記キーワード出現密度は、それぞれの処理対象文書ごとにそれぞれの処理対象文書内の前記キーワードの出現位置について計算し、かつ、計算されたキーワード出現密度のピーク値を包絡線でつないで、当該処理対象文書を構成する全ての文字位置についてキーワード出現密度を計算した場合のキーワード出現密度分布を推定することを特徴とする請求項13から17のいずれか1項に記載の文書分類装置。
  20. 前記キーワード出現密度計算手段の前段に、前記処理対象文書をテキスト文書に変換するテキスト変換手段を設け、前記処理対象文書をテキスト変換する際、テキスト変換前の元文書とテキスト変換後の文書との位置の対応付けを行って、その対応付け内容を保存しておくことを特徴とする請求項13から19のいずれか1項に記載の文書分類装置。
  21. 前記キーワード出現密度計算手段の前段に、ユーザの検索要求を受け付ける検索要求入力手段と、この検索要求入力手段に入力されたユーザの検索要求に対してどの用語をキーワードとして選択するかの知識データベースを有し、当該選択された用語に関連する類義語や類似語さらには前記選択された用語に付加される形容詞、副詞、感嘆詞をもキーワードとして設定可能とするキーワード設定手段とを設けたことを特徴とする請求項13から19のいずれか1項に記載の文書分類装置。
  22. 出力すべき文書の表示レイアウトを生成して文書を出力する文書出力手段を設け、出力される内容は、それぞれの文書におけるユーザの検索要求に対する有用度、それぞれの文書におけるユーザの検索要求に対する有用部分、それぞれの文書の要約を表す部分の少なくとも1つであり、これらを出力する文書対応に所定の表示レイアウト設定を行って出力することを特徴とする請求項13から21のいずれか1項に記載の文書分類装置。
  23. 前記有用部分を抽出する有用部分抽出手段を設け、この有用部分抽出手段は、キーワード出現密度の特に高い部分の区間を設定しその区間を抽出することで有用部分として抽出し、少なくともその抽出された区間を含む所定範囲を形態素解析して、その形態素解析結果を用いて意味のある内容として抽出することを特徴とする請求項22に記載の文書分類装置。
  24. 前記出力内容に対する詳細な文書内容を当該出力内容にリ ンクして設け、所定部分がユーザによって指示されることにより、前記詳細な文書内容を出力可能とし、その詳細な文書内容において、キーワード出現密度の特に高い部分については、その部分の表示の仕方を他の部分と異ならせることを特徴とする請求項22または23に記載の文書分類装置。
  25. ユーザの検索要求に基づいて多数の文書群の文書を分類して、その分類結果を出力するコンピュータに、
    複数の処理対象文書をそれぞれの処理対象文書ごとに1次元文字列に展開する手順、
    前記ユーザの検索要求に基づくキーワードの出現位置を前記1次元文字列上において特定するとともに、その1次元文字列上で所定の範囲を重み付け範囲として設定し、その重み付け範囲の中心文字位置付近におけるキーワードの出現に対しては重みを重くし中心から離れるに従って重みを軽くするような重み付け関数を用いて前記設定された重み付け範囲の中心文字位置に対するキーワード出現密度を前記中心文字位置をずらしながら順次算出する手順、
    これによって求められたキーワード出現密度に基づいて前記処理対象文書の前記1次元文字列上におけるキーワード出現密度分布を得て、このキーワード出現密度分布から前記ユーザ検索要求に対する当該文書の有用度を求める手順、
    前記処理対象文書ごとに得られた前記ユーザ検索要求に対する有用度として、当該処理対象文書において算出されたキーワード出現密度に基づき、そのエントロピを計算して求める手順、
    を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP33738998A 1998-11-27 1998-11-27 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 Expired - Fee Related JP3829506B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33738998A JP3829506B2 (ja) 1998-11-27 1998-11-27 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33738998A JP3829506B2 (ja) 1998-11-27 1998-11-27 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000163437A JP2000163437A (ja) 2000-06-16
JP3829506B2 true JP3829506B2 (ja) 2006-10-04

Family

ID=18308181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33738998A Expired - Fee Related JP3829506B2 (ja) 1998-11-27 1998-11-27 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3829506B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765726A (zh) * 2015-04-27 2015-07-08 湘潭大学 一种基于信息密度的数据分类方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288203A (ja) * 2001-03-23 2002-10-04 Ntt Software Corp 情報検索方法及びシステム及び情報検索プログラム及び情報検索プログラムを格納した記憶媒体
JP4843867B2 (ja) * 2001-05-10 2011-12-21 ソニー株式会社 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
JP4202287B2 (ja) * 2004-03-15 2008-12-24 公策 大久保 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステム及びそのためのコンピュータソフトウエア
JP4747591B2 (ja) * 2005-01-31 2011-08-17 日本電気株式会社 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP4513098B2 (ja) * 2005-03-10 2010-07-28 日本電信電話株式会社 評判情報取得装置、評判情報取得方法、プログラムおよび記憶媒体
JP2007172179A (ja) * 2005-12-20 2007-07-05 Nec Corp 意見抽出装置、意見抽出方法、および意見抽出プログラム
JP5450699B2 (ja) * 2012-03-13 2014-03-26 株式会社東芝 文書分析装置および文書分析プログラム
KR101764479B1 (ko) 2015-03-03 2017-08-03 단국대학교 산학협력단 장르 분석 장치 및 방법
JPWO2018235326A1 (ja) * 2017-06-23 2020-04-23 大日本印刷株式会社 コンピュータプログラム、フォント切替装置及びフォント切替方法
JP7324577B2 (ja) * 2018-10-24 2023-08-10 Solize株式会社 テキスト処理方法及び、テキスト処理装置
CN115905506B (zh) * 2023-02-21 2023-05-16 江西省科技事务中心 基础理论文件推送方法、***、计算机及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765726A (zh) * 2015-04-27 2015-07-08 湘潭大学 一种基于信息密度的数据分类方法
CN104765726B (zh) * 2015-04-27 2018-07-31 湘潭大学 一种基于信息密度的数据分类方法

Also Published As

Publication number Publication date
JP2000163437A (ja) 2000-06-16

Similar Documents

Publication Publication Date Title
US7213205B1 (en) Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
US9183227B2 (en) Cross-media similarity measures through trans-media pseudo-relevance feedback and document reranking
US8027977B2 (en) Recommending content using discriminatively trained document similarity
US6442540B2 (en) Information retrieval apparatus and information retrieval method
EP2515242B1 (en) Incorporating lexicon knowledge to improve sentiment classification
US7958128B2 (en) Query-independent entity importance in books
WO2009154153A1 (ja) 文書検索システム
EP2019361A1 (en) A method and apparatus for extraction of textual content from hypertext web documents
JP4521343B2 (ja) 文書処理装置及び文書処理方法
JP4595692B2 (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP3829506B2 (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
KR20080058356A (ko) 시맨틱 토픽의 자동화된 리치 프레젠테이션을 위한컴퓨터-구현 방법 및 컴퓨팅 장치
JP2008511075A5 (ja)
JP2003281186A (ja) 類似性判断のための例題ベース検索方法及び検索システム
US20040158558A1 (en) Information processor and program for implementing information processor
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
JP5146108B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP4606349B2 (ja) 話題画像抽出方法及び装置及びプログラム
JP2004206391A (ja) 文書情報分析装置
JP2011048527A (ja) 感性情報抽出装置、感性検索装置、その方法およびプログラム
CN111831884B (zh) 一种基于信息查找的匹配***与方法
JP7427510B2 (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051206

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060322

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060703

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100721

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110721

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110721

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120721

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120721

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130721

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees