JP2008077252A

JP2008077252A - 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体

Info

Publication number: JP2008077252A
Application number: JP2006253606A
Authority: JP
Inventors: Eiji Kenmochi; 栄治剣持; Atsuo Shimada; 敦夫嶋田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2006-09-19
Filing date: 2006-09-19
Publication date: 2008-04-03

Abstract

【課題】文書の話題の量や密度に関連した基準で文書を順位付けできる文書ランキング方法を提供する。
【解決手段】ステップＳ１において文書を入力する文書入力処理を実行する。次にステップＳ２において文書データベース１１を利用して文書から形態素を抽出する形態素解析処理を実行し、ステップＳ３において文書から単文を抽出する単文抽出処理を実行する。次にステップＳ４において単文抽出処理により抽出した単文間の類似度を算出する単文間類似度算出処理を実行し、続くステップＳ５において文書データベース１１を利用して単文の類似関係と単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出処理を実行する。この後ステップＳ６において抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書間スコア算出処理を実行して処理を終える。
【選択図】図３

Description

本発明は、文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体に関わり、文書検索や文書分類など自然言語処理をベースとした文書処理システムに好適なものである。

近年、ＷＷＷ（World Wide Web）などのインターネット技術の発達に伴い、容易に大量の文書データにアクセスすることが可能になり、大量の文書データの中から興味のある文書データのみを探し出す技術として様々な文書検索技術が提案・利用されてきている。
例えば、代表的なWorld Wide Web（以下、「ＷＷＷ」と称する）上の検索システムであるｇｏｏｇｌｅの検索結果に見られるように、検索結果はユーザの利便性のため、問い合わせ語との類似性に応じてランキングされ、提示される。

しかしながら、特許文献１において指摘されているように、検索の問い合わせ語数が少なかったり、一般的な語句である場合は大量の検索結果が取得されてしまったり、また急速なＷＷＷの発達により問い合わせ語に適合する文書の数が本質的に増加しているなどの理由により、検索結果もまた大量になってしまい、結果として検索結果を有効に活用することが困難な状況が増えてきている。
このような問題を解決するための方法として、特許文献１、２等があり、検索結果の文書間のリンク構造解析により検索結果を再ランキングすることで、適切な検索結果を提供する手法を提案している。即ち、前述の発明では、検索システムなどで集められた一定の基準（類似検索システムの場合は、問い合わせ語と検索対象文書とのマッチング類似度）を満たす文書集合に対し、異なる基準で再ランキングすることによって、検索結果利用の利便性が高くなることが示されている。
米国特許第６７２５２５９号米国特許第６７３８６７８号特許第３６１２５９７号特開２００４−２３４２８４公報

ところで、例えば、図１は“郵政民営化ａｎｄ取りまとめ”という問い合わせ語で、ｇｏｏｇｌｅで検索した結果の一例であるが、検索結果の文書の長さには差異があることがわかる。なお、前記問い合わせ語中の「ａｎｄ」は、アンド検索を示す。さらに、この結果より、問い合わせ語に対応する“話題”に関連する領域の大きさ、さらには詳細度も文書ごとに差異があると推察できる。
従って、検索結果の各文書で、問い合わせ語に対応する“話題”に対応する領域を抽出し、領域の大きさを話題の詳細度として比較することで、検索結果を話題の詳細度でランキングすることができ、これにより検索結果の利便性を高めることができるものと考える。

また、検索結果の文書には問い合わせ語に対応する話題だけでなく、それとは異なるが共通に存在する話題、及び話題領域も存在するはずであり、これらの情報も併せて使うことにより、個々の文書内容を考慮した豊富なランキングが提供できると考えられる。
さらに言えば、異なる文書における特定の話題領域が判明することで、もし領域の大きさが異なっていれば、ある文書が含む話題領域からみると、他の文書の話題領域は、要約であったり、詳細記述であったりと考えることができ、検索結果の再ランキングにととまらず、文書集合の分析や情報抽出にも利用可能であると考えられる。なお、単文連鎖が話題領域を、単文連接集合が単一の話題の話題領域の集合を、また単文連接集合群が、話題領域集合族を夫々示すものとする。

本発明では、文書から単文を抽出し、単文間類似度を求め、単文間類似度と単文の文書内出現位置情報から類似する単文連接集合群を抽出し、抽出した類似短文連接集合群をもとに文書間の関連度を示すスコアを算出し、算出したスコアを基に文書のランキングを行うことにより、文書の話題の量や密度に関連した基準で文書を順位付けできる文書ランキング方法及び文書ランキング装置を提供することを目的とする。また、類似検索した結果に対し、前述のランキング方法を採用することで、検索結果が、文書が含む話題の量や密度に関連した基準で順位付けされている文書検索方法及び文書検索装置を提供することも目的とする。

上記目的を達成するため、請求項１に記載の本発明は、文書を入力する文書入力ステップと、前記文書から単文を抽出する単文抽出ステップと、前記単文抽出ステップにより抽出した単文間の類似度を算出する単文間類似度算出ステップと、前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出ステップと、前記類似単文連接集合群抽出ステップにより抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出ステップとを有する文書ランキング方法を特徴とする。
請求項２に記載の本発明は、請求項１に記載の文書ランキング方法において、前記文書から形態素を抽出する形態素解析ステップをさらに有し、前記単文抽出ステップにおいて、前記形態素解析ステップにおいて解析された形態素情報に基づいて単文の抽出を行い、
前記単文間類似度算出ステップにおいて解析された形態素情報を基に単文間類似度を算出することを特徴とする。

請求項３に記載の本発明は、請求項２に記載の文書ランキング方法において、前記文書スコア算出ステップは、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする。
請求項４に記載の本発明は、請求項３に記載の文書ランキング方法と、類似する文書を検索する文書検索ステップと、検索結果を提示する検索結果提示ステップと、を有し、前記検索結果提示ステップにて提示される検索結果は、前記文書ランキング方法によって順位付けられている文書検索方法を特徴とする。
請求項５に記載の本発明は、文書を入力する文書入力手段と、前記文書から単文を抽出する単文抽出手段と、前記単文抽出手段により抽出した単文間の類似度を算出する単文間類似度算出手段と、前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出手段と、前記類似単文連接集合群抽出手段により抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出手段と、を備える文書ランキング装置を特徴とする。

請求項６に記載の本発明は、請求項５に記載の文書ランキング装置において、前記文書から形態素を抽出する形態素解析手段をさらに備え、前記単文抽出手段において、前記形態素解析手段において解析された形態素情報に基づいて単文の抽出を行い、前記単文間類似度算出手段において解析された形態素情報を基に単文間類似度を算出することを特徴とする。
請求項７に記載の本発明は、請求項６に記載の文書ランキング装置において、前記文書スコア算出手段は、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする。
請求項８に記載の本発明は、請求項７に記載の文書ランキング装置において、文書情報データベースを備え、前記文書入力手段にて入力される文書の識別子、前記形態素解析手段にて抽出された文書の形態素解析結果、前記単文抽出手段で抽出された文書の単文情報、前記単文間類似度算出手段で算出された単文間類似度、前記類似単文連接集合群抽出手段で抽出された類似単文連接集合群、及び前記文書スコア算出手段で算出された文書スコアを夫々適切な形式で前記文書データベースに記憶することを特徴とする。

請求項９に記載の本発明は、請求項８に記載の文書ランキング装置と、類似する文書を検索する文書検索手段と、前記検索結果を提示する検索結果提示手段と、を備え、前記検索結果提示手段により提示される検索結果が前記文書ランキング装置によって順位付けられていることを特徴とする。
請求項１０に記載の本発明は、請求項１乃至３の何れか１項に記載した文書ランキング方法を実行するプログラムがコンピュータの読み取り可能な形式により記録されている記録媒体を特徴とする。
請求項１１に記載の本発明は、請求項４に記載した文書検索方法を実行するプログラムがコンピュータの読み取り可能な形式により記録されている記録媒体を特徴とする。

本発明によれば、文書の話題の量や密度に関連した基準で文書を順位付けできるランキング方法を提供することができる。
また類似文書を検索した結果に対し、前述のランキング方法を採用することで、検索結果が、文書が含む話題の量や密度に関連した基準で順位付けされている類似文書検索方法を提供するができる。

以下、図面を参照しながら本発明の実施形態を説明する。
図２は本発明の一実施形態である情報抽出装置の構成例である。
この図２に示す情報抽出装置はコンピュータにより構成され、文書を登録する入力手段としてのキーボード２、外部からの信号を受信したり、本実施形態の情報抽出装置から信号を送信したりする通信手段である通信Ｉ／Ｏインターフェース３、本実施形態の情報抽出装置における処理を集中して実行するＣＰＵ４、メモリ（揮発性のＲＡＭと不揮発性のＲＯＭとどちらも想定可能）５、記憶手段としてのハードディスク６、出力手段としてのディスプレイ７やプリンター８などを有する。通信Ｉ／Ｏインターフェース３は、モデムやターミナルアダプタなどが想定でき、通信回線を介してイントラネットまたはインターネット１０に接続されているサーバなどからデータを受信できる。ＣＰＵ４は、メモリ５に記録された手順に従ってプログラムを実行する。

図３は、本実施形態の情報抽出装置が実行する文書ランキング処理を示したフローチャートである。なお、図３に示す処理は、図２に示すＣＰＵ４がメモリ５に記録された手順に従ってプログラムを実行することにより実現されるものである。
この場合、ＣＰＵ４は、先ずステップＳ１において文書を入力する文書入力処理を実行する。次にステップＳ２において文書データベース１１を利用して文書から形態素を抽出する形態素解析処理を実行し、ステップＳ３において文書から単文を抽出する単文抽出処理を実行する。次に、ステップＳ４において単文抽出処理により抽出した単文間の類似度を算出する単文間類似度算出処理を実行し、続くステップＳ５において文書データベース１１を利用して単文の類似関係と単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出処理を実行する。この後、ステップＳ６において抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書間スコア算出処理を実行して処理を終えるようにしている。

また図４は本実施形態の情報抽出装置が実行する文書検索処理を示したフローチャートである。なお、図４に示す処理は、図２に示すＣＰＵ４がメモリ５に記録された手順に従ってプログラムを実行することにより実現されるものである。
この場合、ＣＰＵ４はステップＳ１１においてさらに類似する文書を検索する文書検索処理を実行し、続くステップＳ１２において図３に示したような文書ランキング方法により文書ランキング処理を実行した後、ステップＳ１３において、検索結果提示処理にて提示処理を実行するようにしている。この場合、検索提示処理により提示される検索結果は、検索結果の文書に上記図３に示した文書ランキング方法を適用することによって順位付けを行うようにしている。

以下、上記した各処理について詳細に説明する。
＜文書入力処理＞
本実施形態では、文書は、ユーザやアプリケーションによって１つの単位として定められる文字列と定義する。ここでは、図１の文書１から文書４の夫々を文書とし、これらの文書データが適切な形式で入力されるものとする。
入力した文書夫々に固有の識別番号を与える。即ち、文書１から文書４までの文書データの識別番号１から４までの数字を与え、これを文書情報データベースに記録する。
なお、文書情報データベースは、図２に示したハードディスク６などの補助記憶装置上に構築しても良いし、またメモリ５等の主記憶上に構築してもよい。

＜形態素解析処理＞
上記ステップＳ２における形態素解析処理（文書解析処理）では、入力された文書に対し形態素解析処理を施し、文書から形態素列を抽出する。なお、本実施形態では、日本語文書を例示に用いているため、日本語形態素解析処理の動作例を示すが、文書は英語その他外国語であってもよく、その際は、対応する形態素解析システムを用いればよい。
文書識別子１（文書１）の文書の一部、“小泉純一郎首相は２５日午前、武部勤自民党幹事長と首相官邸で会い、”というテキストに対し形態素解析を適用した結果を図５に示す。なお、本発明においては特別な形態素解析システムは必要とせず、形態素と品詞情報が得られるものであればいずれのものでも利用してよい。例えば、日本語形態素解析システムとしては、茶筅（http://chasen.naist.jp/hiki/ChaSen/）が良く知られている。

図５において、各行が各形態素に対応し、形態素の情報として、表記、品詞情報、及び識別子を記述している。
本実施形態では形態素の品詞として、一般的に自立語品詞とされるものと付属語品詞とされているものの大別を行い、付属語品詞は記号“付”を割り当てている。さらに、自立語品詞は、名詞、未登録語など体言系品詞とされるものは記号“自体”を、動詞、形容動詞など用言系品詞とされるものは記号“自用”を、また、記号は付属語にするが、例外として、句点は記号“句点”を、読点は記号“読点”を割り当てている。
形態素識別子は、形態素の表記と品詞情報が共に異なる場合に異なる識別子を与えているが、簡単のため形態素解析システムが提供する識別子を用いてもよい。
明示しないが文書１の残りのテキストと他の文書についても形態素解析を適用し、解析結果は適切な形式で文書情報データベースに記録される。

形態素解析処理で生成されるデータの一例として、図６に文書情報テーブル、図７に文書識別子１の形態素リストテーブル、及び図８に形態素情報テーブルの一例を夫々示す。
図６に示す文書情報テーブルは、文書に布置された文書識別子と文書に対応する形態素リストテーブルの形態素リスト識別子、及び文書に対応する単文リストテーブルの単文リスト識別子で構成されている。本実施形態では、文書識別子、形態素リスト識別子及び単文リスト識別子として数値を用い、かつ同一の値を布置しているが、識別子は異なる固有な数値でも、固有な文字情報でもよい。
図７に示す形態素リストテーブルは、個々の文書を構成する全ての形態素識別子により構成されており、出現順にリスト化される。形態素リストの形態素識別子を、図８に示す形態素情報テーブルを参照し、昇順に展開することで、文書を再現することができる。
従って、本データを保持していれば、オリジナルの文書データを文書情報データベースに記憶しておく必要はない。また、形態素リスト識別子の頻度を求めることで、文書内の形態素頻度情報を簡単に求めることもできる。

図８に示す形態素情報テーブルは、文書から抽出される形態素の識別子、表記、及び品詞情報より構成されており、同一の表記及び品詞情報を持つ形態素のエントリは高々１つである。また、形態素情報テーブルは、全形態素識別子リストテーブルから共有される。
本実施形態では、全文書の解析結果が、図６〜図８に示すテーブル形式で、文書情報データベースに記録されるものとする。

＜単文抽出処理＞
ステップＳ３における単文抽出処理では、入力された文書から単文を抽出する。本実施形態では文書の形態素列に対する規則をもとに単文の範囲を決定する動作例を示すが、形態素解析を行わず文書文字列に対し直接作用させる規則を用いて単文の範囲を求めてもよい。単文の範囲を決定するために、（式１）に記載の形態素品詞に関する正規表現規則を用いる。
（式１）

なお、式１において“［］”はクラスを、“＾”はクラス文字の否定を、“＋”は１つ以上の連続を、また“｜”は選択を夫々示している。（なお、正規表現については“詳説正規表現第２版”［ＩＳＢＮ４−８７３１１−１３０−７］等を参照すれば良い。

式１は、品詞が句点でも読点でもない品詞の形態素列と、それに続く品詞が自用の形態素と句点の形態素列か、品詞が読点の形態素からなる形態素列にマッチングする正規表現である。
この規則を文書１の形態素解析結果に適用することで求められる単文を図９に示す。文書１からは２つの単文が抽出されており、各単文には固有の識別子を付置している。なお、単文の上段は形態素表記、下段は形態素品詞であり、また視認性にため各形態素には空白の区切りを入れている。
明示しないが文書２から文書４においても単文の抽出を実施し、その結果を図１０に示す。文書１からは文書識別子１と２の２単文、文書２からは識別子３〜６の４単文、文書３からは文書識別子７〜１４の８単文、及び文書４からは文書識別子１５〜２４までの１０単文が抽出される。抽出した文書の単文情報は文書情報データベースに適切な形式で記憶する。

単文抽出処理において生成されるデータの一例として、図１１に文書識別子１の単文終端位置リストテーブルを示す。
単文は文書内で連続して出現するため、文書における単文の終端形態素の位置情報により、単文を一意に同定することができる。従って、単文終端位置リストは、単文の終端形態素の、形態素リストテーブルにおけるインデックス番号（出現位置）を、単文の出現順にリスト化したものである。
即ち、図８においては、文書１の句点の、図７のリストテーブルにおけるインデックス番号である８と、図７には明示していないが、文書１の読点のインデックス番号である３８が記載される。本実施形態では、全文書の単文抽出結果が、図１１に示すテーブル形式で、文書情報データベースに記録されるものとする。

＜単文間類似度算出処理＞
上記ステップＳ４における単文間類似度算出処理では、抽出した各単文の任意の１対の類似度を算出する。本実施形態では、各単文の品詞が自立語の形態素の頻度情報（頻度ベクトル）を用いて、単文間の類似度を（式２）に示すベクトル間の余弦として算出する動作例を示す。なお、単文の頻度ベクトルについては、図７の形態素リストテーブルと図１１の単文終端位置リストテーブルを用いれば、簡単に求めることができるので、ここではその詳細については明示しない。
（式２）

上記式２において、ｓ１とｓ２は、文書全体で固有の自立語品詞をもつ形態素数と同一の次元をもつ、夫々単文１と単文２の形態素出現頻度ベクトルであり、・はベクトルの内積を、また｜｜はベクトルのノルムを夫々示す。
なお、本実施形態で採用している単文間類似度は文書間類似度において極めて一般的なものであり、文書間類似度に関しては、様々な先行研究がなされているため、単文を文書と見なすことでそれらの類似度を導入することができる。

図１０に示す各単文の明示しない形態素頻度ベクトルを（式２）に適用して算出した結果を図１２に示す。なお、図１２における行列は、夫々単文識別子であり、行列の要素は、行と列の識別子に対応する単文間の余弦類似度であり、類似度が０．２以上の要素は背景を灰色にしている。また、本実施形態では類似度行列は対象行列になるので下三角成分と、同一単文間類似度は表示していない。例えば、単文１と単文３の類似度は、０．６３である。
図１２の単文間類似度もまた文書データベースに適切な形式で記憶する。なお、単文間類似度は、文書数が大きくなるとデータ量も膨大になるため、閾値処理を行い、閾値以下の要素値を全て０とし、疎形式のデータ構造を採用することでデータ量を削減可能である。

疎形式データの例として、図１２の単文間類似度の一部の有効行インデックスリストテーブルと列インデックス−値リストテーブルを図１３に示す。
有効行インデックスリストテーブルの各値は、図１２の行列の閾値以上の値の要素を１つ以上持つ行のインデックス番号である。また、列インデックス−値リストテーブルの各値は、有効行インデックスリストテーブルにエントリされる行の閾値以上の値と対応する列インデックス番号である。
なお、有効インデックスリストテーブルの行インデックスと対応する列インデックス−値リストテーブルの対応については、ここでは明示していないが、列インデックス−値リストテーブル自体をリスト化すれば、有効インデックスリストテーブルとは容易に１対１対応にすることができるし、有効インデックスリストテーブルの各要素に対応する列インデックス−値リストテーブルへの参照情報を持たせてもよい。
本実施形態では、全単文間類似度の算出結果が、図１３に示すテーブル形式で、文書情報データベースに記録されるものとする。

＜類似単文連接集合群抽出処理＞
上記ステップＳ５に示す類似単文連接集合群抽出処理では、抽出した単文の単文間類似度と文書における出現位置に基づき、文書内で隣接し、かつ単文間類似度が一定の値以上である単文集合を全て抽出する。本実施形態では、単文間類似度算出処理までの動作例を継承し、図１２に示される単文間類似度行列をもとに類似単文連接集合群を抽出する動作を示す。
図１２の単文間類似度行列において、類似度が０．２以上のものは１、０．２以下のものは０としたものを図１４に示す。なお、図１４において、要素値が１のものは背景を灰色、０のものは白色にしており、また各文書の境界のために線を引いている。

本実施形態では、隣接する同一文書内の単文対を要素とする集合を１つのノードと、また単文対間の類似関係をエッジと見なすことで生成されるグラフの連結成分を抽出することで単文対類似グラフを生成し、さらに各連結成分のノード対の文書内における隣接関係もとにノードの融合と連結成分の結合を行うことで類似単文連接集合群を生成する。処理フローを図１５に示す。
この場合、ＣＰＵ４は、まず、ステップＳ２１において、同一文書内の隣接する２つの短文を要素とする集合を生成する。次にステップＳ２２において生成した集合をノードとみなし、異なる文書に含まれる２つのノードを構成する単文すべてに１つ以上の類似関係が存在している場合、ノード間にエッチングを結び、グラフを生成する。そして続くステップＳ２３においてグラフが生成されたか否かの判別を行う。そしてステップＳ２３において肯定結果が得られた場合（Ｓ２３で「Ｙｅｓ」）、ステップＳ２４に進み、生成したグラフの連結成分を抽出した後、続くステップＳ２５において異なる連結成分における任意の２つのノード対において、対応する各ノードの積集合体がいずれも空でない場合、対応するノードの輪集合を新しいノードとして、グラフを連結する。そして最後にステップＳ２６において生成された各連結成分を類似短文連接集合として抽出して処理を終えるようにする。なお、ステップＳ２３において否定結果が得られた場合（Ｓ２３で「Ｎｏ」）はそのまま処理を終えることになる。

以下、具体的に説明すると、例えば、文書１では｛１、２｝が１つのノードなり、また文書２では、｛３、４｝や｛４、５｝等がノードとなる。
次に、図１４より各ノード間にエッジをひく。エッジをひく条件は、ノードを構成する単文間ですくなくとも１つ以上の単文と閾値以上の類似度を有することである（本実施形態の場合、０、２であり、図１４では要素値１が対応している）。例えば、ノード｛１、２｝とノード｛３、４｝、ノード｛１、２｝とノード｛７、８｝にエッジをひくことができる。
結果、図１４からは３つの連結成分（グラフ）を抽出でき、その結果を図１６に示す。
次に、抽出した連結成分ノード対の文書内における隣接関係もとにノードの融合と連結成分の結合を行う。

本実施形態では、ノードの融合と連結成分の結合の条件を、“異なる連結成分における任意の２つのノード対において、対応する各ノードの積集合がいずれも空でない場合、対応するノードの和集合を新しいノードとして、グラフを連結する”こととする。
図１６のグラフでは、グラフ１の｛７、８｝−｛１５、１６｝成分とグラフ２の｛８、９｝−｛１６、１７｝成分が条件を満たすノート対であるので、｛７、８｝と｛８、９｝、また｛１５、１６｝と｛１６、１７｝のノードを夫々融合し、あらたなノード｛７、８、９｝と｛１５、１６、１７｝としてグラフ１とグラフ２を結合する。
結果、図１４のグラフ１とグラフ２を結合し（グラフ１’）、その結果を図１７に示す。この図１７の各グラフが、類似単文連接集合になる。

なお、本実施形態では、初期ノードを２つの文書連続する単文としたが、初期ノードとして、１つのノードを中心とした窓関数から生成される単文集合としたり、抽出された連結成分の結合についてもよりノードの融合条件を、ノードの和集合の大きさに閾値をもうけるなどより複雑な仕組みを用いることもできる。
抽出した類似単文連接集合群は適切な形式で、文書情報データベースに記録する。
類似単文連接集合群データの一例として、図１８に前記グラフ１’及びグラフ２の情報を記載した類似単文連接集合群リストテーブルを示す。

ノード識別子は、各グラフのノードに与える識別子であり、単文識別子リストはノードを構成する単文の識別子集合であり、関係ノード識別子リストは、ノードと関係する（辺が結ばれている）他のノードのリストである。たとえば、１行目はノード｛１、２｝のものであり、識別子は１、ノードを構成する単文は文書識別子１と２、及びこのノードと関係するノードは、識別子２、３、４のノードであることを示している。なお、単文識別子リストと関係ノード識別子リストは図１１などのように別途リストテーブルを用意し、この要素にはそのテーブルへの参照情報を記述する形式をとってもよい。
本実施形態では、類似単文連接集合群の算出結果が図１８に示すテーブル形式で文書情報データベースに記録されるものとする。

＜文書スコア算出処理＞
上記図２のステップＳ６に示す文書スコア算出処理では、抽出した類似単文連接集合の情報をもとに文書スコアを算出する。本実施形態では、類似単文連接集合群までの動作例を継承し、図１７に示す類似単文連接集合群が与えられているときに、文書が含む類似単文連接集合の重要度と、類似単文連接集合に含まれる単文の割合をもとに文書スコアを算出する動作を説明する。
まず、スコアの基準として、共通する話題を多く、かつ詳しく含む文書が高いスコアを得ることを考える。１つの共通する話題を図１７における１つのグラフを見なすと、要素数の大きいノードをできるだけ多く含む文書がよいスコアをとればよく、例えば、式３のようにスコアを定式化すればよい。
（式３）

式３を基に文書１から文書４のスコアを算出すると、夫々０．６６、０．６６、２、２となり、文書３、文書４、文書１、文書２の順にランキングされる。

また、スコアの基準として、共通する話題を多く含むが、共通話題以外はできるだけ含まない文書がよいスコアを得ることを考えると、異なるグラフに属しているノード数を多く含み、またノードに属さない単文がない文書がよいスコアをとればよく、例えば、式４のようにスコアを定式化すればよい。
（式４）

式４を基に文書１から文書４のスコアを算出すると、夫々１、０．５、０．６６、０．２となり、文書１、文書３、文書２、文書４の順にランキングされる。
なお、本実施形態では上記２つの基準に基づく動作のみを例示しているが、類似単文連接集合群の情報をもとにより複雑な基準をもとにスコアを算出してもよい。

算出した文書スコアを、文書情報データベースに記録する。
図１９に文書スコアデータの例として、前記２つのスコア基準により算出した文書スコアを記載した文書スコアリストテーブルを示す。
文書スコアリストテーブルは、文書識別子、スコア基準１、及びスコア基準２からなり、スコア基準１は前記“共通する話題を多く、かつ詳しく含む文書が高いスコアを得ること”を基準とした文書のスコア値、スコア基準２は前記“共通する話題を多く含むが、共通話題以外はできるだけ含まない文書がよいスコアを得ること”を基準とした文書のスコア値である。
例えば、１行目は文書１のデータであり、識別番号は１、スコア基準１でのスコアは０．６６、スコア基準２でのスコアは１である。
なお、本実施形態では文書データのスコア値による順位付けは明示していないが、スコア値をソーティングすれば容易に求めることができる。
本実施形態では、類似単文連接集合群の算出結果が、図１９に示すテーブル形式で、文書情報データベースに記録されるものとする。
次に、ＣＰＵ４はステップＳ１３において結果提示処理を実行する。

＜文書検索処理＞
ステップＳ７に示す文書検索処理では、適切に文書の検索を行えるものであればどのようなものであってもよく、例えば前述のｇｏｏｇｌｅの検索結果を適用すればよい。
例えば、文書検索処理で取得した検索結果として、文書のＵＲＬが取得されている場合、ｗｇｅｔ(例えば、http://wget.sunsite.dk/を参照)等の既知のＨＴＭＬ文書取得ツールを用いることで、ＨＴＭＬ文書を取得し、さらにhtml2text(例えば、http://search.cpan.org/~awrigley/html2text-0.003/html2text.plを参照)等の既知のＨＴＭＬ文書をプレーンテキストに変換するツールを用いることで、取得したＨＴＭＬ文書をプレーンテキストに変換する。そして、取得した検索結果のプレーンテキストを前記文書データベースに登録する。

＜結果提示処理＞
例えば、図２０に前記文書１から文書４のランキングの表示例を示す。
図２０では、文書１から文書４（行方向）までのランキング（列方向）が示されており、”問い合わせ語の一致”は、問い合わせ語：“郵政民営化ａｎｄ取りまとめ”の各文書内でのマッチング頻度によるランキング、“話題の豊富さ”は前記スコア基準１によるランキング、“異なる内容”は前記スコア基準２によるランキングであり、中心から左に行くほどランキング値が高くなっている。
なお、本実施形態において、”問い合わせ語の一致”のランキング結果は、明示しない全文検索システム：Ｎａｍａｚｕ（http://www.namazu.org）を用いて算出している。
例えば、“問い合わせ語の一致”は文書１から文書４までともに同じランキング値であるが、“話題の豊富さ”では前記のとおり、文書３、文書４、文書１、文書２の順にランキングされる。従って、図２０によれば、ユーザは多面的な基準でのランキングを一覧でき、所望の文書の閲覧を支援できるといえる。

また、図２１〜図２３に、図２０において前記３つのランキング基準で、文書３を選択した場合の表示例を示す。
図２１は“問い合わせの一致”基準での文書３であり、この基準における重要部として問い合わせ語にマッチングした部分が強調表示されている。また、図２２は“話題の豊富さ”基準での文書３であり、この基準における重要部、即ち検索された文書群内での共通話題部分、として前記類似単文連接集合群を構成するノードに含まれる単文が強調表示されている。また、図２３は“異なる内容”基準での文書３であり、この基準における重要部、即ち検索された文書群内での共通話題以外の部分、として前記類似単文連接集合群を構成するノードに含まれない単文が強調表示されている。これにより、ユーザは、各基準における文書内での重要部を閲覧することもできる。

なお、図２２では前記類似単文連接集合群の情報を用いているので、他の文書への参照情報を同様に表示することで、より分析的な閲覧が可能になる。
結果、本発明により、文書の話題の量や密度に関連した基準で文書を順位付けできるランキング方法を提供することで、ユーザが検索結果などの文書群を多面的な観点から閲覧・分析することが可能となる。
なお、前述した情報抽出装置の各機能をコンピュータに実行させるためのプログラムを記録した、コンピュータ読み取り可能なフロッピディスクや光ディスク等の記録媒体を作成することもできる。その記録媒体を汎用のパーソナルコンピュータ等のフロッピィディスク装置やＣＤ−ＲＯＭリーダ等の光ディスク装置に装着して、そこに記録されているプログラムを読み取って内部のハードディスク等の記録装置にインストールさせることにより、この発明による情報抽出装置として機能を持たせることが可能となる。

ｇｏｏｇｌｅで検索した結果の一例を示した図である。本発明の一実施形態である情報抽出装置を実現するコンピュータの構成例を示した図である。本実施形態の情報抽出装置が実行する文書ランキング処理を示したフローチャートである。本実施形態の情報抽出装置が実行する他の処理を示したフローチャートである。形態素解析を適用した結果の一例を示した図である。文書情報テーブルの一例を示した図である。文書識別子１の形態素リストテーブルの一例を示した図である。形態素情報テーブルの一例を示した図である。規則を文書１の形態素解析結果に適用することで求められる単文を示した図である。文書２から文書４においても単文の抽出を実施したときの結果を示した図である。文書識別子１の単文終端位置リストテーブルを示した図である。図１０に示す各単文の明示しない形態素頻度ベクトルを（式２）に適用して算出した結果を示した図である。図１２の単文間類似度の一部の有効行インデックスリストテーブルと列インデックス−値リストテーブルを示した図である。図１２の単文間類似度行列において、類似度が０．２以上のものは１、０．２以下のものは０としたものを示した図である。類似単文連接集合群を生成する処理フローを示した図である。３つの連結成分の抽出結果を示した図である。グラフ１とグラフ２の結合結果を示した図である。グラフ１’及びグラフ２の情報を記載した類似単文連接集合群リストテーブルを示した図である。文書スコアリストテーブルを示した図である。文書１から文書４のランキングの表示例を示した図である。文書３を選択した場合の表示例を示した図である。文書３を選択した場合の表示例を示した図である。文書３を選択した場合の表示例を示した図である。

符号の説明

２…キーボード、３…通信Ｉ／Ｏインターフェース、４…ＣＰＵ、５…メモリ、６…ハードディスク、７…ディスプレイ、８…プリンター、１０…インターネット、１１…文書データベース

Claims

文書を入力する文書入力ステップと、
前記文書から単文を抽出する単文抽出ステップと、
前記単文抽出ステップにより抽出した単文間の類似度を算出する単文間類似度算出ステップと、
前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出ステップと、
前記類似単文連接集合群抽出ステップにより抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出ステップと、
を有することを特徴とする文書ランキング方法。
請求項１に記載の文書ランキング方法において、
前記文書から形態素を抽出する形態素解析ステップをさらに有し、
前記単文抽出ステップにおいて、前記形態素解析ステップにおいて解析された形態素情報に基づいて単文の抽出を行い、
前記単文間類似度算出ステップにおいて解析された形態素情報を基に単文間類似度を算出することを特徴とする文書ランキング方法。
請求項２に記載の文書ランキング方法において、
前記文書スコア算出ステップは、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする文書ランキング方法。
請求項３に記載の文書ランキング方法と、
類似する文書を検索する文書検索ステップと、
検索結果を提示する検索結果提示ステップと、を有し、
前記検索結果提示ステップにて提示される検索結果は、前記文書ランキング方法によって順位付けられていることを特徴とする文書検索方法。
文書を入力する文書入力手段と、
前記文書から単文を抽出する単文抽出手段と、
前記単文抽出手段により抽出した単文間の類似度を算出する単文間類似度算出手段と、
前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出手段と、
前記類似単文連接集合群抽出手段により抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出手段と、
を備えることを特徴とする文書ランキング装置。
請求項５に記載の文書ランキング装置において、
前記文書から形態素を抽出する形態素解析手段をさらに備え、
前記単文抽出手段において、前記形態素解析手段において解析された形態素情報に基づいて単文の抽出を行い、前記単文間類似度算出手段において解析された形態素情報を基に単文間類似度を算出することを特徴とする文書ランキング装置。
請求項６に記載の文書ランキング装置において、
前記文書スコア算出手段は、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする文書ランキング装置。
請求項７に記載の文書ランキング装置において、
文書情報データベースを備え、
前記文書入力手段にて入力される文書の識別子、前記形態素解析手段にて抽出された文書の形態素解析結果、前記単文抽出手段で抽出された文書の単文情報、前記単文間類似度算出手段で算出された単文間類似度、前記類似単文連接集合群抽出手段で抽出された類似単文連接集合群、及び前記文書スコア算出手段で算出された文書スコアを夫々適切な形式で前記文書データベースに記憶することを特徴とする文書ランキング装置。
請求項８に記載の文書ランキング装置と、
類似する文書を検索する文書検索手段と、前記検索結果を提示する検索結果提示手段と、を備え、前記検索結果提示手段により提示される検索結果が前記文書ランキング装置によって順位付けられていることを特徴とする文書検索装置。
請求項１乃至３の何れか１項に記載した文書ランキング方法を実行するプログラムがコンピュータの読み取り可能な形式により記録されていることを特徴とする記録媒体。
請求項４に記載した文書検索方法を実行するプログラムがコンピュータの読み取り可能な形式により記録されていることを特徴とする記録媒体。