JP2008077252A - 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 - Google Patents

文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 Download PDF

Info

Publication number
JP2008077252A
JP2008077252A JP2006253606A JP2006253606A JP2008077252A JP 2008077252 A JP2008077252 A JP 2008077252A JP 2006253606 A JP2006253606 A JP 2006253606A JP 2006253606 A JP2006253606 A JP 2006253606A JP 2008077252 A JP2008077252 A JP 2008077252A
Authority
JP
Japan
Prior art keywords
document
sentence
single sentence
similarity
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006253606A
Other languages
English (en)
Inventor
Eiji Kenmochi
栄治 剣持
Atsuo Shimada
敦夫 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006253606A priority Critical patent/JP2008077252A/ja
Publication of JP2008077252A publication Critical patent/JP2008077252A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書の話題の量や密度に関連した基準で文書を順位付けできる文書ランキング方法を提供する。
【解決手段】ステップS1において文書を入力する文書入力処理を実行する。次にステップS2において文書データベース11を利用して文書から形態素を抽出する形態素解析処理を実行し、ステップS3において文書から単文を抽出する単文抽出処理を実行する。次にステップS4において単文抽出処理により抽出した単文間の類似度を算出する単文間類似度算出処理を実行し、続くステップS5において文書データベース11を利用して単文の類似関係と単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出処理を実行する。この後ステップS6において抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書間スコア算出処理を実行して処理を終える。
【選択図】図3

Description

本発明は、文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体に関わり、文書検索や文書分類など自然言語処理をベースとした文書処理システムに好適なものである。
近年、WWW(World Wide Web)などのインターネット技術の発達に伴い、容易に大量の文書データにアクセスすることが可能になり、大量の文書データの中から興味のある文書データのみを探し出す技術として様々な文書検索技術が提案・利用されてきている。
例えば、代表的なWorld Wide Web(以下、「WWW」と称する)上の検索システムであるgoogleの検索結果に見られるように、検索結果はユーザの利便性のため、問い合わせ語との類似性に応じてランキングされ、提示される。
しかしながら、特許文献1において指摘されているように、検索の問い合わせ語数が少なかったり、一般的な語句である場合は大量の検索結果が取得されてしまったり、また急速なWWWの発達により問い合わせ語に適合する文書の数が本質的に増加しているなどの理由により、検索結果もまた大量になってしまい、結果として検索結果を有効に活用することが困難な状況が増えてきている。
このような問題を解決するための方法として、特許文献1、2等があり、検索結果の文書間のリンク構造解析により検索結果を再ランキングすることで、適切な検索結果を提供する手法を提案している。即ち、前述の発明では、検索システムなどで集められた一定の基準(類似検索システムの場合は、問い合わせ語と検索対象文書とのマッチング類似度)を満たす文書集合に対し、異なる基準で再ランキングすることによって、検索結果利用の利便性が高くなることが示されている。
米国特許第6725259号 米国特許第6738678号 特許第3612597号 特開2004−234284公報
ところで、例えば、図1は“郵政民営化and取りまとめ”という問い合わせ語で、googleで検索した結果の一例であるが、検索結果の文書の長さには差異があることがわかる。なお、前記問い合わせ語中の「and」は、アンド検索を示す。さらに、この結果より、問い合わせ語に対応する“話題”に関連する領域の大きさ、さらには詳細度も文書ごとに差異があると推察できる。
従って、検索結果の各文書で、問い合わせ語に対応する“話題”に対応する領域を抽出し、領域の大きさを話題の詳細度として比較することで、検索結果を話題の詳細度でランキングすることができ、これにより検索結果の利便性を高めることができるものと考える。
また、検索結果の文書には問い合わせ語に対応する話題だけでなく、それとは異なるが共通に存在する話題、及び話題領域も存在するはずであり、これらの情報も併せて使うことにより、個々の文書内容を考慮した豊富なランキングが提供できると考えられる。
さらに言えば、異なる文書における特定の話題領域が判明することで、もし領域の大きさが異なっていれば、ある文書が含む話題領域からみると、他の文書の話題領域は、要約であったり、詳細記述であったりと考えることができ、検索結果の再ランキングにととまらず、文書集合の分析や情報抽出にも利用可能であると考えられる。なお、単文連鎖が話題領域を、単文連接集合が単一の話題の話題領域の集合を、また単文連接集合群が、話題領域集合族を夫々示すものとする。
本発明では、文書から単文を抽出し、単文間類似度を求め、単文間類似度と単文の文書内出現位置情報から類似する単文連接集合群を抽出し、抽出した類似短文連接集合群をもとに文書間の関連度を示すスコアを算出し、算出したスコアを基に文書のランキングを行うことにより、文書の話題の量や密度に関連した基準で文書を順位付けできる文書ランキング方法及び文書ランキング装置を提供することを目的とする。また、類似検索した結果に対し、前述のランキング方法を採用することで、検索結果が、文書が含む話題の量や密度に関連した基準で順位付けされている文書検索方法及び文書検索装置を提供することも目的とする。
上記目的を達成するため、請求項1に記載の本発明は、文書を入力する文書入力ステップと、前記文書から単文を抽出する単文抽出ステップと、前記単文抽出ステップにより抽出した単文間の類似度を算出する単文間類似度算出ステップと、前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出ステップと、前記類似単文連接集合群抽出ステップにより抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出ステップとを有する文書ランキング方法を特徴とする。
請求項2に記載の本発明は、請求項1に記載の文書ランキング方法において、前記文書から形態素を抽出する形態素解析ステップをさらに有し、前記単文抽出ステップにおいて、前記形態素解析ステップにおいて解析された形態素情報に基づいて単文の抽出を行い、
前記単文間類似度算出ステップにおいて解析された形態素情報を基に単文間類似度を算出することを特徴とする。
請求項3に記載の本発明は、請求項2に記載の文書ランキング方法において、前記文書スコア算出ステップは、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする。
請求項4に記載の本発明は、請求項3に記載の文書ランキング方法と、類似する文書を検索する文書検索ステップと、検索結果を提示する検索結果提示ステップと、を有し、前記検索結果提示ステップにて提示される検索結果は、前記文書ランキング方法によって順位付けられている文書検索方法を特徴とする。
請求項5に記載の本発明は、文書を入力する文書入力手段と、前記文書から単文を抽出する単文抽出手段と、前記単文抽出手段により抽出した単文間の類似度を算出する単文間類似度算出手段と、前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出手段と、前記類似単文連接集合群抽出手段により抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出手段と、を備える文書ランキング装置を特徴とする。
請求項6に記載の本発明は、請求項5に記載の文書ランキング装置において、前記文書から形態素を抽出する形態素解析手段をさらに備え、前記単文抽出手段において、前記形態素解析手段において解析された形態素情報に基づいて単文の抽出を行い、前記単文間類似度算出手段において解析された形態素情報を基に単文間類似度を算出することを特徴とする。
請求項7に記載の本発明は、請求項6に記載の文書ランキング装置において、前記文書スコア算出手段は、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする。
請求項8に記載の本発明は、請求項7に記載の文書ランキング装置において、文書情報データベースを備え、前記文書入力手段にて入力される文書の識別子、前記形態素解析手段にて抽出された文書の形態素解析結果、前記単文抽出手段で抽出された文書の単文情報、前記単文間類似度算出手段で算出された単文間類似度、前記類似単文連接集合群抽出手段で抽出された類似単文連接集合群、及び前記文書スコア算出手段で算出された文書スコアを夫々適切な形式で前記文書データベースに記憶することを特徴とする。
請求項9に記載の本発明は、請求項8に記載の文書ランキング装置と、類似する文書を検索する文書検索手段と、前記検索結果を提示する検索結果提示手段と、を備え、前記検索結果提示手段により提示される検索結果が前記文書ランキング装置によって順位付けられていることを特徴とする。
請求項10に記載の本発明は、請求項1乃至3の何れか1項に記載した文書ランキング方法を実行するプログラムがコンピュータの読み取り可能な形式により記録されている記録媒体を特徴とする。
請求項11に記載の本発明は、請求項4に記載した文書検索方法を実行するプログラムがコンピュータの読み取り可能な形式により記録されている記録媒体を特徴とする。
本発明によれば、文書の話題の量や密度に関連した基準で文書を順位付けできるランキング方法を提供することができる。
また類似文書を検索した結果に対し、前述のランキング方法を採用することで、検索結果が、文書が含む話題の量や密度に関連した基準で順位付けされている類似文書検索方法を提供するができる。
以下、図面を参照しながら本発明の実施形態を説明する。
図2は本発明の一実施形態である情報抽出装置の構成例である。
この図2に示す情報抽出装置はコンピュータにより構成され、文書を登録する入力手段としてのキーボード2、外部からの信号を受信したり、本実施形態の情報抽出装置から信号を送信したりする通信手段である通信I/Oインターフェース3、本実施形態の情報抽出装置における処理を集中して実行するCPU4、メモリ(揮発性のRAMと不揮発性のROMとどちらも想定可能)5、記憶手段としてのハードディスク6、出力手段としてのディスプレイ7やプリンター8などを有する。通信I/Oインターフェース3は、モデムやターミナルアダプタなどが想定でき、通信回線を介してイントラネットまたはインターネット10に接続されているサーバなどからデータを受信できる。CPU4は、メモリ5に記録された手順に従ってプログラムを実行する。
図3は、本実施形態の情報抽出装置が実行する文書ランキング処理を示したフローチャートである。なお、図3に示す処理は、図2に示すCPU4がメモリ5に記録された手順に従ってプログラムを実行することにより実現されるものである。
この場合、CPU4は、先ずステップS1において文書を入力する文書入力処理を実行する。次にステップS2において文書データベース11を利用して文書から形態素を抽出する形態素解析処理を実行し、ステップS3において文書から単文を抽出する単文抽出処理を実行する。次に、ステップS4において単文抽出処理により抽出した単文間の類似度を算出する単文間類似度算出処理を実行し、続くステップS5において文書データベース11を利用して単文の類似関係と単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出処理を実行する。この後、ステップS6において抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書間スコア算出処理を実行して処理を終えるようにしている。
また図4は本実施形態の情報抽出装置が実行する文書検索処理を示したフローチャートである。なお、図4に示す処理は、図2に示すCPU4がメモリ5に記録された手順に従ってプログラムを実行することにより実現されるものである。
この場合、CPU4はステップS11においてさらに類似する文書を検索する文書検索処理を実行し、続くステップS12において図3に示したような文書ランキング方法により文書ランキング処理を実行した後、ステップS13において、検索結果提示処理にて提示処理を実行するようにしている。この場合、検索提示処理により提示される検索結果は、検索結果の文書に上記図3に示した文書ランキング方法を適用することによって順位付けを行うようにしている。
以下、上記した各処理について詳細に説明する。
<文書入力処理>
本実施形態では、文書は、ユーザやアプリケーションによって1つの単位として定められる文字列と定義する。ここでは、図1の文書1から文書4の夫々を文書とし、これらの文書データが適切な形式で入力されるものとする。
入力した文書夫々に固有の識別番号を与える。即ち、文書1から文書4までの文書データの識別番号1から4までの数字を与え、これを文書情報データベースに記録する。
なお、文書情報データベースは、図2に示したハードディスク6などの補助記憶装置上に構築しても良いし、またメモリ5等の主記憶上に構築してもよい。
<形態素解析処理>
上記ステップS2における形態素解析処理(文書解析処理)では、入力された文書に対し形態素解析処理を施し、文書から形態素列を抽出する。なお、本実施形態では、日本語文書を例示に用いているため、日本語形態素解析処理の動作例を示すが、文書は英語その他外国語であってもよく、その際は、対応する形態素解析システムを用いればよい。
文書識別子1(文書1)の文書の一部、“小泉純一郎首相は25日午前、武部勤自民党幹事長と首相官邸で会い、”というテキストに対し形態素解析を適用した結果を図5に示す。なお、本発明においては特別な形態素解析システムは必要とせず、形態素と品詞情報が得られるものであればいずれのものでも利用してよい。例えば、日本語形態素解析システムとしては、茶筅(http://chasen.naist.jp/hiki/ChaSen/)が良く知られている。
図5において、各行が各形態素に対応し、形態素の情報として、表記、品詞情報、及び識別子を記述している。
本実施形態では形態素の品詞として、一般的に自立語品詞とされるものと付属語品詞とされているものの大別を行い、付属語品詞は記号“付”を割り当てている。さらに、自立語品詞は、名詞、未登録語など体言系品詞とされるものは記号“自体”を、動詞、形容動詞など用言系品詞とされるものは記号“自用”を、また、記号は付属語にするが、例外として、句点は記号“句点”を、読点は記号“読点”を割り当てている。
形態素識別子は、形態素の表記と品詞情報が共に異なる場合に異なる識別子を与えているが、簡単のため形態素解析システムが提供する識別子を用いてもよい。
明示しないが文書1の残りのテキストと他の文書についても形態素解析を適用し、解析結果は適切な形式で文書情報データベースに記録される。
形態素解析処理で生成されるデータの一例として、図6に文書情報テーブル、図7に文書識別子1の形態素リストテーブル、及び図8に形態素情報テーブルの一例を夫々示す。
図6に示す文書情報テーブルは、文書に布置された文書識別子と文書に対応する形態素リストテーブルの形態素リスト識別子、及び文書に対応する単文リストテーブルの単文リスト識別子で構成されている。本実施形態では、文書識別子、形態素リスト識別子及び単文リスト識別子として数値を用い、かつ同一の値を布置しているが、識別子は異なる固有な数値でも、固有な文字情報でもよい。
図7に示す形態素リストテーブルは、個々の文書を構成する全ての形態素識別子により構成されており、出現順にリスト化される。形態素リストの形態素識別子を、図8に示す形態素情報テーブルを参照し、昇順に展開することで、文書を再現することができる。
従って、本データを保持していれば、オリジナルの文書データを文書情報データベースに記憶しておく必要はない。また、形態素リスト識別子の頻度を求めることで、文書内の形態素頻度情報を簡単に求めることもできる。
図8に示す形態素情報テーブルは、文書から抽出される形態素の識別子、表記、及び品詞情報より構成されており、同一の表記及び品詞情報を持つ形態素のエントリは高々1つである。また、形態素情報テーブルは、全形態素識別子リストテーブルから共有される。
本実施形態では、全文書の解析結果が、図6〜図8に示すテーブル形式で、文書情報データベースに記録されるものとする。
<単文抽出処理>
ステップS3における単文抽出処理では、入力された文書から単文を抽出する。本実施形態では文書の形態素列に対する規則をもとに単文の範囲を決定する動作例を示すが、形態素解析を行わず文書文字列に対し直接作用させる規則を用いて単文の範囲を求めてもよい。単文の範囲を決定するために、(式1)に記載の形態素品詞に関する正規表現規則を用いる。
(式1)
Figure 2008077252
なお、式1において“[]”はクラスを、“^”はクラス文字の否定を、“+”は1つ以上の連続を、また“|”は選択を夫々示している。(なお、正規表現については“詳説 正規表現 第2版”[ISBN4−87311−130−7]等を参照すれば良い。
式1は、品詞が句点でも読点でもない品詞の形態素列と、それに続く品詞が自用の形態素と句点の形態素列か、品詞が読点の形態素からなる形態素列にマッチングする正規表現である。
この規則を文書1の形態素解析結果に適用することで求められる単文を図9に示す。文書1からは2つの単文が抽出されており、各単文には固有の識別子を付置している。なお、単文の上段は形態素表記、下段は形態素品詞であり、また視認性にため各形態素には空白の区切りを入れている。
明示しないが文書2から文書4においても単文の抽出を実施し、その結果を図10に示す。文書1からは文書識別子1と2の2単文、文書2からは識別子3〜6の4単文、文書3からは文書識別子7〜14の8単文、及び文書4からは文書識別子15〜24までの10単文が抽出される。抽出した文書の単文情報は文書情報データベースに適切な形式で記憶する。
単文抽出処理において生成されるデータの一例として、図11に文書識別子1の単文終端位置リストテーブルを示す。
単文は文書内で連続して出現するため、文書における単文の終端形態素の位置情報により、単文を一意に同定することができる。従って、単文終端位置リストは、単文の終端形態素の、形態素リストテーブルにおけるインデックス番号(出現位置)を、単文の出現順にリスト化したものである。
即ち、図8においては、文書1の句点の、図7のリストテーブルにおけるインデックス番号である8と、図7には明示していないが、文書1の読点のインデックス番号である38が記載される。本実施形態では、全文書の単文抽出結果が、図11に示すテーブル形式で、文書情報データベースに記録されるものとする。
<単文間類似度算出処理>
上記ステップS4における単文間類似度算出処理では、抽出した各単文の任意の1対の類似度を算出する。本実施形態では、各単文の品詞が自立語の形態素の頻度情報(頻度ベクトル)を用いて、単文間の類似度を(式2)に示すベクトル間の余弦として算出する動作例を示す。なお、単文の頻度ベクトルについては、図7の形態素リストテーブルと図11の単文終端位置リストテーブルを用いれば、簡単に求めることができるので、ここではその詳細については明示しない。
(式2)
Figure 2008077252
上記式2において、s1とs2は、文書全体で固有の自立語品詞をもつ形態素数と同一の次元をもつ、夫々単文1と単文2の形態素出現頻度ベクトルであり、・はベクトルの内積を、また||はベクトルのノルムを夫々示す。
なお、本実施形態で採用している単文間類似度は文書間類似度において極めて一般的なものであり、文書間類似度に関しては、様々な先行研究がなされているため、単文を文書と見なすことでそれらの類似度を導入することができる。
図10に示す各単文の明示しない形態素頻度ベクトルを(式2)に適用して算出した結果を図12に示す。なお、図12における行列は、夫々単文識別子であり、行列の要素は、行と列の識別子に対応する単文間の余弦類似度であり、類似度が0.2以上の要素は背景を灰色にしている。また、本実施形態では類似度行列は対象行列になるので下三角成分と、同一単文間類似度は表示していない。例えば、単文1と単文3の類似度は、0.63である。
図12の単文間類似度もまた文書データベースに適切な形式で記憶する。なお、単文間類似度は、文書数が大きくなるとデータ量も膨大になるため、閾値処理を行い、閾値以下の要素値を全て0とし、疎形式のデータ構造を採用することでデータ量を削減可能である。
疎形式データの例として、図12の単文間類似度の一部の有効行インデックスリストテーブルと列インデックス−値リストテーブルを図13に示す。
有効行インデックスリストテーブルの各値は、図12の行列の閾値以上の値の要素を1つ以上持つ行のインデックス番号である。また、列インデックス−値リストテーブルの各値は、有効行インデックスリストテーブルにエントリされる行の閾値以上の値と対応する列インデックス番号である。
なお、有効インデックスリストテーブルの行インデックスと対応する列インデックス−値リストテーブルの対応については、ここでは明示していないが、列インデックス−値リストテーブル自体をリスト化すれば、有効インデックスリストテーブルとは容易に1対1対応にすることができるし、有効インデックスリストテーブルの各要素に対応する列インデックス−値リストテーブルへの参照情報を持たせてもよい。
本実施形態では、全単文間類似度の算出結果が、図13に示すテーブル形式で、文書情報データベースに記録されるものとする。
<類似単文連接集合群抽出処理>
上記ステップS5に示す類似単文連接集合群抽出処理では、抽出した単文の単文間類似度と文書における出現位置に基づき、文書内で隣接し、かつ単文間類似度が一定の値以上である単文集合を全て抽出する。本実施形態では、単文間類似度算出処理までの動作例を継承し、図12に示される単文間類似度行列をもとに類似単文連接集合群を抽出する動作を示す。
図12の単文間類似度行列において、類似度が0.2以上のものは1、0.2以下のものは0としたものを図14に示す。なお、図14において、要素値が1のものは背景を灰色、0のものは白色にしており、また各文書の境界のために線を引いている。
本実施形態では、隣接する同一文書内の単文対を要素とする集合を1つのノードと、また単文対間の類似関係をエッジと見なすことで生成されるグラフの連結成分を抽出することで単文対類似グラフを生成し、さらに各連結成分のノード対の文書内における隣接関係もとにノードの融合と連結成分の結合を行うことで類似単文連接集合群を生成する。処理フローを図15に示す。
この場合、CPU4は、まず、ステップS21において、同一文書内の隣接する2つの短文を要素とする集合を生成する。次にステップS22において生成した集合をノードとみなし、異なる文書に含まれる2つのノードを構成する単文すべてに1つ以上の類似関係が存在している場合、ノード間にエッチングを結び、グラフを生成する。そして続くステップS23においてグラフが生成されたか否かの判別を行う。そしてステップS23において肯定結果が得られた場合(S23で「Yes」)、ステップS24に進み、生成したグラフの連結成分を抽出した後、続くステップS25において異なる連結成分における任意の2つのノード対において、対応する各ノードの積集合体がいずれも空でない場合、対応するノードの輪集合を新しいノードとして、グラフを連結する。そして最後にステップS26において生成された各連結成分を類似短文連接集合として抽出して処理を終えるようにする。なお、ステップS23において否定結果が得られた場合(S23で「No」)はそのまま処理を終えることになる。
以下、具体的に説明すると、例えば、文書1では{1、2}が1つのノードなり、また文書2では、{3、4}や{4、5}等がノードとなる。
次に、図14より各ノード間にエッジをひく。エッジをひく条件は、ノードを構成する単文間ですくなくとも1つ以上の単文と閾値以上の類似度を有することである(本実施形態の場合、0、2であり、図14では要素値1が対応している)。例えば、ノード{1、2}とノード{3、4}、ノード{1、2}とノード{7、8}にエッジをひくことができる。
結果、図14からは3つの連結成分(グラフ)を抽出でき、その結果を図16に示す。
次に、抽出した連結成分ノード対の文書内における隣接関係もとにノードの融合と連結成分の結合を行う。
本実施形態では、ノードの融合と連結成分の結合の条件を、“異なる連結成分における任意の2つのノード対において、対応する各ノードの積集合がいずれも空でない場合、対応するノードの和集合を新しいノードとして、グラフを連結する”こととする。
図16のグラフでは、グラフ1の{7、8}−{15、16}成分とグラフ2の{8、9}−{16、17}成分が条件を満たすノート対であるので、{7、8}と{8、9}、また{15、16}と{16、17}のノードを夫々融合し、あらたなノード{7、8、9}と{15、16、17}としてグラフ1とグラフ2を結合する。
結果、図14のグラフ1とグラフ2を結合し(グラフ1’)、その結果を図17に示す。この図17の各グラフが、類似単文連接集合になる。
なお、本実施形態では、初期ノードを2つの文書連続する単文としたが、初期ノードとして、1つのノードを中心とした窓関数から生成される単文集合としたり、抽出された連結成分の結合についてもよりノードの融合条件を、ノードの和集合の大きさに閾値をもうけるなどより複雑な仕組みを用いることもできる。
抽出した類似単文連接集合群は適切な形式で、文書情報データベースに記録する。
類似単文連接集合群データの一例として、図18に前記グラフ1’及びグラフ2の情報を記載した類似単文連接集合群リストテーブルを示す。
ノード識別子は、各グラフのノードに与える識別子であり、単文識別子リストはノードを構成する単文の識別子集合であり、関係ノード識別子リストは、ノードと関係する(辺が結ばれている)他のノードのリストである。たとえば、1行目はノード{1、2}のものであり、識別子は1、ノードを構成する単文は文書識別子1と2、及びこのノードと関係するノードは、識別子2、3、4のノードであることを示している。なお、単文識別子リストと関係ノード識別子リストは図11などのように別途リストテーブルを用意し、この要素にはそのテーブルへの参照情報を記述する形式をとってもよい。
本実施形態では、類似単文連接集合群の算出結果が図18に示すテーブル形式で文書情報データベースに記録されるものとする。
<文書スコア算出処理>
上記図2のステップS6に示す文書スコア算出処理では、抽出した類似単文連接集合の情報をもとに文書スコアを算出する。本実施形態では、類似単文連接集合群までの動作例を継承し、図17に示す類似単文連接集合群が与えられているときに、文書が含む類似単文連接集合の重要度と、類似単文連接集合に含まれる単文の割合をもとに文書スコアを算出する動作を説明する。
まず、スコアの基準として、共通する話題を多く、かつ詳しく含む文書が高いスコアを得ることを考える。1つの共通する話題を図17における1つのグラフを見なすと、要素数の大きいノードをできるだけ多く含む文書がよいスコアをとればよく、例えば、式3のようにスコアを定式化すればよい。
(式3)
Figure 2008077252
式3を基に文書1から文書4のスコアを算出すると、夫々0.66、0.66、2、2となり、文書3、文書4、文書1、文書2の順にランキングされる。
また、スコアの基準として、共通する話題を多く含むが、共通話題以外はできるだけ含まない文書がよいスコアを得ることを考えると、異なるグラフに属しているノード数を多く含み、またノードに属さない単文がない文書がよいスコアをとればよく、例えば、式4のようにスコアを定式化すればよい。
(式4)
Figure 2008077252
式4を基に文書1から文書4のスコアを算出すると、夫々1、0.5、0.66、0.2となり、文書1、文書3、文書2、文書4の順にランキングされる。
なお、本実施形態では上記2つの基準に基づく動作のみを例示しているが、類似単文連接集合群の情報をもとにより複雑な基準をもとにスコアを算出してもよい。
算出した文書スコアを、文書情報データベースに記録する。
図19に文書スコアデータの例として、前記2つのスコア基準により算出した文書スコアを記載した文書スコアリストテーブルを示す。
文書スコアリストテーブルは、文書識別子、スコア基準1、及びスコア基準2からなり、スコア基準1は前記“共通する話題を多く、かつ詳しく含む文書が高いスコアを得ること”を基準とした文書のスコア値、スコア基準2は前記“共通する話題を多く含むが、共通話題以外はできるだけ含まない文書がよいスコアを得ること”を基準とした文書のスコア値である。
例えば、1行目は文書1のデータであり、識別番号は1、スコア基準1でのスコアは0.66、スコア基準2でのスコアは1である。
なお、本実施形態では文書データのスコア値による順位付けは明示していないが、スコア値をソーティングすれば容易に求めることができる。
本実施形態では、類似単文連接集合群の算出結果が、図19に示すテーブル形式で、文書情報データベースに記録されるものとする。
次に、CPU4はステップS13において結果提示処理を実行する。
<文書検索処理>
ステップS7に示す文書検索処理では、適切に文書の検索を行えるものであればどのようなものであってもよく、例えば前述のgoogleの検索結果を適用すればよい。
例えば、文書検索処理で取得した検索結果として、文書のURLが取得されている場合、wget(例えば、http://wget.sunsite.dk/を参照)等の既知のHTML文書取得ツールを用いることで、HTML文書を取得し、さらにhtml2text(例えば、http://search.cpan.org/~awrigley/html2text-0.003/html2text.plを参照)等の既知のHTML文書をプレーンテキストに変換するツールを用いることで、取得したHTML文書をプレーンテキストに変換する。そして、取得した検索結果のプレーンテキストを前記文書データベースに登録する。
<結果提示処理>
例えば、図20に前記文書1から文書4のランキングの表示例を示す。
図20では、文書1から文書4(行方向)までのランキング(列方向)が示されており、”問い合わせ語の一致”は、問い合わせ語:“郵政民営化and取りまとめ”の各文書内でのマッチング頻度によるランキング、“話題の豊富さ”は前記スコア基準1によるランキング、“異なる内容”は前記スコア基準2によるランキングであり、中心から左に行くほどランキング値が高くなっている。
なお、本実施形態において、”問い合わせ語の一致”のランキング結果は、明示しない全文検索システム:Namazu(http://www.namazu.org)を用いて算出している。
例えば、“問い合わせ語の一致”は文書1から文書4までともに同じランキング値であるが、“話題の豊富さ”では前記のとおり、文書3、文書4、文書1、文書2の順にランキングされる。従って、図20によれば、ユーザは多面的な基準でのランキングを一覧でき、所望の文書の閲覧を支援できるといえる。
また、図21〜図23に、図20において前記3つのランキング基準で、文書3を選択した場合の表示例を示す。
図21は“問い合わせの一致”基準での文書3であり、この基準における重要部として問い合わせ語にマッチングした部分が強調表示されている。また、図22は“話題の豊富さ”基準での文書3であり、この基準における重要部、即ち検索された文書群内での共通話題部分、として前記類似単文連接集合群を構成するノードに含まれる単文が強調表示されている。また、図23は“異なる内容”基準での文書3であり、この基準における重要部、即ち検索された文書群内での共通話題以外の部分、として前記類似単文連接集合群を構成するノードに含まれない単文が強調表示されている。これにより、ユーザは、各基準における文書内での重要部を閲覧することもできる。
なお、図22では前記類似単文連接集合群の情報を用いているので、他の文書への参照情報を同様に表示することで、より分析的な閲覧が可能になる。
結果、本発明により、文書の話題の量や密度に関連した基準で文書を順位付けできるランキング方法を提供することで、ユーザが検索結果などの文書群を多面的な観点から閲覧・分析することが可能となる。
なお、前述した情報抽出装置の各機能をコンピュータに実行させるためのプログラムを記録した、コンピュータ読み取り可能なフロッピディスクや光ディスク等の記録媒体を作成することもできる。その記録媒体を汎用のパーソナルコンピュータ等のフロッピィディスク装置やCD−ROMリーダ等の光ディスク装置に装着して、そこに記録されているプログラムを読み取って内部のハードディスク等の記録装置にインストールさせることにより、この発明による情報抽出装置として機能を持たせることが可能となる。
googleで検索した結果の一例を示した図である。 本発明の一実施形態である情報抽出装置を実現するコンピュータの構成例を示した図である。 本実施形態の情報抽出装置が実行する文書ランキング処理を示したフローチャートである。 本実施形態の情報抽出装置が実行する他の処理を示したフローチャートである。 形態素解析を適用した結果の一例を示した図である。 文書情報テーブルの一例を示した図である。 文書識別子1の形態素リストテーブルの一例を示した図である。 形態素情報テーブルの一例を示した図である。 規則を文書1の形態素解析結果に適用することで求められる単文を示した図である。 文書2から文書4においても単文の抽出を実施したときの結果を示した図である。 文書識別子1の単文終端位置リストテーブルを示した図である。 図10に示す各単文の明示しない形態素頻度ベクトルを(式2)に適用して算出した結果を示した図である。 図12の単文間類似度の一部の有効行インデックスリストテーブルと列インデックス−値リストテーブルを示した図である。 図12の単文間類似度行列において、類似度が0.2以上のものは1、0.2以下のものは0としたものを示した図である。 類似単文連接集合群を生成する処理フローを示した図である。 3つの連結成分の抽出結果を示した図である。 グラフ1とグラフ2の結合結果を示した図である。 グラフ1’及びグラフ2の情報を記載した類似単文連接集合群リストテーブルを示した図である。 文書スコアリストテーブルを示した図である。 文書1から文書4のランキングの表示例を示した図である。 文書3を選択した場合の表示例を示した図である。 文書3を選択した場合の表示例を示した図である。 文書3を選択した場合の表示例を示した図である。
符号の説明
2…キーボード、3…通信I/Oインターフェース、4…CPU、5…メモリ、6…ハードディスク、7…ディスプレイ、8…プリンター、10…インターネット、11…文書データベース

Claims (11)

  1. 文書を入力する文書入力ステップと、
    前記文書から単文を抽出する単文抽出ステップと、
    前記単文抽出ステップにより抽出した単文間の類似度を算出する単文間類似度算出ステップと、
    前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出ステップと、
    前記類似単文連接集合群抽出ステップにより抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出ステップと、
    を有することを特徴とする文書ランキング方法。
  2. 請求項1に記載の文書ランキング方法において、
    前記文書から形態素を抽出する形態素解析ステップをさらに有し、
    前記単文抽出ステップにおいて、前記形態素解析ステップにおいて解析された形態素情報に基づいて単文の抽出を行い、
    前記単文間類似度算出ステップにおいて解析された形態素情報を基に単文間類似度を算出することを特徴とする文書ランキング方法。
  3. 請求項2に記載の文書ランキング方法において、
    前記文書スコア算出ステップは、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする文書ランキング方法。
  4. 請求項3に記載の文書ランキング方法と、
    類似する文書を検索する文書検索ステップと、
    検索結果を提示する検索結果提示ステップと、を有し、
    前記検索結果提示ステップにて提示される検索結果は、前記文書ランキング方法によって順位付けられていることを特徴とする文書検索方法。
  5. 文書を入力する文書入力手段と、
    前記文書から単文を抽出する単文抽出手段と、
    前記単文抽出手段により抽出した単文間の類似度を算出する単文間類似度算出手段と、
    前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出手段と、
    前記類似単文連接集合群抽出手段により抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出手段と、
    を備えることを特徴とする文書ランキング装置。
  6. 請求項5に記載の文書ランキング装置において、
    前記文書から形態素を抽出する形態素解析手段をさらに備え、
    前記単文抽出手段において、前記形態素解析手段において解析された形態素情報に基づいて単文の抽出を行い、前記単文間類似度算出手段において解析された形態素情報を基に単文間類似度を算出することを特徴とする文書ランキング装置。
  7. 請求項6に記載の文書ランキング装置において、
    前記文書スコア算出手段は、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする文書ランキング装置。
  8. 請求項7に記載の文書ランキング装置において、
    文書情報データベースを備え、
    前記文書入力手段にて入力される文書の識別子、前記形態素解析手段にて抽出された文書の形態素解析結果、前記単文抽出手段で抽出された文書の単文情報、前記単文間類似度算出手段で算出された単文間類似度、前記類似単文連接集合群抽出手段で抽出された類似単文連接集合群、及び前記文書スコア算出手段で算出された文書スコアを夫々適切な形式で前記文書データベースに記憶することを特徴とする文書ランキング装置。
  9. 請求項8に記載の文書ランキング装置と、
    類似する文書を検索する文書検索手段と、前記検索結果を提示する検索結果提示手段と、を備え、前記検索結果提示手段により提示される検索結果が前記文書ランキング装置によって順位付けられていることを特徴とする文書検索装置。
  10. 請求項1乃至3の何れか1項に記載した文書ランキング方法を実行するプログラムがコンピュータの読み取り可能な形式により記録されていることを特徴とする記録媒体。
  11. 請求項4に記載した文書検索方法を実行するプログラムがコンピュータの読み取り可能な形式により記録されていることを特徴とする記録媒体。
JP2006253606A 2006-09-19 2006-09-19 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 Pending JP2008077252A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006253606A JP2008077252A (ja) 2006-09-19 2006-09-19 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006253606A JP2008077252A (ja) 2006-09-19 2006-09-19 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体

Publications (1)

Publication Number Publication Date
JP2008077252A true JP2008077252A (ja) 2008-04-03

Family

ID=39349260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006253606A Pending JP2008077252A (ja) 2006-09-19 2006-09-19 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体

Country Status (1)

Country Link
JP (1) JP2008077252A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146222A (ja) * 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
US9122680B2 (en) 2009-10-28 2015-09-01 Sony Corporation Information processing apparatus, information processing method, and program
WO2016147624A1 (ja) * 2015-03-13 2016-09-22 日本電気株式会社 検索システム、検索方法および検索プログラム
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
JP2018504727A (ja) * 2015-11-27 2018-02-15 小米科技有限責任公司Xiaomi Inc. 参考文書の推薦方法及び装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146222A (ja) * 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
JP4521459B2 (ja) * 2008-12-18 2010-08-11 株式会社日立製作所 文書分類装置、文書分類方法およびプログラム
US9122680B2 (en) 2009-10-28 2015-09-01 Sony Corporation Information processing apparatus, information processing method, and program
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
WO2016147624A1 (ja) * 2015-03-13 2016-09-22 日本電気株式会社 検索システム、検索方法および検索プログラム
JPWO2016147624A1 (ja) * 2015-03-13 2017-12-21 日本電気株式会社 検索システム、検索方法および検索プログラム
US10909154B2 (en) 2015-03-13 2021-02-02 Nec Corporation Search system, search method and search program
JP2018504727A (ja) * 2015-11-27 2018-02-15 小米科技有限責任公司Xiaomi Inc. 参考文書の推薦方法及び装置

Similar Documents

Publication Publication Date Title
Gupta et al. A survey of text question answering techniques
US20090300046A1 (en) Method and system for document classification based on document structure and written style
US8782049B2 (en) Keyword presenting device
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
US20120078907A1 (en) Keyword presentation apparatus and method
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
JP2011118689A (ja) 検索方法及びシステム
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP2005250980A (ja) 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2006227823A (ja) 情報処理装置及びその制御方法
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP2009288870A (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
JPH0844771A (ja) 情報検索装置
JP2020144846A (ja) ウェブページサーチ方法及びコンピュータ可読記憶媒体
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP6106489B2 (ja) 語義解析装置、及びプログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP4783563B2 (ja) インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム