WO2009096523A1

WO2009096523A1 - 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム

Info

Publication number: WO2009096523A1
Application number: PCT/JP2009/051581
Authority: WO
Inventors: Satoshi Nakazawa; Toshio Takeda; Shinichi Ando
Original assignee: Nec Corporation
Priority date: 2008-01-30
Filing date: 2009-01-30
Publication date: 2009-08-06
Also published as: JPWO2009096523A1; US20100318526A1

Abstract

入力された分析対象の言語表現に対応する時系列データを取得し、言語表現と関連性の高い言語表現の候補を、関連言語表現候補として生成し、生成した関連言語表現候補について、関連言語表現候補に対応する時系列データを取得し、取得した言語表現に対応する時系列データと、取得した関連言語表現候補に対応する時系列データとの間の時間的な相関性を分析し、時系列データ間の時間的な相関性の分析結果を用いて、入力した言語表現と、生成した関連言語表現候補との関連度を計算する。

Description

情報分析装置、検索システム、情報分析方法及び情報分析用プログラム

　本発明は、情報を分析する情報分析装置、情報分析方法及び情報分析用プログラムに関する。また、本発明は情報分析装置を用いた検索システムに関する。

　テキスト中で特定の名詞や話題、意見、事物を表す記述を、「言語表現」と称する。「言語表現」の例としては、イベント名、事件名、製品名等の名詞的表現（例えば「レースゲーム」や「耐震ジェル」、「食品偽装」）、及び名詞的表現をさらに述語や修飾語とあわせて文としたもの（例えば「耐震ジェルは有効」や「ディーゼルエンジンは環境によい」)がある。「言語表現」は、テキスト中に出現する文字列そのものであってよいし、テキストを形態素解析や構文解析、係り受け解析、同義語処理等の既存の自然言語処理技術を用いて解析した結果であってもよい。

　例えば、「学校」や「生徒」等はそれぞれ１単語からなる言語表現である。また、例えば、「学校へ行く」や「学校に行った」、「学校に急いで行った」等のテキストを、係り受け解析して得られた「学校→行く」のような単語間の係り受け解析結果も、１つのまとまった意味を表す言語表現であるとする。

　インターネット上のブログや、電子メール、コールセンタにおける応答履歴等、大量の文書集合が分析の母集団として与えられているものとする。このときに、文書集合の母集団の一部に含まれるある特定の言語表現に着目し、その着目言語表現と関連性の高い言語表現を、文書集合から抽出するテキストマイニング技術が存在する（以下、第１の関連技術と称する)。

　例えば、非特許文献１には、自由記述アンケートを分析するテキストマイニング手法として、共起度に基づく相関分析が記載されている。この共起度に基づく相関分析は、同一の文書に複数の単語が共起して出現するという情報に基づいて、それらの単語間の関連性が高いと判定する技術である。共起度を用いれば、単語間に限らずに、複数の単語からなる述語や、単語の係り受け関係等、任意の言語表現を処理単位として、ある言語表現と別の言語表現との間の共起関係を見ることで、特定の言語表現と関連性の高い言語表現を抽出することが可能となる。

　このような共起度を用いた分析技術を用いることで、例えば「サポート→不満」という係り受け関係の言語表現に関連性の高い言語表現として、「挨拶→ない」や「連絡→ない」、「故障→多い」といった言語表現がアンケート文書に多く存在することが分かる。着目言語表現と関連性の高い言語表現は、もとの着目言語表現の一因や結果である場合、共通の原因から生じる別の結果である場合、あるいは共通の状況・環境から生じる単に相関性の高い事象である場合等が考えられる。いずれの場合であっても、関連性の高い言語表現は、着目言語表現に対する重要な知見となる。

　また、インターネット上のブログや、電子メール、コールセンタにおける応答履歴等の前述の文書集合には、通常発信日時や作成日時、応答日時等の時間情報が付与されている。こうした大量の時間情報つき文書集合に対して、着目する言語表現が記述された文書を抽出し、抽出した文書を各文書に付与されている時間情報に従って順に並べて、時系列分析を行うことで、着目する言語表現の出現や、話題に挙がっている回数を調べる技術が存在する。

　例えば、非特許文献２には、BlogWatcher と呼ばれる技術が記載されている。非特許文献２には、収集したブログ全体における、特定の話題語が出現した回数や、その話題語が肯定的に記述されている回数、否定的に記述されている回数の時系列変化を折れ線グラフとしてプロットする手法が記載されている（以下、第２の関連技術と称する）。

　第２の関連技術を用いることにより、着目する話題語のブログにおける出現数の変遷を調べることで、ユーザはその着目する話題語が各時点でどの程度流行していたのか、といった分析を行うことができる。また、非特許文献２には、着目する話題語の出現数が、急激に変化した時点をバーストとして検出する機能も記載されている。ここでバーストとは、着目する話題語が、一定時間以内に急激に増加／減少することをいう。また、非特許文献２には、単純な増加／減少だけでなく、収集したブログ全体の母集団数で正規化する手法も記載されているが、基本的には着目する話題語の出現数の変化に応じて、バーストを検出する。

山西　健司、「データ・テキストマイニング」、［online］、［平成２０年１月１６日検索］、インターネット<URL:http://www.nec.co.jp/rd/DTminin g/members/yamanishi/comp.pdf > 南野　朋之、鈴木　泰裕、藤木　稔明、奥村　学、「blogの自動収集と監視」、人工知能学会論文誌、Vol.19(2004)、No.6、pp.511-520

　第１の関連技術では、設定された文書集合の母集団の中から、着目言語表現が含まれている文書集合（以下、着目文書集合と称する）を分析対象として選択する。そして、着目文書集合の各テキスト内で、着目言語表現と統計的に高頻度に共起して出現する言語表現を関連性の高い言語表現として抽出する。よって、着目文書集合に高頻度には出現しない言語表現は、たとえ着目言語表現と関連性が高くとも抽出することができない。

　一般に、着目言語表現が表す意見や事象の原因や結果であっても、そうした原因や結果を表す言語表現がもとの着目言語表現を含む文書に同時に記述されるとは限らない。着目文書集合の一部には、着目言語表現と関連性の高い言語表現とが共起して出現する場合があっても、着目文書集合の多くに統計的に高頻度に関連性の高い言語表現が出現することを、一般には期待することができない。

　例えば「製品Ａが格好いい」という言語表現に着目したとき、この着目言語表現を含む文書が最近増えていたとする。すなわち「製品Ａが格好いい」という意見が増えている事象があったとする。仮にこの事象の要因の１つとして、製品Ａをユーザとして使用しているモデルＢさんの人気が上昇している、という事象があった場合、この後者の事象は「Ｂさんが良い」や「Ｂさん素敵」のような言語表現の増加として観測される。

　しかし、一部の文書には「Ｂさん素敵だし、Ｂさんが使っている製品Ａも格好いいよね」のように、これら２つの言語表現が同一の文書内に共起して出現したとしても、着目言語表現「製品Ａが格好いい」を含んでいる着目文書集合の多数において、本来関連する言語表現「Ｂさんが良い」や「Ｂさん素敵」が共起して出現するとは期待できない。故に、同一文書内での共起をもとに、関連性の高い言語表現を抽出する技術である第１の関連技術では、着目言語表現に関連する言語表現を適切に抽出することは難しい。

　また、統計分析の基本的な手法に回帰分析がある。これは、ある事象の各時点での出現数や価格といった時系列データが複数組存在するときに、複数の時系列データの時間変化の相関性を調べて、関連性の高い事象を検出する技術である。例えば、ある株価の時間変化と、別の株価の時間変化とに相関性があった場合に、それらの２つの株の時点毎の価格を、それぞれの時系列データとみなして回帰分析を行う。そのようにすることで、両者の価格にどれくらい相関性があったのかを計算することができる。

　ここで、着目する事象が、ある特定の言語表現で表される事象であって、株価のような直接的な時系列データを備えていなくとも、分析母集団となる文書集合が時間情報つきで与えられれば、第２の関連技術を用いることで、各言語表現の時系列データを求めることができる。この場合、分析母集団となる文書集合を、時間情報を用いて各期間毎に区切り、期間毎における、各言語表現を含む文書の数や、言語表現の出現回数が、各言語表現の期間毎の時系列データとなる。

　よって、与えられた言語表現の時系列データに対して、回帰分析等統計的な手法で相関性を求めることで、必ずしも同一の文書中に共起しない言語表現であっても、それらの間に時間的な相関性が高い場合には、関連する言語表現として検出することが可能となる。

　しかし、回帰分析等統計的な手法を用いたとしても、分析対象となる文書集合の母集団が与えられても、その文書集合中の各文書には、非常に多数の言語表現が含まれ得る。そのため、ある特定の着目言語表現に時間的に相関性の高い言語表現を求めるためには、それらの非常に多くの言語表現との間で時間的な相関性を計算しなければならない。インターネットや大量の応対履歴等、分析対象となる文書集合の母集団が大規模になった場合には、こうした言語表現の時系列データの時間的相関関係を求める手法は、計算量の観点で現実的ではない。

　そこで、本発明の典型的(exemplary)な目的は、分析対象として着目する言語表現と同一文書内に共起する統計的傾向が少ない言語表現に対しても、着目する言語表現との関連性を分析することができる情報分析装置、検索システム、情報分析方法及び情報分析用プログラムを提供することにある。

　本発明による典型的 (exemplary) な情報分析システムは、入力された分析対象の言語表現に対応する時系列データを取得する着目言語表現時系列データ取得部と、
　前記言語表現と関連性の高い言語表現の候補を、関連言語表現候補として生成する関連言語表現候補生成部と、
　前記関連言語表現候補生成部が生成した前記関連言語表現候補について、前記関連言語表現候補に対応する時系列データを取得する関連言語表現候補時系列データ取得部と、
　前記着目言語表現時系列データ取得部が取得した時系列データと、前記関連言語表現候補時系列データ取得部が取得した時系列データとの間の時間的な相関性を分析する時系列分析部と、
　前記時系列分析部の分析結果を用いて、前記言語表現と、前記関連言語表現候補生成部が生成した前記関連言語表現候補との関連度を計算する関連度計算部と、
を備えたことを特徴とする。

　本発明による典型的 (exemplary) な検索システムは、上記情報分析装置と、該情報分析装置から出力される、着目言語表現と関連度が高い関連言語表現を検索条件として、複数の検索対象文書から該関連言語表現を含む文書を検索する関連情報含有文書検索部と、
前記関連情報含有文書検索部で検索された文書を出力する関連文書出力部とを備えた検索システムである。

　本発明による典型的 (exemplary) な情報分析方法は、入力された分析対象の言語表現に対応する時系列データを取得し、
　前記言語表現と関連性の高い言語表現の候補を、関連言語表現候補として生成し、
　生成した前記関連言語表現候補について、前記関連言語表現候補に対応する時系列データを取得し、
　取得した前記言語表現に対応する時系列データと、取得した前記関連言語表現候補に対応する時系列データとの間の時間的な相関性を分析し、
　前記時系列データ間の時間的な相関性の分析結果を用いて、前記言語表現と前記関連言語表現候補との関連度を計算することを含む検索システムである。

　本発明による典型的 (exemplary) な情報分析用プログラムは、コンピュータに、
　入力された分析対象の言語表現に対応する時系列データを取得する着目言語表現時系列データ取得処理と、
　前記言語表現と関連性の高い言語表現の候補を、関連言語表現候補として生成する関連言語表現候補生成処理と、
　生成した前記関連言語表現候補について、前記関連言語表現候補に対応する時系列データを取得する関連言語表現候補時系列データ取得処理と、
　取得した前記言語表現に対応する時系列データと、取得した前記関連言語表現候補に対応する時系列データとの間の時間的な相関性を分析する時系列分析処理と、
　前記時系列データ間の時間的な相関性の分析結果を用いて、前記言語表現と前記関連言語表現候補との関連度を計算する関連度計算処理と、
を実行させるための情報分析用プログラムである。

　本発明によれば、分析対象として着目する言語表現と同一文書内に共起する統計的傾向が少ない言語表現に対しても、着目する言語表現との関連性を分析することができる。

本発明による情報分析装置の第１の実施形態の構成を示すブロック図である。関連言語表現候補生成部のより詳細な構成の例を示すブロック図である。着目言語表現と正の相関をとる関連言語表現候補の時系列データの例を示す説明図である。着目言語表現と負の相関をとる関連言語表現候補の時系列データの例を示す説明図である。情報分析装置が実行する関連情報出力動作の全体処理を示すフローチャートである。関連言語表現候補生成部が実行する関連言語表現候補生成処理の例を示すフローチャートである。本発明による情報分析装置の第２の実施形態における関連言語表現候補生成部の構成例を示すブロック図である。本発明による情報分析装置の第２の実施形態における関連言語表現候補生成部が実行する関連言語表現候補生成処理の例を示すフローチャートである。本発明による情報分析装置の第３の実施形態における関連言語表現候補生成部の構成例を示すブロック図である。本発明による情報分析装置の第３の実施形態における関連言語表現候補生成部が実行する関連言語表現候補生成処理の例を示すフローチャートである。本発明による情報分析装置の第４の実施形態における関連言語表現候補生成部の構成例を示すブロック図である。本発明による情報分析装置の第４の実施形態における関連言語表現候補生成部が実行する関連言語表現候補生成処理の例を示すフローチャートである。本実施形態の障害原因分析システムを構成するコンピュータの一構成例を示すブロック図である。本発明による検索システムの構成を示すブロック図である。

符号の説明

１０　着目言語表現入力部
２０　着目言語表現時系列データ取得部
３０　文書集合データベース
４０　関連言語表現候補生成部
５０　関連言語表現候補時系列データ取得部
６０　時系列分析部
７０　関連度計算部
８０　関連情報出力装置
４１０　調査対象文書条件選定部
４２０　調査対象文書集合取得部
４３０　特徴的言語表現抽出部
４４０　着目文書集合相関分析部
４５０　限定的相関言語表現抽出部
４６０　着目文書集合解析部
４７０　関連性示唆言語表現抽出部
４８０　着目言語表現解析部
４９０　対立言語表現生成部

実施形態１．
　以下、本発明の典型的な(exemplary)第１の実施形態について図面を参照して説明する。本発明は、分析対象として着目する言語表現と、時系列的に相関性の高い関連言語表現を文書集合から抽出する情報分析方式を用いた情報分析装置に関するものである。

　図１は、本発明による情報分析装置の第１の実施形態の構成を示すブロック図である。図１に示すように、情報分析装置は、着目言語表現時系列データ取得部２０、関連言語表現候補生成部４０、関連言語表現候補時系列データ取得部５０、時系列分析部６０、及び関連度計算部７０を含む。文書集合データベース３０は、分析対象文書の母集団として規定される文書集合へのアクセス手段を提供する。着目言語表現入力部１０は分析対象とする言語表現を着目言語表現時系列データ取得部２０に入力する。関連情報出力装置８０は分析対象とする言語表現に関連する関連情報を出力する。情報分析装置は、着目言語表現入力部１０、関連情報出力装置８０、及び文書集合データベース３０のうちの一部又は全部を含んでいても良い。なお、情報分析装置は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。

　また、本実施形態において、情報分析装置は、例えば、情報分析装置を用いて入力した言語表現と関連性の高い言語表現を関連情報又は関連する検索条件として提示する検索システムの用途に適用できる。

　図１に示す情報分析装置において、着目言語表現入力部１０は、分析対象とする言語表現を入力する。また、着目言語表現時系列データ取得部２０は、着目言語表現入力部１０に入力された着目言語表現の時系列データを取得する。また、文書集合データベース３０は、分析対象文書の母集団として規定される文書集合へのアクセス手段を提供する。また、関連言語表現候補生成部４０は、入力された着目言語表現と関連性の高い言語表現の候補を関連言語表現候補として生成する。また、関連言語表現候補時系列データ取得部５０は、生成された関連言語表現候補の各々に対して、その時系列データを取得する。

　また、時系列分析部６０は、着目言語表現時系列データ取得部２０で得られた時系列データと、関連言語表現候補時系列データ取得部５０で得られた時系列データとの間で時間的な相関性を調べる。また、関連度計算部７０は、時系列分析部６０の分析結果を用いて、着目言語表現と関連言語表現候補との関連度を計算する。また、関連情報出力装置８０は、関連度計算部７０の結果から、着目言語表現と関連度が高い言語表現を出力する。

　着目言語表現入力部１０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵ、及びキーボードやマウス等の入力装置によって実現される。着目言語表現入力部１０は、ユーザの操作に従って、分析対象とする言語表現を入力する機能を備える。

　着目言語表現入力部１０は、着目言語表現を、文書中の一部テキストを指定する形式で入力してもよく、キーボードからのテキスト入力等の言語表現を特定できる形式であれば、任意の入力形式で入力してもよい。また、着目言語表現入力部１０は、「Ａ製品は格好いい」のようなテキスト形式で着目言語表現を入力してもよい。また、着目言語表現入力部１０は、「Ａ製品→格好いい」等のように、形態素解析、構文解析、係り受け解析又は同義語処理等の既存の言語処理の結果得られたデータ形式を用いて着目言語表現を入力してもよい。

　着目言語表現時系列データ取得部２０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。着目言語表現時系列データ取得部２０は、着目言語表現入力部１０が入力した着目言語表現に対する時系列データを、文書集合データベース３０を用いて取得（文書集合データベース３０から抽出）する機能を備える。

　具体的には、着目言語表現時系列データ取得部２０は、文書集合データベース３０によりアクセス可能な文書集合を、各文書に付与されている時間情報に基づいて期間毎に区切る。また、着目言語表現時系列データ取得部２０は、各期間内で着目言語表現を含んでいる文書の数、又は各期間内での着目言語表現の出現数を、その期間に対する着目言語表現の時系列データとして求める。

　例えば、着目言語表現時系列データ取得部２０は、期間を１週間毎とした場合に、着目言語表現を含んでいる文書数が１月第１週に５２件、１月第２週に４８件、１月第３週に１９２件、１月第４週に２１８件、・・・のように出現数を求める。そして、着目言語表現時系列データ取得部２０は、これらの出現数の系列を着目言語表現に対する時系列データとして求める。

　なお、上記に示した時系列データの取得方法は、例えば、非特許文献２に記載されている。

　着目言語表現時系列データ取得部２０は、着目言語表現を含んでいる文書数や着目言語表現の出現数を、そのままの数を用いて求めてもよいし、分析対象母集団に含まれる期間毎の文書総数等によって正規化を行った数を求めてもよい。

　なお、時系列データの範囲（例えば、開始時間、終了時間）、期間の長さ（例えば、１時間毎なのか、１日毎なのか、１週間毎なのか）は、情報分析装置を実現する際の用途や目的、分析対象母集団の性質等に応じて適宜定めておく。

　また、文書集合データベース３０から、着目言語表現を含んでいる文書の数、又は各期間内での着目言語表現の出現数を計数する際には、同義語処理や、表現・構文は異なるが同一の意味と考えられる解析結果の同一視等、既存の言語処理技術を用いた同意表現の同一視の処理を必要に応じて用いてもよい。具体的にどのような単語や表現を同一視するかは、情報分析装置を実現する際の用途や目的、分析対象母集団の性質等に応じて事前に適宜定めておく。

　文書集合データベース３０は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置や、ネットワーク装置によって実現される。文書集合データベース３０は、時間情報つきの各種電子文書を蓄積し、分析対象文書の母集団として規定される文書集合へのアクセス手段を提供するデータベースである。文書集合データベース３０は、例えば、コールセンタが備えるデータベース装置である。

　電子文書に付与される時間情報は、各文書の作成時間であってもよいし、発信時間や、最終更新日時等、任意の時間情報であってもよい。ただし、どの種類の時間情報を、着目言語表現時系列データ取得部２０で取得する時系列データの時間情報とするかは、事前に定めておく（例えば、１種類の時間情報を定めておく）。

また、分析対象母集団の文書データを、必ずしも情報分析装置内部で保持する必要はない。文書に対するアクセス手段さえ提供されれば、実際の文書データは、情報分析装置の内部に保持されるものでもよく、外部に保持されるものでもよい。

例えば、文書集合データベース３０は、データベース装置ではなく、インターネット上のブログをキーワードや日時を指定して検索するブログ検索エンジンであってもよい。その場合、分析対象母集団は、そのブログ検索エンジンで検索されるブログデータであり、テキストは各ブログ記事の本文、時間情報は各ブログ記事に付与されている日付であってもよい。

　関連言語表現候補生成部４０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。関連言語表現候補生成部４０は、着目言語表現入力部１０が入力した着目言語表現と関連性の高い言語表現の候補を、関連言語表現候補として生成する機能を備える。関連言語表現候補生成部４０は、関連言語表現候補を、入力した着目言語表現のテキスト内容、着目言語表現を含む文書のテキスト内容、又は着目言語表現を含む文書に付与されているメタ情報を用いて生成する。

　本実施形態では、着目文書集合内で着目言語表現と統計的に高頻度で共起するとは限らない言語表現であっても、関連言語表現として求めることが可能となる。そのようにするために、関連言語表現候補生成部４０は、いずれの場合においても、一旦、着目言語表現ないしは着目文書集合から一定の関係にある言語表現を、着目言語表現と関連性が高い言語表現の候補として生成する。

　なお、着目言語表現と特別な関係にない言語表現までも、時系列分析部６０において分析対象とすれば、着目言語表現と時間的相関性の高い言語表現は全て検出可能となる。しかし、計算量的に計算負担が大きく、そのような手法は現実的ではない。そこで、時系列分析部６０において分析対象とする言語表現の候補を絞り込むことが、関連言語表現候補生成部４０の役割である。

　図２は、関連言語表現候補生成部４０のより詳細な構成の例を示すブロック図である。図２に示すように、関連言語表現候補生成部４０は、調査対象文書条件選定部４１０、調査対象文書集合取得部４２０、及び特徴的言語表現抽出部４３０を含む。

　図２に示す関連言語表現候補生成部４０において、調査対象文書条件選定部４１０は、調査する対象の文書条件を選定する。また、調査対象文書集合取得部４２０は、選定された条件を満たす文書の集合を取得する。また、特徴的言語表現抽出部４３０は、取得された文書集合から特徴的な言語表現を抽出する。

　調査対象文書条件選定部４１０は、関連言語表現候補を求めるために、着目言語表現を含む着目文書集合とは異なる文書集合であるが、着目言語表現ないし着目文書集合から一定の関係にある文書集合の条件を選定する機能を備える。本実施形態では、調査対象文書条件選定部４１０は、入力した言語表現を含む電子文書のテキスト内容、又は言語表現を含む文書に付与されているメタ情報を用いて、比較対象の文書の抽出条件を選定する。なお、本実施形態では、この着目言語表現ないし着目文書集合から一定の関係にある文書を、調査対象文書という。また、その調査対象文書の集合を調査対象文書集合と称する。

　表１は、調査対象文書条件の例と関連言語表現候補の条件の例とを示す表である。表１に示すように、調査対象文書を規定する条件の例としては、表１の１行１列目、２行１列目、３行１列目、及び４行１列目に示す条件がある。関連言語表現候補の条件の例としては、表１の１行２列目から４行２列目、５行２列目、６行２列目、及び７行２列目に示す条件がある。

　表１の表の１行１列目に示す条件は、「着目文書集合と同分野又は同トピックの文書集合」を選択するという条件である。表１の表の１行１列目に示す条件は、着目文書集合と同分野又は同トピックの文書であることを、調査対象文書の条件とする手法である。すなわち、この場合、調査対象文書条件選定部４１０は、入力した言語表現を含む電子文書の集合の一部もしくは全部に対して、同一もしくは類似する分野の電子文書又は同一もしくは類似するトピックの電子文書であることを、比較対象の文書の抽出条件として選定する。

　着目文書集合の分野やトピックを決定するには、既存のテキストからの分野判定技術や、トピック判定技術を用いることができる。また、着目文書集合の各文書にメタ情報として分野やトピック、又はそれに類するものが付与されている場合には、そのメタ情報を用いてもよい。

　着目文書集合に属する文書の分野やトピックが複数ある場合には、その全てを分野やトピックの条件としてもよい。また、着目文書集合に属する文書であって、同じ分野やトピックをもつ文書が一定数以上存在する分野やトピックのみを条件として使用してもよい。

　分野やトピックの判定法や、体系、分野やトピックを同じと見なす条件等は、情報分析装置を実現する際の用途や目的、分析対象母集団の性質等から事前に設定しておく。例えば、インターネット上のブログが分析対象母集団で、着目言語表現が「ＤＶＤレコーダーを買った」である場合において、着目文書集合に属する文書に付与されているメタ情報「カテゴリ」では、「ＡＶ機器」というカテゴリが一番多かったとする。この場合、「ＡＶ機器」というカテゴリに属する文書であることを、調査対象文書の条件とすることができる。

　表１の表の２行１列目に示す条件は、「着目文書集合から一定ホップ数以内でリンクされる文書の集合」を選択するという条件である。表１の表の２行１列目に示す条件は、着目文書集合に属する文書から、一定のホップ数以内でリンクされる文書であることを、調査対象文書の条件とする手法である。すなわち、この場合、調査対象文書条件選定部４１０は、入力した言語表現を含む電子文書から一定ホップ数以内でリンクされる電子文書であることを、比較対象の文書の抽出条件として選定する。

　分析対象母集団に属する文書の全部又は一部に、関連する他の文書へのリンク情報がメタ情報として付与されていることが、本手法を用いる前提となる。このようなリンクの例としては、Ｗｅｂテキストにおけるハイパーリンクやトラックバック、返信された電子メールにおける元のメールのＩＤ、電子掲示板における元記事等がある。

　表１の表の３行１列目に示す条件は、「着目文書集合に属する文書と、テキスト類似度を計算したときに、一定値以上の類似度をもつ（類似している）文書の集合」を選択するという条件である。表１の表の３行１列目に示す条件は、着目文書集合に属する文書とテキスト類似度を計算したときに、一定値以上の類似度をもつ（類似している）文書であることを、調査対象文書の条件とする手法である。すなわち、この場合、調査対象文書条件選定部４１０は、入力した言語表現を含む電子文書に対して一定値以内のテキスト類似度をもつ電子文書であることを、比較対象の文書の抽出条件として選定する。

　類似度の計算方法については、様々なテキスト間類似度を算出する手法が既存の言語処理技術として公開されているので、情報分析装置を実現する際の用途や目的、分析対象母集団の性質等から事前に設定しておけばよい。

　また、一般に、着目文書集合には複数の文書が属している。そのため、それらのうちの少なくともいずれかと一定値以上の類似度をもてばよいのか、それとも、着目文書集合を１つの文書クラスタととらえ、クラスタの中心と一定値以上の類似度をもてばよいのか、任意の設定が可能である。

　表１の表の４行１列目に示す条件は、「着目文書集合の作者又は発信者が、作成又は発信した他の文書の集合」を選択するという条件である。表１の表の４行１列目に示す条件は、着目文書集合に属する文書の作者又は発信者が、作成又は発信した別の文書であることを、調査対象文書の条件とする手法である。すなわち、この場合、調査対象文書条件選定部４１０は、入力した言語表現を含む電子文書の集合の一部もしくは全部と、作者又は発信者が共通する他の電子文書であることを、比較対象の文書の抽出条件として選定する。分析対象母集団に属する文書の全部又は一部に、各文書の作者又は発信者を示すメタ情報が付与されていることが、本手法を用いる前提となる。

　また、一般に、着目文書集合には複数の文書が属している。そのため、それらのうちの少なくともいずれかと、作者ないし発信者を共通とする文書であればよいのか、それとも、一定数以上の文書が着目文書集合に属している作者ないし発信者のみ（限定された作者ないし発信者のみ）が、作成ないし発信した他の文書を調査対象文書とするのか、任意の設定が可能である。

　なお、表１の表の１行目から４行目に示す条件は、調査対象文書を規定する条件の例であり、調査対象文書を規定する条件をこれらに限定しているわけではない。例えば、「着目文書が作成／発信された日時から、一定期間内に作成／発信された文書」のような、時間に関する条件を用いてもよい。

　また、複数の条件のＡＮＤ／ＯＲ等から複合的な条件を規定してもよい。例えば「着目文書集合のうちのいずれかの文書から１ホップ内でリンクされる文書、又は着目文書集合のうちのいずれかの文書から２ホップ内でリンクされ、かつ、そのリンク元となっている着目文書と分野を等しくする文書」のような複合条件を規定してもよい。

　また、表１の表の１行目から４行目に示すような、調査対照文書を規定する条件は、情報分析装置を実現する際の目的や用途、分析対象母集団の性質等から事前に定めておく。この場合、調査対象文書条件選定部４１０は、着目言語表現や着目文書集合を読み込んで、事前に定めてある条件を具体化する。例えば、事前に定めてある条件が「着目文書集合に属する文書がもつカテゴリ情報のうち、そのカテゴリに属する着目文書数が最大のカテゴリに属する文書」であるとする。この場合、調査対象文書条件選定部４１０は、着目文書集合を実際に読み込んだところ、最大のカテゴリが「ＡＶ機器」であった場合、最初の条件を具体化して、「カテゴリ「ＡＶ機器」に属する文書」を、調査対象文書を規定する条件とする。

　調査対象文書集合取得部４２０は、調査対象文書条件選定部４１０が定めた条件を用いて、その条件を満たす文書の集合を調査対象文書集合として、文書集合データベース３０から取得（抽出）する機能を備える。

　特徴的言語表現抽出部４３０は、調査対象文書集合取得部４２０が取得した各調査対象文書に対して、まず言語解析を行う機能を備える。次いで、特徴的言語表現抽出部４３０は、言語解析結果に基づいて、調査対象文書に含まれている言語表現のうち、特徴的な言語表現を抽出する機能を備える。また、特徴的言語表現抽出部４３０は、抽出した特徴的な言語表現を関連言語表現候補として求める機能を備える。

　文書（又は文書集合）から特徴的な言語表現を抽出する技術は、テキストマイニング技術や文書要約技術等の既存の技術が多数公開されている。情報分析装置を実現する際には、情報分析装置の用途や目的、分析対象母集団の性質等を鑑み、適切な既存技術を事前に選択しておけばよい。

　表１の１行目から４行目の２列目には、関連言語表現候補の調査対象文書から特徴的な言語表現を抽出する方式の例が示されている。表１の１行目の２列目の関連言語表現候補の条件は「左記の調査対象文書にて特徴的な言語表現」である。特徴的な言語表現は、例えば、「高頻度に出現する言語表現」、「文書集合の母集団と比較して、調査対象文書に有意に高頻度で出現する言語表現」、又は「調査対象文書の主題を表している言語表現」である。ここで、例示した言語表現以外の言語表現を特徴的な言語表現としてもよい。この場合、「高頻度に出現する言語表現」等の判定に用いる閾値についても、事前に値を設定しておく。

表１の２行目から４行目の２列目の関連言語表現候補の条件は、調査対象文書の条件が異なることを除き、１行目の１列目の関連言語表現候補の条件と同一である。表１では、２行目から４行目の２列目の特徴的な言語表現を、１行目の１列目の特徴的な言語表現と同じとしているが、各行の特徴的な言語表現は、「高頻度に出現する言語表現」、「文書集合の母集団と比較して、調査対象文書に有意に高頻度で出現する言語表現」、「調査対象文書の主題を表している言語表現」のうちから、任意に選択することができる。

表１の５行目の２列目の関連言語表現候補の条件は、「着目文書集合で、着目言語表現と一定値以上で相関して出現する言語表現」としている。これ以外の関連言語表現候補の条件として、「各文書に付与された時間情報、カテゴリー情報、又はテキスト内容により、着目文書集合を細分化し、細分化された文書集合内で、着目言語表現と一定値以上で相関して出現する言語表現」を用いてもよい。

　特徴的言語表現抽出部４３０は、各調査対象文書において、特徴的な言語表現を全て関連言語表現候補としてもよい。また、特徴的言語表現抽出部４３０は、調査対象文書集合全体に対して、特徴的な言語表現をテキストマイニング技術や複数文書要約技術を用いて抽出し、抽出した言語表現を関連言語表現候補としてもよい。

　本実施形態では、調査対象文書条件選定部４１０と、調査対象文書集合取得部４２０と、特徴的言語表現抽出部４３０との３つの機能部を組み合わせることで、関連言語表現候補を生成する関連言語表現候補生成部４０として機能する。

　関連言語表現候補時系列データ取得部５０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。関連言語表現候補時系列データ取得部５０は、関連言語表現候補生成部４０が生成した各関連言語表現候補の時系列データを、文書集合データベース３０から取得（抽出）する機能を備える。なお、着目言語表現が関連言語表現候補に代わったのみであるから、関連言語表現候補時系列データ取得部５０が時系列データを抽出する処理方法は、着目言語表現時系列データ取得部２０が時系列データを抽出する処理方法と同様である。

　なお、時系列分析部６０が着目言語表現時系列データと時間的な相関性を分析することが可能となるように、時系列データを取得する範囲（開始時間、終了時間）、期間の長さについては、着目言語表現時系列データの範囲や期間の長さと同様としておく。

　時系列分析部６０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。時系列分析部６０は、着目言語表現時系列データ取得部２０が取得した時系列データと、関連言語表現候補時系列データ取得部５０が取得した各関連言語表現候補の時系列データとの間の時間的な相関性の有無を分析する機能を備える。すなわち、関連言語表現候補が候補１、候補２及び候補３の３つであった場合には、時系列分析部６０は、（着目言語表現、候補１）、（着目言語表現、候補２）、及び（着目言語表現、候補３）の３通りの組合せに対して、時間的な相関性の有無を分析する。

　なお、時系列分析として時間的な相関性の有無を分析する手法自体は、回帰分析等一般の統計手法として公開されている技法を用いればよい。

　また、着目言語表現の時系列データとある関連言語表現候補の時系列データとの間に時間的な相関が存在していたとしても、一方の時系列データの変化が、他方の時系列データの変化と必ずしも同期しているわけではない。よって、時間的な相関を調べる場合、時系列データ間に一定期間の時間遅れで相関する関係を許容してもよい。

　例えば、ある新規サービスを開始したとしても、その反響や影響は遅れてやってくるため、予め時間的な相関を調べる際に前後１ヶ月の時間遅れを許容して調べるように設定しておけばよい。そのようにすれば、「新規サービス」という着目言語表現の時系列データと、３週間遅れで「サービスが悪化」という関連言語表現候補の時系列データとの間に時間的相関性が生じる場合であっても、両者の相関を求めることができる。

　２つの時系列データが与えられたときに、両者の時間的な相関を調べるために必要となる計算量は、調べる時系列データの時間的な範囲が大きくなるほど、また許容する時間遅れが長くなるほど増大する。よって、２つの時系列データの時間的な相関を調べる前に、各時系列データにおいて大きな変化が起きている変化点をまず検出してもよい。そして、一方の時系列データの変化点に対応する変化点が、他方の時系列データ中に存在しているか否かを調べて、対応する可能性がある変化点の周辺区間のみ時間的な相関関係を調べてみる手法を用いてもよい。また、単純に各時系列データ中の変化点の周辺一定区間のみを時系列分析を行う対象範囲としてもよい。

　さらに、時系列データにおいて、ある時点で０（又は非常に少ない値）から、正の値になる時点を出現点、ある正の値から０（又は非常に少ない値）になる時点を消失点としたとき、一方の時系列データの出現点あるいは消失点に注目してもよい。そして、その出現点又は消失点周辺一定区間を優先的に時系列分析を行う対象範囲としてもよい。

　図３は、着目言語表現と正の相関をとる関連言語表現候補の時系列データの例を示す説明図である。ここでは、着目言語表現は「耐震ジェルは有効」、関連言語表現候補は「中越地震が発生」及び「突っ張り棒も使う」である。図３に示す例では、各言語表現のインターネット上における出現数を時系列データとしている。図３に示す例では、着目言語表現「耐震ジェルは有効」が２００４年の後半から急に増大している。着目言語表現「耐震ジェルは有効」の増大と正に相関して、関連言語表現候補「中越地震が発生」が出現し急に増大している。図３に示す「耐震ジェルは有効」と「中越地震が発生」との例で正の相関関係があるのは、２００４年１０月頃から２００５年２月頃の範囲である。また、図３に示す例では、２００６年３月頃から２００７年初頭に至る範囲で、着目言語表現「耐震ジェルは有効」と関連言語表現候補「突っ張り棒も使う」とが、正に相関してそれぞれ増大している。

　図４は、着目言語表現と負の相関をとる関連言語表現候補の時系列データの例を示す説明図である。ここでは、着目言語表現は「ディーゼル車は環境に悪い」、関連言語表現候補は「ディーゼル車は低公害」である。図４に示す例においても、各言語表現のインターネット上における出現数を時系列データとしている。図４に示す例では、着目言語表現「ディーゼル車は環境に悪い」が２００５年の中頃から急に減少しているのに対して、関連言語表現候補「ディーゼル車は低公害」が、２００５年５月頃から急に増大している。そして、負の相関関係は、２００５年１１月頃の範囲で見られる。また、図４に示す例では、着目言語表現の時系列データに１ヶ月程度の時間遅れが存在する。このように、それぞれの時系列データにおける大きな変化が起きた時点（変化点）の周囲一定期間を優先して時系列分析することで、図４に示す例でも効率よく検出することが可能である。

　関連度計算部７０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。関連度計算部７０は、時系列分析部６０の分析結果を用いて、着目言語表現と関連言語表現候補との関連度を計算する機能を備える。この場合、関連度計算部７０は、関連言語表現候補生成部４０が生成した関連言語表現候補の各々に対して関連度を計算してもよい。また、関連度計算部７０は、時系列分析部６０が着目言語表現と一定値以上の時間的な相関性を検出した関連言語表現候補のみに対して、関連度を計算してもよい。

　関連度は、基本的には、時系列分析部６０が検出した時間的な相関性の大小を示すものとする。具体的には、関連度として、着目言語表現の時系列データと関連言語表現候補の時系列データとの相関の度合いを示す相関係数を用いることができる。また、関連度計算部７０は、相関係数を相関性が見られた時間範囲で平均化することによって関連度を求めてもよく、時間範囲の最大値を求めることによって関連度を求めてもよい。また、関連度計算部７０は、相関係数に基づいて、何らかの正規化や代表値化の処理を行った値を関連度として求めてもよい。

　また、関連度計算部７０は、関連言語表現候補生成部４０が関連言語表現候補を生成する際に関連言語表現候補を選定するための何らかの尺度を用いた場合には、その尺度の値と、時系列分析部６０が検出した時間的な相関の度合いを示す値との線形和を関連度として求めてもよい。なお、関連言語表現候補を選定するために用いられる尺度の例としては、着目文書からその関連言語表現候補を含む文書までのリンクのホップ数や、着目文書集合とその関連言語表現候補を含む文書とのテキスト類似度等がある。

　また、関連度計算部７０は、関連言語表現候補とその関連度の計算結果を、関連情報出力装置８０に渡す（出力する）機能を備える。この場合、関連度計算部７０は、関連度の他に、時系列分析部６０の分析結果や、時間的な相関性が検出された時間範囲をあわせて関連情報出力装置８０に渡してもよい。

　関連情報出力装置８０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵ、及び液晶表示装置等の出力装置によって実現される。関連情報出力装置８０は、関連度計算部７０の計算結果に基づいて、着目言語表現と関連度が高い言語表現を、着目言語表現の関連情報として出力する機能を備える。なお、関連情報出力装置８０は、関連度計算部７０が関連度を計算した関連言語表現候補のうち、別途定められた閾値以上の関連度が算出された関連言語表現候補のみを出力してもよいし、関連言語表現候補と関連度との組を全て出力してもよい。

　また、関連情報出力装置８０は、各関連言語表現候補に対して、着目言語表現と時間的な相関関係が存在した時間の範囲とを、あわせて出力してもよい。また、関連情報出力装置８０は、さらに、関連言語表現候補の時系列データを出力してもよい。

　以上に説明した構成を備えることにより、本実施形態において、情報分析装置は、分析対象として着目する言語表現と同一文書内に共起する統計的傾向が少ない言語表現に対しても、着目言語表現との関連性を分析することができる。よって、もともと着目文書集合において、着目言語表現と共起して出現する傾向が大きい言語表現のように、本実施形態に示す情報分析装置を用いなくても、着目言語表現と関連することが自明である言語表現については、関連言語表現候補に含まれていたとしても、関連情報出力装置８０において、そのような自明である言語表現を出力せず、自明でない言語表現のみ出力するようにしてもよい。

　また、上記に示したような出力する関連言語表現候補の篩い分けの処理は、関連言語表現候補生成部４０、関連言語表現候補時系列データ取得部５０、時系列分析部６０、関連度計算部７０、及び関連情報出力装置８０のいずれの機能部で行ってもよい。また、テキストマイニング技術を用いて、着目文書集合において着目言語表現との共起の度合いを調べ、統計的に着目言語表現と一定値以上の高い相関をもって出現する言語表現を、関連言語表現候補からふるい落とすように処理してもよい。

　本実施形態では、情報分析装置は、以上に示す構成を備えることで、入力した着目言語表現と統計的に高頻度では文書内共起して出現しない言語表現であっても、両者の言語表現の時系列データに時間的な相関性がある場合には、相関性がある言語表現を着目言語表現の関連情報として出力することができる。

なお、本実施形態において、情報分析装置を実現する情報処理装置の記憶装置は、時間情報つき文書等の情報を分析するための各種プログラムを記憶している。例えば、情報分析装置を実現する情報処理装置の記憶装置は、コンピュータに、入力した分析対象の言語表現と関連性の高い言語表現の候補を、関連言語表現候補として生成する関連言語表現候補生成処理と、入力した言語表現と、生成した関連言語表現候補との関連度を計算する関連度計算処理とを実行させるための情報分析用プログラムを記憶している。

図１３は本実施形態の障害原因分析システムを構成するコンピュータの一構成例を示すブロック図である。

図１に示す、情報分析装置の着目言語表現入力部１０と関連情報出力装置８０の機能の一部、及び着目言語表現時系列データ取得部２０、関連言語表現候補生成部４０、関連言語表現候補時系列データ取得部５０、時系列分析部６０、関連度計算部７０の機能を記述したプログラムをハードディスク装置等のディスク装置１００５に記憶し、また文書集合データベース３０のデータをディスク装置１００５に記憶する。ＣＰＵ１００４によりプログラムが実行される。入力部１００１は着目言語表現入力部１０の一部を構成し、キーボード等の入力デバイスとなる。液晶ディスプレイ等の表示部１００２は関連情報出力装置８０の一部を構成する。情報分析装置の各部はデータバス等のバス１００６で接続され、ＣＰＵ１００４の情報処理に必要な情報は記憶するＤＲＡＭ等のメモリ１００３に記憶される。

　また、本実施形態において、図１に示す各コンポーネントは、それぞれの機能を制御するプログラムとして実現され、ＦＤ（フロッピィディスク）等のフレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ、フラッシュメモリ等のコンピュータ読み取り可能な情報記録媒体に記憶されたり、インターネット等のネットワークを通して提供される。そして、それらのプログラムがコンピュータ等の情報処理装置に読み込まれて実行されることによって情報分析装置が実現されてもよい。

　次に、動作について説明する。図５は、情報分析装置が実行する関連情報出力動作の全体処理を示すフローチャートである。図５に示すように、まず、着目言語表現入力部１０は、ユーザの操作に従って、分析対象とする言語表現を入力として受け付ける（ステップＡ１）。

　次いで、着目言語表現時系列データ取得部２０は、文書集合データベース３０にアクセスし、着目言語表現に対する時系列データを文書集合データベース３０から取得（抽出）する（ステップＡ２）。ただし、このステップＡ２の処理は、後述するステップＡ３，Ａ４の処理と相互に独立性が高い処理であるため、ステップＡ５より以前であれば、ステップＡ２とステップＡ３，Ａ４との処理順序を変更してもよい。

　次に、関連言語表現候補生成部４０は、着目言語表現入力部１０が入力した着目言語表現と関連性の高い言語表現の候補を関連言語表現候補として生成する（ステップＡ３）。また、関連言語表現候補時系列データ取得部５０は、関連言語表現候補生成部４０が生成した各関連言語表現候補に対して、ステップＡ２と同様の処理に従って、各関連言語表現候補の時系列データを文書集合データベース３０から取得（抽出）する（ステップＡ４）。

　さらに、時系列分析部６０は、ステップＡ２で取得した着目言語表現に対する時系列データと、ステップＡ４で取得した各関連言語表現候補の時系列データとの時間的な相関性を求める時系列分析を行う（ステップＡ５）。次いで、関連度計算部７０は、ステップＡ５で求めた時系列分析の分析結果を用いて、着目言語表現と関連言語表現候補との関連度を計算する（ステップＡ６）。

　最後に、関連情報出力装置８０は、関連度計算部７０が求めた関連度に基づいて、関連度の高い関連言語表現を着目言語表現に対する関連情報として出力する（ステップＡ７）。

　以上に示す処理に従って、情報分析装置における全体動作の処理が終了する。

　次に、関連言語表現候補生成部４０が図２で示される詳細構成を備える場合、ステップＡ３に示す関連言語表現候補の生成処理の細部について説明する。図６は、関連言語表現候補生成部４０が実行する関連言語表現候補生成処理の例を示すフローチャートである。

　図６に示すように、まず、調査対象文書条件選定部４１０は、関連言語表現候補を求めるために、着目言語表現を含む着目文書集合とは異なる文書集合だが、着目言語表現ないし着目文書集合から一定の関係にある文書集合の条件を、調査対象文書の条件として選定する（ステップＢ１）。

　次いで、調査対象文書集合取得部４２０は、ステップＢ１で選定した条件を満たす調査対象文書の集合を、文書集合データベース３０から取得（抽出）する（ステップＢ２）。

　最後に、特徴的言語表現抽出部４３０は、調査対象文書集合取得部４２０が取得した調査対象文書集合において特徴的な言語表現を関連言語表現候補として抽出する（ステップＢ３）ことで、関連言語表現候補生成処理を終了する。

　以上のように、本実施形態によれば、入力した分析対象の言語表現と関連性の高い言語表現の候補を、関連言語表現候補として生成する。そして、入力した言語表現と生成した関連言語表現候補との関連度を計算する。そのため、分析対象として着目する言語表現と同一文書内に共起する言語表現でなくても、関連性の高い言語として関連度を求めることができる。従って、分析対象として着目する言語表現と同一文書内に共起する統計的傾向が少ない言語表現に対しても、着目する言語表現との関連性を分析することができる。

　また、本実施形態によれば、着目する言語表現の内容や、着目する言語表現を含む文書のテキスト内容、着目する言語表現を含む文書に付与されているメタ情報から、関連性の高い言語表現の候補を絞り込む。そして、絞り込んだ関連言語表現候補と着目言語表現との時系列分析を行うことで、着目言語表現と関連性の高い言語表現を出力することができる。

　具体的には、本実施形態において、関連言語表現候補生成部４０が図２に示す詳細構成を備えるように構成すれば、着目文書集合そのものではないが、着目言語表現や着目文書集合から一定の関係にある調査対象文書を一度選定し、その選定した調査対象文書に含まれる言語表現を、関連言語表現候補とすることができる。従って、時系列分析部６０において時間的な相関性を求める言語表現の候補数を適切に絞り込むことができ、処理を効率化することができる。

　すなわち、着目言語表現と時間的な相関性が高い関連言語表現が存在する場合、その関連言語表現は、着目文書集合自体に高頻度に出現しなくても、着目言語表現や着目文書集合から一定の関係にある文書には出現する確率が高いと考えられる。そこで、調査対象文書を適切に選定することで、真に時間的な相関性が高い関連言語表現の候補を、調査対象文書中に出現する特徴的な言語表現に絞り込む手法である。また、着目文書集合中に一度も出現しない言語表現であっても、その言語表現が調査対象文書に含まれており、分析対象母集団において、着目言語表現と時間的な相関性をもっていれば、関連言語表現として出力することが可能である。

実施形態２．
　次に、本発明の典型的な(exemplary)第２の実施形態について図面を参照して説明する。図７は、第２の実施形態における関連言語表現候補生成部４０の構成例を示すブロック図である。図７に示すように、本実施形態では、情報分析装置において、関連言語表現候補生成部４０が、着目文書集合相関分析部４４０と、限定的相関言語表現抽出部４５０とを含む点で、第１の実施形態と異なる。なお、関連言語表現候補生成部４０は、第１の実施形態で示した構成要素に加えて、着目文書集合相関分析部４４０及び限定的相関言語表現抽出部４５０を含んでもよい。

　本実施形態において、第１の実施形態との相違点は関連言語表現候補生成部４０の内部構成のみであり、情報分析装置の全体構成については、第１の実施形態と同様（図１参照）であるため、情報分析装置の全体構成に関しては説明を省略する。従って、以下、図７に従って、関連言語表現候補生成部４０の内部構成についてのみ説明する。

　図７に示すように、関連言語表現候補生成部４０は、着目文書集合相関分析部４４０及び限定的相関言語表現抽出部４５０を含む。着目文書集合相関分析部４４０は、着目文書集合に対して、着目言語表現と限定的に相関して出現する言語表現の有無を分析する。限定的相関言語表現抽出部４５０は、着目文書集合の分析結果から限定的に相関する言語表現を抽出する。

　着目文書集合相関分析部４４０は、テキストマイニング技術を用いて、着目文書集合に含まれている言語表現と、着目言語表現との相関性を分析する機能を備える。本実施形態では、着目文書集合相関分析部４４０は、入力した言語表現を含む電子文書の集合の一部もしくは全部において、入力した言語表現と相関して出現する言語表現を求める。また、着目文書集合相関分析部４４０は、着目文書集合をいくつかの部分集合に細分化し、着目文書集合全体ではなく、細分化した各部分集合において、その部分集合に含まれている言語表現と、着目言語表現との相関性を分析してもよい。

　なお、上記に示したテキストマイニング技術は、例えば、非特許文献１に記載されている。

　また、着目文書集合相関分析部４４０は、着目文書集合を細分化する手法として、各文書にメタ情報が付与されている場合には、そのメタ情報毎に分類することで細分化する手法を用いてもよい。また、着目文書集合相関分析部４４０は、各文書に付与されている時間情報を利用し、一定の期間毎に文書を区分けする手法を用いてもよい。さらに、着目文書集合相関分析部４４０は、各文書のテキスト内容から既存のテキストクラスタリング技術を用いて細分化してもよい。

　限定的相関言語表現抽出部４５０は、着目文書集合相関分析部４４０の分析結果を受けて、着目言語表現と限定的に相関する言語表現を、関連言語表現候補として抽出する機能を備える。本実施形態では、限定的相関言語表現抽出部４５０は、着目文書集合相関分析部４４０の算出結果を用いて、入力した言語表現と一定値以上で相関して出現する言語表現を、関連言語表現候補として抽出する。

　ここで、限定的に相関するとは、着目文書集合相関分析部４４０にて着目文書集合全体の分析を行う場合には、着目言語表現との相関性の度合いを示す値が、ある下限値から上限値までの間にある言語表現を指す。

　着目言語表現との相関性の度合いが、ある閾値より高い言語表現は、テキストマイニング技術を用いて求めることができる。そのため、情報分析装置を実現する際に、そのようなテキストマイニング技術等の関連技術で求めることができる言語表現を対象としない場合には、そこでの閾値をこの上限値として設定すればよい。逆に、テキストマイニング技術を用いて求めることができる言語表現も一度に求めたい場合には、この上限値を設定しなくてもよい。

　一方、下限値は設定することが求められる。下限値をあまりに低く設定すると関連言語表現候補として抽出する言語表現の数が多くなり、時系列分析部６０での計算量も増大する。そのため、下限値は、情報分析装置を実現する際の用途や目的、分析対象母集団の性質等を鑑みて事前に設定する。

　限定的相関言語表現抽出部４５０は、着目文書集合相関分析部４４０が着目文書集合の部分集合に対して着目言語表現との相関性を分析している場合には、各部分集合における着目言語表現との相関性を表す値が、一定値以上の言語表現を、限定的に相関する言語表現として抽出し、関連言語表現候補として求める。これは、例えば、着目文書集合全体では、着目言語表現と特に相関しているとは言えないが、ある期間やカテゴリ等に絞った文書集合に限定して分析すると、着目言語表現と相関性が高い言語表現を抽出していることになる。

　本実施形態では、情報分析装置は、以上に示す関連言語表現候補生成部４０の内部構成と、図１に示す全体構成とを備える。

　また、本実施形態において、図１及び図７に示す各コンポーネントは、それぞれの機能を制御するプログラムとして実現され、ＦＤ（フロッピィディスク）等のフレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ、フラッシュメモリ等のコンピュータ読み取り可能な情報記録媒体に記憶されたり、インターネット等のネットワークを通して提供される。そして、それらのプログラムがコンピュータ等の情報処理装置に読み込まれて実行されることによって情報分析装置が実現されてもよい。

　次に、動作について説明する。本実施形態において、情報分析装置が実行する関連情報出力動作の全体処理は、第１の実施形態で示した関連情報出力動作の全体処理と同様であるため、説明を省略する。第１の実施形態との相違点は、図５に示したステップＡ３における関連言語表現候補生成処理に関する部分のみであるので、以下、この関連言語表現候補生成処理に関して説明する。図８は、第２の実施形態における関連言語表現候補生成部４０が実行する関連言語表現候補生成処理の例を示すフローチャートである。

　図８に示すように、まず、着目文書集合相関分析部４４０は、着目文書集合の全部、又は一部の部分集合において、着目言語表現の相関分析を行う（ステップＣ１）。次に、限定的相関言語表現抽出部４５０は、ステップＣ１での相関分析の結果に基づいて、着目言語表現と限定的に相関する言語表現を抽出し、関連言語表現候補として出力する（ステップＣ２）ことで、本実施形態における関連言語表現候補生成処理を終了する。

　以上のように、本実施形態によれば、関連言語表現候補生成部４０が図７に示す詳細構成を備えるように構成すれば、着目文書集合に含まれてはいるものの、非特許文献１に記載されている関連技術のテキストマイニング技術を用いても着目言語表現と大きな相関性を見つけることができない言語表現に対して、着目言語表現との相関性を検出することができる。すなわち、本実施形態では、着目文書集合において、着目言語表現と限定的にのみ相関している言語表現を一旦関連言語表現候補として抽出する。そして、それらの関連言語表現候補に対して、分析対象母集団全体における着目言語表現と関連言語表現候補との時間的な相関性を調べる。そのようにすることにより、本当に着目言語表現と関連しているか否か確認することによって、テキストマイニング技術を用いても着目言語表現と大きな相関性を見つけることができない言語表現に対して、着目言語表現との相関性を検出することができる。

実施形態３．
　次に、本発明の典型的な(exemplary)第３の実施形態について図面を参照して説明する。図９は、第３の実施形態における関連言語表現候補生成部４０の構成例を示すブロック図である。図９に示すように、本実施形態では、情報分析装置において、関連言語表現候補生成部４０が、着目文書集合解析部４６０と、関連性示唆言語表現抽出部４７０とを含む点で、第１の実施形態と異なる。なお、関連言語表現候補生成部４０は、第１の実施形態または第２の実施形態で示した構成要素に加えて、着目文書集合解析部４６０及び関連性示唆言語表現抽出部４７０を含んでもよい。

　本実施形態において、第１の実施形態との相違点は関連言語表現候補生成部４０の内部構成のみであり、情報分析装置の全体構成については、第１の実施形態と同様（図１参照）であるため、情報分析装置の全体構成に関しては説明を省略する。従って、以下、図９に従って、関連言語表現候補生成部４０の内部構成についてのみ説明する。

　図９に示すように、関連言語表現候補生成部４０は、着目文書集合解析部４６０及び関連性示唆言語表現抽出部４７０を含む。着目文書集合解析部４６０は、着目文書集合の言語解析を行う。関連性示唆言語表現抽出部４７０は、言語解析の結果から着目言語表現との関連性を示唆する記述がある言語表現を抽出する。

　着目文書集合解析部４６０は、まず着目文書集合を求め、求めた着目文書集合の各文書の言語解析を行う機能を備える。本実施形態では、着目文書集合解析部４６０は、入力した言語表現を含む電子文書の集合の一部もしくは全部を言語解析する。なお、言語解析として具体的にどのような処理を行うかについては、情報分析装置を実現する際に取り扱う言語表現の種類や形式に応じて定める。着目文書集合を求める過程で既に各文書の言語解析が終了している場合には、新たに言語解析を行う必要はない。

　関連性示唆言語表現抽出部４７０は、着目文書集合の各文書に対して、着目言語表現周辺の言語解析結果を調べ、着目言語表現との関連性が示唆されている別の言語表現の記述が存在していないか探索する機能を備える。本実施形態では、関連性示唆言語表現抽出部４７０は、着目文書集合解析部４６０の解析結果を用いて、入力した言語表現との関連性が示唆されている言語表現を、関連言語表現候補として抽出する。関連性示唆言語表現抽出部４７０は、着目言語表現との関連性が示唆されている別の言語表現の記述が存在している場合には、そのような関連性が示唆されている言語表現を全て抽出し、関連言語表現候補として出力する。

　着目言語表現との関連性の示唆の判定を行うために、「＜言語表現＞と＜言語表現＞とが関係」や「＜言語表現＞は＜言語表現＞の原因」、「＜言語表現＞に＜言語表現＞が影響」、「＜言語表現＞のせいで＜言語表現＞が」のような、一方が他方の言語表現の原因や影響、関係を示唆しているテキストパターンを複数種類用意しておく。そして、関連性示唆言語表現抽出部４７０は、そのようなテキストパターンの一方の言語表現部分に着目言語表現がマッチしたとき、他方の言語表現を、関連言語表現候補として抽出すればよい。

　また、関連性示唆言語表現抽出部４７０は、他の方法として、着目文書集合の各文書を構文解析や意味解析まで行い、その解析結果から、着目言語表現との関係が示唆されている言語表現を抽出してもよい。

　また、本実施形態では、図１及び図９に示す各コンポーネントは、それぞれの機能を制御するプログラムとして実現され、ＦＤ（フロッピィディスク）等のフレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ、フラッシュメモリ等のコンピュータ読み取り可能な情報記録媒体に記憶されたり、インターネット等のネットワークを通して提供される。そして、それらのプログラムが計算機（コンピュータ）等に読み込まれて実行されることによって情報分析装置が実現されてもよい。

　次に、動作について説明する。本実施形態において、情報分析装置が実行する関連情報出力動作の全体処理は、第１の実施形態で示した関連情報出力動作の全体処理と同様であるため、説明を省略する。第１の実施形態との相違点は、図５に示したステップＡ３における関連言語表現候補生成処理に関する部分のみであるので、以下、この関連言語表現候補生成処理に関して説明する。図１０は、第３の実施形態における関連言語表現候補生成部４０が実行する関連言語表現候補生成処理の例を示すフローチャートである。

　図１０に示すように、まず、着目文書集合解析部４６０は、着目文書集合の言語解析を行う（ステップＤ１）。次に、関連性示唆言語表現抽出部４７０は、着目文書集合の各文書において、着目言語表現との関係が示唆された別の言語表現の記述が存在していないか探索する。そして、関連性示唆言語表現抽出部４７０は、探索した結果見つかった言語表現を抽出して、関連言語表現候補として出力する（ステップＤ２）ことで、本実施形態における関連言語表現候補生成処理を終了する。

　以上のように、本実施形態によれば、関連言語表現候補生成部４０が図９に示す詳細構成を備えるように構成すれば、着目文書の作成者の誰か１人でも、着目言語表現と別の言語表現との関連に気づき、それを着目文書中に記述していれば、その言語表現との関連性を検出することができる。もちろん、そのような着目文書の作成者の記述には間違いが多く含まれ得るため、関連性が示唆されている言語表現を一旦関連言語表現候補として抽出する。そして、それらの関連言語表現候補に対して、分析対象母集団全体における着目言語表現と関連言語表現候補との時間的な相関性を調べる。そのようにすることによって、本当に着目言語表現と関連しているか否かを確認することで、精度良く関連情報を検出することができる。

実施形態４．
　次に、本発明の典型的な(exemplary)第４の実施形態について図面を参照して説明する。図１１は、第４の実施形態における関連言語表現候補生成部４０の構成例を示すブロック図である。図１１に示すように、本実施形態では、情報分析装置において、関連言語表現候補生成部４０が、着目言語表現解析部４８０と、対立言語表現生成部４９０とを含む点で、第１の実施形態と異なる。なお、関連言語表現候補生成部４０は、第１の実施形態～第３の実施形態で示した構成要素に加えて、着目言語表現解析部４８０及び対立言語表現生成部４９０を含んでもよい。

　本実施形態において、第１の実施形態との相違点は関連言語表現候補生成部４０の内部構成のみであり、情報分析装置の全体構成については、第１の実施形態と同様（図１参照）であるため、情報分析装置の全体構成に関しては説明を省略する。従って、以下、図１１に従って、関連言語表現候補生成部４０の内部構成についてのみ説明する。

　図１１に示すように、関連言語表現候補生成部４０は、着目言語表現解析部４８０及び対立言語表現生成部４９０を含む。着目言語表現解析部４８０は、着目言語表現の言語解析を行う。対立言語表現生成部４９０は、言語解析の結果から着目言語表現と対立する言語表現を生成する。

　着目言語表現解析部４８０は、着目言語表現の言語解析を実行する機能を備える。言語解析の具体的な内容は、後述する対立言語表現生成部４９０での処理によって影響する。例えば、着目言語表現を否定形にした言語表現を、後述する対立言語表現生成部４９０にて生成する場合には、着目言語表現解析部４８０は、形態素解析と構文解析とを実行する必要がある。

　対立言語表現生成部４９０は、着目言語表現の言語解析結果を読み込み、着目言語表現と意味的に対立している言語表現を生成する機能を備える。本実施形態では、対立言語表現生成部４９０は、着目言語表現解析部４８０の解析結果を用いて、入力した言語表現と対立する言語表現を、関連言語表現候補として生成する。

　意味的に対立している言語表現の一例としては、対立言語表現生成部４９０は、例えば、もともと肯定形であった文を否定形に修正した文を生成する。また、対立言語表現生成部４９０は、例えば、もともと否定形であった文を肯定形に修正した文を生成する。また、対立言語表現生成部４９０は、例えば、否定を意味する形容詞や副詞、接頭辞等を加える手法を用いて、意味的に対立している言語表現を生成する。

　例えば、対立言語表現生成部４９０は、着目言語表現「耐震ジェルは有効」から、「耐震ジェルは有効でない」や「耐震ジェルは無効」等の言語表現を、対立言語表現として生成できる。このような対立言語表現の変形は、パターンマッチや構文解析技術を用いることで可能となる。

　また、反対語辞書や反意表現辞書、類義語辞書等の言語リソースを利用できる場合には、そのような各種辞書のリソースを使用することで、対立言語表現生成部４９０は対立言語表現を生成可能となる。例えば、類義語辞書に「環境によい」と「低公害」とが類義表現であるという知識が格納されていたとする。この場合、対立言語表現生成部４９０は、類義語辞書を用いて、着目言語表現「ディーゼル車は環境に悪い」から、一度否定形の「ディーゼル車は環境に良い」を生成する。また、対立言語表現生成部４９０は、さらに「ディーゼル車は低公害」を生成可能となる。

　なお、実際にどのような言語表現を対立言語表現として生成するかは、情報分析装置を実現する際の用途や目的、分析対象母集団の性質、利用可能な言語リソースの種類等に応じて定めておく。

　また、本実施形態では、図１及び図１１に示す各コンポーネントは、それぞれの機能を制御するプログラムとして実現され、ＦＤ（フロッピィディスク）等のフレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ、フラッシュメモリ等のコンピュータ読み取り可能な情報記録媒体に記憶されたり、インターネット等のネットワークを通して提供される。そして、それらのプログラムが計算機（コンピュータ）等に読み込まれて実行されることによって情報分析装置が実現されてもよい。

　次に、動作について説明する。本実施形態において、情報分析装置が実行する関連情報出力動作の全体処理は、第１の実施形態で示した関連情報出力動作の全体処理と同様であるため、説明を省略する。第１の実施形態との相違点は、図５に示したステップＡ３における関連言語表現候補生成処理に関する部分のみであるので、以下、この関連言語表現候補生成処理に関して説明する。図１２は、第４の実施形態における関連言語表現候補生成部４０が実行する関連言語表現候補生成処理の例を示すフローチャートである。

　図１２に示すように、着目言語表現解析部４８０は、着目言語表現の言語解析を行う（ステップＥ１）。次に、対立言語表現生成部４９０は、着目言語表現の言語解析結果から、着目言語表現と意味的に対立している対立言語表現を生成し、関連言語表現候補として出力する（ステップＥ２）ことで、本実施形態における関連言語表現候補生成処理を終了する。

　以上のように、本実施形態によれば、関連言語表現候補生成部４０が図１１に示す詳細構成を備えるようにすれば、言語処理技術によって着目言語表現と意味的に対立している対立言語表現を直接生成する。そして、そのようにすることで、対立言語表現が着目文書集合や調査対象文書集合に含まれているか否かに関わらず、着目言語表現との関連性を検出することができる。すなわち、全ての対立言語表現が、着目言語表現と実際に相関するとは限らないため、対立言語表現を一旦関連言語表現候補として抽出する。そして、それらの関連言語表現候補に対して、分析対象母集団全体における着目言語表現と関連言語表現候補との時間的な相関性を調べる。そのようにすることによって、本当に着目言語表現と関連しているか否かを確認することで、精度良く関連情報を検出することができる。

　以上説明した各実施形態の情報分析装置は、プログラムに従って動作するコンピュータ等の情報処理装置によって実現できる。すなわち、本発明に係わる情報分析装置はソフウェアによって実現できる。しかし、図１、図２、図７、図９、図１１に示す、情報分析装置の各部又はその一部を専用ＩＣで構成し、ハードウェアで構成することもできる。情報分析装置が、ネットワークを介して端末と接続されるサーバーである場合は、着目言語表現入力部１０と関連情報出力装置８０は端末と通信を行う通信部となり、キーボードやマウス、液晶表示装置は無くともよい。

以上説明した各実施形態の情報分析装置は情報分析装置を用いて入力した言語表現と関連性の高い言語表現を関連情報又は関連する検索条件として提示する検索システムの用途に適用できる。

図１４は、本発明による検索システムの構成を示すブロック図である。図１４に示す検索システムは、情報分析装置２００と、関連情報含有文書検索部９０と、関連文書出力装置１００と、検索対象文書データベース１１０とを含んでいる。情報分析装置２００は図１に示した第１の実施形態の情報分析装置であるが、第２～第４の実施形態の情報分析装置のいずれかを用いてもよい。

関連情報含有文書検索部９０は、関連情報出力装置８０で関連情報として出力する関連言語表現を、検索条件として受け取り、検索対象文書データベース１１０でアクセス可能な複数の文書の中から、受け取った関連言語表現を含んでいる文書を検索する。関連文書出力装置１００は、関連情報含有文書検索部９０で検索された文書を関連文書として出力する。検索対象文書データベース１１０は、検索対象とする文書集合へのアクセスを可能にするデータベースである。検索対象文書データベース１１０の構成は、文章集合データベース３０と同じであってもよいし、インターネットテキストのような文書集合に対するアクセスを提供するデータベースであってよい。検索対象とする文書集合は検索対象文書データベース１１０の中に蓄積されていてもよいし、ＵＲＬのような各文書へのアクセス手段のみが提供され、文書の実体は外部に蓄積されていてもよい。関連情報出力装置８００は関連度計算部７０の計算結果に基づいて、着目言語表現と関連度が高い言語表現を、着目言語表現の関連情報として出力する機能を備えていればよく、液晶表示装置等の出力装置を含んでいなくともよい。

以上、本発明の代表的な実施形態について説明したが、本発明は、本願の請求の範囲によって規定される、その精神または主要な特徴から逸脱することなく、他の種々の形で実施することができる。そのため、前述した各実施形態は単なる例示にすぎず、限定的に解釈されるべきではない。本発明の範囲は特許請求の範囲によって示すものであって、明細書や要約書の記載には拘束されない。さらに、特許請求の範囲の均等範囲に属する変形や変更はすべて本発明の範囲内のものである。

本願は、２００８年１月３０日に出願された特願２００８－０１９０１４号に基づき、優先権の利益を主張するものである。そして、特願２００８－０１９０１４号の内容は本願の明細書の内容に含まれる。

　本発明は、ブログ等のインターネット上のテキストや、コールセンタの応対履歴等の時間情報が付与された文書データの分析の用途に適用できる。また、本発明は、定期的に実行されるアンケート調査や、市場調査の結果の分析等の用途に適用できる。さらに、本発明は、着目言語表現に関連性の高い言語表現を検出することで、文書検索のナビゲーションや、検索結果の分類等の用途にも適用可能である。
　

Claims

　入力された分析対象の言語表現に対応する時系列データを取得する着目言語表現時系列データ取得部と、
　前記言語表現と関連性の高い言語表現の候補を、関連言語表現候補として生成する関連言語表現候補生成部と、
　前記関連言語表現候補生成部が生成した前記関連言語表現候補について、前記関連言語表現候補に対応する時系列データを取得する関連言語表現候補時系列データ取得部と、
　前記着目言語表現時系列データ取得部が取得した時系列データと、前記関連言語表現候補時系列データ取得部が取得した時系列データとの間の時間的な相関性を分析する時系列分析部と、
　前記時系列分析部の分析結果を用いて、前記言語表現と、前記関連言語表現候補生成部が生成した前記関連言語表現候補との関連度を計算する関連度計算部と、
を備えたことを特徴とする情報分析装置。
　前記関連言語表現候補生成部は、
　前記言語表現を含む電子文書のテキスト内容、又は前記言語表現を含む文書に付与されているメタ情報を用いて、前記関連言語表現候補を調査する文書の抽出条件を選定する調査対象文書条件選定部と、
　前記抽出条件を満たす電子文書の集合を取得する調査対象文書集合取得部と、
　前記調査対象文書集合取得部が取得した電子文書の集合から特徴的な言語表現を、関連言語表現候補として抽出する特徴的言語表現抽出部とを含む
　請求項１記載の情報分析装置。
　前記調査対象文書条件選定部は、前記言語表現を含む電子文書の集合の一部もしくは全部に対して、同一もしくは類似する分野の電子文書又は同一もしくは類似するトピックの電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定する請求項２記載の情報分析装置。
　前記調査対象文書条件選定部は、前記言語表現を含む電子文書から一定ホップ数以内でリンクされる電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定する請求項２記載の情報分析装置。
　前記調査対象文書条件選定部は、前記言語表現を含む電子文書に対して一定値以内のテキスト類似度をもつ電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定する請求項２記載の情報分析装置。
　前記調査対象文書条件選定部は、前記言語表現を含む電子文書の集合の一部もしくは全部と、作者又は発信者が共通する他の電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定する請求項２記載の情報分析装置。
　前記関連言語表現候補生成部は、
　前記言語表現を含む電子文書の集合の一部もしくは全部において、前記言語表現と相関して出現する言語表現を求める着目文書集合相関分析部と、
　前記着目文書集合相関分析部の算出結果を用いて、前記言語表現と一定値以上で相関して出現する言語表現を、関連言語表現候補として抽出する限定的相関言語表現抽出部とを含む
　請求項１記載の情報分析装置。
　前記関連言語表現候補生成部は、
　前記言語表現を含む電子文書の集合の一部もしくは全部を言語解析する着目文書集合解析部と、
　前記着目文書集合解析部の解析結果を用いて、前記言語表現との関連性が示唆されている言語表現を、関連言語表現候補として抽出する関連性示唆言語表現抽出部とを含む
　請求項１記載の情報分析装置。
　前記関連言語表現候補生成部は、
　前記言語表現を言語解析する着目言語表現解析部と、
　前記着目言語表現解析部の解析結果を用いて、前記言語表現と対立する言語表現を、関連言語表現候補として生成する対立言語表現生成部とを含む
　請求項１記載の情報分析装置。
請求項１から請求項９のいずれか１項に記載の情報分析装置と、該情報分析装置から出力される、着目言語表現と関連度が高い関連言語表現を検索条件として、複数の検索対象文書から該関連言語表現を含む文書を検索する関連情報含有文書検索部と、
前記関連情報含有文書検索部で検索された文書を出力する関連文書出力部とを備えた検索システム。
　入力された分析対象の言語表現に対応する時系列データを取得し、
　前記言語表現と関連性の高い言語表現の候補を、関連言語表現候補として生成し、
　生成した前記関連言語表現候補について、前記関連言語表現候補に対応する時系列データを取得し、
　取得した前記言語表現に対応する時系列データと、取得した前記関連言語表現候補に対応する時系列データとの間の時間的な相関性を分析し、
　前記時系列データ間の時間的な相関性の分析結果を用いて、前記言語表現と前記関連言語表現候補との関連度を計算することを含む情報分析方法。
　前記関連言語表現候補の生成は、
　前記言語表現を含む電子文書のテキスト内容、又は前記言語表現を含む文書に付与されているメタ情報を用いて、前記関連言語表現候補を調査する文書の抽出条件を選定し、
　前記抽出条件を満たす電子文書の集合を取得し、
　取得した電子文書の集合から特徴的な言語表現を、関連言語表現候補として抽出することを含む請求項１１記載の情報分析方法。
　前記抽出条件の選定は、
前記言語表現を含む電子文書の集合の一部もしくは全部に対して、同一もしくは類似する分野の電子文書又は同一もしくは類似するトピックの電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定することである請求項１２記載の情報分析方法。
　前記抽出条件の選定は、
前記言語表現を含む電子文書から一定ホップ数以内でリンクされる電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定することである請求項１２記載の情報分析方法。
前記抽出条件の選定は、
前記言語表現を含む電子文書に対して一定値以内のテキスト類似度をもつ電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定することである請求項１２記載の情報分析方法。
前記抽出条件の選定は、
前記言語表現を含む電子文書の集合の一部もしくは全部と、作者又は発信者が共通する他の電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定することである請求項１２記載の情報分析方法。
　前記関連言語表現候補の生成は、
　前記言語表現を含む電子文書の集合の一部もしくは全部において、前記言語表現と相関して出現する言語表現を求め、
　前記相関して出現する言語表現の算出結果を用いて、前記言語表現と一定値以上で相関して出現する言語表現を、関連言語表現候補として抽出することを含む請求項１１記載の情報分析方法。
　前記関連言語表現候補の生成は、
　前記言語表現を含む電子文書の集合の一部もしくは全部を言語解析し、
　前記言語解析の解析結果を用いて、前記言語表現との関連性が示唆されている言語表現を、関連言語表現候補として抽出することを含む請求項１１記載の情報分析方法。
　前記関連言語表現候補の生成は、
　前記言語表現を言語解析し、
　前記言語解析の解析結果を用いて、前記言語表現と対立する言語表現を、関連言語表現候補として生成することである請求項１２記載の情報分析方法。
　コンピュータに、
　入力された分析対象の言語表現に対応する時系列データを取得する着目言語表現時系列データ取得処理と、
　前記言語表現と関連性の高い言語表現の候補を、関連言語表現候補として生成する関連言語表現候補生成処理と、
　生成した前記関連言語表現候補について、前記関連言語表現候補に対応する時系列データを取得する関連言語表現候補時系列データ取得処理と、
　取得した前記言語表現に対応する時系列データと、取得した前記関連言語表現候補に対応する時系列データとの間の時間的な相関性を分析する時系列分析処理と、
　前記時系列データ間の時間的な相関性の分析結果を用いて、前記言語表現と前記関連言語表現候補との関連度を計算する関連度計算処理と、
を実行させるための情報分析用プログラム。
　コンピュータに、
　前記関連言語表現候補生成処理で、
　前記言語表現を含む電子文書のテキスト内容、又は前記言語表現を含む文書に付与されているメタ情報を用いて、前記関連言語表現候補を調査する文書の抽出条件を選定する処理と、
　前記抽出条件を満たす電子文書の集合を取得する処理と、
　取得した電子文書の集合から特徴的な言語表現を、関連言語表現候補として抽出する処理とを実行させる
　請求項２０記載の情報分析用プログラム。
　コンピュータに、
　前記調査対象文書条件選定処理で、前記言語表現を含む電子文書の集合の一部もしくは全部に対して、同一もしくは類似する分野の電子文書又は同一もしくは類似するトピックの電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定する処理を実行させる
　請求項２１記載の情報分析用プログラム。
　コンピュータに、
　前記調査対象文書条件選定処理で、前記言語表現を含む電子文書から一定ホップ数以内でリンクされる電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定する処理を実行させる
　請求項２１記載の情報分析用プログラム。
　コンピュータに、
　前記調査対象文書条件選定処理で、前記言語表現を含む電子文書に対して一定値以内のテキスト類似度をもつ電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定する処理を実行させる
　請求項２１記載の情報分析用プログラム。
　コンピュータに、
　前記調査対象文書条件選定処理で、前記言語表現を含む電子文書の集合の一部もしくは全部と、作者又は発信者が共通する他の電子文書であることを、前記関連言語表現候補を調査する文書の抽出条件として選定する処理を実行させる
　請求項２１記載の情報分析用プログラム。
　コンピュータに、
　前記関連言語表現候補生成処理で、
　前記言語表現を含む電子文書の集合の一部もしくは全部において、前記言語表現と相関して出現する言語表現を求める処理と、
　前記相関して出現する言語表現の算出結果を用いて、前記言語表現と一定値以上で相関して出現する言語表現を、関連言語表現候補として抽出する処理とを実行させる
　請求項２０記載の情報分析用プログラム。
　コンピュータに、
　前記関連言語表現候補生成処理で、
　前記言語表現を含む電子文書の集合の一部もしくは全部を言語解析する処理と、
　前記言語解析の解析結果を用いて、前記言語表現との関連性が示唆されている言語表現を、関連言語表現候補として抽出する処理とを実行させる
　請求項２０記載の情報分析用プログラム。
　コンピュータに、
　前記関連言語表現候補生成処理で、
　前記言語表現を言語解析する処理と、
　前記言語解析の解析結果を用いて、前記言語表現と対立する言語表現を、関連言語表現候補として生成する処理とを実行させる
　請求項２０記載の情報分析用プログラム。