JP2018092367A

JP2018092367A - 関連語抽出装置及びプログラム

Info

Publication number: JP2018092367A
Application number: JP2016235181A
Authority: JP
Inventors: 菊佳三浦; Kikuka Miura; 住吉　英樹; Hideki Sumiyoshi; 英樹住吉; 太郎宮▲崎▼; Taro Miyazaki; 後藤　淳; Atsushi Goto; 淳後藤
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2018-06-14

Abstract

【課題】共起や概念辞書によらずに関連語を抽出する。【解決手段】関連語抽出装置１０の時系列テキスト記憶部１２２は、時刻情報と対応付けられたテキストデータである時系列テキストを記憶し、時系列頻度抽出部１２４は、時系列テキストに含まれる各文字列の時系列の出現頻度を抽出する。相関値算出部１２５は、異なる文字列の間の因果関係の強さを定量的に表す値である相関値を、それら異なる文字列のそれぞれについて時系列頻度抽出部１２４が抽出した時系列の出現頻度を用いて算出し、算出された相関値に基づいてそれら異なる文字列が関連するか否かを判定する。出力部１３は、キーワードの文字列に関連すると相関値算出部１２５により判定された他の文字列を関連語として出力する。【選択図】図１

Description

本発明は、関連語抽出装置及びプログラムに関する。

これまでの一般的な関連語提示技術では、語の共起を元にした指標を用いてある語の関連語を算出していた（例えば、特許文献１参照）。このような語の共起を元にした関連語提示技術には、dice係数、ニューラルネットを用いたword2vecなどもある。この関連語提示技術では、同一文書内に互いの語が出現しないと、指標により表される関連度が高くならない。

一方、概念辞書を用いた関連語提示技術がある（例えば、特許文献２参照）。この関連語提示技術では、予め概念辞書を用意する必要がある。既存の概念辞書には、上位下位関係、因果関係など、なんらかの既知の関係がある語が列挙される。

特許第３５９８２１１号公報特開２０１５−１３０１１１号公報

共起を元にした関連語提示技術では、似た意味の語が関連語として提示されることが多い傾向にある。しかし、実際には「プール」と「朝顔」は意味も分野も違うが、毎年夏に特徴的な語であり、同様に「鏡餅」と「こたつ」は冬に特徴的な語であることから、これらの語の間には関連性があると思われる。共起を元にした関連語提示技術では、同一文書内にこれらの単語同士が出現していないと、関連語として得られなかった。また、このような２語の間には明示的な関係が表現できないものも多く、既存の概念辞書に含まれにくいため、概念辞書を用いた関連語提示技術でも関連語として得られなかった。

時系列を考慮したトピックを基に単語の生起確率を求めるモデルとして、ＤＴＭ（Dynamic Topic Model）がある。しかし、ＤＴＭは、毎年のこの時期、といった周期には対応していないため、離散フーリエ変換などを用いて周期性を特定する必要があった。また、ある語が常に同じ周期で出現するとは限らない。例えば、ある事件が起こり、それ以降は、その事件が起こった時期になると出現が多くなる語や、ある時点で話題の流行が終わり、出現しなくなる語もある。

本発明は、このような事情を考慮してなされたもので、語の共起や概念辞書によらずに関連語を抽出することができる関連語抽出装置及びプログラムを提供する。

本発明の一態様は、テキストデータに含まれる各文字列の関連語を抽出する関連語抽出装置であって、所定のキーワードを入力する入力部と、時刻情報と対応付けられた前記テキストデータである時系列テキストを記憶する記憶部と、前記時系列テキストに含まれる前記各文字列が時系列で出現するときの出現頻度である時系列頻度を抽出する時系列頻度抽出部と、前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、異なる前記文字列の間の因果関係の強さを定量的に表す値である相関値を算出し、算出された前記相関値に基づいて異なる前記文字列が関連するか否かを判定する相関値算出部と、前記相関値算出部が前記キーワードの文字列に関連すると判定した他の前記文字列を関連語として出力する出力部と、を備えることを特徴する関連語抽出装置である。
この発明によれば、関連語抽出装置は、時刻情報と対応付けられたテキストデータである時系列テキストを参照し、各文字列の時系列の出現頻度を算出する。関連語抽出装置は、算出した時系列の出現頻度を用いて文字列間に因果関係があるか否かを判定し、キーワードと因果関係があると判定した文字列を関連語として出力する。
これより、関連語抽出装置は、語の共起や概念辞書を用いることなく、キーワードと時期を同じくして話題となる語や、キーワードに関する事象と因果関係がある事象に関する語を関連語として提示することができる。

本発明の一態様は、上述する関連語抽出装置であって、コンテンツに関する情報を示すテキストデータであるコンテンツテキスト情報を記憶するコンテンツ情報記憶部と、前記関連語を用いて前記コンテンツテキスト情報を検索するコンテンツ検索部とをさらに備え、前記出力部は、前記コンテンツ検索部が検索した結果得られた前記コンテンツテキスト情報により特定される前記コンテンツの情報を出力する、ことを特徴とする。
この発明によれば、関連語抽出装置は、キーワードの関連語を用いてコンテンツを検索し、検索により特定されたコンテンツの情報をユーザに提示する。
本実施形態によれば、関連語抽出装置は、キーワードに関連したコンテンツをユーザに提示することができる。

本発明の一態様は、上述する関連語抽出装置であって、前記記憶部は、インターネット上のウェブページに含まれる前記テキストデータ及び前記時刻情報を含む第１の時系列テキストと、コンテンツに関する情報を示すテキストデータ及び時刻情報を含む第２の時系列テキストとを記憶し、当該関連語抽出装置は、前記第１の時系列テキストからキーワードを抽出するキーワード抽出部をさらに有し、前記時系列頻度抽出部は、前記第１の時系列テキストに含まれる前記キーワードの時系列頻度と、前記第２の時系列テキストに含まれる各文字列の時系列頻度とを抽出し、前記相関値算出部は、前記キーワードと前記文字列のそれぞれについて前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、前記キーワードと前記文字列との相関値とを算出し、算出された当該相関値に基づいて前記文字列が前記キーワードに関連するか否かを判定し、前記出力部は、前記相関値算出部により前記キーワードに関連すると判定された前記文字列をコンテンツのテーマを表す関連語として出力し、出力した当該関連語を含む前記第２の時系列テキストにより特定される前記コンテンツの情報を出力する。
この発明によれば、関連語抽出装置は、インターネットで話題となっている語をキーワードとして抽出し、そのキーワードのインターネット上での時系列の出現頻度と、コンテンツに関する情報から得られた各文字列の時系列の出現頻度とを用いて、コンテンツに関する情報からキーワードの関連語を取得する。関連語抽出装置は、取得した関連語を用いてコンテンツを検索し、関連語により示されるコンテンツのテーマと、その関連語が得られた時系列テキストにより特定されるコンテンツの情報を、ユーザに提示する。
これにより、関連語抽出装置は、インターネット上で話題となっている事象に関連するコンテンツと、そのコンテンツのテーマとをユーザに提示することができる。

本発明の一態様は、コンピュータを、上述したいずれかの関連語抽出装置として機能させるためのプログラムである。

本発明によれば、語の共起や概念辞書によらずに関連語を抽出することができる。

本発明の第１の実施形態による関連語抽出装置の構成を示す機能ブロック図である。同実施形態による時系列文字列テーブルの例を示す図である。同実施形態による関連語テーブルの例を示す図である。同実施形態による関連語抽出装置の動作を示すフローチャートである。同実施形態による時系列頻度抽出部の時系列文字列テーブル作成処理を示すフローチャートである。２つの文字列の時系列の頻度の例を表す図である。第２の実施形態による関連語抽出装置の構成を示す機能ブロック図である。同実施形態による関連語抽出装置の動作を示すフローチャートである。第３の実施形態による関連語抽出装置の構成を示す機能ブロック図である。第４の実施形態による関連語抽出装置の構成を示す機能ブロック図である。第５の実施形態による関連語抽出装置の構成を示す機能ブロック図である。同実施形態による関連語抽出装置の動作を示すフローチャートである。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

［第１の実施形態］
本実施形態では、ユーザが指定したキーワードの関連語を抽出する。
図１は、第１の実施形態による関連語抽出装置１０の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。関連語抽出装置１０は、入力部１１と、関連語抽出部１２と、出力部１３とを備え、関連語抽出部１２は、時系列テキスト記憶部１２２と時系列文字列テーブル記憶部１２３とを備える。

関連語抽出装置１０は、時刻情報と対応付けられたテキストデータである時系列テキストを記憶し、時系列テキストに含まれる各文字列の時系列の出現頻度を抽出する。そして、関連語抽出装置１０は、異なる文字列の間の因果関係の強さを定量的に表す値である相関値を、それら異なる文字列のそれぞれについて時系列の出現頻度を用いて算出し、算出された相関値に基づいてそれら異なる文字列が関連するか否かを判定し、関連すると判定された異なる文字列同士を関連語とする。関連語抽出装置１０は、所定のキーワードが入力されると、そのキーワードの文字列に関連すると判定された他の文字列を関連語として出力する。

入力部１１は、例えば、ネットワークを介して接続される端末からキーワードなどの入力データを受信する。入力部１１は、関連語抽出装置１０が備えるキーボードなどの入力装置から入力データを受信してもよく、コンピュータ読み取り可能な記憶媒体から入力データを読み出してもよい。

関連語抽出部１２は、入力部１１が入力を受けたキーワードの関連語を抽出する。関連語抽出部１２は、記憶部１２１と、時系列頻度抽出部１２４と、相関値算出部１２５とを備える。

記憶部１２１は、時系列テキスト記憶部１２２と、時系列文字列テーブル記憶部１２３とを備え、各種データを記憶する。なお、関連語抽出装置１０とネットワークを介して接続されるサーバ装置などに時系列テキスト記憶部１２２を備えてもよい。

時系列テキスト記憶部１２２は、時刻情報と対応付けられたテキストデータを含む文書データである時系列テキストを記憶する。時系列テキストは、例えば、ニュース記事、ウェブテキスト、番組字幕、電子番組表（ＥＰＧ：Electronic Program Guide）などを含む。例えば、時系列テキストがニュース記事である場合には、テキストデータはニュース記事の内容を含み、時刻情報はニュース記事の内容に含まれる日時の情報、あるいは、ニュース記事の作成日時又は公開日時を含む。また、時系列テキストが、インターネット上のウェブで公開したブログである場合には、テキストデータはブログの投稿内容の文章を含み、時刻情報は、ブログの投稿日時又は公開日時を含む。さらに、時系列テキストが番組字幕の場合には、テキストデータは字幕の内容を含み、時刻情報は、番組の放送開始日時または、字幕の提示時刻としてもよい。また、時系列テキストが電子番組表の場合には、テキストデータは番組名、番組のサブタイトル、番組概要などを含み、時刻情報は番組の放送開始日時を含む。

時系列文字列テーブル記憶部１２３は、各文字列の時系列の出現頻度（以下、単に「頻度」ともいう。）を示すデータである時系列文字列テーブルを記憶する。頻度は、文字列が出現した時系列テキストの数としてもよく、全時系列テキストにおいて文字列が出現した数としてもよい。いずれを頻度とするかを、ユーザが設定してもよい。

時系列頻度抽出部１２４は、時系列テキスト記憶部１２２に記憶される時系列テキストから各文字列の時系列の頻度を算出し、時系列文字列テーブルを作成する。
相関値算出部１２５は、時系列文字列テーブルが示す各文字列の時系列の頻度に基づいて、文字列同士の相関値を算出する相関値算出処理を行う。ここで、相関値は、文字列間の因果関係の強さを定量的に表す値である。
相関値算出部１２５は、算出された相関値に基づいて一定以上の相関があると判断した文字列同士を対応づけた関連語テーブルを生成する。相関値算出部１２５は、入力されたキーワードの関連語を関連語テーブルから抽出する。

出力部１３は、ネットワークを介して接続される端末へ相関値算出部１２５が抽出した関連語などのデータを送信し、表示させる。なお、出力部１３は、関連語抽出装置１０が備えるディスプレイなどの表示装置に出力データを表示してもよく、コンピュータ読取可能な記憶媒体へ出力データを書き込んでもよい。

図２は、時系列文字列テーブルの例を示す図である。同図に示す時系列文字列テーブルは、ｎ個（ｎは２以上）の異なる文字列Ｗ１、Ｗ２、…、Ｗｎの頻度を、２０１６年１月１日から１日単位で示している。

図３は、関連語テーブルの例を示す図である。関連語テーブルは、文字列と、その文字列に関連する他の文字列である関連語とを対応付けたデータである。文字列及び関連語は、時系列テキスト記憶部１２２が記憶する時系列テキストに出現する文字列である。

＜関連語抽出装置１０の動作＞
続いて、関連語抽出装置１０の動作を説明する。
図４は、関連語抽出装置１０の動作を示すフローチャートである。
まず、ステップＳ１０５において、関連語抽出装置１０の入力部１１は、キーワードの入力を受ける。例えば、関連語抽出装置１０の入力部１１は、ユーザが入力したキーワードを端末から受信し、関連語抽出部１２に出力する。
ステップＳ１１０において、関連語抽出部１２の時系列頻度抽出部１２４は、図５に示す時系列文字列テーブル作成処理を行う。

図５は、時系列頻度抽出部１２４の時系列文字列テーブル作成処理を示すフローチャートである。
ステップＳ２０５において、時系列頻度抽出部１２４は、時系列テキスト記憶部１２２に記憶される時系列テキストのうち、未選択の一つを選択して読み出す。
ステップＳ２１０において、時系列頻度抽出部１２４は、選択した時系列テキストから時刻情報を取得する。

ステップＳ２１５において、時系列頻度抽出部１２４は、取得した時刻情報と対応付けて時系列テキストに記述されているテキストデータを文字列に切り分ける。文字列は、例えば、名詞など所定の品詞の形態素、文字ｎｇｒａｍ、名詞のペアである。文字列とする名詞のペアは、例えば「夏の風物詩」のように、名詞とその名詞に係る語のペアである。文字列への切り分けには、形態素解析、文字ｎｇｒａｍ解析等の従来技術を用いることができる。

ステップＳ２２０において、時系列頻度抽出部１２４は、時刻情報と対応付けられたテキストデータを切り分けて得られた文字列が、その時刻情報により示される時刻に出現したものとし、異なる各文字列の頻度を計算する。時系列頻度抽出部１２４は、時刻情報と対応付けられたテキストデータに１回以上出現する全ての文字列それぞれの頻度を「１」としてもよく、時刻情報と対応付けられたテキストデータに文字列が出現する回数を、その文字列の頻度としてもよい。

時系列頻度抽出部１２４は、時系列文字列テーブルが作成されていなければ、新たに時系列文字列テーブルを生成し、時系列文字列テーブル記憶部１２３に書き込む。時系列文字列テーブルに設定する単位時間は予め記憶部１２１に記憶されており、１か月、１週間、１日、１時間など、ユーザの設定により可変とする。

ステップＳ２２５において、時系列頻度抽出部１２４は、ステップＳ２２０において得られた各文字列の頻度に基づいて、時系列文字列テーブル記憶部１２３に記憶される時系列文字列テーブルを更新する。

具体的には、時系列頻度抽出部１２４は、ステップＳ２１５において得られた文字列のうち、まだ時系列文字列テーブルに登録されていない文字列があれば、追加登録する。時系列頻度抽出部１２４は、ステップＳ２１０において得られた時刻情報が含まれる時間帯に対応して時系列文字列テーブルに設定されている文字列の頻度を、ステップＳ２２０において計算したその文字列の頻度を加算した値に更新する。

ステップＳ２３０において、時系列頻度抽出部１２４は、選択した時系列テキストが時系列テキスト記憶部１２２に記憶される最後の時系列テキストであるか否かを判定する。時系列頻度抽出部１２４は、選択した時系列テキストが時系列テキスト記憶部１２２に記憶される最後の時系列テキストではないと判定した場合（ステップＳ２３０：ＮＯ）、ステップＳ２０５からの処理を繰り返す。そして、時系列頻度抽出部１２４は、選択した時系列テキストが時系列テキスト記憶部１２２に記憶される最後の時系列テキストであると判定した場合（ステップＳ２３０：ＮＯ）、関連語抽出装置１０は、図４に示すステップＳ１１５からの処理を行う。

図４のステップＳ１１５において、時系列頻度抽出部１２４は、時系列文字列テーブル記憶部１２３に記憶される時系列文字列テーブルを相関値算出部１２５に出力する。このとき、相関値算出部１２５は、時系列文字列テーブルに設定される各文字列の時系列の頻度のうち、条件を満たす文字列の時系列の頻度のみを抽出して相関値算出部１２５に出力してもよい。例えば、相関値算出部１２５は、時系列文字列テーブルから、低頻度の文字列についての情報を除く。低頻度は、例えば、所定期間における頻度の合計が所定値以下である、所定期間における頻度の平均が全文字列の頻度の平均以下である、所定期間における頻度の合計が多い順に順位付けしたときの順位が所定以下である、などによって判断される。あるいは、ＤＴＭ（Dynamic Topic Model）などのトピックモデルを利用し、各トピックの中で確率値が高い上位のｍ個の文字列についての頻度のみを抽出する、時期により頻度が変動する文字列をバースト検知などで抽出する、などの処理が考えられる。ただし、時系列頻度抽出部１２４は、ステップＳ１０５において入力されたキーワードに一致する文字列の頻度の情報については削除しないようにしてもよい。

ステップＳ１２０において、相関値算出部１２５は、時系列頻度抽出部１２４から入力した時系列文字列テーブル内に設定される文字列間に因果関係が成立するか否かを判定する相関判定処理を行う。なお、相関値算出部１２５は、時系列文字列テーブルに設定される全ての文字列の組について相関判定処理を行ってもよく、ステップＳ１０５において入力されたキーワードと一致する文字列と、そのキーワードとは異なる全ての文字列のそれぞれとの間の相関判定処理を行ってもよい。

相関値算出部１２５は、相関判定処理の対象の２つの文字列それぞれの時系列の頻度を用いて、Ｇｒａｎｇｅｒ因果性検定を行う。Ｇｒａｎｇｅｒ因果性検定は、経済学でよく用いられている既存の手法であり、背景知識を用いずに、売上高の時系列変化などの数値データからのみ、因果関係の有無を判断するために用いられる。例えば、Ｇｒａｎｇｅｒ因果性検定を用いることにより、アイスクリームの売り上げが高い→水の事故が増える、などのように、因果関係を時系列データのみで検定できる。因果関係には、２項間の因果関係の向きも含まれる。しかし、アイスクリームと水の事故の本来の意味に因果関係があるわけではない。

文字列Ｗｉ（ｉ＝１，２，…，ｎ）の時刻ｔにおける頻度をｘ_ｔ、文字列Ｗｊ（ｉ≠ｊ、ｊ＝１，２，…，ｎ）の時刻ｔにおける頻度をｚ_ｔとしたときに、以下の式（１）及び式（２）のベクトル自己回帰モデル（ＶＡＲ）モデルを考える。

ｘ_ｔ＝ａ_１ｘ_ｔ−１＋…＋ａ_ｐｘ_ｔ−ｐ＋ｂ_１ｚ_ｔ−１＋…＋ｂ_ｐｚ_ｔ−ｐ＋ｕ_１ｔ …（１）

ｚ_ｔ＝ｃ_１ｘ_ｔ−１＋…＋ｃ_ｐｘ_ｔ−ｐ＋ｄ_１ｚ_ｔ−１＋…＋ｄ_ｐｚ_ｔ−ｐ＋ｕ_２ｔ …（２）

ａ_ｉ、ｂ_ｉ、ｃ_ｉ、ｄ_ｉ（ｉ＝１，２，…，ｐ）は定数であり、ｕ_１ｔ，ｕ_２ｔはノイズである。式（１）は、時刻ｔにおける文字列Ｗｉの頻度ｘ_ｔは、過去の文字列Ｗｉの頻度ｘ_ｔ−１〜ｘ_ｔ−ｐと、過去の文字列Ｗｊの頻度ｚ_ｔ−１〜ｚ_ｔ−ｐで説明されることを表し、ｂ_１〜ｂ_ｐが０の場合は文字列Ｗｉと文字列Ｗｊに因果関係がない。式（２）は、時刻ｔにおける文字列Ｗｊの頻度ｚ_ｔは、過去の文字列Ｗｊの頻度ｚ_ｔ−１〜ｚ_ｔ−ｐと、過去の文字列Ｗｉの頻度ｘ_ｔ−１〜ｘ_ｔ−ｐで説明されることを表し、ｃ_１〜ｃ_ｐが０の場合は文字列Ｗｊと文字列Ｗｉに因果関係はない。

相関値算出部１２５は、文字列Ｗ１〜Ｗｎから異なる２つの文字列の組を全て生成し、各組の文字列をＷｉ、Ｗｊとして、以下の処理を行う。なお、相関値算出部１２５は、文字列Ｗｉの時系列の頻度ｘ_ｔ〜ｘ_ｔ−ｐと、文字列Ｗｊの時系列の頻度ｚ_ｔ〜ｚ_ｔ−ｐを、時系列文字列テーブルから取得する。

相関値算出部１２５は、文字列Ｗｉ、Ｗｊの時系列の頻度を用いて最小二乗回帰により式（１）を推定し、推定した式（１）の残差平方和ＵＳＳ_ｘを求める。さらに、相関値算出部１２５は、ｂ_１＝…＝ｂ_ｐ＝０とし、文字列Ｗｉの頻度を用いて最小二乗回帰により式（１）を推定し、推定した式（１）の残差平方和ＲＳＳ_ｘを算出する。相関値算出部１２５は、以下の式（３）を検定統計量Ｆ_ｘとする。

Ｆ_ｘ＝（（ＲＳＳ_ｘ−ＵＳＳ_ｘ）／ｐ）／（ＵＳＳ_ｘ／（ｎ−２ｐ）） …（３）

相関値算出部１２５は、ｐＦ_ｘをχ^２（ｐ）の９５％点と比較するχ^２（カイ二乗）検定を行い、ｐＦ_ｘの方が大きければ、文字列Ｗｊから文字列Ｗｉへの因果関係が存在し、小さければ文字列Ｗｊから文字列Ｗｉへの因果関係が存在しないと判断する。

同様に、相関値算出部１２５は、文字列Ｗｉ、Ｗｊの頻度を用いて最小二乗回帰により式（２）を推定し、推定した式（２）の残差平方和ＵＳＳ_ｙを求める。さらに、相関値算出部１２５は、ｃ_１＝…＝ｃ_ｐ＝０とし、文字列Ｗｊの頻度を用いて最小二乗回帰により式（２）を推定し、推定した式（２）の残差平方和ＲＳＳ_ｙを算出する。相関値算出部１２５は、以下の式（４）を検定統計量Ｆ_ｙとする。

Ｆ_ｙ＝（（ＲＳＳ_ｙ−ＵＳＳ_ｙ）／ｐ）／（ＵＳＳ_ｙ／（ｎ−２ｐ）） …（４）

相関値算出部１２５は、ｐＦ_ｙをχ^２（ｐ）の９５％点と比較するχ^２検定を行い、ｐＦ_ｙの方が大きければ、文字列Ｗｉから文字列Ｗｊへの因果関係が存在し、小さければ文字列Ｗｉから文字列Ｗｊへの因果関係が存在しないと判断する。

相関値算出部１２５は、文字列Ｗｉから文字列Ｗｊへの因果関係と、文字列Ｗｊから文字列Ｗｉへの因果関係との少なくとも一方が存在する場合、文字列Ｗｊを文字列Ｗｉの関連語とし、文字列Ｗｉを文字列Ｗｊの関連語とする。なお、上記では、相関値算出部１２５は、有意水準を９５％とし、その水準を満たす文字列ペアを因果関係ありと判断しているが、有意水準は予め記憶部１２１に記憶され、ユーザにより可変に設定される。

ステップＳ１２５において、相関値算出部１２５は、各文字列について、その文字列と因果関係ありと判断された他の文字列とを対応付けた関連語テーブルを作成する。このとき、相関値算出部１２５は、文字列の間の因果関係の強さを定量的に表す値である検定統計量Ｆ_ｘ又はＦ_ｙとして表される相関値の情報と、因果関係の向きの情報とを付加して関連語テーブルに関連語を設定する。また、相関値算出部１２５は、相関値の高い順に関連語を並べて関連語テーブルに設定してもよい。

相関値算出部１２５は、生成した関連語テーブルから、ステップＳ１０５において入力されたキーワードと、そのキーワードに対応した関連語が設定されている部分を抽出してキーワード関連語テーブルを生成し、出力部１３に出力する。

ステップＳ１３０において、出力部１３は、相関値算出部１２５が抽出したキーワード関連語テーブルを提示する。具体的には、出力部１３は、キーワードの送信元の端末にキーワード関連語テーブルを送信し、端末は、受信したキーワード関連語テーブルをディスプレイに表示する。

なお、キーワードに代えて、文章等のテキストデータを関連語抽出装置１０に入力してもよい。時系列頻度抽出部１２４又は図示しないキーワード抽出部が、図４のステップＳ２１５の処理と同様に、入力されたテキストデータから文字列を取得し、取得した文字列をキーワードとする。

また、キーワードが２つ以上ある場合、出力部１３は、関連するキーワードが多い関連語ほど優先度を高くし、優先度の順に関連語を表示させてもよく、優先度が所定よりも高い関連語の色を変えて表示させてもよく、関連するキーワードの数を付加して関連語を表示させてもよい。また、出力部１３は、関連語にキーワードとの間の因果関係の向きを表す文字や図形などの情報を付加して表示させてもよい。

また、相関値算出部１２５は、キーワードとの因果関係の向きが所定方向の関連語のみ関連語テーブルに設定してもよく、関連語テーブルからキーワードとの因果関係の向きが所定方向の関連語のみを抽出してキーワード関連語テーブルに設定してもよい。

なお、異なるキーワードにより図４の処理を繰り返し行う場合、既に時系列文字列テーブルが生成されていることがある。この場合、図５のステップＳ２０５において、時系列頻度抽出部１２４は、前回図４の処理を行った後に時系列テキスト記憶部１２２に新たに登録された時系列テキストを一つずつ選択し、生成済みの時系列文字列テーブルを更新すればよい。

本実施形態の関連語抽出装置１０によれば、同じ時期に話題となる語（文字列）を関連語として抽出することができる。また、関連語抽出装置１０は、ある事象に関する語（文字列）と、その事象が起こった結果として時期をずらして発生する事象に関する語（文字列）とを関連語として抽出することができる。これについて、図６を用いて説明する。

図６は、２つの文字列Ｗｉ、Ｗｊの時系列の頻度の例を表す図である。文字列Ｗｉが表す事象が発生したことが原因となって、文字列Ｗｊが表わす事象が発生する場合、文字列Ｗｉの頻度と文字列Ｗｊの頻度とは時期をずらしてピークが現れる。例えば、「株価の上昇」がきっかけで景気が回復し、「海外旅行」に行く人が増えた場合、「株価の上昇」と「海外旅行」とは因果関係があるものの、概念的には異なっており、かつ、時期をずらして頻度のピークが発生する。また、頻度のピークが異なっていることから、同一文書に共起する機会も少ないと考えられる。関連語抽出装置１０は、Ｇｒａｎｇｅｒ因果性検定を用いて因果関係を判定することにより、過去に、キーワードに関する事象に対して、時間をずらして発生したことがある因果関係のある事象に関する語を関連語として得ることができる。

［第２の実施形態］
本実施形態では、第１の実施形態と同様の処理により抽出した関連語を用いて検索したコンテンツをユーザに推薦する。以下では、第１の実施形態との差分を中心に記載する。

図７は、第２の実施形態による関連語抽出装置２０の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図１に示す第１の実施形態による関連語抽出装置１０と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置２０と、図１に示す関連語抽出装置１０とが異なる点は、コンテンツ情報記憶部２１及びコンテンツ検索部２２をさらに備える点である。

コンテンツ情報記憶部２１は、ユーザへ紹介する候補となる各コンテンツデータ（以下、「コンテンツ」とも記載する。）のコンテンツＩＤとコンテンツテキスト情報とを対応付けて記憶する。コンテンツＩＤは、コンテンツを一意に特定する識別情報であり、コンテンツテキスト情報は、コンテンツに関する情報を示すテキストデータである。例えば、コンテンツテキスト情報は、コンテンツのタイトルや説明などを示すテキストデータでもよく、テキストデータを含むコンテンツデータ自体でもよく、コンテンツデータに含まれるテキストデータの全部又は一部でもよい。

例えば、コンテンツが番組であれば、コンテンツテキスト情報として、番組サブタイトル、番組概要文などが記述されたテキストデータを用いてもよく、番組に含まれる字幕テキストを用いてもよい。また、コンテンツが音楽、電子図書などであれば、コンテンツの紹介や概要などが記述されたテキストデータをコンテンツテキスト情報として用いる。また、コンテンツがテキストデータを含んだウェブページや電子図書などである場合、そのコンテンツデータ自体、又は、そのコンテンツに含まれるテキストデータの全文又は一部をコンテンツテキスト情報として用いてもよい。

コンテンツ情報記憶部２１はさらに、コンテンツＩＤと対応付けてコンテンツ紹介情報を記憶する。コンテンツ紹介情報は、ユーザにコンテンツを紹介するために提示する情報である。例えば、コンテンツが番組の場合、コンテンツ紹介情報は、番組名、放送日時、チャネル、番組概要、サムネイル画像、番組視聴サイトのＵＲＬ（Universal Resource Locator）などを含む。また、コンテンツが音楽、電子図書などの場合、コンテンツ紹介情報は、例えば、コンテンツのタイトル、紹介文、価格、購入サイト又はダウンロードサイトのＵＲＬなどの情報を含み、コンテンツがウェブページの場合、コンテンツ紹介情報はそのウェブページのＵＲＬなどの情報を含む。コンテンツテキスト情報の一部又は全部がコンテンツ紹介情報として用いられてもよい。

なお、コンテンツ情報記憶部２１は、関連語抽出装置２０とネットワークを介して接続されるサーバに備えられてもよい。

＜関連語抽出装置２０の動作＞
図８は、関連語抽出装置２０の動作を示すフローチャートである。同図において、図４に示すフローチャートと同一の処理には同一の符号を付し、その説明を省略する。関連語抽出装置２０は、図４のステップＳ１０５〜ステップＳ１２５と同様の処理を行う。

ステップＳ３０５において、相関値算出部１２５は、生成した関連語テーブルから、ステップＳ１０５において入力されたキーワードと、そのキーワードに対応した関連語が設定されている部分を抽出してキーワード関連語テーブルを生成し、コンテンツ検索部２２に出力する。

ステップＳ３１０において、コンテンツ検索部２２は、キーワード関連語テーブルからキーワードを取得し、取得したキーワードを検索キーとして用いて、コンテンツ情報記憶部２１に記憶されるコンテンツテキスト情報を検索する。コンテンツ検索部２２は、検索の結果得られたコンテンツテキスト情報と同じコンテンツＩＤに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部２１から読み出す。

続いて、ステップＳ３１５において、コンテンツ検索部２２は、キーワード関連語テーブルから関連語を取得し、取得した関連語を検索キーとして用いて、コンテンツ情報記憶部２１に記憶されるコンテンツテキスト情報を検索する。コンテンツ検索部２２は、検索の結果得られたコンテンツテキスト情報と同じコンテンツＩＤに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部２１から読み出す。

コンテンツ検索部２２は、ステップＳ３１０において読み出したコンテンツ紹介情報と、ステップＳ３１５において読み出したコンテンツ紹介情報を出力部１３に出力する。

ステップＳ３２０において、出力部１３は、コンテンツ検索部２２から受信したコンテンツ紹介情報を提示する。具体的には、出力部１３は、キーワードの送信元の端末にコンテンツ紹介情報を送信し、端末は、受信したコンテンツ紹介情報をディスプレイに表示する。

キーワードが２以上である場合、コンテンツ検索部２２は、より多くのキーワードに関連するコンテンツほど順位が高くなるように優先度をつけ、優先度の順にコンテンツ提示情報を表示させるようにしてもよい。また、コンテンツ検索部２２は、より多くの関連語に関連するコンテンツほど順位が高くなるように優先度をつけ、優先度の順にコンテンツ提示情報を表示させるようにしてもよい。また、同じ数の関連語と関連するコンテンツが複数ある場合、コンテンツ検索部２２は、関連語とキーワードとの相関値を合計又は乗算した結果に基づき優先度を決定してもよい。

本実施形態では、例えば、インターネット上で公開されている膨大な情報などを用いてキーワードの関連語を取得し、コンテンツの推薦に利用することが可能となる。また、キーワードに関する事象の原因となった事象に関連するコンテンツや、キーワードに関係する事象の次に発生することが予想される事象に関するコンテンツをユーザに推薦することができる。

［第３の実施形態］
第２の実施形態では時系列テキストとコンテンツテキスト情報とが異なるデータであるが、本実施形態では、時系列テキストとコンテンツテキスト情報とが同一のデータである。以下では、第２の実施形態との差分を中心に記載する。

図９は、第３の実施形態による関連語抽出装置３０の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図７に示す第２の実施形態による関連語抽出装置２０と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置３０と、図７に示す関連語抽出装置２０とが異なる点は、関連語抽出部１２、コンテンツ情報記憶部２１及びコンテンツ検索部２２に代えて、関連語抽出部３２、コンテンツ情報記憶部３３及びコンテンツ検索部３４を備える点である。

関連語抽出部３２が、図７に示す関連語抽出部１２と異なる点は、記憶部１２１に代えて記憶部３２１を備える点である。記憶部３２１は、時系列テキスト記憶部３２２及び時系列文字列テーブル記憶部１２３を備える。時系列テキスト記憶部３２２は、コンテンツＩＤに対応付けられた時系列テキストを記憶する。時系列テキストは、時刻情報が含まれた又は付加されたコンテンツテキスト情報である。

コンテンツ情報記憶部３３は、コンテンツＩＤに対応付けられたコンテンツ紹介情報を記憶する。コンテンツテキスト情報とコンテンツ紹介情報とが同一の情報である場合、関連語抽出装置３０はコンテンツ情報記憶部３３を設けなくてもよい。

コンテンツ検索部３４は、キーワードに基づく検索対象及び関連語に基づく検索対象を、時系列テキスト記憶部３２２に記憶される時系列テキスト情報とする以外は第２の実施形態のコンテンツ検索部２２と同様の処理を行う。

関連語抽出装置３０は、図８に示す処理と同様の処理を行う。ただし、ステップＳ３１０において、関連語抽出装置３０のコンテンツ検索部３４は、キーワード関連語テーブルから取得したキーワードを検索キーとして用いて、時系列テキスト記憶部３２２に記憶される時系列テキストを検索する。コンテンツ検索部３４は、検索の結果得られた時系列テキストと同じコンテンツＩＤに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部３３から読み出す。また、ステップＳ３１５において、コンテンツ検索部３４は、キーワード関連語テーブルから取得した関連語を検索キーとして用いて、時系列テキスト記憶部３２２に記憶される時系列テキストを検索する。コンテンツ検索部３４は、検索の結果得られた時系列テキストと同じコンテンツＩＤに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部３３から読み出す。ステップＳ３１５において、出力部１３は、コンテンツ検索部３４が読み出したコンテンツ紹介情報を提示する。

本実施形態では、ユーザに紹介可能なコンテンツや、そのコンテンツに関する情報を用いてキーワードの関連語を取得し、コンテンツの推薦に利用することが可能となる。

［第４の実施形態］
本実施形態では、最近話題となっている語をキーワードとして用い、関連語の抽出と、コンテンツの推薦を行う。以下では、第２の実施形態との差分を中心に記載する。

図１０は、第４の実施形態による関連語抽出装置４０の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図７に示す第２の実施形態による関連語抽出装置２０と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置４０と、図７に示す関連語抽出装置２０とが異なる点は、時系列テキスト記憶部４１と、キーワード抽出部４２とをさらに備える点である。なお、関連語抽出装置４０を、図９に示す第３の実施形態による関連語抽出装置３０に、時系列テキスト記憶部４１と、キーワード抽出部４２とをさらに備えた構成としてもよい。

時系列テキスト記憶部４１は、ユーザが検索対象を行う時刻付近で公開されたウェブテキスト、番組字幕、ニュース記事、ソーシャルネットワークサービスの投稿テキストなどの時系列テキストである。時系列テキスト記憶部４１は、例えば、現在時刻から１日、１週間、１ヶ月など、比較的短い期間の時系列テキストを記憶する。期間は、予め記憶部１２１に記憶され、可変とすることができる。

入力部１１により検索開始が入力された場合、キーワード抽出部４２は、時系列テキスト記憶部４１に記憶される各時系列テキストを、第１の実施形態におけるステップＳ２１５と同様の処理により文字列に切り分ける。キーワード抽出部４２は、既存の任意のバースト検知処理により時系列テキストからキーワードとなる文字列を抽出する。あるいは、キーワード抽出部４２は、頻度が他の文字列よりも所定より高い文字列を抽出してもよく、頻度が過去の平均と比較して所定割合又は所定数だけ高い文字列をキーワードとして抽出してもよい。関連語抽出装置４０は、抽出されたキーワードを用いて、図８のステップＳ１１０以降の処理を行う。

これにより、関連語抽出装置４０は、現在の時期に沿ったキーワードと、そのキーワードの関連語を抽出する。関連語抽出装置４０は、抽出したキーワードとその関連語のそれぞれにより検索したコンテンツをユーザに提示することができる。例えば、夏の時期には「プール」、「花火大会」など、少し前から現在にかけて話題となっているキーワードが選択され、これらキーワードと同じような頻度の分布をする（つまり、夏に頻度が高くなる）語に関するコンテンツをユーザに推薦することができる。あるいは、現在「株価の上昇」が話題となっている場合に、過去の実績から将来的に話題となることが予測される「海外旅行」に関するコンテンツをユーザに推薦することができる。

なお、ユーザは、入力部１１により時刻の情報を入力してもよい。この場合、時系列テキスト記憶部４１に、検索可能な期間の時系列テキストを記憶しておく。キーワード抽出部４２は、入力された時刻の情報から１日、１週間、１ヶ月などの比較的短い期間の時系列テキストを時系列テキスト記憶部４１から読み出してキーワードを抽出する。この場合、時系列テキスト記憶部４１を設けず、キーワード抽出部４２は、入力された時刻に基づいて時系列テキスト記憶部１２２から読み出した時系列テキストを用いてキーワードを抽出してもよい。

［第５の実施形態］
本実施形態では、最近インターネットで話題となっている語をキーワードとして用い、関連語の抽出と、コンテンツの推薦を行う。

図１１は、第５の実施形態による関連語抽出装置５０の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図９に示す第３の実施形態による関連語抽出装置３０と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置５０は、入力部１１と、キーワード抽出部５１と、関連語抽出部５２と、コンテンツ情報記憶部３３と、コンテンツ検索部５４と、出力部１３とを備える。関連語抽出部５２は、記憶部５２１−１、５２１−２と、時系列頻度抽出部５２４−１、５２４−２と、相関値算出部５２５とを備える。記憶部５２１−１は、時系列テキスト記憶部５２２−１及び時系列文字列テーブル記憶部５２３−１を有し、記憶部５２１−２は、時系列テキスト記憶部５２２−２及び時系列文字列テーブル記憶部５２３−２を有する。

キーワード抽出部５１は、時系列テキスト記憶部５２２−１に記憶される時系列テキストを用いて、キーワードを抽出する。時系列テキスト記憶部５２２−１は、インターネット上で時系列テキストとして公開されているブログなどのＳＮＳのウェブページを記憶する。時系列文字列テーブル記憶部５２３−１は、時系列頻度抽出部５２４−１により作成される時系列文字列テーブルを記憶する。時系列頻度抽出部５２４−１は、時系列テキスト記憶部５２２−１に記憶される時系列テキストを用いて抽出されたキーワードの時系列文字列テーブルを作成する。

時系列テキスト記憶部５２２−２は、コンテンツＩＤに対応付けられた時系列テキストを記憶する。時系列テキストは、時刻情報が含まれた又は付加されたコンテンツテキスト情報である。例えば、時系列テキスト記憶部５２２−２は、字幕など番組に関する時系列テキストを記憶する。時系列文字列テーブル記憶部５２３−２は、時系列頻度抽出部５２４−２により作成される時系列文字列テーブルを記憶する。時系列頻度抽出部５２４−２は、時系列テキスト記憶部５２２−２に記憶される時系列テキストを用いて、図１に示す第１の実施形態の時系列頻度抽出部１２４と同様の処理により、時系列文字列テーブルを作成する。

相関値算出部５２５は、時系列頻度抽出部５２４−１が作成した時系列文字列テーブルに設定されている各キーワードの時系列の頻度と、時系列頻度抽出部５２４−２に設定されている各文字列の時系列の頻度とを用いてＧｒａｎｇｅｒ因果性検定を行う。相関値算出部５２５は、検定結果に基づいて各キーワードの関連語を抽出し、コンテンツ検索部５４に出力する。

コンテンツ情報記憶部３３は、時系列テキスト記憶部５２２−２に時系列テキストが蓄積されている番組のコンテンツ紹介情報を記憶する。
コンテンツ検索部５４は、関連語が得られた時系列テキストに対応付けられたコンテンツＩＤを時系列テキスト記憶部５２２−２から読み出し、読み出したコンテンツＩＤに対応付けられた番組のコンテンツ紹介情報をコンテンツ情報記憶部３３から読み出す。コンテンツ検索部５４は、読み出したコンテンツ紹介情報と、そのコンテンツ紹介情報と同じコンテンツＩＤに対応付けられた時系列テキストに含まれる関連語とを関連付けて出力部１３に出力する。この関連語は、コンテンツのテーマを表す。

＜関連語抽出装置５０の動作＞
図１２は、関連語抽出装置５０の動作を示すフローチャートである。
ステップＳ５０５において、入力部１１により検索開始が入力されると、キーワード抽出部５１は、時系列テキスト記憶部５２２−１に記憶される時系列テキストのうち、現在から１日、１週間、１ヶ月などの比較的期間の時系列テキストを特定する。キーワード抽出部５１は、特定した時系列テキストを用いて、第３の実施形態のキーワード抽出部４２と同様の処理により、キーワードＷａ１、Ｗａ２、…、Ｗａｍ（ｍは１以上の整数）となる文字列を抽出し、時系列頻度抽出部５２４−１に出力する。

ステップＳ５１０において、時系列頻度抽出部５２４−１は、時系列テキスト記憶部５２２−１に記憶される時系列テキストを用いて各キーワードＷａ１、Ｗａ２、…、Ｗａｍの時系列の頻度を算出し、時系列文字列テーブルＴ１を作成する。

続いて、ステップＳ５１５において、時系列頻度抽出部５２４−２は、時系列テキスト記憶部５２２−２に記憶される時系列テキストを用いて、図４のステップＳ１１５と同様の時系列文字列テーブル作成処理により、文字列Ｗｂ１、Ｗｂ２、…、Ｗｂｎ（ｎは１以上の整数）の時系列の頻度を設定した時系列文字列テーブルＴ２を作成する。文字列Ｗｂ１、Ｗｂ２、…、Ｗｂｎは、キーワードの関連語候補である。

ステップＳ５２０において、相関値算出部５２５は、時系列文字列テーブルＴ１に設定される各キーワードＷａ１、Ｗａ２、…、Ｗａｍの時系列の頻度と、時系列文字列テーブルＴ２に設定される各文字列Ｗｂ１、Ｗｂ２、…、Ｗｂｎの時系列の頻度とを用いて、キーワードＷａｉ（ｉ＝１，２，…，ｍ）と文字列Ｗｂｊ（ｊ＝１，２，…，ｎ）の全ての組み合わせについてＧｒａｎｇｅｒ因果性検定を行う。

ステップＳ５２５において、相関値算出部５２５は、検定結果に基づいて、文字列Ｗｂ１，Ｗｂ２，…，Ｗｂｎの中から各キーワードＷａｉの関連語を抽出する。抽出された関連語をＷｉ１，Ｗｉ２，…，Ｗｉｋ_ｉ（ｋ_ｉは１以上ｎ以下の整数）とする。相関値算出部５２５は、キーワードＷａｉ（ｉ＝１，２，…，ｍ）と、その関連語Ｗｉ１，Ｗｉ２，…，Ｗｉｋ_ｉとを対応付けた関連語テーブルを生成する。
ステップＳ５３０において、相関値算出部５２５は、生成した関連語テーブルをコンテンツ検索部５４に出力する。

ステップＳ５３５において、コンテンツ検索部５４は、関連語Ｗｉｋ（ｉ＝１，２，…，ｍ、ｋ＝１，２，…，ｋ_ｉ）のそれぞれを検索キーとして用いて、時系列テキスト記憶部５２２−２に記憶される時系列テキストを検索する。コンテンツ検索部５４は、検索の結果得られた時系列テキストと同じコンテンツＩＤに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部３３から読み出す。コンテンツ検索部５４は、コンテンツ紹介情報が得られたときに検索キーとして用いた関連語Ｗｉｋをコンテンツのテーマとする。つまり、コンテンツ紹介情報によりユーザに紹介するコンテンツは、関連語Ｗｉｋをテーマとして扱った過去のコンテンツである。コンテンツ検索部５４は、コンテンツ紹介情報と、コンテンツのテーマとを出力部１３に出力する。

ステップＳ５４０において、出力部１３は、コンテンツ紹介情報と、コンテンツのテーマとを提示する。出力部１３は、より多くの関連語Ｗｉｋと対応するコンテンツ紹介情報の優先度を高くして提示してもよい。

なお、コンテンツ検索部５４は、キーワードＷａｉから関連語Ｗｉｋへの方向へ因果関係がある関連語Ｗｉｋを用いてコンテンツ紹介情報を検索することにより、現在話題になっている事象の次に発生すると予想される事象をテーマとしたコンテンツの紹介情報を取得することができる。また、コンテンツ検索部５４は、関連語ＷｉｋからキーワードＷａｉへの方向へ因果関係がある関連語Ｗｉｋを用いてコンテンツ紹介情報を検索することにより、現在話題になっている事象の原因であると考えられる事象をテーマとしたコンテンツの紹介情報を取得することができる。

本実施形態によれば、関連語抽出装置５０は、最近のＳＮＳにおいて多く出現する文字列の関連語を、テーマとして提示することができる。このとき、関連語抽出装置５０そのテーマを扱った過去の番組の情報を同時に提示してもよい。過去のＳＮＳと番組の間の時系列相関を算出することによって、最近のＳＮＳの話題から、次に取り上げるべき番組のテーマを提示することができる。

以上説明した実施形態によれば、関連語抽出装置は、共起や概念辞書によらずに関連語を抽出することができる。

なお、上述の関連語抽出装置１０、２０、３０、４０、５０は、内部にコンピュータシステムを有している。そして、関連語抽出装置１０、２０、３０、４０、５０の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１０、２０、３０、４０、５０…関連語抽出装置
１１…入力部
１２、３２、５２…関連語抽出部
１３…出力部
２１、３３…コンテンツ情報記憶部
２２、３４、５４…コンテンツ検索部
４１…時系列テキスト記憶部
４２、５１…キーワード抽出部
１２１、３２１、５２１−１、５２１−２…記憶部
１２２、３２２、５２２−１、５２２−２…時系列テキスト記憶部
１２３、５２３−１、５２３−２…時系列文字列テーブル記憶部
１２４、５２４−１、５２４−２…時系列頻度抽出部
１２５、５２５…相関値算出部

Claims

テキストデータに含まれる各文字列の関連語を抽出する関連語抽出装置であって、
所定のキーワードを入力する入力部と、
時刻情報と対応付けられた前記テキストデータである時系列テキストを記憶する記憶部と、
前記時系列テキストに含まれる前記各文字列が時系列で出現するときの出現頻度である時系列頻度を抽出する時系列頻度抽出部と、
前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、異なる前記文字列の間の因果関係の強さを定量的に表す値である相関値を算出し、算出された前記相関値に基づいて異なる前記文字列が関連するか否かを判定する相関値算出部と、
前記相関値算出部が前記キーワードの文字列に関連すると判定した他の前記文字列を関連語として出力する出力部と、
を備えることを特徴する関連語抽出装置。
請求項１に記載の関連語抽出装置において、
コンテンツに関する情報を示すテキストデータであるコンテンツテキスト情報を記憶するコンテンツ情報記憶部と、
前記関連語を用いて前記コンテンツテキスト情報を検索するコンテンツ検索部とをさらに備え、
前記出力部は、
前記コンテンツ検索部が検索した結果得られた前記コンテンツテキスト情報により特定される前記コンテンツの情報を出力する、
ことを特徴とする関連語抽出装置。
請求項１に記載の関連語抽出装置において、
前記記憶部は、
インターネット上のウェブページに含まれる前記テキストデータ及び前記時刻情報を含む第１の時系列テキストと、コンテンツに関する情報を示すテキストデータ及び時刻情報を含む第２の時系列テキストとを記憶し、
当該関連語抽出装置は、
前記第１の時系列テキストからキーワードを抽出するキーワード抽出部をさらに有し、
前記時系列頻度抽出部は、
前記第１の時系列テキストに含まれる前記キーワードの時系列頻度と、前記第２の時系列テキストに含まれる各文字列の時系列頻度とを抽出し、
前記相関値算出部は、
前記キーワードと前記文字列のそれぞれについて前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、前記キーワードと前記文字列との相関値とを算出し、算出された当該相関値に基づいて前記文字列が前記キーワードに関連するか否かを判定し、
前記出力部は、
前記相関値算出部により前記キーワードに関連すると判定された前記文字列をコンテンツのテーマを表す関連語として出力し、出力した当該関連語を含む前記第２の時系列テキストにより特定される前記コンテンツの情報を出力する、
ことを特徴とする関連語抽出装置。
コンピュータを、請求項１から請求項３のいずれか一項に記載の関連語抽出装置として機能させるためのプログラム。