JP5389234B1

JP5389234B1 - 関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラム

Info

Publication number: JP5389234B1
Application number: JP2012172793A
Authority: JP
Inventors: 隼赤塚; 公亮角野; 渉内田
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2012-08-03
Filing date: 2012-08-03
Publication date: 2014-01-15
Anticipated expiration: 2032-08-03
Also published as: WO2014021229A1; JP2014032536A

Abstract

【課題】複数のツイート等の文書から特定のトピックに関連する文書を適切に抽出する。
【解決手段】関連文書抽出装置１０は、トピックを示すデフォルトトピックタグを格納するデフォルトトピックタグ格納部１４１と、複数の文書を格納する文書格納部１００と、文書を形態素に分割する形態素解析部１１０と、複数の文書からデフォルトトピックタグを含む文書を抽出して、抽出した文書の単語の出現頻度を算出するトピックタグ推定部１３０と、算出された出現頻度に基づく情報からトピックに関連する文書を抽出するトピックＩＤ付与部１５０とを備える。
【選択図】図１

Description

本発明は、複数の文書から特定のトピックに関連する文書を抽出する関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラムに関する。

近年では、ツイッター（Ｔｗｉｔｔｅｒ）といったマイクロブログ（ミニブログ）によるコミュニケーションが一般化してきている（例えば、特許文献１参照）。マイクロブログとは数十から百数十文字程度で構成される短い文章を投稿する情報サービスであり、ツイッターでは１４０文字以内のツイートと呼ばれる短い文書を投稿する。ツイートとして投稿される内容は様々であり、例えば、自分の近況、自分が興味をもったニュース記事の共有、知り合いのツイートに対する返信、テレビ等ある特定のトピックに対するコメント等である。自分が興味を持ったニュース記事等ＵＲＬを付けてコメントを投稿することで他ユーザと情報を共有することも可能なため、マイクロブログは友達の近況を得るツールに留まらず、情報収集ツールとしての活用も広く行われている。

ユーザは特定のトピックに対してツイートする場合、ハッシュタグをツイートにつけてツイートする傾向がある。大きなトピックに対しては１つ又は複数のハッシュタグが紐付くことが多い。例えば、テレビ番組をトピックとした場合、「ＸＸドラマ：ＹＹＹ（ドラマタイトル）１話」が１つのトピックとなる。ユーザは番組を見ながら放送中のＸＸドラマＹＹＹについて、放送局ハッシュタグをつけてツイートする。ＸＸドラマＹＹＹを放送する放送局のハッシュタグ（放送局ハッシュタグ）を＃ｚｚｚとすると、放送局ハッシュタグ以外に番組ハッシュタグ（＃ｘｘ、＃ＹＹＹ、＃ＸＸドラマ）を付けてツイート投稿する人が多い。放送局ハッシュタグとは公式、非公式を問わずユーザがそのテレビ局で放送される番組に対して広く使われるハッシュタグである。トピックに関連するハッシュタグを含んだツイートを収集することで、トピックに対してのユーザのコメントを把握することができる。

非特許文献１で示されるＷｅｂサイトは、放送局に紐付くツイートを抽出し放送局毎にツイートを表示するサービスを行う。非特許文献１に係るサービスでは放送局を一つのトピックとしている。放送局ハッシュタグを用いて容易にツイートを放送局に紐付けることが可能である。例えば、放送局ＺＺＺの番組に関するツイートを収集する場合は、放送局ハッシュタグである＃ｚｚｚを含んだツイートを集めればよい。

非特許文献２で示されるＷｅｂサイトは、番組に紐付くツイートを抽出し放送中の番組毎にツイートを表示するサービスを行う。非特許文献２に係るサービスでは放送中の番組を一つのトピックとしている。非特許文献１に係るサービスのように放送局ハッシュタグを用いて放送中の番組に紐付けている。それに加え番組ハッシュタグの動的な推定をリアルタイムに行っている。例えば、放送局ＺＺＺの番組の場合は放送局ハッシュタグ（＃ｚｚｚ）を含むツイートを番組に紐付け、更に「ＹＹＹ」という番組が放送している場合は動的に１つ又は複数の番組ハッシュタグ（＃ｘｘ、＃ＹＹＹ、＃ＸＸドラマ）の推定を行い番組ハッシュタグに紐付くツイートの抽出も行っている。このように非特許文献２に係るサービスでは放送局ハッシュタグと番組ハッシュタグの推定により、動的に放送している番組のツイート抽出を可能としている。

特開２０１２−３８２８１号公報

ツイテレ、［online］、株式会社ＣＧＭマーケティング、［平成２４年７月２６日検索］、インターネット〈URL：http://twtv.jp/〉実況テレビ番組表「みるぞう」についてのプレスリリース、［online］、２０１１年１０月２７日、ニフティ株式会社、［平成２４年７月２６日検索］、インターネット〈URL：http://www.nifty.co.jp/cs/newsrelease/detail/111027004066/1.htm〉

しかしながら、非特許文献１及び非特許文献２で示されるサービスには以下に示すような問題がある。テレビに関して言えば、複数の放送局ハッシュタグを付け放送中の番組と関係のないツイートを投稿するユーザがいる。非特許文献１に係るサービスでは単純に放送局ハッシュタグを含んだツイートを収集しているため、番組と関係のないツイートも表示してしまう。また、非特許文献１に係るサービスでは放送局ハッシュタグが付いているツイートのみ抽出を行うため、抽出が可能なツイート量が限定的である。

また、非特許文献２に係るサービスでは、放送局ハッシュタグ以外に動的に番組ハッシュタグを推定し放送中の番組に関するツイートの抽出を行っているが、ハッシュタグが付与されていない番組に関連するツイートの抽出までは行いきれていない。放送中のテレビ番組のツイートは必ずしもハッシュタグが付与されているとは限らず、実際にはハッシュタグが付いていないツイートが多い傾向が強い。上記のように非特許文献１に係るサービスでは番組ハッシュタグが付与されたツイートの抽出が出来ておらず、非特許文献２に係るサービスではハッシュタグが付いていない番組に関連するツイートが抽出できていない。

本発明は、上記の問題点に鑑みてなされたものであり、複数のツイート等の文書から特定のトピックに関連する文書を適切に抽出することを可能とする関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラムを提供することを目的とする。

上記の目的を達成するために、本発明に係る関連文書抽出装置は、トピックを示すデフォルトトピックタグを予め格納するデフォルトトピックタグ格納手段と、複数の文書を予め格納する文書格納手段と、文書格納手段によって格納された文書を単語に分割する単語取得手段と、文書格納手段によって格納された複数の文書から、デフォルトトピックタグ格納手段によって格納されたデフォルトトピックタグを含む文書を抽出するデフォルト文書抽出手段と、デフォルト文書抽出手段によって抽出された文書における、単語取得手段によって分割された単語の出現頻度を算出する第１出現頻度算出手段と、第１出現頻度算出手段によって算出された出現頻度を用いて、デフォルト文書抽出手段によって抽出された文書以外の文書から、トピックに関連する文書を抽出するトピック文書抽出手段と、を備える。

本発明に係る関連文書抽出装置では、トピックを示すデフォルトトピックタグを含む文書における単語の出現頻度を用いてトピックに関連する文書が抽出される。即ち、トピックを示すデフォルトトピックタグを含んでいなくても上記の出現頻度に応じた文書がトピックに関連する文書として抽出される。これにより、本発明に係る関連文書抽出装置によれば、複数のツイート等の文書から特定のトピックに関連する文書を適切に抽出することができる。

トピック文書抽出手段は、第１出現頻度算出手段によって算出された出現頻度を用いて、デフォルト文書抽出手段によって抽出された文書以外の文書に出現する単語から、当該文書のスコアを算出するスコア算出手段と、スコア算出手段によって算出されたスコアに基づいて、当該スコアに係る文書がトピックに関連する文書であるか否かを判定する第１トピック文書判定手段と、を備えることとしてもよい。この構成によれば、例えば、デフォルトトピックタグを含む文書において出現頻度が高い単語が含まれる文書をトピックに関連する文書として抽出することができ、特定のトピックに関連する文書を確実に抽出することができる。

スコア算出手段は、文書に単語が複数回出現する場合、１回出現の場合と同様に文書のスコアを算出することとしてもよい。この構成によれば、文書に頻繁に含まれる単語によって文書のスコアが高くなることを防止することができ、不適切な文書をトピックに関連する文書として抽出することを回避することができる。

トピック文書抽出手段は、文書格納手段によって格納された複数の文書から、デフォルトトピックタグ以外のタグを含む文書を抽出するタグ文書抽出手段と、タグ文書抽出手段によって抽出された文書における、単語取得手段によって分割された単語の出現頻度を算出する第２出現頻度算出手段と、第１出現頻度算出手段によって算出された出現頻度と第２出現頻度算出手段によって算出された出現頻度とを比較して、当該比較結果に基づいてタグ文書抽出手段によって抽出された文書がトピックに関連する文書であるか否かを判定する第２トピック文書判定手段と、を備えることとしてもよい。この構成によれば、デフォルトトピックタグ以外のタグを含む文書（群）をトピックに関連する文書として抽出することができ、特定のトピックに関連する文書を確実に抽出することができる。

第２トピック文書判定手段は、第１出現頻度算出手段によって算出された単語の出現頻度によって示される特徴量と第２出現頻度算出手段によって算出された単語の出現頻度によって示される特徴量との間のコサイン距離、ジャカード距離又はユークリッド距離を算出することで、出現頻度同士を比較することとしてもよい。この構成によれば、更に確実に特定のトピックに関連する文書を抽出することができる。

デフォルトトピックタグ格納手段は、デフォルトトピックタグとして、不適切なトピックに係るデフォルトトピックタグを格納して、トピック文書抽出手段は、文書が不適切なトピックに関連する文書であるか否かを判断して文書の除外を行う、こととしてもよい。この構成によれば、不適切な文書を除外し、例えば不適切な文書をユーザへ提示することを防止することができる。

文書格納手段は、文書を投稿したユーザに係る情報を格納して、第１出現頻度算出手段は、単語の出現頻度として当該単語が含まれる文書を投稿したユーザ数を算出する、こととしてもよい。この構成によれば、ユーザ毎の影響を均一にし、例えば、１ユーザが複数回同じ内容の文書を投稿したことによる影響を抑えることができる。これにより、適切に特定のトピックに関連する文書を抽出することができる。

第１出現頻度算出手段は、単語毎に当該単語が含まれる文書を投稿したユーザ数に対する、文書を投稿した全ユーザ数の割合から逆出現頻度を算出し、トピック文書抽出手段は、第１出現頻度算出手段によって算出された逆出現頻度も用いてトピックに関連する文書を抽出する、こととしてもよい。この構成によれば、トピックを示すデフォルトトピックタグを含む文書における単語の逆出現頻度も用いてトピックに関連する文書が抽出される。これにより、複数のツイート等の文書から特定のトピックに関連する文書を更に適切に抽出することができる。

トピック文書抽出手段は、単語毎の文字数も用いてトピックに関連する文書を抽出することとしてもよい。この構成によれば、トピックを示すデフォルトトピックタグを含む文書における単語の文字数も用いてトピックに関連する文書が抽出される。これにより、複数のツイート等の文書から特定のトピックに関連する文書を更に適切に抽出することができる。

デフォルトトピックタグ格納手段は、複数のトピックそれぞれを示す複数のデフォルトトピックタグを格納し、トピック文書抽出手段は、複数のトピックに関連する文書を除外する、こととしてもよい。複数のトピックに対して投稿された文書（マルチトピック投稿）は、それぞれのトピックに関連しないケースが多い。従って、この構成によれば、不適切な文書をトピックに関連する文書として抽出することを回避することができる。

ところで、本発明は、上記のように関連文書抽出装置の発明として記述できる他に、以下のように関連文書抽出方法及び関連文書抽出プログラムの発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。

即ち、本発明に係る関連文書抽出方法は、トピックを示すデフォルトトピックタグを予め格納するデフォルトトピックタグ格納手段と、複数の文書を予め格納する文書格納手段と、を備える関連文書抽出装置による関連文書抽出方法であって、文書格納手段によって格納された文書を単語に分割する単語取得ステップと、文書格納手段によって格納された複数の文書から、デフォルトトピックタグ格納手段によって格納されたデフォルトトピックタグを含む文書を抽出するデフォルト文書抽出ステップと、デフォルト文書抽出ステップにおいて抽出された文書における、単語取得ステップにおいて分割された単語の出現頻度を算出する第１出現頻度算出ステップと、第１出現頻度算出ステップにおいて算出された出現頻度を用いて、デフォルト文書抽出ステップにおいて抽出された文書以外の文書から、トピックに関連する文書を抽出するトピック文書抽出ステップと、を含む。

また、本発明に係る関連文書抽出プログラムは、コンピュータを、トピックを示すデフォルトトピックタグを予め格納するデフォルトトピックタグ格納手段と、複数の文書を予め格納する文書格納手段と、文書格納手段によって格納された文書を単語に分割する単語取得手段と、文書格納手段によって格納された複数の文書から、デフォルトトピックタグ格納手段によって格納されたデフォルトトピックタグを含む文書を抽出するデフォルト文書抽出手段と、デフォルト文書抽出手段によって抽出された文書における、単語取得手段によって分割された単語の出現頻度を算出する第１出現頻度算出手段と、第１出現頻度算出手段によって算出された出現頻度を用いて、デフォルト文書抽出手段によって抽出された文書以外の文書から、トピックに関連する文書を抽出するトピック文書抽出手段と、として機能させる。

本発明に係るでは、トピックを示すデフォルトトピックタグを含む文書における単語の出現頻度を用いてトピックに関連する文書が抽出される。即ち、トピックを示すデフォルトトピックタグを含んでいなくても上記の出現頻度に応じた文書がトピックに関連する文書として抽出される。これにより、本発明によれば、複数のツイート等の文書から特定のトピックに関連する文書を適切に抽出することができる。

本発明の実施形態に係る関連文書抽出装置の機能構成を示す図である。文書格納部に格納される文書の例を示すテーブルである。形態素格納部に格納される形態素の例を示すテーブルである。デフォルトトピックタグ格納部に格納されるデフォルトトピックタグの例を示すテーブルである。トピック特徴語格納部に格納される特徴量の例を示すテーブルである。拡張トピックハッシュタグ格納部に格納される拡張トピックハッシュタグの例を示すテーブルである。文書の除外に用いる情報の例を示すテーブルである。トピック文書格納部に格納される文書の例を示すテーブルである。本発明の実施形態に係る関連文書抽出装置のハードウェア構成を示す図である。本発明の実施形態に係る関連文書抽出装置で実行される処理（関連文書抽出方法）全体を示すフローチャートである。トピック特徴語推定部による処理を示すフローチャートである。トピック特徴語推定部による処理を示すフローチャートである。トピック特徴語推定部による処理を示すフローチャートである。トピックハッシュタグ推定部による処理を示すフローチャートである。トピックハッシュタグ推定部による処理を示すフローチャートである。ブラックリストハッシュタグ拡張部による処理を示すフローチャートである。ブラックリストハッシュタグ拡張部による処理を示すフローチャートである。トピックＩＤ付与部による処理を示すフローチャートである。トピックＩＤ付与部による処理を示すフローチャートである。トピックＩＤ付与部による処理を示すフローチャートである。ノイズ除去部による処理を示すフローチャートである。本発明の実施形態に係る関連文書抽出プログラムの構成を、記録媒体と共に示す図である。

以下、図面と共に本発明に係る関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラムについて詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１に本実施形態に係る関連文書抽出装置１０を示す。関連文書抽出装置１０は、複数の文書（ドキュメント）から特定のトピックに関連する文書を抽出する装置である。抽出対象となる文書は、例えば、ユーザによって投稿されてＷｅｂ上で公開されるマイクロブログで公開される文書である。本実施形態では、説明を簡潔にするため、具体的な例として適宜マイクロブログの代表であるツイッターを用いる。なお、本実施形態では、抽出対象を文書と呼ぶが、マイクロブログのサービスによってはツイートあるいはコメント等とも呼ばれる。なお、抽出対象の文書は、必ずしもＷｅｂ上で公開される文書である必要は無い。

関連文書抽出装置１０は、多数のユーザによって投稿された文書を入力して、それらの文書から特定のトピックに関連する文書を抽出して、それらを特定のトピックに係る文書群としてユーザに提供する。特定のトピックとしては、例えば、特定のテレビ番組が挙げられる。ユーザは、特定のトピックに係る文書群を参照することで、他のユーザが当該特定のトピックに関してどのように考えているか等を知ることができる。

図１に示すように関連文書抽出装置１０は、文書格納部１００と、形態素解析部１１０と、形態素格納部１２０と、トピックタグ推定部１３０と、トピックタグ格納部１４０と、トピックＩＤ付与部１５０と、ブラックリストハッシュタグ拡張部１６０と、ブラックリストタグ格納部１７０と、ブラックリストユーザ格納部１８０と、ノイズ除去部１９０と、トピック文書格納部２００とを備えて構成される。関連文書抽出装置１０は、抽出対象となる文書を取得（受信）できるように当該文書を出力する装置（例えば、マイクロブログのサービスを提供するサーバ）とインターネット等のネットワークを介して接続されている。

文書格納部１００は、抽出対象となる複数の文書を予め入力して格納する文書格納手段である。文書格納部１００は、例えば、インターネット経由でマイクロブログのサービスを提供すると共に文書を保存するサーバに対して文書の取得を要求して取得（受信）することとしてもよいし、当該サーバからストリーミングでドキュメントのデータを受信することとしてもよい。ツイッターにおける各文書は、例えば、ユーザによって生成（投稿）された各ツイートデータ相当のものである。格納されるデータは、必ずしも一種類のデータのみが格納されるわけではない。

図２に文書格納部１００に格納される文書のサンプルフォーマットを示す。図２に示すように文書格納部１００に格納される１つの文書に関するデータは、文書ＩＤ、ユーザＩＤ、投稿時間、テキスト及びハッシュタグが対応付けられたものである。図２に示す１行のデータが１つの文書に関するデータに相当する。文書ＩＤは、それぞれの文書を特定する情報でありユニークな値である。ユーザＩＤは、それぞれの文書を作成したユーザを特定する情報である。このように文書格納部１００は、文書を投稿したユーザに係る情報を入力して格納する。ユーザＩＤは、例えば、ユーザのアカウント等のユニークな値としてもよいし、ユニークな値として特定するのが困難な場合にはインターネットを用いる場合のセッション毎のＩＤとしてもよい。

投稿時間は、その文書がユーザによって投稿された時刻を示す情報である。テキストは、文書データに含まれる実際のテキストデータ（文書本体）である。ハッシュタグは、文書に付与されたタグ情報である。ハッシュタグはツイッターの用語であるが、ユーザが明示的に特定のトピックに関して投稿したいときに文書に付与されるタグ、例えば特定のイベントを認識できるタグ、つまりイベント識別子である。それぞれの文書には、必ずしも何かしらのハッシュタグ（イベント識別子）を含む必要はなく、ハッシュタグを含まない場合にはＮＵＬＬ値が入るものとする。

形態素解析部１１０は、文書格納部１００によって格納されている文書データを読み出して、当該文書データのテキストを単語に分割する単語取得手段である。形態素解析部１１０は、テキストから単語への分割を、例えば、形態素解析によって行う。この際の形態素解析は従来の技術を利用することができる。但し、単語への分割は必ずしも形態素解析が用いられる必要はなく、任意の方法で行われてもよい。以降の説明では単語を形態素とする。形態素の取得は、文書毎に行われる。形態素解析部１１０は、テキストから得られた形態素に係る情報を形態素格納部１２０に出力する。

形態素格納部１２０は、形態素解析部１１０から入力された形態素を格納する手段である。図３に形態素格納部１２０に格納される形態素のサンプルフォーマットを示す。図３に示すように形態素格納部１２０に格納される１つの形態素に関するデータは、文書ＩＤ、ユーザＩＤ、投稿時間、形態素及び品詞が対応付けられたものである。図３に示す１行のデータが１つの形態素に関するデータに相当する。文書ＩＤ、ユーザＩＤ及び投稿時間は、形態素の取得元となった文書の文書ＩＤ、ユーザＩＤ及び投稿時間である。形態素は、形態素解析部１１０によって得られた形態素である。品詞は、形態素解析部１１０による解析によって得られた形態素の品詞である。例えば、形態素が名詞であるか否かの情報が格納される。

トピックタグ推定部１３０は、各文書が特定のトピックに関連する文書であるか否かを判断するために用いる情報を生成する手段である。トピックタグ推定部１３０は、トピックタグ格納部１４０に格納された情報を用いて、上記の情報を生成してトピックタグ格納部１４０に格納する。ここでトピックタグ格納部１４０について説明する。

トピックタグ格納部１４０は、デフォルトトピックタグ格納部１４１と、トピック特徴語格納部１４２と、拡張トピックハッシュタグ格納部１４３とを含む。

デフォルトトピックタグ格納部１４１は、トピックを示すデフォルトトピックタグを予め入力して格納するデフォルトトピックタグ格納手段である。デフォルトトピックタグは、関連する文書を抽出したいトピックに関連するタグであり、例えば、関連文書抽出装置１０の管理者によって予め登録される。デフォルトトピックタグが含まれる文書は、当該デフォルトトピックタグに係るトピックに関連する文書として抽出される。この抽出は、文字列マッチングにより行われる。デフォルトトピックタグは、例えば、形態素、ハッシュタグあるいはキーワードの何れかである。デフォルトトピックタグはトピックごとに存在する。例えば、トピックが「ＸＸドラマ：ＹＹＹ（ドラマタイトル）」の場合、「（ＹＹＹに出演している俳優である）ＡＡＡＡ」、「ＹＹＹ」、「（ＹＹＹに出演している俳優である）ＢＢＢＢ」等がデフォルトトピックとされる。

図４にデフォルトトピックタグ格納部１４１に格納されるデフォルトトピックタグのサンプルフォーマットを示す。図４に示すようにデフォルトトピックタグ格納部１４１に格納される１つのデフォルトトピックタグに関するデータは、トピックＩＤ及びタグが対応付けられたものである。図４に示す１行のデータが１つのデフォルトトピックタグに関するデータに相当する。トピックＩＤは、一つのトピックを特定するＩＤである。タグは、デフォルトトピックタグ本体である。デフォルトトピックタグ格納部１４１に格納されるデフォルトトピックタグは、図４に示すように一つのトピック（一つのトピックＩＤ）に対して複数あってもよい。また、デフォルトトピックタグ格納部１４１は、複数のトピック（複数のトピックＩＤ）それぞれを示す複数のデフォルトトピックタグを入力することとしてもよい。

トピック特徴語格納部１４２と、拡張トピックハッシュタグ格納部１４３とに格納される情報はトピックタグ推定部１３０から入力される情報であるので後述する。

トピックタグ推定部１３０は、デフォルトトピックタグ格納部１４１に格納されたデフォルトトピックタグを用いて、各文書が特定のトピックに関連する文書であるか否かを判断するために用いる情報を生成する。この情報は、文書にデフォルトトピックタグが含まれていないが、当該文書にデフォルトトピックタグに係るトピックに関連する文書であるか否かを判断するためのものである。

トピックタグ推定部１３０は、トピック特徴語推定部１３１と、トピックハッシュタグ推定部１３２とを含んで構成され、それぞれが異なる情報を生成する。

トピック特徴語推定部１３１は、トピックの特徴語を推定する手段である。トピックの特徴語とは、当該トピックに関連する文書に特徴的に出現する形態素である。トピック特徴語推定部１３１は、デフォルトトピックタグ格納部１４１によって格納されているデフォルトトピックタグを読み出し、文書格納部１００によって格納されている複数の文書からデフォルトトピックタグを含む文書を、トピックに関連する文書（トピック文書）として抽出するデフォルト文書抽出手段である。この時、投稿時間に基づいて抽出時から直近数時間等の予め設定された一定期間の文書を取得する。トピック特徴語推定部１３１は、文書格納部１００及び形態素格納部１２０に格納されている情報を参照して、抽出されたトピック文書（トピック文書群）における形態素の出現頻度を算出する第１出現頻度算出手段である。この際、トピック特徴語推定部１３１は、形態素の出現頻度として当該形態素が含まれる文書を投稿したユーザ数を算出する。また、トピック特徴語推定部１３１は、形態素毎に当該形態素が含まれる文書を投稿したユーザ数に対する、文書を投稿した全ユーザ数の割合から逆出現頻度を算出する。

トピック特徴語推定部１３１は、上記の値からトピック文書（トピック文書群）に特徴的な形態素（特徴量）を抽出する。トピック特徴語推定部１３１は、トピックＩＤ毎に、対象のトピックの特徴を記述する情報である特徴量を生成する。特徴量は、複数の特徴（素性）から構成され、形態素毎に素性が生成される。例えば、「今日」という素性はスコアが「０．５」付いており、「晴」という素性はスコアが「０．２」付いているといった具合である。

具体的には、以下のように生成する。まず、トピック特徴語推定部１３１は、各文書に含まれる形態素から以下の式により、各形態素についてのＩＤＦ（Inverse Document Frequency）値（逆出現頻度）を算出する。

ここで、ｉは形態素を示す添え字、｜Ｄ｜は総ユニークユーザ数、｜｛ｄ：ｔ_ｉ∈ｄ｝｜は、形態素ｉを含む文書を投稿したユニークユーザ数である。ＩＤＦ値は、その単語が出現する文書数が少なければ少ないほど、その単語が出現する文書にとっては、有用であることを示すスコアである。

なお、このように文書数でなく、ユーザ数で頻度を算出しているのは以下のような理由である。文書数を単純に用いるとノイズが混じることがある。例えば、同じユーザが同じ内容の文書を複数投稿することがある。人によっては何十回も同じ内容の文書を投稿することもある。ここでの計算をユニークユーザ数ベースにすると、同一ユーザが複数回同じ内容の文書を投稿していたとしても１回しかカウントされない。従って、算出されるスコアとしてはより信頼性の高いものとなる。１ユーザが形態素のスコアに与える影響を均一にしているという考え方もできる。

続いて、トピック特徴語推定部１３１は、トピックＩＤ毎に各トピック文書に含まれる形態素（トピックＩＤが付与された形態素）から以下の式により、各形態素についてのＴＦ（Term Frequency）値（出現頻度）を算出する。

ここで、ｊはトピックＩＤを示す添え字、ｎ_ｉ，ｊは、形態素ｉを含むトピックＩＤｊに係る文書（トピックＩＤｊのデフォルトトピックタグを含む文書）を投稿したユニークユーザ数である。なお、ＴＦ値は、与えられた文書において、ある単語がどれだけ顕著に出現するかを示し、この値が大きければ大きいほどその単語が文書の内容をよく表現していることを示す。

続いて、トピック特徴語推定部１３１は、トピックＩＤｊにおける形態素ｉのＴＦＩＤＦ値（ｔｆｉｄｆ_ｉ，ｊ）を以下の式により求める。
ｔｆｉｄｆ_ｉ，ｊ＝ｔｆ_ｉ，ｊ・ｉｄｆ_ｉ
これを各形態素に対して行うことでトピックＩＤの特徴量（形態素ｉ毎のＴＦＩＤＦ値）を生成する。全てのトピックＩＤの特徴量を生成するまで続ける。このように算出した形態素毎のスコアは、トピックと相関が高い形態素ほど高いスコアが付く。

テレビ番組に関する特徴量は、例えば、「ＹＹＹ（ドラマタイトル）：１．０、ＡＡＡＡ（俳優名）：０．９、ＣＣＣＣ（役名）：０．７、ＤＤＤＤ（役名）：０．４」（形態素：ＴＦＩＤＦ値）のようになる。このように特徴量を見ることで、この番組の特徴が明確である。

なお、上記の計算の際にＩＤＦにｌｏｇをかけたり、ＩＤＦを定数で累乗したりすることで、ＩＤＦに重みを付けてスコア（ＴＦＩＤＦ値）の調整を行ってもよい。また、形態素毎の文字数も用いて、例えば、以下の式のようにＴＦＩＤＦ値を算出することとしてもよい。
ｔｆｉｄｆ_ｉ，ｊ＝ｔｆ_ｉ，ｊ・ｉｄｆ_ｉ・ｌｏｇ（ｌｅｎｇｔｈ_ｉ）
ここで、ｌｅｎｇｔｈ_ｉは、形態素ｉの文字数である。また、ｐｏｗｅｒ（ｌｏｇ（ｌｅｎｇｔｈ_ｉ），定数）（ｌｏｇ（ｌｅｎｇｔｈ_ｉ）の定数乗）をかけることで文字列の重みをかけてもよい。このようにすることでより具体的に記述している形態素に対して重みを上げることができる。また文字数が少ない形態素は頻繁に出現するため、ノイズとしてスコアが高くなりがちである。

トピック特徴語推定部１３１は、算出したトピックＩＤ毎の各形態素のＴＦＩＤＦ値をトピック特徴語格納部１４２に出力して格納させる。ここで、ＴＦＩＤＦ値が予め設定された閾値以上の形態素（特徴語）についてのみ、トピック特徴語格納部１４２に格納させることとしてもよい。図５にトピック特徴語格納部１４２に格納される特徴量のサンプルフォーマットを示す。図５に示すようにトピック特徴語格納部１４２に格納される特徴量のデータは、形態素毎のデータであり、１つの形態素に関するデータは、トピックＩＤ、作成日、タグ及びスコアが対応付けられたものである。図５に示す１行のデータが何れかのトピックＩＤの１つの形態素に関するデータに相当する。トピックＩＤは、特徴量に係るトピックのトピックＩＤである。作成日は、このデータが作成された時刻である。タグは、形態素である。スコアは、トピック特徴語推定部１３１によって算出されたＴＦＩＤＦ値である。以上が、トピック特徴語推定部１３１によって生成される情報である。

トピックハッシュタグ推定部１３２は、トピックに係るデフォルトトピックタグ以外のハッシュタグを推定する手段である。トピックハッシュタグ推定部１３２は、デフォルトトピックタグ格納部１４１によって格納されているデフォルトトピックタグを読み出し、文書格納部１００によって格納されている複数の文書からデフォルトトピックタグ以外のタグ（トピックに係るハッシュタグの候補となるハッシュタグ）を含む文書をタグ文書（タグ文書群）として抽出するタグ文書抽出手段である。この時、投稿時間に基づいて抽出時から直近数時間等の予め設定された一定期間の文書を取得する。トピックハッシュタグ推定部１３２は、文書格納部１００及び形態素格納部１２０に格納されている情報を参照して、抽出されたタグ文書（タグ文書群）における形態素の出現頻度を算出する第２出現頻度算出手段である。この際、トピックハッシュタグ推定部１３２は、形態素の出現頻度として当該形態素が含まれる文書を投稿したユーザ数を算出する。また、トピックハッシュタグ推定部１３２は、形態素毎に当該形態素が含まれる文書を投稿したユーザ数に対する、文書を投稿した全ユーザ数の割合から逆出現頻度を算出する。

具体的には、トピックハッシュタグ推定部１３２は、トピック特徴語推定部１３１と同様に各形態素についてのＩＤＦ値（逆出現頻度）を算出する。なお、トピック特徴語推定部１３１及びトピックハッシュタグ推定部１３２によって算出され利用されるＩＤＦ値は形態素毎に同一の値となるため、何れか一方が算出したＩＤＦ値をもう一方において利用することとしてもよい。

続いて、トピックハッシュタグ推定部１３２は、デフォルトトピックタグ以外のタグ毎に各タグ文書に含まれる形態素（ハッシュタグが付与された形態素）から以下の式により、各形態素についてのＴＦ値（出現頻度）を算出する。

ここで、ｊはハッシュタグを示す添え字、ｎ_ｉ，ｊは、形態素ｉを含むと共にハッシュタグｊを含む文書を投稿したユニークユーザ数である。

続いて、トピックハッシュタグ推定部１３２は、ハッシュタグｊにおける形態素ｉのＴＦＩＤＦ値（ｔｆｉｄｆ_ｉ，ｊ）を以下の式により求める。
ｔｆｉｄｆ_ｉ，ｊ＝ｔｆ_ｉ，ｊ・ｉｄｆ_ｉ
これを各形態素に対して行うことでハッシュタグの特徴量（形態素ｉ毎のＴＦＩＤＦ値）を生成する。全てのハッシュタグの特徴量を生成するまで続ける。なお、ＴＦＩＤＦ値の重み付け等は上述したトピック特徴語推定部１３１による方法と同様に行ってもよい。

また、トピックハッシュタグ推定部１３２は、デフォルトトピックタグ格納部１４１によって格納されているデフォルトトピックタグを読み出し、文書格納部１００によって格納されている複数の文書からデフォルトトピックタグを含む文書を、トピックに関連する文書（トピック文書）として抽出するデフォルト文書抽出手段である。この時、投稿時間に基づいて抽出時から直近数時間等の予め設定された一定期間の文書を取得する。トピックハッシュタグ推定部１３２は、文書格納部１００及び形態素格納部１２０に格納されている情報を参照して、抽出されたトピック文書（トピック文書群）における形態素の出現頻度を算出する第１出現頻度算出手段である。この際、トピックハッシュタグ推定部１３２は、形態素の出現頻度として当該形態素が含まれる文書を投稿したユーザ数を算出する。また、トピックハッシュタグ推定部１３２は、形態素毎に当該形態素が含まれる文書を投稿したユーザ数に対する、文書を投稿した全ユーザ数の割合から逆出現頻度を算出する。

トピックハッシュタグ推定部１３２は、トピック特徴語推定部１３１と同様にトピックＩＤｊにおける形態素ｉのＴＦＩＤＦ値（ｔｆｉｄｆ_ｉ，ｊ）を求める。なお、トピック特徴語推定部１３１及びトピックハッシュタグ推定部１３２によって算出され利用される、トピックＩＤｊにおけるＴＦＩＤＦ値は形態素毎に同一の値となるため、何れか一方が算出したＴＦＩＤＦ値をもう一方において利用することとしてもよい。

トピックハッシュタグ推定部１３２は、上記のように算出したトピックＩＤの特徴量と、タグの特徴量とを比較する第２トピック文書判定手段の一機能である。具体的には、トピックハッシュタグ推定部１３２は、トピックＩＤ毎に全ての（デフォルトトピックタグ以外の）ハッシュタグとの類似度（ｓｉｍｉｌａｒｉｔｙ）をコサイン距離として以下の式を用いて算出する。

ここでＡ及びＢは、それぞれトピックＩＤの特徴量及びハッシュタグの特徴量である。Ａｉ及びＢｉは、各形態素ｉのＴＦＩＤＦ値である。なお、形態素の出現頻度によって示される特徴量間の類似度の算出には、上記のコサイン距離以外にも、ジャカード距離又はユークリッド距離が用いられてもよい。また、それ以外でも特徴量間の類似度の算出が可能なものであれば、任意の算出方法を用いることができる。

トピックハッシュタグ推定部１３２は、トピックＩＤ毎に類似度が予め設定した閾値以上のハッシュタグの類似度があるか否か判断して、類似度が閾値以上のタグを当該トピックＩＤのトピックに係るタグであるものとする。この処理を全てのトピックＩＤに対して行うことで、当該トピックＩＤのトピックに係るハッシュタグ（類似しているハッシュタグ）を抽出することができる。

トピックハッシュタグ推定部１３２は、トピックＩＤのトピックに係るハッシュタグ（拡張トピックハッシュタグ）を示す情報を拡張トピックハッシュタグ格納部１４３に出力して格納させる。図６に拡張トピックハッシュタグ格納部１４３に格納される拡張トピックハッシュタグのサンプルフォーマットを示す。図６に示すように拡張トピックハッシュタグ格納部１４３に格納される拡張トピックハッシュタグのデータは、拡張トピックハッシュタグ毎のデータであり、１つの拡張トピックハッシュタグに関するデータは、トピックＩＤ、作成日及びハッシュタグが対応付けられたものである。図６に示す１行のデータが１つの拡張トピックハッシュタグに関するデータに相当する。トピックＩＤは、拡張トピックハッシュタグに係るトピックのトピックＩＤである。作成日は、このデータが作成された時刻である。ハッシュタグは、拡張トピックハッシュタグである。以上が、トピックハッシュタグ推定部１３２によって生成される情報である。

トピックＩＤ付与部１５０は、トピックタグ格納部１４０に格納された情報を用いてトピックに関連する文書を抽出するトピック文書抽出手段である。特にトピックＩＤ付与部１５０は、文書にデフォルトトピックタグが含まれていないが、トピックに関連する文書を抽出するトピック文書抽出手段である。

トピックＩＤ付与部１５０は、まず、文書格納部１００によって格納されている文書を取得する。この時、投稿時間に基づいて取得時から直近数時間等の予め設定された一定期間の文書を取得する。デフォルトトピックタグ格納部１４１に格納されている情報に基づくトピックに関連する文書を抽出するには以下のように行う。トピックＩＤ付与部１５０は、デフォルトトピックタグ格納部１４１によって格納されているデフォルトトピックタグを読み出し、取得した文書にデフォルトトピックタグが含まれているか否かを判断し、デフォルトトピックタグが含まれていた文書に当該デフォルトトピックタグに係るトピックＩＤを付与する。

トピック特徴語推定部１３１に格納されている情報に基づくトピックに関連する文書を抽出するには以下のように行う。トピックＩＤ付与部１５０は、トピック特徴語推定部１３１によって格納されている特徴量（トピックＩＤ毎の各形態素のＴＦＩＤＦ値（スコア））の情報を読み出し、特徴量の情報から各トピックＩＤに対する取得した各文書のスコアを算出するスコア算出手段である。トピックＩＤ付与部１５０は、スコア付与対象の文書に特徴量に係る形態素（特徴語）が含まれているか判断する。トピックＩＤ付与部１５０は、文書に含まれていた特徴語のスコアを合算する。

なお、スコアの算出の際に文書において特徴語が複数回出現する場合、１回出現の場合と同様に文書のスコアを算出することとしてもよい。即ち、同じ特徴語のスコアを複数回カウントしない。文書が「今日は、晴れてよかった。今日はいい天気」の場合、特徴語「今日」のスコアが１．０の場合、この文書に含まれる「今日」から派生するスコアを１．０＋１．０＝２．０でなく１．０とする。

このように複数回カウントしないことでノイズの除去が可能である。不適切な文書をトピック文書として抽出することを回避できる。例えば、あるワードが特徴語として抽出されたがその特徴語のスコアが低かったとする。その特徴がある文書の中に頻繁に出現した場合、重複カウントを許容してしまうとトピック文書として抽出してしまう可能性がある。重複カウントを許可しないことでこれを回避できる。

トピックＩＤ付与部１５０は、算出されたスコアに基づいて、当該スコアに係る文書がトピックに関連する文書であるか否かを判定する第１トピック文書判定手段である。具体的には、トピックＩＤ付与部１５０は、スコアが予め設定した閾値であるか否かを判断して、閾値以上であった場合、当該文書がそのトピックに関連する文書であると判断しトピックＩＤを付与する。この処理をトピック特徴語推定部１３１に格納される特徴量に係るトピックＩＤ分繰り返しトピックＩＤを付与する。

拡張トピックハッシュタグ格納部１４３に格納されている情報に基づくトピックに関連する文書を抽出するには以下のように行う。トピックＩＤ付与部１５０は、拡張トピックハッシュタグ格納部１４３によって格納されている拡張トピックハッシュタグを読み出し、取得した文書に拡張トピックハッシュタグが含まれているか否かを判断する（即ち、取得した文書が拡張トピックハッシュタグに係るタグ文書であるか否かを判断する）ことで、当該文書がトピックに関連する文書であるか否かを判定する第２トピック文書判定手段である。トピックＩＤ付与部１５０は、拡張トピックハッシュタグが含まれていた文書に当該デフォルトトピックタグに係るトピックＩＤを付与する。拡張トピックハッシュタグ格納部１４３に格納される拡張トピックハッシュタグに係るトピックＩＤ分繰り返しトピックＩＤを付与する。トピックＩＤ付与部１５０は、トピックＩＤを付与した文書をノイズ除去部１９０に出力する。

本実施形態では、文書格納部１００に格納されている文書からノイズの除去を行う。即ち、文書格納部１００に格納されている文書がトピックに関連する文書として不適切なものか否かを判断して、不適切なものであると判断されるとその文書を関連する文書から除外する。

ツイッターではハッシュタグを付けて特定のトピックに対して自分のツイートをシェアするのは一般的だが、独立する複数のトピックのハッシュタグを付け自分のコメントを投稿するユーザがいる。この場合、複数のトピックに対して投稿されており、投稿内容としては個々のトピックとは関係性が非常に薄く、テレビに関して言えば政治に対する批判であったり、放送局批判であったりすることが多い。トピックに関連する文書を精度よく抽出するにあたって、これらノイズをフィルタリングすることは重要である。以下の構成は、文書からノイズの除去を行うためのものである。

ブラックリストハッシュタグ拡張部１６０は、各文書がノイズにあたるか、即ち、各文書が抽出するのに不適切な特定のトピックに関連する文書であるか否かを判断するために用いる情報を生成する手段である。ブラックリストハッシュタグ拡張部１６０は、ブラックリストタグ格納部１７０に格納された情報を用いて、上記の情報を生成してブラックリストタグ格納部１７０に格納する。ここでブラックリストタグ格納部１７０について説明する。

ブラックリストタグ格納部１７０は、デフォルトブラックリスト形態素格納部１７１と、デフォルトブラックリストハッシュタグ格納部１７２と、拡張ブラックリストハッシュタグ格納部１７３とを含む。

デフォルトブラックリスト形態素格納部１７１は、ブラックリスト形態素を入力して格納する手段である。ブラックリスト形態素は、文書に含まれていた場合にその文書が除外されるべきものとされる形態素である。ブラックリスト形態素は、例えば、関連文書抽出装置１０の管理者によって予め登録される。図７（ａ）にデフォルトブラックリスト形態素格納部１７１に格納されるブラックリスト形態素のサンプルフォーマットを示す。図７（ａ）に示すように１行のデータが１つのブラックリスト形態素に関するデータに相当し、ブラックリスト形態素毎に格納されている。

デフォルトブラックリストハッシュタグ格納部１７２は、不適切なトピックを示すデフォルトトピックタグであるブラックリストハッシュタグを予め入力して格納するデフォルトトピックタグ格納手段である。ブラックリストハッシュタグは、関連する文書を除外したいトピックに関連するタグであり、例えば、関連文書抽出装置１０の管理者によって予め登録される。ブラックリストハッシュタグが含まれる文書は、不適切なトピックに関連する文書として除外される。この除外は、文字列マッチングにより行われる。ブラックリストハッシュタグは、例えば、ハッシュタグである。

図７（ｂ）にデフォルトブラックリストハッシュタグ格納部１７２に格納されるブラックリストハッシュタグのサンプルフォーマットを示す。図７（ｂ）に示すように１行のデータが１つのブラックリストハッシュタグに関するデータに相当し、ブラックリストハッシュタグ毎に格納されている。

拡張ブラックリストハッシュタグ格納部１７３格納される情報はブラックリストハッシュタグ拡張部１６０から入力される情報であるので後述する。

ブラックリストハッシュタグ拡張部１６０は、デフォルトブラックリストハッシュタグ格納部１７２に格納されたブラックリストハッシュタグを用いて、各文書が除外されるべき文書（除外されるべきトピックに関連する文書）であるか否かを判断するために用いる情報を生成する。この情報は、文書にブラックリストハッシュタグが含まれていないが、当該文書が除外されるべき文書であるか否かを判断するためのものである。

ブラックリストハッシュタグ拡張部１６０は、ブラックリストハッシュタグに係る特徴語を推定する手段である。ブラックリストハッシュタグの特徴語とは、当該ブラックリストハッシュタグを含む文書に特徴的に出現する形態素である。ブラックリストハッシュタグ拡張部１６０は、デフォルトブラックリストハッシュタグ格納部１７２によって格納されているブラックリストハッシュタグを読み出し、文書格納部１００によって格納されている複数の文書からブラックリストハッシュタグを含む文書を、除外されるべき文書として抽出するデフォルト文書抽出手段である。この時、投稿時間に基づいて抽出時から直近数時間等の予め設定された一定期間の文書を取得する。ブラックリストハッシュタグ拡張部１６０は、文書格納部１００及び形態素格納部１２０に格納されている情報を参照して、抽出された除外されるべき文書（文書群）における形態素の出現頻度を算出する第１出現頻度算出手段である。この際、ブラックリストハッシュタグ拡張部１６０は、形態素の出現頻度として当該形態素が含まれる文書を投稿したユーザ数を算出する。また、ブラックリストハッシュタグ拡張部１６０は、形態素毎に当該形態素が含まれる文書を投稿したユーザ数に対する、文書を投稿した全ユーザ数の割合から逆出現頻度を算出する。

ブラックリストハッシュタグ拡張部１６０は、上記の値から除外されるべき文書（文書群）に特徴的な形態素（特徴量）を抽出する。ブラックリストハッシュタグ拡張部１６０は、ブラックリストハッシュタグ毎に、対象のトピックの特徴を記述する情報である特徴量を生成する。

具体的には、以下のように生成する。まず、ブラックリストハッシュタグ拡張部１６０は、各文書に含まれる形態素から以下の式により、各形態素についてのＩＤＦ値（逆出現頻度）を算出する。

ここで、ｉは形態素を示す添え字、｜Ｄ｜は総ユニークユーザ数、｜｛ｄ：ｔ_ｉ∈ｄ｝｜は、形態素ｉを含む文書を投稿したユニークユーザ数である。なお、このＩＤＦ値は、トピックタグ推定部１３０によって算出されたものと同様のものであるのでトピックタグ推定部１３０によって算出されたものを用いることとしてもよい。

続いて、ブラックリストハッシュタグ拡張部１６０は、ブラックリストハッシュタグ毎に各抽出された除外されるべき文書に含まれる形態素（ブラックリストハッシュタグが付与された形態素）から以下の式により、各形態素についてのＴＦ値（出現頻度）を算出する。

ここで、ｊはブラックリストハッシュタグを示す添え字、ｎ_ｉ，ｊは、形態素ｉを含むブラックリストハッシュタグｊに係る文書（ブラックリストハッシュタグｊを含む文書）を投稿したユニークユーザ数である。

続いて、ブラックリストハッシュタグ拡張部１６０は、ブラックリストハッシュタグｊにおける形態素ｉのＴＦＩＤＦ値（ｔｆｉｄｆ_ｉ，ｊ）を以下の式により求める。
ｔｆｉｄｆ_ｉ，ｊ＝ｔｆ_ｉ，ｊ・ｉｄｆ_ｉ
これを各形態素に対して行うことでブラックリストハッシュタグの特徴量（形態素ｉ毎のＴＦＩＤＦ値）を生成する。全てのブラックリストハッシュタグの特徴量を生成するまで続ける。なお、ＴＦＩＤＦ値の重み付け等は上述した方法と同様に行ってもよい。

ブラックリストハッシュタグ拡張部１６０は、算出したブラックリストハッシュタグ毎の各形態素のＴＦＩＤＦ値をブラックリストタグ格納部１７０に出力して格納させる。ここで、ＴＦＩＤＦ値が閾値以上の形態素（特徴語）についてのみ、ブラックリストタグ格納部１７０に格納させることとしてもよい。

また、ブラックリストハッシュタグ拡張部１６０は、ブラックリストハッシュタグ以外の除外されるべき文書に含まれるハッシュタグを推定する手段である。ブラックリストハッシュタグ拡張部１６０は、デフォルトブラックリストハッシュタグ格納部１７２によって格納されているブラックリストハッシュタグを読み出し、文書格納部１００によって格納されている複数の文書からブラックリストハッシュタグ以外のタグ（除外されるべき文書に含まれるハッシュタグの候補となるハッシュタグ）を含む文書（文書群）を抽出するタグ文書抽出手段である。この時、投稿時間に基づいて抽出時から直近数時間等の予め設定された一定期間の文書を取得する。ブラックリストハッシュタグ拡張部１６０は、文書格納部１００及び形態素格納部１２０に格納されている情報を参照して、抽出された文書（文書群）における形態素の出現頻度を算出する第２出現頻度算出手段である。この際、ブラックリストハッシュタグ拡張部１６０は、形態素の出現頻度として当該形態素が含まれる文書を投稿したユーザ数を算出する。また、ブラックリストハッシュタグ拡張部１６０は、形態素毎に当該形態素が含まれる文書を投稿したユーザ数に対する、文書を投稿した全ユーザ数の割合から逆出現頻度を算出する。

具体的には、ブラックリストハッシュタグ拡張部１６０は、上記と同様に各形態素についてのＩＤＦ値（逆出現頻度）を算出する。なお、ブラックリストハッシュタグ拡張部１６０は、上記あるいはトピックタグ推定部１３０が算出したＴＦ値を利用することとしてもよい。

続いて、ブラックリストハッシュタグ拡張部１６０は、ブラックリストハッシュタグ以外のタグ毎に各タグ文書に含まれる形態素（ハッシュタグが付与された形態素）から以下の式により、各形態素についてのＴＦ値（出現頻度）を算出する。

ここで、ｊはハッシュタグを示す添え字、ｎ_ｉ，ｊは、形態素ｉを含むと共にハッシュタグｊを含む文書を投稿したユニークユーザ数である。なお、ブラックリストハッシュタグ拡張部１６０は、トピックタグ推定部１３０が算出したＴＦ値を利用することとしてもよい。

続いて、ブラックリストハッシュタグ拡張部１６０は、ハッシュタグｊにおける形態素ｉのＴＦＩＤＦ値（ｔｆｉｄｆ_ｉ，ｊ）を以下の式により求める。
ｔｆｉｄｆ_ｉ，ｊ＝ｔｆ_ｉ，ｊ・ｉｄｆ_ｉ
これを各形態素に対して行うことでハッシュタグの特徴量（形態素ｉ毎のＴＦＩＤＦ値）を生成する。全てのハッシュタグの特徴量を生成するまで続ける。なお、ＴＦＩＤＦ値の重み付け等は上述した方法と同様に行ってもよい。

また、ブラックリストハッシュタグ拡張部１６０は、デフォルトブラックリストハッシュタグ格納部１７２によって格納されているブラックリストハッシュタグを読み出し、文書格納部１００によって格納されている複数の文書からブラックリストハッシュタグを含む文書を、除外されるべき文書として抽出するデフォルト文書抽出手段である。この時、投稿時間に基づいて抽出時から直近数時間等の予め設定された一定期間の文書を取得する。ブラックリストハッシュタグ拡張部１６０は、文書格納部１００及び形態素格納部１２０に格納されている情報を参照して、抽出された除外されるべき文書（文書群）における形態素の出現頻度を算出する第１出現頻度算出手段である。この際、ブラックリストハッシュタグ拡張部１６０は、形態素の出現頻度として当該形態素が含まれる文書を投稿したユーザ数を算出する。また、ブラックリストハッシュタグ拡張部１６０は、形態素毎に当該形態素が含まれる文書を投稿したユーザ数に対する、文書を投稿した全ユーザ数の割合から逆出現頻度を算出する。

ブラックリストハッシュタグ拡張部１６０は、上記と同様にブラックリストハッシュタグｊにおける形態素ｉのＴＦＩＤＦ値（ｔｆｉｄｆ_ｉ，ｊ）を求める。なお、ブラックリストハッシュタグｊにおけるＴＦＩＤＦ値は形態素毎に同一の値となるため、上記で算出したＴＦＩＤＦ値を利用することとしてもよい。

ブラックリストハッシュタグ拡張部１６０は、上記のように算出したブラックリストハッシュタグの特徴量と、ハッシュタグの特徴量とを比較する第２トピック文書判定手段の一機能である。具体的には、ブラックリストハッシュタグ拡張部１６０は、ブラックリストハッシュタグ毎に全ての（ブラックリストハッシュタグ以外の）ハッシュタグとの類似度（ｓｉｍｉｌａｒｉｔｙ）をコサイン距離として以下の式を用いて算出する。

ここでＡ及びＢは、それぞれブラックリストハッシュタグの特徴量及びハッシュタグの特徴量である。Ａｉ及びＢｉは、各形態素ｉのＴＦＩＤＦ値である。なお、形態素の出現頻度によって示される特徴量間の類似度の算出には、上記のコサイン距離以外にも、ジャカード距離又はユークリッド距離が用いられてもよい。また、それ以外でも特徴量間の類似度の算出が可能なものであれば、任意の算出方法を用いることができる。

ブラックリストハッシュタグ拡張部１６０は、ブラックリストハッシュタグ毎に類似度が予め設定した閾値以上のハッシュタグの類似度があるか否か判断して、類似度が閾値以上のハッシュタグを除外されるべき文書に係るハッシュタグであるものとする。この処理を全てのブラックリストハッシュタグに対して行うことで、除外されるべき文書に係るハッシュタグを抽出することができる。

ブラックリストハッシュタグ拡張部１６０は、抽出した除外されるべき文書に係るハッシュタグ（拡張ブラックリストハッシュタグ）を示す情報を拡張ブラックリストハッシュタグ格納部１７３に出力して格納させる。図７（ｃ）に拡張ブラックリストハッシュタグ格納部１７３に格納される拡張ブラックリストハッシュタグのサンプルフォーマットを示す。図７（ｃ）に示すように１行のデータが１つの拡張ブラックリストハッシュタグに関するデータに相当し、ブラックリストハッシュタグ毎に格納されている。

ブラックリストユーザ格納部１８０は、ブラックリストユーザを示すブラックリストユーザＩＤを入力して格納する手段である。ブラックリストユーザは、そのユーザに投稿された文書が除外されるべきものとされるユーザである。ブラックリストユーザＩＤは、例えば、関連文書抽出装置１０の管理者によって予め登録される。図７（ｄ）にブラックリストユーザ格納部１８０に格納されるブラックリストユーザＩＤのサンプルフォーマットを示す。図７（ｄ）に示すように１行のデータが１つのブラックリストユーザＩＤに関するデータに相当し、ブラックリストユーザＩＤ毎に格納されている。なお、ユーザＩＤ以外でもブラックリストユーザを認識できる情報であれば、どのような情報が用いられてもよい。

ノイズ除去部１９０は、トピックＩＤ付与部１５０から入力された文書が不適切な（不適切なトピックに関連する）文書（ノイズ）であるか否かを判定して文書の除外を行うトピック文書抽出手段の一機能である。具体的には、ノイズ除去部１９０は、以下の機能を有する。

ノイズ除去部１９０は、デフォルトブラックリスト形態素格納部１７１からブラックリスト形態素を読み出して、トピックＩＤ付与部１５０から入力された文書にブラックリスト形態素が含まれていないか否かを判定する。この判定は文書とブラックリスト形態素との文字列のマッチングにより行われる。ノイズ除去部１９０は、文書にブラックリスト形態素が含まれていると判定すると当該文書を除外されるべき不適切な文書として除外する。

ノイズ除去部１９０は、トピックＩＤ付与部１５０から入力された文書が別の文書を引き継いで投稿されたものか、あるいは別の文書に対して返信されたものかを判定する。具体的には、ノイズ除去部１９０は、文書がＲＴ（リツイート）であるか、あるいは返信ツイートであるかの判定を行う。ＲＴであるいか否かの判定は、公式ＴｗｉｔｔｅｒＡＰＩより行うことが可能である。また、テキスト解析を行うことで上記の判定を行うこととしてもよい。具体的には、文書に“ＲＴ”との文字列が含まれているか、あるいはユーザ名が含まれているかで容易に判定が可能である。ノイズ除去部１９０は、文書が別の文書を引き継いで投稿されたもの、あるいは別の文書に対して返信されたものであると判定すると当該文書を除外されるべき不適切な文書として除外する。

ノイズ除去部１９０は、マルチポスト判定を行う。マルチポストとは、複数のトピックに対しての投稿のことを指す。即ち、文書が複数のトピックに関連する文書であるか否かを判定する。例えば、放送局を１トピックとした場合、ハッシュタグにそれぞれ放送局に係るハッシュタグである＃ｆｆｆと＃ｚｚｚとが含まれる文書は複数の放送局に対して文書を投稿しているため、マルチポストとみなす。ノイズ除去部１９０は、トピックＩＤ付与部１５０から入力された文書がトピックＩＤ付与部１５０によって複数のトピックＩＤが付与されているか否かを判定することで、文書がマルチポストされたものであるか否かを判定する。ノイズ除去部１９０は、文書がマルチポストされたものであると判定すると当該文書を除外されるべき不適切な文書として除外する。

ノイズ除去部１９０は、トピックＩＤ付与部１５０から入力された文書がブラックリストユーザによって投稿されたものかを判定する。ノイズ除去部１９０は、ブラックリストユーザ格納部１８０からブラックリストユーザのユーザＩＤを読み出して、トピックＩＤ付与部１５０から入力された文書を投稿したユーザのユーザＩＤとブラックリストユーザのユーザＩＤとを比較して、合致した場合、文書がブラックリストユーザによって投稿されたものであると判定する。ノイズ除去部１９０は、文書がブラックリストユーザによって投稿されたものであると判定すると当該文書を除外されるべき不適切な文書として除外する。

ノイズ除去部１９０は、ブラックリストタグ格納部１７０に格納された情報を用いて、トピックＩＤ付与部１５０から入力された文書が不適切な文書であるか否かを判定する。特にノイズ除去部１９０は、文書にブラックリストハッシュタグが含まれていないが、不適切な文書を判定して除外する。

ノイズ除去部１９０は、デフォルトブラックリストハッシュタグ格納部１７２によって格納されているブラックリストハッシュタグを読み出し、文書にデフォルトトピックタグが含まれているか否かを判定し、デフォルトトピックタグが含まれていた文書を除外されるべき不適切な文書として除外する。

ノイズ除去部１９０は、ブラックリストタグ格納部１７０によって格納されている特徴量（デフォルトトピックタグ毎の各形態素のＴＦＩＤＦ値（スコア））の情報を読み出し、特徴量の情報から各デフォルトトピックタグに対する各文書のスコアを算出するスコア算出手段である。ノイズ除去部１９０は、スコア付与対象の文書に特徴量に係る形態素（特徴語）が含まれているか判断する。ノイズ除去部１９０は、文書に含まれていた特徴語のスコアを合算する。なお、トピックＩＤ付与部１５０によるスコアの算出と同様に、スコアの算出の際に文書において特徴語が複数回出現する場合、１回出現の場合と同様に文書のスコアを算出することとしてもよい。

ノイズ除去部１９０は、算出されたスコアに基づいて、当該スコアに係る文書が除外されるべき不適切な文書であるか否かを判定する第１トピック文書判定手段である。具体的には、ノイズ除去部１９０は、スコアが予め設定した閾値であるか否かを判断して、閾値以上であった場合、当該文書を除外されるべき不適切な文書であると判断して除外する。この処理をブラックリストタグ格納部１７０に格納される特徴量に係るブラックリストハッシュタグ分繰り返し文書を除外する。

ノイズ除去部１９０は、拡張ブラックリストハッシュタグ格納部１７３によって格納されている拡張ブラックリストハッシュタグを読み出し、取得した文書に拡張ブラックリストハッシュタグが含まれているか否かを判断することで、当該文書が除外されるべき不適切な文書であるか否かを判定する第２トピック文書判定手段である。ノイズ除去部１９０は、拡張ブラックリストハッシュタグが含まれていた文書を除外されるべき不適切な文書であると判断して除外する。拡張ブラックリストハッシュタグ格納部１７３に格納される拡張ブラックリストハッシュタグ分繰り返し文書を除外する。

ノイズ除去部１９０は、上記によって除外されなかった文書をトピック文書格納部２００に出力する。また、ノイズ除去部１９０によって除外された文書については、トピックタグ推定部１３０による処理に用いないようにしてもよい。例えば、文書格納部１００に格納される文書、及び形態素格納部に格納される形態素にノイズ除去部１９０によって除去された文書に係るものであるか否かの情報を対応付けておき、除去された文書に係るものはトピックタグ推定部１３０に入力させないようにしてもよい。

トピック文書格納部２００は、ノイズ除去部１９０から入力された、１つのトピックＩＤが付与された文書を入力して格納する手段である。トピックＩＤが付与された文書は、当該トピックＩＤに係るトピックに関連する文書として抽出されたものである。図８にトピック文書格納部２００に格納される文書のサンプルフォーマットを示す。図８に示すようにトピック文書格納部２００に格納される文書に関するデータは、文書格納部１００に格納される文書に関するデータに加えてトピックＩＤが対応付けられたものとなっている。トピック文書格納部２００に格納されたトピックＩＤが付与された文書は、例えば、トピックＩＤ毎にトピックに関連する文書としてユーザに提供される。以上が、関連文書抽出装置１０の機能構成である。

図９に関連文書抽出装置１０のハードウェア構成を示す。図９に示すように関連文書抽出装置１０は、ＣＰＵ（Central Processing Unit）１００１、主記憶装置であるＲＡＭ（RandomAccess Memory）１００２及びＲＯＭ（Read Only Memory）１００３、通信を行うための通信モジュール１００４、並びにハードディスク等の補助記憶装置１００５等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した関連文書抽出装置１０の機能が発揮される。以上が、関連文書抽出装置１０の構成である。

引き続いて、図１０〜２１のフローチャートを用いて、本実施形態に係る関連文書抽出装置１０で実行される処理である関連文書抽出方法を説明する。図１０に関連文書抽出方法全体を示すフローチャートを示す。本処理では、まず、文書格納部１００によって、抽出対象となる複数の文書が入力されて格納される（Ｓ０１）。文書格納部１００に入力された文書は、形態素解析部１１０に出力される。続いて、形態素解析部１１０によって文書に対する形態素解析が行われて文書が形態素に分割される（Ｓ０２、単語取得ステップ）。形態素解析部１１０による形態素解析によって得られた形態素を示す情報は、形態素格納部１２０に格納される。

続いて、トピックタグ推定部１３０によって、文書格納部１００に格納された文書、形態素解析部１１０に格納された形態素、及びトピックタグ格納部１４０に格納された情報から、各文書が特定のトピックに関連する文書であるか否かを判断するために用いる情報が生成される（Ｓ０３）。この処理は、トピック特徴語推定部１３１及びトピックハッシュタグ推定部１３２それぞれによって行われる。

図１１〜図１３のフローチャートを用いてトピック特徴語推定部１３１による処理を説明する。図１１に示すようにトピック特徴語推定部１３１によって、デフォルトトピックタグ格納部１４１によって格納されているデフォルトトピックタグが読み出され、文書格納部１００によって格納されている複数の文書からデフォルトトピックタグを含む文書がトピックに関連する文書（トピック文書）として抽出される（Ｓ３０１、デフォルト文書抽出ステップ）。続いて、トピック毎に特徴量が生成される（Ｓ３０２、第１出現頻度算出ステップ）。この処理を図１２のフローチャートを用いてより詳細に説明する。

まず、各形態素についてのＩＤＦ値が算出される（Ｓ３０２１、第１出現頻度算出ステップ）。続いて、トピックＩＤ（処理対象）毎に各トピック文書に含まれる形態素から各形態素についてのＴＦ値が算出される（Ｓ３０２２、第１出現頻度算出ステップ）。続いて、算出されたＩＤＦ値とＴＦ値とから、各トピックＩＤにおける形態素のＴＦＩＤＦ値が求められる（Ｓ３０２３、第１出現頻度算出ステップ）。求められたＴＦＩＤＦ値が特徴量である。Ｓ３０２２及びＳ３０２３の処理は、全てのトピックＩＤに対しての処理が終了するまで繰り返し行われる。

続いて、図１１に戻り、トピックＩＤ毎に特徴語がトピック特徴語格納部１４２に格納される（Ｓ３０３、第１出現頻度算出ステップ）。この処理を図１３のフローチャートを用いてより詳細に説明する。この処理は、トピックＩＤ毎に行われる。形態素毎に、形態素のＴＦＩＤＦ値が予め設定された閾値以上である否かが判断される（Ｓ３０３１、第１出現頻度算出ステップ）。ＴＦＩＤＦ値が予め設定された閾値以上であると判断された場合、そのトピックＩＤに関して当該形態素及びＴＦＩＤＦ値がトピック特徴語格納部１４２に出力されて格納される（Ｓ３０３２、第１出現頻度算出ステップ）。ＴＦＩＤＦ値が予め設定された閾値以上でないと判断された場合、特段の処理は行われず次の形態素についての処理に移る。上記の処理は、各トピックＩＤに関して全ての形態素に対して繰り返し行われ、また、全てのトピックＩＤに対しての処理が終了するまで繰り返し行われる。以上が、トピック特徴語推定部１３１による処理である。

続いて、図１４、図１５のフローチャートを用いてトピックハッシュタグ推定部１３２による処理を説明する。図１４に示すようにトピックハッシュタグ推定部１３２によって、デフォルトトピックタグ格納部１４１によって格納されているデフォルトトピックタグが読み出され、文書格納部１００によって格納されている複数の文書からデフォルトトピックタグ以外のハッシュタグを含む文書（タグ文書）が抽出される（Ｓ３１１、タグ文書抽出ステップ）。続いて、ハッシュタグ毎に特徴量が生成される（Ｓ３１２、第２出現頻度算出ステップ）。特徴量の生成は、上述した図１２のフローチャートを用いて説明した処理と同様に行われる。但し、この場合、図１２に示す処理のループはハッシュタグ毎に行われ、全てのハッシュタグに対しての処理が終了するまで繰り返し行われる。

続いて、文書格納部１００によって格納されている複数の文書からデフォルトトピックタグを含む文書がトピックに関連する文書（トピック文書）として抽出される（Ｓ３１３、デフォルト文書抽出ステップ）。続いて、トピック毎に特徴量が生成される（Ｓ３１４、第１出現頻度算出ステップ）。特徴量の生成は、上述した図１２のフローチャートを用いて説明した処理と同様に行われる。

続いて、上記のように算出したトピックＩＤの特徴量とハッシュタグの特徴量とが比較されて、比較結果に基づいてトピックＩＤのトピックに係るハッシュタグ（拡張トピックハッシュタグ）が拡張トピックハッシュタグ格納部１４３に出力されて格納される（Ｓ３１５、第２トピック文書判定ステップ）。

この処理を図１５のフローチャートを用いてより詳細に説明する。この処理は、トピックＩＤ及びハッシュタグ毎に行われる。トピックＩＤとハッシュタグとの特徴量の類似度が算出される（Ｓ３１５１、第２トピック文書判定ステップ）。この類似度は、上述したように例えば、コサイン距離が用いられる。続いて、算出された類似度が予め設定された閾値以上である否かが判断される（Ｓ３１５２、第２トピック文書判定ステップ）。類似度が予め設定された閾値以上であると判断された場合、そのハッシュタグが、そのトピックＩＤについての拡張トピックハッシュタグとして拡張トピックハッシュタグ格納部１４３に出力されて格納される（Ｓ３１５３、第２トピック文書判定ステップ）。類似度が予め設定された閾値以上でないと判断された場合、特段の処理は行われず次のハッシュタグについての処理に移る。上記の処理は、各トピックＩＤに関して全てのハッシュタグに対して繰り返し行われ、また、全てのトピックＩＤに対しての処理が終了するまで繰り返し行われる。以上が、トピックハッシュタグ推定部１３２による処理である。

続いて、図１０に戻り、ブラックリストハッシュタグ拡張部１６０によって、文書格納部１００に格納された文書、形態素解析部１１０に格納された形態素、及びブラックリストタグ格納部１７０に格納された情報から、各文書がノイズにあたるか、即ち、各文書が抽出するのに不適切な特定のトピックに関連する文書であるか否かを判断するために用いる情報が生成される（Ｓ０４）。

本処理では、ブラックリストハッシュタグ拡張部１６０によって、ブラックリストハッシュタグに係る特徴語が推定される。この推定では、各形態素についてのＩＤＦ値、ブラックリストハッシュタグ毎の各形態素についてのＴＦ値が算出され、ブラックリストハッシュタグ毎の形態素のＴＦＩＤＦ値が算出される。算出されたブラックリストハッシュタグ毎の各形態素のＴＦＩＤＦ値はブラックリストタグ格納部１７０に出力して格納される。ここで、ＴＦＩＤＦ値が予め設定した閾値以上の形態素（特徴語）についてのみ、ブラックリストタグ格納部１７０に格納させることとしてもよい。

また、ブラックリストハッシュタグ拡張部１６０によって、拡張ブラックリストハッシュタグが推定される。この処理を図１６、図１７のフローチャートを用いて説明する。図１６に示すようにブラックリストハッシュタグ拡張部１６０によって、デフォルトブラックリストハッシュタグ格納部１７２によって格納されているブラックリストハッシュタグが読み出され、文書格納部１００によって格納されている複数の文書からブラックリストハッシュタグ以外のハッシュタグを含む文書（タグ文書）が抽出される（Ｓ４１１、タグ文書抽出ステップ）。続いて、ハッシュタグ毎に特徴量が生成される（Ｓ４１２、第２出現頻度算出ステップ）。特徴量の生成は、上述した図１２のフローチャートを用いて説明した処理と同様に行われる。但し、この場合、図１２に示す処理のループはハッシュタグ毎に行われ、全てのハッシュタグに対しての処理が終了するまで繰り返し行われる。

続いて、文書格納部１００によって格納されている複数の文書からブラックリストハッシュタグを含む文書が抽出される（Ｓ４１４、デフォルト文書抽出ステップ）。続いて、ブラックリストハッシュタグ毎に特徴量が生成される（Ｓ４１５、第１出現頻度算出ステップ）。特徴量の生成は、上述した図１２のフローチャートを用いて説明した処理と同様に行われる。但し、この場合、図１２に示す処理のループはブラックリストハッシュタグ毎に行われ、全てのブラックリストハッシュタグに対しての処理が終了するまで繰り返し行われる。

続いて、上記のように算出したブラックリストハッシュタグの特徴量とハッシュタグの特徴量とが比較されて、比較結果に基づいてブラックリストハッシュタグに係るハッシュタグ（拡張ブラックリストハッシュタグ）が拡張ブラックリストハッシュタグ格納部１７３に出力されて格納される（Ｓ４１５、第２トピック文書判定ステップ）。

この処理を図１７のフローチャートを用いてより詳細に説明する。この処理は、ブラックリストハッシュタグ及びハッシュタグ毎に行われる。ブラックリストハッシュタグとハッシュタグとの特徴量の類似度が算出される（Ｓ４１５１、第２トピック文書判定ステップ）。この類似度は、上述したように例えば、コサイン距離が用いられる。続いて、算出された類似度が予め設定された閾値以上である否かが判断される（Ｓ４１５２、第２トピック文書判定ステップ）。類似度が予め設定された閾値以上であると判断された場合、そのハッシュタグが、そのブラックリストハッシュタグについての拡張ブラックリストハッシュタグとして拡張ブラックリストハッシュタグ格納部１７３に出力されて格納される（Ｓ４１５３、第２トピック文書判定ステップ）。類似度が予め設定された閾値以上でないと判断された場合、特段の処理は行われず次のハッシュタグについての処理に移る。上記の処理は、各ブラックリストハッシュタグに関して全てのハッシュタグに対して繰り返し行われ、また、全てのブラックリストハッシュタグに対しての処理が終了するまで繰り返し行われる。以上が、ブラックリストハッシュタグ拡張部１６０による処理である。

続いて、図１０に戻り、トピックＩＤ付与部１５０によって、トピックタグ格納部１４０に格納された情報が用いられて、文書格納部１００によって格納されている文書がトピックに関連する文書であるか否かが判断されてその判断に応じて文書にトピックＩＤが付与される（Ｓ０５、トピック文書抽出ステップ）。

この処理を図１８のフローチャートを用いてより詳細に説明する。トピックＩＤ付与部１５０によって、トピック特徴語推定部１３１によって格納されている特徴量の情報が読み出されて、その情報に基づいて文書にトピックＩＤが付与される（Ｓ５０１、トピック文書抽出ステップ）。

この処理を図１９のフローチャートを用いてより詳細に説明する。この処理は、トピックの付与対象の文書毎に行われる。まず、トピック（トピックＩＤ）毎にトピック特徴語推定部１３１によって格納されている特徴量の情報が取得される（Ｓ５０１１、スコア算出ステップ）。続いて、文書の「スコア合計値」が初期化される（値がゼロにされる）（Ｓ５０１２、スコア算出ステップ）。続いて、特徴語毎に文書に含まれるか否かが判断される（Ｓ５０１３、スコア算出ステップ）。特徴語が文書に含まれると判断される場合には、その特徴語のスコア（ＴＦＩＤＦ値）が「スコア合計値」に加算される（Ｓ５０１４、スコア算出ステップ）。特徴語が文書に含まれないと判断される場合には、その特徴語のスコアは「スコア合計値」に加算されない。

全ての特徴語について上記の処理（Ｓ５０１３、Ｓ５０１４）が終了すると、「スコア合計値」が予め設定された閾値以上か否かが判断される（Ｓ５０１５、第１トピック文書判定ステップ）。「スコア合計値」が予め設定された閾値以上であると判断される場合には、その文書に対してそのトピックのトピックＩＤが付与される（Ｓ５０１６、第１トピック文書判定ステップ）。「スコア合計値」が予め設定された閾値以上でないと判断される場合には、その文書に対してそのトピックのトピックＩＤは付与されない。上記の処理は、各文書に関して全てのトピックついて繰り返し行われ、また、全ての文書に対しての処理が終了するまで繰り返し行われる。

続いて、図１８に戻り、トピックＩＤ付与部１５０によって、デフォルトトピックタグ格納部１４１によって格納されているデフォルトトピックタグ、及び拡張トピックハッシュタグ格納部１４３によって格納されている拡張トピックハッシュタグが読み出されて、その情報に基づいて文書にトピックＩＤが付与される（Ｓ５０２、トピック文書抽出ステップ（第２トピック文書判定ステップ））。

この処理を図２０のフローチャートを用いてより詳細に説明する。この処理は、トピックの付与対象の文書毎に行われる。まず、トピック（トピックＩＤ）毎に当該トピックに対応付けられているデフォルトトピックタグ及び拡張トピックハッシュタグが取得される（Ｓ５０２１）。続いて、各デフォルトトピックタグ及び拡張トピックハッシュタグが、文書に含まれるか否かが判断される（Ｓ５０２２、第２トピック文書判定ステップ）。デフォルトトピックタグ及び拡張トピックハッシュタグが文書に含まれると判断される場合には、その文書に対してそのトピックのトピックＩＤが付与される（Ｓ５０２３、第２トピック文書判定ステップ）。デフォルトトピックタグ及び拡張トピックハッシュタグが文書に含まれないと判断される場合には、その文書に対してそのトピックのトピックＩＤは付与されない。上記の処理（Ｓ５０２２，Ｓ５０２３）は、トピックに対応付けられている全てのデフォルトトピックタグ及び拡張トピックハッシュタグに対して行われる。また、上記の処理は、各文書に関して全てのトピックついて繰り返し行われ、また、全ての文書に対しての処理が終了するまで繰り返し行われる。

トピックＩＤ付与部１５０によってトピックＩＤが付与された文書は、ノイズ除去部１９０に出力される。

続いて、ノイズ除去部１９０によって、トピックＩＤ付与部１５０から入力された文書が不適切な文書であるか否かが判定されて文書の除外が行われる（Ｓ６０１、トピック文書抽出ステップ）。

この処理を図２１のフローチャートを用いてより詳細に説明する。この処理は、トピックＩＤ付与部１５０から入力された（トピックが付与された）文書毎に行われる。デフォルトブラックリスト形態素格納部１７１からブラックリスト形態素（ＮＧワード）が読み出されて、文書にブラックリスト形態素が含まれていないか否かが判定される（Ｓ６０１）。文書にブラックリスト形態素が含まれていると判定された場合、当該文書が除外されるべき不適切な文書として除外される（後続の処理が行われない）。

文書にブラックリスト形態素が含まれていないと判定された場合、続いて、文書がＲＴであるか、あるいは返信ツイートであるかの判定が行われる（Ｓ６０２）。文書がＲＴあるいは返信ツイートであると判定された場合、当該文書が除外されるべき不適切な文書として除外される（後続の処理が行われない）。

文書がＲＴあるいは返信ツイートの何れでもないと判定された場合、続いて、文書がマルチポストされたものであるかの判定が行われる（Ｓ６０３）。文書がマルチポストされたものであると判定された場合、当該文書が除外されるべき不適切な文書として除外される（後続の処理が行われない）。

文書がマルチポストされたものでないと判定された場合、続いて、ブラックリストユーザ格納部１８０からブラックリストユーザのユーザＩＤが読み出されて、文書がブラックリストユーザによって投稿されたものであるか否かが判定される（Ｓ６０４）。文書がブラックリストユーザによって投稿されたものであると判定された場合、当該文書が除外されるべき不適切な文書として除外される（後続の処理が行われない）。

文書がブラックリストユーザによって投稿されたものでないと判定された場合、続いて、ブラックリストタグ格納部１７０によって格納されている特徴量（デフォルトトピックタグ毎の各形態素のＴＦＩＤＦ値（スコア））、及び拡張ブラックリストハッシュタグ格納部１７３によって格納されている拡張ブラックリストハッシュタグが読み出されて、それらに基づいて上述したように文書が除外されるべき不適切な文書か否かが判定される（Ｓ６０５）。文書が除外されるべき不適切な文書と判定されると、当該文書は除外される（後続の処理が行われない）。文書が除外されるべき不適切な文書ではないと判定されると、当該文書がノイズ除去部１９０からトピック文書格納部２００に出力される。

続いて、図１０に戻り、トピック文書格納部２００によって入力された文書が、付与されたトピックＩＤと合わせて格納される。以上が、本実施形態に係る関連文書抽出装置１０で実行される処理である。なお、上記の処理は、例えば、予め設定した時間間隔毎、あるいは関連文書抽出装置１０の管理者の操作をトリガとして行われることとしてもよい。なお、上記の処理では文書に対するトピックＩＤの付与と、トピックＩＤを付与するために用いる情報（特徴量や拡張トピックハッシュタグ）の生成とを一連の処理としているが、それらの処理が独立に互いに異なるタイミングで行われることとしてもよい。

上述したように本実施形態では、トピックを示すデフォルトトピックタグを含む文書における単語の出現頻度を用いてトピックに関連する文書が抽出される。即ち、トピックを示すデフォルトトピックタグを含んでいなくても上記の出現頻度に応じた文書がトピックに関連する文書として抽出される。これにより、本実施形態によれば、複数のツイート等の文書から特定のトピックに関連する文書を適切に抽出することができる。従って、トピックに関連する文書を網羅的に抽出することが可能になる。網羅性以外にも、動的なトピックハッシュタグ及びトピック特徴語の推定が可能なため、リアルタイムにトピックに関連する文書の抽出が可能になる。

本実施形態のように特徴語によって文書のスコアを算出して文書を抽出することとしてもよい。この構成によれば、例えば、デフォルトトピックタグを含む文書において出現頻度が高い単語が含まれる文書をトピックに関連する文書として抽出することができ、特定のトピックに関連する文書を確実に抽出することができる。これにより、ハッシュタグが付いていない文書も抽出が可能となり、抽出が可能な文書数が増える。

また、スコアの算出の際に文書に単語が複数回出現する場合、１回出現の場合と同様に文書のスコアを算出することとしてもよい。この構成によれば、文書に頻繁に含まれる単語によって文書のスコアが高くなることを防止することができ、不適切な文書をトピックに関連する文書として抽出することを回避することができる。

また、本実施形態のようにタグ文書とトピック文書との特徴量の比較によってトピックハッシュタグを拡張して文書を抽出することとしてもよい。この構成によれば、デフォルトトピックタグ以外のタグを含む文書（群）をトピックに関連する文書として抽出することができ、特定のトピックに関連する文書を確実に抽出することができる。従って、トピックに関連するタグ（ハッシュタグあるいはキーワード）を１つ又は複数事前にデフォルトトピックタグとして登録しておくことでタグの動的な推定が可能になり、抽出が可能な文書数が増える。

一般的にハッシュタグは特定のトピックを意識し投稿者は文書を作成する。つまりトピックとトピックハッシュタグとは、１対Ｎの関係であるためトピックに紐付くハッシュタグをできるだけ多く吸い上げることで、より多くのトピック文書の抽出が可能になる。例えば、ユーザは放送している番組に関するツイートを、放送局ハッシュタグをつけて投稿することが多い。しかしながら有名な番組では番組自体のハッシュタグが存在する。トピックとハッシュタグとの特徴量を比較することで動的に放送されている番組に関連するハッシュタグをより早く検出することができる。

また、本実施形態のようにノイズを除去することとしてもよい。文書の抽出にあたりノイズの除去は重要である。この構成によれば、不適切な文書を除外し、例えば不適切な文書をユーザへ提示することを防止することができる。また、ノイズを除去した文書群に基づいて、トピックハッシュタグ及びトピック特徴語を推定することとすれば、それらの推定精度が向上する。上述したようにトピックハッシュタグ及びトピック特徴語の推定では、特徴量がトピックを示す基準値となるため、このデータのノイズが多いほど推定される情報の質が落ちる。従ってシードとなるデータのクレンジングが重要である。また、ノイズフリーなトピックに関連する文書の抽出が可能になる。また、文書の抽出と同様にノイズの除去も動的に行うことで更に適切なノイズの除去が可能になる。また、ブラックリストが自動的にリアルタイムに拡充されるため、手動でブラックリストを登録する必要性が少なくなる。

但し、抽出対象の文書群に含まれるノイズが小さいと考えられる場合には、必ずしもノイズ（不適切な文書）の除去を行う必要はない。

また、本実施形態のように出現頻度をユーザ単位でカウントすることとしてもよい。この構成によれば、ユーザ毎の影響を均一にし、例えば、１ユーザが複数回同じ内容の文書を投稿したことによる影響を抑えることができる。これにより、適切に特定のトピックに関連する文書を抽出することができる。但し、文書を投稿したユーザの情報が取得できない場合やユーザが同じ内容の投稿をすることを考えられない場合等には、出現頻度を文書単位でカウントすることとしてもよい。即ち、ＩＤＦ値やＴＦ値を文書単位でカウントして算出することとしてもよい。

また、本実施形態のようにＴＦＩＤＦ値を用いた形態素単位の素性で特徴量を表現することで形態素のポピュラリティと珍しさを表現することができる。これにより、複数のツイート等の文書から特定のトピックに関連する文書を更に適切に抽出することができる。

また複数のトピックに係る文書を除外することとしてもよい。複数のトピックに対して投稿された文書（マルチトピック投稿）は、それぞれのトピックに関連しないケースが多い。従って、この構成によれば、不適切な文書をトピックに関連する文書として抽出することを回避することができる。

引き続いて、上述した一連の関連文書抽出装置１０による処理をコンピュータに実行させるための関連文書抽出プログラムを説明する。図２２に示すように、関連文書抽出プログラム４０は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体３０に形成されたプログラム格納領域３１内に格納される。

関連文書抽出プログラム４０は、文書格納モジュール４００と、形態素解析モジュール４１０と、形態素格納モジュール４２０と、トピックタグ推定モジュール４３０と、トピックタグ格納モジュール４４０と、トピックＩＤ付与モジュール４５０と、ブラックリストハッシュタグ拡張モジュール４６０と、ブラックリストタグ格納モジュール４７０と、ブラックリストユーザ格納モジュール４８０と、ノイズ除去モジュール４９０と、トピック文書格納モジュール５００とを備えて構成される。文書格納モジュール４００と、形態素解析モジュール４１０と、形態素格納モジュール４２０と、トピックタグ推定モジュール４３０と、トピックタグ格納モジュール４４０と、トピックＩＤ付与モジュール４５０と、ブラックリストハッシュタグ拡張モジュール４６０と、ブラックリストタグ格納モジュール４７０と、ブラックリストユーザ格納モジュール４８０と、ノイズ除去モジュール４９０と、トピック文書格納モジュール５００とを実行させることにより実現される機能は、上述した関連文書抽出装置１０の文書格納部１００と、形態素解析部１１０と、形態素格納部１２０と、トピックタグ推定部１３０と、トピックタグ格納部１４０と、トピックＩＤ付与部１５０と、ブラックリストハッシュタグ拡張部１６０と、ブラックリストタグ格納部１７０と、ブラックリストユーザ格納部１８０と、ノイズ除去部１９０と、トピック文書格納部２００との機能とそれぞれ同様である。

なお、関連文書抽出プログラム４０は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録（インストールを含む）される構成としてもよい。また、関連文書抽出プログラム４０の各モジュールは、１つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の関連文書抽出プログラム４０の処理が行われる。

１０…関連文書抽出装置、１００…文書格納部、１１０…形態素解析部、１２０…形態素格納部、１３０…トピックタグ推定部、１３２…トピックハッシュタグ推定部、１３１…トピック特徴語推定部、１４０…トピックタグ格納部、１４１…デフォルトトピックタグ格納部、１４２…トピック特徴語格納部、１４３…拡張トピックハッシュタグ格納部、１５０…トピックＩＤ付与部、１６０…ブラックリストハッシュタグ拡張部、１７０…ブラックリストタグ格納部、１７１…デフォルトブラックリスト形態素格納部、１７２…デフォルトブラックリストハッシュタグ格納部、１７３…拡張ブラックリストハッシュタグ格納部、１８０…ブラックリストユーザ格納部、１９０…ノイズ除去部、２００…トピック文書格納部、１００１…ＣＰＵ，１００２…ＲＡＭ、１００３…ＲＯＭ、１００４…通信モジュール、１００５…補助記憶装置、３０…記録媒体、３１…プログラム格納領域、４０…関連文書抽出プログラム、４００…文書格納モジュール、４１０…形態素解析モジュール、４２０…形態素格納モジュール、４３０…トピックタグ推定モジュール、４４０…トピックタグ格納モジュール、４５０…トピックＩＤ付与モジュール、４６０…ブラックリストハッシュタグ拡張モジュール、４７０…ブラックリストタグ格納モジュール、４８０…ブラックリストユーザ格納モジュール、４９０…ノイズ除去モジュール、５００…トピック文書格納モジュール。

Claims

トピックを示すデフォルトトピックタグを予め格納するデフォルトトピックタグ格納手段と、
複数の文書を予め格納する文書格納手段と、
前記文書格納手段によって格納された文書を単語に分割する単語取得手段と、
前記文書格納手段によって格納された複数の文書から、前記デフォルトトピックタグ格納手段によって格納されたデフォルトトピックタグを含む文書を抽出するデフォルト文書抽出手段と、
前記デフォルト文書抽出手段によって抽出された文書における、前記単語取得手段によって分割された単語の出現頻度を算出する第１出現頻度算出手段と、
前記第１出現頻度算出手段によって算出された出現頻度を用いて、前記デフォルト文書抽出手段によって抽出された文書以外の文書から、前記トピックに関連する文書を抽出するトピック文書抽出手段と、
を備える関連文書抽出装置。
前記トピック文書抽出手段は、
前記第１出現頻度算出手段によって算出された出現頻度を用いて、前記デフォルト文書抽出手段によって抽出された文書以外の文書に出現する単語から、当該文書のスコアを算出するスコア算出手段と、
前記スコア算出手段によって算出されたスコアに基づいて、当該スコアに係る文書が前記トピックに関連する文書であるか否かを判定する第１トピック文書判定手段と、
を備える請求項１に記載の関連文書抽出装置。
前記スコア算出手段は、文書に単語が複数回出現する場合、１回出現の場合と同様に文書のスコアを算出する請求項２に記載の関連文書抽出装置。
前記トピック文書抽出手段は、
前記文書格納手段によって格納された複数の文書から、前記デフォルトトピックタグ以外のタグを含む文書を抽出するタグ文書抽出手段と、
前記タグ文書抽出手段によって抽出された文書における、前記単語取得手段によって分割された単語の出現頻度を算出する第２出現頻度算出手段と、
前記第１出現頻度算出手段によって算出された出現頻度と前記第２出現頻度算出手段によって算出された出現頻度とを比較して、当該比較結果に基づいて前記タグ文書抽出手段によって抽出された文書が前記トピックに関連する文書であるか否かを判定する第２トピック文書判定手段と、
を備える請求項１〜３の何れか一項に記載の関連文書抽出装置。
前記第２トピック文書判定手段は、前記第１出現頻度算出手段によって算出された単語の出現頻度によって示される特徴量と前記第２出現頻度算出手段によって算出された単語の出現頻度によって示される特徴量との間のコサイン距離、ジャカード距離又はユークリッド距離を算出することで、出現頻度同士を比較する請求項４に記載の関連文書抽出装置。
前記デフォルトトピックタグ格納手段は、前記デフォルトトピックタグとして、不適切なトピックに係るデフォルトトピックタグを格納して、
前記トピック文書抽出手段は、前記文書が前記不適切なトピックに関連する文書であるか否かを判断して文書の除外を行う、
請求項１〜５の何れか一項に記載の関連文書抽出装置。
前記文書格納手段は、前記文書を投稿したユーザに係る情報を格納して、
前記第１出現頻度算出手段は、前記単語の出現頻度として当該単語が含まれる文書を投稿したユーザ数を算出する、
請求項１〜６の何れか一項に記載の関連文書抽出装置。
前記第１出現頻度算出手段は、前記単語毎に当該単語が含まれる文書を投稿したユーザ数に対する、前記文書を投稿した全ユーザ数の割合から逆出現頻度を算出し、
前記トピック文書抽出手段は、前記第１出現頻度算出手段によって算出された逆出現頻度も用いて前記トピックに関連する文書を抽出する、
請求項７に記載の関連文書抽出装置。
前記トピック文書抽出手段は、前記単語毎の文字数も用いて前記トピックに関連する文書を抽出する請求項８に記載の関連文書抽出装置。
前記デフォルトトピックタグ格納手段は、複数のトピックそれぞれを示す複数のデフォルトトピックタグを格納し、
前記トピック文書抽出手段は、複数のトピックに関連する文書を除外する、
請求項１〜９の何れか一項に記載の関連文書抽出装置。
トピックを示すデフォルトトピックタグを予め格納するデフォルトトピックタグ格納手段と、複数の文書を予め格納する文書格納手段と、を備える関連文書抽出装置による関連文書抽出方法であって、
前記文書格納手段によって格納された文書を単語に分割する単語取得ステップと、
前記文書格納手段によって格納された複数の文書から、前記デフォルトトピックタグ格納手段によって格納されたデフォルトトピックタグを含む文書を抽出するデフォルト文書抽出ステップと、
前記デフォルト文書抽出ステップにおいて抽出された文書における、前記単語取得ステップにおいて分割された単語の出現頻度を算出する第１出現頻度算出ステップと、
前記第１出現頻度算出ステップにおいて算出された出現頻度を用いて、前記デフォルト文書抽出ステップにおいて抽出された文書以外の文書から、前記トピックに関連する文書を抽出するトピック文書抽出ステップと、
を含む関連文書抽出方法。
コンピュータを、
トピックを示すデフォルトトピックタグを予め格納するデフォルトトピックタグ格納手段と、
複数の文書を予め格納する文書格納手段と、
前記文書格納手段によって格納された文書を単語に分割する単語取得手段と、
前記文書格納手段によって格納された複数の文書から、前記デフォルトトピックタグ格納手段によって格納されたデフォルトトピックタグを含む文書を抽出するデフォルト文書抽出手段と、
前記デフォルト文書抽出手段によって抽出された文書における、前記単語取得手段によって分割された単語の出現頻度を算出する第１出現頻度算出手段と、
前記第１出現頻度算出手段によって算出された出現頻度を用いて、前記デフォルト文書抽出手段によって抽出された文書以外の文書から、前記トピックに関連する文書を抽出するトピック文書抽出手段と、
として機能させる関連文書抽出プログラム。