JP2013045415A

JP2013045415A - 話題語獲得装置、方法、及びプログラム

Info

Publication number: JP2013045415A
Application number: JP2011184971A
Authority: JP
Inventors: Nobuaki Hiroshima; 伸章廣嶋; Yoshihito Yasuda; 宜仁安田; Norifumi Katabuchi; 典史片渕; Yoshimasa Koike; 義昌小池; Ryoji Kataoka; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-08-26
Filing date: 2011-08-26
Publication date: 2013-03-04
Anticipated expiration: 2031-08-26
Also published as: JP5361090B2

Abstract

【課題】対象に関連する話題語を適切に獲得する。
【解決手段】対象抽出部１１で、文書群から対象を抽出し、話題語候補抽出部１２で、対象を含む文書各々から話題語候補を抽出し、話題語候補集計部１３で、各文書を文書の出所に基づいて文書ドメインに分類し、話題語候補を含む文書が分類された文書ドメインの数で表される文書ドメイン頻度、話題語候補を含む文書の数で表される文書頻度を集計して、話題語候補データベース１７に格納する。文書を検索するために対象が入力されると、話題語候補取得部１４で、話題語候補データベース１７を参照して、入力された対象に該当する話題語候補を取得し、話題語候補選択部１５で、文書ドメイン頻度が高いほど高くなるスコアＳを話題語候補毎に求め、スコアＳが閾値Ｓ_０以上である話題語候補を選択する。
【選択図】図１

Description

本発明は、話題語獲得装置、方法、及びプログラムに係り、特に、着目している製品、イベント、場所、日時等の対象に関連する話題語を獲得する話題語獲得装置、方法、及びプログラムに関する。

着目している製品、イベント、場所、日時等の対象について文書を検索する際には、その対象に関連する話題を表す話題語が提示できれば便利である。例えば、あるキーワードを入力として文書を検索する場合には、検索結果と共にキーワードに関する話題語が提示されれば、その話題語に基づいて検索結果の概要を把握したり、話題語を選択することによって検索結果の絞り込みを行ったりすることが可能となる。また、地図上のある場所について文書を検索する場合には、指定した場所に関連する話題語が提示されれば、その場所に関連する名所や名物などを知ることが可能となる。

このような対象に関連する話題語の抽出に関する研究としては、主題語から話題語を抽出する研究が行われている（例えば、非特許文献１参照）。非特許文献１の手法では、主題語を含む文書のうち主題語と話題語とを共に含む文書の占める割合の値、及び話題語を含む文書のうち主題語と話題語とを共に含む文書の占める割合の値を求め、２つの値を乗じた値をスコアとして、スコアの高い語を話題語として獲得している。この手法において、主題語を対象に置き換えることで、対象に関連する話題語を獲得することができると考えられる。

野田武史、大島裕明、小山聡、田島敬史、田中克己、「主題語からの話題語自動抽出とこれに基づくＷｅｂ情報検索」、情報処理学会研究報告２００６−ＤＳＢ−１４０、ｐｐ．３０５−３１１（２００６）．

しかしながら、非特許文献１の方法では、主題語と話題語とが含まれる文書の数（文書頻度）を用いているため、文書頻度は高いが、文書の出所に偏りがあるような場合でも、高スコアとなって、適切でない話題語が獲得される可能性がある。例えば、対象として場所を考えた場合に、特定の個人や企業が特定の話題語について複数の文書で言及しており、それらの文書に共通する定型文の中に住所などの対象を示す記述が含まれていた場合には、その話題語がそれほど対象に関連しないにも関わらず、対象と話題語とを共に含む文書の頻度が高くなり、結果としてスコアが高くなってしまう、という問題があった。

本発明は上記の問題点に鑑みてなされたものであって、対象に関連する話題語を適切に獲得することができる話題語獲得装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の話題語獲得装置は、文書を検索する際の対象を文書群から複数抽出する対象抽出手段と、前記対象抽出手段により抽出された対象を含む文書各々から、前記対象に関連する話題語の候補である話題語候補を複数抽出する話題語候補抽出手段と、前記対象抽出手段により抽出された対象を含む文書各々を、該文書の出所に基づいて複数の文書ドメインに分類し、前記話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計する集計手段と、前記話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、前記集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する獲得手段と、を含んで構成されている。

本発明の話題語獲得装置によれば、対象抽出手段が、文書を検索する際の対象を文書群から複数抽出し、話題語候補抽出手段が、対象抽出手段により抽出された対象を含む文書各々から、対象に関連する話題語の候補である話題語候補を複数抽出する。そして、集計手段が、対象抽出手段により抽出された対象を含む文書各々を、その文書の出所に基づいて複数の文書ドメインに分類し、話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計する。次に、獲得手段が、話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する。

このように、文書の出所に基づいて複数の文書ドメインに文書を分類し、話題語候補が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計し、この文書ドメインの数が多い話題語候補を話題語として獲得するため、文書ドメインの数が少なくなる特定の個人や企業が多く言及しているような話題語候補を除去することができ、対象に関連する話題語を適切に獲得することができる。

また、前記文書の出所を、該文書のインターネットドメイン、該文書が存在するサイト、該文書の著者の少なくとも一つとすることができる。これらの情報は、文書の出所を表すものとして有用である。

また、前記対象は、製品名、イベント名、場所、または日時とすることができる。

また、前記獲得手段は、前記スコアが予め定めた閾値以上の話題語候補であって、かつ該話題語候補が含まれる文書の数、前記入力された対象が含まれる文書の数、及び該話題語候補と前記入力された対象とを含む文書の数に基づいて、前記入力された対象との関連が高いと判定された話題語候補を話題語として獲得することができる。これにより、より適切に話題語を獲得することができる。

また、本発明の話題語獲得方法は、対象抽出手段と、話題語候補抽出手段と、集計手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、前記対象抽出手段は、文書を検索する際の対象を文書群から複数抽出し、前記話題語候補抽出手段は、前記対象抽出手段により抽出された対象を含む文書各々から、前記対象に関連する話題語の候補である話題語候補を複数抽出し、前記集計手段は、前記対象抽出手段により抽出された対象を含む文書各々を、該文書の出所に基づいて複数の文書ドメインに分類し、前記話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計し、前記獲得手段は、前記話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、前記集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する方法である。

また、本発明の話題語獲得方法において、前記獲得手段は、前記スコアが予め定めた閾値以上の話題語候補であって、かつ該話題語候補が含まれる文書の数、前記入力された対象が含まれる文書の数、及び該話題語候補と前記入力された対象とを含む文書の数に基づいて、前記入力された対象との関連が高いと判定された話題語候補を話題語として獲得することができる。

また、本発明の話題語獲得プログラムは、コンピュータを、上記の話題語獲得装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の話題語獲得装置、方法、及びプログラムによれば、文書の出所に基づいて複数の文書ドメインに文書を分類し、話題語候補が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計し、この文書ドメインの数が多い話題語候補を話題語として獲得するため、文書ドメインの数が少なくなる特定の個人や企業が多く言及しているような話題語候補を除去することができ、対象に関連する話題語を適切に獲得することができる、という効果が得られる。

本実施の形態の話題語獲得装置の機能的構成を示すブロック図である。対象抽出部で抽出された対象の一例を示す図である。話題語候補抽出部で抽出された話題語候補の一例を示す図である。文書ドメインの一例を説明するための図である。文書ドメインの他の例を説明するための図である。話題語候補集計部による集計結果の一例を示す図である。本実施の形態の話題語獲得装置における話題語獲得処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

本実施の形態に係る話題語獲得装置１０は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、後述する話題語獲得処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図１に示すように、対象抽出部１１と、話題語候補抽出部１２と、話題語候補集計部１３と、話題語候補取得部１４と、話題語候補選択部１５と、対象関連性判定部１６と、話題語候補データベース１７とを含んだ構成で表すことができる。なお、話題語候補取得部１４、話題語候補選択部１５及び対象関連性判定部１６が、本発明の獲得手段の一例である。

対象抽出部１１は、入力された文書群に含まれている対象を、その対象が含まれる文書の情報を識別するための文書番号と共に抽出する。ここでは、文書群に含まれる地名を変換することによって得られる緯度及び経度を場所に関する対象として抽出することとする。対象の抽出方法はこれに限定されるものではなく、製品名などを対象として抽出してもよいし、地名をそのまま場所に関する対象として抽出してもよい。また、「２０ＸＸ年１月２０日」などの表現を日時に関する対象として抽出してもよいし、「今日」などの相対的な日時を表す表現を絶対的な日時に変換したものを日時に関する対象として抽出してもよい。抽出された対象の例を、図２に示す。同図において、対象の欄に記述された（Ｘ，Ｙ）の値はそれぞれ緯度及び経度を表す。また、文書番号は、抽出された対象が含まれる文書の文書番号である。

話題語候補抽出部１２は、文書群に含まれる話題語候補を抽出する。ここでは、対象抽出部１１により抽出された対象を含む各文書に対して、固有表現抽出を行った結果得られる固有表現を話題語候補として抽出することとする。話題語候補の抽出方法はこれに限定されるものではなく、形態素解析を行って得られた単語のうち、品詞が名詞である単語を話題語候補とて抽出してもよいし、品詞によらず全ての単語を話題語候補として抽出してもよい。抽出された話題語候補の例を、図３に示す。同図の例では、対象（３５．２６，１３９．３８）を含む文書番号１の文書からは、話題語候補「ＡＡＡ」、「ＢＢＢ」及び「ＣＣＣ」が抽出されたことを表している。また、話題語候補「ＡＡＡ」は、文書番号１の文書及び文書番号２の文書から抽出されたことを表している。

話題語候補集計部１３は、抽出した話題語候補毎に、文書ドメイン頻度、文書頻度、対象毎の文書頻度を求め、話題語候補データベース１７に格納する。

文書ドメイン頻度とは、文書の出所に基づいて複数の文書ドメインに文書を分類した場合において、話題語候補が含まれる文書が分類された文書ドメインの数をいう。ここでは、文書の出所として、その文書のＵＲＬに含まれるホスト名及びドメイン名を用いる場合について説明する。例えば、図４に示すように、文書番号１の文書のＵＲＬから、その文書のホスト名及びドメイン名は「ｗｗｗ．ｅｘａｍｐｌｅ１．ｃｏｍ」であることが分かるため、文書番号１の文書を、文書ドメイン「ｅｘａｍｐｌｅ１」に分類する。同様に、文書番号２の文書のＵＲＬのホスト名及びドメイン名は「ｗｗｗ．ｅｘａｍｐｌｅ２．ｃｏｍ」であるので、文書番号２の文書を、文書ドメイン「ｅｘａｍｐｌｅ２」に分類する。また、文書番号３の文書は、文書番号１の文書とホスト名及びドメイン名が同じ「ｗｗｗ．ｅｘａｍｐｌｅ１．ｃｏｍ」であるので、文書番号１と同じ文書ドメイン「ｅｘａｍｐｌｅ１」に分類する。ＵＲＬのドメイン名は、主に企業名や団体名を表しており、文書の出所を表すものとして用いることができる。

また、文書の出所として、文書の著者を用いることもできる。例えば、図５に示すように、ブログにおいて同一の著者によって投稿された文書は同一の文書ドメインの文書であるとみなして、ブログのＵＲＬに含まれるユーザ名を用いて、各文書を文書ドメインに分類してもよい。また、同一の著者によって投稿された文書における単語の頻度の分布をベクトルで表現し、そのベクトルに基づいて各文書に対してクラスタリングを行ってクラスタを生成し、各文書が含まれるクラスタが同一のものは同一の文書ドメインに分類するようにしてもよい。

また、文書頻度とは、話題語候補が含まれる文書の数である。また、対象毎の文書頻度とは、話題語候補と対象とを共に含む文書の数である。話題語候補集計部１３による集計結果の一例を、図６に示す。同図の例では、話題語候補「ＡＡＡ」は、対象（３５．２６，１３９．３８）、（３５．３６，１４０．０６）・・・各々を含む文書から抽出された話題語候補であり、「ＡＡＡ」を含む文書が分類された文書ドメインの数（文書ドメイン頻度）が”２７”、文書群の中で「ＡＡＡ」を含む文書の数（文書頻度）が”３５”、「ＡＡＡ」と対象（３５．２６，１３９．３８）とを共に含む文書の数（対象毎の文書頻度）が”８”、「ＡＡＡ」と対象（３５．３６，１４０．０６）とを共に含む文書の数が”２”・・・であることを表している。

話題語候補取得部１４は、話題語候補データベース１７を参照して、入力された対象に該当する話題語候補を取得する。ここでは、対象として場所を表す緯度及び経度が入力として与えられた場合について説明する。入力される対象はこれに限定されるものではなく、製品名、場所を表す緯度及び経度の範囲、日時、日時の範囲等た対象として入力されてもよい。以下では、対象として場所を表す緯度及び経度として（３５．２６，１３９．３８）が入力された場合を例に説明する。図３に示した話題語候補のうち、「ＡＡＡ」、「ＢＢＢ」及び「ＣＣＣ」が入力された対象と一致する対象を保持しているため、これらの話題語候補を取得する。話題語候補の取得の方法はこれに限定されるものではなく、入力に範囲が与えられた場合には、入力された対象の範囲に包含される対象を保持している話題語候補を取得するようにしてもよい。

話題語候補選択部１５は、話題語候補の文書ドメイン頻度に基づいて、話題語候補としての妥当性を判定し、妥当と判定された話題語候補を選択する。話題語候補の文書ドメイン頻度が高いほど、その話題語候補を含む文書の出所が特定の企業等に偏ることなく存在していることを示している。そこで、文書ドメイン頻度が高いほど高くなるスコアを算出して、このスコアに基づいて、適切な話題語候補を選択する。例えば、話題語候補毎に、下記（１）式に示すスコアＳを求める。

ここで、ｆ_ｔは話題語候補ｔの文書ドメイン頻度、ｎ_ｔは話題語候補ｔの文書頻度、ｎは文書群に含まれる全文書の数である。このスコアＳが閾値Ｓ_０（例えば、Ｓ_０＝１００）以上であるか否かを判定し、スコアＳがＳ_０以上である話題語候補を選択する。話題語候補の選択の方法は、文書ドメイン頻度を用いるものであればこれに限定されるものではない。例えば、閾値Ｓ_０に異なる値を利用したり、文書頻度と文書ドメイン頻度との比率を利用したり、文書頻度と文書ドメイン頻度との差を利用したり、文書ドメイン頻度が一定の値以下であるかどうかを利用したりしてもよい。

対象関連性判定部１６は、選択された話題語候補が対象と関連しているか否かを判定し、関連していると判定された話題語候補を話題語として獲得する。ここでは、全文書数をｎ、話題語候補ｔを含む文書の数（話題語候補ｔの文書頻度）をｎ_ｔ、与えられた対象を含む文書の数をｋ、与えられた対象に関連する話題語候補を含む文書の数（対象毎の文書頻度）をｒとし、ｎ、ｎ_ｔ及びｋの値から推定可能な与えられた対象に関連する話題語候補を含む文書の数の平均値λ＝ｎ_ｔｋ／ｎを求める。そして、λとｒとを比較して、与えられた対象に関連する話題語候補を含む文書の数がｒ以上であることがどの程度起こりうることであるかを表す確率を、ポアソン分布にしたがって下記（２）式により算出する。

この確率が低い場合には、推定されたλより与えられた対象に関連する話題語候補を含む文書の実際の数ｒが多い可能性が高いことを示しており、話題語候補と対象との関連性が高いといえる。従って、上記の確率値の低い（起こることが珍しい）話題語候補を話題語として獲得する。

話題語候補と対象との関連性の判定方法はこれに限定されるものではなく、対象を含むかどうかという事象と関連語候補を含むかどうかという事象との関連の強さをカイ２乗検定やフィッシャーの正確確率検定を用いて判定するようにしてもよい。

次に、本実施の形態の話題語獲得装置１０の作用について説明する。文書群が入力されると、話題語獲得装置１０において、図７に示す話題語獲得処理ルーチンが実行される。

ステップ１００で、入力された文書群に含まれている対象を、その対象が含まれる文書の情報を識別するための文書番号と共に抽出する。文書群に含まれる地名を変換することによって得られる緯度及び経度を場所に関する対象として抽出した場合、例えば、図２に示すような対象が抽出される。

次に、ステップ１０２で、上記ステップ１００で抽出された対象を含む各文書に対して、固有表現抽出を行った結果得られる固有表現を話題語候補として抽出する。例えば、図３に示すような話題語候補が抽出される。

次に、ステップ１０４で、各文書を文書の出所に基づいて文書ドメインに分類し、上記ステップ１０２で抽出した話題語候補毎に、文書ドメイン頻度、文書頻度、対象毎の文書頻度を集計して、例えば、図６に示すような集計結果を話題語候補データベース１７に格納する。

次に、ステップ１０６で、ユーザにより文書を検索するために入力された対象を受け付け、次に、ステップ１０８で、話題語候補データベース１７を参照して、入力された対象に該当する話題語候補を取得する。対象として場所を表す緯度及び経度として（３５．２６，１３９．３８）が入力された場合には、図３に示した話題語候補のうち、「ＡＡＡ」、「ＢＢＢ」及び「ＣＣＣ」が取得される。

次に、ステップ１１０で、上記ステップ１０８で取得した話題語候補毎に、例えば（１）式に示すような、文書ドメイン頻度が高いほど高くなるスコアＳを求める。図６の例を用いると、話題語候補「ＡＡＡ」について、文書ドメイン頻度ｆ_ｔ＝２７、文書頻度ｎ_ｔ＝３５である。全文書数ｎ＝１００００とすると、話題語候補「ＡＡＡ」のスコアＳは”１５２．６８”と算出される。話題語候補「ＢＢＢ」及び「ＣＣＣ」についても同様にスコアＳを算出すると、それぞれ４３．７８、１７２．９２となる。閾値Ｓ_０＝１００とすると、スコアＳがＳ_０以上である話題語候補「ＡＡＡ」及び「ＣＣＣ」が選択される。

次に、ステップ１１２で、上記ステップ１１０で選択された話題語候補が、上記ステップ１０６で入力された対象と関連しているか否かを、例えば（２）式に示すポアソン分布にしたがった確率が所定値以下か否かにより判定し、確率が所定値以下の話題語候補を話題語として獲得して出力し、処理を終了する。全文書数ｎ＝１００００、与えられた対象を含む文書の数ｋ＝５００として、図６の例を用いると、話題語候補「ＡＡＡ」については、ｎ_ｔ＝３５、ｒ＝８であるため、λ＝１．７５となり、確率は０．１７４となる。話題語候補「ＣＣＣ」についても同様にして、確率は０．２９６となる。確率が０．２以下のものを話題語として獲得することにすると、最終的に獲得される話題語は「ＡＡＡ」となる。

以上説明したように、本実施の形態の話題語獲得装置によれば、文書の出所に基づいて複数の文書ドメインに文書を分類し、話題語候補毎に話題語候補が含まれる文書が分類された文書ドメインの数を表す文書ドメイン頻度を集計し、この文書ドメイン頻度を用いて話題語候補を選択するため、特定の個人や企業が多く言及しているような話題語候補を除去することができ、対象に関連する話題語を適切に獲得することができる。

なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、上述の話題語獲得装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０話題語獲得装置
１１対象抽出部
１２話題語候補抽出部
１３話題語候補集計部
１４話題語候補取得部
１５話題語候補選択部
１６対象関連性判定部
１７話題語候補データベース

Claims

文書を検索する際の対象を文書群から複数抽出する対象抽出手段と、
前記対象抽出手段により抽出された対象を含む文書各々から、前記対象に関連する話題語の候補である話題語候補を複数抽出する話題語候補抽出手段と、
前記対象抽出手段により抽出された対象を含む文書各々を、該文書の出所に基づいて複数の文書ドメインに分類し、前記話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計する集計手段と、
前記話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、前記集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する獲得手段と、
を含む話題語獲得装置。
前記文書の出所を、該文書のインターネットドメイン、該文書が存在するサイト、該文書の著者の少なくとも一つとした請求項１記載の話題語獲得装置。
前記対象は、製品名、イベント名、場所、または日時である請求項１または請求項２記載の話題語獲得装置。
前記獲得手段は、前記スコアが予め定めた閾値以上の話題語候補であって、かつ該話題語候補が含まれる文書の数、前記入力された対象が含まれる文書の数、及び該話題語候補と前記入力された対象とを含む文書の数に基づいて、前記入力された対象との関連が高いと判定された話題語候補を話題語として獲得する請求項１〜請求項３のいずれか１項記載の話題語獲得装置。
対象抽出手段と、話題語候補抽出手段と、集計手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、
前記対象抽出手段は、文書を検索する際の対象を文書群から複数抽出し、
前記話題語候補抽出手段は、前記対象抽出手段により抽出された対象を含む文書各々から、前記対象に関連する話題語の候補である話題語候補を複数抽出し、
前記集計手段は、前記対象抽出手段により抽出された対象を含む文書各々を、該文書の出所に基づいて複数の文書ドメインに分類し、前記話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計し、
前記獲得手段は、前記話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、前記集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する
話題語獲得方法。
前記獲得手段は、前記スコアが予め定めた閾値以上の話題語候補であって、かつ該話題語候補が含まれる文書の数、前記入力された対象が含まれる文書の数、及び該話題語候補と前記入力された対象とを含む文書の数に基づいて、前記入力された対象との関連が高いと判定された話題語候補を話題語として獲得する請求項５記載の話題語獲得方法。
コンピュータを、請求項１〜請求項４のいずれか１項記載の話題語獲得装置を構成する各手段として機能させるための話題語獲得プログラム。