JP5964149B2

JP5964149B2 - 共起語を特定する装置およびプログラム

Info

Publication number: JP5964149B2
Application number: JP2012138820A
Authority: JP
Inventors: 加藤　剛志; 剛志加藤; 桂一落合
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2012-06-20
Filing date: 2012-06-20
Publication date: 2016-08-03
Anticipated expiration: 2032-06-20
Also published as: JP2014002653A

Description

本発明は、ユーザが関心を持つ情報を示すキーワードとともに同じ文章中に出現する言葉である共起語を特定する技術に関する。

広くインターネットを介した情報検索が行われている。情報検索を行うユーザは、例えば端末装置において動作するＷｅｂブラウザの検索画面において自分が関心を持つ言葉を検索キーワードとして入力し、検索エンジン機能を備えたサーバ装置に送信する。サーバ装置はインターネット上に公開されている多数のＷｅｂページの中から、端末装置から送信されてきた検索キーワードを含むＷｅｂページを所定の規則に従い抽出し、その抽出結果を示すＷｅｂページを端末装置に送信する。ユーザはサーバ装置から端末装置に送信されてきたＷｅｂページにリンクされているＷｅｂページを開くことにより、検索キーワードに関連する情報を得ることができる。

しかしながら、検索キーワードの送信に応じてサーバ装置から送信されてくる抽出結果には、ユーザが求める情報を提供しないＷｅｂページがリンクされることも多い。そのため、ユーザは多数の検索キーワードを組み合わせるなどして抽出結果の質の向上を図ることができるが、手間である。

そのような手間を軽減する技術として、例えば特許文献１には、ユーザが指定した検索キーワードとともに同じ文章中で高い頻度で使用されている単語を共起語として特定しておき、ユーザが指定した検索キーワードにそれらの共起語を自動的に追加して文章を抽出することで、抽出結果の質の向上を図る技術が提案されている。

特開２００３−２２２７５号公報

上記のような検索キーワードによる抽出結果にいわゆるノイズと呼ばれる不要な情報が混入する一つの理由として、検索時点における話題傾向が必ずしも考慮されていない、という点が挙げられる。例えば、最新の液晶ディスプレイの機能を知りたいと思ったユーザが、「液晶ディスプレイ」という検索キーワードを入力しＷｅｂページの抽出を行ったとする。その際、もし液晶ディスプレイの基本原理を詳しく説明しているＷｅｂページＡが長年にわたり多くの人々に閲覧されていれば、抽出結果にそのＷｅｂページＡが含まれることになる。この場合、ユーザは液晶ディスプレイの基本原理には関心がないため、抽出結果に含まれるＷｅｂページＡはノイズである。

上記のように、ユーザが現在というタイミングにおけるいわゆる話題傾向を考慮した情報を検索したい場合には、例えば「３Ｄ」、「白色ＬＥＤ」、「ＩＰＳパネル」などの最近話題性が高まっているキーワードを「液晶ディスプレイ」とともに検索キーワードとして入力すればよい。なお、本願において「話題傾向」とは、多くの人々が関心を示す話題を意味する。話題は単一の言葉ではなく複数の言葉の組み合わせから生じるため、上記のように複数の検索キーワードを組み合わせることにより話題傾向を考慮した抽出結果を得ることができる。

しかしながら、ユーザは必ずしも現在の話題傾向を容易に知ることはできず、従ってそれらの追加すべき検索キーワードを特定することが難しい場合が多い。また、この例のように、話題傾向自体を知りたいこともある。その場合には、ユーザはとりあえず「液晶ディスプレイ」等の一般的な検索キーワードを入力し、その結果として得られるノイズの多い抽出結果の中から必要な情報を探し出さなければならない。

本発明は上記の事情に鑑み、ユーザが興味を持つキーワードに関連する特定期間内における話題傾向を容易に知ることを可能とする技術を提供することを目的とする。

上述した課題を解決するため、本発明は、文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、前記形態素解析手段により複数のテキストデータの各々を分割して生成された形態素データのうちの１以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いられたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いられたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段とを備える装置を提案する。

このような装置によれば、特定期間内に公開された多数のテキストデータにおいて特定のキーワードと共に用いられている共起語が抽出されるため、特定のキーワードに関連する特定期間における話題傾向を示す情報が得られる。

また、上述した装置において、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに記憶されている一のテキストデータ識別データに関し、前記形態素データ記憶手段において、前記一のキーワードデータに対応する共起語データとして前記共起語データ抽出手段により抽出された形態素データの各々に関し、前記一のテキストデータ識別データとともに記憶されている当該形態素データと同一の形態素データを、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データとして抽出し、前記共起語データ抽出手段により抽出された前記一のキーワードデータに対応する共起語データの各々の数と、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データの各々の数とに基づき、前記一のテキストデータと前記一のキーワードデータとの間の関連度を示す関連度データを生成する関連度データ生成手段を備える、という構成が採用されてもよい。

このような装置によれば、特定期間内に公開された多数のテキストデータにおいて特定のキーワードと共に用いられている共起語が、特定のテキストデータにおいてその特定のキーワードと共にどれだけ用いられているかという情報に基づき、特定期間内における特定のテキストデータと特定のキーワードとの間の関連度が特定される。従って、ユーザはその特定期間内における話題傾向を把握していなくても、それらの話題傾向を考慮した上で特定のキーワードに関連すると思われるテキストデータを得ることができる。

また、上述した装置において、前記関連度データ生成手段は、前記共起語データ抽出手段により抽出された共起語データの数に基づき所定の規則に従い定められるウェイトに従い、前記関連度データの生成において各共起語データに関する数の加重を行う、という構成が採用されてもよい。

このような装置によれば、一般的に話題傾向をより強く特徴付ける出現数が多い共起語が関連度の特定においてより大きく考慮されるため、話題傾向をあまり特徴付けない出現数が少ない共起語が多数存在するような場合であっても、話題傾向の特徴が十分に反映された関連度データが得られる。

また、上述した装置において、端末装置から前記一のキーワードデータもしくは前記一のキーワードデータを含むテキストデータを受信するキーワードデータ受信手段と、前記テキストデータ取得手段により取得されたテキストデータを記憶するテキストデータ記憶手段と、前記関連度データ生成手段により算出された、前記テキストデータ記憶手段に記憶されている複数のテキストデータの各々と前記キーワードデータ受信手段により前記端末装置から受信された前記一のキーワードデータとの間の関連度データを、当該複数のテキストデータの各々に関連付けて前記端末装置に送信する関連度データ送信手段とを備える、という構成が採用されてもよい。

このような装置によれば、関連度の特定のための処理がユーザの端末装置とは異なる装置において行われるため、多数のテキストデータに関する形態素解析や共起語の特定、それらの処理の結果の記憶等の処理を各ユーザの端末装置が各々行う必要がない。

また、上述した装置において、前記関連度データ送信手段は、前記複数のテキストデータを、前記関連度データにより示される関連度に従った順序でソートした上で前記関連度データとともに前記端末装置に送信する、という構成が採用されてもよい。

このような装置によれば、端末装置のユーザは関連度に応じてソートされたテキストデータの内容を見ることにより、特定期間内における話題傾向を考慮した知りたい情報を容易に得ることができるとともに、その順序により、どのような話題が世の中の関心をより多く集めているか、という話題傾向の内容についても知ることができる。

また、本発明は、コンピュータを、文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、前記形態素解析手段により複数のテキストデータの各々を分割して生成した形態素データのうちの１以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示すキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段として機能させるためのプログラムを提案する。

このようなプログラムによれば、一般的なコンピュータを用いて上述した装置が実現される。

本発明によれば、ユーザは興味を持つキーワードに関連する特定期間内における話題傾向を容易に知ることができる。

本発明の一実施形態にかかるテキスト検索システムの構成を示した図である。本発明の一実施形態にかかるサーバ装置の機能構成を示した図である。本発明の一実施形態にかかるテキストＤＢのデータ構成を模式的に示した図である。本発明の一実施形態にかかる形態素ＤＢのデータ構成を模式的に示した図である。本発明の一実施形態にかかる形態素解析部が行う形態素分析の処理の結果例を示した図である。本発明の一実施形態にかかる共起語ＤＢのデータ構成を模式的に示した図である。本発明の一実施形態にかかるサーバ装置が形態素データの登録に伴い行う処理を示した図である。本発明の一実施形態にかかるサーバ装置が共起語データおよび共起係数データの生成に伴い行う処理を示した図である。本発明の一実施形態にかかるサーバ装置が関連度データの生成および関連度データとテキストデータの送信に伴い行う処理を示した図である。本発明の一実施形態にかかる端末装置において表示される抽出結果の表示画面を模式的に示した図である。

［実施形態］
以下に、図面を参照しながら本発明の実施形態について説明する。図１は本実施形態にかかるテキスト検索システム１の構成を示した図である。テキスト検索システム１はユーザが文章の検索に用いる端末装置１１と、ユーザにより入力された検索キーワードを端末装置１１から受信し、受信した検索キーワードに応じた複数のテキストデータを検索キーワードとの関連度を示す関連度データとともに端末装置１１に送信するサーバ装置１２を備えている。端末装置１１とサーバ装置１２はネットワーク９を介して互いに各種データの送受信を行う。

なお、図１においては図の簡略化のため端末装置１１を１台のみ示しているが、端末装置１１の数はテキスト検索システム１を利用するユーザの数に応じて任意に変化する。サーバ装置１２の数もまた、テキスト検索システム１におけるテキストデータの検索サービスの規模に応じて任意に変化し得る。

端末装置１１は、ユーザから入力されたデータをサーバ装置１２に送信可能であり、サーバ装置１２から送信されてくるデータを受信可能であり、受信したデータに従いユーザに対する情報の表示が可能な装置であれば如何なる装置であってもよい。従ってその形態は、例えば携帯電話、スマートフォン、ノート型ＰＣ（Personal Computer）、タッチパッド型ＰＣ、デスクトップ型ＰＣ、ＰＤＡ（Personal Digital Assistant）、通信機能を備えたゲーム端末、通信機能を備えたテレビ等のいずれであってもよい。端末装置１１の構成および動作は、サーバ装置との間でデータ通信可能な一般的な端末装置と同様であるので、その説明を省略する。

サーバ装置１２のハードウェア構成は、通信機能を備えた一般的なコンピュータのハードウェア構成と同様であるので、その説明を省略する。サーバ装置１２は本発明にかかるアプリケーションプログラムに従った処理を行うことにより、図２に示す機能構成を備える装置として動作する。

サーバ装置１２はその機能構成部として、以下の構成部を備えている。
（計時部１２１）基準の時刻からの経過時間を継続的に計測し、現在時刻を示す時刻データを生成する。
（形態素解析部１２２）サーバ装置１２がインターネットを介して他のサーバ装置から取得してきたテキストデータが示すテキストを形態素解析手法に従い形態素に分割しそれらの形態素を示す形態素データを生成する。
（テキストデータ取得部１２３）インターネットを介して他のサーバ装置から定期的に新たに公開されたテキストデータを取得する。
（検索キーワードデータ受信部１２４）端末装置１１から検索キーワードを示す検索キーワードデータを受信する。

（共起語データ抽出部１２５）主として形態素解析部１２２により生成された形態素データに基づき検索キーワードデータ受信部１２４により受信された検索キーワードデータにより示される検索キーワードとともに所定期間内に共に同じテキスト内で用いられている言葉である共起語を抽出し、抽出した共起語を示す共起語データを生成する。
（関連度データ生成部１２６）形態素解析部１２２により生成された形態素データおよび共起語データ抽出部１２５により生成された共起語データに基づき検索キーワードデータ受信部１２４により受信された検索キーワードデータとテキストデータ取得部１２３により取得されたテキストデータとの関連度を示す関連度データを生成する。
（関連度データ送信部１２７）関連度データ生成部１２６により生成された関連度データに従いテキストデータ取得部１２３により取得されたテキストデータをソートし、関連度データとともに端末装置１１に送信する。
（記憶部１２８）各種データを記憶する。

また、記憶部１２８には、以下のデータが記憶されている。
（辞書ＤＢ）形態素解析部１２２が形態素解析を行う際に用いる辞書データを格納したＤＢ（Database）。
（文法ＤＢ）形態素解析部１２２が形態素解析を行う際に用いる文法データを格納したＤＢ。
（テキストＤＢ）テキストデータ取得部１２３により取得されたテキストデータを格納するＤＢ。
（形態素ＤＢ）形態素解析部１２２により生成された形態素データを格納するＤＢ。
（共起語ＤＢ）共起語データ抽出部１２５により生成された共起語データを格納するＤＢ。

辞書ＤＢおよび文法ＤＢは一般的な形態素解析において用いられる既知のデータベースであるため、そのデータ構成の説明を省略する。

図３はテキストＤＢのデータ構成の例を模式的に示した図である。テキストＤＢはテキストデータ取得部１２３により取得されたテキストデータの各々に応じたデータレコードの集まりであり、各データレコードは、テキストデータを識別するテキストＩＤ（Identifier）を格納するデータフィールド「テキストＩＤ」、テキストデータが取得された時刻を示す時刻データを格納するデータフィールド「時刻」、テキストデータを格納するデータフィールド「テキスト」を備えている。

図４は形態素ＤＢのデータ構成の例を模式的に示した図である。形態素ＤＢは形態素解析部１２２により生成された形態素データの各々に応じたデータレコードの集まりであり、各データレコードは、形態素データの生成に用いられたテキストデータのテキストＩＤを格納するデータフィールド「テキストＩＤ」、そのテキストデータが取得された時刻を示す時刻データを格納するデータフィールド「時刻」、形態素データを格納するデータフィールド「形態素」を備えている。

形態素解析部１２２が行う形態素分析は既知の技術であるため、その詳細な説明は省略するが、形態素解析部１２２が行う形態素分析の処理の結果例を図５に示す。図５は、テキストデータ「○○ツリーはやはり高い。○○ツリータウンも面白そうだな。」を形態素解析部１２２が形態素分析した際の結果を示している。図５に示されるデータフィールド「表層形」は入力されたテキストから分割された形態素を示している。データフィールド「品詞」は形態素の品詞を示している。データフィールド「原形」は形態素の原形を示している。例えば、表層形が「面白」の形態素は原形が「面白い」であり、以下に説明するサーバ装置１２の処理においては言葉の比較が原形により行われ、変化形により同じ意味の言葉が異なる言葉として扱われることはない。従って、形態素ＤＢのデータフィールド「形態素」に格納されるデータは形態素の原形を示すデータである。

なお、形態素解析部１２２が形態素ＤＢに登録する形態素データは図５に示すようにテキストから分割された形態素（原形）の全てではなく、その言葉が単体で意味を持つ品詞のものに限られる。具体的には、名詞、動詞、形容詞、形容動詞などは形態素ＤＢに登録され、助詞、副詞、助動詞、接続詞、記号などは形態素ＤＢに登録されない。

図６は共起語ＤＢのデータ構成の例を模式的に示した図である。共起語ＤＢは共起語データ抽出部１２５により生成された共起語データの各々に応じたデータレコードの集まりであり、各データレコードは、端末装置１１からサーバ装置１２に対し送信されてきた検索のリクエストを識別する検索ＩＤを格納するデータフィールド「検索ＩＤ」、検索のリクエストにおいて端末装置１１から送信されてきた検索キーワードデータを格納するデータフィールド「検索キーワード」、抽出対象の形態素をそのソースのテキストデータの取得された時刻により絞り込む時間帯を示す時間帯データを格納するデータフィールド「時間帯」、共起語として抽出された形態素を示す共起語データを格納するデータフィールド「共起語」、検索キーワードと共起語との間の共起係数（後述）を示す共起係数データを格納するデータフィールド「共起係数」を備えている。

図６に示されるように、共起語データ抽出部１２５により生成される共起語データおよび共起係数データは、特定の時間帯内において取得されたテキストから生成された形態素から抽出した共起語およびその共起係数を示している。本実施形態において、この時間帯はサーバ装置１２が端末装置１１から検索のリクエストを受信した時刻から前１ヶ月間の時間帯であるものとし、共起語データ抽出部１２５により自動的に設定される。

続いて、テキスト検索システム１の動作を説明する。まず、サーバ装置１２は定期的に（例えば、１日に１回、所定時刻に）、インターネットにおいて前日以降に新たに公開された文書を示すテキストデータを様々なサーバ装置からクロールして、それらのテキストデータを用いて形態素解析を行い、形態素データの登録を行う。図７はそれらの形態素データの登録に伴いサーバ装置１２が行う処理を示した図である。

まず、テキストデータ取得部１２３は外部の各サーバ装置に対し、過去最後に同様の要求を行った日時を示す時刻データを含むテキストデータの送信要求を行い、その応答として各サーバ装置から送信されてくる、新たに更新されたテキストデータを受信する（Ｓ１０１）。テキストデータ取得部１２３は取得したそれらのテキストデータの各々にテキストＩＤを割り当て、計時部１２１から取得した時刻データ（その取得時の時刻を示す）とともにテキストＤＢ（図３）に格納する（Ｓ１０２）。

形態素解析部１２２は、テキストデータ取得部１２３によりテキストＤＢに格納されたテキストデータを用いて形態素解析を行い（Ｓ１０３）、生成した形態素データの中から単独で意味を生じる品詞のものを抽出し（Ｓ１０４）、抽出した形態素データを、その生成に用いたテキストデータのテキストＩＤおよび時刻データとともに形態素ＤＢ（図４）に格納する（Ｓ１０５）。以上が形態素データの登録に伴う処理である。

ユーザは、自分が関心を持つ検索キーワードを端末装置１１に入力し、サーバ装置１２に送信することで、その応答としてサーバ装置１２から端末装置１１に送信されてくる、その検索キーワードに関連したテキストデータを、その検索キーワードとの関連度データとともに閲覧することができる。その際、サーバ装置１２から端末装置１１に送信されてくるテキストデータの選択に用いられた関連度データは、例えば、過去１ヶ月間に取得したテキストデータから生成された形態素データに基づき生成された共起語データおよび共起係数データに基づいて生成されたものである。従って、ユーザに対し提供されるテキストデータは、過去１ヶ月における話題傾向が考慮されて抽出されたものである。

図８は、ユーザにより端末装置１１に入力された検索キーワードがサーバ装置１２に送信された際に、サーバ装置１２において行われる共起語データおよび共起係数データの生成に伴う処理を示した図である。

まず、端末装置１１から送信された検索キーワードデータは、検索キーワードデータ受信部１２４により受信される（Ｓ２０１）。検索キーワードデータの受信をトリガに、共起語データ抽出部１２５は形態素ＤＢ（図４）から、データフィールド「時刻」に過去１ヶ月の時間帯に含まれる時刻を示す時刻データが格納されているデータレコード群を抽出する（Ｓ２０２）。

続いて、共起語データ抽出部１２５はステップＳ２０２において抽出したデータレコード群の中から、ステップＳ２０１において受信した検索キーワードデータと同じデータがデータフィールド「形態素」に格納されているデータレコード群を抽出する（Ｓ２０３）。

続いて、共起語データ抽出部１２５はステップＳ２０３において抽出したデータレコード群をデータフィールド「テキストＩＤ」によりグループ化し、それらのグループの数、すなわち検索キーワードデータを含むテキストデータの数を検索キーワードの出現文書数ｄｆ（ｗ_i）として特定する（Ｓ２０４）。

続いて、共起語データ抽出部１２５はステップＳ２０２において抽出したデータレコード群をデータフィールド「形態素」によりグループ化する（Ｓ２０５）。以下、ステップＳ２０５において、第１〜第ｎ（ただし、ｎは任意の自然数）までの形態素に応じたデータレコード群が生成されたものとする。

続いて、共起語データ抽出部１２５はステップＳ２０５において生成したｎ個のデータレコード群の中から第ｍ（ただし、ｍは１以上ｎ以下の任意の自然数）の形態素のデータレコード群を選択する（Ｓ２０６）。

続いて、共起語データ抽出部１２５はステップＳ２０６において選択した第ｍの形態素のデータレコード群をデータフィールド「テキストＩＤ」によりグループ化し、それらのグループの数、すなわち第ｍの形態素データを含むテキストデータの数を第ｍの形態素の出現文書数ｄｆ（ｗ_jm）として特定する（Ｓ２０７）。

続いて、共起語データ抽出部１２５はステップＳ２０３において抽出したデータレコード群のいずれかのデータフィールド「テキストＩＤ」に格納され、ステップＳ２０６において選択した第ｍの形態素のデータレコード群のいずれかのデータフィールド「テキストＩＤ」にも格納されるテキストＩＤの数を共起文書数ｄｆ（ｗ_i，ｗ_jm）として特定する（Ｓ２０８）。なお、このように特定される共起文書数ｄｆ（ｗ_i，ｗ_jm）は、検索キーワードデータと第ｍの形態素を示す形態素データをともに含むテキストデータの数である。

続いて、共起語データ抽出部１２５はステップ２０４において特定した出現文書数ｄｆ（ｗ_i）、ステップ２０７において特定した出現文書数ｄｆ（ｗ_jm）、ステップＳ２０８において特定した共起文書数ｄｆ（ｗ_i，ｗ_jm）を用いて、以下の式に従い共起係数Ｄｉｃｅ（ｗ_i，ｗ_jm）を算出する（Ｓ２０９）。

なお、共起係数とは、２つの単語（この場合、検索キーワードと第ｍの形態素）が同じ文書に出現する頻度を示す指標であり、上記の式はダイス係数として知られる共起係数の算出式である。

続いて、共起語データ抽出部１２５はステップ２０９において算出した共起係数Ｄｉｃｅ（ｗ_i，ｗ_jm）を示す共起係数データを、ステップＳ２０１において検索キーワードデータの受信に際しその検索のリクエストに対し検索キーワードデータ受信部１２４により割り振られた検索ＩＤ、ステップＳ２０１において受信された検索キーワードデータ、検索キーワードデータの受信のタイミングより前１ヶ月間を示す時間帯データ、第ｍの形態素を示す共起語データとともに共起語ＤＢ（図６）に格納する（Ｓ２１０）。

続いて、共起語データ抽出部１２５はステップＳ２０５においてグループ化したｎ個の形態素に応じたグループの全てに関し、ステップＳ２１０の登録処理が完了したか否かを判定する（Ｓ２１１）。ステップＳ２１１の判定において、まだ登録処理が完了していない形態素のグループがあると判定した場合（Ｓ２１１；Ｎｏ）、共起語データ抽出部１２５は処理をステップＳ２０６に戻し、第（ｍ＋１）の形態素のデータレコード群を選択し、ステップＳ２０７以降の処理を行う。一方、ステップＳ２１１の判定において、全ての形態素のグループに関し登録処理が完了したと判定した場合（Ｓ２１１；Ｙｅｓ）、共起語データ抽出部１２５は一連の処理を終了する。

以上が、ユーザが入力した検索キーワードに関する共起語データおよび共起係数データの生成に伴う処理である。

共起語データ抽出部１２５による共起語データおよび共起係数データの生成の処理が完了すると、続いて関連度データ生成部１２６による関連度データの生成と、関連度データ送信部１２７によるテキストデータおよび関連度データの端末装置１１に対する送信の処理が行われる。図９はそれらの処理を示した図である。

まず、関連度データ生成部１２６は、共起語ＤＢ（図６）から、ステップＳ２０１において端末装置１１から送信されてきた検索キーワードデータの受信に伴い検索キーワードデータ受信部１２４によりその検索のリクエストに対し割り当てられた検索ＩＤをデータフィールド「検索ＩＤ」に含むデータレコードを抽出する（Ｓ３０１）。

続いて、関連度データ生成部１２６は形態素ＤＢ（図４）から、データフィールド「時刻」に過去１ヶ月間に含まれる時刻を示す時刻データが格納されているデータレコードを抽出する（Ｓ３０２）。

続いて、関連度データ生成部１２６はステップＳ３０２において抽出したデータレコード群をデータフィールド「テキストＩＤ」によりグループ化する（ステップＳ３０３）。以下、ステップＳ３０３において、第１〜第ｘ（ただし、ｘは任意の自然数）までのテキストデータに応じたデータレコード群が生成されたものとする。

続いて、関連度データ生成部１２６はステップＳ３０３において生成したｘ個のデータレコード群の中から第ｙ（ただし、ｙは１以上ｘ以下の任意の自然数）のテキストデータのデータレコード群を選択する（Ｓ３０４）。

続いて、関連度データ生成部１２６はステップＳ３０４において選択した第ｙのテキストデータのデータレコード群をデータフィールド「形態素」によりグループ化し、それらのグループの各々に含まれるデータレコードの数をカウントする（Ｓ３０５）。今、ステップＳ３０５のグループ化により第１〜第ｐ（ただし、ｐは任意の自然数）までの形態素に応じたデータレコード群が生成されたものとし、第ｑ（ただし、ｑは１以上ｒ以下の任意の自然数）の形態素に応じたデータレコード群の数としてデータレコード数Ｃ_qがカウントされたものとする。

続いて、関連度データ生成部１２６は第１〜第ｐの形態素の各々（以下、第ｑとする）に関し、共起語ＤＢ（図６）から、ステップＳ２０１において検索キーワードデータ受信部１２４により割り当てられた検索ＩＤがデータフィールド「検索ＩＤ」に格納され、第ｑの形態素を示す共起語データがデータフィールド「共起語」に格納されているデータレコードを検索し、検索したデータレコードのデータフィールド「共起係数」に格納される共起係数データを第ｑの形態素に関する共起係数Ｄ_qとして読み出す（Ｓ３０６）。

続いて、関連度データ生成部１２６は以下の式に従い、第ｙのテキストデータと検索キーワードデータとの間の関連度Ｒ_yを算出し、算出した関連度Ｒ_yを示す関連度データを生成する（Ｓ３０７）。

続いて、関連度データ生成部１２６はステップＳ３０３においてグループ化したｘ個のテキストデータに応じたグループの全てに関し、ステップＳ３０７の関連度データの生成処理が完了したか否かを判定する（Ｓ３０８）。ステップＳ３０８の判定において、まだ関連度データの生成処理が完了していないテキストデータのグループがあると判定した場合（Ｓ３０８；Ｎｏ）、関連度データ生成部１２６は処理をステップＳ３０４に戻し、第（ｙ＋１）のテキストデータのデータレコード群を選択し、ステップＳ３０５以降の処理を行う。

一方、ステップＳ３０８の判定において、全てのテキストデータのグループに関し関連度データの生成処理が完了したと判定した場合（Ｓ３０８；Ｙｅｓ）、関連度データ生成部１２６は一連の処理を終え、続いて関連度データ送信部１２７によるテキストデータおよび関連度データの送信の処理が行われる。

関連度データ送信部１２７は、第１〜第ｘのテキストデータを、ステップＳ３０３においてグループ化されたデータレコード群の各々に関し、データフィールド「テキストＩＤ」に格納されているテキストＩＤを検索キーとして、テキストＤＢ（図３）から第１〜第ｘのテキストデータを抽出する（Ｓ３０９）。

続いて、関連度データ送信部１２７はステップＳ３０９において抽出した第１〜第ｘのテキストデータとステップＳ３０７において第１〜第ｘのテキストデータに関し生成された関連度データとを各々対応付けた後、関連度データが示す関連度の降順となるようにテキストデータをソートする（Ｓ３１０）。

続いて、関連度データ送信部１２７はステップＳ３１０においてソートを行ったテキストデータを、それらに対応付けた関連度データとともに端末装置１１に送信する（Ｓ３１１）。以上が関連度データ生成部１２６による関連度データの生成および関連度データ送信部１２７によるテキストデータと関連度データの送信に伴う処理である。

端末装置１１はサーバ装置１２から送信されてくる関連度データを伴うテキストデータを受信すると、その内容を表示する。図１０は、端末装置１１において表示される抽出結果の表示画面を模式的に示した図である。ユーザは抽出結果の表示画面を見ることにより、先に自分が入力した検索キーワードに関連する文書の内容を知ることができる。その際、表示されるテキストデータは、過去１ヶ月間において検索キーワードと共に同じ文書において用いられた共起語の出現頻度を考慮して選択されたテキストデータであり、またその表示順序は共起語の出現頻度を考慮して算出された関連度の高い順であるため、その内容を読むとユーザは過去１ヶ月間における、検索キーワードに関連する話題傾向を知ることができる。

［変形例］
上述した実施形態は本発明の一実施形態であり、本発明の技術的思想の範囲内において様々に変形可能である。以下にそれらの変形の例を示す。

上述した実施形態においては、テキスト検索システム１が端末装置１１とサーバ装置１２により構成され、検索キーワードデータの入力および結果表示を除く処理が全てサーバ装置１２において行われる。これに代えて、サーバ装置１２が行う処理の全てもしくは一部が端末装置１１において行われる構成が採用されてもよい。例えば、端末装置１１がデスクトップＰＣのように十分な処理速度、通信速度、記憶容量等を備えている場合、端末装置１１がサーバ装置１２の役割を兼ねることができる。

また、上述した実施形態においては、共起係数としてＤｉｃｅ係数が採用されているが、共起の程度を示す指標であれば、Ｄｉｃｅ係数以外のいずれの指標が共起係数として採用されてもよい。

また、上述した実施形態においては、ユーザに対し提示されるテキストデータは、過去１ヶ月間にサーバ装置１２において取得されたテキストデータの中から抽出されたものであるが、抽出対象のテキストデータの取得時期の範囲は任意に変更可能であり、取得時期に基づく抽出を行わない構成が採用されてもよい。すなわち、共起語データおよび共起係数データの生成において用いる形態素データの取得時刻は過去１ヶ月等の所定期間内に限定されるが、抽出対象のテキストデータはその所定期間外に取得されたものであってもよい。

また、上述した実施形態においては、共起語データおよび共起係数データの生成において用いる形態素データをその取得時刻に基づき絞り込む際に用いる所定期間を過去１ヶ月間としたが、この所定期間は任意に変更可能であり、例えばユーザが検索キーワードを入力する際にこの所定期間を指定可能とし、ユーザにより指定された所定期間において取得された形態素データに基づき、共起語データおよび共起係数データの生成が行われる構成が採用されてもよい。

また、上述した実施形態においては、所定期間内における出現回数の多少にかかわらず全ての形態素が一様に関連度データの生成に用いられるが、例えば所定期間内における出現回数が多い形態素に対し、出現回数が少ない形態素よりも大きいウェイトを与え、関連度データの生成においてウェイトに応じて加重することにより、出現回数が多い形態素が共起語として出現するほど、出現回数が少ない形態素が共起語として出現する場合よりも高い関連度を示す関連度データが生成される構成が採用されてもよい。例えば、所定の閾値より少ない出現回数の形態素にはウェイトとして「０」を与え、所定の閾値以上の出現回数の形態素にはウェイトとして「１」を与えることにより、所定の閾値以上の出現回数の形態素のみを関連度データの生成において考慮する構成が採用されてもよい。

また、上述した実施形態においては、形態素データに対応する時刻データとして、そのソースとなるテキストデータが取得された時刻を示す時刻データが用いられる構成が採用されている。形態素データに対応する時刻データはこれに限られず、例えばソースとなるテキストデータにその文書の掲載時刻を示す時刻データが伴っている場合には、その時刻データを形態素データに対応する時刻データとして用いる構成が採用されてもよい。

また、上述した実施形態においては、ユーザが単一の検索キーワードを入力し、単一の検索キーワードデータに応じた関連度データの生成が行われるものとしたが、ユーザが複数の検索キーワードを入力し、それらの複数の検索キーワードを各々示す複数の検索キーワードデータに応じた関連度データの生成が行われる構成が採用されてもよい。その場合、例えば関連度データ生成部１２６が各検索キーワードデータに関し算出した関連度の加算値を示す関連度データを生成する構成が採用されてもよい。

さらに、ユーザが検索キーワードを入力する代わりにテキストデータを指定し、サーバ装置１２において形態素解析部１２２によりそのテキストデータから分割して生成した複数の形態素データを検索キーワードとして用いる構成が採用されてもよい。その場合、ユーザは自分が興味を持った文書を指定することで、その文書に関連する文書を読むことができる。その場合も、ユーザに提示されるテキストデータは所定期間における話題傾向が考慮されて選択されたものとなる。

また、上述した実施形態においては、関連度データは共起語の出現数に対し共起係数により重み付けをしたものを合算した数値を示すものとしたが、例えば共起係数を用いず、共起語の出現数を示すデータをそのまま関連度データとして用いたり、共起係数とは異なる係数を用いたりしてもよい。

また、上述した実施形態においては、サーバ装置１２から端末装置１１に送信されるテキストデータは対応する関連度が高い順（降順）にソートされるものとしたが、例えば、サーバ装置１２から端末装置１１に対しては任意の順序で並べられたテキストデータが関連度データとともに送信され、端末装置１１においてテキストデータのソートが行われる構成が採用されてもよい。また、ソートの順序は任意に変更可能である。例えば、テキストデータが示すテキストの長さ順や取得された時刻が新しい順などでソートが行われてもよい。また、テキストデータがＷｅｂページに掲載されており、そのテキストデータに対し他のＷｅｂページから貼られているリンクの数やそのＷｅｂページの閲覧数といったそのテキストデータに対する世間の関心度の指標となるデータが得られる場合には、それらの指標（リンク数や閲覧数など）に従いソートが行われる構成が採用されてもよい。

また、上述した実施形態においては、一般的なコンピュータに本発明にかかるプログラムに従った処理を実行させることによりサーバ装置１２が実現されるものとしたが、例えば図２に示した機能構成をハードウェアにより実現するいわゆる専用機としてサーバ装置１２が構成されてもよい。

なお、上述した実施形態において示した数式や処理フローの内容および順序は説明のための一例であって、様々に変更可能である。

１…テキスト検索システム、９…ネットワーク、１１…端末装置、１２…サーバ装置、１２１…計時部、１２２…形態素解析部、１２３…テキストデータ取得部、１２４…検索キーワードデータ受信部、１２５…共起語データ抽出部、１２６…関連度データ生成部、１２７…関連度データ送信部、１２８…記憶部

Claims

文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、
前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、
前記形態素解析手段により複数のテキストデータの各々を分割して生成された形態素データのうちの１以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いられたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いられたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、
一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段と
を備える装置。
前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに記憶されている一のテキストデータ識別データに関し、前記形態素データ記憶手段において、前記一のキーワードデータに対応する共起語データとして前記共起語データ抽出手段により抽出された形態素データの各々に関し、前記一のテキストデータ識別データとともに記憶されている当該形態素データと同一の形態素データを、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データとして抽出し、前記共起語データ抽出手段により抽出された前記一のキーワードデータに対応する共起語データの各々の数と、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データの各々の数とに基づき、前記一のテキストデータと前記一のキーワードデータとの間の関連度を示す関連度データを生成する関連度データ生成手段
を備える請求項１に記載の装置。
前記関連度データ生成手段は、前記共起語データ抽出手段により抽出された共起語データの数に基づき所定の規則に従い定められるウェイトに従い、前記関連度データの生成において各共起語データに関する数の加重を行う
請求項２に記載の装置。
端末装置から前記一のキーワードデータもしくは前記一のキーワードデータを含むテキストデータを受信するキーワードデータ受信手段と、
前記テキストデータ取得手段により取得されたテキストデータを記憶するテキストデータ記憶手段と、
前記関連度データ生成手段により算出された、前記テキストデータ記憶手段に記憶されている複数のテキストデータの各々と前記キーワードデータ受信手段により前記端末装置から受信された前記一のキーワードデータとの間の関連度データを、当該複数のテキストデータの各々に関連付けて前記端末装置に送信する関連度データ送信手段と
を備える請求項２または３に記載の装置。
前記関連度データ送信手段は、前記複数のテキストデータを、前記関連度データにより示される関連度に従った順序でソートした上で前記関連度データとともに前記端末装置に送信する
請求項４に記載の装置。
コンピュータを、
文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、
前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、
前記形態素解析手段により複数のテキストデータの各々を分割して生成した形態素データのうちの１以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、
一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示すキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段
として機能させるためのプログラム。