JP5952241B2

JP5952241B2 - 情報付与装置、情報付与方法および情報付与プログラム

Info

Publication number: JP5952241B2
Application number: JP2013181731A
Authority: JP
Inventors: 結城遠藤; 佐藤　隆; 隆佐藤; 鷲崎　誠司; 誠司鷲崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-09-03
Filing date: 2013-09-03
Publication date: 2016-07-13
Anticipated expiration: 2033-09-03
Also published as: JP2015049766A

Description

本発明は、情報に別の情報を付与する情報付与装置、特にテレビやＶＯＤ（ビデオオンデマンド）等の番組に、内容に関するメタデータを付与する技術に関する。

テレビやＶＯＤ等の番組コンテンツに関するメタデータの付与は古くから行われている。音声・字幕・クローズドキャプション等の情報を活用し、文字認識・画像認識・音声認識等の技術を用いて、映像中に出現する人や物や事象を特定し、時系列に沿って、その認識内容を記述し、検索のための索引作成や映像コンテンツの分類が行われてきた。（非特許文献１参照）。

その後、ソーシャルメディア上での番組視聴者が番組コンテンツに対して入力する発言情報を基に、番組コンテンツに対するメタデータを付与する試みも行われてきている。

例えば、非特許文献２によれば、番組視聴者が興味を持っている場面では、チャットでの発言回数や発言文字列の数が増大するという二つのパラメータを用いて盛り上がりを抽出し、その盛り上がりの中に含まれている発言からキーワードを抽出し、番組コンテンツのメタデータとする手法を提案している。

また、非特許文献３によれば、書き込みテキストのエントリ数や、書き込みテキスト中のアスキーアートの出現頻度から、盛り上がり・落胆の感動度数を求めてシーンのインデキシングを行う方法が記載されている。

また特許文献１によれば、番組コンテンツに対するユーザの発言回数だけでなく、発言の引用数等に基づいた、ユーザの重要度を定義し利用することで、より適切なメタデータの付与を行っている。

上記のメタデータ付与の既存技術においては、番組コンテンツに関するチャット情報を利用しているが、例えば他にも、検索ポータルサイトの検索ログを利用する方法が考えられる。検索ログの中には「人、モノ、出来事」に関する話題語が多数含まれており、ユーザはそのような単語を、見たり、聞いたりした際に、検索エンジンで検索を行う傾向がある。例えば、この傾向を利用することで、特許文献２に示すように、ユーザの興味に応じた流行の検索クエリを推薦し、ユーザの情報検索を支援する手法が提案されている。このように、話題語を分析するために、検索ログを利用することは大変有効であると考えられる。

尚、本発明に関連する技術は、例えば特許文献３、非特許文献４、５、６に開示されている。

特開２０１２−１７３７７４号公報特開２０１２−５９１８２号公報特開２００４−４６７７５号公報

西尾、外５名、「岩波講座マルチメディア情報学８情報の構造化と検索」、岩波書店、２０００年、３．１マルチメディア環境とメディア解析大黒、外４名、「インターネットチャットを利用した番組メタデータの自動生成システムの実装と評価」、２００５−ＡＶＭ−１８、情報処理学会研究報告、２００５年宮森、外２名、「番組実況チャットに基づく視聴者視点を利用した放送番組のビュー生成」、ＤＥＷＳ２００５４Ｂ−ｉ９、２００５年Ｒ．Ｂ．Ｃｌｅｖｅｌａｎｄ，Ｗ．Ｓ．Ｃｌｅｖｅｌａｎｄ，Ｊ．Ｅ．Ｍｃｒａｅ，ａｎｄＩ．Ｔｅｒｐｅｎｎｉｎｇ，"ＳＴＬ：Ａｓｅａｓｏｎａｌ−ｔｒｅｎｄｄｅｃｏｍｐｏｓｉｔｉｏｎｐｒｏｃｅｄｕｒｅｂａｓｅｄｏｎｌｏｅｓｓ"，ＪｏｕｒｎａｌｏｆＯｆｆｉｃｉａｌＳｔａｔｉｓｔｉｃｓ，Ｖｏｌ．６．Ｎｏ．１．１９９０．ｐｐ．３−７３．Ｈ．Ｌｉｕ，Ｊ．Ｈｅ，Ｙ．Ｇｕ，Ｈ．Ｘｉｏｎｇ，ａｎｄＸ．Ｄｕ，"ＤｅｔｅｃｔｉｎｇａｎｄＴｒａｃｋｉｎｇＴｏｐｉｃｓａｎｄＥｖｅｎｔｓｆｒｏｍＷｅｂＳｅａｒｃｈＬｏｇｓ"，ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ（ＴＯＩＳ），Ｖｏｌ．３０，Ｎｏ．４，Ｎｏｖｅｍｂｅｒ２０１２，ｐｐ．１−２９．Ｇ．ＳａｌｔｏｎａｎｄＭ．ＭｃＧｉｌｌ，"ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＭｏｄｅｒｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ"，ＭｃＧｒａｗ−Ｈｉｌｌ，１９８３．

しかしながら、番組コンテンツにメタデータ付与する既存技術が利用しているチャット情報は、もとより番組コンテンツのみを対象に行われたチャットから得られたものである一方で、検索ログは番組コンテンツだけでなく、様々な要因を基に検索された単語を含んでいる。

一般に、検索エンジンにおいて検索された単語の検索数は、周期的な変動を含むものが多い。例えば、レジャー施設に関する単語は、仕事の多い平日よりも休日である週末に多く検索される傾向が強い。そのため、番組コンテンツにおいてレジャー施設が紹介され、関連する単語の検索数が上昇しても、周期的な変動がより大きければ、番組コンテンツに起因する検索数の変動を正しく検出できず、適切な話題語を抽出するのが困難になる。検索ログを利用して、番組コンテンツにメタデータを付与するには、番組コンテンツ以外に起因する検索数の変動をできるだけ取り除くことが重要となる。

また、チャット情報や検索ログを利用した既存技術は、チャットの発言数や検索数の増加のみを考慮している。しかし、内容に話題性があるほど、発言数や検索数がより急激に増加するだけでなく、より緩やかに減少していくと考えられる。なぜならば、話題性のある内容は、口コミ等によって、話題が時間と共に拡散し、検索数の持続が予想されるからである。

本発明は上記課題を解決するものであり、その目的は、番組放送に関連する単語をより高精度に抽出して適切なメタデータを付与することができる情報付与装置、方法、プログラムを提供することにある。

上記課題を解決する本発明の情報付与装置は、番組に関連する情報を付与する情報付与装置であって、番組データから、番組内容に関するテキストデータおよび番組の放送時間を表す日時データを含むメタデータを抽出するメタデータ抽出手段と、前記メタデータ抽出手段により抽出されたテキストデータを形態素解析し、その解析結果から単語データを抽出する単語抽出手段と、前記単語抽出手段により抽出された単語データの各単語が、検索ログやツイッターから得た時系列テキストデータ中に発生した単語発生時間を計算する単語発生時間計算手段と、前記単語抽出手段により抽出された単語データの単語について、前記単語発生時間計算手段により計算された単語発生時間の情報を量子化することで、単語発生頻度に関する時系列データｈ_wi（ｔ）を作成し、前記作成された時系列データｈ_wi（ｔ）から傾向変動成分および周期変動成分を分離して、番組に起因する変動が含まれる不規則変動成分を抽出した時系列データｈ´_wi（ｔ）を作成し、前記作成された時系列データｈ´_wi（ｔ）および前記メタデータ抽出手段により抽出された日時データを用いて、時系列データに基づく単語特徴度を計算し、文書群が格納された文書データベースを参照して文書群に基づく単語特徴度を計算し、前記時系列データに基づく単語特徴度および文書群に基づく単語特徴度を用いて最終的な単語特徴度を計算する単語特徴度計算手段と、前記単語特徴度計算手段により計算された最終的な単語特徴度を用いて、前記単語抽出手段により抽出された単語データから特徴語を、番組に関連する情報として抽出する特徴語抽出手段と、を備えたことを特徴としている。

また、前記単語特徴度計算手段は、時系列データに基づく単語特徴度を計算する際に、前記時系列データｈ´_wi（ｔ）および前記日時データを用いて、時系列データの分布から算出した尖度および歪度を含む、時系列データの変動に基づく単語特徴度を計算し、前記計算された時系列データの変動に基づく単語特徴度と単語発生数そのものを考慮した単語特徴度とから前記時系列データに基づく単語特徴度を計算することを特徴としている。

（１）請求項１〜５に記載の発明によれば、検索ログやツイッターから得た時系列テキストデータにおける番組放送以外の変動の原因である、傾向変動成分および周期変動成分を分離し、除去して、番組に起因する変動成分である不規則変動成分を抽出し、それに基づいて計算した単語特徴度を利用しているので、番組放送に関連する単語をより高精度に抽出して適切なメタデータを付与することができる。
（２）請求項２、４、５に記載の発明によれば、前記不規則変動成分として抽出した単語発生頻度に関する時系列データの分布から算出した尖度および歪度に基づいて、単語特徴度を計算しているので、話題性を考慮した適切なメタデータを付与することができる。

本発明の情報付与装置の一実施形態例を示すブロック図。本発明の情報付与方法の一実施形態例を示すフローチャート。本発明の一実施形態例のメタデータ抽出部で抽出されたデータ例を示す説明図。本発明の一実施形態例の単語発生時間計算部の計算結果例を示す説明図。本発明の一実施形態例の単語特徴度計算部が実行する処理のフローチャート。本発明の一実施形態例の単語特徴度計算部が、時系列データから３つの成分を分解する処理の様子を示す説明図。本発明の一実施形態例の単語特徴度計算部が、生の時系列データから不規則変動成分を抽出した様子を示す説明図。抽出される単語群の例を表し、（ａ）は従来技術によって生の時系列データを用いて抽出した単語群の説明図、（ｂ）は本実施形態例によって不規則変動成分を用いて抽出した単語群の説明図。本発明の一実施形態例において、単語発生数が急上昇した後の減少が緩やかであるほどその話題は重要であるとし、その単語特徴度に大きな値を割り当てる様子を示した説明図。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。本発明では、検索ログ等の時系列テキストデータを利用して、番組コンテンツに話題性を考慮した適切なメタデータを付与するものであり、検索ログ等から得た時系列テキストデータを解析し、番組コンテンツ以外の変動の原因を削減することで、より適切な番組コンテンツによる変動度合いを計算する。さらに、検索数の増加だけでなく、減少度合いを考慮することで、より話題性のある語句を抽出する。本発明は、検索ログだけでなく、Ｔｗｉｔｔｅｒ（登録商標）等のタイムスタンプを参照できる情報源や時系列テキストデータにも応用が可能である。

図１は本発明の一実施形態例による情報付与装置の構成を示すブロック図であり、図２は図１の装置が行う処理全体の流れを示すフローチャートである。

図１において、本実施形態例の情報付与装置は、メタデータ抽出手段としてのメタデータ抽出部１０、単語抽出手段としての形態素解析部２０および単語抽出部３０、単語発生時間計算手段としての単語発生時間計算部４０、単語特徴度計算手段としての単語特徴度計算部５０、特徴語抽出手段としての特徴語抽出部６０、時系列テキストＤＢ（データベース）７０および文書ＤＢ（データベース）８０を備えている。

図１の情報付与装置は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばＲＯＭ、ＲＡＭ、ＣＰＵ、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。

このハードウェアリソースとソフトウェアリソース（ＯＳ、アプリケーションなど）との協働の結果、情報付与装置は、図１に示すように、メタデータ抽出部１０、形態素解析部２０、単語抽出部３０、単語発生時間計算部４０、単語特徴度計算部５０、特徴語抽出部６０、時系列テキストＤＢ７０および文書ＤＢ８０を実装する。

前記時系列テキストＤＢ７０および文書ＤＢ８０は、ハードディスクあるいはＲＡＭなどの保存手段・記憶手段に構築されているものとする。

次に、上記のように構成された装置の動作を具体的に説明する。まず、メタデータ抽出部１０は、例えばＷｅｂなどから番組データを取得し、メタデータを抽出する（ステップＳ２１０）。ここで抽出するメタデータは、番組内容に関するテキストデータや、番組の放送時間を表す日時データ等を表す。例えば、図３に示すように、テキストデータとして動物園の紹介に関する文章等があり、日時データとして各々の文章に対応する日時情報がある。テキストデータには、クローズドキャプションや電子番組表（ＥＰＧ）、テロップ文字認識結果、音声認識技術結果等を用いる。

次に、形態素解析部２０が、メタデータ抽出部１０により抽出されたメタデータにおけるテキストデータを、形態素解析することで、文法上意味を成す最小の単語に分解し、その結果を単語抽出部３０に受け渡す（ステップＳ２２０）。単語抽出部３０は、前記形態素解析結果から単語データを抽出する（ステップＳ２３０）。抽出方法は、例えば、形態素解析結果に基づいて名詞等の任意の品詞を抽出したり、特許文献３等で提案されている固有表現抽出手法を用いたりする。

続いて、単語発生時間計算部４０が、前記抽出した単語データに関する単語発生時間を、時系列テキストＤＢ７０を参照し、計算する（ステップＳ２４０）。時系列テキストＤＢ７０には、検索ログやＴｗｉｔｔｅｒのＴｗｅｅｔ（登録商標）データ等を格納しておく。単語発生時間は、例えば図４に示すように、単語データにおける各々の単語が、検索ログやＴｗｅｅｔに発生した日時として計算される。単語発生時間は、一度記憶装置に格納しておき、時系列テキストＤＢ７０が更新された際に追記することも可能である。

前記計算された単語発生時間は、単語特徴度計算部５０に受け渡される。その後、単語特徴度計算部５０が、前記単語データ、日時データ、単語発生時間および文書ＤＢ８０を用いて、単語の特徴度を計算し、その結果を特徴語抽出部６０へ受け渡す（ステップＳ２５０）。特徴語抽出部６０は、単語特徴度計算部５０によって計算された単語特徴度に応じて、特徴語の抽出を行う（ステップＳ２６０）。

単語特徴度計算部５０が実行する処理（ステップＳ２５０）について、図５のフローチャートを用いて詳細を説明する。

単語特徴度計算部５０が取り扱う各パラメータの定義は次のとおりである。

単語発生数（単語発生頻度）に関する時系列データをｈ_wi（ｔ）とする。

不規則変動成分として抽出された単語発生数（単語発生頻度）に関する時系列データをｈ´_wi（ｔ）とする。

単語特徴度の定義は以下のとおりである。

以下の説明文において、前記各単語特徴度を表現する場合、前記式（１）〜式（５）を用いて表記することとする。

まず、単語データＷにおけるインデクスｉの単語ｗｉ∈Ｗについて、単語発生時間計算部４０から取得した単語発生時間の情報を量子化することで、単語発生数に関する時系列データを計算する（ステップＳ５１０，Ｓ５２０）。量子化は、時刻ｔの前後で単語ｗｉが発生した回数として計算し、計算後の単語発生数に関する時系列データをｈ_wi（ｔ）と表す。

次に、時系列データｈ_wi（ｔ）を図６に示すように傾向変動成分、周期変動成分、不規則変動成分の三つに分解し、図６（ｄ）の不規則変動成分を抽出した時系列データｈ´_wi（ｔ）を作成する（ステップＳ５３０）。

不規則変動成分には番組放送に起因する変動が含まれるため、不規則変動から数値の急上昇を検出することで、番組放送に関連する単語をより高精度に抽出できる。その理由を次に説明する。一般に多くの時系列データは、長期的な変動を示す傾向変動、週・月・四半期等の間隔の周期的な変動を示す周期変動、偶発的な事象によって引き起こされる不規則変動の要因を持つ。今回扱う検索数等の時系列データも、これらの要因を持つものが多い。例えば、レジャー施設に関する単語は、仕事の多い平日よりも休日である週末に多く検索される傾向が強い。つまり、この傾向による検索数の変動は、週間隔で一定の周期性を持つため、周期変動に分類される。

一方、番組放送においてレジャー施設が紹介された場合、前述の周期変動に加えて、突発的な検索数の変動を生じることが予測される。したがって、周期的に放送される番組のタイトル等は例外であるが、基本的に番組放送によって提供される新しい内容が原因となる検索数の変動は、不規則変動に含まれる。そこで、本発明では、時系列データｈ_wi（ｔ）から、不規則変動成分を抽出し、不規則変動成分を単語特徴度の計算に用いる。

具体的に、不規則変動成分を用いることによって得られる効果を、図７および図８の例を用いて説明する。図７には、ある時系列テキストデータにおける単語「ペンギン」、「温泉」、「旭山動物園」の発生頻度に関する、生の時系列データ（図７（ａ））および、生の時系列データから抽出された不規則変動成分（図７（ｂ））が示されている。

ここで、それぞれ単語に関する生の時系列データは以下の性質を持つ。

・「ペンギン」は周期的な変動を含まず、番組放送による変動を含む。

・「温泉」は周期的な変動を含み、番組放送による変動を含まない。

・「旭山動物園」は周期的な変動および番組放送による変動を含む。

これら生の時系列データにおける数値の急上昇を基に特徴語を抽出すると、図８（ａ）のような結果が得られる。この結果を見ると、数値の急上昇を検出する際に周期変動の影響を受けてしまうことから、実際に番組放送の影響を受けていない「温泉」が上位に抽出されたり、番組放送の影響を最も受けている「ペンギン」が下位に抽出されたりしてしまっていることがわかる。一方で、生の時系列データから周期変動成分が取り除かれた不規則変動成分を用いることで、生のデータをそのまま用いた場合と比べ、図８（ｂ）のように番組放送の影響を受けた単語をより高精度に抽出できる。番組にメタデータを付与する従来の発明は、生の時系列データをそのまま用いている。一方で本発明において、生の時系列データから抽出した不規則変動成分には、番組放送による変動が含まれると仮定し、これを特徴語の抽出に用いるのは初めての試みである。

不規則変動成分の抽出方法として、例えば時系列データを各要素に分解するＳＴＬ（非特許文献４参照）を用いることができる。ＳＴＬを用いることで、時系列データｈ_wi（ｔ）は各成分の和として定義され、次の式（６）のように分解される。

ｈ_wi（ｔ）＝trend_wi(t)＋seasonal_wi(t)＋remainder_wi(t) （６）
ここで、trend_wi(t)は傾向変動、seasonal_wi(t)は周期変動、remainder_wi(t)は不規則変動を示す。本発明では不規則変動remainder_wi(t)を番組放送によって生じた変動として利用することとする。このとき、remainder_wi(t)は負の値を含むため、以降では次の式（７）のｈ´_wi（ｔ）を不規則変動成分として用いる。

それに加えて本発明では、急上昇後の減少度合いを考慮することで、長い時間話題になっている単語を抽出する。一般的に、時系列データにおいて、ある時間において顕著に数値が増加している状態はバーストと呼ばれ、バーストを検出する手法は多く提案されている。非特許文献５では、Ｗｅｂ上のページＵＲＬのクリック数について時系列データを作成し、時系列データから求めたエントロピーを用いることでバーストを検出し、重要なイベントを抽出している。しかしながら、エントロピーによる手法では、一過性の変動を伴う状態をバーストとして検出できるが、大きな変動の後に数値が持続するものを検出できない。例えば、番組で紹介された商品に関する検索数が、急上昇した後すぐに急降下した場合と、急上昇した後、緩やかに減少した場合とでは、前者が重要なイベントとして扱われてしまう。

本発明では、縦軸を単語発生数、横軸を時間とした図９に示すように、単語発生数が急上昇した後の減少が緩やかであるほど、その話題はより広く拡散しており重要な話題であると仮定し、単語特徴度（式（１））により大きな値を割り当てる。

本発明では、時系列データの変動に基づく単語特徴度（式（１））を計算するために、次の仮定（a）および（b）に基づいて、時系列データの分布における尖度や歪度を利用する。
（a）尖度が大きいほど、分布の尖り度合いや集まり度合いが大きくなるため、単語発生数に突発的に大きな変動が起きており、番組放送の影響を大きく受けている。
（b）歪度が大きいほど、分布は例えば図９（ｃ）のように時間軸の正の方向に裾を伸ばすため、対象の単語が長期間検索等され続けており、番組放送の影響を長く受けている。

具体的には、時系列データの変動に基づく単語特徴度（式（１））を、不規則変動成分として抽出された時系列データｈ´_wi（ｔ）および単語wiに関する放送日時diを用いて、次のように計算する。

前述の特徴度（式（１））は、単語発生数の時間的変動を基に決定されており、数そのものには依存していない。そのため、単語発生数が少なくても、時系列データの分布次第で単語特徴度が大きくなってしまう。非特許文献５では、前述したエントロピーによる手法に加え、ページＵＲＬのクリック数に応じてスコアを決定する、ＣｏｎｃｅｒｎＲａｔｅを導入することでこれを解決している。本発明も、同様に前記ＣｏｎｃｅｒｎＲａｔｅを導入する。

ここで、αは各特徴度の比重を決めるための任意の定数である。前記式（２）は単語の検索数等の度合いを表しており、単語データＷにおけるｗｉおよびｗｉ以外の検索数を基に値が決められる。前記式（２）は、ｗｉの発生が最も多ければ１に、最も少なければ０になる。

本発明においては、非特許文献５に開示されているＣｏｎｃｅｒｎＲａｔｅのように、時系列データの頻度に関するスコア（式（２））を用いている点は同様である。一方、本実施形態例はそれに加えて、時系列データの分布に関するスコアとして、尖度や歪度を利用した新しいスコア、すなわち時系列データの変動に基づく単語特徴度（式（１））で定義される単語特徴度を導入している。これによって、既存手法では難しい、バーストの持続を考慮した検出を実現している。

時系列データに基づく単語特徴度（式（１））は、番組放送が人々に与える影響を考慮することで、話題性の高い単語を検出することができる。

尚、前記式（８）〜式（１４）の計算は図５のステップＳ５４０において実行される。

さらに本発明では、他の番組と比較して番組特有の特徴語を抽出するために、文書集合に基づく単語特徴度（式（４））を計算し（ステップＳ５５０)、それを用いる。これは、時系列データにおいて顕著な変動や単語発生数として表れない単語と、他の重要でない一般的な単語を区別するために有効である。文書集合に基づく単語特徴度（式（４））には、例えば従来の手法であるｔｆ−ｉｄｆ（非特許文献６参照）や特許文献１の手法等を用いることができる。前記単語特徴度（式（４））を計算するため参照する文書ＤＢ８０に格納する文書コーパスは、例えば、これまでに放送された番組のメタデータを保存し、各番組のメタデータを一つの文書として使用する方法がある。

最後に、時系列データに基づく単語特徴度（式（３））および文書コーパスに基づく単語特徴度（式（４））を計算した後、次の式（１５）に示す最終的な単語特徴度ｆ_wiを計算する。

ここで、βは各特徴度の比重を決めるための任意の定数である。ｆ_wiは全ての単語ｗｉ∈Ｗについて計算される（ステップＳ５６０〜Ｓ５８０）。

以上の処理によって単語特徴度計算部５０において計算された最終的な単語特徴度ｆ_wiを用いて、特徴語抽出部６０が特徴語の抽出を行う（図２のステップＳ２６０)。特徴語抽出部６０は、例えば図８に示すように単語特徴度ｆ_wiの値が大きい順に単語をソートしたリストを作成し、出力する。

以上のように本実施形態例では、番組コンテンツへのメタデータ付与に、これまでの番組放送に関するチャットだけでなく、様々な変動要因を含む検索ログやツイッター等の時系列テキストデータを用い、検索ログやツイッターから計算した時系列データを分解し、不規則変動を番組放送が原因となる変動として利用し、時系列データの変動度合いの計算に、急上昇後の数値の減少度合いを考慮するように構成した。

これによって、番組コンテンツに話題性を考慮したメタデータを付与することができる。検索エンジンは、関心のある「人、モノ、出来事」に関する語を検索されることが多いため、検索ログは話題となる語を抽出するために大変有用である。しかしながら、検索ログから得た時系列データにおける変動は、番組放送によるものだけでなく、様々な事象に起因している。ツイッター等他の時系列テキストデータに関しても同様の性質を持つものが多い。本実施形態例によれば、検索ログから得た時系列データを分離し、番組放送以外の変動の原因を削減することで、より適切な変動度合いを計算することができる。また、単語発生数の増加だけでなく、減少度合いを考慮することで、より話題性のある語句を抽出することができる。

また、本実施形態の情報付与装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の情報付与方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＨＤＤ、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

１０…メタデータ抽出部
２０…形態素解析部
３０…単語抽出部
４０…単語発生時間計算部
５０…単語特徴度計算部
６０…特徴語抽出部
７０…時系列テキストＤＢ
８０…文書ＤＢ

Claims

番組に関連する情報を付与する情報付与装置であって、
番組データから、番組内容に関するテキストデータおよび番組の放送時間を表す日時データを含むメタデータを抽出するメタデータ抽出手段と、
前記メタデータ抽出手段により抽出されたテキストデータを形態素解析し、その解析結果から単語データを抽出する単語抽出手段と、
前記単語抽出手段により抽出された単語データの各単語が、検索ログやツイッターから得た時系列テキストデータ中に発生した単語発生時間を計算する単語発生時間計算手段と、
前記単語抽出手段により抽出された単語データの単語について、前記単語発生時間計算手段により計算された単語発生時間の情報を量子化することで、単語発生頻度に関する時系列データｈ_wi（ｔ）を作成し、前記作成された時系列データｈ_wi（ｔ）から傾向変動成分および周期変動成分を分離して、番組に起因する変動が含まれる不規則変動成分を抽出した時系列データｈ´_wi（ｔ）を作成し、前記作成された時系列データｈ´_wi（ｔ）および前記メタデータ抽出手段により抽出された日時データを用いて、時系列データに基づく単語特徴度を計算し、文書群が格納された文書データベースを参照して文書群に基づく単語特徴度を計算し、前記時系列データに基づく単語特徴度および文書群に基づく単語特徴度を用いて最終的な単語特徴度を計算する単語特徴度計算手段と、
前記単語特徴度計算手段により計算された最終的な単語特徴度を用いて、前記単語抽出手段により抽出された単語データから特徴語を、番組に関連する情報として抽出する特徴語抽出手段と、
を備えたことを特徴とする情報付与装置。
前記単語特徴度計算手段は、
時系列データに基づく単語特徴度を計算する際に、
前記時系列データｈ´_wi（ｔ）および前記日時データを用いて、時系列データの分布から算出した尖度および歪度を含む、時系列データの変動に基づく単語特徴度を計算し、
前記計算された時系列データの変動に基づく単語特徴度と単語発生数そのものを考慮した単語特徴度とから前記時系列データに基づく単語特徴度を計算する
ことを特徴とする請求項１に記載の情報付与装置。
番組に関連する情報を付与する情報付与方法であって、
メタデータ抽出手段が、番組データから、番組内容に関するテキストデータおよび番組の放送時間を表す日時データを含むメタデータを抽出するステップと、
単語抽出手段が、前記メタデータ抽出手段により抽出されたテキストデータを形態素解析し、その解析結果から単語データを抽出するステップと、
単語発生時間計算手段が、前記単語抽出手段により抽出された単語データの各単語が、検索ログやツイッターから得た時系列テキストデータ中に発生した単語発生時間を計算するステップと、
単語特徴度計算手段が、前記単語抽出手段により抽出された単語データの単語について、前記単語発生時間計算手段により計算された単語発生時間の情報を量子化することで、単語発生頻度に関する時系列データｈ_wi（ｔ）を作成するステップと、
単語特徴度計算手段が、前記作成された時系列データｈ_wi（ｔ）から傾向変動成分および周期変動成分を分離して、番組に起因する変動が含まれる不規則変動成分を抽出した時系列データｈ´_wi（ｔ）を作成するステップと、
単語特徴度計算手段が、前記作成された時系列データｈ´_wi（ｔ）および前記メタデータ抽出手段により抽出された日時データを用いて、時系列データに基づく単語特徴度を計算するステップと、
単語特徴度計算手段が、文書群を格納した文書データベースを参照して文書群に基づく単語特徴度を計算するステップと、
単語特徴度計算手段が、前記時系列データに基づく単語特徴度および文書群に基づく単語特徴度を用いて最終的な単語特徴度を計算するステップと、
特徴語抽出手段が、前記単語特徴度計算手段により計算された最終的な単語特徴度を用いて、前記単語抽出手段により抽出された単語データから特徴語を、番組に関連する情報として抽出するステップと、
を備えたことを特徴とする情報付与方法。
前記単語特徴度計算手段が時系列データに基づく単語特徴度を計算するステップは、
前記時系列データｈ´_wi（ｔ）および前記日時データを用いて、時系列データの分布から算出した尖度および歪度を含む、時系列データの変動に基づく単語特徴度を計算し、
前記計算された時系列データの変動に基づく単語特徴度と単語発生数そのものを考慮した単語特徴度とから前記時系列データに基づく単語特徴度を計算する
ことを特徴とする請求項３に記載の情報付与方法。
コンピュータを請求項１又は２に記載の各手段として機能させる情報付与プログラム。