JP5952241B2 - 情報付与装置、情報付与方法および情報付与プログラム - Google Patents

情報付与装置、情報付与方法および情報付与プログラム Download PDF

Info

Publication number
JP5952241B2
JP5952241B2 JP2013181731A JP2013181731A JP5952241B2 JP 5952241 B2 JP5952241 B2 JP 5952241B2 JP 2013181731 A JP2013181731 A JP 2013181731A JP 2013181731 A JP2013181731 A JP 2013181731A JP 5952241 B2 JP5952241 B2 JP 5952241B2
Authority
JP
Japan
Prior art keywords
word
time
data
series data
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013181731A
Other languages
English (en)
Other versions
JP2015049766A (ja
Inventor
結城 遠藤
結城 遠藤
佐藤 隆
隆 佐藤
鷲崎 誠司
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013181731A priority Critical patent/JP5952241B2/ja
Publication of JP2015049766A publication Critical patent/JP2015049766A/ja
Application granted granted Critical
Publication of JP5952241B2 publication Critical patent/JP5952241B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報に別の情報を付与する情報付与装置、特にテレビやVOD(ビデオオンデマンド)等の番組に、内容に関するメタデータを付与する技術に関する。
テレビやVOD等の番組コンテンツに関するメタデータの付与は古くから行われている。音声・字幕・クローズドキャプション等の情報を活用し、文字認識・画像認識・音声認識等の技術を用いて、映像中に出現する人や物や事象を特定し、時系列に沿って、その認識内容を記述し、検索のための索引作成や映像コンテンツの分類が行われてきた。(非特許文献1参照)。
その後、ソーシャルメディア上での番組視聴者が番組コンテンツに対して入力する発言情報を基に、番組コンテンツに対するメタデータを付与する試みも行われてきている。
例えば、非特許文献2によれば、番組視聴者が興味を持っている場面では、チャットでの発言回数や発言文字列の数が増大するという二つのパラメータを用いて盛り上がりを抽出し、その盛り上がりの中に含まれている発言からキーワードを抽出し、番組コンテンツのメタデータとする手法を提案している。
また、非特許文献3によれば、書き込みテキストのエントリ数や、書き込みテキスト中のアスキーアートの出現頻度から、盛り上がり・落胆の感動度数を求めてシーンのインデキシングを行う方法が記載されている。
また特許文献1によれば、番組コンテンツに対するユーザの発言回数だけでなく、発言の引用数等に基づいた、ユーザの重要度を定義し利用することで、より適切なメタデータの付与を行っている。
上記のメタデータ付与の既存技術においては、番組コンテンツに関するチャット情報を利用しているが、例えば他にも、検索ポータルサイトの検索ログを利用する方法が考えられる。検索ログの中には「人、モノ、出来事」に関する話題語が多数含まれており、ユーザはそのような単語を、見たり、聞いたりした際に、検索エンジンで検索を行う傾向がある。例えば、この傾向を利用することで、特許文献2に示すように、ユーザの興味に応じた流行の検索クエリを推薦し、ユーザの情報検索を支援する手法が提案されている。このように、話題語を分析するために、検索ログを利用することは大変有効であると考えられる。
尚、本発明に関連する技術は、例えば特許文献3、非特許文献4、5、6に開示されている。
特開2012−173774号公報 特開2012−59182号公報 特開2004−46775号公報
西尾、外5名、「岩波講座 マルチメディア情報学8 情報の構造化と検索」、岩波書店、2000年、3.1マルチメディア環境とメディア解析 大黒、外4名、「インターネットチャットを利用した番組メタデータの自動生成システムの実装と評価」、2005−AVM−18、情報処理学会 研究報告、2005年 宮森、外2名、「番組実況チャットに基づく視聴者視点を利用した放送番組のビュー生成」、DEWS2005 4B−i9、2005年 R.B.Cleveland,W.S.Cleveland,J.E.Mcrae,and I.Terpenning,"STL:A seasonal−trend decomposition procedure based on loess",Journal of Official Statistics,Vol.6.No.1.1990.pp.3−73. H.Liu,J.He,Y.Gu,H.Xiong,and X.Du,"Detecting and Tracking Topics and Events from Web Search Logs",ACM Transactions on Information Systems(TOIS),Vol.30,No.4,November 2012 ,pp.1−29. G.Salton and M.McGill,"Introduction to Modern Information Retrieval",McGraw−Hill,1983.
しかしながら、番組コンテンツにメタデータ付与する既存技術が利用しているチャット情報は、もとより番組コンテンツのみを対象に行われたチャットから得られたものである一方で、検索ログは番組コンテンツだけでなく、様々な要因を基に検索された単語を含んでいる。
一般に、検索エンジンにおいて検索された単語の検索数は、周期的な変動を含むものが多い。例えば、レジャー施設に関する単語は、仕事の多い平日よりも休日である週末に多く検索される傾向が強い。そのため、番組コンテンツにおいてレジャー施設が紹介され、関連する単語の検索数が上昇しても、周期的な変動がより大きければ、番組コンテンツに起因する検索数の変動を正しく検出できず、適切な話題語を抽出するのが困難になる。検索ログを利用して、番組コンテンツにメタデータを付与するには、番組コンテンツ以外に起因する検索数の変動をできるだけ取り除くことが重要となる。
また、チャット情報や検索ログを利用した既存技術は、チャットの発言数や検索数の増加のみを考慮している。しかし、内容に話題性があるほど、発言数や検索数がより急激に増加するだけでなく、より緩やかに減少していくと考えられる。なぜならば、話題性のある内容は、口コミ等によって、話題が時間と共に拡散し、検索数の持続が予想されるからである。
本発明は上記課題を解決するものであり、その目的は、番組放送に関連する単語をより高精度に抽出して適切なメタデータを付与することができる情報付与装置、方法、プログラムを提供することにある。
上記課題を解決する本発明の情報付与装置は、番組に関連する情報を付与する情報付与装置であって、番組データから、番組内容に関するテキストデータおよび番組の放送時間を表す日時データを含むメタデータを抽出するメタデータ抽出手段と、前記メタデータ抽出手段により抽出されたテキストデータを形態素解析し、その解析結果から単語データを抽出する単語抽出手段と、前記単語抽出手段により抽出された単語データの各単語が、検索ログやツイッターから得た時系列テキストデータ中に発生した単語発生時間を計算する単語発生時間計算手段と、前記単語抽出手段により抽出された単語データの単語について、前記単語発生時間計算手段により計算された単語発生時間の情報を量子化することで、単語発生頻度に関する時系列データhwi(t)を作成し、前記作成された時系列データhwi(t)から傾向変動成分および周期変動成分を分離して、番組に起因する変動が含まれる不規則変動成分を抽出した時系列データh´wi(t)を作成し、前記作成された時系列データh´wi(t)および前記メタデータ抽出手段により抽出された日時データを用いて、時系列データに基づく単語特徴度を計算し、文書群が格納された文書データベースを参照して文書群に基づく単語特徴度を計算し、前記時系列データに基づく単語特徴度および文書群に基づく単語特徴度を用いて最終的な単語特徴度を計算する単語特徴度計算手段と、前記単語特徴度計算手段により計算された最終的な単語特徴度を用いて、前記単語抽出手段により抽出された単語データから特徴語を、番組に関連する情報として抽出する特徴語抽出手段と、を備えたことを特徴としている。
また、前記単語特徴度計算手段は、時系列データに基づく単語特徴度を計算する際に、前記時系列データh´wi(t)および前記日時データを用いて、時系列データの分布から算出した尖度および歪度を含む、時系列データの変動に基づく単語特徴度を計算し、前記計算された時系列データの変動に基づく単語特徴度と単語発生数そのものを考慮した単語特徴度とから前記時系列データに基づく単語特徴度を計算することを特徴としている。
(1)請求項1〜5に記載の発明によれば、検索ログやツイッターから得た時系列テキストデータにおける番組放送以外の変動の原因である、傾向変動成分および周期変動成分を分離し、除去して、番組に起因する変動成分である不規則変動成分を抽出し、それに基づいて計算した単語特徴度を利用しているので、番組放送に関連する単語をより高精度に抽出して適切なメタデータを付与することができる。
(2)請求項2、4、5に記載の発明によれば、前記不規則変動成分として抽出した単語発生頻度に関する時系列データの分布から算出した尖度および歪度に基づいて、単語特徴度を計算しているので、話題性を考慮した適切なメタデータを付与することができる。
本発明の情報付与装置の一実施形態例を示すブロック図。 本発明の情報付与方法の一実施形態例を示すフローチャート。 本発明の一実施形態例のメタデータ抽出部で抽出されたデータ例を示す説明図。 本発明の一実施形態例の単語発生時間計算部の計算結果例を示す説明図。 本発明の一実施形態例の単語特徴度計算部が実行する処理のフローチャート。 本発明の一実施形態例の単語特徴度計算部が、時系列データから3つの成分を分解する処理の様子を示す説明図。 本発明の一実施形態例の単語特徴度計算部が、生の時系列データから不規則変動成分を抽出した様子を示す説明図。 抽出される単語群の例を表し、(a)は従来技術によって生の時系列データを用いて抽出した単語群の説明図、(b)は本実施形態例によって不規則変動成分を用いて抽出した単語群の説明図。 本発明の一実施形態例において、単語発生数が急上昇した後の減少が緩やかであるほどその話題は重要であるとし、その単語特徴度に大きな値を割り当てる様子を示した説明図。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。本発明では、検索ログ等の時系列テキストデータを利用して、番組コンテンツに話題性を考慮した適切なメタデータを付与するものであり、検索ログ等から得た時系列テキストデータを解析し、番組コンテンツ以外の変動の原因を削減することで、より適切な番組コンテンツによる変動度合いを計算する。さらに、検索数の増加だけでなく、減少度合いを考慮することで、より話題性のある語句を抽出する。本発明は、検索ログだけでなく、Twitter(登録商標)等のタイムスタンプを参照できる情報源や時系列テキストデータにも応用が可能である。
図1は本発明の一実施形態例による情報付与装置の構成を示すブロック図であり、図2は図1の装置が行う処理全体の流れを示すフローチャートである。
図1において、本実施形態例の情報付与装置は、メタデータ抽出手段としてのメタデータ抽出部10、単語抽出手段としての形態素解析部20および単語抽出部30、単語発生時間計算手段としての単語発生時間計算部40、単語特徴度計算手段としての単語特徴度計算部50、特徴語抽出手段としての特徴語抽出部60、時系列テキストDB(データベース)70および文書DB(データベース)80を備えている。
図1の情報付与装置は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、情報付与装置は、図1に示すように、メタデータ抽出部10、形態素解析部20、単語抽出部30、単語発生時間計算部40、単語特徴度計算部50、特徴語抽出部60、時系列テキストDB70および文書DB80を実装する。
前記時系列テキストDB70および文書DB80は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
次に、上記のように構成された装置の動作を具体的に説明する。まず、メタデータ抽出部10は、例えばWebなどから番組データを取得し、メタデータを抽出する(ステップS210)。ここで抽出するメタデータは、番組内容に関するテキストデータや、番組の放送時間を表す日時データ等を表す。例えば、図3に示すように、テキストデータとして動物園の紹介に関する文章等があり、日時データとして各々の文章に対応する日時情報がある。テキストデータには、クローズドキャプションや電子番組表(EPG)、テロップ文字認識結果、音声認識技術結果等を用いる。
次に、形態素解析部20が、メタデータ抽出部10により抽出されたメタデータにおけるテキストデータを、形態素解析することで、文法上意味を成す最小の単語に分解し、その結果を単語抽出部30に受け渡す(ステップS220)。単語抽出部30は、前記形態素解析結果から単語データを抽出する(ステップS230)。抽出方法は、例えば、形態素解析結果に基づいて名詞等の任意の品詞を抽出したり、特許文献3等で提案されている固有表現抽出手法を用いたりする。
続いて、単語発生時間計算部40が、前記抽出した単語データに関する単語発生時間を、時系列テキストDB70を参照し、計算する(ステップS240)。時系列テキストDB70には、検索ログやTwitterのTweet(登録商標)データ等を格納しておく。単語発生時間は、例えば図4に示すように、単語データにおける各々の単語が、検索ログやTweetに発生した日時として計算される。単語発生時間は、一度記憶装置に格納しておき、時系列テキストDB70が更新された際に追記することも可能である。
前記計算された単語発生時間は、単語特徴度計算部50に受け渡される。その後、単語特徴度計算部50が、前記単語データ、日時データ、単語発生時間および文書DB80を用いて、単語の特徴度を計算し、その結果を特徴語抽出部60へ受け渡す(ステップS250)。特徴語抽出部60は、単語特徴度計算部50によって計算された単語特徴度に応じて、特徴語の抽出を行う(ステップS260)。
単語特徴度計算部50が実行する処理(ステップS250)について、図5のフローチャートを用いて詳細を説明する。
単語特徴度計算部50が取り扱う各パラメータの定義は次のとおりである。
単語発生数(単語発生頻度)に関する時系列データをhwi(t)とする。
不規則変動成分として抽出された単語発生数(単語発生頻度)に関する時系列データをh´wi(t)とする。
単語特徴度の定義は以下のとおりである。
Figure 0005952241
Figure 0005952241
Figure 0005952241
Figure 0005952241
Figure 0005952241
以下の説明文において、前記各単語特徴度を表現する場合、前記式(1)〜式(5)を用いて表記することとする。
まず、単語データWにおけるインデクスiの単語wi∈Wについて、単語発生時間計算部40から取得した単語発生時間の情報を量子化することで、単語発生数に関する時系列データを計算する(ステップS510,S520)。量子化は、時刻tの前後で単語wiが発生した回数として計算し、計算後の単語発生数に関する時系列データをhwi(t)と表す。
次に、時系列データhwi(t)を図6に示すように傾向変動成分、周期変動成分、不規則変動成分の三つに分解し、図6(d)の不規則変動成分を抽出した時系列データh´wi(t)を作成する(ステップS530)。
不規則変動成分には番組放送に起因する変動が含まれるため、不規則変動から数値の急上昇を検出することで、番組放送に関連する単語をより高精度に抽出できる。その理由を次に説明する。一般に多くの時系列データは、長期的な変動を示す傾向変動、週・月・四半期等の間隔の周期的な変動を示す周期変動、偶発的な事象によって引き起こされる不規則変動の要因を持つ。今回扱う検索数等の時系列データも、これらの要因を持つものが多い。例えば、レジャー施設に関する単語は、仕事の多い平日よりも休日である週末に多く検索される傾向が強い。つまり、この傾向による検索数の変動は、週間隔で一定の周期性を持つため、周期変動に分類される。
一方、番組放送においてレジャー施設が紹介された場合、前述の周期変動に加えて、突発的な検索数の変動を生じることが予測される。したがって、周期的に放送される番組のタイトル等は例外であるが、基本的に番組放送によって提供される新しい内容が原因となる検索数の変動は、不規則変動に含まれる。そこで、本発明では、時系列データhwi(t)から、不規則変動成分を抽出し、不規則変動成分を単語特徴度の計算に用いる。
具体的に、不規則変動成分を用いることによって得られる効果を、図7および図8の例を用いて説明する。図7には、ある時系列テキストデータにおける単語「ペンギン」、「温泉」、「旭山動物園」の発生頻度に関する、生の時系列データ(図7(a))および、生の時系列データから抽出された不規則変動成分(図7(b))が示されている。
ここで、それぞれ単語に関する生の時系列データは以下の性質を持つ。
・「ペンギン」は周期的な変動を含まず、番組放送による変動を含む。
・「温泉」は周期的な変動を含み、番組放送による変動を含まない。
・「旭山動物園」は周期的な変動および番組放送による変動を含む。
これら生の時系列データにおける数値の急上昇を基に特徴語を抽出すると、図8(a)のような結果が得られる。この結果を見ると、数値の急上昇を検出する際に周期変動の影響を受けてしまうことから、実際に番組放送の影響を受けていない「温泉」が上位に抽出されたり、番組放送の影響を最も受けている「ペンギン」が下位に抽出されたりしてしまっていることがわかる。一方で、生の時系列データから周期変動成分が取り除かれた不規則変動成分を用いることで、生のデータをそのまま用いた場合と比べ、図8(b)のように番組放送の影響を受けた単語をより高精度に抽出できる。番組にメタデータを付与する従来の発明は、生の時系列データをそのまま用いている。一方で本発明において、生の時系列データから抽出した不規則変動成分には、番組放送による変動が含まれると仮定し、これを特徴語の抽出に用いるのは初めての試みである。
不規則変動成分の抽出方法として、例えば時系列データを各要素に分解するSTL(非特許文献4参照)を用いることができる。STLを用いることで、時系列データhwi(t)は各成分の和として定義され、次の式(6)のように分解される。
wi(t)=trendwi(t)+seasonalwi(t)+remainderwi(t) (6)
ここで、trendwi(t)は傾向変動、seasonalwi(t)は周期変動、remainderwi(t)は不規則変動を示す。本発明では不規則変動remainderwi(t)を番組放送によって生じた変動として利用することとする。このとき、remainderwi(t)は負の値を含むため、以降では次の式(7)のh´wi(t)を不規則変動成分として用いる。
Figure 0005952241
それに加えて本発明では、急上昇後の減少度合いを考慮することで、長い時間話題になっている単語を抽出する。一般的に、時系列データにおいて、ある時間において顕著に数値が増加している状態はバーストと呼ばれ、バーストを検出する手法は多く提案されている。非特許文献5では、Web上のページURLのクリック数について時系列データを作成し、時系列データから求めたエントロピーを用いることでバーストを検出し、重要なイベントを抽出している。しかしながら、エントロピーによる手法では、一過性の変動を伴う状態をバーストとして検出できるが、大きな変動の後に数値が持続するものを検出できない。例えば、番組で紹介された商品に関する検索数が、急上昇した後すぐに急降下した場合と、急上昇した後、緩やかに減少した場合とでは、前者が重要なイベントとして扱われてしまう。
本発明では、縦軸を単語発生数、横軸を時間とした図9に示すように、単語発生数が急上昇した後の減少が緩やかであるほど、その話題はより広く拡散しており重要な話題であると仮定し、単語特徴度(式(1))により大きな値を割り当てる。
本発明では、時系列データの変動に基づく単語特徴度(式(1))を計算するために、次の仮定(a)および(b)に基づいて、時系列データの分布における尖度や歪度を利用する。
(a)尖度が大きいほど、分布の尖り度合いや集まり度合いが大きくなるため、単語発生数に突発的に大きな変動が起きており、番組放送の影響を大きく受けている。
(b)歪度が大きいほど、分布は例えば図9(c)のように時間軸の正の方向に裾を伸ばすため、対象の単語が長期間検索等され続けており、番組放送の影響を長く受けている。
具体的には、時系列データの変動に基づく単語特徴度(式(1))を、不規則変動成分として抽出された時系列データh´wi(t)および単語wiに関する放送日時diを用いて、次のように計算する。
Figure 0005952241
前述の特徴度(式(1))は、単語発生数の時間的変動を基に決定されており、数そのものには依存していない。そのため、単語発生数が少なくても、時系列データの分布次第で単語特徴度が大きくなってしまう。非特許文献5では、前述したエントロピーによる手法に加え、ページURLのクリック数に応じてスコアを決定する、Concern Rateを導入することでこれを解決している。本発明も、同様に前記Concern Rateを導入する。
Figure 0005952241
ここで、αは各特徴度の比重を決めるための任意の定数である。前記式(2)は単語の検索数等の度合いを表しており、単語データWにおけるwiおよびwi以外の検索数を基に値が決められる。前記式(2)は、wiの発生が最も多ければ1に、最も少なければ0になる。
本発明においては、非特許文献5に開示されているConcern Rateのように、時系列データの頻度に関するスコア(式(2))を用いている点は同様である。一方、本実施形態例はそれに加えて、時系列データの分布に関するスコアとして、尖度や歪度を利用した新しいスコア、すなわち時系列データの変動に基づく単語特徴度(式(1))で定義される単語特徴度を導入している。これによって、既存手法では難しい、バーストの持続を考慮した検出を実現している。
時系列データに基づく単語特徴度(式(1))は、番組放送が人々に与える影響を考慮することで、話題性の高い単語を検出することができる。
尚、前記式(8)〜式(14)の計算は図5のステップS540において実行される。
さらに本発明では、他の番組と比較して番組特有の特徴語を抽出するために、文書集合に基づく単語特徴度(式(4))を計算し(ステップS550)、それを用いる。これは、時系列データにおいて顕著な変動や単語発生数として表れない単語と、他の重要でない一般的な単語を区別するために有効である。文書集合に基づく単語特徴度(式(4))には、例えば従来の手法であるtf−idf(非特許文献6参照)や特許文献1の手法等を用いることができる。前記単語特徴度(式(4))を計算するため参照する文書DB80に格納する文書コーパスは、例えば、これまでに放送された番組のメタデータを保存し、各番組のメタデータを一つの文書として使用する方法がある。
最後に、時系列データに基づく単語特徴度(式(3))および文書コーパスに基づく単語特徴度(式(4))を計算した後、次の式(15)に示す最終的な単語特徴度fwiを計算する。
Figure 0005952241
ここで、βは各特徴度の比重を決めるための任意の定数である。fwiは全ての単語wi∈Wについて計算される(ステップS560〜S580)。
以上の処理によって単語特徴度計算部50において計算された最終的な単語特徴度fwiを用いて、特徴語抽出部60が特徴語の抽出を行う(図2のステップS260)。特徴語抽出部60は、例えば図8に示すように単語特徴度fwiの値が大きい順に単語をソートしたリストを作成し、出力する。
以上のように本実施形態例では、番組コンテンツへのメタデータ付与に、これまでの番組放送に関するチャットだけでなく、様々な変動要因を含む検索ログやツイッター等の時系列テキストデータを用い、検索ログやツイッターから計算した時系列データを分解し、不規則変動を番組放送が原因となる変動として利用し、時系列データの変動度合いの計算に、急上昇後の数値の減少度合いを考慮するように構成した。
これによって、番組コンテンツに話題性を考慮したメタデータを付与することができる。検索エンジンは、関心のある「人、モノ、出来事」に関する語を検索されることが多いため、検索ログは話題となる語を抽出するために大変有用である。しかしながら、検索ログから得た時系列データにおける変動は、番組放送によるものだけでなく、様々な事象に起因している。ツイッター等他の時系列テキストデータに関しても同様の性質を持つものが多い。本実施形態例によれば、検索ログから得た時系列データを分離し、番組放送以外の変動の原因を削減することで、より適切な変動度合いを計算することができる。また、単語発生数の増加だけでなく、減少度合いを考慮することで、より話題性のある語句を抽出することができる。
また、本実施形態の情報付与装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の情報付与方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
10…メタデータ抽出部
20…形態素解析部
30…単語抽出部
40…単語発生時間計算部
50…単語特徴度計算部
60…特徴語抽出部
70…時系列テキストDB
80…文書DB

Claims (5)

  1. 番組に関連する情報を付与する情報付与装置であって、
    番組データから、番組内容に関するテキストデータおよび番組の放送時間を表す日時データを含むメタデータを抽出するメタデータ抽出手段と、
    前記メタデータ抽出手段により抽出されたテキストデータを形態素解析し、その解析結果から単語データを抽出する単語抽出手段と、
    前記単語抽出手段により抽出された単語データの各単語が、検索ログやツイッターから得た時系列テキストデータ中に発生した単語発生時間を計算する単語発生時間計算手段と、
    前記単語抽出手段により抽出された単語データの単語について、前記単語発生時間計算手段により計算された単語発生時間の情報を量子化することで、単語発生頻度に関する時系列データhwi(t)を作成し、前記作成された時系列データhwi(t)から傾向変動成分および周期変動成分を分離して、番組に起因する変動が含まれる不規則変動成分を抽出した時系列データh´wi(t)を作成し、前記作成された時系列データh´wi(t)および前記メタデータ抽出手段により抽出された日時データを用いて、時系列データに基づく単語特徴度を計算し、文書群が格納された文書データベースを参照して文書群に基づく単語特徴度を計算し、前記時系列データに基づく単語特徴度および文書群に基づく単語特徴度を用いて最終的な単語特徴度を計算する単語特徴度計算手段と、
    前記単語特徴度計算手段により計算された最終的な単語特徴度を用いて、前記単語抽出手段により抽出された単語データから特徴語を、番組に関連する情報として抽出する特徴語抽出手段と、
    を備えたことを特徴とする情報付与装置。
  2. 前記単語特徴度計算手段は、
    時系列データに基づく単語特徴度を計算する際に、
    前記時系列データh´wi(t)および前記日時データを用いて、時系列データの分布から算出した尖度および歪度を含む、時系列データの変動に基づく単語特徴度を計算し、
    前記計算された時系列データの変動に基づく単語特徴度と単語発生数そのものを考慮した単語特徴度とから前記時系列データに基づく単語特徴度を計算する
    ことを特徴とする請求項1に記載の情報付与装置。
  3. 番組に関連する情報を付与する情報付与方法であって、
    メタデータ抽出手段が、番組データから、番組内容に関するテキストデータおよび番組の放送時間を表す日時データを含むメタデータを抽出するステップと、
    単語抽出手段が、前記メタデータ抽出手段により抽出されたテキストデータを形態素解析し、その解析結果から単語データを抽出するステップと、
    単語発生時間計算手段が、前記単語抽出手段により抽出された単語データの各単語が、検索ログやツイッターから得た時系列テキストデータ中に発生した単語発生時間を計算するステップと、
    単語特徴度計算手段が、前記単語抽出手段により抽出された単語データの単語について、前記単語発生時間計算手段により計算された単語発生時間の情報を量子化することで、単語発生頻度に関する時系列データhwi(t)を作成するステップと、
    単語特徴度計算手段が、前記作成された時系列データhwi(t)から傾向変動成分および周期変動成分を分離して、番組に起因する変動が含まれる不規則変動成分を抽出した時系列データh´wi(t)を作成するステップと、
    単語特徴度計算手段が、前記作成された時系列データh´wi(t)および前記メタデータ抽出手段により抽出された日時データを用いて、時系列データに基づく単語特徴度を計算するステップと、
    単語特徴度計算手段が、文書群を格納した文書データベースを参照して文書群に基づく単語特徴度を計算するステップと、
    単語特徴度計算手段が、前記時系列データに基づく単語特徴度および文書群に基づく単語特徴度を用いて最終的な単語特徴度を計算するステップと、
    特徴語抽出手段が、前記単語特徴度計算手段により計算された最終的な単語特徴度を用いて、前記単語抽出手段により抽出された単語データから特徴語を、番組に関連する情報として抽出するステップと、
    を備えたことを特徴とする情報付与方法。
  4. 前記単語特徴度計算手段が時系列データに基づく単語特徴度を計算するステップは、
    前記時系列データh´wi(t)および前記日時データを用いて、時系列データの分布から算出した尖度および歪度を含む、時系列データの変動に基づく単語特徴度を計算し、
    前記計算された時系列データの変動に基づく単語特徴度と単語発生数そのものを考慮した単語特徴度とから前記時系列データに基づく単語特徴度を計算する
    ことを特徴とする請求項3に記載の情報付与方法。
  5. コンピュータを請求項1又は2に記載の各手段として機能させる情報付与プログラム。
JP2013181731A 2013-09-03 2013-09-03 情報付与装置、情報付与方法および情報付与プログラム Active JP5952241B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013181731A JP5952241B2 (ja) 2013-09-03 2013-09-03 情報付与装置、情報付与方法および情報付与プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013181731A JP5952241B2 (ja) 2013-09-03 2013-09-03 情報付与装置、情報付与方法および情報付与プログラム

Publications (2)

Publication Number Publication Date
JP2015049766A JP2015049766A (ja) 2015-03-16
JP5952241B2 true JP5952241B2 (ja) 2016-07-13

Family

ID=52699711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013181731A Active JP5952241B2 (ja) 2013-09-03 2013-09-03 情報付与装置、情報付与方法および情報付与プログラム

Country Status (1)

Country Link
JP (1) JP5952241B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4800846B2 (ja) * 2006-06-01 2011-10-26 日本電信電話株式会社 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5392228B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド 番組検索装置および番組検索方法
JP2012099021A (ja) * 2010-11-04 2012-05-24 Nippon Telegr & Teleph Corp <Ntt> 話題出力装置及び方法及びプログラム

Also Published As

Publication number Publication date
JP2015049766A (ja) 2015-03-16

Similar Documents

Publication Publication Date Title
US20220044139A1 (en) Search system and corresponding method
US20200192935A1 (en) Segmentation Of Video According To Narrative Theme
Martinez et al. Violence rating prediction from movie scripts
JP6429382B2 (ja) コンテンツ推薦装置、及びプログラム
CN103020140A (zh) 一种对互联网用户评论内容自动过滤的方法和装置
CN108108353B (zh) 一种基于弹幕的视频语义标注方法、装置及电子设备
US20200257724A1 (en) Methods, devices, and storage media for content retrieval
Elsawy et al. Tweetmogaz v2: Identifying news stories in social media
JP5952241B2 (ja) 情報付与装置、情報付与方法および情報付与プログラム
Langlois et al. VIRUS: video information retrieval using subtitles
KR102275095B1 (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
US20160112772A1 (en) Synchronization between multimedia flows and social network threads
JP5102883B2 (ja) ユーザ発言抽出装置とその方法と、プログラム
AT&T \376\377\000w\000w\000w\0002\0000\0001\0001\000d\000e\000m\000o\000_\000s\000o\000c\000i\000a\000l\000t\000v\000_\000f\000i\000n\000a\000l
Galuščáková et al. Experiments with segmentation strategies for passage retrieval in audio-visual documents
JP5400819B2 (ja) シーン重要点抽出装置、シーン重要点抽出方法及びシーン重要点抽出プログラム
JP6621437B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
JP6625087B2 (ja) 違法コンテンツ探索装置及び違法コンテンツ探索方法
JP6530002B2 (ja) コンテンツ探索装置、コンテンツ探索方法、プログラム
KR20220085219A (ko) 유튜브의 영상의 메타데이터를 이용한 광고 필터링 방법
Ariyasu et al. Message analysis algorithms and their application to social tv
JP2018180913A (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
Khwileh et al. Investigating segment-based query expansion for user-generated spoken content retrieval
Mochizuki et al. Re-mining Topics Popular in the Recent Past from a Large-Scale Closed Caption TV Corpus
Galuščáková et al. Visual descriptors in methods for video hyperlinking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160609

R150 Certificate of patent or registration of utility model

Ref document number: 5952241

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150