JP4891802B2 - コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム - Google Patents

コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム Download PDF

Info

Publication number
JP4891802B2
JP4891802B2 JP2007039945A JP2007039945A JP4891802B2 JP 4891802 B2 JP4891802 B2 JP 4891802B2 JP 2007039945 A JP2007039945 A JP 2007039945A JP 2007039945 A JP2007039945 A JP 2007039945A JP 4891802 B2 JP4891802 B2 JP 4891802B2
Authority
JP
Japan
Prior art keywords
emotion
content
probability
search
signal data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007039945A
Other languages
English (en)
Other versions
JP2008204193A (ja
Inventor
豪 入江
浩太 日高
隆 佐藤
行信 谷口
信弥 中嶌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007039945A priority Critical patent/JP4891802B2/ja
Publication of JP2008204193A publication Critical patent/JP2008204193A/ja
Application granted granted Critical
Publication of JP4891802B2 publication Critical patent/JP4891802B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、コンテンツ又はその部分コンテンツの感情、及びその感情の強さを表す感情度を推定し、これに基づいてコンテンツの検索・推薦を行うコンテンツ検索・推薦方法、コンテンツ検索・推薦装置、およびコンテンツ検索・推薦プログラムに関する。この発明において、コンテンツとは、映像・音声コンテンツを指すものとし、本発明における音声とは、人間による発話音声のみではなく、歌唱音声、音楽、環境音なども含むものとする。また、感情とは、感情や情動、気分などの心理的状態の他、雰囲気、印象なども含むものとする。
現在、放送に限らず、Webサイトや個人PCにおいても、コンテンツを視聴することが増えてきている。コンテンツの種類も、例えば、映画やドラマ、ホームビデオ、ニュース、ドキュメンタリ、音楽など、非常に多様化している。
これに伴いユーザにとっては、多様なコンテンツの中から嗜好に合ったコンテンツを効率的に発見することが困難になるという問題が生じる。特に、コンテンツは、自分の嗜好に合ったものであるかどうかを確認するために、実際に視聴して内容を把握する必要があるが、これを実行するためには費やす時間コストが非常に大きくなってしまうため、コンテンツ検索技術、更には、嗜好に沿ったコンテンツを自動的に推薦するコンテンツ推薦技術が不可欠となる。更に、同様の理由から、検索実行時に参照するメタデータ等の、コンテンツに係る情報も、人手によらず、自動的に付与されることが望ましい。
コンテンツ検索に関連する従来技術として、下記特許文献1に記載の方法がある。この特許文献1では、被写体の大きさや色などの物理量を、“大・中・小”や、“赤・黄・緑”などに分類することで単語化し、この単語に基づいた検索を実行する方法について開示されている。
尚、本発明に関連する、基本周波数、パワーの抽出方法については下記非特許文献1に記載され、音声速度については下記非特許文献2に記載され、音声モデルのパラメータの推定方法は下記非特許文献3,4に記載され、自然言語処理については下記非特許文献5,6、特許文献2に記載され、映像特徴量の抽出については下記非特許文献7、特許文献3,4,5に記載され、オプティカルフローの計算方法については下記非特許文献8に記載されている。
特開平5−282380号公報 特開平5−73317号公報 特許第3408117号 特開2005−157911号 特許第3098276号 「ディジタル音声処理 第4章 4.9ピッチ抽出」、古井貞熙、東海大学出版会、pp.57−59、1985年9月 「音声の動的尺度に含まれる個人性情報」、嵯峨山茂樹、板倉 文忠、日本音響学会昭和54年度春季研究発表会講演論文集、3−2−7、pp.589−590、1979年 「わかりやすいパターン認識」、石井健一郎、上田修功、前田栄作、村瀬洋、オーム社、pp52−54、1998年 「計算統計I 第III章 3EM法 4変分ベイズ法」、上田修功、岩波書店、pp.157−186、2003年6月 「日本語語彙大系」、NTTコミュニケーション科学研究所 監修、池原 悟、宮崎 正弘、白井 論、横尾 昭男、中岩 浩巳 、小倉 健太郎、大山 芳史、林 良彦 編集、岩波書店、1997年 「自然言語処理の基礎技術」、電子情報通信学会、コロナ社、1988年3月 「映像特徴インデクシングに基づく構造化映像ハンドリング機構と映像利用インタフェースに関する研究 第3章 画像処理に基づく映像インデクシング」、外村佳伸、京都大学博士論文、pp.15−23、2006 「コンピュータ画像処理」、田村秀行 編著、オーム社、pp.242−247、2002年12月
従来の方法は、映像の物理的特徴に基づいた類似検索を実現している。しかし、物理的特徴とユーザの嗜好とは直接結びつくものではないため、ユーザの嗜好を反映した検索・推薦は実行できなかった。
また、コンテンツを視聴する際には、各ユーザの嗜好が重要であるが、同様に、映像視聴時点でのユーザの感情も非常に重要である。ユーザの視聴したいコンテンツは常に同じではなく、ユーザの感情に応じてこれも動的に変化するためである。しかし、従来の方法ではユーザの感情に応じた検索・推薦を実行することはできなかった。
本発明は上記の点に鑑みてなされたものでその目的は、ユーザの感情に応じたコンテンツの検索・推薦が行えるコンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラムを提供することにある。
本発明は、コンテンツを分析することでコンテンツに対して自動的にその感情及び感情度を推定し、これをメタデータとしてコンテンツに自動付与する機能を備える。このメタデータに基づいて検索・推薦を実行することで、ユーザから入力される、感情を反映した検索要求に適したコンテンツ検索・推薦を実現する。
請求項1に記載のコンテンツ検索・推薦方法は、
感情推定手段が、マルチメディアコンテンツに含まれる音声信号データ及び映像信号データから、コンテンツおよび部分コンテンツの感情及び感情度を推定する感情推定ステップと、
コンテンツ蓄積手段が、前記感情推定手段によって推定された前記感情と前記感情度をメタデータとして備えたコンテンツを蓄積したコンテンツ蓄積ステップと、
検索要求受付手段が、前記感情又は前記感情と前記感情度に対応する検索要求を受け付ける検索要求受付ステップと、
類似度計算手段が、前記検索要求に基づいて、前記コンテンツ又は部分コンテンツの類似度を算出する類似度計算ステップと、
結果提示手段が、前記類似度に基づいて、コンテンツ又は部分コンテンツの検索・推薦結果を提示する結果提示ステップと、を含み、
前記感情推定ステップは、
音声信号データ及び映像信号データから分析フレーム毎に特徴量を抽出する特徴量抽出ステップと、
前記抽出された特徴量から分析フレーム毎の各感情の音声感情確率と映像感情確率とを求め、これら2つの感情確率に基づいて1つの感情確率を計算する感情確率計算ステップと、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの各感情の感情度を計算する感情度計算ステップと、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの感情を判定する感情判定ステップと、からなる
ことを特徴としている。
請求項5に記載のコンテンツ検索・推薦装置は、
マルチメディアコンテンツに含まれる音声信号データ及び映像信号データから、コンテンツおよび部分コンテンツの感情及び感情度を推定する感情推定手段と、
前記感情推定手段によって推定された前記感情と前記感情度をメタデータとして備えたコンテンツを蓄積したコンテンツ蓄積手段と、
前記感情又は前記感情と前記感情度に対応する検索要求を受け付ける検索要求受付手段と、
前記検索要求に基づいて、前記コンテンツ又は部分コンテンツの類似度を算出する類似度計算手段と、
前記類似度に基づいて、コンテンツ又は部分コンテンツの検索・推薦結果を提示する結果提示手段と、を備え、
前記感情推定手段は、
音声信号データ及び映像信号データから分析フレーム毎に特徴量を抽出する特徴量抽出手段と、
前記抽出された特徴量から分析フレーム毎の各感情の音声感情確率と映像感情確率とを求め、これら2つの感情確率に基づいて1つの感情確率を計算する感情確率計算手段と、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの各感情の感情度を計算する感情度計算手段と、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの感情を判定する感情判定手段と、を有する
ことを特徴としている。
上記構成により、コンテンツ中に含まれる、音声信号データ及び映像信号データを分析し、その感情を抽出することで、コンテンツの感情及び感情度についてのメタデータを自動生成し、コンテンツに付与することが可能となり、コンテンツの感情と感情度に基づいて、ユーザの感情に応じたコンテンツの検索・推薦が可能となる。
また請求項2に記載のコンテンツ検索・推薦方法は、請求項1に記載の方法において、前記特徴量抽出ステップは、分析フレーム毎に、音声信号データから基本周波数、基本周波数の時間変動特性、振幅のrms値、振幅のrms値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも1つを音声特徴量として抽出し、映像信号データから、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルの少なくとも1つを映像特徴量として抽出し、前記感情確率計算ステップは、学習用音声信号データを用いて予め構成された1つ以上の統計モデルと、学習用映像信号データを用いて予め構成された1つ以上の統計モデルとによって、前記感情における前記音声特徴量の出現確率と、前記感情に対応する1つ以上の状態の時間方向への遷移確率のうち、少なくとも何れか1つに基づいて感情確率を計算することを特徴としている。
また請求項6に記載のコンテンツ検索・推薦装置は、請求項5に記載の装置において、前記特徴量抽出手段は、分析フレーム毎に、音声信号データから基本周波数、基本周波数の時間変動特性、振幅のrms値、振幅のrms値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも1つを音声特徴量として抽出し、映像信号データから、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルの少なくとも1つを映像特徴量として抽出し、前記感情確率計算手段は、学習用音声信号データを用いて予め構成された1つ以上の統計モデルと、学習用映像信号データを用いて予め構成された1つ以上の統計モデルとによって、前記感情における前記音声特徴量の出現確率と、前記感情に対応する1つ以上の状態の時間方向への遷移確率のうち、少なくとも何れか1つに基づいて感情確率を計算することを特徴としている。
上記構成により、感情、感情度を推定する上で重要となる音声特徴量、映像特徴量を抽出し、更に確率的推定を実行することで、多様なコンテンツの音源要因、撮像状況に係らずより安定に精度よく感情、感情度を推定できる。
また請求項3に記載のコンテンツ検索・推薦方法は、請求項1または2に記載の方法において、前記検索要求受付ステップは、ユーザが視聴している及び/又は視聴した、コンテンツ又は部分コンテンツの前記感情、又は前記感情と前記感情度を参照し、これに基づいて決定された前記検索要求を受け付けることを特徴としている。
また請求項7に記載のコンテンツ検索・推薦装置は、請求項5または6に記載の装置において、前記検索要求受付手段は、ユーザが視聴している及び/又は視聴した、コンテンツ又は部分コンテンツの前記感情、又は前記感情と前記感情度を参照し、これに基づいて決定された前記検索要求を受け付けることを特徴としている。
上記構成により、ユーザが現在視聴している、あるいは過去に視聴したコンテンツを手がかりとして、ユーザに検索要求を要請することなく、ユーザの嗜好に合った感情、感情度を持つコンテンツの検索・推薦が可能となる。
また請求項4に記載のコンテンツ検索・推薦方法は、請求項1乃至3の何れか1項に記載の方法において、前記結果提示ステップは、前記類似度に基づいてコンテンツ又は部分コンテンツをランキングし、このランキング結果に基づいてコンテンツ又は部分コンテンツの属性情報、前記感情、前記感情度、サムネイル、要約コンテンツのうち少なくとも1つをリスト化して提示することを特徴としている。
また請求項8に記載のコンテンツ検索・推薦装置は、請求項5乃至7の何れかに記載の装置において、前記結果提示手段は、前記類似度に基づいてコンテンツ又は部分コンテンツをランキングし、このランキング結果に基づいてコンテンツ又は部分コンテンツの属性情報、前記感情、前記感情度、サムネイル、要約コンテンツのうち少なくとも1つをリスト化して提示することを特徴としている。

上記構成により、類似度順に提示するなど、従来の検索・推薦方法に加え、更に、コンテンツのタイトルや、コンテンツの属性情報、感情、感情度、サムネイル、部分コンテンツを要約コンテンツとして提示するなどの結果も合わせて表示することで、ユーザのコンテンツの内容の理解を促進することができ、よりユーザの要求に合致したコンテンツの検索・推薦が可能となる。
また請求項9に記載のコンテンツ検索・推薦プログラムは、請求項1乃至4の何れか1項に記載のコンテンツ検索・推薦方法の各ステップをコンピュータに実行させるためのプログラムとしたことを特徴としている。
上記構成により、本発明による方法をコンピュータによって実行することができる。
(1)本発明によれば、コンテンツ中に含まれる、音声信号データを分析し、その感情を抽出することで、コンテンツの感情及び感情度についてのメタデータを自動生成し、コンテンツに付与することが可能となり、コンテンツの感情と感情度に基づいて、ユーザの感情に応じたコンテンツの検索・推薦が可能となる。
(2)本発明によれば、感情、感情度を推定する上で重要となる音声特徴量を抽出し、更に確率的推定を実行することで、多様なコンテンツの音源要因に係らず、安定かつ高精度に感情、感情度を推定できる。
(3)本発明によれば、コンテンツ中に含まれる音声信号データに加えて、映像信号データを分析することで、コンテンツの感情、感情度の推定精度をより高めることができる。
(4)本発明によれば、感情、感情度を推定する上で重要となる音声特徴量、映像特徴量を抽出し、更に確率的推定を実行することで、多様なコンテンツの音源要因、撮像状況に係らずより安定に精度よく感情、感情度を推定できる。
(5)本発明によれば、ユーザが現在視聴している、あるいは過去に視聴したコンテンツを手がかりとして、ユーザに検索要求を要請することなく、ユーザの嗜好に合った感情、感情度を持つコンテンツの検索・推薦が可能となる。
(6)本発明によれば、類似度順に提示するなど、従来の検索・推薦方法に加え、更に、コンテンツのタイトルや、コンテンツの属性情報、感情、感情度、サムネイル、部分コンテンツを要約コンテンツとして提示するなどの結果も合わせて表示することで、ユーザのコンテンツの内容の理解を促進することができ、よりユーザの要求に合致したコンテンツの検索・推薦が可能となる。
(7)本発明によれば、コンテンツ検索・推薦方法をコンピュータによって実行することができる。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
[実施形態の第1例:音声信号データのみを用いたコンテンツ検索・推薦]
本発明の実施形態の第1例は、コンテンツに含まれる情報のうち、音声信号データのみを用いて感情、感情度を推定する場合である。この実施形態について、図1〜図12を用いて説明する。
本発明の実施形態に係るコンテンツ検索・推薦方法、コンテンツ検索・推薦装置について説明する。図1は、本発明の実施形態の第1例に係るコンテンツ検索・推薦方法の処理の流れを説明するフロー図、図2は、本発明の実施形態の第1例に係るコンテンツ検索・推薦装置を説明するブロック図である。
この実施形態におけるコンテンツ検索・推薦装置100では、ユーザ端末200から入力された検索要求が、所定の通信手段によって情報制御部300に送信され、この情報制御部300が、前記検索要求に類似したコンテンツ又は部分コンテンツを、データベース400に蓄積されたコンテンツ又は部分コンテンツの中から検索し、所定の通信手段によって検索・推薦結果をユーザ端末200に提示する。
ユーザ端末200の構成を説明するブロック図を図3に示す。ユーザ端末200は、例えば、キーボード211、マウス等に代表されるポインティングデバイス212から構成される入力部210、CPU(Central Processing Unit)221、ROM(Read Only Memory)222、RAM(Random Access Memory)223から構成される制御部220、HDD(Hard Disc Drive)231から構成される記憶部230、液晶画面等のモニタ画面241を有し、入力部210の操作に応じて制御部220から出力する情報を表示する表示部240を備えたものとする。
情報制御部300は、CPU301、ROM302、RAM303、HDD304などが相互接続され構成される。本発明における各種の処理は、全てこの情報制御部300によって行われるものであり、各種処理を実現するプログラム及びデータは、全てROM302やHDD304などの記憶装置に記憶され、適宜RAM303に読み出され、CPU301において処理が実行される。
以下、情報制御部300、及び、データベース400に備えられた機能部毎に、処理の流れを説明する。
本発明の感情推定手段である感情推定部F100の構成を説明するブロック図を図4に示す。感情推定部F100は、コンテンツに含まれる音声信号データから、分析フレーム毎に、基本周波数、基本周波数の時間変動特性、振幅のrms値(root mean square ;自乗平均の平方根;振動正弦波の面積平均値)、振幅のrms値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも1つを音声特徴量として抽出する音声特徴量抽出部F101(音声特徴量抽出手段)と、学習用音声信号データを用いて予め構成された1つ以上の統計モデルである、音声モデルによって、音声特徴量の出現する確率として感情確率を計算する感情確率計算部F102(感情確率計算手段)と、感情確率に基づいて、1つ以上の分析フレームを含む部分コンテンツの感情度を計算する感情度計算部F103(感情度計算手段)と、感情確率に基づいて、1つ以上の分析フレームによって構成される部分コンテンツの感情を判定する感情判定部F104(感情判定手段)により構成する。感情度計算部F103及び感情判定部F104は、更に、コンテンツの感情及び感情度を、感情確率、又は部分コンテンツの感情度、又は部分コンテンツの感情と感情度に基づいてそれぞれ推定する。
感情推定部F100によって実行されるステップS100は、本発明によって、実際にコンテンツ又は部分コンテンツの検索・推薦を行う前に、予め行っておくステップであり、コンテンツ、部分コンテンツの感情、感情度を推定するステップである。ステップS100の処理の流れを説明するフロー図を図5に示す。ステップS110は、感情、感情度を求めるために必要となる感情確率を計算するための統計モデルを構築するための処理であり、ステップS120、ステップS130はコンテンツ、部分コンテンツの感情確率を計算するための処理である。また、ステップS140は、コンテンツ、部分コンテンツの感情、感情度を推定するための処理である。
まず予め、後に説明する手順の一例のように、ステップS110において、学習用音声信号データに基づいて、予め感情確率を計算するための音声モデルを獲得しておく。
ステップS120では、音声特徴量抽出部F101が、取り込まれたコンテンツの音声信号データから、所望の音声特徴量として分析フレーム(以下、フレームと呼ぶ)毎に計算し、抽出する。この音声特徴量は、基本周波数、基本周波数の時間変動特性、振幅のrms値、振幅のrms値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性のうち1つ以上の要素で構成される。
ステップS130では、感情確率計算部F102が、ステップS120において計算された音声特徴量に基づき、フレーム毎に、コンテンツ、部分コンテンツの感情において音声特徴量が出現する確率を、ステップS110において予め獲得された音声モデルによって計算することで感情確率を求める。
ステップS140では、ステップS130で計算したコンテンツ、部分コンテンツのフレーム毎の感情確率に基づいて、感情度計算部F103及び感情判定部F104がそれぞれ、コンテンツ、部分コンテンツの感情及び感情度を推定する。
以下に、各ステップについて詳細を説明する。
まず、ステップS120では、取り込まれたコンテンツの音声信号データから、所望の音声特徴量をフレーム毎に抽出する。
以下に、音声特徴量抽出方法の1例について説明する。
ここで、各音声特徴量について説明する。コンテンツ、部分コンテンツの感情を推定するにあたり、音声特徴量としては、高次元音声パラメータの解析を必要とする音韻情報と比較して、多様な音源要因の混在した音声に対しても安定して得られ、コンテンツジャンルなど、コンテンツの属性に依存しにくいものが好ましい。
例えば、音声認識等を用いて音声をテキスト情報に変換する等の方法は、このような音韻情報を必要とし、例えば、ニュース映像等の発話者の音声が鮮明に聴き取れるジャンルのコンテンツについては有効である。しかし、映画、ドラマや、ホームビデオ等においては、発話以外にも、背景音楽、環境音等の様々な音源要因が存在するために、発話を鮮明に聴き取ることができず、音声認識が難しい。更に、必ずしも発話のみによってコンテンツの感情が決定されるとは限らず、印象や雰囲気を含めた感情を推定するという目的においては、音楽、効果音、環境音等も重要な要因として扱える音声特徴量が必要である。
このような問題に対して、本発明の実施形態の第1例では、韻律情報、特に、基本周波数、基本周波数の時間変動特性、振幅のrms値(以下、単にrmsと呼ぶ)、rmsの時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性等を抽出する。特に、時間変動特性として数種の短時間変化量を用いることによって、コンテンツに含まれる感情を抽出する場合においての感情的な音声における重要な挙動を検出することが可能となる。
時間変動特性の例としては、例えば、フレーム間差分や、回帰係数がある。また、パワーは、パワースペクトル密度などを用いるのでもよい。基本周波数、パワーの抽出法は様々あるが、公知であり、その詳細については、例えば非特許文献1に記載の方法等を参照されたい。
また、発話速度、音楽リズム、テンポ等を含めた音声速度については、例えば非特許文献2に開示されている方法などによって、動的尺度として抽出することができる。例えば、動的尺度のピークを検出し、その数をカウントすることで音声速度を検出する方法をとってもよく、また、音声速度の時間変動特性に相当するピーク間隔の平均値、分散値を計算して音声速度の時間変動特性を検出する方法をとるのでもよい。以下、本発明の実施形態の第1例では、音声速度として動的尺度のピーク間隔平均値を用いるものとする。
これらの音声特徴量を、フレーム毎に抽出する方法の1例を説明する。1フレームの長さ(以下、フレーム長とよぶ)を、例えば50msとし、次のフレームは現フレームに対して、例えば、20msの時間シフトによって形成されるものとする。図6に示すように、これらのフレーム毎に、各フレーム内での各音声特徴量の平均値、つまり、平均基本周波数、基本周波数の平均時間変動特性、平均rms、rmsの平均時間変動特性、平均パワー、パワーの平均時間変動特性、動的尺度の平均ピーク間隔平均値などを計算するものとする。あるいは、これらの平均値のみではなく、フレーム内での各音声特徴量の最大値、最小値、または変動幅などを計算して用いてもよい。
ここで、コンテンツ中の感情的な部分に特徴的に現れる音声においては、基本周波数そのものの抽出が困難な場合が多く、しばしば欠損することがある。このため、そのような欠損を補完する効果を容易に得ることのできる、基本周波数の時間変動特性を含むことが好ましい。
更には、話者依存性を低く抑えたまま、判定精度を高めるため、パワーの時間変動特性を更に含むことが好ましい。以上、フレーム毎に行った音声特徴量の抽出処理を、コンテンツ全てに渡るフレームに対して行うことで、全てのフレームにおいて音声特徴量を得ることが可能である。
ステップS130では、ステップS120において抽出された各フレームの音声特徴量と、ステップS110において予め構成しておいた1つ以上の音声モデルとを用いて、各コンテンツ、部分コンテンツの感情における音声特徴量の感情確率が計算される。
ここではまず、音声モデルを構成するためのステップS110の処理の1例について説明する。音声モデルは、学習用音声信号データから、学習を行うことによって獲得する。学習用音声信号データは、コンテンツの音声信号データ同様、フレーム単位で音声特徴量が抽出されており、更に、人手によって、例えば、“楽しい”、“哀しい”、“怖い”、“激しい”、“かっこいい”、“かわいい”、“エキサイティング”、“情熱的”、“ロマンチック”、“暴力的”、“穏やか”、“癒される”、“暖かい”、“冷たい”、“不気味”などの、予め感情カテゴリとして定めた種類のラベルが付与されているものとする。
ここで、各感情カテゴリを順にe1、e2、・・・と表記し、感情カテゴリの数を#(K)と表す。これらの感情カテゴリと、音声モデルを対応付けることで、感情カテゴリ毎に感情確率を計算するための音声モデルを獲得する。この音声モデルとしては、例えば、正規分布、混合正規分布、隠れマルコフモデル、一般化状態空間モデルなどを用いる。好ましくは、感情の時間遷移をモデル化できる、隠れマルコフモデル、一般化状態空間モデルなどの時系列モデルを採用する。
これらの音声モデルのパラメータの推定方法は、例えば、最尤推定法や、EMアルゴリズム、変分ベイズ法などが公知のものとして知られており、用いることができる。詳しくは非特許文献3、非特許文献4などを参照されたい。
ステップS130では、ステップS110で獲得した音声モデルに、ステップS120で抽出した分析対象となるコンテンツのフレーム毎の音声特徴量を入力することで、フレーム毎の感情確率を計算する。ステップS110において、感情カテゴリ毎に確率を計算することができるように音声モデルを構築したため、各々の音声モデルに音声特徴量を入力することで、各感情カテゴリの確率である、感情確率を計算することができる。
ステップS140では、ステップS130において計算された感情確率に基づいて、コンテンツ、部分コンテンツの感情、感情度が推定される。
以下、ステップS140の処理の1例について説明する。ステップS140の処理の流れを説明するフロー図を図7に示す。
まず、ステップS141において、1つ以上のフレームによって構成される部分コンテンツを生成する。
本発明の実施形態の第1例では、連続する音声であると考えられる音声区間の集合は1つの区間としてまとめる処理を行っておく。以下、この連続する音声で構成される音声区間を部分コンテンツとみなす。音声区間を生成する方法は、例えば、音声波形における連続音声区間の周期性を利用して、自己相関関数の変化がある一定値を越えた点を区間境界とする方法がある。
次に、ステップS142において、構成した部分コンテンツ単位での感情度を、ステップS130において、感情カテゴリ毎に計算した感情確率に基づいて計算する。
以下、この感情度を計算する方法の1例について説明する。コンテンツ中の部分コンテンツSの集合を時刻の早いものから順に{S1,S2,・・・,SNS}とする。ここで、NSは部分コンテンツの総数である。また、ある部分コンテンツSiに含まれるフレームを{f1,f2,・・・,fNFi}と置く。ここで、NFiは部分コンテンツSiに含まれるフレーム数である。各フレームftは、ステップS130において、フレーム単位でのk番目の感情カテゴリekの感情確率pft(ek)が与えられている。これを用いて、k番目の感情カテゴリekの部分コンテンツSiの感情度pSi(ek)は、例えば、平均値を表す
Figure 0004891802
として計算することや、最大値を表す次式によって計算する。
Figure 0004891802
以上のような計算を、全ての部分コンテンツに渡り行うことで、全ての部分コンテンツに対して感情カテゴリ毎の感情度を計算することが可能である(図8)。
部分コンテンツの感情については、例えば、感情度が最大値となる感情カテゴリを、部分コンテンツSiの感情とする。
また、フレーム毎の感情の推移を基に、部分コンテンツの感情を推定するのでもよい。
以下、この方法によって感情度を計算する方法の1例について説明する。
部分コンテンツ内に含まれる、1つ以上の所定の数Lの連続するフレームが存在する区間を小部分コンテンツと呼ぶ。このとき、この区間に含まれるそれぞれのフレームの感情を、ef1、ef2、・・・、efLと表記する。この感情は、フレーム毎に計算された感情確率を用いて、例えば、その値が最大となる感情カテゴリをその各フレームの感情とすることができる。
この1つ以上の連続するフレームの感情の遷移系列{ef1、ef2、・・・、efL}を、感情カテゴリと対応付けた、1つ以上の音声モデルによってモデル化する。音声モデルの例としては、N−gram、隠れマルコフモデル、一般化状態空間モデルなどを用いることができる。この音声モデルは、学習用音声信号データを用いて学習を行うことによって獲得する。この場合、学習用のデータとしては、ステップS110で用いた学習用音声信号データを同様に用いることができる。好ましくは、この方法を採用する場合には、これらの音声モデルの構築も、ステップS110内で実行しておく。
この方法により、部分コンテンツ内の小部分コンテンツ単位で、新たに感情確率を計算することが可能である。感情度の計算は、例えば、以下の手順で行うことができる。
部分コンテンツSiに含まれる小部分コンテンツを{S1,S2,・・・,SNSi}と置く。ここで、Nsiは部分コンテンツSiに含まれる小部分コンテンツ数である。各小部分コンテンツStは、ステップS130において、フレーム単位でのk番目の感情カテゴリekの感情確率pst(ek)が与えられている。これを用いて、k番目の感情カテゴリekの部分コンテンツSiの感情度pSi(ek)は、例えば、平均値を表す
Figure 0004891802
として計算することや、最大値を表す次式によって計算する。
Figure 0004891802
これら以外にも、例えば、部分コンテンツ内でフィルタ処理を行ってから感情度を計算するなど、方法は様々あるが、部分コンテンツ間で感情度を比較する場合があるため、感情度はある一定の値の範囲内、例えば0〜1の間に収まるようにすることが好ましい。
次に、ステップS143において、コンテンツの感情、感情度を推定する。
この方法の1例としては、例えば、コンテンツ全体に渡り、フレーム毎の感情確率、又は、全ての部分コンテンツの感情度の平均値、最大値などを計算することにより、これをコンテンツ全体の感情度としてもよい。また、その他の例として、この感情度の最も大きい感情カテゴリをコンテンツの感情としてもよい。より簡単には、各感情と判定された部分コンテンツの継続時間を計算し、この継続時間が最も長い感情カテゴリをコンテンツの感情と判定してもよく、この場合、部分コンテンツの感情のみを参照することでコンテンツの感情を判定することができる。
また、コンテンツにおいて、各部分コンテンツが存在する時刻、例えば、開始時刻、終了時刻、中央時刻などを保存しておくことで、図9に示すように、コンテンツを通して感情度がどのように変化するのかに関する時系列情報を得ることもできる。
この時系列情報を利用して、コンテンツの特定の時刻付近で最も多く出現している感情カテゴリを、コンテンツ全体の感情としてもよい。例えば、映画やドラマなどのコンテンツの場合、コンテンツの終端時刻付近に、感情に残る重要なシーンが存在している場合が多いが、こういった場合に、終端時刻付近に最も多く出現している感情カテゴリをコンテンツの感情とする、などの利用が可能である。また、この際、終端時刻付近の感情度を参照し、この感情度の最も高い感情カテゴリをコンテンツの感情としてもよい。
図2のコンテンツ蓄積部F200(コンテンツ蓄積手段)は、コンテンツ又は部分コンテンツを、感情推定部F100が推定した感情、及び感情度と対応づけて、データベース400に格納する。このデータベース400は所定の記憶装置とコンテンツ又は部分コンテンツデータによって構成される。この所定の記憶装置は、例えば、個人、家庭内などの比較的小規模な利用範囲の場合は、ユーザ端末内HDD、HDDレコーダ内のHDD、又はLAN(Local Area Network)などによってユーザ端末と接続された所定のサーバ装置内のHDDとしてもよい。また、DVDなど持ち出し可能な外部記憶装置によって構成するのでもよい。大規模な利用範囲の場合には、インターネットなどの広域通信網などによってユーザ端末と接続された所定のサーバ装置を伴う記憶装置としてもよい。
図1のステップS200において、コンテンツ蓄積部F200は、図5のステップS100を通して計算されたコンテンツの属性情報である感情及び感情度を含めたコンテンツ又は部分コンテンツをデータベース400に蓄積する。
図2の検索要求受付部F300(検索要求受付手段)は、ユーザ端末200から入力された検索要求を、所定の通信手段を介して受け付ける。以下、ユーザがユーザ端末200を用いて検索要求を入力し、検索要求受付部F300が検索要求を受け付ける処理であるステップS300について説明する。図10は、ステップS300について説明する図である。
ステップS300Aでは、ユーザが、所望のコンテンツの感情と感情度を選択し、これを検索要求として入力する。この検索要求は、例えば、図3のキーボード211によって感情と感情度を直接入力するものでもよいし、モニタ241に表示されたプルダウンメニューなどから選択するものでもよい。
感情と感情度を直接入力する方法の1例としては、各カテゴリに対応する感情語とその強さを表すものを入力する。例えば、ユーザは、「感情:楽しい、感情度:0.9」などと入力することで、「感情:楽しい、感情度:0.9」を検索要求とする。
また、感情カテゴリと直接等しい感情語が入力されないような場合は、同意的な感情カテゴリに対応する感情語と見做し、適宜変換して処理することが考えられる。例えば、ユーザが、「笑える」などと入力し、感情カテゴリに“笑える”が用意されていなくとも、例えば、同意的と類推される“楽しい”、“面白い”などの感情カテゴリが用意されていれば、これらの感情カテゴリに属すると見做して処理を実行することができる。
この時、比較的1つの感情カテゴリに帰属させることが難しい感情語については、複数の感情カテゴリに対応づけるものとしてもよい。例えば、ユーザが、「感情:不気味な、感情度:0.6」と入力した場合、感情カテゴリに“不気味な”が用意されていなくとも、例えばこれを、「感情:怖い、感情度:0.3 AND 感情:不思議、感情度:0.3」などとして処理を実行することができる。
更には、ユーザの入力は自然文であってもよい。この場合、自然文の中から、形態素解析などの方法によって、感情語を抽出し、対応する感情、感情度に変換すればよい。例えば、ユーザが“超面白い”と入力した場合、“超”→感情度:0.9、“面白い”→感情:楽しい、などと変換できる。
こういった変換は、非特許文献5などに見られるような体系的辞書や、非特許文献6に示されている方法等に基づいて実行することができる。また、“超”→感情度:0.9などに関して、相対的な表現であると解釈できるものについては、特許文献2の方法を用いることができる。このような方法については、予め所定の変換規則を、設計者が設計するのでもよいし、ユーザの実際の主観的感覚を考慮するために学習を用いて構築してもよい。
また、感情や感情度といった感性的な表現は、ユーザにとってはテキスト情報として的確に表現することが難しい場合がある。このような場合は、直観的に分かりやすいグラフィカルなインタフェースによって、検索要求を入力することもできる。例えば、図11に示すような、各感情の感情度を軸に取ったグラフをモニタ241に表示し、ユーザが嗜好の値をポインティングデバイス212によって選択することでこれを検索要求の入力としてもよいし、図12に示すような、音楽プレイヤーなどに搭載されている機能であるイコライザ形のインタフェースをモニタS241に表示し、ユーザがポインティングデバイス212の操作によって、各感情の感情度を調整して入力するものでもよい。
また、これらの方法については、感情カテゴリ全ての感情度を入力する必要はなく、要求したい感情カテゴリについてのみ、感情度を選択するのでもよい。より簡単には、ユーザが所望する感情のみを選択するのでもよい。
ステップ300Bでは、ユーザが視聴している、視聴していたコンテンツの感情と感情度を参照し、これに基づいて検索要求を決定する。決定の方法としては、例えば、ユーザが視聴しているコンテンツの感情と感情度を、直接検索要求とみなしてもよい。
このステップ300Bを経ることで、ユーザが直接検索要求を入力しない場合であっても、ユーザの視聴しているコンテンツの感情、感情度を検索要求とすることで、類似検索を実行することができるという利点がある。
この際、ユーザ毎にコンテンツの視聴履歴を記録しておき、過去に視聴したコンテンツの感情、感情度の情報を基に検索要求に補正を加える処理を行ってもよい。この処理を加えることにより、視聴している、もしくは視聴していたコンテンツの履歴を手がかりとして、これらと類似する感情、感情度を持つコンテンツの検索・推薦を行い、ユーザ毎の嗜好を適応的に反映した検索・推薦結果を提示することが可能となる。
例えば、過去に視聴したコンテンツについて、その視聴時間などを含めて保存しておき、例えば、過去数時間、もしくは数コンテンツの感情度に基づいて検索要求を決定すればよい。例えば、視聴したコンテンツの感情度について、重み付け平均値や最大値を計算し、これを検索要求とみなしてもよい。重み付け平均値についての重みの決定方法としては、例えば、最近視聴されたコンテンツほど重みが大きくなるようにすることや、エビングハウスの忘却曲線など、心理学の知見を取り入れた忘却モデルを導入し、これを過去のコンテンツの視聴時間と対応付けて重みを決定してもよい。
即ち、例えば、あるユーザが、過去数時間に視聴したコンテンツの数をNKとおき、各コンテンツのk番目の感情カテゴリekの感情度が、pS1(ek)、pS2(ek)、・・・、pSNK(ek)と与えられているとする。
この時、k番目の感情カテゴリekについての検索要求Q(ek)は、例えば、
Figure 0004891802
によって計算できる。ここで、wjは重みであり、前述の重みの決定方法によって決定すればよい。
また更に同様の方法によって、コンテンツ毎に、過去数時間における視聴回数を記録しておき、これに基づいて検索要求に補正を加える処理を行ってもよい。この場合には、例えば、検索要求に対して、最近視聴された回数の多い上位幾つか、例えば10、のコンテンツの感情、感情度との重み付け平均値を計算し、これを最終的な検索要求とするのでもよい。この処理を加えることにより、最近よく視聴されているコンテンツの感情、感情度を反映した検索・推薦結果を提示することができる。
その他の方法としては、過去数時間において視聴されたコンテンツの感情、感情度の視聴順序パターンを分析し、その情報を基に検索要求を補正することもできる。例えば、図14に示すように、あるユーザが、時間軸に沿って“楽しい”感情度の高いコンテンツ、“哀しい”感情度の高いコンテンツ、“楽しい”感情度の高いコンテンツ、の順序で視聴することが多いユーザである場合には、このユーザは、“楽しい”コンテンツを続けて視聴するよりは、“楽しい”ものと“哀しい”ものを交互に視聴することを好む、もしくはそのような気分であるユーザであると見做し、このパターンを検索要求に反映すればよい。
即ち、例えば、該ユーザが、現在“楽しい”コンテンツを視聴していれば、 “哀しい”感情度の高いコンテンツを推薦し、現在“哀しい”コンテンツを視聴していれば、“楽しい”コンテンツを推薦するように、検索要求を補正する。
また、図9に示すように、部分コンテンツ毎に感情、感情度が計算され、感情、感情度の時間変化が取得できる場合には、これと対応付けるように、図13に示すような検索要求入力インタフェースをユーザに提示し、感情毎に、感情度の時間変化を自由に描くことができるようにし、これを検索入力としてもよい。
本発明の原理によれば、ステップS300A、S300Bのうち、少なくとも1つのステップを実行することで、検索・推薦を実現することが可能であるが、これら双方を組み合わせて検索要求を決定し、入力することもできる。
この場合には、例えば、ステップS300A、S300Bそれぞれによって得られた検索要求のANDもしくはORを取ったものを最終的な検索要求としてもよい。また、感情度が検索要求に含まれる場合には、この重み付け平均値を計算し、これを最終的な検索要求としてもよい。
図2の検索要求受付部F300(検索要求受付手段)は、上記ステップを通して入力された検索要求を受け付ける。
図2の類似度計算部F400(類似度計算手段)は、検索要求受付部F300が受け付けた検索要求と、データベース400に蓄積されたコンテンツ又は部分コンテンツの感情及び感情度から、それらの類似度を計算する。以下、類似度計算部F400が実行する処理である図1のステップS400について説明する。
ステップS400では、ステップS300で入力された検索要求と、ステップS200において予め蓄積されたデータベース中のコンテンツに付与された感情と感情度を照らし合わせ、類似度を計算する。
ここで検索要求の、k番目の感情カテゴリekの感情度をr(ek)、コンテンツ又は部分コンテンツに付与されたk番目の感情カテゴリekの感情度をp(ek)と表す。類似度fsは、検索要求として入力された感情、感情度と、コンテンツ又は部分コンテンツに付与された感情、感情度との比較によって計算し、例えば、ユーザが選択した感情カテゴリのインデクス集合をK、その数を#(K)とすれば、
Figure 0004891802
によって計算することができる。
また、ユーザの検索要求として感情のみが選択され、感情度が入力されなかった場合には、
Figure 0004891802
によって計算することもできる。以上のような処理により、コンテンツ又は部分コンテンツ毎に検索要求に対する類似度を計算することができる。
図2の結果提示部F500(結果提示手段)は、類似度計算部F400によって計算された類似度に基づいて、検索結果を生成し、ユーザ端末200に結果を送信する。ユーザ端末200は、この結果を受信し、モニタ241に提示する。以下、結果提示部F500が実行する処理手順である図1のステップS500について説明する。
ステップS500では、ステップS400で計算された類似度に基づいて、検索結果を生成し、ユーザに提示する。提示の方法としては、各コンテンツの類似度の高い順に、コンテンツの属性情報、感情と感情度、サムネイル、要約などのうち少なくとも1つをリストして提示する。
属性情報としては、コンテンツのタイトル、製作者、キーワード、概要、作成日時、フォーマット、コンテンツの存在するURLやパス、関連するコンテンツの属性情報などが考えられ、これらは、例えば、MPEG7など、XML(eXtensible Markup Lauguage)による記述形式に則っている場合などには付与することが可能である。
感情と感情度については、本発明のステップS100において計算されているものをモニタ241に提示する。この提示の形式としては、例えば、感情と感情度をテキスト形式で表示するもの、図9に示したように、コンテンツを通して感情度がどのように変化するのかに関する時系列情報を提示するもの、図11に示したような、各感情の感情度を軸に取ったグラフを用いて提示するものなどが挙げられる。
要約については、部分コンテンツであれば、それを提示してもよいし、コンテンツであれば、これに含まれる部分コンテンツのうち、検索要求に対して類似度の高い順に1つ以上の部分コンテンツを抽出し、これを要約として提示してもよい。何れの場合も、要約は、例えば、要約が提示されているモニタ241上の領域を、ユーザがポインティングデバイス212などを用いてポイントするなどの操作によって再生、視聴可能なものとする。
また、部分コンテンツ毎に感情度が推定されているため、ユーザが実際にコンテンツを視聴する際に、ユーザが視聴を希望しない部分を抑圧するように編集して再生することも可能である。例えば、ユーザが“怖い”感情の部分についての視聴を希望しない場合には、部分コンテンツのうち、“怖い”感情であると推定されている部分については、例えば、予め秒読みを行うなどによって通知する、映像にモザイクや暗転などの加工を施す、音量を下げるなどの編集を行うことができる。
この他、R指定やPG指定されている制限コンテンツなどについて、制限の要因となっている感情を含む部分コンテンツを、同様に編集して視聴する、もしくはそのコンテンツ自体を再生しないようにすることも可能となる。この編集の適用・非適用を、ユーザ毎に変更可能とすることによって、例えば、子供に視聴させたくないコンテンツを、自動的に提示しないような設定を行うなどの利用ができる。
サムネイルについては、前述の要約のうち所定の時間箇所、例えば、要約映像の先頭の画像、中央の画像などを静止画として抽出し、提示する、といった方法がある。また、コンテンツ、又は部分コンテンツを通して、最も感情確率の高いフレームから、感情確率について降順に所定数抽出してもよい。
以上、この発明によるコンテンツ検索・推薦方法の、実施形態における方法の1例について詳細に説明した。
[実施形態の第2例:音声信号データと映像信号データを用いたコンテンツ検索・推薦]
本発明の実施形態の第2例は、音声信号データに加え、映像信号データも用いてコンテンツの感情、感情度を推定する場合である。本発明の実施形態の第2例に係る処理の流れ、装置の具体的構成は、それぞれ図1のフロー図、図2のブロック図の範囲に示されている限り、本発明の実施形態の第1例と同じとしてよい。
実施形態の第1例との違いは、感情推定部F100において、音声信号データのみではなく、映像信号データも用いて、感情確率を計算する点である。以下、本実施形態の第2例の感情推定部F100によって実行される、ステップS100について説明する。以降の処理の流れ、及び装置の具体的構成は、全て実施形態の第1例と同じとしてよい。
感情推定部F100の構成を、図15を用いて説明する。感情推定部F100は、コンテンツに含まれる音声信号データから、分析フレーム毎に、基本周波数、基本周波数の時間変動特性、振幅のrms値、振幅のrms値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも1つを音声特徴量として抽出する音声特徴量抽出部F101Aと、映像信号データから、分析フレーム毎に、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルの少なくとも1つを映像特徴量として抽出する映像特徴量抽出部F101Bと、学習用音声信号データ、学習用映像信号データをそれぞれ用い、予め構成された統計モデルである、1つ以上の音声モデルと映像モデルによって、特徴量の出現する確率として感情確率を計算する感情確率計算部F102と、感情確率に基づいて、1つ以上の分析フレームを含む部分コンテンツの感情度を計算する感情度計算部F103と、感情確率に基づいて、1つ以上の分析フレームによって構成される部分コンテンツの感情を判定する感情判定部F104により構成する。感情度計算部F103及び感情判定部F104は、更に、コンテンツの感情及び感情度を、感情確率、又は部分コンテンツの感情度、又は部分コンテンツの感情と感情度に基づいてそれぞれ推定する。
感情推定部F100によって実行されるステップS100は、本発明によって、実際にコンテンツ又は部分コンテンツの検索・推薦を行う前に、予め行っておく。
ステップS100の処理の流れを説明するフロー図を図16に示す。ステップS110は、感情、感情度を求めるために必要となる感情確率を計算するための音声モデル、映像モデルを構築するための処理であり、S120〜S140はコンテンツ、部分コンテンツの感情確率を計算するための処理である。また、S150は、コンテンツ、部分コンテンツの感情、感情度を推定するための処理である。
まず予め、後に説明する手順の一例のように、ステップS110において、学習用音声信号データ、学習用映像信号データに基づいて、予め感情確率を計算するための1つ以上の音声モデル、映像モデルを獲得しておく。
ステップS120では、音声特徴量抽出部F101Aが、取り込まれたコンテンツの音声信号データから、所望の音声特徴量として分析フレーム(以下、音声フレームと呼ぶ)毎に計算し、抽出する。また、映像特徴量抽出部F101Bが、取り込まれたコンテンツの映像信号データから、所望の映像特徴量として分析フレーム(以下、映像フレームと呼ぶ)毎に計算し、抽出する。音声特徴量としては、基本周波数、基本周波数の時間変動特性、振幅のrms値、振幅のrms値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性のうち1つ以上の要素、映像特徴量としては、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルのうち1つ以上の要素で構成される。
ステップS130では、感情確率計算部F102が、ステップS120において計算された音声特徴量、映像特徴量に基づき、コンテンツ、部分コンテンツの感情において、音声フレーム、映像フレーム毎に、それぞれ音声特徴量、映像特徴量が出現する確率として、音声感情確率と映像感情確率を求める。この際、ステップS110において予め獲得された音声モデル、映像モデルを用いる。
ステップS140では、ステップS130において、音声フレーム毎に計算した音声感情確率と、映像フレーム毎に計算した映像感情確率に基づいて、音声フレームと映像フレームを共通化したフレーム毎の感情確率を求める。
ステップS150では、ステップS140で計算したコンテンツ、部分コンテンツのフレーム毎の感情確率に基づいて、感情度計算部F103及び感情判定部F104がそれぞれ、コンテンツ、部分コンテンツの感情及び感情度を推定する。
以下に、各ステップについて詳細を説明する。
まず、図16のステップS120では、取り込まれたコンテンツの音声信号データ、及び映像信号データから、それぞれ所望の音声特徴量、映像特徴量をフレーム毎に抽出する。音声特徴量の抽出については、実施形態の第1例と同様であるので、以下に、映像特徴量抽出方法の1例について説明する。
映像特徴量は、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトル等を抽出するものとする。時間変動特性の例としては、例えば、フレーム間差分がある。
映像特徴量には、映像フレーム毎に抽出を行う。映像フレームとしては、例えば、1映像フレームの長さを33msとし、次の映像フレームは現映像フレームに対して、例えば、33msの時間シフトによって形成されるものとすればよい。
ここで、ショット長、動きベクトル、色ヒストグラムなどの基本的な抽出方法は様々あるが、これらは公知であり、例えば、非特許文献7などに示されている方法を用いることができる。
ショット長については、33msの映像フレーム内で抽出することは事実上不可能であるので、例えば、対象としている映像フレームが含まれるショットの長さとして抽出すればよい。また、1つ以上のショットを含むある区間におけるショット長の平均値や最大値、最小値などを用いてもよい。
色ヒストグラムについては、例えば、次のように抽出する。
映像フレーム中の画素毎に、色相(Hue)を抽出する。この色相は、例えば11や256など、所定の数Qに量子化しておくことで、全画素がQ個の量子のうち何れに該当するかを求めることができる。これを全画素に渡り実行し、量子毎の出現数を計数することにより、映像フレームの色相ヒストグラムが抽出できる。
また、ある特定の領域のみについてのヒストグラムを抽出してもよい。
動きベクトルについては、例えば、オプティカルフローを計算することによって、X成分とY成分からなるベクトルとして抽出することができる。オプティカルフローの計算の方法としては、例えば、非特許文献8などを用いることができる。この他、例えば、映像フレーム毎にノルムを計算するのでもよいし、特許文献3に開示されている方法などを用いて、パン、チルト、ズームなどのカメラ操作を検出し、それぞれ個別に単位時間辺りの操作量などとして計量化するのでもよい。
ステップS130では、ステップS120において抽出された各音声フレームの音声特徴量、映像フレームの映像特徴量と、ステップS110において予め構成しておいた1つ以上の音声モデル、映像モデルとを用いて、コンテンツ、部分コンテンツの感情における音声感情確率、映像感情確率がそれぞれ計算される。
ここではまず、統計モデルを構成するためのステップS110の処理の1例について説明する。音声モデルについては、実施形態の第1例と同様の方法によって獲得すればよい。以下では、映像モデルの獲得方法について説明する。
映像モデルは、学習用映像信号データから、学習を行うことによって獲得する。学習用映像信号データは、コンテンツの映像信号データ同様、映像フレーム単位で映像特徴量が抽出されており、更に、人手によって、前述したような感情カテゴリとして定めた種類のラベルが付与されているものとする。この実施形態の第2例においては、映像信号データによって分類される感情カテゴリは、音声モデルが推定するための感情カテゴリと同一であるとする。
これらの感情カテゴリと、各映像モデルを対応付けることで、感情カテゴリ毎に映像感情確率を計算するための映像モデルを獲得する。これらのモデルとしては、例えば、正規分布、混合正規分布、隠れマルコフモデル、一般化状態空間モデルなどを用いるのでもよい。好ましくは、感情の時間遷移をモデル化できる、隠れマルコフモデル、一般化状態空間モデルなどの時系列モデルを採用する。
これらの映像モデルのパラメータの推定方法は、例えば、最尤推定法や、EMアルゴリズム、変分ベイズ法などが公知のものとして知られており、用いることができる。詳しくは非特許文献4、非特許文献5などを参照されたい。
ステップS130では、ステップS110で獲得した音声モデル、映像モデルに、ステップS120で抽出した、それぞれ分析対象となるコンテンツの音声フレーム毎の音声特徴量、映像フレーム毎の映像特徴量を入力することで、音声感情確率、映像感情確率を計算する。ステップS110において、感情カテゴリ毎に確率を計算することができるように音声モデル、映像モデルを構築したため、各音声モデルに音声特徴量を、各映像モデルに映像特徴量をそれぞれ入力することで、音声感情確率、映像感情確率を計算することができる。
また、映像感情確率について、特許文献4に開示されている方法などによって、映像中の顔と判断される領域を検出し、更に、特許文献5に開示されている方法などによって、顔の表情を認識した結果を反映してもよい。
この反映の仕方としては、例えば、顔の表情を認識した結果が、ある感情カテゴリに対応する場合には、その感情カテゴリの映像感情確率を増加させ、その他の感情カテゴリの映像感情確率を、確率の公理を満たすように減少させて規格化する方法を取ることができる。
ここで、音声モデルによって計算された音声感情確率と、映像モデルによって計算された映像感情確率に基づいて、フレームを共通化し、1つの感情確率を計算する(ステップS140)方法の1例について説明する。
例えば、図17に示すように、音声フレーム長が50ms、映像フレーム長が33msとした場合、例えば、1つの音声フレームと重なる映像フレームのうち、最も長時間重なっている映像フレームの映像感情確率pVを、その音声フレームの音声感情確率pAに、感情カテゴリ毎に積算、もしくは、所定の重みを導入し、pAとpVの重み付け平均などを計算することで、これを新たに感情確率pftとすればよい。
また、その他の方法としては、pAとpVのうち、大きい方の値をpftとして採用してもよい。音声信号データが存在しない映像コンテンツの場合には、例えば、pVを二乗するなどのスケーリング調整を行い、これをpftとしてもよい。
これらの場合には、フレームは音声フレームに共通化される。
次に、ステップS150では、共通化されたフレーム毎に計算された感情確率に基づいて、コンテンツ、部分コンテンツの感情、感情度を推定する。この処理は、実施形態の第1例のステップS140(図5、図7)と同様に実行すればよい。
本発明の実施形態の第1例では、部分コンテンツを生成するにあたり、連続する音声であると考えられる音声区間の集合は1つの区間としてまとめ、これを部分コンテンツとした。実施形態の第2例においても、この方法を採用してもよいが、映像特徴量として、ショット長を抽出しているが、このショットを部分コンテンツとするのでもよい。
以下、図1のステップS200以降の処理の流れは、本発明の実施形態の第1例と同様に実行すればよい。
その他、本発明の実施形態として示した1例以外のものであっても、本発明の原理に基づいて取りうる実施形態の範囲においては、適宜その実施形態に変化しうるものである。
以下では、この発明によって所望のコンテンツ又は部分コンテンツの検索・推薦を行う具体的な実施例を示す。
(第1実施例):ユーザ端末HDD内コンテンツの検索・推薦
本実施例は、ユーザ端末内HDD231に蓄積されたコンテンツ検索・推薦を行う例である。この実施例における本発明の具体的装置の構成の1例を図18に示す。
この実施例では、情報制御部300はユーザ端末200に内蔵されており、ユーザ端末内のCPU221、ROM222、RAM223、HDD231(図3)は、それぞれ情報制御部内のCPU301、ROM302、RAM303、HDD304と同一のものとしてよい。
したがって以降本実施例の説明では、情報制御部内の装置に関する表記は対応するユーザ端末内の装置に関する表記を用いる。
事前処理として、ユーザ端末HDD231内に蓄積されたコンテンツについて、感情推定部F100が音声信号データを用いることによって感情及び感情度を推定し、コンテンツ蓄積部F200が、この情報と共にコンテンツ又は部分コンテンツをHDD231内に蓄積する。以下、手順は以下の通りである。
[手順1]ユーザが図19に示すような検索要求入力画面を立ち上げ、キーボード211、ポインティングデバイス212を用いて、感情を検索要求として入力する。例えば、「楽しい」、「かっこいい」と入力する。
[手順2]検索要求を検索要求受付部F300が受け取り、類似度計算部F400が、該検索要求とHDD231内に蓄積されたコンテンツ又は部分コンテンツの感情との類似度を、前記式(7)に従って計算する。
[手順3]結果提示部F500が、各コンテンツの類似度を参照し、降順にランキングしてリストを生成する。更に、このランキング順に属性情報、感情、感情度、及び要約をモニタ241に提示する。
[手順4]ユーザが、キーボード211、ポインティングデバイス212を用いて、視聴したいコンテンツを選択する。
[手順5]ユーザ端末200が、ユーザが選択したコンテンツをHDD231から読み出し、モニタ241に提示、再生する。
[手順6]過去に再生したコンテンツと、現在視聴しているコンテンツの感情度について、前記式(5)に従って計算した重み付け平均値を、検索要求受付部F300が検索要求として受け取り、類似度計算部F400が、該検索要求とHDD231内に蓄積されたコンテンツ又は部分コンテンツの感情との類似度を、前記式(6)に従って計算する。
[手順7]結果提示部F500が、各コンテンツの類似度を参照し、類似度の降順にランキングしてリストを生成する。更に、このランキングの上位のものを所定の数、例えば3つ、その属性情報、及びサムネイルをモニタ241に提示する。
以降、ユーザが利用を終了するまで[手順4]〜[手順7]を繰返してもよいし、ユーザが新たな検索要求を入力してもよい。
(第2実施例):Web上コンテンツの検索・推薦
本実施例は、情報制御部300を備えたサーバ装置500に含まれるデータベース400内に蓄積されたコンテンツを、広域通信網によって接続された各ユーザ端末200a、200b、・・・から検索要求を入力することで検索・推薦を行う例である。特に本実施例では、インターネット通信によるWeb上コンテンツの検索・推薦を例として説明する。この実施例における本発明の具体的装置の構成の1例を図21に示す。ユーザは、情報制御部300を備えたサーバ装置500によって供給される所定のサイトへアクセスを行い、このサイトを通じて検索要求を入力するものとする。
事前処理として、データベース400内に蓄積されたコンテンツについて、音声信号データと映像信号データから感情推定部F100が感情及び感情度を推定し、コンテンツ蓄積部F200が、この情報と共にコンテンツ又は部分コンテンツをデータベース400内に蓄積する。以下、手順は以下の通りである。
[手順1]ユーザがキーボード211、ポインティングデバイス212を用いて操作を行い、所定のWebサイトへアクセスを行う。
[手順2]サーバ装置500が、図19のような検索要求入力画面をユーザ端末200のモニタ241に提示する。
[手順3]ユーザが、ポインティングデバイス212の操作によって、各感情の感情度を調整することで、検索要求を入力する。
[手順4]検索要求を検索要求受付部F300が受信し、類似度計算部F400が、該検索要求とデータベース400内に蓄積されたコンテンツ又は部分コンテンツの感情、感情度との類似度を、前記式(6)に従って計算する。
[手順5]結果提示部F500が、各コンテンツの類似度を参照し、その降順に各コンテンツの属性情報、感情、感情度、及び要約などの情報を含むリストを生成し、ユーザ端末に配信する。
[手順6]ユーザ端末200が、配信されたリストを、モニタ241に提示する。ユーザがキーボード211、ポインティングデバイス212を用いて、視聴したいコンテンツを選択する。
[手順7]サーバ装置500は、ユーザが選択したコンテンツをデータベース400から読み込み、ユーザ端末200に配信する。
[手順8]ユーザ端末200は、サーバ装置より配信されたコンテンツを受信し、モニタ241に提示、再生する。
[手順9]再生しているコンテンツの感情と感情度を検索要求受付部F300が検索要求として受信し、類似度計算部F400が、該検索要求とデータベース400内に蓄積されたコンテンツ又は部分コンテンツの感情度との類似度を、前記式(6)に従って計算する。
[手順10]結果提示部F500が、各コンテンツの類似度を参照し、上位のものから所定の数、例えば3つ、各コンテンツの属性情報、感情、感情度、及び要約などの情報を含むリストを生成、ユーザ端末200に配信する。
以降、ユーザが利用を終了するまで[手順6]〜[手順10]を繰返してもよいし、ユーザが新たな検索要求を入力してもよい。
(第3実施例):テキスト検索と併用したWeb上コンテンツの検索・推薦
本実施例は、第2実施例と同様、情報制御部300を備えたサーバ装置500に含まれるデータベース400内に蓄積されたコンテンツを、インターネットによって接続された各ユーザ端末200a、200b、・・・から検索要求を入力することで検索・推薦を行う例である。
特に本実施例では、本発明のよるコンテンツ検索・推薦装置に加え、更に、従来からコンテンツ検索方法として用いられている、検索要求としてコンテンツのタイトルや、製作者、ジャンル等のテキスト情報を入力し、この検索要求に基づいて、予めこれらの情報を属性情報として付与されたコンテンツのうち、一致する属性情報を持つコンテンツを検索する検索装置600とを併用した場合の実施例である。
この実施例における本発明の具体的装置の構成の1例を、図22に示す。ユーザは、情報制御部300を備えたサーバ装置500によって供給される所定のサイトへアクセスを行い、このサイトを通じて検索要求を入力するものとする。
事前処理として、データベース400内に蓄積されたコンテンツについて、音声信号データと映像信号データから感情推定部F100が感情及び感情度を推定し、この情報と、更に、各コンテンツに予め付与されているタイトル、製作者、ジャンル等のテキスト情報及びそのコンテンツの周囲に記述されている周辺テキストから抽出したキーワード等を含めた属性情報を、コンテンツ蓄積部F200が、この情報と共にコンテンツ又は部分コンテンツをデータベース400内に蓄積する。以下、手順は以下の通りである。
[手順1]ユーザがキーボード211、ポインティングデバイス212を用いて操作を行い、所定のWebサイトへアクセスを行う。
[手順2]サーバ装置500が、図19、もしくは図20のような検索要求入力画面を、ユーザ端末200のモニタ241に提示する。
[手順3]ユーザが、視聴したいコンテンツのタイトル等をテキスト情報として検索画面に入力し、更に、ポインティングデバイス212の操作によって、各感情の感情度を調整することで、検索要求を入力する。
[手順4]検索装置600が検索要求のうち、テキスト情報として入力されたタイトル等の情報に一致する属性情報が付与されたコンテンツをデータベース400から検索し、候補リストを生成する。
[手順5]検索要求のうち、感情、感情度を検索要求受付部F300が受信し、類似度計算部F400が、該検索要求と手順4によって候補リストに含まれたコンテンツの感情、感情度との類似度を、前記式(6)に従って計算する。
[手順6]結果提示部F500が、各コンテンツの類似度を参照し、その降順に各コンテンツの属性情報、感情、感情度、及び要約などの情報を含むリストを生成し、ユーザ端末に配信する。
[手順7]ユーザ端末200が、配信されたリストを、モニタ241に提示する。ユーザがキーボード211、ポインティングデバイス212を用いて、視聴したいコンテンツを選択する。
[手順8]サーバ装置500は、ユーザが選択したコンテンツをデータベース400から読み込み、ユーザ端末200に配信する。
[手順9]ユーザ端末200は、サーバ装置より配信されたコンテンツを受信し、モニタ241に提示、再生する。
[手順10]再生しているコンテンツの感情と感情度を検索要求受付部F300が検索要求として受信し、類似度計算部F400が、該検索要求とデータベース400内に蓄積されたコンテンツ又は部分コンテンツの感情との類似度を、前記式(6)に従って計算する。
[手順11]結果提示部F500が、各コンテンツの類似度を参照し、上位のものから所定の数、例えば3つ、各コンテンツの属性情報、感情、感情度、及び要約などの情報を含むリストを生成、ユーザ端末200に配信する。
以降、ユーザが利用を終了するまで[手順7]〜[手順10]を繰返してもよいし、ユーザが新たな検索要求を入力してもよい。また、この実施例では、先にテキストによる情報に基づいて検索装置600が検索を実行し、検索された候補リストのコンテンツを感情、感情度によって絞込み検索したが、逆に、先に感情、感情度によって候補リストを生成し、テキスト情報による絞込み検索を実行してもよい。
また前記コンテンツ検索・推薦方法をコンピュータに実行させるためのプログラムを構築するものである。
また前記プログラムを記録した記録媒体を、システム、又は装置に供給し、そのシステム又は装置のCPU(MPU)が記録媒体に格納されたプログラムを読み出し実行することも可能である。この場合記録媒体から読み出されたプログラム自体が上記実施形態の機能を実現することになり、このプログラムを記録した記録媒体としては、例えば、CD−ROM,DVD−ROM,CD−R,CD−RW,MO及びHDD等がある。

本発明の実施形態における方法の処理の流れを説明するフロー図。 本発明の実施形態における装置の構成を説明するブロック図。 本発明の実施形態におけるユーザ端末の装置の構成を説明するブロック図。 本発明の実施形態の第1例における感情推定部F100の装置の構成を説明するブロック図。 本発明の実施形態の第1例における感情推定部F100が実行する処理のフロー図。 本発明の実施形態における音声特徴量の抽出を説明する図。 図5のステップS140の処理の流れを説明するフロー図。 本発明の実施形態における部分コンテンツの感情度を説明する図。 本発明の実施形態における感情度の時系列情報の一例を示す図。 図1のステップS300の処理の流れを説明するフロー図。 本発明の実施形態における感情カテゴリを軸に取ったグラフ(レーダーグラフ)を示す図。 本発明の実施形態における感情カテゴリ毎の感情度を調整するイコライザ形のインタフェースを示す図。 本発明の実施形態における感情毎の感情度の時系列情報による検索要求入力インタフェースを示す図。 本発明の実施形態におけるユーザの視聴履歴の1例を示す図。 本発明の実施形態の第2例における感情推定部F100の装置の構成を説明するブロック図。 本発明の実施形態の第2例における感情推定部F100が実行する処理のフロー図。 本発明の実施形態における音声感情確率と映像感情確率から感情確率を計算する方法を説明する図。 本発明の実施形態の第1実施例における装置の具体的な構成の1例を示すブロック図。 本発明の実施形態における検索要求入力画面の1例を示す図。 本発明の実施形態における検索要求入力画面の1例を示す図。 本発明の実施形態の第2実施例における装置の具体的な構成の1例を示すブロック図。 本発明の実施形態の第3実施例における装置の具体的な構成の1例を示すブロック図。
符号の説明
F100…感情推定部、F200…コンテンツ蓄積部、F300…検索要求受付部、F400…類似度計算部、F500…結果提示部、200,200a,200b…ユーザ端末、211…キーボード、212…ポインティングデバイス、221,301…CPU、222,302…ROM、223,303…RAM、231,304…HDD、241…モニタ、300…情報制御部、400…データベース、500…サーバ装置、600…検索装置。

Claims (9)

  1. 感情推定手段が、マルチメディアコンテンツに含まれる音声信号データ及び映像信号データから、コンテンツおよび部分コンテンツの感情及び感情度を推定する感情推定ステップと、
    コンテンツ蓄積手段が、前記感情推定手段によって推定された前記感情と前記感情度をメタデータとして備えたコンテンツを蓄積したコンテンツ蓄積ステップと、
    検索要求受付手段が、前記感情又は前記感情と前記感情度に対応する検索要求を受け付ける検索要求受付ステップと、
    類似度計算手段が、前記検索要求に基づいて、前記コンテンツ又は部分コンテンツの類似度を算出する類似度計算ステップと、
    結果提示手段が、前記類似度に基づいて、コンテンツ又は部分コンテンツの検索・推薦結果を提示する結果提示ステップと、を含み、
    前記感情推定ステップは、
    音声信号データ及び映像信号データから分析フレーム毎に特徴量を抽出する特徴量抽出ステップと、
    前記抽出された特徴量から分析フレーム毎の各感情の音声感情確率と映像感情確率とを求め、これら2つの感情確率に基づいて1つの感情確率を計算する感情確率計算ステップと、
    前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの各感情の感情度を計算する感情度計算ステップと、
    前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの感情を判定する感情判定ステップと、からなる
    ことを特徴とするコンテンツ検索・推薦方法。
  2. 請求項1に記載の方法において、
    前記特徴量抽出ステップは、分析フレーム毎に、音声信号データから基本周波数、基本周波数の時間変動特性、振幅のrms値、振幅のrms値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも1つを音声特徴量として抽出し、映像信号データから、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルの少なくとも1つを映像特徴量として抽出し、
    前記感情確率計算ステップは、学習用音声信号データを用いて予め構成された1つ以上の統計モデルと、学習用映像信号データを用いて予め構成された1つ以上の統計モデルとによって、前記感情における前記音声特徴量の出現確率と、前記感情に対応する1つ以上の状態の時間方向への遷移確率のうち、少なくとも何れか1つに基づいて感情確率を計算する
    ことを特徴とするコンテンツ検索・推薦方法。
  3. 請求項1または2に記載の方法において、前記検索要求受付ステップは、ユーザが視聴している及び/又は視聴した、コンテンツ又は部分コンテンツの前記感情、又は前記感情と前記感情度を参照し、これに基づいて決定された前記検索要求を受け付けることを特徴とするコンテンツ検索・推薦方法。
  4. 請求項1乃至3の何れか1項に記載の方法において、前記結果提示ステップは、前記類似度に基づいてコンテンツ又は部分コンテンツをランキングし、このランキング結果に基づいてコンテンツ又は部分コンテンツの属性情報、前記感情、前記感情度、サムネイル、要約コンテンツのうち少なくとも1つをリスト化して提示することを特徴とするコンテンツ検索・推薦方法。
  5. マルチメディアコンテンツに含まれる音声信号データ及び映像信号データから、コンテンツおよび部分コンテンツの感情及び感情度を推定する感情推定手段と、
    前記感情推定手段によって推定された前記感情と前記感情度をメタデータとして備えたコンテンツを蓄積したコンテンツ蓄積手段と、
    前記感情又は前記感情と前記感情度に対応する検索要求を受け付ける検索要求受付手段と、
    前記検索要求に基づいて、前記コンテンツ又は部分コンテンツの類似度を算出する類似度計算手段と、
    前記類似度に基づいて、コンテンツ又は部分コンテンツの検索・推薦結果を提示する結果提示手段と、を備え、
    前記感情推定手段は、
    音声信号データ及び映像信号データから分析フレーム毎に特徴量を抽出する特徴量抽出手段と、
    前記抽出された特徴量から分析フレーム毎の各感情の音声感情確率と映像感情確率とを求め、これら2つの感情確率に基づいて1つの感情確率を計算する感情確率計算手段と、
    前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの各感情の感情度を計算する感情度計算手段と、
    前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの感情を判定する感情判定手段と、を有する
    ことを特徴とするコンテンツ検索・推薦装置。
  6. 請求項5に記載の装置において、
    前記特徴量抽出手段は、分析フレーム毎に、音声信号データから基本周波数、基本周波数の時間変動特性、振幅のrms値、振幅のrms値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも1つを音声特徴量として抽出し、映像信号データから、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルの少なくとも1つを映像特徴量として抽出し、
    前記感情確率計算手段は、学習用音声信号データを用いて予め構成された1つ以上の統計モデルと、学習用映像信号データを用いて予め構成された1つ以上の統計モデルとによって、前記感情における前記音声特徴量の出現確率と、前記感情に対応する1つ以上の状態の時間方向への遷移確率のうち、少なくとも何れか1つに基づいて感情確率を計算する
    ことを特徴とするコンテンツ検索・推薦装置。
  7. 請求項5または6に記載の装置において、前記検索要求受付手段は、ユーザが視聴している及び/又は視聴した、コンテンツ又は部分コンテンツの前記感情、又は前記感情と前記感情度を参照し、これに基づいて決定された前記検索要求を受け付ける
    ことを特徴とするコンテンツ検索・推薦装置。
  8. 請求項5乃至7の何れか1項に記載の装置において、前記結果提示手段は、前記類似度に基づいてコンテンツ又は部分コンテンツをランキングし、このランキング結果に基づいてコンテンツ又は部分コンテンツの属性情報、前記感情、前記感情度、サムネイル、要約コンテンツのうち少なくとも1つをリスト化して提示することを特徴とするコンテンツ検索・推薦装置。
  9. 請求項1乃至4の何れか1項に記載のコンテンツ検索・推薦方法の各ステップをコンピュータに実行させるためのプログラムとしたことを特徴とするコンテンツ検索・推薦プログラム。
JP2007039945A 2007-02-20 2007-02-20 コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム Expired - Fee Related JP4891802B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007039945A JP4891802B2 (ja) 2007-02-20 2007-02-20 コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007039945A JP4891802B2 (ja) 2007-02-20 2007-02-20 コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム

Publications (2)

Publication Number Publication Date
JP2008204193A JP2008204193A (ja) 2008-09-04
JP4891802B2 true JP4891802B2 (ja) 2012-03-07

Family

ID=39781633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007039945A Expired - Fee Related JP4891802B2 (ja) 2007-02-20 2007-02-20 コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム

Country Status (1)

Country Link
JP (1) JP4891802B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150046833A (ko) * 2013-10-23 2015-05-04 엘지전자 주식회사 Tv 및 그 동작 방법
US11494054B2 (en) 2020-10-20 2022-11-08 International Business Machines Corporation Item recommendation based on computed similarity between automatically generated item and request profiles

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5243070B2 (ja) * 2008-03-14 2013-07-24 ソニー株式会社 情報提供装置、受信端末、情報提供システム、情報提供方法、およびプログラム
JP4986301B2 (ja) * 2008-09-30 2012-07-25 Kddi株式会社 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法
JP5054653B2 (ja) * 2008-10-08 2012-10-24 日本電信電話株式会社 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
WO2010076871A1 (ja) * 2009-01-05 2010-07-08 日本電気株式会社 コンテキスト収集装置、コンテキスト収集プログラム、およびコンテキスト収集方法
JP5388631B2 (ja) 2009-03-03 2014-01-15 株式会社東芝 コンテンツ提示装置、及び方法
JP5113796B2 (ja) * 2009-04-15 2013-01-09 ヤフー株式会社 感情マッチング装置、感情マッチング方法、及びプログラム
JP5715390B2 (ja) * 2009-12-03 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 視聴端末装置、視聴統計装置、視聴統計処理システムおよび視聴統計処理方法
JP2011203943A (ja) * 2010-03-25 2011-10-13 Nippon Telegr & Teleph Corp <Ntt> メタデータ生成装置およびメタデータ生成方法
JP2011210199A (ja) * 2010-03-30 2011-10-20 Toshiba Corp 番組評価表示装置及び番組評価表示方法
JPWO2011122522A1 (ja) * 2010-03-30 2013-07-08 日本電気株式会社 感性表現語選択システム、感性表現語選択方法及びプログラム
JP2011239158A (ja) * 2010-05-10 2011-11-24 Nippon Hoso Kyokai <Nhk> ユーザ反応推定装置、ユーザ反応推定方法およびユーザ反応推定プログラム
JP5116811B2 (ja) * 2010-07-02 2013-01-09 日本電信電話株式会社 番組推薦装置及び方法及びプログラム
US8640021B2 (en) 2010-11-12 2014-01-28 Microsoft Corporation Audience-based presentation and customization of content
JP5803125B2 (ja) * 2011-02-10 2015-11-04 富士通株式会社 音声による抑圧状態検出装置およびプログラム
JP2012222569A (ja) * 2011-04-07 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 番組推薦装置及び方法及びプログラム
US20130054476A1 (en) * 2011-08-23 2013-02-28 The Boeing Company System, method and computer program product for parcel assessment
KR102055887B1 (ko) * 2012-12-26 2019-12-13 주식회사 케이티 사용자의 감성에 기반한 맞춤형 콘텐츠를 제공하는 서버 및 방법
JP5840186B2 (ja) * 2013-09-26 2016-01-06 日本電信電話株式会社 感情検索装置、方法及びプログラム
JP6558364B2 (ja) * 2014-05-22 2019-08-14 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP6199257B2 (ja) * 2014-08-20 2017-09-20 ヤフー株式会社 情報処理装置、情報処理方法及びプログラム
KR101520357B1 (ko) * 2014-09-30 2015-05-15 디투이모션 주식회사 감성 qr 코드를 이용한 개인 맞춤형 컨텐츠 제공 시스템
KR101637282B1 (ko) 2014-12-09 2016-07-07 현대자동차 주식회사 음악 플레이리스트 생성방법, 및 음악 플레이리스트 생성장치
JP6594251B2 (ja) * 2016-04-18 2019-10-23 日本電信電話株式会社 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP7077555B2 (ja) * 2017-09-22 2022-05-31 富士通株式会社 情報制御装置、情報制御システム、情報制御方法及び情報制御プログラム
JP2019219830A (ja) * 2018-06-18 2019-12-26 株式会社コミチ 感情評価方法
US11748418B2 (en) 2018-07-31 2023-09-05 Marvell Asia Pte, Ltd. Storage aggregator controller with metadata computation control
JP6611972B1 (ja) 2019-03-05 2019-11-27 正通 亀井 アドバイス提示システム
KR20210015410A (ko) * 2019-08-02 2021-02-10 삼성전자주식회사 디스플레이 장치 및 이의 제어 방법
WO2021261123A1 (ja) * 2020-06-25 2021-12-30 ソニーグループ株式会社 コンテンツ提示システム、コンテンツ提示装置、及びコンテンツ提示方法
JP7445331B2 (ja) * 2020-11-26 2024-03-07 株式会社I’mbesideyou ビデオミーティング評価端末及びビデオミーティング評価方法
JPWO2022168177A1 (ja) * 2021-02-02 2022-08-11
JPWO2022168176A1 (ja) * 2021-02-02 2022-08-11
WO2022168179A1 (ja) * 2021-02-02 2022-08-11 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
CN113766710B (zh) * 2021-05-06 2023-12-01 深圳市杰理微电子科技有限公司 基于语音检测的智能台灯控制方法以及相关设备
CN115862675B (zh) * 2023-02-10 2023-05-05 之江实验室 一种情感识别方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3098276B2 (ja) * 1991-05-20 2000-10-16 日本電信電話株式会社 表情認識装置
JP3143532B2 (ja) * 1992-11-30 2001-03-07 キヤノン株式会社 画像検索装置及び方法
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
JP3373086B2 (ja) * 1995-07-24 2003-02-04 シャープ株式会社 情報検索装置
JP2001022778A (ja) * 1999-07-09 2001-01-26 Fuji Xerox Co Ltd 検索装置及び検索方法
JP4546767B2 (ja) * 2004-06-09 2010-09-15 日本放送協会 感情推定装置及び感情推定プログラム
JP2005352311A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置および音声合成プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150046833A (ko) * 2013-10-23 2015-05-04 엘지전자 주식회사 Tv 및 그 동작 방법
KR102099594B1 (ko) * 2013-10-23 2020-04-10 엘지전자 주식회사 Tv 및 그 동작 방법
US11494054B2 (en) 2020-10-20 2022-11-08 International Business Machines Corporation Item recommendation based on computed similarity between automatically generated item and request profiles

Also Published As

Publication number Publication date
JP2008204193A (ja) 2008-09-04

Similar Documents

Publication Publication Date Title
JP4891802B2 (ja) コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
US11238899B1 (en) Efficient audio description systems and methods
JP4965322B2 (ja) ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム
JP5691289B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
EP2063416B1 (en) Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program
US8466961B2 (en) Apparatus and method for outputting video images, and purchasing system
JP4981026B2 (ja) 複合ニュース・ストーリーの合成
US20180213284A1 (en) Recommending content based on group collaboration
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
EP1154358A2 (en) Automatic text classification system
US20070244902A1 (en) Internet search-based television
JP5205895B2 (ja) 情報推奨装置
US7904452B2 (en) Information providing server, information providing method, and information providing system
JP2008234431A (ja) コメント蓄積装置、コメント作成閲覧装置、コメント閲覧システムおよびプログラム
JP4568144B2 (ja) 情報提示装置及び情報提示プログラム
JP2008141416A (ja) 番組検索装置
JP2011107808A (ja) コンテンツ推薦装置、コンテンツ推薦方法、及びコンテンツ推薦プログラム
JP4812733B2 (ja) 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体
CN113392273A (zh) 视频播放方法、装置、计算机设备及存储介质
JP2011128790A (ja) ユーザ情報処理プログラム、ユーザ情報処理装置、及び、ユーザ情報処理方法
CN109933691B (zh) 用于内容检索的方法、装置、设备和存储介质
JP4510624B2 (ja) コンテンツのコンテンツベーステーブルを生成するための方法、システム及びプログラムプロダクツ
JP5499566B2 (ja) 動画再生装置、動画再生方法及びプログラム
JP2009302985A (ja) 映像推薦方法、映像推薦装置、映像推薦プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090122

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090611

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110421

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111012

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20111020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111212

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111216

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees