JP4891802B2

JP4891802B2 - コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム

Info

Publication number: JP4891802B2
Application number: JP2007039945A
Authority: JP
Inventors: 豪入江; 浩太日高; 隆佐藤; 行信谷口; 信弥中嶌
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-02-20
Filing date: 2007-02-20
Publication date: 2012-03-07
Anticipated expiration: 2027-02-20
Also published as: JP2008204193A

Description

本発明は、コンテンツ又はその部分コンテンツの感情、及びその感情の強さを表す感情度を推定し、これに基づいてコンテンツの検索・推薦を行うコンテンツ検索・推薦方法、コンテンツ検索・推薦装置、およびコンテンツ検索・推薦プログラムに関する。この発明において、コンテンツとは、映像・音声コンテンツを指すものとし、本発明における音声とは、人間による発話音声のみではなく、歌唱音声、音楽、環境音なども含むものとする。また、感情とは、感情や情動、気分などの心理的状態の他、雰囲気、印象なども含むものとする。

現在、放送に限らず、Ｗｅｂサイトや個人ＰＣにおいても、コンテンツを視聴することが増えてきている。コンテンツの種類も、例えば、映画やドラマ、ホームビデオ、ニュース、ドキュメンタリ、音楽など、非常に多様化している。

これに伴いユーザにとっては、多様なコンテンツの中から嗜好に合ったコンテンツを効率的に発見することが困難になるという問題が生じる。特に、コンテンツは、自分の嗜好に合ったものであるかどうかを確認するために、実際に視聴して内容を把握する必要があるが、これを実行するためには費やす時間コストが非常に大きくなってしまうため、コンテンツ検索技術、更には、嗜好に沿ったコンテンツを自動的に推薦するコンテンツ推薦技術が不可欠となる。更に、同様の理由から、検索実行時に参照するメタデータ等の、コンテンツに係る情報も、人手によらず、自動的に付与されることが望ましい。

コンテンツ検索に関連する従来技術として、下記特許文献１に記載の方法がある。この特許文献１では、被写体の大きさや色などの物理量を、“大・中・小”や、“赤・黄・緑”などに分類することで単語化し、この単語に基づいた検索を実行する方法について開示されている。

尚、本発明に関連する、基本周波数、パワーの抽出方法については下記非特許文献１に記載され、音声速度については下記非特許文献２に記載され、音声モデルのパラメータの推定方法は下記非特許文献３，４に記載され、自然言語処理については下記非特許文献５，６、特許文献２に記載され、映像特徴量の抽出については下記非特許文献７、特許文献３，４，５に記載され、オプティカルフローの計算方法については下記非特許文献８に記載されている。
特開平５−２８２３８０号公報特開平５−７３３１７号公報特許第３４０８１１７号特開２００５−１５７９１１号特許第３０９８２７６号「ディジタル音声処理第４章４．９ピッチ抽出」、古井貞熙、東海大学出版会、ｐｐ．５７−５９、１９８５年９月「音声の動的尺度に含まれる個人性情報」、嵯峨山茂樹、板倉文忠、日本音響学会昭和５４年度春季研究発表会講演論文集、３−２−７、ｐｐ．５８９−５９０、１９７９年「わかりやすいパターン認識」、石井健一郎、上田修功、前田栄作、村瀬洋、オーム社、ｐｐ５２−５４、１９９８年「計算統計Ｉ第ＩＩＩ章３ＥＭ法４変分ベイズ法」、上田修功、岩波書店、ｐｐ．１５７−１８６、２００３年６月「日本語語彙大系」、ＮＴＴコミュニケーション科学研究所監修、池原悟、宮崎正弘、白井論、横尾昭男、中岩浩巳、小倉健太郎、大山芳史、林良彦編集、岩波書店、１９９７年「自然言語処理の基礎技術」、電子情報通信学会、コロナ社、１９８８年３月「映像特徴インデクシングに基づく構造化映像ハンドリング機構と映像利用インタフェースに関する研究第３章画像処理に基づく映像インデクシング」、外村佳伸、京都大学博士論文、ｐｐ．１５−２３、２００６「コンピュータ画像処理」、田村秀行編著、オーム社、ｐｐ．２４２−２４７、２００２年１２月

従来の方法は、映像の物理的特徴に基づいた類似検索を実現している。しかし、物理的特徴とユーザの嗜好とは直接結びつくものではないため、ユーザの嗜好を反映した検索・推薦は実行できなかった。

また、コンテンツを視聴する際には、各ユーザの嗜好が重要であるが、同様に、映像視聴時点でのユーザの感情も非常に重要である。ユーザの視聴したいコンテンツは常に同じではなく、ユーザの感情に応じてこれも動的に変化するためである。しかし、従来の方法ではユーザの感情に応じた検索・推薦を実行することはできなかった。

本発明は上記の点に鑑みてなされたものでその目的は、ユーザの感情に応じたコンテンツの検索・推薦が行えるコンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラムを提供することにある。

本発明は、コンテンツを分析することでコンテンツに対して自動的にその感情及び感情度を推定し、これをメタデータとしてコンテンツに自動付与する機能を備える。このメタデータに基づいて検索・推薦を実行することで、ユーザから入力される、感情を反映した検索要求に適したコンテンツ検索・推薦を実現する。

請求項１に記載のコンテンツ検索・推薦方法は、
感情推定手段が、マルチメディアコンテンツに含まれる音声信号データ及び映像信号データから、コンテンツおよび部分コンテンツの感情及び感情度を推定する感情推定ステップと、
コンテンツ蓄積手段が、前記感情推定手段によって推定された前記感情と前記感情度をメタデータとして備えたコンテンツを蓄積したコンテンツ蓄積ステップと、
検索要求受付手段が、前記感情又は前記感情と前記感情度に対応する検索要求を受け付ける検索要求受付ステップと、
類似度計算手段が、前記検索要求に基づいて、前記コンテンツ又は部分コンテンツの類似度を算出する類似度計算ステップと、
結果提示手段が、前記類似度に基づいて、コンテンツ又は部分コンテンツの検索・推薦結果を提示する結果提示ステップと、を含み、
前記感情推定ステップは、
音声信号データ及び映像信号データから分析フレーム毎に特徴量を抽出する特徴量抽出ステップと、
前記抽出された特徴量から分析フレーム毎の各感情の音声感情確率と映像感情確率とを求め、これら２つの感情確率に基づいて１つの感情確率を計算する感情確率計算ステップと、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの各感情の感情度を計算する感情度計算ステップと、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの感情を判定する感情判定ステップと、からなる
ことを特徴としている。

請求項５に記載のコンテンツ検索・推薦装置は、
マルチメディアコンテンツに含まれる音声信号データ及び映像信号データから、コンテンツおよび部分コンテンツの感情及び感情度を推定する感情推定手段と、
前記感情推定手段によって推定された前記感情と前記感情度をメタデータとして備えたコンテンツを蓄積したコンテンツ蓄積手段と、
前記感情又は前記感情と前記感情度に対応する検索要求を受け付ける検索要求受付手段と、
前記検索要求に基づいて、前記コンテンツ又は部分コンテンツの類似度を算出する類似度計算手段と、
前記類似度に基づいて、コンテンツ又は部分コンテンツの検索・推薦結果を提示する結果提示手段と、を備え、
前記感情推定手段は、
音声信号データ及び映像信号データから分析フレーム毎に特徴量を抽出する特徴量抽出手段と、
前記抽出された特徴量から分析フレーム毎の各感情の音声感情確率と映像感情確率とを求め、これら２つの感情確率に基づいて１つの感情確率を計算する感情確率計算手段と、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの各感情の感情度を計算する感情度計算手段と、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの感情を判定する感情判定手段と、を有する
ことを特徴としている。

上記構成により、コンテンツ中に含まれる、音声信号データ及び映像信号データを分析し、その感情を抽出することで、コンテンツの感情及び感情度についてのメタデータを自動生成し、コンテンツに付与することが可能となり、コンテンツの感情と感情度に基づいて、ユーザの感情に応じたコンテンツの検索・推薦が可能となる。

また請求項２に記載のコンテンツ検索・推薦方法は、請求項１に記載の方法において、前記特徴量抽出ステップは、分析フレーム毎に、音声信号データから基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値、振幅のｒｍｓ値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも１つを音声特徴量として抽出し、映像信号データから、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルの少なくとも１つを映像特徴量として抽出し、前記感情確率計算ステップは、学習用音声信号データを用いて予め構成された１つ以上の統計モデルと、学習用映像信号データを用いて予め構成された１つ以上の統計モデルとによって、前記感情における前記音声特徴量の出現確率と、前記感情に対応する１つ以上の状態の時間方向への遷移確率のうち、少なくとも何れか１つに基づいて感情確率を計算することを特徴としている。

また請求項６に記載のコンテンツ検索・推薦装置は、請求項５に記載の装置において、前記特徴量抽出手段は、分析フレーム毎に、音声信号データから基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値、振幅のｒｍｓ値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも１つを音声特徴量として抽出し、映像信号データから、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルの少なくとも１つを映像特徴量として抽出し、前記感情確率計算手段は、学習用音声信号データを用いて予め構成された１つ以上の統計モデルと、学習用映像信号データを用いて予め構成された１つ以上の統計モデルとによって、前記感情における前記音声特徴量の出現確率と、前記感情に対応する１つ以上の状態の時間方向への遷移確率のうち、少なくとも何れか１つに基づいて感情確率を計算することを特徴としている。

上記構成により、感情、感情度を推定する上で重要となる音声特徴量、映像特徴量を抽出し、更に確率的推定を実行することで、多様なコンテンツの音源要因、撮像状況に係らずより安定に精度よく感情、感情度を推定できる。

また請求項３に記載のコンテンツ検索・推薦方法は、請求項１または２に記載の方法において、前記検索要求受付ステップは、ユーザが視聴している及び／又は視聴した、コンテンツ又は部分コンテンツの前記感情、又は前記感情と前記感情度を参照し、これに基づいて決定された前記検索要求を受け付けることを特徴としている。

また請求項７に記載のコンテンツ検索・推薦装置は、請求項５または６に記載の装置において、前記検索要求受付手段は、ユーザが視聴している及び／又は視聴した、コンテンツ又は部分コンテンツの前記感情、又は前記感情と前記感情度を参照し、これに基づいて決定された前記検索要求を受け付けることを特徴としている。

上記構成により、ユーザが現在視聴している、あるいは過去に視聴したコンテンツを手がかりとして、ユーザに検索要求を要請することなく、ユーザの嗜好に合った感情、感情度を持つコンテンツの検索・推薦が可能となる。

また請求項４に記載のコンテンツ検索・推薦方法は、請求項１乃至３の何れか１項に記載の方法において、前記結果提示ステップは、前記類似度に基づいてコンテンツ又は部分コンテンツをランキングし、このランキング結果に基づいてコンテンツ又は部分コンテンツの属性情報、前記感情、前記感情度、サムネイル、要約コンテンツのうち少なくとも１つをリスト化して提示することを特徴としている。

また請求項８に記載のコンテンツ検索・推薦装置は、請求項５乃至７の何れかに記載の装置において、前記結果提示手段は、前記類似度に基づいてコンテンツ又は部分コンテンツをランキングし、このランキング結果に基づいてコンテンツ又は部分コンテンツの属性情報、前記感情、前記感情度、サムネイル、要約コンテンツのうち少なくとも１つをリスト化して提示することを特徴としている。

上記構成により、類似度順に提示するなど、従来の検索・推薦方法に加え、更に、コンテンツのタイトルや、コンテンツの属性情報、感情、感情度、サムネイル、部分コンテンツを要約コンテンツとして提示するなどの結果も合わせて表示することで、ユーザのコンテンツの内容の理解を促進することができ、よりユーザの要求に合致したコンテンツの検索・推薦が可能となる。

また請求項９に記載のコンテンツ検索・推薦プログラムは、請求項１乃至４の何れか１項に記載のコンテンツ検索・推薦方法の各ステップをコンピュータに実行させるためのプログラムとしたことを特徴としている。

上記構成により、本発明による方法をコンピュータによって実行することができる。

（１）本発明によれば、コンテンツ中に含まれる、音声信号データを分析し、その感情を抽出することで、コンテンツの感情及び感情度についてのメタデータを自動生成し、コンテンツに付与することが可能となり、コンテンツの感情と感情度に基づいて、ユーザの感情に応じたコンテンツの検索・推薦が可能となる。
（２）本発明によれば、感情、感情度を推定する上で重要となる音声特徴量を抽出し、更に確率的推定を実行することで、多様なコンテンツの音源要因に係らず、安定かつ高精度に感情、感情度を推定できる。
（３）本発明によれば、コンテンツ中に含まれる音声信号データに加えて、映像信号データを分析することで、コンテンツの感情、感情度の推定精度をより高めることができる。
（４）本発明によれば、感情、感情度を推定する上で重要となる音声特徴量、映像特徴量を抽出し、更に確率的推定を実行することで、多様なコンテンツの音源要因、撮像状況に係らずより安定に精度よく感情、感情度を推定できる。
（５）本発明によれば、ユーザが現在視聴している、あるいは過去に視聴したコンテンツを手がかりとして、ユーザに検索要求を要請することなく、ユーザの嗜好に合った感情、感情度を持つコンテンツの検索・推薦が可能となる。
（６）本発明によれば、類似度順に提示するなど、従来の検索・推薦方法に加え、更に、コンテンツのタイトルや、コンテンツの属性情報、感情、感情度、サムネイル、部分コンテンツを要約コンテンツとして提示するなどの結果も合わせて表示することで、ユーザのコンテンツの内容の理解を促進することができ、よりユーザの要求に合致したコンテンツの検索・推薦が可能となる。
（７）本発明によれば、コンテンツ検索・推薦方法をコンピュータによって実行することができる。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
[実施形態の第１例：音声信号データのみを用いたコンテンツ検索・推薦]
本発明の実施形態の第１例は、コンテンツに含まれる情報のうち、音声信号データのみを用いて感情、感情度を推定する場合である。この実施形態について、図１〜図１２を用いて説明する。

本発明の実施形態に係るコンテンツ検索・推薦方法、コンテンツ検索・推薦装置について説明する。図１は、本発明の実施形態の第１例に係るコンテンツ検索・推薦方法の処理の流れを説明するフロー図、図２は、本発明の実施形態の第１例に係るコンテンツ検索・推薦装置を説明するブロック図である。

この実施形態におけるコンテンツ検索・推薦装置１００では、ユーザ端末２００から入力された検索要求が、所定の通信手段によって情報制御部３００に送信され、この情報制御部３００が、前記検索要求に類似したコンテンツ又は部分コンテンツを、データベース４００に蓄積されたコンテンツ又は部分コンテンツの中から検索し、所定の通信手段によって検索・推薦結果をユーザ端末２００に提示する。

ユーザ端末２００の構成を説明するブロック図を図３に示す。ユーザ端末２００は、例えば、キーボード２１１、マウス等に代表されるポインティングデバイス２１２から構成される入力部２１０、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２２１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２２２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２３から構成される制御部２２０、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）２３１から構成される記憶部２３０、液晶画面等のモニタ画面２４１を有し、入力部２１０の操作に応じて制御部２２０から出力する情報を表示する表示部２４０を備えたものとする。

情報制御部３００は、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＨＤＤ３０４などが相互接続され構成される。本発明における各種の処理は、全てこの情報制御部３００によって行われるものであり、各種処理を実現するプログラム及びデータは、全てＲＯＭ３０２やＨＤＤ３０４などの記憶装置に記憶され、適宜ＲＡＭ３０３に読み出され、ＣＰＵ３０１において処理が実行される。

以下、情報制御部３００、及び、データベース４００に備えられた機能部毎に、処理の流れを説明する。

本発明の感情推定手段である感情推定部Ｆ１００の構成を説明するブロック図を図４に示す。感情推定部Ｆ１００は、コンテンツに含まれる音声信号データから、分析フレーム毎に、基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値（ｒｏｏｔｍｅａｎｓｑｕａｒｅ；自乗平均の平方根；振動正弦波の面積平均値）、振幅のｒｍｓ値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも１つを音声特徴量として抽出する音声特徴量抽出部Ｆ１０１（音声特徴量抽出手段）と、学習用音声信号データを用いて予め構成された１つ以上の統計モデルである、音声モデルによって、音声特徴量の出現する確率として感情確率を計算する感情確率計算部Ｆ１０２（感情確率計算手段）と、感情確率に基づいて、１つ以上の分析フレームを含む部分コンテンツの感情度を計算する感情度計算部Ｆ１０３（感情度計算手段）と、感情確率に基づいて、１つ以上の分析フレームによって構成される部分コンテンツの感情を判定する感情判定部Ｆ１０４（感情判定手段）により構成する。感情度計算部Ｆ１０３及び感情判定部Ｆ１０４は、更に、コンテンツの感情及び感情度を、感情確率、又は部分コンテンツの感情度、又は部分コンテンツの感情と感情度に基づいてそれぞれ推定する。

感情推定部Ｆ１００によって実行されるステップＳ１００は、本発明によって、実際にコンテンツ又は部分コンテンツの検索・推薦を行う前に、予め行っておくステップであり、コンテンツ、部分コンテンツの感情、感情度を推定するステップである。ステップＳ１００の処理の流れを説明するフロー図を図５に示す。ステップＳ１１０は、感情、感情度を求めるために必要となる感情確率を計算するための統計モデルを構築するための処理であり、ステップＳ１２０、ステップＳ１３０はコンテンツ、部分コンテンツの感情確率を計算するための処理である。また、ステップＳ１４０は、コンテンツ、部分コンテンツの感情、感情度を推定するための処理である。
まず予め、後に説明する手順の一例のように、ステップＳ１１０において、学習用音声信号データに基づいて、予め感情確率を計算するための音声モデルを獲得しておく。

ステップＳ１２０では、音声特徴量抽出部Ｆ１０１が、取り込まれたコンテンツの音声信号データから、所望の音声特徴量として分析フレーム（以下、フレームと呼ぶ）毎に計算し、抽出する。この音声特徴量は、基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値、振幅のｒｍｓ値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性のうち１つ以上の要素で構成される。

ステップＳ１３０では、感情確率計算部Ｆ１０２が、ステップＳ１２０において計算された音声特徴量に基づき、フレーム毎に、コンテンツ、部分コンテンツの感情において音声特徴量が出現する確率を、ステップＳ１１０において予め獲得された音声モデルによって計算することで感情確率を求める。

ステップＳ１４０では、ステップＳ１３０で計算したコンテンツ、部分コンテンツのフレーム毎の感情確率に基づいて、感情度計算部Ｆ１０３及び感情判定部Ｆ１０４がそれぞれ、コンテンツ、部分コンテンツの感情及び感情度を推定する。

以下に、各ステップについて詳細を説明する。

まず、ステップＳ１２０では、取り込まれたコンテンツの音声信号データから、所望の音声特徴量をフレーム毎に抽出する。

以下に、音声特徴量抽出方法の１例について説明する。

ここで、各音声特徴量について説明する。コンテンツ、部分コンテンツの感情を推定するにあたり、音声特徴量としては、高次元音声パラメータの解析を必要とする音韻情報と比較して、多様な音源要因の混在した音声に対しても安定して得られ、コンテンツジャンルなど、コンテンツの属性に依存しにくいものが好ましい。

例えば、音声認識等を用いて音声をテキスト情報に変換する等の方法は、このような音韻情報を必要とし、例えば、ニュース映像等の発話者の音声が鮮明に聴き取れるジャンルのコンテンツについては有効である。しかし、映画、ドラマや、ホームビデオ等においては、発話以外にも、背景音楽、環境音等の様々な音源要因が存在するために、発話を鮮明に聴き取ることができず、音声認識が難しい。更に、必ずしも発話のみによってコンテンツの感情が決定されるとは限らず、印象や雰囲気を含めた感情を推定するという目的においては、音楽、効果音、環境音等も重要な要因として扱える音声特徴量が必要である。

このような問題に対して、本発明の実施形態の第１例では、韻律情報、特に、基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値（以下、単にｒｍｓと呼ぶ）、ｒｍｓの時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性等を抽出する。特に、時間変動特性として数種の短時間変化量を用いることによって、コンテンツに含まれる感情を抽出する場合においての感情的な音声における重要な挙動を検出することが可能となる。

時間変動特性の例としては、例えば、フレーム間差分や、回帰係数がある。また、パワーは、パワースペクトル密度などを用いるのでもよい。基本周波数、パワーの抽出法は様々あるが、公知であり、その詳細については、例えば非特許文献１に記載の方法等を参照されたい。

また、発話速度、音楽リズム、テンポ等を含めた音声速度については、例えば非特許文献２に開示されている方法などによって、動的尺度として抽出することができる。例えば、動的尺度のピークを検出し、その数をカウントすることで音声速度を検出する方法をとってもよく、また、音声速度の時間変動特性に相当するピーク間隔の平均値、分散値を計算して音声速度の時間変動特性を検出する方法をとるのでもよい。以下、本発明の実施形態の第１例では、音声速度として動的尺度のピーク間隔平均値を用いるものとする。

これらの音声特徴量を、フレーム毎に抽出する方法の１例を説明する。１フレームの長さ（以下、フレーム長とよぶ）を、例えば５０ｍｓとし、次のフレームは現フレームに対して、例えば、２０ｍｓの時間シフトによって形成されるものとする。図６に示すように、これらのフレーム毎に、各フレーム内での各音声特徴量の平均値、つまり、平均基本周波数、基本周波数の平均時間変動特性、平均ｒｍｓ、ｒｍｓの平均時間変動特性、平均パワー、パワーの平均時間変動特性、動的尺度の平均ピーク間隔平均値などを計算するものとする。あるいは、これらの平均値のみではなく、フレーム内での各音声特徴量の最大値、最小値、または変動幅などを計算して用いてもよい。

ここで、コンテンツ中の感情的な部分に特徴的に現れる音声においては、基本周波数そのものの抽出が困難な場合が多く、しばしば欠損することがある。このため、そのような欠損を補完する効果を容易に得ることのできる、基本周波数の時間変動特性を含むことが好ましい。

更には、話者依存性を低く抑えたまま、判定精度を高めるため、パワーの時間変動特性を更に含むことが好ましい。以上、フレーム毎に行った音声特徴量の抽出処理を、コンテンツ全てに渡るフレームに対して行うことで、全てのフレームにおいて音声特徴量を得ることが可能である。

ステップＳ１３０では、ステップＳ１２０において抽出された各フレームの音声特徴量と、ステップＳ１１０において予め構成しておいた１つ以上の音声モデルとを用いて、各コンテンツ、部分コンテンツの感情における音声特徴量の感情確率が計算される。

ここではまず、音声モデルを構成するためのステップＳ１１０の処理の１例について説明する。音声モデルは、学習用音声信号データから、学習を行うことによって獲得する。学習用音声信号データは、コンテンツの音声信号データ同様、フレーム単位で音声特徴量が抽出されており、更に、人手によって、例えば、“楽しい”、“哀しい”、“怖い”、“激しい”、“かっこいい”、“かわいい”、“エキサイティング”、“情熱的”、“ロマンチック”、“暴力的”、“穏やか”、“癒される”、“暖かい”、“冷たい”、“不気味”などの、予め感情カテゴリとして定めた種類のラベルが付与されているものとする。

ここで、各感情カテゴリを順にｅ¹、ｅ²、・・・と表記し、感情カテゴリの数を＃（Ｋ）と表す。これらの感情カテゴリと、音声モデルを対応付けることで、感情カテゴリ毎に感情確率を計算するための音声モデルを獲得する。この音声モデルとしては、例えば、正規分布、混合正規分布、隠れマルコフモデル、一般化状態空間モデルなどを用いる。好ましくは、感情の時間遷移をモデル化できる、隠れマルコフモデル、一般化状態空間モデルなどの時系列モデルを採用する。

これらの音声モデルのパラメータの推定方法は、例えば、最尤推定法や、ＥＭアルゴリズム、変分ベイズ法などが公知のものとして知られており、用いることができる。詳しくは非特許文献３、非特許文献４などを参照されたい。

ステップＳ１３０では、ステップＳ１１０で獲得した音声モデルに、ステップＳ１２０で抽出した分析対象となるコンテンツのフレーム毎の音声特徴量を入力することで、フレーム毎の感情確率を計算する。ステップＳ１１０において、感情カテゴリ毎に確率を計算することができるように音声モデルを構築したため、各々の音声モデルに音声特徴量を入力することで、各感情カテゴリの確率である、感情確率を計算することができる。

ステップＳ１４０では、ステップＳ１３０において計算された感情確率に基づいて、コンテンツ、部分コンテンツの感情、感情度が推定される。

以下、ステップＳ１４０の処理の１例について説明する。ステップＳ１４０の処理の流れを説明するフロー図を図７に示す。

まず、ステップＳ１４１において、１つ以上のフレームによって構成される部分コンテンツを生成する。

本発明の実施形態の第１例では、連続する音声であると考えられる音声区間の集合は１つの区間としてまとめる処理を行っておく。以下、この連続する音声で構成される音声区間を部分コンテンツとみなす。音声区間を生成する方法は、例えば、音声波形における連続音声区間の周期性を利用して、自己相関関数の変化がある一定値を越えた点を区間境界とする方法がある。

次に、ステップＳ１４２において、構成した部分コンテンツ単位での感情度を、ステップＳ１３０において、感情カテゴリ毎に計算した感情確率に基づいて計算する。

以下、この感情度を計算する方法の１例について説明する。コンテンツ中の部分コンテンツＳの集合を時刻の早いものから順に{Ｓ₁，Ｓ₂，・・・，Ｓ_NS}とする。ここで、ＮＳは部分コンテンツの総数である。また、ある部分コンテンツＳ_iに含まれるフレームを{ｆ₁，ｆ₂，・・・，ｆ_NFi}と置く。ここで、ＮＦｉは部分コンテンツＳ_iに含まれるフレーム数である。各フレームｆ_tは、ステップＳ１３０において、フレーム単位でのｋ番目の感情カテゴリｅ^kの感情確率ｐｆ_t（ｅ^k）が与えられている。これを用いて、ｋ番目の感情カテゴリｅ^kの部分コンテンツＳ_iの感情度ｐＳ_i（ｅ^k）は、例えば、平均値を表す

として計算することや、最大値を表す次式によって計算する。

以上のような計算を、全ての部分コンテンツに渡り行うことで、全ての部分コンテンツに対して感情カテゴリ毎の感情度を計算することが可能である（図８）。

部分コンテンツの感情については、例えば、感情度が最大値となる感情カテゴリを、部分コンテンツＳｉの感情とする。

また、フレーム毎の感情の推移を基に、部分コンテンツの感情を推定するのでもよい。

以下、この方法によって感情度を計算する方法の１例について説明する。

部分コンテンツ内に含まれる、１つ以上の所定の数Ｌの連続するフレームが存在する区間を小部分コンテンツと呼ぶ。このとき、この区間に含まれるそれぞれのフレームの感情を、ｅｆ₁、ｅｆ₂、・・・、ｅｆ_Lと表記する。この感情は、フレーム毎に計算された感情確率を用いて、例えば、その値が最大となる感情カテゴリをその各フレームの感情とすることができる。

この１つ以上の連続するフレームの感情の遷移系列{ｅｆ₁、ｅｆ₂、・・・、ｅｆ_L}を、感情カテゴリと対応付けた、１つ以上の音声モデルによってモデル化する。音声モデルの例としては、Ｎ−ｇｒａｍ、隠れマルコフモデル、一般化状態空間モデルなどを用いることができる。この音声モデルは、学習用音声信号データを用いて学習を行うことによって獲得する。この場合、学習用のデータとしては、ステップＳ１１０で用いた学習用音声信号データを同様に用いることができる。好ましくは、この方法を採用する場合には、これらの音声モデルの構築も、ステップＳ１１０内で実行しておく。

この方法により、部分コンテンツ内の小部分コンテンツ単位で、新たに感情確率を計算することが可能である。感情度の計算は、例えば、以下の手順で行うことができる。

部分コンテンツＳ_iに含まれる小部分コンテンツを{Ｓ₁，Ｓ₂，・・・，Ｓ_NSi}と置く。ここで、Ｎｓｉは部分コンテンツＳ_iに含まれる小部分コンテンツ数である。各小部分コンテンツＳ_tは、ステップＳ１３０において、フレーム単位でのｋ番目の感情カテゴリｅ^kの感情確率ｐｓ_t（ｅ^k）が与えられている。これを用いて、ｋ番目の感情カテゴリｅ^kの部分コンテンツＳ_iの感情度ｐＳ_i（ｅ^k）は、例えば、平均値を表す

これら以外にも、例えば、部分コンテンツ内でフィルタ処理を行ってから感情度を計算するなど、方法は様々あるが、部分コンテンツ間で感情度を比較する場合があるため、感情度はある一定の値の範囲内、例えば０〜１の間に収まるようにすることが好ましい。

次に、ステップＳ１４３において、コンテンツの感情、感情度を推定する。

この方法の１例としては、例えば、コンテンツ全体に渡り、フレーム毎の感情確率、又は、全ての部分コンテンツの感情度の平均値、最大値などを計算することにより、これをコンテンツ全体の感情度としてもよい。また、その他の例として、この感情度の最も大きい感情カテゴリをコンテンツの感情としてもよい。より簡単には、各感情と判定された部分コンテンツの継続時間を計算し、この継続時間が最も長い感情カテゴリをコンテンツの感情と判定してもよく、この場合、部分コンテンツの感情のみを参照することでコンテンツの感情を判定することができる。

また、コンテンツにおいて、各部分コンテンツが存在する時刻、例えば、開始時刻、終了時刻、中央時刻などを保存しておくことで、図９に示すように、コンテンツを通して感情度がどのように変化するのかに関する時系列情報を得ることもできる。

この時系列情報を利用して、コンテンツの特定の時刻付近で最も多く出現している感情カテゴリを、コンテンツ全体の感情としてもよい。例えば、映画やドラマなどのコンテンツの場合、コンテンツの終端時刻付近に、感情に残る重要なシーンが存在している場合が多いが、こういった場合に、終端時刻付近に最も多く出現している感情カテゴリをコンテンツの感情とする、などの利用が可能である。また、この際、終端時刻付近の感情度を参照し、この感情度の最も高い感情カテゴリをコンテンツの感情としてもよい。

図２のコンテンツ蓄積部Ｆ２００（コンテンツ蓄積手段）は、コンテンツ又は部分コンテンツを、感情推定部Ｆ１００が推定した感情、及び感情度と対応づけて、データベース４００に格納する。このデータベース４００は所定の記憶装置とコンテンツ又は部分コンテンツデータによって構成される。この所定の記憶装置は、例えば、個人、家庭内などの比較的小規模な利用範囲の場合は、ユーザ端末内ＨＤＤ、ＨＤＤレコーダ内のＨＤＤ、又はＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などによってユーザ端末と接続された所定のサーバ装置内のＨＤＤとしてもよい。また、ＤＶＤなど持ち出し可能な外部記憶装置によって構成するのでもよい。大規模な利用範囲の場合には、インターネットなどの広域通信網などによってユーザ端末と接続された所定のサーバ装置を伴う記憶装置としてもよい。

図１のステップＳ２００において、コンテンツ蓄積部Ｆ２００は、図５のステップＳ１００を通して計算されたコンテンツの属性情報である感情及び感情度を含めたコンテンツ又は部分コンテンツをデータベース４００に蓄積する。

図２の検索要求受付部Ｆ３００（検索要求受付手段）は、ユーザ端末２００から入力された検索要求を、所定の通信手段を介して受け付ける。以下、ユーザがユーザ端末２００を用いて検索要求を入力し、検索要求受付部Ｆ３００が検索要求を受け付ける処理であるステップＳ３００について説明する。図１０は、ステップＳ３００について説明する図である。

ステップＳ３００Ａでは、ユーザが、所望のコンテンツの感情と感情度を選択し、これを検索要求として入力する。この検索要求は、例えば、図３のキーボード２１１によって感情と感情度を直接入力するものでもよいし、モニタ２４１に表示されたプルダウンメニューなどから選択するものでもよい。

感情と感情度を直接入力する方法の１例としては、各カテゴリに対応する感情語とその強さを表すものを入力する。例えば、ユーザは、「感情：楽しい、感情度：０．９」などと入力することで、「感情：楽しい、感情度：０．９」を検索要求とする。

また、感情カテゴリと直接等しい感情語が入力されないような場合は、同意的な感情カテゴリに対応する感情語と見做し、適宜変換して処理することが考えられる。例えば、ユーザが、「笑える」などと入力し、感情カテゴリに“笑える”が用意されていなくとも、例えば、同意的と類推される“楽しい”、“面白い”などの感情カテゴリが用意されていれば、これらの感情カテゴリに属すると見做して処理を実行することができる。

この時、比較的１つの感情カテゴリに帰属させることが難しい感情語については、複数の感情カテゴリに対応づけるものとしてもよい。例えば、ユーザが、「感情：不気味な、感情度：０．６」と入力した場合、感情カテゴリに“不気味な”が用意されていなくとも、例えばこれを、「感情：怖い、感情度：０．３ＡＮＤ感情：不思議、感情度：０．３」などとして処理を実行することができる。

更には、ユーザの入力は自然文であってもよい。この場合、自然文の中から、形態素解析などの方法によって、感情語を抽出し、対応する感情、感情度に変換すればよい。例えば、ユーザが“超面白い”と入力した場合、“超”→感情度：０．９、“面白い”→感情：楽しい、などと変換できる。

こういった変換は、非特許文献５などに見られるような体系的辞書や、非特許文献６に示されている方法等に基づいて実行することができる。また、“超”→感情度：０．９などに関して、相対的な表現であると解釈できるものについては、特許文献２の方法を用いることができる。このような方法については、予め所定の変換規則を、設計者が設計するのでもよいし、ユーザの実際の主観的感覚を考慮するために学習を用いて構築してもよい。

また、感情や感情度といった感性的な表現は、ユーザにとってはテキスト情報として的確に表現することが難しい場合がある。このような場合は、直観的に分かりやすいグラフィカルなインタフェースによって、検索要求を入力することもできる。例えば、図１１に示すような、各感情の感情度を軸に取ったグラフをモニタ２４１に表示し、ユーザが嗜好の値をポインティングデバイス２１２によって選択することでこれを検索要求の入力としてもよいし、図１２に示すような、音楽プレイヤーなどに搭載されている機能であるイコライザ形のインタフェースをモニタＳ２４１に表示し、ユーザがポインティングデバイス２１２の操作によって、各感情の感情度を調整して入力するものでもよい。

また、これらの方法については、感情カテゴリ全ての感情度を入力する必要はなく、要求したい感情カテゴリについてのみ、感情度を選択するのでもよい。より簡単には、ユーザが所望する感情のみを選択するのでもよい。

ステップ３００Ｂでは、ユーザが視聴している、視聴していたコンテンツの感情と感情度を参照し、これに基づいて検索要求を決定する。決定の方法としては、例えば、ユーザが視聴しているコンテンツの感情と感情度を、直接検索要求とみなしてもよい。

このステップ３００Ｂを経ることで、ユーザが直接検索要求を入力しない場合であっても、ユーザの視聴しているコンテンツの感情、感情度を検索要求とすることで、類似検索を実行することができるという利点がある。

この際、ユーザ毎にコンテンツの視聴履歴を記録しておき、過去に視聴したコンテンツの感情、感情度の情報を基に検索要求に補正を加える処理を行ってもよい。この処理を加えることにより、視聴している、もしくは視聴していたコンテンツの履歴を手がかりとして、これらと類似する感情、感情度を持つコンテンツの検索・推薦を行い、ユーザ毎の嗜好を適応的に反映した検索・推薦結果を提示することが可能となる。

例えば、過去に視聴したコンテンツについて、その視聴時間などを含めて保存しておき、例えば、過去数時間、もしくは数コンテンツの感情度に基づいて検索要求を決定すればよい。例えば、視聴したコンテンツの感情度について、重み付け平均値や最大値を計算し、これを検索要求とみなしてもよい。重み付け平均値についての重みの決定方法としては、例えば、最近視聴されたコンテンツほど重みが大きくなるようにすることや、エビングハウスの忘却曲線など、心理学の知見を取り入れた忘却モデルを導入し、これを過去のコンテンツの視聴時間と対応付けて重みを決定してもよい。

即ち、例えば、あるユーザが、過去数時間に視聴したコンテンツの数をＮＫとおき、各コンテンツのｋ番目の感情カテゴリｅ^kの感情度が、ｐＳ¹（ｅ^k）、ｐＳ²（ｅ^k）、・・・、ｐＳ^NK（ｅ^k）と与えられているとする。

この時、ｋ番目の感情カテゴリｅ^kについての検索要求Ｑ（ｅ^k）は、例えば、

によって計算できる。ここで、ｗｊは重みであり、前述の重みの決定方法によって決定すればよい。

また更に同様の方法によって、コンテンツ毎に、過去数時間における視聴回数を記録しておき、これに基づいて検索要求に補正を加える処理を行ってもよい。この場合には、例えば、検索要求に対して、最近視聴された回数の多い上位幾つか、例えば１０、のコンテンツの感情、感情度との重み付け平均値を計算し、これを最終的な検索要求とするのでもよい。この処理を加えることにより、最近よく視聴されているコンテンツの感情、感情度を反映した検索・推薦結果を提示することができる。

その他の方法としては、過去数時間において視聴されたコンテンツの感情、感情度の視聴順序パターンを分析し、その情報を基に検索要求を補正することもできる。例えば、図１４に示すように、あるユーザが、時間軸に沿って“楽しい”感情度の高いコンテンツ、“哀しい”感情度の高いコンテンツ、“楽しい”感情度の高いコンテンツ、の順序で視聴することが多いユーザである場合には、このユーザは、“楽しい”コンテンツを続けて視聴するよりは、“楽しい”ものと“哀しい”ものを交互に視聴することを好む、もしくはそのような気分であるユーザであると見做し、このパターンを検索要求に反映すればよい。

即ち、例えば、該ユーザが、現在“楽しい”コンテンツを視聴していれば、 “哀しい”感情度の高いコンテンツを推薦し、現在“哀しい”コンテンツを視聴していれば、“楽しい”コンテンツを推薦するように、検索要求を補正する。

また、図９に示すように、部分コンテンツ毎に感情、感情度が計算され、感情、感情度の時間変化が取得できる場合には、これと対応付けるように、図１３に示すような検索要求入力インタフェースをユーザに提示し、感情毎に、感情度の時間変化を自由に描くことができるようにし、これを検索入力としてもよい。

本発明の原理によれば、ステップＳ３００Ａ、Ｓ３００Ｂのうち、少なくとも１つのステップを実行することで、検索・推薦を実現することが可能であるが、これら双方を組み合わせて検索要求を決定し、入力することもできる。

この場合には、例えば、ステップＳ３００Ａ、Ｓ３００Ｂそれぞれによって得られた検索要求のＡＮＤもしくはＯＲを取ったものを最終的な検索要求としてもよい。また、感情度が検索要求に含まれる場合には、この重み付け平均値を計算し、これを最終的な検索要求としてもよい。

図２の検索要求受付部Ｆ３００（検索要求受付手段）は、上記ステップを通して入力された検索要求を受け付ける。

図２の類似度計算部Ｆ４００（類似度計算手段）は、検索要求受付部Ｆ３００が受け付けた検索要求と、データベース４００に蓄積されたコンテンツ又は部分コンテンツの感情及び感情度から、それらの類似度を計算する。以下、類似度計算部Ｆ４００が実行する処理である図１のステップＳ４００について説明する。

ステップＳ４００では、ステップＳ３００で入力された検索要求と、ステップＳ２００において予め蓄積されたデータベース中のコンテンツに付与された感情と感情度を照らし合わせ、類似度を計算する。

ここで検索要求の、ｋ番目の感情カテゴリｅ^kの感情度をｒ（ｅ^k）、コンテンツ又は部分コンテンツに付与されたｋ番目の感情カテゴリｅ^kの感情度をｐ（ｅ^k）と表す。類似度ｆｓは、検索要求として入力された感情、感情度と、コンテンツ又は部分コンテンツに付与された感情、感情度との比較によって計算し、例えば、ユーザが選択した感情カテゴリのインデクス集合をＫ、その数を＃（Ｋ）とすれば、

によって計算することができる。

また、ユーザの検索要求として感情のみが選択され、感情度が入力されなかった場合には、

によって計算することもできる。以上のような処理により、コンテンツ又は部分コンテンツ毎に検索要求に対する類似度を計算することができる。

図２の結果提示部Ｆ５００（結果提示手段）は、類似度計算部Ｆ４００によって計算された類似度に基づいて、検索結果を生成し、ユーザ端末２００に結果を送信する。ユーザ端末２００は、この結果を受信し、モニタ２４１に提示する。以下、結果提示部Ｆ５００が実行する処理手順である図１のステップＳ５００について説明する。

ステップＳ５００では、ステップＳ４００で計算された類似度に基づいて、検索結果を生成し、ユーザに提示する。提示の方法としては、各コンテンツの類似度の高い順に、コンテンツの属性情報、感情と感情度、サムネイル、要約などのうち少なくとも１つをリストして提示する。

属性情報としては、コンテンツのタイトル、製作者、キーワード、概要、作成日時、フォーマット、コンテンツの存在するＵＲＬやパス、関連するコンテンツの属性情報などが考えられ、これらは、例えば、ＭＰＥＧ７など、ＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｕｇｕａｇｅ）による記述形式に則っている場合などには付与することが可能である。

感情と感情度については、本発明のステップＳ１００において計算されているものをモニタ２４１に提示する。この提示の形式としては、例えば、感情と感情度をテキスト形式で表示するもの、図９に示したように、コンテンツを通して感情度がどのように変化するのかに関する時系列情報を提示するもの、図１１に示したような、各感情の感情度を軸に取ったグラフを用いて提示するものなどが挙げられる。

要約については、部分コンテンツであれば、それを提示してもよいし、コンテンツであれば、これに含まれる部分コンテンツのうち、検索要求に対して類似度の高い順に１つ以上の部分コンテンツを抽出し、これを要約として提示してもよい。何れの場合も、要約は、例えば、要約が提示されているモニタ２４１上の領域を、ユーザがポインティングデバイス２１２などを用いてポイントするなどの操作によって再生、視聴可能なものとする。

また、部分コンテンツ毎に感情度が推定されているため、ユーザが実際にコンテンツを視聴する際に、ユーザが視聴を希望しない部分を抑圧するように編集して再生することも可能である。例えば、ユーザが“怖い”感情の部分についての視聴を希望しない場合には、部分コンテンツのうち、“怖い”感情であると推定されている部分については、例えば、予め秒読みを行うなどによって通知する、映像にモザイクや暗転などの加工を施す、音量を下げるなどの編集を行うことができる。

この他、Ｒ指定やＰＧ指定されている制限コンテンツなどについて、制限の要因となっている感情を含む部分コンテンツを、同様に編集して視聴する、もしくはそのコンテンツ自体を再生しないようにすることも可能となる。この編集の適用・非適用を、ユーザ毎に変更可能とすることによって、例えば、子供に視聴させたくないコンテンツを、自動的に提示しないような設定を行うなどの利用ができる。

サムネイルについては、前述の要約のうち所定の時間箇所、例えば、要約映像の先頭の画像、中央の画像などを静止画として抽出し、提示する、といった方法がある。また、コンテンツ、又は部分コンテンツを通して、最も感情確率の高いフレームから、感情確率について降順に所定数抽出してもよい。

以上、この発明によるコンテンツ検索・推薦方法の、実施形態における方法の１例について詳細に説明した。
[実施形態の第２例：音声信号データと映像信号データを用いたコンテンツ検索・推薦]
本発明の実施形態の第２例は、音声信号データに加え、映像信号データも用いてコンテンツの感情、感情度を推定する場合である。本発明の実施形態の第２例に係る処理の流れ、装置の具体的構成は、それぞれ図１のフロー図、図２のブロック図の範囲に示されている限り、本発明の実施形態の第１例と同じとしてよい。

実施形態の第１例との違いは、感情推定部Ｆ１００において、音声信号データのみではなく、映像信号データも用いて、感情確率を計算する点である。以下、本実施形態の第２例の感情推定部Ｆ１００によって実行される、ステップＳ１００について説明する。以降の処理の流れ、及び装置の具体的構成は、全て実施形態の第１例と同じとしてよい。

感情推定部Ｆ１００の構成を、図１５を用いて説明する。感情推定部Ｆ１００は、コンテンツに含まれる音声信号データから、分析フレーム毎に、基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値、振幅のｒｍｓ値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも１つを音声特徴量として抽出する音声特徴量抽出部Ｆ１０１Ａと、映像信号データから、分析フレーム毎に、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルの少なくとも１つを映像特徴量として抽出する映像特徴量抽出部Ｆ１０１Ｂと、学習用音声信号データ、学習用映像信号データをそれぞれ用い、予め構成された統計モデルである、１つ以上の音声モデルと映像モデルによって、特徴量の出現する確率として感情確率を計算する感情確率計算部Ｆ１０２と、感情確率に基づいて、１つ以上の分析フレームを含む部分コンテンツの感情度を計算する感情度計算部Ｆ１０３と、感情確率に基づいて、１つ以上の分析フレームによって構成される部分コンテンツの感情を判定する感情判定部Ｆ１０４により構成する。感情度計算部Ｆ１０３及び感情判定部Ｆ１０４は、更に、コンテンツの感情及び感情度を、感情確率、又は部分コンテンツの感情度、又は部分コンテンツの感情と感情度に基づいてそれぞれ推定する。

感情推定部Ｆ１００によって実行されるステップＳ１００は、本発明によって、実際にコンテンツ又は部分コンテンツの検索・推薦を行う前に、予め行っておく。

ステップＳ１００の処理の流れを説明するフロー図を図１６に示す。ステップＳ１１０は、感情、感情度を求めるために必要となる感情確率を計算するための音声モデル、映像モデルを構築するための処理であり、Ｓ１２０〜Ｓ１４０はコンテンツ、部分コンテンツの感情確率を計算するための処理である。また、Ｓ１５０は、コンテンツ、部分コンテンツの感情、感情度を推定するための処理である。

まず予め、後に説明する手順の一例のように、ステップＳ１１０において、学習用音声信号データ、学習用映像信号データに基づいて、予め感情確率を計算するための１つ以上の音声モデル、映像モデルを獲得しておく。

ステップＳ１２０では、音声特徴量抽出部Ｆ１０１Ａが、取り込まれたコンテンツの音声信号データから、所望の音声特徴量として分析フレーム（以下、音声フレームと呼ぶ）毎に計算し、抽出する。また、映像特徴量抽出部Ｆ１０１Ｂが、取り込まれたコンテンツの映像信号データから、所望の映像特徴量として分析フレーム（以下、映像フレームと呼ぶ）毎に計算し、抽出する。音声特徴量としては、基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値、振幅のｒｍｓ値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性のうち１つ以上の要素、映像特徴量としては、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルのうち１つ以上の要素で構成される。

ステップＳ１３０では、感情確率計算部Ｆ１０２が、ステップＳ１２０において計算された音声特徴量、映像特徴量に基づき、コンテンツ、部分コンテンツの感情において、音声フレーム、映像フレーム毎に、それぞれ音声特徴量、映像特徴量が出現する確率として、音声感情確率と映像感情確率を求める。この際、ステップＳ１１０において予め獲得された音声モデル、映像モデルを用いる。

ステップＳ１４０では、ステップＳ１３０において、音声フレーム毎に計算した音声感情確率と、映像フレーム毎に計算した映像感情確率に基づいて、音声フレームと映像フレームを共通化したフレーム毎の感情確率を求める。

ステップＳ１５０では、ステップＳ１４０で計算したコンテンツ、部分コンテンツのフレーム毎の感情確率に基づいて、感情度計算部Ｆ１０３及び感情判定部Ｆ１０４がそれぞれ、コンテンツ、部分コンテンツの感情及び感情度を推定する。

以下に、各ステップについて詳細を説明する。

まず、図１６のステップＳ１２０では、取り込まれたコンテンツの音声信号データ、及び映像信号データから、それぞれ所望の音声特徴量、映像特徴量をフレーム毎に抽出する。音声特徴量の抽出については、実施形態の第１例と同様であるので、以下に、映像特徴量抽出方法の１例について説明する。

映像特徴量は、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトル等を抽出するものとする。時間変動特性の例としては、例えば、フレーム間差分がある。
映像特徴量には、映像フレーム毎に抽出を行う。映像フレームとしては、例えば、１映像フレームの長さを３３ｍｓとし、次の映像フレームは現映像フレームに対して、例えば、３３ｍｓの時間シフトによって形成されるものとすればよい。

ここで、ショット長、動きベクトル、色ヒストグラムなどの基本的な抽出方法は様々あるが、これらは公知であり、例えば、非特許文献７などに示されている方法を用いることができる。

ショット長については、３３ｍｓの映像フレーム内で抽出することは事実上不可能であるので、例えば、対象としている映像フレームが含まれるショットの長さとして抽出すればよい。また、１つ以上のショットを含むある区間におけるショット長の平均値や最大値、最小値などを用いてもよい。

色ヒストグラムについては、例えば、次のように抽出する。

映像フレーム中の画素毎に、色相（Ｈｕｅ）を抽出する。この色相は、例えば１１や２５６など、所定の数Ｑに量子化しておくことで、全画素がＱ個の量子のうち何れに該当するかを求めることができる。これを全画素に渡り実行し、量子毎の出現数を計数することにより、映像フレームの色相ヒストグラムが抽出できる。

また、ある特定の領域のみについてのヒストグラムを抽出してもよい。

動きベクトルについては、例えば、オプティカルフローを計算することによって、Ｘ成分とＹ成分からなるベクトルとして抽出することができる。オプティカルフローの計算の方法としては、例えば、非特許文献８などを用いることができる。この他、例えば、映像フレーム毎にノルムを計算するのでもよいし、特許文献３に開示されている方法などを用いて、パン、チルト、ズームなどのカメラ操作を検出し、それぞれ個別に単位時間辺りの操作量などとして計量化するのでもよい。

ステップＳ１３０では、ステップＳ１２０において抽出された各音声フレームの音声特徴量、映像フレームの映像特徴量と、ステップＳ１１０において予め構成しておいた１つ以上の音声モデル、映像モデルとを用いて、コンテンツ、部分コンテンツの感情における音声感情確率、映像感情確率がそれぞれ計算される。

ここではまず、統計モデルを構成するためのステップＳ１１０の処理の１例について説明する。音声モデルについては、実施形態の第１例と同様の方法によって獲得すればよい。以下では、映像モデルの獲得方法について説明する。

映像モデルは、学習用映像信号データから、学習を行うことによって獲得する。学習用映像信号データは、コンテンツの映像信号データ同様、映像フレーム単位で映像特徴量が抽出されており、更に、人手によって、前述したような感情カテゴリとして定めた種類のラベルが付与されているものとする。この実施形態の第２例においては、映像信号データによって分類される感情カテゴリは、音声モデルが推定するための感情カテゴリと同一であるとする。

これらの感情カテゴリと、各映像モデルを対応付けることで、感情カテゴリ毎に映像感情確率を計算するための映像モデルを獲得する。これらのモデルとしては、例えば、正規分布、混合正規分布、隠れマルコフモデル、一般化状態空間モデルなどを用いるのでもよい。好ましくは、感情の時間遷移をモデル化できる、隠れマルコフモデル、一般化状態空間モデルなどの時系列モデルを採用する。

これらの映像モデルのパラメータの推定方法は、例えば、最尤推定法や、ＥＭアルゴリズム、変分ベイズ法などが公知のものとして知られており、用いることができる。詳しくは非特許文献４、非特許文献５などを参照されたい。

ステップＳ１３０では、ステップＳ１１０で獲得した音声モデル、映像モデルに、ステップＳ１２０で抽出した、それぞれ分析対象となるコンテンツの音声フレーム毎の音声特徴量、映像フレーム毎の映像特徴量を入力することで、音声感情確率、映像感情確率を計算する。ステップＳ１１０において、感情カテゴリ毎に確率を計算することができるように音声モデル、映像モデルを構築したため、各音声モデルに音声特徴量を、各映像モデルに映像特徴量をそれぞれ入力することで、音声感情確率、映像感情確率を計算することができる。

また、映像感情確率について、特許文献４に開示されている方法などによって、映像中の顔と判断される領域を検出し、更に、特許文献５に開示されている方法などによって、顔の表情を認識した結果を反映してもよい。

この反映の仕方としては、例えば、顔の表情を認識した結果が、ある感情カテゴリに対応する場合には、その感情カテゴリの映像感情確率を増加させ、その他の感情カテゴリの映像感情確率を、確率の公理を満たすように減少させて規格化する方法を取ることができる。

ここで、音声モデルによって計算された音声感情確率と、映像モデルによって計算された映像感情確率に基づいて、フレームを共通化し、１つの感情確率を計算する（ステップＳ１４０）方法の１例について説明する。

例えば、図１７に示すように、音声フレーム長が５０ｍｓ、映像フレーム長が３３ｍｓとした場合、例えば、１つの音声フレームと重なる映像フレームのうち、最も長時間重なっている映像フレームの映像感情確率ｐＶを、その音声フレームの音声感情確率ｐＡに、感情カテゴリ毎に積算、もしくは、所定の重みを導入し、ｐＡとｐＶの重み付け平均などを計算することで、これを新たに感情確率ｐｆ_tとすればよい。

また、その他の方法としては、ｐＡとｐＶのうち、大きい方の値をｐｆ_tとして採用してもよい。音声信号データが存在しない映像コンテンツの場合には、例えば、ｐＶを二乗するなどのスケーリング調整を行い、これをｐｆ_tとしてもよい。

これらの場合には、フレームは音声フレームに共通化される。

次に、ステップＳ１５０では、共通化されたフレーム毎に計算された感情確率に基づいて、コンテンツ、部分コンテンツの感情、感情度を推定する。この処理は、実施形態の第１例のステップＳ１４０（図５、図７）と同様に実行すればよい。

本発明の実施形態の第１例では、部分コンテンツを生成するにあたり、連続する音声であると考えられる音声区間の集合は１つの区間としてまとめ、これを部分コンテンツとした。実施形態の第２例においても、この方法を採用してもよいが、映像特徴量として、ショット長を抽出しているが、このショットを部分コンテンツとするのでもよい。

以下、図１のステップＳ２００以降の処理の流れは、本発明の実施形態の第１例と同様に実行すればよい。

その他、本発明の実施形態として示した１例以外のものであっても、本発明の原理に基づいて取りうる実施形態の範囲においては、適宜その実施形態に変化しうるものである。

以下では、この発明によって所望のコンテンツ又は部分コンテンツの検索・推薦を行う具体的な実施例を示す。
（第１実施例）：ユーザ端末ＨＤＤ内コンテンツの検索・推薦
本実施例は、ユーザ端末内ＨＤＤ２３１に蓄積されたコンテンツ検索・推薦を行う例である。この実施例における本発明の具体的装置の構成の１例を図１８に示す。

この実施例では、情報制御部３００はユーザ端末２００に内蔵されており、ユーザ端末内のＣＰＵ２２１、ＲＯＭ２２２、ＲＡＭ２２３、ＨＤＤ２３１（図３）は、それぞれ情報制御部内のＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＨＤＤ３０４と同一のものとしてよい。

したがって以降本実施例の説明では、情報制御部内の装置に関する表記は対応するユーザ端末内の装置に関する表記を用いる。

事前処理として、ユーザ端末ＨＤＤ２３１内に蓄積されたコンテンツについて、感情推定部Ｆ１００が音声信号データを用いることによって感情及び感情度を推定し、コンテンツ蓄積部Ｆ２００が、この情報と共にコンテンツ又は部分コンテンツをＨＤＤ２３１内に蓄積する。以下、手順は以下の通りである。
[手順１]ユーザが図１９に示すような検索要求入力画面を立ち上げ、キーボード２１１、ポインティングデバイス２１２を用いて、感情を検索要求として入力する。例えば、「楽しい」、「かっこいい」と入力する。
[手順２]検索要求を検索要求受付部Ｆ３００が受け取り、類似度計算部Ｆ４００が、該検索要求とＨＤＤ２３１内に蓄積されたコンテンツ又は部分コンテンツの感情との類似度を、前記式（７）に従って計算する。
[手順３]結果提示部Ｆ５００が、各コンテンツの類似度を参照し、降順にランキングしてリストを生成する。更に、このランキング順に属性情報、感情、感情度、及び要約をモニタ２４１に提示する。
[手順４]ユーザが、キーボード２１１、ポインティングデバイス２１２を用いて、視聴したいコンテンツを選択する。
[手順５]ユーザ端末２００が、ユーザが選択したコンテンツをＨＤＤ２３１から読み出し、モニタ２４１に提示、再生する。
[手順６]過去に再生したコンテンツと、現在視聴しているコンテンツの感情度について、前記式（５）に従って計算した重み付け平均値を、検索要求受付部Ｆ３００が検索要求として受け取り、類似度計算部Ｆ４００が、該検索要求とＨＤＤ２３１内に蓄積されたコンテンツ又は部分コンテンツの感情との類似度を、前記式（６）に従って計算する。
[手順７]結果提示部Ｆ５００が、各コンテンツの類似度を参照し、類似度の降順にランキングしてリストを生成する。更に、このランキングの上位のものを所定の数、例えば３つ、その属性情報、及びサムネイルをモニタ２４１に提示する。
以降、ユーザが利用を終了するまで[手順４]〜[手順７]を繰返してもよいし、ユーザが新たな検索要求を入力してもよい。
（第２実施例）：Ｗｅｂ上コンテンツの検索・推薦
本実施例は、情報制御部３００を備えたサーバ装置５００に含まれるデータベース４００内に蓄積されたコンテンツを、広域通信網によって接続された各ユーザ端末２００ａ、２００ｂ、・・・から検索要求を入力することで検索・推薦を行う例である。特に本実施例では、インターネット通信によるＷｅｂ上コンテンツの検索・推薦を例として説明する。この実施例における本発明の具体的装置の構成の１例を図２１に示す。ユーザは、情報制御部３００を備えたサーバ装置５００によって供給される所定のサイトへアクセスを行い、このサイトを通じて検索要求を入力するものとする。

事前処理として、データベース４００内に蓄積されたコンテンツについて、音声信号データと映像信号データから感情推定部Ｆ１００が感情及び感情度を推定し、コンテンツ蓄積部Ｆ２００が、この情報と共にコンテンツ又は部分コンテンツをデータベース４００内に蓄積する。以下、手順は以下の通りである。
[手順１]ユーザがキーボード２１１、ポインティングデバイス２１２を用いて操作を行い、所定のＷｅｂサイトへアクセスを行う。
[手順２]サーバ装置５００が、図１９のような検索要求入力画面をユーザ端末２００のモニタ２４１に提示する。
[手順３]ユーザが、ポインティングデバイス２１２の操作によって、各感情の感情度を調整することで、検索要求を入力する。
[手順４]検索要求を検索要求受付部Ｆ３００が受信し、類似度計算部Ｆ４００が、該検索要求とデータベース４００内に蓄積されたコンテンツ又は部分コンテンツの感情、感情度との類似度を、前記式（６）に従って計算する。
[手順５]結果提示部Ｆ５００が、各コンテンツの類似度を参照し、その降順に各コンテンツの属性情報、感情、感情度、及び要約などの情報を含むリストを生成し、ユーザ端末に配信する。
[手順６]ユーザ端末２００が、配信されたリストを、モニタ２４１に提示する。ユーザがキーボード２１１、ポインティングデバイス２１２を用いて、視聴したいコンテンツを選択する。
[手順７]サーバ装置５００は、ユーザが選択したコンテンツをデータベース４００から読み込み、ユーザ端末２００に配信する。
[手順８]ユーザ端末２００は、サーバ装置より配信されたコンテンツを受信し、モニタ２４１に提示、再生する。
[手順９]再生しているコンテンツの感情と感情度を検索要求受付部Ｆ３００が検索要求として受信し、類似度計算部Ｆ４００が、該検索要求とデータベース４００内に蓄積されたコンテンツ又は部分コンテンツの感情度との類似度を、前記式（６）に従って計算する。
[手順１０]結果提示部Ｆ５００が、各コンテンツの類似度を参照し、上位のものから所定の数、例えば３つ、各コンテンツの属性情報、感情、感情度、及び要約などの情報を含むリストを生成、ユーザ端末２００に配信する。
以降、ユーザが利用を終了するまで[手順６]〜[手順１０]を繰返してもよいし、ユーザが新たな検索要求を入力してもよい。
（第３実施例）：テキスト検索と併用したＷｅｂ上コンテンツの検索・推薦
本実施例は、第２実施例と同様、情報制御部３００を備えたサーバ装置５００に含まれるデータベース４００内に蓄積されたコンテンツを、インターネットによって接続された各ユーザ端末２００ａ、２００ｂ、・・・から検索要求を入力することで検索・推薦を行う例である。

特に本実施例では、本発明のよるコンテンツ検索・推薦装置に加え、更に、従来からコンテンツ検索方法として用いられている、検索要求としてコンテンツのタイトルや、製作者、ジャンル等のテキスト情報を入力し、この検索要求に基づいて、予めこれらの情報を属性情報として付与されたコンテンツのうち、一致する属性情報を持つコンテンツを検索する検索装置６００とを併用した場合の実施例である。

この実施例における本発明の具体的装置の構成の１例を、図２２に示す。ユーザは、情報制御部３００を備えたサーバ装置５００によって供給される所定のサイトへアクセスを行い、このサイトを通じて検索要求を入力するものとする。

事前処理として、データベース４００内に蓄積されたコンテンツについて、音声信号データと映像信号データから感情推定部Ｆ１００が感情及び感情度を推定し、この情報と、更に、各コンテンツに予め付与されているタイトル、製作者、ジャンル等のテキスト情報及びそのコンテンツの周囲に記述されている周辺テキストから抽出したキーワード等を含めた属性情報を、コンテンツ蓄積部Ｆ２００が、この情報と共にコンテンツ又は部分コンテンツをデータベース４００内に蓄積する。以下、手順は以下の通りである。
[手順１]ユーザがキーボード２１１、ポインティングデバイス２１２を用いて操作を行い、所定のＷｅｂサイトへアクセスを行う。
[手順２]サーバ装置５００が、図１９、もしくは図２０のような検索要求入力画面を、ユーザ端末２００のモニタ２４１に提示する。
[手順３]ユーザが、視聴したいコンテンツのタイトル等をテキスト情報として検索画面に入力し、更に、ポインティングデバイス２１２の操作によって、各感情の感情度を調整することで、検索要求を入力する。
[手順４]検索装置６００が検索要求のうち、テキスト情報として入力されたタイトル等の情報に一致する属性情報が付与されたコンテンツをデータベース４００から検索し、候補リストを生成する。
[手順５]検索要求のうち、感情、感情度を検索要求受付部Ｆ３００が受信し、類似度計算部Ｆ４００が、該検索要求と手順４によって候補リストに含まれたコンテンツの感情、感情度との類似度を、前記式（６）に従って計算する。
[手順６]結果提示部Ｆ５００が、各コンテンツの類似度を参照し、その降順に各コンテンツの属性情報、感情、感情度、及び要約などの情報を含むリストを生成し、ユーザ端末に配信する。
[手順７]ユーザ端末２００が、配信されたリストを、モニタ２４１に提示する。ユーザがキーボード２１１、ポインティングデバイス２１２を用いて、視聴したいコンテンツを選択する。
[手順８]サーバ装置５００は、ユーザが選択したコンテンツをデータベース４００から読み込み、ユーザ端末２００に配信する。
[手順９]ユーザ端末２００は、サーバ装置より配信されたコンテンツを受信し、モニタ２４１に提示、再生する。
[手順１０]再生しているコンテンツの感情と感情度を検索要求受付部Ｆ３００が検索要求として受信し、類似度計算部Ｆ４００が、該検索要求とデータベース４００内に蓄積されたコンテンツ又は部分コンテンツの感情との類似度を、前記式（６）に従って計算する。
[手順１１]結果提示部Ｆ５００が、各コンテンツの類似度を参照し、上位のものから所定の数、例えば３つ、各コンテンツの属性情報、感情、感情度、及び要約などの情報を含むリストを生成、ユーザ端末２００に配信する。
以降、ユーザが利用を終了するまで[手順７]〜[手順１０]を繰返してもよいし、ユーザが新たな検索要求を入力してもよい。また、この実施例では、先にテキストによる情報に基づいて検索装置６００が検索を実行し、検索された候補リストのコンテンツを感情、感情度によって絞込み検索したが、逆に、先に感情、感情度によって候補リストを生成し、テキスト情報による絞込み検索を実行してもよい。

また前記コンテンツ検索・推薦方法をコンピュータに実行させるためのプログラムを構築するものである。

また前記プログラムを記録した記録媒体を、システム、又は装置に供給し、そのシステム又は装置のＣＰＵ（ＭＰＵ）が記録媒体に格納されたプログラムを読み出し実行することも可能である。この場合記録媒体から読み出されたプログラム自体が上記実施形態の機能を実現することになり、このプログラムを記録した記録媒体としては、例えば、ＣＤ−ＲＯＭ，ＤＶＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ，ＭＯ及びＨＤＤ等がある。

本発明の実施形態における方法の処理の流れを説明するフロー図。本発明の実施形態における装置の構成を説明するブロック図。本発明の実施形態におけるユーザ端末の装置の構成を説明するブロック図。本発明の実施形態の第１例における感情推定部Ｆ１００の装置の構成を説明するブロック図。本発明の実施形態の第１例における感情推定部Ｆ１００が実行する処理のフロー図。本発明の実施形態における音声特徴量の抽出を説明する図。図５のステップＳ１４０の処理の流れを説明するフロー図。本発明の実施形態における部分コンテンツの感情度を説明する図。本発明の実施形態における感情度の時系列情報の一例を示す図。図１のステップＳ３００の処理の流れを説明するフロー図。本発明の実施形態における感情カテゴリを軸に取ったグラフ（レーダーグラフ）を示す図。本発明の実施形態における感情カテゴリ毎の感情度を調整するイコライザ形のインタフェースを示す図。本発明の実施形態における感情毎の感情度の時系列情報による検索要求入力インタフェースを示す図。本発明の実施形態におけるユーザの視聴履歴の１例を示す図。本発明の実施形態の第２例における感情推定部Ｆ１００の装置の構成を説明するブロック図。本発明の実施形態の第２例における感情推定部Ｆ１００が実行する処理のフロー図。本発明の実施形態における音声感情確率と映像感情確率から感情確率を計算する方法を説明する図。本発明の実施形態の第１実施例における装置の具体的な構成の１例を示すブロック図。本発明の実施形態における検索要求入力画面の１例を示す図。本発明の実施形態における検索要求入力画面の１例を示す図。本発明の実施形態の第２実施例における装置の具体的な構成の１例を示すブロック図。本発明の実施形態の第３実施例における装置の具体的な構成の１例を示すブロック図。

符号の説明

Ｆ１００…感情推定部、Ｆ２００…コンテンツ蓄積部、Ｆ３００…検索要求受付部、Ｆ４００…類似度計算部、Ｆ５００…結果提示部、２００，２００ａ，２００ｂ…ユーザ端末、２１１…キーボード、２１２…ポインティングデバイス、２２１，３０１…ＣＰＵ、２２２，３０２…ＲＯＭ、２２３，３０３…ＲＡＭ、２３１，３０４…ＨＤＤ、２４１…モニタ、３００…情報制御部、４００…データベース、５００…サーバ装置、６００…検索装置。

Claims

感情推定手段が、マルチメディアコンテンツに含まれる音声信号データ及び映像信号データから、コンテンツおよび部分コンテンツの感情及び感情度を推定する感情推定ステップと、
コンテンツ蓄積手段が、前記感情推定手段によって推定された前記感情と前記感情度をメタデータとして備えたコンテンツを蓄積したコンテンツ蓄積ステップと、
検索要求受付手段が、前記感情又は前記感情と前記感情度に対応する検索要求を受け付ける検索要求受付ステップと、
類似度計算手段が、前記検索要求に基づいて、前記コンテンツ又は部分コンテンツの類似度を算出する類似度計算ステップと、
結果提示手段が、前記類似度に基づいて、コンテンツ又は部分コンテンツの検索・推薦結果を提示する結果提示ステップと、を含み、
前記感情推定ステップは、
音声信号データ及び映像信号データから分析フレーム毎に特徴量を抽出する特徴量抽出ステップと、
前記抽出された特徴量から分析フレーム毎の各感情の音声感情確率と映像感情確率とを求め、これら２つの感情確率に基づいて１つの感情確率を計算する感情確率計算ステップと、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの各感情の感情度を計算する感情度計算ステップと、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの感情を判定する感情判定ステップと、からなる
ことを特徴とするコンテンツ検索・推薦方法。
請求項１に記載の方法において、
前記特徴量抽出ステップは、分析フレーム毎に、音声信号データから基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値、振幅のｒｍｓ値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも１つを音声特徴量として抽出し、映像信号データから、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルの少なくとも１つを映像特徴量として抽出し、
前記感情確率計算ステップは、学習用音声信号データを用いて予め構成された１つ以上の統計モデルと、学習用映像信号データを用いて予め構成された１つ以上の統計モデルとによって、前記感情における前記音声特徴量の出現確率と、前記感情に対応する１つ以上の状態の時間方向への遷移確率のうち、少なくとも何れか１つに基づいて感情確率を計算する
ことを特徴とするコンテンツ検索・推薦方法。
請求項１または２に記載の方法において、前記検索要求受付ステップは、ユーザが視聴している及び／又は視聴した、コンテンツ又は部分コンテンツの前記感情、又は前記感情と前記感情度を参照し、これに基づいて決定された前記検索要求を受け付けることを特徴とするコンテンツ検索・推薦方法。
請求項１乃至３の何れか１項に記載の方法において、前記結果提示ステップは、前記類似度に基づいてコンテンツ又は部分コンテンツをランキングし、このランキング結果に基づいてコンテンツ又は部分コンテンツの属性情報、前記感情、前記感情度、サムネイル、要約コンテンツのうち少なくとも１つをリスト化して提示することを特徴とするコンテンツ検索・推薦方法。
マルチメディアコンテンツに含まれる音声信号データ及び映像信号データから、コンテンツおよび部分コンテンツの感情及び感情度を推定する感情推定手段と、
前記感情推定手段によって推定された前記感情と前記感情度をメタデータとして備えたコンテンツを蓄積したコンテンツ蓄積手段と、
前記感情又は前記感情と前記感情度に対応する検索要求を受け付ける検索要求受付手段と、
前記検索要求に基づいて、前記コンテンツ又は部分コンテンツの類似度を算出する類似度計算手段と、
前記類似度に基づいて、コンテンツ又は部分コンテンツの検索・推薦結果を提示する結果提示手段と、を備え、
前記感情推定手段は、
音声信号データ及び映像信号データから分析フレーム毎に特徴量を抽出する特徴量抽出手段と、
前記抽出された特徴量から分析フレーム毎の各感情の音声感情確率と映像感情確率とを求め、これら２つの感情確率に基づいて１つの感情確率を計算する感情確率計算手段と、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの各感情の感情度を計算する感情度計算手段と、
前記分析フレーム毎の各感情の感情確率に基づいて、コンテンツおよび部分コンテンツの感情を判定する感情判定手段と、を有する
ことを特徴とするコンテンツ検索・推薦装置。
請求項５に記載の装置において、
前記特徴量抽出手段は、分析フレーム毎に、音声信号データから基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値、振幅のｒｍｓ値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性の少なくとも１つを音声特徴量として抽出し、映像信号データから、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトルの少なくとも１つを映像特徴量として抽出し、
前記感情確率計算手段は、学習用音声信号データを用いて予め構成された１つ以上の統計モデルと、学習用映像信号データを用いて予め構成された１つ以上の統計モデルとによって、前記感情における前記音声特徴量の出現確率と、前記感情に対応する１つ以上の状態の時間方向への遷移確率のうち、少なくとも何れか１つに基づいて感情確率を計算する
ことを特徴とするコンテンツ検索・推薦装置。
請求項５または６に記載の装置において、前記検索要求受付手段は、ユーザが視聴している及び／又は視聴した、コンテンツ又は部分コンテンツの前記感情、又は前記感情と前記感情度を参照し、これに基づいて決定された前記検索要求を受け付ける
ことを特徴とするコンテンツ検索・推薦装置。
請求項５乃至７の何れか１項に記載の装置において、前記結果提示手段は、前記類似度に基づいてコンテンツ又は部分コンテンツをランキングし、このランキング結果に基づいてコンテンツ又は部分コンテンツの属性情報、前記感情、前記感情度、サムネイル、要約コンテンツのうち少なくとも１つをリスト化して提示することを特徴とするコンテンツ検索・推薦装置。
請求項１乃至４の何れか１項に記載のコンテンツ検索・推薦方法の各ステップをコンピュータに実行させるためのプログラムとしたことを特徴とするコンテンツ検索・推薦プログラム。