JP4812733B2

JP4812733B2 - 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体

Info

Publication number: JP4812733B2
Application number: JP2007284706A
Authority: JP
Inventors: 豪入江; 浩太日高; 隆佐藤; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-11-01
Filing date: 2007-11-01
Publication date: 2011-11-09
Anticipated expiration: 2027-11-01
Also published as: JP2009111938A

Description

本発明は、映像コンテンツ又は音声コンテンツを編集する情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体に関する。

これまでの放送に限らず、コンテンツ配信・共有サイトの普及によって、Ｗｅｂサイトや個人ＰＣにおいても、コンテンツを視聴することが増えてきており、コンテンツの種類も、例えば、映画やドラマ、ホームビデオ、ニュース、ドキュメンタリ、音楽等、非常に多様化している。通信と放送の連携に伴い、今後更に、コンテンツ視聴を楽しむユーザが増加することは容易に予想される。

中でも、コンテンツ共有サイトでは、個人が撮影もしくは作成したコンテンツを公開し、利用者同士で共有することができる。コンテンツ共有サイトでは、公開できるコンテンツの容量が限られている場合が多く、また、コンテンツの数も膨大であることから、より多くの視聴者にコンテンツを視聴してもらうためには、利用者は視聴してもらいたい区間を中心に据えるように編集したコンテンツを公開することが好ましい。

しかしながら、蓄積されたコンテンツの殆どは編集工程を経ていない未編集のコンテンツである。この理由は、コンテンツの編集には、編集を実施するための設備や技術が必要である、コンテンツの内容を把握し、コンテンツ中のどの区間が視聴してもらいたい区間であるかを確認しておく必要がある、
の２つの要因によって、利用者にとっては困難を伴うためである。

この課題を解決するためには、
１）編集設備、技術を持たない利用者でも簡単に編集を実行できる、
２）利用者が視聴してもらいたいコンテンツ中の区間を効率的に確認できる、
の２点を実現する編集技術が必要である。

従来技術として、コンテンツの編集を自動化、もしくは支援する技術が、例えば特許文献１乃至３などに記載されている。

特許文献１に記載の技術では、映像を幾つかの区間に分割して、各区間の代表画像を選出し、更に、それらのレイアウト、及び代表画像の絞込みを行うことで、一覧的に映像内容を把握することのできる編集支援技術について記載されている。

特許文献２に記載の技術では、映像を幾つかの区間に分割して、各区間の手振れやカメラワークなどの動きを検出し、動きの安定した区間を編集に向いた映像素材として利用者に提示する編集支援技術について記載されている。

これらの従来技術によれば、映像を幾つかの区間に分割することで、区間の繋ぎ合わせが容易になり、
１）編集設備、技術を持たない利用者でも簡単に編集を実行できる、
を満たす編集支援技術となっている。

一方で、コンテンツの各区間の内容を反映することのできる編集技術として、特許文献３に記載の技術がある。ここでは、コンテンツに含まれる音声情報に基づいて、音声を所定の単位区間に分割し、それぞれの区間が強調状態の音声であるか否かを判定することで強調状態にある区間を選出し、更にそれらの選出された区間を繋ぎ合わせる自動編集技術について記載されている。

この技術によれば、コンテンツの音声情報に基づいて、強調状態にある区間を中心に据えた編集が自動的に実行できる。

尚、本発明に関連する技術の参考文献としては、下記非特許文献１〜６に記載のものが存在する。
特開平１１−３０８５６７号公報特開２０００−２６１７５７号公報特開２００５−３３３２０５号公報「ディジタル音声処理第４章４．９ピッチ抽出」、古井貞熙、東海大学出版会、ｐｐ．５７−５９、１９８５年９月嵯峨山茂樹、板倉文忠、「音声の動的尺度に含まれる個人性情報」、日本音響学会昭和５４年度春季研究発表会講演論文集、３−２−７、１９７９年、ｐｐ．５８９−５９０「わかりやすいパターン認識」、石井健一郎、上田修功、前田栄作、村瀬洋、オーム社、ｐｐ５２−５４、１９９８年「計算統計Ｉ第ＩＩＩ章３ＥＭ法４変分ベイズ法」、上田修功、岩波書店、ｐｐ．１５７−１８６、２００３年６月「映像特徴インデクシングに基づく構造化映像ハンドリング機構と映像利用インタフェースに関する研究第３章画像処理に基づく映像インデクシング」、外村佳伸、京都大学博士論文、ｐｐ．１５−２３、２００６「コンピュータ画像処理」、田村秀行編著、オーム社、ｐｐ．２４２−２４７、２００２年１２月

利用者が視聴してもらいたい区間となる代表的な例は、映像又は音声中の感情表出の大きい区間である。言い換えれば、映像中の楽しい区間を視聴してもらいたいと思う利用者や、悲しい区間を視聴してもらいたいと思う利用者が多く、このような区間を自動的に分類し、自動編集を行う技術や、編集を簡単に行うことのできる技術の開発が望まれている。

しかしながら、これらの技術では、各区間についての情報は、動きが安定している区間や、強調状態にある区間などの限られた指標を示すにとどまっており、各区間の感情表出についての詳細な情報は提示されなかった。このため、前述のような利用者が、視聴してもらいたい区間であるかどうかを即座に確認することができず、このような利用者にとっては有益な編集技術とはなりにくいという問題があった。

本発明は、前記課題に基づいてなされたものであって、その目的は、映像又は音声中の感情表出を１つ以上の映像又は音声を解析することによって自動的に検出し、この検出によって得られる情報に基づいて感情的状態にある区間を捉えた自動編集、及び編集支援を実行できる情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体を提供することにある。

本発明において、感情とは、情動、雰囲気、印象等も含むものとする。音声とは、人間による発話音声のみではなく、歌唱音声、音楽、環境音等も含むものとする。

前記課題の解決を図るために、請求項１記載の発明は、映像情報又は音声情報のうち何れか１つ以上を含むコンテンツを編集する装置であって、前記コンテンツを所定の区間単位に分割する区間分割手段と、前記分割された区間毎に、映像情報、音声情報のうち何れか１つ以上を用い、少なくとも映像情報を含むコンテンツの場合は該情報から抽出した映像特徴量、あるいは音声特徴量のうち少なくとも一方に基づいて、音声情報から成るコンテンツの場合は該情報から抽出した音声特徴量に基づいて、１種以上の感情表出状態の確からしさを求める感情検出手段と、前記映像情報、音声情報のうち何れか１つ以上を用いて、前記分割された区間毎に、映像情報を含むコンテンツの場合は映像フレームを、音声情報から成るコンテンツの場合は音声であることを示すアイコン又は当該区間の音声波形を代表画像として決定し出力する出力手段と、前記代表画像を、前記確からしさに基づいて、加工、情報付与のうち何れか１つ以上を実行する画像加工手段と、前記画像加工手段により加工、情報付与が実行された代表画像を、空間的にレイアウトして利用者に出力するレイアウト手段と、前記画像加工手段により加工、情報付与が実行された代表画像のうち、利用者が選択した少なくとも１つの前記代表画像に対応する前記区間に基づいて編集コンテンツを生成する生成手段と、を備えることを特徴とする。

請求項２記載の発明は、映像情報又は音声情報のうち何れか１つ以上を含むコンテンツを編集する方法であって、区間分割手段が、前記コンテンツを所定の区間単位に分割する区間分割ステップと、感情検出手段が、前記分割された区間毎に、映像情報、音声情報のうち何れか１つ以上を用い、少なくとも映像情報を含むコンテンツの場合は該情報から抽出した映像特徴量、あるいは音声特徴量のうち少なくとも一方に基づいて、音声情報から成るコンテンツの場合は該情報から抽出した音声特徴量に基づいて、１種以上の感情表出状態の確からしさを求める感情検出ステップと、出力手段が、前記映像情報、音声情報のうち何れか１つ以上を用いて、前記分割された区間毎に、映像情報を含むコンテンツの場合は映像フレームを、音声情報から成るコンテンツの場合は音声であることを示すアイコン又は当該区間の音声波形を代表画像として決定し出力する出力ステップと、画像加工手段が、前記代表画像を、前記確からしさに基づいて、加工、情報付与のうち何れか１つ以上を実行する画像加工ステップと、レイアウト手段が、前記画像加工手段により加工、情報付与が実行された代表画像を、空間的にレイアウトして利用者に出力するレイアウトステップと、生成手段が、前記画像加工手段により加工、情報付与が実行された代表画像のうち、利用者が選択した少なくとも１つの前記代表画像に対応する前記区間に基づいて編集コンテンツを生成する生成ステップと、を備えることを特徴とする。

請求項３記載の発明は、コンピュータを、請求項１に記載の各手段として機能させる情報編集プログラムであることを特徴とする。

請求項４記載の発明は、請求項３に記載の情報編集プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。

前記請求項１、２の発明によれば、映像又は音声から感情表出状態の確からしさを自動的に計算する。この確からしさに基づいて、利用者はどの区間がどのような感情的状態にあるかを判断し、所望の区間を含む編集コンテンツを生成することができ、編集の支援が可能となる。

前記請求項３の発明によれば、編集支援が可能な情報編集プログラムが提供される。

前記請求項４の発明によれば、請求項３に記載の情報編集プログラムを記録した記録媒体として、コンピュータに組み込むことができる。

（１）請求項１、２の発明によれば、利用者は、感情表出状態の確からしさに基づいて加工、情報の付与された代表画像を参照しながら、編集コンテンツに含める区間を選定できるため、各区間の内容をいちいち確認することなく効率的に感情表出状態となっている区間を把握し、効率的に、視聴してもらいたい区間を含めた編集を実行することができ、編集の支援が可能となる。
（２）請求項３の発明によれば、編集支援が可能な情報編集プログラムを提供することができる。
（３）請求項４の発明によれば、請求項１の発明をコンピュータ上で実現することができる。

これらを以って情報編集分野に貢献できる。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は以下の実施形態例に限定されるものではない。
[実施形態の第１例]
本発明の実施形態の第１例は、編集支援を実行する装置として実施した場合であり、請求項１、２に対応している。図１は本実施形態例に係る情報編集装置１の一例を示している。

情報編集装置１は、編集対象であるコンテンツ入力部１１と、コンテンツ入力部１１から入力された映像／音声データ１０を格納する記憶装置１２と、映像情報、音声情報のうち何れか１つ以上を用いて、コンテンツデータを所定の区間単位に分割する区間分割手段１３と、映像情報、音声情報のうち何れか１つ以上を用いて、分割されたぞれぞれの区間毎に、感情表出状態の確からしさである感情度を算出する感情検出手段１４と、映像情報、音声情報のうち何れか１つ以上を用いて、区間毎に代表画像を決定し、出力する画像出力手段１５と、感情度に基づいて、代表画像を加工する画像加工手段１６と、代表画像をレイアウトして利用者に提示するレイアウト手段１７と、利用者が指定した代表画像に対応する区間を再生する再生手段１８と、利用者が選択した代表画像に対応する区間を繋ぎ合わせて、編集コンテンツを生成する生成手段１９とを備え、前記各機能は例えばコンピュータによって実行される。

図２に、本実施形態例に係る情報編集装置１の処理フローの一例を図示する。この処理フローに基づいて、図１に示す情報編集装置１の詳細な動作を説明する。

ステップＳ２１において、利用者からの要請によって、コンテンツ入力部１１が映像／音声データを受け付けると、ステップＳ２２において、これを記憶装置１２に格納する。

次に、ステップＳ２３において、区間分割手段１３が、映像情報又は音声情報の何れか１つ以上に基づいて、該映像／音声データを所定の区間単位に分割する。

区間分割の方法としては、メディア処理技術を用いる方法がある。

例えば、映像情報を用いる場合、映像のカット点を検出し、カット点で囲まれた部分を区間として定義する。このとき、区間単位はショットとなる。カット点を検出する方法としては、例えば、非特許文献５に記載の方法を用いることができる。

また、例えば、音声情報を用いる場合、音声のスペクトル情報を用いた有声無声判定を行い、ある一定以上継続する無声部分を検出し、この無声部分で囲まれた部分を区間として定義する。このとき、区間単位は連続有声区間となる。

有声無声判定は、スペクトル情報の他、例えば、基本周波数の存在の有無によっても実行するものとしてもよい。

スペクトル情報を用いる場合は、パワースペクトル密度のピークを持つ周波数を１つ以上計算し、これらの周波数が予め定めた周波数帯域に収まる範囲に存在する場合には有声区間、それ以外の場合には無声区間として判定すればよい。周波数帯域としては、例えば、５０〜３５０Ｈｚ（ヘルツ）の間にピークを持つ周波数が観測された場合には、有声区間であると判定する、としてもよい。

基本周波数を用いる場合には、例えば、非特許文献１に記載の方法などを用いて基本周波数を求め、これが予め定めた周波数帯域に収まる範囲の値を取る場合に有声区間、それ以外の場合には無声区間として判定すればよい。周波数帯域としては、例えば、５０〜３５０Ｈｚ（ヘルツ）などとして設定してもよい。

また、例えば、音声波形の振幅値の絶対値に閾値を設定し、この条件が所定の時間連続する時、区間の終／始端としても良い。

入力されたコンテンツが音声の場合には、音声情報を用いて区間分割を実行すればよく、映像の場合には映像情報を用いて区間分割を実行すればよい。更に、可能であれば、上記のショット、及び連続有声区間の両方を区間単位として採用してもよい。

入力された映像又は音声が１つ以上存在する場合には、各々の映像又は音声に対して前記区間分割法を適用すればよい。

次に、ステップＳ２４において、感情検出手段１４が、映像情報又は音声情報の何れか１つ以上に基づいて、区間毎の感情度を算出する。

本実施形態の一例では、検出する感情表出状態として、例えば、“楽しい”、“哀しい”、“怖い”、“激しい”、“かっこいい”、“かわいい”、“エキサイティング”、“情熱的”、“ロマンチック”、“暴力的”、“穏やか”、“癒される”、“暖かい”、“冷たい”、“不気味”、“笑い”がある。ステップＳ２４では、それぞれの感情表出状態について、その確からしさを表す感情度を計算する。

ここで、本発明の実施形態の第１例に係る感情検出手段１４は、例えば図３に示す感情検出手段３のように構成される。

感情検出手段３は、コンテンツに含まれる映像、音声信号データから、分析フレーム毎に特徴量を抽出する特徴量抽出手段３１と、特徴量に基づいて、感情表出状態である確率を求める統計モデルを備えた感情確率計算手段３２と、前記感情確率に基づいて、当該区間の感情度を計算する感情度計算手段３３と、感情度に基づいて、当該区間の感情表出状態を判定する感情判定手段３４により構成する。

ここで、上記統計モデルは、実際に本発明によって編集を実行する前に学習によって作成しておく。

図４に、本発明の実施形態の第１例に係る感情検出手段３の処理フローの一例を図示する。この処理フローに基づいて、図３に示す感情検出手段３の詳細な動作を説明する。

区間毎に感情度を計算する際、映像情報に基づく場合も、音声情報に基づく場合も、あるいはそれら両方に基づく場合も、それぞれ必要な映像特徴量、音声特徴量を抽出し、これらに基づいて感情度を計算する。

ステップＳ４１では、特徴抽出手段３１が、取り込まれたコンテンツの音声信号データから、所望の音声特徴量を分析フレーム（以下、フレームと呼ぶ）毎に計算し、抽出する。

それぞれの特徴量を抽出する方法の一例を説明する。

まず、映像特徴量を抽出する方法の一例を説明する。

本実施形態の一例では、映像特徴量は、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトル、それぞれの時間変動特性を抽出するものとする。時間変動特性の例としては、例えば、フレーム間差分がある。

映像特徴量は、映像フレーム毎に抽出を行う。この際、処理時間を短縮することを目的として、数フレームおき、例えば、５フレームおきに抽出する、といった工夫をしてもよい。

ここで、ショット長、動きベクトル、色ヒストグラムなどの基本的な抽出方法は様々あるが、これらは公知であり、例えば、非特許文献５などに示されている方法を用いることができる。

ショット長については、単一映像フレーム内で抽出することは事実上不可能であるので、例えば、対象としている映像フレームが含まれるショットの長さとして抽出すればよい。また、１つ以上のショットを含むある区間におけるショット長の平均値や最大値、最小値などを用いてもよい。

色ヒストグラムについては、例えば、次のように抽出する。

映像フレーム中の画素毎に、色相（Ｈｕｅ）を抽出する。この色相は、例えば１１や２５６など、所定の数Ｑに量子化しておくことで、全画素がＱ個の量子のうち何れに該当するかを求めることができる。これを全画素に渡り実行し、量子毎の出現数を計数することにより、映像フレームの色相ヒストグラムが抽出できる。

この際、映像フレーム全体を１つ以上の領域に分割し、それぞれの領域毎にヒストグラムを抽出してもよい。

動きベクトルについては、例えば、オプティカルフローベクトルを計算することによって、Ｘ成分とＹ成分からなるベクトルとして抽出することができる。オプティカルフローベクトルの計算の方法としては、例えば、非特許文献６などに記載の方法を用いることができる。この他、例えば、映像フレーム毎にベクトルのノルムを計算するのでもよいし、非特許文献５に開示されている方法などを用いて、パン、チルト、ズームなどのカメラ操作を検出し、それぞれ個別に単位時間辺りの操作量などとして計量化するのでもよい。

音声特徴量を抽出する方法の一例を説明する。

音声特徴量は、例えば、基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値、振幅のｒｍｓ値の時間変動特性、パワー、パワーの時間変動特性、発話速度、発話速度の時間変動特性のうち１つ以上の要素で構成するものとする。

各音声特徴量を抽出する方法の一例について詳細を説明する。

多様なコンテンツを対象とする本発明の実施形態の一例に用いる特徴量としては、高次元音声パラメータの解析を必要とする音韻情報と比較して、多様な音源要因の混在した音声に対しても安定して得られるものが好ましい。

例えば、音声認識等を用いて音声をテキスト情報に変換する方法は、このような音韻情報を必要とし、例えば、ニュース映像等の発話者の音声が鮮明に聴取できるジャンルのコンテンツについては有効である。

しかし、映画、ドラマや、ホームビデオ等においては、発話以外にも、背景音楽、環境音等の様々な音源要因が存在するために、発話を鮮明に聴き取ることができず、音声認識が難しい。更に、必ずしも発話のみによってコンテンツの感情表出状態を決定できるとは限らないため、印象や雰囲気を含めた感情表出状態を検出するためには、音楽、効果音、環境音等も取り扱うことのできる音声特徴量が必要である。

そこで、本実施形態の第１例では、韻律情報、特に、基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値（以下、単にｒｍｓと呼ぶ）、ｒｍｓの時間変動特性、パワー、パワーの時間変動特性、発話速度、発話速度の時間変動特性を抽出する。

特に、時間変動特性として数種の短時間変化量を用いることによって、コンテンツに含まれる感情を抽出する場合においての感情的な音声における重要な挙動を検出することが可能となる。

時間変動特性の例としては、例えば、フレーム間差分や、回帰係数がある。また、パワーは、パワースペクトル密度などを用いるのでもよい。基本周波数、パワーの抽出法は様々あるが、公知であり、その詳細については、例えば非特許文献１に記載の方法等を参照されたい。

また、発話速度、音楽リズム、テンポ等を含めた発話速度については、例えば非特許文献２に開示されている方法などによって、動的尺度として抽出することができる。例えば、動的尺度のピークを検出し、その数をカウントすることで発話速度を検出する方法をとってもよく、また、発話速度の時間変動特性に相当するピーク間隔の平均値、分散値を計算して発話速度の時間変動特性を検出する方法をとるのでもよい。以下、本発明の実施形態の第１例では、発話速度として動的尺度のピーク間隔平均値を用いるものとする。

これらの音声特徴量を、フレーム毎に抽出する方法の１例を説明する。１フレームの長さ（以下、フレーム長とよぶ）を、例えば５０ｍｓとし、次のフレームは現フレームに対して、例えば、２０ｍｓの時間シフトによって形成されるものとする。

図５に示すように、これらのフレーム毎に、各フレーム内での各音声特徴量の平均値、つまり、平均基本周波数、基本周波数の平均時間変動特性、平均ｒｍｓ、ｒｍｓの平均時間変動特性、平均パワー、パワーの平均時間変動特性、動的尺度の平均ピーク間隔平均値などを計算するものとする。あるいは、これらの平均値のみではなく、フレーム内での各音声特徴量の最大値、最小値、または変動幅などを計算して用いてもよい。

ここで、コンテンツ中の感情表出状態にある部分に特徴的に現れる音声においては、基本周波数そのものの抽出が困難な場合が多く、しばしば欠損することがある。このため、そのような欠損を補完する効果を容易に得ることのできる、基本周波数の時間変動特性は含むことが好ましい。

更には、話者依存性を低く抑えたまま、判定精度を高めるため、パワーの時間変動特性を更に含むことが好ましい。以上、フレーム毎に行った音声特徴量の抽出処理を、コンテンツ全てに渡るフレームに対して行うことで、全てのフレームにおいて音声特徴量を得ることが可能である。

映像特徴量、音声特徴量の両方を用いて感情度の計算を実行する場合、映像特徴量抽出に用いたフレームと、音声特徴量抽出に用いたフレームを統一しておくことが好ましい。

これを実施する方法の一例としては、例えば、映像特徴量を音声特徴量抽出に用いたフレームに合わせて換算し、５０ｍｓのフレーム幅、２０ｍｓの時間シフトで再計算する方法が挙げられる。

次に、ステップＳ４２において、ステップＳ４１でフレーム毎に抽出した特徴量に基づいて、感情確率計算手段３２が、検出する対象となる感情表出状態である確率を、感情確率として計算する。

感情確率は、検出する対象となる感情表出状態のカテゴリ（感情カテゴリ）と、統計モデルを対応付けることで、統計モデルを用いて感情カテゴリ毎に感情確率を計算する。この統計モデルとしては、例えば、正規分布、混合正規分布、隠れマルコフモデル、一般化状態空間モデルなどを用いる。好ましくは、感情の時間遷移をモデル化できる、一般化状態空間モデルを採用する。

統計モデルのパラメータの推定方法は、例えば、最尤推定法や、ＥＭアルゴリズム、変分ベイズ法などが公知のもとして知られており、用いることができる。詳しくは非特許文献３、非特許文献４などを参照されたい。

次に、ステップＳ４３において、ステップＳ４２で計算した感情確率に基づいて、感情度計算手段３３が区間毎の感情度を計算する。

区間毎の感情度を計算する方法の１例について説明する。

各感情カテゴリを順にｅ¹、ｅ²、・・・と表記し、感情カテゴリの数を＃（Ｋ）と表す。コンテンツ中の区間Ｓの集合を時刻の早いものから順に{Ｓ₁，Ｓ₂，・・・，Ｓ_NS}とする。ここで、ＮＳは区間の総数である。

ある区間Ｓ_iに含まれるフレームを{ｆ₁，ｆ₂，・・・，ｆ_NFi}と置く。ここで、ＮＦｉは区間Ｓ_iに含まれるフレーム数である。各フレームｆ_tは、ステップＳ４２において、フレーム単位でのｋ番目の感情カテゴリｅ^kの感情確率ｐｆ_t（ｅ^k）が求められている。これを用いて、ｋ番目の感情カテゴリｅ^kの区間Ｓ_iの感情度ｐＳ_i（ｅ^k）は、例えば、区間Ｓ_iにおける平均感情確率を表す

として計算することや、最大値を表す次式によって計算する。

また、式（１）によって実施される平均化は、各区間Ｓ_iを更に分割して小区間を生成し、この小区間単位で実行するのでもよい。

この小区間は、例えば１秒の小区間幅、小区間シフトを０．５秒として、この小区間毎に平均化を実行する。そして、区間Ｓ_i内に含まれる全ての小区間の平均値のうち、最大の値を取るものを区間Ｓ_iの感情度としてもよい。これら以外にも、例えば、区間内でフィルタ処理を行ってから感情度を計算するなど、方法は様々あるが、各区間の間で感情度を比較する場合があるため、感情度はある一定の値の範囲内、例えば０〜１の間に収まるようにすることが好ましい。

以上のような計算を、全ての区間に渡り行うことで、全ての区間に対して感情カテゴリ毎の感情度を計算することができる。

次に、ステップＳ４４において、ステップＳ４３で計算した感情度に基づいて、感情判定手段３４が区間毎の感情表出状態を判定する。

これを実施する方法としては、例えば、感情度が最大値をとる感情カテゴリを、その区間の感情として求める。

これによって、各区間でどのような感情表出状態が優勢に表れているかを判定することができる。

映像又は音声が複数入力された場合には、これらの映像又は音声を連続的に繋げ、１つの映像又は音声であるとみなして、上記感情度の算出を実行すればよい。

次に、図２のステップＳ２５において、画像出力手段１５が区間毎に代表画像を選定し、出力する。

まず、映像に対する代表画像を選定する処理の一例について説明する。

代表画像の選定は、例えば、ある区間Ｓ_iに含まれる全ての映像フレームを時間方向に並べたときの先頭フレーム、中央のフレーム、末尾のフレームなどを抽出し、これを代表画像として選定するのでもよい。

また、ステップＳ２４において求めた、区間における感情表出状態、感情度、感情確率に基づいて代表画像を抽出してもよい。

例えば、感情表出状態と感情確率に基づいた処理方法を、図６を用いて説明する。

まず、代表画像を選定する区間Ｓ_iの感情表出状態を取得し、この感情表出状態に対応する感情確率が最大の値を取る時刻Ｔ_Frameを取得する。

次に、区間に含まれる全ての映像フレーム６１の中からこの時刻Ｔ_Frameに最も近い映像フレームを、代表画像６２として選定する。

この方法によって、その区間の最も優勢な感情表出状態が、最も強く現れていると想定される映像フレームを代表画像として選定することができ、どのような内容の区間であるかを分かりやすく確認することができる。

入力されたファイルが音声である場合には、代表画像として、図７に示すような、音声であることを示すアイコン７１を代表画像とするのでもよいし、当該区間の音声波形７２を代表画像とするのでもよい。

次に、ステップＳ２６において、画像加工手段１６が区間毎の感情度に基づいて、代表画像を加工する。

代表画像を加工する処理の一例について、図８を用いて説明する。

まず事前に、感情カテゴリ毎に、感情度の高低に応じて、加工内容を決定しておく。例えば、“楽しい”感情カテゴリであれば、黄色の外枠を付与する、“哀しい”感情カテゴリであれば、同様に青色の外枠を付与するなどとしてもよい。また、感情度が高い場合には、代表画像のサイズを大きくし、低い場合には代表画像のサイズを小さくするなどとしてもよい。また、この他、画像の透過率、コントラスト、明るさ、色相、画素数等を加工項目に設定してもよい。

感情度の高低の判断は、例えば、感情カテゴリｅ^kの区間Ｓ_iの感情度ｐＳ_i（ｅ^k）が０〜１の間の値を取る場合には、０≦ｐＳ_i（ｅ^k）＜０．３であれば「低」、０．３≦ｐＳ_i（ｅ^k）＜０．７であれば「中」、０．７≦ｐＳ_i（ｅ^k）≦１．０であれば「高」などとすることができる。

実際に加工を行う段階においては、まず、最も優勢に表れている感情表出状態である感情カテゴリを求める。この方法は、感情度が最も高い値となった感情カテゴリを最も優勢な感情カテゴリであるとすればよい。

次に、この優勢な感情カテゴリと、その感情度に対応する加工を代表画像に実施すればよい。

前記のような加工のほか、アイコンの付与を実施するのでもよい。

この処理を行う場合にも、予め、感情カテゴリ毎に、感情度の高低に応じて、付与するアイコンを決定しておく。

代表画像にアイコンを付与した一例を図９に示す。例えば、代表画像に対応する区間の感情カテゴリが“楽しい”で、感情度が「高」の場合には、例えば、“笑顔”を示すアイコン９１を代表画像９２に付与する。また、例えば、感情カテゴリが“哀しい”で、感情度が「高」の場合には、例えば、“泣き顔”を示すアイコン９３を代表画像９４に付与する。

このようなアイコンの付与によって、各区間がどのような感情的状態にある区間であるかを、直観的に理解しやすくすることができ、確認の作業を効率化できる。

次に、ステップＳ２７において、レイアウト手段１７が各代表画像をレイアウトして出力し、利用者に提示する。

この処理方法の一例を、図１０を用いて説明する。

図の例では、代表画像には、感情度に合わせて、前記の方法によってアイコン、及びサイズの加工を施してある。例えば、提示平面１００の横（左右）軸１０１を時間軸に取り、区間の時刻情報に合わせて左から順にレイアウトしてもよい。

さらに図１１に示すように、縦（上下）軸１１１を感情度に取り、感情度を反映したレイアウトを行ってもよい。例えば、代表画像１１２に対応する区間は感情度が「高」、代表画像１１３に対応する区間などは「低」、代表画像１１４に対応する区間などは「中」を表すものとしてもよい。

また、例えば、提示平面の縦（上下）軸を時間軸に、横（左右）軸をパンによるカメラワークの画角を表す軸に取り、加工した代表画像をレイアウトするのでもよい。また、それぞれの軸は、チルトなどのカメラワークの画角や、感情度の大きさを示すようにしてもよい。

さらに、例えば、図１２に示すように、提示平面１２０を、一連の区間をあるまとまりとしてまとめ、そのまとまりの単位で、例えば、１番目のまとまりに属する区間の代表画像を提示する提示領域１２１、２番目のまとまりに属する区間の代表画像を提示する提示領域１２２、などのように、レイアウト位置を分割してもよい。

この際用いるまとまりは、例えば、映像情報を利用して、ディゾルブのような漸次カットなどの特殊なカットで囲まれる一まとまりとしてもよいし、また、ある一定時間以上、例えば、１秒以上の無音区間で囲まれる一まとまりとしてもよい。

まとまりの数は、図１２では２つの例を示しているが、必ずしも２つである必要はなく、入力された映像、音声ファイルと、区間分割、まとまりを構成する方法に合わせて変更されるものである。

これらのレイアウトによって、横一列に全て提示する場合に比べて、利用者がより一覧的に区間全体を把握することができる。また、例えば、レイアウトした代表画像が、提示平面の右端１２３に到達したところで区切ってひとまとまりとするのでもよい。

この他、例えば、アイコンを付与する方法と同様に、前記感情度が「高」の区間が出現したところで区切り、そこから先は列を変えるものとしてもよい。つまり、一列の末尾は感情度が「高」、即ち、感情表出が大きく表れている区間となる。この方法によって、一列毎に、感情表出が大きく表れる一連のコンテキストを含めることができる。

また、入力された元映像又は音声が１つ以上存在する場合には、これらの映像又は音声を連続的に繋げ、１つの映像又は音声であるとみなして、図１０の提示平面１００に表示してもよい。

また、それぞれ提示領域を切り替えて提示するものとしてもよい。このレイアウト方法の一例について、図１３を用いて説明する。

図１３は、映像又は音声であるコンテンツが３つ入力された場合である。このときは、例えば、各コンテンツ毎に提示平面１３０を３つ設置し、提示平面切換タブを押すことで、これら表示される提示平面を切り替えて提示する。

次に、利用者が区間の再生を要求した場合には、ステップＳ２８において、再生手段１８が、指定された区間の再生を実行する。すなわち、区間再生要求を受け付けたか否かの判定（ステップＳ２８ａ）と、区間の再生（ステップＳ２８ｂ）と、代表画像選択を終了するか否かの判定（ステップＳ２８ｃ）とを実行する。

区間の再生を要求する方法の一例としては、例えば、利用者がポインティングデバイスなどを用いて、代表画像を指定した場合に、それをもって要求とすればよい。

利用者の再生要求に合わせて、任意の区間から再生を実行する方法の一例について説明する。

利用者が、代表画像の指定等によって区間の再生を要求する。この際、各代表画像と、対応する区間の再生開始点となる映像フレーム、又は、タイムライン時刻とを予め対応づけておく。この方法によって、代表画像を指定した際に、映像中のどのフレーム位置、もしくはタイムライン時刻から再生を開始すればよいかが判別できるため、再生位置のシークによって、任意の区間から再生を実行することができる。

その他の方法の一例としては、予め、各区間を全て個別に映像、動画ファイル化する方法がある。例えば、各区間の先頭の映像フレームから終端の映像フレームまでを切り出しておき、単一の映像ファイルとして記憶する。このようにして生成した区間に対応した映像ファイルと、同じく区間に対応した代表画像を対応付けておき、代表画像が指定された時点で対応する映像ファイルを再生すればよい。

最後に、ステップＳ２９において、利用者が代表画像を選択し、編集コンテンツに用いる区間の選択を終了する要求を受けた場合に、生成手段１９が、選択された区間を繋ぎ合わせて編集コンテンツを生成する。

この繋ぎ合わせ方の例としては、例えば、元映像のタイムライン上の時刻が早い順に繋ぎ合わせるのでもよいし、例えば、感情度の高い区間又は低い区間から順に繋ぎ合わせるのでもよい。また、利用者が繋ぎ合わせ順を指定できるように設計してもよい。

以上が、本発明の実施形態の第１例に係る情報編集装置、情報編集方法の一例である。
[実施形態の第２例]
本発明の実施形態の第２例は、自動編集を実行する装置として実施した場合である。

図１４は本実施形態例に係る情報編集装置１４０の一例を示している。

情報編集装置１４０は、編集対象であるコンテンツ入力部１４１と、コンテンツ入力部１４１から入力された映像／音声データ１０を格納する記憶装置１４２と、映像情報、音声情報のうち何れか１つ以上を用いて、コンテンツデータを所定の区間単位に分割する区間分割手段１４３と、映像情報、音声情報のうち何れか１つ以上を用いて、分割されたぞれぞれの区間毎に、感情表出状態の確からしさである感情度を算出する感情検出手段１４４と、感情度に基づいて区間を選択する選択手段１４５と、選択された区間を繋ぎ合わせて、編集コンテンツを生成する生成手段１４６と、を備え、前記各機能は例えばコンピュータにより実行される。

図１５に、本実施形態例に係る情報編集装置１４０の処理フローの一例を図示する。この処理フローに基づいて、図１４に示す情報編集装置１４０の詳細な動作を説明する。

ステップＳ１５１〜ステップＳ１５４の各処理は、本発明の実施形態の第１例の説明に示した図２のステップＳ２１〜ステップＳ２４と、それぞれ全く同一のものとしてよい。

ステップＳ１５４までの各処理を終えた後、ステップＳ１５５では、選択手段１４５が、それまでに計算された区間毎の感情度に基づいて、編集コンテンツに含める区間の選択を実行する。ステップＳ１５４において、各区間の感情カテゴリについて感情度が図１６に示すように得られている。

選択の処理の一例について説明する。

編集コンテンツに含まれる区間は、例えば、感情度の高い区間を採用する。この方法について説明する。まず、図１６に示す、各区間の感情カテゴリと、感情度を参照する。このうち、例えば、“楽しい”感情カテゴリの感情度についてランキングし、最も高い値を持つ区間から順に、上限として定めた区間数に達するまで採用する。

“楽しい”以外の感情カテゴリの場合においても、同様に処理を実施すればよい。

この上限となる区間数の決定の仕方としては、利用するシステムの仕様等に合わせて予め決定しておいてもよいし、利用者の要求を受付、所望の数を設定するのでもよい。

また、区間数の上限でなくとも、編集コンテンツの時間を上限として定めても良い。この場合は、各区間の時間を別途算出しておけば、採用した区間全体の時間を計算することができる。

編集コンテンツの時間を上限とする場合にも、区間数の上限の場合と同様、利用するシステムの仕様等に合わせて予め決定しておいてもよいし、利用者の要求を受付、所望の時間を上限として設定するのでもよい。

次に、ステップＳ１５６では、生成手段１４６が、選択された区間を繋ぎ合せ、編集コンテンツを生成する。

この繋ぎ合わせ方の例としては、例えば、元映像のタイムライン上の時刻が早い順に繋ぎ合わせるのでもよいし、例えば、感情度の高い区間又は低い区間から順に繋ぎ合わせるのでもよい。

以上、この発明によるユーザ支援方法の、実施形態における方法の１例について詳細に説明した。

また、上記示した情報編集方法では、区間毎にどのような感情的状態にあるかを判定できる。これに基づいて、さらに、編集コンテンツに加工を加えても良い。

映像が入力されていた場合に、編集コンテンツが楽しい区間を多く含むものであれば、楽しい背景音楽を付与する、などはその一例である。

この方法の一例としては、編集コンテンツの、全区間数に対する“楽しい”感情度が「高」である区間数の割合を求め、この割合が一定以上であれば、背景音楽を付与するとしてもよい。

その他、本発明の実施形態として示した１例以外のものであっても、本発明の原理に基づいて取りうる実施形態の範囲においては、適宜その実施形態に変化しうるものである。

以下では、本発明の具体的な実施例を説明する。

本実施例は、本発明の実施形態の第１例に説明した機能を、ローカルＰＣで動作するアプリケーションソフトとして利用した場合の実施例である。

この実施例１では、本発明による情報編集方法を実行するプログラムを記憶した記憶媒体がローカルＰＣに搭載されている。実施手順は以下の通りである。
[手順１]利用者が任意の映像又は音声ファイルを指定し、プログラムで読み込ませる。
[手順２]情報編集プログラムが動作し、前記図２で説明した処理に従い、区間分割、感情検出、代表画像の決定、代表画像へのアイコン付与を実施した後、図１７に示すようにレイアウトして利用者に提示する。図１７の画面では、映像ファイルについて、タイムライン順に区間をレイアウトしている。
[手順３]利用者が、区間をプレビューし、編集コンテンツに採用する区間を、代表画像を選択することで決定し、編集開始ボタンを押すことで、編集の終了を通知する。
[手段４]情報編集プログラムが動作し、利用者が採用した区間を繋ぎ合わせ、編集コンテンツの映像又は音声ファイルを出力する。

本実施例は、本発明の実施形態の第１例に説明した機能を、インターネット網で接続されたサーバで動作するアプリケーションソフトとして利用した場合の実施例である。

本実施例２における具体的な装置１８０の構成を、図１８を用いて説明する。

サーバ装置１８１と、複数の利用者端末１８２ａ、１８２ｂ、・・・が、インターネット網によって相互通信可能な形態で接続されている。サーバ装置１８１は、記憶部１８３、制御部１８４、データベース１８５を備えており、記憶部１８３は、本発明による情報処理方法を、コンピュータ読み取り可能な情報編集プログラムとして記憶した記憶媒体である。制御部１８４は、ＣＰＵ１８６、ＲＡＭ１８７、ＲＯＭ１８８などを備え、サーバ処理の各種演算処理を実行する。データベース１８５には、利用者の識別情報や、各利用者がアップロードした映像コンテンツ、編集コンテンツ等が格納されている。実施手順は以下の通りである。
[手順１]利用者が利用者端末１８２ａ，１８２ｂ…を通して任意の映像又は音声ファイルを指定し、サーバ装置１８１にアップロードする。
[手順２]サーバ装置１８１が、映像又は音声ファイルのアップロードを確認すると、記憶部１８３の情報編集プログラムが動作し、前記図２で説明した処理に従い、区間分割、感情検出、代表画像の決定、代表画像へのアイコン付与を実施した後、図１７に示すようにレイアウトして、コンテンツをアップロードした利用者に提示する。
[手順３]利用者が、区間をプレビューし、編集コンテンツに採用する区間を、代表画像を選択することで決定し、編集開始ボタンを押すことで、編集の終了を通知する。
[手順４]情報編集プログラムが動作し、利用者が採用した区間を繋ぎ合わせ、編集コンテンツの映像又は音声ファイルを出力し、データベース１８５に格納する。

本実施例は、本発明の実施形態の第２例に説明した機能を、インターネット網で接続されたサーバで動作するアプリケーションソフトとして利用した場合の実施例である。

本実施例３における装置の具体的な構成は、前記実施例２の装置の構成図１８と同様である。実施手順は以下の通りである。
[手順１]利用者が利用者端末１８２ａ，１８２ｂ…を通して任意の映像又は音声ファイルを指定し、サーバ装置１８１にアップロードする。この際、編集コンテンツの上限時間と、編集コンテンツに採用する区間の感情カテゴリを指定する。
[手順２]サーバ装置１８１が、映像又は音声ファイルのアップロードを確認すると、記憶部１８３の情報編集プログラムが動作し、前記図１５で説明した処理に従い、区間分割、感情検出を実行する。
[手順３]全区間のうち、利用者の指定した感情カテゴリの感情度が高い順に、上限時間に達する長さになるまで区間を採用する。
[手順４]採用した区間を繋ぎ合わせ、編集コンテンツの映像又は音声ファイルを出力、データベース１８５に格納する。

本実施例は、本発明の実施形態の第１例に説明した機能を、インターネット網で接続されたサーバで動作するアプリケーションソフトとして利用した場合の実施例である。実施例２との違いとしては、複数の映像又は音声を入力し、最終的に１つの編集コンテンツを生成する利用となっていることである。

本実施例４における装置の構成は、実施形態の第１例と同じであり、図１８を用いて説明する。実施手順は以下の通りである。
[手順１]利用者が、１つ以上の任意の映像又は音声ファイルを指定し、サーバ装置１８１にアップロードする。
[手順２]サーバ装置１８１が、映像又は音声ファイルのアップロードを確認すると、記憶部１８３の情報編集プログラムが動作し、前記図２で説明した処理に従い、区間分割、感情検出、代表画像の決定、代表画像へのアイコン付与を実施した後、各映像又は音声ファイルを図１９に示すように、レイアウトして表示する。図１９の例では、映像又は音声ファイルが３つ入力された場合の例を図示してある。この例では、提示平面上部に設置された提示平面切換タブによって、提示するファイルを切り換えることができるようになっている。
[手順３]利用者が、区間をプレビューし、編集コンテンツに採用する区間を、代表画像を選択することで決定し、編集開始ボタンを押すことで、編集の終了を通知する。
[手順４]情報編集プログラムが動作し、各映像又は音声ファイルから、利用者が採用した区間を繋ぎ合わせ、編集コンテンツの映像又は音声ファイルを出力し、データベース１８５に格納する。

尚、本実施形態の情報編集装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の情報編集方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）−ＲＯＭ、ＣＤ−Ｒ，、ＣＤ−ＲＷ，ＨＤＤ，リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

本発明の実施形態の第１例に係る情報編集装置の構成を説明するブロック図。本発明の実施形態の第１例に係る処理の流れを説明するフロー図。本発明の実施形態における感情検出手段を説明するブロック図。本発明の実施形態における感情検出手段の処理の流れを説明するフロー図。本発明の実施形態における音声特徴量抽出方法を説明するフロー図。本発明の実施形態における代表画像選定方法を説明する説明図。本発明の実施形態における音声コンテンツが入力された場合の代表画像の一例を示す説明図。本発明の実施形態における代表画像の加工ルールを説明する説明図。本発明の実施形態における代表画像にアイコン付与を実施する方法を説明する説明図。本発明の実施形態におけるレイアウトの方法の一例を示す説明図。本発明の実施形態におけるレイアウトの方法の他の例を示す説明図。本発明の実施形態におけるレイアウトの方法の他の例を示す説明図。本発明の実施形態における複数の映像又は音声コンテンツが入力された場合のレイアウトの方法を示す説明図。本発明の実施形態の第２例に係る情報編集装置の構成を説明するブロック図。本発明の実施形態の第２例に係る処理の流れを説明するフロー図。本発明の実施形態における区間毎の感情カテゴリと感情度の対応付けを説明する説明図。本発明の実施例１乃至３に係るレイアウト画面を示す説明図。本発明の実施例２乃至４に係る装置の構成を説明するブロック図。本発明の実施例４に係るレイアウト画面を示す説明図。

符号の説明

１，１４０…情報編集装置、３，１４，１４４…感情検出手段、１１，１４１…コンテンツ入力部、１２，１４２…記憶装置、１３，１４３…区間分割手段、１５…画像出力手段、１６…画像加工手段、１７…レイアウト手段、１８…再生手段、１９，１４６…生成手段、３１…特徴量抽出手段、３２…感情確率計算手段、３３…感情度計算手段、３４…感情判定手段、１４５…選択手段、１８１…サーバ装置、１８２ａ，１８２ｂ…利用者端末、１８３…記憶部、１８４…制御部、１８５…データベース。

Claims

映像情報又は音声情報のうち何れか１つ以上を含むコンテンツを編集する装置であって、
前記コンテンツを所定の区間単位に分割する区間分割手段と、
前記分割された区間毎に、映像情報、音声情報のうち何れか１つ以上を用い、少なくとも映像情報を含むコンテンツの場合は該情報から抽出した映像特徴量、あるいは音声特徴量のうち少なくとも一方に基づいて、音声情報から成るコンテンツの場合は該情報から抽出した音声特徴量に基づいて、１種以上の感情表出状態の確からしさを求める感情検出手段と、
前記映像情報、音声情報のうち何れか１つ以上を用いて、前記分割された区間毎に、映像情報を含むコンテンツの場合は映像フレームを、音声情報から成るコンテンツの場合は音声であることを示すアイコン又は当該区間の音声波形を代表画像として決定し出力する出力手段と、
前記代表画像を、前記確からしさに基づいて、加工、情報付与のうち何れか１つ以上を実行する画像加工手段と、
前記画像加工手段により加工、情報付与が実行された代表画像を、空間的にレイアウトして利用者に出力するレイアウト手段と、
前記画像加工手段により加工、情報付与が実行された代表画像のうち、利用者が選択した少なくとも１つの前記代表画像に対応する前記区間に基づいて編集コンテンツを生成する生成手段と、
を備えることを特徴とする情報編集装置。
映像情報又は音声情報のうち何れか１つ以上を含むコンテンツを編集する方法であって、
区間分割手段が、前記コンテンツを所定の区間単位に分割する区間分割ステップと、
感情検出手段が、前記分割された区間毎に、映像情報、音声情報のうち何れか１つ以上を用い、少なくとも映像情報を含むコンテンツの場合は該情報から抽出した映像特徴量、あるいは音声特徴量のうち少なくとも一方に基づいて、音声情報から成るコンテンツの場合は該情報から抽出した音声特徴量に基づいて、１種以上の感情表出状態の確からしさを求める感情検出ステップと、
出力手段が、前記映像情報、音声情報のうち何れか１つ以上を用いて、前記分割された区間毎に、映像情報を含むコンテンツの場合は映像フレームを、音声情報から成るコンテンツの場合は音声であることを示すアイコン又は当該区間の音声波形を代表画像として決定し出力する出力ステップと、
画像加工手段が、前記代表画像を、前記確からしさに基づいて、加工、情報付与のうち何れか１つ以上を実行する画像加工ステップと、
レイアウト手段が、前記画像加工手段により加工、情報付与が実行された代表画像を、空間的にレイアウトして利用者に出力するレイアウトステップと、
生成手段が、前記画像加工手段により加工、情報付与が実行された代表画像のうち、利用者が選択した少なくとも１つの前記代表画像に対応する前記区間に基づいて編集コンテンツを生成する生成ステップと、
を備えることを特徴とする情報編集方法。
コンピュータを、請求項１に記載の各手段として機能させる情報編集プログラム。
請求項３に記載の情報編集プログラムを記録したコンピュータ読み取り可能な記録媒体。