JP4812733B2 - 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体 - Google Patents

情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4812733B2
JP4812733B2 JP2007284706A JP2007284706A JP4812733B2 JP 4812733 B2 JP4812733 B2 JP 4812733B2 JP 2007284706 A JP2007284706 A JP 2007284706A JP 2007284706 A JP2007284706 A JP 2007284706A JP 4812733 B2 JP4812733 B2 JP 4812733B2
Authority
JP
Japan
Prior art keywords
information
section
video
audio
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007284706A
Other languages
English (en)
Other versions
JP2009111938A (ja
Inventor
豪 入江
浩太 日高
隆 佐藤
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007284706A priority Critical patent/JP4812733B2/ja
Publication of JP2009111938A publication Critical patent/JP2009111938A/ja
Application granted granted Critical
Publication of JP4812733B2 publication Critical patent/JP4812733B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

本発明は、映像コンテンツ又は音声コンテンツを編集する情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体に関する。
これまでの放送に限らず、コンテンツ配信・共有サイトの普及によって、Webサイトや個人PCにおいても、コンテンツを視聴することが増えてきており、コンテンツの種類も、例えば、映画やドラマ、ホームビデオ、ニュース、ドキュメンタリ、音楽等、非常に多様化している。通信と放送の連携に伴い、今後更に、コンテンツ視聴を楽しむユーザが増加することは容易に予想される。
中でも、コンテンツ共有サイトでは、個人が撮影もしくは作成したコンテンツを公開し、利用者同士で共有することができる。コンテンツ共有サイトでは、公開できるコンテンツの容量が限られている場合が多く、また、コンテンツの数も膨大であることから、より多くの視聴者にコンテンツを視聴してもらうためには、利用者は視聴してもらいたい区間を中心に据えるように編集したコンテンツを公開することが好ましい。
しかしながら、蓄積されたコンテンツの殆どは編集工程を経ていない未編集のコンテンツである。この理由は、コンテンツの編集には、編集を実施するための設備や技術が必要である、コンテンツの内容を把握し、コンテンツ中のどの区間が視聴してもらいたい区間であるかを確認しておく必要がある、
の2つの要因によって、利用者にとっては困難を伴うためである。
この課題を解決するためには、
1)編集設備、技術を持たない利用者でも簡単に編集を実行できる、
2)利用者が視聴してもらいたいコンテンツ中の区間を効率的に確認できる、
の2点を実現する編集技術が必要である。
従来技術として、コンテンツの編集を自動化、もしくは支援する技術が、例えば特許文献1乃至3などに記載されている。
特許文献1に記載の技術では、映像を幾つかの区間に分割して、各区間の代表画像を選出し、更に、それらのレイアウト、及び代表画像の絞込みを行うことで、一覧的に映像内容を把握することのできる編集支援技術について記載されている。
特許文献2に記載の技術では、映像を幾つかの区間に分割して、各区間の手振れやカメラワークなどの動きを検出し、動きの安定した区間を編集に向いた映像素材として利用者に提示する編集支援技術について記載されている。
これらの従来技術によれば、映像を幾つかの区間に分割することで、区間の繋ぎ合わせが容易になり、
1)編集設備、技術を持たない利用者でも簡単に編集を実行できる、
を満たす編集支援技術となっている。
一方で、コンテンツの各区間の内容を反映することのできる編集技術として、特許文献3に記載の技術がある。ここでは、コンテンツに含まれる音声情報に基づいて、音声を所定の単位区間に分割し、それぞれの区間が強調状態の音声であるか否かを判定することで強調状態にある区間を選出し、更にそれらの選出された区間を繋ぎ合わせる自動編集技術について記載されている。
この技術によれば、コンテンツの音声情報に基づいて、強調状態にある区間を中心に据えた編集が自動的に実行できる。
尚、本発明に関連する技術の参考文献としては、下記非特許文献1〜6に記載のものが存在する。
特開平11−308567号公報 特開2000−261757号公報 特開2005−333205号公報 「ディジタル音声処理 第4章 4.9ピッチ抽出」、古井貞熙、東海大学出版会、pp.57−59、1985年9月 嵯峨山茂樹、板倉 文忠、「音声の動的尺度に含まれる個人性情報」、日本音響学会昭和54年度春季研究発表会講演論文集、3−2−7、1979年、pp.589−590 「わかりやすいパターン認識」、石井健一郎、上田修功、前田栄作、村瀬洋、オーム社、pp52−54、1998年 「計算統計I 第III章 3EM法 4変分ベイズ法」、上田修功、岩波書店、pp.157−186、2003年6月 「映像特徴インデクシングに基づく構造化映像ハンドリング機構と映像利用インタフェースに関する研究 第3章 画像処理に基づく映像インデクシング」、外村佳伸、京都大学博士論文、pp.15−23、2006 「コンピュータ画像処理」、田村秀行 編著、オーム社、pp.242−247、2002年12月
利用者が視聴してもらいたい区間となる代表的な例は、映像又は音声中の感情表出の大きい区間である。言い換えれば、映像中の楽しい区間を視聴してもらいたいと思う利用者や、悲しい区間を視聴してもらいたいと思う利用者が多く、このような区間を自動的に分類し、自動編集を行う技術や、編集を簡単に行うことのできる技術の開発が望まれている。
しかしながら、これらの技術では、各区間についての情報は、動きが安定している区間や、強調状態にある区間などの限られた指標を示すにとどまっており、各区間の感情表出についての詳細な情報は提示されなかった。このため、前述のような利用者が、視聴してもらいたい区間であるかどうかを即座に確認することができず、このような利用者にとっては有益な編集技術とはなりにくいという問題があった。
本発明は、前記課題に基づいてなされたものであって、その目的は、映像又は音声中の感情表出を1つ以上の映像又は音声を解析することによって自動的に検出し、この検出によって得られる情報に基づいて感情的状態にある区間を捉えた自動編集、及び編集支援を実行できる情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体を提供することにある。
本発明において、感情とは、情動、雰囲気、印象等も含むものとする。音声とは、人間による発話音声のみではなく、歌唱音声、音楽、環境音等も含むものとする。
前記課題の解決を図るために、請求項1記載の発明は、映像情報又は音声情報のうち何れか1つ以上を含むコンテンツを編集する装置であって、前記コンテンツを所定の区間単位に分割する区間分割手段と、前記分割された区間毎に、映像情報、音声情報のうち何れか1つ以上を用い、少なくとも映像情報を含むコンテンツの場合は該情報から抽出した映像特徴量、あるいは音声特徴量のうち少なくとも一方に基づいて、音声情報から成るコンテンツの場合は該情報から抽出した音声特徴量に基づいて、1種以上の感情表出状態の確からしさを求める感情検出手段と、前記映像情報、音声情報のうち何れか1つ以上を用いて、前記分割された区間毎に、映像情報を含むコンテンツの場合は映像フレームを、音声情報から成るコンテンツの場合は音声であることを示すアイコン又は当該区間の音声波形を代表画像として決定し出力する出力手段と、前記代表画像を、前記確からしさに基づいて、加工、情報付与のうち何れか1つ以上を実行する画像加工手段と、前記画像加工手段により加工、情報付与が実行された代表画像を、空間的にレイアウトして利用者に出力するレイアウト手段と、前記画像加工手段により加工、情報付与が実行された代表画像のうち、利用者が選択した少なくとも1つの前記代表画像に対応する前記区間に基づいて編集コンテンツを生成する生成手段と、を備えることを特徴とする。
請求項2記載の発明は、映像情報又は音声情報のうち何れか1つ以上を含むコンテンツを編集する方法であって、区間分割手段が、前記コンテンツを所定の区間単位に分割する区間分割ステップと、感情検出手段が、前記分割された区間毎に、映像情報、音声情報のうち何れか1つ以上を用い、少なくとも映像情報を含むコンテンツの場合は該情報から抽出した映像特徴量、あるいは音声特徴量のうち少なくとも一方に基づいて、音声情報から成るコンテンツの場合は該情報から抽出した音声特徴量に基づいて、1種以上の感情表出状態の確からしさを求める感情検出ステップと、出力手段が、前記映像情報、音声情報のうち何れか1つ以上を用いて、前記分割された区間毎に、映像情報を含むコンテンツの場合は映像フレームを、音声情報から成るコンテンツの場合は音声であることを示すアイコン又は当該区間の音声波形を代表画像として決定し出力する出力ステップと、画像加工手段が、前記代表画像を、前記確からしさに基づいて、加工、情報付与のうち何れか1つ以上を実行する画像加工ステップと、レイアウト手段が、前記画像加工手段により加工、情報付与が実行された代表画像を、空間的にレイアウトして利用者に出力するレイアウトステップと、生成手段が、前記画像加工手段により加工、情報付与が実行された代表画像のうち、利用者が選択した少なくとも1つの前記代表画像に対応する前記区間に基づいて編集コンテンツを生成する生成ステップと、を備えることを特徴とする。
請求項3記載の発明は、コンピュータを、請求項1に記載の各手段として機能させる情報編集プログラムであることを特徴とする。
請求項4記載の発明は、請求項3に記載の情報編集プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
前記請求項1、2の発明によれば、映像又は音声から感情表出状態の確からしさを自動的に計算する。この確からしさに基づいて、利用者はどの区間がどのような感情的状態にあるかを判断し、所望の区間を含む編集コンテンツを生成することができ、編集の支援が可能となる。
前記請求項3の発明によれば、編集支援が可能な情報編集プログラムが提供される。
前記請求項4の発明によれば、請求項3に記載の情報編集プログラムを記録した記録媒体として、コンピュータに組み込むことができる。
(1)請求項1、2の発明によれば、利用者は、感情表出状態の確からしさに基づいて加工、情報の付与された代表画像を参照しながら、編集コンテンツに含める区間を選定できるため、各区間の内容をいちいち確認することなく効率的に感情表出状態となっている区間を把握し、効率的に、視聴してもらいたい区間を含めた編集を実行することができ、編集の支援が可能となる。
(2)請求項3の発明によれば、編集支援が可能な情報編集プログラムを提供することができる。
(3)請求項4の発明によれば、請求項1の発明をコンピュータ上で実現することができる。
これらを以って情報編集分野に貢献できる。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は以下の実施形態例に限定されるものではない。
[実施形態の第1例]
本発明の実施形態の第1例は、編集支援を実行する装置として実施した場合であり、請求項1、2に対応している。図1は本実施形態例に係る情報編集装置1の一例を示している。
情報編集装置1は、編集対象であるコンテンツ入力部11と、コンテンツ入力部11から入力された映像/音声データ10を格納する記憶装置12と、映像情報、音声情報のうち何れか1つ以上を用いて、コンテンツデータを所定の区間単位に分割する区間分割手段13と、映像情報、音声情報のうち何れか1つ以上を用いて、分割されたぞれぞれの区間毎に、感情表出状態の確からしさである感情度を算出する感情検出手段14と、映像情報、音声情報のうち何れか1つ以上を用いて、区間毎に代表画像を決定し、出力する画像出力手段15と、感情度に基づいて、代表画像を加工する画像加工手段16と、代表画像をレイアウトして利用者に提示するレイアウト手段17と、利用者が指定した代表画像に対応する区間を再生する再生手段18と、利用者が選択した代表画像に対応する区間を繋ぎ合わせて、編集コンテンツを生成する生成手段19とを備え、前記各機能は例えばコンピュータによって実行される。
図2に、本実施形態例に係る情報編集装置1の処理フローの一例を図示する。この処理フローに基づいて、図1に示す情報編集装置1の詳細な動作を説明する。
ステップS21において、利用者からの要請によって、コンテンツ入力部11が映像/音声データを受け付けると、ステップS22において、これを記憶装置12に格納する。
次に、ステップS23において、区間分割手段13が、映像情報又は音声情報の何れか1つ以上に基づいて、該映像/音声データを所定の区間単位に分割する。
区間分割の方法としては、メディア処理技術を用いる方法がある。
例えば、映像情報を用いる場合、映像のカット点を検出し、カット点で囲まれた部分を区間として定義する。このとき、区間単位はショットとなる。カット点を検出する方法としては、例えば、非特許文献5に記載の方法を用いることができる。
また、例えば、音声情報を用いる場合、音声のスペクトル情報を用いた有声無声判定を行い、ある一定以上継続する無声部分を検出し、この無声部分で囲まれた部分を区間として定義する。このとき、区間単位は連続有声区間となる。
有声無声判定は、スペクトル情報の他、例えば、基本周波数の存在の有無によっても実行するものとしてもよい。
スペクトル情報を用いる場合は、パワースペクトル密度のピークを持つ周波数を1つ以上計算し、これらの周波数が予め定めた周波数帯域に収まる範囲に存在する場合には有声区間、それ以外の場合には無声区間として判定すればよい。周波数帯域としては、例えば、50〜350Hz(ヘルツ)の間にピークを持つ周波数が観測された場合には、有声区間であると判定する、としてもよい。
基本周波数を用いる場合には、例えば、非特許文献1に記載の方法などを用いて基本周波数を求め、これが予め定めた周波数帯域に収まる範囲の値を取る場合に有声区間、それ以外の場合には無声区間として判定すればよい。周波数帯域としては、例えば、50〜350Hz(ヘルツ)などとして設定してもよい。
また、例えば、音声波形の振幅値の絶対値に閾値を設定し、この条件が所定の時間連続する時、区間の終/始端としても良い。
入力されたコンテンツが音声の場合には、音声情報を用いて区間分割を実行すればよく、映像の場合には映像情報を用いて区間分割を実行すればよい。更に、可能であれば、上記のショット、及び連続有声区間の両方を区間単位として採用してもよい。
入力された映像又は音声が1つ以上存在する場合には、各々の映像又は音声に対して前記区間分割法を適用すればよい。
次に、ステップS24において、感情検出手段14が、映像情報又は音声情報の何れか1つ以上に基づいて、区間毎の感情度を算出する。
本実施形態の一例では、検出する感情表出状態として、例えば、“楽しい”、“哀しい”、“怖い”、“激しい”、“かっこいい”、“かわいい”、“エキサイティング”、“情熱的”、“ロマンチック”、“暴力的”、“穏やか”、“癒される”、“暖かい”、“冷たい”、“不気味”、“笑い”がある。ステップS24では、それぞれの感情表出状態について、その確からしさを表す感情度を計算する。
ここで、本発明の実施形態の第1例に係る感情検出手段14は、例えば図3に示す感情検出手段3のように構成される。
感情検出手段3は、コンテンツに含まれる映像、音声信号データから、分析フレーム毎に特徴量を抽出する特徴量抽出手段31と、特徴量に基づいて、感情表出状態である確率を求める統計モデルを備えた感情確率計算手段32と、前記感情確率に基づいて、当該区間の感情度を計算する感情度計算手段33と、感情度に基づいて、当該区間の感情表出状態を判定する感情判定手段34により構成する。
ここで、上記統計モデルは、実際に本発明によって編集を実行する前に学習によって作成しておく。
図4に、本発明の実施形態の第1例に係る感情検出手段3の処理フローの一例を図示する。この処理フローに基づいて、図3に示す感情検出手段3の詳細な動作を説明する。
区間毎に感情度を計算する際、映像情報に基づく場合も、音声情報に基づく場合も、あるいはそれら両方に基づく場合も、それぞれ必要な映像特徴量、音声特徴量を抽出し、これらに基づいて感情度を計算する。
ステップS41では、特徴抽出手段31が、取り込まれたコンテンツの音声信号データから、所望の音声特徴量を分析フレーム(以下、フレームと呼ぶ)毎に計算し、抽出する。
それぞれの特徴量を抽出する方法の一例を説明する。
まず、映像特徴量を抽出する方法の一例を説明する。
本実施形態の一例では、映像特徴量は、ショット長、色ヒストグラム、色ヒストグラムの時間変動特性、動きベクトル、それぞれの時間変動特性を抽出するものとする。時間変動特性の例としては、例えば、フレーム間差分がある。
映像特徴量は、映像フレーム毎に抽出を行う。この際、処理時間を短縮することを目的として、数フレームおき、例えば、5フレームおきに抽出する、といった工夫をしてもよい。
ここで、ショット長、動きベクトル、色ヒストグラムなどの基本的な抽出方法は様々あるが、これらは公知であり、例えば、非特許文献5などに示されている方法を用いることができる。
ショット長については、単一映像フレーム内で抽出することは事実上不可能であるので、例えば、対象としている映像フレームが含まれるショットの長さとして抽出すればよい。また、1つ以上のショットを含むある区間におけるショット長の平均値や最大値、最小値などを用いてもよい。
色ヒストグラムについては、例えば、次のように抽出する。
映像フレーム中の画素毎に、色相(Hue)を抽出する。この色相は、例えば11や256など、所定の数Qに量子化しておくことで、全画素がQ個の量子のうち何れに該当するかを求めることができる。これを全画素に渡り実行し、量子毎の出現数を計数することにより、映像フレームの色相ヒストグラムが抽出できる。
この際、映像フレーム全体を1つ以上の領域に分割し、それぞれの領域毎にヒストグラムを抽出してもよい。
動きベクトルについては、例えば、オプティカルフローベクトルを計算することによって、X成分とY成分からなるベクトルとして抽出することができる。オプティカルフローベクトルの計算の方法としては、例えば、非特許文献6などに記載の方法を用いることができる。この他、例えば、映像フレーム毎にベクトルのノルムを計算するのでもよいし、非特許文献5に開示されている方法などを用いて、パン、チルト、ズームなどのカメラ操作を検出し、それぞれ個別に単位時間辺りの操作量などとして計量化するのでもよい。
音声特徴量を抽出する方法の一例を説明する。
音声特徴量は、例えば、基本周波数、基本周波数の時間変動特性、振幅のrms値、振幅のrms値の時間変動特性、パワー、パワーの時間変動特性、発話速度、発話速度の時間変動特性のうち1つ以上の要素で構成するものとする。
各音声特徴量を抽出する方法の一例について詳細を説明する。
多様なコンテンツを対象とする本発明の実施形態の一例に用いる特徴量としては、高次元音声パラメータの解析を必要とする音韻情報と比較して、多様な音源要因の混在した音声に対しても安定して得られるものが好ましい。
例えば、音声認識等を用いて音声をテキスト情報に変換する方法は、このような音韻情報を必要とし、例えば、ニュース映像等の発話者の音声が鮮明に聴取できるジャンルのコンテンツについては有効である。
しかし、映画、ドラマや、ホームビデオ等においては、発話以外にも、背景音楽、環境音等の様々な音源要因が存在するために、発話を鮮明に聴き取ることができず、音声認識が難しい。更に、必ずしも発話のみによってコンテンツの感情表出状態を決定できるとは限らないため、印象や雰囲気を含めた感情表出状態を検出するためには、音楽、効果音、環境音等も取り扱うことのできる音声特徴量が必要である。
そこで、本実施形態の第1例では、韻律情報、特に、基本周波数、基本周波数の時間変動特性、振幅のrms値(以下、単にrmsと呼ぶ)、rmsの時間変動特性、パワー、パワーの時間変動特性、発話速度、発話速度の時間変動特性を抽出する。
特に、時間変動特性として数種の短時間変化量を用いることによって、コンテンツに含まれる感情を抽出する場合においての感情的な音声における重要な挙動を検出することが可能となる。
時間変動特性の例としては、例えば、フレーム間差分や、回帰係数がある。また、パワーは、パワースペクトル密度などを用いるのでもよい。基本周波数、パワーの抽出法は様々あるが、公知であり、その詳細については、例えば非特許文献1に記載の方法等を参照されたい。
また、発話速度、音楽リズム、テンポ等を含めた発話速度については、例えば非特許文献2に開示されている方法などによって、動的尺度として抽出することができる。例えば、動的尺度のピークを検出し、その数をカウントすることで発話速度を検出する方法をとってもよく、また、発話速度の時間変動特性に相当するピーク間隔の平均値、分散値を計算して発話速度の時間変動特性を検出する方法をとるのでもよい。以下、本発明の実施形態の第1例では、発話速度として動的尺度のピーク間隔平均値を用いるものとする。
これらの音声特徴量を、フレーム毎に抽出する方法の1例を説明する。1フレームの長さ(以下、フレーム長とよぶ)を、例えば50msとし、次のフレームは現フレームに対して、例えば、20msの時間シフトによって形成されるものとする。
図5に示すように、これらのフレーム毎に、各フレーム内での各音声特徴量の平均値、つまり、平均基本周波数、基本周波数の平均時間変動特性、平均rms、rmsの平均時間変動特性、平均パワー、パワーの平均時間変動特性、動的尺度の平均ピーク間隔平均値などを計算するものとする。あるいは、これらの平均値のみではなく、フレーム内での各音声特徴量の最大値、最小値、または変動幅などを計算して用いてもよい。
ここで、コンテンツ中の感情表出状態にある部分に特徴的に現れる音声においては、基本周波数そのものの抽出が困難な場合が多く、しばしば欠損することがある。このため、そのような欠損を補完する効果を容易に得ることのできる、基本周波数の時間変動特性は含むことが好ましい。
更には、話者依存性を低く抑えたまま、判定精度を高めるため、パワーの時間変動特性を更に含むことが好ましい。以上、フレーム毎に行った音声特徴量の抽出処理を、コンテンツ全てに渡るフレームに対して行うことで、全てのフレームにおいて音声特徴量を得ることが可能である。
映像特徴量、音声特徴量の両方を用いて感情度の計算を実行する場合、映像特徴量抽出に用いたフレームと、音声特徴量抽出に用いたフレームを統一しておくことが好ましい。
これを実施する方法の一例としては、例えば、映像特徴量を音声特徴量抽出に用いたフレームに合わせて換算し、50msのフレーム幅、20msの時間シフトで再計算する方法が挙げられる。
次に、ステップS42において、ステップS41でフレーム毎に抽出した特徴量に基づいて、感情確率計算手段32が、検出する対象となる感情表出状態である確率を、感情確率として計算する。
感情確率は、検出する対象となる感情表出状態のカテゴリ(感情カテゴリ)と、統計モデルを対応付けることで、統計モデルを用いて感情カテゴリ毎に感情確率を計算する。この統計モデルとしては、例えば、正規分布、混合正規分布、隠れマルコフモデル、一般化状態空間モデルなどを用いる。好ましくは、感情の時間遷移をモデル化できる、一般化状態空間モデルを採用する。
統計モデルのパラメータの推定方法は、例えば、最尤推定法や、EMアルゴリズム、変分ベイズ法などが公知のもとして知られており、用いることができる。詳しくは非特許文献3、非特許文献4などを参照されたい。
次に、ステップS43において、ステップS42で計算した感情確率に基づいて、感情度計算手段33が区間毎の感情度を計算する。
区間毎の感情度を計算する方法の1例について説明する。
各感情カテゴリを順にe1、e2、・・・と表記し、感情カテゴリの数を#(K)と表す。コンテンツ中の区間Sの集合を時刻の早いものから順に{S1,S2,・・・,SNS}とする。ここで、NSは区間の総数である。
ある区間Siに含まれるフレームを{f1,f2,・・・,fNFi}と置く。ここで、NFiは区間Siに含まれるフレーム数である。各フレームftは、ステップS42において、フレーム単位でのk番目の感情カテゴリekの感情確率pft(ek)が求められている。これを用いて、k番目の感情カテゴリekの区間Siの感情度pSi(ek)は、例えば、区間Siにおける平均感情確率を表す
として計算することや、最大値を表す次式によって計算する。
また、式(1)によって実施される平均化は、各区間Siを更に分割して小区間を生成し、この小区間単位で実行するのでもよい。
この小区間は、例えば1秒の小区間幅、小区間シフトを0.5秒として、この小区間毎に平均化を実行する。そして、区間Si内に含まれる全ての小区間の平均値のうち、最大の値を取るものを区間Siの感情度としてもよい。これら以外にも、例えば、区間内でフィルタ処理を行ってから感情度を計算するなど、方法は様々あるが、各区間の間で感情度を比較する場合があるため、感情度はある一定の値の範囲内、例えば0〜1の間に収まるようにすることが好ましい。
以上のような計算を、全ての区間に渡り行うことで、全ての区間に対して感情カテゴリ毎の感情度を計算することができる。
次に、ステップS44において、ステップS43で計算した感情度に基づいて、感情判定手段34が区間毎の感情表出状態を判定する。
これを実施する方法としては、例えば、感情度が最大値をとる感情カテゴリを、その区間の感情として求める。
これによって、各区間でどのような感情表出状態が優勢に表れているかを判定することができる。
映像又は音声が複数入力された場合には、これらの映像又は音声を連続的に繋げ、1つの映像又は音声であるとみなして、上記感情度の算出を実行すればよい。
次に、図2のステップS25において、画像出力手段15が区間毎に代表画像を選定し、出力する。
まず、映像に対する代表画像を選定する処理の一例について説明する。
代表画像の選定は、例えば、ある区間Siに含まれる全ての映像フレームを時間方向に並べたときの先頭フレーム、中央のフレーム、末尾のフレームなどを抽出し、これを代表画像として選定するのでもよい。
また、ステップS24において求めた、区間における感情表出状態、感情度、感情確率に基づいて代表画像を抽出してもよい。
例えば、感情表出状態と感情確率に基づいた処理方法を、図6を用いて説明する。
まず、代表画像を選定する区間Siの感情表出状態を取得し、この感情表出状態に対応する感情確率が最大の値を取る時刻TFrameを取得する。
次に、区間に含まれる全ての映像フレーム61の中からこの時刻TFrameに最も近い映像フレームを、代表画像62として選定する。
この方法によって、その区間の最も優勢な感情表出状態が、最も強く現れていると想定される映像フレームを代表画像として選定することができ、どのような内容の区間であるかを分かりやすく確認することができる。
入力されたファイルが音声である場合には、代表画像として、図7に示すような、音声であることを示すアイコン71を代表画像とするのでもよいし、当該区間の音声波形72を代表画像とするのでもよい。
次に、ステップS26において、画像加工手段16が区間毎の感情度に基づいて、代表画像を加工する。
代表画像を加工する処理の一例について、図8を用いて説明する。
まず事前に、感情カテゴリ毎に、感情度の高低に応じて、加工内容を決定しておく。例えば、“楽しい”感情カテゴリであれば、黄色の外枠を付与する、“哀しい”感情カテゴリであれば、同様に青色の外枠を付与するなどとしてもよい。また、感情度が高い場合には、代表画像のサイズを大きくし、低い場合には代表画像のサイズを小さくするなどとしてもよい。また、この他、画像の透過率、コントラスト、明るさ、色相、画素数等を加工項目に設定してもよい。
感情度の高低の判断は、例えば、感情カテゴリekの区間Siの感情度pSi(ek)が0〜1の間の値を取る場合には、0≦pSi(ek)<0.3であれば「低」、0.3≦pSi(ek)<0.7であれば「中」、0.7≦pSi(ek)≦1.0であれば「高」などとすることができる。
実際に加工を行う段階においては、まず、最も優勢に表れている感情表出状態である感情カテゴリを求める。この方法は、感情度が最も高い値となった感情カテゴリを最も優勢な感情カテゴリであるとすればよい。
次に、この優勢な感情カテゴリと、その感情度に対応する加工を代表画像に実施すればよい。
前記のような加工のほか、アイコンの付与を実施するのでもよい。
この処理を行う場合にも、予め、感情カテゴリ毎に、感情度の高低に応じて、付与するアイコンを決定しておく。
代表画像にアイコンを付与した一例を図9に示す。例えば、代表画像に対応する区間の感情カテゴリが“楽しい”で、感情度が「高」の場合には、例えば、“笑顔”を示すアイコン91を代表画像92に付与する。また、例えば、感情カテゴリが“哀しい”で、感情度が「高」の場合には、例えば、“泣き顔”を示すアイコン93を代表画像94に付与する。
このようなアイコンの付与によって、各区間がどのような感情的状態にある区間であるかを、直観的に理解しやすくすることができ、確認の作業を効率化できる。
次に、ステップS27において、レイアウト手段17が各代表画像をレイアウトして出力し、利用者に提示する。
この処理方法の一例を、図10を用いて説明する。
図の例では、代表画像には、感情度に合わせて、前記の方法によってアイコン、及びサイズの加工を施してある。例えば、提示平面100の横(左右)軸101を時間軸に取り、区間の時刻情報に合わせて左から順にレイアウトしてもよい。
さらに図11に示すように、縦(上下)軸111を感情度に取り、感情度を反映したレイアウトを行ってもよい。例えば、代表画像112に対応する区間は感情度が「高」、代表画像113に対応する区間などは「低」、代表画像114に対応する区間などは「中」を表すものとしてもよい。
また、例えば、提示平面の縦(上下)軸を時間軸に、横(左右)軸をパンによるカメラワークの画角を表す軸に取り、加工した代表画像をレイアウトするのでもよい。また、それぞれの軸は、チルトなどのカメラワークの画角や、感情度の大きさを示すようにしてもよい。
さらに、例えば、図12に示すように、提示平面120を、一連の区間をあるまとまりとしてまとめ、そのまとまりの単位で、例えば、1番目のまとまりに属する区間の代表画像を提示する提示領域121、2番目のまとまりに属する区間の代表画像を提示する提示領域122、などのように、レイアウト位置を分割してもよい。
この際用いるまとまりは、例えば、映像情報を利用して、ディゾルブのような漸次カットなどの特殊なカットで囲まれる一まとまりとしてもよいし、また、ある一定時間以上、例えば、1秒以上の無音区間で囲まれる一まとまりとしてもよい。
まとまりの数は、図12では2つの例を示しているが、必ずしも2つである必要はなく、入力された映像、音声ファイルと、区間分割、まとまりを構成する方法に合わせて変更されるものである。
これらのレイアウトによって、横一列に全て提示する場合に比べて、利用者がより一覧的に区間全体を把握することができる。また、例えば、レイアウトした代表画像が、提示平面の右端123に到達したところで区切ってひとまとまりとするのでもよい。
この他、例えば、アイコンを付与する方法と同様に、前記感情度が「高」の区間が出現したところで区切り、そこから先は列を変えるものとしてもよい。つまり、一列の末尾は感情度が「高」、即ち、感情表出が大きく表れている区間となる。この方法によって、一列毎に、感情表出が大きく表れる一連のコンテキストを含めることができる。
また、入力された元映像又は音声が1つ以上存在する場合には、これらの映像又は音声を連続的に繋げ、1つの映像又は音声であるとみなして、図10の提示平面100に表示してもよい。
また、それぞれ提示領域を切り替えて提示するものとしてもよい。このレイアウト方法の一例について、図13を用いて説明する。
図13は、映像又は音声であるコンテンツが3つ入力された場合である。このときは、例えば、各コンテンツ毎に提示平面130を3つ設置し、提示平面切換タブを押すことで、これら表示される提示平面を切り替えて提示する。
次に、利用者が区間の再生を要求した場合には、ステップS28において、再生手段18が、指定された区間の再生を実行する。すなわち、区間再生要求を受け付けたか否かの判定(ステップS28a)と、区間の再生(ステップS28b)と、代表画像選択を終了するか否かの判定(ステップS28c)とを実行する。
区間の再生を要求する方法の一例としては、例えば、利用者がポインティングデバイスなどを用いて、代表画像を指定した場合に、それをもって要求とすればよい。
利用者の再生要求に合わせて、任意の区間から再生を実行する方法の一例について説明する。
利用者が、代表画像の指定等によって区間の再生を要求する。この際、各代表画像と、対応する区間の再生開始点となる映像フレーム、又は、タイムライン時刻とを予め対応づけておく。この方法によって、代表画像を指定した際に、映像中のどのフレーム位置、もしくはタイムライン時刻から再生を開始すればよいかが判別できるため、再生位置のシークによって、任意の区間から再生を実行することができる。
その他の方法の一例としては、予め、各区間を全て個別に映像、動画ファイル化する方法がある。例えば、各区間の先頭の映像フレームから終端の映像フレームまでを切り出しておき、単一の映像ファイルとして記憶する。このようにして生成した区間に対応した映像ファイルと、同じく区間に対応した代表画像を対応付けておき、代表画像が指定された時点で対応する映像ファイルを再生すればよい。
最後に、ステップS29において、利用者が代表画像を選択し、編集コンテンツに用いる区間の選択を終了する要求を受けた場合に、生成手段19が、選択された区間を繋ぎ合わせて編集コンテンツを生成する。
この繋ぎ合わせ方の例としては、例えば、元映像のタイムライン上の時刻が早い順に繋ぎ合わせるのでもよいし、例えば、感情度の高い区間又は低い区間から順に繋ぎ合わせるのでもよい。また、利用者が繋ぎ合わせ順を指定できるように設計してもよい。
以上が、本発明の実施形態の第1例に係る情報編集装置、情報編集方法の一例である。
[実施形態の第2例]
本発明の実施形態の第2例は、自動編集を実行する装置として実施した場合である。
図14は本実施形態例に係る情報編集装置140の一例を示している。
情報編集装置140は、編集対象であるコンテンツ入力部141と、コンテンツ入力部141から入力された映像/音声データ10を格納する記憶装置142と、映像情報、音声情報のうち何れか1つ以上を用いて、コンテンツデータを所定の区間単位に分割する区間分割手段143と、映像情報、音声情報のうち何れか1つ以上を用いて、分割されたぞれぞれの区間毎に、感情表出状態の確からしさである感情度を算出する感情検出手段144と、感情度に基づいて区間を選択する選択手段145と、選択された区間を繋ぎ合わせて、編集コンテンツを生成する生成手段146と、を備え、前記各機能は例えばコンピュータにより実行される。
図15に、本実施形態例に係る情報編集装置140の処理フローの一例を図示する。この処理フローに基づいて、図14に示す情報編集装置140の詳細な動作を説明する。
ステップS151〜ステップS154の各処理は、本発明の実施形態の第1例の説明に示した図2のステップS21〜ステップS24と、それぞれ全く同一のものとしてよい。
ステップS154までの各処理を終えた後、ステップS155では、選択手段145が、それまでに計算された区間毎の感情度に基づいて、編集コンテンツに含める区間の選択を実行する。ステップS154において、各区間の感情カテゴリについて感情度が図16に示すように得られている。
選択の処理の一例について説明する。
編集コンテンツに含まれる区間は、例えば、感情度の高い区間を採用する。この方法について説明する。まず、図16に示す、各区間の感情カテゴリと、感情度を参照する。このうち、例えば、“楽しい”感情カテゴリの感情度についてランキングし、最も高い値を持つ区間から順に、上限として定めた区間数に達するまで採用する。
“楽しい”以外の感情カテゴリの場合においても、同様に処理を実施すればよい。
この上限となる区間数の決定の仕方としては、利用するシステムの仕様等に合わせて予め決定しておいてもよいし、利用者の要求を受付、所望の数を設定するのでもよい。
また、区間数の上限でなくとも、編集コンテンツの時間を上限として定めても良い。この場合は、各区間の時間を別途算出しておけば、採用した区間全体の時間を計算することができる。
編集コンテンツの時間を上限とする場合にも、区間数の上限の場合と同様、利用するシステムの仕様等に合わせて予め決定しておいてもよいし、利用者の要求を受付、所望の時間を上限として設定するのでもよい。
次に、ステップS156では、生成手段146が、選択された区間を繋ぎ合せ、編集コンテンツを生成する。
この繋ぎ合わせ方の例としては、例えば、元映像のタイムライン上の時刻が早い順に繋ぎ合わせるのでもよいし、例えば、感情度の高い区間又は低い区間から順に繋ぎ合わせるのでもよい。
以上、この発明によるユーザ支援方法の、実施形態における方法の1例について詳細に説明した。
また、上記示した情報編集方法では、区間毎にどのような感情的状態にあるかを判定できる。これに基づいて、さらに、編集コンテンツに加工を加えても良い。
映像が入力されていた場合に、編集コンテンツが楽しい区間を多く含むものであれば、楽しい背景音楽を付与する、などはその一例である。
この方法の一例としては、編集コンテンツの、全区間数に対する“楽しい”感情度が「高」である区間数の割合を求め、この割合が一定以上であれば、背景音楽を付与するとしてもよい。
その他、本発明の実施形態として示した1例以外のものであっても、本発明の原理に基づいて取りうる実施形態の範囲においては、適宜その実施形態に変化しうるものである。
以下では、本発明の具体的な実施例を説明する。
本実施例は、本発明の実施形態の第1例に説明した機能を、ローカルPCで動作するアプリケーションソフトとして利用した場合の実施例である。
この実施例1では、本発明による情報編集方法を実行するプログラムを記憶した記憶媒体がローカルPCに搭載されている。実施手順は以下の通りである。
[手順1]利用者が任意の映像又は音声ファイルを指定し、プログラムで読み込ませる。
[手順2]情報編集プログラムが動作し、前記図2で説明した処理に従い、区間分割、感情検出、代表画像の決定、代表画像へのアイコン付与を実施した後、図17に示すようにレイアウトして利用者に提示する。図17の画面では、映像ファイルについて、タイムライン順に区間をレイアウトしている。
[手順3]利用者が、区間をプレビューし、編集コンテンツに採用する区間を、代表画像を選択することで決定し、編集開始ボタンを押すことで、編集の終了を通知する。
[手段4]情報編集プログラムが動作し、利用者が採用した区間を繋ぎ合わせ、編集コンテンツの映像又は音声ファイルを出力する。
本実施例は、本発明の実施形態の第1例に説明した機能を、インターネット網で接続されたサーバで動作するアプリケーションソフトとして利用した場合の実施例である。
本実施例2における具体的な装置180の構成を、図18を用いて説明する。
サーバ装置181と、複数の利用者端末182a、182b、・・・が、インターネット網によって相互通信可能な形態で接続されている。サーバ装置181は、記憶部183、制御部184、データベース185を備えており、記憶部183は、本発明による情報処理方法を、コンピュータ読み取り可能な情報編集プログラムとして記憶した記憶媒体である。制御部184は、CPU186、RAM187、ROM188などを備え、サーバ処理の各種演算処理を実行する。データベース185には、利用者の識別情報や、各利用者がアップロードした映像コンテンツ、編集コンテンツ等が格納されている。実施手順は以下の通りである。
[手順1]利用者が利用者端末182a,182b…を通して任意の映像又は音声ファイルを指定し、サーバ装置181にアップロードする。
[手順2]サーバ装置181が、映像又は音声ファイルのアップロードを確認すると、記憶部183の情報編集プログラムが動作し、前記図2で説明した処理に従い、区間分割、感情検出、代表画像の決定、代表画像へのアイコン付与を実施した後、図17に示すようにレイアウトして、コンテンツをアップロードした利用者に提示する。
[手順3]利用者が、区間をプレビューし、編集コンテンツに採用する区間を、代表画像を選択することで決定し、編集開始ボタンを押すことで、編集の終了を通知する。
[手順4]情報編集プログラムが動作し、利用者が採用した区間を繋ぎ合わせ、編集コンテンツの映像又は音声ファイルを出力し、データベース185に格納する。
本実施例は、本発明の実施形態の第2例に説明した機能を、インターネット網で接続されたサーバで動作するアプリケーションソフトとして利用した場合の実施例である。
本実施例3における装置の具体的な構成は、前記実施例2の装置の構成図18と同様である。実施手順は以下の通りである。
[手順1]利用者が利用者端末182a,182b…を通して任意の映像又は音声ファイルを指定し、サーバ装置181にアップロードする。この際、編集コンテンツの上限時間と、編集コンテンツに採用する区間の感情カテゴリを指定する。
[手順2]サーバ装置181が、映像又は音声ファイルのアップロードを確認すると、記憶部183の情報編集プログラムが動作し、前記図15で説明した処理に従い、区間分割、感情検出を実行する。
[手順3]全区間のうち、利用者の指定した感情カテゴリの感情度が高い順に、上限時間に達する長さになるまで区間を採用する。
[手順4]採用した区間を繋ぎ合わせ、編集コンテンツの映像又は音声ファイルを出力、データベース185に格納する。
本実施例は、本発明の実施形態の第1例に説明した機能を、インターネット網で接続されたサーバで動作するアプリケーションソフトとして利用した場合の実施例である。実施例2との違いとしては、複数の映像又は音声を入力し、最終的に1つの編集コンテンツを生成する利用となっていることである。
本実施例4における装置の構成は、実施形態の第1例と同じであり、図18を用いて説明する。実施手順は以下の通りである。
[手順1]利用者が、1つ以上の任意の映像又は音声ファイルを指定し、サーバ装置181にアップロードする。
[手順2]サーバ装置181が、映像又は音声ファイルのアップロードを確認すると、記憶部183の情報編集プログラムが動作し、前記図2で説明した処理に従い、区間分割、感情検出、代表画像の決定、代表画像へのアイコン付与を実施した後、各映像又は音声ファイルを図19に示すように、レイアウトして表示する。図19の例では、映像又は音声ファイルが3つ入力された場合の例を図示してある。この例では、提示平面上部に設置された提示平面切換タブによって、提示するファイルを切り換えることができるようになっている。
[手順3]利用者が、区間をプレビューし、編集コンテンツに採用する区間を、代表画像を選択することで決定し、編集開始ボタンを押すことで、編集の終了を通知する。
[手順4]情報編集プログラムが動作し、各映像又は音声ファイルから、利用者が採用した区間を繋ぎ合わせ、編集コンテンツの映像又は音声ファイルを出力し、データベース185に格納する。
尚、本実施形態の情報編集装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の情報編集方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R,、CD−RW,HDD,リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
本発明の実施形態の第1例に係る情報編集装置の構成を説明するブロック図。 本発明の実施形態の第1例に係る処理の流れを説明するフロー図。 本発明の実施形態における感情検出手段を説明するブロック図。 本発明の実施形態における感情検出手段の処理の流れを説明するフロー図。 本発明の実施形態における音声特徴量抽出方法を説明するフロー図。 本発明の実施形態における代表画像選定方法を説明する説明図。 本発明の実施形態における音声コンテンツが入力された場合の代表画像の一例を示す説明図。 本発明の実施形態における代表画像の加工ルールを説明する説明図。 本発明の実施形態における代表画像にアイコン付与を実施する方法を説明する説明図。 本発明の実施形態におけるレイアウトの方法の一例を示す説明図。 本発明の実施形態におけるレイアウトの方法の他の例を示す説明図。 本発明の実施形態におけるレイアウトの方法の他の例を示す説明図。 本発明の実施形態における複数の映像又は音声コンテンツが入力された場合のレイアウトの方法を示す説明図。 本発明の実施形態の第2例に係る情報編集装置の構成を説明するブロック図。 本発明の実施形態の第2例に係る処理の流れを説明するフロー図。 本発明の実施形態における区間毎の感情カテゴリと感情度の対応付けを説明する説明図。 本発明の実施例1乃至3に係るレイアウト画面を示す説明図。 本発明の実施例2乃至4に係る装置の構成を説明するブロック図。 本発明の実施例4に係るレイアウト画面を示す説明図。
符号の説明
1,140…情報編集装置、3,14,144…感情検出手段、11,141…コンテンツ入力部、12,142…記憶装置、13,143…区間分割手段、15…画像出力手段、16…画像加工手段、17…レイアウト手段、18…再生手段、19,146…生成手段、31…特徴量抽出手段、32…感情確率計算手段、33…感情度計算手段、34…感情判定手段、145…選択手段、181…サーバ装置、182a,182b…利用者端末、183…記憶部、184…制御部、185…データベース。

Claims (4)

  1. 映像情報又は音声情報のうち何れか1つ以上を含むコンテンツを編集する装置であって、
    前記コンテンツを所定の区間単位に分割する区間分割手段と、
    前記分割された区間毎に、映像情報、音声情報のうち何れか1つ以上を用い、少なくとも映像情報を含むコンテンツの場合は該情報から抽出した映像特徴量、あるいは音声特徴量のうち少なくとも一方に基づいて、音声情報から成るコンテンツの場合は該情報から抽出した音声特徴量に基づいて、1種以上の感情表出状態の確からしさを求める感情検出手段と、
    前記映像情報、音声情報のうち何れか1つ以上を用いて、前記分割された区間毎に、映像情報を含むコンテンツの場合は映像フレームを、音声情報から成るコンテンツの場合は音声であることを示すアイコン又は当該区間の音声波形を代表画像として決定し出力する出力手段と、
    前記代表画像を、前記確からしさに基づいて、加工、情報付与のうち何れか1つ以上を実行する画像加工手段と、
    前記画像加工手段により加工、情報付与が実行された代表画像を、空間的にレイアウトして利用者に出力するレイアウト手段と、
    前記画像加工手段により加工、情報付与が実行された代表画像のうち、利用者が選択した少なくとも1つの前記代表画像に対応する前記区間に基づいて編集コンテンツを生成する生成手段と、
    を備えることを特徴とする情報編集装置。
  2. 映像情報又は音声情報のうち何れか1つ以上を含むコンテンツを編集する方法であって、
    区間分割手段が、前記コンテンツを所定の区間単位に分割する区間分割ステップと、
    感情検出手段が、前記分割された区間毎に、映像情報、音声情報のうち何れか1つ以上を用い、少なくとも映像情報を含むコンテンツの場合は該情報から抽出した映像特徴量、あるいは音声特徴量のうち少なくとも一方に基づいて、音声情報から成るコンテンツの場合は該情報から抽出した音声特徴量に基づいて、1種以上の感情表出状態の確からしさを求める感情検出ステップと、
    出力手段が、前記映像情報、音声情報のうち何れか1つ以上を用いて、前記分割された区間毎に、映像情報を含むコンテンツの場合は映像フレームを、音声情報から成るコンテンツの場合は音声であることを示すアイコン又は当該区間の音声波形を代表画像として決定し出力する出力ステップと、
    画像加工手段が、前記代表画像を、前記確からしさに基づいて、加工、情報付与のうち何れか1つ以上を実行する画像加工ステップと、
    レイアウト手段が、前記画像加工手段により加工、情報付与が実行された代表画像を、空間的にレイアウトして利用者に出力するレイアウトステップと、
    生成手段が、前記画像加工手段により加工、情報付与が実行された代表画像のうち、利用者が選択した少なくとも1つの前記代表画像に対応する前記区間に基づいて編集コンテンツを生成する生成ステップと、
    を備えることを特徴とする情報編集方法。
  3. コンピュータを、請求項1に記載の各手段として機能させる情報編集プログラム。
  4. 請求項3に記載の情報編集プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007284706A 2007-11-01 2007-11-01 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体 Expired - Fee Related JP4812733B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007284706A JP4812733B2 (ja) 2007-11-01 2007-11-01 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007284706A JP4812733B2 (ja) 2007-11-01 2007-11-01 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2009111938A JP2009111938A (ja) 2009-05-21
JP4812733B2 true JP4812733B2 (ja) 2011-11-09

Family

ID=40779892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007284706A Expired - Fee Related JP4812733B2 (ja) 2007-11-01 2007-11-01 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4812733B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5254900B2 (ja) * 2009-07-30 2013-08-07 日本電信電話株式会社 映像再構成方法、映像再構成装置および映像再構成プログラム
EP2659486B1 (en) * 2010-12-30 2016-03-23 Nokia Technologies Oy Method, apparatus and computer program for emotion detection
JP6392578B2 (ja) * 2014-08-11 2018-09-19 オリンパス株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
JP6742731B2 (ja) * 2016-01-07 2020-08-19 株式会社見果てぬ夢 ネオメディア生成装置、ネオメディア生成方法、及びネオメディア生成プログラム
CN110113659A (zh) * 2019-04-19 2019-08-09 北京大米科技有限公司 生成视频的方法、装置、电子设备及介质
JP7192086B2 (ja) * 2020-02-21 2022-12-19 グーグル エルエルシー 機械学習を使用してアニメーションメディアコンテンツアイテムから時間的情報を抽出するためのシステムおよび方法
WO2022113380A1 (ja) * 2020-11-26 2022-06-02 パナソニックIpマネジメント株式会社 感情判定システム、感情判定方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005353006A (ja) * 2004-06-14 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 要約コンテンツ配信システム及び配信方法

Also Published As

Publication number Publication date
JP2009111938A (ja) 2009-05-21

Similar Documents

Publication Publication Date Title
JP4891802B2 (ja) コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
JP4812733B2 (ja) 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体
JP4538756B2 (ja) 情報処理装置、情報処理端末、情報処理方法、およびプログラム
US8938393B2 (en) Extended videolens media engine for audio recognition
JP4538757B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP4175390B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4539712B2 (ja) 情報処理端末、情報処理方法、およびプログラム
US20210272569A1 (en) Voice feedback for user interface of media playback device
WO2018142686A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20070223871A1 (en) Method of Generating a Content Item Having a Specific Emotional Influence on a User
US10645464B2 (en) Eyes free entertainment
WO2008032787A1 (fr) ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d&#39;enregistrement contenant le programme
JP2002358092A (ja) 音声合成システム
JP2008124574A (ja) 嗜好抽出装置、嗜好抽出方法及び嗜好抽出プログラム
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
JP5181640B2 (ja) 情報処理装置、情報処理端末、情報処理方法、およびプログラム
JP2007034664A (ja) 感情推定装置および方法、記録媒体、および、プログラム
US11503375B2 (en) Systems and methods for displaying subjects of a video portion of content
JP2009134670A (ja) 情報処理端末、情報処理方法、およびプログラム
JP7453712B2 (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
JP2010011409A (ja) 映像ダイジェスト装置及び映像編集プログラム
KR20160081043A (ko) 비디오 재생 속도 조절 방법, 서버 및 시스템
CN101909191B (zh) 视频处理设备和视频处理方法
JP4510624B2 (ja) コンテンツのコンテンツベーステーブルを生成するための方法、システム及びプログラムプロダクツ
JP2006352555A (ja) 情報処理装置および情報処理方法、並びにプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090618

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100126

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110809

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110823

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140902

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees