JP2007101945A - 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム - Google Patents

音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム Download PDF

Info

Publication number
JP2007101945A
JP2007101945A JP2005292485A JP2005292485A JP2007101945A JP 2007101945 A JP2007101945 A JP 2007101945A JP 2005292485 A JP2005292485 A JP 2005292485A JP 2005292485 A JP2005292485 A JP 2005292485A JP 2007101945 A JP2007101945 A JP 2007101945A
Authority
JP
Japan
Prior art keywords
audio
video data
metadata
information
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005292485A
Other languages
English (en)
Inventor
Sunao Terayoko
素 寺横
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2005292485A priority Critical patent/JP2007101945A/ja
Publication of JP2007101945A publication Critical patent/JP2007101945A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

【課題】 音声を文字化したデータをせりふや場面の内容に合った様式で自動的に表示することができる音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムを提供する。
【解決手段】 映像・音声信号解析部48は、音声付き映像データ60中の音声データ62から文字に変換可能な人の声を音声認識処理により文字化して発話内容情報として出力する。また、映像・音声信号解析部48は、音声特徴量情報、発話時間情報、発話者識別するための発話者識別子及び発話者の画面上における位置座標を取得して発話者情報を取得する。メタデータ生成部50は、上記の発話時間情報、発話内容情報、発話者情報、音声特徴量情報等を所定のファイル形式(例えば、xml形式)のメタデータに格納する。このメタデータは、所定の形式(例えば、MPEG−2やAVI形式)で映像・音声信号記録部46に保存される。
【選択図】 図2

Description

本発明は音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムに係り、特に音声付きの映像データの音声を文字化する技術に関する。
従来、映像人物と音声を対応付けて表示する技術が提案されている。例えば、特許文献1には、音声を文字化したデータを精度良く映像中の話者に対応させて表示する映像表示方法について開示されている。
特開2004−56286号公報
しかしながら、上記の特許文献1に開示された映像表示方法は、映像情報の顔認識処理を行ってせりふの話者が映像に現れる出現タイミングを検出し、この出現タイミングに基づいてせりふに対応する字幕を映像情報に挿入するものであり、画面内に話者がいない場合の映像と音声との同期を行う方法については開示されていなかった。また、上記特許文献1の映像表示方法では、せりふや場面の内容、雰囲気を認識して、文字を自動的に場面に合った様式に変換して表示することはできなかった。
本発明はこのような事情に鑑みてなされたもので、音声を文字化したデータをせりふや場面の内容に合った様式で自動的に表示することができる音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムを提供することを目的とする。
上記目的を達成するために請求項1に係る音声付き映像データ処理装置は、映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得手段と、前記音声データを文字化して発話内容情報を生成する発話内容情報生成手段と、前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得手段と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成手段と、前記音声付き映像データと前記メタデータとを関連付けて記録する記録手段とを備えることを特徴とする。
請求項1に係る音声付き映像データ処理装置によれば、音声付き映像データに含まれる音声データを文字化した発話内容情報や発話時間情報をメタデータとして保存することができる。このメタデータを利用することにより、テロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。
請求項2に係る音声付き映像データ処理装置は、請求項1において、前記映像データ及び音声データを解析して、前記音声を発した発話者を識別する発話者識別手段を更に備え、前記メタデータ作成手段は、前記発話内容情報と前記発話者の識別情報とを関連付けて前記メタデータに記録することを特徴とする。
請求項2に係る音声付き映像データ処理装置によれば、上記した作用に加え、発話した発話者の識別情報をメタデータとして保存することができる。
請求項3に係る音声付き映像データ処理装置は、請求項1又は2において、前記発話者識別手段は、前記映像データ及び音声データを解析して、前記音声を発した発話者の映像データを表示した画面上における位置情報を取得する発話者位置情報取得手段を更に備え、前記メタデータ作成手段は、前記発話内容情報と前記発話者の位置情報とを関連付けて前記メタデータに記録することを特徴とする。
請求項3に係る音声付き映像データ処理装置によれば、上記した作用に加え、発話者の位置情報をメタデータとして保存することができる。
請求項4に係る音声付き映像データ処理装置は、請求項1から3において、前記音声データを解析して、前記音声の特徴量を取得する音声特徴量取得手段を更に備え、前記メタデータ作成手段は、前記発話内容情報と前記音声特徴量とを関連付けて前記メタデータに記録することを特徴とする。
請求項4に係る音声付き映像データ処理装置によれば、発話内容に加えて音声特徴量をメタデータとして保存することができる。
請求項5に係る音声付き映像データ処理装置は、請求項4において、前記音声特徴量取得手段は、前記音声の大きさ、高低、抑揚又はトーンのうち少なくとも1つの情報を取得することを特徴とする。請求項5は、請求項4の音声特徴量を列挙したものである。
請求項6に係る音声付き映像データ処理装置は、請求項1から5において、前記音声付き映像データを再生表示する再生表示手段と、前記メタデータから発話内容情報及び発話時間情報を取得する情報取得手段と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段とを更に備えることを特徴とする。
請求項6に係る音声付き映像データ処理装置によれば、音声付き映像データのメタデータからテロップを作成して、音声付き映像データの再生時に表示させることができる。
請求項7に係る音声付き映像データ処理装置は、請求項3において、前記音声付き映像データを再生表示する再生表示手段と、前記メタデータから発話内容情報、発話時間情報及び発話者の位置情報を取得する情報取得手段と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、前記取得した発話者の位置情報に基づいて、前記テロップの挿入位置を調整する挿入位置調整手段とを備えることを特徴とする。
請求項7に係る音声付き映像データ処理装置によれば、メタデータから取得した発話者の位置情報に基づいて、テロップの挿入位置を調整することにより、挿入されたテロップと発話者の対応がわかりやすい表示にすることができる。
請求項8に係る音声付き映像データ処理装置は、請求項4又は5において、前記音声付き映像データを再生表示する再生表示手段と、前記メタデータから発話内容情報、発話時間情報及び音声特徴量を取得する情報取得手段と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、前記音声特徴量に応じて、前記テロップの文字属性を変更する文字属性変更手段とを備えることを特徴とする。
請求項8に係る音声付き映像データ処理装置によれば、例えば、大きい(小さい)音声に対応するテロップのフォントサイズを大きく(小さく)したり、力強い(弱々しい)音声に対応するテロップのフォントを太く(細く)することにより、音声特徴量に応じた表現力豊かなテロップを作成することができる。
請求項9に係る音声付き映像データ処理装置は、請求項8において、前記文字属性変更手段は、前記音声特徴量に応じて、前記テロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組、かっこ、又は、前記テロップに付す吹き出し、感嘆符、疑問符等の符号のうち少なくとも1つを変更することを特徴とする。請求項9は、請求項8の文字属性を列挙したものである。
請求項10に係る音声付き映像データ処理方法は、映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得工程と、前記音声データを文字化して発話内容情報を生成する発話内容情報生成工程と、前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得工程と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成工程と、前記音声付き映像データと前記メタデータとを関連付けて記録する記録工程とを備えることを特徴とする。
請求項11に係る音声付き映像データ処理用プログラムは、映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得機能と、前記音声データを文字化して発話内容情報を生成する発話内容情報生成機能と、前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得機能と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成機能と、前記音声付き映像データと前記メタデータとを関連付けて記録する記録機能とをコンピュータに実現させることを特徴とする。
請求項11に係る音声付き映像データ処理用プログラムを含むソフトウェアやファームウェアをパーソナルコンピュータ(PC)のほか、ビデオ再生装置(ビデオデッキ、テレビ)やデジタルカメラ、携帯電話等の映像再生機能を有する装置に適用することにより、本発明の音声付き映像データ処理装置及び音声付き映像データ処理方法を実現することができる。
本発明によれば、音声付き映像データに含まれる音声データを文字化した発話内容情報や発話時間情報をメタデータとして保存することができる。そして、このメタデータを利用することにより、テロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。
以下、添付図面に従って本発明に係る音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムの好ましい実施の形態について説明する。
図1は、本発明の一実施形態に係る音声付き映像データ処理装置を備える撮像装置の主要構成を示すブロック図である。図1に示す撮像装置10は、例えば、動画撮影機能を有する電子カメラやデジタルカメラ、デジタルビデオカメラである。
CPU12は、バス14を介して撮像装置10内の各部に接続されており、操作スイッチ16等からの操作入力に基づいて撮像装置10の動作を制御する統括制御部である。操作スイッチ16は、電源スイッチやレリーズスイッチ16A、十字キー等を含んでおり、ユーザからの操作入力を受け付ける。レリーズスイッチ16Aは2段階式に構成され、レリーズスイッチ16Aを軽く押して止める「半押し(S1=ON)」の状態で自動ピント合わせ(AF)及び自動露出制御(AE)が作動してAFとAEをロックし、「半押し」から更に押し込む「全押し(S2=ON)」の状態で撮影が実行される。
メモリ18は、CPU12が処理するプログラム及び制御に必要な各種データ等が格納されるROMや、CPU12が各種の演算処理等を行う作業用領域及び映像処理領域となるSDRAM等を有している。
外部通信インターフェース(外部通信I/F)20は、ネットワークや外部出力機器(例えば、パーソナルコンピュータやテレビジョン、ディスプレイ、プリンタ、外部記録装置)等と接続するための機器で、所定のプロトコルにしたがって各種データの送受信を行う。なお、データの送受信の方式は、例えば、インターネットや無線LAN、有線LAN、IrDA、Bluetooth等である。
撮像素子24は、光学系(レンズ)22を介して入射した光を受け止めて電気信号に変換する素子であり、例えばCCDである。この電気信号は、図示せぬプリアンプによって増幅され、A/D変換器26によってデジタル信号に変換されて、映像処理部28に入力される。
本実施形態の撮像装置10は、映像(静止画、動画)を撮影するための撮影モードと、映像を表示、再生するための再生モードの複数の動作モードを備えており、ユーザは操作スイッチ16からの操作入力により動作モードを設定する。
撮影モード時には、映像処理部28によって撮像素子24から出力された電気信号が処理されて画角確認用の映像データ(スルー画)が作成され、映像表示部(モニタ)30に表示される。静止画を撮影する場合には、レリーズスイッチ16Aが操作されて静止画が撮影されると、撮像素子24から出力された電気信号が映像処理部28によって処理されて保存用の静止画データが作成される。この保存用の静止画データは、記録メディア32に所定のファイル形式で保存される。ここで、記録メディア32は、例えば、半導体メモリやビデオテープ、ハードディスクドライブ(HDD)、DVD等である。なお、マイク34により音声を入力して、上記静止画データと音声とを関連付けて保存することもできる。
一方、動画を撮影する場合には、レリーズスイッチ16Aにより動画の撮影が開始されると、マイク34により音声の取得が開始される。そして、映像処理部28によって保存用の動画データが作成されるとともに、オーディオ処理回路36によって保存用の音声データが作成される。この保存用の動画データ及び音声データは、記録メディア32に所定のファイル形式(例えば、MPEG形式やAVI形式)の音声付き映像データに変換されて保存される。
一方、再生モード時において、静止画の再生時には、映像処理部28によって記録メディア32に保存された静止画データが読み出されて表示用の静止画データが作成され、モニタ30に表示される。また、動画の再生時には、映像処理部28によって記録メディア32に保存された動画データが読み出されて表示用の動画データが作成されモニタ30に表示されるとともに、上記動画データと関連付けられた音声データが読み出されてスピーカ38から出力される。上述のように、モニタ30は撮影時の画角確認用の電子ファインダとして用いられるとともに、撮影された映像データ(静止画データ、動画データ)の表示に用いられる。
次に、上記の撮像装置10により撮像された音声付き映像データからメタデータを生成して付与する処理について、図2を参照して説明する。図2は、撮像装置10における音声付き映像データ処理の流れを示す機能ブロック図である。図2に示す録画指示・制御部40は、録画開始の指示を行うレリーズスイッチ16AやCPU12を含む機能ブロックであり、レリーズスイッチ16Aからの操作入力によりCPU12から外部映像・音声入力部42及び映像・音声信号符号化部44に、動画の撮影の開始信号を出力する。外部映像・音声入力部42は、光学系22、撮像素子24及びマイク34を含む機能ブロックであり、映像・音声信号符号化部44は、映像処理部28及びオーディオ処理回路36を含む機能ブロックである。外部映像・音声入力部42から出力された映像及び音声の電気信号は、映像・音声信号符号化部44(動画コーデック)によって、図3に示すように、音声データ62と映像データ64とを含む所定の形式の音声付き映像データ60に変換され、映像・音声信号保存部46(メモリ18、記録メディア32)に保存される。
次に、映像・音声信号保存部46から音声付き映像データ60が読み出されて、映像・音声信号解析部48によって音声付き映像データ60中の音声データ62が抽出される。映像・音声信号解析部48は、抽出した音声データ62から文字に変換可能な人の声を音声認識処理により文字化して発話内容情報として出力する。また、音声の大きさや高低、抑揚、トーン等の音声特徴量を認識し、音声を所定のテクスチャに類型化し音声特徴量情報として出力する。
また、映像・音声信号解析部48は、上記文字化された音声が発せられている発話時間情報を取得する。この時間情報は、例えば、発話の開始時及び終了時の映像データ(動画)のフレームを特定する情報(フレーム)番号や、発話の開始時刻及び終了時刻等である。さらに、映像・音声信号解析部48は、映像データ64を解析して上記発話内容に対応する発話者を検出し、発話者識別するための発話者識別子及び発話者の画面上における位置座標を取得して発話者情報として出力する。メタデータ生成部50は、上記の発話時間情報、発話内容情報、発話者情報、音声特徴量情報等を所定のファイル形式(例えば、xml形式)のメタデータに格納する。このメタデータは、図4に示すような情報を含んでおり、所定の形式(例えば、MPEG−2やAVI形式)で映像・音声信号記録部46の記録メディア32に保存される。
図5はxml形式のメタデータの例を示す図であり、図6はxmlのスキーマを示す図である。図5に示す例では、発話時間情報は、文字化された発話内容の開始時刻及び終了時刻がvoiceタグにフレーム番号で記述され、発話内容情報はtextタグで記述されている。発話者情報(person)は、name属性に発話者の例えば、人物名(「○×△男」)で記述される。図5に示す例では、画面内に発話者がいないため、pos属性は省略されるか空欄になっている。また、音声特徴量情報(tone)のtype属性は、naration(ナレーション)のほかには、例えば、笑い声、泣き声、大声、ひそひそ声等を設定可能である。
次に、メタデータの格納形式について説明する。図7は、メタデータをMPEG形式で保存する例を示す図である。図7に示すようにMPEG−2形式では、映像データ64を含む映像ストリーム64′と音声データ62を含む音声ストリーム62′、メタデータ66を含むメタデータストリーム66′が規格に定められた記録方式(パックと呼ばれる、一例で2,048kbのデータ単位の連なり)によって、インターリーブで単一のファイル68として記録される。
図8は、メタデータをAVI形式で保存する例を示す図である。図8において、「RIFF AVI」は、AVIファイル全体を示す。また、「LIST hdrl」は、AVIファイルのヘッダ領域であり、映像用及び音声用の2つのヘッダ領域「LIST strl」を含んでいる。本実施形態では、映像用のヘッダ領域「LIST strl」内に太枠で示す「strd」及び「strn」という独自拡張データ用ストリームを設け、このストリーム内に図5に示すxml形式のメタデータをそのままバイナリデータとして保存する。これにより、AVIファイル内にメタデータを保存することができる。
以下、音声付き映像データの処理方法について、図9を参照して説明する。図9は、本発明の一実施形態に係る音声付き映像データの処理方法を示すフローチャートである。まず、映像・音声信号保存部46から音声付き映像データ60を読み出し、一定量バッファリングして、音声データ62の解析を開始する(ステップS10)。ステップS10において、バッファリングする音声付き映像データ60のデータ量は調整可能である。ここで、バッファリングするデータ量の値は、解析対象とする音声データ62を文字化した際の文脈の適切な切れ目をひとつの目安とするとよい。例えば、日本語における通常のスピードの発話が1分間に約400〜500語であるといったデータをもとに、1音節を含みうるデータ量などを逆算して、それをバッファリングするデータ量の初期値としてもよい。
次に、音声認識により音声データ62の発話内容を文字化する(ステップS12)。ステップS12では、例えば、音声付き映像データ60中の音声データ62の中から人(発話者)の声、動物の声、周囲の音、効果音等を抽出し、人声辞書及び効果音辞書を用いてそれぞれ抽出された人声データ及び効果音データの文字化を行う。さらに、人声データを解析して声紋や発話スピード等の音声特徴量に基づいて発話者ごとに音声を分類し、発話内容情報として保存する。なお、音声データ62の文字化の方法は、上記のものに限定されるものではない。
文字化した音声データ(発話内容情報)は、フレーム単位の時間情報と同期させる必要があるため、さらに解析して、1音節または1音などの適切な区切りに分解し、分解された発話内容情報と同期するフレーム番号又は時間情報を、例えば、発話内容「それは夏だった」の発話時間がフレーム0番から10番又は0分00秒から0分05秒のように、発話時間情報として保存しておく(図5参照)。
なお、ステップS12において、文字化した音声データの発話終了時間がバッファリングした映像データ64の終了時間より早く、バッファリングした音声付き映像データに残りが生じる場合は、次のループの音声付き映像データ60のバッファリング開始位置を、今回文字化した音声データの終了時間に合わせるとよい。
ステップS12において解析した音声データ62に発話が含まれない場合(ステップS14のNo)、文字化した音声データがないため、ステップS10に戻って音声付き映像データ60の残りのデータに対し処理を継続する。
一方、ステップS12において解析した音声データ62に発話が含まれる場合(ステップS14のYes)、文字化した音声データを、音声信号の音声特徴量(声の大きさ、高低、抑揚及びトーン等)によりトーン分析する(ステップS16)。ここで、トーン分析とは、予め用意された声のトーンのテクスチャ(例えば、笑い声、ひそひそ声、大声等)に類型化することを指す。また、ステップS16では、音声のトーンを表す数値データ(大きさ、周波数等)も併せて記録する。
次に、文字化した音声データをもとに発話者を解析する(ステップS18)。ステップS18では、例えば、映像データ64を解析して、映像データ64のフレームごとに人物が映っている人物領域を抽出する。上記人物の映像特徴量を算出し、この映像特徴量に基づいて人物を推定する。ここで、映像特徴量としては、例えば、平均濃度、ハイライト(最低濃度)、シャドー(最高濃度)、ヒストグラム等である。人物の推定は、その人物の性別、年齢、職業等の人物層を推定することで行う。例えば、性別の推定は、上記人物領域から顔領域(頭髪)を抽出し、これらの抽出結果により、頭髪領域のボリュームが大きい場合や、頭髪領域が細長く、長髪である場合、または、胴体以下の輪郭形状のパターンマッチングから抽出された衣服の形状からスカートであると思われる場合、さらに、衣服の色が赤やピンク系統が多い場合、あるいは顔領域の抽出結果から、化粧の有無、口紅の使用の有無やアクセサリの着用の有無等から総合的に判断して、女性であると推定することができる。また、年齢の推定は、表示映像から被写体人物の身長を算出し、その大きさにより、大人、中高生、小学生、幼児等と推定を行うことができる。または、抽出された頭髪領域のボリュームが少ない場合や頭髪の色が白い場合には、高齢者であると推定される。また、職業の推定は、例えば、衣服によって行うことができる。例えば、衣服の形状、濃度、色味からスーツ系の度合いが高い場合には、サラリーマン層と推定でき、衣服の形状や色から制服系であると思われる場合には、性別や年齢の推定結果と合わせて中高生を含めた学生等と推定できる。なお、人物層の推定方法は、ここに挙げたのは一例であり、これに限定されるものではない。
そして、映像データ64から推定した人物領域の数Nと、音声データ62の人声から推定した人物の数Mについて、同一シーン中に登場するタイミングの発生状況の統計を取る。このとき、映像特徴量による人物層推定結果と、音声特徴量による人物層推定結果が矛盾する場合には、統計処理においては、カウントアップしないこととする。例えば、映像データ64の解析結果では男性なのに、音声データは女性のような場合である。また、映像データ64では男性候補と女性候補の両方を抽出していて、音声が女性候補のみの場合には、映像の女性候補のみをカウントアップする。なお、このとき、映像中の人物の口元の動きを検出して、発声タイミングとの一致度を、映像と音声の一致度の重み付けに利用して、統計を取るようにしてもよい。
そして、この統計処理を一定時間区切りで行って集計する。一定時間区切りとしては、例えば、10分間隔とか実際に時間で区切ってもよいし、映像データ64がTV番組を録画したものであれば、1番組内で区切っても、コマーシャルで区切っても、チャプターで区切ってもよい。このようにして統計を取った結果から、映像による人物推定と音声による人物推定の相関の高い組み合わせに基づいて、映像データ64から検出された発話者と、発話内容との関連付けを決定し、発話した発話者を特定する。なお、この段階で映像データ64の解析による人物推定結果と、音声データ62の解析による人物推定結果との矛盾チェックを行うようにしてもよい。
そして、上記特定された発話者に人物名や性別、年齢等の発話者を特定できる文字列からなる発話者識別子(例えば、女性A、老婆A等)を付与し、特定された発話者の属する人物領域の位置座標及び発話者識別子を含む発話者情報として保存する。
なお、本実施形態では、メモリ18内に発話者データベース(DB)を設けておき、この発話者DBに発話者の顔領域や人物名、ニックネーム、声紋等を予め保存しておき、この顔領域と上記抽出された人物の映像特徴量を照合して発話者を特定するようにしてもよい。
次に、上記の発話時間情報、発話内容情報、発話者情報(発話者識別子及び発話者の位置座標)、音声特徴量情報等を含むメタデータを生成する(ステップS20)。ステップS20では、まず、発話内容情報と、発話時間情報をもとにメタデータを生成し、併せて、発話者情報と音声特徴量情報もメタデータ内に記述する。
次に、未処理の音声付き映像データがある場合(ステップS22のYes)、ステップS10に戻り処理を継続する。そして、未処理の音声付き映像データがなくなれば(ステップS22のNo)、メタデータ生成を終了し、生成したメタデータを適切な方法で格納する(ステップS24)。なお、メタデータの格納方法としては、例えば、図7及び図8に示すように、MPEG−2やAVI形式により音声付き映像データ60と同一のファイルに保存するようにしてもよいし、また、音声付き映像データ60とは別のxmlファイルとして相互に関連付けて保存するようにしてもよい。
本実施形態によれば、音声データを文字化した発話内容情報等を含むメタデータを付与して保存することができる。そして、このメタデータを利用することにより、テロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。
次に、上記音声付き映像データ処理装置を備える撮像装置10の映像再生機能について、図10及び図11を参照して説明する。図10は、音声付き映像データ処理装置の映像再生機能部の主要構成を示すブロック図である。図10に示すように、音声付き映像データ処理装置の映像再生機能部は、映像・音声信号記録部46、再生指示制御部70、映像・音声信号復号再生部72、メタデータ読込部74、テロップ生成表示部76及び外部映像・音声出力部78を備える。
再生指示制御部70は、映像データの再生指示を行う再生スイッチや再生停止指示を行う停止スイッチ、一時停止スイッチ、巻き戻し/早送りスイッチ、メニュースイッチ、リモコン等のユーザが映像再生に係る操作入力を行うための操作部材を含んでおり、各操作部材からの操作入力に応じて映像再生機能部の各ブロックに制御信号を送る。
映像・音声信号復号再生部72は、再生指示制御部70からの操作入力により指定された音声付き映像データを映像・音声信号記録部46から読み出して、映像信号及び音声信号を復号する。メタデータ読込部74は、再生指示制御部70からの操作入力により指定された音声付き映像データのメタデータを読み込んでテロップ生成表示部76に出力する。テロップ生成表示部76は、メタデータから発話内容情報及び発話時間情報を読み出して、上記発話時間情報に対応するフレームに、発話内容情報のテロップを挿入する指令を映像・音声信号復号再生部72に出力する。また、テロップ生成表示部76は、上記メタデータから発話者情報を読み出して、上記発話時間情報に対応する全フレームにおける発話者の位置を特定し、テロップの挿入位置を指定する指令を出力する。また、テロップ生成表示部76は、音声特徴量情報に基づいてテロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組又はテロップに付すかっこ、吹き出し、感嘆符、疑問符等の符号等を指定する指令を出力する。映像・音声信号復号再生部72は、上記テロップ生成表示部76からの指令に基づいて上記復号した映像信号にテロップを挿入し、復号した音声信号とともに外部映像・音声出力部78に出力する。外部映像・音声出力部78は、映像を表示する画像表示部30及び音声を出力するスピーカ38、ビデオ/オーディオ出力端子等を含んでおり、映像・音声信号復号再生部72から入力された映像及び音声を再生する。
次に、メタデータが付与された音声付き映像データを再生する処理の流れについて、図11を参照して説明する。図11は、メタデータが付与された音声付き映像データを再生する処理の流れを示すフローチャートである。
まず、再生指示制御部70により再生する音声付き映像データが選択されると、メタデータ読込部74によりメタデータを読み込む(ステップS30)。ここで、図7及び図8に示すようにメタデータが音声付き映像データと同一ファイル内に格納押されている場合には、メタデータ読込部74は、音声付き映像データからメタデータを読み込む。また、メタデータが音声付き映像データとは別ファイルで、URL等により相互に関連付けられて記録されている場合には、メタデータ読込部74は、上記指定された音声付き映像データと関連付けられたメタデータのファイルを取得する。
次に、上記読み込んだメタデータに含まれる発話内容情報(図5のtextタグ)から、発話内容を文字化したデータを読み込んで、テロップの文字データを生成する(ステップS32)。また、上記メタデータから発話者情報及び音声特徴量情報を取得し、テロップの文字属性を設定する(ステップS34)。ステップS34では、例えば、発話者(発話者識別子)ごとにテロップの文字色を変更し、同一の発話者の発話内容をテロップの色で識別できるようにする。また、音声特徴量に応じて文字属性を変更する。例えば、音声の大きさ、高低、抑揚に応じて、テロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組を変更したり、又はかっこ、吹き出し、感嘆符、疑問符等の符号をテロップに付す。これにより、音声の性質に応じた効果的なテロップを作成することができる。なお、ステップS32及びS34では、ユーザが画面をみながら操作スイッチ16を操作して、テロップの文字の修正、追加や、文字属性の設定変更を手動で行えるようにしてもよい。
また、メタデータに含まれる発話者情報に応じて、テロップの挿入位置やサイズの調整を行う(ステップS36)。例えば、発話者の画面内における位置がメタデータに記載されている場合は、画面内の発話者の位置に応じて、その人物が発言したことがわかるようにテロップの挿入位置とサイズを調整する。例えば、発話者の位置座標に応じて、左側に映っている発話者のせりふは左に、右側に映っている発話者のせりふは右側に挿入する。なお、発話者の顔や口の位置をメタデータに保存しておくか、音声付き映像データ処理装置120により検出して、発話者の顔領域付近に吹き出しを表示させ、その吹き出しのなかにテロップを挿入するようにしてもよい。また、テロップは、メタデータに他の発話者の位置や人物領域の大きさを記録しておくことにより、同一フレームに映っている他の人物にテロップが重ならないようにしてもよい。なお、発話者情報に発話者の位置座標が含まれていない場合、すなわち、発話者が画面内にいない場合については、例えば、映像解析により背景領域を検出し、背景領域に収まるように、テロップの位置・サイズを算出するようにするとよい。なお、ステップS36では、ユーザが操作スイッチ16を操作して、テロップの挿入位置やサイズの変更を手動で行えるようにしてもよい。また、テロップを発話者情報(name属性情報)とともに表示させてもよい。
次に、上記のようにして決定された文字属性や挿入位置、サイズ等に基づいて映像中にテロップが挿入され、音声付き映像データが再生される(ステップS38)。なお、音声付き映像データの再生時には、上記図12の処理を継続してリアルタイムにテロップを作成表示するようにしてもよいし、再生前にメタデータを先読みしてテロップをキャッシュしておき、再生時に表示してもよい。
本実施形態の音声付き映像データ処理装置によれば、映像データ中の発話者の位置や音声の特徴に応じて、テロップの挿入位置やサイズ、文字属性を調整することで、インテリジェントなテロップを自動的に作成、表示することができる。
また、上記実施形態では、メタデータを利用してテロップを簡易に作成するようにしたが、メタデータの利用法はこれに限定されるものではない。例えば、上記音声付き映像データ処理装置にプリンタを接続し、上記メタデータを利用してテロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。
なお、本実施形態では、音声付き映像データ処理装置を備える撮像装置の実施例について説明したが、例えば、パーソナルコンピュータやビデオレコーダ、ハードディスクレコーダ等の画像を再生する機能を有する装置にも本発明の音声付き映像データ処理装置を適用することができる。
図12は、音声付き映像データ処理装置の別の実施例を示すブロック図である。図12に示す音声付き映像データ処理装置100は、例えば、パーソナルコンピュータやビデオレコーダ、ハードディスクレコーダ等であり、記録媒体114やビデオ入力端子、オーディオ入力端子(不図示)を介して入力された音声付き映像データやテレビ番組等に対してメタデータを生成、付与する装置である。
図12に示すように、CPU102は、バス104を介して音声付き映像データ処理装置100内の各ブロックに接続されており、操作部106等からの操作入力に基づいて各ブロックを統括制御する統括制御部である。操作部106は、キーボードやマウス、その他の操作部材を含んでおり、これらの操作部材からの操作入力に応じてCPU102に信号を出力する。外部保存装置108は、CPU102が処理するプログラム及び制御に必要な各種データ等を格納する装置であり、例えば、ハードディスク装置(HDD)である。メモリ制御部110は、CPU102によって制御され、メインメモリ112及び記録媒体114へのデータの書き込みや、メインメモリ112及び記録媒体114からのデータの読み出しを行う。メインメモリ112は、音声付き映像データ処理装置100の主保存装置であり、例えば、半導体メモリである。メインメモリ112は、CPU102が外部保存装置108からプログラムや各種データを読み出して各種の演算処理等を行う際の作業用領域となるSDRAMや、表示モニタに表示される内容を保存する保存領域となるVRAM等を備える。記録媒体114は、映像を記録する。ユーザは、記録媒体114を介して所望の映像を音声付き映像データ処理装置100に入力できる。なお、映像・音声信号解析部116及びメタデータ生成部118は、図2と同様であるため説明を省略する。
本発明の一実施形態に係る音声付き映像データ処理装置を備える撮像装置の主要構成を示すブロック図 撮像装置10における音声付き映像データ処理の流れを示す機能ブロック図 音声付き映像データを示すブロック図 メタデータに含まれる情報の例を示すテーブル xml形式のメタデータの例を示す図 xmlのスキーマを示す図 メタデータをMPEG形式で保存する例を示す図 メタデータをAVI形式で保存する例を示す図 本発明の一実施形態に係る音声付き映像データの処理方法を示すフローチャート 音声付き映像データ処理装置の映像再生機能部の主要構成を示すブロック図 メタデータが付与された音声付き映像データを再生する処理の流れを示すフローチャート 音声付き映像データ処理装置の別の実施例を示すブロック図
符号の説明
10…撮像装置、12…CPU、14…バス、16…操作スイッチ、18…メモリ、20…外部通信インターフェース(外部通信I/F)、22…光学系(レンズ)、24…撮像素子、26…A/D変換器、28…映像処理部、30…映像表示部(モニタ)、32…記録メディア、34…マイク、36…オーディオ処理回路、38…スピーカ、40…録画指示・制御部、42…外部映像・音声入力部、44…映像・音声信号符号化部、46…映像・音声信号保存部、48…映像・音声信号解析部、50…メタデータ生成部、60…音声付き映像データ、62…音声データ、64…映像データ、70…再生指示制御部、72…映像・音声信号復号再生部、74…メタデータ読込部、76…テロップ生成表示部、78…外部映像・音声出力部、100…音声付き映像データ処理装置、102…CPU、104…バス、106…操作部、108…外部保存装置、110…メモリ制御部、112…メインメモリ、114…記録媒体、116…映像・音声信号解析部、118…メタデータ生成部

Claims (11)

  1. 映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得手段と、
    前記音声データを文字化して発話内容情報を生成する発話内容情報生成手段と、
    前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得手段と、
    前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成手段と、
    前記音声付き映像データと前記メタデータとを関連付けて記録する記録手段と、
    を備えることを特徴とする音声付き映像データ処理装置。
  2. 前記映像データ及び音声データを解析して、前記音声を発した発話者を識別する発話者識別手段を更に備え、
    前記メタデータ作成手段は、前記発話内容情報と前記発話者の識別情報とを関連付けて前記メタデータに記録することを特徴とする請求項1記載の音声付き映像データ処理装置。
  3. 前記発話者識別手段は、前記映像データ及び音声データを解析して、前記音声を発した発話者の映像データを表示した画面上における位置情報を取得する発話者位置情報取得手段を更に備え、
    前記メタデータ作成手段は、前記発話内容情報と前記発話者の位置情報とを関連付けて前記メタデータに記録することを特徴とする請求項1又は2記載の音声付き映像データ処理装置。
  4. 前記音声データを解析して、前記音声の特徴量を取得する音声特徴量取得手段を更に備え、
    前記メタデータ作成手段は、前記発話内容情報と前記音声特徴量とを関連付けて前記メタデータに記録することを特徴とする請求項1から3のいずれか1項記載の音声付き映像データ処理装置。
  5. 前記音声特徴量取得手段は、前記音声の大きさ、高低、抑揚又はトーンのうち少なくとも1つの情報を取得することを特徴とする請求項4記載の音声付き映像データ処理装置。
  6. 前記音声付き映像データを再生表示する再生表示手段と、
    前記メタデータから発話内容情報及び発話時間情報を取得する情報取得手段と、
    前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、
    前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、
    を更に備えることを特徴とする請求項1から5のいずれか1項記載の音声付き映像データ処理装置。
  7. 前記音声付き映像データを再生表示する再生表示手段と、
    前記メタデータから発話内容情報、発話時間情報及び発話者の位置情報を取得する情報取得手段と、
    前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、
    前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、
    前記取得した発話者の位置情報に基づいて、前記テロップの挿入位置を調整する挿入位置調整手段と、
    を備えることを特徴とする請求項3記載の音声付き映像データ処理装置。
  8. 前記音声付き映像データを再生表示する再生表示手段と、
    前記メタデータから発話内容情報、発話時間情報及び音声特徴量を取得する情報取得手段と、
    前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、
    前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、
    前記音声特徴量に応じて、前記テロップの文字属性を変更する文字属性変更手段と、
    を備えることを特徴とする請求項4又は5項記載の音声付き映像データ処理装置。
  9. 前記文字属性変更手段は、前記音声特徴量に応じて、前記テロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組、かっこ、又は、前記テロップに付す吹き出し、感嘆符、疑問符等の符号のうち少なくとも1つを変更することを特徴とする請求項8記載の音声付き映像データ処理装置。
  10. 映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得工程と、
    前記音声データを文字化して発話内容情報を生成する発話内容情報生成工程と、
    前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得工程と、
    前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成工程と、
    前記音声付き映像データと前記メタデータとを関連付けて記録する記録工程と、
    を備えることを特徴とする音声付き映像データ処理方法。
  11. 映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得機能と、
    前記音声データを文字化して発話内容情報を生成する発話内容情報生成機能と、
    前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得機能と、
    前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成機能と、
    前記音声付き映像データと前記メタデータとを関連付けて記録する記録機能と、
    をコンピュータに実現させることを特徴とする音声付き映像データ処理用プログラム。
JP2005292485A 2005-10-05 2005-10-05 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム Pending JP2007101945A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005292485A JP2007101945A (ja) 2005-10-05 2005-10-05 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005292485A JP2007101945A (ja) 2005-10-05 2005-10-05 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム

Publications (1)

Publication Number Publication Date
JP2007101945A true JP2007101945A (ja) 2007-04-19

Family

ID=38028945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005292485A Pending JP2007101945A (ja) 2005-10-05 2005-10-05 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム

Country Status (1)

Country Link
JP (1) JP2007101945A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008278380A (ja) * 2007-05-02 2008-11-13 Sanyo Electric Co Ltd 画像データ処理装置
JP2009060326A (ja) * 2007-08-31 2009-03-19 Sony Corp 撮影装置および撮影方法、情報処理装置および情報処理方法、並びにプログラム
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
JP2011521569A (ja) * 2008-05-23 2011-07-21 グワンジョウ シユエン エレクトロニック カンパニー リミテッド ストリーミングメディア付加記述ファイルの生成及びマルチメディア情報を挿入する方法、システム
KR20150115385A (ko) * 2014-04-04 2015-10-14 삼성전자주식회사 레코딩 지원 전자장치 및 방법
CN109640166A (zh) * 2018-08-13 2019-04-16 张利军 基于动感程度的片尾曲选择方法
CN110390242A (zh) * 2018-04-20 2019-10-29 富士施乐株式会社 信息处理装置以及存储介质
CN111629267A (zh) * 2020-04-30 2020-09-04 腾讯科技(深圳)有限公司 音频标注方法、装置、设备及计算机可读存储介质
CN114008566A (zh) * 2019-06-28 2022-02-01 索尼集团公司 信息处理装置、信息处理方法和程序
WO2023238722A1 (ja) * 2022-06-08 2023-12-14 富士フイルム株式会社 情報作成方法、情報作成装置、及び動画ファイル

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05176232A (ja) * 1991-12-19 1993-07-13 Fujitsu General Ltd 字幕重畳装置
JPH09130736A (ja) * 1995-11-02 1997-05-16 Sony Corp 撮像装置及び編集装置
JPH09233442A (ja) * 1996-02-21 1997-09-05 Casio Comput Co Ltd 顔画像表示装置及び顔画像通信システム
JP2001147697A (ja) * 1999-11-19 2001-05-29 Matsushita Electric Ind Co Ltd 音響データ分析方法及びその装置
JP2002171481A (ja) * 2000-12-04 2002-06-14 Ricoh Co Ltd 映像処理装置
JP2002176619A (ja) * 2000-09-12 2002-06-21 Matsushita Electric Ind Co Ltd メディア編集方法及びその装置
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP2004153764A (ja) * 2002-11-01 2004-05-27 Matsushita Electric Ind Co Ltd メタデータ制作装置及び検索装置
JP2004343488A (ja) * 2003-05-16 2004-12-02 Nec Corp 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP2005065191A (ja) * 2003-08-20 2005-03-10 Ntt Comware Corp 動画メタデータ自動作成装置及び動画メタデータ自動作成プログラム
JP2005215888A (ja) * 2004-01-28 2005-08-11 Yasunori Kobori テキスト文の表示装置
JP2005229414A (ja) * 2004-02-13 2005-08-25 Daikin Ind Ltd 情報処理装置および情報処理方法、プログラム、並びに、情報処理システム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05176232A (ja) * 1991-12-19 1993-07-13 Fujitsu General Ltd 字幕重畳装置
JPH09130736A (ja) * 1995-11-02 1997-05-16 Sony Corp 撮像装置及び編集装置
JPH09233442A (ja) * 1996-02-21 1997-09-05 Casio Comput Co Ltd 顔画像表示装置及び顔画像通信システム
JP2001147697A (ja) * 1999-11-19 2001-05-29 Matsushita Electric Ind Co Ltd 音響データ分析方法及びその装置
JP2002176619A (ja) * 2000-09-12 2002-06-21 Matsushita Electric Ind Co Ltd メディア編集方法及びその装置
JP2002171481A (ja) * 2000-12-04 2002-06-14 Ricoh Co Ltd 映像処理装置
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP2004153764A (ja) * 2002-11-01 2004-05-27 Matsushita Electric Ind Co Ltd メタデータ制作装置及び検索装置
JP2004343488A (ja) * 2003-05-16 2004-12-02 Nec Corp 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP2005065191A (ja) * 2003-08-20 2005-03-10 Ntt Comware Corp 動画メタデータ自動作成装置及び動画メタデータ自動作成プログラム
JP2005215888A (ja) * 2004-01-28 2005-08-11 Yasunori Kobori テキスト文の表示装置
JP2005229414A (ja) * 2004-02-13 2005-08-25 Daikin Ind Ltd 情報処理装置および情報処理方法、プログラム、並びに、情報処理システム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008278380A (ja) * 2007-05-02 2008-11-13 Sanyo Electric Co Ltd 画像データ処理装置
JP2009060326A (ja) * 2007-08-31 2009-03-19 Sony Corp 撮影装置および撮影方法、情報処理装置および情報処理方法、並びにプログラム
US8059167B2 (en) 2007-08-31 2011-11-15 Sony Corporation Shooting apparatus and shooting method, and program
JP2011521569A (ja) * 2008-05-23 2011-07-21 グワンジョウ シユエン エレクトロニック カンパニー リミテッド ストリーミングメディア付加記述ファイルの生成及びマルチメディア情報を挿入する方法、システム
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
KR102249086B1 (ko) * 2014-04-04 2021-05-10 삼성전자주식회사 레코딩 지원 전자장치 및 방법
KR20150115385A (ko) * 2014-04-04 2015-10-14 삼성전자주식회사 레코딩 지원 전자장치 및 방법
CN110390242A (zh) * 2018-04-20 2019-10-29 富士施乐株式会社 信息处理装置以及存储介质
CN110390242B (zh) * 2018-04-20 2024-03-12 富士胶片商业创新有限公司 信息处理装置以及存储介质
CN109640166A (zh) * 2018-08-13 2019-04-16 张利军 基于动感程度的片尾曲选择方法
CN114008566A (zh) * 2019-06-28 2022-02-01 索尼集团公司 信息处理装置、信息处理方法和程序
CN111629267A (zh) * 2020-04-30 2020-09-04 腾讯科技(深圳)有限公司 音频标注方法、装置、设备及计算机可读存储介质
WO2023238722A1 (ja) * 2022-06-08 2023-12-14 富士フイルム株式会社 情報作成方法、情報作成装置、及び動画ファイル

Similar Documents

Publication Publication Date Title
JP4599244B2 (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
US7945439B2 (en) Information processing apparatus, information processing method, and computer program
US20210352380A1 (en) Characterizing content for audio-video dubbing and other transformations
US20080275700A1 (en) Method of and System for Modifying Messages
KR101590186B1 (ko) 전자 기기, 영상 콘텐츠 편집 방법 및 프로그램이 기록된 기록매체
JP2011217197A (ja) 電子機器、再生制御システム、再生制御方法及びプログラム
JP2000350159A (ja) 視覚画像編集システム
US20030190142A1 (en) Contents recording/playback apparatus and contents edit method
JP2010066844A (ja) 動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラム
JP2004056286A (ja) 画像表示方法
JP2008205745A (ja) 映像再生装置および方法
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
JP2010011409A (ja) 映像ダイジェスト装置及び映像編集プログラム
US8391669B2 (en) Video processing apparatus and video processing method
US8553855B2 (en) Conference support apparatus and conference support method
US8437611B2 (en) Reproduction control apparatus, reproduction control method, and program
JP5310682B2 (ja) カラオケ装置
JP2020140326A (ja) コンテンツ生成システム、及びコンテンツ生成方法
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
CN114760523A (zh) 音视频处理方法、装置、设备及存储介质
KR20190054721A (ko) 동영상을 이용한 카툰 생성장치 및 방법
JP2012169743A (ja) 情報処理装置及び情報処理方法
JP2007266661A (ja) 撮像装置、情報処理装置、撮像表示システム
JP2007104405A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20070118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110201