JP2007101945A

JP2007101945A - 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム

Info

Publication number: JP2007101945A
Application number: JP2005292485A
Authority: JP
Inventors: Sunao Terayoko; 素寺横
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2005-10-05
Filing date: 2005-10-05
Publication date: 2007-04-19

Abstract

【課題】音声を文字化したデータをせりふや場面の内容に合った様式で自動的に表示することができる音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムを提供する。
【解決手段】映像・音声信号解析部４８は、音声付き映像データ６０中の音声データ６２から文字に変換可能な人の声を音声認識処理により文字化して発話内容情報として出力する。また、映像・音声信号解析部４８は、音声特徴量情報、発話時間情報、発話者識別するための発話者識別子及び発話者の画面上における位置座標を取得して発話者情報を取得する。メタデータ生成部５０は、上記の発話時間情報、発話内容情報、発話者情報、音声特徴量情報等を所定のファイル形式（例えば、ｘｍｌ形式）のメタデータに格納する。このメタデータは、所定の形式（例えば、ＭＰＥＧ−２やＡＶＩ形式）で映像・音声信号記録部４６に保存される。
【選択図】図２

Description

本発明は音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムに係り、特に音声付きの映像データの音声を文字化する技術に関する。

従来、映像人物と音声を対応付けて表示する技術が提案されている。例えば、特許文献１には、音声を文字化したデータを精度良く映像中の話者に対応させて表示する映像表示方法について開示されている。
特開２００４−５６２８６号公報

しかしながら、上記の特許文献１に開示された映像表示方法は、映像情報の顔認識処理を行ってせりふの話者が映像に現れる出現タイミングを検出し、この出現タイミングに基づいてせりふに対応する字幕を映像情報に挿入するものであり、画面内に話者がいない場合の映像と音声との同期を行う方法については開示されていなかった。また、上記特許文献１の映像表示方法では、せりふや場面の内容、雰囲気を認識して、文字を自動的に場面に合った様式に変換して表示することはできなかった。

本発明はこのような事情に鑑みてなされたもので、音声を文字化したデータをせりふや場面の内容に合った様式で自動的に表示することができる音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムを提供することを目的とする。

上記目的を達成するために請求項１に係る音声付き映像データ処理装置は、映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得手段と、前記音声データを文字化して発話内容情報を生成する発話内容情報生成手段と、前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得手段と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成手段と、前記音声付き映像データと前記メタデータとを関連付けて記録する記録手段とを備えることを特徴とする。

請求項１に係る音声付き映像データ処理装置によれば、音声付き映像データに含まれる音声データを文字化した発話内容情報や発話時間情報をメタデータとして保存することができる。このメタデータを利用することにより、テロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。

請求項２に係る音声付き映像データ処理装置は、請求項１において、前記映像データ及び音声データを解析して、前記音声を発した発話者を識別する発話者識別手段を更に備え、前記メタデータ作成手段は、前記発話内容情報と前記発話者の識別情報とを関連付けて前記メタデータに記録することを特徴とする。

請求項２に係る音声付き映像データ処理装置によれば、上記した作用に加え、発話した発話者の識別情報をメタデータとして保存することができる。

請求項３に係る音声付き映像データ処理装置は、請求項１又は２において、前記発話者識別手段は、前記映像データ及び音声データを解析して、前記音声を発した発話者の映像データを表示した画面上における位置情報を取得する発話者位置情報取得手段を更に備え、前記メタデータ作成手段は、前記発話内容情報と前記発話者の位置情報とを関連付けて前記メタデータに記録することを特徴とする。

請求項３に係る音声付き映像データ処理装置によれば、上記した作用に加え、発話者の位置情報をメタデータとして保存することができる。

請求項４に係る音声付き映像データ処理装置は、請求項１から３において、前記音声データを解析して、前記音声の特徴量を取得する音声特徴量取得手段を更に備え、前記メタデータ作成手段は、前記発話内容情報と前記音声特徴量とを関連付けて前記メタデータに記録することを特徴とする。

請求項４に係る音声付き映像データ処理装置によれば、発話内容に加えて音声特徴量をメタデータとして保存することができる。

請求項５に係る音声付き映像データ処理装置は、請求項４において、前記音声特徴量取得手段は、前記音声の大きさ、高低、抑揚又はトーンのうち少なくとも１つの情報を取得することを特徴とする。請求項５は、請求項４の音声特徴量を列挙したものである。

請求項６に係る音声付き映像データ処理装置は、請求項１から５において、前記音声付き映像データを再生表示する再生表示手段と、前記メタデータから発話内容情報及び発話時間情報を取得する情報取得手段と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段とを更に備えることを特徴とする。

請求項６に係る音声付き映像データ処理装置によれば、音声付き映像データのメタデータからテロップを作成して、音声付き映像データの再生時に表示させることができる。

請求項７に係る音声付き映像データ処理装置は、請求項３において、前記音声付き映像データを再生表示する再生表示手段と、前記メタデータから発話内容情報、発話時間情報及び発話者の位置情報を取得する情報取得手段と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、前記取得した発話者の位置情報に基づいて、前記テロップの挿入位置を調整する挿入位置調整手段とを備えることを特徴とする。

請求項７に係る音声付き映像データ処理装置によれば、メタデータから取得した発話者の位置情報に基づいて、テロップの挿入位置を調整することにより、挿入されたテロップと発話者の対応がわかりやすい表示にすることができる。

請求項８に係る音声付き映像データ処理装置は、請求項４又は５において、前記音声付き映像データを再生表示する再生表示手段と、前記メタデータから発話内容情報、発話時間情報及び音声特徴量を取得する情報取得手段と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、前記音声特徴量に応じて、前記テロップの文字属性を変更する文字属性変更手段とを備えることを特徴とする。

請求項８に係る音声付き映像データ処理装置によれば、例えば、大きい（小さい）音声に対応するテロップのフォントサイズを大きく（小さく）したり、力強い（弱々しい）音声に対応するテロップのフォントを太く（細く）することにより、音声特徴量に応じた表現力豊かなテロップを作成することができる。

請求項９に係る音声付き映像データ処理装置は、請求項８において、前記文字属性変更手段は、前記音声特徴量に応じて、前記テロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組、かっこ、又は、前記テロップに付す吹き出し、感嘆符、疑問符等の符号のうち少なくとも１つを変更することを特徴とする。請求項９は、請求項８の文字属性を列挙したものである。

請求項１０に係る音声付き映像データ処理方法は、映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得工程と、前記音声データを文字化して発話内容情報を生成する発話内容情報生成工程と、前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得工程と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成工程と、前記音声付き映像データと前記メタデータとを関連付けて記録する記録工程とを備えることを特徴とする。

請求項１１に係る音声付き映像データ処理用プログラムは、映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得機能と、前記音声データを文字化して発話内容情報を生成する発話内容情報生成機能と、前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得機能と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成機能と、前記音声付き映像データと前記メタデータとを関連付けて記録する記録機能とをコンピュータに実現させることを特徴とする。

請求項１１に係る音声付き映像データ処理用プログラムを含むソフトウェアやファームウェアをパーソナルコンピュータ（ＰＣ）のほか、ビデオ再生装置（ビデオデッキ、テレビ）やデジタルカメラ、携帯電話等の映像再生機能を有する装置に適用することにより、本発明の音声付き映像データ処理装置及び音声付き映像データ処理方法を実現することができる。

本発明によれば、音声付き映像データに含まれる音声データを文字化した発話内容情報や発話時間情報をメタデータとして保存することができる。そして、このメタデータを利用することにより、テロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。

以下、添付図面に従って本発明に係る音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムの好ましい実施の形態について説明する。

図１は、本発明の一実施形態に係る音声付き映像データ処理装置を備える撮像装置の主要構成を示すブロック図である。図１に示す撮像装置１０は、例えば、動画撮影機能を有する電子カメラやデジタルカメラ、デジタルビデオカメラである。

ＣＰＵ１２は、バス１４を介して撮像装置１０内の各部に接続されており、操作スイッチ１６等からの操作入力に基づいて撮像装置１０の動作を制御する統括制御部である。操作スイッチ１６は、電源スイッチやレリーズスイッチ１６Ａ、十字キー等を含んでおり、ユーザからの操作入力を受け付ける。レリーズスイッチ１６Ａは２段階式に構成され、レリーズスイッチ１６Ａを軽く押して止める「半押し（Ｓ１＝ＯＮ）」の状態で自動ピント合わせ（ＡＦ）及び自動露出制御（ＡＥ）が作動してＡＦとＡＥをロックし、「半押し」から更に押し込む「全押し（Ｓ２＝ＯＮ）」の状態で撮影が実行される。

メモリ１８は、ＣＰＵ１２が処理するプログラム及び制御に必要な各種データ等が格納されるＲＯＭや、ＣＰＵ１２が各種の演算処理等を行う作業用領域及び映像処理領域となるＳＤＲＡＭ等を有している。

外部通信インターフェース（外部通信Ｉ／Ｆ）２０は、ネットワークや外部出力機器（例えば、パーソナルコンピュータやテレビジョン、ディスプレイ、プリンタ、外部記録装置）等と接続するための機器で、所定のプロトコルにしたがって各種データの送受信を行う。なお、データの送受信の方式は、例えば、インターネットや無線ＬＡＮ、有線ＬＡＮ、ＩｒＤＡ、Bluetooth等である。

撮像素子２４は、光学系（レンズ）２２を介して入射した光を受け止めて電気信号に変換する素子であり、例えばＣＣＤである。この電気信号は、図示せぬプリアンプによって増幅され、Ａ／Ｄ変換器２６によってデジタル信号に変換されて、映像処理部２８に入力される。

本実施形態の撮像装置１０は、映像（静止画、動画）を撮影するための撮影モードと、映像を表示、再生するための再生モードの複数の動作モードを備えており、ユーザは操作スイッチ１６からの操作入力により動作モードを設定する。

撮影モード時には、映像処理部２８によって撮像素子２４から出力された電気信号が処理されて画角確認用の映像データ（スルー画）が作成され、映像表示部（モニタ）３０に表示される。静止画を撮影する場合には、レリーズスイッチ１６Ａが操作されて静止画が撮影されると、撮像素子２４から出力された電気信号が映像処理部２８によって処理されて保存用の静止画データが作成される。この保存用の静止画データは、記録メディア３２に所定のファイル形式で保存される。ここで、記録メディア３２は、例えば、半導体メモリやビデオテープ、ハードディスクドライブ（ＨＤＤ）、ＤＶＤ等である。なお、マイク３４により音声を入力して、上記静止画データと音声とを関連付けて保存することもできる。

一方、動画を撮影する場合には、レリーズスイッチ１６Ａにより動画の撮影が開始されると、マイク３４により音声の取得が開始される。そして、映像処理部２８によって保存用の動画データが作成されるとともに、オーディオ処理回路３６によって保存用の音声データが作成される。この保存用の動画データ及び音声データは、記録メディア３２に所定のファイル形式（例えば、ＭＰＥＧ形式やＡＶＩ形式）の音声付き映像データに変換されて保存される。

一方、再生モード時において、静止画の再生時には、映像処理部２８によって記録メディア３２に保存された静止画データが読み出されて表示用の静止画データが作成され、モニタ３０に表示される。また、動画の再生時には、映像処理部２８によって記録メディア３２に保存された動画データが読み出されて表示用の動画データが作成されモニタ３０に表示されるとともに、上記動画データと関連付けられた音声データが読み出されてスピーカ３８から出力される。上述のように、モニタ３０は撮影時の画角確認用の電子ファインダとして用いられるとともに、撮影された映像データ（静止画データ、動画データ）の表示に用いられる。

次に、上記の撮像装置１０により撮像された音声付き映像データからメタデータを生成して付与する処理について、図２を参照して説明する。図２は、撮像装置１０における音声付き映像データ処理の流れを示す機能ブロック図である。図２に示す録画指示・制御部４０は、録画開始の指示を行うレリーズスイッチ１６ＡやＣＰＵ１２を含む機能ブロックであり、レリーズスイッチ１６Ａからの操作入力によりＣＰＵ１２から外部映像・音声入力部４２及び映像・音声信号符号化部４４に、動画の撮影の開始信号を出力する。外部映像・音声入力部４２は、光学系２２、撮像素子２４及びマイク３４を含む機能ブロックであり、映像・音声信号符号化部４４は、映像処理部２８及びオーディオ処理回路３６を含む機能ブロックである。外部映像・音声入力部４２から出力された映像及び音声の電気信号は、映像・音声信号符号化部４４（動画コーデック）によって、図３に示すように、音声データ６２と映像データ６４とを含む所定の形式の音声付き映像データ６０に変換され、映像・音声信号保存部４６（メモリ１８、記録メディア３２）に保存される。

次に、映像・音声信号保存部４６から音声付き映像データ６０が読み出されて、映像・音声信号解析部４８によって音声付き映像データ６０中の音声データ６２が抽出される。映像・音声信号解析部４８は、抽出した音声データ６２から文字に変換可能な人の声を音声認識処理により文字化して発話内容情報として出力する。また、音声の大きさや高低、抑揚、トーン等の音声特徴量を認識し、音声を所定のテクスチャに類型化し音声特徴量情報として出力する。

また、映像・音声信号解析部４８は、上記文字化された音声が発せられている発話時間情報を取得する。この時間情報は、例えば、発話の開始時及び終了時の映像データ（動画）のフレームを特定する情報（フレーム）番号や、発話の開始時刻及び終了時刻等である。さらに、映像・音声信号解析部４８は、映像データ６４を解析して上記発話内容に対応する発話者を検出し、発話者識別するための発話者識別子及び発話者の画面上における位置座標を取得して発話者情報として出力する。メタデータ生成部５０は、上記の発話時間情報、発話内容情報、発話者情報、音声特徴量情報等を所定のファイル形式（例えば、ｘｍｌ形式）のメタデータに格納する。このメタデータは、図４に示すような情報を含んでおり、所定の形式（例えば、ＭＰＥＧ−２やＡＶＩ形式）で映像・音声信号記録部４６の記録メディア３２に保存される。

図５はｘｍｌ形式のメタデータの例を示す図であり、図６はｘｍｌのスキーマを示す図である。図５に示す例では、発話時間情報は、文字化された発話内容の開始時刻及び終了時刻がｖｏｉｃｅタグにフレーム番号で記述され、発話内容情報はｔｅｘｔタグで記述されている。発話者情報（ｐｅｒｓｏｎ）は、ｎａｍｅ属性に発話者の例えば、人物名（「○×△男」）で記述される。図５に示す例では、画面内に発話者がいないため、ｐｏｓ属性は省略されるか空欄になっている。また、音声特徴量情報（ｔｏｎｅ）のｔｙｐｅ属性は、ｎａｒａｔｉｏｎ（ナレーション）のほかには、例えば、笑い声、泣き声、大声、ひそひそ声等を設定可能である。

次に、メタデータの格納形式について説明する。図７は、メタデータをＭＰＥＧ形式で保存する例を示す図である。図７に示すようにＭＰＥＧ−２形式では、映像データ６４を含む映像ストリーム６４′と音声データ６２を含む音声ストリーム６２′、メタデータ６６を含むメタデータストリーム６６′が規格に定められた記録方式（パックと呼ばれる、一例で２，０４８ｋｂのデータ単位の連なり）によって、インターリーブで単一のファイル６８として記録される。

図８は、メタデータをＡＶＩ形式で保存する例を示す図である。図８において、「ＲＩＦＦＡＶＩ」は、ＡＶＩファイル全体を示す。また、「ＬＩＳＴｈｄｒｌ」は、ＡＶＩファイルのヘッダ領域であり、映像用及び音声用の２つのヘッダ領域「ＬＩＳＴｓｔｒｌ」を含んでいる。本実施形態では、映像用のヘッダ領域「ＬＩＳＴｓｔｒｌ」内に太枠で示す「ｓｔｒｄ」及び「ｓｔｒｎ」という独自拡張データ用ストリームを設け、このストリーム内に図５に示すｘｍｌ形式のメタデータをそのままバイナリデータとして保存する。これにより、ＡＶＩファイル内にメタデータを保存することができる。

以下、音声付き映像データの処理方法について、図９を参照して説明する。図９は、本発明の一実施形態に係る音声付き映像データの処理方法を示すフローチャートである。まず、映像・音声信号保存部４６から音声付き映像データ６０を読み出し、一定量バッファリングして、音声データ６２の解析を開始する（ステップＳ１０）。ステップＳ１０において、バッファリングする音声付き映像データ６０のデータ量は調整可能である。ここで、バッファリングするデータ量の値は、解析対象とする音声データ６２を文字化した際の文脈の適切な切れ目をひとつの目安とするとよい。例えば、日本語における通常のスピードの発話が１分間に約４００〜５００語であるといったデータをもとに、１音節を含みうるデータ量などを逆算して、それをバッファリングするデータ量の初期値としてもよい。

次に、音声認識により音声データ６２の発話内容を文字化する（ステップＳ１２）。ステップＳ１２では、例えば、音声付き映像データ６０中の音声データ６２の中から人（発話者）の声、動物の声、周囲の音、効果音等を抽出し、人声辞書及び効果音辞書を用いてそれぞれ抽出された人声データ及び効果音データの文字化を行う。さらに、人声データを解析して声紋や発話スピード等の音声特徴量に基づいて発話者ごとに音声を分類し、発話内容情報として保存する。なお、音声データ６２の文字化の方法は、上記のものに限定されるものではない。

文字化した音声データ（発話内容情報）は、フレーム単位の時間情報と同期させる必要があるため、さらに解析して、１音節または１音などの適切な区切りに分解し、分解された発話内容情報と同期するフレーム番号又は時間情報を、例えば、発話内容「それは夏だった」の発話時間がフレーム０番から１０番又は０分００秒から０分０５秒のように、発話時間情報として保存しておく（図５参照）。

なお、ステップＳ１２において、文字化した音声データの発話終了時間がバッファリングした映像データ６４の終了時間より早く、バッファリングした音声付き映像データに残りが生じる場合は、次のループの音声付き映像データ６０のバッファリング開始位置を、今回文字化した音声データの終了時間に合わせるとよい。

ステップＳ１２において解析した音声データ６２に発話が含まれない場合（ステップＳ１４のＮｏ）、文字化した音声データがないため、ステップＳ１０に戻って音声付き映像データ６０の残りのデータに対し処理を継続する。

一方、ステップＳ１２において解析した音声データ６２に発話が含まれる場合（ステップＳ１４のＹｅｓ）、文字化した音声データを、音声信号の音声特徴量（声の大きさ、高低、抑揚及びトーン等）によりトーン分析する（ステップＳ１６）。ここで、トーン分析とは、予め用意された声のトーンのテクスチャ（例えば、笑い声、ひそひそ声、大声等）に類型化することを指す。また、ステップＳ１６では、音声のトーンを表す数値データ（大きさ、周波数等）も併せて記録する。

次に、文字化した音声データをもとに発話者を解析する（ステップＳ１８）。ステップＳ１８では、例えば、映像データ６４を解析して、映像データ６４のフレームごとに人物が映っている人物領域を抽出する。上記人物の映像特徴量を算出し、この映像特徴量に基づいて人物を推定する。ここで、映像特徴量としては、例えば、平均濃度、ハイライト（最低濃度）、シャドー（最高濃度）、ヒストグラム等である。人物の推定は、その人物の性別、年齢、職業等の人物層を推定することで行う。例えば、性別の推定は、上記人物領域から顔領域（頭髪）を抽出し、これらの抽出結果により、頭髪領域のボリュームが大きい場合や、頭髪領域が細長く、長髪である場合、または、胴体以下の輪郭形状のパターンマッチングから抽出された衣服の形状からスカートであると思われる場合、さらに、衣服の色が赤やピンク系統が多い場合、あるいは顔領域の抽出結果から、化粧の有無、口紅の使用の有無やアクセサリの着用の有無等から総合的に判断して、女性であると推定することができる。また、年齢の推定は、表示映像から被写体人物の身長を算出し、その大きさにより、大人、中高生、小学生、幼児等と推定を行うことができる。または、抽出された頭髪領域のボリュームが少ない場合や頭髪の色が白い場合には、高齢者であると推定される。また、職業の推定は、例えば、衣服によって行うことができる。例えば、衣服の形状、濃度、色味からスーツ系の度合いが高い場合には、サラリーマン層と推定でき、衣服の形状や色から制服系であると思われる場合には、性別や年齢の推定結果と合わせて中高生を含めた学生等と推定できる。なお、人物層の推定方法は、ここに挙げたのは一例であり、これに限定されるものではない。

そして、映像データ６４から推定した人物領域の数Ｎと、音声データ６２の人声から推定した人物の数Ｍについて、同一シーン中に登場するタイミングの発生状況の統計を取る。このとき、映像特徴量による人物層推定結果と、音声特徴量による人物層推定結果が矛盾する場合には、統計処理においては、カウントアップしないこととする。例えば、映像データ６４の解析結果では男性なのに、音声データは女性のような場合である。また、映像データ６４では男性候補と女性候補の両方を抽出していて、音声が女性候補のみの場合には、映像の女性候補のみをカウントアップする。なお、このとき、映像中の人物の口元の動きを検出して、発声タイミングとの一致度を、映像と音声の一致度の重み付けに利用して、統計を取るようにしてもよい。

そして、この統計処理を一定時間区切りで行って集計する。一定時間区切りとしては、例えば、１０分間隔とか実際に時間で区切ってもよいし、映像データ６４がＴＶ番組を録画したものであれば、１番組内で区切っても、コマーシャルで区切っても、チャプターで区切ってもよい。このようにして統計を取った結果から、映像による人物推定と音声による人物推定の相関の高い組み合わせに基づいて、映像データ６４から検出された発話者と、発話内容との関連付けを決定し、発話した発話者を特定する。なお、この段階で映像データ６４の解析による人物推定結果と、音声データ６２の解析による人物推定結果との矛盾チェックを行うようにしてもよい。

そして、上記特定された発話者に人物名や性別、年齢等の発話者を特定できる文字列からなる発話者識別子（例えば、女性Ａ、老婆Ａ等）を付与し、特定された発話者の属する人物領域の位置座標及び発話者識別子を含む発話者情報として保存する。

なお、本実施形態では、メモリ１８内に発話者データベース（ＤＢ）を設けておき、この発話者ＤＢに発話者の顔領域や人物名、ニックネーム、声紋等を予め保存しておき、この顔領域と上記抽出された人物の映像特徴量を照合して発話者を特定するようにしてもよい。

次に、上記の発話時間情報、発話内容情報、発話者情報（発話者識別子及び発話者の位置座標）、音声特徴量情報等を含むメタデータを生成する（ステップＳ２０）。ステップＳ２０では、まず、発話内容情報と、発話時間情報をもとにメタデータを生成し、併せて、発話者情報と音声特徴量情報もメタデータ内に記述する。

次に、未処理の音声付き映像データがある場合（ステップＳ２２のＹｅｓ）、ステップＳ１０に戻り処理を継続する。そして、未処理の音声付き映像データがなくなれば（ステップＳ２２のＮｏ）、メタデータ生成を終了し、生成したメタデータを適切な方法で格納する（ステップＳ２４）。なお、メタデータの格納方法としては、例えば、図７及び図８に示すように、ＭＰＥＧ−２やＡＶＩ形式により音声付き映像データ６０と同一のファイルに保存するようにしてもよいし、また、音声付き映像データ６０とは別のｘｍｌファイルとして相互に関連付けて保存するようにしてもよい。

本実施形態によれば、音声データを文字化した発話内容情報等を含むメタデータを付与して保存することができる。そして、このメタデータを利用することにより、テロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。

次に、上記音声付き映像データ処理装置を備える撮像装置１０の映像再生機能について、図１０及び図１１を参照して説明する。図１０は、音声付き映像データ処理装置の映像再生機能部の主要構成を示すブロック図である。図１０に示すように、音声付き映像データ処理装置の映像再生機能部は、映像・音声信号記録部４６、再生指示制御部７０、映像・音声信号復号再生部７２、メタデータ読込部７４、テロップ生成表示部７６及び外部映像・音声出力部７８を備える。

再生指示制御部７０は、映像データの再生指示を行う再生スイッチや再生停止指示を行う停止スイッチ、一時停止スイッチ、巻き戻し／早送りスイッチ、メニュースイッチ、リモコン等のユーザが映像再生に係る操作入力を行うための操作部材を含んでおり、各操作部材からの操作入力に応じて映像再生機能部の各ブロックに制御信号を送る。

映像・音声信号復号再生部７２は、再生指示制御部７０からの操作入力により指定された音声付き映像データを映像・音声信号記録部４６から読み出して、映像信号及び音声信号を復号する。メタデータ読込部７４は、再生指示制御部７０からの操作入力により指定された音声付き映像データのメタデータを読み込んでテロップ生成表示部７６に出力する。テロップ生成表示部７６は、メタデータから発話内容情報及び発話時間情報を読み出して、上記発話時間情報に対応するフレームに、発話内容情報のテロップを挿入する指令を映像・音声信号復号再生部７２に出力する。また、テロップ生成表示部７６は、上記メタデータから発話者情報を読み出して、上記発話時間情報に対応する全フレームにおける発話者の位置を特定し、テロップの挿入位置を指定する指令を出力する。また、テロップ生成表示部７６は、音声特徴量情報に基づいてテロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組又はテロップに付すかっこ、吹き出し、感嘆符、疑問符等の符号等を指定する指令を出力する。映像・音声信号復号再生部７２は、上記テロップ生成表示部７６からの指令に基づいて上記復号した映像信号にテロップを挿入し、復号した音声信号とともに外部映像・音声出力部７８に出力する。外部映像・音声出力部７８は、映像を表示する画像表示部３０及び音声を出力するスピーカ３８、ビデオ／オーディオ出力端子等を含んでおり、映像・音声信号復号再生部７２から入力された映像及び音声を再生する。

次に、メタデータが付与された音声付き映像データを再生する処理の流れについて、図１１を参照して説明する。図１１は、メタデータが付与された音声付き映像データを再生する処理の流れを示すフローチャートである。

まず、再生指示制御部７０により再生する音声付き映像データが選択されると、メタデータ読込部７４によりメタデータを読み込む（ステップＳ３０）。ここで、図７及び図８に示すようにメタデータが音声付き映像データと同一ファイル内に格納押されている場合には、メタデータ読込部７４は、音声付き映像データからメタデータを読み込む。また、メタデータが音声付き映像データとは別ファイルで、ＵＲＬ等により相互に関連付けられて記録されている場合には、メタデータ読込部７４は、上記指定された音声付き映像データと関連付けられたメタデータのファイルを取得する。

次に、上記読み込んだメタデータに含まれる発話内容情報（図５のｔｅｘｔタグ）から、発話内容を文字化したデータを読み込んで、テロップの文字データを生成する（ステップＳ３２）。また、上記メタデータから発話者情報及び音声特徴量情報を取得し、テロップの文字属性を設定する（ステップＳ３４）。ステップＳ３４では、例えば、発話者（発話者識別子）ごとにテロップの文字色を変更し、同一の発話者の発話内容をテロップの色で識別できるようにする。また、音声特徴量に応じて文字属性を変更する。例えば、音声の大きさ、高低、抑揚に応じて、テロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組を変更したり、又はかっこ、吹き出し、感嘆符、疑問符等の符号をテロップに付す。これにより、音声の性質に応じた効果的なテロップを作成することができる。なお、ステップＳ３２及びＳ３４では、ユーザが画面をみながら操作スイッチ１６を操作して、テロップの文字の修正、追加や、文字属性の設定変更を手動で行えるようにしてもよい。

また、メタデータに含まれる発話者情報に応じて、テロップの挿入位置やサイズの調整を行う（ステップＳ３６）。例えば、発話者の画面内における位置がメタデータに記載されている場合は、画面内の発話者の位置に応じて、その人物が発言したことがわかるようにテロップの挿入位置とサイズを調整する。例えば、発話者の位置座標に応じて、左側に映っている発話者のせりふは左に、右側に映っている発話者のせりふは右側に挿入する。なお、発話者の顔や口の位置をメタデータに保存しておくか、音声付き映像データ処理装置１２０により検出して、発話者の顔領域付近に吹き出しを表示させ、その吹き出しのなかにテロップを挿入するようにしてもよい。また、テロップは、メタデータに他の発話者の位置や人物領域の大きさを記録しておくことにより、同一フレームに映っている他の人物にテロップが重ならないようにしてもよい。なお、発話者情報に発話者の位置座標が含まれていない場合、すなわち、発話者が画面内にいない場合については、例えば、映像解析により背景領域を検出し、背景領域に収まるように、テロップの位置・サイズを算出するようにするとよい。なお、ステップＳ３６では、ユーザが操作スイッチ１６を操作して、テロップの挿入位置やサイズの変更を手動で行えるようにしてもよい。また、テロップを発話者情報（ｎａｍｅ属性情報）とともに表示させてもよい。

次に、上記のようにして決定された文字属性や挿入位置、サイズ等に基づいて映像中にテロップが挿入され、音声付き映像データが再生される（ステップＳ３８）。なお、音声付き映像データの再生時には、上記図１２の処理を継続してリアルタイムにテロップを作成表示するようにしてもよいし、再生前にメタデータを先読みしてテロップをキャッシュしておき、再生時に表示してもよい。

本実施形態の音声付き映像データ処理装置によれば、映像データ中の発話者の位置や音声の特徴に応じて、テロップの挿入位置やサイズ、文字属性を調整することで、インテリジェントなテロップを自動的に作成、表示することができる。

また、上記実施形態では、メタデータを利用してテロップを簡易に作成するようにしたが、メタデータの利用法はこれに限定されるものではない。例えば、上記音声付き映像データ処理装置にプリンタを接続し、上記メタデータを利用してテロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。

なお、本実施形態では、音声付き映像データ処理装置を備える撮像装置の実施例について説明したが、例えば、パーソナルコンピュータやビデオレコーダ、ハードディスクレコーダ等の画像を再生する機能を有する装置にも本発明の音声付き映像データ処理装置を適用することができる。

図１２は、音声付き映像データ処理装置の別の実施例を示すブロック図である。図１２に示す音声付き映像データ処理装置１００は、例えば、パーソナルコンピュータやビデオレコーダ、ハードディスクレコーダ等であり、記録媒体１１４やビデオ入力端子、オーディオ入力端子（不図示）を介して入力された音声付き映像データやテレビ番組等に対してメタデータを生成、付与する装置である。

図１２に示すように、ＣＰＵ１０２は、バス１０４を介して音声付き映像データ処理装置１００内の各ブロックに接続されており、操作部１０６等からの操作入力に基づいて各ブロックを統括制御する統括制御部である。操作部１０６は、キーボードやマウス、その他の操作部材を含んでおり、これらの操作部材からの操作入力に応じてＣＰＵ１０２に信号を出力する。外部保存装置１０８は、ＣＰＵ１０２が処理するプログラム及び制御に必要な各種データ等を格納する装置であり、例えば、ハードディスク装置（ＨＤＤ）である。メモリ制御部１１０は、ＣＰＵ１０２によって制御され、メインメモリ１１２及び記録媒体１１４へのデータの書き込みや、メインメモリ１１２及び記録媒体１１４からのデータの読み出しを行う。メインメモリ１１２は、音声付き映像データ処理装置１００の主保存装置であり、例えば、半導体メモリである。メインメモリ１１２は、ＣＰＵ１０２が外部保存装置１０８からプログラムや各種データを読み出して各種の演算処理等を行う際の作業用領域となるＳＤＲＡＭや、表示モニタに表示される内容を保存する保存領域となるＶＲＡＭ等を備える。記録媒体１１４は、映像を記録する。ユーザは、記録媒体１１４を介して所望の映像を音声付き映像データ処理装置１００に入力できる。なお、映像・音声信号解析部１１６及びメタデータ生成部１１８は、図２と同様であるため説明を省略する。

本発明の一実施形態に係る音声付き映像データ処理装置を備える撮像装置の主要構成を示すブロック図撮像装置１０における音声付き映像データ処理の流れを示す機能ブロック図音声付き映像データを示すブロック図メタデータに含まれる情報の例を示すテーブルｘｍｌ形式のメタデータの例を示す図ｘｍｌのスキーマを示す図メタデータをＭＰＥＧ形式で保存する例を示す図メタデータをＡＶＩ形式で保存する例を示す図本発明の一実施形態に係る音声付き映像データの処理方法を示すフローチャート音声付き映像データ処理装置の映像再生機能部の主要構成を示すブロック図メタデータが付与された音声付き映像データを再生する処理の流れを示すフローチャート音声付き映像データ処理装置の別の実施例を示すブロック図

符号の説明

１０…撮像装置、１２…ＣＰＵ、１４…バス、１６…操作スイッチ、１８…メモリ、２０…外部通信インターフェース（外部通信Ｉ／Ｆ）、２２…光学系（レンズ）、２４…撮像素子、２６…Ａ／Ｄ変換器、２８…映像処理部、３０…映像表示部（モニタ）、３２…記録メディア、３４…マイク、３６…オーディオ処理回路、３８…スピーカ、４０…録画指示・制御部、４２…外部映像・音声入力部、４４…映像・音声信号符号化部、４６…映像・音声信号保存部、４８…映像・音声信号解析部、５０…メタデータ生成部、６０…音声付き映像データ、６２…音声データ、６４…映像データ、７０…再生指示制御部、７２…映像・音声信号復号再生部、７４…メタデータ読込部、７６…テロップ生成表示部、７８…外部映像・音声出力部、１００…音声付き映像データ処理装置、１０２…ＣＰＵ、１０４…バス、１０６…操作部、１０８…外部保存装置、１１０…メモリ制御部、１１２…メインメモリ、１１４…記録媒体、１１６…映像・音声信号解析部、１１８…メタデータ生成部

Claims

映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得手段と、
前記音声データを文字化して発話内容情報を生成する発話内容情報生成手段と、
前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得手段と、
前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成手段と、
前記音声付き映像データと前記メタデータとを関連付けて記録する記録手段と、
を備えることを特徴とする音声付き映像データ処理装置。
前記映像データ及び音声データを解析して、前記音声を発した発話者を識別する発話者識別手段を更に備え、
前記メタデータ作成手段は、前記発話内容情報と前記発話者の識別情報とを関連付けて前記メタデータに記録することを特徴とする請求項１記載の音声付き映像データ処理装置。
前記発話者識別手段は、前記映像データ及び音声データを解析して、前記音声を発した発話者の映像データを表示した画面上における位置情報を取得する発話者位置情報取得手段を更に備え、
前記メタデータ作成手段は、前記発話内容情報と前記発話者の位置情報とを関連付けて前記メタデータに記録することを特徴とする請求項１又は２記載の音声付き映像データ処理装置。
前記音声データを解析して、前記音声の特徴量を取得する音声特徴量取得手段を更に備え、
前記メタデータ作成手段は、前記発話内容情報と前記音声特徴量とを関連付けて前記メタデータに記録することを特徴とする請求項１から３のいずれか１項記載の音声付き映像データ処理装置。
前記音声特徴量取得手段は、前記音声の大きさ、高低、抑揚又はトーンのうち少なくとも１つの情報を取得することを特徴とする請求項４記載の音声付き映像データ処理装置。
前記音声付き映像データを再生表示する再生表示手段と、
前記メタデータから発話内容情報及び発話時間情報を取得する情報取得手段と、
前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、
前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、
を更に備えることを特徴とする請求項１から５のいずれか１項記載の音声付き映像データ処理装置。
前記音声付き映像データを再生表示する再生表示手段と、
前記メタデータから発話内容情報、発話時間情報及び発話者の位置情報を取得する情報取得手段と、
前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、
前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、
前記取得した発話者の位置情報に基づいて、前記テロップの挿入位置を調整する挿入位置調整手段と、
を備えることを特徴とする請求項３記載の音声付き映像データ処理装置。
前記音声付き映像データを再生表示する再生表示手段と、
前記メタデータから発話内容情報、発話時間情報及び音声特徴量を取得する情報取得手段と、
前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、
前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、
前記音声特徴量に応じて、前記テロップの文字属性を変更する文字属性変更手段と、
を備えることを特徴とする請求項４又は５項記載の音声付き映像データ処理装置。
前記文字属性変更手段は、前記音声特徴量に応じて、前記テロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組、かっこ、又は、前記テロップに付す吹き出し、感嘆符、疑問符等の符号のうち少なくとも１つを変更することを特徴とする請求項８記載の音声付き映像データ処理装置。
映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得工程と、
前記音声データを文字化して発話内容情報を生成する発話内容情報生成工程と、
前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得工程と、
前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成工程と、
前記音声付き映像データと前記メタデータとを関連付けて記録する記録工程と、
を備えることを特徴とする音声付き映像データ処理方法。
映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得機能と、
前記音声データを文字化して発話内容情報を生成する発話内容情報生成機能と、
前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得機能と、
前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成機能と、
前記音声付き映像データと前記メタデータとを関連付けて記録する記録機能と、
をコンピュータに実現させることを特徴とする音声付き映像データ処理用プログラム。