JP2016119600A

JP2016119600A - 編集装置及び編集方法

Info

Publication number: JP2016119600A
Application number: JP2014258921A
Authority: JP
Inventors: 圭之介木村; Keinosuke Kimura; 勝久川口; Katsuhisa Kawaguchi; 野中　修; Osamu Nonaka; 修野中
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2016-06-30
Also published as: US20160180882A1; US9685199B2

Abstract

【課題】映像と音声を同一スケールの時間軸上に配置して表示することで、映像と音声の編集合成作業を容易にする。【解決手段】編集装置は、録画された映像を解析する画像解析部と、録音された音声を解析する音声解析部と、前記画像解析部の解析結果に基づいて前記録画された映像の再生時間に対応する映像バー表示を表示部に表示すると共に、前記音声解析部の解析結果に基づいて前記録音された音声の再生時間に対応する音声バー表示であって単位長さ当たりの時間が前記映像バー表示と同一の音声バー表示を前記表示部に表示する表示制御部とを具備する。【選択図】図１

Description

本発明は、映像と音声とを合成処理する編集装置及び編集方法に関する。

従来、映像コンテンツの製作では、映像と音声とを別々に記録して合成する手法が採用されることがある。先に撮影した映像に後から音声を合成するアフターレコーディングや、先に収音した音声に後から映像を合成するプリレコーディングが行われることがある。以下、アフターレコーディング及びプリレコーディングの処理を、映像又は音声の追加合成処理という。

このような映像又は音声の追加合成処理を行う編集装置は、映像撮影時に映像に適した音声を収音することができない場合や音声収音時に音声に適した映像を撮影することができない場合であっても、映像に適した音声、音声に適した映像を合成することができる。また、編集装置は、音声や映像とは無関係な映像や音声を合成することもでき、映像コンテンツの価値を高めることも可能である。

例えば、特許文献１においては、画像に応じた擬音や画像をイメージに合成する装置が開示されている。

特開２０１４−１７８５２号公報

このように、従来、編集装置は、映像及び音声を別々に取得し、取得した映像及び音声を編集して追加合成することができる。この場合において、編集装置は、映像を撮影時間順に時間軸上に並べて配置することで、音声を合成するタイミングを視覚的に確認できるようになっている。例えば、特許文献１の装置では、動画像の一部の区間に対してインデックスを付加すると共に、動画像の時間変化をバー表示するようになっている。

しかしながら、従来の編集装置においては、音声については、時間軸で視覚的に確認することができず、映像と音声とを所望のタイミングで追加合成する作業には熟練を要するという問題があった。

本発明は、映像と音声を同一スケールの時間軸上に配置して表示することで、映像と音声の追加合成処理の作業を容易にすることができる編集装置及び編集方法を提供することを目的とする。

本発明に係る編集装置は、録画された映像を解析する画像解析部と、録音された音声を解析する音声解析部と、前記画像解析部の解析結果に基づいて前記録画された映像の再生時間に対応する映像バー表示を表示部に表示すると共に、前記音声解析部の解析結果に基づいて前記録音された音声の再生時間に対応する音声バー表示であって単位長さ当たりの時間が前記映像バー表示と同一の音声バー表示を前記表示部に表示する表示制御部とを具備する。

本発明に係る編集方法は、録画された映像を解析し、録音された音声を解析し、前記画像解析部の解析結果に基づいて前記録画された映像の再生時間に対応する映像バー表示を表示部に表示すると共に、前記音声解析部の解析結果に基づいて前記録音された音声の再生時間に対応する音声バー表示であって単位長さ当たりの時間が前記映像バー表示と同一の音声バー表示を前記表示部に表示する。

本発明によれば、映像と音声を同一スケールの時間軸上に配置して表示することで、映像と音声の編集合成作業を容易にすることができるという効果を有する。

本発明の第１の実施の形態に係る編集装置の回路構成を示すブロック図。追加合成処理に用いる映像及び音声の撮像及び収音の様子を説明するための説明図。カメラ制御を示すフローチャート。アフターレコーディングにおける追加合成処理を説明するためのフローチャート。追加合成処理画面を説明するための説明図。追加合成処理画面を説明するための説明図。変形例を示すフローチャート。変形例における追加合成処理画面を説明するための説明図。変形例における追加合成処理画面を説明するための説明図。

以下、図面を参照して本発明の実施の形態について詳細に説明する。

（第１の実施の形態）
図１は本発明の第１の実施の形態に係る編集装置の回路構成を示すブロック図である。本実施の形態は、追加合成処理において、映像と音声の時間軸のスケールを一致させて、単位長さ当たりの時間が同一の映像バー表示及び音声バー表示を表示させると共に、各バー表示上のタイミングに対応する映像や音声等のイベント表示を表示可能とすることにより、映像又は音声の追加合成処理の作業を容易にするようにしたものである。

図１において編集装置１は、制御部１０を有している。制御部１０は、図示しないＣＰＵ等のプロセッサによって構成することができ、図示しないメモリに記憶されたプログラムに従って動作して所定の機能を実現するものであってもよい。

画像取得部２１は動画像を取得して制御部１０に与える。例えば、画像取得部２１を撮像部によって構成し、撮像部が動画撮影して取得した撮像画像（動画）を制御部１０に出力するようにしてもよい。また、音声取得部２２は音声を取得して制御部１０に与える。例えば、音声取得部２２をマイク等の収音部によって構成し、収音部が取得した音声を制御部１０に出力するようにしてもよい。また、時計部２３は時間情報を発生して、発生した時間情報を制御部１０に出力する。こうして、制御部１０は、入力された時間情報によって、画像取得部２１からの撮像画像をその撮像時間に対応させて取得することができるようになっている。また、制御部１０は、入力された時間情報によって、音声取得部２２からの音声をその収音時間に対応させて取得することができるようになっている。制御部１０は、画像取得部２１及び音声取得部２２を制御することができるようになっている。

制御部１０中の画像解析部１１は、入力された撮像画像に対する画像解析処理を実行して画像解析結果を得る。例えば、画像解析部１１は、画像判定及びシーンチェンジ判定等を行って、シーンチェンジ及びシーンチェンジタイミングにおける画像等の解析結果を時間情報に対応させて映像イベント情報として出力する。また、音声解析部１２は、入力された音声に対する解析処理を行って音声解析結果を得る。例えば、音声解析部１２は、音量解析、周波数解析や音声認識処理等を行って音声の解析結果を時間情報に対応させて音声イベント情報として出力する。
なお、画像解析部１１は、主被写体の位置の変化や、登場人物そのものや表情、ポーズの変化、輝度やフォーカス情報その他の変化によってシーンチェンジを判定する他、同時に記録された音声の周波数やレベルの変化に応じて、シーンを分類し、シーンチェンジ判定をしてもよい。また、音声解析部１２は、近年研究が進んでいる周波数変化やレベル変化による人の声と雑音の分離技術などを利用して、各タイミングの音声特徴を分類したりしてもよい。

表示制御部１３は表示に関する各種処理を実行する。表示制御部１３は、収集した動画を表示部３２に与えて表示させることができる。表示部３２は、ＬＣＤ等の表示画面を有しており、表示制御部１３から与えられた画像を表示する。また、表示制御部１３は、各種メニュー表示等を表示部３２の表示画面に表示させることもできるようになっている。更に、本実施の形態においては、表示制御部１３は、後述する編集処理部１４に制御されて、追加合成処理の作業のための各種表示を表示部３２に表示させることができるようになっている。

表示部３２の表示画面にはタッチ操作部３１が設けられている。タッチ操作部３１は、ユーザが指で指し示した表示画面上の位置に応じた操作信号を発生することができる。この操作信号は、制御部１０に供給される。これにより、制御部１０は、ユーザが表示画面上をタッチしたりスライドさせたりした場合には、ユーザのタッチ位置、指を近接させたり離間させる操作、スライド操作やスライド操作によって到達した位置、スライド方向、タッチしている期間等の各種操作を検出することができ、ユーザ操作に対応した処理を実行することができるようになっている。

記録再生制御部１５は、撮像画像及び収音音声の記録及び再生に関する処理を行うことができる。例えば、記録再生制御部１５は、画像及び音声を図示しないメモリカード等の記録媒体に与えて記録させることができる。また、記録再生制御部１５は、記録媒体に記録されている画像及び音声を読み出して再生することも可能である。

編集処理部１４には、記録再生制御部１５から撮像画像及び音声が時間情報と共に与えられると共に、映像イベント情報及び音声イベント情報が与えられる。編集処理部１４は、映像又は音声の追加合成処理モードが指定されると、表示制御部１３に追加合成処理画面を表示させる。例えば、編集処理部１４は、映像イベント情報に対応する映像イベント表示及び音声イベント情報に対応する音声イベント表示を、共通の時間軸上に対応させて配置した操作画面を追加合成処理画面として表示させることができる。例えば、編集処理部１４は、単位長さ当たりの時間が相互に同一の２つのバー表示を表示させると共に、これらのバー表示上の位置（再生位置）に対応した画像再生時間及び音声再生時間の映像イベント表示及び音声イベント表示を各バー表示の対応する時間の位置（再生位置）近傍に配置した表示を表示させることができる。なお、画像再生時間及び音声再生時間は、録画した映像及び録音した音声をリアルタイムで再生する場合には、それぞれ録画時間及び収音時間と同一である。

編集処理部１４は、タッチ操作部３１の操作によって映像や音声が選択されると、選択された映像を対応する時間の音声に挿入し、選択された音声を対応する時間の映像に挿入する追加合成処理を行う。また、編集処理部１４は、挿入した映像又は音声の時間軸を調整する。例えば、編集処理部１４は、挿入した映像又は音声が所定の時間幅に収まるように、挿入した映像又は音声の一方の時間軸を調整してスロー又は高速再生可能にする。なお、編集処理部１４は、映像効果又は音声効果を向上させるために、映像又は音声の時間軸を調整するようにしてもよい。

なお、本実施の形態は撮像部及び収音部を備えた例えばカメラ等によって構成することが可能である。また、本実施の形態は、制御部１０に撮像時間の情報を含む撮像画像と収音時間の情報を含む音声とを供給することができれば、撮像部及び収音部を備えている必要はなく、カメラの外にコンピュータやタブレットＰＣや携帯電話や表示装置等によって構成することも可能である。また、これらの機器において、映像及び音声を取り込む場合に、既に時間情報が映像及び音声データ中に含まれている場合には、時計部２３は不要であるが、時間情報が含まれていない場合には、時計部２３の時間情報を利用して画像、音声の実時間を計測しながら取り込むようにする。

次に、このように構成された実施の形態の動作について図２乃至図６を参照して説明する。図２は追加合成処理に用いる映像及び音声の撮像及び収音の様子を説明するための説明図であり、図２（ａ）は撮像の様子を示し、図２（ｂ）は収音の様子を示している。図３はカメラ制御を示すフローチャートであり、図４はアフターレコーディングにおける追加合成処理を説明するためのフローチャートである。また、図５及び図６は追加合成処理画面を説明するための説明図である。

図２は編集装置１をカメラによって構成した例を示している。図２（ａ）は人物４１が徒競走中の被写体４５を撮影する様子を示している。人物４１は図１の編集装置１が内蔵された筐体１ａを把持して、画像取得部２１を構成する撮像部によって人物４６を含む被写体４５を撮影する。また、図２（ｂ）は人物４１が人物４６の会話を録音する様子を示している。人物４１は、筐体１ａを把持して、音声取得部２２を構成する収音部によって人物の会話を録音する。なお、これらの録画及び録音は、編集装置１以外の装置によって行ってもよい。

映像又は音声の追加合成処理は、図２（ａ），（ｂ）のように、相互に異なるタイミングや場所で録画又は録音された映像及び音声を合成するものである。編集装置１がカメラ等によって構成されている場合には、撮影直後や再生時等においても追加合成処理が可能である。

図３は編集装置１がカメラによって構成されている場合のカメラ制御を示している。図３のステップＳ１において、制御部１０は、記録モードであるか否かを判定する。いま、記録モードが指定されているものとする。この場合には、制御部１０は、ステップＳ２において撮影モードであるか否かを判定する。いま、撮影モードが指示されているものとする。この場合には、制御部１０は、ステップＳ３において、画像取得部２１を制御して撮像を開始させ、画像取得部２１からの撮影画像を取り込む。制御部１０は、取り込んだ撮像画像（動画）を表示部３２に与えてスルー画表示させる（ステップＳ３）。

次に、制御部１０は、ステップＳ４において動画記録の開始が指示されたか否かを判定する。画像取得部２１に動画記録を開始させるためのユーザ操作が行われると、制御部１０は、ステップＳ５において画像取得部２１からの動画及び音声取得部２２からの音声を取り込んで、記録再生制御部１５によって記録を行う。

次のステップＳ６では、制御部１０は、動画記録の終了操作が行われたか否かを判定する。制御部１０は、終了操作が行われるまで、録画及び録音を継続し（ステップＳ５）、終了操作が行われると、ステップＳ７において記録されている動画及び音声をファイル化する。なお、ステップＳ５では、録画及び録音が同時に行われるものとして説明したが、録画のみ又は録音のみを行うようにしてもよい。

次のステップＳ８において、制御部１０は、追加録音が指示されているか否かを判定する。制御部１０は、追加録音が指示されていない場合には、ステップＳ９において電源オフ操作があるか否かを判定し、電源オフ操作が合った場合には処理を終了し、電源オフ操作がない場合には処理をステップＳ１に戻す。

いま、ステップＳ８において、ユーザによる追加録音の指示操作が検出されるものとする。この場合には、制御部１０は、ステップＳ１１に処理を移行して、録音を開始する。制御部１０は、音声取得部２２が収音した音声を時間情報と共に取り込む（ステップＳ１２）。編集処理部１４は、この取込みに際して、ユーザによるタグ（目印）付け操作があった場合には、記録再生制御部１５を制御して、音声にタグ付けを行った後記録させる（ステップＳ１３）。

次のステップＳ１４では、制御部１０は、音声記録の終了操作が行われたか否かを判定する。制御部１０は、終了操作が行われるまで、録音及びタグ付けを継続し（ステップＳ１２，Ｓ１３）、終了操作が行われると、ステップＳ１５において記録されている音声をファイル化する。なお、図３ではステップＳ１１〜Ｓ１５において、音声の追加録音を行う例を示したが、ユーザの追加撮影操作によって、動画を追加撮影するようにしてもよい。

制御部１０はステップＳ１６において、アフターレコーディング又はプリレコーディングの追加合成処理が指示されたか否かを判定する。制御部１０は、追加合成処理の指示がない場合には処理をステップＳ９に移行し、追加合成処理の指示があった場合には処理をステップＳ２５に移行する。ステップＳ２５における追加合成処理については後述する。

制御部１０は、ステップＳ１において記録モードでないものと判定すると、処理をステップＳ２１以降の再生モードに移行する。記録再生制御部１５は、既に記録媒体に記録されている画像の情報を取得して表示制御部１３に与える。表示制御部１３は、記録済み画像の一覧であるファイル一覧表示を表示部３２の表示画面に表示させる（ステップＳ２１）。制御部１０は、次のステップＳ２２において、画像の再生を選択する操作が行われたか否かを判定する。記録再生制御部１５は、画像の再生が選択されると、選択された画像を再生して表示制御部１３に与え、表示制御部１３は再生された画像を表示部３２の表示画面に表示する（ステップＳ２３）。

本実施の形態においては、制御部１０は、ステップＳ２２において、再生が指示されない場合には、ステップＳ２４において追加合成処理が指示されているか否かを判定する。追加合成処理が指示されていない場合には、編集処理部１４は、ユーザ操作に基づいて通常の編集処理を実行する（ステップＳ２６）。追加合成処理が指示されると、編集処理部１４は追加合成処理を実行する（ステップＳ２５）。

次に、図４乃至図６を参照して追加合成処理について説明する。図５及び図６は筐体１ａの一面に表示部３２の表示画面３２ａが配置されている例を示している。

追加合成処理では、選択された映像に対して選択した音声を追加合成するか、又は、選択された音声に対して選択した映像を追加合成する。図４のステップＳ５１〜Ｓ５９は動画選択時の動作を示し、ステップＳ６１〜Ｓ６９は音声選択時の動作を示している。上述した図３のステップＳ２１〜Ｓ２３においては画像の再生処理のみを説明したが、ステップＳ２１のファイル一覧表示において音声ファイルを選択可能にすることも可能である。

図５（ａ）はステップＳ２１におけるファイル一覧表示の一例を示している。図５（ａ）においては、表示画面３２ａ上には、画像ファイルを選択するためのサムネイル表示５１と音声ファイルを選択するための選択アイコン表示５２が配置されている。なお、画像ファイルと音声ファイルとを区別するためのマーク等を表示させるようにしてもよい。また、表示画面３２ａ上には、削除等の通常の編集を行うための編集ボタン表示５３及び追加合成処理のために「アフレコ編集」と表示された追加合成ボタン表示５４と、戻るボタン表示５５とが表示されている。

ユーザが編集ボタン表示５３上をタッチ操作すると、図３のステップＳ２４からステップＳ２６に処理が移行して通常の編集処理が行われる。いま、ユーザが所定のサムネイル表示５１上をタッチして画像ファイルを選択した後、追加合成ボタン表示５４上をタッチするものとする。そうすると、図３のステップＳ２５に移行して追加合成処理が開始される。

追加合成処理においては、図４のステップＳ３１において、動画と音声の選択が終了したか否かが判定される。動画及び音声の両方の選択か終了していない場合には、ステップＳ５１において動画の画像ファイルが選択されたか否かが判定される。動画が選択されると、ステップＳ５２において選択された動画の内容が解析される。即ち、画像解析部１１は、選択された動画の画像解析を行って、解析結果を編集処理部１４に与える。編集処理部１４は動画の画像の変化を時系列に整理し（ステップＳ５３）、この結果を表示制御部１３に与える。表示制御部１３は、これらの結果に基づいて、画面上段に映像イベント表示である代表画像、対応するバー表示及び時間表示を表示する（ステップＳ５４〜Ｓ５６）。なお、ユーザが図５（ａ）の戻るボタン表示５５上をタッチすると、ステップＳ５８に処理が移行して動画選択が解除される（ステップＳ５９）。

更に、表示制御部１３は、選択された画像ファイルに対して追加合成する音声ファイルを選択するための表示も表示させる（ステップＳ５７）。図５（ｂ）はこのような音声ファイルの選択画面を示している。

本実施の形態においては、図５（ｂ）に示すように、表示画面３２ａの上段にステップＳ５５において映像バー表示６１が表示されている。映像バー表示６１は選択された画像ファイルの時間に対応する長さを有しており、画像ファイルの時間軸を示すものである。表示画面３２ａ上には、選択された画像ファイルの時間が３分１０秒であることを示す映像時間表示６３も表示されている（ステップＳ５６）。

映像バー表示６１は、画像ファイル中の各フレーム又は複数のフレームの単位毎に区切りを有しており、表示制御部１３は、編集処理部１４を介して画像解析部１１からシーンチェンジの判定結果が与えられて、シーンチェンジのフレームに対応する映像バー表示６１の部分に、図５（ｂ）において塗り潰して示しているように、他の部分とは異なる表示６４を表示する。更に、表示制御部１３は、シーンチェンジ位置のフレームのサムネイル表示６２を、代表画像表示として当該フレームの時間に対応する映像バー表示６１の近傍に表示させる（ステップＳ５４）。なお、代表画像表示としては、シーンチェンジ位置のフレームに限らず、例えば、所定の時間間隔毎のフレームのサムネイル表示を用いてもよい。これらの表示によって、選択された映像の時間軸上における変化の様子等を把握しやすくなる。

また、表示画面３２ａの下段には、音声ファイルを選択するための複数の選択アイコン表示６５が配置されており（ステップＳ５７）、各選択アイコン表示６５の下方には対応する音声ファイルの時間を示す音声時間表示６６も表示されている。例えば、「音声２」にて示す音声ファイルは、再生時間が２分０５秒の音声を含むものであることが分かる。

ここで、ユーザが図５（ｂ）の選択アイコン表示６５の１つをタッチして選択するものとする。そうすると、図４のステップＳ３１，Ｓ５１，Ｓ６１から処理はステップＳ６２に移行して、音声に対する解析処理が実行される（ステップＳ６２）。即ち、音声解析部１２は、選択された音声の解析を行って、解析結果を編集処理部１４に与える。編集処理部１４は音声の変化を時系列に整理し（ステップＳ６３）、この結果を表示制御部１３に与える。表示制御部１３は、これらの結果に基づいて、画面下段に音声イベント表示である例えばキーワード表示等の代表音声表示、対応するバー表示及び時間表示を表示する（ステップＳ６４〜Ｓ６６）。図５（ｃ）はこの場合の画面表示を示している。

本実施の形態においては、図５（ｃ）に示すように、表示画面３２ａの下段にステップＳ６５において音声バー表示７１が表示されている。音声バー表示７１は選択された音声ファイルの時間に対応する長さを有しており、音声ファイルの時間軸を示すものである。本実施の形態においては、映像バー表示６１と音声バー表示７１とは、単位時間当たりの長さが同一に設定されている。従って、映像バー表示６１及び音声バー表示７１によって、選択された映像と音声の時間軸上の関係が明瞭となる。

音声バー表示７１は、音声ファイル中の音声の変わり目や所定時間毎やキーワードの検出毎等に区切りを有しており、表示制御部１３は、編集処理部１４を介して音声解析部１２から区切りの判定結果が与えられて、区切りの直後等における音声バー表示７１の部分に、図５（ｃ）において塗り潰して示しているように、他の部分とは異なる表示７２を表示する。更に、表示制御部１３は、区切り位置の音声の認識結果をテキストで示すテキスト表示７３を代表音声表示として、当該区切りの時間に対応する音声バー表示７１の近傍に表示させる（ステップＳ６４）。なお、代表音声表示としては、音声の区切り位置に限らず、例えば、所定の時間間隔毎の音声認識結果のテキスト表示を用いてもよい。これらの表示によって、選択された音声の時間軸上における変化の様子等を把握しやすくなる。なお、ユーザが図５（ｃ）の戻るボタン表示７６上をタッチすると、ステップＳ６８に処理が移行して音声選択が解除される（ステップＳ６９）。

表示制御部１３は、映像（動画）及び音声の選択が終了すると、図４のステップＳ３１からステップＳ３２に処理を移行して、編集スイッチ表示７５を表示する。ここで、ユーザが図５（ｃ）に示すように、指７９によって編集スイッチ表示７５をタッチ操作するものとする。図５（ｃ）は太枠によって編集スイッチ表示７５が操作されたことを示す。これにより、表示制御部１３は、表示部３２の表示画面３２ａ上に図５（ｄ）に示す編集画面を表示する。

図５（ｄ）に示す編集画面は、挿入ボタン表示８１、選択ボタン表示８２及び削除ボタン表示８３が表示されていると共に、「バー上タッチで選択」という説明表示７７が表示されている。ユーザは、タッチ操作部３１の映像バー表示６１、音声バー表示７１、サムネイル表示６２、テキスト表示７３上の位置をタッチ操作、ピンチ操作及びスライド操作することで、位置（編集ポイント）設定、範囲設定及び調整作業を行うことができる。また、ユーザは、挿入ボタン表示８１、選択ボタン表示８２及び削除ボタン表示８３上の位置をタッチ操作することで、選択範囲の確定、削除範囲の確定及び選択範囲の挿入を行うことができる。

編集処理部１４は、図４のステップＳ３４においてタッチ操作を検出し、ステップＳ３６においてピンチ操作を検出し、ステップＳ３８３上の位置においてスライド操作を検出する。編集処理部１４は、タッチ操作を検出するとタッチ位置に対応する時間を記憶し、ピンチ操作を検出するとピンチ量に対応する時間を記憶し、スライド操作を検出するとスライド量に対応する時間を記憶する。

例えば、ユーザが図５（ｄ）の音声バー表示７１上の任意の２箇所の位置をタッチすることで、編集処理部１４は、記録されている音声のうち当該２箇所の位置（編集ポイント）相互間に対応する時間の音声部分を指定する操作が行われたものと判定する。図６（ａ）はユーザが指７９によって音声バー表示７１上の２箇所の位置をタッチしている様子を示している。この状態でユーザが図５（ｄ）に示すように、選択ボタン表示８２上をタッチすると、編集処理部１４は、ステップＳ４１からステップＳ４２に処理を移行して、指定された音声部分の範囲を確定する。即ち、これらの操作によって、映像に挿入する音声の部分を確定する処理が行われる。

また、ユーザが図６（ａ）の太枠で示す削除ボタン表示８３上をタッチ操作すると、編集処理部１４は、ステップＳ４５からステップＳ４６に処理を移行して、指定された音声部分の範囲を削除する。なお、ユーザは、範囲指定の少なくとも一方についてはテキスト表示７３上をタッチすることで、映像に挿入する音声部分の範囲を指定してもよい。

このように、音声バー表示７１やテキスト表示７３上のタッチ操作及び選択ボタン表示８２や削除ボタン表示８３に対する操作によって、ユーザは極めて簡単に合成処理する音声部分を確定することができる。この場合には、音声バー表示７１の時間軸と映像バー表示６１とで単位長さ当たりの時間が一致していることから、また、テキスト表示７３によって、範囲指定しようとする音声部分がどのような音声部分であるかを比較的認識しやすいことから、ユーザは音声合成において選択すべき音声部分を容易に決定することができる。

挿入する音声部分が確定すると、表示制御部１３は、図６（ｂ）に示すように、確定した部分のみの音声バー表示８５を表示する。また、表示制御部１３は、確定した音声部分の時間を示す確定音声時間表示８６も表示させる。図６（ｂ）の例では、５６秒間の音声部分が確定していることを示している。

ユーザは、合成処理する音声部分を確定させると、次に、確定した音声部分を映像のいずれの時間の部分に挿入するかを設定する。この場合には、ユーザは映像バー表示６１上又はサムネイル表示６２上をタッチする。編集処理部１４は、ユーザのタッチ位置に対応する時刻が音声を挿入する時間の先頭位置であるものとして、当該時刻を挿入位置（挿入編集ポイント）として記憶する。この状態でユーザが図６（ｂ）の太枠に示すように、挿入ボタン表示８１上をタッチすると、編集処理部１４は、ステップＳ４３からステップＳ４４に処理を移行して、既に確定されている音声部分の範囲を、画像ファイルに対応する音声の指定された挿入編集ポイントに挿入する。こうして、映像に対する音声の追加合成処理が行われる。

映像に対する音声の追加合成が行われると、表示制御部１３は、図６（ｃ）に示す微調整画面を表示する。図６（ｃ）に示すように、微調整画面では、「微調整」という表示によって微調整画面であることが示されると共に、確定ボタン表示８７が表示される。ユーザは、映像バー表示６１又は音声バー表示８５に対してスライド操作することにより、映像に対する音声の挿入位置（時間）を変更することができる。図６（ｃ）の矢印８９はユーザが音声バー表示８５をスライド操作することを示している。このスライド操作が行われると、編集処理部１４は、ステップＳ３８からステップＳ３９に移行して、音声の映像に対する挿入位置の時間をスライド量に応じて調整する。

また、図６（ｄ）の矢印９０はユーザが指７９によって映像バー表示６１上でピンチ操作することを示している。このピンチ操作が行われると、編集処理部１４は、ステップＳ３６からステップＳ３７に移行して、音声に対する映像の時間軸をピンチ量に応じて調整する。即ち、ピンチ量に応じて映像の時間軸が伸張又は短縮する。従って、この場合には、ピンチ操作が行われた時間部分が高速又は低速再生されることになる。これにより、選択した音声の時間と挿入したい映像の期間とが異なる場合でも、選択した音声部分を映像の希望する再生位置に挿入することができる。この場合には、映像と音声の再生速度が異なることになり、例えば、映像は高速再生されている状態で音声は通常速度で再生されたりする。

なお、表示制御部１３は、伸張又は短縮後の時間を表示する。このピンチ操作は、映像バー表示６１及び音声バー表示８５のいずれに対しても行うことができ、映像及び音声の時間軸を適宜変更することが可能である。更に、これらのスライド操作及びピンチ操作は、音声を映像に挿入する前に行うことも可能である。

ユーザが確定ボタン表示８７上をタッチ操作すると、編集処理部１４は、ステップＳ４７からステップＳ４８に処理を移行して、ユーザの操作に基づく追加合成処理を確定し、映像に音声を合成した情報をファイル化及びコンテナ化する。こうして、ユーザが選択した映像に対して、ユーザが選択した音声を追加合成するアフターレコーディング処理が可能である。制御部１０は、次のステップＳ４９において追加合成処理の終了が指示されたか否かを判定し、終了する場合には処理を図３のステップＳ９に戻す。なお、図５及び図６では、映像を先に選択して、後から音声を選択して映像に合成する例を示したが、音声を先に選択して後から映像を選択して音声に合成することもできることは明らかである。

このように本実施の形態においては、追加合成処理においては、映像及び音声の時間軸を示す映像バー表示及び音声バー表示を表示させる。そして、これらの映像バー表示及び音声バー表示に対する操作によって、挿入する範囲や挿入位置等を指定するようになっており、ユーザは直感的な操作によって追加合成処理が可能である。しかも、これらの映像バー表示及び音声バー表示は、単位時間当たりの長さが同一であり、ユーザは、映像又は音声のどの位置に音声又は映像のどの部分を挿入すれば良いかを、容易に判断することができる。更に、映像バー表示及び音声バー表示の所定の時間の位置、例えばシーンチェンジや音の区切りの位置には、当該時間における映像のサムネイル表示や音声のテキスト表示を表示させており、ユーザは挿入位置及び挿入する部分を容易に判断することができる。更に、本実施の形態においては、映像及び音声の時間軸を、映像バー表示及び音声バー表示に対する簡単な操作で伸張又は短縮することができ、高速再生や低速再生等の特殊再生を容易に実現することもできる。このように、映像及び音声について、共通のスケールの時間軸を表示させることで、ユーザは音声部分の範囲や映像の挿入位置等を容易に判断でき、また、時間軸の調整も直感的に行うことができる。

なお、図４の例では、追加合成処理において動画及び音声が選択された場合に画像及び音声の解析処理を行ったが、画像及び音声の記録又は取込み時にこれらの解析を行うよにうしてもよい。

（変形例）
図７は変形例を示すフローチャートである。図７において図４と同一の手順については同一符号を付して説明を省略する。なお、図７は図４のステップＳ５１〜Ｓ５９及びステップＳ６１〜Ｓ６９については図示を省略している。また、図８及び図９は変形例における追加合成処理画面を説明するための説明図である。図８及び図９において図５及び図６と同一物には同一符号を付して説明を省略する。

上述した図４の例では、音声イベント表示である代表音声表示として、テキスト表示を表示する例を示した。本変形例は、代表音声表示として音声波形を表示するものである。図８（ａ）〜（ｄ）はそれぞれ図５（ａ）〜（ｄ）に対応する。図８（ｃ）に示すように、本変形例においても、表示画面３２ａの下段に音声バー表示７１が表示されている。音声バー表示７１と映像バー表示６１との時間軸は同一スケールであり、映像と音声の時間軸上の関係が明瞭である。

本変形例の音声バー表示７１では、図３のステップＳ１３におけるタグ付け処理によって付加されたタグの位置を示す表示７２（塗り潰し部）が表示されている。また、表示制御部１３は、タグ位置に対応する音声バー表示７１の近傍に、タグの番号を示すタグ番号表示９１を表示させる。

ここで、ユーザが編集スイッチ表示７５をタッチ操作するものとする。図８（ｃ）は太枠によって編集スイッチ表示７５が操作されたことを示す。これにより、表示制御部１３は、表示部３２の表示画面３２ａ上に図８（ｄ）に示す編集画面を表示する。更に、図８（ｄ）に示す編集画面において、ユーザが音声バー表示７１上をタッチ操作するものとする。そうすると、表示制御部１３は、ステップＳ３４からステップＳ７１に処理を移行して、タッチ位置が波形表示上であるか否かを判定する。この場合には、タッチ位置は音声バー表示７１上であるので、表示制御部１３は次のステップＳ７３に移行して、編集処理部１４から音声解析部１２の解析結果である音声波形を取得して、当該波形を示す波形表示９２を表示する（図７のステップＳ７１）。なお、波形表示９２は、ユーザによる音声バー表示７１上のタッチ位置近傍の所定期間の波形を示すものである。また、タグ番号表示９１上のタッチ操作によっても、同様の波形表示９２を表示させることができるようになっている。

この状態で、ユーザが波形表示９２に対してピンチ操作を行うものとする。図９（ａ）の矢印９３はユーザが指７９によって波形表示上でピンチ操作することを示している。このピンチ操作が行われると、編集処理部１４は、ステップＳ３６からステップＳ８１に移行してピンチ操作が波形表示上であるか否かを判定する。この場合には、ピンチ操作は波形表示上であるので、表示制御部１３は、処理をステップＳ８２に移行して、波形表示９２をピンチ量に応じて拡大（又は縮小）する。図９（ａ）は拡大後の波形表示９４を示している。即ち、波形表示９４は波形表示９２の期間の波形を時間軸方向（水平方向）に拡大して、波形の確認を容易にしたものである。

波形表示９４は拡大されているので、ユーザは編集ポイントを指定し易くなる。この状態で、ユーザが、図９（ｂ）に示すように、波形表示９４上の任意の位置をタッチ操作するものとする。そうすると、表示制御部１３は、ステップＳ３４、Ｓ７１を介してステップＳ７２に処理を移行して、タッチ位置に対応する時間を記憶する。表示制御部１３は、このタッチ位置を示すポイント表示を波形表示上に表示する。

図９（ｃ）は同様の手法によって、もう一箇所の編集ポイントを指定し、選択ボタン表示８２上のタッチ操作によって範囲を確定した状態を示している。表示画面３２ａ上には、１点目の波形表示９５ａと２点目の波形表示９５ｂとが表示されており、各波形表示９５ａ，９５ｂ上には、ユーザが編集ポイントとして指定した位置を示すポイント表示９６ａ，９６ｂが表示されている。また、音声バー表示７１は、ポイント表示９６ａ，９６ｂ相互間に対応する音声期間が選択されていることを示す表示９７が表示されている。

こうして、この変形例では、代表音声表示として波形を表示し、この波形表示を見ながらユーザに編集ポイントを指定させることができる。音声として音楽等を追加合成する場合には、波形表示の方が編集ポイントを設定し易く、簡単に追加合成する音声部分を指定することができる。

このように本変形例においては、波形表示を見ながら編集ポイントを設定することができ、操作性に優れている。

１…編集装置、１０…制御部、１１…画像解析部、１２…音声解析部、１３…表示制御部、１４…編集処理部、１５…記録再生制御部、２１…画像取得部、２２…音声取得部、２３…時計部、３１…タッチ操作部、３２…表示部。

Claims

録画された映像を解析する画像解析部と、
録音された音声を解析する音声解析部と、
前記画像解析部の解析結果に基づいて前記録画された映像の再生時間に対応する映像バー表示を表示部に表示すると共に、前記音声解析部の解析結果に基づいて前記録音された音声の再生時間に対応する音声バー表示であって単位長さ当たりの時間が前記映像バー表示と同一の音声バー表示と前記表示部に表示する表示制御部と
を具備したことを特徴とする編集装置。
前記表示制御部は、前記画像解析部の解析結果に基づいて前記録画された映像の所定時間の映像部分に基づく映像イベント表示を前記映像バー表示の対応する再生位置近傍に表示すると共に、前記音声解析部の解析結果に基づいて前記録音された音声の所定時間の音声部分に基づく音声イベント表示を前記音声バー表示の対応する再生位置近傍に表示する
ことを特徴とする請求項１に記載の編集装置。
前記表示制御部は、前記映像イベント表示を前記映像バー表示の時間軸方向に直交する方向に配置し、前記音声イベント表示を前記音声バー表示の時間軸方向に直交する方向に配置する
ことを特徴とする請求項１又は２に記載の編集装置。
前記映像バー表示に対する操作を受け付けて前記映像バー表示に対応する時間の映像の編集ポイントを設定すると共に、前記音声バー表示に対する操作を受け付けて前記音声バー表示に対応する時間の音声の編集ポイントを設定する編集処理部
を具備したことを特徴とする請求項１又は３のいずれか１つに記載の編集装置。
前記映像バー表示及び前記映像イベント表示の少なくとも一方に対する操作を受け付けて前記映像バー表示に対応する時間の映像の編集ポイントを設定すると共に、前記音声バー表示及び前記音声イベント表示の少なくとも一方に対する操作を受け付けて前記音声バー表示に対応する時間の音声の編集ポイントを設定する編集処理部
を具備したことを特徴とする請求項２に記載の編集装置。
前記編集処理部は、前記映像バー表示に対する操作を受け付けて前記映像バー表示に対応する映像の時間軸を制御すると共に、前記音声バー表示に対する操作を受け付けて前記音声バー表示に対応する音声の時間軸を制御する
ことを特徴とする請求項４に記載の編集装置。
前記編集処理部は、前記映像バー表示及び前記映像イベント表示の少なくとも一方に対する操作を受け付けて前記映像バー表示に対応する映像の時間軸を制御すると共に、前記音声バー表示及び前記音声イベント表示の少なくとも一方に対する操作を受け付けて前記音声バー表示に対応する音声の時間軸を制御する
ことを特徴とする請求項５に記載の編集装置。
前記編集処理部は、前記音声イベント表示に対するタッチ操作、スライド操作又はピンチ操作を受け付ける
ことを特徴とする請求項４乃至７のいずれか１つに記載の編集装置。
前記編集処理部は、前記映像の編集ポイントによって指定された映像期間の映像を前記音声の編集ポイントによって指定された音声期間に挿入するか又は、前記音声の編集ポイントによって指定された音声期間の音声を前記映像の編集ポイントによって指定された映像期間に挿入する追加合成処理を行う
ことを特徴とする請求項４乃至８のいずれか１つに記載の編集装置。
録画された映像を解析し、
録音された音声を解析し、
前記画像解析部の解析結果に基づいて前記録画された映像の再生時間に対応する映像バー表示を表示部に表示すると共に、前記音声解析部の解析結果に基づいて前記録音された音声の再生時間に対応する音声バー表示であって単位長さ当たりの時間が前記映像バー表示と同一の音声バー表示を前記表示部に表示する
ことを特徴とする編集方法。