JP4272611B2

JP4272611B2 - 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP4272611B2
Application number: JP2004327739A
Authority: JP
Inventors: 裕子紺家; 智一山田; 秀豪桑野; 雄彦川添
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-11-11
Filing date: 2004-11-11
Publication date: 2009-06-03
Anticipated expiration: 2024-11-11
Also published as: JP2006140707A

Description

本発明は、映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行う映像処理方法及びその装置と、その映像処理方法の実現に用いられる映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体とに関する。

テレビ映像やビデオ映像といった動画像編集においては、動画像編集を効率的に行うことができるようにするために、映像の切り替わりや音声・音楽の有無やテロップの有無などを検出するメディア認識技術を用いて、入力した映像に対してインデックス作成処理（映像をシーンに区画し、各シーンについて代表画像を決定するなどの処理を行う）を施して、その処理結果を検出結果表示枠を使ってディスプレイに一覧表示することで、動画像編集者の作業を補助するための情報としている。

そして、動画像編集者は、このインデックス情報を参考にして、映像中の任意の区間をひとまとまりとしてトピックとし、トピックの内容などを表す情報を関連情報としてトピックに付与するという動画像編集機能を使って、映像以外の外部からのテキスト情報（台本や進行表など）を読み込んで、それを関連情報としてトピックに付与して表示するという編集作業を行っている。

一方、このような動画像編集の補助情報として、映像内の音声を認識し、テキスト化して表示するという技術が用いられている（例えば、特許文献１参照）。

また、映像のシナリオに時間に関する記述がない場合に、シナリオ中のシーンに記述されている文字数をシーン毎にカウントして、そのカウント値と実際に編集された映像の実時間長とから各シーンの予測時間長を算出することで、シナリオに記述されている完成予定の映像と、実際に編集された映像との間の時間のずれの対応をとるという技術も用いられている（例えば、特許文献２参照）。
特開２００３−３２３４３７特開２００４−１５９１０７

このような従来技術を背景にして、映像内の音声を認識しテキスト化する技術を利用して、そのようにして認識したテキスト情報を関連情報としてトピックに付与するという方法が用いられている。

しかしながら、音声認識にはある程度雑音のない音声が必要であるものの、テレビ映像やビデオ映像といった映像に含まれる音声は映像内容により雑音が多かったり、多くの音が重なったりしていて音声認識には適さない場合がある。

映像に関連する音声情報として、その他に、映像とは別に生成される要約された情報がある。この要約情報の方が映像の関連情報として適している場合がある。

このようなことを背景にして、専用のキャスターがテレビ映像やビデオ映像の音声を聞きながら言い直したり、あらかじめ用意される原稿を読んだりした要約文章の音声を音声認識してテキスト情報にするというリスピーク方式が用いられている。

これから、このリスピーク方式を利用して、リスピークされた音声認識結果のテキスト情報を関連情報としてトピックに付与するという方法を用いることが考えられる。

しかしながら、リスピーク方式を利用する場合には、時間情報だけで、どのシーンとどの要約発話音声認識結果（リスピークされた音声の認識結果）とを結び付けるのかを判断することが難しいという問題がある。

すなわち、要約文章を発話する場合、発話者は、あるシーンを見て要点をまとめ、それから発話内容を決めて発話するという過程を踏むことになるので、そのシーンの後半部または終了後から、そのシーンについての発話が始まり、そのシーンの終了後も発話が継続するということが起こる。これから、時間情報だけで、どのシーンとどの要約発話音声認識結果とを結び付けるのかを判断することが難しいのである。

しかも、シーンと発話の時刻のずれる量は映像の内容や発話者の癖などにより必ず一定の値であるとは限らないことから、あらかじめ決めた規定量分だけ先にずらしておくという方法を用いることもできない。

また、動画像編集者が逐次探して情報を整合するという方法を用いることも考えられるが、時間的コストが大きいという問題がある。

また、特許文献２に記載されるように、テキスト情報と映像情報とを自動で整合するという技術もあるが、この技術では映像内の音声区間長とテキストの文字量とを比較して対応付けていることから、映像内の発話と同等のテキスト文章とが必要になり、映像内の音声と異なる音声を使用する場合や、あらかじめテキスト文章が準備できない場合には利用不可能であるという問題がある。

本発明はかかる事情に鑑みてなされたものであって、映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行うときに、少ない作業量で、かつ簡略な操作でもって、その関連付けを行うことができるようにする新たな映像処理技術の提供を目的とする。

この目的を達成するために、本発明の映像処理装置は、映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行うために、（イ）入力した音声を音声認識して、各音声区間についての文字情報を得るとともに、それらの音声区間の時間情報を得る音声認識手段と、（ロ）入力した映像を、ひとつの映像のまとまりとして定義されるトピック区間に区画するとともに、それらのトピック区間の時間情報を得るトピック区画手段と、（ハ）トピック区間に対応付けられるアイコンの一覧を表示し、音声認識結果の文字情報を音声区間毎に表示し、さらに、トピック区間の時間位置を示す情報と音声区間の時間位置を示す情報とを時間に沿った形で並べて表示する編集用画面を表示する編集用画面表示手段と、（ニ）編集用画面上で選択されたトピック区間と各音声区間とが時間的にオーバーラップする割合を求めて、それに応じて、そのトピック区間に対応付けられる音声区間を特定して、そのトピック区間についての表示情報とその特定した音声区間についての表示情報とを明示表示する明示表示手段とを備える。

この構成を採るときに、さらに、選択されたトピック区間に対応付けられる音声区間がユーザにより指定される場合に、その指定される音声区間がそのトピック区間に対応付けられることになるようにと、その音声区間の時間位置を修正する修正手段を備えることがある。

この修正手段を備えるときには、この修正手段の修正した音声区間に続く１つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量、あるいは、それまでに修正した音声区間の時間修正量の平均値を使って、処理対象の音声区間の時間位置を修正する手段を備えたり、この修正手段の修正した音声区間に続く１つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したもの、あるいは、それまでに修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したものの平均値を使って、処理対象の音声区間の時間位置を修正する手段を備えることがある。

そして、この修正手段を備えるときには、音声区間の時間位置が修正される場合に、それに合わせて、編集用画面上に表示されるその音声区間の時間位置を示す情報の表示位置を変更する手段を備えることがある。

以上の各処理手段が動作することで実現される本発明の映像処理方法はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてＣＰＵなどの制御手段上で動作することにより本発明を実現することになる。

このように構成される本発明では、映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力すると、その入力した音声を音声認識して、各音声区間について文字情報を得るとともに、それらの音声区間の時間情報を得る。そして、その入力した映像を、ひとつの映像のまとまりとして定義されるトピック区間に区画するとともに、それらのトピック区間の時間情報を得る。

続いて、これらの処理に基づいて編集用画面を表示する。このとき表示する編集用画面は、トピック区間に対応付けられるアイコンの一覧を表示し、音声認識結果の文字情報を音声区間毎に表示し、さらに、トピック区間の時間位置を示す情報と音声区間の時間位置を示す情報とを時間に沿った形で並べて表示するものである。

この編集用画面の表示を受けて、ユーザは、編集用画面に表示されるトピック区間についての表示情報をクリックすることでトピック区間を選択することになるので、ユーザによりトピック区間が選択されると、その選択されたトピック区間と各音声区間とが時間的にオーバーラップする割合を求めて、それに応じて、そのトピック区間に対応付けられる音声区間を特定して、そのトピック区間についての表示情報とその特定した音声区間についての表示情報とを明示表示する。

この明示表示を受けて、ユーザは、選択したトピック区間と明示表示される音声区間との間の対応関係が所望のものであるのか否かを判断して、所望のものであることを判断するときには、次のトピック区間を選択する。

一方、ユーザは、選択したトピック区間と明示表示される音声区間との間の対応関係が所望のものでないことを判断するときには、選択したトピック区間に対応付けられる音声区間を選択することで指定することになるので、ユーザにより音声区間が指定されると、その指定された音声区間がそのトピック区間に対応付けられることになるようにと、その音声区間の時間位置を修正する。

そして、この修正に合わせて、修正した音声区間に続く１つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量、あるいは、それまでに修正した音声区間の時間修正量の平均値を使って、処理対象の音声区間の時間位置を修正したり、その修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したもの、あるいは、それまでに修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したものの平均値を使って、処理対象の音声区間の時間位置を修正する。

このようにして、本発明によれば、映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行うときに、少ない作業量で、かつ簡略な操作でもって、その関連付けを行うことができるようになる。

これから、本発明によれば、映像に対して、外部から取り入れた音声の認識結果を関連情報として自動的に付与することができるようになる。

そして、本発明によれば、このとき付与する音声情報が映像内に含まれる音声認識には適さない音声の認識結果ではなくて、外部から取り入れた音声認識に適した音声の認識結果であることから、映像に対して正確で、かつ的確な音声情報を付与することができるようになる。

そして、本発明によれば、この音声情報の付与にあたって、時間情報によって対応付けられた映像と音声情報とを明示表示することにより、ユーザが視覚的に確認しながら映像に対して音声情報を付与することができるようになるので、映像に対して効率的に音声情報を付与することができるようになる。

以下、実施の形態に従って本発明を詳細に説明する。

図１に、本発明を具備する動画像編集装置１の一実施形態例を図示する。

本発明を具備する動画像編集装置１は、カメラ２により撮影された映像と、マイク３により収集された音声とを入力として、入力した映像と入力した音声とを関連付ける処理を行うものであって、カメラ２により撮影された映像を入力する映像入力部１０と、映像入力部１０の入力した映像を格納する映像格納部１１と、マイク３により収集された音声を入力する外部音声入力部１２と、外部音声入力部１２の入力した外部音声を音声認識して音声区間に区切る音声認識部１３と、音声認識部１３の認識結果を格納する認識音声格納部１４と、時間を刻むタイマ１５と、映像格納部１１に格納される映像をひとつの映像のまとまりとして定義されるトピック区間に区画するトピック定義部１６と、トピック定義部１６の区画した各トピック区間についての情報を格納するトピック情報格納部１７と、編集用画面を表示して、トピック区間と音声区間との対応付けを実行するトピック編集部１８と、編集用画面などを表示するディスプレイ１９とを備える。

次に、映像入力部１０、外部音声入力部１２、音声認識部１３、トピック定義部１６及びトピック編集部１８の実行する処理について説明する。

〔１〕映像入力部１０の処理
映像入力部１０は、図２の処理フローに示すように、先ず最初に、ステップ１０で、カメラ２により撮影された映像を入力し、続くステップ１１で、タイマ１５により与えられる時間情報を付加しつつ、入力した映像を映像格納部１１に格納するという処理を実行する。

この映像入力部１０の処理に従って、映像格納部１１には、処理対象となる映像が格納されることになる。

〔２〕外部音声入力部１２及び音声認識部１３の処理
外部音声入力部１２は、図３の処理フローに示すように、先ず最初に、ステップ２０で、マイク３により収集された外部音声を入力し、続くステップ２１で、入力した外部音声にタイマ１５により与えられる時間情報を付加するという処理を実行する。

この外部音声入力部１２の処理を受けて、音声認識部１３が動作に入って、音声認識部１３は、図３の処理フローに示すように、先ず最初に、ステップ２２で、入力した外部音声を音声認識することで、各音声区間毎に、認識結果となる文字情報とその区間の時間情報とを生成し、続くステップ２３で、その処理結果を認識音声格納部１４に格納するという処理を実行する。

この外部音声入力部１２及び音声認識部１３の処理に従って、認識音声格納部１４には、入力した外部音声の音声認識結果である各音声区間毎の文字情報・時間情報が格納されることになる。

ここで、音声認識部１３としては、ディクテーションの音声認識機能（話した言葉すべてをできる限り忠実に認識する音声認識機能）を持つものが用いられ、例えば、“ＮＴＴ技術ジャーナル，1999年12月号，14ページ「音声認識エンジンＶoiceＲexを開発」”や、“ＮＴＴ技術ジャーナル，1999年12月号，22ページ「音声認識エンジンＶoiceＲexによる文書作成」”に記載される音声認識技術を用いることができる。

〔３〕トピック定義部１６の処理
トピック定義部１６は、図４に示すように、映像格納部１１に格納される映像についてトピック区間を定義することで、その映像をトピック区間に区画して、各トピック区間についての映像情報とその区間の時間情報とをトピック情報格納部１７に格納するという処理を実行する。

トピック定義部１６は、このトピック区間の定義を実行するために、図４に示すように、例えば、インデックス作成機能とトピック定義機能とを備えている。

トピック定義部１６は、このインデックス作成機能を使って、映像の切り替わりや音声・音楽の有無やテロップの有無などを検出することで、入力した映像に対してインデックス作成処理（映像をシーンに区画し、各シーンについて代表画像を決定するなどの処理を行う）を施して、例えば、図５に示すユーザインタフェース画面の右側部分にあるブラウザ画面１００を使って、その処理結果を検出結果表示枠を使って一覧表示する。

このユーザインタフェース画面では、左側部分に示すように、動画像再生表示、音声波形表示、マーク表示を含む動画像の再生プレーヤー１０１が設けられており、ユーザは、この再生プレーヤー１０１を使って、選択したインデックスについての映像を参照しながら、ひとつの映像のまとまりとして定義されるトピック区間を定義するので、トピック定義部１６は、トピック定義機能を使ってユーザと対話して、映像格納部１１に格納される映像についてトピック区間を定義することで、その映像をトピック区間に区画して、各トピック区間についての映像情報とその区間の時間情報とをトピック情報格納部１７に格納することになる。

このようにして、野球中継の映像を入力する場合の例で説明するならば、１回の表の攻撃、１回の裏の攻撃、２回の表の攻撃、・・・・・というような形でトピック区間が定義されて、それらの各トピック区間に含まれる映像の情報とその区間の時間情報とがトピック情報格納部１７に格納されることになる。

〔４〕トピック編集部１８の処理
トピック編集部１８は、編集用画面を表示して、それを使ってユーザと対話することで、トピック定義部１６により定義されたトピック区間と、音声認識部１３により認識された音声区間との対応付けを実行する。

このトピック編集部１８の処理に従って、映像に含まれる各トピック区間に対して、外部から取り入れた外部音声の認識結果を関連情報として自動的に付与することができるようになる。

図６に、トピック編集部１８の表示する編集用画面の一例を図示する。

この図に示すように、トピック編集部１８の表示する編集用画面は、トピック区間に対応付けられるアイコンの一覧を表示するトピック一覧表示部２００と、外部音声の認識結果である文字情報を音声区間毎に表示する音声認識結果表示部２０１と、音声区間の時間位置を示すバーとトピック区間の時間位置を示すバーとを時間に沿った形で並べて表示するタイムライン表示部２０２とで構成されている。

なお、この図６では省略しているが、編集用画面には、トピック一覧表示部２００に表示するアイコンの中からユーザによりアイコンが選択されると、その選択されたアイコンの指すトピック区間の映像を再生する再生プレーヤーが用意されている。

図７ないし図９に、トピック編集部１８の実行する処理フローの一例を図示する。次に、この処理フローに従って、本発明について詳細に説明する。

トピック編集部１８は、ユーザから処理要求があると、図７ないし図９の処理フローに示すように、先ず最初に、ステップ３０で、編集用画面のトピック一覧表示部２００に、各トピック区間のアイコンを一覧表示し、続くステップ３１で、編集用画面の音声認識結果表示部２０１に、各音声区間の文字情報を表示する。

続いて、ステップ３２で、編集用画面のタイムライン表示部２０２に、各トピック区間の時間位置を示すバーを表示し、続くステップ３３で、編集用画面のタイムライン表示部２０２に、各音声区間の時間位置を示すバーを表示する。

このようにして、トピック編集部１８は、ステップ３０〜ステップ３３の処理を実行することで、図６に示すような編集用画面を表示するのである。

この編集用画面の表示に応答して、ユーザが編集操作を入力してくるので、トピック編集部１８は、続くステップ３４で、この編集操作が入力されるのを待って、編集操作が入力されたことを検出すると、ステップ３５に進んで、トピック区間をクリックする編集操作であるのかを判断する。

すなわち、ユーザは、処理対象となるトピック区間を選択する場合は、トピック一覧表示部２００に表示するいずれかのアイコンをクリックするか、タイムライン表示部２０２に表示するトピック区間の時間位置を示すいずれかのバーをクリックするので、そのような編集操作であるのかを判断するのである。

このステップ３５の判断処理に従って、ユーザの編集操作がトピック区間をクリックする編集操作であることを判断するときには、ステップ３６に進んで、編集用画面で現在行っているハイライト表示（強調表示）を終了し、続くステップ３７で、クリックされたトピック区間の時間位置の近傍にある音声区間を抽出する。

続いて、ステップ３８で、その抽出した音声区間を処理対象として、クリックされたトピック区間と処理対象の音声区間との間の時間的な重なりを示す値を取得する。具体的には、図１０中に示す時間長Ｘ，Ｙ（音声区間がトピック区間を跨ぐ場合にはＹ１，Ｙ２）で示す時間的な重なりを示す値を取得するのである。

続いて、ステップ３９で、その取得したＸ，Ｙ（Ｙ１，Ｙ２）と予め設定される閾値Ｚとを用いて、処理対象の音声区間の中から、クリックされたトピック区間に対応付けられるものを特定する。

次に、このステップ３９で実行する特定処理について、図１１に示す処理フローに従って説明する。

すなわち、トピック編集部１８は、ステップ３９の処理に入って、処理対象の音声区間の中から音声区間を１つ選択すると、図１１の処理フローに示すように、先ず最初に、ステップ３９０で、その選択した音声区間の開始時間又は終了時間の少なくともどちらか一方がトピックの区間内にあるのかを判断して、トピック区間内にあることを判断するとき、すなわち、図１０に示す音声区間αのような状態にあることを判断するときには、ステップ３９１に進んで、「Ｘ／（Ｘ＋Ｙ）≧Ｚ」という関係が成立するのか否かを判断して、この関係が成立することを判断するときには（トピック区間とオーバーラップする時間が長いことを判断するときには）、ステップ３９２に進んで、選択した音声区間がトピック区間に対応付けられるものと判断し、この関係が成立しないことを判断するときには、ステップ３９４に進んで、選択した音声区間がトピック区間に対応付けられないものと判断する。

そして、ステップ３９０で、選択した音声区間の開始時間又は終了時間のどちらともがトピックの区間内にないことを判断するとき、すなわち、図１０に示す音声区間βのような状態にあることを判断するときには、ステップ３９３に進んで、「Ｘ／（Ｘ＋Ｙ１＋Ｙ２）≧Ｚ」という関係が成立するのか否かを判断して、この関係が成立することを判断するときには（トピック区間とオーバーラップする時間が長いことを判断するときには）、ステップ３９２に進んで、選択した音声区間がトピック区間に対応付けられるものと判断し、この関係が成立しないことを判断するときには、ステップ３９４に進んで、選択した音声区間がトピック区間に対応付けられないものと判断する。

このようにして、ステップ３９では、ステップ３８で取得したＸ，Ｙ（Ｙ１，Ｙ２）と予め設定される閾値Ｚとを用いて、クリックされたトピック区間とそのトピック区間の時間位置の近傍にある音声区間とが時間的にオーバーラップする割合を求めて、それに応じて、それらの音声区間の中から、クリックされたトピック区間に対応付けられるものを特定するのである。

続いて、ステップ４０で、ステップ３９での特定処理に従って、クリックされたトピック区間に対応付けられる音声区間を特定できたのか否かを判断して、音声区間を特定できたことを判断するときには、ステップ４１に進んで、編集用画面上に表示するクリックされたトピック区間についての表示情報と、その特定した音声区間についての表示情報とをハイライト表示する。

すなわち、図１２に示すように、編集用画面のトピック一覧表示部２００に表示する該当のトピック区間のアイコンと、編集用画面の音声認識結果表示部２０１に表示する該当の音声区間の文字情報と、編集用画面のタイムライン表示部２０２に表示する該当のトピック区間及び音声区間のバーとをハイライト表示するのである。

この編集用画面のハイライト表示に応答して、ユーザはトピック区間と音声区間との対応付けが所望のものであるのか否かを入力してくるので、トピック編集部１８は、続くステップ４２で、ユーザがハイライト表示する対応関係が所望のものであるということを入力してきたのか否かを判断して、ユーザが所望のものであるということを入力してきたことを判断するときには、次のトピック区間の処理を行うべくステップ３４に戻る。

このようにして、ステップ３７〜ステップ３９の処理に従って、クリックされたトピック区間に対応付けられる所望の音声区間を特定できる場合には、次のトピック区間の処理を行うべく、そのままステップ３４に戻るように処理するのである。

一方、ステップ４２で、ユーザがハイライト表示する対応関係が所望のものではないということを入力してきたことを判断するときには、ステップ４３に進んで、図１３に示すように、音声区間のハイライト表示を終了する。

続いて、ステップ４４で、編集用画面を使ってユーザと対話することで、クリックされたトピック区間に対応付けられる音声区間を選択し、続くステップ４５で、その選択した音声区間の時間位置がクリックされたトピック区間に対応付けられることになるようにと、その音声区間の時間位置を修正する。

なお、このとき実行する時間位置の修正については、例えば、クリックされたトピック区間の最終時間位置と選択した音声区間の最終時間位置とが一致することになるようにと自動で行うようにしてもよいが、後述するスライド表示モードに設定しておいて、タイムライン表示部２０２に表示する音声区間の時間位置を示すバーに対して行われるユーザの移動操作に従って行うようにしてもよい。

また、このとき実行する時間位置の修正については、選択した音声区間の時間位置がクリックされたトピック区間の時間位置に完全に含まれることになるまで修正する必要はなく、上述した「Ｘ／（Ｘ＋Ｙ）≧Ｚ」や「Ｘ／（Ｘ＋Ｙ１＋Ｙ２）≧Ｚ」という関係が成立する状態になるまでの修正で足りるが、完全に含まれることになるまで修正を行うようにしてもよい。

続いて、ステップ４６で、選択した音声区間に続く音声区間の時間位置を修正する。このとき実行する修正処理の詳細については後述するが、選択した音声区間に続く全ての音声区間の時間位置を修正する必要はなく、例えば、選択した音声区間の後ろに位置する１つの音声区間の時間位置だけを修正するようにしてもよい。

続いて、ステップ４７で、クリックされたトピック区間に対応付けられる音声区間が確定したことに対応して、選択した音声区間についての表示情報をハイライト表示する。

続いて、ステップ４８で、スライド表示モードに設定されているのか否かを判断して、スライド表示モードに設定されていることを判断するときには、ステップ４９に進んで、ステップ４５，４６で行った時間位置の修正に合わせて、図１４に示すように、タイムライン表示部２０２に表示する音声区間の時間位置を示すバーの表示位置をずらしてから、次のトピック区間の処理を行うべくステップ３４に戻り、一方、スライド表示モードに設定されていないことを判断するときには、ステップ４９の処理を行うことなく、次のトピック区間の処理を行うべくステップ３４に戻る。

そして、ステップ４０で、クリックされたトピック区間に対応付けられる音声区間を特定できないことを判断するときには、ステップ５０に進んで、クリックされたトピック区間についての表示情報のみをハイライト表示してから、ユーザの指定する音声区間に従ってクリックされたトピック区間に対応付けられる音声区間を特定すべく、ステップ４４〜ステップ４９の処理に進む。

このようにして、ステップ３７〜ステップ３９の自動処理に従って、クリックされたトピック区間に対応付けられる音声区間を特定できるものの、その音声区間が所望のものでない場合と、クリックされたトピック区間に対応付けられる音声区間を特定できない場合には、ステップ４４〜ステップ４６の処理に従って、ユーザの指定する音声区間を選択して、その選択した音声区画がクリックされたトピック区間に対応付けられるものとなるようにと時間位置を修正するとともに、それに合わせて、その選択した音声区間に続く音声区間の時間位置を修正するように処理するのである。

そして、ステップ３５で、ユーザの編集操作がトピック区間をクリックする編集操作でないことを判断するときには、ステップ５１に進んで、ユーザの編集操作が処理の終了を指示する編集操作であるのか否かを判断して、処理終了指示の編集操作でないことを判断するときには、ステップ５２に進んで、指示のある編集処理を実行してから、ステップ３４に戻り、処理終了指示の編集操作であることを判断するときには、処理を終了する。

このようにして、トピック編集部１８は、図６に示すような編集用画面を表示して、それを使ってユーザと対話することで、トピック定義部１６により定義されたトピック区間と、音声認識部１３により認識された音声区間との対応付けを実行するのである。

次に、ステップ４６で実行する音声区間の時間位置の修正処理について説明する。トピック編集部１８は、このステップ４６では、ユーザの選択した音声区間に続く音声区間の時間位置を修正する処理を行う。

図１５（ａ)(ｂ）に、トピック編集部１８がステップ４６で実行する処理フローの一例を図示する。

トピック編集部１８は、図１５（ａ）に示す処理フローに従って、ユーザの選択した音声区間に続く音声区間を修正対象として、その修正対象の時間位置を修正する場合には、先ず最初に、ステップ４６０Ａで、修正対象の音声区間より１つ前に位置する音声区間の修正時間を取得し、続くステップ４６１Ａで、その取得した修正時間を用いて、修正対象の音声区間の時間位置を修正する。

すなわち、トピック編集部１８は、図１５（ａ）に示す処理フローに従って音声区間の時間位置を修正する場合には、図１６（ａ）に示すような形態でもって、修正対象の音声区間の時間位置を修正するのである。

一方、トピック編集部１８は、図１５（ｂ）に示す処理フローに従って、ユーザの選択した音声区間に続く音声区間を修正対象として、その修正対象の時間位置を修正する場合には、先ず最初に、ステップ４６０Ｂで、修正対象の音声区間より前に位置する音声区間の修正時間を取得して、それらの平均値を算出し、続くステップ４６１Ｂで、その算出した修正時間の平均値を用いて、修正対象の音声区間の時間位置を修正する。

すなわち、トピック編集部１８は、図１５（ｂ）に示す処理フローに従って音声区間の時間位置を修正する場合には、図１６（ｂ）に示すような形態でもって、修正対象の音声区間の時間位置を修正するのである。

この図１５（ａ)(ｂ）に示す処理フローでは、音声区間の区間長について考慮していないが、図１５（ａ）に示す処理フローの代わりに、図１７（ａ）に示す処理フローのように、修正時間を音声区間長で正規して、その正規化した修正時間と修正対象の音声区間の区間長とに基づいて、修正対象の音声区間の時間位置を修正したり、図１５（ｂ）に示す処理フローの代わりに、図１７（ｂ）に示す処理フローのように、修正時間を音声区間長で正規してその平均値を算出して、その修正時間の平均値と修正対象の音声区間の区間長とに基づいて、修正対象の音声区間の時間位置を修正するようにしてもよい。

また、図１５（ａ)(ｂ）に示す処理フローでは、トピック区間の区間長について考慮していないが、図１５（ａ）に示す処理フローの代わりに、図１８（ａ）に示す処理フローのように、修正時間を音声区間に対応付けられるトピック区間の区間長で正規して、その正規化した修正時間と修正対象の音声区間に対応付けられるトピック区間の区間長とに基づいて、修正対象の音声区間の時間位置を修正したり、図１５（ｂ）に示す処理フローの代わりに、図１８（ｂ）に示す処理フローのように、修正時間を音声区間に対応付けられるトピック区間の区間長で正規してその平均値を算出して、その修正時間の平均値と修正対象の音声区間に対応付けられるトピック区間の区間長とに基づいて、修正対象の音声区間の時間位置を修正するようにしてもよい。

このようにして、本発明の動画像編集装置１によれば、映像と、その映像とは別に生成されてその映像に関連付けられる外部音声とを入力として、その映像とその外部音声とを関連付ける処理を行うときに、少ない作業量で、かつ簡略な操作でもって、その関連付けを行うことができるようになる。

本発明を具備する動画像編集装置の一実施形態例である。映像入力部の実行する処理フローである。外部音声入力部及び音声認識部の実行する処理フローである。トピック定義部の実行する処理の説明図である。トピック定義部の表示するユーザインタフェース画面の説明図である。トピック編集部の表示する編集用画面の説明図である。トピック編集部の実行する処理フローである。トピック編集部の実行する処理フローである。トピック編集部の実行する処理フローである。２つの区間の間の時間的な重なりを示す値の説明図である。トピック編集部の実行する処理フローである。トピック編集部の表示する編集用画面の説明図である。トピック編集部の表示する編集用画面の説明図である。トピック編集部の実行する処理の説明図である。トピック編集部の実行する処理フローである。トピック編集部の実行する処理の説明図である。トピック編集部の実行する処理フローである。トピック編集部の実行する処理フローである。

符号の説明

１動画像編集装置
１０映像入力部
１１映像格納部
１２外部音声入力部
１３音声認識部
１４認識音声格納部
１５タイマ
１６トピック定義部
１７トピック情報格納部
１８トピック編集部
１９ディスプレイ

Claims

映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行う映像処理方法であって、
上記音声を音声認識して、各音声区間についての文字情報を得るとともに、それらの音声区間の時間情報を得る第１の過程と、
上記映像を、ひとつの映像のまとまりとして定義されるトピック区間に区画するとともに、それらのトピック区間の時間情報を得る第２の過程と、
上記トピック区間に対応付けられるアイコンの一覧を表示し、上記文字情報を音声区間毎に表示し、さらに、上記トピック区間の時間位置を示す情報と上記音声区間の時間位置を示す情報とを時間に沿った形で並べて表示する編集用画面を表示する第３の過程と、
上記編集用画面上で選択されたトピック区間と上記音声区間とが時間的にオーバーラップする割合を求めて、それに応じて、そのトピック区間に対応付けられる音声区間を特定して、そのトピック区間についての表示情報とその特定した音声区間についての表示情報とを明示表示する第４の過程とを備えることを、
特徴とする映像処理方法。
請求項１に記載の映像処理方法において、
上記選択されたトピック区間に対応付けられる音声区間がユーザにより指定される場合に、その指定される音声区間がそのトピック区間に対応付けられることになるようにと、その音声区間の時間位置を修正する過程を備えることを、
特徴とする映像処理方法。
請求項２に記載の映像処理方法において、
上記修正した音声区間に続く１つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量、あるいは、それまでに修正した音声区間の時間修正量の平均値を使って、処理対象の音声区間の時間位置を修正する過程を備えることを、
特徴とする映像処理方法。
請求項２に記載の映像処理方法において、
上記修正した音声区間に続く１つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したもの、あるいは、それまでに修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したものの平均値を使って、処理対象の音声区間の時間位置を修正する過程を備えることを、
特徴とする映像処理方法。
請求項２ないし４のいずれか１項に記載の映像処理方法において、
上記音声区間の時間位置が修正される場合に、それに合わせて、上記編集用画面上に表示されるその音声区間の時間位置を示す情報の表示位置を変更する過程を備えることを、
特徴とする映像処理方法。
映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行う映像処理装置であって、
上記音声を音声認識して、各音声区間についての文字情報を得るとともに、それらの音声区間の時間情報を得る第１の手段と、
上記映像を、ひとつの映像のまとまりとして定義されるトピック区間に区画するとともに、それらのトピック区間の時間情報を得る第２の手段と、
上記トピック区間に対応付けられるアイコンの一覧を表示し、上記文字情報を音声区間毎に表示し、さらに、上記トピック区間の時間位置を示す情報と上記音声区間の時間位置を示す情報とを時間に沿った形で並べて表示する編集用画面を表示する第３の手段と、
上記編集用画面上で選択されたトピック区間と上記音声区間とが時間的にオーバーラップする割合を求めて、それに応じて、そのトピック区間に対応付けられる音声区間を特定して、そのトピック区間についての表示情報とその特定した音声区間についての表示情報とを明示表示する第４の手段とを備えることを、
特徴とする映像処理装置。
請求項６に記載の映像処理装置において、
上記選択されたトピック区間に対応付けられる音声区間がユーザにより指定される場合に、その指定される音声区間がそのトピック区間に対応付けられることになるようにと、その音声区間の時間位置を修正する手段を備えることを、
特徴とする映像処理装置。
請求項７に記載の映像処理装置において、
上記修正した音声区間に続く１つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量、あるいは、それまでに修正した音声区間の時間修正量の平均値を使って、処理対象の音声区間の時間位置を修正する手段を備えることを、
特徴とする映像処理装置。
請求項７に記載の映像処理装置において、
上記修正した音声区間に続く１つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したもの、あるいは、それまでに修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したものの平均値を使って、処理対象の音声区間の時間位置を修正する手段を備えることを、
特徴とする映像処理装置。
請求項７ないし９のいずれか１項に記載の映像処理装置において、
上記音声区間の時間位置が修正される場合に、それに合わせて、上記編集用画面上に表示されるその音声区間の時間位置を示す情報の表示位置を変更する手段を備えることを、
特徴とする映像処理装置。
請求項１ないし５のいずれか１項に記載の映像処理方法の実現に用いられる処理をコンピュータに実行させるための映像処理用プログラム。
請求項１ないし５のいずれか１項に記載の映像処理方法の実現に用いられる処理をコンピュータに実行させるための映像処理用プログラムを記録したコンピュータ読み取り可能な記録媒体。