JP4272611B2 - 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP4272611B2
JP4272611B2 JP2004327739A JP2004327739A JP4272611B2 JP 4272611 B2 JP4272611 B2 JP 4272611B2 JP 2004327739 A JP2004327739 A JP 2004327739A JP 2004327739 A JP2004327739 A JP 2004327739A JP 4272611 B2 JP4272611 B2 JP 4272611B2
Authority
JP
Japan
Prior art keywords
section
topic
video
voice
video processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004327739A
Other languages
English (en)
Other versions
JP2006140707A (ja
Inventor
裕子 紺家
智一 山田
秀豪 桑野
雄彦 川添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004327739A priority Critical patent/JP4272611B2/ja
Publication of JP2006140707A publication Critical patent/JP2006140707A/ja
Application granted granted Critical
Publication of JP4272611B2 publication Critical patent/JP4272611B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行う映像処理方法及びその装置と、その映像処理方法の実現に用いられる映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体とに関する。
テレビ映像やビデオ映像といった動画像編集においては、動画像編集を効率的に行うことができるようにするために、映像の切り替わりや音声・音楽の有無やテロップの有無などを検出するメディア認識技術を用いて、入力した映像に対してインデックス作成処理(映像をシーンに区画し、各シーンについて代表画像を決定するなどの処理を行う)を施して、その処理結果を検出結果表示枠を使ってディスプレイに一覧表示することで、動画像編集者の作業を補助するための情報としている。
そして、動画像編集者は、このインデックス情報を参考にして、映像中の任意の区間をひとまとまりとしてトピックとし、トピックの内容などを表す情報を関連情報としてトピックに付与するという動画像編集機能を使って、映像以外の外部からのテキスト情報(台本や進行表など)を読み込んで、それを関連情報としてトピックに付与して表示するという編集作業を行っている。
一方、このような動画像編集の補助情報として、映像内の音声を認識し、テキスト化して表示するという技術が用いられている(例えば、特許文献1参照)。
また、映像のシナリオに時間に関する記述がない場合に、シナリオ中のシーンに記述されている文字数をシーン毎にカウントして、そのカウント値と実際に編集された映像の実時間長とから各シーンの予測時間長を算出することで、シナリオに記述されている完成予定の映像と、実際に編集された映像との間の時間のずれの対応をとるという技術も用いられている(例えば、特許文献2参照)。
特開2003−323437 特開2004−159107
このような従来技術を背景にして、映像内の音声を認識しテキスト化する技術を利用して、そのようにして認識したテキスト情報を関連情報としてトピックに付与するという方法が用いられている。
しかしながら、音声認識にはある程度雑音のない音声が必要であるものの、テレビ映像やビデオ映像といった映像に含まれる音声は映像内容により雑音が多かったり、多くの音が重なったりしていて音声認識には適さない場合がある。
映像に関連する音声情報として、その他に、映像とは別に生成される要約された情報がある。この要約情報の方が映像の関連情報として適している場合がある。
このようなことを背景にして、専用のキャスターがテレビ映像やビデオ映像の音声を聞きながら言い直したり、あらかじめ用意される原稿を読んだりした要約文章の音声を音声認識してテキスト情報にするというリスピーク方式が用いられている。
これから、このリスピーク方式を利用して、リスピークされた音声認識結果のテキスト情報を関連情報としてトピックに付与するという方法を用いることが考えられる。
しかしながら、リスピーク方式を利用する場合には、時間情報だけで、どのシーンとどの要約発話音声認識結果(リスピークされた音声の認識結果)とを結び付けるのかを判断することが難しいという問題がある。
すなわち、要約文章を発話する場合、発話者は、あるシーンを見て要点をまとめ、それから発話内容を決めて発話するという過程を踏むことになるので、そのシーンの後半部または終了後から、そのシーンについての発話が始まり、そのシーンの終了後も発話が継続するということが起こる。これから、時間情報だけで、どのシーンとどの要約発話音声認識結果とを結び付けるのかを判断することが難しいのである。
しかも、シーンと発話の時刻のずれる量は映像の内容や発話者の癖などにより必ず一定の値であるとは限らないことから、あらかじめ決めた規定量分だけ先にずらしておくという方法を用いることもできない。
また、動画像編集者が逐次探して情報を整合するという方法を用いることも考えられるが、時間的コストが大きいという問題がある。
また、特許文献2に記載されるように、テキスト情報と映像情報とを自動で整合するという技術もあるが、この技術では映像内の音声区間長とテキストの文字量とを比較して対応付けていることから、映像内の発話と同等のテキスト文章とが必要になり、映像内の音声と異なる音声を使用する場合や、あらかじめテキスト文章が準備できない場合には利用不可能であるという問題がある。
本発明はかかる事情に鑑みてなされたものであって、映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行うときに、少ない作業量で、かつ簡略な操作でもって、その関連付けを行うことができるようにする新たな映像処理技術の提供を目的とする。
この目的を達成するために、本発明の映像処理装置は、映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行うために、(イ)入力した音声を音声認識して、各音声区間についての文字情報を得るとともに、それらの音声区間の時間情報を得る音声認識手段と、(ロ)入力した映像を、ひとつの映像のまとまりとして定義されるトピック区間に区画するとともに、それらのトピック区間の時間情報を得るトピック区画手段と、(ハ)トピック区間に対応付けられるアイコンの一覧を表示し、音声認識結果の文字情報を音声区間毎に表示し、さらに、トピック区間の時間位置を示す情報と音声区間の時間位置を示す情報とを時間に沿った形で並べて表示する編集用画面を表示する編集用画面表示手段と、(ニ)編集用画面上で選択されたトピック区間と各音声区間とが時間的にオーバーラップする割合を求めて、それに応じて、そのトピック区間に対応付けられる音声区間を特定して、そのトピック区間についての表示情報とその特定した音声区間についての表示情報とを明示表示する明示表示手段とを備える。
この構成を採るときに、さらに、選択されたトピック区間に対応付けられる音声区間がユーザにより指定される場合に、その指定される音声区間がそのトピック区間に対応付けられることになるようにと、その音声区間の時間位置を修正する修正手段を備えることがある。
この修正手段を備えるときには、この修正手段の修正した音声区間に続く1つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量、あるいは、それまでに修正した音声区間の時間修正量の平均値を使って、処理対象の音声区間の時間位置を修正する手段を備えたり、この修正手段の修正した音声区間に続く1つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したもの、あるいは、それまでに修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したものの平均値を使って、処理対象の音声区間の時間位置を修正する手段を備えることがある。
そして、この修正手段を備えるときには、音声区間の時間位置が修正される場合に、それに合わせて、編集用画面上に表示されるその音声区間の時間位置を示す情報の表示位置を変更する手段を備えることがある。
以上の各処理手段が動作することで実現される本発明の映像処理方法はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてCPUなどの制御手段上で動作することにより本発明を実現することになる。
このように構成される本発明では、映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力すると、その入力した音声を音声認識して、各音声区間について文字情報を得るとともに、それらの音声区間の時間情報を得る。そして、その入力した映像を、ひとつの映像のまとまりとして定義されるトピック区間に区画するとともに、それらのトピック区間の時間情報を得る。
続いて、これらの処理に基づいて編集用画面を表示する。このとき表示する編集用画面は、トピック区間に対応付けられるアイコンの一覧を表示し、音声認識結果の文字情報を音声区間毎に表示し、さらに、トピック区間の時間位置を示す情報と音声区間の時間位置を示す情報とを時間に沿った形で並べて表示するものである。
この編集用画面の表示を受けて、ユーザは、編集用画面に表示されるトピック区間についての表示情報をクリックすることでトピック区間を選択することになるので、ユーザによりトピック区間が選択されると、その選択されたトピック区間と各音声区間とが時間的にオーバーラップする割合を求めて、それに応じて、そのトピック区間に対応付けられる音声区間を特定して、そのトピック区間についての表示情報とその特定した音声区間についての表示情報とを明示表示する。
この明示表示を受けて、ユーザは、選択したトピック区間と明示表示される音声区間との間の対応関係が所望のものであるのか否かを判断して、所望のものであることを判断するときには、次のトピック区間を選択する。
一方、ユーザは、選択したトピック区間と明示表示される音声区間との間の対応関係が所望のものでないことを判断するときには、選択したトピック区間に対応付けられる音声区間を選択することで指定することになるので、ユーザにより音声区間が指定されると、その指定された音声区間がそのトピック区間に対応付けられることになるようにと、その音声区間の時間位置を修正する。
そして、この修正に合わせて、修正した音声区間に続く1つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量、あるいは、それまでに修正した音声区間の時間修正量の平均値を使って、処理対象の音声区間の時間位置を修正したり、その修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したもの、あるいは、それまでに修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したものの平均値を使って、処理対象の音声区間の時間位置を修正する。
このようにして、本発明によれば、映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行うときに、少ない作業量で、かつ簡略な操作でもって、その関連付けを行うことができるようになる。
これから、本発明によれば、映像に対して、外部から取り入れた音声の認識結果を関連情報として自動的に付与することができるようになる。
そして、本発明によれば、このとき付与する音声情報が映像内に含まれる音声認識には適さない音声の認識結果ではなくて、外部から取り入れた音声認識に適した音声の認識結果であることから、映像に対して正確で、かつ的確な音声情報を付与することができるようになる。
そして、本発明によれば、この音声情報の付与にあたって、時間情報によって対応付けられた映像と音声情報とを明示表示することにより、ユーザが視覚的に確認しながら映像に対して音声情報を付与することができるようになるので、映像に対して効率的に音声情報を付与することができるようになる。
以下、実施の形態に従って本発明を詳細に説明する。
図1に、本発明を具備する動画像編集装置1の一実施形態例を図示する。
本発明を具備する動画像編集装置1は、カメラ2により撮影された映像と、マイク3により収集された音声とを入力として、入力した映像と入力した音声とを関連付ける処理を行うものであって、カメラ2により撮影された映像を入力する映像入力部10と、映像入力部10の入力した映像を格納する映像格納部11と、マイク3により収集された音声を入力する外部音声入力部12と、外部音声入力部12の入力した外部音声を音声認識して音声区間に区切る音声認識部13と、音声認識部13の認識結果を格納する認識音声格納部14と、時間を刻むタイマ15と、映像格納部11に格納される映像をひとつの映像のまとまりとして定義されるトピック区間に区画するトピック定義部16と、トピック定義部16の区画した各トピック区間についての情報を格納するトピック情報格納部17と、編集用画面を表示して、トピック区間と音声区間との対応付けを実行するトピック編集部18と、編集用画面などを表示するディスプレイ19とを備える。
次に、映像入力部10、外部音声入力部12、音声認識部13、トピック定義部16及びトピック編集部18の実行する処理について説明する。
〔1〕映像入力部10の処理
映像入力部10は、図2の処理フローに示すように、先ず最初に、ステップ10で、カメラ2により撮影された映像を入力し、続くステップ11で、タイマ15により与えられる時間情報を付加しつつ、入力した映像を映像格納部11に格納するという処理を実行する。
この映像入力部10の処理に従って、映像格納部11には、処理対象となる映像が格納されることになる。
〔2〕外部音声入力部12及び音声認識部13の処理
外部音声入力部12は、図3の処理フローに示すように、先ず最初に、ステップ20で、マイク3により収集された外部音声を入力し、続くステップ21で、入力した外部音声にタイマ15により与えられる時間情報を付加するという処理を実行する。
この外部音声入力部12の処理を受けて、音声認識部13が動作に入って、音声認識部13は、図3の処理フローに示すように、先ず最初に、ステップ22で、入力した外部音声を音声認識することで、各音声区間毎に、認識結果となる文字情報とその区間の時間情報とを生成し、続くステップ23で、その処理結果を認識音声格納部14に格納するという処理を実行する。
この外部音声入力部12及び音声認識部13の処理に従って、認識音声格納部14には、入力した外部音声の音声認識結果である各音声区間毎の文字情報・時間情報が格納されることになる。
ここで、音声認識部13としては、ディクテーションの音声認識機能(話した言葉すべてをできる限り忠実に認識する音声認識機能)を持つものが用いられ、例えば、“NTT技術ジャーナル,1999年12月号,14ページ「音声認識エンジンVoiceRexを開発」”や、“NTT技術ジャーナル,1999年12月号,22ページ「音声認識エンジンVoiceRexによる文書作成」”に記載される音声認識技術を用いることができる。
〔3〕トピック定義部16の処理
トピック定義部16は、図4に示すように、映像格納部11に格納される映像についてトピック区間を定義することで、その映像をトピック区間に区画して、各トピック区間についての映像情報とその区間の時間情報とをトピック情報格納部17に格納するという処理を実行する。
トピック定義部16は、このトピック区間の定義を実行するために、図4に示すように、例えば、インデックス作成機能とトピック定義機能とを備えている。
トピック定義部16は、このインデックス作成機能を使って、映像の切り替わりや音声・音楽の有無やテロップの有無などを検出することで、入力した映像に対してインデックス作成処理(映像をシーンに区画し、各シーンについて代表画像を決定するなどの処理を行う)を施して、例えば、図5に示すユーザインタフェース画面の右側部分にあるブラウザ画面100を使って、その処理結果を検出結果表示枠を使って一覧表示する。
このユーザインタフェース画面では、左側部分に示すように、動画像再生表示、音声波形表示、マーク表示を含む動画像の再生プレーヤー101が設けられており、ユーザは、この再生プレーヤー101を使って、選択したインデックスについての映像を参照しながら、ひとつの映像のまとまりとして定義されるトピック区間を定義するので、トピック定義部16は、トピック定義機能を使ってユーザと対話して、映像格納部11に格納される映像についてトピック区間を定義することで、その映像をトピック区間に区画して、各トピック区間についての映像情報とその区間の時間情報とをトピック情報格納部17に格納することになる。
このようにして、野球中継の映像を入力する場合の例で説明するならば、1回の表の攻撃、1回の裏の攻撃、2回の表の攻撃、・・・・・というような形でトピック区間が定義されて、それらの各トピック区間に含まれる映像の情報とその区間の時間情報とがトピック情報格納部17に格納されることになる。
〔4〕トピック編集部18の処理
トピック編集部18は、編集用画面を表示して、それを使ってユーザと対話することで、トピック定義部16により定義されたトピック区間と、音声認識部13により認識された音声区間との対応付けを実行する。
このトピック編集部18の処理に従って、映像に含まれる各トピック区間に対して、外部から取り入れた外部音声の認識結果を関連情報として自動的に付与することができるようになる。
図6に、トピック編集部18の表示する編集用画面の一例を図示する。
この図に示すように、トピック編集部18の表示する編集用画面は、トピック区間に対応付けられるアイコンの一覧を表示するトピック一覧表示部200と、外部音声の認識結果である文字情報を音声区間毎に表示する音声認識結果表示部201と、音声区間の時間位置を示すバーとトピック区間の時間位置を示すバーとを時間に沿った形で並べて表示するタイムライン表示部202とで構成されている。
なお、この図6では省略しているが、編集用画面には、トピック一覧表示部200に表示するアイコンの中からユーザによりアイコンが選択されると、その選択されたアイコンの指すトピック区間の映像を再生する再生プレーヤーが用意されている。
図7ないし図9に、トピック編集部18の実行する処理フローの一例を図示する。次に、この処理フローに従って、本発明について詳細に説明する。
トピック編集部18は、ユーザから処理要求があると、図7ないし図9の処理フローに示すように、先ず最初に、ステップ30で、編集用画面のトピック一覧表示部200に、各トピック区間のアイコンを一覧表示し、続くステップ31で、編集用画面の音声認識結果表示部201に、各音声区間の文字情報を表示する。
続いて、ステップ32で、編集用画面のタイムライン表示部202に、各トピック区間の時間位置を示すバーを表示し、続くステップ33で、編集用画面のタイムライン表示部202に、各音声区間の時間位置を示すバーを表示する。
このようにして、トピック編集部18は、ステップ30〜ステップ33の処理を実行することで、図6に示すような編集用画面を表示するのである。
この編集用画面の表示に応答して、ユーザが編集操作を入力してくるので、トピック編集部18は、続くステップ34で、この編集操作が入力されるのを待って、編集操作が入力されたことを検出すると、ステップ35に進んで、トピック区間をクリックする編集操作であるのかを判断する。
すなわち、ユーザは、処理対象となるトピック区間を選択する場合は、トピック一覧表示部200に表示するいずれかのアイコンをクリックするか、タイムライン表示部202に表示するトピック区間の時間位置を示すいずれかのバーをクリックするので、そのような編集操作であるのかを判断するのである。
このステップ35の判断処理に従って、ユーザの編集操作がトピック区間をクリックする編集操作であることを判断するときには、ステップ36に進んで、編集用画面で現在行っているハイライト表示(強調表示)を終了し、続くステップ37で、クリックされたトピック区間の時間位置の近傍にある音声区間を抽出する。
続いて、ステップ38で、その抽出した音声区間を処理対象として、クリックされたトピック区間と処理対象の音声区間との間の時間的な重なりを示す値を取得する。具体的には、図10中に示す時間長X,Y(音声区間がトピック区間を跨ぐ場合にはY1,Y2)で示す時間的な重なりを示す値を取得するのである。
続いて、ステップ39で、その取得したX,Y(Y1,Y2)と予め設定される閾値Zとを用いて、処理対象の音声区間の中から、クリックされたトピック区間に対応付けられるものを特定する。
次に、このステップ39で実行する特定処理について、図11に示す処理フローに従って説明する。
すなわち、トピック編集部18は、ステップ39の処理に入って、処理対象の音声区間の中から音声区間を1つ選択すると、図11の処理フローに示すように、先ず最初に、ステップ390で、その選択した音声区間の開始時間又は終了時間の少なくともどちらか一方がトピックの区間内にあるのかを判断して、トピック区間内にあることを判断するとき、すなわち、図10に示す音声区間αのような状態にあることを判断するときには、ステップ391に進んで、「X/(X+Y)≧Z」という関係が成立するのか否かを判断して、この関係が成立することを判断するときには(トピック区間とオーバーラップする時間が長いことを判断するときには)、ステップ392に進んで、選択した音声区間がトピック区間に対応付けられるものと判断し、この関係が成立しないことを判断するときには、ステップ394に進んで、選択した音声区間がトピック区間に対応付けられないものと判断する。
そして、ステップ390で、選択した音声区間の開始時間又は終了時間のどちらともがトピックの区間内にないことを判断するとき、すなわち、図10に示す音声区間βのような状態にあることを判断するときには、ステップ393に進んで、「X/(X+Y1+Y2)≧Z」という関係が成立するのか否かを判断して、この関係が成立することを判断するときには(トピック区間とオーバーラップする時間が長いことを判断するときには)、ステップ392に進んで、選択した音声区間がトピック区間に対応付けられるものと判断し、この関係が成立しないことを判断するときには、ステップ394に進んで、選択した音声区間がトピック区間に対応付けられないものと判断する。
このようにして、ステップ39では、ステップ38で取得したX,Y(Y1,Y2)と予め設定される閾値Zとを用いて、クリックされたトピック区間とそのトピック区間の時間位置の近傍にある音声区間とが時間的にオーバーラップする割合を求めて、それに応じて、それらの音声区間の中から、クリックされたトピック区間に対応付けられるものを特定するのである。
続いて、ステップ40で、ステップ39での特定処理に従って、クリックされたトピック区間に対応付けられる音声区間を特定できたのか否かを判断して、音声区間を特定できたことを判断するときには、ステップ41に進んで、編集用画面上に表示するクリックされたトピック区間についての表示情報と、その特定した音声区間についての表示情報とをハイライト表示する。
すなわち、図12に示すように、編集用画面のトピック一覧表示部200に表示する該当のトピック区間のアイコンと、編集用画面の音声認識結果表示部201に表示する該当の音声区間の文字情報と、編集用画面のタイムライン表示部202に表示する該当のトピック区間及び音声区間のバーとをハイライト表示するのである。
この編集用画面のハイライト表示に応答して、ユーザはトピック区間と音声区間との対応付けが所望のものであるのか否かを入力してくるので、トピック編集部18は、続くステップ42で、ユーザがハイライト表示する対応関係が所望のものであるということを入力してきたのか否かを判断して、ユーザが所望のものであるということを入力してきたことを判断するときには、次のトピック区間の処理を行うべくステップ34に戻る。
このようにして、ステップ37〜ステップ39の処理に従って、クリックされたトピック区間に対応付けられる所望の音声区間を特定できる場合には、次のトピック区間の処理を行うべく、そのままステップ34に戻るように処理するのである。
一方、ステップ42で、ユーザがハイライト表示する対応関係が所望のものではないということを入力してきたことを判断するときには、ステップ43に進んで、図13に示すように、音声区間のハイライト表示を終了する。
続いて、ステップ44で、編集用画面を使ってユーザと対話することで、クリックされたトピック区間に対応付けられる音声区間を選択し、続くステップ45で、その選択した音声区間の時間位置がクリックされたトピック区間に対応付けられることになるようにと、その音声区間の時間位置を修正する。
なお、このとき実行する時間位置の修正については、例えば、クリックされたトピック区間の最終時間位置と選択した音声区間の最終時間位置とが一致することになるようにと自動で行うようにしてもよいが、後述するスライド表示モードに設定しておいて、タイムライン表示部202に表示する音声区間の時間位置を示すバーに対して行われるユーザの移動操作に従って行うようにしてもよい。
また、このとき実行する時間位置の修正については、選択した音声区間の時間位置がクリックされたトピック区間の時間位置に完全に含まれることになるまで修正する必要はなく、上述した「X/(X+Y)≧Z」や「X/(X+Y1+Y2)≧Z」という関係が成立する状態になるまでの修正で足りるが、完全に含まれることになるまで修正を行うようにしてもよい。
続いて、ステップ46で、選択した音声区間に続く音声区間の時間位置を修正する。このとき実行する修正処理の詳細については後述するが、選択した音声区間に続く全ての音声区間の時間位置を修正する必要はなく、例えば、選択した音声区間の後ろに位置する1つの音声区間の時間位置だけを修正するようにしてもよい。
続いて、ステップ47で、クリックされたトピック区間に対応付けられる音声区間が確定したことに対応して、選択した音声区間についての表示情報をハイライト表示する。
続いて、ステップ48で、スライド表示モードに設定されているのか否かを判断して、スライド表示モードに設定されていることを判断するときには、ステップ49に進んで、ステップ45,46で行った時間位置の修正に合わせて、図14に示すように、タイムライン表示部202に表示する音声区間の時間位置を示すバーの表示位置をずらしてから、次のトピック区間の処理を行うべくステップ34に戻り、一方、スライド表示モードに設定されていないことを判断するときには、ステップ49の処理を行うことなく、次のトピック区間の処理を行うべくステップ34に戻る。
そして、ステップ40で、クリックされたトピック区間に対応付けられる音声区間を特定できないことを判断するときには、ステップ50に進んで、クリックされたトピック区間についての表示情報のみをハイライト表示してから、ユーザの指定する音声区間に従ってクリックされたトピック区間に対応付けられる音声区間を特定すべく、ステップ44〜ステップ49の処理に進む。
このようにして、ステップ37〜ステップ39の自動処理に従って、クリックされたトピック区間に対応付けられる音声区間を特定できるものの、その音声区間が所望のものでない場合と、クリックされたトピック区間に対応付けられる音声区間を特定できない場合には、ステップ44〜ステップ46の処理に従って、ユーザの指定する音声区間を選択して、その選択した音声区画がクリックされたトピック区間に対応付けられるものとなるようにと時間位置を修正するとともに、それに合わせて、その選択した音声区間に続く音声区間の時間位置を修正するように処理するのである。
そして、ステップ35で、ユーザの編集操作がトピック区間をクリックする編集操作でないことを判断するときには、ステップ51に進んで、ユーザの編集操作が処理の終了を指示する編集操作であるのか否かを判断して、処理終了指示の編集操作でないことを判断するときには、ステップ52に進んで、指示のある編集処理を実行してから、ステップ34に戻り、処理終了指示の編集操作であることを判断するときには、処理を終了する。
このようにして、トピック編集部18は、図6に示すような編集用画面を表示して、それを使ってユーザと対話することで、トピック定義部16により定義されたトピック区間と、音声認識部13により認識された音声区間との対応付けを実行するのである。
次に、ステップ46で実行する音声区間の時間位置の修正処理について説明する。トピック編集部18は、このステップ46では、ユーザの選択した音声区間に続く音声区間の時間位置を修正する処理を行う。
図15(a)(b)に、トピック編集部18がステップ46で実行する処理フローの一例を図示する。
トピック編集部18は、図15(a)に示す処理フローに従って、ユーザの選択した音声区間に続く音声区間を修正対象として、その修正対象の時間位置を修正する場合には、先ず最初に、ステップ460Aで、修正対象の音声区間より1つ前に位置する音声区間の修正時間を取得し、続くステップ461Aで、その取得した修正時間を用いて、修正対象の音声区間の時間位置を修正する。
すなわち、トピック編集部18は、図15(a)に示す処理フローに従って音声区間の時間位置を修正する場合には、図16(a)に示すような形態でもって、修正対象の音声区間の時間位置を修正するのである。
一方、トピック編集部18は、図15(b)に示す処理フローに従って、ユーザの選択した音声区間に続く音声区間を修正対象として、その修正対象の時間位置を修正する場合には、先ず最初に、ステップ460Bで、修正対象の音声区間より前に位置する音声区間の修正時間を取得して、それらの平均値を算出し、続くステップ461Bで、その算出した修正時間の平均値を用いて、修正対象の音声区間の時間位置を修正する。
すなわち、トピック編集部18は、図15(b)に示す処理フローに従って音声区間の時間位置を修正する場合には、図16(b)に示すような形態でもって、修正対象の音声区間の時間位置を修正するのである。
この図15(a)(b)に示す処理フローでは、音声区間の区間長について考慮していないが、図15(a)に示す処理フローの代わりに、図17(a)に示す処理フローのように、修正時間を音声区間長で正規して、その正規化した修正時間と修正対象の音声区間の区間長とに基づいて、修正対象の音声区間の時間位置を修正したり、図15(b)に示す処理フローの代わりに、図17(b)に示す処理フローのように、修正時間を音声区間長で正規してその平均値を算出して、その修正時間の平均値と修正対象の音声区間の区間長とに基づいて、修正対象の音声区間の時間位置を修正するようにしてもよい。
また、図15(a)(b)に示す処理フローでは、トピック区間の区間長について考慮していないが、図15(a)に示す処理フローの代わりに、図18(a)に示す処理フローのように、修正時間を音声区間に対応付けられるトピック区間の区間長で正規して、その正規化した修正時間と修正対象の音声区間に対応付けられるトピック区間の区間長とに基づいて、修正対象の音声区間の時間位置を修正したり、図15(b)に示す処理フローの代わりに、図18(b)に示す処理フローのように、修正時間を音声区間に対応付けられるトピック区間の区間長で正規してその平均値を算出して、その修正時間の平均値と修正対象の音声区間に対応付けられるトピック区間の区間長とに基づいて、修正対象の音声区間の時間位置を修正するようにしてもよい。
このようにして、本発明の動画像編集装置1によれば、映像と、その映像とは別に生成されてその映像に関連付けられる外部音声とを入力として、その映像とその外部音声とを関連付ける処理を行うときに、少ない作業量で、かつ簡略な操作でもって、その関連付けを行うことができるようになる。
本発明を具備する動画像編集装置の一実施形態例である。 映像入力部の実行する処理フローである。 外部音声入力部及び音声認識部の実行する処理フローである。 トピック定義部の実行する処理の説明図である。 トピック定義部の表示するユーザインタフェース画面の説明図である。 トピック編集部の表示する編集用画面の説明図である。 トピック編集部の実行する処理フローである。 トピック編集部の実行する処理フローである。 トピック編集部の実行する処理フローである。 2つの区間の間の時間的な重なりを示す値の説明図である。 トピック編集部の実行する処理フローである。 トピック編集部の表示する編集用画面の説明図である。 トピック編集部の表示する編集用画面の説明図である。 トピック編集部の実行する処理の説明図である。 トピック編集部の実行する処理フローである。 トピック編集部の実行する処理の説明図である。 トピック編集部の実行する処理フローである。 トピック編集部の実行する処理フローである。
符号の説明
1 動画像編集装置
10 映像入力部
11 映像格納部
12 外部音声入力部
13 音声認識部
14 認識音声格納部
15 タイマ
16 トピック定義部
17 トピック情報格納部
18 トピック編集部
19 ディスプレイ

Claims (12)

  1. 映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行う映像処理方法であって、
    上記音声を音声認識して、各音声区間についての文字情報を得るとともに、それらの音声区間の時間情報を得る第1の過程と、
    上記映像を、ひとつの映像のまとまりとして定義されるトピック区間に区画するとともに、それらのトピック区間の時間情報を得る第2の過程と、
    上記トピック区間に対応付けられるアイコンの一覧を表示し、上記文字情報を音声区間毎に表示し、さらに、上記トピック区間の時間位置を示す情報と上記音声区間の時間位置を示す情報とを時間に沿った形で並べて表示する編集用画面を表示する第3の過程と、
    上記編集用画面上で選択されたトピック区間と上記音声区間とが時間的にオーバーラップする割合を求めて、それに応じて、そのトピック区間に対応付けられる音声区間を特定して、そのトピック区間についての表示情報とその特定した音声区間についての表示情報とを明示表示する第4の過程とを備えることを、
    特徴とする映像処理方法。
  2. 請求項に記載の映像処理方法において、
    上記選択されたトピック区間に対応付けられる音声区間がユーザにより指定される場合に、その指定される音声区間がそのトピック区間に対応付けられることになるようにと、その音声区間の時間位置を修正する過程を備えることを、
    特徴とする映像処理方法。
  3. 請求項に記載の映像処理方法において、
    上記修正した音声区間に続く1つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量、あるいは、それまでに修正した音声区間の時間修正量の平均値を使って、処理対象の音声区間の時間位置を修正する過程を備えることを、
    特徴とする映像処理方法。
  4. 請求項に記載の映像処理方法において、
    上記修正した音声区間に続く1つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したもの、あるいは、それまでに修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したものの平均値を使って、処理対象の音声区間の時間位置を修正する過程を備えることを、
    特徴とする映像処理方法。
  5. 請求項ないしのいずれか1項に記載の映像処理方法において、
    上記音声区間の時間位置が修正される場合に、それに合わせて、上記編集用画面上に表示されるその音声区間の時間位置を示す情報の表示位置を変更する過程を備えることを、
    特徴とする映像処理方法。
  6. 映像と、その映像とは別に生成されてその映像に関連付けられる音声とを入力として、その映像とその音声とを関連付ける処理を行う映像処理装置であって、
    上記音声を音声認識して、各音声区間についての文字情報を得るとともに、それらの音声区間の時間情報を得る第1の手段と、
    上記映像を、ひとつの映像のまとまりとして定義されるトピック区間に区画するとともに、それらのトピック区間の時間情報を得る第2の手段と、
    上記トピック区間に対応付けられるアイコンの一覧を表示し、上記文字情報を音声区間毎に表示し、さらに、上記トピック区間の時間位置を示す情報と上記音声区間の時間位置を示す情報とを時間に沿った形で並べて表示する編集用画面を表示する第3の手段と、
    上記編集用画面上で選択されたトピック区間と上記音声区間とが時間的にオーバーラップする割合を求めて、それに応じて、そのトピック区間に対応付けられる音声区間を特定して、そのトピック区間についての表示情報とその特定した音声区間についての表示情報とを明示表示する第4の手段とを備えることを、
    特徴とする映像処理装置。
  7. 請求項に記載の映像処理装置において、
    上記選択されたトピック区間に対応付けられる音声区間がユーザにより指定される場合に、その指定される音声区間がそのトピック区間に対応付けられることになるようにと、その音声区間の時間位置を修正する手段を備えることを、
    特徴とする映像処理装置。
  8. 請求項に記載の映像処理装置において、
    上記修正した音声区間に続く1つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量、あるいは、それまでに修正した音声区間の時間修正量の平均値を使って、処理対象の音声区間の時間位置を修正する手段を備えることを、
    特徴とする映像処理装置。
  9. 請求項に記載の映像処理装置において、
    上記修正した音声区間に続く1つ又は複数の音声区間を処理対象として、その修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したもの、あるいは、それまでに修正した音声区間の時間修正量をトピック区間又は音声区間の時間長に基づいて正規化したものの平均値を使って、処理対象の音声区間の時間位置を修正する手段を備えることを、
    特徴とする映像処理装置。
  10. 請求項ないしのいずれか1項に記載の映像処理装置において、
    上記音声区間の時間位置が修正される場合に、それに合わせて、上記編集用画面上に表示されるその音声区間の時間位置を示す情報の表示位置を変更する手段を備えることを、
    特徴とする映像処理装置。
  11. 請求項1ないしのいずれか1項に記載の映像処理方法の実現に用いられる処理をコンピュータに実行させるための映像処理用プログラム。
  12. 請求項1ないしのいずれか1項に記載の映像処理方法の実現に用いられる処理をコンピュータに実行させるための映像処理用プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004327739A 2004-11-11 2004-11-11 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4272611B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004327739A JP4272611B2 (ja) 2004-11-11 2004-11-11 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004327739A JP4272611B2 (ja) 2004-11-11 2004-11-11 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2006140707A JP2006140707A (ja) 2006-06-01
JP4272611B2 true JP4272611B2 (ja) 2009-06-03

Family

ID=36621206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004327739A Expired - Fee Related JP4272611B2 (ja) 2004-11-11 2004-11-11 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4272611B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110199361B (zh) * 2017-01-12 2022-06-24 住友电装株式会社 线束

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008205719A (ja) * 2007-02-19 2008-09-04 Sony Corp 表示装置及び表示方法
JP5910379B2 (ja) * 2012-07-12 2016-04-27 ソニー株式会社 情報処理装置、情報処理方法、表示制御装置および表示制御方法
CN108174138B (zh) * 2018-01-02 2021-02-19 上海闻泰电子科技有限公司 视频拍摄方法、语音采集设备及视频拍摄***
JP6442102B1 (ja) * 2018-05-22 2018-12-19 株式会社フランティック 情報処理システム及び情報処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110199361B (zh) * 2017-01-12 2022-06-24 住友电装株式会社 线束

Also Published As

Publication number Publication date
JP2006140707A (ja) 2006-06-01

Similar Documents

Publication Publication Date Title
JP6044553B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP4659681B2 (ja) コンテンツタグ付け支援装置およびコンテンツタグ付け支援方法
JP2019148681A (ja) テキスト修正装置、テキスト修正方法およびテキスト修正プログラム
JP2005173569A (ja) オーディオ信号の分類装置及び方法
JP2004533756A (ja) 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示
US8856636B1 (en) Methods and systems for trimming video footage
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
US20120259630A1 (en) Display apparatus and voice conversion method thereof
JP4405418B2 (ja) 情報処理装置及びその方法
JP2006522363A (ja) 信頼水準の指示により音声認識の結果を訂正するためのシステム
JP6327745B2 (ja) 音声認識装置、及びプログラム
JP2007295218A (ja) ノンリニア編集装置およびそのプログラム
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP4272611B2 (ja) 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4496358B2 (ja) オープンキャプションに対する字幕表示制御方法
JP2007124368A (ja) セグメントメタデータ作成装置およびセグメントメタデータ作成方法
JP2007208651A (ja) コンテンツ視聴装置
US11689380B2 (en) Method and device for viewing conference
JP4342529B2 (ja) オーサリング支援装置、オーサリング支援方法及びプログラム、並びにオーサリング情報共有システム
CA2972051C (en) Use of program-schedule text and closed-captioning text to facilitate selection of a portion of a media-program recording
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
JP2008118688A (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2007078985A (ja) データ検索装置及びその制御方法
US20230064035A1 (en) Text-Based Video Re-take System and Methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081215

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090227

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4272611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees