JP2007078985A

JP2007078985A - データ検索装置及びその制御方法

Info

Publication number: JP2007078985A
Application number: JP2005265502A
Authority: JP
Inventors: Yoshihiro Kurakata; 恵弘倉片
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-09-13
Filing date: 2005-09-13
Publication date: 2007-03-29
Anticipated expiration: 2025-09-13
Also published as: JP4235635B2

Abstract

【課題】指定した人物が喋った内容が含まれるデータを効率よく検索可能とする。
【解決手段】字幕データ比較部１１５は、話者を示す話者情報１０６及び当該話者の台詞の内容をテキスト化した字幕のテキスト情報１０７のデータの組のうち、入力された検索条件に合致するデータの組みを判定し、音声データ検索部１１８及び動画像データ検索部１１９は、判定されたデータの組みに対応する位置データに基づいて、その位置データにより示される位置のデータを検索対象データから検索する。
【選択図】図１

Description

本発明は、検索対象データ内から検索条件を指定して所望のデータを検索可能なデータ検索装置及びその制御方法に関するものである。

近年、ビデオカメラの記録方法がアナログ形式からデジタル形式になるとともに、ユーザによるビデオカメラ本体またはパーソナルコンピュータを用いた各種動画編集が行われるようになってきた。動画編集を行う際、動画データの一部分を切り取り、コピー、貼り付けが頻繁に行われている。これらの操作を行う為に、動画の切り出し部分などの先頭を検索しマークを付けるといった作業が必要である。また、動画編集を行う際、被写体が話者となっている時に字幕スーパや吹き出し等の効果を付けることも行われている。

このように動画データ内のシーンに対して所望のシーンを検索して、編集操作を行っている。その一つの方法として、話者の台詞をキーワードとして検索する方法が挙げられる。例えば、「おはようございます。」の挨拶シーンを検索する際、「おはようございます。」を指定することで、動画データ内の挨拶シーンを検索することができる。

このようなシーン検索方法として、ビデオコンテンツファイル生成システムが作成したビデオコンテンツファイルに対して、所望の検索キーワードを入力し、字幕テキストファイル内を検索する方法が特許文献１に提案されている。

また、音声で入力したキーワードに対して、音声パターンで検索する方法が特許文献２に提案されている。

特開２００２−３７４４９４号公報特開２００１−２９０４９６号公報

しかしながら、従来技術において音声や字幕テキスト内のキーワードによる検索を行う場合、話者の特定ができず、特に動画データの中に多数の人が同じ台詞（キーワード）を喋っている場合に多数の検索結果が出力され、話者の特定に時間がかかるため効率が悪い。

そこで、本発明の目的は、指定した人物が喋った内容が含まれるデータを効率よく検索可能とすることにある。

本発明のデータ検索装置は、人物を識別するための識別用データを用いて、検索対象データに含まれる前記人物の人物に係るデータから前記人物を識別し、前記人物を示すデータを生成する第１のデータ生成手段と、前記人物に係るデータから前記人物の音声データを抽出し、抽出した音声データから前記人物の発声内容を示すデータを生成する第２のデータ生成手段と、前記検索対象データ内における前記人物に係るデータの位置を示す位置データを生成する第３のデータ生成手段と、前記第１のデータ生成手段及び前記第２のデータ生成手段により生成されたデータの組のうち、入力された検索条件に合致するデータの組みを判定する判定手段と、前記判定手段により判定されたデータの組みに対応する位置データに基づいて、その位置データにより示される位置のデータを前記検索対象データから検索するデータ検索手段とを有することを特徴とする。
本発明のデータ検索装置の制御方法は、データを検索するためのデータ検索装置の制御方法であって、人物を識別するための識別用データを用いて、検索対象データに含まれる前記人物の人物に係るデータから前記人物を識別し、前記人物を示すデータを生成する第１のデータ生成ステップと、前記人物に係るデータから前記人物の音声データを抽出し、抽出した音声データから前記人物の発声内容を示すデータを生成する第２のデータ生成ステップと、前記検索対象データ内における前記人物に係るデータの位置を示す位置データを生成する第３のデータ生成ステップと、前記第１のデータ生成ステップ及び前記第２のデータ生成ステップにより生成されたデータの組のうち、入力された検索条件に合致するデータの組みを判定する判定ステップと、前記判定ステップにより判定されたデータの組みに対応する位置データに基づいて、その位置データにより示される位置のデータを前記検索対象データから検索するデータ検索ステップとを含むことを特徴とする。
本発明のプログラムは、前記のデータ検索装置の制御方法をコンピュータに実行させることを特徴とする。
本発明のコンピュータ読み取り可能な記録媒体は、前記のプログラムを記録したことを特徴とする。

本発明によれば、人物を示すデータ及び当該人物の発声内容を示すデータの組みから検索条件に合致するデータの組みを判定し、そのデータの組みに対応する位置からデータを検索するように構成している。従って、人物とともにその人物の台詞を指定することで、指定した人物が喋った内容が含まれるデータを効率よく検索することが可能となる。

以下、本発明を適用した好適な実施形態を、添付図面を参照しながら詳細に説明する。

−第１の実施形態−
先ず、本発明の第１の実施形態について説明する。図１及び図２は、本発明の第１の実施形態に係る話者特定検索装置の構成を示すブロック図である。１００は動画データの内部構造を示している。動画データ１００は、話者データ１０９、画像データ１０１、音声データ１０２及び字幕データ１０３により構成されており、画像データ１０１、音声データ１０２、字幕データ１０３が時系列に並んで構成されている。図１又は図２に示す動画データ１００に含まれるデータのうち、画像データ１０１及び音声データ１０２はオリジナルのデータであり、話者データ１０９及び字幕データ１０３は画像データ１０１及び音声データ１０２を解析することによって生成され、図１又は図２に示すように所定の位置に後に埋め込まれるデータである。なお、ここで示す動画データの内部構造は一例であり、本発明に制限を与えるものではない。

字幕データ１０３は、話者情報１０６、字幕のテキスト情報１０７及び発声開始情報１０８で構成されている。話者データ１０９は、オリジナルの動画データ１００内の話者に関するデータが保存されている。話者データ１０９には、例えば話者を識別するためのデータ（例えば、話者の名称を示すデータ等）、顔識別用特徴量データ、顔の画像イメージデータ及び音声識別用特徴量データ等が話者毎に対応付けられて格納されている。話者データ１０９は話者データ読み出し部１２０により読み出され、動画データ内に存在する話者の一覧が取得できる。本実施形態では、動画データ１００中に話者データ１０９が含まれる構成を採用しているが、他の実施形態として動画データ１００中ではなく、例えば話者特定検索装置内部又は外部の記録媒体内に保持され、必要に応じて読み込まれて該当する処理において使用されるような構成であってもよい。

字幕データ１０３は、話者情報１０６、テキスト情報１０７及び発声開始情報１０８により構成される。話者情報１０６は、上記顔識別用特徴量データを用いて画像データから話者を特定した場合や上記音声識別用特徴量データを用いて音声データから話者を特定した場合に生成される当該話者を識別するためのデータである。テキスト情報１０７は、今回特定された話者の音声データが音声識別用特徴量データを用いて識別された場合に、その音声データを解析してテキスト化したテキストデータである。発声開始情報１０８は、今回特定された話者の音声データが識別された時点の時刻情報等から成る情報である。

１１０は字幕データ読み出し部であり、動画データ１００から字幕データ１０３のみを順次読み出す。読み出された字幕データ１０３は話者特定取得部１１１、テキスト取得部１１２、発声開始情報取得部１１３へ送られ、それぞれ当該字幕の話者情報１０６、字幕のテキスト情報１０７、字幕の発声開始情報１０８が取得される。ここで取得された話者情報１０６と字幕のテキスト情報１０７は字幕データ比較部１１５へ送られる。

図３は字幕データの一例を示したものである。１１０の字幕データ読み出し部は、動画データ１００内から字幕データ１０３のみを読み出す。読み出した字幕データ１０３の例が１２１及び１２２である。字幕データ１２２を例に以下の説明を行う。字幕データ読み出し部１１０に読み出された字幕データ１２２は、話者特定取得部１１１へ送られ、話者情報１０６が読み取られる。本実施形態では話者情報１０６は、Speakerタグで囲われている部分である。字幕データ１２２からは<Speaker>….</Speaker>で囲われている"Ｂ子"が話者であることが取得される。

また、字幕データ読み出し部１１０に読み出された字幕データ１２２は、テキスト取得部１１２へ送られ、字幕のテキスト情報１０７が読み取られる。本実施形態では字幕のテキスト情報１０７は、SubTitleタグで囲われている部分である。字幕データ１２２からは<SubTitle>….</SubTitle>で囲われている"おはようございます。"が字幕テキストとして取得される。

また、字幕データ読み出し部１１０に読み出された字幕データ１２２は、発声開始情報取得部１１３へ送られ、発声開始情報１０８が読み取られる。本実施形態では発声開始情報１０８は、StartTimeCodeタグで囲われている部分である。字幕データ１２２からは<StartTimeCode>….</StartTimeCode>で囲われている"T01:12:03 11"が発声始タイムコードとして取得される。本実施形態では、字幕データはタグを用いて作成しているが、他の形式であっても良い。

１１４は検索条件入力部であり、話者及び話者の発声した内容を検索条件として入力する。話者の入力手段としては、人物名の選択や顔の選択、画像からの選択であってもよい。話者の発声した内容入力手段としては、テキスト入力や音声入力であっても良い。入力された検索条件は、字幕データ比較部１１５へ送られる。

字幕データ比較部１１５では、検索条件と話者情報１０６と字幕のテキスト情報１０７を比較し、一致している字幕データ１１６を検索し、特定する。検索条件入力部１１４で、話者が"Ｂ子"、話者の発声した内容が"おはようございます。"であるとき、字幕データ１２１は話者情報が"Ａ子"であるため不一致字幕データとして読み飛ばされ、字幕データ１２２が一致したものと判断され、一致字幕データ１１６となる。一致した字幕データ１１６は、字幕データ１２２から取得された発声開始情報１０８を一致字幕データの発声開始情報１１７として組み合わせて使用される。

一致字幕データの発声開始情報１１７は、発声開始のタイムコードとして音声データ検索部１１８及び動画像データ検索部１１９へ送られる。図２は、音声データ検索部１１８及び動画像データ検索部１１９の動作を説明するための図である。

字幕データ１２２の例において、発声開始のタイムコードとして"T01:12:03 11"が音声データ検索部１１８及び動画像データ検索部１１９へ送られる。音声データ検索部１１８では、動画データ１００内から音声データ１０２のみを読み込み当該タイムコードの位置を検索する。図１又は図２では（１）に示す位置が検索された音声のデータ位置である。動画像データ検索部１１９では、動画データ１００内から画像データ１０１のみを読み込み当該タイムコードの位置を検索する。図１又は図２では（２）に示す位置が検索された画像のデータ位置である。

図４は字幕表示の例である。２００は画面データで、Ｂ子２０１が映っており、Ｂ子が「おはようございます。」を発声している状況である。字幕データ１２２に従って表示している字幕が２０２である。

図５は、話者特定検索装置上の検索ソフトウェアで表示される画面構成例を示す図である。３００はメイン操作画面である。３０１は画像データの表示画面である。３０２は画像表示画面３０１に表示されている画像データのタイムコードである。３０５はダイヤルであり、３０３のジョグボタン、３０４のシャトルボタンにより動作が変わる。３０３のジョグボタンが押下されているとダイヤル３０５はジョグダイヤルとして機能し、回転方向にコマ送りが可能であり回転速度によりコマ送り速度を変化させる。３０４のシャトルボタンが押下されているとダイヤル３０５はシャトルダイヤルとして機能し、回転方向及び回転角によりコマ送り方向と速度を変化させる。３０６は前方のマークポイントまでの移動ボタン、３０７は巻き戻しボタン、３０８は再生ボタン、３０９は早送りボタン、３１０は後方のマークポイントまでの移動ボタン、３１１は検索ボタンである。

図６は、メイン操作画面とともに、検索ボタン３１１を押下した際に表示される検索条件入力画面３２０を示す図である。３２１は話者を選択するプルダウンであり、話者を選択する。３２２は検索する台詞を入力する画面である。３２３は前方検索ボタンであり、現在のタイムコードより過去に遡って検索を実行する。３２４は後方検索ボタンであり、現在のタイムコードより後の検索を実行する。３２５はキャンセルボタンであり検索条件入力を中止する。

第１の実施形態におけるソフトウェアによる処理の流れを図７のフローチャートを用いて説明する。ここでは、字幕データ１０３を含んだ動画データ１００内からＢ子が「おはようございます。」を発声したシーンを検索する手順を例に挙げて説明する。

図５の検索ソフトウェアの画面３００で検索ボタン３１１を押下するとシーン検索ステップ（ステップＳ１００）に入る。シーン検索ステップ（ステップＳ１００）に入ると、図６の検索条件入力画面３２０が表示される。

続いて話者指定ステップ（ステップＳ１０１）が実行される。話者指定ステップ（ステップＳ１０１）では、動画データ１００から話者データ読み出し部１２０により話者データ１０９を読み出し、動画データ１００内の話者一覧を取得する。取得された話者の一覧は話者選択プルダウン３２１により選択することができる。本実施形態の話者プルダウン３２１では話者データ１０９に含まれる話者名称が表示され、話者名称により話者を選択する。話者選択時には、話者名称以外でも話者の顔を表示して選択することも可能である。図６の例では"Ｂ子"を選択している。

話者を指定した後、話者の発声内容入力ステップ（ステップＳ１０２）が実行される。話者内容入力ステップ（ステップＳ１０２）では、話者の発声した台詞を台詞入力画面３２２から入力する。図６の例では"おはようございます。"を指定している。これらのステップにより検索条件として"Ｂ子"が発声した"おはようございます。"が設定され、前方検索ボタン３２３又は後方検索ボタン３２４を押下することで同条件を字幕データとして持つシーンが検索される。本実施形態では話者指定ステップ（ステップＳ１０１）、発声内容入力ステップ（ステップＳ１０２）の順に検索条件の設定を行っているが、順序は入れ替わっても良い。

前方検索ボタン３２３又は後方検索ボタン３２４が押下されることで検索が開始される。検索では、先ず字幕データ読み出しステップ（ステップＳ１０３）が実行される。字幕データ読み出しステップ（ステップＳ１０３）では、字幕データ読み出し部１１０により動画データ１００から字幕データ１０３のみを順次読み出す。読み出された字幕データ１０３は話者特定取得ステップ（ステップＳ１０４）において話者特定取得部１１１で話者情報１０６が取得される。例えば字幕データ１２１に対しては"Ａ子"、字幕データ１２２に対しては"Ｂ子"が話者として取得される。取得された話者は話者一致ステップ（ステップＳ１０５）において話者指定ステップ（ステップＳ１０１）で指定された検索対象の話者と比較される。図６の例では検索対象の話者として"Ｂ子"が指定されているので、字幕データ１２１は不一致、字幕データ１２２は一致と判定される。不一致の場合は次の字幕データ読み出しステップ（ステップＳ１０３）へ戻る。一致の場合は次のテキスト取得ステップ（ステップＳ１０６）へ移行する。

テキスト取得ステップ（ステップＳ１０６）では、字幕データ読み出しステップ（ステップＳ１０３）で読み出された字幕データ１０３よりテキスト取得部１１２によって字幕のテキスト情報１０７を取得する。例えば字幕データ１２１に対しては"おはようございます。"、字幕データ１２２に対しては"おはようございます。"が字幕のテキストとして取得される。取得された字幕のテキストは、テキスト一致ステップ（ステップＳ１０７）において発声内容入力ステップ（ステップＳ１０２）で指定された検索対象の台詞と比較される。図６の例では検索対象の台詞として"おはようございます。"が指定されているので、字幕データ１２２は一致と判定される。不一致の場合は次の字幕データ読み出しステップ（ステップＳ１０３）へ戻る。一致の場合は字幕データ１２２が一致字幕データ１１６として発声開始情報取得ステップ（ステップＳ１０８）へ渡される。

発声開始情報取得ステップ（ステップＳ１０８）では、字幕データ読み出しステップ（ステップＳ１０３）で読み出された字幕データ１０３より発声開始情報取得部１１３によって発声開始情報１０８を取得する。例えば字幕データ１２１に対しては"T01:11:50 03"、字幕データ１２２に対しては"T01:12:03 11"が発声開始情報として取得される。ここでは、"Ｂ子"の字幕データ１２２が一致字幕データ１１６として送られたので、一致した発声開始情報１１７として"T01:12:03 11"が取得される。取得された発声開始情報１１７は音声データ検索ステップ（ステップＳ１０９）へ渡される。

音声データ検索ステップ（ステップＳ１０９）では、動画データ１００から音声データ検索部１１８により音声データ１０２のみを順次読み出し、一致した発声開始情報１１７で指定される位置（１）を検索する。ここでは一致した発声開始情報１１７として"T01:12:03 11"が入力されているので、タイムコード"01:12:03 11"の音声データ位置が取得される。

また、発声開始情報取得ステップ（ステップＳ１０８）で取得された発声開始情報１１７は動画像データ検索ステップ（ステップＳ１１０）へ渡される。発声開始情報取得ステップ（ステップＳ１０８）では、動画データ１００から動画像データ検索部１１９により画像データ１０１のみを順次読み出し、一致した発声開始情報１１７で指定される位置（２）を検索する。ここでは一致した発声開始情報１１７として"T01:12:03 11"が入力されているので、タイムコード"01:12:03 11"の画像データ位置が取得される。

検索結果ＯＫステップ（ステップＳ１１１）では検索された音声データ及び画像データが画像の表示画面３０１及びタイムコード表示３０２に表示され、検索結果の確認が行われる。この検索結果で良ければ検索は終了し、更に検索を行う場合には３０６は前方のマークポイントまでの移動ボタンまたは３１０は後方のマークポイントまでの移動ボタンを押下することで次の字幕データを読み出し同一条件での検索を繰り返すことが可能である。

ここで示したフローチャートは一つの実施形態であり本発明を制限するものではない。話者一致ステップ（ステップＳ１０５）、テキスト一致ステップ（ステップＳ１０７）の順序が変わっても良く、また音声データ検索ステップ（ステップＳ１０９）と動画像データ検索ステップ（ステップＳ１１０）の順序が変わってもよい。

また、本実施形態では１件毎に検索を実施しているが、動画データ１００内から検索条件に合致する字幕データを全て検索し、検索結果を画像の表示画面３０１に複数のインデックス画像としてマルチ表示することも可能である。

また、本実施形態では話者指定ステップ（ステップＳ１０１）にて話者を１人に限定しているが、２人以上の話者を指定して検索する事も可能である。また、本実施形態では発声内容入力ステップ（ステップＳ１０２）にて一つの台詞を指定しているが、複数の台詞を指定して検索する事も可能である。

さらに、本実施形態ではテキスト一致ステップ（ステップＳ１０７）にて検索条件と字幕データの字幕テキストが一致していることを判定しているが、正規表現やあいまい検索等既知の検索方法に拡張する事も可能である。

このように本実施形態によれば、特定話者の特定の台詞で画像を検索することが容易にできるため、シーン検索が効率よく行うことが可能となる。

−第２の実施形態−
次に、本発明の第２の実施形態について説明する。図９は、本発明の第２の実施形態に係る撮像装置の構成を示す図である。図９に示す撮像装置では一般的にキーボードなどの文字入力手段が無いため、画像による検索条件の指定が必要である。本実施形態ではそのような場合の解決例を示している。

図９の撮像装置において、４００は撮像装置本体（操作面）である。撮像装置はレンズユニット（図示せず）、撮像ユニット（図示せず）、信号処理ユニット（図示せず）、記録媒体（図示せず）を持っており、レンズユニットを通して取り込まれる画像を撮像ユニットでキャプチャし、信号処理ユニットによりデジタル信号処理を行い、背面の液晶表示装置４０１へ表示している。また、録画ボタン４０５を押下することでレンズユニットを通して取り込まれる画像を撮像ユニットでキャプチャし、信号処理ユニットによりデジタル信号処理を行った画像データを記録媒体へ格納する。以下では、図１又は図２に示す動画データ１００の構成図を流用して本実施形態の説明を行なう。

図９の撮像装置４００において、４０１は撮影画像や再生画像の表示、各種設定画面の表示用の液晶表示装置である。４０２は表示されている画像データのタイムコードを示している。４０３は選択用の操作部材であり、上下左右方向のボタンにより構成されている。４０４は設定ボタンで選択用操作部材４０３により選択された結果を決定する際に押下する。４０５は録画ボタンであり、録画の開始、停止を行う。４０６は前方のマークポイントまでの移動ボタン、４０７は巻き戻しボタン、４０８は再生ボタン、４０９は早送りボタン、４１０は後方のマークポイントまでの移動ボタン、４１１は検索ボタン、４１２はメニューボタンである。４１３は音声入力用のマイクである。

本実施形態においても動画データ１００は画像データ１０１、音声データ１０２、話者データ１０９及び字幕データ１０３によって構成される。字幕データ１０３のデータ構成及びそれを生成するための処理は上述した第１の実施形態と同様であり、話者データ１０９も第１の実施形態と同様に、例えば話者を識別するためのデータ（例えば、話者の名称を示すデータ等）、顔識別用特徴量データ及び音声識別用特徴量データ等が話者毎に対応付けられて格納されている。話者データ１０９は、図１又は図２に示すように動画データ１００内に含まれる構成でもよいし、撮像装置の内部又は外部の記録媒体内に保持され、必要に応じて読み込まれて該当する処理において使用されるような構成であってもよい。

ところで、音声識別用特徴量データを用いて音声データから話者が特定され、字幕データ１０３を作成するような場合、音声データから話者は特定されるが、当該音声データの台詞を発言した話者が画面内に存在せず、その音声データに対応する画像データ内に当該話者の画像データが含まれていない場合がある。

本実施形態では、上記のような場合に鑑み、字幕データ１０３を作成する対象となる話者が画面内に存在するか否か（対応する画像データから当該話者が特定できるか否か）を示す画面内存在情報を生成している。これは、音声識別用特徴量データのみによって話者を特定することができ、顔識別用特徴量データによっては当該話者を特定できなかった場合、該当する音声データの台詞を発言した話者が画面内に存在しない旨の画面内存在情報が生成される。一方、字幕テキスト情報１０７が生成される場合（即ち、少なくとも音声識別用得量量データによって音声データから話者が特定され、当該音声データが解析されてテキスト化された場合）であって、それ以外の場合には、当該音声データの台詞を発言した話者が画面内に存在する旨の画面内存在情報が生成される。

図８に、このようにして作成された字幕データ１０３の一例を示す。Speakerタグで囲われている部分は話者情報に対応する話者名称である。話者名称は、話者データ１０９内の例えば上述した話者を一意に特定するための識別情報によって生成される。後にこれを話者名に更新することも可能である。Existenceタグで囲われている部分は画面内存在情報を示している。字幕データ１３１では<Existence>….</Existence>で囲われた内容が"Y"なので、話者が画面内に存在している。字幕データ１３３では<Existence>….</Existence>で囲われた内容が"N"なので、話者が画面内に存在しない。SubTitleタグで囲われている部分は話者が発声している字幕のテキストである。StartTimeCodeタグで囲われている部分は話者が発声を開始したタイムコードであり、発生開始情報に対応する。字幕データ１３１は話者が"Ａ子"でタイムコード"T01:11:50 03"で示されるフレーム番号の画像にＡ子が映っており、その位置から"おはようございます。"を発声していることを示している。字幕データ１３２は話者が"Ｂ子"でタイムコード"T01:12:03 11"で示されるフレーム番号の画像にＢ子が映っており、その位置から"おはようございます。"を発声していることを示している。字幕データ１３３は話者が"Ｃ子"でタイムコード"T01:12:23 10"で示されるフレーム番号の画像にＣ子が映っておらず、その位置から"今日はいい天気ですね。"を発声していることを示している。

図１０は撮像装置４００における検索条件指定画面の一例を示す図である。４２０は検索対象話者の一覧表示である。４２１は選択中の話者を示す話者選択表示枠である。４２２はＡ子の顔、４２３はＢ子の顔、４２４はＣ子の顔である。本画面では、選択用の操作部材４０３を用いて話者の選択を行う。４２５は検索する台詞の表示である。

図１１は撮像装置４０１における検索条件指定画面のもう一つの例を示す図である。４３０はＡ子であり、４３１はＡ子が話者として認識されていることを示す登録話者枠である。４３２はＢ子であり、４３３はＢ子が話者として認識されており且つ検索対象の話者として選択されていることを示す選択話者枠である。４３４はＣ子であり、４３５はＣ子が話者として認識されていることを示す登録話者枠である。４３６は検索する台詞の表示である。

図１０及び図１１の検索画面はメニューより選択して切り替えることが可能である。また、検索ボタン４１１を一度押下することで図１０の検索画面が表示され、更に検索ボタン４１１を押下することで図１１の検索画面を表示することも可能である。

図１２は本実施形態における処理の流れを示したフローチャートである。検索ボタン４１１を押下すると検索モードステップ（ステップＳ２０１）に入る。検索モードステップ（ステップＳ２０１）では、話者一覧選択画面（図１０）または画像からの話者選択画面（図１１）の何れかを表示する。本実施形態では、メニューボタン４１２を操作し、話者選択方法指定メニュー（図示せず）により最初に表示される画面を設定している。

先ず、検索モードステップ（ステップＳ２０１）にて、話者一覧選択画面（図１０）が表示される場合を説明する。話者選択ステップ（ステップＳ２０２）では話者データより話者の顔の画像イメージデータを取得し、登録されている話者の一覧を表示する。本実施形態では話者としてＡ子、Ｂ子、Ｃ子の３人が登録されている。図１０で４２２はＡ子の顔、４２３はＢ子の顔、４２４はＣ子の顔である。話者データに話者の名称が登録されている場合には、顔の右隣に名称が表示されても良い。話者の一覧が表示されると、選択用操作部材４０３により話者選択表示枠４２１を移動させて話者を選択することができる。また、４人以上の話者が登録されている場合には、選択用操作部材４０３により話者選択表示枠４２１が移動すると共に話者一覧が検索対象話者一覧表示４２０内でスクロールする。検索対象の話者を選択し設定ボタン４０４で決定する。図１０ではＢ子が話者として選択されている状態を示している。話者が決定すると話者特定ステップ（ステップＳ２０４）へ進み、選択された話者の話者データが取得される。

話者特定ステップ（ステップＳ２０４）により話者データが取得されると、発声内容入力ステップ（ステップＳ２０５）となる。本実施形態では発声内容入力ステップ（ステップＳ２０５）では音声によるテキスト入力を行う。音声入力用マイク４１３に向かい、検索したい台詞を喋ると音声認識が行われ自動的にテキスト化されて検索する台詞表示４２５へ入力される。図１０では"おはようございます。"が発声内容として指定されている。正しく入力されない場合には、選択用操作部材４０３の左ボタンを押下し、検索する台詞表示４２５の文字を削除し、入力し直すことも可能である。発声内容入力が正しく入力された場合には設定ボタン４０４で決定する。これらのステップにより検索条件として"Ｂ子"が発声した"おはようございます。"が設定される。

次に、検索モードステップ（ステップＳ２０１）にて、画像データからの話者選択画面（図１１）が表示される場合を説明する。話者選択ステップ（ステップＳ２０２）では話者データより話者の識別用顔特徴量データを取得し、話者検索ステップ（ステップＳ２０３）により液晶表示装置４０１に表示されている画像データから顔検出を行い、話者データに登録されている話者の顔の画像データに登録話者枠を表示する。

図１１の例では、話者検索ステップ（ステップＳ２０３）では、液晶表示装置４０１にＡ子４３０、Ｂ子４３２、Ｃ子４３４の３人が表示されており、それぞれの顔の画像データから顔検出を行い、顔特徴量を算出し、話者データに登録されている話者の顔特徴量データと比較を行う。比較した結果、それぞれ話者登録されているので顔の画像データに話者登録枠が表示され（Ａ子の登録話者枠４３１、Ｂ子の選択話者枠４３２、Ｃ子の登録話者枠４３５）、顔の画像データと各話者の話者データとが関連付けされる。話者の顔に登録話者枠、選択話者枠が表示されると、選択用操作部材４０３により選択話者枠を移動させることができる。話者の選択範囲は液晶表示装置４０１に表示されている話者からのみ選択されるため、図１１の場合に４人以上話者が登録されている場合であっても、上記３人のみから話者を選択する。検索対象の話者の顔の画像データが液晶表示装置４０１内に存在しない場合には、巻き戻しボタン４０７、早送りボタン４０９により表示画像を変えることで、他の話者の顔の画像データが映っている状態にすることにより、話者データに登録されている話者であれば、同じく顔の画像データに登録話者枠が表示され同じく検索の対象とすることができる。

利用者は、検索対象の話者を選択し設定ボタン４０４で決定する。図１１ではＢ子が話者として選択されている状態を示している。話者が決定すると話者特定ステップ（Ｓ２０４）へ進み、選択された話者の話者データが検索条件として取得される。

話者特定ステップ（ステップＳ２０４）により話者データが取得されると、発声内容入力ステップ（ステップＳ２０５）となる。本実施形態では発声内容入力ステップ（ステップＳ２０５）では音声によるテキスト入力を行う。音声入力用マイク４１３に向かい、検索したい台詞を喋ると音声認識が行われ自動的にテキスト化されて検索する台詞表示４３６へ入力される。図１１では"おはようございます。"が発声内容として指定されている。正しく入力されない場合には、選択用操作部材４０３の左ボタンを押下し、検索する台詞表示４３６の文字を削除し、入力し直すことも可能である。発声内容入力が正しく入力された場合には設定ボタン４０４で決定する。これらのステップにより検索条件として"Ｂ子"が発声した"おはようございます。"が設定される。

検索条件が発声内容入力ステップ（ステップＳ２０５）で決定すると、以下の動作は第１の実施形態の字幕データ読み出しステップ（ステップＳ１０３）以降の動作と同様である。

第２の実施形態では、図８に示すように話者の画面内存在を示すデータ（画面内存在情報）が字幕データ１０３に含まれている。検索のオプションとして話者の画面内存在を指定することで、話者と話者の画面内存在と話者の台詞でシーンを検索することが可能である。この場合、話者特定ステップ（ステップＳ２０４）にて、話者の画面内存在の有無を指定する。操作の例として選択用操作部材４０３の上下ボタンにより画面内存在の有無を選択し、設定ボタン４０４で決定する。

話者の画面内存在情報の読み出しは、字幕データ１０３を字幕データ読み出しステップ（ステップＳ２０６）により読み出し、話者特定取得ステップ（ステップＳ２０７）にて話者情報１０６を取得する。取得された話者情報１０６には、話者名称と画面内存在情報が含まれている。字幕データ１３１に対して話者特定取得ステップ（ステップＳ２０７）で話者情報１０６を取得すると話者として"Ａ子"が当該画像内に存在している情報"Y"が取得される。字幕データ１３２に対して話者特定取得ステップ（ステップＳ２０７）で話者情報１０６を取得すると話者として"Ｂ子"が当該画像内に存在している情報"Y"が取得される。字幕データ１３３に対して話者特定取得ステップ（ステップＳ２０７）で話者情報１０６を取得すると話者として"Ｃ子"が当該画像内に存在していない情報"N"が取得される。

話者特定取得ステップ（ステップＳ２０７）で字幕データ１０３より取得された話者名称と画面内存在情報は話者一致ステップ（ステップＳ２０８）で話者特定ステップ（ステップＳ２０４）にて設定された検索条件と比較される。

これらのステップにより検索された図１又は図２に示す（１）の位置の音声データ１０２と（２）の位置の画像データ１０１が液晶表示装置４０１に表示され、タイムコード表示領域４０２にタイムコードが表示される。本実施形態での検索結果は字幕データ１３２が該当するのでタイムコードとして"01:12:13 11"が表示される。再生ボタン４０８を押下した場合、Ｂ子が映った映像が開始され、"おはようございます。"の字幕スーパが表示されるとともに"おはようございます"とＢ子の声で再生される。

このように本実施形態によれば、撮像装置をはじめとするキーボード等のテキスト入力手段や選択手段を持たない機器においても、特定話者の特定の台詞で画像を検索することが容易にできるため、シーン検索が効率よく行うことが可能となる。

以上のように、上述した各実施形態によれば、話者を指定して台詞（キーワード）で検索することで、指定した話者が喋った内容が含まれる画像データ内のシーンを効率よく検索することが可能となる。

また、当該話者の画面内存在を指定し、台詞（キーワード）で検索することで、指定した人物が喋った内容且つ、話者が画像内に映っている画像データ内のシーンを効率よく検索することが可能となる。

また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、プログラムコード自体及びそのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等を用いることができる。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ(基本システム或いはオペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明の第１の実施形態に係る話者特定検索装置の構成を示すブロック図である。本発明の第１の実施形態に係る話者特定検索装置の構成を示すブロック図である。字幕データの一例を示す図である。字幕表示の一例を示す図である。話者特定検索装置上の検索ソフトウェアで表示される画面構成例を示す図である。メイン操作画面とともに、検索ボタンを押下した際の検索条件入力画面を示す図である。本発明の第１の実施形態における処理の流れを示すフローチャートである。字幕データの一例を示す図である。本発明の第２の実施形態に係る撮像装置の構成を示す図である。撮像装置における検索条件指定画面の一例を示す図である。撮像装置における検索条件指定画面の一例を示す図である。本発明の第２の実施形態における処理の流れを示すフローチャートである。

符号の説明

１００：動画データ、１０１：画像データ、１０２：音声データ、１０３：字幕データ、１０６：字幕データ内の話者情報、１０７：字幕データ内の字幕テキスト情報、１０８：字幕データ内の発声開始情報、１０９：話者データ、１１０：字幕データ読み出し部、１１１：話者特定取得部、１１２：テキスト取得部、１１３：発声開始情報取得部、１１４：検索条件入力部、１１５：字幕データ比較部、１１６：一致した字幕データ、１１７：一致した字幕データの発声開始情報、１１８：音声データ検索部、１１９：動画像データ検索部、１２０：話者データ読み出し部、１２１：Ａ子の字幕データ、１２２：Ｂ子の字幕データ、１３１：Ａ子の字幕データ、１３２：Ｂ子の字幕データ、１３３：Ｃ子の字幕データ、２０１：Ｂ子の映像、２０２：字幕、３００：検索ソフトウェアメイン画面、３０１：画像表示画面、３０２：タイムコード表示、３０３：ジョグボタン、３０４：シャトルボタン、３０５：ジョグ、シャトルダイヤル、３０６：前方のマークポイントまでの移動ボタン、３０７：巻き戻しボタン、３０８：再生ボタン、３０９：早送りボタン、３１０：後方のマークポイントまでの移動ボタン、３１１：検索ボタン、３２０：検索条件入力画面、３２１：話者選択するプルダウン、３２２：検索する台詞を入力する画面、３２３：前方検索ボタン、３２４：後方検索ボタン、３２５：キャンセルボタン、４００：撮像装置本体（操作面）、４０１：液晶表示装置、４０２：タイムコード表示、４０３：選択用操作部材、４０４：設定ボタン、４０５：録画ボタン、４０６：前方のマークポイントまでの移動ボタン、４０７：巻き戻しボタン、４０８：再生ボタン、４０９：早送りボタン、４１０：後方のマークポイントまでの移動ボタン、４１１：検索ボタン、４１２：メニューボタン、４１３：音声入力用マイク、４２０：検索対象話者一覧表示、４２１：話者選択表示枠、４２２：Ａ子の顔、４２３：Ｂ子の顔、４２４：Ｃ子の顔、４３０：Ａ子の顔、４３１：Ａ子の登録話者枠、４３２：Ｂ子の顔、４３３：Ｂ子の選択話者枠、４３４：Ｃ子の顔、４３５：Ｃ子の登録話者枠、４３６：検索する台詞表示

Claims

人物を識別するための識別用データを用いて、検索対象データに含まれる前記人物の人物に係るデータから前記人物を識別し、前記人物を示すデータを生成する第１のデータ生成手段と、
前記人物に係るデータから前記人物の音声データを抽出し、抽出した音声データから前記人物の発声内容を示すデータを生成する第２のデータ生成手段と、
前記検索対象データ内における前記人物に係るデータの位置を示す位置データを生成する第３のデータ生成手段と、
前記第１のデータ生成手段及び前記第２のデータ生成手段により生成されたデータの組のうち、入力された検索条件に合致するデータの組みを判定する判定手段と、
前記判定手段により判定されたデータの組みに対応する位置データに基づいて、その位置データにより示される位置のデータを前記検索対象データから検索するデータ検索手段とを有することを特徴とするデータ検索装置。
各人物の画像データを表示手段上に表示させる表示制御手段と、
各人物の画像データから任意の画像データを選択可能な選択手段と、
前記選択手段により選択された画像データに該当する人物を特定するためのデータを検索条件として入力する第１の検索条件入力手段とを更に有することを特徴とする請求項１に記載のデータ検索装置。
表示手段上に表示される画像データに該当する人物を、前記識別用データを用いて識別する識別手段と、
前記識別手段により識別された各人物の画像データから、任意の画像データを選択可能な選択手段と、
前記選択手段により選択された画像データに該当する人物を特定するためのデータを検索条件として入力する第２の検索条件入力手段とを更に有することを特徴とする請求項１に記載のデータ検索装置。
前記人物に係るデータ内に前記人物の画像データが含まれるか否かを示す存在データを生成する第４のデータ生成手段と、
検索対象の人物の画像データが含まれるか否かを指定するデータを検索条件として入力する第３の検索条件入力手段とを更に有し、
前記判定手段は、前記第３の検索条件入力手段により検索条件が入力された場合、前記第１のデータ生成手段、前記第２のデータ生成手段及び前記第４のデータ生成手段により生成されたデータの組みのうち、入力された検索条件に合致するデータの組みを判定することを特徴とする請求項１乃至３の何れか１項に記載のデータ検索装置。
データを検索するためのデータ検索装置の制御方法であって、
人物を識別するための識別用データを用いて、検索対象データに含まれる前記人物の人物に係るデータから前記人物を識別し、前記人物を示すデータを生成する第１のデータ生成ステップと、
前記人物に係るデータから前記人物の音声データを抽出し、抽出した音声データから前記人物の発声内容を示すデータを生成する第２のデータ生成ステップと、
前記検索対象データ内における前記人物に係るデータの位置を示す位置データを生成する第３のデータ生成ステップと、
前記第１のデータ生成ステップ及び前記第２のデータ生成ステップにより生成されたデータの組のうち、入力された検索条件に合致するデータの組みを判定する判定ステップと、
前記判定ステップにより判定されたデータの組みに対応する位置データに基づいて、その位置データにより示される位置のデータを前記検索対象データから検索するデータ検索ステップとを含むことを特徴とするデータ検索装置の制御方法。
請求項５に記載のデータ検索装置の制御方法をコンピュータに実行させるためのプログラム。
請求項６に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。