JP2007078985A - データ検索装置及びその制御方法 - Google Patents

データ検索装置及びその制御方法 Download PDF

Info

Publication number
JP2007078985A
JP2007078985A JP2005265502A JP2005265502A JP2007078985A JP 2007078985 A JP2007078985 A JP 2007078985A JP 2005265502 A JP2005265502 A JP 2005265502A JP 2005265502 A JP2005265502 A JP 2005265502A JP 2007078985 A JP2007078985 A JP 2007078985A
Authority
JP
Japan
Prior art keywords
data
speaker
person
search
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005265502A
Other languages
English (en)
Other versions
JP4235635B2 (ja
Inventor
Yoshihiro Kurakata
恵弘 倉片
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005265502A priority Critical patent/JP4235635B2/ja
Publication of JP2007078985A publication Critical patent/JP2007078985A/ja
Application granted granted Critical
Publication of JP4235635B2 publication Critical patent/JP4235635B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 指定した人物が喋った内容が含まれるデータを効率よく検索可能とする。
【解決手段】 字幕データ比較部115は、話者を示す話者情報106及び当該話者の台詞の内容をテキスト化した字幕のテキスト情報107のデータの組のうち、入力された検索条件に合致するデータの組みを判定し、音声データ検索部118及び動画像データ検索部119は、判定されたデータの組みに対応する位置データに基づいて、その位置データにより示される位置のデータを検索対象データから検索する。
【選択図】 図1

Description

本発明は、検索対象データ内から検索条件を指定して所望のデータを検索可能なデータ検索装置及びその制御方法に関するものである。
近年、ビデオカメラの記録方法がアナログ形式からデジタル形式になるとともに、ユーザによるビデオカメラ本体またはパーソナルコンピュータを用いた各種動画編集が行われるようになってきた。動画編集を行う際、動画データの一部分を切り取り、コピー、貼り付けが頻繁に行われている。これらの操作を行う為に、動画の切り出し部分などの先頭を検索しマークを付けるといった作業が必要である。また、動画編集を行う際、被写体が話者となっている時に字幕スーパや吹き出し等の効果を付けることも行われている。
このように動画データ内のシーンに対して所望のシーンを検索して、編集操作を行っている。その一つの方法として、話者の台詞をキーワードとして検索する方法が挙げられる。例えば、「おはようございます。」の挨拶シーンを検索する際、「おはようございます。」を指定することで、動画データ内の挨拶シーンを検索することができる。
このようなシーン検索方法として、ビデオコンテンツファイル生成システムが作成したビデオコンテンツファイルに対して、所望の検索キーワードを入力し、字幕テキストファイル内を検索する方法が特許文献1に提案されている。
また、音声で入力したキーワードに対して、音声パターンで検索する方法が特許文献2に提案されている。
特開2002−374494号公報 特開2001−290496号公報
しかしながら、従来技術において音声や字幕テキスト内のキーワードによる検索を行う場合、話者の特定ができず、特に動画データの中に多数の人が同じ台詞(キーワード)を喋っている場合に多数の検索結果が出力され、話者の特定に時間がかかるため効率が悪い。
そこで、本発明の目的は、指定した人物が喋った内容が含まれるデータを効率よく検索可能とすることにある。
本発明のデータ検索装置は、人物を識別するための識別用データを用いて、検索対象データに含まれる前記人物の人物に係るデータから前記人物を識別し、前記人物を示すデータを生成する第1のデータ生成手段と、前記人物に係るデータから前記人物の音声データを抽出し、抽出した音声データから前記人物の発声内容を示すデータを生成する第2のデータ生成手段と、前記検索対象データ内における前記人物に係るデータの位置を示す位置データを生成する第3のデータ生成手段と、前記第1のデータ生成手段及び前記第2のデータ生成手段により生成されたデータの組のうち、入力された検索条件に合致するデータの組みを判定する判定手段と、前記判定手段により判定されたデータの組みに対応する位置データに基づいて、その位置データにより示される位置のデータを前記検索対象データから検索するデータ検索手段とを有することを特徴とする。
本発明のデータ検索装置の制御方法は、データを検索するためのデータ検索装置の制御方法であって、人物を識別するための識別用データを用いて、検索対象データに含まれる前記人物の人物に係るデータから前記人物を識別し、前記人物を示すデータを生成する第1のデータ生成ステップと、前記人物に係るデータから前記人物の音声データを抽出し、抽出した音声データから前記人物の発声内容を示すデータを生成する第2のデータ生成ステップと、前記検索対象データ内における前記人物に係るデータの位置を示す位置データを生成する第3のデータ生成ステップと、前記第1のデータ生成ステップ及び前記第2のデータ生成ステップにより生成されたデータの組のうち、入力された検索条件に合致するデータの組みを判定する判定ステップと、前記判定ステップにより判定されたデータの組みに対応する位置データに基づいて、その位置データにより示される位置のデータを前記検索対象データから検索するデータ検索ステップとを含むことを特徴とする。
本発明のプログラムは、前記のデータ検索装置の制御方法をコンピュータに実行させることを特徴とする。
本発明のコンピュータ読み取り可能な記録媒体は、前記のプログラムを記録したことを特徴とする。
本発明によれば、人物を示すデータ及び当該人物の発声内容を示すデータの組みから検索条件に合致するデータの組みを判定し、そのデータの組みに対応する位置からデータを検索するように構成している。従って、人物とともにその人物の台詞を指定することで、指定した人物が喋った内容が含まれるデータを効率よく検索することが可能となる。
以下、本発明を適用した好適な実施形態を、添付図面を参照しながら詳細に説明する。
−第1の実施形態−
先ず、本発明の第1の実施形態について説明する。図1及び図2は、本発明の第1の実施形態に係る話者特定検索装置の構成を示すブロック図である。100は動画データの内部構造を示している。動画データ100は、話者データ109、画像データ101、音声データ102及び字幕データ103により構成されており、画像データ101、音声データ102、字幕データ103が時系列に並んで構成されている。図1又は図2に示す動画データ100に含まれるデータのうち、画像データ101及び音声データ102はオリジナルのデータであり、話者データ109及び字幕データ103は画像データ101及び音声データ102を解析することによって生成され、図1又は図2に示すように所定の位置に後に埋め込まれるデータである。なお、ここで示す動画データの内部構造は一例であり、本発明に制限を与えるものではない。
字幕データ103は、話者情報106、字幕のテキスト情報107及び発声開始情報108で構成されている。話者データ109は、オリジナルの動画データ100内の話者に関するデータが保存されている。話者データ109には、例えば話者を識別するためのデータ(例えば、話者の名称を示すデータ等)、顔識別用特徴量データ、顔の画像イメージデータ及び音声識別用特徴量データ等が話者毎に対応付けられて格納されている。話者データ109は話者データ読み出し部120により読み出され、動画データ内に存在する話者の一覧が取得できる。本実施形態では、動画データ100中に話者データ109が含まれる構成を採用しているが、他の実施形態として動画データ100中ではなく、例えば話者特定検索装置内部又は外部の記録媒体内に保持され、必要に応じて読み込まれて該当する処理において使用されるような構成であってもよい。
字幕データ103は、話者情報106、テキスト情報107及び発声開始情報108により構成される。話者情報106は、上記顔識別用特徴量データを用いて画像データから話者を特定した場合や上記音声識別用特徴量データを用いて音声データから話者を特定した場合に生成される当該話者を識別するためのデータである。テキスト情報107は、今回特定された話者の音声データが音声識別用特徴量データを用いて識別された場合に、その音声データを解析してテキスト化したテキストデータである。発声開始情報108は、今回特定された話者の音声データが識別された時点の時刻情報等から成る情報である。
110は字幕データ読み出し部であり、動画データ100から字幕データ103のみを順次読み出す。読み出された字幕データ103は話者特定取得部111、テキスト取得部112、発声開始情報取得部113へ送られ、それぞれ当該字幕の話者情報106、字幕のテキスト情報107、字幕の発声開始情報108が取得される。ここで取得された話者情報106と字幕のテキスト情報107は字幕データ比較部115へ送られる。
図3は字幕データの一例を示したものである。110の字幕データ読み出し部は、動画データ100内から字幕データ103のみを読み出す。読み出した字幕データ103の例が121及び122である。字幕データ122を例に以下の説明を行う。字幕データ読み出し部110に読み出された字幕データ122は、話者特定取得部111へ送られ、話者情報106が読み取られる。本実施形態では話者情報106は、Speakerタグで囲われている部分である。字幕データ122からは<Speaker>….</Speaker>で囲われている"B子"が話者であることが取得される。
また、字幕データ読み出し部110に読み出された字幕データ122は、テキスト取得部112へ送られ、字幕のテキスト情報107が読み取られる。本実施形態では字幕のテキスト情報107は、SubTitleタグで囲われている部分である。字幕データ122からは<SubTitle>….</SubTitle>で囲われている"おはようございます。"が字幕テキストとして取得される。
また、字幕データ読み出し部110に読み出された字幕データ122は、発声開始情報取得部113へ送られ、発声開始情報108が読み取られる。本実施形態では発声開始情報108は、StartTimeCodeタグで囲われている部分である。字幕データ122からは<StartTimeCode>….</StartTimeCode>で囲われている"T01:12:03 11"が発声始タイムコードとして取得される。本実施形態では、字幕データはタグを用いて作成しているが、他の形式であっても良い。
114は検索条件入力部であり、話者及び話者の発声した内容を検索条件として入力する。話者の入力手段としては、人物名の選択や顔の選択、画像からの選択であってもよい。話者の発声した内容入力手段としては、テキスト入力や音声入力であっても良い。入力された検索条件は、字幕データ比較部115へ送られる。
字幕データ比較部115では、検索条件と話者情報106と字幕のテキスト情報107を比較し、一致している字幕データ116を検索し、特定する。検索条件入力部114で、話者が"B子"、話者の発声した内容が"おはようございます。"であるとき、字幕データ121は話者情報が"A子"であるため不一致字幕データとして読み飛ばされ、字幕データ122が一致したものと判断され、一致字幕データ116となる。一致した字幕データ116は、字幕データ122から取得された発声開始情報108を一致字幕データの発声開始情報117として組み合わせて使用される。
一致字幕データの発声開始情報117は、発声開始のタイムコードとして音声データ検索部118及び動画像データ検索部119へ送られる。図2は、音声データ検索部118及び動画像データ検索部119の動作を説明するための図である。
字幕データ122の例において、発声開始のタイムコードとして"T01:12:03 11"が音声データ検索部118及び動画像データ検索部119へ送られる。音声データ検索部118では、動画データ100内から音声データ102のみを読み込み当該タイムコードの位置を検索する。図1又は図2では(1)に示す位置が検索された音声のデータ位置である。動画像データ検索部119では、動画データ100内から画像データ101のみを読み込み当該タイムコードの位置を検索する。図1又は図2では(2)に示す位置が検索された画像のデータ位置である。
図4は字幕表示の例である。200は画面データで、B子201が映っており、B子が「おはようございます。」を発声している状況である。字幕データ122に従って表示している字幕が202である。
図5は、話者特定検索装置上の検索ソフトウェアで表示される画面構成例を示す図である。300はメイン操作画面である。301は画像データの表示画面である。302は画像表示画面301に表示されている画像データのタイムコードである。305はダイヤルであり、303のジョグボタン、304のシャトルボタンにより動作が変わる。303のジョグボタンが押下されているとダイヤル305はジョグダイヤルとして機能し、回転方向にコマ送りが可能であり回転速度によりコマ送り速度を変化させる。304のシャトルボタンが押下されているとダイヤル305はシャトルダイヤルとして機能し、回転方向及び回転角によりコマ送り方向と速度を変化させる。306は前方のマークポイントまでの移動ボタン、307は巻き戻しボタン、308は再生ボタン、309は早送りボタン、310は後方のマークポイントまでの移動ボタン、311は検索ボタンである。
図6は、メイン操作画面とともに、検索ボタン311を押下した際に表示される検索条件入力画面320を示す図である。321は話者を選択するプルダウンであり、話者を選択する。322は検索する台詞を入力する画面である。323は前方検索ボタンであり、現在のタイムコードより過去に遡って検索を実行する。324は後方検索ボタンであり、現在のタイムコードより後の検索を実行する。325はキャンセルボタンであり検索条件入力を中止する。
第1の実施形態におけるソフトウェアによる処理の流れを図7のフローチャートを用いて説明する。ここでは、字幕データ103を含んだ動画データ100内からB子が「おはようございます。」を発声したシーンを検索する手順を例に挙げて説明する。
図5の検索ソフトウェアの画面300で検索ボタン311を押下するとシーン検索ステップ(ステップS100)に入る。シーン検索ステップ(ステップS100)に入ると、図6の検索条件入力画面320が表示される。
続いて話者指定ステップ(ステップS101)が実行される。話者指定ステップ(ステップS101)では、動画データ100から話者データ読み出し部120により話者データ109を読み出し、動画データ100内の話者一覧を取得する。取得された話者の一覧は話者選択プルダウン321により選択することができる。本実施形態の話者プルダウン321では話者データ109に含まれる話者名称が表示され、話者名称により話者を選択する。話者選択時には、話者名称以外でも話者の顔を表示して選択することも可能である。図6の例では"B子"を選択している。
話者を指定した後、話者の発声内容入力ステップ(ステップS102)が実行される。話者内容入力ステップ(ステップS102)では、話者の発声した台詞を台詞入力画面322から入力する。図6の例では"おはようございます。"を指定している。これらのステップにより検索条件として"B子"が発声した"おはようございます。"が設定され、前方検索ボタン323又は後方検索ボタン324を押下することで同条件を字幕データとして持つシーンが検索される。本実施形態では話者指定ステップ(ステップS101)、発声内容入力ステップ(ステップS102)の順に検索条件の設定を行っているが、順序は入れ替わっても良い。
前方検索ボタン323又は後方検索ボタン324が押下されることで検索が開始される。検索では、先ず字幕データ読み出しステップ(ステップS103)が実行される。字幕データ読み出しステップ(ステップS103)では、字幕データ読み出し部110により動画データ100から字幕データ103のみを順次読み出す。読み出された字幕データ103は話者特定取得ステップ(ステップS104)において話者特定取得部111で話者情報106が取得される。例えば字幕データ121に対しては"A子"、字幕データ122に対しては"B子"が話者として取得される。取得された話者は話者一致ステップ(ステップS105)において話者指定ステップ(ステップS101)で指定された検索対象の話者と比較される。図6の例では検索対象の話者として"B子"が指定されているので、字幕データ121は不一致、字幕データ122は一致と判定される。不一致の場合は次の字幕データ読み出しステップ(ステップS103)へ戻る。一致の場合は次のテキスト取得ステップ(ステップS106)へ移行する。
テキスト取得ステップ(ステップS106)では、字幕データ読み出しステップ(ステップS103)で読み出された字幕データ103よりテキスト取得部112によって字幕のテキスト情報107を取得する。例えば字幕データ121に対しては"おはようございます。"、字幕データ122に対しては"おはようございます。"が字幕のテキストとして取得される。取得された字幕のテキストは、テキスト一致ステップ(ステップS107)において発声内容入力ステップ(ステップS102)で指定された検索対象の台詞と比較される。図6の例では検索対象の台詞として"おはようございます。"が指定されているので、字幕データ122は一致と判定される。不一致の場合は次の字幕データ読み出しステップ(ステップS103)へ戻る。一致の場合は字幕データ122が一致字幕データ116として発声開始情報取得ステップ(ステップS108)へ渡される。
発声開始情報取得ステップ(ステップS108)では、字幕データ読み出しステップ(ステップS103)で読み出された字幕データ103より発声開始情報取得部113によって発声開始情報108を取得する。例えば字幕データ121に対しては"T01:11:50 03"、字幕データ122に対しては"T01:12:03 11"が発声開始情報として取得される。ここでは、"B子"の字幕データ122が一致字幕データ116として送られたので、一致した発声開始情報117として"T01:12:03 11"が取得される。取得された発声開始情報117は音声データ検索ステップ(ステップS109)へ渡される。
音声データ検索ステップ(ステップS109)では、動画データ100から音声データ検索部118により音声データ102のみを順次読み出し、一致した発声開始情報117で指定される位置(1)を検索する。ここでは一致した発声開始情報117として"T01:12:03 11"が入力されているので、タイムコード"01:12:03 11"の音声データ位置が取得される。
また、発声開始情報取得ステップ(ステップS108)で取得された発声開始情報117は動画像データ検索ステップ(ステップS110)へ渡される。発声開始情報取得ステップ(ステップS108)では、動画データ100から動画像データ検索部119により画像データ101のみを順次読み出し、一致した発声開始情報117で指定される位置(2)を検索する。ここでは一致した発声開始情報117として"T01:12:03 11"が入力されているので、タイムコード"01:12:03 11"の画像データ位置が取得される。
検索結果OKステップ(ステップS111)では検索された音声データ及び画像データが画像の表示画面301及びタイムコード表示302に表示され、検索結果の確認が行われる。この検索結果で良ければ検索は終了し、更に検索を行う場合には306は前方のマークポイントまでの移動ボタンまたは310は後方のマークポイントまでの移動ボタンを押下することで次の字幕データを読み出し同一条件での検索を繰り返すことが可能である。
ここで示したフローチャートは一つの実施形態であり本発明を制限するものではない。話者一致ステップ(ステップS105)、テキスト一致ステップ(ステップS107)の順序が変わっても良く、また音声データ検索ステップ(ステップS109)と動画像データ検索ステップ(ステップS110)の順序が変わってもよい。
また、本実施形態では1件毎に検索を実施しているが、動画データ100内から検索条件に合致する字幕データを全て検索し、検索結果を画像の表示画面301に複数のインデックス画像としてマルチ表示することも可能である。
また、本実施形態では話者指定ステップ(ステップS101)にて話者を1人に限定しているが、2人以上の話者を指定して検索する事も可能である。また、本実施形態では発声内容入力ステップ(ステップS102)にて一つの台詞を指定しているが、複数の台詞を指定して検索する事も可能である。
さらに、本実施形態ではテキスト一致ステップ(ステップS107)にて検索条件と字幕データの字幕テキストが一致していることを判定しているが、正規表現やあいまい検索等既知の検索方法に拡張する事も可能である。
このように本実施形態によれば、特定話者の特定の台詞で画像を検索することが容易にできるため、シーン検索が効率よく行うことが可能となる。
−第2の実施形態−
次に、本発明の第2の実施形態について説明する。図9は、本発明の第2の実施形態に係る撮像装置の構成を示す図である。図9に示す撮像装置では一般的にキーボードなどの文字入力手段が無いため、画像による検索条件の指定が必要である。本実施形態ではそのような場合の解決例を示している。
図9の撮像装置において、400は撮像装置本体(操作面)である。撮像装置はレンズユニット(図示せず)、撮像ユニット(図示せず)、信号処理ユニット(図示せず)、記録媒体(図示せず)を持っており、レンズユニットを通して取り込まれる画像を撮像ユニットでキャプチャし、信号処理ユニットによりデジタル信号処理を行い、背面の液晶表示装置401へ表示している。また、録画ボタン405を押下することでレンズユニットを通して取り込まれる画像を撮像ユニットでキャプチャし、信号処理ユニットによりデジタル信号処理を行った画像データを記録媒体へ格納する。以下では、図1又は図2に示す動画データ100の構成図を流用して本実施形態の説明を行なう。
図9の撮像装置400において、401は撮影画像や再生画像の表示、各種設定画面の表示用の液晶表示装置である。402は表示されている画像データのタイムコードを示している。403は選択用の操作部材であり、上下左右方向のボタンにより構成されている。404は設定ボタンで選択用操作部材403により選択された結果を決定する際に押下する。405は録画ボタンであり、録画の開始、停止を行う。406は前方のマークポイントまでの移動ボタン、407は巻き戻しボタン、408は再生ボタン、409は早送りボタン、410は後方のマークポイントまでの移動ボタン、411は検索ボタン、412はメニューボタンである。413は音声入力用のマイクである。
本実施形態においても動画データ100は画像データ101、音声データ102、話者データ109及び字幕データ103によって構成される。字幕データ103のデータ構成及びそれを生成するための処理は上述した第1の実施形態と同様であり、話者データ109も第1の実施形態と同様に、例えば話者を識別するためのデータ(例えば、話者の名称を示すデータ等)、顔識別用特徴量データ及び音声識別用特徴量データ等が話者毎に対応付けられて格納されている。話者データ109は、図1又は図2に示すように動画データ100内に含まれる構成でもよいし、撮像装置の内部又は外部の記録媒体内に保持され、必要に応じて読み込まれて該当する処理において使用されるような構成であってもよい。
ところで、音声識別用特徴量データを用いて音声データから話者が特定され、字幕データ103を作成するような場合、音声データから話者は特定されるが、当該音声データの台詞を発言した話者が画面内に存在せず、その音声データに対応する画像データ内に当該話者の画像データが含まれていない場合がある。
本実施形態では、上記のような場合に鑑み、字幕データ103を作成する対象となる話者が画面内に存在するか否か(対応する画像データから当該話者が特定できるか否か)を示す画面内存在情報を生成している。これは、音声識別用特徴量データのみによって話者を特定することができ、顔識別用特徴量データによっては当該話者を特定できなかった場合、該当する音声データの台詞を発言した話者が画面内に存在しない旨の画面内存在情報が生成される。一方、字幕テキスト情報107が生成される場合(即ち、少なくとも音声識別用得量量データによって音声データから話者が特定され、当該音声データが解析されてテキスト化された場合)であって、それ以外の場合には、当該音声データの台詞を発言した話者が画面内に存在する旨の画面内存在情報が生成される。
図8に、このようにして作成された字幕データ103の一例を示す。Speakerタグで囲われている部分は話者情報に対応する話者名称である。話者名称は、話者データ109内の例えば上述した話者を一意に特定するための識別情報によって生成される。後にこれを話者名に更新することも可能である。Existenceタグで囲われている部分は画面内存在情報を示している。字幕データ131では<Existence>….</Existence>で囲われた内容が"Y"なので、話者が画面内に存在している。字幕データ133では<Existence>….</Existence>で囲われた内容が"N"なので、話者が画面内に存在しない。SubTitleタグで囲われている部分は話者が発声している字幕のテキストである。StartTimeCodeタグで囲われている部分は話者が発声を開始したタイムコードであり、発生開始情報に対応する。字幕データ131は話者が"A子"でタイムコード"T01:11:50 03"で示されるフレーム番号の画像にA子が映っており、その位置から"おはようございます。"を発声していることを示している。字幕データ132は話者が"B子"でタイムコード"T01:12:03 11"で示されるフレーム番号の画像にB子が映っており、その位置から"おはようございます。"を発声していることを示している。字幕データ133は話者が"C子"でタイムコード"T01:12:23 10"で示されるフレーム番号の画像にC子が映っておらず、その位置から"今日はいい天気ですね。"を発声していることを示している。
図10は撮像装置400における検索条件指定画面の一例を示す図である。420は検索対象話者の一覧表示である。421は選択中の話者を示す話者選択表示枠である。422はA子の顔、423はB子の顔、424はC子の顔である。本画面では、選択用の操作部材403を用いて話者の選択を行う。425は検索する台詞の表示である。
図11は撮像装置401における検索条件指定画面のもう一つの例を示す図である。430はA子であり、431はA子が話者として認識されていることを示す登録話者枠である。432はB子であり、433はB子が話者として認識されており且つ検索対象の話者として選択されていることを示す選択話者枠である。434はC子であり、435はC子が話者として認識されていることを示す登録話者枠である。436は検索する台詞の表示である。
図10及び図11の検索画面はメニューより選択して切り替えることが可能である。また、検索ボタン411を一度押下することで図10の検索画面が表示され、更に検索ボタン411を押下することで図11の検索画面を表示することも可能である。
図12は本実施形態における処理の流れを示したフローチャートである。検索ボタン411を押下すると検索モードステップ(ステップS201)に入る。検索モードステップ(ステップS201)では、話者一覧選択画面(図10)または画像からの話者選択画面(図11)の何れかを表示する。本実施形態では、メニューボタン412を操作し、話者選択方法指定メニュー(図示せず)により最初に表示される画面を設定している。
先ず、検索モードステップ(ステップS201)にて、話者一覧選択画面(図10)が表示される場合を説明する。話者選択ステップ(ステップS202)では話者データより話者の顔の画像イメージデータを取得し、登録されている話者の一覧を表示する。本実施形態では話者としてA子、B子、C子の3人が登録されている。図10で422はA子の顔、423はB子の顔、424はC子の顔である。話者データに話者の名称が登録されている場合には、顔の右隣に名称が表示されても良い。話者の一覧が表示されると、選択用操作部材403により話者選択表示枠421を移動させて話者を選択することができる。また、4人以上の話者が登録されている場合には、選択用操作部材403により話者選択表示枠421が移動すると共に話者一覧が検索対象話者一覧表示420内でスクロールする。検索対象の話者を選択し設定ボタン404で決定する。図10ではB子が話者として選択されている状態を示している。話者が決定すると話者特定ステップ(ステップS204)へ進み、選択された話者の話者データが取得される。
話者特定ステップ(ステップS204)により話者データが取得されると、発声内容入力ステップ(ステップS205)となる。本実施形態では発声内容入力ステップ(ステップS205)では音声によるテキスト入力を行う。音声入力用マイク413に向かい、検索したい台詞を喋ると音声認識が行われ自動的にテキスト化されて検索する台詞表示425へ入力される。図10では"おはようございます。"が発声内容として指定されている。正しく入力されない場合には、選択用操作部材403の左ボタンを押下し、検索する台詞表示425の文字を削除し、入力し直すことも可能である。発声内容入力が正しく入力された場合には設定ボタン404で決定する。これらのステップにより検索条件として"B子"が発声した"おはようございます。"が設定される。
次に、検索モードステップ(ステップS201)にて、画像データからの話者選択画面(図11)が表示される場合を説明する。話者選択ステップ(ステップS202)では話者データより話者の識別用顔特徴量データを取得し、話者検索ステップ(ステップS203)により液晶表示装置401に表示されている画像データから顔検出を行い、話者データに登録されている話者の顔の画像データに登録話者枠を表示する。
図11の例では、話者検索ステップ(ステップS203)では、液晶表示装置401にA子430、B子432、C子434の3人が表示されており、それぞれの顔の画像データから顔検出を行い、顔特徴量を算出し、話者データに登録されている話者の顔特徴量データと比較を行う。比較した結果、それぞれ話者登録されているので顔の画像データに話者登録枠が表示され(A子の登録話者枠431、B子の選択話者枠432、C子の登録話者枠435)、顔の画像データと各話者の話者データとが関連付けされる。話者の顔に登録話者枠、選択話者枠が表示されると、選択用操作部材403により選択話者枠を移動させることができる。話者の選択範囲は液晶表示装置401に表示されている話者からのみ選択されるため、図11の場合に4人以上話者が登録されている場合であっても、上記3人のみから話者を選択する。検索対象の話者の顔の画像データが液晶表示装置401内に存在しない場合には、巻き戻しボタン407、早送りボタン409により表示画像を変えることで、他の話者の顔の画像データが映っている状態にすることにより、話者データに登録されている話者であれば、同じく顔の画像データに登録話者枠が表示され同じく検索の対象とすることができる。
利用者は、検索対象の話者を選択し設定ボタン404で決定する。図11ではB子が話者として選択されている状態を示している。話者が決定すると話者特定ステップ(S204)へ進み、選択された話者の話者データが検索条件として取得される。
話者特定ステップ(ステップS204)により話者データが取得されると、発声内容入力ステップ(ステップS205)となる。本実施形態では発声内容入力ステップ(ステップS205)では音声によるテキスト入力を行う。音声入力用マイク413に向かい、検索したい台詞を喋ると音声認識が行われ自動的にテキスト化されて検索する台詞表示436へ入力される。図11では"おはようございます。"が発声内容として指定されている。正しく入力されない場合には、選択用操作部材403の左ボタンを押下し、検索する台詞表示436の文字を削除し、入力し直すことも可能である。発声内容入力が正しく入力された場合には設定ボタン404で決定する。これらのステップにより検索条件として"B子"が発声した"おはようございます。"が設定される。
検索条件が発声内容入力ステップ(ステップS205)で決定すると、以下の動作は第1の実施形態の字幕データ読み出しステップ(ステップS103)以降の動作と同様である。
第2の実施形態では、図8に示すように話者の画面内存在を示すデータ(画面内存在情報)が字幕データ103に含まれている。検索のオプションとして話者の画面内存在を指定することで、話者と話者の画面内存在と話者の台詞でシーンを検索することが可能である。この場合、話者特定ステップ(ステップS204)にて、話者の画面内存在の有無を指定する。操作の例として選択用操作部材403の上下ボタンにより画面内存在の有無を選択し、設定ボタン404で決定する。
話者の画面内存在情報の読み出しは、字幕データ103を字幕データ読み出しステップ(ステップS206)により読み出し、話者特定取得ステップ(ステップS207)にて話者情報106を取得する。取得された話者情報106には、話者名称と画面内存在情報が含まれている。字幕データ131に対して話者特定取得ステップ(ステップS207)で話者情報106を取得すると話者として"A子"が当該画像内に存在している情報"Y"が取得される。字幕データ132に対して話者特定取得ステップ(ステップS207)で話者情報106を取得すると話者として"B子"が当該画像内に存在している情報"Y"が取得される。字幕データ133に対して話者特定取得ステップ(ステップS207)で話者情報106を取得すると話者として"C子"が当該画像内に存在していない情報"N"が取得される。
話者特定取得ステップ(ステップS207)で字幕データ103より取得された話者名称と画面内存在情報は話者一致ステップ(ステップS208)で話者特定ステップ(ステップS204)にて設定された検索条件と比較される。
これらのステップにより検索された図1又は図2に示す(1)の位置の音声データ102と(2)の位置の画像データ101が液晶表示装置401に表示され、タイムコード表示領域402にタイムコードが表示される。本実施形態での検索結果は字幕データ132が該当するのでタイムコードとして"01:12:13 11"が表示される。再生ボタン408を押下した場合、B子が映った映像が開始され、"おはようございます。"の字幕スーパが表示されるとともに"おはようございます"とB子の声で再生される。
このように本実施形態によれば、撮像装置をはじめとするキーボード等のテキスト入力手段や選択手段を持たない機器においても、特定話者の特定の台詞で画像を検索することが容易にできるため、シーン検索が効率よく行うことが可能となる。
以上のように、上述した各実施形態によれば、話者を指定して台詞(キーワード)で検索することで、指定した話者が喋った内容が含まれる画像データ内のシーンを効率よく検索することが可能となる。
また、当該話者の画面内存在を指定し、台詞(キーワード)で検索することで、指定した人物が喋った内容且つ、話者が画像内に映っている画像データ内のシーンを効率よく検索することが可能となる。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、プログラムコード自体及びそのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(基本システム或いはオペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明の第1の実施形態に係る話者特定検索装置の構成を示すブロック図である。 本発明の第1の実施形態に係る話者特定検索装置の構成を示すブロック図である。 字幕データの一例を示す図である。 字幕表示の一例を示す図である。 話者特定検索装置上の検索ソフトウェアで表示される画面構成例を示す図である。 メイン操作画面とともに、検索ボタンを押下した際の検索条件入力画面を示す図である。 本発明の第1の実施形態における処理の流れを示すフローチャートである。 字幕データの一例を示す図である。 本発明の第2の実施形態に係る撮像装置の構成を示す図である。 撮像装置における検索条件指定画面の一例を示す図である。 撮像装置における検索条件指定画面の一例を示す図である。 本発明の第2の実施形態における処理の流れを示すフローチャートである。
符号の説明
100:動画データ、101:画像データ、102:音声データ、103:字幕データ、106:字幕データ内の話者情報、107:字幕データ内の字幕テキスト情報、108:字幕データ内の発声開始情報、109:話者データ、110:字幕データ読み出し部、111:話者特定取得部、112:テキスト取得部、113:発声開始情報取得部、114:検索条件入力部、115:字幕データ比較部、116:一致した字幕データ、117:一致した字幕データの発声開始情報、118:音声データ検索部、119:動画像データ検索部、120:話者データ読み出し部、121:A子の字幕データ、122:B子の字幕データ、131:A子の字幕データ、132:B子の字幕データ、133:C子の字幕データ、201:B子の映像、202:字幕、300:検索ソフトウェアメイン画面、301:画像表示画面、302:タイムコード表示、303:ジョグボタン、304:シャトルボタン、305:ジョグ、シャトルダイヤル、306:前方のマークポイントまでの移動ボタン、307:巻き戻しボタン、308:再生ボタン、309:早送りボタン、310:後方のマークポイントまでの移動ボタン、311:検索ボタン、320:検索条件入力画面、321:話者選択するプルダウン、322:検索する台詞を入力する画面、323:前方検索ボタン、324:後方検索ボタン、325:キャンセルボタン、400:撮像装置本体(操作面)、401:液晶表示装置、402:タイムコード表示、403:選択用操作部材、404:設定ボタン、405:録画ボタン、406:前方のマークポイントまでの移動ボタン、407:巻き戻しボタン、408:再生ボタン、409:早送りボタン、410:後方のマークポイントまでの移動ボタン、411:検索ボタン、412:メニューボタン、413:音声入力用マイク、420:検索対象話者一覧表示、421:話者選択表示枠、422:A子の顔、423:B子の顔、424:C子の顔、430:A子の顔、431:A子の登録話者枠、432:B子の顔、433:B子の選択話者枠、434:C子の顔、435:C子の登録話者枠、436:検索する台詞表示

Claims (7)

  1. 人物を識別するための識別用データを用いて、検索対象データに含まれる前記人物の人物に係るデータから前記人物を識別し、前記人物を示すデータを生成する第1のデータ生成手段と、
    前記人物に係るデータから前記人物の音声データを抽出し、抽出した音声データから前記人物の発声内容を示すデータを生成する第2のデータ生成手段と、
    前記検索対象データ内における前記人物に係るデータの位置を示す位置データを生成する第3のデータ生成手段と、
    前記第1のデータ生成手段及び前記第2のデータ生成手段により生成されたデータの組のうち、入力された検索条件に合致するデータの組みを判定する判定手段と、
    前記判定手段により判定されたデータの組みに対応する位置データに基づいて、その位置データにより示される位置のデータを前記検索対象データから検索するデータ検索手段とを有することを特徴とするデータ検索装置。
  2. 各人物の画像データを表示手段上に表示させる表示制御手段と、
    各人物の画像データから任意の画像データを選択可能な選択手段と、
    前記選択手段により選択された画像データに該当する人物を特定するためのデータを検索条件として入力する第1の検索条件入力手段とを更に有することを特徴とする請求項1に記載のデータ検索装置。
  3. 表示手段上に表示される画像データに該当する人物を、前記識別用データを用いて識別する識別手段と、
    前記識別手段により識別された各人物の画像データから、任意の画像データを選択可能な選択手段と、
    前記選択手段により選択された画像データに該当する人物を特定するためのデータを検索条件として入力する第2の検索条件入力手段とを更に有することを特徴とする請求項1に記載のデータ検索装置。
  4. 前記人物に係るデータ内に前記人物の画像データが含まれるか否かを示す存在データを生成する第4のデータ生成手段と、
    検索対象の人物の画像データが含まれるか否かを指定するデータを検索条件として入力する第3の検索条件入力手段とを更に有し、
    前記判定手段は、前記第3の検索条件入力手段により検索条件が入力された場合、前記第1のデータ生成手段、前記第2のデータ生成手段及び前記第4のデータ生成手段により生成されたデータの組みのうち、入力された検索条件に合致するデータの組みを判定することを特徴とする請求項1乃至3の何れか1項に記載のデータ検索装置。
  5. データを検索するためのデータ検索装置の制御方法であって、
    人物を識別するための識別用データを用いて、検索対象データに含まれる前記人物の人物に係るデータから前記人物を識別し、前記人物を示すデータを生成する第1のデータ生成ステップと、
    前記人物に係るデータから前記人物の音声データを抽出し、抽出した音声データから前記人物の発声内容を示すデータを生成する第2のデータ生成ステップと、
    前記検索対象データ内における前記人物に係るデータの位置を示す位置データを生成する第3のデータ生成ステップと、
    前記第1のデータ生成ステップ及び前記第2のデータ生成ステップにより生成されたデータの組のうち、入力された検索条件に合致するデータの組みを判定する判定ステップと、
    前記判定ステップにより判定されたデータの組みに対応する位置データに基づいて、その位置データにより示される位置のデータを前記検索対象データから検索するデータ検索ステップとを含むことを特徴とするデータ検索装置の制御方法。
  6. 請求項5に記載のデータ検索装置の制御方法をコンピュータに実行させるためのプログラム。
  7. 請求項6に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005265502A 2005-09-13 2005-09-13 データ検索装置及びその制御方法 Expired - Fee Related JP4235635B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005265502A JP4235635B2 (ja) 2005-09-13 2005-09-13 データ検索装置及びその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005265502A JP4235635B2 (ja) 2005-09-13 2005-09-13 データ検索装置及びその制御方法

Publications (2)

Publication Number Publication Date
JP2007078985A true JP2007078985A (ja) 2007-03-29
JP4235635B2 JP4235635B2 (ja) 2009-03-11

Family

ID=37939399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005265502A Expired - Fee Related JP4235635B2 (ja) 2005-09-13 2005-09-13 データ検索装置及びその制御方法

Country Status (1)

Country Link
JP (1) JP4235635B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061426A (ja) * 2008-09-04 2010-03-18 Nikon Corp 撮像装置およびキーワード作成プログラム
JP2013524359A (ja) * 2010-04-07 2013-06-17 インターナショナル ランゲージ エデュケーション ディベロップメント インスティチュート インク メディアコンテンツ提供方法、及び装置
CN113301444A (zh) * 2021-05-20 2021-08-24 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061426A (ja) * 2008-09-04 2010-03-18 Nikon Corp 撮像装置およびキーワード作成プログラム
JP2013524359A (ja) * 2010-04-07 2013-06-17 インターナショナル ランゲージ エデュケーション ディベロップメント インスティチュート インク メディアコンテンツ提供方法、及び装置
CN113301444A (zh) * 2021-05-20 2021-08-24 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质
CN113301444B (zh) * 2021-05-20 2023-02-17 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP4235635B2 (ja) 2009-03-11

Similar Documents

Publication Publication Date Title
JP4794740B2 (ja) オーディオ/ビデオ信号生成装置、及びオーディオ/ビデオ信号生成方法
JP4599244B2 (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP5144424B2 (ja) 撮像装置及び情報処理方法
US6799180B1 (en) Method of processing signals and apparatus for signal processing
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
JP2008158788A (ja) 情報処理装置および情報処理方法
US8301995B2 (en) Labeling and sorting items of digital data by use of attached annotations
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2006279898A (ja) 情報処理装置及びその方法
JP3757565B2 (ja) 音声認識画像処理装置
JP2010252008A (ja) 撮影装置、表示装置、再生装置、撮影方法、および表示方法
JP4235635B2 (ja) データ検索装置及びその制御方法
JP5320913B2 (ja) 撮像装置およびキーワード作成プログラム
JP2005346259A (ja) 情報処理装置及び情報処理方法
JPH11266422A (ja) 放送番組管理装置、放送番組管理方法、及び放送番組管理処理プログラムを記録した記録媒体
JP2000222417A (ja) 画像ファイリング装置
JP3222283B2 (ja) 案内装置
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
JP2000083186A (ja) 映像機器
JP2006267934A (ja) 議事録作成装置および議事録作成処理プログラム
JP2006332765A (ja) コンテンツ検索・再生方法、コンテンツ検索・再生装置、並びにプログラムおよび記録媒体
KR102636708B1 (ko) 프레젠테이션 문서에 대한 수어 발표 영상을 제작할 수 있는 전자 단말 장치 및 그 동작 방법
JP3852383B2 (ja) ビデオ再生装置
JP6650636B1 (ja) 翻訳装置、その制御方法およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4235635

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131219

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees