JP2011109292A - Imaging apparatus, control method and program thereof, and storage medium - Google Patents
Imaging apparatus, control method and program thereof, and storage medium Download PDFInfo
- Publication number
- JP2011109292A JP2011109292A JP2009260653A JP2009260653A JP2011109292A JP 2011109292 A JP2011109292 A JP 2011109292A JP 2009260653 A JP2009260653 A JP 2009260653A JP 2009260653 A JP2009260653 A JP 2009260653A JP 2011109292 A JP2011109292 A JP 2011109292A
- Authority
- JP
- Japan
- Prior art keywords
- text
- voice
- unit
- input
- video input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
Description
本発明は、撮像装置、その制御方法及びプログラム並びに記憶媒体に関する。 The present invention relates to an imaging apparatus, a control method and program thereof, and a storage medium.
デジタルビデオカメラ及びデジタルスチルカメラ等の撮像装置では、記録媒体として、光ディスク、ハードディスク装置(以下HDD)又は半導体メモリなどのランダムアクセス可能な記録媒体が使用されている。これらの記録媒体は大容量であり、多くの画像を保存できる。多くの記録画像中から所望の画像を探索する方法として、記録画像の縮小画像を一覧表示するいわゆるサムネイル表示が有効である。特許文献1には、サムネイル表示を用いる撮像装置が記載されている。 In imaging devices such as digital video cameras and digital still cameras, a randomly accessible recording medium such as an optical disk, a hard disk device (hereinafter referred to as HDD) or a semiconductor memory is used as a recording medium. These recording media have a large capacity and can store many images. As a method of searching for a desired image from many recorded images, so-called thumbnail display that displays a list of reduced images of the recorded images is effective. Japanese Patent Application Laid-Open No. 2004-228561 describes an imaging device that uses thumbnail display.
特許文献2には、撮影と同時に取得する撮影者の音声をキーワードとして検索する技術が記載されている。具体的には、撮影と同時に撮影者の音声を音声認識してテキストに変換し、そのテキストを撮影画像と関連付けて記録する。そして、撮影時に同時入力した音声に対応するテキストを入力して、所望の画像を検索する。 Japanese Patent Application Laid-Open No. 2004-228561 describes a technique for searching for a photographer's voice acquired at the same time as shooting as a keyword. Specifically, simultaneously with photographing, the photographer's voice is recognized and converted into text, and the text is recorded in association with the photographed image. Then, a text corresponding to the voice input simultaneously at the time of photographing is input to search for a desired image.
サムネイル画像の一覧表示では、同時に表示できるサムネイル数が限定されるので、記録画像数が多くなると、一覧画面を順送りすることになり、所望の画像を発見するのが困難になる。動画像の場合、シーン単位又は一定時間単位でサムネイルが作成されることがある。この場合、全記録画像のサムネイル数は膨大になりうるので、なおさら、所望動画像の所望シーンを発見するのは困難になる。 In the list display of thumbnail images, the number of thumbnails that can be displayed at the same time is limited. Therefore, if the number of recorded images increases, the list screen is forwarded and it becomes difficult to find a desired image. In the case of a moving image, a thumbnail may be created in a scene unit or a fixed time unit. In this case, since the number of thumbnails of all the recorded images can be enormous, it becomes more difficult to find the desired scene of the desired moving image.
また、類似した画面の場合、再生して見なければわからない。すなわち、類似したサムネイルで個々のシーンを識別するのは難しく。可能性ある画像を再生してみるしかない。サムネイルの表示だけでは効率的に画像を検索するのは困難である。 In the case of a similar screen, it is not known unless it is reproduced. That is, it is difficult to identify individual scenes with similar thumbnails. There is no choice but to play a possible image. It is difficult to retrieve images efficiently only by displaying thumbnails.
特許文献2に記載の技術では、撮影者の音声を無作為に取り込み、テキストデータ化して記録するので、動画の特徴を表していないような音声テキストも記録してしまう。これでは、有効な検索が難しく、好ましくない動画が検索されてしまう。
In the technique described in
本発明は、多数の記録画像から所望の画像を迅速且つ適切に検索できるようにした撮像装置、その制御方法及びプログラム並びに記憶媒体を提示することを目的とする。 An object of the present invention is to provide an imaging apparatus, a control method and program thereof, and a storage medium that can quickly and appropriately search for a desired image from a large number of recorded images.
本発明に係る撮像装置は、映像入力手段と、音声入力手段と、前記音声入力手段による入力音声を音声認識し、前記入力音声の示すテキストを出力する音声認識手段と、撮影シーンごとの典型テキストを記憶するシーン設定手段と、前記音声認識手段による前記テキストと、前記シーン設定手段に記憶される前記典型テキストとの類似度を算出し、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定するテキスト化手段と、前記映像入力手段により入力される映像と、前記テキスト化手段により決定された記録すべきテキストとを記録媒体に記録する記録手段とを有することを特徴とする。 An image pickup apparatus according to the present invention includes a video input unit, a voice input unit, a voice recognition unit that recognizes a voice input by the voice input unit and outputs a text indicated by the input voice, and a typical text for each shooting scene. Calculating a similarity between the text set by the scene setting unit, the text by the voice recognition unit, and the typical text stored in the scene setting unit, and the text according to the similarity or the typical text is converted into the video. Texting means for determining as text to be recorded together with video input by the input means, video input by the video input means, and text to be recorded determined by the textizing means are recorded on a recording medium. And recording means.
本発明に係る撮像装置の制御方法は、映像入力手段、音声入力手段、及び、撮影シーンごとの典型テキストを記憶する記憶手段を有する撮像装置の制御方法であって、撮影シーンを設定するステップと、撮影時の前記音声入力手段による入力音声を音声認識し、前記入力音声の示すテキストを出力する音声認識ステップと、前記音声認識ステップによる前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出し、前記類似度に従う前記テキスト又は前記典型テキストを、前記前記映像入力手段により入力される映像とともに記録すべきテキストとして決定するテキスト化ステップと、前記映像入力手段により入力される映像と、前記テキスト化ステップにより決定された記録すべきテキストとを記録媒体に記録する記録ステップとを有することを特徴とする。 An imaging device control method according to the present invention is a method for controlling an imaging device including a video input unit, an audio input unit, and a storage unit that stores typical text for each shooting scene. A voice recognition step of recognizing an input voice by the voice input means at the time of shooting and outputting a text indicated by the input voice, the text by the voice recognition step, and the typical text corresponding to a set shooting scene The text or the typical text according to the similarity is determined as the text to be recorded together with the video input by the video input means, and is input by the video input means. And the text to be recorded determined in the text conversion step are recorded on a recording medium. And having a recording step that.
本発明に係る撮像装置の制御プログラムは、映像入力手段、音声入力手段、及び、撮影シーンごとの典型テキストを記憶する記憶手段を有する撮像装置を制御するプログラムであって、前記撮像装置に撮影シーンを設定する機能と、前記撮像装置に、撮影時の前記音声入力手段による入力音声を音声認識させ、前記入力音声の示すテキストを出力させる音声認識機能と、前記撮像装置に、前記音声認識機能による前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出させ、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定させるテキスト化機能と、前記撮像装置に、前記映像入力手段により入力される映像と、前記テキスト化機能により決定された記録すべきテキストとを記録媒体に記録させる記録機能とを有することを特徴とする。 An imaging apparatus control program according to the present invention is a program for controlling an imaging apparatus having a video input unit, an audio input unit, and a storage unit that stores typical text for each shooting scene. A voice recognition function for causing the imaging device to recognize voice input by the voice input means at the time of shooting and outputting text indicated by the input voice, and for the imaging device to use the voice recognition function. As the text to be recorded together with the video input by the video input means, the similarity between the text and the typical text corresponding to the set shooting scene is calculated, and the text or the typical text according to the similarity is calculated. A text conversion function to be determined, a video input to the imaging device by the video input means, and the text And having a recording function to record the text to be recorded is determined by the preparative function on the recording medium.
本発明に係る記憶媒体は、映像入力手段、音声入力手段、及び、撮影シーンごとの典型テキストを記憶する記憶手段を有する撮像装置を制御するプログラムを記憶する記憶媒体であって、前記プログラムが、前記撮像装置に撮影シーンを設定する機能と、前記撮像装置に、撮影時の前記音声入力手段による入力音声を音声認識させ、前記入力音声の示すテキストを出力させる音声認識機能と、前記撮像装置に、前記音声認識機能による前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出させ、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定させるテキスト化機能と、前記撮像装置に、前記映像入力手段により入力される映像と、前記テキスト化機能により決定された記録すべきテキストとを記録媒体に記録させる記録機能とを有することを特徴とする。 A storage medium according to the present invention is a storage medium that stores a program for controlling an imaging apparatus having a video input unit, a voice input unit, and a storage unit that stores typical text for each shooting scene, and the program includes: A function for setting a shooting scene in the imaging device; a voice recognition function for causing the imaging device to recognize a voice input by the voice input unit during shooting and outputting a text indicated by the input voice; and , Calculating the similarity between the text by the voice recognition function and the typical text corresponding to the set shooting scene, and inputting the text or the typical text according to the similarity by the video input means And a text conversion function for determining the text to be recorded together with the video input means to the imaging device. A video that is characterized by having a recording function for recording on a recording medium and a text to be recorded is determined by the text feature.
本発明によれば、撮影シーンに応じた、画像の内容を示すテキストを撮影時の音声から自動的に付与できる。これにより、記録画像の一覧、又は特定のキーワード条件で抽出した一覧から、所望の画像を効率的に検索できる。再生装置側には音声認識機能が不要になる。 According to the present invention, it is possible to automatically add text indicating the content of an image from the sound at the time of shooting according to the shooting scene. Thereby, a desired image can be efficiently searched from a list of recorded images or a list extracted under a specific keyword condition. A voice recognition function is not required on the playback device side.
以下、図面を参照して、本発明の実施例を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明に係る撮像装置の一実施例の概略構成ブロック図を示す。図1に示す撮像装置100の制御部113は、操作部109によるユーザ操作及び動作状態に従い、撮像装置100の全体的な動作を制御する。制御部113は、たとえば、CPU(Central Processing Unit)などからなる。
FIG. 1 shows a schematic block diagram of an embodiment of an imaging apparatus according to the present invention. The
操作部109は、撮像装置100に付随するボタンやジョイスティック等で代表される入力装置であり、その操作を示す信号は制御部113に供給される。操作部109は、表示部108の前面に設置されるタッチパネルを含んでもよい。この場合、表示部108に操作対象を示すボタン等が表示され、そのボタンに向けたユーザ操作が、操作部109の操作となる。操作部109は、撮影時には、撮影の開始と停止、撮影モードの変更、及びズーム操作等に使用される。操作部109は、再生時には、再生すべき画像の選択、再生の開始と停止、及び再生画像の切り替え等に使用される。
The
表示部108は、例えば、液晶ディスプレイ(Liquid Crystal Display)であり、撮影時は被写体画像を表示し、再生時には再生画像を表示する。表示部108はまた、撮像装置100の動作モード及び動作パラメータ等を設定する種々の設定画面も表示する。
The
映像入力部101は、撮影レンズ、撮像素子、及び撮像素子による画像信号を所定形式の映像データに変換するカメラ信号処理回路からなる。撮像素子は、CCD(Charge Coupled Device)型でも、CMOS(Complementary Metal-Oxide Semiconductor)型でもよい。記録(撮影)モードにおいて、映像入力部101は、被写体を撮像した映像データを出力する。映像入力部101から出力される映像データは、メモリ103の映像信号用領域に一時格納される。
The
音声入力部102は、マイクに代表される音声入力装置であり、記録モードにおいて、周囲の音声を電気信号に変換する。音声入力部102は、取り込んだ音声信号をデジタル信号に変換し、メモリ103の音声信号用領域に一時格納する。
The
符号化部104は、メモリ103の映像データと音声データを所定の方式で圧縮符号化し、圧縮データをメモリ103の圧縮データ用領域に書き戻す。映像符号化として、MPEG(Moving Picture Experts Group)やH.264が知られている。制御部113は、メモリ103の圧縮映像データと圧縮音声データを読み出して所定のフォーマットで多重化し、メディアI/F105を介して記録媒体116に動画像データとして記録する。記録媒体116は、光ディスク、半導体メモリ又はハードディスク等のランダムアクセス媒体からなる。
The
撮像装置100は、音声入力部102,音声認識部106,テキスト化部107及びシーン設定部115を使って、再生時の検索に使用できるテキストデータを作成する。図2は、その処理フローチャートを示す。
The
ユーザは、撮影前又は撮影中に、撮影シーンを予め撮像装置100に登録できる。制御部113は、操作部109を使って入力された撮影シーンを示すテキストを、シーン設定部115に格納する。例えば結婚式を撮影する場合、ユーザは、そのシーンを示す「結婚式」というテキストを、操作部109を用いて文字入力するか選択し、制御部113がシーン設定部115に設定する。「結婚式」以外にも、例えば、「運動会」、「旅行」、及び「誕生日」などの代表的なイベントに対するシーン名をテンプレートとして用意しておけば、設定が容易になる。
The user can register a shooting scene in the
シーン設定部115は、代表的な各シーンに対して頻出する音声に対応するテキスト(典型テキスト)を内部ROM(Read Only Memory)に保持する。例えば、結婚式に対して、「おめでとう」、「入場」及び「乾杯」等の典型テキストが予め登録されている。この点で、シーン設定部115は、典型テキスト記憶手段として機能する。
The
記録モードにおいて、音声入力部102が周囲の音声を入力する(S1)。入力された音声データは、メモリ103の音声信号用領域に一時格納される。音声認識部106は、一定の条件の下で、メモリ103の音声信号用領域に一時格納された音声データを読み出して音声認識する(S2)。音声認識の対象は、例えば、一定レベル以上の音声が入力する場合のその音声である。他にも、一定レベル以上の笑い声がある場合の、前後数秒間の音声、一定以上の期間、無音が継続した後の音声、予め登録したユーザの音声等である。登録ユーザの音声か否かを、別途登録した音紋等との照合で判定すればよい。音声認識部106は、音声認識の結果のテキスト情報をテキスト化部107に供給する。
In the recording mode, the
撮影シーンが設定されている場合(S3)、テキスト化部107は、音声認識部106の認識結果からのテキストを、設定シーンに対してシーン設定部115に記憶されるテキストと比較し、類似度を算出する(S4)。例えば、音声認識結果とシーン設定部115に登録されるテキストが全く同じであれば、類似度は最も高い。音声認識結果と同じテキストがシーン設定部115に登録されていないにない場合、類似度が最も低い。例えば、音声認識結果が「おめでとさん」であるのに対し、シーン設定部115に登録されるテキストが「おめでとう」である場合、前から順に比較して4文字、一致する。6文字中4文字まで一致するので、類似度は65%と設定する。逆に、シーン設定部115に登録されている文字の5文字に対する類似度を算出しても良い。この場合、5文字のうちの4文字「おめでと」が一致するので、類似度は80%となる。
When the photographic scene is set (S3), the
一定以上の類似度が得られる場合には(S5)、音声認識部106の認識結果を、シーン設定部115に記憶されるテキストで置換する(S6)。これにより、音声認識のぶれを解消でき、統一的な文言をテキストとして撮影画像に付加できることになる。類似度が低い場合(S5)、音声認識部106による音声認識結果のみ、又は、これとシーン設定部115からの最も類似するテキストの両方を、記録用に決定する。
When a certain degree of similarity is obtained (S5), the recognition result of the
撮影シーンが設定されていない場合(S3)、テキスト化部107は、音声認識部106の認識結果からのテキストを、記録用に決定する。類似度を0とする。
When the shooting scene is not set (S3), the
テキスト化部107は、記録用に決定したテキストと類似度に、制御部113からの撮影時刻情報をタイムスタンプとして付加した図3に示すようなデータ構造に整える。この明細書では、音声認識結果のテキスト情報にタイムスタンプを付加したデータを、音声認識テキストデータと呼ぶ。
The
テキスト化部107は、このように生成したテキストデータをメディアI/F部105を介して記録媒体116のテキストデータ用領域に記録する。記録媒体116上では、音声認識テキストデータは、同時の撮影で記録媒体116に記録される動画像データと関連付けられている。シーン設定部115を設けることで、音声認識が困難な状況、又は、音声認識で適切な結果が得られないような状況でも、適切なテキストを撮影画像に付加して記録媒体116に記録できる。
The
テキスト化部107はまた、記録時間が所定時間以上の場合で、無音状態が一定期間以上、継続するときに、無音を示すキーワードを含むテキストデータを生成してもよい。
The
復号化部111は、再生モードにおいて、ユーザにより指定された動画像データを記録媒体116から読み出し、圧縮映像データ及び圧縮音声データを復号化する。メモリ103は、復号化前の圧縮データの一時保存用として、また、復号化後の再生映像データ及び再生音声データの一時保存用に使用される。再生映像データは表示部108により画像表示でき、また、再生音声データは、音声出力部117から音響出力することができる。
In the playback mode, the decoding unit 111 reads moving image data designated by the user from the
再生モードにおける記録画像のサムネイルによる一覧表示では、復号化部111とサムネイル作成部110が、協働する。具体的には、復号化部111が記録媒体116から所定数の画像データを読み出して復号化し、サムネイル作成部110に供給する。動画像データの場合には、動画像の先頭フレーム等の特定フレームの画像がサムネイルの作成に使用され、制御部113が、その特定フレームを指定する。サムネイル作成部110は、復号化部111で復号化された画像データのサイズを縮小してサムネイル画像を作成する。サムネイルは、その原画像データを記録媒体116に記録する際に同時に又は前後して作成してもよいし、一覧表示等の必要時に作成してもよい。
In the list display of thumbnails of recorded images in the playback mode, the decryption unit 111 and the
本実施例では、再生モードにおいて、テキストによる一覧表示のインデックス画面又は一覧画面とサムネイルによる一覧表示のインデックス画面又は一覧画面を選択できる。図4は、その動作フローチャートを示す。ユーザは、事前に又は再生モードに入った時点で、一覧画面としてテキスト一覧かサムネイル一覧かを設定する。 In the present embodiment, in the playback mode, an index screen or list screen for list display by text and an index screen or list screen for list display by thumbnail can be selected. FIG. 4 shows a flowchart of the operation. The user sets a list screen as a text list or a thumbnail list in advance or when entering the playback mode.
制御部113は、インデックス画面としてテキスト一覧かサムネイル一覧のどちらが選択されているかを調べる(S11)。サムネイル一覧の場合(S11)、インデックス作成部112は、一覧表示する記録画像に対するサムネイルを記録媒体116から読み込む(S12)。もちろん、サムネイルが事前に作成されていない場合には、復号化部111及びサムネイル作成部110が、先に説明したように、必要な記録画像のサムネイルを生成する。そして、インデックス作成部112は、読み込んだ所定数のサムネイルを使って、一覧表示のインデックス画面を生成する(S13)。
The
テキスト一覧の場合(S11)、インデックス作成部112は、一覧表示する各記録画像に対して、付属するテキストデータを記録媒体116から読み込む(S14)。そして、読み込んだ所定数のテキストデータを使って、一覧表示のインデックス画面を生成する(S15)。
In the case of a text list (S11), the
制御部113は、インデックス作成部112により生成されたインデックス画面を表示部108に供給して、表示させる(S16)。図5は、テキストデータによるインデックス画面例を示す。各記録画像に対して、年月日と、入力音声から生成されたテキストが並記される。
The
ユーザが、インデックス画面上で特定の記録画像を選択した場合(S17)、先に説明したように、制御部113は、復号化部111に指示して、選択された記録画像(及び音声)を再生させる(S18)。再生画像信号は表示部108又は外部の映像表示装置により表示され、再生音声信号は図示しないスピーカから出力される。再生の中止又は終了により、インデックス画面に戻る。
When the user selects a specific recorded image on the index screen (S17), as described above, the
また、インデックス画面の表示中に、ユーザが操作部109により画面送りを指示すると(S19)、指示された次の一群の記録画像に対してインデックス画面を作成し、表示する(S11〜S16)。
Further, when the user instructs to move the screen through the
ユーザが、インデックス画面の作成方法の変更を指示する場合には(S20)、テキスト一覧だった場合にはサムネイル一覧で、また、サムネイル一覧だった場合にはテキスト一覧で、インデックス画面を作成し直す(S11〜S16)。 When the user instructs to change the creation method of the index screen (S20), the index screen is recreated with the thumbnail list when the text list is displayed, or with the text list when the list is the thumbnail list. (S11-S16).
図6は、動画に対するサムネイルとテキストデータの対応例を示す。記録された動画像50に対し、一定時間ごとにサムネイル52が作成され、図5に示す例と同様の、音声入力によるテキスト54が付加されている。 FIG. 6 shows an example of correspondence between thumbnails and text data for moving images. A thumbnail 52 is created for the recorded moving image 50 at regular intervals, and a text 54 by voice input is added as in the example shown in FIG.
図6に示すような一連の動画中の途中の画面が再生用に選択された場合、制御部113は、再生開始点として、選択位置(又はフレーム)、選択位置より一定時間前(例えば、数秒前)、及び先頭のいずれかを選択できる。再生開始点は、操作部109により制御部113に事前に設定しておいても、その都度、指定してもよい。選択位置より一定時間前が先頭位置を超える場合、先頭位置からの再生になるのは当然である。通常、見どころは、音声入力の直前から開始していることが多いことから、選択位置より一定時間前から再生開始するのをデフォルトとするのが好ましい。これにより、ユーザの希望する場面を見逃すことなく再生できる。また、動画像50の記録時間が短い場合には一律に先頭から再生を開始するようにしてもよい。
When a screen in the middle of a series of moving images as shown in FIG. 6 is selected for playback, the
本実施例では、撮影時に音声入力したテキストを使うので、所望の画像又はシーンを効率的に検索できる。 In this embodiment, since a text input by voice at the time of shooting is used, a desired image or scene can be searched efficiently.
音声認識結果とシーン設定部115に予め登録したテキストとの類似度も記録することにより、次のような利点がある。すなわち、記録媒体116に大量の映像信号が記録されている場合、シーン毎にインデックス表示を行うと検索性が向上する。例えば、シーン「結婚式」の記録画像を抽出して、一覧表示する。このとき、シーン設定部115に予め登録されているいわば定型文での絞り込み検索が可能になり、検索性が向上する。また、類似度順に一覧を表示することで、検索性が向上する。もちろん、記録媒体116に記録されている全画像を同じテキストで検索でき、様々なシーンの「おめでとう」というテキストが付加された画像を一覧表示できる。
Recording the similarity between the voice recognition result and the text registered in advance in the
制御部113の制御は1つのハードウェアが行ってもよいし、複数のハードウェアが処理を分担することで、装置全体の制御を行ってもよい。例えば、音声認識部106に対応する音声認識機能、テキスト化部107に対応するテキスト化機能、種々のデータを記録媒体116に記録する記録機能などが、制御プログラムとしてソフトウエアでも実現されうる。
The control of the
また、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。さらに、上述した各実施形態は本発明の一実施形態を示すものにすぎず、各実施形態を適宜組み合わせることも可能である。 Although the present invention has been described in detail based on the preferred embodiments thereof, the present invention is not limited to these specific embodiments, and various forms without departing from the gist of the present invention are also included in the present invention. included. Furthermore, each embodiment mentioned above shows only one embodiment of this invention, and it is also possible to combine each embodiment suitably.
また、上記実施形態では、撮像装置での撮像の際に音声認識してキーワードを付与する例を説明したが、再生装置に音声を認識する機能があれば、上記実施の形態で説明した各種キーワードの付与を再生装置で動画を再生することにより行ってもよい。 In the above-described embodiment, an example in which a keyword is given by recognizing voice at the time of imaging with the imaging device has been described. May be performed by reproducing a moving image with a reproducing apparatus.
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)が実行する。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。 The present invention is also realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, or the like) of the system or apparatus executes. In this case, the program and the storage medium storing the program constitute the present invention.
Claims (6)
音声入力手段と、
前記音声入力手段による入力音声を音声認識し、前記入力音声の示すテキストを出力する音声認識手段と、
撮影シーンごとの典型テキストを記憶するシーン設定手段と、
前記音声認識手段による前記テキストと、前記シーン設定手段に記憶される前記典型テキストとの類似度を算出し、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定するテキスト化手段と、
前記映像入力手段により入力される映像と、前記テキスト化手段により決定された記録すべきテキストとを記録媒体に記録する記録手段
とを有することを特徴とする撮像装置。 Video input means;
Voice input means;
Voice recognition means for recognizing an input voice by the voice input means and outputting a text indicated by the input voice;
Scene setting means for storing typical text for each shooting scene;
The similarity between the text by the voice recognition unit and the typical text stored in the scene setting unit is calculated, and the text or the typical text according to the similarity is combined with the video input by the video input unit. Texting means for determining the text to be recorded;
An image pickup apparatus comprising: a recording unit configured to record a video input by the video input unit and a text to be recorded determined by the text unit on a recording medium.
前記記録媒体に記録された前記テキストを使う一覧画面を生成する手段と、
前記一覧画面で選択された画像を再生する再生手段
とを有することを特徴とする請求項1に記載の撮像装置。 further,
Means for generating a list screen using the text recorded in the recording medium;
The imaging apparatus according to claim 1, further comprising a reproducing unit that reproduces an image selected on the list screen.
撮影シーンを設定するステップと、
撮影時の前記音声入力手段による入力音声を音声認識し、前記入力音声の示すテキストを出力する音声認識ステップと、
前記音声認識ステップによる前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出し、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定するテキスト化ステップと、
前記映像入力手段により入力される映像と、前記テキスト化ステップにより決定された記録すべきテキストとを記録媒体に記録する記録ステップ
とを有することを特徴とする撮像装置の制御方法。 A control method for an imaging apparatus having a video input means, a voice input means, and a storage means for storing typical text for each shooting scene,
A step of setting a shooting scene;
A voice recognition step of recognizing voice input by the voice input means at the time of shooting and outputting text indicated by the input voice;
The degree of similarity between the text obtained by the voice recognition step and the typical text corresponding to the set shooting scene is calculated, and the text or the typical text according to the similarity is combined with the video input by the video input unit. A texting step that determines the text to be recorded;
A method for controlling an image pickup apparatus, comprising: a recording step of recording a video input by the video input unit and a text to be recorded determined in the text conversion step on a recording medium.
前記撮像装置に撮影シーンを設定する機能と、
前記撮像装置に、撮影時の前記音声入力手段による入力音声を音声認識させ、前記入力音声の示すテキストを出力させる音声認識機能と、
前記撮像装置に、前記音声認識機能による前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出させ、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定させるテキスト化機能と、
前記撮像装置に、前記映像入力手段により入力される映像と、前記テキスト化機能により決定された記録すべきテキストとを記録媒体に記録させる記録機能
とを有することを特徴とする撮像装置の制御プログラム。 A program for controlling an imaging apparatus having video input means, voice input means, and storage means for storing typical text for each shooting scene,
A function of setting a shooting scene in the imaging device;
A voice recognition function for causing the imaging device to recognize a voice input by the voice input unit at the time of shooting and outputting a text indicated by the input voice;
The imaging apparatus calculates a similarity between the text by the voice recognition function and the typical text corresponding to a set shooting scene, and the text or the typical text according to the similarity is calculated by the video input unit. A text conversion function that allows text to be recorded along with the input video,
A control program for an image pickup apparatus, comprising: a recording function for causing the image pickup apparatus to record a video input by the video input means and a text to be recorded determined by the text conversion function on a recording medium. .
前記撮像装置に撮影シーンを設定する機能と、
前記撮像装置に、撮影時の前記音声入力手段による入力音声を音声認識させ、前記入力音声の示すテキストを出力させる音声認識機能と、
前記撮像装置に、前記音声認識機能による前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出させ、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定させるテキスト化機能と、
前記撮像装置に、前記映像入力手段により入力される映像と、前記テキスト化機能により決定された記録すべきテキストとを記録媒体に記録させる記録機能
とを有することを特徴とする記憶媒体。 A storage medium for storing a program for controlling an image pickup apparatus having a video input means, a voice input means, and a storage means for storing typical text for each shooting scene, wherein the program includes:
A function of setting a shooting scene in the imaging device;
A voice recognition function for causing the imaging device to recognize a voice input by the voice input unit at the time of shooting and outputting a text indicated by the input voice;
The imaging apparatus calculates a similarity between the text by the voice recognition function and the typical text corresponding to a set shooting scene, and the text or the typical text according to the similarity is calculated by the video input unit. A text conversion function that allows text to be recorded along with the input video,
A storage medium comprising: a recording function that causes the imaging device to record a video input by the video input unit and a text to be recorded determined by the text conversion function on a recording medium.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009260653A JP2011109292A (en) | 2009-11-16 | 2009-11-16 | Imaging apparatus, control method and program thereof, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009260653A JP2011109292A (en) | 2009-11-16 | 2009-11-16 | Imaging apparatus, control method and program thereof, and storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011109292A true JP2011109292A (en) | 2011-06-02 |
JP2011109292A5 JP2011109292A5 (en) | 2013-01-10 |
Family
ID=44232324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009260653A Pending JP2011109292A (en) | 2009-11-16 | 2009-11-16 | Imaging apparatus, control method and program thereof, and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011109292A (en) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH099202A (en) * | 1995-06-23 | 1997-01-10 | Ricoh Co Ltd | Index generation method, index generator, indexing device, indexing method, video minute generation method, frame editing method and frame editing device |
JPH09130736A (en) * | 1995-11-02 | 1997-05-16 | Sony Corp | Image pickup device and edit device |
JP2001309282A (en) * | 2000-04-20 | 2001-11-02 | Sony Corp | Method and apparatus for recording of broadcasting program, and reproduction apparatus for the same |
JP2002229996A (en) * | 2001-01-29 | 2002-08-16 | Fuji Xerox Co Ltd | Apparatus and method for displaying search result, and program therefor |
JP2003141124A (en) * | 2001-11-05 | 2003-05-16 | Canon Inc | Digital data processor |
JP2005109775A (en) * | 2003-09-30 | 2005-04-21 | Casio Comput Co Ltd | Apparatus and method for decorating image and portable communication apparatus |
JP2005115607A (en) * | 2003-10-07 | 2005-04-28 | Matsushita Electric Ind Co Ltd | Video retrieving device |
JP2005341138A (en) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | Video summarizing method and program, and storage medium with the program stored therein |
WO2008114811A1 (en) * | 2007-03-19 | 2008-09-25 | Nec Corporation | Information search system, information search method, and information search program |
JP2009130849A (en) * | 2007-11-27 | 2009-06-11 | Toshiba Corp | Scene recognition device and video image processor |
-
2009
- 2009-11-16 JP JP2009260653A patent/JP2011109292A/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH099202A (en) * | 1995-06-23 | 1997-01-10 | Ricoh Co Ltd | Index generation method, index generator, indexing device, indexing method, video minute generation method, frame editing method and frame editing device |
JPH09130736A (en) * | 1995-11-02 | 1997-05-16 | Sony Corp | Image pickup device and edit device |
JP2001309282A (en) * | 2000-04-20 | 2001-11-02 | Sony Corp | Method and apparatus for recording of broadcasting program, and reproduction apparatus for the same |
JP2002229996A (en) * | 2001-01-29 | 2002-08-16 | Fuji Xerox Co Ltd | Apparatus and method for displaying search result, and program therefor |
JP2003141124A (en) * | 2001-11-05 | 2003-05-16 | Canon Inc | Digital data processor |
JP2005109775A (en) * | 2003-09-30 | 2005-04-21 | Casio Comput Co Ltd | Apparatus and method for decorating image and portable communication apparatus |
JP2005115607A (en) * | 2003-10-07 | 2005-04-28 | Matsushita Electric Ind Co Ltd | Video retrieving device |
JP2005341138A (en) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | Video summarizing method and program, and storage medium with the program stored therein |
WO2008114811A1 (en) * | 2007-03-19 | 2008-09-25 | Nec Corporation | Information search system, information search method, and information search program |
JP2009130849A (en) * | 2007-11-27 | 2009-06-11 | Toshiba Corp | Scene recognition device and video image processor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100775176B1 (en) | Thumbnail recording method for providing information of video data and terminal using the same | |
JP3890246B2 (en) | Imaging device | |
WO2008035688A1 (en) | Recording device and method, program, and reproducing device and method | |
JP2013533669A (en) | Video summary instruction metadata storage | |
US20070201832A1 (en) | Recording apparatus, recording method, program for recording method, recording medium recording program for recording method, reproducing apparatus, reproduction method, program for reproduction method, and recording medium recording program for reproduction method | |
KR20140010989A (en) | Video summary including a particular person | |
JP5837922B2 (en) | Ranking key video frames based on camera position | |
JP4958758B2 (en) | Recording apparatus, reproducing apparatus, recording method, reproducing method, and program | |
JP2010237761A (en) | Electronic apparatus | |
JP2009033369A (en) | Recorder, reproducer, recording and reproducing device, imaging device, recording method and program | |
JP2011041154A (en) | Image processing apparatus and image processing method | |
JP2008097727A (en) | Animation-reproducing device | |
JP3780252B2 (en) | Recording / reproducing apparatus and recording / reproducing method | |
JP2011109292A (en) | Imaging apparatus, control method and program thereof, and storage medium | |
JP2007235432A (en) | Image sound recorder and image sound recording control program | |
JP6463967B2 (en) | Imaging apparatus and control method thereof | |
JP2013021654A (en) | Reproduction apparatus | |
JP4177081B2 (en) | Image reproducing apparatus and method | |
JP2010287974A (en) | Mobile phone and program | |
JP2011139300A (en) | Image processing apparatus and program | |
JP2004120279A (en) | Device and method for editing moving image text, and editing program | |
JP2007067768A (en) | Reproducing apparatus and method, recording apparatus and method, and program | |
JP2015192336A (en) | Image processing device and digital camera | |
JP2017069596A (en) | Image processing device and method | |
JP2023162709A (en) | Imaging device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121115 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140312 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141104 |