JP7441028B2 - 制御装置、制御方法、及びプログラム - Google Patents

制御装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP7441028B2
JP7441028B2 JP2019196615A JP2019196615A JP7441028B2 JP 7441028 B2 JP7441028 B2 JP 7441028B2 JP 2019196615 A JP2019196615 A JP 2019196615A JP 2019196615 A JP2019196615 A JP 2019196615A JP 7441028 B2 JP7441028 B2 JP 7441028B2
Authority
JP
Japan
Prior art keywords
state
system control
digital camera
control unit
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019196615A
Other languages
English (en)
Other versions
JP2021071540A (ja
Inventor
瑠璃果 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019196615A priority Critical patent/JP7441028B2/ja
Priority to US17/075,208 priority patent/US11588981B2/en
Publication of JP2021071540A publication Critical patent/JP2021071540A/ja
Application granted granted Critical
Publication of JP7441028B2 publication Critical patent/JP7441028B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/73Circuitry for compensating brightness variation in the scene by influencing the exposure time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B31/00Associated working of cameras or projectors with sound-recording or sound-reproducing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Studio Devices (AREA)
  • Lens Barrels (AREA)

Description

本発明は、制御装置、制御方法、及びプログラムに関する。
近年、音声を入力すると入力内容を認識し、認識結果に対応する操作を行うことができる、音声操作機能を搭載した撮像装置が知られている。音声操作は、手番がかかる操作や覚えることが難しい複雑な操作に対して有用であり、1度の音声入力で操作が可能となる。しかし、入力内容からのみ処理内容を決定する単純な音声操作では、撮像装置がユーザの意図に沿わない処理をする可能性があり、その場合は操作のやり直しをしなくてはならなくなり、手間が増えてしまう。
そこで、音声認識や処理内容決定の基準として音声入力の内容以外の情報を利用することで、ユーザの意図に沿う処理が行われる可能性を向上させることが考えられる。例えば、撮影時に音声入力が撮像装置の操作者又は被写体どちらから行われたかを特定し、その結果に応じて音声認識条件を変更して撮影に関する処理を行う技術が知られている(特許文献1参照)。
特開2014-122978号公報
撮像装置の状態として、撮影可能な撮影状態、撮像装置の設定を変更可能なメニュー表示状態、撮影した画像を閲覧可能な再生表示状態などの撮像装置自体の状態が考えられる。ユーザが同じ言葉で音声入力を行った場合であっても、撮像装置の状態に応じてユーザの意図が異なる場合がある。例えば、撮影状態において「明るくして」という音声入力があった場合、撮影に関する設定である露出を明るくすることをユーザが意図していると推測できる。一方、再生表示状態又はメニュー表示状態において同様に「明るくして」という音声入力があった場合、露出ではなくディスプレイを明るくすることをユーザが意図している可能性がある。
しかしながら、特許文献1では、撮影状態の場合と再生表示状態又はメニュー表示状態の場合とでユーザの意図が異なる可能性を考慮していない。
本発明はこのような状況に鑑みてなされたものであり、音声認識を利用して撮像装置の処理を制御する場合に、ユーザの意図に沿う処理が行われる可能性を向上させる技術を提供することを目的とする。
上記課題を解決するために、本発明は、音声認識により識別されたユーザ指示を取得する第1の取得手段と、撮像装置の現在の状態を判定する判定手段と、前記ユーザ指示に対応する、前記撮像装置が実行可能な処理を識別する識別手段と、前記識別手段により1つの処理が識別された場合、前記撮像装置が前記識別された1つの処理を行うように制御し、前記識別手段により複数の処理が識別された場合、前記現在の状態が第1の状態である場合、前記撮像装置が前記識別された複数の処理のうち前記第1の状態に関連付けられた処理を行うように制御し、前記現在の状態が第2の状態である場合、前記撮像装置が前記識別された複数の処理のうち前記第2の状態に関連付けられた処理を行うように制御する制御手段と、を備え、前記現在の状態が前記第1の状態であり、前記識別された複数の処理のうち2以上の処理が前記第1の状態に関連付けられている場合、前記制御手段は、ユーザ操作に従って当該2以上の処理のうち1つの処理を選択し、前記撮像装置が前記選択された1つの処理を行うように制御することを特徴とする制御装置を提供する。
本発明によれば、音声認識を利用して撮像装置の処理を制御する場合に、ユーザの意図に沿う処理が行われる可能性を向上させることが可能となる。
なお、本発明のその他の特徴及び利点は、添付図面及び以下の発明を実施するための形態における記載によって更に明らかになるものである。
デジタルカメラ100の外観図。 デジタルカメラ100の構成例を示すブロック図。 第1の実施形態に係る音声制御処理のフローチャート。 第1の実施形態に係る音声制御処理のフローチャート。 第1の実施形態に係る音声制御処理のフローチャート。 第1の実施形態に係る音声制御処理のフローチャート。 デジタルカメラ100の状態の例を示す図。 図3の音声制御処理に従って、音声認識結果及びデジタルカメラ100の状態に応じて選択される処理内容を整理した表。 第2の実施形態に係る音声制御処理のフローチャート。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
図1(a)及び図1(b)に、本発明を適用可能な装置の一例としてのデジタルカメラ100の外観図を示す。図1(a)はデジタルカメラ100の前面斜視図であり、図1(b)はデジタルカメラ100の背面斜視図である。
図1において、表示部28は画像や各種情報を表示する、カメラ背面に設けられた表示部である。ファインダ外表示部43は、カメラ上面に設けられた表示部であり、シャッター速度や絞りをはじめとするカメラの様々な設定値が表示される。シャッターボタン61は撮影指示を行うための操作部である。モード切替スイッチ60は各種モードを切り替えるための操作部である。端子カバー40は、外部機器とデジタルカメラ100とを接続する接続ケーブル等のためのコネクタ(不図示)を保護するカバーである。
メイン電子ダイヤル71は、図2に示す操作部70に含まれる回転操作部材であり、このメイン電子ダイヤル71を回すことで、シャッター速度や絞りなどの設定値の変更等が行える。電源スイッチ72はデジタルカメラ100の電源のON及びOFFを切り替える操作部材である。サブ電子ダイヤル73は操作部70に含まれる回転操作部材であり、選択枠の移動や画像送りなどを行える。十字キー74は操作部70に含まれ、上、下、左、右部分をそれぞれ押し込み可能な十字キー(4方向キー)である。十字キー74の押した部分に応じた操作が可能である。SETボタン75は操作部70に含まれる押しボタンであり、主に選択項目の決定などに用いられる。LVボタン76は操作部70に含まれ、ライブビュー(以下、LV)のONとOFFを切り替えるボタンである。動画撮影モードにおいては、動画撮影(記録)の開始、停止の指示に用いられる。拡大ボタン77は操作部70に含まれ、撮影モードのライブビュー表示において拡大モードのONとOFFの切り替えを行い、また、拡大モード中の拡大率の変更を行うための操作ボタンである。再生モードにおいては再生画像を拡大し、拡大率を増加させるための拡大ボタンとして機能する。縮小ボタン78は操作部70に含まれ、拡大された再生画像の拡大率を低減させ、表示された画像を縮小させるためのボタンである。再生ボタン79は操作部70に含まれ、撮影モードと再生モードとを切り替える操作ボタンである。撮影モード中に再生ボタン79を押下することで再生モードに移行し、図2に示す記録媒体200に記録された画像のうち最新の画像を表示部28に表示させることができる。
クイックリターンミラー12は、図2に示すシステム制御部50からの指示に従い、不図示のアクチュエータによりアップダウンされる。通信端子10はデジタルカメラ100がレンズ側(着脱可能)と通信を行うための通信端子である。接眼ファインダ16は、ユーザが図2に示すフォーカシングスクリーン13を観察するための覗き込み型のファインダである。ユーザは、接眼ファインダ16を介してフォーカシングスクリーン13を観察することで、レンズユニット150を通して得た被写体の光学像の焦点や構図の確認を行うことができる。蓋202は記録媒体200を格納するスロットの蓋である。グリップ部90は、ユーザがデジタルカメラ100を構えた際に右手で握りやすい形状とした保持部である。
図2は、デジタルカメラ100の構成例を示すブロック図である。図2において、レンズユニット150は、撮影レンズを搭載する交換可能なレンズユニットである。レンズ103は通常、複数枚のレンズから構成されるが、ここでは簡略化して1枚のレンズのみで示している。通信端子6はレンズユニット150がデジタルカメラ100側と通信を行うための通信端子であり、通信端子10はデジタルカメラ100がレンズユニット150側と通信を行うための通信端子である。レンズユニット150は、この通信端子6,10を介してシステム制御部50と通信し、内部のレンズシステム制御回路4によって絞り駆動回路2を介して絞り1の制御を行い、AF駆動回路3を介してレンズ103の位置を変位させることで焦点を合わせる。
AEセンサ17は、レンズユニット150を通した被写体の輝度を測光する。焦点検出部11は、システム制御部50にデフォーカス量情報を出力する。システム制御部50はデフォーカス量情報に基づいてレンズユニット150を制御し、位相差AFを行う。
クイックリターンミラー12は、露光、ライブビュー撮影、動画撮影の際にシステム制御部50から指示されて、不図示のアクチュエータによりアップダウンされる。クイックリターンミラー12は、レンズ103から入射した光束を接眼ファインダ16側と撮像部22側とに切替えるためのミラーである。クイックリターンミラー12は通常時は接眼ファインダ16へと光束を導くよう反射させるように配置されているが、撮影が行われる場合やライブビュー表示の場合には、撮像部22へと光束を導くように上方に跳ね上がり光束中から待避する(ミラーアップ)。またクイックリターンミラー12はその中央部が光の一部を透過できるようにハーフミラーとなっており、光束の一部を、焦点検出を行うための焦点検出部11に入射するように透過させる。
撮影者は、ペンタプリズム14と接眼ファインダ16を介して、フォーカシングスクリーン13を観察することで、レンズユニット150を通して得た被写体の光学像の焦点や構図の確認が可能となる。
シャッター101は、システム制御部50の制御で撮像部22の露光時間を自由に制御できるフォーカルプレーンシャッターである。撮像部22は光学像を電気信号に変換するCCDやCMOS素子等で構成される撮像素子である。A/D変換器23は、アナログ信号をデジタル信号に変換する。A/D変換器23は、撮像部22から出力されるアナログ信号をデジタル信号に変換するために用いられる。
画像処理部24は、A/D変換器23からのデータ、又は、メモリ制御部15からのデータに対し所定の画素補間、縮小といったリサイズ処理や色変換処理を行う。また、画像処理部24では、撮像した画像データを用いて所定の演算処理が行われ、得られた演算結果に基づいてシステム制御部50が露光制御、測距制御を行う。これにより、TTL(スルー・ザ・レンズ)方式のAF(オートフォーカス)処理、AE(自動露出)処理、EF(フラッシュプリ発光)処理が行われる。画像処理部24では更に、撮像した画像データを用いて所定の演算処理を行い、得られた演算結果に基づいてTTL方式のAWB(オートホワイトバランス)処理も行っている。
A/D変換器23からの出力データは、画像処理部24及びメモリ制御部15を介して、或いは、メモリ制御部15を直接介して、メモリ32に書き込まれる。メモリ32は、撮像部22によって得られA/D変換器23によりデジタルデータに変換された画像データや、表示部28に表示するための画像データを格納する。メモリ32は、所定枚数の静止画像や所定時間の動画像及び音声を格納するのに十分な記憶容量を備えている。
また、メモリ32は画像表示用のメモリ(ビデオメモリ)を兼ねている。D/A変換器19は、メモリ32に格納されている画像表示用のデータをアナログ信号に変換して表示部28に供給する。こうして、メモリ32に書き込まれた表示用の画像データはD/A変換器19を介して表示部28により表示される。表示部28は、LCD等の表示器上に、D/A変換器19からのアナログ信号に応じた表示を行う。A/D変換器23によって一度A/D変換されメモリ32に蓄積されたデジタル信号をD/A変換器19においてアナログ変換し、表示部28に逐次転送して表示することで、表示部28は電子ビューファインダとして機能する。これにより、スルー画像表示(ライブビュー表示)を行える。
ファインダ内表示部41には、ファインダ内表示部駆動回路42を介して、現在オートフォーカスが行われている測距点を示す枠(AF枠)や、カメラの設定状態を表すアイコンなどが表示される。
ファインダ外表示部43には、ファインダ外表示部駆動回路44を介して、シャッター速度や絞りをはじめとするカメラの様々な設定値が表示される。
不揮発性メモリ56は、電気的に消去・記録可能なメモリであり、例えばEEPROM等が用いられる。不揮発性メモリ56には、システム制御部50の動作用の定数、プログラム等が記憶される。ここでいう、プログラムとは、本実施形態にて後述する各種フローチャートを実行するためのプログラムのことである。
システム制御部50は、少なくとも1つのプロセッサーを有する制御部であり、デジタルカメラ100全体を制御する。前述した不揮発性メモリ56に記録されたプログラムを実行することで、後述する本実施形態の各処理を実現する。52はシステムメモリであり、RAMが用いられる。システムメモリ52には、システム制御部50の動作用の定数、変数、不揮発性メモリ56から読み出したプログラム等を展開する。また、システム制御部はメモリ32、D/A変換器19、表示部28等を制御することにより表示制御も行う。
システムタイマー53は各種制御に用いる時間や、内蔵された時計の時間を計測する計時部である。
モード切替スイッチ60、第1シャッタースイッチ62、第2シャッタースイッチ64、及び操作部70は、システム制御部50に各種の動作指示を入力するための操作部材である。モード切替スイッチ60は、システム制御部50の動作モードを静止画記録モード、動画撮影モード、再生モード等のいずれかに切り替える。静止画記録モードに含まれるモードとして、オート撮影モード、オートシーン判別モード、マニュアルモード、絞り優先モード(Avモード)、シャッター速度優先モード(Tvモード)がある。また、撮影シーン別の撮影設定となる各種シーンモード、プログラムAEモード、カスタムモード等がある。モード切替スイッチ60で、これらのモードのいずれかに直接切り替えられる。あるいは、モード切替スイッチ60で撮影モードの一覧画面に一旦切り換えた後に、表示された複数のモードのいずれかを選択し、他の操作部材を用いてモードを切り替えるようにしてもよい。同様に、動画撮影モードにも複数のモードが含まれていてもよい。
第1シャッタースイッチ62は、デジタルカメラ100に設けられたシャッターボタン61の操作途中、いわゆる半押し(撮影準備指示)でONとなり第1シャッタースイッチ信号SW1を発生する。第1シャッタースイッチ信号SW1により、AF(オートフォーカス)処理、AE(自動露出)処理、AWB(オートホワイトバランス)処理、EF(フラッシュプリ発光)処理等の動作を開始する。
第2シャッタースイッチ64は、シャッターボタン61の操作完了、いわゆる全押し(撮影指示)でONとなり、第2シャッタースイッチ信号SW2を発生する。システム制御部50は、第2シャッタースイッチ信号SW2により、撮像部22からの信号読み出しから記録媒体200に画像データを書き込むまでの一連の撮影処理の動作を開始する。
操作部70の各操作部材には、表示部28に表示される種々の機能アイコンを選択操作することなどにより、場面ごとに適宜機能が割り当てられ、各種機能ボタンとして作用する。機能ボタンとしては、例えば終了ボタン、戻るボタン、画像送りボタン、ジャンプボタン、絞込みボタン、属性変更ボタン等がある。例えば、メニューボタンが押されると各種の設定可能なメニュー画面が表示部28に表示される。ユーザは、表示部28に表示されたメニュー画面、並びに、上下左右の4方向キー(十字キー74)及びSETボタン75を用いて、直感的に各種設定を行うことができる。
操作部70は、ユーザからの操作を受け付ける入力部としての各種操作部材を含む。操作部70には、少なくとも以下の操作部材が含まれる。シャッターボタン61、メイン電子ダイヤル71、電源スイッチ72、サブ電子ダイヤル73、十字キー74、SETボタン75、LVボタン76、拡大ボタン77、縮小ボタン78、再生ボタン79。
電源制御部80は、電池検出回路、DC-DCコンバータ、通電するブロックを切り替えるスイッチ回路等により構成され、電池の装着の有無、電池の種類、電池残量の検出を行う。また、電源制御部80は、その検出結果及びシステム制御部50の指示に基づいてDC-DCコンバータを制御し、必要な電圧を必要な期間、記録媒体200を含む各部へ供給する。電源部30は、アルカリ電池やリチウム電池等の一次電池、NiCd電池やNiMH電池、Li電池等の二次電池、又はACアダプター等を含む。
記録媒体I/F18は、メモリカードやハードディスク等の記録媒体200とのインタフェースである。記録媒体200は、撮影された画像を記録するためのメモリカード等の記録媒体であり、半導体メモリや磁気ディスク等から構成される。
通信部54は、無線又は有線ケーブルによって外部機器と接続し、映像信号や音声信号の送受信を行う。通信部54は無線LAN(Local Area Network)やインターネットとも接続可能である。通信部54は撮像部22で撮像した画像(スルー画像を含む)や、記録媒体200に記録された画像を送信可能であり、また、外部機器から画像データやその他の各種情報を受信することができる。
姿勢検知部55は重力方向に対するデジタルカメラ100の姿勢を検知する。姿勢検知部55で検知された姿勢に基づいて、撮像部22で撮影された画像が、デジタルカメラ100を横に構えて撮影された画像であるか、縦に構えて撮影された画像なのかを判別可能である。システム制御部50は、姿勢検知部55で検知された姿勢に応じた向き情報を撮像部22で撮像された画像の画像ファイルに付加したり、画像を回転して記録したりすることが可能である。姿勢検知部55としては、加速度センサやジャイロセンサなどを用いることができる。
音声入力部85は、不図示のマイクロフォンで構成され、音を取得する処理を行う。
また、デジタルカメラ100のような撮像装置本体に限らず、有線又は無線通信を介して撮像装置(ネットワークカメラを含む)と通信し、撮像装置を遠隔で制御する制御装置にも本実施形態の各種構成及び動作を適用可能である。撮像装置を遠隔で制御する制御装置としては、例えば、スマートフォンやタブレットPC、デスクトップPCなどの装置がある。制御装置側で行われた操作や制御装置側で行われた処理に基づいて、制御装置側から撮像装置に各種動作や設定を行わせるコマンドを通知することにより、撮像装置を遠隔から制御可能である。また、撮像装置で撮影したライブビュー画像を有線又は無線通信を介して受信して制御装置側で表示できるようにしてもよい。
次に、図3A~図3D、図4、及び図5を参照して、第1の実施形態に係る音声制御処理について説明する。図3A~図3Dは、第1の実施形態に係る音声制御処理のフローチャートである。本フローチャートの各ステップの処理は、特に断らない限り、システム制御部50が不揮発性メモリ56に格納されたプログラムをメモリ32に展開して実行することにより実現される。デジタルカメラ100の起動後、又は、デジタルカメラ100が音声操作可能な状態の場合に、本フローチャートの処理が開始する。
S301で、システム制御部50は、音声入力が開始されたか否かを判定する。音声入力の開始の判定方法としては、音声入力部85から特定の言葉を検出する方法を用いることができる。特定の言葉の検出は、あらかじめ特定の言葉の音声信号の波形を記録しておき、取得された音声の波形と比較して一定以上類似しているかどうかを判断することで検出してもよい。また、特定の言葉の音声信号を入力とし、検出するという結果を教師データとして学習した学習済みモデルを用意し、この学習済みモデルに取得された音声を入力として推論させることで検出してもよい。或いは、操作部70から特定の操作を検出する方法のようなユーザ操作に基づく判定方法を用いることもできる。音声入力が開始されたとシステム制御部50が判定した場合、処理はS302に進み、そうでない場合、再びS301の判定処理が行われる。
S302で、システム制御部50は、音声入力部85を介して音声を取得し、取得した音声をメモリ32に保持する。S303で、システム制御部50は、音声入力が終了されたか否かを判定する。音声入力の終了の判定方法としては、音声入力部85から取得した音量が予め定めた閾値以下になってから予め定めた閾値時間経過したことにより終了と判定する方法を用いることができる。或いは、操作部70から特定の操作を検出する方法のようなユーザ操作に基づく判定方法を用いることもできる。音声入力が終了されたとシステム制御部50が判定した場合、処理はS305に進み、そうでない場合、処理はS304に進む。
S304で、システム制御部50は、音声入力を途中で止めるキャンセル指示が入力されたか否かを判定する。キャンセル指示の入力の判定方法としては、操作部70で特定の操作を検出する方法といったユーザ操作に基づく判定方法を用いることができる。キャンセル指示が入力されたとシステム制御部50が判定した場合、処理はS301へ戻り、そうでない場合、処理はS302に戻る。
S305で、システム制御部50は、S302において取得された音声をメモリ32から読み出し、音声の認識を行い、音声認識結果をメモリ32に格納する。音声の認識は、あらかじめ定められた音声信号の波形と、取得された音声の波形とを比較して、一定以上類似しているかどうかを判断することで認識してもよい。また、あらかじめ定められた音声信号を入力とし、その音声を入力された際に望ましい認識結果を教師データとして学習した学習済みモデルを用意し、この学習済みモデルに、取得された音声を入力として推論させることで認識してもよい。S306で、システム制御部50は、音声認識結果をメモリ32から読み出し、音声認識結果に基づいて音声認識が成功したか否かを判定する。音声認識が成功したとシステム制御部50が判定した場合、処理はS308に進み、そうでない場合、処理はS307に進む。
S307で、システム制御部50は、音声入力を再度行うか否かを判定する。音声入力を再度行うか否かの判定方法としては、音声入力部85で特定の言葉を検出する方法を用いることができる。或いは、操作部70で特定の操作を検出する方法のようなユーザ操作に基づく判定方法を用いることもできる。音声入力を再度行うとシステム制御部50が判定した場合、処理はS302に戻り、そうでない場合、処理はS301へ戻る。
S308で、システム制御部50は、メモリ32から読み出した音声認識結果に明暗に関する言葉が含まれているか否かを判定する。明暗に関する言葉とは、例えば、「明るくして」や「暗くしたい」等の言葉を指す。また、「明るい」や「暗い」だけでなく類義語や同様の意味を成す言葉でもよい。音声認識結果に明暗に関する言葉が含まれているとシステム制御部50が判定した場合、処理はS313に進み、そうでない場合、処理はS309に進む。
S309で、システム制御部50は、メモリ32から読み出した音声認識結果に拡大又は縮小(以下、単に「拡大/縮小」と記載する)に関する言葉が含まれているか否かを判定する。拡大/縮小に関する言葉とは、例えば、「拡大して」や「縮小したい」等の言葉を指す。また、「拡大」や「縮小」だけでなく類義語や同様の意味を成す言葉でもよい。音声認識結果に拡大/縮小に関する言葉が含まれているとシステム制御部50が判定した場合、処理はS316に進み、そうでない場合、処理はS310に進む。
S310で、システム制御部50は、メモリ32から読み出した音声認識結果にズームイン又はズームアウト(以下、単に「ズームイン/アウト」と記載する)に関する言葉が含まれているか否かを判定する。ズームイン/アウトに関する言葉とは、例えば、「ズームインして」や「ズームアウトしたい」等の言葉を指す。また、「ズームイン」や「ズームアウト」だけでなく類義語や同様の意味を成す言葉でもよい。音声認識結果にズームイン/アウトに関する言葉が含まれているとシステム制御部50が判定した場合、処理はS321に進み、そうでない場合、処理はS311に進む。
S311で、システム制御部50は、メモリ32から読み出した音声認識結果に音消去(消音)に関する言葉が含まれているか否かを判定する。音消去に関する言葉とは、例えば、「音消して」等の言葉を指す。また、「音を消す」だけでなく類義語や同様の意味を成す言葉でもよい。音声認識結果に音消去に関する言葉が含まれているとシステム制御部50が判定した場合、処理はS325に進み、そうでない場合、処理はS312に進む。
S312で、システム制御部50は、メモリ32から読み出した音声認識結果に消去に関する言葉が含まれているか否かを判定する。消去に関する言葉とは、例えば、「消して」等の言葉を指す。また、「消す」だけでなく類義語や同様の意味を成す言葉でもよい。音声認識結果に消去に関する言葉が含まれているとシステム制御部50が判定した場合、処理はS329に進み、そうでない場合、処理はS333に進む。
次に、音声認識結果に明暗に関する言葉が含まれている場合(処理がS308からS313へと進んだ場合)について説明する。S313で、システム制御部50は、デジタルカメラ100が撮影状態であるか否かを判定する。デジタルカメラ100が撮影状態であるとシステム制御部50が判定した場合、処理はS314に進む。そうでない場合(例えば、デジタルカメラ100が再生表示状態、メニュー表示状態、又は通信状態である場合)、処理はS315に進む。
ここで図4を参照して、デジタルカメラ100が撮影状態であるか否かを判定する方法の例を説明する。システム制御部50は、図4の左上に示す表示画面400のような撮影用の表示画面が表示部28に表示されている場合に、デジタルカメラ100が撮影状態であると判定することができる。この判定方法は、他のステップにおける撮影状態の判定にも利用することができる。このように、システム制御部50は、表示部28の表示内容に基づいてデジタルカメラ100の現在の状態を判定することができるが、判定方法はこれに限定されない。
S314で、システム制御部50は、メモリ32から読み出した明暗に関する音声認識結果に合わせて、露出の制御を行う。例えば、システム制御部50は、音声認識結果が「明るくして」等の明に関する言葉であれば露出を明るくし、音声認識結果が「暗くして」等の暗に関する言葉であれば露出を暗くする。その後、処理はS301へ戻る。
S315で、システム制御部50は、メモリ32から読み出した明暗に関する音声認識結果に合わせて、表示部28(ディスプレイ)の明度の制御を行う。例えば、システム制御部50は、音声認識結果が「明るくして」等の明に関する言葉であれば表示部28の明度を明るくし、音声認識結果が「暗くして」等の暗に関する言葉であれば表示部28の明度を暗くする。その後、処理はS301へ戻る。
次に、音声認識結果に拡大/縮小に関する言葉が含まれている場合(処理がS309からS316へと進んだ場合)について説明する。S316で、システム制御部50は、デジタルカメラ100が撮影状態であるか否かを判定する。デジタルカメラ100が撮影状態であるとシステム制御部50が判定した場合、処理はS318に進む。そうでない場合(例えば、デジタルカメラ100が再生表示状態、メニュー表示状態、又は通信状態である場合)、処理はS317に進む。
S317で、システム制御部50は、デジタルカメラ100が再生表示状態であるか否かを判定する。再生表示状態とは、撮影した画像を閲覧可能な表示が行われている状態である。デジタルカメラ100が再生表示状態であるとシステム制御部50が判定した場合、処理はS319に進み、そうでない場合(例えば、デジタルカメラ100がメニュー表示状態又は通信状態である場合)、処理はS320に進む。
ここで図4を参照して、デジタルカメラ100が再生表示状態であるか否かを判定する方法の例を説明する。システム制御部50は、図4の左下に示す表示画面402のような再生用(撮影した画像の閲覧用)の表示画面が表示部28に表示されている場合に、デジタルカメラ100が再生表示状態であると判定することができる。この判定方法は、他のステップにおける再生表示状態の判定にも利用することができる。
S318で、システム制御部50は、メモリ32から読み出した拡大/縮小に関する音声認識結果に合わせて、表示部28で表示しているライブビュー画像(LV画像)の拡大/縮小の制御を行う。例えば、システム制御部50は、音声認識結果が「拡大して」等の拡大に関する言葉であればLV画像を拡大し、音声認識結果が「縮小して」等の縮小に関する言葉であればLV画像を縮小する。その後、処理はS301へ戻る。
S319で、システム制御部50は、メモリ32から読み出した拡大/縮小に関する音声認識結果に合わせて、表示部28で表示している再生画像の拡大/縮小の制御を行う。例えば、システム制御部50は、音声認識結果が「拡大して」等の拡大に関する言葉であれば再生画像(写真)を拡大し、音声認識結果が「縮小して」等の縮小に関する言葉であれば再生画像(写真)を縮小する。その後、処理はS301へ戻る。
S320で、システム制御部50は、メモリ32から読み出した拡大/縮小に関する音声認識結果に合わせて、表示部28で表示している文字の拡大/縮小の制御を行う。例えば、システム制御部50は、音声認識結果が「拡大して」等の拡大に関する言葉であれば文字(フォント)を拡大し、音声認識結果が「縮小して」等の縮小に関する言葉であれば文字(フォント)を縮小する。その後、処理はS301へ戻る。
次に、音声認識結果にズームイン/アウトに関する言葉が含まれている場合(処理がS310からS321へと進んだ場合)について説明する。S321で、システム制御部50は、デジタルカメラ100が撮影状態であるか否かを判定する。デジタルカメラ100が撮影状態であるとシステム制御部50が判定した場合、処理はS323に進む。そうでない場合(例えば、デジタルカメラ100が再生表示状態、メニュー表示状態、又は通信状態である場合)、処理はS322に進む。
S322で、システム制御部50は、デジタルカメラ100がメニュー表示状態であるか否かを判定する。メニュー表示状態とは、デジタルカメラ100の設定を変更可能なメニューが表示されている状態である。デジタルカメラ100がメニュー表示状態であるとシステム制御部50が判定した場合、処理はS324に進む。そうでない場合(例えば、デジタルカメラ100が再生表示状態又は通信状態である場合)、処理はS301に戻る。
ここで図4を参照して、デジタルカメラ100がメニュー表示状態であるか否かを判定する方法の例を説明する。システム制御部50は、図4の右上に示す表示画面404のようなメニュー表示画面が表示部28に表示されている場合に、デジタルカメラ100がメニュー表示状態であると判定することができる。この判定方法は、他のステップにおけるメニュー表示状態の判定にも利用することができる。
また、S322においてデジタルカメラ100がメニュー表示状態であると判定された場合、システム制御部50は、音声認識結果に対応する設定項目を特定し、対応するメニュー項目が表示部28に表示がされているか否かを判定してもよい。例えば、システム制御部50は、メニュー画面の拡大/縮小を指示するためのメニュー項目が表示部28に表示されているか否かを判定する。メニュー画面の拡大/縮小を指示するためのメニュー項目が表示部28に表示されている場合、処理はS324に進み、メニュー画面の拡大/縮小の制御(詳細は後述)が行われる。反対に、メニュー画面の拡大/縮小を指示するためのメニュー項目が表示部28に表示されていない場合、メニュー画面の拡大/縮小の制御は行われわれず、処理はS301へ戻る。
S323で、システム制御部50は、メモリ32から読み出したズームイン/アウトに関する音声認識結果に合わせて、通信端子6,10を通してレンズユニット150(光学系)のズームイン/アウトの制御を行う。例えば、システム制御部50は、音声認識結果が「ズームインして」等のズームインに関する言葉であればレンズユニット150のズームイン制御を行う。一方、システム制御部50は、音声認識結果が「ズームアウトして」等のズームアウトに関する言葉であればレンズユニット150のズームアウト制御を行う。その後、処理はS301へ戻る。
S324で、システム制御部50は、メモリ32から読み出したズームイン/アウトに関する音声認識結果に合わせて、表示部28の表示(メニュー画面)の拡大/縮小の制御を行う。例えば、システム制御部50は、音声認識結果が「ズームインして」等のズームインに関する言葉であれば表示画面を拡大し、音声認識結果が「ズームアウトして」等のズームアウトに関する言葉であれば表示画面を(例えば通常表示に)縮小する。その後、処理はS301へ戻る。
次に、音声認識結果に音消去(消音)に関する言葉が含まれている場合(処理がS311からS325へと進んだ場合)について説明する。S325で、システム制御部50は、デジタルカメラ100が撮影状態であるか否かを判定する。デジタルカメラ100が撮影状態であるとシステム制御部50が判定した場合、処理はS327に進む。そうでない場合(例えば、デジタルカメラ100が再生表示状態、メニュー表示状態、又は通信状態である場合)、処理はS326に進む。
S326で、システム制御部50は、デジタルカメラ100が再生表示状態又はメニュー表示状態であるか否かを判定する。デジタルカメラ100が再生表示状態又はメニュー表示状態であるとシステム制御部50が判定した場合、処理はS328に進む。そうでない場合(例えば、デジタルカメラ100が通信状態である場合)、処理はS301へ戻る。
S327で、システム制御部50は、メモリ32から読み出した音消去(消音)に関する音声認識結果に合わせてシャッター101の制御を行う。具体的には、システム制御部50は、シャッター101の設定を、撮影時にシャッター音が鳴らない設定(サイレントシャッター)にする。その後、処理はS301へ戻る。
S328で、システム制御部50は、メモリ32から読み出した音消去(消音)に関する音声認識結果に合わせて音声出力部(不図示)の制御を行う。具体的には、システム制御部50は、音声出力部の設定を、操作音を出力しない設定にする。その後、処理はS301へ戻る。
次に、音声認識結果に消去に関する言葉が含まれている場合(処理がS312からS329へと進んだ場合)について説明する。S329で、システム制御部50は、デジタルカメラ100が撮影状態又はメニュー表示状態であるか否かを判定する。デジタルカメラ100が再生表示状態又はメニュー表示状態であるとシステム制御部50が判定した場合、処理はS331に進む。そうでない場合(例えば、デジタルカメラ100が再生表示状態又は通信状態である場合)、処理はS330に進む。
S330で、システム制御部50は、デジタルカメラ100が再生表示状態であるか否かを判定する。デジタルカメラ100が再生表示状態であるとシステム制御部50が判定した場合、処理はS332に進む。そうでない場合(例えば、デジタルカメラ100が通信状態である場合)、処理はS301へ戻る。
S331で、システム制御部50は、メモリ32から読み出した消去に関する音声認識結果に従い、表示部28を消灯する(オフにする)。その後、処理はS301へ戻る。
S332で、システム制御部50は、メモリ32から読み出した消去に関する音声認識結果に従い、再生画像(写真)を削除する。削除する再生画像は、例えば表示部28で表示している再生画像である。或いは、システム制御部50は、2枚以上の画像を削除してもよい。また、再生画像を削除する処理は、記録媒体200から再生画像のデータを削除する処理であってもよいし、記録媒体200にある別フォルダに再生画像のデータを移動する処理であってもよい。その後、処理はS301へ戻る。
次に、S312において音声認識結果に消去に関する言葉が含まれていないと判定された場合(処理がS312からS333へと進んだ場合)について説明する。S333で、システム制御部50は、デジタルカメラ100が撮影状態であるか否かを判定する。ここでの判定には、モード切替スイッチ60で切り替えられる撮影モードの中でどの撮影モードが選択されているかの判定を加えてもよい。デジタルカメラ100が撮影状態であるとシステム制御部50が判定した場合、処理はS336に進む。そうでない場合(例えば、デジタルカメラ100が再生表示状態、メニュー表示状態、又は通信状態である場合)、処理はS334に進む。
S334で、システム制御部50は、デジタルカメラ100がメニュー表示状態であるか否かを判定する。デジタルカメラ100がメニュー表示状態であるとシステム制御部50が判定した場合、処理はS337に進む。そうでない場合(例えば、デジタルカメラ100が再生表示状態又は通信状態である場合)、処理はS335に進む。
S335で、システム制御部50は、デジタルカメラ100が再生表示状態であるか否かを判定する。デジタルカメラ100が再生表示状態であるとシステム制御部50が判定した場合、処理はS338に進む。そうでない場合(例えば、デジタルカメラ100が通信状態である場合)、処理はS339に進む。
S336で、システム制御部50は、メモリ32から読み出した音声認識結果に合わせて、撮影状態に関する処理を行う。このとき、撮影用のUI(例えば、露出表示)が接眼ファインダ16に表示されている場合も、表示部28に表示されている場合も、システム制御部50は同様の処理を行う。その後、処理はS301へ戻る。
S337で、システム制御部50は、メモリ32から読み出した音声認識結果に合わせて、メニュー表示状態に関する処理を行う。その後、処理はS301へ戻る。
S338で、システム制御部50は、メモリ32から読み出した音声認識結果に合わせて、再生表示状態に関する処理を行う。その後、処理はS301へ戻る。
S339で、システム制御部50は、メモリ32から読み出した音声認識結果に合わせて、デジタルカメラ100のその他の状態に関する処理を行う。その他の状態に関する処理について複数の候補があり、実行すべき処理を一意に決定できない場合、システム制御部50は、予め定めた優先度の高い処理を行ってもよいし、ユーザ入力により実行すべき処理を決定してもよい。
その他の状態は、例えば通信状態である。通信状態とは、デジタルカメラ100がネットワーク上にある他の電子機器と通信可能な状態である。システム制御部50は、デジタルカメラ100が通信状態であるか否かを判定してもよい。デジタルカメラ100が通信状態であるとシステム制御部50が判定した場合、システム制御部50は、音声認識結果に合わせて、通信状態に関する処理を行う。その後、処理はS301へ戻る。
ここで図4を参照して、デジタルカメラ100が通信状態であるか否かを判定する方法の例を説明する。システム制御部50は、図4の右下に示す表示画面406のような通信用の表示画面が表示部28に表示されている場合に、デジタルカメラ100が通信状態であると判定することができる。この判定方法は、他のステップにおける通信状態の判定にも利用することができる。
なお、音声入力部85は、ユーザ操作により予め音声入力時の入力感度を変更及び設定できてもよいが、デジタルカメラ100の状態(撮影状態、再生表示状態、メニュー表示状態、通信状態など)に応じた入力感度の変更は行わない。
また、S301~S307の処理(音声入力を開始してから音声認識を行うまでの処理)は、デジタルカメラ100で行う必要はなく、有線又は無線通信を介してデジタルカメラ100と通信してデジタルカメラ100を遠隔で制御する制御装置で行ってもよい。また、S301~S304までの音声入力のみを制御装置で行ってもよい。この場合、デジタルカメラ100を遠隔で制御する制御装置は、S303で音声入力が終了された場合に有線又は無線通信を介してデジタルカメラ100に音声データを送信する。そして、デジタルカメラ100は、受信した音声データに基づいてS305以降の処理を実施する。また、S305の音声認識のみを制御装置で行ってもよい。この場合、デジタルカメラ100は、S303で音声入力が終了された場合に有線又は無線通信を介して制御装置に音声データを送信する。そして、制御装置は、S305の処理を行い、有線又は無線通信を介して制御装置に音声認識結果を送信する。そして、デジタルカメラ100は、受信した音声認識結果に基づいてS306以降の処理を実施する。このように、S301~S307における分離可能なステップ区間の少なくとも一部について、有線又は無線通信を介してデジタルカメラ100と制御装置との間で通信してデータのやり取りを行うことで、制御装置で行ってもよい。
更に、S308~S339の処理についても、制御装置で行ってもよい。この場合、制御装置は、音声認識結果及びデジタルカメラ100の状態に基づいて選択された処理を、デジタルカメラ100が行うように制御する。デジタルカメラ100がS308~S339の処理を行う場合は、デジタルカメラ100と制御装置とが一体化している(制御装置が撮像装置を含む)と解釈することができる。
図5は、図3の音声制御処理に従って、音声認識結果及びデジタルカメラ100の状態に応じて選択される処理内容を整理した表である。但し、音声認識結果及びデジタルカメラ100の状態と選択される処理内容との関係は、図5に示す関係に限定されない。
以上説明したように、第1の本実施形態によれば、デジタルカメラ100は、音声認識を行い、音声認識結果(音声認識により識別されたユーザ指示)及びデジタルカメラ100の現在の状態に基づいて、実行する処理を決定する。例えば、ユーザ指示が第1のユーザ指示である場合を考える。この場合、デジタルカメラ100は、デジタルカメラ100が撮影状態であれば、第1の処理を行うように制御し、デジタルカメラ100が再生表示状態又はメニュー表示状態であれば、第2の処理を行うように制御する。例えば、第1のユーザ指示が明暗に関する場合、第1の処理は、音声認識結果に合わせて露出の制御を行う処理であり、第2の処理は、音声認識結果に合わせて表示部28の明度の制御を行う処理である(図3のS308及びS313~S315参照)。従って、第1の実施形態によれば、音声認識を利用して撮像装置の処理を制御する場合に、ユーザの意図に沿う処理が行われる可能性を向上させることが可能となる。
[第2の実施形態]
第2の実施形態では、音声認識結果に基づいて実行すべき処理を特定(識別)し、複数の処理が特定された場合にデジタルカメラ100の状態に基づいて実行すべき処理を選択する構成について説明する。第2の実施形態において、デジタルカメラ100の基本的な構成は第1の実施形態と同様である(図1及び図2参照)。以下、主に第1の実施形態と異なる点について説明する。
図6は、第2の実施形態に係る音声制御処理のフローチャートである。本フローチャートの各ステップの処理は、特に断らない限り、システム制御部50が不揮発性メモリ56に格納されたプログラムをメモリ32に展開して実行することにより実現される。S601の処理は、図3AのS301~S307と同様である。S306において音声認識が成功したとシステム制御部50が判定した場合、処理はS608に進む。
S608で、システム制御部50は、メモリ32から読み出した音声認識結果(ユーザ指示)に基づき、デジタルカメラ100が実行可能な処理を特定(識別)し、1つの処理が特定されたか複数の処理が特定されたかを判定する。例えば、音声認識結果が「拡大して」である場合、LV画像を拡大する処理、再生画像を拡大する処理、及び文字を拡大する処理のような、複数の処理が特定される。一方、音声認識結果が「再生画像を拡大して」である場合、再生画像を拡大するという1つの処理が特定される。1つの処理が特定された場合、処理はS609へ進み、複数の処理が特定された場合、処理はS610へ進む。
S609で、システム制御部50は、S608において特定された処理を行う。なお、S609において、システム制御部50は、S608において特定された処理がデジタルカメラ100の現在の状態に関連付けられているか否かを判定してもよい。S608において特定された処理がデジタルカメラ100の現在の状態に関連付けられていない場合、システム制御部50は、S608において特定された処理に関連付けられた状態にデジタルカメラ100が遷移するように制御する。例えば、S608において特定された処理が露出を明るくする処理であり、デジタルカメラ100の現在の状態がメニュー表示状態である場合、システム制御部50は、デジタルカメラ100が撮影状態に遷移して露出を明るくするように制御する。
S610の処理は、図3DのS333~S339の処理と同様であり、システム制御部50は、S608において特定された複数の処理のうち、デジタルカメラ100の現在の状態に関連付けられた処理を行う。例えば、S608においてLV画像を拡大する処理、再生画像を拡大する処理、及び文字を拡大する処理が特定され、デジタルカメラ100の現在の状態が撮影状態である場合、S336で、システム制御部50は、LV画像を拡大する処理を行う。
なお、S608において特定された複数の処理のうち2以上の処理がデジタルカメラ100の現在の状態に関連付けられている場合、システム制御部50は、予め定められた優先度に従って2以上の処理のうち1つの処理を選択して実行してもよい。例えば、S608において特定された複数の処理の中にデジタルズームの倍率を大きくする処理とLV画像を拡大する処理(デジタルズームの倍率は変更しない)とが含まれている場合を考える。この場合、デジタルカメラ100は、これら2つの処理のうち優先度の高い処理(例えば、LV画像を拡大する処理)を実行する。或いは、システム制御部50は、(優先度ではなく)ユーザ操作に従って2以上の処理のうち1つの処理を選択して実行してもよい。
以上説明したように、第2の本実施形態によれば、デジタルカメラ100は、音声認識結果(ユーザ指示)に対応する、デジタルカメラ100が実行可能な処理を識別する。1つの処理が識別された場合、デジタルカメラ100は、この1つの処理を行うように制御する。複数の処理が識別された場合、デジタルカメラ100は、これら複数の処理のうちデジタルカメラ100の現在の状態に関連付けられた処理を行うように制御する。従って、第2の実施形態によれば、音声認識を利用して撮像装置の処理を制御する場合に、ユーザの意図に沿う処理が行われる可能性を向上させることが可能となる。
[その他の実施形態]
システム制御部50が行うものとして説明した上述の各種制御は1つのハードウェアが行ってもよいし、複数のハードウェア(例えば、複数のプロセッサーや回路)が処理を分担することで、装置全体の制御を行ってもよい。
また、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。更に、上述した各実施形態は本発明の一実施形態を示すものにすぎず、各実施形態を適宜組み合わせることも可能である。
また、上述した実施形態においては、本発明をデジタルカメラ100に適用した場合を例にして説明したが、これはこの例に限定されず撮像手段を有する機器であれば適用可能である。すなわち、本発明はパーソナルコンピュータやPDA、携帯電話端末、音楽プレーヤー、ゲーム機などに適用可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
22…撮像部、28…表示部、50…システム制御部、52…システムメモリ、56…不揮発性メモリ、70…操作部、85…音声入力部、100…デジタルカメラ、150…レンズユニット、200…記録媒体

Claims (5)

  1. 音声認識により識別されたユーザ指示を取得する第1の取得手段と、
    撮像装置の現在の状態を判定する判定手段と、
    前記ユーザ指示に対応する、前記撮像装置が実行可能な処理を識別する識別手段と、
    前記識別手段により1つの処理が識別された場合、前記撮像装置が前記識別された1つの処理を行うように制御し、
    前記識別手段により複数の処理が識別された場合、
    前記現在の状態が第1の状態である場合、前記撮像装置が前記識別された複数の処理のうち前記第1の状態に関連付けられた処理を行うように制御し、
    前記現在の状態が第2の状態である場合、前記撮像装置が前記識別された複数の処理のうち前記第2の状態に関連付けられた処理を行うように制御する
    制御手段と、
    を備え
    前記現在の状態が前記第1の状態であり、前記識別された複数の処理のうち2以上の処理が前記第1の状態に関連付けられている場合、前記制御手段は、ユーザ操作に従って当該2以上の処理のうち1つの処理を選択し、前記撮像装置が前記選択された1つの処理を行うように制御する
    ことを特徴とする制御装置。
  2. 前記識別手段により1つの処理が識別され、前記識別された1つの処理が前記現在の状態に関連付けられていない場合、前記制御手段は、前記撮像装置が前記識別された1つの処理に関連付けられた状態に遷移して前記1つの処理を行うように制御する
    ことを特徴とする請求項に記載の制御装置。
  3. 前記撮像装置を更に備える
    ことを特徴とする請求項1又は2に記載の制御装置。
  4. 制御装置が実行する制御方法であって、
    音声認識により識別されたユーザ指示を取得する第1の取得工程と、
    撮像装置の現在の状態を判定する判定工程と、
    前記ユーザ指示に対応する、前記撮像装置が実行可能な処理を識別する識別工程と、
    前記識別工程により1つの処理が識別された場合、前記撮像装置が前記識別された1つの処理を行うように制御し、
    前記識別工程により複数の処理が識別された場合、
    前記現在の状態が第1の状態である場合、前記撮像装置が前記識別された複数の処理のうち前記第1の状態に関連付けられた処理を行うように制御し、
    前記現在の状態が第2の状態である場合、前記撮像装置が前記識別された複数の処理のうち前記第2の状態に関連付けられた処理を行うように制御する
    制御工程と、
    を備え
    前記現在の状態が前記第1の状態であり、前記識別された複数の処理のうち2以上の処理が前記第1の状態に関連付けられている場合、前記制御工程では、ユーザ操作に従って当該2以上の処理のうち1つの処理を選択し、前記撮像装置が前記選択された1つの処理を行うように制御する
    ことを特徴とする制御方法。
  5. コンピュータを、請求項乃至のいずれか1項に記載の制御装置の各手段として機能させるためのプログラム。
JP2019196615A 2019-10-29 2019-10-29 制御装置、制御方法、及びプログラム Active JP7441028B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019196615A JP7441028B2 (ja) 2019-10-29 2019-10-29 制御装置、制御方法、及びプログラム
US17/075,208 US11588981B2 (en) 2019-10-29 2020-10-20 Control apparatus, control method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019196615A JP7441028B2 (ja) 2019-10-29 2019-10-29 制御装置、制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021071540A JP2021071540A (ja) 2021-05-06
JP7441028B2 true JP7441028B2 (ja) 2024-02-29

Family

ID=75586484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019196615A Active JP7441028B2 (ja) 2019-10-29 2019-10-29 制御装置、制御方法、及びプログラム

Country Status (2)

Country Link
US (1) US11588981B2 (ja)
JP (1) JP7441028B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234273A (ja) 2003-01-30 2004-08-19 Hitachi Ltd 対話型端末装置及び対話アプリケーション提供方法
JP2005117370A (ja) 2003-10-08 2005-04-28 Konica Minolta Photo Imaging Inc デジタルカメラ
JP2014068170A (ja) 2012-09-26 2014-04-17 Kyocera Corp 情報端末、音声操作プログラムおよび音声操作方法
JP2016119615A (ja) 2014-12-22 2016-06-30 キヤノン株式会社 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体
JP2017173470A (ja) 2016-03-23 2017-09-28 キヤノン株式会社 撮像装置
WO2019087712A1 (ja) 2017-10-31 2019-05-09 富士フイルム株式会社 ファインダ装置、撮像装置、及びファインダ装置の制御方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014122978A (ja) 2012-12-20 2014-07-03 Casio Comput Co Ltd 撮像装置、音声認識方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234273A (ja) 2003-01-30 2004-08-19 Hitachi Ltd 対話型端末装置及び対話アプリケーション提供方法
JP2005117370A (ja) 2003-10-08 2005-04-28 Konica Minolta Photo Imaging Inc デジタルカメラ
JP2014068170A (ja) 2012-09-26 2014-04-17 Kyocera Corp 情報端末、音声操作プログラムおよび音声操作方法
JP2016119615A (ja) 2014-12-22 2016-06-30 キヤノン株式会社 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体
JP2017173470A (ja) 2016-03-23 2017-09-28 キヤノン株式会社 撮像装置
WO2019087712A1 (ja) 2017-10-31 2019-05-09 富士フイルム株式会社 ファインダ装置、撮像装置、及びファインダ装置の制御方法

Also Published As

Publication number Publication date
JP2021071540A (ja) 2021-05-06
US11588981B2 (en) 2023-02-21
US20210127048A1 (en) 2021-04-29

Similar Documents

Publication Publication Date Title
JP6765956B2 (ja) 撮像制御装置及びその制御方法
JP6598589B2 (ja) 撮像装置及びその制御方法
JP6548501B2 (ja) 撮像装置、その制御方法、およびプログラム、並びに記憶媒体
US9066008B2 (en) Display control apparatus and method for controlling the same
JP2019193131A (ja) 電子機器、電子機器の制御方法、プログラム、及び、記録媒体
JP7441028B2 (ja) 制御装置、制御方法、及びプログラム
JP6918605B2 (ja) 撮像制御装置、制御方法、プログラム、及び記憶媒体
JP6986918B2 (ja) 電子機器、制御方法、プログラム、及び記憶媒体
JP6410778B2 (ja) 撮像装置及びその制御方法
CN107040717B (zh) 摄像控制装置及其控制方法
JP6854633B2 (ja) 電子機器、制御方法、プログラム、及び記憶媒体
JP6736410B2 (ja) 撮像装置、撮像装置の制御方法及びプログラム並びに記憶媒体
JP2019164423A (ja) 電子機器、電子機器の制御方法、プログラム、及び、記録媒体
JP6759094B2 (ja) 電子機器及びその制御方法
JP2021121063A (ja) 撮像制御装置
JP6976752B2 (ja) 撮像装置及びその制御方法、プログラム、並びに、記憶媒体
JP7171876B2 (ja) 撮像装置及びその制御方法、並びに、プログラム
JP2020012890A (ja) 焦点調節装置、撮像装置、焦点調節方法、及びプログラム
JP2019124807A (ja) 撮像装置、撮像装置の制御方法、プログラムおよび記録媒体
JP2018113538A (ja) 撮像装置およびその制御方法
JP7034601B2 (ja) 撮像制御装置およびその制御方法
JP2020108090A (ja) 撮像装置、撮像装置の制御方法、プログラム、および記憶媒体
JP2023179219A (ja) 画像再生装置及びその制御方法、プログラム、記憶媒体
JP2021128205A (ja) 撮像制御装置、撮像制御装置の制御方法
JP2021121066A (ja) 表示制御装置及びその制御方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240216

R151 Written notification of patent or utility model registration

Ref document number: 7441028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151