JP2014149457A

JP2014149457A - 音声認識装置、電子機器、および音声認識装置の制御プログラム

Info

Publication number: JP2014149457A
Application number: JP2013018898A
Authority: JP
Inventors: Hironori Tanaka; 裕紀田中; Masahito Takeuchi; 雅人竹内; Kazuaki Shimaoka; 和章嶋岡; Kaiji Nabetani; 海二鍋谷; Kenji Kimura; 賢二木村; Nami Iiyama; 菜美飯山
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-02-01
Filing date: 2013-02-01
Publication date: 2014-08-21

Abstract

【課題】ユーザの利便性を損なわずに音声認識の精度を向上させる。
【解決手段】認識制御部（１０）は、デジタルカメラ（１００）の状態を示す情報を取得する機器状態取得部（１１）と、上記情報に対応付けられた語句を候補語句として決定する候補語句決定部（１２）と、音声データを取得する音声取得部（１３）と、音声データから特定語句を検出する特定語句検出部（１４）と、特定語句が候補語句のいずれかの語句であることを特定し、該語句を認識語句と決定する認識語句決定部（１５）とを含む。
【選択図】図１

Description

本発明は、音声に含まれる語句を認識する音声認識装置および該音声認識装置を備えた電子機器に関する。

音声に含まれる語句を認識する、音声認識の方法は種々知られている。また、音声認識処理において、当該音声認識の精度の向上のために、様々な技術が開示されている。

例えば、特許文献１には、音声認識用の記憶装置を階層構造とし利用者の習熟度向上につれ長文節の入力を可能とするように適時的に上位の階層を設定し、利用頻度の少ない語彙を新しい語彙と入れ替えることで音声認識の精度を向上させる技術が開示されている。また、特許文献２には、音声認識の候補となる語句をユーザに提示し、認識結果の絞り込みや修正を行わせることにより音声認識の精度を向上させる技術が開示されている。また、特許文献３および４には、音声から認識候補となる語句の含まれるカテゴリを特定し、当該カテゴリをユーザに提示することにより、ユーザに語句の絞り込みを行わせることにより音声認識精度を向上させる技術が開示されている。

特開２００４−３２５７０４号公報（２００４年１１月１８日公開）特開２０１２−０２２２５１号公報（２０１２年２月２日公開）特開２００１−１０９４９２号公報（２００１年４月２０日公開）特開２００６−１８４６７０号公報（２００６年７月１３日公開）

しかしながら、上述のような従来技術においては、音声認識精度を向上させることができるものの、ユーザの操作性を損なう場合があった。例えば、特許文献１に開示の技術では、音声認識に用いる語彙は、利用者の習熟度により決定される。このため、上記技術を用いた機器を複数の利用者が共用している場合、上記語彙が利用者それぞれの習熟度にそぐわないものとなる可能性がある。このような場合、語彙の誤認識およびそれに伴う機器の誤動作が増加し、結果的にユーザの操作性が損なわれてしまう場合があった。また、特許文献２〜４に開示の技術では、最終的な音声認識の結果を得るまでに、ユーザが最初の発話以降も所定の操作を行う必要があるため、ユーザの操作が煩雑になり、操作性を損なっている。

本発明は上記の問題点に鑑みなされたものであり、その目的は、ユーザの操作性を損なうことなく音声認識における認識精度を向上させることができる音声認識装置、および音声認識装置の制御プログラムを実現することにある。

上記の課題を解決するために、本発明の一態様に係る音声認識装置は、ユーザの発話を音声として検出し、当該音声に含まれる語句を音声認識する音声認識装置であって、音声操作の対象となる電子機器の状態を示す情報を取得する機器状態取得手段と、上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段と、上記ユーザの発話を音声データとして取得する音声データ取得手段と、上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段と、上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段と、を備えていることを特徴としている。

本発明の一態様によれば、音声認識装置が、電子機器の現在の状態に応じて、音声認識の対象となる候補語句を決定することで、音声認識に使用する候補語句の絞り込みが自動的に行われることになるため、候補語句の絞り込み、すなわち音声認識精度を向上させるための操作をユーザが行う必要がなくなる。したがって、ユーザの操作性を損なうことなく音声認識における認識精度を向上させることができるという効果を奏する。

本発明の第１の実施形態に係る音声認識装置を搭載した、デジタルカメラの要部構成を示すブロック図である。上記音声認識装置が音声認識のために利用する語句テーブルのデータ構造の一例を示す図である。上記デジタルカメラにて行われる音声認識処理の流れを示すフローチャートである。上記デジタルカメラの動作概要を示す図である。本発明の第２の実施形態に係る音声認識装置を搭載したデジタルカメラの動作概要を示す図である。上記音声認識装置が音声認識のために利用する語句テーブルのデータ構造の一例を示す図である。

≪実施形態１≫
本発明の第１の実施形態について説明すれば、以下の通りである。なお、本実施形態では、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。以下では、本実施形態について、図１〜４を用いて詳細に説明する。

〔要部構成〕
まず初めに、デジタルカメラ１００の要部構成を図１に基づいて説明する。図１は、デジタルカメラ１００の要部構成を示すブロック図である。なお、本実施形態を説明するうえで、直接関係のない部分（例えば、外部機器との接続部分や写真撮影を行う部分など）についての説明は省略する。デジタルカメラ１００（電子機器）は、図示の通り、音声認識装置としての認識制御部１０と、センサ部２０（センサ部、機器状態特定手段）と、機器状態特定部２１と、音声検出部３０（音声検出手段）と、語句テーブル４０と、機器制御部５０とを備えている。

センサ部２０は、現在のデジタルカメラ１００の状態が変化したことを検知するものである。ここで、デジタルカメラ１００の状態の変化とは、デジタルカメラ１００が任意の制御指示を受け付けた状態を示す。例えば、デジタルカメラ１００に対して、撮影モードや表示モード、各種パラメータの設定などが指示された状態を示す。センサ部２０は、デジタルカメラ１００に対し制御指示が送信されことを検知し、検知信号を後述の機器状態特定部２１へと送信する。なお、センサ部２０は、デジタルカメラ１００の状態の変化を検出できれば、どのような検知方法を用いてもよい。例えば、センサ部２０は、デジタルカメラ１００の撮影モードの設定のための設定信号を受信することにより、状態の変化を検知してもよい。この場合、撮影モードの変更に伴い、設定信号も変化するため、設定信号を上記検知信号として機器状態特定部２１へと送信すればよい。

機器状態特定部２１は、上記検知信号からデジタルカメラ１００の状態を特定するものである。ここで、デジタルカメラ１００の状態とは、デジタルカメラ１００が、上記制御指示を受け付けた際の、デジタルカメラ１００の状態である。したがって、デジタルカメラ１００の状態とは、例えば撮影モード、表示モード、各種パラメータが設定されている状態、すなわち制御状態を示す。機器状態特定部２１はデジタルカメラ１００の状態を特定すると、特定した状態を示す情報を認識制御部１０内の機器状態取得部１１へと送信する。なお、機器状態特定部２１は、デジタルカメラ１００の現在の状態を特定することができれば、どのような特定方法を用いてもよい。例えば、上記センサ部２０から上記設定信号を受信した場合は、該設定信号により設定される撮影モードを、デジタルカメラ１００の現在の状態であると特定すればよい。

音声検出部３０は、デジタルカメラ１００のユーザの発話を音声データとして検出するものである。音声検出部３０の構成および形態は特に限定しない。音声検出部３０にて検出された音声データは、後述の認識制御部１０の音声取得部１３へと送信される。また、上述のセンサ部２０、機器状態特定部２１、および音声検出部３０は、デジタルカメラ１００に内蔵されてもよいし、デジタルカメラ１００の外部機器として接続されてもよい。

語句テーブル４０は、特定語句と照合するための語句を示す情報である。語句テーブル４０には、語句に対し、当該語句を候補語句とするか否かの情報と、デジタルカメラ１００の制御命令を示す情報とが対応づけられ記憶されている。ここで、「候補語句」とは、後述する認識語句決定部１５において、特定語句と照合する対象となる（音声認識において、ユーザの発話に含まれる語句を検出する候補になる）語句を示す。語句テーブル４０の詳細なデータ構造については後で詳述する。語句テーブル４０は、候補語句決定部１２により書き換えられ、認識語句決定部１５および制御信号出力部１６により参照される。

認識制御部１０は、デジタルカメラ１００の音声認識を統括的に制御するものである。認識制御部１０は例えば、ＣＰＵ（central processing unit）などで実現される。認識制御部１０は、さらに詳しくは、機器状態取得部１１（機器状態取得手段）、候補語句決定部１２（候補語句決定手段）、音声取得部１３（音声データ取得手段）、特定語句検出部１４（特定語句検出手段）、認識語句決定部１５（認識語句決定手段）、および制御信号出力部１６を含む。

機器状態取得部１１は、機器状態特定部２１からデジタルカメラ１００の状態を示す情報を取得し、取得した情報を後述の候補語句決定部１２へと送信するものである。

候補語句決定部１２は、機器状態取得部１１から受信した、機器の状態を示す情報に対応付けられた語句を、上記音声認識の対象となる候補語句として決定するものである。具体的には、候補語句決定部１２は、後述する語句テーブル４０に記憶されているどの語句を候補語句とするかを決定するものである。候補語句決定部１２の行う候補語句の決定方法については、後で詳述する。

音声取得部１３は、音声検出部３０から音声データを取得し、取得した音声データを特定語句検出部１４へと送信するものである。

特定語句検出部１４は、音声取得部１３から送信された音声データに含まれる語句の中から特定の語句（以下、「特定語句」と称する）を検出するものである。ここで、「特定語句」は、デジタルカメラ１００を制御するために、当該デジタルカメラ１００に対するユーザの音声指示内容を示す語句をいう。特定語句検出部１４は、より具体的には、音声データをテキストデータに変換し、予め登録されているデータベース（図示せず）から、当該音声データに含まれる特定語句をテキストデータとして検出する。検出された特定語句は、認識語句決定部１５へと送信される。

なお、特定語句は、後述の認識語句決定部１５にて語句テーブル４０の語句のうち候補語句として決定された語句と、該特定語句とを照合できる形式で検出されればよく、特定語句の検出形式は特に限定されない。例えば、特定語句は音声データであってもよい。

認識語句決定部１５は、特定語句と各候補語句とを照合し、照合の結果特定語句と合致した候補語句を、特定語句が示す語句であると決定するものである。以降、特定語句と各候補語句との照合の結果、特定語句と合致すると判定された候補語句を単に「認識語句」と記述する。認識語句決定部１５は、より具体的には、特定語句の文字列と語句テーブル４０に格納されている候補語句の文字列とを照合する。照合の結果、両者の文字列が全てまたは一定以上の割合で一致する場合に、上記候補語句が認識語句であると判定する。

制御信号出力部１６は、認識語句決定部１５にて決定した認識語句に対応づけられた制御命令を上記語句テーブル４０から読み出し、デジタルカメラ１００の各種機能を制御する制御コマンドを作成し、作成した制御コマンドを制御信号として機器制御部５０へ出力するものである。ここで、「制御コマンド」とは、デジタルカメラ１００の各種機能を制御するためのコマンドである。

機器制御部５０は、デジタルカメラ１００の各種機能を制御するものである。機器制御部５０の制御する機能は特に限定されないが、具体例としては、写真撮影やタイマーなどデジタルカメラ１００がカメラとして持つ基本的な機能、撮影モードの設定などの各種設定機能、ならびにメニュー画面などの表示および操作機能などが挙げられる。

〔語句テーブルのデータ構成〕
次に、図２に基づき語句テーブル４０の詳細なデータ構造について説明する。図２は、認識制御部１０が音声認識のために利用する語句テーブル４０のデータ構造の一例を示す図である。具体的には、図２ではデジタルカメラ１００の撮影モード（状態）が「屋外」の場合の語句テーブル４０のデータの例を示している。なお、図２において、語句テーブル４０をテーブル形式のデータ構造にて示したことは一例であって、語句テーブル４０のデータ構造をテーブル形式に限定する意図はない。以降、データ構造を説明するためのその他の図においても同様である。図示の通り、語句テーブル４０は、「語句」列と、「候補」列と、「制御命令」列とを持つ。語句テーブル４０は、「語句」列に、「候補」列および「制御命令」列が対応づけられた構成である。したがって、「語句」列の情報が決まれば、「候補」列および「制御命令」列の情報が一意に決まる。

「語句」列は、認識制御部１０が音声認識に用いる語句を格納する。

「候補」列は、各行において「語句」列に格納された語句を、音声認識において候補語句とするか否かの情報を格納している。「候補」列の情報は、機器状態取得部１１の取得する機器の状態に応じて、候補語句決定部１２によって書き換えられる。図２においては、「候補」列が「○」である行の「語句」列に格納された語句は、特定語句との照合の対象となる。すなわち、「候補」列が「○」である行の語句は候補語句である。一方、「候補」列が空欄である行の「語句」列に格納された語句は上記照合の対象とならない。

「制御命令」列は、語句テーブル４０の各行において、「語句」列に格納された語句が特定語句と合致する、すなわち、認識語句であると判定された場合に、デジタルカメラ１００にて実行する制御命令を示す情報を格納する。ここで、「制御命令」とは、制御信号出力部１６が制御コマンドを作成するために必要な情報を示している。「制御命令」列の情報は、制御信号出力部１６により読み出される。

なお、各列に格納する情報の形式は特に限定されない。また、「候補」列の情報は、ユーザが自由に変更可能であってもよい。また、語句テーブル４０は、デジタルカメラ１００においてあらかじめ定められたものであってもよいが、ユーザによって書き換え可能なように記憶されていてもよい。例えば、ユーザが語句テーブル４０に対し、新規に語句を追加できるようにしてもよいし、該語句に対応づけられた制御命令や「候補」列の情報を変更できるようにしてもよい。さらに、語句テーブル４０は、制御命令を必ずしも記憶している必要はない。しかしながら、語句テーブル４０または他のテーブルに制御命令の情報を格納し、上記語句と対応づけた場合、音声認識の際に、認識された語句に対応してデジタルカメラ１００の制御を行うことが可能となるというメリットがある。

〔候補語句決定部による候補語句の決定〕
次に、候補語句決定部１２が行う候補語句の決定について、上述の図２を参照して詳述する。候補語句決定部１２は、より具体的には、機器状態取得部１１から受信した機器の状態を示す情報に基づいて、語句テーブル４０中の当該語句の「候補」列の値を切替えるものである。

デジタルカメラ１００の撮影モードが「屋外」の場合、ユーザがホワイトバランスの設定を屋内用の設定に変更するような語句を発話することは非常に少ないと予測される。このように、デジタルカメラ１００の各状態において、ユーザが発話しないと予測される語句については、語句テーブル４０の「候補」列を空欄とし、当該状態の場合に候補語句から除外する。具体的には、候補語句決定部１２は、機器状態取得部１１からデジタルカメラ１００の状態を示す情報を受信すると、語句テーブル４０を参照して、当該状態に予め対応づけられた語句を検索する。そして、候補語句決定部１２は、上記状態に対応付けられた語句の「候補」列のみを「○」とし（上記語句を候補語句とし）、他の語句に対応づけられた「候補」列の情報は全て空欄とする。

なお、候補語句決定部１２は、上述の方法で候補語句を絞り込む代わりに、デジタルカメラ１００の現在の状態において、実行可能な制御命令に対応づけられた語句を候補語句としてもよい。この場合は、制御命令を示す情報がデジタルカメラ１００に格納されており、該制御命令を示す情報が、語句テーブル４０の語句に対応づけられる。また、候補語句決定部１２は、上述のように「候補」列の情報を書き換える代わりに、デジタルカメラ１００の状態により、参照する語句テーブルを変更してもよい。この場合、デジタルカメラ１００は、自機の状態それぞれに対応した語句テーブルを備えることとなり、「候補」列の書換えは起こらないので、「候補」列は必ずしも必要ではない。

〔処理の流れ〕
図３は、デジタルカメラ１００にて行われる音声認識処理の流れを示した図である。まず初めに、デジタルカメラの状態を示す情報を取得する（Ｓ１００）。具体的には、機器状態取得部１１が、機器状態特定部２１によって特定されたデジタルカメラ１００の状態を示す情報を取得する。次に、Ｓ１００で取得したデジタルカメラの状態を示す情報に応じ、語句テーブルの「候補」列を書き換える（Ｓ１０２）。具体的には、候補語句決定部１２は、機器状態取得部１１から上記状態を示す情報を受信すると、受信した情報が示すデジタルカメラ１００の状態に応じて、語句テーブル４０の「候補」列の情報を書き換える。これにより、語句テーブル４０に含まれる語句のうち、どの語句を音声認識の対象の候補語句とするかが決定される。

次に、音声を検出する（Ｓ１０４のＹＥＳ）と、検出した音声から音声データを取得する（Ｓ１０６）。具体的には、音声検出部３０が、検出したデジタルカメラ１００のユーザの発話を音声データを、音声取得部１３によって取得する。続いて、音声データに含まれる特定語句を検出する（Ｓ１０８）。具体的には、特定語句検出部１４が、音声取得部１３によって取得された音声データから、音声認識の対象となる特定語句を検出する。次に、認識語句を決定する（Ｓ１１０）。具体的には、認識語句決定部１５が、特定語句検出部１４によって検出された特定語句と合致する、語句テーブル４０中の候補語句を認識語句と決定する。

続いて、制御信号出力部１６は、認識語句に対応した制御命令を語句テーブルから読み出し（Ｓ１１２）、読み出した制御命令から制御コマンドを作成し（Ｓ１１４）、制御コマンドを出力する（Ｓ１１６）。最後に、デジタルカメラ１００は、制御コマンドに応じた制御を行う（Ｓ１１８）。

〔動作概要〕
続いて、図４に基づいて、本実施形態に係る音声認識装置を搭載したデジタルカメラ１００の動作概要を説明する。図４の（ａ）および（ｂ）は、具体的には、撮影モードが「屋外」であるデジタルカメラ１００の動作を示している。ここでは、図２に示す語句テーブル４０を用いて候補語句を決定する。すなわち、図２に示す通り、上記デジタルカメラ１００の候補語句決定部１２は、「ホワイトバランス晴天」という語句は候補語句とするが、「ホワイトバランス蛍光灯」という語句は候補語句としない。

上述のような場合に、ユーザが「ホワイトバランス晴天」という語句を発したとする（図４の（ａ））。この場合、上記語句は候補語句である。よって、認識語句決定部１５にて上記語句と特定語句との照合が行われる。これにより、上記語句が認識語句であると決定され、該認識語句に対応する制御命令（ホワイトバランスを「晴天」の設定に切替える）が制御コマンドとして実行される。つまり、上記ユーザの音声は音声認識され、ホワイトバランスは「晴天」へと変更される。一方、ユーザが「ホワイトバランス蛍光灯」という語句を発した場合（図４の（ｂ））、上記語句は候補語句ではないので認識語句決定部１５において特定語句と照合されない。つまり、上記ユーザの音声は音声認識されない。

このように、本実施形態に係る音声認識装置を搭載したデジタルカメラ１００は、その撮影モードにおいてユーザが指示しないであろうと予測される指示を示す語句については、音声認識の候補から除外することができる。

本実施形態１では、音声認識の認識対象となる候補語句をデジタルカメラ１００の状態に応じて決定する例について説明したが、これに限定されるものではなく、デジタルカメラ１００の状態を示す情報に対応付けられた語句の文字数から当該語句を上記候補語句とするか否かを決定するようにしてもよい。この場合には、特定語句の検出精度が低下すると考えられる状態である場合において、誤認識の起こりにくい語句を候補語句とすることができる。下記の実施形態２では、特にデジタルカメラ１００の状態が所定の状態（誤認識しやすい状態）である場合に、デジタルカメラ１００の状態を示す情報に対応付けられた語句の文字数が、音声認識における認識語句の誤検出を生じ易い文字数以上の語句を上記候補語句として決定する例について説明する。

≪実施形態２≫
本発明の第２の実施形態について説明すれば、以下の通りである。なお、本実施形態では、前記実施形態１と同様に、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。また、説明の便宜上、前記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記しその説明を省略する。

本実施形態が、前記実施形態１と相違している点は、図１に示す認識制御部１０内の候補語句決定部１２が候補語句を決定する処理である。本実施形態での音声認識処理では、音声を正確に検出できないと予測される状況（誤認識しやすい状態）において、音声認識の精度を極力担保できるよう、誤認識の起こりやすい語句を語句テーブルから除外する。

ここで、「誤認識の起こりやすい語句」とは、具体的には文字数の少ない（短い）語句や、他の単語と類似した文字や単語を多数含んでいる語句などである。なぜならば、上記のような語句は、他の語句との差異を判別できる部分が少なく、音声認識において正確に判別しづらいからである。

次に、本実施形態において候補語句決定部１２が行う候補語句の決定について詳述する。本実施形態における候補語句決定部１２は、上記第１の実施形態にて説明した候補語句の決定に加え、以下の方法にて候補語句の決定を行う。

図５の（ａ）〜（ｄ）は、本実施形態におけるデジタルカメラ１００の動作概要を示す図である。ここで、図５の（ａ）および（ｂ）に示すデジタルカメラ１００は、撮影モードが「自分撮り」以外のモードであり、図５の（ｃ）および（ｄ）に示すデジタルカメラ１００は、撮影モードが「自分撮り」である。また、図６は、本発明の第２の実施形態に係る音声認識装置が利用する語句テーブル４０の具体例を示す。図６は、さらに詳しくは、デジタルカメラ１００の撮影モードが「自分撮り」の場合の語句テーブル４０を示している。なお、語句テーブル４０のデータ構成自体は第１の実施形態と同様である。

ところで、デジタルカメラ１００の撮影モード（状態）が「自分撮り」の場合（図５の（ｃ）および（ｄ））は、発話するユーザと、デジタルカメラ１００の音声検出部３０との距離は通常の場合（図５の（ａ）および（ｂ））より離れていると考えられる。

上記の場合、音声検出部３０が検出する音声データの品質は低下し、音声データに基づいて検出される特定語句の検出精度も低下すると考えられる。このように、特定語句の検出精度が低い場合に文字数の少ない語句も候補語句とすると、認識語句の誤検出が増加し却ってユーザの操作性を損なってしまう。

そこで、本実施形態における候補語句決定部１２は、図６に示すように、「撮影」「メニュー」「閲覧」など、文字数が予め定めた閾値より少ない語句については、対応する「候補」列を空欄とし、候補語句から除外する。上記閾値を音声認識における認識語句の誤検出を生じ易い文字数とすれば、誤検出し易い候補語句を除外することができる。よって、音声認識における認識語句の誤検出を確実に防止することができる。

なお、本実施形態における音声認識処理は、第１の実施形態における音声認識処理と併用することで、さらに音声認識の精度を向上させることができる。例えば、本実施形態においても、撮影モードが「自分撮り」の際にユーザが発話しないであろう「タイマーセット」という語句に対応する「候補」列は空欄としてよい（図６）。

〔動作概要〕
次に、本実施形態に係るデジタルカメラ１００の動作概要を、図５を用いて説明する。デジタルカメラ１００の撮影モードが「自分撮り」以外の場合（図５の（ａ）および（ｂ））は、デジタルカメラ１００の候補語句決定部１２は、「シャッター撮影」および「撮影」のどちらの語句も候補語句とする。一方、上記撮影モードが「自分撮り」の場合（図５の（ｃ）および（ｄ））は、「シャッター撮影」は候補語句とするが、「撮影」は候補語句としない。したがって、デジタルカメラ１００の撮影モードが「自分撮り」以外の場合は、ユーザが「シャッター撮影」という語句を発しても（図５の（ａ））、「撮影」という語句を発しても（図５の（ｂ））、該ユーザの音声は音声認識され、写真撮影が行われる。一方、デジタルカメラ１００の撮影モードが「自分撮り」である場合は、ユーザが「シャッター撮影」という語句を発した際（図５の（ｃ））は、ユーザの音声は音声認識されるが、「撮影」という語句を発した際（図５の（ｄ））は、音声認識されない。

このように、本実施形態では、音声検出部３０の検出する音声データの品質が低下すると予測される場合は、上記「撮影」のように、誤認識の起こりやすい語句をさらに候補語句から除外するようにしているので、ユーザの操作性と、音声認識の精度の向上とが両立できるという効果を奏する。

上記の実施形態１，２では何れも、機器状態取得部１１がデジタルカメラ１００の制御状態を示す情報を機器状態として取得していたが、これに限定されるものではなく、デジタルカメラ１００の環境状態を示す情報、すなわちデジタルカメラ１００の周囲の明るさや、デジタルカメラ１００の傾きなどの検出値を機器状態として取得してもよい。下記の実施形態３では、デジタルカメラ１００の環境状態を示す情報を用いて、音声認識処理を行う例について説明する。

≪実施形態３≫
本発明の第３の実施形態について説明すれば、以下の通りである。なお、本実施形態では、前記実施形態１と同様に、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。また、説明の便宜上、前記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記しその説明を省略する。

本実施形態に係るデジタルカメラ１００では、図１に示すセンサ部２０が、デジタルカメラ１００の環境状態を示す情報、すなわち明るさや、傾きなどの検出値を検出する各種センサとしてはたらく。上記センサおよび上記情報の例としては、温度センサの検出する機器の外部または内部温度、傾きセンサの検知する電子機器の傾き、光センサの検知する電子機器の外光の強度などが挙げられる。

このように、デジタルカメラ１００の環境状態を示す情報、すなわち明るさや傾きなどの検出値を機器状態として取得する場合は、候補語句決定部１２における候補語句の決定は、ユーザの操作を全く介さずに行うことができる。つまり、撮影モードの変更など、ユーザの操作をトリガとして候補語句の決定を行うのではなく、デジタルカメラ１００の内部または外部の環境に応じて自動的に、該環境に合わせて候補語句を決定することができる。これにより、ユーザの操作性を向上させながら、音声認識の精度を向上させることができる。

〔変形例〕
本発明に係る音声認識装置は上述したデジタルカメラに限らない。本発明に係る音声認識装置は、自機が音声および電子機器の状態を取得できるならば、あらゆる電子機器に搭載し、音声認識を行うことができる。例えば、上記音声認識装置を、テレビに搭載するようにしてもよい。この場合、現在放送中のチャンネルのみを認識対象にする。また、上記音声認識装置を、ＨＤＤ（hard disc drive）レコーダに搭載してもよい。この場合、番組データにある録画番組のみ認識対象にする。

また、音声認識装置は必ずしも上記電子機器に内蔵されている必要はない。例えば、上記電子機器と通信を行うことにより、上記電子機器の状態や、音声データを取得してもよい。例えば、スマートフォンなどに認識制御部１０および音声検出部３０を搭載し、テレビなどの家電製品にセンサ部２０、機器状態特定部２１を搭載してもよい。

〔ソフトウェアによる実現例〕
認識制御部１０の制御ブロック（特に候補語句決定部１２および認識語句決定部１５）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、認識制御部１０は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る音声認識装置（認識制御部１０）は、ユーザの発話を音声として検出し、当該音声に含まれる語句を音声認識する音声認識装置であって、音声操作の対象となる電子機器（デジタルカメラ１００）の状態を示す情報を取得する機器状態取得手段（機器状態取得部１１）と、上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段（候補語句決定部１２）と、上記ユーザの発話を音声データとして取得する音声データ取得手段（音声取得部１３）と、上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段（特定語句検出部１４）と、上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段（認識語句決定部１５）と、を備えている。

上記構成によれば、電子機器の現在の状態に応じて、音声認識の対象となる候補語句を決定することができる。これにより、ユーザに操作を要求することなく、電子機器が自動的に候補語句の絞り込みを行うことができる。したがって、ユーザの操作性を損なうことなく音声認識における認識精度を向上させることができるという効果を奏する。

本発明の態様２に係る音声認識装置は、上記態様１において、上記候補語句決定手段は、上記電子機器の状態を示す情報に対応付けられた語句の文字数から当該語句を上記候補語句とするか否かを決定してもよい。

上記構成によれば、候補語句が、電子機器の状態を示す情報に対応付けられた語句の文字数によって決定されることで、認識語句決定手段は、特定語句の文字数と、候補語句の文字数とを認識語句決定のためのパラメータとして、認識語句を決定することになるため、認識語句の決定精度を向上させることが可能となる。これにより、誤った音声認識による電子機器の誤動作のため、ユーザへ再操作を要求することが防止できる。したがって、ユーザの操作性の低下を軽減するとともに、音声認識の精度を向上させることができる。

本発明の態様３に係る音声認識装置は、上記態様２において、上記候補語句決定手段は、さらに、上記電子機器の状態を示す情報に対応付けられた語句の文字数が、音声認識における認識語句の誤検出を生じ易い文字数以上の語句を上記候補語句として決定してもよい。

上記構成によれば、候補語句決定手段は、誤認識の起こり易い、文字数が所定の値より少ない語句を候補語句から除外することができる。つまり、他の語句との差異を判別できる部分が少なく、音声認識において正確に判別しづらい語句を候補語句から除外することができる。よって、ユーザの操作性と音声認識の精度をさらに向上させることができる。

本発明の態様４に係る音声認識装置は、上記態様１から３のいずれかにおいて、上記機器状態取得手段は、上記電子機器の外部または内部環境を示す機器情報（環境情報）を測定するセンサ部（センサ部２０）から、上記電子機器の状態として上記機器情報を取得してもよい。

上記構成によれば、センサ部が取得した機器情報に基づいて候補語句を決定することができる。したがって、電子機器の内部または外部の環境に応じて自動的に、該環境に合わせて候補語句を決定することができる。これにより、ユーザの操作性を向上させながら、音声認識の精度を向上させることができる。

本発明の様態５に係る電子機器は、上記様態１から４のいずれかに記載の音声認識装置を備えた電子機器で、上記ユーザの発話を検出する音声検出手段（音声検出部３０）と、自機の状態を特定する機器状態特定手段（機器状態検知部２０）とを備えている。

上記構成によれば、上記電子機器は、機器状態特定手段が特定した電子機器の状態から候補語句を決定し、音声検出手段が検出したユーザの音声と、該候補語句とを用いて音声認識を行うことができる。これにより、電子機器は現在の自機の状態において適切な語句を候補語句として音声認識を行うことができる。

本発明の各態様に係る音声認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声認識装置が備える各手段として動作させることにより上記音声認識装置をコンピュータにて実現させる音声認識装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、音声認識により操作可能な電子機器に好適である。

１０認識制御部（音声認識装置）、１１機器状態取得部（機器状態取得手段）、１２候補語句決定部（候補語句決定手段）、１３音声取得部（音声取得手段）、１４特定語句検出部（特定語句検出手段）、１５認識語句決定部（認識語句決定手段）、２０センサ部（センサ部）、２１機器状態特定部（機器状態特定手段）、３０音声検出部（音声検出手段）、１００デジタルカメラ（電子機器）

Claims

ユーザの発話を音声として検出し、当該音声に含まれる語句を音声認識する音声認識装置であって、
音声操作の対象となる電子機器の状態を示す情報を取得する機器状態取得手段と、
上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段と、
上記ユーザの発話を音声データとして取得する音声データ取得手段と、
上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段と、
上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段と、
を備えていることを特徴とする音声認識装置。
上記候補語句決定手段は、上記電子機器の状態を示す情報に対応付けられた語句の文字数から当該語句を上記候補語句とするか否かを決定することを特徴とする請求項１に記載の音声認識装置。
上記機器状態取得手段は、上記電子機器の外部または内部環境を示す機器情報を測定するセンサ部から、上記電子機器の状態を示す情報として上記機器情報を取得することを特徴とする請求項１または２に記載の音声認識装置。
請求項１から３のいずれか１項に記載の音声認識装置を備えた電子機器であって、
上記ユーザの発話を検出する音声検出手段と、
自機の状態を特定する機器状態特定手段とを備えることを特徴とする電子機器。
請求項１から３の何れか１項に記載の音声認識装置を動作させるための制御プログラムであって、コンピュータを上記各手段として機能させるための制御プログラム。