JP2014149457A - 音声認識装置、電子機器、および音声認識装置の制御プログラム - Google Patents

音声認識装置、電子機器、および音声認識装置の制御プログラム Download PDF

Info

Publication number
JP2014149457A
JP2014149457A JP2013018898A JP2013018898A JP2014149457A JP 2014149457 A JP2014149457 A JP 2014149457A JP 2013018898 A JP2013018898 A JP 2013018898A JP 2013018898 A JP2013018898 A JP 2013018898A JP 2014149457 A JP2014149457 A JP 2014149457A
Authority
JP
Japan
Prior art keywords
phrase
candidate
word
voice
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013018898A
Other languages
English (en)
Inventor
Hironori Tanaka
裕紀 田中
Masahito Takeuchi
雅人 竹内
Kazuaki Shimaoka
和章 嶋岡
Kaiji Nabetani
海二 鍋谷
Kenji Kimura
賢二 木村
Nami Iiyama
菜美 飯山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2013018898A priority Critical patent/JP2014149457A/ja
Publication of JP2014149457A publication Critical patent/JP2014149457A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)

Abstract

【課題】ユーザの利便性を損なわずに音声認識の精度を向上させる。
【解決手段】認識制御部(10)は、デジタルカメラ(100)の状態を示す情報を取得する機器状態取得部(11)と、上記情報に対応付けられた語句を候補語句として決定する候補語句決定部(12)と、音声データを取得する音声取得部(13)と、音声データから特定語句を検出する特定語句検出部(14)と、特定語句が候補語句のいずれかの語句であることを特定し、該語句を認識語句と決定する認識語句決定部(15)とを含む。
【選択図】図1

Description

本発明は、音声に含まれる語句を認識する音声認識装置および該音声認識装置を備えた電子機器に関する。
音声に含まれる語句を認識する、音声認識の方法は種々知られている。また、音声認識処理において、当該音声認識の精度の向上のために、様々な技術が開示されている。
例えば、特許文献1には、音声認識用の記憶装置を階層構造とし利用者の習熟度向上につれ長文節の入力を可能とするように適時的に上位の階層を設定し、利用頻度の少ない語彙を新しい語彙と入れ替えることで音声認識の精度を向上させる技術が開示されている。また、特許文献2には、音声認識の候補となる語句をユーザに提示し、認識結果の絞り込みや修正を行わせることにより音声認識の精度を向上させる技術が開示されている。また、特許文献3および4には、音声から認識候補となる語句の含まれるカテゴリを特定し、当該カテゴリをユーザに提示することにより、ユーザに語句の絞り込みを行わせることにより音声認識精度を向上させる技術が開示されている。
特開2004−325704号公報(2004年11月18日公開) 特開2012−022251号公報(2012年 2月 2日公開) 特開2001−109492号公報(2001年 4月20日公開) 特開2006−184670号公報(2006年 7月13日公開)
しかしながら、上述のような従来技術においては、音声認識精度を向上させることができるものの、ユーザの操作性を損なう場合があった。例えば、特許文献1に開示の技術では、音声認識に用いる語彙は、利用者の習熟度により決定される。このため、上記技術を用いた機器を複数の利用者が共用している場合、上記語彙が利用者それぞれの習熟度にそぐわないものとなる可能性がある。このような場合、語彙の誤認識およびそれに伴う機器の誤動作が増加し、結果的にユーザの操作性が損なわれてしまう場合があった。また、特許文献2〜4に開示の技術では、最終的な音声認識の結果を得るまでに、ユーザが最初の発話以降も所定の操作を行う必要があるため、ユーザの操作が煩雑になり、操作性を損なっている。
本発明は上記の問題点に鑑みなされたものであり、その目的は、ユーザの操作性を損なうことなく音声認識における認識精度を向上させることができる音声認識装置、および音声認識装置の制御プログラムを実現することにある。
上記の課題を解決するために、本発明の一態様に係る音声認識装置は、ユーザの発話を音声として検出し、当該音声に含まれる語句を音声認識する音声認識装置であって、音声操作の対象となる電子機器の状態を示す情報を取得する機器状態取得手段と、上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段と、上記ユーザの発話を音声データとして取得する音声データ取得手段と、上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段と、上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段と、を備えていることを特徴としている。
本発明の一態様によれば、音声認識装置が、電子機器の現在の状態に応じて、音声認識の対象となる候補語句を決定することで、音声認識に使用する候補語句の絞り込みが自動的に行われることになるため、候補語句の絞り込み、すなわち音声認識精度を向上させるための操作をユーザが行う必要がなくなる。したがって、ユーザの操作性を損なうことなく音声認識における認識精度を向上させることができるという効果を奏する。
本発明の第1の実施形態に係る音声認識装置を搭載した、デジタルカメラの要部構成を示すブロック図である。 上記音声認識装置が音声認識のために利用する語句テーブルのデータ構造の一例を示す図である。 上記デジタルカメラにて行われる音声認識処理の流れを示すフローチャートである。 上記デジタルカメラの動作概要を示す図である。 本発明の第2の実施形態に係る音声認識装置を搭載したデジタルカメラの動作概要を示す図である。 上記音声認識装置が音声認識のために利用する語句テーブルのデータ構造の一例を示す図である。
≪実施形態1≫
本発明の第1の実施形態について説明すれば、以下の通りである。なお、本実施形態では、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。以下では、本実施形態について、図1〜4を用いて詳細に説明する。
〔要部構成〕
まず初めに、デジタルカメラ100の要部構成を図1に基づいて説明する。図1は、デジタルカメラ100の要部構成を示すブロック図である。なお、本実施形態を説明するうえで、直接関係のない部分(例えば、外部機器との接続部分や写真撮影を行う部分など)についての説明は省略する。デジタルカメラ100(電子機器)は、図示の通り、音声認識装置としての認識制御部10と、センサ部20(センサ部、機器状態特定手段)と、機器状態特定部21と、音声検出部30(音声検出手段)と、語句テーブル40と、機器制御部50とを備えている。
センサ部20は、現在のデジタルカメラ100の状態が変化したことを検知するものである。ここで、デジタルカメラ100の状態の変化とは、デジタルカメラ100が任意の制御指示を受け付けた状態を示す。例えば、デジタルカメラ100に対して、撮影モードや表示モード、各種パラメータの設定などが指示された状態を示す。センサ部20は、デジタルカメラ100に対し制御指示が送信されことを検知し、検知信号を後述の機器状態特定部21へと送信する。なお、センサ部20は、デジタルカメラ100の状態の変化を検出できれば、どのような検知方法を用いてもよい。例えば、センサ部20は、デジタルカメラ100の撮影モードの設定のための設定信号を受信することにより、状態の変化を検知してもよい。この場合、撮影モードの変更に伴い、設定信号も変化するため、設定信号を上記検知信号として機器状態特定部21へと送信すればよい。
機器状態特定部21は、上記検知信号からデジタルカメラ100の状態を特定するものである。ここで、デジタルカメラ100の状態とは、デジタルカメラ100が、上記制御指示を受け付けた際の、デジタルカメラ100の状態である。したがって、デジタルカメラ100の状態とは、例えば撮影モード、表示モード、各種パラメータが設定されている状態、すなわち制御状態を示す。機器状態特定部21はデジタルカメラ100の状態を特定すると、特定した状態を示す情報を認識制御部10内の機器状態取得部11へと送信する。なお、機器状態特定部21は、デジタルカメラ100の現在の状態を特定することができれば、どのような特定方法を用いてもよい。例えば、上記センサ部20から上記設定信号を受信した場合は、該設定信号により設定される撮影モードを、デジタルカメラ100の現在の状態であると特定すればよい。
音声検出部30は、デジタルカメラ100のユーザの発話を音声データとして検出するものである。音声検出部30の構成および形態は特に限定しない。音声検出部30にて検出された音声データは、後述の認識制御部10の音声取得部13へと送信される。また、上述のセンサ部20、機器状態特定部21、および音声検出部30は、デジタルカメラ100に内蔵されてもよいし、デジタルカメラ100の外部機器として接続されてもよい。
語句テーブル40は、特定語句と照合するための語句を示す情報である。語句テーブル40には、語句に対し、当該語句を候補語句とするか否かの情報と、デジタルカメラ100の制御命令を示す情報とが対応づけられ記憶されている。ここで、「候補語句」とは、後述する認識語句決定部15において、特定語句と照合する対象となる(音声認識において、ユーザの発話に含まれる語句を検出する候補になる)語句を示す。語句テーブル40の詳細なデータ構造については後で詳述する。語句テーブル40は、候補語句決定部12により書き換えられ、認識語句決定部15および制御信号出力部16により参照される。
認識制御部10は、デジタルカメラ100の音声認識を統括的に制御するものである。認識制御部10は例えば、CPU(central processing unit)などで実現される。認識制御部10は、さらに詳しくは、機器状態取得部11(機器状態取得手段)、候補語句決定部12(候補語句決定手段)、音声取得部13(音声データ取得手段)、特定語句検出部14(特定語句検出手段)、認識語句決定部15(認識語句決定手段)、および制御信号出力部16を含む。
機器状態取得部11は、機器状態特定部21からデジタルカメラ100の状態を示す情報を取得し、取得した情報を後述の候補語句決定部12へと送信するものである。
候補語句決定部12は、機器状態取得部11から受信した、機器の状態を示す情報に対応付けられた語句を、上記音声認識の対象となる候補語句として決定するものである。具体的には、候補語句決定部12は、後述する語句テーブル40に記憶されているどの語句を候補語句とするかを決定するものである。候補語句決定部12の行う候補語句の決定方法については、後で詳述する。
音声取得部13は、音声検出部30から音声データを取得し、取得した音声データを特定語句検出部14へと送信するものである。
特定語句検出部14は、音声取得部13から送信された音声データに含まれる語句の中から特定の語句(以下、「特定語句」と称する)を検出するものである。ここで、「特定語句」は、デジタルカメラ100を制御するために、当該デジタルカメラ100に対するユーザの音声指示内容を示す語句をいう。特定語句検出部14は、より具体的には、音声データをテキストデータに変換し、予め登録されているデータベース(図示せず)から、当該音声データに含まれる特定語句をテキストデータとして検出する。検出された特定語句は、認識語句決定部15へと送信される。
なお、特定語句は、後述の認識語句決定部15にて語句テーブル40の語句のうち候補語句として決定された語句と、該特定語句とを照合できる形式で検出されればよく、特定語句の検出形式は特に限定されない。例えば、特定語句は音声データであってもよい。
認識語句決定部15は、特定語句と各候補語句とを照合し、照合の結果特定語句と合致した候補語句を、特定語句が示す語句であると決定するものである。以降、特定語句と各候補語句との照合の結果、特定語句と合致すると判定された候補語句を単に「認識語句」と記述する。認識語句決定部15は、より具体的には、特定語句の文字列と語句テーブル40に格納されている候補語句の文字列とを照合する。照合の結果、両者の文字列が全てまたは一定以上の割合で一致する場合に、上記候補語句が認識語句であると判定する。
制御信号出力部16は、認識語句決定部15にて決定した認識語句に対応づけられた制御命令を上記語句テーブル40から読み出し、デジタルカメラ100の各種機能を制御する制御コマンドを作成し、作成した制御コマンドを制御信号として機器制御部50へ出力するものである。ここで、「制御コマンド」とは、デジタルカメラ100の各種機能を制御するためのコマンドである。
機器制御部50は、デジタルカメラ100の各種機能を制御するものである。機器制御部50の制御する機能は特に限定されないが、具体例としては、写真撮影やタイマーなどデジタルカメラ100がカメラとして持つ基本的な機能、撮影モードの設定などの各種設定機能、ならびにメニュー画面などの表示および操作機能などが挙げられる。
〔語句テーブルのデータ構成〕
次に、図2に基づき語句テーブル40の詳細なデータ構造について説明する。図2は、認識制御部10が音声認識のために利用する語句テーブル40のデータ構造の一例を示す図である。具体的には、図2ではデジタルカメラ100の撮影モード(状態)が「屋外」の場合の語句テーブル40のデータの例を示している。なお、図2において、語句テーブル40をテーブル形式のデータ構造にて示したことは一例であって、語句テーブル40のデータ構造をテーブル形式に限定する意図はない。以降、データ構造を説明するためのその他の図においても同様である。図示の通り、語句テーブル40は、「語句」列と、「候補」列と、「制御命令」列とを持つ。語句テーブル40は、「語句」列に、「候補」列および「制御命令」列が対応づけられた構成である。したがって、「語句」列の情報が決まれば、「候補」列および「制御命令」列の情報が一意に決まる。
「語句」列は、認識制御部10が音声認識に用いる語句を格納する。
「候補」列は、各行において「語句」列に格納された語句を、音声認識において候補語句とするか否かの情報を格納している。「候補」列の情報は、機器状態取得部11の取得する機器の状態に応じて、候補語句決定部12によって書き換えられる。図2においては、「候補」列が「○」である行の「語句」列に格納された語句は、特定語句との照合の対象となる。すなわち、「候補」列が「○」である行の語句は候補語句である。一方、「候補」列が空欄である行の「語句」列に格納された語句は上記照合の対象とならない。
「制御命令」列は、語句テーブル40の各行において、「語句」列に格納された語句が特定語句と合致する、すなわち、認識語句であると判定された場合に、デジタルカメラ100にて実行する制御命令を示す情報を格納する。ここで、「制御命令」とは、制御信号出力部16が制御コマンドを作成するために必要な情報を示している。「制御命令」列の情報は、制御信号出力部16により読み出される。
なお、各列に格納する情報の形式は特に限定されない。また、「候補」列の情報は、ユーザが自由に変更可能であってもよい。また、語句テーブル40は、デジタルカメラ100においてあらかじめ定められたものであってもよいが、ユーザによって書き換え可能なように記憶されていてもよい。例えば、ユーザが語句テーブル40に対し、新規に語句を追加できるようにしてもよいし、該語句に対応づけられた制御命令や「候補」列の情報を変更できるようにしてもよい。さらに、語句テーブル40は、制御命令を必ずしも記憶している必要はない。しかしながら、語句テーブル40または他のテーブルに制御命令の情報を格納し、上記語句と対応づけた場合、音声認識の際に、認識された語句に対応してデジタルカメラ100の制御を行うことが可能となるというメリットがある。
〔候補語句決定部による候補語句の決定〕
次に、候補語句決定部12が行う候補語句の決定について、上述の図2を参照して詳述する。候補語句決定部12は、より具体的には、機器状態取得部11から受信した機器の状態を示す情報に基づいて、語句テーブル40中の当該語句の「候補」列の値を切替えるものである。
デジタルカメラ100の撮影モードが「屋外」の場合、ユーザがホワイトバランスの設定を屋内用の設定に変更するような語句を発話することは非常に少ないと予測される。このように、デジタルカメラ100の各状態において、ユーザが発話しないと予測される語句については、語句テーブル40の「候補」列を空欄とし、当該状態の場合に候補語句から除外する。具体的には、候補語句決定部12は、機器状態取得部11からデジタルカメラ100の状態を示す情報を受信すると、語句テーブル40を参照して、当該状態に予め対応づけられた語句を検索する。そして、候補語句決定部12は、上記状態に対応付けられた語句の「候補」列のみを「○」とし(上記語句を候補語句とし)、他の語句に対応づけられた「候補」列の情報は全て空欄とする。
なお、候補語句決定部12は、上述の方法で候補語句を絞り込む代わりに、デジタルカメラ100の現在の状態において、実行可能な制御命令に対応づけられた語句を候補語句としてもよい。この場合は、制御命令を示す情報がデジタルカメラ100に格納されており、該制御命令を示す情報が、語句テーブル40の語句に対応づけられる。また、候補語句決定部12は、上述のように「候補」列の情報を書き換える代わりに、デジタルカメラ100の状態により、参照する語句テーブルを変更してもよい。この場合、デジタルカメラ100は、自機の状態それぞれに対応した語句テーブルを備えることとなり、「候補」列の書換えは起こらないので、「候補」列は必ずしも必要ではない。
〔処理の流れ〕
図3は、デジタルカメラ100にて行われる音声認識処理の流れを示した図である。まず初めに、デジタルカメラの状態を示す情報を取得する(S100)。具体的には、機器状態取得部11が、機器状態特定部21によって特定されたデジタルカメラ100の状態を示す情報を取得する。次に、S100で取得したデジタルカメラの状態を示す情報に応じ、語句テーブルの「候補」列を書き換える(S102)。具体的には、候補語句決定部12は、機器状態取得部11から上記状態を示す情報を受信すると、受信した情報が示すデジタルカメラ100の状態に応じて、語句テーブル40の「候補」列の情報を書き換える。これにより、語句テーブル40に含まれる語句のうち、どの語句を音声認識の対象の候補語句とするかが決定される。
次に、音声を検出する(S104のYES)と、検出した音声から音声データを取得する(S106)。具体的には、音声検出部30が、検出したデジタルカメラ100のユーザの発話を音声データを、音声取得部13によって取得する。続いて、音声データに含まれる特定語句を検出する(S108)。具体的には、特定語句検出部14が、音声取得部13によって取得された音声データから、音声認識の対象となる特定語句を検出する。次に、認識語句を決定する(S110)。具体的には、認識語句決定部15が、特定語句検出部14によって検出された特定語句と合致する、語句テーブル40中の候補語句を認識語句と決定する。
続いて、制御信号出力部16は、認識語句に対応した制御命令を語句テーブルから読み出し(S112)、読み出した制御命令から制御コマンドを作成し(S114)、制御コマンドを出力する(S116)。最後に、デジタルカメラ100は、制御コマンドに応じた制御を行う(S118)。
〔動作概要〕
続いて、図4に基づいて、本実施形態に係る音声認識装置を搭載したデジタルカメラ100の動作概要を説明する。図4の(a)および(b)は、具体的には、撮影モードが「屋外」であるデジタルカメラ100の動作を示している。ここでは、図2に示す語句テーブル40を用いて候補語句を決定する。すなわち、図2に示す通り、上記デジタルカメラ100の候補語句決定部12は、「ホワイトバランス晴天」という語句は候補語句とするが、「ホワイトバランス蛍光灯」という語句は候補語句としない。
上述のような場合に、ユーザが「ホワイトバランス晴天」という語句を発したとする(図4の(a))。この場合、上記語句は候補語句である。よって、認識語句決定部15にて上記語句と特定語句との照合が行われる。これにより、上記語句が認識語句であると決定され、該認識語句に対応する制御命令(ホワイトバランスを「晴天」の設定に切替える)が制御コマンドとして実行される。つまり、上記ユーザの音声は音声認識され、ホワイトバランスは「晴天」へと変更される。一方、ユーザが「ホワイトバランス蛍光灯」という語句を発した場合(図4の(b))、上記語句は候補語句ではないので認識語句決定部15において特定語句と照合されない。つまり、上記ユーザの音声は音声認識されない。
このように、本実施形態に係る音声認識装置を搭載したデジタルカメラ100は、その撮影モードにおいてユーザが指示しないであろうと予測される指示を示す語句については、音声認識の候補から除外することができる。
本実施形態1では、音声認識の認識対象となる候補語句をデジタルカメラ100の状態に応じて決定する例について説明したが、これに限定されるものではなく、デジタルカメラ100の状態を示す情報に対応付けられた語句の文字数から当該語句を上記候補語句とするか否かを決定するようにしてもよい。この場合には、特定語句の検出精度が低下すると考えられる状態である場合において、誤認識の起こりにくい語句を候補語句とすることができる。下記の実施形態2では、特にデジタルカメラ100の状態が所定の状態(誤認識しやすい状態)である場合に、デジタルカメラ100の状態を示す情報に対応付けられた語句の文字数が、音声認識における認識語句の誤検出を生じ易い文字数以上の語句を上記候補語句として決定する例について説明する。
≪実施形態2≫
本発明の第2の実施形態について説明すれば、以下の通りである。なお、本実施形態では、前記実施形態1と同様に、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。また、説明の便宜上、前記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記しその説明を省略する。
本実施形態が、前記実施形態1と相違している点は、図1に示す認識制御部10内の候補語句決定部12が候補語句を決定する処理である。本実施形態での音声認識処理では、音声を正確に検出できないと予測される状況(誤認識しやすい状態)において、音声認識の精度を極力担保できるよう、誤認識の起こりやすい語句を語句テーブルから除外する。
ここで、「誤認識の起こりやすい語句」とは、具体的には文字数の少ない(短い)語句や、他の単語と類似した文字や単語を多数含んでいる語句などである。なぜならば、上記のような語句は、他の語句との差異を判別できる部分が少なく、音声認識において正確に判別しづらいからである。
次に、本実施形態において候補語句決定部12が行う候補語句の決定について詳述する。本実施形態における候補語句決定部12は、上記第1の実施形態にて説明した候補語句の決定に加え、以下の方法にて候補語句の決定を行う。
図5の(a)〜(d)は、本実施形態におけるデジタルカメラ100の動作概要を示す図である。ここで、図5の(a)および(b)に示すデジタルカメラ100は、撮影モードが「自分撮り」以外のモードであり、図5の(c)および(d)に示すデジタルカメラ100は、撮影モードが「自分撮り」である。また、図6は、本発明の第2の実施形態に係る音声認識装置が利用する語句テーブル40の具体例を示す。図6は、さらに詳しくは、デジタルカメラ100の撮影モードが「自分撮り」の場合の語句テーブル40を示している。なお、語句テーブル40のデータ構成自体は第1の実施形態と同様である。
ところで、デジタルカメラ100の撮影モード(状態)が「自分撮り」の場合(図5の(c)および(d))は、発話するユーザと、デジタルカメラ100の音声検出部30との距離は通常の場合(図5の(a)および(b))より離れていると考えられる。
上記の場合、音声検出部30が検出する音声データの品質は低下し、音声データに基づいて検出される特定語句の検出精度も低下すると考えられる。このように、特定語句の検出精度が低い場合に文字数の少ない語句も候補語句とすると、認識語句の誤検出が増加し却ってユーザの操作性を損なってしまう。
そこで、本実施形態における候補語句決定部12は、図6に示すように、「撮影」「メニュー」「閲覧」など、文字数が予め定めた閾値より少ない語句については、対応する「候補」列を空欄とし、候補語句から除外する。上記閾値を音声認識における認識語句の誤検出を生じ易い文字数とすれば、誤検出し易い候補語句を除外することができる。よって、音声認識における認識語句の誤検出を確実に防止することができる。
なお、本実施形態における音声認識処理は、第1の実施形態における音声認識処理と併用することで、さらに音声認識の精度を向上させることができる。例えば、本実施形態においても、撮影モードが「自分撮り」の際にユーザが発話しないであろう「タイマーセット」という語句に対応する「候補」列は空欄としてよい(図6)。
〔動作概要〕
次に、本実施形態に係るデジタルカメラ100の動作概要を、図5を用いて説明する。デジタルカメラ100の撮影モードが「自分撮り」以外の場合(図5の(a)および(b))は、デジタルカメラ100の候補語句決定部12は、「シャッター撮影」および「撮影」のどちらの語句も候補語句とする。一方、上記撮影モードが「自分撮り」の場合(図5の(c)および(d))は、「シャッター撮影」は候補語句とするが、「撮影」は候補語句としない。したがって、デジタルカメラ100の撮影モードが「自分撮り」以外の場合は、ユーザが「シャッター撮影」という語句を発しても(図5の(a))、「撮影」という語句を発しても(図5の(b))、該ユーザの音声は音声認識され、写真撮影が行われる。一方、デジタルカメラ100の撮影モードが「自分撮り」である場合は、ユーザが「シャッター撮影」という語句を発した際(図5の(c))は、ユーザの音声は音声認識されるが、「撮影」という語句を発した際(図5の(d))は、音声認識されない。
このように、本実施形態では、音声検出部30の検出する音声データの品質が低下すると予測される場合は、上記「撮影」のように、誤認識の起こりやすい語句をさらに候補語句から除外するようにしているので、ユーザの操作性と、音声認識の精度の向上とが両立できるという効果を奏する。
上記の実施形態1,2では何れも、機器状態取得部11がデジタルカメラ100の制御状態を示す情報を機器状態として取得していたが、これに限定されるものではなく、デジタルカメラ100の環境状態を示す情報、すなわちデジタルカメラ100の周囲の明るさや、デジタルカメラ100の傾きなどの検出値を機器状態として取得してもよい。下記の実施形態3では、デジタルカメラ100の環境状態を示す情報を用いて、音声認識処理を行う例について説明する。
≪実施形態3≫
本発明の第3の実施形態について説明すれば、以下の通りである。なお、本実施形態では、前記実施形態1と同様に、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。また、説明の便宜上、前記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記しその説明を省略する。
本実施形態に係るデジタルカメラ100では、図1に示すセンサ部20が、デジタルカメラ100の環境状態を示す情報、すなわち明るさや、傾きなどの検出値を検出する各種センサとしてはたらく。上記センサおよび上記情報の例としては、温度センサの検出する機器の外部または内部温度、傾きセンサの検知する電子機器の傾き、光センサの検知する電子機器の外光の強度などが挙げられる。
このように、デジタルカメラ100の環境状態を示す情報、すなわち明るさや傾きなどの検出値を機器状態として取得する場合は、候補語句決定部12における候補語句の決定は、ユーザの操作を全く介さずに行うことができる。つまり、撮影モードの変更など、ユーザの操作をトリガとして候補語句の決定を行うのではなく、デジタルカメラ100の内部または外部の環境に応じて自動的に、該環境に合わせて候補語句を決定することができる。これにより、ユーザの操作性を向上させながら、音声認識の精度を向上させることができる。
〔変形例〕
本発明に係る音声認識装置は上述したデジタルカメラに限らない。本発明に係る音声認識装置は、自機が音声および電子機器の状態を取得できるならば、あらゆる電子機器に搭載し、音声認識を行うことができる。例えば、上記音声認識装置を、テレビに搭載するようにしてもよい。この場合、現在放送中のチャンネルのみを認識対象にする。また、上記音声認識装置を、HDD(hard disc drive)レコーダに搭載してもよい。この場合、番組データにある録画番組のみ認識対象にする。
また、音声認識装置は必ずしも上記電子機器に内蔵されている必要はない。例えば、上記電子機器と通信を行うことにより、上記電子機器の状態や、音声データを取得してもよい。例えば、スマートフォンなどに認識制御部10および音声検出部30を搭載し、テレビなどの家電製品にセンサ部20、機器状態特定部21を搭載してもよい。
〔ソフトウェアによる実現例〕
認識制御部10の制御ブロック(特に候補語句決定部12および認識語句決定部15)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、認識制御部10は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る音声認識装置(認識制御部10)は、ユーザの発話を音声として検出し、当該音声に含まれる語句を音声認識する音声認識装置であって、音声操作の対象となる電子機器(デジタルカメラ100)の状態を示す情報を取得する機器状態取得手段(機器状態取得部11)と、上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段(候補語句決定部12)と、上記ユーザの発話を音声データとして取得する音声データ取得手段(音声取得部13)と、上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段(特定語句検出部14)と、上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段(認識語句決定部15)と、を備えている。
上記構成によれば、電子機器の現在の状態に応じて、音声認識の対象となる候補語句を決定することができる。これにより、ユーザに操作を要求することなく、電子機器が自動的に候補語句の絞り込みを行うことができる。したがって、ユーザの操作性を損なうことなく音声認識における認識精度を向上させることができるという効果を奏する。
本発明の態様2に係る音声認識装置は、上記態様1において、上記候補語句決定手段は、上記電子機器の状態を示す情報に対応付けられた語句の文字数から当該語句を上記候補語句とするか否かを決定してもよい。
上記構成によれば、候補語句が、電子機器の状態を示す情報に対応付けられた語句の文字数によって決定されることで、認識語句決定手段は、特定語句の文字数と、候補語句の文字数とを認識語句決定のためのパラメータとして、認識語句を決定することになるため、認識語句の決定精度を向上させることが可能となる。これにより、誤った音声認識による電子機器の誤動作のため、ユーザへ再操作を要求することが防止できる。したがって、ユーザの操作性の低下を軽減するとともに、音声認識の精度を向上させることができる。
本発明の態様3に係る音声認識装置は、上記態様2において、上記候補語句決定手段は、さらに、上記電子機器の状態を示す情報に対応付けられた語句の文字数が、音声認識における認識語句の誤検出を生じ易い文字数以上の語句を上記候補語句として決定してもよい。
上記構成によれば、候補語句決定手段は、誤認識の起こり易い、文字数が所定の値より少ない語句を候補語句から除外することができる。つまり、他の語句との差異を判別できる部分が少なく、音声認識において正確に判別しづらい語句を候補語句から除外することができる。よって、ユーザの操作性と音声認識の精度をさらに向上させることができる。
本発明の態様4に係る音声認識装置は、上記態様1から3のいずれかにおいて、上記機器状態取得手段は、上記電子機器の外部または内部環境を示す機器情報(環境情報)を測定するセンサ部(センサ部20)から、上記電子機器の状態として上記機器情報を取得してもよい。
上記構成によれば、センサ部が取得した機器情報に基づいて候補語句を決定することができる。したがって、電子機器の内部または外部の環境に応じて自動的に、該環境に合わせて候補語句を決定することができる。これにより、ユーザの操作性を向上させながら、音声認識の精度を向上させることができる。
本発明の様態5に係る電子機器は、上記様態1から4のいずれかに記載の音声認識装置を備えた電子機器で、上記ユーザの発話を検出する音声検出手段(音声検出部30)と、自機の状態を特定する機器状態特定手段(機器状態検知部20)とを備えている。
上記構成によれば、上記電子機器は、機器状態特定手段が特定した電子機器の状態から候補語句を決定し、音声検出手段が検出したユーザの音声と、該候補語句とを用いて音声認識を行うことができる。これにより、電子機器は現在の自機の状態において適切な語句を候補語句として音声認識を行うことができる。
本発明の各態様に係る音声認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声認識装置が備える各手段として動作させることにより上記音声認識装置をコンピュータにて実現させる音声認識装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
本発明は、音声認識により操作可能な電子機器に好適である。
10 認識制御部(音声認識装置)、11 機器状態取得部(機器状態取得手段)、12 候補語句決定部(候補語句決定手段)、13 音声取得部(音声取得手段)、14 特定語句検出部(特定語句検出手段)、15 認識語句決定部(認識語句決定手段)、20 センサ部(センサ部)、21 機器状態特定部(機器状態特定手段)、30 音声検出部(音声検出手段)、100 デジタルカメラ(電子機器)

Claims (5)

  1. ユーザの発話を音声として検出し、当該音声に含まれる語句を音声認識する音声認識装置であって、
    音声操作の対象となる電子機器の状態を示す情報を取得する機器状態取得手段と、
    上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段と、
    上記ユーザの発話を音声データとして取得する音声データ取得手段と、
    上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段と、
    上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段と、
    を備えていることを特徴とする音声認識装置。
  2. 上記候補語句決定手段は、上記電子機器の状態を示す情報に対応付けられた語句の文字数から当該語句を上記候補語句とするか否かを決定することを特徴とする請求項1に記載の音声認識装置。
  3. 上記機器状態取得手段は、上記電子機器の外部または内部環境を示す機器情報を測定するセンサ部から、上記電子機器の状態を示す情報として上記機器情報を取得することを特徴とする請求項1または2に記載の音声認識装置。
  4. 請求項1から3のいずれか1項に記載の音声認識装置を備えた電子機器であって、
    上記ユーザの発話を検出する音声検出手段と、
    自機の状態を特定する機器状態特定手段とを備えることを特徴とする電子機器。
  5. 請求項1から3の何れか1項に記載の音声認識装置を動作させるための制御プログラムであって、コンピュータを上記各手段として機能させるための制御プログラム。
JP2013018898A 2013-02-01 2013-02-01 音声認識装置、電子機器、および音声認識装置の制御プログラム Pending JP2014149457A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013018898A JP2014149457A (ja) 2013-02-01 2013-02-01 音声認識装置、電子機器、および音声認識装置の制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013018898A JP2014149457A (ja) 2013-02-01 2013-02-01 音声認識装置、電子機器、および音声認識装置の制御プログラム

Publications (1)

Publication Number Publication Date
JP2014149457A true JP2014149457A (ja) 2014-08-21

Family

ID=51572464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013018898A Pending JP2014149457A (ja) 2013-02-01 2013-02-01 音声認識装置、電子機器、および音声認識装置の制御プログラム

Country Status (1)

Country Link
JP (1) JP2014149457A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016119615A (ja) * 2014-12-22 2016-06-30 キヤノン株式会社 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58156998A (ja) * 1982-03-12 1983-09-19 日本電気株式会社 情報入力装置
JPH0944604A (ja) * 1995-08-02 1997-02-14 Oki Electric Ind Co Ltd 文字認識処理方法
JP2001034288A (ja) * 1999-07-21 2001-02-09 Nec Saitama Ltd 携帯電話装置の音声認識システム及び方法
JP2002108389A (ja) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置
JP2002278591A (ja) * 2001-03-22 2002-09-27 Sharp Corp 情報処理装置および情報処理方法、並びに、プログラム記録媒体
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2010130487A (ja) * 2008-11-28 2010-06-10 Canon Inc 撮像装置、情報処理方法、プログラムおよび記憶媒体
JP2010175921A (ja) * 2009-01-30 2010-08-12 Tokai Rika Co Ltd 音声認識装置
JPWO2010113463A1 (ja) * 2009-03-31 2012-10-04 パナソニック株式会社 撮像装置、集積回路、撮像方法、プログラム及び記録媒体
JP2012211932A (ja) * 2011-03-30 2012-11-01 Toshiba Corp 音声認識装置及び音声認識方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58156998A (ja) * 1982-03-12 1983-09-19 日本電気株式会社 情報入力装置
JPH0944604A (ja) * 1995-08-02 1997-02-14 Oki Electric Ind Co Ltd 文字認識処理方法
JP2001034288A (ja) * 1999-07-21 2001-02-09 Nec Saitama Ltd 携帯電話装置の音声認識システム及び方法
JP2002108389A (ja) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置
JP2002278591A (ja) * 2001-03-22 2002-09-27 Sharp Corp 情報処理装置および情報処理方法、並びに、プログラム記録媒体
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2010130487A (ja) * 2008-11-28 2010-06-10 Canon Inc 撮像装置、情報処理方法、プログラムおよび記憶媒体
JP2010175921A (ja) * 2009-01-30 2010-08-12 Tokai Rika Co Ltd 音声認識装置
JPWO2010113463A1 (ja) * 2009-03-31 2012-10-04 パナソニック株式会社 撮像装置、集積回路、撮像方法、プログラム及び記録媒体
JP2012211932A (ja) * 2011-03-30 2012-11-01 Toshiba Corp 音声認識装置及び音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016119615A (ja) * 2014-12-22 2016-06-30 キヤノン株式会社 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体

Similar Documents

Publication Publication Date Title
US20210118463A1 (en) Interactive server, control method thereof, and interactive system
EP3195310B1 (en) Keyword detection using speaker-independent keyword models for user-designated keywords
US9778747B2 (en) Method and system for multimodal and gestural control
KR102623272B1 (ko) 전자 장치 및 이의 제어 방법
JP6681011B2 (ja) 画像の取り込みを制御するためのシステム及び方法
EP3020040B1 (en) Method and apparatus for assigning keyword model to voice operated function
US9948764B2 (en) Artificial intelligence audio apparatus and operation method thereof
CN116364076A (zh) 一种处理方法、控制方法、识别方法及其装置和电子设备
US7792678B2 (en) Method and device for enhancing accuracy of voice control with image characteristic
US11457061B2 (en) Creating a cinematic storytelling experience using network-addressable devices
WO2018202073A1 (zh) 语音控制智能设备的方法、装置和智能设备
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
US20190012137A1 (en) Remote controller and method for receiving a user's voice thereof
US11050828B2 (en) Electronic device, server and method of controlling the same
WO2015062511A1 (zh) 智能电视的光标控制方法和光标控制装置
WO2018154900A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2016157782A1 (ja) 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
EP3788621A1 (en) Adaptive diarization model and user interface
KR102517219B1 (ko) 전자장치 및 그 제어방법
US10691717B2 (en) Method and apparatus for managing data
KR20180086032A (ko) 전자장치, 전자장치의 제어방법 및 기록매체
JP2020095702A (ja) 情報処理装置、撮像装置、情報処理装置の制御方法、および、プログラム
JP2014149457A (ja) 音声認識装置、電子機器、および音声認識装置の制御プログラム
US11818457B2 (en) Image capturing apparatus, control method therefor, and storage medium
KR20190081653A (ko) 디스플레이 장치 및 그 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170712

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180109