JP6811865B2

JP6811865B2 - 音声認識装置および音声認識方法

Info

Publication number: JP6811865B2
Application number: JP2019535463A
Authority: JP
Inventors: 祐介瀬戸
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2021-01-13
Anticipated expiration: 2037-08-08
Also published as: JPWO2019030810A1; US20200168221A1; WO2019030810A1

Description

本発明は、ユーザが自身の音声によって機器を操作する際に音声認識処理を行う音声認識装置および音声認識方法に関する。

ユーザが音声によって機器を操作する際、ユーザが機器に予め登録されている操作に関する語彙を正しく発話しないと、機器はユーザの音声を操作コマンドとして受け付けることができない。特に、操作に関する語彙が長い場合、ユーザは所望の操作をするために長い語彙を覚える必要があり、また操作に要する時間がかかるという問題がある。

このような問題の対策として、従来では、機器を操作する際のユーザの発話を省略する技術が開示されている（例えば、特許文献１，２参照）。特許文献１では、操作に関する語彙について音声認識が可能な階層を設け、ユーザが最上位の階層の語彙から全ての語彙を発話したときに操作コマンドとして受け付けるだけでなく、前回発話した途中の階層の語彙から発話したときも操作コマンドとして受け付けることによって、機器を操作する際のユーザの発話を省略することを可能としている。

また、特許文献２では、操作に関する語彙を省略した省略語を予め定義しておき、現在のアプリケーションの利用状況、および過去のユーザの操作情報から、ユーザが発話した省略語に対応する操作を推定することによって、機器を操作する際のユーザの発話を省略することを可能としている。

特開平１１−３８９９４号公報特開２０１６−１１４３９５号公報

特許文献１では、前回の続きから発話するという特定の利用の場合でしか発話を省略することができないという問題がある。また、発話を省略した結果として類似語が生じる場合があることを考慮していないため、ユーザの発話の音声認識率が低下してしまうという問題がある。

特許文献２では、予め省略語を定義しておかなければならないという問題がある。また、省略語に対する操作を推定しているため、ユーザの意図とは異なる操作を実行する可能性があるという問題がある。

このように、従来では、ユーザが音声によって機器を操作する際の操作性が良いとはいえなかった。

本発明は、このような問題を解決するためになされたものであり、ユーザが音声によって機器を操作する際の操作性を向上させることが可能な音声認識装置および音声認識方法を提供することを目的とする。

上記の課題を解決するために、本発明による音声認識装置は、ユーザの音声を取得する音声取得部と、音声取得部が取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、音声認識部が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定する音声区間特定部と、音声区間特定部が特定した音声区間に対応する音声を出力する制御を行う音声出力制御部とを備える。

また、本発明による音声認識装置は、ユーザの音声を取得する音声取得部と、音声取得部が取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、音声認識部が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定する文字列特定部と、文字列特定部が特定した文字列を表示する制御を行う表示制御部とを備える。

また、本発明による音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定し、特定した音声区間に対応する音声を出力する制御を行う。

また、本発明による音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定し、特定した文字列を表示する制御を行う。

本発明によると、音声認識装置は、ユーザの音声を取得する音声取得部と、音声取得部が取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、音声認識部が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定する音声区間特定部と、音声区間特定部が特定した音声区間に対応する音声を出力する制御を行う音声出力制御部とを備えるため、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。

また、音声認識装置は、ユーザの音声を取得する音声取得部と、音声取得部が取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、音声認識部が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定する文字列特定部と、文字列特定部が特定した文字列を表示する制御を行う表示制御部とを備えるため、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。

また、音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定し、特定した音声区間に対応する音声を出力する制御を行うため、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。

また、音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定し、特定した文字列を表示する制御を行うため、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。

本発明の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。

本発明の実施の形態１による音声認識装置の構成の一例を示すブロック図である。本発明の実施の形態１による音声認識装置の構成の一例を示すブロック図である。本発明の実施の形態１による音声認識装置のハードウェア構成の一例を示すブロック図である。本発明の実施の形態１による音声認識装置の動作の一例を示すフローチャートである。本発明の実施の形態１による音声認識装置の動作を説明するための図である。本発明の実施の形態１による音声認識装置の動作を説明するための図である。本発明の実施の形態２による音声認識装置の構成の一例を示すブロック図である。本発明の実施の形態２による音声認識装置の構成の一例を示すブロック図である。本発明の実施の形態２による音声認識装置のハードウェア構成の一例を示すブロック図である。本発明の実施の形態２による音声認識装置の動作の一例を示すフローチャートである。本発明の実施の形態による音声認識システムの構成の一例を示すブロック図である。

本発明の実施の形態について、図面に基づいて以下に説明する。

＜実施の形態１＞
＜構成＞
図１は、本発明の実施の形態１による音声認識装置１の構成の一例を示すブロック図である。なお、図１では、本実施の形態１による音声認識装置を構成する必要最小限の構成を示している。

図１に示すように、音声認識装置１は、音声取得部２と、音声認識部３と、音声区間特定部４と、音声出力制御部５とを備えている。音声取得部２は、ユーザの音声を取得する。音声認識部３は、音声取得部２が取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する。音声区間特定部４は、音声認識部３が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定する。音声出力制御部５は、音声区間特定部４が特定した音声区間に対応する音声を出力する制御を行う。

次に、図１に示す音声認識装置１を含む音声認識装置の他の構成について説明する。

図２は、他の構成に係る音声認識装置６の構成の一例を示すブロック図である。

図２に示すように、音声認識装置６は、音声取得部２と、音声認識部３と、音声区間特定部４と、音声出力制御部５と、音響言語モデル７とを備えている。音声取得部２は、マイク８に接続されている。音声出力制御部５は、スピーカ９に接続されている。

音声取得部２は、マイク８を介してユーザが発した音声を取得する。音声取得部２は、ユーザの音声をアナログで取得した場合はＡ／Ｄ（Analog/Digital）変換を行う。なお、音声取得部２は、アナログであるユーザの音声を、例えばＰＣＭ（Pulse Code Modulation）形式などのデジタル形式に正確に変換するために、ノイズリダクションまたはビームフォーミング等の処理を行ってもよい。

音声認識部３は、音声取得部２が取得した音声について、機器の操作に関する予め定められた複数の語彙のうち最も尤度が高い語彙を認識する。このときの音声認識処理は、周知の技術を用いて行えば良い。例えば、音声認識部３は、音声取得部２が取得した音声の特徴量を抽出し、抽出した音声の特徴量に基づいて音響言語モデル７を用いて音声認識処理を行い、最も尤度が高い語彙を求める。

具体的には、音声認識部３は、次の（１）〜（４）の処理を行う。（１）ユーザが発話した音声の始端を検知し、単位時間の音声の特徴量を抽出する。（２）抽出した音声の特徴量に基づいて音響言語モデル７を用いて探索し、モデルのツリー内の各ブランチの出現確率を算出する。（３）上記（１），（２）を時系列ごとに逐次算出し、ユーザが発話した音声の終端を検知するまで繰り返す。（４）最終的に出現確率が最も高い、すなわち最も尤度が高いブランチを文字列に変換し、当該文字列である語彙を音声認識結果とする。

なお、音響言語モデル７は、音響モデルと言語モデルとを含み、音声の特徴量とその連鎖としての言語文字情報の出現確率をＨＭＭ（Hidden Markov Model）などによって一方通行のツリー構造でモデル化したものである。音響言語モデル７は、例えばハードディスクドライブ（ＨＤＤ）または半導体メモリなどの記憶装置に記憶されている。図２の例では、音声認識装置６が音響言語モデル７を備えているが、音声認識装置６の外部に音響言語モデル７を設けてもよい。また、機器の操作に関する予め定められた複数の語彙は、音響言語モデル７に予め登録されている。

音声区間特定部４は、音声認識部３が認識した最も尤度が高い語彙について、他の語彙よりも尤度が高くなる音声区間を特定する。具体的には、音声区間特定部４は、音声認識部３が認識した最も尤度が高い語彙と、二番目に尤度が高い語彙とを比較する。そして、音声区間特定部４は、最も尤度が高い語彙の先頭から、両者の尤度の差が予め定められた閾値以上となるまでの音声区間を特定する。

音声出力制御部５は、音声区間特定部４が特定した音声区間に対応する音声を出力するようにスピーカ９を制御する。具体的には、音声出力制御部５は、音声取得部２が取得したユーザの音声を一時的に保持し、当該音声のうち音声区間特定部４が特定した音声区間に対応する音声を出力するようにスピーカ９を制御する。スピーカ９は、音声出力制御部５の制御に従って音声を出力する。

図３は、音声認識装置６のハードウェア構成の一例を示すブロック図である。なお、音声認識装置１についても同様である。

音声認識装置６における音声取得部２、音声認識部３、音声区間特定部４、および音声出力制御部５の各機能は、処理回路により実現される。すなわち、音声認識装置６は、ユーザの音声を取得し、最も尤度が高い語彙を認識し、音声区間を特定し、音声区間に対応する音声を出力する制御を行うための処理回路を備える。処理回路は、メモリ１１に格納されたプログラムを実行するプロセッサ１０（中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）ともいう）である。

音声認識装置６における音声取得部２、音声認識部３、音声区間特定部４、および音声出力制御部５の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ１１に格納される。処理回路は、メモリ１１に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識装置６は、ユーザの音声を取得するステップ、最も尤度が高い語彙を認識するステップ、音声区間を特定するステップ、音声区間に対応する音声を出力する制御を行うステップが結果的に実行されることになるプログラムを格納するためのメモリ１１を備える。また、これらのプログラムは、音声取得部２、音声認識部３、音声区間特定部４、および音声出力制御部５の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリとは、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等の不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等、または、今後使用されるあらゆる記憶媒体であってもよい。

＜動作＞
図４は、音声認識装置６の動作の一例を示すフローチャートである。

ステップＳ１１において、音声取得部２は、マイク８を介してユーザが発した音声を取得する。ステップＳ１２において、音声認識部３は、音声取得部２が取得した音声について、機器の操作に関する予め定められた複数の語彙のうち最も尤度が高い語彙を認識する。

ステップＳ１３において、音声区間特定部４は、音声認識部３による音声認識結果から、音声認識部３が認識した最も尤度が高い語彙について、他の語彙よりも尤度が高くなる音声区間を特定する。

例えば、機器の操作に関する語彙として、「show setting display」、「show navigation display」、および「show audio display」が予め登録されており、音声認識部３が認識した最も尤度が高い語彙が「show setting display」である場合について説明する。ここで、「show setting display」は、ディスプレイに各種設定を行うための画面である設定画面を表示させることを示す語彙である。「show navigation display」は、ディスプレイにナビゲーションに関する画面であるナビゲーション画面を表示させることを示す語彙である。「show audio display」は、ディスプレイにオーディオに関する画面であるオーディオ画面を表示させることを示す語彙である。

図５に示すように、ユーザが「show」と発話した時点で、音声認識部３は、「show setting display」、「show navigation display」、および「show audio display」のいずれも尤度が同じであると判断する。このときの尤度はいずれも「４」であるものと想定する。なお、図５および後述する図６は、ユーザが発話したときの音を表現しているが、説明容易のために一文字ずつ区切って示している。

次に、図６に示すように、ユーザが「show se」と発話した時点で、音声認識部３は、「show setting display」である可能性が高いと判断する。このとき、「show setting display」の尤度は「７」であり、「show navigation display」および「show audio display」の尤度は「４」であるものと想定する。音声区間特定部４は、この時点で、「show setting display」の尤度が、「show navigation display」および「show audio display」の尤度よりも高くなっていると判断する。このように、音声区間特定部４は、最も尤度が高い語彙である「show setting display」と、二番目に尤度が高い語彙である「show navigation display」および「show audio display」とを比較し、先頭から、両者の尤度の差が予め定められた閾値以上となるまでの音声区間を特定する。なお、ここでは、両者の尤度の差の閾値は「２」であるものと想定する。図６の例では、最も尤度が高い語彙である「show setting display」と、二番目に尤度が高い語彙である「show navigation display」および「show audio display」との尤度の差が「３」であり、閾値の「２」以上である。従って、音声区間特定部４は、先頭から尤度の差が「３」までの音声区間として「show se」を特定する。

ステップＳ１４において、音声出力制御部５は、一時的に保持している音声取得部２が取得したユーザの音声のうち、音声区間特定部４が特定した音声区間に対応する音声を出力するようにスピーカ９を制御する。スピーカ９は、音声出力制御部５の制御に従って音声を出力する。例えば、音声区間特定部４が音声区間として「show se」を特定した場合、スピーカ９から『設定画面を表示します。今の発話は「show se」でも認識できます。』などの音声が出力される。

なお、上記の説明において、尤度の値、および尤度の差の閾値は一例であり、任意の値であってもよい。

上記の説明では、ユーザが英語で発話する場合について説明したが、これに限るものではない。例えば、日本語、ドイツ語、または中国語など他の言語であってもよい。この場合、音響言語モデル７には、各言語に対応した機器の操作に関する語彙が予め登録されている。

＜変形例＞
上記では、例えば「show se」のように、音声区間特定部４が単語の途中で区切った音声区間を特定する場合について説明したが、これに限るものではない。音声区間特定部４は、音声区間を単語単位で特定してもよい。

例えば、「show setting display」について「show /setting /display」といった単語の区切り情報を音響言語モデル７に登録しておく。そして、音声認識部３がユーザによる「show se」の発話で一意に「show setting display」を特定できたとしても、音声区間特定部４は「show setting」と単語単位で音声区間を特定する。この場合、スピーカ９からは『設定画面を表示します。今の発話は「show setting」でも認識できます。』などの音声が出力される。このようにすることによって、単語のまとまりとして意味のある音声を出力することができる。

以上のことから、本実施の形態１によれば、音声区間特定部４は、最も尤度が高い語彙と、二番目に尤度が高い語彙とを比較し、先頭から、両者の尤度の差が予め定められた閾値以上となるまでの音声区間を特定する。そして、スピーカ９は、音声出力制御部５の制御に従って、音声区間特定部４が特定した音声区間に対応する音声を出力する。これにより、ユーザは、音声によって機器を操作する際に発話の省略が可能であることを把握することができる。また、ユーザは、音声区間特定部４が特定した音声区間に対応する音声の通り発話することによって、意図通りに機器の操作を行うことができる。従って、特許文献１のように利用場面を限定することなく適用可能となる。また、特許文献２のように事前に省略語を定義しておく手間が不要となる。さらに、ユーザの発話内容に対して省略可能な旨を提示しているだけであるため、特許文献２のような誤った操作を行うことはない。このように、本実施の形態１によれば、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。

＜実施の形態２＞
＜構成＞
図７は、本発明の実施の形態２による音声認識装置１２の構成の一例を示すブロック図である。なお、図７では、本実施の形態２による音声認識装置を構成する必要最小限の構成を示している。

図７に示すように、音声認識装置１２は、音声取得部１３と、音声認識部１４と、文字列特定部１５と、表示制御部１６とを備えている。なお、音声取得部１３および音声認識部１４は、実施の形態１における音声取得部２および音声認識部３と同様であるため、ここでは詳細な説明を省略する。

文字列特定部１５は、音声認識部１４が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定する。表示制御部１６は、文字列特定部１５が特定した文字列を表示する制御を行う。

次に、図７に示す音声認識装置１を含む音声認識装置の他の構成について説明する。

図８は、他の構成に係る音声認識装置１７の構成の一例を示すブロック図である。

図８に示すように、音声認識装置１７は、音声取得部１３と、音声認識部１４と、文字列特定部１５と、表示制御部１６と、音響言語モデル１８とを備えている。音声取得部１３は、マイク１９に接続されている。表示制御部１６は、ディスプレイ２０に接続されている。なお、音響言語モデル１８は、実施の形態１における音響言語モデル７と同様であるため、ここでは詳細な説明を省略する。

文字列特定部１５は、音声認識部１４が認識した最も尤度が高い語彙について、他の語彙よりも尤度が高くなる文字列を特定する。具体的には、文字列特定部１５は、音声認識部１４が認識した最も尤度が高い語彙と、二番目に尤度が高い語彙とを比較する。そして、文字列特定部１５は、最も尤度が高い語彙の先頭から、両者の尤度の差が予め定められた閾値以上となるまでの文字列を特定する。

表示制御部１６は、文字列特定部１５が特定した文字列を表示するようにディスプレイ２０を制御する。ディスプレイ２０は、表示制御部１６の制御に従って文字列を表示する。

図９は、音声認識装置１７のハードウェア構成の一例を示すブロック図である。なお、音声認識装置１２についても同様である。

音声認識装置１７における音声取得部１３、音声認識部１４、文字列特定部１５、および表示制御部１６の各機能は、処理回路により実現される。すなわち、音声認識装置１７は、ユーザの音声を取得し、最も尤度が高い語彙を認識し、文字列を特定し、文字列を表示する制御を行うための処理回路を備える。処理回路は、メモリ２２に格納されたプログラムを実行するプロセッサ２１（中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰともいう）である。

音声認識装置１７における音声取得部１３、音声認識部１４、文字列特定部１５、および表示制御部１６の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ２２に格納される。処理回路は、メモリ２２に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識装置１７は、ユーザの音声を取得するステップ、最も尤度が高い語彙を認識するステップ、文字列を特定するステップ、文字列を表示する制御を行うステップが結果的に実行されることになるプログラムを格納するためのメモリ２２を備える。また、これらのプログラムは、音声取得部１３、音声認識部１４、文字列特定部１５、および表示制御部１６の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリとは、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ＥＰＲＯＭ、ＥＥＰＲＯＭ等の不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等、または、今後使用されるあらゆる記憶媒体であってもよい。

＜動作＞
図１０は、音声認識装置１７の動作の一例を示すフローチャートである。なお、図１０のステップＳ２１およびステップＳ２２は、図４のステップＳ１１およびステップＳ１２に対応しているため、ここでは説明を省略する。以下では、ステップＳ２３およびステップＳ２４について説明する。

ステップＳ２３において、文字列特定部１５は、音声認識部１４による音声認識結果から、音声認識部１４が認識した最も尤度が高い語彙について、他の語彙よりも尤度が高くなる文字列を特定する。文字列特定部１５による文字列の特定方法は、実施の形態１における音声区間特定部４による音声区間の特定方法と同様である。

例えば、図６に示すように、ユーザが「show se」と発話した時点で、音声認識部１４は、「show setting display」である可能性が高いと判断する。このとき、「show setting display」の尤度は「７」であり、「show navigation display」および「show audio display」の尤度は「４」である。文字列特定部１５は、この時点で、「show setting display」の尤度が、「show navigation display」および「show audio display」の尤度よりも高くなっていると判断する。このように、文字列特定部１５は、最も尤度が高い語彙である「show setting display」と、二番目に尤度が高い語彙である「show navigation display」および「show audio display」とを比較し、先頭から、両者の尤度の差が予め定められた閾値以上となるまでの文字列を特定する。なお、ここでは、両者の尤度の差の閾値は「２」であるものとする。図６の例では、最も尤度が高い語彙である「show setting display」と、二番目に尤度が高い語彙である「show navigation display」および「show audio display」との尤度の差が「３」であり、閾値の「２」以上である。従って、文字列特定部１５は、先頭から尤度の差が「３」までの文字列として「show se」を特定する。

ステップＳ２４において、表示制御部１６は、文字列特定部１５が特定した文字列を表示するようにディスプレイ２０を制御する。ディスプレイ２０は、表示制御部１６の制御に従って文字列を表示する。例えば、文字列特定部１５が文字列として「show se」を特定した場合、ディスプレイ２０には『設定画面を表示します。今の発話は「show se」でも認識できます。』などが表示される。

上記の説明では、ユーザが英語で発話する場合について説明したが、これに限るものではない。例えば、日本語、ドイツ語、または中国語など他の言語であってもよい。この場合、音響言語モデル１８には、各言語に対応した機器の操作に関する語彙が予め登録されている。

＜変形例＞
上記では、例えば「show se」のように、文字列特定部１５が単語の途中で区切った文字列を特定する場合について説明したが、これに限るものではない。文字列特定部１５は、文字列を単語単位で特定してもよい。

例えば、「show setting display」について「show /setting /display」といった単語の区切り情報を音響言語モデル１８に登録しておく。そして、音声認識部１４がユーザによる「show se」の発話で一意に「show setting display」を特定できたとしても、文字列特定部１５は「show setting」と単語単位で文字列を特定する。この場合、ディスプレイ２０には『設定画面を表示します。今の発話は「show setting」でも認識できます。』などが表示される。このようにすることによって、単語のまとまりとして意味のある文字列を表示することができる。

以上のことから、本実施の形態２によれば、文字列特定部１５は、最も尤度が高い語彙と、二番目に尤度が高い語彙とを比較し、先頭から、両者の尤度の差が予め定められた閾値以上となるまでの文字列を特定する。そして、ディスプレイ２０は、表示制御部１６の制御に従って、文字列特定部１５が特定した文字列を表示する。これにより、ユーザは、音声によって機器を操作する際に発話の省略が可能であることを把握することができる。また、ユーザは、文字列特定部１５が特定した文字列の通り発話することによって、意図通りに機器の操作を行うことができる。従って、特許文献１のように利用場面を限定することなく適用可能となる。また、特許文献２のように事前に省略語を定義しておく手間が不要となる。さらに、ユーザの発話内容に対して省略可能な旨を提示しているだけであるため、特許文献２のような誤った操作を行うことはない。このように、本実施の形態２によれば、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。

以上で説明した音声認識装置は、車載用ナビゲーション装置、すなわちカーナビゲーション装置だけでなく、車両に搭載可能なＰＮＤ（Portable Navigation Device）および携帯通信端末（例えば、携帯電話、スマートフォン、およびタブレット端末など）、並びに車両の外部に設けられるサーバなどを適宜に組み合わせてシステムとして構築されるナビゲーション装置あるいはナビゲーション装置以外の装置にも適用することができる。この場合、音声認識装置の各機能あるいは各構成要素は、上記システムを構築する各機能に分散して配置される。

具体的には、一例として、音声認識装置の機能をサーバに配置することができる。例えば、図１１に示すように、ユーザ側は、マイク８およびスピーカ９を備えている。サーバ２３は、音声取得部２、音声認識部３、音声区間特定部４、音声出力制御部５、および音響言語モデル７を備えている。このような構成とすることによって、音声認識システムを構築することができる。なお、図８に示す音声認識装置１７についても同様である。

このように、音声認識装置の各機能を、システムを構築する各機能に分散して配置した構成であっても、上記の実施の形態と同様の効果が得られる。

また、上記の実施の形態における動作を実行するソフトウェアを、例えばサーバに組み込んでもよい。このソフトウェアをサーバが実行することにより実現される音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定し、特定した音声区間に対応する音声を出力する制御を行う。また、他の音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定し、特定した文字列を表示する制御を行う。

このように、上記の実施の形態における動作を実行するソフトウェアをサーバに組み込んで動作させることによって、上記の実施の形態と同様の効果が得られる。

なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。

本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。

１音声認識装置、２音声取得部、３音声認識部、４音声区間特定部、５音声出力制御部、６音声認識装置、７音響言語モデル、８マイク、９スピーカ、１０プロセッサ、１１メモリ、１２音声認識装置、１３音声取得部、１４音声認識部、１５文字列特定部、１６表示制御部、１７音声認識装置、１８音響言語モデル、１９マイク、２０ディスプレイ、２１プロセッサ、２２メモリ、２３サーバ。

Claims

ユーザの音声を取得する音声取得部と、
前記音声取得部が取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、
前記音声認識部が認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定する音声区間特定部と、
前記音声区間特定部が特定した前記音声区間に対応する前記音声を出力する制御を行う音声出力制御部と、
を備える、音声認識装置。
前記音声区間特定部は、前記音声区間を単語単位で特定することを特徴とする、請求項１に記載の音声認識装置。
ユーザの音声を取得する音声取得部と、
前記音声取得部が取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、
前記音声認識部が認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定する文字列特定部と、
前記文字列特定部が特定した前記文字列を表示する制御を行う表示制御部と、
を備える、音声認識装置。
前記文字列特定部は、前記文字列を単語単位で特定することを特徴とする、請求項３に記載の音声認識装置。
ユーザの音声を取得し、
前記取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、
前記認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定し、
前記特定した前記音声区間に対応する前記音声を出力する制御を行う、音声認識方法。
ユーザの音声を取得し、
前記取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、
前記認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定し、
前記特定した前記文字列を表示する制御を行う、音声認識方法。