JP2006208486A

JP2006208486A - 音声入力装置

Info

Publication number: JP2006208486A
Application number: JP2005017302A
Authority: JP
Inventors: Atsushi Yamashita; 敦士山下; Atsushi Iizaka; 篤飯阪; Takuya Hirai; 卓哉平井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-01-25
Filing date: 2005-01-25
Publication date: 2006-08-10

Abstract

【課題】ユーザの音声入力に対するレスポンスの向上と誤認識の割合の低減とを両立し、操作性を向上した音声入力装置を提供すること。
【解決手段】音声入力装置に、音声認識処理のための第１および第２の辞書データと、ユーザの発話開始タイミングを検出する始端検出部と、始端検出部が発話開始タイミングを検出した後、一定周期で発生する第１の音声認識タイミングを検出する第１タイミング検出部と、ユーザの発話終了タイミングを第２の音声認識タイミングとして検出する第２タイミング検出部と、第１タイミング検出部が第１の音声認識タイミングを検出したときには第１の辞書データを用いて音声認識処理を行い、第２タイミング検出部が第２の音声認識タイミングを検出したときには第２の辞書データを用いて音声認識処理を行う音声認識部とを設ける。
【選択図】図１

Description

本発明は、ユーザの発話内容を認識する音声入力装置に関し、より特定的には、複数の辞書を適宜に選択して音声認識に利用する音声入力装置に関する。

音声入力装置は、ユーザがコマンドを発話すると、発話された音声を入力し、格納されている辞書と照合・認識し、音声に対応するコマンド信号を機器に出力する入力インターフェースである。音声入力装置を用いたコマンド入力は、手による操作や視線の移動を必要としないので、ブラインドタッチが苦手な初心者や、車を運転中のドライバーにとって、特に有用である。

ところで、音声入力装置の核となる技術である音声認識技術では、ＤＰマッチング法やＨＭＭ（隠れマルコフモデル）を用いた方法などが研究・開発され、その認識率も徐々に向上している。しかし、現実の使用場面では、ユーザの言い淀み・言い間違い、また雑音の影響などによって、ユーザが発話したコマンドが誤認識されてしまう状況が依然として存在している。

そこで、音声認識の辞書に「違う」「キャンセル」など、直前の音声認識結果をキャンセルするコマンドを追加する方法が、一部のカーナビゲーションシステムなどの音声認識装置に搭載されている（例えば特許文献１を参照）。特許文献１に記載の装置では、コマンド群が階層構造をなしており、各階層の辞書には「キャンセル」および「終了」のコマンドを表す単語がそれぞれ追加される。そして、誤認識によって意図しないコマンドが入力されたときに、ユーザが「キャンセル」を表す単語を発声すると、そのコマンドがキャンセルされ、直前の階層に戻ってユーザにコマンドの発声を促し、ユーザが「終了」を表す単語を発声すると、音声認識動作を終了する。これにより、音声入力装置がコマンドを誤認識してしまった場合でも、ユーザはその音声認識結果を取り消したり、音声認識処理そのものを終了させたりすることができる。
特開２０００−２６７６９４号公報

ところが、特許文献１に代表される従来の方法では、キャンセルや終了を意図する音声認識操作そのものに対するコマンドと、機器（たとえばカーナビゲーション装置）に対するコマンド群とが、特に区別されることなく一様に扱われるため、以下の課題が発生する。

第１の課題は、反応時間がかかるため、即座にキャンセルできないことである。つまり、キャンセルコマンドまたは終了コマンドが実行されるタイミングが、通常のコマンドと同じであるため、ユーザにとってキャンセルまたは終了するまでの待ち時間が生じ、いらいらさせられる。またコマンドを言い間違えたときに、その場で即座にキャンセルすることができない。

第２の課題は、認識処理にメモリを消費する、また処理負荷がかかることである。つまり、音声認識処理で用いる辞書にキャンセルコマンドや終了コマンドに対応する語彙を追加する必要があるので、その分だけ辞書内の語彙数が増大し、音声認識処理のために、より多くのメモリ容量と時間が必要となる。

第３の課題は、キャンセルコマンドそのものを誤認識してしまう可能性があることである。つまり、第２の課題と同じく、辞書内の語彙数が増大するので、特に音韻的に似た語彙が存在すると誤認識の確率が上がってしまう。ユーザにとって誤認識をキャンセルするために発した「キャンセル」というコマンドが別のコマンドに誤認識されてしまうことは、ユーザを苛立たせる結果となる。

それゆえに本発明の目的は、ユーザの音声入力に対するレスポンスの向上と誤認識の割合の低減とを両立し、操作性を向上した音声入力装置を提供することである。

上記課題を解決するために、本発明は以下の構成を採用した。なお、括弧内の参照符号は、本発明の理解を助けるために図面との対応関係を示したものであって、本発明の範囲を何ら限定するものではない。

第１の発明は、ユーザが発した音声を電気信号に変換して音声データとして入力するマイク（１００）と、前記マイクから入力された音声データを記憶するバッファメモリ（２００）と、音声認識処理のための第１および第２の辞書データ（４１０、４２０）と、前記バッファメモリに記憶された音声データに基づいて、ユーザの発話開始タイミングを検出する始端検出部（３１０）と、前記始端検出部が発話開始タイミングを検出した後、一定周期で発生する第１の音声認識タイミングを検出する第１タイミング検出部（３２０）と、前記バッファメモリに記憶された音声データに基づいて、ユーザの発話終了タイミングを第２の音声認識タイミングとして検出する第２タイミング検出部（３３０）と、前記第１タイミング検出部が前記第１の音声認識タイミングを検出したときには、前記バッファメモリに記憶された音声データと前記第１の辞書データを用いて音声認識処理を行い、前記第２タイミング検出部が前記第２の音声認識タイミングを検出したときには、前記バッファメモリに記憶された音声データと前記第２の辞書データを用いて音声認識処理を行う音声認識部（５００）とを備えた、音声入力装置である。

第２の発明は、第１の発明において、前記第１の辞書データには、音声認識動作の取り消しおよび終了のうちの少なくとも１つに対応するコマンドが含まれていることを特徴とする。

第３の発明は、第１の発明において、前記第２タイミング検出部は、音声データの音パワーが予め定められた閾値を下回った時点からその状態が予め定められた時間以上続いたときに、その音パワーが予め定められた閾値を下回った時点をユーザの発話終了タイミングとして検出することを特徴とする。

本発明によれば、第１の辞書に登録されている語彙については、ユーザの発話の終了を待つことなく音声認識処理されるので、第１の辞書に登録されている語彙に対する音声入力装置のレスポンスを向上させることができる。特に、音声入力装置が受け付けることのできる語彙を第１の辞書と第２の辞書の２つの辞書に分散させることで、第１の辞書を用いた音声認識処理の処理負担が大幅に軽減され、この第１の辞書を用いた音声認識処理を短い周期で繰り返し実行することを可能にしている。また、第２の辞書に登録されている語彙に関しては、ユーザの発話の終了を待ってから音声認識処理されるので、より正確な認識が可能である。

例えば、第１の辞書データには比較的利用頻度の高い語彙を登録しておき、第２の辞書データには比較的利用頻度の低い語彙を登録しておけば、音声入力装置の全体的なレスポンスの向上に有効である。また例えば、第１の辞書データには比較的急を要するコマンドに対応する語彙を登録しておき、第２の辞書データには比較的急を要しないコマンドに対応する語彙を登録しておくことにより、急を要するコマンドを迅速に音声入力することができる。

以下に、本発明の実施形態について詳しく説明する。

図１は、本発明の実施形態に関わる音声入力装置の一構成を示した図である。図１において、音声入力装置１０は、マイク１００、バッファメモリ２００、タイミング検出部３００、辞書記憶部４００および音声認識部５００から成る。

マイク１００は、ユーザが発話した声を音声データとして入力する。なお音声入力装置では一般的に、対雑音耐性を高めるために１入力や２入力の指向性マイクを用いる場合があるが、本発明ではマイクの種類に制約はない。

バッファメモリ２００は、マイク１００が入力した音声データを一時的に記憶しておくためのメモリであって、典型的にはＲＡＭで構成される。なお音声入力装置では一般的に、対雑音耐性を高めるために、エコーキャンセルや音源分離など、音声データに対して各種の信号処理を施す場合があるが、本発明ではそれらの信号処理手法に制約はない。ただし、音声データに対して何らかの信号処理を施す場合には、処理後の音声データがバッファメモリ２００に記憶されるものとする。

タイミング検出部３００は、後述する音声認識部５００における音声認識タイミングを検出して音声認識部５００に通知する。タイミング検出部３００の詳細については後述する。タイミング検出部３００は、ハードウェア（回路）のみで実現しても良いし、ＭＰＵ、ＲＡＭ、ＲＯＭ等から成るハードウェア（コンピュータ）とソフトウェアとの組み合わせで実現してもよい。

辞書記憶部４００は、後述する音声認識部５００による音声認識処理に利用される辞書データ（ユーザの発話中に含まれていることが期待される語彙群を含む）を記憶したものであって、典型的には、ＲＡＭ、ＲＯＭまたは磁気ディスクなどの大型記憶装置で構成される。ここでの「語彙」とは、典型的には、ユーザによって入力され得るコマンドを表す単語を音素列に変換したデータである。辞書記憶部４００に記憶される辞書データの詳細については後述する。

音声認識部５００は、バッファメモリ２００に記憶された音声データが、辞書記憶部４００の辞書データに含まれているどの語彙にマッチするかを検索する。音声認識のアルゴリズムとしては、ＤＰマッチング法、ＨＭＭ（隠れマルコフモデル）による方法などが知られている。音声認識部５００は、ハードウェア（回路）のみで実現しても良いし、ＭＰＵ、ＲＡＭ、ＲＯＭ等から成るハードウェア（コンピュータ）とソフトウェアとの組み合わせで実現してもよい。

図２は、タイミング検出部３００の構成を示す図である。

図２において、タイミング検出部３００は、音声認識部５００が音声認識処理を行うタイミングを検出して音声認識部５００に通知するものであって、始端検出部３１０、第１タイミング検出部３２０および第２タイミング検出部３３０から成る。

始端検出部３１０は、バッファメモリ２００を絶えず監視し、ユーザの発話区間の始端（すなわちユーザが発話を開始したタイミング：図３のＴｓ）を検出して音声認識部５００に通知する。典型的には、音パワーが予め定められた閾値を越えた時点を、発話区間の始端として音声認識部５００に通知する。

第１タイミング検出部３２０は、始端検出部３１０によって始端が検出されたことを受けて、例えばタイマ等を利用して、一定周期（例えば１０〜１００ｍｓ程度）で発生する第１の音声認識タイミング（図３のＴ１、Ｔ２、Ｔ３、Ｔ４、・・・、Ｔｋ、・・・、Ｔｎ）を検出して音声認識部５００に通知する。

第２タイミング検出部３３０は、ユーザの発話区間の終端（すなわちユーザが発話を終了したタイミング：図３のＴｅ）を検出して音声認識部５００に通知する。典型的には、音パワーが予め定められた閾値を下回ってから、その状態が予め定められた時間（例えば１０００ｍｓ）以上続いたときに、その音パワーが予め定められた閾値を下回った時点を、発話区間の終端として音声認識部５００に通知する。

図４は、辞書記憶部４００の構成を示す図である。

図４において、辞書記憶部４００には、音声認識部５００が利用する第１の辞書４１０と第２の辞書４２０が記憶されている。図４には、各辞書に格納されている語彙の一例が示されている。

第１の辞書４１０は、音声認識中に発する最も重要かつ頻度の高いコマンドに対応する語彙群を含む。典型的には、音声認識動作そのものに対するコマンドに対応する語彙群を含む。具体的には、図４に示すように、「違う」「取り消し」などの、直前の発話に対するキャンセルコマンド、「聞き直す」「もう一度」などの、直前の音声ガイダンス（音声出力によるガイダンスであって、例えば「目的地を指定して下さい」などの音声ガイダンス）の再呈示要求コマンド、「終了」「終わる」などの、音声認識動作の終了コマンドに対応する語彙群を含む。もちろん、図４に示した語彙は一例であって、第１の辞書４１０に含まれる語彙はこれに限らない。

第２の辞書４２０は、典型的には、音声入力装置１０を通じてユーザが音声制御しようとする対象機器（例えばカーナビゲーション装置）に対するコマンドに対応する語彙群を含む。言い換えれば、従来の音声入力装置において利用される辞書から第１の辞書４１０の語彙群を除いた辞書とも言える。図４に示した第２の辞書４２０に含まれる語彙群は、音声入力装置１０をカーナビゲーションシステムに適用した場合の例である。例えば、「いつもの場所」は、ユーザが頻繁に行く場所の一覧を表示するためのコマンドであり、「登録ポイント」は、ユーザが予め登録した場所の一覧を表示するためのコマンドである。もちろん、図４に示した語彙は一例であって、第２の辞書４２０に含まれる語彙はこれに限らない。

図５は、本実施形態に関わる音声入力装置１０の動作を示すフローチャートである。

音声入力装置１０には、音声認識を開始する手段が備えられている。この手段は、典型的には、ボタンスイッチであり、ユーザがこのボタンを押すことによって音声入力装置１０は図５に示す動作を開始する。なお、このようなボタンスイッチを設けずに、音声入力装置１０の電源が入った時点ですぐに図５に示す動作を開始するようにしてもよい。

ステップＳ１０では、マイク１００から入力された音声データ（例えば、１フレーム（３０ｍｓ）分の音声データ）がバッファメモリ２００に格納される。

ステップＳ１２では、発話フラグがＯＮかＯＦＦかを判断する。ここで、発話フラグとは、ユーザの発話区間の始端が検出されたかどうかを示すフラグであって、音声入力装置１０内の任意の記憶領域に記憶されて適宜に更新されるフラグである。ステップＳ１２において発話フラグがＯＦＦであると判断された場合にはステップＳ１４に進み、ＯＮであると判断された場合にはステップＳ１８に進む。

ステップＳ１４では、発話区間の始端（図３のＴｓ）を検出したかどうかを判断する。そして、始端を検出した場合には、ステップＳ１６で発話フラグをＯＮにした後、ステップＳ１０に戻り、検出していない場合にはそのままステップＳ１０に戻る。

ステップＳ１８では、第１の音声認識タイミング（図３のＴ１、Ｔ２、Ｔ３、Ｔ４、・・・、Ｔｋ、・・・Ｔｎのいずれか）を検出したかどうかを判断する。そして、第１の音声認識タイミングを検出した場合にはステップＳ２０に進み、検出していない場合にはステップＳ２８に進む。

ステップＳ２０では、ステップＳ１４で検出された始端（図３のＴｓ）から、ステップＳ１８で検出された第１の音声認識タイミング（図３のＴ１、Ｔ２、Ｔ３、Ｔ４、・・・、Ｔｋ、・・・Ｔｎのいずれか）までの区間の音声データを対象として、第１の辞書４１０を用いて音声認識処理を行う。

ステップＳ２２では、ステップＳ２０の音声認識処理によって、第１の辞書４１０の中に登録されている語彙群（図４の「違う」「取り消し」「保留」・・・）の中に、上記の音声データにマッチするものが含まれているかどうかを判断する。そして、含まれていた場合にはステップＳ２４に進み、含まれていなかった場合にはステップＳ２８に進む。

ステップＳ２４では、発話フラグをオフにする。

ステップＳ２６では、ステップＳ２０で検出された語彙（コマンド）に応じた処理を実行する。例えば、図４の「違う」や「取り消し」などの取り消しコマンドを検出した場合には、音声入力に基づいて為された直前の制御を取り消すコマンドを制御対象機器に送信し、ステップＳ１０に戻る。また例えば、「聞き直す」や「もう一度」のような聞き直し要求コマンドを検出した場合には、直前にユーザに提示したガイダンス情報を音声や表示によってユーザに再呈示し、ステップＳ１０に戻る。また例えば、「終了」や「終わる」などの終了コマンドを検出した場合には、音声入力装置１０の動作を終了する。

ステップＳ２８では、第２の音声認識タイミング（図３のＴｅ）を検出したかどうかを判断する。そして、第２の音声認識タイミングを検出した場合にはステップＳ３０に進み、検出していない場合にはステップＳ１０に戻る。

ステップＳ３０では、発話フラグをオフにする。

ステップＳ３２では、ステップＳ１４で検出された始端（図３のＴｓ）から、ステップＳ２８で検出された第２の音声認識タイミング（図３のＴｅ）までの区間の音声データを対象として、第２の辞書４２０を用いて音声認識処理を行う。

ステップＳ３４では、ステップＳ３２の音声認識処理によって、第２の辞書４２０の中に登録されている語彙群（図４の「いつもの場所」「登録ポイント」「電話をかける」・・・）の中に、上記の音声データにマッチするものが含まれているかどうかを判断する。そして、含まれていた場合にはステップＳ３６に進み、含まれていなかった場合にはステップＳ１０に戻る。

ステップＳ３６では、ステップＳ３２で検出された語彙（コマンド）に応じた処理を実行する。すなわち、ステップＳ３２で検出された語彙に対応するコマンドを制御対象機器に送信し、ステップＳ１０に戻る。

以上のように、本実施の形態によれば、ユーザが発話中であっても、第１の辞書４１０を利用した音声認識を一定周期で随時行うことで、第１の辞書４１０に登録されている語彙に対応するコマンドが発せられたときに、そのコマンドを迅速に処理することができる。すなわち、図３の例では、第２の辞書４２０に含まれている語彙については、第２タイミング検出部３３０が発話区間の終端Ｔｅを検出した時点（すなわちＴｅから１０００ｍｓ後）で実行される音声認識処理において認識されるのに対して、第１の辞書４１０に含まれている語彙については、Ｔｋの時点で実行される音声認識処理において認識される。

また、第１の辞書４１０に含まれている語彙数が少ないため、第１の辞書４１０を用いた音声認識処理に必要となる処理負荷やメモリ量は小さく、第１の辞書４１０に含まれている語彙に関する誤認識の割合を低減することができる。

なお、第１の辞書４１０をさらに優先度に応じて複数の辞書に分割して利用してもよい。例えば、図４の第１の辞書４１０に含まれている語彙のうち、「違う」「取り消し」だけを辞書Ａに登録し、残りの語彙を辞書Ｂに登録し、第１タイミング検出部３２０の代わりに、辞書Ａおよび辞書Ｂにそれぞれ対応する２つのタイミング検出部を設ける。そして、辞書Ａについては例えば１０ｍｓの周期で音声認識処理を行い、辞書Ｂについては例えば３００ｍｓの周期で音声認識処理を行うようにしてもよい。これにより、「違う」「取り消し」コマンドに対するレスポンスをさらに向上させることができる。

なお、本実施の形態では、第１の音声認識タイミングと第２の音声認識タイミングとで異なる辞書を利用するとしたが、辞書だけでなく、音声認識アルゴリズムもそれぞれのタイミングで異なるものを利用してもよい。例えば、音声認識部５００として、比較的処理負担の小さい音声認識アルゴリズムを用いて音声認識処理を行う第１の音声認識部と、比較的処理負担の大きい音声認識アルゴリズムを用いて音声認識処理を行う第２の音声認識部とを設け、第１の音声認識タイミングでは第１の音声認識部が音声認識処理を行い、第２の音声認識タイミングでは第２の音声認識部が音声認識処理を行うようにしてもよい。これにより、第１の辞書４１０を用いた音声認識処理の負担をさらに軽減し、第１の音声認識タイミングの周期をさらに短縮させ、結果として第１の辞書４１０に含まれている語彙に関する音声入力のレスポンスをさらに向上させることができる。

以上のように、本発明の音声入力装置は、発話途中に検出したい単語、発話後に検出したい単語などを別個に辞書に格納することができるので、辞書内の単語に優先順位を設けることができ、大きな記憶領域や処理負荷を必要とせずに、直感的で初心者にとって分かり易い入力インターフェースが提供できるという効果を有するため、ユーザの発話を認識して機器の操作等を行う入力装置として有用である。

本発明の実施形態に関わる音声入力装置の構成を表す図図１のタイミング検出部３００の詳細な構成を表す図図１のタイミング検出部３００の詳細な動作を表す図図１の辞書記憶部４００の詳細な構成を表す図本発明の実施形態に関わる音声入力装置の動作を表す図

符号の説明

１０音声入力装置
１００マイク
２００バッファメモリ
３００タイミング検出部
３１０始端検出部
３２０第１タイミング検出部
３３０第２タイミング検出部
４００辞書記憶部
４１０第１の辞書
４２０第２の辞書
５００音声認識部

Claims

ユーザが発した音声を電気信号に変換して音声データとして入力するマイクと、
前記マイクから入力された音声データを記憶するバッファメモリと、
音声認識処理のための第１および第２の辞書データと、
前記バッファメモリに記憶された音声データに基づいて、ユーザの発話開始タイミングを検出する始端検出部と、
前記始端検出部が発話開始タイミングを検出した後、一定周期で発生する第１の音声認識タイミングを検出する第１タイミング検出部と、
前記バッファメモリに記憶された音声データに基づいて、ユーザの発話終了タイミングを第２の音声認識タイミングとして検出する第２タイミング検出部と、
前記第１タイミング検出部が前記第１の音声認識タイミングを検出したときには、前記バッファメモリに記憶された音声データと前記第１の辞書データを用いて音声認識処理を行い、前記第２タイミング検出部が前記第２の音声認識タイミングを検出したときには、前記バッファメモリに記憶された音声データと前記第２の辞書データを用いて音声認識処理を行う音声認識部とを備えた、音声入力装置。
前記第１の辞書データには、音声認識動作の開始、一時中断および終了のうちの少なくとも１つに対応するコマンドが含まれていることを特徴とする、請求項１に記載の音声入力装置。
前記第２タイミング検出部は、音声データの音パワーが予め定められた閾値を下回った時点からその状態が予め定められた時間以上続いたときに、その音パワーが予め定められた閾値を下回った時点をユーザの発話終了タイミングとして検出することを特徴とする、請求項１に記載の音声入力装置。
マイクから入力された音声データをバッファメモリに記憶する記憶ステップと、
前記バッファメモリに記憶された音声データに基づいて、ユーザの発話開始タイミングを検出する始端検出ステップと、
前記始端検出ステップで発話開始タイミングが検出された後、一定周期で発生する第１の音声認識タイミングを検出する第１タイミング検出ステップと、
前記バッファメモリに記憶された音声データに基づいて、ユーザの発話終了タイミングを第２の音声認識タイミングとして検出する第２タイミング検出ステップと、
前記第１タイミング検出ステップで前記第１の音声認識タイミングが検出されたときには、前記バッファメモリに記憶された音声データと前記第１の辞書データを用いて音声認識処理を行い、前記第２タイミング検出ステップで前記第２の音声認識タイミングが検出されたときには、前記バッファメモリに記憶された音声データと前記第２の辞書データを用いて音声認識処理を行う音声認識ステップとを備えた、音声入力方法。