JP2004341033A

JP2004341033A - 音声媒介起動装置およびその方法

Info

Publication number: JP2004341033A
Application number: JP2003134449A
Authority: JP
Inventors: Goshi Sugawara; 郷史菅原; Kazuya Nomura; 和也野村; Yuji Kaihatsu; 勇治開發
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2003-05-13
Filing date: 2003-05-13
Publication date: 2004-12-02
Also published as: CN1573925A; EP1477965A1; US20040230436A1

Abstract

【課題】音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることができる音声媒介起動装置およびその方法を提供すること。
【解決手段】入力された音声信号に含まれる孤立音声の信号を検出する孤立音声検出手段１２０と、孤立音声の信号に含まれる人の声の信号を検出する音声性検出手段１３０と、起動語を含む所定の言葉を音声認識用の言葉として記憶した音声認識辞書１６０と、音声認識辞書１６０を用いて人の声の信号を対象に音声認識を行い、この人の声に含まれる起動語を検出する音声認識手段１４０、１５０とを備え、音声認識手段１４０、１５０は、人の声に含まれる起動語を検出したとき、外部の装置に所定の信号を出力する構成を有している。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識することによって所定の機能を起動させるための音声媒介起動装置およびその方法に関するものである。
【０００２】
【従来の技術】
従来から、音声認識することによって所定の機能を実現させる音声媒介起動技術が知られている（例えば特許文献１参照。）。特許文献１に開示された従来の音声媒介起動装置は、基本的に、音声取り込み部、音声切り取り部、音声認識部によって構成されており、対象とする音声の前に空白のある音声を検出し、検出した音声を切り出し、切り出した音声をすべて詳細な音声認識の対象とし、その結果に応じて各機能を起動するという制御を常時実行させていた。
【０００３】
また、特許文献２に開示された他の従来の音声媒介起動装置においても、上記と同様に、音声切り取り部と音声認識部にあたる音声操作開始判定手段を常時起動させる方法をとっている。また、ノイズによる誤動作を防止すべく、音声入力用マイクとは別にノイズ用のマイクを用いることや、入力された音声の周波数スペクトルを分析することによりノイズか否かを判定することなどが行われている。
【０００４】
【特許文献１】
特開２００１−５１６９４号公報
【特許文献２】
特開２０００−３２２０７８号公報
【０００５】
【発明が解決しようとする課題】
しかし、このような従来の音声媒介起動装置では、以下に示すような課題があった。
第１の課題は、音声切り出しに関する課題である。特定の音声だけを切り出し全ての音声認識処理を行う従来の方式では、例えば前に無音があるという条件だけで会話音声が切り取られた場合、音声終了まで無駄な認識処理を行ってしまう等、音声を切り出す条件が甘く、一旦切り出されてしまえばどんな音声でも必ず音声認識処理まで行う為、リソースや処理負荷が増大してしまうという課題があった。
【０００６】
第２の課題はノイズの課題である。従来の技術では、音の孤立音声検出部は孤立音声を音のパワー差により検出している為、突発的なノイズにも反応し誤検出が多いという課題があった。更にスペクトルを調べるという方法においては、上記特許文献に具体的な方法の記述が無いが、処理負荷が大きいという観点からも課題が多い。
【０００７】
本発明はこのような課題を解決するためになされたもので、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることができる音声媒介起動装置およびその方法を提供するものである。
【０００８】
【課題を解決するための手段】
本発明の音声媒介起動装置は、入力された音声信号に含まれる孤立音声の信号を検出する孤立音声検出手段と、前記孤立音声の信号に含まれる人の声の信号を検出する音声性検出手段と、起動語を含む所定の言葉を音声認識用の言葉として記憶した音声認識辞書と、前記音声認識辞書を用いて前記人の声の信号を対象に音声認識を行い、この人の声に含まれる起動語を検出する音声認識手段とを備え、前記音声認識手段は、前記人の声に含まれる起動語を検出したとき、外部の装置に所定の信号を出力する構成を有している。
この構成により、入力された音声信号に含まれる孤立音声を検出し、検出した孤立音声に含まれる人の声を検出し、検出した人の声が起動語であるかどうかを音声認識により判定することにしたため、従来に比べ、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることが可能な音声媒介起動装置を実現することができる。
【０００９】
また、本発明の音声媒介起動装置は、前記音声認識手段が、前記音声認識辞書を用いて前記人の声の信号を対象に予備的な音声認識を行い、この人の声に含まれる起動語を検出する予備音声認識手段と、前記予備音声認識手段が起動語を検出したときに前記人の声の信号を対象に詳細な音声認識を行い、前記人の声に含まれる起動語を検出する精密音声認識手段とを有し、前記精密音声認識手段は、前記人の声に含まれる起動語を検出したとき、外部の装置に所定の信号を出力する構成を有している。
この構成により、始めに予備音声認識を行って音声認識対象を絞り、絞り込まれた言葉を対象に精密音声認識を行うようにしたため、不必要な認識処理を極力避けることで誤検出を減らすことが可能な音声媒介起動装置を実現することができる。
【００１０】
また、本発明の音声媒介起動装置は、前記予備音声認識手段が、前記精密音声認識手段が行う音声認識よりも少ない処理量で前記音声認識を行う構成を有している。
この構成により、始めに音声認識に要する処理負担が少ない予備音声認識を行って音声認識対象を絞り、絞り込まれた言葉を対象に処理負担が多い精密音声認識を行うようにしたため、音声認識に要する処理負担の低減を一層図ることが可能な音声媒介起動装置を実現することができる。
【００１１】
また、本発明の音声媒介起動装置は、前記音声性検出手段が、前記孤立音声検出手段が前記孤立音声の信号を検出したときに前記人の声の信号を検出する処理を開始する構成を有している。
この構成により、孤立音声検出手段が孤立音声の信号を検出したときに、音声性検出手段が人の声の信号を検出する処理を開始するため、処理に要するリソースや処理負担の低減を図ることが可能な音声媒介起動装置を実現することができる。
【００１２】
また、本発明の音声媒介起動装置は、前記孤立音声検出手段が、前記音声性検出手段が前記孤立音声の信号に人の声の信号を検出しないとき、または、前記予備音声認識手段または前記精密音声認識手段が前記人の声中に起動語を検出しないとき、前記孤立音声を含む音声の終端検出処理を行う構成を有している。
この構成により、孤立音声検出手段が、人の声の信号が検出されないときや、人の声の中に起動語が検出されないときに孤立音声の終端検出処理を行うため、不必要な音声の認識を行うことがなく、処理に要するリソースや処理負担の低減を図ることが可能な音声媒介起動装置を実現することができる。
【００１３】
また、本発明の音声媒介起動装置は、孤立音声検出手段が、入力された音声信号における音声区間の開始点を検出する音声開始点検出手段と、前記開始点の直前に一定時間の非音声区間の有無を判定する非音声区間判定手段と、前記音声区間の終端を検出する音声終端検出手段と、前記音声区間が前記起動語に応じた長さか否かを判定する音声長判定手段とを有し、前記音声区間の開始点の前に一定時間の非音声区間が有り、この音声区間が起動語に応じた長さになっているとき、この音声区間の音声を孤立音声として検出する構成を有している。
この構成により、入力された音声信号に含まれる孤立音声を検出し、検出した孤立音声に含まれる人の声を検出し、検出した人の声が起動語であるかどうかを音声認識により判定することにしたため、従来に比べ、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることが可能な音声媒介起動装置を実現することができる。
【００１４】
また、本発明の音声媒介起動装置は、前記音声性検出手段が、検出の対象とする音声区間の音声信号についての自己相関係数および回帰係数に基づいて前記人の声を検出する構成を有している。
この構成により、音声性検出手段が、検出の対象とする音声区間の音声信号についての自己相関係数と回帰係数に基づいて人の声を検出するため、孤立音声検出手段では検出できなかったノイズ等を排除することができ、誤検出の低減を図ることが可能な音声媒介起動装置を実現することができる。
【００１５】
また、本発明の音声媒介起動装置は、前記起動語は、関連する１以上の言葉の組みとして設定され、前記音声認識辞書には、前記起動語以外の言葉であって、前記起動語とあやまって認識される言葉または認識されるおそれのある複数の言葉の組みである排他的用語と、前記起動語を含む構成を有している。
この構成により、起動語として関連する言葉を設定できるとともに、ノイズ等の起動語として認識されうるおそれのある言葉を排他用語として登録するため、誤検出の低減を図ることが可能な音声媒介起動装置を実現することができる。
【００１６】
また、本発明の音声媒介起動方法は、入力された音声を対象に人の声を検出する孤立音声検出ステップと、前記孤立音声検出ステップで人の声が検出されたときに前記人の声の信号を対象に予備的な音声認識を行い、この人の声に含まれる起動語を検出する予備音声認識ステップと、前記予備音声認識ステップで起動語を検出したときに前記人の声の信号を対象に詳細な音声認識を行い、前記人の声に含まれる起動語を検出する精密音声認識ステップと、前記精密音声認識ステップで起動語を検出したとき、外部の装置に所定の信号を出力する起動信号出力ステップとを備えた構成を有している。
この構成により、入力された音声信号に含まれる孤立音声を検出し、検出した孤立音声に含まれる人の声を検出し、検出した人の声が起動語であるかどうかを音声認識により判定することにしたため、従来に比べ、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることが可能な音声媒介起動方法を実現することができる。
【００１７】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照して説明する。
（第１の実施の形態）
本発明の第１の実施の形態に係る音声媒介起動装置は、図１に示すように、車両内に設置された音声収録用マイク１０１、音声収録用マイク１０１によって収録された音声のアナログ電気信号であるアナログ音声信号をデジタル電気信号であるデジタル音声信号に変換するＡ／Ｄ変換器１１１、Ａ／Ｄ変換器１１１から出力されたデジタル音声信号をデジタル音声データとして一旦記憶するリングバッファ１１２、リングバッファ１１２に記憶されたデジタル音声データを例えば１フレームずつ取り出し、取り出したデジタル音声データに含まれる孤立音声の信号（以下、単に「孤立音声信号」という。）を検出する孤立音声検出部１２０、孤立音声信号に含まれる人の声の信号を検出する音声性検出部１３０、音声性検出部１３０から出力された人の声の信号を対象に予備的な音声認識を行う予備音声認識部１４０、予備音声認識部１４０で予備的に認識された人の声の信号を対象に詳細な音声認識を行う精密音声認識部１５０、および各音声認識に用いる音声認識辞書１６０を備えている。
【００１８】
Ａ／Ｄ変換器１１１は、入力されたアナログの音声信号を所定のサンプリングレートでサンプルし、サンプルして得られた信号をデジタル信号に変換し、予め決められたサンプル数のデータを、例えば１フレームのデータとして生成するようになっている。このフレーム１つに含まれる音声信号は、たとえば、１０、１５、２０、３０ｍｓｅｃ等にわたるものとするのでもよい。
リングバッファ１１２は、周知であり、その説明を省略する。
【００１９】
孤立音声検出部１２０は、さらに、リングバッファ１１２に記憶されたデジタル音声データを取り出し、取り出したデジタル音声データに含まれる所定の閾値以上の値となるデータを音声区間の開始点（以下、単に「音声開始点」という。）のデータとして検出する音声開始点検出部１２１、音声開始点検出部１２１によって音声開始点が検出された場合に、音声開始点のデータに先立って非音声区間の有無を判定する非音声区間判定部１２２、音声開始点のデータの後に上記の閾値以下の値となるデータをその音声区間の終端として検出する音声終端検出部１２３、および、上記の非音声区間を伴う音声区間が検出された場合に、音声区間が後述する起動語に応じた長さ（以下、音声区間の長さのことを「音声長」という。）になっているか否かを判定する音声長判定部１２４を含むように構成される。
【００２０】
音声開始点検出部１２１による音声開始点は、ノイズレベルより所定値（ｄＢで）高い値を上記の閾値（以下、「音声区間閾値」という。）を基準とし、この音声区間閾値以上の値となるデータが存在する位置を開始点として検出するのでもよい。
【００２１】
なお、上記で非音声区間判定部１２２が判定する「非音声区間」とは、音声区間に先立つ、予め決められたサンプル点数以上の、ノイズレベルより所定値低い値のデータが連続して存在する区間のことである。具体的には、音声開始点の前に、例えば、１秒以上のノイズの区間が検出された場合、この区間のことをいう。この場合、「予め決められたサンプル点数」とは、「１秒」分に対応するサンプル点の数になる。
【００２２】
音声終端検出部１２３による音声区間の終端は、ノイズレベルとなるデータが所定サンプル点数以上連続して存在する場合、この最初のデータの位置を終端として検出するのでもよい。具体的には、起動語に応じた長さの音声長のデータが存在した後に１秒以上のノイズ区間が検出された場合、このノイズ区間の最初のデータで音声区間が終了したものとするのでもよい。
【００２３】
音声長判定部１２４は、検出された音声長が、起動語の典型的な音声長の範囲内にあるか否かの判定を行うようになっており、それによって孤立音声だけを切り出そうとするものである。この音声長の範囲は、予め、複数人が発声した起動語の音声信号のサンプルをとり、この音声信号のサンプルの音声長分布から決定しておくのでもよい。
【００２４】
以上の構成において、音声収録用マイク１０１と、Ａ／Ｄ変換器１１１、リングバッファ１１２、および孤立音声検出部１２０（図１に示す常時動作部１１０）は、音声媒介起動装置１００が動作する間中動作するようになっている。特に、この孤立音声検出部１２０を常時動作させることによって、音声に含まれる車両内での突発的なノイズや騒音、区切りの無い会話音声などを排除することができる。
【００２５】
次に、音声性検出部１３０は、孤立音声検出部１２０を通過した孤立音声信号を対象として、その孤立音声信号の音声区間内における自己相関係数とその回帰係数を算出し、算出した各係数の値が予め決められた値以上であるときに、人の声として検出するようになっている。この処理は、孤立音声信号を構成するすべてのフレームについてなされる。以下では、音声の性質のことを音声性といい、孤立音声信号を対象に上記のように人の声か否かを判断することを音声性の判断という。
【００２６】
ここで、回帰係数は例えば以下の式（１）に示すように定義されるものがある。
ｄＲｎ（ｊ）＝（Ｒｎ（ｊ＋１）−Ｒｎ（ｊ−１））／２（１）
ここで、Ｒｎ（ｊ）は、ｊ番目のフレームについてのｎ次の自己相関係数であり、ｄＲｎ（ｊ）は、ｎ次の自己相関関数を用いたときのｊ番目のフレームについての回帰係数である。上記の式（１）は、回帰係数ｄＲｎ（ｊ）が自己相関係数Ｒｎ（ｊ）の引数ｊにおける勾配を表すことを示すものである。
【００２７】
音声性検出部１３０を通過した音声は、予備音声認識部１４０により予備的な音声認識が行われるようになっているが、この「予備的な音声認識」として、例えば、デジタル音声データを対象にして１フレームおきに音声認識辞書１６０を用いて音声認識を行うのでもよい。すなわち、上記の例は、間引いたデジタル音声データを用いて音声認識を行うものと同意である。ここで、起動語とは、音声認識機能を介して予め決められた機能を実行させるための言葉である。例えば、起動語として「ボイスナビ」がナビゲーションシステムを実行する音声認識辞書１６０に登録されている。起動語は、また別にオーディオ機器の切り替えを行うための音声認識辞書、車内機器の設定変更を行うための音声認識辞書等、実行させたい機能（以下、「ターゲット機能」という。）毎に対応する辞書がある。
【００２８】
次に、予備音声認識部１４０が音声認識した言葉が起動語である場合、精密音声認識部１５０は、音声性検出部１３０を通過したデジタル音声データをリングバッファ１１２から全フレーム取得する。そして、精密音声認識部１５０は、取得した全フレームのデジタル音声データを対象に、音声認識辞書１６０を用いて精密な音声認識を行う。すなわち、データを間引かずに音声認識を行うものである。
【００２９】
精密音声認識部１５０が行う音声認識において、音声認識された言葉が起動語以外の他の言葉との間の距離（尤度）が予め決められた閾値を超えており、さらに検出された音声区間の長さが起動語の長さの範囲にあるとき、入力された音声が起動語であると認識するものとする。音声認識の基準は、ここで示したものに限定されるものではなく、他の基準とするのでもよく、さらに、他の方法で起動語を認識するのでもよい。起動語が音声認識されると、起動語を認識したことを示す信号が外部（ターゲット機能実行部）に出力され、起動語に応じた機能が実現されることになる。
【００３０】
なお、上記で、非音声区間判定部１２２が音声開始点の前に非音声区間が存在すると判定しなかった場合、音声長判定部１２４によって孤立音声信号が起動語に応じた音声長になっていると判定されなかった場合、音声性検出部１３０によって孤立音声信号が人の声として検出されなかった場合、または、予備音声認識部１４０によって孤立音声信号が起動語として認識されなかった場合、のいずれの場合でも音声終端検出部１２３が次の孤立音声信号を検出するために、リングバッファからデータを取得して現音声区間の終端を検出する処理を行う。音声終端検出部１２３が現音声区間の終端を検出すると、そのことを示す信号が音声開始点検出部１２１に出力され、音声開始点検出部１２１は上記の処理を再度行う状態になり、孤立音声検出部１２０での孤立音声信号の検出から上記の各構成部での処理までの動作が繰り返し行われる。
【００３１】
図２は、本発明の実施の形態に係る音声媒介起動装置における処理の流れを説明するためのフローチャートである。
まず、リングバッファ１１２から１フレーム分のデジタル音声データを孤立音声検出部１２０が取り込む（Ｓ２０１）。
【００３２】
次に、ステップＳ２０１で取り込まれたデータ中に音声開始点が含まれているか否かを孤立音声検出部１２０の音声開始点検出部１２１が判定し（Ｓ２０２）、含まれていないと判定した場合、処理はステップＳ２０１に戻り、含まれていると判定した場合、処理はステップＳ２０３に進む。この音声開始点の検出は、対象とするフレームにおいてはじめて音声区間閾値以上の値となるデータを音声開始点として検出することによって行う。
【００３３】
次に、ステップＳ２０２で音声開始点が検出されたら、孤立音声検出部１２０の非音声区間判定部１２２は、この音声開始点の直前に非音声区間の有無を判断し（Ｓ２０３）、非音声区間があると判断した場合、処理はステップＳ２０５に進み、非音声区間がないと判断した場合、処理はステップＳ２０４に移る。
【００３４】
ステップＳ２０４では、次のフレームのデジタル音声データを音声終端検出部１２３が順次取り込み、音声終端を検出する。音声終端の検出方法については、上記で説明したので、その説明を省略する。音声終端を検出したとき、処理はステップＳ２０１に戻り、上記の処理を繰り返す。これによって、ターゲット機能の実行を目的としない会話の音声中に含まれる起動語が音声認識の対象となることを防止するものである。
【００３５】
ステップＳ２０３で非音声区間があると判断された場合、次のフレームのデジタル音声データを音声終端検出部１２３が順次取り込み、音声終端を検出する（Ｓ２０５）。
【００３６】
ステップＳ２０５で音声終端が検出されたら、音声開始点と音声終端との間の区間として定義される音声区間の音声長が予め決められた範囲内にあるか否かを音声長判定部１２４が判定する（Ｓ２０６）。音声長が予め決められた範囲内にあると判定された場合、処理はステップＳ２０７に進み、この範囲内にないと判定された場合、処理はステップＳ２０４に移り上記の処理を行う。
【００３７】
ステップＳ２０６で音声長が所定の範囲内にあると判定されたとき、上記で説明したように、孤立音声信号の音声性の判断を音声性検出部１３０が行う（Ｓ２０７）。音声性の判断については上記で説明したため、その説明を省略する。音声性が妥当でないと判断された場合、処理はステップＳ２０４に跳び、上記の処理を繰り返す。
【００３８】
ステップＳ２０７で音声性が妥当と判断された場合、孤立音声信号に対して予備音声認識を予備音声認識部１４０が行う（Ｓ２０８）。この場合、孤立音声信号からのデータを対象にして１フレームおきに音声認識を行う。これによって、予備音声認識での処理が削減され、処理負担が軽減される。予備音声認識で孤立音声信号が起動語でないと判断された場合、処理はステップＳ２０４に跳び、上記の処理を繰り返す。
【００３９】
ステップＳ２０８で孤立音声信号が起動語と判断された場合、起動語と判断されたこの孤立音声信号を含むフレーム全体のデジタル音声データをリングバッファ１１２から取り込む（Ｓ２０９）。
孤立音声信号を含むフレーム全体のデジタル音声データをリングバッファ１１２から取り込んだら、取り込んだデジタル音声データを対象に、精密音声認識部１５０が精密に音声認識を行う（Ｓ２１０）。精密音声認識で孤立音声信号が起動語でないと判断された場合、処理はステップＳ２０４に跳び、上記の処理を繰り返す。一方、起動語と判断された場合、そのことを示す信号を外部のターゲット機能実行部に出力して、処理は終了する。
【００４０】
図３は、本発明の実施の形態に係る音声認識辞書の構造を概念的に表した説明図である。
音声認識辞書１６０には、複数の起動語によって構成される「起動用語」３０１とそれ以外の言葉である「排他用語」３０２とが記憶される。例えば「目的地設定」を起動語に設定したとき、「目的地」、「目的地指定」等の単語を起動用語として登録することで、一つの機能の実行を意味する複数の起動語を設定することができる。その際、孤立音声検出部１２０が音声区間の長さに基づいて人の声か否かの切り分けを行う場合は、起動語が２単語以上設定するときは、すべての起動語の長さを、同程度の長さの単語で揃えることが好適である。
【００４１】
また、「排他用語」３０２は、複数個の排他語によって構成されている。排他語とは、認識処理に起動語以外の音声またはノイズが入力されたときに、誤って起動語と認識されることを防ぐために、排他語が認識されたら起動語ではない言葉であることを示すものとして用意されたものである。
【００４２】
排他用語３０２は、例えばケプストラム距離のような距離尺度を用いて音声の特徴を表した場合、起動語からさまざまな距離にある単語を排他用語とする。起動語に似ている言葉を話したときには、起動語に距離の近い単語、起動語とまったく違う言葉を話したときには起動語からの距離が遠い単語が認識される。つまり、認識結果が起動用語３０１内にあるとされたときは、認識された言葉は起動語であるとされ、認識結果が起動用語３０１内にないか又は排他用語３０２と一致するとされたときは、認識されて言葉は起動語でないとされる。このように起動語以外の入力を、排他用語３０２を用いて認識することにより、誤起動を避けるようになっている。
【００４３】
以上説明したように、本発明の第１の実施の形態に係る装置は、入力された音声信号に含まれる孤立音声を検出し、検出した孤立音声に含まれる人の声を検出し、検出した人の声が起動語であるかどうかを音声認識により判定することにしたため、従来に比べ、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることができる。
【００４４】
このよう音声起動の分割処理を行うことにより、全体で一番処理負荷のかかる音声認識部の無駄な動作を減らすことができ、その結果リソース要求の厳しいナビゲーションシステムに組み込むことができる。同時に、ユーザーが音声認識開始トリガを押下することなく起動語を発声することで、常時音声認識を開始することができるシステムを実現することができる。
【００４５】
また、始めに音声認識に要する処理負担が少ない予備音声認識を行って音声認識対象を絞り、絞り込まれた言葉を対象に処理負担が多い精密音声認識を行うようにしたため、音声認識に要する処理負担の低減を一層図ることができる。
また、起動語として関連する言葉を設定できるとともに、ノイズや起動語に似た言葉等の起動語として認識されうるおそれのある言葉を排他用語として登録するため、誤検出の低減を図ることができる。
【００４６】
なお、本発明は、カーナビゲーション、または車両内でのターゲット機能の起動のみに限定されるものではなく、他の一般の装置の起動にも適用可能であるこというまでもない。例えば、照明器具のオン／オフスイッチとして導入した場合、この構成とることで最小限の待機電力でスイッチの音声起動を実現することができる。また同様に、携帯電話や電化製品等への適用も可能である。
【００４７】
【発明の効果】
以上説明したように、本発明は、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることができる音声媒介起動装置およびその方法を提供することができるものである。
【図面の簡単な説明】
【図１】本発明の音声媒介起動装置のブロック構成を示す図
【図２】本発明の音声媒介起動装置の動作を説明するためのフローチャート
【図３】本発明の音声認識辞書についての説明をするための図
【符号の説明】
１００音声媒介起動装置
１０１音声収録用マイク
１１０常時動作部
１１１Ａ／Ｄ変換器
１１２リングバッファ
１２０孤立音声検出部
１２１音声開始点検出部
１２２非音声区間判定部
１２３音声終端検出部
１２４音声長判定部
１３０音声性検出部
１４０予備音声認識部
１５０精密音声認識部
１６０音声認識辞書
３０１起動用語
３０２排他用語

Claims

入力された音声信号に含まれる孤立音声の信号を検出する孤立音声検出手段と、前記孤立音声の信号に含まれる人の声の信号を検出する音声性検出手段と、起動語を含む所定の言葉を音声認識用の言葉として記憶した音声認識辞書と、前記音声認識辞書を用いて前記人の声の信号を対象に音声認識を行い、この人の声に含まれる起動語を検出する音声認識手段とを備え、前記音声認識手段は、前記人の声に含まれる起動語を検出したとき、外部の装置に所定の信号を出力することを特徴とする音声媒介起動装置。
前記音声認識手段は、前記音声認識辞書を用いて前記人の声の信号を対象に予備的な音声認識を行い、この人の声に含まれる起動語を検出する予備音声認識手段と、前記予備音声認識手段が起動語を検出したときに前記人の声の信号を対象に詳細な音声認識を行い、前記人の声に含まれる起動語を検出する精密音声認識手段とを有し、前記精密音声認識手段は、前記人の声に含まれる起動語を検出したとき、外部の装置に所定の信号を出力することを特徴とする請求項１に記載の音声媒介起動装置。
前記予備音声認識手段は、前記精密音声認識手段が行う音声認識よりも少ない処理量で前記音声認識を行うことを特徴とする請求項２に記載の音声媒介起動装置。
前記音声性検出手段は、前記孤立音声検出手段が前記孤立音声の信号を検出したときに前記人の声の信号を検出する処理を開始することを特徴とする請求項１または請求項２に記載の音声媒介起動装置。
前記孤立音声検出手段は、前記音声性検出手段が前記孤立音声の信号に人の声の信号を検出しないとき、または、前記予備音声認識手段または前記精密音声認識手段が前記人の声中に起動語を検出しないとき、前記孤立音声を含む音声の終端検出処理を行うことを特徴とする請求項１または請求項２に記載の音声媒介起動装置。
前記孤立音声検出手段は、入力された音声信号における音声区間の開始点を検出する音声開始点検出手段と、前記開始点の直前に一定時間の非音声区間の有無を判定する非音声区間判定手段と、前記音声区間の終端を検出する音声終端検出手段と、前記音声区間が前記起動語に応じた長さか否かを判定する音声長判定手段とを有し、前記音声区間の開始点の前に一定時間の非音声区間が有り、この音声区間が起動語に応じた長さになっているとき、この音声区間の音声を孤立音声として検出することを特徴とする請求項１または請求項２に記載の音声媒介起動装置。
前記音声性検出手段は、検出の対象とする音声区間の音声信号についての自己相関係数および回帰係数に基づいて前記人の声を検出することを特徴とする請求項１または請求項２に記載の音声媒介起動装置。
前記起動語は、関連する１以上の言葉の組みとして設定され、前記音声認識辞書には、前記起動語以外の言葉であって、前記起動語とあやまって認識される言葉または認識されるおそれのある複数の言葉の組みである排他用語と、前記起動語を含むことを特徴とする請求項１または請求項２に記載の音声媒介起動装置。
入力された音声を対象に人の声を検出する孤立音声検出ステップと、前記孤立音声検出ステップで人の声が検出されたときに前記人の声の信号を対象に予備的な音声認識を行い、この人の声に含まれる起動語を検出する予備音声認識ステップと、前記予備音声認識ステップで起動語を検出したときに前記人の声の信号を対象に詳細な音声認識を行い、前記人の声に含まれる起動語を検出する精密音声認識ステップと、前記精密音声認識ステップで起動語を検出したとき、外部の装置に所定の信号を出力する起動信号出力ステップとを備えたことを特徴とする請求項１に記載の音声媒介起動方法。