JP2004341033A - 音声媒介起動装置およびその方法 - Google Patents

音声媒介起動装置およびその方法 Download PDF

Info

Publication number
JP2004341033A
JP2004341033A JP2003134449A JP2003134449A JP2004341033A JP 2004341033 A JP2004341033 A JP 2004341033A JP 2003134449 A JP2003134449 A JP 2003134449A JP 2003134449 A JP2003134449 A JP 2003134449A JP 2004341033 A JP2004341033 A JP 2004341033A
Authority
JP
Japan
Prior art keywords
voice
speech
signal
isolated
activation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003134449A
Other languages
English (en)
Inventor
Goshi Sugawara
郷史 菅原
Kazuya Nomura
和也 野村
Yuji Kaihatsu
勇治 開發
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2003134449A priority Critical patent/JP2004341033A/ja
Priority to EP04011234A priority patent/EP1477965A1/en
Priority to US10/844,826 priority patent/US20040230436A1/en
Priority to CNA2004100766905A priority patent/CN1573925A/zh
Publication of JP2004341033A publication Critical patent/JP2004341033A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Abstract

【課題】音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることができる音声媒介起動装置およびその方法を提供すること。
【解決手段】入力された音声信号に含まれる孤立音声の信号を検出する孤立音声検出手段120と、孤立音声の信号に含まれる人の声の信号を検出する音声性検出手段130と、起動語を含む所定の言葉を音声認識用の言葉として記憶した音声認識辞書160と、音声認識辞書160を用いて人の声の信号を対象に音声認識を行い、この人の声に含まれる起動語を検出する音声認識手段140、150とを備え、音声認識手段140、150は、人の声に含まれる起動語を検出したとき、外部の装置に所定の信号を出力する構成を有している。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識することによって所定の機能を起動させるための音声媒介起動装置およびその方法に関するものである。
【0002】
【従来の技術】
従来から、音声認識することによって所定の機能を実現させる音声媒介起動技術が知られている(例えば特許文献1参照。)。特許文献1に開示された従来の音声媒介起動装置は、基本的に、音声取り込み部、音声切り取り部、音声認識部によって構成されており、対象とする音声の前に空白のある音声を検出し、検出した音声を切り出し、切り出した音声をすべて詳細な音声認識の対象とし、その結果に応じて各機能を起動するという制御を常時実行させていた。
【0003】
また、特許文献2に開示された他の従来の音声媒介起動装置においても、上記と同様に、音声切り取り部と音声認識部にあたる音声操作開始判定手段を常時起動させる方法をとっている。また、ノイズによる誤動作を防止すべく、音声入力用マイクとは別にノイズ用のマイクを用いることや、入力された音声の周波数スペクトルを分析することによりノイズか否かを判定することなどが行われている。
【0004】
【特許文献1】
特開2001−51694号公報
【特許文献2】
特開2000−322078号公報
【0005】
【発明が解決しようとする課題】
しかし、このような従来の音声媒介起動装置では、以下に示すような課題があった。
第1の課題は、音声切り出しに関する課題である。特定の音声だけを切り出し全ての音声認識処理を行う従来の方式では、例えば前に無音があるという条件だけで会話音声が切り取られた場合、音声終了まで無駄な認識処理を行ってしまう等、音声を切り出す条件が甘く、一旦切り出されてしまえばどんな音声でも必ず音声認識処理まで行う為、リソースや処理負荷が増大してしまうという課題があった。
【0006】
第2の課題はノイズの課題である。従来の技術では、音の孤立音声検出部は孤立音声を音のパワー差により検出している為、突発的なノイズにも反応し誤検出が多いという課題があった。更にスペクトルを調べるという方法においては、上記特許文献に具体的な方法の記述が無いが、処理負荷が大きいという観点からも課題が多い。
【0007】
本発明はこのような課題を解決するためになされたもので、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることができる音声媒介起動装置およびその方法を提供するものである。
【0008】
【課題を解決するための手段】
本発明の音声媒介起動装置は、入力された音声信号に含まれる孤立音声の信号を検出する孤立音声検出手段と、前記孤立音声の信号に含まれる人の声の信号を検出する音声性検出手段と、起動語を含む所定の言葉を音声認識用の言葉として記憶した音声認識辞書と、前記音声認識辞書を用いて前記人の声の信号を対象に音声認識を行い、この人の声に含まれる起動語を検出する音声認識手段とを備え、前記音声認識手段は、前記人の声に含まれる起動語を検出したとき、外部の装置に所定の信号を出力する構成を有している。
この構成により、入力された音声信号に含まれる孤立音声を検出し、検出した孤立音声に含まれる人の声を検出し、検出した人の声が起動語であるかどうかを音声認識により判定することにしたため、従来に比べ、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることが可能な音声媒介起動装置を実現することができる。
【0009】
また、本発明の音声媒介起動装置は、前記音声認識手段が、前記音声認識辞書を用いて前記人の声の信号を対象に予備的な音声認識を行い、この人の声に含まれる起動語を検出する予備音声認識手段と、前記予備音声認識手段が起動語を検出したときに前記人の声の信号を対象に詳細な音声認識を行い、前記人の声に含まれる起動語を検出する精密音声認識手段とを有し、前記精密音声認識手段は、前記人の声に含まれる起動語を検出したとき、外部の装置に所定の信号を出力する構成を有している。
この構成により、始めに予備音声認識を行って音声認識対象を絞り、絞り込まれた言葉を対象に精密音声認識を行うようにしたため、不必要な認識処理を極力避けることで誤検出を減らすことが可能な音声媒介起動装置を実現することができる。
【0010】
また、本発明の音声媒介起動装置は、前記予備音声認識手段が、前記精密音声認識手段が行う音声認識よりも少ない処理量で前記音声認識を行う構成を有している。
この構成により、始めに音声認識に要する処理負担が少ない予備音声認識を行って音声認識対象を絞り、絞り込まれた言葉を対象に処理負担が多い精密音声認識を行うようにしたため、音声認識に要する処理負担の低減を一層図ることが可能な音声媒介起動装置を実現することができる。
【0011】
また、本発明の音声媒介起動装置は、前記音声性検出手段が、前記孤立音声検出手段が前記孤立音声の信号を検出したときに前記人の声の信号を検出する処理を開始する構成を有している。
この構成により、孤立音声検出手段が孤立音声の信号を検出したときに、音声性検出手段が人の声の信号を検出する処理を開始するため、処理に要するリソースや処理負担の低減を図ることが可能な音声媒介起動装置を実現することができる。
【0012】
また、本発明の音声媒介起動装置は、前記孤立音声検出手段が、前記音声性検出手段が前記孤立音声の信号に人の声の信号を検出しないとき、または、前記予備音声認識手段または前記精密音声認識手段が前記人の声中に起動語を検出しないとき、前記孤立音声を含む音声の終端検出処理を行う構成を有している。
この構成により、孤立音声検出手段が、人の声の信号が検出されないときや、人の声の中に起動語が検出されないときに孤立音声の終端検出処理を行うため、不必要な音声の認識を行うことがなく、処理に要するリソースや処理負担の低減を図ることが可能な音声媒介起動装置を実現することができる。
【0013】
また、本発明の音声媒介起動装置は、孤立音声検出手段が、入力された音声信号における音声区間の開始点を検出する音声開始点検出手段と、前記開始点の直前に一定時間の非音声区間の有無を判定する非音声区間判定手段と、前記音声区間の終端を検出する音声終端検出手段と、前記音声区間が前記起動語に応じた長さか否かを判定する音声長判定手段とを有し、前記音声区間の開始点の前に一定時間の非音声区間が有り、この音声区間が起動語に応じた長さになっているとき、この音声区間の音声を孤立音声として検出する構成を有している。
この構成により、入力された音声信号に含まれる孤立音声を検出し、検出した孤立音声に含まれる人の声を検出し、検出した人の声が起動語であるかどうかを音声認識により判定することにしたため、従来に比べ、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることが可能な音声媒介起動装置を実現することができる。
【0014】
また、本発明の音声媒介起動装置は、前記音声性検出手段が、検出の対象とする音声区間の音声信号についての自己相関係数および回帰係数に基づいて前記人の声を検出する構成を有している。
この構成により、音声性検出手段が、検出の対象とする音声区間の音声信号についての自己相関係数と回帰係数に基づいて人の声を検出するため、孤立音声検出手段では検出できなかったノイズ等を排除することができ、誤検出の低減を図ることが可能な音声媒介起動装置を実現することができる。
【0015】
また、本発明の音声媒介起動装置は、前記起動語は、関連する1以上の言葉の組みとして設定され、前記音声認識辞書には、前記起動語以外の言葉であって、前記起動語とあやまって認識される言葉または認識されるおそれのある複数の言葉の組みである排他的用語と、前記起動語を含む構成を有している。
この構成により、起動語として関連する言葉を設定できるとともに、ノイズ等の起動語として認識されうるおそれのある言葉を排他用語として登録するため、誤検出の低減を図ることが可能な音声媒介起動装置を実現することができる。
【0016】
また、本発明の音声媒介起動方法は、入力された音声を対象に人の声を検出する孤立音声検出ステップと、前記孤立音声検出ステップで人の声が検出されたときに前記人の声の信号を対象に予備的な音声認識を行い、この人の声に含まれる起動語を検出する予備音声認識ステップと、前記予備音声認識ステップで起動語を検出したときに前記人の声の信号を対象に詳細な音声認識を行い、前記人の声に含まれる起動語を検出する精密音声認識ステップと、前記精密音声認識ステップで起動語を検出したとき、外部の装置に所定の信号を出力する起動信号出力ステップとを備えた構成を有している。
この構成により、入力された音声信号に含まれる孤立音声を検出し、検出した孤立音声に含まれる人の声を検出し、検出した人の声が起動語であるかどうかを音声認識により判定することにしたため、従来に比べ、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることが可能な音声媒介起動方法を実現することができる。
【0017】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照して説明する。
(第1の実施の形態)
本発明の第1の実施の形態に係る音声媒介起動装置は、図1に示すように、車両内に設置された音声収録用マイク101、音声収録用マイク101によって収録された音声のアナログ電気信号であるアナログ音声信号をデジタル電気信号であるデジタル音声信号に変換するA/D変換器111、A/D変換器111から出力されたデジタル音声信号をデジタル音声データとして一旦記憶するリングバッファ112、リングバッファ112に記憶されたデジタル音声データを例えば1フレームずつ取り出し、取り出したデジタル音声データに含まれる孤立音声の信号(以下、単に「孤立音声信号」という。)を検出する孤立音声検出部120、孤立音声信号に含まれる人の声の信号を検出する音声性検出部130、音声性検出部130から出力された人の声の信号を対象に予備的な音声認識を行う予備音声認識部140、予備音声認識部140で予備的に認識された人の声の信号を対象に詳細な音声認識を行う精密音声認識部150、および各音声認識に用いる音声認識辞書160を備えている。
【0018】
A/D変換器111は、入力されたアナログの音声信号を所定のサンプリングレートでサンプルし、サンプルして得られた信号をデジタル信号に変換し、予め決められたサンプル数のデータを、例えば1フレームのデータとして生成するようになっている。このフレーム1つに含まれる音声信号は、たとえば、10、15、20、30msec等にわたるものとするのでもよい。
リングバッファ112は、周知であり、その説明を省略する。
【0019】
孤立音声検出部120は、さらに、リングバッファ112に記憶されたデジタル音声データを取り出し、取り出したデジタル音声データに含まれる所定の閾値以上の値となるデータを音声区間の開始点(以下、単に「音声開始点」という。)のデータとして検出する音声開始点検出部121、音声開始点検出部121によって音声開始点が検出された場合に、音声開始点のデータに先立って非音声区間の有無を判定する非音声区間判定部122、音声開始点のデータの後に上記の閾値以下の値となるデータをその音声区間の終端として検出する音声終端検出部123、および、上記の非音声区間を伴う音声区間が検出された場合に、音声区間が後述する起動語に応じた長さ(以下、音声区間の長さのことを「音声長」という。)になっているか否かを判定する音声長判定部124を含むように構成される。
【0020】
音声開始点検出部121による音声開始点は、ノイズレベルより所定値(dBで)高い値を上記の閾値(以下、「音声区間閾値」という。)を基準とし、この音声区間閾値以上の値となるデータが存在する位置を開始点として検出するのでもよい。
【0021】
なお、上記で非音声区間判定部122が判定する「非音声区間」とは、音声区間に先立つ、予め決められたサンプル点数以上の、ノイズレベルより所定値低い値のデータが連続して存在する区間のことである。具体的には、音声開始点の前に、例えば、1秒以上のノイズの区間が検出された場合、この区間のことをいう。この場合、「予め決められたサンプル点数」とは、「1秒」分に対応するサンプル点の数になる。
【0022】
音声終端検出部123による音声区間の終端は、ノイズレベルとなるデータが所定サンプル点数以上連続して存在する場合、この最初のデータの位置を終端として検出するのでもよい。具体的には、起動語に応じた長さの音声長のデータが存在した後に1秒以上のノイズ区間が検出された場合、このノイズ区間の最初のデータで音声区間が終了したものとするのでもよい。
【0023】
音声長判定部124は、検出された音声長が、起動語の典型的な音声長の範囲内にあるか否かの判定を行うようになっており、それによって孤立音声だけを切り出そうとするものである。この音声長の範囲は、予め、複数人が発声した起動語の音声信号のサンプルをとり、この音声信号のサンプルの音声長分布から決定しておくのでもよい。
【0024】
以上の構成において、音声収録用マイク101と、A/D変換器111、リングバッファ112、および孤立音声検出部120(図1に示す常時動作部110)は、音声媒介起動装置100が動作する間中動作するようになっている。特に、この孤立音声検出部120を常時動作させることによって、音声に含まれる車両内での突発的なノイズや騒音、区切りの無い会話音声などを排除することができる。
【0025】
次に、音声性検出部130は、孤立音声検出部120を通過した孤立音声信号を対象として、その孤立音声信号の音声区間内における自己相関係数とその回帰係数を算出し、算出した各係数の値が予め決められた値以上であるときに、人の声として検出するようになっている。この処理は、孤立音声信号を構成するすべてのフレームについてなされる。以下では、音声の性質のことを音声性といい、孤立音声信号を対象に上記のように人の声か否かを判断することを音声性の判断という。
【0026】
ここで、回帰係数は例えば以下の式(1)に示すように定義されるものがある。
dRn(j)=(Rn(j+1)−Rn(j−1))/2 (1)
ここで、Rn(j)は、j番目のフレームについてのn次の自己相関係数であり、dRn(j)は、n次の自己相関関数を用いたときのj番目のフレームについての回帰係数である。上記の式(1)は、回帰係数dRn(j)が自己相関係数Rn(j)の引数jにおける勾配を表すことを示すものである。
【0027】
音声性検出部130を通過した音声は、予備音声認識部140により予備的な音声認識が行われるようになっているが、この「予備的な音声認識」として、例えば、デジタル音声データを対象にして1フレームおきに音声認識辞書160を用いて音声認識を行うのでもよい。すなわち、上記の例は、間引いたデジタル音声データを用いて音声認識を行うものと同意である。ここで、起動語とは、音声認識機能を介して予め決められた機能を実行させるための言葉である。例えば、起動語として「ボイスナビ」がナビゲーションシステムを実行する音声認識辞書160に登録されている。起動語は、また別にオーディオ機器の切り替えを行うための音声認識辞書、車内機器の設定変更を行うための音声認識辞書等、実行させたい機能(以下、「ターゲット機能」という。)毎に対応する辞書がある。
【0028】
次に、予備音声認識部140が音声認識した言葉が起動語である場合、精密音声認識部150は、音声性検出部130を通過したデジタル音声データをリングバッファ112から全フレーム取得する。そして、精密音声認識部150は、取得した全フレームのデジタル音声データを対象に、音声認識辞書160を用いて精密な音声認識を行う。すなわち、データを間引かずに音声認識を行うものである。
【0029】
精密音声認識部150が行う音声認識において、音声認識された言葉が起動語以外の他の言葉との間の距離(尤度)が予め決められた閾値を超えており、さらに検出された音声区間の長さが起動語の長さの範囲にあるとき、入力された音声が起動語であると認識するものとする。音声認識の基準は、ここで示したものに限定されるものではなく、他の基準とするのでもよく、さらに、他の方法で起動語を認識するのでもよい。起動語が音声認識されると、起動語を認識したことを示す信号が外部(ターゲット機能実行部)に出力され、起動語に応じた機能が実現されることになる。
【0030】
なお、上記で、非音声区間判定部122が音声開始点の前に非音声区間が存在すると判定しなかった場合、音声長判定部124によって孤立音声信号が起動語に応じた音声長になっていると判定されなかった場合、音声性検出部130によって孤立音声信号が人の声として検出されなかった場合、または、予備音声認識部140によって孤立音声信号が起動語として認識されなかった場合、のいずれの場合でも音声終端検出部123が次の孤立音声信号を検出するために、リングバッファからデータを取得して現音声区間の終端を検出する処理を行う。音声終端検出部123が現音声区間の終端を検出すると、そのことを示す信号が音声開始点検出部121に出力され、音声開始点検出部121は上記の処理を再度行う状態になり、孤立音声検出部120での孤立音声信号の検出から上記の各構成部での処理までの動作が繰り返し行われる。
【0031】
図2は、本発明の実施の形態に係る音声媒介起動装置における処理の流れを説明するためのフローチャートである。
まず、リングバッファ112から1フレーム分のデジタル音声データを孤立音声検出部120が取り込む(S201)。
【0032】
次に、ステップS201で取り込まれたデータ中に音声開始点が含まれているか否かを孤立音声検出部120の音声開始点検出部121が判定し(S202)、含まれていないと判定した場合、処理はステップS201に戻り、含まれていると判定した場合、処理はステップS203に進む。この音声開始点の検出は、対象とするフレームにおいてはじめて音声区間閾値以上の値となるデータを音声開始点として検出することによって行う。
【0033】
次に、ステップS202で音声開始点が検出されたら、孤立音声検出部120の非音声区間判定部122は、この音声開始点の直前に非音声区間の有無を判断し(S203)、非音声区間があると判断した場合、処理はステップS205に進み、非音声区間がないと判断した場合、処理はステップS204に移る。
【0034】
ステップS204では、次のフレームのデジタル音声データを音声終端検出部123が順次取り込み、音声終端を検出する。音声終端の検出方法については、上記で説明したので、その説明を省略する。音声終端を検出したとき、処理はステップS201に戻り、上記の処理を繰り返す。これによって、ターゲット機能の実行を目的としない会話の音声中に含まれる起動語が音声認識の対象となることを防止するものである。
【0035】
ステップS203で非音声区間があると判断された場合、次のフレームのデジタル音声データを音声終端検出部123が順次取り込み、音声終端を検出する(S205)。
【0036】
ステップS205で音声終端が検出されたら、音声開始点と音声終端との間の区間として定義される音声区間の音声長が予め決められた範囲内にあるか否かを音声長判定部124が判定する(S206)。音声長が予め決められた範囲内にあると判定された場合、処理はステップS207に進み、この範囲内にないと判定された場合、処理はステップS204に移り上記の処理を行う。
【0037】
ステップS206で音声長が所定の範囲内にあると判定されたとき、上記で説明したように、孤立音声信号の音声性の判断を音声性検出部130が行う(S207)。音声性の判断については上記で説明したため、その説明を省略する。音声性が妥当でないと判断された場合、処理はステップS204に跳び、上記の処理を繰り返す。
【0038】
ステップS207で音声性が妥当と判断された場合、孤立音声信号に対して予備音声認識を予備音声認識部140が行う(S208)。この場合、孤立音声信号からのデータを対象にして1フレームおきに音声認識を行う。これによって、予備音声認識での処理が削減され、処理負担が軽減される。予備音声認識で孤立音声信号が起動語でないと判断された場合、処理はステップS204に跳び、上記の処理を繰り返す。
【0039】
ステップS208で孤立音声信号が起動語と判断された場合、起動語と判断されたこの孤立音声信号を含むフレーム全体のデジタル音声データをリングバッファ112から取り込む(S209)。
孤立音声信号を含むフレーム全体のデジタル音声データをリングバッファ112から取り込んだら、取り込んだデジタル音声データを対象に、精密音声認識部150が精密に音声認識を行う(S210)。精密音声認識で孤立音声信号が起動語でないと判断された場合、処理はステップS204に跳び、上記の処理を繰り返す。一方、起動語と判断された場合、そのことを示す信号を外部のターゲット機能実行部に出力して、処理は終了する。
【0040】
図3は、本発明の実施の形態に係る音声認識辞書の構造を概念的に表した説明図である。
音声認識辞書160には、複数の起動語によって構成される「起動用語」301とそれ以外の言葉である「排他用語」302とが記憶される。例えば「目的地設定」を起動語に設定したとき、「目的地」、「目的地指定」等の単語を起動用語として登録することで、一つの機能の実行を意味する複数の起動語を設定することができる。その際、孤立音声検出部120が音声区間の長さに基づいて人の声か否かの切り分けを行う場合は、起動語が2単語以上設定するときは、すべての起動語の長さを、同程度の長さの単語で揃えることが好適である。
【0041】
また、「排他用語」302は、複数個の排他語によって構成されている。排他語とは、認識処理に起動語以外の音声またはノイズが入力されたときに、誤って起動語と認識されることを防ぐために、排他語が認識されたら起動語ではない言葉であることを示すものとして用意されたものである。
【0042】
排他用語302は、例えばケプストラム距離のような距離尺度を用いて音声の特徴を表した場合、起動語からさまざまな距離にある単語を排他用語とする。起動語に似ている言葉を話したときには、起動語に距離の近い単語、起動語とまったく違う言葉を話したときには起動語からの距離が遠い単語が認識される。つまり、認識結果が起動用語301内にあるとされたときは、認識された言葉は起動語であるとされ、認識結果が起動用語301内にないか又は排他用語302と一致するとされたときは、認識されて言葉は起動語でないとされる。このように起動語以外の入力を、排他用語302を用いて認識することにより、誤起動を避けるようになっている。
【0043】
以上説明したように、本発明の第1の実施の形態に係る装置は、入力された音声信号に含まれる孤立音声を検出し、検出した孤立音声に含まれる人の声を検出し、検出した人の声が起動語であるかどうかを音声認識により判定することにしたため、従来に比べ、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることができる。
【0044】
このよう音声起動の分割処理を行うことにより、全体で一番処理負荷のかかる音声認識部の無駄な動作を減らすことができ、その結果リソース要求の厳しいナビゲーションシステムに組み込むことができる。同時に、ユーザーが音声認識開始トリガを押下することなく起動語を発声することで、常時音声認識を開始することができるシステムを実現することができる。
【0045】
また、始めに音声認識に要する処理負担が少ない予備音声認識を行って音声認識対象を絞り、絞り込まれた言葉を対象に処理負担が多い精密音声認識を行うようにしたため、音声認識に要する処理負担の低減を一層図ることができる。
また、起動語として関連する言葉を設定できるとともに、ノイズや起動語に似た言葉等の起動語として認識されうるおそれのある言葉を排他用語として登録するため、誤検出の低減を図ることができる。
【0046】
なお、本発明は、カーナビゲーション、または車両内でのターゲット機能の起動のみに限定されるものではなく、他の一般の装置の起動にも適用可能であるこというまでもない。例えば、照明器具のオン/オフスイッチとして導入した場合、この構成とることで最小限の待機電力でスイッチの音声起動を実現することができる。また同様に、携帯電話や電化製品等への適用も可能である。
【0047】
【発明の効果】
以上説明したように、本発明は、音声認識結果が得られるまでの処理量の低減、および、音声認識における誤検出の低減を図ることができる音声媒介起動装置およびその方法を提供することができるものである。
【図面の簡単な説明】
【図1】本発明の音声媒介起動装置のブロック構成を示す図
【図2】本発明の音声媒介起動装置の動作を説明するためのフローチャート
【図3】本発明の音声認識辞書についての説明をするための図
【符号の説明】
100 音声媒介起動装置
101 音声収録用マイク
110 常時動作部
111 A/D変換器
112 リングバッファ
120 孤立音声検出部
121 音声開始点検出部
122 非音声区間判定部
123 音声終端検出部
124 音声長判定部
130 音声性検出部
140 予備音声認識部
150 精密音声認識部
160 音声認識辞書
301 起動用語
302 排他用語

Claims (9)

  1. 入力された音声信号に含まれる孤立音声の信号を検出する孤立音声検出手段と、前記孤立音声の信号に含まれる人の声の信号を検出する音声性検出手段と、起動語を含む所定の言葉を音声認識用の言葉として記憶した音声認識辞書と、前記音声認識辞書を用いて前記人の声の信号を対象に音声認識を行い、この人の声に含まれる起動語を検出する音声認識手段とを備え、前記音声認識手段は、前記人の声に含まれる起動語を検出したとき、外部の装置に所定の信号を出力することを特徴とする音声媒介起動装置。
  2. 前記音声認識手段は、前記音声認識辞書を用いて前記人の声の信号を対象に予備的な音声認識を行い、この人の声に含まれる起動語を検出する予備音声認識手段と、前記予備音声認識手段が起動語を検出したときに前記人の声の信号を対象に詳細な音声認識を行い、前記人の声に含まれる起動語を検出する精密音声認識手段とを有し、前記精密音声認識手段は、前記人の声に含まれる起動語を検出したとき、外部の装置に所定の信号を出力することを特徴とする請求項1に記載の音声媒介起動装置。
  3. 前記予備音声認識手段は、前記精密音声認識手段が行う音声認識よりも少ない処理量で前記音声認識を行うことを特徴とする請求項2に記載の音声媒介起動装置。
  4. 前記音声性検出手段は、前記孤立音声検出手段が前記孤立音声の信号を検出したときに前記人の声の信号を検出する処理を開始することを特徴とする請求項1または請求項2に記載の音声媒介起動装置。
  5. 前記孤立音声検出手段は、前記音声性検出手段が前記孤立音声の信号に人の声の信号を検出しないとき、または、前記予備音声認識手段または前記精密音声認識手段が前記人の声中に起動語を検出しないとき、前記孤立音声を含む音声の終端検出処理を行うことを特徴とする請求項1または請求項2に記載の音声媒介起動装置。
  6. 前記孤立音声検出手段は、入力された音声信号における音声区間の開始点を検出する音声開始点検出手段と、前記開始点の直前に一定時間の非音声区間の有無を判定する非音声区間判定手段と、前記音声区間の終端を検出する音声終端検出手段と、前記音声区間が前記起動語に応じた長さか否かを判定する音声長判定手段とを有し、前記音声区間の開始点の前に一定時間の非音声区間が有り、この音声区間が起動語に応じた長さになっているとき、この音声区間の音声を孤立音声として検出することを特徴とする請求項1または請求項2に記載の音声媒介起動装置。
  7. 前記音声性検出手段は、検出の対象とする音声区間の音声信号についての自己相関係数および回帰係数に基づいて前記人の声を検出することを特徴とする請求項1または請求項2に記載の音声媒介起動装置。
  8. 前記起動語は、関連する1以上の言葉の組みとして設定され、前記音声認識辞書には、前記起動語以外の言葉であって、前記起動語とあやまって認識される言葉または認識されるおそれのある複数の言葉の組みである排他用語と、前記起動語を含むことを特徴とする請求項1または請求項2に記載の音声媒介起動装置。
  9. 入力された音声を対象に人の声を検出する孤立音声検出ステップと、前記孤立音声検出ステップで人の声が検出されたときに前記人の声の信号を対象に予備的な音声認識を行い、この人の声に含まれる起動語を検出する予備音声認識ステップと、前記予備音声認識ステップで起動語を検出したときに前記人の声の信号を対象に詳細な音声認識を行い、前記人の声に含まれる起動語を検出する精密音声認識ステップと、前記精密音声認識ステップで起動語を検出したとき、外部の装置に所定の信号を出力する起動信号出力ステップとを備えたことを特徴とする請求項1に記載の音声媒介起動方法。
JP2003134449A 2003-05-13 2003-05-13 音声媒介起動装置およびその方法 Pending JP2004341033A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003134449A JP2004341033A (ja) 2003-05-13 2003-05-13 音声媒介起動装置およびその方法
EP04011234A EP1477965A1 (en) 2003-05-13 2004-05-12 Spoken keyword recognition apparatus and method
US10/844,826 US20040230436A1 (en) 2003-05-13 2004-05-13 Instruction signal producing apparatus and method
CNA2004100766905A CN1573925A (zh) 2003-05-13 2004-05-13 指令信号产生设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003134449A JP2004341033A (ja) 2003-05-13 2003-05-13 音声媒介起動装置およびその方法

Publications (1)

Publication Number Publication Date
JP2004341033A true JP2004341033A (ja) 2004-12-02

Family

ID=33028341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003134449A Pending JP2004341033A (ja) 2003-05-13 2003-05-13 音声媒介起動装置およびその方法

Country Status (4)

Country Link
US (1) US20040230436A1 (ja)
EP (1) EP1477965A1 (ja)
JP (1) JP2004341033A (ja)
CN (1) CN1573925A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522910A (ja) * 2013-05-07 2016-08-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated キーワード検出のための適応的オーディオフレーム処理
JP2017129860A (ja) * 2016-01-20 2017-07-27 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声ウェイクアップ方法及び装置
JP2018507434A (ja) * 2015-01-12 2018-03-15 ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド ロボットシステムの音声識別システム及び方法
JP2021099534A (ja) * 2020-05-18 2021-07-01 北京百度網訊科技有限公司 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
JP5464078B2 (ja) * 2010-06-30 2014-04-09 株式会社デンソー 音声認識端末
JP5601419B2 (ja) * 2011-03-25 2014-10-08 三菱電機株式会社 エレベーターの呼び登録装置
CN103187078A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音式音乐控制装置
CN103188026A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音式广播控制装置
CN103187076B (zh) * 2011-12-28 2017-07-18 上海博泰悦臻电子设备制造有限公司 语音式音乐控制装置
CN103280217B (zh) 2013-05-02 2016-05-04 锤子科技(北京)有限公司 一种移动终端的语音识别方法及其装置
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
JP6516585B2 (ja) * 2015-06-24 2019-05-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346499A (ja) * 1986-04-18 1988-02-27 株式会社リコー 大語▲い▼単語音声認識方式
JPH06266393A (ja) * 1993-03-12 1994-09-22 Matsushita Electric Ind Co Ltd 音声認識装置
JPH0823369A (ja) * 1994-07-08 1996-01-23 Nakayo Telecommun Inc 音声操作電話装置およびその音声による操作指示受付方法
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56104399A (en) * 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
JP3611223B2 (ja) * 1996-08-20 2005-01-19 株式会社リコー 音声認識装置及び方法
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP2001051694A (ja) * 1999-08-10 2001-02-23 Fujitsu Ten Ltd 音声認識装置
US6587818B2 (en) * 1999-10-28 2003-07-01 International Business Machines Corporation System and method for resolving decoding ambiguity via dialog
US7120575B2 (en) * 2000-04-08 2006-10-10 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346499A (ja) * 1986-04-18 1988-02-27 株式会社リコー 大語▲い▼単語音声認識方式
JPH06266393A (ja) * 1993-03-12 1994-09-22 Matsushita Electric Ind Co Ltd 音声認識装置
JPH0823369A (ja) * 1994-07-08 1996-01-23 Nakayo Telecommun Inc 音声操作電話装置およびその音声による操作指示受付方法
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522910A (ja) * 2013-05-07 2016-08-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated キーワード検出のための適応的オーディオフレーム処理
JP2018507434A (ja) * 2015-01-12 2018-03-15 ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド ロボットシステムの音声識別システム及び方法
JP2017129860A (ja) * 2016-01-20 2017-07-27 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声ウェイクアップ方法及び装置
KR20170087390A (ko) * 2016-01-20 2017-07-28 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 음성 웨이크업 방법 및 장치
KR101922776B1 (ko) * 2016-01-20 2019-02-20 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 음성 웨이크업 방법 및 장치
US10482879B2 (en) 2016-01-20 2019-11-19 Baidu Online Network Technology (Beijing) Co., Ltd. Wake-on-voice method and device
JP2021099534A (ja) * 2020-05-18 2021-07-01 北京百度網訊科技有限公司 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品
JP7257434B2 (ja) 2020-05-18 2023-04-13 阿波▲羅▼智▲聯▼(北京)科技有限公司 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品

Also Published As

Publication number Publication date
CN1573925A (zh) 2005-02-02
EP1477965A1 (en) 2004-11-17
US20040230436A1 (en) 2004-11-18

Similar Documents

Publication Publication Date Title
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
JP2004341033A (ja) 音声媒介起動装置およびその方法
US8645131B2 (en) Detecting segments of speech from an audio stream
KR20010093334A (ko) 잡음 신호에서 음성의 엔드포인팅 방법
KR100201256B1 (ko) 음성을 이용한 차량 시동 제어장치
JP6827536B2 (ja) 音声認識装置および音声認識方法
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
EP1110207B1 (en) A method and a system for voice dialling
JP2001067091A (ja) 音声認識装置
JP2011039222A (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP2007233148A (ja) 発話区間検出装置及び発話区間検出プログラム
KR20050049207A (ko) 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
JP2000310993A (ja) 音声検出装置
JP2000163098A (ja) 音声認識装置
JP2017116876A (ja) 話者認識装置、判別値生成方法及びプログラム
JP3106543B2 (ja) 音声信号処理装置
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP2012155301A (ja) 状況認知型音声認識方法
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
JPH04230796A (ja) 音声信号処理装置
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2016080767A (ja) 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム
JP2006171077A (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080401

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090303