JP2008299221A

JP2008299221A - 発話検知装置

Info

Publication number: JP2008299221A
Application number: JP2007147383A
Authority: JP
Inventors: Osamu Iwata; 收岩田
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2007-06-01
Filing date: 2007-06-01
Publication date: 2008-12-11

Abstract

【課題】音声認識の精度を向上して、誤認識を防止することを課題とする。
【解決手段】発話検知装置１０は、複数人の音声を集音するステレオマイク１１を備える。そして、発話検知装置１０は、ステレオマイク１１によって集音された音声を主音声とその主音声に重畳する重畳音声とに区別し、区別された主音声と重畳音声との相対関係を算出する。そして、発話検知装置１０は、算出された相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する。その結果、発話検知装置１０は、音声操作入力であると判定した場合には、要求発話として応答システム５０に対して要求内容を出力する。
【選択図】図１

Description

この発明は、発話が同乗者に対する会話であるか音声操作入力であるかを判定する発話検知装置に関する。

近年、利用者の音声を認識する技術の実現に向けて、各種考案がなされている。利用者の音声を認識することができれば、利用者は各種機器の操作を音声によって実行することが可能であり、特に車載装置では運転者による手動操作の運転への影響が懸念されることから音声操作技術の実用化が切望されている。

このような音声操作技術に用いられる音声認識では、だれがどこに向かって発話しているかの認識が必要な場合がある。例えば、音声を集音するマイクを複数備え、各マイクが集音した音声の時間が所定の時間より長いかを算出し、所定の時間よりも長い場合には機器の操作命令の発話であると判定し、所定の時間より短い場合にはそれ以外の発話であると判定する技術が従来から知られている。

また、特許文献１では、発声と発声の間の無音声時間を計時し、計時された無音声時間に基づいて、機器の操作命令の発話かそれ以外の発話かを判定する技術が開示されている。

特開２００３−３０８０７９号公報

しかしながら、上述した音声の時間により発話を判定する従来の技術では、各マイクによって集音されたそれぞれの音声が所定の時間以上続いたかを判定するのみで、マイク間で集音された相対関係を考慮しないので、音声認識の精度が悪く、誤認識が発生するという問題点があった。

また、上記した特許文献１の技術では、同乗者同士の会話が重畳した場合や、車室内で音楽が再生されていることにより発声と発声との間に無音時間がない場合には、機器の操作命令の発話かそれ以外の発話かを判定することができず、誤認識が発生するという問題点があった。

そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、音声認識の精度を向上して、誤認識を防止することを目的とする。

上述した課題を解決し、目的を達成するため、本発明に係る発話検知装置は、複数人の音声を集音する集音手段と、前記集音手段によって集音された音声を前記複数人ごとに第一の音声と第二の音声として区別し、当該第一の音声と第二の音声との相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態、前記第一の音声の末尾に前記第二の音声が重畳している状態、前記第一の音声と前記第二の音声とが重ならない状態のいずれの状態であるかを算出する相対関係算出手段と、前記相対関係算出手段によって算出された前記状態に基づいて、前記第一の音声または前記第二の音声が音声操作入力であるかを判定することを特徴とする。

請求項１の発明によれば、複数人の音声を集音し、集音された音声を複数人ごとに第一の音声と第二の音声として区別し、その第一の音声と第二の音声との相対関係として、第一の音声の途中に第二の音声が割り込んでいる状態、第一の音声の末尾に第二の音声が重畳している状態、第一の音声と第二の音声とが重ならない状態のいずれの状態であるかを算出し、算出された状態に基づいて、第一の音声または第二の音声が音声操作入力であるかを判定するので、音声認識の精度を向上して、誤認識を防止することが可能になる。

また、請求項２の発明によれば、相対関係として、第一の音声の途中に第二の音声が割り込んでいる状態であると算出された場合には、第二の音声の発話時間が所定の時間以上であって、かつ第一の音声のパワーが第二の音声のパワー以上であるかを判定し、第二の音声の発話時間が所定の時間以上であって、かつ第一の音声のパワーが第二の音声のパワー以上であると算出された場合には、第二の音声が音声操作入力であると判定するので、第一の音声（会話）に対して割り込んで発話した第二の音声が、短い場合やその第一の音声より弱いパワーである場合には、相槌や感嘆（例えば、「ああ」や「うん」）であると考えられるため、音声操作入力として受け付けない結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。

また、請求項３の発明によれば、相対関係として、第一の音声の末尾に第二の音声が重畳している状態であると算出された場合には、第一の音声の平均パワーが第二の音声と重畳する直前の第一の音声のパワー以上であるかを判定し、第一の音声の平均パワーが第二の音声と重畳する直前の第一の音声のパワー以上であると算出された場合には、第二の音声が音声操作入力であると判定するので、第一の音声（会話）が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、第一の音声が急に途切れるような場合には、第二の音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。

以下に添付図面を参照して、この発明に係る発話検知装置の実施例を詳細に説明する。

以下の実施例では、実施例１に係る発話検知装置の概要および特徴、発話検知システムの構成および処理の流れを順に説明し、最後に実施例１による効果を説明する。なお、以下では、車両に実装されるカーナビゲーション（カーナビ）等において、利用者から発話された音声が音声操作入力であるか認識する場合に適用する例を説明する。

［実施例１に係る発話検知装置の概要および特徴］
まず最初に、図１を用いて、実施例１に係る発話検知装置の概要および特徴を説明する。図１は、実施例１に係る発話検知装置の概要および特徴を説明するための図である。実施例１の発話検知装置１０では、発話が音声操作入力であるかを判定することを概要とする。そして、この発話検知装置１０では、音声認識の精度を向上して、誤認識を防止する点に主たる特徴がある。

この主たる特徴について具体的に説明すると、この発話検知システム１の発話検知装置１０は、複数人の音声を集音するステレオマイク１１を備える。そして、発話検知装置１０は、ステレオマイク１１によって集音された音声を主音声とその主音声に重畳する重畳音声とに区別し、区別された主音声と重畳音声との相対関係を算出する（図１の（１）参照）。なお、ここで主音声とは、区別された音声のうち音量が一番大きいものとし、重畳音声とは、区別された音声のうち音量が二番目に大きいものとする。また、発声主が三人以上いる場合には、発声主の音声のうち一番目に音量が大きいものと二番目に音量が大きいものをそれぞれ主音声、重畳音声とする。

具体的には、発話検知装置１０は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し、その重畳度から主音声の途中に重畳音声が割り込んでいる状態（状態Ａ）、主音声の末尾に重畳音声が重畳している状態（状態Ｂ）、主音声と重畳音声とが重ならない状態（状態Ｃ）のいずれの状態であるかを判定する。図１の例を用いて説明すると、主音声の重畳度Ｒｐが１００以下であり、かつ、重畳音声の重畳度Ｒａが１００であるので、主音声の途中に重畳音声が割り込んでいる状態（状態Ａ）であると判定する。

そして、発話検知装置１０は、算出された相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する（図１の（２）参照）。その結果、発話検知装置１０は、音声操作入力であると判定した場合には、要求発話として応答システム５０に対して要求内容を出力する（図１の（３）参照）。具体的には、発話検知装置１０は、判定された状態Ａ、状態Ｂ、状態Ｃそれぞれに設定されている所定の条件に応じて、発話が同乗者に対する会話（以下、「会話」という）であるか音声操作入力（以下、「要求発話」という）であるかを判定する。

例えば、発話検知装置１０は、状態Ａであると判定した場合には、重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であって、かつ、重畳音声における重畳フレームの平均パワーＡｖｅＡが主音声における重畳フレームの平均パワーＡｖｅＰ以上であるかを判定する。その結果、発話検知装置１０は、重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であって、かつ、重畳音声における重畳フレームの平均パワーＡｖｅＡが主音声における重畳フレームの平均パワーＡｖｅＰ以上である場合には、要求発話であると判定する。また、発話検知装置１０は、重畳音声の発話時間Ｓａが所定の閾値Ｔ２未満であるか、または、重畳音声における重畳フレームの平均パワーＡｖｅＡが主音声における重畳フレームの平均パワーＡｖｅＰ未満である場合には、会話であると判定する。

このように、発話検知装置１０は、集音された音声を個別に判定せずに、主音声と重畳音声との相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する結果、上記した主たる特徴のごとく、音声認識の精度を向上して、誤認識を防止することが可能である。

［発話検知システムの構成］
次に、図２〜図４を用いて、図１に示した発話検知システム１の構成を説明する。図２は、実施例１に係る発話検知システム１の構成を示すブロック図であり、図３は、重畳状態判定テーブルを説明するための図であり、図４は、重畳状態を説明するための図である。

図２に示すように、この発話検知システム１は、発話検知装置１０、音声出力装置２０、同乗者判定装置３０、音声認識エンジン４０および応答システム５０を有する。以下では、まず、本発明に係る発話検知装置１０以外の音声出力装置２０、同乗者判定装置３０、音声認識装置４０および応答システム５０から説明する。

音声出力装置２０は、音声を出力するスピーカ２１と、音声を増幅するアンプ２２と、音楽またはトークバック音声を再生する音楽再生／合成音声再生部２３とを備える。音声出力装置２０は、音楽再生／合成音声再生部２３から再生する音声をアンプに送信し、アンプがその音声を増幅した後に、スピーカ２１から出力する。また、音声出力装置２０の音楽再生／合成音声再生部２３は、後述する発話検知装置１０の音声出力判定部１４および学習フィルタ１５に再生する音声データの原信号を送信する。

同乗者判定装置３０は、車室内を撮影する車室内カメラ３１と、車室内のシートの重さを検知する荷重センサ３２と、同乗者の有無を判定する同乗者有無判定部３３とを備える。同乗者判定装置３０の同乗者有無判定部３３は、車室内カメラ３１および荷重センサ３２の取得したデータを基に、同乗者の有無を判定する。そして、同乗者有無判定部３３は、その判定結果を後述する発話検知装置１０の波形分析／音源分離部１６に通知する。

音声認識エンジン４０は、音声データから音素の照合を行う音素照合部４１と、図示しない音声認識辞書と単語照合部４２と、認識結果出力部４３とを備える。音声認識エンジン４０の音素照合部４１は、後述する発話検知装置１０の音声重畳度判定部１７から音声データを受信し、その音声データを解析して音素照合を行って、その音素に関する情報を単語照合部４２に通知する。そして、単語照合部４２は、音素に関する情報から図示しない音声認識辞書を用いて、単語の照合を行い、その照合結果を認識結果として認識結果出力部４３に通知する。その後、認識結果出力部４３は、通知された認識結果を出力して、発話検知装置１０の要求判定部１９に送信する。

応答システム５０は、後述する発話装置１０の要求判定部１９から送信された要求を受信し、その要求に対応するシステム応答処理として実行する。例えば、音声により操作入力を受け付けて動作するカーナビが該当する。なお、上記した音声認識辞書として、ドライバー用および助手席用それぞれ設定するようにしてもよい。

次に、本発明に係る発話検知装置１０について説明する。実施例１に係る発話検知装置１０は、図２に示すように、ステレオマイク１１、入力レベル判定部１２、騒音低減処理部１３、音声出力判定部１４、学習フィルタ１５、波形分析／音源分離部１６、音声重畳度判定部１７、重畳状態判定テーブル１８、要求判定部１９から主に構成される。

重畳状態判定テーブル１８は、各重畳状態（状態Ａ、状態Ｂ、状態Ｃ）における主音声、重畳音声、システムの振る舞いをそれぞれ記憶している。具体的には、重畳状態判定テーブル１８は、図３に示すように、各重畳状態に対応する主音声の発話時間Ｓｐ、主音声の重畳時間Ｏｐ、主音声の重畳度Ｒｐ、重畳音声の発話時間Ｓａ、重畳音声の重畳時間Ｏａ、重畳音声の重畳度Ｒａ、音声操作入力であるかを判定するシステムの振る舞いをそれぞれ対応付けて記憶する。なお、この詳細については、音声重畳度判定部１７の処理として後に説明する。

ステレオマイク１１は、複数人の音声を集音する。具体的には、ステレオマイク１１は、複数人の音声を集音し、その音声情報を入力レベル判定部１２に通知する。なお、このステレオマイク１１の置く位置は自由であり、配線も一本であるため自動車購入後の後付けも容易である。

入力レベル判定部１２は、入力レベルが所定の閾値以上であるか判定する。具体的には、入力レベル判定部１２は、ステレオマイク１１から通知された音声情報の入力音声パワーレベルが所定の閾値以上Ｌ１であるかを判定する。つまり、入力レベル判定部１２は、入力音声パワーレベルが所定の閾値以上Ｌ１でない場合には、独り言もしくは騒音と判断して、リジェクトする。また、入力レベル判定部１２は、入力音声パワーレベルが所定の閾値以上Ｌ１である場合には、音声情報を騒音低減処理部１３に通知する。

騒音低減処理部１３は、ステレオマイク１１が集音した音声情報からスピーカ２１が出力した音楽やトークバック等の騒音を低減する処理を行う。具体的には、騒音低減処理部１３は、入力レベル判定部１２から通知された音声情報をフレーム単位でローパスフィルタ処理などを行って騒音を低減する。そして、騒音低減処理部１３は、後述する学習フィルタ１５からフィルタ係数を受信した場合には、そのフィルタ係数を用いてステレオマイク１１が集音した音声情報から雑音（音楽やトークバック）を除去して乗員の発話のみを抽出し、波形分析／音源分離部１６に通知する。また、騒音低減処理部１３は、学習フィルタ１５からフィルタ係数を受信しない場合には、騒音が低減された音声情報を波形分析／音源分離部１６に通知する。

音声出力判定部１４は、音声出力装置２０のスピーカ２１から音楽またはトークバックが出力されているか判定する。具体的には、音声出力判定部１４は、音出力装置２０の音楽再生／合成音声再生部２３によって再生される音楽またはトークバックの音声データを受信し、オーディオが出力中であるかを判定し、オーディオが出力中であると判定した場合には、学習フィルタ１５にスピーカ２１から出力された音声を除去する旨の要求を通知する。また、音声出力判定部１４は、オーディオが出力中でないと判定した場合には、トークバックが出力しているかを判定する。

その結果、音声出力判定部１４は、トークバックが出力中であると判定した場合は、学習フィルタ１５にスピーカ２１から出力された音声を除去する旨の要求を学習フィルタに通知する。また、音声出力判定部１４は、トークバックが出力中でないと判定した場合は、学習フィルタ１５にスピーカ２１から出力された音声を除去する処理を行わない旨の要求を通知する。

学習フィルタ１５は、音響エコーキャンセラとして、車室内の反射の影響を学習し、雑音を除去して発話のみを抽出するフィルタ係数を算出する。具体的には、学習フィルタ１５は、音声出力判定部１４から出力された音声を除去する旨の要求を受信した場合には、音楽再生／合成音声再生部２３から音楽やトークバックの音声における原信号を受信し、その原信号が室内で反響した影響を学習して、ステレオマイク１１が集音した音声情報から雑音を除去して乗員の発話のみを抽出するためのフィルタ係数を算出し、騒音低減処理部１３に通知する。

波形分析／音源分離部１６は、波形を分析して主音声と重畳音声とに区別する。具体的には、波形分析／音源分離部１６は、同乗者判定装置３０の同乗者有無判定部３３から同乗者の有無に関する判定結果を受信し、同乗者がいない場合には、同乗者がいない旨を後述する音声重畳度判定部１７に通知する。また、波形分析／音源分離部１６は、同乗者がいる場合には、波形を分析して、音源がそれぞれ異なる主音声と重畳音声とに分離して、音声重畳度判定部１７に通知する。

音声重畳度判定部１７は、区別された主音声と重畳音声との相対関係を算出する。具体的には、音声重畳度判定部１７は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し、その重畳度から主音声と重畳音声とが状態Ａ、状態Ｂまたは状態Ｃのいずれの状態（重畳状態）であるかを重畳状態判定テーブル１８を用いて判定する。

ここで、図４を用いて、各重畳状態について具体的に説明する。同図に示すように、重畳状態Ａとは、その重畳度から主音声の途中に重畳音声が割り込んでいる状態を示す。つまり、音声重畳度判定部１７は、主音声の重畳度Ｒｐが１００以下であり、かつ重畳音声の重畳度Ｒａが１００である場合には、主音声の途中に重畳音声が割り込んでいる状態（状態Ａ）であると判定する。

また、重畳状態Ｂとは、主音声の末尾に重畳音声が重畳している状態を示す。つまり、音声重畳度判定部１７は、主音声の重畳度Ｒｐが０より大きく１００未満であり、かつ重畳音声の重畳度Ｒａが０より大きく１００未満である場合には、主音声の末尾に重畳音声が重畳している状態（状態Ｂ）であると判定する。また、重畳状態Ｃとは、主音声と重畳音声とが重なっていない状態を示す。つまり、音声重畳度判定部１７は、主音声の重畳度Ｒｐが０であり、かつ重畳音声の重畳度Ｒａが０である場合には、主音声の途中に重畳音声が割り込んでいる状態（状態Ｃ）であると判定する。

そして、音声重畳度判定部１７は、重畳状態を判定した後、算出された重畳状態に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する。具体的には、音声重畳度判定部１７は、重畳状態Ａである場合には、重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であって、かつ、重畳音声における重畳フレームの平均パワーＡｖｅＡが主音声における重畳フレームの平均パワーＡｖｅＰ以上であるかを判定する（図３参照）。

その結果、音声重畳度判定部１７は、重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であって、かつ、重畳音声における重畳フレームの平均パワーＡｖｅＡが主音声における重畳フレームの平均パワーＡｖｅＰ以上である場合には、重畳音声が応答システム５０への要求発話と判定し、音声データを音声認識エンジン４０の音素照合部４１に送信する。一方、音声重畳度判定部１７は、畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であって、かつ、重畳音声における重畳フレームの平均パワーＡｖｅＡが主音声における重畳フレームの平均パワーＡｖｅＰ以上でない場合には、相槌や感嘆詩であるとしてリジェクトする（図３参照）。つまり、主音声（会話）に対して割り込んで発話した音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩（例えば、「ああ」や「うん」）であると考えられるため、要求発話として受け付けない。

また、音声重畳度判定部１７は、重畳状態Ｂである場合には、主音声における重畳フレームの平均パワーＡｖｅＰが重畳音声と重畳する直前の主音声のパワー以上であるかを判定する（図３参照）。その結果、音声重畳度判定部１７は、主音声における重畳フレームの平均パワーＡｖｅＰが重畳音声と重畳する直前の主音声のパワー以上である場合には、重畳音声が応答システム５０への要求発話と判定し、音声データを音声認識エンジン４０の音素照合部４１に送信する。一方、音声重畳度判定部１７は、主音声における重畳フレームの平均パワーＡｖｅＰが重畳音声と重畳する直前の主音声のパワー以上でない場合には、相槌や感嘆詩であるとしてリジェクトする（図３参照）。つまり、主音声（会話）が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、主音声が急に途切れるような場合には、重畳音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける。

また、音声重畳度判定部１７は、重畳状態Ｃである場合には、主音声の発話時間Ｓｐまたは重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であるか判定する（図３参照）。その結果、音声重畳度判定部１７は、主音声の発話時間Ｓｐまたは重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であると判定した場合には、重畳音声が応答システム５０への要求発話と判定し、音声データを音声認識エンジン４０の音素照合部４１に送信する。一方、音声重畳度判定部１７は、主音声の発話時間Ｓｐまたは重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上でないと判定した場合には、相槌や感嘆詩であるとしてリジェクトする（図３参照）。

要求判定部１９は、認識結果の確からしさを判定する。具体的には、要求判定部１９は、音声認識エンジン４０の認識結果出力部４３から送信された認識結果を受信し、その認識結果の確からしさ尤値度を用いて判定する。その結果、要求判定部１９は、認識結果が確からしくないと判定した場合には、リジェクトし、一方、認識結果が確からしいと判定した場合には、応答システム５０に要求を送信する。

［発話検知システムによる処理］
次に、図５および図６を用いて、実施例１に係る発話検知システム１による処理を説明する。図５は、実施例１に係る発話検知システム１の処理動作を示すフローチャートであり、図６は、実施例１に係る発話検知システム１のシステム要求判定処理を示すフローチャートである。

図５に示すように、発話検知装置１０は、ステレオマイク１１によって集音された音声情報の入力音声パワーレベルが所定の閾値以上Ｌ１であるかを判定する（ステップＳ１０１）。その結果、発話検知装置１０は、入力音声パワーレベルが所定の閾値以上Ｌ１でない場合には（ステップＳ１０１否定）、独り言もしくは騒音と判断して、リジェクトする（ステップＳ１０２）。

また、発話検知装置１０は、入力音声パワーレベルが所定の閾値以上Ｌ１である場合には（ステップＳ１０１肯定）、音声情報をフレーム単位でローパスフィルタ処理などを行って雑音を低減する雑音低減処理を行う（ステップＳ１０３）。また、発話検知装置１０は、音声出力装置２０によって再生される音楽またはトークバックの音声データを受信し、オーディオが出力中であるかを判定し（ステップＳ１０４）、オーディオが出力中でないと判定した場合には（ステップＳ１０４否定）、トークバックが出力しているかを判定する（ステップＳ１０５）。

また、発話検知装置１０は、ステップＳ１０４およびステップＳ１０５において、オーディオが出力中であると判定した場合（ステップＳ１０４肯定）、またはトークバックが出力中であると判定した場合は（ステップＳ１０５肯定）、雑音除去処理を行う（ステップＳ１０６）。具体的には、発話検知装置１０は、原信号が室内で反響した影響を学習し、ステレオマイク１１が集音した音声情報から雑音を除去して乗員の発話のみを抽出するためのフィルタ係数を算出し、フィルタ係数を用いてステレオマイク１１が集音した音声情報から雑音を除去して乗員の発話のみを抽出する。なお、上記した処理では、フレーム単位で音声情報の処理を行い、処理された音声情報を所定の記憶部に遂次記憶し、以下の処理では、所定の記憶部に蓄積された複数のフレーム単位で処理を行っている。

そして、発話検知装置１０は、トークバックが出力中でないと判定した場合（ステップＳ１０５否定）、または雑音除去処理を行った後（ステップＳ１０６）、システム要求判定処理（後に図６を用いて詳述）を実行し（ステップＳ１０７）、音声が応答システム５０への要求発話であるか判定する（ステップＳ１０８）。その結果、発話検知装置１０は、音声が応答システム５０への要求発話でないと判定した場合には（ステップＳ１０８否定）、相槌や感嘆詩であると考えられるため、要求発話として受け付けずに相槌や感嘆詩であるとしてリジェクトする（ステップＳ１０９）。

また、発話検知装置１０によって音声が応答システム５０への要求発話であると判定された場合には（ステップＳ１０８肯定）、音声認識エンジン４０は、発話検知装置１０から音声データを受信し、その音声データを解析して音素照合を行う（ステップＳ１１０）。そして、音声認識エンジン４０は、その音素に関する情報から音声認識辞書を用いて、単語の照合を行い（ステップＳ１１１）、認識結果を出力する（ステップＳ１１２）。

その後、発話検知装置１０は、音声認識エンジン４０から送信された認識結果を受信して、その認識結果の確からしさ尤値度を用いて判定する（ステップＳ１１３）。その結果、発話検知装置１０は、認識結果が確からしくないと判定した場合には（ステップＳ１１３否定）、リジェクトする（ステップＳ１１４）。一方、発話検知装置１０によって認識結果が確からしいと判定された場合には（ステップＳ１１３肯定）、応答システム５０は、発話検知装置１０から送信された要求を受信し、その要求に対応するシステム応答処理として実行する（ステップＳ１１５）。

次に、図６を用いて、実施例１に係る実施例１に係る発話検知システム１のシステム要求判定処理を説明する。同図に示すように、発話検知装置１０は、雑音除去済み音声データが入力されると（ステップＳ２０１）、同乗者の有無に関する判定結果から同乗者がいるか判定する（ステップＳ２０２）。その結果、発話検知装置１０は、同乗者がいると判定した場合には（ステップＳ２０２肯定）、波形を分析して、音源がそれぞれ異なる主音声と重畳音声とに区別する（ステップＳ２０３）。

そして、発話検知装置１０は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し（ステップＳ２０４）、その重畳度から主音声と重畳音声とが状態Ａ、状態Ｂまたは状態Ｃのいずれの状態（重畳状態）であるかを重畳状態判定テーブル１８を用いて判定する（ステップＳ２０５）。

つまり、発話検知装置１０は、主音声の重畳度Ｒｐが１００以下であり、かつ重畳音声の重畳度Ｒａが１００である場合には、主音声の途中に重畳音声が割り込んでいる状態（状態Ａ）であると判定する（ステップＳ２０５状態Ａ）。また、発話検知装置１０は、主音声の重畳度Ｒｐが０より大きく１００未満であり、かつ重畳音声の重畳度Ｒａが０より大きく１００未満である場合には、主音声の末尾に重畳音声が重畳している状態（状態Ｂ）であると判定する（ステップＳ２０５状態Ｂ）。また、発話検知装置１０は、主音声の重畳度Ｒｐが０であり、かつ重畳音声の重畳度Ｒａが０である場合には、主音声の途中に重畳音声が割り込んでいる状態（状態Ｃ）であると判定する（ステップＳ２０５状態Ｃ）。

そして、発話検知装置１０は、重畳状態Ａであると判定した場合には（ステップＳ２０５状態Ａ）、重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であって、かつ、重畳音声における重畳フレームの平均パワーＡｖｅＡが主音声における重畳フレームの平均パワーＡｖｅＰ以上であるかを判定する（ステップＳ２０６）。

その結果、発話検知装置１０は、重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であって、かつ、重畳音声における重畳フレームの平均パワーＡｖｅＡが主音声における重畳フレームの平均パワーＡｖｅＰ以上である場合には（ステップＳ２０６肯定）、重畳音声が応答システム５０への要求発話と判定する（ステップＳ２０７）。一方、発話検知装置１０は、畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であって、かつ、重畳音声における重畳フレームの平均パワーＡｖｅＡが主音声における重畳フレームの平均パワーＡｖｅＰ以上でない場合には（ステップＳ２０６否定）、会話と判定する（ステップＳ２０８）。つまり、主音声（会話）に対して割り込んで発話した音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩（例えば、「ああ」や「うん」）であると考えられるため、要求発話として受け付けない。

また、発話検知装置１０は、重畳状態Ｂである場合には（ステップＳ２０５状態Ｂ）、主音声における重畳フレームの平均パワーＡｖｅＰが重畳音声と重畳する直前の主音声のパワー以上であるかを判定する（ステップＳ２０９）。その結果、発話検知装置１０は、主音声における重畳フレームの平均パワーＡｖｅＰが重畳音声と重畳する直前の主音声のパワー以上である場合には（ステップＳ２０９肯定）、重畳音声が応答システム５０への要求発話と判定する（ステップＳ２１０）。一方、発話検知装置１０は、主音声における重畳フレームの平均パワーＡｖｅＰが重畳音声と重畳する直前の主音声のパワー以上でない場合には（ステップ２０９否定）、会話であると判定する（ステップＳ２１１）。

また、発話検知装置１０は、ステップＳ２０２において同乗者がいないと判定した場合には（ステップＳ２０２否定）、または、ステップＳ２０５において重畳状態Ｃである場合には（ステップＳ２０５状態Ｃ）、主音声の発話時間Ｓｐまたは重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であるか判定する（ステップＳ２１２）。その結果、発話検知装置１０は、主音声の発話時間Ｓｐまたは重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上であると判定した場合には（ステップＳ２１２肯定）、重畳音声が応答システム５０への要求発話と判定する（ステップＳ２１３）。一方、発話検知装置１０は、主音声の発話時間Ｓｐまたは重畳音声の発話時間Ｓａが所定の閾値Ｔ２以上でないと判定した場合には（ステップＳ２１２否定）、会話であると判定する（ステップＳ２１４）。

[実施例１の効果]
上述してきたように、発話検知装置１０は、複数人の音声を集音し、集音された音声を複数人ごとに主音声と重畳音声として区別し、その主音声と重畳音声との相対関係として、主音声の途中に重畳音声が割り込んでいる状態、主音声の末尾に重畳音声が重畳している状態、主音声と重畳音声とが重ならない状態のいずれの状態であるかを算出し、算出された状態に基づいて、主音声または重畳音声が音声操作入力であるかを判定するので、音声認識の精度を向上して、誤認識を防止することが可能になる。

また、実施例１によれば、重畳関係として、主音声の途中に重畳音声が割り込んでいる重畳状態Ａであると算出された場合には、重畳音声の発話時間Ｓａが所定の時間Ｔ２以上であって、かつ主音声のパワーＡｖｅＰが重畳音声のパワーＡｖｅＡ以上であるかを判定し、重畳音声の発話時間Ｓａが所定の時間Ｔ２以上であって、かつ主音声のパワーＡｖｅＰが重畳音声のパワーＡｖｅＡ以上であると算出された場合には、重畳音声が音声操作入力であると判定するので、主音声（会話）に対して割り込んで発話した重畳音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩（例えば、「ああ」や「うん」）であると考えられるため、音声操作入力として受け付けない結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。

また、実施例１によれば、重畳関係として、主音声の末尾に重畳音声が重畳している重畳状態Ｂであると算出された場合には、主音声の平均パワーＡｖｅＰが重畳音声と重畳する直前の主音声のパワー以上であるかを判定し、主音声の平均パワーＡｖｅＰが重畳音声と重畳する直前の主音声のパワー以上であると算出された場合には、重畳音声が音声操作入力であると判定するので、主音声（会話）が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、主音声が急に途切れるような場合には、重畳音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に示すように、（１）マイク、（２）相対関係、（３）乗員数、（４）システム構成等、（５）プログラムにそれぞれ区分けして異なる実施例を説明する。

（１）マイク
上記の実施例１では、単一のステレオマイクを用いて車室内の音声を集音する場合を説明したが、本発明はこれに限定されるものではなく、複数のマイクを車室内に設けて集音するようにしてもよい。

（２）相対関係
また、上記の実施例１では、相対関係として、重畳状態を算出する場合を説明したが、本発明はこれに限定されるものではなく、重畳していない音声同士の相対関係を算出するようにしてもよい。

（３）乗員数
また、上記の実施例１では、車両内の乗員が二人いる場合の処理を説明したが、本発明はこれに限定されるものではなく、三人以上いる場合にも適用することが可能なようにしてもよい。例えば、発話検知装置は、三人以上の音声を集音した場合には、集音した音声のうち、音量の大きい二つの音声の相対関係を算出して、音声操作入力であるかを判定する。

（４）システム構成等
また、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、集音された音声が要求発話であるか会話であるかを判定する場合に用いられる閾値Ｔ２の値を任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示（例えば、図２など）の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、発話検知装置１０と音声認識エンジン４０とを統合するようにしてもよい。

（５）プログラム
なお、本実施例で説明した発話検知方法は、あらかじめ用意されたプログラムを車載装置であるカーナビゲーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。

以上のように、本発明に係る発話検知装置は発話が音声操作入力であるかを判定する場合に有用であり、特に、音声認識の精度を向上して、誤認識を防止することに適する。

実施例１に係る発話検知装置の概要および特徴を説明するための図である。実施例１に係る発話検知システム１の構成を示すブロック図である。重畳状態判定テーブルを説明するための図である。重畳状態を説明するための図である。実施例１に係る発話検知システム１の処理動作を示すフローチャートである。実施例１に係る発話検知システム１のシステム要求判定処理を示すフローチャートである。

符号の説明

１発話検知システム
１０発話検知装置
１１ステレオマイク
１２入力レベル判定部
１３騒音低減処理部
１４音声出力判定部
１５学習フィルタ
１６波形分析／音源分離部
１７音声重畳度判定部
１８重畳状態判定テーブル
１９要求判定部
２０音声出力装置
２１スピーカ
２２アンプ
２３音楽再生／合成音声再生部
３０同乗者判定装置
３１車室内カメラ
３２荷重センサ
３３同乗者有無判定部
４０音声認識エンジン
４１音素照合部
４２単語照合部
４３認識結果出力部
５０応答システム

Claims

複数人の音声を集音する集音手段と、
前記集音手段によって集音された音声を前記複数人ごとに第一の音声と第二の音声として区別し、当該第一の音声と第二の音声との相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態、前記第一の音声の末尾に前記第二の音声が重畳している状態、前記第一の音声と前記第二の音声とが重ならない状態のいずれの状態であるかを算出する相対関係算出手段と、
前記相対関係算出手段によって算出された前記状態に基づいて、前記第一の音声または前記第二の音声が音声操作入力であるかを判定することを特徴とする請求項１に記載の発話検知装置。
前記発話対象判定手段は、前記相対関係算出手段によって前記相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態であると算出された場合には、前記第二の音声の発話時間が所定の時間以上であって、かつ前記第一の音声のパワーが前記第二の音声のパワー以上であるかを判定し、前記第二の音声の発話時間が所定の時間以上であって、かつ前記第一の音声のパワーが前記第二の音声のパワー以上であると算出された場合には、前記第二の音声が音声操作入力であると判定することを特徴とする請求項１に記載の発話検知装置。
前記発話対象判定手段は、前記相対関係算出手段によって前記相対関係として、前記第一の音声の末尾に前記第二の音声が重畳している状態であると算出された場合には、前記第一の音声の平均パワーが前記第二の音声と重畳する直前の第一の音声のパワー以上であるかを判定し、前記第一の音声の平均パワーが前記第二の音声と重畳する直前の第一の音声のパワー以上であると算出された場合には、前記第二の音声が音声操作入力であると判定することを特徴とする請求項１または請求項２に記載の発話検知装置。