JP2008020587A

JP2008020587A - 音声認識システム、音声認識方法及び音声認識用プログラム

Info

Publication number: JP2008020587A
Application number: JP2006191197A
Authority: JP
Inventors: Atsushi Wakao; 淳若尾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-07-12
Filing date: 2006-07-12
Publication date: 2008-01-31

Abstract

【課題】雑音の変動に対応できる音声認識システムの提供。
【解決手段】雑音推定手段２が雑音状況を推定すると、音声比較手段３は、前記推定した雑音状況に応じて、音声認識動作に必要な発声回数を決定する。音声比較手段３は、発声回数が、前記決定した必要発声回数に達した場合に、音声記憶手段４に記憶した発声を音声認識手段７に出力する。音声認識手段７は、前記各発声を同一内容と仮定して音声認識を行う。以上により、周囲の雑音状況に応じた制御が実現され、高騒音環境下での高い認識性能を確保するとともに、低騒音環境下での使い勝手の向上を実現できる。
【選択図】図１

Description

本発明は、音声認識システム、音声認識方法及び音声認識用プログラムに関し、特に、繰り返し発声された内容を認識することにより認識精度を確保する音声認識システム、音声認識方法及び音声認識用プログラムに関する。

繰り返された同一内容の発声から認識用の音声パタンを生成し、音声認識を行う音声認識システムの一例が、特許文献１に記載されている。図１５に示すように、この従来の音声認識システムは、時間軸整合手段と、切出用音声パタン生成手段と、認識用音声パタン生成手段と、認識手段とから構成されている。

このような構成を有する従来の音声認識システムは次のように動作する。同一発声内容の音声を含む入力音声パタンが複数入力されると、時間軸整合手段によってこれら複数の入力音声パタンの間に存在する時間軸のずれを整合する。時間軸の整合された複数の入力音声パタンは、切出用音声パタン生成手段と認識用音声パタン生成手段に送られる。切出用音声パタン生成手段は、時間軸の整合された複数の入力音声パタンから、各音声のパワー時系列を取り出す。このパワー時系列の最小値を選択した最小パワー時系列を生成し、認識手段に送る。認識用音声パタン生成手段は、時間軸の整合された複数の入力音声パタンから、各音声のスペクトル時系列を取り出す。このスペクトル時系列の中央値（もしくは平均値）を取得した中央値音声スペクトル時系列を生成し、認識手段に送る。認識手段は、最小パワー時系列を用いて音声部分の切り出し位置を決め、切り出し位置に従って中央値音声スペクトル時系列から音声部分を切り出し、切り出された中央値音声スペクトル時系列を用いて音声認識処理を行う。

特許第２７５２９８１号公報

しかしながら、上記した従来の音声認識システムには、非常に静かな環境下であり、一度の発声でも十分な認識精度を出すことが可能な状況下であっても複数回の発声が必要となるという問題点がある。

特に、この種の音声認識機能を携帯電話等の持ち歩き可能な端末や車載端末に実装することを考えると、場所によって、例えば、室内と屋外、市街地と郊外では周囲の雑音環境は大きく変化するところ、上記複数回の発声をしなければならないという点は、使い勝手の悪さとなって現れる。

本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、周囲の雑音の変動に対応可能とし、高騒音環境下での高い認識性能と低騒音環境下での使い勝手を両立した音声認識システムを提供することにある。

本発明の第１の視点によれば、入力中に含まれる雑音を推定する雑音推定手段と、前記雑音の状況に応じて音声認識に必要な繰り返し発声回数を決定し、前記必要回数発せられた発声を同一内容と仮定して音声認識を行う音声認識手段と、を備えたこと、を特徴とする音声認識システムが提供される。

本発明の第２の視点によれば、入力音声を音声認識する音声認識システムにおける音声認識方法であって、前記音声認識システムが、入力中に含まれる雑音を推定するステップと、前記音声認識システムが、前記雑音の状況に基づいて、音声認識に必要な繰り返し発声回数を決定するステップと、前記音声認識システムが、前記決定した繰り返し発声回数分の発声が入力された段階で、前記各発声を同一内容と仮定して音声認識を実行するステップと、を含むこと、を特徴とする音声認識方法が提供される。

本発明の第３の視点によれば、上記音声認識システムを構成するコンピュータに実行させるプログラムが提供される。

本発明によれば、上述のとおり、雑音の状況に応じて必要な発声回数が変更されるため、高騒音環境下での高い認識性能と低騒音環境下での使い勝手の良さが両立される。

［第１の実施形態］
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図１は、本発明の第１の実施形態に係る音声認識システムの構成を表した図である。図１を参照すると、本実施形態に係る音声認識システムは、雑音推定手段２と、音声比較手段３と、音声記憶手段４と、音声データを音声認識する音声認識手段７と、を備えて構成される。

雑音推定手段２は、下記音声比較手段３による発声間の類似度の算出結果を利用し、雑音の状況を推測する手段である。この方式は、同一内容の発声の類似度が低い場合雑音が大きいと推定できるという知見と、後記するように背景雑音のみならず、発話者の言い直しも雑音として捉えることができるという知見に基づくものである。もちろん、入力信号に含まれる雑音成分を検出する方法を用い、あるいは、上記発声間の類似度による推定結果と組み合わせることも可能である。

音声比較手段３は、入力された発声間の類似度を算出する手段である。発声間の類似度の算出方法としては、発声間の時間的対応の度合いや発声同士の類似度を求める方法等が考えられる。また、音声比較手段３は、入力された発声内容と、その発声回数とを対応付けて音声記憶手段４に記憶する。

上記構成よりなる音声認識システムは、次のように動作する。まず、雑音推定手段２が雑音の状況を推定すると、音声比較手段３は、雑音の状況を表すパラメータと所定の閾値と比較して、音声認識動作に必要な発声回数を決定する。

また、音声比較手段３は、発声が入力される都度、発声間の類似度の算出を実行するとともに、入力された発声内容と、その発声回数とを対応付けて音声記憶手段４に記憶する。そして、音声比較手段３は、前記発声回数が、前記決定した必要発声回数に達した場合に、音声記憶手段４に記憶した発声を音声認識手段７に出力する。

音声認識手段７は、前記出力された１〜複数回の発声につき、例えば、特許文献１に記載の方法やその他統計的手法を用い、発声回数が増えれば増えるほど認識精度の向上が見込める方式で音声認識を行う。

以上により、雑音が小さい際には少ない発声回数で音声認識処理を完了し、逆に雑音が大きい際には多数の発声を要求するといった周囲の雑音の状況に応じた制御が実現され、高騒音環境下での高い認識性能と、使い勝手の向上が両立される。

なお、上記した実施形態では、音声比較手段３において、発声間の類似度を算出するものとして説明したが、音声比較手段３を省略することも可能である。この場合、例えば、雑音推定手段２により推定された雑音の状況に基づき、必要発声回数を決定し、音声認識手段７で、前記必要発声回数の発声内容を認識できた場合に、認識結果を出力する、といった構成を採ることができる。

［第２の実施形態］
続いて、上記本発明の第１の実施形態に係る音声認識システムに、音声補正手段を追加した本発明の第２の実施形態について図面を参照して詳細に説明する。図２は、本発明の第２の実施形態に係る音声認識システムの構成を表した図である。図２を参照すると、上記第１の実施形態の音声比較手段３と音声認識手段７との間に音声補正手段６が配置されている。

音声補正手段６は、音声比較手段３から送信された発声から、１乃至複数の典型的な認識用音声を生成する手段である。認識用音声の生成方法としては、例えば、特許文献１に記載の複数の中央値処理や平均値処理を行って認識用音声を生成する方法を挙げることができる。また、例えば、音声比較手段３にて算出された発声間の類似度を用いることも考えられ、これについては後に詳説する。

音声比較手段３は、発声が入力される都度、発声間の類似度の算出を実行するとともに、入力された発声内容と、その発声回数とを対応付けて音声記憶手段４に記憶する。そして、音声比較手段３は、前記発声回数が、前記決定した必要発声回数に達した場合に、音声記憶手段４に記憶した発声を、音声補正手段６に対して出力する。

そして、音声補正手段６が、音声認識手段７に１乃至複数の典型的な認識用音声を送信する構成を採ることにより、認識精度を向上させることが可能となる。

また、上記した実施形態では、音声補正手段６は、音声比較手段３から受信した発声のみを用いて認識用音声を生成するものとして説明したが、上記発声とともに、発声内容間の類似度が送られている場合には、発声内容間の類似度を利用して前記認識用音声を生成することも可能である。より端的には、互いに類似度の高い発声内容の組み合わせのみを選択し、音声認識手段７へ送信することとし、認識精度を向上させることが可能となる。

［第３の実施形態］
続いて、上記本発明の第２の実施形態に係る音声認識システムに、音声抽出手段を追加した本発明の第３の実施形態について図面を参照して詳細に説明する。図３は、本発明の第３の実施形態に係る音声認識システムの構成を表した図である。図３を参照すると、上記第２の実施形態の雑音推定手段２及び音声比較手段３の上流側に、音声抽出手段１が配置されている。

音声抽出手段１は、１乃至複数の発声内容を含む１乃至複数の入力信号から、１乃至複数の発声（部分）を切り出し、抽出する手段である。

以上の構成よりなる音声認識システムによれば、音声抽出手段１により、入力信号から複数の発声が抽出され、雑音推定手段２及び音声比較手段３に送信される。このため、例えば、ユーザからの一度の音声入力操作（例えば、発話ボタンを押下し、認識させたいフレーズを繰り返す。）で、複数の発声を取得することが可能となり、上記第１、第２の実施形態の効果に加え、ユーザ側の負担（音声入力操作回数）をより低減することが可能となる。

［第４の実施形態］
続いて、上記本発明の第３の実施形態に係る音声認識システムに、音声選別手段を追加した本発明の第４の実施形態について図面を参照して詳細に説明する。図４は、本発明の第４の実施形態に係る音声認識システムの構成を表した図である。図４を参照すると、上記第３の実施形態の雑音推定手段２及び音声比較手段３と、音声補正手段６との間に、音声選別手段５が配置されている。

音声選別手段５は、音声比較手段３により算出された発声間の類似度に基づいて、雑音の影響が大きいと推測される発声を削除する手段である。なお、発声を削除するか否かの類似度の閾値は、予め定められた値に固定しても良いが、雑音推定手段２から送信された雑音の状況に応じて動的に変更することもできる。

以上の構成よりなる音声認識システムによれば、音声比較手段３が、発声間の類似度の算出を実行するとともに、発声回数が、雑音の状況により決定した必要発声回数に達した場合に、音声選別手段５に対して、音声記憶手段４に記憶した発声を出力する。

そして、音声選別手段５では、雑音の影響が大きいと推測される発声を削除し、雑音の影響の少ないと推測される発声内容のみを音声補正手段６に送信する。

本実施の形態は、上記音声補正手段６を備えた第２、第３の実施形態と比較して、さらに、誤認識を抑止し、認識精度を向上させることが可能となる。その理由は、雑音の状況に応じて発声内容を選別し、音声補正手段６で出力される典型的な認識用音声をより品質の高いものとすることが可能となるためである。

続いて、本発明を実施するための最良の形態をより具体的に説明すべく、上記第４の実施形態に対応する音声認識システムの具体の動作について、図４、図５〜図７のフローチャート、図８〜図１３の補助図面を参照して詳細に説明する。

まず、一つの入力信号が音声抽出手段１に入力されると（図５のステップＳ１）、音声抽出手段１は、入力信号の未処理の箇所（最初は先頭）から順に発声部分を探索し、抽出する（ステップＳ２）。

上記発声の抽出は、例えば、以下の手順で行われる。
（ステップＳ２−１）入力信号を時間方向に分割する。
（ステップＳ２−２）各分割された区間毎に、区間内のパワーを計算する。
（ステップＳ２−３）区間毎のパワーを、予め決められた閾値と比較する。

音声抽出手段１は、上記ステップＳ２−３で閾値を超えた箇所を発声の開始位置、その後閾値を下回った箇所を発声の終了位置として、発声を切り出すことができる。

なお、本実施例に係る音声抽出手段１は、発声単位を構成する上記各分割された区間毎に、音声認識や後記する類似度の算出に使用する特徴量を抽出する処理も行うものとする。抽出する特徴量としては、例えば、各区間の音声をフーリエ変換し、フーリエ変換によって生じた音声スペクトルの対数をとった上で逆フーリエ変換したケプストラムと呼ばれる特徴量などが考えられる。このような特徴量は１区間毎に複数の値を持つため、発声全体の特徴量は、特徴量ベクトルの時系列となる。

ステップＳ２で発声の抽出に成功した場合（ステップＳ３のＹ）、抽出に成功した発声は、音声比較手段３に送られて、過去に抽出された発声との間で音声比較処理が行われる（ステップＳ４）。一方、発声内容を抽出できずに入力信号の終端に到達した場合には、ステップＳ１に遷移し、次の入力信号を待つこととなる（ステップＳ３のＮ）。

図６は、本実施例における音声比較処理の詳細を表したフローチャートである。発声が入力されると、音声比較手段３は、まず音声記憶手段４中に発声がすでに記憶されているか否かを判定し、発声が既に記憶されている場合には（図６のステップＳ４１のＹ）、ステップＳ４２に進み発声間の類似度の算出処理を開始する。一方、音声記憶手段４に発声が存在しない場合は、ステップＳ４４に遷移し、上記発声間の類似度の算出処理は行わない（図６のステップＳ４１のＮ）。

ステップＳ４２では、音声比較手段３は、今回入力された発声と、音声記憶手段４に記憶されたこれまでに入力された１乃至複数の発声との間で比較演算を行う（図６のステップＳ４２）。

比較演算を行った結果は、発声間の類似度として、音声記憶手段４に記憶される（図６のステップＳ４３）。

上記比較計算（発声間の類似度の算出）には、例えば、上記音声抽出手段１で算出した特徴量による、動的計画法（ＤＰマッチング法）を用いることができる。

図８は、音声記憶手段４に記憶された比較計算結果の一例である。表中の値は、音声記憶手段４に記憶された発声Ｘ１〜Ｘ４間の類似度を示し、数値が高いほど、２つの発声が類似していることを示している。図８の例では、発声Ｘ２と発声Ｘ４の間の類似度は０．９であり類似度が高く、発声Ｘ３と発声Ｘ４の間の類似度は０．１であり類似度が低いことを読み取ることができる。

図９は、図８の状態から新たに発声Ｘ５が入力され、音声比較手段３により計算された発声内容Ｘ１、Ｘ２、Ｘ３、Ｘ４との類似度が追記された状態を表している。

以上、発声の特徴量による類似度の算出例について説明したが、上記動的計画法（ＤＰマッチング法）で同様に得られる発声間の時間的対応の度合いを、発声間の類似度として使用することも可能である。この場合、例えば、２発声内容間の時間的対応をグラフとして記述し、グラフの長さを比較する等の手法により、２つの類似度間の大小を比較することができる。

上記発声間の類似度の算出が完了した場合、あるいは、最初の発声の入力である場合、次いで、雑音推定手段２により音源周囲の雑音の状況の推定が行われ、必要発声回数が決定される（図６のステップＳ４４）。最後に、今回抽出された音声が音声記憶手段４に記憶される（図６のステップＳ４５）。

上記雑音推定手段２における雑音の状況の推定方法としては、以下のような方法を挙げることができる。例えば、雑音推定手段２は、以下のような場合に、音源周囲の雑音が大きいと推定する。
（Ｓ４４−１）発声と認定されなかった入力信号部分のパワーの平均値が大きい場合
（Ｓ４４−２）入力信号のパワーの平均値が大きい場合
（Ｓ４４−３）発声間の類似度の平均値が小さい場合

上記（Ｓ４４−１）及び（Ｓ４４−２）は、雑音の推定方法として当業者に良く知られているので、上記（Ｓ４４−３）の発声内容間の類似度を用いて周囲の雑音を推定する方法について、先の図９及び図１０の必要発声回数等を決定するためのテーブルを参照して説明する。

ここで、図１０のテーブルについて説明する。上記発声内容間の類似度の平均値が低くなればなるほど（周囲雑音の状況が悪くなればなるほど）、必要な発声回数が大きくなり、また、発声をフィルタリングする際に使用される除去閾値が小さくなるよう設定されている。なお、図１０の例では、発声内容間の類似度の平均値により周囲雑音状況を５段階に区分しているが、２以上の複数段階であれば足り、例えば、「発声内容間の類似度の平均値」が所定の閾値を超えた場合に、必要発声回数を多くする、除去閾値を小さくするという簡略な処理に代えることも可能である。

雑音推定手段２は、まず、すべての発声内容間の類似度の平均値を計算する。図９のように発声間の類似度が求められている場合、発声Ｘ２が抽出・入力された時点での発声間の類似度の平均値は０．８、発声Ｘ３が抽出・入力された時点での発声間の類似度の平均値は０．３１７、発声Ｘ４が抽出・入力された時点での発声間の類似度の平均値は０．４０８、発声Ｘ５が抽出・入力された時点での発声間の類似度の平均値は０．４８５と推移する。上記（Ｓ４４−３）の発声間の類似度の平均値のみにより雑音状況を推定するとした場合、図１０から必要発声回数は、３、１０、１０、５と遷移する。なお、図９の類似度から求めた各類似度平均に対応する除去閾値は、０．３、０．１、０．１、０．１と遷移する。

再度図５を参照すると、ステップＳ４の音声比較処理の後、音声記憶手段４に記憶された発声の数が、上記必要発声回数に達していれば（ステップＳ５のＹ）、音声比較手段３により、これまでに抽出された発声及び発声間の類似度や特徴量が出力され、認識処理が開始される（ステップＳ６）。一方、音声記憶手段４に記憶された発声の数が、上記必要発声回数に達していなければステップＳ２に遷移し、発声の抽出が継続される（ステップＳ５のＮ）。

例えば、上記の図９の各類似度を持つ発声を含む入力信号が入力された場合、５回目の発声Ｘ５が抽出・入力された時点で、必要発声回数が、発声回数と一致して認識処理が開始される。例えば、ユーザは、周囲が騒がしい場合、これを見込んだ多めの反覆回数、例えば、「はい、はい、はい、はい、はい」と一連に発声しておくことで、「はい」という認識結果を得ることが可能となる。

反対に、類似度平均が高い発声が入力されている場合は、必要発声回数は少なくなる。例えば、類似度平均が０．９５となる発声が入力された場合には、図１０のテーブルによれば必要発声回数は２回であり、直ちに認識開始となる。例えば、ユーザは、周囲が静かな場合、これを見込んだ少なめの反覆回数、例えば、「はい、はい」と一連に発声しておくことで、「はい」という認識結果を得ることが可能となる。

図７は、本実施例における音声認識処理の詳細を表したフローチャートである。音声比較手段３より、複数の発声及び発声間の類似度や特徴量が出力されると、まず、音声選別手段５において、前記発声間の類似度に基づき、音声認識処理の対象として不適な発声内容、例えば、誤って大きな雑音を含んでしまった（もしくは、雑音そのもの）と推測される発声を削除する処理が行われる（図７のステップＳ６１）。

上記音声選別手段５における発声内容の選別方法としては、予め用意した音声モデル（例えばＨＭＭ；ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）と、各発声との間の尤度を計算し、尤度の低い発声、即ち、予め用意した音声モデルとは明らかに異なる発声内容を除去する方法等を挙げることができる。ここでは、発声間の類似度を用いる例について説明する。

まず、音声選別手段５は、発声内容毎に他の発声との類似度の平均を計算する。図１１は、上記図９のような類似度を持つ発声Ｘ１〜Ｘ５の類似度平均を示している。図１１を参照すると、例えば、発声Ｘ５の他の発声との類似度の平均は、（０．６＋０．８＋０．０＋０．８）／４より０．５５と算出される。発声内容Ｘ１〜Ｘ４についても同様であり、それぞれ、０．５３７５、０．６５、０．０６２５、０．６２５と算出される。

ここで、先に雑音推定手段２で推定した雑音状況から求めた除去閾値により、除去する発声が決定される。例えば、図９のすべての発声内容間の類似度の平均値は０．４８５であり、図１０より、除去閾値として０．１を取得することができる。

上記除去閾値０．１を、発声Ｘ１〜Ｘ５の他の発声との類似度の平均と比較すると、発声Ｘ３の平均類似度は、０．０６２５であり、除去閾値０．１を下回っているので除去対象となる。

従って、上記図９のデータを用いた場合、発声Ｘ１、Ｘ２、Ｘ４、Ｘ５及びこれら発声間の類似度が音声補正手段６に送られる。

なお、周囲の雑音が酷く、音声選別手段５の処理の結果、発声がすべて除去される場合もありうる。その際は、「認識結果なし」をユーザに通告して処理を最初から行うことになる。もちろん、すべての発声の平均類似度が前記除去閾値を下回る場合であっても、最も平均類似度の高い発声は除去せずに、音声認識の対象とするようにしてもよい。

発声内容間の類似度を用いた発声内容の選別方法によれば、背景雑音はもちろんとして、発声者自身による雑音、即ち「言い間違い」、「言いよどみ」等も同様に除去することが可能である。

続いて、音声補正手段６において、典型的な認識用音声の作成処理が行われる（図７のステップＳ６２）。

ここでは、前記発声間の類似度を用いて、典型的な認識用音声を作成する方法について説明する。

まず、音声補正手段６は、発声毎に類似度の最低値を求める。図１２は、図９から発声Ｘ３の類似度を除いたものであり、以下、このような類似度を持つ発声Ｘ１、Ｘ２、Ｘ４、Ｘ５とその類似度が入力されたものとして説明する。

図１２を参照すると、各発声Ｘ１、Ｘ２、Ｘ４、Ｘ５の類似度最低値は、０．６，０．８，０．７，０．６となる。この類似度最低値が高い発声は、どの発声とも比較的良く似ているということになる。

音声補正手段６は、典型的な認識用音声として、類似度最低値が高い発声内容Ｘ２、Ｘ４のみを音声認識手段７に送信する。

無論、典型的な認識用音声の個数は必ずしも２つである必要はなく、たとえば、類似度最低値が最も高い発声Ｘ２だけを典型的な認識用音声としてもよい。また、上記発声間の類似度と予め定める閾値との比較を加えることとしてもよい。

なお、典型的な認識用音声の求め方は、例えば、特許文献１にあるように、先に音声比較手段３で求めた入力信号間の時間的対応を用いて各入力信号の特徴ベクトルを対応付け、対応付けられた特徴ベクトルの中間値処理、平均値処理等により生成する方法も採用することができる。

最後に、音声認識手段７において、上記典型的な認識用音声を入力として、一般的な音声認識処理を行い、認識結果を出力する（図７のステップＳ６３）。

音声認識方法は、例えばＨＭＭを用い、発声毎に認識結果とその類似度（尤度）を求める方法を採ることができる。無論、ＤＰマッチング等、別の手法でも好適であるし、明示的に類似度を求めない方法も採用可能である。

図１３は、発声内容Ｘ２、Ｘ４に対する認識結果とその尤度の例を示す。図１３の例では、発声内容Ｘ２に対して尤度の最も高い認識結果は「いいえ」であり、その際の尤度は「０．２」であることが示されている。図１３の４つの尤度を比較すると、発声Ｘ４の認識結果「はい」が尤度が最も高く（尤度＝０．３）、認識結果として採択される。

また、図１３の例では、尤度をそのまま比較しているが、発声Ｘ２の各認識結果の尤度と発声Ｘ４の各認識結果の尤度を合わせて比較し、最尤の認識結果を採択することも可能である。図１３の例では、認識結果「いいえ」に対する尤度は、０．２＋０．２＝０．４となり、先の認識結果「はい」に対する尤度０．３を上回るため、認識結果「いいえ」が採択される。無論、図１３では、尤度第２位まで使用しているが、第１位まで、或いは、第３位以降を含めて比較することとしても好適である。

また、出力する認識結果は必ずしも一つである必要はなく、本システムの用途等に応じて、図１３の例でいえば、認識結果「はい」、「いいえ」を共に出力するようにすることもできる。

以上の実施例からも明らかなとおり、雑音環境に応じて必要な発声回数を決定し、音声比較手段において発声の総数が前記発声回数に達した際に前記音声補正手段の処理を行う構成とすることにより、高騒音環境下での高い認識性能と低騒音環境下での使い勝手との両立が達成される。

また、入力信号から複数の発声を抽出する音声抽出手段を備える構成とすることにより、一度の音声入力操作で複数の音声を入力できるという、ユーザの操作回数（発声回数）の低減も実現されている。

また、雑音の影響が大きいと推測される発声内容を除去する音声選別手段や最も望ましい発声内容を作成する音声補正手段を備える構成とすることにより、雑音による誤動作の軽減も達成されている。

以上、本発明を実施するための好適な形態及びその具体の動作を説明したが、周囲の雑音の状況を推定する手段を備え、雑音レベルに応じて、音声認識に必要な繰り返し発声回数を決定するという本発明の要旨を逸脱しない範囲で、各種の変形を加えることが可能であることはいうまでもない。例えば、上記した各実施形態では、発声内容間の類似度を用いて、雑音の推定と、必要発声回数の決定を同時に行うものとして説明したが、例えば、一般的な雑音推定方法を用いて推定した周囲の雑音状況に、図１４に示すようなテーブルを適用し、必要発声回数を決定することも、当然可能である。

このテーブルによれば、発声間の比較は不要であるため、周囲が静かな場合、ユーザは、「はい」と一回発声しておくことで、「はい」という認識結果を得ることが可能となる。反対に、周囲が騒がしい場合であっても、ユーザは、「はい、はい、はい、はい、はい」と５回発声しておくことで、その分、音声認識手段へ良好なデータを送ることが可能となるため、「はい」という認識結果を確実に得ることが可能となる。

本発明は、音声認識を必要とする各種機器に適用可能であるが、周囲の雑音の変化に対応可能であるという利点に鑑みれば、カーナビゲーションシステムや車載テレビ等の車載システムの操作系や、携帯電話等のモバイル機器を音声により操作するといった用途に望ましく適用できる。

本発明の第１の実施形態に係る音声認識システムの構成を表した図である。本発明の第２の実施形態に係る音声認識システムの構成を表した図である。本発明の第３の実施形態に係る音声認識システムの構成を表した図である。本発明の第４の実施形態に係る音声認識システムの構成を表した図である。本発明の一実施例の音声認識システムにおける音声認識処理の流れを表したフローチャートである。本発明の一実施例の音声認識システムにおける音声比較処理の詳細を表したフローチャートである。本発明の一実施例の音声認識システムにおける音声認識処理の詳細を表したフローチャートである。本発明の一実施例の音声認識システムにおける音声比較処理の一例を説明するための図である。本発明の一実施例の音声認識システムにおける音声比較処理の一例を説明するための図である。本発明の一実施例の音声認識システムにおける雑音状況に応じた必要発声回数、除去閾値を求めるためのテーブルを表した図である。本発明の一実施例の音声認識システムにおける音声選別処理の一例を説明するための図である。本発明の一実施例の音声認識システムにおける音声補正処理の一例を説明するための図である。本発明の一実施例の音声認識システムにおける音声認識処理の一例を説明するための図である。雑音状況に応じた必要発声回数、除去閾値を求めるための別のテーブルを表した図である。従来の音声認識システムを説明するためのブロック図である。

符号の説明

１音声抽出手段
２雑音推定手段
３音声比較手段
４音声記憶手段
５音声選別手段
６音声補正手段
７音声認識手段

Claims

入力中に含まれる雑音を推定する雑音推定手段と、
前記雑音の状況に応じて音声認識に必要な繰り返し発声回数を決定し、前記必要回数発せられた発声を同一内容と仮定して音声認識を行う音声認識手段と、を備えたこと、
を特徴とする音声認識システム。
更に、入力信号から発声部分を抽出する音声抽出手段を備えたこと、
を特徴とする請求項１に記載の音声認識システム。
更に、発声間の類似度を算出する音声比較手段を備え、
前記発声間の類似度平均が小さくなるに従って、前記音声認識に必要な繰り返し発声回数を増大すること、
を特徴とする請求項１又は２に記載の音声認識システム。
更に、発声間の類似度を算出する音声比較手段と、
前記発声間の類似度により、互いに類似すると判定された発声のみを認識用音声とする音声補正手段と、を備えること、
を特徴とする請求項１乃至３いずれか一に記載の音声認識システム。
更に、予め定める特徴を有する発声を除外する音声選別手段を備えたこと、
を特徴とする請求項１乃至４いずれか一に記載の音声認識システム。
更に、前記発声間の類似度に基づき、他の発声のいずれとも類似しない発声を除外する音声選別手段を備えたこと、
を特徴とする請求項３乃至５いずれか一に記載の音声認識システム。
前記音声選別手段は、前記雑音レベルが大きくなるに従って大きな閾値を設定し、前記他の発声との類似度が前記閾値に満たない発声を除外すること、
を特徴とする請求項６に記載の音声認識システム。
前記音声比較手段は、ＤＰマッチングにより前記発声間の類似度を算出すること、
を特徴とする請求項３乃至７いずれか一に記載の音声認識システム。
前記雑音推定手段が、前記発声間の類似度平均を利用して雑音の状況を推定すること、
を特徴とする請求項３乃至８いずれか一に記載の音声認識システム。
入力音声を音声認識する音声認識システムにおける音声認識方法であって、
前記音声認識システムが、入力中に含まれる雑音を推定するステップと、
前記音声認識システムが、前記雑音の状況に基づいて、音声認識に必要な繰り返し発声回数を決定するステップと、
前記音声認識システムが、前記決定した繰り返し発声回数分の発声が入力された段階で、前記各発声を同一内容と仮定して音声認識を実行するステップと、を含むこと、
を特徴とする音声認識方法。
入力音声を音声認識する音声認識システムに実行させる音声認識用プログラムであって、
入力中に含まれる雑音を推定する処理と、
前記雑音の状況に基づいて、同一内容の認識に必要な繰り返し発声回数を決定する処理と、
発声の入力を受け付ける処理と、を実行し、
前記決定した繰り返し発声回数分の発声が入力された段階で、前記各発声を同一内容と仮定して音声認識を実行すること、
を特徴とする音声認識用プログラム。