JP2008020587A - 音声認識システム、音声認識方法及び音声認識用プログラム - Google Patents
音声認識システム、音声認識方法及び音声認識用プログラム Download PDFInfo
- Publication number
- JP2008020587A JP2008020587A JP2006191197A JP2006191197A JP2008020587A JP 2008020587 A JP2008020587 A JP 2008020587A JP 2006191197 A JP2006191197 A JP 2006191197A JP 2006191197 A JP2006191197 A JP 2006191197A JP 2008020587 A JP2008020587 A JP 2008020587A
- Authority
- JP
- Japan
- Prior art keywords
- utterances
- voice
- speech recognition
- noise
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】雑音の変動に対応できる音声認識システムの提供。
【解決手段】雑音推定手段2が雑音状況を推定すると、音声比較手段3は、前記推定した雑音状況に応じて、音声認識動作に必要な発声回数を決定する。音声比較手段3は、発声回数が、前記決定した必要発声回数に達した場合に、音声記憶手段4に記憶した発声を音声認識手段7に出力する。音声認識手段7は、前記各発声を同一内容と仮定して音声認識を行う。以上により、周囲の雑音状況に応じた制御が実現され、高騒音環境下での高い認識性能を確保するとともに、低騒音環境下での使い勝手の向上を実現できる。
【選択図】図1
【解決手段】雑音推定手段2が雑音状況を推定すると、音声比較手段3は、前記推定した雑音状況に応じて、音声認識動作に必要な発声回数を決定する。音声比較手段3は、発声回数が、前記決定した必要発声回数に達した場合に、音声記憶手段4に記憶した発声を音声認識手段7に出力する。音声認識手段7は、前記各発声を同一内容と仮定して音声認識を行う。以上により、周囲の雑音状況に応じた制御が実現され、高騒音環境下での高い認識性能を確保するとともに、低騒音環境下での使い勝手の向上を実現できる。
【選択図】図1
Description
本発明は、音声認識システム、音声認識方法及び音声認識用プログラムに関し、特に、繰り返し発声された内容を認識することにより認識精度を確保する音声認識システム、音声認識方法及び音声認識用プログラムに関する。
繰り返された同一内容の発声から認識用の音声パタンを生成し、音声認識を行う音声認識システムの一例が、特許文献1に記載されている。図15に示すように、この従来の音声認識システムは、時間軸整合手段と、切出用音声パタン生成手段と、認識用音声パタン生成手段と、認識手段とから構成されている。
このような構成を有する従来の音声認識システムは次のように動作する。同一発声内容の音声を含む入力音声パタンが複数入力されると、時間軸整合手段によってこれら複数の入力音声パタンの間に存在する時間軸のずれを整合する。時間軸の整合された複数の入力音声パタンは、切出用音声パタン生成手段と認識用音声パタン生成手段に送られる。切出用音声パタン生成手段は、時間軸の整合された複数の入力音声パタンから、各音声のパワー時系列を取り出す。このパワー時系列の最小値を選択した最小パワー時系列を生成し、認識手段に送る。認識用音声パタン生成手段は、時間軸の整合された複数の入力音声パタンから、各音声のスペクトル時系列を取り出す。このスペクトル時系列の中央値(もしくは平均値)を取得した中央値音声スペクトル時系列を生成し、認識手段に送る。認識手段は、最小パワー時系列を用いて音声部分の切り出し位置を決め、切り出し位置に従って中央値音声スペクトル時系列から音声部分を切り出し、切り出された中央値音声スペクトル時系列を用いて音声認識処理を行う。
しかしながら、上記した従来の音声認識システムには、非常に静かな環境下であり、一度の発声でも十分な認識精度を出すことが可能な状況下であっても複数回の発声が必要となるという問題点がある。
特に、この種の音声認識機能を携帯電話等の持ち歩き可能な端末や車載端末に実装することを考えると、場所によって、例えば、室内と屋外、市街地と郊外では周囲の雑音環境は大きく変化するところ、上記複数回の発声をしなければならないという点は、使い勝手の悪さとなって現れる。
本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、周囲の雑音の変動に対応可能とし、高騒音環境下での高い認識性能と低騒音環境下での使い勝手を両立した音声認識システムを提供することにある。
本発明の第1の視点によれば、入力中に含まれる雑音を推定する雑音推定手段と、前記雑音の状況に応じて音声認識に必要な繰り返し発声回数を決定し、前記必要回数発せられた発声を同一内容と仮定して音声認識を行う音声認識手段と、を備えたこと、を特徴とする音声認識システムが提供される。
本発明の第2の視点によれば、入力音声を音声認識する音声認識システムにおける音声認識方法であって、前記音声認識システムが、入力中に含まれる雑音を推定するステップと、前記音声認識システムが、前記雑音の状況に基づいて、音声認識に必要な繰り返し発声回数を決定するステップと、前記音声認識システムが、前記決定した繰り返し発声回数分の発声が入力された段階で、前記各発声を同一内容と仮定して音声認識を実行するステップと、を含むこと、を特徴とする音声認識方法が提供される。
本発明の第3の視点によれば、上記音声認識システムを構成するコンピュータに実行させるプログラムが提供される。
本発明によれば、上述のとおり、雑音の状況に応じて必要な発声回数が変更されるため、高騒音環境下での高い認識性能と低騒音環境下での使い勝手の良さが両立される。
[第1の実施形態]
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施形態に係る音声認識システムの構成を表した図である。図1を参照すると、本実施形態に係る音声認識システムは、雑音推定手段2と、音声比較手段3と、音声記憶手段4と、音声データを音声認識する音声認識手段7と、を備えて構成される。
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施形態に係る音声認識システムの構成を表した図である。図1を参照すると、本実施形態に係る音声認識システムは、雑音推定手段2と、音声比較手段3と、音声記憶手段4と、音声データを音声認識する音声認識手段7と、を備えて構成される。
雑音推定手段2は、下記音声比較手段3による発声間の類似度の算出結果を利用し、雑音の状況を推測する手段である。この方式は、同一内容の発声の類似度が低い場合雑音が大きいと推定できるという知見と、後記するように背景雑音のみならず、発話者の言い直しも雑音として捉えることができるという知見に基づくものである。もちろん、入力信号に含まれる雑音成分を検出する方法を用い、あるいは、上記発声間の類似度による推定結果と組み合わせることも可能である。
音声比較手段3は、入力された発声間の類似度を算出する手段である。発声間の類似度の算出方法としては、発声間の時間的対応の度合いや発声同士の類似度を求める方法等が考えられる。また、音声比較手段3は、入力された発声内容と、その発声回数とを対応付けて音声記憶手段4に記憶する。
上記構成よりなる音声認識システムは、次のように動作する。まず、雑音推定手段2が雑音の状況を推定すると、音声比較手段3は、雑音の状況を表すパラメータと所定の閾値と比較して、音声認識動作に必要な発声回数を決定する。
また、音声比較手段3は、発声が入力される都度、発声間の類似度の算出を実行するとともに、入力された発声内容と、その発声回数とを対応付けて音声記憶手段4に記憶する。そして、音声比較手段3は、前記発声回数が、前記決定した必要発声回数に達した場合に、音声記憶手段4に記憶した発声を音声認識手段7に出力する。
音声認識手段7は、前記出力された1〜複数回の発声につき、例えば、特許文献1に記載の方法やその他統計的手法を用い、発声回数が増えれば増えるほど認識精度の向上が見込める方式で音声認識を行う。
以上により、雑音が小さい際には少ない発声回数で音声認識処理を完了し、逆に雑音が大きい際には多数の発声を要求するといった周囲の雑音の状況に応じた制御が実現され、高騒音環境下での高い認識性能と、使い勝手の向上が両立される。
なお、上記した実施形態では、音声比較手段3において、発声間の類似度を算出するものとして説明したが、音声比較手段3を省略することも可能である。この場合、例えば、雑音推定手段2により推定された雑音の状況に基づき、必要発声回数を決定し、音声認識手段7で、前記必要発声回数の発声内容を認識できた場合に、認識結果を出力する、といった構成を採ることができる。
[第2の実施形態]
続いて、上記本発明の第1の実施形態に係る音声認識システムに、音声補正手段を追加した本発明の第2の実施形態について図面を参照して詳細に説明する。図2は、本発明の第2の実施形態に係る音声認識システムの構成を表した図である。図2を参照すると、上記第1の実施形態の音声比較手段3と音声認識手段7との間に音声補正手段6が配置されている。
続いて、上記本発明の第1の実施形態に係る音声認識システムに、音声補正手段を追加した本発明の第2の実施形態について図面を参照して詳細に説明する。図2は、本発明の第2の実施形態に係る音声認識システムの構成を表した図である。図2を参照すると、上記第1の実施形態の音声比較手段3と音声認識手段7との間に音声補正手段6が配置されている。
音声補正手段6は、音声比較手段3から送信された発声から、1乃至複数の典型的な認識用音声を生成する手段である。認識用音声の生成方法としては、例えば、特許文献1に記載の複数の中央値処理や平均値処理を行って認識用音声を生成する方法を挙げることができる。また、例えば、音声比較手段3にて算出された発声間の類似度を用いることも考えられ、これについては後に詳説する。
音声比較手段3は、発声が入力される都度、発声間の類似度の算出を実行するとともに、入力された発声内容と、その発声回数とを対応付けて音声記憶手段4に記憶する。そして、音声比較手段3は、前記発声回数が、前記決定した必要発声回数に達した場合に、音声記憶手段4に記憶した発声を、音声補正手段6に対して出力する。
そして、音声補正手段6が、音声認識手段7に1乃至複数の典型的な認識用音声を送信する構成を採ることにより、認識精度を向上させることが可能となる。
また、上記した実施形態では、音声補正手段6は、音声比較手段3から受信した発声のみを用いて認識用音声を生成するものとして説明したが、上記発声とともに、発声内容間の類似度が送られている場合には、発声内容間の類似度を利用して前記認識用音声を生成することも可能である。より端的には、互いに類似度の高い発声内容の組み合わせのみを選択し、音声認識手段7へ送信することとし、認識精度を向上させることが可能となる。
[第3の実施形態]
続いて、上記本発明の第2の実施形態に係る音声認識システムに、音声抽出手段を追加した本発明の第3の実施形態について図面を参照して詳細に説明する。図3は、本発明の第3の実施形態に係る音声認識システムの構成を表した図である。図3を参照すると、上記第2の実施形態の雑音推定手段2及び音声比較手段3の上流側に、音声抽出手段1が配置されている。
続いて、上記本発明の第2の実施形態に係る音声認識システムに、音声抽出手段を追加した本発明の第3の実施形態について図面を参照して詳細に説明する。図3は、本発明の第3の実施形態に係る音声認識システムの構成を表した図である。図3を参照すると、上記第2の実施形態の雑音推定手段2及び音声比較手段3の上流側に、音声抽出手段1が配置されている。
音声抽出手段1は、1乃至複数の発声内容を含む1乃至複数の入力信号から、1乃至複数の発声(部分)を切り出し、抽出する手段である。
以上の構成よりなる音声認識システムによれば、音声抽出手段1により、入力信号から複数の発声が抽出され、雑音推定手段2及び音声比較手段3に送信される。このため、例えば、ユーザからの一度の音声入力操作(例えば、発話ボタンを押下し、認識させたいフレーズを繰り返す。)で、複数の発声を取得することが可能となり、上記第1、第2の実施形態の効果に加え、ユーザ側の負担(音声入力操作回数)をより低減することが可能となる。
[第4の実施形態]
続いて、上記本発明の第3の実施形態に係る音声認識システムに、音声選別手段を追加した本発明の第4の実施形態について図面を参照して詳細に説明する。図4は、本発明の第4の実施形態に係る音声認識システムの構成を表した図である。図4を参照すると、上記第3の実施形態の雑音推定手段2及び音声比較手段3と、音声補正手段6との間に、音声選別手段5が配置されている。
続いて、上記本発明の第3の実施形態に係る音声認識システムに、音声選別手段を追加した本発明の第4の実施形態について図面を参照して詳細に説明する。図4は、本発明の第4の実施形態に係る音声認識システムの構成を表した図である。図4を参照すると、上記第3の実施形態の雑音推定手段2及び音声比較手段3と、音声補正手段6との間に、音声選別手段5が配置されている。
音声選別手段5は、音声比較手段3により算出された発声間の類似度に基づいて、雑音の影響が大きいと推測される発声を削除する手段である。なお、発声を削除するか否かの類似度の閾値は、予め定められた値に固定しても良いが、雑音推定手段2から送信された雑音の状況に応じて動的に変更することもできる。
以上の構成よりなる音声認識システムによれば、音声比較手段3が、発声間の類似度の算出を実行するとともに、発声回数が、雑音の状況により決定した必要発声回数に達した場合に、音声選別手段5に対して、音声記憶手段4に記憶した発声を出力する。
そして、音声選別手段5では、雑音の影響が大きいと推測される発声を削除し、雑音の影響の少ないと推測される発声内容のみを音声補正手段6に送信する。
本実施の形態は、上記音声補正手段6を備えた第2、第3の実施形態と比較して、さらに、誤認識を抑止し、認識精度を向上させることが可能となる。その理由は、雑音の状況に応じて発声内容を選別し、音声補正手段6で出力される典型的な認識用音声をより品質の高いものとすることが可能となるためである。
続いて、本発明を実施するための最良の形態をより具体的に説明すべく、上記第4の実施形態に対応する音声認識システムの具体の動作について、図4、図5〜図7のフローチャート、図8〜図13の補助図面を参照して詳細に説明する。
まず、一つの入力信号が音声抽出手段1に入力されると(図5のステップS1)、音声抽出手段1は、入力信号の未処理の箇所(最初は先頭)から順に発声部分を探索し、抽出する(ステップS2)。
上記発声の抽出は、例えば、以下の手順で行われる。
(ステップS2−1)入力信号を時間方向に分割する。
(ステップS2−2)各分割された区間毎に、区間内のパワーを計算する。
(ステップS2−3)区間毎のパワーを、予め決められた閾値と比較する。
(ステップS2−1)入力信号を時間方向に分割する。
(ステップS2−2)各分割された区間毎に、区間内のパワーを計算する。
(ステップS2−3)区間毎のパワーを、予め決められた閾値と比較する。
音声抽出手段1は、上記ステップS2−3で閾値を超えた箇所を発声の開始位置、その後閾値を下回った箇所を発声の終了位置として、発声を切り出すことができる。
なお、本実施例に係る音声抽出手段1は、発声単位を構成する上記各分割された区間毎に、音声認識や後記する類似度の算出に使用する特徴量を抽出する処理も行うものとする。抽出する特徴量としては、例えば、各区間の音声をフーリエ変換し、フーリエ変換によって生じた音声スペクトルの対数をとった上で逆フーリエ変換したケプストラムと呼ばれる特徴量などが考えられる。このような特徴量は1区間毎に複数の値を持つため、発声全体の特徴量は、特徴量ベクトルの時系列となる。
ステップS2で発声の抽出に成功した場合(ステップS3のY)、抽出に成功した発声は、音声比較手段3に送られて、過去に抽出された発声との間で音声比較処理が行われる(ステップS4)。一方、発声内容を抽出できずに入力信号の終端に到達した場合には、ステップS1に遷移し、次の入力信号を待つこととなる(ステップS3のN)。
図6は、本実施例における音声比較処理の詳細を表したフローチャートである。発声が入力されると、音声比較手段3は、まず音声記憶手段4中に発声がすでに記憶されているか否かを判定し、発声が既に記憶されている場合には(図6のステップS41のY)、ステップS42に進み発声間の類似度の算出処理を開始する。一方、音声記憶手段4に発声が存在しない場合は、ステップS44に遷移し、上記発声間の類似度の算出処理は行わない(図6のステップS41のN)。
ステップS42では、音声比較手段3は、今回入力された発声と、音声記憶手段4に記憶されたこれまでに入力された1乃至複数の発声との間で比較演算を行う(図6のステップS42)。
比較演算を行った結果は、発声間の類似度として、音声記憶手段4に記憶される(図6のステップS43)。
上記比較計算(発声間の類似度の算出)には、例えば、上記音声抽出手段1で算出した特徴量による、動的計画法(DPマッチング法)を用いることができる。
図8は、音声記憶手段4に記憶された比較計算結果の一例である。表中の値は、音声記憶手段4に記憶された発声X1〜X4間の類似度を示し、数値が高いほど、2つの発声が類似していることを示している。図8の例では、発声X2と発声X4の間の類似度は0.9であり類似度が高く、発声X3と発声X4の間の類似度は0.1であり類似度が低いことを読み取ることができる。
図9は、図8の状態から新たに発声X5が入力され、音声比較手段3により計算された発声内容X1、X2、X3、X4との類似度が追記された状態を表している。
以上、発声の特徴量による類似度の算出例について説明したが、上記動的計画法(DPマッチング法)で同様に得られる発声間の時間的対応の度合いを、発声間の類似度として使用することも可能である。この場合、例えば、2発声内容間の時間的対応をグラフとして記述し、グラフの長さを比較する等の手法により、2つの類似度間の大小を比較することができる。
上記発声間の類似度の算出が完了した場合、あるいは、最初の発声の入力である場合、次いで、雑音推定手段2により音源周囲の雑音の状況の推定が行われ、必要発声回数が決定される(図6のステップS44)。最後に、今回抽出された音声が音声記憶手段4に記憶される(図6のステップS45)。
上記雑音推定手段2における雑音の状況の推定方法としては、以下のような方法を挙げることができる。例えば、雑音推定手段2は、以下のような場合に、音源周囲の雑音が大きいと推定する。
(S44−1)発声と認定されなかった入力信号部分のパワーの平均値が大きい場合
(S44−2)入力信号のパワーの平均値が大きい場合
(S44−3)発声間の類似度の平均値が小さい場合
(S44−1)発声と認定されなかった入力信号部分のパワーの平均値が大きい場合
(S44−2)入力信号のパワーの平均値が大きい場合
(S44−3)発声間の類似度の平均値が小さい場合
上記(S44−1)及び(S44−2)は、雑音の推定方法として当業者に良く知られているので、上記(S44−3)の発声内容間の類似度を用いて周囲の雑音を推定する方法について、先の図9及び図10の必要発声回数等を決定するためのテーブルを参照して説明する。
ここで、図10のテーブルについて説明する。上記発声内容間の類似度の平均値が低くなればなるほど(周囲雑音の状況が悪くなればなるほど)、必要な発声回数が大きくなり、また、発声をフィルタリングする際に使用される除去閾値が小さくなるよう設定されている。なお、図10の例では、発声内容間の類似度の平均値により周囲雑音状況を5段階に区分しているが、2以上の複数段階であれば足り、例えば、「発声内容間の類似度の平均値」が所定の閾値を超えた場合に、必要発声回数を多くする、除去閾値を小さくするという簡略な処理に代えることも可能である。
雑音推定手段2は、まず、すべての発声内容間の類似度の平均値を計算する。図9のように発声間の類似度が求められている場合、発声X2が抽出・入力された時点での発声間の類似度の平均値は0.8、発声X3が抽出・入力された時点での発声間の類似度の平均値は0.317、発声X4が抽出・入力された時点での発声間の類似度の平均値は0.408、発声X5が抽出・入力された時点での発声間の類似度の平均値は0.485と推移する。上記(S44−3)の発声間の類似度の平均値のみにより雑音状況を推定するとした場合、図10から必要発声回数は、3、10、10、5と遷移する。なお、図9の類似度から求めた各類似度平均に対応する除去閾値は、0.3、0.1、0.1、0.1と遷移する。
再度図5を参照すると、ステップS4の音声比較処理の後、音声記憶手段4に記憶された発声の数が、上記必要発声回数に達していれば(ステップS5のY)、音声比較手段3により、これまでに抽出された発声及び発声間の類似度や特徴量が出力され、認識処理が開始される(ステップS6)。一方、音声記憶手段4に記憶された発声の数が、上記必要発声回数に達していなければステップS2に遷移し、発声の抽出が継続される(ステップS5のN)。
例えば、上記の図9の各類似度を持つ発声を含む入力信号が入力された場合、5回目の発声X5が抽出・入力された時点で、必要発声回数が、発声回数と一致して認識処理が開始される。例えば、ユーザは、周囲が騒がしい場合、これを見込んだ多めの反覆回数、例えば、「はい、はい、はい、はい、はい」と一連に発声しておくことで、「はい」という認識結果を得ることが可能となる。
反対に、類似度平均が高い発声が入力されている場合は、必要発声回数は少なくなる。例えば、類似度平均が0.95となる発声が入力された場合には、図10のテーブルによれば必要発声回数は2回であり、直ちに認識開始となる。例えば、ユーザは、周囲が静かな場合、これを見込んだ少なめの反覆回数、例えば、「はい、はい」と一連に発声しておくことで、「はい」という認識結果を得ることが可能となる。
図7は、本実施例における音声認識処理の詳細を表したフローチャートである。音声比較手段3より、複数の発声及び発声間の類似度や特徴量が出力されると、まず、音声選別手段5において、前記発声間の類似度に基づき、音声認識処理の対象として不適な発声内容、例えば、誤って大きな雑音を含んでしまった(もしくは、雑音そのもの)と推測される発声を削除する処理が行われる(図7のステップS61)。
上記音声選別手段5における発声内容の選別方法としては、予め用意した音声モデル(例えばHMM;Hidden Markov Model)と、各発声との間の尤度を計算し、尤度の低い発声、即ち、予め用意した音声モデルとは明らかに異なる発声内容を除去する方法等を挙げることができる。ここでは、発声間の類似度を用いる例について説明する。
まず、音声選別手段5は、発声内容毎に他の発声との類似度の平均を計算する。図11は、上記図9のような類似度を持つ発声X1〜X5の類似度平均を示している。図11を参照すると、例えば、発声X5の他の発声との類似度の平均は、(0.6+0.8+0.0+0.8)/4より0.55と算出される。発声内容X1〜X4についても同様であり、それぞれ、0.5375、0.65、0.0625、0.625と算出される。
ここで、先に雑音推定手段2で推定した雑音状況から求めた除去閾値により、除去する発声が決定される。例えば、図9のすべての発声内容間の類似度の平均値は0.485であり、図10より、除去閾値として0.1を取得することができる。
上記除去閾値0.1を、発声X1〜X5の他の発声との類似度の平均と比較すると、発声X3の平均類似度は、0.0625であり、除去閾値0.1を下回っているので除去対象となる。
従って、上記図9のデータを用いた場合、発声X1、X2、X4、X5及びこれら発声間の類似度が音声補正手段6に送られる。
なお、周囲の雑音が酷く、音声選別手段5の処理の結果、発声がすべて除去される場合もありうる。その際は、「認識結果なし」をユーザに通告して処理を最初から行うことになる。もちろん、すべての発声の平均類似度が前記除去閾値を下回る場合であっても、最も平均類似度の高い発声は除去せずに、音声認識の対象とするようにしてもよい。
発声内容間の類似度を用いた発声内容の選別方法によれば、背景雑音はもちろんとして、発声者自身による雑音、即ち「言い間違い」、「言いよどみ」等も同様に除去することが可能である。
続いて、音声補正手段6において、典型的な認識用音声の作成処理が行われる(図7のステップS62)。
ここでは、前記発声間の類似度を用いて、典型的な認識用音声を作成する方法について説明する。
まず、音声補正手段6は、発声毎に類似度の最低値を求める。図12は、図9から発声X3の類似度を除いたものであり、以下、このような類似度を持つ発声X1、X2、X4、X5とその類似度が入力されたものとして説明する。
図12を参照すると、各発声X1、X2、X4、X5の類似度最低値は、0.6,0.8,0.7,0.6となる。この類似度最低値が高い発声は、どの発声とも比較的良く似ているということになる。
音声補正手段6は、典型的な認識用音声として、類似度最低値が高い発声内容X2、X4のみを音声認識手段7に送信する。
無論、典型的な認識用音声の個数は必ずしも2つである必要はなく、たとえば、類似度最低値が最も高い発声X2だけを典型的な認識用音声としてもよい。また、上記発声間の類似度と予め定める閾値との比較を加えることとしてもよい。
なお、典型的な認識用音声の求め方は、例えば、特許文献1にあるように、先に音声比較手段3で求めた入力信号間の時間的対応を用いて各入力信号の特徴ベクトルを対応付け、対応付けられた特徴ベクトルの中間値処理、平均値処理等により生成する方法も採用することができる。
最後に、音声認識手段7において、上記典型的な認識用音声を入力として、一般的な音声認識処理を行い、認識結果を出力する(図7のステップS63)。
音声認識方法は、例えばHMMを用い、発声毎に認識結果とその類似度(尤度)を求める方法を採ることができる。無論、DPマッチング等、別の手法でも好適であるし、明示的に類似度を求めない方法も採用可能である。
図13は、発声内容X2、X4に対する認識結果とその尤度の例を示す。図13の例では、発声内容X2に対して尤度の最も高い認識結果は「いいえ」であり、その際の尤度は「0.2」であることが示されている。図13の4つの尤度を比較すると、発声X4の認識結果「はい」が尤度が最も高く(尤度=0.3)、認識結果として採択される。
また、図13の例では、尤度をそのまま比較しているが、発声X2の各認識結果の尤度と発声X4の各認識結果の尤度を合わせて比較し、最尤の認識結果を採択することも可能である。図13の例では、認識結果「いいえ」に対する尤度は、0.2+0.2=0.4となり、先の認識結果「はい」に対する尤度0.3を上回るため、認識結果「いいえ」が採択される。無論、図13では、尤度第2位まで使用しているが、第1位まで、或いは、第3位以降を含めて比較することとしても好適である。
また、出力する認識結果は必ずしも一つである必要はなく、本システムの用途等に応じて、図13の例でいえば、認識結果「はい」、「いいえ」を共に出力するようにすることもできる。
以上の実施例からも明らかなとおり、雑音環境に応じて必要な発声回数を決定し、音声比較手段において発声の総数が前記発声回数に達した際に前記音声補正手段の処理を行う構成とすることにより、高騒音環境下での高い認識性能と低騒音環境下での使い勝手との両立が達成される。
また、入力信号から複数の発声を抽出する音声抽出手段を備える構成とすることにより、一度の音声入力操作で複数の音声を入力できるという、ユーザの操作回数(発声回数)の低減も実現されている。
また、雑音の影響が大きいと推測される発声内容を除去する音声選別手段や最も望ましい発声内容を作成する音声補正手段を備える構成とすることにより、雑音による誤動作の軽減も達成されている。
以上、本発明を実施するための好適な形態及びその具体の動作を説明したが、周囲の雑音の状況を推定する手段を備え、雑音レベルに応じて、音声認識に必要な繰り返し発声回数を決定するという本発明の要旨を逸脱しない範囲で、各種の変形を加えることが可能であることはいうまでもない。例えば、上記した各実施形態では、発声内容間の類似度を用いて、雑音の推定と、必要発声回数の決定を同時に行うものとして説明したが、例えば、一般的な雑音推定方法を用いて推定した周囲の雑音状況に、図14に示すようなテーブルを適用し、必要発声回数を決定することも、当然可能である。
このテーブルによれば、発声間の比較は不要であるため、周囲が静かな場合、ユーザは、「はい」と一回発声しておくことで、「はい」という認識結果を得ることが可能となる。反対に、周囲が騒がしい場合であっても、ユーザは、「はい、はい、はい、はい、はい」と5回発声しておくことで、その分、音声認識手段へ良好なデータを送ることが可能となるため、「はい」という認識結果を確実に得ることが可能となる。
本発明は、音声認識を必要とする各種機器に適用可能であるが、周囲の雑音の変化に対応可能であるという利点に鑑みれば、カーナビゲーションシステムや車載テレビ等の車載システムの操作系や、携帯電話等のモバイル機器を音声により操作するといった用途に望ましく適用できる。
1 音声抽出手段
2 雑音推定手段
3 音声比較手段
4 音声記憶手段
5 音声選別手段
6 音声補正手段
7 音声認識手段
2 雑音推定手段
3 音声比較手段
4 音声記憶手段
5 音声選別手段
6 音声補正手段
7 音声認識手段
Claims (11)
- 入力中に含まれる雑音を推定する雑音推定手段と、
前記雑音の状況に応じて音声認識に必要な繰り返し発声回数を決定し、前記必要回数発せられた発声を同一内容と仮定して音声認識を行う音声認識手段と、を備えたこと、
を特徴とする音声認識システム。 - 更に、入力信号から発声部分を抽出する音声抽出手段を備えたこと、
を特徴とする請求項1に記載の音声認識システム。 - 更に、発声間の類似度を算出する音声比較手段を備え、
前記発声間の類似度平均が小さくなるに従って、前記音声認識に必要な繰り返し発声回数を増大すること、
を特徴とする請求項1又は2に記載の音声認識システム。 - 更に、発声間の類似度を算出する音声比較手段と、
前記発声間の類似度により、互いに類似すると判定された発声のみを認識用音声とする音声補正手段と、を備えること、
を特徴とする請求項1乃至3いずれか一に記載の音声認識システム。 - 更に、予め定める特徴を有する発声を除外する音声選別手段を備えたこと、
を特徴とする請求項1乃至4いずれか一に記載の音声認識システム。 - 更に、前記発声間の類似度に基づき、他の発声のいずれとも類似しない発声を除外する音声選別手段を備えたこと、
を特徴とする請求項3乃至5いずれか一に記載の音声認識システム。 - 前記音声選別手段は、前記雑音レベルが大きくなるに従って大きな閾値を設定し、前記他の発声との類似度が前記閾値に満たない発声を除外すること、
を特徴とする請求項6に記載の音声認識システム。 - 前記音声比較手段は、DPマッチングにより前記発声間の類似度を算出すること、
を特徴とする請求項3乃至7いずれか一に記載の音声認識システム。 - 前記雑音推定手段が、前記発声間の類似度平均を利用して雑音の状況を推定すること、
を特徴とする請求項3乃至8いずれか一に記載の音声認識システム。 - 入力音声を音声認識する音声認識システムにおける音声認識方法であって、
前記音声認識システムが、入力中に含まれる雑音を推定するステップと、
前記音声認識システムが、前記雑音の状況に基づいて、音声認識に必要な繰り返し発声回数を決定するステップと、
前記音声認識システムが、前記決定した繰り返し発声回数分の発声が入力された段階で、前記各発声を同一内容と仮定して音声認識を実行するステップと、を含むこと、
を特徴とする音声認識方法。 - 入力音声を音声認識する音声認識システムに実行させる音声認識用プログラムであって、
入力中に含まれる雑音を推定する処理と、
前記雑音の状況に基づいて、同一内容の認識に必要な繰り返し発声回数を決定する処理と、
発声の入力を受け付ける処理と、を実行し、
前記決定した繰り返し発声回数分の発声が入力された段階で、前記各発声を同一内容と仮定して音声認識を実行すること、
を特徴とする音声認識用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006191197A JP2008020587A (ja) | 2006-07-12 | 2006-07-12 | 音声認識システム、音声認識方法及び音声認識用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006191197A JP2008020587A (ja) | 2006-07-12 | 2006-07-12 | 音声認識システム、音声認識方法及び音声認識用プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008020587A true JP2008020587A (ja) | 2008-01-31 |
Family
ID=39076573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006191197A Withdrawn JP2008020587A (ja) | 2006-07-12 | 2006-07-12 | 音声認識システム、音声認識方法及び音声認識用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008020587A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103026271A (zh) * | 2010-07-27 | 2013-04-03 | 住友化学株式会社 | 光扩散膜及其制造方法、光扩散性偏振板以及液晶显示装置 |
-
2006
- 2006-07-12 JP JP2006191197A patent/JP2008020587A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103026271A (zh) * | 2010-07-27 | 2013-04-03 | 住友化学株式会社 | 光扩散膜及其制造方法、光扩散性偏振板以及液晶显示装置 |
CN103026271B (zh) * | 2010-07-27 | 2016-08-03 | 住友化学株式会社 | 光扩散膜及其制造方法、光扩散性偏振板以及液晶显示装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1262954A1 (en) | Method and apparatus for verbal entry of digits or commands | |
US6985859B2 (en) | Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments | |
US8392187B2 (en) | Dynamic pruning for automatic speech recognition | |
JP2005084253A (ja) | 音響処理装置、方法、プログラム及び記憶媒体 | |
EP1678706A1 (en) | System and method enabling acoustic barge-in | |
JP5431282B2 (ja) | 音声対話装置、方法、プログラム | |
US9679560B2 (en) | Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission | |
US10229701B2 (en) | Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission | |
JP2008076975A (ja) | 音信号補正方法、音信号補正装置及びコンピュータプログラム | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US9293131B2 (en) | Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program | |
US20040064315A1 (en) | Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments | |
JP2012163692A (ja) | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム | |
JP4752516B2 (ja) | 音声対話装置および音声対話方法 | |
KR102197387B1 (ko) | 자연어 대화체 음성 인식 방법 및 장치 | |
US7177806B2 (en) | Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system | |
JP2008020587A (ja) | 音声認識システム、音声認識方法及び音声認識用プログラム | |
JP2017216525A (ja) | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム | |
JP2005338454A (ja) | 音声対話装置 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JP6966374B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JP2007248529A (ja) | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 | |
JP2018022086A (ja) | サーバ装置、制御システム、方法、情報処理端末、および制御プログラム | |
JP6811865B2 (ja) | 音声認識装置および音声認識方法 | |
JP2010164992A (ja) | 音声対話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20091006 |