JP4265908B2

JP4265908B2 - 音声認識装置及び音声認識性能改善方法

Info

Publication number: JP4265908B2
Application number: JP2002360336A
Authority: JP
Inventors: 望齊藤; 真吾木内
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2002-12-12
Filing date: 2002-12-12
Publication date: 2009-05-20
Anticipated expiration: 2022-12-12
Also published as: US20040162727A1; JP2004191703A; US8244533B2

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置及び音声認識性能改善方法に係わり、特に、ノイズ環境下での音声認識性能を改善する音声認識装置及び音声認識性能改善方法に関する。
【０００２】
【従来の技術】
音声によってオーディオ機器、ナビゲーションシステムなど車載機器の操作を行う、音声認識装置が実用化されている。図６はかかる音声認識装置のブロック構成図であり、音声入力用マイクロホン1は話者が入力した音声を検出して出力し、ADコンバータ2は音声信号をディジタルに変換し、操作部3は図示しないスイッチ操作により音声認識開始を指示し、音声認識エンジン４は音声認識開始が指示されたとき、入力音声を認識する。
音声認識エンジン４の一例が特開昭59-61893号公報に開示されている。この従来技術では、単語入力音声における一連の単音節毎の特徴パターンを標準パターンと比較して音声認識し、単語辞書を参照して認識結果を意味のある単語として出力するものである。
【特許文献１】
特開昭59-61893号公報
【０００３】
【発明が解決しようとする課題】
音声認識システムに入力する音声データにノイズが重畳されている場合、データの先頭部分である非音声区間の一部分を削除するなどして(非音声区間の長さを変更して)、音声区間の先頭位置を変えて音声認識エンジンに入力すると、認識結果が変わることがある。すなわち、同じ発声でも、その発話タイミング（音声区間の先頭位置）によって、認識結果の正誤が変わってしまう。
【０００４】
この現象は、音声データに重畳するノイズ、例えば車室内ノイズの大きさが音声に対して十分に小さい（ＳＮ比が高い）場合は、ほとんど現れないが、車室内ノイズの大きさが音声に対して大きい（ＳＮ比が低い）場合には、顕著に現れる。このような現象が発生する理由としては、音声認識エンジン４が、非音声区間*SIT(図7)においてバックグラウンドのノイズレベルを測定し、音声区間SITの音声データより音声認識処理する際、該ノイズレベルを用いているからである。なお、非音声区間*SITは、スイッチで音声認識開始を指示した時刻t_Bから音声区間SITの始点位置 (発話タイミング) t_TSまでの区間である。
【０００５】
このノイズデータの測定は、短時間区間の測定のため、同じ条件下のノイズでも、測定位置によって測定結果にバラツキを生じてしまう。そのため、認識結果にもバラツキが発生し、結果として正しく認識したり、誤認識したりしてしまうと考えられる。例えば、図7に示すようにノイズレベルを非音声区間*SITの平均レベルとし、該ノイズレベルを考慮して音声区間SITにおける音声データを用いて音声認識するものとすると、図では非音声区間*SITの先頭でノイズレベルが大きいためノイズの平均レベルは非音声区間*SITが短いほど、すなわち発話タイミングt_TSが早いほど平均レベルが大きくなり、長いほど（発話タイミングt_TSが遅いほど）小さくなる。以上のように、発話タイミングt_TSにより測定するノイズレベルが変化し、これにより、認識結果の正誤が変わってしまうのである。
【０００６】
以上の現象は、ある程度のＳ／Ｎが確保されている環境であっても、発話のタイミングのせいで誤認識してしまう事態を呈し、ユーザー側からみると、認識性能が低下したことと同じであり、問題である。
特開昭59-61893号公報の技術を含め、従来技術では、専ら音声認識エンジンの認識精度を高めて認識率向上を目指しているが、限度がある。
以上から本発明の目的は、音声認識エンジンを変えずに音声認識性能を向上できるようにようにすることである。
【０００７】
【課題を解決するための手段】
音声認識装置において、音声認識対象である音声データより非音声区間の始点位置が異なる複数の音声データを生成し、前記各音声データを用いて音声認識を行い、得られた複数の認識結果のなかで、最も多い認識結果を出力する。このようにすれば、非音声区間の始点位置をシフトするため、誤認識する音声データはあるかもしれないが、多数の音声データを認識してその数を比較すれば、正しく認識する場合が一番多くなるはずであり、従って、一番多く認識された結果を出力することにより認識性能を、認識エンジンを変えずに向上することができる。
非音声区間の始点位置が異なる複数の音声データを生成するには、前記非音声区間の始点位置を、音声区間の始点位置から所定時間前の位置まで順次シフトさせる。すなわち、入力した音声信号を所定サンプリング時間間隔でAD変換してバッファにサンプリング順に格納し、該バッファからの読み出し位置を変えることにより非音声区間の始点位置が異なる複数の音声データを生成する。
前記各音声データの音声認識処理を1台の認識エンジンが行ってもよいが時間を要する。処理時間を短縮するために非音声区間の始点位置が異なる複数の音声データのそれぞれに対応して音声認識エンジンを設け、各音声認識エンジンの認識結果のなかで、最も多い認識結果を出力する。
以上のように本発明の音声認識装置によれば、認識エンジンを変えずに音声認識性能を向上することができる。
【０００８】
【発明の実施の形態】
（A）第1実施例
図1は本発明の第1実施例の音声認識装置の構成図、図2は音声データ生成部の説明図である。スイッチ動作で音声認識開始が指示されると、音声入力用マイクロホン11は話者が入力した音声を検出して出力し、ADコンバータ12は入力された音声信号(図3参照)を所定サンプリング速度でAD変換し、音声バッファ13はAD変換された音声データをサンプリング順に格納する。音声データは図3に示すように非音声区間*SITの音声信号(ノイズ)と音声区間SITの音声信号とを時系列にサンプリングして作成され、順に番号1〜ｎが付されて図2に示すように音声バッファ13に順番に保存される。番号が若い方は非音声区間*SITのデータ、番号が大きい方は音声区間SITのデータである。
【０００９】
音声データ生成部14は、音声バッファ１３からの読み出し開始位置をシフトすることにより、非音声区間の始点位置が異なる複数の音声データDT1，DT2,DT3,……を生成して音声データ記憶部15に格納する。読み出し開始位置のシフト点は、図3に示すように音声区間SITの始点位置t_TSから所定時間Ｔ前の位置t_Cまでである。認識処理部16の音声認識エンジン17は音声区間SITの始点位置t_STを識別し、該始点位置t_STを用いて最終シフト位置t_Cを求めて音声始端検出情報SSTとして出力する。音声始端検出情報SSTは、一つの音声データを認識処理する毎に得られるが、最初の音声データを認識処理したときの始端検出情報を使っても良いし、最初から数データ分の音声始端検出情報を平均したものを使っても良い。
【００１０】
図2を参照すると、音声データ生成部14のポインタ制御部21は音声認識エンジン17から入力する音声始端検出情報SST（＝読み出し開始の最終シフト位置t_C）を受信する。ポインタ制御部21は読み出し位置(ポインタ)を順次シフトしてデータ読み出し部22に入力し、データ読み出し部22は指示されたポインタの示す位置からサンプリングデータを音声バッファ13から読み出して音声データ記憶部15に保存する。 1つの音声データの読み出しが完了すれば、ポインタ制御部21は読み出し開始位置を１サンプリングデータ分シフトし、読み出し位置(ポインタ)を順次シフトしてデータ読み出し部22に入力し、データ読み出し部22は入力されたポインタの示す位置からサンプリングデータを音声バッファ13から読み出して音声データ記憶部15に保存する。以後、音声データの読み出しが完了する毎に読み出し位置(ポインタ)をシフトして音声データの読み出しを行い、読み出し位置(ポインタ)が最終シフト位置t_Cに等しくなったとき音声データの生成処理が完了する。
【００１１】
以上と並行して、認識処理部16の音声認識エンジン17は、第1番目の音声データDT1を用いて音声認識処理を行うと共に、音声区間SITの始点位置t_STを検出して音声始端検出情報SSTを出力する。そして認識結果(認識結果1)を認識結果保存部18に保存する。
ついで、音声認識エンジン17は、第2番目の音声データDT2を用いて音声認識処理を行って認識結果2を認識結果保存部18に保存する。以後、同様にして全音声データDT1〜DTkの認識結果1〜kを認識結果保存部18に保存する。
全音声データDT1〜DTkの認識が終了すれば、集計／比較部19は、得られた複数の認識結果のなかで、最も多い認識結果を最終結果として出力する。図4は集計／比較部19の構成図であり、集計部31と比較結果出力部32を有している。集計部31は比較結果毎にその数を集計する。図では、比較結果A，B，Cの数はp，ｑ，ｒである。比較結果出力部32はp，ｑ，ｒのうち最大値に応じた認識結果を最終認識結果として出力する。
【００１２】
以上、第1実施例によれば、非音声区間の始点位置をシフトするため、ノイズの影響により、たまたま誤認識する音声データはあるかもしれないが、ノイズが存在しないときには正しく認識する音声認識エンジンであれば、多数の音声データを認識してその数を比較すれば、正しく認識する場合が最も多くなる。従って、一番多く認識された結果を出力することにより認識性能を、認識エンジンを変えずに向上することができる。
【００１３】
（B）第2実施例
図5は第2実施例の音声認識装置の構成図であり、図1の第1実施例と同一部分には同一符号を付している。第1実施例と異なる点は、
(1)音声データDT1〜DTkを保存する音声データ記憶部15を削除した点、
(2)音声データ生成部１４から出力するｋ個の音声データに対応してｋ個の認識エンジン17₁〜17kを設けている点、
(3)各認識エンジン17₁〜17kがｋ個の音声データに対して音声認識処理を行って、それぞれ認識結果Ａ，Ｂ，Ｃ．．．を集計／比較部19に入力する点、
(4) 集計／比較部19が各音声認識エンジン17₁〜17kの認識結果のなかで、最も多い認識結果を最終認識結果として出力する、
点である。
このようにｋ個の音声認識エンジンを設けることにより高速の音声認識結果を得ることができ、しかも、認識性能を向上することができる。
【００１４】
【発明の効果】
以上本発明によれば、音声認識対象である音声データより非音声区間の始点位置が異なる複数の音声データを生成し、前記各音声データを用いて音声認識を行い、得られた複数の認識結果を出力するように構成したから、認識エンジンを変えずに認識性能を向上することができる。
又、本発明によれば、複数の音声データのそれぞれに対応して音声認識エンジンを設けることにより高速の音声認識結果を得ることができ、しかも、認識性能を向上することができる。
又、本発明によれば、ある程度以上のＳ／Ｎ（2〜3ｄＢ以上）が確保されている環境下で認識エンジンを用いたときに、発話タイミングのせいで誤認識するという現象をなくすことができる。これは、ユーザ側からみると、ノイズ環境下での認識性能が向上することと同じ効果をもつことになり本発明は有用である。
【図面の簡単な説明】
【図１】本発明の第1実施例の音声認識装置の構成図である。
【図２】音声データ生成部の説明図である。
【図３】音声信号説明図である。
【図４】図4は集計／比較部の構成図である。
【図５】第2実施例の音声認識装置の構成図である。
【図６】従来の音声認識装置のブロック構成図である。
【図７】音声区間、非音声区間の説明図である。
【符号の説明】
１１音声入力用マイクロホン
１２ ADコンバータ
１３音声バッファ
１４音声データ生成部
１５音声データ記憶部
１７音声認識エンジン
１８認識結果保存部
１９集計／比較部

Claims

音声認識対象である音声データの非音声区間におけるノイズレベルを考慮して音声を認識する音声認識装置であって、該音声の認識性能を改善する音声認識装置における音声認識性能改善方法において、
音声認識対象である音声データより非音声区間の始点位置が異なる複数の音声データを生成する際、該非音声区間の始点位置を、音声区間の始点位置から所定時間前の位置まで順次移動させることにより、該音声認識対象である音声データより非音声区間の始点位置が異なる複数の音声データを生成し、
前記各音声データを用いて音声認識を行い、
得られた複数の認識結果のなかで、最も多い認識結果を出力する、
ことを特徴とする音声認識性能改善方法。
前記音声区間の始点位置を、前記音声認識を行う音声認識エンジンより出力する、
ことを特徴とする請求項１記載の音声認識性能改善方法。
入力した音声信号を所定サンプリング時間間隔でAD変換してバッファにサンプリング順に格納し、該バッファからの読み出し位置を変えることにより非音声区間の始点位置が異なる複数の音声データを生成する、
ことを特徴とする請求項１記載の音声認識性能改善方法。
非音声区間の始点位置が異なる複数の音声データのそれぞれに対応して音声認識エンジンを設け、各音声認識エンジンの認識結果のなかで、最も多い認識結果を出力する、
ことを特徴とする請求項１記載の音声認識性能改善方法。
音声認識対象である音声データの非音声区間におけるノイズレベルを考慮して音声を認識する音声認識装置であって、該音声の認識性能を改善する音声認識装置において、
音声認識対象である音声データより非音声区間の始点位置が異なる複数の音声データを生成する際、該非音声区間の始点位置を、音声区間の始点位置から所定時間前の位置まで順次移動させることにより、該音声認識対象である音声データより非音声区間の始点位置が異なる複数の音声データを生成する音声データ生成部、
前記各音声データを用いて音声認識を行う音声認識エンジン、
得られた複数の認識結果のなかで、最も多い認識結果を選択して出力する認識結果選択部、
を備えたことを特徴とする音声認識装置。
前記音声認識エンジンは、前記音声区間の始点位置を出力する、
ことを特徴とする請求項５記載の音声認識装置。
入力した音声信号を所定サンプリング時間間隔でAD変換するADコンバータ、
AD変換された音声データをサンプリング順に格納する音声バッファ、
を備え、前記音声データ生成部は、該バッファからの読み出し開始位置を変えることにより非音声区間の始点位置が異なる複数の音声データを生成する、
ことを特徴とする請求項５記載の音声認識装置。
音声認識対象である音声データの非音声区間におけるノイズレベルを考慮して音声を認識する音声認識装置であって、該音声の認識性能を改善する音声認識装置において、
非音声区間の始点位置が異なる複数(ｋ個)の音声データのそれぞれを入力されて音声認識を行うｋ個の音声認識エンジン、
音声認識対象である音声データより非音声区間の始点位置が異なるｋ個の音声データを生成する際、該非音声区間の始点位置を、音声区間の始点位置から所定時間前の位置まで順次移動させることにより、該音声認識対象である音声データより非音声区間の始点位置が異なる複数の音声データを生成し、それぞれを各音声認識エンジンに入力する音声データ生成部、
各音声認識エンジンの認識結果のなかで、最も多い認識結果を選択して出力する認識結果選択部、
を備えたことを特徴とする音声認識装置。
入力した音声信号を所定サンプリング時間間隔でAD変換するADコンバータ、
AD変換された音声データをサンプリング順に格納する音声バッファ、
を備え、前記音声データ生成部は、該バッファからの読み出し開始位置を変えることにより非音声区間の始点位置が異なるｋ個の音声データを生成して各音声認識エンジンに入力する、
ことを特徴とする請求項８記載の音声認識装置。