JP2007248529A

JP2007248529A - 音声認識装置、音声認識プログラム、及び音声動作可能な装置

Info

Publication number: JP2007248529A
Application number: JP2006068163A
Authority: JP
Inventors: Shingo Kuroiwa; 眞吾黒岩
Original assignee: University of Tokushima NUC
Current assignee: University of Tokushima NUC
Priority date: 2006-03-13
Filing date: 2006-03-13
Publication date: 2007-09-27

Abstract

【課題】突発的な雑音に対しても頑健に音声認識を行なうことができる音声認識装置を提供する。
【解決手段】音声認識装置は、与えられる音声信号中の繰返発声部分を検出する繰返発声検出部２２０と、検出された繰返発声をＤＰマッチングし、繰返発声中で互いに対応する音声フレームのパワースペクトル上の各周波数ビンでパワーの小さな方を選択することにより、繰返発声を統合したパワースペクトルを生成する繰返発声統合部２２２と、繰返発声統合部２２２により統合されたパワースペクトルを用いて音声認識し、繰返発声を構成する発声単位を出力するための音声認識処理部２２４とを含む。
【選択図】図６

Description

この発明は音声認識装置に関し、特に、突発性の雑音にも頑健な音声認識装置及び当該音声認識装置を含む、音声によって動作可能な装置に関する。

コンピュータ技術の発展に伴い、種々の装置にコンピュータが組み込まれるようになっている。コンピュータそのものがプログラムによって様々な動作が可能であるという特徴を持つため、コンピュータを組み込んだ装置の機能も、ますます多彩になっている。

しかし、装置の機能が複雑化するに伴い、その操作も複雑化するという問題がある。例えば、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の再生装置は、単にＤＶＤの再生に留まらず、地上波放送、衛星放送、ケーブルテレビジョン放送のいずれかを選択してテレビジョンに中継したり、放送される番組をハードディスクに録画しつつ再生したり、録画予約にしたがって放送番組を録画したり、という多彩な作業を行なう。したがってこうした装置を操作するためのユーザインタフェースも非常に複雑となる。例えばＤＶＤの再生装置の場合、ボタンが７０以上になるものも存在する。装置が多機能化するにしたがいこうした問題はさらに大きくなる。したがって、こうした装置ではユーザインタフェースをいかにして簡単なものにするかという問題がある。

こうした問題に対する一つの答えが音声を用いたユーザインタフェースである。もともと人間の間のコミュニケーションの大部分は音声を用いて行なわれている。もしも種々の装置が人間と同様、音声を用いて人間との相互対話をすることが可能になれば、ユーザインタフェースは非常に簡単なものになることが期待できる。

音声を用いたユーザインタフェースの重要な要素に、音声認識技術がある。音声認識において問題となるのは、その認識精度である。現在のところ、音声認識の一部には、音声認識に適した一定の環境下では十分な認識精度を示すものがある。例えば利用者がヘッドセットを装着して発声した音声に対する音声認識では高い認識精度を示すものがある。しかし、日常生活に用いられる装置を操作する場合、一々ヘッドセットを装着するのは煩雑である。ヘッドセットを用いずに音声認識を行なうと、現在の技術では、環境雑音の影響などにより認識精度が大きく落ちてしまい、事実上、実用にならないという問題点がある。

ところで、音声認識の最終目標は、大語彙の自由発声を正確に認識することであろう。しかし、装置の操作では、必ずしも自由発声を認識する必要はない。例えばカーナビゲーションシステムでは、行先の地名又は施設名、及び装置に対するコマンドが正確に認識できればよい。これらは、大語彙で正確な音声認識が期待されているシステムということができる。

しかし、期待される音声認識のレベルはこれ以外にも様々なものがある。例えば、誤認識をするがそれを自覚する音声認識装置が考えられる。この場合、聞き返しなどの応答を行なうことができるので、人間に近いインターフェースを実現できる可能性がある。さらに、小語彙でも確実に音声認識を行なうことさえできればよいシステムも考えられる。例えば、ごく限られたコマンド、例えば「電源オン」及び「電源オフ」というコマンドのみを確実に認識できるようなシステムが考えられる。こうしたシステムは小型化が可能で、かつ生産コストも非常に小さくできる可能性がある。こうしたシステムを例えば家電製品の電源部分に組込むことにより、あらゆる装置の電源のオン及びオフを音声で操作できるようになることが期待できる。
特開2005-62572号公報

しかし、こうした応用で問題となるのは、雑音である。大語彙にせよ小語彙にせよ、音声認識システムに入力される音声信号に雑音が重畳されていると、その認識精度は大きく低下することが知られている。定常的な雑音についてはそれを予測する技術が開発されているが、非定常的な雑音を排除するための有効な技術は存在していない。家電製品等で音声認識による操作を実現するためには、このような突発的な雑音に対しても頑健な音声認識装置を実現することが重要である。また、そうした音声認識装置を種々の装置に組み込むためには、音声認識装置を容易に小型化できる必要がある。

したがって、本発明の目的は、突発的な雑音に対しても頑健に音声認識を行なうことができる音声認識装置、及びそのような音声認識装置を使用したインターフェースを有する装置を提供することである。

本発明の他の目的は、突発的な雑音に対しても頑健に音声認識を行なうことができる、小型化が可能な音声認識装置、及びそのような音声認識装置を使用したインターフェースを有する機器を提供することである。

本発明の第１の局面に係る音声認識装置は、与えられる音声信号をフレーム化し、各フレームから所定の音響特徴量を抽出して音響特徴量の系列を出力するための音響特徴量抽出手段と、音響特徴量抽出手段により出力された音響特徴量の系列に基づいて、音声信号中の繰返発声部分を音声認識し、当該繰返発声を構成する発声単位を出力するための繰返発声認識手段とを含む。

音響特徴量抽出手段は、音声信号をフレーム化し、各フレームから所定の音響特徴量を抽出することで音響特徴量の系列を出力する。繰返発声認識手段は、この音響特徴量の系列に基づいて、音声信号中の繰返発声部分を音声認識する。そして、音声認識された繰返発声を構成する発声単位を出力する。繰返発声は、日常会話では発生頻度が低いため、特定の語彙を、日常会話の中で誤って認識する危険性を小さくできる。

好ましくは、繰返発声認識手段は、所定の統計的音響モデルを格納するための音響モデル格納手段と、各々、所定回数繰返された単語からなる１又は複数の繰返単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、音響特徴量抽出手段から出力される音響特徴量の系列を受け、音響モデル格納手段に格納された統計的音響モデルと、辞書格納手段に格納された辞書とを用い、辞書内の１又は複数の繰返単語の内から、音響特徴量抽出手段から与えられる音響特徴量の系列により算出される尤度が最も高いものを選択し、当該繰返単語を構成する単語を出力するための単語出力手段とを含む。

辞書は１又は複数の繰返単語を格納している。この繰返単語は、所定回数繰返された単語からなっている。こうした辞書と統計的音響モデルとを用いて尤度計算を行なうことにより、入力される音響特徴量の系列に対応する可能性のある繰返単語のみが選択され、その中で尤度が最も高いものが出力される。辞書の構成を変化させるだけで、既存の音声認識装置の構成をそのまま用い、特定の語彙を日常会話の中で誤って認識する危険性を小さくできる。

好ましくは、単語出力手段は、音響特徴量抽出手段から出力される音響特徴量の系列と、音響モデル格納手段に格納された統計的音響モデルと、辞書格納手段に格納された辞書とを用い、辞書内の複数の繰返単語の内から、音響特徴量抽出手段から与えられる音響特徴量の系列により表される尤度が最も高いものを選択するための繰返単語選択手段と、繰返単語選択手段が選択した繰返単語の尤度が所定のしきい値より大きいか否かを判定し、しきい値より大きな尤度を持つ繰返単語を構成する単語を出力するための判定手段とを含む。

繰返単語選択手段が選択する繰返単語であっても尤度が所定のしきい値より大きくなければ、単語は出力されない。尤度計算の結果、繰返単語である可能性が低い場合に、誤って繰返単語が検出されてしまう危険性を排除できる。

好ましくは、繰返発声認識手段は、所定の統計的音響モデルを格納するための音響モデル格納手段と、１又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、音響特徴量抽出手段から出力される音響特徴量の系列に対し、音響モデル格納手段に格納された統計的音響モデルと、辞書格納手段に格納された辞書とを用いた音声認識を行ない、認識結果を出力するための音声認識手段と、音声認識手段により、同一単語が連続して出力されたことに応答して、当該単語を音声認識結果として出力するための手段とを含む。

通常の構成の音声認識手段を用い、同一の単語が２回認識結果として出力されると、その単語が音声認識結果として出力される。通常の構成の音声認識手段を用い、繰返発声を構成する単語を確認することができる。

より好ましくは、繰返発声認識手段はさらに、辞書に格納された語彙よりも少ない数の、予め定められた特定単語のみを記憶した特定単語記憶手段と、出力するための手段が出力する音声認識結果が特定単語記憶手段に格納されているか否かを判定し、格納されている場合のみ当該音声認識結果の出力を許容するための手段とを含む。

音声認識手段での音声認識には比較的大語彙の辞書を用いるので、音声認識の精度を高くすることができる。さらに、得られた音声認識結果のうち、特定単語記憶手段に記憶された特定単語のみが音声認識結果として出力されるので、特定単語以外の単語が偶然繰返された場合に、そうした単語を出力から排除することができる。その結果、誤認識が少なく、かつ偶発的な繰返発声を誤って許容してしまうことが防止できる。

好ましくは、繰返発声認識手段は、音響特徴量抽出手段から出力された音響特徴量の系列の内で、連続した第１及び第２の音響特徴量系列からなるセグメント対であって、互いの相関を表す予め定められた相関尺度が所定値よりも高いセグメント対を検出し、当該セグメント対を構成する各セグメント内の音響特徴量系列の間の対応関係を特定するためのセグメント対検出手段と、セグメント対検出手段により検出されたセグメント対を互いに統合することにより、一つの統合セグメントを構成する統合音響特徴量の系列を生成するための統合手段と、所定の統計的音響モデルを格納するための音響モデル格納手段と、１又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、統合手段により生成された統合音響特徴量の系列に対し、音響モデル格納手段に格納された統計的音響モデルと、辞書格納手段に格納された辞書とを用いた音声認識を行ない、認識結果を出力するための音声認識手段とを含む。

セグメント対検出手段は、音響特徴量抽出手段から出力された音響特徴量の系列の内で、連続した第１及び第２の音響特徴量系列からなるセグメント対であって、互いの相関を表す予め定められた相関尺度が所定値よりも高いセグメント対を検出する。セグメント対検出手段はさらに、当該セグメント対を構成する各セグメント内の音響特徴量系列の間の対応関係を特定する。統合手段は、こうして得られた二つのセグメント対を互いに統合し、一つの統合セグメント対を構成する統合音響特徴量の系列を生成する。こうして得られた統合音響特徴量の系列に対し、音声認識手段が通常の音声認識を行なう。統合音響特徴量の系列に対する音声認識は、通常の構成の音声認識手段を用いて行なうことができる。したがって、繰返発声を構成する単語を、容易に準備可能な音声認識手段を用いて認識することができ、その際の誤認識の可能性を低くすることができる。

好ましくは、統合手段は、セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルの間で、周波数ビンごとに最小値をとることにより、統合後のセグメントのパワースペクトル系列を生成するための最小値選択手段と、最小値選択手段により生成されたパワースペクトル系列から、音声認識手段のための統合音響特徴量の系列を生成して音声認識手段に与えるための手段とを含む。

統合手段は、セグメント対で互いに対応付けられたフレーム同士のパワースペクトルにつき、周波数ビンごとに最小値をとることによって、統合後のセグメントのパワースペクトル系列を生成する。このパワースペクトル系列から得られた音響特徴量に対し、音声認識を行なう。繰返発声の途中に突発的なノイズが混入した場合、その時点でのパワースペクトルはノイズのない場合と比較して確実に大きくなる。繰返発声の、対応するフレーム同士において、パワースペクトルの最小値の方をとって新たなパワースペクトル系列を作成する際には、ノイズが含まれているフレームからのパワースペクトルが捨てられる可能性が高い。したがって、ノイズの影響を除去し、確実に音声認識を行なうことができる。

好ましくは、最小値選択手段は、セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルを包絡と微細構造とに分離するための分離手段と、分離手段により分離された包絡の間で、周波数ビンごとに最小値をとることにより、パワースペクトルの包絡を統合するための包絡統合手段と、包絡統合手段により出力されたパワースペクトルの包絡と所定の音源信号とを畳み込むことにより、パワースペクトルを生成し、さらに当該パワースペクトルから音声認識装置のための音響特徴量を抽出するためのパワースペクトル生成手段とを含む。

パワースペクトルは、パワースペクトルの包絡に、音源により規定される基本周波数の整数倍の周波数にピークを持つ微細構造が重畳された形状を持っている。したがって、対応するフレームのパワースペクトルの最小値を周波数ビンごとにとってスペクトルを統合すると、微細構造の谷の部分が優先的に選択され、その結果得られるパワースペクトルの包絡形状が、元の繰返発声から得られるパワースペクトルの包絡形状と大きく異なる場合があり得る。そうした場合には、音声認識の結果の信頼性が低下する。そこで、対応するフレーム同士のパワースペクトルを、それぞれ包絡と微細構造とに分離し、包絡のみに対し、上記したような最小値を選択する処理を行なう。この構成により、微細構造の谷を選択することによる包絡形状の変化がなくなり、音声認識の精度を向上させることができる。

好ましくは、パワースペクトル生成手段は、包絡統合手段により出力されたパワースペクトルの包絡と、分離手段により分離された微細構造のうちで、包絡統合手段により選択されたビン数の多い方の包絡に対応する微細構造とを畳み込むことにより、パワースペクトルを生成し、さらに当該パワースペクトルから音声認識装置のための音響特徴量を抽出するための手段を含む。

スペクトル包絡を統合した後、音源信号との畳み込みを行なう。この畳み込みには、スペクトル包絡の統合において選択されたビン数の多い方の包絡に対応する微細構造を用いることにより、元の繰返発声を構成する発声単位の音響特徴量をより適切に再現できる。その結果、音声認識結果の精度をさらに上げることが可能になる。

好ましくは、最小値選択手段は、セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルから包絡を分離するための分離手段と、分離手段により分離された包絡の間で、周波数ビンごとに最小値をとることにより、パワースペクトルの包絡を統合するための包絡統合手段と、包絡統合手段により出力された包絡から音声認識装置のための音響特徴量を抽出するための手段とを含む。

パワースペクトルは、パワースペクトルの包絡に、音源により規定される基本周波数の整数倍の周波数にピークを持つ微細構造が重畳された形状を持つ。したがって、対応するフレームのパワースペクトルの最小値を周波数ビンごとにとってスペクトルを統合すると、微細構造の谷の部分が優先的に選択され、その結果得られるパワースペクトルの包絡形状が、元の繰返発声から得られるパワースペクトルの包絡形状と大きく異なる場合があり得る。そうした場合には、音声認識の結果の信頼性が低下する。そこで、対応するフレーム同士のパワースペクトルから包絡を分離し、包絡のみに対し、上記したような最小値を選択する処理を行なう。この構成により、微細構造の谷を選択することによる包絡形状の変化がなくなり、音声認識の精度を向上させることができる。

好ましくは、セグメント対検出手段は、音響特徴量抽出手段から与えられた音響特徴量の系列の内に見出される発声区間内の、所与の第１の部分及び第２の部分にそれぞれ含まれるフレームの音響特徴量をＤＰマッチングして得られるＤＰ距離を出力するためのＤＰマッチング手段と、発声区間内の所定の中間点より前に始点を持つ第１の部分と、第１の部分の始点より後に始点を持ち、発声区間内の所定の中間点より後に終点を持つ第２の部分との組合せのうちで、ＤＰマッチング手段によって得られるＤＰ距離が最も小さくなるような第１の部分及び第２の部分を特定し、各部分に含まれる音響特徴量の系列をそれぞれ第１のセグメント及び第２のセグメントとして出力するためのセグメント対出力手段とを含む。

発声区間の所定の中間点より前に始点を持つ第１の部分と、第１の部分の始点より後に始点を持ち、発声区間内の所定の中間点より後に終点を持つ第２の部分との組合せのうちで、互いの間のＤＰ距離を最も小さくするような第１の部分と第２の部分とがセグメント対出力手段により選ばれ、そのときにＤＰマッチング手段により算出されるＤＰ距離が出力される。繰返発声を構成する発声区間として可能性の高い区間がＤＰマッチングにより決定できる。

好ましくは、セグメント対検出手段は、音響特徴量抽出手段から与えられた音響特徴量の系列の内に見出される発声区間内の、所与の第１の部分及び第２の部分にそれぞれ含まれるフレームの音響特徴量をＤＰマッチングし、得られるＤＰ距離を出力するためのＤＰマッチング手段と、発声区間内の所定の中間点より前に始点を持つ第１の部分と、第１の部分の始点より後に始点を持ち、発声区間内の所定の中間点より後に終点を持つ第２の部分との組合せのうちで、ＤＰマッチング手段によって得られるＤＰ距離が最も小さくなるような第１の部分及び第２の部分を特定し、各部分に含まれる音響特徴量の系列をそれぞれ第１のセグメント及び第２のセグメントとして出力するためのセグメント対出力手段と、セグメント対出力手段により出力されるセグメント対に含まれる各フレームのうち、ＤＰマッチング手段によって互いに対応付けられたフレームとの間のＤＰ距離が所定のしきい値より大きなフレームを音声認識手段による音声認識の対象から除外する処理を行なうための手段とを含む。

ＤＰマッチング手段によって互いに対応付けられたフレームのうち、対応するフレームとの間のフレーム間ＤＰ距離が所定のしきい値より大きなフレーム対は、互いにかなり異なっており、両者にノイズが混入していたり、対応付けがうまくできていなかったりする可能性が高い。こうした部分を音声認識の対象から除外することで、音声のうち、より信頼性の高い部分のみを用いて音声認識を行なうことができる。

好ましくは、繰返発声認識手段は、音響特徴量抽出手段から与えられた音響特徴量の系列の内で、連続した第１及び第２の音響特徴量系列からなるセグメント対であって、互いの相関を表す予め定められた相関尺度が所定値よりも高いセグメント対を検出し、当該セグメント対を構成する各セグメント内の音響特徴量系列の間の対応関係を特定するためのセグメント対検出手段と、所定の統計的音響モデルを格納するための音響モデル格納手段と、１又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、セグメント対検出手段から第１及び第２の音響特徴量系列からなるセグメント対を入力として受け、当該第１及び第２の音響特徴量系列に対し、音響モデル格納手段に格納された統計的音響モデルと、辞書格納手段に格納された辞書とを用い、辞書内の１又は複数の単語の内から、第１及び第２の音響特徴量系列により表される尤度が最も高いものを選択して出力するための２入力音声認識手段とを含み、２入力音声認識手段は、第１及び第２の音響特徴量系列のうち、互いに対応するフレームから得られた音響特徴量に対し、各音素について統計的音響モデルから得られた尤度の最大値を用いて各音素の尤度計算を行なうことにより、辞書内の各単語の尤度を計算して音声認識を行なう。

２入力音声認識手段は、第１及び第２の音響特徴量系列に対する音声認識を行なって単一の音声認識結果を出力する。この音声認識の際には、２入力音声認識手段は、各音素に対する尤度計算において、第１及び第２の音響特徴量系列のうち、互いに対応するフレームから得られた尤度の最大値を用いる。互いに対応すると思われる二つの音響特徴量系列の各フレームの一方にノイズが重畳している場合、そのフレームに対して各音素につき音響モデルから算出される尤度は小さくなる可能性が非常に高い。したがって、大きな方の値を採用して尤度計算を行なうことにより、ノイズの影響を除去した音声認識を行なうことができる。このようなことが可能なのは、繰返発声を入力として採用したためである。

本発明の第２の局面に係る装置は、所定の機能を実行するための機能部を有し、音声入力にしたがった処理を実行する音声動作可能な装置であって、音声を電気信号である音声信号に変換するための変換手段と、変換手段の出力する音声信号を入力として受けるように接続された、上記したいずれかの音声認識装置と、音声認識装置の出力する音声認識結果をコマンドとして解釈し、当該コマンドに対応する機能を実行するように機能部を制御するための機器制御手段とを含む。

本発明の第３の局面に係る音声認識プログラムは、記憶手段と、音声入力装置が接続可能な入出力装置と、所定のプログラムを実行することにより記憶手段と入出力装置とを制御する処理を行なうための処理手段とを含むコンピュータによって実行されるプログラムであって、当該コンピュータを、音声入力装置から与えられる音声信号に対して、上記したいずれかの音声認識装置として動作させる。

以下、本発明に係る音声認識装置の実施の形態について説明する。以下の説明において、同じ部品には同じ参照符号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。

なお、以下の説明では、音声認識装置を組み込んだ装置の機能については特に具体的には述べないが、音声認識の結果得られた文字列を解釈する機能を持つ装置であれば、どのようなものにでも本願発明が適用可能であることはいうまでもない。また、以下に説明する各実施の形態では、音声認識により「コマンド」を入力することとしているが、ここでいう「コマンド」とは、いわゆる動作を指定するためのものだけでなく、カーナビゲーションにおいて目的地を指定する地名、音楽の再生装置であれば再生すべき曲名等も含む概念である。

さらに、本明細書で「パワースペクトル」という場合、特に断らない限り、通常は「対数パワースペクトル」のことを指す。フレーム化された波形データにＦＦＴ処理を施すことで当該フレームのパワースペクトルが得られ、さらにパワースペクトルを対数化することで対数パワースペクトルが得られる。以下の説明では、フレーム化された波形データにＦＦＴ処理を行なう際には、その出力に同時に対数化も行ない、対数パワースペクトルが出力されるものとする。

このように本明細書で「パワースペクトル」は「対数パワースペクトル」のことを指す関係上、以下の説明で「スペクトル包絡」と「微細構造」との間の畳み込みと呼ぶ処理は、実際には、対数パワースペクトルの包絡と、微細構造の対数パワースペクトルとの間の加算処理となる。

また、当業者であれば容易に理解できるように、以下に述べる各実施の形態の装置は、実質的にはコンピュータと同様のハードウェアを含み、これらハードウェアで所定のプログラムを実行することによりその機能が実現される。

［第１の実施の形態］
−構成−
図１に、本発明の第１の実施の形態に係る音声認識を汲み込んだ機器５０のブロック図を示す。図１を参照して、機器５０は、マイクロフォン６０と、マイクロフォン６０から与えられる音声信号に対する音声認識を行ない、機器５０に対するコマンドであれば当該コマンドを示す情報を出力するためのコマンド認識部６２と、コマンド認識部６２がコマンドを示す情報を出力したことに応答して、機器５０内の図示しない機能ブロックを制御し、当該コマンドに対応する処理を実行させるための機器制御部６４とを含む。機器制御部６４はさらに、利用者が機器５０に対する操作を行なう際に使用する、図示しない表示装置、スピーカ、及びボタン等を有する操作部６６を含む。

コマンド認識部６２は、マイクロフォン６０から音声信号を受け、音声を所定窓長で所定間隔のフレームにフレーム化するためのフレーム化処理部８０と、フレーム化処理部８０の出力する各フレームから、音声認識のための所定の特徴量を抽出するための特徴抽出部８２と、特徴抽出部８２がフレームごとに出力する特徴量の系列に基づき、音声認識を行ない、得られた仮説をその尤度とともに出力するための音声認識処理部８４と、音声認識処理部８４が音声認識の際に使用する、予めコンピュータ読取可能な形式で準備された隠れマルコフモデル（ＨＭＭ）により構成された音素モデルを多数含む音響モデル８８を記憶するための記憶装置と、音声認識処理部８４が音声認識の際に使用する、機器５０に対するコマンドを示すテキスト文字列（以下「コマンド文字列」と呼ぶ。）を予め格納した辞書９０と、音声認識処理部８４が出力する尤度が所定のしきい値より高いか否かを調べることにより、音声認識処理部８４が出力する仮説を採用するか棄却するかを判定するため判定部８６とを含む。

以下の説明では、「系列」というときには、一連のフレームにおいて、フレームごとに算出されるある値（又はベクトル）によって生成される一連の値（又はベクトル）の並びのことをいう。

なお、機器５０においては、利用者が一連の作業をコマンドとして登録できることが想定されている。そのためにコマンド認識部６２は、操作部６６に接続され、操作部６６を用いて利用者が入力するコマンド文字列に対し、当該コマンド文字列を二度繰返した文字列を生成して辞書９０に登録する機能を持つ辞書登録部９２をさらに含む。

本実施の形態に係るコマンド認識部６２の特徴は、辞書９０に登録されたコマンド文字列が、機器制御部６４に与えるコマンドを二度発声したものである点である。すなわち、コマンド認識部６２は、同じ単語を二度発声したものをコマンドとして認識し、そのコマンドを機器制御部６４に与える機能を持つ。具体的には、判定部８６が、仮説を採用する際には仮説の前半部のみをコマンドとして出力する。利用者は、あるコマンドを機器５０に対し与えるときには、そのコマンドを二度発声する必要がある。このように同じ内容を二度発声することを、以下「繰返発声」と呼ぶ。なお、以下の説明から容易に理解できるように、同じ単語を三度以上繰返して発声したものをコマンドと認識することも可能である。

一般家庭で用いられる機器の場合、様々な人間の会話及び周囲の雑音が絶え間なく音声として入力されてくる。周囲の雑音の中には、テレビジョン放送からの音声も考えられる。そうした様々な発声の中から特定のコマンドを抽出することは、通常はきわめて困難である。

ところが、日常会話の中で繰返発声が発生する頻度は低い。したがって、繰返発声を検出したときにのみ、それをコマンドと解釈することにより、誤動作を極めて少なくできる可能性が高い。本実施の形態では、そのために、予め辞書９０には、機器５０で利用可能なコマンド文字列を二度繰返した文字列のみを登録しておく。

図２に、辞書９０に登録されている単語列の構成をグラフ形式で示す。図２を参照して、辞書９０に登録されている単語列では、発声の始点１００と終点１０２との間に、同じ単語が連続した経路（単語１０４及び１０６からなる経路、単語１０８及び１１０からなる経路、並びに単語１１２及び１１４からなる経路等）のみが想定されている。図２において、単語１０４及び１０６、単語１０８及び１１０、並びに単語１１２及び１１４はそれぞれ互いに同一の単語対であり、かつこれらを構成する個々の単語は、いずれも機器５０で利用可能なコマンドを示す文字列である。

本実施の形態では、特徴抽出部８２が音声信号の各フレームから抽出する音響特徴量は各フレームの音声のパワースペクトルから算出されるＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）である。

音響モデル８８は、ＨＭＭにより構成された音素モデルからなる。各音素モデルは、与えられる特徴量の系列が各音素に対応する確率を示す尤度を算出するために用いられる。

音声認識処理部８４は、特徴抽出部８２から与えられる特徴量の系列について、音響モデル８８を用いた尤度計算を行なって音声認識結果の仮説を生成する機能を持つ。音声認識処理部８４はさらに、こうして得られた仮説を辞書９０と照合することによって、辞書９０に登録されているものと同じ仮説が得られれば、当該仮説をその尤度とともに音響モデル８６に出力する機能を持つ。特徴抽出部８２が処理するのは、所定数のフレームから得られた特徴量の系列である。特徴抽出部８２は、所定数のフレームに対しこの処理を行なっても辞書９０に登録された文字列からなる仮説が得られなければ、フレーム位置を移動させて同じ処理を実行する。

−動作−
図１を参照して、本実施の形態に係る機器５０は以下のように動作する。学習済みの音響モデル８８が予め準備されるものとする。また、辞書９０についても予め機器５０の提供者により準備されているものとする。

マイクロフォン６０は、音声を電気信号（音声信号）に変換しフレーム化処理部８０に与える。

フレーム化処理部８０は、この音声信号を所定長及び所定のシフト長でフレーム化し、特徴抽出部８２に与える。

特徴抽出部８２は、フレーム化処理部８０から与えられる各フレームに対し、そのパワースペクトルを算出し、さらにパワースペクトルからＭＦＣＣを音響特徴量として算出する。特徴抽出部８２は、各フレームに対し算出された音響特徴量を、各フレームについての音響特徴量ベクトルという形式で音声認識処理部８４に与える。

音声認識処理部８４は、与えられたフレームごとの音響特徴量ベクトルからなる系列を用い、音響モデル８８を用いた尤度計算を行なって、尤度の高い音素列の系列を算出する。これらのうちで辞書９０に登録された文字列と一致するものがあれば、音声認識処理部８４はその文字列を仮説としてその尤度とともに判定部８６に出力する。一致するものがなければ、音声認識処理部８４は次のフレームの音響特徴量ベクトルの入力を待って、同様の処理を繰返す。

判定部８６は、音声認識処理部８４から仮説とその尤度とが与えられると、尤度を所定のしきい値と比較する。もしも尤度がしきい値より高ければ、判定部８６は仮説がコマンドを示すものであると判定し、仮説の前半部の文字列をコマンドとして機器制御部６４に与える。

機器制御部６４は、コマンド文字列が与えられると、当該コマンド文字列により定められる処理を実行するよう、機器５０内の各機能ブロック（図示せず）を制御する。

利用者が辞書９０にコマンドを登録する際には、以下のような処理が行なわれる。利用者は、操作部６６を用いて辞書登録部９２にコマンド登録処理を実行させる。コマンド登録処理では、コマンド文字列と、そのコマンドにより実行すべき処理とが操作部６６を用いた操作により特定される。辞書登録部９２は、入力されたコマンド文字列を自動的に二度繰返して新たな文字列を作成し、辞書９０に登録する。辞書登録部９２はまた、機器制御部６４がこのコマンドを実行できるよう、入力されたコマンド文字列（繰返し前）と、対応する処理を特定する情報とを、機器制御部６４がコマンド実行の際に参照する利用者コマンド辞書（図示せず）に登録する。

機器制御部６４は、判定部８６から与えられるコマンド文字列が機器制御部６４の本来のコマンド以外のコマンド文字列であれば、この利用者コマンド辞書の中で当該コマンド文字列を検索し、対応する処理を実行する。

以上のように本実施の形態によれば、コマンドを二度繰返すことで、機器５０が音声認識によってコマンドを検出する。日常会話には、同じ文字列を二度繰返す場面が少ないため、日常会話がコマンドとして誤認識される可能性は低い。その上、仮にコマンド以外の繰返発声が発生したとしても、辞書９０に登録されているコマンドのみがコマンドとして認識されるため、誤認識の可能性はさらに低くなる。また、利用者がコマンドを登録する際に、入力されたコマンド文字列を自動的に繰返して新たな文字列を生成し、辞書９０に登録する機能を持たせた。その結果、利用者が辞書９０にコマンドを登録する際に、わざわざ同じ文字列を二度入力する必要がない。したがって機器５０の機能を容易に拡張することができる。

［第２の実施の形態］
−構成−
第１の実施の形態では、コマンド文字列を繰返した文字列を辞書９０に登録し、音声認識では辞書９０に登録された単語のみを仮説として出力している。しかし本発明はそのような実施の形態には限定されない。第１の実施の形態のように限定された語彙だけではなく、大語彙の音声認識を利用すると、会話中の単語の認識を同時に行なうこともできるため、応用が広がる可能性がある。それだけではなく、大語彙の音声認識を行なうことにより、個々の単語の認識精度も向上する可能性が高い。そこで本実施の形態では、大語彙音声認識を利用して上記したコマンド検出を行なう。

図３に、この第２の実施の形態に係る機器１３０のブロック図を示す。図３を参照して、機器１３０は、マイクロフォン６０と、マイクロフォン６０の出力する音声信号に対し、大語彙音声認識を行ない、その結果を用いてコマンドの検出を行なうためのコマンド認識部１４０と、コマンド認識部１４０により認識されたコマンドを実行するための機器制御部６４と、図１に示すものと同様の操作部６６とを含む。

コマンド認識部１４０は、図１に示すものと同様のフレーム化処理部８０、特徴抽出部８２、及び音響モデル８８を含む。コマンド認識部１４０はさらに、日常会話の認識にも用いられる大語彙辞書１５２と、特徴抽出部８２から与えられる音響特徴量の系列に対し、音響モデル８８及び大語彙辞書１５２を用いた大語彙音声認識を行ない、音声認識された単語の仮説を出力するための音声認識処理部１５０と、音声認識処理部１５０が認識の結果出力する仮説を記憶するための認識結果記憶部１５４と、認識結果記憶部１５４に記憶された、音声認識処理部１５０により一つ前に出力された仮説と、音声認識処理部１５０が現在の音声認識処理の結果出力する仮説とを比較し、両者が同一のときに当該仮説を出力するための比較部１５６とを含む。

コマンド認識部１４０はさらに、予め準備された、機器１３０で利用可能なコマンドを示すコマンド文字列を格納した辞書１６０と、比較部１５６が出力する仮説が辞書１６０に格納されているか否かを判定し、格納されている場合のみコマンド認識部１４０の出力として許容し、当該仮説を機器制御部６４に与えるための判定部１５８とを含む。

本実施の形態でも、辞書１６０に対する新たなコマンドの登録が可能であることが想定されている。そのためにコマンド認識部１４０はさらに、操作部６６及び辞書１６０に接続され、操作部６６を用いて利用者が入力するコマンド文字列と、当該コマンドに対応する処理を特定する情報とを受け、コマンド文字列を辞書１６０に、処理を特定する情報を図示しない利用者コマンド辞書に、それぞれ登録するための辞書登録部１６２を含む。第１の実施の形態における辞書登録部９２と異なり、辞書登録部１６２は、入力されるコマンド列を繰返さず、そのまま辞書１６０に登録する機能を持つ。さらに辞書登録部１６２は、入力されるコマンドが大語彙辞書１５２に登録されていない単語である場合には、そのコマンドを大語彙辞書１５２に登録する機能も持つ。

本実施の形態における音声認識で許容される単語列を、単語グラフ形式で図４に示す。図４を参照して、本実施の形態では、発声の始点１７０と終点１７２との間で、大語彙辞書１５２を用いた音声認識による仮説１８０、１８２、１８４などの自由な単語認識が許容される。さらに、その次の音声認識では、同様に先の認識時の終点１７２を新たな始点とし、終点１７４との間で自由な単語認識が許容される。この点で、音声認識の段階で既に二つの単語の繰返発声のみを許容する第１の実施の形態と相違する。

−動作−
第２の実施の形態に係る機器１３０は以下のように動作する。図３を参照して、マイクロフォン６０は音声を音声信号に変換し、フレーム化処理部８０に与える。フレーム化処理部８０はこの音声信号をフレーム化し、特徴抽出部８２に与える。特徴抽出部８２は、フレームごとに所定の音響特徴量を抽出し、音声認識処理部１５０に与える。

音声認識処理部１５０は、この音響特徴量の系列に基づき、音響モデル８８及び大語彙辞書１５２を用いた大語彙音声認識を行ない、音声認識結果の単語を仮説として出力する。比較部１５６は、音声認識処理部１５０から与えられた仮説と、認識結果記憶部１５４に記憶されている一つ前に認識された仮説とを比較する。両者が一致する場合、比較部１５６はその仮説の単語を判定部１５８に与える。判定部１５８は、与えられた単語が辞書１６０に登録されているか否かを判定する。判定部１５８は、単語が辞書１６０に登録されていればその単語をコマンドとして機器制御部６４に与える。機器制御部６４は、与えられたコマンドにしたがって機器１３０の各機能ブロック（図示せず）を制御する。判定部１５８は、単語が辞書１６０に登録されていなければ何もしない。

一方、比較部１５６は、比較が終了すると、認識結果記憶部１５４に対して音声認識処理部１５０の出力する認識結果を格納させる。

こうして、コマンド認識部１４０は、マイクロフォン６０からの音声信号に対して大語彙音声認識を繰返し行なう。比較部１５６によって、認識された単語列の中に同じ単語が二回繰返された箇所があるか否かを検出する。もしあれば、その単語がコマンドかどうかを辞書１６０を用いて検証する。

大語彙音声認識を行なうので、機器１３０の機能を拡張する際にも、通常は辞書１６０の内容だけを変更すればよく、大語彙辞書１５２の内容を交換したりする必要はない。ただし、大語彙辞書１５２に登録されていない単語からなるコマンドを使用する場合には、そのコマンドを大語彙辞書１５２にも登録する必要がある。ただしこの登録は、辞書登録部１６２により、辞書１６０へのコマンドの登録と同時に行なわれるので、利用者が大語彙辞書１５２の内容を特に変更する必要はない。また、認識結果に対する検証も、認識結果記憶部１５４と、比較部１５６と、判定部１５８とで行なわれるため、誤動作の可能性も小さくなる。

［第３の実施の形態］
−構成−
第１の実施の形態では、音声認識の過程で繰返発声の検出も同時に行なっている。第２の実施の形態では、音声認識後に、繰返発声の検出を行なっている。この場合、音声認識を常に行なうことになり、処理負荷が高くなる。装置の小型化を図るためには、繰返発声を音声認識処理以前に検出し、繰返発声が検出された音声のみに対して音声認識を行なうようにすることが望ましい。第３の実施の形態は、そのような繰返発声の検出機能を持ち、さらに検出された繰返発声から、音声認識対象の音響特徴量の系列を一つだけ作成して音声認識し、その結果にしたがい、最初に検出された繰返発声がコマンドか否かを判定する。

そのために、本実施の形態では以下のような考え方を採用する。図５を参照して、繰返発声を含む音声波形２００が検出されたものとする。音声波形２００が、１回目の発声の音声波形２０２と、２回目の発声の音声波形２０４とを含むものとする。本実施の形態では、１回目の発声の音声波形２０２と２回目の発声の音声波形２０４とを実質的に合成して合成波形２０６を作成し、合成波形２０６に対して音声認識を行なう。ただし、この処理は波形データに対して行なうのではなく、スペクトルデータに変換してから行なう。

図６に、第３の実施の形態に係る機器のブロック図を示す。なお、本実施の形態を含め、発明が主として関係するのはコマンド認識装置の部分のみであるから、コマンド認識装置のみについて説明することにし、このコマンド認識装置を含む機器のそれ以外の部分については、関連する部分について必要最小限の説明をするにとどめることとする。

図６を参照して、第３の実施の形態に係るコマンド認識装置２１０は、マイクロフォン６０からの音声信号を受け、当該音声信号の波形中に存在する、繰返発声に相当する波形を検出し、その音声波形のデータをフレーム単位のスペクトル系列として出力し、あわせて、１回目と２回目との繰返発声の音声波形の位置をフレーム単位で特定するセグメント情報を出力するための繰返発声検出部２２０と、繰返発声検出部２２０により出力されるスペクトル系列とセグメント情報とを受け、１回目と２回目とのスペクトル系列を統合した統合後のスペクトル系列を作成し、さらに所定の音響特徴量の系列を出力するための繰返発声統合部２２２と、繰返発声統合部２２２により出力される音響特徴量の系列に対して音声認識を行ない、その結果を機器制御部６４に対して出力するための音声認識処理部２２４とを含む。

図７は、図６に示す繰返発声検出部２２０のより詳細なブロック図である。図７を参照して、繰返発声検出部２２０は、マイクロフォン６０からの音声信号を所定長及び所定シフト長でフレーム化しフレーム系列として出力するためのフレーム化処理部２４０と、フレーム化処理部２４０からフレーム系列を受け、各フレームから算出されるＭＦＣＣから構成される音響特徴量の系列と、各フレームから算出されるパワースペクトルの系列とを出力するための特徴抽出部２４２と、特徴抽出部２４２から出力される音響特徴量の系列の中に見出される発声区間のうち、中間点より前に始点を持つ第１の部分と、第１の部分の始点より後に始点を持ち、中間点より後に終点を持つ第２の部分とのＤＰマッチングを行ない、音響特徴量の系列間の類似度を示すＤＰ距離が最小となるような第１の部分と第２の部分とを特定してそれぞれ第１の発声部分と第２の発声部分に定め、それぞれの発声部分のフレーム位置を示すセグメント情報と、両者の間のＤＰ距離とを出力するためのＤＰマッチング処理部２４４と、ＤＰマッチング処理部２４４からのＤＰ距離を受け、このＤＰ距離が所定のしきい値以下か否かを判定し、判定結果を示す信号を出力するための判定部２４６とを含む。

なお、ＤＰマッチング処理部２４４は、後述するように、分割点の左右にそれぞれ所定数のマージンとなるフレームを想定し、ＤＰマッチングの前半部と後半部とがこのマージン部分のフレームで互いに重なるようにしてマッチングを行なう。

判定部２４６から出力される判定結果信号は、本実施の形態ではＤＰ距離がしきい値以下のときにＨレベルを、それ以外のときにＬレベルを、それぞれとるものとする。

繰返発声検出部２２０はさらに、特徴抽出部２４２からのパワースペクトルの系列と、ＤＰマッチング処理部２４４からのセグメント情報とを一旦保持し、判定部２４６からの判定結果信号がＨレベルのときには保持したパワースペクトルの系列とセグメント情報とを後段の繰返発声統合部２２２（図６参照）に出力し、それ以外のときには出力しない機能を持つバッファ２４８とを含む。

図８に、図７の特徴抽出部２４２のより詳細なブロック図を示す。図８を参照して、特徴抽出部２４２は、フレーム化処理部２４０の出力する各フレームの音声信号についてＦＦＴ変換処理を行なってパワースペクトルを出力するためのＦＦＴ処理部２５０と、ＦＦＴ処理部２５０の出力するパワースペクトルからＭＦＣＣを算出するためのフィルタバンク２５２及びコサイン変換部２５４とを含む。ＦＦＴ処理部２５０の出力するパワースペクトルは図７に示すバッファ２４８に与えられる。コサイン変換部２５４の出力するＭＦＣＣは図７に示すＤＰマッチング処理部２４４に与えられる。なお、ＦＦＴ処理部２５０の出力するパワースペクトルは、前述のように対数パワースペクトルであり、ここでのフィルタバンク２５２は、対数パワースペクトルを入力とするものとする。

図９に、ＤＰマッチング処理部２４４が行なうＤＰマッチング処理について示す。図９を参照して、音声波形２００のうち、発声部分に関しては、その開始点２６０（以下この開始点を「点Ｓ」として説明することがある。）及び終了点２６２（以下この終点を「点Ｅ」として説明することがある。）は既存の発声部分検出技術を用いて特定される。以下、開始点２６０のフレーム番号をＳ、終了点２６２のフレーム番号をＥとする。ＤＰマッチング処理部２４４は、開始点Ｓと終了点Ｅとの間の中間付近に中間の分割点２６４を考え、分割点２６４のフレーム番号をＭ（以下、このフレームに対応する点を「中間点Ｍ」と呼ぶ。）とすると、α、βをいずれも０以上の整数として、区間Ｓ−（Ｍ＋α）と区間（Ｍ−β）−Ｅという、（α＋β）個のフレームだけ互いに重なりを持つ区間同士について、端点を固定しないＤＰマッチングを行ない、以下の式にしたがって最小のＤＰ距離を与えるセグメント情報（Ｓ１，Ｅ１，Ｓ２，Ｅ２）を特定する。

ただし、ｘ_s1-e1は時刻ｓ１（ただしｓ１＞ｓ。時刻ｓは開始点２６０に対応）から時刻ｅ１（ただしｅ１＜Ｍ＋α）までのＭＦＣＣを要素とするベクトルを表し、ｘ_s2-e2は時刻ｓ２（ただしｓ２＞Ｍ−β＞ｓ１）から時刻ｅ２（ただしｅ１＜ｅ２＜Ｅ。時刻Ｅは終了点２６２に対応）までのＭＦＣＣを要素とするベクトルを表し、ＤＰ（ａ，ｂ）はベクトルａ及びｂ間のＤＰ距離を表す。Ｓ１及びＥ１はそれぞれ、第１の発声のセグメントの開始時刻及び終了時刻を示し、Ｓ２及びＥ２はそれぞれ、第２の発声のセグメントの開始時刻及び終了時刻を表す。こうして得られたセグメント情報（Ｓ１，Ｅ１，Ｓ２，Ｅ２）はバッファ２４８に与えられ、そのときのベクトルｘ_S1-E1及びｘ_S2-E2の間のＤＰ距離であるＤＰ（ｘ_S1-E1，ｘ_S2-E2）は判定部２４６に与えられる。

判定部２４６は、ＤＰマッチング処理部２４４から与えられるこのＤＰ距離を所定のしきい値と比較する機能を持つ。

図１０に、ＤＰマッチング処理部２４４によりＤＰマッチングが行なわれた後の１回目の発声の音声波形２０２（図５参照）に対応するパワースペクトルベクトル系列２７０と、２回目の発声の音声波形２０４（図５参照）に対応するパワースペクトルベクトル系列２７２との対応関係の例を示す。図１０を参照して、パワースペクトルベクトル系列２７０はフレーム２８０，２８２〜２９２（合計Ｎフレーム分とする。）のパワースペクトルベクトルを含み、パワースペクトルベクトル系列２７２はフレーム３００，３０２〜３１４（合計Ｌフレーム分とする。）のパワースペクトルベクトルを含むものとする。

図１０に示すように、本例においては、パワースペクトルベクトル系列２７０のフレーム２８０がパワースペクトルベクトル系列２７２のフレーム３００及び３０２に対応し、フレーム２８２及び２８４がフレーム３０４に対応し、以下同様である。パワースペクトルベクトル系列２７０を基準として考えると、パワースペクトルベクトル系列２７０の各フレームには、パワースペクトルベクトル系列２７２の一つのフレームが対応する場合もあり得るし、複数のフレームが対応する場合もあり得るし、対応するフレームがない場合もあり得る。これらはＤＰマッチング処理によって決定される。

こうしてフレーム単位で互いに対応付けられたパワースペクトルベクトル系列２７０及びパワースペクトルベクトル系列２７２が、図６に示す繰返発声統合部２２２による統合処理３２０で一つのパワースペクトルベクトル系列３３０に統合される。パワースペクトルベクトル系列３３０は、本実施の形態の場合にはパワースペクトルベクトル系列２７０と同数（Ｎ個）のフレーム３３２〜３３８を含む。もちろん、統合後のフレーム数がＬ個となるようにしてもよい。

図６に示す繰返発声統合部２２２は、以下のようにしてパワースペクトルベクトル系列２７０及びパワースペクトルベクトル系列２７２を統合し、パワースペクトルベクトル系列３３０を得る。

繰返発声中に、突発性の雑音が発生したものとする。この場合、図１１に示すように、繰返発声の音声波形３５０のうち、突発性雑音の発生部では、そのパワーが他の部分と比較して大きくなる。図１１においては、突発性雑音はピーク３５２により示されている。

ところで、突発性雑音は、繰返発声のどちらか一方のみで発生することが大部分である。そしてこの場合、突発性雑音がある部分のパワースペクトルの値は、雑音がない場合と比較して大きな値となる。そこで、繰返発声の特徴量ベクトル列の間に図１０に示すようなフレーム間の対応関係が特定された場合、それらフレームのパワースペクトル上で、周波数のビンごとに最小の値をとって新たなパワースペクトルを作成する。突発性雑音が発生した場合にはかならずそのパワースペクトル上でのパワーは雑音がない発声と比較して大きくなるので、このようにすることにより、雑音がない方の発声のパワースペクトルのみを使用して発声を統合できる。

統合処理について、図１２を参照してさらに説明する。図１２の上段は繰返発声の第１の発声のスペクトログラム、下段は第２の発声のスペクトログラムとする。上記した統合を実現するために、本実施の形態では、既に述べたように、まず二つの発声のフレーム同士の対応をとる。例えば第１の発声の時刻ｔ_１におけるフレームと、第２の発声の時刻ｔ_２におけるフレームとが互いに対応付けられたものとする。こうして対応付けられた各フレームのパワースペクトル上で、同一のビン（例えばｋ番目のビン３５６及び３５８）に着目する。このように、フレーム同士の対応付けとビンによる対応付けとにより、図１２に示すように第１の発声のスペクトログラムと第２の発声のスペクトログラムとがそれぞれ格子状に分けられ、第１の発声の格子と、第２の発声の格子との間が対応付けられる。互いに対応する格子におけるパワーのうち、小さな値の方を、統合後の発声信号のスペクトログラム上の対応する格子におけるパワー、すなわち統合後の音声信号の、その時点に対応するフレームにおけるスペクトル上のｋ番目のビンのパワーとする。

統合後の発声のフレーム数を１番目の発声のフレーム数と同じとすると、以下の式により統合後の発声の時刻ｔ_１におけるフレームのｋ番目のビンのパワーＹ（ｔ_１，ｋ）を算出する。

ただし、ｘ（ｔ_１，ｋ）は、１番目の発声の、時刻ｔ_１におけるｋ番目のビンのパワー、ｘ（ｔ_２，ｋ）は、２番目の発声の、時刻ｔ_２におけるｋ番目のビンのパワーを、それぞれ表す。

こうして得られた統合後のパワースペクトルベクトル列３３０から得られるＭＦＣＣ特徴量ベクトルを用いて、図６に示す音声認識処理部２２４で音響モデル８８と辞書９０とを利用した通常の音声認識を行なうことにより、統合後のパワースペクトルベクトル列３３０からコマンドを認識することができる。

−動作−
図６〜図１０に構成を示すコマンド認識装置２１０は以下のように動作する。図６を参照して、マイクロフォン６０は、音声を音声信号に変換し、繰返発声検出部２２０に与える。

図７を参照して、フレーム化処理部２４０は、この音声信号を所定長かつ所定シフト長でフレーム化し、特徴抽出部２４２に与える。

図８を参照して、特徴抽出部２４２のＦＦＴ処理部２５０は、与えられた各フレームの音声信号に対しＦＦＴ変換を行ない、得られたパワースペクトルを図７に示すバッファ２４８及び図８に示すフィルタバンク２５２に与える。フィルタバンク２５２及びコサイン変換部２５４は、ＦＦＴ処理部２５０からのパワースペクトルに対するフィルタバンク処理及びコサイン変換処理を行なう。その結果、フレームごとにＭＦＣＣからなる音響特徴量ベクトルが得られる。コサイン変換部２５４は、この音響特徴量ベクトルを図７に示すＤＰマッチング処理部２４４に与える。

ＤＰマッチング処理部２４４は、特徴抽出部２４２から与えられた音響特徴量ベクトルの系列に対し、図９に示すような開始点２６０及び終了点２６２、並びに分割点２６４を用い、かつα＋βだけ重なりを持たせた条件で、繰返発声の前半部と後半部との間で端点を固定しないＤＰマッチングを行なうことにより、第１及び第２の発声のセグメント情報（Ｓ１，Ｅ１，Ｓ２，Ｅ２）を特定し、第１及び第２の発声から得られた音響特徴量ベクトルの系列間でのフレーム単位での対応付けを行なう。フレームの対応付けを示すセグメント情報は図７に示すバッファ２４８に与えられ、一時保持される。このときの音響特徴量ベクトルの系列間のＤＰ距離は図７に示す判定部２４６に与えられる。

判定部２４６は、ＤＰマッチング処理部２４４からのＤＰ距離を受け、このＤＰ距離が所定のしきい値以下か否かを判定する。判定部２４６は、ＤＰ距離がしきい値以下ならばＨレベルの判定結果信号をバッファ２４８に与え、さもなければＬレベルの判定結果信号をバッファ２４８に与える。

バッファ２４８は、判定部２４６からの判定結果信号がＨレベルであればパワースペクトルの系列とＤＰマッチング処理部２４４からのセグメント情報とを図６に示す繰返発声統合部２２２に与える。判定結果信号がＬレベルであれば、バッファ２４８は繰返発声統合部２２２に対して何も与えない。

図６を参照して、判定結果信号は繰返発声統合部２２２に対しても与えられている。仮に判定結果信号がＬレベルであれば繰返発声統合部２２２は何もしない。判定結果信号がＨレベルとなると、繰返発声統合部２２２は、図７に示すＤＰマッチング処理部２４４によるセグメント情報により示されるフレーム間の対応関係を用い、対応するフレームのパワースペクトルベクトルの周波数ビンごとの最小値をとることによってパワースペクトルを統合し、さらにこの統合後のパワースペクトル系列からＭＦＣＣ系列を算出して音声認識処理部２２４に与える。

音声認識処理部２２４は、繰返発声統合部２２２から与えられたＭＦＣＣ系列に対する音声認識処理を実行する。音声認識処理部２２４は、音声認識結果を機器制御部６４に与える。機器制御部６４は、音声認識結果として与えられた文字列をコマンド文字列として取り扱い、当該文字列によって指定されるコマンドを実行する。

本実施の形態では、予め繰返発声検出部２２０によって繰返発声の発生を検出し、その場合のみ繰返発声統合部２２２と音声認識処理部２２４とによる処理を行なう。負荷の高い音声認識処理が、繰返発声の検出された場合のみ実行されるので、通常は処理の負荷は高くなく、装置に過大な負担をかけるおそれが少なくなる。

また本実施の形態では、繰返発声のフレームごとの対応付けを行なった後、対応するフレームの第１及び第２の発声のパワースペクトル上の各ビンにおいて、いずれかパワーの小さなほうを採用して、繰返発声のパワースペクトルの統合を行なう。このパワースペクトルから得られる音響特徴量を使用して、音声認識を行なう。雑音が発生したフレームの、その雑音に起因するパワーが存在するビンにおいては、雑音による大きなパワーを持つ発声ではなく、雑音の生じなかった発声のパワーを用いて統合後のパワースペクトルが作成される。したがって、雑音の影響を排除した音響特徴量を用いて音声認識を行なうことができ、突発性の雑音に対しても頑健なコマンド認識を実現することができる。

［第４の実施の形態］
−構成−
上記した第３の実施の形態では、フレームごとの対応付けが可能であることを前提として発声の統合処理を行なっている。しかし、ＤＰマッチングでは、フレームの対応付けが必ずしも明確に行なえない場合があり得る。例えば大部分のフレームについては対応付けができるが、残りの一部のフレームについては、対応が弱く、必ずしも対応しているといえないような場合である。こうした場合には、むしろそのように対応関係が弱いフレーム同士については、音声認識の過程で考慮しないようにする方が良い結果をもたらす、という考え方がある。そのような考え方を「ミッシングフィーチャー理論」（ＭＦＴ）と呼ぶ。

例えば、特許文献１にはＭＦＴを用いた音声認識装置が開示されている。端的に言えば、ＭＦＴは、入力される音声信号のフレームのうち、雑音の混入等で信頼性が低いと思われるフレームについては、音声認識の際に音響モデルから算出される尤度を、全ての音素について同じとみなす。こうすることにより、信頼性が低いフレームを音声認識での考慮の対象から実質的に除外することができ、雑音の影響に対し頑健な音声認識を行なうことができる。

第３の実施の形態に係るシステムにＭＦＴを適用するのは、比較的簡単である。すなわち、ＤＰマッチングの際に、フレーム間の対応度が低いものについては、そのフレームの信頼性が低いと考える。繰返発声では、全く同じ発声が繰返されるわけではないが、人間が同一の発声をしようと意図しながら発声するのであるから、ＤＰマッチングで多くの場合にはフレーム間の対応関係を付けることが可能と考えられる。そうした対応関係がうまく付けられないという現象には、何らかの原因があると考えられる。そうした原因として最も可能性の高いのは、繰返発声の一方において突発性の雑音が発生した場合である。したがって、ＤＰマッチングの際にフレーム間の対応度が低いと考えられるフレームについては、信頼できないものとして音声認識で考慮しないものとする。そのための判定基準としては、ＤＰマッチングにより最終的に選択された対応関係の中で、対応するフレーム間で算出されるＤＰ距離（以下「フレーム間ＤＰ距離」と呼ぶ。）を用いるのが適切である。

本実施の形態では、繰返発声のフレーム同士の対応関係をＤＰマッチングによって求めた後、繰返発声の１番目の発声と２番目の発声とをそれぞれ別個に音声認識する。しかしＤＰマッチングの際に、対応するフレームとのフレーム間ＤＰ距離が所定のしきい値よりも大きなフレームについては、音声認識の際に考慮しないようにする。そして、それぞれ別個に音声認識された結果を比較して、発声がコマンドの繰返発声か否かを判定する。

図１３に、第４の実施の形態に係るコマンド認識装置３６０のブロック図を示す。図１３を参照して、このコマンド認識装置３６０は、繰返発声を検出するための繰返発声検出部３７０と、繰返発声検出部３７０により繰返発声が検出されたことに応答して、繰返発声の第１の発声部分と第２の発声部分のフレーム間の対応関係をＤＰマッチングにより付け、対応するフレームとのフレーム間ＤＰ距離が所定のしきい値よりも大きなフレームについては、ミッシングフィーチャーフレームとしてＭＦＴフレームマークを付する処理を行なうためのＭＦＴフレームマーキング部３７２と、ＭＦＴフレームマーキング部３７２から出力される、ＭＦＴフレームマークが付されたフレームを含む可能性のあるフレーム列（第１の発声と第２の発声とからそれぞれ得られた二つのフレーム列）に対してそれぞれＭＦＴを用いた音声認識を行ない、第１の発声に対する音声認識結果と、第２の発声に対する音声認識結果とを出力するためのＭＦＴによる音声認識処理部３７４とを含む。

コマンド認識装置３６０はさらに、音声認識処理部３７４が音声認識の際に使用する音響モデル８８及び辞書９０と、音声認識処理部３７４から出力される第１の発声に対する音声認識結果と第２の発声に対する音声認識結果とが互いに等しいか否かを判定し、両者が等しいときに、当該コマンドが利用者から与えられたものとして機器制御部６４にそのコマンド文字列を与えるための判定部３７６を含む。

図１４に、繰返発声検出部３７０のより詳細な構成をブロック図で示す。図１４を参照して、繰返発声検出部３７０は、マイクロフォン６０から与えられる音声信号を所定長及び所定シフト長でフレーム化するためのフレーム化処理部２４０と、フレーム化処理部２４０が出力するフレーム系列から、音響特徴量としてＭＦＣＣ系列及びパワースペクトル系列を抽出するための特徴抽出部２４２と、特徴抽出部２４２により出力されるＭＦＣＣ系列において、繰返発声の検出のためのＤＰマッチングを行ない、マッチングの結果にしたがって、ＭＦＣＣ系列の間のＤＰ距離（フレーム間ＤＰ距離と区別するために、以下「系列間ＤＰ距離」と呼ぶ。）、ＭＦＣＣ系列内の第１及び第２の音声信号で対応付けられたフレームの関係を示すセグメント情報、並びに第１及び第２の音声信号で対応付けられたフレーム間の距離を示すフレーム間ＤＰ距離を出力するためのＤＰマッチング処理部３８４と、ＤＰマッチング処理部３８４から与えられる系列間ＤＰ距離を所定のしきい値と比較して、系列間ＤＰ距離がしきい値以下の場合にＨレベル、それ以外の場合にＬレベルをとる判定結果信号を出力するための判定部３８０とを含む。

繰返発声検出部３７０はさらに、特徴抽出部２４２から与えられるパワースペクトル系列と、ＤＰマッチング処理部３８４から与えられるセグメント情報及びフレーム間ＤＰ距離の系列とを一時保持し、判定部３８０からＨレベルの判定結果信号が与えられると後続の判定部３７６（図１３参照）に対し出力し、それ以外の場合にはそうした出力を行なわないように構成されたバッファ３８２を含む。

図１５を参照して、図１３に示すＭＦＴフレームマーキング部３７２は、繰返発声検出部３７０（図１４参照）のバッファ３８２から繰返発声のパワースペクトル系列及びセグメント情報を受け、セグメント情報を用いて繰返発声の第１の発声（第１のセグメント）のパワースペクトル系列と、第２の発声（第２のセグメント）のパワースペクトル系列とに分割し、かつフレーム間の対応情報を付して出力するためのフレーム分割部４００と、フレーム分割部４００から出力される二つのパワースペクトル系列の間の対応情報と、バッファ３８２から与えられるフレーム間ＤＰ距離とを用い、対応するフレームであってフレーム間ＤＰ距離が所定のしきい値より大きなフレーム群にそれぞれＭＦＴフレームマークを付して、それ以外のフレームにはＭＦＴフレームマークを付さずに、二つのパワースペクトル系列をそれぞれ出力するためのＭＦＴ判定部４０２とを含む。

ＭＦＴフレームマーキング部３７２はさらに、ＭＦＴ判定部４０２から出力される二つのパワースペクトル系列のパワースペクトルからＭＦＣＣを算出するための、フィルタバンク４０４及びコサイン変換部４０６を含む。コサイン変換部４０６からは、第１のセグメントの音響特徴量ベクトル系列と、第２のセグメントの音響特徴量ベクトル系列とが出力される。フィルタバンク４０４は、対数パワースペクトルを入力とするものである。

図１６に、図１０に示すパワースペクトルベクトル系列２７０及び２７２で、ＭＦＴ判定部４０２によってＭＦＴフレームマークが付されたフレームを有する例を模式的に示す。図１６において、ＭＦＴフレームマークが付されたフレームには斜線を付してある。図１６に示す例では、パワースペクトルベクトル系列２７０のフレーム２８０と、パワースペクトルベクトル系列２７２のフレーム３００及び３０２とが対応付けられている。これらの間のフレーム間ＤＰ距離はしきい値以下である。したがって、これらについてはＭＦＴフレームマークは付されておらず、これらフレームについては、音声認識で尤度が算出され認識結果に影響を与える。

パワースペクトルベクトル系列２７０のフレーム２８２及び２８４と、パワースペクトルベクトル系列２７２のフレーム３０４とも互いに対応付けられている。しかし、この例では、両者（フレーム２８２とフレーム３０４、フレーム２８４とフレーム３０４）の間のフレーム間ＤＰ距離はいずれもしきい値より大きい。したがってこれら３つのフレームにはいずれもＭＦＴフレームマークが付されている。これらフレームについては、図１３に示す音声認識処理部３７４による音声認識時に算出される尤度は、どの音素に対しても同じ値であるものとして取り扱われる。したがって、これらフレームは、音声認識の過程では考慮の対象から排除される。

−動作−
上記した第４の実施の形態に係るコマンド認識装置３６０は以下のように動作する。図１３を参照して、マイクロフォン６０が音声信号を繰返発声検出部３７０に与えると、図１４に示すフレーム化処理部２４０は、この音声信号を所定長かつ所定シフト長でフレーム化する。フレーム化処理部２４０は、このフレーム系列を特徴抽出部２４２に与える。

特徴抽出部２４２は、フレーム化処理部２４０から与えられる各フレームに対し、パワースペクトルとＭＦＣＣとを算出し、パワースペクトル系列をバッファ３８２に、ＭＦＣＣ系列をＤＰマッチング処理部３８４に、それぞれ与える。バッファ３８２はこのパワースペクトル系列を一旦保持する。

ＤＰマッチング処理部３８４は、特徴抽出部２４２から与えられるＭＦＣＣ系列に対し、図９に示した方法によるＤＰマッチングを行なう。ＤＰマッチング処理部３８４は、このＤＰマッチングの結果得られたセグメント情報と、対応するフレーム間で算出されるフレーム間ＤＰ距離と、ＤＰマッチングにより対応付けられた第１のセグメントと第２のセグメントとのＭＦＣＣ系列の間で算出される系列間ＤＰ距離とを出力する。セグメント情報とフレーム間ＤＰ距離とはバッファ３８２に与えられ、保持される。系列間ＤＰ距離は判定部３８０に与えられる。

判定部３８０は、系列間ＤＰ距離をしきい値と比較し、判定結果信号のレベルを、系列間ＤＰ距離がしきい値以下であればＨレベル、それ以外であればＬレベルに設定する。

バッファ３８２は、判定部３８０からの判定結果信号がＨレベルとなれば、保持しているパワースペクトル系列、セグメント情報、及びフレーム間ＤＰ距離の系列を後段のＭＦＴフレームマーキング部３７２（図１３参照）に与える。

図１５を参照して、ＭＦＴフレームマーキング部３７２のフレーム分割部４００は、バッファ３８２から与えられるセグメント情報を用い、同じくバッファ３８２から与えられるパワースペクトル系列を第１のセグメント及び第２のセグメントのパワースペクトル系列に分割し、ＭＦＴ判定部４０２に与える。

ＭＦＴ判定部４０２は、第１のセグメントのパワースペクトル系列及び第２のセグメントのパワースペクトル系列の各々について、対応するフレームとの間のフレーム間ＤＰ距離をしきい値と比較し、しきい値より大きなＤＰ間距離を持つフレームにＭＦＴフレームマークを付し、それ以外のフレームには何もせず、フィルタバンク４０４に与える。

フィルタバンク４０４及びコサイン変換部４０６は、与えられる第１のセグメントのパワースペクトル系列及び第２のセグメントのパワースペクトル系列の各々について、フィルタバンク処理及びコサイン変換処理を行なうことにより、ＭＦＣＣを算出し、第１のセグメントのＭＦＣＣ系列及び第２のセグメントのＭＦＣＣ系列を出力する。

図１３を参照して、音声認識処理部３７４は、こうして得られた第１及び第２のセグメントのＭＦＣＣ系列の各々に対してＭＦＴを用いた音声認識を行ない、結果を出力する。この際、音声認識処理部３７４は、ＭＦＴフレームマークが付されたフレームについては、音響モデルによる尤度計算の際に、全ての音素モデルについて同じ尤度が得られたものとして、音声認識を行なう。音声認識処理部３７４は、第１及び第２のセグメントのＭＦＣＣ系列に対して得られた二つの音声認識結果の文字列を判定部３７６に与える。

判定部３７６は、与えられた二つの音声認識結果が互いに等しいか否かを判定する。両者が等しい場合、判定部３７６はその音声認識結果がコマンドであるとして、音声認識結果の文字列を機器制御部６４に与える。両者が等しくないとき、判定部３７６は繰返発声がコマンド入力のためのものではない、偶発的なものであるとして、機器制御部６４に対してコマンド文字列を与えない。したがってこの場合、機器制御部６４は動作しない。

以上のように本実施の形態では、繰返発声の検出の際のＤＰマッチング結果を用いて、各フレームが信頼できるか否かを判定する。そして、繰返発声の第１のセグメント及び第２のセグメントの各々について、独立に音声認識を行なう。音声認識では、信頼できないフレームとしてＭＦＴフレームマークが付けられた部分については考慮しない。したがって、突発的な雑音が生じたときに、その雑音が生じた部分を除外して音声認識を行なうことができる。その結果、突発性の雑音に対して頑健な音声認識を行なうことができる。さらに、得られた音声認識結果が、第１のセグメントと第２のセグメントとで同一か否かを判定し、同一の場合のみコマンドとして機器制御部６４に与える。したがって、ＭＦＴによる音声認識の結果が一致していなければ機器は動作せず、誤動作を防止することができる。

［第５の実施の形態］
第４の実施の形態では、ＭＦＴを用いた音声認識を行なっている。しかし、ＭＦＴを用いた音声認識以外の音声認識を行なうようにしてもよい。繰返発声が検出されることを前提とすれば、繰返発声の第１のセグメントと第２のセグメントとの双方を同時に入力として、単一の結果を得るような音声認識を行なってもよい。ここでは、そうした音声認識を「２入力音声認識」と呼ぶ。

具体的には、ＤＰマッチングによってフレーム間の対応付けが行なわれた二つの音響特徴量系列が与えられたときに、各系列について音響モデルを用いて独立に、音素別の尤度計算を行ない、各音素について尤度が高いほうの尤度を用いて音声認識を行なうようにすればよい。

以下、図１７を参照して、２入力音声認識を用いて繰返発声により入力されるコマンドの認識を行なう、本発明の第５の実施の形態に係るコマンド認識装置４２０の構成及び動作について説明する。

−構成−
図１７を参照して、コマンド認識装置４２０は、図６に示すものと同じ繰返発声検出部２２０と、繰返発声検出部２２０から出力される、互いにフレーム間の対応付けがされた第１のセグメント及び第２のセグメントのパワースペクトル系列から、音響特徴量として、互いにフレーム間の対応付けがされた第１及び第２のＭＦＣＣ系列を算出するための特徴抽出部４３０と、特徴抽出部４３０から出力される第１及び第２のＭＦＣＣ系列に対する２入力音声認識処理を行なって、単一の音声認識結果を機器制御部６４に対して出力するための２入力音声認識処理部４３２と、２入力音声認識処理部４３２が使用する音響モデル８８及び辞書９０とを含む。辞書９０には、機器制御部６４で解釈可能なコマンドの文字列のみが登録されている。

図１８に、２入力音声認識処理部４３２のより詳細な機能的ブロック図を示す。図１８を参照して、２入力音声認識処理部４３２は、第１のセグメントのＭＦＣＣ系列に対し、音響モデル８８を参照して状態ごとの各音素の出力尤度を算出するための第１の尤度算出部４５０と、第２のセグメントのＭＦＣＣ系列に対し、音響モデル８８を参照して状態ごとの各音素の出力尤度を算出するための第２の尤度算出部４５２と、各音素について第１の尤度算出部４５０と第２の尤度算出部４５２とにより状態ごとに算出された出力尤度のうちの最大値を音素ごとに選択するための最大値回路４５４と、最大値回路４５４により各音素に対して最大値が算出された出力尤度を用い、通常の音声認識と同様に、辞書９０に登録された文字列の尤度を算出し、それらのうちで最大の尤度となる文字列を出力するための音素列尤度算出部４５６とを含む。

すなわち、最大値回路４５４は、状態ごとの各音素の音響尤度の算出において、次の式を用いる。

ただし、Ｐ（Ｘ_ｔ｜Ｓ_ｉ）は状態Ｓ_ｉにおける、ＭＦＣＣ系列の時刻ｔの音響特徴量ベクトルＸｔの音素ごとの出力尤度、Ｐ（ｘ_１ｔ｜Ｓ_ｉ）は、状態Ｓｉにおける第１のＭＦＣＣ系列の時刻ｔの音響特徴量ベクトルｘ_１ｔの音素ごとの出力尤度、Ｐ（ｘ_２ｔ｜Ｓ_ｉ）は、状態Ｓｉにおける第２のＭＦＣＣ系列の時刻ｔの音響特徴量ベクトルｘ_２ｔの音素ごとの出力尤度を、それぞれ示す。

このようにして、各状態における音素ごとの出力尤度Ｐ（Ｘｔ｜Ｓｉ）が算出されることにより、２入力音声認識処理部４３２はこの出力尤度系列を用いて、通常の音声認識処理と同様にして音声認識を行なうことができる。認識される語彙は辞書９０に登録されているものに限定される。

−動作−
上記したコマンド認識装置４２０は以下のように動作する。図１７を参照して、繰返発声検出部２２０は、第３の実施の形態と同様、マイクロフォン６０から与えられる音声信号の波形中に存在する、繰返発声に相当する波形を検出する。繰返発声検出部２２０は、繰返発声を検出すると、繰返発声を検出したことを示す検出信号を特徴抽出部４３０に与える。繰返発声検出部２２０は、その音声波形のデータをフレーム単位のスペクトル系列として出力する。繰返発声検出部２２０はさらに、１回目と２回目との繰返発声の音声波形（それぞれ第１及び第２のセグメント情報と呼ぶ。）の位置をフレーム単位で特定するセグメント情報を出力する。

特徴抽出部４３０は、繰返発声検出部２２０から出力されたパワースペクトル系列とセグメント情報とに基づき、第１及び第２のセグメントにパワースペクトル系列を分割し、それぞれの音響特徴量であるＭＦＣＣ系列を抽出し出力する。以下、第１のセグメントから得られたＭＦＣＣ系列を第１のＭＦＣＣ系列、第２のセグメントから得られたＭＦＣＣ系列を第２のＭＦＣＣ系列と呼ぶ。

図１８を参照して、２入力音声認識処理部４３２の第１の尤度算出部４５０は、第１のＭＦＣＣ系列を受け、音響モデル８８を参照して各状態における各音素の出力尤度を順次算出して最大値回路４５４に与える。第２の尤度算出部４５２は、第２のＭＦＣＣ系列を受け、音響モデル８８を参照して各状態における各音素の出力尤度を順次算出して最大値回路４５４に与える。

最大値回路４５４は、状態ごとに、各音素について第１の尤度算出部４５０及び第２の尤度算出部４５２から与えられる出力尤度の最大値を選択し、音素列尤度算出部４５６に与える。

音素列尤度算出部４５６は、最大値回路４５４から与えられる状態ごとの各音素の出力尤度に基づき、入力音声の音素列が辞書９０に格納された各単語に対応する尤度を各単語について算出する。音素列尤度算出部４５６はさらに、辞書９０に格納された各単語についてこうして算出された尤度が最も大きな単語を選択し、機器制御部６４に与える。もちろん、この場合、音素列尤度算出部４５６は所定のしきい値よりも尤度が大きくなった単語のみを出力する。

機器制御部６４は、こうして与えられた単語がコマンド文字列であるものとして解釈し、対応する処理を実行する。

以上のように本実施の形態では、既存の音声認識装置をわずかに改良し、二つのＭＦＣＣ系列から算出される、状態ごとの各音素の尤度の最大値を用いて、２入力から一つの単語を認識する。繰返発声が繰返発声検出部２２０により検出されることを前提とすると、このように出力尤度の最大値を音声認識で使用することにより、突発性雑音などに起因して正しい音素の尤度が低くなってしまうという問題を避けることができる。その結果、簡単な構成で、繰返発声を用いて突発性雑音に対し頑健なコマンド認識を行なうことができる。

［第６の実施の形態］
第３の実施の形態では、繰返発声の第１のセグメントと第２のセグメントとの間でフレームごとの対応関係をとり、さらに対応するフレームのパワースペクトル上において、いずれか小さい方の値をとってパワースペクトルを統合することにより、突発性の雑音の悪影響を排除している。

しかしこの方式では、統合した結果得られたパワースペクトルに基づいて、仮に音声を発生させると、その音質が低下するという問題がある。これは次の原因によると思われる。

図１９（Ａ）及び（Ｂ）に、ほぼ同じ形状のスペクトル包絡４８２及び４９２を持つ音声のスペクトル分布４８０及び４９０の例を示す。このスペクトル分布４８０及び４９０においては、スペクトル包絡の形状は互いによく似ているものの、発声時の基本周波数が異なっている。基本周波数の相違は、スペクトル包絡上に重畳されて現れる微細構造の相違として現れる。この微細構造の相違により、スペクトル上のピークは基本周波数の倍数の位置に生じる。したがって、基本周波数が異なると、スペクトル分布４８０及び４９０上のピークの位置が異なってくる。その結果、谷の位置もまた異なる。

例えば、図１９において一点鎖線で示す位置では、包絡の形状は互いにほぼ一致しているものの、スペクトルの値そのものは両者で異なっている。第３の実施の形態においては、二つのスペクトル分布の各周波数ビンにおいて、パワーの小さな方を選択することにより、スペクトルを統合している。しかしこうした統合を行なうと、結果としてスペクトル分布の谷の位置を優先的に選択することになる。この谷の位置は、前述したとおり基本周波数によって異なってくる。そして、人間が繰返発声を行なう場合、１回目と２回目とで基本周波数が異なってくることもよくあると考えられる。その結果、統合して得られたスペクトル分布の包絡の形状が、元の二つのスペクトル分布の包絡のいずれとも異なるものとなってしまう可能性がある。音声による言語的情報の伝達は、スペクトル包絡の形状によって主として行なわれ、音声認識も原理的にはスペクトル包絡の形状に基づいて行なわれる。したがって、このように統合の結果得られたスペクトル包絡の形状が基になる音声信号のスペクトル包絡の形状と異なっていると、それに基づいて音声を合成したときに全く異なった音声となる危険性がある上、音声認識の結果も誤ってしまう可能性がある。そのような可能性は、できるだけ排除しておくことが望ましい。

以下に説明する第６の実施の形態は、図２０に示すように、スペクトル分布４８０をスペクトル包絡４８２と微細構造４８４とに一旦分離し、スペクトル包絡４８２の形状のみを統合した後、再度音源信号に基づいて統合後のスペクトル分布を作成することによって、スペクトル包絡の形状の変化を回避する機能を持つ。ここでは、ケプストラム分析によってスペクトル包絡４８２と微細構造４８４との分離を実現する。

パワースペクトルに対し逆ＦＦＴ変換を行なうことにより、所定次数までのケプストラム係数が得られる。これらケプストラム係数のうち、低次のものはスペクトル包絡を表し、高次のものは微細構造を表す。したがって、パワースペクトルに対してケプストラム分析を行ない、低次のケプストラム係数のみからなるベクトルと、高次のケプストラム係数のみからなるベクトルとに分離し、それぞれ独立にＦＦＴ処理を施すことで、パワースペクトルをスペクトル包絡成分と微細構造成分とに分離できる。

−構成−
図２１を参照して、第６の実施の形態に係るコマンド認識装置５００は、図６に示すものと同じ繰返発声検出部２２０と、繰返発声検出部２２０により出力されるスペクトル系列とセグメント情報とを受け、１回目と２回目との音声波形（第１及び第２のセグメント）から得られるスペクトルの包絡を統合し、さらに所定の音源信号とこのスペクトル包絡とを畳み込むことにより、第１及び第２のセグメントを統合した波形データを作成し、さらにそこから算出した音響特徴量の系列を出力するための繰返発声統合部５１０と、繰返発声統合部５１０により出力される音響特徴量の系列に対して音声認識を行ない、その結果を機器制御部６４に対して出力するための音声認識処理部２２４とを含む。

コマンド認識装置５００はさらに、音声認識処理部２２４が音声認識の際に使用する音響モデル８８と、機器制御部６４で利用可能なコマンド文字列を格納した辞書９０とを含む。

図２２に、繰返発声統合部５１０のより詳細なブロック図を示す。図２２を参照して、繰返発声統合部５１０は、繰返発声検出部２２０から与えられるパワースペクトル系列及びセグメント情報にしたがい、パワースペクトルを第１のセグメントと第２のセグメントとに分離し、両者に対するケプストラム分析を行ない、第１及び第２のケプストラム係数系列を出力するためのケプストラム算出部５３２と、ケプストラム算出部５３２により出力される第１及び第２のケプストラム係数系列の各々について、低次のケプストラム係数のみからなるスペクトル包絡情報と、高次のケプストラム係数のみからなる微細構造情報とに分離するための分離部５３４とを含む。

繰返発声統合部５１０はさらに、分離部５３４によって分離された第１及び第２のセグメントのパワースペクトルの低次ケプストラム係数をそれぞれ記憶するための第１及び第２の包絡記憶部５３６及び５３８と、分離部５３４によって分離された第１及び第２のセグメントのパワースペクトルの高次ケプストラム係数をそれぞれ記憶するための第１及び第２の微細構造記憶部５４０及び５４２とを含む。

繰返発声統合部５１０はさらに、第１及び第２の包絡記憶部５３６及び５３８に記憶された第１及び第２のセグメントの低次ケプストラム係数に対してＦＦＴを行なってスペクトル包絡をそれぞれ作成し、第３の実施の形態で行なわれたとの同様、パワースペクトル上でビンごとに両者のスペクトル包絡のうち小さな方の値をとることにより、両者を統合するための包絡統合部５４４と、第１及び第２のセグメントのうち、包絡統合部５４４でより多くのビンが選択された方のセグメントから得られた高次ケプストラム係数を第１及び第２の微細構造記憶部５４０及び５４２のいずれかから読出すための微細構造選択部５４６とを含む。

ここでは、包絡統合部５４４は、低次ケプストラム係数のみから第１及び第２のセグメントについて生成されたスペクトル包絡を用いてスペクトル包絡の統合処理を行なう。したがって、第３の実施の形態の場合と異なり、パワースペクトル上の微細構造の谷を優先して選択してしまうことがなく、元のスペクトル包絡をよく反映し、かつ雑音の影響が取り除かれたスペクトル包絡形状を得ることができる。また、微細構造は、こうして選択されたスペクトル包絡形状を再度音源信号で励起するために用いられる。この際、どのような音源信号を用いるかについては様々な考え方があり得る。ここでは、スペクトル包絡形状の統合の際に、より多くのビンが選択された方のセグメントに対応する微細構造を用いるものとする。こうすることにより、このスペクトル包絡と微細構造とを畳み込んで得られるスペクトル形状は、自然なものとなることが期待でき、その結果、そうして得られたスペクトル形状に基づいて行なう音声認識の精度も高くなることが期待できる。

繰返発声統合部５１０はさらに、包絡統合部５４４により得られたスペクトル包絡と、微細構造選択部５４６により選択された高次ケプストラム係数にＦＦＴを施すことにより得られる微細構造とを畳み込んだパワースペクトル形状をフレームごとに算出し、パワースペクトル系列として出力するための畳み込み処理部５４８と、畳み込み処理部５４８の出力するパワースペクトル系列から音声認識のための音響特徴量となるＭＦＣＣ系列を算出するためのフィルタバンク５５０及びコサイン変換部５５２とを含む。フィルタバンク５５０は、対数パワースペクトルを入力とするものとする。

図２２に示す繰返発声統合部５１０は、コンピュータプログラムにより実現できる。そのプログラムの概略フローチャートを図２３に示す。図２３を参照して、このプログラムは、第１及び第２のセグメントから得られるパワースペクトル系列の各々を、ケプストラム分析により低次ケプストラム係数ベクトルと高次ケプストラム係数ベクトルとに分離するステップ５７０と、第１及び第２のセグメントから得られた低次ケプストラム係数にそれぞれＦＦＴを施すことにより、第１及び第２のセグメントのスペクトル包絡を生成するステップ５７２と、第１及び第２のセグメントの、互いに対応付けられたフレームに対し、ステップ５７２で生成されたスペクトル包絡上で周波数のビンごとに最小値をとることにより、スペクトル包絡を統合するステップ５７４と、ステップ５７４において選択されたビンの数が多いほうのセグメントから得られた高次ケプストラム係数に対してＦＦＴを施すことにより、微細構造を生成するステップ５７６と、ステップ５７４において得られた統合後のスペクトル包絡と、ステップ５７６で得られた微細構造とを畳み込むことにより、統合後のパワースペクトルを生成するステップ５７８とを含む。

−動作−
第６の実施の形態に係る繰返発声統合部５１０は以下のように動作する。図２１を参照して、繰返発声検出部２２０は、マイクロフォン６０から与えられる音声信号をフレーム化し、ＤＰマッチングによって繰返発声があるか否かを検出する。繰返発声検出部２２０は、繰返発声が検出された場合には、繰返発声を構成する音声信号のパワースペクトル系列と、繰返発声の第１及び第２のセグメント並びに対応するフレームを特定するセグメント情報とを繰返発声統合部５１０に与える。

図２２を参照して、ケプストラム算出部５３２は、繰返発声検出部２２０から与えられるパワースペクトル系列とセグメント情報とに基づき、第１及び第２のセグメントの所定次数までのケプストラム係数をフレームごとに算出し、分離部５３４に与える。

分離部５３４は、フレームごとに、第１及び第２のセグメントについて与えられるケプストラム係数の低次部分からなる低次ケプストラム係数ベクトルと、高次部分からなる高次ケプストラム係数ベクトルとをそれぞれ作成する。分離部５３４は、第１及び第２のセグメントについて得られた低次ケプストラム係数ベクトルをそれぞれ第１及び第２の包絡記憶部５３６及び５３８に格納する。分離部５３４はさらに、第１及び第２のセグメントについて得られた高次ケプストラム係数ベクトルを、それぞれ第１及び第２の微細構造記憶部５４０及び５４２に格納する。

包絡統合部５４４は、第１及び第２の包絡記憶部５３６及び５３８に記憶された第１及び第２のセグメントの低次ケプストラム係数に対してそれぞれＦＦＴを施すことにより、第１及び第２のセグメントから得られる第１及び第２のケプストラム包絡を生成する。包絡統合部５４４はさらに、こうして得られた第１及び第２のケプストラム包絡に対し第３の実施の形態で行なわれたのと同様、各周波数ビンごとにパワーの最小値をとることにより、統合後のパワースペクトルを生成し畳み込み処理部５４８に与える。

微細構造選択部５４６は、包絡統合部５４４でのパワースペクトルの統合の際に選択されたビンの数が多かった方のセグメントから得られた高次ケプストラム係数を第１及び第２の微細構造記憶部５４０及び５４２のいずれかから読出す。微細構造選択部５４６はさらに、読出した高次ケプストラム係数にＦＦＴを施すことにより、微細構造を生成し、畳み込み処理部５４８に与える。

畳み込み処理部５４８は、各フレームに対し、包絡統合部５４４から与えられた統合後のスペクトル包絡と、微細構造選択部５４６から与えられた微細構造とを畳み込むことにより、パワースペクトル系列を生成し、フィルタバンク５５０に与える。フィルタバンク５５０及びコサイン変換部５５２は、このパワースペクトル系列に対するフィルタバンク処理及びコサイン変換処理を行なうことにより、ＭＦＣＣ系列を生成して図２１に示す音声認識処理部２２４に与える。

音声認識処理部２２４は、このＭＦＣＣ系列に対し、音響モデル８８及び辞書９０を使用した音声認識を行ない、得られた文字列をコマンド文字列として機器制御部６４に与える。

機器制御部６４はこのコマンド文字列を解釈し、対応する処理を実行する。

以上のように本実施の形態では、繰返発声を検出し、繰返発声を構成する第１及び第２のセグメントから得られたパワースペクトルの系列について、フレームごとの対応付けを行なう。さらに、対応付けされたフレームの各々について、パワースペクトルを包絡部分と微細構造部分とに分離する。その後、包絡部分のみについて、第１及び第２のセグメントの包絡の各周波数のビンでの最小値を選択することにより、統合後のスペクトル包絡を生成する。スペクトル包絡には微細構造が重畳されていないため、パワースペクトルのうち、谷の部分が優先して選択されてしまうことによるスペクトル包絡の変形はなく、統合後のスペクトル包絡の形状は元のスペクトル包絡の形状をよく反映したものとなる。このスペクトル包絡と、微細構造とを畳み込んで得られたパワースペクトルから音声認識のための音響特徴量を算出する。微細構造は、スペクトル包絡の統合の際に主として使用されたセグメントから得られたものを使用する。

したがって、本実施の形態によれば、繰返発声が検出された後、第１及び第２のセグメントを統合したパワースペクトルが元のパワースペクトルをよく反映したものとなる。したがって、統合後のパワースペクトルに対する音声認識の精度が高くなることが期待でき、繰返発声によるコマンドを確実に検出できる。その結果、誤動作が極めて少ない、音声を用いたインターフェースを提供することができる。

［第６の実施の形態の変形例］
第６の実施の形態では、パワースペクトルをスペクトル包絡（低次ケプストラム係数）と微細構造（高次ケプストラム係数）とに分離した後、スペクトル包絡を統合する。さらに、こうして得られたスペクトル包絡に、微細構造を畳み込んでパワースペクトルを逆生成して、このパワースペクトルから音声認識のための音響特徴量を算出している。しかし、本発明はそのような実施の形態には限定されない。

前述したとおり、音声認識のための情報は、主としてパワースペクトルの包絡から得られる。したがって、第６の実施の形態において行なったようにスペクトル包絡の統合後に再度微細構造を畳み込んでパワースペクトルを逆生成することを省略することもできる。すなわち、統合後のスペクトル包絡を直接にフィルタバンク処理及びコサイン変換にかけてＭＦＣＣ系列を作成し、このＭＦＣＣ系列を音声認識に用いることもできる。この場合には、微細構造の畳み込み処理が不要となるので装置にかかる負荷を小さくすることができる。さらには、ＭＦＣＣに代えて、ケプストラムを特徴量とする音声認識を用いることで、統合したスペクトル包絡からケプストラムを直接計算し、音声認識への入力とすることも可能である。

［コンピュータによる実現］
上記した各実施の形態のコマンド認識装置は、実質的にコンピュータハードウェア及びそうしたコンピュータハードウェア上で実行されるプログラムとにより実現できる。この場合、ハードウェアはこれらコマンド認識装置を含む機器のものを利用することができる。

図２４に、そうした機器を構成するコンピュータハードウェアのブロック図を示す。図２４を参照して、この機器６３０は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）６６２のためのＤＶＤドライブ６５０及びメモリ６６４のためのメモリドライブ６５２を備えたコンピュータ６４０と、コンピュータ６４０に一体的に接続されたモニタ６４２と、コンピュータ６４０に固定された、操作のためのボタン等を備えた操作盤６４６と、コンピュータ６４０に固定的に取付けられたマイクロフォン６０及びスピーカ６７４とを含む。

コンピュータ６４０は、ＤＶＤドライブ６５０及びメモリドライブ６５２に加えて、ＣＰＵ（中央処理装置）６５６と、ＣＰＵ６５６、ＤＶＤドライブ６５０及びメモリドライブ６５２に接続されたバス６６６と、ＤＶＤドライブ６５０のためのブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）６５８と、バス６６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）６６０と、バス６６６、マイクロフォン６０及びスピーカ６７４に接続されるサウンドボード６７０と、バス６６６に接続され、音響モデル及び辞書などの大容量のデータを記憶するためのハードディスク６５４と、携帯型音楽プレイヤなどからなる携帯機器６７２をコンピュータ６４０に接続するための携帯機器インターフェース（Ｉ／Ｆ）６６８とを含む。コンピュータシステム６３０はさらに、図示しない小型プリンタを含んでもよい。

コンピュータシステム６３０に上記した各実施の形態に係るコマンド認識装置としての動作を行なわせるためのコンピュータプログラムは、ＤＶＤドライブ６５０又はメモリドライブ６５２に装着されるＤＶＤ６６２又はメモリ６６４に記憶され、さらにハードディスク６５４に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ６４０に送信されハードディスク６５４に記憶されてもよい。プログラムは実行の際にＲＡＭ６６０にロードされる。ＤＶＤ６６２から、メモリ６６４から、又はネットワークを介して、直接にＲＡＭ６６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ６４０にこの実施の形態のコマンド認識装置として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ６４０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又はコンピュータ６４０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記したコマンド認識としての動作を実行する命令のみを含んでいればよい。コンピュータシステム６３０の動作は周知であるので、ここでは繰返さない。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

本発明の第１の実施の形態に係る機器５０のブロック図である。第１の実施の形態における辞書９０の構成を説明するための単語グラフの模式図である。本発明の第２の実施の形態に係る機器１３０のブロック図である。第２の実施の形態における辞書１６０の構成を説明するための単語グラフの模式図である。本発明の第３の実施の形態に係るコマンド認識装置２１０の動作を説明するための、模式的波形図である。本発明の第３の実施の形態に係るコマンド認識装置２１０のブロック図である。図６に示す繰返発声検出部２２０のより詳細なブロック図である。図７に示す特徴抽出部２４２のより詳細なブロック図である。図７に示すＤＰマッチング処理部２４４の機能を説明するための模式的波形図である。図６に示す繰返発声統合部２２２の機能を説明するための模式図である。ノイズの影響を説明するための模式的波形図である。図６に示す繰返発声統合部２２２の機能をより詳細に説明するための模式図である。本発明の第４の実施の形態に係るコマンド認識装置３６０のブロック図である。図１３に示す繰返発声検出部３７０のより詳細なブロック図である。図１３に示すＭＦＴフレームマーキング部３７２のより詳細なブロック図である。ＭＦＴフレームマーキング部３７２の機能を説明するための模式図である。本発明の第５の実施の形態に係るコマンド認識装置４２０のブロック図である。図１７に示す２入力音声認識処理部４３２のより詳細なブロック図である。統合処理において得られるスペクトル包絡の、微細構造による変形を説明するための模式的なスペクトル分布図である。本発明の第６の実施の形態に係るコマンド認識装置５００における包絡と微細構造との分離を説明するための図である。本発明の第６の実施の形態に係るコマンド認識装置５００のブロック図である。図２１に示す繰返発声統合部５１０のより詳細なブロック図である。図２１に示す繰返発声統合部５１０の機能を説明するためのフローチャートである。本発明の各実施の形態に係る機器及びコマンド認識装置を実現するためのコンピュータのハードウェア構成を示すブロック図である。

符号の説明

５０機器
６０マイクロフォン
６２，１４０，２１０，３６０，４２０，５００コマンド認識装置
６４機器制御部
６６操作部
８０，２４０フレーム化処理部
８２，２４２，４３０特徴抽出部
８４，１５０，２２４，３７４音声認識処理部
８６，１５８，２４６，３７６，３８０判定部
８８音響モデル
９０，１６０辞書
９２，１６２辞書登録部
２２０，３７０繰返発声検出部
２２２，５１０繰返発声統合部
２４４，３８４ＤＰマッチング処理部
３７２ＭＦＴフレームマーキング部
４３２２入力音声認識処理部
５３４分離部
５４４包絡統合部
５４６微細構造選択部

Claims

与えられる音声信号をフレーム化し、各フレームから所定の音響特徴量を抽出して音響特徴量の系列を出力するための音響特徴量抽出手段と、
前記音響特徴量抽出手段により出力された音響特徴量の系列に基づいて、前記音声信号中の繰返発声部分を音声認識し、当該繰返発声を構成する発声単位を出力するための繰返発声認識手段とを含む、音声認識装置。
前記繰返発声認識手段は、
所定の統計的音響モデルを格納するための音響モデル格納手段と、
各々、所定回数繰返された単語からなる１又は複数の繰返単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、
前記音響特徴量抽出手段から出力される音響特徴量の系列を受け、前記音響モデル格納手段に格納された前記統計的音響モデルと、前記辞書格納手段に格納された前記辞書とを用い、前記辞書内の前記１又は複数の繰返単語の内から、前記音響特徴量抽出手段から与えられる音響特徴量の系列により算出される尤度が最も高いものを選択し、当該繰返単語を構成する単語を出力するための単語出力手段とを含む、請求項１に記載の音声認識装置。
前記単語出力手段は、
前記音響特徴量抽出手段から出力される音響特徴量の系列と、前記音響モデル格納手段に格納された前記統計的音響モデルと、前記辞書格納手段に格納された前記辞書とを用い、前記辞書内の前記複数の繰返単語の内から、前記音響特徴量抽出手段から与えられる音響特徴量の系列により表される尤度が最も高いものを選択するための繰返単語選択手段と、
前記繰返単語選択手段が選択した繰返単語の尤度が所定のしきい値より大きいか否かを判定し、前記しきい値より大きな尤度を持つ繰返単語を構成する単語を出力するための判定手段とを含む、請求項２に記載の音声認識装置。
前記繰返発声認識手段は、
所定の統計的音響モデルを格納するための音響モデル格納手段と、
１又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、
前記音響特徴量抽出手段から出力される音響特徴量の系列に対し、前記音響モデル格納手段に格納された前記統計的音響モデルと、前記辞書格納手段に格納された前記辞書とを用いた音声認識を行ない、認識結果を出力するための音声認識手段と、
前記音声認識手段により、同一単語が連続して出力されたことに応答して、当該単語を音声認識結果として出力するための手段とを含む、請求項１に記載の音声認識装置。
前記繰返発声認識手段はさらに、
前記辞書に格納された語彙よりも少ない数の、予め定められた特定単語のみを記憶した特定単語記憶手段と、
前記出力するための手段が出力する音声認識結果が前記特定単語記憶手段に格納されているか否かを判定し、格納されている場合のみ当該音声認識結果の出力を許容するための手段とを含む、請求項４に記載の音声認識装置。
前記繰返発声認識手段は、
前記音響特徴量抽出手段から出力された前記音響特徴量の系列の内で、連続した第１及び第２の音響特徴量系列からなるセグメント対であって、互いの相関を表す予め定められた相関尺度が所定値よりも高いセグメント対を検出し、当該セグメント対を構成する各セグメント内の音響特徴量系列の間の対応関係を特定するためのセグメント対検出手段と、
前記セグメント対検出手段により検出されたセグメント対を互いに統合することにより、一つの統合セグメントを構成する統合音響特徴量の系列を生成するための統合手段と、
所定の統計的音響モデルを格納するための音響モデル格納手段と、
１又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、
前記統合手段により生成された前記統合音響特徴量の系列に対し、前記音響モデル格納手段に格納された前記統計的音響モデルと、前記辞書格納手段に格納された前記辞書とを用いた音声認識を行ない、認識結果を出力するための音声認識手段とを含む、請求項１に記載の音声認識装置。
前記統合手段は、
前記セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルの間で、周波数ビンごとに最小値をとることにより、統合後のセグメントのパワースペクトル系列を生成するための最小値選択手段と、
前記最小値選択手段により生成されたパワースペクトル系列から、前記音声認識手段のための統合音響特徴量の系列を生成して前記音声認識手段に与えるための手段とを含む、請求項６に記載の音声認識装置。
前記最小値選択手段は、
前記セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルを包絡と微細構造とに分離するための分離手段と、
前記分離手段により分離された包絡の間で、周波数ビンごとに最小値をとることにより、パワースペクトルの包絡を統合するための包絡統合手段と、
前記包絡統合手段により出力されたパワースペクトルの包絡と所定の音源信号とを畳み込むことにより、パワースペクトルを生成し、さらに当該パワースペクトルから前記音声認識装置のための音響特徴量を抽出するためのパワースペクトル生成手段とを含む、請求項７に記載の音声認識装置。
前記パワースペクトル生成手段は、前記包絡統合手段により出力されたパワースペクトルの包絡と、前記分離手段により分離された微細構造のうちで、前記包絡統合手段により選択されたビン数の多い方の微細構造とを畳み込むことにより、パワースペクトルを生成し、さらに当該パワースペクトルから前記音声認識装置のための音響特徴量を抽出するための手段を含む、請求項８に記載の音声認識装置。
前記最小値選択手段は、
前記セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルから包絡を分離するための分離手段と、
前記分離手段により分離された包絡の間で、周波数ビンごとに最小値をとることにより、パワースペクトルの包絡を統合するための包絡統合手段と、
前記包絡統合手段により出力された包絡から前記音声認識装置のための音響特徴量を抽出するための手段とを含む、請求項７に記載の音声認識装置。
前記セグメント対検出手段は、
前記音響特徴量抽出手段から与えられた前記音響特徴量の系列の内に見出される発声区間内の、所与の第１の部分及び第２の部分にそれぞれ含まれるフレームの音響特徴量をＤＰマッチングして得られるＤＰ距離を出力するためのＤＰマッチング手段と、
前記発声区間内の所定の中間点より前に始点を持つ第１の部分と、前記第１の部分の始点より後に始点を持ち、前記発声区間内の前記所定の中間点より後に終点を持つ第２の部分との組合せのうちで、前記ＤＰマッチング手段によって得られるＤＰ距離が最も小さくなるような第１の部分及び第２の部分を特定し、各部分に含まれる音響特徴量の系列をそれぞれ第１のセグメント及び第２のセグメントとして出力するためのセグメント対出力手段とを含む、請求項６又は請求項７に記載の音声認識装置。
前記セグメント対検出手段は、
前記音響特徴量抽出手段から与えられた前記音響特徴量の系列の内に見出される発声区間内の、所与の第１の部分及び第２の部分にそれぞれ含まれるフレームの音響特徴量をＤＰマッチングし、得られるＤＰ距離を出力するためのＤＰマッチング手段と、
前記発声区間内の所定の中間点より前に始点を持つ第１の部分と、前記第１の部分の始点より後に始点を持ち、前記発声区間内の前記所定の中間点より後に終点を持つ第２の部分との組合せのうちで、前記ＤＰマッチング手段によって得られるＤＰ距離が最も小さくなるような第１の部分及び第２の部分を特定し、各部分に含まれる音響特徴量の系列をそれぞれ前記第１のセグメント及び前記第２のセグメントとして出力するためのセグメント対出力手段と、
前記セグメント対出力手段により出力されるセグメント対に含まれる各フレームのうち、前記ＤＰマッチング手段によって互いに対応付けられたフレームとの間のＤＰ距離が所定のしきい値より大きなフレームを前記音声認識手段による音声認識の対象から除外する処理を行なうための手段とを含む、請求項７に記載の音声認識装置。
前記繰返発声認識手段は、
前記音響特徴量抽出手段から与えられた前記音響特徴量の系列の内で、連続した第１及び第２の音響特徴量系列からなるセグメント対であって、互いの相関を表す予め定められた相関尺度が所定値よりも高いセグメント対を検出し、当該セグメント対を構成する各セグメント内の音響特徴量系列の間の対応関係を特定するためのセグメント対検出手段と、
所定の統計的音響モデルを格納するための音響モデル格納手段と、
１又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、
前記セグメント対検出手段から第１及び第２の音響特徴量系列からなるセグメント対を入力として受け、当該第１及び第２の音響特徴量系列に対し、前記音響モデル格納手段に格納された前記統計的音響モデルと、前記辞書格納手段に格納された前記辞書とを用い、前記辞書内の前記１又は複数の単語の内から、前記第１及び第２の音響特徴量系列により表される尤度が最も高いものを選択して出力するための２入力音声認識手段とを含み、
前記２入力音声認識手段は、前記第１及び第２の音響特徴量系列のうち、互いに対応するフレームから得られた音響特徴量に対し、各音素について前記統計的音響モデルから得られた尤度の最大値を用いて各音素の尤度計算を行なうことにより、前記辞書内の各単語の尤度を計算して音声認識を行なう、請求項１に記載の音声認識装置。
所定の機能を実行するための機能部を有し、音声入力にしたがった処理を実行する音声動作可能な装置であって、
音声を電気信号である音声信号に変換するための変換手段と、
前記変換手段の出力する音声信号を入力として受けるように接続された、請求項１〜請求項１３のいずれかに記載の音声認識装置と、
前記音声認識装置の出力する音声認識結果をコマンドとして解釈し、当該コマンドに対応する機能を実行するように前記機能部を制御するための機器制御手段とを含む、装置。
記憶手段と、音声入力装置が接続可能な入出力装置と、所定のプログラムを実行することにより前記記憶手段と前記入出力装置とを制御する処理を行なうための処理手段とを含むコンピュータによって実行されるプログラムであって、当該コンピュータを、前記音声入力装置から与えられる音声信号に対して、請求項１〜請求項１３のいずれかに記載の音声認識装置として動作させる、音声認識プログラム。