JP6276513B2

JP6276513B2 - 音声認識装置および音声認識プログラム

Info

Publication number: JP6276513B2
Application number: JP2013084104A
Authority: JP
Inventors: 荒金　康人; 康人荒金
Original assignee: RayTron Inc
Current assignee: RayTron Inc
Priority date: 2013-04-12
Filing date: 2013-04-12
Publication date: 2018-02-07
Anticipated expiration: 2033-04-12
Also published as: JP2014206642A

Description

本発明は、音声認識装置および音声認識プログラムに関し、特に、孤立単語認識方式により音声認識を行う音声認識装置および音声認識プログラムに関する。

従来から、音響的に互いに類似する単語を認識する技術が存在する。

特開平１０−２７４９９４号公報（特許文献１）には、ＤＲＮＮ（Dynamic Recurrent Neural Networks）単語モデルを用いた音声認識技術において、「なんじ」と「なんど」といった類似語を認識するための処理が開示されている。具体的には、たとえば「なんじ」に対応するＤＲＮＮ出力のうち、類似語の特徴部分（「じ」、「ど」の音韻部分）に対応するＤＲＮＮ出力を含む区間ｔ１を設定し、区間ｔ１にどのような母音が存在するかを調べることが記載されている。

特開平１０−２７４９９４号公報

上記文献では、ＤＲＮＮ単語モデルという特殊な音響モデルを用いた場合に、認識対象単語（キーワード）と類似する、認識対象でない類似語が一定以上の確からしさを持つ場合があり、そのような問題に対処するために単語の特徴部分の母音が調べられる。

一方で、ＨＭＭ（Hidden Markov Model）などの一般的な音響モデルを用いた音声認識では、あるキーワード（登録された単語）の認識率は、そのキーワードに音響的に類似する単語が登録されている場合と登録されていない場合とでは、前者の方が低い傾向にある。したがって、一般的な音響モデルを用いた音声認識においては、キーワード間の誤認識を低減させることが、全体の認識率の向上につながる。

本発明は、上記のような課題を解決するためになされたものであって、その目的は、キーワード間の誤認識を低減させることのできる音声認識装置および音声認識プログラムを提供することである。

この発明のある局面に従う音声認識装置は、音声信号の特徴量と、複数のキーワードそれぞれについての第１のモデルパラメータとに基づいて認識処理を実行することで、複数のキーワードから第１の単語を推定するための第１の認識処理手段と、音響的に互いに類似するキーワードについての類似語情報を予め格納するための記憶部と、類似語情報を参照することで、第１の認識処理手段により推定された第１の単語と類似するキーワードである第２の単語が存在するか否かを判断するための判断手段と、判断手段により第２の単語が存在すると判断された場合に、音声信号から予め定められた特定の区間における部分音声信号を抽出するための抽出手段と、抽出手段により抽出された部分音声信号の特徴量を用いて認識処理を実行するための第２の認識処理手段とを備える。第２の認識処理手段は、部分音声信号の特徴量と、第１の単語および第２の単語それぞれについての特定の区間に対応する第２のモデルパラメータとに基づいて、第１の単語および第２の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行する判定手段を含む。

好ましくは、類似語情報は、音響的に類似するキーワードと誤認識の可能性のある特定のキーワードごとに、類似するキーワードについての識別情報を含み、記憶手段は、特定のキーワードごとに、特定の区間を定めた区間情報をさらに記憶する。抽出手段は、所定のアルゴリズムで音声信号を複数の区間に分割し、分割された複数の区間と区間情報とに基づいて、部分音声信号を抽出する。

好ましくは、第１の認識処理手段は、音声信号を第１の時間長のフレーム単位で切出し、フレームごとに分析を行うことで音声信号の特徴量を算出する第１の分析手段を含み、第２の認識処理手段は、部分音声信号を第１の時間よりも短い第２の時間長のフレーム単位で切出し、フレームごとに分析を行うことで部分音声信号の特徴量を算出する第２の分析手段をさらに含む。

好ましくは、判定手段により認識結果として判定されたキーワードを出力するための出力手段をさらに備え、出力手段は、判断手段により第２の単語が存在しないと判断された場合には、第１の認識処理手段により推定された第１の単語を認識結果として出力する。

好ましくは、判定手段は、判断手段により第１の単語と類似するキーワードが複数あると判断された場合には、第１の認識処理手段における認識処理において、尤度が高かった方のキーワードを第２の単語として、判定処理を実行する。

好ましくは、判定手段は、判断手段により第１の単語と類似するキーワードが複数あると判断された場合には、第１の単語および複数の類似するキーワードそれぞれについての第２のモデルパラメータを用いて、第１の単語および複数の類似するキーワードのうち最も尤度が高いキーワードを認識結果として判定する。

好ましくは、判定手段は、判断手段により第１の単語と類似するキーワードが複数あると判断された場合には、複数の類似するキーワードそれぞれについての第２のモデルパラメータを用いて複数の類似するキーワードのうち尤度が高い方のキーワードを判定し、尤度が高い方のキーワードを第２の単語として判定処理を実行する。

好ましくは、特定の区間は、学習時に、計算シミュレーションにより、音響的に互いに類似するキーワード間での認識率が最も高い区間として定められている。

この発明の他の局面に従う音声認識プログラムは、音声信号の特徴量と、複数のキーワードそれぞれについての第１のモデルパラメータとに基づいて認識処理を実行することで、複数のキーワードから第１の単語を推定するステップと、予め記憶された、音響的に互いに類似するキーワードについての類似語情報を参照することで、推定された第１の単語と類似するキーワードである第２の単語が存在するか否かを判断するステップと、第２の単語が存在すると判断された場合に、音声信号から予め定められた特定の区間における部分音声信号を抽出するステップと、抽出された部分音声信号の特徴量と、第１の単語および第２の単語それぞれについての特定の区間に対応する第２のモデルパラメータとに基づいて、第１の単語および第２の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行するステップとをコンピュータに実行させる。

本発明によれば、キーワード間の誤認識を低減させることができる。

本発明の実施の形態に係る音声認識装置のハードウェア構成例を示すブロック図である。本発明の実施の形態に係る音声認識装置の機能構成を示す機能ブロック図である。本発明の実施の形態における類似語データベースのデータ構造例を示す図である。本発明の実施の形態における音声認識処理を示すフローチャートである。差異区間の具体例を示す図である。差異区間の具体例を示す図である。

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

本実施の形態に係る音声認識装置は、孤立単語認識方式を採用し、音声信号を分析することで、複数のキーワードから、音声信号が表わす単語を推定して出力する。本実施の形態において「キーワード」とは、登録されている単語、すなわち認識対象の単語を表わすものとする。

本実施の形態に係る音声認識装置は、音響モデルとしてＨＭＭを用い、かつ、認識の際にたとえばビタビアルゴリズムにより尤度を計算することとする。ビタビアルゴリズムによれば、尤度を計算する際に、ＨＭＭの状態（状態番号）と音声区間との対応付けがなされる。このビタビアルゴリズムによる対応付け（以下「ビタビアライメント」という）によって、音声信号が、少なくとも音素の区間と調音結合の区間とに分割され、各区間に状態番号が割り当てられる。なお、ビタビアライメントなどにより音声信号のアライメントが可能な音響モデルであれば、たとえばＤＴＷ（Dynamic time warping）などＨＭＭ以外の音響モデルを用いてもよい。

以下に、本実施の形態に係る音声認識装置の構成および動作について、詳細に説明する。

＜構成について＞
（ハードウェア構成）
本実施の形態に係る音声認識装置は、たとえばＰＣ（Personal Computer）などの汎用コンピュータによって実現可能である。

図１は、本発明の実施の形態に係る音声認識装置１のハードウェア構成例を示すブロック図である。図１を参照して、音声認識装置１は、各種演算処理を行うためのＣＰＵ（Central Processing Unit）１１と、各種データおよびプログラムを格納するＲＯＭ（Read Only Memory）１２と、作業データ等を記憶するＲＡＭ（Random Access Memory）１３と、不揮発性の記憶装置であるハードディスク１４と、キーボードなどを含む操作部１５と、各種情報を表示するための表示部１６と、記録媒体１７ａからのデータやプログラムを読み出しおよび書き込み可能なドライブ装置１７と、インターネット通信するための通信Ｉ／Ｆ（インターフェイス）１８とを備える。記録媒体１７ａは、たとえば、ＣＤ−ＲＯＭ（Compact Disc-ROM）や、メモリカードなどであってよい。

音声認識装置１は、マイクロフォン２０から音声信号を入力するための入力部１９をさらに備えていてもよい。音声認識装置１が入力部１９を有さない場合には、たとえば通信Ｉ／Ｆ１８から得られた音声信号や、記録媒体１７ａから読み出された音声信号に対して、認識処理が実行される。

（機能構成）
図２は、本発明の実施の形態に係る音声認識装置１の機能構成を示す機能ブロック図である。図２を参照して、音声認識装置１は、一般的な音声認識装置と同様に、１次認識処理部１００、１次ＨＭＭデータ２０１および出力部１１６を含む。１次ＨＭＭデータ２０１は、全てのキーワードそれぞれに対応しており、１次認識処理部１００による１次認識の際に用いられる。各１次ＨＭＭは、キーワードの音声全体から生成されたモデルパラメータである。本実施の形態では、２次認識処理部１１０にて用いられるＨＭＭ（２次ＨＭＭデータ２０２）と区別するために「１次ＨＭＭ」と表わしている。１次ＨＭＭには、それぞれに識別番号が対応付けられている。

１次認識処理部１００は、音声信号の特徴量と１次ＨＭＭデータ２０１とに基づいて認識処理を実行する。１次認識処理部１００は、その機能として分析部１０２および推定部１０４を含む。分析部１０２は、音声信号を第１の時間長のフレーム単位で切出し、フレーム単位で音声信号を分析することで特徴量を算出する。たとえば、切出された音声信号が、ＭＦＣＣ（Mel-frequency cepstral coefficient）特徴量に変換される。推定部１０４は、各１次ＨＭＭが、算出された特徴量の系列を生成する尤度を算出し、尤度が最も高い１次ＨＭＭが示すキーワードを認識結果として推定する。ここで推定されたキーワードを、以下「推定単語」ともいう。

出力部１１６は、認識結果を出力する。出力部１１６は、たとえば表示部１６により実現される。

一般的な音声認識装置では、１次認識処理部１００での認識結果（１次認識結果）すなわち推定単語が、そのまま出力される。しかしながら、推定単語に音響的に類似するキーワードが登録されている場合、周囲の雑音が大きくなるにつれ、誤認識の可能性が高くなる。

そこで、本実施の形態に係る音声認識装置１は、その機能として、判断部１０６、抽出部１０８および２次認識処理部１１０をさらに含む。また、１次ＨＭＭデータ２０１とともに、たとえばハードディスク１４には、２次ＨＭＭデータ２０２および類似語データベース（ＤＢ）２０３が格納される。

２次ＨＭＭデータ２０２は、誤認識する可能性のある複数のキーワードそれぞれに対応しており、キーワードの音声のうち特定の区間における音声から生成されたモデルパラメータである。２次ＨＭＭには、それぞれに識別番号が対応付けられている。この「特定の区間」とは、音響的に互いに類似するキーワード間での類似度が小さくなる確率が高い区間、すなわち、特徴量に差異が出やすい区間である。その意味で、特定の区間は「差異区間」とも表現できる。学習時において、音声信号を抽出する区間を構成するＨＭＭの状態（状態番号）を様々に変えて、計算シミュレーションにより、類似するキーワード間での認識率が最も高い区間が差異区間として定められている。また、その差異区間における音声信号から２次ＨＭＭが生成されている。本実施の形態において、差異区間内の音声信号を「部分音声信号」という。

類似語データベース２０３は、音響的に互いに類似するキーワードについての情報（以下「類似語情報」という）を記憶する。類似語情報は、誤認識の可能性のあるキーワードについての情報とも言い換えられる。類似語情報は、少なくとも、誤認識の可能性のあるキーワードごとに、類似するキーワードについての識別情報としてたとえば１次ＨＭＭの識別番号を含む。また、類似語データベース２０３は、誤認識の可能性のあるキーワードごとに、２次認識の際に用いるべき差異区間についての区間情報および２次ＨＭＭの識別情報を記憶している。類似語データベース２０３のデータ構造例については後述する。

判断部１０６は、類似語データベース２０３の類似語情報を参照することで、推定単語に類似するキーワード（以下「類似語」という）が存在するか否かを判断する。つまり、１次認識結果としての推定単語が、誤認識の可能性があるか否かを判断する。

抽出部１０８は、判断部１０６により類似語が存在すると判断された場合に、類似語データベース２０３の区間情報を参照することで、音声信号全体から、差異区間における部分音声信号を抽出する。具体的には、ビタビアルゴリズムで音声信号を複数の区間に分割し、分割された複数の区間と区間情報とに基づいて、部分音声信号を抽出する。

２次認識処理部１１０は、抽出部１０８により抽出された部分音声信号の特徴量を用いて認識処理を実行する。２次認識処理部１１０は、その機能として、分析部１１２および判定部１１４を含む。分析部１１２は、部分音声信号を、第１の時間よりも短い第２の時間長のフレーム単位で切出し、フレーム単位で部分音声信号を分析することで特徴量を算出する。判定部１１４は、算出された部分音声信号の特徴量と、推定単語および類似語それぞれについての２次ＨＭＭとに基づいて、推定単語および類似語のうち尤度の高い方のキーワードを認識結果として判定する。具体的には、各２次ＨＭＭが、算出された特徴量の系列を生成する尤度を算出し、尤度が高い方の２次ＨＭＭの元となるキーワードを認識結果（２次認識結果）として判定する。

ここで、１次認識に用いられる第１の時間長は、一般的な音声認識方法と同様に、たとえば、２０〜３０ｍｓの範囲で予め定められる。２次認識に用いられる第２の時間長は、たとえば、第１の時間長の半分程度であってよく、１０〜１５ｍｓの範囲で予め定められる。一般的に、第１の時間長は、母音の周期が数個含まれ得るように定められている。これに対し、互いに類似するキーワードは、母音以外の子音部分および調音結合部分の特徴量が異なることが多く、それらの部分の時間長は母音の時間長よりも短いため、第２の時間長を第１の時間長よりも短くすることで、互いに類似するキーワード間の認識率を改善することができる。なお、１次認識および２次認識のいずれの場合においても、フレームの位置は、隣り合うフレーム同士が重なるようにずらして切出される。このフレームをずらす時間長についても、１次認識時よりも２次認識時の方を短くすることが望ましい。

出力部１１６は、１次認識結果および２次認識結果のうちいずれかを出力する。推定単語と類似するキーワードが存在しない場合には、１次認識結果すなわち推定単語が出力される。これに対し、推定単語と類似するキーワードが存在した場合には、２次認識結果、すなわち推定単語または類似語が出力される。

なお、図２に示した出力部１１６以外の機能ブロックは、図１に示したＣＰＵ１１が、たとえばＲＯＭ１２に格納されたソフトウェアを実行することで実現されてもよいし、これらのうち少なくとも１つは、ハードウェアにより実現されてもよい。

ここで、類似語データベース２０３のデータ構造例について説明する。

（データ構造例）
図３は、本発明の実施の形態における類似語データベース２０３のデータ構造例を示す図である。図３を参照して、類似語データベース２０３は、複数の行および複数のカラム３１〜４５により構成されている。本実施の形態では、複数の行それぞれは全てのキーワードに対応しているものとする。

カラム３１，３２には、各キーワード自体の情報として、キーワード（読み仮名）および１次ＨＭＭ番号が記録されている。カラム３３〜３６，４１には、類似語情報として、類似語の個数（カラム３３）、類似語Ａ，Ｂの読み仮名（カラム３４，３５）、および、類似語Ａ，Ｂそれぞれの１次ＨＭＭ番号（カラム３６，４１）が記憶されている。たとえば、キーワードが「きゅう」の場合、類似語は「じゅう」（類似語Ａ）と「ちゅう」（類似語Ｂ）の２つであることが記憶されている。なお、これらのうち、キーワードの読み仮名に関するカラム３１，３４，３５は、理解を容易にするために設けたものであり、これらは省いてもよい。

また、類似語データベース２０３において、比較する類似語ごとに、区間情報として、始端状態番号（カラム３７，４２）および終端状態番号（カラム３８，４３）が記憶され、２次ＨＭＭの識別情報として、２つの２次ＨＭＭ番号（カラム３９，４０、および、カラム４４，４５）が記憶されている。カラム３７〜４０内のデータ３６０は、推定単語と類似語Ａとを判定する場合に用いられる。カラム４２〜４５内のデータ４１０は、推定単語と類似語Ｂとを判定する場合に用いられる。

なお、本実施の形態では、類似語データベース２０３に、類似語情報だけでなく、区間情報および２次ＨＭＭの識別情報も含めたが、これらを別のデータベースに記憶させてもよい。また、全てのキーワードについての類似語情報を類似語データベース２０３に含め、カラム３３（類似語の個数）によって類似語の有無についても記憶させることとしたが、誤認識の可能性のあるキーワードのみの類似語情報を記憶させてもよい。

＜動作について＞
（音声認識処理）
図４は、本発明の実施の形態における音声認識処理を示すフローチャートである。図４のフローチャートに示す処理手順は、予めプログラムとしてＲＯＭ１２に格納されており、ＣＰＵ１１が当該プログラムを読み出して実行することにより音声認識処理の機能が実現される。

図４を参照して、入力部１９より、音声信号が入力されると（ステップＳ（以下「Ｓ」と略す）２）、入力された音声信号がたとえばＲＡＭ１３に時系列に記憶される。Ｓ２で入力される音声信号には、人の声が含まれているものとする。１次認識処理部１００の分析部１０２は、記憶された音声信号からフレームを切出す（Ｓ４）。つまり、音声信号が、たとえば２５ｍｓのフレーム単位で切出される。フレームは、隣り合うフレーム同士が重なるように、たとえば１０ｍｓずつずらして切出される。

フレームが切出されると、分析部１０２は、フレームごとに音声信号の特徴量を算出する（Ｓ６）。

次に、推定部１０４は、Ｓ６で算出された特徴量より、１次ＨＭＭデータ２０１に基づいて、音声信号が表わす単語（キーワード）を推定する（Ｓ８）。具体的には、まず、各１次ＨＭＭが、算出された特徴量の系列を生成する尤度を求める。その後、各１次ＨＭＭの尤度値を比較し、尤度が最大となる１次ＨＭＭに対応したキーワードを１次認識結果とする。

１次認識処理が終わると、判断部１０６は、類似語データベース２０３を参照して、認識結果としての推定単語には類似語が存在するか否かを判断する（Ｓ１０）。具体的には、判断部１０６は、類似語データベース２０３において、Ｓ８で尤度が最大となったキーワードの１次ＨＭＭ番号（カラム３２）の行を参照し、「類似語の個数」のカラム３３に「１」または「２」が記録されているか否かを判断する。類似語が存在すると判断された場合（Ｓ１０にてＹＥＳ）、Ｓ１２に進む。これに対し、類似語が存在しないと判断された場合には（Ｓ１０にてＮＯ）、出力部１１６によって、Ｓ８で推定されたキーワードが正式な認識結果として出力される（Ｓ２０）。

Ｓ１２において、抽出部１０８は、類似語データベース２０３から区間情報を読出し、ＲＡＭ１３に記憶されている音声信号から、差異区間の音声信号すなわち部分音声信号を抽出する。抽出部１０８は、類似語が１つの場合、そのキーワードは類似語データベース２０３における「類似語Ａ」であるため、始端状態番号Ａ（カラム３７）および終端状態番号Ａ（カラム３８）を読出す。類似語が２つの場合、１次認識処理において尤度が高かった方の類似語の始端状態番号および終端状態番号を読出す。

抽出部１０８は、音声信号全体を、推定単語の１次ＨＭＭでビタビアライメントする。そして、読出した始端状態番号および終端状態番号で区切られる差異区間の部分音声信号を抽出する。なお、本実施の形態では、音声信号を推定単語の１次ＨＭＭでビタビアライメントすることとしたが、学習の際に、類似語の１次ＨＭＭでビタビアライメントして２次ＨＭＭを生成しておけば、類似語の１次ＨＭＭでビタビアライメントしてもよい。

部分音声信号が抽出されると、分析部１１２は、部分音声信号からたとえば１０ｍｓのフレームを切出す（Ｓ１４）。この場合も、フレームは、隣り合うフレーム同士が重なるように、たとえば５ｍｓずつずらして切出される。

フレームが切出されると、分析部１１２は、フレームごとに音声信号の特徴量を算出する（Ｓ１６）。判定部１１４は、この特徴量より、推定単語および類似語それぞれの２次ＨＭＭデータ２０２に基づいて、認識結果を決定する（Ｓ１８）。つまり、入力された音声信号が表わすキーワードが、推定単語および類似語のいずれであるかを判定する。具体的には、判定部１１４は、２つの２次ＨＭＭが、Ｓ１６で算出した特徴量の系列を生成する尤度を求める。そして、尤度が大きい方の２次ＨＭＭの元となるキーワードを、正式な認識結果として決定する。正式な認識結果は、出力部１１６によって出力される（Ｓ２０）。これにより、音声認識処理は終了される。

上記した音声認識処理について、具体例を挙げてより詳細に説明する。

（具体例）
たとえば、１次認識処理（Ｓ４〜Ｓ８）により得られた推定単語が「きゅう」であったと仮定する。また、「きゅう」の１次ＨＭＭは、１１個の状態を有していると仮定する。

判断部１０６は、「きゅう」の１次ＨＭＭ番号は「９」であるので、図３に示した類似語データベース２０３のカラム３２に「９」が記録された行にアクセスする。その行のカラム３３を参照すると、類似語が２個あるため（Ｓ１０にてＹＥＳ）、２次認識処理を実行することになる。ここで、類似語が「じゅう」と「ちゅう」の２個あるが、本実施の形態では、１次認識処理での尤度が高い方の類似語と推定単語とについて、２次認識処理を実行する。当該具体例においては、「ちゅう」よりも「じゅう」の方が尤度が高かったと仮定する。

抽出部１０８は、「じゅう」のＨＭＭ番号と一致するカラムを検索すると、「類似語の１次ＨＭＭ番号Ａ」のカラム３６がそのカラムであると分かる。そのため、始端状態番号Ａ（カラム３７）および終端状態番号Ａ（カラム３８）として、それぞれ「２」および「６」が読み出される。抽出部１０８は、音声信号を、推定単語である「きゅう」の１次ＨＭＭでビタビアライメントし、状態１〜１１のうち、状態２〜６で区切られる差異区間の音声信号を抽出する（Ｓ１２）。

ここで、図５および図６を参照して、差異区間について具体的に説明する。図５の上段には、「きゅう」の音声信号Ｖ１について、「きゅう」の１次ＨＭＭでビタビアライメントした例が示されている。図５の下段には、「きゅう」の音声信号全体から、差異区間の部分音声信号Ｖ２が抽出された例が示されている。図６の上段には、「じゅう」の音声信号ＶＡ１について、「きゅう」の１次ＨＭＭでビタビアライメントした例が示されている。図６の下段には、「じゅう」の音声信号全体から、差異区間の部分音声信号ＶＡ２が抽出された例が示されている。

図５および図６のいずれの音声信号Ｖ１，ＶＡ１も、「きゅう」の１次ＨＭＭにより１１個の状態に区切られている。「きゅう」と「じゅう」とを判定する際には、状態番号２〜６の差異区間５０，６０内の部分音声信号Ｖ２，ＶＡ２のみが、２次認識に用いられる。

差異区間の部分音声信号が抽出されると、分析部１１２は、部分音声信号の分析を行って、差異区間における特徴量を求める（Ｓ１４，Ｓ１６）。判定部１１４は、２次ＨＭＭ番号Ａ−１，Ａ−２を記録しているカラム３９，４０を参照し、対応する２つの２次ＨＭＭ（９１０９，９１１０）のパラメータを取得する。２次ＨＭＭ番号が「９１０９」のパラメータは、学習の際に、「きゅう」の教師音声の差異区間（状態番号２〜６）における部分音声信号に対して作成されたＨＭＭである。２次ＨＭＭ番号が「９１１０」のパラメータは、学習の際に、「じゅう」の教師音声の差異区間（状態番号２〜６）における部分音声信号に対して作成されたＨＭＭである。なお、学習時においても、第２の時間長のフレームごとに算出された特徴量が用いられている。

判定部１１４は、２つの２次ＨＭＭについて、差異区間における特徴量の系列を生成する尤度を算出する。尤度が算出されると、尤度が高い方の２次ＨＭＭの元となるキーワードの番号を、２次ＨＭＭを用いた認識結果として出力し、これを最終結果とする。たとえば２次ＨＭＭ番号「９１１０」の２次ＨＭＭの方が尤度が高い場合、認識結果を「じゅう」と決定する（Ｓ１８）。

なお、「きゅう」と「ちゅう」とで判定する場合は、類似語データベース２０３において、「きゅう」の行のカラム４２，４３を見ると「３」および「６」が格納されている。これは、「きゅう」と「ちゅう」とを判定するには、差異区間は、状態番号３〜６で区切られる区間であることを示している。

このように、本実施の形態によれば、１次ＨＭＭを用いた１次認識処理において誤認識の可能性があっても、音響的に類似するキーワード同士で再認識される。したがって、キーワード間の誤認識を低減させることができる。その結果、全体の認識率を向上させることができる。

なお、本実施の形態では、１次認識での推定単語の尤度に関わらず、推定単語に類似するキーワードが存在すれば２次認識を行うこととしたが、たとえば、１次認識での推定単語の尤度が所定値以下の場合にのみ、類似するキーワードが存在するかの判断（Ｓ１０）以降の処理を行ってもよい。あるいは、２次認識を行った後に、１次認識での推定単語の尤度を考慮してもよい。

＜変形例＞
上記実施の形態では、２つの類似語が存在した場合、１次認識で尤度が高い方の類似語について２次認識を行ったが、尤度が低い方の類似語も含めて２次認識を行ってもよい。

たとえば、１次認識結果が「きゅう」であった場合、「きゅう」のＨＭＭに基づき差異区間の部分音声信号を切出した後、部分音声信号の特徴量より、「きゅう」、「じゅう」および「ちゅう」それぞれの２次ＨＭＭの尤度を比較し、最も尤度が高い２次ＨＭＭの元となる単語を認識結果として判定してもよい。この場合、類似語データベース２０３には、２次認識において用いるべき３つの２次ＨＭＭ番号が記録されていることとする。

あるいは、１次認識結果が「きゅう」であった場合、先に、類似語同士の「じゅう」と「ちゅう」とのうちどちらが尤度が高いかを判定し、その後、尤度の高い方の類似語と「きゅう」とのうちどちらが尤度が高いかを判定するようにしてもよい。この場合、図３に示した類似語データベース２０３をそのまま利用することができる。

具体的には、まず、判断部１０６は、図３に示した類似語データベース２０３のカラム３２に「じゅう」のＨＭＭ番号である「１０」が記録された行にアクセスする。抽出部１０８は、「ちゅう」のＨＭＭ番号と一致するカラムを検索すると、「類似語の１次ＨＭＭ番号Ｂ」のカラム４１がそのカラムであると分かる。そのため、始端状態番号Ｂ（カラム４２）および終端状態番号Ｂ（カラム４３）として、それぞれ「３」および「５」が読み出される。抽出部１０８は、音声信号を、「じゅう」の１次ＨＭＭでビタビアライメントし、状態３〜５で区切られる差異区間の音声信号を抽出する（Ｓ１２）。

差異区間の部分音声信号が抽出されると、分析部１１２は、部分音声信号の分析を行って、差異区間における特徴量を求める（Ｓ１４，Ｓ１６）。判定部１１４は、２次ＨＭＭ番号Ｂ−１，Ｂ−２を記録しているカラム４４，４５を参照し、対応する２つの２次ＨＭＭ（１０２１０，１０２１２）のパラメータを取得する。２次ＨＭＭ番号が「１０２１０」のパラメータは、学習の際に、「じゅう」の教師音声の差異区間（状態番号３〜５）における部分音声信号に対して作成されたＨＭＭである。２次ＨＭＭ番号が「１０２１２」のパラメータは、学習の際に、「ちゅう」の教師音声の差異区間（状態番号３〜５）における部分音声信号に対して作成されたＨＭＭである。

判定部１１４は、２つの２次ＨＭＭについて、差異区間における特徴量の系列を生成する尤度を算出する。尤度が算出されると、尤度が高い方の２次ＨＭＭの元となる類似語（「じゅう」または「ちゅう」）と推定単語である「きゅう」とについて、再度、Ｓ１２以降の処理が行われる。尤度が高い方の類似語と推定単語との２次認識処理は、上記と同様であるため、詳細な説明は繰り返さない。

なお、本実施の形態では、推定単語に類似するキーワードは２つ以下であるとして説明したが、３つ以上ある場合でも適用可能である。

本実施の形態に係る音声認識装置１により実行される音声認識方法を、プログラムとして提供することもできる。このようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-ROM）などの光学媒体や、メモリカードなどのコンピュータ読取り可能な一時的でない（non-transitory）記録媒体にて記録させて提供することができる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。

また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１音声認識装置、１１ＣＰＵ、１２ＲＯＭ、１３ＲＡＭ、１４ハードディスク、１５操作部、１６表示部、１７ドライブ装置、１８通信Ｉ／Ｆ、１９入力部、２０マイクロフォン、５０，６０差異区間、１００１次認識処理部、１０２分析部、１０４推定部、１０６判断部、１０８抽出部、１１０２次認識処理部、１１２分析部、１１４判定部、１１６出力部、２０１１次ＨＭＭデータ、２０２２次ＨＭＭデータ、２０３類似語データベース。

Claims

音声信号の特徴量と、複数のキーワードそれぞれについての第１のモデルパラメータとに基づいて認識処理を実行することで、前記複数のキーワードから第１の単語を推定するための第１の認識処理手段と、
音響的に互いに類似するキーワードについての類似語情報を予め格納するための記憶部と、
前記類似語情報を参照することで、前記第１の認識処理手段により推定された前記第１の単語と類似するキーワードである第２の単語が存在するか否かを判断するための判断手段と、
前記判断手段により前記第２の単語が存在すると判断された場合に、前記音声信号から予め定められた特定の区間における部分音声信号を抽出するための抽出手段と、
前記抽出手段により抽出された前記部分音声信号の特徴量を用いて認識処理を実行するための第２の認識処理手段とを備え、
前記第１の認識処理手段は、前記音声信号を第１の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記音声信号の特徴量を算出する第１の分析手段を含み、
前記第２の認識処理手段は、
前記部分音声信号を前記第１の時間よりも短い第２の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記部分音声信号の特徴量を算出する第２の分析手段と、
前記部分音声信号の特徴量と、前記第１の単語および前記第２の単語それぞれについての前記特定の区間に対応する第２のモデルパラメータとに基づいて、前記第１の単語および前記第２の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行する判定手段とを含む、音声認識装置。
前記類似語情報は、音響的に類似するキーワードと誤認識の可能性のある特定のキーワードごとに、前記類似するキーワードについての識別情報を含み、
前記記憶部は、前記特定のキーワードごとに、前記特定の区間を定めた区間情報をさらに記憶し、
前記抽出手段は、所定のアルゴリズムで前記音声信号を複数の区間に分割し、分割された前記複数の区間と前記区間情報とに基づいて、前記部分音声信号を抽出する、請求項１に記載の音声認識装置。
前記判定手段により前記認識結果として判定されたキーワードを出力するための出力手段をさらに備え、
前記出力手段は、前記判断手段により前記第２の単語が存在しないと判断された場合には、前記第１の認識処理手段により推定された前記第１の単語を前記認識結果として出力する、請求項１または２に記載の音声認識装置。
前記判定手段は、前記判断手段により前記第１の単語と類似するキーワードが複数あると判断された場合には、前記第１の認識処理手段における認識処理において、尤度が高かった方のキーワードを前記第２の単語として、前記判定処理を実行する、請求項１〜３のいずれかに記載の音声認識装置。
前記判定手段は、前記判断手段により前記第１の単語と類似するキーワードが複数あると判断された場合には、前記第１の単語および複数の類似するキーワードそれぞれについての前記第２のモデルパラメータを用いて、前記第１の単語および前記複数の類似するキーワードのうち最も尤度が高いキーワードを前記認識結果として判定する、請求項１〜３のいずれかに記載の音声認識装置。
前記判定手段は、前記判断手段により前記第１の単語と類似するキーワードが複数あると判断された場合には、複数の類似するキーワードそれぞれについての前記第２のモデルパラメータを用いて前記複数の類似するキーワードのうち尤度が高い方のキーワードを判定し、尤度が高い方のキーワードを前記第２の単語として前記判定処理を実行する、請求項１〜３のいずれかに記載の音声認識装置。
前記特定の区間は、学習時に、計算シミュレーションにより、音響的に互いに類似するキーワード間での認識率が最も高い区間として定められている、請求項１〜６のいずれかに記載の音声認識装置。
音声信号を第１の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記音声信号の特徴量を算出するステップと、
算出された前記音声信号の特徴量と、複数のキーワードそれぞれについての第１のモデルパラメータとに基づいて認識処理を実行することで、前記複数のキーワードから第１の単語を推定するステップと、
予め記憶された、音響的に互いに類似するキーワードについての類似語情報を参照することで、推定された前記第１の単語と類似するキーワードである第２の単語が存在するか否かを判断するステップと、
前記第２の単語が存在すると判断された場合に、前記音声信号から予め定められた特定の区間における部分音声信号を抽出するステップと、
抽出された前記部分音声信号を前記第１の時間よりも短い第２の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記部分音声信号の特徴量を算出するステップと、
算出された前記部分音声信号の特徴量と、前記第１の単語および前記第２の単語それぞれについての前記特定の区間に対応する第２のモデルパラメータとに基づいて、前記第１の単語および前記第２の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行するステップとをコンピュータに実行させる、音声認識プログラム。