JP6276513B2 - 音声認識装置および音声認識プログラム - Google Patents

音声認識装置および音声認識プログラム Download PDF

Info

Publication number
JP6276513B2
JP6276513B2 JP2013084104A JP2013084104A JP6276513B2 JP 6276513 B2 JP6276513 B2 JP 6276513B2 JP 2013084104 A JP2013084104 A JP 2013084104A JP 2013084104 A JP2013084104 A JP 2013084104A JP 6276513 B2 JP6276513 B2 JP 6276513B2
Authority
JP
Japan
Prior art keywords
word
similar
recognition
keywords
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013084104A
Other languages
English (en)
Other versions
JP2014206642A (ja
Inventor
荒金 康人
康人 荒金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RayTron Inc
Original Assignee
RayTron Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RayTron Inc filed Critical RayTron Inc
Priority to JP2013084104A priority Critical patent/JP6276513B2/ja
Publication of JP2014206642A publication Critical patent/JP2014206642A/ja
Application granted granted Critical
Publication of JP6276513B2 publication Critical patent/JP6276513B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識装置および音声認識プログラムに関し、特に、孤立単語認識方式により音声認識を行う音声認識装置および音声認識プログラムに関する。
従来から、音響的に互いに類似する単語を認識する技術が存在する。
特開平10−274994号公報(特許文献1)には、DRNN(Dynamic Recurrent Neural Networks)単語モデルを用いた音声認識技術において、「なんじ」と「なんど」といった類似語を認識するための処理が開示されている。具体的には、たとえば「なんじ」に対応するDRNN出力のうち、類似語の特徴部分(「じ」、「ど」の音韻部分)に対応するDRNN出力を含む区間t1を設定し、区間t1にどのような母音が存在するかを調べることが記載されている。
特開平10−274994号公報
上記文献では、DRNN単語モデルという特殊な音響モデルを用いた場合に、認識対象単語(キーワード)と類似する、認識対象でない類似語が一定以上の確からしさを持つ場合があり、そのような問題に対処するために単語の特徴部分の母音が調べられる。
一方で、HMM(Hidden Markov Model)などの一般的な音響モデルを用いた音声認識では、あるキーワード(登録された単語)の認識率は、そのキーワードに音響的に類似する単語が登録されている場合と登録されていない場合とでは、前者の方が低い傾向にある。したがって、一般的な音響モデルを用いた音声認識においては、キーワード間の誤認識を低減させることが、全体の認識率の向上につながる。
本発明は、上記のような課題を解決するためになされたものであって、その目的は、キーワード間の誤認識を低減させることのできる音声認識装置および音声認識プログラムを提供することである。
この発明のある局面に従う音声認識装置は、音声信号の特徴量と、複数のキーワードそれぞれについての第1のモデルパラメータとに基づいて認識処理を実行することで、複数のキーワードから第1の単語を推定するための第1の認識処理手段と、音響的に互いに類似するキーワードについての類似語情報を予め格納するための記憶部と、類似語情報を参照することで、第1の認識処理手段により推定された第1の単語と類似するキーワードである第2の単語が存在するか否かを判断するための判断手段と、判断手段により第2の単語が存在すると判断された場合に、音声信号から予め定められた特定の区間における部分音声信号を抽出するための抽出手段と、抽出手段により抽出された部分音声信号の特徴量を用いて認識処理を実行するための第2の認識処理手段とを備える。第2の認識処理手段は、部分音声信号の特徴量と、第1の単語および第2の単語それぞれについての特定の区間に対応する第2のモデルパラメータとに基づいて、第1の単語および第2の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行する判定手段を含む。
好ましくは、類似語情報は、音響的に類似するキーワードと誤認識の可能性のある特定のキーワードごとに、類似するキーワードについての識別情報を含み、記憶手段は、特定のキーワードごとに、特定の区間を定めた区間情報をさらに記憶する。抽出手段は、所定のアルゴリズムで音声信号を複数の区間に分割し、分割された複数の区間と区間情報とに基づいて、部分音声信号を抽出する。
好ましくは、第1の認識処理手段は、音声信号を第1の時間長のフレーム単位で切出し、フレームごとに分析を行うことで音声信号の特徴量を算出する第1の分析手段を含み、第2の認識処理手段は、部分音声信号を第1の時間よりも短い第2の時間長のフレーム単位で切出し、フレームごとに分析を行うことで部分音声信号の特徴量を算出する第2の分析手段をさらに含む。
好ましくは、判定手段により認識結果として判定されたキーワードを出力するための出力手段をさらに備え、出力手段は、判断手段により第2の単語が存在しないと判断された場合には、第1の認識処理手段により推定された第1の単語を認識結果として出力する。
好ましくは、判定手段は、判断手段により第1の単語と類似するキーワードが複数あると判断された場合には、第1の認識処理手段における認識処理において、尤度が高かった方のキーワードを第2の単語として、判定処理を実行する。
好ましくは、判定手段は、判断手段により第1の単語と類似するキーワードが複数あると判断された場合には、第1の単語および複数の類似するキーワードそれぞれについての第2のモデルパラメータを用いて、第1の単語および複数の類似するキーワードのうち最も尤度が高いキーワードを認識結果として判定する。
好ましくは、判定手段は、判断手段により第1の単語と類似するキーワードが複数あると判断された場合には、複数の類似するキーワードそれぞれについての第2のモデルパラメータを用いて複数の類似するキーワードのうち尤度が高い方のキーワードを判定し、尤度が高い方のキーワードを第2の単語として判定処理を実行する。
好ましくは、特定の区間は、学習時に、計算シミュレーションにより、音響的に互いに類似するキーワード間での認識率が最も高い区間として定められている。
この発明の他の局面に従う音声認識プログラムは、音声信号の特徴量と、複数のキーワードそれぞれについての第1のモデルパラメータとに基づいて認識処理を実行することで、複数のキーワードから第1の単語を推定するステップと、予め記憶された、音響的に互いに類似するキーワードについての類似語情報を参照することで、推定された第1の単語と類似するキーワードである第2の単語が存在するか否かを判断するステップと、第2の単語が存在すると判断された場合に、音声信号から予め定められた特定の区間における部分音声信号を抽出するステップと、抽出された部分音声信号の特徴量と、第1の単語および第2の単語それぞれについての特定の区間に対応する第2のモデルパラメータとに基づいて、第1の単語および第2の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行するステップとをコンピュータに実行させる。
本発明によれば、キーワード間の誤認識を低減させることができる。
本発明の実施の形態に係る音声認識装置のハードウェア構成例を示すブロック図である。 本発明の実施の形態に係る音声認識装置の機能構成を示す機能ブロック図である。 本発明の実施の形態における類似語データベースのデータ構造例を示す図である。 本発明の実施の形態における音声認識処理を示すフローチャートである。 差異区間の具体例を示す図である。 差異区間の具体例を示す図である。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
本実施の形態に係る音声認識装置は、孤立単語認識方式を採用し、音声信号を分析することで、複数のキーワードから、音声信号が表わす単語を推定して出力する。本実施の形態において「キーワード」とは、登録されている単語、すなわち認識対象の単語を表わすものとする。
本実施の形態に係る音声認識装置は、音響モデルとしてHMMを用い、かつ、認識の際にたとえばビタビアルゴリズムにより尤度を計算することとする。ビタビアルゴリズムによれば、尤度を計算する際に、HMMの状態(状態番号)と音声区間との対応付けがなされる。このビタビアルゴリズムによる対応付け(以下「ビタビアライメント」という)によって、音声信号が、少なくとも音素の区間と調音結合の区間とに分割され、各区間に状態番号が割り当てられる。なお、ビタビアライメントなどにより音声信号のアライメントが可能な音響モデルであれば、たとえばDTW(Dynamic time warping)などHMM以外の音響モデルを用いてもよい。
以下に、本実施の形態に係る音声認識装置の構成および動作について、詳細に説明する。
<構成について>
(ハードウェア構成)
本実施の形態に係る音声認識装置は、たとえばPC(Personal Computer)などの汎用コンピュータによって実現可能である。
図1は、本発明の実施の形態に係る音声認識装置1のハードウェア構成例を示すブロック図である。図1を参照して、音声認識装置1は、各種演算処理を行うためのCPU(Central Processing Unit)11と、各種データおよびプログラムを格納するROM(Read Only Memory)12と、作業データ等を記憶するRAM(Random Access Memory)13と、不揮発性の記憶装置であるハードディスク14と、キーボードなどを含む操作部15と、各種情報を表示するための表示部16と、記録媒体17aからのデータやプログラムを読み出しおよび書き込み可能なドライブ装置17と、インターネット通信するための通信I/F(インターフェイス)18とを備える。記録媒体17aは、たとえば、CD−ROM(Compact Disc-ROM)や、メモリカードなどであってよい。
音声認識装置1は、マイクロフォン20から音声信号を入力するための入力部19をさらに備えていてもよい。音声認識装置1が入力部19を有さない場合には、たとえば通信I/F18から得られた音声信号や、記録媒体17aから読み出された音声信号に対して、認識処理が実行される。
(機能構成)
図2は、本発明の実施の形態に係る音声認識装置1の機能構成を示す機能ブロック図である。図2を参照して、音声認識装置1は、一般的な音声認識装置と同様に、1次認識処理部100、1次HMMデータ201および出力部116を含む。1次HMMデータ201は、全てのキーワードそれぞれに対応しており、1次認識処理部100による1次認識の際に用いられる。各1次HMMは、キーワードの音声全体から生成されたモデルパラメータである。本実施の形態では、2次認識処理部110にて用いられるHMM(2次HMMデータ202)と区別するために「1次HMM」と表わしている。1次HMMには、それぞれに識別番号が対応付けられている。
1次認識処理部100は、音声信号の特徴量と1次HMMデータ201とに基づいて認識処理を実行する。1次認識処理部100は、その機能として分析部102および推定部104を含む。分析部102は、音声信号を第1の時間長のフレーム単位で切出し、フレーム単位で音声信号を分析することで特徴量を算出する。たとえば、切出された音声信号が、MFCC(Mel-frequency cepstral coefficient)特徴量に変換される。推定部104は、各1次HMMが、算出された特徴量の系列を生成する尤度を算出し、尤度が最も高い1次HMMが示すキーワードを認識結果として推定する。ここで推定されたキーワードを、以下「推定単語」ともいう。
出力部116は、認識結果を出力する。出力部116は、たとえば表示部16により実現される。
一般的な音声認識装置では、1次認識処理部100での認識結果(1次認識結果)すなわち推定単語が、そのまま出力される。しかしながら、推定単語に音響的に類似するキーワードが登録されている場合、周囲の雑音が大きくなるにつれ、誤認識の可能性が高くなる。
そこで、本実施の形態に係る音声認識装置1は、その機能として、判断部106、抽出部108および2次認識処理部110をさらに含む。また、1次HMMデータ201とともに、たとえばハードディスク14には、2次HMMデータ202および類似語データベース(DB)203が格納される。
2次HMMデータ202は、誤認識する可能性のある複数のキーワードそれぞれに対応しており、キーワードの音声のうち特定の区間における音声から生成されたモデルパラメータである。2次HMMには、それぞれに識別番号が対応付けられている。この「特定の区間」とは、音響的に互いに類似するキーワード間での類似度が小さくなる確率が高い区間、すなわち、特徴量に差異が出やすい区間である。その意味で、特定の区間は「差異区間」とも表現できる。学習時において、音声信号を抽出する区間を構成するHMMの状態(状態番号)を様々に変えて、計算シミュレーションにより、類似するキーワード間での認識率が最も高い区間が差異区間として定められている。また、その差異区間における音声信号から2次HMMが生成されている。本実施の形態において、差異区間内の音声信号を「部分音声信号」という。
類似語データベース203は、音響的に互いに類似するキーワードについての情報(以下「類似語情報」という)を記憶する。類似語情報は、誤認識の可能性のあるキーワードについての情報とも言い換えられる。類似語情報は、少なくとも、誤認識の可能性のあるキーワードごとに、類似するキーワードについての識別情報としてたとえば1次HMMの識別番号を含む。また、類似語データベース203は、誤認識の可能性のあるキーワードごとに、2次認識の際に用いるべき差異区間についての区間情報および2次HMMの識別情報を記憶している。類似語データベース203のデータ構造例については後述する。
判断部106は、類似語データベース203の類似語情報を参照することで、推定単語に類似するキーワード(以下「類似語」という)が存在するか否かを判断する。つまり、1次認識結果としての推定単語が、誤認識の可能性があるか否かを判断する。
抽出部108は、判断部106により類似語が存在すると判断された場合に、類似語データベース203の区間情報を参照することで、音声信号全体から、差異区間における部分音声信号を抽出する。具体的には、ビタビアルゴリズムで音声信号を複数の区間に分割し、分割された複数の区間と区間情報とに基づいて、部分音声信号を抽出する。
2次認識処理部110は、抽出部108により抽出された部分音声信号の特徴量を用いて認識処理を実行する。2次認識処理部110は、その機能として、分析部112および判定部114を含む。分析部112は、部分音声信号を、第1の時間よりも短い第2の時間長のフレーム単位で切出し、フレーム単位で部分音声信号を分析することで特徴量を算出する。判定部114は、算出された部分音声信号の特徴量と、推定単語および類似語それぞれについての2次HMMとに基づいて、推定単語および類似語のうち尤度の高い方のキーワードを認識結果として判定する。具体的には、各2次HMMが、算出された特徴量の系列を生成する尤度を算出し、尤度が高い方の2次HMMの元となるキーワードを認識結果(2次認識結果)として判定する。
ここで、1次認識に用いられる第1の時間長は、一般的な音声認識方法と同様に、たとえば、20〜30msの範囲で予め定められる。2次認識に用いられる第2の時間長は、たとえば、第1の時間長の半分程度であってよく、10〜15msの範囲で予め定められる。一般的に、第1の時間長は、母音の周期が数個含まれ得るように定められている。これに対し、互いに類似するキーワードは、母音以外の子音部分および調音結合部分の特徴量が異なることが多く、それらの部分の時間長は母音の時間長よりも短いため、第2の時間長を第1の時間長よりも短くすることで、互いに類似するキーワード間の認識率を改善することができる。なお、1次認識および2次認識のいずれの場合においても、フレームの位置は、隣り合うフレーム同士が重なるようにずらして切出される。このフレームをずらす時間長についても、1次認識時よりも2次認識時の方を短くすることが望ましい。
出力部116は、1次認識結果および2次認識結果のうちいずれかを出力する。推定単語と類似するキーワードが存在しない場合には、1次認識結果すなわち推定単語が出力される。これに対し、推定単語と類似するキーワードが存在した場合には、2次認識結果、すなわち推定単語または類似語が出力される。
なお、図2に示した出力部116以外の機能ブロックは、図1に示したCPU11が、たとえばROM12に格納されたソフトウェアを実行することで実現されてもよいし、これらのうち少なくとも1つは、ハードウェアにより実現されてもよい。
ここで、類似語データベース203のデータ構造例について説明する。
(データ構造例)
図3は、本発明の実施の形態における類似語データベース203のデータ構造例を示す図である。図3を参照して、類似語データベース203は、複数の行および複数のカラム31〜45により構成されている。本実施の形態では、複数の行それぞれは全てのキーワードに対応しているものとする。
カラム31,32には、各キーワード自体の情報として、キーワード(読み仮名)および1次HMM番号が記録されている。カラム33〜36,41には、類似語情報として、類似語の個数(カラム33)、類似語A,Bの読み仮名(カラム34,35)、および、類似語A,Bそれぞれの1次HMM番号(カラム36,41)が記憶されている。たとえば、キーワードが「きゅう」の場合、類似語は「じゅう」(類似語A)と「ちゅう」(類似語B)の2つであることが記憶されている。なお、これらのうち、キーワードの読み仮名に関するカラム31,34,35は、理解を容易にするために設けたものであり、これらは省いてもよい。
また、類似語データベース203において、比較する類似語ごとに、区間情報として、始端状態番号(カラム37,42)および終端状態番号(カラム38,43)が記憶され、2次HMMの識別情報として、2つの2次HMM番号(カラム39,40、および、カラム44,45)が記憶されている。カラム37〜40内のデータ360は、推定単語と類似語Aとを判定する場合に用いられる。カラム42〜45内のデータ410は、推定単語と類似語Bとを判定する場合に用いられる。
なお、本実施の形態では、類似語データベース203に、類似語情報だけでなく、区間情報および2次HMMの識別情報も含めたが、これらを別のデータベースに記憶させてもよい。また、全てのキーワードについての類似語情報を類似語データベース203に含め、カラム33(類似語の個数)によって類似語の有無についても記憶させることとしたが、誤認識の可能性のあるキーワードのみの類似語情報を記憶させてもよい。
<動作について>
(音声認識処理)
図4は、本発明の実施の形態における音声認識処理を示すフローチャートである。図4のフローチャートに示す処理手順は、予めプログラムとしてROM12に格納されており、CPU11が当該プログラムを読み出して実行することにより音声認識処理の機能が実現される。
図4を参照して、入力部19より、音声信号が入力されると(ステップS(以下「S」と略す)2)、入力された音声信号がたとえばRAM13に時系列に記憶される。S2で入力される音声信号には、人の声が含まれているものとする。1次認識処理部100の分析部102は、記憶された音声信号からフレームを切出す(S4)。つまり、音声信号が、たとえば25msのフレーム単位で切出される。フレームは、隣り合うフレーム同士が重なるように、たとえば10msずつずらして切出される。
フレームが切出されると、分析部102は、フレームごとに音声信号の特徴量を算出する(S6)。
次に、推定部104は、S6で算出された特徴量より、1次HMMデータ201に基づいて、音声信号が表わす単語(キーワード)を推定する(S8)。具体的には、まず、各1次HMMが、算出された特徴量の系列を生成する尤度を求める。その後、各1次HMMの尤度値を比較し、尤度が最大となる1次HMMに対応したキーワードを1次認識結果とする。
1次認識処理が終わると、判断部106は、類似語データベース203を参照して、認識結果としての推定単語には類似語が存在するか否かを判断する(S10)。具体的には、判断部106は、類似語データベース203において、S8で尤度が最大となったキーワードの1次HMM番号(カラム32)の行を参照し、「類似語の個数」のカラム33に「1」または「2」が記録されているか否かを判断する。類似語が存在すると判断された場合(S10にてYES)、S12に進む。これに対し、類似語が存在しないと判断された場合には(S10にてNO)、出力部116によって、S8で推定されたキーワードが正式な認識結果として出力される(S20)。
S12において、抽出部108は、類似語データベース203から区間情報を読出し、RAM13に記憶されている音声信号から、差異区間の音声信号すなわち部分音声信号を抽出する。抽出部108は、類似語が1つの場合、そのキーワードは類似語データベース203における「類似語A」であるため、始端状態番号A(カラム37)および終端状態番号A(カラム38)を読出す。類似語が2つの場合、1次認識処理において尤度が高かった方の類似語の始端状態番号および終端状態番号を読出す。
抽出部108は、音声信号全体を、推定単語の1次HMMでビタビアライメントする。そして、読出した始端状態番号および終端状態番号で区切られる差異区間の部分音声信号を抽出する。なお、本実施の形態では、音声信号を推定単語の1次HMMでビタビアライメントすることとしたが、学習の際に、類似語の1次HMMでビタビアライメントして2次HMMを生成しておけば、類似語の1次HMMでビタビアライメントしてもよい。
部分音声信号が抽出されると、分析部112は、部分音声信号からたとえば10msのフレームを切出す(S14)。この場合も、フレームは、隣り合うフレーム同士が重なるように、たとえば5msずつずらして切出される。
フレームが切出されると、分析部112は、フレームごとに音声信号の特徴量を算出する(S16)。判定部114は、この特徴量より、推定単語および類似語それぞれの2次HMMデータ202に基づいて、認識結果を決定する(S18)。つまり、入力された音声信号が表わすキーワードが、推定単語および類似語のいずれであるかを判定する。具体的には、判定部114は、2つの2次HMMが、S16で算出した特徴量の系列を生成する尤度を求める。そして、尤度が大きい方の2次HMMの元となるキーワードを、正式な認識結果として決定する。正式な認識結果は、出力部116によって出力される(S20)。これにより、音声認識処理は終了される。
上記した音声認識処理について、具体例を挙げてより詳細に説明する。
(具体例)
たとえば、1次認識処理(S4〜S8)により得られた推定単語が「きゅう」であったと仮定する。また、「きゅう」の1次HMMは、11個の状態を有していると仮定する。
判断部106は、「きゅう」の1次HMM番号は「9」であるので、図3に示した類似語データベース203のカラム32に「9」が記録された行にアクセスする。その行のカラム33を参照すると、類似語が2個あるため(S10にてYES)、2次認識処理を実行することになる。ここで、類似語が「じゅう」と「ちゅう」の2個あるが、本実施の形態では、1次認識処理での尤度が高い方の類似語と推定単語とについて、2次認識処理を実行する。当該具体例においては、「ちゅう」よりも「じゅう」の方が尤度が高かったと仮定する。
抽出部108は、「じゅう」のHMM番号と一致するカラムを検索すると、「類似語の1次HMM番号A」のカラム36がそのカラムであると分かる。そのため、始端状態番号A(カラム37)および終端状態番号A(カラム38)として、それぞれ「2」および「6」が読み出される。抽出部108は、音声信号を、推定単語である「きゅう」の1次HMMでビタビアライメントし、状態1〜11のうち、状態2〜6で区切られる差異区間の音声信号を抽出する(S12)。
ここで、図5および図6を参照して、差異区間について具体的に説明する。図5の上段には、「きゅう」の音声信号V1について、「きゅう」の1次HMMでビタビアライメントした例が示されている。図5の下段には、「きゅう」の音声信号全体から、差異区間の部分音声信号V2が抽出された例が示されている。図6の上段には、「じゅう」の音声信号VA1について、「きゅう」の1次HMMでビタビアライメントした例が示されている。図6の下段には、「じゅう」の音声信号全体から、差異区間の部分音声信号VA2が抽出された例が示されている。
図5および図6のいずれの音声信号V1,VA1も、「きゅう」の1次HMMにより11個の状態に区切られている。「きゅう」と「じゅう」とを判定する際には、状態番号2〜6の差異区間50,60内の部分音声信号V2,VA2のみが、2次認識に用いられる。
差異区間の部分音声信号が抽出されると、分析部112は、部分音声信号の分析を行って、差異区間における特徴量を求める(S14,S16)。判定部114は、2次HMM番号A−1,A−2を記録しているカラム39,40を参照し、対応する2つの2次HMM(9109,9110)のパラメータを取得する。2次HMM番号が「9109」のパラメータは、学習の際に、「きゅう」の教師音声の差異区間(状態番号2〜6)における部分音声信号に対して作成されたHMMである。2次HMM番号が「9110」のパラメータは、学習の際に、「じゅう」の教師音声の差異区間(状態番号2〜6)における部分音声信号に対して作成されたHMMである。なお、学習時においても、第2の時間長のフレームごとに算出された特徴量が用いられている。
判定部114は、2つの2次HMMについて、差異区間における特徴量の系列を生成する尤度を算出する。尤度が算出されると、尤度が高い方の2次HMMの元となるキーワードの番号を、2次HMMを用いた認識結果として出力し、これを最終結果とする。たとえば2次HMM番号「9110」の2次HMMの方が尤度が高い場合、認識結果を「じゅう」と決定する(S18)。
なお、「きゅう」と「ちゅう」とで判定する場合は、類似語データベース203において、「きゅう」の行のカラム42,43を見ると「3」および「6」が格納されている。これは、「きゅう」と「ちゅう」とを判定するには、差異区間は、状態番号3〜6で区切られる区間であることを示している。
このように、本実施の形態によれば、1次HMMを用いた1次認識処理において誤認識の可能性があっても、音響的に類似するキーワード同士で再認識される。したがって、キーワード間の誤認識を低減させることができる。その結果、全体の認識率を向上させることができる。
なお、本実施の形態では、1次認識での推定単語の尤度に関わらず、推定単語に類似するキーワードが存在すれば2次認識を行うこととしたが、たとえば、1次認識での推定単語の尤度が所定値以下の場合にのみ、類似するキーワードが存在するかの判断(S10)以降の処理を行ってもよい。あるいは、2次認識を行った後に、1次認識での推定単語の尤度を考慮してもよい。
<変形例>
上記実施の形態では、2つの類似語が存在した場合、1次認識で尤度が高い方の類似語について2次認識を行ったが、尤度が低い方の類似語も含めて2次認識を行ってもよい。
たとえば、1次認識結果が「きゅう」であった場合、「きゅう」のHMMに基づき差異区間の部分音声信号を切出した後、部分音声信号の特徴量より、「きゅう」、「じゅう」および「ちゅう」それぞれの2次HMMの尤度を比較し、最も尤度が高い2次HMMの元となる単語を認識結果として判定してもよい。この場合、類似語データベース203には、2次認識において用いるべき3つの2次HMM番号が記録されていることとする。
あるいは、1次認識結果が「きゅう」であった場合、先に、類似語同士の「じゅう」と「ちゅう」とのうちどちらが尤度が高いかを判定し、その後、尤度の高い方の類似語と「きゅう」とのうちどちらが尤度が高いかを判定するようにしてもよい。この場合、図3に示した類似語データベース203をそのまま利用することができる。
具体的には、まず、判断部106は、図3に示した類似語データベース203のカラム32に「じゅう」のHMM番号である「10」が記録された行にアクセスする。抽出部108は、「ちゅう」のHMM番号と一致するカラムを検索すると、「類似語の1次HMM番号B」のカラム41がそのカラムであると分かる。そのため、始端状態番号B(カラム42)および終端状態番号B(カラム43)として、それぞれ「3」および「5」が読み出される。抽出部108は、音声信号を、「じゅう」の1次HMMでビタビアライメントし、状態3〜5で区切られる差異区間の音声信号を抽出する(S12)。
差異区間の部分音声信号が抽出されると、分析部112は、部分音声信号の分析を行って、差異区間における特徴量を求める(S14,S16)。判定部114は、2次HMM番号B−1,B−2を記録しているカラム44,45を参照し、対応する2つの2次HMM(10210,10212)のパラメータを取得する。2次HMM番号が「10210」のパラメータは、学習の際に、「じゅう」の教師音声の差異区間(状態番号3〜5)における部分音声信号に対して作成されたHMMである。2次HMM番号が「10212」のパラメータは、学習の際に、「ちゅう」の教師音声の差異区間(状態番号3〜5)における部分音声信号に対して作成されたHMMである。
判定部114は、2つの2次HMMについて、差異区間における特徴量の系列を生成する尤度を算出する。尤度が算出されると、尤度が高い方の2次HMMの元となる類似語(「じゅう」または「ちゅう」)と推定単語である「きゅう」とについて、再度、S12以降の処理が行われる。尤度が高い方の類似語と推定単語との2次認識処理は、上記と同様であるため、詳細な説明は繰り返さない。
なお、本実施の形態では、推定単語に類似するキーワードは2つ以下であるとして説明したが、3つ以上ある場合でも適用可能である。
本実施の形態に係る音声認識装置1により実行される音声認識方法を、プログラムとして提供することもできる。このようなプログラムは、CD−ROM(Compact Disc-ROM)などの光学媒体や、メモリカードなどのコンピュータ読取り可能な一時的でない(non-transitory)記録媒体にて記録させて提供することができる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 音声認識装置、11 CPU、12 ROM、13 RAM、14 ハードディスク、15 操作部、16 表示部、17 ドライブ装置、18 通信I/F、19 入力部、20 マイクロフォン、50,60 差異区間、100 1次認識処理部、102 分析部、104 推定部、106 判断部、108 抽出部、110 2次認識処理部、112 分析部、114 判定部、116 出力部、201 1次HMMデータ、202 2次HMMデータ、203 類似語データベース。

Claims (8)

  1. 音声信号の特徴量と、複数のキーワードそれぞれについての第1のモデルパラメータとに基づいて認識処理を実行することで、前記複数のキーワードから第1の単語を推定するための第1の認識処理手段と、
    音響的に互いに類似するキーワードについての類似語情報を予め格納するための記憶部と、
    前記類似語情報を参照することで、前記第1の認識処理手段により推定された前記第1の単語と類似するキーワードである第2の単語が存在するか否かを判断するための判断手段と、
    前記判断手段により前記第2の単語が存在すると判断された場合に、前記音声信号から予め定められた特定の区間における部分音声信号を抽出するための抽出手段と、
    前記抽出手段により抽出された前記部分音声信号の特徴量を用いて認識処理を実行するための第2の認識処理手段とを備え、
    前記第1の認識処理手段は、前記音声信号を第1の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記音声信号の特徴量を算出する第1の分析手段を含み、
    前記第2の認識処理手段は、
    前記部分音声信号を前記第1の時間よりも短い第2の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記部分音声信号の特徴量を算出する第2の分析手段と、
    前記部分音声信号の特徴量と、前記第1の単語および前記第2の単語それぞれについての前記特定の区間に対応する第2のモデルパラメータとに基づいて、前記第1の単語および前記第2の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行する判定手段を含む、音声認識装置。
  2. 前記類似語情報は、音響的に類似するキーワードと誤認識の可能性のある特定のキーワードごとに、前記類似するキーワードについての識別情報を含み、
    前記記憶は、前記特定のキーワードごとに、前記特定の区間を定めた区間情報をさらに記憶し、
    前記抽出手段は、所定のアルゴリズムで前記音声信号を複数の区間に分割し、分割された前記複数の区間と前記区間情報とに基づいて、前記部分音声信号を抽出する、請求項1に記載の音声認識装置。
  3. 前記判定手段により前記認識結果として判定されたキーワードを出力するための出力手段をさらに備え、
    前記出力手段は、前記判断手段により前記第2の単語が存在しないと判断された場合には、前記第1の認識処理手段により推定された前記第1の単語を前記認識結果として出力する、請求項1または2に記載の音声認識装置。
  4. 前記判定手段は、前記判断手段により前記第1の単語と類似するキーワードが複数あると判断された場合には、前記第1の認識処理手段における認識処理において、尤度が高かった方のキーワードを前記第2の単語として、前記判定処理を実行する、請求項1〜のいずれかに記載の音声認識装置。
  5. 前記判定手段は、前記判断手段により前記第1の単語と類似するキーワードが複数あると判断された場合には、前記第1の単語および複数の類似するキーワードそれぞれについての前記第2のモデルパラメータを用いて、前記第1の単語および前記複数の類似するキーワードのうち最も尤度が高いキーワードを前記認識結果として判定する、請求項1〜のいずれかに記載の音声認識装置。
  6. 前記判定手段は、前記判断手段により前記第1の単語と類似するキーワードが複数あると判断された場合には、複数の類似するキーワードそれぞれについての前記第2のモデルパラメータを用いて前記複数の類似するキーワードのうち尤度が高い方のキーワードを判定し、尤度が高い方のキーワードを前記第2の単語として前記判定処理を実行する、請求項1〜のいずれかに記載の音声認識装置。
  7. 前記特定の区間は、学習時に、計算シミュレーションにより、音響的に互いに類似するキーワード間での認識率が最も高い区間として定められている、請求項1〜のいずれかに記載の音声認識装置。
  8. 音声信号を第1の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記音声信号の特徴量を算出するステップと、
    算出された前記音声信号の特徴量と、複数のキーワードそれぞれについての第1のモデルパラメータとに基づいて認識処理を実行することで、前記複数のキーワードから第1の単語を推定するステップと、
    予め記憶された、音響的に互いに類似するキーワードについての類似語情報を参照することで、推定された前記第1の単語と類似するキーワードである第2の単語が存在するか否かを判断するステップと、
    前記第2の単語が存在すると判断された場合に、前記音声信号から予め定められた特定の区間における部分音声信号を抽出するステップと、
    抽出された前記部分音声信号を前記第1の時間よりも短い第2の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記部分音声信号の特徴量を算出するステップと、
    算出された前記部分音声信号の特徴量と、前記第1の単語および前記第2の単語それぞれについての前記特定の区間に対応する第2のモデルパラメータとに基づいて、前記第1の単語および前記第2の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行するステップとをコンピュータに実行させる、音声認識プログラム。
JP2013084104A 2013-04-12 2013-04-12 音声認識装置および音声認識プログラム Active JP6276513B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013084104A JP6276513B2 (ja) 2013-04-12 2013-04-12 音声認識装置および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013084104A JP6276513B2 (ja) 2013-04-12 2013-04-12 音声認識装置および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2014206642A JP2014206642A (ja) 2014-10-30
JP6276513B2 true JP6276513B2 (ja) 2018-02-07

Family

ID=52120222

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013084104A Active JP6276513B2 (ja) 2013-04-12 2013-04-12 音声認識装置および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP6276513B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102623272B1 (ko) 2016-10-12 2024-01-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP6824554B2 (ja) * 2017-08-22 2021-02-03 アルパイン株式会社 音声認識システム
KR102052634B1 (ko) * 2018-01-15 2019-12-06 네이버 주식회사 호출음 인식장치 및 호출음 인식방법
US11545144B2 (en) 2018-07-27 2023-01-03 Samsung Electronics Co., Ltd. System and method supporting context-specific language model
JP7191792B2 (ja) * 2019-08-23 2022-12-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60121499A (ja) * 1983-12-05 1985-06-28 富士通株式会社 音声照合装置
JPS63306500A (ja) * 1987-06-08 1988-12-14 株式会社リコー 音声認識後処理方式
JPH05303391A (ja) * 1992-04-24 1993-11-16 Seiko Epson Corp 音声認識装置
JP3428058B2 (ja) * 1993-03-12 2003-07-22 松下電器産業株式会社 音声認識装置
JP2001083978A (ja) * 1999-07-15 2001-03-30 Matsushita Electric Ind Co Ltd 音声認識装置

Also Published As

Publication number Publication date
JP2014206642A (ja) 2014-10-30

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
KR20100130263A (ko) 음성 인식용 발음사전 확장 장치 및 방법
JPWO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US20110218802A1 (en) Continuous Speech Recognition
JP2010078877A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JP2008176202A (ja) 音声認識装置及び音声認識プログラム
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
CN111816164A (zh) 用于语音识别的方法及设备
KR102442020B1 (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
WO2012150658A1 (ja) 音声認識装置および音声認識方法
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
US20210327435A1 (en) Voice processing device, voice processing method, and program recording medium
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
KR100981540B1 (ko) 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법
KR102300303B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
JP7035476B2 (ja) 音声処理プログラム、音声処理装置、及び音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180112

R150 Certificate of patent or registration of utility model

Ref document number: 6276513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250