JP6054004B1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP6054004B1
JP6054004B1 JP2016541466A JP2016541466A JP6054004B1 JP 6054004 B1 JP6054004 B1 JP 6054004B1 JP 2016541466 A JP2016541466 A JP 2016541466A JP 2016541466 A JP2016541466 A JP 2016541466A JP 6054004 B1 JP6054004 B1 JP 6054004B1
Authority
JP
Japan
Prior art keywords
matrix
base matrix
test data
acoustic model
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016541466A
Other languages
English (en)
Other versions
JPWO2017130387A1 (ja
Inventor
裕紀 金川
裕紀 金川
勇気 太刀岡
勇気 太刀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6054004B1 publication Critical patent/JP6054004B1/ja
Publication of JPWO2017130387A1 publication Critical patent/JPWO2017130387A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

基底行列の寄与度計算手段(103)は、基底行列(106)を用いて、基底行列の寄与度(107)を算出する。基底行列への重み適用手段202は、基底行列の重み(206)と、基底行列の寄与度(107)と、基底行列(106)とを用いて、基底行列への重み付けを行った変換行列(207)を生成する。特徴量データへの行列適用手段(203)は、変換行列(207)を用いて、テストデータ(206)を変換済みテストデータ(208)とする。デコード手段(204)は、変換済みテストデータ(208)と音響モデル(105)とを照合して音声認識を行う。

Description

この発明は、特徴量を音響モデルにマッチするよう適応化する手法において、基底行列と変換行列を用いて音響特徴量を変換させる音声認識装置に関するものである。
音声認識技術において、音素などのコンテキスト情報を音声の標準パターンで表現した音響モデルに対して、入力音声信号が一致しない要因となる、話者、騒音、マイクなどの影響を低減することを目的として、話者適応技術(特徴量の適用手法)が数多く提案されている。
従来、このような特徴量の適用手法として、例えば非特許文献1に開示されたCMLLR(Constrained−MLLR)法が知られている。これはモデルパラメータの平均及び分散を変換する手法である。当該変換は特徴量ベクトルを変換することと等価であるため、CMLLRは特徴量における変換行列を求めることとなる。具体的には式(1)のように、入力音声から計算されたD次元の音響特徴量oを音素の標準パターンである音響モデルに近づけるようなアフィン変換行列Wを求める。
Figure 0006054004
しかしながら非特許文献1に記載された特徴量の適用手法では、変換行列Wを適応データのみから求めているため、変換行列の推定に十分なデータ量が得られない場合、適応することでかえって性能が下がってしまうことがわかっている。この原因は、推定すべきパラメータ数に対して適応データ量が少なく、過学習するためである。例えば13次元のメル周波数ケプストラム係数MFCC(Mel-Frequency Cepstrum Coefficient)のベクトルと、その動的特徴量を連結した計39次元を音響特徴量として使用する場合、推定すべきパラメータ数は変換行列の要素数であるため39×40=1560個にも及ぶ。
この問題に対し、例えば非特許文献2に記載された特徴量の適用手法では、推定すべきパラメータ数を少なくするため、適応データから変換行列Wを直接推定するのではなく、N個の基底行列W1:Nmaxの重みづけにより表現している(n=1,…,N≦Nmax)。ここで、Nmax=D(D+1)である。具体的には式(2)のように、基底行列Wを重みdによって重みづけ、適応話者への変換行列Wを求める。
Figure 0006054004
基底行列は学習データより求め、適応時には入力話者への変換行列をそれらの重みdのみを求める。適応ステップで求めるべきパラメータは重みdだけでよく、100フレーム(=1秒)のデータに対し、推定すべきパラメータ数は非特許文献2によれば、式(3)により20個程度で済む。
N=min(ηβ,Nmax) ∵η=0.2 (3)
これは入力フレームβに応じてNを変え、使用する基底行列数を制限することを意味している。
非特許文献2に記載された音声認識装置における実施のステップとしては、大きく分けて、学習データから基底行列W1:Nmaxを求める学習ステップと、適応データ(テストデータ)と基底行列W1:Nmaxの内のN個を用いて変換行列Wを求める適応ステップの二つがある。
学習ステップでは、まず学習データから音素の標準パターンである音響モデルを得る。標準パターンにはHMM(Hidden Markov Model:隠れマルコフモデル)を用いる。学習データである音響特徴量としては、フィルタバンク係数、MFCC、PLP(Perceptual Linear Predictive)など従来から用いられている特徴ベクトルを利用することができる。
Figure 0006054004
次に適応ステップでは、まずテストデータを用いて基底行列の重みを生成する。この重みが先に述べたdに相当する。求めた基底行列の重みで基底行列を重みづけし、重みづけられた行列として変換行列Wを得る。最適なWを求めるため、逐次的に式(4)によって基底行列の重みと重みづけられた行列を求める。
Figure 0006054004
最後に重みづけられた行列とテストデータを用いて、変換済みテストデータを生成する。この際、式(1)を用いて変換できる。得られた変換済みテストデータと音響モデルによって表現される音素の標準パターンと照合することにより音声の認識処理を行い、認識結果を得る。
M.J.F. Gales, "Maximum Likelihood Linear Transformations for HMM-based Speech Recognition.", Computer Speech and Language, Vol. 12, 1998. Daniel Povey, Kaisheng Yao, "A Basis Representation of Constrained MLLR Transforms for Robust Adaptation.", Computer Speech and Language, Vol. 26, Issue 1, January 2012, pp 35−51.
上記従来の音声認識装置では、適応ステップにおいて、寄与度の高い基底行列Wから順に式(4)により重みづけして変換行列Wを求めていた。しかしながら、ここで基底行列W1:Nmaxは寄与度が高い順にインデックスnが振られているが、式(4)では各基底行列の寄与度が考慮されていない。つまり、dを乗算するまでは基底行列が同じ寄与度であるとみなされている。このため寄与度の低い基底行列が影響して、適応による効果が十分に得られない場合があるといった課題があった。
この発明は、かかる問題を解決するためになされたもので、適応時における変換行列の推定精度を向上させ、音声認識精度の向上を図ることのできる音声認識装置を提供することを目的とする。
この発明に係る音声認識装置は、学習データの音響特徴量を用いて学習データの標準パターンをモデル化した音響モデルを算出する音響モデル算出部と、音響モデルと学習データとを用いて、基底行列を算出する基底行列算出部と、基底行列を用いて、基底行列の寄与度を算出する基底行列の寄与度計算部と、テストデータの音響特徴量と、音響モデルと、基底行列とを用いて、基底行列の重みを算出する基底行列への重み算出部と、基底行列の重みと、基底行列の寄与度と、基底行列とを用いて、基底行列への重み付けを行った変換行列を生成する基底行列への重み適用部と、変換行列を用いて、テストデータを音響モデルと認識するための変換済みテストデータに変換する特徴量データへの行列適用部と、変換済みテストデータと音響モデルとを照合して音声認識を行うデコード部とを備えたものである。
この発明に係る音声認識装置は、基底行列の寄与度を算出し、この基底行列の寄与度と基底行列の重みと基底行列とを用いて、基底行列への重み付けを行った変換行列を生成するようにしたものである。これにより、適応時における変換行列の推定精度を向上させ、音声認識性能の向上を図ることができる。
この発明の実施の形態1の音声認識装置を示す構成図である。 この発明の実施の形態1の音声認識装置のハードウェア構成図である。 この発明の実施の形態1の音声認識装置の学習ステップの流れを示すフローチャートである。 この発明の実施の形態1の音声認識装置の適応ステップの流れを示すフローチャートである。 この発明の実施の形態2の音声認識装置を示す構成図である。 この発明の実施の形態2の音声認識装置の学習ステップの流れを示すフローチャートである。 この発明の実施の形態2の音声認識装置の適応ステップの流れを示すフローチャートである。 この発明の実施の形態2の音声認識装置の基底行列の重み算出部の処理内容を示す説明図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、本実施の形態による音声認識装置の構成図である。
本実施の形態による音声認識装置は、図示のように、学習ステップ実行部100と適応ステップ実行部200から構成される。学習ステップ実行部100は、音響モデル算出部101、基底行列算出部102、基底行列の寄与度計算部103を備え、適応ステップ実行部200は、基底行列の重み算出部201、基底行列への重み適用部202、特徴量データへの行列適用部203、デコード部204を備えている。
学習ステップ実行部100における音響モデル算出部101は、学習データ104の音響特徴量を用いて学習データ104の標準パターンをモデル化した音響モデル105を算出する処理部である。基底行列算出部102は、音響モデル算出部101が算出した音響モデル105と学習データ104を用いて基底行列106を算出する処理部である。基底行列の寄与度計算部103は、基底行列算出部102が算出した基底行列106を用いて基底行列の寄与度107を算出する処理部である。
適応ステップ実行部200における基底行列の重み算出部201は、テストデータ205の音響特徴量と、音響モデル105と、基底行列106とを用いて、基底行列の重み206を算出する処理部である。基底行列への重み適用部202は、基底行列の重み算出部201で算出された基底行列の重み206と、基底行列の寄与度107と、基底行列106とを用いて、基底行列106への重みづけを行い、重みづけられた行列である変換行列207を生成する処理部である。特徴量データへの行列適用部203は、基底行列への重み適用部202により得られた変換行列207と、テストデータ205とを用いて、テストデータ205を音響モデルの認識に適するよう変換して変換済みテストデータ208を生成する処理部である。デコード部204は、特徴量データへの行列適用部203によって得た変換済みテストデータ208と、音響モデル105とを照合して、音声認識を行って認識結果209を出力する処理部である。なお、図1では音響モデル105からデコード部204への矢印の図示は省略している。
図2は、実施の形態1の音声認識装置のハードウェア構成図である。
音声認識装置はコンピュータを用いて実現されており、プロセッサ1、メモリ2、入出力インタフェース(入出力I/F)3、バス4を備える。プロセッサ1は、コンピュータとしての演算処理を行う機能部であり、メモリ2は、各種のプログラムや演算結果を記憶し、また、プロセッサ1が演算処理を行う場合の作業領域を構成する記憶部である。入出力インタフェース3は、学習データ104やテストデータ205を入力したり、認識結果209を外部に出力したりする際のインタフェースである。バス4は、プロセッサ1、メモリ2及び入出力インタフェース3を相互に接続するためのバスである。
図1に示す音響モデル算出部101、基底行列算出部102、基底行列の寄与度計算部103、基底行列の重み算出部201、基底行列への重み適用部202、特徴量データへの行列適用部203及びデコード部204は、それぞれプロセッサ1がメモリ2に記憶されたプログラムを実行することにより実現されている。また、音響モデル105、基底行列106、基底行列の重み206、変換行列207、変換済みテストデータ208は、それぞれメモリ2の記憶領域に記憶されている。プロセッサ1及びメモリ2をそれぞれ複数備え、複数のプロセッサ1とメモリ2とが連携して上述した機能を実行するように構成してもよい。
次に、実施の形態1の音声認識装置の動作について説明する。
先ず、学習ステップ実行部100が行う学習ステップについて図3のフローチャートを用いて説明する。
学習ステップでは、先ず、学習データ104から音響モデル算出部101により音素の標準パターンである音響モデル105を作成する(ステップST1)。ここで音響特徴量としては、フィルタバンク係数、MFCC(Mel Frequency Cepstrum Coefficient)、PLP(Perceptual Linear Predictive)など従来から用いられている特徴ベクトルを利用することができる。
Figure 0006054004
また、基底行列106から、基底行列の寄与度計算部103を用いて、各基底行列106のインデックスnに対応する寄与度(ω)107を求める(ステップST3)。寄与度107は学習データの表現力が高い集合n順に大きい値をとる。
基底行列の寄与度107を示す具体的な例として、基底行列(W1:Nmax)106を求める際に得られる特異値k1:Nmaxが利用可能である。これは特異値が大きいインデックスnの基底行列が、行列Mを表現するのに寄与度が高いからである。従って、寄与度計算部103で再度特異値k1:Nmaxを計算するのでなく、基底行列算出部102にて算出した特異値k1:Nmaxを保持しておくことでも同様に寄与度107が得られる。
また、基底行列の寄与度計算部103において特異値k1:Nmaxをそのまま用いるのでなく、変換関数φ(・)を特異値に適用してφ(k)とすることで、基底行列(W)106に対応する寄与度をコントロールすることができる。変換関数には、シグモイド関数などを用いることができる。
次に、適応ステップ実行部200が行う適応ステップについて図4のフローチャートを用いて説明する。
適応ステップでは、先ず、基底行列の重み算出部201は、テストデータ205と音響モデル105と基底行列106から基底行列の重み(d)206を生成する(ステップST11)。次に、基底行列への重み適用部202は、ステップST11で求めた基底行列の重み206と、基底行列106と基底行列の寄与度(ω1:Nmax)107とを用いて重みづけられた行列としての変換行列(W)207を得る(ステップST12)。逐次的に式(5)に基づいて、基底行列の重み206と変換行列207を求める。
Figure 0006054004
すなわち、ステップST11とステップST12を逐次的に繰り返し、尤度の上がり幅が閾値を下回る、もしくは定めた回数分繰り返した場合、次ステップに進む。ここで、尤度とは音響モデル105に対して入力音声が標準パターンにどれほど近いかの指標となる。尤度の差分を算出することにより、前回の変換行列を推定した時からの尤度の上がり幅が算出される。尤度の差分が設定した数値より小さい、すなわち尤度の上がり幅が設定した数値より小さくなることは、推定処理が収束したとみなすことができ、精度の高い推定処理が行われたと判断する。一方、尤度の差分が設定した数値以上である、即ち尤度の上がり幅が設定した数値以上の場合は、推定処理が収束していないと判断する。この場合、基底行列への重み206を再度推定し、より精度の高い変換行列207を取得する。
本発明では基底行列への重み適用部202において、変換行列(W)207推定時に寄与度(ω)107を基底行列(W)106に乗算することで、基底行列の寄与度を考慮することが可能となり、変換行列(W)207の推定精度の向上が期待できる。
最後に変換行列207とテストデータ205を用いて、特徴量データへの行列適用部203により、変換済みテストデータ208を生成する(ステップST13)。具体的には式(1)を用いて変換できる。得られた変換済みテストデータ208にデコード部204で音響モデル105によって表現される音素の標準パターンと照合することにより、認識結果209を取得する(ステップST14)。
デコード部204では、HMM(Hidden Markov Model)に基づく音声認識処理を行う。詳細には、HMMの出力確率モデルとして、混合ガウス分布(以下、GMM(Gaussian Mixture Model)と称する)を用いたモデルGMM−HMMや、ニューラルネットワーク(以下、NN(Neural Network)と称する)を用いたモデルNN−HMMが利用可能である。
以上説明したように、実施の形態1の音声認識装置によれば、学習データの音響特徴量を用いて学習データの標準パターンをモデル化した音響モデルを算出する音響モデル算出部と、音響モデルと学習データとを用いて、基底行列を算出する基底行列算出部と、基底行列を用いて、基底行列の寄与度を算出する基底行列の寄与度計算部と、テストデータの音響特徴量と、音響モデルと、基底行列とを用いて、基底行列の重みを算出する基底行列への重み算出部と、基底行列の重みと、基底行列の寄与度と、基底行列とを用いて、基底行列への重み付けを行った変換行列を生成する基底行列への重み適用部と、変換行列を用いて、テストデータを音響モデルと認識するための変換済みテストデータに変換する特徴量データへの行列適用部と、変換済みテストデータと音響モデルとを照合して音声認識を行うデコード部とを備えたので、寄与度の高い基底行列の影響度を高くし、寄与度の低い基底行列の影響度を低く抑えることが可能となり、適応時における変換行列の推定精度を向上させ、音声認識性能の向上を図ることができる。
実施の形態2.
実施の形態2は、変換行列と、変換行列の推定に使用する基底行列とを音素などのクラス毎に求めるようにしたものである。
図5は、実施の形態2に係る音声認識装置の構成図である。実施の形態2に係る音声認識装置は、学習ステップ実行部100aと適応ステップ実行部200aから構成される。学習ステップ実行部100aは、音響モデル算出部101a、基底行列算出部102aを備えている。適応ステップ実行部200aは、基底行列の重み算出部201a、基底行列への重み適用部202a、特徴量データへの行列適用部203a、デコード部204、アラインメント算出部210、データのクラス分類部211を備えている。
学習ステップ実行部100aにおける音響モデル算出部101aは、クラス単位でクラスタリングされたクラス毎の学習データ104aの音響特徴量を用いて、クラス毎の学習データ104aの標準パターンをモデル化して音響モデル105aを求める処理部である。基底行列算出部102aは、音響モデル105aとクラス毎の学習データ104aとを用いて、クラス毎の基底行列106aを算出する処理部である。
適応ステップ実行部200aにおけるアラインメント算出部210は、テストデータ205の音響特徴量の状態系列を示すアラインメント212を算出する処理部である。データのクラス分類部211は、テストデータ205とアラインメント212とを用いてテストデータ205をクラス毎に分類し、クラス毎のテストデータ213として出力する処理部である。基底行列の重み算出部201aは、クラス毎のテストデータ213と音響モデル105aとクラス毎の基底行列106aとを用いて、クラス毎の基底行列106aへの重みを求め、クラス毎の基底行列の重み206aを出力する処理部である。基底行列への重み適用部202aは、クラス毎の基底行列106aとクラス毎の基底行列の重み206aとを用いて、重み付けによりクラス毎の変換行列207aを生成する処理部である。特徴量データへの行列適用部203aは、テストデータ205とアラインメント212とクラス毎の変換行列207aとを用いて、テストデータ205を音響モデルの認識に適するよう変換し、変換済みテストデータ208aを生成する処理部である。デコード部204は、変換済みテストデータ208aと音響モデル105aとを照合して音声認識を行い、その認識結果209を出力する処理部である。なお、図5では音響モデル105aからデコード部204への矢印の図示は省略している。また、これら処理部は図2に示したプロセッサがメモリに記憶されたプログラムを実行することにより実現されている。
次に、実施の形態2の音声認識装置の動作について説明する。
先ず、学習ステップ実行部100aが行う学習ステップについて図6のフローチャートを用いて説明する。
学習ステップにおいて、学習データを予め音素などのC個のクラス毎に分類し、クラスタリングされたクラス毎の学習データ104aを用意する。この際のクラス数Cやクラスの分け方は、音素に応じて手動で決めてもよいし、決定木やK−means法を用いたクラスタリングにより決定してもよい。音響モデル算出部101aは、このようなクラス毎の学習データ104aから音響モデル105aを算出する(ステップST101)。次にクラス毎の学習データ104aと音響モデル105aとを基底行列算出部102aにそれぞれ入力し、クラス毎の基底行列106aを得る(ステップST102)。
次に、適応ステップ実行部200aが行う適応ステップについて図7のフローチャートを用いて説明する。
適応ステップでは、アラインメント算出部210により、テストデータ205からアラインメント212を算出する(ステップST201)。ここで、アラインメントとはHMMの状態系列であり、テストデータの各時刻tに対応する音素やクラス情報を対応づける用途に使用される。次に、データのクラス分類部211は、アラインメント212を用いてテストデータ205をクラス毎に分類し、クラス1からクラスCに対応するテストデータをクラス毎のテストデータ213として生成する(ステップST202)。次に、基底行列の重み算出部201aは、クラス毎のテストデータ213に対して、音響モデル105aとクラス毎の基底行列106aを用いて、クラス毎の基底行列の重み206aを算出する(ステップST203)。更に、基底行列への重み適用部202aは、クラス毎の基底行列の重み206aに対して、クラス毎の基底行列106aを用いてクラス毎の変換行列207aを算出する(ステップST204)。ステップST203とステップST204を逐次的に繰り返し、尤度の上がり幅が閾値を下回る、もしくは定めた回数分繰り返した場合にステップST205に進む。
図8は基底行列の重み算出部201aの処理内容を示す説明図である。図8に示す音響特徴量系列とは、テストデータの連続的に変化する音響特徴量を時系列に示しており、図中のoは時刻tにおける特徴量ベクトルを示している。
図8に示すアラインメントは、ユーザが「あき」と発話した場合の音素列「sil a k i」を示している。「あき」の音素列は「aki」であるが、語頭の無音を「sil」で表現している。また、アラインメントが示す数字はそれぞれHMMの状態番号を示している。すなわち、アラインメントは、音響特徴量系列に対応するHMMの状態系列となる。更に、アラインメントが示す直線の矢印は次の状態への遷移を示し、曲線の矢印は自己遷移を示している。
Figure 0006054004
実施の形態2では、アラインメント212により各時刻の音響特徴量oに対応する音素を対応づけ、その音素の特徴量を変換するのに適した基底行列を用いることで、テストデータの音響的特徴に適合した基底行列への重みを推定することが可能となる。
次に、ステップST205では、特徴量データへの行列適用部203aにより、ステップST204で求めたクラス毎の変換行列207aとテストデータ205とアラインメント212とを用いて、変換済みテストデータ208aを算出する。すなわち、特徴量データへの行列適用部203aは、アラインメント212により得たクラス情報を用いて、ある時刻の音響特徴量に対応するクラス毎の変換行列207aを対応づけ、変換行列を特徴量ベクトルに乗算して変換済みテストデータ208aを生成する。その後、デコード部204は、ステップST205により得た変換済みテストデータ208aと音響モデル105aと照合して音声認識を行い、認識結果209を取得する(ステップST206)。
以上説明したように、実施の形態2の音声認識装置によれば、クラスタリングされた学習データの音響特徴量を用いて学習データの標準パターンをモデル化した音響モデルを算出する音響モデル算出部と、音響モデルと学習データとを用いて、クラス毎に基底行列を算出する基底行列算出部と、テストデータの音響特徴量の状態系列を示すアラインメントを算出するアラインメント算出部と、テストデータとアラインメントとを用いて、テストデータをクラス毎に分類するデータのクラス分類部と、クラス毎のテストデータと基底行列と音響モデルとを用いて、クラス毎の基底行列への重みを求める基底行列の重み算出部と、クラス毎の基底行列と、クラス毎の基底行列の重みとを用いて、重みづけによりクラス毎に変換行列を生成する基底行列への重み適用部と、テストデータとアラインメントとクラス毎の変換行列とを用いて、テストデータを音響モデルと認識するための変換済みテストデータを生成する特徴量データへの行列適用部と、変換済みテストデータと、音響モデルとを照合して音声認識を行うデコード部とを備えたので、適応時における変換行列の推定精度を向上させ、音声認識性能の向上を図ることができる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。例えば、実施の形態1と実施の形態2とを組み合わせ、実施の形態2の基底行列への重み適用部202aに実施の形態1で説明した基底行列の寄与度を反映させることで、適応精度の向上が可能である。
以上のように、この発明に係る音声認識装置は、少量データに対しても頑健な話者適応処理を行うことを可能とするため、ナビゲーション装置や家電製品などに適用し、音声認識性能の向上に用いるのに適している。
100,100a 学習ステップ実行部、101,101a 音響モデル算出部、102,102a 基底行列算出部、103 基底行列の寄与度計算部、104 学習データ、104a クラス毎の学習データ、105,105a 音響モデル、106 基底行列、106a クラス毎の基底行列、107 寄与度、200,200a 適応ステップ実行部、201,201a 基底行列の重み算出部、202,202a 基底行列への重み適用部、203,203a 特徴量データへの行列適用部、204 デコード部、205 テストデータ、206 基底行列の重み、206a クラス毎の基底行列の重み、207 変換行列、207a クラス毎の変換行列、208,208a 変換済みテストデータ、209 認識結果、210 アラインメント算出部、211 データのクラス分類部、212 アラインメント、213 クラス毎のテストデータ。

Claims (2)

  1. 学習データの音響特徴量を用いて当該学習データの標準パターンをモデル化した音響モデルを算出する音響モデル算出部と、
    前記音響モデルと前記学習データとを用いて、基底行列を算出する基底行列算出部と、
    前記基底行列を用いて、基底行列の寄与度を算出する基底行列の寄与度計算部と、
    テストデータの音響特徴量と、前記音響モデルと、前記基底行列とを用いて、基底行列の重みを算出する基底行列への重み算出部と、
    前記基底行列の重みと、前記基底行列の寄与度と、前記基底行列とを用いて、基底行列への重み付けを行った変換行列を生成する基底行列への重み適用部と、
    前記変換行列を用いて、前記テストデータを前記音響モデルと認識するための変換済みテストデータに変換する特徴量データへの行列適用部と、
    前記変換済みテストデータと前記音響モデルとを照合して音声認識を行うデコード部とを備えた音声認識装置。
  2. クラスタリングされた学習データの音響特徴量を用いて当該学習データの標準パターンをモデル化した音響モデルを算出する音響モデル算出部と、
    前記音響モデルと前記学習データとを用いて、クラス毎に基底行列を算出する基底行列算出部と、
    前記クラス毎の基底行列を用いて、基底行列の寄与度を算出する基底行列の寄与度計算部と、
    テストデータの音響特徴量の状態系列を示すアラインメントを算出するアラインメント算出部と、
    前記テストデータと前記アラインメントとを用いて、前記テストデータをクラス毎に分類するデータのクラス分類部と、
    前記クラス毎のテストデータと前記基底行列と前記音響モデルとを用いて、クラス毎の基底行列への重みを求める基底行列の重み算出部と、
    前記クラス毎の基底行列と、前記クラス毎の基底行列の寄与度と、前記クラス毎の基底行列の重みとを用いて、重みづけによりクラス毎に変換行列を生成する基底行列への重み適用部と、
    前記テストデータと前記アラインメントと前記クラス毎の変換行列とを用いて、前記テストデータを前記音響モデルと認識するための変換済みテストデータを生成する特徴量データへの行列適用部と、
    前記変換済みテストデータと、前記音響モデルとを照合して音声認識を行うデコード部とを備えた音声認識装置。
JP2016541466A 2016-01-29 2016-01-29 音声認識装置 Expired - Fee Related JP6054004B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/052724 WO2017130387A1 (ja) 2016-01-29 2016-01-29 音声認識装置

Publications (2)

Publication Number Publication Date
JP6054004B1 true JP6054004B1 (ja) 2016-12-27
JPWO2017130387A1 JPWO2017130387A1 (ja) 2018-02-01

Family

ID=57582225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016541466A Expired - Fee Related JP6054004B1 (ja) 2016-01-29 2016-01-29 音声認識装置

Country Status (3)

Country Link
JP (1) JP6054004B1 (ja)
TW (1) TW201727620A (ja)
WO (1) WO2017130387A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216178A (ja) * 2002-01-18 2003-07-30 Nec Corp 階層的固有空間抽出装置、適応モデル作成装置、これらの抽出、作成方法ならびに抽出、作成プログラム
US20050182626A1 (en) * 2004-02-18 2005-08-18 Samsung Electronics Co., Ltd. Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition
US20120173240A1 (en) * 2010-12-30 2012-07-05 Microsoft Corporation Subspace Speech Adaptation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216178A (ja) * 2002-01-18 2003-07-30 Nec Corp 階層的固有空間抽出装置、適応モデル作成装置、これらの抽出、作成方法ならびに抽出、作成プログラム
US20050182626A1 (en) * 2004-02-18 2005-08-18 Samsung Electronics Co., Ltd. Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition
US20120173240A1 (en) * 2010-12-30 2012-07-05 Microsoft Corporation Subspace Speech Adaptation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7016000735; D.Povey et al.: 'A Basis Representation of Constrained MLLR Transforms for Robust Adaptation' Computer Speech and Language Vol.26, Issue 1, 201201, pp.35-51 *

Also Published As

Publication number Publication date
WO2017130387A1 (ja) 2017-08-03
TW201727620A (zh) 2017-08-01
JPWO2017130387A1 (ja) 2018-02-01

Similar Documents

Publication Publication Date Title
Gibiansky et al. Deep voice 2: Multi-speaker neural text-to-speech
Arik et al. Deep voice 2: Multi-speaker neural text-to-speech
JP5326892B2 (ja) 情報処理装置、プログラム、および音響モデルを生成する方法
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
WO2020036178A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
WO2019240228A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CA2652302A1 (en) Intersession variability compensation for automatic extraction of information from voice
JP6764851B2 (ja) 系列データ変換装置、学習装置、及びプログラム
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
Ghaffarzadegan et al. Deep neural network training for whispered speech recognition using small databases and generative model sampling
Kannadaguli et al. A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker
US8874438B2 (en) User and vocabulary-adaptive determination of confidence and rejecting thresholds
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP6054004B1 (ja) 音声認識装置
Soni et al. Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
Sen et al. A novel bangla spoken numerals recognition system using convolutional neural network
Kannadaguli et al. Comparison of hidden markov model and artificial neural network based machine learning techniques using DDMFCC vectors for emotion recognition in Kannada
JP2009237336A (ja) 音声認識装置及び音声認識プログラム
Kannadaguli et al. Comparison of artificial neural network and gaussian mixture model based machine learning techniques using ddmfcc vectors for emotion recognition in kannada
Kotani et al. Voice Conversion Based on Deep Neural Networks for Time-Variant Linear Transformations
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
Sarfjoo et al. Cross-Lingual Speaker Adaptation for Statistical Speech Synthesis Using Limited Data.
Shinoda Speaker adaptation techniques for speech recognition using probabilistic models
Suzuki et al. Discriminative re-ranking for automatic speech recognition by leveraging invariant structures

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161129

R150 Certificate of patent or registration of utility model

Ref document number: 6054004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees