JP2011095680A - 音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラム - Google Patents

音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラム Download PDF

Info

Publication number
JP2011095680A
JP2011095680A JP2009252247A JP2009252247A JP2011095680A JP 2011095680 A JP2011095680 A JP 2011095680A JP 2009252247 A JP2009252247 A JP 2009252247A JP 2009252247 A JP2009252247 A JP 2009252247A JP 2011095680 A JP2011095680 A JP 2011095680A
Authority
JP
Japan
Prior art keywords
cluster
label
unit
acoustic model
model adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009252247A
Other languages
English (en)
Inventor
Takenori Tsujikawa
剛範 辻川
Yoshifumi Onishi
祥史 大西
Takeshi Hanazawa
健 花沢
Takafumi Koshinaka
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009252247A priority Critical patent/JP2011095680A/ja
Publication of JP2011095680A publication Critical patent/JP2011095680A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】限られた時間で効率よく高精度な音響モデル適応を行う。
【解決手段】音響モデル適応装置は、分割部11によって分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング部12と、クラスタに含まれる音声信号について信頼度を計算する信頼度計算部13と、クラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定部14と、信頼度にもとづいて選択された第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する提示部15と、提示された音声信号に対する教師ラベルを得る教師ラベル取得部16と、所定の条件が成立すると、提示部15に、第1のクラスタを扱う状態から、第1のクラスタとは異なる第2のクラスタを扱う状態に遷移することを指示する遷移指示部17と、教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応部18とを備えている。
【選択図】図5

Description

本発明は、音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラムに関し、特に、限られた時間で効率よく高精度な音声認識結果を得るための音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラムに関する。
一般に、音声認識では、音素の特徴を表現するための音響モデルと、音素の並び方の制約を表すための言語モデルとが使用される。そして、音響モデルを話者や環境に適応させる『音響モデルの適応』が行われることがある。
音響モデル適応装置の一例が、特許文献1に記載されている。特許文献1に記載されているシステムは、ユーザに複数の音声認識結果の候補を提示し、ユーザに候補から正解を選択させる。その結果、誤った音声認識結果をユーザが効率よく修正できる。すなわち、特許文献1に記載されているシステムは、効率よく修正された認識結果を用いて音響モデルを教師ありで適応を行うことが可能なシステムである。
図8は、特許文献1に開示されている音声認識システムの構成を示すブロック図である。図8を参照して、認識誤り単語を訂正するための構成および動作を説明する。図8に示す音声認識システム400は、音声入力手段403、音声認識手段405、辞書を記憶するデータ記憶手段412、単語訂正手段409および認識結果表示手段407を備えている。
音声認識手段405は、連続音判定手段413と音声認識実行手段411とを含む。
単語訂正手段409において、競合単語表示指令手段415は、競合候補の中から最も競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、選んだ競合単語を、対応する最も競合確率の高い単語に隣接させて認識結果表示手段407の画面上に表示する。競合単語選択手段417は、ユーザによるマニュアル操作に応じて、画面上に表示された1以上の競合単語から適切な訂正単語を選択する。単語置き換え指令手段419は、競合単語選択手段417によって選択された訂正単語を、認識された最も競合確率の高い単語と置き換えることを、音声認識手段405に指令する。
特開2006−146008
特許文献1に記載されている音響モデル適応装置では、効率よくユーザが認識誤り単語を訂正でき、その結果、音響モデル適応装置は、効率よく音響モデルの適応を行うことができる。
しかし、特許文献1に記載されている音響モデル適応装置には、限られた時間で最大限の音響モデル適応効果が得られない可能性がある。その理由は、音響モデルを適応するにあたってのターゲット(発話者や発話環境など)に対して、ユーザがどの程度訂正すればよいかが考慮されていないためである。換言すれば、どのような教師を与えればよいかが考慮されていないためである。
そこで、本発明、限られた時間で効率よく高精度な音響モデル適応を行うことができる音響モデル適応装置を提供することを目的とする。
本発明による音響モデル適応装置は、音声信号を分割する分割部と、分割部によって分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング部と、クラスタリング部が作成したクラスタに含まれる音声信号について音響的な信頼度を計算する信頼度計算部と、クラスタリング部が作成したクラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定部と、クラスタリング部が作成したクラスタから、信頼度計算部が計算した信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号とラベル推定部が得た推定ラベルとをユーザに提示する提示部と、提示部によって提示された音声信号に対する教師ラベルを得る教師ラベル取得部と、所定の条件が成立すると、提示部に、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移することを指示する遷移指示部と、教師ラベル取得部が取得した教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応部とを備えたことを特徴とする。
本発明による音響モデル適応方法は、音声信号を分割し、分割された音声信号を音響的な違いに応じてクラスタリングし、クラスタリングによって作成されたクラスタに含まれる音声信号について音響的な信頼度を計算し、クラスタリングによって作成されたクラスタに含まれる音声信号を認識することによって推定ラベルを得て、クラスタリングによって作成されたクラスタから、信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号と、推定ラベルとをユーザに提示し、ユーザに提示された音声信号に対する教師ラベルを得て、所定の条件が成立すると、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移させ、得られた教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させることを特徴とする。
本発明による音響モデル適応プログラムは、コンピュータに、音声信号を分割する分割処理と、分割処理で分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング処理と、クラスタリング処理で作成されたクラスタに含まれる音声信号について音響的な信頼度を計算する信頼度計算処理と、クラスタリング処理で作成されたクラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定処理と、クラスタリング処理で作成されたクラスタから、信頼度計算処理で計算された信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号とラベル推定部が得た推定ラベルとをユーザに提示する提示処理と、提示処理で提示された音声信号に対する教師ラベルを得る教師ラベル取得処理と、所定の条件が成立すると、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移することを指示する遷移指示処理と、教師ラベル取得処理で取得された教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応処理とを実行させることを特徴とする。
本発明によれば、ユーザが1つのクラスタに偏って多数の教師データを付与する可能性が低減するので、比較的少ない教師データを付与するだけで、より多くの音響モデルの適応処理を行うことが可能になる。その結果、限られた時間で効率よく高精度な音響モデル適応を行うことができる音響モデル適応装置を実現することができる。
本発明による音響モデル適応装置の実施形態の一例を示すブロック図である。 音響モデル適応装置の動作を示すフローチャートである。 音響モデル適応装置を含む音声認識システムの構成例を示すブロック図である。 音響モデル適応装置を含む音声検出システムの構成例を示すブロック図である。 本発明による音響モデル適応装置の主要部を示すブロック図である。 遷移指示部の構成例を示すブロック図である。 遷移指示部の構成例を示すブロック図である。 特許文献1に記載された音声認識システムの構成を示すブロック図である。
以下、図面を参照して本発明の実施形態を説明する。図1は、本実施形態の音響モデル適応装置の構成例を示すブロック図である。図1に示す音響モデル適応装置は、入力音声ストリームを音声データに分割する分割部1と、分割された音声データを発話者や発話環境などの音響的な違いに応じてクラスタリングする音声データクラスタリング部2とを備えている。音声データクラスタリング部2は、作成したクラスタ101〜101をクラスタ記憶部101に格納する。
また、音響モデル適応装置は、音響モデル記憶部102に格納されている音響モデルを用いてクラスタ101〜101に含まれる音声データについて音響的な信頼度を計算する信頼度計算部3と、音響モデル記憶部102に格納されている音響モデルを用いてクラスタ101−1〜nに含まれる音声データを認識することによって推定ラベルを得るラベル推定部4と、ラベル推定部4が得た推定ラベルを一時記憶する推定ラベル記憶部103とを備えている。
また、音響モデル適応装置は、信頼度が高いクラスタ(第1のクラスタとする。)の音声データと推定ラベルとをユーザに提示する音声データ推定ラベル提示部5と、提示された音声データに対するユーザからの教師ラベルを得て教師ラベル記憶部104に格納する教師ラベル取得部6と、音声データ推定ラベル提示部5の処理対象を第1のクラスタとは異なる第2のクラスタに遷移させる遷移部7と、少なくともユーザからの教師ラベルを用いて音響モデルをクラスタ内の音声データに適応させて、適応モデル105〜105を得る音響モデル適応部8とを備えている。
次に、本実施形態の音響モデル適応装置の動作を説明する。図2は、本実施形態の音響モデル適応装置における処理手順を示すフローチャートである。
入力音声ストリームをx(t)とする。ただし、tは時間のインデックスであり、一例として0〜Tとする。分割部1は、入力音声ストリームx(t)をm個の音声データx1(t1),x2(t2),・・・,xm(tm)に分割する(ステップS1)。ただし、t1,t2,・・・,tmは時間のインデックスであり、範囲はtの範囲0〜Tに含まれる。なお、分割の単位として、発話単位や決められた時間単位などの単位が考えられる。
音声データクラスタリング部2は、分割部1で分割された音声データを、発話者や発話環境など音響的な違いに応じてn個のクラスタ101〜101にクラスタリングする(ステップS2)。音声データクラスタリング部2は、例えば、音響的な特徴の近さを基準として自動的にクラスタリングを行う。具体的には、ある音声データの特徴(周波数スペクトラムやケプストラムなど)と他の音声データの特徴とが類似している場合に、それらの音声データを同じクラスタにクラスタリングする。また、音声データと発話者との対応が既知の場合には、その対応情報にもとづいてクラスタリングを行ってもよい。
信頼度計算部3は、各々のクラスタ101〜101毎に、クラスタに含まれる音声データについて音響的な信頼度を計算することによって各々のクラスタ101〜101の信頼度を算出する(ステップS3)。信頼度として、例えば、事後確率の平均値やSN比の平均値を使用する。
一例として、クラスタ101に音声データx1(t1),x2(t2)が含まれている場合に、音声データx1(t1),x2(t2)の事後確率の平均値(信頼度)を以下のように計算できる。
事後確率の平均値=ave_{x1,x2}<ave_{t1}<P(k1|x1(t1))>,ave_{t2}<P(k2|x2(t2))>>・・・式(1)
式(1)において、ave_{a}<b>はaに関するbの平均を計算する演算子であり、P(k1|x1(t1))は音声データx1(t1)が与えられたときの音響モデル中の確率分布k1に対する事後確率である。ただし、確率分布k1は時刻t1において事後確率が最も高い分布である。なお、事後確率やSN比以外の指標を信頼度として用いてもよい。
ラベル推定部4は、各々のクラスタ101〜101毎に、クラスタに含まれる音声データを認識することによって推定ラベルを得る(ステップS4)。推定ラベルとして、例えば、音素ラベル(a,i,u,e,o,k,s,t,n,・・・)、音節ラベル(あ,い,う,え,お,か,さ,た,な,・・・)、または、音声か雑音かの違いを示すラベルなどを使用する。
音声データ推定ラベル提示部5は、信頼度が高い第1のクラスタに含まれる音声データと、第1のクラスタにおける推定ラベルとをユーザに提示する(ステップS5)。具体的には、音声データにもとづく音声をユーザに提示するとともに、ユーザに見せるために推定ラベルを表示装置(図示せず)に表示することが好ましい。
ユーザが、提示された音声データに対する教師ラベルを入力装置(図示せず)を介して入力すると、教師ラベル取得部6は、入力された教師ラベルを取得する。その結果、教師ラベル取得部6は、ユーザに提示した音声データに対してユーザから正しい教師ラベルを得る(ステップS6)。教師ラベルは、ラベル推定部4が扱った推定レベルと同じ種類のラベルであることが望ましいが、同じ種類のラベルに変換可能なものであってもよい。例えば、音節ラベルは音素ラベルに変換可能であるから、ラベル推定部4が推定ラベルとして音素ラベルを作成した場合でも、教師ラベルは音節ラベルであってもよい。
遷移部7は、所定の条件が成立すると、音声データ推定ラベル提示部5の処理対象を、相対的に信頼度が高い第1のクラスタとは異なる第2のクラスタに遷移させる(ステップS7)。すなわち、処理対象を第2のクラスタに変える指示を出力する。なお、第2のクラスタは、第1のクラスタの次に信頼度が高いクラスタである。
<信頼度が高いクラスタから遷移する場合>
信頼度が高いクラスタである場合は、推定ラベルが正しく推定されている可能性が高い。従って、少量の教師ラベルを与えたときに、推定ラベルとの一致度が高ければ、残りの音声データについては推定ラベルで代用可能である。
以上のことから、閾値以上のラベルの一致度が確認できれば、このクラスタから他のクラスタに遷移可能であるといえる。従って、ステップS7の処理で、遷移部7は、ユーザに推定ラベルを提示する度に、その推定ラベルと教師ラベル取得部6が得た教師ラベルとの一致度(類似度)を計算し、一致度があらかじめ決められている閾値以上である場合には、未提示の推定ラベルがあるときでも、音声データ推定ラベル提示部5の処理対象を第2のクラスタに遷移させる。
<信頼度が低いクラスタから遷移する場合>
信頼度が低いクラスタである場合には、信頼度が高いクラスタに比べて、推定ラベルの推定誤りが多い。しかし、教師ラベルの音素(ラベル)網羅度が高ければ、全ての音声データに対して教師ラベルを与えなくても、音響モデルは適応可能である。
以上のことから、閾値以上の教師ラベルの音素(ラベル)網羅度が確認できれば、このクラスタから他のクラスタに遷移可能であるといえる。従って、ステップS7の処理で、遷移部7は、教師ラベル取得部6が得た教師ラベルの音素網羅度があらかじめ決められている閾値以上である場合には、未提示の推定ラベルがあるときでも、音声データ推定ラベル提示部5の処理対象を第2のクラスタに遷移させる。
<ユーザが適応不要と判断したクラスタから遷移する場合>
ユーザが認識する必要がないと判断した(発話者の)クラスタについては、そのクラスタから他のクラスタに、教師ラベルを付与せずにユーザからの指示により遷移可能である。従って、ステップS7の処理で、遷移部7は、ユーザが、音声データ推定ラベル提示部5がそのときに扱っているクラスタについて教師ラベルの入力は不要である旨を入力装置を介して入力した場合には、未提示の推定ラベルがあるときでも、音声データ推定ラベル提示部5の処理対象を第2のクラスタに遷移させる。なお、ユーザは、例えば、音声データにもとづく音声と推定ラベルとが合致しているときに、認識する必要がないと判断する。
音声データ推定ラベル提示部5は、遷移部7から、処理対象を第2のクラスタに遷移させる指示を入力した場合には、第2のクラスタを処理対象として、ステップS5の処理を実行する。以後、音声データ推定ラベル提示部5、教師ラベル取得部6および遷移部7は、ステップS5〜S7の処理を繰り返し、全てのクラスタ101〜101についてステップS5,S6の処理が実行されると、遷移部7は、次のクラスタに遷移する必要はないと判断する。
なお、上記の例では、クラスタ101〜101のうち相対的に信頼度が高いクラスタ(例えば、最も信頼度が高いクラスタ)を第1のクラスタとし、優先度が、取り扱ったクラスタの次に高いクラスタを順次対象にしてステップS5,S6の処理が実行されるようにしたが、クラスタ101〜101のうち相対的に信頼度が低いクラスタ(例えば、最も信頼度が低いクラスタ)を第1のクラスタとし、優先度が、取り扱ったクラスタの次に低いクラスタを対象にして順次ステップS5,S6の処理が実行されるようにしてもよい。
音響モデル適応部8は、教師ラベル取得部6によって取得された教師ラベル104を用いて、クラスタ101〜101の各々に含まれる音声データに、音響モデル102を適応させることによって、適応モデル105〜105を得る(ステップS8)。適応モデル105〜105は、適応モデル記憶部105に記憶される。
なお、音声データと教師ラベルとを用いて音響モデルを適応させるアルゴリズムとして、MLLR(Maximum Likelihood Linear Regression)法、木構造適応法などを用いればよい。また、本実施形態では、全てのクラスタ101〜101の教師ラベルを取得した後に音響モデル適応を行うようにしたが、あるクラスタの教師ラベルが取得され次第、音響モデル適応を行うようにしてもよい。
本実施形態では、分割した音声データを音響的な違いに応じてクラスタリングし、あるクラスタに対して必要な教師ラベルが取得されたと判断された時点で処理対象のクラスタを変えるので、限られた時間で効率よく高精度な音声認識結果を得るための音響モデル適応が可能になる。
上記の実施形態の音響モデル適応装置を、音声認識システムに適用することができる。図3は、上記の実施形態の音響モデル適応装置を含む音声認識システムの構成例を示すブロック図である。図3に示すように、音声認識システム200は、上記の実施形態の音響モデル適応装置10と、音声認識装置20とを含む。音声認識装置20は、例えば、入力された音声データの特徴を検出し、音響モデル適応装置10における適応モデル105〜105から、音声データの特徴に合った適応モデルを選択し、選択した適応モデルを用いて音声認識処理を実行する。
また、上記の実施形態の音響モデル適応装置を、音声検出システムに適用することができる。図4は、上記の実施形態の音響モデル適応装置を含む音声検出システムの構成例を示すブロック図である。図4に示すように、音声検出システム300は、上記の実施形態の音響モデル適応装置10と、音声検出装置30とを含む。音声検出装置30は、例えば、入力された音声データの特徴を検出し、音響モデル適応装置10における適応モデル105〜105から、音声データの特徴に合った適応モデルを選択し、選択した適応モデルを用いて、音声データから特定の音声部分を抽出したり話者認識を行う音声検出処理を実行する。
図5は、本発明による音響モデル適応装置の主要部を示すブロック図である。図5に示すように、音響モデル適応装置は、音声信号を分割する分割部11(図1に示す分割部1に相当)と、分割部11によって分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング部12(図1に示す音声データクラスタリング部2に相当)と、クラスタリング部12が作成したクラスタに含まれる音声信号について音響的な信頼度を計算する信頼度計算部13(図1に示す信頼度計算部3に相当)と、クラスタリング部12が作成したクラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定部14(図1に示すラベル推定部4に相当)と、クラスタリング部12が作成したクラスタから、信頼度計算部13が計算した信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号と、ラベル推定部14が得た推定ラベルとをユーザに提示する提示部15(図1に示す音声データ推定ラベル提示部5に相当)と、提示部15によって提示された音声信号に対する教師ラベルを得る教師ラベル取得部16(図1に示す教師ラベル取得部6に相当)と、所定の条件が成立すると、提示部15に、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移することを指示する遷移指示部17(図1に示す遷移部7に相当)と、教師ラベル取得部16が取得した教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応部18(図1に示す音響モデル適応部8に相当)とを備えている。
なお、音響モデル適応装置を、ソフトウェアで実現することもできる。すなわち、音響モデル適応装置がCPUを内蔵し、CPUが、プログラムに従って、図5に示された分割部11、クラスタリング部12、信頼度計算部13、ラベル推定部14、提示部15、教師ラベル取得部16、遷移指示部17および音響モデル適応部18の機能を実現するように構成されていてもよい。
また、図6に示すように、遷移指示部17は、提示部15によって提示された推定ラベルと教師ラベル取得部16が取得した教師ラベルとの一致度を計算する一致度計算部17Aと、一致度計算部17Aが計算した一致度が所定値以上である場合に、所定の条件が成立したとして、第2の状態に遷移することを指示する指示部17Bとを含むように構成されていてもよい。そのように構成されている場合には、全ての推定ラベルを提示する前に、クラスタについての処理を終了させることができ、音響モデル適応に要する時間を短縮することができる。
また、図7に示すように、遷移指示部17は、教師ラベル取得部16が取得した教師ラベルの音素網羅度を計算する音素網羅度計算部17Cと、音素網羅度計算部17Cが計算した音素網羅度が所定値以上である場合に、所定の条件が成立したとして、第2の状態に遷移することを指示する指示部17Dとを含むように構成されていてもよい。そのように構成されている場合には、全ての推定ラベルを提示する前に、クラスタについての処理を終了させることができ、音響モデル適応に要する時間を短縮することができる。
また、遷移指示部17は、ユーザから入力された指示に応じて、第2の状態に遷移することを指示するように構成されていてもよい。そのように構成されている場合には、ユーザの意思に応じて第1の状態から第2の状態に遷移することができ、音響モデル適応に要する時間をさらに短縮することができる。
また、遷移指示部17は、第1のクラスタの次に信頼度が高いクラスタを第2のクラスタとするように構成されていてもよい。そのように構成されている場合には、提示部15および遷移指示部17の処理が簡便になる。
また、遷移指示部17は、第1のクラスタの次に信頼度が低いクラスタを第2のクラスタとするように構成されていてもよい。そのように構成されている場合には、提示部15および遷移指示部17の処理が簡便になる。
本発明を、音声認識システムや音声検出システムなどに搭載可能な音響モデル適応装置に適用できる。
1 分割部
2 音声データクラスタリング部
3 信頼度計算部
4 ラベル推定部
5 音声データ推定ラベル提示部
6 教師ラベル取得部
7 遷移部
8 音響モデル適応部
10 音響モデル適応装置
11 分割部
12 クラスタリング部
13 信頼度計算部
14 ラベル推定部
15 提示部
16 教師ラベル取得部
17 遷移指示部
17A 一致度計算部
17B 指示部
17C 音素網羅度計算部
17D 指示部
18 音響モデル適応部
20 音声認識装置
30 音声検出装置
101 クラスタ記憶部
101〜101 クラスタ
102 音響モデル記憶部
103 推定ラベル記憶部
104 教師ラベル記憶部
105 適応モデル記憶部
105〜105 適応モデル
200 音声認識システム
300 音声検出システム

Claims (10)

  1. 音声信号を分割する分割部と、
    前記分割部によって分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング部と、
    前記クラスタリング部が作成したクラスタに含まれる音声信号について音響的な信頼度を計算する信頼度計算部と、
    前記クラスタリング部が作成したクラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定部と、
    前記クラスタリング部が作成したクラスタから、前記信頼度計算部が計算した信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号と、前記ラベル推定部が得た推定ラベルとをユーザに提示する提示部と、
    前記提示部によって提示された音声信号に対する教師ラベルを得る教師ラベル取得部と、
    所定の条件が成立すると、前記提示部に、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移することを指示する遷移指示部と、
    前記教師ラベル取得部が取得した教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応部と
    を備えた音響モデル適応装置。
  2. 遷移指示部は、
    提示部によって提示された推定ラベルと教師ラベル取得部が取得した教師ラベルとの一致度を計算する一致度計算部と、
    前記一致度計算部が計算した一致度が所定値以上である場合に、所定の条件が成立したとして、第2の状態に遷移することを指示する指示部とを含む
    請求項1記載の音響モデル適応装置。
  3. 遷移指示部は、
    教師ラベル取得部が取得した教師ラベルの音素網羅度を計算する音素網羅度計算部と、
    前記音素網羅度計算部が計算した音素網羅度が所定値以上である場合に、所定の条件が成立したとして、第2の状態に遷移することを指示する指示部とを含む
    請求項1または請求項2記載の音響モデル適応装置。
  4. 遷移指示部は、ユーザから入力された指示に応じて、第2の状態に遷移することを指示する
    請求項1から請求項3のうちのいずれか1項に記載の音響モデル適応装置。
  5. 遷移指示部は、第1のクラスタの次に信頼度が高いクラスタを第2のクラスタとする
    請求項1から請求項4のうちのいずれか1項に記載の音響モデル適応装置。
  6. 遷移指示部は、第1のクラスタの次に信頼度が低いクラスタを第2のクラスタとする
    請求項1から請求項4のうちのいずれか1項に記載の音響モデル適応装置。
  7. 請求項1から請求項6のうちのいずれか1項に記載の音響モデル適応装置を含む音声認識システム。
  8. 請求項1から請求項6のうちのいずれか1項に記載の音響モデル適応装置を含む音声検出システム。
  9. 音声信号を分割し、
    分割された音声信号を音響的な違いに応じてクラスタリングし、
    クラスタリングによって作成されたクラスタに含まれる音声信号について音響的な信頼度を計算し、
    クラスタリングによって作成されたクラスタに含まれる音声信号を認識することによって推定ラベルを得て、
    クラスタリングによって作成されたクラスタから、前記信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号と、前記推定ラベルとをユーザに提示し、
    ユーザに提示された音声信号に対する教師ラベルを得て、
    所定の条件が成立すると、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移させ、
    得られた前記教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる
    音響モデル適応方法。
  10. コンピュータに、
    音声信号を分割する分割処理と、
    前記分割処理で分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング処理と、
    前記クラスタリング処理で作成されたクラスタに含まれる音声信号について音響的な信頼度を計算する信頼度計算処理と、
    前記クラスタリング処理で作成されたクラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定処理と、
    前記クラスタリング処理で作成されたクラスタから、前記信頼度計算処理で計算された信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号と、前記ラベル推定部が得た推定ラベルとをユーザに提示する提示処理と、
    前記提示処理で提示された音声信号に対する教師ラベルを得る教師ラベル取得処理と、
    所定の条件が成立すると、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移することを指示する遷移指示処理と、
    前記教師ラベル取得処理で取得された教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応処理と
    を実行させるための音響モデル適応プログラム。
JP2009252247A 2009-11-02 2009-11-02 音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラム Pending JP2011095680A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009252247A JP2011095680A (ja) 2009-11-02 2009-11-02 音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009252247A JP2011095680A (ja) 2009-11-02 2009-11-02 音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラム

Publications (1)

Publication Number Publication Date
JP2011095680A true JP2011095680A (ja) 2011-05-12

Family

ID=44112607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009252247A Pending JP2011095680A (ja) 2009-11-02 2009-11-02 音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラム

Country Status (1)

Country Link
JP (1) JP2011095680A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018155481A1 (ja) * 2017-02-27 2018-08-30 ヤマハ株式会社 情報処理方法および情報処理装置
US11087779B2 (en) 2017-02-27 2021-08-10 Yamaha Corporation Apparatus that identifies a scene type and method for identifying a scene type

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018155481A1 (ja) * 2017-02-27 2018-08-30 ヤマハ株式会社 情報処理方法および情報処理装置
JP2018141854A (ja) * 2017-02-27 2018-09-13 ヤマハ株式会社 情報処理方法および情報処理装置
US10789972B2 (en) 2017-02-27 2020-09-29 Yamaha Corporation Apparatus for generating relations between feature amounts of audio and scene types and method therefor
US11011187B2 (en) 2017-02-27 2021-05-18 Yamaha Corporation Apparatus for generating relations between feature amounts of audio and scene types and method therefor
US11087779B2 (en) 2017-02-27 2021-08-10 Yamaha Corporation Apparatus that identifies a scene type and method for identifying a scene type
US11756571B2 (en) 2017-02-27 2023-09-12 Yamaha Corporation Apparatus that identifies a scene type and method for identifying a scene type

Similar Documents

Publication Publication Date Title
US10283111B1 (en) Disambiguation in speech recognition
US9153231B1 (en) Adaptive neural network speech recognition models
US9484021B1 (en) Disambiguation in speech recognition
US10453454B2 (en) Dialog system with self-learning natural language understanding
KR102550932B1 (ko) 음성 인식 모델의 개인화 방법 및 장치
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
EP3114679B1 (en) Predicting pronunciation in speech recognition
US9514747B1 (en) Reducing speech recognition latency
JP6203288B2 (ja) 音声を認識するシステムおよび方法
EP2387031B1 (en) Methods and systems for grammar fitness evaluation as speech recognition error predictor
KR20160066441A (ko) 음성 인식 방법 및 음성 인식 장치
JP2016126330A (ja) 音声認識装置及び音声認識方法
JP6654611B2 (ja) 成長型対話装置
JP2014063088A (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
CN109643542A (zh) 用于改进的关键词检测的技术
US11620981B2 (en) Speech recognition error correction apparatus
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
JP2006189730A (ja) 音声対話方法および音声対話装置
CN107610720B (zh) 发音偏误检测方法、装置、存储介质及设备
JP2011095680A (ja) 音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラム
US20160049164A1 (en) Methods and apparatus for interpreting received speech data using speech recognition
JP2008241970A (ja) 話者適応装置、話者適応方法及び話者適応プログラム
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム
KR20120046627A (ko) 화자 적응 방법 및 장치