JP2007248730A - 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 - Google Patents
音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2007248730A JP2007248730A JP2006070961A JP2006070961A JP2007248730A JP 2007248730 A JP2007248730 A JP 2007248730A JP 2006070961 A JP2006070961 A JP 2006070961A JP 2006070961 A JP2006070961 A JP 2006070961A JP 2007248730 A JP2007248730 A JP 2007248730A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- utterance
- unit
- sequence
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】信頼度付与部150が、音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出し、発話選択部160が、音響モデルの認識率と発話系列毎の信頼度とを用い、音響モデルの適応に用いる発話系列を選択し、音響モデル適応部170が、発話選択部160が選択した発話系列及び当該発話系列に対応する特徴量を用い、音響モデルの適応を行う。
【選択図】図2
Description
このような問題に対し、音声認識結果に信頼度を付与し、信頼度の高さに応じて音声認識結果を選択し、選択した音声認識結果を用いて音響モデルの適応を行う手法が考えられる。これにより、認識精度の低い音声認識結果が正解テキストとして用いられ、音響モデルの精度が低下してしまうことを回避できる。
緒方淳,有木康雄,「音素事後確率に基づく信頼度を用いた音響モデルの教師なし適応化」,信学技報NLC2001‐70,pp.19‐24
本発明はこのような点に鑑みてなされたものであり、容易に音響モデルの教師なし適応に適した精度の高い音声認識結果を選択し、選択した音声認識結果を用い、精度の高い音響モデルを構築できる技術を提供することを目的とする。
また、本発明において好ましくは、発話選択部は、音響モデルの認識率以上の値に設定される基準値と発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する。
また、本発明において好ましくは、適応データ入力部に、教師あり正解テキストが入力され、音響モデル適応部は、発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、音響モデルの適応を行う。なお、「教師あり正解テキスト」とは、音声ファイルに対応する読みを人間が書き起こすことによって作成又は訂正された正解テキストを意味する。ここで好ましくは、正解テキスト選択部が、発話選択部が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを選択し、正解テキスト出力部が、選択された教師あり正解テキストを出力する。また好ましくは、適応データ入力部に入力される教師あり正解テキストは、正解テキスト出力部から出力された教師あり正解テキストである。このように信頼度が低い発話系列を、教師あり正解テキストに置き換えてモデル適応を行うことにより、教師なし適応の長所を維持しつつ、音響モデルの精度をさらに向上させることができる。
〔第1の実施の形態〕
<ハードウェア構成>
図1は、第1の実施の形態における音響モデル適応装置1のハードウェア構成を例示したブロック図である。
図1に例示するように、この例の音響モデル適応装置1は、CPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されているプログラムを、RAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データをRAM16のデータ領域16bに書き込む。さらに、CPU11は、当該プログラムや各種データが書き込まれたRAM16上のアドレスをレジスタ11cに格納する。そして、CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図2に示すように、本形態の音響モデル適応装置1は、メモリ110、音声認識結果入力部130、情報変換部140、信頼度付与部150、発話選択部160、音響モデル適応部170、一時メモリ180及び制御部190を有している。ここで、メモリ110は、各種データを格納する格納部111〜119を有している。また、信頼度付与部150は、特徴量ベクトル生成部151及び特徴量ベクトル評価部152を有している。なお、メモリ110及び一時メモリ180は、例えば、図1に記載したレジスタ11c、補助記憶装置14、RAM16、或いはこれらの少なくとも一部を結合した記憶領域に相当する。また、情報変換部140、信頼度付与部150、発話選択部160、音響モデル適応部170及び制御部190は、例えば、図1に記載したCPU11にプログラムが読み込まれることにより構成されるものである。さらに、音声認識結果入力部130は、例えば、プログラムが読み込まれたCPU11の制御のもと動作する入力部12である。また、音響モデル適応装置1は、制御部190の制御のもと各処理を実行する。また、特に明記しない限り、各処理のデータは、逐一、一時メモリ180に読み書きされる。
次に、本形態の音響モデル適応装置1の処理について説明する。
図3は、第1の実施の形態における音響モデル適応装置1の処理を説明するためのフローチャートである。また、図4は、図3におけるステップS3の処理の詳細を説明するためのフローチャートである。以下、これらの図を用いて本形態の処理を説明する。
[前処理]
前処理として、メモリ110の格納部114に識別モデルを、格納部118に音声ファイルを、格納部119に音響モデルを、格納部116(「認識率格納部」に相当)に当該音響モデルの認識率を、それぞれ格納しておく。なお、識別モデルとは、音声認識結果から得られた特徴量を用い、認識率の推定値(信頼度)を求めるためのモデルを意味する(詳細は後述)。また、音響モデルは、音声の統計的な性質を表現するモデルであり、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等を例示できる。また、音響モデルの認識率は、音響モデルを用いて実際の評価用データの音声認識を行い、その認識率を算出したものである。
以上のような前処理を前提に音響モデル適応処理が実行される。
まず、図示していない音声認識部が、メモリ110の格納部119に格納された音響モデルを用い、格納部118に格納された音声ファイルの音声認識を行う。この音声認識結果は、音声認識結果入力部130に入力され、対応する各音声ファイルに関連付けられて、メモリ110の格納部111に格納される(ステップS1)。なお、この音声認識結果は、音声認識により得られた読みの単語系列と、音声認識により各単語に付与される付加情報(例えば、各単語の品詞情報、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長等)とを含む。
『その辺ではかなり収益も上がるんじゃないかなと思います。』
『なるほどね。』
『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
『んー』
次に、信頼度付与部150が、音声認識結果を用い、発話系列毎に、認識率の推定値である信頼度を算出する。算出された各信頼度は、対応する発話系列に関連付けられて、メモリ110の格納部115に格納される(ステップS3)。なお、「信頼度」は、認識率の推定値であるが、これは、認識率そのものを推定した値(例えば、認識率をα%と推定した場合のα)のみならず、認識率が属する範囲を推定した値(例えば、認識率がα%以上であると推定した場合のαや、認識率がα%以上β%未満であると推定した場合のα及びβ等)をも含む概念である。この処理の詳細については後述する。
基準値を音響モデルの認識率とし、信頼度が音響モデルの認識率以上である発話系列を選択するか、信頼度が音響モデルの認識率を超える発話系列を選択する。
[例2]
音響モデルの認識率に定数を加算又は乗算した値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
[例3]
音響モデルの認識率から定数を減算した値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
[例4]
音響モデルの認識率を所定の関数に代入した関数値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
次に、前述したステップS3の処理の詳細について説明する。
まず、信頼度付与部150の特徴量ベクトル生成部151が、メモリ110の格納部112から1つの発話系列を読み込み、一時メモリ180に格納する(ステップS11)。次に、特徴量ベクトル生成部151が、一時メモリ180から当該発話系列を読み込み、この発話系列に関連付けられている付加情報を格納部111から読み込む。そして、特徴量ベクトル生成部151は、読み込んだ付加情報を用いて発話系列毎の特徴量ベクトルを生成し、これを当該発話系列に関連付けて格納部113に格納する(ステップS12)。なお、特徴量ベクトルの各要素としては、付加情報のうち、特徴量ベクトル評価部152で認識率を推定するために役立つ情報を用いる。例えば、発話系列が具備する各単語の品詞情報、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長の全部または一部を特徴量ベクトルの要素とする。
図5の例の特徴量ベクトル200は、品詞情報210、音響尤度スコア220、…、音素継続時間長230から構成される。ここで、品詞情報210は、発話系列に含まれる複数の単語を1つのシンボルで表した特徴量である。図5の例の品詞情報210は、各品詞211−1〜mに対応するm個の要素(0又は1)から構成される。そして、発話系列が含む単語の品詞に対応する要素を1とし、それ以外の品詞に対応する要素を0とする。また、図5の例の音響尤度スコア220、…、音素継続時間長230は、発話系列に含まれる各単語に付与された音響尤度スコア、…、音素継続時間長毎の統計情報(この例では、平均値221,231、分散値222,232、最大値223,233、最小値224,234)を、それぞれ0〜1に正規化した値(S1〜S4,…,S5〜S8)からなる。例えば、37種類(m=37)の品詞を具備する品詞情報、並びに、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長それぞれについての発話系列毎の平均・分散・最大・最小要素によって特徴量ベクトルを構成した場合、その特徴量ベクトルは61{=37+(6×4)}次元となる。なお、特徴量ベクトルは、単語単位の情報を発話系列単位に変換した情報であればよく、図5に例示した構成に限定されるものではない。
[ステップS13の処理の詳細]
まず、識別モデルについて説明する。本形態の識別モデルは、特徴量ベクトルを用い、対応する発話系列の信頼度を求めるためのモデルである。すなわち、特徴量ベクトルの各要素を識別モデルに代入することにより、対応する発話系列の信頼度を特定するための情報を算出することができる。このような識別モデルは、学習データ(特徴量ベクトルと発話系列の信頼度を特定するための情報とを具備)を用いて生成される。すなわち、学習によって、学習データ中のより多くの事例が成り立つようにモデルパラメータを設定し、識別モデルを構成する。このような識別モデルとしては、SVM(サポートベクターマシーン)やブーステイングといった機械学習に基づくもの、最尤推定法や最大エントロピー法といった確率モデルに基づくもの、ニューラルネットワークに基づくもの等を例示できる。
SVMに基づく識別モデルは、入力された特徴量ベクトルに対する認識率が閾値(n%)以上であるか否か、の2クラスのパターン認識を行うモデルである。このような識別モデルは、予め、学習データ(クラスの帰属が既知の特徴量ベクトル)を用意し、これらから特徴ベクトルとクラスとの確率的な対応関係を学習することによって生成される。また、SVMに基づく識別モデルが推定できるのは、特徴量ベクトルに対する認識率が閾値(n%)以上であるか否かのみである。そのため、このような識別モデルは、0≦n≦100の範囲で必要とされる密度で作成する。例えば、認識率の推定値がどの範囲に属するのかを10%間隔の精度で必要とする場合(例えば、認識率の推定値が70〜80%である等)は、11個の識別モデル(n=0,10,…,100)を作成する必要がある。一方、認識率の推定値がn%以上であるか否かの情報のみでよい場合(例えば、認識率の推定値が70%以上であるか否か等)は、1個の識別モデル(n=70)のみを作成すればよい([ステップS13の処理の詳細]の説明終わり)。
〔第2の実施の形態〕
次に、本発明における第2の実施の形態について説明する。
<構成>
図6は、第1の実施の形態と同様な公知のコンピュータに所定のプログラムが読み込まれることにより構成される音響モデル適応装置301のブロック図の例示である。なお、図6における矢印はデータの流れを示すが、制御部190に入出力されるデータの流れの記載は省略してある。また、図6において図2と共通する部分については、図2と同じ符号を付し、説明を簡略化する。
次に、本形態の音響モデル適応装置301の処理について説明する。
図7は、第2の実施の形態における音響モデル適応装置301の処理を説明するためのフローチャートである。以下、この図を用いて本形態の処理を説明する。
[前処理]
前処理として、メモリ110の格納部114に識別モデルを、格納部118に音声ファイルを、格納部119に音響モデルを、格納部116に当該音響モデルの認識率を格納しておく。また、格納部311に、格納部118に格納された音声ファイルに対応する教師あり正解テキストの集合である教師あり正解テキストファイルを格納しておく。
以上のような前処理を前提に音響モデル適応処理が実行される。
ステップS21〜S24は、第1の実施の形態のステップ1〜S4と同じである。すなわち、まず、音声認識結果が、音声認識結果入力部130に入力され、対応する各音声ファイルに関連付けられ、メモリ110の格納部111に格納される(ステップS21)。次に、情報変換部140が、ある一定の基準に基づいて音声認識結果の単語系列を発話系列ごとに区分し、得られた各単語系列を各音声ファイル及び音声認識結果の各付加情報に関連付けてメモリ110の格納部112に格納する(ステップS22)。そして、信頼度付与部150が、音声認識結果を用い、発話系列毎に、認識率の推定値である信頼度を算出し、算出された各信頼度を、対応する発話系列に関連付けて、メモリ110の格納部115に格納する(ステップS23)。次に、発話選択部160が、発話系列毎の信頼度と音響モデルの認識率とを用い、音響モデルの適応に用いる発話系列を選択し、その選択内容を示す選択情報を格納部117に格納する(ステップS24)。
[例1]
発話選択部160が選択しなかった発話系列を信頼度が高い順序で並び替え、信頼度が高い方から順番に所定個の発話系列を選択する。
発話選択部160が用いた基準値よりも値が小さな値を閾値とし、この閾値よりも大きな信頼度を有する発話系列を選択する。
選択された教師あり正解テキストは、正解テキスト出力部340から出力され、メモリ110の格納部312に格納される。次に、格納部312に格納された教師あり正解テキストが、適応データ入力部350に入力され、音響モデル適応部170に送られる。音響モデル適応部170は、送られた教師あり正解テキストに対応する音声ファイルを格納部118から読み込む。
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の実施の形態では、1つのコンピュータにプログラムを読み込ませて音響モデル適応装置を構成することとしたが、音響モデル装置の各機能を複数のコンピュータやCPUに分散させて構成してもよい。例えば、第2の実施の形態における正解テキスト選択部330を、別のコンピュータ(別装置)によって実現してもよいし、複数のコンピュータによってそれぞれ構成される複数の正解テキスト選択部330を用いてもよい。なお、別装置で選択された教師あり正解テキストは、適応データ入力部350(この場合、プログラムが読み込まれたCPU11の制御のもと動作する入力部12に相当)から入力される。
また、上述の第2の実施の形態では、正解テキスト選択部330が、発話選択部160が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを選択することとした。しかし、正解テキスト選択部330が、発話選択部160が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを任意に選択する構成であってもよい。さらには、発話選択部160の選択内容にかかわらず、正解テキスト選択部330が、任意に教師あり正解テキストを選択する構成であってもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
Claims (9)
- 音響モデルの適応を行う音響モデル適応装置であって、
上記音響モデルの認識率を格納する認識率格納部と、
上記音響モデルを用いた音声認識結果が入力される音声認識結果入力部と、
上記音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出する信頼度付与部と、
上記音響モデルの認識率と上記発話系列毎の信頼度とを用い、上記音響モデルの適応に用いる発話系列を選択する発話選択部と、
上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量を用い、上記音響モデルの適応を行う音響モデル適応部と、
を有することを特徴とする音響モデル適応装置。 - 請求項1に記載の音響モデル適応装置であって、
上記発話選択部は、
上記音響モデルの認識率以上の値に設定される基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する、
ことを特徴とする音響モデル適応装置。 - 請求項1に記載の音響モデル適応装置であって、
教師あり正解テキストが入力される適応データ入力部をさらに有し、
上記音響モデル適応部は、
上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行う、
ことを特徴とする音響モデル適応装置。 - 請求項3に記載の音響モデル適応装置であって、
上記発話選択部が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを選択する正解テキスト選択部と、
上記教師あり正解テキストを出力する正解テキスト出力部と、
を有することを特徴とする音響モデル適応装置。 - 請求項4に記載の音響モデル適応装置であって、
上記正解テキスト選択部は、
上記発話選択部が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを選択する、
ことを特徴とする音響モデル適応装置。 - 請求項4に記載の音響モデル適応装置であって、
上記適応データ入力部に入力される教師あり正解テキストは、
上記正解テキスト出力部から出力された教師あり正解テキストである、
ことを特徴とする音響モデル適応装置。 - 音響モデルの適応を行う音響モデル適応方法であって、
上記音響モデルを用いた音声認識結果が音声認識結果入力部に入力される過程と、
信頼度付与部が、上記音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出する過程と、
発話選択部が、上記音響モデルの認識率と上記発話系列毎の信頼度とを用い、上記音響モデルの適応に用いる発話系列を選択する過程と、
音響モデル適応部が、上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量を用い、上記音響モデルの適応を行う過程と、
を有することを特徴とする音響モデル適応方法。 - 請求項1から6のいずれかに記載の音響モデル適応装置としてコンピュータを機能させるための音響モデル適応プログラム。
- 請求項8に記載の音響モデル適応プログラムを格納したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006070961A JP4594885B2 (ja) | 2006-03-15 | 2006-03-15 | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006070961A JP4594885B2 (ja) | 2006-03-15 | 2006-03-15 | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007248730A true JP2007248730A (ja) | 2007-09-27 |
JP4594885B2 JP4594885B2 (ja) | 2010-12-08 |
Family
ID=38593111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006070961A Active JP4594885B2 (ja) | 2006-03-15 | 2006-03-15 | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4594885B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009098970A (ja) * | 2007-10-17 | 2009-05-07 | Fuji Heavy Ind Ltd | 安全運転支援システム |
WO2010050414A1 (ja) * | 2008-10-31 | 2010-05-06 | 日本電気株式会社 | モデル適応装置、その方法及びそのプログラム |
JP2011075622A (ja) * | 2009-09-29 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応装置、その方法、プログラム、及び記録媒体 |
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2013160930A (ja) * | 2012-02-06 | 2013-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム |
JP2014092750A (ja) * | 2012-11-06 | 2014-05-19 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置とその方法とプログラム |
WO2016092807A1 (ja) * | 2014-12-11 | 2016-06-16 | 日本電気株式会社 | 話者識別装置および話者識別用の登録音声の特徴量登録方法 |
JP2017045027A (ja) * | 2015-08-24 | 2017-03-02 | 日本放送協会 | 音声言語コーパス生成装置およびそのプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122689A (ja) * | 1998-10-20 | 2000-04-28 | Mitsubishi Electric Corp | 話者適応化装置及び音声認識装置 |
JP2000181482A (ja) * | 1998-12-17 | 2000-06-30 | Sony Internatl Europ Gmbh | 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 |
JP2003162293A (ja) * | 2001-09-14 | 2003-06-06 | Fujitsu Ltd | 音声認識装置及び方法 |
-
2006
- 2006-03-15 JP JP2006070961A patent/JP4594885B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122689A (ja) * | 1998-10-20 | 2000-04-28 | Mitsubishi Electric Corp | 話者適応化装置及び音声認識装置 |
JP2000181482A (ja) * | 1998-12-17 | 2000-06-30 | Sony Internatl Europ Gmbh | 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 |
JP2003162293A (ja) * | 2001-09-14 | 2003-06-06 | Fujitsu Ltd | 音声認識装置及び方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009098970A (ja) * | 2007-10-17 | 2009-05-07 | Fuji Heavy Ind Ltd | 安全運転支援システム |
WO2010050414A1 (ja) * | 2008-10-31 | 2010-05-06 | 日本電気株式会社 | モデル適応装置、その方法及びそのプログラム |
JP5376341B2 (ja) * | 2008-10-31 | 2013-12-25 | 日本電気株式会社 | モデル適応装置、その方法及びそのプログラム |
JP2011075622A (ja) * | 2009-09-29 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応装置、その方法、プログラム、及び記録媒体 |
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2013160930A (ja) * | 2012-02-06 | 2013-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム |
JP2014092750A (ja) * | 2012-11-06 | 2014-05-19 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置とその方法とプログラム |
WO2016092807A1 (ja) * | 2014-12-11 | 2016-06-16 | 日本電気株式会社 | 話者識別装置および話者識別用の登録音声の特徴量登録方法 |
JPWO2016092807A1 (ja) * | 2014-12-11 | 2017-08-31 | 日本電気株式会社 | 話者識別装置および話者識別用の登録音声の特徴量登録方法 |
JP2017045027A (ja) * | 2015-08-24 | 2017-03-02 | 日本放送協会 | 音声言語コーパス生成装置およびそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4594885B2 (ja) | 2010-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4594885B2 (ja) | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 | |
US7949532B2 (en) | Conversation controller | |
CN113692616B (zh) | 用于在端到端模型中的跨语言语音识别的基于音素的场境化 | |
JP5072206B2 (ja) | 音声分類および音声認識のための隠れ条件付確率場モデル | |
US20080077404A1 (en) | Speech recognition device, speech recognition method, and computer program product | |
US8069042B2 (en) | Using child directed speech to bootstrap a model based speech segmentation and recognition system | |
WO2019065263A1 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
WO2019156101A1 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
CN112668317A (zh) | 用于确定输出词法单元的方法和设备 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP2018004947A (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JP5376341B2 (ja) | モデル適応装置、その方法及びそのプログラム | |
US20220270637A1 (en) | Utterance section detection device, utterance section detection method, and program | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
JP2018147288A (ja) | 対話破壊特徴量抽出装置、対話破壊モデル学習装置、対話破壊力推定装置、対話破壊特徴量抽出方法、プログラム | |
JP5253317B2 (ja) | 要約文作成装置、要約文作成方法、プログラム | |
JP4897737B2 (ja) | 単語追加装置、単語追加方法、そのプログラム | |
JP4705557B2 (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP2009128490A (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP2019204117A (ja) | 対話破壊特徴量抽出装置、対話破壊特徴量抽出方法、プログラム | |
JP5980101B2 (ja) | 音響モデル学習用テキスト作成装置とその方法とプログラム | |
JP4537970B2 (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP2018132678A (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100917 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130924 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4594885 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |