JP2018031812A - 音声データ処理装置、音声データ処理方法および音声データ処理プログラム - Google Patents

音声データ処理装置、音声データ処理方法および音声データ処理プログラム Download PDF

Info

Publication number
JP2018031812A
JP2018031812A JP2016161849A JP2016161849A JP2018031812A JP 2018031812 A JP2018031812 A JP 2018031812A JP 2016161849 A JP2016161849 A JP 2016161849A JP 2016161849 A JP2016161849 A JP 2016161849A JP 2018031812 A JP2018031812 A JP 2018031812A
Authority
JP
Japan
Prior art keywords
feature
feature quantity
input
feature amount
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016161849A
Other languages
English (en)
Other versions
JP6646337B2 (ja
Inventor
トラン デュング
Tran Dung
トラン デュング
マーク デルクロア
Marc Delcroix
マーク デルクロア
小川 厚徳
Atsunori Ogawa
厚徳 小川
中谷 智広
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016161849A priority Critical patent/JP6646337B2/ja
Publication of JP2018031812A publication Critical patent/JP2018031812A/ja
Application granted granted Critical
Publication of JP6646337B2 publication Critical patent/JP6646337B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声認識用の音声データが作成された環境と学習用の音声データが作成された環境との間で、複数の音響条件に違いがある場合であっても、高い精度で音声認識を行う。
【解決手段】抽出部21は、音声データから、第1の入力特徴量および第2の入力特徴量を抽出する。そして、計算部22は、第2の入力特徴量に基づき、所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する。そして、計算部22は、第1の入力特徴量および条件特徴量に基づき、音声認識モデル31に適応した特徴量である適応特徴量を計算する。そして、更新部23は、音声認識モデル31に適応特徴量を入力して得られた出力結果を基に、条件特徴量計算モデル32のパラメータおよび適応特徴量計算モデル33のパラメータの更新を行う。
【選択図】図4

Description

本発明は、音声データ処理装置、音声データ処理方法および音声データ処理プログラムに関する。
従来、音声データに基づき、音声認識モデルの学習および音声認識モデルを用いた音声認識を行う音声データ処理装置が知られている。音声認識用の音声データが作成された環境が、学習用の音声データが作成された環境と異なる場合、音声データ処理装置による音声認識の精度が低下する場合がある。例えば、周囲の雑音や話者の違いが音声認識の精度を低下させる場合がある。そのため、環境の違い、すなわち音響条件に対して頑健(ロバスト)な音声認識技術が知られている(例えば非特許文献1または2を参照)。
R.Gemello, F.Mana, S.Scanzio, P.Laface, and R.De Mori,"Adaptation of hybrid ANN/HMM models using linear hidden transformations and conservative training," in Proc. Of ICASSP’06, vol.1, 2006, pp.1189-1192. D.Yu and L.Deng,"Automatic speech recognition:A deep learning approach,"Springer,2015.
しかしながら、従来の技術には、音声認識用の音声データが作成された環境と学習用の音声データが作成された環境との間で、複数の音響条件に違いがある場合、高い精度で音声認識を行うことができない場合があるという問題があった。
例えば、従来の技術では、音声データの特徴量を音声認識モデルに適応させるため、音響条件に基づくパラメータを用いて音声データの特徴量を変換していた。しかし、従来の技術において変換に用いられるパラメータは、1つの音響条件にのみ基づくものであったため、音声認識用の音声データが作成された環境と学習用の音声データが作成された環境との間で、複数の音響条件に違いがある場合、高い精度で音声認識を行うことができない場合があった。
また、本発明の音声データ処理装置は、所定の環境における音声を基に作成された適応用の音声データから、前記音声の特徴を示す特徴量である第1の入力特徴量、および前記環境の特徴を示す特徴量である第2の入力特徴量を抽出する抽出部と、ニューラルネットワークを用いた計算モデルである条件特徴量計算モデルに前記第2の入力特徴量を入力し、前記所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する条件特徴量計算部と、前記条件特徴量に含まれる複数の要素のそれぞれに対応したパラメータの組を含んだ計算モデルである適応特徴量計算モデルに前記第1の入力特徴量および前記条件特徴量を入力し、前記要素ごとに、ニューラルネットワークを用いた計算モデルである音声認識モデルに適応した特徴量である適応特徴量を計算する適応特徴量計算部と、前記音声認識モデルに前記適応特徴量を入力して得られた出力結果を基に、前記条件特徴量計算モデルのパラメータおよび前記適応特徴量計算モデルのパラメータの更新を行う更新部と、を有することを特徴とする。
また、本発明の音声データ処理方法は、音声データ処理装置で実行される音声データ処理方法であって、所定の環境における音声を基に作成された適応用の音声データから、前記音声の特徴を示す特徴量である第1の入力特徴量、および前記環境の特徴を示す特徴量である第2の入力特徴量を抽出する抽出工程と、ニューラルネットワークを用いた計算モデルである条件特徴量計算モデルに前記第2の入力特徴量を入力し、前記所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する条件特徴量計算工程と、前記条件特徴量に含まれる複数の要素のそれぞれに対応したパラメータの組を含んだ計算モデルである適応特徴量計算モデルに前記第1の入力特徴量および前記条件特徴量を入力し、前記要素ごとに、ニューラルネットワークを用いた計算モデルである音声認識モデルに適応した特徴量である適応特徴量を計算する適応特徴量計算工程と、前記音声認識モデルに前記適応特徴量を入力して得られた出力結果を基に、前記条件特徴量計算モデルのパラメータおよび前記適応特徴量計算モデルのパラメータの更新を行う更新工程と、を含んだことを特徴とする。
本発明によれば、音声認識用の音声データが作成された環境と学習用の音声データが作成された環境との間で、複数の音響条件に違いがある場合であっても、高い精度で音声認識を行うことができる。
図1は、従来技術に係る音声データ処理装置の構成の一例を示す図である。 図2は、従来技術に係る音声データ処理装置の処理の概要について説明するための図である。 図3は、従来技術に係る音声認識処理の一例を示すフローチャートである。 図4は、第1の実施形態に係る音声データ処理装置の構成の一例を示す図である。 図5は、第1の実施形態に係る音声データ処理装置の処理の概要について説明するための図である。 図6は、第1の実施形態に係る音声データ処理装置の適応処理について説明するための図である。 図7は、第1の実施形態に係る音声データ処理装置の音声認識処理について説明するための図である。 図8は、第1の実施形態に係る音声データ処理装置の適応処理の流れを示すフローチャートである。 図9は、第1の実施形態に係る音声データ処理装置の音声認識処理の流れを示すフローチャートである。 図10は、プログラムが実行されることにより、第1の実施形態に係る音声データ処理装置が実現されるコンピュータの一例を示す図である。
以下、本願が開示する音声データ処理装置、音声データ処理方法および音声データ処理プログラムの実施形態の一例の説明に先立ち、実施形態の一例が前提とする従来技術を説明する。その後、本願が開示する音声データ処理装置、音声データ処理方法および音声データ処理プログラムの実施形態の一例を説明する。
なお、以下では、例えばAがベクトルである場合には“ベクトルA”と表記し、例えばAが行列である場合には“行列A”と表記し、例えばAがスカラーである場合には単に“A”と表記する。また、例えばAが集合である場合には、“集合A”と表記する。また、例えばベクトルAの関数fは、f(ベクトルA)と表記する。また、ベクトル、行列またはスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。また、ベクトル、行列またはスカラーであるAに対し、“−A”と記載する場合は「“A”の直上に“−”が記された記号」と同等であるとする。また、ベクトルまたは行列であるAに対し、AはAの転置を表す。
従来技術は、例えば文献1「G. Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition, The shared views of four research groups,” IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29,No. 6, pp. 82−97, 2012.」に示される音声認識技術である。
まず、図1を用いて従来技術に係る音声データ処理装置の構成について説明する。図1は、従来技術に係る音声データ処理装置の構成の一例を示す図である。図1に示すように、第1の従来技術に係る音声データ処理装置10aは、特徴量抽出部21a、事後確率計算部22a、単語列検索部23aを有する。また、音声データ処理装置10aは、記憶部30aを有する。
記憶部30aは、音響モデルおよび言語モデルをあらかじめ記憶する。音響モデルは、音声の音響的特徴をモデル化したものである。言語モデルは、音素や単語といった多数のシンボル系列から構成されている。一般的に、音声認識用の音響モデルは、各音素のLeft to rightのHMM(Hidden Markov Model:隠れマルコフモデル)であり、ニューラルネットワーク(NN:Neural Network)で計算されたHMMの各状態の出力確率分布を含む。
すなわち、記憶部30aに記憶されている音響モデルは、音素等の各シンボルにおけるHMMの状態遷移確率、i番目の隠れ層に関する重み行列Wおよびバイアスベクトルb、アクティベーション関数のパラメータ等を含むニューラルネットワークのパラメータである。ここで、iは、隠れ層のインデックスである。これらを音響モデルパラメータと称し、その集合をΩ={W,b,・・・,W,b}(Iは、隠れ層の総数)とする。言語モデルは、音素や単語といった多数のシンボル系列sから構成されており、p(s)は言語モデルによって得られるシンボル系列sの確率(言語確率)である。なお、シンボル系列sとは、音声認識結果となりうる、音素や単語等からなるシンボルの系列である。
特徴量抽出部21aは、認識用の音声データから音声の特徴量を抽出する。特徴量としては、例えば、MFCC(Mel Frequency Cepstral Coefficient)、LMFC(log Mel Filterbank coefficients)、ΔMFCC(MFCCの1回微分)、ΔΔMFCC(MFCCの2回微分)、対数(スペクトル)パワー、Δ対数パワー(対数パワーの1回微分)等がある。
そして、特徴量抽出部21aは、フレームごとに当該フレームおよびその前後5フレーム程度の連続する各フレームから得られる特徴量を連結し、10〜2000次元程度の時系列特徴量ベクトルx(tは、1,・・・,Mの自然数)を生成する。そして、特徴量抽出部21aは、下記(1)式のように、全てのフレームについての時系列特徴量ベクトルxをまとめた特徴量ベクトルxを生成する。特徴量ベクトルxは、1からMフレーム目までのD次元ベクトルで表現されるデータである。例えば、フレーム長は、30ms程度、フレームシフト長は、10ms程度である。
Figure 2018031812
事後確率計算部22aは、記憶部30aから音響モデルを取得し、音響モデルパラメータΩに基づき、特徴量ベクトルxの各フレームtに対する音響モデルの各HMM状態の出力確率を計算する。HMM状態の出力確率は、例えば文献1「G. Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition, The shared views of four research groups,” IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29,No. 6, pp. 82−97, 2012.」の数式(2)で表されるようなニューラルネットワークの出力である。
図2は、従来技術に係る音声データ処理装置の処理の概要について説明するための図である。図2に示すように、従来技術の音声認識に音響モデルを表すニューラルネットワークは、入力と出力との間に、1以上の隠れ層を有する。ニューラルネットワークの入力は、時系列特徴量ベクトルxであり、最前段の隠れ層へ入力される。ニューラルネットワークの出力は、最後段の隠れ層によるHMM状態の出力確率である。事後確率計算部22aが行う各隠れ層における計算は、線形変換による処理およびアクティベーション関数による処理の2つの処理を含む。各隠れ層における線形変換は、下記(2)式のようになる。
Figure 2018031812
ただし、上記(2)式において、ベクトルzi,tは、i番目(iは自然数であり、i=1,2,・・・,I(ただしIは隠れ層の総数))の隠れ層における線形変換の出力であり、ベクトルxi−1,tは(i−1)番目の隠れ層の出力である。なお、ベクトルx0,tは、ニューラルネットワークの入力である時系列特徴量ベクトルxである。また、アクティベーション関数の出力は、下記(3)式のようになる。
Figure 2018031812
ただし、上記(3)式において、ベクトルxi,tはi番目の隠れ層の出力であり、f()は、例えばsigmoid関数等のアクティベーション関数であり、ベクトルの要素ごとに計算される。すなわち、事後確率計算部22aは、i番目の隠れ層において、前段の隠れ層である(i−1)番目の隠れ層の出力であるベクトルxi−1,tに対し上記(2)式による線形変換を行った結果であるベクトルzi,tに対して、上記(2)式による処理を行った結果であるベクトルxi,tを出力する。そして、事後確率計算部22aは、各ベクトルxi,t(i=1,2,・・・,I)に基づき、特徴量ベクトルxの各フレームに対する音響モデルの各HMM状態の出力確率を計算する。
単語列検索部23aは、事後確率計算部22aにより計算された各HMM状態の出力確率に基づき、J個(Jは自然数)の対立候補シンボル系列sを生成し、対立候補シンボル系列sごとに、音響モデルとの適合尤度を示す音響スコアを計算する。シンボルは、例えば、音素である。ここで、j=1,2,・・・,Jである。
次に、単語列検索部23aは、記憶部30aから読み込んだ言語モデルに基づき、対立候補シンボル系列sごとに、言語モデルとの適合尤度を示す言語スコアを計算する。そして、単語列検索部23aは、計算した音響スコアおよび言語スコアに基づき、J個の対立候補シンボル系列sの中から、認識用の音声データに対応する単語列として最も確からしい、つまり、音響スコアおよび言語スコアを統合したスコアが最も高い対立候補シンボル系列を、記憶部30aに記憶される言語モデルから検索し、検索した対立候補シンボル系列を、認識結果である単語列^Sとして出力する。
図3は、従来技術に係る音声認識処理の一例を示すフローチャートである。まず、音声データ処理装置10aは、記憶部30aから、音響モデルおよび言語モデルを読み込む(ステップS101a)。次に、音声データ処理装置10aは、認識用の音声データを読み込む(ステップS102a)。次に、音声データ処理装置10aは、読み込んだ認識用の音声データから音声の特徴量を抽出し、特徴量ベクトルxを生成する(ステップS103a)。
次に、音声データ処理装置10aは、読み込んだ音響モデルに基づき、特徴量ベクトルxの各フレームに対する音響モデルの各HMM状態の出力確率を事後確率として計算する(ステップS104a)。次に、音声データ処理装置10aは、事後確率計算部22aにより計算された各HMM状態の出力確率に基づき、対立候補シンボル系列sを生成し、対立候補シンボル系列sごとの音響スコアおよび言語スコアを統合したスコアが最も高い対立候補シンボル系列を言語モデルから検索する(ステップS105a)。次に、音声データ処理装置10aは、ステップS105aの検索結果を、認識結果である単語列^Sとして出力する(ステップS106a)。
[第1の実施形態の構成]
以下、本願が開示する音声データ処理装置、音声データ処理方法および音声データ処理プログラムの実施形態を説明する。以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態およびその他の実施形態は、矛盾しない範囲で適宜組み合わせてもよい。
まず、図4を用いて、第1の実施形態に係る音声データ処理装置の構成について説明する。図4は、第1の実施形態に係る音声データ処理装置の構成の一例を示す図である。図1に示すように、音声データ処理装置10は、制御部20および記憶部30を有する。
制御部20は、音声データ処理装置10全体を制御する。制御部20は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部20は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部20は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、抽出部21、計算部22、更新部23および認識部24を有する。
記憶部30は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部30は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部30は、音声データ処理装置10で実行されるOS(Operating System)や各種プログラムを記憶する。さらに、記憶部30は、プログラムの実行で用いられる各種情報を記憶する。また、記憶部30は、音声認識モデル31、条件特徴量計算モデル32および適応特徴量計算モデル33を記憶する。具体的には、記憶部30は、例えば、各計算モデルを用いて計算を実行するためのパラメータを記憶する。
音声データ処理装置10は、適応用の音声データを用いて、条件特徴量計算モデル32および適応特徴量計算モデル33を音響条件に適応させる。条件特徴量計算モデル32は、音声認識に用いられる音声データから抽出された特徴量を、音響条件にあわせた特徴量に変換するためのパラメータを計算するための、ニューラルネットワークを用いた計算モデルである。
この場合、まず、抽出部21は、所定の環境における音声を基に作成された適応用の音声データから、音声の特徴を示す特徴量である第1の入力特徴量、および環境の特徴を示す特徴量である第2の入力特徴量を抽出する。
適応用の音声データから抽出された特徴量には、音声の特徴および環境の特徴の両方が含まれている。抽出部21は、第1の入力特徴量と第2の入力特徴量を同一の特徴量としてもよい。また、抽出部21は、第1の入力特徴量と第2の入力特徴量を異なる特徴量としてもよい。例えば、抽出部21は、第1の入力特徴量と、雑音抑圧処理が行われた音声データの音声の特徴を示す特徴量と、の差を基に特徴量を計算し、計算した特徴量を第2の入力特徴量として抽出してもよい。
例えば、第1の入力特徴量をxとし、雑音抑圧処理が行われた音声データの音声の特徴を示す特徴量をyとすると、抽出部21は、第2の入力特徴量を下記(4)式により計算することができる。
Figure 2018031812
そして、計算部22は、ニューラルネットワークを用いた計算モデルである条件特徴量計算モデル32に第2の入力特徴量を入力し、所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する。条件特徴量計算モデル32に含まれる条件は、例えば、話者の性別、年齢、国籍、また、雑音の種類、強さ等を条件とすることができる。
また、計算部22は、条件特徴量に含まれる複数の要素のそれぞれに対応したパラメータの組を含んだ計算モデルである適応特徴量計算モデル33に第1の入力特徴量および条件特徴量を入力し、要素ごとに、ニューラルネットワークを用いた計算モデルである音声認識モデル31に適応した特徴量である適応特徴量を計算する。このように、計算部22は、適応特徴量計算モデル33を用いて、条件特徴量の要素の数、すなわち環境を特徴付ける条件の数と同数の適応特徴量を計算する。
そして、更新部23は、音声認識モデル31に適応特徴量を入力して得られた出力結果を基に、条件特徴量計算モデル32のパラメータおよび適応特徴量計算モデル33のパラメータの更新を行う。更新部23は、ニューラルネットワークの誤差逆伝搬等の手法を用いてパラメータの更新を行う。このとき、更新部23は、条件特徴量計算モデル32のパラメータおよび適応特徴量計算モデル33のパラメータの更新に、音声認識モデル31の出力結果を反映させているため、音響条件を考慮した音声認識モデル31の音声認識精度が向上していくことになる。
なお、音声認識モデル31自体の学習は、適応特徴量計算モデル33の適応と同時に行われてもよいし、別に行われてもよい。以降、音声認識モデル31の学習のための音声データを学習用の音声データとよび、条件特徴量計算モデル32の適応のための音声データを適応用の音声データとよぶ。
なお、音声認識モデル31および条件特徴量計算モデル32はいずれもニューラルネットワークを用いた計算モデルとすることができるため、音声認識モデル31の学習、条件特徴量計算モデル32の適応および音声認識は、従来技術と同様の方法で行うこととしてもよい。
また、適応用の音声データに対応した書き起こし等の正解データが存在する場合、音声データ処理装置10は、教師あり適応を行うことができる。また、音声データ処理装置10は、音声認識の出力等に基づき教師なし適応を行うことができる。
音声データ処理装置10は、音声認識用の音声データを用いて音声認識を行う。この場合、まず、抽出部21は、所定の環境における音声を基に作成された音声認識用の音声データから、第1の入力特徴量、および第2の入力特徴量を抽出する。抽出部21は、第1の入力特徴量および第2の入力特徴量を、適応の場合と同様の方法で抽出する。
そして、計算部22は、条件特徴量計算モデル32に第2の入力特徴量を入力し、条件特徴量を計算する。そして、計算部22は、適応特徴量計算モデル33に第1の入力特徴量および条件特徴量を入力し、適応特徴量を計算する。そして、認識部24は、音声認識モデル31に適応特徴量を入力して得られた出力結果を基に、音声の認識を行う。これにより、音声データ処理装置10は、音響条件を考慮した音声認識を行うことができる。
図5を用いて、音声データ処理装置10の処理の概要について説明する。図5は、第1の実施形態に係る音声データ処理装置の処理の概要について説明するための図である。図5に示すように、計算部22は、第2の入力特徴量σx,tを、条件特徴量計算モデル32に入力する。そして、計算部22は、条件特徴量計算モデル32を用いて計算した条件特徴量の要素α、α、α、および、要素のそれぞれに対応したパラメータ(U,v)、(U,v)、(U,v)を用いて、第1の入力特徴量xから、適応特徴量−xを計算する。ここで、Uは変換行列であり、vはバイアスベクトルである。
また、更新部23は、音声認識モデル31に適応特徴量−xを入力して得られた音声認識結果を基に、条件特徴量計算モデル32のパラメータおよび適応特徴量計算モデル33のパラメータの更新を行う。図5に示すように、音声認識モデル31は、ソフトマクス層に至るまでの各層にパラメータ(W,b)、(W,b)、(W,b)、(W,b)が設定されたDNN(Deep Neural Network)である。
ここで、図6および7を用いて、第1の実施形態に係る音声データ処理装置10の適応処理および音声認識処理について説明する。図6は、第1の実施形態に係る音声データ処理装置の適応処理について説明するための図である。また、図7は、第1の実施形態に係る音声データ処理装置の音声認識処理について説明するための図である。
以降の説明では、データの流れを明確にするため、音声データ処理装置10の各処理部が、それぞれさらに処理部を有することとして説明する。具体的には、図6および7に示すように、抽出部21は、第1の入力特徴量抽出部211および第2の入力特徴量抽出部212を有する。また、計算部22は、条件特徴量計算部221、特徴量変換部222、事後確率計算部223を有する。また、更新部23は、エラー計算部231、微分値計算部232、パラメータ更新部233および収束判定部234を有する。また、認識部24は、単語列検索部241を有する。
まず、図6を用いて、音声データ処理装置10の適応処理について説明する。図6に示すように、第1の入力特徴量抽出部211は、適応用の音声データから各フレームの第1の入力特徴量xを抽出する。また、第2の入力特徴量抽出部212は、適応用の音声データから各フレームの第2の入力特徴量σx,tを抽出する。
次に、条件特徴量計算部221は、記憶部30から条件特徴量計算モデル32を取得し、第2の入力特徴量σx,tを用いて、各フレームの条件特徴量αn,tを計算する。下記(5)式に示すように、条件特徴量計算部221は、ニューラルネットワークである条件特徴量計算モデル32の出力として条件特徴量αn,tを計算する。なお、Ω´は、条件特徴量計算モデル32の各層における線形変換のためのパラメータの集合であり、Ω´={W´,b´,・・・,W´I´,b´I´}(I´は、隠れ層の総数)とする。また、各層における線形変換の方法は、従来技術と同様である。
Figure 2018031812
次に、特徴量変換部222は、記憶部30から適応特徴量計算モデル33を取得し、第1の入力特徴量x、条件特徴量αn,t、パラメータの組U,v,・・・,U,vに基づいて、下記(6)式を用いて、各フレームの適応特徴量−xを計算する。ここで、前述の通り、Uは変換行列であり、vはバイアスベクトルである。
Figure 2018031812
次に、事後確率計算部223は、記憶部30から音声認識モデル31を取得し、適応特徴量−xに基づいて、下記(7)式のように、HMM状態の出力確率を各フレームの事後確率oとして計算する。なお、Ωは、音声認識モデル31の各層における線形変換のためのパラメータの集合であり、Ω={W,b,・・・,W,b}(Iは、隠れ層の総数)とする。また、各層における線形変換の方法は、従来技術と同様である。
Figure 2018031812
更新部23は、条件特徴量計算モデル32のパラメータΩ´、および適応特徴量計算モデル33のパラメータU,v,・・・,U,vの最適化を行う。更新部23は、ニューラルネットワークの学習手順に従い、誤差逆伝搬とSGDを用いてパラメータを更新し最適化する。
まず、エラー計算部231は、下記(8)式の通りエラー、すなわち各層における逆伝搬した誤差δi,tを計算する。また、エラー計算部231は、δI,tを下記(9)式の通り計算する。なお、dは、正解データから得られる正解HMM状態である。
Figure 2018031812
Figure 2018031812
ここで、微分値計算部232は、下記(10)式で表されるCross Entropy関数を各パラメータで微分した値を、それぞれ下記(11)〜(14)式により計算する。
Figure 2018031812
Figure 2018031812
Figure 2018031812
Figure 2018031812
Figure 2018031812
また、微分値計算部232は、δ´I´,tを、下記(15)式により計算する。なお、(15)式中の各インデクス0,t,pのうち、1番目のインデクスは層のインデクスである。また、2番目のインデクスは時間フレームのインデクスである。また、3番目のインデクスは各ベクトル内の次元のインデクスである。例えば、z0,t,pは、0番目の層の時間フレームtにおける出力であるベクトルのp次元目の要素である。また、(15)式の層のインデクスが0である層は、変換層、すなわち特徴量変換部222によって適応特徴量計算モデル33を用いた変換が行われる層である。
Figure 2018031812
また、微分値計算部232は、(15)式中のzn,0,tを、下記(16)式により計算する。
Figure 2018031812
パラメータ更新部233は、微分値計算部232による計算結果を基に、下記(17)〜(20)式により各パラメータを更新する。なお、ηは、音響モデルパラメータ補正用パラメータであり、例えば0.1〜0.0001等の微小値である。
Figure 2018031812
Figure 2018031812
Figure 2018031812
Figure 2018031812
収束判定部234は、パラメータ更新部233により更新されたパラメータが収束したか否かを判定する。収束判定部234がパラメータが収束していないと判定した場合、計算部22および更新部23は、さらにパラメータ更新のための処理を実行する。また、収束判定部234は、パラメータが収束したと判定した場合、更新後のパラメータを記憶部30に格納する。
収束判定部234は、例えば、1つ前のステップで得られていたパラメータと新たに求めたパラメータとの差分が閾値以下になった場合、繰り返し回数が所定の回数以上になった場合、所定の評価基準に基づく音声認識の評価が悪化した場合等に、パラメータが収束したと判定する。
次に、図7を用いて、音声データ処理装置10の音声認識処理について説明する。図7に示すように、音声認識を行う場合、音声データ処理装置10は、認識用の音声データの入力を受け付ける。その後、抽出部21および計算部22は、適応処理の場合と同様の処理を行う。そして、認識部24の単語列検索部241は、事後確率oに基づき、従来技術と同様の方法により認識結果である単語列^Sを検索し出力する。
[第1の実施形態の処理]
図8を用いて、音声データ処理装置10の適応処理の流れについて説明する。図8は、第1の実施形態に係る音声データ処理装置の適応処理の流れを示すフローチャートである。
まず、音声データ処理装置10は、記憶部30から、音声認識モデル31、条件特徴量計算モデル32および適応特徴量計算モデル33を読み込む(ステップS101)。次に、音声データ処理装置10は、適応用の音声データを読み込む(ステップS102)。次に、音声データ処理装置10は、正解データを読み込む(ステップS103)。
次に、抽出部21は、適応用の音声データから音声の特徴を示す第1の入力特徴量を抽出する(ステップS104)。次に、抽出部21は、適応用の音声データから環境の特徴を示す第2の入力特徴量を抽出する(ステップS105)。
そして、計算部22は、ニューラルネットワークである条件特徴量計算モデル32に第2の入力特徴量を入力し、条件特徴量を計算する(ステップS106)。次に、計算部22は、第1の入力特徴量および条件特徴量に基づき、適応特徴量を計算する(ステップS107)。次に、計算部22は、ニューラルネットワークである音声認識モデル31に、適応特徴量を入力し、事後確率を計算する(ステップS108)。
そして、更新部23は、事後確率に基づいて、条件特徴量計算モデル32および適応特徴量計算モデル33のパラメータを更新する(ステップS109)。さらに、更新部23は、パラメータの更新の結果、パラメータが収束していると判定した場合、処理を終了させる(ステップS110、Yes)。一方、更新部23は、パラメータの更新の結果、パラメータが収束していないと判定した場合、処理をステップS106に戻す(ステップS110、No)。
次に、図9を用いて、音声データ処理装置10の音声認識処理の流れについて説明する。図9は、第1の実施形態に係る音声データ処理装置の音声認識処理の流れを示すフローチャートである。
まず、音声データ処理装置10は、記憶部30から、音声認識モデル31、条件特徴量計算モデル32および適応特徴量計算モデル33を読み込む(ステップS201)。次に、音声データ処理装置10は、音声認識用の音声データを読み込む(ステップS202)。
次に、抽出部21は、音声認識用の音声データから音声の特徴を示す第1の入力特徴量を抽出する(ステップS203)。次に、抽出部21は、音声認識用の音声データから環境の特徴を示す第2の入力特徴量を抽出する(ステップS204)。
そして、計算部22は、ニューラルネットワークである条件特徴量計算モデル32に第2の入力特徴量を入力し、条件特徴量を計算する(ステップS205)。次に、計算部22は、第1の入力特徴量および条件特徴量に基づき、適応特徴量を計算する(ステップS206)。次に、計算部22は、ニューラルネットワークである音声認識モデル31に、適応特徴量を入力し、事後確率を計算する(ステップS207)。そして、認識部24は、事後確率に基づいて、スコアが最も大きくなる単語列を検索し(ステップS208)、検索結果を出力する(ステップS209)。
なお、第1の実施形態では、音声認識モデル31および条件特徴量計算モデル32がFully connectedニューラルネットワークである場合の例を説明したが、音声認識モデル31および条件特徴量計算モデル32は、RNN/LSTM、またはCNN等の他のニューラルネットワークであってもよい。
[第1の実施形態の効果]
抽出部21は、所定の環境における音声を基に作成された適応用の音声データから、音声の特徴を示す特徴量である第1の入力特徴量、および環境の特徴を示す特徴量である第2の入力特徴量を抽出する。そして、計算部22は、ニューラルネットワークを用いた計算モデルである条件特徴量計算モデル32に第2の入力特徴量を入力し、所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する。そして、計算部22は、条件特徴量に含まれる複数の要素のそれぞれに対応したパラメータの組を含んだ計算モデルである適応特徴量計算モデル33に第1の入力特徴量および条件特徴量を入力し、ニューラルネットワークを用いた計算モデルである音声認識モデル31に適応した特徴量である適応特徴量を計算する。そして、更新部23は、音声認識モデル31に適応特徴量を入力して得られた出力結果を基に、条件特徴量計算モデル32のパラメータおよび適応特徴量計算モデル33のパラメータの更新を行う。
このように、第1の実施形態では、音声認識用の音声データが作成された環境と学習用の音声データが作成された環境との間で、複数の音響条件に違いがある場合であっても、それぞれの音響条件に対応した特徴量を生成することができる。これにより、第1の実施形態によれば、複数の音響条件を考慮し、音声認識モデルの精度を高めることができるようになる。
また、認識部24は、音声認識モデル31を用いて音声認識を行う。このとき、抽出部21は、所定の環境における音声を基に作成された音声認識用の音声データから、第1の入力特徴量、および第2の入力特徴量を抽出する。そして、計算部22は、条件特徴量計算モデル32に第2の入力特徴量を入力し、条件特徴量を計算する。そして、計算部22は、適応特徴量計算モデル33に第1の入力特徴量および条件特徴量を入力し、適応特徴量を計算する。そして、認識部24は、音声認識モデル31に適応特徴量を入力して得られた出力結果を基に、音声の認識を行う。これにより、複数の音響条件を考慮した、音声認識モデルを用いた音声認識を行うことができる。
また、抽出部21は、第1の入力特徴量と、雑音抑圧処理が行われた音声データの音声の特徴を示す特徴量と、の差を基に特徴量を計算し、計算した特徴量を第2の入力特徴量として抽出してもよい。これにより、雑音に基づく音響条件を考慮した音声認識を行うことができるようになる。
ここで、従来の技術と第1の実施形態との音声認識精度の比較結果について説明する。比較対象の従来の技術は、音響条件への適応を行わないベースラインである従来技術1(DNN)、および、1つの条件に対する適応のみ行う従来技術2(LIN)である。なお、LINは、linear input networkの略称である。また、本発明の技術をFactorizeLINとよぶ。
表1は、従来技術1、従来技術2および本発明を用いて、音声認識タスクCHIME 3に対し音声認識を行った際の単語誤り率を示している。なお、従来技術2および本発明の音響環境への適応は教師なし適応により行った。表1に示すように、本発明は、従来技術1および2のいずれよりも単語誤り率が小さくなった。これより、本発明は、従来技術1および2と比較して音声認識精度が高いといえる。
Figure 2018031812
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、音声データ処理装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の適応および音声認識を実行する音声データ処理プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声データ処理プログラムを情報処理装置に実行させることにより、情報処理装置を音声データ処理装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、音声データ処理システムは、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の適応および音声認識に関するサービスを提供する音声データ処理サーバ装置として実装することもできる。例えば、音声データ処理サーバ装置は、音声データを入力とし、音声認識結果を出力とする音声データ処理サービスを提供するサーバ装置として実装される。この場合、音声データ処理サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の音声データ処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図10は、プログラムが実行されることにより、第1の実施形態に係る音声データ処理装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音声データ処理装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、音声データ処理装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 音声データ処理装置
20 制御部
21 抽出部
22 計算部
23 更新部
24 認識部
30 記憶部
31 音声認識モデル
32 条件特徴量計算モデル
33 適応特徴量計算モデル
211 第1の入力特徴量抽出部
212 第2の入力特徴量抽出部
221 条件特徴量計算部
222 特徴量変換部
223 事後確率計算部
231 エラー計算部
232 微分値計算部
233 パラメータ更新部
234 収束判定部
241 単語列検索部

Claims (7)

  1. 所定の環境における音声を基に作成された適応用の音声データから、前記音声の特徴を示す特徴量である第1の入力特徴量、および前記環境の特徴を示す特徴量である第2の入力特徴量を抽出する抽出部と、
    ニューラルネットワークを用いた計算モデルである条件特徴量計算モデルに前記第2の入力特徴量を入力し、前記所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する条件特徴量計算部と、
    前記条件特徴量に含まれる複数の要素のそれぞれに対応したパラメータの組を含んだ計算モデルである適応特徴量計算モデルに前記第1の入力特徴量および前記条件特徴量を入力し、前記要素ごとに、ニューラルネットワークを用いた計算モデルである音声認識モデルに適応した特徴量である適応特徴量を計算する適応特徴量計算部と、
    前記音声認識モデルに前記適応特徴量を入力して得られた出力結果を基に、前記条件特徴量計算モデルのパラメータおよび前記適応特徴量計算モデルのパラメータの更新を行う更新部と、
    を有することを特徴とする音声データ処理装置。
  2. 前記音声認識モデルを用いて音声認識を行う認識部をさらに有し、
    前記抽出部は、所定の環境における音声を基に作成された音声認識用の音声データから、前記第1の入力特徴量、および前記第2の入力特徴量を抽出し、
    前記条件特徴量計算部は、前記条件特徴量計算モデルに前記第2の入力特徴量を入力し、前記条件特徴量を計算し、
    前記適応特徴量計算部は、前記適応特徴量計算モデルに前記第1の入力特徴量および前記条件特徴量を入力し、前記適応特徴量を計算し、
    前記認識部は、前記音声認識モデルに前記適応特徴量を入力して得られた出力結果を基に、音声の認識を行うことを特徴とする請求項1に記載の音声データ処理装置。
  3. 前記抽出部は、前記第1の入力特徴量と、雑音抑圧処理が行われた前記音声データの音声の特徴を示す特徴量と、の差を基に特徴量を計算し、計算した特徴量を前記第2の入力特徴量として抽出することを特徴とする請求項1または2に記載の音声データ処理装置。
  4. 音声データ処理装置で実行される音声データ処理方法であって、
    所定の環境における音声を基に作成された適応用の音声データから、前記音声の特徴を示す特徴量である第1の入力特徴量、および前記環境の特徴を示す特徴量である第2の入力特徴量を抽出する抽出工程と、
    ニューラルネットワークを用いた計算モデルである条件特徴量計算モデルに前記第2の入力特徴量を入力し、前記所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する条件特徴量計算工程と、
    前記条件特徴量に含まれる複数の要素のそれぞれに対応したパラメータの組を含んだ計算モデルである適応特徴量計算モデルに前記第1の入力特徴量および前記条件特徴量を入力し、前記要素ごとに、ニューラルネットワークを用いた計算モデルである音声認識モデルに適応した特徴量である適応特徴量を計算する適応特徴量計算工程と、
    前記音声認識モデルに前記適応特徴量を入力して得られた出力結果を基に、前記条件特徴量計算モデルのパラメータおよび前記適応特徴量計算モデルのパラメータの更新を行う更新工程と、
    を含んだことを特徴とする音声データ処理方法。
  5. 前記音声認識モデルを用いて音声認識を行う認識工程をさらに含み、
    前記抽出工程は、所定の環境における音声を基に作成された音声認識用の音声データから、前記第1の入力特徴量、および前記第2の入力特徴量を抽出し、
    前記条件特徴量計算工程は、前記条件特徴量計算モデルに前記第2の入力特徴量を入力し、前記条件特徴量を計算し、
    前記適応特徴量計算工程は、前記適応特徴量計算モデルに前記第1の入力特徴量および前記条件特徴量を入力し、前記適応特徴量を計算し、
    前記認識工程は、前記音声認識モデルに前記適応特徴量を入力して得られた出力結果を基に、音声の認識を行うことを特徴とする請求項4に記載の音声データ処理方法。
  6. 前記抽出方法は、前記第1の入力特徴量と、雑音抑圧処理が行われた前記音声データの音声の特徴を示す特徴量と、の差を基に特徴量を計算し、計算した特徴量を前記第2の入力特徴量として抽出することを特徴とする請求項4または5に記載の音声データ処理方法。
  7. 請求項1〜3のいずれか1項に記載の音声データ処理装置としてコンピュータを機能させる音声データ処理プログラム。
JP2016161849A 2016-08-22 2016-08-22 音声データ処理装置、音声データ処理方法および音声データ処理プログラム Active JP6646337B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016161849A JP6646337B2 (ja) 2016-08-22 2016-08-22 音声データ処理装置、音声データ処理方法および音声データ処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016161849A JP6646337B2 (ja) 2016-08-22 2016-08-22 音声データ処理装置、音声データ処理方法および音声データ処理プログラム

Publications (2)

Publication Number Publication Date
JP2018031812A true JP2018031812A (ja) 2018-03-01
JP6646337B2 JP6646337B2 (ja) 2020-02-14

Family

ID=61302985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016161849A Active JP6646337B2 (ja) 2016-08-22 2016-08-22 音声データ処理装置、音声データ処理方法および音声データ処理プログラム

Country Status (1)

Country Link
JP (1) JP6646337B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021162798A (ja) * 2020-04-02 2021-10-11 日本電信電話株式会社 学習装置、学習方法および学習プログラム
WO2021206221A1 (en) * 2020-04-08 2021-10-14 Lg Electronics Inc. Artificial intelligence apparatus using a plurality of output layers and method for same
JP7504601B2 (ja) 2020-01-28 2024-06-24 株式会社東芝 信号処理装置、信号処理方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
WO2017135148A1 (ja) * 2016-02-02 2017-08-10 日本電信電話株式会社 音響モデル学習方法、音声認識方法、音響モデル学習装置、音声認識装置、音響モデル学習プログラムおよび音声認識プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
WO2017135148A1 (ja) * 2016-02-02 2017-08-10 日本電信電話株式会社 音響モデル学習方法、音声認識方法、音響モデル学習装置、音声認識装置、音響モデル学習プログラムおよび音声認識プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARC DELCROIX ET AL.: "CONTEXT ADAPTIVE DEEP NEURAL NETWORKS FOR FAST ACOUSTIC MODEL ADAPTATION", ICASSP 2015, JPN6019020067, 19 April 2015 (2015-04-19), pages 4535 - 4539, XP033187619, ISSN: 0004046616, DOI: 10.1109/ICASSP.2015.7178829 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7504601B2 (ja) 2020-01-28 2024-06-24 株式会社東芝 信号処理装置、信号処理方法およびプログラム
JP2021162798A (ja) * 2020-04-02 2021-10-11 日本電信電話株式会社 学習装置、学習方法および学習プログラム
JP7274441B2 (ja) 2020-04-02 2023-05-16 日本電信電話株式会社 学習装置、学習方法および学習プログラム
WO2021206221A1 (en) * 2020-04-08 2021-10-14 Lg Electronics Inc. Artificial intelligence apparatus using a plurality of output layers and method for same
US11769047B2 (en) 2020-04-08 2023-09-26 Lg Electronics Inc. Artificial intelligence apparatus using a plurality of output layers and method for same

Also Published As

Publication number Publication date
JP6646337B2 (ja) 2020-02-14

Similar Documents

Publication Publication Date Title
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
Mangu et al. Finding consensus in speech recognition: word error minimization and other applications of confusion networks
CN110914899A (zh) 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法
US9653093B1 (en) Generative modeling of speech using neural networks
JP6506074B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
US20100094629A1 (en) Weight coefficient learning system and audio recognition system
JP2017058877A (ja) 学習装置、音声検出装置、学習方法およびプログラム
JP2014157323A (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP2022158735A (ja) 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム
JP7209330B2 (ja) 識別器、学習済モデル、学習方法
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP2021039219A (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP7212596B2 (ja) 学習装置、学習方法および学習プログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP6612796B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
JP2021039216A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6772115B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、及びプログラム
JP5308102B2 (ja) 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
WO2023181223A1 (ja) 音声認識方法、音声認識装置及び音声認識プログラム

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20160831

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200109

R150 Certificate of patent or registration of utility model

Ref document number: 6646337

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150