JP7359028B2 - 学習装置、学習方法、および、学習プログラム - Google Patents

学習装置、学習方法、および、学習プログラム Download PDF

Info

Publication number
JP7359028B2
JP7359028B2 JP2020028869A JP2020028869A JP7359028B2 JP 7359028 B2 JP7359028 B2 JP 7359028B2 JP 2020028869 A JP2020028869 A JP 2020028869A JP 2020028869 A JP2020028869 A JP 2020028869A JP 7359028 B2 JP7359028 B2 JP 7359028B2
Authority
JP
Japan
Prior art keywords
data
learning
speech recognition
speech
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020028869A
Other languages
English (en)
Other versions
JP2021135314A (ja
Inventor
直弘 俵
厚徳 小川
具治 岩田
陽祐 樋口
哲則 小林
哲司 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2020028869A priority Critical patent/JP7359028B2/ja
Publication of JP2021135314A publication Critical patent/JP2021135314A/ja
Application granted granted Critical
Publication of JP7359028B2 publication Critical patent/JP7359028B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、学習装置、音声認識装置、学習方法、および、学習プログラムに関する。
従来、ニューラルネットワーク(以下、適宜NNと表記する)を用いたモデルを、機械学習により学習する技術が知られている。例えば、音声データを当該音声データの示す情報(事後確率)に変換するためのend-to-endのNNを用いた音声認識モデルを機械学習により学習する方法が知られている。
このend-to-endのNNは、例えば、音声の中間特徴量を出力するエンコーダと、エンコーダから出力された中間特徴量のうちどの部分に着目するか(重み)を判断するアテンションと、アテンションにより判断された重みを用いて、音声の示す文字を推定するデコータとを備える(非特許文献1参照)。
上記の音声認識モデルを学習する際、ノイズ等を含まないクリーンな音声を学習用データとして用いるものが多い。しかし、実環境ではノイズ等が存在する状況が多く、ノイズが存在する状況下で音声認識を行う必要がある。
そこで、例えば、上記の非特許文献1等に記載の技術は、ノイズに対する頑健性を高めるため、クリーンな音声とノイズを含む音声との両方を学習用データとして用いて、音声認識モデルを学習させる。この場合、まず、同じ内容(テキスト)の音声信号でノイズを含むもの(ノイズあり音声)とノイズを含まないもの(クリーンな音声)とのペアデータを用意する。次に、ノイズあり音声を入力したときのエンコーダの出力と、デコーダの中間層の出力とが、それぞれ対応するクリーンな音声を入力したときのエンコーダの出力とデコーダの中間層の出力とに近付くように、モデルのパラメータを学習させる。
Davis Liang, Zhiheng Huang, and Zachary C Lipton, "Learning Noise-Invariant Representations for Robust Speech Recognition," in Proceedings of the IEEE Workshop on Spoken Language Technology Workshop (SLT), pp.56-63,2018.
しかし、上記の技術により学習したモデルによっても、ノイズを含む音声の認識精度は必ずしも高くないという問題があった。そこで、本発明は、前記した問題を解決し、ノイズに対する頑健性の高い音声認識手段を提供することを課題とする。
前記した課題を解決するため、本発明は、音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第1の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第1の学習部と、前記音声データ、前記音声データにノイズが加算された音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第2の教師データに基づき、前記第1の学習部による学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第1の距離と、前記ノイズあり音声データを入力した場合に当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第2の距離とを計算する距離計算部と、前記第2の教師データを用いて、前記第1の学習部による学習後の音声認識モデルの学習を行う際、前記第1の距離と前記第2の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第2の学習部と、を備えることを特徴とする。
本発明によれば、ノイズに対する頑健性の高い音声認識手段を提供することができる。
図1は、end-to-endのNNを用いた音声認識モデルの一例を示す図である。 図2は、学習装置の動作概要を説明するための図である。 図3は、学習装置の動作概要を説明するための図である。 図4は、学習装置の動作概要を説明するための図である。 図5は、学習装置の動作概要を説明するための図である。 図6は、学習装置の構成例を示す図である。 図7は、学習装置の処理手順の例を示すフローチャートである。 図8は、音声認識装置の構成例を示す図である。 図9は、音声認識装置の処理手順の例を示すフローチャートである。 図10は、学習プログラムを実行するコンピュータの一例を示す図である。
以下、図面を参照しながら、本発明を実施するための形態(実施形態)について、第1の実施形態と第2の実施形態とに分けて説明する。本発明は、各実施形態に限定されない。なお、各実施形態における学習装置が学習対象とするモデルは、エンコーダ、アテンションおよびデコータを備えるend-to-endのNNを用いた音声認識モデルである場合を例に説明する。
[第1の実施形態]
まず、図1~図5を用いて、第1の実施形態の学習装置の動作概要を説明する。学習装置は、上記のend-to-endのNNを用いた音声認識モデル(音声認識部)を備える。この音声認識モデルは、図1に示すように、エンコーダ(符号化部)、アテンション(注意機構部)およびデコーダ(復号化部)を備える。
エンコーダは、入力された音声データ(x1,…,xT)を中間特徴量(h2,…,hT)に変換する。アテンションは、中間特徴量とデコーダの隠れ状態に基づき、中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みの値(α0,…,αT)を算出し、その重みで中間特徴量の重み付け和を算出した値(c0,…,cL)を出力する。デコーダは、直前までのデコーダの出力(yi-1)とアテンションからの出力値ciとに基づき、デコーダの出力(yi-1)の次の文字を特定する情報(yi)を推定して出力する。
学習装置は、上記の音声認識モデルについて、まずクリーンな音声データ(ノイズを含まない音声データ)を用いてモデルを事前学習する(図2(1))。例えば、学習装置は、クリーンな音声データとその音声データの示す記号列を特定する情報(正解データ)とを対応付けたデータを教師データとして用いて、音声認識モデルの事前学習を行う。これにより、音声認識モデルのエンコーダ、アテンションおよびデコーダにはクリーンな音声データについて精度よく音声認識を行うためのパラメータが設定される。
次に、学習装置は、クリーンな音声データとノイズの入った音声データ(例えば、当該クリーンな音声データにノイズが加算された音声データ)とのペアデータにより、クリーンな音声データに対するアテンションの重みと、ノイズの入った音声データに対するアテンションの重みとを抽出する(図3(2))。
ここで、クリーンな音声データとノイズの入った音声データにおけるアテンションの重みの分布間損失を定義する(図4(3))。例えば、クリーンな音声データのアテンションの重み(αi)とノイズの入った音声データのアテンションの重み(α´i)との分布間損失LattをKLダイバージェンスにより定義する。例えば、KLダイバージェンスにより定義したクリーンな音声データのアテンションの重み(αi)とノイズの入った音声データのアテンションの重み(α´i)との分布間損失Lattは、DKL(αi||α´i)となる。
次に、学習装置は、文字識別損失Lcharとアテンションの損失Lattとの和が所定の閾値以下となるよう、アテンションおよびエンコーダを学習する(第2の学習を行う)(図5(4))。なお、上記の文字識別損失Lcharは、ノイズの入った音声データが入力された場合にデコーダが出力する情報(yi´)と正解データとの間の損失を示す。
学習装置が上記のようにして音声認識モデルの学習を行うことで、音声認識モデルにおける、ノイズの入った音声データのアテンションの重みを、クリーンな音声データのアテンションの重みに近づけることができる。その結果、学習装置は、ノイズに対する頑健性の高い音声認識モデルの学習を行うことができる。
[構成]
次に、図6を用いて、第1の実施形態の学習装置10の構成例を説明する。学習装置10は、入力部11と、出力部12と、記憶部13と、制御部14とを備える。
入力部11は、制御部14が各種処理を行う際に用いるデータの入力を受け付ける。例えば、入力部11は、音声認識モデル(音声認識部143)の教師データ(第1の教師データおよび第2の教師データ)の入力を受け付ける。出力部12は、制御部14が行った処理の結果を出力する。例えば、出力部12は、音声認識部143による音声の認識結果等を出力する。
記憶部13は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、学習装置10を動作させるプログラムや、当該プログラムの実行中に使用されるデータなどが記憶される。例えば、記憶部13は、第1の教師データと、第2の教師データとを記憶する。また、記憶部13は、音声認識部143に設定されるパラメータの値等を記憶する。
第1の教師データは、クリーンな音声データと、当該音声データの示す記号列を特定する情報(正解データ)とを対応付けたデータである。この第1の教師データは、第1の学習部1471が音声認識部143の事前学習を行う際に用いられる。
第2の教師データは、クリーンな音声データ、当該音声データにノイズの入った音声データおよび当該音声データの示す記号列を特定する情報(正解データ)を対応付けたデータである。
なお、この第2の教師データにおけるクリーンな音声データは、第1の教師データに含まれるクリーンな音声データと同じものでもよい。また、ノイズの入った音声データは、クリーンな音声データに人工的にノイズを加えたものでもよいし、雑音等のノイズが発生している環境下で収録された音声データであってもよい。この第2の教師データは、第2の学習部1474が音声認識部143の第2の学習を行う際に用いられる。
制御部14は、学習装置10全体の制御を司る。制御部14は、例えば、音声認識部143の学習や、学習後の音声認識部143を用いた音声認識等を行う。
制御部14は、第1のデータ入力部141と、第2のデータ入力部142と、音声認識部143と、学習部147とを備える。
第1のデータ入力部141は、事前学習モードの場合、第1の教師データから、まだ選択していない音声データを選択し、音声認識部143に入力し、音声認識部143に演算処理を実行させる。
第2のデータ入力部142は、第2の学習モードの場合、第2の教師データから、まだ選択していないクリーンな音声データとノイズの入った音声データとのペアを選択する。そして、第2のデータ入力部142は、例えば、選択したペアのクリーンな音声データについて、音声認識部143に入力し、当該音声認識部143に演算処理を実行させる。また、第2のデータ入力部142は、当該クリーンな音声データのペアとなるノイズの入った音声データについても、同じパラメータが設定された音声認識部143に入力し、当該音声認識部143に演算処理を実行させる。
音声認識部143は、音声認識モデルに基づき、入力された音声データの音声認識を行う。具体的には、音声認識部143は、入力された音声データについて当該音声データの示す記号列を特定する情報に変換し、変換した情報を出力する。この音声認識部143は、符号化部(エンコーダ)144と、注意機構部(アテンション)145と、復号化部(デコーダ)146とを備える。符号化部144、注意機構部145および復号化部146それぞれには、音声認識を行う際に用いるパラメータが設定される。なお、上記のパラメータは、音声認識部143の学習時に適宜更新される。
符号化部144は、入力された音声データを中間特徴量に変換する。注意機構部145は、中間特徴量と復号化部146の隠れ状態Snとを入力とし、重み(α0,…,αT)と、その重みで中間特徴量の重み付け和を算出した値cnを出力する。復号化部146は、直前までの復号化器の出力y1:n-1と注意機構部145からの出力値(cn)とを入力として、次の文字を特定する情報ynを推定して出力する。
学習部147は、音声認識部143の学習を行う。この学習部147は、第1の学習部1471と、第1の距離計算部1472および第2の距離計算部1473(距離計算部)と、第2の学習部1474とを備える。破線で示す第3の距離計算部1475は装備される場合と装備されない場合とがあり、装備される場合について第2の実施形態で述べる。
第1の学習部1471は、学習モードが事前学習モードの場合に音声認識部143の事前学習を行う。例えば、第1の学習部1471は、所定の条件を満たすまで、第1の教師データの音声データに対する音声認識部143の出力ynと、当該音声データの示す記号列を特定する情報(正解)との損失(距離)に基づいて音声認識部143の符号化部144、注意機構部145および復号化部146それぞれのパラメータを更新する。また、上記の事前学習後の音声認識部143の各部のパラメータの値は記憶部13に記憶される。
第1の学習部1471が用いる上記の所定の条件は、例えば、上記の損失に基づく音声認識部143の各パラメータの更新が予め定めた繰り返し回数に到達したこと、損失が所定の閾値以下となったこと、パラメータの更新量が所定の閾値以下となったこと等である。
なお、学習部147は、第1の学習部1471による処理が上記の所定の条件を満たすと判断した場合、事前学習モードを終了させ、第2の学習モードに切り替える。
第1の距離計算部1472は、第2の学習モードにおいて、事前学習後の音声認識部143に、クリーンな音声データを入力した場合とノイズの入った音声データを入力した場合とで、当該音声認識部143の注意機構部145から出力される重みの分布にどの程度の違いがあるかを示す第1の距離を計算する。
例えば、第1の距離計算部1472は、第2の教師データにおけるクリーンな音声データが入力されたときに事前学習後の注意機構部145により出力されるアテンションの重みと、当該クリーンな音声データとペアになるノイズの入った音声データが入力されたときに当該注意機構部145により出力されるアテンション重みとの分布間距離(第1の距離)を、KLダイバージェンスにより計算する。
また、第2の距離計算部1473は、事前学習後の音声認識部143に、ノイズの入った音声データを入力した場合に、当該音声認識部143の復号化器から出力される情報と、第2の教師データにおける当該音声データの正解データ(例えば、正解文字)との間にどの程度の違いがあるかを示す第2の距離とを計算する。
例えば、第2の距離計算部1473は、第2の教師データにおけるノイズの入った音声データが入力されたときに当該復号化部146により出力される情報と正解文字との距離(第2の距離)を計算する。
第2の学習部1474は、学習モードが第2の学習モードの場合に音声認識部143に第2の学習を行う。例えば、第2の学習部1474は、所定の条件を満たすまで、第1の距離計算部1472により計算された第1の距離と、第2の距離計算部1473により計算された第2の距離との和に基づき、事前学習後の音声認識部143の注意機構部145、復号化部146それぞれのパラメータを更新する。
例えば、第2の学習部1474は、第2の教師データを用いて、事前学習後の音声認識部143の注意機構部145および復号化部146それぞれのパラメータを更新する際、上記の第1の距離と前記第2の距離との和を損失とし、当該損失が小さくなるようにパラメータを更新する。
なお、第2の学習部1474が用いる所定の条件は、第1の学習部1471の場合と同様の条件である。例えば、音声認識部143の各パラメータの更新が予め定めた繰り返し回数に到達したこと、損失が所定の閾値以下となったこと、パラメータの更新量が所定の閾値以下となったこと等である。また、上記の第2の学習後の音声認識部143の各部のパラメータの値は記憶部13に記憶される。
学習装置10は、上記のように音声認識部143に対し第2の学習を行った後、学習後の音声認識部143を用いて、入力された音声データの音声認識処理を実行してもよい。例えば、学習装置10は、学習後の音声認識部143を用いて、入力された音声データについて、当該音声データに示す記号列を特定する情報に変換し、出力してもよい。
[処理手順]
図7を用いて学習装置10の処理手順を説明する。まず、学習装置10の第1のデータ入力部141は、第1の教師データの音声データを音声認識部143に投入し、第1の学習部1471は、音声認識部143の出力した結果を用いて、音声認識部143の事前学習を行う(S1)。その後、学習装置10の第2のデータ入力部142は、S1で学習された音声認識部143に対し、第2の教師データの音声データを投入し、第2の学習部1474は、音声認識部143の各部が出力した結果を用いて、当該音声認識部143の第2の学習を行う(S2)。
このような学習装置10によれば、まず第1の学習部1471は、第1の教師データを用いて、音声認識部143についてクリーンな音声データに対し正解データを出力するよう当該音声認識部143の各部のパラメータを設定する。
その後、第2の学習部1474が、第2の教師データを用いて、当該音声認識部143にクリーンな音声データを入力した場合とノイズの入った音声データを入力した場合とで、上記の第1の距離と第2の距離との和が小さくなるよう、音声認識部143の注意機構部145および符号化部144のパラメータを更新する。
これにより、学習装置10は、ノイズの入った音声に対し当該音声認識部143、が正解データを出力するようにしつつ、ノイズの入った音声に対し注意機構部145の出力する重みを、クリーンな音声に対し注意機構部145の出力する重みに近付けることができる。その結果、学習装置10は、ノイズに対する頑健性の高い音声認識部143の学習を行うことができる。
[第2の実施形態]
学習装置10は、第3の距離計算部1475(図6参照)を備えていてもよい。この場合の実施形態を第2の実施形態として説明する。以下、第1の実施形態と同じ構成は同じ符号を付して説明を省略する。第3の距離計算部1475は、事前学習後の音声認識部143に、クリーンな音声データを入力した場合と当該音声データにノイズの入った音声データを入力した場合とで当該音声認識部143の符号化部144から出力される情報(中間特徴量)にどの程度の違いがあるかを示す第3の距離を計算する。
そして、第2の学習部1474は、事前学習後の音声認識部143の学習を行う際、前記した第1の距離と第2の距離と第3の距離との和を損失とし、当該損失が小さくなるように当該音声認識部143の符号化部144および注意機構部145のパラメータの更新を行う。このようにすることで、学習装置10はノイズに対しさらに頑健性の高い音声認識部143の学習を行うことができる。
[その他の実施形態]
なお、上記の学習装置10で学習された音声認識部143(音声認識モデル)は、当該学習装置10による音声認識に用いられてもよいし、他の装置による音声認識により用いられてもよい。
例えば、学習装置10で学習された音声認識部143を、音声認識装置100(図8参照)に装備してもよい。音声認識装置100は、例えば、図8に示すように、入力部11と、出力部12と、記憶部13と、制御部14とを備える。制御部14は、学習装置10により学習された音声認識部143を備える。この音声認識装置100の入力部11が音声認識対象の音声データの入力を受け付けると(図9のS11)、学習装置10により学習された音声認識部143を用いて音声認識を行い(S12)、認識結果を出力する(S13)。
[実験結果]
なお、前記した第2の実施形態の学習装置10を用いた実験結果を以下に説明する。なお、本実験で学習装置10の第1の学習部1471が音声認識モデルの事前学習に用いたデータは、WSJ1si284である。このWSJ1si284は、Wall street journalを読み上げた音声データのコーパスである。このコーパスは、発話総数が37416であり、長さは80時間である。また、第2の学習部1474が音声認識モデルの第2の学習に用いたデータは、WSJ1si84とCHiME-4のtr05_simuである。このWSJ1si84も、Wall street journalを読み上げた音声データのコーパスである。このWSJ1si84は、発話総数が7138であり、長さは15時間である。CHiME-4のtr05_simuは、WSJ1si84にノイズを重畳したコーパスである。
上記の条件で、第2の実施形態の学習装置10が事前学習と第2の学習とを行った後の音声認識部143を用いて、CHiME-4 et05_simuおよびCHiME-4 et05_realそれぞれの音声データの誤認識率を測定したところ、以下の結果を得た。なお、CHiME-4 et05_simuは、Wall street journalを読み上げた音声データにノイズを重畳したコーパスである。CHiME-4 et05_realは、雑音等のある環境下でWall street journalを読み上げた音声データのコーパスである。
例えば、以下に示すように、非特許文献1に記載の方法により学習した音声認識モデル(比較例)を用いて音声認識を行ったところ、CHiME-4 et05_simuの音声データの誤認識率は28.5%であり、CHiME-4 et05_realの音声データの誤認識率は32.8%であった。一方、第2の実施形態の学習装置10により学習した音声認識モデルを用いて音声認識を行ったところ、CHiME-4 et05_simuの音声データの誤認識率は27.8%であり、CHiME-4 et05_realの音声データの誤認識率は32.5%であった。
Figure 0007359028000001
上記のことから、非特許文献1に記載の方法よりも、第2の実施形態の学習装置10により学習した音声認識モデルの方が、ノイズの入った音声データについて誤認識率を低減することが確認できた。つまり、非特許文献1に記載の方法よりも、第2の実施形態の学習装置10の方がノイズに対し頑健性の高い音声認識モデルを作成できることが確認できた。
[プログラム]
図10を用いて、上記のプログラム(学習プログラム)を実行するコンピュータの一例を説明する。図10に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
ここで、図10に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した記憶部13は、例えばハードディスクドライブ1090やメモリ1010に装備される。
そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、上記の学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 学習装置
11 入力部
12 出力部
13 記憶部
14 制御部
100 音声認識装置
141 第1のデータ入力部
142 第2のデータ入力部
143 音声認識部
144 符号化部
145 注意機構部
146 復号化部
147 学習部
1471 第1の学習部
1472 第1の距離計算部
1473 第2の距離計算部
1474 第2の学習部
1475 第3の距離計算部

Claims (5)

  1. 音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第1の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第1の学習部と、
    前記音声データ、前記音声データにノイズが加算された音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第2の教師データに基づき、前記第1の学習部による学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第1の距離と、前記ノイズあり音声データに対する当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第2の距離とを計算する距離計算部と、
    前記第2の教師データを用いて、前記第1の学習部による学習後の音声認識モデルの学習を行う際、前記第1の距離と前記第2の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第2の学習部と、
    前記第2の学習部により学習された音声認識モデルを用いて、入力された音声データを、前記音声データに示す記号列を特定する情報に変換する音声認識部と、
    を備えることを特徴とする学習装置。
  2. 前記第1の学習部による学習後の音声認識モデルに、音声データを入力した場合と前記音声データにノイズが加算された音声データであるノイズあり音声データを入力した場合とで当該音声認識モデルの符号化器から出力される情報にどの程度の違いがあるかを示す第3の距離を計算する第3の距離計算部をさらに備え、
    前記第2の学習部は、
    前記第1の学習部による学習後の音声認識モデルの学習を行う際、前記第1の距離と前記第2の距離と前記第3の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う
    ことを特徴とする請求項1に記載の学習装置。
  3. 前記第2の学習部は、
    前記第1の学習部による学習後の音声認識モデルの学習を行う際、前記損失が所定の閾値以下となるまで、前記音声認識モデルの符号化器および注意機構のパラメータの更新処理を繰り返すこと
    を特徴とする請求項1または請求項2に記載の学習装置。
  4. 学習装置により実行される学習方法であって、
    音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第1の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第1の学習ステップと、
    前記音声データ、前記音声データにノイズの入った音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第2の教師データに基づき、前記第1の学習ステップによる学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第1の距離と、前記ノイズあり音声データに対し当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第2の距離とを計算する距離計算ステップと、
    前記第2の教師データを用いて、前記第1の学習ステップによる学習後の音声認識モデルの学習を行う際、前記第1の距離と前記第2の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第2の学習ステップと、
    前記第2の学習ステップにより学習された音声認識モデルを用いて、入力された音声データを、前記音声データに示す記号列を特定する情報に変換する音声認識ステップと、
    を含むことを特徴とする学習方法。
  5. 音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第1の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第1の学習ステップと、
    前記音声データ、前記音声データにノイズの入った音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第2の教師データに基づき、前記第1の学習ステップによる学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第1の距離と、前記ノイズあり音声データに対し当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第2の距離とを計算する距離計算ステップと、
    前記第2の教師データを用いて、前記第1の学習ステップによる学習後の音声認識モデルの学習を行う際、前記第1の距離と前記第2の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第2の学習ステップと、
    前記第2の学習ステップにより学習された音声認識モデルを用いて、入力された音声データを、前記音声データに示す記号列を特定する情報に変換する音声認識ステップと、
    をコンピュータに実行させることを特徴とする学習プログラム。
JP2020028869A 2020-02-21 2020-02-21 学習装置、学習方法、および、学習プログラム Active JP7359028B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020028869A JP7359028B2 (ja) 2020-02-21 2020-02-21 学習装置、学習方法、および、学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020028869A JP7359028B2 (ja) 2020-02-21 2020-02-21 学習装置、学習方法、および、学習プログラム

Publications (2)

Publication Number Publication Date
JP2021135314A JP2021135314A (ja) 2021-09-13
JP7359028B2 true JP7359028B2 (ja) 2023-10-11

Family

ID=77661059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020028869A Active JP7359028B2 (ja) 2020-02-21 2020-02-21 学習装置、学習方法、および、学習プログラム

Country Status (1)

Country Link
JP (1) JP7359028B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7254316B1 (ja) 2022-04-11 2023-04-10 株式会社アープ プログラム、情報処理装置、及び方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766440A (zh) 2018-05-28 2018-11-06 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
JP2020009048A (ja) 2018-07-05 2020-01-16 株式会社日立製作所 ニューラルネットワークの学習装置および学習方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766440A (zh) 2018-05-28 2018-11-06 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
JP2020009048A (ja) 2018-07-05 2020-01-16 株式会社日立製作所 ニューラルネットワークの学習装置および学習方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Davis LIANG et al.,Learning Noise-invariant Representations for Robust Speech Recognition,2018 IEEE Spoken Language Technology Workshop (SLT), [online],IEEE,2019年02月14日,第56-63ページ,[2023年3月16日検索], <URL:https://ieeexplore.ieee.org/;document/8639575>
Lei JIANG et al.,Knowledge Distillation with Category-aware Attention and Discriminant Logit Losses,2019 IEEE International Conference on Multimedia and Expo (ICME), [online],IEEE,2019年08月05日,第1792-1797ページ,[2023年3月16日検索], <URL: https://ieeexplore.ieee.org/document/8784828>
木村 友祐, 外3名,二重相続進化戦略によるEnd-to-End音声認識システムの最適化,情報処理学会研究報告 音声言語情報処理(SLP),日本,情報処理学会,2020年02月06日,Vol. 2020-SLP-131, No. 11,第1-3ページ

Also Published As

Publication number Publication date
JP2021135314A (ja) 2021-09-13

Similar Documents

Publication Publication Date Title
CN110689879B (zh) 端到端语音转写模型的训练方法、***、装置
JP6746292B2 (ja) 言語モデル学習方法及び装置、言語認識方法及び装置
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
KR20160069329A (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
CN107851434A (zh) 使用自适应增量学习方法的语音识别***和方法
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP2008152262A (ja) 音声特徴ベクトル変換方法及び装置
WO2019167296A1 (ja) 自然言語処理のための装置、方法及びプログラム
WO2023245389A1 (zh) 歌曲生成方法、装置、电子设备和存储介质
US20230034414A1 (en) Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program
CN106802888B (zh) 词向量训练方法和装置
CN115662435B (zh) 一种虚拟教师拟真化语音的生成方法及终端
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
JP7359028B2 (ja) 学習装置、学習方法、および、学習プログラム
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
WO2020162190A1 (ja) 音響モデル学習装置、音響モデル学習方法、プログラム
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
CN113160801B (zh) 语音识别方法、装置以及计算机可读存储介质
JP4779239B2 (ja) 音響モデル学習装置、音響モデル学習方法、およびそのプログラム
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200225

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220525

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20220525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230911

R150 Certificate of patent or registration of utility model

Ref document number: 7359028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150