JP7359028B2

JP7359028B2 - 学習装置、学習方法、および、学習プログラム

Info

Publication number: JP7359028B2
Application number: JP2020028869A
Authority: JP
Inventors: 直弘俵; 厚徳小川; 具治岩田; 陽祐樋口; 哲則小林; 哲司小川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2023-10-11
Anticipated expiration: 2040-02-21
Also published as: JP2021135314A

Description

本発明は、学習装置、音声認識装置、学習方法、および、学習プログラムに関する。

従来、ニューラルネットワーク（以下、適宜NNと表記する）を用いたモデルを、機械学習により学習する技術が知られている。例えば、音声データを当該音声データの示す情報（事後確率）に変換するためのend-to-endのNNを用いた音声認識モデルを機械学習により学習する方法が知られている。

このend-to-endのNNは、例えば、音声の中間特徴量を出力するエンコーダと、エンコーダから出力された中間特徴量のうちどの部分に着目するか（重み）を判断するアテンションと、アテンションにより判断された重みを用いて、音声の示す文字を推定するデコータとを備える（非特許文献１参照）。

上記の音声認識モデルを学習する際、ノイズ等を含まないクリーンな音声を学習用データとして用いるものが多い。しかし、実環境ではノイズ等が存在する状況が多く、ノイズが存在する状況下で音声認識を行う必要がある。

そこで、例えば、上記の非特許文献１等に記載の技術は、ノイズに対する頑健性を高めるため、クリーンな音声とノイズを含む音声との両方を学習用データとして用いて、音声認識モデルを学習させる。この場合、まず、同じ内容（テキスト）の音声信号でノイズを含むもの（ノイズあり音声）とノイズを含まないもの（クリーンな音声）とのペアデータを用意する。次に、ノイズあり音声を入力したときのエンコーダの出力と、デコーダの中間層の出力とが、それぞれ対応するクリーンな音声を入力したときのエンコーダの出力とデコーダの中間層の出力とに近付くように、モデルのパラメータを学習させる。

Davis Liang, Zhiheng Huang, and Zachary C Lipton, "Learning Noise-Invariant Representations for Robust Speech Recognition," in Proceedings of the IEEE Workshop on Spoken Language Technology Workshop （SLT）, pp.56-63，2018.

しかし、上記の技術により学習したモデルによっても、ノイズを含む音声の認識精度は必ずしも高くないという問題があった。そこで、本発明は、前記した問題を解決し、ノイズに対する頑健性の高い音声認識手段を提供することを課題とする。

前記した課題を解決するため、本発明は、音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第１の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第１の学習部と、前記音声データ、前記音声データにノイズが加算された音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第２の教師データに基づき、前記第１の学習部による学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第１の距離と、前記ノイズあり音声データを入力した場合に当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第２の距離とを計算する距離計算部と、前記第２の教師データを用いて、前記第１の学習部による学習後の音声認識モデルの学習を行う際、前記第１の距離と前記第２の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第２の学習部と、を備えることを特徴とする。

本発明によれば、ノイズに対する頑健性の高い音声認識手段を提供することができる。

図１は、end-to-endのNNを用いた音声認識モデルの一例を示す図である。図２は、学習装置の動作概要を説明するための図である。図３は、学習装置の動作概要を説明するための図である。図４は、学習装置の動作概要を説明するための図である。図５は、学習装置の動作概要を説明するための図である。図６は、学習装置の構成例を示す図である。図７は、学習装置の処理手順の例を示すフローチャートである。図８は、音声認識装置の構成例を示す図である。図９は、音声認識装置の処理手順の例を示すフローチャートである。図１０は、学習プログラムを実行するコンピュータの一例を示す図である。

以下、図面を参照しながら、本発明を実施するための形態（実施形態）について、第１の実施形態と第２の実施形態とに分けて説明する。本発明は、各実施形態に限定されない。なお、各実施形態における学習装置が学習対象とするモデルは、エンコーダ、アテンションおよびデコータを備えるend-to-endのNNを用いた音声認識モデルである場合を例に説明する。

［第１の実施形態］
まず、図１～図５を用いて、第１の実施形態の学習装置の動作概要を説明する。学習装置は、上記のend-to-endのNNを用いた音声認識モデル（音声認識部）を備える。この音声認識モデルは、図１に示すように、エンコーダ（符号化部）、アテンション（注意機構部）およびデコーダ（復号化部）を備える。

エンコーダは、入力された音声データ（x₁,…,x_T）を中間特徴量（h₂,…,h_T）に変換する。アテンションは、中間特徴量とデコーダの隠れ状態に基づき、中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みの値（α₀,…,α_T）を算出し、その重みで中間特徴量の重み付け和を算出した値（c₀,…,c_L）を出力する。デコーダは、直前までのデコーダの出力（y_i-1）とアテンションからの出力値c_iとに基づき、デコーダの出力（y_i-1）の次の文字を特定する情報（y_i）を推定して出力する。

学習装置は、上記の音声認識モデルについて、まずクリーンな音声データ（ノイズを含まない音声データ）を用いてモデルを事前学習する（図２（１））。例えば、学習装置は、クリーンな音声データとその音声データの示す記号列を特定する情報（正解データ）とを対応付けたデータを教師データとして用いて、音声認識モデルの事前学習を行う。これにより、音声認識モデルのエンコーダ、アテンションおよびデコーダにはクリーンな音声データについて精度よく音声認識を行うためのパラメータが設定される。

次に、学習装置は、クリーンな音声データとノイズの入った音声データ（例えば、当該クリーンな音声データにノイズが加算された音声データ）とのペアデータにより、クリーンな音声データに対するアテンションの重みと、ノイズの入った音声データに対するアテンションの重みとを抽出する（図３（２））。

ここで、クリーンな音声データとノイズの入った音声データにおけるアテンションの重みの分布間損失を定義する（図４（３））。例えば、クリーンな音声データのアテンションの重み（α_i）とノイズの入った音声データのアテンションの重み（α´_i）との分布間損失L_attをKLダイバージェンスにより定義する。例えば、KLダイバージェンスにより定義したクリーンな音声データのアテンションの重み（α_i）とノイズの入った音声データのアテンションの重み（α´_i）との分布間損失L_attは、D_KL（α_i||α´_i）となる。

次に、学習装置は、文字識別損失L_charとアテンションの損失L_attとの和が所定の閾値以下となるよう、アテンションおよびエンコーダを学習する（第２の学習を行う）（図５（４））。なお、上記の文字識別損失L_charは、ノイズの入った音声データが入力された場合にデコーダが出力する情報（y_i´）と正解データとの間の損失を示す。

学習装置が上記のようにして音声認識モデルの学習を行うことで、音声認識モデルにおける、ノイズの入った音声データのアテンションの重みを、クリーンな音声データのアテンションの重みに近づけることができる。その結果、学習装置は、ノイズに対する頑健性の高い音声認識モデルの学習を行うことができる。

［構成］
次に、図６を用いて、第１の実施形態の学習装置１０の構成例を説明する。学習装置１０は、入力部１１と、出力部１２と、記憶部１３と、制御部１４とを備える。

入力部１１は、制御部１４が各種処理を行う際に用いるデータの入力を受け付ける。例えば、入力部１１は、音声認識モデル（音声認識部１４３）の教師データ（第１の教師データおよび第２の教師データ）の入力を受け付ける。出力部１２は、制御部１４が行った処理の結果を出力する。例えば、出力部１２は、音声認識部１４３による音声の認識結果等を出力する。

記憶部１３は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、学習装置１０を動作させるプログラムや、当該プログラムの実行中に使用されるデータなどが記憶される。例えば、記憶部１３は、第１の教師データと、第２の教師データとを記憶する。また、記憶部１３は、音声認識部１４３に設定されるパラメータの値等を記憶する。

第１の教師データは、クリーンな音声データと、当該音声データの示す記号列を特定する情報（正解データ）とを対応付けたデータである。この第１の教師データは、第１の学習部１４７１が音声認識部１４３の事前学習を行う際に用いられる。

第２の教師データは、クリーンな音声データ、当該音声データにノイズの入った音声データおよび当該音声データの示す記号列を特定する情報（正解データ）を対応付けたデータである。

なお、この第２の教師データにおけるクリーンな音声データは、第１の教師データに含まれるクリーンな音声データと同じものでもよい。また、ノイズの入った音声データは、クリーンな音声データに人工的にノイズを加えたものでもよいし、雑音等のノイズが発生している環境下で収録された音声データであってもよい。この第２の教師データは、第２の学習部１４７４が音声認識部１４３の第２の学習を行う際に用いられる。

制御部１４は、学習装置１０全体の制御を司る。制御部１４は、例えば、音声認識部１４３の学習や、学習後の音声認識部１４３を用いた音声認識等を行う。

制御部１４は、第１のデータ入力部１４１と、第２のデータ入力部１４２と、音声認識部１４３と、学習部１４７とを備える。

第１のデータ入力部１４１は、事前学習モードの場合、第１の教師データから、まだ選択していない音声データを選択し、音声認識部１４３に入力し、音声認識部１４３に演算処理を実行させる。

第２のデータ入力部１４２は、第２の学習モードの場合、第２の教師データから、まだ選択していないクリーンな音声データとノイズの入った音声データとのペアを選択する。そして、第２のデータ入力部１４２は、例えば、選択したペアのクリーンな音声データについて、音声認識部１４３に入力し、当該音声認識部１４３に演算処理を実行させる。また、第２のデータ入力部１４２は、当該クリーンな音声データのペアとなるノイズの入った音声データについても、同じパラメータが設定された音声認識部１４３に入力し、当該音声認識部１４３に演算処理を実行させる。

音声認識部１４３は、音声認識モデルに基づき、入力された音声データの音声認識を行う。具体的には、音声認識部１４３は、入力された音声データについて当該音声データの示す記号列を特定する情報に変換し、変換した情報を出力する。この音声認識部１４３は、符号化部（エンコーダ）１４４と、注意機構部（アテンション）１４５と、復号化部（デコーダ）１４６とを備える。符号化部１４４、注意機構部１４５および復号化部１４６それぞれには、音声認識を行う際に用いるパラメータが設定される。なお、上記のパラメータは、音声認識部１４３の学習時に適宜更新される。

符号化部１４４は、入力された音声データを中間特徴量に変換する。注意機構部１４５は、中間特徴量と復号化部１４６の隠れ状態S_nとを入力とし、重み（α₀,…,α_T）と、その重みで中間特徴量の重み付け和を算出した値c_nを出力する。復号化部１４６は、直前までの復号化器の出力y_1:n-1と注意機構部１４５からの出力値（c_n）とを入力として、次の文字を特定する情報y_nを推定して出力する。

学習部１４７は、音声認識部１４３の学習を行う。この学習部１４７は、第１の学習部１４７１と、第１の距離計算部１４７２および第２の距離計算部１４７３（距離計算部）と、第２の学習部１４７４とを備える。破線で示す第３の距離計算部１４７５は装備される場合と装備されない場合とがあり、装備される場合について第２の実施形態で述べる。

第１の学習部１４７１は、学習モードが事前学習モードの場合に音声認識部１４３の事前学習を行う。例えば、第１の学習部１４７１は、所定の条件を満たすまで、第１の教師データの音声データに対する音声認識部１４３の出力y_nと、当該音声データの示す記号列を特定する情報（正解）との損失（距離）に基づいて音声認識部１４３の符号化部１４４、注意機構部１４５および復号化部１４６それぞれのパラメータを更新する。また、上記の事前学習後の音声認識部１４３の各部のパラメータの値は記憶部１３に記憶される。

第１の学習部１４７１が用いる上記の所定の条件は、例えば、上記の損失に基づく音声認識部１４３の各パラメータの更新が予め定めた繰り返し回数に到達したこと、損失が所定の閾値以下となったこと、パラメータの更新量が所定の閾値以下となったこと等である。

なお、学習部１４７は、第１の学習部１４７１による処理が上記の所定の条件を満たすと判断した場合、事前学習モードを終了させ、第２の学習モードに切り替える。

第１の距離計算部１４７２は、第２の学習モードにおいて、事前学習後の音声認識部１４３に、クリーンな音声データを入力した場合とノイズの入った音声データを入力した場合とで、当該音声認識部１４３の注意機構部１４５から出力される重みの分布にどの程度の違いがあるかを示す第１の距離を計算する。

例えば、第１の距離計算部１４７２は、第２の教師データにおけるクリーンな音声データが入力されたときに事前学習後の注意機構部１４５により出力されるアテンションの重みと、当該クリーンな音声データとペアになるノイズの入った音声データが入力されたときに当該注意機構部１４５により出力されるアテンション重みとの分布間距離（第１の距離）を、KLダイバージェンスにより計算する。

また、第２の距離計算部１４７３は、事前学習後の音声認識部１４３に、ノイズの入った音声データを入力した場合に、当該音声認識部１４３の復号化器から出力される情報と、第２の教師データにおける当該音声データの正解データ（例えば、正解文字）との間にどの程度の違いがあるかを示す第２の距離とを計算する。

例えば、第２の距離計算部１４７３は、第２の教師データにおけるノイズの入った音声データが入力されたときに当該復号化部１４６により出力される情報と正解文字との距離（第２の距離）を計算する。

第２の学習部１４７４は、学習モードが第２の学習モードの場合に音声認識部１４３に第２の学習を行う。例えば、第２の学習部１４７４は、所定の条件を満たすまで、第１の距離計算部１４７２により計算された第１の距離と、第２の距離計算部１４７３により計算された第２の距離との和に基づき、事前学習後の音声認識部１４３の注意機構部１４５、復号化部１４６それぞれのパラメータを更新する。

例えば、第２の学習部１４７４は、第２の教師データを用いて、事前学習後の音声認識部１４３の注意機構部１４５および復号化部１４６それぞれのパラメータを更新する際、上記の第１の距離と前記第２の距離との和を損失とし、当該損失が小さくなるようにパラメータを更新する。

なお、第２の学習部１４７４が用いる所定の条件は、第１の学習部１４７１の場合と同様の条件である。例えば、音声認識部１４３の各パラメータの更新が予め定めた繰り返し回数に到達したこと、損失が所定の閾値以下となったこと、パラメータの更新量が所定の閾値以下となったこと等である。また、上記の第２の学習後の音声認識部１４３の各部のパラメータの値は記憶部１３に記憶される。

学習装置１０は、上記のように音声認識部１４３に対し第２の学習を行った後、学習後の音声認識部１４３を用いて、入力された音声データの音声認識処理を実行してもよい。例えば、学習装置１０は、学習後の音声認識部１４３を用いて、入力された音声データについて、当該音声データに示す記号列を特定する情報に変換し、出力してもよい。

［処理手順］
図７を用いて学習装置１０の処理手順を説明する。まず、学習装置１０の第１のデータ入力部１４１は、第１の教師データの音声データを音声認識部１４３に投入し、第１の学習部１４７１は、音声認識部１４３の出力した結果を用いて、音声認識部１４３の事前学習を行う（Ｓ１）。その後、学習装置１０の第２のデータ入力部１４２は、Ｓ１で学習された音声認識部１４３に対し、第２の教師データの音声データを投入し、第２の学習部１４７４は、音声認識部１４３の各部が出力した結果を用いて、当該音声認識部１４３の第２の学習を行う（Ｓ２）。

このような学習装置１０によれば、まず第１の学習部１４７１は、第１の教師データを用いて、音声認識部１４３についてクリーンな音声データに対し正解データを出力するよう当該音声認識部１４３の各部のパラメータを設定する。

その後、第２の学習部１４７４が、第２の教師データを用いて、当該音声認識部１４３にクリーンな音声データを入力した場合とノイズの入った音声データを入力した場合とで、上記の第１の距離と第２の距離との和が小さくなるよう、音声認識部１４３の注意機構部１４５および符号化部１４４のパラメータを更新する。

これにより、学習装置１０は、ノイズの入った音声に対し当該音声認識部１４３、が正解データを出力するようにしつつ、ノイズの入った音声に対し注意機構部１４５の出力する重みを、クリーンな音声に対し注意機構部１４５の出力する重みに近付けることができる。その結果、学習装置１０は、ノイズに対する頑健性の高い音声認識部１４３の学習を行うことができる。

［第２の実施形態］
学習装置１０は、第３の距離計算部１４７５（図６参照）を備えていてもよい。この場合の実施形態を第２の実施形態として説明する。以下、第１の実施形態と同じ構成は同じ符号を付して説明を省略する。第３の距離計算部１４７５は、事前学習後の音声認識部１４３に、クリーンな音声データを入力した場合と当該音声データにノイズの入った音声データを入力した場合とで当該音声認識部１４３の符号化部１４４から出力される情報（中間特徴量）にどの程度の違いがあるかを示す第３の距離を計算する。

そして、第２の学習部１４７４は、事前学習後の音声認識部１４３の学習を行う際、前記した第１の距離と第２の距離と第３の距離との和を損失とし、当該損失が小さくなるように当該音声認識部１４３の符号化部１４４および注意機構部１４５のパラメータの更新を行う。このようにすることで、学習装置１０はノイズに対しさらに頑健性の高い音声認識部１４３の学習を行うことができる。

［その他の実施形態］
なお、上記の学習装置１０で学習された音声認識部１４３（音声認識モデル）は、当該学習装置１０による音声認識に用いられてもよいし、他の装置による音声認識により用いられてもよい。

例えば、学習装置１０で学習された音声認識部１４３を、音声認識装置１００（図８参照）に装備してもよい。音声認識装置１００は、例えば、図８に示すように、入力部１１と、出力部１２と、記憶部１３と、制御部１４とを備える。制御部１４は、学習装置１０により学習された音声認識部１４３を備える。この音声認識装置１００の入力部１１が音声認識対象の音声データの入力を受け付けると（図９のＳ１１）、学習装置１０により学習された音声認識部１４３を用いて音声認識を行い（Ｓ１２）、認識結果を出力する（Ｓ１３）。

［実験結果］
なお、前記した第２の実施形態の学習装置１０を用いた実験結果を以下に説明する。なお、本実験で学習装置１０の第１の学習部１４７１が音声認識モデルの事前学習に用いたデータは、WSJ1si284である。このWSJ1si284は、Wall street journalを読み上げた音声データのコーパスである。このコーパスは、発話総数が37416であり、長さは80時間である。また、第２の学習部１４７４が音声認識モデルの第２の学習に用いたデータは、WSJ1si84とCHiME-4のtr05_simuである。このWSJ1si84も、Wall street journalを読み上げた音声データのコーパスである。このWSJ1si84は、発話総数が7138であり、長さは15時間である。CHiME-4のtr05_simuは、WSJ1si84にノイズを重畳したコーパスである。

上記の条件で、第２の実施形態の学習装置１０が事前学習と第２の学習とを行った後の音声認識部１４３を用いて、CHiME-4 et05_simuおよびCHiME-4 et05_realそれぞれの音声データの誤認識率を測定したところ、以下の結果を得た。なお、CHiME-4 et05_simuは、Wall street journalを読み上げた音声データにノイズを重畳したコーパスである。CHiME-4 et05_realは、雑音等のある環境下でWall street journalを読み上げた音声データのコーパスである。

例えば、以下に示すように、非特許文献１に記載の方法により学習した音声認識モデル（比較例）を用いて音声認識を行ったところ、CHiME-4 et05_simuの音声データの誤認識率は28.5%であり、CHiME-4 et05_realの音声データの誤認識率は32.8%であった。一方、第２の実施形態の学習装置１０により学習した音声認識モデルを用いて音声認識を行ったところ、CHiME-4 et05_simuの音声データの誤認識率は27.8%であり、CHiME-4 et05_realの音声データの誤認識率は32.5%であった。

上記のことから、非特許文献１に記載の方法よりも、第２の実施形態の学習装置１０により学習した音声認識モデルの方が、ノイズの入った音声データについて誤認識率を低減することが確認できた。つまり、非特許文献１に記載の方法よりも、第２の実施形態の学習装置１０の方がノイズに対し頑健性の高い音声認識モデルを作成できることが確認できた。

［プログラム］
図１０を用いて、上記のプログラム（学習プログラム）を実行するコンピュータの一例を説明する。図１０に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

ここで、図１０に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。前記した実施形態で説明した記憶部１３は、例えばハードディスクドライブ１０９０やメモリ１０１０に装備される。

そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、上記の学習プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０学習装置
１１入力部
１２出力部
１３記憶部
１４制御部
１００音声認識装置
１４１第１のデータ入力部
１４２第２のデータ入力部
１４３音声認識部
１４４符号化部
１４５注意機構部
１４６復号化部
１４７学習部
１４７１第１の学習部
１４７２第１の距離計算部
１４７３第２の距離計算部
１４７４第２の学習部
１４７５第３の距離計算部

Claims

音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第１の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第１の学習部と、
前記音声データ、前記音声データにノイズが加算された音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第２の教師データに基づき、前記第１の学習部による学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第１の距離と、前記ノイズあり音声データに対する当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第２の距離とを計算する距離計算部と、
前記第２の教師データを用いて、前記第１の学習部による学習後の音声認識モデルの学習を行う際、前記第１の距離と前記第２の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第２の学習部と、
前記第２の学習部により学習された音声認識モデルを用いて、入力された音声データを、前記音声データに示す記号列を特定する情報に変換する音声認識部と、
を備えることを特徴とする学習装置。
前記第１の学習部による学習後の音声認識モデルに、音声データを入力した場合と前記音声データにノイズが加算された音声データであるノイズあり音声データを入力した場合とで当該音声認識モデルの符号化器から出力される情報にどの程度の違いがあるかを示す第３の距離を計算する第３の距離計算部をさらに備え、
前記第２の学習部は、
前記第１の学習部による学習後の音声認識モデルの学習を行う際、前記第１の距離と前記第２の距離と前記第３の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う
ことを特徴とする請求項１に記載の学習装置。
前記第２の学習部は、
前記第１の学習部による学習後の音声認識モデルの学習を行う際、前記損失が所定の閾値以下となるまで、前記音声認識モデルの符号化器および注意機構のパラメータの更新処理を繰り返すこと
を特徴とする請求項１または請求項２に記載の学習装置。
学習装置により実行される学習方法であって、
音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第１の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第１の学習ステップと、
前記音声データ、前記音声データにノイズの入った音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第２の教師データに基づき、前記第１の学習ステップによる学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第１の距離と、前記ノイズあり音声データに対し当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第２の距離とを計算する距離計算ステップと、
前記第２の教師データを用いて、前記第１の学習ステップによる学習後の音声認識モデルの学習を行う際、前記第１の距離と前記第２の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第２の学習ステップと、
前記第２の学習ステップにより学習された音声認識モデルを用いて、入力された音声データを、前記音声データに示す記号列を特定する情報に変換する音声認識ステップと、
を含むことを特徴とする学習方法。
音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第１の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第１の学習ステップと、
前記音声データ、前記音声データにノイズの入った音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第２の教師データに基づき、前記第１の学習ステップによる学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第１の距離と、前記ノイズあり音声データに対し当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第２の距離とを計算する距離計算ステップと、
前記第２の教師データを用いて、前記第１の学習ステップによる学習後の音声認識モデルの学習を行う際、前記第１の距離と前記第２の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第２の学習ステップと、
前記第２の学習ステップにより学習された音声認識モデルを用いて、入力された音声データを、前記音声データに示す記号列を特定する情報に変換する音声認識ステップと、
をコンピュータに実行させることを特徴とする学習プログラム。