JP7359028B2 - 学習装置、学習方法、および、学習プログラム - Google Patents
学習装置、学習方法、および、学習プログラム Download PDFInfo
- Publication number
- JP7359028B2 JP7359028B2 JP2020028869A JP2020028869A JP7359028B2 JP 7359028 B2 JP7359028 B2 JP 7359028B2 JP 2020028869 A JP2020028869 A JP 2020028869A JP 2020028869 A JP2020028869 A JP 2020028869A JP 7359028 B2 JP7359028 B2 JP 7359028B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- speech recognition
- speech
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
まず、図1~図5を用いて、第1の実施形態の学習装置の動作概要を説明する。学習装置は、上記のend-to-endのNNを用いた音声認識モデル(音声認識部)を備える。この音声認識モデルは、図1に示すように、エンコーダ(符号化部)、アテンション(注意機構部)およびデコーダ(復号化部)を備える。
次に、図6を用いて、第1の実施形態の学習装置10の構成例を説明する。学習装置10は、入力部11と、出力部12と、記憶部13と、制御部14とを備える。
図7を用いて学習装置10の処理手順を説明する。まず、学習装置10の第1のデータ入力部141は、第1の教師データの音声データを音声認識部143に投入し、第1の学習部1471は、音声認識部143の出力した結果を用いて、音声認識部143の事前学習を行う(S1)。その後、学習装置10の第2のデータ入力部142は、S1で学習された音声認識部143に対し、第2の教師データの音声データを投入し、第2の学習部1474は、音声認識部143の各部が出力した結果を用いて、当該音声認識部143の第2の学習を行う(S2)。
学習装置10は、第3の距離計算部1475(図6参照)を備えていてもよい。この場合の実施形態を第2の実施形態として説明する。以下、第1の実施形態と同じ構成は同じ符号を付して説明を省略する。第3の距離計算部1475は、事前学習後の音声認識部143に、クリーンな音声データを入力した場合と当該音声データにノイズの入った音声データを入力した場合とで当該音声認識部143の符号化部144から出力される情報(中間特徴量)にどの程度の違いがあるかを示す第3の距離を計算する。
なお、上記の学習装置10で学習された音声認識部143(音声認識モデル)は、当該学習装置10による音声認識に用いられてもよいし、他の装置による音声認識により用いられてもよい。
なお、前記した第2の実施形態の学習装置10を用いた実験結果を以下に説明する。なお、本実験で学習装置10の第1の学習部1471が音声認識モデルの事前学習に用いたデータは、WSJ1si284である。このWSJ1si284は、Wall street journalを読み上げた音声データのコーパスである。このコーパスは、発話総数が37416であり、長さは80時間である。また、第2の学習部1474が音声認識モデルの第2の学習に用いたデータは、WSJ1si84とCHiME-4のtr05_simuである。このWSJ1si84も、Wall street journalを読み上げた音声データのコーパスである。このWSJ1si84は、発話総数が7138であり、長さは15時間である。CHiME-4のtr05_simuは、WSJ1si84にノイズを重畳したコーパスである。
図10を用いて、上記のプログラム(学習プログラム)を実行するコンピュータの一例を説明する。図10に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
11 入力部
12 出力部
13 記憶部
14 制御部
100 音声認識装置
141 第1のデータ入力部
142 第2のデータ入力部
143 音声認識部
144 符号化部
145 注意機構部
146 復号化部
147 学習部
1471 第1の学習部
1472 第1の距離計算部
1473 第2の距離計算部
1474 第2の学習部
1475 第3の距離計算部
Claims (5)
- 音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第1の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第1の学習部と、
前記音声データ、前記音声データにノイズが加算された音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第2の教師データに基づき、前記第1の学習部による学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第1の距離と、前記ノイズあり音声データに対する当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第2の距離とを計算する距離計算部と、
前記第2の教師データを用いて、前記第1の学習部による学習後の音声認識モデルの学習を行う際、前記第1の距離と前記第2の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第2の学習部と、
前記第2の学習部により学習された音声認識モデルを用いて、入力された音声データを、前記音声データに示す記号列を特定する情報に変換する音声認識部と、
を備えることを特徴とする学習装置。 - 前記第1の学習部による学習後の音声認識モデルに、音声データを入力した場合と前記音声データにノイズが加算された音声データであるノイズあり音声データを入力した場合とで当該音声認識モデルの符号化器から出力される情報にどの程度の違いがあるかを示す第3の距離を計算する第3の距離計算部をさらに備え、
前記第2の学習部は、
前記第1の学習部による学習後の音声認識モデルの学習を行う際、前記第1の距離と前記第2の距離と前記第3の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う
ことを特徴とする請求項1に記載の学習装置。 - 前記第2の学習部は、
前記第1の学習部による学習後の音声認識モデルの学習を行う際、前記損失が所定の閾値以下となるまで、前記音声認識モデルの符号化器および注意機構のパラメータの更新処理を繰り返すこと
を特徴とする請求項1または請求項2に記載の学習装置。 - 学習装置により実行される学習方法であって、
音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第1の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第1の学習ステップと、
前記音声データ、前記音声データにノイズの入った音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第2の教師データに基づき、前記第1の学習ステップによる学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第1の距離と、前記ノイズあり音声データに対し当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第2の距離とを計算する距離計算ステップと、
前記第2の教師データを用いて、前記第1の学習ステップによる学習後の音声認識モデルの学習を行う際、前記第1の距離と前記第2の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第2の学習ステップと、
前記第2の学習ステップにより学習された音声認識モデルを用いて、入力された音声データを、前記音声データに示す記号列を特定する情報に変換する音声認識ステップと、
を含むことを特徴とする学習方法。 - 音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第1の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第1の学習ステップと、
前記音声データ、前記音声データにノイズの入った音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第2の教師データに基づき、前記第1の学習ステップによる学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第1の距離と、前記ノイズあり音声データに対し当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第2の距離とを計算する距離計算ステップと、
前記第2の教師データを用いて、前記第1の学習ステップによる学習後の音声認識モデルの学習を行う際、前記第1の距離と前記第2の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第2の学習ステップと、
前記第2の学習ステップにより学習された音声認識モデルを用いて、入力された音声データを、前記音声データに示す記号列を特定する情報に変換する音声認識ステップと、
をコンピュータに実行させることを特徴とする学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020028869A JP7359028B2 (ja) | 2020-02-21 | 2020-02-21 | 学習装置、学習方法、および、学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020028869A JP7359028B2 (ja) | 2020-02-21 | 2020-02-21 | 学習装置、学習方法、および、学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021135314A JP2021135314A (ja) | 2021-09-13 |
JP7359028B2 true JP7359028B2 (ja) | 2023-10-11 |
Family
ID=77661059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020028869A Active JP7359028B2 (ja) | 2020-02-21 | 2020-02-21 | 学習装置、学習方法、および、学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7359028B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7254316B1 (ja) | 2022-04-11 | 2023-04-10 | 株式会社アープ | プログラム、情報処理装置、及び方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108766440A (zh) | 2018-05-28 | 2018-11-06 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
JP2020009048A (ja) | 2018-07-05 | 2020-01-16 | 株式会社日立製作所 | ニューラルネットワークの学習装置および学習方法 |
-
2020
- 2020-02-21 JP JP2020028869A patent/JP7359028B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108766440A (zh) | 2018-05-28 | 2018-11-06 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
JP2020009048A (ja) | 2018-07-05 | 2020-01-16 | 株式会社日立製作所 | ニューラルネットワークの学習装置および学習方法 |
Non-Patent Citations (3)
Title |
---|
Davis LIANG et al.,Learning Noise-invariant Representations for Robust Speech Recognition,2018 IEEE Spoken Language Technology Workshop (SLT), [online],IEEE,2019年02月14日,第56-63ページ,[2023年3月16日検索], <URL:https://ieeexplore.ieee.org/;document/8639575> |
Lei JIANG et al.,Knowledge Distillation with Category-aware Attention and Discriminant Logit Losses,2019 IEEE International Conference on Multimedia and Expo (ICME), [online],IEEE,2019年08月05日,第1792-1797ページ,[2023年3月16日検索], <URL: https://ieeexplore.ieee.org/document/8784828> |
木村 友祐, 外3名,二重相続進化戦略によるEnd-to-End音声認識システムの最適化,情報処理学会研究報告 音声言語情報処理(SLP),日本,情報処理学会,2020年02月06日,Vol. 2020-SLP-131, No. 11,第1-3ページ |
Also Published As
Publication number | Publication date |
---|---|
JP2021135314A (ja) | 2021-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689879B (zh) | 端到端语音转写模型的训练方法、***、装置 | |
JP6746292B2 (ja) | 言語モデル学習方法及び装置、言語認識方法及び装置 | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
KR20160069329A (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
CN107851434A (zh) | 使用自适应增量学习方法的语音识别***和方法 | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP2008152262A (ja) | 音声特徴ベクトル変換方法及び装置 | |
WO2019167296A1 (ja) | 自然言語処理のための装置、方法及びプログラム | |
WO2023245389A1 (zh) | 歌曲生成方法、装置、电子设备和存储介质 | |
US20230034414A1 (en) | Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program | |
CN106802888B (zh) | 词向量训练方法和装置 | |
CN115662435B (zh) | 一种虚拟教师拟真化语音的生成方法及终端 | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
JP7359028B2 (ja) | 学習装置、学習方法、および、学習プログラム | |
JP2004094257A (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
WO2020162190A1 (ja) | 音響モデル学習装置、音響モデル学習方法、プログラム | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
CN113160801B (zh) | 语音识别方法、装置以及计算机可读存储介质 | |
JP4779239B2 (ja) | 音響モデル学習装置、音響モデル学習方法、およびそのプログラム | |
JP2019078857A (ja) | 音響モデルの学習方法及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200225 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220525 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20220525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230515 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230911 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7359028 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |