JP2018031812A - 音声データ処理装置、音声データ処理方法および音声データ処理プログラム - Google Patents
音声データ処理装置、音声データ処理方法および音声データ処理プログラム Download PDFInfo
- Publication number
- JP2018031812A JP2018031812A JP2016161849A JP2016161849A JP2018031812A JP 2018031812 A JP2018031812 A JP 2018031812A JP 2016161849 A JP2016161849 A JP 2016161849A JP 2016161849 A JP2016161849 A JP 2016161849A JP 2018031812 A JP2018031812 A JP 2018031812A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- feature quantity
- input
- feature amount
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】抽出部21は、音声データから、第1の入力特徴量および第2の入力特徴量を抽出する。そして、計算部22は、第2の入力特徴量に基づき、所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する。そして、計算部22は、第1の入力特徴量および条件特徴量に基づき、音声認識モデル31に適応した特徴量である適応特徴量を計算する。そして、更新部23は、音声認識モデル31に適応特徴量を入力して得られた出力結果を基に、条件特徴量計算モデル32のパラメータおよび適応特徴量計算モデル33のパラメータの更新を行う。
【選択図】図4
Description
以下、本願が開示する音声データ処理装置、音声データ処理方法および音声データ処理プログラムの実施形態を説明する。以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態およびその他の実施形態は、矛盾しない範囲で適宜組み合わせてもよい。
図8を用いて、音声データ処理装置10の適応処理の流れについて説明する。図8は、第1の実施形態に係る音声データ処理装置の適応処理の流れを示すフローチャートである。
抽出部21は、所定の環境における音声を基に作成された適応用の音声データから、音声の特徴を示す特徴量である第1の入力特徴量、および環境の特徴を示す特徴量である第2の入力特徴量を抽出する。そして、計算部22は、ニューラルネットワークを用いた計算モデルである条件特徴量計算モデル32に第2の入力特徴量を入力し、所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する。そして、計算部22は、条件特徴量に含まれる複数の要素のそれぞれに対応したパラメータの組を含んだ計算モデルである適応特徴量計算モデル33に第1の入力特徴量および条件特徴量を入力し、ニューラルネットワークを用いた計算モデルである音声認識モデル31に適応した特徴量である適応特徴量を計算する。そして、更新部23は、音声認識モデル31に適応特徴量を入力して得られた出力結果を基に、条件特徴量計算モデル32のパラメータおよび適応特徴量計算モデル33のパラメータの更新を行う。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、音声データ処理装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の適応および音声認識を実行する音声データ処理プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声データ処理プログラムを情報処理装置に実行させることにより、情報処理装置を音声データ処理装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
20 制御部
21 抽出部
22 計算部
23 更新部
24 認識部
30 記憶部
31 音声認識モデル
32 条件特徴量計算モデル
33 適応特徴量計算モデル
211 第1の入力特徴量抽出部
212 第2の入力特徴量抽出部
221 条件特徴量計算部
222 特徴量変換部
223 事後確率計算部
231 エラー計算部
232 微分値計算部
233 パラメータ更新部
234 収束判定部
241 単語列検索部
Claims (7)
- 所定の環境における音声を基に作成された適応用の音声データから、前記音声の特徴を示す特徴量である第1の入力特徴量、および前記環境の特徴を示す特徴量である第2の入力特徴量を抽出する抽出部と、
ニューラルネットワークを用いた計算モデルである条件特徴量計算モデルに前記第2の入力特徴量を入力し、前記所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する条件特徴量計算部と、
前記条件特徴量に含まれる複数の要素のそれぞれに対応したパラメータの組を含んだ計算モデルである適応特徴量計算モデルに前記第1の入力特徴量および前記条件特徴量を入力し、前記要素ごとに、ニューラルネットワークを用いた計算モデルである音声認識モデルに適応した特徴量である適応特徴量を計算する適応特徴量計算部と、
前記音声認識モデルに前記適応特徴量を入力して得られた出力結果を基に、前記条件特徴量計算モデルのパラメータおよび前記適応特徴量計算モデルのパラメータの更新を行う更新部と、
を有することを特徴とする音声データ処理装置。 - 前記音声認識モデルを用いて音声認識を行う認識部をさらに有し、
前記抽出部は、所定の環境における音声を基に作成された音声認識用の音声データから、前記第1の入力特徴量、および前記第2の入力特徴量を抽出し、
前記条件特徴量計算部は、前記条件特徴量計算モデルに前記第2の入力特徴量を入力し、前記条件特徴量を計算し、
前記適応特徴量計算部は、前記適応特徴量計算モデルに前記第1の入力特徴量および前記条件特徴量を入力し、前記適応特徴量を計算し、
前記認識部は、前記音声認識モデルに前記適応特徴量を入力して得られた出力結果を基に、音声の認識を行うことを特徴とする請求項1に記載の音声データ処理装置。 - 前記抽出部は、前記第1の入力特徴量と、雑音抑圧処理が行われた前記音声データの音声の特徴を示す特徴量と、の差を基に特徴量を計算し、計算した特徴量を前記第2の入力特徴量として抽出することを特徴とする請求項1または2に記載の音声データ処理装置。
- 音声データ処理装置で実行される音声データ処理方法であって、
所定の環境における音声を基に作成された適応用の音声データから、前記音声の特徴を示す特徴量である第1の入力特徴量、および前記環境の特徴を示す特徴量である第2の入力特徴量を抽出する抽出工程と、
ニューラルネットワークを用いた計算モデルである条件特徴量計算モデルに前記第2の入力特徴量を入力し、前記所定の環境を特徴付ける複数の条件のそれぞれに対応した要素を含んだ特徴量である条件特徴量を計算する条件特徴量計算工程と、
前記条件特徴量に含まれる複数の要素のそれぞれに対応したパラメータの組を含んだ計算モデルである適応特徴量計算モデルに前記第1の入力特徴量および前記条件特徴量を入力し、前記要素ごとに、ニューラルネットワークを用いた計算モデルである音声認識モデルに適応した特徴量である適応特徴量を計算する適応特徴量計算工程と、
前記音声認識モデルに前記適応特徴量を入力して得られた出力結果を基に、前記条件特徴量計算モデルのパラメータおよび前記適応特徴量計算モデルのパラメータの更新を行う更新工程と、
を含んだことを特徴とする音声データ処理方法。 - 前記音声認識モデルを用いて音声認識を行う認識工程をさらに含み、
前記抽出工程は、所定の環境における音声を基に作成された音声認識用の音声データから、前記第1の入力特徴量、および前記第2の入力特徴量を抽出し、
前記条件特徴量計算工程は、前記条件特徴量計算モデルに前記第2の入力特徴量を入力し、前記条件特徴量を計算し、
前記適応特徴量計算工程は、前記適応特徴量計算モデルに前記第1の入力特徴量および前記条件特徴量を入力し、前記適応特徴量を計算し、
前記認識工程は、前記音声認識モデルに前記適応特徴量を入力して得られた出力結果を基に、音声の認識を行うことを特徴とする請求項4に記載の音声データ処理方法。 - 前記抽出方法は、前記第1の入力特徴量と、雑音抑圧処理が行われた前記音声データの音声の特徴を示す特徴量と、の差を基に特徴量を計算し、計算した特徴量を前記第2の入力特徴量として抽出することを特徴とする請求項4または5に記載の音声データ処理方法。
- 請求項1〜3のいずれか1項に記載の音声データ処理装置としてコンピュータを機能させる音声データ処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016161849A JP6646337B2 (ja) | 2016-08-22 | 2016-08-22 | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016161849A JP6646337B2 (ja) | 2016-08-22 | 2016-08-22 | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018031812A true JP2018031812A (ja) | 2018-03-01 |
JP6646337B2 JP6646337B2 (ja) | 2020-02-14 |
Family
ID=61302985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016161849A Active JP6646337B2 (ja) | 2016-08-22 | 2016-08-22 | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6646337B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021162798A (ja) * | 2020-04-02 | 2021-10-11 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
WO2021206221A1 (en) * | 2020-04-08 | 2021-10-14 | Lg Electronics Inc. | Artificial intelligence apparatus using a plurality of output layers and method for same |
JP7504601B2 (ja) | 2020-01-28 | 2024-06-24 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016188944A (ja) * | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
WO2017135148A1 (ja) * | 2016-02-02 | 2017-08-10 | 日本電信電話株式会社 | 音響モデル学習方法、音声認識方法、音響モデル学習装置、音声認識装置、音響モデル学習プログラムおよび音声認識プログラム |
-
2016
- 2016-08-22 JP JP2016161849A patent/JP6646337B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016188944A (ja) * | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
WO2017135148A1 (ja) * | 2016-02-02 | 2017-08-10 | 日本電信電話株式会社 | 音響モデル学習方法、音声認識方法、音響モデル学習装置、音声認識装置、音響モデル学習プログラムおよび音声認識プログラム |
Non-Patent Citations (1)
Title |
---|
MARC DELCROIX ET AL.: "CONTEXT ADAPTIVE DEEP NEURAL NETWORKS FOR FAST ACOUSTIC MODEL ADAPTATION", ICASSP 2015, JPN6019020067, 19 April 2015 (2015-04-19), pages 4535 - 4539, XP033187619, ISSN: 0004046616, DOI: 10.1109/ICASSP.2015.7178829 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7504601B2 (ja) | 2020-01-28 | 2024-06-24 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
JP2021162798A (ja) * | 2020-04-02 | 2021-10-11 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
JP7274441B2 (ja) | 2020-04-02 | 2023-05-16 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
WO2021206221A1 (en) * | 2020-04-08 | 2021-10-14 | Lg Electronics Inc. | Artificial intelligence apparatus using a plurality of output layers and method for same |
US11769047B2 (en) | 2020-04-08 | 2023-09-26 | Lg Electronics Inc. | Artificial intelligence apparatus using a plurality of output layers and method for same |
Also Published As
Publication number | Publication date |
---|---|
JP6646337B2 (ja) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
Mangu et al. | Finding consensus in speech recognition: word error minimization and other applications of confusion networks | |
CN110914899A (zh) | 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 | |
US9653093B1 (en) | Generative modeling of speech using neural networks | |
JP6506074B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム | |
JP6831343B2 (ja) | 学習装置、学習方法及び学習プログラム | |
US20100094629A1 (en) | Weight coefficient learning system and audio recognition system | |
JP2017058877A (ja) | 学習装置、音声検出装置、学習方法およびプログラム | |
JP2014157323A (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
JP2022158735A (ja) | 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム | |
JP7209330B2 (ja) | 識別器、学習済モデル、学習方法 | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
JP2021039219A (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP6910002B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP7212596B2 (ja) | 学習装置、学習方法および学習プログラム | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP6612796B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
JP2021039216A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP6772115B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、及びプログラム | |
JP5308102B2 (ja) | 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体 | |
JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム | |
WO2023181223A1 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20160831 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180607 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6646337 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |