JP6637078B2 - 音響モデル学習装置、音響モデル学習方法及びプログラム - Google Patents
音響モデル学習装置、音響モデル学習方法及びプログラム Download PDFInfo
- Publication number
- JP6637078B2 JP6637078B2 JP2017565514A JP2017565514A JP6637078B2 JP 6637078 B2 JP6637078 B2 JP 6637078B2 JP 2017565514 A JP2017565514 A JP 2017565514A JP 2017565514 A JP2017565514 A JP 2017565514A JP 6637078 B2 JP6637078 B2 JP 6637078B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- acoustic model
- parameters
- condition
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000004364 calculation method Methods 0.000 claims description 128
- 238000013528 artificial neural network Methods 0.000 claims description 65
- 238000012937 correction Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 description 109
- 238000000605 extraction Methods 0.000 description 52
- 238000012545 processing Methods 0.000 description 34
- 239000011159 matrix material Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 239000000284 extract Substances 0.000 description 17
- 230000006978 adaptation Effects 0.000 description 16
- 230000009466 transformation Effects 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 9
- 238000007796 conventional method Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 230000004069 differentiation Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 238000012821 model calculation Methods 0.000 description 4
- 238000005094 computer simulation Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Description
第1の従来技術は、例えば文献1「G. Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition, The shared views of four research groups,” IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29,No. 6, pp. 82−97, 2012.」に示される音声認識技術である。図1は、第1の従来技術に係る音声認識装置の構成の一例を示す図である。図1に示すように、第1の従来技術に係る音声認識装置20aは、特徴量抽出部201a、HMM状態の出力確率計算部205a、単語列検索部206aを有する。また、音声認識装置20aは、記憶部250aと接続される。
ここで、一般的に、音響モデルの学習時と認識時とでは、音響環境や話者特性等の音響条件が異なる。そのため、第1の従来技術の音声認識は、音響モデルと認識時の特徴量とが合致せず、十分な認識性能が得られない。そこで、音響モデルを認識時の特徴量と合致させるため、音響モデルのパラメータを補正(再推定)(以下、音響モデル補正と称す)して音声認識を行う第2の従来技術がある。第2の従来技術は、例えば文献2「H. Liao, “SPEAKER ADAPTATION OF CONTEXT DEPENDENT DEEP NEURAL NETWORKS,” in Proc. of ICASSP’13, 2013, pp. 7947−7951.」に示される音声認識技術である。以下、音響モデル補正を行う第2の従来技術について、第1の従来技術との差異部分を説明する。
以下、第2の従来技術に係る音声認識装置20bに、第3の従来技術に係る音響モデル補正(再推定)機能を有する音響モデル再学習装置10cを適用した場合を説明する。図6は、第3の従来技術に係る音響モデル再学習装置の構成の一例を示す図である。音響モデル再学習装置10cは、特徴量抽出部101c、音響モデル補正部104cを有する。また、音響モデル再学習装置10cは、記憶部150cと接続される。
以下、本願が開示する音声認識装置、音響モデル学習装置、音声認識方法、音響モデル学習方法及びプログラムの実施形態を説明する。以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態およびその他の実施形態は、矛盾しない範囲で適宜組み合わせてもよい。
文献4「M. Delcroix, K. Kinoshita, T. Hori, T. Nakatani, “Context adaptive deep neural networks for fast acoustic model adaptation,” in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015 , pp.4535-4539, 2015.」には、パラメータを音響条件特徴量と関連付けて学習する音響モデルであるCADNN(Context Adaptive Deep Neural Network)が記載されている。
図8は、従来の音響条件適応型音響モデルの概要の一例を示す図である。従来の音響条件適応型音響モデルであるCADNNは、図8に示すように、NNの隠れ層は、音響条件特徴量を示すベクトル(以下、「音響条件特徴量ベクトル」と称す)の要素毎に分解された形になっている。図8では、例示として、1つの隠れ層(i番目の隠れ層)が分解されている状態を示すが、少なくとも1つの隠れ層または全ての隠れ層を分解するとしてもよい。分解された隠れ層の線形変換後の出力は、下記(5)式のように計算する。
図9は、実施形態に係る音響条件適応型音響モデルの概要の一例を示す図である。図9に示すように、実施形態に係る音響条件適応型音響モデルであるCADNN−JTでは、音響条件を表す音響条件特徴量の計算モデルにはニューラルネットワークを用い、そのニューラルネットワークのパラメータは従来のCADNNのパラメータと同時最適化される。すなわち、音響モデル、および音響条件の計算モデルは、1つ以上の隠れ層を有するニューラルネットワークで表され、音響条件の計算モデルの出力層は、音響モデルに結合されている。
(実施形態に係る音響モデル学習装置の構成)
上記実施形態の数理的背景を踏まえ、以下、実施形態の一例を説明する。図10は、実施形態に係る音響モデル学習装置の構成の一例を示す図である。図10に示すように、実施形態に係る音響モデル学習装置10は、特徴量抽出部101、第2特徴量抽出部102、条件特徴量計算部103、音響モデルパラメータ補正部104、HMM状態の出力確率計算部105、エラー計算部121、音響モデルパラメータ微分値計算部122、音響モデルパラメータ更新部123、条件特徴量計算部のパラメータ微分値計算部124、条件特徴量計算部のパラメータ更新部125、収束判定部126を有する。また、音響モデル学習装置10は、記憶部150と接続される。
図11は、実施形態に係る音響モデル学習処理の一例を示すフローチャートである。まず、音響モデル学習装置10は、記憶部150から音響モデル(音響モデルパラメータΛ)を読み込む(ステップS101)。次に、音響モデル学習装置10は、記憶部150から音響条件の計算モデル(音響条件の計算モデルパラメータΩ)を読み込む(ステップS102)。次に、音響モデル学習装置10は、学習用音声データを読み込む(ステップS103)。次に、音響モデル学習装置10は、正解シンボル系列−Srを読み込む(ステップS104)。
図12は、実施形態に係る音声認識装置の構成の一例を示す図である。図12に示すように、実施形態に係る音声認識装置20は、特徴量抽出部201、第2特徴量抽出部202、条件特徴量計算部203、音響モデルパラメータ補正部204、HMM状態の出力確率計算部205、単語列検索部206を有する。また、音声認識装置20は、記憶部250と接続される。
図13は、実施形態に係る音声認識処理の一例を示すフローチャートである。まず、音声認識装置20は、記憶部250から音響モデル(音響モデルパラメータΛ)を読み込む(ステップS201)。次に、音声認識装置20は、記憶部250から音響条件の計算モデルを読み込む(ステップS202)。次に、音声認識装置20は、記憶部250から言語モデルを読み込む(ステップS203)。次に、音声認識装置20は、認識用音声データを読み込む(ステップS204)。
実施形態では、DNN(CADNN)に基づく音響モデルを音響条件の計算モデルと結合させる場合について説明したが、DNNに限らず、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、BLSTM(Bidirectional Long Short-Term Memory)のニューラルネットワーク等、種々のニューラルネットワークに基づく音響モデルを音響条件の計算モデルと結合させ、同様の定式化を行うことが可能である。また、本発明における音響モデルは、HMMに基づくものに限られずニューラルネットワークを用いて出力確率を計算する任意の音響モデルとすることができる。例えば、本発明における音響モデルは、CTC(Connectionist Temporal Classification)やencoder-decoderに基づくモデルであってもよい。
実施形態の音響モデル学習装置10において、特徴量抽出部101および第2特徴量抽出部102は、音声データの特徴を示す特徴量を抽出する。また、条件特徴量計算部103は、ニューラルネットワークで表される音響条件の計算モデルを特徴付ける音響条件計算モデルパラメータ、および特徴量を基に、音声データの音響条件の特徴を示す音響条件特徴量を、音響条件の計算モデルを用いて計算する。また、音響モデルパラメータ補正部104は、音響条件の計算モデルの出力層が結合されたニューラルネットワークで表される音響モデルを特徴付ける音響モデルパラメータを、音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する。また、音響モデルパラメータ更新部123は、補正後パラメータおよび特徴量を基に音響モデルパラメータを更新する。また、条件特徴量計算部のパラメータ更新部125は、補正後パラメータおよび特徴量を基に音響条件計算モデルパラメータを更新する。
図10に示す音響モデル学習装置10および図12に示す音声認識装置20の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音響モデル学習装置10および音声認識装置20の機能の分散および統合の具体的形態は図示のものに限られず、全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。例えば、特徴量抽出部101および第2特徴量抽出部102は、一体の機能部であってもよく、HMM状態の出力確率計算部105と条件特徴量計算部103にそれぞれ異なる特徴量を出力するようにしてもよい。なお、特徴量抽出部201および第2特徴量抽出部202についても同様である。
一実施形態として、音響モデル学習装置および音声認識装置は、パッケージソフトウェアやオンラインソフトウェアとして上記の音響モデル学習または音声認識を実行する音響モデル学習プログラムまたは音声認識プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音響モデル学習プログラムまたは音声認識プログラムを情報処理装置に実行させることにより、情報処理装置を音響モデル学習装置または音声認識装置として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
20 音声認識装置
101、201 特徴量抽出部
102、202 第2特徴量抽出部
103、203 条件特徴量計算部
104、204 音響モデルパラメータ補正部
105、205 HMM状態の出力確率計算部
121 エラー計算部
122 音響モデルパラメータ微分値計算部
123 音響モデルパラメータ更新部
124 条件特徴量計算部のパラメータ微分値計算部
125 条件特徴量計算部のパラメータ更新部
126 収束判定部
206 単語列検索部
150、250 記憶部
Claims (4)
- 入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習装置であって、
入力された情報を音響条件特徴量に変換する音響条件特徴量計算手段と、
音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第1の変換手段と、
前記音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正手段と、
前記音響モデルパラメータ補正手段により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより、学習用音声データの各々を第1の変換手段により変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータと前記音響条件特徴量計算手段の変換処理を特定するパラメータとを更新する音響モデルパラメータ更新手段と
を含むことを特徴とする音響モデル学習装置。 - 前記ニューラルネットワークは、
複数の分割された隠れ層と、
前記複数の分割された隠れ層の各々から出力される中間状態を用いて前記シンボル系列を特定する情報を得る層と、を含み、
前記音響モデルパラメータ補正手段は、前記隠れ層の各々について、当該隠れ層に対応する前記音響条件特徴量に基づき、当該隠れ層のパラメータを補正するものである
ことを特徴とする請求項1に記載の音響モデル学習装置。 - 音響モデル学習装置によって実行される音響モデル学習方法であって、
入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習装置であって、
入力された情報を音響条件特徴量に変換する音響条件特徴量計算工程と、
音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第1の変換工程と、
前記音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正工程と、
前記音響モデルパラメータ補正工程により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより、学習用音声データの各々を第1の変換工程により変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータと前記音響条件特徴量計算工程の変換処理を特定するパラメータとを更新する音響モデルパラメータ更新工程と
を含むことを特徴とする音響モデル学習方法。 - コンピュータを、請求項1に記載の音響モデル学習装置として機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016018016 | 2016-02-02 | ||
JP2016018016 | 2016-02-02 | ||
PCT/JP2017/002740 WO2017135148A1 (ja) | 2016-02-02 | 2017-01-26 | 音響モデル学習方法、音声認識方法、音響モデル学習装置、音声認識装置、音響モデル学習プログラムおよび音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017135148A1 JPWO2017135148A1 (ja) | 2018-11-29 |
JP6637078B2 true JP6637078B2 (ja) | 2020-01-29 |
Family
ID=59499773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017565514A Active JP6637078B2 (ja) | 2016-02-02 | 2017-01-26 | 音響モデル学習装置、音響モデル学習方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11264044B2 (ja) |
JP (1) | JP6637078B2 (ja) |
CN (1) | CN108701452B (ja) |
WO (1) | WO2017135148A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6646337B2 (ja) * | 2016-08-22 | 2020-02-14 | 日本電信電話株式会社 | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム |
EP3692634A1 (en) * | 2017-10-04 | 2020-08-12 | Google LLC | Methods and systems for automatically equalizing audio output based on room characteristics |
JP6973192B2 (ja) * | 2018-03-08 | 2021-11-24 | 日本電信電話株式会社 | 言語モデルを利用する装置、方法及びプログラム |
JP6891144B2 (ja) * | 2018-06-18 | 2021-06-18 | ヤフー株式会社 | 生成装置、生成方法及び生成プログラム |
JP7231181B2 (ja) * | 2018-07-17 | 2023-03-01 | 国立研究開発法人情報通信研究機構 | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN109979436B (zh) * | 2019-04-12 | 2020-11-13 | 南京工程学院 | 一种基于频谱自适应法的bp神经网络语音识别***及方法 |
CN111862952B (zh) * | 2019-04-26 | 2024-04-12 | 华为技术有限公司 | 一种去混响模型训练方法及装置 |
CN110503944B (zh) * | 2019-08-29 | 2021-09-24 | 思必驰科技股份有限公司 | 语音唤醒模型的训练和使用方法及装置 |
CN110634474B (zh) * | 2019-09-24 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音识别方法和装置 |
CN110827801B (zh) * | 2020-01-09 | 2020-04-17 | 成都无糖信息技术有限公司 | 一种基于人工智能的自动语音识别方法及*** |
CN111415682A (zh) * | 2020-04-03 | 2020-07-14 | 北京乐界乐科技有限公司 | 一种用于乐器的智能评测方法 |
CN111477249A (zh) * | 2020-04-03 | 2020-07-31 | 北京乐界乐科技有限公司 | 一种用于乐器的智能评分方法 |
CN111540364A (zh) * | 2020-04-21 | 2020-08-14 | 同盾控股有限公司 | 音频识别方法、装置、电子设备及计算机可读介质 |
US11244668B2 (en) * | 2020-05-29 | 2022-02-08 | TCL Research America Inc. | Device and method for generating speech animation |
CN112466285B (zh) * | 2020-12-23 | 2022-01-28 | 北京百度网讯科技有限公司 | 离线语音识别方法、装置、电子设备及存储介质 |
US11551694B2 (en) | 2021-01-05 | 2023-01-10 | Comcast Cable Communications, Llc | Methods, systems and apparatuses for improved speech recognition and transcription |
CN113035177B (zh) * | 2021-03-11 | 2024-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法及装置 |
CN113327585B (zh) * | 2021-05-31 | 2023-05-12 | 杭州芯声智能科技有限公司 | 一种基于深度神经网络的自动语音识别方法 |
US11862147B2 (en) * | 2021-08-13 | 2024-01-02 | Neosensory, Inc. | Method and system for enhancing the intelligibility of information for a user |
CN113823275A (zh) * | 2021-09-07 | 2021-12-21 | 广西电网有限责任公司贺州供电局 | 一种用于电网调度的语音识别方法及*** |
CN114842837B (zh) * | 2022-07-04 | 2022-09-02 | 成都启英泰伦科技有限公司 | 一种快速声学模型训练方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2733955B2 (ja) * | 1988-05-18 | 1998-03-30 | 日本電気株式会社 | 適応型音声認識装置 |
JP4230254B2 (ja) * | 2003-03-12 | 2009-02-25 | 日本電信電話株式会社 | 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 |
JP4950600B2 (ja) * | 2006-09-05 | 2012-06-13 | 日本電信電話株式会社 | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 |
JP2012053218A (ja) | 2010-08-31 | 2012-03-15 | Nippon Hoso Kyokai <Nhk> | 音響処理装置および音響処理プログラム |
JP5738216B2 (ja) * | 2012-02-27 | 2015-06-17 | 日本電信電話株式会社 | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム |
JP5982297B2 (ja) * | 2013-02-18 | 2016-08-31 | 日本電信電話株式会社 | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
US9177550B2 (en) * | 2013-03-06 | 2015-11-03 | Microsoft Technology Licensing, Llc | Conservatively adapting a deep neural network in a recognition system |
CN104143327B (zh) * | 2013-07-10 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN104376842A (zh) * | 2013-08-12 | 2015-02-25 | 清华大学 | 神经网络语言模型的训练方法、装置以及语音识别方法 |
GB2517503B (en) * | 2013-08-23 | 2016-12-28 | Toshiba Res Europe Ltd | A speech processing system and method |
US9401148B2 (en) * | 2013-11-04 | 2016-07-26 | Google Inc. | Speaker verification using neural networks |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
US9324321B2 (en) * | 2014-03-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Low-footprint adaptation and personalization for a deep neural network |
CN104157290B (zh) * | 2014-08-19 | 2017-10-24 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
KR102449837B1 (ko) * | 2015-02-23 | 2022-09-30 | 삼성전자주식회사 | 신경망 학습 방법 및 장치, 및 인식 방법 및 장치 |
-
2017
- 2017-01-26 JP JP2017565514A patent/JP6637078B2/ja active Active
- 2017-01-26 US US16/074,367 patent/US11264044B2/en active Active
- 2017-01-26 CN CN201780009153.4A patent/CN108701452B/zh active Active
- 2017-01-26 WO PCT/JP2017/002740 patent/WO2017135148A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20210193161A1 (en) | 2021-06-24 |
JPWO2017135148A1 (ja) | 2018-11-29 |
CN108701452A (zh) | 2018-10-23 |
US11264044B2 (en) | 2022-03-01 |
WO2017135148A1 (ja) | 2017-08-10 |
CN108701452B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
US10643602B2 (en) | Adversarial teacher-student learning for unsupervised domain adaptation | |
JP6506074B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP5229216B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN110914899A (zh) | 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
JP6509694B2 (ja) | 学習装置、音声検出装置、学習方法およびプログラム | |
US10580432B2 (en) | Speech recognition using connectionist temporal classification | |
JP6831343B2 (ja) | 学習装置、学習方法及び学習プログラム | |
JP2013148697A (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP6495814B2 (ja) | 言語確率算出方法、言語確率算出装置および言語確率算出プログラム | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP6612796B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム | |
JP5738216B2 (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
Zhu et al. | Gaussian free cluster tree construction using deep neural network. | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
JP2021039216A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP4571921B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 | |
Scutelnicu et al. | A speech to text transcription approach based on Romanian Corpus | |
Vaičiulytė et al. | Isolated Word Recognition by Recursive HMM Parameter Estimation Algorithm | |
CN117351947A (zh) | 模型训练方法及装置、计算机可读存储介质、终端 | |
JP2019028390A (ja) | 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム | |
Abdelhamid et al. | Joint optimization on decoding graphs using minimum classification error criterion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180801 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180801 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190813 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6637078 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |