JP6121187B2 - Acoustic model correction parameter estimation apparatus, method and program thereof - Google Patents

Acoustic model correction parameter estimation apparatus, method and program thereof Download PDF

Info

Publication number
JP6121187B2
JP6121187B2 JP2013025865A JP2013025865A JP6121187B2 JP 6121187 B2 JP6121187 B2 JP 6121187B2 JP 2013025865 A JP2013025865 A JP 2013025865A JP 2013025865 A JP2013025865 A JP 2013025865A JP 6121187 B2 JP6121187 B2 JP 6121187B2
Authority
JP
Japan
Prior art keywords
correction parameter
acoustic model
model
correction
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013025865A
Other languages
Japanese (ja)
Other versions
JP2014153680A (en
Inventor
マーク デルクロア
マーク デルクロア
小川 厚徳
厚徳 小川
ソンジュン ハム
ソンジュン ハム
中谷 智広
智広 中谷
中村 篤
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013025865A priority Critical patent/JP6121187B2/en
Publication of JP2014153680A publication Critical patent/JP2014153680A/en
Application granted granted Critical
Publication of JP6121187B2 publication Critical patent/JP6121187B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、入力データから特徴量を抽出し、その特徴量を用いて入力データを予め定義されたクラスタに分類するパターン認識において、クラスタ分類精度を向上させるためのクラスタ分類モデルパラメータ補正技術及び特徴量補正技術に関する。例えば、入力音声から特徴量を抽出し、その特徴量を用いて入力音声を単語列に変換する音声認識における、音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラムに関する。   The present invention relates to a cluster classification model parameter correction technique and a feature for improving cluster classification accuracy in pattern recognition in which a feature amount is extracted from input data, and the input data is classified into a predefined cluster using the feature amount. It relates to quantity correction technology. For example, the present invention relates to an acoustic model correction parameter estimation device, a feature amount correction parameter estimation device, a method and a program thereof in speech recognition in which a feature amount is extracted from input speech and the input speech is converted into a word string using the feature amount.

音声認識装置が実際に置かれる環境は様々である。このため音響モデルを学習するための音声データと実際に入力される音声の特徴は一致しないことが多い。不一致の原因は、周囲の雑音環境、話者の多様性、等であり、これらが音声認識精度を劣化させる。このため、これら周囲雑音環境や話者の多様性に対して頑健(ロバスト)な音声認識技術が求められている。ロバストな音声認識技術として、入力音声と音響モデルとが適合しやすくなるように、入力音声から抽出した特徴ベクトルや音響モデルを補正する技術が知られている。   There are various environments where voice recognition devices are actually placed. For this reason, the voice data for learning the acoustic model and the characteristics of the actually input voice often do not match. The cause of the mismatch is the ambient noise environment, the diversity of speakers, etc., which degrade the speech recognition accuracy. For this reason, there is a need for a speech recognition technology that is robust against these ambient noise environments and speaker diversity. As a robust speech recognition technology, a technology for correcting a feature vector or an acoustic model extracted from an input speech is known so that the input speech and the acoustic model can be easily matched.

入力音声から抽出した特徴ベクトルを補正することでロバストな音声認識を実現する技術として、非特許文献1が知られている。この技術では、dMMI(differenced Maximum Mutual Information)という基準に基づいて特徴ベクトルを補正するための補正パラメータを学習する。また、非特許文献2記載されているように、周囲雑音環境に対して、雑音下音声の雑音抑圧(音声強調)処理を行う場合に、dMMI基準に基づく音響モデルの分散パラメータの補正パラメータを推定する技術がある。   Non-Patent Document 1 is known as a technique for realizing robust speech recognition by correcting feature vectors extracted from input speech. In this technique, a correction parameter for correcting a feature vector is learned based on a standard called dMMI (differenced Maximum Mutual Information). As described in Non-Patent Document 2, when noise suppression (speech enhancement) processing of speech under noise is performed on the ambient noise environment, the correction parameter of the dispersion parameter of the acoustic model based on the dMMI criterion is estimated. There is technology to do.

また、音響モデルを補正する技術として、音響モデルのパラメータを、線形回帰を用いて補正する線形回帰音響モデル適応技術(非特許文献3、4)が知られている。   As a technique for correcting an acoustic model, a linear regression acoustic model adaptation technique (Non-Patent Documents 3 and 4) in which parameters of an acoustic model are corrected using linear regression is known.

デルクロア・マーク,小川厚徳,渡部晋治,中谷智広,中村篤,「dMMI識別基準による特徴量変換の識別学習」,日本音響学会春季研究発表会,March 2012,pp. 121-122Delcroa Mark, Ogawa Atsunori, Watanabe Koji, Nakatani Tomohiro, Nakamura Atsushi, “Distinguishing Learning for Feature Conversion Using dMMI Discrimination Criteria”, Acoustical Society of Japan Spring Meeting, March 2012, pp. 121-122 デルクロア・マーク,小川厚徳,渡部晋治,中谷智広,中村篤,「dMMI識別基準による教師なし動的分散適応」,日本音響学会秋季研究発表会,September 2012,pp. 131-132Delcroa Mark, Ogawa Atsunori, Watanabe Koji, Nakatani Tomohiro, Nakamura Atsushi, "Unsupervised Dynamic Distributed Adaptation Based on dMMI Discrimination Criteria", Acoustical Society of Japan Autumn Meeting, September 2012, pp. 131-132 Leggetter C. J. and Woodland P. C., “Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models”, Computer Speech & Language, 1995, vol. 9, no. 2, pp. 171-185Leggetter C. J. and Woodland P. C., “Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models”, Computer Speech & Language, 1995, vol. 9, no. 2, pp. 171-185 L.F. Uebel and P.C. Woodland, “Discriminative linear transforms for speaker adaptation”, in Proc. ISCA Tutorial and Research Workshop (ITRW) on Adaptation Methods for Speech Recognition, 2001, pp. 61-64.L.F. Uebel and P.C. Woodland, “Discriminative linear transforms for speaker adaptation”, in Proc. ISCA Tutorial and Research Workshop (ITRW) on Adaptation Methods for Speech Recognition, 2001, pp. 61-64.

非特許文献1のようなdMMI基準に基づく補正パラメータの学習には、大量の学習用の音声データ(以下「学習用音声データ」ともいう)とそれに対応する正解シンボルの系列(以下「正解シンボル系列」ともいう)が必要となる。そのため、学習用音声データと正解シンボル系列からなる学習データ、特に、正解シンボル系列を準備する際に多大なコストがかかる。非特許文献2のようなdMMI基準に基づく音響モデルの分散パラメータの動的な補正パラメータの適応技術は、音声強調処理が必要なため、話者の多様性などへの適用が困難であり、汎用性に欠ける。   For correction parameter learning based on the dMMI standard as in Non-Patent Document 1, a large amount of learning speech data (hereinafter also referred to as “learning speech data”) and a corresponding series of correct symbols (hereinafter referred to as “correct symbol series”). Is also required). Therefore, enormous costs are incurred when preparing learning data composed of learning speech data and correct symbol sequences, particularly correct symbol sequences. The adaptation technique of the dynamic correction parameter of the dispersion parameter of the acoustic model based on the dMMI standard as described in Non-Patent Document 2 requires speech enhancement processing, and is difficult to apply to speaker diversity. Lack of sex.

一方、線形回帰パラメータの推定を最尤基準(MLLR(Maximum likelihood linear regression))で行う方法(非特許文献3)または識別的基準の一種である最大相互情報量(Maximum Mutual Information : MMI)基準(MMI−LR)で行う方法(非特許文献4)に基づく補正パラメータの適応技術は、少ない音声データで実行することができるという利点がある。また、正解シンボルを必要としない教師なし適応を行うことも可能であり、この場合は正解シンボルを人手で準備する必要がないという利点がある。   On the other hand, a linear regression parameter is estimated using a maximum likelihood criterion (MLLR (Maximum likelihood linear regression)) (Non-patent Document 3) or a maximum mutual information (Maximum Mutual Information: MMI) criterion, which is a kind of discriminative criterion ( The correction parameter adaptation technique based on the method performed by MMI-LR (Non-Patent Document 4) has an advantage that it can be executed with a small amount of audio data. In addition, it is possible to perform unsupervised adaptation that does not require a correct symbol. In this case, there is an advantage that it is not necessary to prepare the correct symbol manually.

教師あり適応の場合はMMI−LRはMLLRよりも性能が良いと報告されている(非特許文献4)。しかし、MMI−LRの識別基準による音響モデルの教師なし適応方法は、適応データを音声認識した結果を正解ラベルと見做して利用するので、正解ラベル(と見做された音声認識結果)に誤りが含まれることが多い。MMI−LRのような識別基準は、正解シンボルと他の認識仮説を考慮し、直接音響モデルパラメータを最適化することによって、認識性能を大きく向上させる技術であるため、正解シンボルに誤りがある場合はうまく音響モデルパラメータを最適化できず、性能が改善しないか悪化する可能性がある。   In the case of supervised adaptation, it is reported that MMI-LR has better performance than MLLR (Non-patent Document 4). However, the unsupervised adaptation method of the acoustic model based on the identification criteria of the MMI-LR uses the result of speech recognition of the adaptation data as a correct answer label, so that it is used as the correct answer label (the recognized speech recognition result). Often contains errors. An identification criterion such as MMI-LR is a technique that greatly improves the recognition performance by directly optimizing the acoustic model parameters in consideration of the correct symbol and other recognition hypotheses. Cannot successfully optimize the acoustic model parameters and performance may not improve or worsen.

本発明は、正解シンボルの誤りの悪影響を弱める仕組みを導入し、正解シンボルの誤りが多い教師なし適応の場合でも、識別基準による音響モデル適応の精度の低下を防ぎ、識別基準による教師なし音響モデル適応を可能にする音響モデル補正パラメータ推定技術及び特徴量補正パラメータ推定技術を提供することを目的とする。   The present invention introduces a mechanism that weakens the adverse effects of correct symbol errors, and prevents deterioration of the accuracy of acoustic model adaptation due to discrimination criteria even in the case of unsupervised adaptation with many correct symbol errors. An object of the present invention is to provide an acoustic model correction parameter estimation technique and a feature amount correction parameter estimation technique that enable adaptation.

上記の課題を解決するために、本発明の第一の態様によれば、音響モデル補正パラメータ推定装置は、音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、平均ベクトルを補正するための平均補正パラメータを求める。音響モデル補正パラメータ推定装置は、予め求められた音響モデル及び言語モデルが記憶される記憶部と、記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正部と、補正した平均ベクトルを含む音響モデルと言語モデルとに基づき、学習用音声データの特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、正解シンボル系列との相違度を求めるエラーカウント計算部と、言語モデルによって得られる対立候補シンボル系列の言語確率、学習用音声データの特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、微分値に応じて平均補正パラメータを変更することで、平均補正パラメータを更新する補正パラメータ更新部と、を含む。   In order to solve the above problems, according to a first aspect of the present invention, an acoustic model correction parameter estimation device includes a mixed Gaussian distribution model in an acoustic model, and the acoustic model parameter includes a mixed Gaussian distribution. It is assumed that an average vector of Gaussian distribution included in the model is included, and an average correction parameter for correcting the average vector is obtained from the feature amount of the learning speech data and the correct symbol sequence for the learning speech data. The acoustic model correction parameter estimation device includes a storage unit that stores a predetermined acoustic model and a language model, and an acoustic model correction unit that corrects an average vector of the acoustic model stored in the storage unit using an average correction parameter. And a correct symbol sequence at a predetermined granularity for each candidate candidate symbol sequence obtained by speech recognition of the feature quantity of the learning speech data based on the acoustic model including the corrected average vector and the language model. Based on the error count calculation unit for obtaining the degree of difference, the language probability of the opponent candidate symbol series obtained by the language model, the acoustic score obtained by the acoustic model based on the feature amount of the speech data for learning and the opponent candidate symbol series, and the degree of difference, A correction parameter for obtaining the differential value when the objective function of the discriminative learning criterion is differentiated by the average correction parameter. Chromatography including data and differential value calculation unit, by changing the average correction parameter according to the differential value, a correction parameter update section for updating the average correction parameter, a.

上記の課題を解決するために、本発明の他の態様によれば、特徴量補正パラメータ推定装置は、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める。特徴量補正パラメータ推定装置は、予め求められた、ガウス分布で表現された音響モデル及び言語モデルが記憶される記憶部と、学習用音声データの特徴量を音響モデルを表現するガウス分布のクラスタ毎の特徴量補正パラメータにより補正した補正後の特徴量を求める特徴量補正部と、予め定めた粒度で、補正後の特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、正解シンボル系列との相違度を求めるエラーカウント計算部と、言語モデルによって得られる対立候補シンボル系列の言語確率、補正後の特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、微分値に応じて特徴量補正パラメータを変更することで、特徴量補正パラメータを更新する補正パラメータ更新部と、を含む。 In order to solve the above-described problem, according to another aspect of the present invention, the feature amount correction parameter estimation apparatus calculates the recognition speech data from the feature amount of the learning speech data and the correct symbol sequence for the learning speech data. A feature amount correction parameter for correcting the feature amount is obtained. Feature quantity correction parameter estimation apparatus previously obtained, and a storage unit in which the acoustic model and the language model represented by a Gaussian distribution is stored, for each of the Gaussian distribution representing the acoustic model feature quantity of training speech data cluster feature amount correction unit that calculates a characteristic amount after the correction corrected by the characteristic amount correction parameters and, in a predetermined size, the feature amount after correction for each allele candidate symbol sequence obtained by recognizing speech, correct symbol sequence An error count calculation unit for calculating the degree of difference with the language probability of the opponent candidate symbol series obtained by the language model, based on the acoustic score and the degree of difference obtained by the acoustic model based on the corrected feature quantity and the opponent candidate symbol series, Correction parameter differential value calculation to obtain the differential value when the objective function of the discriminative learning criterion is differentiated with the feature value correction parameter If, by changing the characteristic amount correction parameter depending on the differential value, including a correction parameter update section for updating the characteristic quantity correction parameter, a.

上記の課題を解決するために、本発明の他の態様によれば、音響モデル補正パラメータ推定方法は、音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、平均ベクトルを補正するための平均補正パラメータを求める。音響モデル補正パラメータ推定方法は、記憶部には予め求められた音響モデル及び言語モデルが記憶され、記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正ステップと、補正した平均ベクトルを含む音響モデルと言語モデルとに基づき、学習用音声データの特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、正解シンボル系列との相違度を求めるエラーカウント計算ステップと、言語モデルによって得られる対立候補シンボル系列の言語確率、学習用音声データの特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、微分値に応じて平均補正パラメータを変更することで、平均補正パラメータを更新する補正パラメータ更新ステップと、を含む。   In order to solve the above problems, according to another aspect of the present invention, an acoustic model correction parameter estimation method includes an acoustic model including a mixed Gaussian distribution model, and the acoustic model parameter includes a mixed Gaussian distribution model. An average correction parameter for correcting the average vector is obtained from the feature amount of the learning speech data and the correct symbol sequence for the learning speech data. In the acoustic model correction parameter estimation method, the acoustic model and the language model obtained in advance are stored in the storage unit, and the acoustic model correction step of correcting the average vector of the acoustic model stored in the storage unit using the average correction parameter And a correct symbol sequence at a predetermined granularity for each candidate candidate symbol sequence obtained by speech recognition of the feature quantity of the learning speech data based on the acoustic model including the corrected average vector and the language model. Based on the error count calculation step for obtaining the dissimilarity, the language probability of the opposing candidate symbol series obtained by the language model, the acoustic score obtained by the acoustic model and the dissimilarity based on the feature amount of the learning speech data and the opposing candidate symbol series, Find the differential value when the objective function of the discriminative learning criterion is differentiated with the average correction parameter. That includes a correction parameter differential value calculation step, by changing the average correction parameter according to the differential value, a correction parameter update step of updating the average correction parameter, a.

上記の課題を解決するために、本発明の他の態様によれば、特徴量補正パラメータ推定方法は、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める。特徴量補正パラメータ推定方法は、記憶部には予め求められた、ガウス分布で表現された音響モデル及び言語モデルが記憶され、学習用音声データの特徴量を音響モデルを表現するガウス分布のクラスタ毎の特徴量補正パラメータにより補正した補正後の特徴量を求める特徴量補正ステップと、予め定めた粒度で、補正後の特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、正解シンボル系列との相違度を求めるエラーカウント計算ステップと、言語モデルによって得られる対立候補シンボル系列の言語確率、補正後の特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、微分値に応じて特徴量補正パラメータを変更することで、特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含む。 In order to solve the above-described problem, according to another aspect of the present invention, a feature amount correction parameter estimation method is provided that performs recognition of speech data for recognition from a feature amount of speech data for learning and a correct symbol sequence for the speech data for learning. A feature amount correction parameter for correcting the feature amount is obtained. In the feature quantity correction parameter estimation method, an acoustic model and a language model expressed in Gaussian distribution, which are obtained in advance, are stored in the storage unit, and feature quantities of learning speech data are represented for each Gaussian distribution cluster that expresses the acoustic model. a feature amount correction step of calculating a feature amount after correction in the correction by the feature amount correction parameters, in a predetermined size, the feature amount after correction for each allele candidate symbol sequence obtained by recognizing speech, correct symbol sequence An error count calculation step for obtaining a degree of difference, and a language probability of an alternative candidate symbol series obtained by the language model, an acoustic score obtained by the acoustic model based on the corrected feature quantity and the alternative candidate symbol series, and a degree of difference, Correction parameter to obtain the differential value when the objective function of the discriminative learning criterion is differentiated by the feature value correction parameter It includes a differential value calculation step, by changing the characteristic amount correction parameter depending on the differential value, a correction parameter update step of updating the characteristic quantity correction parameter, a.

本発明によれば、正解シンボルの誤りの悪影響を弱めることによって、従来技術よりも適切に音響モデルパラメータまたは特徴量に対する補正パラメータを求めることができるという効果を奏する。   According to the present invention, it is possible to obtain a correction parameter for an acoustic model parameter or a feature amount more appropriately than the related art by weakening an adverse effect of an error of a correct answer symbol.

線形回帰音響モデル適応技術を搭載した音声認識装置の機能構成例を示す図。The figure which shows the function structural example of the speech recognition apparatus carrying a linear regression acoustic model adaptation technique. 線形回帰音響モデル適応技術を搭載した音声認識装置の処理フロー例を示す図。The figure which shows the example of a processing flow of the speech recognition apparatus carrying a linear regression acoustic model adaptation technique. 音響モデル補正パラメータ学習装置の機能構成例を示す図。The figure which shows the function structural example of an acoustic model correction parameter learning apparatus. 音響モデル補正パラメータ学習装置の処理フロー例を示す図。The figure which shows the example of a processing flow of an acoustic model correction parameter learning apparatus. 第一実施形態に係る音響モデル補正パラメータ学習装置の構成例を示す図。The figure which shows the structural example of the acoustic model correction parameter learning apparatus which concerns on 1st embodiment. 第一実施形態に係る音響モデル補正パラメータ学習装置の処理フロー例を示す図。The figure which shows the example of a processing flow of the acoustic model correction parameter learning apparatus which concerns on 1st embodiment. 補正した特徴量に基づき音声認識を行う音声認識装置の機能構成例を示す図。The figure which shows the function structural example of the speech recognition apparatus which performs speech recognition based on the corrected feature-value. 補正した特徴量に基づき音声認識を行う音声認識装置の処理フロー例を示す図。The figure which shows the example of a processing flow of the speech recognition apparatus which performs speech recognition based on the corrected feature-value. 第二実施形態に係る特徴量補正パラメータ学習装置の構成例を示す図。The figure which shows the structural example of the feature-value correction parameter learning apparatus which concerns on 2nd embodiment. 第二実施形態に係る特徴量補正パラメータ学習装置の処理フロー例を示す図。The figure which shows the example of a processing flow of the feature-value correction parameter learning apparatus which concerns on 2nd embodiment.

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。   Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following description, the symbol “^” or the like used in the text should be described immediately above the character immediately before, but it is described immediately after the character due to restrictions on text notation. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.

まず、第一実施形態について説明する前に、まず、音響モデル適応技術を搭載した音声認識装置について説明する。   First, before describing the first embodiment, a speech recognition device equipped with an acoustic model adaptation technique will be described first.

<音響モデル適応技術を搭載した音声認識装置90>
図1に線形回帰音響モデル適応技術を搭載した音声認識装置90の機能構成例、図2にその処理フロー例を示す。音声認識装置90は、特徴量抽出部91、単語列探索部92、記憶部93、音響モデル補正部94から構成される。
<Voice recognition device 90 equipped with acoustic model adaptation technology>
FIG. 1 shows an example of a functional configuration of a speech recognition apparatus 90 equipped with a linear regression acoustic model adaptation technique, and FIG. 2 shows an example of its processing flow. The speech recognition apparatus 90 includes a feature amount extraction unit 91, a word string search unit 92, a storage unit 93, and an acoustic model correction unit 94.

(記憶部93)
記憶部93には、予め音響モデルと言語モデルが記憶されている。音響モデルは、音声の音響的特徴をモデル化したものである。言語モデルは音素や単語といった多数のシンボル系列から構成されている。通常、音声認識用音響モデルでは、各音素をLeft to rightのHMM(Hidden Markov Model:隠れマルコフモデル)で、HMM状態の出力確率分布をGMM(Gaussian Mixture Model:混合ガウス分布モデル)で表現する。そのため、実際に音響モデルとして記憶部93に記憶されているのは、音素などの各シンボルにおけるHMMの状態遷移確率、GMMの混合重み因子、及びガウス分布の平均ベクトルμ及び共分散行列(以下「分散パラメータ」ともいう)Σ等となる。ここで、MはGMMに含まれるガウス分布の総数であり、mは、GMMのガウス分布のインデックスであり、m=1,2,…,Mである。これらを音響モデルパラメータと呼び、その集合をΛとする。言語モデルは音素や単語といった多数のシンボル系列から構成されており、図中のP(S)は言語モデルによって得られる対立候補シンボル系列Sの確率(以下「言語確率」ともいう)である。なお、対立候補シンボル系列Sとは音声認識結果となりうるシンボル系列であり、シンボル系列とは音素や単語等からなるシンボルの系列である。
(Storage unit 93)
The storage unit 93 stores an acoustic model and a language model in advance. The acoustic model is a model of acoustic features of speech. The language model is composed of many symbol sequences such as phonemes and words. Normally, in an acoustic model for speech recognition, each phoneme is represented by a Left to right HMM (Hidden Markov Model) and an output probability distribution of the HMM state is represented by a GMM (Gaussian Mixture Model). Therefore, what is stored actually in the storage unit 93 as an acoustic model, the state transition probability of the HMM in each symbol, such as phonemes, mixture weight factors GMM, and mean vector mu m and the covariance matrix of the Gaussian distribution (hereinafter It is also called “dispersion parameter”) Σ m or the like. Here, M is the total number of Gaussian distributions included in the GMM, m is an index of the Gaussian distribution of the GMM, and m = 1, 2,. These are called acoustic model parameters, and the set is Λ. The language model is composed of a large number of symbol sequences such as phonemes and words, and P (S j ) in the figure is the probability of the opposing candidate symbol sequence S j obtained by the language model (hereinafter also referred to as “language probability”). . The opposing candidate symbol series S j is a symbol series that can be a speech recognition result, and the symbol series is a series of symbols including phonemes and words.

(特徴量抽出部91)
特徴量抽出部91は、認識用音声データを読み込み(s93)、音声の特徴量を抽出する(s95)。特徴量としては、例えば、MFCC(Mel Frequency Cepstral Coefficient)、ΔMFCC、ΔΔMFCC、対数パワー、Δ対数パワー等があり、これらが10〜100次元程度の特徴量ベクトルoを構成する。さらに、時系列の特徴量ベクトルである特徴量ベクトル系列Oを以下のように表現できる。
(Feature Extraction Unit 91)
The feature quantity extraction unit 91 reads the recognition voice data (s93), and extracts the voice feature quantity (s95). Examples of the feature quantity include MFCC (Mel Frequency Cepstral Coefficient), ΔMFCC, ΔΔMFCC, logarithmic power, Δlogarithmic power, and the like, which constitute a feature quantity vector o of about 10 to 100 dimensions. Further, a feature vector sequence O that is a time-series feature vector can be expressed as follows.

Figure 0006121187
Figure 0006121187

ただし、Nはフレームの数、nは1からNの整数、Rは実数の集合である。つまり、Oは1からNフレーム目までのD次元特徴量ベクトルで表現されるデータである。例えば、分析フレーム幅は30ms程度、分析フレームシフト幅は10ms程度で分析が実行される。 Here, N is the number of frames, n is an integer from 1 to N, and R is a set of real numbers. That is, O is data represented by D-dimensional feature quantity vectors from the first to the Nth frame. For example, the analysis is executed with an analysis frame width of about 30 ms and an analysis frame shift width of about 10 ms.

(音響モデル補正部94)
音響モデル補正部94は、補正前の(記憶部93に記憶された)音響モデルパラメータΛを含む音響モデルと、予め学習し記憶部93に記憶しておいた音響モデル補正パラメータθ^を読み込み(s91、s94)、音響モデル補正パラメータθ^を用いて、音響モデルパラメータΛを含む音響モデルを補正し(s96)、補正した音響モデルパラメータΛ^を単語列検索部92に送る。この例では、線形回帰音響モデル適応は以下の式(2)のように、音響モデルパラメータに含まれる平均ベクトルμ={μ,μ,…,μ}を補正する。
(Acoustic model correction unit 94)
The acoustic model correction unit 94 reads the acoustic model including the acoustic model parameter Λ before being corrected (stored in the storage unit 93) and the acoustic model correction parameter θ ^ previously learned and stored in the storage unit 93 ( s91, s94), the acoustic model correction parameter θ ^ is used to correct the acoustic model including the acoustic model parameter Λ (s96), and the corrected acoustic model parameter Λ ^ is sent to the word string search unit 92. In this example, linear regression acoustic model adaptation corrects the mean vector μ = {μ 1 , μ 2 ,..., Μ M } included in the acoustic model parameters as shown in the following equation (2).

Figure 0006121187
Figure 0006121187

ただし、μ^は補正後の音響モデルパラメータにおけるm番目のガウス分布の平均ベクトル、Aは平均ベクトルに対する変換行列、bは平均ベクトルに対するバイアスベクトルである。’はベクトルまたは行列の転置を表す。今後、A,bもしくはWを平均補正パラメータともいう。また、式(2)は平均ベクトルμの補正の例を示したが、分散パラメータΣについても同様の補正を行うことができる。音響モデルパラメータを補正するためのパラメータを音響モデル補正パラメータと呼び、平均補正パラメータや分散パラメータを補正するためのパラメータ(以下「分散補正パラメータ」ともいう)は音響モデル補正パラメータに含まれるものとする。この例では、音響モデル補正パラメータθは平均補正パラメータA,bのみからなるため、平均補正パラメータA,bのことを音響モデル補正パラメータθ=(A,b)ともいう。平均補正パラメータA,bを、変換行列Aとバイアスベクトルbとからなる行列として表現した場合をW=[A b]とし、変換行列Aとバイアスベクトルbとからなる集合として表現した場合をθ=(A,b)とする。 Here, μ ^ m is an average vector of the mth Gaussian distribution in the corrected acoustic model parameter, A is a transformation matrix for the average vector, and b is a bias vector for the average vector. 'Represents the transpose of a vector or matrix. In the future, A, b, or W will also be referred to as an average correction parameter. Further, Equation (2) is an example of a correction of the mean vector mu m, it is possible to perform the similar correction for the dispersion parameter sigma m. Parameters for correcting acoustic model parameters are called acoustic model correction parameters, and parameters for correcting average correction parameters and dispersion parameters (hereinafter also referred to as “dispersion correction parameters”) are included in the acoustic model correction parameters. . In this example, since the acoustic model correction parameter θ includes only the average correction parameters A and b, the average correction parameters A and b are also referred to as acoustic model correction parameters θ = (A, b). When the average correction parameters A and b are expressed as a matrix made up of the conversion matrix A and the bias vector b, W = [A b], and when expressed as a set made up of the conversion matrix A and the bias vector b, θ = (A, b).

より詳細な補正を行うため、音響モデル補正パラメータはよく音響モデルのガウス分布のクラスタ毎に推定される。その場合は、補正後の平均ベクトルμ^は式(3)のようになる。クラスタの作り方は、例えば非特許文献3のような方法がある。 In order to perform more detailed correction, the acoustic model correction parameter is often estimated for each cluster of the Gaussian distribution of the acoustic model. In this case, the corrected average vector μ ^ m is as shown in Equation (3). As a method for creating a cluster, for example, there is a method as described in Non-Patent Document 3.

Figure 0006121187
Figure 0006121187

kはガウス分布のクラスタのインデックス、A,bはクラスタkの平均補正パラメータである。クラスタ毎に平均補正パラメータを推定した場合、θ=(A,b)とし、Kをクラスタの総数とし、k=1,2,…,Kとし、θ=(θ,θ,…,θ)とする。また、W=[A]とし、W=(W,W,…,W)とする。 k is an index of a Gaussian cluster, and A k and b k are average correction parameters of the cluster k. When the average correction parameter is estimated for each cluster, θ k = (A k , b k ), K is the total number of clusters, k = 1, 2,..., K, and θ = (θ 1 , θ 2 , ..., θ K ). Also, W k = [A k b k ] and W = (W 1 , W 2 ,..., W K ).

(単語列探索部92)
単語列探索部92は、音響モデル補正部94から取得した補正後の音響モデルパラメータΛ^に基づき、特徴量ベクトル系列Oに対するJ個の対立候補シンボル系列Sを生成して、対立候補シンボル系列S毎に音響スコアを算出する。ただし、j=1,2,…,Jであり、Jは1以上の整数である。さらに、単語列探索部92は、予め言語モデルを記憶部93から読み込んでおき(s92)、この言語モデルに基づき、対立候補シンボル系列S毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、J個の対立候補シンボル系列Sの中から、認識用音声データに対応する文として最も確からしい(最も音響スコアと言語スコアとを統合したスコアが高い)対立候補シンボル系列を探索し(s97)、その対立候補シンボル系列を認識結果(単語列)S^として出力する(s98)。
(Word string search unit 92)
The word string search unit 92 generates J conflict candidate symbol sequences S j for the feature vector sequence O based on the corrected acoustic model parameters Λ ^ acquired from the acoustic model correction unit 94, and the conflict candidate symbol sequences An acoustic score is calculated for each S j . However, j = 1, 2,..., J, and J is an integer of 1 or more. Further, the word string search unit 92 reads a language model from the storage unit 93 in advance (s92), and calculates a language score for each of the conflict candidate symbol series S j based on the language model. Further, by integrating the acoustic score and the language score, it is most likely as a sentence corresponding to the speech data for recognition from among the J conflict candidate symbol sequences S j (the most integrated score of the acoustic score and the language score). The conflict candidate symbol sequence is searched (s97), and the conflict candidate symbol sequence is output as a recognition result (word string) S ^ (s98).

<音響モデル補正パラメータ学習装置80>
上記の音声認識装置90では、音響モデルパラメータを、線形回帰を用いて補正する。つまり、音響モデル補正部94で用いる平均補正パラメータθ^は線形回帰パラメータである。
<Acoustic Model Correction Parameter Learning Device 80>
In the speech recognition apparatus 90 described above, the acoustic model parameters are corrected using linear regression. That is, the average correction parameter θ ^ used in the acoustic model correction unit 94 is a linear regression parameter.

線形回帰パラメータを学習する方法として、線形回帰パラメータの推定を最尤基準(MLLR(Maximum likelihood linear regression))で行う方法(非特許文献3)と、識別的基準の一種である最大相互情報量(Maximum Mutual Information : MMI)基準(MMI−LR)で行う方法(非特許文献4)が知られている。最尤基準(非特許文献3)よりも識別的基準(非特許文献4)により推定された補正パラメータを用いる方が、最終的な音声認識精度が向上することが多い。   As a method of learning linear regression parameters, a method of performing estimation of linear regression parameters using a maximum likelihood criterion (MLLR (Maximum likelihood linear regression)) (non-patent document 3) and a maximum mutual information amount that is a kind of discriminative criterion ( A method (Non-Patent Document 4) is known which is performed based on Maximum Mutual Information (MMI) standard (MMI-LR). In many cases, the final speech recognition accuracy is improved by using the correction parameter estimated by the discriminative criterion (Non-Patent Document 4) rather than the maximum likelihood criterion (Non-Patent Document 3).

以下では、非特許文献4の音響モデル補正パラメータ学習装置80の具体的な処理を、図3及び図4を用いて説明する。図3に音響モデル補正パラメータ学習装置80の機能構成例、図4にその処理フロー例を示す。音響モデル補正パラメータ学習装置80は、特徴量抽出部81、音響モデル補正パラメータ計算部83及び記憶部93を備える。音響モデル補正パラメータ学習装置80は、学習用音声データとその学習用音声データに対する正解シンボル系列Sとからなる学習データを入力とし、音響モデル補正パラメータθ^を出力する。 Hereinafter, specific processing of the acoustic model correction parameter learning device 80 of Non-Patent Document 4 will be described with reference to FIGS. 3 and 4. FIG. 3 shows a functional configuration example of the acoustic model correction parameter learning device 80, and FIG. 4 shows a processing flow example thereof. The acoustic model correction parameter learning device 80 includes a feature amount extraction unit 81, an acoustic model correction parameter calculation unit 83, and a storage unit 93. Acoustic model correction parameter learning unit 80 inputs the training data comprising the correct symbol sequence S r training speech data and for the training speech data, and outputs the acoustic model correction parameter theta ^.

(特徴量抽出部81)
特徴量抽出部81は、学習用音声データを読み込み(s83)、音声の特徴量ベクトル系列Oを抽出する(s85)。特徴量抽出の具体的な処理は、上述の音声認識装置90の特徴量抽出部91と同じである。
(Feature Extraction Unit 81)
The feature amount extraction unit 81 reads the learning speech data (s83), and extracts the speech feature amount vector series O (s85). The specific processing of feature amount extraction is the same as that of the feature amount extraction unit 91 of the voice recognition device 90 described above.

(音響モデル補正パラメータ計算部83)
音響モデル補正パラメータ計算部83は、記憶部93から音響モデルと言語モデルとを読み込み(s81、s82)、さらに、正解シンボル系列Sを読み込み(s84)、特徴量抽出部81で抽出した音声の特徴量Oを用いて、音響モデル補正パラメータθ=(θ,θ,…,θ)を推定し(s86)、出力する(s87)。音響モデル補正パラメータθは、適応データ(学習用音声データの特徴量ベクトル系列O)とその特徴量ベクトル系列Oに対応する正解シンボル系列Sとを用いて、次式のように目的関数Fθを最大化する形で推定される。
(Acoustic model correction parameter calculation unit 83)
Acoustic model correction parameter calculation unit 83 reads the acoustic model and a language model from the storage unit 93 (s81, s82), further reads the correct symbol sequence S r (s84), the voice extracted by the feature amount extraction unit 81 The acoustic model correction parameter θ = (θ 1 , θ 2 ,..., Θ K ) is estimated using the feature amount O (s86) and output (s87). The acoustic model correction parameter θ is obtained by using objective data F θ using the adaptive data (feature vector series O of learning speech data) and the correct symbol series S r corresponding to the feature vector series O as shown in the following equation. Is estimated in a way that maximizes.

Figure 0006121187
Figure 0006121187

非特許文献4では、目的関数としてMMI基準を用いるので、式(4)の代わりに式(5)を使用する。 In Non-Patent Document 4, since the MMI criterion is used as the objective function, Expression (5) is used instead of Expression (4).

Figure 0006121187
Figure 0006121187

ここで、MMI目的関数は次式のように書ける。 Here, the MMI objective function can be written as:

Figure 0006121187
Figure 0006121187

ここで、Sは特徴量ベクトル系列Oを音声認識することによって得られる対立候補シンボル系列、P(S)及びP(S)は言語モデルによってそれぞれ得られる正解シンボル系列Sの言語確率及び対立候補シンボル系列Sの言語確率、pΛ(O|S)及びpΛ(O|S)はそれぞれ正解シンボル系列S及び対立候補シンボル系列Sにおいて音響モデル(HMM)によって得られる音響スコア、ψは音響スコアに対するスケーリングパラメータ、ηは言語確率に対するスケーリングパラメータを表す。 Here, S j is an opposing candidate symbol sequence obtained by speech recognition of the feature quantity vector sequence O, and P (S r ) and P (S j ) are language probabilities of correct symbol sequences S r respectively obtained by the language model. and opposition candidate symbol sequence S j language probability, p lambda resulting in | | (S j O) correct each symbol sequence S r and opposition candidate symbol sequence S j by the acoustic model (HMM) (O S r) and p lambda The acoustic score to be obtained, ψ represents a scaling parameter for the acoustic score, and η represents a scaling parameter for the language probability.

また、音響スコアpΛ(O|S)は以下の式で書くことができる。 The acoustic score p Λ (O | S j ) can be written by the following equation.

Figure 0006121187
Figure 0006121187

ただし、Tは適応データ(学習用音声データの特徴量ベクトル系列O)の特徴量ベクトル系列の長さ、tはフレーム番号またはそのフレームに対応する時刻(以下「フレーム時刻」ともいう)を表し、1からTの整数である。つまり、特徴量ベクトル系列Oは1からTフレーム目までのD次元特徴量ベクトルで表現されるデータである(式(1)参照)。また、{n1:T}は対立候補シンボル系列Sに対応するHMM状態シーケンス(フレーム時刻1からTまで)であり、Σ{n1:T}(ただし、下付添字{n1:T}は{n1:T}を表す)は対立候補シンボル系列Sに対応する可能なあらゆるHMM状態シーケンスの足し算、p(o|n)はフレーム時刻tにおけるHMM状態nから特徴量ベクトルoが出力される確率(なお、HMM状態は一般にGMMで表現される)、p(n|nt−1)はフレーム時刻t−1におけるあるHMM状態nt−1からフレーム時刻tにおけるあるHMM状態nへの遷移確率である。 Where T represents the length of the feature vector sequence of the adaptive data (feature vector sequence O of the speech data for learning), t represents the frame number or the time corresponding to the frame (hereinafter also referred to as “frame time”), It is an integer from 1 to T. That is, the feature vector sequence O is data represented by D-dimensional feature vectors from the 1st to the Tth frames (see Expression (1)). {N 1: T } is an HMM state sequence (from frame time 1 to T) corresponding to the conflict candidate symbol sequence S j , and Σ {n1: T} (where the subscript {n1: T} is {N 1: T } represents the sum of all possible HMM state sequences corresponding to the conflict candidate symbol sequence S j , and p (o t | n t ) is the feature vector o from the HMM state n t at frame time t. The probability that t will be output (note that the HMM state is generally expressed by GMM), and p (n t | n t−1 ) is from a certain HMM state n t−1 at frame time t −1 to frame time t. This is the transition probability to the HMM state n t .

〔第一実施形態〕
[第一実施形態のポイント]
しかし、前述の通り、MMI−LRの識別基準による音響モデルの教師なし適応方法は、適応データを音声認識した結果を正解ラベルと見做して利用するので、正解ラベル(と見做された音声認識結果)に誤りが含まれることが多く、うまくモデルパラメータを最適化できず、性能が改善しないか悪化する可能性がある。
[First embodiment]
[Points of first embodiment]
However, as described above, the unsupervised adaptation method of the acoustic model based on the MMI-LR identification standard uses the result of speech recognition of the adaptation data as the correct answer label, and therefore uses the correct answer label (the voice that is considered as the correct answer label). (Recognition results) often contain errors, model parameters cannot be optimized well, and performance may not improve or deteriorate.

そこで、第一実施形態では、正解シンボルの誤りを考慮し、識別学習による音響モデル補正パラメータ推定を行うために、音響モデル補正パラメータを推定する基準として参考文献1及び参考文献2に記述されているdMMI導関数基準(differenced MMI:dMMI)を応用する。
[参考文献1] McDermott,E., Watanabe, S. and Nakamura,A., “Discriminative training based on an integrated view of MPE and MMI in margin and error space”, In Proc. ICASSP'10, 2010, pp. 4894 - 4897
[参考文献2]特願2009−198362号公報
Therefore, in the first embodiment, reference 1 and reference 2 are described as criteria for estimating the acoustic model correction parameter in order to estimate the acoustic model correction parameter by discriminating learning in consideration of the error of the correct symbol. The dMMI derivative criterion (differenced MMI: dMMI) is applied.
[Reference 1] McDermott, E., Watanabe, S. and Nakamura, A., “Discriminative training based on an integrated view of MPE and MMI in margin and error space”, In Proc. ICASSP'10, 2010, pp. 4894-4897
[Reference 2] Japanese Patent Application No. 2009-198362

すなわち、dMMI−LRを開発した。以下で数式を用いてdMMI−LRによる音響モデル補正パラメータの推定方法について述べる。   That is, dMMI-LR was developed. Hereinafter, an estimation method of the acoustic model correction parameter by dMMI-LR will be described using mathematical formulas.

まず、以下のΨ関数を以下のように定義する。   First, the following Ψ function is defined as follows.

Figure 0006121187
Figure 0006121187

ここでσはマージンパラメータ、εj,rは正解シンボル系列Sに対する対立候補シンボル系列Sの相違度(例えば、単語エラー数、音素エラー数等)を表している。すなわち、マージンパラメータσは相違度εj,rに応じて音響モデル補正パラメータ推定時に対立候補シンボル系列Sをどれだけ重視するかをコントロールするパラメータである。マージンパラメータσは、−∞〜+∞の値を取り得る。マージンパラメータσがマイナスの値を取れば、小さい相違度εj,rを持つ対立候補シンボル系列Sほど、すなわち、エラー数が少ない対立候補シンボル系列Sほど重視される。逆に、マージンパラメータσがプラスの値を取れば、大きい相違度εj,rを持つ対立候補シンボル系列Sほど、すなわち、エラー数が多い対立候補シンボル系列Sほど重視されることになる。このΨ関数を用いると、dMMI識別学習基準の目的関数FdMMI θ,σ1,σ2(ただし、下付添字σ1、σ2は、σ、σを表す)は次式のように書くことができる。 Here, σ represents a margin parameter, and ε j, r represents the degree of difference (for example, the number of word errors, the number of phoneme errors, etc.) of the opposing candidate symbol series S j with respect to the correct symbol series S r . That is, the margin parameter σ is a parameter for controlling how much the opposing candidate symbol sequence S j is emphasized when the acoustic model correction parameter is estimated according to the dissimilarity ε j, r . The margin parameter σ can take a value of −∞ to + ∞. If the margin parameter σ takes a negative value, the opponent candidate symbol series S j having a small difference ε j, r is emphasized, that is, the opponent candidate symbol series S j having a smaller number of errors. On the other hand, if the margin parameter σ takes a positive value, the opponent candidate symbol series S j having a large difference ε j, r , that is, the opponent candidate symbol series S j having a larger number of errors is more important. . Using this Ψ function, the objective function F dMMI θ, σ1, σ2 (where subscripts σ1, σ2 represent σ 1 , σ 2 ) can be written as follows: .

Figure 0006121187
Figure 0006121187

分子の第一マージンパラメータσはマイナスの値を取る(σ<0)。すなわち、分子では相違度εj,rが小さい対立候補シンボル系列Sほど重視される。一方、分母の第二マージンパラメータσはプラスの値を取る(σ>0)。すなわち、分母では相違度εj,rが大きい対立候補シンボル系列Sほど重視される。 The first margin parameter σ 1 of the numerator takes a negative value (σ 1 <0). In other words, in the numerator, the opposition candidate symbol series S j with a smaller difference ε j, r is more important. On the other hand, the second margin parameter σ 2 of the denominator takes a positive value (σ 2 > 0). That is, in the denominator, the opposite candidate symbol series S j having a larger difference ε j, r is more important.

このdMMI識別学習基準は、第一マージンパラメータσ及び第二マージンパラメータσを調整することによって、MPE(Minimum Phone Error)識別学習基準(参考文献3)またはBMMI(boosted-MMI)識別学習基準(参考文献4)に近づく。
[参考文献3]Povey, D., Woodland, P.C.,“Minimum Phone Error and I-smoothing for improved discriminative training”, In Proc. ICASSP, 2002, vol.1,pp.I-105-I-108
[参考文献4]Povey, D., Kanevsky, D.,Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP, 2008, pp.4057-4060,
ここでσは、例えば、+0.1という0に近い小さなプラスの値に設定しておけばよい(参考文献5)。
[参考文献5]Saon, G. and Povey, D., “Penalty function maximization for large margin HMM training”, In Proc. Interspeech, 2008, pp.920-923
例えば、σを大きなマイナスの値(理論的には−∞、実装上は、例えば、−50)に設定する。このとき、次式に示すように、dMMI識別学習基準の目的関数FdMMI θ,σ1,σ2はBMMI識別学習基準の目的関数FBMMI θ,σ2に近づく。
This dMMI discriminative learning criterion is adjusted by adjusting the first margin parameter σ 1 and the second margin parameter σ 2 , so that the MPE (Minimum Phone Error) discriminative learning criterion (reference 3) or the BMMI (boosted-MMI) discriminative learning criterion Approach (Reference 4).
[Reference 3] Povey, D., Woodland, PC, “Minimum Phone Error and I-smoothing for improved discriminative training”, In Proc. ICASSP, 2002, vol.1, pp.I-105-I-108
[Reference 4] Povey, D., Kanevsky, D., Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc ICASSP, 2008, pp.4057-4060,
Here, σ 2 may be set to a small positive value close to 0, for example, +0.1 (reference document 5).
[Reference 5] Saon, G. and Povey, D., “Penalty function maximization for large margin HMM training”, In Proc. Interspeech, 2008, pp.920-923
For example, σ 1 is set to a large negative value (theoretically −∞, for example, −50 for implementation). At this time, as shown in the following equation, the objective function F dMMI θ, σ1, σ2 of the dMMI discrimination learning criterion approaches the objective function F BMMI θ, σ2 of the BMMI discrimination learning criterion.

Figure 0006121187
Figure 0006121187

式(10)から明らかなように、BMMI識別学習基準の目的関数FBMMI θ,σ2では、分母の第二マージンパラメータσのみが残る。すなわちBMMI識別学習基準による音響モデル補正パラメータ推定では、エラー数が多い(相違度εj,rが大きい)対立候補シンボル系列Sほど重視される(参考文献6参照)。
[参考文献6]Povey, D., Kanevsky, D.,Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP, 2008, pp.4057-4060
As is clear from the equation (10), only the second margin parameter σ 2 of the denominator remains in the objective function F BMMI θ, σ2 of the BMMI discrimination learning standard. In other words, in the acoustic model correction parameter estimation based on the BMMI discrimination learning criterion, the more likely candidate symbol series S j has a greater number of errors (difference ε j, r is larger) (see Reference 6).
[Reference 6] Povey, D., Kanevsky, D., Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc ICASSP, 2008, pp.4057-4060

BMMIの分子は直接正解シンボルの貢献が考慮されるので、正解シンボルの誤りの影響を受けやすい。一方、dMMIの場合、σをより大きい値(例えば−10)に設定することによって、分子では認識の対立候補シンボル系列Sの貢献の足し算になる。マージンexp(ψσεj,r)を重みとして、正解シンボル系列Sに近い対立候補シンボル系列S(正解シンボルSに対する誤りが少ない)が考慮される。そのため、分子には、正解シンボル系列Sだけでなく、それに近い対立候補シンボル系列Sも考慮されることによって、正解シンボルの誤りの悪影響を弱めることができる。その結果、正解シンボル系列Sに誤りがあっても、音響モデル補正パラメータを識別基準により安定して精度よく推定することができる。マージンパラメータσの値は、分子でどのぐらいの対立候補シンボル系列Sを考慮するかを決める値である。σの値はタスクの認識率などに依存する。ただし、例えば−3〜−10の間の値に設定すると良い。 Since the BMMI numerator directly considers the contribution of the correct symbol, it is susceptible to the error of the correct symbol. On the other hand, in the case of dMMI, by setting σ 1 to a larger value (for example, −10), in the numerator, the contribution of the opposing candidate symbol sequence S j for recognition is added. Considering the margin exp (ψσ 1 ε j, r ) as a weight , an alternative candidate symbol sequence S j close to the correct symbol sequence S r (there is little error with respect to the correct symbol S r ) is considered. Therefore, not only the correct symbol sequence S r but also the contending candidate symbol sequence S j close to the correct symbol sequence S r is considered in the numerator, so that the adverse effect of the error of the correct symbol can be reduced. As a result, even if there is an error in the correct symbol series Sr , it is possible to estimate the acoustic model correction parameter stably and accurately with the identification criterion. The value of the margin parameter σ 1 is a value that determines how many conflict candidate symbol sequences S j are considered in the numerator. The value of σ 1 depends on the task recognition rate and the like. However, it may be set to a value between −3 and −10, for example.

ここで、音響モデル補正パラメータ群の集合θは、次式のように、上記のdMMI識別学習基準の目的関数FdMMI θ,σ1,σ2を最大化するように推定される。 Here, the set θ of acoustic model correction parameter groups is estimated so as to maximize the objective function F dMMI θ, σ1, σ2 of the dMMI discrimination learning criterion as shown in the following equation.

Figure 0006121187
Figure 0006121187

ここでは、Wの推定方法について述べる。dMMI識別学習基準の目的関数FdMMI θ,σ1,σ2を最大化するようなWを求めるために、まず目的関数FdMMI θ,σ1,σ2をWで微分する。ここで、対立候補シンボル系列Sが単語(または音素)ラティスの形態で表現される場合、ラティス上で勾配を計算することにより、FdMMI θ,σ1,σ2をWで微分した値は以下のように表現される。 Here, we describe a method of estimating W k. In order to obtain W k that maximizes the objective function F dMMI θ, σ1, σ2 of the dMMI discrimination learning criterion, first, the objective function F dMMI θ, σ1, σ2 is differentiated by W k . Here, when the opposing candidate symbol series S j is expressed in the form of a word (or phoneme) lattice, the value obtained by differentiating F dMMI θ, σ1, and σ2 by W k by calculating the gradient on the lattice is as follows: It is expressed as

Figure 0006121187
Figure 0006121187

ここで、qはフレーム時刻tにおけるラティスのアークを、nはフレーム時刻tにおける音響モデル(例えば、HMMからなる音響モデル)の状態を、mは状態nにおけるガウス分布のインデックスを表す(例えば、HMMの状態の出力確率分布はGMMで表現されるものとする)。また、γdMMI qt(ただし、下付添字qtはqを表す)は単語(または音素)ラティスのアークqの事後確率であり、同じラティスについて、第一マージンパラメータσまたは第二マージンパラメータσを使って、二度、Forward-Backward algorithmを実行して計算される(参考文献7参照)。
[参考文献7]E. McDermott, T.J. Hazen, J.L. Roux, A. Nakamura and S. Katagiri, “Discriminative Training for Large-Vocabulary Speech Recognition Using Minimum Classification Error”, IEEE Trans. ASLP, 2007, vol. 15, no. 1, pp. 203 - 223
γnt,m(t)、Σnt,m及びμnt,m(ただし、それぞれ下付添字ntはnを表す)は、それぞれ状態nのガウス分布mの事後確率、共分散行列及び平均ベクトルである。これらの値の求め方は、例えば、参考文献8に詳述されている。
[参考文献8]V. Valtchev,J.J. Odell, P.C. Woodland, and S.J. Young, “Lattice-based discriminative training for large vocabulary speech recognition”, In Proc. ICSLP,1996, vol. 2, pp.605-609
Here, q t represents a lattice arc at frame time t, n t represents the state of an acoustic model (for example, an acoustic model made of HMM) at frame time t, and m represents an index of a Gaussian distribution at state n t ( For example, the output probability distribution of the HMM state is expressed by GMM). Also, gamma DMMI qt (where subscript qt represents q t) is a word (or phoneme) is a posterior probability of Lattice arc q t, for the same lattice, the first margin parameter sigma 1 or the second margin parameter It is calculated by executing the Forward-Backward algorithm twice using σ 2 (see Reference 7).
[Reference 7] E. McDermott, TJ Hazen, JL Roux, A. Nakamura and S. Katagiri, “Discriminative Training for Large-Vocabulary Speech Recognition Using Minimum Classification Error”, IEEE Trans. ASLP, 2007, vol. 15, no 1, pp. 203-223
gamma nt, m (t), sigma nt, m and mu nt, m (wherein each subscript nt represents n t) is the posterior probability of the Gaussian m of the respective states n t, covariance matrix and mean Is a vector. The method of obtaining these values is described in detail in Reference Document 8, for example.
[Reference 8] V. Valtchev, JJ Odell, PC Woodland, and SJ Young, “Lattice-based discriminative training for large vocabulary speech recognition”, In Proc. ICSLP, 1996, vol. 2, pp.605-609

例えばR−Prop(参考文献9)のような勾配法を用いる場合は、微分値(∂FdMMI θ,σ1,σ2/∂W)が0に近づくようにWを更新すればよい。または例えば、Extended-Baum Welchのようなアルゴリズム(参考文献3)を用いて、Wを更新することもできる。このように、上記の式が得られれば、平均補正パラメータWは容易に推定することが可能である。
[参考文献9]Riedmiller,M. and Braun, H., “A direct adaptive method for faster backpropagation learning: The RPROP algorithm”, InProc. ICNN’93, 1993, pp. 586-591
For example, when a gradient method such as R-Prop (reference document 9) is used, W k may be updated so that the differential value (∂F dMMI θ, σ1, σ2 / ∂W k ) approaches zero. Alternatively, for example, W k can be updated using an algorithm such as Extended-Baum Welch (reference document 3). Thus, if the above equation is obtained, the average correction parameter W k can be easily estimated.
[Reference 9] Riedmiller, M. and Braun, H., “A direct adaptive method for faster backpropagation learning: The RPROP algorithm”, InProc. ICNN'93, 1993, pp. 586-591

<音響モデル補正パラメータ学習装置100>
以上の原理に基づく、第一実施形態の音響モデル補正パラメータ学習装置100の構成について説明する。装置構成図を図5に、処理フローを図6に示す。
<Acoustic Model Correction Parameter Learning Device 100>
The configuration of the acoustic model correction parameter learning device 100 according to the first embodiment based on the above principle will be described. FIG. 5 shows an apparatus configuration diagram and FIG. 6 shows a processing flow.

音響モデル補正パラメータ学習装置100は、特徴量抽出部110、音響モデル補正部120、エラーカウント計算部130、補正パラメータ微分値計算部140、補正パラメータ更新部150、収束判定部160、音響モデル記憶部170及び言語モデル記憶部180を含む。   The acoustic model correction parameter learning device 100 includes a feature amount extraction unit 110, an acoustic model correction unit 120, an error count calculation unit 130, a correction parameter differential value calculation unit 140, a correction parameter update unit 150, a convergence determination unit 160, and an acoustic model storage unit. 170 and a language model storage unit 180.

音響モデル補正パラメータ学習装置100は、学習用音声データ(以下「適応用音声データ」ともいう)とその正解シンボル系列Sと音響モデル補正パラメータの初期値θとを受け取り、音響モデル補正パラメータを更新し、最適な音響モデル補正パラメータを求め、出力する。なお、本実施形態では、音響モデル補正パラメータは、平均補正パラメータのみからなり、クラスタ毎に求められるものとしているが、他の音響モデル補正パラメータを含んでもよいし、また、クラスタ毎に求めなくともよい。 The acoustic model correction parameter learning device 100 receives learning speech data (hereinafter also referred to as “adaptive speech data”), its correct symbol sequence S r, and an initial value θ 0 of the acoustic model correction parameter, and receives the acoustic model correction parameter. Update, find and output the optimal acoustic model correction parameters. In the present embodiment, the acoustic model correction parameter is composed of only the average correction parameter and is obtained for each cluster. However, other acoustic model correction parameters may be included, or may not be obtained for each cluster. Good.

(特徴量抽出部110)
特徴量抽出部110は、学習用音声データを読み込み(s103)、その特徴量ベクトル系列Oを抽出し(s105)、音響モデル補正部120に出力する。特徴量抽出の具体的な処理は、既存の技術を用いることができる。例えば、上述の音声認識装置90の特徴量抽出部91と同じ方法により特徴量を抽出すればよい。
(Feature Extraction Unit 110)
The feature quantity extraction unit 110 reads the learning speech data (s103), extracts the feature quantity vector series O (s105), and outputs it to the acoustic model correction unit 120. An existing technique can be used for specific processing of feature quantity extraction. For example, the feature amount may be extracted by the same method as the feature amount extraction unit 91 of the voice recognition device 90 described above.

(音響モデル記憶部170及び言語モデル記憶部180)
音響モデル記憶部170及び言語モデル記憶部180には、それぞれ予め求められた音響モデル及び言語モデルが記憶される。音響モデル及び言語モデルとしては、既存のモデルを用いればよい。例えば、記憶部93において説明した音響モデルと言語モデルを用いることができる。
(Acoustic model storage unit 170 and language model storage unit 180)
The acoustic model storage unit 170 and the language model storage unit 180 store an acoustic model and a language model obtained in advance, respectively. Existing models may be used as the acoustic model and the language model. For example, the acoustic model and language model described in the storage unit 93 can be used.

(音響モデル補正部120)
音響モデル補正部120は、補正前の音響モデルΛを音響モデル記憶部170から読み込み(s101)、音響モデル補正パラメータの初期値θまたは更新された音響モデル補正パラメータθi−1(ただし、iは、繰り返し回数を表すインデックスを示す)を受け取り、式(3)により音響モデルの平均ベクトルを補正し(s106)、補正後の音響モデルΛ^を、エラーカウント計算部130に出力する。
(Acoustic model correction unit 120)
The acoustic model correction unit 120 reads the acoustic model Λ before correction from the acoustic model storage unit 170 (s101), and the initial value θ 0 of the acoustic model correction parameter or the updated acoustic model correction parameter θ i-1 (where i Indicates an index representing the number of repetitions), corrects the average vector of the acoustic model by equation (3) (s106), and outputs the corrected acoustic model Λ ^ to the error count calculator 130.

Figure 0006121187
Figure 0006121187

ただし、θ={θ1 ,θ2 ,…,θK }であり、θ ={W }である。同様に、θi−1={θ1 i−1,θ2 i−1,…,θK i−1}であり、θ i−1={W i−1}である。初期値W を構成するAk 0、bk 0としては、例えば、それぞれ単位行列、ゼロベクトル(全ての要素が0のベクトル)等が考えられる。 However, θ 0 = {θ 1 0 , θ 2 0 ,..., Θ K 0 }, and θ k 0 = {W k 0 }. Similarly, θ i−1 = {θ 1 i−1 , θ 2 i−1 ,..., Θ K i−1 }, and θ k i−1 = {W k i−1 }. As A k 0 and b k 0 constituting the initial value W k 0 , for example, a unit matrix, a zero vector (a vector in which all elements are 0), and the like can be considered.

(エラーカウント計算部130)
エラーカウント計算部130は、言語モデル記憶部180から言語モデルを読み込み(s102)、この言語モデルと、音響モデル補正部120から受け取った補正後の音響モデルΛ^とを用いて、特徴量抽出部110から受け取った特徴量ベクトル系列Oを音声認識することによって得られるJ個の対立候補シンボル系列Sを求める。さらに、エラーカウント計算部130は、入力された正解シンボル系列Sを読み込み(s104)、予め定めた粒度で、対立候補シンボル系列S毎に、正解シンボル系列Sとの相違度εj,rを求め(s107)、補正パラメータ微分値計算部140に出力する。特に、予め定めた粒度を音素以下の粒度とすれば、相互情報量最大化の枠組みで粒度の細かい相違度を用いることが可能となる。例えば、予め定めた粒度(音素や単語等)で読み込んだ正解シンボル系列Sと求めた対立候補シンボル系列Sとの異なる部分をカウントし、カウント値を相違度εj,rとして求める。
(Error count calculator 130)
The error count calculation unit 130 reads the language model from the language model storage unit 180 (s102), and uses the language model and the corrected acoustic model Λ ^ received from the acoustic model correction unit 120 to use the feature amount extraction unit. J conflict candidate symbol sequences S j obtained by voice recognition of the feature vector sequence O received from 110 are obtained. Further, the error count calculation unit 130 reads the correct symbol sequence S r input (s104), at a predetermined size, for each allele candidate symbol sequence S j, dissimilarity epsilon j the correct symbol sequence S r, r is obtained (s107) and output to the correction parameter differential value calculation unit 140. In particular, if the predetermined granularity is equal to or smaller than the phoneme, it is possible to use a fine degree of difference in the granularity in the framework of mutual information maximization. For example, different portions of the correct symbol series S r read at a predetermined granularity (phonemes, words, etc.) and the obtained opponent candidate symbol series S j are counted, and the count value is obtained as the dissimilarity ε j, r .

(補正パラメータ微分値計算部140)
補正パラメータ微分値計算部140は、言語モデル記憶部180から言語モデルを読み込み(s102)、入力された正解シンボル系列Sを読み込み(s104)、補正後の音響モデルΛ^を受け取り、エラーカウント計算部130から受け取った対立候補シンボル系列Sと相違度εj,rとを用いて、式(9)で表される目的関数FdMMI θ,σ1,σ2を求める。
(Correction parameter differential value calculation unit 140)
Correction parameter differential value calculation section 140 reads the language model from the language model storage unit 180 (s102), reads the correct symbol sequence S r input (s104), it receives an acoustic model of the corrected lambda ^, error count calculation The objective function F dMMI θ, σ1, σ2 represented by the equation (9) is obtained using the conflict candidate symbol series S j received from the unit 130 and the dissimilarity ε j, r .

Figure 0006121187
Figure 0006121187

ただし、第一マージンパラメータσの調整は、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いを考慮して人手により行われるものとする。第二マージンパラメータσは、例えば、+0.1という0に近い小さなプラスの値とする。 However, it is assumed that the adjustment of the first margin parameter σ 1 is performed manually in consideration of the degree of mismatch between the features of the learning speech data and the features of the recognition speech data. The second margin parameter σ 2 is a small positive value close to 0, for example, +0.1.

さらに、補正パラメータ微分値計算部140は、目的関数FdMMI θ,σ1,σ2を音響モデル補正パラメータW=[A]で微分する(式(12)、s108)。 Further, the correction parameter differential value calculation unit 140 differentiates the objective function F dMMI θ, σ1, σ2 by the acoustic model correction parameter W k = [A k b k ] (formulas (12), s108).

Figure 0006121187
Figure 0006121187

算出した微分値(∂FdMMI θ,σ1,σ2/∂W)を補正パラメータ更新部150に出力する。 The calculated differential value (∂F dMMI θ, σ1, σ2 / W k ) is output to the correction parameter update unit 150.

(補正パラメータ更新部150)
補正パラメータ更新部150は、微分値(∂FdMMI θ,σ1,σ2/∂W)に応じて平均補正パラメータWを変更することで、平均補正パラメータを更新する。つまり、式(9)の目的関数FdMMI θ,σ1,σ2を最大化するように、式(11)に従い、W、すなわちAおよびbを同時に更新する(s109)。
(Correction parameter update unit 150)
The correction parameter updating unit 150 updates the average correction parameter by changing the average correction parameter W k according to the differential value (∂F dMMI θ, σ1, σ2 / 2W k ). That is, W k , that is, A k and b k are simultaneously updated according to equation (11) so as to maximize the objective function F dMMI θ, σ1, σ2 of equation (9) ( s109 ).

Figure 0006121187
Figure 0006121187

例えばR−Prop(参考文献9)のような勾配法を用いる場合は、微分値(∂FdMMI θ,σ1,σ2/∂W)が0に近づくようにWを更新すればよい。または例えば、Extended-Baum Welchのようなアルゴリズム(参考文献3)を用いて、Wを更新することもできる。更新後の音響モデル補正パラメータθ^=(W,…,W,…,W)を収束判定部160に出力する。 For example, when a gradient method such as R-Prop (reference document 9) is used, W k may be updated so that the differential value (∂F dMMI θ, σ1, σ2 / ∂W k ) approaches zero. Alternatively, for example, W k can be updated using an algorithm such as Extended-Baum Welch (reference document 3). The updated acoustic model correction parameter θ ^ = (W 1 ,..., W k ,..., W K ) is output to the convergence determination unit 160.

(収束判定部160)
収束判定部160は、音響モデル補正パラメータθ^を受け取り、音響モデル補正パラメータの推定が収束したか否かを判定し(s110)、収束していると判定した場合には、収束時の音響モデル補正パラメータθ^を、音響モデル補正パラメータ推定装置の出力値として、出力する(s111)。収束していないと判定した場合には、音響モデル補正パラメータθ^を音響モデル補正部120に出力し、音響モデル補正部120、エラーカウント計算部130、補正パラメータ微分値計算部140、補正パラメータ更新部150、収束判定部160の処理を繰り返すように制御信号を出力する。収束判定部160は、例えば、(1)一つ前に求めた音響モデル補正パラメータと今回求めた音響モデル補正パラメータとの差分が閾値以下になった場合や(2)繰り返し回数が所定の回数以上になった場合に、収束していると判定する。
(Convergence determination unit 160)
The convergence determination unit 160 receives the acoustic model correction parameter θ ^, determines whether or not the estimation of the acoustic model correction parameter has converged (s110), and determines that it has converged. The correction parameter θ ^ is output as an output value of the acoustic model correction parameter estimation device (s111). If it is determined that it has not converged, the acoustic model correction parameter θ ^ is output to the acoustic model correction unit 120, and the acoustic model correction unit 120, the error count calculation unit 130, the correction parameter differential value calculation unit 140, and the correction parameter update The control signal is output so that the processing of the unit 150 and the convergence determination unit 160 is repeated. The convergence determination unit 160 may, for example, (1) when the difference between the acoustic model correction parameter obtained last time and the acoustic model correction parameter obtained this time is equal to or less than a threshold value, or (2) the number of repetitions is a predetermined number or more. When it becomes, it determines with having converged.

<シミュレーション結果>
以下の表は効果の例として、大語彙連続音声認識タスクで、話者に対する教師なし音響モデル適応の実験結果を表す。このように、本発明は従来の音響モデル適応(MLLR、MMI−LR)よりも性能を改善することがわかる。
<Simulation results>
The following table shows the experimental results of unsupervised acoustic model adaptation for speakers in a large vocabulary continuous speech recognition task as an example of the effect. Thus, it can be seen that the present invention improves performance over conventional acoustic model adaptation (MLLR, MMI-LR).

Figure 0006121187
Figure 0006121187

<効果>
このような構成により、正解シンボルの誤りの悪影響を弱めることができ、従来技術(MLLRやMMI−LRの識別基準に基づく音響モデル適応)よりも適切に音響モデルパラメータに対する補正パラメータを求めることができる。さらに、このようにして求めた音響モデル補正パラメータを用いて、補正した音響モデルを用いて音声認識を行うことで、従来技術に比べ、音声認識精度を改善できる。
<Effect>
With such a configuration, it is possible to weaken the adverse effects of errors of correct symbols, and to obtain correction parameters for acoustic model parameters more appropriately than in the prior art (acoustic model adaptation based on the MLLR or MMI-LR identification criteria). . Further, by performing speech recognition using the corrected acoustic model using the acoustic model correction parameter obtained in this way, the speech recognition accuracy can be improved as compared with the prior art.

<変形例>
第一実施形態では、音響モデル補正パラメータは平均補正パラメータのみを含むが、混合ガウス分布モデルに含まれるガウス分布の分散パラメータΣを補正する分散補正パラメータも含む構成としてもよい。
<Modification>
In the first embodiment, the acoustic model correction parameter includes only the average correction parameter. However, the acoustic model correction parameter may include a dispersion correction parameter for correcting the dispersion parameter Σ m of the Gaussian distribution included in the mixed Gaussian distribution model.

この場合、以下の式(13)や(14)により分散パラメータΣを補正することで、dMMI基準による推定をすることができる。 In this case, the estimation based on the dMMI standard can be performed by correcting the dispersion parameter Σ m by the following equations (13) and (14).

Figure 0006121187
Figure 0006121187

もしくは、 Or

Figure 0006121187
Figure 0006121187

ここで、Dは分散補正パラメータである。 Here, D k is a dispersion correction parameter.

平均補正パラメータW=[A、b]と分散補正パラメータDの同時推定は以下のように行うことができる。 Simultaneous estimation of the average correction parameter W k = [A k , b k ] and the dispersion correction parameter D k can be performed as follows.

Figure 0006121187
Figure 0006121187

ただし、θb=(W1, D,…,W,Dk,…,WK,DK)である。式(15)は平均と共分散パラメータの同時推定を示しているが、共分散だけ推定することも可能である。 However, θ b = (W 1, D 1, ..., W k, D k, ..., W K, D K) is. Equation (15) shows the simultaneous estimation of the mean and covariance parameters, but it is also possible to estimate only the covariance.

dMMI識別学習基準の目的関数FdMMI θb,σ1,σ2(ただし、下付添字θbは、θを表す。)を最大化するようなDを求めるために、まず目的関数FdMMI θb,σ1,σ2をDで微分する。目的関数FdMMI θb,σ1,σ2をDで微分した値は、分散補正パラメータが式(13)により補正される場合、以下のように表現される。 The objective function F dMMI θb of DMMI discriminative training criterion, .sigma.1, .sigma. @ 2 (where subscripts .theta.b represents. a theta b) in order to determine the D k that maximizes a first objective function F dMMI θb, σ1 , Σ2 is differentiated by D k . A value obtained by differentiating the objective function F dMMI θb, σ1, σ2 by D k is expressed as follows when the dispersion correction parameter is corrected by the equation (13).

Figure 0006121187
Figure 0006121187

また、式(15)は、分散補正パラメータが式(14)により補正される場合、以下のように表現される。   Further, Expression (15) is expressed as follows when the dispersion correction parameter is corrected by Expression (14).

Figure 0006121187
Figure 0006121187

また、平均ベクトルの変換行列Aと分散パラメータの変換行列(式(13)のDk)が同じになるように制約を加えてもよい。その場合は、平均ベクトルと分散パラメータの補正は式(18)のように行い、音響モデル補正パラメータの推定は式(19)で行う。 Further, a constraint may be added so that the average vector conversion matrix A k and the dispersion parameter conversion matrix (D k in Expression (13)) are the same. In that case, the correction of the average vector and the dispersion parameter is performed as in Expression (18), and the estimation of the acoustic model correction parameter is performed as in Expression (19).

Figure 0006121187
Figure 0006121187

なお、Ak cは平均ベクトル及び分散パラメータに対する変換行列、bk cは平均ベクトルに対するバイアスベクトルである。 A k c is a transformation matrix for the average vector and the dispersion parameter, and b k c is a bias vector for the average vector.

Figure 0006121187
Figure 0006121187

ただし、θc=(Ac 1,bc 1,…,Ac k,bc k,…,Ac K,bc K)である。 However, θ c = (A c 1 , b c 1, ..., A c k, b c k, ..., A c K, b c K) is.

変形例に係る音響モデル補正パラメータ学習装置100の構成について、第一実施形態と異なる部分を中心に説明する。   The configuration of the acoustic model correction parameter learning device 100 according to the modification will be described with a focus on differences from the first embodiment.

(音響モデル補正部120)
音響モデル補正部120は、式(3)により、平均ベクトルを補正し、さらに、式(13)または(14)により分散パラメータΣを補正する(s106)。なお、音響モデル適応技術を搭載した音声認識装置90の音響モデル補正部94においても対応する式(式(13)または式(14))により、分散パラメータΣを補正する。
(Acoustic model correction unit 120)
Acoustic model correction unit 120, by Equation (3), to correct the average vector, furthermore, to correct the dispersion parameter sigma m by equation (13) or (14) (s106). Even by the corresponding formula (Formula (13) or (14)), to correct the dispersion parameter sigma m in the acoustic model correction unit 94 of the speech recognition device 90 equipped with an acoustic model adaptation techniques.

(エラーカウント計算部130)
エラーカウント計算部130は、補正した平均ベクトルと補正した共分散行列とを含む音響モデルと言語モデルとに基づき、学習用音声データの特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、正解シンボル系列との相違度を求める(s107)。
(Error count calculator 130)
The error count calculation unit 130 performs, for each conflict candidate symbol series obtained by speech recognition of the feature amount of the learning speech data, based on the acoustic model and the language model including the corrected average vector and the corrected covariance matrix. The degree of difference from the correct symbol series is obtained with a predetermined granularity (s107).

(補正パラメータ微分値計算部140)
補正パラメータ微分値計算部140は、式(15)の右辺で用いられている目的関数FdMMI θb,σ1,σ2を求める。さらに、補正パラメータ微分値計算部140は、目的関数FdMMI θb,σ1,σ2を音響モデル補正パラメータW、Dでそれぞれ微分する(式(12)、(16)または(17)s108)。
(Correction parameter differential value calculation unit 140)
The correction parameter differential value calculation unit 140 obtains the objective function F dMMI θb, σ1, σ2 used on the right side of the equation (15). Further, the correction parameter differential value calculation unit 140 differentiates the objective function F dMMI θb, σ1, σ2 by the acoustic model correction parameters W k , D k , respectively (formula (12), (16) or (17) s108).

(補正パラメータ更新部150)
補正パラメータ更新部150は、平均補正パラメータWに対する微分値∂FdMMI θb,σ1,σ2/∂Wに応じて平均補正パラメータWを変更することで、平均補正パラメータを更新し、さらに、分散補正パラメータDに対する微分値∂FdMMI θb,σ1,σ2/∂Dに応じて分散補正パラメータDを変更することで、分散補正パラメータDを更新する(s109)。
(Correction parameter update unit 150)
Correction parameter update unit 150, the differential value ∂F dMMI θb relative to the average correction parameter W k, .sigma.1, by changing the average correction parameter W k in accordance with .sigma. @ 2 / ∂W k, updating the average correction parameters, further, differential value ∂F dMMI θb for dispersion correction parameter D k, .sigma.1, by changing the dispersion correction parameter D k in accordance with σ2 / ∂D k, updating the dispersion correction parameter D k (s109).

(収束判定部160)
収束判定部160は、平均補正パラメータ及び分散補正パラメータの更新が予め定めた条件を満たすか否かを判定し(s110)、満たす場合には、更新後の平均補正パラメータ及び分散補正パラメータをそれぞれ求める平均補正パラメータ及び分散補正パラメータとして出力し(s111)、条件を満たさない場合には、音響モデル補正部120、エラーカウント計算部130、補正パラメータ微分値計算部140及び補正パラメータ更新部150の処理を繰り返す。
(Convergence determination unit 160)
The convergence determination unit 160 determines whether or not the update of the average correction parameter and the dispersion correction parameter satisfies a predetermined condition (s110), and if so, obtains the updated average correction parameter and dispersion correction parameter, respectively. When the average correction parameter and the dispersion correction parameter are output (s111) and the conditions are not satisfied, the acoustic model correction unit 120, the error count calculation unit 130, the correction parameter differential value calculation unit 140, and the correction parameter update unit 150 are processed. repeat.

このような構成により、適切に、平均補正パラメータに加え分散補正パラメータを求めることができる。   With such a configuration, it is possible to appropriately obtain the dispersion correction parameter in addition to the average correction parameter.

<その他の変形例>
音響補正パラメータをクラスタ毎に求めなくともよい。その場合、式(2)で平均ベクトルを補正し、式(13a)または式(14a)で分散パラメータを補正する。
<Other variations>
The acoustic correction parameter need not be obtained for each cluster. In that case, the average vector is corrected by Expression (2), and the dispersion parameter is corrected by Expression (13a) or Expression (14a).

Figure 0006121187
Figure 0006121187

また、本実施形態では、音響モデル補正パラメータ学習装置100は、特徴量抽出部110を含むが、学習用音声データに対する特徴量を入力される場合には、特徴量抽出部110を含まなくともよい。   In this embodiment, the acoustic model correction parameter learning device 100 includes the feature amount extraction unit 110. However, the feature amount extraction unit 110 may not be included when a feature amount for learning speech data is input. .

図示しない記憶部に予め目的関数FdMMI θb,σ1,σ2を音響モデル補正パラメータで微分したもの(例えば式(12)、(16)、(17)で表される)を計算式として記憶しておいてもよい。この場合、実際の微分値は以下のようにして求める。補正パラメータ微分値計算部140は、計算式を記憶部から読み込み、さらに、言語モデル記憶部180から言語モデルを読み込み、正解シンボル系列Sを読み込み、補正後の音響モデルΛ^と対立候補シンボル系列Sと相違度εj,rとを受け取り、計算式に代入し、微分値(∂FdMMI θb,σ1,σ2/∂W)や(∂FdMMI θb,σ1,σ2/∂D)を算出し(s108)、補正パラメータ更新部109に出力する。 An objective function F dMMI θb, σ1, σ2 differentiated by an acoustic model correction parameter (for example, expressed by equations (12), (16), (17)) is stored as a calculation formula in a storage unit (not shown). It may be left. In this case, the actual differential value is obtained as follows. Correction parameter differential value calculation unit 140 reads the calculation formula from the storage unit, further, reads the language model from the language model storage unit 180, reads the correct symbol sequence S r, acoustic models lambda ^ and opposition candidate symbol sequence after correction S j and dissimilarity epsilon j, receive and r, are substituted into equation, the differential value (∂F dMMI θb, σ1, σ2 / ∂W k) and (∂F dMMI θb, σ1, σ2 / ∂D k) Is calculated (s108) and output to the correction parameter updating unit 109.

〔第二実施形態〕
式(3)の音響モデルパラメータの補正は式(20)のように、特徴量の補正と等しくなることを示すことができる。
[Second Embodiment]
It can be shown that the correction of the acoustic model parameter in Expression (3) is equal to the correction of the feature amount as in Expression (20).

Figure 0006121187
Figure 0006121187

は特徴量に対する変換行列、b は特徴量に対するバイアスベクトルである。W :=[A ]である。
目的関数FdMMI θ,σ1,σ2を特徴量補正パラメータW で微分すると、次式のようになる。
A k f is a transformation matrix for the feature quantity, and b k f is a bias vector for the feature quantity. W k f : = [A k f b k f ].
When the objective function F dMMI θ, σ1, σ2 is differentiated by the feature amount correction parameter W k f , the following equation is obtained.

Figure 0006121187
Figure 0006121187

第一実施形態では、音響モデルを補正することで話者適応を行う構成を前提とし、音響モデル補正パラメータを推定する構成を説明したが、式(20)を用いると、本発明は特徴量の補正パラメータ(以下「特徴量補正パラメータ」ともいう)の推定にも応用することができる。   In the first embodiment, the configuration for estimating the acoustic model correction parameter has been described on the assumption that the speaker adaptation is performed by correcting the acoustic model. However, using the equation (20), the present invention uses the feature amount. The present invention can also be applied to estimation of correction parameters (hereinafter also referred to as “feature amount correction parameters”).

まず、補正した特徴量に基づき音声認識を行う音声認識装置70について説明する。   First, the speech recognition apparatus 70 that performs speech recognition based on the corrected feature amount will be described.

<音声認識装置70>
図7に音声認識装置70の機能構成例、図8にその処理フロー例を示す。音声認識装置70は、特徴量抽出部91、特徴量補正部71、単語列探索部72、記録部74から構成される。
<Voice recognition device 70>
FIG. 7 shows a functional configuration example of the speech recognition apparatus 70, and FIG. The voice recognition device 70 includes a feature amount extraction unit 91, a feature amount correction unit 71, a word string search unit 72, and a recording unit 74.

予め音響モデル及び言語モデルを記録部74に記録している。さらに、予め特徴量補正パラメータWを記録部74に記録している。W=(W ,W ,…,W )とし、W ={A }とする。なお、本実施形態では、W=θ、W=θ とする。 An acoustic model and a language model are recorded in the recording unit 74 in advance. Further, the feature amount correction parameter Wf is recorded in the recording unit 74 in advance. Let W f = (W 1 f , W 2 f ,..., W K f ) and W k f = {A k f b k f }. In this embodiment, W f = θ and W k = θ k f .

特徴量補正部71は特徴量補正パラメータWを読み込む(s71)。特徴量抽出部91で抽出した特徴量ベクトル系列Oを、単語列探索部72に送る前に、特徴量補正部71において、予め求めておいた特徴量補正パラメータWを用いて式(20)により、補正する(s72)。 The feature amount correction unit 71 reads the feature amount correction parameter W f (s71). Before the feature quantity vector series O extracted by the feature quantity extraction unit 91 is sent to the word string search unit 72, the feature quantity correction unit 71 uses the feature quantity correction parameter W f obtained in advance to formula (20). Thus, the correction is made (s72).

Figure 0006121187
Figure 0006121187

単語列探索部72は、音響モデルと言語モデルを読み込む(s71、s72)。単語列探索部72は、まず、音響モデルに基づき、特徴量補正部71で補正された特徴量ベクトル系列O^に対するJ個の対立候補シンボル系列Sを生成して、対立候補シンボル系列S毎に音響スコアを算出する。次に、言語モデルに基づき、対立候補シンボル系列S毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、J個の対立候補シンボル系列Sの中から、認識用音声データに対応する文として最も確からしい(最も音響スコアと言語スコアとを統合したスコアが高い)対立候補シンボル系列を探索し(s75)、その対立候補シンボル系列を認識結果(単語列)S^として出力する(s76)。 The word string search unit 72 reads the acoustic model and the language model (s71, s72). First, based on the acoustic model, the word string search unit 72 generates J conflict candidate symbol sequences S j for the feature amount vector series O ^ corrected by the feature amount correction unit 71, and the conflict candidate symbol sequence S j. An acoustic score is calculated every time. Next, based on the language model, a language score is calculated for each conflict candidate symbol series S j . Further, by integrating the acoustic score and the language score, it is most likely as a sentence corresponding to the speech data for recognition from among the J conflict candidate symbol sequences S j (the most integrated score of the acoustic score and the language score). The conflict candidate symbol sequence is searched (s75), and the conflict candidate symbol sequence is output as a recognition result (word string) S ^ (s76).

この特徴量ベクトル系列Oの補正は、最終的な音声認識精度を向上させることを目的として行われる。すなわち特徴量補正技術のポイントは、最終的な音声認識精度を向上させるための特徴量補正パラメータWをいかに推定するか、という点にある。 The correction of the feature vector series O is performed for the purpose of improving the final speech recognition accuracy. That the point of the feature quantity correction technique, the final or estimated speech recognition accuracy how the feature quantity correction parameter W f for improving, in that.

本実施形態では、特徴量補正パラメータWを以下のように推定する。第一実施形態と異なる部分を中心に説明する。 In the present embodiment, the feature amount correction parameter W f is estimated as follows. A description will be given centering on differences from the first embodiment.

<特徴量補正パラメータ推定装置200>
特徴量補正パラメータ推定装置200の構成を図9に、処理フローを図10に示す。第一実施形態とは異なる処理についてのみ説明する。特徴量補正パラメータ推定装置200は、特徴量抽出部110、音響モデル補正部220、エラーカウント計算部230、補正パラメータ微分値計算部240、補正パラメータ更新部250、収束判定部260、音響モデル記憶部170及び言語モデル記憶部180を含む。
<Feature Quantity Correction Parameter Estimation Device 200>
The configuration of the feature amount correction parameter estimation apparatus 200 is shown in FIG. 9, and the processing flow is shown in FIG. Only processing different from the first embodiment will be described. The feature amount correction parameter estimation device 200 includes a feature amount extraction unit 110, an acoustic model correction unit 220, an error count calculation unit 230, a correction parameter differential value calculation unit 240, a correction parameter update unit 250, a convergence determination unit 260, and an acoustic model storage unit. 170 and a language model storage unit 180.

(特徴量補正部220)
特徴量補正部220は、特徴量補正パラメータの初期値Wf0または更新された特徴量補正パラメータWf(i−1)と、補正前の特徴量ベクトル系列Oとを受け取り、式(20)に基づき特徴量ベクトル系列Oを補正し(s206)、補正後の特徴量ベクトル系列O^をエラーカウント計算部230に出力する。
(Feature correction unit 220)
The feature amount correction unit 220 receives the initial value W f0 of the feature amount correction parameter or the updated feature amount correction parameter W f (i−1) and the feature amount vector series O before correction, and the equation (20). Based on this, the feature vector sequence O is corrected (s206), and the corrected feature vector sequence O ^ is output to the error count calculator 230.

Figure 0006121187
Figure 0006121187

ただし、Wf0={W1 f0,W f0,…,W f0}であり、W f0={A f0 f0}である。初期値A f0,b f0としては、例えば、それぞれ単位行列、ゼロベクトル(全ての要素が0のベクトル)等が考えられる。同様に、Wf(i−1)={W f(i−1),W f(i−1),…,W f(i−1)}であり、W f(i−1)={A f(i−1) f(i−1)}である。また、本実施形態では、特徴量補正パラメータをθとも記載する。 However, W f0 = {W 1 f0 , W 2 f0, ..., W K f0} is a W k f0 = {A k f0 b k f0}. As the initial values A k f0 and b k f0 , for example, a unit matrix, a zero vector (a vector in which all elements are 0), and the like can be considered. Similarly, W f (i-1) = {W 1 f (i-1), W 2 f (i-1), ..., W K f (i-1)} a, W k f (i- 1) = {A k f (i−1) b k f (i−1) }. In the present embodiment, the feature amount correction parameter is also described as θ.

(エラーカウント計算部230)
エラーカウント計算部230は、補正前の特徴量ベクトル系列Oの代わりに補正後の特徴量ベクトル系列O^を用いる点を除いては、第一実施形態と同じである(s102、s104、s207)。
(Error count calculator 230)
The error count calculation unit 230 is the same as that in the first embodiment except that the corrected feature vector sequence O ^ is used instead of the uncorrected feature vector sequence O (s102, s104, s207). .

(補正パラメータ微分値計算部240)
補正パラメータ微分値計算部240は、補正前の特徴量ベクトル系列Oの代わりに補正後の特徴量ベクトル系列O^を用い、補正後の音響モデルΛ^の代わりに音響モデルΛを用い、目的関数FdMMI θ,σ1,σ2を微分する際に音響モデル補正パラメータWの代わりに特徴量補正パラメータW を用いる。
(Correction parameter differential value calculation unit 240)
The correction parameter differential value calculation unit 240 uses the corrected feature vector series O ^ instead of the uncorrected feature vector series O ^, uses the acoustic model Λ instead of the corrected acoustic model Λ ^, and uses the objective function. When differentiating F dMMI θ, σ1, and σ2 , the feature amount correction parameter W k f is used instead of the acoustic model correction parameter W k .

よって、補正パラメータ微分値計算部240は、音響モデル記憶部170及び言語モデル記憶部180からそれぞれ音響モデル及び言語モデルを読み込み(s101、s102)、入力された正解シンボル系列Sを読み込み(s104)、エラーカウント計算部130から受け取った対立候補シンボル系列Sと相違度εj,rとを用いて、次式で表される目的関数FdMMI θ,σ1,σ2を求める。 Therefore, the correction parameter differential value calculation unit 240, respectively, from the acoustic model storage unit 170 and the language model storage unit 180 reads the acoustic models and language models (s101, s102), reads the correct symbol sequence S r input (s104) The objective function F dMMI θ, σ1, σ2 expressed by the following equation is obtained using the conflict candidate symbol series S j and the dissimilarity ε j, r received from the error count calculation unit 130.

Figure 0006121187
Figure 0006121187

ただし、第一マージンパラメータσの調整は、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いを考慮して人手により行われるものとする。第二マージンパラメータσは、例えば、+0.1という0に近い小さなプラスの値とする。 さらに、補正パラメータ微分値計算部240は、目的関数FdMMI θ,σ1,σ2を特徴量補正パラメータW =[A ]で微分する(式(21)、s208)。 However, it is assumed that the adjustment of the first margin parameter σ 1 is performed manually in consideration of the degree of mismatch between the features of the learning speech data and the features of the recognition speech data. The second margin parameter σ 2 is a small positive value close to 0, for example, +0.1. Further, the correction parameter differential value calculation unit 240 differentiates the objective function F dMMI θ, σ1, σ2 by the feature amount correction parameter W k f = [A k f b k f ] (formulas (21), s208).

Figure 0006121187
Figure 0006121187

算出した微分値(∂FdMMI θ,σ1,σ2/∂W )を補正パラメータ更新部250に出力する。 The calculated differential value (∂F dMMI θ, σ1, σ2 / ∂W k f ) is output to the correction parameter update unit 250.

(補正パラメータ更新部250)
補正パラメータ更新部250は、微分値(∂FdMMI θ,σ1,σ2/∂W )を受け取り、微分値(∂FdMMI θ,σ1,σ2/∂W )に応じてW 、すなわちA およびb を同時に更新する(s209)。更新後の特徴量補正パラメータW^ を収束判定部160に出力する。
(Correction parameter update unit 250)
The correction parameter updating unit 250 receives the differential value (∂F dMMI θ, σ1, σ2 / W k f ), and receives W k f according to the differential value (∂F dMMI θ, σ1, σ2 / ∂W k f ). That is, A k f and b k f are updated simultaneously (s209). The updated feature value correction parameter W k f is output to the convergence determination unit 160.

(収束判定部260)
収束判定部260は、音響モデル補正パラメータの代わりに特徴量補正パラメータW^ を用いる点を除いては、第一実施形態と同じである(s210、s211)。
(Convergence determination unit 260)
The convergence determination unit 260 is the same as that in the first embodiment except that the feature amount correction parameter W k f is used instead of the acoustic model correction parameter (s210, s211).

<効果>
このような構成により、正解シンボルの誤りの悪影響を弱めることができ、従来技術よりも適切に特徴量に対する補正パラメータを求めることができる。さらに、このようにして求めた特徴量補正パラメータを用いて、認識用音声データの特徴量を補正し、補正した特徴量に基づき音声認識を行うことで、従来技術に比べ、音声認識精度を改善できる。また、特徴量補正の場合は音響モデルパラメータを更新する必要がないという利点もある。
<Effect>
With such a configuration, it is possible to weaken the adverse effects of errors in correct symbols, and to obtain correction parameters for feature values more appropriately than in the prior art. Furthermore, using the feature value correction parameters obtained in this way, the feature amount of the recognition speech data is corrected, and speech recognition is performed based on the corrected feature amount, thereby improving speech recognition accuracy compared to the conventional technology. it can. In the case of feature amount correction, there is also an advantage that it is not necessary to update acoustic model parameters.

<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. As another embodiment of this program, a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In addition, although each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.

Claims (5)

音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには前記混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、前記平均ベクトルを補正するための平均補正パラメータを求める音響モデル補正パラメータ推定装置であって、
予め求められた前記音響モデル及び言語モデルが記憶される記憶部と、
前記記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正部と、
補正した前記平均ベクトルを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求めるエラーカウント計算部と、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、
前記微分値に応じて前記平均補正パラメータを変更することで、前記平均補正パラメータを更新する補正パラメータ更新部と、を含む、
音響モデル補正パラメータ推定装置。
The acoustic model includes a mixed Gaussian distribution model, and the acoustic model parameter includes an average vector of the Gaussian distribution included in the mixed Gaussian distribution model. The feature amount of the learning speech data and the learning speech An acoustic model correction parameter estimation device for obtaining an average correction parameter for correcting the average vector from a correct symbol sequence for data,
A storage unit for storing the acoustic model and the language model obtained in advance;
An acoustic model correction unit that corrects an average vector of the acoustic model stored in the storage unit using an average correction parameter;
Based on the corrected acoustic model including the average vector and the language model, the correct answer symbol with a predetermined granularity for each opposing candidate symbol series obtained by speech recognition of the feature amount of the learning speech data An error count calculation unit for calculating the degree of difference from the series;
The average correction based on the language probability of the contending candidate symbol sequence obtained by the language model, the acoustic score obtained by the acoustic model based on the feature amount of the learning speech data and the contending candidate symbol sequence, and the dissimilarity A correction parameter differential value calculation unit for obtaining a differential value when the objective function of the discriminative learning criterion is differentiated by a parameter;
A correction parameter update unit that updates the average correction parameter by changing the average correction parameter according to the differential value,
Acoustic model correction parameter estimation device.
請求項1記載の音響モデル補正パラメータ推定装置であって、
前記音響モデルパラメータには、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列が含まれるものとし、
前記音響モデル補正部は、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列を、分散補正パラメータを用いて補正し、
前記エラーカウント計算部は、補正した前記平均ベクトルと補正した前記共分散行列とを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
前記補正パラメータ微分値計算部は、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記分散補正パラメータで識別学習基準の目的関数を微分したときの微分値を求め、
補正パラメータ更新部は、さらに、前記分散補正パラメータに対する前記微分値に応じて前記分散補正パラメータを変更することで、前記分散補正パラメータを更新する、
音響モデル補正パラメータ推定装置。
The acoustic model correction parameter estimation device according to claim 1,
The acoustic model parameters further include a covariance matrix of a Gaussian distribution included in the mixed Gaussian distribution model,
The acoustic model correction unit further corrects a covariance matrix of a Gaussian distribution included in the mixed Gaussian distribution model using a dispersion correction parameter,
The error count calculation unit is configured to recognize the feature amount of the learning speech data based on an acoustic model including the corrected average vector and the corrected covariance matrix and the language model. For each candidate symbol sequence, the degree of difference from the correct symbol sequence is determined with a predetermined granularity.
The correction parameter differential value calculation unit further includes a sound obtained by the acoustic model based on a language probability of the alternative candidate symbol series obtained by the language model, the feature amount of the learning speech data, and the alternative candidate symbol series. Based on the score and the degree of difference, obtain a differential value when differentiating the objective function of the discriminative learning criterion with the dispersion correction parameter,
The correction parameter update unit further updates the dispersion correction parameter by changing the dispersion correction parameter according to the differential value with respect to the dispersion correction parameter.
Acoustic model correction parameter estimation device.
音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには前記混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、前記平均ベクトルを補正するための平均補正パラメータを求める音響モデル補正パラメータ推定方法であって、
記憶部には予め求められた前記音響モデル及び言語モデルが記憶され、
前記記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正ステップと、
補正した前記平均ベクトルを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求めるエラーカウント計算ステップと、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、
前記微分値に応じて前記平均補正パラメータを変更することで、前記平均補正パラメータを更新する補正パラメータ更新ステップと、を含む、
音響モデル補正パラメータ推定方法。
The acoustic model includes a mixed Gaussian distribution model, and the acoustic model parameter includes an average vector of the Gaussian distribution included in the mixed Gaussian distribution model. The feature amount of the learning speech data and the learning speech An acoustic model correction parameter estimation method for obtaining an average correction parameter for correcting the average vector from a correct symbol sequence for data,
The storage unit stores the acoustic model and language model obtained in advance,
An acoustic model correction step of correcting an average vector of the acoustic model stored in the storage unit using an average correction parameter;
Based on the corrected acoustic model including the average vector and the language model, the correct answer symbol with a predetermined granularity for each opposing candidate symbol series obtained by speech recognition of the feature amount of the learning speech data An error count calculation step for calculating the degree of difference from the series;
The average correction based on the language probability of the contending candidate symbol sequence obtained by the language model, the acoustic score obtained by the acoustic model based on the feature amount of the learning speech data and the contending candidate symbol sequence, and the dissimilarity A correction parameter differential value calculation step for obtaining a differential value when the objective function of the discriminative learning criterion is differentiated by a parameter;
A correction parameter update step of updating the average correction parameter by changing the average correction parameter according to the differential value,
Acoustic model correction parameter estimation method.
請求項記載の音響モデル補正パラメータ推定方法であって、
前記音響モデルパラメータには、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列が含まれるものとし、
前記音響モデル補正ステップにおいて、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列を、分散補正パラメータを用いて補正し、
前記エラーカウント計算ステップにおいて、補正した前記平均ベクトルと補正した前記共分散行列とを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
前記補正パラメータ微分値計算ステップにおいて、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記分散補正パラメータで識別学習基準の目的関数を微分したときの微分値を求め、
補正パラメータ更新ステップにおいて、さらに、前記分散補正パラメータに対する前記微分値に応じて前記分散補正パラメータを変更することで、前記分散補正パラメータを更新する、
音響モデル補正パラメータ推定方法。
The acoustic model correction parameter estimation method according to claim 3 ,
The acoustic model parameters further include a covariance matrix of a Gaussian distribution included in the mixed Gaussian distribution model,
In the acoustic model correction step, a Gaussian distribution covariance matrix included in the mixed Gaussian distribution model is further corrected using a dispersion correction parameter,
In the error count calculation step, based on an acoustic model including the corrected average vector and the corrected covariance matrix and the language model, a pair obtained by performing speech recognition on the feature amount of the learning speech data. For each candidate symbol sequence, the degree of difference from the correct symbol sequence is determined with a predetermined granularity.
In the correction parameter differential value calculation step, a sound obtained by the acoustic model based on a language probability of the candidate candidate symbol series obtained by the language model, the feature amount of the learning speech data, and the candidate candidate symbol series Based on the score and the degree of difference, obtain a differential value when differentiating the objective function of the discriminative learning criterion with the dispersion correction parameter,
In the correction parameter update step, further, the dispersion correction parameter is updated by changing the dispersion correction parameter according to the differential value with respect to the dispersion correction parameter.
Acoustic model correction parameter estimation method.
請求項1もしくは請求項2記載の音響モデル補正パラメータ推定装置として、コンピュータを機能させるためのプログラム。 Claim 1 or to an acoustic model correction parameter estimation equipment of claim 2, wherein a program for causing a computer to function.
JP2013025865A 2013-02-13 2013-02-13 Acoustic model correction parameter estimation apparatus, method and program thereof Active JP6121187B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013025865A JP6121187B2 (en) 2013-02-13 2013-02-13 Acoustic model correction parameter estimation apparatus, method and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013025865A JP6121187B2 (en) 2013-02-13 2013-02-13 Acoustic model correction parameter estimation apparatus, method and program thereof

Publications (2)

Publication Number Publication Date
JP2014153680A JP2014153680A (en) 2014-08-25
JP6121187B2 true JP6121187B2 (en) 2017-04-26

Family

ID=51575559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013025865A Active JP6121187B2 (en) 2013-02-13 2013-02-13 Acoustic model correction parameter estimation apparatus, method and program thereof

Country Status (1)

Country Link
JP (1) JP6121187B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11107459B2 (en) 2018-03-02 2021-08-31 Samsung Electronics Co., Ltd. Electronic apparatus, controlling method and computer-readable medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017199417A1 (en) * 2016-05-20 2017-11-23 三菱電機株式会社 Speech recognition device and speech recognition method
CN111524017B (en) * 2019-02-01 2023-09-22 北京懿医云科技有限公司 Method, device and medium for auditing of claim data

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11212588A (en) * 1998-01-22 1999-08-06 Hitachi Ltd Speech processor, speech processing method, and computer-readable recording medium recorded with speech processing program
JP3646060B2 (en) * 2000-12-15 2005-05-11 シャープ株式会社 Speaker feature extraction device, speaker feature extraction method, speech recognition device, speech synthesis device, and program recording medium
JP5079760B2 (en) * 2009-08-28 2012-11-21 日本電信電話株式会社 Acoustic model parameter learning device, acoustic model parameter learning method, acoustic model parameter learning program
JP5738216B2 (en) * 2012-02-27 2015-06-17 日本電信電話株式会社 Feature amount correction parameter estimation device, speech recognition system, feature amount correction parameter estimation method, speech recognition method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11107459B2 (en) 2018-03-02 2021-08-31 Samsung Electronics Co., Ltd. Electronic apparatus, controlling method and computer-readable medium

Also Published As

Publication number Publication date
JP2014153680A (en) 2014-08-25

Similar Documents

Publication Publication Date Title
JP6637078B2 (en) Acoustic model learning device, acoustic model learning method and program
JP5229216B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP6222821B2 (en) Error correction model learning device and program
US8515758B2 (en) Speech recognition including removal of irrelevant information
JP6506074B2 (en) Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method and program
WO2012105231A1 (en) Model adaptation device, model adaptation method, and program for model adaptation
JP6031316B2 (en) Speech recognition apparatus, error correction model learning method, and program
Mirsamadi et al. A study on deep neural network acoustic model adaptation for robust far-field speech recognition.
WO2007105409A1 (en) Reference pattern adapter, reference pattern adapting method, and reference pattern adapting program
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
JP6121187B2 (en) Acoustic model correction parameter estimation apparatus, method and program thereof
JP5738216B2 (en) Feature amount correction parameter estimation device, speech recognition system, feature amount correction parameter estimation method, speech recognition method, and program
JP5079760B2 (en) Acoustic model parameter learning device, acoustic model parameter learning method, acoustic model parameter learning program
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
JP5288378B2 (en) Acoustic model speaker adaptation apparatus and computer program therefor
JP6158105B2 (en) Language model creation device, speech recognition device, method and program thereof
Wang et al. An explicit independence constraint for factorised adaptation in speech recognition.
JP5694976B2 (en) Distributed correction parameter estimation device, speech recognition system, dispersion correction parameter estimation method, speech recognition method, and program
JP4705535B2 (en) Acoustic model creation device, speech recognition device, and acoustic model creation program
JP6324647B1 (en) Speaker adaptation device, speech recognition device, and speech recognition method
JP5812936B2 (en) Accent phrase boundary estimation apparatus, accent phrase boundary estimation method and program
Delcroix et al. Unsupervised discriminative adaptation using differenced maximum mutual information based linear regression
JP2005321660A (en) Statistical model creating method and device, pattern recognition method and device, their programs and recording medium
Andrew et al. Backpropagation in sequential deep neural networks
Chen et al. Constrained discriminative mapping transforms for unsupervised speaker adaptation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170329

R150 Certificate of patent or registration of utility model

Ref document number: 6121187

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150