JP4856526B2 - Acoustic model parameter update processing method, acoustic model parameter update processing device, program, and recording medium - Google Patents
Acoustic model parameter update processing method, acoustic model parameter update processing device, program, and recording medium Download PDFInfo
- Publication number
- JP4856526B2 JP4856526B2 JP2006328029A JP2006328029A JP4856526B2 JP 4856526 B2 JP4856526 B2 JP 4856526B2 JP 2006328029 A JP2006328029 A JP 2006328029A JP 2006328029 A JP2006328029 A JP 2006328029A JP 4856526 B2 JP4856526 B2 JP 4856526B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- conversion
- model parameter
- feature
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この発明は音声認識に用いる既存の音響モデルパラメータを音声認識すべき音声に適応化する音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、このプログラムを記録した記録媒体に関する。 The present invention relates to an acoustic model parameter update processing method, an acoustic model parameter update processing device, a program, and a recording medium on which this program is recorded, for adapting existing acoustic model parameters used for speech recognition to speech to be speech recognized.
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Morkov Model, 以下ではHMMと記す。)を用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。
図5に従来のHMMを用いた音声認識装置の構成例を示す。音声信号入力端子11から入力された音声入力信号は、A/D変換手段12においてディジタル信号に変換される。そのディジタル信号から特徴量抽出手段13において音声特徴量(例えば、ケプストラム、LPCケプストラム、MFCC(メル周波数ケプストラム)、パワーやその動的特徴量など)を抽出する。予め、ある音素などの音声単位毎に作成したHMMを音響パラメータメモリ14から読み出し、また言語的制約を与える文法や単語辞書などの言語モデルを言語モデルパラメータメモリ15から読み出し、さらに照合処理時のスコア計算や探索処理に用いる言語重み、単語挿入ペナルティ、ビーム幅等の認識パラメータを認識パラメータメモリ16から読み出し、モデル照合尤度計算手段17において、入力音声信号に対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果として認識結果出力手段18により出力する。
In conventional speech recognition, a method of modeling using a hidden Markov model (hereinafter referred to as HMM) for each category of speech units such as phonemes, syllables, and words that constitute recognition result candidates is recognition. High performance and mainstream of current speech recognition technology.
FIG. 5 shows a configuration example of a voice recognition apparatus using a conventional HMM. The audio input signal input from the audio
ここで、従来の音響モデルのパラメータには、(MFCCなどの)入力特徴量の(十分)統計量を音響モデルに用いることが多いが、図5の破線のように特徴量変換手段19で、行列変換による写像処理や雑音除去のための正規化処理、高速化のための次元圧縮等を含む特徴量変換を行うこともある。尚、行列変換や次元圧縮は例えば、線形判別分析や主成分分析で求められた変換行列などを用いることが多い。また、正規化処理とは、例えば乗法性雑音(歪み)対策のケプストラム平均正規化処理などが用いられることが多い。
また、現在の連続音声認識時には、特許文献1のように、数式1で表される音響モデルとの照合尤度である音響スコア(音響的評価値):ASと、言語モデルとの照合尤度である言語スコア(言語的評価値):LSとを認識モデルパラメータメモリ16に用意した言語重みLwを用いて、重み付け和を認識スコア(総合的評価値):RSとして、認識スコアの高い物を認識結果とする音声認識処理が用いられてきた。
Here, as the parameters of the conventional acoustic model, a (sufficient) statistic of the input feature quantity (such as MFCC) is often used for the acoustic model, but the feature quantity conversion means 19 as shown by the broken line in FIG. In some cases, feature conversion including mapping processing by matrix conversion, normalization processing for noise removal, dimensional compression for speeding up, and the like is performed. For matrix transformation and dimension compression, for example, a transformation matrix obtained by linear discriminant analysis or principal component analysis is often used. As the normalization process, for example, a cepstrum average normalization process for multiplicative noise (distortion) countermeasures is often used.
Further, at the time of current continuous speech recognition, as in
数式1
RS=AS+Lw・LS
更に、認識対象の評価データに対する認識性能の向上のために、この言語重みをLwの値を変化させて評価データに近い開発データに対して最高の音声認識性能を出す最適な値を求める最適化処理を行うことが多い。
その他、単語挿入ペナルティや探索処理のビーム幅も同様に認識パラメータメモリ16内において最適化処理を行って、高速で高い認識性能を得るための認識パラメータを調整しておく。
RS = AS + Lw / LS
Furthermore, in order to improve the recognition performance for the evaluation data of the recognition target, this language weight is changed to change the value of Lw, and optimization is performed to obtain the optimum value that gives the best speech recognition performance for the development data close to the evaluation data. Processing is often performed.
In addition, the word insertion penalty and the beam width of the search processing are similarly optimized in the
特徴量変換を行うと特徴量の値が変化し、音響スコアも変化するため、その都度、認識パラメータメモリ16に用意する認識パラメータの調整が必要となる。
特徴量変換部19における特徴量変換による音響モデル更新処理は、図6に示す通りである。特徴量を得るまでの処理は音声認識処理と同様である。特徴量変換部19の出力と、音響モデルパラメータメモリ14に用意した音響モデルパラメータを用いて、音響モデル学習手段46で音響モデルパラメータの十分統計量を算出し、得られた音響モデル(のパラメータ)を変換後音響モデルパラメータ31に格納する。変換後音響モデルパラメータメモリ31に格納した音響モデルは音響モデルパラメータメモリ14に移されその後、音声認識に供される。
The acoustic model update processing by the feature amount conversion in the feature
さらに高い認識性能を得るために特徴量を判別しやすい特徴量に行列変換する写像処理や雑音等の環境の影響などを低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮などの特徴量変換が用いられることがある。写像処理や正規化処理、次元圧縮などの特徴量変換によって、音響スコアが変わってしまい、新たな特徴量を導入する都度に、言語重み、単語挿入ペナルティ、ビーム幅といった音声認識時の認識パラメータを最適値に更新する必要がある。この時、音響モデルパラメータのレンジが大きく変わる場合は、認識パラメータの最適化処理に時間がかかる不都合がある。 In order to obtain higher recognition performance, mapping processing that transforms features into features that are easy to distinguish, normalization processing that reduces noise and other environmental effects such as noise, and feature amounts for speedup Feature quantity conversion such as dimension compression that reduces the number of dimensions may be used. Each time a new feature is introduced, the recognition parameters for speech recognition, such as language weight, word insertion penalty, and beam width, change due to feature conversion such as mapping, normalization, and dimension compression. It is necessary to update to the optimum value. At this time, if the range of the acoustic model parameter changes greatly, there is a disadvantage that it takes time to optimize the recognition parameter.
この発明では各特徴量次元の値に対して、パラメータレンジ変換係数kを乗算することで、特徴量変換前後のスコアが変動しないように調整することを特徴とする。
具体的には、この発明による音響モデルパラメータ更新処理方法は入力音声信号の特徴量を抽出し、抽出した特徴量を特徴量変換処理し、特徴量変換処理した変換特徴量を音響モデルパラメータ、言語モデルパラメータ、認識パラメータと照合し、照合尤度が最も大きいモデルが表現する音声単位を認識結果として出力する音声認識に用いる音響モデルパラメータを、適応すべき入力音声の特徴量に適応化処理する音響モデルパラメータ更新処理方法であって、抽出した特徴量の特徴量変換処理後に、特徴量の各次元にパラメータレンジ変換係数kを乗算し、特徴量変換前後での音響スコアのレンジ変動を抑えることを特徴とする。
The present invention is characterized in that the value before and after the feature amount conversion is adjusted so as not to fluctuate by multiplying the value of each feature amount dimension by a parameter range conversion coefficient k.
Specifically, the acoustic model parameter update processing method according to the present invention extracts a feature amount of an input audio signal, performs a feature amount conversion process on the extracted feature amount, and converts the converted feature amount into an acoustic model parameter, language The acoustic model parameters used for speech recognition that are collated with model parameters and recognition parameters and output as a recognition result the speech unit represented by the model with the largest likelihood of matching. This is a model parameter update processing method, and after the feature amount conversion processing of the extracted feature amount, each dimension of the feature amount is multiplied by the parameter range conversion coefficient k to suppress the range variation of the acoustic score before and after the feature amount conversion. Features.
この発明による音響モデルパラメータ更新処理方法は、更に、前記記載の音響モデルパラメータ更新処理方法において、前記特徴量変換処理前後の分散に基づくスコアが同等になるようにパラメータレンジ変換係数kを算出することを特徴とする。
この発明による音響モデルパラメータ更新方法は更に、前記記載の音響モデルパラメータ更新方法において、前記特徴量変換処理前の学習スコアを保持し、特徴量変換処理後の学習スコアが同一になるように、パラメータレンジ変換係数kを算出することを特徴とする。
The acoustic model parameter update processing method according to the present invention further calculates a parameter range conversion coefficient k in the acoustic model parameter update processing method described above so that scores based on variances before and after the feature amount conversion processing are equal. It is characterized by.
The acoustic model parameter update method according to the present invention is further characterized in that, in the acoustic model parameter update method described above, the learning score before the feature amount conversion processing is retained, and the learning score after the feature amount conversion processing is the same. A range conversion coefficient k is calculated.
この発明による音響モデルパラメータ更新処理方法は、更に既存の音響モデルパラメータを格納した音響モデルパラメータメモリを備え、入力音声信号の特徴量を抽出する特徴量抽出処理と、特徴量抽出処理で抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換処理を行う特徴量変換処理と、音響モデルパラメータメモリに格納された音響モデルパラメータに対し、前記特徴量変換処理と同等の特徴量変換処理を行うモデルパラメータ変換処理と、音響モデルパラメータメモリに格納された音響モデルパラメータに所属する分散パラメータと、モデルパラメータ変換処理で特徴量変換したモデルパラメータに所属する分散パラメータから、パラメータレンジ変換係数を算出するレンジ計算処理と、モデルパラメータ変換処理で特徴量変換した特徴量変換後音響モデルパラメータの各次元にパラメータレンジ変換係数を乗算し、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換処理と、特徴量変換処理で特徴量変換した変換特徴量とレンジ変換後音響モデルパラメータにより更新された音響モデルパラメータを得る音響モデル学習処理とを含むことを特徴とする。 The acoustic model parameter update processing method according to the present invention further includes an acoustic model parameter memory storing existing acoustic model parameters, and a feature amount extraction process for extracting a feature amount of an input audio signal and a feature extracted by the feature amount extraction process. Includes mapping processing that transforms quantities into features that are easy to discriminate, normalization processing that removes noise and other environmental effects, and dimensional compression processing that reduces the number of feature dimensions for speedup Feature amount conversion processing for performing feature amount conversion processing, model parameter conversion processing for performing feature amount conversion processing equivalent to the feature amount conversion processing on the acoustic model parameters stored in the acoustic model parameter memory, and acoustic model parameter memory Distributed parameters belonging to the acoustic model parameters stored in the Range conversion by calculating the parameter range conversion coefficient from the dispersion parameter belonging to the parameter, and by multiplying each dimension of the acoustic model parameter after the feature amount converted by the model parameter conversion process by the parameter range conversion coefficient Including a model parameter range conversion process for obtaining a post-acoustic model parameter, an acoustic model learning process for obtaining an acoustic model parameter updated by the converted feature quantity and the acoustic model parameter after the range conversion, and a feature quantity converted by the feature quantity conversion process. Features.
この発明による音響モデルパラメータ更新処理方法は特徴量変換前学習スコアを備えた音響モデルパラメータを格納した音響モデルパラメータメモリを備え、入力音声信号の特徴量を抽出する特徴量抽出処理と、特徴量抽出処理で抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換処理と、特徴量変換処理で得られる特徴量変換された特徴量から音響パラメータメモリに格納した音響パラメータの音響モデルを学習し、特徴量変換後学習スコアと共に特徴量変換後音響モデルパラメータを生成する音響モデル学習処理と、音響モデル学習処理で生成した特徴量変換後音響モデルと特徴量変換後学習スコアを格納する特徴量変換後音響モデルパラメータ格納処理と、特徴量変換後音響モデルパラメータ格納処理で格納した特徴量変換後学習スコアと音響モデルパラメータメモリに格納された特徴量変換前学習スコアとからパラメータレンジ変換係数を計算するレンジ計算処理と、特徴量変換後音響モデルパラメータ格納処理で格納した特徴量変換後音響パラメータを前記パラメータレンジ変換係数を用いてレンジ変換処理を行い、レンジ変換後の音響モデルパラメータを得るモデルパラメータレンジ変換処理とを含むことを特徴とする。 The acoustic model parameter update processing method according to the present invention includes an acoustic model parameter memory storing an acoustic model parameter having a learning score before feature amount conversion, a feature amount extraction process for extracting a feature amount of an input speech signal, and a feature amount extraction Mapping process that transforms feature quantities extracted by processing into easy-to-discriminate feature quantities, normalization process to remove noise and other environmental effects such as noise, and feature dimension reduction for speedup After learning the acoustic parameters of the acoustic parameters stored in the acoustic parameter memory from the feature quantities converted by the feature quantity conversion process, which performs feature quantity conversion including dimension compression processing, and after the feature quantity conversion Acoustic model learning process for generating acoustic model parameters after feature quantity conversion together with learning score, and acoustic model after feature quantity conversion generated by acoustic model learning process And the feature model stored in the acoustic model parameter memory and the acoustic model parameter storage process after the feature quantity conversion, the learning score after the feature quantity conversion stored in the acoustic model parameter storage process after the feature quantity conversion, and the acoustic model parameter memory A range calculation process for calculating a parameter range conversion coefficient from a pre-conversion learning score, and a range conversion process using the parameter range conversion coefficient for the acoustic parameter after the feature quantity conversion stored in the acoustic model parameter storage process after the feature quantity conversion. And a model parameter range conversion process for obtaining an acoustic model parameter after the range conversion.
この発明による音響モデルパラメータ更新処理装置は、既存の音響モデルパラメータを格納した音響モデルパラメータメモリと、入力音声信号の特徴量を抽出する特徴量抽出手段と、特徴量抽出手段が抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換手段と、音響モデルパラメータメモリに格納された音響モデルパラメータに対し、特徴量変換手段と同等の特徴量変換を行うモデルパラメータ変換手段と、音響モデルパラメータメモリに格納された音響モデルパラメータに所属する分散パラメータと、モデルパラメータ変換手段で特徴量変換したモデルパラメータに所属する分散パラメータから、パラメータレンジ変換係数kを算出するレンジ計算手段と、モデルパラメータ変換手段が特徴量変換した特徴量変換後音響モデルパラメータの各次元に前記パラメータレンジ変換係数を乗算し、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換手段と、特徴量変換手段が特徴量変換した変換特徴量と前記レンジ変換後音響モデルパラメータにより更新された音響モデルパラメータを得る音響モデル学習手段とを備える構成としたことを特徴とする。 The acoustic model parameter update processing device according to the present invention includes an acoustic model parameter memory storing existing acoustic model parameters, a feature amount extracting unit for extracting a feature amount of an input audio signal, and a feature amount extracted by the feature amount extracting unit. Features including mapping processing that transforms matrix into features that are easy to discriminate, normalization processing that removes noise and other environmental effects, and dimensional compression processing that reduces the number of feature dimensions for speedup Feature quantity conversion means for performing conversion, model parameter conversion means for performing feature quantity conversion equivalent to the feature quantity conversion means for the acoustic model parameters stored in the acoustic model parameter memory, and acoustic data stored in the acoustic model parameter memory The distributed parameter belonging to the model parameter and the model parameter converted by the model parameter conversion means Range calculation means for calculating the parameter range conversion coefficient k from the dispersion parameter, and each dimension of the acoustic model parameter after the feature quantity conversion converted by the model parameter conversion means by the parameter range conversion coefficient is multiplied by the parameter range conversion coefficient. Model parameter range conversion means for obtaining model parameters, and a conversion feature quantity converted by the feature quantity conversion means and an acoustic model learning means for obtaining an acoustic model parameter updated by the range-converted acoustic model parameters It is characterized by that.
この発明による音響モデルパラメータ更新処理装置は更に、特徴量変換前学習スコアを備えた音響モデルパラメータを格納した音響モデルパラメータメモリと、入力音声信号の特徴量を抽出する特徴量抽出手段と、特徴量抽出手段が抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換手段と、特徴量変換手段で得られる特徴量変換された特徴量から音響パラメータメモリに格納した音響パラメータの音響モデルを学習し、変換後学習スコアと共に特徴量変換後音響モデルパラメータを生成する音響モデル学習手段と、音響モデル学習手段が生成した特徴量変換後音響モデルと特徴量変換後学習スコアを格納する特徴量変換後音響モデルパラメータメモリと、特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後学習スコアと音響モデルパラメータメモリに格納された特徴量変換前学習スコアとからパラメータレンジ変換係数を計算するレンジ計算処理と、特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後音響パラメータをパラメータレンジ係数を用いてレンジ変換処理を行い、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換処理と、モデルパラメータレンジ変換手段で得られたレンジ変換後音響モデルパラメータを格納するレンジ変換後音響モデルパラメータメモリとを備える構成としたことを特徴とする。 The acoustic model parameter update processing device according to the present invention further includes an acoustic model parameter memory storing an acoustic model parameter having a learning score before feature amount conversion, a feature amount extracting unit for extracting a feature amount of an input speech signal, and a feature amount Mapping process that transforms extracted feature values into easy-to-discriminate feature values, normalization processing to reduce noise and other environmental effects such as noise, and feature size reduction for speed Learns the acoustic model of the acoustic parameters stored in the acoustic parameter memory from the feature quantity converted by the feature quantity conversion means obtained by the feature quantity conversion means, and performs post-conversion learning. An acoustic model learning means for generating an acoustic model parameter after feature quantity conversion together with the score, and an acoustic model after the feature quantity conversion generated by the acoustic model learning means; A post-feature conversion acoustic model parameter memory that stores a post-conversion learning score, a post-feature conversion learning score stored in the post-feature conversion acoustic model parameter memory, and a pre-feature conversion stored in the acoustic model parameter memory A range calculation process that calculates the parameter range conversion coefficient from the learning score, and a range conversion process that uses the parameter range coefficient for the acoustic parameter after the feature amount conversion stored in the acoustic model parameter memory after the feature amount conversion. A model parameter range conversion process for obtaining an acoustic model parameter and a range-converted acoustic model parameter memory for storing the range-converted acoustic model parameter obtained by the model parameter range conversion unit are characterized.
この発明による音響モデルパラメータ更新処理プログラムは、コンピュータが解読可能なプログラム言語によって記述され、コンピュータに前記記載の音響モデルパラメータ更新処理装置として機能させるプログラムである。
この発明による記録媒体はコンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に前記記載の音響モデルパラメータ更新処理プログラムを記録したことを特徴とする。
The acoustic model parameter update processing program according to the present invention is a program described in a computer-readable program language, and causes the computer to function as the acoustic model parameter update processing device described above.
The recording medium according to the present invention is constituted by a computer-readable recording medium, and the acoustic model parameter update processing program described above is recorded on the recording medium.
特徴量の変更(変換)に伴う、言語重み、単語挿入ペナルティやビーム幅等の認識パラメータの最適化のための計算処理量が低減される。
さらに、音響スコアのレンジも安定するために、特徴量変換処理後に音響モデルパラメータを追加学習する際、高速化のためにスコアを量子化している場合などにおいて、スコアのオーバーフローを起こす可能性を低減できる。
The amount of calculation processing for optimizing recognition parameters such as language weights, word insertion penalties and beam widths associated with the change (conversion) of the feature amount is reduced.
Furthermore, since the range of the acoustic score is stable, when the acoustic model parameters are additionally learned after the feature conversion process, the possibility of score overflow is reduced when the score is quantized for speeding up. it can.
この発明による音響モデルパラメータ更新処理装置を実施する場合、全てをハードウェアによって構成することも可能であるが、最も簡素に実現するにはコンピュータに、この発明による音響モデルパラメータ更新処理プログラムをインストールし、インストールしたプログラムをコンピュータに備えたCPUに解読させ、実行させることにより、コンピュータに音響モデルパラメータ更新処理装置として機能させ、この発明による音響モデルパラメータ更新処理方法を実行させる実施形態が最良の実施形態である。
コンピュータをこの発明による音響モデル適応化処理装置として機能させるには、コンピュータに既存の音響モデルパラメータを格納した音響モデルパラメータメモリと、入力音声信号の特徴量を抽出する特徴量抽出手段と、特徴量抽出手段が抽出した特徴量を特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換手段と、音響モデルパラメータメモリに格納された音響モデルパラメータに対し、特徴量変換手段と同等の特徴量変換を行うモデルパラメータ変換手段と、音響モデルパラメータメモリに格納された音響モデルパラメータに所属する分散パラメータと、モデルパラメータ変換手段で特徴量変換したモデルパラメータに所属する分散パラメータから、パラメータレンジ変換係数を算出するレンジ計算手段と、モデルパラメータ変換手段が特徴量変換した特徴量変換後音響モデルパラメータの各次元にパラメータレンジ変換係数を乗算し、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換手段と、特徴量変換手段が特徴量変換した変換特徴量とレンジ変換後音響モデルパラメータにより更新された音響モデルパラメータを得る音響モデル学習手段とを構築し、音響モデルパラメータ更新処理装置として機能させる第1の実施形態と、
コンピュータに特徴量変換前学習スコアを備えた音響モデルパラメータを格納した音響モデルパラメータメモリと、入力音声信号の特徴量を抽出する特徴量抽出手段と、特徴量抽出手段が抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換手段と、特徴量変換手段で得られる特徴量変換された特徴量から音響パラメータメモリに格納した音響パラメータの音響モデルを学習し、特徴量変換後学習スコアと共に特徴量変換後音響モデルパラメータを生成する音響モデル学習手段と、音響モデル学習手段が生成した特徴量変換後音響モデルと特徴量変換後学習スコアを格納する特徴量変換後音響モデルパラメータメモリと、特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後学習スコアと音響モデルパラメータメモリに格納された特徴量変換前学習スコアとからパラメータレンジ変換係数を計算するレンジ計算処理と、特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後音響パラメータをパラメータレンジ変換係数を用いてレンジ変換処理を行い、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換処理と、モデルパラメータレンジ変換手段で得られたレンジ変換後音響モデルパラメータを格納するレンジ変換後音響モデルパラメータメモリとを構築し、音響モデルパラメータ更新処理装置として機能させる第2の実施形態とが考えられる。
When the acoustic model parameter update processing device according to the present invention is implemented, it is possible to configure everything by hardware, but in order to realize the simplest, the acoustic model parameter update processing program according to the present invention is installed in a computer. The best embodiment is an embodiment in which a computer equipped with a computer decodes and executes an installed program to cause the computer to function as an acoustic model parameter update processing device and execute the acoustic model parameter update processing method according to the present invention. It is.
In order for a computer to function as an acoustic model adaptation processing device according to the present invention, an acoustic model parameter memory storing existing acoustic model parameters in the computer, a feature amount extraction means for extracting feature amounts of an input speech signal, and feature amounts Mapping process that transforms the feature quantity extracted by the extraction means into a feature quantity that makes it easy to distinguish the feature quantity, normalization process to reduce noise and other environmental effects such as noise, and dimension of feature quantity for speedup Feature quantity conversion means for performing feature quantity conversion including dimensional compression processing for reducing the number, and model parameter conversion means for performing feature quantity conversion equivalent to the feature quantity conversion means for the acoustic model parameters stored in the acoustic model parameter memory Distributed parameters belonging to the acoustic model parameters stored in the acoustic model parameter memory, and model parameter variables Parameter range conversion to each dimension of the range calculation means for calculating the parameter range conversion coefficient from the distributed parameters belonging to the model parameters converted by the means, and the feature model converted acoustic model parameters converted by the model parameter conversion means A model parameter range conversion unit that multiplies a coefficient to obtain an acoustic model parameter after range conversion, and an acoustic model that obtains an acoustic model parameter updated by the converted feature amount and feature value converted by the feature amount conversion unit and the acoustic model parameter after range conversion A first embodiment for constructing learning means and functioning as an acoustic model parameter update processing device;
An acoustic model parameter memory storing an acoustic model parameter having a learning score before feature amount conversion in a computer, a feature amount extracting unit for extracting a feature amount of an input speech signal, and a feature amount extracted by the feature amount extracting unit Performs feature conversion including mapping processing that performs matrix conversion into easy-to-use feature amounts, normalization processing to reduce noise and other environmental effects, and dimension compression processing to reduce the number of feature dimensions for speedup. A feature amount conversion unit to perform, learns an acoustic model of an acoustic parameter stored in the acoustic parameter memory from the feature amount converted feature amount obtained by the feature amount conversion unit, and a feature amount converted acoustic model together with a feature amount converted learning score An acoustic model learning means for generating parameters, a feature model converted acoustic model generated by the acoustic model learning means, and a feature score converted learning score The parameter range conversion coefficient is calculated from the acoustic model parameter memory after quantity conversion, the learning score after feature quantity conversion stored in the acoustic model parameter memory after feature quantity conversion, and the learning score before feature quantity conversion stored in the acoustic model parameter memory. Model parameter range conversion to obtain acoustic model parameters after range conversion by performing range conversion processing on the acoustic parameters after feature value conversion stored in the acoustic model parameter memory after feature value conversion using the parameter range conversion coefficient A second embodiment in which a process and a range-converted acoustic model parameter memory for storing a range-converted acoustic model parameter obtained by the model parameter range conversion unit is constructed and functions as an acoustic model parameter update processing device is considered. It is done.
実施形態1では各分布の分散パラメータに着目し、特徴量変換前後の分散に基づくスコアが同じになるように、パラメータレンジ変換係数kを算出する。
実施形態2では変換前の学習スコアを保持しておき、特徴量変換前後の学習スコアが同一になるように、パラメータレンジ変換係数kを算出する。
In the first embodiment, paying attention to the dispersion parameter of each distribution, the parameter range conversion coefficient k is calculated so that the scores based on the dispersion before and after the feature amount conversion are the same.
In the second embodiment, the learning score before conversion is held, and the parameter range conversion coefficient k is calculated so that the learning scores before and after the feature amount conversion are the same.
図1に実施形態1に対応する、この発明による音響モデルパラメータ更新処理装置の実施例を示す。図1に示す実施例でも音声信号入力端子11から入力された音声入力信号は、A/D変換手段12においてディジタル信号に変換され、そのディジタル信号から特徴量抽出手段13において音声特徴量を抽出し、抽出した特徴量を特徴量変換手段19で、高い認識性能を得るために特徴量を判別しやすい特徴量に行列変換する写像処理や、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮などの特徴量変換を行うまでの構成及び動作は図5で説明した音声認識装置と同じである。
FIG. 1 shows an example of an acoustic model parameter update processing device according to the present invention corresponding to the first embodiment. Also in the embodiment shown in FIG. 1, the voice input signal inputted from the voice
この発明では音声信号入力端子11に入力される音声信号の特徴量を用いて音響モデルパラメータメモリ14に格納されている既存の音響モデルパラメータを適応化し、更新処理することを目的とするものである。
音響モデルパラメータ14に格納されている音響スコアは、一般に音響モデルの分布パラメータ(平均、分散、重み)に基づく確率密度関数の出力である確率値を対数化したものが用いられる。
数式2に示すとおり、特徴量にパラメータレンジ変換係数kをかけると、各分布毎に-log(k)のスコアの値が変化する。
ここで、数式3に示すとおり、分散に基づくスコアに着目し、行列変換及び次元圧縮前後の分散ベースのスコアが同じになるように、パラメータレンジ変換係数kを計算しておく。
The object of the present invention is to adapt and update an existing acoustic model parameter stored in the acoustic
The acoustic score stored in the
As shown in Equation 2, when the parameter range conversion coefficient k is applied to the feature amount, the score value of -log (k) changes for each distribution.
Here, as shown in Equation 3, paying attention to the score based on variance, the parameter range transformation coefficient k is calculated so that the variance-based scores before and after matrix transformation and dimension compression are the same.
この実施例1では、音響モデルパラメータメモリ14に格納されている平均値、分散パラメータに対して、特徴量変換手段19と同じ特徴量変換モデルをモデルパラメータ変換手段44で施し、特徴量変換後音響モデルパラメータメモリ31に特徴量変換後のモデルパラメータを格納する。音響モデルパラメータメモリ14と特徴量変換後音響モデルパラメータメモリ31に格納されている分散パラメータからパラメータレンジ変換係数kをレンジ計算部41から得る(数式2、数式3参照)。モデルパラメータレンジ変換手段45において、特徴量変換後音響モデルパラメータメモリ31に格納されているモデルパラメータを、レンジ計算部41で得られたパラメータレンジ変換係数kでレンジ変換し、レンジ変換後音響モデルパラメータメモリ42に格納する。更に、レンジ変換後音響モデルパラメータメモリ42と、特徴量変換手段19で得られた特徴量から音響モデル学習手段46で音響モデルを学習し、学習により得られたレンジ変換後学習音響モデルパラメータを、更新処理された音響モデルパラメータとしてレンジ変換後学習モデルパラメータメモリ43に格納する。レンジ変換後学習音響モデルパラメータメモリ43に格納されたレンジ変換後学習音響モデルパラメータは音響モデルパラメータメモリ14に移され、その後、音声認識用の音響パラメータとして利用される。
In the first embodiment, the model
図2に上記実施形態2に対応する実施例を示す。上述した実施例1では、分散のみに基づくスコアで、パラメータレンジ変換係数kを求めていたため、レンジ変換処理によって平均パラメータに基づくスコアの変動を無視する近似を含む。
これに対し、この実施例2では、特徴量変換前の特徴量における学習スコアTS_特徴量変換前、が保持されている場合は、特徴量変換後の特徴量での学習スコアTS_特徴量変換後、とレンジ変換に基づく分散に基づくスコア差ΔSの総和が、同じになるように数式3で示したようにパラメータレンジ係数kを求め、スコアレンジの変動を抑える。
FIG. 2 shows an example corresponding to the second embodiment. In the first embodiment described above, the parameter range conversion coefficient k is obtained with a score based only on the variance, and therefore includes an approximation that ignores the variation in score based on the average parameter by the range conversion processing.
On the other hand, in the second embodiment, when the learning score TS_before the feature amount conversion in the feature amount before the feature amount conversion is held, the learning score TS_feature amount in the feature amount after the feature amount conversion is retained. After the conversion, the parameter range coefficient k is obtained as shown in Equation 3 so that the sum of the score differences ΔS based on the variance based on the range conversion is the same, and the fluctuation of the score range is suppressed.
この実施例2では、音響モデルパラメータメモリ14には、学習時の特徴量変換前スコアが格納されている。特徴量変換手段19で得られた特徴量から音響モデル学習手段46で音響モデルを学習し、特徴量変換後学習スコアとともに、特徴量変換後音響モデルパラメータメモリ31に格納する。音響モデルパラメータメモリ14中の特徴量変換前学習スコアと、特徴量変換後音響モデルパラメータメモリ31中の特徴量変換後学習スコアからレンジ計算手段41で、パラメータレンジ変換係数kを計算する。得られたパラメータレンジ変換係数kを用いて、音響モデルパラメータメモリ31に格納されているモデルパラメータをモデルパラメータレンジ変換手段45でレンジ変換処理を行い、レンジ変換後音響モデルパラメータメモリ42に格納する。
更に、繰り返し学習処理を行った場合にも、同様の処理を行い、レンジ変換を行うことで、学習スコアの安定化を図れる。実施例2は、特徴量変換処理による特徴量の変換以外にも、元の音響モデルと特徴量と、全く異なる特徴量の音響モデルでのスコアのレンジを合せる場合にも用いることができる。
In the second embodiment, the acoustic
Furthermore, even when the learning process is repeatedly performed, the learning score can be stabilized by performing the same process and performing range conversion. The second embodiment can be used not only for the conversion of the feature amount by the feature amount conversion process but also for the case where the original acoustic model and the feature amount are combined with the score range of the acoustic model having a completely different feature amount.
図3に変形実施例を示す。この実施例では特徴量変換を写像行列Pを用いて行われる場合を示す。この場合はパラメータレンジ変換係数kを、特徴量写像行列Pにかけたものを、新たな写像行列P'(=kP)とすれば良い。すなわち、特徴量変換手段19とレンジ変換手段21の処理をまとめて、拡張特徴量変換手段22の処理で行うことになる。
モデルパラメータ変換係数kは、レンジ変換後音響モデルパラメータ42に格納しておけばよい。
FIG. 3 shows a modified embodiment. In this embodiment, the case where the feature amount conversion is performed using the mapping matrix P is shown. In this case, the parameter range conversion coefficient k multiplied by the feature amount mapping matrix P may be a new mapping matrix P ′ (= kP). That is, the processing of the feature
The model parameter conversion coefficient k may be stored in the
図4に本発明によって構築した音響モデルを用いて音声認識を行なう音声認識装置の構成を示す。本発明で構築した音響モデルは図1に示した実施例で構築したレンジ変換後学習音響モデルパラメータメモリ43と、図2に示した実施例で構築したレンジ変換後音響モデルパラメータメモリ42に格納された音響モデルである。音声認識時には、これらの音響モデルの何れか一方を用いてレンジ変換係数kを読み出し、レンジ変換係数kを特徴量レンジ変換手段71で入力音声信号から抽出した特徴量に乗算し、特徴量レンジ変換を行なった後、モデル照合尤度計算手段17で照合尤度の計算を実行し、音声認識を行なう。
FIG. 4 shows the configuration of a speech recognition apparatus that performs speech recognition using an acoustic model constructed according to the present invention. The acoustic model constructed by the present invention is stored in the range-converted learning acoustic
上述した本発明による音響モデルパラメータ更新処理装置は全てをハードウェアによって構成することもできるが、最も簡素に実現するにはコンピュータに本発明による音響モデルパラメータ更新処理プログラムをインストールし、コンピュータに音響モデルパラメータ更新処理装置として機能させる実施形態が最良である。
本発明による音響モデルパラメータ更新処理プログラムは、コンピュータが解読可能なプログラム言語によって記述される。このプログラムはコンピュータが読み取り可能な例えば磁気ディスク、CD−ROM、半導体メモリ等の記録媒体に記録される。コンピュータにはこれらの記録媒体或は通信回線を通じてインストールされ、コンピュータに備えられたCPUによって解読され上述した音響モデルパラメータ更新処理装置として機能する。
The above-described acoustic model parameter update processing device according to the present invention can be entirely configured by hardware. However, in order to achieve the simplest, the acoustic model parameter update processing program according to the present invention is installed in a computer, and the acoustic model is installed in the computer. The embodiment that functions as the parameter update processing device is the best.
The acoustic model parameter update processing program according to the present invention is described in a computer-readable program language. This program is recorded in a computer-readable recording medium such as a magnetic disk, CD-ROM, or semiconductor memory. The computer is installed through these recording media or communication lines, is decoded by a CPU provided in the computer, and functions as the above-described acoustic model parameter update processing device.
音声認識装置の利用分野で活用される。 Used in the field of speech recognition devices.
11 音声信号入力端子
12 A/D変換手段
13 特徴量抽出手段
14 音響モデルパラメータメモリ
15 言語モデルパラメータメモリ
16 認識パラメータメモリ
17 モデル照合尤度計算手段
18 認識結果出力手段
19 特徴量変換手段
21 レンジ変換手段
22 拡張特徴量変換手段変換手段
31 変換後音響モデルパラメータメモリ
41 レンジ計算手段
42 レンジ変換後音響モデルパラメータメモリ
43 レンジ変換後学習音響モデルパラメータメモリ
44 モデルパラメータ変換手段
45 モデルパラメータレンジ
46 音響モデル学習手段
11 Audio signal input terminal
12 A / D conversion means
13 Feature value extraction means
14 Acoustic model parameter memory
15 Language model parameter memory
16 Recognition parameter memory
17 Model matching likelihood calculation means
18 Recognition result output means
19 Feature value conversion means
21 Range conversion means
22 extended feature amount conversion means conversion means 31 converted acoustic
42 Acoustic model parameter memory after
Claims (8)
入力音声信号の特徴量を抽出する特徴量抽出処理と、
前記特徴量抽出処理で抽出した特徴量を行列変換する写像処理、雑音除去を行う正規化処理、特徴量の次元数を削減する次元圧縮処理のうちの何れか1つ以上を含む特徴量変換処理を行う特徴量変換処理と、
前記音響モデルパラメータメモリに格納された音響モデルパラメータに対し、前記特徴量変換処理と同等の特徴量変換処理を行うモデルパラメータ変換処理と、
音響モデルパラメータメモリに格納された音響モデルパラメータに所属する分散パラメータと、前記モデルパラメータ変換処理で特徴量変換したモデルパラメータに所属する分散パラメータから、パラメータレンジ変換係数を算出するレンジ計算処理と、
前記モデルパラメータ変換処理で特徴量変換した特徴量変換後音響モデルパラメータの各次元に前記パラメータレンジ変換係数を乗算し、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換処理と、
前記特徴量変換処理で特徴量変換した変換特徴量と前記レンジ変換後音響モデルパラメータにより更新された音響モデルパラメータを得る音響モデル学習処理と、
を含むことを特徴とする音響モデルパラメータ更新処理方法。 It has an acoustic model parameter memory that stores existing acoustic model parameters,
A feature amount extraction process for extracting a feature amount of an input audio signal;
Mapping process of extracting feature amounts of matrix converted by the feature amount extraction processing, normalized process for removed by noise removal, one or more one of the dimensional compression process to reduce the number of dimensions of feature parameters A feature value conversion process for performing a feature value conversion process including:
A model parameter conversion process for performing a feature quantity conversion process equivalent to the feature quantity conversion process for the acoustic model parameters stored in the acoustic model parameter memory;
A range calculation process for calculating a parameter range conversion coefficient from a dispersion parameter belonging to the acoustic model parameter stored in the acoustic model parameter memory and a dispersion parameter belonging to the model parameter converted by the model parameter conversion process;
A model parameter range conversion process for obtaining an acoustic model parameter after range conversion by multiplying each dimension of the acoustic model parameter after characteristic amount conversion converted by the model parameter conversion process by the parameter range conversion coefficient;
An acoustic model learning process for obtaining an acoustic model parameter updated by the converted feature quantity converted by the feature quantity conversion process and the acoustic model parameter after the range conversion;
The acoustic model parameter update processing method characterized by including.
入力音声信号の特徴量を抽出する特徴量抽出処理と、
前記特徴量抽出処理で抽出した特徴量を行列変換する写像処理、雑音除去を行う正規化処理、特徴量の次元数を削減する次元圧縮処理のうちの何れか1つ以上を含む特徴量変換を行う特徴量変換処理と、
前記特徴量変換処理で得られる特徴量変換された特徴量から前記音響パラメータメモリに格納した音響パラメータの音響モデルを学習し、特徴量変換後学習スコアと共に特徴量変換後音響モデルパラメータを生成する音響モデル学習処理と、
前記音響モデル学習処理で生成した特徴量変換後音響モデルと特徴量変換後学習スコアを格納する特徴量変換後音響モデルパラメータ格納処理と、
前記特徴量変換後音響モデルパラメータ格納処理で格納した特徴量変換後学習スコアと前記音響モデルパラメータメモリに格納された特徴量変換前学習スコアとからパラメータレンジ変換係数を計算するレンジ計算処理と、
前記特徴量変換後音響モデルパラメータ格納処理で格納した特徴量変換後音響パラメータを前記パラメータレンジ変換係数を用いてレンジ変換処理を行い、レンジ変換後の音響モデルパラメータを得るモデルパラメータレンジ変換処理と、
を含むことを特徴とする音響モデルパラメータ更新処理方法。 An acoustic model parameter memory storing acoustic model parameters having a learning score before feature conversion is provided,
A feature amount extraction process for extracting a feature amount of an input audio signal;
Mapping process of extracting feature amounts of matrix converted by the feature amount extraction processing, normalized process for removed by noise removal, one or more one of the dimensional compression process to reduce the number of dimensions of feature parameters A feature amount conversion process for performing feature amount conversion including,
An acoustic model that learns an acoustic model of an acoustic parameter stored in the acoustic parameter memory from the feature quantity converted by the feature quantity conversion process, and generates an acoustic model parameter after feature quantity conversion together with a learning score after feature quantity conversion Model learning process,
A feature value-converted acoustic model parameter storing process for storing a feature-value-converted acoustic model generated by the acoustic model learning process and a feature-value-converted learning score;
A range calculation process for calculating a parameter range conversion coefficient from the post-feature conversion learning score stored in the post-feature conversion acoustic model parameter storage process and the pre-feature conversion learning score stored in the acoustic model parameter memory;
A model parameter range conversion process for obtaining an acoustic model parameter after the range conversion by performing a range conversion process on the acoustic parameter after the feature quantity conversion stored in the acoustic model parameter storage process after the feature amount conversion using the parameter range conversion coefficient;
The acoustic model parameter update processing method characterized by including.
入力音声信号の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段が抽出した特徴量を行列変換する写像処理、雑音除去を行う正規化処理、特徴量の次元数を削減する次元圧縮処理のうちの何れか1つ以上を含む特徴量変換を行う特徴量変換手段と、
前記音響モデルパラメータメモリに格納された音響モデルパラメータに対し、前記特徴量変換手段と同等の特徴量変換を行うモデルパラメータ変換手段と、
音響モデルパラメータメモリに格納された音響モデルパラメータに所属する分散パラメータと、前記モデルパラメータ変換手段で特徴量変換したモデルパラメータに所属する分散パラメータから、パラメータレンジ変換係数を算出するレンジ計算手段と、
前記モデルパラメータ変換手段が特徴量変換した特徴量変換後音響モデルパラメータの各次元に前記パラメータレンジ変換係数を乗算し、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換手段と、
前記特徴量変換手段が特徴量変換した変換特徴量と前記レンジ変換後音響モデルパラメータにより更新された音響モデルパラメータを得る音響モデル学習手段と、
を備える構成としたことを特徴とする音響モデルパラメータ更新処理装置。 Acoustic model parameter memory storing existing acoustic model parameters;
Feature quantity extraction means for extracting the feature quantity of the input audio signal;
Mapping process for feature amounts matrix transform the feature amount extracting means has extracted, normalized process for removed by noise removal, one or more one of the dimensionality reduction process for reducing the dimensionality of feature parameters Feature quantity conversion means for performing feature quantity conversion including:
Model parameter conversion means for performing feature quantity conversion equivalent to the feature quantity conversion means for the acoustic model parameters stored in the acoustic model parameter memory;
A range calculation means for calculating a parameter range conversion coefficient from a dispersion parameter belonging to the acoustic model parameter stored in the acoustic model parameter memory and a dispersion parameter belonging to the model parameter converted by the model parameter conversion means;
Model parameter range conversion means for multiplying each dimension of the acoustic model parameter after feature quantity conversion by the model parameter conversion means by the parameter range conversion coefficient to obtain an acoustic model parameter after range conversion;
Acoustic model learning means for obtaining a converted feature value converted by the feature value conversion means and an acoustic model parameter updated by the acoustic model parameter after range conversion;
An acoustic model parameter update processing device characterized by comprising:
入力音声信号の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段が抽出した特徴量を行列変換する写像処理、雑音除去を行う正規化処理、特徴量の次元数を削減する次元圧縮処理のうちの何れか1つ以上を含む特徴量変換を行う特徴量変換手段と、
前記特徴量変換手段で得られる特徴量変換された特徴量から前記音響パラメータメモリに格納した音響パラメータの音響モデルを学習し、特徴量変換後学習スコアと共に特徴量変換後音響モデルパラメータを生成する音響モデル学習手段と、
前記音響モデル学習手段が生成した特徴量変換後音響モデルと特徴量変換後学習スコアを格納する特徴量変換後音響モデルパラメータメモリと、
前記特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後学習スコアと前記音響モデルパラメータメモリに格納された特徴量変換前学習スコアとからパラメータレンジ変換係数を計算するレンジ計算処理と、
前記特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後音響パラメータを前記パラメータレンジ変換係数を用いてレンジ変換処理を行い、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換処理と、
前記モデルパラメータレンジ変換手段で得られたレンジ変換後音響モデルパラメータを格納するレンジ変換後音響モデルパラメータメモリと、
を備える構成としたことを特徴とする音響モデルパラメータ更新処理装置。 An acoustic model parameter memory storing acoustic model parameters having a learning score before feature amount conversion;
Feature quantity extraction means for extracting the feature quantity of the input audio signal;
Mapping process for feature amounts matrix transform the feature amount extracting means has extracted, normalized process for removed by noise removal, one or more one of the dimensional compression process to reduce the number of dimensions of feature parameters Feature quantity conversion means for performing feature quantity conversion including:
Acoustic that learns an acoustic model of an acoustic parameter stored in the acoustic parameter memory from the feature quantity converted by the feature quantity conversion unit, and generates an acoustic model parameter after feature quantity conversion together with a learning score after feature quantity conversion Model learning means,
An acoustic model parameter memory after the feature amount conversion for storing the acoustic model after the feature amount conversion generated by the acoustic model learning means and a learning score after the feature amount conversion;
A range calculation process for calculating a parameter range conversion coefficient from the learning score after feature value conversion stored in the acoustic model parameter memory after feature value conversion and the learning score before feature value conversion stored in the acoustic model parameter memory;
A model parameter range conversion process for performing a range conversion process on the acoustic parameter after the feature value conversion stored in the acoustic model parameter memory after the feature value conversion using the parameter range conversion coefficient, and obtaining an acoustic model parameter after the range conversion;
Range-converted acoustic model parameter memory for storing the range-converted acoustic model parameters obtained by the model parameter range conversion means;
An acoustic model parameter update processing device characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006328029A JP4856526B2 (en) | 2006-12-05 | 2006-12-05 | Acoustic model parameter update processing method, acoustic model parameter update processing device, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006328029A JP4856526B2 (en) | 2006-12-05 | 2006-12-05 | Acoustic model parameter update processing method, acoustic model parameter update processing device, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008139747A JP2008139747A (en) | 2008-06-19 |
JP4856526B2 true JP4856526B2 (en) | 2012-01-18 |
Family
ID=39601259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006328029A Expired - Fee Related JP4856526B2 (en) | 2006-12-05 | 2006-12-05 | Acoustic model parameter update processing method, acoustic model parameter update processing device, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4856526B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5311500B2 (en) * | 2010-02-05 | 2013-10-09 | Kddi株式会社 | Voice recognition device |
US20220246138A1 (en) * | 2019-06-07 | 2022-08-04 | Nippon Telegraph And Telephone Corporation | Learning apparatus, speech recognition apparatus, methods and programs for the same |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07219577A (en) * | 1994-01-27 | 1995-08-18 | Oki Electric Ind Co Ltd | Phoneme segmentation method |
JP2690027B2 (en) * | 1994-10-05 | 1997-12-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Pattern recognition method and apparatus |
JP4461557B2 (en) * | 2000-03-09 | 2010-05-12 | パナソニック株式会社 | Speech recognition method and speech recognition apparatus |
JP3754613B2 (en) * | 2000-12-15 | 2006-03-15 | シャープ株式会社 | Speaker feature estimation device and speaker feature estimation method, cluster model creation device, speech recognition device, speech synthesizer, and program recording medium |
-
2006
- 2006-12-05 JP JP2006328029A patent/JP4856526B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008139747A (en) | 2008-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2700071B1 (en) | Speech recognition using multiple language models | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
Dua et al. | GFCC based discriminatively trained noise robust continuous ASR system for Hindi language | |
CN112435654B (en) | Data enhancement of speech data by frame insertion | |
JP5932869B2 (en) | N-gram language model unsupervised learning method, learning apparatus, and learning program | |
US8275619B2 (en) | Speech recognition | |
JP2012504250A (en) | Speech recognition method | |
JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
JP2010078877A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
JP6631883B2 (en) | Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program | |
Cucu et al. | Recent improvements of the SpeeD Romanian LVCSR system | |
JP5235187B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US6381572B1 (en) | Method of modifying feature parameter for speech recognition, method of speech recognition and speech recognition apparatus | |
JP5670298B2 (en) | Noise suppression device, method and program | |
KR100897555B1 (en) | Apparatus and method of extracting speech feature vectors and speech recognition system and method employing the same | |
JP4856526B2 (en) | Acoustic model parameter update processing method, acoustic model parameter update processing device, program, and recording medium | |
Zealouk et al. | Noise effect on Amazigh digits in speech recognition system | |
JP4950600B2 (en) | Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media | |
JP5740362B2 (en) | Noise suppression apparatus, method, and program | |
JP2016186516A (en) | Pseudo-sound signal generation device, acoustic model application device, pseudo-sound signal generation method, and program | |
JP4577543B2 (en) | Model adaptation apparatus and model adaptation method, recording medium, and speech recognition apparatus | |
JP4464797B2 (en) | Speech recognition method, apparatus for implementing the method, program, and recording medium therefor | |
CN112489646B (en) | Speech recognition method and device thereof | |
JP2008233782A (en) | Pattern matching device, program, and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110325 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111018 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111028 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141104 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |