JP3547349B2 - Acoustic model learning method - Google Patents

Acoustic model learning method Download PDF

Info

Publication number
JP3547349B2
JP3547349B2 JP27422299A JP27422299A JP3547349B2 JP 3547349 B2 JP3547349 B2 JP 3547349B2 JP 27422299 A JP27422299 A JP 27422299A JP 27422299 A JP27422299 A JP 27422299A JP 3547349 B2 JP3547349 B2 JP 3547349B2
Authority
JP
Japan
Prior art keywords
phoneme
node
continuous distribution
decision tree
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP27422299A
Other languages
Japanese (ja)
Other versions
JP2001100779A (en
Inventor
恒夫 加藤
眞吾 黒岩
宜男 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP27422299A priority Critical patent/JP3547349B2/en
Publication of JP2001100779A publication Critical patent/JP2001100779A/en
Application granted granted Critical
Publication of JP3547349B2 publication Critical patent/JP3547349B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は音響モデル学習方法に関し、特に、前後音素環境を考慮したトライフォンの音素決定木により音声認識単位を決定する方法に関する。
【0002】
【従来の技術】
現在、音声認識に用いられる音響モデルの主流はトライフォンである。トライフォンは、先行音素と中心音素と後続音素との3音素連鎖により定義され、学習データから学習によって作成される。先行音素と後続音素が中心の音素に対するる前後音素環境をなす。
【0003】
しかし、音素は40種類程度あるため、トライフォン(3音素連鎖)の総異音数は数万個のオーダーに達する。また、トライフォンが学習データに出現しなかったり、出現してもその数が極めて少ないことがある。
【0004】
上述した膨大な総異音数と、学習データに未出現や数が少ない3音素連鎖の存在のため、従来、図3に示すように、音素決定木による音声認識単位の決定手法によって、HMM(隠れマルコフモデル)の共有化を行い、パラメータを削減することが行われている。
【0005】
図3において、従来は、学習データから共有されていないトライフォン各状態(HMM)の単一連続分布を学習により作成する。ステップS11参照。
【0006】
次に、共有化を許容するトライフォン各状態(HMM)の集合(以下、ノードと呼ぶ)、つまり、中心音素が共通のHMMのノードを作成する。ステップS12参照。
【0007】
次に、各ノードについて、予め設定した前後音素環境に関する複数の決定木のうち、基準となる情報量が分割前に比べて分割後に最も向上する決定木によって、ノードの分割を行う(ステップS13〜S16参照)。以下に、ノードの分割と、基準となる情報量の計算方法を説明する。
【0008】
ノードの分割について説明する。前述のように、トライフォンは先行音素と中心音素と後続音素との3音素連鎖により定義され、ノード(トライフォンの集合)に対して音素決定木は例えば下記(1) 〜(3) に例示するように定義される。各音素決定木により1つのノードを2つのノードに分割する。
(1) 先行音素が母音(a、i、u、e、o)で、後続音素は問わない。
(2) 先行音素が鼻音(n、m、NN)で、後続音素は問わない。
(3) 後続音素が破裂音(p、t、k)で、先行音素は問わない。
【0009】
基準となる情報量の計算方法について説明する。或るノードに含まれる複数のトライフォンをそれぞれ表現するパラメータから、当該ノードを代表するパラメータを求め、この代表パラメータにより、基準となる情報量を計算する。一般的には、ノードに含まれる各トライフォンを表現する連続分布から、ノード全体を表現する連続分布を求め、基準となる情報量として、学習データに対するノード全体を表現する連続分布の尤度を利用する。
【0010】
分割後の全末端ノードに対しても、同様の分割手法で基準となる情報量が最も向上する音素決定木を選び、選んだ音素決定木によりノード分割を行う。この操作を、分割後の基準となる情報量が予め設定した閾値を超えるまで順次繰り返す(ステップS17からステップS13へのループ参照)。
【0011】
全ての分割後の末端ノードにおいて基準となる情報量が閾値を超えたら、ノードの分割を停止する(ステップS18参照)。
【0012】
以上により、同じ末端ノードに属する複数のトライフォンは、1つのHMMを共有することになる。このとき、共有するHMMとして、一般的には、末端ノードに含まれる各トライフォンをそれぞれ構成する複数の単一連続分布のうち、1つの単一連続分布を選択して出力する。つまり、1つの単一連続分布で共有するHMMを代表する。ステップS19参照。
【0013】
図4を参照すれば、従来は、共有するHMMとしては、ノード11に含まれる各トライフォン12a〜12nをそれぞれ構成する複数の単一連続分布13a〜13nのうち、いずれか1つの単一連続分布13iを選択して出力する。
【0014】
【発明が解決しようとする課題】
しかし、上述した手法は、従来、単一連続分布HMMに対して行われており、認識性能が高い混合連続分布HMMに対して音素決定木による音声認識単位の決定手法は適用されていないという第1の課題がある。
【0015】
また、上述した従来手法では、共有するHMMはノードを構成する分布の1つを選択しているため、共有する全音素環境の音響特性を表現できていないという第2の課題がある。
【0016】
そこで、本発明の目的は、上記2つの課題を解決することにある。
【0017】
【課題を解決するための手段】
請求項1に係る発明は、上記第1の課題を解決する音響モデル学習方法であり、先行音素と後続音素の音素決定木による音声認識単位の決定方法において、混合連続分布HMMを対象としてクラスタリングによりノード分割を行い、共有化を行う末端ノードに対して新しい混合連続分布HMMを出力することを特徴とする。請求項2に係る発明も、上記第1の課題を解決する音響モデル学習方法であり、先行音素と後続音素の音素決定木による音声認識単位の決定方法において、混合連続分布HMMを対象とし音素決定木を選ぶ過程で各ノードに含まれる混合連続分布をクラスタリングして、情報量が最も向上する音素決定木を選び、その音素決定木によりノード分割を行った後、共有化を行う末端ノードに対して新しい混合連続分布HMMを出力することを特徴とする。請求項3に係る発明も、上記第1の課題を解決する音響モデル学習方法であり、先行音素と後続音素の音素決定木による音声認識単位の決定方法において、混合連続分布HMMを対象とし音素決定木を選ぶ過程で各ノードに含まれる混合連続分布を離散値と見なし、K−means法(ケイ−ミーンズ法)によりクラスタリングして、情報量が最も向上する音素決定木を選び、その音素決定木によりノード分割を行った後、共有化を行う末端ノードに対して新しい混合連続分布HMMを出力することを特徴とする。請求項4に係る発明は、上記第1及び第2の課題を解決する音響モデル学習方法であり、先行音素と後続音素の音素決定木による音声認識単位の決定方法において、混合連続分布HMMを対象としてクラスタリングによりノード分割を行った後、共有化を行う末端ノードに対して、クラスタリングの結果、新しい混合連続分布HMMが求められるものであり、新しい混合連続分布HMMは、クラスタリング後の共有するHMMの集合を代表する出力連続分布として、全分布の平均値と分散値を結合したものからなることを特徴とする。
【0019】
【発明の実施の形態】
図1に本発明の一実施形態例に係る音響モデル学習方法の手順を示す。
【0020】
図1において、まず、学習データから共有されていないトライフォン各状態(HMM)の混合連続分布を学習により作成し、用意する。ステップS1参照。
【0021】
次に、混合連続分布HMMにより構成される各トライフォンに対して、共有化を許容するHMMのノードを作成する。ステップS2参照。
【0022】
次に、各ノードを、先行音素と後続音素の決定木により、混合連続分布HMMを対象として、分割する。ステップS3〜S6参照。
【0023】
ノード分割の際、情報量の計算に用いる混合連続分布HMMは、情報量が最大になるように構成する。その構成方法の例を以下に述べる。
【0024】
(1) 図2に示すように、分割後のノードに含まれるトライフォンを構成する全分布を予め定めたクラスタ数にクラスタする。図2において、1はノード、2a〜2nはノード1に含まれる状態、3a〜3nは連続分布であり、各状態は複数の連続分布HMMに対応している。つまり、混合連続分布HMMとなっている。図示の例では、クラスタ数はクラスタ4a〜4cの3個である。
【0025】
(1a)クラスタリングには、トップダウン式のK−means法(ケイ・ミーンズ法:離散データのクラスタリング法)、ボトムアップ式のFurthest Neighbor 法(ファーゼスト・ネイバー法:離散/連続データのクラスタリング法))等を用いる。但し、各クラスタに含まれる連続分布HMMの数は複数とし、予め下限を設けておく。
【0026】
(1b)クラスタリング時の入力データとしてはHMM各状態の学習データ中の出現回数、状態を構成する混合連続分布の分布重み、平均値及び分散が与えられ、また、近似的に各分布の出現回数が計算可能であるため、この分布出現回数を重み付けしてセントロイド計算を行う。
【0027】
(2) クラスタリング後、各クラスタ毎に、クラスタに含まれる全分布から新しい混合連続分布を1つ合成して代表分布とする。図2では、連続混合分布5a〜5cが各クラスタ4a〜4c毎に新しく合成した代表分布である。
【0028】
(2a)この合成される分布の平均値は、下記数1に示すように、全分布の平均値を出現回数で重み付け平均して求める。
【0029】
【数1】

Figure 0003547349
【0030】
(2b)また、合成される分布の分散は、下記数2に示すように、全分布の分散(組内分散)と、分布間の分散(組間分散)と、出現回数から求める。
【0031】
【数2】
Figure 0003547349
【0032】
(2c)合成される分布の分布重みは、下記数3に示すように、学習データ中の出現回数の割合から求める。
【0033】
【数3】
Figure 0003547349
【0034】
以上の手順によって求めた連続混合分布を利用して、従来と同様、基準となる情報量を計算して、分割後の基準となる情報量が分割前に比べて最も向上する決定木によって、ノードの分割を行う
【0035】
分割後の全末端ノードに対しても、同様の分割で基準となる情報量が最も向上する音素決定木を選び、選んだ音素決定木によりノード分割を行う。この操作を、分割後の基準となる情報量が予め設定した閾値を超えるまで順次繰り返す(ステップS7からステップS3へのループ参照)。
【0036】
全ての分割後の末端ノードにおいて基準となる情報量が閾値を超えたら、ノードの分割を停止する(ステップS8参照)。
【0037】
以上により、同じ末端ノードに属するトライフォンは、1つのHMMを共有することになる。このとき、共有するHMMとして、共有化を行うノードに対して、前述した手順を利用してこの手順により新しい連続混合分布を合成して求め、この合成した連続混合分布を出力する。ステップS9参照。つまり、数1〜数3に基づき当該ノードに含まれる全分布から新しい混合連続分布を1つ合成して出力する。
【0038】
このように、クラスタリング後の共有するHMMの集合を代表する出力連続分布として、要素となる全分布の平均値と分散値を結合した新しい連続分布を求めることにより、従来は1つの分布を選択するだけのために共有する全音素環境の音響特性を表現できていないという課題を解決できる。つまり、共有する全音素環境の音響特性を表現できる。
【0039】
また、共有するHMMの集合を代表する出力連続分布として、要素となる全分布の平均値と分散値を結合した連続分布を求めるという手法を、単一連続分布HMMを対象とした従来方法に適用することにより、単一連続分布HMMを対象とした場合でも、共有する全音素環境の音響特性を表現できる。
【0040】
【発明の効果】
以上より、本発明によれば、認識性能が高い混合連続分布HMMに対して音素決定木による音声認識単位の決定を行うことができる。
【0041】
また、単一連続分布HMMを対象としたばあいでも、共有する全音素環境の音響特性を表現することができる。
【図面の簡単な説明】
【図1】本発明の実施形態例に係る音響モデル学習方法の手順を示す図。
【図2】本発明のの実施形態例に係るノードを表現する連続分布構成法を示す図。
【図3】従来の音響モデル学習方法の手順をを示す図。
【図4】従来のノードを表現する連続分布構成法を示す図。
【符号の説明】
1 ノード
2a〜2n 状態
3a〜3n 連続分布
4a〜4c クラスタ
5a〜5c クラスタ毎に新しく合成した連続混合分布[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an acoustic model learning method, and more particularly, to a method of determining a speech recognition unit using a triphone phoneme decision tree in consideration of a preceding and succeeding phoneme environment.
[0002]
[Prior art]
At present, the mainstream of acoustic models used for speech recognition is triphones. A triphone is defined by a three-phoneme chain of a preceding phoneme, a central phoneme, and a subsequent phoneme, and is created by learning from learning data. A preceding phoneme and a succeeding phoneme form a phoneme environment before and after the central phoneme.
[0003]
However, since there are about 40 phonemes, the total number of allophones in a triphone (three phoneme chain) reaches the order of tens of thousands. Further, triphones may not appear in the learning data, or the number of triphones may be extremely small.
[0004]
Due to the huge total number of allophones described above and the presence of three phoneme chains that have not appeared or are small in the training data, conventionally, as shown in FIG. Hidden Markov models are shared and the parameters are reduced.
[0005]
In FIG. 3, conventionally, a single continuous distribution of each state (HMM) of a triphone that is not shared is created from learning data by learning. See step S11.
[0006]
Next, a set of triphone states (HMMs) permitted to be shared (hereinafter, referred to as nodes), that is, nodes of the HMM having a common central phoneme are created. See step S12.
[0007]
Next, for each node, the node is divided by a decision tree whose reference information amount is most improved after the division as compared with before the division, among a plurality of decision trees related to the pre- and post-phoneme environments set in advance (steps S13 to S13). See S16). Hereinafter, a method of dividing a node and calculating a reference information amount will be described.
[0008]
The node division will be described. As described above, a triphone is defined by a three-phoneme chain of a preceding phoneme, a central phoneme, and a subsequent phoneme, and a phoneme decision tree for a node (a set of triphones) is exemplified in the following (1) to (3). Is defined as One node is divided into two nodes by each phoneme decision tree.
(1) The preceding phoneme is a vowel (a, i, u, e, o), and the following phoneme does not matter.
(2) The preceding phoneme is a nasal (n, m, NN), and the following phoneme does not matter.
(3) The succeeding phoneme is a plosive (p, t, k), and the preceding phoneme does not matter.
[0009]
The calculation method of the reference information amount will be described. A parameter representative of the node is obtained from parameters representing a plurality of triphones included in a node, and a reference information amount is calculated based on the representative parameter. In general, a continuous distribution expressing the entire node is obtained from a continuous distribution expressing each triphone included in the node, and the likelihood of the continuous distribution expressing the entire node with respect to the learning data is determined as a reference information amount. Use.
[0010]
For all of the terminal nodes after the division, a phoneme decision tree with the highest reference information amount is selected by the same division method, and node division is performed using the selected phoneme decision tree. This operation is sequentially repeated until the reference information amount after division exceeds a preset threshold value (see a loop from step S17 to step S13).
[0011]
If the reference information amount exceeds the threshold value in all the end nodes after division, the division of the nodes is stopped (see step S18).
[0012]
As described above, a plurality of triphones belonging to the same terminal node share one HMM. At this time, as a shared HMM, generally, one single continuous distribution is selected and output from a plurality of single continuous distributions constituting each triphone included in the terminal node. That is, it represents the HMM shared by one single continuous distribution. See step S19.
[0013]
Referring to FIG. 4, conventionally, as a shared HMM, any one of a plurality of single continuous distributions 13 a to 13 n constituting each of the triphones 12 a to 12 n included in the node 11 is used. The distribution 13i is selected and output.
[0014]
[Problems to be solved by the invention]
However, the above-described method is conventionally performed on a single continuous distribution HMM, and a method of determining a speech recognition unit using a phoneme decision tree is not applied to a mixed continuous distribution HMM having high recognition performance. There is one problem.
[0015]
Further, in the above-described conventional method, since the shared HMM selects one of the distributions constituting the node, there is a second problem that the acoustic characteristics of the shared all-phoneme environment cannot be expressed.
[0016]
Therefore, an object of the present invention is to solve the above two problems.
[0017]
[Means for Solving the Problems]
The invention according to claim 1, a sound model learning how to solve the first problem, in the prior phoneme and the method of determining the speech recognition unit by the phoneme decision tree of the subsequent phoneme, the mixed continuous distribution HMM intended The method is characterized in that node division is performed by clustering, and a new mixed continuous distribution HMM is output to terminal nodes to be shared . Also the invention according to claim 2, an acoustic model learning how to solve the first problem, in the prior phoneme and the method of determining the speech recognition unit by the phoneme decision tree of the subsequent phoneme, directed to a mixed continuous distribution HMM, In the process of selecting a phoneme decision tree, cluster the mixture continuous distribution included in each node, select the phoneme decision tree with the highest information amount, perform node division by the phoneme decision tree , and then share the terminal node , A new mixed continuous distribution HMM is output. Also the invention according to claim 3, a sound model learning how to solve the first problem, in the prior phoneme and the method of determining the speech recognition unit by the phoneme decision tree of the subsequent phoneme, directed to a mixed continuous distribution HMM, In the process of selecting a phoneme decision tree, the mixture continuous distribution included in each node is regarded as a discrete value, and clustering is performed by the K-means method (key-means method) to select a phoneme decision tree with the most improved information amount. after Tsu line node divided by the decision tree, and outputs a new mixed continuous distribution HMM with respect to terminal node for sharing. The invention according to claim 4 is an acoustic model learning method that solves the first and second problems. In the method for determining a speech recognition unit using a phoneme decision tree of a preceding phoneme and a succeeding phoneme, the method is directed to a mixed continuous distribution HMM. after node divided by the clustering and for end node for sharing the results of clustering, which new mixed continuous distribution HMM is found, the new mixed continuous distribution HMM is, HMM to share the clustered as an output a continuous distribution representing a set of, characterized in that it consists of the union of variance and the mean value of all distributions.
[0019]
BEST MODE FOR CARRYING OUT THE INVENTION
FIG. 1 shows a procedure of an acoustic model learning method according to an embodiment of the present invention.
[0020]
In FIG. 1, a mixed continuous distribution of each state (HMM) of triphones not shared is first created by learning from learning data and prepared. See step S1.
[0021]
Next, for each triphone configured by the mixed continuous distribution HMM, an HMM node that allows sharing is created. See step S2.
[0022]
Next, each node is divided by the decision tree of the preceding phoneme and the succeeding phoneme for the mixed continuous distribution HMM. See steps S3 to S6.
[0023]
At the time of node division, the mixed continuous distribution HMM used for calculating the information amount is configured such that the information amount is maximized. An example of the configuration method will be described below.
[0024]
(1) As shown in FIG. 2, all the distributions constituting the triphone included in the divided nodes are clustered into a predetermined number of clusters. In FIG. 2, 1 is a node, 2a to 2n are states included in the node 1, 3a to 3n are continuous distributions, and each state corresponds to a plurality of continuous distribution HMMs. That is, a mixed continuous distribution HMM is obtained. In the illustrated example, the number of clusters is three, that is, the clusters 4a to 4c.
[0025]
(1a) For clustering, a top-down K-means method (K-means method: clustering method of discrete data), a bottom-up method Furthest Neighbor method (Furzest Neighbor method: clustering method of discrete / continuous data) ) Is used. However, the number of continuous distribution HMMs included in each cluster is plural, and a lower limit is set in advance.
[0026]
(1b) As input data at the time of clustering, the number of appearances in the learning data of each state of the HMM, the distribution weight of the mixed continuous distribution constituting the state, the average value, and the variance are given, and the number of appearances of each distribution approximately Can be calculated, and the centroid calculation is performed by weighting the number of occurrences of the distribution.
[0027]
(2) After clustering, for each cluster, one new mixed continuous distribution is synthesized from all the distributions included in the cluster to be a representative distribution. In FIG. 2, the continuous mixture distributions 5a to 5c are representative distributions newly synthesized for each of the clusters 4a to 4c.
[0028]
(2a) The average value of this combined distribution is obtained by weighting and averaging the average value of all the distributions with the number of appearances, as shown in Equation 1 below.
[0029]
(Equation 1)
Figure 0003547349
[0030]
(2b) The variance of the combined distribution is calculated from the variance of the entire distribution (intra-group variance), the variance between the distributions (inter-group variance), and the number of appearances, as shown in Equation 2 below.
[0031]
(Equation 2)
Figure 0003547349
[0032]
(2c) The distribution weight of the distribution to be synthesized is obtained from the ratio of the number of appearances in the learning data, as shown in Expression 3 below.
[0033]
[Equation 3]
Figure 0003547349
[0034]
Using the continuous mixture distribution obtained by the above procedure, the reference information amount is calculated in the same manner as in the past, and the reference information amount after division is improved by the decision tree in which the reference information amount is more improved than before the division. Is divided.
For all the terminal nodes after the division, a phoneme decision tree in which the reference information amount is most improved by the same division is selected, and node division is performed by the selected phoneme decision tree. This operation is sequentially repeated until the reference information amount after division exceeds a preset threshold value (see a loop from step S7 to step S3).
[0036]
If the reference information amount exceeds the threshold value in all the end nodes after division, the division of the nodes is stopped (see step S8).
[0037]
As described above, triphones belonging to the same terminal node share one HMM. At this time, as the HMM to be shared, a new continuous mixture distribution is synthesized and obtained by this procedure using the above-described procedure for the node to be shared, and the synthesized continuous mixture distribution is output. See step S9. That is, one new mixed continuous distribution is synthesized from all the distributions included in the node based on Equations 1 to 3 and output.
[0038]
In this manner, one continuous distribution is conventionally selected by obtaining a new continuous distribution combining the average value and the variance value of all distributions serving as elements as an output continuous distribution representing a set of shared HMMs after clustering. It is possible to solve the problem that the acoustic characteristics of the all-phoneme environment shared only for the purpose cannot be expressed. That is, the acoustic characteristics of the shared all-phoneme environment can be expressed.
[0039]
In addition, as a continuous output distribution representing a set of shared HMMs, a method of obtaining a continuous distribution obtained by combining the average value and the variance of all distributions serving as elements is applied to a conventional method for a single continuous distribution HMM. By doing so, even when a single continuous distribution HMM is targeted, the acoustic characteristics of the shared all-phoneme environment can be expressed.
[0040]
【The invention's effect】
As described above, according to the present invention, it is possible to determine a speech recognition unit using a phoneme decision tree for a mixed continuous distribution HMM having high recognition performance.
[0041]
Further, even when a single continuous distribution HMM is targeted, it is possible to express the acoustic characteristics of the shared all-phoneme environment.
[Brief description of the drawings]
FIG. 1 is a diagram showing a procedure of an acoustic model learning method according to an embodiment of the present invention.
FIG. 2 is a diagram showing a continuous distribution construction method for representing nodes according to an embodiment of the present invention.
FIG. 3 is a diagram showing a procedure of a conventional acoustic model learning method.
FIG. 4 is a diagram showing a conventional continuous distribution construction method for expressing nodes.
[Explanation of symbols]
1 Nodes 2a to 2n States 3a to 3n Continuous distributions 4a to 4c Clusters 5a to 5c Continuously mixed distribution newly synthesized for each cluster

Claims (4)

先行音素と後続音素の音素決定木による音声認識単位の決定方法において、
混合連続分布HMM(HMMは隠れマルコフモデル)を対象としてクラスタリングによりノード分割を行い、共有化を行う末端ノードに対して新しい混合連続分布HMMを出力することを特徴とする音響モデル学習方法。
In a method for determining a speech recognition unit using a phoneme decision tree of a preceding phoneme and a subsequent phoneme,
Mixed continuous distribution HMM (HMM Hidden Markov Models) performs node divided by the clustering intended for acoustic model learning method and outputting the new mixed continuous distribution HMM with respect to terminal node for sharing.
請求項1記載の音響モデル学習方法において、
前記ノード分割は、音素決定木を選ぶ過程で各ノードに含まれる混合連続分布をクラスタリングして、情報量が最も向上する音素決定木を選び、その音素決定木により行われるものであることを特徴とする音響モデル学習方法。
The acoustic model learning method according to claim 1,
The node division is performed by clustering a mixed continuous distribution included in each node in a process of selecting a phoneme decision tree, selecting a phoneme decision tree with the most improved information amount, and performing the phoneme decision tree. Acoustic model learning method.
請求項1記載の音響モデル学習方法において、
前記ノード分割は、音素決定木を選ぶ過程で各ノードに含まれる混合連続分布を離散値と見なし、K−means法(ケイ−ミーンズ法)によりクラスタリングして、情報量が最も向上する音素決定木を選び、その音素決定木により行われるものであることを特徴とする音響モデル学習方法。
The acoustic model learning method according to claim 1,
In the node division, a mixed continuous distribution included in each node is regarded as a discrete value in a process of selecting a phoneme decision tree, and is clustered by a K-means method (K-means method). A learning method of an acoustic model, characterized in that the method is performed by the phoneme decision tree .
請求項1乃至請求項3のいずれかに記載の音響モデル学習方法において、
前記新しい混合連続分布HMMは、共有化を行う末端ノードに対して、クラスタリングの結果求められるものであり、
クラスタリング後の共有するHMMの集合を代表する出力連続分布として、全分布の平均値と分散値を結合したものからなることを特徴とする音響モデル学習方法。
The acoustic model learning method according to any one of claims 1 to 3,
The new mixed continuous distribution HMM is obtained as a result of clustering for terminal nodes to be shared,
A method for learning an acoustic model, comprising a combination of an average value and a variance value of all distributions as an output continuous distribution representing a set of shared HMMs after clustering.
JP27422299A 1999-09-28 1999-09-28 Acoustic model learning method Expired - Fee Related JP3547349B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27422299A JP3547349B2 (en) 1999-09-28 1999-09-28 Acoustic model learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27422299A JP3547349B2 (en) 1999-09-28 1999-09-28 Acoustic model learning method

Publications (2)

Publication Number Publication Date
JP2001100779A JP2001100779A (en) 2001-04-13
JP3547349B2 true JP3547349B2 (en) 2004-07-28

Family

ID=17538736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27422299A Expired - Fee Related JP3547349B2 (en) 1999-09-28 1999-09-28 Acoustic model learning method

Country Status (1)

Country Link
JP (1) JP3547349B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788096B2 (en) * 2002-09-03 2010-08-31 Microsoft Corporation Method and apparatus for generating decision tree questions for speech processing
JP4405542B2 (en) 2007-10-24 2010-01-27 株式会社東芝 Apparatus, method and program for clustering phoneme models

Also Published As

Publication number Publication date
JP2001100779A (en) 2001-04-13

Similar Documents

Publication Publication Date Title
US9508347B2 (en) Method and device for parallel processing in model training
EP0750293B1 (en) Triphone hidden Markov model (HMM) design method and apparatus
EP0706171B1 (en) Speech recognition method and apparatus
CN102119412B (en) Exception dictionary creating device, exception dictionary creating method and program thereof, and voice recognition device and voice recognition method
WO2015003436A1 (en) Method and device for parallel processing in model training
CN108415898A (en) The word figure of deep learning language model beats again a point method and system
CN111354332A (en) Singing voice synthesis method and device
CN109559734A (en) The acceleration method and device of acoustic training model
Duchateau et al. Fast and accurate acoustic modelling with semi-continuous HMMs
JP2980228B2 (en) Acoustic model generation method for speech recognition
CN105895104B (en) Speaker adaptation recognition methods and system
JP3547349B2 (en) Acoustic model learning method
CN106297766B (en) Phoneme synthesizing method and system
US6789063B1 (en) Acoustic modeling using a two-level decision tree in a speech recognition system
JP3541224B2 (en) Sound source separation method and separation device
CN111599342A (en) Tone selecting method and system
CN110782879B (en) Voiceprint clustering method, device, equipment and storage medium based on sample size
JP2004191705A (en) Speech recognition device
CN114707564A (en) Robot automatic dancing system based on machine learning and intelligent planning
JPH09288492A (en) Framing system of standard pattern using information quantity reference
JP4034751B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
JP6618453B2 (en) Database generation apparatus, generation method, speech synthesis apparatus, and program for speech synthesis
JP3532248B2 (en) Speech recognition device using learning speech pattern model
JP3859884B2 (en) Speaker recognition method and speaker recognition apparatus
JP2003308089A (en) Device, method, program and recording medium for preparing hidden markov model, and device, method, program and recording medium for recognizing speech

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040413

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090423

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090423

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100423

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100423

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160423

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees