JP4971830B2 - Perceptron learning device, parameter learning method in perceptron learning device, perceptron learning program, recording medium - Google Patents

Perceptron learning device, parameter learning method in perceptron learning device, perceptron learning program, recording medium Download PDF

Info

Publication number
JP4971830B2
JP4971830B2 JP2007047461A JP2007047461A JP4971830B2 JP 4971830 B2 JP4971830 B2 JP 4971830B2 JP 2007047461 A JP2007047461 A JP 2007047461A JP 2007047461 A JP2007047461 A JP 2007047461A JP 4971830 B2 JP4971830 B2 JP 4971830B2
Authority
JP
Japan
Prior art keywords
hypothesis
parameter
perceptron
learning
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007047461A
Other languages
Japanese (ja)
Other versions
JP2008210242A (en
Inventor
隆伸 大庭
貴明 堀
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007047461A priority Critical patent/JP4971830B2/en
Publication of JP2008210242A publication Critical patent/JP2008210242A/en
Application granted granted Critical
Publication of JP4971830B2 publication Critical patent/JP4971830B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明はパターン識別に用いられるパーセプトロン学習装置、パーセプトロン装置におけるパラメータ学習方法、パーセプトロン学習プログラム、記録媒体に関する。   The present invention relates to a perceptron learning device used for pattern identification, a parameter learning method in the perceptron device, a perceptron learning program, and a recording medium.

従来よりパターン識別(図形の識別、単語列の認識等)の分野でパーセプトロン装置が広く用いられている(非特許文献1)。系列の識別に広く用いられているパーセプトロンアルゴリズムでは、素性系列上での識別学習が行われる。
素性系列は識別対象となる系列から抽出されるベクトルである。つまり、パーセプトロンアルゴリズムは、識別対象の系列ではなく、素性系列の識別誤りが小さくなるようにパラメータの学習を行なっている。
Conventionally, perceptron devices have been widely used in the field of pattern identification (graphic identification, word string recognition, etc.) (Non-patent Document 1). The perceptron algorithm widely used for sequence identification performs identification learning on a feature sequence.
A feature sequence is a vector extracted from a sequence to be identified. That is, the perceptron algorithm learns parameters so as to reduce the identification error of the feature sequence, not the sequence to be identified.

図4に従来のパーセプトロン学習装置の構成を示す。10−1は従来のパーセプトロン学習装置を示す。ここでは単語列を入力系列として学習する場合を例示して説明する。従来のパーセプトロン学習装置10−1は例えば音声認識において入力音声の正解単語列(もしくは最も正解単語列に近い仮説)を正解系列yKとし、これに対応する他の仮説系列を学習データとして読み込むデータ入力手段11と、パーセプトロンアルゴリズムに用いられているパラメータαの全ての値を初期値、例えばα={0}に設定するパラメータ初期設定手段12と、データ入力手段11に取り込まれた正解系列yK及びそれに対応する仮説系列から素性値を算出する素性値算出手段13と、ある仮説から得られた素性値とパラメータαの積和で与えられるスコアを最大化する仮説zK *を求めるパーセプトロンアルゴリズム解析手段15と、素性値算出手段13で算出した素性値φ(yK,i,j)とφ(zK *,i,j)を用いてパラメータαの値を更新するパラメータ更新手段17−1と、データ入力手段11に取り込んだ学習データの全てについて学習したか否かを判定し、学習データの全てに関して再帰的に学習を実行させるループ制御手段18とによって構成され、その学習結果としてパラメータαを出力する。 FIG. 4 shows the configuration of a conventional perceptron learning device. Reference numeral 10-1 denotes a conventional perceptron learning apparatus. Here, a case of learning a word string as an input series will be described as an example. In the conventional perceptron learning device 10-1, for example, in speech recognition, a correct word sequence (or a hypothesis closest to the correct word sequence) of an input speech is set as a correct sequence y K, and other hypothesis sequences corresponding thereto are read as learning data. Input means 11, parameter initial setting means 12 for setting all values of parameter α used in the perceptron algorithm to initial values, for example, α = {0}, and correct answer sequence y K taken in data input means 11 And a feature value calculation means 13 for calculating a feature value from a hypothesis sequence corresponding thereto, and a perceptron algorithm analysis for obtaining a hypothesis z K * that maximizes a score given by a product sum of the feature value obtained from a certain hypothesis and the parameter α and means 15, feature value calculated by the feature value calculating means 13 φ (y K, i, j) and φ (z K *, i, j) paths for updating the value of the parameter α with It is configured by a meter update unit 17-1 and a loop control unit 18 that determines whether or not all of the learning data fetched into the data input unit 11 has been learned, and executes learning recursively for all of the learning data, The parameter α is output as the learning result.

図5にパーセプトロン学習装置10−1の処理手順を説明するためのフローチャートを示す。   FIG. 5 shows a flowchart for explaining the processing procedure of the perceptron learning apparatus 10-1.

ステップSP5-1で学習データ入力手段11が学習データを取り込む。   In step SP5-1, the learning data input means 11 takes in learning data.

ステップSP5-2でパラメータ初期設定手段12がパラメータαの全ての値を初期値α={0}に設定する。   In step SP5-2, the parameter initial setting means 12 sets all values of the parameter α to the initial value α = {0}.

ステップSP5-3で素性値算出手段13はデータ入力手段11に取り込まれた正解系列と、それに対応する仮説系列から素性値を算出する。   In step SP5-3, the feature value calculation means 13 calculates a feature value from the correct answer sequence fetched by the data input means 11 and the hypothesis series corresponding thereto.

ステップSP5-4でパーセプトロンアルゴリズム解析手段15がパラメータαが与えられた条件の基で、ある仮説から得られた素性との累積加算値で与えられたスコアを最大化する仮説zK *を求める。 In step SP5-4, the perceptron algorithm analyzing means 15 obtains a hypothesis z K * that maximizes the score given by the cumulative addition value with the feature obtained from a certain hypothesis based on the condition given the parameter α.

ステップSP5-5でパラメータ更新手段17−1は素性値φ(yK,i,j)とφ(zK *,i,j)を用いてパラメータαの値を更新する。 In step SP5-5, the parameter updating unit 17-1 updates the value of the parameter α using the feature values φ (y K , i, j) and φ (z K * , i, j).

ステップSP5-6でループ制御手段18は学習データの中の全ての仮説について学習を実行したか否かを判定し、学習が未である仮説が存在すれば再度ステップSP5-4に戻りパラメータαの更新を繰り返す。全ての仮説に関して処理が完了すると、予め設定した学習の繰り返し回数Tに達したか否かをステップSP5-7で判定し、学習の繰り返し回数がT回に達した時点で学習を終了する。   In step SP5-6, the loop control means 18 determines whether or not learning has been executed for all hypotheses in the learning data. If there is a hypothesis that has not been learned, the loop control means 18 returns to step SP5-4 and returns the parameter α. Repeat the update. When the processing is completed for all hypotheses, it is determined in step SP5-7 whether or not the preset number of learning repetitions T has been reached, and the learning is terminated when the number of learning repetitions reaches T.

図6に図5に示した処理手順を実行するためのプログラムの記載例を示す。L−1は学習データの読み込みを実行する行、行L−2はパラメータαの初期化処理を行なう行、行L−4はT回の学習繰り返しを制御する行、行L−5は全K組の学習用データを順次適用する行、行L−6はパーセプトロンアルゴリズムの解析処理を実行する行である。この行L−6でスコアが最大化される仮説zK *が求められる。行L−7に示される各素性のインデックスjに対し、行L−8でパラメータα(j)の更新処理を実行する。 FIG. 6 shows a description example of a program for executing the processing procedure shown in FIG. L-1 is a line for executing reading of learning data, line L-2 is a line for initializing parameter α, line L-4 is a line for controlling T learning repetitions, and line L-5 is for all K lines. A row to which a set of learning data is sequentially applied, and a row L-6 is a row for executing a perceptron algorithm analysis process. A hypothesis z K * that maximizes the score in this row L-6 is obtained. The parameter α (j) is updated in the row L-8 for each feature index j shown in the row L-7.

ここで素性値算出手段13で実行する素性値算出方法について説明する。
ある仮説W=“おーい_お茶_ちょうだい”が与えられたとする。このとき単語の1〜3個の並びを抽出すると、“おーい”、“お茶”、“おーい_お茶”、“ちょうだい”、“お茶_ちょうだい”、“おーい_お茶_ちょうだい”が得られる。ここで素性値をその単語の並びが得られたか否かで「1」または「0」の2値で表すと、この例の場合、“おーい_お茶”に対応する素性値φはφ(W,i=2,j=おーい_お茶)=1となる。“おーい_おじや”に対応する素性値φはφ(W,i=2,j=おーい_おじや)=0である。ここでiは素性が得られた位置、jは素性を表すインデックスを表わす。
位置iにおける素性の例:(位置i-2から位置iの単語3つの組)、(位置i-1から位置iの単語2つの組)、(位置iの単語)
Here, a feature value calculation method executed by the feature value calculation means 13 will be described.
Suppose that a certain hypothesis W = “Oi_Tea_Gift” is given. At this time, when 1 to 3 words are extracted, “oi”, “tea”, “oi_tea”, “sibling”, “tea_tea”, “oi_tea_sidy” are obtained. Here, when the feature value is represented by a binary value of “1” or “0” depending on whether or not the word sequence is obtained, in this example, the feature value φ corresponding to “Oi_tea” is φ (W , i = 2, j = oi_tea) = 1. The feature value φ corresponding to “Ooi_Ojiya” is φ (W, i = 2, j = Ooi_Ojiya) = 0. Here, i is a position where the feature is obtained, and j is an index representing the feature.
Examples of features at position i: (a set of three words from position i-2 to position i), (a set of two words from position i-1 to position i), (word at position i)

Figure 0004971830
位置i=5における素性は{(の+親+は),(親+は),(は)}となる。
Figure 0004971830
The feature at position i = 5 is {(+ parent +), (parent + is), (ha)}.

図4に示したパラメータ更新手段17−1、図5に示したステップSP5-6で行われるパラメータ更新処理は図6に示す行L-8から明らかなように正解系列yKと仮説zK *の双方に素性が存在するとき、更新値は「0」となり、パラメータα(j)の値は更新されない。正解系列yKにのみ素性が存在した場合は更新値は「+1」となり、パラメータα(j)の値は+1されプラス値側に更新される。仮説zK *のみに素性が存在する場合は更新値は「−1」となり、パラメータα(j)の値は−1されマイナス値側に更新される。ただし、実際の学習時には学習率η(>0)を乗じ、±ηずつ更新される場合もある。パラメータα(j)の値は6行目のパーセプトロンアルゴリズム解析時に利用され素性値φ(zK,i,j)とパラメータα(j)との積の累計加算値が最大となる仮説zK *を求め、この条件を満たすパラメータα(j)の値を学習値として保存し、パターン識別時に利用する。 The parameter updating unit 17-1 shown in FIG. 4 and the parameter updating process performed in step SP5-6 shown in FIG. 5 are the correct answer sequence y K and hypothesis z K * as apparent from the row L-8 shown in FIG. When both the features exist, the update value is “0”, and the value of the parameter α (j) is not updated. When the feature exists only in the correct answer sequence y K , the update value is “+1”, and the value of the parameter α (j) is incremented by 1 and updated to the plus value side. When only the hypothesis z K * has a feature, the update value is “−1”, and the value of the parameter α (j) is decremented by −1 and updated to the negative value side. However, in actual learning, the learning rate η (> 0) may be multiplied and updated by ± η. The value of the parameter α (j) is used when analyzing the perceptron algorithm on the 6th line, and the hypothesis z K * that the cumulative addition value of the product of the feature value φ (z K , i, j) and the parameter α (j) is maximum . And the value of the parameter α (j) satisfying this condition is stored as a learning value and used for pattern identification.

実際のパターン識別時には、得られたパラメータαを直接利用するのではなく、平均パラメータαave(j)=Σk,tαk t(j)/KTを用いた方がテストセットに対し頑健で精度良く解析できることが知られている。ただし、αk t(j)は、t番目のループにおいて、k番目のデータを学習し終えた際のパラメータα(j)である。
Michael Collins. “Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms,” Proceedings of the Conference on Empirical Methods for Natural Language Processing, pp. 1-8. 2002.
When actually identifying the pattern, it is more robust to the test set that the average parameter α ave (j) = Σ k, t α k t (j) / KT is used instead of directly using the obtained parameter α. It is known that analysis can be performed with high accuracy. Here, α k t (j) is a parameter α (j) when the k-th data has been learned in the t-th loop.
Michael Collins. “Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms,” Proceedings of the Conference on Empirical Methods for Natural Language Processing, pp. 1-8. 2002.

従来のパーセプトロンアルゴリズムでは、各系列から得られる素性系列の差が小さくなるように学習されているが、この学習方法によれば識別対象の系列ではなく、素性系列の識別誤りが小さくなるように学習を行なうことになる。この学習方法によれば素性系列の各要素の識別に関わる影響力を直接的に考慮することができないことになり、識別問題の解法として妥当ではない。   In the conventional perceptron algorithm, learning is performed so as to reduce the difference between feature sequences obtained from each sequence. However, according to this learning method, learning is performed so as to reduce identification errors of feature sequences, not sequences to be identified. Will be performed. According to this learning method, the influence on the identification of each element of the feature series cannot be directly considered, and it is not appropriate as a solution for the identification problem.

この発明の目的は識別対象となる系列の識別誤り率を小さくするこように学習を行ない、正当な識別問題の解法を提供しようとするものである。   An object of the present invention is to provide a solution to a legitimate identification problem by learning so as to reduce the identification error rate of a sequence to be identified.

この発明では正解系列からみた系列のスコアを最大化する仮説との差分を表す評価関数S(yK,i,j)及び系列のスコアを最大化する仮説からみた正解系列との差分を表わす評価関数S(zK *,i,j)を算出する評価関数算出手段を設け、この評価関数算出手段で算出した評価関数を素性値に乗算し、評価関数により素性値に重み付けを行ない、パラメータα(j)の更新値に修正を加え、パラメータα(j)の学習を適正に行わせるように構成する。 In this invention, the evaluation function S (y K , i, j) that represents the difference from the hypothesis that maximizes the score of the sequence viewed from the correct answer sequence and the evaluation that represents the difference from the correct answer sequence viewed from the hypothesis that maximizes the score of the series An evaluation function calculation means for calculating the function S (z K * , i, j) is provided, the evaluation value calculated by the evaluation function calculation means is multiplied by the feature value, the feature value is weighted by the evaluation function, and the parameter α The update value of (j) is modified so that the parameter α (j) is properly learned.

具体的にはこの発明によるパーセプトロン学習装置は正解系列と、それに対応する仮説系列の集合の組を学習データとして取り組むデータ入力手段と、パーセプトロンアルゴリズムに用いられるパラメータαの値を初期設定するパラメータ初期設定手段と、データ入力手段に取り込まれた正解系列と、それに対応する仮説系列から素性値を算出する素性値算出手段と、パラメータαが与えられた条件の基で、ある仮説から得られた素性値との積和で与えられるスコアを最大化する仮説zK *を求めるパーセプトロンアルゴリズム解析手段と、正解系列からみたスコアを最大化する仮説との差分を表す評価関数S(yK,i,j)及び、スコアを最大化する仮説からみた正解系列との差分を表す評価関数S(zK *,i,j)を算出する評価関数算出手段と、素性値算出手段で算出した素性値φ(yK,i,j)とφ(zK *,i,j)にそれぞれ、評価関数算出手段で算出した評価関数S(yK,i,j)及びS(zK *,i,j)を乗算し、重み付けされたパラメータαの値を更新するパラメータ更新手段と、パーセプトロンアルゴリズム解析手段の解析処理と、パラメータ更新手段の更新処理とを全学習データに対して再帰的に実行させるループ制御手段とを備える構成とした。 Specifically, the perceptron learning device according to the present invention includes a data input means for dealing with a set of correct answer series and a set of hypothesis series corresponding thereto as learning data, and parameter initialization for initially setting a value of a parameter α used in the perceptron algorithm. Means, feature value calculation means for calculating a feature value from the correct answer sequence captured in the data input means, a corresponding hypothesis series, and a feature value obtained from a certain hypothesis based on a condition given the parameter α An evaluation function S (y K , i, j) that represents the difference between the perceptron algorithm analysis means for obtaining the hypothesis z K * that maximizes the score given by the product sum and the hypothesis that maximizes the score as seen from the correct answer sequence and, an evaluation function calculation means for calculating an evaluation function S representing the difference between the correct sequence as viewed from the hypothesis that maximizes (z K *, i, j ) score, feature value calculating hand In the calculated feature values φ (y K, i, j ) and φ (z K *, i, j) respectively, evaluation rating was calculated by the function calculating means function S (y K, i, j ) and S (z K * , i, j) is multiplied and the parameter update means for updating the weighted parameter α value, the analysis process of the perceptron algorithm analysis means, and the update process of the parameter update means are recursed for all learning data. Loop control means to be executed automatically.

この発明によるパーセプトロン学習装置は更に前記記載のパーセプトロン学習装置において、評価関数を表す差分は、正解系列とスコアを最大化する仮説との間の相対的な識別誤り率によって定めることを特徴とする。
更に、この発明によるパーセプトロン学習装置は更に前記記載のパーセプトロン学習装置において、評価関数を表す差分は、正解系列とスコアを最大化する仮説との間の相対的な識別誤り数によって定めることを特徴とする。
The perceptron learning device according to the present invention is characterized in that, in the above-described perceptron learning device, the difference representing the evaluation function is determined by a relative discrimination error rate between the correct answer sequence and the hypothesis that maximizes the score.
Further, the perceptron learning device according to the present invention is characterized in that, in the above-described perceptron learning device, the difference representing the evaluation function is determined by the relative number of identification errors between the correct answer sequence and the hypothesis that maximizes the score. To do.

この発明によるパーセプトロン学習装置におけるパラメータ学習方法は、正解系列と、それに対応する仮説系列の集合の組を学習データとして取り組むデータ入力処理と、パーセプトロンアルゴリズムに用いられるパラメータαの値を初期設定するパラメータ初期設定処理と、データ入力処理に取り込まれた正解系列と、それに対応する仮説系列から素性値を算出する素性値算出処理と、パラメータαが与えられた条件の基で、ある仮説から得られた素性値との積和で与えられるスコアを最大化する仮説zK *を求めるパーセプトロンアルゴリズム解析処理と、正解系列からみたスコアを最大化する仮説との差分を表す評価関数S(yK,i,j)及び、スコアを最大化する仮説からみた正解系列との差分を表す評価関数S(zK *,i,j)を算出する評価関数算出処理と、素性値算出処理で算出した素性値φ(yK,i,j)とφ(zK *,i,j)にそれぞれ、評価関数算出処理で算出した評価関数S(yK,i,j)及びS(zK *,i,j)を乗算し、重み付けされたパラメータαの値を更新するパラメータ更新処理と、パーセプトロンアルゴリズム解析処理の解析処理と、パラメータ更新処理の更新処理とを全学習データに対して再帰的に実行するループ制御処理とを含むことを特徴とする。 The parameter learning method in the perceptron learning device according to the present invention includes a data input process in which a set of a correct answer sequence and a set of hypothesis sequences corresponding thereto as learning data, and a parameter initial value for initializing a value of a parameter α used in the perceptron algorithm A feature obtained from a hypothesis based on a feature value calculation process that calculates a feature value from the correct answer sequence captured in the setting process, the data input process, and the corresponding hypothesis series, and a condition that is given the parameter α An evaluation function S (y K , i, j that expresses the difference between the perceptron algorithm analysis processing that calculates the hypothesis z K * that maximizes the score given by the product sum with the value and the hypothesis that maximizes the score from the correct answer sequence ) and, * the evaluation function S (z K, which represents the difference between the correct sequence, as viewed from the hypothesis that maximizes the score, i, j) the evaluation function calculation processing to calculate the If, feature value calculated by the feature value calculation processing φ (y K, i, j ) and φ (z K *, i, j) respectively, the evaluation function calculated in the evaluation function calculating process S (y K, i, j) and S (z K * , i, j) are multiplied to update the weighted parameter α value, the perceptron algorithm analysis process analysis process, and the parameter update process update process. And a loop control process recursively executed on the learning data.

図7に図8に示す実験条件に従って従来のパーセプトロン学習方法で学習したパラメータを利用してパターン認識を行った場合の単語誤り率と、同様に図8に示す実験条件に従って本発明によるパーセプトロン学習装置で学習したパラメータを利用してパターン認識を行った場合の、単語誤り率を示す。図7に示す曲線Aは従来技術による単語誤り率、曲線Bはこの発明による単語誤り率を示す。尚、図7において、横軸λは後に説明するスケーリングパラメータを示す。図7から明らかなようにこの発明によるパーセプトロン学習装置で学習したパラメータα(j)を用いることにより低い単語誤り率を得ることができた。この結果認識性能の高い音声認識装置、或いはパターン認識装置等を構成することができる利点が得られる。   FIG. 7 shows a word error rate when pattern recognition is performed using parameters learned by a conventional perceptron learning method according to the experimental conditions shown in FIG. 8, and the perceptron learning apparatus according to the present invention similarly according to the experimental conditions shown in FIG. This shows the word error rate when pattern recognition is performed using the parameters learned in step 1. A curve A shown in FIG. 7 shows a word error rate according to the prior art, and a curve B shows a word error rate according to the present invention. In FIG. 7, the horizontal axis λ represents a scaling parameter described later. As apparent from FIG. 7, a low word error rate can be obtained by using the parameter α (j) learned by the perceptron learning apparatus according to the present invention. As a result, there can be obtained an advantage that a speech recognition device or a pattern recognition device with high recognition performance can be configured.

この発明によるパーセプトロン学習装置は全体をハードウェアによって構成することもできるが、最も簡素に実現するにはコンピュータにこの発明によるパーセプトロン学習プログラムをインストールし、コンピュータをパーセプトロン学習装置として機能させる実施形態が最良である。   The perceptron learning apparatus according to the present invention can be entirely configured by hardware. However, the simplest implementation is to install the perceptron learning program according to the present invention in a computer, and to make the computer function as a perceptron learning apparatus. It is.

コンピュータにこの発明によるパーセプトロン学習装置として機能させた場合、コンピュータにはコンピュータにインストールしたパーセプトロン学習プログラムにより正解系列と、それに対応する仮説系列の集合の組を学習データとして取り組むデータ入力手段と、パーセプトロンアルゴリズムに用いられるパラメータαの値を初期設定するパラメータ初期設定手段と、データ入力手段に取り込まれた正解系列と、それに対応する仮説系列から素性値を算出する素性値算出手段と、パラメータαが与えられた条件の基で、ある仮説から得られた素性値との積和で与えられるスコアを最大化する仮説zK *を求めるパーセプトロンアルゴリズム解析手段と、正解系列からみたスコアを最大化する仮説との差分を表す評価関数S(yK,i,j)及び、スコアを最大化する仮説からみた正解系列との差分を表す評価関数S(zK *,i,j)を算出する評価関数算出手段と、素性値算出手段で算出した素性値φ(yK,i,j)とφ(zK *,i,j)にそれぞれ、評価関数算出手段で算出した評価関数S(yK,i,j)及びS(zK *,i,j)を乗算し、重み付けされたパラメータαの値を更新するパラメータ更新手段と、パーセプトロンアルゴリズム解析手段の解析処理と、パラメータ更新手段の更新処理とを全学習データに対して再帰的に実行させるループ制御手段とを構築し、コンピュータをパーセプトロン学習装置として機能させる実施形態が採られる。 When the computer functions as a perceptron learning device according to the present invention, the computer uses a perceptron learning program installed in the computer to input a correct answer series and a set of hypothesis series corresponding thereto as learning data, and a perceptron algorithm A parameter initial setting means for initially setting the value of the parameter α used in the above, a correct answer sequence captured by the data input means, a feature value calculating means for calculating a feature value from the corresponding hypothesis series, and a parameter α. Perceptron algorithm analysis means for obtaining a hypothesis z K * that maximizes the score given by the product sum with the feature value obtained from a certain hypothesis, and a hypothesis that maximizes the score from the correct sequence evaluation function S representing the difference (y K, i, j) and the score Evaluation function S representing the difference between the correct sequence as viewed from the hypothesis that maximizes (z K *, i, j ) and the evaluation function calculation means for calculating a feature value calculated by the feature value calculating unit phi (y K, i, j) and φ (z K *, i, respectively j), the evaluation function S (y K calculated by the evaluation function calculating unit, i, j) and S (z K *, i, j) multiplied by the weighting A parameter control unit that updates the value of the parameter α, a perceptron algorithm analysis unit, and a loop control unit that recursively executes the update process of the parameter update unit on all learning data, An embodiment is employed in which a computer functions as a perceptron learning device.

図1にこの発明によるパーセプトロン学習装置10−2の実施例を示す。この発明によるパーセプトロン学習装置10−2の特徴とする構成はパーセプトロンアルゴリズム解析手段15の後段に評価関数算出手段16を設けた点と、この評価関数算出手段16で算出した評価関数を用いてパラメータ更新手段は、重み付けされたパラメータ更新処理を実行する重み付けパラメータ更新手段17−2とした点である。   FIG. 1 shows an embodiment of a perceptron learning apparatus 10-2 according to the present invention. The perceptron learning device 10-2 according to the present invention is characterized by the fact that the evaluation function calculation means 16 is provided after the perceptron algorithm analysis means 15 and the parameter update is performed using the evaluation function calculated by the evaluation function calculation means 16. The means is weighted parameter update means 17-2 for executing weighted parameter update processing.

図2に示すフローチャートではステップSP1−5で実行する評価関数算出処理と、ステップSP1−6で実行する重み付け乗算に基づくパラメータαの更新処理に特徴を有する。その他の構成は図4に示した従来のパーセプトロン学習装置10−1と、図5に示したフローチャートと同じであるから、ここではこの発明の特徴とする部分についてのみ説明することにする。   The flowchart shown in FIG. 2 is characterized by an evaluation function calculation process executed in step SP1-5 and a parameter α update process based on weighted multiplication executed in step SP1-6. Since other configurations are the same as those of the conventional perceptron learning device 10-1 shown in FIG. 4 and the flowchart shown in FIG. 5, only the characteristic features of the present invention will be described here.

従来のパーセプトロンアルゴリズムでは単に素性系列の差を小さくするように学習していたが、しかし、識別対象となる系列とは異なるため、各素性が識別対象となる系列(xk,yk)の識別誤り率に対しどの程度影響するかを考慮し、この誤り率を小さくするように学習を行った方が、問題の性質を陽に表現しているといえる。 In the conventional perceptron algorithm, learning was performed simply to reduce the difference between feature sequences. However, since this is different from the sequence to be identified, each feature is identified as a sequence (x k , y k ) to be identified. Considering how much the error rate is affected, learning to reduce this error rate expresses the nature of the problem explicitly.

そこで、この発明では各素性の識別誤りへの影響力を表現する評価関数S(z,i,j)を導入し、評価関数Sを用いて素性値φに重み付けを施し、パラメータα(j)の更新値に修正を加える。
ここで評価関数算出手段14で実行する評価関数の算出方法について説明する。この例では各素性の抽出範囲における正解系列ykと仮説zkとの相対的な単語不一致数にしたがって評価関数Sを算出する例を示す。
Therefore, in the present invention, an evaluation function S (z, i, j) that expresses the influence of each feature on identification errors is introduced, the feature value φ is weighted using the evaluation function S, and the parameter α (j) Modify the updated value of.
Here, an evaluation function calculation method executed by the evaluation function calculation means 14 will be described. In this example, an evaluation function S is calculated according to the relative number of word mismatches between the correct answer sequence y k and the hypothesis z k in each feature extraction range.

Figure 0004971830
Figure 0004971830

・正解系列ykの位置iyk=5における各素性の相対的な単語不一致数S(yk,i=5,(の+親+は))=2,S(yk,i=5,(親+は))=1,S(yk,i=5,(は))=1,
・ 仮説zkの位置izk=4における各素性の相対的な単語不一致数S(zk,i=4,(私+親+と))=2,S(zk,i=4,(親+と))=1,S(zk,i=4,(と))=1,
これらの単語不一致数Sが重み付けパラメータ更新手段17−2に引き渡され、図3に示す行L−8で素性値φ(yk,i,j)とφ(zk *,i,j)のそれぞれに乗算され、重み付けされたパラメータα(j)としてその数値を更新する。
重み付けされたパラメータα(j)を行なう行L−8で実行するパーセプトロンアルゴリズム解析に用いることにより正解率の高い仮説を検出できることとなり、良質のパラメータα(j)の学習効果を得ることができる。
- correct sequence y k positions i yk = each feature in 5 relative words the number of mismatches S (y k, i = 5 , ( the + parent + is)) = 2, S (y k, i = 5, (Parent + is)) = 1, S (y k , i = 5, (ha)) = 1,
- hypothesis z position i zk = relative words the number of mismatches of each feature in the 4 S of k (z k, i = 4 , ( I + parents + and)) = 2, S (z k, i = 4, ( Parent +)) = 1, S (z k , i = 4, (and)) = 1,
These word mismatch numbers S are transferred to the weighting parameter updating means 17-2, and the feature values φ (y k , i, j) and φ (z k * , i, j) are changed in the row L-8 shown in FIG. Each of them is multiplied and updated as a weighted parameter α (j).
By using the weighted parameter α (j) in the perceptron algorithm analysis executed in the row L-8, it is possible to detect a hypothesis with a high correct answer rate, and it is possible to obtain a good learning effect of the parameter α (j).

上述では評価関数を正解系列と仮説との間の相対的な単語不一致数を基に算出したが、誤り率を用いることができる。誤り率とは先に説明した不一致の単語数と、素性抽出範囲の単語数との比で求めること等もできる。但し、評価関数Sを不一致の単語数で求める場合には整数演算のみで処理できるから、高速演算が可能であるが、単語の不一致発生率を基に評価関数Sを算出する場合には小数点を含む演算が必要となる不利益が発生する。   In the above description, the evaluation function is calculated based on the relative number of word mismatches between the correct answer sequence and the hypothesis, but an error rate can be used. The error rate can also be obtained from the ratio between the number of mismatched words described above and the number of words in the feature extraction range. However, when the evaluation function S is obtained by the number of mismatched words, it can be processed only by integer arithmetic, so high speed calculation is possible, but when calculating the evaluation function S based on the word mismatch occurrence rate, a decimal point is used. There is a disadvantage that requires operations to be included.

学習で得られたパラメータα(j)の利用例
以下に学習で得られたパラメータα(j)を用いたパーセプトロンアルゴリズムの利用例を説明する。ここでは音声認識結果の認識精度をパーセプトロンアルゴリズム解析によって更に高めることを目的とした利用方法について説明する。
音声認識装置では複数の仮説を出力する。各仮説には既に

Figure 0004971830
が付されている。一般に音声認識装置はこの
Figure 0004971830
が最も大きい仮説を最尤仮説とし、認識結果として出力している。
パーセプトロンアルゴリズムを適用する場合、各仮説に付加されている
Figure 0004971830
をパーセプトロンアルゴリズム解析によりリスコアし、リスコアの結果最も大きいスコアが得られる仮説を最終的な認識結果とするものである(参考文献1)。 Usage example of parameter α (j) obtained by learning A usage example of the perceptron algorithm using the parameter α (j) obtained by learning will be described below. Here, a usage method for the purpose of further improving the recognition accuracy of the speech recognition result by perceptron algorithm analysis will be described.
The speech recognition apparatus outputs a plurality of hypotheses. Each hypothesis is already
Figure 0004971830
Is attached. In general, speech recognition devices
Figure 0004971830
The hypothesis with the largest is the maximum likelihood hypothesis and is output as the recognition result.
When applying the perceptron algorithm, it is added to each hypothesis
Figure 0004971830
Is re-scored by perceptron algorithm analysis, and the final recognition result is the hypothesis that gives the largest score as a result of the re-scoring (Reference Document 1).

つまり、

Figure 0004971830
となる仮説zK *を最終認識結果とする。λは音声認識の
Figure 0004971830
とパーセプトロンのスコアΣi,jφ(zK,i,j)・α(j)のスケーリングを調整するパラメータであり、図7の横軸に付したスケーリングパラメータである。図7に示した例ではこのλの値を変化させ、リスコアの精度を評価する。この発明では単語誤り率がスケーリングパラメータλの値の変化に対して鋭敏である。これはこの発明において評価関数S(z,i,j)の値が大きい場合にパーセプトロンのパラメータαの値が大きく振れるため、一部のデータサンプルにオーバーフィッティングする可能性があり、その影響であると考えられる。そのための学習データが少ない場合に、従来のパーセプトロンアルゴリズムを採用した場合より単語誤り率が高くなる可能性もある。しかしながら充分なデータ量を確保できれば図7に示した結果のように単語誤り率をさらに改善することができる。 In other words,
Figure 0004971830
The hypothesis z K * that becomes is the final recognition result. λ is for speech recognition
Figure 0004971830
And perceptron score Σ i, j φ (z K , i, j) · α (j) are parameters for adjusting the scaling, and are the scaling parameters attached to the horizontal axis in FIG. In the example shown in FIG. 7, the value of λ is changed to evaluate the rescore accuracy. In the present invention, the word error rate is sensitive to changes in the value of the scaling parameter λ. In the present invention, when the value of the evaluation function S (z, i, j) is large, the value of the parameter α of the perceptron fluctuates greatly. it is conceivable that. When there is little learning data for that purpose, there is a possibility that the word error rate becomes higher than when the conventional perceptron algorithm is adopted. However, if a sufficient amount of data can be secured, the word error rate can be further improved as shown in FIG.

参考文献1 Brian Roark, Murat Saraclar, Michael Collins “Corrective Language Modeling for Large Vocablary ASR with the Perceptron Algorithm,” Proceedings of ICASSP, Vol.1, pp. 749-752. 2004.
参考文献2 Kikuo Maekawa, Hanae Koiso, Sadaoki Furui, Hitoshi Isahara. ”Spontaneous Speech Corpus of Japanese,”Proceedings of The Second International Conference on Language Resources and Evaluation,pp.947-952.2000
Reference 1 Brian Roark, Murat Saraclar, Michael Collins “Corrective Language Modeling for Large Vocablary ASR with the Perceptron Algorithm,” Proceedings of ICASSP, Vol.1, pp. 749-752. 2004.
Reference 2 Kikuo Maekawa, Hanae Koiso, Sadaoki Furui, Hitoshi Isahara. “Spontaneous Speech Corpus of Japanese,” Proceedings of The Second International Conference on Language Resources and Evaluation, pp.947-952.2000

音声認識結果の更なる精度向上に活用することができる。   This can be used to further improve the accuracy of speech recognition results.

この発明によるパーセプトロン学習装置の一実施例を説明するためのブロック図。The block diagram for demonstrating one Example of the perceptron learning apparatus by this invention. この発明によるパーセプトロン学習装置におけるパラメータ学習方法の手順を説明するためのフローチャート。The flowchart for demonstrating the procedure of the parameter learning method in the perceptron learning apparatus by this invention. この発明によるパーセプトロン学習プログラムの概要を説明するための図。The figure for demonstrating the outline | summary of the perceptron learning program by this invention. 従来のパーセプトロン学習装置を説明するためのブロック図。The block diagram for demonstrating the conventional perceptron learning apparatus. 従来のパーセプトロン学習装置におけるパラメータ学習方法の手順を説明するためのフローチャート。The flowchart for demonstrating the procedure of the parameter learning method in the conventional perceptron learning apparatus. 従来のパーセプトロン学習プログラムの概要を説明するための図。The figure for demonstrating the outline | summary of the conventional perceptron learning program. この発明の効果を説明するための実験例を示すグラフ。The graph which shows the experiment example for demonstrating the effect of this invention. 図7に示した実験結果の実験条件を説明するための図。The figure for demonstrating the experimental condition of the experimental result shown in FIG.

符号の説明Explanation of symbols

10−1 従来のパーセプトロン学習装置
10−2 この発明によるパーセプトロン学習装置
11 データ入力手段
12 パラメータ初期設定手段
13 素性値算出手段
15 パーセプトロンアルゴリズム解析手段
16 評価関数算出手段
17−1 パラメータ更新手段
17−2 重み付きパラメータ更新手段
18 ループ制御手段
10-1 Conventional Perceptron Learning Device
10-2 Perceptron learning apparatus according to the present invention
11 Data input means
12 Parameter initial setting means
13 feature value calculation means
15 Perceptron algorithm analyzing means 16 Evaluation function calculating means 17-1 Parameter updating means 17-2 Weighted parameter updating means 18 Loop control means

Claims (6)

正解系列と、それに対応する仮説系列の集合の組を学習データとして取り組むデータ入力手段と、
パーセプトロンアルゴリズムに用いられるパラメータαの値を初期設定するパラメータ初期設定手段と、
前記データ入力手段により取り込まれた正解系列及びそれに対応する仮説系列とから素性値を算出する素性値算出手段と、
前記パラメータαが与えられた条件の基で、ある仮説から得られた素性値との積和で与えられるスコアを最大化する仮説zK *を求めるパーセプトロンアルゴリズム解析手段と、
iを素性が得られた系列中の位置を表すインデックスとし、jを素性を表すインデックスとし、前記正解系列y K の位置iにおけるインデックスjの素性と、前記スコアを最大化する仮説z K * における前記正解系列の素性と対応する素性との差分を表す評価関数S(yK,i,j)及び、前記スコアを最大化する仮説z K * の位置iにおけるインデックスjの素性と、前記正解系列y K における前記仮説の素性と対応する素性との差分を表す評価関数S(zK *,i,j)を算出する評価関数算出手段と、
前記素性値算出手段で算出した素性値φ(yK,i,j)とφ(zK *,i,j)にそれぞれ、前記評価関数算出手段で算出した評価関数S(yK,i,j)及びS(zK *,i,j)を乗算し、重み付けされたパラメータαの値を更新するパラメータ更新手段と、
前記パーセプトロンアルゴリズム解析手段の解析処理と、前記パラメータ更新手段の更新処理とを全学習データに対して再帰的に実行させるループ制御手段と、
を備える構成としたことを特徴とするパーセプトロン学習装置。
A data input means that uses a set of correct answer series and a corresponding set of hypothesis series as learning data;
Parameter initial setting means for initial setting of the value of the parameter α used in the perceptron algorithm;
A feature value calculating means for calculating a feature value from a correct answer sequence captured by the data input means and a hypothesis sequence corresponding thereto;
Perceptron algorithm analysis means for obtaining a hypothesis z K * that maximizes a score given by a product sum with a feature value obtained from a certain hypothesis under the condition where the parameter α is given;
The i is an index that represents the position in the resulting sequence is identity, the j is an index representing the identity hypothesis z K that maximizes the identity of the index j, the previous SL score at position i of the correct answer-series y K and the identity of the index j in the evaluation function S (y K, i, j) and, hypothesis maximizes the score z K * position i representing the difference between the corresponding feature and feature of the correct sequence in *, before Symbol evaluation represents the difference between the corresponding feature and feature of the hypothesis in correct sequence y K function S (z K *, i, j) and the evaluation function calculation means for calculating,
The feature value φ (y K , i, j) and φ (z K * , i, j) calculated by the feature value calculation unit are respectively calculated by the evaluation function S (y K , i, j, parameter updating means for multiplying j) and S (z K * , i, j) and updating the weighted parameter α value;
Loop control means for recursively executing the analysis process of the perceptron algorithm analysis means and the update process of the parameter update means for all learning data;
A perceptron learning device characterized by comprising:
請求項1記載のパーセプトロン学習装置において、前記評価関数を表す差分は、前記正解系列と前記スコアを最大化する仮説との間の相対的な識別誤り率によって定めることを特徴とするパーセプトロン学習装置。   The perceptron learning device according to claim 1, wherein the difference representing the evaluation function is determined by a relative discrimination error rate between the correct answer sequence and a hypothesis that maximizes the score. 請求項1記載のパーセプトロン学習装置において、前記評価関数を表す差分は、前記正解系列と前記スコアを最大化する仮説との間の相対的な識別誤り数によって定めることを特徴とするパーセプトロン学習装置。   2. The perceptron learning device according to claim 1, wherein the difference representing the evaluation function is determined by a relative number of identification errors between the correct answer sequence and a hypothesis that maximizes the score. 正解系列と、それに対応する仮説系列の集合の組を学習データとして取り組むデータ入力処理と、
パーセプトロンアルゴリズムに用いられるパラメータαの値を初期設定するパラメータ初期設定処理と、
前記データ入力処理により取り込まれた正解系列及びそれに対応する仮説系列とから素性値を算出する素性値算出処理と、
前記パラメータαが与えられた条件の基で、ある仮説から得られた素性値との積和で与えられるスコアを最大化する仮説zK *を求めるパーセプトロンアルゴリズム解析処理と、
iを素性が得られた系列中の位置を表すインデックスとし、jを素性を表すインデックスとし、前記正解系列y K の位置iにおけるインデックスjの素性と、前記スコアを最大化する仮説z K * における前記正解系列の素性と対応する素性との差分を表す評価関数S(yK,i,j)及び、前記スコアを最大化する仮説z K * の位置iにおけるインデックスjの素性と、前記正解系列yK における前記仮説の素性と対応する素性との差分を表す評価関数S(zK *,i,j)を算出する評価関数算出処理と、
前記素性値算出処理で算出した素性値φ(yK,i,j)とφ(zK *,i,j)にそれぞれ、前記評価関数算出処理で算出した評価関数S(yK,i,j)及びS(zK *,i,j)を乗算し、重み付けされたパラメータαの値を更新するパラメータ更新処理と、
前記パーセプトロンアルゴリズム解析処理の解析処理と、前記パラメータ更新処理の更新処理とを全学習データに対して再帰的に実行するループ制御処理と、
を含むことを特徴とするパーセプトロン学習装置におけるパラメータ学習方法。
A data input process in which a set of correct answer series and a set of hypothesis series corresponding thereto is used as learning data;
A parameter initialization process for initially setting the value of the parameter α used in the perceptron algorithm;
A feature value calculation process for calculating a feature value from the correct answer sequence captured by the data input process and a hypothesis series corresponding thereto;
Perceptron algorithm analysis processing for obtaining a hypothesis z K * that maximizes a score given by a product sum with a feature value obtained from a certain hypothesis under the condition where the parameter α is given,
The i is an index that represents the position in the resulting sequence is identity, the j is an index representing the identity hypothesis z K that maximizes the identity of the index j, the previous SL score at position i of the correct answer-series y K and the identity of the index j in the evaluation function S (y K, i, j) and, hypothesis maximizes the score z K * position i representing the difference between the corresponding feature and feature of the correct sequence in *, before Symbol evaluation represents the difference between the corresponding feature and feature of the hypothesis in correct sequence y K function S (z K *, i, j) and the evaluation function calculation processing for calculating,
The feature value φ (y K , i, j) and φ (z K * , i, j) calculated in the feature value calculation process are respectively calculated in the evaluation function S (y K , i, j, j) and S (z K * , i, j), a parameter update process for updating the value of the weighted parameter α,
A loop control process for recursively executing the analysis process of the perceptron algorithm analysis process and the update process of the parameter update process for all learning data;
The parameter learning method in the perceptron learning apparatus characterized by including.
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1乃至3の何れかに記載のパーセプトロン学習装置として機能させるパーセプトロン学習プログラム。   A perceptron learning program which is described in a computer-readable program language and causes the computer to function as the perceptron learning device according to any one of claims 1 to 3. コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項5記載のパーセプトロン学習プログラムを記録した記録媒体。   A recording medium comprising a computer-readable recording medium, wherein the perceptron learning program according to claim 5 is recorded on the recording medium.
JP2007047461A 2007-02-27 2007-02-27 Perceptron learning device, parameter learning method in perceptron learning device, perceptron learning program, recording medium Active JP4971830B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007047461A JP4971830B2 (en) 2007-02-27 2007-02-27 Perceptron learning device, parameter learning method in perceptron learning device, perceptron learning program, recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007047461A JP4971830B2 (en) 2007-02-27 2007-02-27 Perceptron learning device, parameter learning method in perceptron learning device, perceptron learning program, recording medium

Publications (2)

Publication Number Publication Date
JP2008210242A JP2008210242A (en) 2008-09-11
JP4971830B2 true JP4971830B2 (en) 2012-07-11

Family

ID=39786471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007047461A Active JP4971830B2 (en) 2007-02-27 2007-02-27 Perceptron learning device, parameter learning method in perceptron learning device, perceptron learning program, recording medium

Country Status (1)

Country Link
JP (1) JP4971830B2 (en)

Also Published As

Publication number Publication date
JP2008210242A (en) 2008-09-11

Similar Documents

Publication Publication Date Title
EP3926623B1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
CN107564513B (en) Voice recognition method and device
US8751227B2 (en) Acoustic model learning device and speech recognition device
Mesot et al. Switching linear dynamical systems for noise robust speech recognition
US20210117733A1 (en) Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium
US9147133B2 (en) Pattern recognition device, pattern recognition method and computer program product
JP6725186B2 (en) Learning device, voice section detection device, and voice section detection method
WO2020045313A1 (en) Mask estimation device, mask estimation method, and mask estimation program
WO2019220620A1 (en) Abnormality detection device, abnormality detection method, and program
CN110998723B (en) Signal processing device using neural network, signal processing method, and recording medium
JP2010078650A (en) Speech recognizer and method thereof
US7529651B2 (en) Accurate linear parameter estimation with noisy inputs
JP5344251B2 (en) Noise removal system, noise removal method, and noise removal program
JP2012181579A (en) Pattern classification learning device
JP6955233B2 (en) Predictive model creation device, predictive model creation method, and predictive model creation program
JP4971830B2 (en) Perceptron learning device, parameter learning method in perceptron learning device, perceptron learning program, recording medium
JP7359028B2 (en) Learning devices, learning methods, and learning programs
JP5172536B2 (en) Reverberation removal apparatus, dereverberation method, computer program, and recording medium
CN111160487B (en) Expansion method and device for face image dataset
JP5438703B2 (en) Feature quantity enhancement device, feature quantity enhancement method, and program thereof
JP2006235389A (en) Acoustic model learning method and speech recognition method, and device using methods
JP6672478B2 (en) Body sound analysis method, program, storage medium, and body sound analysis device
JP4887661B2 (en) Learning device, learning method, and computer program
JP2005031258A (en) Device and method for learning recognition model
WO2016092837A1 (en) Speech processing device, noise suppressing device, speech processing method, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120406

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4971830

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350