JP2877450B2 - Pattern recognition device using neural network - Google Patents

Pattern recognition device using neural network

Info

Publication number
JP2877450B2
JP2877450B2 JP2154550A JP15455090A JP2877450B2 JP 2877450 B2 JP2877450 B2 JP 2877450B2 JP 2154550 A JP2154550 A JP 2154550A JP 15455090 A JP15455090 A JP 15455090A JP 2877450 B2 JP2877450 B2 JP 2877450B2
Authority
JP
Japan
Prior art keywords
category
neural network
pattern
recognition result
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2154550A
Other languages
Japanese (ja)
Other versions
JPH0445500A (en
Inventor
正典 宮武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Denki Co Ltd
Original Assignee
Sanyo Denki Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Denki Co Ltd filed Critical Sanyo Denki Co Ltd
Priority to JP2154550A priority Critical patent/JP2877450B2/en
Publication of JPH0445500A publication Critical patent/JPH0445500A/en
Application granted granted Critical
Publication of JP2877450B2 publication Critical patent/JP2877450B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、神経回路網(ニューラルネットワーク)を
利用して種々のパターン認識、たとえば音声パターンの
認識,画像パターンの認識等を行うためのパターン認識
装置に関する。
The present invention relates to a pattern for performing various pattern recognition using a neural network (neural network), for example, voice pattern recognition, image pattern recognition, and the like. It relates to a recognition device.

〔従来の技術〕[Conventional technology]

神経回路網は生物の脳神経細胞を模したネットワーク
であり、ニューロンに対応した複数のユニットを相互に
接続し、それぞれのユニットの動作,ユニット間の接続
状態を適宜に設定することにより、入力データのパター
ン認識、たとえば音声データのパターン,画像データの
パターン等を認識する機能を発揮させることが可能にな
る。
A neural network is a network that simulates the brain nerve cells of a living organism. A plurality of units corresponding to neurons are connected to each other, and the operation of each unit and the connection state between the units are appropriately set so that input data can be obtained. It is possible to exhibit a function of pattern recognition, for example, a function of recognizing a pattern of voice data, a pattern of image data, and the like.

更に、誤差逆伝播(Error Back Propagation)学習法
と称される神経回路網のための優れた学習アルゴリズム
が近年開発されたため、神経回路網を利用したパターン
認識装置の種々の分野への応用が期待されている。
Furthermore, since an excellent learning algorithm for a neural network called Error Back Propagation learning method has been recently developed, application of the pattern recognition device using the neural network to various fields is expected. Have been.

第2図は従来の神経回路網を用いたパターン認識装置
の一例としての音声認識装置の構成例を示すブロック図
である。なお、この従来例の音声認識装置では、入力さ
れた認識対象の音声のパターンを6つの破裂性子音/b//
d//g//p//t//k/のいずれかに識別するように構成されて
いる。
FIG. 2 is a block diagram showing a configuration example of a speech recognition apparatus as an example of a conventional pattern recognition apparatus using a neural network. In this conventional speech recognition apparatus, the input speech pattern to be recognized is converted into six bursting consonants / b //.
It is configured to identify any of d // g // p // t // k /.

第2図において、参照符号1は音声入力部であり、入
力された認識対象の音声のパターンからスペクトラム,L
PCケプストラム係数等のようなそのパターンの特徴を表
す音声パラメータを抽出し、神経回路網2へ与える。
In FIG. 2, reference numeral 1 denotes a voice input unit, which generates a spectrum, L
Speech parameters representing characteristics of the pattern, such as PC cepstrum coefficients, are extracted and provided to the neural network 2.

神経回路網2は、その具体的構成は後述するが、上述
の6つの子音カテゴリのいずれに認識対象の入力子音の
パターンが含まれるかを識別し、それぞれのカテゴリに
対応して識別結果を表す出力信号を判定部3へ出力す
る。この神経回路網2の識別対象である各カテゴリに対
応した出力信号は、“0"〜“1"の範囲の値になる。
The neural network 2 identifies which of the above-mentioned six consonant categories includes the pattern of the input consonant to be recognized, and a specific result thereof will be described later. An output signal is output to the determination unit 3. The output signal corresponding to each category to be identified by the neural network 2 has a value in a range from “0” to “1”.

判定部3では神経回路網2から与えられる出力信号の
値が最大を示す信号を選択し、最終的な認識結果として
出力する。
The determination unit 3 selects a signal having the maximum value of the output signal given from the neural network 2 and outputs it as a final recognition result.

判定部3が出力する認識結果は、たとえば言語処理装
置等の外部装置4に与えられる。
The recognition result output from the determination unit 3 is provided to an external device 4 such as a language processing device.

第3図は神経回路網2の詳細な構成を示すブロック図
であり、従来公知の典型的な3層構造が示されている。
FIG. 3 is a block diagram showing the detailed configuration of the neural network 2, showing a typical three-layer structure known in the art.

第3図において、参照符号21は入力層を、22は隠れ層
を、23は出力層をそれぞれ示している。
In FIG. 3, reference numeral 21 denotes an input layer, 22 denotes a hidden layer, and 23 denotes an output layer.

入力層21は複数のユニット211〜21nにて、隠れ層22は
複数のユニット221〜22mにて、出力層23は6つの子音に
それぞれ対応した6つのユニット231〜236にてそれぞれ
構成されている。
The input layer 21 includes a plurality of units 211 to 21n, the hidden layer 22 includes a plurality of units 221 to 22m, and the output layer 23 includes six units 231 to 236 respectively corresponding to six consonants. .

入力層21の各ユニット211〜21nと隠れ層22の各ユニッ
ト221〜22mとの間、及び隠れ層22の各ユニット221〜22m
と出力層23の各ユニット231〜236との間はそれぞれ異な
った強さで結合されている。この各ユニット間の結合の
強さ(以下、ウェイトと称す)は学習、たとえば前述の
如き誤差逆伝播法による学習にて決定される。
Between each unit 211-21n of the input layer 21 and each unit 221-22m of the hidden layer 22, and each unit 221-22m of the hidden layer 22
And the units 231 to 236 of the output layer 23 are connected with different strengths. The strength of the connection between the units (hereinafter, referred to as weight) is determined by learning, for example, learning by the error back propagation method as described above.

このような音声認識装置においては、音声入力部1へ
入力された認識対象の音声のパターンから抽出されたパ
ラメータセットのデータが入力層21の各ユニット211〜2
1nへまず入力される。ユニット211〜21nに入力されたパ
ラメータセットのデータは、入力層21の各ユニット211
〜21nと隠れ層22の各ユニット221〜22mとの間及び隠れ
層22の各ユニット221〜22mと出力層23の各ユニット231
〜236との間の結合の強さ、即ちウェイトの値に応じて
順次隠れ層22の各ユニット221〜22mから出力層23の各ユ
ニット231〜236へ情報が伝達され、識別結果として出力
される。
In such a speech recognition apparatus, the data of the parameter set extracted from the pattern of the speech to be recognized input to the speech input unit 1 is stored in each unit 211 to 2 of the input layer 21.
First input to 1n. The data of the parameter set input to the units 211 to 21n are stored in each unit 211 of the input layer 21.
To 21n and each unit 221 to 22m of the hidden layer 22, and each unit 221 to 22m of the hidden layer 22 and each unit 231 of the output layer 23
The information is sequentially transmitted from each unit 221 to 22m of the hidden layer 22 to each of the units 231 to 236 of the output layer 23 according to the strength of the connection between 236 and 236, that is, the value of the weight, and is output as the identification result. .

第4図は神経回路網2の学習のための構成を示すブロ
ック図であり、第3図と同一の構成部分には同一の参照
符号を付与してある。
FIG. 4 is a block diagram showing a configuration for learning the neural network 2, and the same components as those in FIG. 3 are denoted by the same reference numerals.

第4図において、参照符号51は誤差逆伝播学習制御部
であり、52は学習用音声パラメータメモリであり、53は
教師信号メモリである。
In FIG. 4, reference numeral 51 denotes an error back propagation learning control unit, 52 denotes a learning voice parameter memory, and 53 denotes a teacher signal memory.

学習用音声パラメータメモリ52は、音声入力部1から
神経回路網2への入力または同等の機能を有する図示さ
れていない学習用音声パラメータ作成部にて作成された
複数の学習用音声パラメータセットを個々に格納してい
る。
The learning speech parameter memory 52 individually stores a plurality of learning speech parameter sets created by a learning speech parameter creation unit (not shown) having an input from the speech input unit 1 to the neural network 2 or an equivalent function. Is stored in

また教師信号メモリ53は学習用音声パラメータメモリ
52内の各学習用音声パラメータセットに対応した教師信
号を格納している。
The teacher signal memory 53 is a learning voice parameter memory.
A teacher signal corresponding to each learning voice parameter set in 52 is stored.

このような構成では、たとえば/b/を神経回路網2に
学習させる場合、誤差逆伝播学習制御部51はカテゴリ/b
/に属する音声のパラメータセットを入力層21の各ユニ
ット211〜21nへ入力し、それに対して出力層23の各ユニ
ット231〜236から得られる出力信号を読取り、教師信号
メモリ53内の対応する教師信号と比較する。
In such a configuration, for example, when the neural network 2 learns / b /, the error backpropagation learning control unit 51 uses the category / b /
The parameter set of the voice belonging to / is input to each of the units 211 to 21n of the input layer 21, and the output signal obtained from each of the units 231 to 236 of the output layer 23 is read, and the corresponding teacher in the teacher signal memory 53 is read. Compare with signal.

なお教師信号とは、入力層21の各ユニット211〜21nへ
入力された認識対象のパターンに対する出力層23の各ユ
ニット231〜236からの出力信号の理想値のことであり、
識別結果となるカテゴリに対応するユニット(ここでは
/b/に対応するユニット231)が信号値“1"を、他の各ユ
ニット232〜236が信号値“0"をそれぞれ出力するように
教師信号が対応付けられる。
Note that the teacher signal is an ideal value of an output signal from each of the units 231 to 236 of the output layer 23 with respect to the pattern to be recognized input to each of the units 211 to 21n of the input layer 21,
The unit corresponding to the category of the identification result (here,
The teacher signal is associated such that the unit 231 corresponding to / b / outputs the signal value “1” and the other units 232 to 236 output the signal value “0”.

誤差逆伝播学習制御部51は、教師信号と出力層23の各
ユニット231〜236の出力信号の値との誤差が最小となる
ように、公知の学習方法である誤差逆伝播学習法により
各ユニット間のウェイト値を変更し最適化する。
The error back-propagation learning control unit 51 performs the error back-propagation learning method, which is a known learning method, so that the error between the teacher signal and the output signal value of each of the units 231 to 236 of the output layer 23 is minimized. Change and optimize the weight value between.

以上のような手順を神経回路網2の認識対象の全ての
カテゴリ(この例では/b//d//g//p//t//k/の6つ)に対
して行うことにより、神経回路網2の学習を反復する
が、神経回路網2に高度の識別能力を発揮させるには相
当回数の反復学習が必要である。
By performing the above-described procedure for all categories (6 in this example, / b // d // g // p // t // k /) to be recognized by the neural network 2, The learning of the neural network 2 is repeated, but a considerable number of iterative learning is required for the neural network 2 to exhibit a high degree of discrimination ability.

〔発明が解決しようとする課題〕[Problems to be solved by the invention]

以上のように、従来の神経回路網を用いたパターン認
識装置の一例である音声認識装置においては、教師信号
の値は“0"または“1"のいずれかの値をとる2値信号で
ある。即ち、神経回路網2は学習過程において認識対象
である音声のパターンのカテゴリに対応する出力を“1"
にそれ以外の出力“0"にするように学習する。
As described above, in the speech recognition device that is an example of the pattern recognition device using the conventional neural network, the value of the teacher signal is a binary signal that takes either “0” or “1”. . That is, the neural network 2 outputs “1” corresponding to the category of the voice pattern to be recognized in the learning process.
To make the other output “0”.

従って、従来の神経回路網を用いたパターン認識装置
ではパターン認識に際して、正しく認識が行われた場合
には認識対象のパターンが含まれると識別されたカテゴ
リに対応する出力層23のユニット231(又は232〜236)
の出力信号の値が“1"に近い値に、他のユニットの出力
信号の値が“0"に近い値になる。換言すれば、このよう
な神経回路網2からは認識対象のパターンと各カテゴリ
との間の類似性あるいは距離等のような統計学的なデー
タは得られない。このため、誤認識が生じた場合には、
第2位以下の認識結果を得ることは出来ないので、外部
装置4においては誤りを修正することは困難であり、神
経回路網2の高度の認識能力を充分に活用することは出
来ないという問題がある。
Therefore, in a conventional pattern recognition device using a neural network, in performing pattern recognition, if the recognition is correctly performed, the unit 231 (or the output layer 23) corresponding to the category identified as including the pattern to be recognized is included. 232-236)
Becomes closer to “1”, and the output signals of other units become closer to “0”. In other words, the neural network 2 cannot obtain statistical data such as similarity or distance between the pattern to be recognized and each category. Therefore, if misrecognition occurs,
Since it is impossible to obtain a recognition result of the second or lower rank, it is difficult to correct an error in the external device 4, and the advanced recognition ability of the neural network 2 cannot be fully utilized. There is.

本発明はこのような事情に鑑みてなされたものであ
り、第1位の認識結果のみならず第2位の認識結果も、
更に必要であれば第3位以降の各順位の認識結果をも容
易に得られる神経回路網を用いたパターン認識装置の提
供を目的とする。
The present invention has been made in view of such circumstances, and not only the first recognition result but also the second recognition result,
It is still another object of the present invention to provide a pattern recognition apparatus using a neural network which can easily obtain a recognition result of each of the third and subsequent ranks if necessary.

〔課題を解決するための手段〕[Means for solving the problem]

本発明の神経回路網を用いたパターン認識装置は、第
1の発明では、認識対象の入力パターンを識別対象の全
てのカテゴリを対象として識別する神経回路網にて構成
された第1の識別手段と、この第1の識別手段が識別対
象する全カテゴリの内の一部のカテゴリを対象として入
力パターンを識別する神経回路網にて構成された第2の
識別手段とを備え、両識別手段の識別結果を統合して最
終的な認識結果を出力するように構成されている。
According to the first aspect of the present invention, the pattern recognition apparatus using the neural network according to the first aspect is a first identification unit configured with a neural network that identifies an input pattern to be recognized for all categories to be identified. And a second identification unit composed of a neural network for identifying an input pattern for some of the categories to be identified by the first identification unit. It is configured to integrate the identification results and output a final recognition result.

また第2の発明では、第1の識別手段により識別され
たカテゴリを第1位の認識結果とし、第2の識別手段は
第1位の認識結果とされたカテゴリ以外のカテゴリを識
別対象とする神経回路網により識別を行い、その識別結
果を第2位の認識結果とする構成を採っている。
In the second invention, the category identified by the first identification unit is set as the first recognition result, and the second identification unit sets categories other than the category determined as the first recognition result as identification targets. The recognition is performed by a neural network, and the result of the recognition is used as the second recognition result.

第3の発明では、第3位以下の認識結果として、順次
第k−1位の認識結果とされたカテゴリを除外した残り
のカテゴリを識別対象とする神経回路網の識別結果を第
k位の認識結果とする構成を採っている。
In the third invention, as the recognition results of the third and lower ranks, the classification results of the neural network, which is the classification target of the remaining categories excluding the categories that have been sequentially determined to be the k-1th rank recognition results, are the kth rank. It adopts the configuration of the recognition result.

第4の発明では、第2の識別手段の神経回路網が識別
対象とするカテゴリを第1位の認識結果のカテゴリに対
応して予め定められたカテゴリを除いたカテゴリとする
構成を採っている。
In the fourth invention, a configuration is adopted in which the category to be identified by the neural network of the second identification means is a category excluding a category predetermined in accordance with the category of the first-ranked recognition result. .

第5の発明では、第3位以下の認識結果を求める際に
も、第k−1位までの認識結果である各カテゴリに対応
して予め定められたカテゴリを除外したカテゴリを第2
の識別手段の神経回路網が識別対象として第k位の認識
結果を得るように構成している。
According to the fifth aspect, even when the recognition result of the third or lower rank is obtained, the category excluding a predetermined category corresponding to each category which is the recognition result of the k-1st rank is set to the second rank.
Is configured to obtain a k-th recognition result as an identification target.

第6の発明では、第k位の認識結果を得る際に第k−
1位の各識別結果のカテゴリに対応して除外されるカテ
ゴリが必ず1個は存在するように構成されている。
In the sixth invention, when the k-th recognition result is obtained, the k-th
It is configured such that there is always one category to be excluded corresponding to the category of each identification result of the first place.

第7の発明では、第k位の認識結果を得る際に第k−
1位の各識別結果のカテゴリに対応して除外されるカテ
ゴリが第1位から第k−1位までの各カテゴリの組合わ
せに対応して決定されるように構成されている。
In the seventh invention, the k-th recognition result is obtained when the k-th recognition result is obtained.
The category to be excluded corresponding to the category of each identification result of the first place is determined according to the combination of each category from the first place to the (k-1) th place.

〔作用〕[Action]

本発明の神経回路網を用いたパターン認識装置では、
第1の発明によれば、認識対象の全カテゴリを対象とし
て第1の識別手段により得られる識別結果と、識別対象
の全カテゴリの一部を対象として第2の識別手段により
得られる識別結果とを統合して認識結果が得られ、認識
不可能な状態は生じない。
In the pattern recognition device using the neural network of the present invention,
According to the first aspect, the identification result obtained by the first identification unit for all categories of the recognition target and the identification result obtained by the second identification unit for a part of all categories of the identification target are Are integrated to obtain a recognition result, and an unrecognizable state does not occur.

第2の発明によれば、第1位の認識結果のカテゴリ以
外のカテゴリから第2位の認識結果が得られる。
According to the second aspect, the second-ranked recognition result can be obtained from a category other than the category of the first-ranked recognition result.

第3の発明によれば、必要に応じて順次第3位以下の
認識結果が得られる。
According to the third invention, recognition results of the third and lower ranks are sequentially obtained as necessary.

第4の発明によれば、第2位の認識結果は第1位の認
識結果に応じて予め定めてあるカテゴリのみから得ら
れ、余分な回路構成及びデータ処理を削減することが出
来る。
According to the fourth aspect, the second-ranked recognition result is obtained only from the category determined in advance in accordance with the first-ranked recognition result, and unnecessary circuit configuration and data processing can be reduced.

第5の発明によれば、第3位以下の認識結果について
もそれぞれの1位上の認識結果に応じて予め定めてある
カテゴリのみから得られ、余分な回路構成及びデータ処
理を削減することが出来る。
According to the fifth aspect, the recognition result of the third and lower ranks can be obtained only from the predetermined category according to the recognition result of the first rank, thereby reducing unnecessary circuit configuration and data processing. I can do it.

第6の発明によれば、第k位の認識結果を得る際に第
k−1位の認識結果を得る場合と同一の処理が行われる
虞がない。
According to the sixth aspect, there is no possibility that the same processing as in the case of obtaining the (k−1) th recognition result is performed when obtaining the kth recognition result.

第7の発明によれば、第k位の認識結果を得る際に、
第k−1位までの各認識結果のカテゴリの組合わせに応
じて、神経回路網が識別対象とするカテゴリが予め決定
されるので、余分な回路構成及びデータ処理を削減する
ことが出来る。
According to the seventh aspect, when obtaining the k-th recognition result,
Since the category to be identified by the neural network is determined in advance according to the combination of the categories of the respective recognition results up to the (k-1) th order, it is possible to reduce unnecessary circuit configuration and data processing.

〔実施例〕〔Example〕

以下、本発明をその実施例を示す図面を参照して詳述
する。
Hereinafter, the present invention will be described in detail with reference to the drawings showing the embodiments.

第1図は本発明の神経回路網を用いたパターン認識装
置の一実施例としての音声認識装置の一構成例を示すブ
ロック図である。なお、この実施例の音声認識装置で
は、入力された音声のパターンを6つの破裂性子音のカ
テゴリ/b//d//g//p//t//k/にて構成される集合Cのいず
れのカテゴリであるかを識別するように構成されてい
る。
FIG. 1 is a block diagram showing a configuration example of a speech recognition apparatus as one embodiment of a pattern recognition apparatus using a neural network according to the present invention. Note that, in the speech recognition apparatus of this embodiment, the input speech pattern is converted into a set C composed of six bursting consonant categories / b // d // g // p // t // k /. It is configured to identify which category the category is.

第1図において、参照符号1は音声入力部であり、入
力された認識対象の音声のパターンからスペクトラム,L
PCケプストラム係数等のようなそのパターンの特徴を表
す音声パラメータセットを抽出し、第1位候補識別用神
経回路網2及び第2位候補識別用神経回路網61〜66へ与
える。
In FIG. 1, reference numeral 1 denotes a voice input unit, which generates a spectrum, L
A speech parameter set representing a feature of the pattern, such as a PC cepstrum coefficient, is extracted and provided to the first candidate identification neural network 2 and the second candidate identification neural networks 61 to 66.

第1位候補識別用神経回路網2は上述の如く、集合C
を構成する6つの子音カテゴリのいずれに認識対象の入
力子音のパターンが含まれるかを識別し、それぞれのカ
テゴリに対応して識別結果を表す出力信号を判定部3へ
出力する。この第1位候補識別用神経回路網2の識別対
象である各カテゴリに対応した出力信号は、“0"〜“1"
の範囲の値になる。
As described above, the neural network 2 for the first-ranked candidate identifies the set C
Of the six consonant categories constituting the input consonant pattern to be recognized are identified, and an output signal representing the identification result corresponding to each category is output to the determination unit 3. Output signals corresponding to each category to be identified by the first candidate identification neural network 2 are “0” to “1”.
Value in the range.

また各第2位候補識別用神経回路網61〜66は、たとえ
ば集合Cを構成する6つの子音/b//d//g//p//t//k/から
それぞれ一つを除いた他の5つの子音にて構成される部
分集合Ciを識別するように構成されている。具体的に
は、第2位候補識別用神経回路網61は/b/以外の、同62
は/d/以外の、同63は/g/以外の、同64は/p/以外の、同6
5は/t/以外の、同66は/k/以外のそれぞれ5つの子音を
識別する。
In addition, each of the second-ranking candidate identification neural networks 61 to 66 is obtained by removing one of the six consonants / b // d // g // p // t // k / constituting the set C, for example. It is configured to identify a subset Ci composed of the other five consonants. Specifically, the neural network 61 for the second-rank candidate identification is the same as the neural network 61 other than / b /.
Is other than / d /, 63 is other than / g /, 64 is other than / p /, 6
5 identifies five consonants other than / t /, and 66 identifies five consonants other than / k /.

判定部3では第1位候補識別用神経回路網2及び各第
2位候補識別用神経回路網61〜66から与えられる出力信
号の結果を統合して最終的な認識結果を外部装置4へ出
力する。
The determination unit 3 integrates the output signal results given from the first candidate neural network 2 for identification and the neural networks 61 to 66 for the second candidate identification and outputs the final recognition result to the external device 4. I do.

なお、第1位候補識別用神経回路網2及び各第2位候
補識別用神経回路網61〜66の詳細な構成及びその学習の
ための構成は前述の第3図に示されている従来例の神経
回路網2と基本的に同様であるので、ここでは省略す
る。
The detailed configuration of the first candidate neural network for identification 2 and each of the second neural networks 61 to 66 and the configuration for learning the same are shown in FIG. This is basically the same as the neural network 2 of FIG.

このような本発明の神経回路網を用いたパターン認識
装置の一実施例である音声認識装置では、認識対象の音
声のパターンが音声入力部1へ入力されるとその音声の
パターンの特徴を表す音声パラメータセットが抽出さ
れ、第1位候補識別用神経回路網2及び各第2位候補識
別用神経回路網61〜66へ与えられる。
In such a speech recognition apparatus as an embodiment of the pattern recognition apparatus using the neural network of the present invention, when a speech pattern to be recognized is input to the speech input unit 1, the feature of the speech pattern is represented. A voice parameter set is extracted and provided to the first candidate identification neural network 2 and each of the second candidate identification neural networks 61 to 66.

第1位候補識別用神経回路網2では6つのカテゴリ/b
//d//g//p//t//k/の内のいずれかが前述の従来の神経回
路網2と同様にして選択されて識別結果として判定部3
へ与えられる。そして、たとえば第1位候補識別用神経
回路網2が/b/を第1位の認識結果として判定部3へ出
力したとすると、判定部3はそれに対応する信号を第1
位の認識結果として外部装置4へ出力すると共に、第1
位の認識結果である/b/を除いた他の5つの子音を識別
する第2位候補識別用神経回路網61の識別結果、たとえ
ば/p/であったとするとそれに応じた信号を第2位の識
別結果として外部装置4へ出力する。
In the first candidate candidate neural network 2, six categories / b
// Any one of d // g // p // t // k / is selected in the same manner as the above-described conventional neural network 2 and the determination unit 3
Given to. For example, if the first-ranking candidate identification neural network 2 outputs / b / to the determining unit 3 as the first-ranking recognition result, the determining unit 3 outputs a signal corresponding thereto to the first
Output to the external device 4 as the position recognition result,
If the recognition result of the second candidate identification neural network 61 for identifying the other five consonants excluding / b /, which is the recognition result of the position, for example, is / p /, a signal corresponding to the result is given as the second position. Is output to the external device 4 as a result of the identification.

以上により、音声入力部1へ入力された音声パターン
の認識結果としては、第1位の認識結果が/b/、第2位
の認識結果が/p/として外部装置4へ出力される。
As described above, as the recognition result of the voice pattern input to the voice input unit 1, the first recognition result is output to the external device 4 as / b /, and the second recognition result is / p /.

同様に、たとえば第1図に示されている第2位候補識
別用神経回路網61〜66の他に、6つの子音の内の4つ、
たとえば/b//p/以外の4つの子音を識別するための神経
回路網を用いれば、第3位の認識結果を得ることが可能
になる。以下、順次第4位,第5位…というように更に
下位の識別結果を順次得ることが可能である。
Similarly, for example, in addition to the second candidate identification neural networks 61 to 66 shown in FIG.
For example, if a neural network for identifying four consonants other than / b // p / is used, a third-ranked recognition result can be obtained. Hereinafter, it is possible to sequentially obtain lower-order identification results such as the fourth place, the fifth place, and so on.

ところで、上述の例では第2位の認識結果を得るため
に各1つの子音を除く5つの子音を対象とする第2位候
補識別用神経回路網61〜66を用いているが、たとえば第
1位の認識結果が/b/である場合には第2位の認識結果
としては/b/と同じ有声破裂音である/d/または/g/のい
ずれかが得られればよいという考え方もある。このよう
な考え方を採る場合には、第1位の認識結果が/b/であ
れば6つの子音の内の/d/と/g/の二つのみを認識対象と
する神経回路網を第2位候補識別用神経回路網として用
いてもよく、この場合にはその神経回路網の構成を簡易
にすることが出来る。
By the way, in the above-mentioned example, the second-ranking candidate identification neural networks 61 to 66 for five consonants except one consonant are used in order to obtain the second-ranking recognition result. There is also an idea that if the recognition result of the position is / b /, then the same voiced plosive as / b / or / g / should be obtained as the second recognition result. . If this concept is adopted, if the first-ranked recognition result is / b /, a neural network that recognizes only two of the six consonants, / d / and / g /, will be used. It may be used as a second candidate identification neural network. In this case, the configuration of the neural network can be simplified.

更に、一つの子音、たとえば/g/に対して破裂性であ
る場合と鼻音性である場合との二つのカテゴリに分類可
能であるような場合には、たとえば第1位の認識結果が
破裂性の/g/であれば第2位の認識結果は破裂性の/g/と
鼻音性の/g/とを除外した残りを認識対象とする神経回
路網を使用してもよい。
Further, in the case where a single consonant can be classified into two categories, i.e., a case in which it is bursty and a case in which it is nasal, for example, if the recognition result of the first place is bursty, If / g /, the second-ranked recognition result may use a neural network that recognizes the remainder excluding bursty / g / and nasal / g /.

なお、上述の説明では一部の子音の認識を例として音
声認識に本発明を適用した場合について記述たが、たと
えば日本語の全要素であるいは日本語以外の言語の音素
を対象とすることも勿論可能であり、更には単語のよう
にカテゴリに分類可能な単位での音声認識にも本発明は
適用可能である。更にまた、音声認識のみならず、たと
えば画像認識等のように入力データがパターン化される
種々の認識対象にも本発明を適用することが可能である
ことも言うまでもない。
In the above description, the case where the present invention is applied to speech recognition using recognition of some consonants as an example has been described. However, for example, it is possible to cover all elements in Japanese or phonemes in languages other than Japanese. Of course, it is possible, and the present invention is also applicable to voice recognition in units that can be classified into categories such as words. Furthermore, it goes without saying that the present invention can be applied not only to voice recognition but also to various recognition targets in which input data is patterned, such as image recognition.

〔発明の効果〕〔The invention's effect〕

以上に詳述した如く本発明の神経回路網を用いたパタ
ーン認識装置によれば、従来は第1位の認識結果のみし
か得られなかったにも拘わらず、第2位の認識結果を、
また更に必要に応じてそれ以下の各順位の認識結果を得
ることが可能になる。このため、第1位の認識結果が誤
認識であった場合に第2位の認識結果あるいはそれ以下
の各認識結果を採用して誤認識の修正が可能になり、神
経回路網の高度な認識能力を従来以上に活用することが
可能になる。
As described in detail above, according to the pattern recognition apparatus using the neural network of the present invention, despite the fact that only the first recognition result can be obtained conventionally, the second recognition result is
Further, it is possible to obtain a recognition result of each rank lower than that as needed. For this reason, when the recognition result of the first place is erroneous recognition, the recognition result of the second place or each of the lower recognition results can be adopted to correct the erroneous recognition. It is possible to utilize the ability more than before.

また、第2位以下の各順位の認識結果を得る際には、
それまでに得られている各順位のカテゴリに応じて予め
定められているカテゴリ、あるいは各順位のカテゴリの
組合わせに応じて予め定められているカテゴリを識別対
象として神経回路網にて識別が行われる構成を採る場合
には、神経回路網の構成及び処理時間の削減が可能にな
る。
Also, when obtaining the recognition result of each rank below the second place,
The classification is performed by the neural network using the category determined in advance according to the category of each rank obtained up to that time or the category predetermined according to the combination of the category of each rank. When the configuration is adopted, the configuration of the neural network and the processing time can be reduced.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の神経回路網を用いたパターン認識装置
の構成を示すブロック図、第2図は従来の神経回路網を
用いたパターン認識装置の構成を示すブロック図、第3
図はその神経回路網の詳細な構成を示すブロック図、第
4図は神経回路網の学習のための構成を示すブロック図
である。 1……音声入力部、2……第1位候補識別用神経回路
網、3……判定部、61〜66……第2位候補識別用神経回
路網
FIG. 1 is a block diagram showing a configuration of a pattern recognition device using a neural network according to the present invention. FIG. 2 is a block diagram showing a configuration of a pattern recognition device using a conventional neural network.
FIG. 4 is a block diagram showing a detailed configuration of the neural network, and FIG. 4 is a block diagram showing a configuration for learning the neural network. 1. Voice input unit 2. Neural network for first candidate identification 3. Neural unit 61 to 66. Neural network for second candidate identification

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 9/10 301 G06F 15/18 560 G06F 15/70 465 G06K 9/66 JICSTファイル(JOIS)──────────────────────────────────────────────────の Continued on the front page (58) Fields surveyed (Int.Cl. 6 , DB name) G10L 9/10 301 G06F 15/18 560 G06F 15/70 465 G06K 9/66 JICST file (JOIS)

Claims (7)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】認識対象のパターンからその特徴を表すパ
ラメータを抽出する入力部と、 該入力部により抽出されたパラメータに基づいて、前記
認識対象のパターンがN個のカテゴリにて構成される集
合Cのいずれのカテゴリに含まれるかを識別する神経回
路網にて構成される第1の識別手段と、 前記入力部により変換されたパラメータに基づいて、前
記認識対象のパターンが前記集合Cの前記N個より少な
いカテゴリにて構成される集合Cの部分集合Ci(i=1,
2…I、Iは1以上N以下の整数)それぞれにおいてい
ずれのカテゴリに含まれるかを識別するI個の神経回路
網にて構成される第2の識別手段と、 前記第1及び第2の識別手段による識別結果を統合して
最終の認識結果として出力する判定部と を備えたことを特徴とする神経回路網を用いたパターン
認識装置。
An input unit for extracting a parameter representing the feature from a pattern to be recognized, and a set in which the pattern to be recognized is composed of N categories based on the parameters extracted by the input unit. A first identification unit configured by a neural network for identifying which category of the set C is included; and the pattern of the recognition target is defined by the set C in the set C based on a parameter converted by the input unit. Subset Ci of set C composed of less than N categories (i = 1,
2 ... I, I is an integer of 1 or more and N or less), a second identification means composed of I neural networks for identifying which category is included in each of the first and second, A determination unit that integrates the identification results obtained by the identification means and outputs the result as the final recognition result.
【請求項2】前記判定部は、前記第1の識別手段により
前記認識対象のパターンが含まれると識別されたカテゴ
リを第1位の認識結果とし、前記第1の識別手段におい
て第1位に判定されたカテゴリを除くN−1個のカテゴ
リを識別対象とする前記第2の識別手段内の各神経回路
網により識別されたカテゴリを第2位の認識結果とする
ことを特徴とする請求項1に記載の神経回路網を用いた
パターン認識装置。
2. The method according to claim 1, wherein the determining unit sets a category identified by the first identification unit as including the pattern to be recognized as a first-order recognition result, and the first identification unit ranks the first-ranked result. The category identified by each of the neural networks in the second identification means, wherein N-1 categories other than the determined category are to be identified, is set as a second recognition result. A pattern recognition device using the neural network according to claim 1.
【請求項3】前記判定部は、第1位から第k−1位(k
≧3)までの認識結果である各カテゴリを除くカテゴリ
を識別対象とする前記第2の識別手段内の各神経回路網
により識別されたカテゴリを第k位の認識結果とするこ
とを特徴とする請求項2に記載の神経回路網を用いたパ
ターン認識装置。
3. The method according to claim 1, wherein the determining unit determines a first to (k-1) th order (k
A category identified by each neural network in the second identification means, which is a category other than each category which is a recognition result up to ≧ 3), is set as a k-th recognition result. A pattern recognition device using the neural network according to claim 2.
【請求項4】前記判定部は、前記第1の識別手段により
前記認識対象のパターンが含まれると識別されたカテゴ
リを第1位の認識結果とし、前記第1の識別手段におい
て第1位に判定されたカテゴリに対応して予め定められ
たカテゴリを除くカテゴリを識別対象とする前記第2の
識別手段内の各神経回路網により識別されたカテゴリを
第2位の認識結果とすることを特徴とする請求項1に記
載の神経回路網を用いたパターン認識装置。
4. The determination section sets a category identified by the first identification means as including the pattern to be recognized as a first-order recognition result, and the first identification means ranks the category as a first-order recognition result. A category identified by each neural network in the second identification means for identifying a category other than a predetermined category corresponding to the determined category is set as a second recognition result. A pattern recognition device using the neural network according to claim 1.
【請求項5】前記判定部は、第1位から第k−1位(k
≧3)までの認識結果である各カテゴリに対応して予め
定められたカテゴリを除くカテゴリを識別対象とする前
記第2の識別手段内の各神経回路網により識別されたカ
テゴリを第k位の認識結果とすることを特徴とする請求
項4に記載の神経回路網を用いたパターン認識装置。
5. The method according to claim 1, wherein the determining unit determines that the first to (k-1) th (k
The category identified by each neural network in the second identification means, which is a category other than a predetermined category corresponding to each category as a recognition result up to ≧ 3), is identified as a k-th category. The pattern recognition device using a neural network according to claim 4, wherein the pattern recognition device obtains a recognition result.
【請求項6】前記第1位から第k−1位までの認識結果
である各カテゴリに対応して予め定められたカテゴリ
は、前記各カテゴリに対して少なくとも1つ以上存在す
ることを特徴とする請求項5に記載の神経回路網を用い
たパターン認識装置。
6. A method according to claim 1, wherein at least one or more categories predetermined for each of the categories which are the recognition results from the first place to the (k-1) th place are present for each category. A pattern recognition device using the neural network according to claim 5.
【請求項7】前記第1位から第k−1位までの認識結果
である各カテゴリに対応して予め定められたカテゴリ
は、前記各カテゴリの組合わせに対して予め定められる
ことを特徴とする請求項5に記載の神経回路網を用いた
パターン認識装置。
7. A category determined in advance corresponding to each category which is a recognition result from the first place to the (k-1) th place is predetermined for a combination of each category. A pattern recognition device using the neural network according to claim 5.
JP2154550A 1990-06-13 1990-06-13 Pattern recognition device using neural network Expired - Fee Related JP2877450B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2154550A JP2877450B2 (en) 1990-06-13 1990-06-13 Pattern recognition device using neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2154550A JP2877450B2 (en) 1990-06-13 1990-06-13 Pattern recognition device using neural network

Publications (2)

Publication Number Publication Date
JPH0445500A JPH0445500A (en) 1992-02-14
JP2877450B2 true JP2877450B2 (en) 1999-03-31

Family

ID=15586705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2154550A Expired - Fee Related JP2877450B2 (en) 1990-06-13 1990-06-13 Pattern recognition device using neural network

Country Status (1)

Country Link
JP (1) JP2877450B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4666648B2 (en) * 2006-09-01 2011-04-06 本田技研工業株式会社 Voice response system, voice response program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集(平成2年3月)2−P−24,P.167〜168
電子情報通信学会技術研究報告[音声]SP88−15,P.31〜38(昭和63年6月)

Also Published As

Publication number Publication date
JPH0445500A (en) 1992-02-14

Similar Documents

Publication Publication Date Title
US6021387A (en) Speech recognition apparatus for consumer electronic applications
Zue et al. Acoustic segmentation and phonetic classification in the SUMMIT system
Kohonen The self-organizing map
US5638486A (en) Method and system for continuous speech recognition using voting techniques
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5621857A (en) Method and system for identifying and recognizing speech
US5566270A (en) Speaker independent isolated word recognition system using neural networks
CN107680582A (en) Acoustic training model method, audio recognition method, device, equipment and medium
AU684214B2 (en) System for recognizing spoken sounds from continuous speech and method of using same
CN113837299B (en) Network training method and device based on artificial intelligence and electronic equipment
US20040096100A1 (en) Method and computer program product for identifying output classes with multi-modal dispersion in feature space and incorporating multi-modal structure into a pattern recognition system
Al Anazi et al. A machine learning model for the identification of the holy quran reciter utilizing k-nearest neighbor and artificial neural networks
Gallardo Antolín et al. A saliency-based attention LSTM model for cognitive load classification from speech
JP2877450B2 (en) Pattern recognition device using neural network
Bilmes et al. Generalized rules for combination and joint training of classifiers
Rabi et al. Visual speech recognition by recurrent neural networks
Handam et al. Artificial neural networks for voice activity detection Technology
Ojha et al. Multi-label Classification Models for Detection of Phonetic Features in building Acoustic Models
JP2743418B2 (en) Learning method
Boujelbene et al. General machine learning classifiers and data fusion schemes for efficient speaker recognition
Braun Parameter Uncertainty and Multi-sensor Attention Models for End-to-end Speech Recognition
Ekpenyong Check for Intelligent Speech Features Mining for Robust Synthesis System Evaluation Moses E. Ekpenyong), Udoinyang G. Inyang, and Victor E. Ekong Department of Computer Science, University of Uyo, PMB 1017, Uyo 520003, Nigeria
Al Smadi et al. Artificial neural networks for voice activity detection Technology.
Abd El Salam A Study in Speaker Dependent Medium Vocabulary Word Recognition: Application to Human/Computer Interface
Ekpenyong et al. Intelligent Speech Features Mining for Robust Synthesis System Evaluation

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees