JPS61165798A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS61165798A
JPS61165798A JP60006431A JP643185A JPS61165798A JP S61165798 A JPS61165798 A JP S61165798A JP 60006431 A JP60006431 A JP 60006431A JP 643185 A JP643185 A JP 643185A JP S61165798 A JPS61165798 A JP S61165798A
Authority
JP
Japan
Prior art keywords
word
monosyllable
pattern
vocabulary
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60006431A
Other languages
Japanese (ja)
Inventor
樺澤 哲
英一 坪香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60006431A priority Critical patent/JPS61165798A/en
Publication of JPS61165798A publication Critical patent/JPS61165798A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置、特に単音節音声と単語音声の両
方を認識できる音声認識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a speech recognition device, and more particularly to a speech recognition device capable of recognizing both monosyllabic speech and word speech.

従来の技術 従来のこの種の音声認識装置は、例えばNEC技報(江
袋林蔵ほか、rDP−200音声入力装置とその応用J
 vol、 36. lK2. PP、 70−79(
1983))に示されているように、第3図のような構
造になっていた。
2. Description of the Related Art Conventional speech recognition devices of this type are described in, for example, NEC Technical Report (Rinzo Ebukuro et al., rDP-200 speech input device and its applications J.
vol, 36. lK2. PP, 70-79 (
As shown in 1983), the structure was as shown in Figure 3.

すなわち、音声入力端子31、入力音声信号を特徴ベク
トルの系列から成る入力パタンに変換する特徴抽出部3
2、単音節音声離散発声モード或いは単語連続発声モー
ドのモード選択部33、単音節標準パタンを記憶する単
音節標準パタン記憶部34、単語標準パタンを記憶する
単語標準パタン記憶部36、前記単音節標準パタン或い
は前記単語標準パタンを構成する各ベクトルと前記入力
パタンを構成する各ベクトルのベクトル間距離全計算す
るベクトル間距離計算部36、前記ベクトル間距離を記
憶するベクトル間距離記憶部37、前記モード選択部3
3で選択された前記モードにおいて前記ベクトル間距離
から前記単音節標準パタンと前記入力パタンとのパタン
間の累積距離或いは前記単語標準パタンと前記入力パタ
ンとのパタン間の累積距離を計算する累積距離計算部3
8、前記モード選択部33で選択された前記モードにお
いて前記累積距離計算部38の結果に基づいて入力パタ
ンに最も近い前記単音節標準パタン或いは前記単語標準
パタン或いは前記単語標準パタンの連鎖を判定する判定
部39から構成され、入力された単音節音声或いは単語
音声を、前記各モードにおいてそれぞれの標準パタン記
憶部で記憶されている標準パタンとマツチングすること
により入力音声を認識を行うようになっている。
That is, an audio input terminal 31, a feature extraction unit 3 that converts an input audio signal into an input pattern consisting of a series of feature vectors.
2. A mode selection unit 33 for monosyllabic speech discrete utterance mode or continuous word utterance mode, a monosyllabic standard pattern storage unit 34 that stores monosyllabic standard patterns, a word standard pattern storage unit 36 that stores word standard patterns, and the monosyllabic standard pattern storage unit 36 that stores word standard patterns. an inter-vector distance calculation unit 36 that calculates all the inter-vector distances between each vector constituting the standard pattern or the word standard pattern and each vector constituting the input pattern; an inter-vector distance storage unit 37 that stores the inter-vector distance; Mode selection section 3
Cumulative distance for calculating the cumulative distance between the monosyllabic standard pattern and the input pattern or the cumulative distance between the word standard pattern and the input pattern from the vector-to-vector distance in the mode selected in step 3. Calculation part 3
8. In the mode selected by the mode selection unit 33, determine the monosyllabic standard pattern, the word standard pattern, or the chain of word standard patterns that is closest to the input pattern based on the result of the cumulative distance calculation unit 38. It consists of a determining section 39, and recognizes the input speech by matching the input monosyllabic speech or word speech with the standard patterns stored in the respective standard pattern storage sections in each of the modes. There is.

発明が解決しようとする問題点 しかし、ワードプロセノ丈の仮名キーボードの代わりに
、このような構成の音声認識装置を使用して仮名文字列
や単語或いは文節等を入力する際、出現頻度の高い語彙
であっても前記単語標準パタン記憶部46に登録されて
いない語彙については、毎回、前記単音節離散発声モー
ドで仮名文字一つずつを単音節音声で区切って入力しな
ければならず、入力速度が非常に遅いだけでガく、発声
が不自然で使用者に余分な負荷を強いると伝う問題があ
った。
Problems to be Solved by the Invention However, when inputting kana character strings, words, phrases, etc. using a speech recognition device with such a configuration instead of a word proceno-length kana keyboard, it is difficult to input kana character strings, words, phrases, etc. For vocabulary that is not registered in the standard word pattern storage unit 46, each kana character must be input in the monosyllabic discrete utterance mode, separated by monosyllabic sounds, which reduces the input speed. The problem was that it was slow and slow, and the vocalizations were unnatural, putting an extra burden on the user.

そこで、本発明は、一旦単音節音声で入力された語索に
ついては、次回入力される場合は単語モードで入力可能
とすることにより、入力速度を高速化し使用者の食初を
軽くして、入力方法を改善するものである。
Therefore, the present invention enables a word search once input as a monosyllabic voice to be input in word mode the next time it is input, thereby speeding up the input speed and making it easier for the user to start eating. This improves the input method.

問題点を解決するための手段 そして上記問題点を解決する本発明の技術的な手段は、
単語辞書に記憶されていない語索を記憶するための単語
バッファと、認識結果が単語辞書または単語バッファに
記憶されているかどうかをチェックするだめの語案チェ
ック手段と、単語バッファの内容に認識結果を付加する
付加手段と、単語バッファ内の語彙を認識結果で書換え
る書換手段を設けて、語雲チェック手段により認識結果
が単語辞書または単語バッファに既に存在するか否かを
チェックし、もし認識結果が単語辞書にも単語バッファ
にも存在しない場合には単語バッファに付加し、また認
識結果が単語辞書にも単語バッファにも存在せずかつ認
識結果を付加するのに充分なだけ単語バッファの記憶容
量に余分が無い場合には単語バッファ内の語食と認識結
果とを書換えるようにした点である。
Means for solving the problems and technical means of the present invention for solving the above problems are as follows:
A word buffer for storing word searches that are not stored in the word dictionary, a word proposal checking means for checking whether the recognition results are stored in the word dictionary or the word buffer, and recognition results in the contents of the word buffer. and a rewriting means for rewriting the vocabulary in the word buffer with the recognition result, the word cloud check means checks whether the recognition result already exists in the word dictionary or the word buffer, and if the recognition result is If the recognition result does not exist in the word dictionary or word buffer, it is appended to the word buffer, and if the recognition result does not exist in the word dictionary or word buffer, it is added to the word buffer enough to append the recognition result. The point is that when there is no excess memory capacity, the word breaks and recognition results in the word buffer are rewritten.

作  用 この技術的手段による作用は次のようになる。For production The effect of this technical means is as follows.

すなわち、頻出語案については、従来どおり単語音声入
力可能である。一方、使用者にとって頻出語案であるに
もかかわらず単語辞書に登録されていない語彙について
、本発明では、一旦音節音声で入力された語彙を付加部
で単語バッファに付加するか、或いは単語バッファの記
憶内容が不足している場合は書換部で単語バッファ内の
語重と書換えることにより、次回からは同じ語零を単音
節音声ではなく単語音声として入力できるようになる。
That is, for frequently occurring word ideas, word voice input can be performed as before. On the other hand, for vocabulary that is not registered in the word dictionary even though it is a frequently occurring word for the user, in the present invention, the vocabulary that has been input as a syllable is added to the word buffer in the adding section, or If the stored content is insufficient, the rewriting unit rewrites the word weight with the word weight in the word buffer, so that the same word zero can be input as a word sound instead of a monosyllabic sound from the next time.

この結果、従来、使用者にとって頻出語零であるにもか
かわらず毎回単音節音声を区切って入力する必要は解消
され、一旦単音節音声を区切って入力すれば、次回から
は同じ語業を単語音声で入力することができ、入力速度
の高速化し使用者の負荷を軽くして、入力方法を改善す
ることができるのである。
As a result, it is no longer necessary for the user to input monosyllabic sounds into sections each time, even though they are frequently used words. It is possible to input by voice, which increases the input speed, reduces the burden on the user, and improves the input method.

実施例 以下、本発明の実施例について説明するが、その前にパ
タンマツチングによる単語音声認識装置について説明す
る。この装置の一般的な構成は次のようなものである。
Embodiments Below, embodiments of the present invention will be described, but first a word speech recognition device using pattern matching will be explained. The general configuration of this device is as follows.

入力音声信号を、フィルタバンク、周波数分析LPC分
析等によって特徴ベクトルの系列に変換する特徴抽出手
段と、予め発声され、この特徴抽? 出手段により抽出された特徴ベクトルの系列を認識単語
全部について標準、Sターンとして登録しておく標準パ
ターン記憶手段と、認識させるべく発声され、前記特徴
抽出手段により抽出された入カバターンと前記標準パタ
ーン記憶手段に記憶されている標準パターンの全てと特
徴ベクトルの系列としての類似度あるいは距離を計算す
るパターン比較手段と、パターン比較の結果、最も類似
度の高かった(距離の小さかった)標準パターンに対応
する単語を認識結果として判定出力する判定手段からな
る。
Feature extraction means converts an input speech signal into a series of feature vectors by filter bank, frequency analysis, LPC analysis, etc.; standard pattern storage means for storing a series of feature vectors extracted by the output means as standard and S turns for all recognized words; and input cover turns uttered for recognition and extracted by the feature extraction means and the standard pattern. A pattern comparison means calculates the similarity or distance as a series of all standard patterns stored in the storage means and feature vectors, and a standard pattern with the highest degree of similarity (smallest distance) as a result of pattern comparison. It consists of a determining means for determining and outputting a corresponding word as a recognition result.

このとき、同一話者が同一の単語を発声しても発声の都
度、その発声時間長が異るので、前記パターン比較手段
で標準パターンと入カバターンの比較を行う際には、両
者の時間軸を伸縮させ、両者のパターン長を揃えて比較
する必要がある。その際、発声時間長の変化は、発声単
語の各部で一様に生じているのではないので、各部を不
均一に伸縮する必要がある。
At this time, even if the same speaker utters the same word, the duration of the utterance differs each time, so when comparing the standard pattern and the input pattern using the pattern comparison means, the time axis of both is It is necessary to expand and contract the pattern lengths of the two to make them the same and compare them. At this time, since the change in utterance time length does not occur uniformly in each part of the uttered word, it is necessary to expand and contract each part non-uniformly.

これを図で表現したのが第4図である。第4図(a)に
おいて横軸は入カバターンA =a1 、 a2 、・
・・・・・。
Figure 4 represents this graphically. In Fig. 4(a), the horizontal axis represents the input cover pattern A = a1, a2, ·
・・・・・・.

aI(aiは入カバターンの第iフレームの特徴ベクト
ル)に対応する1座標、縦軸は標準パターンR″=r 
T 、 r n、・・・・・・rTf(r Tは標準パ
ターンデの第jフレームの特徴ベクトル)に対応するj
座標を表す。入カバターンAと標準パターンPとを時間
軸を非線形に伸縮してマツチングすることはこの格子グ
ラフ上において、両パターンの各特徴ベクトルの対応関
係を示す径路1を、両パターンの、系列としての距離が
最小になるという評価基準のもとで見出し、そのときの
距離を両パターンの距離とする。この計算を効率的に行
う方法として動的計画法を用いる方法が良く知られてお
り、DPマツチングと呼ばれている。
1 coordinate corresponding to aI (ai is the feature vector of the i-th frame of the input pattern), the vertical axis is the standard pattern R''=r
j corresponding to T, r n, ... rTf (r T is the feature vector of the j-th frame of the standard pattern D)
Represents coordinates. Matching the input cover turn A and the standard pattern P by non-linearly expanding and contracting the time axis means that on this grid graph, path 1 indicating the correspondence of each feature vector of both patterns is matched by the distance of both patterns as a series. The distance between the two patterns is determined based on the evaluation criterion that the distance is the minimum. A method using dynamic programming is well known as a method for efficiently performing this calculation, and is called DP matching.

この径路を決める際には音声の性質を考慮して制限条件
を設ける。第4図Φ)は傾斜制限と呼ばれる径路選択の
条件の一例である。即ち、この例では点(i、j)へ至
る径路は、点(i−2,1−1)から点(i−1,1)
を通る径路が、点(i−1゜5−1)からの径路か、点
(1−1,、j−1)から点(ii−1)を通る径路か
の何れかの径路しか取り得ないことを意味しており、入
力ッ々ターンと標準パターンの始端と終端は必ず対応さ
せるという条件をつければ、前記マ、フチングの径路は
第4図(a)の斜線の部分に制限される。この制限は、
いかに時間軸が伸縮するとはいっても、同一単語に対し
てはそれ程極端に伸縮するはずはないという事実からあ
まり極端な対応づけが生じないようにするためである。
When determining this route, limiting conditions are set in consideration of the nature of the voice. FIG. 4 Φ) is an example of a route selection condition called slope restriction. That is, in this example, the path to point (i, j) is from point (i-2, 1-1) to point (i-1, 1)
The path passing through can only take either the path from point (i-1゜5-1) or the path from point (1-1,, j-1) to point (ii-1). This means that if the condition is that the input turns always correspond to the starting and ending ends of the standard pattern, the paths of the edges and edges are limited to the shaded area in FIG. 4(a). This restriction is
This is to prevent extreme correspondences from occurring due to the fact that no matter how much the time axis expands or contracts, it is unlikely that the same word will expand or contract so drastically.

両家列間の距離は、入力ベクトルalと標準パターンベ
クトル4のベクトル間距離dn(i、i)の前記径路に
沿う重み付平均として定義される。
The distance between both rows is defined as a weighted average of the inter-vector distance dn (i, i) between the input vector al and the standard pattern vector 4 along the path.

このとき径路KiFEIう重みの和が径路の選ばれ方に
依らず一定になるようにしておけばDPマツチングの手
法が使える。
At this time, the DP matching method can be used if the sum of the weights of the routes KiFEI is made constant regardless of how the routes are selected.

第6図は単音節音声標準パターンを結合することによっ
て構成した単語標準パターンと入カバターンのマツチン
グの様子を図示したものである。
FIG. 6 illustrates the matching of word standard patterns constructed by combining monosyllabic speech standard patterns and input kata patterns.

同図において、Bq(1)、 Bq(2) 、 1(t
(3)は単音節q(1)。
In the same figure, Bq(1), Bq(2), 1(t
(3) is a monosyllable q(1).

q(2) 、 q<5)の標準パターンを意味し、この
例は単音節q(1)、 q(2)、 q(3)から成る
単項の標準パターンと入カバターンをマツチングする場
合を示している。
It means a standard pattern of q(2), q<5), and this example shows the case of matching an input cover pattern with a unary standard pattern consisting of monosyllables q(1), q(2), q(3). ing.

前記説明に従ってマツチング径路は、例えば2のように
なる。
According to the above description, the matching path is, for example, 2.

以下、前記したパターンマツチングの手法を用いた本発
明の実施例について説明する。
Examples of the present invention using the pattern matching method described above will be described below.

第1図は本発明の一実施例を示すブロック図である。同
図において、1は音声信号の入力端子、2はフィルタバ
ンク等で構成された、入力音声信号を特徴ベクトルの系
列に変換する特徴抽出部である。3は標準パタン記憶部
であって、各音節の特徴ベクトルの系列に変換された音
節標準パタンか記憶される。ここで、音節標準パタンと
しては、単音節標準パタンのみと定義しても、或いは単
音節を連続発声した際に生じる調音結合(ある単音節音
声を単独で発声した場合の特徴ベクトルに対し、連続発
声された単音節音声の特徴ベクトルがその単音節音声の
前後の音声の影響を受けて変化する現象)を考慮して、
単音節標準パタン及びVCV音節標準パタン(v:母音
I C11子音)と定義しても良いが、以下の説明は単
音標準パタンのみと定義する。ただし、音節として単音
節標準パタン及びVCV音節標準パタンと定義した場合
には、単音節の認識には単音節標準パタンのみで充分で
あるが、単語認識の場合に単音節標準パタンだけでな(
VCV音節を用いることができ、前記調音結合の問題を
解消することができる。
FIG. 1 is a block diagram showing one embodiment of the present invention. In the figure, reference numeral 1 denotes an input terminal for an audio signal, and 2 denotes a feature extraction unit that converts the input audio signal into a series of feature vectors, which is composed of a filter bank and the like. Reference numeral 3 denotes a standard pattern storage unit, which stores syllable standard patterns converted into a series of feature vectors for each syllable. Here, the syllable standard pattern can be defined as only the monosyllabic standard pattern, or the articulatory combination that occurs when a single syllable is uttered continuously (for the feature vector when a monosyllabic voice is uttered alone, continuous Considering the phenomenon in which the feature vector of a monosyllabic voice that is uttered changes due to the influence of the voices before and after the monosyllabic voice,
Although it may be defined as a monosyllabic standard pattern and a VCV syllable standard pattern (v: vowel I C11 consonant), the following explanation will define only the monosyllabic standard pattern. However, when syllables are defined as monosyllabic standard patterns and VCV syllable standard patterns, only the monosyllabic standard pattern is sufficient for monosyllabic recognition, but in the case of word recognition, only the monosyllabic standard pattern (
VCV syllables can be used and the problem of articulatory coupling can be solved.

さて、4はベクトル間距離計算部であって、音節標準パ
タン記憶部3の標準パタンRnを構成するベクトルrf
fと入力パタンAを構成するベクトルaiのベクトル開
用#dn(’ l ] )を計算する。
Now, 4 is an inter-vector distance calculating section, and the vector rf constituting the standard pattern Rn of the syllable standard pattern storage section 3.
A vector distribution #dn('l]) of vector ai constituting f and input pattern A is calculated.

いま、&・: (a   a−”川・、 ail)、 
rY =l     il l  12 + (rY1 + 42 + ””” + rTl)とする
とき、dn(i、j)は最も簡単には、 で与えられる。6はベクトル間距離記憶部であって、ベ
クトル間距離計算部4で計算された結果を記憶している
。6は単音節累積距離計算部であって、各単音節につい
て第1フレームから現フレームまでの累積距離(dn(
i、j)のマツチング径路に沿う重み付き和)を求める
。マツチング径路の拘束条件として第4図(b)を採用
し、各径路に沿う重み係数を同図の径路上に付した数値
とすると、座標(i、j)における標準パタンHHに対
する累積距離D” (i 、 j )は次のように与え
られる。
Now &...: (a a-”kawa・, ail),
When rY = l il l 12 + (rY1 + 42 + """ + rTl), dn(i, j) is most simply given by It stores the results calculated by the distance calculation unit 4. 6 is a monosyllable cumulative distance calculation unit that calculates the cumulative distance (dn()) from the first frame to the current frame for each monosyllable.
The weighted sum along the matching path of i, j) is determined. If Fig. 4(b) is adopted as the constraint condition for the matching path, and the weighting coefficient along each path is the numerical value attached to the path in the same figure, then the cumulative distance D'' with respect to the standard pattern HH at the coordinates (i, j) is (i, j) is given as follows.

7は単音節判定部であって、D”(1,Jn)が最小な
るnをnとするとき貧“に対応する単音節を認識結果と
する。8は単語区切り検出部であって、例えば前記入力
パタンの電力を用いて各入力音声の無音時間長を求め、
この無音時間長が所定の時間長以上(すなわち、閾値T
H以上)の場合に単語区切り信号を出力する。すなわち
、前記無音時間長が閾値TH以下であれば、直前に入力
された音声は単語を構成する音声の一部であると見做し
、単語区切りとしない。この様な短い無音時間長とは、
例えば「かっこう」という音声の促音「っ」の部分に相
当したり、或いは単語を構成する仮名文字を単音節音声
でリズム良く区切って発声した場合の単音節音声間の無
音部分に相当する。
Reference numeral 7 denotes a monosyllable determining unit, which determines as a recognition result a monosyllable corresponding to "po" when n is the minimum value of D"(1, Jn). Reference numeral 8 denotes a word break detection unit, which calculates the silent time length of each input voice using, for example, the power of the input pattern;
This silent time length is greater than or equal to the predetermined time length (i.e., the threshold T
H or higher), a word break signal is output. That is, if the silent time length is less than or equal to the threshold TH, the voice input immediately before is considered to be part of the voice forming a word, and is not used as a word break. Such a short silent period is
For example, it corresponds to the consonant ``tsu'' in the sound ``kakko,'' or it corresponds to the silent part between monosyllabic sounds when the kana characters that make up a word are uttered rhythmically separated into monosyllabic sounds.

9は単音節認識結果記憶部であって、前記単音節判定部
7で得られた単音節認識結果を単音節を表わす記号(例
えば、文字記号)の形式で記憶し、前記単語区切り検出
部8から前記単語区切り信号が入力された時点で、それ
まで記憶していた単音節認識結果(例えば、文字記号列
)B==b1.b2゜・・・・・・、b!、・・・・・
・bx)(bx=単音節認識結果)及び各単音節認識結
果のもつ累積距離の合計値DBを出力する。10は単語
辞書であって、語霊がそれを構成する単音節の記号列(
例えば、文字記号列としてキーボード等で入力すること
により予め準備されている。また、各語彙の出現頻度も
記憶している。11は単語累積距離計算部であって、マ
ツチングさせたい単語に対し、単語辞書10で指定され
る単音節の順序に従って、ベクトル間距離記憶部6に記
憶されている。既に計算済のベクトル間距離を読み出し
てきて、単語としての点(1゜J)までの累積距離を計
算する。即ち、例えば第5図において、第1フレームに
おいて、Q=1゜2.・・・・・・、N(Nは音節標準
パタン数)に対して音節標準パターンRn = r!l
 、 rTai・・・・・・ rYのそれそれのベクト
ルrηと入カバターンA =a1+ a2 T】 ・・・・・・、aIの第1フレームのベクトルと1との
ベクトル間距離dn(i 、 j )は既に単音節認識
の際に計算済であるから、R(I(1)、 R(I(2
)、 Rq(5)の結合パp −71q(1)OR(I
(2)■Bq(3)=r1q(1)、 、q(1)、、
、、、。
9 is a monosyllable recognition result storage unit which stores the monosyllable recognition result obtained by the monosyllable determination unit 7 in the form of a symbol (for example, a letter symbol) representing a monosyllable; At the time when the word break signal is input from B==b1. b2゜・・・・・・, b! ,...
bx) (bx = monosyllable recognition result) and the total value DB of cumulative distances of each monosyllable recognition result. 10 is a word dictionary, in which the word spirit is a monosyllabic symbol string (
For example, it is prepared in advance by inputting it as a string of characters and symbols using a keyboard or the like. It also remembers the frequency of occurrence of each vocabulary word. Reference numeral 11 denotes a word cumulative distance calculation unit, which stores words to be matched in the inter-vector distance storage unit 6 in accordance with the order of monosyllables specified in the word dictionary 10. The already calculated distance between vectors is read out, and the cumulative distance to the point (1°J) as a word is calculated. That is, for example, in FIG. 5, in the first frame, Q=1°2. ......, syllable standard pattern Rn = r! for N (N is the number of syllable standard patterns). l
, rTai... Each vector rη of rY and the input cover turn A = a1 + a2 T] ......, the intervector distance dn(i, j ) has already been calculated during monosyllable recognition, so R(I(1), R(I(2
), the combination of Rq(5) p-71q(1)OR(I
(2)■Bq(3)=r1q(1), ,q(1), ,
,,,.

・宵、)+ 、q(2)、・・・・・・9、鵡?′)2
)9.19(3)、・2936ゝ、・・・・・・。
・Evening, )+ , q(2),...9, parrot? ')2
)9.19(3),・2936ゝ,...

q(3) rJq(3)とd、とのベクトル間距離は新たに計算す
る必要はない。単語判定部12は入力が完了した後、単
語累積距離計算部11で得られたそれぞれの単語に対す
る最終累積距離のうち、最小値を与えるものを単語の認
識結果として判定し、認識結果C及び認識結果DCのも
つ累積距離を出力する。
There is no need to newly calculate the vector distance between q(3) rJq(3) and d. After the input is completed, the word determination unit 12 determines the final cumulative distance for each word obtained by the word cumulative distance calculation unit 11, which gives the minimum value, as the word recognition result, and calculates the recognition result C and the recognition result. The cumulative distance of the resulting DC is output.

13は認識結果出力部であって、前記単音節認識結果記
憶部9から前記B及び前記DBを受け、また前記単語判
定部12から前記C及び前記DCを受け、前記DBと前
記DCの大小比較を行って、Dc≦DB であれば前記
C(単語認識結果)を認識結果Tとして出力端子19及
び16で示される付加部及び17で示される書換部に出
力し、DC)DBであれば前記B(単音節認識結果の列
)を認識結果でとして出力端子19及び付加部16及び
書換部17に出力する。更に18で示されるクリア信号
発生部を駆動させる為の駆動信号を出力する。14は語
彙チェック部であって、前記認識結果出力部13からの
認識結果T(例えば、文字記号列で表わされている)を
前記単語辞書1o及び15で示される単語バッファに記
憶されている語彙の中で検索し、記憶されている場合に
は該描語彙のもつ頻度を増加させると共に付加部16に
休止信号を送出し、記憶されていない場合には付加部1
6に付加部駆動信号を送出する。15は単語バッファで
あって、前記単語辞書1oに登録されていない語彙を記
憶する。16は付加部であって、前記語業チェ’7り部
14から付加部駆動信号を受は取った時点で、前記単語
バッファの余白の容量が付加しようとしている語重の容
量以上の場合に前記単語辞書1o及び前記単語バフ77
15に記憶されている語彙を登録順番号と共に付加する
が、前記単語バッファの容量が不足している場合は、書
換部17へ書換部駆動信号を送出する。
Reference numeral 13 denotes a recognition result output unit which receives the B and the DB from the monosyllable recognition result storage unit 9, receives the C and the DC from the word determination unit 12, and compares the size of the DB and the DC. If Dc≦DB, the above C (word recognition result) is outputted as the recognition result T to the adding unit shown by output terminals 19 and 16 and the rewriting unit shown by 17; B (sequence of monosyllable recognition results) is outputted to the output terminal 19, the adding section 16, and the rewriting section 17 as the recognition result. Furthermore, it outputs a drive signal for driving a clear signal generating section 18. Reference numeral 14 denotes a vocabulary checking section, which stores the recognition result T (expressed, for example, as a string of characters and symbols) from the recognition result output section 13 in the word buffers indicated by the word dictionaries 1o and 15. A search is made in the vocabulary, and if it is stored, the frequency of the descriptive vocabulary is increased and a pause signal is sent to the addition unit 16, and if it is not stored, the addition unit 1
The additional section drive signal is sent to 6. A word buffer 15 stores vocabulary that is not registered in the word dictionary 1o. Reference numeral 16 denotes an addition section, which receives the addition section driving signal from the word processing checking section 14, and when the capacity of the margin of the word buffer is greater than the capacity of the word weight to be added. The word dictionary 1o and the word buff 77
The vocabulary stored in the word buffer 15 is added together with the registration order number, but if the capacity of the word buffer is insufficient, a rewriting unit drive signal is sent to the rewriting unit 17.

一方前記語業チェノク部14から前記休止信号を受は取
った場合には付加部16は無もしない。
On the other hand, when the pause signal is received from the language processing section 14, the addition section 16 does not operate.

22は最低頻度単語検出部であって、前記単語バッファ
16に記憶されている語彙がもつ使用頻度をそれぞれ比
較し、最低頻度の単語を検出する。
Reference numeral 22 denotes a lowest frequency word detection unit, which compares the frequencies of use of the vocabulary stored in the word buffer 16 and detects the lowest frequency word.

ただし、最低頻度の単語が複数個存在する場合には、登
録順序の最も古いものを採択する。17は書換部であっ
て、前記付加部16から前記書換部駆動信号を受は取っ
た場合に、前記単語バッファ16に記憶されている語彙
のうち、前記最低頻度単語検出部22で与えられた語彙
を前記認識結果出力部から受は取った語彙で書換える。
However, if there are multiple words with the lowest frequency, the word with the oldest registration order is selected. Reference numeral 17 denotes a rewriting unit which, when receiving the rewriting unit drive signal from the adding unit 16, selects the word given by the lowest frequency word detection unit 22 from among the vocabulary stored in the word buffer 16. The vocabulary is rewritten with the vocabulary received from the recognition result output section.

ここで、前記付加部16において付加された語彙或いは
前記書換部17において新しく登録された(書換られた
)語業がもつ頻度の初期値としては所定値を与えるもの
とする。また、前記単語バッファ16内の語彙のもつ登
録順番号は更新される。18はクリア信号発生部であっ
て、前記認識結果出方部13から前記駆動信号を与えら
れた時点で前記単音節認識結果記憶部9の内容をクリア
する為の信号を発生する。19は認識結果の出方端子で
ある。
Here, a predetermined value is given as the initial value of the frequency of the vocabulary added in the addition section 16 or the word work newly registered (rewritten) in the rewriting section 17. Furthermore, the registration order number of the vocabulary in the word buffer 16 is updated. Reference numeral 18 denotes a clear signal generating section, which generates a signal for clearing the contents of the monosyllable recognition result storage section 9 at the time when the drive signal is applied from the recognition result output section 13. 19 is a terminal for outputting recognition results.

なお、本実施例では、前記最低頻度単語検出部22では
、使用頻度及び登録順序(即ち、使用順序と基づいて所
望の単語を選択したが、登録順序のみに基づくことも可
能であり、その場合には、本実施例において頻度を考慮
する必要は無くなる。
In this embodiment, the lowest frequency word detection unit 22 selects the desired word based on the usage frequency and the registration order (i.e., the usage order), but it is also possible to select the desired word based only on the registration order. In this case, there is no need to consider the frequency in this embodiment.

次に本発明の他の実施例について説明する。Next, other embodiments of the present invention will be described.

第2図は他の実施例を示しており、前記第1の実施例の
単語区切シ検出部8では入力パタンから例えば電力を求
めて単語区切りを自動的に検出しているのに対し、本実
施例で示されている単語区切り検出部1アは、音声認識
装置本体の外部(すなわち、単語区切り検出部駆動信号
の入力端子18)からの駆動信号で単語区切り信号を発
生する。すなわち、第2図において、1〜7及び9〜1
9で示される各部は前記第1の実施例と全く同様に動作
し、2oで示される単語区切り検出部は前記の動作をす
る。21は単語区切り検出部駆動信号の入力端子である
FIG. 2 shows another embodiment, in which the word break detector 8 of the first embodiment automatically detects word breaks by determining, for example, electric power from the input pattern, whereas in this embodiment The word break detecting section 1a shown in the embodiment generates a word break signal using a drive signal from the outside of the speech recognition apparatus main body (that is, the input terminal 18 for the word break detecting section drive signal). That is, in FIG. 2, 1 to 7 and 9 to 1
Each section indicated by 9 operates in exactly the same manner as in the first embodiment, and the word break detection section indicated by 2o operates as described above. Reference numeral 21 is an input terminal for a word break detection unit drive signal.

以上のように、本実施例によれば、単語を構成する各単
音節を表わす記号列(例えば、文字記号列)で表わされ
た単語辞書に登録されていない語彙を一定個数記憶でき
る単語バッファを設けて、単語辞書に登録されていない
語彙を一定個数登録可能とし、更に所定個数を越えて登
録しようとした語彙については、既に単語バッファに登
録されている語彙のうち使用頻度の最も低い語彙と書き
換えることにより音声認識装置の使用者にとっては頻出
語重であるにもかかわらず、単語辞書に登録されていな
い語彙である為に、毎回単音節を区切って発声させると
いう負荷を解消し、入力速度を高速化すると共に入力方
法を改善できるものである。
As described above, according to this embodiment, the word buffer can store a certain number of vocabulary words that are not registered in the word dictionary and are represented by symbol strings (for example, character symbol strings) representing each monosyllable that constitutes a word. , it is possible to register a certain number of vocabulary that is not registered in the word dictionary, and if you try to register more than the specified number, the least frequently used vocabulary among the vocabulary already registered in the word buffer will be registered. This eliminates the burden of having to utter each single syllable each time, even though it is a frequently occurring word for the user of the speech recognition device, but is not registered in the word dictionary. This allows for faster speeds and improved input methods.

なお、本実施例では、単音節判定部7と単語判定部12
のように判定部を単音節と単語の場合について分けた構
成としたが、他の実施例として、判定部を1つだけ設け
、単音節累積距離計算部eと単語累積距離計算部11の
出力を区別することなく距離が最も小さくなる標準パタ
ーンに対応する単音節あるいは単語を認識結果\として
出力し、前記単音節認識結果記憶部9では、前記単語区
切り検出部8(或いは21)からの前記単語区切り信号
が入力されるまで保持しておき、前記検出信号を受けた
時点で保持内容を前記語業チェック部14、前記付加部
16、前記書換部17及び前記出力端子19に出力する
と共に保持内容をクリアするというようにも構成できる
。このような構成では、第1図の認識結果出力部13は
不要となる。
Note that in this embodiment, the monosyllable determining unit 7 and the word determining unit 12
Although the determination unit is configured to be separated for monosyllables and words as shown in FIG. The monosyllable or word corresponding to the standard pattern with the smallest distance without distinguishing is output as the recognition result\, and the monosyllable recognition result storage unit 9 stores the monosyllable or word corresponding to the standard pattern with the smallest distance without distinguishing between It is held until a word break signal is input, and when the detection signal is received, the held content is output to the language skill check section 14, the addition section 16, the rewriting section 17, and the output terminal 19, and is also held. It can also be configured to clear the contents. In such a configuration, the recognition result output section 13 shown in FIG. 1 becomes unnecessary.

また、以上説明した実施例の各構成要素は、ソフトウェ
ア手段によりその機能を実現することも可能である。
Furthermore, the functions of each component of the embodiments described above can be realized by software means.

発明の効果 本発明の音声認識装置は、付加部、書換部と、(単語辞
書以外に)単語バッファを設けて単語を構成する各単音
節を表わす記号列(例えば、文字記号列)で表わされた
単語辞書に登録されていない語彙を単音節を区切って発
声することにより付加部で単語バッファに付加したシ、
或いは書換部で単語バッファの内容を書換えることによ
って、音声認識装置の使用者にとっては頻出語索である
にもかかわらず、単語辞書に登録されていない語彙であ
る為に、毎回単音節を区切って発声させるという負荷を
解消し、入力速度を高速化すると共九入力方法を改善で
きるものである。
Effects of the Invention The speech recognition device of the present invention includes an addition section, a rewriting section, and a word buffer (in addition to a word dictionary), and each monosyllable that constitutes a word is represented by a symbol string (for example, a character symbol string). Words that are not registered in the word dictionary are added to the word buffer in the addition section by uttering them in single syllables.
Alternatively, by rewriting the contents of the word buffer in the rewriting unit, it is possible to separate monosyllables each time because the words are not registered in the word dictionary, even though they are frequently used by the user of the speech recognition device. The common input method can be improved by eliminating the burden of having to utter the words and increasing the input speed.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例を示すブロック図、第2図は
本発明の他の実施例を示すブロック図、第3図は従来例
を示すブロック図、第4図(−) 、 (b)はDPマ
ツチングの原理を説明する図、第5図は本発明の実施例
において音節標準パタンを用いて単語音声を認識する原
理を説明する図である。 2・・・・・・特徴抽出部、3・・・・・・標準パタン
記憶部、4・・・・・・ベクトル間距離計算部、6・・
・・・・ベクトル間e・・・・・・単音節認識結果記憶
部、1o・・・・・・単語辞書、11・・・・・・単語
累積距離計算部、12・・・・・・単語判定部、13・
・・・・・認識結果出力部、14・・・・・・語業チェ
ック部、15・・・・・・学語パフ77.16・・・・
・・付加部、17・・・・・・書換部、18・・・・・
・クリア信号発生部、22・・・・・・最低頻度単語検
出部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第 
4 図 第5図 人々パツー/
Fig. 1 is a block diagram showing one embodiment of the present invention, Fig. 2 is a block diagram showing another embodiment of the invention, Fig. 3 is a block diagram showing a conventional example, Fig. 4 (-), ( b) is a diagram illustrating the principle of DP matching, and FIG. 5 is a diagram illustrating the principle of recognizing word sounds using syllable standard patterns in the embodiment of the present invention. 2...Feature extraction unit, 3...Standard pattern storage unit, 4...Vector distance calculation unit, 6...
. . . Between vectors e . . . Monosyllable recognition result storage section, 1o . . . Word dictionary, 11 . . . Word cumulative distance calculation section, 12 . . . Word judgment section, 13.
... Recognition result output section, 14 ... Language skill check section, 15 ... Academic language puff 77.16 ...
...Additional part, 17... Rewriting part, 18...
- Clear signal generation section, 22...Least frequency word detection section. Name of agent: Patent attorney Toshio Nakao and 1 other person
4 Figure 5 People Patu/

Claims (2)

【特許請求の範囲】[Claims] (1)入力音声信号を特徴ベクトルの系列(a_1、a
_2、・・・・・・、a_i、・・・・・・、a_I)
より成る入力パタンAに変換する特徴抽出手段と、音節
の標準パタンR^n=(r^n_1、r^n_2、・・
・・・・、r^n_j、・・・・・・、r^n_J__
n)(n=1、2、・・・・・・、N)を記憶する標準
パタン記憶手段と、語彙を所定個数記憶する単語辞書と
、前記単語辞書で記憶されている語彙以外の語彙を記憶
する単語バッファと、前記標準パタンR^nを構成する
特徴ベクトルr^n_j(j=1、2、・・・・・・、
J_n)のそれぞれと前記入力パタンAの第iフレーム
の特徴ベクトルa_iとのベクトル間距離d^n(i、
j)を計算するベクトル間距離計算手段と、前記ベクト
ル間距離d^n(i、j)から前記入力パタンAと前記
標準パタンR^nのうち単音節標準パタンとのパタン間
距離を計算する単音節累積距離計算手段と、前記単音節
累積距離計算手段で得られる前記パタン間距離に基づい
て前記入力パタンAに最も近い単音節を判定する単音節
判定手段と、単語区切り信号を発生する単語区切り信号
発生手段と、前記単語音節判定手段の結果を記憶する単
音節認識結果記憶手段と、前記標準パタンのそれぞれを
構成する各ベクトル間の前記ベクトル間距離d^n(i
、j)の累積距離を計算する単語累積距離計算手段と、
前記単語累積距離計算手段の結果に基づいて前記単語辞
書及び前記単語バッファの中から語彙を決定する単語判
定手段と、認識結果が前記単語辞書または前記単語バッ
ファに記憶されているかどうかをチェックするための語
彙チェック手段と前記単音節認識結果記憶手段で記憶さ
れている内容と前記単語判定手段で得られた結果に基づ
いて得られた認識結果を前記単語バッファの内容に付加
する付加手段と、前記認識結果と前記単語バッファ内の
語彙とを書換える書換え手段と、前記単語バッファに記
憶されている語彙のうちで使用頻度の最も低い単語を検
出する最低頻度単語検出手段を備えたことを特徴とする
音声認識装置。
(1) The input audio signal is a series of feature vectors (a_1, a
_2、・・・・・・、a_i、・・・・・・、a_I)
a feature extraction means for converting into an input pattern A consisting of a standard pattern of syllables R^n=(r^n_1, r^n_2, . . .
..., r^n_j, ......, r^n_J___
n) (n=1, 2, . . . , N); a word dictionary that stores a predetermined number of vocabulary words; and a word dictionary that stores vocabulary words other than those stored in the word dictionary. The word buffer to be stored and the feature vector r^n_j (j=1, 2, . . . , forming the standard pattern R^n)
The inter-vector distance d^n(i,
j), and calculates an inter-pattern distance between the input pattern A and a monosyllabic standard pattern among the standard patterns R^n from the inter-vector distance d^n(i, j); monosyllable cumulative distance calculating means; monosyllable determining means for determining the monosyllable closest to the input pattern A based on the inter-pattern distance obtained by the monosyllable cumulative distance calculating means; and a word for generating a word break signal. a delimiter signal generation means, a monosyllable recognition result storage means for storing the results of the word syllable determination means, and the inter-vector distance d^n(i
, j);
word determining means for determining a vocabulary from the word dictionary and the word buffer based on the result of the word cumulative distance calculating means; and checking whether the recognition result is stored in the word dictionary or the word buffer. addition means for adding recognition results obtained based on the vocabulary check means and the monosyllable recognition result storage means and the results obtained by the word determination means to the contents of the word buffer; The present invention is characterized by comprising a rewriting means for rewriting the recognition result and the vocabulary in the word buffer, and a lowest frequency word detection means for detecting the least frequently used word among the vocabulary stored in the word buffer. voice recognition device.
(2)単語区切り信号発生手段は、音声認識装置本体外
部からの信号により単語区切り信号を発生する特許請求
の範囲第1項記載の音声認識装置。
(2) The speech recognition device according to claim 1, wherein the word break signal generating means generates the word break signal based on a signal from outside the speech recognition device main body.
JP60006431A 1985-01-17 1985-01-17 Voice recognition equipment Pending JPS61165798A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60006431A JPS61165798A (en) 1985-01-17 1985-01-17 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60006431A JPS61165798A (en) 1985-01-17 1985-01-17 Voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS61165798A true JPS61165798A (en) 1986-07-26

Family

ID=11638201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60006431A Pending JPS61165798A (en) 1985-01-17 1985-01-17 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS61165798A (en)

Similar Documents

Publication Publication Date Title
JP4351385B2 (en) Speech recognition system for recognizing continuous and separated speech
US5949961A (en) Word syllabification in speech synthesis system
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP2005043666A (en) Voice recognition device
EP0903730B1 (en) Search and rescoring method for a speech recognition system
KR101014086B1 (en) Voice processing device and method, and recording medium
KR100930714B1 (en) Voice recognition device and method
JP4661239B2 (en) Voice dialogue apparatus and voice dialogue method
Ney et al. Dynamic programming search strategies: From digit strings to large vocabulary word graphs
JP4733436B2 (en) Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium
JPS61165798A (en) Voice recognition equipment
JPH11311994A (en) Information processor, information processing method, and presentation media
JPS61143796A (en) Voice recognition equipment
JP3231365B2 (en) Voice recognition device
KR100560916B1 (en) Speech recognition method using posterior distance
JPS61212900A (en) Voice recognition equipment
JPS61143797A (en) Voice recognition equipment
JPS61165799A (en) Voice recognition equipment
JPS60164800A (en) Voice recognition equipment
JP2001013988A (en) Method and device for voice recognition
JP2574242B2 (en) Voice input device
JP3357752B2 (en) Pattern matching device
JP2021039384A (en) Generation device, recognition system, and finite state transducer generation method
JP3026851B2 (en) Continuous speech recognition method
JPS59173884A (en) Pattern comparator