JPS5946696A - Voice recognition system - Google Patents

Voice recognition system

Info

Publication number
JPS5946696A
JPS5946696A JP57155983A JP15598382A JPS5946696A JP S5946696 A JPS5946696 A JP S5946696A JP 57155983 A JP57155983 A JP 57155983A JP 15598382 A JP15598382 A JP 15598382A JP S5946696 A JPS5946696 A JP S5946696A
Authority
JP
Japan
Prior art keywords
voice
speech
standard
recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57155983A
Other languages
Japanese (ja)
Inventor
徳子 松井
俊宏 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57155983A priority Critical patent/JPS5946696A/en
Publication of JPS5946696A publication Critical patent/JPS5946696A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、認識対象の各単語に対応して複数組の標準音
声パタンを記憶しておき、入力音声に対する類似度が最
上位となる組の標準音声パタンを認識結果として出力・
表示する音声認識装置において、その認識率を向上させ
るだめの音声認識方式に関するものである。
[Detailed Description of the Invention] [Field of Application of the Invention] The present invention stores a plurality of sets of standard speech patterns corresponding to each word to be recognized, and selects the set with the highest degree of similarity to the input speech. Output standard speech patterns as recognition results.
The present invention relates to a speech recognition method for improving the recognition rate of a display speech recognition device.

この種の音声認識装置における従来の音声認識方式は、
例えば、一連のザービスが完了する寸で、内蔵されてい
る+、Ld組の全標準音声パタンを使用して音声= i
=処理を行わせるようにしていたので、ある特定の発声
者による特定の単語が、ある特だ組の標準音声パタンに
関して誤認1試、リジェクトを起こし易いことがあり、
そのような場合には、一連の音声認識処理において誤認
識、リジェクトが当該単語について集中・多発をすると
いうおそれかあった。
The conventional speech recognition method for this type of speech recognition device is
For example, when a series of services is about to be completed, all standard voice patterns of the built-in + and Ld groups are used to create voice = i.
= Because we had the system perform this processing, a specific word by a specific speaker may easily be rejected in one trial when it is misidentified in relation to a particular set of standard speech patterns.
In such a case, there is a risk that incorrect recognitions and rejections may occur in a concentrated manner or frequently in a series of speech recognition processes.

〔元明の目的〕[Genmei's purpose]

本発明の目的は、上記した従来技術の欠点をなくシ、特
に、発声者別に生ずる、特定単1inの標/11;音声
パタンの特定組に対する誤認識を防1.1−L、g:α
識率を総合的に向上することができる音声、4識方式を
4鹸することにある。
An object of the present invention is to eliminate the above-mentioned drawbacks of the prior art, and in particular to prevent erroneous recognition of a specific set of voice patterns that occurs depending on the speaker.
The goal is to improve the voice and 4 cognition methods that can comprehensively improve the cognition rate.

〔発明の概要〕[Summary of the invention]

本発明に係る音声認識方式の(11′f成は、認識対象
の各単語に対応して複数組の標準音声バタンデータを記
1意しておき、入力音声の特徴抽出を行い、その特徴デ
ータと上記各標準音声バタンデータとの類似度H」算処
理を行い、その類似度が最上位となる標準音声パタンを
認識結果として判定・出力する機能を有する音声認識装
置において、音声認識処理に先立って最初に入力される
所定のキーワードについてクラスタリングを行っておく
ことにより、そのクラスタリングの結果に基づき、当該
入力音声に対応する標準音声バタンの組を選択し、それ
に従って以後の一連の音声8M jjl&処理を行わし
めるように利仰・処理するものである。
The (11'f) configuration of the speech recognition method according to the present invention is to write down a plurality of sets of standard speech button data corresponding to each word to be recognized, extract the features of the input speech, and extract the feature data. In a speech recognition device that has a function of calculating the degree of similarity H between the above-mentioned standard speech pattern and each of the above-mentioned standard speech bang data, and determining and outputting the standard speech pattern with the highest degree of similarity as a recognition result, prior to speech recognition processing. By performing clustering on a predetermined keyword that is first input, a set of standard voice buttons corresponding to the input voice is selected based on the clustering results, and a subsequent series of voice 8M jjl & processing is performed accordingly. It is the purpose of advising and disposing of matters so that they are carried out.

これを要するに、音声認識処理の最初に所定のキーワー
ド(j’ilJえは、各個人の発fV3特徴の基本とな
る5m音「あ」、「い」、「う」、「え」。
In short, at the beginning of the speech recognition process, a predetermined keyword (j'ilJe is the 5 m sound "a", "i", "u", "e", which is the basis of each individual's pronunciation fV3 characteristics).

「お」)を発声せしめ、その各特徴パラメータ(スペク
トラム)を求め、これらと標準音声パタンの各組の対応
語との相互距離を計算し、その最も近い標準音声パタン
の組を当該入力音声の正認識が得られ易い対応するもの
として選択し、以後の音声認識処理を行うようにするも
のである。
"O") is uttered, each characteristic parameter (spectrum) is determined, the mutual distance between these and the corresponding word of each set of standard speech patterns is calculated, and the closest set of standard speech patterns is selected from the input speech. A corresponding one that is likely to be correctly recognized is selected, and subsequent speech recognition processing is performed.

〔発明の実施例〕[Embodiments of the invention]

以下、本発明の実施例を図に基づいて説明する。 Embodiments of the present invention will be described below with reference to the drawings.

第1図は、本発明に係る音声認識方式の一実施例の方式
構成図、第2図は、その処理フ「J−チャートである。
FIG. 1 is a system configuration diagram of an embodiment of the speech recognition method according to the present invention, and FIG. 2 is a processing flowchart thereof.

ここで、1は、制御部であって、音声ijJ識表置の各
部に対する制御をして所要の認識処理を行い、その認識
結果をホスト装置i#14sTに伝え、これに所望のザ
ービス蟲埋を行わしめるもの、2ば、認識対象の各単語
に対応して各羨故組の標準11声バタンデータが用意さ
れている標準音1)イパタンメモリ、3は、標準音声パ
タン・パ択部、4−2、M声n2織部、5け、そのバタ
ンマツチングの結果に応して人力音声に対する標準音声
バク/の組を判定する判定1′l]S、6L」:、人力
8声がら/11徴ノー 夕を抽出する分析部、7は、音
声入力に係るマイク「7ノ劃ン、8は、認識結果の表示
に係る)イー声合成部、9は、同スピーカ、10は、認
識結果の確認および繰返し音声人力に係るコンソール部
、11は、分析された入力音声バタンについてクラスタ
リングを行うだめのクラスタリング部であ)。
Here, 1 is a control unit that controls each part of the audio identification table to perform the required recognition processing, transmits the recognition result to the host device i#14sT, and sends the desired service insect burial to the host device i#14sT. 2. A standard sound pattern memory in which standard 11-voice baton data for each group is prepared corresponding to each word to be recognized; 3. A standard voice pattern/pattern selection section; 4. -2, M voice n2 Oribe, 5 digits, Judgment 1'l] that determines the set of standard voice baku/ for human voice according to the result of the bang matching 1'l] S, 6L'':, 8 human voice voice/11 7 is a microphone for voice input; 8 is a voice synthesis unit for displaying recognition results; 9 is a speaker; 10 is a voice synthesis unit for displaying recognition results. The console unit 11 for confirmation and repetition of voice input is a clustering unit for performing clustering on the analyzed input voice button).

まず、音声認識処理に先立ち、制御部1は、音声入力に
対する準備を分析部6.クラスタリング部11に指示し
、クラスタリングの対象となるべき標準音声パタンを標
準音声バタンメモリ2から選択するように標準音声バタ
ン選択部3に指示する(第2図の処理21)。
First, prior to voice recognition processing, the control unit 1 prepares the analysis unit 6 for voice input. It instructs the clustering section 11 and instructs the standard voice button selection section 3 to select a standard voice pattern to be clustered from the standard voice button memory 2 (process 21 in FIG. 2).

これらの4(へ備が完了すると、発声者に対してキーワ
ード(例えば、母音「あ」、「い」、「う」。
Once these four preparations have been completed, the speaker should be asked the keywords (for example, the vowels ``a'', ``i'', ``u'').

「え」、「お」)の音声入力を促すべき入力催告メツセ
ージを出力するよう音声合成部8に指示するのでスピー
カ9から上記入力催告メツセージが放声される(同処理
22)。
The voice synthesizing section 8 is instructed to output an input reminder message to prompt the voice input of "e", "o"), so the input reminder message is emitted from the speaker 9 (process 22).

コレにより、発声者がマイクロフォン7かも上記キーワ
ードの音声を入力すると(同処理24)、分析部6は、
入力された音声を分析して特徴データを抽出する(同処
理25)。
With this, when the speaker inputs the voice of the above keyword into the microphone 7 (same process 24), the analysis unit 6
The input voice is analyzed to extract feature data (process 25).

ここで、クラスタリング部11−は、標準音声バタン選
択部3が示す標準片声バタンと」−:記入カiイ声パタ
ンとの間でクラスタリング(1クリえば、多変量解析の
分野における階層的クラスタリングと同様なもの)を行
い、」二記キーワー 1・が標準音声パタンのいずれの
組に属しく対応)でいるかを調べる(同処理26)。
Here, the clustering unit 11- performs clustering between the standard one-voice slam indicated by the standard voice button selection unit 3 and the input voice pattern (if one click is performed, hierarchical clustering in the field of multivariate analysis is performed). 26), and it is checked to which set of standard speech patterns the keyword 1. belongs (correspondence).

制イ卸部1は、上記クラスタリングの結果より、標準音
声バタン選択部3に対し、以後の音声認識処理に備えて
どの組の標準音声パタンを選択するかを指示する(同処
理27)。
Based on the result of the clustering, the control unit 1 instructs the standard voice button selection unit 3 which set of standard voice patterns to select in preparation for the subsequent voice recognition process (process 27).

次に、発声者に対して本来の音声□想識をずへき音声入
力をするように、入カ催告メッセー ジを音声合成部8
経出でスピーカ9から放声ゼしめる(同処理23)。
Next, the voice synthesis unit 8 sends an input reminder message to the speaker so that he or she inputs the original voice without thinking.
At the output, a loud voice is emitted from the speaker 9 (same process 23).

発声者がマイクロフォン7がら音声を人力−7−ルと(
同処理24)、分析部6は、人力さ11./こ1゛1声
を分析して特徴データを抽出する(同処理25)。
The speaker uses the microphone 7 to manually record the voice (
The same process 24), the analysis section 6 is performed by human power 11. Analyze each voice and extract characteristic data (process 25).

音声認識部4は、標準音声バタン選択部3が示す標準音
声パタンと、」二記入カ音−辺バタンとの間でパタンマ
ツチングを行い、その結果の類似度を判定部5へ送る(
同処理28)。
The speech recognition section 4 performs pattern matching between the standard speech pattern indicated by the standard speech button selection section 3 and the "2-input cursive sound - side bang," and sends the resulting similarity to the determination section 5 (
Same process 28).

判定部5は、類似度が最」1位のものを認識結果とし7
て制御?i′IS1へ送る(同処理29)。    □
人力音声に対して最も確からしい類似度の値が低くて認
識結果として決定するのは疑わしいとすべきりジエクト
の場合には、制?i11+部1は、標準音声パタン選択
部3に対して今寸でと同一の標準音声パタンを選択する
ように指ンJミしく同処理30)、更に音声合成部8に
対して再音声人力を促すメツセージをスピーカ9から放
声せしめるように制御する(同処理31)。これにより
、上述の処理24以降が繰り返される。
The determination unit 5 selects the one with the highest degree of similarity as the recognition result 7
Control? Send it to i'IS1 (same process 29). □
If the value of the most probable similarity to a human voice is low and the recognition result is questionable, is there a restriction? The i11+ unit 1 instructs the standard voice pattern selection unit 3 to select the same standard voice pattern as the current one (30), and also instructs the voice synthesis unit 8 to re-speech human power. A prompting message is controlled to be emitted from the speaker 9 (process 31). As a result, the above-described process 24 and subsequent steps are repeated.

制御部1ば、その認識結果が正しいものであるか否かを
発声者に確認させるだめの表示として、確認要求メツセ
ージを音声合成部8から出力させ、それをスピーカ9か
ら放声さぜる(同処理32)。
The control unit 1 outputs a confirmation request message from the voice synthesis unit 8 and sounds it from the speaker 9 as a display for the speaker to confirm whether or not the recognition result is correct. Processing 32).

発声者は、これを聴取して入力音声が正しく認識された
のか、誤Mg ii+i’!されたのかを知り、その旨
をコンノール部10から開側]部1へ入力する(同処理
33)。
The speaker hears this and wonders if the input voice has been correctly recognized or if the input voice is incorrectly Mg ii+i'! The controller 10 learns whether it has been opened and inputs the information from the control section 10 to the open side section 1 (same process 33).

制御部1−\の認識結果の正否の確認人力は、必ずしも
コンノール部10における操作による必要はなく、マイ
クロフォン7から確認用音声の入力に」:ってもよいが
、その内容は音声認識が確実に行われるように、141
単で誤認識しにくいものであることが望寸しい。
The human power to confirm whether the recognition result of the control unit 1-\ is correct or not does not necessarily have to be done by operating the control unit 10, but it may be possible to input confirmation voice from the microphone 7, but the content is certain to be determined by voice recognition. as done in 141
It is desirable that it be simple and difficult to misrecognize.

制姐j部]は、上記確認情報により、上述の認識候補が
正しいものであるときは、それを認識結果としてホスト
装置1−I S Tへ送出し、1つの人力音声に対する
処理を終了せしめて次の人力に備える。
If the above-mentioned recognition candidate is correct based on the confirmation information, the control unit sends it as a recognition result to the host device 1-IST, and ends the processing for one human voice. Prepare for the next manpower.

一方、誤認識であったという確認’1iIr報を受けだ
ときには、?1tlJ御部1は、上述のリジェクトの場
合と同様に、音声合成部8Vこ対し、画び回−の1°1
声入力をするようにメツセージ送出をせしめ、用度、上
述の処理24以降の認識を行う。、 以上の動作を一連のザービスが完了する斗で繰り返して
行う。
On the other hand, when I received confirmation that it was a misrecognition, what happened? 1tlJ control section 1, as in the case of reject mentioned above,
The message is sent out in the same manner as the voice input, and the purpose and the above-mentioned process 24 and subsequent steps are recognized. , The above operations are repeated until a series of services are completed.

このように本実施例によれは、発声者による!111定
の単語の、特定の組の標準音声パタンに対ずイ)誤認識
が減少し、認識率を向上せしめることができる。
In this way, in this embodiment, the error depends on the speaker! (a) Misrecognition can be reduced and the recognition rate can be improved for a specific set of standard speech patterns of 111 fixed words.

〔発明の効果〕〔Effect of the invention〕

以上、詳11i11に説明したように、本発明によれば
、谷発声者ごとに適合した標準音声パタンによって音声
MIJ ijm A理をすることができるので、特定者
による発声が標準音声パタンの特定絹に誤認識されるこ
とが減少し、音声認識装置における認識率向上。
As explained above in detail 11i11, according to the present invention, it is possible to perform voice MIJ ijm A management using a standard voice pattern adapted to each voice speaker. This reduces the number of false recognitions and improves the recognition rate of speech recognition devices.

ザービス性向上に顕著な効果が伶られる。It has a remarkable effect on improving serviceability.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、本発明に係る音声認識方式の一実施例の方式
構成図、第2図は、その処理フローチャー1・である。 1・・・制fl11j部、2・・・標準音声パフ/メモ
リ、3・・・標準音声バタン選択部、4・・・音声認識
部、5・・・判定部、6・・・分析部、7・・・マイク
ロフォン、8・・・音声合成部、9・・・スピーカ、1
0・・・コンソール部、11’−”7i 27 ’) 
’−り“J3. 代理人 弁理士 福田幸作(ほか1名
) $ 1 目
FIG. 1 is a system configuration diagram of an embodiment of the speech recognition method according to the present invention, and FIG. 2 is a processing flowchart 1. DESCRIPTION OF SYMBOLS 1... Control fl11j section, 2... Standard voice puff/memory, 3... Standard voice button selection section, 4... Speech recognition section, 5... Judgment section, 6... Analysis section, 7...Microphone, 8...Speech synthesis unit, 9...Speaker, 1
0...Console part, 11'-"7i 27')
'-ri' J3. Agent Patent attorney Kosaku Fukuda (and 1 other person) $ 1

Claims (1)

【特許請求の範囲】[Claims] 1、認識対象の各単語に対して泉数組の標準音声パタン
データを記憶しておき、人力音声の特徴抽出を行い、そ
の特徴データと」二記谷標準音声パタンデータとの類似
度計算処理を行い、その類似度が最上位となる標準音声
パタンを認識結果として判定・出力する・吹射を有する
音声認識装置において、音声認識処理に先立って最初に
入力される所定のキーワードについてクラスタリングを
行っておくことにより、そのクラスタリングの結果に基
づき、尚該入力音声に対応する標準音声パタンの組を選
択し、それに従って以後の一連の音声認識処Jgjlを
行わしめるように制御・処理することを特徴とする音声
認識方式。
1. Store Izumi's set of standard speech pattern data for each word to be recognized, extract the features of the human speech, and calculate the similarity between the feature data and the Nikiya standard speech pattern data. , and determines and outputs the standard speech pattern with the highest degree of similarity as a recognition result.In a speech recognition device with injection, clustering is performed for a predetermined keyword that is first input prior to speech recognition processing. Based on the result of clustering, a set of standard speech patterns corresponding to the input speech is selected, and the subsequent series of speech recognition processing Jgjl is controlled and processed accordingly. A voice recognition method that uses
JP57155983A 1982-09-09 1982-09-09 Voice recognition system Pending JPS5946696A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57155983A JPS5946696A (en) 1982-09-09 1982-09-09 Voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57155983A JPS5946696A (en) 1982-09-09 1982-09-09 Voice recognition system

Publications (1)

Publication Number Publication Date
JPS5946696A true JPS5946696A (en) 1984-03-16

Family

ID=15617784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57155983A Pending JPS5946696A (en) 1982-09-09 1982-09-09 Voice recognition system

Country Status (1)

Country Link
JP (1) JPS5946696A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH034881U (en) * 1989-06-02 1991-01-18

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH034881U (en) * 1989-06-02 1991-01-18

Similar Documents

Publication Publication Date Title
US7373301B2 (en) Method for detecting emotions from speech using speaker identification
JPS603699A (en) Adaptive automatically dispersing voice recognition
JPH096390A (en) Voice recognition interactive processing method and processor therefor
JPS58129682A (en) Individual verifying device
JPS5946696A (en) Voice recognition system
JPS59212900A (en) Voice recognition equipment
CN117577115B (en) Intelligent paperless conference system
JPS59147397A (en) Voice recognition control system
JPH06161488A (en) Speech recognizing device
JPS645320B2 (en)
JP2000148187A (en) Speaker recognizing method, device using the method and program recording medium therefor
JPS5962900A (en) Voice recognition system
JPS5915990A (en) Voice recognition system
JPS59111698A (en) Voice recognition system
JPS5988798A (en) Voice recognition processing system
Trabelsi et al. Dynamic sequence-based learning approaches on emotion recognition systems
JPS60107192A (en) Pattern recognizing device
JP2975808B2 (en) Voice recognition device
JPS59147396A (en) Voice recognition control system
JPS5915991A (en) Voice recognition system
JPS5917596A (en) Voice recognition system
JPH0256680B2 (en)
JPS5917598A (en) Voice recognition system
JPS5946695A (en) Voice recognition system
JPS5917595A (en) Voice recognition system