JPS58178396A - 音声認識用標準パタ−ン登録方式 - Google Patents

音声認識用標準パタ−ン登録方式

Info

Publication number
JPS58178396A
JPS58178396A JP57060664A JP6066482A JPS58178396A JP S58178396 A JPS58178396 A JP S58178396A JP 57060664 A JP57060664 A JP 57060664A JP 6066482 A JP6066482 A JP 6066482A JP S58178396 A JPS58178396 A JP S58178396A
Authority
JP
Japan
Prior art keywords
standard pattern
voice
input
registration method
pattern registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57060664A
Other languages
English (en)
Inventor
吉明 北爪
利一 安江
栄二 大平
遠藤 武之
麻生 哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57060664A priority Critical patent/JPS58178396A/ja
Priority to US06/484,203 priority patent/US4672668A/en
Publication of JPS58178396A publication Critical patent/JPS58178396A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、音声認識用標準パターン登録方式に関し、・
特に音声出力の誘導によ)発声の長さ、振幅等を安定に
入力して登録する方式に関するものである。
音声によるデータやコマンドの入力を用いて、荷物の仕
分け、検査データの入力、銀行残高の間合せ、および座
席予約等の応用が進められている。
これらのうち、前の2つ岐特定話者の音声諏識、後の2
つは不特定話者の責声詔識により実現され、実用化され
つつある。また、これら音声認識では、あらかじめメモ
リに登録された標準音声パターンと入力された音声パタ
ーンとの類似度を照合することにより、入力データを識
別しており、標準パターンの登録が必要である。標準パ
ターンの登録は、通常状特定話者の場合に行われ、その
場合、登録された標準パターンの良し悪しが認識率に直
接影響する。
従来の特定話者向けの音声認識装置では、その標準パタ
ーンを登録する場合、オペレータ・ボッタスに設けられ
た表示パネルに次に登録すべき内容が表示される。使用
者は、表示された内容を見てこれを発声することにより
、標準パターンとして入力している。しかし、発声の長
さ、大きさ、リズム等が不安定となり、必ずしも良好な
標準パターンを登録することがで11ない。
本発明の目的は、このような従来の問題を解決するため
、登録すべき標準パターン内容を発声のれによってll
1ll率を向上させることができる音声認識用標準パタ
ーン登録方式を提供することにある。
上記目的を達成するため、本発明の音声rI4m用標準
パターン登録方式は、音声入力部と特徴抽出部と類似度
計算部とパターン・マツチング部を有する音声1IIl
lli装置において、音声出力部を設けて、その音声出
力部から出される音声の誘導により、標準パターンを登
録することを特徴とする。
以下、本発明の実施例を、図面にょ抄説明する。
第1図は、本発明の実施例を示す音声認識装置のプロッ
タ図である。
特定話者の認識においては、先ず使用者が登録すべき標
準パターンを発声すると、発声された音声に)が音声入
力部2に入力され、ζこで音声1がアナ田グ電気信号に
変換された後、さらにディジタル電気信号軸)に変換さ
れて、特徴抽出部3に出力される・ 特徴抽出部3では
、例えば、フィルタ・パンクが構成されており、入力信
号に含まれる各周波Wk成分を抽出して出方(0)を送
出する。
通常a、4KHz程度までの帯域を16チヤネル程度に
分割している。
標準パターン(・)としては、このフィルタ・バンクの
出力の時系列が制御部1を介して標準パターン・メモリ
6に送られ、ことに格納される。
仁の標準パターンを用−て、実際に音声[111する場
合には、特徴抽出部δかも出力された各周波数成分(入
力信号を構成する成分)(C)を類似度計算部4に入力
し、ここで標準パターン・メモリ6から順次、標準パタ
ーンの各周波数成分ケ)を取出して類似度計算を行い、
瞬間的類似度の結果(11)をパターン・マツチング部
6に出力する・パターン・マツチング部6では、全体的
照合を行うことにより認識を行う(特願昭55−158
296号明細書参照)。
本発明にお−ては、標準パターンの登録時の発声の不安
定を解決するため、入力音声長、大きさ、リズム等をシ
ステム的にチェツチする手段を制御部1に設けるととも
に、音声出力による誘導する音声出力部7を設けて、安
定した音声入力を得ることにより、音声認識率の向上を
図る・第2図社音声入力のフレーム長と入力切出し処理
の説明図であり、第3図は本発明の実施例を示す標準パ
ターン登録の70−チャートである。
第1図における制御部1が標準パターン登録シーケンス
の制御を行う。
第3図に示すように、登録モードでは、制御部1社先ず
ステップ11で音声出力部7を起動して、入力要求を行
う。例えば、座席予約の場合ではス「登録をどうぞ」と
音声出力することにより、オペレータをS*する。次に
、ステップ12で制御部1から音声出力部7を駆動し、
単語指定を行う。
例えば、「東京」と音声出力することにより、入力する
音声の長さと大きさとリズムのガイダンスを与え、同じ
単語をオペレータに発声させるようにする。 次に、ス
テップ13では、制御部lが音声入力部2を監視して、
音声入力があったか否かを判断する。「東京」の音声が
入力されると、音声入力部2.はこれを制御部1に送り
、制御部1はステップ1本で入力切出し処理および7レ
ーム長計測処理を行う。
例えば、「東京」の音声パワーは、第2&3に示すよう
に、’I’0KYOの子音で低いエネルギを、母音で高
いエネルギをそれぞれ出力するとと本に、入力音声長を
lomBの7レ一五単位に分割することにより計測する
ことができる。この場合、あまり大きく発声すると、音
声パワーが大とな染、アナログ回路の動作が飽和状態と
なってしまうため、一定捩輻以下に制限しなければなら
ず、tた発声長もあまり長すぎたり、あるいは短かすぎ
ると、標準パターンとして適切さを欠く。さらに、TO
KYOのある部分は短く、他の部分は長く発声すると、
リズムが狂ってしまい、やけや標準パターンとして適切
さを欠く。
音声入力部2に入力された音声がディジタル信号軸)に
変換されて、特黴抽tB@3に出力されると、ここでは
周波数成分ごとに出力(0)が抽出され、制御部1およ
び類似度計算部番に出力される。
制御部1は、特徴抽出部3から音声゛パワー等の出力を
受けると、それを用いて第2WJのム、Bに示すように
、音声の始端、終端を決定し、入力音声の切出しを行う
(切出し処理辷ついては、−特願昭66−76472号
明細書か照)・ この場合、特徴抽出部3は、入力格納レジスタを備えて
おり、ζこに発声した音声を格納しておく。
一方、制御部l#−i、人力切出し処理を行った後、人
力切出し処理と並行して求めたフレーム長(FLxi 
)を用いて、指定”した単語に対するフレーム長(F 
Lstal)を用いて次の式を算出して判定する。 l
 (PLxt) −Q!’LstcLi)  I < 
e  、、、  ■この式を満足したときに限り、六方
格納レジスタに格納された入力音声(e)を読出し、制
御部lを経由して標準パターン・メモリ6に転送する。
前記α)式のフレーム長(F LxL )は、10m8
ずつ区切られたフレームの数を計数することにょにS定
することができ、また指定フレーム長(Flat41 
)は、登録される単語ないし単音節のすべてに対してそ
れぞれ標準フレーム長を指定して、制御部lのワーク・
メモリ内に音声出方用の単語テーブルとともに格納して
おく。さらに、両7レーム長の差lは、経験的に決定さ
れる許容値であって、第2図の±aおよび±βに相当す
る。すなわち、各単語または単音節ごとに、フレームの
長短がどのくらいの範1まで許容できるかを経験的にあ
らかじめ設定し、これを超えた場合には不適当な7レー
ム長と判断する。
ステップ15でフレーム長が正常、つまり前記(1)式
を満足するときには、ステップ16で入力格納レジスタ
の内容を標準パターン・メモリ6に転送した後、ステッ
プ12に戻って次の単語の指定に移る。もし、ステップ
15で7レーム長が異常、ワtり前記ω式を満足しない
ときに社、ステップ11に戻って再入力要求を行い、ス
テップ12の単語指定として「東京」の音声出力を音声
出力部7から再び送出する。 なお、音声出力部7岐、
よく知られている音声合成回路で構成されてお秒、例え
ばPOM方式を用いた録音編集方式、あるいけPARO
OR係数による音声合成方式等を用いて実現される(中
田和男著「音声」日本音響学命綱、コロナ社参照)。
ステップ11の再人力要求では「もう一度同じ単語の登
録をどうぞ」と音声出力することにょ抄、オペレータを
誘導する。このようにして、順次「横浜」 「名古屋」
涼都」 「大阪」等を登録していく。
実験の結果、音声出力ガイダンスを用いて標準パターン
の登録を行った場合には、I!i識率は10〜20%向
上した。なお、第3図の7W−・チャートでは、登録単
位を単語に限定しているが、その場合に登録単位を母音
−子音−母音(、VOV)の連鎖に限定すること亀でき
、さらに登録単位を、単音節に限定するとともできる。
 また、第3図のフp−・チャートでは、入力音声のフ
レーム長を測定して、発声長の安定化のみを図っている
が、その他に発声の大きさ、つまり音声振幅に制限を設
けたり、また発声のリズム、つま、リフレーム内の各部
の長さに制限を設けることもできる。
なお、本発明の他の利用方法としては、人工的に無声化
し念音声パターン等の登録に対して、音声出力によりガ
イダンスを示すこともできる。
以上説明したように、本発明によれば、音声出力部から
入力すべき単語指定を音声出力により行うので、その音
声出力の内容(発声の長さ、大きさ、リズム)に合わせ
て発声することができ、安定な標準パターンの登録が可
能となり、それによって認識率の向上が図れる。 また
、本発明では、発声の長さ、大きさ、リズム等のチェッ
クを行い、使用者が標準音声出力に対してかけ離れた入
力を発声したときには、それを拒絶して再入力さ姥るこ
とができるので、単に標準音声出力指示に合わせるよう
に努力する以上に安定なパターンが得られる。さらに、
ディスプレイを見て発声する必要がなく、音声出力に合
わせて発声すればよいので、登録が簡単となる。
【図面の簡単な説明】
第1図は本発明の実施例を示す音声認識装置のブロック
図、第2図は本発明による入力切出し処理、7し一ム長
計測処理の説明図、第3図は本発明の実施例を示す標準
パターン登録の70−・チャートである。 1:制御部、2;音声人力部、3:特徴抽出部、4:類
似度計算部、5=標準パターン・メモリ、6:パターン
・マツチング部、7:音声出力部、特許出願人 株式会
社 日立製作所、、。 代 理 人 弁理士 磯 村 雅 俊〜゛第1図 1声出 第2図 ミ ーrf肉人力 第3図 1 (再)人力要求 2 力 単語指定 3 人力持  未 4 フレーム長側 5 異常 フレーム長 市常  16

Claims (1)

  1. 【特許請求の範囲】 α)登録された標準パターンを用いて、入力音声の特徴
    パラメータとの類似度の計算を行い、さらに全体として
    の照合を行う音声認識装置において、発声の長さ、大き
    さ、またはリズム等の標準値を備えて、標準パターン登
    録シーケンスを制御する手段と、該制御手段の指示によ
    り出力する。音声出力部を設け、該音声出力部から音声
    出力で登鐸者を誘導することにより、標準パターンを登
    録することを特徴とする音声認識用標準パターン登録方
    式O ■前記標準パターンを登録する際に、登録単位を単語に
    限定することを特徴とする特許請求の範囲第1項記載の
    音声認識用標準パターン登録方式0(3)前記標準パタ
    ーンを登録する際に、登録単位を母音−子音−母音(V
     OV)の連鎖に限定することを特徴とする特許請求の
    範囲第1項記載の音声認識用標準パターン登録方式。 (→前記標準パターンを登録する際に、登録単位を単音
    節に限定することを特徴とする特許請求の範囲第1項記
    載の音声1ilIiIl用標準パタ一ン登録方式。 (ハ)前記制御手段は、音声出力部で誘導する音声の7
    レーム長を格納するレジスタと、入力として発声された
    音声を格納するレジス雫と、入力音声の7レーム長を計
    測する手段を備え、フレーム長をあらかじめ設定された
    範囲内に抑制した標準パターンを登録することを特徴と
    する特許請求の範囲第1項記載の音声認識用標準パター
    ン登録方式。
JP57060664A 1982-04-12 1982-04-12 音声認識用標準パタ−ン登録方式 Pending JPS58178396A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP57060664A JPS58178396A (ja) 1982-04-12 1982-04-12 音声認識用標準パタ−ン登録方式
US06/484,203 US4672668A (en) 1982-04-12 1983-04-12 Method and apparatus for registering standard pattern for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57060664A JPS58178396A (ja) 1982-04-12 1982-04-12 音声認識用標準パタ−ン登録方式

Publications (1)

Publication Number Publication Date
JPS58178396A true JPS58178396A (ja) 1983-10-19

Family

ID=13148823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57060664A Pending JPS58178396A (ja) 1982-04-12 1982-04-12 音声認識用標準パタ−ン登録方式

Country Status (2)

Country Link
US (1) US4672668A (ja)
JP (1) JPS58178396A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6057898A (ja) * 1983-09-09 1985-04-03 電子計算機基本技術研究組合 音声登録方式
JPH01285998A (ja) * 1988-05-13 1989-11-16 Sharp Corp 音声認識装置
JP2000259170A (ja) * 1999-02-10 2000-09-22 Internatl Business Mach Corp <Ibm> 音声認識システムにユーザを登録する方法および装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885791A (en) * 1985-10-18 1989-12-05 Matsushita Electric Industrial Co., Ltd. Apparatus for speech recognition
US5146503A (en) * 1987-08-28 1992-09-08 British Telecommunications Public Limited Company Speech recognition
US5025471A (en) * 1989-08-04 1991-06-18 Scott Instruments Corporation Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
JPH03155599A (ja) * 1989-11-13 1991-07-03 Nec Corp 音声認識装置
JP3045510B2 (ja) * 1989-12-06 2000-05-29 富士通株式会社 音声認識処理装置
US5222190A (en) * 1991-06-11 1993-06-22 Texas Instruments Incorporated Apparatus and method for identifying a speech pattern
JP3535292B2 (ja) * 1995-12-27 2004-06-07 Kddi株式会社 音声認識システム
DE19804047C2 (de) * 1998-02-03 2000-03-16 Deutsche Telekom Mobil Verfahren und Einrichtung zur Erhöhung der Erkennungswahrscheinlichkeit von Spracherkennungssystemen
JP4304952B2 (ja) * 2002-10-07 2009-07-29 三菱電機株式会社 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3470321A (en) * 1965-11-22 1969-09-30 William C Dersch Jr Signal translating apparatus
US4454586A (en) * 1981-11-19 1984-06-12 At&T Bell Laboratories Method and apparatus for generating speech pattern templates

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6057898A (ja) * 1983-09-09 1985-04-03 電子計算機基本技術研究組合 音声登録方式
JPH0546557B2 (ja) * 1983-09-09 1993-07-14 Sharp Kk
JPH01285998A (ja) * 1988-05-13 1989-11-16 Sharp Corp 音声認識装置
JP2000259170A (ja) * 1999-02-10 2000-09-22 Internatl Business Mach Corp <Ibm> 音声認識システムにユーザを登録する方法および装置

Also Published As

Publication number Publication date
US4672668A (en) 1987-06-09

Similar Documents

Publication Publication Date Title
JPH11143346A (ja) 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JPS58178396A (ja) 音声認識用標準パタ−ン登録方式
JP3277579B2 (ja) 音声認識方法および装置
Shikano Text‐independent speaker recognition experiments using codebooks in vector quantization
Cooper et al. Grammatical control of a phonological rule: Palatalization.
Marković et al. Recognition of normal and whispered speech based on RASTA filtering and DTW algorithm
Zolnay Acoustic feature combination for speech recognition
JP3299170B2 (ja) 音声登録認識装置
Tohkura Speaker‐independent recognition of isolated digits using a weighted cepstral distance
Schneider et al. Use of word Pairs and context to achieve better automatic speech recognition results with foreign English speakers
JPS61180297A (ja) 話者照合装置
JPS6073595A (ja) 音声入力装置
JPH03149598A (ja) 音声認識装置
JPH02293900A (ja) 音声合成装置
JPS6136799A (ja) 音節音声入力方式
JP2578771B2 (ja) 音声認識装置
Dent Voice onset time of spontaneously spoken Spanish voiceless stops
JP2737122B2 (ja) 音声辞書作成装置
Hertz A versatile dictionary for speech synthesis by rule
JPS5953900A (ja) 音声認識方法
JPH0254560B2 (ja)
JP2001228890A (ja) 音声認識装置
JPS62233830A (ja) 音声処理装置
JPS60129798A (ja) 音声認識方式
Nartey Synthesizing an intelligible/h