JPH04362698A - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置

Info

Publication number
JPH04362698A
JPH04362698A JP3139091A JP13909191A JPH04362698A JP H04362698 A JPH04362698 A JP H04362698A JP 3139091 A JP3139091 A JP 3139091A JP 13909191 A JP13909191 A JP 13909191A JP H04362698 A JPH04362698 A JP H04362698A
Authority
JP
Japan
Prior art keywords
standard pattern
word
voice
speech
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3139091A
Other languages
English (en)
Inventor
Tetsuo Kosaka
哲夫 小坂
Junichi Tamura
純一 田村
Atsushi Sakurai
櫻井 穆
Hiroshi Matsuo
松尾 広
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP3139091A priority Critical patent/JPH04362698A/ja
Priority to US07/895,813 priority patent/US5369728A/en
Publication of JPH04362698A publication Critical patent/JPH04362698A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識方法及び装置、
特に標準パタンとして単語を用いる音声認識方法及び装
置に関するものである。
【0002】
【従来の技術】従来からある音声認識の手法の一つとし
て、音声区間の検出と単語の認識を同時に行うことので
きるワードスポッティング法が存在する。連続DPはこ
の方法を用いる一例である。
【0003】このワードスポッティング法とは、単語標
準パタンを認識対象である入力音声のパラメータに変換
したものに対して時系列上で1フレームずつシフトさせ
ながら標準パタンと入力音声パラメータの相違度を表す
距離を計算し、その距離が予め定めておいたあるしきい
値以下となった時に、入力音声のその位置にその標準パ
タンが表す単語が存在するものとして認識する方法であ
る。
【0004】
【発明が解決しようとしている課題】しかしながら、こ
のような従来のワードスポッティング法では、ある単語
が他の単語をその単語の一部として含んでしまう場合は
、原理的に認識できない。この場合というのは、例えば
、/roku/(六)が/ku/(九)を含み、/si
ci/(七)が/ici/(一)を含んでいる場合があ
る。
【0005】これを図6を用いて/roku/と/ku
/の例で説明すると、/ku/の標準パタンは/ku/
の入力音声だけでなく、/roku/の入力音声の/k
u/の部分ともマッチングしてしまい、誤認識となって
しまう。
【0006】
【課題を解決するための手段】上記課題を解決する為に
本発明は、音声の標準パタンを入力音声に対してシフト
させながら順次相違度を演算する音声認識方法において
、前記標準パタンは、単語を表わす標準パタンに無音パ
タンを付加したものを用いることを特徴とする音声認識
方法を提供する。
【0007】上記課題を解決する為に、本発明は好まし
くは前記入力音声と標準パタンの相違度を演算する際に
は、前記入力音声と前記標準パタンは音声パラメータに
変換されたものを用いる。
【0008】上記課題を解決する為に本発明は、音声の
標準パタンを格納する格納手段と、前記音声の標準パタ
ンを入力音声に対してシフトさせながら順次相違度を演
算する演算手段を有する音声認識装置において、前記格
納手段に格納される標準パタンは、単語を表わす標準パ
タンに無音パタンを付加したものを用いることを特徴と
する音声認識装置を提供する。
【0009】上記課題を解決する為に、本発明は好まし
くは前記演算手段は、音声パラメータに変換された入力
音声と、標準パタンを用いて演算を行う。
【0010】
【実施例】図1は本発明の実施例における構成を示すブ
ロック図である。1は入力音声の分析を行う音響分析部
、2は音声を含む区間を切り出す音声区間切り出し部、
3は登録した標準パタンを用いてワードスポッティング
を行うワードスポッティング部、4はパラメータ時系列
によって表現される単語標準パタン格納部、5は無音と
マッチングする為の無音標準パタン格納部、6は4の単
語標準パタンと5の無音標準パタンを合成する標準パタ
ン合成部、7は最終的な認識単語を決定する単語認識部
である。
【0011】図2は本発明の認識方法を実現するための
具体的な音声認識装置の構成ブロック図である。図2に
おいて8は認識対象となる音声を入力する入力部、9は
各種データを記憶するハードディスクまたはフロッピー
ディスクであるディスク、10は本装置を制御する制御
部で、図3に示すような制御プログラムを格納するRO
M(リード・オンリー・メモリ)を含むものである。こ
のROM中の制御プログラムに従って制御部は処理の判
断を行い制御する。11は図1に示した各部における各
種データを記憶するRAM(ランダム・アクセス・メモ
リ)、12は例えばCRTディスプレイ、例えばプリン
タから成る出力部である。なお図1に示した各部が、そ
れぞれCPU、RAM、ROMを有していてもよい。
【0012】次に図3を参照して本発明の処理動作を説
明する。上記構成において、入力部8から入力された音
声は音響分析部1でLPCケプストラムなど音声認識を
行うためのパラメータに分析される。また同時に入力音
声のパワーも求める(S1)。音響分析部1で求められ
たパワー時系列を音声区間切り出し部2で監視し、音声
のパワーがあらかじめ設定したしきい値を越えた点を、
音声が存在する可能性のある部分として認識し、その点
を含む一単語が含まれるに十分な区間を時系列中から音
声区間として切り出す(S2)。ただし、ここでは音声
区間の厳密な切り出しは行わない。音声区間切り出し部
2で求められたパラメータ系列に対し、標準パタン合成
部6で単語標準パタン格納部4に格納されている単語標
準パタンの前後に無音標準パタン格納部5の無音パタン
を合成して得た標準パタンを用いて、ワードスポッティ
ング部3でワードスポッティングを行う。標準パタン合
成部6において単語標準パタンに付加する無音標準パタ
ンのフレーム長は、前後に促音や無音破裂音による無音
部が来ることも考慮して、それよりも十分に長いフレー
ム長を付加する。例えば、マッチングに際して1/2〜
2の傾斜制御のDPを用いる場合は促音などによって付
加される無音区間の2倍以上のフレーム数を付加する。 これによって前後に促音や無声破裂音による無音区間が
生じても、誤って検出することが避けられる。以下に、
ワードスポッティング部3の動作の詳細を図3のフロー
チャートにより説明する。まず、S3で入力フレームご
とにスポッティングによる距離計算を行う。以下に連続
DPを用いた場合の計算式を示す。
【0013】
【外1】 但し、i:入力パラメータのiフレーム目j:標準パタ
ンのjフレーム目d(i,j):iフレームの入力ベク
トルとjフレームの標準パタン間の距離P(i,j):
点(i,j)における累積距離C(i,j):点(i,
j)における最適経路長J:標準パタン長
【0014】
S4では式(3)で示したDP値D(i)と、あらかじ
め設定したしきい値の大小比較を行い、D(i)がしき
い値以下となる場合はS6へ、それ以外の場合はS5へ
と進む。S5では切り出し区間の最終フレームまで計算
が行われたかチェックし、最終フレームまで計算が終わ
った場合はS8へ、そうでない場合はS3へ戻り次の入
力フレームの距離計算を行う。S6では図4に示すよう
に、しきい値以下となった区間でのDP値の最小値を与
える点を求める。次にS7ではS6で見つけた最小点か
ら図5に示すようにDPパスのバックトラックを行い、
図5においてDPパスの太線で示した部分のみの距離の
再計算を行い、これをその入力単語の距離としてバッフ
ァに一時記憶する。S8ではすべての登録された単語の
標準パタンとマッチングをしたかどうかチェックし、す
べて終了した場合はS9へ、まだ終了していない場合は
S3に戻り、次の単語との計算を開始する。図1のワー
ドスポッティング部3で以上のようにワードスポッティ
ングを行ったのち、単語認識部7で標準パタン合成部6
で合成された各単語のワードスポッティングして得た距
離を比較し、最小のものを認識単語として出力する(S
9)。S4でしきい値以下の単語が存在しない場合はリ
ジェクト(認識不能)とし、認識単語はなかったものと
する。
【0015】なお、ここでは、音声区間をパワーによっ
て大まかに切り出してから、その区間についてワードス
ポッティングを行う方法について述べたが、ワードスポ
ッティングにより、常時標準パタンを入力パタン上でシ
フトさせながら距離計算を行い、距離がしきい値以下に
なるか否かを監視し、しきい値以下になった場合認識処
理を行うという手法をとることにより、あらかじめ音声
区間の切り出しを行わずとも認識が可能である。
【0016】なお、ここでは単語標準パタンの前後に無
音標準パタンを付加して認識処理を行う例について述べ
たが、無音標準パタンの付加位置は前後両方に付加する
とは限らず、必要に応じて前のみや後のみとすることも
可能であることは言うまでもない。
【0017】
【発明の効果】以上説明したように、本発明によればワ
ードスポッティングを行う標準パタンの前後に無音を表
す標準パタンを付加して入力音声との距離計算を行い、
検出した単語の区間を無音パタンを除いた単語標準パタ
ンのみで再度距離計算することにより、独立した単語で
あり、標準パタンとして格納されている単語を、他の単
語の一部として誤って認識してしまうことを防ぐことが
可能となる。
【0018】また、標準パタンに無音パタンを付加して
認識した後に標準パタンのみでの距離計算を行う為、標
準パタンに付加する無音パタンのフレーム長に影響され
ない認識処理が可能となる。
【図面の簡単な説明】
【図1】本発明の説明図。
【図2】本発明による音声認識装置のブロック図。
【図3】本発明の制御フローチャート。
【図4】最小値点検出の説明図。
【図5】距離再計算の説明図。
【図6】連続DPによる誤認識の説明図。
【符号の説明】
1  音響分析部 2  音声区間切り出し部 3  ワードスポッティング部 4  単語標準パタンテーブル 5  無音標準パタンテーブル 6  標準パタン合成部 7  単語認識部 8  入力部 9  ディスク装置 10  制御部 11  RAM 12  出力部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】  音声の標準パタンを入力音声に対して
    シフトさせながら順次相違度を演算する音声認識方法に
    おいて、前記標準パタンは、単語を表わす標準パタンに
    無音パタンを付加したものを用いることを特徴とする音
    声認識方法。
  2. 【請求項2】  前記入力音声と標準パタンの相違度を
    演算する際には、前記入力音声と前記標準パタンは音声
    パラメータに変換されたものを用いることを特徴とする
    請求項1に記載の音声認識方法。
  3. 【請求項3】  音声の標準パタンを格納する格納手段
    と、前記音声の標準パタンを入力音声に対してシフトさ
    せながら順次相違度を演算する演算手段を有する音声認
    識装置において、前記格納手段に格納される標準パタン
    は、単語を表わす標準パタンに無音パタンを付加したも
    のを用いることを特徴とする音声認識装置。
  4. 【請求項4】  前記演算手段は、音声パラメータに変
    換された入力音声と、標準パタンを用いて演算を行うこ
    とを特徴とする請求項3に記載の音声認識装置。
JP3139091A 1991-06-11 1991-06-11 音声認識方法及び装置 Pending JPH04362698A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP3139091A JPH04362698A (ja) 1991-06-11 1991-06-11 音声認識方法及び装置
US07/895,813 US5369728A (en) 1991-06-11 1992-06-09 Method and apparatus for detecting words in input speech data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3139091A JPH04362698A (ja) 1991-06-11 1991-06-11 音声認識方法及び装置

Publications (1)

Publication Number Publication Date
JPH04362698A true JPH04362698A (ja) 1992-12-15

Family

ID=15237282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3139091A Pending JPH04362698A (ja) 1991-06-11 1991-06-11 音声認識方法及び装置

Country Status (2)

Country Link
US (1) US5369728A (ja)
JP (1) JPH04362698A (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5377255A (en) * 1992-07-14 1994-12-27 Pcs Microcell International Inc. RF repeaters for time division duplex cordless telephone systems
JP2897551B2 (ja) * 1992-10-12 1999-05-31 日本電気株式会社 音声復号化装置
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
JP3114468B2 (ja) * 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
US5764852A (en) * 1994-08-16 1998-06-09 International Business Machines Corporation Method and apparatus for speech recognition for distinguishing non-speech audio input events from speech audio input events
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
JP3397568B2 (ja) * 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JP2980026B2 (ja) * 1996-05-30 1999-11-22 日本電気株式会社 音声認識装置
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
JPH10254486A (ja) 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
JP3962445B2 (ja) 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
JP2000047696A (ja) 1998-07-29 2000-02-18 Canon Inc 情報処理方法及び装置、その記憶媒体
JP3728177B2 (ja) 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
CN1272698C (zh) 2000-10-11 2006-08-30 佳能株式会社 信息处理装置、信息处理方法
JP2002268681A (ja) * 2001-03-08 2002-09-20 Canon Inc 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
GB2447985B (en) 2007-03-30 2011-12-28 Wolfson Microelectronics Plc Pattern detection circuitry
GB2482444B (en) * 2007-03-30 2012-08-01 Wolfson Microelectronics Plc Pattern detection circuitry
US9646610B2 (en) 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9144028B2 (en) 2012-12-31 2015-09-22 Motorola Solutions, Inc. Method and apparatus for uplink power control in a wireless communication system

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
JPS58102298A (ja) * 1981-12-14 1983-06-17 キヤノン株式会社 電子機器
JPS5945583A (ja) * 1982-09-06 1984-03-14 Nec Corp パタンマッチング装置
JPS5997200A (ja) * 1982-11-26 1984-06-04 株式会社日立製作所 音声認識方式
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
US4712243A (en) * 1983-05-09 1987-12-08 Casio Computer Co., Ltd. Speech recognition apparatus
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
US4856067A (en) * 1986-08-21 1989-08-08 Oki Electric Industry Co., Ltd. Speech recognition system wherein the consonantal characteristics of input utterances are extracted

Also Published As

Publication number Publication date
US5369728A (en) 1994-11-29

Similar Documents

Publication Publication Date Title
JPH04362698A (ja) 音声認識方法及び装置
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US6553342B1 (en) Tone based speech recognition
US20100268535A1 (en) Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US7617106B2 (en) Error detection for speech to text transcription systems
JP2815579B2 (ja) 音声認識における単語候補削減装置
JPH10254475A (ja) 音声認識方法
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP2002091467A (ja) 音声認識システム
JP3129164B2 (ja) 音声認識方法
JP2002091468A (ja) 音声認識システム
JP3112037B2 (ja) 音声認識装置
JP2006010739A (ja) 音声認識装置
JPH0962286A (ja) 音声合成装置および音声合成方法
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP2664785B2 (ja) 音声認識装置
JP3841342B2 (ja) 音声認識装置および音声認識プログラム
JPH05197397A (ja) 音声認識方法及びその装置
JPH06110496A (ja) 音声合成器
JP2000194385A (ja) 音声認識処理装置
JPS60172100A (ja) 音声認識装置
JP2578771B2 (ja) 音声認識装置
JPH0289098A (ja) 音節パターン切り出し装置
EP1422691A1 (en) Method for adapting a speech recognition system
JPS63231397A (ja) 音声合成用パラメ−タの評価方式