JPS5844500A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS5844500A
JPS5844500A JP56144449A JP14444981A JPS5844500A JP S5844500 A JPS5844500 A JP S5844500A JP 56144449 A JP56144449 A JP 56144449A JP 14444981 A JP14444981 A JP 14444981A JP S5844500 A JPS5844500 A JP S5844500A
Authority
JP
Japan
Prior art keywords
order
autocorrelation
recognition
speech
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP56144449A
Other languages
English (en)
Other versions
JPS634200B2 (ja
Inventor
充宏 斗谷
岩橋 弘幸
西岡 芳樹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP56144449A priority Critical patent/JPS5844500A/ja
Priority to US06/416,165 priority patent/US4516215A/en
Priority to DE8282304782T priority patent/DE3275779D1/de
Priority to EP82304782A priority patent/EP0074822B1/en
Publication of JPS5844500A publication Critical patent/JPS5844500A/ja
Publication of JPS634200B2 publication Critical patent/JPS634200B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は短時間自己相関関数を特徴パラメータとする音
声認識方式に関し、特に予備選択方式に特徴を有する音
声認識方式に関する。
音声認識方式において、検出され特徴抽出の行なわれた
単語音声を、登録されている多数の単語の標準パターン
と比較し、DPマツチング法その他の識別方式により認
識することが行なわれる。
その際、多数の単語全てを識別対象として精度よく認識
しようとすると長時間を要することになるので、認識時
間の短縮化を因るためには高速の専用ハードウェアを必
要とし、あるいは認識時間の短かい簡単な識別方式を採
用したり認識語数を制限する必要がある。専用ハードウ
ェアの採用は音声認識装置を高価なものにし、簡単な識
別方式の採用は認識率を低下させ、更に認識語数の制限
は音声認識装置の用途を制限するなどの問題がある。
そこで、DPマツチング法等による認識の前に識別対象
数を制限する、所謂予備選択あるいは前照合が行なわれ
る。
予備選択としては幾つかの方式が知られている。
例えば、単語の長さ、頭部や尾部のスペクトルなどの特
徴パラメータを用いる方式(「単語音声汎用認識装置の
開発」の研究成果報告書く昭和55年3月発行)、第5
章参照)が報告されているが、この方式は複雑である上
に予備選択のための特徴パラメータを別途作成しなけれ
ばならないので、簡易型の音声認識装置には向かない。
また、他の予備選択として、特徴ベクトル時系列から等
間隔に10点程度抽出し、これから50次元程度0パダ
下、7゛クト″を構成し線Pてプリングによる照合で識
別対象数を20%に制限する方式(「大型プロジェクト
パターン情報処理システムの研究開発成果発表会論文集
」(昭和55年10月、日本産業技術振興協会発行)第
157〜165頁参照)が報告されているが、この方式
も簡易型の音声認識装置には向かない。
本発明は上記問題に鑑みてなされたものであって、簡易
な音声認識装置に用いることができるように改良された
予備選択方式を有する音声認識方式を提供するものであ
る。すなわち、本発明は、短時間自己−関関数を特徴パ
ラメータとして単語音声を認識する認識方式であり、そ
の予備選択を最終的認識で用いるデータの一部である短
時間自己相関係数の低次項(1〜3次程度)を用いて行
なう点に特徴を有するものである。
以下、一実施例を示す図面を参照しつつ本発明の詳細な
説明する。
マイクロフォン1から入力した音声信号は増幅器2番、
こより増幅された後、A/D変換器3によりデジタル信
号に変換され、その後自己相関回路4により自己相関関
数か形成される。この過程までは主としてハードウェア
により行なわれ、音声信号の特徴抽出がなされたことに
なる。
その後、音声区間判定5が行なわれ、時間軸正規化6が
行なわれて所定のフレーム数に伸縮された後、低次の自
己相関関数により標準パターン7との間に線形マツチン
グによる予備選択8が行なわれて識別対象が適当な数に
制限される。その後、予備選択された標準パターンとの
間でDP、マツチング法その他により精密な認識判定9
が行なわれ、認識結果が出力される。音声区間判定5か
ら認識判定9までは主としてソフトウェアにより行なわ
れる。
次に第1図の各過程をより詳細に説明する。
増幅器2では6dB10ctの周波数特性をもって増幅
した。これは声帯音源の周波数スペクトルは高周波数域
になる程エネルギーが低下する事実に鑑み、出来るだけ
エネルギーの基準を一定にするための補正である。
アナログ信号である音声信号からデジタル信号への変換
は、A/D変換器3により行なわれ、通常、音声認識に
おいては8〜24KHzでサンプリングされ、各サンプ
ル値は6〜12ビツトのデジタル信号で表現される。本
実施例ではサンプリング周波数を3KHzとし、デジタ
ル表現を8ビツトとした。
として演算する。ここでχ(n)はA/D変p!畢3か
ら出力されたサンプル値、mは自己相関関数の次数、N
は1フレー ムに含まれるサンプル点の数である。ψ(
0)はサンプノ、し値の自乗、即ち音声のパワーを表わ
し、ψ(1)は1次の自己相関関数、ψ(2)。
ψ(3)、・・・はそれぞれ2次、3次、・・・の自己
相関関数を表わす。音声認識では通常、24次程度以下
の自己相関関数が特徴パラメータとして用いられ、必要
とする次数はサンプリング周波数により変化するが、本
実施例では8次まで求めた。
自己相関関数ψ(m)の計算区間長、即ちフレーム幅は
、Nとサンプリング周波数により定まり、通常は8〜3
0m”’、に設定される。本実施例ではN=128とし
、サンプリング周波数が8KHzであるので、フレーム
幅は16rrLsecである。このように計算された0
次から8次までの自己相関関数はそれぞれ16ビツトの
デジタル値で表現される。このようにして計算される自
己相関関数ψ(m)は入力音声信号の大小により変動す
るので、この影響を除去するため自己相関関数ψ(m)
をψ(0)でとして求まる自己相関係数R(m)を用い
て以後の予備選択及び認識判定を行なった。
次に、音声区間の判定には種々の方式かあり、如何なる
方式を用いても目的を達成することができるが、本実施
例ではパワーψ(0)のみに基づいて単語の語頭、語尾
を検出8し音声区間を判定した。
語長は適当に設定し、例えばフレーム数で13〜96、
時間に換算すると0.2〜1.5秒に設定した。
以上の過程で判定された音声信号には13フレームから
96フレームまでの種々の長さのパターンが含まれる。
これらのパターンをそのま、まメモリーに記憶すると、
大きなメモリー容量を必要とするのみならず、非等長パ
ターン間のマツチング処理は複雑になるので、時間軸正
規化を行なう。
時間軸正規化とは、種々の長さのパターンを伸縮して適
当な一定の長さに統一することであり、伸縮方法には種
々のものが考えられ、如何なる方法でも目的を達成しう
るが、本実施例では線形伸縮により16フレームに正規
化した。
いま、音声と判定された信号のフレーム数がlであった
とし、その特徴ベクトルヲ1II(i)と表わす。
時間軸が正規化されて得られる信号の特徴ベクトルをb
 (r)と表わすと、b (r)とa(i)との関係を
次の如く設定する。
(1)正規化信号の第1フレーム帽1)はa(1)と(
2)元の音声信号の残りの(1−1)個のフレームを1
5個の区間に分け、各区間の先頭フレームの特徴ベクト
ルa(i)と次のフレームの特徴ベクトルa(1+1)
との平均を正規化信号のフレームの特徴ベクトルbここ
で、iとrの関係は とする。
ここで−例として、「東京」と発音された音声信号を時
間軸正規化する場合のフレームの伸縮例を第2図に示す
。「東京」の−声区間は640へ・・ζすなわち幅16
 m5ecのフレームでは40フレームであった。この
40フレームを上式により16フレーム圧縮すると、図
に斜線で示されるフレームが選択され、それらのフレー
ムの特徴ベクトルマ(i)、すなわち自己相関係数と次
のフレニムの特徴ベクトル?(1−)1 )の平均が1
6フレームからなる正規化音声信号の特徴ベクトルf(
r) (r = l〜16)である。
第3図に、このように時間軸が正規化された音声信号の
第1〜第16フレームの各フレームでの第1次から第8
次までの自己相関係数の変化を、「東京」と「新横浜」
の音声信号について示した。二予備選択において、本実
施例では上述のようにして得た入力音声信号の自己相関
係数から低次(。
1〜3次程度)の自己相関係数を扇いる。第4図に5種
類の正規化音声信号についての1次の自己 ゛相関係数
を時系列に、すなわちフレーム番号順に示した。
予備選択は、このような入力音声信号の低次の  −自
己相関係数と、登録されている音声信号の低次の自己相
関係数からなる標準パターンとのマツチングにより行な
った。すなわち、1次の自己相関 ′係数を用いた例に
ついて示すと、入力音声信号の1番目のフレームの自己
相関係数をb r (r )とし、K番目の標準パター
ンのr番目のフレームの自己相関係数をCx1(r)と
して、入力音声信号とに番へ 目の標準パターンとの距離DKを 1武 として求めた。このようにして得られた標準パターンの
数(例えば本実施例では32個)だけの距離りの中から
、小さいものから順に適当な数(本実施例では16個)
を選択した。
次に、予備選択された標準パターンの全てについて、入
力音声信号との認識判定を行なった。認識判定の手法と
しては種々の方法を用いることができるが、本実施例と
しては1・次から8次までの自己相関係数を全て用いて
、よく知られたDPマツチング法を用いた。
本実施例ではそれぞれ特徴ベクトルの正規化された時系
列として表現された入力音声信号Bと、標準パターンC
と(7)’DPマツチングを行なった。
ここで、 B = b(11b(21”’ b(i)“” b(I
FjICk = Ck(1) Ck(21−Ck(j)
 ・” Ck(IQと表現される。Ckはに番目の標準
パターンであることを意味する。
整合窓の条件として 1i−jl≦1 と設定して、入力音声信号Bと標準パターンCとの距離
の部分襦(i、j)を次のように定義する。
ここで、 であり、bm(りは入力音声信号Bのi番目のフレーム
のm次の自己相関係数、Ckm(j)はに番目の標準パ
ターンのj番目のフレームのm次の自己相関係数である
このようにして最小の部分和を与える経路を経−で得ら
れる距離g(16,16)は、入力音声信号Bとに番目
の標準パターンC1との距離に対応する。
予備選択された標準パターン全てについて、上記の如く
距離g (16,16)を求め、そのうちの最小値を与
えた標準パターンを入力音声信号Bに対以上詳述した如
く、本発明は最終的な認識で用いるために記憶されてい
るd己相関係数を予備選択に用いるものであるので、予
備選択のための特徴パラメータを新たに作成する必要が
なく、簡易型の音声認識装置を構成する上で有効な音声
認識方式である。
【図面の簡単な説明】
第1図は本発明の概略を示すブロック図、第2図は時間
軸正規化の例を示す図、第3図は自己相関係数の次数に
よる変化を示す図、第4図は1次の自己相関係数を示す
図である。 1・・・マイクロフォン、2・・・増幅器、3・・・A
/D変換器、4・・・自己相関回路、5・・・音声区間
判定、6・・・時間軸正規化、7・・・標準パターン、
8・・・予備選択、9・・・認識判定。 特許出願人 シャープ株式会社 代 理 人 弁理士 前出 葆外2名 第3IpH 第4図 フ■−人番号(*m)

Claims (1)

    【特許請求の範囲】
  1. (1)  入力音声信号の自己相関係数を作成し、音声
    区間を判定し、その音声区間め時間軸を正規化した後上
    記自己相関係数を特徴パラメータとして標準パターンと
    のマツチングにより認識判定を行なう単語音声の認識装
    置において、最終的認識判定の前に低次の自己相関係数
    による線形のマツチングにより予備選択を行なうことを
    特徴とする音声 。 認識方式。
JP56144449A 1981-09-11 1981-09-11 音声認識方式 Granted JPS5844500A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP56144449A JPS5844500A (ja) 1981-09-11 1981-09-11 音声認識方式
US06/416,165 US4516215A (en) 1981-09-11 1982-09-09 Recognition of speech or speech-like sounds
DE8282304782T DE3275779D1 (en) 1981-09-11 1982-09-10 Recognition of speech or speech-like sounds
EP82304782A EP0074822B1 (en) 1981-09-11 1982-09-10 Recognition of speech or speech-like sounds

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56144449A JPS5844500A (ja) 1981-09-11 1981-09-11 音声認識方式

Publications (2)

Publication Number Publication Date
JPS5844500A true JPS5844500A (ja) 1983-03-15
JPS634200B2 JPS634200B2 (ja) 1988-01-27

Family

ID=15362486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56144449A Granted JPS5844500A (ja) 1981-09-11 1981-09-11 音声認識方式

Country Status (4)

Country Link
US (1) US4516215A (ja)
EP (1) EP0074822B1 (ja)
JP (1) JPS5844500A (ja)
DE (1) DE3275779D1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01319099A (ja) * 1988-06-17 1989-12-25 Matsushita Electric Ind Co Ltd 音声認識装置
JPH03110599A (ja) * 1989-09-26 1991-05-10 Matsushita Electric Ind Co Ltd 音声認識方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58111989A (ja) * 1981-12-25 1983-07-04 シャープ株式会社 音声認識装置
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
JPS60181798A (ja) * 1984-02-28 1985-09-17 電子計算機基本技術研究組合 音声認識装置
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
DE3514286A1 (de) * 1985-04-19 1986-10-23 Siemens AG, 1000 Berlin und 8000 München System zur erkennung einzeln gesprochener woerter
JPS61252594A (ja) * 1985-05-01 1986-11-10 株式会社リコー 音声パタ−ン照合方式
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
JPH0638199B2 (ja) * 1985-09-02 1994-05-18 日本電気株式会社 音声認識装置
JPS62169199A (ja) * 1986-01-22 1987-07-25 株式会社デンソー 音声認識装置
US5027407A (en) * 1987-02-23 1991-06-25 Kabushiki Kaisha Toshiba Pattern recognition apparatus using a plurality of candidates
JP2815579B2 (ja) * 1987-03-10 1998-10-27 富士通株式会社 音声認識における単語候補削減装置
US5179624A (en) * 1988-09-07 1993-01-12 Hitachi, Ltd. Speech recognition apparatus using neural network and fuzzy logic
JP2764277B2 (ja) * 1988-09-07 1998-06-11 株式会社日立製作所 音声認識装置
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
KR910700582A (ko) * 1989-01-05 1991-03-15 에이취. 프라이드 로널드 음성 처리 장치 및 방법
US5146502A (en) * 1990-02-26 1992-09-08 Davis, Van Nortwick & Company Speech pattern correction device for deaf and voice-impaired
US5651030A (en) * 1991-05-06 1997-07-22 Motorola, Inc. Receiver with signal classifier
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6375467B1 (en) * 2000-05-22 2002-04-23 Sonia Grant Sound comprehending and recognizing system
KR101614756B1 (ko) * 2014-08-22 2016-04-27 현대자동차주식회사 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법
JP6677690B2 (ja) * 2017-10-02 2020-04-08 株式会社ナイガイ 襠付き靴下の編成方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
JPS5672499A (en) * 1979-11-19 1981-06-16 Hitachi Ltd Pretreatment for voice identifier
JPS56104399A (en) * 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01319099A (ja) * 1988-06-17 1989-12-25 Matsushita Electric Ind Co Ltd 音声認識装置
JPH03110599A (ja) * 1989-09-26 1991-05-10 Matsushita Electric Ind Co Ltd 音声認識方法

Also Published As

Publication number Publication date
EP0074822A1 (en) 1983-03-23
JPS634200B2 (ja) 1988-01-27
DE3275779D1 (en) 1987-04-23
US4516215A (en) 1985-05-07
EP0074822B1 (en) 1987-03-18

Similar Documents

Publication Publication Date Title
JPS5844500A (ja) 音声認識方式
US4918735A (en) Speech recognition apparatus for recognizing the category of an input speech pattern
US4720863A (en) Method and apparatus for text-independent speaker recognition
US5842162A (en) Method and recognizer for recognizing a sampled sound signal in noise
EP0077194B1 (en) Speech recognition system
JPS58145998A (ja) 音声過渡点検出方法
JPH04369698A (ja) 音声認識方式
JPS63213899A (ja) 話者照合方式
JPS61137199A (ja) 単語音声の認識方法
JPH0441357B2 (ja)
JPH0556520B2 (ja)
JPS625298A (ja) 音声認識装置
JP3002200B2 (ja) 音声認識
JPH0546558B2 (ja)
JPS58190998A (ja) 音声認識装置
JPS60262198A (ja) 子音区間検出装置
JPH0448400B2 (ja)
JPS63316097A (ja) 連続音声認識装置
JPS625299A (ja) 音声認識装置
JPS59170894A (ja) 音声区間の切り出し方式
JPS59114600A (ja) 話者識別方式
JPH02192335A (ja) 語頭検出方式
JPS59131997A (ja) 音声の有声・無声判定方法
JPS62172400A (ja) 音声認識装置
JPS6295598A (ja) 音声認識装置