JP2721341B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2721341B2
JP2721341B2 JP61230001A JP23000186A JP2721341B2 JP 2721341 B2 JP2721341 B2 JP 2721341B2 JP 61230001 A JP61230001 A JP 61230001A JP 23000186 A JP23000186 A JP 23000186A JP 2721341 B2 JP2721341 B2 JP 2721341B2
Authority
JP
Japan
Prior art keywords
word
dictionary
index
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61230001A
Other languages
English (en)
Other versions
JPS6385697A (ja
Inventor
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP61230001A priority Critical patent/JP2721341B2/ja
Publication of JPS6385697A publication Critical patent/JPS6385697A/ja
Application granted granted Critical
Publication of JP2721341B2 publication Critical patent/JP2721341B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声認識方法、特に入力された音声の音響の
特徴により音声を認識する音声認識方法に関するもので
ある。 [従来の技術] 従来この種の装置は、辞書に登録された項目が全て認
識対象であり、全登録を検索すると入力音声の認識処理
に時間がかかる欠点があつた。このため、大語彙を対象
とした場合には、現在のコンピユータの処理速度では、
音声の重要な要素である実時間性が保証できなくなると
いう問題がある。 そこで、入力された音声からまず大まかに特徴抽出を
行い辞書中の単語と大まかマツチング計算を行つて、良
い結果が出たものに関しては、再び詳細な特徴によるマ
ツチングを行う、階層マツチングによる計算量の減少に
よる高速化が行われていたが、この方法でも、すべての
単語に対して必ず一度はマツチングの計算を行う必要が
あり、更に音素認識手段を有する音声認識装置には組込
みにくい欠点があつた。 又、すべての単語に対してマッチングを行わなくても
すむように、予めある特徴に従って単語を分類し、該特
徴により認識候補を予備選択する技術が、特開昭61−13
7198号,特開昭61−149997号,特開昭61−67899号,特
開昭60−217399号等に開示されている。 [発明が解決しようとする課題] しかしながら、上記従来例の予備選択は、大分類(お
おまかな分類)により音声認識を高速化することのみを
意図しているので、単語の1つ1つが持つ特徴が考慮さ
れずにその共通性のみが優先してしまっている。例え
ば、特開昭61−137198号では、母音・促音列に基づいて
予測される単語のみが予備選択されて、その音節が比較
照合されるが、母音・促音の挿入や置換の可能性に関し
ては、挿入や置換をした母音・促音列に対応する候補を
付加して、予備選択の結果としている。又、特開昭61−
149997号では、母音大分類と子音大分類とから母子音記
号列候補を抽出しているが、抽出結果はそれぞれの母子
音から可能な置換例を網羅したものである。 このような選択候補の単純な併合では、1つ1つの単
語の音声パターンがどのように変化し易いか、あるいは
どのように異なって抽出されるか等が考慮されていない
ので、併合の範囲を拡大すると、本来は認識マッチング
の候補にする必要のない単語が増加して、高速化の妨げ
となる一方、併合の範囲を制限すると、予備選択の時点
で正しい単語が排除されてしまい、認識候補から漏れて
しまう危険性を含むことになる。 本発明は、上述の従来の欠点を除去し、入力された音
声がもつ音響の特徴により単語の予備選択を行って認識
の高速化を図ると共に、1つ1つの単語の音声パターン
がどのように変化し易いか、あるいはどのように異なっ
て抽出されるかを考慮した予備選択を行うことで、予備
選択に用いる特徴が異なって抽出されても、あるいは入
力される音声の個人的な違いがあっても、高速で認識率
の高い音声認識を可能とする音声認識方法を提供する。 [課題を解決するための手段] この課題を解決するために、本発明の音声認識方法
は、マッチング用の単語音声パターンを格納する音声辞
書と、入力された単語音声パターンの音響の特徴を表わ
す単語インデックスと、該単語インデックスと対応付け
られた前記音声辞書の単語音声パターンを示すポインタ
とを格納する索引辞書とを用意し、前記索引辞書では、
1つの単語音声パターンから抽出し得る複数の音響の特
徴をそれぞれ表わす複数の単語インデックスに、前記音
声辞書の当該単語音声パラメータを示すポインタが格納
され、入力された単語音声パターンから音響の特徴を抽
出し、前記索引辞書に前記抽出された音響の特徴を表わ
す単語インデックスに対応して記憶されているポインタ
に従って、該ポインタが示す前記音声辞書の単語音声パ
ターンと前記入力された単語音声パターンとをマッチン
グして、当該入力された単語音声パターンを認識するこ
とを特徴とする。 [実施例] 第1図に第1の実施例の音声認識装置の構成図を示
す。図中、1は音声入力部でマイク2とA/D変換器3で
構成され、入力音声をデイジタルに変換する。4は音響
処理部で周波数変換や、音響的パラメータを抽出すると
ころである。5は予備選択部で、予備選択用の特徴抽出
部6と予備選択用索引作成部7及び単語検索部8からな
つており、音響処理部4から出力された音響特徴量か
ら、予備選択用の特徴を抽出し、その特徴から索引を作
成する。単語検索部8は索引作成部7より出力される索
引と一致する索引を、索引辞書9より検索し、その索引
が有している辞書10中の単語へのポインタを、索引辞書
9から求め、その単語へのポインタのさす辞書10中の単
語を、候補単語として候補単語用メモリ11に出力する。
上述の方式により予備選択を行う。12は音素認識部で、
音響処理部4の出力を入力として音素の認識を行い、音
素の系列を出力する。13は単語マツチング部で、候補単
語用メモリ11上にある候補単語と音素認識部12の出力で
ある音素系列とのマツチングを行い、単語認識結果を出
力する。 第2図に予備選択に用いる音響特徴とその記号化の例
を示す。図中の無声摩擦(音素に直すとだいたい“s",
“c",“h"に当る)、有声摩擦(“z")、有声音の母
音,半母音,鼻韻(“z",“b",“d",“g",“r")、無声
音(“s",“c",“h",“p",“t",“k")、無音・鼻韻
(“m",“n"撥音の“N"…日本語の「ん」にあたる音
素)などは、その音素の前後の音韻によつてもその特徴
の出現のふるまいは異なるものの、比較的抽出しやすい
音響特徴量である。また、これらの音響特徴量に対して
時間的継続長を加えて、それぞれに記号をあたえた。 第3図(a)に表記に基づいた索引の作成法を示す。
この例では「わたし」“watasi"から“wa"は長い有声音
で[V]、“wa"と“ta"の間の短い無音に対して
[q]、“ta"に対して短い有声音の[v]、“si"に対
しては長い無声摩擦[S]と短い有声音の[v]として
表わし、単語“watasi"に対しては、[VqvSv]という予
備選択用の索引(以降INDEX)を作成する。このとき
に、“watasi"と発語されたとき、特徴抽出が異なる可
能性がある。この際のおこりそうな事象例えば“s"の間
が短いとか“si"の“i"の無声化などを考えて、予め[V
qvsv]や[VqvS]などのINDEXを作成する。“baketu"
「バケツ」の例も第3図(b)に示す。 第4図に第3図(b)のINDEXを用いた索引辞書9の
構成と辞書10の構成を示す。 第5図に第1の実施例の音声認識装置の動作フローチ
ヤートを示す。 ステツプS51で音声入力部1よりの、本例では「私」
の音声入力があると、ステツプS52で音響処理部4で音
響処理が行われて。音響処理の結果は、ステツプS53の
特徴抽出部6による特徴抽出と、ステツプS59の音素認
識部12による音素認識に向う。ステップS53において、
入力音声の無声摩擦、有声摩擦、有声音、無声音、無
音、Buzz、鼻音性、および継続時間等の特徴を抽出し、
ステップS54で、第2図のテーブルに従ってINDEXを作成
する。ここでは、「私(watasi)」の入力音声に対し
て、通常は第3図(a)に示したように「VqvSv」とい
うINDEXが作成されるところが、“s"の無声摩擦音が短
くて「Vqvsv」というINDEXが作成された例で説明する。
この場合、ステップS56では、INDEX「Vqvsv」を基に索
引辞書9が検索され、ステップS56−S57で、第4図にお
いてINDX「Vqvsv」→ポインタ10→“watasi"、INDEX「V
qvsv」→ポインタ20→“baketu"、…と順に認識候補を
予備選択して、候補単語「私」、「バケツ」、…を候補
単語メモリ11に記憶する。 一方、ステツプS59で音素認識された結果と候補単語
用メモリ11に記憶された認識候補とを、ステツプS58で
単語マツチング部13によりマツチングの判定をし、ステ
ツプS60で認識結果、本例では「私」を出力する。 尚、第1図のシステムの単語マツチングは音素記号に
基づいているため、音素認識部12を必要とする。しか
し、辞書10内の単語表現を音響レベルのパラメータで表
わし、単語マツチング部13で音響パラメータレベルのマ
ツチングをおこなえば、音素認識部12は不要となる。
又、第2図にある例に限らず、例えば破裂性(有声及び
無声に分けてもよい)や音声のエネルギー(パワー)の
大小などを記号化しても良い。 第6図に第2の実施例の音声認識装置の構成図を示
す。図中の61は音響入力部でマイク62とA/D変換器63で
構成され、入力音声は、デイジタルに変換される。64は
音響処理部で周波数変換や音響的パラメータを抽出する
ところである。65は予備選択部で、単語候補として決定
するための特徴ビツト系列を求めるための特徴抽出部66
と、特徴ビツト系列作成部67と、辞書69から引きだした
単語について、候補単語として更に詳細なマツチング計
算を必要とするか否かを決定する特徴ビツト系列比較部
68とからなつており、音響処理部64から出力された音響
特徴量から特徴ビツト系列用の特徴を抽出し、その特徴
から特徴ビツト系列を作成する。特徴ビツト系列比較部
68は、特徴ビツト系列作成部67の出力である特徴ビツト
系列と、辞書69内の単語にもたせてある特徴ビツト系列
とを比較し、入力音声側の特徴ビツト系列で“1"がたつ
ているもの全てについて、辞書69側の特徴ビツト系列で
も“1"が全て立つていれば、その特徴ビツト系列を有し
ている単語を候補単語と決め候補単語用メモリ70に送
る。71は音素認識部で音響処理部64の出力を入力として
音素認識を行い、音素系列を出力する。72は単語マツチ
ング部で候補単語用メモリ70上の単語と音素認識部71の
出力である音素系列とのマツチングを行い、単語認識結
果を出力する。 第7図では第6図の辞書69の構成法を例で示す。本例
は「弁当」という単語についての例である。この「弁
当」の音素記号“beNtou"に対する特徴ビツト系列は、H
eader(16ビツトである必要はない)と本例では16ビツ
トで表されたビツト系列(各音素記号に対して16ビツト
とする)とで表されている。ここで16ビツト1つ(音素
に対応する)をSEGとする。各SEGは16ビツトで表され、
その16ビツトは、0ビツト〜15ビツト各々第7図のよう
な意味を持たせる。例えば、0ビツト目は脱落でここに
1が立つものは、そのSEGが脱落する可能性を示してい
る。1ビツト目,2ビツト目は、その特徴の継続時間で長
いか短いかである。SEG1では両方に“1"が立つているの
は、長くなつたり短くなつたりする可能性があるためで
ある。つまり語頭であるために、“b"にBuzzがあつたり
なかつたりする可能性を考えている。同様に前のSEGの
脱落や前後のSEGの影響を考えて、SEG2の破裂性や鼻韻
性などを組込んでおく。各SEGの作成に関しては、各音
素についての音響的特徴及び前後の関係から自動的に音
素系列が決まれば作成できる。Headerの情報としては、
SEGの脱落を考えて全体としておこりうる最大SEG数と最
小SEG数、及び単語へのポインタを入れる。以上第7図
のような特徴ビツト系列をもつ辞書構造を作成する。 第8図に、入力音声から作成された特徴ビツト系列の
例を示す。本例は、“beNtou"と発生された時に予想さ
れる特徴ビツト系列の1例である。 第7図の辞書の場合と異なり、第8図では挿入の可能
性のビツトを考える他は表現法は同じである。但し、HE
ADER部における単語へのポインタは不要である。各SEG
決定区間において、得られた特徴に“1"ビツトを立て
る。 第9図は、入力も辞書側もそれぞれ挿入,脱落が仮定
されるので、表わされたSEG系列で表現可能なSEG系列を
示す。これらのSEG系列を用いて、詳細なマツチングを
するか否かを決定する。 第10図は詳細なマツチングを行うか否かを決定する部
分である特徴ビツト系列比較部68の動作説明図である。
入力音声側レジスタ104にまず入力された音声のSEG系列
を入れ、辞書側レジスタ101に入力側と長さの一致するS
EG系列を辞書69からとりだす。メモリ102,103にそれぞ
れのSEG系列を順々に入れていく。メモリ102,103の中の
ビツトを比較回路105で比較し、“1",“0"の出力106が
でる。比較回路105とその動作説明図を第11図(a),
(b)に示す。107の判定において“0"であれば、108又
は109で次の単語もしくは次のSEG系列を入力音声側又は
辞書側によびだし、くりかえし処理を行う。107で“1"
の判定であれば110で最終SEGかをCHECKする。最終SEGで
なければ、113で次のSEGに同じ処理を行う。上記のこと
を繰りかえし行い、比較回路105の出力が最終SEGまで全
て“1"であつた単語に関しては、111で候補単語として1
12で単語マツチング部72へ送り詳細なマツチングを行
う。 尚、辞書内容に音響的特徴量を用いる方法において
は、第6図における音素認識部71がないシステムについ
ても応用が可能である。 以上説明したように、音声認識装置に予備選択部と索
引辞書をもうけることにより、入力音声の音響特徴を有
する可能性のある単語を予備選択し、単語候補とするこ
とにより単語マツチング回数を減少させ、認識処理時間
の高速化を可能にした。 又、音声認識装置に詳細マツチング判定部を用いるこ
とにより、多くの無駄の計量を大はばに減少することが
でき、認識処理時間の短縮が可能である。 [発明の効果] 本発明により、入力された音声がもつ音響の特徴によ
り索引辞書で単語の予備選択を行って認識の高速化を図
ると共に、1つ1つの単語の音声パターンがどのように
変化し易いか、あるいはどのように異なって抽出される
かを考慮した索引辞書を使用して予備選択を行うこと
で、予備選択に用いる特徴が異なって抽出されても、あ
るいは入力される音声の個人的な違いがあっても、高速
で認識率の高い音声認識を可能とした音声認識方法を提
供できる。 すなわち、予備選択を行なう為の索引辞書において、
音響の特徴抽出における誤抽出等を考慮してポインタを
格納するので、無駄なマッチングを極力無くし、予備選
択の時点で正しい単語が漏れる可能性が激減し、高速で
ありながら高認識率を得られる音声認識が可能となる。
【図面の簡単な説明】 第1図は第1の実施例の音声認識装置の構成図、 第2図は第1の実施例の音響特徴の記号化例を示す図、 第3図(a),(b)は第1の実施例の索引の作成法を
示す図、 第4図は第1の実施例の索引辞書と辞書の構成図、 第5図は第1の実施例の音声認識装置の動作フローチヤ
ート、 第6図は第2の実施例の音声認識装置の構成図、 第7図は第2の実施例の単語辞書の表記法を示す図、 第8図は第2の実施例の入力音声の特徴表記例を示す
図、 第9図は第2の実施例におけるSEG系列を示す図、 第10図は第2の実施例の特徴ビツト系列比較部の処理説
明図、 第11図(a),(b)は第10図の回路Aの説明図であ
る。 図中、1…音声入力部、2…マイク、3…A/D変換部、
4…音響処理部、5…予備選択部、6…特徴抽出部、7
…索引作成部、8…単語検索部、9…索引辞書、10…辞
書、11…候補単語用メモリ、12…音素認識部、13…単語
マツチング部、14…認識結果出力部、61…音声入力部、
62…マイク、63…A/D変換部、64…音響処理部、65…予
備選択部、66…特徴抽出部、67…特徴ビツト系列作成
部、68…特徴ビツト系列比較部、69…辞書、70…候補単
語用メモリ、71…音素認識部、72…単語マツチング部、
73…認識結果出力部である。

Claims (1)

  1. (57)【特許請求の範囲】 1.マッチング用の単語音声パターンを格納する音声辞
    書と、入力された単語音声パターンの音響の特徴を表わ
    す単語インデックスと、該単語インデックスと対応付け
    られた前記音声辞書の単語音声パターンを示すポインタ
    とを格納する索引辞書とを用意し、 前記索引辞書では、1つの単語音声パターンから抽出し
    得る複数の音響の特徴をそれぞれ表わす複数の単語イン
    デックスに、前記音声辞書の当該単語音声パラメータを
    示すポインタが格納され、 入力された単語音声パターンから音響の特徴を抽出し、 前記索引辞書に前記抽出された音響の特徴を表わす単語
    インデックスに対応して記憶されているポインタに従っ
    て、該ポインタが示す前記音声辞書の単語音声パターン
    と前記入力された単語音声パターンとをマッチングし
    て、当該入力された単語音声パターンを認識することを
    特徴とする音声認識方法。
JP61230001A 1986-09-30 1986-09-30 音声認識方法 Expired - Lifetime JP2721341B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61230001A JP2721341B2 (ja) 1986-09-30 1986-09-30 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61230001A JP2721341B2 (ja) 1986-09-30 1986-09-30 音声認識方法

Publications (2)

Publication Number Publication Date
JPS6385697A JPS6385697A (ja) 1988-04-16
JP2721341B2 true JP2721341B2 (ja) 1998-03-04

Family

ID=16901044

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61230001A Expired - Lifetime JP2721341B2 (ja) 1986-09-30 1986-09-30 音声認識方法

Country Status (1)

Country Link
JP (1) JP2721341B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60217399A (ja) * 1984-04-13 1985-10-30 株式会社リコー 音声認識方式
JPS6167899A (ja) * 1984-09-12 1986-04-08 株式会社リコー 音声認識装置
JPH067359B2 (ja) * 1984-12-07 1994-01-26 松下電器産業株式会社 音声認識装置
JPS61149997A (ja) * 1984-12-25 1986-07-08 松下電器産業株式会社 音声認識装置

Also Published As

Publication number Publication date
JPS6385697A (ja) 1988-04-16

Similar Documents

Publication Publication Date Title
US5949961A (en) Word syllabification in speech synthesis system
KR900009170B1 (ko) 규칙합성형 음성합성시스템
KR100769033B1 (ko) 스피치 합성 방법
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
EP0282272B1 (en) Voice recognition system
EP0833304A2 (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
US7069216B2 (en) Corpus-based prosody translation system
US7054814B2 (en) Method and apparatus of selecting segments for speech synthesis by way of speech segment recognition
US10803858B2 (en) Speech recognition apparatus, speech recognition method, and computer program product
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
JP2016102947A (ja) 生成装置、認識装置、生成方法およびプログラム
US20110238420A1 (en) Method and apparatus for editing speech, and method for synthesizing speech
JPS6383799A (ja) 連続音声認識方式
Conkie et al. Prosody recognition from speech utterances using acoustic and linguistic based models of prosodic events
KR100930714B1 (ko) 음성인식 장치 및 방법
JPH0250198A (ja) 音声認識システム
JPS61219099A (ja) 音声認識装置
JP2721341B2 (ja) 音声認識方法
KR100811226B1 (ko) 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템
JP2753255B2 (ja) 音声による対話型情報検索装置
JPH0962286A (ja) 音声合成装置および音声合成方法
JPH11338498A (ja) 音声合成装置
JP3503862B2 (ja) 音声認識方法及び音声認識プログラムを格納した記録媒体
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
JP2003308084A (ja) 音声合成方法および音声合成装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term