JPS6057395A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS6057395A
JPS6057395A JP16554783A JP16554783A JPS6057395A JP S6057395 A JPS6057395 A JP S6057395A JP 16554783 A JP16554783 A JP 16554783A JP 16554783 A JP16554783 A JP 16554783A JP S6057395 A JPS6057395 A JP S6057395A
Authority
JP
Japan
Prior art keywords
word
dictionary
word dictionary
recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP16554783A
Other languages
English (en)
Other versions
JPH042198B2 (ja
Inventor
郁夫 井上
二矢田 勝行
藤井 諭
森井 秀司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP16554783A priority Critical patent/JPS6057395A/ja
Publication of JPS6057395A publication Critical patent/JPS6057395A/ja
Publication of JPH042198B2 publication Critical patent/JPH042198B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は人間の発声した音声に応じた動作を機械に行な
わせることを可能とする音声認識装置に関するものであ
る。
従来例の構成とその問題点 人間の声を認識する音声認識装置は、計算機やワードプ
ロセッサの入力、音声による品物の仕分は作業等のいろ
いろな分野に於て、円滑に作業を行なう為の有効な入力
手段として注目を集めている。
従来の単語音声認識装置では、単独発声された単語音声
をマイクロホンより入力し、音響分析を行なった後特徴
パラメータを抽出し、単語辞書として格納されている学
語標準パターンとの比較を行々い、確からしさの度合(
尤度)の最も高い単語を認識結果として出力していた。
しかしこの様な方法では認識対象語いを多くすると、辞
書中に類似した単語が含1れる割合が増えて来る結果、
認識率の急激な低下をまねく為、実用的なレベルの認識
率を確保するには認識対象語いを小数に限定するか、装
置自体に応答機能を持たせて誤りである場合には次に尤
度の高い単語を出力するか、あるいは複数の候補を出力
して選択させるといった方法をとらざるを得す、用途が
限定されたり、手間がかかるといった問題があった。
発明の目的 本発明は、従来の単語音声入力装置における前記の問題
点を解決し、多数語いが扱え、高い認識率を有しなおか
つオペレーションが簡単であるという特徴を有する、よ
り実用的な音声認識装置を実現することを目的とする。
発明の構成 本発明は上記目的を達成するためになされたもので、複
数個の単語辞書項目からなる単語辞書を少なくとも1個
有する単語辞書列をn列設け、1列目(i=1.・・・
・・−、n−1)の単語辞書列の単語辞書を構成する単
語辞書項目と(i+1)列目の単語辞書列内の単語辞書
との間に対応関係を有するように配された単語辞書群格
納部と、nヶの単語からなる音声を入力し、i番目の入
力単語の認識結果により前記単語辞書群格納部の(i+
1)列目の単語辞書列内の対応単語辞書を選択する単語
辞書選択部と、(i+1)番目の人力単語と前記選択さ
れた対応単語辞書とを比較しその確からしさの度合に基
づいて(i+1)番目の入力単語を認識する単語認識部
とを少なくとも有することを特徴とする音声認識装置を
提供するものである。
実施例の説明 我々が、多くの物の中からある特定の物を捜す場合、た
だ片端から捜すのでは非常に時間がかかってし捷う。こ
の様な場合、個々の物がそれぞれが持っている属性金基
に系統的に分類整理されていれば、ある特定の物のもつ
属性をより大きな分類から順に辿っていくことにより、
容易に捜し出すことが出来る。
単語音声認識装置に於ても、この様な方法で認識を行な
えればより効率的な認識が行なえるだけでなく、より確
実な認識結果を得ることが可能である。
大語いを扱う単語音声認識装置の場合、多くの単語の中
からある1つの単語をより正確に認識することを最大の
目的とするならば、前述の様な方法を用いることにより
これを実現することが可能である。例えば、日本の都市
名単語を認識対象とした場合、その都市の属する区や市
電に1つの都市名単語集団とし、それぞれの都市の属す
る市や区の名前を集めて市(区)名単語集団とし、同様
にしてそれぞれの区や市の属する都道府県名を集めて都
道府県名単語集団とするtree型の階層構造全作成し
ておき、−回の入力で例えば県名、市(区)名、都市名
の順に3語を連続して発声し、認識装置ではこの順序で
それぞれの階層に於ける認識候補を複数求めておき、そ
れぞれの階層の認識候補相互のtree上の位置関係と
、それぞれの単語に対する尤度を基に都市名の決定を行
なうことにより、認識率の大幅な低下を伴うことなくし
て大語いを対象とした単語の認識が可能となる。
tた、この様な方法を用いれば、発声は一度の入力で行
なえるので、質問応答を主体とした従来の方法の様なめ
んどうな手続きも不要である。
ここで、単語の認識に用いる尤度の値は以下の様にして
めることが出来る。
Ωを単語辞書、Dを辞書項目とすると、入力情報Xが与
えられた時の認識結果がは、入力情報Xが与えられた時
の辞書項目りの事後生起確率が最大となるDによって与
えられる。この関係は、Bayesの定理により DeQ P(x) と表わされる。Pa)は一定としてよ<、P(X)はD
に関らず共通であるから、結局 を満足するDをめればよく、その時のP(xlD)の値
が辞書項目に対する尤度となる。
前記説明で述べた様に、本発明は1回の入力で複数個の
単語を発声しておき、その第1語口で第1の属性(例え
ば県名)の中から認識し、第2語口で第1語口の認識結
果に代表される第2の属性(例えば市名)の中から認識
し、第3語間で第2語口の認識結果に代表される第3の
属性(例えば区名)の中から認識するという様に、階層
的に認識を行なってゆくものである。
以下に本実施例の詳細を図面を用いて説明する。
第1図は本実施例の認識に用いる単語辞書t reeの
構成の例を示す図である。第2図は、本実施例による単
゛語音声認識装置の構成の例を示す図である。第1図及
び第2図を参照しながら、都市名単語を対象として認識
を行なう場合を例にとり本実施例を説明する。
第1図に於いて、1〜6はそれぞれ単語辞書を表わし、
6は第1階層の単語辞書列、7は第2階層の単語辞書列
、8は第3階層の単語辞書列を表わす。各単語辞書は、
よシ上位の階層に於ける単語が示す属性を持つ単語名か
ら成る。認識されるべき都市名単語は第3階層の単語辞
書列8にあり、第2階層の単語辞書列7にはそれぞれの
都市が属する市(区)名から成る単語辞書が、さらに、
第1階層の単語辞書列6にはそれぞれの市(区)が属す
る都道府県名から成る単語辞書が入っている。
都市名単語の認識を行なう際、1回の入力で、その都市
が属する県名、市(区)名、その都市名の順に3語全区
切りながら発声し、それぞれの階層毎に入力単語と辞書
単語との間でマツチングを行ない、その結果得られた尤
度の高いものから順に認識候補とする。
先ず、最も単純な場合としてt reeの上の層から第
1認識の枝を順に辿り、認識都市名を出力するものとし
、都市名/KANDA(神田)/全認識すル為ニ、/T
OOKYOOTO(東京都)/CHIYODAKU(千
代田区) 7 KANDA (神田)/と1語ずつ区切
って発声する場合について説明する。
第2図に於て、初期状態では階層計数部13の値は1と
なっており、単語辞書選択部12では第1階層の単語辞
書列6の都道府県名辞書が選択される。音声入力部9か
ら第1語口が入力されると、単語認識部1oでは、単語
辞書選択部12で選択された都道府県名辞書が単語辞書
群格納部11から取り出され、その中の1語(例えば東
京都)が認識され、その結果が単語判定部14と単語辞
書選択部12へ送られる。この際、階層計数部の値は+
1されて、次の認識が第2階層の単語辞書列7に対する
ものであることを示す。単語選択部12では、第1語口
の認識結果と階層計数部13の値によって次に入力され
るべき単語の属する単語辞書が選択される。音声入力部
9から第2語口が入力されると、単語認識部1oでは、
単語辞書選択部 部12で選択された第2@層の単語辞書列7の区名辞書
が単語辞書群格納部11から取り出され、その中の1語
(例えば千代田区)が認識され、その結果が単語判定部
14と単語辞書選択部12に送られる。この際、階層計
数部13の値は更に+1されて、次の認識が第3階層の
単語辞書列8に対するものであることを示す。単語辞書
選択部12では、第2語口の認識結果と階層計数部10
の値によって次に入力されるべき単語の属する単語辞書
が選択される。音声入力部9に第3語間が入力されると
、単語認識部1oでは、単語辞書選択部12で選択され
た第3階層の単語辞書列8の都市名辞書が単語辞書格納
部11から取り出され、その中の1語(例えば神田)が
認識され、その結果が単語判定部14へ送られる。この
様にして全ての階層についての単語認識が終わると、単
語判定部14には/東京都7千代田区/神田/という認
識結果が得られ、これらの全であるいは一部が最終的な
認識結果として出力される。この場合、/KANDA/
が認識される為には、第1階層の単語辞書列で/TOO
KYOOTO/、第2階層の単語辞書列で/CHIYO
DAKU/、第3階層の単語辞書列で/KANDAZ力
玉それぞれ正しく認識されなければならない。しかし、
各階層に於ける単語辞書の辞書項目数は、全ての都市名
を1つの単語辞書とする従来の辞書項目数に比べて遥か
に少ないので、各階層に於ける単語認識率は非常に高く
なる為最終的な単語認識率であるそれらの積の値も高く
なる。
なお、本実施例のように各単語辞書の辞書項目数を限定
することにより誤認識の起きる割合を十分少なくする場
合には、単語判定部14は必らずしも必要でない。入力
音声が3単語で、単語辞書列が3層の場合で認識候補数
を1つに絞った時の単語認識フローチャートを第3図に
示す。
次に、各階層に於て、認識単語候補の数を1つに限定せ
ずに数番目の候補まで許すことにすれば、それらの中に
正解単語が含まれる確率は更に高まる。この場合、第2
図の例で第1語目の都道府県名単語を認識されるとき、
単語認識部10では、入力単語と都道府県名単語辞書の
辞書項目との尤度の高いものから例えば第3位までが認
識候補として認識され、その結果が単語判定部14及び
単語辞書選択部12に送られる。単語辞書選択部12で
は、第3位までの認識候補に対応する3つの市伝)名単
語辞書が選択される。次に1第2語目の市(区)名単語
が認識されるとき、単語認識部10では、3つのそれぞ
れの市(区)名単語辞書について、入力単語と辞書項目
との尤度の高いものから例えば第3位までが認識候補と
して単語判定部14及び単語辞書選択部12に送られる
。単語辞書選択部12では、それぞれの認識候補に対す
る劃9つの都市名単語辞書が選択される。最後に、第3
語目の都市名単語を認識されるとき、単語認識部10で
は、9つのそれぞれの都市名単語辞書について、入力単
語と辞書項目との尤度の最も高いものが認識候補として
単語判定部14に送られる。
この様にして全ての階層についての単語認識が終わると
、単語判定部14では、都道府県名、龍囚名、都市名と
連なる9通りの単語tree系列の組み合わせができる
。ここで、第1語目の入力に対する辞書項目の尤度を大
きいものから順にSi(を−1,2,3)とし、第2語
目の入力に対するi番目の辞書の辞書項目の尤度を大き
いものから順に8、(j=1.2.3)とし、第3語目
の入力に対するi番目の辞書の辞書項目の尤度が最大の
ものを5iJ1 とすると、単語判定部14での判定規
則は、例えば9通りの単語tree系列の各系列毎の尤
度和L L−31+S is +S i) 1 (’ ””’ 
1 + 2+ 3 : )=1 + 2 + 3 )あ
るいはそれぞれの辞書項目数によって重みづけられた尤
度和し。
Lω=cc+iS、+cc+1)S11+QlilI 
5ij1(1−1+ 2 + 3 + ]=142+ 
3)(ω1.ωij+ωij1は各階層に於ける辞書項
目数による重み)が最も大きくなる単語tree 系列
の全単語あるいはその中の都市名単語を認識結果とすれ
ばよい。この様に、各階層に於ける認識候補を複数にし
、各階層での尤度値から、単語tree系列の単位で認
識結果を決定する事により、上位の階層に於ける認識の
段階で正解単語に至るtreeの枝の脱落が起こるのを
防ぎ、更に認識率を向上させることができる。
入力音声が3単語、単語辞書列が3層構成で認識候補数
を複数許す場合の単語認識フローチャートを第4図に示
す。この場合認識候補数は第1番目の入力単語には一律
にm個、第2番目の入力単語には一律にn個と定めた場
合について示した。
本実施例において、例えば第1層から第3層までの単語
辞書列の各単語辞書がそれぞれ100単語から成り、特
別な認識傾向を持たない一般的なものである場合を仮定
すれば、不特定話者を対象とした100単語の認識率が
96.6%の単語音声認識装置では、1oo万単語につ
いて90チ以上の認識率を得ることが可能となる。また
、この時の階層構造化の為に新たに作成する単語辞書の
量は1.1%の増加にすぎず、十分実用化可能である。
また、辞書項目の標章パターンと入カバターンとのマツ
チング演算の回数は、各単語辞書の辞書項目数が全てn
で3層から成る場合、階層構造にして第1候補のみを選
ぶ場合と階層構造にしない場合との比はほぼ3n :n
3 となり本実施例を用いることにより演算時間を大幅
に削減することができる0 発明の効果 以上要するに本発明は、複数個の単語辞書項目からなる
単語辞書を少なくとも1個有する単語辞書列をn列設け
、i列目(i=1.・・・・・・、n−1)の単語辞書
列の単語辞書を構成する単語辞書項目と< i + 1
’>′−yす目の単語辞書列内の単語辞書との間に対応
関係を有するように配された単語辞書群格納部L、nヶ
の単語からなる音声を入力し、1番目の入力単語の認識
結果により前記単語辞書群格納部の(l+1)列目の単
語辞書列内の対応単語辞書を選択する単語辞書選択部と
、(i+1)番目の入力単語と前記選択された対応単語
辞書とを比較しその確からしさの度合に基づいて(i+
1)番目の入力単語を認識する単語認識部とを少なくと
も有することを特徴とする音声認識装置を提供するもの
で、数十から数百単語を1つの単語辞書として階層化を
行なう事により、新たに作成する辞書項目の数の増加を
数チ以下におさえ、2層の構成の場合は数千語から数万
語の単語が、また3層構成の場合は数万語から数百万語
の単語を高い認識率で認識することが可能となり、従来
、実用化にならなかった大語い単語音声認識装置が簡単
に実現でき、寸だ犬語いの場合、入カバターンと単語辞
書の標章パターンとのマツチングを全辞書項目に対して
行なわずに済む為演算時間が大幅に短縮される。
【図面の簡単な説明】
第1図は本発明の単語辞書tre’eの構成の例を示す
図、第2図は本発明の一実施例である単語音声認識装置
のブロック図、第3図及び第4図は本実施例のフローチ
ャートを示す四ζ°゛あj。 1〜6・・・・・・単語辞書、6・・・・・・第1階層
の単語辞書列、7・・・・・・第2階層の単語辞書列、
8・・・・・・第3階層の単語辞書列、9・・・・・・
音声入力部、10・・・・・・単語認識部、11・・・
・・・単語辞書群格納部、12・・・・単語辞書選択部
、13・・・・・・階層側敷部、14・・・・・・単語
判定部。

Claims (2)

    【特許請求の範囲】
  1. (1)複数個の単語辞書項目からなる単語辞書を少なく
    とも1個有する単語辞書列をn列設け、i列目(i=1
    .・・・・・・、n−1)の単語辞書列の単語辞書を構
    成する単語辞書項目と(i+1 )列目の単語辞書列内
    の単語辞書との間に対応関係を有するように配された単
    語辞書群格納部と、nヶの単語からなる音声を入力し、
    1番目の入力単語の認識結果により前記単語辞書群格納
    部の(i+1 )列目の単語辞書列内の対応単語辞書を
    選択する単語辞書選択部と、(i+1)番目の入力単語
    と前記選、択された対応単語辞書とを比較しその確から
    しさの度合に再づいて(i+1 )番目の入力単語を認
    識する単語認識部とを少なくとも有することを特徴とす
    る音声認識装置。
  2. (2)単語認識部の認識結果に順位づけをして複数個の
    認識結果の候補をめ、かかる候補それぞれに対応して単
    語辞書を選択するようにし、全入力音声に対する認識結
    果の候補群のなかから確からしさの度合に基づいて入力
    単語を認識することを特徴とする特許請求の範囲第1項
    記載の音声認識装置。
JP16554783A 1983-09-08 1983-09-08 音声認識方法 Granted JPS6057395A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16554783A JPS6057395A (ja) 1983-09-08 1983-09-08 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16554783A JPS6057395A (ja) 1983-09-08 1983-09-08 音声認識方法

Publications (2)

Publication Number Publication Date
JPS6057395A true JPS6057395A (ja) 1985-04-03
JPH042198B2 JPH042198B2 (ja) 1992-01-16

Family

ID=15814448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16554783A Granted JPS6057395A (ja) 1983-09-08 1983-09-08 音声認識方法

Country Status (1)

Country Link
JP (1) JPS6057395A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250585A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
JP2003527631A (ja) * 2000-03-15 2003-09-16 バイエリッシェ モートーレン ウエルケ アクチエンゲゼルシャフト 目的案内システム内に定義されている入力ダイアログを使って目的地を言語入力するための装置及び方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3530109B2 (ja) * 1999-05-31 2004-05-24 日本電信電話株式会社 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5629293A (en) * 1979-08-20 1981-03-24 Tokyo Shibaura Electric Co Voice indentifier

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5629293A (en) * 1979-08-20 1981-03-24 Tokyo Shibaura Electric Co Voice indentifier

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250585A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
JP2003527631A (ja) * 2000-03-15 2003-09-16 バイエリッシェ モートーレン ウエルケ アクチエンゲゼルシャフト 目的案内システム内に定義されている入力ダイアログを使って目的地を言語入力するための装置及び方法
JP4928701B2 (ja) * 2000-03-15 2012-05-09 バイエリッシェ モートーレン ウエルケ アクチエンゲゼルシャフト 目的案内システム内に定義されている入力ダイアログを使って目的地を言語入力するための方法

Also Published As

Publication number Publication date
JPH042198B2 (ja) 1992-01-16

Similar Documents

Publication Publication Date Title
US6618726B1 (en) Voice activated web browser
US8065293B2 (en) Self-compacting pattern indexer: storing, indexing and accessing information in a graph-like data structure
US7542966B2 (en) Method and system for retrieving documents with spoken queries
Vercoe Folk music classification using hidden Markov models
US6272455B1 (en) Method and apparatus for understanding natural language
JP5409931B2 (ja) 音声認識装置及びナビゲーション装置
US7945441B2 (en) Quantized feature index trajectory
JPH0675992A (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
WO2004049240A1 (en) Method and device for determining and outputting the similarity between two data strings
CN106294460A (zh) 一种基于字和词混合语言模型的汉语语音关键词检索方法
US20020133351A1 (en) System, method and computer program product for point-to-point voice-enabled driving directions
CN113807103A (zh) 基于人工智能的招聘方法、装置、设备及存储介质
Al-Kabi et al. Statistical classifier of the holy Quran verses (Fatiha and Yaseen chapters)
JPS6057395A (ja) 音声認識方法
Korpusik et al. Dialogue state tracking with convolutional semantic taggers
CN111429886B (zh) 一种语音识别方法及***
Shenhuang et al. Query by humming via multiscale transportation distance in random query occurrence context
JP3663012B2 (ja) 音声による入力装置
JP5201973B2 (ja) 音声検索装置
JP3913626B2 (ja) 言語モデル生成方法、その装置及びそのプログラム
KR101095864B1 (ko) 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법
US20020133353A1 (en) System, method and computer program product for a voice-enabled search engine for business locations, searchable by category or brand name
JPS63163496A (ja) 並列検索照合型認識システム
CN116579344B (zh) 一种案件主体抽取方法
Schuller et al. A hybrid music retrieval system using belief networks to integrate multimodal queries and contextual knowledge