JPH0555039B2 - - Google Patents

Info

Publication number
JPH0555039B2
JPH0555039B2 JP60250551A JP25055185A JPH0555039B2 JP H0555039 B2 JPH0555039 B2 JP H0555039B2 JP 60250551 A JP60250551 A JP 60250551A JP 25055185 A JP25055185 A JP 25055185A JP H0555039 B2 JPH0555039 B2 JP H0555039B2
Authority
JP
Japan
Prior art keywords
template
pronunciation
bias
templates
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60250551A
Other languages
English (en)
Other versions
JPS61120200A (ja
Inventor
Jakatsudaa Puryadaashan
Dadei Muura Hoshan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent NV
Original Assignee
Alcatel NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel NV filed Critical Alcatel NV
Publication of JPS61120200A publication Critical patent/JPS61120200A/ja
Publication of JPH0555039B2 publication Critical patent/JPH0555039B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Navigation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Selective Calling Equipment (AREA)

Description

【発明の詳細な説明】 [発明の技術分野] この発明は音声の認識装置に関するものであ
り、特に、任意の広さのシステムのバイアスに対
して補償され、登録期間中に発生された全ての情
報を含む基準テンプレートを使用するそのような
装置に関するものである。
[発明の技術的背景] 音声の電子的識別は多年に亙り多くの研究の目
標であつた。共通的な方法の一つには時間的に振
幅の変化する信号の電子的な結果である“音声印
刷”またはパターンの発生が含まれている。パタ
ーンは予め発生され蓄積されているワードパター
ンと比較される。そのような方法は多くの困難な
問題に遭遇した。すなわち、それは話す人に依存
し、および、或いは、種々のワードパターンを再
生し比較するために膨大なアナログ回路を必要と
する。
最近ではテンプレート整合と呼ばれるワード認
識に多くの努力が払われている。テンプレート整
合では任意の音声ワードの特徴を表わす2進数ア
レーが発生される。発音テンプレートと呼ばれる
これらのテンプレートは次いで基準テンプレート
の蓄積された辞書と比較され、すなわち評価され
る。通常基準テンプレートは、特定のワードまた
はワードリストが繰返される登録段で生成され、
所定のワードに対する結果的なテンプレートはそ
のワードの全ての繰返しに共通の特徴から導出さ
れる。全体の登録を通して認識された結果が一定
でないアレー位置は評価には使用されない。その
ような基準テンプレート発生に対する合理的な方
法においては、正確な比較のために基準テンプレ
ートのフオーマツトおよび内容が解析されている
発音テンプレートのフオーマツトおよび内容と同
一でなければならないと一般に信じられている。
例えば、通常の基準テンプレートは、登録中の
所定の繰返しにおいて、もしも特定のビツト位置
に対する2進値がその位置にたいする全ての以前
の2進値と同一であれば、更新された位置がその
2進値に割当てられるように形成される。しかし
ながら、もしも任意の繰返しにおいて、もしも、
そのビツト位置がその位置にたいする全ての以前
の2進値と異なつていれば、そのビツト位置は空
きになる。すなわち未知になる。それにもかかわ
らず、もしもビツト位置が登録の全繰返しにおい
て特定の値でなければ、登録中そのワードに対す
る音声信号から抽出された全情報より少ないもの
がワード認識プロセス中使用される。
通常の評価中、識別されるべきワードの音声信
号の抽出された特徴を表わす発音テンプレートは
辞書中の全ての基準テンプレートと比較される。
発音テンプレート中の各ビツト位置と基準テンプ
レート中の対応するビツト位置との比較後、評価
が基準テンプレートに対して行われる。発音テン
プレートは辞書中の各基準に対して評価される。
そのようにして行われた評価は次いで解析され、
評価された基準テンプレートが発音テンプレート
により表わされるワードの識別に充分高いものか
否かが決定される。しかしながら、上記の基準テ
ンプレートビツト維持技術に基づくと、各基準テ
ンプレートは未知の多数のビツト位置を含むこと
になる。さらに未知の数は基準テンプレート間で
変化する。結論として任意の与えられた基準テン
プレートと解析されるべき発音テンプレートとの
間の比較は不明瞭である。
通常のシステムの不明瞭性を生じる別の困難な
問題は、システムの広さのバイアスが登録中に存
在することである。このようなバイアスは、話さ
れたワードに対する発音テンプレートのビツト位
置または1ワードの多数倍が登録される2進値に
関係なく特定の2進値が割当てられた全ての基準
テンプレートのビツト位置に生じる。
さらに、いくつかの現在のテンプレートスコア
方法はスコアの計算のために可成り多くの乗算お
よび加算を必要とするようなアルゴリズムに基づ
いて評価を行なう。したがつて、可なり多くの計
算ステツプが必要なために発音されたワードの認
識が新しい高い速度マイクロプロセツサを使用し
てもなお遅いものである。これは演算用のマイク
ロプロセツサが行なう速度の遅い作業の中でも特
に乗算は最も遅い動作の一つであるから固有的な
ものである。
[発明が解決しようとする課題] 本発明の目的は、前記のようなシステムの不明
瞭性を減少させ、特にシステムのバイアスの広さ
の影響が補正された正確で高速の音声認識装置を
提供することである。
[課題解決のための手段] 本発明は、認識されるべき音声のスペクトルの
特徴を表わす2進値をそれぞれ蓄積された複数の
位置を有する発音テンプレートと、この発音テン
プレートの前記複数の位置に対応する複数の位置
を有する複数の基準テンプレートと、基準テンプ
レートと発音テンプレートとの間の相対的整合を
示す第1のスコアの基準テンプレートに対して設
定して発音テンプレートにより表わされる音声が
認識できるようにする手段とを具備し、基準テン
プレートにおける各位置には発音テンプレートの
前記対応する位置で発生する特定の2進値の確率
を表わす値が蓄積されている音声認識装置におい
て、発音テンプレートの複数の位置に対応する複
数の位置を有するバイアステンプレートを備え、
このバイアステンプレートの複数の各位置はいず
れかの発音テンプレートの対応する位置で発生す
る特定の2進値の確率を表わす値を蓄積してお
り、さらにバイアステンプレートと発音テンプレ
ートとの間の相対的整合を示す第2のスコアを設
定する手段を具備していることを特徴とする。本
発明では、発音テンプレートの特定の位置に蓄積
されている周波数対時間過程から導出された2進
値の発生の確率を基準テンプレートの対応する特
定の位置に蓄積しており、その整合により音声を
認識することによつて不明瞭性を低くすることが
できる。さらにバイアステンプレートが使用さ
れ、このバイアステンプテートにはいずれかの発
音テンプレートの対応する位置で発生する特定の
2進値の確率、例えばその特定の位置において全
ての発音テンプレートのいずれかのものが対応す
る位置で以前に発生した特定の2進値の全体数が
蓄積されている。このうなバイアステンプレート
の使用によつて登録中または使用中の個人差によ
る差異ならびに特定の装置に基づく差異は除去す
ることができる。
この発明のその他の目的および特徴は添附図面
を参照にした以下の説明により明らかになるであ
ろう。
[発明の実施例] 第1図のブロツク図に示された音声認識装置は
全体を10で示され、複数の基準テンプレートを生
成し蓄積する手段12、システムバイアステンプ
レートを生成し蓄積する手段14、発音テンプレ
ートにアクセスする手段16、および複数の蓄積
された基準テンプレートおよびシステムバイアス
テンプレートを変形する手段18を備えている。
さらに装置10は変形された基準テンプレートお
よびシステムバイアステンプレートを蓄積する手
段20、アクセスされた発音テンプレートに関す
る変形されたテンプレートのためのスコアを設定
する手段22およびスコアを受けるか拒否するか
するための手段24を備え、それによつてスコア
が受入れられたときそれに対応する基準テンプレ
ートがアクセルされた発音テンプレートにより表
わされる発音を表わす。
好ましい実施例では、複数の基準テンプレート
を生成し蓄積する手段12は、蓄積媒体26、シ
フトレジスタ28、出力32および第1および第
2の入力34,36を有する加算器30、特定の
基準テンプレートをアドレスする手段38および
シフトレジスタ28の対応する位置によつてアド
レスされた特定の基準テンプレートの特定の位置
を同時にアドレスする手段40を備えている。
システムバイアステンプレートを生成し蓄積す
る手段14は、蓄積媒体42、シフトレジスタ4
4、出力48と第1および第2の入力50,52
を有する加算器46、蓄積媒体42およびシフト
レジスタ44の両方の特定の位置を同時にアドレ
スする手段54を備えている。以下さらに詳細に
説明するようにテンプレートを生成し蓄積する手
段12および14は登録中は付勢され、認識中は
付勢されない。
発音テンプレートにアクセスする手段16は、
発音テンプレート形成装置58から出力された発
音テンプレートを受信するように構成されたシフ
トレジスタ56を備えている。シフトレジスタ5
6はスイツチング手段60によつて基準テンプレ
ート生成蓄積手段12およびシステムバイアステ
ンプレート生成蓄積手段14に接続される。装置
10と共に使用するように構成された発音テンプ
レート形成装置58については本出願人の別出願
に詳細に記載されている。
基準テンプテート生成蓄積手段12の蓄積媒体
26は少なくとも(テンプレート当りのビツト
数)×(蓄積されるべきテンプレート数)に等しい
容量を有する。例えば256バイトを有するテンプ
レートを使用し、例えば各テンプレートが一つの
話されたワードを表わしている200の異なつたテ
ンプレートを登録するには512キロバイトの容量
が必要である。アドレス手段38によつてアドレ
スされた基準テンプレートの蓄積媒体26の内容
はシフトレジスタ28に出力される。シフトレジ
スタ28はこの例では256、すなわち1基準テン
プレート分のバイトを含んでいる。シフトレジス
タ28の出力は加算器30へ例えばその第1の入
力34を介して接続されている。加算器30の第
2の入力36はスイツチング手段60を介して発
音シフトレジスタ56に接続されている。加算器
30の出力は各ワードに対してシフトレジスタ2
8中のその位置で発生した選択された2進値(例
えば2進値の1)プラス発音シフトレジスタ56
中にその値の発生の回数を表わしている。したが
つて加算器30の出力は各位置に対する選択され
た2進値の発生の更新された全体である。したが
つて、この装置によつて各蓄積された基準テンプ
レートは、各基準テンプレートに対する各位置に
対する選択された2進値の発生のランニング状態
の和を保持する。その結果として以下さらに詳細
に説明するように、発音テンプレート形成装置5
8によつて与えられた全てのデータは保持され
る。
バイアステンプレート生成蓄積手段14の蓄積
媒体42は少なくとも発音テンプレート中アドレ
ス可能な位置の数に等しい容量を有する。好まし
い実施例ではこの容量は256バイトである。バイ
アステンプレートの内容は登録中加算器56の第
1の入力50に接続されたシフトレジスタ44中
へ書込まれる。加算器56の第2の入力52はア
クセスされた発音テンプレートを有するシフトレ
ジスタ56中の対応する位置からのビツト情報を
受ける。それ故、加算器46の出力48は蓄積媒
体42に対する各位置のために選択された2進値
の連続的に更新された全体の発生を出力する。
例えば、任意所定の発音テンプレートに対し
て、そこにあるビツトは1または0、すなわち2
進の“高”または“低”である。しかしながらシ
フトレジスタ44の対応する位置における情報
は、関係する発音テンプレートまたは基準テンプ
レートの繰返し数に関係なくその位置に以前に発
生した選択された値の発生の全体の数を表わす。
その代わりに加算器56は各位置における2進0
の発生のみをカウントするように構成することも
できる。それにもかかわらず、以下さらに詳細に
後述するように、全登録を通して形成され、使用
された全ての発音テンプレートからの全ての情報
はバイアステンプレート蓄積媒体42中に保持さ
れ、未知の発音テンプレートの次のスコア中で使
用される。
実施例においては、未知のワードを表わす発音
テンプレートが識別されるべきであるとき、蓄積
媒体26および42の内容は手段18により変形
された後手段20に負荷される。本質的に複数の
基準テンプレートおよびシステムバイアステンプ
レートを変形する手段18は各位置に対して2進
1および2進0の位置における発生の数の対数値
を表わす1対の出力を与える。
特定の実施例では、手段18は1バイトづつの
ベースで蓄積媒体42からシステムバイアステン
プレートを受信するように構成された第1の対数
コンバータ62を備えている。さらに対数コンバ
ータ62は補数2進バイト対数形成装置64と並
列に接続されている。対数形成装置64は第2の
対数コンバータ68と直列に接続された減算手段
66を備えている。減算手段66は以下に詳細に
説明するように登録された発音テンプレートの全
体の数を与えられ、それから各位置における数が
1バイトづつのベースで減算される。すなわち、
もしも蓄積媒体42中の位置が2進1の発生を表
わすならば、減算手段66の出力はそれらの同じ
位置に対する2進0の発生数を表わしている。し
たがつて、第1および第2の対数コンバータ62
および68はそれぞれ登録中に設定されたそのビ
ツト位置に対する全てのデータの対数値を表わ
す。対数コンバータ62および68の出力はそれ
ぞれ蓄積手段20中の拡張された蓄積媒体70お
よび72中に蓄積される。
手段18はまた蓄積された各基準テンプレート
に対して基準テンプレート当りベースおよびバイ
トづつのベースの両者により蓄積媒体26から複
数の基準テンプレートを受信するように構成され
た同様の装置を備えている。特に第3の対数コン
バータ74が基準テンプレート補数対数形成装置
76と並列に接続されている。対数形成装置76
は直列に接続された減算手段78および第4の対
数コンバータ80を備えている。この実施例では
減算手段78に蓄積された被減数は特定の基準テ
ンプレートにより表わされるワードが登録された
回数である。したがつて、第3および第4の対数
コンバータ74および80の出力はそれぞれ登録
中に設定された各ワードの位置に対する全てのデ
ータの対数値を表わしている。第3および第4の
対数コンバータ74および80の出力はそれぞれ
蓄積手段20中に拡張された蓄積媒体82および
84中に蓄積される。
その結果、変形された複数の基準テンプレート
および変形されたシステムバイアステンプレート
の蓄積する手段20は256バイト、すなわち1テ
ンプレートアレイをそれぞれ有する蓄積媒体62
および64、および蓄積された各ワードに対する
256バイトアレイの補数対としてフオーマツトさ
れた複数の基準テンプレートを含む蓄積媒体74
および80を備えている。
発音テンプレートに関する変形されたテンプレ
ートのためのスコアを設定するための手段22
は、蓄積媒体70または72からの1バイトおよ
び各基準テンプレートに対する蓄積媒体82また
は84からの1バイトを選択するための手段8
6、システムバイアステンプレートおよび各基準
テンプレートに対する選択手段86からの全ての
バイトを加算する手段88、およびこの手段88
の加算値を蓄積する手段90を備えている。
実施例では、手段86は、所定の基準テンプレ
ートのために蓄積媒体82および84中に蓄積さ
れたデータを受けるようにそれぞれ構成された第
1および第2のシフトレジスタ92および94を
有している。手段86はさらに、システムバイア
ステンプレートバイト選択手段100および基準
バイアステンプレートバイト選択手段102を有
している。バイト選択手段100および102は
発音シフトレジスタ56中のその位置における対
応するビツトの2進値によつて与えられるビツト
に従つて相互に位置せしめられる。例えば、もし
もシフトレジスタ56中の特定のビツト位置の2
進値が2進の1であれば、シフトレジスタ92お
よび96が選択される。前述のように、シフトレ
ジスタ92および96はそこに2進1の発生の値
を有する蓄積媒体70および82に対応してい
る。反応に、もしもシフトレジスタ56中の2進
値0であれば、シフトレジスタ94および98が
選択される。
選択されたシフトレジスタ、すなわち92およ
び96、または94および98は加算手段88A
および88Bにより別々に加算され、それらはそ
れぞれ各256バイトすなわち各基準テンプレート
に対する選択されたシフトレジスタ92および9
6、または94および98の全ての値に対する単
一のランニング合計を保持している。以下にさら
に詳細に説明するように、各256バイトすなわち
各基準テンプレートが加算手段88Aおよび88
Bから累算された和は重みが付けられる。
システムバイアス加算器からの重みを付けられ
た加算値は第1のバツフア104に蓄積され、加
算器106によりワード蓄積媒体82および84
からの各重みを付けられた加算値から減算され
る。各基準テンプレートに対する加算器106の
出力は第2のバツフア108に蓄積される。第2
のバツフア108はそこに蓄積された最高の値を
選択し出力させる手段110を備えていることが
好ましい。第1および第2のバツフア104およ
び108からの出力はスコアを受信または拒否す
るための手段24に入力される。
実施例では、手段24は第1および第2の比較
器112および114および論理アンドゲート1
16を備えている。第1の比較器112はその入
力としてバツフア104からシステムバイアスス
コアを受け、そのスコアを予め選択せれた値、す
なわちしきい値と比較する。もしもバツフア10
4からの加算値がしきい値を超えたならば、後え
ば2進1がアンドゲート116の一方の入力に出
力される。第2の比較器114はその入力として
バツフア108中の最高の値を受け、それをそこ
に蓄積された予め選択された値、すなわちしきい
値と比較する。もしもバツフア108からの値が
きしい値を超えたならば、例えば2進1がアンド
ゲート116の他方の入力に出力される。もしも
アンドゲート116の両方の入力が2進1であれ
ば、その場合にのみ受信許容信号、すなわち特定
の2進値がアンドゲート116から出力される。
このようにして出力された信号は周知の技術によ
つて例えばコンピユータ内の予め選択された命令
を実行するような任意の目的に使用することがで
きる。
装置10はさらにビツトクロツク発生装置11
8を備え、それはデータ流の調整およびデータス
コアの同期を確保するために規則的な、予め選択
された周波数のパルスを出力する。ビツトクロツ
ク発生装置118の出力パルスは第1図では
BCLKとして示されている。図示のように登録中
の各シフトレジスタ28および44および認識中
の各シフトレジスタ56,92,94,96,9
8の付勢位置はBCLKによるポインターによつて
制御される。さらに、登録中の加算器手段88お
よび蓄積媒体26および42ならびに認識中の各
蓄積媒体70,72,82,84はBCLKによつ
てステツプされる。クロツク発生装置118から
のパルス数はカウンタ120によつて監視され、
このカウンタ120は256BCLKクロツクパルス、
すなわち1テンプレートが動作した後、出力信号
リセツトBを出力する。
リセツトB信号は蓄積媒体26,82、および
84によつて歌えられた基準テンプレートを制御
する。さらにリセツトB信号は、加算手段88に
対してそこに累積された加算値がそれ故に出力さ
れるように制御する。バイアステンプレートカウ
ンタ122は登録された発音テンプレートの全数
をカウントし、減算手段66中にその加算値を保
持する。基準テンプレートカウンタ124は特製
のワードが登録される回数のカウントを行なう。
基準テンプレートカウンタ124の出力は減算手
段78へ供給される。
登録中、256ビツトカウンタ120からの出力
はスイツチ手段126を介してプロンプタへ結合
され、訓練者に次のワードを挙げるように支持す
る。認識中、カウンタ120からの出力はシフト
レジスタ92,94,96,98およびビツト加
算手段88に結合される。
第2図には例示的に変形された対数スケール1
28が示されており、その対数スケール128は
対数コンバータでその出力を決定するために使用
されることが好ましい。最も注目すべきことは、
入力が0に等しければ出力は0に設定されること
である。もちろん、通常は0の対数値は負の無限
大に等しい。しかしながら、そのような値はこの
装置、或いはその内部で行われる計算においては
実際上何の意味もない。さらに本質的には検索表
である全対数コンバータがメモリの1バイトセグ
メント内にあることを確実にするためには出力の
最大は255に設定される。この対数表は、前述の
ように入力=0のとき出力が0に設定されること
以外は経験式出力=14+100×log(入力)を使用
して導出される。したがつて所望の拘束が与えら
え、通常の音声認識装置において通常被乗数であ
るそれらの値が今や合算される。
前述のように加算手段88からの合計のアレイ
加算値は重みを付けられることが好ましい。その
ための1装置では重み付けの機構は加算器130
AおよびBを備え、その1入力に定数、例えば連
想メモリ132AおよびBに蓄積された定数が供
給される。これらの定数は加算器130Aおよび
Bによつて加算手段88からの出力から減算され
る。システムバイアスの合算のために重み付けさ
れた値はlog(T)の256倍に等しい。一方基準テンプ
レート合算のための重み付けされた値はlog(N)の
256倍に等しい。
重み付けされた値は、実際上各ワードが登録さ
れる回数とは無関係に結果のスコアを可能にする
標準化定数である。その結果比較器112および
114に対して選択されたしきい値は登録回数に
無関係に一定である。しかし、この標準化に対し
て、スコアに使用されたしきい値は特定のワード
が登録される回数に応じて変化するように構成さ
れなければならないであろう。これはスコアを行
なう構成を複雑にし、残りのもの以上の全体のボ
キヤボラリの限定された部分を登録することを使
用者に止めさせる。そのような特定のワードの選
択された、増加された登録は例えば互いに類似し
た発音のワードを有する任意の言語の固有の性質
によるものであろう。
第3A図乃至第3C図を参照すると、この発明
の装置10と従来の音声認識システムとの主要な
相違の一つが発音テンプレート134および登録
されたテンプレート136および138に対する
フオーマツトによつて示されている。図示のよう
な発音テンプレート134は音声信号から抽出さ
れた特徴を表わす複数の2進値よりなる。しかし
ながら、登録されたテンプレート136および1
38はその各位置に登録中に任意の発音テンプレ
ート中の例えば2進1の発生全部の数を表わす値
を有している。したがつて、全ての発音テンプレ
ートからの全ての特徴は認識期間にスコアのため
に使用される。最後に、蓄積された発音フオーマ
ツト基準テンプレート中に残つているそれのビツ
トにあるよりも特定の2進ビツトの発生の実際の
確率が各発音テンプレートをスコアするために使
用される。そのような方法は明らかにテンプレー
ト整合過程の正確さを増加させる。実際にテンプ
レートスコアの正確さとはテンプレートスコアの
ための手段24が受信許容信号または拒否信号の
いずれかのみを出力するようにすることである。
これはさらに情報を要求するか、ワード繰返しを
要求するか、或いは使用者に対して質問されたワ
ードのスコアまたは認識のためには不充分な情報
であることを通告するかする従来の通常のシステ
ムと明白に相違している。
したがつて、この発明の装置10を使用するこ
とによつてテンプレート整合を使用して話された
ワードの探知および認識を行なうすぐれた方法が
提供される。第4図に示すように、その方法は最
初に、複数のワードを登録し、それに関する全て
の抽出された特徴を維持する過程を有している。
登録されたデータは前記のように対数スケールに
よつて拡張され、拡張されたメモリ手段中に蓄積
される。
認識中選択されたメモリからの出力は合算さ
れ、重みを付けられて話されたワードを拒否する
か受けるかを決定するスコアを生じる。
バツフア108に蓄積された情報はさらにスコ
アされる特定の基準テンプレートに関する位置情
報を含んでいることを理解すべきである。結論と
して、一度最高のスコアが設定されたならば、拡
張されたメモリ中の位置は知られ、アンドゲート
により発生された受信許容信号の正確に意図され
た結果を確かめるためにアクセスすることが可能
である。
別の実施例では、蓄積された登録されたテンプ
レートを変形する手段が拡張されたメモリと各シ
フトレジスタとの間に挿入されることができる。
しかしながら、これは実際の合算時間を増加させ
るから、変形手段は登録メモリと変形メモリの間
に位置させることが好ましい。
ここで説明した装置10は、実際には通常の
64kビツトダイナミツクRAMと関連した例えば
インテル社で製造販売されているiAPx8088マイ
クロプロセツサチツプ上に構成することができ
る。
この装置10は従来の装置と比較して種々の利
点を有している。まず、バイアステンプレートを
使用しているから、登録中または使用中の個人差
による差異および特定の装置による差異は消去さ
れる。さらに、発生された全てのデータは保持さ
れ、使用されるから、正確さは増大する。さら
に、全体のスコア過程は、全ての計算動作が乗算
ではなく加算であるために非常に速くなる。さら
に、基準テンプレートの内容はスコアされる発音
テンプレートのそれよりも著しく異なつている。
もつと詳しく説明すれば、発音テンプレート中の
データは2進であり、周波数対時間過程から導出
され、一方基準テンプテート中のデータはその特
定の位置における特定の2進値の発生の確率に基
づいている。
以上、この発明を実施例を参照にして説明して
来たが、特許請求の範囲に記載されたこの発明の
技術的範囲を逸脱することなく他の形態が採用で
きることは明白である。したがつて、この発明の
技術的範囲はその特許請求の範囲の記載によつて
のみ限定されるべきものである。
【図面の簡単な説明】
第1図は、この発明の原理を使用した音声認識
装置のブロツク図であり、第2図はこの発明で使
用するために変形された対数スケールの1例であ
り、第3A図乃至第3C図はこの発明に有用な
種々のテンプレートのフオーマツトであり、第4
図は、第1図に示した装置で使用される音声認識
方法のフロー図である。 12……複数の基準テンプレート生成および蓄
積手段、14……システムバイアステンプレート
生成および蓄積手段、16……発音テンプレート
アクセス手段、18……蓄積された基準テンプレ
ートおよびシステムバイアステンプレート変形手
段、20……変形された基準テンプレートおよび
システムバイアステンプレート蓄積手段、22…
…アクセスされた発音テンプレートに対する変形
されたテンプレートのためのスコアの設定手段、
24……スコアの受信容認および拒否手段。

Claims (1)

  1. 【特許請求の範囲】 1 認識されるべき音声のスペクトルの特徴を表
    わす2進値をそれぞれ蓄積された複数の位置を有
    する発音テンプレートと、 この発音テンプレートの前記複数の位置に対応
    する複数の位置を有する複数の基準テンプレート
    と、 基準テンプレートと発音テンプレートとの間の
    相対的整合を示す第1のスコアを基準テンプレー
    トに対して設定して発音テンプレートにより表わ
    される音声が認識できるようにする手段とを具備
    し、 基準テンプレートにおける各位置には発音テン
    プレートの対応する位置で発生する特定の2進値
    の確率を表わす値が蓄積されている音声認識装置
    において、 発音テンプレートの複数の位置に対応する複数
    の位置を有するバイアステンプレートを備え、こ
    のバイアステンプレートの複数の位置はそれぞれ
    いずれかの発音テンプレートの対応する位置で発
    生する特定の2進値の確率を表わす値を蓄積して
    おり、 さらに前記バイアステンプレートと前記発音テ
    ンプレートとの間の相対的整合を示す第2のスコ
    アを設定する手段を具備していることを特徴とす
    る音声認識装置。 2 前記第1のスコアを設定する手段は、基準テ
    ンプレートからの出力を合算する手段を備え、そ
    れら各出力は基準テンプレートの複数の位置の1
    つ対応し、そこに蓄積された値から決定される特
    許請求の範囲第1項記載の装置。 3 前記第2のスコアを設定する手段は、バイア
    ステンプレートからの出力を合算する手段を備
    え、それら各出力は前記バイアステンプレートの
    複数の位置の1つに対応し、そこに蓄積された値
    から決定される特許請求の範囲第1項または第2
    項記載の装置。 4 各基準テンプレートを第1の拡張された基準
    テンプレートおよび第2の拡張された基準テンプ
    レートに拡張する手段を備え、第1の拡張された
    基準テンプレートの値は発音テンプレートの対応
    する位置で発生する2進値1の確率を表わし、第
    2の拡張された基準テンプレートの値は発音テン
    プレートの対応する位置で発生する2進値0の確
    率を表わし、さらに、バイアステンプレートを第
    1の拡張されたバイアステンプレートおよび第2
    の拡張されたバイアステンプレートに拡張する手
    段を備え、第1の拡張されたバイアステンプレー
    トの値はいずれかの発音テンプレートの対応する
    位置で発生する2進値1の確率を表わし、第2の
    拡張されたバイアステンプレートの値はいずれか
    の発音テンプレートの対応する位置で発生する2
    進値0の確率を表わしている特許請求の範囲第1
    項乃至第3項のいずれか1項記載の装置。 5 前記第1のスコアを設定する手段は、各位置
    のスコアのために第1の拡張された基準テンプレ
    ート中の値と第2の拡張された基準テンプレート
    中の値のいずれかの値を選択する手段を備えてい
    る特許請求の範囲第4項記載の装置。 6 前記第2のスコアを設定する手段は、各位置
    のスコアのために第1の拡張されたバイアステン
    プレート中の値と第2の拡張されたバイアステン
    プレート中の値のいずれかの値を選択する手段を
    備えている特許請求の範囲第4項または第5項記
    載の装置。 7 前記拡張する手段は、複数の基準テンプレー
    ト中の値およびバイアステンプレート中の値を対
    数変換する手段を備え、それにより前記第1およ
    び第2のスコアを設定する手段は加算を行うだけ
    である特許請求の範囲第1項乃至第6項のいずれ
    か1項記載の装置。 8 前記第1のスコアの最高のものをしきい値と
    比較する手段と、その最高のスコアがしきい値を
    越えたときに認識容認信号を発生し、最高のスコ
    アがしきい値より小さいとき拒否信号を発生する
    手段を具備している特許請求の範囲第4項乃至第
    7項のいずれか1項記載の装置。 9 前記第2のスコアを第2のしきい値と比較す
    る手段と、その最高のスコアがしきい値を越え、
    かつ第2のスコアが第2のしきい値しきい値を越
    えたときにのみ認識容認信号を発生する手段とを
    具備している特許請求の範囲第1項記載の装置。 10 前記複数の基準テンプレートを登録する手
    段を備え、各基準テンプレートは複数の発音テン
    プレートから登録され、各複数の発音テンプレー
    トは同じ音声の異なつた例を表わすスペクトル特
    徴により構成されている特許請求の範囲第1項記
    載の装置。 11 バイアステンプレートを登録する手段を備
    え、バイアステンプレートは基準テンプレートの
    登録に使用された発音テンプレートの全てから登
    録される特許請求の範囲第10項記載の装置。
JP60250551A 1984-11-09 1985-11-08 音声認識装置 Granted JPS61120200A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/670,521 US4852171A (en) 1984-11-09 1984-11-09 Apparatus and method for speech recognition
US670,521 1984-11-09

Publications (2)

Publication Number Publication Date
JPS61120200A JPS61120200A (ja) 1986-06-07
JPH0555039B2 true JPH0555039B2 (ja) 1993-08-16

Family

ID=24690730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60250551A Granted JPS61120200A (ja) 1984-11-09 1985-11-08 音声認識装置

Country Status (8)

Country Link
US (1) US4852171A (ja)
EP (1) EP0181167B1 (ja)
JP (1) JPS61120200A (ja)
CN (1) CN85108165A (ja)
AT (1) ATE50658T1 (ja)
AU (1) AU584130B2 (ja)
DE (1) DE3576233D1 (ja)
MX (1) MX159615A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4656651A (en) * 1985-09-09 1987-04-07 Itt Corporation System for providing remote services
US5182765A (en) * 1985-11-26 1993-01-26 Kabushiki Kaisha Toshiba Speech recognition system with an accurate recognition function
WO1988001090A1 (en) * 1986-07-30 1988-02-11 Ricoh Company, Ltd. Voice recognition
GB8716194D0 (en) * 1987-07-09 1987-08-12 British Telecomm Speech recognition
JPH01167898A (ja) * 1987-12-04 1989-07-03 Internatl Business Mach Corp <Ibm> 音声認識装置
EP0559349B1 (en) * 1992-03-02 1999-01-07 AT&T Corp. Training method and apparatus for speech recognition
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5893902A (en) * 1996-02-15 1999-04-13 Intelidata Technologies Corp. Voice recognition bill payment system with speaker verification and confirmation
TW473704B (en) * 2000-08-30 2002-01-21 Ind Tech Res Inst Adaptive voice recognition method with noise compensation

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3727193A (en) * 1971-05-18 1973-04-10 School Of Electrical Eng Signal vector recognition system
US4319085A (en) * 1980-04-08 1982-03-09 Threshold Technology Inc. Speech recognition apparatus and method
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
US4388495A (en) * 1981-05-01 1983-06-14 Interstate Electronics Corporation Speech recognition microcomputer
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement

Also Published As

Publication number Publication date
EP0181167B1 (en) 1990-02-28
DE3576233D1 (de) 1990-04-05
CN85108165A (zh) 1986-09-24
JPS61120200A (ja) 1986-06-07
US4852171A (en) 1989-07-25
ATE50658T1 (de) 1990-03-15
EP0181167A2 (en) 1986-05-14
AU584130B2 (en) 1989-05-18
AU4908585A (en) 1986-05-15
EP0181167A3 (en) 1986-10-15
MX159615A (es) 1989-07-19

Similar Documents

Publication Publication Date Title
JP3114975B2 (ja) 音素推定を用いた音声認識回路
US5195167A (en) Apparatus and method of grouping utterances of a phoneme into context-dependent categories based on sound-similarity for automatic speech recognition
US5526466A (en) Speech recognition apparatus
US5073939A (en) Dynamic time warping (DTW) apparatus for use in speech recognition systems
US5018201A (en) Speech recognition dividing words into two portions for preliminary selection
EP0112717B1 (en) Continuous speech recognition apparatus
US4962535A (en) Voice recognition system
US20050209855A1 (en) Speech signal processing apparatus and method, and storage medium
JPS58134698A (ja) 音声認識方法および装置
GB2033637A (en) Method of verifying a speaker
JPS6131477B2 (ja)
US4388491A (en) Speech pitch period extraction apparatus
JPH0555039B2 (ja)
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
EP0042590B1 (en) Phoneme information extracting apparatus
US4790017A (en) Speech processing feature generation arrangement
EP0215573B1 (en) Apparatus and methods for speech recognition
CA1258917A (en) Apparatus and method for identifying spoken words
GB2179483A (en) Speech recognition
RU1775730C (ru) Способ автоматического распознавани речевых сигналов
JP2577891B2 (ja) 単語音声予備選択装置
JPH02272498A (ja) 音声認識方法
JPH03223799A (ja) 分離しているワード、特に非常に大きい語いの認識方法と装置
JPS62201498A (ja) 音声認識方法
KR20000059560A (ko) 피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법