JPH01177600A - 音声認識誤り訂正装置 - Google Patents

音声認識誤り訂正装置

Info

Publication number
JPH01177600A
JPH01177600A JP63001488A JP148888A JPH01177600A JP H01177600 A JPH01177600 A JP H01177600A JP 63001488 A JP63001488 A JP 63001488A JP 148888 A JP148888 A JP 148888A JP H01177600 A JPH01177600 A JP H01177600A
Authority
JP
Japan
Prior art keywords
symbol
output
section
input
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63001488A
Other languages
English (en)
Other versions
JPH0580000B2 (ja
Inventor
Kenichi Iso
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63001488A priority Critical patent/JPH01177600A/ja
Publication of JPH01177600A publication Critical patent/JPH01177600A/ja
Publication of JPH0580000B2 publication Critical patent/JPH0580000B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識誤り訂正装置に関し1%に音声認識装
置において嘗祐認誠結釆として得られる誤シを含むシン
ボルの時系列(たとえば音素認識の結果書られる音素シ
ンボル列や単語認識の結果書られる単語シンボル列等)
を、時系列内の前後のコンテキストを考慮して修正する
音声認識誤り訂正装置の改良に関する。
〔従来の技術〕
時系列内の前後のコンテキストを考慮して誤りを訂正す
る方法として1前後のシンボル列が確定した場合の中央
のシンボルの出現確率(条件付き確率)を認識対象のデ
ータから算出してテーブル化し、誤りを含む時系列が与
えられるとテーブル化された条件付き確率を用いて、事
後確率が最大になるようにシンボル列を曹き換えて修正
する方法がある。たとえば1前後3シンボルを考慮して
訂正を行う場合には条件付き確率Pは次のように表され
る。
(式1)  P(solslszsss4ssSssy
)ここでsiはi番目のシンボルを表し、Pはシンボル
Soを34に誤る確率を表している。中央のシンボルS
4に対する訂正結果は(SsSzSsSaSsうなS。
とじて決められる。即ち、訂正結果S。は△ (式2 )  S、 = argmax [P (so
 l 51S2S3O 3a 5586’?)) で与えられる。
〔発明が解決しようとする問題点〕
しかし上記の方法では、考慮に入れる前後のコンテキス
トを広げると条件付き確率のテーフ″ルのサイズが指数
的に増大してしまい、実用的ではない。即ち、考慮にい
れるコンテキストの長さをり。
シンボルの種類をMとする条件付き確率の定義式(式l
)からも知られるようにテーブルのサイズは 〜O(M  ) (ただし 〜0()はサイズのオーダーを示す)となる
。また事後確率の最大化の為の最適化計算の計算量も無
視できなくなる。更に前後のコンテキストに多くの誤り
が含まれる場合には安定な誤シ訂正が困難になる。
本発明の目的は、上記のように条件付き確率のテーフ゛
ルの記憶容量が膨大になシ実現が困難になへ4− るのを回避し、更に音響認識部の認識結果を用いて誤り
訂正の教師付き学習を行なう事によシ音響認識部の認識
誤りの傾向に適応した誤り訂正を実現し、また誤り訂正
時には最適化計算は不要であるので計算量の大幅な削減
を可能にし、加えて訂正結果を用いて入力シンボル列を
順次訂正しておくことによって誤シの少ない前後関係を
用いて安定な誤り訂正を行うことを可能にするような認
識誤り訂正装置を提供することにある。
本発明による認識誤り訂正装置を音響認識部の後処理部
として用いれば、実質的に音響認識部の認識性能を向上
させたのと同じ効果が得られる。
〔問題点を解決するための手段〕
本発明による音声認識誤り訂正装置は、音声認識に於て
、認識の結果として得られるシンボルの時系列に含まれ
る認識誤りを修正するのに際して。
前記時系列を記憶する入力バッファ部と、前記入力バッ
ファ部に記憶されているシンボルの時系列の先頭から順
次始点を1シンボル分づつずらして固定長の該シンホル
列を切り出す入力窓部と、前V5− 記入力窓部の出力として得られる固定長の該シンボル列
を入力としてその中央のシンボルに対する正解を出力す
るようにあらかじめ誤りを含むシンボル列を用いて教師
付きの学習を行なった逆伝播ネットワーク・モデル部と
、前記逆伝播ネットワーク・モデル部がシンボルを出力
した時点で入力バッファ部の対応するシンボルを修正さ
れたシンボルに書き換える誓き換え部と、続いて前記入
力バッファ部から同定長の該シンボル列を切り出す入力
窓部の始点を1シンボル分シフトして前記逆伝播ネット
ワークeモデル部に次のシンボルの修正動作を行わせる
第一制御部と、前記逆伝播ネットワーク・モデル部が出
力するシンボル列を記憶する出力バッファ部と、前記入
力バッファ部のシンボル列の終端のシンボルが修正され
たことを検出した時点で前記出力バッファ部の内容を前
記入力バッファ部に書き戻し、再度前記修正動作を繰り
返させる第二制御部と、一定回数前記修正動作を繰り返
した時点で出力バッファ部の内容を修正結果として出力
する修正結果出力部とを備えて構−一ら = 成される。
〔作用〕
本発明の基本的な原理は、音声認識に於て、音響認識結
果として得られる誤認識を含むシンボルの時系列をあら
かじめ教師付きの学習を行なった逆伝播ネットワーク・
モデルを用いて修正しようとするものである。以下に本
発明の原理を詳細に説明する。
入力音声を認識した場合に音響認識部の出力として得ら
れるシンボル列は、現状では不可避な音響認識部の認識
誤りによって、音響認識部の誤り傾向を反映した幾つか
の誤りを含んでいる。本発明ではこの誤りを含むシンボ
ルの時系列をその前後のコンテキストを考慮して修正し
、実質的には音響認識部の認識性能を向上させようとす
るものである。
訂正には連想記憶やパターン認識のモデルとして考案さ
れた逆伝播ネットワーク・モデルを利用する。このモデ
ルの詳細については、[欧文誌コンプレックス・システ
ムズ%198IIEg1号145−168頁J (’P
arallel Networks thatLear
n  to Pronounce English T
ext’、T、J。
Sejnowski h C,R,Rosenberg
、Complex Systems。
Vol、1(1987)145−168)が詳り、い。
モデルは一般に第2図のように3種類の層から階層的に
構成され、それぞれ入カニニット層、隠れユニット層、
出力ユニ、ト層と呼ばれている。
各層にはユニットと呼ばれる処理単位が配置され。
各ユニットは入力層に近い側に隣接する層のユニットか
らの入力を受けて、隣接する出力層に近い側の層のユニ
ットへ出力を出す。各ユニットの入・出力の応答関係は
次のように与えられる。
(式4)  y”=f(x寸)) (式5 )  f(x)= (1+e−”)−’ここで
Xはユニットへの入力、yはユニットの出力、θはユニ
ットの持つ閾値、上付き添え字は入力層からの階層を表
わしくn==l、・・・・・・、N)。
下付き添え字は層内のユニットを表わす番号であ第n層
のユニットjへの結合を表わす荷重、f(x)は(式5
)に示すように各ユニ、トに共通の非線形飽和型の応答
関数である。結局、各ユニットは隣接する上位層のユニ
ットの出力の荷重和とあらかじめ定められた閾値との差
を入力として一程の閾値論理によってその出力を決定す
る。
このモデルの入力層にデータが与えられると。
その情報(データ)II′i隣接する下位層で順次処理
されながら出力層まで伝播して行く。そしてこの出力層
のユニットの出力が与えられた入力データに対するモデ
ルの推論結果となるのである。
本発明では入力層にibを含むシンボル列から切り出し
た固定長のシンボル列を提示したときへ出力層に入力さ
れた固定長のシンボル列の中央のシンボルに対する誤り
訂正の結果(推論結果)が出力されるようなモデルを構
成する。
次にモデルが望ましい推論動作を行なうようにユニ、ト
間の結合を定める学習法(逆伝播学習)壕な入力音声に
対する実際の音響認識部の出力である誤りを含むシンボ
ル列から切り出した固定長のシンボル列か、あるいはシ
ンボル間のflaすM向を仮定して、誤りのないシンボ
ル列に確率的に誤りを付加した疑似データである。これ
らのデータを入力層に提示し、出力層には中央のシンボ
ルに対する正解を提示して逆伝播学習を繰り返し行なう
。逆伝播法では入力されたデータに対する望ましい推論
結果(出力データ)を教師信号として与えて、モデルの
推論結果と教師信号の差(誤差)を小さくする方向に繰
り返しユニット間結合を修正する。実際には次式で定義
される出力層(第N層)に於けるモデルの出力yiと与
えられた入力に対する望ましい出力(答え)yIとから
定まる誤差関数を最小化するようなユニット間結合を見
い出すことに対応する。
(式6 )  n= (1/2)ぞ(yマーy、 )2
この関数はy(N)を通じてあらゆるユニット間結合に
依存しているので、最小化はEを評価関数とし一1〇− て行なえばよい。結果として得られる逆伝播学習のアル
ゴリズムに関しては前記の文献に詳しい。
学習の終了したモデルを用いて訂正を行なう場合には2
入力音声に対する音響認識部の出力であるシンボル列か
ら1シンボルづつ始点をシフトして逐次的に固定長のシ
ンボル列を切り出して逆伝播ネットワーク・モデルに入
力する。モデルが入力された(支)足長シンボル列の中
央のシンボルに対する修正結果を出力すると、そのシン
ボルで入力シンボル時系列の対応するシンボルを書き換
える。
このことVCよってモデルの入カニニット層に提示され
る固定長のシンボル列の前半部は常にそれ以前に訂正を
加えられたよシ確からしいシンボルから構成されること
になるので、モデルによる誤シ訂正がよ多安定に行われ
ることになる。
このようにしてモデルによって修正されたシンボル列に
も修正しきれなかった誤シが残っている可能性があるの
で、その残された誤シを修正するために一度モデルによ
って修正されたシンボル列全体を再び入力としてモデル
に与えて誤り訂正を行わせる。この過程を繰り返すこと
によって1次第に誤りの少ないシンボル列が得られるよ
うになる。
〔実施例〕
第1図は本発明を実現した装置の一実施例を示したプロ
、り図である。人カバ、ファ部1は音響認識結果である
シンボル列を格納し、入力窓部2は入力バッファ部1か
ら1シンボルづつ始点をシフトして順次固定長のシンボ
ル列を切り出して逆伝播ネットワーク・モデル部3が入
力に対する推論結果を出力する毎に、その出力シンボル
で入力バッファ部の対応するシンボルを書き換える。出
カバッ7ア部4は逆伝播ネットワーク・モデル部3の出
力を記憶し、第一制御部6は逆伝播ネットの修正動作を
行わせる。第二制御部7は入力バッファ部1の終端のシ
ンボルまで訂正されたことを検出すると出力バラフッ部
4の記憶内容を入力バッファ部1に書き戻し、再度前記
修正動作を行わせ、この過程を一定回数繰ル返した後に
出力バッファ部4の内容を修正結果出力部8に書き出す
〔発明の効果〕
以上述べたように1本発明によれば音響認識部の出力で
あるシンボル列の誤シをその前後関係を利用して、ボト
ムアップ的に訂正することが可能である。更に修正結果
を1シンボル毎に入力シンボル列に書き戻すことによっ
てよシ確からしい前後関係を利用して誤シ訂正を行うこ
とを可能にすると共に、モデルの出力シンボル全体を繰
り返し再入力して誤り訂正させることによって誤シの少
ない訂正結果を得ることを可能にする。
本発明の効果は結果的に/l′i音響認識部の認識性能
を向上させたことに相当し、音声認識装置全体としても
高い精度を実現することを可能にする。
また、実行に喪する記憶容量は、考慮に入れる前後関係
の長さをり、シンボルの種類をM、隠れユニットの数を
Hとすると記憶容量のオーダーは。
〜O(L−M−)1) となシ゛、従来技術と比べて大幅に縮小することを一1
13− 可能にする。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図。 第2図は逆伝播ネットワーク・モデルの一般的な構成を
表す図。 1は入力バッファ部、2は入力窓部、3は逆伝播ネット
ワーク・モデル部、4は出力バッファ部。 5は書き換え部、6は第一制御部、7は第二制御部、8
Fi、修正結果出力部である。 代理人 弁理士  内 原   晋 ふ− 7\、カユエ・ソF滑 閃

Claims (1)

    【特許請求の範囲】
  1. 音声認識に於て、認識の結果として得られるシンボルの
    時系列に含まれる認識誤りを修正するのに際して、前記
    時系列を記憶する入力バッファ部と、前記入力バッファ
    部に記憶されているシンボルの時系列の先頭から順次始
    点を1シンボル分づつずらして固定長の該シンボル列を
    切り出す入力窓部と、前記入力窓部の出力として得られ
    る固定長の該シンボル列を入力としてその中央のシンボ
    ルに対する正解を出力するようにあらかじめ誤りを含む
    シンボル列を用いて教師付きの学習を行なった逆伝播ネ
    ットワーク・モデル部と、前記逆伝播ネットワーク・モ
    デル部がシンボルを出力した時点で入力バッファ部の対
    応するシンボルを修正されたシンボルに書き換える書き
    換え部と、続いて前記入力バッファ部から固定長の該シ
    ンボル列を切り出す入力窓部の始点を1シンボル分シフ
    トして前記逆伝播ネットワーク・モデル部に次のシンボ
    ルの修正動作を行わせる第一制御部と、前記逆伝播ネッ
    トワーク・モデル部が出力するシンボル列を記憶する出
    力バッファ部と、前記入力バッファ部のシンボル列の終
    端のシンボルが修正されたことを検出した時点で前記出
    力バッファ部の内容を前記入力バッファ部に書き戻し、
    再度前記修正動作を繰り返させる第二制御部と、一定回
    数前記修正動作を繰り返した時点で出力バッファ部の内
    容を修正結果として出力する修正結果出力部とを備えて
    成ることを特徴とする音声認識誤り訂正装置。
JP63001488A 1988-01-06 1988-01-06 音声認識誤り訂正装置 Granted JPH01177600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63001488A JPH01177600A (ja) 1988-01-06 1988-01-06 音声認識誤り訂正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63001488A JPH01177600A (ja) 1988-01-06 1988-01-06 音声認識誤り訂正装置

Publications (2)

Publication Number Publication Date
JPH01177600A true JPH01177600A (ja) 1989-07-13
JPH0580000B2 JPH0580000B2 (ja) 1993-11-05

Family

ID=11502828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63001488A Granted JPH01177600A (ja) 1988-01-06 1988-01-06 音声認識誤り訂正装置

Country Status (1)

Country Link
JP (1) JPH01177600A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341518A (ja) * 2003-04-25 2004-12-02 Sony Internatl Europ Gmbh 音声認識処理方法
US7020606B1 (en) * 1997-12-11 2006-03-28 Harman Becker Automotive Systems Gmbh Voice recognition using a grammar or N-gram procedures
DE102014201730A1 (de) 2013-03-26 2014-10-02 Toyota Boshoku Kabushiki Kaisha Innenbauteil für ein fahrzeug
JP2016161313A (ja) * 2015-02-27 2016-09-05 株式会社日立アドバンストシステムズ 測位システム
US11096436B2 (en) 2013-08-29 2021-08-24 Toyota Boshoku Kabushiki Kaisha Beadings

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7020606B1 (en) * 1997-12-11 2006-03-28 Harman Becker Automotive Systems Gmbh Voice recognition using a grammar or N-gram procedures
JP2004341518A (ja) * 2003-04-25 2004-12-02 Sony Internatl Europ Gmbh 音声認識処理方法
DE102014201730A1 (de) 2013-03-26 2014-10-02 Toyota Boshoku Kabushiki Kaisha Innenbauteil für ein fahrzeug
DE102014201730B4 (de) * 2013-03-26 2017-10-19 Toyota Boshoku Kabushiki Kaisha Innenbauteil für ein fahrzeug
US11096436B2 (en) 2013-08-29 2021-08-24 Toyota Boshoku Kabushiki Kaisha Beadings
JP2016161313A (ja) * 2015-02-27 2016-09-05 株式会社日立アドバンストシステムズ 測位システム

Also Published As

Publication number Publication date
JPH0580000B2 (ja) 1993-11-05

Similar Documents

Publication Publication Date Title
US10748524B2 (en) Speech wakeup method, apparatus, and electronic device
Bahl et al. Maximum mutual information estimation of hidden Markov model parameters for speech recognition
US5577164A (en) Incorrect voice command recognition prevention and recovery processing method and apparatus
KR102167719B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
JP6628350B2 (ja) リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
JPH0355837B2 (ja)
US8494847B2 (en) Weighting factor learning system and audio recognition system
Franco et al. Context-dependent connectionist probability estimation in a hybrid hidden Markov model-neural net speech recognition system
US8204738B2 (en) Removing bias from features containing overlapping embedded grammars in a natural language understanding system
CN108630198B (zh) 用于训练声学模型的方法和设备
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
US10839285B2 (en) Local abbreviation expansion through context correlation
US20130138441A1 (en) Method and system for generating search network for voice recognition
JP2020042257A (ja) 音声認識方法及び装置
JP2020020872A (ja) 識別器、学習済モデル、学習方法
KR20180068475A (ko) 순환 모델에 기초한 인식 및 순환 모델을 트레이닝하는 방법과 장치
JP2000298663A (ja) ニューラルネットワークを用いた認識装置およびその学習方法
JPH01177600A (ja) 音声認識誤り訂正装置
JP2021039220A (ja) 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム
US11893983B2 (en) Adding words to a prefix tree for improving speech recognition
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization
US7206738B2 (en) Hybrid baseform generation
JPH01177597A (ja) 音声認識誤り訂正装置
Eide Automatic modeling of pronunciation variations.
JPH01177599A (ja) 音声認識誤り訂正装置