JPH01177600A

JPH01177600A - 音声認識誤り訂正装置

Info

Publication number: JPH01177600A
Application number: JP63001488A
Authority: JP
Inventors: Kenichi Iso; 健一磯
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-01-06
Filing date: 1988-01-06
Publication date: 1989-07-13
Also published as: JPH0580000B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声認識誤り訂正装置に関し１％に音声認識装
置において嘗祐認誠結釆として得られる誤シを含むシン
ボルの時系列（たとえば音素認識の結果書られる音素シ
ンボル列や単語認識の結果書られる単語シンボル列等）
を、時系列内の前後のコンテキストを考慮して修正する
音声認識誤り訂正装置の改良に関する。

〔従来の技術〕

時系列内の前後のコンテキストを考慮して誤りを訂正す
る方法として１前後のシンボル列が確定した場合の中央
のシンボルの出現確率（条件付き確率）を認識対象のデ
ータから算出してテーブル化し、誤りを含む時系列が与
えられるとテーブル化された条件付き確率を用いて、事
後確率が最大になるようにシンボル列を曹き換えて修正
する方法がある。たとえば１前後３シンボルを考慮して
訂正を行う場合には条件付き確率Ｐは次のように表され
る。

（式１）　　Ｐ（ｓｏｌｓｌｓｚｓｓｓ４ｓｓＳｓｓｙ
）ここでｓｉはｉ番目のシンボルを表し、Ｐはシンボル
Ｓｏを３４に誤る確率を表している。中央のシンボルＳ
４に対する訂正結果は（ＳｓＳｚＳｓＳａＳｓうなＳ。

とじて決められる。即ち、訂正結果Ｓ。は△ （式２　）　　Ｓ、　＝　ａｒｇｍａｘ　［Ｐ　（ｓｏ
　ｌ　５１Ｓ２Ｓ３Ｏ３ａ　５５８６’？））で与えられる。

〔発明が解決しようとする問題点〕

しかし上記の方法では、考慮に入れる前後のコンテキス
トを広げると条件付き確率のテーフ″ルのサイズが指数
的に増大してしまい、実用的ではない。即ち、考慮にい
れるコンテキストの長さをり。

シンボルの種類をＭとする条件付き確率の定義式（式ｌ
）からも知られるようにテーブルのサイズは〜Ｏ（Ｍ　　）（ただし　〜０（）はサイズのオーダーを示す）となる
。また事後確率の最大化の為の最適化計算の計算量も無
視できなくなる。更に前後のコンテキストに多くの誤り
が含まれる場合には安定な誤シ訂正が困難になる。

本発明の目的は、上記のように条件付き確率のテーフ゛
ルの記憶容量が膨大になシ実現が困難になへ４− るのを回避し、更に音響認識部の認識結果を用いて誤り
訂正の教師付き学習を行なう事によシ音響認識部の認識
誤りの傾向に適応した誤り訂正を実現し、また誤り訂正
時には最適化計算は不要であるので計算量の大幅な削減
を可能にし、加えて訂正結果を用いて入力シンボル列を
順次訂正しておくことによって誤シの少ない前後関係を
用いて安定な誤り訂正を行うことを可能にするような認
識誤り訂正装置を提供することにある。

本発明による認識誤り訂正装置を音響認識部の後処理部
として用いれば、実質的に音響認識部の認識性能を向上
させたのと同じ効果が得られる。

〔問題点を解決するための手段〕

本発明による音声認識誤り訂正装置は、音声認識に於て
、認識の結果として得られるシンボルの時系列に含まれ
る認識誤りを修正するのに際して。

前記時系列を記憶する入力バッファ部と、前記入力バッ
ファ部に記憶されているシンボルの時系列の先頭から順
次始点を１シンボル分づつずらして固定長の該シンホル
列を切り出す入力窓部と、前Ｖ５− 記入力窓部の出力として得られる固定長の該シンボル列
を入力としてその中央のシンボルに対する正解を出力す
るようにあらかじめ誤りを含むシンボル列を用いて教師
付きの学習を行なった逆伝播ネットワーク・モデル部と
、前記逆伝播ネットワーク・モデル部がシンボルを出力
した時点で入力バッファ部の対応するシンボルを修正さ
れたシンボルに書き換える誓き換え部と、続いて前記入
力バッファ部から同定長の該シンボル列を切り出す入力
窓部の始点を１シンボル分シフトして前記逆伝播ネット
ワークｅモデル部に次のシンボルの修正動作を行わせる
第一制御部と、前記逆伝播ネットワーク・モデル部が出
力するシンボル列を記憶する出力バッファ部と、前記入
力バッファ部のシンボル列の終端のシンボルが修正され
たことを検出した時点で前記出力バッファ部の内容を前
記入力バッファ部に書き戻し、再度前記修正動作を繰り
返させる第二制御部と、一定回数前記修正動作を繰り返
した時点で出力バッファ部の内容を修正結果として出力
する修正結果出力部とを備えて構−一ら　＝成される。

〔作用〕

本発明の基本的な原理は、音声認識に於て、音響認識結
果として得られる誤認識を含むシンボルの時系列をあら
かじめ教師付きの学習を行なった逆伝播ネットワーク・
モデルを用いて修正しようとするものである。以下に本
発明の原理を詳細に説明する。

入力音声を認識した場合に音響認識部の出力として得ら
れるシンボル列は、現状では不可避な音響認識部の認識
誤りによって、音響認識部の誤り傾向を反映した幾つか
の誤りを含んでいる。本発明ではこの誤りを含むシンボ
ルの時系列をその前後のコンテキストを考慮して修正し
、実質的には音響認識部の認識性能を向上させようとす
るものである。

訂正には連想記憶やパターン認識のモデルとして考案さ
れた逆伝播ネットワーク・モデルを利用する。このモデ
ルの詳細については、［欧文誌コンプレックス・システ
ムズ％１９８ＩＩＥｇ１号１４５−１６８頁Ｊ　（’Ｐ
ａｒａｌｌｅｌ　Ｎｅｔｗｏｒｋｓ　ｔｈａｔＬｅａｒ
ｎ　　ｔｏ　Ｐｒｏｎｏｕｎｃｅ　Ｅｎｇｌｉｓｈ　Ｔ
ｅｘｔ’、Ｔ、Ｊ。

Ｓｅｊｎｏｗｓｋｉ　ｈ　Ｃ，Ｒ，Ｒｏｓｅｎｂｅｒｇ
、Ｃｏｍｐｌｅｘ　Ｓｙｓｔｅｍｓ。

Ｖｏｌ、１（１９８７）１４５−１６８）が詳り、い。

モデルは一般に第２図のように３種類の層から階層的に
構成され、それぞれ入カニニット層、隠れユニット層、
出力ユニ、ト層と呼ばれている。

各層にはユニットと呼ばれる処理単位が配置され。

各ユニットは入力層に近い側に隣接する層のユニットか
らの入力を受けて、隣接する出力層に近い側の層のユニ
ットへ出力を出す。各ユニットの入・出力の応答関係は
次のように与えられる。

（式４）　　ｙ”＝ｆ（ｘ寸））（式５　）　　ｆ（ｘ）＝　（１＋ｅ−”）−’ここで
Ｘはユニットへの入力、ｙはユニットの出力、θはユニ
ットの持つ閾値、上付き添え字は入力層からの階層を表
わしくｎ＝＝ｌ、・・・・・・、Ｎ）。

下付き添え字は層内のユニットを表わす番号であ第ｎ層
のユニットｊへの結合を表わす荷重、ｆ（ｘ）は（式５
）に示すように各ユニ、トに共通の非線形飽和型の応答
関数である。結局、各ユニットは隣接する上位層のユニ
ットの出力の荷重和とあらかじめ定められた閾値との差
を入力として一程の閾値論理によってその出力を決定す
る。

このモデルの入力層にデータが与えられると。

その情報（データ）ＩＩ′ｉ隣接する下位層で順次処理
されながら出力層まで伝播して行く。そしてこの出力層
のユニットの出力が与えられた入力データに対するモデ
ルの推論結果となるのである。

本発明では入力層にｉｂを含むシンボル列から切り出し
た固定長のシンボル列を提示したときへ出力層に入力さ
れた固定長のシンボル列の中央のシンボルに対する誤り
訂正の結果（推論結果）が出力されるようなモデルを構
成する。

次にモデルが望ましい推論動作を行なうようにユニ、ト
間の結合を定める学習法（逆伝播学習）壕な入力音声に
対する実際の音響認識部の出力である誤りを含むシンボ
ル列から切り出した固定長のシンボル列か、あるいはシ
ンボル間のｆｌａすＭ向を仮定して、誤りのないシンボ
ル列に確率的に誤りを付加した疑似データである。これ
らのデータを入力層に提示し、出力層には中央のシンボ
ルに対する正解を提示して逆伝播学習を繰り返し行なう
。逆伝播法では入力されたデータに対する望ましい推論
結果（出力データ）を教師信号として与えて、モデルの
推論結果と教師信号の差（誤差）を小さくする方向に繰
り返しユニット間結合を修正する。実際には次式で定義
される出力層（第Ｎ層）に於けるモデルの出力ｙｉと与
えられた入力に対する望ましい出力（答え）ｙＩとから
定まる誤差関数を最小化するようなユニット間結合を見
い出すことに対応する。

（式６　）　　ｎ＝　（１／２）ぞ（ｙマーｙ、　）２
この関数はｙ（Ｎ）を通じてあらゆるユニット間結合に
依存しているので、最小化はＥを評価関数とし一１〇− て行なえばよい。結果として得られる逆伝播学習のアル
ゴリズムに関しては前記の文献に詳しい。

学習の終了したモデルを用いて訂正を行なう場合には２
入力音声に対する音響認識部の出力であるシンボル列か
ら１シンボルづつ始点をシフトして逐次的に固定長のシ
ンボル列を切り出して逆伝播ネットワーク・モデルに入
力する。モデルが入力された（支）足長シンボル列の中
央のシンボルに対する修正結果を出力すると、そのシン
ボルで入力シンボル時系列の対応するシンボルを書き換
える。

このことＶＣよってモデルの入カニニット層に提示され
る固定長のシンボル列の前半部は常にそれ以前に訂正を
加えられたよシ確からしいシンボルから構成されること
になるので、モデルによる誤シ訂正がよ多安定に行われ
ることになる。

このようにしてモデルによって修正されたシンボル列に
も修正しきれなかった誤シが残っている可能性があるの
で、その残された誤シを修正するために一度モデルによ
って修正されたシンボル列全体を再び入力としてモデル
に与えて誤り訂正を行わせる。この過程を繰り返すこと
によって１次第に誤りの少ないシンボル列が得られるよ
うになる。

〔実施例〕

第１図は本発明を実現した装置の一実施例を示したプロ
、り図である。人カバ、ファ部１は音響認識結果である
シンボル列を格納し、入力窓部２は入力バッファ部１か
ら１シンボルづつ始点をシフトして順次固定長のシンボ
ル列を切り出して逆伝播ネットワーク・モデル部３が入
力に対する推論結果を出力する毎に、その出力シンボル
で入力バッファ部の対応するシンボルを書き換える。出
カバッ７ア部４は逆伝播ネットワーク・モデル部３の出
力を記憶し、第一制御部６は逆伝播ネットの修正動作を
行わせる。第二制御部７は入力バッファ部１の終端のシ
ンボルまで訂正されたことを検出すると出力バラフッ部
４の記憶内容を入力バッファ部１に書き戻し、再度前記
修正動作を行わせ、この過程を一定回数繰ル返した後に
出力バッファ部４の内容を修正結果出力部８に書き出す
。

〔発明の効果〕

以上述べたように１本発明によれば音響認識部の出力で
あるシンボル列の誤シをその前後関係を利用して、ボト
ムアップ的に訂正することが可能である。更に修正結果
を１シンボル毎に入力シンボル列に書き戻すことによっ
てよシ確からしい前後関係を利用して誤シ訂正を行うこ
とを可能にすると共に、モデルの出力シンボル全体を繰
り返し再入力して誤り訂正させることによって誤シの少
ない訂正結果を得ることを可能にする。

本発明の効果は結果的に／ｌ′ｉ音響認識部の認識性能
を向上させたことに相当し、音声認識装置全体としても
高い精度を実現することを可能にする。

また、実行に喪する記憶容量は、考慮に入れる前後関係
の長さをり、シンボルの種類をＭ、隠れユニットの数を
Ｈとすると記憶容量のオーダーは。

〜Ｏ（Ｌ−Ｍ−）１）となシ゛、従来技術と比べて大幅に縮小することを一１
１３− 可能にする。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図。第２図は逆伝播ネットワーク・モデルの一般的な構成を
表す図。１は入力バッファ部、２は入力窓部、３は逆伝播ネット
ワーク・モデル部、４は出力バッファ部。５は書き換え部、６は第一制御部、７は第二制御部、８
Ｆｉ、修正結果出力部である。代理人　弁理士　　内　原　　　晋ふ− ７＼、カユエ・ソＦ滑閃

Claims

【特許請求の範囲】

音声認識に於て、認識の結果として得られるシンボルの
時系列に含まれる認識誤りを修正するのに際して、前記
時系列を記憶する入力バッファ部と、前記入力バッファ
部に記憶されているシンボルの時系列の先頭から順次始
点を１シンボル分づつずらして固定長の該シンボル列を
切り出す入力窓部と、前記入力窓部の出力として得られ
る固定長の該シンボル列を入力としてその中央のシンボ
ルに対する正解を出力するようにあらかじめ誤りを含む
シンボル列を用いて教師付きの学習を行なった逆伝播ネ
ットワーク・モデル部と、前記逆伝播ネットワーク・モ
デル部がシンボルを出力した時点で入力バッファ部の対
応するシンボルを修正されたシンボルに書き換える書き
換え部と、続いて前記入力バッファ部から固定長の該シ
ンボル列を切り出す入力窓部の始点を１シンボル分シフ
トして前記逆伝播ネットワーク・モデル部に次のシンボ
ルの修正動作を行わせる第一制御部と、前記逆伝播ネッ
トワーク・モデル部が出力するシンボル列を記憶する出
力バッファ部と、前記入力バッファ部のシンボル列の終
端のシンボルが修正されたことを検出した時点で前記出
力バッファ部の内容を前記入力バッファ部に書き戻し、
再度前記修正動作を繰り返させる第二制御部と、一定回
数前記修正動作を繰り返した時点で出力バッファ部の内
容を修正結果として出力する修正結果出力部とを備えて
成ることを特徴とする音声認識誤り訂正装置。