JPH0398098A

JPH0398098A - 音声認識装置

Info

Publication number: JPH0398098A
Application number: JP1236471A
Authority: JP
Inventors: Yasuhiro Komori; 康弘小森
Original assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK
Current assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date: 1989-09-11
Filing date: 1989-09-11
Publication date: 1991-04-23
Anticipated expiration: 2009-10-19
Also published as: JPH0682275B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］この発明は音声認識装置に関し、特に、入力された音声
を音韻グループごとにセグメンテーションを行ない、こ
のセグメンテーション法とこれに適用する音韻識別ニュ
ーラル・ネットワークを融合して音韻を認識するような
音声認識装置に関する。

［従来の技術および発明が解決しようとする課題］従来
の音声認識の方法は、連続した音声波形に時間区分を入
れてセグメンテーションを行なった後に、音韻認識を行
なう方法と、連続した音声波形の時間区分およびその部
分の音韻認識を同時に行なういわゆる音韻スポッティン
グ方法とが提案されている。

しかしながら、前者の方法においては、各音韻の存在す
る音韻環境にかかわらず、画一的なバワ−やスペクトル
の変化などの単純なパラメータの組合わせでセグメンテ
ーションを行なっているため、高精度な音韻認識率を得
ることができない。

さらに、セグメンテーシション法は、音韻区間の同定に
のみ用いられ、セグメンテーション方法により得られる
Ｔ８韻グループを用いて最終的な音韻の認識結果を決定
し、音韻認識率の向上を図ったものは提案されていない
。また、後者の方法においては、連続する音韻の境界付
近で音韻の誤認識や押入誤りが多く、その結果高い音韻
認識率が得られないという欠点があった。

それゆえに、この発明の主たる目的は、セグメンテーシ
ョン課りによる音韻の誤認識および音韻スポッティング
法による音韻境界における音韻の誤認識や挿入誤りを解
決し、さらにセグメンテーション法により得られる音韻
グループを用いて最終的な音韻の認識結果を決定し、高
い音韻認識が可能な音声認識装置を提供することである
。

［課題を解決するための手段コこの発明は入力された音声を認識する音声認識装置であ
って、入力された音声から予め設定された音韻グループ
ごとの位置または区間を検出する検出手段と、入力され
た音声から予め設定された音韻グループ内の音韻を音韻
識別ニューラル・ネットワークを用いて識別する識別手
段とを備えて構成され、検出手段によって検出された音
韻グループごとの位置または区間と、識別手段によって
識別された音韻とに基づいて音声認識が行なわれる。

より好ましくは、検出手段は入力された音声の或る周波
数・：ｉ｝域におけるパワーの大きさと、或る周波数４
１｝域におけるパワーの変化量と、或る周波数帯域にお
けるスペクトルの変化量と、或る周波数帯域と他の或る
周波数帯域とにおけるパワーの比等の音響特徴に基づい
てセグメンテーション結果とその音韻グループとが決定
され、決定されたセグメンテーション結果の音韻グルー
プにより、適用する音韻識別ニューラル・ネットワーク
の音韻グループの絞り込みが行なわれ、絞り込まれた音
韻グループに応じたｇ韻識別ニューラル・ネットワーク
を適用することにより音韻の認識を行なわれる。

さらに、より好ましくは、検出手段は、入力された音声
の或る周波数帯域におけるパワーの大きさと、或る周波
数帯域におけるパワーの変化量と、或る周波数帯域にお
けるスペクトルの変化量と、或る周波数帯域と他の或る
周波数帯域とにおけるパワーの比等の音響特徴に基づい
て、セグメンテーションとその音韻グループを推定し、
推定されたセグメンテーション候補の音韻グループと推
定されたセグメンテーションとに音韻識別ニューラル・
ネットワークを適用して音韻識別を行ない、この音韻識
別結果と検出手段によって得られたセグメンテーション
候補の音韻グループとの妥当性を表わす関数を用いるこ
とにより、最終的な音韻の認識結果が決定される。

さらに、より好ましくは、検出手段は入力された音声の
或る周波数帯域におけるパワーの大きさと、或る周波数
帯域におけるパワーの変化量と、或る周波数帯域におけ
るスペクトルの変化量と、或る周波数帯域と他の或る周
波数帯域とにおけるパワーの比等の音響特徴に基づいて
、セグメンテーションとその音韻グループを推定し、推
定されたセグメンテーション結果の音韻グループにより
適用する音韻識別ニューラル・ネットワークの音韻グル
ープの絞り込みを行ない、絞り込んだ音韻グループに応
じた音韻識別ニューラル・ネットワークを適用して音韻
識別を行ない、この音韻識別結果と検出手段によって得
られたセグメンテーション候補の音韻グループとの妥当
性を表わす関数により、最終的な音韻の認識結果が決定
される。

［作用］この発明に係る音声認識装置は、セグメンテーション法
によって得られる音韻グループ結果を川いて、音韻識別
法と融合することにより最終的な音韻の認識結果が決定
されて音韻の認識が行なわれる。その結果、高性能な音
韻認識を可能にし、高性能な音声認識装置を構築できる
。

［発明の実施例コ第１図はこの発明が適用される音声認識装置の概略ブロ
ック図である。第１図を参照して、音声認識装置はアン
プ１とローパスフィルタ２とＡ／Ｄ変換器３と処理装置
４とを含む。アンプ１は入力された音声信号を増幅し、
ローパスフィルタ２は増幅された音声信号から折返し雑
音を除去する。

Ａ／Ｄ変換器３は音声信号をサンプリングしてディジタ
ル信号に変換する。処理装置４はコンピュータ５と磁気
ディスク６と端末類７とプリンタ８とを含む。コンピュ
ータ５はＡ／Ｄ変換部３から入力されたサンプリングさ
れた音声のディジタル信号に基づいて、後述の第２図な
いし第５図に示した手法を用いて音声認識を行なう。

第２図ないし第５図はこの発明の音韻を識別して音声を
認識する各種方式を示す図である。

まず、第２図ないし第５図に示すそれぞれの手法におい
て、共通の構成について説明する。第２図ないし第５図
に示した各方式は、３つの部分からなり、それぞれ音韻
セグメンテーション部、音韻識別部および音韻決定部か
らなる。これらの具体的な説明は、本願発明者が先に成
した特許出願（特願平１−６１９２８号公報）において
詳細に説明しており、ここでは簡単に説明する。音韻セ
グメンテーション部はルールベースで行なわれ、音韻候
補の検出が、音韻クラスごとにスペクトログラム上の大
局的な音響特徴を用いて、音韻の７１在し得る大まかな
位置が検出される。ここでの音部クラスは、たとえば無
声摩擦音や有声摩擦音などである。

次に、音韻環境の仮説が行なわれる。すなわち、検出さ
れた音韻候補ごとに、それぞれの前後に音部の種類が仮
説される。次に、音韻環境の仮説の下で音韻境界の検出
および仮説の検証が行なわれる。正しい仮説の下では、
仮説ごとに高い確信度か得られ、結果として音韻環境が
検出される。逆に誤った仮説では、確信度が低くなり、
音韻環境を得るに至らない。仮説が正しいか否かの判断
は、スペクトログラム上の音響特徴、すなわち入力され
た音声の或る周波数・：；冫域におけるパワーの大きさ
と、パワーの変化量と、スペクトルの変化量と、他の周
波数・：；｝域に対するパワーの比等の音響特徴に基づ
いて判断される。次に、仮説された音韻クラスごとに最
大確信度を与える音韻境界がセグメンテーション結果と
され、その音韻の始終端と音韻クラスが確信度付きで出
力される。

第６図は音韻を識別するための時間遅れニューラル・ネ
ットワーク（ＴＤＮＮ）の一例を示す図である。次に、
第６図を参照して、上述のようにして検出されたセグメ
ンテーションの音韻を識別する方法について説明する。

第６図に示した時間遅れニューラル・ネットワークは１
８の子音を有声破裂音，無声破裂音，鼻音，有声摩擦音
．無声摩擦音，流音の６つのクラスにグループ化し、そ
れぞれのグループが入力層１１に入力される。入力層１
１は従来から知られているパックプロバゲーションの学
習により、セグメンテーションされた音韻の識別を行な
う。各クラスの識別は中間層１２によって行なわれる。

この実施例では、時間遅れニューラル・ネットワークの
学習は、すべての子音の終端位置を入力層１１の荊から
２／３の位置に合わせて行なわれる。同様にして、音韻
識別では、セグメンテーション結果の終端が入力層１１
の同し位置に適用され、時間遅れニューラル・ネットワ
ークの出力層１３が出力する最大確信度を与える音韻を
識別結果とする。

第２図ないし第５図に示した音韻決定部では、音韻クラ
スごとにセグメンテーション結果およびその区間に適用
した時間遅れニューラル・ネットワークが出力する音韻
識別結果を用いて、最大確信度を与える音韻とその区間
が決定される。

第２図に示した方式は最も単純なセグメンテーション法
と音韻識別法の組合わせにより音韻を識別し、音声を認
識するものである。入力された音声は分析され、特徴抽
出が行なわれた後、セグメンテーション部において、た
とえば無声摩擦音の確信度が０．６２であり、有声摩擦
音の確信度が０．５１であるという決定が行なわれる。

そして、確信度の大きい無声摩擦音が選択され、この無
声摩擦音が第６図に示した時間遅れニューラル・ネット
ワークに入力され、前述の特願平１−６１９２８号に開
示されている方式を用いて音韻識別が行なわれて音韻の
認識が行なわれる。

第３図に示した例は、セグメンテーション法を音韻グル
ープの絞り込みに用いた手段により音韻が識別され、音
声を認識するものである。この例では、入力された音声
は分析され特徴抽出の結果、セグメンテーション部にお
いて最大確信度を与える結果が決定され、その音韻グル
ープが有声音グループであるか無声音グループであるか
に応じて有声子音識別用時間遅れネットワークあるいは
無声子音識別時間遅れニューラル・ネットワークが選択
的に適用されてその区間内の音韻識別が行なわれる。

一般に、識別音韻の種類が少ないほど時間遅れニューラ
ルナネットワークの識別能力が上がることから、セグメ
ンテーション結果の音韻クラス間に混同がない場合、ク
ラスごとに音韻識別を行なう時間遅れニューラル・ネッ
トワークを用リ．）た方が識別率が向上することが期待
される。つまり、セグメンテーション部により音韻クラ
スの絞り込みを行ない、そのクラス内の音韻識別が行な
われる。

第７図は第３図で説明した有声子音識別用時間遅れニュ
ーラル・ネットワークおよび無声子音識別用時間遅れニ
ューラル・ネットワークの一例を示す図である。第７図
（ａ）に示した無声子音識別用ニューラル・ネットワー
クは無声８子音（ｐ，ｔ，ｋ，ａｈ，ｔｓ，ｓ，ｓｈ，
ｈ）を識別するものであり、入力層２１と中間層２２と
出力層２３とを含む。また、第７図（ｂ）に示した有声
子音識別用時間遅れニューラル・ネットワークは有声７
子音（ｂ，ｄ，ｇ，ｍ，ｎ，ｒ，ｚ）を識別するもので
あり、入力層３１と中間層３２と出力層３３とを含む。

第４図に示した例は、セグメンテーション法の音韻グル
ープと音韻識別法の結果の妥当性を表わす関数を用いて
音韻を識別して音声を認識するものであり、第２図およ
び第３図で説明した実施例と同様にして、セグメンテー
ション部において無声摩擦音と有声摩擦音の確信度が決
定され、その後第６図に示した時間遅れニューラル・ネ
ットワークを用いて、その区間内の音韻識別が行なわれ
て音韻認識が行なわれる。すなわち、この第４図に示し
た例では、音韻区間の候補とその音韻グループが出力さ
れ、時間遅れニューラル・ネットワークの識別音韻とセ
グメンテーション結果の音韻クラスの妥当性を考慮に入
れることができ、音韻セグメンテーションおよび音韻識
別の能力がともに向上することが期待できる。

ここで、その妥当性を表わす関数の一例として、次の第
（１）式および第（２）式を用いて、最大の確信度（　
Ｃｅｒｔａｉｎｔｙ　　Ｆａｃｔｏｒ）を与える音韻を
認識結果とする方法として示す。

ＣＰｒｅｃ　−ｃｏｍｂｉｎｅ　　（ＣＰｓｅｇ，ＣＦ
ｎｎ）　　　＝　（１）ＣＦｎｎ−ｋ　ａＷｎｎ　ｌ’
　　（ａｒｇ（ｓｅｇ），ａｒｇ（ｎｎ））（２）但し、ＣＰｒｅｃ　：最終音韻認識の確信度ＣＰｓｅｇ　：セグメンテーション結果の確信度ＣＰｎ
ｎ　：音韻識別結果の確信度Ｗｎｎ　：時間遅れニューラル・ネットワークの識別音
韻の出力値ａｒｇ（ｓｅｇ）　：セグメンテーション結果の音韻ク
ラスａｒｇ（ｎｎ）　　：時間遅れニューラル・ネットワー
クの識別音韻ｋ　：係数（晴間遅れニューラル・ネットワークの信頼
度，ｋが大きいほど時間遅れニューラル・ネットワーク
の出力結果を信用している。）『（）：識別音韻と音韻クラスの妥当性を示す関数。時
間遅れニューラル・ネットワークの識別音韻がセグメン
テーション結果の音韻クラスに属せば１．０，属さなけ
れば１．０，有声音／無声音が一致していれば０．５を
与える。

ｃｏｍｂｉｎｅ（　）　：　ＭＹ　Ｃ　Ｉ　Ｎの確信度
計算モデル第５図に示した例は、セグメンテーション法
を音韻グループの絞り込みに用いた手段により音韻の識
別手段を選択し、セグメンテーション法の音韻グループ
と音韻識別法の結果の妥当性を表わす関数を用いたこと
により音韻を識別し、音声を認識するものである。

第８図はこの発明の各方式による子音認識結果をテーブ
ルに示した図である。１８子音識別時間遅れニューラル
・ネットワークと有声音／無声音の２つの時間遅れニュ
ーラル・ネットワークとを用いた場合、時間遅れニュー
ラル・ネットワークの識別音韻とセグメンテーション結
果の音韻クラスとの妥当性を考慮する場合としない場合
、さらに妥当性を考慮する場合どの程度時間遅れニュー
ラル・ネットワークの出力結果を信用するかなどの条件
を変えた実験を行なった。第８図において、１８−ＣＯ
ＮＳ−ＴＤＮＮは１８子音識別時間遅れニューラル・ネ
ットワークを用いた場合を示し、Ｖ／ＵＶ−ＴＤＮＮは
有声音／無声音の２つの時間遅れニューラル・ネットワ
ークを用いた場合を示し、Ｎｏ　　ＣＯＭＢは時間遅れ
ニューラル・ネットワークの識別音韻とセグメンテーシ
ョン結果の音韻クラスの妥当性を考慮しない場合を示し
、ｗｉｔｈ　　ＣＯＭＢは考慮した場合を示す。

前述の第（１）式および第（２）式の時間遅れニューラ
ル・ネットワークに対する依存度としては、ｋ−０．４
，０．８の２つの値を用いた。ｋが大きいほど峙間遅れ
ニューラル・ネットワークの出力結果を信用しているこ
とになる。Ｒｅｃｏｇｎｉｔｉｏｎ　　Ｒａｔｅは音韻
セグメンテーション，音韻識別ともに正しく行なわれた
場合を示し、Ｉｎｓｅｒｔｉｏｎ　　Ｅｒｒｏｒ　　Ｒ
ａｔｅは付加訝り率を示し、Ｓｅｇｍｅｎｔａｔ　ｉｏ
ｎＲａｔｅは音韻の始終端境界誤差が５０ｍｓｅＣ以内
に検出され正しくセグメンテーションされたと判断され
た割合を示し、Ｂｏｕｎｄａ　ｒｙＡｌｉｇｎｍｅｎｔ
　　Ｅｒｒｏｒは正しく検出された境界の視察ラベルに
対するずれを示し、ｗｉｔｈｉｎ　　Ｃｏｒｒｅｃｔ　
　Ｓｅｇｍｅｎｔａｔｉｏｎ　　Ｒａｔｅはこの発明に
より正しくセグメンテーションされた区間のψでの音韻
識別率を示す。第８図に示したテーブルは、音韻クラス
の絞り込みを行なった上で時間遅れニューラル・ネット
ワークを適用する方法の有効性、また侍間遅れニューラ
ル・ネットワークの識別音韻とセグメンテーション結果
の音韻クラスの妥当性を考慮する方広の有効性を示して
いる。

なお、音韻グループの絞り込みは、有声音／無声音など
の分け方に限ることなく、摩擦音声，鼻音声音，破裂性
音などの分け方も可能であり、この分け方に応じた音声
識別方法を適用すればよい。

また、上述の丈施例の音韻識別方式においては、時間遅
れニューラル・ネットワークを用いたが、その他の一般
的な統計的手法による音韻グループ内の音韻識別方法を
用いてもよい。たとえば、般のニューラル・ネットワー
クによる音韻識別方法や、ＨＭＭによる音韻識別方法や
、ベイズ則による音韻識別方法や、線形判別による音韻
識別方法や、ＬＶＱなどの方法にて設計した標準パター
ンを用いた音韻識別方法などが適用可能である。

［発明の効果コ以上のように、この発明によれば、入力された音声をセ
グメンテーション法により音韻の区間とその音韻グルー
プとが検出され、この音韻グル−ブを音韻識別結果と組
合わせることにより高い音韻識別を可能にし、さらにセ
グメンテーション誤りによる音韻の誤認識および音韻ス
ポッティング法による音韻境界における音韻の誤認識や
挿入誤りを検出することができ、その結果、高い性能の
音韻認識を可能にすることができる。

【図面の簡単な説明】

第１図はこの発明の一実施例が適用される音声認識装置
全体の概略ブロック図である。第２図はこの発明の一実
施例における最も単純なセグメンテーション法と音韻識
別法の組合わせにより音韻を識別して音声を認識する一
例を示す図である。第３図はセグメンテーション法を音韻グループの絞り込
みに用いた手段により音韻を識別して音声を認識する一
例を示す図である。第４図はセグメンテーション法の音
韻グループと音韻識別法の結果の妥当性を表わす関数を
用いたことにより音韻を識別して音声を認識する一例を
示す図である。第５図はセグメンテーション法を音韻グループの絞り込
みに用いた手段により音韻を識別し、セグメンテーショ
ン法の音韻グループと音韻識別法の結果の妥当性を示す
関数を用いたことにより音韻を識別して音声を認識する
一例を示す図である。第６図は第２図および第４図で用いた１８子音識別用時
間遅れニューラル・ネットワークの一例を示す図である
。第７図は第３図および第５図の実施例で用いた有声音
／無声音別の子音識別用時間遅れニューラル・ネッ１・
ワークの一例を示す図である。第８図はこの発明の各方
式による音韻認識結果をテーブルに示した図である。図において、１はアンプ、２はローバスフィルタ、３は
Ａ／Ｄ変換器、４は処理装置、５はコンピュータ、６は
磁気ディスク、７は端末類、８はプリンタ、１１，２１
．３１は入力層、１２，２２，３２は中間層、１３，２
３．３３は出力層を示す。

Claims

【特許請求の範囲】

（１）入力された音声を認識する音声認識装置であって
、前記入力された音声から予め設定された音韻グループご
との位置または区間を検出する検出手段と、前記入力された音声から予め設定された音韻グループ内
の音韻を音韻識別ニューラル・ネットワークを用いて識
別する識別手段とを備え、前記検出手段によって検出された音韻グループごとの位
置または区間と、前記識別手段によって識別された音韻
とに基づいて音声認識を行なうことを特徴とする、音声
認識装置。
（２）前記検出手段は、前記入力された音声の或る周波
数帯域におけるパワーの大きさと、或る周波数帯域にお
けるパワーの変化量と、或る周波数帯域におけるスペク
トルの変化量と、或る周波数帯域と他の或る周波数帯域
とにおけるパワーの比等の音響特徴とに基づいて、セグ
メンテーション結果とその音韻グループを決定し、この
決定されたセグメンテーション結果の音韻グループによ
り、適用する音韻識別ニューラル・ネットワークの音韻
グループの絞り込みを行ない、絞り込んだ音韻グループ
に応じた音韻識別ニューラル・ネットワークを適用する
ことにより、音韻の認識を行なうことを特徴とする、請
求項１項記載の音声認識装置。
（３）前記検出手段は、前記入力された音声の或る周波
数帯域におけるパワーの大きさと、或る周波数帯域にお
けるパワーの変化量と、或る周波数帯域におけるスペク
トルの変化量と、或る周波数帯域と他の或る周波数帯域
とにおけるパワーの比等の音響特徴に基づいて、セグメ
ンテーションとその音韻グループとを推定し、この推定
されたセグメンテーション候補の音韻グループと推定さ
れたセグメンテーションとに音韻識別ニューラル・ネッ
トワークを適用して音韻識別を行ない、この音韻識別結
果と前記検出手段によって得られたセグメンテーション
候補の音韻グループとの妥当性を表わす関数を用いるこ
とにより、最終的な音韻の認識結果を決定して音韻の認
識を行なうことを特徴とする、請求項１項記載の音声認
識装置。
（４）前記検出手段は、前記入力された音声の或る周波
数帯域におけるパワーの大きさと、或る周波数帯域にお
けるパワーの変化量と、或る周波数帯域におけるスペク
トルの変化量と、或る周波数帯域と他の或る周波数帯域
とにおけるパワーの比等の音響特徴に基づいて、セグメ
ンテーションとその音韻グループとを推定し、推定され
たセグメンテーション結果の音韻グループにより適用す
る音韻識別ニューラル・ネットワークの音韻グループの
絞り込みを行ない、絞り込んだ音韻グループに応じた音
韻識別ニューラル・ネットワークを適用した音韻識別を
行ない、この音韻識別結果と前記検出手段によって得ら
れたセグメンテーション候補の音韻グループとの妥当性
を表わす関数を用いることにより、最終的な音韻の認識
結果を決定して音韻の認識を行なうことを特徴とする、
請求項１項ないし３項のいずれかに記載の音声認識装置
。