JPH08211893A

JPH08211893A - 音声認識装置

Info

Publication number: JPH08211893A
Application number: JP7010841A
Authority: JP
Inventors: Mitsuyoshi Tatemori; 三慶舘森; Hiroshi Kanazawa; 博史金澤; Yoichi Takebayashi; 洋一竹林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1994-12-08
Filing date: 1995-01-26
Publication date: 1996-08-20

Abstract

(57)【要約】【目的】語彙の変更や追加が容易で、高い認識性能を得
ることができ、さらに自由発話にも容易に対処すること
が可能な音声認識装置を提供する。【構成】入力音声の特徴パラメータを抽出する音声分析
部１０１と、特徴パラメータを単語標準パターンと照合
する照合部１０４と、特徴パラメータを音韻標準パター
ンから作成した単語標準パターンと照合する照合部１１
０と、照合部１０４および１１０の照合結果から第１段
階の単語候補系列をそれぞれ抽出する類似度判定部１０
６および尤度判定部１１３と、第１段階の単語候補系列
に対して構文・意味解析を行い、第２段階の単語候補系
列を出力する構文・意味解析部１０７および１１４と、
第２段階の単語候補系列を総合判定して最終段階の単語
候補系列を出力する総合判定部１０９と、最終段階の単
語候補系列に対して構文・意味解析を行い、音声認識結
果を得る構文・意味解析部１１５とを有する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に関する
ものである。

【０００２】

【従来の技術】一般に、音声認識装置においては単語認
識の認識単位として単語全体のパターンを用いる方法
と、音韻や音節等の単語構成要素の単位を用いる方法が
あるが、これらはいずれも一長一短がある。

【０００３】すなわち、単語全体のパターンを用いる前
者の方法では、入力音声の時間的変動や周波数変動など
の動的な特徴を単語標準パターンに含んだ単語全体での
マッチングを行うため、高い認識性能を得ることができ
るが、単語毎に標準パターンを用意しなければならない
ため、標準パターンの作成に多大な労力を必要とし、語
彙の変更や追加が容易ではない。また、音韻や音節など
の単語構成要素を単位とする後者の方法によると、高々
１００種類程度の標準パターンを用意すればよく、さら
に例えば認識対象となる単語の文字列を入力することに
より、語彙の変更、追加等を容易に行うことができると
いう利点がある。しかし、単語全体のパターンを用いる
方法に比べて、音韻間あるいは音節間の動的特徴を十分
に標準パターンとして反映できないため、高い認識性能
を得るのが困難であるといった問題があった。

【０００４】さらに、これら単語全体のパターンを単位
とする方法と単語構成要素を単位とする方法を併用して
単語認識を行う認識手法も提案されているが、そのよう
な方法によっても、認識対象語彙以外の単語や様々な不
要語（例えば、「あー」や「えーと」など）や言い淀み
等を含んだ自由発話に対しては、付加誤りが発生すると
いう問題があった。

【０００５】一方、単語の音声パターンはその単語の前
後に他の単語を伴って連続発声された場合には、前後の
単語と調音結合を起こし、その単語が単独で発声された
場合の音声パターンから変形する。この調音結合の影響
のため、連続単語認識の際には、孤立発声の音声パター
ンに基づいて作成された孤立単語辞書を用いて認識を行
うよりも、調音結合の影響を加味して作成された連続単
語辞書を用いた方が認識性能が良いことが知られてい
る。これは単語に限らず、音韻、音節などを認識単位と
する連続音声認識においても同様である。

【０００６】ここで、連続単語辞書の作成に当たり、従
来では連続音声パターンを人間の目視によってセグメン
テーションし、そのセグメンテーションに従って音声パ
ターンに含まれる単語の特徴パターンを切り出して辞書
作成用のパターンを作成する方法がとられていた。この
方法では連続単語辞書の作成に十分な量のデータに対し
て正しいセグメーションを行うために、複数の熟練した
作業者が必要である。従って、辞書作成には膨大な時間
が必要となる。また、作業者達が如何に熟練していよう
とも、同じ発声データに対し作業者によってセグメンテ
ーションが異なる場合もある。このため、人手によるセ
グメンテーションによって得られたデータには、作業者
によるばらつきが起こったり、セグメンテーションの誤
りによる不適切なデータが混入するため、辞書の認識性
能の低下を招く。さらに、人手により正しいとされるセ
グメンテーションが音声認識にとって最適であるという
保証はない。

【０００７】

【発明が解決しようとする課題】上述したように、音声
認識装置における単語認識の認識単位として、単語全体
のパターンを用いる方法、単語構成要素を用いる方法、
あるいは両者を併用する方法では、語彙の変更や追加が
容易でない、認識性能が低い、認識対象外の単語や不要
語等を含んだ自由発話に良好に対処できないなどの問題
があった。

【０００８】本発明の第１の目的は、語彙の変更や追加
が容易で、高い認識性能を得ることができ、さらに自由
発話にも容易に対処することが可能な音声認識装置を提
供することにある。

【０００９】また、従来では連続音声認識用辞書の作成
に当たり、人手による音声パターンのセグメンテーショ
ンを必要とするため、辞書作成の膨大な時間を要するの
みでなく、セグメンテーションにより得られたデータに
作業者によるばらつきやセグメンテーションの誤りによ
る不適切なデータが混入することにより、辞書の認識性
能が低下するという問題があった。

【００１０】本発明の第２の目的は、連続音声認識用辞
書の作成に必要な音声パターンのセグメンテーションを
適確かつ自動的に行うことができ、もって高い認識性能
が得られる音声認識装置を提供することにある。

【００１１】

【課題を解決するための手段】第１の発明は、単語全体
パターンを認識単位とする単語認識と、単語よりも細か
い単語構成要素である音韻パターンを認識単位とする単
語認識を併用し、それぞれの認識方式により得られた単
語候補系列結果に対して、構文・意味解析を行った後
に、総合判定を行うことにより、付加誤りの単語候補の
削減を行い、発話内容を正しく理解するようにしたもの
である。

【００１２】すなわち、第１の発明に係る音声認識装置
は、外部から入力される入力音声を分析して該入力音声
の特徴を表わす特徴パラメータを求める入力音声分析手
段と、この入力音声分析手段により求められた特徴パラ
メータを複数の単語のそれぞれの標準的なパターンを示
す単語標準パターンと照合する第１の照合手段と、音声
分析手段により求められた特徴パラメータを複数の音韻
のそれぞれの標準的なパターンを示す音韻標準パターン
から作成した認識対象単語の標準的なパターンを示す単
語標準パターンと照合する第２の照合手段と、第１およ
び第２の照合手段の照合結果から入力音声に対応する第
１段階の単語候補系列をそれぞれ抽出する第１および第
２の単語候補系列抽出手段と、第１および第２の単語候
補系列抽出手段により抽出された単語候補系列に対して
それぞれ構文および意味解析を行い、第２段階の単語候
補系列をそれぞれ出力する第１および第２の構文・意味
解析手段と、第１および第２の構文・意味解析手段から
それぞれ出力される第２段階の単語候補系列を総合判定
して最終段階の単語候補系列を出力する判定手段と、こ
の判定手段から出力される最終段階の単語候補系列に対
して構文および意味解析を行い、入力音声に対する音声
認識結果を得る第３の構文・意味解析手段とを具備する
ことを特徴とする。

【００１３】ここで、第１の照合手段では、例えば単語
標準パターンを用いて単語全体を認識単位として始終端
非固定の連続パターン照合を行い、第２の照合手段では
標準パターンから認識対象単語リストに基づいて作成し
た単語標準パターンを用いて音韻を認識単位として始終
端非固定の連続パターン照合を行う。この場合、第１の
照合手段の照合結果は、始終端非固定の連続パターン照
合により得られた複数の単語候補と単語標準パターンと
の類似度を示す類似度系列として得られ、第２の照合手
段の照合結果は、始終端非固定の連続パターン照合によ
り得られた複数の単語候補の尤度を表わす尤度系列とし
て得られる。

【００１４】第１の単語候補系列抽出手段では、例えば
類似度系列に対して認識対象単語毎に定められたしきい
値を用いて判定を行い、類似度がしきい値を越える単語
候補を第１段階の単語候補系列として抽出し、第２の単
語候補系列抽出手段では尤度系列に対して予め定められ
たしきい値を用いて判定を行い、尤度がしきい値を越え
る単語候補を第１段階の単語候補系列として抽出する。

【００１５】第１および第２の構文・意味解析手段で
は、例えば第１および第２の単語候補系列抽出手段によ
りそれぞれ抽出された第１段階の単語候補系列に対し構
文および意味解析を行い、その結果得られる複数の発話
意味表現のうち上位Ｎ個に含まれる単語候補のみを第２
段階の単語候補系列として出力する。

【００１６】判定手段は、例えば第１および第２の構文
・意味解析手段からそれぞれ出力される第２段階の単語
候補系列中の各単語候補に対し、該単語候補のカテゴリ
名と継続時間の重なりおよび尤度を用いて最終段階の単
語候補系列として残すか否かの判定を行う。

【００１７】なお、第１の単語候補系列抽出手段が類似
度判定を行い、第２の単語候補系列抽出手段が尤度判定
を行う場合、判定手段において第１および第２の構文・
意味解析手段からそれぞれ出力される第２段階の単語候
補系列を同一尺度で比較判定するために、第１の単語候
補系列抽出手段から出力される単語候補系列について類
似度−尤度変換を行ってから判定手段に入力することが
望ましい。

【００１８】また、第１の発明に係る他の音声認識装置
は、外部から入力された入力音声を分析して該入力音声
の特徴を表わす特徴パラメータを求める入力音声分析手
段と、この入力音声分析手段により求められた前記特徴
パラメータを複数の単語のそれぞれの標準的なパターン
を示す単語標準パターンと照合して、該特徴パターンと
該単語標準パターンとの類似度を表わす類似度系列を生
成する照合手段と、この照合手段により生成された類似
度系列から入力音声に対する第１段階の単語候補系列を
抽出する第１の単語候補系列抽出手段と、この第１の単
語候補系列抽出手段により抽出された第１段階の単語候
補系列に対して構文および意味解析を行い、第２段階の
単語候補系列を出力する第１の構文・意味解析手段と、
この第１の構文・意味解析手段から出力される第２段階
の単語候補系列の各単語候補に対して、入力音声分析手
段により求められた該単語候補系列中の各単語区間の特
徴パラメータと複数の音韻のそれぞれの標準的なパター
ンを示す音韻標準パターンとを照合することにより尤度
を計算する尤度計算手段と、この尤度計算手段により計
算された尤度を用いて類似度系列中の類似度に重み付け
を行って該類似度を変更する類似度変更手段と、この類
似度変更手段により類似度が変更された類似度系列から
入力音声に対応する最終単語候補系列を抽出する第２の
単語候補系列抽出手段と、この第２の単語候補系列抽出
手段により抽出された最終単語候補系列に対して構文お
よび意味解析を行い、入力音声に対する音声認識結果を
得る第２の構文・意味解析手段とを具備することを特徴
とする。

【００１９】第２の発明は、音声認識の際のセグメンテ
ーションと同様の処理を行って音声パターンのセグメン
テーションを行うことにより、音声認識に対して最適な
セグメンテーションを可能とすると同時に、調音結合の
影響を認識辞書に学習させることにより、認識性能の高
い連続単語認識を可能としたものである。

【００２０】すなわち、第２の発明に係る音声認識装置
は、外部から入力される入力音声を分析して該入力音声
の特徴を表わす特徴パラメータを求める入力音声分析手
段と、入力音声の認識を行うための認識辞書を作成する
認識辞書作成手段と、この認識辞書作成手段により作成
された格納する認識辞書格納手段と、入力音声分析手段
により抽出された特徴パラメータと認識辞書とのマッチ
ングを行って入力音声の認識を行う認識手段と、音声分
析手段により求められた特徴パラメータを認識辞書の学
習に関する学習データとして格納する学習データ格納手
段と、この学習データ格納手段に格納された学習データ
のうち、孤立発声単位の学習データに始まり、認識辞書
の学習の進展に伴って連続発声単位数が順次大きくなる
連続発声単位の学習データを順次選択する学習データ選
択手段と、この学習データ選択手段により選択された学
習データを前記認識手段に入力しセグメンテーションお
よび認識を同時に行い、該セグメンテーションの結果に
より前記特徴パラメータから学習用特徴ベクトルを学習
用パターンとして抽出する学習用パターン抽出手段と、
この学習用パターン抽出手段により抽出された学習用パ
ターンを格納する格納手段と、この学習用パターン格納
手段に格納された学習用パターンを用いて認識辞書の学
習を行う学習手段とを具備することを特徴とする。

【００２１】ここで、学習データは例えば単語あるいは
音素といった発声単位で構成され、例えば単語が発声単
位の場合、最初は孤立単語学習データ、次に連続２単語
学習データ、次に連続３単語学習データという順で選択
される。一方、学習用パターンとしては、例えば特徴ベ
クトルが抽出される。

【００２２】また、認識辞書作成手段においては、孤立
発声単位の学習データを用いて調音結合を含まない初期
辞書とは別に、連続発声単位の学習データ中の始端およ
び終端の少なくとも一方に調音結合を含むデータを用い
て認識辞書を作成することを特徴とする。

【００２３】

【作用】第１の発明では、単語全体パターンと音韻パタ
ーンをそれぞれ用いた２種類のマッチングによる単語認
識を併用することにより、語彙の変更や追加が容易で、
かつ高い認識性能が得られる。また、これら２種類のマ
ッチングによる単語認識により得られた第１段階での単
語候補系列に対して構文・意味解析を行うことにより、
単語候補の検出誤り、付加誤りが削減されるため、自由
発話に対する発話理解性能が向上する。

【００２４】さらに、単語全体パターンを用いたマッチ
ングで得られる類似度系列を基本とし、この類似度系列
の各類似度に対して特徴パラメータと音韻標準パターン
との照合により得られる尤度系列の尤度に従った重み付
けを行って変更を加え、この変更後の類似度系列から最
終単語候補系列を抽出し、これを構文および意味解析す
ることにより、正しい単語候補の検出精度が向上し、誤
って検出される単語候補が削減される。すなわち、単語
全体パターンによる類似度を主とし、音韻標準パターン
により得られる尤度を従として利用することにより、最
終的な単語検出性能、さらには発話理解性能が向上す
る。

【００２５】第２の発明では、音声認識装置の認識アル
ゴリズムによる発声データのセグメンテーションを用い
て連続音声認識辞書作成のための音声パターンを自動作
成するので、音声認識にとって最適な辞書を作成するこ
とが可能となり、さらに辞書作成に要する時間が大幅に
短縮される。また、辞書の学習に用いる学習用パターン
に含まれる単位数を１単位から徐々に増やすことによ
り、徐々に調音結合による音声パターンの変形を認識辞
書に学習させて、性能の高い連続音声認識用辞書が作成
できる。

【００２６】さらに、孤立発声単位の学習データを用い
て調音結合を含まない認識辞書（初期辞書）とは別に、
連続発声単位の学習データ中の始端および終端の少なく
とも一方に調音結合を含むデータを用いて、始端または
終端に調音結合を含む辞書、および始端および終端の両
方に調音結合を含む認識辞書を作成する、すなわち一つ
の認識単位に対して複数の認識辞書であるマルチテンプ
レートを作成することによって、より一層認識性能の高
い音声認識が可能となる。

【００２７】

【実施例】以下、本発明による音声認識装置の実施例に
ついて説明する。（実施例１）図１は、第１の発明に係る音声認識装置の
一実施例を示すブロック図である。同図において、音声
入力部１０１は例えばマイクロホンを介して音声信号を
入力し、これをＡ／Ｄ変換器によりディジタル信号に変
換して出力する。音声入力部１０１からのディジタル化
された入力音声信号は、音声分析部１０２に入力され
る。音声分析部１０２では、入力音声信号に対してＦＦ
Ｔ分析やＬＰＣ分析などの周波数分析が行われ、所定の
単位時間毎、例えば８ｍｓｅｃ毎にその特徴パラメータ
が求められる。音声入力部１０１からのディジタル化さ
れた音声信号は、音声データ格納部１０３にも供給され
る。

【００２８】音声分析部１０２で求められた特徴パラメ
ータの時系列は、第１および第２の始終端非固定連続パ
ターン照合部１０４および１１０に送られ、単語認識が
行われる。第１の始終端非固定連続パターン照合部１０
４は、入力される特徴パラメータに対して、単語全体の
パターンを認識単位として始終端非固定の連続パターン
照合を行い、単語候補系列を出力する。また、第２の始
終端非固定連続パターン照合部１１０は、入力される特
徴パラメータに対して、音韻を認識単位として始終端非
固定連続パターン照合を行い、同様に単語候補系列を出
力する。

【００２９】まず、単語全体のパターンを照合単位とす
る第１の始終端非固定連続パターン照合部１０４での処
理について説明する。第１の始終端非固定連続パターン
照合部１０４では、照合の際に予め単語の始終端点を決
定せずに、まず例えば入力音声信号の先頭から８ｍｓｅ
ｃおきの時点を単語の終端点ｔｅと仮定し、予め定めた
単語の最長継続時間および最短継続時間に従って、終端
点ｔｅに対する始端候補区間ｔｓを定める。

【００３０】次に、入力される特徴パラメータの始端候
補区間ｔｓの各時点毎に、単語の始終端区間を例えば等
間隔に１６点サンプルして時間方向１６点、周波数方向
１６点の１６×１６＝２５６次元ベクトルの単語特徴ベ
クトルを抽出し、この単語特徴ベクトルと単語標準パタ
ーン格納部１０５に格納された単語標準パターンとの類
似度を求める。単語終端点は、入力音声信号の先頭から
終了まで、例えば８ｍｓｅｃおきに連続的に仮定され、
その終端点毎に単語始端候補区間が設定される。すなわ
ち、１つの終端点に対して複数の始端点が対応し、複数
の単語特徴ベクトルが抽出される。また、単語の継続時
間長は単語によって異なるので、始端候補区間も単語毎
に別々に設定される（文献１：電子情報通信学会論文誌
Ｄ−II、Ｖｏｌ．Ｊ７６−Ｄ−II，ｐｐ．４２７−４３
５（１９９３．３）参照）。なお、第１の始終端非固定
連続パターン照合部１０４でのパターン照合に用いる類
似度の尺度としては、複合類似度やマハラノビス距離等
の統計的な尺度を使用できる。

【００３１】こうして第１の始終端非固定連続パターン
照合部１０４で得られた類似度系列は、第１の単語候補
系列抽出手段である類似度判定部１０６に送られる。こ
の類似度判定部１０６では、類似度のしきい値を定め、
図２に示すように類似度がしきい値を越える単語候補の
みを第１段階の単語候補系列（単語ラティス）として抽
出し、第１の構文・意味解析部１０７に送る。

【００３２】第１の構文・意味解析部１０７では、類似
度判定部１０６から入力された単語候補系列について構
文および意味解析を行う。具体的には、まず入力された
単語候補系列の接続関係を所定の規則に従って検証す
る。例えば、商品流通システムにおける品物の注文のタ
スクを例にとると、構文・意味解析部１０７に入力され
た単語候補系列の認識対象単語を品名，サイズ，数，制
御語（下さい、追加、いりませんなど）等の複数のカテ
ゴリに分類する。そして、カテゴリ及び単語の並びに関
する規則を例えば文脈自由文法等で記述し、ＬＲ（Ｌｅ
ｆｔ−ｔｏ−Ｒｉｇｈｔ）パージング法（文献２：情報
処理学会論文誌、Ｖｏｌ．３１，Ｎｏ．３，ｐｐ．４７
２−４８０（１９９０．３）参照）等の手法を用いて、
図３に示すような発話意味表現を生成する。図３の発話
意味表現の“ｓｃｏｒｅ”は、発話意味表現中に含まれ
る単語のスコア等により算出される値である。

【００３３】また、第１の構文・意味解析部１０７での
構文・意味解析に際して、入力される単語候補系列中の
単語候補の始終端点の時間的な重なりに基づいて解析を
行うといった、時間軸に関する制約を導入することによ
り、処理時間の短縮や処理性能の向上を図ることも可能
である。

【００３４】第１の構文・意味解析部１０７では、この
ようにして生成された複数の発話意味表現候補のうちス
コアの上位Ｎ個の候補が第２段階の単語候補系列として
選択され、これらが類似度−尤度変換部１０８へ送られ
る。このように上位Ｎ個の発話意味表現候補を選択する
ことにより、単語候補系列中の付加誤りの単語候補数を
削減でき、また総合判定部１０９での処理量を削減する
ことも可能となる。上位Ｎ個の発話意味表現候補に含ま
れる単語候補系列は、総合判定部１０９で後述する音韻
単位の単語候補系列との比較に供される。そこで、類似
度−尤度変換部１０８において、音韻標準パターン格納
部１１２に格納された音韻標準パターンと、音声分析部
１０２からの該当単語区間の特徴パラメータを用いて該
当単語の尤度を計算し、先に求めらた類似度と共に発話
意味表現中に格納する。

【００３５】次に、音韻を照合単位とする第２の始終端
非固定連続パターン照合部１１０について説明する。第
２の始終端非固定連続パターン照合部１１０では、単語
リスト格納部１１１に格納された認識対象の単語リスト
に基づき、音韻標準パターン格納部１１２に格納された
音韻標準パターンを接続して単語標準パターンを作成す
る。具体的には、例えば図４に示すように、音韻ＨＭＭ
（Hidden Markov Model)を音韻標準パターンとして、単
語を構成する音韻ラベルに基づき、音韻ＨＭＭを連結し
て単語ＨＭＭを構成する。そして、単語ＨＭＭを用いて
例えばストキャスティックＤＰ法（文献３：「確率モデ
ルによる音声認識」、中川聖一著、（社）電子情報通信
学会編、ＰＰ．87〜89参照）等に基づいて、第１の始終
端非固定連続パターン照合部１０４と同様に、始終端が
非固定の連続パターン照合を行う。

【００３６】こうして第２の始終端非固定連続パターン
照合部１１０で得られた単語の尤度系列は、第２の単語
候補系列抽出手段である尤度判定部１１３に入力され
る。この尤度判定部１１３では、尤度系列に対して予め
定めたしきい値により判定を行い、第２段階の単語候補
系列（単語ラティス）を求める。尤度判定部１１３で得
られた単語候補系列は、第２の構文・意味解析部１１４
へ送られる。

【００３７】第２の構文・意味解析部１１４では、前述
した単語全体パターンを用いた単語認識における第１の
構文・意味解析部１０７と同様の処理によって発話意味
表現候補が求められ、スコアの上位Ｎ位の発話意味表現
中の単語候補が第２段階の単語候補系列として総合判定
部１０９へ送られる。このように第２の構文・意味解析
部１１４においても、第１の構文・意味解析部１０７と
同様に上位Ｎ位の発話意味表現を選択することにより、
単語候補系列中の付加誤りの単語候補数を削減できる。

【００３８】総合判定部１０９では、前述した単語全体
パターンにより検出された類似度−尤度変換部１０８か
らの単語候補系列Ｗ１と、音韻標準パターンに基づき検
出された構文・意味解析部１１４からの単語候補系列Ｗ
２とを比較して総合判定を行うことにより、最終段階の
単語候補系列を求める。この場合、単語候補系列系列Ｗ
１とＷ２は共に尤度系列に基づくものであるため、総合
判定部１０９では両者を同じ尺度で容易に比較すること
が可能である。

【００３９】総合判定部１０９での具体的な処理を図５
により説明する。総合判定部１０９では、まず単語候補
系列Ｗ１およびＷ２中の単語候補のカテゴリ名（Ｃ１，
Ｃ２，…）と、単語区間の互いの時間的な重なりの検証
を行う。単語候補Ｗ１およびＷ２の両方にあるカテゴリ
名が同じ単語候補（図５の例ではカテゴリ名Ｃ２の単語
候補）については、その時間的な重なりが所定のしきい
値以上ある場合は同一候補と見なして、尤度の高い方の
候補のみを残す。図５の例では、単語候補Ｗ１にあるカ
テゴリ名Ｃ２の単語候補の尤度Ｌ４の方が単語候補Ｗ２
にあるカテゴリ名Ｃ２の単語候補の尤度Ｌ２より大きい
ため、単語候補Ｗ１にあるカテゴリ名Ｃ２の単語候補を
残す。

【００４０】一方、単語候補系列Ｗ１にあって、単語候
補系列Ｗ２にない単語候補については、その単語候補の
尤度に重み係数Ｐ１（Ｐ１＜１．０）で重み付けを行
う。図５の例では、カテゴリ名Ｃ１の単語候補が単語候
補系列Ｗ１にあり、単語候補系列Ｗ２にないため、この
単語候補の尤度Ｌ１に重み係数Ｐ１で重み付けを行う。

【００４１】さらに、単語候補系列Ｗ１になく、単語候
補系列Ｗ２にある単語候補については、その尤度に重み
係数Ｐ２（Ｐ２＜Ｐ１＜１．０）で重み付けを行う。図
５の例では、カテゴリ名Ｃ２の単語候補が単語候補系列
Ｗ１になく、単語候補系列Ｗ２にあるため、この単語候
補の尤度に重み係数Ｐ２で重み付けを行う。

【００４２】ここで、上記２つの重み係数の関係がＰ２
＜Ｐ１であるのは、一般に単語全体パターンに基づく単
語認識の方が音韻単位の単語認識に比べて性能が高いた
め、単語全体パターンに基づく単語認識の結果を優先す
るという理由による。

【００４３】次に、総合判定部１０９ではこうして尤度
に重み付けがなされた単語候補系列に対して再度、尤度
判定処理を行い、所定のしきい値以上の尤度をもつ候補
のみを抽出して第３の構文・意味解析部１１５へ送る。
また、最終的な単語候補系列と音声波形とから、所定の
一定長さ以上の継続時間を持ち、明らかに何らかの音声
が入力されているが、単語候補が出現していない区間を
未知語区間とし、カテゴリ名の代わりにそのまま未知語
区間の音声波形を持つようにして未知語候補として出力
する。

【００４４】第３の構文・意味解析部１１５では、総合
判定部１０９から入力された最終段階の単語候補系列に
対して、前述した単語全体パターンによる単語認識にお
ける第１の構文・意味解析部１０７と同様の処理を行
い、入力音声に対する最終的な音声認識結果たる発話意
味表現候補を求める。

【００４５】（実施例２）図６に、第２の発明に係る音
声認識装置の他の実施例を示す。先の実施例１では、第
１の始終端非固定連続パターン照合部１０４による照合
結果である類似度系列と、第２の始終端非固定連続パタ
ーン照合部１１０による照合結果である目尤度系列を対
等に用いて音声認識を行ったが、本実施例は始終端非固
定連続パターン照合部１０４による照合結果である類似
度系列による音声認識を基本とし、これを音韻標準パタ
ーン格納部１１２に格納された音韻標準パターンを用い
て検証するものである。すなわち、特徴パラメータと音
韻標準パターンとの照合により得られる尤度を用いて、
類似度系列中の類似度に重み付けを行って類似度に適宜
変更を加え、この変更後の類似度を用いて最終的な認識
結果を得ることが特徴である。

【００４６】図６において、音声入力部１０１でマイク
ロホンを介して入力されＡ／Ｄ変換器によりディジタル
化された入力音声信号は、音声分析部１０２によりＦＦ
Ｔ分析やＬＰＣ分析などの周波数分析が行われ、所定の
単位時間毎にその特徴パラメータが求められる。

【００４７】音声分析部１０２で求められた特徴パラメ
ータの時系列は始終端非固定連続パターン照合部１０４
に入力され、単語認識が行われる。始終端非固定連続パ
ターン照合部１０４は、実施例１と同様にして、入力さ
れる特徴パラメータに対し単語全体のパターンを認識単
位として始終端非固定の連続パターン照合を行い、単語
候補系列を類似度系列として出力する。

【００４８】始終端非固定連続パターン照合部１０４で
得られた類似度系列は、類似度判定部１０６に送られ
る。類似度判定部１０６では、実施例１と同様にして、
入力された類似度系列の各類似度を単語毎に定めたしき
い値と比較し、類似度がしきい値を越える単語候補のみ
を第１段階の単語候補系列として抽出して、第１の構文
・意味分析部１０７に送る。第１の構文・意味解析部１
０７では、実施例１と同様の処理により、類似度判定部
１０６から入力された単語候補系列について構文および
意味解析を行い、複数の発話意味表現候補を生成する。

【００４９】こうして第１の構文・意味解析部１０７で
生成された複数の発話意味表現候補のうち、スコアの上
位Ｎ個の候補が第２段階の単語候補系列として選択さ
れ、始終端非固定連続パターン照合部１０４で得られた
類似度系列と共に、尤度計算部１２１に送られる。尤度
計算部１２１には、音声分析部１０２からの特徴パラメ
ータの時系列も入力されている。尤度計算部１２１で
は、第１の構文・意味解析部１０７からの上位Ｎ個の発
話意味表現候補に含まれる単語候補について、音韻標準
パターン格納部１１２に格納された音韻標準パターン
と、音声分析部１０２からの該当単語区間の特徴パラメ
ータとを照合して、その単語候補に相当する単語の尤度
を計算し、類似度と共に格納する。

【００５０】尤度計算部１２１で計算された尤度は尤度
判定部１２２に入力され、しきい値より大きいかどうか
が判定される。尤度判定部１２２の判定結果は類似度変
更部１２３に入力され、尤度計算部１２１に格納されて
いる類似度に対する重み係数が決定されると共に、この
重み係数を用いて尤度計算部１２１からの類似度に重み
付けが行われることにより、類似度が変更される。類似
度変更部１２３により変更された類似度は、さらに類似
度判定部１２４に入力され、しきい値処理される。そし
て、類似度判定部１２４の判定結果が最終段階の単語候
補系列として第２の構文・意味解析部１２５に入力され
る。第２の構文・意味解析部１２５では、入力された単
語候補系列に対して、構文および意味解析を行い、入力
音声に対する最終的な音声認識結果たる発話意味表現候
補を得る。

【００５１】次に、本実施例での特徴的な処理につい
て、図７に示す各段階での単語ラティスの構造と図８に
示すフローチャートを参照して説明する。前述したよう
に、尤度計算部１２１は各単語候補に相当する単語につ
いて尤度を計算すると共に、その尤度と始終端非固定連
続パターン照合部１０４で得られた類似度を組にして格
納する。その様子を図８（ａ）に示す。図８（ａ）にお
いては、各単語名の横の（）内に記された数値のうち
上段が類似度、下段が尤度を表わす。

【００５２】そして、尤度計算部１２１に格納された類
似度と尤度の組を読み込み（ステップＳ１）、まず尤度
判定部１２２で尤度に関するしきい値処理を行う（ステ
ップＳ２）。ここで、尤度がしきい値よりも小さい場
合、その尤度を持つ単語候補は候補から除く（ステップ
Ｓ３）。

【００５３】一方、ステップＳ２で尤度がしきい値より
大きいと判定された場合、類似度変更部１２３におい
て、まず尤度計算部１２１から読み込まれた尤度に基づ
いてステップＳ１で読み込まれた類似度に対する重み係
数を決める（ステップＳ４）。具体的には、例えば尤度
に基づいて決定される重み係数の範囲をＷmin 〜Ｗmax
（０≦Ｗmin ，Ｗmax ≦１）とし、予め該当単語のとり
うる尤度Ｌの範囲Ｌmin〜Ｌmax を定めることにより、
以下の式で重み係数αを定義することができる。なお、
尤度判定部１２２におけるしきい値は、Ｌmin より小さ
な値に設定されているものとする。

【００５４】 (i) Ｌ＜Ｌmin の場合 α＝Ｗmin (ii) Ｌmin ≦Ｌ≦Ｌmax の場合 α＝Ｗmin ＋（Ｗmax −Ｗmin ）（Ｌ−Ｌmin ）／（Ｌ
max −Ｌmin ） (iii) Ｌmax ＜Ｌ α＝Ｗmax このようにして、尤度に応じて類似度に対する重み係数
の最大値Ｗmax と最小値Ｗmin を決定することができ
る。次に、類似度変更部１２３では、上記のようにして
決定された重み係数を用いて、ステップＳ１で尤度計算
部１２１から読み込んだ類似度に対する重み付けを行う
ことによって、その類似度を変更する（ステップＳ
５）。この類似度変更後の単語ラティスを図７（ｂ）に
示す。この例によれば、例えば図７（ａ）中の単語Ａの
類似度０．９５は、図７（ｂ）中に示すように０．９１
に変更されている。

【００５５】そして、次に類似度変更後の単語ラティス
について、類似度判定部１２４において再度、類似度を
しきい値処理して類似度判定を行い、単語候補系列を選
択する（ステップＳ６）。この類似度判定後の単語ラテ
ィスを図７（ｃ）に示す。これは、例えばしきい値を
０．８５に設定した場合の例であり、０．８５に満たな
い類似度は単語候補系列から除去されている。さらに、
類似度判定部１２４では選択した単語候補系列に重み付
けされた類似度を付加して格納する。

【００５６】最後に、この単語候補系列を構文・意味解
析部１２５に送り、構文および意味解析を行うことによ
り、入力音声に対する最終的な音声認識結果である発話
意味表現候補を得る。

【００５７】このように本実施例によると、始終端非固
定連続パターン照合部１０４で得られる類似度系列を基
本とし、この類似度系列の各類似度に対して音声分析部
１０２で得られた特徴パラメータと音韻標準パターン格
納部１１２に格納された音韻標準パターンとの照合によ
り得られる尤度系列の尤度に従った重み付けを行って変
更し、この変更後の類似度系列を類似度を判定部１２４
でしきい値処理した結果を用いて構文・意味解析部１２
５で構文および意味解析を行うことにより、正しい単語
候補の検出精度を上げ、誤って検出された単語候補を削
減することができる。すなわち、始終端非固定連続照合
部１０４での照合単位となる単語全体パターンによる類
似度を主とし、音韻標準パターンにより得られる尤度を
従として利用することにより、最終的な単語検出性能、
さらには発話理解性能を向上させることができる。

【００５８】実施例１では類似度を尤度に変換し、尺度
の異なる単語候補を同一の尺度で比較する方法を示した
が、実施例２では尤度を補助的に用い、類似度に重み付
けする方法をとっている点が異なる。このように実施例
２によれば、異なる認識単位を用いて始終端非固定の単
語検出精度、さらには発話理解性能の向上を可能とする
ことができる。

【００５９】なお、第２の発明は上述した実施例１およ
び２に限定されるものでなく、例えば類似度や尤度等は
様々な尺度を利用することが可能であり、また本発明に
よる音声認識装置の用途についても、実施例で示した品
物の注文を行うタスクに特に限定されるものでないこと
は勿論である。

【００６０】（実施例３）図９に、第２の発明に係る連
続音声認識用辞書作成機能を備えた音声認識装置の構成
を示す。本実施例では、複合類似度法にもとづく連続単
語認識方法を用いた音声認識装置において使用する連続
単語辞書を作成する場合を例にとって説明する。

【００６１】図９において、入力音声信号は音響処理部
２０１に入力される。この音響処理部２０１では、個々
の音声データをＡ／Ｄ変換器によりディジタル化した
後、例えば８ｍｓｅｃを１フレームとして、フレーム毎
に２４ｍｓｅｃ幅の窓をかけてフーリエ変換を施し、１
６チャンネルのスペクトルパターン（１６次元ベクトル
の時系列）を特徴パターンとして抽出する。また、音響
処理部２０１は同時に音声区間の検切を行い、音声区間
の始端となるフレームと終端となるフレームのフレーム
番号をスペクトルパターンにラベリングし、学習データ
格納部２０２へ出力する。ここで、音声区間の検切の方
法については、例えば、新美康永著「音声認識」（共立
出版）、１９７９年の第６８頁〜第７２頁に記載された
方法を用いれば良い。

【００６２】学習データ格納部２０２では、音響処理部
２０１から入力されたスペクトルパターンに対して、辞
書作成作業者が発声した単語数と単語名を入力して、こ
れを後述する認識辞書の学習のための学習データとして
格納する。

【００６３】辞書作成管理部２０３は、認識辞書の作成
および学習の進行状況に応じて学習データ格納部２０２
から学習データを読み込む。また、辞書作成管理部２０
３は学習すべき辞書を認識辞書格納部２０９に指示す
る。認識辞書格納部２０９は、音声認識部２０５に認識
辞書を引き渡す。

【００６４】次に、辞書作成管理部２０３による連続音
声認識用単語辞書の作成手順を図１０に示すフローチャ
ートを用いて説明する。まず、学習データ格納部２０２
から読み込んだ孤立発声された単語の学習データである
孤立単語学習データから、孤立単語辞書を初期辞書とし
て作成する（ステップＳ１１）。

【００６５】次に、学習データ格納部２０２から連続２
単語学習データセットを読み込み、このデータセットに
対して単語認識辞書の学習を行う。この学習は、連続２
単語学習データセットを固定し、同一の学習データセッ
トに対して終了条件を満たすまで反復して行う（ステッ
プＳ１２）。終了条件としては、例えば学習の反復回数
に上限を設定する方法がある。他の方法としては、学習
データセットに単語名と単語数を与えずに、学習が終っ
た単語認識辞書を用いて音声認識部２０５で音声認識を
行い、認識率が最高値を示してから以降、予め定めた一
定回数だけ反復してもその最高値を越えなかった場合に
終了とする。後者の場合には、認識率が最高となった時
の単語認識辞書に戻って学習を再開する。

【００６６】さらに、今度は学習データ格納部２０２か
ら連続３単語学習データセットを読み込んで、同様に上
記の終了条件を満たすまで単語認識辞書の学習を反復し
て行う（ステップＳ１３）。

【００６７】こうして連続３単語学習データに対する学
習が終了した後は、辞書作成作業者からの指示によっ
て、まだ学習に用いられていない学習データ、既に学習
済みの学習データ、および新たに追加されたデータなど
に対して、連続音声認識用単語辞書の追加学習を行う
（ステップＳ１４）。

【００６８】辞書作成管理部２０３は、図１０の辞書作
成手順を実現するために、図１１のフローチャートに示
す手順によって学習データ格納部２０２から読み込むべ
き学習データを選別する。

【００６９】まず、辞書作成管理部２０３は辞書作成作
業者による発声データと学習すべき辞書の指定があるか
ないかを判定し（ステップＳ２１）、指定がある場合に
は指定されたデータを学習データ格納部２０２から読み
込み、スイッチ２０４を介して音声認識部２０５に渡す
（ステップＳ２２）。また、指定された辞書を認識辞書
格納部２０９から音声認識部２０５に渡す（ステップＳ
２３）。

【００７０】次に、辞書作成管理部２０３はデータと辞
書の指定がない場合には、辞書の学習がどの段階まで進
んでいるか判定する（ステップＳ２４，Ｓ２９，Ｓ３
２）。そして、辞書の学習の進行状況に応じた学習デー
タを学習データ格納部２０２から読み込んで、スイッチ
２０４を介して音声認識部２０５に渡し（ステップＳ２
５，Ｓ２７，Ｓ３０，Ｓ３３）、辞書の作成あるいは学
習が終了するのを待つ（ステップＳ２６，Ｓ２８，Ｓ２
９，Ｓ３１）。

【００７１】以上のように、本実施例では調音結合のな
い孤立発声された単語の学習データである孤立単語学習
データから作成した単語辞書を初期辞書として、連続２
単語学習データ、つまり単語の始端あるいは終端に調音
結合を含むデータを学習し、さらに連続３単語学習デー
タ、つまり両端に調音結合を含むデータを学習するとい
う段階を踏むことにより、孤立単語データから作成した
単語辞書によって連続３単語のデータのセグメンテーシ
ョンを直接行う場合に比較して、より正確なセグメンテ
ーションを行うことができ、もって認識率の高い認識が
できる認識辞書を効率良く得ることが可能となる。

【００７２】制御部２１０は、音声認識部２０５の入力
側に設けられたスイッチ２０４の切替え、音声認識部２
０５で用いる辞書の指定、学習データ格納メモリ２０２
から辞書作成管理部２０３に読み込むべき学習データの
指定などを行う。

【００７３】音声認識部２０５では、音響処理部２０１
からスイッチ２０４を介して入力されたスペクトルパタ
ーンの認識を行う。この場合、辞書作成管理部２０３あ
るいは制御部２１０からの指定がない限り、認識辞書格
納部２０９に格納されている認識辞書の中で最も新しい
辞書を認識に用いる。

【００７４】次に、本実施例における音声認識アルゴリ
ズムを説明する。まず、単語数をｗと固定したとき、Ｒｗ＝（Ｆ１，Ｆ２，…Ｆ（ｗ−１），Ｌ１，Ｌ２，…，Ｌｗ）＝argmax｛Ｓ（ｌ１)(１，ｆ１）＋Ｓ（ｌ２)(ｆ１＋１，ｆ２）＋… （ｆ１，ｆ２，…，ｆ（ｗ−１），ｌ１，ｌ２，…，ｌｗ）＋Ｓ（ｌｗ)(ｆ（ｗ−１）＋１，Ｎ）｝ …（１）

【００７５】

【数１】と定義する。ここで、Ｒｗはｗ単語と仮定した場合の単
語認識の結果とセグメンテーションを表わし、Ｆ１，Ｆ
２，…，Ｆ（ｗ−１）は単語の区切れ位置を示すフレー
ム番号、Ｌ１，Ｌ２，…，Ｌｗは第１単語から第ｗ単語
である。また、Ｓ（ｌ）（ｆ，ｇ）は始端を第ｆフレー
ム、終端を第ｇフレームとするセグメントに対応する特
徴ベクトルと、単語ｌの辞書との複合類似度を表す。

【００７６】Ｗを予め指定された最大連続単語数とし
て、ｗを１からＷまで変えてＳ１からＳＷとＲ１からＲ
Ｗまでを全て計算し、Ｗ^* ＝argmax｛Ｓ１，Ｓ２…，ＳＷ｝ …（３）を求め、ＲＷ^* ＝（Ｆ１，Ｆ２，…，Ｆ（Ｗ^* −１），Ｌ１，Ｌ２，…，ＬＷ^* ） …（４）を音声パターンのセグメンテーションおよび単語認識結
果として出力する。

【００７７】辞書作成の際には、スペクトルパターンの
単語名、単語数は既知であるので、音声認識部２０５で
はセグメンテーションのみを行う。入力されたパターン
の単語数がｖで、発声単語が発声順にＬ１，Ｌ２，…，
Ｌｖである時には、セグメンテーション（Ｆ１，Ｆ２，
…，Ｆ（ｖ−１））は、（Ｆ１，Ｆ２，…，Ｆ（ｖ−１））＝argmax｛Ｓ（Ｌ１)(１，ｆ１）＋Ｓ（Ｌ２)(ｆ１＋１，ｆ２）＋… ｆ１，ｆ２，…，ｆ（ｖ−１）＋Ｓ（ＬＭ)(ｆ（ｖ−１）＋１，Ｎ）｝ …（５）によって求められる。

【００７８】図９の特徴ベクトル抽出部１５では、音声
認識部２０５からスペクトルパターンとセグメンテーシ
ョン結果を受け取り、学習用パターンとしての特徴ベク
トルを以下のように作成する。

【００７９】セグメンテーション結果に基づき、各セグ
メント毎に等間隔に１６フレームを選び、セグメントの
始端フレームｓを第１番目、終端フレームｅを第１６番
目とし、周波数方向１６チャネルの場合、１６×１６＝
２５６次元ベクトルとして表したベクトルをｘ＝（ｘ11，ｘ12，…，ｘ1,16，ｘ21，ｘ22，…，ｘ16,16 ） …（６）とする。ここで、ｘijは選ばれた１６本のフレームのう
ち第ｉ番目のフレームの第ｊチャンネルの成分を表し、
ｘｔはｘの転置を表す。また、全フレーム数が１６の倍
数ではない時には、ｋ＝（ｅ−ｓ）／１５ …（７）とし、第ｓ，第（１＋［ｋ］），第（ｓ＋［２ｋ］），
…，第（ｓ＋［１４ｋ］），第ｅフレームの１６フレー
ムを選択する。ただし、［ｊ］はｊを四捨五入すること
を表す。

【００８０】複合類似度法については、「パターン認識
と部分空間法」エルッキ・オヤ著、小川英夫、佐藤誠訳
（産業図書１９８６年）に記載がある。音声認識部２０
５が音響処理部２０１からの出力を入力として音声認識
を行う場合には、出力結果として評価関数Ｆの極値を実
現するフレーム区間［ｓｉ，ｅｉ］と単語列ｌｉ（ｉ＝
１，２，…，ｗ）を求めて出力する。また、辞書学習時
には認識正解単語列が予め分かっているので、評価関数
はフレーム区間のみの関数となる。この場合には、評価
関数の極値を与える単語区間［ｓｉ，ｅｉ］（ｉ＝１，
２，…，ｗ）を求めて出力する。

【００８１】特徴ベクトル格納部２０７では、音声認識
部２０５で求めた各単語区間から単語特徴ベクトルを作
成し、これを単語名や単語区間長などをラベリングして
格納する。

【００８２】認識辞書学習部２０８では、特徴ベクトル
格納部２０７から単語ｌに対するｐ個の特徴ベクトル
｛ｘ（ｌ）ｉ｝（ｉ＝１，２，…，ｐ）を読み込み、こ
の特徴ベクトルから単語ｌの辞書を作成あるいは学習す
る。複合類似度法の辞書作成・学習については、「パタ
ーン認識と部分空間法」エルッキ・オヤ著、小川英夫、
佐藤誠訳（産業図書１９８６年）に記載がある。この
後、認識辞書格納部２０９では、学習し終えた辞書を最
新の辞書として格納する。

【００８３】再び辞書作成管理部２０３に戻り、終了条
件と照合して辞書学習を反復するかどうかを判定し（ス
テップＳ３４，Ｓ３９，Ｓ３２）、連続単語認識用辞書
が完成するまで必要なステップの処理を実行する。

【００８４】制御部２１０は、音声認識部２０５の入力
側に設けられたスイッチ２０４の切替え、音声認識部２
０５で用いる辞書の指定および学習データ格納メモリ２
０２から辞書作成管理部２０３に読み込むべき学習デー
タの指定など、認識および学習の全体の流れを自動で、
あるいは辞書作成作業者が指示を与えて管理するための
部分である。

【００８５】（実施例４）第２の発明に係る他の実施例
を説明する。本実施例は、音素を認識単位とする場合の
複合類似度法による日本語の連続音声認識に関するもの
である。辞書作成管理部２０３および音声認識部２０５
での認識アルゴリズムにおいて認識単位が単語に代わっ
て音素になること以外は、実施例３と同じである。

【００８６】本実施例においては、学習データ格納部２
０２には最低、母音の孤立発声データ、音節（連続２音
素）の学習データ、（母音）＋（子音または母音）＋
（母音）の形の連続３音素の学習データを格納する。こ
のデータは日本語として意味をなさなくても構わない。

【００８７】辞書作成管理部２０３では、図１２のフロ
ーチャートに示す手順より辞書を作成するために、図１
３のフローチャートに示す手順に従って学習データを選
択する。

【００８８】図１２を用いて辞書作成手順を説明する
と、まず母音の孤立発声データから母音の辞書を作成す
る（ステップＳ４１）。次に、母音の辞書を用いて子音
の辞書を作成するために、音節の学習データを読み込み
（ステップＳ４２）、音声認識部２０５でセグメンテー
ションを行う。音節は子音＋母音の形をとり、また、こ
の段階では子音の辞書は作成されていないので、例えば
「か」（／ＫＡ／）のセグメンテーションについて、／
Ｋ／に対する類似度は全てのフレームｆ１についてＳ（／Ｋ／）（１，ｆ１）＝０ …（１１）と定め、セグメンテーションの式（５）において

【００８９】

【数２】とするように、子音の類似度は０として母音部分だけの
類似度によってセグメンテーションを行う。ここで、ｎ
は／ＫＡ／のスペクトルパターンの音声区間の最終フレ
ームである。このとき、／Ｋ／に対応するセグメントは
（１，Ｆ１）であり、／Ａ／に対応するセグメントは
（Ｆ１＋１，ｎ）である。このデータに基づいて認識辞
書学習部２０８において子音の辞書を作成し、同時に母
音の辞書の学習を行う。

【００９０】こうして子音辞書を作成し、再び音節の学
習データをセグメンテーションを行う。ここで、式（１
５）のように子音に対して類似度を０とすることなく、
通常のセグメンテーション、つまり式（５）においてｖ
を２とおいた式により、セグメンテーションを行う。実
施例３の場合と同様に、音節の学習データについて学習
を反復する（ステップＳ４３）。

【００９１】さらに、連続３音素発声データのセグメン
テーションを行い、辞書の学習を反復する。この反復が
完了した時をもって連続音声認識用辞書の作成が終了し
たという（ステップＳ４４）。

【００９２】さらに学習が済んでいないデータについ
て、辞書の追加学習を行う（ステップＳ４５）。図１２
の辞書作成の手順を実現するための辞書作成管理部２０
３における処理手順を示すフローチャートが図１３であ
る。

【００９３】まず、学習すべき辞書と、学習に用いるデ
ータの指定があるかないかを判定する（ステップＳ５
１）。指定がある場合は、指定されたデータと辞書を音
響処理部２０１に渡す（ステップＳ５２，Ｓ５３）。指
定がない場合は、学習の進度に応じてデータを読み込み
（ステップＳ５５，Ｓ５７，Ｓ６０，Ｓ６３）、辞書の
学習あるいは作成が終了するのを待つ（ステップＳ５
６，Ｓ５８，Ｓ６１）。辞書の作成あるいは学習が終了
すると、学習が終了条件を満たすかどうかを判定する
（ステップＳ５４，Ｓ５９，Ｓ６２）。

【００９４】このように第２の発明によれば、徐々に連
続する単語あるいは音韻といった認識単位の連続する数
（連続発声単位数）を順次大きくして辞書の学習を段階
的に行うことによって、調音結合による音声パターンの
変形に対して強く、認識率の高い音声認識を可能とする
認識辞書を効率良く作成することができる。

【００９５】また、実施例３や実施例４に評価関数Ｆに
よるセグメンテーションに制約を加えることもできる。
例えば、単語区間長に関する制約について説明する。単
語毎に単語区間長の制限を設けて、単語ｌに対して予め
統計をとるなどして、単語区間長の最大値をＬｍａｘ
（ｌ）、最小値をＬｍｉｎ（ｌ）と制限し、制約をつけ
た評価関数Ｆ（ｗ，［ｓ１，ｅ１］，［ｓ２，ｅ２］，…，［ｓｗ，ｅｗ］，ｌ１，ｌ２，…，ｌｗ）ｌｍｉｎ（ｌｉ）≦ｅｉ−ｓｉ≦Ｌｍａｘ（ｌｉ），ｉ＝１，２，…，ｗ …（１３）によってセグメンテーションを行う。これにより、セグ
メンテーションの誤りを削減でき、誤ったデータによる
辞書学習を減らすことができる。

【００９６】（実施例５）第２の発明に係るさらに別の
実施例を説明する。先の実施例３および４では、孤立発
声単位の学習データ（孤立単語学習データ）から孤立単
語辞書を初期辞書として作成し、この初期辞書を用いて
連続発声単位数を順次大きくし、これらの連続発声単位
の学習データを基に初期辞書を更新してゆくことにより
認識辞書の作成および学習を行うので、個々の認識単位
（孤立発声単位または連続発声単位）に対して作成され
る認識辞書はそれぞれ１つである。

【００９７】これに対して、本実施例は個々の認識単位
に対して、調音結合に応じて区別した複数の認識辞書、
いわゆるマルチテンプレートを作成することによって、
認識性能をさらに向上させるものである。ここでは、実
施例３と同様に認識辞書として単語辞書を作成する場合
を例にとり、図１４に示すフローチャートを用いて説明
する。

【００９８】まず、実施例３と同様に孤立単語学習デー
タから孤立単語辞書を初期辞書として作成し（ステップ
Ｓ７１）、次いで初回の辞書学習において連続２単語学
習データをセグメンテーションする（ステップＳ７
２）。先の実施例３では、この連続２単語学習データか
ら得られた片側に調音結合を含むデータを初期辞書の学
習に用いていた。これに対し、本実施例では連続２単語
学習データから初期辞書とは別に、連続２単語学習デー
タ中の終端または始端のいずれかに調音結合を含むデー
タを用いて、新たな辞書（これを片側調音結合辞書と呼
ぶ）を作成する（ステップＳ７３）。

【００９９】図１５および図１６は、それぞれ連続２単
語データおよび連続３単語データのセグメンテーション
の例であり、発声データのパターンを長方形で表し、セ
グメンテーション位置（単語の区切れ位置）を破線で表
している。図１５に示すように、連続２単語学習データ
からは単語始端に調音結合を含むデータと単語終端に調
音結合を含むデータの２種類が得られるので、これら２
種類のデータを区別して始端調音結合辞書と終端調音結
合辞書を作成することが可能である。図１５において
は、「１０（いちぜろ）」における「いち」のように単
語の終端に調音結合を含む場合と、「０１（ぜろい
ち）」における「いち」のように単語の始端に調音結合
を含む場合とを区別して、「いち」に対して調音結合の
位置に応じて２つの認識辞書、つまり始端調音結合辞書
と終端調音結合辞書を作成する。

【０１００】次に、このようにして作成された片側調音
結合辞書（始端調音結合辞書または終端調音結合辞書）
に対し、連続２単語学習データを用いて学習を反復する
（ステップＳ７４）。また、調音結合位置に関して始終
端を区別して辞書を作成する場合には、単語終端に調音
結合を含むデータを用いて終端調音結合辞書の学習を行
い、単語始端に調音結合を含むデータを用いて始端調音
結合辞書の学習を行うようにする。なお、これらのいず
れの場合も学習の終了条件は実施例３と同じである。

【０１０１】次に、連続３単語データに対し、初期辞書
と調音結合辞書の両方をマルチテンプレートとして用い
るか、あるいは初期辞書および片側調音結合辞書の一方
を用いて、セグメンテーションを行う（ステップＳ７
５）。この連続３単語のセグメンテーションによって、
図１６に示すように単語終端、単語始端、および単語の
始終両端に調音結合を含むデータが得られる。これらの
うち、単語始端あるいは単語終端に調音結合を含むデー
タを用いて片側調音結合辞書の学習、もし始終端の区別
を行う場合には、単語始端あるいは単語終端調音結合辞
書の学習を行う。ここで、さらに始終両端に調音結合を
持つデータのみで新たな辞書（これを両側調音結合辞書
と呼ぶ）を作成する（ステップＳ７６）。

【０１０２】そして、この連続３単語データを用いて、
片側調音結合と辞書両側調音結合辞書の学習を以下のよ
うにして行う。すなわち、連続３単語学習データのセグ
メンテーションを行うときには、第１単語に対しては片
側調音結合辞書あるいは終端調音結合辞書、第２単語に
ついては両端調音結合辞書、第３単語に対しては片側調
音結合辞書あるいは始端調音結合辞書を用いてそれぞれ
尤度を計算し、その尤度に従ってセグメンテーションを
行う。このセグメンテーション結果から、調音結合に応
じて片側調音結合辞書と両側調音結合辞書の学習を行う
（ステップＳ７７）。そして、終了条件を満たすまで学
習を反復する。

【０１０３】連続４単語データ以上についても、第１単
語と第４単語については片側あるいは始端・終端の区別
に応じた調音結合辞書を用い、それ以外の第２および第
３単語については両側調音結合辞書を用いて尤度計算、
セグメンテーションを行い、調音結合に応じたデータに
より辞書を学習する。また、孤立単語学習データがある
場合には、孤立単語辞書の学習を行う（ステップＳ７
８）。

【０１０４】以上のように、本実施例によれば孤立発声
単位の学習データを用いて調音結合を含まない認識辞書
（初期辞書）を作成し、さらに連続発声単位の学習デー
タ中の始端および終端の少なくとも一方に調音結合を含
むデータを用いて、始端または終端に調音結合を含む辞
書、および始端および終端の両方に調音結合を含む認識
辞書を作成することができる。すなわち、一つの認識単
位に対して複数の認識辞書いわゆるマルチテンプレート
を作成することによって、さらに認識性能の高い音声認
識が可能となる。

【０１０５】

【発明の効果】第１の発明によれば、単語全体パターン
と音韻パターンをそれぞれ用いた２種類のマッチングに
よる単語認識を併用することにより、語彙の変更や追加
が容易で、かつ高い認識性能を得ることができ、また２
種類のマッチングによる単語認識により得られた第１段
階での単語候補系列に対して構文・意味解析を行うこと
により、単語候補の付加誤りが削減されるため、自由発
話に対する発話理解性能が向上する。

【０１０６】また、第１の発明によれば単語全体パター
ンを用いたマッチングで得られる類似度系列を基本と
し、この類似度系列の各類似度に対して特徴パラメータ
と音韻標準パターンとの照合により得られる尤度系列の
尤度に従った重み付けを行って変更を加え、この変更後
の類似度系列から最終単語候補系列を抽出し、これを構
文および意味解析することにより、正しい単語候補の検
出精度を上げ、誤って検出された単語候補を削減するこ
とができる。すなわち、単語全体パターンによる類似度
を主とし、音韻標準パターンにより得られる尤度を従と
して利用することにより、語彙の変更や追加が容易であ
ることに加えて、最終的な単語検出性能、さらには発話
理解性能が向上するという利点がある。

【０１０７】第２の発明によれば、音声認識装置の認識
アルゴリズムによる発声データのセグメンテーションを
用いて連続音声認識辞書作成のための音声パターンを自
動作成するので、音声認識にとって最適な辞書を作成す
ることが可能となり、また辞書作成の時間が大幅に短縮
され、さらに辞書の学習に用いるスペクトルパターンに
含まれる認識単位数を１単位から徐々に増やすことによ
り、徐々に調音結合によるパターン変形を認識辞書に学
習させることで、性能の高い連続音声認識用辞書を作成
でき、もって連続音声に対する認識性能を向上させるこ
とができる。

【０１０８】さらに、第２の発明によれば孤立発声単位
の学習データを用いて調音結合を含まない認識辞書（初
期辞書）を作成し、さらに連続発声単位の学習データ中
の始端および終端の少なくとも一方に調音結合を含むデ
ータを用いて、始端または終端に調音結合を含む辞書、
および始端および終端の両方に調音結合を含む認識辞書
を作成することができる。すなわち、一つの認識単位に
対して複数の認識辞書いわゆるマルチテンプレートを作
成することによって、さらに認識性能の高い音声認識が
可能となる。

【図面の簡単な説明】

【図１】第１の発明に係る音声認識装置の実施例を示す
ブロック図

【図２】図１における類似度判定部から出力される第１
段階の単語候補系列（単語ラティス）の一例を示す図

【図３】図１における第１の構文・意味解析部で生成さ
れる第２段階の単語候補系列（発話意味表現）の一例を
示す図

【図４】図１における第１の始終端非固定連続パターン
照合部の処理を説明するための図

【図５】図１における総合判定部の処理を説明するため
の図

【図６】第１の発明に係る他の音声の認識装置の他の実
施例を示すブロック図

【図７】同実施例における尤度計算後と類似度変更後お
よび類似度判定後の単語ラティスを示す図

【図８】同実施例における要部の処理手順を説明するた
めのフローチャート

【図９】第２の発明に係る音声認識装置の実施例を示す
ブロック図

【図１０】第２の発明に係る一実施例における連続音声
認識用単語辞書の作成手順を示すフローチャート

【図１１】同実施例において図１０の辞書作成手順を実
現するための図９における辞書作成管理部の処理手順を
示すフローチャート

【図１２】第２の発明に係る他の実施例における連続音
声認識用単語辞書の作成手順を示すフローチャート

【図１３】同実施例において図１２の辞書作成手順を実
現するための図９における辞書作成管理部の処理手順を
示すフローチャート

【図１４】第２の発明に係るさらに別の実施例における
連続音声認識用単語辞書の作成手順を示すフローチャー
ト

【図１５】同実施例における連続２単語のセグメンテー
ションの例を示す図

【図１６】同実施例における連続３単語のセグメンテー
ションの例を示す図

【符号の説明】

１０１…音声入力部１０２…音声分析部１０３…音声データ格納部１０４…第１の始終端非固定連続パターン照合部（第１
の照合手段）１０５…単語標準パターン格納部１０６…類似度判定部（第１の単語候補系列抽出手段）１０７…第１の構文・意味解析部１０８…類似度−尤度変換部１０９…総合判定部１１０…第２の始終端非固定連続パターン照合部（第２
の照合手段）１１１…音韻標準パターン格納部１１２…単語リスト格納部１１３…尤度判定部（第２の単語候補系列抽出手段）１１４…第２の構文・意味解析部１１５…第３の構文・意味解析部１１６…制御部１２１…尤度計算部１２２…尤度判定部１２３…類似度変更部１２４…類似度判定部１２５…構文・意味解析部２０１…音響処理部２０２…学習データ格納部２０３…辞書作成管理部２０４…スイッチ２０５…音声認識部２０６…特徴ベクトル抽出部２０７…特徴ベクトル格納部２０８…認識辞書学習部２０９…認識辞書格納部２１０…制御部

Claims

【特許請求の範囲】

【請求項１】外部から入力された入力音声を分析して該
入力音声の特徴を表わす特徴パラメータを求める入力音
声分析手段と、この入力音声分析手段により求められた前記特徴パラメ
ータを複数の単語のそれぞれの標準的なパターンを示す
単語標準パターンと照合する第１の照合手段と、前記入力音声分析手段により求められた前記特徴パラメ
ータを複数の音韻のそれぞれの標準的なパターンを示す
音韻標準パターンから作成した単語標準パターンと照合
する第２の照合手段と、前記第１および第２の照合手段の照合結果から前記入力
音声に対応する第１段階の単語候補系列をそれぞれ抽出
する第１および第２の単語候補系列抽出手段と、前記第１および第２の単語候補系列抽出手段により抽出
された第１段階の単語候補系列に対してそれぞれ構文お
よび意味解析を行い、第２段階の単語候補系列をそれぞ
れ出力する第１および第２の構文・意味解析手段と、前記第１および第２の構文・意味解析手段からそれぞれ
出力される第２段階の単語候補系列を総合判定して最終
単語候補系列を出力する判定手段と、この判定手段から出力される最終単語候補系列に対して
構文および意味解析を行い、前記入力音声に対する音声
認識結果を得る第３の構文・意味解析手段とを具備する
ことを特徴とする音声認識装置。
【請求項２】外部から入力された入力音声を分析して該
入力音声の特徴を表わす特徴パラメータを求める入力音
声分析手段と、この入力音声分析手段により求められた前記特徴パラメ
ータを複数の単語のそれぞれの標準的なパターンを示す
単語標準パターンと照合する第１の照合手段と、前記入
力音声分析手段により求められた前記特徴パラメータを
複数の音韻のそれぞれの標準的なパターンを示す音韻標
準パターンから作成した認識対象単語の標準的なパター
ンを示す単語標準パターンと照合する第２の照合手段
と、前記第１および第２の照合手段の照合結果から前記入力
音声に対応する第１段階の単語候補系列をそれぞれ抽出
する第１および第２の単語候補系列抽出手段と、前記第１および第２の単語候補系列抽出手段により抽出
された第１段階の単語候補系列に対してそれぞれ構文お
よび意味解析を行い、第２段階の単語候補系列をそれぞ
れ出力する第１および第２の構文・意味解析手段と、前記第１および第２の構文・意味解析手段からそれぞれ
出力される第２段階の単語候補系列を総合判定して最終
単語候補系列を出力する判定手段と、この判定手段から出力される最終単語候補系列に対して
構文および意味解析を行い、前記入力音声に対する音声
認識結果を得る第３の構文・意味解析手段とを具備し、前記判定手段は、前記第１および第２の構文・意味解析
手段からそれぞれ出力される前記第２段階の単語候補系
列中の各単語候補に対し、該単語候補のカテゴリ名と継
続時間の重なりおよび尤度を用いて前記最終単語候補系
列の候補とするか否かの判定を行うことを特徴とする音
声認識装置。
【請求項３】外部から入力された入力音声を分析して該
入力音声の特徴を表わす特徴パラメータを求める入力音
声分析手段と、この入力音声分析手段により求められた前記特徴パラメ
ータを複数の単語のそれぞれの標準的なパターンを示す
単語標準パターンと照合して、該特徴パターンと該単語
標準パターンとの類似度を表わす類似度系列を生成する
照合手段と、この照合手段により生成された類似度系列から前記入力
音声に対する第１段階の単語候補系列を抽出する第１の
単語候補系列抽出手段と、この第１の単語候補系列抽出手段により抽出された第１
段階の単語候補系列に対して構文および意味解析を行
い、第２段階の単語候補系列を出力する第１の構文・意
味解析手段と、この第１の構文・意味解析手段から出力される第２段階
の単語候補系列の各単語候補に対して、前記入力音声分
析手段により求められた該単語候補系列中の各単語区間
の前記特徴パラメータと複数の音韻のそれぞれの標準的
なパターンを示す音韻標準パターンとを照合することに
より尤度を計算する尤度計算手段と、この尤度計算手段により計算された尤度を用いて前記類
似度系列中の類似度に重み付けを行って該類似度を変更
する類似度変更手段と、この類似度変更手段により類似度が変更された類似度系
列から前記入力音声に対応する最終単語候補系列を抽出
する第２の単語候補系列抽出手段と、この第２の単語候補系列抽出手段により抽出された最終
単語候補系列に対して構文および意味解析を行い、前記
入力音声に対する音声認識結果を得る第２の構文・意味
解析手段とを具備することを特徴とする音声認識装置。
【請求項４】外部から入力される入力音声を分析して該
入力音声の特徴を表わす特徴パラメータを求める入力音
声分析手段と、前記入力音声の認識を行うための認識辞書を作成する認
識辞書作成手段と、この認識辞書作成手段により作成された格納する認識辞
書格納手段と、前記入力音声分析手段により抽出された特徴パラメータ
と前記認識辞書とのマッチングを行って前記入力音声の
認識を行う認識手段と、前記入力音声分析手段により求められた特徴パラメータ
を前記認識辞書の学習に関する学習データとして格納す
る学習データ格納手段と、この学習データ格納手段に格納された学習データのう
ち、孤立発声単位の学習データに始まり、前記認識辞書
の学習の進展に伴って連続発声単位数が順次大きくなる
連続発声単位の学習データを順次選択する学習データ選
択手段と、この学習データ選択手段により選択された学習データを
前記認識手段に入力してセグメンテーションおよび認識
を同時に行い、該セグメンテーションの結果により前記
特徴パラメータから学習用特徴ベクトルを学習用パター
ンとして抽出する学習用パターン抽出手段と、この学習用パターン抽出手段により抽出された学習用パ
ターンを格納する学習用パターン格納手段と、この学習用パターン格納手段に格納された学習用パター
ンを用いて前記認識辞書の学習を行う学習手段とを具備
することを特徴とする音声認識装置。
【請求項５】外部から入力される入力音声を分析して該
入力音声の特徴を表わす特徴パラメータを求める入力音
声分析手段と、前記入力音声の認識を行うための認識辞書を作成する認
識辞書作成手段と、この認識辞書作成手段により作成された認識辞書を格納
する認識辞書格納手段と、前記入力音声分析手段により抽出された特徴パラメータ
と前記認識辞書とのマッチングを行って前記入力音声の
認識を行う認識手段と、前記入力音声分析手段により求められた特徴パラメータ
を前記認識辞書の学習に関する学習データとして格納す
る学習データ格納手段と、この学習データ格納手段に格納された学習データのう
ち、孤立発声単位の学習データに始まり、前記認識辞書
の学習の進展に伴って連続発声単位数が順次大きくなる
連続発声単位の学習データを順次選択する学習データ選
択手段と、この学習データ選択手段により選択された学習データを
前記認識手段に入力してセグメンテーションおよび認識
を同時に行い、該セグメンテーションの結果により前記
特徴パラメータから学習用特徴ベクトルを学習用パター
ンとして抽出する学習用パターン抽出手段と、この学習用パターン抽出手段により抽出された学習用パ
ターンを格納する学習用パターン格納手段と、この学習用パターン格納手段に格納された学習用パター
ンを用いて前記認識辞書の学習を行う学習手段とを具備
し、前記認識辞書作成手段は、前記孤立発声単位の学習デー
タを用いて調音結合を含まない認識辞書とは別に、前記
連続発声単位の学習データ中の始端および終端の少なく
とも一方に調音結合を含むデータを用いて認識辞書を作
成することを特徴とする音声認識装置。