JP2862306B2

JP2862306B2 - 音声認識装置

Info

Publication number: JP2862306B2
Application number: JP2023205A
Authority: JP
Inventors: 純一田村; 哲夫小坂; 穆櫻井
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1990-02-01
Filing date: 1990-02-01
Publication date: 1999-03-03
Anticipated expiration: 2014-03-03
Also published as: JPH03228100A

Description

【発明の詳細な説明】［産業上の利用分野］本発明は音声認識方法に関するものであって、特に任
意の話者が発生した音声を認識可能な音声認識方法に関
するものである。

〔従来の技術〕

不特定話者認識に関する認識手法は、いくつか考案さ
れているが、現状で最も一般的かつ本提案に比較的近い
構成を持つ不特定話者認識システムの従来例について述
べる。

従来、不特定大語彙を目指した認識システムは第３図
のような構成になっている。音声入力部１から入力され
た音声は音声分析部２により音声のパワー項等を含むフ
イルタバンク出力、LPCケプストラム等の特徴パラメー
タが求められ、ここでパラメータの圧縮等（フイルタバ
ンク出力の場合、Ｋ−Ｌ変換等による次元圧縮）も行わ
れる。（分析はフレーム単位で行われるので、以下、圧
縮後の特徴パラメータを特徴ベクトルと呼ぶ）次に連続音声中から音素境界を決定するための処理が
音素境界検出部３により行われる。音素識別部４では、
統計的な手法により音素が決定される。５は多数の音素
サンプルから作成した音素標準パタンを格納する音素標
準パタン格納部。６は音素識別４の出力結果から単語辞
書７あるいは出力された候補音素の中から修正規制部８
により修正を行って、最終的な認識結果を出力する単語
識別部、９は認識結果を表示する認識結果表示部であ
る。

通常、音素境界検出部３では、判別関数等を用いてお
り、音素識別部４でも同様に判別される。これら各構成
要素の出力は一般的にある一定の閾値を満足した候補が
出力される。それぞれの候補について更に複数の候補が
出力されるが、７、８の様なTop down的な情報等が用
いられ最終点な単語に絞られる。

〔発明が解決しようとしている課題〕

しかしながら、上記従来例の認識装置は基本的な構成
がボトム・アツプ型であるので、認識・過程のある箇所
で誤りが生じた場合、後の過程に悪影響を及ぼし易い形
になっている。（例えば、音素境界検出部３において、
音素境界を誤った場合、その誤り方によっては音素識別
部４、単語識別部６に与える影響は大きい）つまり、最
終的な音声の認識率は各過程の誤り率の積に比例して下
がるので、高い認識率が得られなかった。

又、特に、不特定話者を対象とする認識装置を構成す
る場合各過程での判定の為の閾値の設定が非常に難し
い。少なくとも候補の中に目的とするものが存在する様
に閾値を設定すると、各過程における候補群の数が多く
なり、複数候補単語の中から目的とする単語を正確に絞
り込む方法が非常に難しくなっていた。また、実環境下
で認識装置を使用しようとした場合、非定常ノイズ等が
かなり多く、少数単語の認識装置であっても認識率が低
く、実際、使いにくいものとなっていた。

［課題を解決するための手段］上記従来の課題を解決するために、本発明は、辞書用
単語データを記憶した単語辞書と、辞書用音素データを
記憶した音素辞書とを利用する音声認識方法であって、
音声データを入力し、前記単語辞書に記憶されている辞
書用単語データをスポッティング法を用いて前記入力し
た音声データとマッチングすることにより、前記入力し
た音声データの音声区間と当該音声区間に対応する候補
単語とを選出し、前記選出された候補単語を構成し得る
音素の辞書用音素データを前記音素辞書から選択的に取
り出して、前記選出された音声区間の入力音声データと
マッチングし、前記辞書用音素データと入力音声データ
とのマッチングの結果に基づいて前記入力音声データの
認識結果を決定する音声認識方法を提供する。

〔実施例１〕第１図は本発明による音声認識システムの基本構成図
で、100は音声入力部、101は入力された音声を分析、圧
縮し、特徴ベクトルの時系列に変換する音声分析部、10
3は多数の話者が発声した単語データから求めた標準パ
タンを格納する単語標準パタン格納部、102は音声分析
部101の特徴ベクトル系列と単語標準パタン格納部103に
格納されている各々の標準パタンを入力データのフレー
ムごとに連続マハラノビスDPを用いて距離を算出する連
続マハラノビスアDPによる単語距離計算部、104は連続
マハラノビスDPより求めた各フレームと単語標準パタン
との距離の値により単語標準パタンの中から候補となる
単語を判別する候補単語判別部、105は候補になった１
つ以上の単語区間の特徴ベクトルのパラメータを格納す
るパラメータ格納部、106は多数話者の発声した音声の
中から音素単位で作成された標準パタンを格納する音素
標準パタン格納部、107は候補となった単語の特徴ベク
トル系列について音素単位で連続マハラノビスDPにより
入力データと音素標準パタンの距離計算を行う連続マハ
ラノビスDPによる音素距離計算部、108は１つ以上の候
補単語のそれぞれについてマツチングされた各音素列か
ら最も適当な単語を識別して出力する音素単位の認識結
果による識別部。109は例えば音声応答等の手段により
音声認識結果を出力する結果出力部である。図中、第１
部は音声区間の切り出しと供に単語の候補の絞り込み、
第２部は候補単語内での音素単位の認識部を示す。

次に動作の流れを説明する。まず、音素入力部100
は、マイクから音声信号を入力し、音声分析部101に入
力波形を転送する。音声入力部100は音声入力の受付時
間中は常に音声又は周囲のノイズ信号等を取り込み、音
声入力波形をデイジタル値に変換した波形として音声分
析部101へ転送する。音声分析部101では、常に入力され
て来る波形を10msec〜30msec程度の窓幅で分析を行い、
2msec〜10msecの長さを持つフレームごとに、特徴パラ
メータを求める特徴パラメータの種類としては比較的高
速に分析可能なLPCケプストラム、LPCメルケプストラ
ム、高精度にパラメータを抽出したい場合はFFTケプス
トラム、FFTメルケプストラム等が一般的で、他にフイ
ルタバンク出力値もある。

また、正規化されたパワー情報を用いたり、パラメー
タの各次元ごとに重み係数を掛けたりして、システムの
使用状況に最も適したパラメータで、フレームごとに分
析される。次に、分析された特徴パラメータの次元につ
いて圧縮を行う。ケプストラムパラメータは、通常係数
の１次の項〜12次の項の中から必要な次元数（例えば６
次元）だけ抜き出し、これを特徴ベクトルとする。フイ
ルタバンク出力を特徴パラメータとした場合、例えばＫ
−Ｌ変換、フーリエ変換等の直交変換により次元圧縮
し、低次項を用いる。これら圧縮された１フレム分のパ
ラメータを特徴ベクトル、次元圧縮された後の特徴ベク
トルの時系列を特徴ベクトルの系列（或は、単にパラメ
ータ）と呼ぶことにする。

本実施例では分析窓長を25.6msecで分析し、フレーム
周期10msec、FFTスペクトルのピークを通るスペクトル
包絡から、メルケプストラム係数を求めた後、係数の２
次〜６次を用い、これを１フレーム分の特徴ベクトルと
する。ここでメルケプストラムの０次項はパワーを表わ
す。

次に、単語標準パタン格納部103に格納する標準パタ
ンの作成方法について述べる。本システムでは例として
発声変形を含めた10数字“ゼロ、サン、ニ、レイ、ナ
ナ、ヨン、ゴ、マル、シ、ロク、ク、ハチ、シチ、キユ
ウ、イチ”と“ハイ”、イイエ”の計17単語の認識につ
いて述べる。標準パタンは多数話者の発声した単語音声
から作成する。本実施例では１単語の標準パタンを作成
するのに50人分の音声サンプルを用いる。（音声サンプ
ル数は多ければ多い程良い）第２図（ａ）に、標準パタンの作成手順を表わすフロ
ーチヤートを示す。

まず、音声サンプルから標準パタンを作成する際の仮
の比較対象となるコアパタン（核パタン）を選択する
（S200）。選択方法は50単語の中で発声時間長と発声パ
タンが最も平均的な単語を用いる。次に、サンプルの単
語を入力し（S201）、入力単語とコアパタンとの時間軸
伸縮マツチングを行い、時間正規化距離が最小となるマ
ツチング経路に沿って、各フレームごとに平均ベクト
ル、及び分散共分散行列を作成する（S202）。ここで時
間軸伸縮マツチングの方法としてDPマツチングを用い
る。次に入力単語の話者番号を次々変えてゆき（S204）
50名分の単語Si（ｉ＝１〜50）について、各フレームご
とに特徴ベクトルの平均値及び、分散共分散行列を求め
る（S203、S205）。この様にして計17単語についてそれ
ぞれ上記過程と同様にして単語標準パタンを作成し単語
標準パタン格納部103に格納しておく。

連続マハラノビスDPによる単語距離計算部102では、
連続マハラノビスDPにより次々と入力される特徴ベクト
ルの時系列について単語標準パタン格納部103に格納さ
れている全ての単語の標準パタンとの連続マハラノビス
DPによるマツチングを行い、距離を計算する。

ここで、連続マハラノビスDPについて説明する。連続
DPの手法は一般的で、特定話者が連続に発声した文章の
中から目的とする単語、或は、音節等の単位を探し出す
方法である。これはワードスポツテイングと呼ばれ、目
的とする音声区間の切り出しと同時に認識を行ってしま
うという画期的な方法である。本実施例では連続DP法の
各々のフレーム内における距離にマハラノビス距離を用
いる事により、不特定性を吸収している。

第２図（ｂ）は、“ゼロ”という単語の標準パタンと
“ゼロ”という単語を発声した時の入力音声を無声区間
も含めて特徴ベクトルの時系列に分析したものとを連続
マハラノビスDPによりマツチングした結果を示したもの
である。図中、黒が濃く出ている所は標準パタンと入力
パタンの距離が大きい所、黒が薄く、白に近い所は標準
パタンと入力パタンの距離が小さい所である。マツチン
グを行った結果の下には累積距離の時間変化を示す。こ
の累積距離はその時点が終端となるDPパスの距離を示す
もので、DPパスを求めてその値をメモリに保存する。こ
のメモリに保存したDPパスは、音声区間の始端を求める
為につかう。例えばこの図においては距離が最小となっ
た時のDPパスを示したが、標準パタンと入力パタンが似
ていた場合、累積距離が任意に定めた閾値より小さくな
り、その標準パタンの単語を候補単語と認める。そし
て、入力パタンから音声区間を切り出すために、累積距
離が閾値より小さく、更に最小である時点からDPパスを
メモリから呼び出してバツクトラツクすることにより、
音声区間の始端が求められる。こうして求められた音声
区間の特徴ベクトルの時系列をパラメータ格納部105に
格納する。

今まで説明してきた処理系により、まず候補単語と、
その音声区間を分析した特徴ベクトルの系列と、連続マ
ハラノビスDPによる累積距離の結果が得られる。ここ
で、候補単語の中で“シチ”と“シ”の様に音声区間が
重なっているものが複数選択された時、この場合“シ
チ”の方を選択し“シ”は切り捨てる。“ロク”と
“ク”も同様に、“ク”の音声区間の大部分が（ここで
は80％以上とする）“ロク”に含まれている時は、
“ク”は切り捨てて“ロク”のみについて検証を行う。

本実施例では音素標準パタン格納部106に母音（ａ、
ｉ、ｕ、ｅ、ｏ）と子音（ｚ、ｓ、ｎ、ｒ、ｇ、ｍ、sh
i、ｋ、ｈ、ci）について音素の標準パタンを作成して
おく、作成方法は単語標準パタン格納部103と同様の方
法であらかじめ作成しておく。連続マハラノビスDPによ
る音素距離計算部107ではパラメータ格納部105に格納さ
れている候補単語として切り出された音声区間について
各音素とのマツチングを行う。

連続マハラノビスDPによる単語距離計算部102と同様
に累積距離が最小となった位置からその音素の区間を計
算する。（候補単語判別部104と同様、累積距離が最小
となった時点をその音素の終端とし、始端は連続DPパス
のバツクトラツクにより求める）本実施例では例えば“ゼロ”⇒“zero"が候補単語の
場合その音声区間について“z"、“e"、“r"、“o"の４
種類の音素についてのみマツチングを行う。４種の音素
と上記“zero"と判別され、候補となった音声区間のマ
ツチングの結果、各音素の累積距離が最小となる点につ
いてその位置関係と、最小距離の平均値を求めるこの様
子を第２図（ｃ）に示す。

各々の音素についてマツチングの結果の距離の最小値
と、その位置をフレームで表わし音素単位の認識結果に
よる認識部108に送る。この例では“z"について最小値
は“j"、フレーム位置は“z_f"である。音素単位の認識
結果による認識部108では、連続マハラノビスDPによる
音素距離計算部107から送られてきたデータを基に最終
的な単語の識別を行う。まず、候補単語の音素列の順番
（フレームの位置）がz_f＜e_f＜r_f＜o_fであるか否かを調
べる。もしこの順番であれば認識単語は“ゼロ”（zer
o）“平均を求めＸの値が閾値Ｈよりも小さいならば、認識結果と
して“ゼロ”を出力する。

第２図（ｄ）は単語候補の出力結果（候補単語判別部
104の出力結果）を示したものである。は単語“ハ
チ”、は単語“シチ”、は単語“シ”が候補として
出力される。が、ここで前に述べたようにはの区間
に80％以上含まれており、かつ同一の“シ”が中に存
在するので音素レベルでの認別はについて行なう。

ケース単語S¹の音素列“|h|a|c|i|"と単語S²の音素
列“|sh|i|c|i|"についてマツチングした結果、どちら
も音素の順番が、候補単語と等しい場合、かつ、個々の
音素の距離がＨ（閾値）より小さい場合⇒平均累積距離
Ｘの小さい方、を出力する。

ケースどちらも順番が異なるが個々の音素の距離が
閾値（Ｈ）より小さい場合⇒単語と音素列の文字列によ
るDPマツチングを行い。その距離の閾値（Ｉ）により決
定する。

ケース順番が合っているか、個々の音素の閾値が
（Ｈ）をクリアしていない場合⇒リジエクトケース順番が異なり、音素の閾値もクリアしていな
い場合⇒リジエクト音素単位の認識結果による単語の識別方法は前記の方
法に限らない。後に他の実施例でも述べるが音素の単位
をどの様な形で定義し、標準パタンを作成しておくか、
或は同一の音素でも複数用意する事によって音素判別に
用いる閾値Ｈの値、或は識別アルゴリズムは異なる。よ
って、平均累積距離と音素順位のどちらを優先させるか
等の識別アルゴリズムは一意に決まらない。

音素単位の認識結果による認識部108で最終結果とし
て出力した例えば音声（単語）を結果出力部109で出力
する。電話等の音声情報のみで認識させる場合、認識結
果を『“ゼロ”ですね？』と、例えば音声合成手段を用
いて確認する。単語の識別の結果、距離が十分小さけれ
ば認識結果を確認をせずに、それに対応した次の処理へ
と移行する。

〔実施例２〕前記実施例１では、後半の音素単位の認識結果を、認
識対象とする単語に含まれる全ての音素について標準パ
タンを作成しておいた。しかし、音素はその種類によっ
ては、周囲の音韻環境、話者等の相異により、変形も激
しい。よって同一の音素でもパタンの異なる音素はパタ
ンに応じ複数用意しておくと、より確度の高い認識結果
が得られる、例えば母音i|についてみると“イチ”、
“ハチ”、“シチ”に見られる様に話者によって無声化
する事がかなりある。音素レベルでの認識は候補となっ
た単語と、その音声区間において厳密に検定して結果を
出さなければならないので、母音|i|でも、有声の|i|、
無声化の|i|それぞれについて、数種類の標準パタンを
作っておく、他の音素についても同様で、例えば|g|な
どパス部が存在するものとしないものがある。但しこれ
らの音素について標準パタンを作成する場合、少なくと
も１つの標準パタンを作成する為に、各フレームの特徴
ベクトルの次元数をｎとするとn²＋α個程度の音声デー
タを必要とする。

〔実施例３〕また、音素単位で識別する別の例として、音素の単位
を変えると更に良い結果となる。前記実施例１では、|a
|、|i|、…、|m|、|n|、|r|に示す様に、音声の単位と
してはかなり小さい母音、子音、を別々に扱っていた。

実際、人間が発声する連続した単語音声はアナウンサ
ー等を別にして日常生活においては、個々の音素の特徴
を明確に発声している事は少ない。データを見てもここ
が|a|でここが|m|であると判定出来る部分は時間的にも
かなり短く、大部分は調音結合部である。（調音結合部
とは、例えば“イア”と発声した場合“イ”の定常部か
ら“ア”の定常部に遷移する（中途半端な）部分であ
る。）よって、音素の単位を調音結合部を含むVCV型とし、
語頭に関してはCVを用いると、前記実施例１で述べた複
数候補の単語が出現した時も、順番が異なって来る場合
の割合が減少するため、最終出力単語の判別がしやす
い。（Ｖ…母音Vowel、Ｃ…子音ConsonantでVCVは、母
音−子音−母音、連鎖の事）もちろん、VCVの標準パタ
ンは、連続音声中から切り出したサンプルから作成す
る。

〔実施例４〕前記実施例では音素標準パタン格納部106に格納する
音素のパタンのマルチ化、音素単位の定義、方法につい
て述べた。

単語標準パタン格納部103についても同様の事が言え
る。しかし、単語標準パタンについては、厳密にパタン
をカテゴライズしようとするとパタンの数が多くなり過
ぎる場合がある。また、個々の単語について多数話者の
発声サンプルを集め、分析する事は容易でないので、こ
こでは、個々の単語の発声時間長によりカテゴライズを
行う。本認識システムの第１段階では、候補単語の中
に、目的とする単語が100％入っている事が前提条件で
ある。本方式は基本的に時間伸縮マツチングを行ってい
るので、標準パタンから極端に外れた発声時間長の単語
だし、リジエクトされてしまう可能性が高いからであ
る。

よって、少なくとも認識装置に対し、協力的な話者が
発声する音声の時間長を調べ、その全時間長をカバーす
る様、標準パタンをマルチ化する。マルチ化する際、極
端に長い発声のサンプルは得られにくいので、平均的な
特徴ベクトルのフレーム数を第２図（ｅ）に示す様に２
倍、３倍に増やしても良い。

第２図（ｅ）では、音素|a|m|u|“アム”を単位とし
た基準パタンの発声時間長を２倍にした例を示す。

発声時間長を拡大する際、気をつけなければならない
点は、例えば|p|,|t|,|k|等の破裂子音等を含む場合で
ある。この例に示す様に子音によっては発声時間長が長
くなっても、子音部の発声時間長はそれほど変わらな
い。よって、子音によって拡大の方法をテーブル等によ
り、個々に変える手段を持つと、簡易に正確かつ、時間
長の異なる標準パタンが作成できる。

実際に発声時間長の長い音声サンプルを集め、これら
のデータから標準パタンを作成する方法がより良い標準
パタンを作成できる。

第２図（ｆ）は、母音の１フレームを２倍、３倍、４
倍と重複させて標準パタン長を拡大した時、子音部のフ
レームの重複倍率を示したテーブルである。第２図
（ｇ）に“ログ”の（母音の）倍率を“３倍”にした時
の様子を示す。

また、第１図の単語標準パタン格納部103は単語単位
に限らない。文節単位でも良いし、無意味音節の連鎖で
も良い。この場合単語標準パタン格納部103の単位を（V
CV、VCVCV、CV、VV、CVCV、…等）とし、音素標準パタ
ン格納部106の単位（CV、VC、Ｖ…等）にする事も可能
である。

〔実施例５〕前記実施例１では、第１図に示す処理系基本構成の第
２部において第１部の出力として得た候補単語について
更に細かい音素単位（例えばＣ、Ｖ、CV、CVC、VCV等）
で連続DP等のスポツテイング処理を行い、結果を出力す
る方法について述べた。しかし、本実施例においては第
１部の出力する候補単語を音素単位で認識する方法とし
て、スポツテイング以外の方法を述べる。それは、複数
の音声サンプルから得た音素標準パタンを候補単語の音
素系列に合わせて接続して作った単語と、音声区間とし
て切り出された入力音声の特徴ベクトルとのマツチング
を行うという方法である。この方法によっても高い認識
率が得られる。

本実施例における音素単位の認識処理系の基本構成を
第４図に示す。

第１図候補単語判別部104において判別された候補単
語と音声区間として切り出された入力音声の特徴ベクト
ルは以後第４図に示す構成において処理される。まず、
入力音声の特徴ベクトルはパラメータ格納部105に、候
補単語は標準パタン生成規則部110に送られる。標準パ
タン生成規則部110では音素標準パタン格納部106中の音
素標準パタンを候補単語の音素系列に従って接続し、こ
れとパラメータ格納部105に格納しておいた入力音声の
特徴ベクトルのパタンマツチングをパタンマツチング部
111において行う。パタンマツチングで得た音声の認識
結果を結果出力部109より出力する。

標準パタン生成規則部110の詳細な構成図を第５図に
示す。まず、第１部の結果として出力される候補単語の
音素系列と、音声区間として切り出された入力音声の特
徴ベクトルが出力される。ここでは、例えば“tokusima
si（徳島市）”と入力した時に、候補単語として“toku
simasi"、“fukusimasi（福島市）“、“hirosimasi
（広島市）”の３単語が選出された場合の処理について
述べる。まず、これらの候補単語は標準パタン生成規則
部110において、連続音声認識に最適な音素に分割され
る。本実施例では、語頭の音素とCV（子音＋母音）、語
中、語尾の音素をVCV（母音＋子音＋母音）としてい
る。

次に、入力音声の特徴パラメータの長さを音素の数で
割り、１モーラ当たりの平均継続時間長を平均継続時間
長検出部152において求め、時間長の違い等により複数
種あるいは音素標準パタンの中から適した音素標準パタ
ンを選択する際に用いる。

第６図（ａ）は候補単語として出力された単語を音素
分割処理部150において音素記号列に分割した例であ
る。第６図（ｃ）は各音素との標準パタンが格納されて
いるメモリのアドレスとの対応表である。音素位置ラベ
ル付加部151は候補単語の音素位置に対応させて複数の
音素標準パタンの中から選択するところであるが、アド
レスの表記を［D₁−D₂、D₃］とすると、D₁は音素の種
類、D₂は音素標準パタンの時間長、D₃は音素標準パタン
の複数の状況における種別であり、例えば音素|a|の標
準パタンは、アドレス001−１から入っている。また、
アドレス001−１、１は、無声化した|a|の標準パタンが
入っている。|asa|のようなVCV型の音素は、アドレス93
1−１に入っている標準ものの他に、VCV全体が無声化し
た音が931−１、１に、VCVの中、CV音が無声化した音が931−１、２に、VCVの中、VC音が無声化した音が931−１、３に入っている。また、これだけでなく１
つの音素単位につき、複数の標準パタンを持っている。

第６図（ｂ）は３つの候補単語の音素標準パタンの時
間長（D₂）が１の時の音素を選択し、そのアドレスを対
応けたものである。ここでは、「語頭・語尾は母音部が
無声化するパタンも含めて考える」という規制から“to
kusimasi"という単語は、第６図（ｂ）に示した音素の
アドレスを使って第６図（ｄ）に示す４通りのパタンの
組み合わせができる。

ここで、標準パタンの持続をする際に、前の音素の後
半と後ろの音素の前半の有声・無声が揃っていないと接
続できない。音素の標準パタンの種別、D₃により接続が
可能な組み合わせを第６図（ｅ）に示す。この第６図
（ｅ）には、ある音素の標準パタンの時間長D₂と種別D₃
だけを示してある。例えば一番上の段のb/bは、ある音
素の標準パタンの、ある時間長（ｂ＝とおく）であり有
声であるもの、ｂ同志の接続を示す。次の段のb/b、２
はある音素の標準パタンの、ある時間長（＝ｂとおく）
の有声であるものｂと、ある音素の標準パタンの、ある
時間長（ｂ＝とおく）の前半が有声音、後半が無声音の
もの、ｂ、２との接続を示している。ここで、接続する
音素の種類は、接続部の前の音素の後半と、接続部の後
ろの音素の前半が等しければ良い訳だから、第６図
（ｅ）にD₁を示す必要はなく、音素の標準パタンの時間
長D₂は１モーラ発声時間長検出部152において１モーラ
当たりの平均継続時間長が求めてあるので、これがｂと
なり、その単語内では一定である。

しかし、第６図（ｅ）に示したのは音素結合規則の一
部であり、他に音声を発声する際の音響的な音素結合規
則も多くある。第６図（ｄ）には、“tokusimasi"の組
み合わせのみを示したが、同様にして他の候補単語につ
いても組み合わせを作成する。音素標準パタンの組み合
わせができたら、音素標準パタン接続部153において音
素標準パタンを接続し、単語標準パタンを作成する。接
続の方法は、直接接続、線形補間等があるが、音素Ｏ、
Ｐ、Ｑ、Ｒを接続する例を第５図に示し、以下に説明す
る。

第７図の（ａ）は直接接続し、単語OPQRを生成する例
であり、（ｂ）は音素Ｏ、Ｐ、Ｑ、Ｒから補間部分とし
て母音部分を数フレーム切り取ったものをＯ′、Ｐ′、
Ｑ′、Ｒ′とし、これの空白の部分を各次元のパラメー
タの要素について線形補間しながら埋めていき、連続し
た単語標準パタンを生成する例である。音素の補間方法
は、パラメータの性質によって適・不適があるので、こ
こではパラメータに最適な補間法を用いる事にする。最
後に、音素標準パタン接続部153から出力された複数の
単語標準パタンと入力パタンをパタンマツチング部111
においてマツチングし、距離が最小となる単語を結果出
力部109より例えば音声として出力する。

パタンマツチング方式は、線形伸縮、DPマツチング法
等多数あるが、DPマツチングが良い結果が得られる。こ
こで、距離尺度はマハラノビス距離等を代表とする統計
的な距離尺度を用いる。

［発明の効果］以上説明したように、本発明によれば、辞書用単語デ
ータを記憶した単語辞書と、辞書用音素データを記憶し
た音素辞書とを利用する音声認識方法であって、音声デ
ータを入力し、前記単語辞書に記憶されている辞書用単
語データをスポッティング法を用いて前記入力した音声
データとマッチングすることにより、前記入力した音声
データの音声区間と当該音声区間に対応する候補単語と
を選出し、前記選出された候補単語を構成し得る音素の
辞書用音素データを前記音素辞書から選択的に取り出し
て、前記選出された音声区間の入力音声データとマッチ
ングし、前記辞書用音素データと入力音声データとのマ
ッチングの結果に基づいて前記入力音声データの認識結
果を決定することにより、単語辞書と音素辞書という、
異なる区間で作成された辞書用データとのマッチングを
二段階で行ない、また、その二段目のマッチングでは一
段目のマッチングで得た結果を利用するので、効率良
く、更に認識率の高い音声認識を提供することが出来
る。

【図面の簡単な説明】

第１図は本発明の第１の実施例の処理系の基本構成図、第２図（ａ）は標準パタン作成の動作の流れを示すフロ
ーチヤート、第２図（ｂ）は連続マハラノビスDPの様子を示す図、第２図（ｃ）は音素マツチングの様子を示す図、第２図（ｄ）は複数の候補単語と入力信号との関係を示
す図、第２図（ｅ）は発声時間長を２倍にした標準パタンの様
子を示す図、第２図（ｆ）は発声時間長の倍率変化による音素に対応
した倍率を示す図、第２図（ｇ）は第１図（ｆ）の倍率に従って発声時間長
を３倍にした時の様子を示す図、第３図は従来の不特定話者音声認識システムの構成図、第４図は本発明の第２の音素認識処理の構成図、第５図は標準パタン生成規則部の構成図、第６図（ａ）は候補単語の音素分解の様子を示す図、第６図（ｂ）は候補単語の各音素の標準パタンのアドレ
スを示す図、第６図（ｃ）は音素標準パタンの種類によるアドレス例
を示す図、第６図（ｄ）は生成された標準パタンの組み合わせを示
す図、第６図（ｅ）は接続可能な標準パタンの組み合わせ例を
示す図、第７図は補間方法を示す図である。図中、１は音声入力装置、２は音声分析部、３は音素境
界検出部、４は音素識別部、５は音素標準パタン格納
部、６は単語識別部、７は単語辞書、８は修正規則部、
９は認識結果表示部、100は音声入力部、101は音声分析
部、102は連続マハラノビスDPによる距離計算部、103は
単語標準パタン格納部、104は候補単語判別部、105はパ
ラメータ格納部、106は音素標準パタン格納部、107は連
続マハラノビスDPによる距離計算部、108は音素単位の
認識結果による識別部、109は結果出力部、110は標準パ
タン生成規則部、111はパタンマツチング部、150は音素
分割処理部、151は音素ラベル付加部、152は１モーラ発
声時間長検出部、153は音素標準パタン接続部である。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭63−165900（ＪＰ，Ａ) 特開昭60−121499（ＪＰ，Ａ) 特開昭63−46496（ＪＰ，Ａ) 特公昭63−798（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 - 9/18 ＪＩＣＳＴ（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】辞書用単語データを記憶した単語辞書と、
辞書用音素データを記憶した音素辞書とを利用する音声
認識方法であって、音声データを入力し、前記単語辞書に記憶されている辞書用単語データをスポ
ッティング法を用いて前記入力した音声データとマッチ
ングすることにより、前記入力した音声データの音声区
間と当該音声区間に対応する候補単語とを選出し、前記選出された候補単語を構成し得る音素の辞書用音素
データを前記音素辞書から選択的に取り出して、前記選
出された音声区間の入力音声データとマッチングし、前記辞書用音素データと入力音声データとのマッチング
の結果に基づいて前記入力音声データの認識結果を決定
することを特徴とする音声認識方法。
【請求項２】前記入力した音声データと辞書用単語デー
タとのマッチングは、連続マハラノビスDPにより行うこ
とを特徴とする請求項１に記載の音声認識方法。
【請求項３】前記入力した音声データと辞書用音素デー
タとのマッチングは、連続マハラノビスDPにより行うこ
とを特徴とする請求項１に記載の音声認識方法。
【請求項４】前記音声データをマイクより入力すること
を特徴とする請求項１に記載の音声認識方法。