JP3066920B2

JP3066920B2 - 音声認識方法及び装置

Info

Publication number: JP3066920B2
Application number: JP3139092A
Authority: JP
Inventors: 穆櫻井; 純一田村; 哲夫小坂; 広松尾
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1991-06-11
Filing date: 1991-06-11
Publication date: 2000-07-17
Anticipated expiration: 2015-07-17
Also published as: US5621849A; JPH04362699A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力音声と、音声標準
パタンの相違度を求めて入力音声を認識する音声認識方
法及び装置に関するものである。

【０００２】

【従来の技術】音声認識の手法として、例えば連続ＤＰ
法のような、音声区間の検出と認識処理とを同時に行う
ワードスポッティング法が提唱されている。

【０００３】このワードスポッティング法は、スペクト
ル等の音声の特徴からなる単語標準パタンを１フレーム
ずつ入力音声に対してスライドさせながらマッチング処
理を行い、各標準パタンにおいてマッチング処理の演算
結果であるスコアが最小値をとる点により、その単語の
存在すると思われる区間が検出され、あとは全ての標準
パタンのスコアの最小値を比較して認識結果を得る方法
である。

【０００４】

【発明が解決しようとしている課題】しかし、この従来
行われていたワードスポッティング法では、ある標準パ
タンを構成する音韻列が、より音韻数の多い他の標準パ
タンの音韻列の一部と完全に一致する場合には、原理的
に誤認識を避けられないという欠点がある。例えば、標
準パタンとして／ｋｕ／の他に／ｒｏｋｕ／がある場
合、入力音声が／ｒｏｋｕ／ならば、標準パタン／ｋｕ
／も標準パタン／ｒｏｋｕ／も入力音声の一部又は全部
と完全に一致するので、マッチング処理の結果、両パタ
ンは残りの標準パタンよりも高いスコアを示すが、入力
音声が正常に発声されている限り、両パタンの示すスコ
アに明確な差はなく、入力音声の僅かな変動により／ｒ
ｏｋｕ／が第一位になったり、／ｋｕ／が第一位になっ
たるする。すなわち、従来例では、ワードスポッティン
グ法の原理的な欠陥により、入力音声が正常に発声され
ていても、誤認識を避けられないという欠点があった。

【０００５】

【課題を解決するための手段】上記従来の課題を解決す
るために、本発明の音声認識装置は、音声標準パタンを
記憶する標準パタン記憶手段と、入力した音声情報と前
記標準パタン記憶手段に記憶されている音声標準パタン
とを比較し、正規化した結果に基づいて、前記音声情報
と前記音声標準パタンの相違度を求める演算手段と、前
記音声情報と前記音声標準パタンの相違度を、前記音声
情報の音声区間の長さに応じて修正する相違度修正手段
と、修正された前記相違度に基づいて前記音声情報の認
識候補を出力する認識候補判別手段とを有することを特
徴とする。上記従来の課題を解決するために、本発明の
音声認識方法は、音声標準パタンを記憶し、入力した音
声情報と記憶されている前記音声標準パタンとを比較
し、正規化した結果に基づいて、前記音声情報と前記音
声標準パタンの相違度を求め、前記音声情報と前記音声
標準パタンの相違度を、前記音声情報の音声区間の長さ
に応じて修正し、修正された前記相違度に基づいて前記
音声情報の認識候補を出力することを特徴とする。上記
従来の課題を解決するために、本発明の音声認識装置及
び方法は、音声情報の音声区間の長さが長いほど、相違
度を小さくするように修正することを特徴とする。上記
従来の課題を解決するために、本発明の音声認識装置及
び方法は、相違度をワードスポッティング方式を用いて
演算することを特徴とする。

【０００６】上記課題を解決する為に、本発明は、音声
標準パタンを記憶し、音声情報を入力し、前記音声入力
する音声情報と前記音声標準パタンの相違度を演算し、
前記相違度に音声標準パタンの長さの重みを付加するこ
とを特徴とする音声認識方法を提供する。

【０００７】上記課題を解決する為に、本発明は好まし
くは前記演算結果に付加する音声標準パタンの長さの重
みは、長さが長いほど相違度が小さくなるようにする。

【０００８】上記課題を解決する為に、本発明は好まし
くは前記演算手段はワードスポッティングを用いる。

【０００９】

【実施例】図１は本発明の一実施例を示すブロック図
で、１は音声の入力端子、２はＡ／Ｄ変換部、３は特徴
パラメータ分析部、４は認識部、５は認識部４が認識処
理の際使用する単語辞書、６は本発明に係わるスコア修
正部、７は補助記憶装置、８は認識結果の出力端子であ
る。

【００１０】入力端子１より入力された音声は、Ａ／Ｄ
変換部２でＡ／Ｄ変換された後分析部３においてフレー
ム周期１０ｍｓで分析され、ＬＰＣケプストラム係数ベ
クトルの時系列に変換される。認識部４では、補助記憶
装置７を使いながら上記ＬＰＣケプストラム係数ベクト
ルの時系列と、単語辞書５に収納されている単語標準パ
タンとのマッチングを行う。本実施例においては、図２
に示す１７個の単語の認識を目的とする例について述べ
るので、単語辞書５には、図２で示す１７個の単語の標
準パタンが可変長で収納されている。なお、この単語辞
書５に格納しておけば、本発明の実施は、この１７個の
単語に限るものではないとは言うまでもない。本実施例
は不特定話者対象の音声認識装置で、距離尺度としてマ
ハラノビス距離を使用するので、単語辞書５に格納され
る各単語標準パタンは、図３で示すように、複数話者の
発声した単語音声をフレーム周期１０ｍｓで分析してＬ
ＰＣケプストラム係数ベクトルに変換し、フレーム数を
正規化した後フレーム毎に平均ベクトルｍ_iと分散共分
散行列Σ^-1 _jとを求めたものである。

【００１１】ここで、従来から行われているワードスポ
ッティング法について説明する。

【００１２】分析部３により生成された上記ＬＰＣケプ
ストラム係数ベクトルの時系列｛ｘ_i｝と単語辞書５内
の単語標準パタンとのマッチングが、認識部４によって
連続ＤＰを用いた以下の手順で行われる。

【００１３】まず、ワードスポッティングに用いる式を
示す。

【００１４】

【外１】但し、ｉ：入力音声のフレーム番号ｊ：標準パタンのフレーム番号ｘ_i：ｉフレームにおける入力ベクトルｍ_i：ｊフレームにおける平均ベクトル Σ^-1 _j：ｊフレームにおける分散共分散行列

【００１５】上記の式を用いて以下の手順でワードスポ
ッティングが行われる。なお、ＤＰパスの形状は図４に
示すとおりである。１）式（１）に従い入力ベクトルｘ
_iと標準パタンの平均ベクトルｍ_jとのマハラノビス距離
ｄ（ｉ，ｊ）を求める。２）式（２）に従い、累積距離ｐ（ｉ，ｊ）を求める。３）式（３）に従い、最適経路長ｃ（ｉ，ｊ）を求め
る。４）１）から３）までを、単語標準パタンの先頭フレー
ムから最終フレームまで繰り返す。５）式（４）により、入力ベクトルｘ_iと、単語標準パ
タンとのＤＰ値Ｄ（ｉ）を求める。但しＪは、各単語標準パタンの最終フレーム番号を示
す。６）１）から５）までを、入力音声の先頭フレームから
最終フレームまで繰り返す。７）各単語標準パタン毎にＤＰ値の最小値を求め、入力
音声に対する各単語標準パタンのスコアとする。

【００１６】この単語区間の検出は、図５に示すよう
に、手順の（７）で説明した、各標準パタンのＤＰ値Ｄ
（ｉ）が最小値をとったところからバックトラックによ
りＤＰパスを決定することによって検出される。

【００１７】ここまで述べた方法が従来のワードスポッ
ティング法であるが、本実施例ではこの従来の方法の原
理的な欠陥を改善するために、スコア修正部６において
検出された音声区間の長さを利用したスコアの修正を行
う。

【００１８】図６は、横軸を時間、縦軸をスコアとし、
入力音声／ｒｏｋｕ／に対する単語標準パタンのマッチ
ングスコアを、ワードスポッティングにより決定された
単語区間と共に示したものであり、スコアの修正の行わ
れていない従来の方法である。リジェクトするか否かを
決定する閾値は、４．００であり、この値よりも小さな
スコアの単語がない場合は、リジェクトとする。図６に
よれば、単語標準パタン／ｒｏｋｕ／はワードスポッテ
ィングにより入力音声中から／ｒｏｋｕ／の音声区間を
正しく検出し、スコアも閾値以下の３．５１を示してい
るにもかかわらず、単語標準パタン／ｋｕ／が入力音声
／ｒｏｋｕ／の一部／ｋｕ／とマッチングして第１位の
スコア３．３４を示しているために、従来例では正解と
して／ｋｕ／が選択され、結果は誤認識になる。しか
し、ワードスポッティングの結果切り出された音声区間
に着目すると、音節数の多い単語標準パタン／ｒｏｋｕ
／の方が１音節の単語標準パタン／ｋｕ／より音声区間
長が長い。本実施例ではこの点に着目し、スコア第１位
の音声区間長を基準とし、第２位以下のスコアを各単語
標準パタンの検出した音声区間長に逆比例する方向で修
正する。即ち、検出した音声区間長の長いものほどスコ
アが良くなるように修正する。

【００１９】図７のフローチャートにより、スコア修正
部６によるスコア修正処理の手順を説明する。但し、ｉ
は補助変数、ａは決定されたスコア修正係数、ｌ_iは第
ｉ位の音声区間長、ｃは音声区間長調整係数、ｄ_iは第
ｉ位の修正前スコア、ｄ′_iは第ｉ位の修正後のスコア
を表し、補助記憶装置７を用いて処理が行われる。Ｓ１）補助変数ｉに、数値２を設定する。Ｓ２）スコア第１位の音声区間長ｌ_iをスコア第ｉ位の
音声区間長ｌ_iと音声区間長調整係数ｃとの乗算結果で
除算し、結果をａに入れる。Ｓ３）第ｉ位のスコアｄ_iに修正係数ａを乗じ、結果を
ｄ′_iに入れる。Ｓ４）補助係数ｉに数値１を加える。Ｓ５）補助係数ｉが数値１７より大きいかどうか調べ、
大きくなかったらＳ２に戻る。大きければ、処理を終了
する。

【００２０】図８は、入力音声／ｒｏｋｕ／に対する認
識部４からの出力に対し、スコア修正部６が図７のフロ
ーチャートに基づき行った修正処理の結果を示してい
る。処理の詳細を図７のフローチャートに基づき説明す
る。ここで音声区間長調整係数ｃは、十分長い音声区間
を有する単語標準パタンのスコアを改善するために設け
たもので、ここではｃ＝０．６０とし、音声区間長がス
コア第１位のものの５／３以上の時スコア改善の効果が
現れるように設定されている。Ｓ１）で、補助変数ｉに数値２を設定する。Ｓ２）で、ａ＝７０／（１６５×０．６０）より、修正
係数としてａ＝０．７１を得る。Ｓ３）で、ｄ′₂＝３．５１×０．７１より、第２位に
対する修正スコアｄ′₂を得る。

【００２１】以下同様にして第３位以下の修正スコアを
計算すると図８の「修正後のスコア」欄で示す結果とな
り、スコア修正後の順位は、単語標準パタン／ｒｏｋｕ
／がスコア２．４８で第１位である。この結果によりス
コア修正部６は、第１位のスコア２．４８で第１位であ
る。この結果によりスコア修正部６は、第１位のスコア
を示す単語標準パタン／ｒｏｋｕ／の単語番号１０を出
力端子９から出力して認識処理は完了する。即ち、従来
例での誤認識は本発明により防ぐことができる。

【００２２】次に入力音声の音声区間長が短い例につい
て説明する。図９は、横軸を時間、縦軸をスコアとし、
入力音声／ｋｕ／に対する単語標準パタンのマッチング
スコアを、ワードスポッティングにより決定された単語
区間と共に示したものである。リジェクトの閾値はやは
り４．００である。図１０によれば、単語標準パタン／
ｋｕ／はワードスポッティングにより入力音声中から／
ｋｕ／の音声区間を正しく検出し、スコアも閾値以下の
３．８４を示している。このマッチング処理の結果に対
し、スコア修正部６が図７に示すフローチャートに従っ
て行ったスコア修正作業の結果を図１０に示す。入力音
声の継続時間長が短いので、ワードスポッティングの結
果決定された音声区間長は何れも十分な長さを持たず、
修正後も第１位と第２位以下とのスコアの逆転は生じて
いない。即ち入力音声の音節数が多い場合に限り、音声
区間長を手掛かりとしたスコア修正の効力を発揮するこ
とになる。

【００２３】また、ここまでは、不特定話者を対象とし
た音声認識装置について本発明の効果を説明したが、本
発明は特定話者対象の音声認識装置についても同様の効
果を発揮する。すなわち、図１における単語辞書５に収
納する単語標準パタンを図１１に示す様に特定話者音声
のスペクトルを表すベクトル時系列とし、距離尺度とし
て（５）式で示すユークリッド距離や（６）式で示す市
街地距離を、（１）式で示すマハラノビス距離の代りに
使用すれば、第一の実施例とまったく同じ手順で特定話
者に対するワードスポッティング法の改善が実現でき
る。

【００２４】

【外２】

【００２５】また、先の説明では音声の特徴を表すパラ
メータとしてＬＰＣケプストラス係数を使用したが、本
発明の効果は音声の特徴を表すパラメータであれば種類
の如何を問わず有効である事は明らかである。

【００２６】

【発明の効果】以上説明したように、本発明によれば、
音声情報と音声標準パタンとを比較し、正規化した結果
に基づいて、音声情報と音声標準パタンの相違度を求
め、更にその相違度を音声情報の音声区間の長さに応じ
て修正し、修正された相違度に基づいて音声情報の認識
候補を出力することにより、正解の音声標準パタンより
も音韻列の短い音声標準パタンの方を認識してしまうと
いう従来のワードスポッティング法等に見られる欠点を
解決し、入力音声の認識率をより一層向上させることが
できる。以上説明したように、本発明によれば、好まし
くは音声区間の長さが長いほど、該音声区間に対応する
音声標準パタンの相違度を小さくするように修正するこ
とにより、単語の長さの違いが相違度に与える悪影響を
排除することができる。以上説明したように、本発明に
よれば、好ましくは相違度をワードスポッティング方式
を用いて演算することにより、音声区間の検出と認識を
同時に行え、効率的であるという利点を持つワードスポ
ッティングの弱点を排除した効率的で認識率の高い音声
認識を可能とする。

【図面の簡単な説明】

【図１】本発明を実施した音声認識装置のブロック図。

【図２】単語辞書に登録してある単語の一覧表例示図。

【図３】単語標準パタンの構成の第２の例示図。

【図４】ＤＰパスの形状例示図。

【図５】音声区間検出を説明する為の図。

【図６】ワードスポッティングによる音声区間検出とス
コアを示す図。

【図７】音声区間長を利用したスコア補正の手順を示す
フローチャート。

【図８】スコア修正の結果を例示する図。

【図９】短い音声入力音声に対する音声区間検出とスコ
アを示す図。

【図１０】短い入力音声に対するスコア修正の結果を例
示する図。

【図１１】単語標準パタンの構成の第２の例示図。

───────────────────────────────────────────────────── フロントページの続き (72)発明者松尾広東京都大田区下丸子３丁目30番２号キヤノン株式会社内 (56)参考文献特開平４−281496（ＪＰ，Ａ) 特開平４−362698（ＪＰ，Ａ) 特開平４−115296（ＪＰ，Ａ) 特開昭63−147198（ＪＰ，Ａ) 特開平３−120598（ＪＰ，Ａ) 特開平１−262597（ＪＰ，Ａ) 特開昭61−26095（ＪＰ，Ａ) 特許2804265（ＪＰ，Ｂ２) 特公昭61−40120（ＪＰ，Ｂ２) 特公昭56−823（ＪＰ，Ｂ２) 特公昭55−40912（ＪＰ，Ｂ２) 日本音響学会昭和63年度春季研究発表会講演論文集▲Ｉ▼ ２−２−１「不特定話者向きの単語音声認識システムの検討」ｐ．53−54（昭和63年３月発行) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．86，Ｎｏ．282，ＳＰ86−68, 「最適局所整合を用いた類似単語音声の認識」ｐ．55−58（1986年12月18日発行) 日本音響学会誌Ｖｏｌ．27，Ｎｏ. ９，「動的計画法を利用した音声の時間正規化に基づく連続単語認識」ｐ．483 −490（昭和46年９月10日発行) 古井「ディジタル音声処理」（1985− ９−25）東海大学出版会ｐ．176−177 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声標準パタンを記憶する標準パタン記
憶手段と、入力した音声情報と前記標準パタン記憶手段に記憶され
ている音声標準パタンとを比較し、正規化した結果に基
づいて、前記音声情報と前記音声標準パタンの相違度を
求める演算手段と、前記音声情報と前記音声標準パタンの相違度を、前記音
声情報の音声区間の長さに応じて修正する相違度修正手
段と、修正された前記相違度に基づいて前記音声情報の認識候
補を出力する認識候補判別手段とを有することを特徴と
する音声認識装置。
【請求項２】前記相違度修正手段は、前記音声情報の
音声区間の長さが長いほど、前記相違度を小さくするよ
うに修正することを特徴とする請求項１に記載の音声認
識装置。
【請求項３】前記演算手段は、前記相違度をワードス
ポッティング方式を用いて演算することを特徴とする請
求項１に記載の音声認識装置。
【請求項４】音声標準パタンを記憶し、入力した音声情報と記憶されている前記音声標準パタン
とを比較し、正規化した結果に基づいて、前記音声情報
と前記音声標準パタンの相違度を求め、前記音声情報と前記音声標準パタンの相違度を、前記音
声情報の音声区間の長さに応じて修正し、修正された前記相違度に基づいて前記音声情報の認識候
補を出力することを特徴とする音声認識方法。
【請求項５】前記音声認識方法は更に、前記音声情報
の音声区間の長さが長いほど、前記相違度を小さくする
ように修正することを特徴とする請求項４に記載の音声
認識方法。
【請求項６】前記音声認識方法は更に、前記相違度を
ワードスポッティング方式を用いて演算することを特徴
とする請求項４に記載の音声認識方法。