JPH04362698A

JPH04362698A - 音声認識方法及び装置

Info

Publication number: JPH04362698A
Application number: JP3139091A
Authority: JP
Inventors: Tetsuo Kosaka; 哲夫小坂; Junichi Tamura; 純一田村; Atsushi Sakurai; 櫻井　穆; Hiroshi Matsuo; 松尾　広
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1991-06-11
Filing date: 1991-06-11
Publication date: 1992-12-15
Also published as: US5369728A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識方法及び装置、
特に標準パタンとして単語を用いる音声認識方法及び装
置に関するものである。

【０００２】

【従来の技術】従来からある音声認識の手法の一つとし
て、音声区間の検出と単語の認識を同時に行うことので
きるワードスポッティング法が存在する。連続ＤＰはこ
の方法を用いる一例である。

【０００３】このワードスポッティング法とは、単語標
準パタンを認識対象である入力音声のパラメータに変換
したものに対して時系列上で１フレームずつシフトさせ
ながら標準パタンと入力音声パラメータの相違度を表す
距離を計算し、その距離が予め定めておいたあるしきい
値以下となった時に、入力音声のその位置にその標準パ
タンが表す単語が存在するものとして認識する方法であ
る。

【０００４】

【発明が解決しようとしている課題】しかしながら、こ
のような従来のワードスポッティング法では、ある単語
が他の単語をその単語の一部として含んでしまう場合は
、原理的に認識できない。この場合というのは、例えば
、／ｒｏｋｕ／（六）が／ｋｕ／（九）を含み、／ｓｉ
ｃｉ／（七）が／ｉｃｉ／（一）を含んでいる場合があ
る。

【０００５】これを図６を用いて／ｒｏｋｕ／と／ｋｕ
／の例で説明すると、／ｋｕ／の標準パタンは／ｋｕ／
の入力音声だけでなく、／ｒｏｋｕ／の入力音声の／ｋ
ｕ／の部分ともマッチングしてしまい、誤認識となって
しまう。

【０００６】

【課題を解決するための手段】上記課題を解決する為に
本発明は、音声の標準パタンを入力音声に対してシフト
させながら順次相違度を演算する音声認識方法において
、前記標準パタンは、単語を表わす標準パタンに無音パ
タンを付加したものを用いることを特徴とする音声認識
方法を提供する。

【０００７】上記課題を解決する為に、本発明は好まし
くは前記入力音声と標準パタンの相違度を演算する際に
は、前記入力音声と前記標準パタンは音声パラメータに
変換されたものを用いる。

【０００８】上記課題を解決する為に本発明は、音声の
標準パタンを格納する格納手段と、前記音声の標準パタ
ンを入力音声に対してシフトさせながら順次相違度を演
算する演算手段を有する音声認識装置において、前記格
納手段に格納される標準パタンは、単語を表わす標準パ
タンに無音パタンを付加したものを用いることを特徴と
する音声認識装置を提供する。

【０００９】上記課題を解決する為に、本発明は好まし
くは前記演算手段は、音声パラメータに変換された入力
音声と、標準パタンを用いて演算を行う。

【００１０】

【実施例】図１は本発明の実施例における構成を示すブ
ロック図である。１は入力音声の分析を行う音響分析部
、２は音声を含む区間を切り出す音声区間切り出し部、
３は登録した標準パタンを用いてワードスポッティング
を行うワードスポッティング部、４はパラメータ時系列
によって表現される単語標準パタン格納部、５は無音と
マッチングする為の無音標準パタン格納部、６は４の単
語標準パタンと５の無音標準パタンを合成する標準パタ
ン合成部、７は最終的な認識単語を決定する単語認識部
である。

【００１１】図２は本発明の認識方法を実現するための
具体的な音声認識装置の構成ブロック図である。図２に
おいて８は認識対象となる音声を入力する入力部、９は
各種データを記憶するハードディスクまたはフロッピー
ディスクであるディスク、１０は本装置を制御する制御
部で、図３に示すような制御プログラムを格納するＲＯ
Ｍ（リード・オンリー・メモリ）を含むものである。こ
のＲＯＭ中の制御プログラムに従って制御部は処理の判
断を行い制御する。１１は図１に示した各部における各
種データを記憶するＲＡＭ（ランダム・アクセス・メモ
リ）、１２は例えばＣＲＴディスプレイ、例えばプリン
タから成る出力部である。なお図１に示した各部が、そ
れぞれＣＰＵ、ＲＡＭ、ＲＯＭを有していてもよい。

【００１２】次に図３を参照して本発明の処理動作を説
明する。上記構成において、入力部８から入力された音
声は音響分析部１でＬＰＣケプストラムなど音声認識を
行うためのパラメータに分析される。また同時に入力音
声のパワーも求める（Ｓ１）。音響分析部１で求められ
たパワー時系列を音声区間切り出し部２で監視し、音声
のパワーがあらかじめ設定したしきい値を越えた点を、
音声が存在する可能性のある部分として認識し、その点
を含む一単語が含まれるに十分な区間を時系列中から音
声区間として切り出す（Ｓ２）。ただし、ここでは音声
区間の厳密な切り出しは行わない。音声区間切り出し部
２で求められたパラメータ系列に対し、標準パタン合成
部６で単語標準パタン格納部４に格納されている単語標
準パタンの前後に無音標準パタン格納部５の無音パタン
を合成して得た標準パタンを用いて、ワードスポッティ
ング部３でワードスポッティングを行う。標準パタン合
成部６において単語標準パタンに付加する無音標準パタ
ンのフレーム長は、前後に促音や無音破裂音による無音
部が来ることも考慮して、それよりも十分に長いフレー
ム長を付加する。例えば、マッチングに際して１／２〜
２の傾斜制御のＤＰを用いる場合は促音などによって付
加される無音区間の２倍以上のフレーム数を付加する。これによって前後に促音や無声破裂音による無音区間が
生じても、誤って検出することが避けられる。以下に、
ワードスポッティング部３の動作の詳細を図３のフロー
チャートにより説明する。まず、Ｓ３で入力フレームご
とにスポッティングによる距離計算を行う。以下に連続
ＤＰを用いた場合の計算式を示す。

【００１３】

【外１】但し、ｉ：入力パラメータのｉフレーム目ｊ：標準パタ
ンのｊフレーム目ｄ（ｉ，ｊ）：ｉフレームの入力ベク
トルとｊフレームの標準パタン間の距離Ｐ（ｉ，ｊ）：
点（ｉ，ｊ）における累積距離Ｃ（ｉ，ｊ）：点（ｉ，
ｊ）における最適経路長Ｊ：標準パタン長

【００１４】
Ｓ４では式（３）で示したＤＰ値Ｄ（ｉ）と、あらかじ
め設定したしきい値の大小比較を行い、Ｄ（ｉ）がしき
い値以下となる場合はＳ６へ、それ以外の場合はＳ５へ
と進む。Ｓ５では切り出し区間の最終フレームまで計算
が行われたかチェックし、最終フレームまで計算が終わ
った場合はＳ８へ、そうでない場合はＳ３へ戻り次の入
力フレームの距離計算を行う。Ｓ６では図４に示すよう
に、しきい値以下となった区間でのＤＰ値の最小値を与
える点を求める。次にＳ７ではＳ６で見つけた最小点か
ら図５に示すようにＤＰパスのバックトラックを行い、
図５においてＤＰパスの太線で示した部分のみの距離の
再計算を行い、これをその入力単語の距離としてバッフ
ァに一時記憶する。Ｓ８ではすべての登録された単語の
標準パタンとマッチングをしたかどうかチェックし、す
べて終了した場合はＳ９へ、まだ終了していない場合は
Ｓ３に戻り、次の単語との計算を開始する。図１のワー
ドスポッティング部３で以上のようにワードスポッティ
ングを行ったのち、単語認識部７で標準パタン合成部６
で合成された各単語のワードスポッティングして得た距
離を比較し、最小のものを認識単語として出力する（Ｓ
９）。Ｓ４でしきい値以下の単語が存在しない場合はリ
ジェクト（認識不能）とし、認識単語はなかったものと
する。

【００１５】なお、ここでは、音声区間をパワーによっ
て大まかに切り出してから、その区間についてワードス
ポッティングを行う方法について述べたが、ワードスポ
ッティングにより、常時標準パタンを入力パタン上でシ
フトさせながら距離計算を行い、距離がしきい値以下に
なるか否かを監視し、しきい値以下になった場合認識処
理を行うという手法をとることにより、あらかじめ音声
区間の切り出しを行わずとも認識が可能である。

【００１６】なお、ここでは単語標準パタンの前後に無
音標準パタンを付加して認識処理を行う例について述べ
たが、無音標準パタンの付加位置は前後両方に付加する
とは限らず、必要に応じて前のみや後のみとすることも
可能であることは言うまでもない。

【００１７】

【発明の効果】以上説明したように、本発明によればワ
ードスポッティングを行う標準パタンの前後に無音を表
す標準パタンを付加して入力音声との距離計算を行い、
検出した単語の区間を無音パタンを除いた単語標準パタ
ンのみで再度距離計算することにより、独立した単語で
あり、標準パタンとして格納されている単語を、他の単
語の一部として誤って認識してしまうことを防ぐことが
可能となる。

【００１８】また、標準パタンに無音パタンを付加して
認識した後に標準パタンのみでの距離計算を行う為、標
準パタンに付加する無音パタンのフレーム長に影響され
ない認識処理が可能となる。

【図面の簡単な説明】

【図１】本発明の説明図。

【図２】本発明による音声認識装置のブロック図。

【図３】本発明の制御フローチャート。

【図４】最小値点検出の説明図。

【図５】距離再計算の説明図。

【図６】連続ＤＰによる誤認識の説明図。

【符号の説明】

１　　音響分析部２　　音声区間切り出し部３　　ワードスポッティング部４　　単語標準パタンテーブル５　　無音標準パタンテーブル６　　標準パタン合成部７　　単語認識部８　　入力部９　　ディスク装置１０　　制御部１１　　ＲＡＭ１２　　出力部

Claims

【特許請求の範囲】

【請求項１】　　音声の標準パタンを入力音声に対して
シフトさせながら順次相違度を演算する音声認識方法に
おいて、前記標準パタンは、単語を表わす標準パタンに
無音パタンを付加したものを用いることを特徴とする音
声認識方法。
【請求項２】　　前記入力音声と標準パタンの相違度を
演算する際には、前記入力音声と前記標準パタンは音声
パラメータに変換されたものを用いることを特徴とする
請求項１に記載の音声認識方法。
【請求項３】　　音声の標準パタンを格納する格納手段
と、前記音声の標準パタンを入力音声に対してシフトさ
せながら順次相違度を演算する演算手段を有する音声認
識装置において、前記格納手段に格納される標準パタン
は、単語を表わす標準パタンに無音パタンを付加したも
のを用いることを特徴とする音声認識装置。
【請求項４】　　前記演算手段は、音声パラメータに変
換された入力音声と、標準パタンを用いて演算を行うこ
とを特徴とする請求項３に記載の音声認識装置。