JPH09258771A

JPH09258771A - 音声処理方法及び装置

Info

Publication number: JPH09258771A
Application number: JP8068040A
Authority: JP
Inventors: Hiroki Yamamoto; 寛樹山本; Yasuhiro Komori; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-03-25
Filing date: 1996-03-25
Publication date: 1997-10-03
Also published as: EP0798696B1; US5970445A; DE69715071T2; EP0798696A3; EP0798696A2; DE69715071D1

Abstract

(57)【要約】【課題】従来は、分布の重みに関係なく量子化値を決
定することにより、量子化による出力確率計算の誤差が
大きくなり、認識率が低下するという課題があった。【解決手段】音声データの量子化範囲を導出し（Ｓ６
１）、その導出された量子化範囲の分布の出力確率の積
分値を求め、この積分値を等分するように量子化値を決
定し（Ｓ６２）、この量子化値から量子化コードブック
（５０２）を作成して記憶し、この量子化コードブック
を用いて音声認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声処理方法及び
装置に関するものである。

【０００２】

【従来の技術】従来は図３に示すように、コードブック
をｍｉｎｍａｘ量子化範囲決定ステップＳ３１によって
量子化範囲を決定し、その量子化範囲内で量子化値を等
分割量子化値決定ステップＳ３２によって決定してい
た。それぞれのステップは以下のように処理される。

【０００３】ｍｉｎｍａｘ量子化範囲決定ステップＳ３
１各次元毎に、音声認識に用いるＨＭＭのその次元の分布
全てについて、それぞれの分布の平均から標準偏差の一
定数倍を加減した値を求め、求まった値の最大値・最小
値をその次元の量子化範囲とする。

【０００４】具体的には、ｉ次元の量子化範囲［Ｒ
_min.i ・Ｒ_max.i ］を以下のようにして求める。

【０００５】

【外１】

【０００６】ｍは分布番号（ｍ＝１．２．…．Ｍ_i ）、
Ｍ_i はｉ次元の全分布数、μ_m.i はｉ次元のｍ番目の分
布の平均、σ_m.i はｉ次元のｍ番目の分布の分散から算
出した標準偏差である。

【０００７】αは量子化範囲を決定するための系数であ
る。図４にｍｉｎｍａｘ量子化範囲決定ステップのイメ
ージ図を示す。

【０００８】等分割量子化値決定ステップＳ３２各次元毎に、量子化範囲を等分するように量子化値を決
める。

【０００９】ｉ次元の量子化範囲が［Ｒ_min.i ・Ｒ
_max.i ］で量子化ステップ数がＮの時、等分割量子化値
決定ステップではｊ（１＜ｊ＜Ｎ）番目の量子化値Ｃ
_i.j を（３）式のように決定する。

【００１０】

【外２】

【００１１】図５に等分割量子化値決定ステップのイメ
ージ図を示す。

【００１２】

【発明が解決しようとする課題】上記従来技術では、ｍ
ｉｎｍａｘ量子化範囲決定ステップで量子化範囲を決め
る場合、分布の中に他の分布から大きくはずれた分布が
あると、その分布の重要度に関わらずそのはずれた分布
からの情報によって量子化範囲が広くなる。この様子を
図４に示した。この量子化範囲を等分割量子化値決定ス
テップＳ３２に従って量子化値を決定すると、量子化範
囲に均等に量子化値が設定されるため、分布が少ないと
ころ、すなわちあまり使われない範囲に量子化値が設定
される一方で、頻繁に使われるであろう分布の多いとこ
ろでの量子化値の設定数が少なくなる（図５参照）。結
果として量子化ステップ数が少ない場合に、スカラー量
子化による入力ベクトルの近似が粗くなり、量子化によ
る出力確率計算の誤差が大きくなり認識率の低下を招く
という課題があった。

【００１３】

【課題を解決するための手段】上記課題を解決する為
に、本発明は音声データの量子化範囲を導出し、前記導
出された量子化範囲の分布の出力確率の積分値を求め、
前記積分値を等分するように量子化値を決定して量子化
コードブックを作成する音声処理方法及び装置を提供す
る。

【００１４】上記課題を解決する為に、本発明は好まし
くは前記作成された量子化コードブックを用いて入力音
声を認識する。

【００１５】上記課題を解決する為に、本発明は好まし
くは前記音声データの量子化範囲は各次元毎に求める。

【００１６】上記課題を解決する為に、本発明は好まし
くは前記音声データは隠れマルコフモデルとする。

【００１７】上記課題を解決する為に、本発明は好まし
くは前記音声データの量子化範囲の導出は、音声データ
の各次元毎に、該次元の分布全てについてそれぞれの分
布の平均から標準偏差の一定数倍を加減した値を求め、
前記求めた値の最大値及び最小値を前記量子化範囲とす
る。

【００１８】上記課題を解決する為に、本発明は好まし
くは前記音声データの量子化範囲の導出は、音声データ
の各次元毎に、該次元の分布の全てを一つの分布に合成
し、該合成した分布の平均から標準偏差の一定数倍を加
減した値を求め、前記求めた値の最大値及び最小値を前
記量子化範囲とする。

【００１９】上記課題を解決する為に、本発明は好まし
くは前記認識の結果を表示する。

【００２０】上記課題を解決する為に、本発明は好まし
くは前記認識の結果を印字する。

【００２１】上記課題を解決する為に、本発明は好まし
くは前記音声データをマイクロフォンにより入力する。

【００２２】上記課題を解決する為に、本発明は好まし
くは音声データの各次元毎に、該次元の分布の全てを一
つの分布に合成し、該合成した分布の平均から標準偏差
の一定数倍を加減した値を求め、前記求めた値の量子化
範囲を導出し、前記導出された量子化範囲を等分して量
子化値を決定して量子化コードブックを作成する。

【００２３】上記課題を解決する為に、本発明は好まし
くは前記作成された量子化コードブックを用いて入力音
声を認識する。

【００２４】

【発明の実施の形態】以下、図面を参照しながら本発明
の一実施形態を説明する。図１は本発明に係わる音声認
識装置である計算機の概略構成の一例を表すブロック図
である。図２は本発明に係わる音声認識方法のフローチ
ャートである。音声入力ステップＳ２１で図１の音声入
力装置（３００）により取り込んだ音声を、記憶装置
（５００）に記憶されたプログラム５００２に従って音
響分析ステップＳ２２でＣＰＵ（４００）により音響分
析処理し、記憶装置５００に記憶されたプログラム５０
０３に従ってスカラー量子化ステップＳ２３において分
析結果を各次元毎に記憶装置（５００）に記憶された量
子化コードブック５０２に従ってスカラー量子化し、音
声認識ステップＳ２４において記憶装置（５００）に記
憶された量子化値に対する各ＨＭＭの各分布の出力確率
のテーブル５０３を参照しながら出力確率を求めて音声
認識を行い、認識結果表示ステップＳ２４でその結果を
表示装置（２００）に出力する。

【００２５】ここで、表示装置２００はＣＲＴや液晶表
示器、或いはそれら表示器に認識結果の文字列を表示さ
せる為の表示制御部である。また、表示装置２００に替
えて、ＬＢＰやインクジェットプリンタ等の印字装置６
００を備え、認識結果を印字するようにしても良い。音
声入力装置はマイクロフォン或いは公衆回線等を介して
音声を入力するものである。ＣＰＵ４００は記憶装置５
００に記憶されている制御プログラムに従って、以下詳
述する本発明に係る各処理を実行するものである。記憶
装置５００は本装置内蔵のＲＯＭやＲＡＭ、或いは本体
に着脱可能なＣＤＲＯＭやＦＤであって、音声入力装置
３００より入力した音声データ、制御プログラム、量子
化コードブック（５０２，５０５，５０７）、出力確率
テーブル（５０３）、ＨＭＭの情報（５０４）等のパラ
メータを記憶し、更にワーキングエリアも設ける。ま
た、この記憶装置５００に記憶されている制御プログラ
ムやパラメータは、予め記憶装置５００に記憶されたも
のであっても良いし、処理に先立って通信Ｉ／Ｆ７００
を介して他装置から本装置に読み込んでも良い。尚、記
憶装置５００に記憶されたデータのメモリマップ例を図
１２に示す。

【００２６】本発明の特徴的なスカラー量子化を行う際
に用いる量子化コードブック５０２の作成方法を図６に
従って説明する。

【００２７】記憶装置（５００）に記憶されたプログラ
ム５００６に従い、記憶装置（５００）に格納されたＨ
ＭＭの情報を元に、ＣＰＵ（４００）で従来技術として
先に説明したｍｉｎｍａｘ量子化範囲決定ステップによ
って量子化範囲を決定し（Ｓ６１）、決定した量子化範
囲をもとに記憶装置（５００）に記憶されたプログラム
５００８に従い、出力確率積分値等分割量子化値決定ス
テップによってＣＰＵ（４００）で量子化値を決定し
（Ｓ６２）、その値を量子化コードブック５０２として
記憶装置（５００）に記憶する。出力確率積分値等分割
量子化値決定ステップ（Ｓ６２）で行うより詳細な処理
を以下に説明する。

【００２８】出力確率積分値等分割量子化値決定ステッ
プ（Ｓ６２）各次元について、全ての分布の量子化範囲内の出力確率
の積分値を求め、その積分値を等分するように量子化値
を決定する。そのイメージ図を図７に示す。図７はｉ次
元の量子化値分布を示したものである。

【００２９】ｉ次元の量子化範囲を〔Ｒ_min,i ．Ｒ
_max,i 〕とする。量子化ステップ数をＮ，ｉ次元のＨＭ
Ｍの総分布数をＭ_i 、入力がｘの時のｉ次元のｍ（１＜
ｍ＜Ｍ_i）番目の分布による出力確率をＰ_m,i （ｘ）と
する。この時量子化範囲内の積分値Ｓは図８のようにし
て細長い長方形の面積の和として近似的に求まる。

【００３０】

【外３】である。ここで、ｎは量子化ステップ数Ｎよりも十分大
きな数にしておく。このようにして近似的にＳを求めた
後にｉ次元のｋ（１＜ｋ＜Ｎ）番目の量子化値Ｃ_i,k は
（９）式のようになる。

【００３１】

【外４】

【００３２】以上で説明した、ｍｉｎｍａｘ量子化範囲
決定ステップおよび出力確率積分値等分割量子化値決定
ステップで作成した量子化コードブック５０２を用い
て、図２に示したフローチャートに従って音声認識を行
う。

【００３３】第二の量子化コードブックを作成する場合
の実施形態のフローチャートを図９に示す。記憶装置
（５００）に記憶されたプログラム５００９に従い、記
憶装置（５００）に格納されたＨＭＭの情報５０６を元
に、ＣＰＵ（４００）でｍｅｒｇｅ量子化範囲決定ステ
ップＳ９１によって量子化範囲を決定し、決定した量子
化範囲をもとに記憶装置（５００）に記憶されたプログ
ラム５００７に従い、等分割量子化値決定ステップＳ９
２によってＣＰＵ（４００）で量子化値を決定し、その
値を量子化コードブック５０５として記憶装置（５０
０）に記憶する。ｍｅｒｇｅ量子化範囲決定ステップＳ
９２で行う処理を以下に説明する。

【００３４】ｍｅｒｇｅ量子化範囲決定ステップＳ９２各次元毎に、音声認識に用いる全てのＨＭＭのその次元
の分布全てを一つの分布に合成して、その分布の平均か
ら標準偏差の一定数倍を加減した値を量子化範囲とす
る。このイメージ図を図１０に示す。

【００３５】ｉ次元の量子化範囲〔Ｒ_min.i.Ｒ_max.i 〕
をｉ次元の認識に用いる全てのＨＭＭの分布を合成して
得られる分布の平均μ′_i と標準偏差σ′_i を用いて以
下のように決める。Ｒ_min.i ＝μ′_i −α・σ′_i （１１）Ｒ_max.i ＝μ′_i −α・σ′_i （１２）

【００３６】Ｍ個の分布の合成は式（１３）で求めた。
合成された分布の平均をμ′，分散をσ′² とする。

【００３７】

【外５】

【００３８】ｍは分布番号（ｍ＝１．２．…．Ｍ）、μ
_m は、ｍ番目の分布の平均、σ_m はｍ番目の分布の分散
から算出した標準偏差である。

【００３９】以上で説明した、ｍｅｒｇｅ量子化範囲決
定ステップＳ９１および等分割量子化値決定ステップＳ
９２で作成した量子化コードブックを用いて、図２に示
したフローチャートに従って音声認識を行う。

【００４０】第三の量子化コードブックを作成する場合
の実施形態のフローチャートを図１１に示す。記憶装置
（５００）に記憶されたプログラム５００９に従い、記
憶装置（５００）に格納されたＨＭＭの情報５０８を元
に、ＣＰＵ（４００）でｍｅｒｇｅ量子化範囲決定ステ
ップＳ１１１によって量子化範囲を決定し、決定した量
子化範囲をもとに記憶装置（５００）に記憶されたプロ
グラム５００８に従い、出力確率積分値等分割量子化値
決定ステップＳ１１２によってＣＰＵ（４００）で量子
化値を決定し、その値を量子化コードブック５０７とし
て記憶装置（５００）に記憶する。

【００４１】ｍｅｒｇｅ量子化範囲決定ステップＳ１１
１および出力確率積分値等分割量子化決定ステップＳ１
１２で作成した量子化コードブックを用いて、図２に示
したフローチャートに従って音声認識を行う。

【００４２】

【発明の効果】以上に説明した通り、本発明により作成
した量子化コードブックを用いることにより、量子化ス
テップ数が少ない時にも効率的なスカラー量子化が実現
され、音声認識率が向上する。

【図面の簡単な説明】

【図１】音声認識システムのブロック図。

【図２】音声認識方法のフローチャート。

【図３】従来のコードブック作成方法のフローチャー
ト。

【図４】従来のｍｉｎｍａｘ量子化範囲のイメージ図。

【図５】従来の等分割量子化値のイメージ図。

【図６】第１のコードブック作成方法のフローチャー
ト。

【図７】出力確率積分値等分割量子化のイメージ図。

【図８】混合分布の出力確率のある範囲の面積を求める
方法のイメージ図。

【図９】第２のコードブック作成方法のフローチャー
ト。

【図１０】ｍｅｒｇｅ量子化範囲のイメージ図。

【図１１】第３のコードブック作成方法のフローチャー
ト。

【図１２】記憶装置のメモリマップ例を示す図。

Claims

【特許請求の範囲】

【請求項１】音声データの量子化範囲を導出し、前記導出された量子化範囲の分布の出力確率の積分値を
求め、前記積分値を等分するように量子化値を決定して量子化
コードブックを作成することを特徴とする音声処理方
法。
【請求項２】前記作成された量子化コードブックを用
いて入力音声を認識することを特徴とする請求項１に記
載の音声処理方法。
【請求項３】前記音声データの量子化範囲は各次元毎
に求めることを特徴とする請求項１に記載の音声処理方
法。
【請求項４】前記音声データは隠れマルコフモデルと
することを特徴とする請求項１に記載の音声処理方法。
【請求項５】前記音声データの量子化範囲の導出は、
音声データの各次元毎に、該次元の分布全てについてそ
れぞれの分布の平均から標準偏差の一定数倍を加減した
値を求め、前記求めた値の最大値及び最小値を前記量子化範囲とす
ることを特徴とする請求項１に記載の音声処理方法。
【請求項６】前記音声データの量子化範囲の導出は、
音声データの各次元毎に、該次元の分布の全てを一つの
分布に合成し、該合成した分布の平均から標準偏差の一
定数倍を加減した値を求め、前記求めた値の最大値及び最小値を前記量子化範囲とす
ることを特徴とする請求項１に記載の音声処理方法。
【請求項７】前記認識の結果を表示することを特徴と
する請求項２に記載の音声処理方法。
【請求項８】前記認識の結果を印字することを特徴と
する請求項２に記載の音声処理方法。
【請求項９】前記音声データをマイクロフォンにより
入力することを特徴とする請求項１に記載の音声処理方
法。
【請求項１０】音声データの各次元毎に、該次元の分
布の全てを一つの分布に合成し、該合成した分布の平均
から標準偏差の一定数倍を加減した値を求め、前記求めた値の量子化範囲を導出し、前記導出された量子化範囲を等分して量子化値を決定し
て量子化コードブックを作成することを特徴とする音声
処理方法。
【請求項１１】前記作成された量子化コードブックを
用いて入力音声を認識することを特徴とする請求項１に
記載の音声処理方法。
【請求項１２】音声データの量子化範囲を導出する量
子化範囲導出手段と、前記導出された量子化範囲の分布の出力確率の積分値を
求める積分値導出手段と、前記積分値を等分するように量子化値を決定して量子化
コードブックを作成する量子化コードブック作成手段と
を有することを特徴とする音声処理装置。
【請求項１３】前記作成された量子化コードブックを
用いて入力音声を認識する音声認識手段を有することを
特徴とする請求項１２に記載の音声処理装置。
【請求項１４】前記量子化範囲導出手段は音声データ
の各次元毎に量子化範囲を求めることを特徴とする請求
項１２に記載の音声処理装置。
【請求項１５】前記音声データは隠れマルコフモデル
とすることを特徴とする請求項１２に記載の音声処理装
置。
【請求項１６】前記量子化範囲導出手段は、音声デー
タの各次元毎に、該次元の分布全てについてそれぞれの
分布の平均から標準偏差の一定数倍を加減した値を求
め、前記求めた値の最大値及び最小値を前記量子化範囲とす
ることを特徴とする請求項１２に記載の音声処理装置。
【請求項１７】前記量子化範囲導出手段は、音声デー
タの各次元毎に、該次元の分布の全てを一つの分布に合
成し、該合成した分布の平均から標準偏差の一定数倍を
加減した値を求め、前記求めた値の最大値及び最小値を前記量子化範囲とす
ることを特徴とする請求項１２に記載の音声処理装置。
【請求項１８】前記音声認識手段による認識結果の文
字列を表示する表示手段を有することを特徴とする請求
項１３に記載の音声処理装置。
【請求項１９】前記音声認識手段による認識結果の文
字列を印字する印字手段を有することを特徴とする請求
項１３に記載の音声処理装置。
【請求項２０】前記音声データを入力するマイクロフ
ォンを有することを特徴とする請求項１２に記載の音声
処理装置。
【請求項２１】音声データの各次元毎に、該次元の分
布の全てを一つの分布に合成し、該合成した分布の平均
から標準偏差の一定数倍を加減した値を求め、前記求め
た値の量子化範囲を導出する量子化範囲導出手段と、前記導出された量子化範囲を等分して量子化値を決定し
て量子化コードブックを作成する量子化コードブック作
成手段とを有することを特徴とする音声処理装置。
【請求項２２】前記作成された量子化コードブックを
用いて入力音声を認識する音声認識手段を有することを
特徴とする請求項２１に記載の音声処理装置。
【請求項２３】前記音声処理装置は前記各処理を制御
するプログラムを記憶した記憶媒体とすることを特徴と
する請求項１２に記載の音声処理方法。