JPH096387A

JPH096387A - 音声認識装置

Info

Publication number: JPH096387A
Application number: JP7151598A
Authority: JP
Inventors: Nobuyuki Kono; 信幸香野
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1995-06-19
Filing date: 1995-06-19
Publication date: 1997-01-10

Abstract

(57)【要約】【目的】類似単語同士の識別能力が優れた音声認識装
置を提供することを目的とする。【構成】入力された音声から切り出した単語音声か
ら、特徴データを抽出する特徴抽出部３と、特徴データ
からマルコフモデルによりモデル化する際の単語音声に
対する状態数を推定する状態数推定部４と、新に登録し
ようとする単語音声と類似した単語が既に登録されてい
ないか判定する類似単語判定部５と、推定した状態数を
増やす状態数加算部６と、特徴データを単語モデルに当
てはめてマルコフモデルパラメータを求める学習部７
と、マルコフモデルパラメータからなる音声辞書ファイ
ル８と、各単語モデルに対して尤度を計算し認識候補を
判定する照合判定部９とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、単語音声を認識し、そ
の認識結果を出力する音声認識装置に関するものであ
る。

【０００２】

【従来の技術】従来の音声認識装置についての説明を行
うに先立ち、従来の音声認識装置で用いられているHidd
en Markov Model（本明細書において「マルコフモデ
ル」という）による音声認識の原理について説明する。

【０００３】マルコフモデルは、N個の状態Ｓ１,Ｓ
２,...,ＳNを持ち、一定周期毎に、ある確率（遷移確
率）で状態を次々に遷移するとともに、その際に、ある
確率（出力確率）でラベル（特徴データ）を一つずつ出
力するというものである。

【０００４】そして、音声をラベル（特徴データ）の時
系列と見て、学習時に、各単語を数回発声してそれらを
モデル化したマルコフモデルを作成しておき、認識時に
は、入力音声のラベル系列を出力する確率（尤度）が最
大になるマルコフモデルを探すことで認識を行なう。

【０００５】以下、図面を見ながら具体的に説明する。
図５は、従来の音声認識装置におけるマルコフモデルの
説明図である。図示しているものは、日本音響学会誌４
２巻１２号（１９８６）「Hidden Markov Modelに基
づいた音声認識」で示されたマルコフモデルの簡単な例
であり、このマルコフモデルは、３つの状態で構成さ
れ、２種類のラベルaとラベルbのみからなるラベル系列
を出力する。

【０００６】初期状態はＳ１で、Ｓ１からは、０．３の
確率でＳ１自体に遷移する（その際にラベルａを出力す
る。なお、ラベルｂは出力確率が０．０なので出力され
ない）か、０．７の確率でＳ２に遷移する（その際にラ
ベルａを０．５の確率で、ラベルｂを０．５の確率で出
力する）。

【０００７】状態Ｓ２からは、０．２の確率でＳ２自体
に遷移する（その際にラベルａかラベルｂかをそれぞれ
０．３、０．７の確率で出力する）か、０．８の確率で
最終状態Ｓ３に遷移する（その際にラベルｂを出力す
る。ラベルａは出力確率が０．０なので出力されない）
ことを表している。

【０００８】ここで、このマルコフモデルがラベル系列
（特徴データの列）ａｂｂを出力する確率（尤度）を考
えると、このマルコフモデルで許される状態系列は、Ｓ
１Ｓ１Ｓ２Ｓ３とＳ１Ｓ２Ｓ２Ｓ３の２つだけであり、
それぞれ確率は、０．３＊１．０＊０．７＊０．５＊０．８＊１．０＝０．０８４００．７＊０．５＊０．２＊０．７＊０．８＊１．０＝０．０３９２である。どちらの可能性もあるので、合計０．０８４０
＋０．０３９２＝０．１２３２の確率でこのマルコフモ
デルはａｂｂを出力することがわかる。

【０００９】さて、予め単語毎にそのマルコフモデルを
学習して、各単語に最も適した状態の遷移確率と各状態
遷移におけるラベルの出力確率を求めておけば、ある未
知の単語のラベル系列が入力された場合、各マルコフモ
デルに対して確率（尤度）計算を行い、どの単語に対す
るマルコフモデルがこのラベル系列を出力し易いかを知
ることができ、これにより認識を行うことができる。以
上が、マルコフモデルによる音声認識の原理である。

【００１０】また図６は、従来の音声認識装置における
音声波形、特徴データの時系列とマルコフモデルの各状
態の対応を示す例示図であり、「はじめ」と発声した場
合の対応関係を示している。このように、音声の特徴デ
ータの時系列に対して、その単語の音韻数程度の少ない
状態数でマルコフモデルが表現される。

【００１１】ところで、従来のマルコフモデルを用いた
単語音声を認識する音声認識装置では、学習時に、音声
認識装置に登録する各単語に対し、その単語の音韻数程
度の少ない状態数を音韻のスペクトル変化等から求め、
各状態遷移での特徴データの出力確率と状態間の遷移確
率を学習により推定してマルコフモデルにモデル化して
おき、認識時に入力音声をこれら全てのモデルに当ては
めて、尤度計算を行い認識していた。

【００１２】

【発明が解決しようとする課題】ところで、従来の音声
認識装置を用いて、学習時に単語を登録する際に、例え
ば、「さとう」という単語を登録した後から、それと音
響的によく似た単語「かとう」などを登録しようとする
と、同じような状態数とマルコフモデルパラメータとな
るため、そのまま登録すると認識時に両単語の識別が難
しくなる。このため、既に類似単語が登録されている場
合、利用者に「かとう」ではなく例えば「かとうかちょ
う」などどいうように、言い直しをしてもらってから、
登録する必要があった。このように、従来の音声認識装
置では、類似した音声を識別する能力が低いため、頻繁
に利用者に言い直しを求めざるを得ないという問題点が
あった。

【００１３】そこで本発明は、類似単語同士の識別能力
が優れた音声認識装置を提供することを目的とする。

【００１４】

【課題を解決するための手段】本発明の音声認識装置
は、単語音声を含む音声を入力するための音声入力手段
と、入力された音声から単語音声の部分だけを切り出す
単語音声切り出し部と、切り出した単語音声から特徴デ
ータを抽出する特徴抽出部と、特徴データからマルコフ
モデルによりモデル化する際の単語音声に対する状態数
を推定する状態数推定部と、新に登録しようとする単語
音声と類似した単語が既に登録されていないか判定する
類似単語判定部と、推定した状態数を増やす状態数加算
部と、特徴データを単語モデルに当てはめてマルコフモ
デルパラメータを求める学習部と、学習したマルコフモ
デルパラメータからなる音声辞書ファイルと、各単語モ
デルに対して尤度を計算して、認識候補を判定する照合
判定部と、認識結果を出力する判定結果出力部とを備え
る。

【００１５】

【作用】上記構成により、状態数加算部が推定された状
態数をさらに増やすことにより、単語の特徴がきめ細や
かに表現され、音声認識装置が類似単語を識別し易くな
るため、類似単語でもそのまま登録できることになり、
その結果、利用者に類似単語が区別できるように、言い
直しを求める頻度を低く押さえることができる。

【００１６】

【実施例】次に図面を参照しながら、本発明の実施例に
ついて説明する。

【００１７】図１は、本発明の一実施例における音声認
識装置の機能ブロック図であり、図１において、１は単
語音声を含む音声を入力するための音声入力手段、２は
単語音声を含む音声から単語音声の部分だけを切り出す
単語音声切り出し部、３は切り出した単語音声から特徴
データを抽出する特徴抽出部、４は特徴データからマル
コフモデルによりモデル化する際の単語音声に対する状
態数を推定する状態数推定部、５は新に登録しようとす
る単語音声と類似した単語が既に登録されていないか判
定する類似単語判定部、６は推定した状態数を増やす状
態数加算部、７は特徴データを単語モデルに当てはめて
マルコフモデルパラメータを求める学習部、８は学習し
たマルコフモデルパラメータを含む音声辞書ファイル、
９は各単語モデルに対して尤度を計算して、認識候補を
判定する照合判定部、１０は認識結果を出力する判定結
果出力部である。

【００１８】図２は、本発明の一実施例における音声認
識装置の回路ブロック図であり、図２において、１１は
マイク、１２はプログラムを記憶するＲＯＭ（読み出し
専用メモリ）、１３はＲＯＭ１２のプログラムを実行し
全体を制御するＣＰＵ（中央処理装置）、１４はＣＰＵ
１３がプログラムを実行する際に必要な情報を一時格納
するＲＡＭ（書き込み可能メモリ）、１５は処理状況な
どを利用者に表示するモニター、１６は情報を保存する
ファイル装置である。

【００１９】なお、図１における音声入力手段１はマイ
ク１１により、単語音声切り出し部２と特徴抽出部３と
状態数推定部４と類似単語判定部５と状態数加算部６と
学習部７と照合判定部９は、ＣＰＵ１３がマイク１１と
ＲＯＭ１２とＲＡＭ１４およびファイル装置１６とデー
タのやりとりを行ないながらＲＯＭ１２に記憶されたプ
ログラムを実行することにより、実現される。また、音
声辞書ファイル８はファイル装置１６に格納されるもの
であり、判定結果出力部１０はモニター１５により実現
されている。

【００２０】図３は、本発明の一実施例における登録時
のフローチャート、図４は、本発明の一実施例における
認識時のフローチャートである。

【００２１】以上のように構成された本実施例における
音声認識装置に、単語音声「かとう」が登録される場合
の動作を図３のフローチャートに基づき説明する。なお
ここでは、既に音響的に「かとう」と類似単語である
「さとう」が音声辞書ファイル８内に登録されているも
のとする。

【００２２】まず、ステップ１にて、音声入力手段１か
ら単語音声「かとう」を含む発声音声が入力される。ス
テップ２では、単語音声切り出し部２により、単語音声
「かとう」を含む発声音声から単語音声「かとう」を切
り出す。これは、単語音声切り出し部２が、音声のパワ
ー等により単語音声「かとう」の前後の無音または低雑
音部分を検出し取り除くことにより実現できる。

【００２３】ステップ３では、特徴抽出部３における線
形予測分析（LPC分析）により、その単語音声「かと
う」に対するLPCケプストラム係数を求める等の方法で
特徴抽出を行なう。ステップ４では、状態数推定部４に
より、ステップ３で単語音声「かとう」から抽出した特
徴データから、その単語音声に対する状態数を推定す
る。状態数の推定は、日本音響学会講演論文集（１９９
０．３）「連続数字音声認識におけるＨＭＭの状態数及
び混合数について」に基づいて行う。

【００２４】ステップ５では、類似単語判定部５によ
り、単語音声「かとう」の類似単語が、既に音声辞書フ
ァイル１８内に存在しているかどうかを判定する。この
判定は、一般的なDPマッチング技術を用いたり、単語音
声「かとう」を用いて本音声認識装置で認識を行ない、
認識候補が有るか無いかにより判断することで実現して
いる。判定の結果、類似単語が有ればステップ６へ進
み、類似単語が無ければステップ７へ進む。ここでは、
類似単語「さとう」があるためステップ６へ進むことに
なる。

【００２５】ステップ６では、状態数加算部６により、
ステップ４で推定した状態数を、あるパーセント分増や
す。なお、このパーセント値は、例えば推定した状態数
の１０パーセント増等、類似単語が識別できるようにな
るまでパーセント値を少しずつ変化させながら、この音
声認識装置を評価することにより予め決定しておくこと
ができる。これにより、単語の音韻数程度の状態数に比
べ、かなり状態数を増やすことができる。

【００２６】ステップ７では、学習部７により単語音声
「かとう」の特徴データをステップ５またはステップ６
で求めた状態数（この例では類似単語があるためステッ
プ６で求めた状態数）を持つマルコフモデルを用いて学
習し、各状態間の遷移確率および遷移における特徴デー
タの出力確率のマルコフモデルパラメータを求め、音声
辞書ファイル８に、求めたマルコフモデルパラメータを
格納する。

【００２７】さらに、ステップ７で、単語音声「かと
う」の特徴データを学習しマルコフモデルパラメータを
求めて、音声辞書ファイル８に、求めたマルコフモデル
パラメータと特徴データとを格納する。類似単語がある
場合、音声辞書ファイル８に既に登録済みの、類似単語
であると判断された単語音声「さとう」の特徴データ読
み込み、再度ステップ６で求めた状態数を持つマルコフ
モデルを用いて学習し、求めたマルコフモデルパラメー
タを、既に格納していた「さとう」のマルコフモデルパ
ラメータと入れ替える。

【００２８】次に、単語音声「かとう」を認識する場合
の動作を図４のフローチャートに基づき説明する。まず
ステップ１１にて、音声入力手段１から単語音声「かと
う」を含む発声音声が入力される。ステップ１２では、
単語音声切り出し部２により単語音声「かとう」を含む
発声音声から単語音声「かとう」を切り出す。ステップ
１３では、特徴抽出部３により単語音声「かとう」に対
する特徴抽出を行なう。

【００２９】ステップ１４では、照合判定部９により単
語音声「かとう」の特徴データを用いて音声辞書ファイ
ル８から読み込んだ各単語モデルのマルコフモデルパラ
メータ上で尤度計算を行ない尤度の高い単語モデルを認
識候補と判定する。ステップ１５では、判定結果出力部
１０により認識結果を利用者に表示する。

【００３０】

【発明の効果】本発明では、類似単語として判定した場
合に、マルコフモデル化するときの状態数を作為的に増
やすことにより特徴を詳細に表現して類似単語間の識別
を可能にしている。このため利用者に言い直しを求める
頻度が少なくなり、認識の精度も向上することができ
る。

【図面の簡単な説明】

【図１】本発明の一実施例における音声認識装置の機能
ブロック図

【図２】本発明の一実施例における音声認識装置の回路
ブロック図

【図３】本発明の一実施例における登録時のフローチャ
ート

【図４】本発明の一実施例における認識時のフローチャ
ート

【図５】従来の音声認識装置におけるマルコフモデルの
説明図

【図６】従来の音声認識装置における音声波形、特徴デ
ータの時系列とマルコフモデルの各状態の対応を示す例
示図

【符号の説明】

１音声入力手段２単語音声切り出し部３特徴抽出部４状態数推定部５類似単語判定部６状態数加算部７学習部８音声辞書ファイル９照合判定部１０判定結果出力部

Claims

【特許請求の範囲】

【請求項１】単語音声を含む音声を入力するための音声
入力手段と、入力された音声から単語音声の部分だけを
切り出す単語音声切り出し部と、切り出した単語音声か
ら特徴データを抽出する特徴抽出部と、特徴データから
マルコフモデルによりモデル化する際の単語音声に対す
る状態数を推定する状態数推定部と、新に登録しようと
する単語音声と類似した単語が既に登録されていないか
判定する類似単語判定部と、推定した状態数を増やす状
態数加算部と、特徴データを単語モデルに当てはめてマ
ルコフモデルパラメータを求める学習部と、学習したマ
ルコフモデルパラメータからなる音声辞書ファイルと、
各単語モデルに対して尤度を計算して、認識候補を判定
する照合判定部と、認識結果を出力する判定結果出力部
とを備えたことを特徴とする音声認識装置。
【請求項２】登録済みの単語に対しても、増やした状態
数で再度学習を行なうべく、音声辞書ファイルに学習し
たマルコフモデルパラメータの他に単語音声の特徴デー
タも格納するようにしたことを特徴とする請求項１記載
の音声認識装置。