JPH04324499A

JPH04324499A - 音声認識装置

Info

Publication number: JPH04324499A
Application number: JP3094422A
Authority: JP
Inventors: Satoru Nakamura; 哲中村; Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1991-04-24
Filing date: 1991-04-24
Publication date: 1992-11-13

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、クラスタ化された標準
パターンを用いて不特定の話者の音声を認識する音声認
識装置に関する。

【０００２】

【従来の技術】従来の音声認識装置は、不特定話者の音
声を認識するために多数の話者が発声した音声データを
用いて標準パターンを作成する方法を用いてきた。標準
パターンとしては、不特定の話者のパターンから平均的
なパターンを求めるものと、全てのパターンをマルチテ
ンプレート的に用いるものが試みられてきた。また、多
数の話者の標準パターンをクラスタリングする方法も試
みられた。

【０００３】

【発明が解決しようとする課題】全ての話者の標準パタ
ーンを平均化する上記従来の音声認識装置及び全ての標
準パターンを用いるマルチテンプレートを用いた上記従
来の音声認識装置では、異なる話者の異なる音韻が重複
することによって発生する誤認識を避けることができな
いという問題点がある。

【０００４】また、標準パターンをクラスタリングする
方法を用いた上記従来の音声認識装置では、クラスタリ
ングを行うときでも認識語彙に依存しており、最適なク
ラスタ数を決定することができないという問題点がある
。

【０００５】本発明は、上述した従来の音声認識装置の
問題点に鑑み、異なる話者の異なる音韻を重複せずに、
認識語彙に依存しないで標準パターンの最適なクラスタ
数を決定可能な音声認識装置を提供する。

【０００６】

【課題を解決するための手段】本発明は、入力された音
声を音響分析して音声の特徴を抽出する音響分析手段と
、音響分析された音声に対応する標準話者クラスタを話
者モデルからの類似度に基づいて選別する選別手段と、
選別された標準話者クラスタの音声標準パターンに基づ
いてパターンマッチングを行うパターンマッチング手段
と、パターンマッチングによる認識結果を判定して判定
結果を出力する認識結果判定手段とを備えており、選別
手段は選別された標準話者クラスタの相互情報量係数に
基づいてクラスタ数を決定するように構成されている音
声認識装置によって達成される。

【０００７】

【作用】音響分析手段は入力された音声を音響分析して
音声の特徴を抽出し、選別手段は音響分析された音声に
対応する標準話者クラスタを話者モデルからの類似度に
基づいて選別し、選別された標準話者クラスタの相互情
報量係数に基づいてクラスタ数を決定し、パターンマッ
チング手段は選別された標準話者クラスタの音声標準パ
ターンに基づいてパターンマッチングを行い、認識結果
判定手段はパターンマッチングによる認識結果を判定し
て判定結果を出力する。

【０００８】

【実施例】以下、図面を参照して本発明の音声認識装置
における実施例を説明する。

【０００９】図１は、本発明の音声認識装置の動作を説
明するためのフロ−チャ−トである。　　図２は図１の
フロ−チャ−トに基づいて動作する本発明の音声認識装
置における一実施例の構成を示す。

【００１０】まず、図２の音声認識装置の構成を説明す
る。

【００１１】図２の音声認識装置は、マイクロフォン１
０、アンプ・フィルタ１１、アナログ／ディジタル（Ａ
／Ｄ）変換部１２、音響分析部１３、話者クラスタ選別
部１４、音声標準パターン１５〜１７、パターンマッチ
ング部１８及び認識結果判定部１９により構成されてい
る。

【００１２】次に上述の各構成部分の動作を説明する。

【００１３】マイクロフォン１０は、未知の使用者の音
声を入力し、アンプ・フィルタ１１は、マイクロフォン
１０から入力された音声を増幅する。Ａ／Ｄ変換部１２
は、アンプ・フィルタ１１で増幅されたアナロク音声信
号をディジタル音声信号に変換する。

【００１４】音声分析部１３は、Ａ／Ｄ変換部１２でデ
ジタル化された音声信号の特徴を抽出する。

【００１５】話者クラス選別部１４は、使用者の音声が
どの標準話者クラスに属するかを、話者モデルからの類
似度を用いて判断して、いずれかの標準話者クラスタの
音声標準パタ−ン１５〜１７を選別する。

【００１６】パターンマッチング部１８は、話者クラス
選別部１４により選別された音声標準パターンを用いて
パターンマッチングを行い、認識結果判定部１９は、求
まった標準パターンへの距離を用いて選択された音声標
準パタ−ンが適切かどうかをで判断して認識結果を出力
する。

【００１７】上記音声分析部１３で抽出される特徴量と
しては、フーリエスペクトル分析による特徴量、バンド
パスフィルタによる特徴量のいずれでもよく、音声の特
徴を効果的に抽出できるものであればよい。また、上記
話者クラスタ選別部１４で用いられておりテキストに依
存しない独立な話者モデルとしては、話者間の類似度が
定義できるものであればよく、例えばベクトル量子化に
基づく方法などがある。更に、上記パターンマッチング
部１８で用いられるパターンマッチング方法としては、
動的計画法（ＤＰマッチング）、隠れマルコフモデル、
ニューラルネットワークによる方法なでのいずれでもよ
い。

【００１８】認識語彙として単語認識を行うときの標準
パターンは、単語単位またはより小さな単位の組み合せ
で格納される。また、連続音声認識を行うときの標準パ
タ−ンは、音節音韻などの単位で格納される。

【００１９】次に、図１のフロ−チャ−トを参照して標
準話者のクラスタリングの処理手順を図を示す。

【００２０】まず、多数の標準話者の音声を用意して（
ステップＳ１）、標準パターン作成用音声の一部または
全部を用いてベクトル量子化に基づく方法でテキストに
依存しないテキスト独立な話者モデルを作成し（ステッ
プＳ２）、話者モデル作成に用いた音声かあるいはそれ
以外の音声を各話者モデルに入力して話者間の類似度マ
トリクスを求めて（ステップＳ３）、話者間の類似度マ
トリクスに基づいて２つの話者または話者クラスをマー
ジして（ステップＳ４）、相互情報量係数ＭＩＣが最大
になるまでステップ４を繰り返し実行することにより類
似話者をマージしてクラスタリングを行う（ステップＳ
５）。

【００２１】ここで上記相互情報量係数ＭＩＣについて
説明する。

【００２２】相互情報量ＭＩは、情報理論で用いられて
いるものであり、次式（１）で定義されている。

【００２３】　　　　　　ＭＩ（ｘ，ｙ）＝Ｈ（ｘ）＋Ｈ（ｙ）−Ｈ
（ｘ，ｙ）　　　　……（１）Ｈ（ｘ）は入力話者ｘの
確率ｐ（ｘ）に対するエントロピー、Ｈ（ｙ）は判定さ
れた話者ｙの確率ｐ（ｙ）に対するエントロピーであり
、Ｈ（ｘ，ｙ）は入力話者ｘと判定された話者ｙの同時
確率ｐ（ｘ，ｙ）に対するエントロピーである。

【００２４】相互情報量ＭＩの量は、話者間の類似度マ
トリクスから求められる。話者間の類似度マトリクスに
おいて、異話者間の類似度が小さいほど、つまり話者が
独立であるほど相互情報量ＭＩは大きく、生起する話者
が片寄っているほど小さくなる。

【００２５】従って、話者間の類似度マトリクスの相互
情報量が大きくなるように、いずれかの話者クラスタの
組をマージすることによりボトムアップクラスタリング
が実現できる。

【００２６】しかし、相互情報量ＭＩは、クラスタ数が
大きくなるほど大きくなる傾向があるので、クラスタ数
が決まったときに得られる最大相互情報量でこの値を正
規化し、最大相互情報量に対してどの程度うまくクラス
タ化できているかを評価する尺度とする。

【００２７】最大相互情報量ＭＩｍａｘ　は、クラスタ
数Ｍにより次式（２）のように定義される。

【００２８】ＭＩｍａｘ　＝　ｌｏｇＭ　　　　……（
２）ここで、最大相互情報量ＭＩｍａｘ　からの比率と
して相互情報量係数ＭＩＣを次式（３）のように定義す
る。

【００２９】ＭＩＣ＝ＭＩ（ｘ，ｙ）／ＭＩｍａｘ　　
　　　……（３）相互情報量係数ＭＩＣを用いることによりクラスタ数に
よらずにクラスタリング効率を評価することができる。

【００３０】

【発明の効果】本発明の音声認識装置は、入力された音
声を音響分析して音声の特徴を抽出する音響分析手段と
、音響分析された音声に対応する標準話者クラスタを話
者モデルからの類似度に基づいて選別する選別手段と、
選別された標準話者クラスタの音声標準パターンに基づ
いてパターンマッチングを行うパターンマッチング手段
と、パターンマッチングによる認識結果を判定して判定
結果を出力する認識結果判定手段とを備えており、選別
手段は選別された標準話者クラスタの相互情報量係数に
基づいてクラスタ数を決定するように構成されているの
で、より効率的にクラスタリングされた標準話者及び標
準パターンを用いて未知の使用者に対し最適な話者クラ
スタを選択でき、その結果、高精度で不特定話者の音声
を認識することができる。

【図面の簡単な説明】

【図１】本発明の音声認識装置に動作を説明するための
フロ−チャ−トである。

【図２】図２の動作を行なう音声認識装置の一実施例の
構成を示す図である。

【符号の説明】

１０　　マイクロフォン１１　　アンプ・フィルター１２　　Ａ／Ｄ変換部１３　　音声分析部１４　　話者クラスタ選別部１５〜１７　　音声標準パターン１８　　パターンマッチング部１９　　認識結果判定部

Claims

【特許請求の範囲】

【請求項１】　　入力された音声を音響分析して音声の
特徴を抽出する音響分析手段と、前記音響分析された音
声に対応する標準話者クラスタを話者モデルからの類似
度に基づいて選別する選別手段と、前記選別された標準
話者クラスタの音声標準パターンに基づいてパターンマ
ッチングを行うパターンマッチング手段と、前記パター
ンマッチングによる認識結果を判定して当該判定結果を
出力する認識結果判定手段とを備えており、前記選別手
段は前記選別された標準話者クラスタの相互情報量係数
に基づいてクラスタ数を決定するように構成されている
音声認識装置。