JPH04324499A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH04324499A
JPH04324499A JP3094422A JP9442291A JPH04324499A JP H04324499 A JPH04324499 A JP H04324499A JP 3094422 A JP3094422 A JP 3094422A JP 9442291 A JP9442291 A JP 9442291A JP H04324499 A JPH04324499 A JP H04324499A
Authority
JP
Japan
Prior art keywords
speech
standard
speaker
pattern matching
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3094422A
Other languages
English (en)
Inventor
Satoru Nakamura
哲 中村
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP3094422A priority Critical patent/JPH04324499A/ja
Publication of JPH04324499A publication Critical patent/JPH04324499A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、クラスタ化された標準
パターンを用いて不特定の話者の音声を認識する音声認
識装置に関する。
【0002】
【従来の技術】従来の音声認識装置は、不特定話者の音
声を認識するために多数の話者が発声した音声データを
用いて標準パターンを作成する方法を用いてきた。標準
パターンとしては、不特定の話者のパターンから平均的
なパターンを求めるものと、全てのパターンをマルチテ
ンプレート的に用いるものが試みられてきた。また、多
数の話者の標準パターンをクラスタリングする方法も試
みられた。
【0003】
【発明が解決しようとする課題】全ての話者の標準パタ
ーンを平均化する上記従来の音声認識装置及び全ての標
準パターンを用いるマルチテンプレートを用いた上記従
来の音声認識装置では、異なる話者の異なる音韻が重複
することによって発生する誤認識を避けることができな
いという問題点がある。
【0004】また、標準パターンをクラスタリングする
方法を用いた上記従来の音声認識装置では、クラスタリ
ングを行うときでも認識語彙に依存しており、最適なク
ラスタ数を決定することができないという問題点がある
【0005】本発明は、上述した従来の音声認識装置の
問題点に鑑み、異なる話者の異なる音韻を重複せずに、
認識語彙に依存しないで標準パターンの最適なクラスタ
数を決定可能な音声認識装置を提供する。
【0006】
【課題を解決するための手段】本発明は、入力された音
声を音響分析して音声の特徴を抽出する音響分析手段と
、音響分析された音声に対応する標準話者クラスタを話
者モデルからの類似度に基づいて選別する選別手段と、
選別された標準話者クラスタの音声標準パターンに基づ
いてパターンマッチングを行うパターンマッチング手段
と、パターンマッチングによる認識結果を判定して判定
結果を出力する認識結果判定手段とを備えており、選別
手段は選別された標準話者クラスタの相互情報量係数に
基づいてクラスタ数を決定するように構成されている音
声認識装置によって達成される。
【0007】
【作用】音響分析手段は入力された音声を音響分析して
音声の特徴を抽出し、選別手段は音響分析された音声に
対応する標準話者クラスタを話者モデルからの類似度に
基づいて選別し、選別された標準話者クラスタの相互情
報量係数に基づいてクラスタ数を決定し、パターンマッ
チング手段は選別された標準話者クラスタの音声標準パ
ターンに基づいてパターンマッチングを行い、認識結果
判定手段はパターンマッチングによる認識結果を判定し
て判定結果を出力する。
【0008】
【実施例】以下、図面を参照して本発明の音声認識装置
における実施例を説明する。
【0009】図1は、本発明の音声認識装置の動作を説
明するためのフロ−チャ−トである。  図2は図1の
フロ−チャ−トに基づいて動作する本発明の音声認識装
置における一実施例の構成を示す。
【0010】まず、図2の音声認識装置の構成を説明す
る。
【0011】図2の音声認識装置は、マイクロフォン1
0、アンプ・フィルタ11、アナログ/ディジタル(A
/D)変換部12、音響分析部13、話者クラスタ選別
部14、音声標準パターン15〜17、パターンマッチ
ング部18及び認識結果判定部19により構成されてい
る。
【0012】次に上述の各構成部分の動作を説明する。
【0013】マイクロフォン10は、未知の使用者の音
声を入力し、アンプ・フィルタ11は、マイクロフォン
10から入力された音声を増幅する。A/D変換部12
は、アンプ・フィルタ11で増幅されたアナロク音声信
号をディジタル音声信号に変換する。
【0014】音声分析部13は、A/D変換部12でデ
ジタル化された音声信号の特徴を抽出する。
【0015】話者クラス選別部14は、使用者の音声が
どの標準話者クラスに属するかを、話者モデルからの類
似度を用いて判断して、いずれかの標準話者クラスタの
音声標準パタ−ン15〜17を選別する。
【0016】パターンマッチング部18は、話者クラス
選別部14により選別された音声標準パターンを用いて
パターンマッチングを行い、認識結果判定部19は、求
まった標準パターンへの距離を用いて選択された音声標
準パタ−ンが適切かどうかをで判断して認識結果を出力
する。
【0017】上記音声分析部13で抽出される特徴量と
しては、フーリエスペクトル分析による特徴量、バンド
パスフィルタによる特徴量のいずれでもよく、音声の特
徴を効果的に抽出できるものであればよい。また、上記
話者クラスタ選別部14で用いられておりテキストに依
存しない独立な話者モデルとしては、話者間の類似度が
定義できるものであればよく、例えばベクトル量子化に
基づく方法などがある。更に、上記パターンマッチング
部18で用いられるパターンマッチング方法としては、
動的計画法(DPマッチング)、隠れマルコフモデル、
ニューラルネットワークによる方法なでのいずれでもよ
い。
【0018】認識語彙として単語認識を行うときの標準
パターンは、単語単位またはより小さな単位の組み合せ
で格納される。また、連続音声認識を行うときの標準パ
タ−ンは、音節音韻などの単位で格納される。
【0019】次に、図1のフロ−チャ−トを参照して標
準話者のクラスタリングの処理手順を図を示す。
【0020】まず、多数の標準話者の音声を用意して(
ステップS1)、標準パターン作成用音声の一部または
全部を用いてベクトル量子化に基づく方法でテキストに
依存しないテキスト独立な話者モデルを作成し(ステッ
プS2)、話者モデル作成に用いた音声かあるいはそれ
以外の音声を各話者モデルに入力して話者間の類似度マ
トリクスを求めて(ステップS3)、話者間の類似度マ
トリクスに基づいて2つの話者または話者クラスをマー
ジして(ステップS4)、相互情報量係数MICが最大
になるまでステップ4を繰り返し実行することにより類
似話者をマージしてクラスタリングを行う(ステップS
5)。
【0021】ここで上記相互情報量係数MICについて
説明する。
【0022】相互情報量MIは、情報理論で用いられて
いるものであり、次式(1)で定義されている。
【0023】       MI(x,y)=H(x)+H(y)−H
(x,y)    ……(1)H(x)は入力話者xの
確率p(x)に対するエントロピー、H(y)は判定さ
れた話者yの確率p(y)に対するエントロピーであり
、H(x,y)は入力話者xと判定された話者yの同時
確率p(x,y)に対するエントロピーである。
【0024】相互情報量MIの量は、話者間の類似度マ
トリクスから求められる。話者間の類似度マトリクスに
おいて、異話者間の類似度が小さいほど、つまり話者が
独立であるほど相互情報量MIは大きく、生起する話者
が片寄っているほど小さくなる。
【0025】従って、話者間の類似度マトリクスの相互
情報量が大きくなるように、いずれかの話者クラスタの
組をマージすることによりボトムアップクラスタリング
が実現できる。
【0026】しかし、相互情報量MIは、クラスタ数が
大きくなるほど大きくなる傾向があるので、クラスタ数
が決まったときに得られる最大相互情報量でこの値を正
規化し、最大相互情報量に対してどの程度うまくクラス
タ化できているかを評価する尺度とする。
【0027】最大相互情報量MImax は、クラスタ
数Mにより次式(2)のように定義される。
【0028】MImax = logM    ……(
2)ここで、最大相互情報量MImax からの比率と
して相互情報量係数MICを次式(3)のように定義す
る。
【0029】MIC=MI(x,y)/MImax  
   ……(3) 相互情報量係数MICを用いることによりクラスタ数に
よらずにクラスタリング効率を評価することができる。
【0030】
【発明の効果】本発明の音声認識装置は、入力された音
声を音響分析して音声の特徴を抽出する音響分析手段と
、音響分析された音声に対応する標準話者クラスタを話
者モデルからの類似度に基づいて選別する選別手段と、
選別された標準話者クラスタの音声標準パターンに基づ
いてパターンマッチングを行うパターンマッチング手段
と、パターンマッチングによる認識結果を判定して判定
結果を出力する認識結果判定手段とを備えており、選別
手段は選別された標準話者クラスタの相互情報量係数に
基づいてクラスタ数を決定するように構成されているの
で、より効率的にクラスタリングされた標準話者及び標
準パターンを用いて未知の使用者に対し最適な話者クラ
スタを選択でき、その結果、高精度で不特定話者の音声
を認識することができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置に動作を説明するための
フロ−チャ−トである。
【図2】図2の動作を行なう音声認識装置の一実施例の
構成を示す図である。
【符号の説明】
10  マイクロフォン 11  アンプ・フィルター 12  A/D変換部 13  音声分析部 14  話者クラスタ選別部 15〜17  音声標準パターン 18  パターンマッチング部 19  認識結果判定部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  入力された音声を音響分析して音声の
    特徴を抽出する音響分析手段と、前記音響分析された音
    声に対応する標準話者クラスタを話者モデルからの類似
    度に基づいて選別する選別手段と、前記選別された標準
    話者クラスタの音声標準パターンに基づいてパターンマ
    ッチングを行うパターンマッチング手段と、前記パター
    ンマッチングによる認識結果を判定して当該判定結果を
    出力する認識結果判定手段とを備えており、前記選別手
    段は前記選別された標準話者クラスタの相互情報量係数
    に基づいてクラスタ数を決定するように構成されている
    音声認識装置。
JP3094422A 1991-04-24 1991-04-24 音声認識装置 Pending JPH04324499A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3094422A JPH04324499A (ja) 1991-04-24 1991-04-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3094422A JPH04324499A (ja) 1991-04-24 1991-04-24 音声認識装置

Publications (1)

Publication Number Publication Date
JPH04324499A true JPH04324499A (ja) 1992-11-13

Family

ID=14109801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3094422A Pending JPH04324499A (ja) 1991-04-24 1991-04-24 音声認識装置

Country Status (1)

Country Link
JP (1) JPH04324499A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274546A (ja) * 1993-03-19 1994-09-30 A T R Jido Honyaku Denwa Kenkyusho:Kk 情報量一致度計算方式
JPH07104780A (ja) * 1993-10-04 1995-04-21 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者連続音声認識方法
JPH07261785A (ja) * 1994-03-22 1995-10-13 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識方法及び音声認識装置
WO2009122780A1 (ja) * 2008-03-31 2009-10-08 日本電気株式会社 適応話者選択装置および適応話者選択方法並びに記録媒体
JP2010145784A (ja) * 2008-12-19 2010-07-01 Casio Computer Co Ltd 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274546A (ja) * 1993-03-19 1994-09-30 A T R Jido Honyaku Denwa Kenkyusho:Kk 情報量一致度計算方式
JPH07104780A (ja) * 1993-10-04 1995-04-21 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者連続音声認識方法
JPH07261785A (ja) * 1994-03-22 1995-10-13 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識方法及び音声認識装置
WO2009122780A1 (ja) * 2008-03-31 2009-10-08 日本電気株式会社 適応話者選択装置および適応話者選択方法並びに記録媒体
JP2010145784A (ja) * 2008-12-19 2010-07-01 Casio Computer Co Ltd 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム

Similar Documents

Publication Publication Date Title
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
US6922668B1 (en) Speaker recognition
CN112992109B (zh) 辅助歌唱***、辅助歌唱方法及其非瞬时计算机可读取记录媒体
JP3163109B2 (ja) 多方向同時収音式音声認識方法
JP2996019B2 (ja) 音声認識装置
JPH04324499A (ja) 音声認識装置
JP2011081324A (ja) ピッチ・クラスター・マップを用いた音声認識方法
Jayanna et al. Fuzzy vector quantization for speaker recognition under limited data conditions
KR100587260B1 (ko) 음향 기기의 음성인식장치
JPS6367197B2 (ja)
JPH04273298A (ja) 音声認識装置
JP3114757B2 (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP2989231B2 (ja) 音声認識装置
JP2006154484A (ja) 音声処理装置,音声処理方法,プログラム及び記録媒体
Kuah et al. A neural network-based text independent voice recognition system
KR20180087038A (ko) 화자 특성을 고려하는 음성합성 기능의 보청기 및 그 보청 방법
JP3808732B2 (ja) 音声認識方法及びそのシステム
JP3536380B2 (ja) 音声認識装置
JP3008520B2 (ja) 標準パタン作成装置
JPH0316038B2 (ja)
JP2004117724A (ja) 音声認識装置
JPH11249684A (ja) 話者照合における閾値決定方法及び装置
JPH0720889A (ja) 不特定話者の音声認識装置および方法