JPH04324499A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH04324499A JPH04324499A JP3094422A JP9442291A JPH04324499A JP H04324499 A JPH04324499 A JP H04324499A JP 3094422 A JP3094422 A JP 3094422A JP 9442291 A JP9442291 A JP 9442291A JP H04324499 A JPH04324499 A JP H04324499A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- standard
- speaker
- pattern matching
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000284 extract Substances 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、クラスタ化された標準
パターンを用いて不特定の話者の音声を認識する音声認
識装置に関する。
パターンを用いて不特定の話者の音声を認識する音声認
識装置に関する。
【0002】
【従来の技術】従来の音声認識装置は、不特定話者の音
声を認識するために多数の話者が発声した音声データを
用いて標準パターンを作成する方法を用いてきた。標準
パターンとしては、不特定の話者のパターンから平均的
なパターンを求めるものと、全てのパターンをマルチテ
ンプレート的に用いるものが試みられてきた。また、多
数の話者の標準パターンをクラスタリングする方法も試
みられた。
声を認識するために多数の話者が発声した音声データを
用いて標準パターンを作成する方法を用いてきた。標準
パターンとしては、不特定の話者のパターンから平均的
なパターンを求めるものと、全てのパターンをマルチテ
ンプレート的に用いるものが試みられてきた。また、多
数の話者の標準パターンをクラスタリングする方法も試
みられた。
【0003】
【発明が解決しようとする課題】全ての話者の標準パタ
ーンを平均化する上記従来の音声認識装置及び全ての標
準パターンを用いるマルチテンプレートを用いた上記従
来の音声認識装置では、異なる話者の異なる音韻が重複
することによって発生する誤認識を避けることができな
いという問題点がある。
ーンを平均化する上記従来の音声認識装置及び全ての標
準パターンを用いるマルチテンプレートを用いた上記従
来の音声認識装置では、異なる話者の異なる音韻が重複
することによって発生する誤認識を避けることができな
いという問題点がある。
【0004】また、標準パターンをクラスタリングする
方法を用いた上記従来の音声認識装置では、クラスタリ
ングを行うときでも認識語彙に依存しており、最適なク
ラスタ数を決定することができないという問題点がある
。
方法を用いた上記従来の音声認識装置では、クラスタリ
ングを行うときでも認識語彙に依存しており、最適なク
ラスタ数を決定することができないという問題点がある
。
【0005】本発明は、上述した従来の音声認識装置の
問題点に鑑み、異なる話者の異なる音韻を重複せずに、
認識語彙に依存しないで標準パターンの最適なクラスタ
数を決定可能な音声認識装置を提供する。
問題点に鑑み、異なる話者の異なる音韻を重複せずに、
認識語彙に依存しないで標準パターンの最適なクラスタ
数を決定可能な音声認識装置を提供する。
【0006】
【課題を解決するための手段】本発明は、入力された音
声を音響分析して音声の特徴を抽出する音響分析手段と
、音響分析された音声に対応する標準話者クラスタを話
者モデルからの類似度に基づいて選別する選別手段と、
選別された標準話者クラスタの音声標準パターンに基づ
いてパターンマッチングを行うパターンマッチング手段
と、パターンマッチングによる認識結果を判定して判定
結果を出力する認識結果判定手段とを備えており、選別
手段は選別された標準話者クラスタの相互情報量係数に
基づいてクラスタ数を決定するように構成されている音
声認識装置によって達成される。
声を音響分析して音声の特徴を抽出する音響分析手段と
、音響分析された音声に対応する標準話者クラスタを話
者モデルからの類似度に基づいて選別する選別手段と、
選別された標準話者クラスタの音声標準パターンに基づ
いてパターンマッチングを行うパターンマッチング手段
と、パターンマッチングによる認識結果を判定して判定
結果を出力する認識結果判定手段とを備えており、選別
手段は選別された標準話者クラスタの相互情報量係数に
基づいてクラスタ数を決定するように構成されている音
声認識装置によって達成される。
【0007】
【作用】音響分析手段は入力された音声を音響分析して
音声の特徴を抽出し、選別手段は音響分析された音声に
対応する標準話者クラスタを話者モデルからの類似度に
基づいて選別し、選別された標準話者クラスタの相互情
報量係数に基づいてクラスタ数を決定し、パターンマッ
チング手段は選別された標準話者クラスタの音声標準パ
ターンに基づいてパターンマッチングを行い、認識結果
判定手段はパターンマッチングによる認識結果を判定し
て判定結果を出力する。
音声の特徴を抽出し、選別手段は音響分析された音声に
対応する標準話者クラスタを話者モデルからの類似度に
基づいて選別し、選別された標準話者クラスタの相互情
報量係数に基づいてクラスタ数を決定し、パターンマッ
チング手段は選別された標準話者クラスタの音声標準パ
ターンに基づいてパターンマッチングを行い、認識結果
判定手段はパターンマッチングによる認識結果を判定し
て判定結果を出力する。
【0008】
【実施例】以下、図面を参照して本発明の音声認識装置
における実施例を説明する。
における実施例を説明する。
【0009】図1は、本発明の音声認識装置の動作を説
明するためのフロ−チャ−トである。 図2は図1の
フロ−チャ−トに基づいて動作する本発明の音声認識装
置における一実施例の構成を示す。
明するためのフロ−チャ−トである。 図2は図1の
フロ−チャ−トに基づいて動作する本発明の音声認識装
置における一実施例の構成を示す。
【0010】まず、図2の音声認識装置の構成を説明す
る。
る。
【0011】図2の音声認識装置は、マイクロフォン1
0、アンプ・フィルタ11、アナログ/ディジタル(A
/D)変換部12、音響分析部13、話者クラスタ選別
部14、音声標準パターン15〜17、パターンマッチ
ング部18及び認識結果判定部19により構成されてい
る。
0、アンプ・フィルタ11、アナログ/ディジタル(A
/D)変換部12、音響分析部13、話者クラスタ選別
部14、音声標準パターン15〜17、パターンマッチ
ング部18及び認識結果判定部19により構成されてい
る。
【0012】次に上述の各構成部分の動作を説明する。
【0013】マイクロフォン10は、未知の使用者の音
声を入力し、アンプ・フィルタ11は、マイクロフォン
10から入力された音声を増幅する。A/D変換部12
は、アンプ・フィルタ11で増幅されたアナロク音声信
号をディジタル音声信号に変換する。
声を入力し、アンプ・フィルタ11は、マイクロフォン
10から入力された音声を増幅する。A/D変換部12
は、アンプ・フィルタ11で増幅されたアナロク音声信
号をディジタル音声信号に変換する。
【0014】音声分析部13は、A/D変換部12でデ
ジタル化された音声信号の特徴を抽出する。
ジタル化された音声信号の特徴を抽出する。
【0015】話者クラス選別部14は、使用者の音声が
どの標準話者クラスに属するかを、話者モデルからの類
似度を用いて判断して、いずれかの標準話者クラスタの
音声標準パタ−ン15〜17を選別する。
どの標準話者クラスに属するかを、話者モデルからの類
似度を用いて判断して、いずれかの標準話者クラスタの
音声標準パタ−ン15〜17を選別する。
【0016】パターンマッチング部18は、話者クラス
選別部14により選別された音声標準パターンを用いて
パターンマッチングを行い、認識結果判定部19は、求
まった標準パターンへの距離を用いて選択された音声標
準パタ−ンが適切かどうかをで判断して認識結果を出力
する。
選別部14により選別された音声標準パターンを用いて
パターンマッチングを行い、認識結果判定部19は、求
まった標準パターンへの距離を用いて選択された音声標
準パタ−ンが適切かどうかをで判断して認識結果を出力
する。
【0017】上記音声分析部13で抽出される特徴量と
しては、フーリエスペクトル分析による特徴量、バンド
パスフィルタによる特徴量のいずれでもよく、音声の特
徴を効果的に抽出できるものであればよい。また、上記
話者クラスタ選別部14で用いられておりテキストに依
存しない独立な話者モデルとしては、話者間の類似度が
定義できるものであればよく、例えばベクトル量子化に
基づく方法などがある。更に、上記パターンマッチング
部18で用いられるパターンマッチング方法としては、
動的計画法(DPマッチング)、隠れマルコフモデル、
ニューラルネットワークによる方法なでのいずれでもよ
い。
しては、フーリエスペクトル分析による特徴量、バンド
パスフィルタによる特徴量のいずれでもよく、音声の特
徴を効果的に抽出できるものであればよい。また、上記
話者クラスタ選別部14で用いられておりテキストに依
存しない独立な話者モデルとしては、話者間の類似度が
定義できるものであればよく、例えばベクトル量子化に
基づく方法などがある。更に、上記パターンマッチング
部18で用いられるパターンマッチング方法としては、
動的計画法(DPマッチング)、隠れマルコフモデル、
ニューラルネットワークによる方法なでのいずれでもよ
い。
【0018】認識語彙として単語認識を行うときの標準
パターンは、単語単位またはより小さな単位の組み合せ
で格納される。また、連続音声認識を行うときの標準パ
タ−ンは、音節音韻などの単位で格納される。
パターンは、単語単位またはより小さな単位の組み合せ
で格納される。また、連続音声認識を行うときの標準パ
タ−ンは、音節音韻などの単位で格納される。
【0019】次に、図1のフロ−チャ−トを参照して標
準話者のクラスタリングの処理手順を図を示す。
準話者のクラスタリングの処理手順を図を示す。
【0020】まず、多数の標準話者の音声を用意して(
ステップS1)、標準パターン作成用音声の一部または
全部を用いてベクトル量子化に基づく方法でテキストに
依存しないテキスト独立な話者モデルを作成し(ステッ
プS2)、話者モデル作成に用いた音声かあるいはそれ
以外の音声を各話者モデルに入力して話者間の類似度マ
トリクスを求めて(ステップS3)、話者間の類似度マ
トリクスに基づいて2つの話者または話者クラスをマー
ジして(ステップS4)、相互情報量係数MICが最大
になるまでステップ4を繰り返し実行することにより類
似話者をマージしてクラスタリングを行う(ステップS
5)。
ステップS1)、標準パターン作成用音声の一部または
全部を用いてベクトル量子化に基づく方法でテキストに
依存しないテキスト独立な話者モデルを作成し(ステッ
プS2)、話者モデル作成に用いた音声かあるいはそれ
以外の音声を各話者モデルに入力して話者間の類似度マ
トリクスを求めて(ステップS3)、話者間の類似度マ
トリクスに基づいて2つの話者または話者クラスをマー
ジして(ステップS4)、相互情報量係数MICが最大
になるまでステップ4を繰り返し実行することにより類
似話者をマージしてクラスタリングを行う(ステップS
5)。
【0021】ここで上記相互情報量係数MICについて
説明する。
説明する。
【0022】相互情報量MIは、情報理論で用いられて
いるものであり、次式(1)で定義されている。
いるものであり、次式(1)で定義されている。
【0023】
MI(x,y)=H(x)+H(y)−H
(x,y) ……(1)H(x)は入力話者xの
確率p(x)に対するエントロピー、H(y)は判定さ
れた話者yの確率p(y)に対するエントロピーであり
、H(x,y)は入力話者xと判定された話者yの同時
確率p(x,y)に対するエントロピーである。
(x,y) ……(1)H(x)は入力話者xの
確率p(x)に対するエントロピー、H(y)は判定さ
れた話者yの確率p(y)に対するエントロピーであり
、H(x,y)は入力話者xと判定された話者yの同時
確率p(x,y)に対するエントロピーである。
【0024】相互情報量MIの量は、話者間の類似度マ
トリクスから求められる。話者間の類似度マトリクスに
おいて、異話者間の類似度が小さいほど、つまり話者が
独立であるほど相互情報量MIは大きく、生起する話者
が片寄っているほど小さくなる。
トリクスから求められる。話者間の類似度マトリクスに
おいて、異話者間の類似度が小さいほど、つまり話者が
独立であるほど相互情報量MIは大きく、生起する話者
が片寄っているほど小さくなる。
【0025】従って、話者間の類似度マトリクスの相互
情報量が大きくなるように、いずれかの話者クラスタの
組をマージすることによりボトムアップクラスタリング
が実現できる。
情報量が大きくなるように、いずれかの話者クラスタの
組をマージすることによりボトムアップクラスタリング
が実現できる。
【0026】しかし、相互情報量MIは、クラスタ数が
大きくなるほど大きくなる傾向があるので、クラスタ数
が決まったときに得られる最大相互情報量でこの値を正
規化し、最大相互情報量に対してどの程度うまくクラス
タ化できているかを評価する尺度とする。
大きくなるほど大きくなる傾向があるので、クラスタ数
が決まったときに得られる最大相互情報量でこの値を正
規化し、最大相互情報量に対してどの程度うまくクラス
タ化できているかを評価する尺度とする。
【0027】最大相互情報量MImax は、クラスタ
数Mにより次式(2)のように定義される。
数Mにより次式(2)のように定義される。
【0028】MImax = logM ……(
2)ここで、最大相互情報量MImax からの比率と
して相互情報量係数MICを次式(3)のように定義す
る。
2)ここで、最大相互情報量MImax からの比率と
して相互情報量係数MICを次式(3)のように定義す
る。
【0029】MIC=MI(x,y)/MImax
……(3) 相互情報量係数MICを用いることによりクラスタ数に
よらずにクラスタリング効率を評価することができる。
……(3) 相互情報量係数MICを用いることによりクラスタ数に
よらずにクラスタリング効率を評価することができる。
【0030】
【発明の効果】本発明の音声認識装置は、入力された音
声を音響分析して音声の特徴を抽出する音響分析手段と
、音響分析された音声に対応する標準話者クラスタを話
者モデルからの類似度に基づいて選別する選別手段と、
選別された標準話者クラスタの音声標準パターンに基づ
いてパターンマッチングを行うパターンマッチング手段
と、パターンマッチングによる認識結果を判定して判定
結果を出力する認識結果判定手段とを備えており、選別
手段は選別された標準話者クラスタの相互情報量係数に
基づいてクラスタ数を決定するように構成されているの
で、より効率的にクラスタリングされた標準話者及び標
準パターンを用いて未知の使用者に対し最適な話者クラ
スタを選択でき、その結果、高精度で不特定話者の音声
を認識することができる。
声を音響分析して音声の特徴を抽出する音響分析手段と
、音響分析された音声に対応する標準話者クラスタを話
者モデルからの類似度に基づいて選別する選別手段と、
選別された標準話者クラスタの音声標準パターンに基づ
いてパターンマッチングを行うパターンマッチング手段
と、パターンマッチングによる認識結果を判定して判定
結果を出力する認識結果判定手段とを備えており、選別
手段は選別された標準話者クラスタの相互情報量係数に
基づいてクラスタ数を決定するように構成されているの
で、より効率的にクラスタリングされた標準話者及び標
準パターンを用いて未知の使用者に対し最適な話者クラ
スタを選択でき、その結果、高精度で不特定話者の音声
を認識することができる。
【図1】本発明の音声認識装置に動作を説明するための
フロ−チャ−トである。
フロ−チャ−トである。
【図2】図2の動作を行なう音声認識装置の一実施例の
構成を示す図である。
構成を示す図である。
10 マイクロフォン
11 アンプ・フィルター
12 A/D変換部
13 音声分析部
14 話者クラスタ選別部
15〜17 音声標準パターン
18 パターンマッチング部
19 認識結果判定部
Claims (1)
- 【請求項1】 入力された音声を音響分析して音声の
特徴を抽出する音響分析手段と、前記音響分析された音
声に対応する標準話者クラスタを話者モデルからの類似
度に基づいて選別する選別手段と、前記選別された標準
話者クラスタの音声標準パターンに基づいてパターンマ
ッチングを行うパターンマッチング手段と、前記パター
ンマッチングによる認識結果を判定して当該判定結果を
出力する認識結果判定手段とを備えており、前記選別手
段は前記選別された標準話者クラスタの相互情報量係数
に基づいてクラスタ数を決定するように構成されている
音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3094422A JPH04324499A (ja) | 1991-04-24 | 1991-04-24 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3094422A JPH04324499A (ja) | 1991-04-24 | 1991-04-24 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04324499A true JPH04324499A (ja) | 1992-11-13 |
Family
ID=14109801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3094422A Pending JPH04324499A (ja) | 1991-04-24 | 1991-04-24 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04324499A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274546A (ja) * | 1993-03-19 | 1994-09-30 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 情報量一致度計算方式 |
JPH07104780A (ja) * | 1993-10-04 | 1995-04-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 不特定話者連続音声認識方法 |
JPH07261785A (ja) * | 1994-03-22 | 1995-10-13 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識方法及び音声認識装置 |
WO2009122780A1 (ja) * | 2008-03-31 | 2009-10-08 | 日本電気株式会社 | 適応話者選択装置および適応話者選択方法並びに記録媒体 |
JP2010145784A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム |
-
1991
- 1991-04-24 JP JP3094422A patent/JPH04324499A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274546A (ja) * | 1993-03-19 | 1994-09-30 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 情報量一致度計算方式 |
JPH07104780A (ja) * | 1993-10-04 | 1995-04-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 不特定話者連続音声認識方法 |
JPH07261785A (ja) * | 1994-03-22 | 1995-10-13 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識方法及び音声認識装置 |
WO2009122780A1 (ja) * | 2008-03-31 | 2009-10-08 | 日本電気株式会社 | 適応話者選択装置および適応話者選択方法並びに記録媒体 |
JP2010145784A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
JP3968133B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
US6922668B1 (en) | Speaker recognition | |
CN112992109B (zh) | 辅助歌唱***、辅助歌唱方法及其非瞬时计算机可读取记录媒体 | |
JP3163109B2 (ja) | 多方向同時収音式音声認識方法 | |
JP2996019B2 (ja) | 音声認識装置 | |
JPH04324499A (ja) | 音声認識装置 | |
JP2011081324A (ja) | ピッチ・クラスター・マップを用いた音声認識方法 | |
Jayanna et al. | Fuzzy vector quantization for speaker recognition under limited data conditions | |
KR100587260B1 (ko) | 음향 기기의 음성인식장치 | |
JPS6367197B2 (ja) | ||
JPH04273298A (ja) | 音声認識装置 | |
JP3114757B2 (ja) | 音声認識装置 | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
JP2989231B2 (ja) | 音声認識装置 | |
JP2006154484A (ja) | 音声処理装置,音声処理方法,プログラム及び記録媒体 | |
Kuah et al. | A neural network-based text independent voice recognition system | |
KR20180087038A (ko) | 화자 특성을 고려하는 음성합성 기능의 보청기 및 그 보청 방법 | |
JP3808732B2 (ja) | 音声認識方法及びそのシステム | |
JP3536380B2 (ja) | 音声認識装置 | |
JP3008520B2 (ja) | 標準パタン作成装置 | |
JPH0316038B2 (ja) | ||
JP2004117724A (ja) | 音声認識装置 | |
JPH11249684A (ja) | 話者照合における閾値決定方法及び装置 | |
JPH0720889A (ja) | 不特定話者の音声認識装置および方法 |