JPH04305699A - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JPH04305699A
JPH04305699A JP3071187A JP7118791A JPH04305699A JP H04305699 A JPH04305699 A JP H04305699A JP 3071187 A JP3071187 A JP 3071187A JP 7118791 A JP7118791 A JP 7118791A JP H04305699 A JPH04305699 A JP H04305699A
Authority
JP
Japan
Prior art keywords
speech
code
vector
speakers
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3071187A
Other languages
English (en)
Other versions
JP3115016B2 (ja
Inventor
Toshiyuki Morii
森 井 利 幸
Masakatsu Hoshimi
星 見 昌 克
Katsuyuki Futayada
二矢田 勝 行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP03071187A priority Critical patent/JP3115016B2/ja
Publication of JPH04305699A publication Critical patent/JPH04305699A/ja
Application granted granted Critical
Publication of JP3115016B2 publication Critical patent/JP3115016B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、不特定話者が発声した
単語音声を認識するための方法および装置に関する。
【0002】
【従来の技術】不特定話者を対象とした従来の音声認識
技術については、たとえば、「ワードスポッティング手
法を用いた不特定話者・少数語向け音声認識装置」(電
子通信情報学会  SP88−18)に記載された方法
が一般的である。
【0003】この方法では、入力された音声をまず音響
分析し、音声の特徴パラメータの時系列に変換する。一
方、あらかじめ認識装置側には、認識する単語毎にその
単語の音声の特徴を示す単語標準パターンが用意されて
いる。そして、話者の発声スピードを考慮して入力の特
徴パラメータ列を時間的に伸縮しながら、ベイズ判定に
基づく統計的距離尺度で単語標準パターンとのマッチン
グを行ない、最も距離が近いとされる単語を認識結果と
する。この単語標準パターンは、その単語の平均的な特
徴パラメータの時系列と、その分散行列によって構成さ
れている。この分散行列によって話者の声の違いを吸収
し、どんな話者の声でも認識することが可能となる。
【0004】上記の単語標準パターンの作成は以下の手
順で行なう。 (1)認識する単語集合(上記文献では10数字)につ
いて、330名が発声した単語音声データを収録し、音
声データベースを作成する。 (2)1つ1つの単語音声データに対して、スペクトル
波形などのディスプレイ表示により、人間が目視で音声
区間を検出し、単語の部分のみを切り出す。 (3)切り出された区間を音響分析し、特徴パラメータ
(LPCケプストラム係数)の時系列を求め、さらに時
間的間引きを行ない同じ時間長にする。これを単語パタ
ーンと呼ぶ。 (4)得られた単語パターンを各単語毎に集め、各パラ
メータ列の平均と共分散行列とを求める。
【0005】このベイズ判定に基づく距離計算を行なう
ための標準パターンを作成するためには、上記のような
多次元正規分布を仮定した統計分析が必要である。した
がって、この構成の標準パターンは、数百名程度の多く
の話者の音声を統計処理しなくては得られない。上記文
献の例では、単語標準パターンを作成するために、33
0名の話者が発声した単語音声データを使用している。 したがって、そのデータ作成には多大な労力が必要とな
る。
【0006】また、上記以外の不特定話者用音声認識の
既存の方法としては、マルチ標準パターンを用いる方法
が挙げられる。これは、1つの単語の標準パターンを代
表的な単語パターン複数個により構成し、認識時には、
この複数の単語パターンと入力パターンとの照合を行な
うというものである。この方法は、複数のパターンを用
いることによって不特定話者の音声を認識しようとする
ものであるが、この複数のパターンを選択するためには
、上記統計的距離尺度に基づく標準パターン作成時と同
様に、多くの音声データと膨大な作業量とを必要とする
【0007】
【発明が解決しようとする課題】このように、既存の認
識方法では、認識対象の音声の標準パターン作成に、音
声データ収集や音声区間切り出し等のために多大な作業
量を必要とする。したがって、認識対象の単語や文章を
変更するのは大変困難であり、これは、語彙数が大きく
なればなるほど深刻な問題となる。
【0008】本発明は、このような従来の問題を解決す
るものであり、1名から数名の少数話者が発声した認識
対象音声を用いて不特定話者の音声認識を可能にすると
ともに、認識対象音声を容易に変更できる音声認識方法
および装置を提供することを目的とする。
【0009】
【課題を解決するための手段】本発明は、上記目的を達
成するために、入力声を分析して得られる特徴パラメー
タの時系列である特徴ベクトルに対して、あらかじめ多
数の話者で作成したパラメータ符号帳を用いて符号化を
行ない、同様に符号列に変換された少数話者の音声パタ
ーンと符号間確率テーブルを用いてマッチングを行なう
ようにしたものである。
【0010】
【作用】本発明は、上記構成により、まず入力音声を分
析して得られる特徴ベクトルに対して、多数の話者で作
成したパラメータ符号帳を用いて符号化を行ない、分析
単位時間(以下、フレームと呼ぶ。)毎に求めた符号を
並べて符号列を作成する。そして、1名から数名の少数
話者が発声した音声を同様に符号列に変換したものを基
に作成した標準パターンとのマッチングを行ない、類似
度を計算する。その際に用いられる符号間確率テーブル
に格納された確率値は、多数の話者で作成した汎用性の
ある値であるので、個人性の影響を受けにくい。したが
って、この確率値を基に単語の類似度を求めることによ
って、不特定話者の音声を認識することができる。
【0011】また、どのような言葉も音素や音節の組合
せで記述できるので、上記のパラメータ符号帳と符号間
確率テーブルは1度作成しておけば十分であり、認識対
象音声を変更しても常に同じものが使用できる。従って
、不特定話者用の音声認識を行なうのに必要なものは、
少数話者が発声した認識対象単語の音声データのみであ
る。
【0012】以上により、簡単な手続で不特定話者用の
音声認識が可能であり、かつ、語彙の変更に対して柔軟
性のある認識装置の実現が可能になる。
【0013】
【実施例】以下、本発明の実施例について説明するが、
その前に本発明の基本的な考え方の背景について説明す
る。
【0014】人の声は有声音と無声音の2つに分類され
る。有声音は、声帯の振動として発せられた振動音が、
調音器官と呼ばれる喉頭、咽頭、舌、あご、唇などで形
成される声道を通る間に様々な変調を受けて、口から音
声として出力されるという過程で発声される。すなわち
、「あ」、「い」、「う」等の音韻性は声道の形状によ
り与えられるのである。また、無声音は、音源が声帯で
ない場合もあるが、音韻性は有声音と同様に声道の形状
によって決定される。しかし、声道を形成する喉、舌、
歯、あご、唇等の形状や寸法は人毎に異なっているし、
声帯の大きさも性別や年齢で異なる。このために、人毎
に声の違いが生じることになる。つまり、人の違いによ
る声の差異は調音器官の違いによるところが大きい。
【0015】一方、声が「あ」、「い」、「う」等の音
韻としてでなく、単語や文として発せられるときは、声
道の形は時間的に変化し、その変化によって言葉が形成
される。たとえば、「赤い」(akai)と発声する場
合、声道は、あごが開き舌の後方に狭めのある/a/の
発声から、喉頭部の閉鎖と急激な開放を伴う/k/に移
り、更に再び/a/の形状に戻ってから徐々に舌を唇側
に移動し、口を閉じた/i/に移る。このような声道の
変化パターンは発声しようとしている言葉によって決る
ものであり、人の違いによる差異は少ないと考えられる
。このように言葉としての音声を静的な声道の形状の違
いとその時間的な変化に分離して考えると、前者は話者
によってかなり異なるが、後者は比較的小さいと見るこ
とが出来る。したがって、静的な声道の違いに基づく差
異を何等かの方法で正規化できれば、不特定話者の音声
認識が可能になる。
【0016】ところで、声道の形状の違いは、発せられ
た音声信号中では、周波数スペクトルの違いとして表現
される。周波数スペクトルを話者間で正規化する最も単
純な方法は、音素や音節などの短時間の音声標準パター
ンとのマッチングを行なって、発声された音声を音素や
音節などの記号列にしてしまうことである。つまり、不
特定話者用として作成された汎用の音素や音節の標準パ
ターンを用いれば、話者の違いに大きく左右されずに、
各音素や音節のどれに近いかという類似度情報を得るこ
とができるのである。言換えると、周波数スペクトルを
パターンマッチングによって音素や音節の類似度に変換
することによって、話者の静的な声道の違いに基づく差
異を正規化することができるということである。そして
、この正規化ができれば、声道の時間的変化は話者によ
る差異が少ないのであるから、声道の変化パターンは、
1人ないし数人分の音声データを上記正規化して得られ
る類似度の時間パターンにより作成することができる。 したがって、少数話者の単語や文節の発声により、不特
定話者用の音声標準パターンが得られる。
【0017】このような考え方に基づき、本発明は次の
ように構成される。すなわち、予め多くの話者が発声し
た音声を分析して、話者が発声する音全体の特徴パラメ
ータの時系列である特徴ベクトルのセントロイド(重心
)の集合を作成し、各セントロイドに番号を付けてパラ
メータ符号帳とする。また、その音声データに付加され
た音素位置のデータ(ラベルデータ)を利用して、上記
パラメータ符号帳内の各セントロイドが各音素である確
率を求めて、さらにその音素数の次元を持つ確率列から
各々のセントロイドがお互いに同じ音素である確率を求
めて、符号間確率テーブルを作成する。このテーブルに
書かれた確率値は、話者の静的な声道の違いに基づく差
異を受けにくい値である。標準パターンは、1名から数
名の話者が発声した認識対象音声を分析して得られる特
徴ベクトルを上記パラメータ符号帳を用いて符号化し、
セントロイドの番号の時系列(符号列)に変換すること
により得られる。認識時には、入力音声に対して音響分
析を行ない特徴ベクトルに変換した後、上記パラメータ
符号帳によって符号化し符号列を求める。そして、標準
パターンとしての符号列と照合を行なう。この際、符号
間の距離は、上記符号間確率テーブルを参照することに
より求められる。
【0018】以下、本発明の一実施例について図面を参
照して説明する。図1は本発明の一実施例の構成を示す
ものである。図1において、1は音響分析部、2はベク
トル探索部、3はパラメータ符号帳、4は符号列作成部
、5は辞書格納部、6はマッチング部、7は符号間確率
テーブルである。
【0019】次に本実施例の動作について、最初に1名
の話者の音声を辞書に登録する場合について説明する。 図1において、まず入力音声に対して音響分析部1で1
フレーム(本実施例では1フレーム=10msec)毎
に線形予測分析(LPC分析)を行ない、特徴パラメー
タとしてLPCケプストラム係数(C0〜C8 まで9
個、C0 は正規化残差パワー項で対数変換しておく。 )を求める。
【0020】次に、ベクトル探索部2において、各フレ
ームを中心とした特徴パラメータの時系列すなわち特徴
ベクトルとパラメータ符号帳3に格納されている各セン
トロイド(重心)とのユークリッド距離の計算を以下の
(数1)を用いて行ない、最も距離の近いセントロイド
の番号を求める。特徴ベクトルは、本実施例では中心フ
レームから前4、後4フレームの計9フレーム分のLP
Cケプストラム係数(C0 〜C8 )を1次元に並べ
たVector  x=(Co(1) ,C1 (1)
 ,・・・,C8 (1) ,C0 (2) ,C1 
(2) ,・・・,C8 (2) ,・・・C8 (9
) )を意味する。
【0021】
【数1】
【0022】図2はこのベクトル探索部2における探索
の様子を示したものである。この図2の場合は、入力音
声の特徴ベクトルに距離dが一番近い符号「1」に符号
化される。そして、符号列作成部4において、各フレー
ム毎の番号を並べて符号列を作成する。
【0023】ここで、ベクトル探索部2において使用さ
れるパラメータ符号帳3の作成方法について説明する。 まず、多くの話者について、音韻バランスのとれた音声
データを収録する。本実施例では多数の単語の音声デー
タを使用している。次に、その音声の音声区間全てにつ
いて上記と同様の音響分析を行ない、各フレームの特徴
ベクトルを求める。そして、それら全ての特徴ベクトル
を集めて特徴ベクトルの母集団を作成し、さらに、この
母集団に対してユークリッド距離に基づくクラスタリン
グを行ない、セントロイドを求めてパラメータ符号帳3
を作成する。このクラスタリングは、母集団に対してサ
ンプルとセントロイド(重心)間のユークリッド距離が
最小になるようなグループ分けを行ない、作成しようと
する符号帳サイズの数のグループにわけて、そのグルー
プのセントロイド(重心)で符号帳を作成する。
【0024】クラスタリングには幾つかの方法があり、
本実施例に用いたクラスタリング・アルゴリズムは細胞
***型のアルゴリズムである。このアルゴリズムを以下
に順に示す。 (1)  K=1 (2)  K個のグループのセントロイドを単純平均に
より求める。そして、それぞれのグループに属する全て
のサンプルとセントロイドとのユークリッド距離を求め
、その最大値をそのグループの歪とする。 (3)  K個のグループの中で最も歪の大きいグルー
プのセントロイドの附近に2つのセントロイドを作る(
細胞***の核になる。)。 (4)  K+1個のセントロイドを基にグループ分け
を行ない、セントロイドを求め直す。 (5)  空のグループがあればそのセントロイドを抹
消して(3)へ戻る。 (6)  K+1個のグループの歪を(2)と同様に求
め、その総和の変化量があらかじめ設定した微小なしき
い値以下であれば(7)へ進み、しきい値より大きい場
合は(4)へ戻る。 (7)  K+1が目標のグループ数に達していなけれ
ばK=K+1として(2)へ戻り、達していれば(8)
へ進む。 (8)  すべてのグループのセントロイドを求め、符
号帳を作成する。
【0025】なお、上記アルゴリズムにおいて、本実施
例におけるパラメータ符号帳3に格納されたセントロイ
ドの数は全部で920個であり、収束検知に用いたしき
い値は0.0001である。
【0026】ここで再び図1の実施例の説明に戻る。符
号列作成部4において、各フレーム毎のセントロイドの
番号を並べて符号列を作成した後、マッチング部6にお
いて、辞書格納部5に格納されている音声パターンとし
ての符号列とのマッチングを、符号間確率テーブル7と
DPマッチングを用いて行ない、各音声の類似度を求め
る。そして、各類似度を比較し、最も高いものを認識結
果として出力する。この辞書格納部5、マッチング部6
、符号間確率テーブル7について、以下に説明する。
【0027】まず、辞書格納部5に格納される音声パタ
ーンの作成手順を述べる。最初に認識対象音声について
1人の話者の音声を収録する。次に、認識時と同様に音
響分析を行ない、特徴ベクトルを求める。さらに、認識
時と同様にパラメータ符号帳を用いて符号化を行ない、
各音声の符号列を求める。そして、この符号列を音声の
パターンとして辞書格納部5に格納する。
【0028】次に、マッチング部6について述べる。入
力音声1から得られる符号列と辞書格納部5に格納され
ている音声パターンは、一般にその長さが異なっている
。そこで、このマッチングをDPマッチングを用いて行
なう。本実施例で用いた漸化式の例を(数2)に示す。
【0029】
【数2】
【0030】ここで、辞書側のフレーム番号がj、入力
のフレーム番号がi、第iフレームと第jフレームの類
似度がl(i,j)、累積類似度がg(i,j)である
。類似度l(i,j)は、辞書側のj番目にある符号と
、入力のi番目の符号(セントロイドの番号)を基に、
符号間確率テーブル7を参照して求める。
【0031】符号間確率テーブル7は、図3に示すよう
に、各符号間の類似度(同じである確率で、図3には生
の値を記しているが、実際には対数をとってある。)が
入っており、マッチングの際には、比較する符号を縦横
に見てその間の確率値を類似度として用いる。この値は
、2つのフレームが同じである確率であり、このDPマ
ッチングの結果得られる累積類似度は、マッチングパス
において対応する全てのフレームが同じである確率にな
ることに注意すべきである。この「2つのフレームが同
じである確率」については、以下の符号間確率テーブル
7についての説明の中でその意味を述べる。
【0032】次に、符号間確率テーブル7について、そ
の考え方と作成法について説明する。ベクトル探索部2
において求められる符号は、特徴ベクトルのベクトル空
間(ユークリッド空間)上における大まかな位置を示す
ものである。また、上記課題を解決するための手段の項
で述べたように、少数の話者の音声データを不特定話者
用の標準パターンに変換するためには、多数話者の音声
データから作成した音素や音節の標準パターンとマッチ
ングを行なう必要がある。そこで、本実施例では音素を
基本単位とした統計分析により、その符号に符号化され
る特徴ベクトルが各音素に属する確率を求める。
【0033】まず、音素の位置(始端と終端)がラベル
付けされている音声データを上記認識時と同様に音響分
析して、各フレームの特徴ベクトルを求めた後、上記パ
ラメータ符号帳3によって符号化し(最も近いセントロ
イドの番号を求める。)、各フレームの符号(セントロ
イドの番号)を求める。次に、ラベルを参照することに
より、そのフレームが何の音素に属しているかがわかる
ので、各セントロイド毎にその音素数分のエリアを用意
し、そのセントロイド番号になった特徴ベクトルの音素
番号のエリアに加算していく。その結果、図4のように
、各セントロイド番号のエリアには、その符号になった
特徴ベクトルが各音素であった個数が入っている。たと
えば、図4の符号「3」を例としてみると、多数話者の
全ての音声から得られた多くの特徴ベクトルのうち、「
3」に符号化されたものは全部で1200個あり、この
うち31個が/a/の音素であり、また、40個が/o
/、935個が/u/であったことを示している。そこ
で、この個数を全体で割れば、その番号に符号化された
特徴ベクトルが各音素になる確率が得られる。これを確
率列と呼ぶ。例えば、この例では、「3」に符号化され
た特徴ベクトルが/a/である確率は0.0258であ
り、/u/である確率は0.779である。この値はい
づれも多数話者から求めた汎用性のある確率であるから
、音声をこの確率列に変換することによって、話者の声
道の違いに基づく差異を正規化できる。したがって、入
力音声の特徴パラメータとしてこの確率列を用いること
は、個人性に影響されにくいという点で大変有効である
【0034】そして、さらにこの確率列を用いて2つの
符号の類似度を求める。符号iが音素jに属する確率を
Pijとすると、符号mと符号nが同じ音素である確率
Dmnは次の(数3)によって求めることができる。
【0035】
【数3】
【0036】最後に、このDmnをマトリックスに表現
して図3のような符号間確率テーブルを作成する。この
Dmnは、人の違いによらず、その符号と符号が音素と
してどれだけ似ているかという程度をあらわす値である
。したがって、上記した辞書格納部5の説明文中におけ
る「同じである確率」とは、この「同じ音素である確率
」に相当する。
【0037】なお、本実施例における音素とは、/a/
,/o/,/u/,/i/,/e/,/j/,/w/,
/m/,/n/,/
【0038】
【外1】
【0039】/(語中),/b/,/d/,/g/(語
頭),/r/,/z/,/h/,/s/,/c/,/p
/,/t/,/k/,Q(促音),/=/(撥音)の2
3音素とした。
【0040】以上が、本実施例における1人の話者の音
声パターンを標準パターンとする音声認識方法である。 次に、複数の話者で標準パターンをつくる方法は2つあ
る。1つは、一人一人の音声パターンをそのままマルチ
パターンとしてマッチングに用いる方法で、この場合は
認識時の計算量はモデルとする話者数に比例して増加す
るが、より話者に適応した認識を行なうことができ、認
識性能を向上させることができる。2つ目は、それぞれ
の音声パターンの長さをDPマッチングを用いて正規化
してから平均化する方法である。この場合、平均化する
段階は、特徴ベクトルの段階と確率列の段階の2種類が
あり、どちらにしても、より安定した標準パターンを得
ることができ、認識性能を向上させることができる。
【0041】ここで、本発明の有効性を検証するために
、本実施例を用いて単語認識実験を行なった。単語数は
212個である。音素位置のラベル付けがなされた20
人(男女各10人)の話者の音声データを用いて、パラ
メータ符号帳と符号間確率テーブルを作成し、この内の
1人(男性話者)の212単語の単語音声を用いて音声
の標準パターンを作成した。認識対象は上記話者以外の
話者20人(男女各10人)の212単語音声である。 実験の結果、平均90.1%(男性89.39%、女性
90.81%)という高い単語認識率が得られた。 男性の音声パターンを用いているが、男女の認識率の差
はほとんど無い。したがって、ベクトル探索と符号間確
率による距離計算により、声の個人性が吸収されており
、1人の話者でも不特定用の標準パターンが得られるこ
とが検証できた。
【0042】このように、本実施例では、入力音声を音
響分析することによって得られる特徴パラメータの時系
列である特徴ベクトルを用い、そのままその空間上でマ
ッチングするのでなく、その特徴ベクトルを多数話者で
作成したパラメータ符号帳で符号化し、マッチングの際
に符号間確率テーブルを参照して符号間類似度を求める
ことにより、少数話者が発声した音声を登録するだけで
不特定話者の音声を精度良く認識することができるよう
になる。
【0043】
【発明の効果】以上のように、本発明は、入力声を分析
して得られる特徴パラメータの時系列である特徴ベクト
ルに対して、あらかじめ多数の話者で作成したパラメー
タ符号帳を用いて符号化を行ない、同様に符号列に変換
された少数話者の音声パターンと符号間確率テーブルを
用いてマッチングを行なうことによって、1人から数名
の少数話者が発声した認識対象単語を辞書として登録す
るだけで辞書が更新でき、また、高い音声認識率を得る
ことができる。
【0044】このように、本発明は、不特定話者用音声
認識装置の性能向上および様々な用途に適用するために
、標準パターンを作成するための労力削減に対して極め
て大きく貢献することができる。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識装置の構成
を示すブロック図
【図2】同実施例におけるベクトル探索部の機能を説明
するための模式図
【図3】同実施例における符号間確率テーブルの一例を
示す説明図
【図4】同実施例における各セントロイドが各音素であ
った個数を示す説明図
【符号の説明】
1  音響分析部 2  ベクトル探索部 3  パラメータ符号帳 4  符号列作成部 5  辞書格納部 6  マッチング部 7  符号間確率テーブル

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】  入力音声に対して音響分析を行ない、
    分析単位時間毎に得られる特徴パラメータの時系列であ
    る特徴ベクトルを求める音声分析手段と、多数の話者の
    音声を上記音声分析手段により分析することによって得
    られる特徴ベクトルの空間の代表ベクトルを格納するパ
    ラメータ符号帳と、入力音声から上記音声分析手段によ
    り得られる特徴ベクトルと上記パラメータ符号帳に格納
    された代表ベクトルとの距離を求め、最も近い代表ベク
    トルの符号を求めるベクトル探索手段とを備え、あらか
    じめ音素または音節位置のラベリングがなされている多
    数の話者の音声を上記音声分析手段とパラメータ符号帳
    とベクトル探索手段によって分析単位時間毎に符号化し
    、その符号とその符号を求めた分析単位時間に記された
    音素または音節のラベルとを用いて、各符号に符号化さ
    れる特徴ベクトルが各音素または音節に属する確率を求
    めることにより確率列を作成しておき、入力音声の分析
    単位時間毎の特徴パラメータとして、入力音声から上記
    ベクトル探索手段によって得られた分析単位時間毎の符
    号に基づく上記確率列を用いて音声のマッチングを行な
    うことにより、不特定話者の音声の持つ個人性に影響さ
    れずに認識を行なう音声認識方法。
  2. 【請求項2】  入力音声に対して音響分析を行ない、
    分析単位時間毎に得られる特徴パラメータの時系列であ
    る特徴ベクトルを求める音声分析手段と、多数の話者の
    音声を上記音声分析手段により分析することによって得
    られる特徴ベクトルの空間の代表ベクトルを格納するパ
    ラメータ符号帳と、入力音声から上記音声分析手段によ
    り得られる特徴ベクトルと上記パラメータ符号帳に格納
    された代表ベクトルとの距離を求め、最も近い代表ベク
    トルの付号を求めるベクトル探索手段と、上記ベクトル
    探索手段により得られた符号を時間的に並べて符号列を
    作成する符号列作成手段と、1名から数名の話者が発声
    した認識対象音声を上記音声分析手段とパラメータ符号
    帳とベクトル探索手段と符号列作成手段により符号列に
    変換したものを基に作成された標準パターンを格納する
    辞書格納部と、上記パラメータ符号帳の符号間の類似度
    を格納する符号間確率テーブルと、上記入力音声を上記
    符号列作成手段により符号列に変換したものと上記辞書
    格納部に格納されている認識対象音声の標準パターンと
    しての符号列とを上記符号間確率テーブルに格納されて
    いる類似度を用いてマッチングして最も類似度の高い認
    識対象単語を認識結果とする音声マッチング手段とを有
    する音声認識装置。
  3. 【請求項3】  符号間確率テーブルが、あらかじめ音
    素または音節位置のラベリングがなされている多数の話
    者の音声を音声分析手段とパラメータ符号帳とベクトル
    探索手段によって分析単位時間毎に符号化し、その符号
    とその符号を求めた分析単位時間に記された音素または
    音節のラベルとを用いて、各符号に符号化される特徴ベ
    クトルが各音素または音節に属する確率を求め、さらに
    その確率の列を用いて符号化された2つの特徴ベクトル
    が同じ音素または音節に属する確率を求め、それらを格
    納することによって作成される請求項2記載の音声認識
    装置。
JP03071187A 1991-04-03 1991-04-03 音声認識方法および装置 Expired - Fee Related JP3115016B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03071187A JP3115016B2 (ja) 1991-04-03 1991-04-03 音声認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03071187A JP3115016B2 (ja) 1991-04-03 1991-04-03 音声認識方法および装置

Publications (2)

Publication Number Publication Date
JPH04305699A true JPH04305699A (ja) 1992-10-28
JP3115016B2 JP3115016B2 (ja) 2000-12-04

Family

ID=13453408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03071187A Expired - Fee Related JP3115016B2 (ja) 1991-04-03 1991-04-03 音声認識方法および装置

Country Status (1)

Country Link
JP (1) JP3115016B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6183598A (ja) * 1984-10-01 1986-04-28 株式会社リコー 音声パタ−ンマツチング方式
JPS6270898A (ja) * 1985-09-24 1987-04-01 株式会社リコー 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6183598A (ja) * 1984-10-01 1986-04-28 株式会社リコー 音声パタ−ンマツチング方式
JPS6270898A (ja) * 1985-09-24 1987-04-01 株式会社リコー 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템

Also Published As

Publication number Publication date
JP3115016B2 (ja) 2000-12-04

Similar Documents

Publication Publication Date Title
Arora et al. Automatic speech recognition: a review
Das et al. Bengali speech corpus for continuous auutomatic speech recognition system
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
US20100004931A1 (en) Apparatus and method for speech utterance verification
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Kumar et al. Continuous hindi speech recognition using monophone based acoustic modeling
Sinha et al. Continuous density hidden markov model for context dependent Hindi speech recognition
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Stouten et al. On the use of phonological features for pronunciation scoring
Sangjamraschaikun et al. Isarn digit speech recognition using HMM
Fu et al. A survey on Chinese speech recognition
Garud et al. Development of hmm based automatic speech recognition system for Indian english
Lingam Speaker based language independent isolated speech recognition system
JP3115016B2 (ja) 音声認識方法および装置
JP2943473B2 (ja) 音声認識方法
Shafie et al. Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR
Adam et al. Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Ganesh et al. Grapheme Gaussian model and prosodic syllable based Tamil speech recognition system
JP2943445B2 (ja) 音声認識方法
Phuong et al. Development of high-performance and large-scale vietnamese automatic speech recognition systems
JP3277522B2 (ja) 音声認識方法
JP2692382B2 (ja) 音声認識方法
JP2574557B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees