JPH11122114A - コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法 - Google Patents

コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法

Info

Publication number
JPH11122114A
JPH11122114A JP9283309A JP28330997A JPH11122114A JP H11122114 A JPH11122114 A JP H11122114A JP 9283309 A JP9283309 A JP 9283309A JP 28330997 A JP28330997 A JP 28330997A JP H11122114 A JPH11122114 A JP H11122114A
Authority
JP
Japan
Prior art keywords
node
vector
distance
codebook
winner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9283309A
Other languages
English (en)
Inventor
Takamasa Echizen
孝方 越膳
Hiroaki Ogawa
浩明 小川
Masao Watari
雅男 渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP9283309A priority Critical patent/JPH11122114A/ja
Publication of JPH11122114A publication Critical patent/JPH11122114A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 ベクトル量子化誤差を小さくするコードブッ
クを、短時間で、かつ少ないメモリで作成することがで
きるようにする。 【解決手段】 コホーネンの自己組織化特徴地図に配列
されたノードそれぞれと、学習サンプルAとしての特徴
ベクトルとの距離が算出され、学習サンプルAとの距離
を最も短くするノードである勝者ノードが検出される。
そして、勝者ノードから所定の距離の範囲としての位相
近傍に含まれるノードに割り当てられたベクトルが更新
され、これにより得られる自己組織化特徴地図が、ノー
ドに割り当てられたベクトルをコードベクトルとするコ
ードブックとされる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コードブック作成
装置およびコードブック作成方法、並びにベクトル量子
化装置およびベクトル量子化方法に関し、例えば、音声
認識や画像認識などのパターン認識や、画像圧縮、自律
型学習ロボットなどの分野において行われるベクトル量
子化に用いるコードブックを作成するコードブック作成
装置およびコードブック作成方法、並びにベクトル量子
化装置およびベクトル量子化方法に関する。
【0002】
【従来の技術】例えば、音声認識や画像認識に代表され
るパターン認識や、自律型学習ロボットの高感度センサ
による位置の獲得などにおいては、データ量の削減など
を目的として、入力ベクトルを、より低次元のベクト
ル、あるいはスカラ量に変換するベクトル量子化が行わ
れることが多い。
【0003】即ち、例えば、音声認識装置において、離
散HMM(Hidden Markov Models)などによって音声認
識を行う場合には、入力音声から抽出した特徴量として
の特徴ベクトル(特徴パラメータ)を、ベクトル量子化
装置によりラベル(コードブックのコードベクトル(co
de vector)に割り当てられた値)に変換し、そのラベ
ル系列が観測される確率が最も高いモデルに対応する単
語や音韻などが、音声認識結果として出力される。
【0004】音声認識装置に利用されるベクトル量子化
装置のコードブックの作成アルゴリズムのうち、今日最
も広く用いられているものの1つとして、リンデ(Lind
e)、ブゾー(Buzo)、グレイ(Gray)によって提案さ
れたLBGアルゴリズムがある。
【0005】LBGアルゴリズムは、いわゆるバッチ型
学習アルゴリズムで、学習サンプルとしての特徴ベクト
ルとコードベクトル(最初は、適当な初期値が与えられ
る)との距離に対応して、特徴ベクトル空間を最適分割
するボロノイス分割と、ボロノイス分割により得られ
る、特徴ベクトル空間の各部分領域の重心への、コード
ベクトルの更新とを繰り返し行うことにより、コードブ
ックのコードベクトルを、局所的に最適な位置に収束さ
せるようになっている。
【0006】ここで、学習サンプルの集合をxj(j=
0,1,・・・,J−1)と、コードベクトルの集合を
Y={y0,y1,・・・,yN-1}と、それぞれすると
き、ボロノイス分割では、学習サンプルの集合をx
jが、コードベクトルYの集合によって、N個の部分集
合Si(i=0,1,・・・,N−1)に分割される。
即ち、学習サンプルxjとコードベクトルyiとの間の距
離をd(xj,yi)と表した場合、iと等しくないt
(t=0,1,・・・,N−1)すべてについて、式 d(xj,yi)<d(xj,yt)・・・(1) が成り立つとき、学習サンプルxjは、部分集合Siに属
する(xj∈Si)とされる。
【0007】また、ベクトルv0,v1,・・・,vM-1
についてのセントロイド(ベクトル)C(v0,v1,・
・・,vM-1)を、式
【数1】 ・・・(2) で定義するとき、コードベクトルの更新では、コードベ
クトルyiが、式 yi=C({Si})・・・(3) にしたがって更新される。
【0008】なお、式(2)の右辺argmin{}
は、{}内の値を最小にするベクトルvを意味する。
【0009】また、式(3)による、いわゆるクラスタ
リング手法は、k平均クラスタリング法(k-means法)
と呼ばれる。
【0010】
【発明が解決しようとする課題】ところで、LBGアル
ゴリズムでは、特徴ベクトル空間を、有限個のコードベ
クトルで近似する(代表させる)際の誤差(量子化誤
差)(入力された特徴ベクトルを、それとの距離が最も
近いコードベクトルで近似したときの、その距離)が、
コードベクトルの初期値に大きく依存し、従って、初期
値によっては、量子化誤差が大きくなることがあった。
【0011】また、LBGアルゴリズムでは、コードブ
ックのコードベクトルを、局所的に最適な位置に収束さ
せるのに、特徴ベクトル空間を最適分割するボロノイス
分割と、特徴ベクトル空間の各部分領域の重心への、コ
ードベクトルの更新とを、相当な回数繰り返す必要があ
り、多大な時間が必要であった。
【0012】さらに、LBGアルゴリズムにおいては、
各学習サンプルについて、それぞれが属する部分集合を
記憶しておく必要があり、多大なメモリが必要であっ
た。
【0013】本発明は、このような状況に鑑みてなされ
たものであり、量子化誤差を小さくするコードブック
を、短時間で、かつ少ないメモリで作成することができ
るようにするものである。
【0014】
【課題を解決するための手段】請求項1に記載のコード
ブック作成装置は、コホーネンの自己組織化特徴地図に
配列されたノードそれぞれと、学習サンプルとの距離を
算出する距離算出手段と、学習サンプルとの距離を最も
短くするノードである勝者ノードを検出する勝者ノード
検出手段と、勝者ノードを含む所定のノードに割り当て
られたベクトルを更新する更新手段とを備え、更新手段
による更新の結果得られる自己組織化特徴地図を、ノー
ドに割り当てられたベクトルをコードベクトルとするコ
ードブックとすることを特徴とする。
【0015】請求項11に記載のコードブック作成方法
は、コホーネンの自己組織化特徴地図に配列されたノー
ドそれぞれと、学習サンプルとの距離を算出し、学習サ
ンプルとの距離を最も短くするノードである勝者ノード
を検出し、勝者ノードを含む所定のノードに割り当てら
れたベクトルを更新することを、所定の回数繰り返し、
その結果得られる自己組織化特徴地図を、ノードに割り
当てられたベクトルをコードベクトルとするコードブッ
クとすることを特徴とする。
【0016】請求項12に記載のベクトル量子化装置
は、コードブックが、コホーネンの自己組織化特徴地図
に配列されたノードそれぞれと、学習サンプルとの距離
を算出し、学習サンプルとの距離を最も短くするノード
である勝者ノードを検出し、勝者ノードを含む所定のノ
ードに割り当てられたベクトルを更新することを、所定
の回数繰り返し、その結果得られる自己組織化特徴地図
のノードに割り当てられたベクトルをコードベクトルと
するものであることを特徴とする。
【0017】請求項13に記載のベクトル量子化方法
は、コードブックが、コホーネンの自己組織化特徴地図
に配列されたノードそれぞれと、学習サンプルとの距離
を算出し、学習サンプルとの距離を最も短くするノード
である勝者ノードを検出し、勝者ノードを含む所定のノ
ードに割り当てられたベクトルを更新することを、所定
の回数繰り返し、その結果得られる自己組織化特徴地図
のノードに割り当てられたベクトルをコードベクトルと
するものであることを特徴とする。
【0018】請求項1に記載のコードブック作成装置に
おいては、距離算出手段は、コホーネンの自己組織化特
徴地図に配列されたノードそれぞれと、学習サンプルと
の距離を算出し、勝者ノード検出手段は、学習サンプル
との距離を最も短くするノードである勝者ノードを検出
するようになされている。更新手段は、勝者ノードを含
む所定のノードに割り当てられたベクトルを更新し、更
新手段による更新の結果得られる自己組織化特徴地図
が、ノードに割り当てられたベクトルをコードベクトル
とするコードブックとされるようになされている。
【0019】請求項11に記載のコードブック作成方法
においては、コホーネンの自己組織化特徴地図に配列さ
れたノードそれぞれと、学習サンプルとの距離を算出
し、学習サンプルとの距離を最も短くするノードである
勝者ノードを検出し、勝者ノードを含む所定のノードに
割り当てられたベクトルを更新することを、所定の回数
繰り返し、その結果得られる自己組織化特徴地図を、ノ
ードに割り当てられたベクトルをコードベクトルとする
コードブックとするようになされている。
【0020】請求項12に記載のベクトル量子化装置に
おいては、コードブックが、コホーネンの自己組織化特
徴地図に配列されたノードそれぞれと、学習サンプルと
の距離を算出し、学習サンプルとの距離を最も短くする
ノードである勝者ノードを検出し、勝者ノードを含む所
定のノードに割り当てられたベクトルを更新すること
を、所定の回数繰り返し、その結果得られる自己組織化
特徴地図のノードに割り当てられたベクトルをコードベ
クトルとするものとされている。
【0021】請求項13に記載のベクトル量子化方法に
おいては、コードブックが、コホーネンの自己組織化特
徴地図に配列されたノードそれぞれと、学習サンプルと
の距離を算出し、学習サンプルとの距離を最も短くする
ノードである勝者ノードを検出し、勝者ノードを含む所
定のノードに割り当てられたベクトルを更新すること
を、所定の回数繰り返し、その結果得られる自己組織化
特徴地図のノードに割り当てられたベクトルをコードベ
クトルとするものとされている。
【0022】
【発明の実施の形態】図1は、本発明を適用した音声認
識装置の一実施の形態の構成例を示している。
【0023】マイク(マクロロフォン)1には、音声認
識すべき音声が入力され、そこでは、音声が電気信号と
しての音声信号に変換され、音響分析部2に供給され
る。音響分析部2では、マイク1からの音声信号がサン
プリングされて量子化されることにより、ディジタルの
音声信号とされ、さらに、所定の音響分析が施されるこ
とで、その特徴ベクトルが抽出される。
【0024】即ち、音響分析部2では、音声信号が、例
えば、16のフィルタで構成されるフィルタバンク(図
示せず)においてフィルタリングされ、16の周波数帯
域の周波数成分が求められる。そして、その16の周波
数成分、および各周波数成分の差分を要素とするベクト
ルが、音声の特徴ベクトルとして出力される。具体的に
は、ある時刻tにおける、あるフィルタの出力(周波数
成分)をx(t)と表すとき、その差分として、例え
ば、x(t−2)−x(t+2)が求められ、x(t)
とともに出力される。他のフィルタの出力についても同
様にして、差分が求められ、フィルタの出力そのものと
ともに出力される。
【0025】従って、ここでは、音響分析部2が出力す
る特徴ベクトルは、16のフィルタの出力と、その16
のフィルタそれぞれの出力の差分とを要素とする32次
元のベクトルとなっている。
【0026】音響分析部2が出力する32次元の特徴ベ
クトルは、ベクトル量子化部3に供給される。ベクトル
量子化部3では、音響分析部2からの特徴ベクトルが、
後述するようなコードブックを用いてベクトル量子化さ
れ、その結果得られるラベルが、認識部4に出力され
る。認識部4では、ベクトル量子化部3からのラベル系
列に基づき、マイク1に入力された音声が音声認識さ
れ、その音声認識結果が出力される。即ち、認識部4で
は、例えば、HMM法などに基づき、ベクトル量子化部
3からのラベル系列が観測される確率が計算され、その
確率が最も高い単語や音素などが、音声認識結果として
出力される。
【0027】次に、図2は、図1のベクトル量子化部3
で用いられるコードブックを示している。
【0028】ここでは、後述するような学習により得ら
れるコホーネンの自己組織化特徴地図(以下、適宜、K
SOM(Kohonen Self-Organizing feature Map)とい
う)が、そこに配置されたノードに割り当てられたベク
トルをコードベクトルとするコードブックとして用いら
れるようになされている。
【0029】ここで、KSOMについては、例えば、
「ニューラルネットワークアーキテクチャ入門」、J.
デイホフ 著、桂井浩 訳、森北出版などに、その詳細
が記載されている。
【0030】図2においては、ノードが2次元に配列さ
れている。即ち、横方向(x方向)または縦方向(y方
向)に、それぞれ所定数のノードが、正方格子状に配列
されている。なお、ここでは、全部で、M個のノードが
配列されており、最も左上のノードを、ノード#1と
し、その左隣のノードを、ノード#2とし、以下、同様
にして、左方向、下方向に行くほど、大きな数字(以
下、適宜、ノード番号という)を付して、ノードを表
す。従って、最も右下のノードは、ノード#Mとなる
(最も右下のノードのノード番号はMとなる)。
【0031】各ノードには、コードベクトルとしての、
音響分析部2が出力する特徴ベクトルと同一次元のベク
トル、即ち、32次のベクトルが割り当てられている。
そして、ベクトル量子化部3では、そこに入力される特
徴ベクトルと、KSOM上に配列されたノードそれぞれ
に割り当てられているコードベクトルとの距離が算出さ
れ、その距離を最も短くするコードベクトルが割り当て
られているノード#mの、例えばノード番号mが、ラベ
ル(ベクトル量子化結果)として出力される。
【0032】次に、図1の認識部4における音声認識の
アルゴリズムとして用いるHMM法について簡単に説明
する。
【0033】HMMは、音声単位(例えば、音韻や単語
など)を統計的にモデル化したものであり、これを用い
た音声認識とは、入力された音声のシンボル系列が最も
観測され易いモデル(HMM)を見つけ出すことを意味
する。
【0034】即ち、いま、入力された音声パターン(入
力パターン)Xを、Iフレームの時系列として、X=
(x1,x2,・・・,xI)と表すと、HMM法は、こ
の入力パターンXと最も良くマッチングする単語列W=
(w1,w2,・・・,wJ)を見つけ出すものである。
但し、wiは、例えば、単語に相当し(i=1,2,・
・・,J)、Jは、単語列Wを構成する単語数を表す。
【0035】従って、式 P(W|X)=P(X|W)P(W)/P(X) ・・・(4) を最大にする単語列Wを、音声認識結果として求めれば
良いことになる。なお、P()は確率を表す。
【0036】式(4)において、P(X)は、入力パタ
ーンXの生起確率であり、Wと無関係であるから無視す
ることができる。よって、式(4)を最大にするWを求
めることは、P(X|W)P(W)を最大にするWを求
めることと等価である。
【0037】P(W)は、単語列Wの事前確率であり、
入力パターンXとは無関係で、次式で表される。
【0038】
【数2】 ・・・(5)
【0039】なお、P(W)は、言語モデルに基づき、
言語データベースなどを用いて求められる。
【0040】一方、P(X|W)は、次式で表される。
【0041】
【数3】 ・・・(6) 但し、I1<I2<・・・<IJである。
【0042】従って、いま、1≦i<j≦Iとすると、
単語wkの音響モデルを用いて、入力パターンXの部分
系列xii+1・・・xjが観測される確率P(xii+1
・・・xj|wk)を計算すれば良いことになる。
【0043】なお、ここでは、w1,w2,・・・,wJ
として単語を想定したが、これらは、単語を構成してい
る音韻や音節などであっても良い(単語モデルの他、音
韻モデルや音節モデルであっても良い)。
【0044】音声波形は、全体としては非定常信号であ
るが、局所的には定常信号であるとみなすことができ、
HMMは、定常信号を連結して非定常な音声波形を表す
統計的信号モデルである。ここで、HMMの例を、図3
に示す。
【0045】HMMは、遷移する状態の集合で表現さ
れ、状態が遷移する確率(遷移確率)と、その遷移の際
にシンボルが出力される確率(出力確率)とで規定され
る。なお、出力確率は、状態遷移に伴って出力されるゆ
らぎの確率でもある。
【0046】ここで、図3においては、HMMは、4つ
の状態からなり、最も右の状態は最終状態(状態遷移を
しない状態)とされている。また、ここでは、状態遷移
は、自己への遷移、右隣への遷移、そのさらに右隣への
遷移のみ許されており、また、同一の状態からの状態遷
移に伴い、各シンボルが出力される出力確率は、遷移先
の状態に無関係に同一の値としてある。
【0047】HMMは、出力確率の違いによって2つに
大別される。即ち、状態遷移に伴って出力されるシンボ
ルが有限集合の場合、出力確率は、図4(A)に示すよ
うに、いわばヒストグラムのように、離散的に表され、
この場合のHMMは、離散型HMMと呼ばれる。また、
シンボルが無限集合の場合、出力確率は、図4(B)に
示すように、連続的な確率密度で表され、この場合のH
MMは、連続HMMと呼ばれる。なお、同図(B)にお
いては、横軸のシンボルを示すxは、例えば、音響分析
部2が出力する特徴ベクトルなどを表し、従って、多次
元のベクトルであるが、ここでは、簡単のために、1次
元で表している。
【0048】シンボルを有限集合にするというのは、音
響分析部2が出力する特徴ベクトルをベクトル量子化し
て、特徴ベクトルを、コードブックのコードベクトルの
いずれかに対応させる(変換する)ことに相当し、認識
部4では、そのコードベクトルに割り当てられたラベル
の系列が、各HMMから観測される確率が求められる。
従って、認識部4においては、離散型HMMを用いて音
声認識が行われる。
【0049】即ち、図5に示すように、学習(HMMの
学習)により、遷移確率(図5(A))と、2次元のK
SOMをコードブックとして行われるベクトル量子化の
結果得られるラベルの出力確率(図5(B))とが、あ
らかじめ求められ、認識部4では、これらの遷移確率お
よび出力確率を用いて、ベクトル量子化部3が出力する
ラベル系列が観測される確率が計算され、その確率を最
も高くするHMMに対応する単語や、音韻、音素など
が、音声認識結果として出力される。
【0050】なお、上述の場合においては、ベクトル量
子化部3において、ノードが2次元に配列されたKSO
M、即ち、2次元のKSOMをコードブックとして用い
たベクトル量子化が行われるものとしたが、コードブッ
クとして用いるKSOMは、その他、1次元や、3次元
以上であっても良い。例えば、1次元のKSOMをコー
ドブックとして用いる場合には、図5(C)に示すよう
に、そのようなコードブックから出力され得るラベルの
出力確率を、2次元のKSOMをコードブックとして行
われるベクトル量子化の結果得られるラベルの出力確率
(図5(B))に代えて求めれば良い。ここで、図5
(B)および図5(C)では、ベクトル量子化により、
64のラベルのうちのいずれかが出力されるものとして
図示してある。
【0051】次に、図1のベクトル量子化部3において
用いられるコードブックの作成方法について説明する。
【0052】KSOMは、ランダムな出発点から位相地
図を組織化することができる2層のネットワークであ
り、ネットワークに与えられたパターン間の自然な関係
を表す。ネットワークは、処理ユニットの入力層と競合
層との組合せであり、教師なし学習により訓練される。
従って、KSOMについては、ラベルを与えられていな
いデータ(ベクトル)を分類する教師なしクラスタ分類
のための学習を行うことができ、その学習されたKSO
Mは、ベクトル量子化に用いるコードブックとして用い
ることができる。
【0053】図6は、コードブックとして用いられるK
SOMの学習を行う学習装置の一実施の形態の構成例を
示している。
【0054】距離計算部11(距離算出手段)には、K
SOMの学習用の音声を、音響分析部2における場合と
同様に処理して得られる特徴ベクトルが、学習サンプル
として入力されるようになされている。そして、距離計
算部11は、KSOM記憶部14に記憶されているKS
OMに配列されたノードそれぞれと、学習サンプルとの
距離を算出し、勝者ノード決定部12(勝者ノード検出
手段)に供給するようになされている。勝者ノード決定
部12は、各学習サンプルについて、距離計算部11か
ら供給される距離を最も短くするノード(以下、適宜、
勝者ノードという)を検出し、更新部13(更新手段)
に出力するようになされている。更新部13は、勝者ノ
ード決定部12からの勝者ノードを含む所定のノードに
割り当てられたベクトル(学習サンプルと同一次元のベ
クトル)であって、KSOM記憶部14に記憶されたも
のを更新するようになされている。KSOM記憶部14
は、例えば、2次元のKSOM(に配列されたノードに
割り当てられているベクトル)を記憶している。
【0055】次に、図7のフローチャートを参照して、
その動作について説明する。
【0056】まず最初に、ステップS1において、KS
OMに配列されたノードに割り当てるベクトル(以下、
適宜、代表ベクトルという)に適当な初期値が設定さ
れ、KSOM記憶部14に記憶される。さらに、ステッ
プS1では、位相近傍Nεにも、初期値が設定される。
ここで、位相近傍Nεとは、勝者ノードとともに更新す
るノードの範囲を表すもので、例えば、図8(A)乃至
図8(C)に示すように、時刻の経過(学習の繰り返し
回数)とともに、その範囲が減少していくように更新さ
れるようになされている。なお、図8において、○印が
KSOMに配列されたノードを表し、斜線を付した○印
が勝者ノードを表している。
【0057】その後、ステップS2に進み、時刻、即
ち、学習の繰り返し回数を表す変数tに、初期値として
の、例えば1がセットされ、ステップS3に進む。ステ
ップS3では、距離計算部11において、KSOM記憶
部14に記憶されているKSOMに配列されたノード
(に割り当てられた代表ベクトル)それぞれと、学習サ
ンプルとの距離が算出され、勝者ノード決定部12に出
力される。
【0058】勝者ノード決定部12では、ステップS4
において、距離計算部11からの出力に基づいて、学習
サンプルについて、それとの距離を最も短くする勝者ノ
ードが検出される。即ち、時刻tに入力される学習サン
プルをAで表すとすると、その学習サンプルAと、KS
OMに配列されたノード#mに割り当てられた代表ベク
トルBmとの距離d(A,Bm)に基づき、次式を満たす
*をノード番号とするノード#m*が、学習サンプルA
についての勝者ノードとして検出される(m,m*
1,2,・・・,M、Mはノードの数)。
【0059】
【数4】 ・・・(7) 但し、argmin{}は、括弧{}内の最小値を与え
るmを意味する。
【0060】勝者ノード決定部12で求められた勝者ノ
ードは、更新部13に供給され、更新部13は、勝者ノ
ードを受信すると、ステップS5において、その勝者ノ
ードと、その位相近傍Nεにあるノード(勝者ノードを
中心とする、位相近傍Nεの値に対応する範囲にあるノ
ード)を、次式にしたがって更新する。
【0061】即ち、時刻tにおいて、更新の対象となっ
ているノードの代表ベクトルをB(t)とすると、代表
ベクトルをB(t)は、次式にしたがって、B(t+
1)に更新される。
【0062】 B(t+1)=B(t)+η(t)(A−B(t)) ・・・(8)
【0063】ここで、η(t)は、繰り返し回数(時
刻)tの増加にしたがって0に減少する、1未満の非負
の関数(以下、適宜、学習レートという)で、次式で表
される。 η(t)=edη0(1−t/T)・・・(9)
【0064】但し、η0は学習レートη(t)の初期値
を、Tは学習サンプルの総数を、それぞれ表す。また、
dは、次式で与えられる。
【0065】ed=1−d/Nε・・・(10) なお、dは、学習サンプルAと代表ベクトルB(t)と
の距離を表す。
【0066】ここで、図9に、時刻tに対する学習レー
トη(t)の変化の様子を示す。なお、図9は、η0
0.3とし、804416の学習サンプルを用いた場合
の学習レートη(t)の変化の様子を示している。ま
た、図9において、η(t)が0.3,0.05,0.
02,0となるときの時刻tを、表1に示す。
【0067】
【表1】
【0068】図7に戻り、勝者ノードと、その位相近傍
Nεにあるノードとの更新後は、その更新結果が、KS
OM記憶部14に記憶される(書き込まれる)。そし
て、更新部13では、位相近傍Nεが、図8で説明した
ように更新され、さらに、それに伴い、式(9)または
(10)でそれぞれ示されるη(t)またはedも更新
される。
【0069】その後、ステップS6に進み、更新部13
において、学習レートη(t)が0に等しいかどうかが
判定される。ステップS6において、学習レートη
(t)が0に等しくないと判定された場合、ステップS
7に進み、変数tが1だけインクリメントされ、ステッ
プS3に戻る。そして、KSOM記憶部14に記憶され
た、更新されたKSOMを用いて、同様の処理が繰り返
される。
【0070】一方、ステップS6において、学習レート
η(t)が0に等しいと判定された場合、処理を終了す
る。
【0071】以上の処理の終了後に、KSOM記憶部1
4に記憶されているKSOMが、そのノードの代表ベク
トルをコードベクトルとするコードブックとして、図1
のベクトル量子化部3で用いられる。
【0072】従って、LBGアルゴリズムでは、すべて
の学習ベクトルを同時に用いて、コードベクトルが、い
わば一括して更新されるのに対して、KSOMをコード
ブックとする場合では、ある時刻に入力された学習サン
プルのみを用いて、勝者ノードと、その位相近傍に対応
する範囲にあるノードのみが更新される、いわば逐次的
な学習が行われるので、その学習に要する演算量を、L
BGアルゴリズムによる場合に比較して、大幅に制限す
ることができる。
【0073】さらに、KSOMでは、逐次的に学習が行
われる結果、各学習サンプルについて、その勝者ノード
となったノードを、それ以降の学習サンプルを処理する
のに記憶しておく必要がなく、従って、各学習サンプル
につき、それぞれが属する部分集合を記憶しておくLB
Gアルゴリズムと比較して、少ないメモリで、学習を行
うことができる。
【0074】また、KSOMの学習では、勝者ノードの
みならず、その位相近傍に対応する範囲のノードも更新
されるので、特徴ベクトル空間の部分領域に属する学習
サンプルを用いて、その部分領域に対応するコードベク
トルだけが更新されるLBGアルゴリズムよりも、初期
値の影響を、比較的受けにくい。
【0075】さらに、本件発明者が行った実験によれ
ば、LBGアルゴリズムにより得られたコードブックに
比較して、上述のような学習により得られたKSOMを
コードブックとして用いた方が、音声の認識率が向上
し、また、ベクトル量子化の際に生じる量子化誤差が低
減された。
【0076】ここで、表2は、KSOMの学習に要した
時間の実験結果を、表3は、その学習により得られたK
SOMをコードブックとして用いたときの、図1の音声
認識装置における認識率、およびベクトル量子化による
量子化誤差の実験結果を、それぞれ示している。
【0077】
【表2】 但し、LBGアルゴリズムにおける学習時間(学習経過
時間)のNAとは、NonApplecableの略で、KSOMの
学習時間と比較して、非常に長いことを意味する。ま
た、KSOMの学習時間の単位は、分である。
【0078】
【表3】
【0079】ここで、実験において、コードブックの作
成、HMMの学習、並びに認識率および量子化誤差を求
めるための入力データには、ATR216単語を用い
た。また、音声認識の際には、ATR216単語とAT
R5216単語とを合わせた中から、重複しているもの
を除いた4876単語を、音声認識の対象語彙とした。
なお、単語の発話者は、男女合わせて40名で、そのう
ちの20名が発話したものを、コードブックの作成とH
MMの学習に用いており、この20名の発話したもの
が、表3における学習済みデータに対応する。また、残
りの20名が発話したものは、コードブックの作成とH
MMの学習には用いておらず、これが、表3における未
学習データに対応する。
【0080】さらに、コードブックとするKSOMとし
ては、最も一般的な、ノードが横および縦とも同一の数
だけ配列された正方形状の2次元のもの(2次元の幾何
学的マップ)を用いた。
【0081】以上のことは、後述する表4乃至表6につ
いても同様である。
【0082】なお、KSOMの学習では、図7で説明し
た学習処理を数回繰り返すことで、代表ベクトルが収束
する実験結果が得られている。これに対して、LBGア
ルゴリズムでは、ボロノイス分割と、コードベクトルの
更新とを数百回程度繰り返さないと、コードベクトルは
収束しない(但し、この回数は、学習サンプル数などに
よる)。
【0083】次に、上述の場合においては、式(8)に
したがって更新されたノード(代表ベクトル)が配列さ
れたKSOMを、そのままコードブックとして用いるよ
うにしたが、さらに、そのコードブックに、LBGアル
ゴリズムにしたがった処理を施して得られるものを用い
るようにすることもできる。
【0084】この場合、図6の学習装置においては、図
10に示すように、まず最初に、ステップS11におい
て、図7における処理(以下、適宜、KSOM学習処理
という)を行い、その後、ステップS12において、ス
テップS11で得られたKSOMに配置されたノードの
代表ベクトルをコードベクトルの初期値として、前述し
たボロノイス分割と、k平均クラスタリング法によるク
ラスタリングとを行うようにすれば良い。
【0085】以上のようにして得られたコードブックを
用いたときの音声認識率と量子化誤差との実験結果を、
表4に示す。
【0086】
【表4】
【0087】表3と表4とを比較して分かるように、K
SOM学習処理で得られたKSOMに配列されたノード
の代表ベクトルをコードベクトルの初期値として、LB
Gアルゴリズムにしたがった処理を行って得られたコー
ドブックを用いた方が、KSOM学習処理のみを行って
得られたコードブックを用いる場合に比較して、音声認
識率が向上し、量子化誤差が小さくなっている。これ
は、ステップS12において、ボロノイス分割により得
られた特徴ベクトル空間の各部分領域に属する学習サン
プルの集合それぞれのセントロイドベクトル、即ち、K
SOM学習処理により得られたKSOMに配列されたノ
ードそれぞれについて、そのノードとの距離が、他のノ
ードよりも短い学習サンプルの集合の重心を表すベクト
ルが、コードベクトルとされるためであると考えられ
る。
【0088】なお、KSOM学習処理は、上述したよう
に、初期値の影響を、比較的受けにくく、従って、それ
により得られるKSOMにおける各ノードは、本来収束
すべき値の近傍にあると考えられるので、KSOM学習
処理の結果をコードベクトルの初期値として与え、LB
Gアルゴリズムにしたがった処理を行う場合には、適当
に初期値を与える場合に比較して、コードベクトルは早
く収束する。
【0089】次に、図7においては、KSOMに実際に
配列されたノードのみを用いて、KSOM学習処理を行
うようにしたが、実際のノードの周辺に仮想的なノード
(以下、適宜、仮想ノードという)を想定し、そのよう
な仮想ノードも含めた中から、勝者ノードを検出するよ
うにすることも可能である。
【0090】即ち、ここでは、例えば、図11に示すよ
うに、あるノードに注目した場合に、その注目ノード
(同図において斜線を付した○印で示す)と、その周辺
の8のノード(同図において○印で示す)それぞれとの
間を、p:1−pに内分する位置に、仮想ノード(同図
において点線の○印で示す)を想定する。このような仮
想ノードを、他のノードについても想定し、実際のノー
ドと仮想ノードとを合わせた中から、勝者ノードを検出
する(pは1未満の正の実数)。
【0091】なお、KSOMに配列された実際のノード
の数がM個であれば、仮想ノードを含めたノードの総数
は9M個となる。従って、上述のように仮想ノードを想
定した学習を行って得られるKSOMをコードブックと
してベクトル量子化を行う場合には、9Mのノードと入
力との距離を計算し、その距離が最も短いノードのラベ
ルが、ベクトル量子化結果として出力されることにな
る。但し、学習時においては、1の学習サンプルとの距
離の計算は、実際のノードについて行い、さらに、その
うちの、学習サンプルとの距離を最小にするノード(勝
者ノード)を注目ノードとして想定される8の仮想ノー
ドについて行えば充分であるから、結局は、M+8のノ
ードとについて行えば済む。
【0092】次に、図12のフローチャートを参照し
て、以上のように仮想ノードを想定してKSOMの学習
を行う場合の、図6の学習装置の処理について説明す
る。
【0093】この場合、ステップS21乃至S24にお
いて、図7のステップS1乃至S4における場合とそれ
ぞれ同様の処理が行われる。但し、ステップS24で
は、学習サンプルとの距離を最も短くする、KSOM上
のノードが、勝者ノードとして確定されるのではなく、
そのようなノードが、勝者ノードとして仮に決定される
(このように仮に決定された勝者ノードを、以下、適
宜、仮勝者ノードという)。
【0094】仮勝者ノードの決定後は、ステップS25
に進み、距離算出部11において、その仮勝者ノード
と、その左上、左、左下、上、下、右上、右、右下の方
向に隣接する8のノードそれぞれとの間に想定された仮
想ノード#m’それぞれと(m’=1,2,・・・,
8)、学習サンプルAとの間の距離が算出される。な
お、仮勝者ノードの代表ベクトルをVaと、その仮勝者
ノードに隣接するノードの代表ベクトルをVbと、それ
ぞれするとき、仮想ノードの代表ベクトルの初期値は、
pVa+(1−p)Vbとされる。
【0095】そして、ステップS26において、仮勝者
ノードおよび8つの仮想ノードの9のノードのうち、学
習サンプルAとの距離が最も近いものが、勝者ノード決
定部12で検出され、そのノードが勝者ノードm*とし
て確定される。
【0096】その後は、ステップS27乃至S29にお
いて、図7のステップS5乃至S7における場合とそれ
ぞれ同様の処理が行われる。なお、ステップS27で
は、KSOM上の実際のノードの他、位相近傍に対応す
る範囲内にある仮想ノードについても、式(8)にした
がった更新が行われる。
【0097】なお、この場合、仮想ノードの代表ベクト
ルも記憶する必要があるので、KSOM記憶部14の記
憶容量は、図7の処理を行う場合に比較して約9倍とな
る。
【0098】以上の処理により得られたKSOMをコー
ドブックとして用いたときの音声認識率と量子化誤差と
の実験結果を、表5に示す。
【0099】
【表5】
【0100】表3と表5とを比較して分かるように、図
12の処理により得られたKSOMをコードブックとし
て用いた方が、KSOM学習処理(図6の処理)により
得られたKSOMをコードブックとして用いる場合よ
り、量子化誤差が小さくなっている。これは、上述した
ように、コードブックから得られるラベルの数、即ち、
コードベクトルの数が9倍になっていることに起因す
る。また、学習済みデータについては、図12の処理に
より得られたKSOMをコードブックとして用いた方
が、KSOM学習処理により得られたKSOMをコード
ブックとして用いる場合より、音声認識率が向上してい
る。なお、未学習データについては、音声認識率が若干
低下しているが、これは、コードベクトルの数が9倍に
なったために、そのように増加したコードベクトルに対
応するラベルに対して、HMMの学習量が相対的に減少
し、充分な学習が行われなかったためであると考えられ
る。
【0101】ここで、例えば、上述したように、あるノ
ードについて、そのノードと、周辺のノードとの間に、
仮想ノードを想定する場合においては、KSOMに配列
されたノードのうち、その境界上のノード(端にあるノ
ード)の外側方向については、実際のノードがないた
め、仮想ノードの初期値を設定することができない。そ
こで、境界のノードの周辺に想定される、境界の外側方
向の仮想ノードについては、例えば、次のようにして初
期値を設定する。
【0102】即ち、図13は、KSOMの左下の境界部
分を示している。
【0103】同図において、○印で示す部分が、KSO
Mに配列されている実際のノード(実在するノード)を
示しており、また、斜線を付した○印で示す部分は、実
際のノードのうちの、KSOMの境界上のノードを示し
ている。
【0104】KSOMの境界上のノードについては、同
図に×印で示すように、その外側方向にも、境界上のノ
ードに隣接するように、ノードが連続して仮に存在する
ものとし、そのような仮のノードと、境界上のノードと
の間に、上述した場合と同様にして、仮想ノードを想定
する。そして、この場合、その仮想ノードの初期値は、
次のように設定する。
【0105】即ち、仮のノードの代表ベクトルを、KS
OMの境界に対して線対称の位置にあるKSOM上のノ
ードの代表ベクトルに設定する。具体的には、図13に
おいて、仮のノードa’,b’,c’,d’,e’,
f’,g’,c’’,c’’’の代表ベクトルを、KS
OM上のノードa,b,c,d,e,f,g,c,cの
代表ベクトルにそれぞれ設定する。そして、仮のノード
と、境界上のノードとの間に想定した仮想ノードの初期
値を、図12で説明した場合と同様にして求める。
【0106】なお、上述の場合においては、KSOM上
のノードどうしの間に、1つの仮想ノードを想定するよ
うにしたが、2以上の仮想ノードを想定することも可能
である。
【0107】次に、上述の場合においては、KSOM上
のノードの周辺に8の仮想ノードを想定し、最終的な勝
者ノードを決定するようにしたが、その他、例えば、K
SOM上の仮勝者ノードの周辺に、1の仮想ノードを動
的に想定し、その仮想ノードを、学習サンプルとの距離
が最も短くなるような位置に移動させ、その位置におけ
る仮想ノードを、仮勝者ノードに代えて、最終的な勝者
ノードとすることも可能である。
【0108】即ち、例えば、図14に示すように、仮勝
者ノード(同図において、斜線を付した○印で示す)の
決定後、その仮勝者ノードと、その左上、左、左下、
上、下、右上、右、右下の方向に隣接する8のノードそ
れぞれとの間を、微小幅Δ単位で移動する仮想ノードを
想定し、各位置において、その仮想ノードと、学習サン
プルとの間の距離を計算する。そして、その距離を最も
短くする位置に想定された仮想ノードを、仮勝者ノード
(KSOM上に実在するノード)に代えて、KSOM上
に配列し、最終的な勝者ノードとする。
【0109】なお、仮勝者ノードの代表ベクトルをVa
と、その仮勝者ノードに隣接するノードの代表ベクトル
をVbと、それぞれする場合において、仮想ノードが、
仮勝者ノードとそれに隣接するノードとの間を、r:1
−rに内分する位置に想定されているとき(rは、微小
幅△に対応する単位で変化する、1未満の正の実数)、
その仮想ノードの代表ベクトルは、例えば、rVa
(1−r)Vbとして、学習サンプルとの距離が計算さ
れる。
【0110】また、KSOM上の境界のノードが仮勝者
ノードとされた場合における仮想ノードの設定は、例え
ば、図13で説明したようにして行われる。
【0111】このようにして最終的に決定される勝者ノ
ードは、学習サンプルをベクトル量子化したときの量子
化誤差を最小にするものであり、従って、上述の手法
は、一種の最適化探索法であると言うことができる。
【0112】ここで、以上のようにして勝者ノードを決
定して学習を行うことにより得られたKSOMをコード
ブックとして用いた場合の音声認識率と量子化誤差との
実験結果を、表6に示す。
【0113】
【表6】
【0114】以上のように、KSOMを、多次元のベク
トルを、より低次元のベクトルに非線形写像するクラス
タリングとしてのベクトル量子化のコードブックに用い
る場合(上述した実施の形態では、多次元のベクトル
が、スカラー量であるラベルに写像されるが、本発明
は、多次元のベクトルを、スカラー量(スカラー量は1
次元のベクトルと考えることができる)を含めた、より
次数の少ないベクトルに写像することも可能である)、
位相近傍を利用することで、高速学習が可能となる。
【0115】さらに、KSOMの構造から、学習性能を
改善し、また、演算量も低減することができる。
【0116】以上、本発明を、音声認識装置に適用した
場合について説明したが、本発明は、その他、例えば、
画像認識などを行うパターン認識装置や、画像圧縮装
置、自律型学習ロボットなどでベクトル量子化を行う場
合に適用可能である。
【0117】なお、本実施の形態では、HMM法により
音声認識を行うようにしたが、用いる音声認識アルゴリ
ズムは、HMM法に限定されるものではない。
【0118】また、本実施の形態では、音声の特徴ベク
トルとして、フィルタバンクの出力およびその差分値を
用いるようにしたが、音声から抽出する特徴量は、これ
に限定されるものではない。
【0119】
【発明の効果】請求項1に記載のコードブック作成装置
および請求項11に記載のコードブック作成方法によれ
ば、コホーネンの自己組織化特徴地図に配列されたノー
ドそれぞれと、学習サンプルとの距離が算出され、学習
サンプルとの距離を最も短くするノードである勝者ノー
ドが検出される。そして、勝者ノードを含む所定のノー
ドに割り当てられたベクトルが更新され、その結果得ら
れる自己組織化特徴地図が、ノードに割り当てられたベ
クトルをコードベクトルとするコードブックとされる。
従って、コードブックを高速で作成することが可能とな
る。
【0120】請求項12に記載のベクトル量子化装置お
よび請求項13に記載のベクトル量子化方法によれば、
コードブックが、コホーネンの自己組織化特徴地図に配
列されたノードそれぞれと、学習サンプルとの距離を算
出し、学習サンプルとの距離を最も短くするノードであ
る勝者ノードを検出し、勝者ノードを含む所定のノード
に割り当てられたベクトルを更新することにより得られ
る自己組織化特徴地図のノードに割り当てられたベクト
ルをコードベクトルとするものとされている。従って、
誤差の少ないベクトル量子化を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。
【図2】2次元のKSOMを示す図である。
【図3】HMMを説明するための図である。
【図4】HMMの出力確率を示す図である。
【図5】HMM法による音声認識を説明するための図で
ある。
【図6】KSOMをコードブックとするための学習装置
の一実施の形態の構成例を示すブロック図である。
【図7】図6の学習装置の処理を説明するためのフロー
チャートである。
【図8】位相近傍を説明するための図である。
【図9】学習レートを示す図である。
【図10】図6の学習装置の処理を説明するためのフロ
ーチャートである。
【図11】仮想ノードの設定方法を説明するための図で
ある。
【図12】図6の学習装置の処理を説明するためのフロ
ーチャートである。
【図13】KSOMの境界上のノードについての仮想ノ
ードの設定方法を説明するための図である。
【図14】仮想ノードの設定方法を説明するための図で
ある。
【符号の説明】
1 マイク, 2 音響分析部, 3 ベクトル量子化
部, 4 認識部,11 距離算出部(距離算出手
段), 12 勝者ノード決定部(勝者ノード検出手
段), 13 更新部(更新手段), 14 KSOM
記憶部

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 ベクトル量子化に用いるコードブックを
    作成するコードブック作成装置であって、 コホーネンの自己組織化特徴地図に配列されたノードそ
    れぞれと、学習サンプルとの距離を算出する距離算出手
    段と、 前記学習サンプルとの距離を最も短くする前記ノードで
    ある勝者ノードを検出する勝者ノード検出手段と、 前記勝者ノードを含む所定の前記ノードに割り当てられ
    たベクトルを更新する更新手段とを備え、 前記更新手段による更新の結果得られる前記自己組織化
    特徴地図を、前記ノードに割り当てられたベクトルをコ
    ードベクトルとする前記コードブックとすることを特徴
    とするコードブック作成装置。
  2. 【請求項2】 前記更新手段は、前記勝者ノードから所
    定の距離の範囲である位相近傍内に位置する前記ノード
    に割り当てられたベクトルを更新することを特徴とする
    請求項1に記載のコードブック作成装置。
  3. 【請求項3】 前記位相近傍は、前記更新手段による更
    新の繰り返し回数の増加とともに狭くされることを特徴
    とする請求項2に記載のコードブック作成装置。
  4. 【請求項4】 前記学習サンプルを表すベクトルをA
    と、前記更新手段による更新の繰り返し回数をtと、前
    記ノードに割り当てられたベクトルであって、前記更新
    手段によるt回目の更新の対象となっているものをB
    (t)と、前記繰り返し回数tの増加にしたがって減少
    する、1未満の非負の関数をη(t)と、それぞれする
    とき、 前記更新手段は、前記ノードに割り当てられたベクトル
    B(t)を、式 B(t+1)=B(t)+η(t)(A−B(t)) にしたがって、ベクトルB(t+1)に更新することを
    特徴とする請求項1に記載のコードブック作成装置。
  5. 【請求項5】 前記更新手段は、関数η(t)が0とな
    るまで更新を繰り返すことを特徴とする請求項4に記載
    のコードブック作成装置。
  6. 【請求項6】 前記自己組織化特徴地図に配列された前
    記ノードそれぞれについて、そのノードとの距離が他の
    ノードよりも短い前記学習サンプルのセントロイドベク
    トルを、コードブックのコードベクトルとすることを特
    徴とする請求項1に記載のコードブック作成装置。
  7. 【請求項7】 前記距離算出手段は、前記自己組織化特
    徴地図に配列されたノードどうしの間に仮想的なノード
    を想定し、その仮想的なノードについても、前記学習サ
    ンプルとの距離を算出することを特徴とする請求項1に
    記載のコードブック作成装置。
  8. 【請求項8】 前記距離算出手段は、前記自己組織化特
    徴地図に配列されたノードそれぞれと、学習サンプルと
    の距離を算出した後、前記勝者ノード検出手段により前
    記勝者ノードが検出されてから、その勝者ノードについ
    てのみ前記仮想的なノードを想定して、前記学習サンプ
    ルとの距離を算出し、 前記勝者ノード検出手段は、前記自己組織化特徴地図に
    配列されたノードから検出した前記勝者ノードと、前記
    距離算出手段により前記学習サンプルとの距離が算出さ
    れた前記仮想的なノードとの中から、最終的な前記勝者
    ノードを検出することを特徴とする請求項7に記載のコ
    ードブック作成装置。
  9. 【請求項9】 前記距離算出手段は、前記自己組織化特
    徴地図に配列されたノードどうしの間を、所定の比で内
    分する位置に、前記仮想的なノードを想定することを特
    徴とする請求項7に記載のコードブック作成装置。
  10. 【請求項10】 前記距離算出手段は、前記自己組織化
    特徴地図に配列されたノードどうしの間に、前記仮想的
    なノードを動的に想定することを特徴とする請求項7に
    記載のコードブック作成装置。
  11. 【請求項11】 ベクトル量子化に用いるコードブック
    を作成するコードブック作成方法であって、 コホーネンの自己組織化特徴地図に配列されたノードそ
    れぞれと、学習サンプルとの距離を算出し、 前記学習サンプルとの距離を最も短くする前記ノードで
    ある勝者ノードを検出し、 前記勝者ノードを含む所定の前記ノードに割り当てられ
    たベクトルを更新することを、所定の回数繰り返し、 その結果得られる前記自己組織化特徴地図を、前記ノー
    ドに割り当てられたベクトルをコードベクトルとする前
    記コードブックとすることを特徴とするコードブック作
    成方法。
  12. 【請求項12】 ベクトルを、所定のコードブックを用
    いてベクトル量子化するベクトル量子化装置であって、 前記コードブックは、 コホーネンの自己組織化特徴地図に配列されたノードそ
    れぞれと、学習サンプルとの距離を算出し、 前記学習サンプルとの距離を最も短くする前記ノードで
    ある勝者ノードを検出し、 前記勝者ノードを含む所定の前記ノードに割り当てられ
    たベクトルを更新することを、所定の回数繰り返し、 その結果得られる前記自己組織化特徴地図の前記ノード
    に割り当てられたベクトルをコードベクトルとするもの
    であることを特徴とするベクトル量子化装置。
  13. 【請求項13】 ベクトルを、所定のコードブックを用
    いてベクトル量子化するベクトル量子化方法であって、 前記コードブックは、 コホーネンの自己組織化特徴地図に配列されたノードそ
    れぞれと、学習サンプルとの距離を算出し、 前記学習サンプルとの距離を最も短くする前記ノードで
    ある勝者ノードを検出し、 前記勝者ノードを含む所定の前記ノードに割り当てられ
    たベクトルを更新することを、所定の回数繰り返し、 その結果得られる前記自己組織化特徴地図の前記ノード
    に割り当てられたベクトルをコードベクトルとするもの
    であることを特徴とするベクトル量子化方法。
JP9283309A 1997-10-16 1997-10-16 コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法 Withdrawn JPH11122114A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9283309A JPH11122114A (ja) 1997-10-16 1997-10-16 コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9283309A JPH11122114A (ja) 1997-10-16 1997-10-16 コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法

Publications (1)

Publication Number Publication Date
JPH11122114A true JPH11122114A (ja) 1999-04-30

Family

ID=17663797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9283309A Withdrawn JPH11122114A (ja) 1997-10-16 1997-10-16 コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法

Country Status (1)

Country Link
JP (1) JPH11122114A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006500654A (ja) * 2002-09-20 2006-01-05 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システムにおける適応型問題判別及びリカバリー
JP2006162898A (ja) * 2004-12-06 2006-06-22 Sony Corp 学習装置および学習方法、認識装置および認識方法、生成装置および生成方法、並びにプログラム
JP2009073465A (ja) * 2007-08-28 2009-04-09 Fuji Heavy Ind Ltd 安全運転支援システム
JP2009296278A (ja) * 2008-06-04 2009-12-17 Nippon Telegr & Teleph Corp <Ntt> 代表ベクトル生成方法及び装置及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006500654A (ja) * 2002-09-20 2006-01-05 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システムにおける適応型問題判別及びリカバリー
JP2006162898A (ja) * 2004-12-06 2006-06-22 Sony Corp 学習装置および学習方法、認識装置および認識方法、生成装置および生成方法、並びにプログラム
JP4639784B2 (ja) * 2004-12-06 2011-02-23 ソニー株式会社 学習装置および学習方法、並びにプログラム
JP2009073465A (ja) * 2007-08-28 2009-04-09 Fuji Heavy Ind Ltd 安全運転支援システム
JP2009296278A (ja) * 2008-06-04 2009-12-17 Nippon Telegr & Teleph Corp <Ntt> 代表ベクトル生成方法及び装置及びプログラム

Similar Documents

Publication Publication Date Title
US5956679A (en) Speech processing apparatus and method using a noise-adaptive PMC model
JP2795058B2 (ja) 時系列信号処理装置
JP3529049B2 (ja) 学習装置及び学習方法並びにロボット装置
US5165007A (en) Feneme-based Markov models for words
Rigoll Maximum mutual information neural networks for hybrid connectionist-HMM speech recognition systems
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JPH0535299A (ja) 音声符号化方法及び装置
JPH0934486A (ja) 音声認識方法、情報形成方法、音声認識装置および記録媒体
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
KR100832556B1 (ko) 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
Rigoll et al. A new hybrid system based on MMI-neural networks for the RM speech recognition task
JPH11122114A (ja) コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法
US6718299B1 (en) Information processing apparatus for integrating a plurality of feature parameters
Abraham et al. Articulatory Feature Extraction Using CTC to Build Articulatory Classifiers Without Forced Frame Alignments for Speech Recognition.
JP3589044B2 (ja) 話者適応化装置
Debyeche et al. A new vector quantization approach for discrete HMM speech recognition system
Mohanty et al. Application of deep learning approach for recognition of voiced Odia digits
EP0238693B1 (en) Speech recognition system and method using statistical models for words
Eng et al. Malay speech recognition using self-organizing map and multilayer perceptron
Debyeche et al. Improved Vector Quantization Approach for Discrete HMM Speech Recognition System.
JP2000181486A (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP2002169586A (ja) 音声及び画像の合成モデル生成装置、音声及び画像の合成モデルのための環境適応化装置、並びに音声認識装置
Su et al. Efficient use of DNN bottleneck features in generalized variable parameter HMMs for noise robust speech recognition.
Rigoll et al. Large vocabulary speaker-independent continuous speech recognition with a new hybrid system based on MMI-neural networks.

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050104