JPH06348299A - 音素認識装置および音素認識方法 - Google Patents

音素認識装置および音素認識方法

Info

Publication number
JPH06348299A
JPH06348299A JP5164284A JP16428493A JPH06348299A JP H06348299 A JPH06348299 A JP H06348299A JP 5164284 A JP5164284 A JP 5164284A JP 16428493 A JP16428493 A JP 16428493A JP H06348299 A JPH06348299 A JP H06348299A
Authority
JP
Japan
Prior art keywords
phoneme
neural network
recognition
classification
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5164284A
Other languages
English (en)
Inventor
Yoshimune Konishi
吉宗 小西
Toshifumi Kato
利文 加藤
Yoshihiko Tsuzuki
嘉彦 都築
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
NipponDenso Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NipponDenso Co Ltd filed Critical NipponDenso Co Ltd
Priority to JP5164284A priority Critical patent/JPH06348299A/ja
Publication of JPH06348299A publication Critical patent/JPH06348299A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】入力音が極めて効率よく計算、分析され、精度
よく音素認識されること。 【構成】図1は本発明の音素認識装置を示す構成図で、
入力音の分析手段2、セグメンテーション(SG)・大分類
ニューラルネットワーク(NN) 3、SG・大分類認識手段
4、細分類選択・駆動手段5、細分類NN 6、細分類認識
手段7、認識音素8とから成る。入力音の音素を認識す
るため、まず大分類NNのみを駆動してSGと大分類認識を
同時に行い、大分類されたSG区間について細分類認識の
ために必要な細分類NNのみを選択・駆動して最終的な細
かい音素認識を行う構成とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音素抽出手段により入力
音声を音素単位で認識する音声認識装置に関し、特にニ
ューラルネットワーク(神経回路網)を用いた音素認識
装置に関するものであって、システムのボイスコマンド
入力装置等に用いられる。
【0002】
【従来の技術】近年、音声入力を音素単位で認識するこ
とにより、単語音声のみならず、連続した文音声を認識
可能とする技術の開発が多数試みられている。特に、ニ
ューラルネットワークを用いて音素認識する従来方式と
して、例えば特開平3-120600号公報に記載のものがあ
る。これは、図6(a) に示すような入力層91を共通と
したTDNN(Time Delay Neural Network )と呼ばれ
る多数のニューラルネットワーク92a〜92iと、こ
れを統合するニューラルネットワーク93と、24音素
を識別出力できる出力層94とから成る、全体ニューラ
ルネットワークを図6(b) に示すように1フレーム周期
で時間的にシフトさせながら駆動し、その出力値時系列
によって入力音声中の音素(音韻)をスポッティング
(特定)し、認識しようとするものである。
【0003】
【発明が解決しようとする課題】しかしながら、前述ニ
ューラルネットワークは、極めて大規模であり、一般に
1フレームにつき10msec前後の周期毎に行うニューラル
ネットワークの計算・処理量は極めて膨大であり、1秒
以内のリアルタイムで認識応答させようとしても困難で
ある。これを達成するには大規模ニューラルネットワー
クを構築可能な極めて小型のニューロンチップのような
ハードウエア素子を必要とするが、これはいまだ開発段
階にあり、入手は不可能である。従って現段階では、例
えば高速浮動小数点演算素子を複数個搭載したアクセラ
レータボードを多数枚用いて、分散・並列処理させると
いった、極めて大規模なコンピュータハードウエアが必
要となるという問題があった。本発明は上記問題点に鑑
みてなされたものであり、音素抽出手段としてニューラ
ルネットワークを用いた音素認識方式において、認識性
能が同等以上でかつ音素認識のための計算・処理量が少
なく、よって必要とするハードウエア規模が少なくて済
む、より実用性の高い音素認識装置・方法を提供するこ
とを目的とするものである。
【0004】
【課題を解決するための手段】上記の課題を解決するた
め第一発明の構成は、ニューラルネットワークを用いた
音素認識装置において、入力音を所定のフレーム周期ご
とに分析して複数個の特徴パラメータを求める分析手段
と、前記特徴パラメータを時間的にフレーム単位でずら
しながら、所定フレーム数分とった特徴パラメータ系列
が入力されて、該入力音をセグメンテーションすると同
時に、音素の大分類認識を行うのに必要な出力値を得る
セグメンテーション・大分類ニューラルネットワーク
と、同じく前記特徴パラメータ系列が入力されて音素の
細分類認識を行うのに必要な出力値を得る複数個の細分
類ニューラルネットワークより成る細分類ニューラルネ
ットワーク群と、前記セグメンテーション・大分類ニュ
ーラルネットワークの出力値をもとに該入力音をセグメ
ンテーションすると同時に、音素の大分類を行うセグメ
ンテーション・大分類認識手段と、このセグメンテーシ
ョン・大分類結果に基づいて、該当する細分類ニューラ
ルネットワーク群より逐次選択すると同時に、セグメン
テーションされた区間について駆動する細分類ニューラ
ルネットワーク選択・駆動手段と、前記細分類ニューラ
ルネットワーク群の出力値をもとに該入力音に対応した
認識音素列を得る細分類認識手段とから構成されること
を特徴とする。
【0005】また第二発明の構成は、ニューラルネット
ワークを用いた入力音の音素認識方法において、該入力
音を所定のフレーム周期ごとに分析して複数個の該フレ
ームの特徴パラメータを求め、前記特徴パラメータを時
間的にフレーム単位でずらしながら、所定フレーム数分
とった特徴パラメータ系列をセグメンテーション・大分
類音素抽出手段に入力して該入力音をセグメンテーショ
ンすると同時に音素の大分類認識を行い、該セグメンテ
ーション・大分類認識の結果に基づいて、該当する細分
類音素抽出手段を逐次選択すると同時に、セグメンテー
ションされた区間について前記細分類音素抽出手段を駆
動し、当該区間の前記特徴パラメータ系列を基に音素の
細分類認識を行い、前記細分類認識の出力値をもとに該
入力音に対応した認識音素列を得ることを特徴とする。
【0006】
【作用】入力音は、まず分析手段において音素認識装置
で分析可能な信号系列に変換され、次にその信号系列デ
ータ全体が大きい特徴に分類され、それによって把握さ
れた特徴を基にしてさらに細かく分類されて、個々の音
素に特定される。
【0007】
【発明の効果】上記構成により、本発明においては、セ
グメンテーション・大分類ニューラルネットワークのみ
を,入力音、とくに入力音声中の全区間に渡って駆動
し、また大分類されたセグメンテーション区間につい
て、細分類ニューラルネットワーク群の該当する一つの
細分類ニューラルネットワークが逐次選択・駆動される
のみであることから、従来の、すべてのニューラルネッ
トワークを全区間駆動して音素認識を行う場合に比べ
て、ニューラルネットワークの計算、処理量は大幅に低
減され、必要とするハードウエア規模も小さくて済み、
より実用性の高い音素を認識単位とした音声認識装置の
実現を可能にするという優れた効果がある。またこの音
素認識方法を採用することにより、効率的な音素認識が
実現する。
【0008】
【実施例】以下、本発明を具体的な実施例に基づいて説
明する。図1は本発明の一実施例における音素認識方式
の全体を示す構成図である。まず分析手段2に対して入
力音声1が入力される。分析手段2では入力音声1を1
フレーム10msec周期ごとに20msecの区間で15次のLP
C(線型予測)分析を行い、 線型予測係数α12,…
… ,α15と残差パワーEを求める。そしてこのデータに
よりパワー項C0 を含むケプストラム係数Cn (0≦n
≦15)を以下に示す数1式および数2式で算出する。
【数1】
【数2】C0 = log E
【0009】続いて、このケプストラム係数Cn を−1
から+1までの範囲内に正規化して特徴パラメータPn
( 0≦n≦15)とし、この特徴パラメータPn をフレー
ムfごとに求めた特徴パラメータPnf系列を得る(分析
手段2)。そして、この特徴パラメータPnfを所定フレ
ーム数m分Pnf-m〜Pnfをセグメンテーション・大分類
ニューラルネットワーク3に入力し、その出力としてO
Vf' , OSf' , ……,OUf' を得る。
【0010】ここで、ニューラルネットワーク3は図2
(a) に示すような多層パーセプトロン型ニューラルネッ
トワークで、入力層21は所定フレーム数分の特徴パラ
メータ数に等しいニューロン数よりなり、中間1層2
2、中間2層23、出力層24の4層構造で、各層のニ
ューロンは前後層のニューロンと全結合した構造をして
いる。
【0011】また、音素を図3の様に大分類し、その大
分類音素記号を、V,S,Z,P,M,B,Uの7つと
する。この意味は例えば母音aiueoの5つの音素は
ひとまとめにVとして大きく分類して取り扱うというこ
とである。その他各子音についても同様に大きく分類し
ておく。そして、図2(a) のニューラルネットワークの
出力層24は、この大分類音素V〜Uに対応した出力O
V , OS , ……, OUを得るための出力ニューロンより
構成されている。さらにこのニューラルネットワークは
母音Vの特徴パラメータ系列が入力された時には、出力
V が1で、その他の出力が0となるように、また、大
分類子音Sの特徴パラメータ系列が入力された時には、
出力OS が1で、その他の出力が0となるように、同時
に全ての音素および無音データによって予め内部の重み
係数が学習されている。学習方法は多層パーセプトロン
型ニューラルネットワークでよく用いられる周知のエラ
ーバックプロパゲーション法またはその他の方法により
行う。
【0012】入力される特徴パラメータ系列のフレーム
位置と、出力値を得るフレーム位置との関係は、図2
(b) に示すように、入力フレーム幅のほぼ中間フレーム
位置で出力値を得るように設定されている。これは着目
しているフレームにおける抽出したい音素の特徴は、そ
の音素の前後の音素との絡みがあると考えられるので前
後のフレームも調べることに相当する。本実施例では入
力フレーム数を10フレームにとり、最新の入力フレー
ムをfとした場合、f−4フレーム目に出力値が得られ
るようにしており、前述のニューラルネットワーク3の
出力フレームf’はf−4を示している。
【0013】図1において、このようにして得られたセ
グメンテーション・大分類ニューラルネットワーク3の
出力値時系列に対して、セグメンテーション・大分類認
識手段4で、フレームごとの各出力値を所定のしきい値
と比較し、そのしきい値を越えたもの、あるいは最大出
力となったものを選択して、その出力値に対応する大分
類音素記号に置き換える。それで各フレームごとの大分
類音素記号列が得られる。さらに、この大分類音素記号
列に対してスムージング・整形処理を行ってセグメンテ
ーション・大分類記号列を得る。つまり、時系列での同
じ音素がまとまっていることを明確にするセグメント化
(区分)が行われ、各区分の中身は音素が大雑把に区分
けされている訳である。
【0014】以上のようなセグメンテーション・大分類
方式の音素認識方式を用いて、入力音声1の例として
「ポプラ並木(POPURANAMIKI)」を分析し
た結果を図4に示す。まず、入力音声の音声波形1a
を、前述したように10msecごとにLPC分析して、得ら
れた特徴パラメータ系列の10フレーム分が1フレームず
つシフトされながらニューラルネットワークに入力さ
れ、このときのフレームごとの出力値(0〜1の規格値
範囲)が図4の31〜37として示されている。この各
出力値は各々のしきい値31a〜37aと比較され、し
きい値を越えた出力について、対応する大分類音素記号
に置き換えられ、出力選択後の大分類音素列41として
得られている。ここで、しきい値31a〜37aは実験
的に求められた値である。また各フレームにおいて、い
ずれの出力もしきい値を越えなかった場合を*印にて示
している。
【0015】一般的に、ある音素から音素に遷移する場
合、人間の発生器官は急激に変化することができず、い
ずれの音素とも特定しがたい過渡的な部分を伴って発声
されるものであるが、この*印フレームがそのような過
渡的な部分を示すものである。また、音声の語尾には呼
気音と呼ばれるものを伴うことが多いが、この呼気音部
も*印にて検出されている。ここで、前後は他の同一音
素で、一箇所だけ単発的に生じているような、大分類音
素列41中の丸印で示したMやBは、前後の音素と同じ
ものとみなして修正する等のスムージング・整形処理を
行うことによって、セグメンテーション・大分類音素4
2を得ている。即ち、この大分類音素列42を見てわか
るように、入力音声「ポプラ並木」が大分類音素記号
U,P,V等の同一記号の並びによって音素区間が明確
に区分(セグメンテーション)されると同時に音素の大
分類認識が行われている。
【0016】さらにこのセグメンテーション・大分類の
結果を基に、図1に示す細分類ニューラルネットワーク
選択・駆動手段5は、大分類音素記号で示される各フレ
ーム区間をさらに細分類認識するための細分類ニューラ
ルネットワーク6a〜6fより成る細分類ニューラルネ
ットワーク群6の中から、対応する細分類ニューラルネ
ットワークを選択し、対応するフレーム区間についての
み、大分類ニューラルネットワークと同様に駆動、即
ち、該当する区間の特徴パラメータを入力してニューラ
ルネットワークの計算、処理を行わせる。つまり、図4
の大分類音素記号列42の、例えばPと大分類された最
初の区間は細分類ニューラルネットワークP(図1の6
d)を選択し、対応するフレームの特徴パラメータを入
力して細分類ニューラルネットワークPの出力値を得る
ように駆動する。
【0017】ここで、細分類ニューラルネットワーク6
a〜6fは、一例として図5に示した、母音Vを細分類
するニューラルネットワークVで示すように、図2(a)
に示すセグメンテーション・大分類ニューラルネットワ
ーク3と同種の構造の多層パーセプトロン型ニューラル
ネットワークを用いている。従って図3の一覧からわか
るように、細分類の出力層の数は各ニューラルネットワ
ークによって異なり、例えば大分類音素記号Zの細分類
では、出力はOz , Oh の2つしかない。
【0018】そして、図1に示す細分類認識手段7は、
前述したセグメンテーション・大分類認識手段4と同様
にフレームの各出力値(この場合Op , Ot , Ok )と
各々のしきい値を越えたもの、あるいは最大出力となっ
たものを選択してその出力に対応した細分類音素記号6
1(この場合pppt……)を得、さらにこのp区間内
で最多出現回数のpをこの区間の最終的な認識音素8と
して出力する。以下同様に、次のVと大分類された区間
は細分類ニューラルネットワークV(図1の6a)を選
択・駆動し、認識音素Oを出力する、という処理を行っ
てゆき、入力音声に対応した認識音素列8を得るという
ものである。
【0019】なお、半母音音素yおよびwは母音vとし
て大分類し、例えばその細分類認識結果が「iea」ま
たは「ea」といった連続母音列として出現した場合
は、これを「ya」と認識出力し、また他に「oa」ま
たは「ua」といった連続母音として出現した場合は、
これを「wa」として認識出力する、というような現実
に対応させたルール処理を図1の細分類認識手段7にて
行うようにしている。また、無音のデータに対しては細
分類するまでもないので、大分類ニューラルネットワー
クの出力層24より得られた出力OU のしきい値以上の
結果をそのまま保持し、細分類データに無音時間のデー
タとして付加される。
【0020】なお、上記実施例は本発明の一実施例を示
すものであり、本発明はこれに限定されるものではな
い。例えば、特徴パラメータとしてケプストラム係数以
外のものとして、所定周波数のスペクトル相当値を用い
ても良い。フレーム数もフレーム周期も必要とするシス
テムによって自由に設定、変更できる。個々のニューラ
ルネットワークとしても全結合型の多層パーセプトロン
以外の、例えば前述TDNN、あるいは他の構造のニュ
ーラルネットワークを用いても良い。
【0021】以上説明したように、音素を認識するため
のニューラルネットとして、まず大分類ニューラルネッ
トワークを駆動してセグメンテーションと大分類認識を
同時に行い、大分類されたセグメンテーション区間につ
いて細分類認識のために必要な細分類ニューラルネット
ワークのみを選択・駆動して最終的な細かい音素認識を
行う構成とすることにより、計算・処理量の大きいニュ
ーラルネットワーク処理が極めて効率よく行えると同時
に、精度よく音素認識されることがわかる。
【図面の簡単な説明】
【図1】本発明の音素認識方式の全体のブロック構成
図。
【図2】大分類のニューラルネットワークの構成図。
【図3】大分類音素記号の対応図。
【図4】実際の分析しデータ一覧図。
【図5】細分類のニューラルネットワークの構成図。
【図6】従来の音素認識方式を示す構成図。
【符号の説明】
1 入力音声(被分析音声データ) 2 分析手段 3 セグメンテーション・大分類ニューラルネットワー
ク(セグメンテーション・大分類音素抽出手段) 4 セグメンテーション・大分類認識手段 5 細分類ニューラルネットワーク選択・駆動手段 6 細分類ニューラルネットワーク群(細分類音素抽出
手段) 7 細分類認識手段 8 認識音素列(細分類結果、分析結果データ) 21 入力層 22 中間1層 23 中間2層 24 出力層 31〜37 セグメンテーション・大分類ニューラルネ
ットワーク出力 41、42 セグメンテーション・大分類結果 61 細分類ニューラルネット出力選択結果

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】ニューラルネットワークを用いた音素認識
    装置において、 入力音を所定のフレーム周期ごとに分析して複数個の特
    徴パラメータを求める分析手段と、 前記特徴パラメータを時間的にフレーム単位でずらしな
    がら、所定フレーム数分とった特徴パラメータ系列が入
    力されて、該入力音をセグメンテーションすると同時
    に、音素の大分類認識を行うのに必要な出力値を得るセ
    グメンテーション・大分類ニューラルネットワークと、 同じく前記特徴パラメータ系列が入力されて音素の細分
    類認識を行うのに必要な出力値を得る複数個の細分類ニ
    ューラルネットワークより成る細分類ニューラルネット
    ワーク群と、 前記セグメンテーション・大分類ニューラルネットワー
    クの出力値をもとに該入力音をセグメンテーションする
    と同時に、音素の大分類を行うセグメンテーション・大
    分類認識手段と、 このセグメンテーション・大分類結果に基づいて、該当
    する細分類ニューラルネットワーク群より逐次選択する
    と同時に、セグメンテーションされた区間について駆動
    する細分類ニューラルネットワーク選択・駆動手段と、 前記細分類ニューラルネットワーク群の出力値をもとに
    該入力音に対応した認識音素列を得る細分類認識手段と
    から構成されることを特徴とする音素認識装置。
  2. 【請求項2】前記セグメンテーション・大分類ニューラ
    ルネットワークは単一のニューラルネットワークであっ
    て、あらかじめ無音を含むすべての音素について同時に
    学習させてあることを特徴とする請求項1記載の音素認
    識装置。
  3. 【請求項3】ニューラルネットワークを用いた入力音の
    音素認識方法において、 該入力音を所定のフレーム周期ごとに分析して複数個の
    該フレームの特徴パラメータを求め、 前記特徴パラメータを時間的にフレーム単位でずらしな
    がら、所定フレーム数分とった特徴パラメータ系列をセ
    グメンテーション・大分類音素抽出手段に入力して該入
    力音をセグメンテーションすると同時に音素の大分類認
    識を行い、 該セグメンテーション・大分類認識の結果に基づいて、
    該当する細分類音素抽出手段を逐次選択すると同時に、
    セグメンテーションされた区間について前記細分類音素
    抽出手段を駆動し、 当該区間の前記特徴パラメータ系列を基に音素の細分類
    認識を行い、 前記細分類認識の出力値をもとに該入力音に対応した認
    識音素列を得ることを特徴とする音素認識方法。
JP5164284A 1993-06-07 1993-06-07 音素認識装置および音素認識方法 Pending JPH06348299A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5164284A JPH06348299A (ja) 1993-06-07 1993-06-07 音素認識装置および音素認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5164284A JPH06348299A (ja) 1993-06-07 1993-06-07 音素認識装置および音素認識方法

Publications (1)

Publication Number Publication Date
JPH06348299A true JPH06348299A (ja) 1994-12-22

Family

ID=15790180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5164284A Pending JPH06348299A (ja) 1993-06-07 1993-06-07 音素認識装置および音素認識方法

Country Status (1)

Country Link
JP (1) JPH06348299A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017027044A (ja) * 2015-07-24 2017-02-02 三星電子株式会社Samsung Electronics Co.,Ltd. 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置
US12051412B2 (en) 2019-02-26 2024-07-30 Preferred Networks, Inc. Control device, system, and control method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017027044A (ja) * 2015-07-24 2017-02-02 三星電子株式会社Samsung Electronics Co.,Ltd. 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置
US12051412B2 (en) 2019-02-26 2024-07-30 Preferred Networks, Inc. Control device, system, and control method

Similar Documents

Publication Publication Date Title
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及***
Schuller et al. Emotion recognition in the noise applying large acoustic feature sets
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN111161715B (zh) 一种基于序列分类的特定声音事件检索与定位的方法
EP0549265A2 (en) Neural network-based speech token recognition system and method
KR20110095314A (ko) 자동 음성-텍스트 변환을 위한 시스템 및 방법
JPH06332497A (ja) ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システム
KR0173923B1 (ko) 다층구조 신경망을 이용한 음소 분할 방법
CN112784730A (zh) 一种基于时域卷积网络的多模态情感识别方法
JPH07506198A (ja) 複合エキスパート
CN111640456A (zh) 叠音检测方法、装置和设备
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
Rani et al. Speech recognition using neural network
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Chetouani et al. Neural predictive coding for speech discriminant feature extraction: The DFE-NPC.
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
Axelsson et al. Real time speech driven face animation
Basu et al. Affect detection from speech using deep convolutional neural network architecture
JPH06348299A (ja) 音素認識装置および音素認識方法
Buscicchio et al. Speech emotion recognition using spiking neural networks
US20180268739A1 (en) Method and system for grading foreign language fluency on the basis of end-to-end technique
Hoseini Persian speech emotion recognition approach based on multilayer perceptron
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
JPH02254498A (ja) 音韻分類記号化装置
JPH0772899A (ja) 音声認識装置