JPH05128286A - ニユーラルネツトワークによるキーワードスポツテイング方式 - Google Patents

ニユーラルネツトワークによるキーワードスポツテイング方式

Info

Publication number
JPH05128286A
JPH05128286A JP3317545A JP31754591A JPH05128286A JP H05128286 A JPH05128286 A JP H05128286A JP 3317545 A JP3317545 A JP 3317545A JP 31754591 A JP31754591 A JP 31754591A JP H05128286 A JPH05128286 A JP H05128286A
Authority
JP
Japan
Prior art keywords
keyword
neural network
learning
keywords
spotting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3317545A
Other languages
English (en)
Inventor
Hidefumi Sawai
秀文 沢井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3317545A priority Critical patent/JPH05128286A/ja
Publication of JPH05128286A publication Critical patent/JPH05128286A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 汎用性の大きなキーワード音声のスポッティ
ング方式について、効果的なニューラルネットワークの
構成法,学習法を確立する。 【構成】 音声入力部5で音声入力されると、特徴抽出
部1でFFT(高速フーリエ変換)などの音声の特徴分
析が行われる。キーワードスポッティングであるため、
特に音声波形パワーによる音声区間の切り出し処理は行
わない。学習モード6においては、キーワードとキーワ
ード以外の音声(雑音を含む)とをニューラルネットワ
ークを用いて識別学習をニューラルネット学習部2で行
う。認識モード7においては、学習済みのニューラルネ
ットワークを用いて、ニューラルネットワーク認識部3
でキーワードのスポッティングを行う。スポッティング
結果をキーワード検出部4で出力する。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、ニューラルネットワークを用い
る音声キーワードスポッティング方式に関する。例え
ば、一般的に、ニューラルネットワークを用いた音声認
識装置に適用されるものである。
【0002】
【従来技術】本発明に係る従来技術を記載した公知文献
として、例えば、「時間遅れ神経回路網による音節スポ
ッティングの検討」(沢井,ワイベル,鹿野 日本音響
学会講演論文集 2-P-11, PP223-224, 1988年10月)が
ある。この文献のものは、時間遅れ神経回路網(Time-D
elay Neural Network:TDNN)と呼ぶニューラルネット
ワークを用いて、日本語中の単音節のスポッティングを
行ったものである。音節例として "BA" を取り上げ、
これと、特に誤り易いと考えられる "DA","GA","
PA","TA","KA" の5音節との識別学習を誤差逆
伝搬法(バックプロパゲーション)を用いて行った。そ
の結果、良好な性能で日本語単語音声中の "BA" をス
ポッティングでき、"BA" 以外の全ての音節を抑制す
ることができた。しかしながら、従来技術においては、
日本語の単音節のスポッティングという非常に限られた
対象についてのみ、ニューラルネットワークが適用され
ていたに過ぎなかった。
【0003】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、汎用性の大きなキーワード音声のスポッティン
グ方式について、効果的なニューラルネットワークの構
成法および学習法を確立すること、また、キーワードを
含む音声が雑音を含む場合についても、ニューラルネッ
トワークの効果的な学習方法を構築することを目的とす
る。すなわち、ニューラルネットワークを用いたキーワ
ードスポッティング方式において、キーワードに対して
キーワード以外の単語は無数に存在するため、効率的な
単語の選定を行う必要がある(これに対して、キーワー
ドに対する音素のminimal pair (1音素のみ異なる単語
を選択する)。また、ニューラルネットワークの規模の
縮少化,学習の容易さ,キーワードとキーワード以外の
単語対の選択の容易さを目的として、1つのキーワード
に対して1つのニューラルネットワークを対応させるこ
と、また、キーワード数が増加した場合の対処法とし
て、一群のキーワードをまとめて1つのニューラルネッ
トワークに統合できれば、よりコンパクトなキーワード
スポッティング方式を実現すること、また、キーワード
音声以外のものとしては、単語音声の外に雑音がある
が、ニューラルネットワークの学習能力を活用して、雑
音を含めたキーワード以外の音声をキーワードと区別す
ること、さらに、ニューラルネットワークの学習方法と
して、一度に雑音の重畳された音声とキーワードとを区
別することは、容易ならざる場合が時に生じるので、最
初は雑音の付加されていないキーワードとそれ以外の単
語対から学習を開始し、徐々に雑音を付加することによ
り安定してニューラルネットの学習を制御することを目
的とする。
【0004】
【構成】本発明は、上記目的を達成するために、(1)
予め定めたキーワードを含む音声波形を入力し、特徴分
析を行う特徴抽出部と、該特徴抽出部により抽出された
特徴量を用いてニューラルネットワークの学習を行うニ
ューラルネット学習部と、該ニューラルネット学習部に
よる学習済みのニューラルネットワークを用いてキーワ
ード認識を行うニューラルネットワークによる認識部
と、該認識部により認識されたキーワードを出力するキ
ーワード検出部とを有し、前記キーワードとキーワード
以外を区別するニューラルネットワークを用いてキーワ
ードスポッティングを行うキーワードスポッティング方
式において、キーワードに対する音素の最少限ペアを持
つ複数単語との対を学習するニューラルネットワークを
用いてキーワードを検出すること、更には、(2)前記
キーワード1つに対してニューラルネットワーク1つを
対応させ、該ニューラルネットワークの出力ユニットの
値 "1" をキーワードに対応させ、"0" をキーワード
以外の単語に対応させて、誤差逆伝搬法(バックプロパ
ゲーション法)を用いて学習すること、更には、(3)
複数のキーワードに対して単一のニューラルネットを用
い、キーワード各々に対する出力ユニットを持つこと、
更には、(4)キーワード以外の単語の外に雑音を重畳
させ、キーワードと雑音の重畳されたキーワード以外の
音声とを識別できるようにニューラルネットを学習する
こと、更には、(5)前記(4)において、前記雑音重
畳を徐々に加えながら遂次的にニューラルネットワーク
の学習を進めていくことを特徴としたものである。以
下、本発明の実施例に基づいて説明する。
【0005】図1は、本発明によるニューラルネットワ
ークによるキーワードスポッティング方式の一実施例を
説明するための構成図で、図中、1は特徴抽出部、2は
ニューラルネット学習部、3はニューラルネットワーク
認識部、4はキーワード検出部、5は音声入力部、6は
学習モード、7は認識モードである。まず、音声入力部
5で音声入力されると、特徴抽出部1でFFT(高速フ
ーリエ変換;Fast Fourier Transform)などの音声の特
徴分析が行われる。キーワードスポッティングであるた
め、特に音声波形パワーによる音声区間の切り出し処理
は行わない。学習モード6においてはキーワードとキー
ワード以外の音声(雑音を含む)とをニューラルネット
ワークを用いて識別学習をニューラルネット学習部2で
行う。認識モード7においては、学習済みのニューラル
ネットワークを用いて、ニューラルネットワーク認識部
3でキーワードのスポッティングを行う。スポッティン
グ結果をキーワード検出部4で出力する。
【0006】図2は、特徴ベクトル空間におけるキーワ
ードとキーワード以外の音声との配置を説明するための
図である。一般に、特徴空間は多次元空間である。21
はキーワードの分布する局所空間,21a〜21gはキ
ーワード以外の音声(雑音を含む)が分布する空間であ
る。22a〜22dはキーワードとキーワード以外とを
識別する超平面である。これは図1のニューラルネット
学習部2で、誤差逆伝搬法(バックプロパゲーション)
により形成される。ここでキーワードを、例えば "θNs
ei(音声)" であるとすれば、キーワード以外の単語と
しては1音素のみが異なる、いわゆるminimal pair(最
少限ペア)の単語(有意味語にこだわる必要はないが、
発声のし易さから有意味語であるのが望ましい)を選択
する。例えば、"θNseN(温泉)" や "KoNsei(混成)"
などである。これらの単語の作成方法としては、ラン
ダムあるいは任意に1音素を入れ替えた単語を人工的に
作成し、これらの中から意味のある語を選択することも
できる。これらのキーワードと1音素のみ異なる単語
は、単語パターン全体の特徴量から成る多次元空間にお
いて、キーワードに隣接する21a〜21gの空間位置
を占める。したがって、キーワードの隣接境界に22
a,22bのような識別境界面が学習により形成されれ
ば、minimal pair以外の全ての単語は自動的にキーワー
ドと識別することが可能となる。これにより、キーワー
ドをキーワード以外の単語と区別して音声中からスポッ
ティングできる。
【0007】図3は、キーワードスポッティング用のニ
ューラルネット(NN)の実施例を示す図で、図中、3
1は入力層、32は中間層、33は出力層(ユニッ
ト)、31aは入力層と中間層の間の結合部、32aは
中間層と出力層の間の結合部である。図では3層のNN
を例に述ベたが、4層以上でも勿論良い。図では出力層
が単一の出力ユニットを持つ場合を示したが、この場合
には、キーワードであれば "1"、キーワード以外であ
れば "0" である。この例では、1個のキーワードに1
つのNN(かつ1つの出力ユニット)を割り当てる場合
である。複数個のキーワード(m個とする)の場合に
は、出力層33中の出力ユニット数はm個となる。この
時は、i番目のキーワードに対しては、
【0008】
【表1】
【0009】のように出力ユニットが発火するように学
習する。キーワード以外に対しては全て0の値を教え
る。
【0010】図4は、キーワードスポッティング方式の
説明図を示したものである。10はキーワードを含む音
声波形、13は音声波形10を分析して得られたFFT
出力、Aは図3に示したキーワードスポッティング用ニ
ューラルネットである。音声の先頭部分からニューラル
ネット3を順にスキャン(走査)していき、出力ユニッ
ト33が発火した時にキーワードの存在が確認できる。
図中では、キーワードの存在区間に来た時に、出力ユニ
ット33が発火していることがわかる。
【0011】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1に対応する効果:キーワード以外の単語
音声としてminimal pairの単語を用いているので、必要
最少限の単語対を構成することにより、ニューラルネッ
トワークの学習量も最少限にでき、また、学習に用いな
かった単語についてもキーワードと区別して自動的にリ
ジェクトすることができる。 (2)請求項2に対応する効果:キーワード1つに対し
てニューラルネットワーク1つを対応させているので、
キーワード数が比較的少ない場合には、ネットワーク規
模の縮少化,学習の容易さ,キーワード以外の単語の選
択の容易さ等を実現できる。 (3)請求項3に対応する効果:キーワード数が比較的
に多い場合には、複数のキーワードを1つのニューラル
ネットワークに統合することにより、全体としてよりコ
ンパクトなニューラルネットワークによるキーワードス
ポッティング装置が実現できる。 (4)請求項4に対応する効果:雑音を含めてキーワー
ド以外の音声として学習するので、キーワード検出の際
に自動的に雑音を除去できる。 (5)請求項5に対応する効果:キーワード以外の音声
に対して、雑音付加を行う際に、最初は雑音の無い状態
からニューラルネットワークの学習を開始し、徐々に雑
音を重畳していくので、ニューラルネットワークの学習
が安定して進められる。
【図面の簡単な説明】
【図1】 本発明によるニューラルネットワークによる
キーワードスポッティング方式の一実施例を説明するた
めの構成図である。
【図2】 特徴ベクトル空間におけるキーワードとキー
ワード以外の音素との配置を説明するための図である。
【図3】 キーワードスポッティング用のニューラルネ
ット(NN)の実施例を示す図である。
【図4】 キーワードスポッティング方式の説明図であ
る。
【符号の説明】
1…特徴抽出部、2…ニューラルネット学習部、3…ニ
ューラルネットワーク認識部、4…キーワード検出部、
5…音声入力部、6…学習モード、7…認識モード。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 予め定めたキーワードを含む音声波形を
    入力し、特徴分析を行う特徴抽出部と、該特徴抽出部に
    より抽出された特徴量を用いてニューラルネットワーク
    の学習を行うニューラルネット学習部と、該ニューラル
    ネット学習部による学習済みのニューラルネットワーク
    を用いてキーワード認識を行うニューラルネットワーク
    による認識部と、該認識部により認識されたキーワード
    を出力するキーワード検出部とを有し、前記キーワード
    とキーワード以外を区別するニューラルネットワークを
    用いてキーワードスポッティングを行うキーワードスポ
    ッティング方式において、キーワードに対する音素の最
    少限ペアを持つ複数単語との対を学習するニューラルネ
    ットワークを用いてキーワードを検出することを特徴と
    するニューラルネットワークによるキーワードスポッテ
    ィング方式。
  2. 【請求項2】 前記キーワード1つに対してニューラル
    ネットワーク1つを対応させ、該ニューラルネットワー
    クの出力ユニットの値 "1" をキーワードに対応さ
    せ、"0" をキーワード以外の単語に対応させて、誤差
    逆伝搬法を用いて学習することを特徴とする請求項1記
    載のニューラルネットワークによるキーワードスポッテ
    ィング方式。
  3. 【請求項3】 複数のキーワードに対して単一のニュー
    ラルネットを用い、キーワード各々に対する出力ユニッ
    トを持つことを特徴とする請求項1記載のニューラルネ
    ットワークによるキーワードスポッティング方式。
  4. 【請求項4】 キーワード以外の単語の外に雑音を重畳
    させ、キーワードと雑音の重畳されたキーワード以外の
    音声とを識別できるようにニューラルネットを学習する
    ことを特徴とする請求項1記載のニューラルネットワー
    クによるキーワードスポッティング方式。
  5. 【請求項5】 前記雑音重畳を徐々に加えながら遂次的
    にニューラルネットワークの学習を進めていくことを特
    徴とする請求項4記載のニューラルネットワークによる
    キーワードスポッティング方式。
JP3317545A 1991-11-05 1991-11-05 ニユーラルネツトワークによるキーワードスポツテイング方式 Pending JPH05128286A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3317545A JPH05128286A (ja) 1991-11-05 1991-11-05 ニユーラルネツトワークによるキーワードスポツテイング方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3317545A JPH05128286A (ja) 1991-11-05 1991-11-05 ニユーラルネツトワークによるキーワードスポツテイング方式

Publications (1)

Publication Number Publication Date
JPH05128286A true JPH05128286A (ja) 1993-05-25

Family

ID=18089452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3317545A Pending JPH05128286A (ja) 1991-11-05 1991-11-05 ニユーラルネツトワークによるキーワードスポツテイング方式

Country Status (1)

Country Link
JP (1) JPH05128286A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019139211A (ja) * 2018-02-09 2019-08-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声ウェイクアップ方法及び装置
JP2020086011A (ja) * 2018-11-19 2020-06-04 ヤフー株式会社 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
JP2020517977A (ja) * 2017-06-29 2020-06-18 アリババ グループ ホウルディング リミテッド 音声ウェイクアップ方法、装置及び電子デバイス

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020517977A (ja) * 2017-06-29 2020-06-18 アリババ グループ ホウルディング リミテッド 音声ウェイクアップ方法、装置及び電子デバイス
JP2019139211A (ja) * 2018-02-09 2019-08-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声ウェイクアップ方法及び装置
JP2020086011A (ja) * 2018-11-19 2020-06-04 ヤフー株式会社 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム

Similar Documents

Publication Publication Date Title
JP2764277B2 (ja) 音声認識装置
EP0342630B1 (en) Speech recognition with speaker adaptation by learning
EP0700031A1 (en) Confusable word detection in speech recognition
US5963904A (en) Phoneme dividing method using multilevel neural network
JPH07506198A (ja) 複合エキスパート
US5758021A (en) Speech recognition combining dynamic programming and neural network techniques
Rouvier et al. Review of different robust x-vector extractors for speaker verification
Neelima et al. Mimicry voice detection using convolutional neural networks
JPH0540497A (ja) 話者適応音声認識装置
JPH05128286A (ja) ニユーラルネツトワークによるキーワードスポツテイング方式
JP6755633B2 (ja) 用件判定装置、用件判定方法およびプログラム
Zermini et al. Binaural and log-power spectra features with deep neural networks for speech-noise separation
Barnard et al. Real-world speech recognition with neural networks
Sangeetha et al. Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network
Mercier et al. The KEAL speech understanding system
US6871177B1 (en) Pattern recognition with criterion for output from selected model to trigger succeeding models
Myung et al. True to thyself: Assessing whether computational models of cognition remain faithful to their theoretical principles
International Neural Network Society (INNS), the IEEE Neural Network Council Cooperating Societies et al. Text-dependent speaker identification using learning vector quantization
Kaur et al. Speech based retrieval system for Punjabi language
Abd El-Moneim et al. Effect of reverberation phenomena on text-independent speaker recognition based deep learning
JPH01241667A (ja) 学習機構を有するダイナミック・ニユーラル・ネットワーク
Mohankrishnan et al. A composite scheme for text-independent speaker recognition
JP2792709B2 (ja) 音声認識装置
JPH0442299A (ja) 音声区間検出装置
Amornkul et al. Addable stress speech recognition with multiplexing hmm: Training and non-training decision