JPH02304498A - 単語認識方式 - Google Patents
単語認識方式Info
- Publication number
- JPH02304498A JPH02304498A JP1126316A JP12631689A JPH02304498A JP H02304498 A JPH02304498 A JP H02304498A JP 1126316 A JP1126316 A JP 1126316A JP 12631689 A JP12631689 A JP 12631689A JP H02304498 A JPH02304498 A JP H02304498A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- input
- voice
- word
- word recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000012935 Averaging Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、電気錠、ICカード等のオンライン端末等で
入力音声からその単語を認識するに好適な単語認識方式
に関する。
入力音声からその単語を認識するに好適な単語認識方式
に関する。
[従来の技術]
従来の単語認識方式は、例えば特公昭63−4200号
公報、特開昭62−220998号公報に記載される如
く、以下の手順による。
公報、特開昭62−220998号公報に記載される如
く、以下の手順による。
■入力音声に含まれる単語に関する特徴量を抽出する。
■予め上記■と同様にして抽出しておいた標準パターン
と上記■て抽出した特徴量との距離を計算する。
と上記■て抽出した特徴量との距離を計算する。
■計算結果より、上記距離か最小の標準パターンの単語
を入力音声の単語と判定する。
を入力音声の単語と判定する。
[発明が解決しようとする課題]
然しながら、上記従来の単語認識方式ては、以下の問題
点がある。
点がある。
実時間処理が困難である。即ち、従来の単語認識方式に
おいて一定以上の認識率を確保するためには複雑な特徴
量を用いる必要があるが、複雑な特徴量を抽出するには
複雑な処理装置が必要であリ、処理時間も多大となる。
おいて一定以上の認識率を確保するためには複雑な特徴
量を用いる必要があるが、複雑な特徴量を抽出するには
複雑な処理装置が必要であリ、処理時間も多大となる。
本発明は、高い認識率を確保し、かつ容易に実時間処理
できる単語認識方式を得ることを目的とする。
できる単語認識方式を得ることを目的とする。
[、JMを解決するための手段]
請求項1に記載の本発明は、ニューラルネットワークを
用いて入力音声からその単語を認識する単語認識方式で
あって、ニューラルネットワークへの入力として、音声
の平均的な周波数特性、及び平均的なピッチ周波数を用
いるようにしたものである。
用いて入力音声からその単語を認識する単語認識方式で
あって、ニューラルネットワークへの入力として、音声
の平均的な周波数特性、及び平均的なピッチ周波数を用
いるようにしたものである。
請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、音声の一定時間内における平均的な
周波数特性の時間的変化、及び一定時間内における平均
的なピッチ周波数の時間的変化を用いるようにしたもの
である。
クへの入力として、音声の一定時間内における平均的な
周波数特性の時間的変化、及び一定時間内における平均
的なピッチ周波数の時間的変化を用いるようにしたもの
である。
請求項3に記載の本発明は、前記ニューラルネットワー
クか階層的なニューラルネットワークであるようにした
ものである。
クか階層的なニューラルネットワークであるようにした
ものである。
尚、音声のピッチ周波数とは、声帯波の繰返し周期(ピ
ッチ周期)の逆数である。
ッチ周期)の逆数である。
[作用]
請求項1に記載の本発明によれば以下の■〜■の作用効
果がある。
果がある。
■ニューラルネットワークへの入力として、「音声の平
均的な周波数特性、及び平均的なピッチ周波数」を用い
たから、入力を得るための前処理が、従来の複雑な特徴
量抽出に比して、単純となり、この前処理に要する時間
が短くて足りる。
均的な周波数特性、及び平均的なピッチ周波数」を用い
たから、入力を得るための前処理が、従来の複雑な特徴
量抽出に比して、単純となり、この前処理に要する時間
が短くて足りる。
尚、ニューラルネットワークへの入力として、個人差が
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、不特定話者における単語の認識率を向上す
ることができる。
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、不特定話者における単語の認識率を向上す
ることができる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純且つ迅速である。
全体の演算処理が単純且つ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。
■上記■〜■により、単語認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。
よることなく容易に実時間処理できる。
又、請求項2に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
効果に加えて、以下の■の作用効果がある。
■ニューラルネットワークへの入力として、[音声の一
定時間内における平均的な周波数特性の時間的変化、及
び一定時間内における平均的なピッチ周波数の時間的変
化」を用いたから、ニューラルネットワークにおける処
理が単純となり、この処理に要する時間がより短くて足
りる。
定時間内における平均的な周波数特性の時間的変化、及
び一定時間内における平均的なピッチ周波数の時間的変
化」を用いたから、ニューラルネットワークにおける処
理が単純となり、この処理に要する時間がより短くて足
りる。
又、請求項3に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
効果に加えて、以下の■の作用効果がある。
0階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム(パックブロバ
ゲーシミン)が確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。
後述する如くの簡単な学習アルゴリズム(パックブロバ
ゲーシミン)が確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。
[実施例]
第1図は本発明が適用された単語認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
バンドパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の構造を示す模式図である。
示す模式図、第2図は入力音声を示す模式図、第3図は
バンドパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の構造を示す模式図である。
本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。
トワークの構成、学習アルゴリズムについて説明する。
(1)ニューラルネットワークは、その構造から、第4
図(A)に示す階層的ネットワークと第4図(B)に示
す相互結合ネットワークの2種に大別できる。本発明は
、両ネットワークのいずれを用いて構成するものであっ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。
図(A)に示す階層的ネットワークと第4図(B)に示
す相互結合ネットワークの2種に大別できる。本発明は
、両ネットワークのいずれを用いて構成するものであっ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。
(2)ネットワークの構造
階層的ネットワークは、第5図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。
間層、出力層からなる階層構造をとる。
各層は1以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合たけで、各層内
での結合はない。
層→中間層→出力層という前向きの結合たけで、各層内
での結合はない。
(3)ユニットの構造
ユニットは第6図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則(変換関数)で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則(変換関数)で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。
(4)学習(パックプロパゲーション)ネットワークの
学習とは、実際の出力を目標値(望ましい出力)に近づ
けることであり、−M的には第6図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。
学習とは、実際の出力を目標値(望ましい出力)に近づ
けることであり、−M的には第6図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。
又、学習のアルゴリズムとしては、例えば、Rumel
hart、 D、E、、McClelland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBuTED
PROCESSING、 the MIT Press
、 1986.に記載されているパックプロパゲーショ
ンを用いることができる。
hart、 D、E、、McClelland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBuTED
PROCESSING、 the MIT Press
、 1986.に記載されているパックプロパゲーショ
ンを用いることができる。
以下、本発明の具体的な実施例について説明する。尚、
この実施例の認識システム1は、nチャンネルのバンド
パスフィルタ10、ピッチ抽出部11、平均化回路15
、ニューラルネットワーク20、判定回路30の結合に
て構成される(第1図参照)。
この実施例の認識システム1は、nチャンネルのバンド
パスフィルタ10、ピッチ抽出部11、平均化回路15
、ニューラルネットワーク20、判定回路30の結合に
て構成される(第1図参照)。
(A)学習単語を「ショウメイ」、「エアコン」、「カ
ーテン」、「テレビ」、「ドア」の5単語とし、入力単
語を「ショウメイ」、「エアコン」、「カーテン」、「
テレビ」、「ドア」の5単話とした。
ーテン」、「テレビ」、「ドア」の5単語とし、入力単
語を「ショウメイ」、「エアコン」、「カーテン」、「
テレビ」、「ドア」の5単話とした。
(B)前処理
■入力音声(5単語のそれぞれ)を、第2図に示す如く
、4つのブロックに時間的に等分割する。
、4つのブロックに時間的に等分割する。
■音声波形を、第1図に示す如く、複数(n個)(この
実施例ではn=8)チャンネルのバンドパスフィルタ1
0に通し、各ブロック即ち各一定時間毎に第3図(A)
〜(D)のそれぞれに示す如くの周波数特性を得る。
実施例ではn=8)チャンネルのバンドパスフィルタ1
0に通し、各ブロック即ち各一定時間毎に第3図(A)
〜(D)のそれぞれに示す如くの周波数特性を得る。
又、上記バンドパスフィルタ10による処理と並列的に
、音声波形をピッチ抽出部11に通し、各ブロック即ち
各一定時間毎にピッチ周波数を得る。
、音声波形をピッチ抽出部11に通し、各ブロック即ち
各一定時間毎にピッチ周波数を得る。
この時、バンドパスフィルタ1oとピッチ抽出部11の
各出力は各ブロック毎に平均化回路15で平均化される
。
各出力は各ブロック毎に平均化回路15で平均化される
。
(C)ニューラルネットワークによる処理及び判定
■前処理の結果(ブロック毎のバンドパスフィルタ10
、ピッチ抽出部11を経た各平均化回路15の出力)を
、第1図に示す如く、3層の階層的なニューラルネット
ワーク2oに入力する。入力層21は、バンドパスフィ
ルタ10による前処理のnチャンネル、4ブロツクに対
応し、かつピッチ抽出部11による前処理の1チヤンネ
ル、4ブロツクに対応する、4x (n+1)ユニット
(この実施例ではn=8.36ユニツト)にて構成され
る。出力層22は、5単語のそれぞれについて登録単語
とその他の単語とに対応する2ユニツトを設け、全体を
10ユニツトにて構成される。
、ピッチ抽出部11を経た各平均化回路15の出力)を
、第1図に示す如く、3層の階層的なニューラルネット
ワーク2oに入力する。入力層21は、バンドパスフィ
ルタ10による前処理のnチャンネル、4ブロツクに対
応し、かつピッチ抽出部11による前処理の1チヤンネ
ル、4ブロツクに対応する、4x (n+1)ユニット
(この実施例ではn=8.36ユニツト)にて構成され
る。出力層22は、5単語のそれぞれについて登録単語
とその他の単語とに対応する2ユニツトを設け、全体を
10ユニツトにて構成される。
■ニューラルネットワーク20の出力を判定回路30に
入力し、今回入力音声の単語を認識する。但し、本発明
の実施において、ニューラルネットワーク20の出力は
判定回路30の如くにて機械的に判定処理されず、ニュ
ーラルネットワーク20の出力を得た人間の知力にて判
定処理されるものであっても良い。
入力し、今回入力音声の単語を認識する。但し、本発明
の実施において、ニューラルネットワーク20の出力は
判定回路30の如くにて機械的に判定処理されず、ニュ
ーラルネットワーク20の出力を得た人間の知力にて判
定処理されるものであっても良い。
■前述した学習アルゴリズムの°バックプロパゲーショ
ンにより、入力に対する出力のエラーが一定レベルに収
束するまで 1,000回学習させ、一定認識率を保証
し得るネットワークを構築する。尚、出力としては、各
登録単語に対応したユニットが「1」、その他の単語に
対応したユニットが「0」となるように学習した。
ンにより、入力に対する出力のエラーが一定レベルに収
束するまで 1,000回学習させ、一定認識率を保証
し得るネットワークを構築する。尚、出力としては、各
登録単語に対応したユニットが「1」、その他の単語に
対応したユニットが「0」となるように学習した。
(D)実験
上記認識システム1を用いて、単語認識を実験した。
入力音声は、ハックプロパゲーションにより学習した5
単語(「ショウメイ」、「エアコンj、「カーテン」、
「テレビ」、「ドア」)とした。
単語(「ショウメイ」、「エアコンj、「カーテン」、
「テレビ」、「ドア」)とした。
(a)認識率
結果、認識率は 100%であることが認められた。
(b)処理速度
又、処理速度(1単語の発声に対する認識に要した時間
)は1秒以内てあり、極めて迅速処理できることが認め
られた。
)は1秒以内てあり、極めて迅速処理できることが認め
られた。
即ち、上記認識システム1にあっては、上記(a)の結
果か示すように認識率が極めて高い。
果か示すように認識率が極めて高い。
又、上記認識システム1にあっては、上記 (b)の結
果が示すように単語認識処理を複雑な処理装置によるこ
となく迅速処理でき、容易に実時間処理できる。
果が示すように単語認識処理を複雑な処理装置によるこ
となく迅速処理でき、容易に実時間処理できる。
尚、本発明の実施において、ニューラルネットワークへ
の入力として、音声の一定時間内における平均的な周波
数特性の時間的変化、及び一定時間内における平均的な
ピッチ周波数の時間的変化を用いるものでなく、単に「
音声の平均的な周波数特性、及び平均的なピッチ周波数
」を用いるものであワても良い。
の入力として、音声の一定時間内における平均的な周波
数特性の時間的変化、及び一定時間内における平均的な
ピッチ周波数の時間的変化を用いるものでなく、単に「
音声の平均的な周波数特性、及び平均的なピッチ周波数
」を用いるものであワても良い。
[発明の効果コ
以上のように本発明によれば、高い認識率を確保し、か
つ容易に実時間処理できる単語認識方式%式%
つ容易に実時間処理できる単語認識方式%式%
第1図は本発明が適用された単語認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
バンドパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の構造を示す模式図である。 1・・・認識システム、 10・・・バンドパスフィルタ、 11・・・ピッチ抽出部、 15・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層 22・・・出力層、 30・・・判定回路。 特許出願人 積水化学工業株式会社 代表者 廣1)馨 第2図 時間 第3図 (A) (B) (C) (D)周波数
周波数 周匠叡 周仮鍜第4図 第5図 ↑ 入カバターン 第6図 ユニット
示す模式図、第2図は入力音声を示す模式図、第3図は
バンドパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の構造を示す模式図である。 1・・・認識システム、 10・・・バンドパスフィルタ、 11・・・ピッチ抽出部、 15・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層 22・・・出力層、 30・・・判定回路。 特許出願人 積水化学工業株式会社 代表者 廣1)馨 第2図 時間 第3図 (A) (B) (C) (D)周波数
周波数 周匠叡 周仮鍜第4図 第5図 ↑ 入カバターン 第6図 ユニット
Claims (3)
- (1)ニューラルネットワークを用いて入力音声からそ
の単語を認識する単語認識方式であって、ニューラルネ
ットワークへの入力として、音声の平均的な周波数特性
、及び平均的なピッチ周波数を用いる単語認識方式。 - (2)前記ニューラルネットワークへの入力として、音
声の一定時間内における平均的な周波数特性の時間的変
化、及び一定時間内における平均的なピッチ周波数の時
間的変化を用いる請求項1記載の単語認識方式。 - (3)前記ニューラルネットワークが階層的なニューラ
ルネットワークである請求項1又は2記載の単語認識方
式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1126316A JPH02304498A (ja) | 1989-05-18 | 1989-05-18 | 単語認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1126316A JPH02304498A (ja) | 1989-05-18 | 1989-05-18 | 単語認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02304498A true JPH02304498A (ja) | 1990-12-18 |
Family
ID=14932171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1126316A Pending JPH02304498A (ja) | 1989-05-18 | 1989-05-18 | 単語認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02304498A (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5852696A (ja) * | 1981-09-25 | 1983-03-28 | 大日本印刷株式会社 | 音声認識装置 |
JPS605960A (ja) * | 1983-06-25 | 1985-01-12 | 産業振興株式会社 | 既設建物の外壁改装工法 |
JPS63261400A (ja) * | 1987-04-20 | 1988-10-28 | 富士通株式会社 | 音声認識方式 |
-
1989
- 1989-05-18 JP JP1126316A patent/JPH02304498A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5852696A (ja) * | 1981-09-25 | 1983-03-28 | 大日本印刷株式会社 | 音声認識装置 |
JPS605960A (ja) * | 1983-06-25 | 1985-01-12 | 産業振興株式会社 | 既設建物の外壁改装工法 |
JPS63261400A (ja) * | 1987-04-20 | 1988-10-28 | 富士通株式会社 | 音声認識方式 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110379441B (zh) | 一种基于对抗型人工智能网络的语音服务方法与*** | |
CN111539449A (zh) | 一种基于二阶融合注意力网络模型的声源分离及定位方法 | |
CN111785285A (zh) | 面向家居多特征参数融合的声纹识别方法 | |
Zhu et al. | Contribution of modulation spectral features on the perception of vocal-emotion using noise-vocoded speech | |
CN112562698A (zh) | 一种基于声源信息与热成像特征融合的电力设备缺陷诊断方法 | |
JPH02304498A (ja) | 単語認識方式 | |
JPH02273798A (ja) | 話者認識方式 | |
JP2510301B2 (ja) | 話者認識システム | |
JPH02275996A (ja) | 単語認識方式 | |
JPH03157697A (ja) | 単語認識システム | |
CA2003183C (en) | Speaker recognition system | |
JPH02304497A (ja) | 単語認識方式 | |
JPH03230200A (ja) | 音声認識方法 | |
JPH02273799A (ja) | 話者認識方式 | |
JPH03230255A (ja) | 音声認識方法 | |
JPH02304500A (ja) | 単語認識方式 | |
Lakra et al. | Selective noise filtering of speech signals using an adaptive neuro-fuzzy inference system as a frequency pre-classifier | |
JP2518939B2 (ja) | 話者照合システム | |
JPH03230256A (ja) | 音声認識方法 | |
JPH02135500A (ja) | 話者認識方式 | |
JPH02273800A (ja) | 話者認識方式 | |
JPH05143094A (ja) | 話者認識システム | |
CN115862636A (zh) | 一种基于语音识别技术的互联网人机验证方法 | |
JP2559506B2 (ja) | 話者照合システム | |
Jiang et al. | Distant Speech Emotion Recognition Based on Feature Enhancement |