JP2510301B2 - 話者認識システム - Google Patents

話者認識システム

Info

Publication number
JP2510301B2
JP2510301B2 JP1298503A JP29850389A JP2510301B2 JP 2510301 B2 JP2510301 B2 JP 2510301B2 JP 1298503 A JP1298503 A JP 1298503A JP 29850389 A JP29850389 A JP 29850389A JP 2510301 B2 JP2510301 B2 JP 2510301B2
Authority
JP
Japan
Prior art keywords
neural network
speaker
voice
input
speaker recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1298503A
Other languages
English (en)
Other versions
JPH03157698A (ja
Inventor
和彦 岡下
新吾 西村
正志 宮川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP1298503A priority Critical patent/JP2510301B2/ja
Publication of JPH03157698A publication Critical patent/JPH03157698A/ja
Application granted granted Critical
Publication of JP2510301B2 publication Critical patent/JP2510301B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、電子錠等において入力音声からその話者を
照合するに好適な話者認識システムに関する。
[従来の技術] 従来の話者認識システムは、例えば特公昭56−13956
に記載される如く、以下の手順による。
入力音声に含まれる話者に関する特徴量を抽出する。
予め上記と同様にして抽出しておいた標準パターン
と上記で抽出した特徴量との距離を計算する。
上記で計算した距離が、予め設定してあるしきい値
よりも小なることを条件に、今回の入力話者をその標準
パターンの登録話者であるものと判定する。
[発明が解決しようとする課題] 然しながら、上記従来の話者認識システムでは、下記
、の問題点がある。
標準パターン作成時から時間が経過するにつれ、認識
率が劣化する。例えば、3ヶ月経過により、認識率は10
0.0%から85.0%に劣化する。
実時間処理が困難である。即ち、一定以上の認識率を
確保するためには複雑な特徴量を用いる必要があるが、
複雑な特徴量を抽出するためには複雑な処理装置が必要
であり、処理時間も多大となる。
本発明は、経時的な認識率の劣化が極めて少なく、容
易に実時間処理できる話者認識システムを得ることを目
的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、ニューラルネットワーク
を用いた話者認識システムであって、登録話者に対応す
る出力ユニットの出力値に対し、登録話者認識用しきい
値と追加学習用しきい値とを設定し、上記出力値が登録
話者認識用しきい値より大なることを条件に、今回の入
力話者を登録話者と判定し、上記出力値が登録話者認識
用しきい値より大、かつ追加学習用しきい値より小なる
ことを条件に、今回の入力音声データを用いてニューラ
ルネットワークの追加学習を行なうようにしたものであ
る。
請求項2に記載の本発明は、前記ニューラルネットワ
ークへの入力として、 音声の周波数特性の時間的変化、 音声の平均的な線形予測係数、 音声の平均的なPARCOR係数、 音声の平均的な周波数特性、及びピッチ周波数、 高域強調を施された音声波形の平均的な周波数特性、
並びに 音声の平均的な周波数特性 のうちの1つ以上を使用するようにしたものである。
請求項3に記載の本発明は、前記ニューラルネットワ
ークが階層的なニューラルネットワークであるようにし
たものである。
[作用] (1)経時的な認識率の劣化が極めて少ない。このこと
は、後述する実験結果により確認されていることである
が、ニューラルネットワークが音声の時期差による変動
の影響を受けにくい構造をとることが可能なためと推定
される。
(2)ニューラルネットワークを構成する、登録話者に
対応する出力ユニットの出力値に対し、登録話者認識用
しきい値の他に、追加学習用しきい値を設けた。即ち、
上記出力値が登録話者認識用しきい値を超えて大なるも
のであり、入力話者を登録話者と判定できるものであっ
ても、該出力値が該登録話者認識用しきい値より大なる
追加学習用しきい値を超えるものでない場合には、今回
の入力音声データを用いてニューラルネットワークの追
加学習を行なう。これにより、話者の特徴が経時変化し
ても認識率が劣化する前にニューラルネットワークを更
新でき、結果として、音声の経時変化に強い話者認識シ
ステムを構成できる。
(3)ニューラルネットワークは、原理的に、ネットワ
ーク全体の演算処理が単純且つ迅速である。
(4)ニューラルネットワークは、原理的に、それを構
成している各ユニットが独立に動作しており、並列的な
演算処理が可能である。従って、演算処理が迅速であ
る。
(5)上記(3)〜(4)により、話者認識システムを
複雑な処理装置によることなく容易に実時間処理でき
る。
又、請求項2に記載の本発明によれば上記(1)〜
(5)の作用効果に加えて、下記(6)の作用効果があ
る。
(6)ニューラルネットワークへの入力として、請求項
2に記載の〜の各要素のうちの1つ以上を用いるか
ら、入力を得るための前処理が、従来の複雑な特徴量抽
出に対して、単純となり、この前処理に要する時間が短
くて足りる。
又、請求項3に記載の本発明によれば上記(1)〜
(6)の作用効果に加えて、下記(7)の作用効果があ
る。
(7)階層的なニューラルネットワークにあっては、現
在、後述する如くの簡単な学習アルゴリズム(バックプ
ロパゲーション)が確立されており、高い認識率を実現
できるニューラルネットワークを容易に形成できる。
[実施例] 第1図は本発明が適用された話者認識システムの一例
を示す模式図、第2図は音声処理部とニューラルネット
ワークの一例を示す模式図、第3図は入力音声を示す模
式図、第4図はバンドパスフィルタの出力を示す模式
図、第5図はニューラルネットワークを示す模式図、第
6図は階層的なニューラルネットワークを示す模式図、
第7図はユニットの構造を示す模式図である。
本発明の具体的実施例の説明に先立ち、ニューラルネ
ットワークの構成、学習アルゴリズムについて説明す
る。
(1)ニューラルネットワークは、その構造から、第5
図(A)に示す階層的ネットワークと第5図(B)に示
す相互結合ネットワークの2種に大別できる。本発明
は、両ネットワークのいずれを用いて構成するものであ
っても良いが、階層的ネットワークは後述する如くの簡
単な学習アルゴリズムが確立されているためより有用で
ある。
(2)ネットワークの構造 階層的ネットワークは、第6図に示す如く、入力層、
中間層、出力層からなる階層構造をとる。各層は1以上
のユニットから構成される。結合は、入力層→中間層→
出力層という前向きの結合だけで、各層内での結合はな
い。
(3)ユニットの構造 ユニットは第7図に示す如く脳のニューロンのモデル
化であり構造は簡単である。他のユニットから入力を受
け、その総和をとり一定の規則(変換関数)で変換し、
結果を出力する。他のユニットとの結合には、それぞれ
結合の強さを表わす可変の重みを付ける。
(4)学習(バックプロパゲーション) ネットワークの学習とは、実際の出力を目標値(望ま
しい出力)に近づけることであり、一般的には第7図に
示した各ユニットの変数関数及び重みを変化させて学習
を行なう。
又、学習のアルゴリズムとしては、例えば、Rumelhar
t,D.E.,McClelland,J.L.and the PDP Research Group,P
ARALLEL DISTRIBUTED PROCESSING,the MIT Press,1986.
に記載されているバックプロパゲーションを用いること
ができる。
以下、本発明の具体的な実施例について説明する。
話者認識システム10は、第1図に示す如く、音声入力
部11、音声処理部12、ニューラルネットワーク13、判定
部14、メモリ部15、ネットワーク制御部16、機器制御部
17を有して構成される。
(1)音声入力部11に登録音声を入力する。この時、学
習単語を「タダイマ」、入力単語を「タダイマ」とす
る。
又、登録話者を9名、詐称者を27名とする。
(2)音声処理部12で、上記(1)の入力音声に簡単な
前処理を施す。
前処理結果は、今回の話者認識のためにニューラルネ
ットワーク13に転送されるとともに、追加学習の可能性
に備えて、メモリ部15に転送される。
(3)ニューラルネットワーク13は、下記の学習動作
と下記の評価動作を行なう。
学習 目標値(出力層を構成する各出力ユニットの目標出力
値)を、登録話者については(1,0)、詐称者について
は(0,1)とする。
登録話者の入力音声「タダイマ」に、音声処理部12に
よる前処理を施し、この前処理結果をニューラルネット
ワーク13に入力する。そして、ニューラルネットワーク
13の出力値(出力層を構成する各出力ユニットの出力
値)が上記目標値に近づくように、ニューラルネットワ
ーク13の各ユニットの変換関数及び重みを修正する。
この学習動作を例えば3万回くり返す。
評価 今回話者の入力音声に前処理を施し、この前処理を施
した音声をニューラルネットワーク13に入力し、ニュー
ラルネットワークの出力値(X、Y)を得る。
そして、ニューラルネットワーク13の上記出力値
(X、Y)は判定部14に転送される。
(4)判定部14は、ニューラルネットワーク13の出力値
(X、Y)に対し、しきい値θ1、θ2、θ3(θ1>
θ2)を設ける。
θ1は追加学習用しきい値、θ2は登録話者認識用し
きい値、θ3は詐称者認識用しきい値である。
判定部14は、上記しきい値を用いて、下記〜の判
定動作を行なう。
[X>θ2かつY<θ3] であることを条件に、判定部14は、今回の入力話者を登
録話者と判定し、この登録話者判定信号を機器制御部17
に出力する。
[X>θ2かつY>θ3]又は[X<θ2かつY>θ
3]又は[X<θ2かつY<θ3] であることを条件に、判定部14は、今回の入力話者を詐
称者と判定し、この詐称者判定信号を機器制御部17に出
力する。
上記の登録話者判定時に限り、判定部14は、更に次
の(a)、(b)の処理を行なう。
(a)[X<θ1] であることを条件に、判定部14は、今回の入力音声デー
タを用いてニューラルネットワーク13の追加学習を行な
うべく、ネットワーク制御部16に追加学習実行信号を出
力する。
(b)[X>θ1] である時、判定部14は何もしない。
(5)機器制御部17は、判定部14による上記の判定結
果に基づく登録話者判定信号により、機器を制御する。
この機器は、例えば電子錠であり、上記登録話者判定
信号に基づいて開錠制御を行なう。
(6)ネットワーク制御部16は、判定部14による上記
の判定結果に基づく追加学習実行信号により、ニューラ
ルネットワーク13の追加学習を行なうことを判断する。
この時、ネットワーク制御部16は、メモリ部15より、今
回の入力音声データを取出し、この入力音声データをニ
ューラルネットワーク13に再入力し、この入力に対する
ニューラルネットワーク13の出力値(X、Y)が前述
(3)の登録話者についての目標値(1,0)に近づく
ように、ニューラルネットワーク13の各ユニットの変換
関数及び重みを修正する。ネットワーク制御部16は、こ
の追加学習動作を例えば3万回くり返す。
以下、第2図に示す如く、階層的なニューラルネット
ワーク13を用い、ニューラルネットワーク13の入力とし
て音声の一定時間内における平均的な周波数特性の時間
的変化を用いた場合の具体的実施例について説明する。
尚、音声処理部12は、第2図に示す如く、ローパスフ
ィルタ21、バンドパスフィルタ22、平均化回路23の結合
にて構成される。
入力音声の音声信号の高域成分を、ローパスフィルタ
21にてカットする。そして、この入力音声を第3図に示
す如く、4つのブロックに時間的に等分割する。
音声波形を、第2図に示す如く、複数(n個)チャン
ネルのバンドパスフィルタ22に通し、各ブロック即ち各
一定時間毎に第4図(A)〜(D)のそれぞれに示す如
くの周波数特性を得る。
この時、バンドパスフィルタ22の出力信号は、平均化
回路23にて、各ブロック毎、即ち一定時間で平均化され
る。
以上の前処理により、「音声の一定時間内における平
均的な周波数特性の時間的変化」が得られた。
平均化回路23の出力は、直接的にニューラルネットワ
ーク13に転送され、或いはメモリ部15を経由して間接的
にニューラルネットワーク13に転送される。
ニューラルネットワーク13は、3層の階層的なニュー
ラルネットワークにて構成される。入力層31は、前処理
の4ブロック、nチャンネルに対応する4×nユニット
にて構成される。出力層32は、登録話者群と詐称者群と
の2ユニットにて構成される。
出力層32の目標値は、登録話者については(1,0)詐
称者については(0,1)である。
実験 上記の如く、追加学習用しきい値θ1を設けて追加学
習したネットワークの認識率と、追加学習しないネット
ワークの認識率とを比較した結果、表1を得た。本発明
方式により、時期差による認識率劣化を防止できること
が認められる。
次に、上記実施例の作用について説明する。
(1)経時的な認識率の劣化が極めて少ない。このこと
は、後述する実験結果により確認されていることである
が、ニューラルネットワーク13が音声の時期差による変
動の影響を受けにくい構造をとることが可能なためと推
定される。
(2)ニューラルネットワーク13を構成する、登録話者
に対応する出力ユニットの出力値に対し、登録話者認識
用しきい値θ2の他に追加学習用しきい値θ1を設け
た。即ち、上記出力値が登録話者認識用しきい値θ2を
超えて大なるものであり、入力話者を登録話者と判定で
きるものであっても、該出力値が該登録話者認識用しき
い値θ2より大なる追加学習用しきい値θ1を超えるも
のでない場合には、今回の入力音声データを用いてニュ
ーラルネットワーク13の追加学習を行なう。これによ
り、話者の特徴が経時変化しても認識率が劣化する前に
ニューラルネットワーク13を更新でき、結果として、音
声の経時変化に強い話者認識システムを構成できる。
(3)ニューラルネットワーク13は、原理的に、ネット
ワーク全体の演算処理が単純且つ迅速である。
(4)ニューラルネットワーク13は、原理的に、それを
構成している各ユニットが独立に動作しており、並列的
な演算処理が可能である。従って、演算処理が迅速であ
る。
(5)上記(3)〜(4)により、話者認識システム10
を複雑な処理装置によることなく容易に実時間処理でき
る。
(6)ニューラルネットワーク13への入力として、「音
声の周波数特性の時間的変化」を用いたから、入力を得
るための前処理が従来の複雑な特徴量抽出に比して、単
純となりこの前処理に要する時間が短くて足りる。
この時、上記ニューラルネットワークへの入力とし
て、更に、「音声の一定時間内における平均的な周波数
特性の時間的変化」を用いたから、ニューラルネットワ
ーク13における処理が単純となり、この処理に要する時
間がより短くて足りる。
(7)階層的なニューラルネットワーク13を用いたか
ら、現在、既に確立している簡単な学習アルゴリズム
(バックプロパゲーション)を用いて、高い認識率を達
成できる。
尚、本発明の実施においては、ニューラルネットワー
クへの入力として、 音声の周波数特性の時間的変化、 音声の平均的な線形予測係数、 音声の平均的なPARCOR係数、 音声の平均的な周波数特性、及びピッチ周波数、 高域強調を施された音声波形の平均的な周波数特性、
並びに 音声の平均的な周波数特性 のうちの1つ以上を使用できる。
そして、上記の要素が更に「音声の一定時間内にお
ける平均的な周波数特性の時間的変化」として用いられ
たように、上記の要素は「音声の一定時間内における
平均的な線形予測係数の時間的変化」、上記の要素は
「音声の一定時間内における平均的なPARCOR係数の時間
的変化」、上記の要素は「音声の一定時間内における
平均的な周波数特性、及びピッチ周波数の時間的変
化」、上記の要素は、「高域強調を施された音声波形
の一定時間内における平均的な周波数特性の時間的変
化」として用いることができる。
尚、上記の線形予測係数は、以下の如く定義され
る。
即ち、音声波形のサンプル値{xn}の間には、一般に
高い近接相関があることが知られている。そこで次のよ
うな線形予測が可能であると仮定する。
ここで、xt:時刻tにおける音声波形のサンプル値、
{α}(i=1,…,p):(p次の)線形予測係数 さて、本発明の実施においては、線形予測誤差ε
2乗平均値が最小となるように線形予測係数{α}を
求める。
具体的には(εを求め、その時間平均を
と表わして、∂(2/∂α=0,i=1,
2,…,pとおくことによって、次の式から{α}が求め
られる。
又、上記のPARCOR係数は以下の如く定義される。
即ち、[kn](n=1,…,p)を(p次の)PARCOR係数
(偏自己相関係数)とする時、PARCOR係数kn+1は、線形
予測による前向き残差εt (f)と後向き残差εt-(n+1) (b)
間の正規化相関係数として、次の式によって定義され
る。
ここで、 {α}:前向き予測係数、 {β}:後向き予測係数 又、上記の音声のピッチ周波数とは、声帯波の繰り
返し周期(ピッチ周期)の逆数である。尚、ニューラル
ネットワークへの入力として、個人差がある声帯の基本
的なパラメータであるピッチ周波数を付加したから、特
に大人/小人、男性/女性間の話者の認識率を向上する
ことができる。
又、上記の高域強調とは、音声波形のスペクトルの
平均的な傾きを補償して、低域にエネルギが集中するこ
とを防止することである。然るに、音声波形のスペクト
ルの平均的な傾きは話者に共通のものであり、話者の認
識には無関係である。ところが、このスペクトルの平均
的な傾きが補償されていない音声波形をそのままニュー
ラルネットワークへ入力する場合には、ニューラルネッ
トワークが学習する時にスペクトルの平均的な傾きの特
徴の方を抽出してしまい、話者の認識に必要なスペクト
ルの山と谷を抽出するのに時間がかかる。これに対し、
ニューラルネットワークへの入力を高域強調する場合に
は、話者に共通で、認識には無関係でありながら、学習
に影響を及ぼすスペクトルの平均的な傾きを補償できる
ため、学習速度が速くなるのである。
[発明の効果] 以上のように本発明によれば、経時的な認識率の劣化
が極めて少なく、容易に実時間処理できる話者認識シス
テムを得ることができる。
【図面の簡単な説明】
第1図は本発明が適用された話者認識システムの一例を
示す模式図、第2図は音声処理部とニューラルネットワ
ークの一例を示す模式図、第3図は入力音声を示す模式
図、第4図はバンドパスフィルタの出力を示す模式図、
第5図はニューラルネットワークを示す模式図、第6図
は階層的なニューラルネットワークを示す模式図、第7
図はユニットの構造を示す模式図である。 10……話者認識システム、 11……音声入力部、 12……音声処理部、 13……ニューラルネットワーク、 14……判定部、 15……メモリ部、 16……ネットワーク制御部、 17……機器制御部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭58−37700(JP,A) 特開 昭61−114299(JP,A) 特開 昭61−292696(JP,A) 特開 昭61−102698(JP,A) 特開 昭62−89098(JP,A) 特開 昭63−261400(JP,A) 日本音響学会誌44巻10号(昭和63年) P.798〜804 昭和63年電気情報関連学会連合大会31 −1 P.5−65〜68 新美「情報科学講座 E・19・3 音 声認識」(昭和54年)P.210〜211

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】ニューラルネットワークを用いた話者認識
    システムであって、登録話者に対応する出力ユニットの
    出力値に対し、登録話者認識用しきい値と追加学習用し
    きい値とを設定し、上記出力値が登録話者認識用しきい
    値より大なることを条件に、今回の入力話者を登録話者
    と判定し、上記出力値が登録話者認識用しきい値より
    大、かつ追加学習用しきい値より小なることを条件に、
    今回の入力音声データを用いてニューラルネットワーク
    の追加学習を行なう話者認識システム。
  2. 【請求項2】前記ニューラルネットワークへの入力とし
    て、 音声の周波数特性の時間的変化、 音声の平均的な線形予測係数、 音声の平均的なPARCOR係数、 音声の平均的な周波数特性、及びピッチ周波数、 高域強調を施された音声波形の平均的な周波数特性、
    並びに 音声の平均的な周波数特性 のうちの1つ以上を使用する請求項1記載の話者認識シ
    ステム。
  3. 【請求項3】前記ニューラルネットワークが階層的なニ
    ューラルネットワークである請求項1又は2記載の話者
    認識システム。
JP1298503A 1989-11-16 1989-11-16 話者認識システム Expired - Lifetime JP2510301B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1298503A JP2510301B2 (ja) 1989-11-16 1989-11-16 話者認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1298503A JP2510301B2 (ja) 1989-11-16 1989-11-16 話者認識システム

Publications (2)

Publication Number Publication Date
JPH03157698A JPH03157698A (ja) 1991-07-05
JP2510301B2 true JP2510301B2 (ja) 1996-06-26

Family

ID=17860556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1298503A Expired - Lifetime JP2510301B2 (ja) 1989-11-16 1989-11-16 話者認識システム

Country Status (1)

Country Link
JP (1) JP2510301B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269047A (ja) * 2001-03-07 2002-09-20 Nec Eng Ltd 音声ユーザ認証システム
WO2006109515A1 (ja) * 2005-03-31 2006-10-19 Pioneer Corporation 操作者認識装置、操作者認識方法、および、操作者認識プログラム
JP5767825B2 (ja) * 2011-02-28 2015-08-19 綜合警備保障株式会社 音処理装置および音処理方法
CN111883106B (zh) * 2020-07-27 2024-04-19 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
新美「情報科学講座E・19・3音声認識」(昭和54年)P.210〜211
日本音響学会誌44巻10号(昭和63年)P.798〜804
昭和63年電気情報関連学会連合大会31−1P.5−65〜68

Also Published As

Publication number Publication date
JPH03157698A (ja) 1991-07-05

Similar Documents

Publication Publication Date Title
US5461697A (en) Speaker recognition system using neural network
CN108647556A (zh) 基于分频和深度神经网络的声源定位方法
KR20010002997A (ko) 신경회로망을 이용한 선택적 주의집중 방법
JP2510301B2 (ja) 話者認識システム
CN111723717A (zh) 一种无声语音识别方法及***
Weintraub The GRASP sound separation system
JP2543603B2 (ja) 単語認識システム
EP0369485B1 (en) Speaker recognition system
JP2518939B2 (ja) 話者照合システム
JP2559506B2 (ja) 話者照合システム
JP2518940B2 (ja) 話者照合システム
JPH03111899A (ja) 音声錠装置
JPH03230200A (ja) 音声認識方法
JPH05143094A (ja) 話者認識システム
CN114822542B (zh) 一种不同人分类辅助的无声语音识别方法和***
CN115862636B (zh) 一种基于语音识别技术的互联网人机验证方法
JPH02273798A (ja) 話者認識方式
JPH05257496A (ja) 単語認識方式
Park et al. Advancing Temporal Spike Encoding for Efficient Speech Recognition
Hoya et al. Speech extraction based upon a combined subband independent component analysis and neural memory
Lazzaro Biologically-based auditory signal processing in analog VLSI
JPH02304497A (ja) 単語認識方式
JPH02304498A (ja) 単語認識方式
JPH02289899A (ja) 音声検出方式
Georgopoulos et al. A time-frequency neutral network layered model for hearing perception