JPS59114600A - 話者識別方式 - Google Patents

話者識別方式

Info

Publication number
JPS59114600A
JPS59114600A JP57225373A JP22537382A JPS59114600A JP S59114600 A JPS59114600 A JP S59114600A JP 57225373 A JP57225373 A JP 57225373A JP 22537382 A JP22537382 A JP 22537382A JP S59114600 A JPS59114600 A JP S59114600A
Authority
JP
Japan
Prior art keywords
speaker
time series
pitch
envelope
logarithmic power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57225373A
Other languages
English (en)
Inventor
小林 敦仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57225373A priority Critical patent/JPS59114600A/ja
Publication of JPS59114600A publication Critical patent/JPS59114600A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の技術分野 本発明はあらかじめ決められた語(以下テキストと称す
。)を前もって識別対象話者が発声登録し、新たに入力
された対象話者の発声から発声者を識別するという話者
識遣す方式に係り、特に発声話者の特徴パターンとして
、ケプストラム分析から得られる対数ノぞワースベクト
ル包絡の時系列と話者識別率を得ることのできる話者識
別方式に関する。
技術の背景、従来技術と問題点 話者認識には話者照合と話者識別がある。話者照合は発
声した話者がその人自身であるか否かを職別するもので
、また話者識別はあらかじめ発声登録した話者の中で入
力発声した話者が語れであるかを識別するものである。
そして話者認識を行なう場合、あら′かじめ決められた
チャストの発声を用いるものと、テキストには依存しな
い発声を周込るものとの2つの方法がある。しかしテキ
ストには依存しない方法は。
精密な音響特徴の抽出が必要であり、高−認識率はあま
り期待できない。また話者認識技術は身分証明や印鑑の
代りに利用できる等の利点が多くある。
従来のテキスト限定方法による話者認識技術では1話者
固有の特徴量として、ピッチ情報を使用して認識する方
法やホルマyト周波数を計算しそら相違により話者を識
別する方法等がある。しかしこれらの方法は周波数軸で
の特徴量を主として使用するものであって時間軸での特
徴を軽視して込たため、識別対象話者数が少ない場合に
はある程度の職別能力をもっているが、識別対象話者数
が多くなってくると認識率が低下するという欠点がある
発明の目的 本発明の目的は、このような欠点を改善するため、あら
lじめ決められたテキストを発声して。
発声話°者を対象話者の中から識別に必要な各話者の特
徴量として1発声話者の音声のケプストラム分析から得
られる対数パワースペクトル包絡の時系列と重み付けし
なピッチ周波数の時系列を用いることにより高−認識率
を得ることである。
発明の構成 この目的を遂行するため9本発明の話者職別方式では、
あらかじめ決められた語を識別対象となる各話者が前も
って発声登録し、新たに入力された職別対象話者の発声
から発声話者を識別する話fllR別方式において、各
話者が発声した音声のケプストラム分析から得られる対
数パワースはクトル包絡の時系列を保持するスペクトル
包絡保持手段と2重み付けしたピッチ周波数の時系列を
保持するピッチ周波数保持手段と、入力音声より得られ
た対数パワースペクトル包絡の時系列と前記スペクトル
包絡保持手段より得られた対数パヮースはクトル包絡の
時系列の距離および入力音声よシ得られたピッチ周波数
の時系列と前記ピッチ周波数保持手段よシ得られたマツ
チ周波数の時系列の距離を演算しこれにもとづき話者識
別を行うことを特徴とする。
発明の要点 本発明の一実施例を説明するに先立ち1話者識別に使用
する2つの特徴、すなゎ°(対数パワースペクトル包絡
の時系列及び重み付けしたピッチ周波数の時系列と、こ
れらを使用した話者識別についてそれぞれ説明する。
(1)  対数/ぐワースはクトル包絡の時系列対数パ
ワースペクトル包絡情報は、声道の音響確性を良く近似
して−ると考えられて込る。人間゛の声道は、その人ご
とに固有な声道特性を持っており、その話者固有の情報
も、対数パヮースにクトル包絡情報に多く含まれて−る
。また話者ごとにその発声速度は異なり時i軸上での変
動情報も話者認識上重要である。
テキスト音声のアナログ信号を1例えば1゜KHzでサ
ンプリングしてアナログ−ディジタル変換したのち、(
第1図(イ)に1例を示す)これを) 25.6 mygcのハニング窓W(第1図にその正方
向部分のみを示す)をかけて切り出し、第1図向のデー
タを得、これにより得られた256点(10KHz で
サンプリングしているため)の高速フーリエ変換(以下
FFTという)をほどこす。
このF、FTの結果から第2図にSとして示さiるよう
な対数パワースはクトルを求め、この対数パワースペク
トルに逆FFT(高速フーリエ逆変換)をかけて、第3
図に示す如きケプストラムを求める。なお第3図にお−
て横軸はケフレンシ(ディメンジョンは時間)である。
このケグストラムのケフレンシ軸上の低ケフレンシ部分
の32点を抽出して再びFFT (256点)をほどこ
すと、第2図にEとして示す対数パワースペクトル包絡
線が求められる。
このような操作を分析間隔12.8 rnsec毎に行
う。この結果得られる対数パワースペクトル包絡の時系
列りは次の様に表わされることになるOlミAx 、J
a 、Ja・聞・Lル ここでILi (i=1 、2.、、ル)は各周波数に
おけるパワーの大きさでありルはフレーム番号である。
(2)  ピッチ周波数の時2系列 上記(1)において声道の構造の違いは声道の共振特性
として現われることを前述したが1人間によって異なる
声帯の構造の特徴はピッチ周波数の情報に含まれると考
えられる。
上記(1)と同様に、テキスト音声をl0KH2でサン
プリングし、アナログ−ディジタル変換したのち、  
25.6 m5ecのハニング窓、をかけて切り出入p
、256点のFFTをほどこす。この結果から傷2図に
Sとして示す対応パワースペクトルを計算し、その対数
パワースペクトルに256点の逆FFTをかけて第3図
に示すよりなケプストラムを求める。このケグストラム
におAてケフレンシ軸上の高ケフレンシ部に現われる尖
鋭なピーク点(第3図では約75.m5acのところに
出現)にピッチ周波数の情報が現われている。ここで成
人男子のピッチ周波数は100〜150H2,成人女子
のピッチ周波数は250〜300H2と−う仮定から、
このピーク点はケフレンシ軸上のおくれ時間30〜12
0m5ec(約330Hz 〜83H2)の範囲内にあ
る。
いま、この最大のピーク点の持つおくれ時間をτとする
と、ピッチ周波数Tは τ となる。
一方声帯振動をともなわなり子音部ではピッチ周波数は
観測されず、ケプストラムの高ケフレンシ部には鋭いピ
ークは検出されない。そこでピークの尖鋭度Pを P=最大ピーク値 と定義し、ピッチらしさを表わす重みWをW=P/戸 と定義する。ここでP”は、多数の人の有声音における
Pの平均値である。そしてこの分析を分析間隔12.8
 m5ec毎に行う。その結果得られる重み付けされた
ピッチ周波数の時系列Tは次のように表わされることに
なる。
’I = TIWl、TaWg・・・・・・Ti翫ここ
でTi(i=1.2・・・rL)はピッチ周波数。
Wi (i = 1 、2−・−n )  は重み、n
はフレーム番号である。
このようにして得たピッチ周波数の時系列の例を第4図
に示す。第4図はテキスト「あげてbる」を発声したと
きの、尖鋭度の高い部分のみを表示したピッチパターン
である。
(3)話者識別 複数の対象話者が各々あらかじめ定められたテキストを
発声して登録した対数パワースペクトル庖絡の時系列と
ピッチ周波数の時系列をそれぞれL  、L  ・・・
・・・IL(対数パワースペクトル包絡)1.1 ・・
・・・・1 (ヒツチ周波数)とする。ここで屏は話者
番号である。
また未知話者の入力発声から得られる上記に対応する対
数パワースペクトル包絡をl、ヒツチ周波数を11  
とする。なおこれらの時系列パターンは時間方向に正規
化したものでおる。ここで時間方向における正規化とは
、これを時間軸方向に多数の区分に区分化して、各区分
の中心の値を抽出し。
比較すべきデータ量を減少させる処理を行うものである
そして対数パワースはクトル包絡時系列パターン間の距
離をdi として dz = l L   L  I (’=1+ 2−−
)と定義し、その最小距離 m1n(di ) i=1.m を有する話者番号tυを求める。
またピッチ周波数ノぐターン間の距離をliとし七 ム=1が−17” l (i=1 、2−・・m)と定
義し、その最小距離 m1rL(Li ) i=1 m を有する話者番号器(℃を求める。
その結果iυ=i■のとき、iを未知話者の話者番号と
L7て出力し、iυNL■のときは未知話者に対して再
発声を要求することになる。
発明の実施例 本発明の一実施例を第6図にもとづき他図を参照しなが
ら説明する。
図中、1はマイクロホン、2はアナログ−ディジタル変
換器(以下A/D変換−器という)、3は前処理回路、
4はFFT演算部であってFFTのみならず高速フーリ
エ逆弯換をも行うもの、5は対数パワースペクトル計算
回路、6はデータ取出し回路、7はピッチ抽出回路、8
は第1メモリ。
9はスペクトル正規化回路、10は第2メそり。
11は時間正規化回路、12はモード切換回路で九って
話者登録時と話者識別時との切換を行うもの、15は外
部指示入力端子部、14はスはクトル辞書、15はピッ
チ辞書、16は距離演算部。
17は判定部である。
(1)登録時 まず外部指示入力端子部13より話者登録信号を入力す
る。これによりモード切換回路12は登録モードとして
動径し2時間正規化回路11よシ伝達される対数パワー
スはクトル包絡の時系列をスペクトル辞書14に格納し
、また同じくピッチ周波数の時系列をピッチ辞書15に
格納するような動作状態になる。
それから登録話者が行ったテキスト発声はマイクロホン
1から4力されてA/D変換器2で10KHz サンプ
リングでA/D変換される。それから前処理回路3で、
第1図(ロ)に示す如(,25,6m♂gcのハニング
窓をかけて分析間隔12.8mesc毎に音声信号を切
り出し、これをFFT演算部4でFFTされる。このF
FT出力は対数パワースはクトル計算回路5により対数
・ぞワースはクトル4、計算され、それが再びF’FT
演算部4にて今度は逆FFTされ、第3図に示すケプス
トラムが得られる。このケプストラムはピッチ抽出回路
7に伝達され、これにお込てそのケプストラムの高ケフ
レンシ部からピッチ周波数及び重みが計算され。
第1メモリ8に格納される。ところで前記FFT演算部
4における逆FFTにより得られたケプストラムの低ケ
フレンシ部分からデータ取出し回路6によシデータを取
出して、再びFFT演算部4でFFT計算を行う。そし
てその結果得られた。
第2図Eに示すような対数パワースペクトル包絡をスペ
クトル正規化回路9で正規化する。ここで正規化とは1
例えば第5図に示す如き包絡線Eがありその平均値をX
o  とするとき、この包絡線Eの値をXO軸を原座標
軸つまシO軸としてこれからの変位を示すデータに変換
する処理である。このようにしてスにクトル正規化回路
9で正規化された対数パワースペクトル包絡の時系列が
第2メモリ10に格納される。それから第1メモリ8及
び第2メモリ10に格納された1重み付けされた゛ピッ
チ周波数の時系列データ及び対数パワースペクトル包絡
の時系列データを1時間正規化回路11で正規化する。
そしてモード切換回路12により対数パフースはりtル
包絡の時系列データをスペクトル辞書1dに格納し、ピ
ッチ周波数の時系列データをピッチ辞書15に格納する
(2)識別時 話者識別を行う場合には、外部指示入力端子部13よシ
話者識別信号を入力する。これによシモード切換回路1
2は識別モードで動作することになる。
話者識別モードの場合、マイクロホンlから未知話者の
テキスト癲声が入力されると、前記(1)と同様にして
これが分析され、2つの特徴時系列。
つまシ対数、J?ワースベクトル包絡の時系列とピッチ
周波数の時系列を求める。このとき、まず時間正規化回
路11から、正規化された対数パワースペクトル包絡の
時系列が伝達される。モード切換回路12はこの未知話
者のこの時系列を距離演算部16に伝達するとともにス
ペクトル辞書14か尾各登録話者の対iパワースペクト
ル包絡の時系、゛ 列を順次距離演算部16に出力させる。そして距離演算
部16におりで未知話者と登録話者との対数パワースペ
クトル包絡の時系列に対する距離計算が行われ、この距
離計算が順次判定部17に出力される。
次いで時間正規化回路11から同じく正規化された未知
話者の重み付けしたピッチ周波数の時系列がモード切換
回路12に伝達されたとき、モード切換回路12はこれ
を距離演算部16に伝達し。
またピッチ辞書15から各登録話者の重み付けしたピッ
チ周波数の時系列を順次距離演算部16に出力させる。
そして距離演算部16では未知話者と対象話者との重み
付けしたピッチ周波数の時系列に対する距離計算が行わ
れ、この距離計算が順次判定部17に出力される。判定
部17では対数パワースはクトル包絡の時系列に対する
距離計算のうち、最小の値の職別対象登録話者の話者番
号NSと重み付けしたピッチ周波数の時系列に対する距
離計算のうち最小値の識別対象登録話者の話者番号NP
を求めてこれらが一致すればこの話者番号を未知話者の
話者番号として出力する。しかし不一致のときは未知話
者に対しテキストの再発声を要求することになる。
発明の効果 本発明によれば1話者固有の特徴量としてピッチ周波数
や周波数軸での特徴のみならず、これらの時間軸での特
徴をも付加して話者識別を行うようにしたので1話者固
有の声道特性、声帯特性のみならず2時間変位特性をも
付加して識別を行うことができることになり、その識別
率を非常に向上させることができる・
【図面の簡単な説明】
第1図(イ)は話者の入力信号、第1図(ロ)はハニン
グ窓で該入力信号を切り出したもの、第2図は対数パワ
ースはクトル及び対数パワースはクトル包絡線、第3図
はケプヌトラム、第4図はピッ′チパタン、第5図はス
ペクトル正規化説明図、第6図は本発明の一実施例構成
図をそれぞれ示す。 図中、1はマイクロホン、2はアナログ−ディジタル変
換器、3は前処理回路、4はFFT演算部、5は対数パ
ワースペクトル計算回路、6はデータ取出し回路、7は
ピッチ抽出回路、8は第1メモリ、9はスペクトル正規
化回路、10は第2メモリ、11は時間正規化回路、1
2はモード切換回路、13は外部指示入力端子部、14
はスペクトル辞書、15はピッチ辞書、16は距離演算
部、17は判定部である。 特許出願人 富士通株式会社

Claims (1)

  1. 【特許請求の範囲】 あらかじめ決められた語を職別対象となる各話者が前も
    って発声登録し、新たに入力された識別ζ象話者の発声
    から発声話者を識別する話者識別ν式において、各話者
    が発声した音声のケプストラム分析から得られる対数パ
    ワースはクトル包絡の時系列を保持するスペクトル包絡
    保持手段と。 重み付けしたピッチ周波数の時系列を保持するピッチ周
    波数保持手段と、入力音声より得られた対数パワースペ
    クトル包絡の時系列と前記スペクトル包絡保持手段より
    得られた対数パワースペクトル包絡の時系列の距離およ
    び入力音声より得られたピッチ周波数の時系列と前記ピ
    ッチ周波数保持手段より得られたピッチ周波数の時系列
    の距離を演算し、これにもとづき話者識別を行うことを
    特徴とする話者識別方式。
JP57225373A 1982-12-22 1982-12-22 話者識別方式 Pending JPS59114600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57225373A JPS59114600A (ja) 1982-12-22 1982-12-22 話者識別方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57225373A JPS59114600A (ja) 1982-12-22 1982-12-22 話者識別方式

Publications (1)

Publication Number Publication Date
JPS59114600A true JPS59114600A (ja) 1984-07-02

Family

ID=16828328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57225373A Pending JPS59114600A (ja) 1982-12-22 1982-12-22 話者識別方式

Country Status (1)

Country Link
JP (1) JPS59114600A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193797A (ja) * 1987-10-05 1989-04-12 Nippon Denso Co Ltd 音波認識装置
JPH03212700A (ja) * 1990-01-18 1991-09-18 Matsushita Electric Ind Co Ltd 信号処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193797A (ja) * 1987-10-05 1989-04-12 Nippon Denso Co Ltd 音波認識装置
JPH03212700A (ja) * 1990-01-18 1991-09-18 Matsushita Electric Ind Co Ltd 信号処理装置

Similar Documents

Publication Publication Date Title
Dhingra et al. Isolated speech recognition using MFCC and DTW
CN103617799B (zh) 一种适应于移动设备的英语语句发音质量检测方法
Tiwari MFCC and its applications in speaker recognition
US5842162A (en) Method and recognizer for recognizing a sampled sound signal in noise
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Hamid et al. Makhraj recognition for Al-Quran recitation using MFCC
JPH0638199B2 (ja) 音声認識装置
Priyadarshani et al. Dynamic time warping based speech recognition for isolated Sinhala words
US20020065649A1 (en) Mel-frequency linear prediction speech recognition apparatus and method
Maazouzi et al. MFCC and similarity measurements for speaker identification systems
JPH0797279B2 (ja) 音声認識装置
JP3354252B2 (ja) 音声認識装置
JPS59114600A (ja) 話者識別方式
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Saha et al. Modified mel-frequency cepstral coefficient
JPH0246960B2 (ja)
JPS61137199A (ja) 単語音声の認識方法
Mut et al. Improved Weighted Matching for Speaker Recognition.
JPS63213899A (ja) 話者照合方式
JPH0441357B2 (ja)
Al Hindawi et al. The exploitation of Multiple Feature Extraction Techniques for Speaker Identification in Emotional States under Disguised Voices
JPH0469800B2 (ja)
Benhafid et al. A Study of Acoustic Features in Arabic Speaker Identification under Noisy Environmental Conditions
JPS62143100A (ja) 音声パタ−ンマツチング方式
Sahu et al. Odia isolated word recognition using DTW