JPS59114600A

JPS59114600A - 話者識別方式

Info

Publication number: JPS59114600A
Application number: JP57225373A
Authority: JP
Inventors: 小林　敦仁
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1982-12-22
Filing date: 1982-12-22
Publication date: 1984-07-02

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の技術分野本発明はあらかじめ決められた語（以下テキストと称す
。）を前もって識別対象話者が発声登録し、新たに入力
された対象話者の発声から発声者を識別するという話者
識遣す方式に係り、特に発声話者の特徴パターンとして
、ケプストラム分析から得られる対数ノぞワースベクト
ル包絡の時系列と話者識別率を得ることのできる話者識
別方式に関する。

技術の背景、従来技術と問題点話者認識には話者照合と話者識別がある。話者照合は発
声した話者がその人自身であるか否かを職別するもので
、また話者識別はあらかじめ発声登録した話者の中で入
力発声した話者が語れであるかを識別するものである。

そして話者認識を行なう場合、あら′かじめ決められた
チャストの発声を用いるものと、テキストには依存しな
い発声を周込るものとの２つの方法がある。しかしテキ
ストには依存しない方法は。

精密な音響特徴の抽出が必要であり、高−認識率はあま
り期待できない。また話者認識技術は身分証明や印鑑の
代りに利用できる等の利点が多くある。

従来のテキスト限定方法による話者認識技術では１話者
固有の特徴量として、ピッチ情報を使用して認識する方
法やホルマｙト周波数を計算しそら相違により話者を識
別する方法等がある。しかしこれらの方法は周波数軸で
の特徴量を主として使用するものであって時間軸での特
徴を軽視して込たため、識別対象話者数が少ない場合に
はある程度の職別能力をもっているが、識別対象話者数
が多くなってくると認識率が低下するという欠点がある
。

発明の目的本発明の目的は、このような欠点を改善するため、あら
ｌじめ決められたテキストを発声して。

発声話°者を対象話者の中から識別に必要な各話者の特
徴量として１発声話者の音声のケプストラム分析から得
られる対数パワースペクトル包絡の時系列と重み付けし
なピッチ周波数の時系列を用いることにより高−認識率
を得ることである。

発明の構成この目的を遂行するため９本発明の話者職別方式では、
あらかじめ決められた語を識別対象となる各話者が前も
って発声登録し、新たに入力された職別対象話者の発声
から発声話者を識別する話ｆｌｌＲ別方式において、各
話者が発声した音声のケプストラム分析から得られる対
数パワースはクトル包絡の時系列を保持するスペクトル
包絡保持手段と２重み付けしたピッチ周波数の時系列を
保持するピッチ周波数保持手段と、入力音声より得られ
た対数パワースペクトル包絡の時系列と前記スペクトル
包絡保持手段より得られた対数パヮースはクトル包絡の
時系列の距離および入力音声よシ得られたピッチ周波数
の時系列と前記ピッチ周波数保持手段よシ得られたマツ
チ周波数の時系列の距離を演算しこれにもとづき話者識
別を行うことを特徴とする。

発明の要点本発明の一実施例を説明するに先立ち１話者識別に使用
する２つの特徴、すなゎ°（対数パワースペクトル包絡
の時系列及び重み付けしたピッチ周波数の時系列と、こ
れらを使用した話者識別についてそれぞれ説明する。

（１）　　対数／ぐワースはクトル包絡の時系列対数パ
ワースペクトル包絡情報は、声道の音響確性を良く近似
して−ると考えられて込る。人間゛の声道は、その人ご
とに固有な声道特性を持っており、その話者固有の情報
も、対数パヮースにクトル包絡情報に多く含まれて−る
。また話者ごとにその発声速度は異なり時ｉ軸上での変
動情報も話者認識上重要である。

テキスト音声のアナログ信号を１例えば１゜ＫＨｚでサ
ンプリングしてアナログ−ディジタル変換したのち、（
第１図（イ）に１例を示す）これを）２５．６　ｍｙｇｃのハニング窓Ｗ（第１図にその正方
向部分のみを示す）をかけて切り出し、第１図向のデー
タを得、これにより得られた２５６点（１０ＫＨｚ　で
サンプリングしているため）の高速フーリエ変換（以下
ＦＦＴという）をほどこす。

このＦ、ＦＴの結果から第２図にＳとして示さｉるよう
な対数パワースはクトルを求め、この対数パワースペク
トルに逆ＦＦＴ（高速フーリエ逆変換）をかけて、第３
図に示す如きケプストラムを求める。なお第３図にお−
て横軸はケフレンシ（ディメンジョンは時間）である。

このケグストラムのケフレンシ軸上の低ケフレンシ部分
の３２点を抽出して再びＦＦＴ　（２５６点）をほどこ
すと、第２図にＥとして示す対数パワースペクトル包絡
線が求められる。

このような操作を分析間隔１２．８　ｒｎｓｅｃ毎に行
う。この結果得られる対数パワースペクトル包絡の時系
列りは次の様に表わされることになるＯｌミＡｘ　、Ｊ
ａ　、Ｊａ・聞・ＬルここでＩＬｉ　（ｉ＝１　、２．、、ル）は各周波数に
おけるパワーの大きさでありルはフレーム番号である。

（２）　　ピッチ周波数の時２系列上記（１）において声道の構造の違いは声道の共振特性
として現われることを前述したが１人間によって異なる
声帯の構造の特徴はピッチ周波数の情報に含まれると考
えられる。

上記（１）と同様に、テキスト音声をｌ０ＫＨ２でサン
プリングし、アナログ−ディジタル変換したのち、　　
２５．６　ｍ５ｅｃのハニング窓、をかけて切り出入ｐ
、２５６点のＦＦＴをほどこす。この結果から傷２図に
Ｓとして示す対応パワースペクトルを計算し、その対数
パワースペクトルに２５６点の逆ＦＦＴをかけて第３図
に示すよりなケプストラムを求める。このケグストラム
におＡてケフレンシ軸上の高ケフレンシ部に現われる尖
鋭なピーク点（第３図では約７５．ｍ５ａｃのところに
出現）にピッチ周波数の情報が現われている。ここで成
人男子のピッチ周波数は１００〜１５０Ｈ２，成人女子
のピッチ周波数は２５０〜３００Ｈ２と−う仮定から、
このピーク点はケフレンシ軸上のおくれ時間３０〜１２
０ｍ５ｅｃ（約３３０Ｈｚ　〜８３Ｈ２）の範囲内にあ
る。

いま、この最大のピーク点の持つおくれ時間をτとする
と、ピッチ周波数Ｔは τ となる。

一方声帯振動をともなわなり子音部ではピッチ周波数は
観測されず、ケプストラムの高ケフレンシ部には鋭いピ
ークは検出されない。そこでピークの尖鋭度ＰをＰ＝最大ピーク値と定義し、ピッチらしさを表わす重みＷをＷ＝Ｐ／戸と定義する。ここでＰ”は、多数の人の有声音における
Ｐの平均値である。そしてこの分析を分析間隔１２．８
　ｍ５ｅｃ毎に行う。その結果得られる重み付けされた
ピッチ周波数の時系列Ｔは次のように表わされることに
なる。

’Ｉ　＝　ＴＩＷｌ、ＴａＷｇ・・・・・・Ｔｉ翫ここ
でＴｉ（ｉ＝１．２・・・ｒＬ）はピッチ周波数。

Ｗｉ　（ｉ　＝　１　、２−・−ｎ　）　　は重み、ｎ
はフレーム番号である。

このようにして得たピッチ周波数の時系列の例を第４図
に示す。第４図はテキスト「あげてｂる」を発声したと
きの、尖鋭度の高い部分のみを表示したピッチパターン
である。

（３）話者識別複数の対象話者が各々あらかじめ定められたテキストを
発声して登録した対数パワースペクトル庖絡の時系列と
ピッチ周波数の時系列をそれぞれＬ　　、Ｌ　　・・・
・・・ＩＬ（対数パワースペクトル包絡）１．１　・・
・・・・１　（ヒツチ周波数）とする。ここで屏は話者
番号である。

また未知話者の入力発声から得られる上記に対応する対
数パワースペクトル包絡をｌ、ヒツチ周波数を１１　　
とする。なおこれらの時系列パターンは時間方向に正規
化したものでおる。ここで時間方向における正規化とは
、これを時間軸方向に多数の区分に区分化して、各区分
の中心の値を抽出し。

比較すべきデータ量を減少させる処理を行うものである
。

そして対数パワースはクトル包絡時系列パターン間の距
離をｄｉ　としてｄｚ　＝　ｌ　Ｌ　　　Ｌ　　Ｉ　（’＝１＋　２−−
）と定義し、その最小距離ｍ１ｎ（ｄｉ　）ｉ＝１．ｍを有する話者番号ｔυを求める。

またピッチ周波数ノぐターン間の距離をｌｉとし七ム＝１が−１７”　ｌ　（ｉ＝１　、２−・・ｍ）と定
義し、その最小距離ｍ１ｒＬ（Ｌｉ　）ｉ＝１　ｍを有する話者番号器（℃を求める。

その結果ｉυ＝ｉ■のとき、ｉを未知話者の話者番号と
Ｌ７て出力し、ｉυＮＬ■のときは未知話者に対して再
発声を要求することになる。

発明の実施例本発明の一実施例を第６図にもとづき他図を参照しなが
ら説明する。

図中、１はマイクロホン、２はアナログ−ディジタル変
換器（以下Ａ／Ｄ変換−器という）、３は前処理回路、
４はＦＦＴ演算部であってＦＦＴのみならず高速フーリ
エ逆弯換をも行うもの、５は対数パワースペクトル計算
回路、６はデータ取出し回路、７はピッチ抽出回路、８
は第１メモリ。

９はスペクトル正規化回路、１０は第２メそり。

１１は時間正規化回路、１２はモード切換回路で九って
話者登録時と話者識別時との切換を行うもの、１５は外
部指示入力端子部、１４はスはクトル辞書、１５はピッ
チ辞書、１６は距離演算部。

１７は判定部である。

（１）登録時まず外部指示入力端子部１３より話者登録信号を入力す
る。これによりモード切換回路１２は登録モードとして
動径し２時間正規化回路１１よシ伝達される対数パワー
スはクトル包絡の時系列をスペクトル辞書１４に格納し
、また同じくピッチ周波数の時系列をピッチ辞書１５に
格納するような動作状態になる。

それから登録話者が行ったテキスト発声はマイクロホン
１から４力されてＡ／Ｄ変換器２で１０ＫＨｚ　サンプ
リングでＡ／Ｄ変換される。それから前処理回路３で、
第１図（ロ）に示す如（，２５，６ｍ♂ｇｃのハニング
窓をかけて分析間隔１２．８ｍｅｓｃ毎に音声信号を切
り出し、これをＦＦＴ演算部４でＦＦＴされる。このＦ
ＦＴ出力は対数パワースはクトル計算回路５により対数
・ぞワースはクトル４、計算され、それが再びＦ’ＦＴ
演算部４にて今度は逆ＦＦＴされ、第３図に示すケプス
トラムが得られる。このケプストラムはピッチ抽出回路
７に伝達され、これにお込てそのケプストラムの高ケフ
レンシ部からピッチ周波数及び重みが計算され。

第１メモリ８に格納される。ところで前記ＦＦＴ演算部
４における逆ＦＦＴにより得られたケプストラムの低ケ
フレンシ部分からデータ取出し回路６によシデータを取
出して、再びＦＦＴ演算部４でＦＦＴ計算を行う。そし
てその結果得られた。

第２図Ｅに示すような対数パワースペクトル包絡をスペ
クトル正規化回路９で正規化する。ここで正規化とは１
例えば第５図に示す如き包絡線Ｅがありその平均値をＸ
ｏ　　とするとき、この包絡線Ｅの値をＸＯ軸を原座標
軸つまシＯ軸としてこれからの変位を示すデータに変換
する処理である。このようにしてスにクトル正規化回路
９で正規化された対数パワースペクトル包絡の時系列が
第２メモリ１０に格納される。それから第１メモリ８及
び第２メモリ１０に格納された１重み付けされた゛ピッ
チ周波数の時系列データ及び対数パワースペクトル包絡
の時系列データを１時間正規化回路１１で正規化する。

そしてモード切換回路１２により対数パフースはりｔル
包絡の時系列データをスペクトル辞書１ｄに格納し、ピ
ッチ周波数の時系列データをピッチ辞書１５に格納する
。

（２）識別時話者識別を行う場合には、外部指示入力端子部１３よシ
話者識別信号を入力する。これによシモード切換回路１
２は識別モードで動作することになる。

話者識別モードの場合、マイクロホンｌから未知話者の
テキスト癲声が入力されると、前記（１）と同様にして
これが分析され、２つの特徴時系列。

つまシ対数、Ｊ？ワースベクトル包絡の時系列とピッチ
周波数の時系列を求める。このとき、まず時間正規化回
路１１から、正規化された対数パワースペクトル包絡の
時系列が伝達される。モード切換回路１２はこの未知話
者のこの時系列を距離演算部１６に伝達するとともにス
ペクトル辞書１４か尾各登録話者の対ｉパワースペクト
ル包絡の時系、゛列を順次距離演算部１６に出力させる。そして距離演算
部１６におりで未知話者と登録話者との対数パワースペ
クトル包絡の時系列に対する距離計算が行われ、この距
離計算が順次判定部１７に出力される。

次いで時間正規化回路１１から同じく正規化された未知
話者の重み付けしたピッチ周波数の時系列がモード切換
回路１２に伝達されたとき、モード切換回路１２はこれ
を距離演算部１６に伝達し。

またピッチ辞書１５から各登録話者の重み付けしたピッ
チ周波数の時系列を順次距離演算部１６に出力させる。

そして距離演算部１６では未知話者と対象話者との重み
付けしたピッチ周波数の時系列に対する距離計算が行わ
れ、この距離計算が順次判定部１７に出力される。判定
部１７では対数パワースはクトル包絡の時系列に対する
距離計算のうち、最小の値の職別対象登録話者の話者番
号ＮＳと重み付けしたピッチ周波数の時系列に対する距
離計算のうち最小値の識別対象登録話者の話者番号ＮＰ
を求めてこれらが一致すればこの話者番号を未知話者の
話者番号として出力する。しかし不一致のときは未知話
者に対しテキストの再発声を要求することになる。

発明の効果本発明によれば１話者固有の特徴量としてピッチ周波数
や周波数軸での特徴のみならず、これらの時間軸での特
徴をも付加して話者識別を行うようにしたので１話者固
有の声道特性、声帯特性のみならず２時間変位特性をも
付加して識別を行うことができることになり、その識別
率を非常に向上させることができる・

【図面の簡単な説明】

第１図（イ）は話者の入力信号、第１図（ロ）はハニン
グ窓で該入力信号を切り出したもの、第２図は対数パワ
ースはクトル及び対数パワースはクトル包絡線、第３図
はケプヌトラム、第４図はピッ′チパタン、第５図はス
ペクトル正規化説明図、第６図は本発明の一実施例構成
図をそれぞれ示す。図中、１はマイクロホン、２はアナログ−ディジタル変
換器、３は前処理回路、４はＦＦＴ演算部、５は対数パ
ワースペクトル計算回路、６はデータ取出し回路、７は
ピッチ抽出回路、８は第１メモリ、９はスペクトル正規
化回路、１０は第２メモリ、１１は時間正規化回路、１
２はモード切換回路、１３は外部指示入力端子部、１４
はスペクトル辞書、１５はピッチ辞書、１６は距離演算
部、１７は判定部である。特許出願人　富士通株式会社

Claims

【特許請求の範囲】あらかじめ決められた語を職別対象となる各話者が前も
って発声登録し、新たに入力された識別ζ象話者の発声
から発声話者を識別する話者識別ν式において、各話者
が発声した音声のケプストラム分析から得られる対数パ
ワースはクトル包絡の時系列を保持するスペクトル包絡
保持手段と。重み付けしたピッチ周波数の時系列を保持するピッチ周
波数保持手段と、入力音声より得られた対数パワースペ
クトル包絡の時系列と前記スペクトル包絡保持手段より
得られた対数パワースペクトル包絡の時系列の距離およ
び入力音声より得られたピッチ周波数の時系列と前記ピ
ッチ周波数保持手段より得られたピッチ周波数の時系列
の距離を演算し、これにもとづき話者識別を行うことを
特徴とする話者識別方式。