JPS59111699A

JPS59111699A - 話者認識方式

Info

Publication number: JPS59111699A
Application number: JP57221652A
Authority: JP
Inventors: 奈良　泰弘; 小林　敦仁
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1982-12-17
Filing date: 1982-12-17
Publication date: 1984-06-27

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の技術分野本発明は話者認識方式に係り、特に複数の人間が発音し
た音声が登録されているときに入力音声がこの登録され
ている複数の人間の音声のうちどれともつとも類似して
いるものか認識できるようにしたものに関する。

技術の背景現在の音声認識装置では９話者が自分の声で登録した辞
書を使用した場合には高い認識率が得られるが、誰の声
でも認識できるものではなく、他人の声で登録された辞
書を使用した場合にはがなり認識率が低下する。したが
って９例えば電話で伝達された声により音声認識を行う
場合には、第１段階として電話での話者が誰であるのか
、あるいは複数登録話者のうちの誰に類似しているのか
を認識する９話者認識が必要であった。

従来技術と問題点従来の話者認識法には「話し方」に着目する方法と、「
音質」に着目する方法がある。前者は。

例えば発声速度やイン）・ネーションの変化パターンに
注目する方法であるが、簡単な手法でｄあるものの、登
録辞書には音質に関連するデータが多く登録されており
「話し方」のデータには音質に関する分析が不充分のた
め、音声認識装置の使用に先立つ辞書選びには適さない
。また後者は発声者の声帯の形状や口腔等共鳴器管の形
状により決まる音質に注目する方法であるが、既に登録
しである複数話者のうちの１人が発声し、それが誰であ
るかを判定する用途には精度の点で不向きである反面、
登録していない新らしい話者の声が誰のものに似かよっ
ているかを判定するには好適である。

音質に注目した従来の話者認識技術には２発声音の音質
をフレーム間隔毎に分析して％全パラメータを抽出して
からこの特徴パラメータを時間軸方向にたし合わせ平均
化したものを話者毎に比較するというものがおる。しか
しこの方法では平均化したパターンに発声法の影響、す
なわち照星の長短のような、音質の特徴以外に話し方の
％徴がかなり含まれており、正確な認識には不充分であ
った。

発明の目的本発明の目的はこのような問題を改善するために登録話
者の音声をフレーム間隔毎に分析し・で得られるパラメ
ータをメモリに格納しておき、入力音声の１フレーム毎
に登録話者の誰の声に似ているかを判断し、入力音声の
発声後に誰の声に似ているフレームが多かったかによっ
て総合判断を行うことにより発声法の影響を受けずに、
高精度に発声者の声が誰のものに類似しているかを判定
できるようにした話者認識方式を提供することにらる。

発明の構成この目的を遂行するため２本発明の話者認識方式では、
入間が発音した音声を処理し２発音者の声が登録者の誰
のものに似ているかを判定する話者認識装置において、
複数の人間が発声した音声をフレーム周期で分析したパ
ラメータ時系列を話者毎に保持する細分類音種パターン
メモリを設け。

発声者の音声をフレーム周期で分析したパラメータ時系
列と細分類音柚パターンメモリのパラメータ時系列との
相関を演算してフレーム周期毎ＫＭも相関の大きい登録
話者名を選択する選択手段を設け９発声後最も多数回選
択された登録話者名を決定してこれを話者認識結果とし
て出力するようにしたことを特徴とする。

発明の要点本発明ではあらかじめ複数基の話者が発声した音声をフ
レーム間隔毎に分析して得られるパターン群を話者毎Ｅ
Ｃ整理してメモリ（細分類音種メモリと呼ぶ）に格納し
ておく。そして話者認識すべき発声者の１フレームに対
する分析結果と、細分類音種メモリの全項目と相関（類
似度）を計算し。

最も類似度の高いパターンの発声省名を記録する。

このような処理を話者認識すべき発声者の音声の全フレ
ームに対して行ない、最も高い頻度で選択された発声者
名を話者認識結果とするものである。

発明の史＆４月本発明の一実施例を添付図面にもとづき詳述する。

図中、１はマイクロフォン、２は１６チヤネルのバンド
パス・フィルタ拳バンク（以下バンドパス・フィルタと
いう）、３はマルチプレクサ。

４はアナログ・ディジタル変換器（以下Ａ／Ｄ変換器と
いう）、５は細分類音種メモリ、６はチェビシェフノル
ム計算回路、７は最小値演算部、８はデコーダ、９は登
録話者頻度記録部、ｉｏＩ′ｉ最大値演算部１８１．８
２はそれぞれスイッチ部である。

バンドパス・フィルタ２はマイクロフォン１から入力さ
れた音声信号をｆ□〜ｆ１ｇの１６の周波数に分析する
ものであって、スペクトルの概形を表わす１６チヤ卆Ｉ
４のアナログ信号を出力するものである。

マルチプレクサ３は例えば１０ｍ５のサンプル周期毎に
１回、チ１ヤネ１ｔ−１〜１６のアナログ信号をスキャ
ンすることにより時分割サンプルを行うものである。そ
してこの時分割された１アナログ信号出力はＡ／Ｄ変換
器４によりティジタル量に変換されて１例えば１６ワー
ド／フレームのディジタル出力される。したがって入力
発声長を例えば１秒間とすると、１発声について　１ｏ
ｏフレ−ム×１６ワードー１６００ワードが出力される
ことになる。

細分類音種メモリ５は登録者の特徴を保持するメモリで
あって、各登録者毎にその特徴を保持するために登録者
毎にこれを用意する。したがってこの例のように登録者
が１０名いる場合には細分類音ｍ第１メモリ５−０〜細
分類音ｍ第１０メモリ５−９を用意する。

チェビシェフノルム計算回路６はフレームの類似度を計
算するものであって ΣｌＩ＋−Ｄ＋１ −１を割算するものである。ここでＩ、はＡ／Ｄ変換器４か
ら出力される第１チヤネルを表わし、Ｄｌはスイッチ部
Ｓ２を経由して伝達される細分類音種メモリ５に保持さ
れている１辞書項目の第１ワードを示す。この計算結果
はＡ／Ｄ変換器４から送出される認識音声の１フレーム
データ（１６ワード）と、スイッチ部Ｓ２を経由して細
分類音種メモリ５から送出される１辞書項目（１６ワー
ド）の距離を表わすととＫなる。チェビシェフノルム計
算面゛路６は１０ｍ秒に１回、Ａ／Ｄ変換器４から１フ
レ一ム分のデータが伝達されると、スイッチ部Ｓ２を細
分類音種第１メモリ５−０〜細分類音種第１０メモリ５
−９側に順次切換え、１００項目×１０（ｍ−ｉｏｏｏ
項目に対する距離計算を行うが、最小値演算部７はこの
１０００回の計算結果の最小値を演算し、その最小値を
与えるデータが細分類音種第１メモリ５−０〜細分類音
種第１０メモリ５−９のいずれから出力されたものであ
るかを示す４ビツトの識別コードをフレーム毎に出力す
る。すな１わち最小値演算部７は１０ｍ秒毎に１回、４
ビツトの識別コードを出力することになる。

デコーダ８はこの４ビツトの識別コードを解読して、そ
れが例えば細分類音種第１７モリ５−０から出力された
データと比較したときに最小値が付与されたものである
ことを判読したとき、登録話者頻度記録部９の第１カウ
ンタ９−０に出力を送り、これを＋１し９例えば細分類
音種第２メモリ５−１から出力されたものと判読したと
き第２カウンタ９−１に出力を送る。このようにして第
１カウンタ９−０〜第１０カウンタ９−９には各フレー
ム毎にもつとも類似した登録話者がカウントされること
になり、これらのカウンタのうち最大値のものを最大値
演算部１０で検出することにより認識音声が、登録話者
のどれともつとも類似しているのかを判別できる。

次に添付図面により本発明の詳細な説明する。

（１）　　登録時登録時にはまずスイッチ部Ｓ１を細分類音種第１メモリ
５−０と接続し、第１番目の登録話者に例えばあらかじ
め定められた音声を発音させる。この音声はマイクロフ
ォン１から入力されてバンドパス・フィルタ２により１
６チヤネルに周波数分析され、１６チヤネルのアナログ
信３が出力される。マルチプレクサ３により１０ｎ１秒
のサンプル周期に１回チャネル１〜１６のアナログ信月
をスキャンすることにより時分割サンプルを行ない。

この出力はＡ、／　Ｄ変換器４によりディジタル量に変
換される。このようにしてＡ／Ｄ変換器４は１０ｍ秒毎
に１チヤネル毎に１ワードの９合計して１６ワードのデ
ィジタル出力を生ずることになり、これが細分類音種第
１メモリ５−０に登録されることになる。したがって入
力発声長が１秒の場合には、１発声について１００フレ
ーム×１６ワードー１６００ワードが登録されることに
なる。次に第２番目の登録話者が登録する場合、スイッ
チ部Ｓ１を細分類音種第２メモリ５−１側に接続して同
様の入力処理が行われるので、細分類音種第２メモＩＪ
　５−１には第２番目の登録話者の特徴が保持される。

このようなことが各登録話者毎に行われるので、登録話
者が１０名いるときには細分類音種第１０メモリ５−９
までに各登録話者の特徴が保持されることになる。

（２）認識時入力音声が登録話者の誰ともつとも類似しているかとい
うことを認識する場合には、スイッチ部Ｓ１を開放状態
にする。このとき入力される音声は。

登録話者が細分類音種メモリ５に特徴を登録するときに
発声したものと同じ音声であることが望ましい。マイク
ロフォン１から入力されたこの被認識音声は、上記（１
）と同様に１６チヤネルに周波数分析され、これらが１
０ｍ秒のサンプル周期にスキャンされてディジタル量に
変換され、１フレーム１６ワードのディジタル出力がチ
ェビシェフノルム計算回路乙に伝達される。このときス
イッチ部Ｓ２は細分類音種第１メモリ５−０と接続して
１ワードづつこのメモリの読出しを行ない、チェビシェ
フノルム計算回路６にて上記！ｌ　ｌ　Ｉ、−Ｄ、　ｌ
　−ｃ−１表現される財力を行う。すなわち被認識音声及び細分類
音種メモリから得られた１項目１６ワードのデータのそ
れぞれ対応する項の差の絶対値の和が引算されることに
なり、この計算結果がＡ／Ｄ変換器４から送られる１フ
レーム・データ（１６ワード）と細分類音種メモリ５か
ら送出される１辞書項目（１６ワード）の距離を表わす
ことになる。チェビシェフノルム計算回路６は１０ｍ秒
に１回、　　Ａ／Ｉ）変換器４から１フレ一ム分のデー
タが伝達されると、スイッチ部Ｓ２を細分類音種第１メ
モリ５−０〜細分類音種第１０メモリ５−９側に順次切
換えて、１００項×１０組に対する距離計算を行うが、
最小値演算部７はこの１０００回の計算結果の最小値を
演舞してその最小値を与えるデータが細分類音種第１メ
モリ５−０〜細分類音種第１０メモリ５−９のいずれか
ら出力されたものかを示す例えば４ビツトの識別コード
を出力する。

すなわち最小値演算部７は１０ｍ秒に１回この識別コー
ドを出力するが、この識別コードはデコーダ８で解読さ
れ、これに対応する第１カウンタ９−〇〜第１０カウン
タ９−９が選択的に＋１されする信号がデ・−ダ８より
出力される。このようにして被認識音声の一発声が終っ
たとき、最大値演算部１０はこの登録話者頻度記録部９
を構成している第１カウンタ９−０〜第１０カウンタ９
−９の値を比較して、その値も大きな値を示しているカ
ウンタ゛の番号を話者認識結果として出力するとともに
、第１カウンタ９−〇〜第１０カウンタ９−９をリセッ
トする。

なお上記説明ではバンドパス拳フィルタを１６　　・チ
ャネルのものを使用した例について説明したが勿論この
チャネル数はこれに限定されるものではなく適当なｎチ
ャネルにしたり、ディジタル・フィルターバンクを使用
するとともでき、またフレーム周期を１０ｍ秒ではなく
他の適当な時間に変更することもできる。勿論登録話者
は１０人に限定されるものではなく任意の複数基に選定
できる。

また話者認識のときに発声する音声は、特定のものでも
、登録時と認識時とが異なるものであってもよい。

発明の効果本発明によれば例えば語尾発声が長い短いというような
発声法に影脣されることなく、音質にもとづき話者認識
を行うことができるので、高精度の話者認識を行うこと
ができる。したがって、これによりもつとも類似した登
録話者の辞書を利用して不特定話者の音声認識率を高め
ることが可能となる。また電話を使用して入力される話
者に対しても２本発明により前処理を行って類似登録話
者を選定し、その後にその登録辞書を使用することによ
り高精度の音声認識を行うことができる。

【図面の簡単な説明】

添付図面は本発明の一実施例構成図である。図中、１はマイクロフォン、２はバンドパス・フィルタ
・バンク、３はマルチプレクサ、４はアナログ・ディジ
タル変換器、５は細分類音種メモリ、６はチェビシェフ
ノルム計算回路、７は最小値演算部、８はデコーダ、９
は登録話者頻度記録部、１０は最大値演算部Ｔ　Ｓｌ　
＋　”’２はそれぞれスイッチ部である。特許出願人　富士通株式会社代理人弁理士　山　谷　晧　榮

Claims

【特許請求の範囲】人間が発音した音声を処理し９発音者の声が登録者の誰
のものに似ているかを判定する話者認識装置において、
複数の人間が発声した音声をフレーム周期で分析したパ
ラメータ時系列を話者毎に保持する細分類音種パターン
メモリを設け２発声者の音声をフレーム周期で分析した
パラメータ時系列と細分類音種パターンメモリのパラメ
ータ時系列との相関を演算してフレーム周期毎に最も相
関の大きい登録話者名を選択する選択手段を設け。発声後爪も多数回選択された登録話者名を決定してこれ
を話者認識結果として出力するようにしたことを％鑓と
する話者認識方式。