JPS59111699A - 話者認識方式 - Google Patents

話者認識方式

Info

Publication number
JPS59111699A
JPS59111699A JP57221652A JP22165282A JPS59111699A JP S59111699 A JPS59111699 A JP S59111699A JP 57221652 A JP57221652 A JP 57221652A JP 22165282 A JP22165282 A JP 22165282A JP S59111699 A JPS59111699 A JP S59111699A
Authority
JP
Japan
Prior art keywords
speaker
registered
voice
memory
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57221652A
Other languages
English (en)
Inventor
奈良 泰弘
小林 敦仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57221652A priority Critical patent/JPS59111699A/ja
Publication of JPS59111699A publication Critical patent/JPS59111699A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の技術分野 本発明は話者認識方式に係り、特に複数の人間が発音し
た音声が登録されているときに入力音声がこの登録され
ている複数の人間の音声のうちどれともつとも類似して
いるものか認識できるようにしたものに関する。
技術の背景 現在の音声認識装置では9話者が自分の声で登録した辞
書を使用した場合には高い認識率が得られるが、誰の声
でも認識できるものではなく、他人の声で登録された辞
書を使用した場合にはがなり認識率が低下する。したが
って9例えば電話で伝達された声により音声認識を行う
場合には、第1段階として電話での話者が誰であるのか
、あるいは複数登録話者のうちの誰に類似しているのか
を認識する9話者認識が必要であった。
従来技術と問題点 従来の話者認識法には「話し方」に着目する方法と、「
音質」に着目する方法がある。前者は。
例えば発声速度やイン)・ネーションの変化パターンに
注目する方法であるが、簡単な手法でdあるものの、登
録辞書には音質に関連するデータが多く登録されており
「話し方」のデータには音質に関する分析が不充分のた
め、音声認識装置の使用に先立つ辞書選びには適さない
。また後者は発声者の声帯の形状や口腔等共鳴器管の形
状により決まる音質に注目する方法であるが、既に登録
しである複数話者のうちの1人が発声し、それが誰であ
るかを判定する用途には精度の点で不向きである反面、
登録していない新らしい話者の声が誰のものに似かよっ
ているかを判定するには好適である。
音質に注目した従来の話者認識技術には2発声音の音質
をフレーム間隔毎に分析して%全パラメータを抽出して
からこの特徴パラメータを時間軸方向にたし合わせ平均
化したものを話者毎に比較するというものがおる。しか
しこの方法では平均化したパターンに発声法の影響、す
なわち照星の長短のような、音質の特徴以外に話し方の
%徴がかなり含まれており、正確な認識には不充分であ
った。
発明の目的 本発明の目的はこのような問題を改善するために登録話
者の音声をフレーム間隔毎に分析し・で得られるパラメ
ータをメモリに格納しておき、入力音声の1フレーム毎
に登録話者の誰の声に似ているかを判断し、入力音声の
発声後に誰の声に似ているフレームが多かったかによっ
て総合判断を行うことにより発声法の影響を受けずに、
高精度に発声者の声が誰のものに類似しているかを判定
できるようにした話者認識方式を提供することにらる。
発明の構成 この目的を遂行するため2本発明の話者認識方式では、
入間が発音した音声を処理し2発音者の声が登録者の誰
のものに似ているかを判定する話者認識装置において、
複数の人間が発声した音声をフレーム周期で分析したパ
ラメータ時系列を話者毎に保持する細分類音種パターン
メモリを設け。
発声者の音声をフレーム周期で分析したパラメータ時系
列と細分類音柚パターンメモリのパラメータ時系列との
相関を演算してフレーム周期毎KMも相関の大きい登録
話者名を選択する選択手段を設け9発声後最も多数回選
択された登録話者名を決定してこれを話者認識結果とし
て出力するようにしたことを特徴とする。
発明の要点 本発明ではあらかじめ複数基の話者が発声した音声をフ
レーム間隔毎に分析して得られるパターン群を話者毎E
C整理してメモリ(細分類音種メモリと呼ぶ)に格納し
ておく。そして話者認識すべき発声者の1フレームに対
する分析結果と、細分類音種メモリの全項目と相関(類
似度)を計算し。
最も類似度の高いパターンの発声省名を記録する。
このような処理を話者認識すべき発声者の音声の全フレ
ームに対して行ない、最も高い頻度で選択された発声者
名を話者認識結果とするものである。
発明の史&4月 本発明の一実施例を添付図面にもとづき詳述する。
図中、1はマイクロフォン、2は16チヤネルのバンド
パス・フィルタ拳バンク(以下バンドパス・フィルタと
いう)、3はマルチプレクサ。
4はアナログ・ディジタル変換器(以下A/D変換器と
いう)、5は細分類音種メモリ、6はチェビシェフノル
ム計算回路、7は最小値演算部、8はデコーダ、9は登
録話者頻度記録部、ioI′i最大値演算部181.8
2はそれぞれスイッチ部である。
バンドパス・フィルタ2はマイクロフォン1から入力さ
れた音声信号をf□〜f1gの16の周波数に分析する
ものであって、スペクトルの概形を表わす16チヤ卆I
4のアナログ信号を出力するものである。
マルチプレクサ3は例えば10m5のサンプル周期毎に
1回、チ1ヤネ1t−1〜16のアナログ信号をスキャ
ンすることにより時分割サンプルを行うものである。そ
してこの時分割された1アナログ信号出力はA/D変換
器4によりティジタル量に変換されて1例えば16ワー
ド/フレームのディジタル出力される。したがって入力
発声長を例えば1秒間とすると、1発声について 1o
oフレ−ム×16ワードー1600ワードが出力される
ことになる。
細分類音種メモリ5は登録者の特徴を保持するメモリで
あって、各登録者毎にその特徴を保持するために登録者
毎にこれを用意する。したがってこの例のように登録者
が10名いる場合には細分類音m第1メモリ5−0〜細
分類音m第10メモリ5−9を用意する。
チェビシェフノルム計算回路6はフレームの類似度を計
算するものであって ΣlI+−D+1 −1 を割算するものである。ここでI、はA/D変換器4か
ら出力される第1チヤネルを表わし、Dlはスイッチ部
S2を経由して伝達される細分類音種メモリ5に保持さ
れている1辞書項目の第1ワードを示す。この計算結果
はA/D変換器4から送出される認識音声の1フレーム
データ(16ワード)と、スイッチ部S2を経由して細
分類音種メモリ5から送出される1辞書項目(16ワー
ド)の距離を表わすととKなる。チェビシェフノルム計
算面゛路6は10m秒に1回、A/D変換器4から1フ
レ一ム分のデータが伝達されると、スイッチ部S2を細
分類音種第1メモリ5−0〜細分類音種第10メモリ5
−9側に順次切換え、100項目×10(m−iooo
項目に対する距離計算を行うが、最小値演算部7はこの
1000回の計算結果の最小値を演算し、その最小値を
与えるデータが細分類音種第1メモリ5−0〜細分類音
種第10メモリ5−9のいずれから出力されたものであ
るかを示す4ビツトの識別コードをフレーム毎に出力す
る。すな1わち最小値演算部7は10m秒毎に1回、4
ビツトの識別コードを出力することになる。
デコーダ8はこの4ビツトの識別コードを解読して、そ
れが例えば細分類音種第17モリ5−0から出力された
データと比較したときに最小値が付与されたものである
ことを判読したとき、登録話者頻度記録部9の第1カウ
ンタ9−0に出力を送り、これを+1し9例えば細分類
音種第2メモリ5−1から出力されたものと判読したと
き第2カウンタ9−1に出力を送る。このようにして第
1カウンタ9−0〜第10カウンタ9−9には各フレー
ム毎にもつとも類似した登録話者がカウントされること
になり、これらのカウンタのうち最大値のものを最大値
演算部10で検出することにより認識音声が、登録話者
のどれともつとも類似しているのかを判別できる。
次に添付図面により本発明の詳細な説明する。
(1)  登録時 登録時にはまずスイッチ部S1を細分類音種第1メモリ
5−0と接続し、第1番目の登録話者に例えばあらかじ
め定められた音声を発音させる。この音声はマイクロフ
ォン1から入力されてバンドパス・フィルタ2により1
6チヤネルに周波数分析され、16チヤネルのアナログ
信3が出力される。マルチプレクサ3により10n1秒
のサンプル周期に1回チャネル1〜16のアナログ信月
をスキャンすることにより時分割サンプルを行ない。
この出力はA、/ D変換器4によりディジタル量に変
換される。このようにしてA/D変換器4は10m秒毎
に1チヤネル毎に1ワードの9合計して16ワードのデ
ィジタル出力を生ずることになり、これが細分類音種第
1メモリ5−0に登録されることになる。したがって入
力発声長が1秒の場合には、1発声について100フレ
ーム×16ワードー1600ワードが登録されることに
なる。次に第2番目の登録話者が登録する場合、スイッ
チ部S1を細分類音種第2メモリ5−1側に接続して同
様の入力処理が行われるので、細分類音種第2メモIJ
 5−1には第2番目の登録話者の特徴が保持される。
このようなことが各登録話者毎に行われるので、登録話
者が10名いるときには細分類音種第10メモリ5−9
までに各登録話者の特徴が保持されることになる。
(2)認識時 入力音声が登録話者の誰ともつとも類似しているかとい
うことを認識する場合には、スイッチ部S1を開放状態
にする。このとき入力される音声は。
登録話者が細分類音種メモリ5に特徴を登録するときに
発声したものと同じ音声であることが望ましい。マイク
ロフォン1から入力されたこの被認識音声は、上記(1
)と同様に16チヤネルに周波数分析され、これらが1
0m秒のサンプル周期にスキャンされてディジタル量に
変換され、1フレーム16ワードのディジタル出力がチ
ェビシェフノルム計算回路乙に伝達される。このときス
イッチ部S2は細分類音種第1メモリ5−0と接続して
1ワードづつこのメモリの読出しを行ない、チェビシェ
フノルム計算回路6にて上記!l l I、−D、 l
 −c−1 表現される財力を行う。すなわち被認識音声及び細分類
音種メモリから得られた1項目16ワードのデータのそ
れぞれ対応する項の差の絶対値の和が引算されることに
なり、この計算結果がA/D変換器4から送られる1フ
レーム・データ(16ワード)と細分類音種メモリ5か
ら送出される1辞書項目(16ワード)の距離を表わす
ことになる。チェビシェフノルム計算回路6は10m秒
に1回、  A/I)変換器4から1フレ一ム分のデー
タが伝達されると、スイッチ部S2を細分類音種第1メ
モリ5−0〜細分類音種第10メモリ5−9側に順次切
換えて、100項×10組に対する距離計算を行うが、
最小値演算部7はこの1000回の計算結果の最小値を
演舞してその最小値を与えるデータが細分類音種第1メ
モリ5−0〜細分類音種第10メモリ5−9のいずれか
ら出力されたものかを示す例えば4ビツトの識別コード
を出力する。
すなわち最小値演算部7は10m秒に1回この識別コー
ドを出力するが、この識別コードはデコーダ8で解読さ
れ、これに対応する第1カウンタ9−〇〜第10カウン
タ9−9が選択的に+1されする信号がデ・−ダ8より
出力される。このようにして被認識音声の一発声が終っ
たとき、最大値演算部10はこの登録話者頻度記録部9
を構成している第1カウンタ9−0〜第10カウンタ9
−9の値を比較して、その値も大きな値を示しているカ
ウンタ゛の番号を話者認識結果として出力するとともに
、第1カウンタ9−〇〜第10カウンタ9−9をリセッ
トする。
なお上記説明ではバンドパス拳フィルタを16  ・チ
ャネルのものを使用した例について説明したが勿論この
チャネル数はこれに限定されるものではなく適当なnチ
ャネルにしたり、ディジタル・フィルターバンクを使用
するとともでき、またフレーム周期を10m秒ではなく
他の適当な時間に変更することもできる。勿論登録話者
は10人に限定されるものではなく任意の複数基に選定
できる。
また話者認識のときに発声する音声は、特定のものでも
、登録時と認識時とが異なるものであってもよい。
発明の効果 本発明によれば例えば語尾発声が長い短いというような
発声法に影脣されることなく、音質にもとづき話者認識
を行うことができるので、高精度の話者認識を行うこと
ができる。したがって、これによりもつとも類似した登
録話者の辞書を利用して不特定話者の音声認識率を高め
ることが可能となる。また電話を使用して入力される話
者に対しても2本発明により前処理を行って類似登録話
者を選定し、その後にその登録辞書を使用することによ
り高精度の音声認識を行うことができる。
【図面の簡単な説明】
添付図面は本発明の一実施例構成図である。 図中、1はマイクロフォン、2はバンドパス・フィルタ
・バンク、3はマルチプレクサ、4はアナログ・ディジ
タル変換器、5は細分類音種メモリ、6はチェビシェフ
ノルム計算回路、7は最小値演算部、8はデコーダ、9
は登録話者頻度記録部、10は最大値演算部T Sl 
+ ”’2はそれぞれスイッチ部である。 特許出願人 富士通株式会社 代理人弁理士 山 谷 晧 榮

Claims (1)

  1. 【特許請求の範囲】 人間が発音した音声を処理し9発音者の声が登録者の誰
    のものに似ているかを判定する話者認識装置において、
    複数の人間が発声した音声をフレーム周期で分析したパ
    ラメータ時系列を話者毎に保持する細分類音種パターン
    メモリを設け2発声者の音声をフレーム周期で分析した
    パラメータ時系列と細分類音種パターンメモリのパラメ
    ータ時系列との相関を演算してフレーム周期毎に最も相
    関の大きい登録話者名を選択する選択手段を設け。 発声後爪も多数回選択された登録話者名を決定してこれ
    を話者認識結果として出力するようにしたことを%鑓と
    する話者認識方式。
JP57221652A 1982-12-17 1982-12-17 話者認識方式 Pending JPS59111699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57221652A JPS59111699A (ja) 1982-12-17 1982-12-17 話者認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57221652A JPS59111699A (ja) 1982-12-17 1982-12-17 話者認識方式

Publications (1)

Publication Number Publication Date
JPS59111699A true JPS59111699A (ja) 1984-06-27

Family

ID=16770129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57221652A Pending JPS59111699A (ja) 1982-12-17 1982-12-17 話者認識方式

Country Status (1)

Country Link
JP (1) JPS59111699A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02502606A (ja) * 1987-12-09 1990-08-23 ビーチヤム・グループ・ピーエルシー 新規物質
JPH03276199A (ja) * 1990-03-27 1991-12-06 Agency Of Ind Science & Technol 話者認識方法
JPH03276200A (ja) * 1990-03-27 1991-12-06 Agency Of Ind Science & Technol 話者認識方法
JPH04293097A (ja) * 1991-03-22 1992-10-16 Sharp Corp 話者識別装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5722300A (en) * 1980-07-15 1982-02-05 Fujitsu Ltd Word voice recognizing and processing system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5722300A (en) * 1980-07-15 1982-02-05 Fujitsu Ltd Word voice recognizing and processing system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02502606A (ja) * 1987-12-09 1990-08-23 ビーチヤム・グループ・ピーエルシー 新規物質
JPH03276199A (ja) * 1990-03-27 1991-12-06 Agency Of Ind Science & Technol 話者認識方法
JPH03276200A (ja) * 1990-03-27 1991-12-06 Agency Of Ind Science & Technol 話者認識方法
JPH04293097A (ja) * 1991-03-22 1992-10-16 Sharp Corp 話者識別装置

Similar Documents

Publication Publication Date Title
US4910784A (en) Low cost speech recognition system and method
US4811399A (en) Apparatus and method for automatic speech recognition
US5465318A (en) Method for generating a speech recognition model for a non-vocabulary utterance
US5167004A (en) Temporal decorrelation method for robust speaker verification
US4802231A (en) Pattern recognition error reduction system
US4087632A (en) Speech recognition system
EP1159737B1 (en) Speaker recognition
JPH05232984A (ja) 音声分析における基準パターン形成方法
CA1329275C (en) Speaker identification
US5751898A (en) Speech recognition method and apparatus for use therein
JPS59111699A (ja) 話者認識方式
JPS645320B2 (ja)
CN107945807B (zh) 基于静音游程的语音识别方法及其***
JP3049235B2 (ja) 複合的な文法ネットワークを用いる音声認識システム
JPH04273298A (ja) 音声認識装置
JP3011421B2 (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP2792720B2 (ja) 音声認識装置
JP2577891B2 (ja) 単語音声予備選択装置
JP2658104B2 (ja) 音声認識装置
JPS59224900A (ja) 音声認識方法
JPH04271397A (ja) 音声認識装置
JPH02254498A (ja) 音韻分類記号化装置
JPH06100920B2 (ja) 音声認識装置
JPS59189398A (ja) 連続音声認識方式