JPH0441837B2

JPH0441837B2 -

Info

Publication number: JPH0441837B2
Application number: JP59235070A
Authority: JP
Inventors: Hiroyuki Senbon
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1984-11-09
Filing date: 1984-11-09
Publication date: 1992-07-09
Also published as: JPS61114298A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は音声入力による情報処理システムに用
いられる話者照合方式に関する。

〔発明の技術的背景とその問題点〕

近年、音声認識、合成技術の発達が目覚しく、
例えば連続音声認識や不特定話者を対象とした音
声認識が可能となり、また一方話者照合などもい
ろいろとその方式が考え出されている。

このような話者照合技術を用いて、電話による
買物やバンキングサービス、個人情報へのアクセ
ス、機密保管場所等への入出管理などが開発され
ており、その有用性が注目されている。ここで、
これらのシステムは、本人か否かということが問
題となることからセキユリテイーが一番の問題で
ある。しかし、現在の話者照合方式はまだ誤認識
が生じたりしている。この誤認識の原因の１つに
は、システムが照合に用いる各話者のID（暗唱単
語音声）を統一してしまい、この結果ある人にと
つては、そのIDの単語もしくは単語列に個人性
が含まれている割合いが少なく、照合装置が照合
しきれないということがあつた。例えばシステム
がIDを「０（ゼロ）」と指定すると、ある人にと
つては常に「ゼロ」を安定した口調で発声する為
に個人性（安定性）が良く含まれており、個人識
別し易いものとなるが、別の人にとつては「ゼ
ロ」を毎回不安定な口調で発声する為、余り個人
性が含まれず、個人識別し難いものとなる。又、
各話者がジステムに対して自由にIDを指定でき
るものもあるが、この方法では各話者が自分の好
きなIDを発声するので、その中に個人性が含ま
れているとしても、照合装置は様々なIDを照合
（単語認識、音声特徴照合）しなければならない
為、全ての話者に対応出来ないという欠点があつ
た。

〔発明の目的〕

本発明の目的は、話者照合において、装置が照
合しやすいIDを自ら作り出し、照合率の向上が
可能となる話者照合方式を提供することにある。

〔発明の概要〕

本発明は、話者照合の辞書作成に際して、登録
者の発声した複数の単語に対して個人の音声特徴
を分析、登録する手段と、この音声特徴を登録す
る段階で、一旦各単語ごとに話者照合を行なう手
段を備え、この照合結果の良い単語の音声特徴を
利用して各個人の照合用のIDを決定する手段を
有した話者照合方式で、照合を行なう際には、前
記IDを用い、このIDの単語認識と発声者の発声
による話者認識の２つの手段より照合をすること
を特徴とするものである。

〔発明の効果〕

本発明によれば、各登録者に応じて個人性の高
い（安定性の良い）音声特徴を有したIDを与え
ることにより、照合による誤りを減らすことが可
能となり、セキユリテイの面から見ても実用性が
向上する。

〔発明の実施例〕

以下、図面を参照しながら本発明の実施例につ
いて説明する。第１図は本発明の第１の実施例の
フローチヤートであり、第２図は第１の実施例の
ブロツク図である。第１の実施例は、登録者が辞
書を作成する際に予めシステムの指定した複数の
単語を順々に発声してもらいその音声特徴を検出
して仮辞書に登録し、ある回数になつたら（少な
くとも１通りの発声が終わつたら）仮辞書への登
録を止め、登録者に再び複数の単語を順々に発声
してもらうことにより各々の音声特徴を検出し、
これらと仮辞書へ登録された音声特徴とを照合す
ることによりIDを決定し、本辞書登録する方式
である。

先ず、使用者が話者照合を行なうのか、登録を
希望する為辞書を作成するのかを機能選択する
（第１図ステツプ１１，１２）。つまり第２図の機
能選択部１０２で、話者照合Ａを行うが、辞書登
録Ｂを行うかがスイツチにより選択される。この
時、登録が選択された場合は辞書作成を行う為カ
ウンタ１０３が初期設定される（第１図ステツプ
１３）と共にスイツチＣが選択される。第２図に
は示されていないが、初期設定では、仮辞書登録
と照合の為に繰り返し発声をするので、その回数
をカウントするカウンターをクリアし（Ｎ＝０）、
全音声入力回数Ｍをセツトする。例えば数字「０
（ゼロ）」「１（イチ）」，「２（ニ）」……「９（キ
ユ
ウ）」を２回発声してもらうならＭ＝20となる。
このような初期設定を行つた後、第２図のシステ
ムでは図示しないデイススプレイ等を介して使用
者に対し単語音声の入力要求を１単語ごとに順々
に行なう。（例えば最初に「ゼロ」を入力要求す
る。第１図ステツプ１４）使用者が単語の入力要
求に従つて音声（「ゼロ」）を発声すると（第１図
ステツプ１５）、この入力音声は分析部１０１に
おいてＡ／Ｄ変換、スペクトル分析処理等されて
特徴パラメータの系列に変換される（第１図ステ
ツプ１６）。この分析部１０１は、例えば入力音
声が「ゼロ」であれば（／ゼ／／ロ／）という全
体の特徴パラメータ及びその母音の部分（／
エ／）の特徴パラメータの両方を検出する。この
検出された全体の特徴パラメータ及び母音の特徴
パラメータはスイツチＢ，Ｃを介して仮辞書メモ
リー１０４に登録される（第１図ステツプ１８）。
又、分析部１０１の指示によりカウンタ１０３の
音声入力回数が１つ歩進されて（第１図ステツプ
１９）、次の単語音声の入力要求（例えば「イ
チ」）が行われる（第１図ステツプ２０）。こうし
てカウンター１０３がＭ／２（全音声入力回数の
半分）になるまで仮辞書メモリー１０４に登録を
行い（第１図ステツプ１７）、Ｍ／２以上になつ
たらスイツチがＤ側になり、今まで登録を行なつ
てきた仮辞書メモリーを用いて話者照合部１０５
で新たに入力された音声に対して照合を行なう
（第１図ステツプ２１）。この新たに入力された音
声に対し、分析部１０１は、Ｍ／２以上になつた
カウンタ１０３の指示により母音部分のパラメー
タのみ検出する。例えば10回目迄は使用者に「０
（ゼロ）」，「１（イチ）」，……「９（キユウ）」を
発
声させてその母音パラメータ（及び全体パラメー
タ）を登録し、11回目から20回目までは再び使用
者に「０（ゼロ）」，「１（イチ）」，……「９（キユ
ウ）」を発声させて各々の母音部分パラメータ
（「ゼロ」ならば／エ／，「イチ」ならば／イ／）
と既に登録してある母音部分パラメータとの照合
を順次行う。この話者照合は例えば類似度計算や
距離計算を用いて行う。これらの照合結果は照合
に使用された（仮辞書に登録された）母音部分パ
ラメータ及び全体特徴パラメータと共に判別部１
０６へ送られる。

（第１図ステツプ２２）。こような仮辞書登録
中における話者照合及び判別部１０６への転送を
Ｎ＝Ｍになるまで行う（第１図ステツプ２３，２
４，２５）。もし音声入力の回数ＮがＮ＝Ｍにな
つたら、カウンター１０３の指示により判別部１
０６では、話者照合を行つた結果の中でも最も照
合結果の正しかつた（類似度の大きかつた）単語
の音声特徴（母音及び全体のパラメータ）を選ん
で（つまり「ゼロ」〜「キユウ」の中で「ゼロ」
が最も類似度が大きかつたとすれば「ゼロ」に含
まれる母音部分及び全体の特徴パラメータ）を
ID作成部１０７へ出力する（第１図ステツプ２
６）。ID作成部１０７ではこの結果を受けてIDを
作成し（第１図ステツプ２７、例えば送られてき
た全体の特徴パラメータからIDを「ゼロ」とす
る）、本辞書メモリー１０８へ登録する（第１図
ステツプ２８）と共に、使用者にデイスプレイ等
を介してIDを出力する（第１図ステツプ２９）。
ここで本辞書メモリー１０８へ登録されるIDの
形式として、例えばIDが「０（ゼロ）」であると
すると前述したようにID作成部１０７へ送られ
た「ゼロ」という全体の特徴パラメータと母音部
分のパラメータを対として格納される。

一方、上記方式によつて作成されたIDを使用
して話者照合を行なう場合、使用者の指示により
機能選択部１０２のスイツチがＡ側にされる（第
１図ステツプ１１，１２）。次に使用者が暗記し
ているIDを発声すると（第１図ステツプ３０）、
この入力音声は上述した様に分析部１０１で全体
及び母音部分の特徴パラメータに変換される（第
１図ステツプ３１）。単語認識部１１０は使用者
がIDとして発声した単語全体の特徴パラメータ
を入力し、これが本辞書メモリー１０４に予め登
録されているIDの全体の特徴パラメータと一致
しているか否かを認識する（照合する）ものであ
り（第１図ステツプ３２）、話者照合部１０９は
入力音声の母音部分の特徴パラメータがIDとし
て登録されている母音部分の特徴パラメータと一
致しているか否かを照合するものである（第１図
ステツプ３３）。照合部１１１ではこれらの認識
結果及び照合結果を用いて最終的な話者（ID登
録者）照合を行い（第１図ステツプ３４）、その
結果を出力する（第１図ステツプ３５）。

上記実施例によれば、話者照合システムが予め
システム自身にとつて照合（認識）し易い複数の
単語の中から、各話者に対して一番個人性（安定
性）のある照合しやすいIDを作るので、照合の
正解率の向上を図ることが可能である。

次に本発明の第２の実施例について図面を参照
して説明する。第３図は第２の実施例のスローチ
ヤート、第４図は第２の実施例のブロツク図であ
る。この実施例は話者のIDを作成する際に上述
と同様に辞書登録の段階では入力音声の全体の特
徴パラメータ及び母音部分パラメータを仮辞書に
登録し、入力音声を繰り返す時に単語認識（全体
の特徴パラメータ照合）と話者照合（母音部分の
特徴パラメータ照合）を行ない、この２つの結果
からIDを作成して本辞書へ登録する方式である。

第３図、第４図において、第１図、第２図と異
る点は単語認識部１１２、単語の認識（第１図ス
テツプ３６）が付加された箇所である。

上述した様に辞書登録が選択された場合には、
話者より入力された音声は分析部１０１で全体の
特徴パラメータ及び母音部分の特徴パラメータに
変換されてこの対が仮辞書メモリ１０４へ登録さ
れる。この登録がＭ／２回迄繰り返されると（全
ての単語について音声入力が終わると）カウンタ
１０３の指示によりスイツチがＤ側に切り換わ
り、以下の入力音声（全ての単語について繰り返
された音声）に対して話者照合部１０５及び単語
認識部１１２で照合が行われる。つまり分析部１
０１では再度入力された単語音声に対して、全体
の特パラメータ及び母音部分の特徴パラメータを
検出して前者を単語認識部１１２へ、後者を話者
照合部１０５へ送る。単語認識部１１２では、送
られた全体の特徴パラメータと予め仮辞書メモリ
ー１０４に登録された全体の特徴パラメータとを
照合し、その照合結果を全体のパラメータと共に
半別部１０６へ送る（第３図ステツプ３６）。話
者照合部１０５では送られた母音部分パラメータ
と仮辞書メモリー１０４に登録された母音部分パ
ラメータとお照合し、その照合結果を母音部分パ
ラメータと共に判別部１０６へ送る（第３図ステ
ツプ２１）。この処理がＭ回迄繰り返された後、
カウンター１０３の指示により、判別部１０６は
両方の照合結果が共に良かつた全体パラメータ及
び母音部分パラメータを選んでID作成部１０７
へ送る（第３図ステツプ２２，２６）。ここで場
合によつては２つの照合結果に重み付けをして判
別し、パラメータを選ぶことも可能である。こう
してID作成部１０７は選ばれた全体パラメータ
及びその母音パラメータを用いてIDを作成しこ
の２つのパラメータをIDとして本辞書メモリー
１０８へ登録する。（第３図ステツプ２７，２８、
例えば選ばれたパラメータが（／ゼ／／ロ／）及
び（／エ／）であればIDは「ゼロ」と決定され、
この２つのパラメータがIDのパラメータととな
る）上記第２の実施例によれば、話者照合システム
が話者の入力音声に対して個人性（母音パラメー
タの照合率）が一番有り、且つ単語認識（全体パ
ラメータの照合）の認識率が最も良いIDを作る
ことから、話者照合率がより一層向上することが
でき、セキユリテイに対しても問題が少なくな
る。

尚、本発明は上記実施例に限定されるものでは
ない。例えばID作成の際、IDの中で照合に必要
な部分以外の部分が有る場合は、これを登録者に
作成してもらつてもよい。又、入力音声の特徴パ
ラメータ検出や、照合（認識）処理の方法は従来
より知られた種々の方法を適宜採用すればよい。
要するに本発明はその要旨を逸脱しない範囲で
種々変形して実施することができる。

【図面の簡単な説明】

第１図は本発明の第１の実施例のフロー図、第
２図は本発明の第１のブロツク図、第３図は本発
明の第２の実施例のフロー図、第４図は本発明の
第２の実施例のブロツク図である。１０１…分析部、１０２…機能選択部、１０３
…カウンター、１０４…仮辞書メモリー、１０５
…話者照合部、１０６…判別部、１０７…ID作
成部、１０８…本辞書メモリー、１０９…話者照
合部、１１０…単語認識部、１１１…照合部、１
１２…単語認識部。

Claims

【特許請求の範囲】１話者の発声した複数の単語音声に対して各々
の音声特徴を検出する検出手段と、この検出手段
より検出された各々の音声特徴を記憶する記憶手
段と、前記話者が再度発声した前記複数の単語音
声に対して前記検出手段が再度検出した各々の音
声特徴と前記記憶手段により記憶された各々の音
声特徴とを各々照合する照合手段と、この照合手
段による照合結果に基いて前記話者のIDを決定
する決定手段とを具備したことを特徴とする話者
照合方式。２照合手段は前記話者が再度発声した前記複数
の単語音声を認識するとともに各々の音声特徴を
照合し、前記決定手段は前記照合手段による認識
結果及び照合結果に基いてIDを決定することを
特徴とする特許請求の範囲第１項記載の話者照合
方式。３検出手段は話者の発声した単語音声に対して
音声特徴を検出し、照合手段は前記音声特徴が前
記決定手段により決定されたIDの音声特徴と一
致しているか否かにより話者照合を行うことを特
徴とする特許請求の範囲第１項記載の話者照合方
式。