JP4897040B2

JP4897040B2 - 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム

Info

Publication number: JP4897040B2
Application number: JP2009503831A
Authority: JP
Inventors: 聡一外山; 育雄藤田; 幸生鴨志田
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2007-03-14
Filing date: 2007-03-14
Publication date: 2012-03-14
Anticipated expiration: 2027-03-14
Also published as: JPWO2008111190A1; US20100063817A1; WO2008111190A1

Description

本願は、発話された発話音声の音響的特徴を反映した音響モデルを用いて発話した話者を認識する話者認識装置、当該音響モデルを登録する音響モデル登録装置、音響モデル登録方法及び音響モデル登録処理プログラムの技術分野に関する。

現在、音声を発した人間（話者）が誰であるかを認識する話者認識装置が開発されており、このような話者認識装置では、人間が所定の語句の音声を発すると、その音声をマイクロフォンにより電気信号に変換して得られる音声情報から話者を認識する構成となっている。

また、このような話者認識処理を、その話者認識装置が組み込まれたユーザ適応型のシステムやセキュリティーシステム等に適応すれば、暗証番号の手入力を要することなく本人を特定したり、鍵を用いた施解錠を要することなく施設の安全性等を保つこと等が可能となる。

ここで、このような話者認識装置に用いられる話者認識方法としては、例えば、ＨＭＭ（Hidden Markov Model（隠れマルコフモデル））やＧＭＭ（Gaussian Mixture Model（ガウス混合モデル））等の確率モデルを利用して話者認識を行う方法（以下、単に「話者認識」という）がある。

これらの話者認識では、初めに本人が同一の語句を所定回数発話し、この発話音声を学習用のデータとして、その音声特徴を示すスペクトルパターンの集合を音響モデル（以下、単に「モデル」ともいう）としてモデル化して話者の登録を行う（以下、登録されている話者を、「登録話者」という）。そして、話者認識装置を、音声を発した話者が、登録してある複数の話者のうち誰であるかを判定する話者識別装置として用いる場合には、各モデルと話者の発話音声の特徴との間における類似度（尤度）を夫々算出し、この算出された類似度が最も高いモデルの登録話者であると認定する。また、話者認識装置を、音声を発した話者が、登録話者本人であるか判定する話者照合装置として用いる場合には、登録されているモデルと話者の発話音声の特徴との間における類似度が所定の閾値以上であるときに登録話者本人であると認定する。

このように、上述の話者認識においては、登録されているモデルと話者の発話音声の特徴とを比較することにより話者を認識するため、認識精度を高い水準で保つためには、如何にして質の良いモデルを構築するかが重要となる。

ところが、話者を登録する際の環境によって雑音が混入したり、発話音声の音量の大小等によって発話開始部分や終了部分が正確に特定できず、発話音声部分の音声区間が誤って抽出される場合がある。また、抽出された音声区間においては、話者の発話音声と同時に雑音が混入してしまう場合もある。更には、所定回数発話するうちの一部の回だけ話者が誤った語句を発してしまったり、発話する度に発話の仕方が異なったりする場合もある。

このように、音声区間が誤って抽出されたり、雑音が混入したり、特徴が揃っていないような発話音声を用いてモデル化を行うと、話者本人の発話音声の特徴に対して類似度が低下したモデルが作成されてしまう。

こうした事情等を鑑み、例えば、特許文献１においては、音声区間を正確に抽出し、話者認識を確実に行う方法が提案されている。

具体的に、話者の登録時においては、初めに、話者がこれから発しようとするキーワードをキーボード等により入力させ、この入力されたキーワードに対応する標準的な認識モデルをＨＭＭを用いて構築する。次いで、話者により１回目に発話された発話音声に対して、認識モデルに基づくワードスポッティング法を用いることによりキーワードに相当する音声区間を抽出し、この抽出された音声区間の特徴量を、照合用情報及び抽出用情報としてデータベースに登録するとともに、その特徴量の一部を予備検索用情報としてデータベースに登録する。

次いで、２回目以降の発話音声に対しては、抽出用情報に基づくワードスポッティング法を用いることによりキーワードに相当する音声区間を抽出し、この抽出された音声区間の特徴量と照合用情報とを比較して類似度を算出する。そして、この類似度が閾値以下である場合には再度発話を行わせる一方、類似度が閾値以上である場合には、抽出された音声区間の特徴量を用いて照合用情報と予備検索用情報とを更新する。

話者の認識時においては、発話音声に対して予備検索用情報との照合を行うことにより類似度の高い話者を絞り込み、絞り込まれた話者に対して抽出用情報を用いてキーワードに相当する音声区間を抽出し、この抽出された音声区間の特徴量と照合用情報との類似度を算出する。そして、算出された類似度のうち最も値が大きく且つ閾値より大きい類似度が算出された場合に、発話した話者が、この類似度が算出された照合用モデルに対応する登録話者であると判定する。
特開平２００４−２９４７５５号公報

しかしながら、上述した特許文献１に記載の方法では、キーワードに相当する音声区間を抽出するために、話者は発話する前にそのキーワードをキーボード等を用いて入力操作しなくてわならない煩わしさが存在する。

また、話者の認識に用いられる照合用情報の更新の前に発話音声の特徴との類似度が検証されてはいるものの、最終的に作成された照合用情報では何らの検証も行われていないため、この照合用情報が、登録話者の発話音声の特徴を高いレベルで十分に反映しているという保証はない。

更に、特許文献１に記載の方法を実現するためには、少なくとも照合用情報と抽出用情報とを常に記憶させておかねばならず、データ量が増大するという問題も生じる。

本願は、以上の点に鑑みてなされたものであり、その課題の一例は、話者の認識性能が低い音響モデルが登録されることを確実に防止することができる音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラムを提供することにある。

上記課題を解決するために、本願の一つの観点では、発話された発話音声を入力する音声入力手段と、前記入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段と、前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段と、前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段と、を備えることを特徴とする。

本願の他の観点では、発話された発話音声を入力する音声入力手段と、前記入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段と、前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段と、前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段と、話者認識のために発話された発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された前記特徴データと、前記記憶された登録モデルとを比較することによって、発話した話者が当該登録モデルに対応する話者であるか否かを判定する話者判定手段と、を備えることを特徴とする。

本願の更に他の観点では、発話された発話音声を入力する音声入力手段を備える音響モデル登録装置による音響モデル登録方法において、前記音声入力手段により入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成工程と、予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成工程において生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成工程と、前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出工程と、前記類似度算出工程において算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御工程と、を備えることを特徴とする。

本願の更に他の観点では、発話された発話音声を入力する音声入力手段を備える音響モデル登録装置に含まれるコンピュータを、前記音声入力手段により入力された発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、前記音声入力手段により入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段、前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段、前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段、として機能させることを特徴とする。

第１実施形態に係る話者認識装置１００の概要構成の一例を示すブロック図である。第１実施形態に係る話者認識装置１００の話者登録処理の流れの一例を示すフローチャートである。第２実施形態に係る話者認識装置１００の話者登録処理の流れの一例を示すフローチャートである。

符号の説明

１マイクロフォン
２音声処理部
３音声部分抽出部
４音声特徴量抽出部
５話者モデル作成部
６照合部
７スイッチ
８モデル記憶部
９類似度検証部

以下、図面を参照して本願の最良の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、話者認識装置に対して本願を適用した場合の実施形態である。

［１．第１実施形態］
［１．１話者認識装置の構成及び機能］
先ず、第１実施形態に係る話者認識装置１００の構成及び機能について、図１を用いて説明する。

図１は、第１実施形態に係る話者認識装置１００の概要構成の一例を示すブロック図である。

本実施形態に係る話者認識装置１００は、話者の発した音声に基づいて、この話者が予め登録されている話者（登録話者）であるか否かを認識する装置である。

話者認識装置１００は、話者登録時においては、予め設定された発話数分（以下、この予め設定された個数をＮとする）話者が発した音声を学習し、当該話者の発話音声の特徴を反映した話者モデル（音響モデル、登録モデルの一例）を作成するようになっている。

その後、話者認識装置１００は、話者認識時において、話者の発した音声の特徴と話者モデルとを比較することによって話者認識処理を行うようになっている。

図１に示すように、話者認識装置１００は、話者の発話音声を入力するマイクロフォン１と、マイクロフォン１から出力された音声信号に対して所定の音声処理を施し、デジタル信号に変換する音声処理部２と、音声処理部２から出力された音声信号から発話音声部分の音声信号を抽出し、予め設定された時間間隔毎にフレーム分割する音声部分抽出部３と、各フレーム毎に音声信号の音声特徴量（特徴データの一例）を抽出する音声特徴量抽出部４と、音声特徴量抽出部４から出力された音声特徴量を用いて話者モデルを作成する話者モデル作成部５と、音声特徴量抽出部４から出力された音声特徴量と話者モデル作成部５により作成された話者モデルとを照合し、類似度を算出する照合部６と、スイッチ７と、話者モデルを記憶するモデル記憶部８と、照合部６により算出された類似度を検証する類似度検証部９と、を含んで構成されている。

なお、マイクロフォン１は、本願に係る音声入力手段の一例を構成し、音声特徴量抽出部４は、本願に係る特徴データ生成手段の一例を構成し、話者モデル作成部５は、本願に係るモデル生成手段の一例を構成する。また、照合部６は、本願に係る類似度算出手段の一例を構成し、モデル記憶部８は、本願に係るモデル記憶手段の一例を構成し、類似度検証部９は、本願に係るモデル記憶制御手段の一例を構成する。また、照合部６及び類似度検証部９は、本願に係る話者判定手段の一例を構成する。

上記構成において、音声処理部２には、マイクロフォン１により入力された話者の発話音声に対応する音声信号が入力されるようになっており、当該音声処理部２は、この音声信号の高周波数成分を除去するとともに、当該音声信号をアナログ信号からデジタル信号に変換し、デジタル信号に変換された音声信号を音声部分抽出部３に出力するようになっている。

音声部分抽出部３には、デジタル信号に変換された音声信号が入力されるようになっており、当該音声部分抽出部３は、入力したデジタル信号の発話音声部分の音声区間を示す音声信号を抽出するとともに、この抽出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、音声特徴量抽出部４に出力するようになっている。このときにおける音声区間の抽出方法は、背景雑音と発話音声とのレベル差を利用した一般的な抽出方法を用いることができる。

音声特徴量抽出部４には、フレーム分割された音声信号が入力されるようになっており、当該音声特徴量抽出部４は、このフレーム分割された音声信号毎の音声特徴量を抽出するようになっている。具体的に、音声特徴量抽出部４は、フレーム分割された音声信号毎にこの信号のスペクトルを分析し、フレーム毎に音声信号の音声特徴量（例えば、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）、ＬＰＣ（Linear Predictive Coding）ケプストラム係数等）を算出するようになっている。

また、音声特徴量抽出部４は、話者登録時には、抽出した音声特徴量を一時的にＮ発話分保持するようになっている。

更に、音声特徴量抽出部４は、話者登録時には、保持したＮ発話分の音声特徴量を話者モデル作成部５及び照合部６に出力する一方、話者認識時には、抽出した音声特徴量を照合部６に出力するようになっている。

話者モデル作成部５には、音声特徴量抽出部４から出力されたＮ発話分の音声特徴量が入力されるようになっており、当該話者モデル作成部５は、このＮ発話分の音声特徴量を用いてＨＭＭやＧＭＭ等の話者モデルを作成するようになっている。

照合部６には、音声特徴量抽出部４から出力された各フレーム毎の音声特徴量が入力されるようになっており、この各フレーム毎の音声特徴量と話者モデルとを照合することにより音声特徴量と話者モデルとの間における類似度を算出し、この算出された類似度を類似度検証部９に出力するようになっている。

具体的に、照合部６は、話者登録時には、音声特徴量抽出部４から出力されたＮ発話分の音声特徴量夫々と話者モデル作成部５で作成された話者モデルとの間における各類似度を算出するようになっている。すなわち、照合部６は、１発話目に対応する音声特徴量と話者モデルとの間における類似度、２発話目に対応する音声特徴量と話者モデルとの間における類似度、・・・Ｎ発話目に対応する音声特徴量と話者モデルとの間における類似度、の合計Ｎ発話分の類似度を算出するのである。

また、照合部６は、話者認識時には、音声特徴量抽出部４から出力された１発話分の音声特徴量とモデル記憶部８に記憶されている全ての話者モデルとの間における各類似度を算出するようになっている。

モデル記憶部８は、例えば、ハードディスクドライブ等の記憶装置により構成され、当該モデル記憶部８には、話者モデル作成部５により作成された話者モデルが登録される話者モデルデータベースが構築されている。この話者モデルデータベースには、登録話者に対して固有に割り当てられたユーザＩＤ（識別情報）に対応付けて各話者モデルが登録されている。

類似度検証部９には、照合部６から出力された類似度が入力されるようになっており、当該類似度検証部９は、この類似度を検証するようになっている。

具体的に、類似度検証部９は、話者登録時には、照合部６から出力されたＮ個の類似度が、全て予め設定された閾値（設定類似度の一例）以上であるか否かを判定し、Ｎ個の類似度が全て閾値以上である場合には、スイッチ７をＯＦＦからＯＮに切り替えて、話者モデル作成部５により作成された話者モデルを話者モデルデータベースに登録させる。このとき、類似度検証部９は、話者にユーザＩＤを割り当て、このユーザＩＤに対応付けて話者モデルを話者モデルデータベースに登録させるようになっている。

一方、類似度検証部９は、Ｎ個の類似度のうち少なくとも一つの類似度が閾値未満である場合には、音声特徴量抽出部４により一時的に保持されたＮ発話分の音声特徴量を全て削除させるとともに、話者モデル作成部５により作成された話者モデルを削除させ、再度Ｎ発話分の発話音声の入力から処理を開始させる。つまり、Ｎ個の類似度が全て閾値以上となるまで、Ｎ発話分の発話音声の入力、Ｎ発話分の音声特徴量の抽出、話者モデルの作成及び照合を繰り返すのである。

また、類似度検証部９は、話者認識時には、照合部６から出力された類似度（話者モデルデータベースに登録されている全ての話者モデルに対応する類似度）のうち最も高い類似度が算出された話者モデルに対応する登録話者を、認識話者として選択するようになっている。そして、類似度検証部９は、この認識結果を外部出力するようになっている。出力された認識結果は、話者認識装置１００が組み込まれているシステムにより、例えば、話者に告知されたり（例えば、画面表示、音声出力等）、セキュリティーに対する制御が行われたり、認識された話者に適応した処理が行われるようになっている。

［１．２話者認識装置の動作］
次に、話者認識装置１００の動作について、図２を用いて説明する。なお、話者認識時における処理は公知の方法における処理と同様であるため、この処理についての説明は省略し、話者登録時における処理についてのみ説明する。

図２は、第１実施形態に係る話者認識装置１００の話者登録処理の流れの一例を示すフローチャートである。

図２に示すように、先ず、音声特徴量抽出部４は、カウンタｐに、予め設定されている発話回数Ｎを代入する（ステップＳ１）。

次いで、マイクロフォン１により話者が発した１発話分の音声が入力され、この音声に対応する音声信号が出力されると（ステップＳ２）、音声処理部２が、この音声信号をデジタル信号に変換し、音声部分抽出部３が、音声部分を抽出して、フレーム分割された音声信号を出力する（ステップＳ３）。

次いで、音声特徴量抽出部４は、フレーム分割された音声信号毎の音声特徴量を抽出し、この音声特徴量を保持すると（ステップＳ４）、カウンタｐを１減算する（ステップＳ５）。

次いで、音声特徴量抽出部４は、カウンタｐが０であるか否かを判定し（ステップＳ６）、カウンタｐが０ではない場合には（ステップＳ６：ＮＯ）、ステップＳ２に移行する。つまり、Ｎ発話分の音声特徴量が保持されるまでは、ステップＳ２〜Ｓ５の処理を繰り返すのである。

一方、カウンタｐが０である場合には（ステップＳ６：ＹＥＳ）、音声特徴量抽出部４は、保持したＮ発話分の音声特徴量を話者モデル作成部５及び照合部６に出力し、話者モデル作成部５は、このＮ発話分の音声特徴量を用いてモデル学習を行い、話者モデルを作成する（ステップＳ７）。

次いで、照合部６は、Ｎ発話分の音声特徴量夫々と、作成された話者モデルとの間における各類似度を算出する（ステップＳ８）。

次いで、類似度検証部９は、算出されたＮ発話分の類似度と閾値を比較して、このＮ発話分の類似度のうち閾値未満である類似度の個数を基準未達発話数ｑとして算出すると（ステップＳ９）、この基準未達発話数ｑが０であるか否かを判定する（ステップＳ１０）。

このとき、基準未達発話数ｑが０ではない場合、すなわち、算出されたＮ発話分の類似度のうち少なくとも一の類似度が閾値未満であった場合には（ステップＳ１０：ＮＯ）、音声特徴量抽出部４は、保持している音声特徴量を全て削除し（ステップＳ１１）。ステップＳ１に移行する。つまり、算出されたＮ発話分の類似度が全て閾値以上となるまでは、ステップＳ１〜Ｓ９の処理を繰り返すのである。具体的には、Ｎ発話分の発話音声を再入力し、当該再入力された発話音声に夫々対応する音声特徴量を再抽出すると、この再抽出されたＮ発話分の音声特徴量を用いて話者モデルを再作成し、この再抽出されたＮ発話分の音声特徴量夫々と再作成された話者モデルとの間における各類似度を算出し、この算出された類似度と閾値を比較して基準未達発話数ｑを算出する。

一方、基準未達発話数ｑが０である場合、すなわち、算出されたＮ発話分の類似度が全て閾値以上である場合には（ステップＳ１０：ＹＥＳ）、類似度検証部９は、作成された話者モデル（あるいは、再作成された話者モデル）を話者モデルデータベースに登録すると（ステップＳ１２）、話者登録処理を終了させる。

以上説明したように、本実施形態によれば、話者がＮ発話分の発話を行うことによって、マイクロフォン１が、発話された発話音声をＮ発話数分入力すると、音声特徴量抽出部４が、この入力された発話音声の音響的特徴を示す音声特徴量を各発話毎に対応して抽出し、話者モデル作成部５が、抽出されたＮ発話分の音声特徴量に基づいて話者モデルを生成し、照合部６が、Ｎ発話分の音声特徴量夫々と作成された話者モデルとの間における各類似度を算出し、類似度検証部９が、算出されたＮ発話分の類似度全てが閾値以上である場合にのみ、作成された話者モデルを話者認識に用いる話者モデルとして話者モデルデータベースに登録する。

例えば、音声区間が誤って抽出されたり、雑音が混入したり、発話音声の特徴が揃っていないことなどにより、各発話音声の特徴の分布が広がってしまうような場合には、これらの発話音声を用いて話者モデルを作成すると、この作成された話者モデルと各発話音声との特徴との類似度は総じて低下する。つまり、この場合には、話者の発話音声の特徴を十分に反映した話者モデルが作成されたとはいい難く、話者認識の性能劣化の直接の原因となる。

こうした問題に対し本実施形態であれば、話者登録時に発話された全発話音声の特徴と話者モデルとの間における各類似度が全て閾値以上である場合にのみ、この話者モデルが登録されるので、話者認識の性能を劣化させる話者モデルが登録されることを確実に防止することができる。

また、閾値を予め適切な値に設定しておくことで、発話された全発話音声の特徴と話者モデルとの間における各類似度が全て閾値以上であるという結果をもって、話者は同一のキーワードを誤りなくＮ回発話したと認定できるので、発話する前に話者にキーワードを入力させるなどの煩わしい作業を行わせる必要がなく、また、音声区間の抽出に特殊な方法を用いる必要もない。

また、算出されたＮ発話分の類似度のうち少なくとも一の類似度が閾値未満である場合には、話者がＮ発話分の発話を更に行うことによって、マイクロフォン１が、Ｎ発話分の発話音声を再入力すると、音声特徴量抽出部４が、当該再入力された発話音声に夫々対応する音声特徴量の再抽出し、話者モデル作成部５が、この再抽出されたＮ発話分の音声特徴量を用いて話者モデルを再作成し、照合部６が、再抽出されたＮ発話分の音声特徴量夫々と再作成された話者モデルとの間における各類似度を再算出し、類似度検証部９が、再算出されたＮ発話分の類似度全てが閾値以上である場合にのみ、再作成された話者モデルを話者モデルデータベースに登録するので、Ｎ発話分の発話音声の特徴がきれいに揃ったときにのみ、話者モデルを登録することができる。

［２．第２実施形態］
次に、第２実施形態について説明する。

上記説明した第１実施形態においては、算出されたＮ発話分の類似度のうち少なくとも一の類似度が閾値未満である場合には、Ｎ発話分の音声特徴量を削除して、再度Ｎ発話分の発話音声を入力していたが、以下に説明する第２実施形態においては、閾値未満となった類似度の個数分のみ再度発話音声を入力する。なお、話者認識装置１００の構成については、第１実施形態の場合と同様であるので、説明は省略する。

図３は、第２実施形態に係る話者認識装置１００の話者登録処理の流れの一例を示すフローチャートであり、同図において、図２と同様の要素については同様の符号を付し、細部の説明は省略する。

図３に示すように、ステップＳ１〜Ｓ１０及びＳ１２の処理は第１実施形態の場合と同様である。

すなわち、Ｎ発話分の発話音声を入力し、当該入力された発話音声に夫々対応する音声特徴量を抽出すると、この抽出されたＮ発話分の音声特徴量を用いて話者モデルを作成し、抽出されたＮ発話分の音声特徴量夫々と作成された話者モデルとの間における各類似度を算出して、この算出された類似度と閾値を比較して基準未達発話数ｑを算出する。そして、基準未達発話数ｑが０である場合には、作成された話者モデルを話者モデルデータベースに登録する。

一方、算出されたＮ発話分の類似度のうち少なくとも一の類似度が閾値未満であった場合には（ステップＳ１０：ＮＯ）、音声特徴量抽出部４は、現在保持しているＮ発話分の音声特徴量のうち、閾値未満の類似度が算出された音声特徴量のみを削除する（ステップＳ２１）。すなわち、音声特徴量抽出部４は、閾値以上の類似度が算出された音声特徴量は保持しておいたまま、基準未達発話数ｑが示す数分の音声特徴量を削除するのである。

次いで、音声特徴量抽出部４は、カウンタｐに基準未達発話数ｑを代入し（ステップＳ２２）、ステップＳ２に移行する。

この後は、基準未達発話数ｑが示す回数分だけステップＳ２〜Ｓ５の処理が繰り返される。これにより、音声特徴量抽出部４は、既に保持してあるＮ−ｑ発話分の音声特徴量に加えて、新たな発話音声の入力により再抽出されたｑ発話分の音声特徴量を保持し、合計でＮ発話分の音声特徴量を保持することとなる。

そして、カウンタｐが０となると（ステップＳ６：ＹＥＳ）、音声特徴量抽出部４は、保持したＮ発話分の音声特徴量を話者モデル作成部５及び照合部６に出力し、話者モデル作成部５は、このＮ発話分の音声特徴量を用いて話者モデルを再作成し（ステップＳ７）、照合部６は、同じＮ発話分の音声特徴量と再作成された話者モデルを用いてＮ発話分の類似度を再算出する（ステップＳ８）。

次いで、類似度検証部９は、再算出されたＮ発話分の類似度と閾値を比較して、この閾値未満であった類似度の個数を基準未達発話数ｑの値として算出すると（ステップＳ９）、基準未達発話数ｑが０であるか否かを判定する（ステップＳ１０）。

このとき、基準未達発話数ｑが０ではない場合には、ステップＳ２１に移行一方、基準未達発話数ｑが０である場合には、類似度検証部９は、再作成された話者モデルを話者データベースに登して（ステップＳ１２）、話者登録処理を終了させる。

以上説明したように、本実施形態によれば、算出されたＮ発話分の類似度のうち少なくとも一の類似度が閾値未満である場合には、話者がｑ発話分の発話を更に行うことによって、マイクロフォン１が、閾値未満の類似度が算出されたｑ発話分の発話音声を再入力すると、音声特徴量抽出部４が、当該再入力された発話音声に夫々対応する音声特徴量の再抽出し、話者モデル作成部５が、閾値以上の類似度が算出されたＮ−ｑ発話分の音声特徴量と、再抽出されたｑ発話分の音声特徴量とを用いて話者モデルを再作成し、照合部６が、閾値以上の類似度が算出されたＮ−ｑ発話分の音声特徴量及び再抽出されたｑ発話分の音声特徴量夫々と、再作成された話者モデルとの間における各類似度を再算出し、類似度検証部９が、再算出されたＮ発話分の類似度全てが閾値以上である場合にのみ、再作成された話者モデルを話者モデルデータベースに登録するので、第１実施形態の場合と比して、最初のＮ発話で話者モデルが登録できなかった場合における再発話の回数が少なくて済み、話者の負担を軽減させることができる。

一方、各発話音声の特徴の分布が広がってしまうような場合には、これらの発話音声を用いて作成された話者モデルと、各発話音声のうち比較的正確に発話された発話音声の特徴との類似度が、他の発話音声の場合と比較して必ずしも高くなるとは限らない。なぜなら、Ｎ回の発話のうち、正確に発話した回数よりも誤って発話した回数の方が多くなってしまえば、作成された話者モデルの特徴が、誤って発話された発話音声の特徴の方に近づく可能性もないとは言い切れないからである。

このようなときに、第２実施形態の場合では、誤って発話されたときの発話音声の特徴を示している音声特徴量が保持されたままになる可能性があり、以降、同じように誤って発話しないと話者モデルが登録されないということも考えられる。これに対し、第１実施形態の場合であれば、改めてＮ回発話させることにより、こうした事態を回避することができる。

つまり、第１実施形態と第２実施形態とでは、何れか一方のみが絶対的に有利であるということではないので、話者認識装置１００が組み込まれるシステムによって最適な方を適用すれば良い。

なお、上記各実施形態においては、算出されたＮ発話分の類似度全てが閾値以上である場合に、作成された話者モデルを話者モデルデータベースに登録するようにしていたが、この条件に加えて、算出されたＮ発話分の類似度のうち最高の類似度と最低の類似度との差が予め設定されている類似度差以下である場合にのみ話者モデルを登録するようにしても良い。

つまり、各発話音声の特徴の分布が広がってしまうような場合には、これらの発話音声を用いて話者モデルを作成すると、この作成された話者モデルと各発話音声との特徴との類似度は総じて低下するが、必ずしも類似度が閾値未満になるとは限らない（例えば、混入した雑音の影響が比較的小さいとき等）。しかし、このような場合には、抽出されたＮ発話分の音声特徴量の間における類似度の差は必ず広がる。従って、この類似度の差を検証することにより、より認識性能の高い話者モデルを登録することができるのである。

なお、この類似度差の設定方法は任意であるが、この最適値は実験的に求めることができる。例えば、雑音が混入した場合に抽出された音声特徴量と、雑音が混入しない場合に抽出された音声特徴量とを多数収集し、これらの音声特徴量の類似度の差の分布に基づいて求めれば良い。

また、上記各実施形態においては、音声を発した話者が、複数の登録話者のうち誰であるかを判別するようにしているが、例えば、音声を発した話者が、登録してある一の登録話者であるか否かを判別する場合であれば、算出された類似度が所定の閾値以上であるときには、音声を発した話者は登録話者であると判別し、算出された類似度が当該閾値未満であるときには、音声を発した話者は登録話者ではないと判別し、この判別結果を認識結果として外部出力すれば良い。

また、上記各実施形態においては、話者モデルの登録（話者登録）の処理と話者認識処理とを一の装置で実行するようにしていたが、例えば、前者を話者モデル登録専用装置で実行させ、後者を話者認識専用装置で実行させるようにしても良い。この場合には、例えば、両装置をネットワーク等で接続するとともに話者モデルデータベースを話者認識専用装置において構築し、話者モデル登録専用装置からネットワーク等を介して話者データベースに話者モデルの登録を行えば良い。

また、上記各実施形態においては、上述の話者認識装置によって話者登録処理等を行うようになっているが、話者認識装置にコンピュータ及び記録媒体を備え、この記録媒体に上述の話者登録処理等を行うプログラム（音響モデル登録処理プログラムの一例）を格納し、このコンピュータによってプログラムを読み込むことによって上述と同様の話者登録処理等を行うようにしても良い。

また、この場合に、この記録媒体は、ＤＶＤやＣＤなどの記録媒体により構成し、話者認識装置には、記録媒体からプログラムを読み出す読出装置を備えるようにしても良い。

また、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、如何にしてものであっても本発明の技術的範囲に包含される。

Claims

発話された発話音声を入力する音声入力手段と、
前記入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、
予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段と、
前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段と、
を備えることを特徴とする音響モデル登録装置。
請求項１に記載の音響モデル登録装置において、
前記類似度算出手段により算出された前記発話数分の類似度のうち少なくとも一の類似度が前記設定類似度未満である場合には、
前記モデル生成手段は、前記発話数分の発話音声が前記音声入力手段により更に入力されることによって前記特徴データ生成手段により再生成された当該発話数分の特徴データに基づいて前記音響モデルを再生成し、
前記類似度算出手段は、前記再生成された前記発話数分の特徴データ夫々と前記再生成された音響モデルとの間における各類似度を再算出し、
前記モデル記憶制御手段は、前記再算出された前記発話数分の前記類似度全てが前記設定類似度以上である場合にのみ、前記再生成された音響モデルを前記登録モデルとして前記モデル記憶手段に記憶させることを特徴とする音響モデル登録装置。
請求項１に記載の音響モデル登録装置において、
前記類似度算出手段により算出された前記発話数分の類似度のうち少なくとも一の類似度が前記設定類似度未満である場合には、
前記特徴データ生成手段は、前記設定類似度未満の類似度が算出された回数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により再生成された当該回数分の特徴データと、前記設定類似度以上の類似度が算出された前記特徴データと、に基づいて前記音響モデルを再生成し、
前記類似度算出手段は、前記再生成された特徴データ及び前記設定類似度以上の類似度が算出された前記特徴データ夫々と、前記再生成された音響モデルと、の間における各類似度を再算出し、
前記モデル記憶制御手段は、前記再算出された前記発話数分の前記類似度全てが前記設定類似度以上である場合にのみ、前記再生成された音響モデルを前記登録モデルとして前記モデル記憶手段に記憶させることを特徴とする音響モデル登録装置。
請求項１乃至３の何れか１項に記載の音響モデル登録装置において、
前記モデル記憶制御手段は、前記類似度算出手段により算出された前記発話数分の類似度全てが前記設定類似度以上であって、且つ、当該発話数分の類似度のうち最高の類似度と最低の類似度との差が予め設定された設定差以下である場合にのみ、前記生成された音響モデルを前記登録モデルとして前記モデル記憶手段に記憶させることを特徴とする音響モデル登録装置。
発話された発話音声を入力する音声入力手段と、
前記入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、
予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段と、
前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段と、
話者認識のために発話された発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された前記特徴データと、前記記憶された登録モデルとを比較することによって、発話した話者が当該登録モデルに対応する話者であるか否かを判定する話者判定手段と、
を備えることを特徴とする話者認識装置。
発話された発話音声を入力する音声入力手段を備える音響モデル登録装置による音響モデル登録方法において、
前記音声入力手段により入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成工程と、
予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成工程において生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成工程と、
前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出工程と、
前記類似度算出工程において算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御工程と、
を備えることを特徴とする音響モデル登録方法。
発話された発話音声を入力する音声入力手段を備える音響モデル登録装置に含まれるコンピュータを、
前記音声入力手段により入力された発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、
前記音声入力手段により入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、
予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段、
前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段、
前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段、
として機能させることを特徴とする音響モデル登録処理プログラム。