JP4897040B2 - 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム - Google Patents
音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム Download PDFInfo
- Publication number
- JP4897040B2 JP4897040B2 JP2009503831A JP2009503831A JP4897040B2 JP 4897040 B2 JP4897040 B2 JP 4897040B2 JP 2009503831 A JP2009503831 A JP 2009503831A JP 2009503831 A JP2009503831 A JP 2009503831A JP 4897040 B2 JP4897040 B2 JP 4897040B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- similarity
- utterances
- speaker
- feature data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 1
- 230000001172 regenerating effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 41
- 238000012795 verification Methods 0.000 description 24
- 239000000284 extract Substances 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 230000000717 retained effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
本願は、発話された発話音声の音響的特徴を反映した音響モデルを用いて発話した話者を認識する話者認識装置、当該音響モデルを登録する音響モデル登録装置、音響モデル登録方法及び音響モデル登録処理プログラムの技術分野に関する。
現在、音声を発した人間(話者)が誰であるかを認識する話者認識装置が開発されており、このような話者認識装置では、人間が所定の語句の音声を発すると、その音声をマイクロフォンにより電気信号に変換して得られる音声情報から話者を認識する構成となっている。
また、このような話者認識処理を、その話者認識装置が組み込まれたユーザ適応型のシステムやセキュリティーシステム等に適応すれば、暗証番号の手入力を要することなく本人を特定したり、鍵を用いた施解錠を要することなく施設の安全性等を保つこと等が可能となる。
ここで、このような話者認識装置に用いられる話者認識方法としては、例えば、HMM(Hidden Markov Model(隠れマルコフモデル))やGMM(Gaussian Mixture Model(ガウス混合モデル))等の確率モデルを利用して話者認識を行う方法(以下、単に「話者認識」という)がある。
これらの話者認識では、初めに本人が同一の語句を所定回数発話し、この発話音声を学習用のデータとして、その音声特徴を示すスペクトルパターンの集合を音響モデル(以下、単に「モデル」ともいう)としてモデル化して話者の登録を行う(以下、登録されている話者を、「登録話者」という)。そして、話者認識装置を、音声を発した話者が、登録してある複数の話者のうち誰であるかを判定する話者識別装置として用いる場合には、各モデルと話者の発話音声の特徴との間における類似度(尤度)を夫々算出し、この算出された類似度が最も高いモデルの登録話者であると認定する。また、話者認識装置を、音声を発した話者が、登録話者本人であるか判定する話者照合装置として用いる場合には、登録されているモデルと話者の発話音声の特徴との間における類似度が所定の閾値以上であるときに登録話者本人であると認定する。
このように、上述の話者認識においては、登録されているモデルと話者の発話音声の特徴とを比較することにより話者を認識するため、認識精度を高い水準で保つためには、如何にして質の良いモデルを構築するかが重要となる。
ところが、話者を登録する際の環境によって雑音が混入したり、発話音声の音量の大小等によって発話開始部分や終了部分が正確に特定できず、発話音声部分の音声区間が誤って抽出される場合がある。また、抽出された音声区間においては、話者の発話音声と同時に雑音が混入してしまう場合もある。更には、所定回数発話するうちの一部の回だけ話者が誤った語句を発してしまったり、発話する度に発話の仕方が異なったりする場合もある。
このように、音声区間が誤って抽出されたり、雑音が混入したり、特徴が揃っていないような発話音声を用いてモデル化を行うと、話者本人の発話音声の特徴に対して類似度が低下したモデルが作成されてしまう。
こうした事情等を鑑み、例えば、特許文献1においては、音声区間を正確に抽出し、話者認識を確実に行う方法が提案されている。
具体的に、話者の登録時においては、初めに、話者がこれから発しようとするキーワードをキーボード等により入力させ、この入力されたキーワードに対応する標準的な認識モデルをHMMを用いて構築する。次いで、話者により1回目に発話された発話音声に対して、認識モデルに基づくワードスポッティング法を用いることによりキーワードに相当する音声区間を抽出し、この抽出された音声区間の特徴量を、照合用情報及び抽出用情報としてデータベースに登録するとともに、その特徴量の一部を予備検索用情報としてデータベースに登録する。
次いで、2回目以降の発話音声に対しては、抽出用情報に基づくワードスポッティング法を用いることによりキーワードに相当する音声区間を抽出し、この抽出された音声区間の特徴量と照合用情報とを比較して類似度を算出する。そして、この類似度が閾値以下である場合には再度発話を行わせる一方、類似度が閾値以上である場合には、抽出された音声区間の特徴量を用いて照合用情報と予備検索用情報とを更新する。
話者の認識時においては、発話音声に対して予備検索用情報との照合を行うことにより類似度の高い話者を絞り込み、絞り込まれた話者に対して抽出用情報を用いてキーワードに相当する音声区間を抽出し、この抽出された音声区間の特徴量と照合用情報との類似度を算出する。そして、算出された類似度のうち最も値が大きく且つ閾値より大きい類似度が算出された場合に、発話した話者が、この類似度が算出された照合用モデルに対応する登録話者であると判定する。
特開平2004−294755号公報
しかしながら、上述した特許文献1に記載の方法では、キーワードに相当する音声区間を抽出するために、話者は発話する前にそのキーワードをキーボード等を用いて入力操作しなくてわならない煩わしさが存在する。
また、話者の認識に用いられる照合用情報の更新の前に発話音声の特徴との類似度が検証されてはいるものの、最終的に作成された照合用情報では何らの検証も行われていないため、この照合用情報が、登録話者の発話音声の特徴を高いレベルで十分に反映しているという保証はない。
更に、特許文献1に記載の方法を実現するためには、少なくとも照合用情報と抽出用情報とを常に記憶させておかねばならず、データ量が増大するという問題も生じる。
本願は、以上の点に鑑みてなされたものであり、その課題の一例は、話者の認識性能が低い音響モデルが登録されることを確実に防止することができる音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラムを提供することにある。
上記課題を解決するために、本願の一つの観点では、発話された発話音声を入力する音声入力手段と、前記入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段と、前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段と、前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段と、を備えることを特徴とする。
本願の他の観点では、発話された発話音声を入力する音声入力手段と、前記入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段と、前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段と、前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段と、話者認識のために発話された発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された前記特徴データと、前記記憶された登録モデルとを比較することによって、発話した話者が当該登録モデルに対応する話者であるか否かを判定する話者判定手段と、を備えることを特徴とする。
本願の更に他の観点では、発話された発話音声を入力する音声入力手段を備える音響モデル登録装置による音響モデル登録方法において、前記音声入力手段により入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成工程と、予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成工程において生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成工程と、前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出工程と、前記類似度算出工程において算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御工程と、を備えることを特徴とする。
本願の更に他の観点では、発話された発話音声を入力する音声入力手段を備える音響モデル登録装置に含まれるコンピュータを、前記音声入力手段により入力された発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、前記音声入力手段により入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段、前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段、前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段、として機能させることを特徴とする。
1 マイクロフォン
2 音声処理部
3 音声部分抽出部
4 音声特徴量抽出部
5 話者モデル作成部
6 照合部
7 スイッチ
8 モデル記憶部
9 類似度検証部
2 音声処理部
3 音声部分抽出部
4 音声特徴量抽出部
5 話者モデル作成部
6 照合部
7 スイッチ
8 モデル記憶部
9 類似度検証部
以下、図面を参照して本願の最良の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、話者認識装置に対して本願を適用した場合の実施形態である。
[1.第1実施形態]
[1.1 話者認識装置の構成及び機能]
先ず、第1実施形態に係る話者認識装置100の構成及び機能について、図1を用いて説明する。
[1.1 話者認識装置の構成及び機能]
先ず、第1実施形態に係る話者認識装置100の構成及び機能について、図1を用いて説明する。
図1は、第1実施形態に係る話者認識装置100の概要構成の一例を示すブロック図である。
本実施形態に係る話者認識装置100は、話者の発した音声に基づいて、この話者が予め登録されている話者(登録話者)であるか否かを認識する装置である。
話者認識装置100は、話者登録時においては、予め設定された発話数分(以下、この予め設定された個数をNとする)話者が発した音声を学習し、当該話者の発話音声の特徴を反映した話者モデル(音響モデル、登録モデルの一例)を作成するようになっている。
その後、話者認識装置100は、話者認識時において、話者の発した音声の特徴と話者モデルとを比較することによって話者認識処理を行うようになっている。
図1に示すように、話者認識装置100は、話者の発話音声を入力するマイクロフォン1と、マイクロフォン1から出力された音声信号に対して所定の音声処理を施し、デジタル信号に変換する音声処理部2と、音声処理部2から出力された音声信号から発話音声部分の音声信号を抽出し、予め設定された時間間隔毎にフレーム分割する音声部分抽出部3と、各フレーム毎に音声信号の音声特徴量(特徴データの一例)を抽出する音声特徴量抽出部4と、音声特徴量抽出部4から出力された音声特徴量を用いて話者モデルを作成する話者モデル作成部5と、音声特徴量抽出部4から出力された音声特徴量と話者モデル作成部5により作成された話者モデルとを照合し、類似度を算出する照合部6と、スイッチ7と、話者モデルを記憶するモデル記憶部8と、照合部6により算出された類似度を検証する類似度検証部9と、を含んで構成されている。
なお、マイクロフォン1は、本願に係る音声入力手段の一例を構成し、音声特徴量抽出部4は、本願に係る特徴データ生成手段の一例を構成し、話者モデル作成部5は、本願に係るモデル生成手段の一例を構成する。また、照合部6は、本願に係る類似度算出手段の一例を構成し、モデル記憶部8は、本願に係るモデル記憶手段の一例を構成し、類似度検証部9は、本願に係るモデル記憶制御手段の一例を構成する。また、照合部6及び類似度検証部9は、本願に係る話者判定手段の一例を構成する。
上記構成において、音声処理部2には、マイクロフォン1により入力された話者の発話音声に対応する音声信号が入力されるようになっており、当該音声処理部2は、この音声信号の高周波数成分を除去するとともに、当該音声信号をアナログ信号からデジタル信号に変換し、デジタル信号に変換された音声信号を音声部分抽出部3に出力するようになっている。
音声部分抽出部3には、デジタル信号に変換された音声信号が入力されるようになっており、当該音声部分抽出部3は、入力したデジタル信号の発話音声部分の音声区間を示す音声信号を抽出するとともに、この抽出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、音声特徴量抽出部4に出力するようになっている。このときにおける音声区間の抽出方法は、背景雑音と発話音声とのレベル差を利用した一般的な抽出方法を用いることができる。
音声特徴量抽出部4には、フレーム分割された音声信号が入力されるようになっており、当該音声特徴量抽出部4は、このフレーム分割された音声信号毎の音声特徴量を抽出するようになっている。具体的に、音声特徴量抽出部4は、フレーム分割された音声信号毎にこの信号のスペクトルを分析し、フレーム毎に音声信号の音声特徴量(例えば、MFCC(Mel-Frequency Cepstrum Coefficient)、LPC(Linear Predictive Coding)ケプストラム係数等)を算出するようになっている。
また、音声特徴量抽出部4は、話者登録時には、抽出した音声特徴量を一時的にN発話分保持するようになっている。
更に、音声特徴量抽出部4は、話者登録時には、保持したN発話分の音声特徴量を話者モデル作成部5及び照合部6に出力する一方、話者認識時には、抽出した音声特徴量を照合部6に出力するようになっている。
話者モデル作成部5には、音声特徴量抽出部4から出力されたN発話分の音声特徴量が入力されるようになっており、当該話者モデル作成部5は、このN発話分の音声特徴量を用いてHMMやGMM等の話者モデルを作成するようになっている。
照合部6には、音声特徴量抽出部4から出力された各フレーム毎の音声特徴量が入力されるようになっており、この各フレーム毎の音声特徴量と話者モデルとを照合することにより音声特徴量と話者モデルとの間における類似度を算出し、この算出された類似度を類似度検証部9に出力するようになっている。
具体的に、照合部6は、話者登録時には、音声特徴量抽出部4から出力されたN発話分の音声特徴量夫々と話者モデル作成部5で作成された話者モデルとの間における各類似度を算出するようになっている。すなわち、照合部6は、1発話目に対応する音声特徴量と話者モデルとの間における類似度、2発話目に対応する音声特徴量と話者モデルとの間における類似度、・・・N発話目に対応する音声特徴量と話者モデルとの間における類似度、の合計N発話分の類似度を算出するのである。
また、照合部6は、話者認識時には、音声特徴量抽出部4から出力された1発話分の音声特徴量とモデル記憶部8に記憶されている全ての話者モデルとの間における各類似度を算出するようになっている。
モデル記憶部8は、例えば、ハードディスクドライブ等の記憶装置により構成され、当該モデル記憶部8には、話者モデル作成部5により作成された話者モデルが登録される話者モデルデータベースが構築されている。この話者モデルデータベースには、登録話者に対して固有に割り当てられたユーザID(識別情報)に対応付けて各話者モデルが登録されている。
類似度検証部9には、照合部6から出力された類似度が入力されるようになっており、当該類似度検証部9は、この類似度を検証するようになっている。
具体的に、類似度検証部9は、話者登録時には、照合部6から出力されたN個の類似度が、全て予め設定された閾値(設定類似度の一例)以上であるか否かを判定し、N個の類似度が全て閾値以上である場合には、スイッチ7をOFFからONに切り替えて、話者モデル作成部5により作成された話者モデルを話者モデルデータベースに登録させる。このとき、類似度検証部9は、話者にユーザIDを割り当て、このユーザIDに対応付けて話者モデルを話者モデルデータベースに登録させるようになっている。
一方、類似度検証部9は、N個の類似度のうち少なくとも一つの類似度が閾値未満である場合には、音声特徴量抽出部4により一時的に保持されたN発話分の音声特徴量を全て削除させるとともに、話者モデル作成部5により作成された話者モデルを削除させ、再度N発話分の発話音声の入力から処理を開始させる。つまり、N個の類似度が全て閾値以上となるまで、N発話分の発話音声の入力、N発話分の音声特徴量の抽出、話者モデルの作成及び照合を繰り返すのである。
また、類似度検証部9は、話者認識時には、照合部6から出力された類似度(話者モデルデータベースに登録されている全ての話者モデルに対応する類似度)のうち最も高い類似度が算出された話者モデルに対応する登録話者を、認識話者として選択するようになっている。そして、類似度検証部9は、この認識結果を外部出力するようになっている。出力された認識結果は、話者認識装置100が組み込まれているシステムにより、例えば、話者に告知されたり(例えば、画面表示、音声出力等)、セキュリティーに対する制御が行われたり、認識された話者に適応した処理が行われるようになっている。
[1.2 話者認識装置の動作]
次に、話者認識装置100の動作について、図2を用いて説明する。なお、話者認識時における処理は公知の方法における処理と同様であるため、この処理についての説明は省略し、話者登録時における処理についてのみ説明する。
次に、話者認識装置100の動作について、図2を用いて説明する。なお、話者認識時における処理は公知の方法における処理と同様であるため、この処理についての説明は省略し、話者登録時における処理についてのみ説明する。
図2は、第1実施形態に係る話者認識装置100の話者登録処理の流れの一例を示すフローチャートである。
図2に示すように、先ず、音声特徴量抽出部4は、カウンタpに、予め設定されている発話回数Nを代入する(ステップS1)。
次いで、マイクロフォン1により話者が発した1発話分の音声が入力され、この音声に対応する音声信号が出力されると(ステップS2)、音声処理部2が、この音声信号をデジタル信号に変換し、音声部分抽出部3が、音声部分を抽出して、フレーム分割された音声信号を出力する(ステップS3)。
次いで、音声特徴量抽出部4は、フレーム分割された音声信号毎の音声特徴量を抽出し、この音声特徴量を保持すると(ステップS4)、カウンタpを1減算する(ステップS5)。
次いで、音声特徴量抽出部4は、カウンタpが0であるか否かを判定し(ステップS6)、カウンタpが0ではない場合には(ステップS6:NO)、ステップS2に移行する。つまり、N発話分の音声特徴量が保持されるまでは、ステップS2〜S5の処理を繰り返すのである。
一方、カウンタpが0である場合には(ステップS6:YES)、音声特徴量抽出部4は、保持したN発話分の音声特徴量を話者モデル作成部5及び照合部6に出力し、話者モデル作成部5は、このN発話分の音声特徴量を用いてモデル学習を行い、話者モデルを作成する(ステップS7)。
次いで、照合部6は、N発話分の音声特徴量夫々と、作成された話者モデルとの間における各類似度を算出する(ステップS8)。
次いで、類似度検証部9は、算出されたN発話分の類似度と閾値を比較して、このN発話分の類似度のうち閾値未満である類似度の個数を基準未達発話数qとして算出すると(ステップS9)、この基準未達発話数qが0であるか否かを判定する(ステップS10)。
このとき、基準未達発話数qが0ではない場合、すなわち、算出されたN発話分の類似度のうち少なくとも一の類似度が閾値未満であった場合には(ステップS10:NO)、音声特徴量抽出部4は、保持している音声特徴量を全て削除し(ステップS11)。ステップS1に移行する。つまり、算出されたN発話分の類似度が全て閾値以上となるまでは、ステップS1〜S9の処理を繰り返すのである。具体的には、N発話分の発話音声を再入力し、当該再入力された発話音声に夫々対応する音声特徴量を再抽出すると、この再抽出されたN発話分の音声特徴量を用いて話者モデルを再作成し、この再抽出されたN発話分の音声特徴量夫々と再作成された話者モデルとの間における各類似度を算出し、この算出された類似度と閾値を比較して基準未達発話数qを算出する。
一方、基準未達発話数qが0である場合、すなわち、算出されたN発話分の類似度が全て閾値以上である場合には(ステップS10:YES)、類似度検証部9は、作成された話者モデル(あるいは、再作成された話者モデル)を話者モデルデータベースに登録すると(ステップS12)、話者登録処理を終了させる。
以上説明したように、本実施形態によれば、話者がN発話分の発話を行うことによって、マイクロフォン1が、発話された発話音声をN発話数分入力すると、音声特徴量抽出部4が、この入力された発話音声の音響的特徴を示す音声特徴量を各発話毎に対応して抽出し、話者モデル作成部5が、抽出されたN発話分の音声特徴量に基づいて話者モデルを生成し、照合部6が、N発話分の音声特徴量夫々と作成された話者モデルとの間における各類似度を算出し、類似度検証部9が、算出されたN発話分の類似度全てが閾値以上である場合にのみ、作成された話者モデルを話者認識に用いる話者モデルとして話者モデルデータベースに登録する。
例えば、音声区間が誤って抽出されたり、雑音が混入したり、発話音声の特徴が揃っていないことなどにより、各発話音声の特徴の分布が広がってしまうような場合には、これらの発話音声を用いて話者モデルを作成すると、この作成された話者モデルと各発話音声との特徴との類似度は総じて低下する。つまり、この場合には、話者の発話音声の特徴を十分に反映した話者モデルが作成されたとはいい難く、話者認識の性能劣化の直接の原因となる。
こうした問題に対し本実施形態であれば、話者登録時に発話された全発話音声の特徴と話者モデルとの間における各類似度が全て閾値以上である場合にのみ、この話者モデルが登録されるので、話者認識の性能を劣化させる話者モデルが登録されることを確実に防止することができる。
また、閾値を予め適切な値に設定しておくことで、発話された全発話音声の特徴と話者モデルとの間における各類似度が全て閾値以上であるという結果をもって、話者は同一のキーワードを誤りなくN回発話したと認定できるので、発話する前に話者にキーワードを入力させるなどの煩わしい作業を行わせる必要がなく、また、音声区間の抽出に特殊な方法を用いる必要もない。
また、算出されたN発話分の類似度のうち少なくとも一の類似度が閾値未満である場合には、話者がN発話分の発話を更に行うことによって、マイクロフォン1が、N発話分の発話音声を再入力すると、音声特徴量抽出部4が、当該再入力された発話音声に夫々対応する音声特徴量の再抽出し、話者モデル作成部5が、この再抽出されたN発話分の音声特徴量を用いて話者モデルを再作成し、照合部6が、再抽出されたN発話分の音声特徴量夫々と再作成された話者モデルとの間における各類似度を再算出し、類似度検証部9が、再算出されたN発話分の類似度全てが閾値以上である場合にのみ、再作成された話者モデルを話者モデルデータベースに登録するので、N発話分の発話音声の特徴がきれいに揃ったときにのみ、話者モデルを登録することができる。
[2.第2実施形態]
次に、第2実施形態について説明する。
次に、第2実施形態について説明する。
上記説明した第1実施形態においては、算出されたN発話分の類似度のうち少なくとも一の類似度が閾値未満である場合には、N発話分の音声特徴量を削除して、再度N発話分の発話音声を入力していたが、以下に説明する第2実施形態においては、閾値未満となった類似度の個数分のみ再度発話音声を入力する。なお、話者認識装置100の構成については、第1実施形態の場合と同様であるので、説明は省略する。
図3は、第2実施形態に係る話者認識装置100の話者登録処理の流れの一例を示すフローチャートであり、同図において、図2と同様の要素については同様の符号を付し、細部の説明は省略する。
図3に示すように、ステップS1〜S10及びS12の処理は第1実施形態の場合と同様である。
すなわち、N発話分の発話音声を入力し、当該入力された発話音声に夫々対応する音声特徴量を抽出すると、この抽出されたN発話分の音声特徴量を用いて話者モデルを作成し、抽出されたN発話分の音声特徴量夫々と作成された話者モデルとの間における各類似度を算出して、この算出された類似度と閾値を比較して基準未達発話数qを算出する。そして、基準未達発話数qが0である場合には、作成された話者モデルを話者モデルデータベースに登録する。
一方、算出されたN発話分の類似度のうち少なくとも一の類似度が閾値未満であった場合には(ステップS10:NO)、音声特徴量抽出部4は、現在保持しているN発話分の音声特徴量のうち、閾値未満の類似度が算出された音声特徴量のみを削除する(ステップS21)。すなわち、音声特徴量抽出部4は、閾値以上の類似度が算出された音声特徴量は保持しておいたまま、基準未達発話数qが示す数分の音声特徴量を削除するのである。
次いで、音声特徴量抽出部4は、カウンタpに基準未達発話数qを代入し(ステップS22)、ステップS2に移行する。
この後は、基準未達発話数qが示す回数分だけステップS2〜S5の処理が繰り返される。これにより、音声特徴量抽出部4は、既に保持してあるN−q発話分の音声特徴量に加えて、新たな発話音声の入力により再抽出されたq発話分の音声特徴量を保持し、合計でN発話分の音声特徴量を保持することとなる。
そして、カウンタpが0となると(ステップS6:YES)、音声特徴量抽出部4は、保持したN発話分の音声特徴量を話者モデル作成部5及び照合部6に出力し、話者モデル作成部5は、このN発話分の音声特徴量を用いて話者モデルを再作成し(ステップS7)、照合部6は、同じN発話分の音声特徴量と再作成された話者モデルを用いてN発話分の類似度を再算出する(ステップS8)。
次いで、類似度検証部9は、再算出されたN発話分の類似度と閾値を比較して、この閾値未満であった類似度の個数を基準未達発話数qの値として算出すると(ステップS9)、基準未達発話数qが0であるか否かを判定する(ステップS10)。
このとき、基準未達発話数qが0ではない場合には、ステップS21に移行一方、基準未達発話数qが0である場合には、類似度検証部9は、再作成された話者モデルを話者データベースに登して(ステップS12)、話者登録処理を終了させる。
以上説明したように、本実施形態によれば、算出されたN発話分の類似度のうち少なくとも一の類似度が閾値未満である場合には、話者がq発話分の発話を更に行うことによって、マイクロフォン1が、閾値未満の類似度が算出されたq発話分の発話音声を再入力すると、音声特徴量抽出部4が、当該再入力された発話音声に夫々対応する音声特徴量の再抽出し、話者モデル作成部5が、閾値以上の類似度が算出されたN−q発話分の音声特徴量と、再抽出されたq発話分の音声特徴量とを用いて話者モデルを再作成し、照合部6が、閾値以上の類似度が算出されたN−q発話分の音声特徴量及び再抽出されたq発話分の音声特徴量夫々と、再作成された話者モデルとの間における各類似度を再算出し、類似度検証部9が、再算出されたN発話分の類似度全てが閾値以上である場合にのみ、再作成された話者モデルを話者モデルデータベースに登録するので、第1実施形態の場合と比して、最初のN発話で話者モデルが登録できなかった場合における再発話の回数が少なくて済み、話者の負担を軽減させることができる。
一方、各発話音声の特徴の分布が広がってしまうような場合には、これらの発話音声を用いて作成された話者モデルと、各発話音声のうち比較的正確に発話された発話音声の特徴との類似度が、他の発話音声の場合と比較して必ずしも高くなるとは限らない。なぜなら、N回の発話のうち、正確に発話した回数よりも誤って発話した回数の方が多くなってしまえば、作成された話者モデルの特徴が、誤って発話された発話音声の特徴の方に近づく可能性もないとは言い切れないからである。
このようなときに、第2実施形態の場合では、誤って発話されたときの発話音声の特徴を示している音声特徴量が保持されたままになる可能性があり、以降、同じように誤って発話しないと話者モデルが登録されないということも考えられる。これに対し、第1実施形態の場合であれば、改めてN回発話させることにより、こうした事態を回避することができる。
つまり、第1実施形態と第2実施形態とでは、何れか一方のみが絶対的に有利であるということではないので、話者認識装置100が組み込まれるシステムによって最適な方を適用すれば良い。
なお、上記各実施形態においては、算出されたN発話分の類似度全てが閾値以上である場合に、作成された話者モデルを話者モデルデータベースに登録するようにしていたが、この条件に加えて、算出されたN発話分の類似度のうち最高の類似度と最低の類似度との差が予め設定されている類似度差以下である場合にのみ話者モデルを登録するようにしても良い。
つまり、各発話音声の特徴の分布が広がってしまうような場合には、これらの発話音声を用いて話者モデルを作成すると、この作成された話者モデルと各発話音声との特徴との類似度は総じて低下するが、必ずしも類似度が閾値未満になるとは限らない(例えば、混入した雑音の影響が比較的小さいとき等)。しかし、このような場合には、抽出されたN発話分の音声特徴量の間における類似度の差は必ず広がる。従って、この類似度の差を検証することにより、より認識性能の高い話者モデルを登録することができるのである。
なお、この類似度差の設定方法は任意であるが、この最適値は実験的に求めることができる。例えば、雑音が混入した場合に抽出された音声特徴量と、雑音が混入しない場合に抽出された音声特徴量とを多数収集し、これらの音声特徴量の類似度の差の分布に基づいて求めれば良い。
また、上記各実施形態においては、音声を発した話者が、複数の登録話者のうち誰であるかを判別するようにしているが、例えば、音声を発した話者が、登録してある一の登録話者であるか否かを判別する場合であれば、算出された類似度が所定の閾値以上であるときには、音声を発した話者は登録話者であると判別し、算出された類似度が当該閾値未満であるときには、音声を発した話者は登録話者ではないと判別し、この判別結果を認識結果として外部出力すれば良い。
また、上記各実施形態においては、話者モデルの登録(話者登録)の処理と話者認識処理とを一の装置で実行するようにしていたが、例えば、前者を話者モデル登録専用装置で実行させ、後者を話者認識専用装置で実行させるようにしても良い。この場合には、例えば、両装置をネットワーク等で接続するとともに話者モデルデータベースを話者認識専用装置において構築し、話者モデル登録専用装置からネットワーク等を介して話者データベースに話者モデルの登録を行えば良い。
また、上記各実施形態においては、上述の話者認識装置によって話者登録処理等を行うようになっているが、話者認識装置にコンピュータ及び記録媒体を備え、この記録媒体に上述の話者登録処理等を行うプログラム(音響モデル登録処理プログラムの一例)を格納し、このコンピュータによってプログラムを読み込むことによって上述と同様の話者登録処理等を行うようにしても良い。
また、この場合に、この記録媒体は、DVDやCDなどの記録媒体により構成し、話者認識装置には、記録媒体からプログラムを読み出す読出装置を備えるようにしても良い。
また、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、如何にしてものであっても本発明の技術的範囲に包含される。
Claims (7)
- 発話された発話音声を入力する音声入力手段と、
前記入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、
予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段と、
前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段と、
を備えることを特徴とする音響モデル登録装置。 - 請求項1に記載の音響モデル登録装置において、
前記類似度算出手段により算出された前記発話数分の類似度のうち少なくとも一の類似度が前記設定類似度未満である場合には、
前記モデル生成手段は、前記発話数分の発話音声が前記音声入力手段により更に入力されることによって前記特徴データ生成手段により再生成された当該発話数分の特徴データに基づいて前記音響モデルを再生成し、
前記類似度算出手段は、前記再生成された前記発話数分の特徴データ夫々と前記再生成された音響モデルとの間における各類似度を再算出し、
前記モデル記憶制御手段は、前記再算出された前記発話数分の前記類似度全てが前記設定類似度以上である場合にのみ、前記再生成された音響モデルを前記登録モデルとして前記モデル記憶手段に記憶させることを特徴とする音響モデル登録装置。 - 請求項1に記載の音響モデル登録装置において、
前記類似度算出手段により算出された前記発話数分の類似度のうち少なくとも一の類似度が前記設定類似度未満である場合には、
前記特徴データ生成手段は、前記設定類似度未満の類似度が算出された回数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により再生成された当該回数分の特徴データと、前記設定類似度以上の類似度が算出された前記特徴データと、に基づいて前記音響モデルを再生成し、
前記類似度算出手段は、前記再生成された特徴データ及び前記設定類似度以上の類似度が算出された前記特徴データ夫々と、前記再生成された音響モデルと、の間における各類似度を再算出し、
前記モデル記憶制御手段は、前記再算出された前記発話数分の前記類似度全てが前記設定類似度以上である場合にのみ、前記再生成された音響モデルを前記登録モデルとして前記モデル記憶手段に記憶させることを特徴とする音響モデル登録装置。 - 請求項1乃至3の何れか1項に記載の音響モデル登録装置において、
前記モデル記憶制御手段は、前記類似度算出手段により算出された前記発話数分の類似度全てが前記設定類似度以上であって、且つ、当該発話数分の類似度のうち最高の類似度と最低の類似度との差が予め設定された設定差以下である場合にのみ、前記生成された音響モデルを前記登録モデルとして前記モデル記憶手段に記憶させることを特徴とする音響モデル登録装置。 - 発話された発話音声を入力する音声入力手段と、
前記入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、
予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段と、
前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段と、
話者認識のために発話された発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された前記特徴データと、前記記憶された登録モデルとを比較することによって、発話した話者が当該登録モデルに対応する話者であるか否かを判定する話者判定手段と、
を備えることを特徴とする話者認識装置。 - 発話された発話音声を入力する音声入力手段を備える音響モデル登録装置による音響モデル登録方法において、
前記音声入力手段により入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成工程と、
予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成工程において生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成工程と、
前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出工程と、
前記類似度算出工程において算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御工程と、
を備えることを特徴とする音響モデル登録方法。 - 発話された発話音声を入力する音声入力手段を備える音響モデル登録装置に含まれるコンピュータを、
前記音声入力手段により入力された発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、
前記音声入力手段により入力された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、
予め設定された発話数分の発話音声が前記音声入力手段により入力されることによって前記特徴データ生成手段により生成された当該発話数分の前記特徴データに基づいて、話者の発話音声の音響的特徴を示す音響モデルを生成するモデル生成手段、
前記発話数分の特徴データ夫々と前記生成された音響モデルとの間における各類似度を算出する類似度算出手段、
前記類似度算出手段により算出された前記発話数分の前記類似度全てが予め設定された設定類似度以上である場合にのみ、前記生成された音響モデルを、話者の認識に用いる登録モデルとしてモデル記憶手段に記憶させるモデル記憶制御手段、
として機能させることを特徴とする音響モデル登録処理プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2007/055062 WO2008111190A1 (ja) | 2007-03-14 | 2007-03-14 | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008111190A1 JPWO2008111190A1 (ja) | 2010-06-24 |
JP4897040B2 true JP4897040B2 (ja) | 2012-03-14 |
Family
ID=39759141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009503831A Expired - Fee Related JP4897040B2 (ja) | 2007-03-14 | 2007-03-14 | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100063817A1 (ja) |
JP (1) | JP4897040B2 (ja) |
WO (1) | WO2008111190A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6377921B2 (ja) * | 2014-03-13 | 2018-08-22 | 綜合警備保障株式会社 | 話者認識装置、話者認識方法及び話者認識プログラム |
CN106373575B (zh) * | 2015-07-23 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及*** |
CN106815507A (zh) * | 2015-11-30 | 2017-06-09 | 中兴通讯股份有限公司 | 语音唤醒实现方法、装置及终端 |
CN109906466B (zh) | 2016-11-08 | 2023-05-05 | 索尼公司 | 信息处理设备和信息处理方法 |
GB2580856A (en) | 2017-06-13 | 2020-08-05 | Beijing Didi Infinity Technology & Dev Co Ltd | International Patent Application For Method, apparatus and system for speaker verification |
KR102595184B1 (ko) * | 2018-05-25 | 2023-10-30 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체 |
CN110875053A (zh) * | 2018-08-29 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音处理的方法、装置、***、设备和介质 |
WO2020159917A1 (en) * | 2019-01-28 | 2020-08-06 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
JP7266448B2 (ja) * | 2019-04-12 | 2023-04-28 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者認識方法、話者認識装置、及び話者認識プログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS616694A (ja) * | 1984-06-20 | 1986-01-13 | 日本電気株式会社 | 音声登録方式 |
JPS61163396A (ja) * | 1985-01-14 | 1986-07-24 | 株式会社リコー | 音声辞書パタ−ン作成方式 |
JPS6287995A (ja) * | 1985-10-14 | 1987-04-22 | 株式会社リコー | 音声パタ−ン登録方式 |
JPH09218696A (ja) * | 1996-02-14 | 1997-08-19 | Ricoh Co Ltd | 音声認識装置 |
JPH1020882A (ja) * | 1996-07-01 | 1998-01-23 | Ricoh Co Ltd | 音声認識装置および標準パターン登録方法 |
JPH10207483A (ja) * | 1997-01-16 | 1998-08-07 | Ricoh Co Ltd | 音声認識装置および標準パターン登録方法 |
JP2002268670A (ja) * | 2001-03-12 | 2002-09-20 | Ricoh Co Ltd | 音声認識方法および装置 |
JP2003076390A (ja) * | 2001-08-31 | 2003-03-14 | Fujitsu Ltd | 話者認証システム及び方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
US5497447A (en) * | 1993-03-08 | 1996-03-05 | International Business Machines Corporation | Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors |
US5765132A (en) * | 1995-10-26 | 1998-06-09 | Dragon Systems, Inc. | Building speech models for new words in a multi-word utterance |
US6389393B1 (en) * | 1998-04-28 | 2002-05-14 | Texas Instruments Incorporated | Method of adapting speech recognition models for speaker, microphone, and noisy environment |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
-
2007
- 2007-03-14 US US12/531,219 patent/US20100063817A1/en not_active Abandoned
- 2007-03-14 WO PCT/JP2007/055062 patent/WO2008111190A1/ja active Application Filing
- 2007-03-14 JP JP2009503831A patent/JP4897040B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS616694A (ja) * | 1984-06-20 | 1986-01-13 | 日本電気株式会社 | 音声登録方式 |
JPS61163396A (ja) * | 1985-01-14 | 1986-07-24 | 株式会社リコー | 音声辞書パタ−ン作成方式 |
JPS6287995A (ja) * | 1985-10-14 | 1987-04-22 | 株式会社リコー | 音声パタ−ン登録方式 |
JPH09218696A (ja) * | 1996-02-14 | 1997-08-19 | Ricoh Co Ltd | 音声認識装置 |
JPH1020882A (ja) * | 1996-07-01 | 1998-01-23 | Ricoh Co Ltd | 音声認識装置および標準パターン登録方法 |
JPH10207483A (ja) * | 1997-01-16 | 1998-08-07 | Ricoh Co Ltd | 音声認識装置および標準パターン登録方法 |
JP2002268670A (ja) * | 2001-03-12 | 2002-09-20 | Ricoh Co Ltd | 音声認識方法および装置 |
JP2003076390A (ja) * | 2001-08-31 | 2003-03-14 | Fujitsu Ltd | 話者認証システム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2008111190A1 (ja) | 2010-06-24 |
US20100063817A1 (en) | 2010-03-11 |
WO2008111190A1 (ja) | 2008-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4897040B2 (ja) | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム | |
JP3762327B2 (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
US8099288B2 (en) | Text-dependent speaker verification | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
CA2609247C (en) | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
US7634401B2 (en) | Speech recognition method for determining missing speech | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
Li et al. | Verbal information verification | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
US10665227B2 (en) | Voice recognition device and voice recognition method | |
EP1734509A1 (en) | Method and system for speech recognition | |
JPWO2018173270A1 (ja) | 音声認識装置および音声認識方法 | |
JP4847581B2 (ja) | 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム | |
JP2004325635A (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
JP2000352993A (ja) | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 | |
JP3092788B2 (ja) | 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置 | |
Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
US20090254335A1 (en) | Multilingual weighted codebooks | |
JP4236502B2 (ja) | 音声認識装置 | |
JPH11249688A (ja) | 音声認識装置およびその方法 | |
JPH0981182A (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111220 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111221 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150106 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |