JP4490384B2

JP4490384B2 - 音声の類似度の評価を行う方法および装置

Info

Publication number: JP4490384B2
Application number: JP2006081961A
Authority: JP
Inventors: 三樹夫東山; 道子風間; 理後藤; 毅彦川▲原▼; 靖雄吉岡
Original assignee: Waseda University; Yamaha Corp
Current assignee: Waseda University; Yamaha Corp
Priority date: 2006-03-24
Filing date: 2006-03-24
Publication date: 2010-06-23
Anticipated expiration: 2026-03-24
Also published as: JP2007256698A

Description

この発明は、いわゆる帯域間相関行列を利用して音声の類似度の評価を行う技術並びにこの技術を利用した話者認証および話者識別の技術に関する。

話者認証および話者識別においては、話者が発する音声と予め特定の話者から得られた音声とがどの程度類似しているかの評価が必要となる。このような音声の類似度を評価するために一般的に行われるのは、比較対象である音声の特徴を何らか手段により数量化して特徴量とし、各音声から得られる各特徴量を比較することにより音声の類似度を評価するという手法である。非特許文献１は、このような音声の特徴量として、帯域間相関行列を利用し、話者識別を行う技術を開示している。この帯域間相関行列は、帯域分割された音声の各成分のエンベロープの帯域間の相関値を要素とする行列である。複数の話者の音声から各々得られる帯域間相関行列の内容は、各話者の発話内容の影響をあまり受けず、話者自体に依存する。そして、話者が同じであれば、発話内容によらず類似した内容の帯域間相関行列が得られる。従って、この帯域間相関行列を音声の特徴量として用いることにより、話者認証や話者識別を行うことができる。
２００２年３月の電子情報通信学会における風間道子、東山三樹夫、山崎芳男による発表論文「包絡線の帯域間相関行列を用いた話者識別」

上述した非特許文献１に開示の技術によれば、発話内容に拘わらず、話者の認証や識別を行うことができる。しかし、この技術を利用する場合においても、話者から入力音声を取得する過程において入力音声に雑音が重畳すると、どうしても話者認証や話者識別に支障が生じる。

この発明は、以上説明した事情に鑑みてなされたものであり、帯域間相関行列を利用して行う音声の類似度評価において、雑音に対する耐性を向上させることを目的としている。

この発明では、音声の特徴量として、周波数軸上において並んだＮ個（Ｎは複数）の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列を入力音声から生成する。そして、比較対象である２つの音声がある場合に、１≦ｎ≦Ｎである少なくとも１種類のｎを選択し、各ｎについて、比較対象である各音声について得られた２つの帯域間相関行列の一方の第ｎ行および第ｎ列を他方の第ｎ行および第ｎ列に代入し、あるいは２つの帯域間相関行列の両方から第ｎ行および第ｎ列を間引き、この代入後または間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う。
ここで、比較対象である２つの帯域間相関行列の一方が雑音の発生する環境下において入力音声から取得されるものである場合、その帯域間相関行列の要素が雑音の影響を受ける場合がある。例えば特定帯域の成分が雑音のエネルギーに埋もれた状態で入力音声が取得され、その入力音声から帯域間相関行列が生成されると、その帯域間相関行列において、雑音の属する帯域に関係する行および列にその雑音の影響が現れる。しかしながら、この発明では、上記の行および列の代入または間引き処理により、そのような雑音の影響を除外して帯域間相関行列間の類似度を算出することができる。
この発明による音声の類似度の評価の技術が具現される典型例として、例えば話者認証や話者識別がある。その詳細は以下に掲げる「発明を実施するための最良の形態」において明らかにされる。

以下、図面を参照し、この発明の実施の形態を説明する。
＜第１実施形態＞
図１はこの発明の一実施形態である話者認証装置の構成を示すブロック図である。この話者認証装置は、大別して、登録部１０と、テンプレートＤＢ（データベース）２０と、認証部３０とにより構成されている。

登録部１０の構成は次の通りである。まず、ＩＤ入力部１１は、あるサービスを受けることについて正当な権原を有するユーザのＩＤを受け取る装置であり、キーボード等により構成されている。音声入力部１２は、上記正当な権原を有するユーザの音声を受け取る装置であり、例えばマイクロホンとこのマイクロホンから出力されるアナログ音声信号をデジタル形式の音声データに変換するＡ／Ｄ変換器により構成されている。発話区間検出部１３は、音声入力部１２から出力される音声データのレベルを監視し、レベルが閾値以上である発話区間内の音声データを通過させる装置である。

特徴量抽出部１４は、発話区間検出部１３を通過した発話区間の音声データから特徴量を抽出する装置である。本実施形態では、ユーザ毎に、複数種類の文章を発話させ、特徴量抽出部１４は、各文章の音声から特徴量を各々抽出する。登録情報作成部１５は、それらの特徴量を平均化した特徴量をＩＤ入力部１１が受け取ったユーザＩＤと対応付け、登録情報としてテンプレートＤＢ２０に登録する。

認証部３０の構成は次の通りである。まず、ＩＤ入力部３１は、認証対象であるユーザのＩＤを受け取る装置であり、キーボード等により構成されている。音声入力部３２は、認証対象であるユーザの音声を受け取る装置であり、音声入力部１２と同様、マイクロホンとＡ／Ｄ変換器等により構成されている。音声入力部３２の後段には発話区間検出部１３と同様な発話区間検出部３３が設けられている。

特徴量抽出部３４は、特徴量抽出部１４と同様な抽出方法により、発話区間検出部３３を通過した音声データから特徴量を抽出する装置である。登録情報選択部３５は、ＩＤ入力部３１が受け取ったユーザのＩＤに対応付けられた特徴量をテンプレートＤＢ２０から読み出し、所定の閾値とともに出力する装置である。

特徴量比較部３６は、特徴量抽出部３４により抽出された特徴量と登録情報選択部３５により読み出された特徴量とを比較し、比較結果として、両特徴量が表す音声の類似度を出力する装置である。認証結果出力部３７は、特徴量比較部３６から出力される類似度と登録情報選択部３５から出力される閾値とを比較することにより、音声入力部３２が受け取った音声の発生元であるユーザがＩＤ入力部３１が受け取ったＩＤに対応したユーザであるか否かの認証を行い、認証結果を出力する装置である。

特徴量抽出部１４および３４は、いずれも図２に示す帯域間相関行列生成部を有している。周波数分析部５１は、一定時間長のフレーム単位で、発話区間検出部１３または３３を通過した音声データにＦＦＴ（高速フーリエ変換）を施し、ＦＦＴにより得られる振幅スペクトルを出力する。

帯域別エンベロープ生成部５２は、周波数軸上において並んだ第１〜第Ｎ帯域に各々属する各成分を周波数分析部５１のＦＦＴ結果から抽出し、各帯域に属する音声の各成分のエンベロープを生成する装置である。さらに詳述すると、帯域別エンベロープ生成部５２は、次の処理を行う。まず、フレーム毎に、周波数分析部５１から得られる振幅スペクトルの中から周波数軸上において第１〜第Ｎ帯域に各々属するものを抽出し、ｄＢ値の形式に変換する。そして、周波数帯域毎に、フレーム毎に得られるｄＢ値表現の振幅スペクトルの推移を求めて、第１帯域〜第Ｎ帯域に各々属する音声の成分のエンベロープＥ−ｉ（ｉ＝１〜Ｎ）を出力する。なお、帯域別の音声成分のエンベロープＥ−ｉ（ｉ＝１〜Ｎ）は、通過帯域の異なった複数のＢＰＦ（バンドパスフィルタ）からなるフィルタバンクにより入力音声の帯域分割を行い、このフィルタバンクを通過した各帯域の信号に半波整流および平滑化等の処理を施すことにより求めてもよい。

相関値算出部５３は、ｊ＝１〜Ｎ、ｋ＝１〜Ｎの範囲内における全ての（ｊ，ｋ）の組み合わせについて、第ｊ帯域のエンベロープＥ−ｊおよび第ｋ帯域のエンベロープＥ−ｋ間の相関値ａｊｋを算出し、相関値ａｊｋ（ｊ＝１〜Ｎ、ｋ＝１〜Ｎ）を要素とするＮ行Ｎ列の帯域間相関行列を出力する。
以上が特徴量抽出部１４および３４の構成の詳細である。

特徴量比較部３６は、特徴量抽出部３４および登録情報選択部３５から以上説明したような帯域間相関行列を各々受け取り、両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、認証結果出力部３７は、この類似度算出処理の実行結果に基づいて、音声入力部３２が受け取った音声の発生元であるユーザがＩＤ入力部３１が受け取ったＩＤに対応したユーザであるか否かの認証処理を行う。

ところで、雑音の発生する環境下において認証対象であるユーザが音声を発した場合、その音声における比較的狭い特定帯域の成分が雑音のエネルギーに埋もれることがある。この場合において、例えばユーザの音声において第１〜第Ｎ帯域のうちｑ番目（１≦ｑ≦Ｎ）の帯域に属する周波数の成分が雑音のエネルギーに埋もれると、その影響は特徴量抽出部３４が出力する帯域間相関行列の第ｑ行および第ｑ列に現れる。

本実施形態の特徴は、このような雑音の影響が現れる状況においても、正しい認証結果が得られるように改良された特徴量比較部３６の類似度算出処理および認証結果出力部３７の認証処理の態様にある。改良された類似度算処理および認証処理の態様として次の２つがある。

＜＜第１の態様＞＞
この態様において、特徴量比較部３６は、１≦ｎ≦Ｎである少なくとも１種類のｎ（この例ではｎ＝１〜Ｎまでの全てのｎ）を選択し、各ｎについて、図３に例示するように、特徴量抽出部３４により生成された入力音声の帯域間相関行列と登録情報選択部３５によりテンプレートＤＢ２０から読み出された帯域間相関行列の一方（この例ではテンプレートＤＢ２０から読み出された帯域間相関行列）の第ｎ行および第ｎ列を他方（この例では入力音声の帯域間相関行列）の第ｎ行および第ｎ列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、認証結果出力部３７は、この類似度算出処理の実行結果に基づいて認証を行う。好ましい態様において、認証結果出力部３７は、各ｎについて実行された類似度算出処理において類似度が閾値以上となった回数を求め、この回数が所定値以上か否かにより認証を行う。

＜＜第２の態様＞＞
この態様において、特徴量比較部３６は、１≦ｎ≦Ｎである少なくとも１種類のｎ（この例ではｎ＝１〜Ｎまでの全てのｎ）を選択し、各ｎについて、図４に例示するように、特徴量抽出部３４により生成された入力音声の帯域間相関行列と登録情報選択部３５によりテンプレートＤＢ２０から読み出された帯域間相関行列の両方から第ｎ行および第ｎ列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、認証結果出力部３７は、この類似度算出処理の実行結果に基づいて認証を行う。

帯域間相関行列間の類似度の算出方法に関しても各種の態様がある。ある好ましい態様において、特徴量比較部３６は、比較対象である２つの帯域間相関行列について、例えば列毎に両帯域間相関行列の要素間の相関値を求め、全列についての相関値の平均値を類似度として出力する。他の好ましい態様において、特徴量比較部３６は、比較対象である２つの帯域間相関行列をＡおよびＢとした場合、下記式（１）に従って類似度Ｄを算出する。
Ｄ＝√（ｔｒａｃｅ（ＡＢ^−１）・ｔｒａｃｅ（ＢＡ^−１）） ………（１）
ただし、上記式（１）において、ｔｒａｃｅ（）は、括弧内の正方行列の対角線要素の和を意味する。

なお、上記第１の態様では、異種の帯域間相関行列間において第ｎ行および第ｎ列の代入を行った際、代入後の帯域間相関行列の正則性が失われることにより逆行列が求まらず、上記式（１）により類似度Ｄを算出することができない場合がある。そこで、上記第１の態様では、相関行列の性質を利用した他の演算処理により帯域間相関行列間の類似度を算出するのが好ましい。

以下、第１の態様により話者認証を行う本実施形態の第１の動作例および第２の態様により話者認証を行う本実施形態の第２の動作例について説明する。

＜＜第１の動作例＞＞
図５は本実施形態の第１の動作例を示すフローチャートである。あるユーザの認証処理においては、まず、ＩＤ入力部３１によりそのユーザのＩＤが取得されるとともに、同ユーザの発話区間内の音声データが音声入力部３２および発話区間検出部３３により取得される（ステップＳ１０１）。

次に特徴量抽出部３４により、入力音声、すなわち、ステップＳ１０１において取得された音声データから帯域間相関行列Ａが生成され（ステップＳ１０２）、登録情報選択部３５によりステップＳ１０１において取得されたＩＤに対応付けられた帯域間相関行列ＢがテンプレートＤＢ２０から読み出される（ステップＳ１０３）。そして、認証結果出力部３７は、認証結果が肯定的である程度を示すポイントレジスタＰを「０」に初期化する（ステップＳ１０４）。

そして、帯域間相関行列における帯域の数（すなわち、行数および列数）がＮである場合、本実施形態では、ｎ＝１〜Ｎまでの各ｎについて、ステップＳ１０５〜Ｓ１１０のループ処理を繰り返し実行する。まず、特徴量比較部３６は、ユーザＩＤに対応した帯域間相関行列Ｂの第ｎ行および第ｎ列を入力音声の帯域間相関行列Ａの第ｎ行および第ｎ列に各々代入する（ステップＳ１０６ａ）。次に特徴量比較部３６は、この代入後の帯域間相関行列Ａと、ユーザＩＤに対応した帯域間相関行列Ｂとの間の類似度Ｄを算出する（ステップＳ１０７ａ）。そして、認証結果出力部３７はこの類似度Ｄと閾値ｔｈ１とを比較する（ステップＳ１０８）。そして、認証結果出力部３７は、類似度Ｄが閾値ｔｈ１以上である場合に限り、ポイントレジスタＰに所定の大きさのポイントを加算する（ステップＳ１０８およびＳ１０９）。

そして、ｎ＝１〜Ｎまでの各ｎについてステップＳ１０５〜Ｓ１１０のループ処理が終了すると、認証結果出力部３７はポイントレジスタＰの内容が閾値ｔｈ２以上か否かを判断し（ステップＳ１１１）、この判断結果が肯定的である場合には話者であるユーザはユーザＩＤに対応した本人であると判断し（ステップＳ１１２）、そうでない場合は詐称者であると判断し（ステップＳ１１３）、その判断結果を出力する。

＜<第２の動作例＞＞
図６は本実施形態の第２の動作例を示すフローチャートである。この第２の動作例では、上記第１の動作例におけるステップＳ１０６ａおよびＳ１０７ａがステップＳ１０６ｂおよびＳ１０７ｂに置き換えられている。この第２の動作例において、ステップＳ１０６ｂでは、特徴量比較部３６が、入力音声の帯域間相関行列ＡおよびユーザＩＤに対応した帯域間相関行列Ｂの両方から第ｎ行および第ｎ列を間引く。次にステップＳ１０７ｂでは、特徴量比較部３６は、この間引き後の帯域間相関行列ＡおよびＢ（いずれも(Ｎ−１)行（Ｎ−１）列行列）間の類似度Ｄを算出する。他の処理の内容は上記第１の動作例と同様である。

以上説明した本実施形態によれば、音声入力部３２がユーザの音声を取得する際に、例えば第ｑ帯域（１≦ｑ≦Ｎ）の音声の成分が雑音のエネルギーに埋もれると、特徴量抽出部３４が出力する帯域間相関行列Ａの第ｑ行および第ｑ列にその影響が現れる。しかしながら、本実施形態において、特徴量比較部３６は、１≦ｎ≦Ｎの範囲の各ｎについて、特徴量抽出部３４により生成された帯域間相関行列Ａと登録情報選択部３５により読み出された帯域間相関行列Ｂの一方の第ｎ行および第ｎ列を他方の第ｎ行および第ｎ列に各々代入し（ステップＳ１０６ａ）、あるいは帯域間相関行列ＡおよびＢの両方から第ｎ行および第ｎ列を間引き（ステップＳ１０６ｂ）、この代入後または間引き後の両帯域間相関行列ＡおよびＢ間の類似度Ｄを算出する類似度算出処理を実行する（ステップＳ１０７ａおよびＳ１０７ｂ）。そして、認証結果出力部３７は、各ｎについて実行された類似度算出処理において類似度Ｄが閾値ｔｈ１以上となった回数に基づいて認証を行う。ここで、特徴量抽出部３４が出力する帯域間相関行列Ａの例えば第ｑ行および第ｑ列に雑音の影響が現れたとしても、入力音声の発生元がユーザＩＤに対応した正当なユーザである場合には、ｎ＝ｑについて実行された類似度算出処理において高い類似度Ｄが得られる可能性が高い。従って、本実施形態によれば、雑音の発生する環境下において入力音声の取得が行われる状況下においても、入力音声の発生元がユーザＩＤに対応した正当なユーザであるか否かの認証を正確に行うことができる。

＜第２実施形態＞
図７はこの発明の一実施形態である話者識別装置の構成を示すブロック図である。この話者識別装置は、上記第１実施形態（図１）のものと同様な登録部１０とテンプレートＤＢ２０を有するとともに、識別部４０を有する。

識別部４０の構成は次の通りである。まず、音声入力部４１は、識別対象であるユーザから音声を受け取り、音声データを出力する装置である。発話区間検出部４２は、音声入力部４１が出力する音声データのうち発話区間のものを検出して出力する装置である。特徴量抽出部４３は、発話区間検出部４２を通過した音声データから特徴量を抽出する装置である。特徴量比較部４４は、特徴量抽出部４３により抽出された特徴量とテンプレートＤＢ２０に登録された各ユーザの特徴量とについて類似度算出処理を実行する装置である。そして、識別結果出力部４５は、特徴量比較部４４における類似度算出処理の実行結果に基づいて、テンプレートＤＢ２０に格納された各特徴量の発生元である各ユーザのうち音声入力部４１が受け取った音声の発生元であると推定されるユーザを選択し、そのユーザのＩＤを出力する装置である。

本実施形態における特徴量抽出部１４および４３の構成、これらにより抽出される特徴量である帯域間相関行列の内容は上記第１実施形態において説明した通りである。また、特徴量比較部４４において行われる類似度算出および識別結果出力部４５により行われる話者識別には、上記第１実施形態と同様、次の２態様がある。

＜＜第１の態様＞＞
この話者識別システムにおいて、特徴量比較部４４は、特徴量抽出部４３により生成された入力音声の帯域間相関行列とテンプレートＤＢ２０内の各帯域間相関行列との比較を行う。そして、第１の態様において、特徴量比較部４４は、上記第１実施形態と同様、１≦ｎ≦Ｎである少なくとも１種類のｎ（この例ではｎ＝１〜Ｎまでの全てのｎ）を選択し、各ｎについて、特徴量抽出部４３により生成された入力音声の帯域間相関行列とテンプレートＤＢ２０内の帯域間相関行列の一方（この例ではテンプレートＤＢ２０内の帯域間相関行列）の第ｎ行および第ｎ列を他方（この例では入力音声の帯域間相関行列）の第ｎ行および第ｎ列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、識別結果出力部４５は、この類似度算出処理の実行結果に基づいて識別を行う。好ましい態様において、識別結果出力部４５は、各ｎについて、テンプレートＤＢ２０に記憶された各帯域間相関行列のうち類似度算出処理により最大の類似度が得られたものを求め、テンプレートＤＢに記憶された各帯域間相関行列のうち最大の類似度の得られた回数の最も多い帯域間相関行列の発生元であるユーザを、音声入力部４１が受け取った音声の発生元であるユーザと推定する。

＜＜第２の態様＞＞
この態様において、特徴量比較部４４は、各ｎについて、特徴量抽出部３４により生成された入力音声の帯域間相関行列とテンプレートＤＢ２０内の帯域間相関行列の両方の第ｎ行および第ｎ列を間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。識別結果出力部４５の処理内容は上記第１の態様と同様である。

次に、上記第１の態様により話者識別を行う本実施形態の第１の動作例および第２の態様により話者識別を行う本実施形態の第２の動作例について説明する。

＜＜第１の動作例＞＞
図８は本実施形態の第１の動作例を示すフローチャートである。あるユーザの識別処理においては、まず、識別対象であるユーザの発話区間内の音声データが音声入力部４１および発話区間検出部４２により取得される（ステップＳ２０１）。

次に特徴量抽出部４３により、ステップＳ２０１において取得された音声データから帯域間相関行列Ａが生成される（ステップＳ２０２）。また、このとき、識別結果出力部４５は、本実施形態による話者識別サービスの加入者であるユーザ毎に設けられたポイントレジスタＰ（ｉ）（ｉ＝１〜Ｍ）を「０」に初期化する。ここで、ポイントレジスタＰ（ｉ）は、ｉ番目のユーザがステップＳ２０１において取得された音声データの発生元であると推定される程度を示す情報を記憶するためのレジスタである。

そして、帯域間相関行列の帯域数がＮである場合、本実施形態では、ｎ＝１〜Ｎの範囲内の各ｎについて、ステップＳ２０３〜Ｓ２１３のループ処理を繰り返し実行する。このループ処理では、まず、最大類似度Ｄｍａｘを０に初期化する（ステップＳ２０４）。そして、テンプレートＤＢ２０に登録された帯域間相関行列の個数がＭであるとした場合、ｉ＝１〜Ｍまでの各ｉについて、ステップＳ２０５〜Ｓ２１１のループ処理を繰り返し実行する。

まず、特徴量比較部４４は、テンプレートＤＢ２０からｉ番目のユーザの帯域間相関行列Ｂｉを読み出す（ステップＳ２０６）。次に特徴量比較部４４は、ステップＳ２０２において得られた帯域間相関行列Ａの第ｎ行および第ｎ列にステップＳ２０６において読み出された帯域間相関行列Ｂｉの第ｎ行および第ｎ列を代入する（ステップＳ２０７ａ）。次に特徴量比較部４４は、この代入後の帯域間相関行列Ａと帯域間相関行列Ｂｉの類似度Ｄを算出する（ステップＳ２０８ａ）。そして、識別結果出力部４５は、このようにして得られた類似度Ｄを最大類似度Ｄｍａｘと比較し（ステップＳ２０９）、Ｄ＞Ｄｍａｘである場合に限り、Ｄｍａｘ＝Ｄとするとともにｉｍａｘ＝ｉとする（ステップＳ２１０）。

以上の処理がｉ＝１〜Ｍまでの各ｉについて繰り返される結果、テンプレートＤＢ２０内のＭ個の帯域間相関行列Ｂｉ（ｉ＝１〜Ｍ）のうち入力音声から得られた帯域間相関行列Ａとの相関値が最も高い帯域間相関行列Ｂｉｍａｘのインデックスｉｍａｘが得られる。識別結果出力部４５は、このインデックスｉｍａｘに対応したポイントレジスタＰ（ｉｍａｘ）の内容に所定の大きさのポイントを加算する（ステップＳ２１２）。

以上の処理がｎ＝１〜Ｎまでの各Ｎについて繰り返される。その後、識別結果出力部４５は、ポイントレジスタＰ（ｉ）（ｉ＝１〜Ｍ）のうち最大のもののインデックスｉを求め、このインデックスｉに対応したユーザのＩＤを識別結果として出力する（ステップＳ２１４）。

＜<第２の動作例＞＞
図９は本実施形態の第１の動作例を示すフローチャートである。この第２の動作例では、上記第１の動作例におけるステップＳ２０７ａおよびＳ２０８ａがステップＳ２０７ｂおよびＳ２０８ｂに置き換えられている。この第２の動作例において、ステップＳ２０７ｂでは、特徴量比較部４４が、入力音声の帯域間相関行列ＡおよびテンプレートＤＢ２０から読み出された帯域間相関行列Ｂｉの両方から第ｎ行および第ｎ列を間引く。次にステップＳ２０８ｂでは、特徴量比較部４４は、この間引き後の帯域間相関行列ＡおよびＢｉ（いずれも(Ｎ−１)行（Ｎ−１）列行列）間の類似度Ｄを算出する。他の処理の内容は上記第１の動作例と同様である。

以上が本実施形態の動作である。本実施形態においても上記第１実施形態と同様な効果が得られる。

以上、この発明の各種の実施形態について説明したが、この発明にはこれ以外にも他の実施形態が考えられる。例えば次の通りである。
＜他の実施形態＞
（１）上記第１実施形態における話者認証装置では、認証部３０とは別の装置として登録部１０が設けられているが、認証部３０に登録部１０の機能を併せ持たせ、ユーザが認証に用いる自分の音声の帯域間相関行列を認証部３０を介してテンプレートＤＢ２０に登録し得るように構成してもよい。上記第２実施形態における話者識別装置も同様であり、識別部４０に登録部１０の機能を併せ持たせてもよい。
（２）上記第１実施形態では、類似度が閾値ｔｈ１以上となる回数に基づいてユーザが本人か否かの認証を行ったが、各種のｎについて得られた類似度のうち最も高い類似度に基づいてユーザの認証を行ってもよい。
（３）上記第２実施形態では、第ｎ行および第ｎ列の代入または間引き後において、入力音声の帯域間相関行列Ａとの類似度が第１位（最大）である帯域間相関行列Ｂｉ（ｉ＝ｉｍａｘ）のみについて、その帯域間相関行列Ｂｉｍａｘに対応したポイントレジスタＰ（ｉｍａｘ）にポイントを加算したが（図８および図９のステップＳ２１２）、帯域間相関行列Ａとの類似度が第２位以降である各帯域間相関行列Ｂｉについても、それらに対応したポイントレジスタＰ（ｉ）にその類似度の順位に応じた大きさのポイントを加算するようにしてもよい。
（４）上記各実施形態では、帯域間相関行列がＮ行Ｎ列である場合に、１からＮまでのＮ種類のｎについて、第ｎ行および第ｎ列の代入または間引きを伴う帯域間相関行列間の類似度の算出を行ったが、Ｎ種類より少ない種類のｎについて、第ｎ行および第ｎ列の代入または間引きを伴う帯域間相関行列間の類似度の算出を行い、算出結果に基づいて最終的な判断（認証または識別）を行ってもよい。例えば奇数または偶数であるｎのみについて、第ｎ行および第ｎ列の代入または間引きを伴う帯域間相関行列間の類似度の算出を行う態様が考えられる。
（５）上記各実施形態において、第１の態様による類似度算出処理では、テンプレートＤＢ２０から読み出された帯域間相関行列Ｂの第ｎ行および第ｎ列を入力音声の帯域間相関行列Ａの第ｎ行および第ｎ列に代入したが、これとは逆に、入力音声の帯域間相関行列Ａの第ｎ行および第ｎ列をテンプレートＤＢ２０から読み出された帯域間相関行列Ｂの第ｎ行および第ｎ列に代入し、この代入後の両帯域間相関行列間の類似度を算出してもよい。

この発明の第１実施形態である話者認証装置の構成を示すブロック図である。同実施形態において特徴量抽出部として用いられる帯域間相関行列生成部の構成を示すブロック図である。同実施形態における類似度算出処理の第１の態様を示す図である。同実施形態における類似度算出処理の第２の態様を示す図である。同実施形態の第１の動作例を示すフローチャートである。同実施形態の第２の動作例を示すフローチャートである。この発明の第２実施形態である話者識別装置の構成を示すブロック図である。同実施形態の第１の動作例を示すフローチャートである。同実施形態の第２の動作例を示すフローチャートである。

１０……登録部、２０……テンプレートＤＢ、３０……認証部、４０……識別部、１２，３２，４１……音声入力部、１１，３１……ＩＤ入力部、１３，３３，４２……発話区間検出部、１４，３４，４３……特徴量抽出部、１５……登録情報作成部、３５……登録情報選択部、３６，４４……特徴量比較部、３７……認証結果出力部、４５……識別結果出力部。

Claims

コンピュータが、
周波数軸上において並んだＮ個（Ｎは複数）の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列を入力音声から生成する帯域間相関行列生成過程と、
１≦ｎ≦ＮであるＮ種類のｎの各々、または、前記Ｎ種類のうちで予め定められたＭ（Ｎ＞Ｍ）種類のｎの各々について、比較対象である２つの音声について前記帯域間相関行列生成過程により得られた２つの帯域間相関行列の一方の第ｎ行および第ｎ列を他方の第ｎ行および第ｎ列に代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価過程と
を実行することを特徴とする音声の類似度評価方法。
コンピュータが、
周波数軸上において並んだＮ個（Ｎは複数）の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列を入力音声から生成する帯域間相関行列生成過程と、
１≦ｎ≦ＮであるＮ種類のｎの各々、または、前記Ｎ種類のうちで予め定められたＭ（Ｎ＞Ｍ）種類のｎの各々について、比較対象である２つの音声について前記帯域間相関行列生成過程により得られた２つの帯域間相関行列から第ｎ行および第ｎ列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価過程と
を実行することを特徴とする音声の類似度評価方法。
周波数軸上において並んだＮ個（Ｎは複数）の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列を入力音声から生成する帯域間相関行列生成手段と、
１≦ｎ≦ＮであるＮ種類のｎの各々、または、前記Ｎ種類のうちで予め定められたＭ（Ｎ＞Ｍ）種類のｎの各々について、比較対象である２つの音声について前記帯域間相関行列生成手段により得られた２つの帯域間相関行列の一方の第ｎ行および第ｎ列を他方の第ｎ行および第ｎ列に代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価手段と
を具備することを特徴とする音声の類似度評価装置。
周波数軸上において並んだＮ個（Ｎは複数）の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列を入力音声から生成する帯域間相関行列生成手段と、
１≦ｎ≦ＮであるＮ種類のｎの各々、または、前記Ｎ種類のうちで予め定められたＭ（Ｎ＞Ｍ）種類のｎの各々について、比較対象である２つの音声について前記帯域間相関行列生成手段により得られた２つの帯域間相関行列から第ｎ行および第ｎ列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価手段と
を具備することを特徴とする音声の類似度評価装置。
１または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだＮ個（Ｎは複数）の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列をユーザのＩＤに対応付けて記憶するデータベースと、
認証対象であるユーザのＩＤを受け取るＩＤ入力部と、
前記認証対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において並んだＮ個の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
前記ＩＤ入力部が受け取ったユーザのＩＤに対応付けられた帯域間相関行列を前記データベースから読み出す登録情報選択部と、
１≦ｎ≦ＮであるＮ種類のｎの各々、または、前記Ｎ種類のうちで予め定められたＭ（Ｎ＞Ｍ）種類のｎの各々について、前記特徴量抽出部により生成された帯域間相関行列と前記登録情報選択部により読み出された帯域間相関行列の一方の第ｎ行および第ｎ列を他方の第ｎ行および第ｎ列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
前記類似度算出処理の実行結果に基づいて、前記音声入力部が受け取った音声の発生元であるユーザが前記ＩＤ入力部が受け取ったＩＤに対応したユーザであるか否かの認証を行い、認証結果を出力する認証結果出力部と
を具備することを特徴とする話者認証装置。
１または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだＮ個（Ｎは複数）の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列をユーザのＩＤに対応付けて記憶するデータベースと、
認証対象であるユーザのＩＤを受け取るＩＤ入力部と、
前記認証対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において並んだＮ個の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
前記ＩＤ入力部が受け取ったユーザのＩＤに対応付けられた帯域間相関行列を前記データベースから読み出す登録情報選択部と、
１≦ｎ≦ＮであるＮ種類のｎの各々、または、前記Ｎ種類のうちで予め定められたＭ（Ｎ＞Ｍ）種類のｎの各々について、前記特徴量抽出部により生成された帯域間相関行列と前記登録情報選択部により読み出された帯域間相関行列の両方から第ｎ行および第ｎ列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
前記類似度算出処理の実行結果に基づいて、前記音声入力部が受け取った音声の発生元であるユーザが前記ＩＤ入力部が受け取ったＩＤに対応したユーザであるか否かの認証を行い、認証結果を出力する認証結果出力部と
を具備することを特徴とする話者認証装置。
前記認証結果出力部は、各ｎについて実行された前記類似度算出処理において類似度が閾値以上となった回数に基づいて前記認証を行うことを特徴とする請求項５または６に記載の話者認証装置。
１または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだＮ個（Ｎは複数）の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列をユーザのＩＤに対応付けて記憶するデータベースと、
識別対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において並んだＮ個の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
１≦ｎ≦ＮであるＮ種類のｎの各々、または、前記Ｎ種類のうちで予め定められたＭ（Ｎ＞Ｍ）種類のｎの各々と前記データベースに記憶された各帯域間相関行列との各組み合わせについて、前記特徴量抽出部により生成された帯域間相関行列と前記データベースに記憶された帯域間相関行列の一方の第ｎ行および第ｎ列を他方の第ｎ行および第ｎ列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
前記類似度算出処理の実行結果に基づき、前記音声入力部が受け取った音声の発生元であると推定されるユーザを前記データベースに記憶された各帯域間相関行列の発生元である各ユーザの中から選択し、選択したユーザのＩＤを出力する識別結果出力部と
を具備することを特徴とする話者識別装置。
１または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだＮ個（Ｎは複数）の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列をユーザのＩＤに対応付けて記憶するデータベースと、
識別対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において並んだＮ個の帯域間における音声の成分のエンベロープの相関値を要素とするＮ行Ｎ列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
１≦ｎ≦ＮであるＮ種類のｎの各々、または、前記Ｎ種類のうちで予め定められたＭ（Ｎ＞Ｍ）種類のｎの各々と前記データベースに記憶された各帯域間相関行列との各組み合わせについて、前記特徴量抽出部により生成された帯域間相関行列と前記データベースに記憶された帯域間相関行列の両方から第ｎ行および第ｎ列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
前記類似度算出処理の実行結果に基づき、前記音声入力部が受け取った音声の発生元であると推定されるユーザを前記データベースに記憶された各帯域間相関行列の発生元である各ユーザの中から選択し、選択したユーザのＩＤを出力する識別結果出力部と
を具備することを特徴とする話者識別装置。
前記識別結果出力部は、各ｎについて、前記データベースに記憶された各帯域間相関行列のうち前記類似度算出処理により最大の類似度が得られたものを求め、前記データベースに記憶された各帯域間相関行列のうち最大の類似度の得られた回数の最も多い帯域間相関行列の発生元であるユーザを、前記音声入力部が受け取った音声の発生元であると推定されるユーザとして選択することを特徴とする請求項８または９に記載の話者識別装置。