JP4490384B2 - 音声の類似度の評価を行う方法および装置 - Google Patents

音声の類似度の評価を行う方法および装置 Download PDF

Info

Publication number
JP4490384B2
JP4490384B2 JP2006081961A JP2006081961A JP4490384B2 JP 4490384 B2 JP4490384 B2 JP 4490384B2 JP 2006081961 A JP2006081961 A JP 2006081961A JP 2006081961 A JP2006081961 A JP 2006081961A JP 4490384 B2 JP4490384 B2 JP 4490384B2
Authority
JP
Japan
Prior art keywords
similarity
correlation matrix
inter
speech
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006081961A
Other languages
English (en)
Other versions
JP2007256698A (ja
Inventor
三樹夫 東山
道子 風間
理 後藤
毅彦 川▲原▼
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Yamaha Corp
Original Assignee
Waseda University
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Yamaha Corp filed Critical Waseda University
Priority to JP2006081961A priority Critical patent/JP4490384B2/ja
Publication of JP2007256698A publication Critical patent/JP2007256698A/ja
Application granted granted Critical
Publication of JP4490384B2 publication Critical patent/JP4490384B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、いわゆる帯域間相関行列を利用して音声の類似度の評価を行う技術並びにこの技術を利用した話者認証および話者識別の技術に関する。
話者認証および話者識別においては、話者が発する音声と予め特定の話者から得られた音声とがどの程度類似しているかの評価が必要となる。このような音声の類似度を評価するために一般的に行われるのは、比較対象である音声の特徴を何らか手段により数量化して特徴量とし、各音声から得られる各特徴量を比較することにより音声の類似度を評価するという手法である。非特許文献1は、このような音声の特徴量として、帯域間相関行列を利用し、話者識別を行う技術を開示している。この帯域間相関行列は、帯域分割された音声の各成分のエンベロープの帯域間の相関値を要素とする行列である。複数の話者の音声から各々得られる帯域間相関行列の内容は、各話者の発話内容の影響をあまり受けず、話者自体に依存する。そして、話者が同じであれば、発話内容によらず類似した内容の帯域間相関行列が得られる。従って、この帯域間相関行列を音声の特徴量として用いることにより、話者認証や話者識別を行うことができる。
2002年3月の電子情報通信学会における風間道子、東山三樹夫、山崎芳男による発表論文「包絡線の帯域間相関行列を用いた話者識別」
上述した非特許文献1に開示の技術によれば、発話内容に拘わらず、話者の認証や識別を行うことができる。しかし、この技術を利用する場合においても、話者から入力音声を取得する過程において入力音声に雑音が重畳すると、どうしても話者認証や話者識別に支障が生じる。
この発明は、以上説明した事情に鑑みてなされたものであり、帯域間相関行列を利用して行う音声の類似度評価において、雑音に対する耐性を向上させることを目的としている。
この発明では、音声の特徴量として、周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を入力音声から生成する。そして、比較対象である2つの音声がある場合に、1≦n≦Nである少なくとも1種類のnを選択し、各nについて、比較対象である各音声について得られた2つの帯域間相関行列の一方の第n行および第n列を他方の第n行および第n列に代入し、あるいは2つの帯域間相関行列の両方から第n行および第n列を間引き、この代入後または間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う。
ここで、比較対象である2つの帯域間相関行列の一方が雑音の発生する環境下において入力音声から取得されるものである場合、その帯域間相関行列の要素が雑音の影響を受ける場合がある。例えば特定帯域の成分が雑音のエネルギーに埋もれた状態で入力音声が取得され、その入力音声から帯域間相関行列が生成されると、その帯域間相関行列において、雑音の属する帯域に関係する行および列にその雑音の影響が現れる。しかしながら、この発明では、上記の行および列の代入または間引き処理により、そのような雑音の影響を除外して帯域間相関行列間の類似度を算出することができる。
この発明による音声の類似度の評価の技術が具現される典型例として、例えば話者認証や話者識別がある。その詳細は以下に掲げる「発明を実施するための最良の形態」において明らかにされる。
以下、図面を参照し、この発明の実施の形態を説明する。
<第1実施形態>
図1はこの発明の一実施形態である話者認証装置の構成を示すブロック図である。この話者認証装置は、大別して、登録部10と、テンプレートDB(データベース)20と、認証部30とにより構成されている。
登録部10の構成は次の通りである。まず、ID入力部11は、あるサービスを受けることについて正当な権原を有するユーザのIDを受け取る装置であり、キーボード等により構成されている。音声入力部12は、上記正当な権原を有するユーザの音声を受け取る装置であり、例えばマイクロホンとこのマイクロホンから出力されるアナログ音声信号をデジタル形式の音声データに変換するA/D変換器により構成されている。発話区間検出部13は、音声入力部12から出力される音声データのレベルを監視し、レベルが閾値以上である発話区間内の音声データを通過させる装置である。
特徴量抽出部14は、発話区間検出部13を通過した発話区間の音声データから特徴量を抽出する装置である。本実施形態では、ユーザ毎に、複数種類の文章を発話させ、特徴量抽出部14は、各文章の音声から特徴量を各々抽出する。登録情報作成部15は、それらの特徴量を平均化した特徴量をID入力部11が受け取ったユーザIDと対応付け、登録情報としてテンプレートDB20に登録する。
認証部30の構成は次の通りである。まず、ID入力部31は、認証対象であるユーザのIDを受け取る装置であり、キーボード等により構成されている。音声入力部32は、認証対象であるユーザの音声を受け取る装置であり、音声入力部12と同様、マイクロホンとA/D変換器等により構成されている。音声入力部32の後段には発話区間検出部13と同様な発話区間検出部33が設けられている。
特徴量抽出部34は、特徴量抽出部14と同様な抽出方法により、発話区間検出部33を通過した音声データから特徴量を抽出する装置である。登録情報選択部35は、ID入力部31が受け取ったユーザのIDに対応付けられた特徴量をテンプレートDB20から読み出し、所定の閾値とともに出力する装置である。
特徴量比較部36は、特徴量抽出部34により抽出された特徴量と登録情報選択部35により読み出された特徴量とを比較し、比較結果として、両特徴量が表す音声の類似度を出力する装置である。認証結果出力部37は、特徴量比較部36から出力される類似度と登録情報選択部35から出力される閾値とを比較することにより、音声入力部32が受け取った音声の発生元であるユーザがID入力部31が受け取ったIDに対応したユーザであるか否かの認証を行い、認証結果を出力する装置である。
特徴量抽出部14および34は、いずれも図2に示す帯域間相関行列生成部を有している。周波数分析部51は、一定時間長のフレーム単位で、発話区間検出部13または33を通過した音声データにFFT(高速フーリエ変換)を施し、FFTにより得られる振幅スペクトルを出力する。
帯域別エンベロープ生成部52は、周波数軸上において並んだ第1〜第N帯域に各々属する各成分を周波数分析部51のFFT結果から抽出し、各帯域に属する音声の各成分のエンベロープを生成する装置である。さらに詳述すると、帯域別エンベロープ生成部52は、次の処理を行う。まず、フレーム毎に、周波数分析部51から得られる振幅スペクトルの中から周波数軸上において第1〜第N帯域に各々属するものを抽出し、dB値の形式に変換する。そして、周波数帯域毎に、フレーム毎に得られるdB値表現の振幅スペクトルの推移を求めて、第1帯域〜第N帯域に各々属する音声の成分のエンベロープE−i(i=1〜N)を出力する。なお、帯域別の音声成分のエンベロープE−i(i=1〜N)は、通過帯域の異なった複数のBPF(バンドパスフィルタ)からなるフィルタバンクにより入力音声の帯域分割を行い、このフィルタバンクを通過した各帯域の信号に半波整流および平滑化等の処理を施すことにより求めてもよい。
相関値算出部53は、j=1〜N、k=1〜Nの範囲内における全ての(j,k)の組み合わせについて、第j帯域のエンベロープE−jおよび第k帯域のエンベロープE−k間の相関値ajkを算出し、相関値ajk(j=1〜N、k=1〜N)を要素とするN行N列の帯域間相関行列を出力する。
以上が特徴量抽出部14および34の構成の詳細である。
特徴量比較部36は、特徴量抽出部34および登録情報選択部35から以上説明したような帯域間相関行列を各々受け取り、両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、認証結果出力部37は、この類似度算出処理の実行結果に基づいて、音声入力部32が受け取った音声の発生元であるユーザがID入力部31が受け取ったIDに対応したユーザであるか否かの認証処理を行う。
ところで、雑音の発生する環境下において認証対象であるユーザが音声を発した場合、その音声における比較的狭い特定帯域の成分が雑音のエネルギーに埋もれることがある。この場合において、例えばユーザの音声において第1〜第N帯域のうちq番目(1≦q≦N)の帯域に属する周波数の成分が雑音のエネルギーに埋もれると、その影響は特徴量抽出部34が出力する帯域間相関行列の第q行および第q列に現れる。
本実施形態の特徴は、このような雑音の影響が現れる状況においても、正しい認証結果が得られるように改良された特徴量比較部36の類似度算出処理および認証結果出力部37の認証処理の態様にある。改良された類似度算処理および認証処理の態様として次の2つがある。
<<第1の態様>>
この態様において、特徴量比較部36は、1≦n≦Nである少なくとも1種類のn(この例ではn=1〜Nまでの全てのn)を選択し、各nについて、図3に例示するように、特徴量抽出部34により生成された入力音声の帯域間相関行列と登録情報選択部35によりテンプレートDB20から読み出された帯域間相関行列の一方(この例ではテンプレートDB20から読み出された帯域間相関行列)の第n行および第n列を他方(この例では入力音声の帯域間相関行列)の第n行および第n列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、認証結果出力部37は、この類似度算出処理の実行結果に基づいて認証を行う。好ましい態様において、認証結果出力部37は、各nについて実行された類似度算出処理において類似度が閾値以上となった回数を求め、この回数が所定値以上か否かにより認証を行う。
<<第2の態様>>
この態様において、特徴量比較部36は、1≦n≦Nである少なくとも1種類のn(この例ではn=1〜Nまでの全てのn)を選択し、各nについて、図4に例示するように、特徴量抽出部34により生成された入力音声の帯域間相関行列と登録情報選択部35によりテンプレートDB20から読み出された帯域間相関行列の両方から第n行および第n列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、認証結果出力部37は、この類似度算出処理の実行結果に基づいて認証を行う。
帯域間相関行列間の類似度の算出方法に関しても各種の態様がある。ある好ましい態様において、特徴量比較部36は、比較対象である2つの帯域間相関行列について、例えば列毎に両帯域間相関行列の要素間の相関値を求め、全列についての相関値の平均値を類似度として出力する。他の好ましい態様において、特徴量比較部36は、比較対象である2つの帯域間相関行列をAおよびBとした場合、下記式(1)に従って類似度Dを算出する。
D=√(trace(AB−1)・trace(BA−1)) ………(1)
ただし、上記式(1)において、trace()は、括弧内の正方行列の対角線要素の和を意味する。
なお、上記第1の態様では、異種の帯域間相関行列間において第n行および第n列の代入を行った際、代入後の帯域間相関行列の正則性が失われることにより逆行列が求まらず、上記式(1)により類似度Dを算出することができない場合がある。そこで、上記第1の態様では、相関行列の性質を利用した他の演算処理により帯域間相関行列間の類似度を算出するのが好ましい。
以下、第1の態様により話者認証を行う本実施形態の第1の動作例および第2の態様により話者認証を行う本実施形態の第2の動作例について説明する。
<<第1の動作例>>
図5は本実施形態の第1の動作例を示すフローチャートである。あるユーザの認証処理においては、まず、ID入力部31によりそのユーザのIDが取得されるとともに、同ユーザの発話区間内の音声データが音声入力部32および発話区間検出部33により取得される(ステップS101)。
次に特徴量抽出部34により、入力音声、すなわち、ステップS101において取得された音声データから帯域間相関行列Aが生成され(ステップS102)、登録情報選択部35によりステップS101において取得されたIDに対応付けられた帯域間相関行列BがテンプレートDB20から読み出される(ステップS103)。そして、認証結果出力部37は、認証結果が肯定的である程度を示すポイントレジスタPを「0」に初期化する(ステップS104)。
そして、帯域間相関行列における帯域の数(すなわち、行数および列数)がNである場合、本実施形態では、n=1〜Nまでの各nについて、ステップS105〜S110のループ処理を繰り返し実行する。まず、特徴量比較部36は、ユーザIDに対応した帯域間相関行列Bの第n行および第n列を入力音声の帯域間相関行列Aの第n行および第n列に各々代入する(ステップS106a)。次に特徴量比較部36は、この代入後の帯域間相関行列Aと、ユーザIDに対応した帯域間相関行列Bとの間の類似度Dを算出する(ステップS107a)。そして、認証結果出力部37はこの類似度Dと閾値th1とを比較する(ステップS108)。そして、認証結果出力部37は、類似度Dが閾値th1以上である場合に限り、ポイントレジスタPに所定の大きさのポイントを加算する(ステップS108およびS109)。
そして、n=1〜Nまでの各nについてステップS105〜S110のループ処理が終了すると、認証結果出力部37はポイントレジスタPの内容が閾値th2以上か否かを判断し(ステップS111)、この判断結果が肯定的である場合には話者であるユーザはユーザIDに対応した本人であると判断し(ステップS112)、そうでない場合は詐称者であると判断し(ステップS113)、その判断結果を出力する。
<<第2の動作例>>
図6は本実施形態の第2の動作例を示すフローチャートである。この第2の動作例では、上記第1の動作例におけるステップS106aおよびS107aがステップS106bおよびS107bに置き換えられている。この第2の動作例において、ステップS106bでは、特徴量比較部36が、入力音声の帯域間相関行列AおよびユーザIDに対応した帯域間相関行列Bの両方から第n行および第n列を間引く。次にステップS107bでは、特徴量比較部36は、この間引き後の帯域間相関行列AおよびB(いずれも(N−1)行(N−1)列行列)間の類似度Dを算出する。他の処理の内容は上記第1の動作例と同様である。
以上説明した本実施形態によれば、音声入力部32がユーザの音声を取得する際に、例えば第q帯域(1≦q≦N)の音声の成分が雑音のエネルギーに埋もれると、特徴量抽出部34が出力する帯域間相関行列Aの第q行および第q列にその影響が現れる。しかしながら、本実施形態において、特徴量比較部36は、1≦n≦Nの範囲の各nについて、特徴量抽出部34により生成された帯域間相関行列Aと登録情報選択部35により読み出された帯域間相関行列Bの一方の第n行および第n列を他方の第n行および第n列に各々代入し(ステップS106a)、あるいは帯域間相関行列AおよびBの両方から第n行および第n列を間引き(ステップS106b)、この代入後または間引き後の両帯域間相関行列AおよびB間の類似度Dを算出する類似度算出処理を実行する(ステップS107aおよびS107b)。そして、認証結果出力部37は、各nについて実行された類似度算出処理において類似度Dが閾値th1以上となった回数に基づいて認証を行う。ここで、特徴量抽出部34が出力する帯域間相関行列Aの例えば第q行および第q列に雑音の影響が現れたとしても、入力音声の発生元がユーザIDに対応した正当なユーザである場合には、n=qについて実行された類似度算出処理において高い類似度Dが得られる可能性が高い。従って、本実施形態によれば、雑音の発生する環境下において入力音声の取得が行われる状況下においても、入力音声の発生元がユーザIDに対応した正当なユーザであるか否かの認証を正確に行うことができる。
<第2実施形態>
図7はこの発明の一実施形態である話者識別装置の構成を示すブロック図である。この話者識別装置は、上記第1実施形態(図1)のものと同様な登録部10とテンプレートDB20を有するとともに、識別部40を有する。
識別部40の構成は次の通りである。まず、音声入力部41は、識別対象であるユーザから音声を受け取り、音声データを出力する装置である。発話区間検出部42は、音声入力部41が出力する音声データのうち発話区間のものを検出して出力する装置である。特徴量抽出部43は、発話区間検出部42を通過した音声データから特徴量を抽出する装置である。特徴量比較部44は、特徴量抽出部43により抽出された特徴量とテンプレートDB20に登録された各ユーザの特徴量とについて類似度算出処理を実行する装置である。そして、識別結果出力部45は、特徴量比較部44における類似度算出処理の実行結果に基づいて、テンプレートDB20に格納された各特徴量の発生元である各ユーザのうち音声入力部41が受け取った音声の発生元であると推定されるユーザを選択し、そのユーザのIDを出力する装置である。
本実施形態における特徴量抽出部14および43の構成、これらにより抽出される特徴量である帯域間相関行列の内容は上記第1実施形態において説明した通りである。また、特徴量比較部44において行われる類似度算出および識別結果出力部45により行われる話者識別には、上記第1実施形態と同様、次の2態様がある。
<<第1の態様>>
この話者識別システムにおいて、特徴量比較部44は、特徴量抽出部43により生成された入力音声の帯域間相関行列とテンプレートDB20内の各帯域間相関行列との比較を行う。そして、第1の態様において、特徴量比較部44は、上記第1実施形態と同様、1≦n≦Nである少なくとも1種類のn(この例ではn=1〜Nまでの全てのn)を選択し、各nについて、特徴量抽出部43により生成された入力音声の帯域間相関行列とテンプレートDB20内の帯域間相関行列の一方(この例ではテンプレートDB20内の帯域間相関行列)の第n行および第n列を他方(この例では入力音声の帯域間相関行列)の第n行および第n列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、識別結果出力部45は、この類似度算出処理の実行結果に基づいて識別を行う。好ましい態様において、識別結果出力部45は、各nについて、テンプレートDB20に記憶された各帯域間相関行列のうち類似度算出処理により最大の類似度が得られたものを求め、テンプレートDBに記憶された各帯域間相関行列のうち最大の類似度の得られた回数の最も多い帯域間相関行列の発生元であるユーザを、音声入力部41が受け取った音声の発生元であるユーザと推定する。
<<第2の態様>>
この態様において、特徴量比較部44は、各nについて、特徴量抽出部34により生成された入力音声の帯域間相関行列とテンプレートDB20内の帯域間相関行列の両方の第n行および第n列を間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。識別結果出力部45の処理内容は上記第1の態様と同様である。
次に、上記第1の態様により話者識別を行う本実施形態の第1の動作例および第2の態様により話者識別を行う本実施形態の第2の動作例について説明する。
<<第1の動作例>>
図8は本実施形態の第1の動作例を示すフローチャートである。あるユーザの識別処理においては、まず、識別対象であるユーザの発話区間内の音声データが音声入力部41および発話区間検出部42により取得される(ステップS201)。
次に特徴量抽出部43により、ステップS201において取得された音声データから帯域間相関行列Aが生成される(ステップS202)。また、このとき、識別結果出力部45は、本実施形態による話者識別サービスの加入者であるユーザ毎に設けられたポイントレジスタP(i)(i=1〜M)を「0」に初期化する。ここで、ポイントレジスタP(i)は、i番目のユーザがステップS201において取得された音声データの発生元であると推定される程度を示す情報を記憶するためのレジスタである。
そして、帯域間相関行列の帯域数がNである場合、本実施形態では、n=1〜Nの範囲内の各nについて、ステップS203〜S213のループ処理を繰り返し実行する。このループ処理では、まず、最大類似度Dmaxを0に初期化する(ステップS204)。そして、テンプレートDB20に登録された帯域間相関行列の個数がMであるとした場合、i=1〜Mまでの各iについて、ステップS205〜S211のループ処理を繰り返し実行する。
まず、特徴量比較部44は、テンプレートDB20からi番目のユーザの帯域間相関行列Biを読み出す(ステップS206)。次に特徴量比較部44は、ステップS202において得られた帯域間相関行列Aの第n行および第n列にステップS206において読み出された帯域間相関行列Biの第n行および第n列を代入する(ステップS207a)。次に特徴量比較部44は、この代入後の帯域間相関行列Aと帯域間相関行列Biの類似度Dを算出する(ステップS208a)。そして、識別結果出力部45は、このようにして得られた類似度Dを最大類似度Dmaxと比較し(ステップS209)、D>Dmaxである場合に限り、Dmax=Dとするとともにimax=iとする(ステップS210)。
以上の処理がi=1〜Mまでの各iについて繰り返される結果、テンプレートDB20内のM個の帯域間相関行列Bi(i=1〜M)のうち入力音声から得られた帯域間相関行列Aとの相関値が最も高い帯域間相関行列Bimaxのインデックスimaxが得られる。識別結果出力部45は、このインデックスimaxに対応したポイントレジスタP(imax)の内容に所定の大きさのポイントを加算する(ステップS212)。
以上の処理がn=1〜Nまでの各Nについて繰り返される。その後、識別結果出力部45は、ポイントレジスタP(i)(i=1〜M)のうち最大のもののインデックスiを求め、このインデックスiに対応したユーザのIDを識別結果として出力する(ステップS214)。
<<第2の動作例>>
図9は本実施形態の第1の動作例を示すフローチャートである。この第2の動作例では、上記第1の動作例におけるステップS207aおよびS208aがステップS207bおよびS208bに置き換えられている。この第2の動作例において、ステップS207bでは、特徴量比較部44が、入力音声の帯域間相関行列AおよびテンプレートDB20から読み出された帯域間相関行列Biの両方から第n行および第n列を間引く。次にステップS208bでは、特徴量比較部44は、この間引き後の帯域間相関行列AおよびBi(いずれも(N−1)行(N−1)列行列)間の類似度Dを算出する。他の処理の内容は上記第1の動作例と同様である。
以上が本実施形態の動作である。本実施形態においても上記第1実施形態と同様な効果が得られる。
以上、この発明の各種の実施形態について説明したが、この発明にはこれ以外にも他の実施形態が考えられる。例えば次の通りである。
<他の実施形態>
(1)上記第1実施形態における話者認証装置では、認証部30とは別の装置として登録部10が設けられているが、認証部30に登録部10の機能を併せ持たせ、ユーザが認証に用いる自分の音声の帯域間相関行列を認証部30を介してテンプレートDB20に登録し得るように構成してもよい。上記第2実施形態における話者識別装置も同様であり、識別部40に登録部10の機能を併せ持たせてもよい。
(2)上記第1実施形態では、類似度が閾値th1以上となる回数に基づいてユーザが本人か否かの認証を行ったが、各種のnについて得られた類似度のうち最も高い類似度に基づいてユーザの認証を行ってもよい。
(3)上記第2実施形態では、第n行および第n列の代入または間引き後において、入力音声の帯域間相関行列Aとの類似度が第1位(最大)である帯域間相関行列Bi(i=imax)のみについて、その帯域間相関行列Bimaxに対応したポイントレジスタP(imax)にポイントを加算したが(図8および図9のステップS212)、帯域間相関行列Aとの類似度が第2位以降である各帯域間相関行列Biについても、それらに対応したポイントレジスタP(i)にその類似度の順位に応じた大きさのポイントを加算するようにしてもよい。
(4)上記各実施形態では、帯域間相関行列がN行N列である場合に、1からNまでのN種類のnについて、第n行および第n列の代入または間引きを伴う帯域間相関行列間の類似度の算出を行ったが、N種類より少ない種類のnについて、第n行および第n列の代入または間引きを伴う帯域間相関行列間の類似度の算出を行い、算出結果に基づいて最終的な判断(認証または識別)を行ってもよい。例えば奇数または偶数であるnのみについて、第n行および第n列の代入または間引きを伴う帯域間相関行列間の類似度の算出を行う態様が考えられる。
(5)上記各実施形態において、第1の態様による類似度算出処理では、テンプレートDB20から読み出された帯域間相関行列Bの第n行および第n列を入力音声の帯域間相関行列Aの第n行および第n列に代入したが、これとは逆に、入力音声の帯域間相関行列Aの第n行および第n列をテンプレートDB20から読み出された帯域間相関行列Bの第n行および第n列に代入し、この代入後の両帯域間相関行列間の類似度を算出してもよい。
この発明の第1実施形態である話者認証装置の構成を示すブロック図である。 同実施形態において特徴量抽出部として用いられる帯域間相関行列生成部の構成を示すブロック図である。 同実施形態における類似度算出処理の第1の態様を示す図である。 同実施形態における類似度算出処理の第2の態様を示す図である。 同実施形態の第1の動作例を示すフローチャートである。 同実施形態の第2の動作例を示すフローチャートである。 この発明の第2実施形態である話者識別装置の構成を示すブロック図である。 同実施形態の第1の動作例を示すフローチャートである。 同実施形態の第2の動作例を示すフローチャートである。
10……登録部、20……テンプレートDB、30……認証部、40……識別部、12,32,41……音声入力部、11,31……ID入力部、13,33,42……発話区間検出部、14,34,43……特徴量抽出部、15……登録情報作成部、35……登録情報選択部、36,44……特徴量比較部、37……認証結果出力部、45……識別結果出力部。

Claims (10)

  1. コンピュータが、
    周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を入力音声から生成する帯域間相関行列生成過程と、
    1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、比較対象である2つの音声について前記帯域間相関行列生成過程により得られた2つの帯域間相関行列の一方の第n行および第n列を他方の第n行および第n列に代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価過程と
    を実行することを特徴とする音声の類似度評価方法。
  2. コンピュータが、
    周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を入力音声から生成する帯域間相関行列生成過程と、
    1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、比較対象である2つの音声について前記帯域間相関行列生成過程により得られた2つの帯域間相関行列から第n行および第n列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価過程と
    を実行することを特徴とする音声の類似度評価方法。
  3. 周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を入力音声から生成する帯域間相関行列生成手段と、
    1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、比較対象である2つの音声について前記帯域間相関行列生成手段により得られた2つの帯域間相関行列の一方の第n行および第n列を他方の第n行および第n列に代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価手段と
    を具備することを特徴とする音声の類似度評価装置。
  4. 周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を入力音声から生成する帯域間相関行列生成手段と、
    1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、比較対象である2つの音声について前記帯域間相関行列生成手段により得られた2つの帯域間相関行列から第n行および第n列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価手段と
    を具備することを特徴とする音声の類似度評価装置。
  5. 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
    認証対象であるユーザのIDを受け取るID入力部と、
    前記認証対象であるユーザの音声を受け取る音声入力部と、
    周波数軸上において並んだN個の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
    前記ID入力部が受け取ったユーザのIDに対応付けられた帯域間相関行列を前記データベースから読み出す登録情報選択部と、
    1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、前記特徴量抽出部により生成された帯域間相関行列と前記登録情報選択部により読み出された帯域間相関行列の一方の第n行および第n列を他方の第n行および第n列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
    前記類似度算出処理の実行結果に基づいて、前記音声入力部が受け取った音声の発生元であるユーザが前記ID入力部が受け取ったIDに対応したユーザであるか否かの認証を行い、認証結果を出力する認証結果出力部と
    を具備することを特徴とする話者認証装置。
  6. 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
    認証対象であるユーザのIDを受け取るID入力部と、
    前記認証対象であるユーザの音声を受け取る音声入力部と、
    周波数軸上において並んだN個の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
    前記ID入力部が受け取ったユーザのIDに対応付けられた帯域間相関行列を前記データベースから読み出す登録情報選択部と、
    1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、前記特徴量抽出部により生成された帯域間相関行列と前記登録情報選択部により読み出された帯域間相関行列の両方から第n行および第n列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
    前記類似度算出処理の実行結果に基づいて、前記音声入力部が受け取った音声の発生元であるユーザが前記ID入力部が受け取ったIDに対応したユーザであるか否かの認証を行い、認証結果を出力する認証結果出力部と
    を具備することを特徴とする話者認証装置。
  7. 前記認証結果出力部は、各nについて実行された前記類似度算出処理において類似度が閾値以上となった回数に基づいて前記認証を行うことを特徴とする請求項5または6に記載の話者認証装置。
  8. 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
    識別対象であるユーザの音声を受け取る音声入力部と、
    周波数軸上において並んだN個の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
    1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々と前記データベースに記憶された各帯域間相関行列との各組み合わせについて、前記特徴量抽出部により生成された帯域間相関行列と前記データベースに記憶された帯域間相関行列の一方の第n行および第n列を他方の第n行および第n列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
    前記類似度算出処理の実行結果に基づき、前記音声入力部が受け取った音声の発生元であると推定されるユーザを前記データベースに記憶された各帯域間相関行列の発生元である各ユーザの中から選択し、選択したユーザのIDを出力する識別結果出力部と
    を具備することを特徴とする話者識別装置。
  9. 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
    識別対象であるユーザの音声を受け取る音声入力部と、
    周波数軸上において並んだN個の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
    1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々と前記データベースに記憶された各帯域間相関行列との各組み合わせについて、前記特徴量抽出部により生成された帯域間相関行列と前記データベースに記憶された帯域間相関行列の両方から第n行および第n列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
    前記類似度算出処理の実行結果に基づき、前記音声入力部が受け取った音声の発生元であると推定されるユーザを前記データベースに記憶された各帯域間相関行列の発生元である各ユーザの中から選択し、選択したユーザのIDを出力する識別結果出力部と
    を具備することを特徴とする話者識別装置。
  10. 前記識別結果出力部は、各nについて、前記データベースに記憶された各帯域間相関行列のうち前記類似度算出処理により最大の類似度が得られたものを求め、前記データベースに記憶された各帯域間相関行列のうち最大の類似度の得られた回数の最も多い帯域間相関行列の発生元であるユーザを、前記音声入力部が受け取った音声の発生元であると推定されるユーザとして選択することを特徴とする請求項8または9に記載の話者識別装置。
JP2006081961A 2006-03-24 2006-03-24 音声の類似度の評価を行う方法および装置 Expired - Fee Related JP4490384B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006081961A JP4490384B2 (ja) 2006-03-24 2006-03-24 音声の類似度の評価を行う方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006081961A JP4490384B2 (ja) 2006-03-24 2006-03-24 音声の類似度の評価を行う方法および装置

Publications (2)

Publication Number Publication Date
JP2007256698A JP2007256698A (ja) 2007-10-04
JP4490384B2 true JP4490384B2 (ja) 2010-06-23

Family

ID=38630988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006081961A Expired - Fee Related JP4490384B2 (ja) 2006-03-24 2006-03-24 音声の類似度の評価を行う方法および装置

Country Status (1)

Country Link
JP (1) JP4490384B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002006880A (ja) * 2000-06-22 2002-01-11 Mitsubishi Electric Corp 音声認識装置
JP2003044077A (ja) * 2001-07-26 2003-02-14 Toshiba Corp 音声特徴量抽出方法と装置及びプログラム
WO2005046076A1 (ja) * 2003-11-11 2005-05-19 Mitsubishi Denki Kabushiki Kaisha エコー抑圧装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002006880A (ja) * 2000-06-22 2002-01-11 Mitsubishi Electric Corp 音声認識装置
JP2003044077A (ja) * 2001-07-26 2003-02-14 Toshiba Corp 音声特徴量抽出方法と装置及びプログラム
WO2005046076A1 (ja) * 2003-11-11 2005-05-19 Mitsubishi Denki Kabushiki Kaisha エコー抑圧装置

Also Published As

Publication number Publication date
JP2007256698A (ja) 2007-10-04

Similar Documents

Publication Publication Date Title
Han et al. Acoustic scene classification using convolutional neural network and multiple-width frequency-delta data augmentation
US8364483B2 (en) Method for separating source signals and apparatus thereof
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP4527679B2 (ja) 音声の類似度の評価を行う方法および装置
Thakur et al. Speech recognition using euclidean distance
CN102024455A (zh) 说话人识别***及其方法
JP6482173B2 (ja) 音響信号処理装置およびその方法
CN112712809B (zh) 一种语音检测方法、装置、电子设备及存储介质
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
CN112992109B (zh) 辅助歌唱***、辅助歌唱方法及其非瞬时计算机可读取记录媒体
CN110648671A (zh) 声纹模型重建方法、终端、装置及可读存储介质
CN105283916B (zh) 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质
CN110827853A (zh) 语音特征信息提取方法、终端及可读存储介质
CN112632318A (zh) 一种音频推荐方法、装置、***及存储介质
Alashban et al. Speaker gender classification in mono-language and cross-language using BLSTM network
JP5083951B2 (ja) 音声処理装置およびプログラム
JPWO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
Jeyalakshmi et al. HMM and K-NN based automatic musical instrument recognition
JP4490384B2 (ja) 音声の類似度の評価を行う方法および装置
Anguera et al. Friends and enemies: A novel initialization for speaker diarization
CN113870896A (zh) 基于时频图和卷积神经网络的运动声音判假方法、装置
Barbu A supervised text-independent speaker recognition approach
US7454337B1 (en) Method of modeling single data class from multi-class data
Besbes et al. Wavelet packet energy and entropy features for classification of stressed speech
JP7287442B2 (ja) 情報処理装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100323

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100401

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140409

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees