JP4490384B2 - 音声の類似度の評価を行う方法および装置 - Google Patents
音声の類似度の評価を行う方法および装置 Download PDFInfo
- Publication number
- JP4490384B2 JP4490384B2 JP2006081961A JP2006081961A JP4490384B2 JP 4490384 B2 JP4490384 B2 JP 4490384B2 JP 2006081961 A JP2006081961 A JP 2006081961A JP 2006081961 A JP2006081961 A JP 2006081961A JP 4490384 B2 JP4490384 B2 JP 4490384B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- correlation matrix
- inter
- speech
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
2002年3月の電子情報通信学会における風間道子、東山三樹夫、山崎芳男による発表論文「包絡線の帯域間相関行列を用いた話者識別」
ここで、比較対象である2つの帯域間相関行列の一方が雑音の発生する環境下において入力音声から取得されるものである場合、その帯域間相関行列の要素が雑音の影響を受ける場合がある。例えば特定帯域の成分が雑音のエネルギーに埋もれた状態で入力音声が取得され、その入力音声から帯域間相関行列が生成されると、その帯域間相関行列において、雑音の属する帯域に関係する行および列にその雑音の影響が現れる。しかしながら、この発明では、上記の行および列の代入または間引き処理により、そのような雑音の影響を除外して帯域間相関行列間の類似度を算出することができる。
この発明による音声の類似度の評価の技術が具現される典型例として、例えば話者認証や話者識別がある。その詳細は以下に掲げる「発明を実施するための最良の形態」において明らかにされる。
<第1実施形態>
図1はこの発明の一実施形態である話者認証装置の構成を示すブロック図である。この話者認証装置は、大別して、登録部10と、テンプレートDB(データベース)20と、認証部30とにより構成されている。
以上が特徴量抽出部14および34の構成の詳細である。
この態様において、特徴量比較部36は、1≦n≦Nである少なくとも1種類のn(この例ではn=1〜Nまでの全てのn)を選択し、各nについて、図3に例示するように、特徴量抽出部34により生成された入力音声の帯域間相関行列と登録情報選択部35によりテンプレートDB20から読み出された帯域間相関行列の一方(この例ではテンプレートDB20から読み出された帯域間相関行列)の第n行および第n列を他方(この例では入力音声の帯域間相関行列)の第n行および第n列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、認証結果出力部37は、この類似度算出処理の実行結果に基づいて認証を行う。好ましい態様において、認証結果出力部37は、各nについて実行された類似度算出処理において類似度が閾値以上となった回数を求め、この回数が所定値以上か否かにより認証を行う。
この態様において、特徴量比較部36は、1≦n≦Nである少なくとも1種類のn(この例ではn=1〜Nまでの全てのn)を選択し、各nについて、図4に例示するように、特徴量抽出部34により生成された入力音声の帯域間相関行列と登録情報選択部35によりテンプレートDB20から読み出された帯域間相関行列の両方から第n行および第n列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、認証結果出力部37は、この類似度算出処理の実行結果に基づいて認証を行う。
D=√(trace(AB−1)・trace(BA−1)) ………(1)
ただし、上記式(1)において、trace()は、括弧内の正方行列の対角線要素の和を意味する。
図5は本実施形態の第1の動作例を示すフローチャートである。あるユーザの認証処理においては、まず、ID入力部31によりそのユーザのIDが取得されるとともに、同ユーザの発話区間内の音声データが音声入力部32および発話区間検出部33により取得される(ステップS101)。
図6は本実施形態の第2の動作例を示すフローチャートである。この第2の動作例では、上記第1の動作例におけるステップS106aおよびS107aがステップS106bおよびS107bに置き換えられている。この第2の動作例において、ステップS106bでは、特徴量比較部36が、入力音声の帯域間相関行列AおよびユーザIDに対応した帯域間相関行列Bの両方から第n行および第n列を間引く。次にステップS107bでは、特徴量比較部36は、この間引き後の帯域間相関行列AおよびB(いずれも(N−1)行(N−1)列行列)間の類似度Dを算出する。他の処理の内容は上記第1の動作例と同様である。
図7はこの発明の一実施形態である話者識別装置の構成を示すブロック図である。この話者識別装置は、上記第1実施形態(図1)のものと同様な登録部10とテンプレートDB20を有するとともに、識別部40を有する。
この話者識別システムにおいて、特徴量比較部44は、特徴量抽出部43により生成された入力音声の帯域間相関行列とテンプレートDB20内の各帯域間相関行列との比較を行う。そして、第1の態様において、特徴量比較部44は、上記第1実施形態と同様、1≦n≦Nである少なくとも1種類のn(この例ではn=1〜Nまでの全てのn)を選択し、各nについて、特徴量抽出部43により生成された入力音声の帯域間相関行列とテンプレートDB20内の帯域間相関行列の一方(この例ではテンプレートDB20内の帯域間相関行列)の第n行および第n列を他方(この例では入力音声の帯域間相関行列)の第n行および第n列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。そして、識別結果出力部45は、この類似度算出処理の実行結果に基づいて識別を行う。好ましい態様において、識別結果出力部45は、各nについて、テンプレートDB20に記憶された各帯域間相関行列のうち類似度算出処理により最大の類似度が得られたものを求め、テンプレートDBに記憶された各帯域間相関行列のうち最大の類似度の得られた回数の最も多い帯域間相関行列の発生元であるユーザを、音声入力部41が受け取った音声の発生元であるユーザと推定する。
この態様において、特徴量比較部44は、各nについて、特徴量抽出部34により生成された入力音声の帯域間相関行列とテンプレートDB20内の帯域間相関行列の両方の第n行および第n列を間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する。識別結果出力部45の処理内容は上記第1の態様と同様である。
図8は本実施形態の第1の動作例を示すフローチャートである。あるユーザの識別処理においては、まず、識別対象であるユーザの発話区間内の音声データが音声入力部41および発話区間検出部42により取得される(ステップS201)。
図9は本実施形態の第1の動作例を示すフローチャートである。この第2の動作例では、上記第1の動作例におけるステップS207aおよびS208aがステップS207bおよびS208bに置き換えられている。この第2の動作例において、ステップS207bでは、特徴量比較部44が、入力音声の帯域間相関行列AおよびテンプレートDB20から読み出された帯域間相関行列Biの両方から第n行および第n列を間引く。次にステップS208bでは、特徴量比較部44は、この間引き後の帯域間相関行列AおよびBi(いずれも(N−1)行(N−1)列行列)間の類似度Dを算出する。他の処理の内容は上記第1の動作例と同様である。
<他の実施形態>
(1)上記第1実施形態における話者認証装置では、認証部30とは別の装置として登録部10が設けられているが、認証部30に登録部10の機能を併せ持たせ、ユーザが認証に用いる自分の音声の帯域間相関行列を認証部30を介してテンプレートDB20に登録し得るように構成してもよい。上記第2実施形態における話者識別装置も同様であり、識別部40に登録部10の機能を併せ持たせてもよい。
(2)上記第1実施形態では、類似度が閾値th1以上となる回数に基づいてユーザが本人か否かの認証を行ったが、各種のnについて得られた類似度のうち最も高い類似度に基づいてユーザの認証を行ってもよい。
(3)上記第2実施形態では、第n行および第n列の代入または間引き後において、入力音声の帯域間相関行列Aとの類似度が第1位(最大)である帯域間相関行列Bi(i=imax)のみについて、その帯域間相関行列Bimaxに対応したポイントレジスタP(imax)にポイントを加算したが(図8および図9のステップS212)、帯域間相関行列Aとの類似度が第2位以降である各帯域間相関行列Biについても、それらに対応したポイントレジスタP(i)にその類似度の順位に応じた大きさのポイントを加算するようにしてもよい。
(4)上記各実施形態では、帯域間相関行列がN行N列である場合に、1からNまでのN種類のnについて、第n行および第n列の代入または間引きを伴う帯域間相関行列間の類似度の算出を行ったが、N種類より少ない種類のnについて、第n行および第n列の代入または間引きを伴う帯域間相関行列間の類似度の算出を行い、算出結果に基づいて最終的な判断(認証または識別)を行ってもよい。例えば奇数または偶数であるnのみについて、第n行および第n列の代入または間引きを伴う帯域間相関行列間の類似度の算出を行う態様が考えられる。
(5)上記各実施形態において、第1の態様による類似度算出処理では、テンプレートDB20から読み出された帯域間相関行列Bの第n行および第n列を入力音声の帯域間相関行列Aの第n行および第n列に代入したが、これとは逆に、入力音声の帯域間相関行列Aの第n行および第n列をテンプレートDB20から読み出された帯域間相関行列Bの第n行および第n列に代入し、この代入後の両帯域間相関行列間の類似度を算出してもよい。
Claims (10)
- コンピュータが、
周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を入力音声から生成する帯域間相関行列生成過程と、
1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、比較対象である2つの音声について前記帯域間相関行列生成過程により得られた2つの帯域間相関行列の一方の第n行および第n列を他方の第n行および第n列に代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価過程と
を実行することを特徴とする音声の類似度評価方法。 - コンピュータが、
周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を入力音声から生成する帯域間相関行列生成過程と、
1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、比較対象である2つの音声について前記帯域間相関行列生成過程により得られた2つの帯域間相関行列から第n行および第n列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価過程と
を実行することを特徴とする音声の類似度評価方法。 - 周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を入力音声から生成する帯域間相関行列生成手段と、
1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、比較対象である2つの音声について前記帯域間相関行列生成手段により得られた2つの帯域間相関行列の一方の第n行および第n列を他方の第n行および第n列に代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価手段と
を具備することを特徴とする音声の類似度評価装置。 - 周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を入力音声から生成する帯域間相関行列生成手段と、
1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、比較対象である2つの音声について前記帯域間相関行列生成手段により得られた2つの帯域間相関行列から第n行および第n列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行し、この実行結果に基づいて音声の類似度に関する評価を行う類似度評価手段と
を具備することを特徴とする音声の類似度評価装置。 - 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
認証対象であるユーザのIDを受け取るID入力部と、
前記認証対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において並んだN個の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
前記ID入力部が受け取ったユーザのIDに対応付けられた帯域間相関行列を前記データベースから読み出す登録情報選択部と、
1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、前記特徴量抽出部により生成された帯域間相関行列と前記登録情報選択部により読み出された帯域間相関行列の一方の第n行および第n列を他方の第n行および第n列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
前記類似度算出処理の実行結果に基づいて、前記音声入力部が受け取った音声の発生元であるユーザが前記ID入力部が受け取ったIDに対応したユーザであるか否かの認証を行い、認証結果を出力する認証結果出力部と
を具備することを特徴とする話者認証装置。 - 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
認証対象であるユーザのIDを受け取るID入力部と、
前記認証対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において並んだN個の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
前記ID入力部が受け取ったユーザのIDに対応付けられた帯域間相関行列を前記データベースから読み出す登録情報選択部と、
1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々について、前記特徴量抽出部により生成された帯域間相関行列と前記登録情報選択部により読み出された帯域間相関行列の両方から第n行および第n列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
前記類似度算出処理の実行結果に基づいて、前記音声入力部が受け取った音声の発生元であるユーザが前記ID入力部が受け取ったIDに対応したユーザであるか否かの認証を行い、認証結果を出力する認証結果出力部と
を具備することを特徴とする話者認証装置。 - 前記認証結果出力部は、各nについて実行された前記類似度算出処理において類似度が閾値以上となった回数に基づいて前記認証を行うことを特徴とする請求項5または6に記載の話者認証装置。
- 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
識別対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において並んだN個の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々と前記データベースに記憶された各帯域間相関行列との各組み合わせについて、前記特徴量抽出部により生成された帯域間相関行列と前記データベースに記憶された帯域間相関行列の一方の第n行および第n列を他方の第n行および第n列に各々代入し、この代入後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
前記類似度算出処理の実行結果に基づき、前記音声入力部が受け取った音声の発生元であると推定されるユーザを前記データベースに記憶された各帯域間相関行列の発生元である各ユーザの中から選択し、選択したユーザのIDを出力する識別結果出力部と
を具備することを特徴とする話者識別装置。 - 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだN個(Nは複数)の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
識別対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において並んだN個の帯域間における音声の成分のエンベロープの相関値を要素とするN行N列の帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
1≦n≦NであるN種類のnの各々、または、前記N種類のうちで予め定められたM(N>M)種類のnの各々と前記データベースに記憶された各帯域間相関行列との各組み合わせについて、前記特徴量抽出部により生成された帯域間相関行列と前記データベースに記憶された帯域間相関行列の両方から第n行および第n列を各々間引き、この間引き後の両帯域間相関行列間の類似度を算出する類似度算出処理を実行する特徴量比較部と、
前記類似度算出処理の実行結果に基づき、前記音声入力部が受け取った音声の発生元であると推定されるユーザを前記データベースに記憶された各帯域間相関行列の発生元である各ユーザの中から選択し、選択したユーザのIDを出力する識別結果出力部と
を具備することを特徴とする話者識別装置。 - 前記識別結果出力部は、各nについて、前記データベースに記憶された各帯域間相関行列のうち前記類似度算出処理により最大の類似度が得られたものを求め、前記データベースに記憶された各帯域間相関行列のうち最大の類似度の得られた回数の最も多い帯域間相関行列の発生元であるユーザを、前記音声入力部が受け取った音声の発生元であると推定されるユーザとして選択することを特徴とする請求項8または9に記載の話者識別装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006081961A JP4490384B2 (ja) | 2006-03-24 | 2006-03-24 | 音声の類似度の評価を行う方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006081961A JP4490384B2 (ja) | 2006-03-24 | 2006-03-24 | 音声の類似度の評価を行う方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007256698A JP2007256698A (ja) | 2007-10-04 |
JP4490384B2 true JP4490384B2 (ja) | 2010-06-23 |
Family
ID=38630988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006081961A Expired - Fee Related JP4490384B2 (ja) | 2006-03-24 | 2006-03-24 | 音声の類似度の評価を行う方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4490384B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002006880A (ja) * | 2000-06-22 | 2002-01-11 | Mitsubishi Electric Corp | 音声認識装置 |
JP2003044077A (ja) * | 2001-07-26 | 2003-02-14 | Toshiba Corp | 音声特徴量抽出方法と装置及びプログラム |
WO2005046076A1 (ja) * | 2003-11-11 | 2005-05-19 | Mitsubishi Denki Kabushiki Kaisha | エコー抑圧装置 |
-
2006
- 2006-03-24 JP JP2006081961A patent/JP4490384B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002006880A (ja) * | 2000-06-22 | 2002-01-11 | Mitsubishi Electric Corp | 音声認識装置 |
JP2003044077A (ja) * | 2001-07-26 | 2003-02-14 | Toshiba Corp | 音声特徴量抽出方法と装置及びプログラム |
WO2005046076A1 (ja) * | 2003-11-11 | 2005-05-19 | Mitsubishi Denki Kabushiki Kaisha | エコー抑圧装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2007256698A (ja) | 2007-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Acoustic scene classification using convolutional neural network and multiple-width frequency-delta data augmentation | |
US8364483B2 (en) | Method for separating source signals and apparatus thereof | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP4527679B2 (ja) | 音声の類似度の評価を行う方法および装置 | |
Thakur et al. | Speech recognition using euclidean distance | |
CN102024455A (zh) | 说话人识别***及其方法 | |
JP6482173B2 (ja) | 音響信号処理装置およびその方法 | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
CN112992109B (zh) | 辅助歌唱***、辅助歌唱方法及其非瞬时计算机可读取记录媒体 | |
CN110648671A (zh) | 声纹模型重建方法、终端、装置及可读存储介质 | |
CN105283916B (zh) | 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 | |
CN110827853A (zh) | 语音特征信息提取方法、终端及可读存储介质 | |
CN112632318A (zh) | 一种音频推荐方法、装置、***及存储介质 | |
Alashban et al. | Speaker gender classification in mono-language and cross-language using BLSTM network | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
JPWO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
Jeyalakshmi et al. | HMM and K-NN based automatic musical instrument recognition | |
JP4490384B2 (ja) | 音声の類似度の評価を行う方法および装置 | |
Anguera et al. | Friends and enemies: A novel initialization for speaker diarization | |
CN113870896A (zh) | 基于时频图和卷积神经网络的运动声音判假方法、装置 | |
Barbu | A supervised text-independent speaker recognition approach | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
Besbes et al. | Wavelet packet energy and entropy features for classification of stressed speech | |
JP7287442B2 (ja) | 情報処理装置、制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100323 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100401 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140409 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |