JP3251460B2

JP3251460B2 - 話者照合方法および装置

Info

Publication number: JP3251460B2
Application number: JP08728995A
Authority: JP
Inventors: 雄偉閔; 宣夫小泉
Original assignee: NTT Data Corp
Current assignee: NTT Data Corp
Priority date: 1995-04-12
Filing date: 1995-04-12
Publication date: 2002-01-28
Anticipated expiration: 2017-01-28
Also published as: JPH08286692A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、話者照合方式に関し、
特に、入力された音声が登録利用者による自然音声か、
あるいは録音音声や合成音声かを判別する技術に関す
る。

【０００２】

【従来の技術】従来、話者認識装置等に用いられる話者
照合方式として、テキスト依存型あるいはテキスト独立
型の方式が採用されていた。

【０００３】テキスト依存型の話者照合方式の概念図を
図５及び図６に示す。図５に示す第１の方式では、話者
登録時に入力されたテキスト指定学習音声を入力してそ
の特徴抽出を行い（Ｓ５１，Ｓ５２）、コードブックを
作成しておく（Ｓ５３）。そして話者照合時には、当該
テキストについて入力されたテスト音声の特徴抽出を行
い（Ｓ５４，Ｓ５５）、これを対応するコードブックで
量子化して量子化距離を算出し（Ｓ５６）、算出した距
離と所定の閾値との照合によって音声を発した者の正当
性を判定する。図６に示す第２の方式も閾値による照合
を行う点で図５の方式と共通であるが、学習音声の特徴
抽出後（Ｓ６１，Ｓ６２）、時系列標準パタンを作成す
る点が異なる（Ｓ６３）。このような方式では、入力テ
スト音声の特徴抽出後（Ｓ６４，Ｓ６５）、閾値による
照合（Ｓ６７）前に、動的時間伸縮（ＤＴＷ）処理を行
う（Ｓ６６）。ＤＴＷ処理は、例えば同一テキストに基
づく音声であっても発話者や発話タイミング等によって
異なってくるピッチ時間を、共通のピッチ時間に換算す
るものである。上述のようなテキスト依存型話者照合方
式については、例えば、D.K.Burton,“Text−Dependent
Speaker Verification Using Source Coding,"IEEE Tr
ans.Acous., Speech,Signal Processing,vol.ASSP-35,p
p.133-143,Feb.1987.等の記載が参考になる。

【０００４】また、テキスト独立型の話者照合方式の概
念図を図７に示す。この方式では、図５に示すテキスト
依存型の方式において、テキストの内容（発話内容）を
利用者が自分の意志によって決めるようにした点が異な
る（Ｓ７１〜Ｓ７７）。このような方式については、例
えば、F.K.Soong,A.E.Rosenberg，L.R.Rabiner，B.H.Ju
ang，“A Vector Quantization Approach to Speaker R
ecognition.“Proc.IEEE ICASSP,vol.1, pp.387-390.Ma
rch 1985.等の記載が参考になる。

【０００５】しかし、テキスト依存型による話者照合
も、テキスト独立型による話者照合も、登録利用者の音
声が事前に何らかの方法で他人に録音されれば、その録
音の音声データを使って、本人を詐称して、話者照合シ
ステムに不正侵入できるという共通の危険性が存在して
いる。

【０００６】そこで、このような問題点を解消する手法
として、テキスト指定型の話者照合方式が提案されるこ
とになった。この方式は、図８に示すように、話者照合
システム側で予め不特定話者音韻モデルと話者適応音韻
モデルを作成し（Ｓ８１〜Ｓ８４）、照合時にシステム
側で発話内容を指定する。そして利用者からのテスト音
声を入力して特徴抽出を行い（Ｓ８６）、利用者が指定
内容通りの発話を行った否かを音韻モデル連結と尤度計
算によって判定する（Ｓ８７，Ｓ８８）。入力テスト音
声の内容が確かに指定したテキストの内容と合致してい
れば、話者照合を開始する（Ｓ８９）。このようにして
録音等による詐称を防いでいる。このテキスト指定型の
話者照合方式については、例えば“話者認識技術”（松
井、古井、NTT R＆D vol．43 No.101994.）の記載を
参考にすることができる。

【０００７】

【発明が解決しようとする課題】上述のように、テキス
ト指定型の話者照合方式は、事前にシステム側が発話内
容を指定するので、録音再生音声による不正侵入への対
応が可能となる効果がある。しかし、高度に進化した音
声合成技術やコンピュータ技術を組み合わせた場合に
は、テキスト指定型の話者照合方式と雖も万全を期し難
い場合がある。

【０００８】例えば、図９に示すように、テキスト指定
型の処理を行う話者照合システム９０と、予め採取した
登録利用者の音声に基づいて各種音素波形を記憶した音
声合成装置９１とを組み合わせた場合において、音声合
成装置９１が瞬時に指定テキストに基づく音素波形を選
択して連結し、対応する合成音を生成してシステムに入
力した場合には、システム側では不正利用者によるアク
セスか否かを判別することができない。

【０００９】本発明の課題は、上記問題点に鑑み、テキ
スト指定型の話者照合において、入力されたテスト音声
が登録利用者本人による自然音声か、あるいは録音再生
音声や合成音声かを自動判別してシステム利用上のセキ
ュリティ性を高める技術を提供することにある。

【００１０】

【課題を解決するための手段】音声は、音源信号のほか
に声道特徴によって意味形成されており、また、録音再
生音声あるいは合成音声には、必ず録音機器や再生機器
等の電気回路の特性が含まれるようになる。しかも音声
の声道特徴は、たとえ同じ内容であっても時期や環境等
によって常に変化しているのが通常なので、該入力音声
に上記電気回路の特性が仮に含まれていてもそれを直接
検出することができない。しかし、図３に示すように、
電気回路を一旦通った音声の声道特徴３１は、オリジナ
ルの自然音声の声道特徴３０との間で特徴空間における
位置ずれが必然的に生じる。これは、どのような周波数
についても共通であり、各特徴空間の相対的位置も変わ
らないことが理論的に確認されている。なお、図３には
便宜上二次元の場合を示してあるが、実際には多次元と
なる場合が多い。本発明は、照合対象となる入力テスト
音声の上記性質を利用して該音声が発話者の自然音声な
のか、録音再生あるいは合成音声なのかを判別する新た
な話者照合方法、およびその方法を実施するための装置
を提供する。

【００１１】本発明の話者照合方法は、話者登録時に、
第１の指定テキストに対応する第１の話者別コードブッ
クおよび第２の指定テキストに対応する第２の話者別コ
ードブックを各話者別コードブックから出現するコード
ベクトルの頻度情報と共に格納しておく。話者照合時、
第１および第２の指定テキストに対応する音声がそれぞ
れ入力されたときは、第１の指定テキストに対応する入
力音声の特徴を前記第１の話者別コードブックで量子化
して話者内歪み距離を導出するとともに、各入力音声の
特徴差と各入力音声に対応する話者別コードブックとに
基づいて音声種別の基準値となる相対的閾値を導出し、
前記導出した話者内歪み距離と相対的閾値とを比較する
ことにより前記入力音声が自然音声かそれ以外の音かの
種別判定を行う。

【００１２】この入力音声の種別判定は、具体的には、
前記第１の話者別コードブックのｉ番目のクラスタをＣ
i、該クラスタＣiのセントロイドをＸi、該クラスタＣi
に属するｊ番目の第１の指定テキストに対応する特徴ベ
クトルをＶ1（i,j）、該クラスタＣiに属するｊ番目の
第２の指定テキストに対応する特徴ベクトルをＶ2（i,
j）として下記条件式の成立性を判定する。

【数２】 Σ［Ｖ1（i,j）−Ｘi］² ≦Σ［Ｖ2（i,j）−Ｘi］²−Σ［Ｖ1（i,j）−Ｖ2（i,j）］²

【００１３】上式の左辺は、第１の指定テキストに対応
する自然音声を第１の話者別コードブックで量子化した
話者内歪み距離である。また、右辺第２項は、同じクラ
スタに属する二つの声道特徴のユークリッド距離の平方
和（平均値）を表している。右辺の値が閾値の役割を果
たす。入力音声が自然音声であれば常に上式が成立する
ことが確認されている。一方、自然音声以外であれば話
者内歪み距離が相対的に大きくなり、上式が常に成立し
なくなるので、アクティブな閾値による話者照合が可能
になる。

【００１４】上式において、右辺第１項は、本来、第２
の指定テキストに対応する自然音声を第１の話者別コー
ドブックで量子化して求める必要があるが、実際上はそ
れが不可能である。そこで、第２の話者別コードブック
と第１の話者別コードブックのコードブック間距離を用
いて、右辺第１項を近似する。このような近似手法ない
し閾値決定手法については、本出願人が先に提案した話
者照合方法及び装置（特願平６−２６５８５６号明細
書、特願平６−４１６１５号明細書）、あるいは“話者
別コードブックに基づく話者照合のしきい値の一決定方
法”（閔、村上、平成６年度音響学会春季研究発表会講
演論文集Ｉ、3-7-1、1994年3月）に詳細に記載されてい
る。なお、上式から明らかなように、右辺と左辺との相
対関係が、入力音声の特徴や入力音声に対応する話者別
コードブックによってアクティブに変わるので、以下の
説明では、右辺に相当する閾値を相対的閾値と称するこ
ととする。

【００１５】また、上記方法の実施に適した本発明の話
者照合装置は、第１の指定テキストに対応する第１の話
者別コードブックおよび第２の指定テキストに対応する
第２の話者別コードブックを各々の話者別コードブック
から出現するコードベクトルの頻度情報と共に格納した
コードブック格納手段と、第１および第２の指定テキス
トに対応する入力音声を認識して各入力音声の特徴を抽
出する特徴抽出手段と、抽出された各音声特徴に対応す
る話者別コードブックをそれぞれ前記コードブック格納
手段より選択するコードブック選択手段と、前記第１の
指定テキストに対応する入力音声の特徴を前記選択した
第１の話者別コードブックで量子化して話者内歪み距離
を導出する手段と、前記第１および第２の指定テキスト
に対応する入力音声の特徴差と前記選択した第１および
第２の話者別コードブックとに基づいて音声種別の基準
となる相対的閾値を決定する閾値決定手段と、前記話者
内歪み距離と前記決定した相対的閾値とを比較すること
により前記入力音声が自然音声かそれ以外の音かの種別
判定を行う手段と、を備えることを特徴とする。

【００１６】上記構成において、閾値決定手段は、例え
ば、前記特徴差を前記選択した第１の話者別コードブッ
クでクラスタリングして各クラスタに属する距離の平方
和平均値を導出する手段と、前記選択した第２の話者別
コードブックを第１の話者別コードブックで量子化して
コードブック間距離を導出する手段とを有し、このコー
ドブック間距離と前記平方和平均値との差分値を前記相
対的閾値として決定するものとする。

【００１７】

【作用】本発明では、例えばマイクロフォン等の音声入
力手段の特性がほぼ同一となる時間内に発話者からの二
種類の指定テキストに対応する音声を入力する。そし
て、各入力音声の特徴抽出後にその差を求めて、電気回
路特性などの影響の除去を図る。即ち、図４に示すよう
に、二つの入力音声（音声信号）の特徴には、声道特
徴，回路特性，マイクロフォン特性が含まれるが、両者
の差は、結局声道特徴の差分となる。この声道特徴差
を、指定テキストに対応する話者別コードブックによっ
てクラスタリングし、同一クラスタに属する声道特徴差
（ユークリッド距離）の平方和平均値を導出する。上記
コードブック間距離から平方和平均値を差し引いた値
を、自然音声であるか否かを判断するときの相対的閾値
として決定する。そして、話者内歪み距離が上記相対的
閾値を越えた場合、入力音声が録音再生音声あるいは合
成音声と判定し、後続の処理をこの時点で拒否する。上
記相対的閾値を越えない場合、入力音声が利用者の自然
音声と判断し、以後の処理を継続する。このようにすれ
ば、自然音声と録音再生あるいは合成音声の種別を判定
することができ、合成音声装置等を用いたシステムへの
不正侵入を防ぐことができる。

【００１８】

【実施例】以下、図面を参照して本発明の好適な実施例
を詳細に説明する。図１は、本発明の一実施例に係る話
者照合装置１のブロック構成図であり、前述のテキスト
指定型話者照合方式を応用した装置の例を示す。

【００１９】この話者照合装置１は、指定テキストに対
応する音声を入力する、例えばマイクロフォン等の音声
入力部１０と、入力された音声の内容を認識する音声認
識部１１と、各入力音声の特徴、即ち声道特徴（回路特
性およびマイクロフォン特性を含む）を抽出する特徴抽
出部１２と、抽出した特徴量を話者別コードブックで量
子化するベクトル量子化部１３と、特徴抽出部１２の出
力と話者別コードブックとに基づいてアクティブな相対
的閾値を決定する閾値決定部１４と、特徴抽出部１２お
よびベクトル量子化部１３の出力を比較する比較部１５
と、比較部１５の出力によって話者照合を行う話者照合
部１６とを備えている。また、話者登録時にテキスト学
習音声データに対応する話者別のコードブックを作成す
る話者別コードブック作成部１７と、作成された話者別
コードブックを格納するコードブック格納部１８とを備
えている。コードブック格納部１８は、閾値決定部１４
に随時出力可能に接続されている。

【００２０】次に、上記構成の話者照合装置１の動作を
説明する。本実施例では、話者登録時に、話者照合装置
１が二種類の指定テキスト、即ち指定テキスト１と指定
テキスト２とを任意に定め、これらテキストに対応する
学習用音声（自然音声）を登録対象話者に発声させる。
入力された各々の発声内容から話者別コードブックを話
者別コードブック作成部１７で作成するとともに、作成
された話者別コードブックに基づいて学習用音声をベク
トル量子化し、各話者別コードブックのコードワード
（コードベクトル）の出現頻度を求める。そしてこの出
現頻度情報を当該話者別コードブックと共にコードブッ
ク格納部１８に格納しておく。

【００２１】話者照合に際しては、利用者に対して指定
テキスト１，２に対応するテスト音声の入力を促す。こ
れら音声の入力間隔は、マイクロフォン等の特性がほぼ
同一となる短時間に入力されることが好ましい。入力さ
れた各テスト音声に対して音声認識部１１で音声認識処
理を施し、指定テキスト１，２に対応するテスト音声で
あるか否かを判定する。指定した内容に合致するテスト
音声であることが認識できたときは、特徴抽出処理部１
２で各テスト音声の特徴抽出を行う。テスト音声特徴の
抽出後は、指定テキスト１，２に対応する話者別コード
ブックをそれぞれコードブック格納部１８から選び出
す。

【００２２】選び出した話者別コードブックのうち、指
定テキスト１に対応する話者別コードブックをベクトル
量子化部１３に入力する。そして対応する入力テスト音
声の特徴に対してベクトル量子化を施し、前掲の式の左
辺に相当する話者内歪み距離を求める。なお、この話者
内歪み距離は、実際には平均量子化歪み距離となる。ま
た、指定テキスト１および指定テキスト２に対応する話
者別コードブックを閾値決定部１４に入力する。閾値決
定部１５には、特徴抽出部１２で抽出した各指定テキス
ト１，２の対応音声の特徴をも入力する。閾値決定部１
４では、これら入力情報に基づいて自然音声か否かを表
す相対的閾値を決定する。この閾値決定部１４における
処理手順を図２を参照して詳細に説明する。

【００２３】図２を参照すると、閾値決定部１４では、
各指定テキストの対応音声の声道特徴差を求め（Ｓ２
１）、この声道特徴差を入力された話者別コードブック
（Ｓ２２，Ｓ２３）の任意の一つ、例えば指定テキスト
１対応の話者別コードブックに入力して、クラスタリン
グ処理を施す（Ｓ２４）。そしてこれにより得られた複
数のクラスタ１〜Ｎに属する差分特徴量の距離平方の総
和を計算し、その平均値を求めて図示しないメモリに記
憶しておく（Ｓ２５）。一方、他の話者別コードブック
（指定テキスト２対応の話者別コードブック）から各コ
ードベクトルを上記出現頻度情報に従って出現させ（Ｓ
２６）、指定テキスト１対応の話者別コードブックで量
子化してコードブック間距離を求める（Ｓ２７，Ｓ２
８）。これにより得られたコードブック間距離を上記差
分特徴量の距離平方の平均距離から差し引いて相対的閾
値を導出する（Ｓ２９，Ｓ３０）。この相対的閾値が前
掲の式の右辺に相当する。

【００２４】図１に戻り、比較部１５では、ベクトル量
子化部１３で得られた話者内歪み距離と閾値決定部１４
で決定した相対的閾値とを比較する。前述のように、話
者内歪み距離は、入力音声が録音再生音声か合成音声の
場合は相対的閾値より常に大きく、自然音声の場合は、
常に小さくなる。従って、両者の値の大小によって入力
音声の種別、即ち自然音声かそれ以外の音かを判定する
ことができるので、例えば入力音声が自然音声以外のと
きに話者照合部１６での以後の処理を拒否するようにす
れば、他人の音声を悪用した不正侵入を阻止することが
できる。

【００２５】

【発明の効果】以上の説明から明らかなように、本発明
によれば、指定テキストに対応する音声が音声合成装置
等によって作成され、話者照合装置内に入力された場合
であっても、装置内でそれを瞬時に検出できるので、話
者照合の際のセキュリティ性および照合の信頼性が格段
に高まる効果がある。

【００２６】また、入力音声が自然音声であるかそれ以
外の音声であるかの種別判定に用いる相対的閾値が、二
つの入力音声の声道特徴差と各音声に対応する話者別コ
ードブックのコードブック間距離によってアクティブに
得られ、さらに相対的閾値との比較対象となる話者内歪
み距離が、第１の指定テキストに対応する入力音声およ
び話者別コードブックにより得られるので、複数の登録
話者が任意の時期に発話する場合であっても各々の入力
音声の種別判定が可能となる効果がある。これにより、
この種の話者照合処理を行うシステムに対する犯罪防止
の効果が期待できる。

【図面の簡単な説明】

【図１】本発明の一実施例に係る話者照合システムのブ
ロック構成図。

【図２】本実施例による閾値決定部の処理手順説明図。

【図３】本発明の原理を説明するための特徴空間の移動
概念図。

【図４】本発明により電気回路特性やマイクロフォン特
性等を除去する場合の概念図。

【図５】第１のテキスト依存型話者照合方式の処理概念
図。

【図６】第２のテキスト依存型話者照合方式の処理概念
図。

【図７】テキスト独立型話者照合方式の処理概念図。

【図８】従来のテキスト指定型話者照合方式の処理概念
図。

【図９】従来の話者照合システムへの不正侵入処理概念
図。

【符号の説明】

１話者照合装置１０音声入力部１１音声認識部１２特徴抽出処理部１３ベクトル量子化部１４閾値決定部１５比較部１６話者照合部１７話者別コードブック作成部１８コードブック格納部

フロントページの続き (56)参考文献特開平５−323900（ＪＰ，Ａ) 特開平１−302297（ＪＰ，Ａ) 特開平７−49696（ＪＰ，Ａ) 特開平６−167990（ＪＰ，Ａ) 特開昭61−272798（ＪＰ，Ａ) 特開昭59−53900（ＪＰ，Ａ) 特開平３−274596（ＪＰ，Ａ) 実開昭58−180600（ＪＰ，Ｕ) 実開昭59−178698（ＪＰ，Ｕ) 実開昭59−178696（ＪＰ，Ｕ) 特表平２−501597（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 17/00

Claims

(57)【特許請求の範囲】

【請求項１】第１の指定テキストに対応する第１の話
者別コードブックおよび第２の指定テキストに対応する
第２の話者別コードブックを各話者別コードブックから
出現するコードベクトルの頻度情報と共に格納してお
き、前記第１および第２の指定テキストに対応する音声
がそれぞれ入力されたときに、第１の指定テキストに対
応する入力音声の特徴を前記第１の話者別コードブック
で量子化して話者内歪み距離を導出するとともに、各入
力音声の特徴差と各入力音声に対応する話者別コードブ
ックとに基づいて音声種別の基準値となる相対的閾値を
導出し、前記導出した話者内歪み距離と相対的閾値とを
比較することにより前記入力音声が自然音声かそれ以外
の音かの種別判定を行うことを特徴とする話者照合方
法。
【請求項２】前記種別判定は、前記第１の話者別コー
ドブックのｉ番目のクラスタをＣi、該クラスタＣiのセ
ントロイドをＸi、該クラスタＣiに属するｊ番目の第１
の指定テキストに対応する特徴ベクトルをＶ1（i,j）、
該クラスタＣiに属するｊ番目の第２の指定テキストに
対応する特徴ベクトルをＶ2（i,j）とし、【数１】 Σ［Ｖ1（i,j）−Ｘi］² ≦Σ［Ｖ2（i,j）−Ｘi］²−Σ［Ｖ1（i,j）−Ｖ2（i,j）］² の条件式が成立すれば該入力音声を自然音声と判定し、
成立しない場合は自然音声以外の音と判定することを特
徴とする請求項１記載の話者照合方法。
【請求項３】前記条件式において、Σ［Ｖ2（i,j）−
Ｘi］²の項を、前記各入力音声に対応する話者別コード
ブックのコードブック間距離で近似することを特徴とす
る請求項２記載の話者照合方法。
【請求項４】第１の指定テキストに対応する第１の話
者別コードブックおよび第２の指定テキストに対応する
第２の話者別コードブックを各々の話者別コードブック
から出現するコードベクトルの頻度情報と共に格納した
コードブック格納手段と、第１および第２の指定テキストに対応する入力音声を認
識して各入力音声の特徴を抽出する特徴抽出手段と、抽出された各音声特徴に対応する話者別コードブックを
それぞれ前記コードブック格納手段より選択するコード
ブック選択手段と、前記第１の指定テキストに対応する入力音声の特徴を前
記選択した第１の話者別コードブックで量子化して話者
内歪み距離を導出する手段と、前記第１および第２の指定テキストに対応する入力音声
の特徴差と前記選択した第１および第２の話者別コード
ブックとに基づいて音声種別の基準となる相対的閾値を
決定する閾値決定手段と、前記話者内歪み距離と前記決定した相対的閾値とを比較
することにより前記入力音声が自然音声かそれ以外の音
かの種別判定を行う手段と、を備えることを特徴とする話者照合装置。
【請求項５】前記閾値決定手段は、前記特徴差を前記選択した第１の話者別コードブックで
クラスタリングして各クラスタに属する距離の平方和平
均値を導出する手段と、前記選択した第２の話者別コードブックを第１の話者別
コードブックで量子化してコードブック間距離を導出す
る手段とを有し、このコードブック間距離と前記平方話平均値との差分値
を前記相対的閾値として決定することを特徴とする請求
項４記載の話者照合装置。