JP2010286702A

JP2010286702A - 話者照合装置、話者照合方法およびプログラム

Info

Publication number: JP2010286702A
Application number: JP2009140986A
Authority: JP
Inventors: Masahiro Tani; 真宏谷; Takafumi Koshinaka; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-06-12
Filing date: 2009-06-12
Publication date: 2010-12-24
Anticipated expiration: 2029-06-12
Also published as: JP5229124B2

Abstract

【課題】高精度な話者照合を行うことができる話者照合装置を提供する。
【解決手段】話者照合装置１は、入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出する類似度算出部３８と、前記算出された類似度が低い音声区間を照合用の区間として特定する照合区間特定部４０とを有する。話者照合装置１は、入力された音声データのうち、話者性が含まれる可能性の高い音声区間を特定する。
【選択図】図３

Description

本発明は、話者照合装置、話者照合方法およびプログラムに関する。

従来から、入力された音声について、照合対象の音声区間を特定した上で、話者の照合を行う手法がある。例えば、特許文献１には、入力された音声を所定の区間毎に特徴量に変換し、変換された特徴量を用いて区間毎の優先度を設定して、話者の照合を行う手法が開示されている。

特許第３９１９３１４号

D. A. Reynolds, T. F. Quatieri, and R. B. Dunn,「Speaker verification using adapted Gaussian mixture models」, Digital Signal Processing 10, 19-41, 2000 鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」、株式会社オーム社、２００１年、１３−１５頁

しかしながら、特許文献１に記載された手法は、予め設定された音素毎の優先度に基づいて照合を行うので、優先度が適切に設定されていない場合には、話者照合の精度が低下してしまうことがある。

本発明は、高精度な話者照合を行うことができる話者照合装置を提供することを目的とする。

上記目的を達成するために、本発明に係る話者照合装置は、入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出する類似度算出手段と、前記類似度算出手段により算出された類似度が低い音声区間を照合用の区間として特定する照合区間特定手段とを有する。

また、本発明に係る話者照合方法は、入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出し、前記算出された類似度が低い音声区間を照合用の区間として特定する。

さらに、本発明に係るプログラムは、コンピュータを含む話者照合装置において、入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出する類似度算出ステップと、前記算出された類似度が低い音声区間を照合用の区間として特定する照合区間特定ステップとを前記話者照合装置のコンピュータに実行させる。

本発明の話者照合装置によれば、高精度な話者照合を行うことができる。

照合対象の音声区間を特定して話者の照合を行う話者照合装置の機能構成を示すブロック図である。本発明の第１の実施形態に係る話者照合装置のハードウェア構成図である。本発明の第１の実施形態に係る話者照合装置の機能構成を示すブロック図である。本発明の第１の実施形態に係る話者照合装置の動作を示すフローチャートである。本発明の第２の実施形態に係る話者照合装置の機能構成を示すブロック図である。本発明の第２の実施形態に係る話者照合装置の動作を示すフローチャートである。本発明の第３の実施形態に係る話者照合装置の機能構成を示すブロック図である。

まず、本発明の理解を容易にするために、本発明の背景と概要を説明する。

図１は、照合対象の音声区間を特定して話者の照合を行う話者照合装置の機能構成を示すブロック図である。

図１に示すように、話者照合装置１００は、話者モデル記憶部１０２、音素モデル記憶部１０４、優先度記憶部１０６、音声特徴抽出部１０８、音素認識部１１０、照合区間特定部１１２および照合部１１４を有する。

話者モデル記憶部１０２は、予め登録された話者の話者モデルを記憶する。話者モデルは、話者の音声の特徴を表現する確率モデルである。例えば、話者モデルは、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）の形式で表される。

音素モデル記憶部１０４は、予め学習された音素モデルを記憶する。音素モデルは、音声の特徴を音素毎に表現する確率モデルである。優先度記憶部１０６は、音素毎に予め設定されている照合の優先度を示す優先度テーブルを記憶する。例えば、母音等の有声音に該当する音素に、高い優先度が設定される。また例えば、優先度は１〜５の５段階であり、数字が低いほど優先度は高い。

音声特徴抽出部１０８は、音声データを入力し、話者照合や音素認識に必要な特徴量を抽出して、音素認識部１１０および照合部１１４に対して出力する。音素認識部１１０は、音素モデル記憶部１０４に記憶されている音素モデルと、音声特徴抽出部１０８により抽出された特徴量とを入力する。音素認識部１１０は、音素モデルと特徴量とを用いて音素認識を行う。音素認識部１１０は、音素認識の結果として音素列を生成して、照合区間特定部１１２に出力する。

照合区間特定部１１２は、優先度記憶部１０６に記憶された音素毎の優先度テーブルと、音素認識部１１０から出力された音素列とを入力し、照合に用いる区間（照合区間）を特定する。照合区間特定部１１２は、照合区間を照合部１１４に対して出力する。例えば、照合区間特定部１１２は、高い優先度が設定された母音等の有声音に該当する音素区間を照合区間とする。

照合部１１４は、話者モデル記憶部１０２に記憶された話者モデル、音声特徴抽出部１０８により抽出された音声の特徴量および照合区間特定部１１２から出力された照合区間に基づいて、話者照合を行う。より具体的には、照合部１１４は、話者モデルと照合区間の音声の特徴量とを比較することにより、話者が登録されている話者本人であるか否かを判定する。

例えば、照合部１１４は、話者モデルと照合区間の音声の特徴量とを用いて尤度を算出し、尤度と予め設定された閾値とを比較する。尤度は、値が大きいほど話者モデルと抽出された特徴量とが似ていることを示す。照合部１１４は、尤度が閾値以上である場合、入力音声は登録されている話者本人の音声であると判定し、尤度が閾値未満である場合、入力音声は話者本人の音声ではないと判定する。

しかしながら、話者照合装置１００の手法では、話者照合の精度が低下してしまうことがある。第１の理由は、予め設定された音素毎の優先度が適当であるとは限らないためである。第２の理由は、話者照合装置１００の手法は、例えば母音等の音素の単位でのみ話者性（話者を特徴付ける情報）の有無を規定しているので、音素と音素の渡りの区間や、音素の単位より長い音声区間に含まれる話者性を考慮できないためである。

また、話者照合装置１００の手法では、話者照合の処理速度が低下してしまうことがある。その理由は、照合区間を特定するために、音素認識を実行するためである。また、音素認識および話者照合それぞれの精度向上の観点では、音素認識および話者照合それぞれに特化した音声の特徴量を用いることが好ましい。精度向上のために、特徴抽出処理が２回実行された場合には、処理速度が低下してしまう。

そこで、本発明に係る話者照合装置は、平均的な音声の特徴から外れている（すなわち、話者性が含まれる可能性が高い）音声区間を特定し、この特定された区間を用いて話者照合を行う。これにより、本発明に係る話者照合装置は、母音等の特定の音素に基づいて照合区間を特定する手法と比較して、高精度な話者照合を実現する。また、本発明に係る話者照合装置は、音素認識を行うことなく照合区間を特定することにより、処理速度の低下を抑制する。

以下、本発明に係る話者照合装置を詳細に説明する。
図２は、本発明の第１の実施形態に係る話者照合装置１のハードウェア構成図である。

図２に示すように、話者照合装置１は、ＣＰＵ１０、メモリ１２、ハードディスクドライブ（ＨＤＤ）１４、図示しないネットワークを介してデータの通信を行う通信インタフェース（ＩＦ）１６、ディスプレイ等の表示装置１８、キーボードやマウス等のポインティングデバイスを含む入力装置２０および音声を入力して音声データを出力するマイクロホン等の音声入力装置２２を有する。これらの構成要素は、バス２４を通して互いに接続されており、互いにデータの入出力を行う。

図３は、本発明の第１の実施形態に係る話者照合装置１の機能構成を示すブロック図である。

図３に示すように、話者照合装置１は、登録話者モデル記憶部３０、背景話者モデル記憶部３２、音声分割部３４、音声特徴抽出部３６、類似度算出部３８、照合区間特定部４０および照合部４２を有する。話者照合装置１の機能は、プログラムがメモリ１２（図２）にロードされ、ＣＰＵ１０により実行されて実現される。なお、話者照合装置１の全部または一部の機能は、ハードウェアにより実現されてもよい。

話者照合装置１において、登録話者モデル記憶部３０は、予め登録された話者（登録話者）毎に作成された話者モデル（登録話者モデル）を、登録話者と対応付けて記憶する。例えば、登録話者モデル記憶部３０は、登録話者を一意に識別可能な識別番号が付与された登録話者モデルを記憶する。登録話者モデルは、例えば、ＧＭＭ（Gaussian Mixture Model）の形式で表現される。ＧＭＭは、複数の正規分布または多次元正規分布の重み付き和を用いて複数のピークを持つような分布で表現された観測データの確率モデルである。

背景話者モデル記憶部３２は、複数の話者の音声データに基づいて生成された話者モデル（背景話者モデル）を記憶する。背景話者モデルは、話者モデル記憶部３０に記憶されている登録話者モデルと同様の形式で表現される。背景話者モデルは、複数の話者の特徴が反映された話者モデルであり、平均的な音声の特徴量を示す。

登録話者モデル記憶部３０および背景話者モデル記憶部３２は、メモリ１２およびＨＤＤ１４の少なくともいずれかにより実現される。登録話者モデルおよび背景話者モデルは、例えば、非特許文献１に記載された方法を用いて生成される。なお、登録話者モデル３０等は、ＧＭＭの形式でなくてもよく、例えばＨＭＭの形式でもよい。

音声分割部３４は、音声入力装置２２（図２）から出力された音声データを入力し、この音声データを分割して音声特徴抽出部３６に対して出力する。より具体的には、音声分割部３４は、音声データを複数の音声区間に分割し、各音声区間の音声データを出力する。音声区間の長さは、入力された音声データの長さ（音声データ長）より短ければよく、例えば、音声データ長が数分程度である場合、数秒程度である。なお、以降、音声区間を短区間とも呼ぶ。音声分割部３４は、メモリ１２およびＨＤＤ１４等の記憶装置から音声データを読み出してもよいし、通信ＩＦ１６を介して音声データを取得してもよい。

音声特徴抽出部３６は、音声分割部３４から出力された各短区間の音声データを入力し、各短区間の特徴量を抽出して類似度算出部３８および照合部４２に対して出力する。例えば、音声特徴抽出部３６は、非特許文献２に記載されているメルケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstrum Coefficient）を算出して特徴量として用いる。なお、特徴量は、メルケプストラム係数に限定されず、音声の特徴を表現するものであればよい。例えば、特徴量は、音声データそのものであってもよい。特徴量Ｘは、式１で表される。

ここで、ｎは、Ｎ個に分割された短区間のラベルであり、ｘｎは、ｎ番目の短区間の特徴量である。

類似度算出部３８は、音声特徴抽出部３６により抽出された短区間毎の特徴量および背景話者モデル記憶部３２に記憶されている背景話者モデルを読み出す。類似度算出部３８は、短区間の特徴量および背景話者モデルを用いて、短区間の特徴量と平均的な音声の特徴量との類似度を短区間毎に算出する。類似度算出部３８は、式２を用いて短区間の特徴量に対する尤度を算出し、算出された尤度を類似度として用いる。

ここで、ｘｎは、短区間のラベルｎの特徴量である。λｕｂｍは、背景話者モデルのパラメータであり、例えば、ＧＭＭの平均、分散、混合重みである。類似度が大きいほど、短区間の音声の特徴は、平均的な音声の特徴と近い。類似度が小さいほど、短区間の音声の特徴は、平均的な音声の特徴から外れている。類似度算出部３８は、各短区間の類似度を、照合区間特定部４０に対して出力する。

なお、類似度は、式２を用いて算出される尤度でなくてもよい。例えば、類似度算出部３８は、短区間毎に特徴量の分布を表現するモデルを、背景話者モデルと同じ形式で生成し、生成された各モデルと背景話者モデルとのモデル間距離を用いて類似度を算出してもよい。この場合、類似度算出部３８は、計算されたモデル間距離の逆数や逆数のｋ乗（ｋは整数）を類似度として用いる。モデル間距離は、例えば、２つの確率モデルの統計的な距離を算出するＫＬダイバージェンスを用いて算出される。

照合区間特定部４０は、類似度算出部３８により算出された各短区間の類似度を入力し、各短区間について照合に用いるか否かを判定することにより、照合区間を特定する。照合区間特定部４０は、照合区間情報（例えば、短区間毎の始端時刻及び終端時刻と、照合に用いるか否かのフラグ）を照合部４２に出力する。

より具体的には、照合区間特定部４０は、類似度が低い短区間を照合区間として特定する。例えば、照合区間特定部４０は、短区間の類似度と、予め設定された閾値とを比較して判定を行う。照合区間特定部４０は、短区間の類似度が閾値より小さい（すなわち、短区間の音声の特徴が、平均的な音声の特徴から外れている）場合、この短区間を照合に用いると判定し、短区間の類似度が閾値以上である（すなわち、短区間の音声の特徴が、平均的な音声の特徴と近い）場合、この短区間を照合に用いないと判定する。また例えば、照合区間特定部４０は、類似度が小さい予め決められた数の短区間を照合に用いると判定する。なお、照合区間情報は、照合に用いるか否かのフラグ（２値）でなくてもよく、類似度算出部３８により算出された類似度（連続値）でもよい。

照合部４２は、登録話者モデル記憶部３０に記憶されている登録話者モデル、背景話者モデル記憶部３２に記憶されている背景話者モデル、音声特徴抽出部３６により抽出された短区間の特徴量および照合区間特定部４０から出力された照合区間情報に基づいて、話者照合を行う。

より具体的には、照合部４２は、登録話者モデルと照合区間の音声の特徴量とを比較することにより、話者が登録された話者本人であるか否かを判定する。例えば、照合部４２は、式３を用いて照合スコアを算出する。照合部４２は、算出された照合スコアが予め設定された閾値以上である場合、登録された話者本人の音声として受理し、照合スコアが閾値未満である場合、本人の音声ではないとして拒否する。

ここで、Ｓは、照合区間の特徴量の集合である。Ｍ（Ｍ≦Ｎ）は、照合区間の個数である。λｕｂｍは、背景話者モデルのパラメータである。λｓｐは、登録話者モデルのパラメータであり、ＧＭＭの平均、分散、混合重みである。

なお、照合区間情報が、類似度算出部３８により算出された類似度等の連続値である場合、照合部４２は、類似度に応じた重み係数で、短区間毎に算出された照合スコアを重み付き平均することにより、照合スコアを算出してもよい。この場合、照合部４２は、例えば、式４を用いて照合スコアを算出する。

ここで、ｎは、Ｎ個に分割された短区間のラベルである。ｘｎは、ｎ番目の短区間の特徴量である。ｗｎは、短区間ｎの照合スコアの重み係数である。

次に、本実施形態に係る話者照合装置１の動作を説明する。
図４は、本実施形態に係る話者照合装置１の動作（Ｓ１０）を示すフローチャートである。

図４に示すように、ステップ１００（Ｓ１００）において、話者照合装置１の音声分割部３４は、音声データを入力し、この音声データを分割して短区間の音声データを音声特徴抽出部３６に対して出力する。

ステップ１０２（Ｓ１０２）において、音声特徴抽出部３６は、短区間の音声データに基づいて、話者照合に必要な特徴量を短区間毎に算出する。

ステップ１０４（Ｓ１０４）において、類似度算出部３８は、背景話者モデルおよび短区間の特徴量に基づいて、短区間の特徴量と平均的な音声の特徴量との類似度を短区間毎に算出する。

ステップ１０６（Ｓ１０６）において、照合区間特定部４０は、短区間の類似度と閾値とを比較して、各短区間について照合に用いるか否かを判定する。このようにして、照合区間特定部４０は、照合区間を特定し、照合区間情報を照合部４２に対して出力する。

ステップ１０８（Ｓ１０８）において、照合部４２は、登録話者モデル、背景話者モデルおよび短区間の特徴量に基づいて、照合区間について、照合スコアを算出して、話者照合を行う。

以上説明したように、本実施形態に係る話者照合装置１は、入力された音声データのうち、話者性が含まれる可能性の高い音声区間を特定するので、高精度な話者照合を実現することができる。また、本実施形態係る話者照合装置１は、音素認識を行うことなく照合区間を特定するので、照合速度の低下を抑制することができる。

次に、本発明の第２の実施形態に係る話者照合装置２を説明する。
本発明の第２の実施形態に係る話者照合装置２は、短区間毎に抽出される特徴量を用いて短区間毎の信頼度を算出し、算出された信頼度をさらに用いて照合区間を特定する点で、第１の実施形態に係る話者照合装置１とは異なる。

図５は、本発明の第２の実施形態に係る話者照合装置２の機能構成を示すブロック図である。なお、図５に示された各構成のうち、図３に示された構成と実質的に同一のものには同一の符号が付されている。

図５に示すように、話者照合装置２は、話者照合装置１に信頼度算出部４４が追加され、照合区間特定部４０が照合区間特定部４６に置き換えられた構成を有する。

話者照合装置２において、信頼度算出部４４は、音声特徴抽出部３６により抽出された短区間毎の特徴量を入力し、この特徴量を用いて短区間毎の信頼度を算出する。信頼度算出部４４は、短区間毎に算出された信頼度を、照合区間特定部４６に対して出力する。

信頼度は、ある短区間が他の短区間と類似する度合いである。短区間の信頼度が低い場合、この短区間の音声は、他の短区間の音声とは異なる傾向にある。したがって、雑音や照合対象である話者本人以外の音声（以下、回り込み音声と呼ぶ）等が混入している可能性が高いので、この短区間は、照合には適していない。

逆に、短区間の信頼度が高い場合、この短区間の音声は、他の短区間の音声と近い傾向にある。したがって、雑音や回り込み音声等が混入している可能性が低いので、この短区間は、照合に適している。

信頼度算出部４４は、例えば、式５を用いて信頼度を算出する。

ここで、ｎは、Ｎ個に分割された短区間のラベルである。ｘｎは、ｎ番目の短区間の特徴量であり、ここでは、着目した、信頼度を求めたい短区間の特徴量である。式５で示されるように、信頼度は、着目した短区間の特徴量と、全ての短区間の特徴量の平均値との距離の逆数である。なお、信頼度は、全ての短区間の特徴量の平均値を用いて算出される必要はなく、所定数の短区間の特徴量の平均値を用いて算出されてもよい。また、信頼度は、式５で算出される距離の逆数をｋ乗（ｋは整数）した値であってもよい。

照合区間特定部４６は、類似度算出部３８により算出された短区間毎の類似度と、信頼度算出部４４により算出された短区間毎の信頼度を入力し、各短区間について照合に用いるか否かを判定することにより、照合区間を特定する。例えば、照合区間特定部４６は、類似度が低く、かつ、信頼度が高い短区間を照合に用いると判定する。この場合、照合区間特定部４６は、短区間の類似度と信頼度とを重み付き統合したスコア（統合スコア）と、予め設定された閾値とを比較して判定を行う。照合区間特定部４６は、２値でもよいし、統合スコア等の連続値でもよい。

次に、本実施形態に係る話者照合装置２の動作を説明する。
図６は、本実施形態に係る話者照合装置２の動作（Ｓ２０）を示すフローチャートである。なお、図６に示された各処理のうち、図４に示された処理と実質的に同一のものには同一の符号が付されている。

図６に示すように、Ｓ１００〜Ｓ１０４の処理で、音声分割部３４が音声データを分割し、音声特徴抽出部３６が短区間毎の特徴量を抽出し、類似度算出部３８が短区間毎の類似度を算出する。ステップ２００（Ｓ２００）において、信頼度算出部４４は、短区間毎の特徴量を用いて短区間毎の信頼度を算出する。なお、Ｓ２００の処理は、Ｓ１０４の処理の前に行われてもよいし、Ｓ１０４の処理とＳ２００の処理は、並列に行われてもよい。

ステップ２０２（Ｓ２０２）において、照合区間特定部４６は、短区間の類似度および信頼度に基づいて統合スコアを短区間毎に算出し、算出された統合スコアと閾値とを比較して、各短区間について照合に用いるか否かを判定する。このようにして、照合区間特定部４６は、照合区間を特定し、照合区間情報を照合部４２に対して出力する。その後、Ｓ１０８の処理で、照合部４２が話者照合を行う。

以上説明したように、本実施形態に係る話者照合装置２は、雑音や回り込み音声等が混入したことにより、音声の特徴が他の短区間の音声の特徴から外れてしまった短区間を照合対象から除外するので、さらに高精度な話者照合を実現することができる。

次に、本発明の第３の実施形態に係る話者照合装置３を説明する。
本発明の第３の実施形態に係る話者照合装置３は、各短区間の特徴量および背景話者モデルを入力とし、照合区間を出力とする点で、第１の実施形態に係る話者照合装置１および第２の実施形態に係る話者照合装置２とは異なる。

図７は、本発明の第３の実施形態に係る話者照合装置３の機能構成を示すブロック図である。なお、図７に示された各構成のうち、図３に示された構成と実質的に同一のものには同一の符号が付されている。

図７に示すように、話者照合装置３は、話者照合装置１の類似度算出部３８および照合区間特定部４０を有する。類似度算出部３８は、各短区間の特徴量および背景話者モデルを、メモリ１２やＨＤＤ１４等の記憶装置から読み出してもよいし、通信ＩＦ１６を介して取得してもよい。また、類似度算出部３８は、他のプログラムから出力される各短区間の特徴量および背景話者モデルを取得してもよい。

したがって、話者照合装置３は、入力される各短区間の特徴量および背景話者モデルに基づいて照合区間を特定する。このようにして特定された照合区間は、話者性が含まれる可能性の高い音声区間であるので、本実施形態に係る話者照合装置３は、図示しない外部の照合装置等に、話者照合を高精度に実行させることができる。

なお、本発明に係る話者照合装置は、話者照合に用いられる他、虹彩、指紋、顔、筆跡等のデータと組み合わせて個人認証するバイオメトリクス認証装置などの用途に適用可能である。さらに、本発明に係る話者照合装置は、音声を伴う映像コンテンツに話者インデックスを自動付与して検索可能とするコンテンツ検索装置などの用途にも適用可能である。

１話者照合装置
２話者照合装置
３話者照合装置
３０登録話者モデル記憶部
３２背景話者モデル記憶部
３４音声分割部
３６音声特徴抽出部
３８類似度算出部
４０照合区間特定部
４２照合部
４４信頼度算出部
４６照合区間特定部

Claims

入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出する類似度算出手段と、
前記類似度算出手段により算出された類似度が低い音声区間を照合用の区間として特定する照合区間特定手段と
を有する話者照合装置。
前記類似度算出手段は、前記音声区間の音声の特徴量に対する尤度を類似度とする
請求項１に記載の話者照合装置。
前記類似度算出手段は、前記音声区間の音声の特徴量の分布を表現するモデルと、前記複数の話者の音声データに基づいて生成されたモデルとのモデル間距離を用いて類似度を算出する
請求項１に記載の話者照合装置。
前記音声区間の音声の特徴量が当該音声区間とは異なる音声区間の音声の特徴量と類似する度合いを示す信頼度を算出する信頼度算出手段をさらに有し、
前記照合区間特定部は、前記信頼度算出手段により算出された信頼度をさらに用いて照合用の区間を特定する
請求項１〜３のいずれかに記載の話者照合装置。
前記信頼度算出手段は、前記音声区間の音声の特徴量と、当該音声区間とは異なる音声区間の音声の特徴量の平均値との距離を算出する
請求項４に記載の話者照合装置。
入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出し、
前記算出された類似度が低い音声区間を照合用の区間として特定する
話者照合方法。
コンピュータを含む話者照合装置において、
入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出する類似度算出ステップと、
前記算出された類似度が低い音声区間を照合用の区間として特定する照合区間特定ステップと
を前記話者照合装置のコンピュータに実行させるプログラム。