JP2010286702A - 話者照合装置、話者照合方法およびプログラム - Google Patents

話者照合装置、話者照合方法およびプログラム Download PDF

Info

Publication number
JP2010286702A
JP2010286702A JP2009140986A JP2009140986A JP2010286702A JP 2010286702 A JP2010286702 A JP 2010286702A JP 2009140986 A JP2009140986 A JP 2009140986A JP 2009140986 A JP2009140986 A JP 2009140986A JP 2010286702 A JP2010286702 A JP 2010286702A
Authority
JP
Japan
Prior art keywords
section
speech
speaker
voice
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009140986A
Other languages
English (en)
Other versions
JP5229124B2 (ja
Inventor
Masahiro Tani
真宏 谷
Takafumi Koshinaka
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009140986A priority Critical patent/JP5229124B2/ja
Publication of JP2010286702A publication Critical patent/JP2010286702A/ja
Application granted granted Critical
Publication of JP5229124B2 publication Critical patent/JP5229124B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】高精度な話者照合を行うことができる話者照合装置を提供する。
【解決手段】話者照合装置1は、入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出する類似度算出部38と、前記算出された類似度が低い音声区間を照合用の区間として特定する照合区間特定部40とを有する。話者照合装置1は、入力された音声データのうち、話者性が含まれる可能性の高い音声区間を特定する。
【選択図】図3

Description

本発明は、話者照合装置、話者照合方法およびプログラムに関する。
従来から、入力された音声について、照合対象の音声区間を特定した上で、話者の照合を行う手法がある。例えば、特許文献1には、入力された音声を所定の区間毎に特徴量に変換し、変換された特徴量を用いて区間毎の優先度を設定して、話者の照合を行う手法が開示されている。
特許第3919314号
D. A. Reynolds, T. F. Quatieri, and R. B. Dunn,「Speaker verification using adapted Gaussian mixture models」, Digital Signal Processing 10, 19-41, 2000 鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」、株式会社オーム社、2001年、13−15頁
しかしながら、特許文献1に記載された手法は、予め設定された音素毎の優先度に基づいて照合を行うので、優先度が適切に設定されていない場合には、話者照合の精度が低下してしまうことがある。
本発明は、高精度な話者照合を行うことができる話者照合装置を提供することを目的とする。
上記目的を達成するために、本発明に係る話者照合装置は、入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出する類似度算出手段と、前記類似度算出手段により算出された類似度が低い音声区間を照合用の区間として特定する照合区間特定手段とを有する。
また、本発明に係る話者照合方法は、入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出し、前記算出された類似度が低い音声区間を照合用の区間として特定する。
さらに、本発明に係るプログラムは、コンピュータを含む話者照合装置において、入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出する類似度算出ステップと、前記算出された類似度が低い音声区間を照合用の区間として特定する照合区間特定ステップとを前記話者照合装置のコンピュータに実行させる。
本発明の話者照合装置によれば、高精度な話者照合を行うことができる。
照合対象の音声区間を特定して話者の照合を行う話者照合装置の機能構成を示すブロック図である。 本発明の第1の実施形態に係る話者照合装置のハードウェア構成図である。 本発明の第1の実施形態に係る話者照合装置の機能構成を示すブロック図である。 本発明の第1の実施形態に係る話者照合装置の動作を示すフローチャートである。 本発明の第2の実施形態に係る話者照合装置の機能構成を示すブロック図である。 本発明の第2の実施形態に係る話者照合装置の動作を示すフローチャートである。 本発明の第3の実施形態に係る話者照合装置の機能構成を示すブロック図である。
まず、本発明の理解を容易にするために、本発明の背景と概要を説明する。
図1は、照合対象の音声区間を特定して話者の照合を行う話者照合装置の機能構成を示すブロック図である。
図1に示すように、話者照合装置100は、話者モデル記憶部102、音素モデル記憶部104、優先度記憶部106、音声特徴抽出部108、音素認識部110、照合区間特定部112および照合部114を有する。
話者モデル記憶部102は、予め登録された話者の話者モデルを記憶する。話者モデルは、話者の音声の特徴を表現する確率モデルである。例えば、話者モデルは、隠れマルコフモデル(HMM:Hidden Markov Model)の形式で表される。
音素モデル記憶部104は、予め学習された音素モデルを記憶する。音素モデルは、音声の特徴を音素毎に表現する確率モデルである。優先度記憶部106は、音素毎に予め設定されている照合の優先度を示す優先度テーブルを記憶する。例えば、母音等の有声音に該当する音素に、高い優先度が設定される。また例えば、優先度は1〜5の5段階であり、数字が低いほど優先度は高い。
音声特徴抽出部108は、音声データを入力し、話者照合や音素認識に必要な特徴量を抽出して、音素認識部110および照合部114に対して出力する。音素認識部110は、音素モデル記憶部104に記憶されている音素モデルと、音声特徴抽出部108により抽出された特徴量とを入力する。音素認識部110は、音素モデルと特徴量とを用いて音素認識を行う。音素認識部110は、音素認識の結果として音素列を生成して、照合区間特定部112に出力する。
照合区間特定部112は、優先度記憶部106に記憶された音素毎の優先度テーブルと、音素認識部110から出力された音素列とを入力し、照合に用いる区間(照合区間)を特定する。照合区間特定部112は、照合区間を照合部114に対して出力する。例えば、照合区間特定部112は、高い優先度が設定された母音等の有声音に該当する音素区間を照合区間とする。
照合部114は、話者モデル記憶部102に記憶された話者モデル、音声特徴抽出部108により抽出された音声の特徴量および照合区間特定部112から出力された照合区間に基づいて、話者照合を行う。より具体的には、照合部114は、話者モデルと照合区間の音声の特徴量とを比較することにより、話者が登録されている話者本人であるか否かを判定する。
例えば、照合部114は、話者モデルと照合区間の音声の特徴量とを用いて尤度を算出し、尤度と予め設定された閾値とを比較する。尤度は、値が大きいほど話者モデルと抽出された特徴量とが似ていることを示す。照合部114は、尤度が閾値以上である場合、入力音声は登録されている話者本人の音声であると判定し、尤度が閾値未満である場合、入力音声は話者本人の音声ではないと判定する。
しかしながら、話者照合装置100の手法では、話者照合の精度が低下してしまうことがある。第1の理由は、予め設定された音素毎の優先度が適当であるとは限らないためである。第2の理由は、話者照合装置100の手法は、例えば母音等の音素の単位でのみ話者性(話者を特徴付ける情報)の有無を規定しているので、音素と音素の渡りの区間や、音素の単位より長い音声区間に含まれる話者性を考慮できないためである。
また、話者照合装置100の手法では、話者照合の処理速度が低下してしまうことがある。その理由は、照合区間を特定するために、音素認識を実行するためである。また、音素認識および話者照合それぞれの精度向上の観点では、音素認識および話者照合それぞれに特化した音声の特徴量を用いることが好ましい。精度向上のために、特徴抽出処理が2回実行された場合には、処理速度が低下してしまう。
そこで、本発明に係る話者照合装置は、平均的な音声の特徴から外れている(すなわち、話者性が含まれる可能性が高い)音声区間を特定し、この特定された区間を用いて話者照合を行う。これにより、本発明に係る話者照合装置は、母音等の特定の音素に基づいて照合区間を特定する手法と比較して、高精度な話者照合を実現する。また、本発明に係る話者照合装置は、音素認識を行うことなく照合区間を特定することにより、処理速度の低下を抑制する。
以下、本発明に係る話者照合装置を詳細に説明する。
図2は、本発明の第1の実施形態に係る話者照合装置1のハードウェア構成図である。
図2に示すように、話者照合装置1は、CPU10、メモリ12、ハードディスクドライブ(HDD)14、図示しないネットワークを介してデータの通信を行う通信インタフェース(IF)16、ディスプレイ等の表示装置18、キーボードやマウス等のポインティングデバイスを含む入力装置20および音声を入力して音声データを出力するマイクロホン等の音声入力装置22を有する。これらの構成要素は、バス24を通して互いに接続されており、互いにデータの入出力を行う。
図3は、本発明の第1の実施形態に係る話者照合装置1の機能構成を示すブロック図である。
図3に示すように、話者照合装置1は、登録話者モデル記憶部30、背景話者モデル記憶部32、音声分割部34、音声特徴抽出部36、類似度算出部38、照合区間特定部40および照合部42を有する。話者照合装置1の機能は、プログラムがメモリ12(図2)にロードされ、CPU10により実行されて実現される。なお、話者照合装置1の全部または一部の機能は、ハードウェアにより実現されてもよい。
話者照合装置1において、登録話者モデル記憶部30は、予め登録された話者(登録話者)毎に作成された話者モデル(登録話者モデル)を、登録話者と対応付けて記憶する。例えば、登録話者モデル記憶部30は、登録話者を一意に識別可能な識別番号が付与された登録話者モデルを記憶する。登録話者モデルは、例えば、GMM(Gaussian Mixture Model)の形式で表現される。GMMは、複数の正規分布または多次元正規分布の重み付き和を用いて複数のピークを持つような分布で表現された観測データの確率モデルである。
背景話者モデル記憶部32は、複数の話者の音声データに基づいて生成された話者モデル(背景話者モデル)を記憶する。背景話者モデルは、話者モデル記憶部30に記憶されている登録話者モデルと同様の形式で表現される。背景話者モデルは、複数の話者の特徴が反映された話者モデルであり、平均的な音声の特徴量を示す。
登録話者モデル記憶部30および背景話者モデル記憶部32は、メモリ12およびHDD14の少なくともいずれかにより実現される。登録話者モデルおよび背景話者モデルは、例えば、非特許文献1に記載された方法を用いて生成される。なお、登録話者モデル30等は、GMMの形式でなくてもよく、例えばHMMの形式でもよい。
音声分割部34は、音声入力装置22(図2)から出力された音声データを入力し、この音声データを分割して音声特徴抽出部36に対して出力する。より具体的には、音声分割部34は、音声データを複数の音声区間に分割し、各音声区間の音声データを出力する。音声区間の長さは、入力された音声データの長さ(音声データ長)より短ければよく、例えば、音声データ長が数分程度である場合、数秒程度である。なお、以降、音声区間を短区間とも呼ぶ。音声分割部34は、メモリ12およびHDD14等の記憶装置から音声データを読み出してもよいし、通信IF16を介して音声データを取得してもよい。
音声特徴抽出部36は、音声分割部34から出力された各短区間の音声データを入力し、各短区間の特徴量を抽出して類似度算出部38および照合部42に対して出力する。例えば、音声特徴抽出部36は、非特許文献2に記載されているメルケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficient)を算出して特徴量として用いる。なお、特徴量は、メルケプストラム係数に限定されず、音声の特徴を表現するものであればよい。例えば、特徴量は、音声データそのものであってもよい。特徴量Xは、式1で表される。
Figure 2010286702
ここで、nは、N個に分割された短区間のラベルであり、xnは、n番目の短区間の特徴量である。
類似度算出部38は、音声特徴抽出部36により抽出された短区間毎の特徴量および背景話者モデル記憶部32に記憶されている背景話者モデルを読み出す。類似度算出部38は、短区間の特徴量および背景話者モデルを用いて、短区間の特徴量と平均的な音声の特徴量との類似度を短区間毎に算出する。類似度算出部38は、式2を用いて短区間の特徴量に対する尤度を算出し、算出された尤度を類似度として用いる。
Figure 2010286702
ここで、xnは、短区間のラベルnの特徴量である。λubmは、背景話者モデルのパラメータであり、例えば、GMMの平均、分散、混合重みである。類似度が大きいほど、短区間の音声の特徴は、平均的な音声の特徴と近い。類似度が小さいほど、短区間の音声の特徴は、平均的な音声の特徴から外れている。類似度算出部38は、各短区間の類似度を、照合区間特定部40に対して出力する。
なお、類似度は、式2を用いて算出される尤度でなくてもよい。例えば、類似度算出部38は、短区間毎に特徴量の分布を表現するモデルを、背景話者モデルと同じ形式で生成し、生成された各モデルと背景話者モデルとのモデル間距離を用いて類似度を算出してもよい。この場合、類似度算出部38は、計算されたモデル間距離の逆数や逆数のk乗(kは整数)を類似度として用いる。モデル間距離は、例えば、2つの確率モデルの統計的な距離を算出するKLダイバージェンスを用いて算出される。
照合区間特定部40は、類似度算出部38により算出された各短区間の類似度を入力し、各短区間について照合に用いるか否かを判定することにより、照合区間を特定する。照合区間特定部40は、照合区間情報(例えば、短区間毎の始端時刻及び終端時刻と、照合に用いるか否かのフラグ)を照合部42に出力する。
より具体的には、照合区間特定部40は、類似度が低い短区間を照合区間として特定する。例えば、照合区間特定部40は、短区間の類似度と、予め設定された閾値とを比較して判定を行う。照合区間特定部40は、短区間の類似度が閾値より小さい(すなわち、短区間の音声の特徴が、平均的な音声の特徴から外れている)場合、この短区間を照合に用いると判定し、短区間の類似度が閾値以上である(すなわち、短区間の音声の特徴が、平均的な音声の特徴と近い)場合、この短区間を照合に用いないと判定する。また例えば、照合区間特定部40は、類似度が小さい予め決められた数の短区間を照合に用いると判定する。なお、照合区間情報は、照合に用いるか否かのフラグ(2値)でなくてもよく、類似度算出部38により算出された類似度(連続値)でもよい。
照合部42は、登録話者モデル記憶部30に記憶されている登録話者モデル、背景話者モデル記憶部32に記憶されている背景話者モデル、音声特徴抽出部36により抽出された短区間の特徴量および照合区間特定部40から出力された照合区間情報に基づいて、話者照合を行う。
より具体的には、照合部42は、登録話者モデルと照合区間の音声の特徴量とを比較することにより、話者が登録された話者本人であるか否かを判定する。例えば、照合部42は、式3を用いて照合スコアを算出する。照合部42は、算出された照合スコアが予め設定された閾値以上である場合、登録された話者本人の音声として受理し、照合スコアが閾値未満である場合、本人の音声ではないとして拒否する。
Figure 2010286702
ここで、Sは、照合区間の特徴量の集合である。M(M≦N)は、照合区間の個数である。λubmは、背景話者モデルのパラメータである。λspは、登録話者モデルのパラメータであり、GMMの平均、分散、混合重みである。
なお、照合区間情報が、類似度算出部38により算出された類似度等の連続値である場合、照合部42は、類似度に応じた重み係数で、短区間毎に算出された照合スコアを重み付き平均することにより、照合スコアを算出してもよい。この場合、照合部42は、例えば、式4を用いて照合スコアを算出する。
Figure 2010286702
ここで、nは、N個に分割された短区間のラベルである。xnは、n番目の短区間の特徴量である。wnは、短区間nの照合スコアの重み係数である。
次に、本実施形態に係る話者照合装置1の動作を説明する。
図4は、本実施形態に係る話者照合装置1の動作(S10)を示すフローチャートである。
図4に示すように、ステップ100(S100)において、話者照合装置1の音声分割部34は、音声データを入力し、この音声データを分割して短区間の音声データを音声特徴抽出部36に対して出力する。
ステップ102(S102)において、音声特徴抽出部36は、短区間の音声データに基づいて、話者照合に必要な特徴量を短区間毎に算出する。
ステップ104(S104)において、類似度算出部38は、背景話者モデルおよび短区間の特徴量に基づいて、短区間の特徴量と平均的な音声の特徴量との類似度を短区間毎に算出する。
ステップ106(S106)において、照合区間特定部40は、短区間の類似度と閾値とを比較して、各短区間について照合に用いるか否かを判定する。このようにして、照合区間特定部40は、照合区間を特定し、照合区間情報を照合部42に対して出力する。
ステップ108(S108)において、照合部42は、登録話者モデル、背景話者モデルおよび短区間の特徴量に基づいて、照合区間について、照合スコアを算出して、話者照合を行う。
以上説明したように、本実施形態に係る話者照合装置1は、入力された音声データのうち、話者性が含まれる可能性の高い音声区間を特定するので、高精度な話者照合を実現することができる。また、本実施形態係る話者照合装置1は、音素認識を行うことなく照合区間を特定するので、照合速度の低下を抑制することができる。
次に、本発明の第2の実施形態に係る話者照合装置2を説明する。
本発明の第2の実施形態に係る話者照合装置2は、短区間毎に抽出される特徴量を用いて短区間毎の信頼度を算出し、算出された信頼度をさらに用いて照合区間を特定する点で、第1の実施形態に係る話者照合装置1とは異なる。
図5は、本発明の第2の実施形態に係る話者照合装置2の機能構成を示すブロック図である。なお、図5に示された各構成のうち、図3に示された構成と実質的に同一のものには同一の符号が付されている。
図5に示すように、話者照合装置2は、話者照合装置1に信頼度算出部44が追加され、照合区間特定部40が照合区間特定部46に置き換えられた構成を有する。
話者照合装置2において、信頼度算出部44は、音声特徴抽出部36により抽出された短区間毎の特徴量を入力し、この特徴量を用いて短区間毎の信頼度を算出する。信頼度算出部44は、短区間毎に算出された信頼度を、照合区間特定部46に対して出力する。
信頼度は、ある短区間が他の短区間と類似する度合いである。短区間の信頼度が低い場合、この短区間の音声は、他の短区間の音声とは異なる傾向にある。したがって、雑音や照合対象である話者本人以外の音声(以下、回り込み音声と呼ぶ)等が混入している可能性が高いので、この短区間は、照合には適していない。
逆に、短区間の信頼度が高い場合、この短区間の音声は、他の短区間の音声と近い傾向にある。したがって、雑音や回り込み音声等が混入している可能性が低いので、この短区間は、照合に適している。
信頼度算出部44は、例えば、式5を用いて信頼度を算出する。
Figure 2010286702
ここで、nは、N個に分割された短区間のラベルである。xnは、n番目の短区間の特徴量であり、ここでは、着目した、信頼度を求めたい短区間の特徴量である。式5で示されるように、信頼度は、着目した短区間の特徴量と、全ての短区間の特徴量の平均値との距離の逆数である。なお、信頼度は、全ての短区間の特徴量の平均値を用いて算出される必要はなく、所定数の短区間の特徴量の平均値を用いて算出されてもよい。また、信頼度は、式5で算出される距離の逆数をk乗(kは整数)した値であってもよい。
照合区間特定部46は、類似度算出部38により算出された短区間毎の類似度と、信頼度算出部44により算出された短区間毎の信頼度を入力し、各短区間について照合に用いるか否かを判定することにより、照合区間を特定する。例えば、照合区間特定部46は、類似度が低く、かつ、信頼度が高い短区間を照合に用いると判定する。この場合、照合区間特定部46は、短区間の類似度と信頼度とを重み付き統合したスコア(統合スコア)と、予め設定された閾値とを比較して判定を行う。照合区間特定部46は、2値でもよいし、統合スコア等の連続値でもよい。
次に、本実施形態に係る話者照合装置2の動作を説明する。
図6は、本実施形態に係る話者照合装置2の動作(S20)を示すフローチャートである。なお、図6に示された各処理のうち、図4に示された処理と実質的に同一のものには同一の符号が付されている。
図6に示すように、S100〜S104の処理で、音声分割部34が音声データを分割し、音声特徴抽出部36が短区間毎の特徴量を抽出し、類似度算出部38が短区間毎の類似度を算出する。ステップ200(S200)において、信頼度算出部44は、短区間毎の特徴量を用いて短区間毎の信頼度を算出する。なお、S200の処理は、S104の処理の前に行われてもよいし、S104の処理とS200の処理は、並列に行われてもよい。
ステップ202(S202)において、照合区間特定部46は、短区間の類似度および信頼度に基づいて統合スコアを短区間毎に算出し、算出された統合スコアと閾値とを比較して、各短区間について照合に用いるか否かを判定する。このようにして、照合区間特定部46は、照合区間を特定し、照合区間情報を照合部42に対して出力する。その後、S108の処理で、照合部42が話者照合を行う。
以上説明したように、本実施形態に係る話者照合装置2は、雑音や回り込み音声等が混入したことにより、音声の特徴が他の短区間の音声の特徴から外れてしまった短区間を照合対象から除外するので、さらに高精度な話者照合を実現することができる。
次に、本発明の第3の実施形態に係る話者照合装置3を説明する。
本発明の第3の実施形態に係る話者照合装置3は、各短区間の特徴量および背景話者モデルを入力とし、照合区間を出力とする点で、第1の実施形態に係る話者照合装置1および第2の実施形態に係る話者照合装置2とは異なる。
図7は、本発明の第3の実施形態に係る話者照合装置3の機能構成を示すブロック図である。なお、図7に示された各構成のうち、図3に示された構成と実質的に同一のものには同一の符号が付されている。
図7に示すように、話者照合装置3は、話者照合装置1の類似度算出部38および照合区間特定部40を有する。類似度算出部38は、各短区間の特徴量および背景話者モデルを、メモリ12やHDD14等の記憶装置から読み出してもよいし、通信IF16を介して取得してもよい。また、類似度算出部38は、他のプログラムから出力される各短区間の特徴量および背景話者モデルを取得してもよい。
したがって、話者照合装置3は、入力される各短区間の特徴量および背景話者モデルに基づいて照合区間を特定する。このようにして特定された照合区間は、話者性が含まれる可能性の高い音声区間であるので、本実施形態に係る話者照合装置3は、図示しない外部の照合装置等に、話者照合を高精度に実行させることができる。
なお、本発明に係る話者照合装置は、話者照合に用いられる他、虹彩、指紋、顔、筆跡等のデータと組み合わせて個人認証するバイオメトリクス認証装置などの用途に適用可能である。さらに、本発明に係る話者照合装置は、音声を伴う映像コンテンツに話者インデックスを自動付与して検索可能とするコンテンツ検索装置などの用途にも適用可能である。
1 話者照合装置
2 話者照合装置
3 話者照合装置
30 登録話者モデル記憶部
32 背景話者モデル記憶部
34 音声分割部
36 音声特徴抽出部
38 類似度算出部
40 照合区間特定部
42 照合部
44 信頼度算出部
46 照合区間特定部

Claims (7)

  1. 入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出する類似度算出手段と、
    前記類似度算出手段により算出された類似度が低い音声区間を照合用の区間として特定する照合区間特定手段と
    を有する話者照合装置。
  2. 前記類似度算出手段は、前記音声区間の音声の特徴量に対する尤度を類似度とする
    請求項1に記載の話者照合装置。
  3. 前記類似度算出手段は、前記音声区間の音声の特徴量の分布を表現するモデルと、前記複数の話者の音声データに基づいて生成されたモデルとのモデル間距離を用いて類似度を算出する
    請求項1に記載の話者照合装置。
  4. 前記音声区間の音声の特徴量が当該音声区間とは異なる音声区間の音声の特徴量と類似する度合いを示す信頼度を算出する信頼度算出手段をさらに有し、
    前記照合区間特定部は、前記信頼度算出手段により算出された信頼度をさらに用いて照合用の区間を特定する
    請求項1〜3のいずれかに記載の話者照合装置。
  5. 前記信頼度算出手段は、前記音声区間の音声の特徴量と、当該音声区間とは異なる音声区間の音声の特徴量の平均値との距離を算出する
    請求項4に記載の話者照合装置。
  6. 入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出し、
    前記算出された類似度が低い音声区間を照合用の区間として特定する
    話者照合方法。
  7. コンピュータを含む話者照合装置において、
    入力された音声データが分割された音声区間の音声の特徴量と、複数の話者の音声データに基づいて予め生成されている音声の特徴量との類似度を音声区間毎に算出する類似度算出ステップと、
    前記算出された類似度が低い音声区間を照合用の区間として特定する照合区間特定ステップと
    を前記話者照合装置のコンピュータに実行させるプログラム。
JP2009140986A 2009-06-12 2009-06-12 話者照合装置、話者照合方法およびプログラム Active JP5229124B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009140986A JP5229124B2 (ja) 2009-06-12 2009-06-12 話者照合装置、話者照合方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009140986A JP5229124B2 (ja) 2009-06-12 2009-06-12 話者照合装置、話者照合方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2010286702A true JP2010286702A (ja) 2010-12-24
JP5229124B2 JP5229124B2 (ja) 2013-07-03

Family

ID=43542439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009140986A Active JP5229124B2 (ja) 2009-06-12 2009-06-12 話者照合装置、話者照合方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5229124B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014155652A1 (ja) * 2013-03-29 2014-10-02 株式会社日立製作所 話者検索システム、プログラム
WO2019021953A1 (ja) 2017-07-26 2019-01-31 日本電気株式会社 音声操作装置及びその制御方法
CN111341300A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种获取语音比对音素的方法、装置和设备
US10832685B2 (en) 2015-09-15 2020-11-10 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
US10867019B2 (en) 2015-10-21 2020-12-15 Nec Corporation Personal authentication device, personal authentication method, and personal authentication program using acoustic signal propagation
JP2021527840A (ja) * 2018-10-10 2021-10-14 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
WO2022034630A1 (ja) * 2020-08-11 2022-02-17 日本電気株式会社 音声処理装置、音声処理方法、記録媒体、および音声認証システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6225797A (ja) * 1985-07-26 1987-02-03 松下電器産業株式会社 音声認識装置
JPH10261083A (ja) * 1997-03-17 1998-09-29 Toshiba Corp 個人同定装置及び個人同定方法
JPH11249685A (ja) * 1998-03-04 1999-09-17 Nec Corp 話者認識方法及び装置
JP2001092477A (ja) * 1999-09-21 2001-04-06 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体
JP2005173008A (ja) * 2003-12-09 2005-06-30 Canon Inc 音声解析処理およびそれを用いた音声処理装置および媒体
WO2006109515A1 (ja) * 2005-03-31 2006-10-19 Pioneer Corporation 操作者認識装置、操作者認識方法、および、操作者認識プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6225797A (ja) * 1985-07-26 1987-02-03 松下電器産業株式会社 音声認識装置
JPH10261083A (ja) * 1997-03-17 1998-09-29 Toshiba Corp 個人同定装置及び個人同定方法
JPH11249685A (ja) * 1998-03-04 1999-09-17 Nec Corp 話者認識方法及び装置
JP2001092477A (ja) * 1999-09-21 2001-04-06 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体
JP2005173008A (ja) * 2003-12-09 2005-06-30 Canon Inc 音声解析処理およびそれを用いた音声処理装置および媒体
WO2006109515A1 (ja) * 2005-03-31 2006-10-19 Pioneer Corporation 操作者認識装置、操作者認識方法、および、操作者認識プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014155652A1 (ja) * 2013-03-29 2014-10-02 株式会社日立製作所 話者検索システム、プログラム
JPWO2014155652A1 (ja) * 2013-03-29 2017-02-16 株式会社日立製作所 話者検索システム、プログラム
US10832685B2 (en) 2015-09-15 2020-11-10 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
US10867019B2 (en) 2015-10-21 2020-12-15 Nec Corporation Personal authentication device, personal authentication method, and personal authentication program using acoustic signal propagation
WO2019021953A1 (ja) 2017-07-26 2019-01-31 日本電気株式会社 音声操作装置及びその制御方法
US11961534B2 (en) 2017-07-26 2024-04-16 Nec Corporation Identifying user of voice operation based on voice information, voice quality model, and auxiliary information
JP2021527840A (ja) * 2018-10-10 2021-10-14 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
JP7152514B2 (ja) 2018-10-10 2022-10-12 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
US11508381B2 (en) 2018-10-10 2022-11-22 Tencent Technology (Shenzhen) Company Limited Voiceprint recognition method, model training method, and server
CN111341300A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种获取语音比对音素的方法、装置和设备
CN111341300B (zh) * 2020-02-28 2023-08-15 广州国音智能科技有限公司 一种获取语音比对音素的方法、装置和设备
WO2022034630A1 (ja) * 2020-08-11 2022-02-17 日本電気株式会社 音声処理装置、音声処理方法、記録媒体、および音声認証システム

Also Published As

Publication number Publication date
JP5229124B2 (ja) 2013-07-03

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
US8775177B1 (en) Speech recognition process
US10157610B2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
JP5229124B2 (ja) 話者照合装置、話者照合方法およびプログラム
US20170236520A1 (en) Generating Models for Text-Dependent Speaker Verification
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US10553206B2 (en) Voice keyword detection apparatus and voice keyword detection method
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
EP1701338A1 (en) Speech recognition method
US11222641B2 (en) Speaker recognition device, speaker recognition method, and recording medium
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
US11823669B2 (en) Information processing apparatus and information processing method
JP2018045127A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP6996627B2 (ja) 情報処理装置、制御方法、及びプログラム
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JP2020060757A (ja) 話者認識装置、話者認識方法、及び、プログラム
CN110189750B (zh) 词语检测***、词语检测方法以及记录介质
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
KR20080052248A (ko) 고속 음성 인식 방법 및 시스템
US20090063149A1 (en) Speech retrieval apparatus
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
JP7287442B2 (ja) 情報処理装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5229124

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150