JP2002108392A - 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体 - Google Patents

音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体

Info

Publication number
JP2002108392A
JP2002108392A JP2000301502A JP2000301502A JP2002108392A JP 2002108392 A JP2002108392 A JP 2002108392A JP 2000301502 A JP2000301502 A JP 2000301502A JP 2000301502 A JP2000301502 A JP 2000301502A JP 2002108392 A JP2002108392 A JP 2002108392A
Authority
JP
Japan
Prior art keywords
voice
audio
registered
speaker
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000301502A
Other languages
English (en)
Inventor
Hiroyasu Ide
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2000301502A priority Critical patent/JP2002108392A/ja
Publication of JP2002108392A publication Critical patent/JP2002108392A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】本人照合を音声データにより行う音声認証装置
で、登録音声と照合音声との発声速度にばらつきがある
場合でも、照合率の高い話者照合を行うこと。 【解決手段】登録話者と照合話者によりそれぞれその登
録時と照合時において発声入力される音声信号データ
を、何れも一定時間間隔毎のフレーム(Frame)に区切っ
てそのエネルギ(Energy)を計算し、平均エネルギ値より
大きいフレームのみを音声部分として取り出してFFT
により周波数スペクトルを時系列に並べたサウンドスペ
クトログラムの2次元画像に変換する。そして登録音声
画像上に配置したテンプレートti内の画像について照
合音声画像上での最大相関係数が得られる画像位置Ti
を検出し、各画像位置の相違Δiから登録音声と照合音
声との同一性を判定するので、登録時と照合時とでその
音声発声速度が異なっても、音声部分のみを取り出した
登録画像と照合画像間で確実な話者照合が行える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば本人照合を
音声データにより行うための音声認証装置、音声認証方
法、及び音声認証処理プログラムを記憶した記憶媒体に
関する。
【0002】
【従来の技術】一般に、本人照合を音声により行う話者
照合においては、照合する音声信号と登録されている音
声信号とを直接比較することは能率的ではないので、周
波数スペクトル等の音響パラメータに変換してから比較
を行う。なお、音響パラメータとしては、他に、基本周
波数(ピッチ周波数),音声エネルギー,ホルマント周
波数,零交差数等がある。
【0003】これらの音響パラメータは、音韻性情報を
第一義的に、個人性情報を第二義的に含むものであるた
め、話者照合を行う際、照合率を向上させるためには、
さらに音響パラメータから話者固有の新たな特徴量を作
成して比較する必要がある。
【0004】ここで、先願の話者照合方法として、特願
平11−299745号がある。
【0005】この方法は、入力された音声信号を、所定
時間単位毎のフレームに分割し、そのフレーム毎に周波
数スペクトルを計算し、周波数スペクトルの時系列分布
(以下、サウンドスペクトログラムと呼称する)に変換
し、登録されているサウンドスペクトログラムとの類似
度を判定し、本人の同一性を判断するものである。
【0006】
【発明が解決しようとする課題】しかし、先願の話者照
合方法では、照合すべき所定の言葉の話者による発声速
度のばらつきが考慮されていないため、同じ言葉であっ
ても、例えば登録音声データとして普通の速度で話され
たものが採用され、照合音声データがゆっくり又は速い
速度で話されたものである場合、登録音声と照合音声と
でサウンドスペクトログラムとして音声データが現れる
時間軸上の位置や幅が異なってしまい、照合困難になる
問題がある。
【0007】このため、先願の話者照合方法を用いた音
声認証装置では、登録話者の言葉の発声速度に対し略同
一の速度で照合話者が言葉を発声しなければならない。
【0008】本発明は、前記のような問題に鑑みてなさ
れたもので、登録音声と照合音声との発声速度にばらつ
きがある場合でも、照合率の高い話者照合を行うことが
可能になる音声認証装置、音声認証方法、及び音声認証
処理プログラムを記憶した記憶媒体を提供することを目
的とする。
【0009】
【課題を解決するための手段】すなわち、本発明の請求
項1に係る音声認証装置は、登録話者の音声と照合話者
の音声とを照合して認証する音声認証装置であって、音
声信号を入力する音声信号入力手段と、この音声信号入
力手段により入力された音声信号の音声部分を取り出す
音声部分取り出し手段と、この音声部分取り出し手段に
より取り出された音声信号の音声部分を2次元画像に変
換するデータ変換手段と、このデータ変換手段により変
換された登録話者の音声部分に対応する2次元画像を記
憶する登録話者情報記憶手段と、この登録話者情報記憶
手段に記憶された登録音声の2次元画像に対し前記デー
タ変換手段により変換された照合話者の音声部分に対応
する2次元画像を比較して、前記登録話者の音声信号と
照合話者の音声信号との同一性を判定する照合判定手段
とを備えたことを特徴とする。
【0010】また、本発明の請求項2に係る音声認証装
置は、前記請求項1に係る音声認証装置にあって、前記
音声部分取り出し手段は、前記音声信号入力手段により
入力された音声信号の一定区間毎のエネルギを算出する
エネルギ算出手段と、このエネルギ算出手段により算出
された音声信号の一定区間毎のエネルギ値に基づいた所
定の閾値を算出する閾値算出手段と、この閾値算出手段
により算出された所定の閾値より大きなエネルギ値を有
する前記音声信号の区間を音声部分として選択する区間
選択手段とを備えていることを特徴とする。
【0011】このような本発明に係る音声認証装置で
は、登録話者の音声と照合話者の音声とを照合して認証
するにあたり、まず、入力された音声信号の音声部分の
みが取り出される。そして、この音声部分の取り出しに
より取り出された音声信号の音声部分は2次元画像に変
換され、このデータ変換により変換された登録話者の音
声部分に対応する2次元画像は登録話者情報記憶手段に
記憶され、この記憶された登録音声の2次元画像に対し
前記データ変換により変換された照合話者の音声部分に
対応する2次元画像が比較されて、前記登録話者の音声
信号と照合話者の音声信号との同一性が判定されるの
で、登録話者と照合話者間でその音声発声速度がばらつ
いても、その音声部分のみ取り出されて画像化された登
録:照合の各画像間での比較により、確実な音声照合が
行えることになる。
【0012】
【発明の実施の形態】以下図面により本発明の実施の形
態について説明する。
【0013】(第1実施形態)図1は、本発明の実施形
態に係る音声認証装置の電子回路の構成を示すブロック
図である。
【0014】この音声認証装置は、制御部(CPU)1
1、記憶装置12、RAM13、音声入力装置14、表
示部15、入力部16、記憶媒体読み取り部18、伝送
制御部19より構成され、バス17を介して相互に接続
されている。
【0015】制御部(CPU)11は、入力部12から
の入力信号に応じて、記憶装置12に予め記憶されてい
る制御プログラム、あるいはフロッピディスクFDなど
の外部記憶媒体18aからフロッピディスクドライブF
DDなどの記憶媒体読み取り部18を介して記憶装置1
2に読み込まれた音声登録照合処理プログラム、あるい
は外部のコンピュータ端末(プログラムサーバ21A)
の記憶装置22Aから通信ネットワーク20を経由し伝
送制御部19を介して記憶装置12に読み込まれた音声
登録照合処理プログラムを起動させ、RAM13をワー
クメモリとして回路各部の動作を制御する。
【0016】記憶装置12は、半導体メモリのROMや
ハードディスク装置(HD)等で構成され、この記憶装
置12には、音声を入力しその入力された音声データを
登録する処理を行うのと共に、この登録された音声デー
タに対し新たに入力された音声データを照合し、その同
一性を判定する処理を行うための音声登録照合処理プロ
グラムが記憶され、また、この音声登録照合処理に従っ
て入力された登録すべき音声データが、その音声部分の
み取り出されサウンドスペクトログラムに変換されて2
次元のデータ(A)として記憶され登録される。これら
の制御プログラムは、本認証装置の電源投入直後に制御
部(CPU)11により読み出されて起動される。
【0017】RAM13は、前述の制御プログラムを実
行する際に制御部(CPU)11が使用するワークメモ
リである。
【0018】音声入力装置14は、被験者の登録音声信
号や照合音声信号を取得するための装置であり、例えば
マイクロフォンとオーディオアンプなどである。
【0019】表示部15は、登録音声データと照合音声
データとの照合の判定結果を表示する、例えばCRTや
液晶などといったディスプレイ装置である。
【0020】入力部16は、本認証装置の使用者が音声
信号の取得指示や後述の音声照合処理の開始を制御部
(CPU)11に指示するための、例えばキーボード装
置などの入力装置である。
【0021】図2は前記音声認証装置のRAM13に確
保されるデータメモリを示す図である。
【0022】RAM13には、入力音声データメモリ1
3a、照合音声データメモリ13b、登録音声テンプレ
ートメモリ13c、登録音声テンプレート位置メモリ1
3d、照合音声検出位置メモリ13e、判定結果メモリ
13fなどが確保される。
【0023】入力音声データメモリ13aには、音声入
力装置14により入力された被験者(登録話者あるいは
照合話者)の音声信号データが一時記憶される。
【0024】照合音声データメモリ13bには、前記入
力音声データメモリ13aに一時記憶された照合話者の
音声データが、その音声部分のみ取り出されサウンドス
ペクトログラムに変換されて2次元のデータ(B)とし
て一時記憶され、前記記憶装置12に登録された登録音
声の音声部分サウンドスペクトログラム(A)との照合
によりその同一性が判定される。
【0025】登録音声テンプレートメモリ13cには、
記憶装置12に記憶されている登録音声データ(A)の
任意の位置に対して定義されて配置される複数の矩形領
域のテンプレートti[i=1〜m:m≧2の整数(こ
の場合m=5:図9(a)参照)]それぞれの範囲内の
登録音声部分画像が抽出されて記憶される。
【0026】登録音声テンプレート位置メモリ13dに
は、前記記憶装置12に記憶された登録音声データ
(A)に対し定義された複数の矩形領域であるテンプレ
ート(ti)それぞれの定義位置を示す座標データ(X
i,Yi)が記憶される。
【0027】照合音声検出位置メモリ13eには、前記
登録音声テンプレートメモリ13cに記憶された複数の
テンプレート(ti)に対応する各登録音声部分画像と
最大の相関係数が算出される前記照合音声データメモリ
13b内の照合音声データ(B)上での複数の矩形領域
Ti[i=1〜m:m≧2の整数(この場合m=5:図
10(b)参照)]が検出され、この照合音声データ
(B)上での複数の検出矩形領域Tiそれぞれの位置を
示す座標データ(XTi,YTi)が記憶される。
【0028】判定結果メモリ13fには、前記登録音声
テンプレート位置メモリ13dに記憶された登録音声デ
ータ(A)に対しての複数のテンプレート位置(Xi,
Yi)の相互位置関係[テンプレートt1に対するt
2,t3,…,t5それぞれとの位置関係]と、前記照
合音声検出位置メモリ13eに記憶された照合音声デー
タ(B)上での複数の検出矩形領域位置(XTi,YT
i)の相互位置関係[検出領域T1に対するT2,T
3,…,T5それぞれとの位置関係]との各対応テンプ
レート毎の相違(Δi:Δ2,Δ3,…,Δ5)の大き
さに基づき、所定閾値との大小比較により登録音声デー
タと照合音声データとの同一性が判定されその評価結果
(同一/同一でない)が記憶される。
【0029】図3は前記音声認証装置の音声登録照合処
理プログラムの実行に伴う動作機能の構成を示すブロッ
ク図である。
【0030】この音声認証装置における動作機能の機能
ブロックでは、前記図1における電子回路の対応構成部
分を括弧書きの符号にして示す。
【0031】音声信号データ入力部21は、マイクロフ
ォンなどを用いて登録すべき音声や照合すべき音声を電
気信号に変換して入力するもので、この音声信号データ
入力部21により入力された登録音声あるいは照合音声
の音声信号データは、音声部分取り出し部22に与えら
れる。
【0032】音声部分取り出し部22は、前記音声信号
データ入力部21から入力された登録音声あるいは照合
音声の音声信号データを、所定時間単位毎のフレーム(F
rame)に区切り、そのフレーム区間毎にエネルギ(Energ
y)を計算すると共に、当該各区間エネルギの平均値を求
め、このエネルギ平均値より大きいエネルギを持つフレ
ーム区間を音声部分として取り出すもので、この音声部
分取り出し部22により取り出された登録音声あるいは
照合音声の音声信号データは、サウンドスペクトログラ
ム変換処理部23に与えられる。
【0033】ここで、前記音声部分取り出し部22にお
ける音声信号データの取り出し手順について説明する。
【0034】まず、音声信号データ入力部21により入
力された音声信号データの各フレーム(Frame)に対し、
そのi番目のフレーム(音声サンプル)をXi、全フレ
ーム数をnとすると、当該i番目のフレームにおけるエ
ネルギ(Energy)は、次式により計算される。
【0035】
【数1】
【0036】すると、全フレーム(1〜n)の各エネル
ギ(Energy)間での平均値が求められ、この平均エネルギ
値よりも大きいエネルギ値を持つフレームのみが、音声
部分として取り出される。
【0037】すなわち、ノイズの少ない環境下では、音
声部分のみにエネルギ(Energy)が集中しているため、こ
の平均エネルギ値より大きいフレーム区間を音声部分と
して取り出すことができる。この場合、エネルギのあま
り無い音声部分が削られてしまうことも考えられるが、
このような低エネルギ部分はノイズの影響を受け易く、
また、情報量も少ないのでカットされても問題はない。
【0038】そして、この音声部分取り出し部22によ
り取り出された登録音声あるいは照合音声の音声信号デ
ータが、サウンドスペクトログラム変換処理部23に与
えられる。
【0039】サウンドスペクトログラム変換処理部23
は、前記音声部分取り出し部22から与えられた登録音
声あるいは照合音声の音声部分の音声信号データを高速
フーリエ変換(FFT:Fast Fourier T
ransform)し、時間対周波数の座標軸上で、周
波数成分の多いところほど白く少ないところほど黒くな
るように、周波数スペクトルの時系列分布を濃度として
表した2次元の画像データ(サウンドスペクトログラ
ム)に変換するもので(図4参照)、この入力音声の音
声部分をFFTしたサウンドスペクトログラム画像の時
間軸方向の左右には、ある程度の幅(例えば100dots
分)の空白データ(“0”データ)が入れられる。
【0040】図4は前記音声認証装置のサウンドスペク
トログラム変換処理部23における音声部分取り出し後
の音声信号データからのサウンドスペクトログラムデー
タへの変換状態を示す図である。
【0041】図5は前記音声認証装置の音声部分取り出
し部22において音声部分取り出し処理を受けた場合の
入力音声のサウンドスペクトログラム変換状態を示す図
であり、同図(A)は被験者により普通の発声速度で入
力された音声「さっぽろ」のサウンドスペクトログラム
を示す図、同図(B)は被験者によりゆっくりの発声速
度で入力された音声「さっぽろ」のサウンドスペクトロ
グラムを示す図である。
【0042】図6は前記音声認証装置の音声部分取り出
し部22において音声部分取り出し処理を受けない場合
の入力音声のサウンドスペクトログラム変換状態を示す
図であり、同図(A)は被験者により普通の発声速度で
入力された音声「さっぽろ」のサウンドスペクトログラ
ムを示す図、同図(B)は被験者によりゆっくりの発声
速度で入力された音声「さっぽろ」のサウンドスペクト
ログラムを示す図である。
【0043】すなわち、図5に示すように、音声部分取
り出し部22において音声部分取り出し処理を受けた場
合の入力音声のサウンドスペクトログラムでは、普通の
速度で発声入力したサウンドスペクトログラムと、ゆっ
くりした速度で発声入力したサウンドスペクトログラム
の何れにあっても、その言葉「さっぽろ」の発声に対応
した音声部分のみが時間軸方向に集約されて発声速度の
ばらつきが矯正解消されているのに対し、図6に示すよ
うに、音声部分取り出し部22において音声部分取り出
し処理を受けない場合の入力音声のサウンドスペクトロ
グラムでは、普通の速度で発声入力したサウンドスペク
トログラムと、ゆっくりした速度で発声入力したサウン
ドスペクトログラムの何れにあっても、その発声速度の
ばらつきに応じた音声部分がそのまま時間軸方向にずれ
て現れる。従って、登録音声と照合音声とでそのスペク
トログラム画像の同一性を見る話者音声照合では、前記
音声部分の取り出しにより登録話者と照合話者間での発
声速度のばらつき補正を行い、サウンドスペクトログラ
ムに変換するのが非常に効果的である。
【0044】このように、サウンドスペクトログラム変
換処理部23により変換された登録音声あるいは照合音
声の音声部分のサウンドスペクトログラムは、登録音声
の場合は登録話者情報記憶部24に与えられ、照合音声
の場合は照合処理部25の最大相関領域検出処理部27
に与えられる。
【0045】登録話者情報記憶部24には、前記音声部
分取り出し部22を通して音声部分のみ取り出され、サ
ウンドスペクトログラム変換処理部23によりサウンド
スペクトログラムに変換された登録音声のデータが記憶
されて登録される。
【0046】照合処理部25のテンプレート配置処理部
26は、前記登録話者情報記憶部24に記憶登録された
登録音声のサウンドスペクトログラムに対し、任意の大
きさの複数の矩形領域(テンプレート)を任意の位置に
定義して配置するもので(図9参照)、このテンプレー
ト配置処理部26において配置された複数の矩形領域の
それぞれに対応する範囲の2次元データは、最大相関領
域検出処理部27に与えられる。
【0047】最大相関領域検出処理部27は、前記テン
プレート配置処理部26から与えられる登録音声サウン
ドスペクトログラム上の複数の矩形領域のそれぞれに対
応する範囲の2次元データに対し、前記サウンドスペク
トログラム変換処理部23から与えられる照合音声の音
声部分のサウンドスペクトログラム上で最大の相関関係
を有する複数の領域(最大相関領域)を検出するもので
(図10参照)、前記テンプレート配置処理部26によ
り登録音声サウンドスペクトログラム上に配置された複
数の矩形領域それぞれの位置を示す座標データと、この
最大相関領域検出処理部27により検出された複数の最
大相関領域それぞれの位置を示す座標データとが、照合
判定処理部28に与えられる。
【0048】照合判定処理部28は、前記テンプレート
配置処理部26から与えられた登録音声サウンドスペク
トログラム上での複数の矩形領域それぞれの位置を示す
座標データと、前記最大相関領域検出処理部27により
検出された複数の最大相関領域それぞれの位置を示す座
標データとに基づき、登録音声サウンドスペクトログラ
ムにおける矩形領域の配置位置分布(相互位置関係)と
照合音声サウンドスペクトログラムにおける検出領域の
位置分布(相互位置関係)とを比較し、その相違から登
録音声と照合音声との類似度を判定して同一性を評価す
るもので、この照合判定処理部28により得られた登録
音声と照合音声との同一性の判定評価結果は、照合結果
表示部29に与えられて表示される。
【0049】次に、前記構成による音声認証装置の動作
について説明する。
【0050】図7は前記音声認証装置の音声登録照合処
理を示すフローチャートである。
【0051】図8は前記音声認証装置の音声登録照合処
理に伴う第1実施形態のサウンドスペクトログラム生成
処理を示すフローチャートである。
【0052】図9は前記音声認証装置の音声登録照合処
理に伴う音声部分のみ取り出した登録音声スペクトログ
ラムと照合音声スペクトログラムとの対比及び登録音声
スペクトログラムに対するテンプレートの配置状態を示
す図である。
【0053】図10は前記音声認証装置の音声登録照合
処理に伴う音声部分のみ取り出した登録音声スペクトロ
グラム上でのテンプレート領域の配置位置分布と照合音
声スペクトログラム上での最大相関領域の検出位置分布
との対比状態を示す図である。
【0054】この音声認証装置を本人認証装置として利
用する場合に、まず、この本人認証装置にて本人照合を
行うべき登録話者の音声信号データが、音声信号データ
入力部21により入力される(ステップS1)。
【0055】すると、サウンドスペクトログラム生成処
理(ステップSA)へ移行され、この入力された登録音
声信号データは、音声部分取り出し部22において、そ
の音声部分のみ取り出され、サウンドスペクトログラム
変換処理部23において、周波数スペクトルの時系列デ
ータAに変換される。
【0056】つまり、音声信号データ入力部21から音
声部分取り出し部22に入力された登録音声信号データ
の各フレーム(Frame)に対し、そのi番目のフレーム
(音声サンプル)をXi、全フレーム数をnとして、当
該各i番目のフレームにおけるエネルギ(Energy)が順次
前記式により計算される(ステップA1)。そして、全
フレーム(1〜n)の各エネルギ(Energy)間での平均値
が求められ(ステップA2)、この平均エネルギ値より
も大きいエネルギ値を持つフレームのみが、音声部分と
して取り出される(ステップA3)。
【0057】すると、この音声部分取り出し部22によ
り取り出された登録音声の音声部分に対応する音声信号
データが、サウンドスペクトログラム変換処理部23に
与えられ、このサウンドスペクトログラム変換処理部2
3において、図9(a)に示すように、FFTにより周
波数スペクトルの時系列データA(以下、サウンドスペ
クトログラムAと呼称する)に変換される(ステップA
4)。
【0058】このサウンドスペクトログラム変換処理部
23において施される音声信号データからのサウンドス
ペクトログラムへの変換処理は、音声信号データd
(n)を、所定時間単位毎(標本点数N)のフレームに
切り出して、前記音声部分取り出し部22により取り出
された音声部分の各フレームについて、切り出したデー
タ系列d(n)に窓関数としてハミング窓関数w
(n)を乗じ、これに対して高速フーリエ変換(FF
T)を施して周波数スペクトルS(f)を算出し、この
フレーム毎に算出した周波数スペクトルS(f)を時系
列に並べて、横軸が時間、縦軸が周波数で表されるサウ
ンドスペクトログラムS(n,f)に変換する。但し、
スペクトル値は、対数をとり最大値255で正規化した
値である。即ち、このサウンドスペクトログラムは、多
階調の2次元データ、つまり、多階調の画像データとし
ての側面を持っており、本実施形態では、サウンドスペ
クトログラムを多階調の声紋画像として話者照合に適用
する。なお、この入力音声の音声部分をFFTしたサウ
ンドスペクトログラム画像の時間軸方向の左右には、あ
る程度の幅(例えば100dots分)の空白データ
(“0”データ)が入れられる(ステップA4)。
【0059】以下、サウンドスペクトログラムを多階調
の画像データと見なして、画像データ、画素データの単
語を使用する。
【0060】前記サウンドスペクトログラム変換処理部
23により変換された登録話者の音声部分に対応するサ
ウンドスペクトログラム画像Aは、登録話者の特徴量と
して登録話者情報記憶部24に記憶されて登録される
(ステップS2→S3)。
【0061】一方、この本人認証装置にて本人照合を行
うべき照合話者の音声信号データが、音声信号データ入
力部21により入力されると(ステップS1)、この入
力された照合音声信号データも、前記同様に音声部分取
り出し部22を介してその音声部分のみ取り出された
後、サウンドスペクトログラム変換処理部23におい
て、図9(b)に示すように、サウンドスペクトログラ
ムB(n,f)(以下、Bと呼称する)に変換され(ス
テップSA(A1〜A4))、照合音声データメモリ1
3bに記憶される(ステップS3→S4)。
【0062】すると、照合処理部25内のテンプレート
配置処理部26において、前記登録話者情報記憶部24
に登録されている登録音声のサウンドスペクトログラム
Aが読み出され、図10(a)に示すように、当該サウ
ンドスペクトログラムA内に複数の矩形領域のテンプレ
ートti[i=1〜m:m≧2の整数]が定義されて配
置される(ステップS5)。
【0063】すると、照合処理部25内の最大相関領域
検出処理部27において、前記登録音声のサウンドスペ
クトログラムA内に定義された各テンプレートtiに相
当するテンプレートが、前記照合音声のサウンドスペク
トログラムB上で水平方向及び垂直方向に1画素ずつラ
スター走査されながら、順次該テンプレートti内の全
ての画素データとそれに対応する照合音声のサウンドス
ペクトログラムB内の画素データとを用いた相関係数が
計算される。そして、その相関係数が最大となる照合音
声のサウンドスペクトログラムB内の領域Tiが、図1
0(b)に示すように検出される(ステップS6,S
7)。なお、相関係数の算出については後述する。
【0064】この登録音声のサウンドスペクトログラム
A内に定義した各テンプレートtiの画像データを基準
とする照合音声のサウンドスペクトログラムB上での最
大相関係数の算出及びその領域Tiの検出は、各テンプ
レートti毎に順次行われ(ステップS6〜S8)、全
てのテンプレートtiにそれぞれ最大の相関係数を有す
る照合音声のサウンドスペクトログラムB上の各領域T
iが検出されたと判断されると、照合処理部25内の照
合判定処理部28において、図10に示すように、前記
登録音声のサウンドスペクトログラムA内に配置した各
テンプレート領域{ti}の分布(位置関係)と照合音
声のサウンドスペクトログラムBから検出した各領域
{Ti}の分布(位置関係)とがそのそれぞれの座標デ
ータに基づいて比較照合され同一性が評価される(ステ
ップS8→S9)。
【0065】以下、具体的な例を説明する。
【0066】登録音声のサウンドスペクトログラムA内
に配置した矩形領域t1と照合音声のサウンドスペクト
ログラムB上から検出された矩形領域T1の画像上の位
置を特定する基準となる座標、例えば両矩形の左上端の
頂点の座標を取得し、それぞれt1(X1,Y1)、T
1(XT1,YT1)としてRAM13の所定の領域
(13d,13e)にそれぞれ記憶させる。
【0067】次に、登録音声のサウンドスペクトログラ
ムAに、前記矩形領域t1の各頂点が中心となるような
矩形領域t2〜t5を定義する。なお、ここで定義する
矩形領域の配置は任意であり、また、この矩形領域の数
も4個に限定されるものではなく、要求される音声照合
の照合精度が得られる限り任意でよい。また、ここで定
義する矩形領域の大きさも同様に任意でよい。
【0068】そして、矩形領域T1の検出と同様に、矩
形領域t2〜t5の1つずつ(以下、ti(i=2,
3,4,5)と代表して示す)において、矩形領域ti
と同一の大きさの矩形領域を照合音声のサウンドスペク
トログラムB上に設定し、その矩形領域を画素単位で2
次元的に移動させ、その矩形領域と矩形領域tiとの間
の相関係数を移動の度に算出する。その結果、最大の相
関係数が得られたときの位置の矩形領域を矩形領域Ti
とし、矩形領域tiと矩形領域Tiとの画像上の位置を
特定する基準となる座標、例えば両矩形の左上端の頂点
の座標を取得し、それぞれti(Xi,Yi)、Ti
(XTi,YTi)としてRAM13の所定の領域(1
3d,13e)にそれぞれ記憶させる。
【0069】その後、t1とtiとの相対距離と、T1
とTiとの相対距離との違いΔiを、次式に基づいて全
てのi(=2,3,4,5)について算出する。
【0070】
【数2】
【0071】そして、算出された全てのΔiが所定値内
に収まるか否かを判定し、全てが収まれば登録音声と照
合音声とは一致すると判定し、一方、そうでない場合に
は登録音声と照合音声とは一致しないと判定し、判定結
果を照合結果表示部29によって表示させる。なお、こ
こで用いられる所定値は、例えば、複数人より取得した
サウンドスペクトログラムの画像データよりΔiを実際
に計算し、その計算結果の分布に基づいて所望の照合精
度が得られる値とする。
【0072】これにより、登録音声信号データa(n)
を登録した登録話者に対して照合音声信号データb
(n)を入力した未知話者が同一性を有するかが評価さ
れ、その評価結果が表示される。
【0073】なお、前記音声登録照合処理においては、
t1、T1、t2〜t5、T2〜T5の各領域を矩形領
域としていたが、これらの領域の形状は矩形に限らず、
任意でよい。また、t1とT1、及びt2〜t5とT2
〜T5の大きさ・形状は同一であることが望ましいが、
多少の違いがあったとしても、要求される音声照合の照
合精度が得られる限り許容できる。
【0074】また、照合判定においては、前述した処理
におけるΔiを評価する方法の他に、例えばtiを頂点
として形成される図形とTiを頂点として形成される図
形との、形状、あるいは面積の違いに基づく判定など、
様々な方法を採用することも可能である。
【0075】次に、前記音声登録照合処理において用い
られる相関係数の算出について説明する。なお、ここで
は、矩形領域Aと矩形領域Bとの間の相関係数の算出に
ついて説明する。
【0076】まず、矩形領域Aと矩形領域Bのそれぞれ
に含まれる画素をそれぞれ、A(i、j)、B(m、
n)とする。但し、矩形領域Aと矩形領域Bのそれぞれ
に含まれる画素の総数は等しくする。また、これらの画
素についての濃淡を示す多階調値である信号強度をそれ
ぞれXij、Ymnとする。
【0077】これらの信号強度を一般化してZpqと表し
たとき、以下の式を定義する。
【0078】
【数3】
【0079】上式において、Nはその矩形領域に含まれ
る画素の総数を示す。また、上式において、Σはその矩
形領域に含まれる画素の全てについての総和であること
を示す。つまり、上式はその矩形領域に含まれる画素に
ついての信号強度の平均値を示すものである。
【0080】次に、以下の式を更に定義する。
【0081】
【数4】
【0082】上式はその矩形領域に含まれる画素につい
ての信号強度の2乗平均値を示すものである。
【0083】ここで、矩形領域Aと矩形領域Bとの間の
相関係数CABは、前述の式の定義を用いて表される次式
により算出できる。
【0084】
【数5】
【0085】上式を用いて領域間の相関係数を算出す
る。
【0086】なお、上式による相関係数の算出において
は、矩形領域内の全ての画素の信号強度を用いて算出す
る代わりに、例えば、その矩形領域内の任意の1列の線
上に並ぶ画素のみを用いての算出、その矩形領域内の一
部の領域に含まれる画素のみを用いての算出、あるい
は、その矩形領域内から任意に間引いて選択した画素の
みを用いての算出であっても、要求される音声照合の照
合精度が得られるのであれば問題はない。このような算
出手法を用いると、相関係数算出の対象とする画素数が
減少するので計算量が削減されるので、有益である。ま
た、他の相関係数の算出法を前述の音声登録照合処理に
採用してもよい。
【0087】したがって、前記構成の第1実施形態の音
声認証装置によれば、登録話者と照合話者によりそれぞ
れその登録時と照合時において発声入力される音声信号
データを、何れも一定時間間隔毎のフレーム(Frame)に
区切ってそのエネルギ(Energy)を計算し、平均エネルギ
値より大きいフレームのみを音声部分として取り出し
て、FFTにより周波数スペクトルを時系列に並べたサ
ウンドスペクトログラムの2次元画像に変換し、登録音
声のサウンドスペクトログラム画像は登録話者情報記憶
部24に登録する。そして、この登録音声のサウンドス
ペクトログラム上の任意位置に配置したテンプレートt
i内の画像について、照合音声のサウンドスペクトログ
ラム上での最大相関係数が得られる画像位置Tiを検出
し、各画像位置の相違Δiから登録音声と照合音声との
同一性を判定するので、登録時と照合時とでその話者に
よる音声発声の速度が異なっても、その音声部分のみを
取り出して画像化した登録画像と照合画像間で確実な話
者照合を行うことができ、登録話者と照合話者との音声
入力時における発声速度のばらつきがその照合・認証に
与える悪影響を大幅に軽減できるようになる。
【0088】また、前記音声部分のみを取り出した登録
話者と照合話者それぞれのサウンドスペクトログラム画
像には、その時間軸方向の両側に所定幅の空白領域を入
れるようにしたので、登録画像の照合画像上での最大相
関係数算出時において無関係な画像部分で相関検出が成
されるのを防止することができる。
【0089】なお、前記第1実施形態におけるサウンド
スペクトログラム生成処理では、入力音声信号の各フレ
ーム(Frame)について、それぞれそのままエネルギ(Ener
gy)を計算し、その平均エネルギ値より大きいフレーム
区間を音声部分として取り出してサウンドスペクトログ
ラムの2次元画像に変換する構成としたが、次の第2実
施形態におけるサウンドスペクトログラム生成処理にお
いて説明するように、入力音声信号のある一定の低帯域
部分を除去した後にエネルギ(Energy)の計算による音声
部分の取り出しを行い、ノイズの乗りやすい低域部分を
除いたより正確な音声部分の2次元画像化を図る構成と
してもよい。
【0090】(第2実施形態)図11は前記音声認証装
置の音声登録照合処理に伴う第2実施形態のサウンドス
ペクトログラム生成処理を示すフローチャートである。
【0091】この第2実施形態のサウンドスペクトログ
ラム生成処理では、まず、登録話者あるいは照合話者の
入力音声信号における一定時間間隔毎の各フレーム(Fra
me)に対してFFTが掛けられ(ステップa1)、低域
のデータ部分が除去されてエネルギ(Energy)が算出され
る(ステップa2)。
【0092】この場合、前記入力音声信号のFFT後の
低域データの除去とそのエネルギ(Energy)の算出は、次
のように行われる。
【0093】すなわち、入力音声信号の各フレーム(Fra
me)にFFTを掛けた結果、i番目の周波数の実数値を
Ri、虚数値をIiとし、iは小さいほど低周波数であ
るとするとき、全体の周波数帯域数をn、除去したい周
波数帯域をj番目以下の帯域とすると、フレーム(Fram
e)のエネルギは次式により算出される。
【0094】
【数6】
【0095】例えば、FFTを512サンプルで掛ける
と、周波数帯域は256個になる。入力音声信号を11
kHzでサンプリングするとき、元々5.5kHzまでの周
波数が表されているので、1つの帯域は5.5kHz/2
56=21.5Hzの幅を持つことになる。通常のオフィ
ス環境下などでは、200Hz以下程度にノイズが多く現
れるので、低域側10帯域を除去すれば、215Hz以下
が除去されることになり、ノイズの影響が抑えられる。
この場合、j=10、n=255(iが0から始まると
き)となる。
【0096】こうして全てのフレーム(Frame)について
一定以下の低帯域を除去したエネルギ(Energy)が算出さ
れると、次にその平均値が求められ(ステップa3)、
この平均エネルギ値より大きいエネルギ値を持つフレー
ム(Frame)のFFTデータに対してのみ、時系列順に並
べられたサウンドスペクトログラムの2次元画像が生成
される(ステップa4)。
【0097】よって、前記構成による音声認証装置の音
声登録照合処理に伴う第2実施形態のサウンドスペクト
ログラム生成処理によれば、登録音声と照合音声それぞ
れの音声信号から、ノイズの乗りやすい低域部分が除去
されたより正確な音声部分が取り出されてサウンドスペ
クトログラムの2次元画像が生成され、この正確な音声
部分に対応する登録画像と照合画像との比較からその同
一性が判定されるので、登録話者と照合話者との音声入
力時における発声速度のばらつきに悪影響を受けない、
より確実な話者照合を行うことができる。
【0098】なお、この第2実施形態におけるサウンド
スペクトログラム生成処理では、入力音声信号をまずF
FTした後に、低帯域を除いたデータについてエネルギ
(Energy)を計算し、音声部分を取り出した2次元画像化
を図っているが、入力音声信号をまずハイパスフィルタ
に通しその低帯域信号を予め除去してから、前記第1実
施形態におけるサウンドスペクトログラム生成処理と同
様に、各フレーム(Frame)のエネルギ(Energy)を計算し
て音声部分を取り出し、FFTを掛けて2次元画像化を
図ってもよい。
【0099】なお、前記各実施形態において、入力音声
信号が一定時間間隔毎に区切られた各フレーム(Frame)
は、その対象となる音声サンプルが重なっていてもよ
い。
【0100】また、前記各実施形態のサウンドスペクト
ログラム変換処理部23における変換処理では、窓関数
としてハミング窓を適用したが、これに代えて、ハニン
グ窓または方形窓を窓関数として適用してもよい。
【0101】なお、前記各実施形態において記載した手
法、すなわち、図7のフローチャートに示す音声登録照
合処理、図8のフローチャートに示す音声登録照合処理
に伴う第1実施形態のサウンドスペクトログラム生成処
理、図11のフローチャートに示す音声登録照合処理に
伴う第2実施形態のサウンドスペクトログラム生成処理
等の各手法は、何れもコンピュータに実行させることが
できるプログラムとして、メモリカード(ROMカー
ド、RAMカード等)、磁気ディスク(フロッピディス
ク、ハードディスク等)、光ディスク(CD−ROM、
DVD等)、半導体メモリ等の外部記憶媒体18aに格
納して配布することができる。そして、コンピュータ
は、この外部記憶媒体18aに記憶されたプログラムを
記憶装置12に読み込み、この読み込んだプログラムに
よって動作が制御されることにより、前記各実施形態に
おいて説明した登録音声と照合音声との音声部分の取り
出し・照合、及びその同一性の評価判定機能を実現し、
前述した手法による同様の処理を実行することができ
る。
【0102】また、前記各手法を実現するためのプログ
ラムのデータは、プログラムコードの形態としてネット
ワーク20上を伝送させることができ、このネットワー
ク20に接続されたコンピュータ端末のプログラムサー
バ21Aから前記のプログラムデータを取り込み、前述
した登録音声と照合音声との音声部分の取り出し・照
合、及びその同一性の評価判定機能を実現することもで
きる。
【0103】なお、本願発明は、前記各実施形態に限定
されるものではなく、実施段階ではその要旨を逸脱しな
い範囲で種々に変形することが可能である。さらに、前
記各実施形態には種々の段階の発明が含まれており、開
示される複数の構成要件における適宜な組み合わせによ
り種々の発明が抽出され得る。例えば、ある実施形態に
示される全構成要件から幾つかの構成要件が削除された
り、一つの実施形態に示される幾つかの構成要件と他の
実施形態に示される幾つかの構成要件が組み合わされて
も、発明が解決しようとする課題の欄で述べた課題が解
決でき、発明の効果の欄で述べられている効果が得られ
る場合には、この構成要件が削除されたり組み合わされ
た構成が発明として抽出され得るものである。
【0104】
【発明の効果】以上のように、本発明に係る音声認証装
置によれば、登録話者の音声と照合話者の音声とを照合
して認証するにあたり、まず、入力された音声信号の音
声部分のみが取り出される。そして、この音声部分の取
り出しにより取り出された音声信号の音声部分は2次元
画像に変換され、このデータ変換により変換された登録
話者の音声部分に対応する2次元画像は登録話者情報記
憶手段に記憶され、この記憶された登録音声の2次元画
像に対し前記データ変換により変換された照合話者の音
声部分に対応する2次元画像が比較されて、前記登録話
者の音声信号と照合話者の音声信号との同一性が判定さ
れるので、登録話者と照合話者間でその音声発声速度が
ばらついても、その音声部分のみ取り出されて画像化さ
れた登録:照合の各画像間での比較により、確実な音声
照合が行えるようになる。
【0105】よって、登録音声と照合音声との発声速度
にばらつきがある場合でも、照合率の高い話者照合を行
うことが可能になる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る音声認証装置の電子回
路の構成を示すブロック図。
【図2】前記音声認証装置のRAMに確保されるデータ
メモリを示す図。
【図3】前記音声認証装置の音声登録照合処理プログラ
ムの実行に伴う動作機能の構成を示すブロック図。
【図4】前記音声認証装置のサウンドスペクトログラム
変換処理部における音声部分取り出し後の音声信号デー
タからのサウンドスペクトログラムデータへの変換状態
を示す図。
【図5】前記音声認証装置の音声部分取り出し部におい
て音声部分取り出し処理を受けた場合の入力音声のサウ
ンドスペクトログラム変換状態を示す図であり、同図
(A)は被験者により普通の発声速度で入力された音声
「さっぽろ」のサウンドスペクトログラムを示す図、同
図(B)は被験者によりゆっくりの発声速度で入力され
た音声「さっぽろ」のサウンドスペクトログラムを示す
図。
【図6】前記音声認証装置の音声部分取り出し部におい
て音声部分取り出し処理を受けない場合の入力音声のサ
ウンドスペクトログラム変換状態を示す図であり、同図
(A)は被験者により普通の発声速度で入力された音声
「さっぽろ」のサウンドスペクトログラムを示す図、同
図(B)は被験者によりゆっくりの発声速度で入力され
た音声「さっぽろ」のサウンドスペクトログラムを示す
図。
【図7】前記音声認証装置の音声登録照合処理を示すフ
ローチャート。
【図8】前記音声認証装置の音声登録照合処理に伴う第
1実施形態のサウンドスペクトログラム生成処理を示す
フローチャート。
【図9】前記音声認証装置の音声登録照合処理に伴う音
声部分のみ取り出した登録音声スペクトログラムと照合
音声スペクトログラムとの対比及び登録音声スペクトロ
グラムに対するテンプレートの配置状態を示す図。
【図10】前記音声認証装置の音声登録照合処理に伴う
音声部分のみ取り出した登録音声スペクトログラム上で
のテンプレート領域の配置位置分布と照合音声スペクト
ログラム上での最大相関領域の検出位置分布との対比状
態を示す図。
【図11】前記音声認証装置の音声登録照合処理に伴う
第2実施形態のサウンドスペクトログラム生成処理を示
すフローチャート。
【符号の説明】
11 …制御部(CPU) 12 …記憶装置 13 …RAM 13a…入力音声データメモリ 13b…照合音声データメモリ 13c…登録音声テンプレートメモリ 13d…登録音声テンプレート位置メモリ 13e…照合音声検出位置メモリ 13f…判定結果メモリ 14 …音声入力装置 15 …表示部 16 …入力部 17 …バス 18 …記憶媒体読み取り部 18a…外部記憶媒体 19 …伝送制御部 20 …ネットワーク 21A…プログラムサーバ(外部のコンピュータ端末) 22A…外部端末の記憶装置 21 …音声信号データ入力部 22 …音声部分取り出し部 23 …サウンドスペクトログラム変換処理部 24 …登録話者情報記憶部 25 …照合処理部 26 …テンプレート配置処理部 27 …最大相関領域検出処理部 28 …照合判定処理部 29 …照合結果表示部 ti …登録音声スペクトログラムAのテンプレート Ti …照合音声スペクトログラムBの最大相関領域

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 登録話者の音声と照合話者の音声とを照
    合して認証する音声認証装置であって、 音声信号を入力する音声信号入力手段と、 この音声信号入力手段により入力された音声信号の音声
    部分を取り出す音声部分取り出し手段と、 この音声部分取り出し手段により取り出された音声信号
    の音声部分を2次元画像に変換するデータ変換手段と、 このデータ変換手段により変換された登録話者の音声部
    分に対応する2次元画像を記憶する登録話者情報記憶手
    段と、 この登録話者情報記憶手段に記憶された登録音声の2次
    元画像に対し前記データ変換手段により変換された照合
    話者の音声部分に対応する2次元画像を比較して、前記
    登録話者の音声信号と照合話者の音声信号との同一性を
    判定する照合判定手段と、を備えたことを特徴とする音
    声認証装置。
  2. 【請求項2】 前記音声部分取り出し手段は、 前記音声信号入力手段により入力された音声信号の一定
    区間毎のエネルギを算出するエネルギ算出手段と、 このエネルギ算出手段により算出された音声信号の一定
    区間毎のエネルギ値に基づいた所定の閾値を算出する閾
    値算出手段と、 この閾値算出手段により算出された所定の閾値より大き
    なエネルギ値を有する前記音声信号の区間を音声部分と
    して選択する区間選択手段と、を備えていることを特徴
    とする請求項1に記載の音声認証装置。
  3. 【請求項3】 前記音声部分取り出し手段は、前記音声
    信号入力手段により入力された音声信号の予め指定され
    た低域部分を除いた音声部分を取り出すことを特徴とす
    る請求項1又は請求項2に記載の音声認証装置。
  4. 【請求項4】 前記データ変換手段は、前記音声部分取
    り出し手段により取り出された音声部分の音声信号を、
    高速フーリエ変換により周波数スペクトルの時系列分布
    にした多階調の2次元画像に変換し、 この2次元画像の時間軸方向の前後一定の領域に空白の
    画像を入れてなることを特徴とする請求項1乃至請求項
    3の何れか1項に記載の音声認証装置。
  5. 【請求項5】 登録話者の音声と照合話者の音声とを照
    合して認証する音声認証方法であって、 音声信号を入力する音声信号入力ステップと、 この音声信号入力ステップにより入力された音声信号の
    音声部分を取り出す音声部分取り出しステップと、 この音声部分取り出しステップにより取り出された音声
    信号の音声部分を2次元画像に変換するデータ変換ステ
    ップと、 このデータ変換ステップにより変換された登録話者の音
    声部分に対応する2次元画像を記憶する登録話者情報記
    憶ステップと、 この登録話者情報記憶ステップにより記憶された登録音
    声の2次元画像に対し前記データ変換ステップにより変
    換された照合話者の音声部分に対応する2次元画像を比
    較して、前記登録話者の音声信号と照合話者の音声信号
    との同一性を判定する照合判定ステップと、からなるこ
    とを特徴とする音声認証方法。
  6. 【請求項6】 前記音声部分取り出しステップは、 前記音声信号入力ステップにより入力された音声信号の
    一定区間毎のエネルギを算出するエネルギ算出ステップ
    と、 このエネルギ算出ステップにより算出された音声信号の
    一定区間毎のエネルギ値に基づいた所定の閾値を算出す
    る閾値算出ステップと、 この閾値算出ステップにより算出された所定の閾値より
    大きなエネルギ値を有する前記音声信号の区間を音声部
    分として選択する区間選択ステップと、を備えているこ
    とを特徴とする請求項5に記載の音声認証方法。
  7. 【請求項7】 コンピュータを制御して登録話者の音声
    と照合話者の音声とを照合して認証するための音声認証
    処理プログラムを記憶した記憶媒体であって、 前記コンピュータを制御して、 音声信号を入力し、 この音声入力により入力された音声信号の音声部分を取
    り出し、 この音声部分の取り出しにより取り出された音声信号の
    音声部分を2次元画像に変換し、 このデータ変換により変換された登録話者の音声部分に
    対応する2次元画像を記憶し、 この登録話者の情報記憶により記憶された登録音声の2
    次元画像に対し前記データ変換により変換された照合話
    者の音声部分に対応する2次元画像を比較して、前記登
    録話者の音声信号と照合話者の音声信号との同一性を判
    定する、ように機能させることを特徴とするコンピュー
    タ読み込み可能な音声認証処理プログラムを記憶した記
    憶媒体。
  8. 【請求項8】 前記音声部分の取り出しは、前記コンピ
    ュータを制御して、 前記音声入力により入力された音声信号の一定区間毎の
    エネルギを算出し、 このエネルギ算出により算出された音声信号の一定区間
    毎のエネルギ値に基づいた所定の閾値を算出し、 この閾値算出により算出された所定の閾値より大きなエ
    ネルギ値を有する前記音声信号の区間を音声部分として
    選択する、ように機能させることを特徴とする請求項7
    に記載のコンピュータ読み込み可能な音声認証処理プロ
    グラムを記憶した記憶媒体。
JP2000301502A 2000-09-29 2000-09-29 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体 Pending JP2002108392A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000301502A JP2002108392A (ja) 2000-09-29 2000-09-29 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000301502A JP2002108392A (ja) 2000-09-29 2000-09-29 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
JP2002108392A true JP2002108392A (ja) 2002-04-10

Family

ID=18783035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000301502A Pending JP2002108392A (ja) 2000-09-29 2000-09-29 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JP2002108392A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293455A (ja) * 2005-04-06 2006-10-26 Dainippon Printing Co Ltd 不適正データ確認システム
JP2019200671A (ja) * 2018-05-17 2019-11-21 大日本印刷株式会社 学習装置、学習方法、プログラム、データ生成方法及び識別装置
CN113571101A (zh) * 2021-09-10 2021-10-29 深圳市升迈电子有限公司 智能录音方法、装置、设备及存储介质
JP7492443B2 (ja) 2020-11-20 2024-05-29 株式会社日立ビルシステム パターン分類装置、昇降機音診断システム、及びパターン分類方法昇降機音の診断装置、及び昇降機音診断方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293455A (ja) * 2005-04-06 2006-10-26 Dainippon Printing Co Ltd 不適正データ確認システム
JP2019200671A (ja) * 2018-05-17 2019-11-21 大日本印刷株式会社 学習装置、学習方法、プログラム、データ生成方法及び識別装置
JP7492443B2 (ja) 2020-11-20 2024-05-29 株式会社日立ビルシステム パターン分類装置、昇降機音診断システム、及びパターン分類方法昇降機音の診断装置、及び昇降機音診断方法
CN113571101A (zh) * 2021-09-10 2021-10-29 深圳市升迈电子有限公司 智能录音方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
EP3599606A1 (en) Machine learning for authenticating voice
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
CN107910011B (zh) 一种语音降噪方法、装置、服务器及存储介质
WO2018176894A1 (zh) 一种说话人确认方法及装置
CN109584884B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
US20030033143A1 (en) Decreasing noise sensitivity in speech processing under adverse conditions
CN106486131A (zh) 一种语音去噪的方法及装置
US11699449B2 (en) In-ear liveness detection for voice user interfaces
JPH1083194A (ja) 話し手照合システムのための2段階群選択方法
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
JP2007279742A (ja) 話者認証確認方法及び装置
JP2001117579A (ja) 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
CN111583936A (zh) 一种智能语音电梯控制方法及装置
CN110648671A (zh) 声纹模型重建方法、终端、装置及可读存储介质
CN105224844B (zh) 验证方法、***和装置
CN110765868A (zh) 唇读模型的生成方法、装置、设备及存储介质
CN113327620A (zh) 声纹识别的方法和装置
JP4730812B2 (ja) 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体
JPH07104952B2 (ja) パターンマッチング装置
JP6179337B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
JP2002108392A (ja) 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体
JP2002108393A (ja) 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体
JP2002023792A (ja) 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质