JP2009053430A - 音声処理装置およびプログラム - Google Patents
音声処理装置およびプログラム Download PDFInfo
- Publication number
- JP2009053430A JP2009053430A JP2007219929A JP2007219929A JP2009053430A JP 2009053430 A JP2009053430 A JP 2009053430A JP 2007219929 A JP2007219929 A JP 2007219929A JP 2007219929 A JP2007219929 A JP 2007219929A JP 2009053430 A JP2009053430 A JP 2009053430A
- Authority
- JP
- Japan
- Prior art keywords
- distortion
- section
- feature vector
- codebook
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】記憶装置30は、音声信号VAの特徴ベクトル系列XAおよびVQ符号帳CAと音声信号VBの特徴ベクトル系列XBおよびVQ符号帳CBとを記憶する。第1算定部161は、VQ符号帳CAと特徴ベクトル系列XBとのVQ歪DAB、VQ符号帳CBと特徴ベクトル系列XAとのVQ歪DBA、VQ符号帳CAと特徴ベクトル系列XAとのVQ歪DAA、VQ符号帳CBと特徴ベクトル系列XBとのVQ歪DBBを算定する。第2算定部162は、VQ歪DABやVQ歪DBAが大きいほどVQクロス歪DCが大きく、VQ歪DAAやVQ歪BBが大きいほどVQクロス歪DCが小さくなるように、第1算定部161による算定の結果から、音声信号VAと音声信号VBとの類否の指標となるVQクロス歪DCを算定する。
【選択図】図1
Description
複数の区間のなかから第1区間と第2区間とを選択する複数の組合せの各々について、第1区間のVQ符号帳と第2区間の特徴ベクトル系列との第1VQ歪、第2区間のVQ符号帳と第1区間の特徴ベクトル系列との第2VQ歪、第1区間のVQ符号帳と当該第1区間の特徴ベクトル系列との第3VQ歪、および、第2区間のVQ符号帳と当該第2区間の特徴ベクトル系列との第4VQ歪を算定する第1算定手段と、複数の組合せの各々について第1区間と第2区間とにおける音声信号の類否の指標となるVQクロス歪を算定する手段であって、第1VQ歪または第2VQ歪が大きいほどVQクロス歪が大きく、第3VQ歪または第4VQ歪が大きいほどVQクロス歪が小さくなるように、第1VQ歪と第2VQ歪と第3VQ歪と第4VQ歪とに基づいてVQクロス歪を算定する第2算定手段と、複数の区間の各々と当該区間に対するVQクロス歪が最も小さい区間とが同じクラスタに属するように複数の区間を複数のクラスタに分類する区間分類手段とを具備する。
本発明の第1実施形態に係る音声処理装置について図1を参照して説明する。本形態の音声処理装置100は、2種類の音声(音声信号VAおよび音声信号VB)の類否の指標となるVQクロス歪を算定する。図1に示すように、音声処理装置100は、制御装置10と記憶装置30とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置30は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置30として任意に採択される。
式(5)で算定されたVQクロス歪DCは音声信号VAと音声信号VBとが類似するほど小さい数値となる。したがって、音声信号VAと音声信号VBとの類否を判定する基準としてVQクロス歪DCが好適に採用され得る。例えば、制御装置10は、VQクロス歪DCが所定の閾値Dthを下回る場合には音声信号VAと音声信号VBとが類似すると判定し、VQクロス歪DCが閾値Dthを上回る場合には音声信号VAと音声信号VBとが類似しないと判定する。
図3は、第2実施形態に係る音声処理装置101の構成を示すブロック図である。同図に示すように、音声処理装置101は、1実施形態と同様の制御装置10と記憶装置30とを具備する。制御装置10には入力装置42と出力装置44とが接続される。入力装置42は、利用者による操作の内容を制御装置10に通知する。出力装置44は、制御装置10による制御のもとに各種の画像を表示する表示機器である。
次に、本発明の第3実施形態について説明する。第2実施形態においては、発音区間PAの分類数(クラスタ数)が話者数Mに到達した段階で分類を終了する構成を例示した。これに対し、本形態においては、K個の発音区間PAの総てが何れかのクラスタCLに分類されるまで発音区間PAの分類が継続される。
図9は、本発明の第4実施形態に係る音声処理装置101のVQクロス歪算定部16および分類処理部22の動作を示すフローチャートである。音声区分部12がK個の発音区間PAを画定し、特徴抽出部14が各発音区間Pについて特徴ベクトル系列XおよびVQ符号帳Cを生成して記憶装置30に格納すると、第2実施形態における図5の処理の代わりに図9の処理が実行される。K個の発音区間PAの各々には固有の識別子(番号)が付与される。
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
第2実施形態から第4実施形態においては、VQクロス歪DCに基づいて複数の発音区間PAを複数のクラスタCLに分類したが、VQクロス歪DCを利用する音声処理は発音区間PAの分類に限定されない。例えば、以下に例示するように話者照合や話者識別にVQクロス歪DCを利用してもよい。
記憶装置30は、正規の利用者が事前に入力した音声信号V(以下「登録音声信号」という)の特徴ベクトル系列XとVQ符号帳Cとを記憶する。音声処理の対象となる音声信号(以下「対象音声信号」という)が収音機器(図示略)から入力されると、制御装置10は、対象音声信号から特徴ベクトル系列XとVQ符号帳Cとを生成し、登録音声信号の特徴ベクトル系列XおよびVQ符号帳Cと対象音声信号の特徴ベクトル系列XおよびVQ符号帳CとからVQクロス歪DCを算定する。制御装置10は、VQクロス歪DCが閾値Dth(固定値または可変値)を下回る場合には対象音声信号の入力者を正規の利用者と判定する一方、VQクロス歪DCが閾値Dthを上回る場合には対象音声信号の入力者を詐称者と判定する。
記憶装置30は、音声信号Vの特徴ベクトル系列XおよびVQ符号帳Cを識別子に対応させた話者情報を複数の利用者の各々について記憶する。制御装置10は、収音機器に入力された対象音声信号から特徴ベクトル系列XとVQ符号帳Cとを生成し、複数の話者情報の各々について、当該話者情報の特徴ベクトル系列XおよびVQ符号帳Cと対象音声信号の特徴ベクトル系列XおよびVQ符号帳CとからVQクロス歪DCを算定する。制御装置10は、VQクロス歪DCが最小となる話者情報を特定し、当該話者情報に含まれる識別子を画像や音声として出力する。
式(5)においては、VQ歪DABからVQ歪DAAを減算した数値(DAB−DAA)とVQ歪DBAからVQ歪DBBを減算した数値(DBA−DBB)との加算に基づいてVQクロス歪DCを算定したが、VQクロス歪DCの算定の方法は適宜に変更される。例えば、以下の式(6)に示すように、VQ歪DABをVQ歪DAAで除算した数値(DAB/DAA)とVQ歪DBAをVQ歪DBBで除算した数値(DBA/DBB)との加算に基づいて第2算定部162がVQクロス歪DCを算定する構成も好適である。
すなわち、VQ歪DABまたはVQ歪DBAが大きいほどVQクロス歪DCが増加し、VQ歪DAAまたはVQ歪DBBが大きいほどVQクロス歪DCが減少するように、VQ歪DABとVQ歪DBAとVQ歪DAAとVQ歪DBBとに基づいてVQクロス歪DCを算定する構成が好適である。
第2実施形態から第4実施形態においては、複数の発音区間PAの分類前に総ての発音区間PAについて特徴ベクトル系列XとVQ符号帳Cとを生成したが、発音区間PAの分類時に特徴ベクトル系列XとVQ符号帳Cとが順次に生成される構成も好適である。例えば、図5のステップSA2やステップSA5にて発音区間PAを選択するたびに当該発音区間PAの特徴ベクトル系列XとVQ符号帳Cとが生成される。したがって、総ての発音区間PAの特徴ベクトル系列XとVQ符号帳Cとが同時に記憶装置30に格納されている必要はない。
第2実施形態や第3実施形態においては分類区間長Tに応じて閾値Dthを制御したが、閾値Dthを決定する基準となる数値は分類区間長Tに限定されない。例えば、音声信号VのS/N比に基づいて閾値Dthを制御する構成も採用される。すなわち、分類処理部22は、ステップSA5にて選択した選択区間PAの音声信号VからS/N比を算定し、S/N比が低いほど閾値Dthを大きい数値に設定する。音声信号Vの特徴ベクトルxは雑音の影響を受けるから、閾値Dthが固定であるとすれば、音声信号VのS/N比が低いほど、実際には類似する音声信号VがステップSA8にて非類似と誤判定される可能性が高い。S/N比に応じて閾値Dthを可変に制御する構成によれば、S/N比に起因した誤判定の可能性が低減されるという利点がある。
音声信号Vの区分には、以上の例示の他にも公知の技術が任意に採用される。例えば、S/N比や音量と閾値との大小のみに応じて音声信号Vを発音区間PAと非発音区間PBとに区分する構成(音声区分部12が第1処理のみを実行する構成)も採用される。また、発音区間PAと非発音区間PBとを区別する必要は必ずしもない。例えば、包絡線Eの谷部Dのみを境界として音声信号Vを複数の区間に区分する構成(音声区分部12が第2処理のみを実行する構成)も採用される。
以上の各形態においては記憶装置30に予め記憶された音声信号Vを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Vや通信網を経由して順次に供給される音声信号Vを対象として実時間的に処理を実行してもよい。
音声信号Vが表す音の種類は人間の発声音に限定されない。例えば、複数種の楽器が順次に演奏されたときの演奏音を採取した音声信号Vを音声処理装置による処理の対象とすれば、各楽器の演奏音の区間を楽器の種類毎に複数のクラスタに分類することが可能となる。
Claims (6)
- 第1音声信号と第2音声信号との類否の指標となるVQクロス歪を算定する装置であって、
前記第1音声信号および前記第2音声信号の各々について特徴ベクトル系列と当該特徴ベクトル系列に対応したVQ符号帳とを記憶する記憶手段と、
前記第1音声信号のVQ符号帳と前記第2音声信号の特徴ベクトル系列との第1VQ歪、前記第2音声信号のVQ符号帳と前記第1音声信号の特徴ベクトル系列との第2VQ歪、前記第1音声信号のVQ符号帳と当該第1音声信号の特徴ベクトル系列との第3VQ歪、および、前記第2音声信号のVQ符号帳と当該第2音声信号の特徴ベクトル系列との第4VQ歪を算定する第1算定手段と、
前記第1VQ歪または前記第2VQ歪が大きいほどVQクロス歪が大きく、前記第3VQ歪または前記第4VQ歪が大きいほどVQクロス歪が小さくなるように、前記第1VQ歪と前記第2VQ歪と前記第3VQ歪と前記第4VQ歪とに基づいてVQクロス歪を算定する第2算定手段と
を具備する音声処理装置。 - 前記第2算定手段は、前記第1VQ歪から前記第3VQ歪を減算した数値と前記第2VQ歪から前記第4VQ歪を減算した数値との加算に基づいてVQクロス歪を算定する
請求項1の音声処理装置。 - 前記第2算定手段は、前記第1VQ歪を前記第3VQ歪で除算した数値と前記第2VQ歪を前記第4VQ歪で除算した数値との加算に基づいてVQクロス歪を算定する
請求項1の音声処理装置。 - 音声信号を時間軸上で可変長に区分した複数の区間を複数のクラスタに分類する装置であって、
前記複数の区間の各々について音声信号の特徴ベクトル系列と当該特徴ベクトル系列に対応したVQ符号帳とを記憶する記憶手段と、
前記複数の区間の分類先となる対象クラスタを順次に指定するクラスタ指定手段と、
前記対象クラスタに分類された区間の特徴ベクトル系列とVQ符号帳とを含むクラスタ情報を生成するクラスタ情報生成手段と、
前記対象クラスタの指定中に未分類の前記各区間を時間の長い順番で順次に選択区間として選択する区間選択手段と、
前記選択区間のVQ符号帳と前記対象クラスタの特徴ベクトル系列との第1VQ歪、前記対象クラスタのVQ符号帳と前記選択区間の特徴ベクトル系列との第2VQ歪、前記選択区間のVQ符号帳と当該選択区間の特徴ベクトル系列との第3VQ歪、および、前記対象クラスタのVQ符号帳と当該対象クラスタの特徴ベクトル系列との第4VQ歪を算定する第1算定手段と、
前記第1VQ歪または前記第2VQ歪が大きいほどVQクロス歪が大きく、前記第3VQ歪または前記第4VQ歪が大きいほどVQクロス歪が小さくなるように、前記第1VQ歪と前記第2VQ歪と前記第3VQ歪と前記第4VQ歪とに基づいて、前記選択区間と前記対象クラスタとのVQクロス歪を算定する第2算定手段と、
前記選択区間と前記対象クラスタとの前記VQクロス歪が閾値を下回る場合に当該選択区間を当該対象クラスタに分類する区間分類手段と、
前記選択区間と前記対象クラスタとの前記VQクロス歪が閾値を下回る場合に、前記選択区間の特徴ベクトル系列に基づいて前記対象クラスタのクラスタ情報を更新する更新手段と
を具備する音声処理装置。 - 音声信号を時間軸上で区分した複数の区間の各々について音声信号の特徴ベクトル系列と当該特徴ベクトル系列に対応したVQ符号帳とを記憶する記憶手段と、
前記複数の区間のなかから第1区間と第2区間とを選択する複数の組合せの各々について、前記第1区間のVQ符号帳と前記第2区間の特徴ベクトル系列との第1VQ歪、前記第2区間のVQ符号帳と前記第1区間の特徴ベクトル系列との第2VQ歪、前記第1区間のVQ符号帳と当該第1区間の特徴ベクトル系列との第3VQ歪、および、前記第2区間のVQ符号帳と当該第2区間の特徴ベクトル系列との第4VQ歪を算定する第1算定手段と、
前記複数の組合せの各々について前記第1区間と前記第2区間とにおける音声信号の類否の指標となるVQクロス歪を算定する手段であって、前記第1VQ歪または前記第2VQ歪が大きいほどVQクロス歪が大きく、前記第3VQ歪または前記第4VQ歪が大きいほどVQクロス歪が小さくなるように、前記第1VQ歪と前記第2VQ歪と前記第3VQ歪と前記第4VQ歪とに基づいてVQクロス歪を算定する第2算定手段と、
前記複数の区間の各々と当該区間に対するVQクロス歪が最も小さい区間とが同じクラスタに属するように前記複数の区間を複数のクラスタに分類する区間分類手段と
を具備する音声処理装置。 - 第1音声信号のVQ符号帳と第2音声信号の特徴ベクトル系列との第1VQ歪、前記第2音声信号のVQ符号帳と前記第1音声信号の特徴ベクトル系列との第2VQ歪、前記第1音声信号のVQ符号帳と当該第1音声信号の特徴ベクトル系列との第3VQ歪、および、前記第2音声信号のVQ符号帳と当該第2音声信号の特徴ベクトル系列との第4VQ歪を算定する第1算定処理と、
前記第1VQ歪または前記第2VQ歪が大きいほどVQクロス歪が大きく、前記第3VQ歪または前記第4VQ歪が大きいほどVQクロス歪が小さくなるように、前記第1VQ歪と前記第2VQ歪と前記第3VQ歪と前記第4VQ歪とに基づいてVQクロス歪を算定する第2算定処理と
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007219929A JP4967928B2 (ja) | 2007-08-27 | 2007-08-27 | 音声処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007219929A JP4967928B2 (ja) | 2007-08-27 | 2007-08-27 | 音声処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009053430A true JP2009053430A (ja) | 2009-03-12 |
JP4967928B2 JP4967928B2 (ja) | 2012-07-04 |
Family
ID=40504568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007219929A Expired - Fee Related JP4967928B2 (ja) | 2007-08-27 | 2007-08-27 | 音声処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4967928B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020095210A (ja) * | 2018-12-14 | 2020-06-18 | コニカミノルタ株式会社 | 議事録出力装置および議事録出力装置の制御プログラム |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07248791A (ja) * | 1994-03-11 | 1995-09-26 | N T T Data Tsushin Kk | 話者照合方法及び装置 |
JPH08123475A (ja) * | 1994-10-28 | 1996-05-17 | N T T Data Tsushin Kk | 話者照合方法及び装置 |
JPH08286692A (ja) * | 1995-04-12 | 1996-11-01 | N T T Data Tsushin Kk | 話者照合方法および装置 |
JPH1185182A (ja) * | 1997-09-16 | 1999-03-30 | Kokusai Denshin Denwa Co Ltd <Kdd> | 話者認識方法及び装置 |
JP2002169592A (ja) * | 2000-11-29 | 2002-06-14 | Sony Corp | 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム |
WO2006087854A1 (ja) * | 2004-11-25 | 2006-08-24 | Sharp Kabushiki Kaisha | 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム |
JP2009020460A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2009020458A (ja) * | 2007-07-13 | 2009-01-29 | Univ Waseda | 音声処理装置およびプログラム |
JP2009020459A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
-
2007
- 2007-08-27 JP JP2007219929A patent/JP4967928B2/ja not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07248791A (ja) * | 1994-03-11 | 1995-09-26 | N T T Data Tsushin Kk | 話者照合方法及び装置 |
JPH08123475A (ja) * | 1994-10-28 | 1996-05-17 | N T T Data Tsushin Kk | 話者照合方法及び装置 |
JPH08286692A (ja) * | 1995-04-12 | 1996-11-01 | N T T Data Tsushin Kk | 話者照合方法および装置 |
JPH1185182A (ja) * | 1997-09-16 | 1999-03-30 | Kokusai Denshin Denwa Co Ltd <Kdd> | 話者認識方法及び装置 |
JP2002169592A (ja) * | 2000-11-29 | 2002-06-14 | Sony Corp | 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム |
WO2006087854A1 (ja) * | 2004-11-25 | 2006-08-24 | Sharp Kabushiki Kaisha | 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム |
JP2009020460A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2009020458A (ja) * | 2007-07-13 | 2009-01-29 | Univ Waseda | 音声処理装置およびプログラム |
JP2009020459A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020095210A (ja) * | 2018-12-14 | 2020-06-18 | コニカミノルタ株式会社 | 議事録出力装置および議事録出力装置の制御プログラム |
JP7259307B2 (ja) | 2018-12-14 | 2023-04-18 | コニカミノルタ株式会社 | 議事録出力装置および議事録出力装置の制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4967928B2 (ja) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9009048B2 (en) | Method, medium, and system detecting speech using energy levels of speech frames | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
US9536523B2 (en) | Method and system for identification of speech segments | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP5949550B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
JP4973352B2 (ja) | 音声処理装置およびプログラム | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US7650281B1 (en) | Method of comparing voice signals that reduces false alarms | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JP2007240589A (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
Grewal et al. | Isolated word recognition system for English language | |
JP6056394B2 (ja) | 音声処理装置 | |
JP4967928B2 (ja) | 音声処理装置およびプログラム | |
JP4877114B2 (ja) | 音声処理装置およびプログラム | |
Sanchis et al. | Improving utterance verification using a smoothed naive bayes model | |
JP2022067223A (ja) | 生成装置および生成方法 | |
JP2002516419A (ja) | 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置 | |
JP4877112B2 (ja) | 音声処理装置およびプログラム | |
JP4349415B2 (ja) | 音信号処理装置およびプログラム | |
JPH04273298A (ja) | 音声認識装置 | |
JP5272141B2 (ja) | 音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100622 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120306 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120319 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |