JP5293329B2 - 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 - Google Patents

音声信号評価プログラム、音声信号評価装置、音声信号評価方法 Download PDF

Info

Publication number
JP5293329B2
JP5293329B2 JP2009076186A JP2009076186A JP5293329B2 JP 5293329 B2 JP5293329 B2 JP 5293329B2 JP 2009076186 A JP2009076186 A JP 2009076186A JP 2009076186 A JP2009076186 A JP 2009076186A JP 5293329 B2 JP5293329 B2 JP 5293329B2
Authority
JP
Japan
Prior art keywords
frames
voice
frame
speech
stationary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009076186A
Other languages
English (en)
Other versions
JP2010230814A (ja
Inventor
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009076186A priority Critical patent/JP5293329B2/ja
Priority to US12/730,920 priority patent/US8532986B2/en
Publication of JP2010230814A publication Critical patent/JP2010230814A/ja
Application granted granted Critical
Publication of JP5293329B2 publication Critical patent/JP5293329B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本発明は、音声信号の評価を行う音声信号評価プログラム、音声信号評価装置、音声信号評価方法に関するものである。
雑音無しの原音声信号と評価対象音声信号とを用いる客観音声品質評価技術にはPESQ(Perceptual Evaluation of Speech Quality)をはじめとする従来技術が存在する(例えば、特許文献1,2参照)。
特開2001−309483号公報 特開平7−84596号公報
しかしながら、従来の評価試験は、音声信号処理結果である処理音に対して、比較対象とする原音を必要とする。音声区間に関しては、評価試験を行う際の原音が存在するケースが多い。しかし、非音声区間(雑音等)に関しては、原音が存在しない場合が多い。その場合、原音と比較する評価方式は、非音声区間の品質を評価することはできないという問題がある。
本発明は上述した問題点を解決するためになされたものであり、音声信号における非音声の評価を行う音声信号評価プログラム、音声信号評価装置、音声信号評価方法を提供することを目的とする。
上述した課題を解決するため、本発明の一態様は、記憶部に記憶された音声信号から所定長のフレームを複数取得し、フレームに音声が存在することを示す音声条件に基づいて、複数のフレームから、音声条件を満たすフレームである音声フレームと音声条件を満たさないフレームである非音声フレームとを夫々複数検出し、複数の非音声フレームの夫々のスペクトルを算出し、複数の非音声フレームの夫々である第1非音声フレームのスペクトルと第1非音声フレームより過去の第2非音声フレームのスペクトルとに基づいて、第1非音声フレームにおけるスペクトルの変化を示すスペクトル変化量を算出し、変化量により非音声フレームが非定常であることを示す非定常条件に基づいて、複数の非音声フレームから、変化量が非定常条件を満たす非音声フレームである非定常フレームを検出することをコンピュータに実行させる。
また、本発明の一態様は、記憶部に記憶された音声信号から所定長のフレームを複数取得する取得部と、フレームに音声が存在することを示す音声条件に基づいて、複数のフレームから、音声条件を満たすフレームである音声フレームと音声条件を満たさないフレームである非音声フレームとを夫々複数検出する第1検出部と、複数の非音声フレームの夫々のスペクトルを算出するスペクトル算出部と、複数の非音声フレームの夫々である第1非音声フレームのスペクトルと第1非音声フレームより過去の第2非音声フレームのスペクトルとに基づいて、第1非音声フレームにおけるスペクトルの変化を示すスペクトル変化量を算出するスペクトル変化量算出部と、変化量により非音声フレームが非定常であることを示す非定常条件に基づいて、複数の非音声フレームから、変化量が非定常条件を満たす非音声フレームである非定常フレームを検出する第2検出部とを有する。
また、本発明の一態様は、記憶部に記憶された音声信号から所定長のフレームを複数取得し、フレームに音声が存在することを示す音声条件に基づいて、複数のフレームから、音声条件を満たすフレームである音声フレームと音声条件を満たさないフレームである非音声フレームとを夫々複数検出し、複数の非音声フレームの夫々のスペクトルを算出し、複数の非音声フレームの夫々である第1非音声フレームのスペクトルと第1非音声フレームより過去の第2非音声フレームのスペクトルとに基づいて、第1非音声フレームにおけるスペクトルの変化を示すスペクトル変化量を算出し、変化量により非音声フレームが非定常であることを示す非定常条件に基づいて、複数の非音声フレームから、変化量が非定常条件を満たす非音声フレームである非定常フレームを検出することを実行する。
開示の音声信号評価プログラム、音声信号評価装置、音声信号評価方法によれば、音声信号における非音声の評価を行うことができる。
本実施の形態における音声信号評価装置の機能を示すブロック図である。 本実施の形態における音声信号評価装置の構成を示すブロック図である。 本実施の形態における音声信号評価装置の動作を示すフローチャートである。 音声信号波形及びラベルデータを示す図である。 第3の非定常判定閾値設定処理におけるスペクトル時間変化率差分を示す図である。 第3の非定常判定閾値設定処理を用いる場合の音声信号評価装置の動作を示すフローチャートである。 Long区間とShort区間の一例を示す波形図である。 時系列として表示されたスペクトル時間変化率の一例を示す波形図である。 本発明が適用されるコンピュータシステムの一例を示す図である。
以下、本発明の実施の形態について図面を参照しつつ説明する。
本実施の形態における音声信号評価装置の構成について以下に説明する。
図1は、本実施の形態における音声信号評価装置の機能を示すブロック図である。この音声信号評価装置1は、取得部10、区間判定部11、区間振幅比算出部12、FFT(Fast Fourier Transform)13、振幅スペクトル算出部14、時間変化率算出部15、非定常率算出部16、時間変化率表示部17、非定常率表示部18を有する。
図2は、本実施の形態における音声信号評価装置の構成を示すブロック図である。コンピュータ800は、CPU(Central Processing Unit)801、記憶部802、表示部803、操作部804を有する。
記憶部802は、音声信号評価装置1の機能が表された音声信号評価プログラムを記憶する。CPU801は、記憶部802に記憶された音声信号評価プログラムを実行する。この動作により、コンピュータ800は、音声信号評価装置1として機能する。
操作部804は、ユーザからの指示を取得する。表示部803は、音声信号評価プログラムによる評価結果を表示する。記憶部802は、更に、予め収録された音声信号である評価対象データを記憶する。
音声信号評価装置1の動作について以下に説明する。
図3は、本実施の形態における音声信号評価装置1の動作を示すフローチャートである。
取得部10は、記憶部802内の評価対象データを所定の長さのフレーム毎に読み出し、区間判定部11は、音声条件に基づいて、各フレームが音声区間と非音声区間のいずれかの区間であるかを判定し、判定結果をラベルデータとして記憶部802へ書き込む(S11)。音声条件の具体例として、区間判定部11は、評価対象データの波形を読み込み、波形の振幅が所定の有声閾値以上の場合は(音声が存在する)音声区間と判定し、波形の振幅が有声閾値を超えない場合を非音声区間と判定する。フレームの長さは、FFT13のFFT長であり、例えば2のN乗(Nは整数)である。
図4は、音声信号波形及びラベルデータを示す図である。この図において、横軸は時間を示し、縦軸は振幅を示す。ラベルデータとしてVとUを示す。V(Voiced)が付された区間は音声区間を示し、U(Unvoiced)が付された区間は非音声区間を示す。なお、音声区間は音声と雑音の両方を含み、非音声区間は雑音のみを含む。
取得部10は、記憶部802内の評価対象データから1つのフレームを読み出し、FFT13は、読み出したフレームのFFTを行って周波数領域信号に変換して記憶部802へ書き込む(S21)。以下、ここで読み出したフレームを現フレームとする。次回の処理S21において、取得部10は、現フレームの次のフレームを読み出して新たな現フレームとする。
振幅スペクトル算出部14は、記憶部802内の周波数領域信号を読み出し、読み出した周波数領域信号から振幅スペクトルを算出して記憶部802へ書き込む(S22)。
時間変化率算出部15は、記憶部802内の現フレームのラベルデータを読み出し、読み出したラベルデータにより現フレームが音声区間であるか否かの判定を行う(S23)。現フレームが音声区間である場合(S23,Y)、時間変化率算出部15は、このフローを処理S21へ移行させ、次のフレームに対する処理を行う。現フレームが非音声区間である場合(S23,N)、時間変化率算出部15は、このフローを次の処理へ移行させる。
時間変化率算出部15は、記憶部802内の現フレームの振幅スペクトルと現フレーム(第1非音声フレーム)の直前の非音声フレームである前フレーム(第2非音声フレーム)の振幅スペクトルとを読み出し、読み出した振幅スペクトルに基づいてスペクトル時間変化量を算出して記憶部802へ書き込む(S24)。スペクトル変化量の具体例として、ここではスペクトル時間変化率を用いる。スペクトル時間変化率は、現フレームの振幅スペクトルから前フレームの振幅スペクトルへの変化量に基づく値である。
区間振幅比算出部12は、音声区間と非音声区間の振幅比を算出して区間振幅比とし、区間振幅比に基づいて非定常性を判定する非定常判定閾値を決定する(S31)。非音声区間の音量が全体的に小さく、音声区間と非音声区間の振幅比が大きい場合にスペクトル時間変化率に対する感度が高くなりすぎてしまうため、区間振幅比算出部12は非定常判定閾値を設定する。
非定常率算出部16は、非定常条件に基づいて現フレームが非定常フレームであるか否かの判定を行う。非定常条件の具体例として、非定常率算出部16は、現フレームのスペクトル時間変化率が非定常判定閾値を超えたか否かの判定を行う(S41)。現フレームのスペクトル時間変化率が非定常判定閾値を超えた場合(S41,Y)、現フレームが非定常フレームであると判定し(S42)、そうでない場合(S41,N)、現フレームが定常フレームであると判定する(S43)。ここで、非定常フレームは、フレーム内の音声信号が非定常的であるフレームである。定常フレームは、フレーム内の音声信号が定常的であるフレームである。
非定常率算出部16は、全てのフレームに対する処理が終了したか否かの判定を行う(S44)。全てのフレームに対する処理が終了していない場合(S44,N)、非定常率算出部16は、このフローを処理S21へ移行させ、次のフレームに対する処理を行わせる。全てのフレームに対する処理が終了した場合(S44,Y)、非定常率算出部16は、このフローを次の処理へ移行させる。
非定常率算出部16は、非音声区間で非定常であると判定されたフレーム数を、非音声区間の全フレーム数で割った値を算出して非定常率とする(S51)。あるいは、非定常率算出部16は、非音声区間で定常であると判定されたフレーム数を、非音声区間の全フレーム数で割った値を定常率としても良い。
時間変化率表示部17は、記憶部802内のスペクトル時間変化率を読み出し、スペクトル時間変化率を時系列とし、非定常率表示部18は、評価値として非定常率を表示する(S52)。
以上で、音声信号評価装置1の動作のフローは終了する。
上述の時間変化率算出部15の動作の詳細について以下に説明する。
時間変化率算出部15の動作の具体例として、第1のスペクトル時間変化率算出処理、第2のスペクトル時間変化率算出処理、第3のスペクトル時間変化率算出処理、の3種類を挙げて説明する。ここで、時間t、周波数を示すサンプル番号をiとし、角周波数ω(i)における振幅スペクトルをA(t,i)とする。
第1のスペクトル時間変化率算出処理において、時間変化率算出部15は、現フレームの振幅スペクトルと前フレームの振幅スペクトルとの間の周波数毎の差分を算出して差分スペクトルとし、差分スペクトルの全周波数にわたる総和を算出してF11とし、現フレームの振幅スペクトルの全周波数にわたる総和を算出してF12とし、F11をF12で除した値をスペクトル時間変化率とする。時間tにおけるスペクトル時間変化率は、次式(1)で表される。
Figure 0005293329
第2のスペクトル時間変化率算出処理において、時間変化率算出部15は、現フレームの振幅スペクトルと前フレームの振幅スペクトルとの間の周波数毎の差分を算出して差分スペクトルとし、差分スペクトルの全周波数にわたる最大値にフレーム数を乗じた値を算出してF21とし、現フレームの振幅スペクトルの全周波数にわたる総和を算出してF22とし、F21をF22で除した値をスペクトル時間変化率とする。最大値を求める関数をMax()とすると、時間tにおけるスペクトル時間変化率は、次式(2)で表される。
Figure 0005293329
第3のスペクトル時間変化率算出処理において、時間変化率算出部15は、現フレームの振幅スペクトルと前フレームの振幅スペクトルとの間の周波数毎の差分を算出して差分スペクトルとし、聴覚特性に基づく重み係数αを差分スペクトルに乗じた値を算出して重み付け差分スペクトルとし、重み付け差分スペクトルの全周波数にわたる総和を算出してF31とし、現フレームの振幅スペクトルの全周波数にわたる総和を算出してF32とし、F31をF32で除した値を算出してスペクトル時間変化率とする。時間tにおけるスペクトル時間変化率は、次式(3)で表される。
Figure 0005293329
上述の区間振幅比算出部12の動作の詳細について以下に説明する。
区間振幅比算出部12による非定常判定閾値の設定方法の具体例として、第1の非定常判定閾値設定処理、第2の非定常判定閾値設定処理、第3の非定常判定閾値設定処理、の3種類を挙げて説明する。
第1の非定常判定閾値設定処理において、区間振幅比算出部12は、区間振幅比と所定の区間振幅比閾値との比較により、非定常判定閾値を決定する。例えば、区間振幅比算出部12は、区間振幅比が区間振幅比閾値より大きい場合、非定常判定閾値を100とし、区間振幅比が区間振幅比閾値より小さい場合、非定常判定閾値を70とする。
第2の非定常判定閾値設定処理において、区間振幅比算出部12は、区間振幅比と所定の区間振幅比閾値との比較により、非定常判定閾値を決定する。例えば、区間振幅比をxとするとき、非定常判定閾値yは、次式(4)で表される。
y = f(x) (4)
関数f(x)は、例えば、比例定数αを用いて、次式(5)で表される。
y = α × x (5)
第3の非定常判定閾値設定処理について説明する。雑音種により、定常状態のスペクトル時間変化率のばらつきの大きさ(変化幅)に違いがある。スペクトル時間変化率のばらつきが大きい雑音種とスペクトル時間変化率のばらつきが小さい雑音種とでは、同じスペクトル時間変化率であっても聴感上の違いが生じる。それを反映するために、区間振幅比算出部12は、スペクトル時間変化率のばらつきの大きさに基づいて非定常判定閾値を設定する。
まず、区間振幅比算出部12は、非音声区間の全フレームにわたるスペクトル時間変化率の平均値を算出して平均スペクトル時間変化率とする。各フレームのスペクトル時間変化率と平均スペクトル時間変化率との差分を算出してスペクトル時間変化率差分とし、非音声区間の全フレームにわたるスペクトル時間変化率差分の平均値を算出して差分平均値zとする。
図5は、第3の非定常判定閾値設定処理におけるスペクトル時間変化率差分を示す図である。この図において、横軸は時間を表し、縦軸はスペクトル時間変化率を表す。更に、この図は、平均スペクトル時間変化率とある時点T1におけるスペクトル時間変化率差分D1と別の時点T2におけるスペクトル時間変化率差分D2とを示す。
非定常判定閾値yは、次式(6)で表される。
y = f(z) (6)
関数f(z)は、例えば、比例定数βを用いて、次式(7)で表される。
y = β × z (7)
第3の非定常判定閾値設定処理を用いる場合の音声信号評価装置1の動作について以下に説明する。
図6は、第3の非定常判定閾値設定処理を用いる場合の音声信号評価装置1の動作を示すフローチャートである。
処理S11〜S24は、図3のフローと同様である。
区間振幅比算出部12は、全てのフレームに対する処理が終了したか否かの判定を行う(S25)。全てのフレームに対する処理が終了していない場合(S25,N)、区間振幅比算出部12は、このフローを処理S21へ移行させ、次のフレームに対する処理を行わせる。全てのフレームに対する処理が終了した場合(S25,Y)、区間振幅比算出部12は、このフローを次の処理へ移行させる。
区間振幅比算出部12は、上述した第3の非定常判定閾値設定処理により非定常判定閾値を決定する(S32)。
処理S41〜S43は、図3のフローと同様である。
非定常率算出部16は、全てのフレームに対する処理が終了したか否かの判定を行う(S45)。全てのフレームに対する処理が終了していない場合(S45,N)、非定常率算出部16は、このフローを処理S41へ移行させ、次のフレームに対する処理を行わせる。全てのフレームに対する処理が終了した場合(S45,Y)、非定常率算出部16は、このフローを次の処理へ移行させる。
処理S51〜S52は、図3のフローと同様である。
上述の第1の非定常判定閾値設定処理と第3の非定常判定閾値設定処理、第2の非定常判定閾値設定処理と第3の非定常判定閾値設定処理は、それぞれ組み合わせることも可能である。
上述の非定常率算出部16の動作の詳細について以下に説明する。
非音声区間には、文と文の間の長い非音声区間(Long区間)と、呼気段落間や無声破裂音の短い非音声区間(Short区間)がある。図7は、Long区間とShort区間の一例を示す波形図である。非定常と判定されたフレームがLong区間にある場合、人間の聴感は、そのフレームを雑音区間の非定常性と認識する。一方、非定常と判定されたフレームがShort区間にある場合、聴感は、そのフレームを音声区間の非定常性と認識する。
その為、非定常率算出部16は、Long区間とShort区間に分けて、非定常率を算出しても良い。この場合、非定常率算出部16は、非音声区間の長さを元にLong区間とShort区間の判定を行い、Long区間とShort区間のそれぞれについて非定常率を算出する。ここで、非定常率算出部16は、長さが所定の非音声区間長閾値以上の非音声区間をLong区間と判定し、長さが非音声区間長閾値より短い非音声区間をShort区間と判定する。
上述の時間変化率表示部17の動作の詳細について以下に説明する。
図8は、時系列として表示されたスペクトル時間変化率の一例を示す波形図である。この図において、横軸は時間を示す。上段の波形W1において、縦軸は評価対象データの振幅を示す。下段の波形W2において、縦軸はスペクトル時間変化率を示す。W1とW2における横軸は共通の時間軸であり、W1とW2は対応付けて表示される。更に、この図は、W2において、非定常判定閾値と3箇所の非定常フレームとを示す。上述したように、非定常フレームは、スペクトル時間変化率が非定常判定閾値を超えた非音声フレームである。
なお、時間変化率表示部17は、非定常率算出部16により判定された各フレーム毎の定常または非定常の判定結果を、時系列として表示しても良い。例えば、非定常と判定された場合は1、定常と判定された場合は0を、時系列として表示する。
上述の非定常率表示部18の動作の詳細について以下に説明する。
非定常率表示部18による評価値の表示形式は、1つの評価対象データに対して1つの評価値であっても良いし、Long区間及びShort区間のそれぞれの評価値であっても良い。
非定常率表示部18は、評価値として非定常率そのものを表示しても良いが、非定常率を「よい/普通/悪い」等のような言葉に変換した値を評価値として表示しても良い。この場合も、1つの評価対象データに対して1つの評価値であっても良いし、Long区間及びShort区間のそれぞれの評価値であっても良い。
また、非定常率表示部18がLong区間及びShort区間のそれぞれの非定常率を「よい/普通/悪い」等のような言葉に変換する場合、聴感上の結果と合致させるために、非定常率の変換の基準がLong区間及びShort区間において異なることが有効である。例えば、Long区間において、非定常率が1.0%未満のケースは「よい」に、非定常率が1.0%以上2.0%未満のケースは「普通」に、非定常率が2.0%以上のケースは「悪い」にそれぞれ変換される。また、Short区間において、非定常率が4.0%未満のケースは「よい」に、4.0%以上8.0%未満のケースは「普通」に、8.0%以上の場合のケースは「悪い」にそれぞれ変換される。
なお、音声信号評価装置1は、上述の振幅スペクトルの代わりにパワースペクトルを用いても良い。
本実施の形態によれば、様々な雑音交じりの原音声信号に対して指向性受音処理や雑音抑圧処理等の音声信号処理を行う場合に、非音声区間のスペクトル時間変化率を算出し、このスペクトル時間変化率に基づいて非音声区間の非定常性を算出することにより、非音声区間の品質を評価することができる。本実施の形態によれば、主観評価とマッチした定量的な評価値(客観評価値)を求めることができる。本実施の形態によれば、比較対象とする原音がなくても、様々な雑音交じりの音声信号のみで、非音声区間の品質を定量化することができる。
本実施の形態によれば、周波数領域で表される振幅スペクトルの変化率を算出することで、非音声区間の非定常性を検出することができる。これにより、非音声区間の非定常ノイズや、音響処理によって生じたミュージカルノイズ等、これまで聞かないと分からなかった非定常雑音の箇所の特定が可能となる。また、本実施の形態において評価対象データとなる音声信号は、音声信号処理された音声信号に限らず、雑音混じりの音声信号全般である。
また、本実施の形態における音声信号品質評価方法は、評価試験のみならず、音声信号処理における雑音抑圧量の向上や音質向上を目指す場合のチューニングツール、リアルタイムで学習しながらパラメータを変更する雑音抑圧装置、雑音環境測定評価ツール、雑音環境測定した結果を基に、最適な雑音抑圧処理を選択する雑音抑圧装置、等に利用することが可能である。
なお、本発明は以下に示すようなコンピュータシステムにおいて適用可能である。図9は、本発明が適用されるコンピュータシステムの一例を示す図である。この図に示すコンピュータシステム900は、CPUやディスクドライブ等を内蔵した本体部901、本体部901からの指示により画像を表示するディスプレイ902、コンピュータシステム900に種々の情報を入力するためのキーボード903、ディスプレイ902の表示画面902a上の任意の位置を指定するマウス904及び外部のデータベース等にアクセスして他のコンピュータシステムに記憶されているプログラム等をダウンロードする通信装置905を有する。通信装置905は、ネットワーク通信カード、モデムなどが考えられる。
上述したような、音声信号評価装置を構成するコンピュータシステムにおいて上述した各ステップを実行させるプログラムを、音声信号評価プログラムとして提供することができる。このプログラムは、コンピュータシステムにより読み取り可能な記録媒体に記憶させることによって、音声信号評価装置を構成するコンピュータシステムに実行させることが可能となる。上述した各ステップを実行するプログラムは、ディスク910等の可搬型記録媒体に格納されるか、通信装置905により他のコンピュータシステムの記録媒体906からダウンロードされる。また、コンピュータシステム900に少なくとも音声信号評価機能を持たせる音声信号評価プログラムは、コンピュータシステム900に入力されてコンパイルされる。このプログラムは、コンピュータシステム900を、音声信号評価機能を有する音声信号評価システムとして動作させる。また、このプログラムは、例えばディスク910等のコンピュータ読み取り可能な記録媒体に格納されていても良い。ここで、コンピュータシステム900により読み取り可能な記録媒体としては、ROMやRAM等のコンピュータに内部実装される内部記憶装置、ディスク910やフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータシステム並びにそのデータベースや、通信装置905のような通信手段を介して接続されるコンピュータシステムでアクセス可能な各種記録媒体を含む。
本体部901は、上述のCPU801及び記憶部802に対応する。
第1検出部は、実施の形態における区間判定部11に対応する。スペクトル算出部は、実施の形態におけるFFT13及び振幅スペクトル算出部14に対応する。スペクトル変化量算出部は、実施の形態における時間変化率算出部15に対応する。第2検出部は、実施の形態における非定常率算出部16に対応する。
本発明は、その精神または主要な特徴から逸脱することなく、他の様々な形で実施することができる。そのため、前述の実施の形態は、あらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって示すものであって、明細書本文には、何ら拘束されない。更に、特許請求の範囲の均等範囲に属する全ての変形、様々な改良、代替および改質は、全て本発明の範囲内のものである。
以上の実施の形態に関し、更に以下の付記を開示する。
(付記1)
記憶部に記憶された音声信号から所定長のフレームを複数取得し、
前記フレームに音声が存在することを示す音声条件に基づいて、複数の前記フレームから、前記音声条件を満たすフレームである音声フレームと前記音声条件を満たさないフレームである非音声フレームとを夫々複数検出し、
複数の前記非音声フレームの夫々のスペクトルを算出し、
複数の前記非音声フレームの夫々である第1非音声フレームのスペクトルと第1非音声フレームより過去の非音声フレームである第2非音声フレームのスペクトルとに基づいて、第1非音声フレームのスペクトルの変化を示すスペクトル変化量を算出し、
前記変化量により非音声フレームが非定常であることを示す非定常条件に基づいて、複数の前記非音声フレームから、前記変化量が前記非定常条件を満たす非音声フレームである非定常フレームを検出する、
ことをコンピュータに実行させる音声信号評価プログラム。
(付記2)
第1非音声フレームの変化量は、第1非音声フレームより過去の第2非音声フレームのスペクトルと前記第1非音声フレームのスペクトルとの差分の絶対値に基づいて算出される、
付記1に記載の音声信号評価プログラム。
(付記3)
第1非音声フレームの変化量は、第1非音声フレームのスペクトルと前記差分の絶対値とに基づいて算出される、
付記2に記載の音声信号評価プログラム。
(付記4)
第1非音声フレームの変化量は、前記差分の絶対値を全周波数に亘って加算した値と第1非音声フレームのスペクトルを全周波数に亘って加算した値との比率に基づいて算出される、
付記3に記載の音声信号評価プログラム。
(付記5)
第1非音声フレームの変化量は、前記差分の絶対値を全周波数に亘る最大値と第1非音声フレームのスペクトルを全周波数に亘って加算した値との比率に基づいて算出される、
付記3に記載の音声信号評価プログラム。
(付記6)
第1非音声フレームの変化量は、前記差分の絶対値に聴覚特性に基づく重み付けを行って全周波数に亘って加算した値と第1非音声フレームのスペクトルを全周波数に亘って加算した値との比率に基づいて算出される、
付記3に記載の音声信号評価プログラム。
(付記7)
更に、
前記非音声フレームの数と前記非定常フレームの数との比率である非定常率を算出する、
ことをコンピュータに実行させる
付記1に記載の音声信号評価プログラム。
(付記8)
更に、
連続した非音声フレームの期間が所定の期間閾値以上である場合に前記連続した非音声フレームを長期非音声フレームとすると共に前記連続した非音声フレームの期間が前記期間閾値より小さい場合に前記連続した非音声フレームを短期非音声フレームとし、前記長期非音声フレームの数と前記長期非音声フレームのうち非定常フレームの数との比率を算出すると共に前記短期非音声フレームの数と前記短期非音声フレームのうち非定常フレームの数との比率を算出する、
ことをコンピュータに実行させる
付記1に記載の音声信号評価プログラム。
(付記9)
前記非定常条件は、第1非音声フレームの変化量が、設定された変化量閾値を超えた場合である、
付記1に記載の音声信号評価プログラム。
(付記10)
更に、前記音声フレームと前記非音声フレームとの振幅比を算出し、前記振幅比に基づいて前記変化量閾値を決定する、
ことをコンピュータに実行させる
付記9に記載の音声信号評価プログラム。
(付記11)
更に、全ての前記非音声フレームの平均のスペクトルを算出し、前記平均のスペクトルに対する前記非音声フレームのスペクトルのばらつきの大きさを算出し、前記ばらつきの大きさに基づいて前記変化量閾値を決定する、
ことをコンピュータに実行させる
付記9に記載の音声信号評価プログラム。
(付記12)
前記スペクトルは、振幅スペクトル又はパワースペクトルである、
付記1に記載の音声信号評価プログラム。
(付記13)
記憶部に記憶された音声信号から所定長のフレームを複数取得する取得部と、
前記フレームに音声が存在することを示す音声条件に基づいて、複数の前記フレームから、前記音声条件を満たすフレームである音声フレームと前記音声条件を満たさないフレームである非音声フレームとを夫々複数検出する第1検出部と、
複数の前記非音声フレームの夫々のスペクトルを算出するスペクトル算出部と、
複数の前記非音声フレームの夫々である第1非音声フレームのスペクトルと第1非音声フレームより過去の非音声フレームである第2非音声フレームのスペクトルとに基づいて、第1非音声フレームのスペクトルの変化を示すスペクトル変化量を算出するスペクトル変化量算出部と、
前記変化量により非音声フレームが非定常であることを示す非定常条件に基づいて、複数の前記非音声フレームから、前記変化量が前記非定常条件を満たす非音声フレームである非定常フレームを検出する第2検出部と、
を備える音声信号評価装置。
(付記14)
記憶部に記憶された音声信号から所定長のフレームを複数取得し、
前記フレームに音声が存在することを示す音声条件に基づいて、複数の前記フレームから、前記音声条件を満たすフレームである音声フレームと前記音声条件を満たさないフレームである非音声フレームとを夫々複数検出し、
複数の前記非音声フレームの夫々のスペクトルを算出し、
複数の前記非音声フレームの夫々である第1非音声フレームのスペクトルと第1非音声フレームより過去の非音声フレームである第2非音声フレームのスペクトルとに基づいて、第1非音声フレームのスペクトルの変化を示すスペクトル変化量を算出し、
前記変化量により非音声フレームが非定常であることを示す非定常条件に基づいて、複数の前記非音声フレームから、前記変化量が前記非定常条件を満たす非音声フレームである非定常フレームを検出する、
ことを実行する音声信号評価方法。
1 音声信号評価装置
11 区間判定部
12 区間振幅比算出部
13 FFT
14 振幅スペクトル算出部
15 時間変化率算出部
16 非定常率算出部
17 時間変化率表示部
18 非定常率表示部
800 コンピュータ
801 CPU
802 記憶部
803 表示部
804 操作部

Claims (6)

  1. 記憶部に記憶された音声信号から所定長のフレームを複数取得し、
    前記フレームに音声が存在することを示す音声条件に基づいて、複数の前記フレームから、前記音声条件を満たすフレームである音声フレームと前記音声条件を満たさないフレームである非音声フレームとを夫々複数検出し、
    複数の前記非音声フレームの夫々のスペクトルを算出し、
    複数の前記非音声フレームの夫々である第1非音声フレームのスペクトルと第1非音声フレームより過去の非音声フレームである第2非音声フレームのスペクトルとに基づいて、第1非音声フレームのスペクトルの変化を示すスペクトル変化量を算出し、
    前記変化量により非音声フレームが非定常であることを示す非定常条件に基づいて、複数の前記非音声フレームから、前記変化量が前記非定常条件を満たす非音声フレームである非定常フレームを検出し、
    連続した非音声フレームの期間が所定の期間閾値以上である場合に前記連続した非音声フレームを長期非音声フレームとすると共に前記連続した非音声フレームの期間が前記期間閾値より小さい場合に前記連続した非音声フレームを短期非音声フレームとし、前記長期非音声フレームの数と前記長期非音声フレームのうち非定常フレームの数との比率を算出すると共に前記短期非音声フレームの数と前記短期非音声フレームのうち非定常フレームの数との比率を算出する、
    ことをコンピュータに実行させる音声信号評価プログラム。
  2. 第1非音声フレームの変化量は、第1非音声フレームより過去の第2非音声フレームのスペクトルと前記第1非音声フレームのスペクトルとの差分の絶対値に基づいて算出される、
    請求項1に記載の音声信号評価プログラム。
  3. 更に、
    前記非音声フレームの数と前記非定常フレームの数との比率である非定常率を算出する、
    ことをコンピュータに実行させる
    請求項1または請求項2に記載の音声信号評価プログラム。
  4. 前記非定常条件は、第1非音声フレームの変化量が、設定された変化量閾値を超えた場合である、
    請求項1乃至請求項のいずれかに記載の音声信号評価プログラム。
  5. 記憶部に記憶された音声信号から所定長のフレームを複数取得する取得部と、
    前記フレームに音声が存在することを示す音声条件に基づいて、複数の前記フレームから、前記音声条件を満たすフレームである音声フレームと前記音声条件を満たさないフレームである非音声フレームとを夫々複数検出する第1検出部と、
    複数の前記非音声フレームの夫々のスペクトルを算出するスペクトル算出部と、
    複数の前記非音声フレームの夫々である第1非音声フレームのスペクトルと第1非音声フレームより過去の非音声フレームである第2非音声フレームのスペクトルとに基づいて、第1非音声フレームのスペクトルの変化を示すスペクトル変化量を算出するスペクトル変化量算出部と、
    前記変化量により非音声フレームが非定常であることを示す非定常条件に基づいて、複数の前記非音声フレームから、前記変化量が前記非定常条件を満たす非音声フレームである非定常フレームを検出する第2検出部と、
    連続した非音声フレームの期間が所定の期間閾値以上である場合に前記連続した非音声フレームを長期非音声フレームとすると共に前記連続した非音声フレームの期間が前記期間閾値より小さい場合に前記連続した非音声フレームを短期非音声フレームとし、前記長期非音声フレームの数と前記長期非音声フレームのうち非定常フレームの数との比率を算出すると共に前記短期非音声フレームの数と前記短期非音声フレームのうち非定常フレームの数との比率を算出する非定常率算出部と、
    を備える音声信号評価装置。
  6. 記憶部に記憶された音声信号から所定長のフレームを複数取得し、
    前記フレームに音声が存在することを示す音声条件に基づいて、複数の前記フレームから、前記音声条件を満たすフレームである音声フレームと前記音声条件を満たさないフレームである非音声フレームとを夫々複数検出し、
    複数の前記非音声フレームの夫々のスペクトルを算出し、
    複数の前記非音声フレームの夫々である第1非音声フレームのスペクトルと第1非音声フレームより過去の非音声フレームである第2非音声フレームのスペクトルとに基づいて、第1非音声フレームのスペクトルの変化を示すスペクトル変化量を算出し、
    前記変化量により非音声フレームが非定常であることを示す非定常条件に基づいて、複数の前記非音声フレームから、前記変化量が前記非定常条件を満たす非音声フレームである非定常フレームを検出し、
    連続した非音声フレームの期間が所定の期間閾値以上である場合に前記連続した非音声フレームを長期非音声フレームとすると共に前記連続した非音声フレームの期間が前記期間閾値より小さい場合に前記連続した非音声フレームを短期非音声フレームとし、前記長期非音声フレームの数と前記長期非音声フレームのうち非定常フレームの数との比率を算出すると共に前記短期非音声フレームの数と前記短期非音声フレームのうち非定常フレームの数との比率を算出する、
    ことを実行する音声信号評価方法。
JP2009076186A 2009-03-26 2009-03-26 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 Expired - Fee Related JP5293329B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009076186A JP5293329B2 (ja) 2009-03-26 2009-03-26 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
US12/730,920 US8532986B2 (en) 2009-03-26 2010-03-24 Speech signal evaluation apparatus, storage medium storing speech signal evaluation program, and speech signal evaluation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009076186A JP5293329B2 (ja) 2009-03-26 2009-03-26 音声信号評価プログラム、音声信号評価装置、音声信号評価方法

Publications (2)

Publication Number Publication Date
JP2010230814A JP2010230814A (ja) 2010-10-14
JP5293329B2 true JP5293329B2 (ja) 2013-09-18

Family

ID=42785342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009076186A Expired - Fee Related JP5293329B2 (ja) 2009-03-26 2009-03-26 音声信号評価プログラム、音声信号評価装置、音声信号評価方法

Country Status (2)

Country Link
US (1) US8532986B2 (ja)
JP (1) JP5293329B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5293817B2 (ja) * 2009-06-19 2013-09-18 富士通株式会社 音声信号処理装置及び音声信号処理方法
JP6439682B2 (ja) * 2013-04-11 2018-12-19 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
JP6337519B2 (ja) 2014-03-03 2018-06-06 富士通株式会社 音声処理装置、雑音抑圧方法、およびプログラム
TWI564791B (zh) * 2015-05-19 2017-01-01 卡訊電子股份有限公司 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體
JP6759927B2 (ja) * 2016-09-23 2020-09-23 富士通株式会社 発話評価装置、発話評価方法、および発話評価プログラム
US11176839B2 (en) 2017-01-10 2021-11-16 Michael Moore Presentation recording evaluation and assessment system and method
CN114694685A (zh) * 2022-04-12 2022-07-01 北京小米移动软件有限公司 语音质量评估方法、装置及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02272499A (ja) * 1989-04-13 1990-11-07 Ricoh Co Ltd 音声認識装置
JPH04115299A (ja) * 1990-09-05 1992-04-16 Matsushita Electric Ind Co Ltd 音声有音無音判定方法および装置
JPH04238399A (ja) * 1991-01-22 1992-08-26 Ricoh Co Ltd 音声認識装置
JPH0784596A (ja) 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 符号化音声の品質評価方法
JPH0990974A (ja) 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
JP2000163099A (ja) * 1998-11-25 2000-06-16 Brother Ind Ltd 雑音除去装置、音声認識装置および記憶媒体
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
JP3582712B2 (ja) 2000-04-19 2004-10-27 日本電信電話株式会社 収音方法および収音装置
US6832194B1 (en) * 2000-10-26 2004-12-14 Sensory, Incorporated Audio recognition peripheral system
JP3840928B2 (ja) 2001-07-17 2006-11-01 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
US7072828B2 (en) * 2002-05-13 2006-07-04 Avaya Technology Corp. Apparatus and method for improved voice activity detection
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
US7917356B2 (en) * 2004-09-16 2011-03-29 At&T Corporation Operating method for voice activity detection/silence suppression system
JP4413175B2 (ja) 2005-09-05 2010-02-10 日本電信電話株式会社 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体
JP4745916B2 (ja) 2006-06-07 2011-08-10 日本電信電話株式会社 雑音抑圧音声品質推定装置、方法およびプログラム
JP5505896B2 (ja) * 2008-02-29 2014-05-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 発話区間検出システム、方法及びプログラム
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications

Also Published As

Publication number Publication date
JP2010230814A (ja) 2010-10-14
US20100250246A1 (en) 2010-09-30
US8532986B2 (en) 2013-09-10

Similar Documents

Publication Publication Date Title
JP5293329B2 (ja) 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
JP5157852B2 (ja) 音声信号処理評価プログラム、音声信号処理評価装置
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
Sadjadi et al. Unsupervised speech activity detection using voicing measures and perceptual spectral flux
KR100744352B1 (ko) 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
KR100770839B1 (ko) 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
JP6423420B2 (ja) 帯域幅拡張方法および装置
JP5387459B2 (ja) 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
US20140177853A1 (en) Sound processing device, sound processing method, and program
JP2014123011A (ja) 雑音検出装置および方法、並びに、プログラム
CN109616098B (zh) 基于频域能量的语音端点检测方法和装置
JP4769673B2 (ja) オーディオ信号補間方法及びオーディオ信号補間装置
EP2927906B1 (en) Method and apparatus for detecting voice signal
US20110142256A1 (en) Method and apparatus for removing noise from input signal in noisy environment
CN104240696A (zh) 语音处理设备及方法
US9466291B2 (en) Voice retrieval device and voice retrieval method for detecting retrieval word from voice data
Ba et al. BaNa: A hybrid approach for noise resilient pitch detection
JP2014235345A (ja) 音声処理装置、方法およびプログラム
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
CN105336344B (zh) 杂音检测方法和装置
JPWO2004075074A1 (ja) カオス論的指標値計算システム
JP4630136B2 (ja) ストレス状態推定緩和装置及びそのプログラム
CN106024017A (zh) 语音检测方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130527

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees