JP2891259B2

JP2891259B2 - 音声区間検出装置

Info

Publication number: JP2891259B2
Application number: JP62079673A
Authority: JP
Inventors: 教幸藤本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1987-04-02
Filing date: 1987-04-02
Publication date: 1999-05-17
Anticipated expiration: 2014-05-17
Also published as: JPS63247798A

Description

【発明の詳細な説明】〔概要〕音声認識装置における音声区間検出装置において、音
声信号の語頭における音声区間しきい値を小さく設定し
て音声脱落の確率を下げ、語尾におけるしきい値を前記
しきい値より大きく設定してノイズ付加の確率を下げる
ようにしたものである。〔産業上の利用分野〕本発明は音声区間検出装置に関し、特に、電算機を使
用する音声認識における音声区間と無声区間およびノイ
ズとの識別を容易ならしめる検出装置に関する。〔従来の技術〕人間の発声した音声を電算機を使用して特徴抽出を行
い自動的に検出する方式は、既に広く応用されている。
その典型的な手法の一つとしては、連続発声した音声信
号から単音節や音韻に区分するセグメンテーションを行
ない、この単音節を音声認識するものである。単音節の
認識によってさらに高度な単語認識や会話音声の認識等
へ拡張していくことができる。現在のところ完成なセグ
メンテーションの行える方式はまだないが、例えば単音
節のパワー値が所定のしきい値を越えたものは音声とみ
なす方法は知られている。即ち、パワー値が発声の一定
時間（L_v）以上にわたってパワーしきい値（P_L）を越え
ているときはその区間を音声とみなす方法である。第５図（ａ）〜（ｃ）は音声信号のパワー値（Ｐ）と
発声時間（Ｔ）との関係を示すパターン例である。ここ
でT₀は音声区間である。（ａ）は例えば“あ",“お",
“も",“り”と発声した場合で、しきい値P_L以上で音声
区間のしきい値L_vについてすべての単音節のパワーが存
在するため認識に問題はない。（ｂ）の場合は、例え
ば、“あ",“い",“ち”と発声したとき、無音区間の時
間しきい値L_Sを設けて、しきい値L_S以下のときは“あ",
“い",“ち”は一回の発声によるものとみなしている。
このときの無音区間L_Sはパワーの低い（しきい値P_L以下
の）音声とみることができる。また、（ｃ）の場合は、
例えば、“さ",“っ",“ぽ",“ろ”と発声したときで、
“っ”の区間がしきい値P_L以下でありかつ時間しきい値
L_S以上であるため音声なのかノイズなのか判断しにく
い。第６図（ａ）〜（ｄ）は従来の検出方式を説明するパ
ターン図である。（ａ）は音声区間T₀がすべてしきい値
P_L以上であるため認識の問題はない。（ｂ）は区間T₁が
音声区間の時間しきい値L_v以下なのでノイズとみなし音
声区間としない。（ｃ）は区間T₂およびT₃がしきい値L_v
より大なので音声区間とみなし、区間T₄は無音区間のし
きい値L_S以下なのでノイズとはみなさない。結局この場
合には区間（T₂＋T₄＋T₃）が音声区間とみなされる。
（ｄ）は区間T₅とT₇がしきい値L_v以下なのでノイズと見
なされ、区間T₆はしきい値L_v以上なので音声区間と見な
される。〔発明が解決しようとする問題点〕しかしながら、上記のような方法により検出したとき
は次のような問題がある。即ち、音声信号の始まり（始
端部）では音声の脱落が起き易く、音声信号の終り（終
端部）ではノイズの付加が起き易いことである。このよ
うな始端部（もしくは語頭）と終端部（もしくは語尾）
とで異なる傾向が現われる要因には２つある。１つは、
日本語の場合単語の先頭音節は短かく語尾の音節は長め
に発声される傾向にあること、２つは、単語の終端部で
は発声が不安定となり、一度パワー値が低くなった後に
小さな山が多く現われることである。後者の場合は、発
声者自身が出す音なので音声とみなすことができるが、
音声認識を行なう場合にはこの部分が音声区間に含まれ
ると、誤認識の原因となるためこの部分を音声区間に含
めることは好ましくない。〔問題点を解決するための手段および作用〕本発明は上述の問題点を解消した音声区間検出装置を
提供することにあり、本発明の原理は、音声（特に単語
音声）の検出において、音声区間の時間しきい値を語頭
と語尾とで変えることにあり、具体的には、語頭におい
ては音声区間の第１のしきい値L_Vを小さく設定し、語尾
においてはこのしきい値よりも大きい第２のしきい値を
設定するものである。これにより、従来問題となってい
た語頭における音声の脱落と語尾におけるノイズの付加
を低減することができ音声区間検出の精度を著しく向上
させることができる。第１図（ａ），（ｂ）は本発明の原理を説明する特性
図である。（ａ）は音声の語頭の場合、（ｂ）は音声の
語尾の場合である。（ａ），（ｂ）において、縦軸PRO
はノイズ付加の確率および音声脱落の確率であり、横軸
L_Vは音声区間の時間しきい値である。また、I_aおよびI_b
はノイズ付加の確率曲線、II_aおよびII_bは音声脱落の確
率曲線、そしてIII_aおよびIII_bはL_vの最適値を得るため
の誤り確率曲線である。（ａ）において、語頭の場合にはしきい値L_vが大きけ
れば大きい程I_aに示す如くノイズ付加の確率は減少して
いくが、逆に、音声脱落の確率はII_aに示す如く急激に
増大する。また、しきい値を小さくしていけばノイズ付
加の確率は急激に増大し、音声脱落の確率は減少する。
これらの曲線から、曲線I_aとII_aの和である曲線III_aは
図示の如く極小値を持つ曲線となる。この極小値におけ
るしきい値をL_vaとすると、L_vaは語頭のときの最適しき
い値を示しており、このしきい値L_vaはノイズ付加の確
率と音声脱落の確率がバランスした有効な値となる。こ
の場合、L_vaは騒音環境等によって異なるが、およそ70m
s前後である。（ｂ）は語尾の場合を示している。語尾の場合は語頭
に比べてL_vが大の方に寄っている。（ａ）と同様のパタ
ーンなので詳細説明を省略するが、L_vbは語尾のときの
最適しきい値を示しており、125ms前後である。即ち、
語尾でのしきい値L_vbはノイズ付加の確率と音声脱落の
確率がバランスした125msが有効な値となる。このように、音声区間検出において語頭と語尾とのし
きい値を変えることによってノイズ付加と音声脱落の確
率の共に低い検出を行い得ることが判明した。〔実施例〕第２図は本発明の音声区間検出装置を実現する装置の
概略構成図である。マイクロホン21から入力された音声
信号は、プリエンファシス部22において高域強調された
後、一方はパワー値抽出部23において音声の特徴パラメ
ータの一つであるエネルギ分布の抽出が、サンプリング
により時系的になされ、複数のフィルタからなるバンド
パスフィルタ部24において特徴抽出がなされる。区間検
出部26では後述する第３図に示すようにパワー値の時系
列PW（ｉ）にもとづいて音声区間の検出が行われる。音
声認識出力部27は音声辞書を有しこれを参照しつつパタ
ーンマッチングを行い認識結果をスピーカ28から出力す
る。制御部25は区間検出部26および音声認識出力部27等
を制御する。第３図は第２図の区間検出部26を詳細に示すブロック
図である。第３図において、261は音声の語頭（始端）
を検出する始端検出部、262は語尾（終端）を検出する
終端検出部、263は各種しきい値データP_L,L_va,L_vb,L_s等
を格納するしきい値格納部である。始端検出部261と終
端検出部262には前段のパワー値抽出部23から、パワー
値の例えば10msのサンプリング値PW（ｉ）がシリーズに
入力される。始端検出部261ではフレームごとにしきい
値格納部263から読み出されたパワーのしきい値P_Lとパ
ワーの時系列PW（ｉ）との大小が比較され、さらに、語
頭の第１のしきい値L_va、無声区間のしきい値L_sとサン
プリングフレームの位置が比較される。終端検出部262
では同様にフレームごとにパワーしきい値P_Lと時系列PW
（ｉ）との大小が比較され、さらに語尾の第２のしきい
値L_vb、無声区間のしきい値L_sとサンプリングフレーム
の位置が比較される。終端検出部262では始端検出部261
とこれらのデータとを合わせて始端終端位置情報Ｓを音
声認識出力部27に出力する。第４図は第３図の区間検出部における処理のフローチ
ャートである。フローチャートの前半のステップ１〜９
は始端検出部261における処理、後半のステップ10〜21
は終端検出部262における処理である。第４図におい
て、ｉはサンプリングされたフレーム番号、i_Sはしきい
値の開始のフレーム番号、ｊは始端側のしきい値を連続
して越えているフレーム数、i_eはしきい値の終りのフレ
ーム番号、ｋは終端側のしきい値を連続して下まわって
いるフレーム数である。フローチャートに示すように、
パワー値抽出部23からのパワー値の時系列PW（ｉ）とパ
ワー値しきい値P_Lとが各フレームについてその大小を比
較し（ステップ３）、PW（ｉ）＜P_Lであればステップ２
が繰り返えされる。PW（ｉ）≧P_Lとなったときそのフレ
ーム番号i_Sが記憶され、PW（ｉ）≧P_Lが続く間はステッ
プ6,7が繰り返えされる。ステップ８においてPW（ｉ）
＜P_Lのとき語頭のしきい値L_vaか否か判断され、（ステ
ップ９）、フレーム数ｊがしきい値L_vaを越えていれば
次に終端処理に入る。越えていなければまだ音声が入力
されてないとみなしてステップ２に戻る。終端において
も同様なステップをとるが、ステップ14においてPW
（ｉ）＜P_Lのときはステップ21において無声区間L_Sか否
かの判断が行われ無声区間でなければ、即ち、フレーム
数ｋがL_Sより大であれば音声区間検出は始端検出部にお
いて終了し、小であって無声区間であればステップ12に
戻る。そして、ステップ19においてPW（ｉ）≧P_Lであれ
ば、ステップ20にて語尾のしきい値L_vbか否かが判断さ
れ、しきい値L_vbがフレーム数ｊより大であればステッ
プ21にて無声区間のしきい値L_Sが判断され音声区間検出
は終了する。結局、音声の始端フレームは、i_s、終端フレームはi_e
として求まることになる。〔発明の効果〕以上説明したように、本発明によれば、音声区間検出
において語頭と語尾のしきい値を変えるようにしたので
語頭における音声の脱落、語尾におけるノイズの付加を
著しく低減することができ、音声区間検出の精度を著し
く向上させることができる。

【図面の簡単な説明】第１図は本発明の原理を説明する特性図、第２図は本発明の一実施例装置構成図、第３図は第２図区間検出部の詳細図、第４図は本発明の処理フローチャート、第５図は音声のパワー値と発声時間との関係を示すパタ
ーン図、および第６図はは従来の検出方式を説明するパターン図であ
る。（符号の説明） 21……マイクロホン、 22……プリエンファシス部、 23……パワー抽出部、 24……バンドパスフィルタ部、 25……制御部、26……区間検出部、 27……音声認識出力部、28……スピーカ、 261……始端検出部、262……終端検出部、 263……しきい値格納部。

Claims

(57)【特許請求の範囲】１．音声認識装置の音声区間検出装置において、入力される音声信号の始端部における音声パワー値と所
定のパワーしきい値及び音声区間の第１の時間しきい値
を比較する始端検出部と、音声信号の終端部における音声パワー値と前記所定のパ
ワーしきい値及び音声区間の前記第１の時間しきい値よ
り大なる第２の時間しきい値を比較する終端検出部と、前記パワーしきい値及び前記第１及び第２の時間しきい
値を格納するしきい値格納部とを備え、音声区間の検出に際し、音声信号の語頭では前記第１の
時間しきい値により、音声信号の語尾では前記第２の時
間しきい値により比較し、音声区間を検出するようにし
た音声区間検出装置。