JPS6223096A

JPS6223096A - 音声区間検出装置

Info

Publication number: JPS6223096A
Application number: JP60161781A
Authority: JP
Inventors: 金指　久則; 秋場　国夫; 入間野　孝雄; 猛宮川
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-07-24
Filing date: 1985-07-24
Publication date: 1987-01-31
Anticipated expiration: 2011-08-07
Also published as: JP2521425B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は音声認識装置における音声区間検出方法に関す
るものである。

（従来の技術）第２図は、従来の音声認識装置における、騒音学習方法
の一例を実行するための機能ブロック図である。

従来例を第２図、第３図により説明する。

第２図において、１０はマイクであり、ここから音声ま
たは騒音を入力し、前処理部１１で前処理を行い、パワ
ー算出部１２でパワーを算出する。１３は音声認識モー
ドａ、または騒音学習モードｂの切り換えを行う切り換
えスイッチである。１４は騒音学習部、１５は音声区間
検出部であり、騒音学習モードにおいて音声区間検出の
ためのいき値を設定し、音声区間検出部で音声区間を検
出する。検出した音声区間内の音声を音声認識部１６に
おいて認識する。１７は認識結果出力部である。

次に、上記従来例の動作について説明する。最初に、音
声認識モードに入る前に切り換えスイッチ１３て騒音学
習モードを選択し、騒音の学習を行う。第２図において
マイク１０から人力した騒音は、前処理部Ｈにおいて、
Ａ／Ｄ変換され、異名現象をとり除くためＬＰＦを通り
、サンプル値Ｘを得る。次にパワー算出部１２において
、（１）式に従い、単位時間（以後フレームと称する）
ごとにパワーＰ（Ｊ）を算出する。

Ｐ（Ｊ）：Ｊフレーム目のパワーの値ｘ（ｉ）：１フレーム内における１番目のサンプル値Ｎ　：１フレーム内のサンプル数騒音学習部１４では、Ｐ（Ｊ）をもとに（２）式に従っ
て音声区間のいき値ＴＰを設定する訳であるが、ここで
Ｌは騒音学習に要する時間であり、認識装置の仕様によ
り任意に設定するパラメータである。

なおＴＰ’の値は学習時間における環境騒音の平均パワ
ーである。

ＴＰ＝　ＴＰ’＋　Ａ＝　Σ　Ｐ　（Ｊ）／　Ｌ　　　＋　Ａ　　・・・（２
）Ｊ＝１ＴＰ：音声区間検出のためのいき値Ｐ（Ｊ）：Ｊフレーム目のパワーの値Ｌ　　：騒音学習時間Ａ　　：定数次に切り換えスイッチ１３て認識モードを選択し、音声
認識を行う。

第２図において、入力した音声は、騒音学習モードと同
じ条件で前処理を行い、パワーを算出する。得られたパ
ワーの時系列をもとに、騒音学習モードで得られたいき
値ＴＰを用いて音声区間の検出を行う。第３図は、／ａ
ｋｉｔａ／（秋田）と発声したときのＰ（ｊ）の時系列
を示したものである。

第２図において、いき値ＴＰを使って、パワーの大きい
山形の部分Ｓｌ、Ｓ２．Ｓ３および山形の部分に挟まれ
た谷形の部分Ｐｌ、Ｐ２１　Ｐ３を検出し、各々に対応
する時間ＳＬ＋３２＋　Ｓ３およびｐｌ＋　’Ｉ’２＋
　ｐ３の値を使って（３）式に示す条件との整合を検定
し音声区間、音声の始端Ｓ、終端Ｅを検出する。

第４図は、第３図とは異なる騒音下で学習し、／ａｋｉ
ｔａ／（秋田）と発声した場合のいき値ＴＰの設定から
音声区間検出までのようすを表している。いき値設定に
要する時間り内において衝撃的な騒音が入り、音声を発
声している時と比ベレベルが大きくなっている。このた
め、いき値ＴＰは第３図に示す例に比べて大きく設定さ
れるため、音声区間検出を誤り、本来の／ａｋｉｔａ／
の部分の語頭の／ａ／が脱落し、／ｋ　ｉ　ｔ　ａ／ど
なっている。　従って、従来の方法では第４図の場合の
ように、騒音学習時の、騒音レベルと音声発声時の騒音
レベルが著しく異なる場合音声区間検出を誤る欠点があ
った。

（発明が解決しようとする問題点）上記従来例の音声区間検出方法では、いき値設定の学習
に要する時間内で衝撃的な騒音等により、音声を発声し
ている時の騒音レベルに比べ、学習時の騒音レベルが過
大に評価され、いき値設定を誤り、ひいては音声認識を
誤る問題があった。

本発明はこのような従来の問題を解決するものであり、
音声区間を精度よく検出できる音声区間検出方法を提供
することを目的とするものである。

く問題を解決するための手段）本発明は、上記目的を達成するために、騒音学習を行う
際、学習時間にとり込む全てのフレームの騒音データか
らいき値を設定するのではなく、予め設定した範囲にあ
る騒音データのみを用いていき値を設定するようにした
ものである。

（作用）従って本発明によれば、学習用の騒音データを選択的に
取り扱うことにより、騒音学習時の衝撃騒音によるいき
値設定誤りを減少することができ、音声区間を精度よく
検出することができ、その結果、音声認識誤りを減少す
ることができる。

（実施例）以下に、本発明の一実施例の構成について第１図ととも
に説明する。

第１図においてマイク１、前処理部２およびパワー算出
部３、騒音学習部６、音声区間検出部７、音声認識部８
．認識結果出力部９は、従来例と同様のものである。５
は騒音データ選択部である。

次に本発明の実施例の動作について説明する。

先ずモード切り換えスイッチ４は、騒音学習モードにし
ておく。マイク１から入力した騒音は前処理部２てＡ／
Ｄ変換されＬＰＦを通ってパワー算出部３に入り、従来
例と同様に（１）式に従いフレームのパワーを算出する
。騒音データ選択部５では、音声区間検出のためのいき
値設定に用いる騒音データの選択を行う。これは、騒音
学習時に人力した騒音レベルが予め設定した範囲に入っ
ている騒音データだけをいき値設定用のデータとして使
用するものである。

この範囲は、以下のように決定する。

第３図において音声区間の後端Ｅの後のρ３の部分は、
音声区間を決定する、つまりＥを決定する前までは分析
する訳であるから、ｐ３の区間のフレームごとのパワー
は算出されている。従来法ではｐ３の区間のデータは、
音声区間が決定すれば捨ててしまっていたが、本発明で
は（４）式に従いこの区間のフレーム毎のパワーの平均
値Ｎεと分散σεを求め騒音データ選択部５に送る。騒
音データ選択部５では音声区間検出のいき値設定の際に
用いた騒音レベルの平均値Ｎｐおよび分散 σＰ２と、ＮＥおよびσε２から式（５）に従って新し
くＮとσ２を計算する。

このＮとσ２を使って入力した騒音レベルがＮ±σの範
囲に入っている騒音データだけをいき値設定のための騒
音データとして使用するものである。

Ｎｐ、σＰ２の初期値は（６）式に従ってもとめる。

Ｎ±σの範囲にある騒音データを使って音声区間検出の
ためのいき値ＴＰｘを従来例同様の考え方で式（７）に
従って設定し、このいき値ＴＰＸを用いて音声区間を検
出する。

Ｐ（Ｉ）：学習時間り内にあるＮ±σの範囲にある第一
番目の騒音パワーの値Ｍ　　：学習時間り内にあるＮ±σの範囲にある騒音デ
ータのサンプル数Ｂ　　：定数ＴＰＸを用いて音声区間を検出した場合を第４図に示す
。この図において始端はＳ×、後端はＥとなり、従来例
とは異なり／ａｋｉｔａ／の語頭の／ａ／の脱落がなく
なり、きちんと音声区間を検出できることがわかる。

以上の通り本実施例によれば、騒音学習に衝撃的な騒音
が入っても騒音レベルが予め設定した範囲になければ学
習用のデータとして用いないため、音声区間検出のいき
値設定を誤ることがない。従って、精度よく音声区間を
検出できるという利点を有する。

（発明の効果）本発明は以上の説明から明らかなように、騒音学習を行
う際、学習時間に取り込む全てのフレームの騒音データ
からいき値を設定するのではなく、予め設定した範囲に
ある騒音データのみを用いて、いき値を設定しているの
で、音声区間検出のためのいき値設定誤りを減少させ精
度よく音声区間を検出できる利点を有する。更に、音声
区間を精度よく検出できるため、音声認識率を向上させ
る効果を有する。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置の概略
ブロック図である。第２図は、従来例における音声認識装置の概略ブロック
図である。第３図は、ある騒音レベルで／ａｋｉｔａ／と発声した
場合の騒音のパワーと音声パワーの時間変化を表したも
のである。第４図は、第３図とは異なる環境で／ａｋｉｔａ／と発
声した場合の騒音パワーと音声パワーの時間変化を表し
たものである。ｌ・・・マイク、２・・・前処理部、３・・・パワー検
出部、４・・・切り換えスイッチ、５・・・騒音データ
還択部、６・・・騒音学習部、７・・・音声区間検出部
、８・・・音声認識部、９・・・認識結果出力部。特許出願人　　松下電器産業株式会社八玉　Ｑ礒λ °（〉−

Claims

【特許請求の範囲】

（１）騒音レベルを学習し、適応的に音声区間検出のい
き値を設定し、音声区間を検出する方法において、その
騒音レベルの平均値と変動の大きさをもとに、予め騒音
レベルの範囲を限定し、騒音学習時に、その範囲内にあ
る騒音レベルのデータだけを音声区間検出のいき値設定
用のデータとして用いる音声区間検出方法。
（２）予め設定する騒音レベルの範囲を決定する方法と
して、音声区間検出後の後端以後の部分を範囲決定のた
めの入力データとすることを特徴とする特許請求の範囲
第（１）項記載の音声区間検出方法。