JP2891259B2 - 音声区間検出装置 - Google Patents

音声区間検出装置

Info

Publication number
JP2891259B2
JP2891259B2 JP62079673A JP7967387A JP2891259B2 JP 2891259 B2 JP2891259 B2 JP 2891259B2 JP 62079673 A JP62079673 A JP 62079673A JP 7967387 A JP7967387 A JP 7967387A JP 2891259 B2 JP2891259 B2 JP 2891259B2
Authority
JP
Japan
Prior art keywords
voice
threshold
section
threshold value
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62079673A
Other languages
English (en)
Other versions
JPS63247798A (ja
Inventor
教幸 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62079673A priority Critical patent/JP2891259B2/ja
Publication of JPS63247798A publication Critical patent/JPS63247798A/ja
Application granted granted Critical
Publication of JP2891259B2 publication Critical patent/JP2891259B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔概 要〕 音声認識装置における音声区間検出装置において、音
声信号の語頭における音声区間しきい値を小さく設定し
て音声脱落の確率を下げ、語尾におけるしきい値を前記
しきい値より大きく設定してノイズ付加の確率を下げる
ようにしたものである。 〔産業上の利用分野〕 本発明は音声区間検出装置に関し、特に、電算機を使
用する音声認識における音声区間と無声区間およびノイ
ズとの識別を容易ならしめる検出装置に関する。 〔従来の技術〕 人間の発声した音声を電算機を使用して特徴抽出を行
い自動的に検出する方式は、既に広く応用されている。
その典型的な手法の一つとしては、連続発声した音声信
号から単音節や音韻に区分するセグメンテーションを行
ない、この単音節を音声認識するものである。単音節の
認識によってさらに高度な単語認識や会話音声の認識等
へ拡張していくことができる。現在のところ完成なセグ
メンテーションの行える方式はまだないが、例えば単音
節のパワー値が所定のしきい値を越えたものは音声とみ
なす方法は知られている。即ち、パワー値が発声の一定
時間(Lv)以上にわたってパワーしきい値(PL)を越え
ているときはその区間を音声とみなす方法である。 第5図(a)〜(c)は音声信号のパワー値(P)と
発声時間(T)との関係を示すパターン例である。ここ
でT0は音声区間である。(a)は例えば“あ",“お",
“も",“り”と発声した場合で、しきい値PL以上で音声
区間のしきい値Lvについてすべての単音節のパワーが存
在するため認識に問題はない。(b)の場合は、例え
ば、“あ",“い",“ち”と発声したとき、無音区間の時
間しきい値LSを設けて、しきい値LS以下のときは“あ",
“い",“ち”は一回の発声によるものとみなしている。
このときの無音区間LSはパワーの低い(しきい値PL以下
の)音声とみることができる。また、(c)の場合は、
例えば、“さ",“っ",“ぽ",“ろ”と発声したときで、
“っ”の区間がしきい値PL以下でありかつ時間しきい値
LS以上であるため音声なのかノイズなのか判断しにく
い。 第6図(a)〜(d)は従来の検出方式を説明するパ
ターン図である。(a)は音声区間T0がすべてしきい値
PL以上であるため認識の問題はない。(b)は区間T1
音声区間の時間しきい値Lv以下なのでノイズとみなし音
声区間としない。(c)は区間T2およびT3がしきい値Lv
より大なので音声区間とみなし、区間T4は無音区間のし
きい値LS以下なのでノイズとはみなさない。結局この場
合には区間(T2+T4+T3)が音声区間とみなされる。
(d)は区間T5とT7がしきい値Lv以下なのでノイズと見
なされ、区間T6はしきい値Lv以上なので音声区間と見な
される。 〔発明が解決しようとする問題点〕 しかしながら、上記のような方法により検出したとき
は次のような問題がある。即ち、音声信号の始まり(始
端部)では音声の脱落が起き易く、音声信号の終り(終
端部)ではノイズの付加が起き易いことである。このよ
うな始端部(もしくは語頭)と終端部(もしくは語尾)
とで異なる傾向が現われる要因には2つある。1つは、
日本語の場合単語の先頭音節は短かく語尾の音節は長め
に発声される傾向にあること、2つは、単語の終端部で
は発声が不安定となり、一度パワー値が低くなった後に
小さな山が多く現われることである。後者の場合は、発
声者自身が出す音なので音声とみなすことができるが、
音声認識を行なう場合にはこの部分が音声区間に含まれ
ると、誤認識の原因となるためこの部分を音声区間に含
めることは好ましくない。 〔問題点を解決するための手段および作用〕 本発明は上述の問題点を解消した音声区間検出装置を
提供することにあり、本発明の原理は、音声(特に単語
音声)の検出において、音声区間の時間しきい値を語頭
と語尾とで変えることにあり、具体的には、語頭におい
ては音声区間の第1のしきい値LVを小さく設定し、語尾
においてはこのしきい値よりも大きい第2のしきい値を
設定するものである。これにより、従来問題となってい
た語頭における音声の脱落と語尾におけるノイズの付加
を低減することができ音声区間検出の精度を著しく向上
させることができる。 第1図(a),(b)は本発明の原理を説明する特性
図である。(a)は音声の語頭の場合、(b)は音声の
語尾の場合である。(a),(b)において、縦軸PRO
はノイズ付加の確率および音声脱落の確率であり、横軸
LVは音声区間の時間しきい値である。また、IaおよびIb
はノイズ付加の確率曲線、IIaおよびIIbは音声脱落の確
率曲線、そしてIIIaおよびIIIbはLvの最適値を得るため
の誤り確率曲線である。 (a)において、語頭の場合にはしきい値Lvが大きけ
れば大きい程Iaに示す如くノイズ付加の確率は減少して
いくが、逆に、音声脱落の確率はIIaに示す如く急激に
増大する。また、しきい値を小さくしていけばノイズ付
加の確率は急激に増大し、音声脱落の確率は減少する。
これらの曲線から、曲線IaとIIaの和である曲線IIIa
図示の如く極小値を持つ曲線となる。この極小値におけ
るしきい値をLvaとすると、Lvaは語頭のときの最適しき
い値を示しており、このしきい値Lvaはノイズ付加の確
率と音声脱落の確率がバランスした有効な値となる。こ
の場合、Lvaは騒音環境等によって異なるが、およそ70m
s前後である。 (b)は語尾の場合を示している。語尾の場合は語頭
に比べてLvが大の方に寄っている。(a)と同様のパタ
ーンなので詳細説明を省略するが、Lvbは語尾のときの
最適しきい値を示しており、125ms前後である。即ち、
語尾でのしきい値Lvbはノイズ付加の確率と音声脱落の
確率がバランスした125msが有効な値となる。 このように、音声区間検出において語頭と語尾とのし
きい値を変えることによってノイズ付加と音声脱落の確
率の共に低い検出を行い得ることが判明した。 〔実施例〕 第2図は本発明の音声区間検出装置を実現する装置の
概略構成図である。マイクロホン21から入力された音声
信号は、プリエンファシス部22において高域強調された
後、一方はパワー値抽出部23において音声の特徴パラメ
ータの一つであるエネルギ分布の抽出が、サンプリング
により時系的になされ、複数のフィルタからなるバンド
パスフィルタ部24において特徴抽出がなされる。区間検
出部26では後述する第3図に示すようにパワー値の時系
列PW(i)にもとづいて音声区間の検出が行われる。音
声認識出力部27は音声辞書を有しこれを参照しつつパタ
ーンマッチングを行い認識結果をスピーカ28から出力す
る。制御部25は区間検出部26および音声認識出力部27等
を制御する。 第3図は第2図の区間検出部26を詳細に示すブロック
図である。第3図において、261は音声の語頭(始端)
を検出する始端検出部、262は語尾(終端)を検出する
終端検出部、263は各種しきい値データPL,Lva,Lvb,Ls
を格納するしきい値格納部である。始端検出部261と終
端検出部262には前段のパワー値抽出部23から、パワー
値の例えば10msのサンプリング値PW(i)がシリーズに
入力される。始端検出部261ではフレームごとにしきい
値格納部263から読み出されたパワーのしきい値PLとパ
ワーの時系列PW(i)との大小が比較され、さらに、語
頭の第1のしきい値Lva、無声区間のしきい値Lsとサン
プリングフレームの位置が比較される。終端検出部262
では同様にフレームごとにパワーしきい値PLと時系列PW
(i)との大小が比較され、さらに語尾の第2のしきい
値Lvb、無声区間のしきい値Lsとサンプリングフレーム
の位置が比較される。終端検出部262では始端検出部261
とこれらのデータとを合わせて始端終端位置情報Sを音
声認識出力部27に出力する。 第4図は第3図の区間検出部における処理のフローチ
ャートである。フローチャートの前半のステップ1〜9
は始端検出部261における処理、後半のステップ10〜21
は終端検出部262における処理である。第4図におい
て、iはサンプリングされたフレーム番号、iSはしきい
値の開始のフレーム番号、jは始端側のしきい値を連続
して越えているフレーム数、ieはしきい値の終りのフレ
ーム番号、kは終端側のしきい値を連続して下まわって
いるフレーム数である。フローチャートに示すように、
パワー値抽出部23からのパワー値の時系列PW(i)とパ
ワー値しきい値PLとが各フレームについてその大小を比
較し(ステップ3)、PW(i)<PLであればステップ2
が繰り返えされる。PW(i)≧PLとなったときそのフレ
ーム番号iSが記憶され、PW(i)≧PLが続く間はステッ
プ6,7が繰り返えされる。ステップ8においてPW(i)
<PLのとき語頭のしきい値Lvaか否か判断され、(ステ
ップ9)、フレーム数jがしきい値Lvaを越えていれば
次に終端処理に入る。越えていなければまだ音声が入力
されてないとみなしてステップ2に戻る。終端において
も同様なステップをとるが、ステップ14においてPW
(i)<PLのときはステップ21において無声区間LSか否
かの判断が行われ無声区間でなければ、即ち、フレーム
数kがLSより大であれば音声区間検出は始端検出部にお
いて終了し、小であって無声区間であればステップ12に
戻る。そして、ステップ19においてPW(i)≧PLであれ
ば、ステップ20にて語尾のしきい値Lvbか否かが判断さ
れ、しきい値Lvbがフレーム数jより大であればステッ
プ21にて無声区間のしきい値LSが判断され音声区間検出
は終了する。 結局、音声の始端フレームは、is、終端フレームはie
として求まることになる。 〔発明の効果〕 以上説明したように、本発明によれば、音声区間検出
において語頭と語尾のしきい値を変えるようにしたので
語頭における音声の脱落、語尾におけるノイズの付加を
著しく低減することができ、音声区間検出の精度を著し
く向上させることができる。
【図面の簡単な説明】 第1図は本発明の原理を説明する特性図、 第2図は本発明の一実施例装置構成図、 第3図は第2図区間検出部の詳細図、 第4図は本発明の処理フローチャート、 第5図は音声のパワー値と発声時間との関係を示すパタ
ーン図、および 第6図はは従来の検出方式を説明するパターン図であ
る。 (符号の説明) 21……マイクロホン、 22……プリエンファシス部、 23……パワー抽出部、 24……バンドパスフィルタ部、 25……制御部、26……区間検出部、 27……音声認識出力部、28……スピーカ、 261……始端検出部、262……終端検出部、 263……しきい値格納部。

Claims (1)

  1. (57)【特許請求の範囲】 1.音声認識装置の音声区間検出装置において、 入力される音声信号の始端部における音声パワー値と所
    定のパワーしきい値及び音声区間の第1の時間しきい値
    を比較する始端検出部と、 音声信号の終端部における音声パワー値と前記所定のパ
    ワーしきい値及び音声区間の前記第1の時間しきい値よ
    り大なる第2の時間しきい値を比較する終端検出部と、 前記パワーしきい値及び前記第1及び第2の時間しきい
    値を格納するしきい値格納部とを備え、 音声区間の検出に際し、音声信号の語頭では前記第1の
    時間しきい値により、音声信号の語尾では前記第2の時
    間しきい値により比較し、音声区間を検出するようにし
    た音声区間検出装置。
JP62079673A 1987-04-02 1987-04-02 音声区間検出装置 Expired - Fee Related JP2891259B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62079673A JP2891259B2 (ja) 1987-04-02 1987-04-02 音声区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62079673A JP2891259B2 (ja) 1987-04-02 1987-04-02 音声区間検出装置

Publications (2)

Publication Number Publication Date
JPS63247798A JPS63247798A (ja) 1988-10-14
JP2891259B2 true JP2891259B2 (ja) 1999-05-17

Family

ID=13696707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62079673A Expired - Fee Related JP2891259B2 (ja) 1987-04-02 1987-04-02 音声区間検出装置

Country Status (1)

Country Link
JP (1) JP2891259B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61140999A (ja) * 1984-12-13 1986-06-28 沖電気工業株式会社 音声区間検出方式

Also Published As

Publication number Publication date
JPS63247798A (ja) 1988-10-14

Similar Documents

Publication Publication Date Title
KR101417975B1 (ko) 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
JPH0990974A (ja) 信号処理方法
JPS58130393A (ja) 音声認識装置
JPS62217295A (ja) 音声認識方式
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
JP3069531B2 (ja) 音声認識方法
CN108986844B (zh) 一种基于说话人语音特征的语音端点检测方法
KR101122590B1 (ko) 음성 데이터 분할에 의한 음성 인식 장치 및 방법
JPH0558553B2 (ja)
JP2891259B2 (ja) 音声区間検出装置
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JPS60129796A (ja) 音声入力装置
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JP2666296B2 (ja) 音声認識装置
JPH034918B2 (ja)
JPS61260299A (ja) 音声認識装置
JP2901976B2 (ja) パターン照合予備選択方式
JPH0567039B2 (ja)
JPH0376471B2 (ja)
JPS6310437B2 (ja)
JPS59149400A (ja) 音声入力装置
CN118398016A (en) Locomotive driver term specification discriminating system
JP3008404B2 (ja) 音声認識装置
JPH07104675B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees