JPS59170894A - 音声区間の切り出し方式 - Google Patents

音声区間の切り出し方式

Info

Publication number
JPS59170894A
JPS59170894A JP58044194A JP4419483A JPS59170894A JP S59170894 A JPS59170894 A JP S59170894A JP 58044194 A JP58044194 A JP 58044194A JP 4419483 A JP4419483 A JP 4419483A JP S59170894 A JPS59170894 A JP S59170894A
Authority
JP
Japan
Prior art keywords
section
noise
speech
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58044194A
Other languages
English (en)
Inventor
康雄 黒須
小松 昭男
市川 「あきら」
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58044194A priority Critical patent/JPS59170894A/ja
Publication of JPS59170894A publication Critical patent/JPS59170894A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明(・ま音声認識装置の音声区間切り出し方式に係
り、特に電話回線を介[7た音声認識装置や工場内や室
外等の高騒音下で使用される音声認識装置に好適な音声
区間切り出し方式に関する。
〔従来技術〕
従来の音声認識装置の音声区間切り出し方式は、音声区
間と無音区間のパワー情報のみの差異に注目して、信号
レベルに適当な閾値を設け、閾値μ上の部分を音声区間
とし7て切り出す方式となつ−しいた。1〜たがって、
入力手段として電話回線や低品質なマイクを用いる場合
、あるいは高騒音を発生する工場や室外で用いられる場
合には、音I用区間と無音区間との間のパワーに顕著な
差異が見られなくなり、音声区間を誤1って切り出すと
いう欠点があった。
〔発明の目的〕
本発明の目的は、信号対雑音比の劣悪な環境−トにおい
て発声された音声を正確に検出し得る音声区間切り出し
方式を提供することV′cある。
〔発明の概要〕
本発明による音声認識装置は、入カイ菖号を分析する分
析部と、雑音の標準バタンを作成−する雑音バタン作成
部と、前記雑音バタンを用いて、分析された入力信号が
音声か否かを判定し −音、声の場合は切り出し処理を
おこなう音声区間切り出(一部と、前記音声切り出し部
において切り出された音声に対して識別処理を施こす識
別部とにより構成さ′i1でいる。
ここに雑音とは電話回線で発生する回線雑Efや発声渚
の周囲で発生する環境騒音等の音甫以外の音を指してい
る。これに対して音声(lゴ声弗の振動波Cζ、p道が
励起され発声される有声音と声道中における空気流の摩
擦や破裂によって励起され、角帯の振動を伴なわない無
声音にょシ構成さ牡ており、本質的に雑音とは異なる性
質を肩している。
特に、波の性質を顕在化させる周波数領域において顕著
な差異が生ずる。それ故、周波数領域において、採取(
−だ雑音パターンと入力信号を比較することによって、
入力信号が音声であるか否が判定することができる。す
なわち、本発明によるとパワーの大きい雑音によって誤
って音声区間を切り出すことの少ない安定し7だ音声認
識装置を実現できる。
雑音は種々雑多な要因により発生するものであるから、
かならずしも性質が明確化されているとは断言できない
部分が少なからずある。(〜がし、統計的にはJ(ot
h雑音と呼ばれその周波数スペクトラムは第1NN’こ
テ1くすように高域よりも低域にパワーが集中する傾向
がある。こiに対して、無声音は、−道中の空気摩擦に
よって励起さiLるものであるからその周波数スペクト
ラムは第2図(tこ示すように低域よりも高域にパワー
が集中する構造である。゛まだ、壱声廿(fJ声帯の撮
動によって励起されるものであるからその周波数スペク
]・ラムは第3図に示すように声帯倣動を基本周波数(
ピッチ周波数)とする高調波音構成を41する。さらり
こ、爬道の形状変動がゆるやかであるからその共振特性
を表わすホルマントを廟する。かくの如く、音声と雑音
とはその周波数スペクトル構造に著しい相違が存在する
。しだがって、雑音バタン作成部で雑音の標準バメンを
作成し、この雑音バタンと分析さDた入力信号を比較す
ることによって、入力信号が音声か否か判定することが
できる。それ故、本発明によるとパワーの大きな雑音に
よって誤って音両区間を切り出すことのない安定な汗声
認識装置が実現できる。
〔発明の実施例〕
以下、本発明の一実施例を第4図により説明する。マイ
クロホン1より入力される入力信号Sは分析部2に入力
され、パワー情報及び周波数情報を抽出する分析処理が
行なわれる。一方、電話回線における回線雑音は一通話
の間はぼ不変であるという性質が期待できる。この性質
を利用して、電話回線が接線した向後の無音区間におけ
る雑音を分析し、雑音バタン作成部3に格納する。音声
区間切り出し部4は、分析された入力信号が雑音バタン
作成部3に格納されている雑音バタンと比較され、相異
なる性質を示す場合は、音声区間と判定され切り出すよ
うに構成されている。類似度算出部6(ハ、標準バタン
記憶部に格納されている認識されるべきm語セットと音
声区間と判定された入力音声との間で類似度を算出する
。判定部7では、Ail記類似度算出部6で′Q出され
た類似度に基づいて判定処理が行なわれ、入力音声の識
別結果を決定する。上述各部(1,2,3,4,5゜6
.7.8)はアナログ的にもデジタル的にも実現可曲で
ある。以下では主に、ディジタル回路で構成されている
場合を例(・ことって説明を続ける。
分析部2における分析原理として柿々のものが提案され
ているが、それらはいず7’Lも声道の共振特性を陰に
陽に表わし、ている。したがつで、いずれの手法であっ
ても本発明の原理は適用i■詣である。−例としては公
知のチャンネルノ・イルタ型スペクトラド分析器が考え
られる。すなわち、マイクロホンより入力される入力信
号SはA / I)変換され、チャンネルフィルタ型ス
ペクトル分析器に入力される。チャンネルフィルタ型ス
ペクトル分析器の各チャンネルが各周波数帯域に対応し
ており、各周波数゛帯域のスペクトラムが時系列の周波
数情報として出力される。この分析部2の具体的構成は
本発明の要部と直接関係しないので省略する。
壕だ、類似度算出部6、判定部7、標準バタン記憶部5
を包含した識別部における識別原理も種種のものが提案
されており、そnr:)はいずれであっても適用可能で
ある。−例として公知のバタンマツチング法が考えられ
る。すなわち、あらがしめ認識されるべき単語セットを
定め、個々の単語を適切なパラメータによって記述した
ものを標準バタン記憶部に格納しておく。入力信号は前
記分析部においてパラメータに変換され、音声区間切り
出し部において、音声と判定されると、識別部に入力さ
れる。この人力バタンと前記標準バタンとの比較、すな
わちバタンマツチングを行なって最大一致が得られる標
準バタンと同一単語であると決定する。この識別部の具
体的構成も本発明の要部と直接関係しないので省略する
次に、音声区間切り出し部4と雑音バタン作成部3の具
体的構成例を第5図により説明する。パワー及び周波数
情報を表わすパラメータに変換された入力信号は選択部
41に入力される。選択部41において、無音区間の一
部は雑音バタン作成部へ選択きれ、入力バッファ31に
入力される。
また、認識処理を施こすべき音声区間を含む入力信号S
は音声区間切り出し部へ選択され、入カバツ7742,
44に入力される。ここで雑音バタンを作成するタイミ
ングは、−例として音声応答装置の質問区間が考えられ
る。すなわち、音声認識装置は通常、音声応答システム
の一部として運用されている。したがって、實間時には
発話者の発声はないと期待されるので、音声応答からの
質問文中の音声出力休止区間には無声音が入力される。
次に、入力バッファ内の雑音パラメータは相加平均部3
2で長時間(例えば、400018α]以上)の時間平
均を取られ、安定な雑音バタンとなり、雑音バタン記憶
部33に格納される。
一方、入力バッファ44に格納された認識処理を施こす
べき入力信号Sは、マツチング部45において、雑音バ
タン記憶部33に格納されている雑音バタンとの間で1
フレーム毎I/i:類似度がt4禅される。次に判定部
46において、適切な閾値θ全基準として、該当フレー
ムが雑音か否かを判定する。すなわち、θ以下の類似度
を持つフレームがNフレーム続けば、音声区間の始点と
児なし、選択部43において切り出し操作を開始する。
逆に、0以上の類似度を持つフレームがNフレーム以上
続けば、音声区間の終点と児な(〜、選択部43におい
て、切り出し操作を終了する。
かくの如く、本発明によれば、パワーの大きな雑音によ
って、誤って音声区間を切り出すことのない安定な音声
認識装置を実現できる。
さらに、不特定話者用認識装置において、入力音声中の
母音等の特徴的な音韻の位置の情報を得ることができれ
ば、本発明で述べた方法により、標準バタンとして登録
し利用することが可能である。すなわち、当該話者に固
有な音韻標準バタンを使ったマツチングを行なうことが
でき、高い認識率を期待することができる。
〔発明の効果〕
本発明によれば、高雑音下で発声された音声を正確に切
り出すことができるので、音声認識装置の認識精度向上
の効果がある。また、周囲騒音のため従来使用不可能で
あった高騒音を発生する工場内に音声認識装置を導入す
ることができるので、音声認識装置の市場拡張の効果が
ある。さらに、高品質で高価なマイクを必ずしも使用す
る必要がなくなり、低廉なマイクが使用できるので、音
声認識装置の価格低減の効果がある。
【図面の簡単な説明】
第1図は、雑音のスペクトラム構成を説明するための図
、第2図は無声音のスペクトラム構成を説明するだめの
図、第3図は有声音のスペクトラム構成を説明するだめ
の図、第4図は本発明による音声認識装置の一構成例を
示すブロック図、第5図は本発明による音声区間切り出
し部の一構成例を示すブロック図である。 第4図において、1はマイクロホン、2は分析部、3は
雑音バタン作成部、4は音声区間切り出し部、5は標準
バタン記憶部、6は類似度算出部、7は判定部、8は認
識制御部。 第5図において、31Vi人カバッファ1.32は相加
平均部、33は雑音バタン記憶部、41は選択部、42
は入力バッファ3.43は選択部、44は入力バッファ
2.45Hマッチンク部、第   1   (2) 第 2 図 木 1 図 宴  4−  図 3′ ′″f−J  5  図

Claims (1)

    【特許請求の範囲】
  1. 1、 音声信号の観測部と分析部と音声区間の切り出し
    部と認識論理部より成る音声認識装置においで、特定区
    間を検出する手段と、検出し7た信号を分析する手段と
    、分析(〜だ信号を格納する手段と、当該の特定区間の
    分析結果と入力音声のパワー及び周波数情報の差異を計
    算する手段を有することを特徴とする音声区間切り出し
    方式。
JP58044194A 1983-03-18 1983-03-18 音声区間の切り出し方式 Pending JPS59170894A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58044194A JPS59170894A (ja) 1983-03-18 1983-03-18 音声区間の切り出し方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58044194A JPS59170894A (ja) 1983-03-18 1983-03-18 音声区間の切り出し方式

Publications (1)

Publication Number Publication Date
JPS59170894A true JPS59170894A (ja) 1984-09-27

Family

ID=12684760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58044194A Pending JPS59170894A (ja) 1983-03-18 1983-03-18 音声区間の切り出し方式

Country Status (1)

Country Link
JP (1) JPS59170894A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
JP2007248692A (ja) * 2006-03-15 2007-09-27 Kawai Musical Instr Mfg Co Ltd アップライトピアノのバット

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
US7191120B2 (en) 1997-01-23 2007-03-13 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
JP2007248692A (ja) * 2006-03-15 2007-09-27 Kawai Musical Instr Mfg Co Ltd アップライトピアノのバット

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
KR100870889B1 (ko) 음신호 처리 방법, 음신호 처리 장치 및 기록 매체
US8036884B2 (en) Identification of the presence of speech in digital audio data
EP0077194B1 (en) Speech recognition system
JPWO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP3069531B2 (ja) 音声認識方法
JP3119510B2 (ja) 音声認識装置
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
JP3523382B2 (ja) 音声認識装置及び音声認識方法
JPS60114900A (ja) 有音・無音判定法
JPS59170894A (ja) 音声区間の切り出し方式
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
JP2798919B2 (ja) 音声区間検出方式
JP2882791B2 (ja) パターン比較方式
JP2666296B2 (ja) 音声認識装置
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
JP3049711B2 (ja) 音声処理装置
JP3020999B2 (ja) パターン登録方法
JP3357752B2 (ja) パターンマッチング装置
JPH0640274B2 (ja) 音声認識装置
JPS6227798A (ja) 音声認識装置
JPS63226691A (ja) 標準パターン作成方式
JPS63300295A (ja) 音声認識装置
JPS6039699A (ja) 音声認識方法
JP2002287781A (ja) 音声認識装置