JPH0218598A - 音声分析装置 - Google Patents

音声分析装置

Info

Publication number
JPH0218598A
JPH0218598A JP63166714A JP16671488A JPH0218598A JP H0218598 A JPH0218598 A JP H0218598A JP 63166714 A JP63166714 A JP 63166714A JP 16671488 A JP16671488 A JP 16671488A JP H0218598 A JPH0218598 A JP H0218598A
Authority
JP
Japan
Prior art keywords
period
analysis
speech
waveform
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63166714A
Other languages
English (en)
Inventor
Shunichi Yajima
矢島 俊一
Hiroshi Ichikawa
市川 熹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63166714A priority Critical patent/JPH0218598A/ja
Priority to US07/375,723 priority patent/US4982433A/en
Priority to CA000604854A priority patent/CA1319994C/en
Publication of JPH0218598A publication Critical patent/JPH0218598A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Monitoring And Testing Of Exchanges (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声分析装置に関し、特にピッチ変動による
分析結果のバラツキが少なく、また準定常的な音声信号
に対しても精度が高い分析結果を得ることのできる音声
分析処理装置に関する。
〔従来の技術〕
従来の音声分析では、オーム社文献「音声情報処理の基
礎」P21〜P28に記載のように、音声信号から10
〜30 m s範囲の固定長区間を分析区間として抽出
している。
〔発明が解決しようとする課題〕
第2図は成人男性の発声した′イ′の音声波形例である
。この二液形を視察してもほとんど差は無くまた聴取し
ても差を検知する事はできない。
しかし、従来の音声分析手法でこの二液形を分析すると
顕著な差が表われる。第3図に示すスペクトルは、第2
図(a)、(b)の波形から各々−周期波形を切り出し
、DFT (離散的フーリエ変換)を施して求めたもの
である。DFTにより求まる結果は、ピッチ周波数(周
期の逆数)の高調波成分のみであるが、第3図では、こ
れを直線補間して図示している。第3図の最も振幅の大
きい第1のフォルマントの目視計測にょるフォルマント
周波数は、第2図の第1フオルマント成分の周期の逆数
である。フォルマント成分の周期は、波形(a)、(b
)に対して同一で3.45rnsであり、フォルマント
周波数は290 Hzである。
また、波形(a)のピッチ周波数は130 Hz、波形
(b)のピッチ周波数は115 Hzである。
第3図から判る事は、ピッチ周波数が変動すると、得ら
れるスペクトルが変動する事である。これは特にフォル
マント周波数とピッチ周波数の高調波の周波数に開きが
あると著しい。
なお、音声分析の区間長を増し、周波数分解能を細かく
しても、フォルマント成分の検知は良好に行なえない。
第4図は、波形(b)がら二周期波形を切り出し、DF
Tを施して求めたスペクトルである。第4図では、分析
区間長を2倍にする事で、周波数分解能は57.5Hz
 (11,5/2Hz )と細かくなっている。この結
果287.5Hzのスペクトル成分が求まっている。こ
の周波数287.5Hz  は目視によるフォルマント
周波数(290Hz)にほぼ一致しているにもがかわら
ず、得られるスペクトル値は非常に小さな値となってい
る。このような結果となる理由は、臨接する周期波形に
おいて、フォルマント成分の位相が異なっているためで
ある。この位相ずれの度合いは、音声の周期をフォルマ
ント成分の周期で除した値の、小数部で判る。小数部が
0であれば、同相となり、0.5 であれば逆相となる
。ちなみに第2図(b)においては、音声周期が8.7
ms、フォルマント成分の周期が3.45m5であり、
前者を後者で除した数値は、2.52であり、小数部が
0.52となりほぼ逆相となっている。
以上に述べた、ピッチ変動に起因するスペクトルのバラ
ツキは、分析区間内の周期波形数を増加したり、窓掛け
を行なう事で解決される問題ではない。
本発明の目的は上記問題を解決し、精度良く音声分析を
行なう事にある。
〔課題を解決するための手段〕
上記目的は、フォルマント成分の位相が変化しない区間
を音声分析する事で達成される。
〔作用〕
音声のフォルマント成分は、−周期間隔で励起される減
衰正弦波と考えられる。前述したようにフォルマント成
分は臨接周期波形において位相がずれる可能性がある為
、フォルマント成分が同相となるには分析区間を一周期
以下にする必要がある。また分析区間を一周期としても
、不連続な位相変化フォルマント成分を含む危険がある
為、分析区間の始点を最大波高値の近傍とする必要があ
る。以下、第1図により詳細に説明する。
第1図は、第2図の波形(b)に対して本発明を適用す
る手順を説明する図である。
分析区間を図中Aのように一周期よりも長くすると位相
変化の不連続なフォルマント成分が混在して分析精度が
低下する。従って分析区間長を一周期とする必要がある
。次に一周期波形の切出位置を図中Bのようにすると、
これもまた位相変化の不連続なフォルマント成分が混在
する。フォルマント成分がほぼ減衰正弦波となっている
事を考えると、−周期波形中で最大波高位置を検出し、
その点を基点として逆時間方向に波形を追跡し、零レベ
ルを交叉する時点を分析区間の始点とする事で安定な分
析結果が得られる。このようにして求めた分析区間が図
中Cで示す区間である。尚、ここで零レベルとは、−周
期区間での波高値の平均レベルを意味する。
分析区間をCとする事で精度の良い分析結果が得られる
が、ここで問題となるのは、周波数分解能である。分析
区間Cで分析を行なった場合、周波数分解能は、周期の
逆数(ピッチ周波数)となる。これは通常70 Hz〜
500 Hzであり、周波数分解能の粗い結果しか得ら
れない。周波数分解能を高めるには、区間Cに対応する
波形の周辺に零をセットした仮想波形(図中W r )
を分析すれば良い。Wrの波形長をT秒とすると分析結
果の周波数分解能は1/T(Hz)となり適正なTを選
ぶことで高分解能の分析結果が得られる。
〔実施例〕
以下、本発明の一実施例を第5図により説明する。
10は入力音声信号である。この信号は標本化されてい
るものとする。1の周期計数部では10から周期を求め
20を出力する。これは、文献(「音声情報処理の基礎
JP121)に述べられている手法で実現できる。波高
平均レベル計算部2では、一周期区間内の波高値の総和
を求め、それを加算点数で除して平均レベルを求める。
周期波形切出部3では、一周期区間内の最大波高時点を
検出し、次に最大波高時点から逆時間方向に音声信号を
追跡し、音声信号値が、波高平均レベル以下になる最初
の時点を検出する。次にこれを始端とした一周期波形を
出力する。零詰め部4では、所定の周波数分解能を満足
するだけの零値を一周期波形に付加し、零詰め一周期波
形30を出力する。これは、第1図のWIに対応するも
のである。
スペクトル計算部5では文献([音声情報処理の基礎」
P18〜P21)に記載されているような方法で、30
をフーリエ変換処理してスペクトル40を出力する。
ここで入力音声信号10が既にコンデンサ等を通過して
周波数零成分がほとんどないと見做せる時には、特に波
高平均レベル計算部2を設ける必要はなく、周期波形切
出部3で波高平均レベルを0と考えて処理すれば良い。
次に零詰め部4で設定すべき零の個数について説明する
。この零の個数は周波数分解能に対応する。周波数分解
能を変化させた合成音を試聴し、音質の評価を行なった
所、周波数分解能で20Hzを超えると、顕著な音質劣
化があり、また周波数分解能を5 Hz以下に細かくし
ても音質に差がない事が判った。この事から周波数分解
能は、5 Hz〜20 Hzの範囲内にあれば良いと言
える。
第6図は所与の分解能を達成する為に必要な標本点数を
示すものである。この表の縦方向は標本化周波数を意味
し、横方向は周波数分解能を意味する。
フーリエ変換を行なう際には、FETを用いた方が演算
速度が速い。この時の制約条件は、処理点数を2のべき
乗とする事である。第4図に示す周波数分解能を満足し
て、FFTを行なうには、例えば標本化周波数8 K 
Hzの時には、512点、もしくは1024点に標本点
数を設定すれば良い。
この時、512点、1024点に対応する周波数分解能
は各々15.625Hz 、 7.8125Hzとなる
零詰め部4では、この標本点数と周期の差分点数の零を
詰め、スペクトル計算部5では、標本点数分のフーリエ
変換処理を行う。例えば、標本点数を512点とし、周
期が60点とすると、452点の零詰めをし、512点
のフーリエ変換を行なう。
音声分析処理技術は、多くの音声処理分野で共通して用
いられており、本分析方式は音声合成・音声認識装置に
適用可能であり、分析結果がピッチ変動の影響を受けに
くく、安定かつ正確なため各性能が向上する。
第7図は、音声分析合成装置の一実施例を示す構成図で
ある。音声分析合成装置に関しては、例えば、1.L、
FLANAGAN著のrspeach Analysj
、5Syuthesis and Perceptj、
onJ 中の)IomomorphicVocoder
sに詳しい。
以下、第7図に関して説明する。6は以上に述べた音声
分析処理部である。入力音声信号に対し、音源パルス列
生成部7では、周期を計数して、それに見合った間隔で
音源パルス列を生成する。合成フィルター8では、音源
パルスが入力される度に、スペクトルに対応する波形を
生成し加算する事で、音声出力波形を得る。スペクトル
に対応した波形を生成する方法としては、スペクトルに
零位相あるいは最小位相を設定して逆フーリエ変換を行
なう方法が知られている。構成要素7,8は前述のFL
ANAGAN氏の文献に詳述されており、当業者には容
易に実現する事ができる。
第8図は、音声認識装置の一実施例を示す構成図である
。音声認識装置に関しては、T、B、Martin編集
のrAutomatic 5peech & 5pea
ker RecognitionJに詳しい。
以下、第8図に関して説明する。6は前記した音声分析
処理部である。入力音声信号に対し、音声分析処理部6
でスペクトルを求め、9の標準パターン格納、読出部か
ら予め登録されている標準パターンの内容を逐次読出し
、一致判定部10で最も類似したパターンを選び出して
、それが属するカテゴリーを出力する。構成要素9,1
0は前述のMartin氏編の文献に詳述されており、
当業者にま容易に実現できる。
第9図は、第1図の音声波形を分析して求めたスペクト
ルである。フォルマント形状を分り易くするために、横
軸は対数軸としている。実線が、本発明で求めたスペク
トル、破線は、第4図に相当する分析区間を二周期波形
として求めたスペクトルである(2KHz以上省略)。
本発明により、得られたスペクトルではフォルマント形
状が精度良く (抽出されている事が判る。
また拗音のようにスペクトル形状が時間と共に変化する
際にも精度良くスペクトルが抽出できる。
〔発明の効果〕
以上述べたように、本発明によれば拗音のように時間と
共にスペクトルが変化する波形に対して良い精度でスペ
クトルを抽出でき、またピッチ周波数の変動によるスペ
クトル抽出精度の劣化を軽減でき る。
また、スペクトル抽出精度が高まる事により、合成音声
の音質向上や、音声認識率向上といった効果がある。
【図面の簡単な説明】
第1図は本発明の動作原理を説明する図、第2図は周期
の異なる波形例、第3図は従来手法による一周期波形分
析結果を示す図、第4図は従来手法による二周期波形分
析結果を示す図、第5図は本発明の1実施例を示す構成
図、第6図は所定周波数分解能を実現する為に必要な標
本点数を示す図、第7図は本発明の音声分析合成への応
用例を示す図、第8図は、本発明の音声認識への応用例
を示す図、第9図は、本発明による抽出スペクトル例を
示す図である。 1・・・周期計数部、2・・・波高平均レベル計算部、
3・・・周期波形切出部、4・・・零詰め部、5・・ス
ペクトル計算部、6・・・、本発明による音声分析処理
部、7・・・音源パルス列生成部、8・・・合成フィル
ター9・・・標準パターン格納読出部、10・・・一致
判定部、100・・・入力音声信号、200・・・周期
、300・・・(gρ) !’++(乙んY (a7D)]#11−IzkY

Claims (1)

  1. 【特許請求の範囲】 1、入力音声信号中の有声部分に対して、周期を計数し
    、一周期区間内の最大波高位置直前の零交叉点近傍を始
    点とした一周期波形を抽出し、抽出波形に対して高分解
    能の周波数分析を行なう事を特徴とする音声分析装置。 2、特許請求の範囲第1項において、上記周波数分解能
    を5〜20Hzの範囲とする事を特徴とする音声分析装
    置。 3、特許請求の範囲第1項又は、第2項記載の音声分析
    装置を具備した事を特徴とする音声分析合成装置。 4、特許請求の範囲第1項又は第2項記載の音声分析装
    置を具備した事を特徴とする音声認識装置。
JP63166714A 1988-07-06 1988-07-06 音声分析装置 Pending JPH0218598A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP63166714A JPH0218598A (ja) 1988-07-06 1988-07-06 音声分析装置
US07/375,723 US4982433A (en) 1988-07-06 1989-07-05 Speech analysis method
CA000604854A CA1319994C (en) 1988-07-06 1989-07-05 Speech analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63166714A JPH0218598A (ja) 1988-07-06 1988-07-06 音声分析装置

Publications (1)

Publication Number Publication Date
JPH0218598A true JPH0218598A (ja) 1990-01-22

Family

ID=15836398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63166714A Pending JPH0218598A (ja) 1988-07-06 1988-07-06 音声分析装置

Country Status (3)

Country Link
US (1) US4982433A (ja)
JP (1) JPH0218598A (ja)
CA (1) CA1319994C (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040029706A (ko) * 2002-10-02 2004-04-08 조판시 공업용 수세미의 샌드분사장치
JP2011007959A (ja) * 2009-06-24 2011-01-13 Ge Medical Systems Global Technology Co Llc 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2230132B (en) * 1988-11-19 1993-06-23 Sony Corp Signal recording method
JPH03200296A (ja) * 1989-12-28 1991-09-02 Yamaha Corp 楽音合成装置
US5220640A (en) * 1990-09-20 1993-06-15 Motorola, Inc. Neural net architecture for rate-varying inputs
US5171930A (en) * 1990-09-26 1992-12-15 Synchro Voice Inc. Electroglottograph-driven controller for a MIDI-compatible electronic music synthesizer device
US5267317A (en) * 1991-10-18 1993-11-30 At&T Bell Laboratories Method and apparatus for smoothing pitch-cycle waveforms
US6219635B1 (en) * 1997-11-25 2001-04-17 Douglas L. Coulter Instantaneous detection of human speech pitch pulses
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60168200A (ja) * 1984-02-13 1985-08-31 松下電器産業株式会社 ピツチ抽出装置
JPS60216393A (ja) * 1984-04-12 1985-10-29 ソニー株式会社 情報処理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4852169A (en) * 1986-12-16 1989-07-25 GTE Laboratories, Incorporation Method for enhancing the quality of coded speech

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60168200A (ja) * 1984-02-13 1985-08-31 松下電器産業株式会社 ピツチ抽出装置
JPS60216393A (ja) * 1984-04-12 1985-10-29 ソニー株式会社 情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040029706A (ko) * 2002-10-02 2004-04-08 조판시 공업용 수세미의 샌드분사장치
JP2011007959A (ja) * 2009-06-24 2011-01-13 Ge Medical Systems Global Technology Co Llc 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム

Also Published As

Publication number Publication date
CA1319994C (en) 1993-07-06
US4982433A (en) 1991-01-01

Similar Documents

Publication Publication Date Title
Slaney et al. Automatic audio morphing
McAulay et al. Pitch estimation and voicing detection based on a sinusoidal speech model
JP2906970B2 (ja) サウンドの分析及び合成方法並びに装置
JP4641620B2 (ja) ピッチ検出の精密化
Sun A pitch determination algorithm based on subharmonic-to-harmonic ratio
EP2401740B1 (en) Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
Vasilakis et al. Voice pathology detection based eon short-term jitter estimations in running speech
KR100653643B1 (ko) 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
Plante et al. Improvement of speech spectrogram accuracy by the method of reassignment
JPH0218598A (ja) 音声分析装置
Jain et al. Time-order representation based method for epoch detection from speech signals
WO2001004873A1 (fr) Procede d'extraction d'information de source sonore
Yadav et al. Epoch detection from emotional speech signal using zero time windowing
Azarov et al. Guslar: a framework for automated singing voice correction
Saratxaga et al. Use of harmonic phase information for polarity detection in speech signals.
JP3832266B2 (ja) 演奏データ作成方法および演奏データ作成装置
Dunn et al. Sinewave analysis/synthesis based on the Fan-Chirp tranform
Park et al. Pitch detection based on signal-to-noise-ratio estimation and compensation for continuous speech signal
McAulay Sine-wave based PSOLA pitch scaling with real-time pitch marking
KR930010398B1 (ko) 음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법
Anderson Limitations of short-time Fourier transforms in polyphonic pitch recognition
Ding Violin vibrato tone synthesis: Time-scale modification and additive synthesis
Luig et al. Sinusoidal Modelling and Synthesis
Glover et al. Real-time segmentation of the temporal evolution of musical sounds
Martin Prosodic annotation in adverse recording conditions