JPS5853357B2 - 音声分析合成方式 - Google Patents

音声分析合成方式

Info

Publication number
JPS5853357B2
JPS5853357B2 JP55038976A JP3897680A JPS5853357B2 JP S5853357 B2 JPS5853357 B2 JP S5853357B2 JP 55038976 A JP55038976 A JP 55038976A JP 3897680 A JP3897680 A JP 3897680A JP S5853357 B2 JPS5853357 B2 JP S5853357B2
Authority
JP
Japan
Prior art keywords
signal
voiced
sound source
analysis
amplitude value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55038976A
Other languages
English (en)
Other versions
JPS56135897A (en
Inventor
良二 田中
誠史 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JUSEISHO DENPA KENKYUSHOCHO
Original Assignee
JUSEISHO DENPA KENKYUSHOCHO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JUSEISHO DENPA KENKYUSHOCHO filed Critical JUSEISHO DENPA KENKYUSHOCHO
Priority to JP55038976A priority Critical patent/JPS5853357B2/ja
Publication of JPS56135897A publication Critical patent/JPS56135897A/ja
Publication of JPS5853357B2 publication Critical patent/JPS5853357B2/ja
Expired legal-status Critical Current

Links

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】 本発明は、音声伝送方式としての音声分析合成方式に関
するものである。
音声の狭帯域伝送方式として、代表的な分析合成系は、
1939年に開発されたチャネルボコーダである。
チャネルボコーダの基本的構成を第1図に示す。
音声入力信号は、Nチャネルの帯域フィルタ(BPF)
群で周波数分析され、各チャネルの出力信号は整流器と
低域フィルタ(LPF)により整流平滑される。
なお、Nは8〜20の場合が多い。
一方、音声入力信号の基本周波数(ピッチ周波数、Fo
)の抽出と、音声/無声の弁別が行われる。
分析部の出力信号は、周波数分析されたNチャネルの信
号、Fo(基本周期(ピッチ周期)二To=1/Foを
用いることもある)、有声/無声の弁別信号で、これら
がアナログ信号あるいはディジタル信号として伝送され
る。
合成部では、無声音源として雑音波形、有声音源として
周波数がF。
のパルス波形を生成し、有声/無声の弁別信号によりこ
れらを切換えてとり出し、Nチャネルの信号で音源信号
をそれぞれ振幅変調し、分析部と同じ帯域のBPFを通
じた後゛に加え合せ、合成音声を得る。
一方、最近のディジタル技術、信号処理の進歩にともな
い、音声波形信号の線形予測符号化方式(LPC)を利
用したボコーダが数多く提案され、実験されている。
LPCボコーダの基本的構成を第2図に示す。
音声入力信号は、LPCによりn次のLPC係数に分析
される。
LPC係数としては、αパラメータ、kパラメータ、P
ARCOR係数、対数面積比などがある。
これらは、音声の短時間周波数スペクトル、声道の伝送
特性、声道の形状に密接に関係し、相互に変換が可能で
ある。
分析の次数nは、8〜20の場合が多い。
LPCボコーダでも、チャネルボコーダと同様にF。
抽出と有声/無声の弁別が行われる。
これらは、音声入力信号から直接行われる場合と、LP
C分析した残差信号(入力信号から声道の伝達特性の成
分をとり除いたもので、音源信号に近似する)について
行われる場合がある。
また、残差信号の振幅(ゲインとよばれる)が振幅値と
して抽出される。
LPCボコーダで伝送されるパラメータは、LPC係数
、有声/無声の弁別信号、Foとゲインである。
合成部では、チャネルボコーダと同様に、雑音波形を無
声音源信号、周波数がF。
のパルス波形を有声音源とし、その振幅をゲインで振幅
変調した後にLPCの合成フィルタを励振する。
チャネルボコーダ、LPCボコーダをディジタル信号と
して伝送するときは、ディジタル化された1組のパラメ
ータ(フレームとよばれる)を、10〜30m5の周期
(フレーム周期とよばれる)ごとに伝送する。
合成に際しては、ピッチ周期ごとに、あるいは、フレー
ム周期より短い周期ごとにフレーム間の各パラメータは
内そうして用いられる。
なお、情報伝送速度は、2400〜9600bpsが多
い。
一般に、ピッチの伝送に6ビツト、ゲインの伝送に5〜
6ビツトが割当てられることが多い。
ところで、チャネルボコーダ、LPCボコーダとも、原
理が発表されて以来数多くの改良、開発が行われた。
しかし、合成音声の品質にやや難点があり、商用回線で
使用されるには至っていない。
しかし、専用通信回線、軍用などでは、回線を効率的に
利用できること、秘話性があることなどから利用されて
いる。
さて、その品質劣化の最大の原因は、ピッチ抽出の不適
切さにあることはよく知られている。
従って、ピッチ抽出に関しても、無数といえる程の手法
が発表されているが、未だ確立した手法はない。
特に、実用回線では周囲騒音のため、音声信号のSN比
が低下し、ピッチ抽出が更に困難になることが多い。
SN比の低い音声で正確なピッチ抽出を行うことは大き
な問題で、たとえば、「長淵裕美、″コーム・フィルタ
リングによる雑音抑圧処理“、日本音響学会音声研究会
資料579−48、昭和54年11月」では7系統の相
関計算によりピッチ周波数を定めている。
また、専用回線等では、話の内容が通じればよい場合が
多いことから、ピッチ抽出を行わず、合成側では一定の
ピッチ周波数(コンスタントピッチといわれる)で合成
する例も見受けられる。
一方、ピッチ周波数と音声波形、あるいは有声音源波形
の振幅との間に相関があることは、古くから指摘されて
いる。
たとえば、「小林、枝野、1日本語におけるピッチ・バ
タンと強さバタンとの相関11、日本音響学会講演論文
集、1−4−8、昭和41年5月」や「比企静雄、11
音声ピツチの変化と声帯音の強さの変化との関係”、日
本音響学会誌、23巻1号、PP、 20−22、昭和
42年1月」に実験結果が示されている。
前者では、ピッチ周波数と振幅強度の相関係数が平均0
.8であることが述べられている。
本発明は、チャネルボコーダLPCボコーダなどの分析
合成方式において、音声の振幅値からピッチ周波数を定
めて有声音源のパルス波を生成して合成音を得ることが
特徴であり、分析側でピッチ抽出を行わず、また、その
結果としてピッチ周波数(ピッチ周期)の伝送を必要と
しない。
第3図は第1の発明の実施例のブロック図であって、1
0は入力端、30は帯域フィルタ(BPF)、31は整
流器、32は低域フィルタ(LPF)、33は有声/無
声弁別器、34は振幅変調器、35はBPF、36はス
イッチ、37は雑音発振器、38は制御回路、39はパ
ルス発振器、20は出力端である。
10に音声波形信号が加えられると、NチャネルのBP
F群30−1〜3O−N(周波数の低いBPFを第1チ
ヤネルとする)によって周波数分析が行われる。
全BPFの周波数帯域は、伝送しようとする音声の周波
数帯域に対応し、Nは8〜20チャネル程度でよい。
各BPFの出力は整流器31−1〜31−Nにより整流
され、LPF32−1〜32−Nにより平滑されて準直
流波になる。
なお、LPFの遮断周波数は2011z程度である。
一方、音声信号は有声/無声弁別器33に加えられ、有
声/無声(V/UV)の弁別信号が1ビツトの信号で得
られる。
第3図の左半分が分析部であり、分析部の各ブロックは
、第1図に示したような従来のチャネルボコーダからピ
ッチ抽出器をとり除いたもので、公知の技術を利用でき
る。
分析部と合成部を接続する点線は、伝送過程を表わすが
、伝送方式は問わない。
合成部に送られる信号は、32−1〜32−Nの出力信
号と33の出力(V/UV)の弁別信号である。
ここで、32−1から32−M (M<N)の出力を加
え合せて制御回路38に印加する。
38に制御されてパルス発振器39が有声音源のパルス
波形を発振する。
また、雑音発振器37は常に白色雑音を発生する。
37と39の出力信号はスイッチ36の端子に加えられ
る。
36は単極双投のスイッチで、■/UVの弁別信号で切
換えられ、■のときは39の出力を取り出し、UVのと
きは37の出力を取り出す。
36の出力信号は振幅変調器34−1〜34−Nの一端
に印加される。
34−1〜34−Nの他端には、32−1〜32−Nの
出力信号がそれぞれ印加され、36の出力信号は32−
1〜32Nの信号で振幅変調される。
34−1〜34−Nの出力信号は、BPF群35−1〜
35−Nによりそれぞれの周波数帯域成分をとり出した
後に加え合わされ、出力信号(合成音)として出力端2
0からとり出される。
なお、ここで、30と35の各周波数帯域は等しい。
また、パルス発振器39が分析されたピッチ周波数を発
生するように制御されているとすれば、合成部の構成は
従来のチャネルボコーダの合成部と同じである。
すなわち、本発明の分析合成方式の構成は、第1図に示
したような従来のチャネルボコーダからピッチ抽出部と
ピッチ周波数の伝送を省略し、38を加えたことになる
32−1から32−Mの出力の和で38を駆動するが、
M=Hのときの和は入力音声波形信号の振幅値に対応す
る。
高い周波数帯域の成分は無声音のときレベルが高いこと
、有声音のときは高い周波数帯になる程レベルが低いの
で、一般にM〈Nでよく、M=1でも差し支えない。
1例として、時刻tにおける振幅値をA t (dB)
としたとき、39の発振周波数をF。
tとすると、Fotが(1)式で表わされるように38
は制御を行うものとする。
F□ t = aA t + b (Hz) ・・・
・・・・・・・・・・・・・・・ (1)a、bは常数
である。
ここでは、振幅値を対数(aB)で表したとき、ピッチ
周波数と振幅の相関が高いことを利用し、aはその比例
定数である。
また、bは最低のピッチ周波数に対応し、男声の場合は
50〜80Hzである。
一般には、(1)式に従い39の発振周波数を制御すれ
ば主いが、文音声のピッチ周波数は、大局的には呼気段
落ごとに緩やかに変化し、その基本的変化に対し、音声
の強度、アクセントが変化を与えているとみなすことが
できる。
大局的な変化は、(2)式または(3)式によって表す
ことができる。
B(t)= d −exp(−ct) +b ・・−=
−(2)B(t)=dt−exp(−ct)+b −・
・・−” (3)ここで、tは呼気段落の有声音の始
点をOとする。
また、c、dは正の常数であり、分析結果によって定め
られる。
(2)式では、B(t)はある周波数(b+d)から時
間の経過とともに指数的に減少しbに近づく。
(3)式では、b(t)はbからやや急激に上昇して最
高の周波数に達し、徐々に指数的に減少しbに近づく。
B(t)は、時間の経過とともに減少する一次式であっ
てもよい。
(1) 、 (2) 、 (3)式などを統合した一般
式は、(1)式のbの代りにB(t)を代入すればよい
これを(4)式に示す。
F□ t = a A t + B (t) ・・・
・・・・・・・・・・・・・・・・・・・・・ (4)
実際の音声では、有声音区間を検出してt=0とし、計
算を始める。
呼気段落では一般に500m5以上のポーズがあり、一
方、有声音にはさまれた無声音の区間は100〜200
m5のことが多い。
従って、500m5程度以上にわたって有声音区間が途
切れた場合は呼気段落とみなし、あらためて1=0とし
てF。
tを算出する。ただし、(1)式による場合は、Atと
F。
が1対1に対応するので上記のような処理は必要ではな
い。
次に、第2の発明の方式についで述べる。
第4図は第2の発明の実施例のブロック図である。
40はLPC分析器、41は合成フィルタであり、他は
第3図の実施例のブロック図と共通の番号のブ田ンクは
、同じ機能のブロックである。
入力端子10に印加された音声波形信号は、LPC分析
器40に送られ線形予測分析が行われる。
その手法や得られるパラメータは、αパラメータ、kパ
ラメータ、PARCOR係数、LAR(対数面積比)な
ど何でもよい。
ここで、n次(n=8〜20が用いられることが多い)
のパラメータpが得られるものとする。
なお、線形予測分析では、入力音声波形信号から上記の
パラメータで構成される伝送特性をとり除いた波形信号
(残差といわれる)も同時に得るのが通例で、その振幅
値(ゲイン)も出力信号として得られる。
有声/無声弁別器33で、有声/無声(V/UV)の弁
別が行われるが、これは第3図のときと同様に人力音声
波形信号に関して行う場合と、残差やpを利用して行う
場合があるが、いづれでも差し支えない。
p1ゲイン、V/UVの信号が伝送され、これらから音
声が合成される。
ゲインを振幅値として、制御回路38は(4)式により
パルス発振器39の周波数F。
を制御する。その結果、39は周波数Foのパルス波形
を発生する。
一方、雑音発振器37は、常に白色雑音を発生する。
37と39の出力信号はスイッチ36の端子に加えられ
る。
36はV/[JVの弁別信号で切換えられ、■のときは
39の出力が、UVのときは37の出力が取り出され、
振幅変調器34に印加される。
この信号はゲインにより34で振幅変調された後に、合
成フィルタ41の励振源となる。
41は40の分析手法と次数に対応したn次のディジタ
ルフィルタで。
その係数はpによって制御される。
41の出力信号として合成音声波形が得られる。
本発明の方式は、第2図に示したLPCボコーダの構成
とは、ピッチ抽出器とピッチ周波数の伝送を省略し、有
声音源のパルス波形の周波数を、振幅値(ゲイン)から
生成する点が異なる。
次に、本発明の方式(第2の発明の方式)の実験例を示
す。
入力音声信号を10 kHzの標本化周波数で標本化し
、kパラメータによる分析を行った。
n=12、フレーム周期10m5である。有声/無声の
弁別は自己相関法で行った。
Fotは、分析結果を参照し簡単のために、a=1.3
、b=80として(1)式により計算した。
ゲインとF。tlならびに参考のために5IFT(残差
波形の相関関数による方法)で抽出したピッチ周波数を
第5図に示す。
ここでは、0はゲイン、・はF。t、 Xはピッチ周波
数である。
Fotと×は、かなりよい相関を示している。
4人の話者による平叙文、疑問文、命令文を上記の方式
で、分析合成を行ったところ、コンスタントピッチの合
成音声よりははるかに自然な音声が合成された。
なお、疑問文、命令文も間違いなく了解できた。
以上のように、本発明の方式によれば、従来用いられて
きたチャネルボコーダやLPCボコーダなどの分析合成
系から、その最大の技術的問題点であるピッチ抽出器が
不要になるとともに、ピッチ周波数の伝送も必要がなく
なり、装置の小型化、低廉化とともに、効率的伝送、周
囲騒音に影響され難い安定した通信が可能となるので、
警察通信や言語情報の伝送を目的とする専用通信回線に
広く利用することができる。
【図面の簡単な説明】
第1図、第2図は本発明に関連する従来の技術のブロッ
ク図、第3図、第4図は本発明の実施例のブロック図、
第5図は本発明の結果の1例を示す図である。 10・・・・・・入力端、30 、35・・・・・・帯
域フィルタ、31・・・・・・整流器、32・・・・・
・低域フィルタ、33・・・・・・有声/無声弁別器、
34・・・・・・振幅変調器、36・・・・・・スイッ
チ、37・・・・・・雑音発振器、38・・・・・・制
御回路、39・・・・・・パルス発振器、40・・・・
・・LPC分析器、41・・・・・・合成フィルタ。

Claims (1)

  1. 【特許請求の範囲】 1 分析部において、入力音声波形信号をNチャネル(
    Nは正の整数)の帯域フィルタ(BPF)群で周波数分
    析を行い、それぞれを整流平滑した信号と、有声/無声
    の弁別信号を伝送し、合成部では弁別信号が無声信号の
    ときは雑音波形を音源信号とし、有声信号のときは低域
    のMチャネル(1くMくN)の整流平滑信号を加え合わ
    せて振幅値を得、その振幅値により発振周波数を定めた
    パルス波形を音源信号とし、これらの音源信号を伝送さ
    れた各チャネルの整流平滑信号で振幅変調した後、分析
    部と同じ特性のBPFを通し加え合わせることにより、
    合成音声波形信号を得ることを特徴とする音声分析合成
    方式。 2 人力音声波形信号を線形予測符号化方式(以下、L
    PCとよぶ)により分析して得られたn次の係数と、有
    声/無声の弁別信号とゲイン(振幅値)を伝送し、弁別
    信号が無声信号のときは雑音波形を音源信号とし、有声
    信号のときは振幅値により発振周波数を定めたパルス波
    形を音源とし、これらの音源信号を振幅値で振幅変調し
    た後にLPCの係数で制御された合成フィルタを駆動す
    ることにより、合成音声波形信号を得ることを特徴とす
    る音声分析合成方式。 3 振幅値により、有声音源信号のパルス波形の発振周
    波数を定める際に、発振周波数を次式Fot:時刻tに
    おける発振周波数 At:時刻tにおける振幅値(dB表示)a :常数 B(t):時間の関数としての数値 ただし、tは呼気段、落ごとの有声音の始点より計測す
    る。 により定めることを特徴とする特許請求の範囲第1項並
    びに第2項記載の発振周波数制御方式。
JP55038976A 1980-03-28 1980-03-28 音声分析合成方式 Expired JPS5853357B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP55038976A JPS5853357B2 (ja) 1980-03-28 1980-03-28 音声分析合成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP55038976A JPS5853357B2 (ja) 1980-03-28 1980-03-28 音声分析合成方式

Publications (2)

Publication Number Publication Date
JPS56135897A JPS56135897A (en) 1981-10-23
JPS5853357B2 true JPS5853357B2 (ja) 1983-11-29

Family

ID=12540176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP55038976A Expired JPS5853357B2 (ja) 1980-03-28 1980-03-28 音声分析合成方式

Country Status (1)

Country Link
JP (1) JPS5853357B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60131947U (ja) * 1983-10-31 1985-09-03 株式会社東芝 防爆形ブラウン管
WO1993019459A1 (en) * 1992-03-18 1993-09-30 Sony Corporation High-efficiency encoding method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60131947U (ja) * 1983-10-31 1985-09-03 株式会社東芝 防爆形ブラウン管
WO1993019459A1 (en) * 1992-03-18 1993-09-30 Sony Corporation High-efficiency encoding method

Also Published As

Publication number Publication date
JPS56135897A (en) 1981-10-23

Similar Documents

Publication Publication Date Title
RU2144261C1 (ru) Передающая система на принципах различного кодирования
JP4740260B2 (ja) 音声信号の帯域幅を疑似的に拡張するための方法および装置
KR20010014352A (ko) 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치
JP2903533B2 (ja) 音声符号化方式
US5706392A (en) Perceptual speech coder and method
US4991215A (en) Multi-pulse coding apparatus with a reduced bit rate
McAulay et al. Multirate sinusoidal transform coding at rates from 2.4 kbps to 8 kbps
US7603271B2 (en) Speech coding apparatus with perceptual weighting and method therefor
JP2586043B2 (ja) マルチパルス符号化装置
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
Crochiere et al. Current perspectives in digital speech
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
Robinson Speech analysis
Sen et al. Use of an auditory model to improve speech coders
JPS5853357B2 (ja) 音声分析合成方式
Boland et al. High quality audio coding using multipulse LPC and wavelet decomposition
JP2001242899A (ja) 音声符号化方法及び装置並びに及び音声復号方法及び装置
Atal et al. Optimizing predictive coders for minimum audible noise
JPH04116700A (ja) 音声分析・合成装置
US3493684A (en) Vocoder employing composite spectrum-channel and pitch analyzer
JP3785363B2 (ja) 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法
JPH0235994B2 (ja)
JPH0462600B2 (ja)
JPS62278598A (ja) 帯域分割型ボコ−ダ
JP2535809B2 (ja) 線形予測型音声分析合成装置