JP4132154B2 - 音声合成方法及び装置、並びに帯域幅拡張方法及び装置 - Google Patents
音声合成方法及び装置、並びに帯域幅拡張方法及び装置 Download PDFInfo
- Publication number
- JP4132154B2 JP4132154B2 JP29140597A JP29140597A JP4132154B2 JP 4132154 B2 JP4132154 B2 JP 4132154B2 JP 29140597 A JP29140597 A JP 29140597A JP 29140597 A JP29140597 A JP 29140597A JP 4132154 B2 JP4132154 B2 JP 4132154B2
- Authority
- JP
- Japan
- Prior art keywords
- narrowband
- speech
- wideband
- parameter
- codebook
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000001308 synthesis method Methods 0.000 title claims description 13
- 238000013139 quantization Methods 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 46
- 230000005284 excitation Effects 0.000 claims description 42
- 230000015572 biosynthetic process Effects 0.000 claims description 29
- 238000003786 synthesis reaction Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 description 12
- 238000009432 framing Methods 0.000 description 10
- 238000005070 sampling Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000005484 gravity Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Description
【発明の属する技術分野】
本発明は、送信側から伝送されてきた符号化パラメータを用いて音声を合成する音声合成方法及び装置、並びに電話のような通信、放送によって伝えられる周波数帯域の狭い音声信号を、伝送路ではそのままに、受信側で帯域幅を拡張する帯域幅拡張方法及び装置に関する。
【0002】
【従来の技術】
電話回線の帯域は例えば300〜3400Hzと狭く、電話回線を介して送られてくる音声信号の周波数帯域は制限されている。このため、従来のアナログ電話回線の音質はあまり良好とは言えない。また、ディジタル携帯電話の音質についても不満がある。
【0003】
しかしながら、伝送路の規格が定まっているため、この帯域幅を広げることは難しく、したがって、受信側で帯域外の信号成分を予測し、広帯域信号を生成するシステムが様々提案されている。この中で、コードブックマッピングを用いた方式の品質が良いとされている。この方式は、入力された狭帯域音声のスペクトル包絡から、広帯域音声のスペクトル包絡を予測するために、分析用と合成用の二つのコードブックを持つことを特徴とする。
【0004】
具体的には、あらかじめスペクトル包絡を表すパラメータの一種であるLPCケプストラムにより、狭帯域用、広帯域用の二つのコードブックを作成しておく。この二つのコードブックのコードベクタは一対一に対応しており、狭帯域入力音声から狭帯域用LPCケプストラムを求め、狭帯域コードブック内コードベクタと比較することによりベクトル量子化し、対応する広帯域コードブック内コードベクタを用いて逆量子化することによって広帯域用LPCケプストラムが求められるという仕組みである。
【0005】
ここで、二つのコードブックのコードベクタが一対一に対応するための作成方法は以下の通りである。まず広帯域学習用音声と、それを帯域制限した狭帯域学習用音声を用意し、それぞれをフレーミングし、狭帯域音声から求めたLPCケプストラムにより、まず狭帯域コードブックを学習、作成する。そして、結果として得られた各コードベクタに量子化される狭帯域学習用音声のフレームに対応する広帯域学習用音声のフレームを集め、その重心を取ることによって広帯域コードベクタとし、広帯域コードブックを作成する。
【0006】
また、この応用として、広帯域学習用音声で先に広帯域用コードブックを作成し、対応する狭帯域学習用音声のフレームの重心を取ることで狭帯域コードベクタとし、狭帯域コードブックを作成しても良い。
【0007】
さらに、コードベクタとするパラメータに自己相関を用いた方式もある。また、LPC分析、合成を行う方式の場合、励振源が必要となるが、この励振源には、パルス列とノイズを用いたもの、狭帯域励振源をアップサンプルしたもの、がある。
【0008】
【発明が解決しようとする課題】
ところで、上述したような方法を用いても、まだ音質は十分とは言えず、特に現在我が国で利用されているディジタル方式の携帯電話に採用されている、いわゆるCELP(Code Excited Linear Prediction:符号励起線形予測)符号化系の符号化方式であるVSELP(Vector Sum Excited Linear Prediction:ベクトル和励起線形予測)符号化方式や、PSI−CELP(Pitch Synchronus Innovation - CELP:ピッチ同期雑音励振源−CELP)符号化方式等の低ビットレートの音声符号化方式を用いて符号化した音声に適用すると、音質の不十分さは顕著であった。
【0009】
また、狭帯域と広帯域のコードブックを用意しておくことによる、使用メモリ領域の大きさも問題であった。
【0010】
本発明は、上記実情に鑑みてなされたものであり、聴感上品質の良い広帯域音声を得ることのできる音声合成方法及び装置、並びに帯域幅拡張方法及び装置の提供を目的とする。
【0011】
また、本発明は、上記実情に鑑みてなされたものであり、コードブックを分析合成両用とすることによりメモリ容量を節約できる音声合成方法及び装置、並びに帯域幅拡張方法及び装置の提供を目的とする。
【0012】
【課題を解決するための手段】
本発明に係る音声合成方法は、所定時間単位毎に広帯域音声から抽出した特徴パラメータにより予め作成した広帯域コードブックを備え、入力された複数種類の符号化パラメータを用いて音声を合成する音声合成方法において、上記複数種類の符号化パラメータを復号化し、この復号化された複数種類の符号化パラメータの内の第1の符号化パラメータを用いて励振源を求めると共に、第2の符号化パラメータを音声合成用の特徴パラメータに変換し、この音声合成用特徴パラメータを上記広帯域コードブック内の各コードベクトルより部分抽出して求めた狭帯域特徴パラメータと比較することによって量子化し、この量子化データを上記広帯域コードブックを用いて逆量子化し、この逆量子化データと上記励振源とに基づいて音声を合成する。
【0013】
本発明に係る音声合成装置は、所定時間単位毎に広帯域音声から抽出した特徴パラメータにより予め作成した広帯域コードブックを備え、入力された複数種類の符号化パラメータを用いて音声を合成する音声合成装置において、上記複数種類の符号化パラメータを復号化する復号化手段と、上記復号化手段により復号化された複数種類の符号化パラメータの内の第1の符号化パラメータを用いて励振源を求めると励振源形成手段と、上記復号化手段により復号化された複数種類の符号化パラメータの内の第2の符号化パラメータを音声合成用の特徴パラメータに変換するパラメータ変換手段と、上記広帯域コードブック内の各コードベクトルを部分抽出して狭帯域パラメータを求める部分抽出手段と、上記パラメータ変換手段からの上記特徴パラメータを上記部分抽出手段からの狭帯域パラメータを用いて量子化する量子化手段と、上記量子化手段からの量子化データを上記広帯域コードブックを用いて逆量子化する逆量子化手段と、上記逆量子化手段からの逆量子化データと上記励振源形成手段からの励振源とに基づいて音声を合成する合成手段とを備える。
【0014】
本発明に係る帯域幅拡張方法は、所定時間単位毎に広帯域音声から抽出したパラメータにより予め作成した広帯域コードブックを備え、入力された狭帯域音声を帯域幅拡張する帯域幅拡張方法において、上記入力された狭帯域音声から狭帯域パラメータを出力し、この狭帯域パラメータを、上記広帯域コードブック内の各コードベクトルより部分抽出して求めた狭帯域パラメータと比較することによって量子化し、この量子化データを上記広帯域コードブックを用いて逆量子化し、この逆量子化データに基づいて上記狭帯域音声の帯域幅を拡張する。
【0015】
本発明に係る帯域幅拡張装置は、所定時間単位毎に広帯域音声から抽出したパラメータにより予め作成した広帯域コードブックを備え、入力された狭帯域音声を帯域幅拡張する帯域幅拡張装置において、上記入力された狭帯域音声から狭帯域パラメータを出力する狭帯域パラメータ出力手段と、上記広帯域コードブック内の各コードベクトルを部分抽出して狭帯域パラメータを求める部分抽出手段と、上記部分抽出手段からの狭帯域パラメータを上記狭帯域パラメータ演算手段からの狭帯域パラメータを用いて量子化する狭帯域音声量子化手段と、上記狭帯域音声量子化手段からの狭帯域量子化データを上記広帯域コードブックを用いて逆量子化する広帯域音声逆量子化手段とを備え、上記広帯域音声逆量子化手段からの逆量子化データに基づいて上記狭帯域音声の帯域幅を拡張する。
【0024】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照しながら説明する。この実施の形態は、本発明に係る帯域幅拡張方法を用いて、入力された狭帯域音声の帯域幅を拡張する図1に示す音声帯域幅拡張装置である。この音声帯域幅拡張装置の入力端子1には、周波数帯域が例えば300Hz〜3400Hzで、サンプリング周波数が8kHzの狭帯域音声信号が供給される。
【0025】
この音声帯域幅拡張装置は、広帯域有声音及び無声音から抽出した有声音用及び無声音用パラメータを用いて予め作成した広帯域有声音用コードブック12と広帯域無声音用コードブック14と、上記広帯域音声を周波数帯域制限して得た周波数帯域が例えば300Hz〜3400Hzの狭帯域音声信号から抽出した有声音用及び無声音用パラメータにより予め作成した狭帯域有声音用コードブック7と狭帯域無声音用コードブック10とを備える。
【0026】
また、この帯域幅拡張装置は、入力端子1から入力され、フレーム化回路2により、160サンプル毎にフレーミング(サンプリング周波数は8kHzであるので1フレームは20msec)された上記狭帯域信号に基づいて励振源を求める励振源形成手段となるゼロ詰め部16と、上記入力狭帯域信号を20msecの1フレーム毎に有声音(V)と無声音(UV)に判定する有声音(V)/無声音(UV)判定部5と、この有声音(V)/無声音(UV)判定部5からの有声音(V)/無声音(UV)判定結果に基づいて狭帯域有声音用及び無声音用の線形予測係数αを出力するLPC(線形予測符号化)分析回路3と、このLPC分析回路3からの線形予測係数αをパラメータの一種である自己相関rに変換する線形予測係数→自己相関(α→r)変換回路4と、このα→r変換回路4からの狭帯域有声音用自己相関を狭帯域有声音用コードブック8を用いて量子化する狭帯域有声音用量子化器7と、上記α→r変換回路4からの狭帯域無声音用自己相関を狭帯域無声音用コードブック10を用いて量子化する狭帯域無声音用量子化器9と、狭帯域有声音用量子化器7からの狭帯域有声音用量子化データを広帯域有声音用コードブック12を用いて逆量子化する広帯域有声音用逆量子化器11と、狭帯域無声音用量子化器9からの狭帯域無声音用量子化データを広帯域無声音用コードブック14を用いて逆量子化する広帯域無声音用逆量子化器13と、広帯域有声音用逆量子化器11からの逆量子化データとなる広帯域有声音用自己相関を広帯域有声音用の線形予測係数に変換すると共に広帯域無声音用逆量子化器13からの逆量子化データとなる広帯域無声音用自己相関を広帯域無声音用の線形予測係数に変換する自己相関→線形予測係数(r→α)変換回路15と、このr→α変換回路15からの広帯域有声音用線形予測係数と広帯域無声音用線形予測係数とゼロ詰め部16からの励振源とに基づいて広帯域音声を合成するLPC合成回路17とを備えてなる。
【0027】
また、この帯域幅拡張装置は、フレーム化回路2でフレーミングされた狭帯域音声のサンプリング周波数を8kHzから16kHzにオーバーサンプリングするオーバーサンプル回路19と、LPC合成回路17からの合成出力から入力狭帯域音声信号の周波数帯域300Hz〜3400Hzの信号成分を除去するバンドストップフィルタ(BSF)18と、このBSF18からのフィルタ出力にオーバーサンプル回路19からのサンプリング周波数16kHzの周波数帯域300Hz〜3400Hzの基の狭帯域音声信号の成分とを加算する加算器20とを備えている。そして、出力端子21からは、周波数帯域が300〜7000Hzで、サンプリング周波数が16kHzのディジタル音声信号が出力される。
【0028】
ここで、広帯域有声音用コードブック12と広帯域無声音用コードブック14と、狭帯域有声音用コードブック8と狭帯域無声音用コードブック10の作成について説明する。
【0029】
先ず、広帯域有声音用コードブック12と広帯域無声音用コードブック14は、フレーム化回路2でのフレーミングと同様に例えば20msec毎にフレーミングした、周波数帯域が例えば300Hz〜7000Hzの広帯域音声信号を、有声音(V)と無声音(UV)に分け、この広帯域有声音及び無声音から抽出した有声音用及び無声音用パラメータを用いて作成する。
【0030】
また、狭帯域有声音用コードブック7と狭帯域無声音用コードブック10は、上記広帯域音声を周波数帯域制限して得た周波数帯域が例えば300Hz〜3400Hzの狭帯域音声信号から抽出した有声音用及び無声音用パラメータにより作成する。
【0031】
図2は、上記4つのコードブックを作成するにあたっての学習データの作り方を説明するための図である。図2に示すように、広帯域の学習用音声信号を用意し、ステップS1で1フレーム20msecにフレーミングする。また、上記広帯域の学習用音声信号をステップS2で帯域制限して狭帯域とした信号についても上記ステップS1でのフレーミングと同じタイミングのフレーム位相によりステップS3でフレーミングする。そして、狭帯域音声の各フレームにおいて、例えばフレームエネルギーやゼロクロスの値等を調べることによってステップS4で有声音(V)か無声音(UV)かの判別を行う。
【0032】
ここで、コードブックの品質を良いものとするために、有声音(V)から無声音(UV)、UVからVへの遷移状態のものや、VともUVとも判別しがたいものは除外してしまい、確実にVであるものと、確実にUVであるもののみを利用する。このようにして、学習用狭帯域Vフレームの集まりと、同うVフレームの集まりを作成する。
【0033】
次に、広帯域フレームもVとUVに分類するが、狭帯域フレームと同じタイミングでフレーミングされているため、その判別結果を用いて、狭帯域でVと判別された狭帯域フレームと同じ時刻の広帯域フレームはVとし、UVと判別された狭帯域フレームと同じ時刻の広帯域フレームはUVとする。以上により、学習用データが作成される。ここで、狭帯域でVにもUVにも分類されなかった場合は、広帯域でも同様であることは言うまでもない。
【0034】
また、図示しないが、これと対称な方法で学習データを作ることも可能である。すなわち、広帯域フレームを用いてV/UVの判別を行い、その判別結果を用いて狭帯域フレームのV/UVを分類するというものである。
【0035】
続いて、ここで得られた学習データを用い、図3に示すようにコードブックを作成する。図3に示すように、まず広帯域V(またはUV)フレームの集まりを用いて広帯域V(UV)コードブックを学習し作成する。
【0036】
先ず、ステップS6に示すように、各広帯域フレームにおいて、例えばdn次までの自己相関パラメータを抽出する。自己相関パラメータは以下の(1)式に基づいて算出される。
【0037】
【数1】
【0038】
ここで、xは入力信号、φ(xi)はi次の自己相関、Nはフレーム長である。
【0039】
この各フレームのdn次元の自己相関パラメータから、GLA(Generalized Lloyd Algorithm)により次元dn、サイズsnの広帯域V(UV)コードブックをステップS7で作成する。
【0040】
ここで、各広帯域V(UV)フレームの自己相関パラメータが、作成されたコードブックの、どのコードベクタに量子化されるかをエンコード結果から調べる。そしてコードベクタごとに、そのベクタに量子化された各広帯域V(UV)フレームに対応する、すなわち同じ時刻の各狭帯域V(UV)フレームから求められるdn次元の自己相関パラメータ同士の例えば重心を算出し、これをステップS8で狭帯域コードベクタとする。これをすべてのコードベクタに対して行うことにより、狭帯域コードブックが生成される。
【0041】
また、図4に示すように、これと対称な方法も可能である。すなわち、先にステップS9からステップS10で狭帯域フレームのパラメータを用いて学習することにより狭帯域コードブックを作成し、ステップS11で対応する広帯域フレームのパラメータの重心を求めるというものである。
【0042】
以上により狭帯域V/UV、広帯域V/UVの4つのコードブックが作成される。
【0043】
次に、これらのコードブックを使用して、実際に狭帯域音声が入力されたときに、広帯域音声を出力する、上記帯域幅拡張方法を適用した帯域幅拡張装置の動作について図5を参照しながら説明する。
【0044】
入力端子1から入力された上記狭帯域音声信号は、先ずステップS21でフレーム化回路2により160サンプル(20msec)毎にフレーミングされる。そして各フレームについて、LPC分析回路3で、ステップS23のようにLPC分析が行われ、線形予測係数αパラメータとLPC残差に分けられる。αパラメータはステップS24でα→r変換回路4により自己相関rに変換される。
【0045】
また、フレーミングされた信号は、ステップS22でV/UV判定回路5により、V/UVの判別が行われており、ここで、Vと判定されると、α→r変換回路4からの出力を切り替えるスイッチ6は、狭帯域有声音量子化回路7に接続され、UVと判定されると、狭帯域無声音量子化回路9に接続される。
【0046】
ただし、ここでのV/UVの判別は、コードブック作成時とは異なり、VにもUVにも属さないフレームは発生させず、必ずどちらかに振り分ける。実際には、UVの方が、高域エネルギーが大きいために、高域を予測した場合、大きなエネルギーとなる傾向があるが、V/UV判断が難しいもの等をUVと誤って判断した場合に異音を発生することにつながる。したがって、コードブック作成時にはVともUVとも判別できなかったものは、Vとするよう設定している。
【0047】
UV判定回路5がVと判定したときには、ステップS25では、スイッチ6からの有声音用自己相関rを狭帯域V量子化回路7に供給し、狭帯域Vコードブック8を用いて量子化する。一方、UV判定回路5がVであるときには、ステップS25では、スイッチ6からの無声音用自己相関rを狭帯域UV量子化回路9に供給し、狭帯域UVコードブック10を用いて量子化する。
【0048】
そして、ステップS26でそれぞれ対応する広帯域V逆量子化回路11又は広帯域UV逆量子化回路13により広帯域Vコードブック12又は広帯域UVコードブック14を用いて逆量子化され、これにより広帯域自己相関が得られる。
【0049】
そして、広帯域自己相関はステップS27でr→α変換回路15により広帯域αに変換される。
【0050】
一方で、LPC分析回路3からのLPC残差は、ステップS28でゼロ詰め部16によりサンプル間にゼロが詰められることでアップサンプルされ、エイリアシングにより広帯域化される。そして、これが広帯域励振源として、LPC合成回路17に供給される。
【0051】
そして、ステップS29で、LPC合成回路17が広帯域αと広帯域励振源とを、LPC合成し、広帯域の音声信号が得られる。
【0052】
しかし、このままでは予測によって求められた広帯域信号にすぎず、予測による誤差が含まれる。特に入力狭帯域音声の周波数範囲に関しては、入力音声をそのまま利用したほうが良い。
【0053】
したがって、入力狭帯域音声の周波数範囲をステップS30でBSF18を用いたフィルタリングにより除去してから、ステップ31でオーバーサンプル回路19により狭帯域音声をオーバーサンプルしたものと、ステップS32で加算する。これにより、帯域幅拡張された広帯域音声信号が得られる。ここで、前記加算時にゲインの調節、また高域の若干の抑圧等を行い、聴感上の品質を向上させることも可能である。
【0054】
以上、図1に示した帯域幅拡張装置では、都合4つのコードブックで、自己相関パラメータを使用することを前提としたが、これは自己相関に限るものではない。たとえば、LPCケプストラムでも良好な効果が得られるし、スペクトル包絡を予測するという観点から、スペクトル包絡そのものをパラメータとしても良い。
【0055】
また、上記音声帯域幅拡張装置では、狭帯域V(UV)用のコードブック8及び10を用いたが、これらを用いずに、コードブック用のRAM容量を削減することも可能である。
【0056】
この場合の音声帯域幅拡張装置の構成を図6に示す。この図6に示す音声帯域幅拡張装置は、狭帯域V(UV)用のコードブック8及び10の代わりに、広帯域コードブック内の各コードベクトルより演算によって狭帯域V(UV)パラメータを求める演算回路25及び26を用いている。他の構成は上記図1と同様である。
【0057】
コードブックに使うパラメータを自己相関とした場合、広帯域自己相関と狭帯域自己相関には以下の(2)式のような関係が成り立つ。
【0058】
【数2】
【0059】
このために、広帯域自己相関φ(xw)から狭帯域自己相関φ(xn)を演算によって算出することが可能で、理論的に広帯域ベクタと狭帯域ベクタを両方持つ必要がない。ここで、φは自己相関、xnは狭帯域信号、xwは広帯域信号、hは帯域制限フィルタのインパルス応答である。
【0060】
すなわち、狭帯域自己相関は、広帯域自己相関と、帯域制限フィルタのインパルス応答の自己相関との畳み込みで求められる。
【0061】
したがって、帯域幅拡張処理は、上記図5の代わりに、図7のように行える。すなわち、入力端子1から入力された上記狭帯域音声信号は、先ずステップS41でフレーム化回路2により160サンプル(20msec)毎にフレーミングされる。そして各フレームについて、LPC分析回路3で、ステップS43のようにLPC分析が行われ、線形予測係数αパラメータとLPC残差に分けられる。αパラメータはステップS44でα→r変換回路4により自己相関rに変換される。
【0062】
また、フレーミングされた信号は、ステップS42でV/UV判定回路5により、V/UVの判別が行われており、ここで、Vと判定されると、α→r変換回路4からの出力を切り替えるスイッチ6は、狭帯域有声音量子化回路7に接続され、UVと判定されると、狭帯域無声音量子化回路9に接続される。
【0063】
このV/UVの判別も、コードブック作成時とは異なり、VにもUVにも属さないフレームは発生させず、必ずどちらかに振り分ける。
【0064】
UV判定回路5がVと判定したときには、ステップS46では、スイッチ6からの有声音用自己相関rを狭帯域V量子化回路7に供給して、量子化する。しかし、この量子化は狭帯域用のコードブックを用いるのではなく、上述したように演算回路25によりステップS45で求めた狭帯域V用パラメータを用いる。
【0065】
一方、UV判定回路5がVであるときには、ステップS46では、スイッチ6からの無声音用自己相関rを狭帯域UV量子化回路9に供給して量子化するが、ここでも、狭帯域UVコードブックを用いずに、演算回路26で演算により求めた狭帯域UV用パラメータを用いて量子化する。
【0066】
そして、ステップS47でそれぞれ対応する広帯域V逆量子化回路11又は広帯域UV逆量子化回路13により広帯域Vコードブック12又は広帯域UVコードブック14を用いて逆量子化し、これにより広帯域自己相関が得られる。
【0067】
そして、広帯域自己相関はステップS48でr→α変換回路15により広帯域αに変換される。
【0068】
一方で、LPC分析回路3からのLPC残差は、ステップS49でゼロ詰め部16によりサンプル間にゼロが詰められることでアップサンプルされ、エイリアシングにより広帯域化される。そして、これが広帯域励振源として、LPC合成回路17に供給される。
【0069】
そして、ステップS50で、LPC合成回路17が広帯域αと広帯域励振源とを、LPC合成し、広帯域の音声信号が得られる。
【0070】
しかし、このままでは予測によって求められた広帯域信号にすぎず、予測による誤差が含まれる。特に入力狭帯域音声の周波数範囲に関しては、入力音声をそのまま利用したほうが良い。
【0071】
したがって、入力狭帯域音声の周波数範囲をステップS51でBSF18を用いたフィルタリングにより除去してから、ステップ52でオーバーサンプル回路19により狭帯域音声をオーバーサンプルしたものと、ステップS53で加算する。
【0072】
このように、図6に示した音声帯域幅拡張装置では、量子化時に狭帯域コードブックのコードベクタと比較することによって量子化するのではなく、広帯域コードブックから演算によって求められるコードベクタとの比較で量子化する。これにより、広帯域コードブックが分析、合成の両用となり、狭帯域コードブックを保持するメモリが不要となる。
【0073】
しかしながら、この図6に示した音声帯域幅拡張装置では、メモリ容量を節約する効果よりも、演算による処理量が増えることが問題となる場合も考えられる。そこで、コードブックは広帯域のみとしつつ、演算量も増やさない帯域幅拡張方法を適用した図8に示す音声帯域幅拡張装置を説明する。この図8に示す音声帯域幅拡張装置は、演算回路25及び26の代わりに、上記広帯域コードブック内の各コードベクトルを部分的に抽出して狭帯域パラメータを求める部分抽出回路28及び29を用いている。他の構成は上記図1又は図6と同様である。
【0074】
先に示した帯域制限フィルタのインパルス応答の自己相関は、周波数領域では、次の(3)式で示すように帯域制限フィルタのパワースペクトル特性となる。
【0075】
【数3】
【0076】
ここで、この帯域制限フィルタのパワー特性と等しい周波数特性を持つ、もう一つの帯域制限フィルタを考え、この周波数特性をH’とすれば、上記(3)式は次の(4)式になる。
【0077】
【数4】
【0078】
この(4)式で示される新たなフィルタの通過域、阻止域は当初の帯域制限フィルタと同等であり、減衰特性が2乗となる。したがって、この新たなフィルタもまた、帯域制限フィルタと言える。
【0079】
これを考慮すると、狭帯域自己相関は、広帯域自己相関と帯域制限フィルタのインパルス応答との畳み込み、すなわち広帯域自己相関を帯域制限した次の(5)式のように単純化される。
【0080】
【数5】
【0081】
ここで、コードブックに使用するパラメータを自己相関とする場合、そもそも現実にVにおいては、自己相関パラメータは1次よりも2次が小さく、2次よりも3次がさらに小さく、という具合に、なだらかな単調減少の曲線を描く傾向がある。
【0082】
一方で、狭帯域信号と広帯域信号との関係は、広帯域信号をローパスしたものを狭帯域信号としているため、狭帯域自己相関は、広帯域自己相関をローパスすることによって理論的に求められる。
【0083】
しかしながら、そもそも広帯域自己相関がなだらかであるため、ローパスしてもほとんど変化がなく、このローパス処理は省略しても影響がない。したがって、広帯域自己相関を狭帯域自己相関そのものとして利用することが可能である。ただし、広帯域信号のサンプリング周波数は、狭帯域信号のサンプリング周波数の2倍としているため、実際には、狭帯域自己相関は広帯域自己相関の1次おきに取ったものとなる。
【0084】
すなわち、広帯域自己相関コードベクタを1次おきに取ったものは、狭帯域自己相関コードベクタと同等に扱うことができ、入力狭帯域音声の自己相関は、広帯域コードブックによって量子化することができ、狭帯域コードブックが不要ということである。
【0085】
また、UVにおいては、先に述べたように、高域エネルギーが大きく、予測を誤ると影響が大のため、V/UV判断をV側に偏らせてあり、UVと判断されるのは、UVである確度が高い場合のみである。そのため、UV用コードブックサイズはV用よりも小さくしており、互いにはっきりと異なるベクタのみが登録されている。したがって、UVの自己相関はVほどなだらかな曲線ではないにも関わらず、広帯域自己相関コードベクタを1次おきに取ったものと入力狭帯域信号の自己相関とを比較することで、広帯域自己相関コードベクタをローパスしたものと同等の、すなわち狭帯域コードブックが存在する場合と同等の量子化が可能である。すなわち、VもUVも、狭帯域コードブックが不要となる。
【0086】
以上のように、コードブックに使用するパラメータを自己相関とした場合は、入力狭帯域音声の自己相関を、広帯域コードベクタを1次おきに取ったものと比較することで量子化できる。この動作は、上記図7のステップS45で部分抽出回路28及び29に広帯域コードブックのコードベクトルを1次おきに取らせることにより実現できる。
【0087】
ここで、コードブックに使用するパラメータを、スペクトル包絡とした場合について考える。この場合、明らかであるが、狭帯域スペクトルは、広帯域スペクトルの一部であるから、狭帯域スペクトルのコードブックは不要である。狭帯域入力音声のスペクトル包絡を、広帯域スペクトル包絡コードベクタの一部と比較をすることによって量子化が可能であることは言うまでもない。
【0088】
次に、本発明に係る音声合成方法及び装置の実施の形態について図面を参照しながら説明する。この実施の形態は、所定時間単位毎に広帯域音声から抽出した特徴パラメータにより予め作成した広帯域コードブックを備え、入力された複数種類の符号化パラメータを用いて音声を合成する音声合成装置であり、例えば、図9に示すディジタル携帯電話装置の受信機側にあっては、音声復号化器38と音声合成部39とから構成される音声合成装置である。
【0089】
先ず、このディジタル携帯電話装置の構成を説明しておく。ここでは、送信機側と受信機側を別々に記しているが、実際には一つの携帯電話装置内にまとめて内蔵されている。
【0090】
送信機側では、マイクロホン31から入力された音声信号を、A/D変換器32によりディジタル信号に変換し、音声符号化器33により符号化してから送信器34で出力ビットに送信処理を施し、アンテナ35から送信する。
【0091】
このとき、音声符号化器33は、伝送路により制限される狭帯域化を考慮した符号化パラメータを送信器34に供給する。例えば、符号化パラメータとしては、励振源に関するパラメータや、線形予測係数α、有声音/無声音判定フラグなどがある。
【0092】
また、受信機側では、アンテナ36で捉えた電波を、受信器37で受信し、音声復号化器38で上記符号化パラメータを復号し、音声合成部39で上記復号化パラメータを用いて音声を合成し、D/A変換器40でアナログ音声信号に戻して、スピーカ41から出力する。
【0093】
このディジタル携帯電話装置における、上記音声合成装置の第1の具体例を図10に示す。この図10に示す音声合成装置は、上記ディジタル携帯電話装置の送信側の音声符号化器33から送られてきた符号化パラメータを用いて音声を合成する装置であるため、音声符号化器33での符号化方法に従った復号化を音声復号化器38で行う。
【0094】
音声符号器33での符号化方法がPSI−CELP(Pitch Synchronus Innovation - CELP:ピッチ同期雑音励振源−CELP)符号化方式によるものであるとすれば、この音声復号化器38での復号化方法もPSI−CELPによる。
【0095】
音声復号化器38は、上記符号化パラメータの内の第1の符号化パラメータである励振源に関するパラメータから狭帯域励振源に復号した後、ゼロ詰め部16に供給する。また、上記符号化パラメータの内の第2の符号化パラメータである線形予測係数に関するパラメータをαに変換しα→r(線形予測係数→自己相関)変換回路4に供給する。また、上記符号化パラメータの内の第3の符号化パラメータである有声音/無声音判定フラグをV/UV判定回路5に供給する。
【0096】
この音声合成装置は、上記音声復号化器38と、ゼロ詰め部16と、α→r変換回路4と、V/UV判定回路5の他、広帯域有声音及び無声音から抽出した有声音用及び無声音用パラメータを用いて予め作成した広帯域有声音用コードブック12と広帯域無声音用コードブック14とを備える。
【0097】
さらに、この音声合成装置は、広帯域有声音用コードブック12と広帯域無声音用コードブック14内の各コードベクトルを部分抽出して狭帯域パラメータを求める部分抽出回路28及び部分抽出回路29と、α→r変換回路4からの狭帯域有声音用自己相関を部分抽出回路28からの狭帯域パラメータを用いて量子化する狭帯域有声音用量子化器7と、上記α→r変換回路4からの狭帯域無声音用自己相関を部分抽出回路29からの狭帯域パラメータを用いて量子化する狭帯域無声音用量子化器9と、狭帯域有声音用量子化器7からの狭帯域有声音用量子化データを広帯域有声音用コードブック12を用いて逆量子化する広帯域有声音用逆量子化器11と、狭帯域無声音用量子化器9からの狭帯域無声音用量子化データを広帯域無声音用コードブック14を用いて逆量子化する広帯域無声音用逆量子化器13と、広帯域有声音用逆量子化器11からの逆量子化データとなる広帯域有声音用自己相関を広帯域有声音用の線形予測係数に変換すると共に広帯域無声音用逆量子化器13からの逆量子化データとなる広帯域無声音用自己相関を広帯域無声音用の線形予測係数に変換する自己相関→線形予測係数(r→α)変換回路15と、このr→α変換回路15からの広帯域有声音用線形予測係数と広帯域無声音用線形予測係数とゼロ詰め部16からの励振源とに基づいて広帯域音声を合成するLPC合成回路17とを備えてなる。
【0098】
また、この音声合成装置は、音声復号化器38で復号化された狭帯域音声データのサンプリング周波数を8kHzから16kHzにオーバーサンプリングするオーバーサンプル回路19と、LPC合成回路17からの合成出力から入力狭帯域音声データの周波数帯域300Hz〜3400Hzの信号成分を除去するバンドストップフィルタ(BSF)18と、このBSF18からのフィルタ出力にオーバーサンプル回路19からのサンプリング周波数16kHzの周波数帯域300Hz〜3400Hzの基の狭帯域音声データ成分を加算する加算器20とを備えている。
【0099】
ここで、上記広帯域有声音及び無声音用コードブック12及び14は、上記図2〜図4に示した手順に基づいて作成できる。学習用データとしては、コードブックの品質を良いものとするために、有声音(V)から無声音(UV)、UVからVへの遷移状態のものや、VともUVとも判別しがたいものは除外してしまい、確実にVであるものと、確実にUVであるもののみを利用する。このようにして、学習用狭帯域Vフレームの集まりと、同UVフレームの集まりを作成する。
【0100】
次に、上記広帯域有声音及び無声音用コードブック12及び14を用い、実際に送信側から伝送されてきた符号化パラメータを用いて音声を合成する動作について図11を参照しながら説明する。
【0101】
先ず、音声復号化器38でデコードされた線形予測係数αは、ステップS61でα→r変換回路4により自己相関rに変換される。
【0102】
また、音声復号化器38でデコードされた有声音/無声音判定フラグはステップS62でV/UV判定回路5により解読され、V/UVの判別が行われる。
【0103】
ここで、Vと判定されると、α→r変換回路4からの出力を切り替えるスイッチ6は、狭帯域有声音量子化回路7に接続され、UVと判定されると、狭帯域無声音量子化回路9に接続される。
【0104】
このV/UVの判別も、コードブック作成時とは異なり、VにもUVにも属さないフレームは発生させず、必ずどちらかに振り分ける。
【0105】
UV判定回路5がVと判定したときには、ステップS64では、スイッチ6からの有声音用自己相関rを狭帯域V量子化回路7に供給して、量子化する。しかし、この量子化は狭帯域用のコードブックを用いるのではなく、上述したように部分抽出回路28によりステップS63で求めた狭帯域V用パラメータを用いる。
【0106】
一方、UV判定回路5がUVであるときには、ステップS63では、スイッチ6からの無声音用自己相関rを狭帯域UV量子化回路9に供給して量子化するが、ここでも、狭帯域UVコードブックを用いずに、部分抽出回路29で演算により求めた狭帯域UV用パラメータを用いて量子化する。
【0107】
そして、ステップS65でそれぞれ対応する広帯域V逆量子化回路11又は広帯域UV逆量子化回路13により広帯域Vコードブック12又は広帯域UVコードブック14を用いて逆量子化し、これにより広帯域自己相関が得られる。
【0108】
そして、広帯域自己相関はステップS66でr→α変換回路15により広帯域αに変換される。
【0109】
一方で、音声復号化器38からの励振源に関するパラメータは、ステップS67でゼロ詰め部16によりサンプル間にゼロが詰められることでアップサンプルされ、エイリアシングにより広帯域化される。そして、これが広帯域励振源として、LPC合成回路17に供給される。
【0110】
そして、ステップS68で、LPC合成回路17が広帯域αと広帯域励振源とを、LPC合成し、広帯域の音声信号が得られる。
【0111】
しかし、このままでは予測によって求められた広帯域信号にすぎず、予測による誤差が含まれる。特に入力狭帯域音声の周波数範囲に関しては、入力音声をそのまま利用したほうが良い。
【0112】
したがって、入力狭帯域音声の周波数範囲をステップS69でBSF18を用いたフィルタリングにより除去してから、ステップ70でオーバーサンプル回路19により符号化音声データをオーバーサンプルしたものと、ステップS71で加算する。
【0113】
このように、図10に示した音声合成装置では、量子化時に狭帯域コードブックのコードベクタと比較することによって量子化するのではなく、広帯域コードブックから部分抽出して求められるコードベクタとの比較で量子化する。
【0114】
すなわち、デコード中にαパラメータが得られるので、これを利用し、αから狭帯域自己相関に変換、これを広帯域コードブックの各ベクタを1次おきにとったものと比較をし、量子化する。そして同じベクタの今度は全部を用いて逆量子化することで広帯域自己相関を得る。そして広帯域自己相関から広帯域αに変換する。このときに、ゲイン調整および高域の若干の抑圧も先の説明同様に行い、聴感上の品質を向上させている。
【0115】
これにより、広帯域コードブックが分析、合成の両用となり、狭帯域コードブックを保持するメモリが不要となる。
【0116】
なお、PSI−CELPによる音声復号化器38からの符号化パラメータを用いて音声を合成する音声合成装置としては、図12に示す音声合成装置も考えられる。この図12に示す音声合成装置は、部分抽出回路28及び部分抽出回路29の代わりに、広帯域コードブック内の各コードベクトルより演算によって狭帯域V(UV)パラメータを求める演算回路25及び26を用いている。他の構成は上記図10と同様である。
【0117】
次に、上記ディジタル携帯電話装置における、上記音声合成装置の第2の具体例を図13に示す。この図13に示す音声合成装置も、上記ディジタル携帯電話装置の送信側の音声符号化器33から送られてきた符号化パラメータを用いて音声を合成する装置であるため、音声符号化器33での符号化方法に従った復号化を音声復号化器46で行う。
【0118】
音声符号器33での符号化方法がVSELP(Vector Sum Excited Linear Prediction:ベクトル和励起線形予測)符号化方式によるものであるとすれば、この音声復号化器46での復号化方法もVSELPによる。
【0119】
音声復号化器46は、上記符号化パラメータの内の第1の符号化パラメータである励振源に関するパラメータを励振源切り換え部47に供給する。また、上記符号化パラメータの内の第2の符号化パラメータである線形予測係数αをα→r(線形予測係数→自己相関)変換回路4に供給する。また、上記符号化パラメータの内の第3の符号化パラメータである有声音/無声音判定フラグをV/UV判定回路5に供給する。
【0120】
上記図10及び図12に示したPSI−CELPを用いた音声合成装置と異なるのは、励振源切り換え回路47をゼロ詰め部16の前段に設けている点である。
【0121】
PSI−CELPは、コーデック自体、特にVを聴感上滑らかに聞こえるような処理を行っているが、VSELPにはこれがなく、このために帯域幅拡張したときに若干雑音が混入したように聞こえる。そこで、広帯域励振源を作成する際に、励振源切り換え回路47により図14のような処理を施す。ここでの処理は、ステップS87〜ステップS89までの処理が上記図11に示した処理と異なるだけである。
【0122】
VSELPの励振源は、コーデックに利用されるパラメータbeta(長期予測係数), bL[i](長期フィルタ状態),gamma1(利得), c1[i](励起コードベクタ)により、 beta * bL[i] + gamma1 * c1[i] として作成されるが、このうち前者がピッチ成分、後者がノイズ成分を表すので、これをbeta * bL[i]とgamma1 * c1[i]に分け、ステップS87で、一定の時間範囲において、前者のエネルギーが大きい場合にはピッチが強い有声音と考えられるため、ステップS88でYESに進み、励振源をパルス列とし、ピッチ成分のない部分ではNOに進み0に抑圧した。また、ステップS87でエネルギーが大きくない場合には従来どおりとし、こうして作成された狭帯域励振源にステップS89でゼロ詰め部16によりPSI-CELP同様0を詰めアップサンプルすることにより広帯域励振源とした。これにより、VSELPにおける有声音の聴感上の品質が向上した。
【0123】
なお、VSELPによる音声復号化器46からの符号化パラメータを用いて音声を合成する音声合成装置としては、図15に示す音声合成装置も考えられる。この図15に示す音声合成装置は、部分抽出回路28及び部分抽出回路29の代わりに、広帯域コードブック内の各コードベクトルより演算によって狭帯域V(UV)パラメータを求める演算回路25及び26を用いている。他の構成は上記図13と同様である。
【0124】
なお、このような音声合成装置においても、図1に示したような広帯域有声音及び無声音から抽出した有声音用及び無声音用パラメータを用いて予め作成した広帯域有声音用コードブック12と広帯域無声音用コードブック14と、上記広帯域音声を周波数帯域制限して得た周波数帯域が例えば300Hz〜3400Hzの狭帯域音声信号から抽出した有声音用及び無声音用パラメータにより予め作成した狭帯域有声音用コードブック7と狭帯域無声音用コードブック10とを用いての音声合成処理も可能である。
【0125】
また、低域から高域を予測するものだけに限定するものではない。また、広帯域スペクトルを予測する手段においては、信号を音声に限るものではない。
【0126】
【発明の効果】
本発明に係る帯域幅拡張方法及び装置によれば、広帯域スペクトル包絡を予測するためのコードブックを有声音用と無声音用に分けることにより、また、有声音と無声音の判別法を、コードブック作成時と帯域拡張時で異なるものにしたことにより、聴感上品質の良い広帯域音声を得ることができるようになった。
【0127】
また、本発明に係る音声合成方法及び装置によれば、コードブックを分析合成両用とすることによりメモリ容量が節約できる。また、演算量を削減することもできる。
【0128】
さらに、広帯域励振源を、ピッチが強い場合にパルス列とすることにより、特に有声音における聴感上の品質を向上できる。
【図面の簡単な説明】
【図1】本発明に係る帯域幅拡張方法及び装置の実施の形態となる音声帯域幅拡張装置のブロック図である。
【図2】上記図1に示した音声帯域幅拡張装置に用いているコードブック用のデータを作成する方法を説明するためのフローチャートである。
【図3】上記図1に示した音声帯域幅拡張装置に用いているコードブックを作成する方法を説明するためのフローチャートである。
【図4】上記図1に示した音声帯域幅拡張装置に用いているコードブックを作成する他の方法を説明するためのフローチャートである。
【図5】上記図1に示した音声帯域幅拡張装置の動作を説明するためのフローチャートである。
【図6】上記図1に示した音声帯域幅拡張装置からコードブックの数を減らした変形例の構成を示すブロック図である。
【図7】上記図6に示す変形例の動作を説明するためのフローチャートである。
【図8】上記図1に示した音声帯域幅拡張装置からコードブックの数を減らした他の変形例の構成を示すブロック図である。
【図9】本発明に係る音声合成方法及び装置の実施の形態となる音声合成装置を受信機側に適用したディジタル携帯電話装置の構成を示すブロック図である。
【図10】本発明に係る音声合成方法及び装置の実施の形態となる、音声復号化器にPSI−CELP方式を採用した音声合成装置の構成を示すブロック図である。
【図11】上記図10に示した音声合成装置の動作を説明するためのフローチャートである。
【図12】音声復号化器にPSI−CELP方式を採用した音声合成装置の他の構成を示すブロック図である。
【図13】本発明に係る音声合成方法及び装置の実施の形態となる、音声復号化器にVSELP方式を採用した音声合成装置の構成を示すブロック図である。
【図14】上記図13に示した音声合成装置の動作を説明するためのフローチャートである。
【図15】音声復号化器にVSELP方式を採用した音声合成装置の他の構成を示すブロック図である。
【符号の説明】
3 LPC分析回路、4 線形予測係数−自己相関変換回路、7 狭帯域有声音用量子化器、8 狭帯域有声音用コードブック、9 狭帯域無声音用量子化器、10 狭帯域無声音用コードブック、11 広帯域有声音用逆量子化器、12広帯域有声音用コードブック、13 広帯域無声音用逆量子化器、14 広帯域無声音用コードブック、15 自己相関−線形予測係数変換回路、16 ゼロ詰め回路、17 LPC合成回路、18 バンドストップフィルタ、19 オーバーサンプル回路、20 加算器
Claims (5)
- 所定時間単位毎に広帯域音声から抽出した特徴パラメータにより予め作成した広帯域コードブックを備え、入力された複数種類の符号化パラメータを用いて音声を合成する音声合成方法において、
上記複数種類の符号化パラメータを復号化し、
この復号化された複数種類の符号化パラメータの内の第1の符号化パラメータを用いて励振源を求めると共に、
第2の符号化パラメータを音声合成用の特徴パラメータに変換し、
この音声合成用特徴パラメータを上記広帯域コードブック内の各コードベクトルより部分抽出して求めた狭帯域特徴パラメータと比較することによって量子化し、
この量子化データを上記広帯域コードブックを用いて逆量子化し、
この逆量子化データと上記励振源とに基づいて音声を合成することを特徴とする音声合成方法。 - 上記広帯域コードブックは所定時間単位毎に有声音と無声音に分けた広帯域音声から抽出した有声音用及び無声音用特徴パラメータにより予め作成された広帯域有声音用及び無声音用コードブックであり、上記入力された複数種類の符号化パラメータの内の第3の符号化パラメータによって判定できる有声音と無声音との判別結果により、上記音声合成用特徴パラメータを、上記広帯域有声音用及び無声音用コードブック内の各コードベクトルより部分抽出して求めた狭帯域特徴パラメータと比較することによって量子化し、この量子化データを上記広帯域有声音用及び無声音用コードブックを用いて逆量子化し、この逆量子化データと上記励振源とに基づいて音声を合成することを特徴とする請求項1記載の音声合成方法。
- 所定時間単位毎に広帯域音声から抽出した特徴パラメータにより予め作成した広帯域コードブックを備え、入力された複数種類の符号化パラメータを用いて音声を合成する音声合成装置において、
上記複数種類の符号化パラメータを復号化する復号化手段と、
上記復号化手段により復号化された複数種類の符号化パラメータの内の第1の符号化パラメータを用いて励振源を求めると励振源形成手段と、
上記復号化手段により復号化された複数種類の符号化パラメータの内の第2の符号化パラメータを音声合成用の特徴パラメータに変換するパラメータ変換手段と、
上記広帯域コードブック内の各コードベクトルを部分抽出して狭帯域パラメータを求める部分抽出手段と、
上記パラメータ変換手段からの上記特徴パラメータを上記部分抽出手段からの狭帯域パラメータを用いて量子化する量子化手段と、
上記量子化手段からの量子化データを上記広帯域コードブックを用いて逆量子化する逆量子化手段と、
上記逆量子化手段からの逆量子化データと上記励振源形成手段からの励振源とに基づいて音声を合成する合成手段とを備えることを特徴とする音声合成装置。 - 所定時間単位毎に広帯域音声から抽出したパラメータにより予め作成した広帯域コードブックを備え、入力された狭帯域音声を帯域幅拡張する帯域幅拡張方法において、
上記入力された狭帯域音声から狭帯域パラメータを出力し、
この狭帯域パラメータを、上記広帯域コードブック内の各コードベクトルより部分抽出して求めた狭帯域パラメータと比較することによって量子化し、
この量子化データを上記広帯域コードブックを用いて逆量子化し、
この逆量子化データに基づいて上記狭帯域音声の帯域幅を拡張することを特徴とする帯域幅拡張方法。 - 所定時間単位毎に広帯域音声から抽出したパラメータにより予め作成した広帯域コードブックを備え、入力された狭帯域音声を帯域幅拡張する帯域幅拡張装置において、
上記入力された狭帯域音声から狭帯域パラメータを出力する狭帯域パラメータ出力手段と、
上記広帯域コードブック内の各コードベクトルを部分抽出して狭帯域パラメータを求める部分抽出手段と、
上記部分抽出手段からの狭帯域パラメータを上記狭帯域パラメータ演算手段からの狭帯域パラメータを用いて量子化する狭帯域音声量子化手段と、
上記狭帯域音声量子化手段からの狭帯域量子化データを上記広帯域コードブックを用いて逆量子化する広帯域音声逆量子化手段とを備え、
上記広帯域音声逆量子化手段からの逆量子化データに基づいて上記狭帯域音声の帯域幅を拡張することを特徴とする帯域幅拡張装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29140597A JP4132154B2 (ja) | 1997-10-23 | 1997-10-23 | 音声合成方法及び装置、並びに帯域幅拡張方法及び装置 |
TW087116840A TW384467B (en) | 1997-10-23 | 1998-10-09 | Sound synthesizing method and apparatus, and sound band expanding method and apparatus |
US09/175,616 US6289311B1 (en) | 1997-10-23 | 1998-10-20 | Sound synthesizing method and apparatus, and sound band expanding method and apparatus |
EP98308629A EP0911807B1 (en) | 1997-10-23 | 1998-10-22 | Sound synthesizing method and apparatus, and sound band expanding method and apparatus |
KR1019980044279A KR100574031B1 (ko) | 1997-10-23 | 1998-10-22 | 음성합성방법및장치그리고음성대역확장방법및장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29140597A JP4132154B2 (ja) | 1997-10-23 | 1997-10-23 | 音声合成方法及び装置、並びに帯域幅拡張方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11126098A JPH11126098A (ja) | 1999-05-11 |
JP4132154B2 true JP4132154B2 (ja) | 2008-08-13 |
Family
ID=17768476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29140597A Expired - Fee Related JP4132154B2 (ja) | 1997-10-23 | 1997-10-23 | 音声合成方法及び装置、並びに帯域幅拡張方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6289311B1 (ja) |
EP (1) | EP0911807B1 (ja) |
JP (1) | JP4132154B2 (ja) |
KR (1) | KR100574031B1 (ja) |
TW (1) | TW384467B (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0945852A1 (en) * | 1998-03-25 | 1999-09-29 | BRITISH TELECOMMUNICATIONS public limited company | Speech synthesis |
US6539355B1 (en) * | 1998-10-15 | 2003-03-25 | Sony Corporation | Signal band expanding method and apparatus and signal synthesis method and apparatus |
KR20000047944A (ko) * | 1998-12-11 | 2000-07-25 | 이데이 노부유끼 | 수신장치 및 방법과 통신장치 및 방법 |
US6260009B1 (en) | 1999-02-12 | 2001-07-10 | Qualcomm Incorporated | CELP-based to CELP-based vocoder packet translation |
SE518446C2 (sv) * | 1999-06-14 | 2002-10-08 | Ericsson Telefon Ab L M | Anordning vid kylning av elektroniska komponenter |
JP4792613B2 (ja) * | 1999-09-29 | 2011-10-12 | ソニー株式会社 | 情報処理装置および方法、並びに記録媒体 |
KR20010101422A (ko) * | 1999-11-10 | 2001-11-14 | 요트.게.아. 롤페즈 | 매핑 매트릭스에 의한 광대역 음성 합성 |
US6732070B1 (en) * | 2000-02-16 | 2004-05-04 | Nokia Mobile Phones, Ltd. | Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching |
AU2001262748A1 (en) * | 2000-06-14 | 2001-12-24 | Kabushiki Kaisha Kenwood | Frequency interpolating device and frequency interpolating method |
EP1944760B1 (en) | 2000-08-09 | 2009-09-23 | Sony Corporation | Voice data processing device and processing method |
GB2368761B (en) * | 2000-10-30 | 2003-07-16 | Motorola Inc | Speech codec and methods for generating a vector codebook and encoding/decoding speech signals |
JP2002268698A (ja) * | 2001-03-08 | 2002-09-20 | Nec Corp | 音声認識装置と標準パターン作成装置及び方法並びにプログラム |
JP4679049B2 (ja) * | 2003-09-30 | 2011-04-27 | パナソニック株式会社 | スケーラブル復号化装置 |
TWI498882B (zh) | 2004-08-25 | 2015-09-01 | Dolby Lab Licensing Corp | 音訊解碼器 |
JP4815780B2 (ja) * | 2004-10-20 | 2011-11-16 | ヤマハ株式会社 | オーバーサンプリングシステム、デコードlsi、およびオーバーサンプリング方法 |
JP5232795B2 (ja) | 2007-02-14 | 2013-07-10 | エルジー エレクトロニクス インコーポレイティド | オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置 |
EP2629293A3 (en) * | 2007-11-02 | 2014-01-08 | Huawei Technologies Co., Ltd. | Method and apparatus for audio decoding |
JP5754899B2 (ja) * | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
US8447617B2 (en) * | 2009-12-21 | 2013-05-21 | Mindspeed Technologies, Inc. | Method and system for speech bandwidth extension |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US9245538B1 (en) * | 2010-05-20 | 2016-01-26 | Audience, Inc. | Bandwidth enhancement of speech signals assisted by noise reduction |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
DK2864983T3 (en) | 2012-06-20 | 2018-03-26 | Widex As | PROCEDURE FOR SOUND HEARING IN A HEARING AND HEARING |
US10043535B2 (en) | 2013-01-15 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
US10045135B2 (en) | 2013-10-24 | 2018-08-07 | Staton Techiya, Llc | Method and device for recognition and arbitration of an input connection |
KR101592642B1 (ko) * | 2013-12-17 | 2016-02-11 | 현대자동차주식회사 | 풀핸들 일체형 도어 인사인드 핸들 장치 |
US10043534B2 (en) | 2013-12-23 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2779886B2 (ja) | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
JP3230782B2 (ja) * | 1993-08-17 | 2001-11-19 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
DE4343366C2 (de) | 1993-12-18 | 1996-02-29 | Grundig Emv | Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen |
JP3230791B2 (ja) * | 1994-09-02 | 2001-11-19 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
JP3189598B2 (ja) * | 1994-10-28 | 2001-07-16 | 松下電器産業株式会社 | 信号合成方法および信号合成装置 |
JP3483958B2 (ja) * | 1994-10-28 | 2004-01-06 | 三菱電機株式会社 | 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法 |
JP3275224B2 (ja) * | 1994-11-30 | 2002-04-15 | 富士通株式会社 | ディジタル信号処理システム |
DE69619284T3 (de) | 1995-03-13 | 2006-04-27 | Matsushita Electric Industrial Co., Ltd., Kadoma | Vorrichtung zur Erweiterung der Sprachbandbreite |
US5864797A (en) * | 1995-05-30 | 1999-01-26 | Sanyo Electric Co., Ltd. | Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors |
JPH1020891A (ja) * | 1996-07-09 | 1998-01-23 | Sony Corp | 音声符号化方法及び装置 |
JPH10124088A (ja) | 1996-10-24 | 1998-05-15 | Sony Corp | 音声帯域幅拡張装置及び方法 |
-
1997
- 1997-10-23 JP JP29140597A patent/JP4132154B2/ja not_active Expired - Fee Related
-
1998
- 1998-10-09 TW TW087116840A patent/TW384467B/zh not_active IP Right Cessation
- 1998-10-20 US US09/175,616 patent/US6289311B1/en not_active Expired - Fee Related
- 1998-10-22 KR KR1019980044279A patent/KR100574031B1/ko not_active IP Right Cessation
- 1998-10-22 EP EP98308629A patent/EP0911807B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0911807A2 (en) | 1999-04-28 |
KR100574031B1 (ko) | 2006-12-01 |
KR19990037291A (ko) | 1999-05-25 |
JPH11126098A (ja) | 1999-05-11 |
TW384467B (en) | 2000-03-11 |
EP0911807A3 (en) | 2001-04-04 |
EP0911807B1 (en) | 2003-06-25 |
US6289311B1 (en) | 2001-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4132154B2 (ja) | 音声合成方法及び装置、並びに帯域幅拡張方法及び装置 | |
CA2347667C (en) | Periodicity enhancement in decoding wideband signals | |
JP2000305599A (ja) | 音声合成装置及び方法、電話装置並びにプログラム提供媒体 | |
JP4861271B2 (ja) | 位相スペクトル情報をサブサンプリングする方法および装置 | |
KR101668401B1 (ko) | 오디오 신호를 인코딩하기 위한 방법 및 장치 | |
JP4302978B2 (ja) | 音声コーデックにおける擬似高帯域信号の推定システム | |
WO2002033697A2 (en) | Apparatus for bandwidth expansion of a speech signal | |
KR20020093943A (ko) | 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치 | |
JP2009541797A (ja) | 種々の音声フレーム・レートの混合励振線形予測(melp)ボコーダ間でトランスコーディングするボコーダ及び関連した方法 | |
JP4099879B2 (ja) | 帯域幅拡張方法及び装置 | |
JP2004301954A (ja) | 音響信号の階層符号化方法および階層復号化方法 | |
JP4269364B2 (ja) | 信号処理方法及び装置、並びに帯域幅拡張方法及び装置 | |
JP2004061646A (ja) | Tfo機能を有する音声符号化器および方法 | |
JP4230550B2 (ja) | 音声符号化方法及び装置、並びに音声復号化方法及び装置 | |
JP2005534984A (ja) | 音声フレームのエラー軽減用の音声通信ユニットおよび方法 | |
WO2011052191A1 (ja) | トーン判定装置およびトーン判定方法 | |
EP1164577A2 (en) | Method and apparatus for reproducing speech signals | |
GB2398982A (en) | Speech communication unit and method for synthesising speech therein |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050502 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060508 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060524 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060728 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071203 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080602 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120606 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120606 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130606 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |