JP3594854B2 - 音声符号化装置及び音声復号化装置 - Google Patents
音声符号化装置及び音声復号化装置 Download PDFInfo
- Publication number
- JP3594854B2 JP3594854B2 JP31720599A JP31720599A JP3594854B2 JP 3594854 B2 JP3594854 B2 JP 3594854B2 JP 31720599 A JP31720599 A JP 31720599A JP 31720599 A JP31720599 A JP 31720599A JP 3594854 B2 JP3594854 B2 JP 3594854B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- excitation
- driving
- period
- repetition period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005284 excitation Effects 0.000 claims abstract description 348
- 230000003044 adaptive effect Effects 0.000 claims abstract description 239
- 238000011156 evaluation Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 22
- 230000000737 periodic effect Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 description 33
- 230000004044 response Effects 0.000 description 32
- 238000004364 calculation method Methods 0.000 description 28
- 230000000694 effects Effects 0.000 description 28
- 238000000034 method Methods 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 8
- 238000000926 separation method Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004260 weight control Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000005279 excitation period Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
- Radar Systems Or Details Thereof (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
Description
【発明の属する技術分野】
この発明は、ディジタル音声信号を少ない情報量に圧縮する音声符号化装置、及び音声符号化装置等によって生成された音声符号を復号化してディジタル音声信号を再生する音声復号化装置に関するものである。
【0002】
【従来の技術】
従来の多くの音声符号化装置及び音声復号化装置では、入力音声をスペクトル包絡情報と音源に分けて、所定長区間のフレーム単位で各々を符号化して音声符号を生成し、この音声符号を復号化して、合成フィルタによってスペクトル包絡情報と音源を合わせることで復号音声を得る構成をとっている。最も代表的な音声符号化装置及び音声復号化装置としては、符号駆動線形予測符号化(Code−Excited Linear Prediction:CELP)方式を用いたものがある。
【0003】
図14は従来のCELP系音声符号化装置の構成を示すブロック図であり、図15は従来のCELP系音声復号化装置の構成を示すブロック図である。
図14及び図15において、1は入力音声、2は線形予測分析手段、3は線形予測係数符号化手段、4は適応音源符号化手段、5は駆動音源符号化手段、6はゲイン符号化手段、7は多重化手段、8は音声符号、9は分離手段、10は線形予測係数復号化手段、11は適応音源復号化手段、12は駆動音源復号化手段、13はゲイン復号化手段、14は合成フィルタ、15は出力音声である。
【0004】
次に動作について説明する。
この従来の音声符号化装置及び音声復号化装置では、5〜50ms程度を1フレームとして、フレーム単位で処理を行う。まず、図14に示す音声符号化装置において、入力音声1が線形予測分析手段2と適応音源符号化手段4とゲイン符号化手段6に入力される。線形予測分析手段2は、入力音声1を分析し、音声のスペクトル包絡情報である線形予測係数を抽出する。線形予測係数符号化手段3は、この線形予測係数を符号化し、その符号を多重化手段7に出力すると共に、音源の符号化のために量子化された線形予測係数を出力する。
【0005】
適応音源符号化手段4は、過去の所定長の音源(信号)を適応音源符号帳として記憶しており、内部で発生させた数ビットの2進数値で示した各適応音源符号に対応して、過去の音源を周期的に繰り返した時系列ベクトルを生成する。次に各時系列ベクトルに適切なゲインを乗じ、線形予測係数符号化手段3から出力された量子化された線形予測係数を用いた合成フィルタに通すことにより、仮の合成音を得る。この仮の合成音と入力音声1との距離を調べ、この距離を最小とする適応音源符号を選択して多重化手段7に出力すると共に、選択された適応音源符号に対応する時系列ベクトルを適応音源として、駆動音源符号化手段5とゲイン符号化手段6に出力する。また、入力音声1,又は入力音声1から適応音源による合成音を差し引いた信号を、符号化対象信号として駆動音源符号化手段5に出力する。
【0006】
駆動音源符号化手段5は、まず、内部で発生させた数ビットの2進数値で示した各駆動音源符号に対応して、内部に格納してある駆動音源符号帳から時系列ベクトルを順次読み出す。次に、読み出した各時系列ベクトルと適応音源符号化手段4から出力された適応音源に適切なゲインを乗じて加算し、線形予測係数符号化手段3から出力された量子化された線形予測係数を用いた合成フィルタに通すことにより、仮の合成音を得る。この仮の合成音と、適応音源符号化手段4から出力された入力音声1又は入力音声1から適応音源による合成音を差し引いた信号である符号化対象信号との距離を調べ、この距離を最小とする駆動音源符号を選択して多重化手段7に出力すると共に、選択された駆動音源符号に対応する時系列ベクトルを駆動音源として、ゲイン符号化手段6に出力する。
【0007】
ゲイン符号化手段6は、まず、内部で発生させた数ビットの2進数値で示した各ゲイン符号に対応して、内部に格納してあるゲイン符号帳からのゲインベクトルを順次読み出す。そして各ゲインベクトルの各要素を、適応音源符号化手段4から出力された適応音源と駆動音源符号化手段5から出力された駆動音源に乗じて加算して音源を生成し、生成したこの音源を線形予測係数符号化手段3から出力された量子化された線形予測係数を用いた合成フィルタに通すことにより、仮の合成音を得る。この仮の合成音と入力音声1との距離を調べ、この距離を最小とするゲイン符号を選択して多重化手段7に出力する。また、このゲイン符号に対応する上記生成された音源を適応音源符号化手段4に出力する。
【0008】
最後に、適応音源符号化手段4は、ゲイン符号化手段6により生成されたゲイン符号に対応する音源を用いて、内部の適応音源符号帳の更新を行う。
【0009】
多重化手段7は、線形予測係数符号化手段3から出力された線形予測係数の符号と、適応音源符号化手段4から出力された適応音源符号と、駆動音源符号化手段5から出力された駆動音源符号と、ゲイン符号化手段6から出力されたゲイン符号を多重化し、得られた音声符号8を出力する。
【0010】
次に、図15に示す音声復号化装置において、分離手段9は、音声符号化装置から出力された音声符号8を分離して、線形予測係数の符号を線形予測係数復号化手段10に出力し、適応音源符号を適応音源復号化手段11に出力し、駆動音源符号を駆動音源復号化手段12に出力し、ゲイン符号をゲイン復号化手段13に出力する。線形予測係数復号化手段10は、分離手段9が分離した線形予測係数の符号から線形予測係数を復号化し、合成フィルタ14のフィルタ係数として設定し出力する。
【0011】
次に、適応音源復号化手段11は、内部に過去の音源を適応音源符号帳として記憶しており、分離手段9が分離した適応音源符号に対応して過去の音源を周期的に繰り返した時系列ベクトルを適応音源として出力する。また、駆動音源復号化手段12は、分離手段9が分離した駆動音源符号に対応した時系列ベクトルを駆動音源として出力する。ゲイン復号化手段13は、分離手段9が分離したゲイン符号に対応したゲインベクトルを出力する。そして、上記2つの時系列ベクトルに上記ゲインベクトルの各要素を乗じて加算することで音源を生成し、この音源を合成フィルタ14に通すことで出力音声15を生成する。最後に、適応音源復号化手段11は、上記生成された音源を用いて内部の適応音源符号帳の更新を行う。
【0012】
次に、このCELP系音声符号化装置及び音声復号化装置の改良を図った従来の技術について説明する。
片岡章俊、林伸二、守谷健弘、栗原祥子、間野一則「CS−ACELPの基本アルゴリズム」NTT R&D,Vol.45,pp.325−330,1996年4月(文献1)には、演算量とメモリ量の削減を主な目的として、駆動音源の符号化にパルス音源を導入したCELP系音声符号化装置及び音声復号化装置が開示されている。この従来の構成では、駆動音源を数本のパルスの各位置情報と極性情報のみで表現している。このような音源は代数的音源と呼ばれ、構造が簡単な割に符号化特性が良く、最近の多くの標準方式に採用されている。
【0013】
図16は、文献1で用いられているパルス音源の位置候補を示した表であり、上記図14の音声符号化装置では駆動音源符号化装置5,上記図15の音声復号化装置では駆動音源復号化装置12に搭載される。文献1では、音源符号化フレーム長が40サンプルであり、駆動音源は4つのパルスで構成されている。音源番号1から音源番号3のパルス音源の位置候補は、図16に示したように各々8つの位置に制約されており、パルス位置は各々3ビットで符号化できる。音源番号4のパルスは16の位置に制約されており、パルス位置は4ビットで符号化できる。パルス音源の位置候補に制約を与えることにより、符号化特性の劣化を抑えつつ、符号化ビット数の削減、組合せ数の削減による演算量の削減を実現している。
【0014】
なお、文献1では、パルス位置探索の演算量を削減するために、インパルス応答(単一のパルス音源による合成音)と符号化対象信号の相関関数とインパルス応答(単一のパルス音源による合成音)の相互相関関数を予め計算して、プリテーブルとして記憶しておき、それらの値の簡単な加算によって距離(符号化歪)計算を実行する。そして、この距離を最小にするパルス位置と極性を探索する。この処理は、上記図14の音声符号化装置の駆動音源符号化装置5より実施される。
【0015】
以下、文献1で用いられている探索方法を具体的に説明する。
まず、距離の最小化は次の(1)式で示される評価値Dを最大化することと等価であり、この評価値Dの計算をパルス位置の全組合せに対して実行することで探索が実行できる。
D=C2 /E (1)
但し、
【数1】
【0016】
ここで、
mk はk番目のパルスのパルス位置、
g(k)はk番目のパルスのパルス振幅、
d(x)はパルス位置xにインパルスを立てた時のインパルス応答と符号化対象信号の相関値、
φ(x,y)はパルス位置xにインパルスを立てた時のインパルス応答とパルス位置yにインパルスを立てた時のインパルス応答との相関値
である。
【0017】
さらに、文献1では、g(k)をd(mk )と同符号で絶対値を1として、上記(2)式と(3)式を、次の(4)式、(5)式のように単純化して計算を行う。
【数2】
【0018】
但し、
d’(mk )=|d(mk )| (6)
φ’(mk ,mi )
=sign[d(mk )]sign[d(mi )]φ(mk ,mi ) (7)
となり、パルス位置の全組合せに対する評価値Dの計算を始める前に、d’とφ’の計算を行っておけば、後は(4)式と(5)式の単純加算という少ない演算量で評価値Dが算出できる。
【0019】
この代数的音源の品質を改善する構成が、特開平10−232696号公報、特開平10−312198号公報に開示されていると共に、土屋、天田、三関「適応パルス位置ACELP音声符号化の改善」日本音響学会、1999年春季研究発表会講演論文集I、213〜214頁(文献2)に開示されている。
【0020】
特開平10−232696号公報では、複数の固定波形を用意しておいて、代数的に符号化された音源位置に、この固定波形を配置することで、駆動音源を生成するようにしている。この構成によって、品質の高い出力音声が得られるとされている。
【0021】
文献2では、駆動音源(文献2中ではACELP音源)の生成部に、ピッチフィルタを内包させる構成について検討が行われている。これらの固定波形の導入とピッチフィルタ処理については、文献1におけるインパルス応答の算出部分で同時に行うことで、探索処理量を大きく増やさずに品質改善効果を得ることができる。
【0022】
特開平10−312198号公報では、ピッチ利得が予め決めた値以上のときに、駆動音源を適応音源に直交化させながらパルス位置を探索する構成が開示されている。
【0023】
図17は、上記の特開平10−232696号公報及び文献2の改良構成を導入した、従来のCELP系音声符号化装置における駆動音源符号化手段5の詳細構成を示すブロック図である。図において、16は聴覚重み付けフィルタ係数算出手段、17,19は聴覚重み付けフィルタ、18は基礎応答生成手段、20はプリテーブル算出手段、21は探索手段、22は音源位置テーブルである。
【0024】
次に駆動音源符号化手段5の動作について説明する。
まず、図14に示す音声符号化装置内の線形予測係数符号化手段3から、量子化された線形予測係数が聴覚重み付けフィルタ係数算出手段16と基礎応答生成手段18に入力され、適応音源符号化手段4から、入力音声1又は入力音声1から適応音源による合成音を差し引いた信号である符号化対象信号が聴覚重み付けフィルタ17に入力され、適応音源符号化手段4から、適応音源符号を変換して得られる適応音源の繰り返し周期が基礎応答生成手段18に入力される。
【0025】
聴覚重み付けフィルタ係数算出手段16は、上記量子化された線形予測係数を用いて聴覚重み付けフィルタ係数を算出し、算出した聴覚重み付けフィルタ係数を聴覚重み付けフィルタ17と聴覚重み付けフィルタ19のフィルタ係数として設定する。聴覚重み付けフィルタ17は、聴覚重み付けフィルタ係数算出手段16によって設定されたフィルタ係数により、入力された上記符号化対象信号に対してフィルタ処理を行う。
【0026】
基礎応答生成手段18は、単位インパルス又は固定波形に対して、入力された上記適応音源の繰り返し周期を用いた周期化処理を行い、得られた信号を音源として、上記量子化された線形予測係数を用いて構成した合成フィルタによる合成音を生成し、これを基礎応答として出力する。聴覚重み付けフィルタ19は、聴覚重み付けフィルタ係数算出手段16により設定されたフィルタ係数により、上記基礎応答に対してフィルタ処理を行う。
【0027】
プリテーブル算出手段20は、上記聴覚重み付けされた符号化対象信号と聴覚重み付けされた基礎応答の相関値を計算してd(x)とし、聴覚重み付けされた基礎応答の相互相関値を計算してφ(x,y)とする。そして、上記(6)式と(7)式によりd’(x)とφ’(x,y)を求めて、これらをプリテーブルとして記憶する。
【0028】
音源位置テーブル22には、図16と同様な音源位置候補が格納されている。探索手段21は、音源位置テーブル22から音源の位置候補を順次読み出して、各音源位置の組み合わせに対する評価値Dを、上記(1)式、(4)式、(5)式に基づいて、プリテーブル算出手段20により算出されたプリテーブルを使用して計算する。そして、探索手段21は、評価値Dを最大にする音源位置の組み合わせを探索し、得られた複数の音源位置を表す音源位置符号(音源位置テーブルにおけるインデックス)と極性を、駆動音源符号として図14に示す多重化手段7に出力すると共に、この駆動音源符号に対応する時系列ベクトルを、駆動音源としてゲイン符号化手段6に出力する。
【0029】
特開平10−312198号公報に開示されている直交化の導入は、プリテーブル算出手段20に入力される聴覚重み付けされた符号化対象信号を適応音源に対して直交化させることと、探索手段21内で上記(5)式で表されるEの値から適応音源と各駆動音源の相関に関する寄与分を減算することにより実現されている。
【0030】
【発明が解決しようとする課題】
従来の音声符号化装置及び音声復号化装置は以上のように構成されているので、駆動音源のピッチ周期化処理は、探索演算処理量を大きく増加することなく符号化特性を改善することができるが、周期化に用いる繰り返し周期に適応音源の繰り返し周期を使っているため、本来のピッチ周期とこの繰り返し周期が異なっている場合等に、品質劣化を起こすという課題があった。
【0031】
図18及び図19は、従来の音声符号化装置及び音声復号化装置における符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。図18は適応音源の繰り返し周期が本来のピッチ周期の約2倍になった場合で、図19は適応音源の繰り返し周期が本来のピッチ周期の約1/2倍になった場合である。
【0032】
適応音源の繰り返し周期は、符号化対象信号に対する符号化歪を最小にするように決定されるので、声帯の振動周期であるピッチ周期とは異なる値となることが頻繁である。異なる場合は、概ね本来のピッチ周期の整数分の1又は整数倍の値をとり、特に多いのは1/2倍と2倍である。
【0033】
図18では、声帯の振動が1ピッチ置きに周期的に変動したために、適応音源の繰り返し周期が本来のピッチ周期の約2倍になってしまっている。このため、この繰り返し周期を用いて駆動音源の符号化を行うと、先頭の1繰り返し周期に音源位置が集まり、これをフレーム内で該繰り返し周期で繰り返した結果が図のようになる。本来のピッチ周期とは異なる周期で繰り返された音源を用いると、そのフレームの音色が変わり、合成音に不安定な印象を生じてしまう。この課題は、低ビットレート化して駆動音源の音源情報量が少なくなる程、無視できなくなり、適応音源の振幅が駆動音源の振幅に比べて小さい区間で顕著になる。
【0034】
図19では、低域成分が支配的で、本来のピッチ周期内の前半と後半の波形が類似した形状となったため、適応音源の繰り返し周期が本来のピッチ周期の約1/2倍になってしまっている。この場合にも、図18と同様に、本来のピッチ周期とは異なる周期で繰り返された音源を用いたために、そのフレームの音色が変わり、合成音に不安定な印象を生じてしまう。
【0035】
また、低ビットレート化して駆動音源の情報量が少ない場合には、波形歪(符号化歪)を最小化するように決定した駆動音源では、低振幅の帯域の誤差が大きくなって合成音のスペクトル歪みが大きくなる傾向があり、このスペクトル歪が音質的な劣化として検知されてしまうことがある。このスペクトル歪による音質劣化を抑制するために、聴覚重み付け処理が導入されているが、聴覚重み付けを強くしていくと波形歪が増大して、これがザラザラした感じの音質劣化を引き起こすため、通常波形歪とスペクトル歪による音質劣化の影響が同程度になるように調整を行っている。しかしながら、前者のスペクトル歪の増大は特に女声で大きくなり、男声と女声で両者に最適になるようには聴覚重み付けが調整できないという課題があった。
【0036】
また、従来の構成では、複数の音源位置に配置する音源(パルス含む)に対してフレーム内で一定の振幅を与えている。各音源位置の候補数を比べたときに、その数が異なっているにもかかわらず、振幅が一定というのには無駄がある。例えば、図16に示した音源位置テーブルの場合、音源番号1から音源番号3の音源位置に対しては各々3ビットが使用され、音源番号4の音源位置に対しては4ビットが使用される。各音源番号毎に、各位置候補での音源と符号化対象信号の相関の最大値を調べると、候補数が最も多い音源番号4が確率的に最も大きい値が得られることが容易に予測される。極端な場合を考えると、ある音源番号に0ビットしか与えない場合を考える。0ビット、つまり固定位置に音源を配置する場合、極性を別途与えるとしてもその相関値は小さく、つまり他の音源番号のものに比べてあまり大きな振幅を与えることが最適でないことが分かる。よって、従来の構成では振幅に関して最適に設計されていないという課題があった。
【0037】
なお、この音源番号毎の振幅については、別途ゲイン量子化時に独立の値をベクトル量子化によって与える構成も別途開示されているが、これはゲイン量子化情報量が増える、処理が複雑になる等の課題があった。
【0038】
さらに、駆動音源の適応音源に対する直交化の導入においては、探索処理の増加を伴う構成となっており、代数的音源の組み合わせ数が増加した場合には、大きな負担となるという課題があった。特に固定波形やピッチ周期化を導入した構成において直交化を行う場合には、その演算量の増加は一層大きくなるという課題があった。
【0039】
この発明は上記のような課題を解決するためになされたもので、高品質の音声符号化装置及び音声復号化装置を得ることを目的としている。また、演算量の増加を最小限に抑えつつ、高品質の音声符号化装置及び音声復号化装置を得ることを目的としている。
【0040】
【課題を解決するための手段】
この発明に係る音声符号化装置は、過去の音源より生成した適応音源と、入力音声と上記適応音源により生成された駆動音源とを用いて、上記入力音声をフレーム単位に符号化し音声符号を出力するものにおいて、上記適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個を予備選択して、所定個の予備選択された駆動音源の繰り返し周期候補を出力する周期予備選択手段と、上記周期予備選択手段が出力した所定個の予備選択された駆動音源の繰り返し周期候補毎に、符号化歪を最も小さくする音源位置と極性及びその時の符号化歪に関する評価値を出力する駆動音源符号化手段と、上記駆動音源符号化手段が出力した各予備選択された駆動音源の繰り返し周期候補毎の符号化歪を比較して、1つの符号化歪と他の符号化歪の差が所定の闘値以上の場合に、その1つの符号化歪を与えた駆動音源の繰り返し周期候補を選択し、上記差が所定の闘値未満の場合には、別途推定した本来のピッチ周期に最も近い駆動音源の繰り返し周期候補を選択し、その選択結果を符号化した選択情報と、選択された駆動音源の繰り返し周期候補に対応する音源位置を表す音源位置符号と極性とを出力する周期符号化手段とを備えたものである。
【0041】
この発明に係る音声符号化装置は、周期予備選択手段が予備選択する駆動音源の繰り返し周期候補の所定個が2であり、周期符号化手段が駆動音源の繰り返し周期の選択結果を1ビットで符号化して選択情報とするものである。
【0042】
この発明に係る音声符号化装置は、周期予備選択手段が、適応音源の繰り返し周期と所定の閾値を比較して、この比較結果に基づいて所定個の駆動音源の繰り返し周期候補を選択するものである。
【0043】
この発明に係る音声符号化装置は、周期予備選択手段が、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補をそのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択するものである。
【0044】
この発明に係る音声符号化装置は、周期予備選択手段が適応音源の繰り返し周期に乗じる複数の定数として、少なくとも1/2,1を含むものである。
【0045】
この発明に係る音声復号化装置は、音声符号を入力し、過去の音源より生成した適応音源と、上記音声符号と上記適応音源により生成された駆動音源とを用いて、上記音声符号からフレーム単位に音声を復号化するものにおいて、上記適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個を予備選択して、所定個の予備選択された駆動音源の繰り返し周期候補を出力する周期予備選択手段と、符号化側で複数の駆動音源の繰り返し周期候補毎の符号化歪の比較結果により選択された、他の符号化歪との差が所定の闘値以上となる符号化歪を与えた駆動音源の繰り返し周期、又は上記差が所定の闘値未満の場合に別途推定した本来のピッチ周期に最も近い駆動音源の繰り返し周期の上記音声符号に含まれる選択情報に基づいて、上記周期予備選択手段が出力した所定個の予備選択された駆動音源の繰り返し周期候補の内の1つを選択して、これを駆動音源の繰り返し周期として出力する周期復号化手段と、上記音声符号に含まれる音源位置符号と極性に基づいて時系列信号を生成し、上記周期復号化手段が出力した駆動音源の繰り返し周期を用いて、生成した時系列信号をピッチ周期化した時系列ベクトルを出力する駆動音源復号化手段とを備えたものである。
【0046】
この発明に係る音声復号化装置は、周期予備選択手段が予備選択する駆動音源の繰り返し周期候補の所定個が2であり、周期復号化手段が1ビットで符号化された駆動音源の繰り返し周期の選択情報を復号化するものである。
【0047】
この発明に係る音声復号化装置は、周期予備選択手段が、適応音源の繰り返し周期と所定の閾値を比較して、この比較結果に基づいて所定個の駆動音源の繰り返し周期候補を選択するものである。
【0048】
この発明に係る音声復号化装置は、周期予備選択手段が、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補をそのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択するものである。
【0049】
この発明に係る音声復号化装置は、周期予備選択手段が適応音源の繰り返し周期に乗じる複数の定数として、少なくとも1/2,1を含むものである。
【0055】
【発明の実施の形態】
以下、この発明の実施の一形態について説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声符号化装置における駆動音源符号化手段5の構成を示すブロック図である。音声符号化装置の全体構成は図14と同様である。図において、23は周期予備選択手段、27は駆動音源符号化手段、28は周期符号化手段であり、周期予備選択手段23は、定数テーブル24,比較手段25,予備選択手段26により構成されている。
【0056】
なお、駆動音源符号化手段27が、従来の駆動音源符号化手段5と同様の動作をする手段であるが、駆動音源符号化手段27の前後に、周期予備選択手段23と周期符号化手段28が新規に追加されたものを、図14における駆動音源符号化手段5の部分としたものが、この実施の形態1による音声符号化装置である。
【0057】
図2はこの発明の実施の形態1による音声復号化装置における駆動音源復号化手段12の構成を示すブロック図である。音声復号化装置の全体構成は図15と同様である。図2において、29は周期復号化手段、30は駆動音源復号化手段である。
【0058】
なお、駆動音源復号化手段30が、従来の駆動音源復号化手段12と同様の動作をする手段であるが、駆動音源復号化手段30の前に周期予備選択手段23と周期復号化手段29が新規に挿入されたものを、図15における駆動音源復号化手段12の部分としたものが、この実施の形態1による音声復号化装置である。
【0059】
次に動作について説明する。
まず、音声符号化装置の動作について図1を用いて説明する。図14に示す適応音源符号化手段4から、適応音源符号を変換して得られた適応音源の繰り返し周期が周期予備選択手段23に入力される。また、適応音源符号化手段4からの符号化対象信号と、線形予測係数符号化手段3からの量子化された線形予測係数とが、駆動音源符号化手段27に入力される。
【0060】
周期予備選択手段23内の定数テーブル24には、1/2,1,2という3つの定数が格納されており、各定数が入力された適応音源の繰り返し周期に乗じられ、得られた3つの繰り返し周期が、駆動音源の繰り返し周期候補として予備選択手段26に出力される。比較手段25は、入力された適応音源の繰り返し周期を予め与えておいた所定の閾値と比較して、その比較結果を予備選択手段26に出力する。なお、この所定の閾値としては、平均的なピッチ周期に相当する40程度を用いる。
【0061】
予備選択手段26は、比較手段25からの比較結果が、所定の閾値を上回る結果であった時には、入力された適応音源の繰り返し周期に1/2,1を乗じた2つの駆動音源の繰り返し周期候補を予備選択し、比較結果が所定の閾値以下の結果であった時には、入力された適応音源の繰り返し周期に1,2を乗じた2つの駆動音源の繰り返し周期候補を予備選択し、得られた2つの駆動音源の繰り返し周期候補を駆動音源符号化手段27に順次出力する。
【0062】
駆動音源符号化手段27は、図17に示した従来の駆動音源符号化手段5と同様に、入力された2つの駆動音源の繰り返し周期候補(図17と異なるのは、この繰り返し周期が適応音源の定数倍となっている点である)、量子化された線形予測係数、符号化対象信号を用いて、代数的音源の符号化処理を行い、2つの駆動音源の繰り返し周期候補毎に、符号化歪を最も小さくする音源位置、極性及びその時の符号化歪に関する上記(1)式における評価値Dを出力する。
【0063】
周期符号化手段28は、駆動音源符号化手段27が出力した各駆動音源の繰り返し周期候補に対する評価値Dを比較して、1つの評価値と残りの評価値の間の差が所定の閾値以上である(つまり1つのものだけが符号化歪みが小さい)場合には、その評価値を与えた駆動音源の繰り返し周期候補を選択し、評価値間の差異が所定の閾値未満の場合には、別途分析しておいたピッチ周期(本来のピッチ周期の推定結果)に最も近い駆動音源の繰り返し周期候補を選択して、この選択結果を1ビットで符号化した選択情報と、その時の音源位置を表す音源位置符号と極性とを、駆動音源符号として図14に示す多重化手段7に出力すると共に、この駆動音源符号に対応する時系列ベクトルを、駆動音源として図14に示すゲイン符号化手段6に出力する。
【0064】
次に、音声復号化装置の動作について図2を用いて説明する。図15に示す音声復号化装置において、従来と同様に、分離手段9は、音声符号化装置から出力された音声符号8を分離して、線形予測係数の符号を線形予測係数復号化手段10に出力し、適応音源符号を適応音源復号化手段11に出力し、駆動音源符号を駆動音源復号化手段12に出力し、ゲイン符号をゲイン復号化手段13に出力するが、この実施の形態では、図15に示す適応音源復号化手段11から、適応音源符号を変換して得られる適応音源の繰り返し周期が、駆動音源復号化手段12に入力される。すなわち、図2において、適応音源復号化手段11から適応音源の繰り返し周期が周期予備選択手段23に入力される。また、分離手段9が分離した駆動音源符号内の選択情報が周期復号化手段29に入力され、駆動音源符号内の音源位置符号と極性が駆動音源復号化手段30に入力される。
【0065】
周期予備選択手段23は、音声符号化装置内の図1に示す周期予備選択手段23と同じ構成を持ち、予備選択手段26は、入力した適応音源の繰り返し周期を定数倍した複数の駆動音源の繰り返し周期候補の中から、比較手段25の比較結果に基づき、2つの予備選択された駆動音源の繰り返し周期候補を選択して周期復号化手段29に出力する。
【0066】
周期復号化手段29は、入力した選択情報に従って、予備選択手段26から出力された2つの予備選択された駆動音源の繰り返し周期候補の一方を選択して、これを駆動音源の繰り返し周期として駆動音源復号化手段30に出力する。駆動音源復号化手段30は、従来の駆動音源復号化手段12と同様にして、音源位置符号に対応した各位置に固定波形を配置し、繰り返し周期に基づくピッチ周期化を行い、駆動音源符号に対応した時系列ベクトルを駆動音源として出力する。
【0067】
図3及び図4は、実施の形態1による音声符号化装置及び音声復号化装置における符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。なお、符号化対象信号は図18及び図19と同じものであり、図3が適応音源の繰り返し周期が本来のピッチ周期の約2倍になった場合で、図4が約1/2倍になった場合である。
【0068】
図3の場合、本来のピッチ周期が20以上であれば、適応音源の繰り返し周期は40以上となるので、予備選択手段26では、ほとんどの場合に適応音源の繰り返し周期の1/2倍と1倍の値が予備選択される。この2つの繰り返し周期を用いた時の符号化時の評価値Dの差異が小さければ、別途求めてある本来のピッチ周期の推定値(適応音源の繰り返し周期よりは正解率は高い)に近い1/2倍が選択されて、図のように理想的に周期化された音源位置が得られる。
【0069】
図4の場合、本来のピッチ周期が80未満であれば、適応音源の繰り返し周期は40未満となるので、予備選択手段26では、高い確率で適応音源の1倍と2倍の値が予備選択される。この2つの繰り返し周期を用いた時の符号化時の評価値Dの差異が小さければ、別途求めてある本来のピッチ周期に近い2倍が選択されて、図のように理想的に周期化された音源位置が得られる。
【0070】
なお、上記実施の形態では、駆動音源の符号化と復号化に、数本のパルスの各位置と極性のみで表現した代数的音源を使用しているが、この発明は代数的音源構成に限定されるものではなく、その他の学習音源符号帳やランダム音源符号帳等を用いるCELP系音声符号化装置及び音声復号化装置においても適用可能である。
【0071】
また、上記実施の形態では、別途ピッチ周期を求めて周期符号化手段28での選択に用いているが、これを用いずに符号化歪を最小にする、すなわち、評価値Dを最大にする繰り返し周期を選択する構成も可能である。また、ピッチ周期ではなくて、過去の数フレームの適応音源の繰り返し周期を平均した値を参照値として用いても構わない。
【0072】
さらに、上記実施の形態では、スペクトルパラメータとして線形予測係数を用いて説明したが、一般に多く使用されるLSP(Line Spectrum Pair:線スペクトル対)等、他のスペクトルパラメータを用いる構成でも構わない。
【0073】
さらに、上記実施の形態では、定数テーブル24内の全ての定数を適応音源の繰り返し周期に乗じているが、予備選択手段26で定数テーブル24内から2つの定数を選択して、その後に適応音源の繰り返し周期に乗じるようにしても同様である。
【0074】
さらに、定数テーブル内から1を削除し、代わりに適応音源の繰り返し周期を直接予備選択手段26に入力するようにしても同じ結果が得られる。
【0075】
さらに、特性改善効果は減少するが、定数テーブル中の値を1/2と1のみとして、比較手段25と予備選択手段26をなくした構成も可能である。
【0076】
以上のように、この実施の形態1によれば、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個を予備選択し、予備選択された駆動音源の各繰り返し周期候補毎に符号化歪を最も小さくする駆動音源符号を探索し、駆動音源の各繰り返し周期毎の符号化歪を比較した結果に基づいて、駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期と適応音源の繰り返し周期が異なる場合でも、高い確率で本来のピッチ周期に近い繰り返し周期を用いた駆動音源の周期化が選択されることにより、合成音の不安定な印象の発生を抑制でき、高品質の音声符号化装置を提供できるという効果が得られる。
【0077】
また、周期予備選択における予備選択個数を2とし、駆動音源の繰り返し周期の選択情報を1ビットで符号化するようにしたので、最小限の情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。
【0078】
さらに、周期予備選択において、適応音源の繰り返し周期と所定の閾値を比較して、この比較結果に基づいて所定個の駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期である確率が低い駆動音源の繰り返し周期候補を排除でき、評価の必要のない駆動音源の繰り返し周期候補に対する駆動音源符号化処理と選択情報の配分が不要になり、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。
【0079】
さらに、周期予備選択における適応音源の繰り返し周期に乗じる定数として、少なくとも1/2,1を含むようにしたので、少ない選択肢ながら高い確率で、本来のピッチ周期を含む駆動音源の繰り返し周期候補を選択することができ、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。
【0080】
さらに、この実施の形態1によれば、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個を予備選択し、音声符号中の駆動音源の繰り返し周期の選択情報に基づいて、予備選択された駆動音源の繰り返し周期候補の中から1つを駆動音源の繰り返し周期として選択し、この駆動音源の繰り返し周期を用いて駆動音源を復号化するようにしたので、本来のピッチ周期と適応音源の繰り返し周期が異なる場合でも、高い確率で本来のピッチ周期に近い繰り返し周期を用いた駆動音源の周期化がなされ、合成音の不安定な印象の発生を抑制でき、高品質の音声復号化装置を提供できるという効果が得られる。
【0081】
さらに、周期予備選択における予備選択個数を2とし、1ビットで符号化された駆動音源の繰り返し周期の選択情報を復号化するようにしたので、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果が得られる。
【0082】
さらに、周期予備選択において、適応音源の繰り返し周期と所定の閾値を比較して、この比較結果に基づいて所定個の駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期である確率が低い駆動音源の繰り返し周期候補を排除でき、必要のない駆動音源の繰り返し周期候補に対する選択情報の配分が不要になり、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果が得られる。
【0083】
さらに、周期予備選択における適応音源の繰り返し周期に乗じる定数として、少なくとも1/2,1を含むようにしたので、少ない選択肢ながら高い確率で、本来のピッチ周期を含む駆動音源の繰り返し周期候補を選択することができ、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果が得られる。
【0084】
実施の形態2.
図5はこの発明の実施の形態2による音声符号化装置における駆動音源符号化手段5の構成を示すブロック図である。音声符号化装置の全体構成は、実施の形態1,すなわち図14と同様である。図5において、31は周期予備選択手段、33は適応音源符号化手段4内に格納されている適応音源符号帳であり、周期予備選択手段31は、定数テーブル32、適応音源生成手段34、距離計算手段35、予備選択手段36によって構成されている。
【0085】
なお、駆動音源符号化手段27が、従来の駆動音源符号化手段5と同様の動作をする手段であるが、駆動音源符号化手段27の前後に周期予備選択手段31と周期符号化手段28が新規に挿入されたものを、図14における駆動音源符号化手段5の部分としたものが、この実施の形態2による音声符号化装置である。
【0086】
図6はこの発明の実施の形態2による音声復号化装置における駆動音源復号化手段12の構成を示すブロック図である。音声復号化装置の全体構成は、実施の形態1,すなわち図15と同様である。図6において、33は適応音源復号化手段11内に格納されている適応音源符号帳である。
【0087】
なお、駆動音源復号化手段30が、従来の駆動音源復号化手段12と同様の動作をする手段であるが、駆動音源復号化手段30の前に周期予備選択手段31と周期復号化手段29が新規に挿入されたものを、図15における駆動音源復号化手段12の部分としたものが、この実施の形態2による音声復号化装置である。
【0088】
次に動作について説明する。
まず、音声符号化装置の動作について図5を用いて説明する。実施の形態1と同様に、適応音源符号化手段4が出力した適応音源の繰り返し周期が周期予備選択手段31に入力され、適応音源符号化手段4からの符号化対象信号、及び線形予測係数符号化手段3からの量子化された線形予測係数が駆動音源符号化手段27に入力される。
【0089】
周期予備選択手段31内の定数テーブル32には、1/3,1/2,1,2という4つの定数が格納されており、各定数が入力された適応音源の繰り返し周期に乗じられ、得られた4つの駆動音源の繰り返し周期候補が、適応音源生成手段34と予備選択手段36に出力される。
【0090】
適応音源生成手段34は、適応音源符号帳33内に格納されている過去の音源を用いて、上記4つの駆動音源の繰り返し周期候補の各々を繰り返し周期とした時の適応音源を生成して、生成した4つの適応音源を距離計算手段35に出力する。なお、適応音源の繰り返し周期の1倍の値に対しては、適応音源符号化手段4が既に同一の適応音源を生成しているので、適応音源生成手段34での生成を省略することができる。
【0091】
また、4つの駆動音源の繰り返し周期候補の一部が、大きすぎたり又は小さすぎたりして、ピッチ周期として不適切な値となっている場合には、適応音源符号帳33が対応できないことも起こり得るので、適応音源生成手段34は、その駆動音源繰り返し周期候補に対する適応音源として、0信号を出力する等して、その後の予備選択時に選択されないようにする。
【0092】
距離計算手段35は、適応音源の繰り返し周期の1倍の値を繰り返し周期とした時の適応音源(つまり適応音源符号化手段4が出力した適応音源)と、他の1/3倍、1/2倍、2倍の値を繰り返し周期とした時の適応音源との間の距離を計算して、得られた各距離を予備選択手段36に出力する。
【0093】
予備選択手段36は、まず1/3倍の時と1/2倍の時の距離を比較して、小さい方を選択する。そして、この選択された距離を適応音源の平均振幅に所定の定数を乗じた値を比較し、前者が小さいときには、その距離を与えた繰り返し周期(適応音源の繰り返し周期の1/3倍又は1/2倍)と適応音源の繰り返し周期の1倍の値を、予備選択された駆動音源の繰り返し周期候補として出力する。前者が後者以上の時には、次にその距離と適応音源の繰り返し周期の2倍の時の距離を比較し、小さい方の距離を与えた繰り返し周期と適応音源の繰り返し周期の1倍の値を、予備選択された駆動音源の繰り返し周期候補として出力する。なお、所定の定数としては、1未満の正の値で0.1程度の小さい値を用いると良い。
【0094】
駆動音源符号化手段27は、図17に示した従来の駆動音源符号化手段5と同様に、入力された各予備選択された駆動音源の繰り返し周期候補(図17と異なるのは、この予備選択された駆動音源の繰り返し周期候補が適応音源の定数倍となっている点である)、量子化された線形予測係数、符号化対象信号を用いて、代数的音源の符号化処理を行い、各繰り返し候補毎に符号化歪を最も小さくする駆動音源符号を探索し、得られた複数の音源位置と極性と、その時の符号化歪みに関する上記(1)式の評価値Dを出力する。
【0095】
周期符号化手段28は、駆動音源符号化手段27が出力した駆動音源の各繰り返し周期候補に対する評価値を比較して、1つの評価値と残りの評価値の間の差が閾値以上である(つまり1つのものだけが符号化歪が小さい)場合には、その評価値を与えた駆動音源の繰り返し周期候補を選択し、評価値間の差異が閾値未満の場合には、別途分析しておいたピッチ周期(本来のピッチ周期の推定結果)に最も近い駆動音源の繰り返し周期候補を選択し、この選択結果を1ビットで符号化した選択情報と、その時の音源位置を表す音源位置符号と極性とを駆動音源符号として出力する。
【0096】
次に音声復号化装置の動作について図6を用いて説明する。実施の形態1と同様に、適応音源復号化手段11が出力した適応音源の繰り返し周期が周期予備選択手段31に入力され、分離手段9が分離した駆動音源符号内の選択情報が周期復号化手段29に入力され、駆動音源符号内の音源位置符号と極性が駆動音源復号化手段30に入力される。
【0097】
周期予備選択手段31は音声符号化装置内の図5に示す周期予備選択手段31と同じ構成を持ち、入力した適応音源の繰り返し周期を定数倍した駆動音源の繰り返し周期候補の中から2つの予備選択された駆動音源の繰り返し周期候補を選択し、周期復号化手段29に出力する。周期復号化手段29は、入力した駆動音源の選択情報に従って、上記2つの駆動音源の繰り返し周期候補の一方を選択して、これを駆動音源の繰り返し周期として駆動音源復号化手段30に出力する。駆動音源復号化手段30は、従来の駆動音源復号化手段12と同様に、音源位置符号に対応した各位置に固定波形を配置し、繰り返し周期に基づくピッチ周期化を行って、駆動音源符号に対する時系列ベクトルを駆動音源として出力する。
【0098】
図7,図8,図9は、実施の形態2による音声符号化装置及び音声復号化装置における適応音源生成手段34で生成される適応音源を説明する図であり、図7は適応音源の繰り返し周期が本来のピッチ周期と一致している場合を示し、図8は適応音源の繰り返し周期が本来のピッチ周期の2倍である場合を示し、図9は適応音源の繰り返し周期が本来のピッチ周期の3倍である場合を示している。
【0099】
図7を見ると、適応音源の繰り返し周期が本来のピッチ周期と一致している場合には、適応音源の繰り返し周期の1/3倍及び1/2倍を繰り返し周期として生成した適応音源と本来の適応音源(図中の最も上のもの)との距離が大きく、2倍と1倍が予備選択されやすいことが分かる。
【0100】
図8を見ると、適応音源の繰り返し周期が本来のピッチ周期の2倍である場合には、適応音源の繰り返し周期の1/2倍を繰返し周期として生成した適応音源と本来の適応音源(図中の最も上のもの)との距離が小さく、1/2倍と1倍が予備選択されやすいことが分かる。
【0101】
図9を見ると、適応音源の繰り返し周期が本来のピッチ周期の3倍である場合には、適応音源の繰り返し周期の1/3倍を繰り返し周期として生成した適応音源と本来の適応音源(図中の最も上のもの)との距離が小さく、1/3倍と1倍が予備選択されやすいことが分かる。
【0102】
なお、上記実施の形態では、駆動音源の符号化と復号化に代数的音源を使用しているが、この発明は代数的音源構成に限定されるものではなく、その他の学習音源符号帳やランダム音源符号帳等を用いるCELP系音声符号化装置及び音声復号化装置においても適用可能である。
【0103】
また、上記実施の形態では、別途ピッチ周期を求めて周期符号化手段28での選択に用いているが、これを用いずに符号化歪を最小にする、すなわち評価値Dを最大にする駆動音源の繰り返し周期候補を選択する構成も可能である。またピッチ周期ではなくて、過去の数フレームの適応音源の繰り返し周期を平均した値を参照値として用いても構わない。
【0104】
さらに、上記実施の形態では、スペクトルパラメータとして線形予測係数を用いて説明したが、一般に多く使用されるLSP等、他のスペクトルパラメータを用いる構成でも構わない。
【0105】
さらに、定数テーブル内から1を削除し、代わりに適応音源の繰り返し周期を直接予備選択手段36に入力するようにしても同じ結果が得られる。
【0106】
さらに、特性改善効果は減少するが、定数テーブル中の値を1/2,1,2のみとする構成も可能である。
【0107】
以上のように、この実施の形態2によれば、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補を、そのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期と適応音源の繰り返し周期が異なる場合でも、高い確率で本来のピッチ周期に近い繰り返し周期を用いた駆動音源の周期化が選択され、合成音の不安定な印象の発生を抑制でき、高品質の音声符号化装置を提供できるという効果が得られる。
【0108】
さらに、周期予備選択における予備選択個数を2とし、駆動音源の繰り返し周期の選択情報を1ビットで符号化するようにしたので、最小限の情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。
【0109】
さらに、複数の駆動音源の繰り返し周期候補を、そのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期である確率が低い駆動音源の繰り返し周期候補を排除でき、評価の必要のない駆動音源の繰り返し周期候補に対する駆動音源符号化処理と選択情報の配分が不要になり、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。
【0110】
さらに、周期予備選択における適応音源の繰り返し周期に乗じる定数として、少なくとも1/2,1を含むようにしたので、少ない選択肢ながら高い確率で、本来のピッチ周期を含む駆動音源の繰り返し周期候補を生成することができ、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。
【0111】
さらに、この実施の形態2によれば、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個の予備選択された駆動音源の繰り返し周期候補を選択し、音声符号中の駆動音源の繰り返し周期の選択情報に基づいて、予備選択された駆動音源の繰り返し周期候補の中から1つを駆動音源の繰り返し周期として選択し、この繰り返し周期を用いて駆動音源を復号化するようにしたので、本来のピッチ周期と適応音源の繰り返し周期が異なる場合でも、高い確率で本来のピッチ周期に近い繰り返し周期を用いた駆動音源の周期化がなされ、合成音の不安定な印象の発生を抑制でき、高品質の音声復号化装置を提供できるという効果が得られる。
【0112】
さらに、周期予備選択における予備選択個数を2とし、1ビットで符号化された駆動音源の繰り返し周期の選択情報を復号化するようにしたので、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果が得られる。
【0113】
さらに、周期予備選択において、複数の駆動音源の繰り返し周期候補を、そのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期である確率が低い駆動音源の繰り返し周期候補を排除でき、必要のない繰り返し駆動音源の繰り返し周期候補に対する選択情報の配分が不要になり、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果が得られる。
【0114】
さらに、周期予備選択における適応音源の繰り返し周期に乗じる定数として、少なくとも1/2,1を含むようにしたので、少ない選択肢ながら高い確率で、本来のピッチ周期を含む駆動音源の繰り返し周期候補を選択することができ、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果が得られる。
【0115】
実施の形態3.
図10はこの発明の実施の形態3による音声符号化装置における駆動音源符号化手段5と新たに追加した聴覚重み付け制御手段37の構成を示すブロック図である。音声符号化装置の全体構成は、図14において、聴覚重み付け制御手段37が駆動音源符号化手段5に付随して追加されたものとなる。聴覚重み付け制御手段37は、比較手段38,強度制御手段39によって構成される。駆動音源符号化手段5内の構成は、図17で説明した従来のものと同様であり、唯一、聴覚重み付けフィルタ係数算出手段16が聴覚重み付け制御手段37により制御されている点のみが変更されている。
【0116】
次に動作について説明する。
まず、音声符号化装置内の図14に示す線形予測係数符号化手段3から、駆動音源符号化手段5内の聴覚重み付けフィルタ係数算出手段16と基礎応答生成手段18に、量子化された線形予測係数が入力される。また、適応音源符号化手段4から、駆動音源符号化手段5内の基礎応答生成手段18と聴覚重み付け制御手段37内の比較手段38に、適応音源符号を変換して得られる適応音源の繰り返し周期が入力される。さらに、適応音源符号化手段4から、駆動音源符号化手段5内の聴覚重み付けフィルタ17に、入力音声1又は入力音声1から適応音源による合成音を差し引いた信号が、符号化対象信号として入力される。
【0117】
聴覚重み付け制御手段37内の比較手段38は、入力された繰り返し周期を所定の閾値と比較して、比較結果を強度制御手段39に出力する。所定の閾値としては、男声と女声のピッチ周期の分布をほぼ分離する40程度の値とする。
【0118】
強度制御手段39は、上記比較結果に基づいて、聴覚重み付けフィルタにおける強調強度を制御する強度係数を決定して、決定した強度係数を駆動音源符号化手段5内の聴覚重み付けフィルタ係数算出手段16に出力する。比較手段38の比較結果において、適応音源の繰り返し周期が所定の閾値以上である場合は、男声である可能性が高いので、聴覚重み付けの強度が弱めになるように強度係数を決定する。逆の比較結果において、適応音源の繰り返し周期が所定の閾値未満である場合には、女声である可能性が高いので、聴覚重み付けの強度が強めになるように強度係数を決定する。強度係数としては、聴覚重み付けフィルタ係数の算出に用いる線形予測係数への乗算値等である。
【0119】
聴覚重み付けフィルタ係数算出手段16は、上記量子化された線形予測係数と上記強度係数を用いて聴覚重み付けフィルタ係数を算出し、算出した聴覚重み付けフィルタ係数を、聴覚重み付けフィルタ17と聴覚重み付けフィルタ19のフィルタ係数として設定する。
【0120】
以降の聴覚重み付けフィルタ17,基礎応答生成手段18,聴覚重み付けフィルタ19,プリテーブル算出手段20,探索手段21,音源位置テーブル22の構成と動作は、従来と同じであるので説明を省略する。
【0121】
なお、上記実施の形態では、聴覚重み付け制御手段37が所定の閾値以上か未満かに基づいて強度係数を決定したが、2つ以上の所定の閾値を使用してより細かく制御したり、閾値との差の大きさ等に基づいて連続的に制御することも可能である。
【0122】
また、上記実施の形態では、駆動音源の符号化に代数的音源を使用しているが、この発明は代数的音源構成に限定されるものではなく、その他の学習音源符号帳やランダム音源符号帳等を用いるCELP系音声符号化装置においても適用可能である。
【0123】
さらに、上記実施の形態では、スペクトルパラメータとして線形予測係数を用いて説明したが、一般に多く使用されるLSP等、他のスペクトルパラメータを用いる構成でも構わない。
【0124】
以上のように、この実施の形態3によれば、適応音源の繰り返し周期の値に基づいて、聴覚重み付けの強度係数を制御し、この強度係数を用いて聴覚重み付けのためのフィルタ係数を算出し、このフィルタ係数を用いて、駆動音源の符号化を行う符号化対象信号に対する聴覚重み付けを行うようにしたので、男声と女声の両方に最適に調整した聴覚重み付けが可能となり、高品質の音声符号化装置を提供できるという効果が得られる。
【0125】
実施の形態4.
図11はこの発明の実施の形態4による音声符号化装置における駆動音源符号化手段5と新たに追加した聴覚重み付け制御手段40の構成を示すブロック図である。音声符号化装置の全体構成は、図14において、聴覚重み付け制御手段40が駆動音源符号化手段5に付随して追加されたものとなる。聴覚重み付け制御手段40は、比較手段38,強度制御手段39,平均値更新手段41によって構成される。駆動音源符号化手段5内の構成は、図17で説明した従来のものと同様であり、唯一、聴覚重み付けフィルタ係数算出手段16が聴覚重み付け制御手段40によって制御されている点のみが変更されている。
【0126】
次に動作について説明する。
この実施の形態4は、上期実施の形態3の聴覚重み付け制御手段37内に平均値更新手段41を追加した構成となっているので、この新しい部分の動作を中心に説明する。適応音源符号化手段4から、駆動音源符号化手段5内の基礎応答生成手段18と聴覚重み付け制御手段40内の平均値更新手段41に、適応音源符号を変換して得られる適応音源の繰り返し周期が入力される。
【0127】
聴覚重み付け制御手段40内の平均値更新手段41は、入力された適応音源の繰り返し周期を用いて、内部に格納してある適応音源の繰り返し周期の平均値を更新し、更新した平均値を比較手段38に対して出力する。最も簡単に平均値を更新する方法としては、そのフレームの繰り返し周期に1より小さい定数αを乗じたものと、それまでの平均値に1−αを乗じたものを加算する方法がある。平均値を求める目的は、男声であるか女声であるかを安定に判定することにあるので、適応音源ゲインが大きいフレームに更新を限定する等した上で、更新することが望ましい。
【0128】
そして、比較手段38は、上記更新された平均値を所定の閾値と比較して、比較結果を強度制御手段39に出力する。強度制御手段39は、上記比較結果に基づいて、聴覚重み付けフィルタにおける強調強度を制御する強度係数を決定し、決定した強度係数を駆動音源符号化手段5内の聴覚重み付けフィルタ係数算出手段16に出力する。比較手段38の比較結果において、平均値が所定の閾値以上である場合は、男声である可能性が高いので、聴覚重み付けの強度が弱めになるように強度係数を決定する。逆の比較結果において、平均値が所定の閾値未満である場合には、女声である可能性が高いので、聴覚重み付けの強度が強めになるように強度係数を決定する。
【0129】
以降の聴覚重み付けフィルタ係数算出手段16,聴覚重み付けフィルタ17,基礎応答生成手段18,聴覚重み付けフィルタ19,プリテーブル算出手段20,探索手段21,音源位置テーブル22の構成と動作は、従来と同じであるので説明を省略する。
【0130】
なお、上記実施の形態では、聴覚重み付け制御手段40が所定の閾値以上か未満かに基づいて強度係数を決定したが、2つ以上の所定の閾値を使用してより細かく制御したり、所定の閾値との差の大きさ等に基づいて連続的に制御することも可能である。
【0131】
また、上記実施の形態では、駆動音源の符号化に代数的音源を使用しているが、この発明は代数的音源構成に限定されるものではなく、その他の学習音源符号帳やランダム音源符号帳等を用いるCELP系音声符号化装置においても適用可能である。
【0132】
さらに、上記実施の形態では、スペクトルパラメータとして線形予測係数を用いて説明したが、一般に多く使用されるLSP等、他のスペクトルパラメータを用いる構成でも構わない。
【0133】
以上のように、この実施の形態4によれば、適応音源の繰り返し周期の過去の平均値に基づいて、聴覚重み付けの強度係数を制御し、この強度係数を用いて聴覚重み付けのためのフィルタ係数を算出し、このフィルタ係数を用いて、駆動音源の符号化を行う符号化対象信号に対する聴覚重み付けを行うようにしたので、男声と女声の両方に最適に調整した聴覚重み付けが可能となり、高品質の音声符号化装置を提供できるという効果が得られる。
【0134】
また、特に適応音源の繰り返し周期の過去の平均値を使用することで、聴覚重み付けの強度が頻繁に変更されて不安定な印象を発生することを抑制できるという効果が得られる。
【0135】
実施の形態5.
図12はこの発明の実施の形態5による音声符号化装置における駆動音源符号化手段5及び音声復号化装置における駆動音源復号化手段12で使用する音源位置テーブル22を示す図である。図16に示した従来の音源位置テーブルに対して、音源番号毎に固定振幅が追加されたものとなっている。
【0136】
この固定振幅の振幅値は、同一テーブル内であれば、各音源番号毎の音源位置候補数に応じて与えられる。図12の場合には、音源番号1から音源番号3は音源位置候補数が8であり、同一の振幅値1.0が与えられている。音源番号4は音源位置候補数が16と多いので、他のものより大きい振幅値1.2が与えられている。このように音源位置候補数が多いほど大きい振幅値が与えられる。
【0137】
この振幅を付与した音源位置テーブルを用いた音源位置探索は、やはり上記(1)式に基づいて行うことができる。但し、
【数3】
d”(mk )=ak d’(mk ) (10)
φ”(mk ,mi )=ak ai φ’(mk ,mi ) (11)
とする。ここで、ak はk番目のパルスの振幅(図12の振幅)である。パルス位置の全組合せに対する評価値Dの計算を始める前に、d”とφ”の計算を行っておくことにより、後は(8)式と(9)式の単純加算という少ない演算量で評価値Dが算出できる。
【0138】
駆動音源の復号化は、音源位置符号に基づいて、図12の音源位置テーブル中の各音源番号毎に1つずつの音源位置を選択して、その音源位置に各音源番号毎に与えられた固定振幅を乗じた音源を配置することで行う。音源がパルスでなかったり周期化を行う場合には、配置される音源の成分が重複するので、重複する部分は全て加算すれば良い。つまり、従来の代数的音源の復号化処理において、音源番号毎に与えられた固定振幅を乗じる処理を追加したものとなっている。
【0139】
なお、従来の技術で、音源番号毎に固定波形を用意するものがあったが、その場合には、基礎応答を音源番号毎に算出しなければならなかった。この実施の形態では、上記の通りプリテーブルの補正が追加されるだけである。また従来の技術では、音源番号による位置情報量(候補数)の違いに対応させて振幅値を与えることはしていない。
【0140】
以上のように、この実施の形態5によれば、各音源位置の選択可能な候補数に基づいて予め固定振幅を与えておき、駆動音源符号化手段5が、該音源位置に配置される音源にこの固定振幅を乗じつつ、全音源の加算を行って駆動音源を生成した時に、入力音声との符号化歪が最も小さい駆動音源を与える音源位置を表す符号と極性を探索して出力するようにしたので、簡単な構成で、処理量の増加もほとんどなしに、音源毎の振幅に関する無駄が減少し、高品質の音声符号化装置を提供できるという効果が得られる。
【0141】
また、音声符号中の各音源位置に対し、各音源位置の選択可能な候補数に基づいて予め固定振幅を与えておき、該音源位置に配置される音源にこの固定振幅を乗じつつ、全音源の加算を行って駆動音源を生成するようにしたので、簡単な構成で、音源毎の振幅に関する無駄が減少し、高品質の音声復号化装置を提供できるという効果が得られる。
【0142】
実施の形態6.
図13はこの発明の実施の形態5による音声符号化装置における駆動音源符号化手段5の構成を示すブロック図である。音声符号化装置の全体構成は図14と同様である。図13において、42はプリテーブル補正手段である。この実施の形態では、このプリテーブル補正手段42のみの追加によって、聴覚重み付けされた符号化対象信号を適応音源に対して直交化する。
【0143】
次に動作について説明する。
まず、音声符号化装置内の線形予測係数符号化手段3から、駆動音源符号化手段5内の聴覚重み付けフィルタ係数算出手段16と基礎応答生成手段18に、量子化された線形予測係数が入力される。また、適応音源符号化手段4から、駆動音源符号化手段5内の基礎応答生成手段18に、適応音源符号を変換して得られる適応音源の繰り返し周期が入力される。また、適応音源符号化手段4から、駆動音源符号化手段5内の聴覚重み付けフィルタ17に、入力音声1又は入力音声1から適応音源による合成音を差し引いた信号が符号化対象信号として入力される。そして、適応音源符号化手段4から、駆動音源符号化手段5内のプリテーブル補正手段42に、適応音源が入力される。
【0144】
聴覚重み付けフィルタ係数算出手段16は、上記量子化された線形予測係数を用いて聴覚重み付けフィルタ係数を算出し、算出した聴覚重み付けフィルタ係数を聴覚重み付けフィルタ17と聴覚重み付けフィルタ19のフィルタ係数として設定する。聴覚重み付けフィルタ17は、聴覚重み付けフィルタ係数算出手段16によって設定されたフィルタ係数により、入力された符号化対象信号に対してフィルタ処理を行う。
【0145】
基礎応答生成手段18は、単位インパルス又は固定波形に対して、入力された適応音源の繰返し周期を用いた周期化処理を行い、得られた信号を音源として、上記量子化された線形予測係数を用いて構成した合成フィルタによる合成音を生成し、これを基礎応答として出力する。聴覚重み付けフィルタ19は、聴覚重み付けフィルタ係数算出手段16によって設定されたフィルタ係数により、入力された基礎応答に対してフィルタ処理を行う。
【0146】
プリテーブル算出手段20は、1つの音源位置に所定の音源を配置した信号を仮駆動音源とし、上記聴覚重み付けされた符号化対象信号と聴覚重み付けされた基礎応答の相関値、すなわち、聴覚重み付けされた符号化対象信号と聴覚重み付けされた全ての音源位置候補に対応する仮駆動音源に基づく合成音の相関値を計算してd(x)とし、聴覚重み付けされた基礎応答の相互相関値、すなわち、全ての候補の組み合わせに対応した仮駆動音源に基づく合成音間の相互相関値を計算してφ(x,y)とする。そして、これらのd(x)とφ(x,y)をプリテーブルとして記憶する。
【0147】
プリテーブル補正手段42は、適応音源とプリテーブル算出手段20が記憶しているプリテーブルを入力し、以下の(12)式及び(13)式に基づく補正処理を行い、得られた結果に対して、(14)式と(15)式により、音源位置毎のd’(x)とφ’(x,y)を求めて、これらを新たにプリテーブルとして記憶する。
【0148】
【数4】
【0149】
但し、
ctgt は聴覚重み付けされた符号化対象信号と聴覚重み付けされた適応音源応答(合成音)の相関値、すなわち、聴覚重み付けされた符号化対象信号と聴覚重み付けされた適応音源に基づく合成音との間の相関値であり、
cx は聴覚重み付けされた基礎応答を音源位置xに配置した信号と聴覚重み付けされた適応音源応答(合成音)の相関値、すなわち、全ての音源位置候補に対応する仮駆動音源に基づく合成音と適応音源に基づく合成音との間の相関値であり、
pacb は聴覚重み付けされた適応音源応答(合成音)のパワーである。
【0150】
最後に、探索手段21は、音源位置テーブル22から音源位置候補を順次読み出して、各音源位置の組み合わせに対する評価値Dを、(1)式、(4)式、(5)式に基づいて、プリテーブル補正手段42が記憶しているプリテーブル、すなわち、音源位置毎のd’(x)とφ’(x,y)を使用して計算する。そして、評価値Dを最大にする音源位置の組み合わせを探索し、得られた複数の音源位置を表す音源位置符号(音源位置テーブルにおけるインデックス)と極性を、駆動音源符号として出力すると共に、この駆動音源符号に対応する時系列ベクトルを駆動音源として出力する。
【0151】
以上のように、この実施の形態6によれば、符号化対象信号と適応音源に基づく合成音との間の相関値ctgt 、全ての音源位置候補に対応する仮駆動音源に基づく合成音と適応音源に基づく合成音との間の相関値cx を求めて、これらの値を用いてプリテーブルを補正するようにしたので、探索手段21における処理量を増やさずに、聴覚重み付けされた符号化対象信号を適応音源に対して直交化することができ、これにより符号化特性を改善でき、高品質の音声符号化装置を提供できるという効果が得られる。
【0152】
【発明の効果】
以上のように、この発明によれば、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個を予備選択して、所定個の予備選択された駆動音源の繰り返し周期候補を出力する周期予備選択手段と、周期予備選択手段が出力した所定個の予備選択された駆動音源の繰り返し周期候補毎に、符号化歪を最も小さくする音源位置と極性及びその時の符号化歪に関する評価値を出力する駆動音源符号化手段と、駆動音源符号化手段が出力した各予備選択された駆動音源の繰り返し周期候補毎の符号化歪を比較して、1つの符号化歪と他の符号化歪の差が所定の闘値以上の場合に、その1つの符号化歪を与えた駆動音源の繰り返し周期候補を選択し、差が所定の闘値未満の場合には、別途推定した本来のピッチ周期に最も近い駆動音源の繰り返し周期候補を選択し、その選択結果を符号化した選択情報と、選択された駆動音源の繰り返し周期候補に対応する音源位置を表す音源位置符号と極性とを出力する周期符号化手段とを備えたことにより、本来のピッチ周期と適応音源の繰り返し周期が異なる場合でも、高い確率で本来のピッチ周期に近い繰り返し周期を用いた駆動音源の周期化が選択されることにより、合成音の不安定な印象の発生を抑制でき、高品質の音声符号化装置を提供できるという効果がある。
【0153】
この発明によれば、周期予備選択手段が予備選択する駆動音源の繰り返し周期候補の所定個が2であり、周期符号化手段が駆動音源の繰り返し周期の選択結果を1ビットで符号化して選択情報とすることにより、最小限の情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。
【0154】
この発明によれば、周期予備選択手段が、適応音源の繰り返し周期と所定の閾値を比較して、この比較結果に基づいて所定個の駆動音源の繰り返し周期候補を選択することにより、本来のピッチ周期である確率が低い繰り返し周期候補を排除でき、評価の必要のない繰り返し周期候補に対する駆動音源符号化処理と選択情報の配分が不要になり、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果がある。
【0155】
この発明によれば、周期予備選択手段が、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補をそのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択することにより、本来のピッチ周期である確率が低い繰り返し駆動音源の周期候補を排除でき、評価の必要のない駆動音源の繰り返し周期候補に対する駆動音源符号化処理と選択情報の配分が不要になり、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果がある。
【0156】
この発明によれば、周期予備選択手段が適応音源の繰り返し周期に乗じる複数の定数として、少なくとも1/2,1を含むことにより、少ない選択肢ながら高い確率で、本来のピッチ周期を含む駆動音源の繰り返し周期候補を選択することができ、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果がある。
【0157】
この発明によれば、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個を予備選択して、所定個の予備選択された駆動音源の繰り返し周期候補を出力する周期予備選択手段と、符号化側で複数の駆動音源の繰り返し周期候補毎の符号化歪の比較結果により選択された、他の符号化歪との差が所定の闘値以上となる符号化歪を与えた駆動音源の繰り返し周期、又は差が所定の闘値未満の場合に別途推定した本来のピッチ周期に最も近い駆動音源の繰り返し周期の音声符号に含まれる選択情報に基づいて、周期予備選択手段が出力した所定個の予備選択された駆動音源の繰り返し周期候補の内の1つを選択して、これを駆動音源の繰り返し周期として出力する周期復号化手段と、音声符号に含まれる音源位置符号と極性に基づいて時系列信号を生成し、周期復号化手段が出力した駆動音源の繰り返し周期を用いて、生成した時系列信号をピッチ周期化した時系列ベクトルを出力する駆動音源復号化手段とを備えたことにより、本来のピッチ周期と適応音源の繰り返し周期が異なる場合でも、高い確率で本来のピッチ周期に近い繰り返し周期を用いた駆動音源の周期化がなされ、合成音の不安定な印象の発生を抑制でき、高品質の音声復号化装置を提供できるという効果がある。
【0158】
この発明によれば、周期予備選択手段が予備選択する駆動音源の繰り返し周期候補の所定個が2であり、周期復号化手段が1ビットで符号化された駆動音源の繰り返し周期の選択情報を復号化することにより、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果がある。
【0159】
この発明によれば、周期予備選択手段が、適応音源の繰り返し周期と所定の閾値を比較して、この比較結果に基づいて所定個の駆動音源の繰り返し周期候補を選択することにより、本来のピッチ周期である確率が低い駆動音源の繰り返し周期候補を排除でき、必要のない駆動音源の繰り返し周期候補に対する選択情報の配分が不要になり、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果がある。
【0160】
この発明によれば、周期予備選択手段が、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補をそのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択することにより、本来のピッチ周期である確率が低い駆動音源の繰り返し周期候補を排除でき、必要のない駆動音源の繰り返し周期候補に対する選択情報の配分が不要になり、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果がある。
【0161】
この発明によれば、周期予備選択手段が適応音源の繰り返し周期に乗じる複数の定数として、少なくとも1/2,1を含むことにより、少ない選択肢ながら高い確率で、本来のピッチ周期を含む駆動音源の繰り返し周期候補を選択することができ、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1による音声符号化装置における駆動音源符号化手段の構成を示すブロック図である。
【図2】この発明の実施の形態1による音声復号化装置における駆動音源復号化手段の構成を示すブロック図である。
【図3】この発明の実施の形態1による符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。
【図4】この発明の実施の形態1による符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。
【図5】この発明の実施の形態2による音声符号化装置における駆動音源符号化手段の構成を示すブロック図である。
【図6】この発明の実施の形態2による音声復号化装置における駆動音源復号化手段の構成を示すブロック図である。
【図7】この発明の実施の形態2による適応音源生成手段で生成される適応音源を説明する図である。
【図8】この発明の実施の形態2による適応音源生成手段で生成される適応音源を説明する図である。
【図9】この発明の実施の形態2による適応音源生成手段で生成される適応音源を説明する図である。
【図10】この発明の実施の形態3による音声符号化装置における駆動音源符号化手段と聴覚重み付け制御手段の構成を示すブロック図である。
【図11】この発明の実施の形態4による音声符号化装置における駆動音源符号化手段と聴覚重み付け制御手段の構成を示すブロック図である。
【図12】この発明の実施の形態5による音源位置テーブルを示す図である。
【図13】この発明の実施の形態6による音声符号化装置における駆動音源符号化手段の構成を示すブロック図である。
【図14】従来のCELP系音声符号化装置の構成を示すブロック図である。
【図15】従来のCELP系音声復号化装置の構成を示すブロック図である。
【図16】従来のパルス音源の位置候補を示す図である。
【図17】従来のCELP系音声符号化装置における駆動音源符号化手段の構成を示すブロック図である。
【図18】従来の符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。
【図19】従来の符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。
【符号の説明】
1 入力音声、2 線形予測分析手段、3 線形予測係数符号化手段、4 適応音源符号化手段、5 駆動音源符号化手段、6 ゲイン符号化手段、7 多重化手段、8 音声符号、9 分離手段、10 線形予測係数復号化手段、11 適応音源復号化手段、12 駆動音源復号化手段、13 ゲイン復号化手段、14 合成フィルタ、15 出力音声、16 聴覚重み付けフィルタ係数算出手段、17,19 聴覚重み付けフィルタ、18 基礎応答生成手段、20 プリテーブル算出手段、21 探索手段、22 音源位置テーブル、23 周期予備選択手段、24 定数テーブル、25 比較手段、26 予備選択手段、27 駆動音源符号化手段、28 周期符号化手段、29 周期復号化手段、30 駆動音源復号化手段、31 周期予備選択手段、32 定数テーブル、33 適応音源符号帳、34 適応音源生成手段、35 距離計算手段、36 予備選択手段、37 聴覚重み付け制御手段、38 比較手段、39 強度制御手段、40 聴覚重み付け制御手段、41 平均値更新手段、42 プリテーブル補正手段。
Claims (10)
- 過去の音源より生成した適応音源と、入力音声と上記適応音源により生成された駆動音源とを用いて、上記入力音声をフレーム単位に符号化し音声符号を出力する音声符号化装置において、
上記適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個を予備選択して、所定個の予備選択された駆動音源の繰り返し周期候補を出力する周期予備選択手段と、
上記周期予備選択手段が出力した所定個の予備選択された駆動音源の繰り返し周期候補毎に、符号化歪を最も小さくする音源位置と極性及びその時の符号化歪に関する評価値を出力する駆動音源符号化手段と、
上記駆動音源符号化手段が出力した各予備選択された駆動音源の繰り返し周期候補毎の符号化歪を比較して、1つの符号化歪と他の符号化歪の差が所定の闘値以上の場合に、その1つの符号化歪を与えた駆動音源の繰り返し周期候補を選択し、上記差が所定の闘値未満の場合には、別途推定した本来のピッチ周期に最も近い駆動音源の繰り返し周期候補を選択し、その選択結果を符号化した選択情報と、選択された駆動音源の繰り返し周期候補に対応する音源位置を表す音源位置符号と極性とを出力する周期符号化手段とを
備えたことを特徴とする音声符号化装置。 - 周期予備選択手段が予備選択する駆動音源の繰り返し周期候補の所定個が2であり、周期符号化手段が駆動音源の繰り返し周期の選択結果を1ビットで符号化して選択情報とすることを特徴とする請求項1記載の音声符号化装置。
- 周期予備選択手段が、適応音源の繰り返し周期と所定の閾値を比較して、この比較結果に基づいて所定個の駆動音源の繰り返し周期候補を選択することを特徴とする請求項1記載の音声符号化装置。
- 周期予備選択手段が、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補をそのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択することを特徴とする請求項1記載の音声符号化装置。
- 周期予備選択手段が適応音源の繰り返し周期に乗じる複数の定数として、少なくとも1/2,1を含むことを特徴とする請求項1記載の音声符号化装置。
- 音声符号を入力し、過去の音源より生成した適応音源と、上記音声符号と上記適応音源により生成された駆動音源とを用いて、上記音声符号からフレーム単位に音声を復号化する音声復号化装置において、
上記適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個を予備選択して、所定個の予備選択された駆動音源の繰り返し周期候補を出力する周期予備選択手段と、
符号化側で複数の駆動音源の繰り返し周期候補毎の符号化歪の比較結果により選択された、他の符号化歪との差が所定の闘値以上となる符号化歪を与えた駆動音源の繰り返し周期、又は上記差が所定の闘値未満の場合に別途推定した本来のピッチ周期に最も近い駆動音源の繰り返し周期の上記音声符号に含まれる選択情報に基づいて、上記周期予備選択手段が出力した所定個の予備選択された駆動音源の繰り返し周期候補の内の1つを選択して、これを駆動音源の繰り返し周期として出力する周期復号化手段と、
上記音声符号に含まれる音源位置符号と極性に基づいて時系列信号を生成し、上記周期復号化手段が出力した駆動音源の繰り返し周期を用いて、生成した時系列信号をピッチ周期化した時系列ベクトルを出力する駆動音源復号化手段とを
備えたことを特徴とする音声復号化装置。 - 周期予備選択手段が予備選択する駆動音源の繰り返し周期候補の所定個が2であり、周期復号化手段が1ビットで符号化された駆動音源の繰り返し周期の選択情報を復号化することを特徴とする請求項6記載の音声復号化装置。
- 周期予備選択手段が、適応音源の繰り返し周期と所定の閾値を比較して、この比較結果に基づいて所定個の駆動音源の繰り返し周期候補を選択することを特徴とする請求項6記載の音声復号化装置。
- 周期予備選択手段が、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補をそのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択することを特徴とする請求項6記載の音声復号化装置。
- 周期予備選択手段が適応音源の繰り返し周期に乗じる複数の定数として、少なくとも1/2,1を含むことを特徴とする請求項6記載の音声復号化装置。
Priority Applications (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31720599A JP3594854B2 (ja) | 1999-11-08 | 1999-11-08 | 音声符号化装置及び音声復号化装置 |
EP20080019950 EP2028650A3 (en) | 1999-11-08 | 2000-10-24 | Speech pulse location search for speech coding |
EP20080019949 EP2028649A3 (en) | 1999-11-08 | 2000-10-25 | Pulse location search for speech coding |
DE60041235T DE60041235D1 (de) | 1999-11-08 | 2000-10-25 | Sprachkodierung mit orthogonalisierter Suche |
EP00123107A EP1098298B1 (en) | 1999-11-08 | 2000-10-25 | Speech coding with an orthogonal search |
EP09014426A EP2154682A3 (en) | 1999-11-08 | 2000-10-25 | Speech coding methods |
CNA031410227A CN1495704A (zh) | 1999-11-08 | 2000-11-07 | 声音编码装置以及声音解码装置 |
US09/706,813 US7047184B1 (en) | 1999-11-08 | 2000-11-07 | Speech coding apparatus and speech decoding apparatus |
CNB001329227A CN1135528C (zh) | 1999-11-08 | 2000-11-07 | 声音编码装置以及声音解码装置 |
US12/695,942 USRE43190E1 (en) | 1999-11-08 | 2010-01-28 | Speech coding apparatus and speech decoding apparatus |
US12/695,917 USRE43209E1 (en) | 1999-11-08 | 2010-01-28 | Speech coding apparatus and speech decoding apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31720599A JP3594854B2 (ja) | 1999-11-08 | 1999-11-08 | 音声符号化装置及び音声復号化装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004203597A Division JP3954050B2 (ja) | 2004-07-09 | 2004-07-09 | 音声符号化装置及び音声符号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001134297A JP2001134297A (ja) | 2001-05-18 |
JP3594854B2 true JP3594854B2 (ja) | 2004-12-02 |
Family
ID=18085645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31720599A Expired - Fee Related JP3594854B2 (ja) | 1999-11-08 | 1999-11-08 | 音声符号化装置及び音声復号化装置 |
Country Status (5)
Country | Link |
---|---|
US (2) | US7047184B1 (ja) |
EP (4) | EP2028650A3 (ja) |
JP (1) | JP3594854B2 (ja) |
CN (2) | CN1495704A (ja) |
DE (1) | DE60041235D1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10154932B4 (de) * | 2001-11-08 | 2008-01-03 | Grundig Multimedia B.V. | Verfahren zur Audiocodierung |
US7251597B2 (en) * | 2002-12-27 | 2007-07-31 | International Business Machines Corporation | Method for tracking a pitch signal |
FI118704B (fi) | 2003-10-07 | 2008-02-15 | Nokia Corp | Menetelmä ja laite lähdekoodauksen tekemiseksi |
US8688437B2 (en) | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
JP5241701B2 (ja) * | 2007-03-02 | 2013-07-17 | パナソニック株式会社 | 符号化装置および符号化方法 |
US8271273B2 (en) * | 2007-10-04 | 2012-09-18 | Huawei Technologies Co., Ltd. | Adaptive approach to improve G.711 perceptual quality |
KR101235830B1 (ko) * | 2007-12-06 | 2013-02-21 | 한국전자통신연구원 | 음성코덱의 품질향상장치 및 그 방법 |
TW201220715A (en) * | 2010-09-17 | 2012-05-16 | Panasonic Corp | Quantization device and quantization method |
TWI557727B (zh) * | 2013-04-05 | 2016-11-11 | 杜比國際公司 | 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品 |
CN110518915B (zh) * | 2019-08-06 | 2022-10-14 | 福建升腾资讯有限公司 | 一种比特位计数编码以及解码方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61134000A (ja) | 1984-12-05 | 1986-06-21 | 株式会社日立製作所 | 音声分析合成方式 |
JPS6396699A (ja) | 1986-10-13 | 1988-04-27 | 松下電器産業株式会社 | 音声符号化装置 |
JPH01200296A (ja) | 1988-02-04 | 1989-08-11 | Nec Corp | 音声符号化装置 |
JPH028900A (ja) | 1988-06-28 | 1990-01-12 | Nec Corp | 音声符号化復号化方法並びに音声符号化装置及び音声復合化装置 |
JP3099836B2 (ja) | 1991-07-08 | 2000-10-16 | 日本電信電話株式会社 | 音声の励振周期符号化方法 |
JP2538450B2 (ja) | 1991-07-08 | 1996-09-25 | 日本電信電話株式会社 | 音声の励振信号符号化・復号化方法 |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
JPH0830299A (ja) * | 1994-07-19 | 1996-02-02 | Nec Corp | 音声符号化装置 |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
DE69615227T2 (de) * | 1995-01-17 | 2002-04-25 | Nec Corp | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
FR2734389B1 (fr) * | 1995-05-17 | 1997-07-18 | Proust Stephane | Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US6226604B1 (en) * | 1996-08-02 | 2001-05-01 | Matsushita Electric Industrial Co., Ltd. | Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus |
JP3360545B2 (ja) | 1996-08-26 | 2002-12-24 | 日本電気株式会社 | 音声符号化装置 |
EP1085504B1 (en) * | 1996-11-07 | 2002-05-29 | Matsushita Electric Industrial Co., Ltd. | CELP-Codec |
JP3174742B2 (ja) | 1997-02-19 | 2001-06-11 | 松下電器産業株式会社 | Celp型音声復号化装置及びcelp型音声復号化方法 |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
CN1252679C (zh) | 1997-03-12 | 2006-04-19 | 三菱电机株式会社 | 声音编码装置、声音编码译码装置、以及声音编码方法 |
JP3582693B2 (ja) | 1997-03-13 | 2004-10-27 | 日本電信電話株式会社 | 音声符号化方法 |
JP3520955B2 (ja) | 1997-04-22 | 2004-04-19 | 日本電信電話株式会社 | 音響信号符号化法 |
US6507814B1 (en) * | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
JP2001075600A (ja) * | 1999-09-07 | 2001-03-23 | Mitsubishi Electric Corp | 音声符号化装置および音声復号化装置 |
-
1999
- 1999-11-08 JP JP31720599A patent/JP3594854B2/ja not_active Expired - Fee Related
-
2000
- 2000-10-24 EP EP20080019950 patent/EP2028650A3/en not_active Withdrawn
- 2000-10-25 DE DE60041235T patent/DE60041235D1/de not_active Expired - Lifetime
- 2000-10-25 EP EP00123107A patent/EP1098298B1/en not_active Expired - Lifetime
- 2000-10-25 EP EP09014426A patent/EP2154682A3/en not_active Withdrawn
- 2000-10-25 EP EP20080019949 patent/EP2028649A3/en not_active Withdrawn
- 2000-11-07 CN CNA031410227A patent/CN1495704A/zh active Pending
- 2000-11-07 CN CNB001329227A patent/CN1135528C/zh not_active Expired - Fee Related
- 2000-11-07 US US09/706,813 patent/US7047184B1/en not_active Ceased
-
2010
- 2010-01-28 US US12/695,942 patent/USRE43190E1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP2154682A3 (en) | 2011-12-21 |
EP2028650A3 (en) | 2011-08-10 |
EP2028649A2 (en) | 2009-02-25 |
EP2154682A2 (en) | 2010-02-17 |
EP1098298B1 (en) | 2008-12-31 |
EP2028650A2 (en) | 2009-02-25 |
EP1098298A2 (en) | 2001-05-09 |
USRE43190E1 (en) | 2012-02-14 |
CN1495704A (zh) | 2004-05-12 |
CN1135528C (zh) | 2004-01-21 |
DE60041235D1 (de) | 2009-02-12 |
EP2028649A3 (en) | 2011-07-13 |
CN1295317A (zh) | 2001-05-16 |
JP2001134297A (ja) | 2001-05-18 |
EP1098298A3 (en) | 2002-12-11 |
US7047184B1 (en) | 2006-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6385576B2 (en) | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch | |
USRE43190E1 (en) | Speech coding apparatus and speech decoding apparatus | |
JP3404024B2 (ja) | 音声符号化方法および音声符号化装置 | |
JP2002202799A (ja) | 音声符号変換装置 | |
KR20070029754A (ko) | 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법 | |
KR20000076153A (ko) | 음성 부호화 장치, 음성 복호 장치 및 음성 부호화 복호 장치 및 음성 부호화 방법, 음성 복호 방법 및 음성 부호화 복호 방법 | |
JP3426207B2 (ja) | 音声符号化方法および装置 | |
KR20030076725A (ko) | 음성 부호화 장치와 방법, 및 음성 복호화 장치와 방법 | |
JP2002505450A (ja) | ハイブリッド被刺激線形予測スピーチ符号化装置及び方法 | |
US6496796B1 (en) | Voice coding apparatus and voice decoding apparatus | |
US20040049382A1 (en) | Voice encoding system, and voice encoding method | |
KR100736504B1 (ko) | 확률적 코드북의 음원 부호화 방법 | |
JP3954050B2 (ja) | 音声符号化装置及び音声符号化方法 | |
JP4087429B2 (ja) | 音声符号化装置及び音声符号化方法 | |
JP4660496B2 (ja) | 音声符号化装置及び音声符号化方法 | |
JP4907677B2 (ja) | 音声符号化装置及び音声符号化方法 | |
JP2004348120A (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
JPH11259098A (ja) | 音声符号化/復号化方法 | |
JP3578933B2 (ja) | 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体 | |
JP3232728B2 (ja) | 音声符号化方法 | |
USRE43209E1 (en) | Speech coding apparatus and speech decoding apparatus | |
JP2001228888A (ja) | 音声符号化装置、音声復号化装置及び符号語配列方法 | |
JP4373667B2 (ja) | 適応符号帳の更新方法、適応符号帳更新装置、音声符号化装置及び音声復号化装置 | |
JPH05249999A (ja) | 学習型音声符号化装置 | |
JPH11249697A (ja) | ピッチ位置抽出方法及びピッチ位置抽出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040709 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040901 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110910 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110910 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120910 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |