WO2006070757A1

WO2006070757A1 - 音声符号化装置および音声符号化方法

Info

Publication number: WO2006070757A1
Application number: PCT/JP2005/023809
Authority: WO
Inventors: Koji Yoshida; Michiyo Goto
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-12-28
Filing date: 2005-12-26
Publication date: 2006-07-06
Also published as: DE602005017660D1; ATE448539T1; CN101091206B; US7797162B2; EP1821287A4; JP5046653B2; EP1821287B1; KR20070090219A; US20080091419A1; EP2138999A1; JPWO2006070757A1; CN101091206A; EP1821287A1

Abstract

　ステレオ信号から適切なモノラル信号を生成して、モノラル信号の符号化効率の低下を抑えることができる音声符号化装置。この装置のモノラル信号生成部１０１において、チャネル間予測分析部２０１は、第１ｃｈ音声信号と第２ｃｈ音声信号と間の遅延差および振幅比を基本とする予測パラメータを求め、中間予測パラメータ生成部２０２は、最終的に生成されるモノラル信号を第１ｃｈ音声信号と第２ｃｈ音声信号の中間的な信号とするために、予測パラメータの中間的なパラメータ（中間予測パラメータという）を求め、モノラル信号算出部２０３は、中間予測パラメータを用いてモノラル信号を算出する。

Description

明細書

音声符号化装置および音声符号化方法

技術分野

[0001] 本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオの音声入力信号からモノラル信号を生成して符号化する音声符号化装置および音声符号化方法に関する。

背景技術

[0002] 移動体通信や IP通信での伝送帯域の広帯域化、サービスの多様化に伴い、音声通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したまま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。その場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるような、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声による音声通信を実現するためには、ステレオ音声の符号ィヒが必須となる。

[0003] また、 IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号ィ匕が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声データの復号が可能な構成をレ、う。

[0004] よって、ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、符号化データの一部を用いたモノラル信号の復号とを受信側において選択可能な、モノラル一ステレオ間でのスケーラブル構成（モノラル一ステレオ.スケーラブル構成）を有する符号化が望まれる。

[0005] このような、モノラル一ステレオ'スケーラブル構成を有する音声符号ィ匕においては、ステレオの入力信号からモノラル信号を生成する。モノラル信号の生成方法としては、例えば、ステレオ信号の双方のチャネル (以下、適宜「(^」と略す）の信号を平均してモノラル信号を得るものがある (非特許文献 1参照)。非特許文献 1 : ISO/IEC 14496-3," Information Technology - Coding of audio-visual objects - Part 3: Audio ， subpart-4, 4.B.14 Scalable AAC with core coder, pp.304- 305， Sep. 2000.

発明の開示

発明が解決しょうとする課題

[0006] し力しながら、単にステレオ信号の双方のチャネルの信号を平均してモノラル信号を生成すると、特に音声では、入力されるステレオ信号に対して歪みが生じたモノラル信号となってしまったり、入力されるステレオ信号とは波形形状が大きく異なったモノラル信号となってしまうことがある。つまり、本来伝送すべき入力信号から劣化した信号または本来伝送すべき入力信号とは異なった信号が伝送されることになつてしまうことがある。また、入力されるステレオ信号に対して歪みが生じたモノラル信号や入力されるステレオ信号とは波形形状が大きく異なったモノラル信号を CELP符号ィ匕などの音声信号固有の特性に適した符号化モデルによって符号化すると、音声信号固有の特性とは異なる複雑な信号を符号ィ匕対象とすることになつてしまい、その結果、符号化効率の低下を招く。

[0007] 本発明の目的は、ステレオ信号から適切なモノラル信号を生成して、モノラル信号の符号化効率の低下を抑えることができる音声符号化装置および音声符号化方法を提供することである。

課題を解決するための手段

[0008] 本発明の音声符号化装置は、第 1チャネル信号および第 2チャネル信号を含むステレオ信号を入力信号として、前記第 1チャネル信号と前記第 2チャネル信号との時間差、および、前記第 1チャネル信号と前記第 2チャネル信号との振幅比に基づいて、前記第 1チャネル信号および前記第 2チャネル信号からモノラル信号を生成する第 1生成手段と、前記モノラル信号を符号化する符号化手段と、を具備する構成を採る発明の効果

[0009] 本発明によれば、ステレオ信号力適切なモノラル信号を生成して、モノラル信号の符号ィヒ効率の低下を抑えることができる。

図面の簡単な説明

[0010] [図 1]本発明の実施の形態 1に係る音声符号化装置の構成を示すブロック図

[図 2]本発明の実施の形態 1に係るモノラル信号生成部の構成を示すブロック図 [図 3]本発明の実施の形態 1に係る信号波形図

[図 4]本発明の実施の形態 1に係るモノラル信号生成部の構成を示すブロック図 [図 5]本発明の実施の形態 2に係る音声符号化装置の構成を示すブロック図

[図 6]本発明の実施の形態 2に係る第 lch、第 2ch予測信号合成部の構成を示すブロック図

[図 ₇]本発明の実施の形態 2に係る第 l_ch、第 2ch予測信号合成部の構成を示すブロック図

[図 8]本発明の実施の形態 2に係る音声復号装置の構成を示すブロック図

[図 9]本発明の実施の形態 3に係る音声符号化装置の構成を示すブロック図

[図 10]本発明の実施の形態 4に係るモノラル信号生成部の構成を示すブロック図 [図 11]本発明の実施の形態 5に係る音声符号化装置の構成を示すブロック図

[図 12]本発明の実施の形態 5に係る音声復号装置の構成を示すブロック図発明を実施するための最良の形態

[0011] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお

、以下の説明では、フレーム単位での動作を前提にして説明する。

[0012] (実施の形態 1)

本実施の形態に係る音声符号化装置の構成を図 1に示す。図 1に示す音声符号化装置 10は、モノラル信号生成部 101とモノラル信号符号ィ匕部 102とを備える。

[0013] モノラル信号生成部 101は、ステレオの入力音声信号 (第 l ch音声信号、第 2ch音声信号)からモノラル信号を生成してモノラル信号符号ィ匕部 102へ出力する。モノラル信号生成部 101の詳細については後述する。

[0014] モノラル信号符号ィ匕部 102は、モノラル信号を符号化して、モノラル信号に対する音声符号化データであるモノラル信号符号化データを出力する。モノラル信号符号化部 102は、任意の符号化方式を用いてモノラル信号を符号ィ匕することができる。例えば、音声信号の効率的符号化に適した CELP符号化をベースとする符号化方式を用いることができる。また、その他の音声符号化方式や、 AAC (Advanced Audio C oding)に代表されるオーディオ符号化方式を用いてもょレ、。

[0015] 次いで、モノラル信号生成部 101の詳細について図 2を用いて説明する。この図に示すように、モノラル信号生成部 101は、チャネル間予測分析部 201、中間予測パラメータ生成部 202およびモノラル信号算出部 203を備える。

[0016] チャネル間予測分析部 201は、第 lch音声信号および第 2ch音声信号から両チヤネル間の予測パラメータを分析により求める。この予測パラメータは、第 lch音声信号と第 2ch音声信号との間の相関性を利用してチャネル信号間相互の予測を可能とするパラメータであり、両チャネル間の遅延差と振幅比を基本とするパラメータである。具体的には、第 2ch音声信号 _S_ch2(n)から予測される第 lch音声信号 _Sp_chl(n)、および、第 lch音声信号 s_chl(n)力も予測される第 2ch音声信号 sp__Ch2(n)を式（1) および（2)で表した際のチャネル間相互の遅延差 D 、 D および振幅比（フレーム単

12 21

位の平均振幅の比） g 、 g を予測パラメータとする。

12 21

[数 1]

sp_chl (n) = g₂₁ · s一 ch2 (n — D₂₁) ただし、 n=0〜NF - 1 … ( 1 )

sp_ch2 (n) = g₁₂ · s_chl (n - D₁₂) ただし、 n=0〜NF- 1 ··■ ( 2 )

[0017] ここで、 sp_chl(n) :第 lchの予測信号、 g ：第 2ch入力信号に対する第 lch入力信

21

号の振幅比、 s_ch2(n) :第 2chの入力信号、 D ：第 2ch入力信号に対する第 lch入力

21

信号の遅延時間差、 _Sp_ch2(n) _:第 2chの予測信号、 g ：第 lch入力信号に対する第

12

2ch入力信号の振幅比、 _S_chl(n) _:第 l chの入力信号、 D ：第 lch入力信号に対する

12

第 2ch入力信号の遅延時間差、 NF：フレーム長である。

[0018] そして、チャネル間予測分析部 201は、式（3)および (4)で表される歪み、すなわち、各チャネルの入力音声信号 s_chl(n)、 s_ch2(n) (n=0〜NF_l)と式（1 )および（2)に従って予測される各チャネルの予測信号 sp_chl(n)、 sp_ch2(n)との歪み Distl、 Dist2を最小とするような予測パラメータ g 、 D 、 g 、 D を求めて、中間予測パラメータ生成

21 21 12 12

部 202へ出力する。

[数 2] Distl - ∑ { s— chl(n) - sp_chl (n) } ² ··· (3)

n=0

NF-1

Dist2 = ∑ { s_ch2 (n) - sp_ch2 (n) } ² … （4)

[0019] なお、チャネル間予測分析部 201は、歪み Distl、 Dist2を最小とするように予測パラメータを求める代わりに、チャネル信号間の相互相関を最大にするような遅延時間差や、フレーム単位のチャネル信号間の平均振幅比を求めて予測パラメータとしてもよレ、。

[0020] 中間予測パラメータ生成部 202は、最終的に生成されるモノラル信号を第 lch音声信号と第 2ch音声信号の中間的な信号とするために、予測パラメータ D 、D 、g 、g

12 21 12 2 の中間的なパラメータ（以下、中間予測パラメータという） D 、D 、g 、g を式（5)

1 lm 2 m lm 2m

〜（8)により求めて、モノラル信号算出部 203へ出力する。

[数 3]

D_lm = D₁₂12 … （5)

D_2a = D₂₁12 … （6)

gin = ■f gl2 ·· • (7)

Sz = f g₂l ·'' • (8)

[0021] ここで、 D 、g ：第 lchを基準とする中間予測パラメータ（遅延時間差、振幅比）、 D lm lm

、 g ：第 2chを基準とする中間予測パラメータ (遅延時間差、振幅比）である。

2m 2m

[0022] なお、式（5)〜（8)の代わりに、第 lch音声信号に対する第 2ch音声信号の遅延時間差 D および振幅比 g のみから、式（9)〜（12)により中間予測パラメータを求めて

12 12

もよレ、。また、逆に、第 2ch音声信号に対する第 lch音声信号の遅延時間差 D およ

21 び振幅比 g のみから同様にして中間予測パラメータを求めてもよい。

21

[数 4]

D_lm = D₁₂ / 2 … (9)

D_2m= D_lB - D₁₂ ··■ (10)

i_n = gi2 ■"· (I D

g_2n = 1 / g_lB … (1 2)

[0023] また、振幅比 g 、g は、式（7)、（8)、（11)、（12)により求める代わりに、固定値（

lm 2 m

例えば 1.0)としてもよい。さらに、 D 、D 、g 、g を時間的に平均化した値を中間

lm 2m lm 2m

予測パラメータとしてもよレ、。 [0024] さらに、中間予測パラメータの算出方法は、第 lchと第 2chとの間の遅延時間差および振幅比の中間付近の値が算出される方法であれば、上記以外の方法を用いることちできる。

[0025] モノラル信号算出部 203は、中間予測パラメータ生成部 202で得られた中間予測パラメータを用いて、式（13)によりモノラル信号 s_mon₀(n)を算出する。

[数 5]

s_mono (n) = {g_lu · s— chl (n - D_ln) + g_2m · s_ch2 (n - D_2ni) } / 2

ただし、 n=0〜NF- 1 · · · ( 1 3 )

[0026] なお、上記のように双方のチャネルの入力音声信号を用いてモノラル信号を生成する代わりに、一方のチャネルの入力音声信号のみからモノラル信号を算出するようにしてもよい。

[0027] ここで、図 3に、モノラル信号生成部 101に入力される第 lch音声信号の波形 31および第 2ch音声信号の波形 32の一例を示す。この場合、モノラル信号生成部 101によって、これら第 lch音声信号および第 2ch音声信号から生成されるモノラル信号を図示すると波形 33に示すようになる。なお、波形 34は、第 lch音声信号および第 2c h音声信号を単に平均して生成したモノラル信号 (従来)である。

[0028] 第 lch音声信号 (波形 31)と第 2ch音声信号 (波形 32)との間に図示するような遅延時間差、振幅比がある場合、モノラル信号生成部 101で得られるモノラル信号の波形 33は、第 lch音声信号および第 2ch音声信号の双方に類似し、かつ、中間的な遅延時間および振幅を有する波形となる。一方、従来方法により生成したモノラル信号 (波形 34)は、波形 33に比べ、第 lch音声信号および第 2ch音声信号とは波形の類似性が小さい。これは、両チャネル間の遅延時間差および振幅比が両チャネル間の中間的な値となるようにして生成されたモノラル信号（波形 33)は、両チャネルの音声信号が出力された空間的な 2地点の中間地点で受信された信号に近似的に相当するため、空間的特性が考慮されずに生成されたモノラル信号 (波形 34)に比べ、モノラル信号としてより適切な信号、すなわち、入力信号に類似した歪みの少ない信号となるからである。

[0029] また、両チャネルの信号を単に平均して生成したモノラル信号（波形 34)は、両チヤネルの信号間の遅延時間差や振幅比を考慮せずに単純な平均値算出により生成される信号のため、両チャネルの信号間の遅延時間差が大きい場合などには、両チヤネルの音声信号が時間的にずれたまま重畳されてしまい、入力音声信号に対して歪みが生じたり波形が大きく異なった信号となる。その結果、モノラル信号を CELP符号化などの音声信号の特性に合わせた符号化モデルで符号化する際に、符号化効率の低下を招く。

[0030] これに対し、モノラル信号生成部 101で得られるモノラル信号 (波形 33)は、両チヤネルの音声信号間の遅延時間差を小さくするように調整された信号であるため、入力音声信号に類似した歪みの小さい信号となる。よって、モノラル信号符号ィ匕時の符号化効率の低下を抑えることができる。

[0031] なお、モノラル信号生成部 101を以下のようにしてもよい。

[0032] すなわち、予測パラメータとして、遅延時間差および振幅比に加えてさらに別のパラメータを用いてもよい。例えば、チャネル間相互の予測が式（14)および（15)により表される場合、両チャネル信号間の遅延時間差、振幅比および予測係数列 {a (0),a (l),a (2), - - - ,a (P) } (P :予測次数、 a (0)=1·0、（k，l)=(l,2)₀r(2, l))を予測パラメータとす kl kl kl

る。

圆 sp_chl (n) = ∑ { g₂₁ · a₂₁ (k) · sp_ch2 (n - D₂₁ - k) } … （1 4 ) sp_ch2 (n) = ∑ { g₁₂ · a₁₂ (k) · sp_chl (n - D₁₂ - k) } " ' ( 1 5 )

[0033] また、第 lch音声信号および第 2ch音声信号を 2つ以上の周波数帯域に帯域分割して帯域別の入力信号を生成し、その全ての帯域または一部の帯域の信号に対して、帯域毎に上記同様にしてモノラル信号を生成してもよい。

[0034] また、中間予測パラメータ生成部 202で得られる中間予測パラメータを符号化データと共に伝送したり、中間予測パラメータを後段の符号ィ匕で用レ、て符号化の際に必要な演算量を削減するために、図 4に示すように、モノラル信号生成部 101に、中間予測パラメータを量子化して量子化中間予測パラメータおよび中間予測パラメータ量子化符号を出力する中間予測パラメータ量子化部 204を備えてもよい。 [0035] (実施の形態 2)

本実施の形態では、モノラル—ステレオ'スケーラブル構成を有する音声符号化について説明する。本実施の形態に係る音声符号化装置の構成を図 5に示す。図 5に示す音声符号化装置 500は、モノラル信号のためのコアレイヤ符号化部 510とステレオ信号のための拡張レイヤ符号化部 520とを備える。また、コアレイヤ符号化部 51 0は、実施の形態 1に係る音声符号化装置 10 (図 1：モノラル信号生成部 101およびモノラル信号符号化部 102)を備える。

[0036] コアレイヤ符号化部 510において、モノラル信号生成部 101は、実施の形態 1において説明したようにしてモノラル信号 s_mono(n)を生成し、モノラル信号符号化部 102 に出力する。

[0037] モノラル信号符号ィ匕部 102は、モノラル信号に対する符号化を行い、このモノラノレ信号の符号ィ匕データをモノラル信号復号部 511に出力する。また、このモノラル信号の符号化データは、拡張レイヤ符号化部 520から出力される量子化符号や符号化データと多重されて符号化データとして音声復号装置へ伝送される。

[0038] モノラル信号復号部 511は、モノラル信号の符号ィヒデータからモノラルの復号信号を生成して拡張レイヤ符号ィ匕部 520に出力する。

[0039] 拡張レイヤ符号化部 520において、第 lch予測パラメータ分析部 521は、第 lch音声信号 s_chl(n)とモノラル復号信号とから第 lch予測パラメータを求めて量子化し、第 lch予測量子化パラメータを第 lch予測信号合成部 522に出力する。また、第 lch 予測パラメータ分析部 521は、第 lch予測量子化パラメータを符号ィ匕した第 lch予測パラメータ量子化符号を出力する。この第 lch予測パラメータ量子化符号は他の符号化データや量子化符号と多重されて符号化データとして音声復号装置へ伝送される。

[0040] 第 lch予測信号合成部 522は、モノラル復号信号と第 lch予測量子化パラメータと力第 lch予測信号を合成し、その第 lch予測信号を減算器 523に出力する。第 l c h予測信号合成部 522の詳細については後述する。

[0041] 減算器 523は、入力信号である第 lch音声信号と第 lch予測信号との差、すなわち、第 lch入力音声信号に対する第 lch予測信号の残差成分の信号 (第 lch予測残差信号)を求め、第 lch予測残差信号符号化部 524に出力する。

[0042] 第 lch予測残差信号符号ィ匕部 524は、第 lch予測残差信号を符号化して第 lch 予測残差符号化データを出力する。この第 lch予測残差符号化データは他の符号化データや量子化符号と多重されて符号化データとして音声復号装置へ伝送される

[0043] 一方、第 2ch予測パラメータ分析部 525は、第 2ch音声信号 s_ch2(n)とモノラル復号信号とから第 2ch予測パラメータを求めて量子化し、第 2ch予測量子化パラメータを第 2ch予測信号合成部 526に出力する。また、第 2ch予測パラメータ分析部 525は、第 2ch予測量子化パラメータを符号化した第 2ch予測パラメータ量子化符号を出力する。この第 2ch予測パラメータ量子化符号は他の符号化データや量子化符号と多重されて符号化データとして音声復号装置へ伝送される。

[0044] 第 2ch予測信号合成部 526は、モノラル復号信号と第 2ch予測量子化パラメータとから第 2ch予測信号を合成し、その第 2ch予測信号を減算器 527に出力する。第 2c h予測信号合成部 526の詳細については後述する。

[0045] 減算器 527は、入力信号である第 2ch音声信号と第 2ch予測信号との差、すなわち、第 2ch入力音声信号に対する第 2ch予測信号の残差成分の信号 (第 2ch予測残差信号)を求め、第 2ch予測残差信号符号化部 528に出力する。

[0046] 第 2ch予測残差信号符号ィ匕部 528は、第 2ch予測残差信号を符号化して第 2ch 予測残差符号化データを出力する。この第 2ch予測残差符号化データは他の符号化データや量子化符号と多重されて符号化データとして音声復号装置へ伝送される

[0047] 次いで、第 lch予測信号合成部 522および第 2ch予測信号合成部 526の詳細について説明する。第 lch予測信号合成部 522および第 2ch予測信号合成部 526の構成は図 6 <構成例 1 >または図 7 <構成例 2 >に示すようになる。構成例 1および 2 のいずれも、モノラル信号と各チャネル信号との間の相関性に基づき、モノラル信号に対する各チャネル信号の遅延差 (Dサンプル)および振幅比（g)を予測量子化パラメータとして用いて、モノラル信号から各チャネルの予測信号を合成する。

[0048] ぐ構成例 1 > 構成例 1では、図 6に示すように、第 lch予測信号合成部 522および第 2ch予測信号合成部 526は、遅延器 531および乗算器 532を備え、式（16)で表される予測により、モノラル復号信号 sd_mono(n)から、各チャネルの予測信号 sp_ch(n)を合成する。

[数 7]

sp_ch ^n) = g · sd_mono (n - D) · · · ( 1 6 )

[0049] <構成例 2 >

構成例 2では、図 7に示すように、図 6に示す構成にさらに、遅延器 533— 1〜P、乗算器 534— 1〜Pおよび加算器 535を備える。そして、予測量子化パラメータとして、モノラル信号に対する各チャネル信号の遅延差 (Dサンプル）および振幅比（g)の他に、予測係数列 {a(0),a(l)， a(2), · · · , a(P)} (Pは予測次数、 a(0)=1.0)を用い、式（17) で表される予測により、モノラル復号信号 sd_mono(n)から、各チャネルの予測信号 sp— ch(n)を合成する。

[数 8] sp一 ch (rv = ∑ { g - a (k) · sd_mono (n — D — kノ } · ·■ ( 1 7 )

[0050] これに対し、第 lch予測パラメータ分析部 521および第 2ch予測パラメータ分析部 525は、式（3)および（4)で表される歪み Distl、 Dist2を最小とするような予測パラメータを求め、その予測パラメータを量子化した予測量子化パラメータを、上記構成を採る第 lch予測信号合成部 522および第 2ch予測信号合成部 526に出力する。また、第 lch予測パラメータ分析部 521および第 2ch予測パラメータ分析部 525は、予測量子化パラメータを符号ィヒした予測パラメータ量子化符号を出力する。

[0051] なお、構成例 1に対しては、第 lch予測パラメータ分析部 521および第 2ch予測パラメータ分析部 525は、モノラル復号信号と各チャネルの入力音声信号との間の相互相関を最大にするような遅延差 Dおよびフレーム単位の平均振幅の比 gを予測パラメータとして求めてもよい。

[0052] 次いで、本実施の形態に係る音声復号装置について説明する。本実施の形態に係る音声復号装置の構成を図 8に示す。図 8に示す音声復号装置 600は、モノラル信号のためのコアレイヤ復号部 610と、ステレオ信号のための拡張レイヤ復号部 620 とを備える。

[0053] モノラル信号復号部 611は、入力されるモノラル信号の符号化データを復号し、モノラル復号信号を拡張レイヤ復号部 620に出力するとともに、最終出力として出力する。

[0054] 第 lch予測パラメータ復号部 621は、入力される第 lch予測パラメータ量子化符号を復号して、第 lch予測量子化パラメータを第 lch予測信号合成部 622に出力する

[0055] 第 lch予測信号合成部 622は、音声符号化装置 500の第 lch予測信号合成部 52 2と同じ構成を採り、モノラル復号信号と第 l ch予測量子化パラメータとから第 lch音声信号を予測し、その第 lch予測音声信号を加算器 624に出力する。

[0056] 第 lch予測残差信号復号部 623は、入力される第 lch予測残差符号ィ匕データを復号し、第 lch予測残差信号を加算器 624に出力する。

[0057] 加算器 624は、第 lch予測音声信号と第 lch予測残差信号とを加算して第 l chの復号信号を求め、最終出力として出力する。

[0058] 一方、第 2ch予測パラメータ復号部 625は、入力される第 2ch予測パラメータ量子化符号を復号して、第 2ch予測量子化パラメータを第 2ch予測信号合成部 626に出力する。

[0059] 第 2ch予測信号合成部 626は、音声符号化装置 500の第 2ch予測信号合成部 52 6と同じ構成を採り、モノラル復号信号と第 2ch予測量子化パラメータとから第 2ch音声信号を予測し、その第 2ch予測音声信号を加算器 628に出力する。

[0060] 第 2ch予測残差信号復号部 627は、入力される第 2ch予測残差符号ィ匕データを復号し、第 2ch予測残差信号を加算器 628に出力する。

[0061] 加算器 628は、第 2ch予測音声信号と第 2ch予測残差信号とを加算して第 2chの復号信号を求め、最終出力として出力する。

[0062] このような構成を採る音声復号装置 600では、モノラル—ステレオ'スケーラブル構成において、出力音声をモノラルとする場合は、モノラル信号の符号ィ匕データのみから得られる復号信号をモノラル復号信号として出力し、出力音声をステレオとする場合は、受信される符号化データおよび量子化符号のすべてを用いて第 lch復号信号および第 2ch復号信号を復号して出力する。

[0063] このように、本実施の形態によれば、第 lch音声信号および第 2ch音声信号の双方に類似し、かつ、中間的な遅延時間および振幅を有するモノラル信号を復号して得られるモノラル復号信号を用いて第 lch予測信号および第 2ch予測信号を合成するため、こられの予測信号の予測性能を向上させることができる。

[0064] なお、コアレイヤの符号ィ匕および拡張レイヤの符号化に CELP符号化を用いてもよレ、。この場合、拡張レイヤでは、 CELP符号化により得られるモノラル符号化駆動音源信号を用いて、各チャネルの信号の LPC予測残差信号の予測を行う。

[0065] また、コアレイヤの符号化および拡張レイヤの符号ィ匕として CELP符号化を用いる場合に、時間領域での駆動音源探索を行う代わりに、周波数領域での音源信号の符号化を行うようにしてもょレ、。

[0066] また、モノラル信号生成部 101で得られた中間予測パラメータと、モノラル復号信号またはモノラル信号の CELP符号化により得られるモノラル駆動音源信号とを用いて、各チャネル信号の予測または各チャネル信号の LPC予測残差信号の予測を行うようにしてもよい。

[0067] さらに、ステレオ入力信号のうち一方のチャネル信号のみを対象にして、上記で説明したようなモノラル信号からの予測を用いた符号化を行うようにしてもよい。この場合、音声復号装置では、ステレオ入力信号とモノラル信号との関係 (式 (12)等）に基づレ、て、復号モノラル信号と一方のチャネル信号とから他方のチャネルの復号信号を生成すること力 Sできる。

[0068] (実施の形態 3)

本実施の形態に係る音声符号化装置は、モノラル信号と各チャネルの信号との間の遅延時間差および振幅比を予測パラメータとして用い、かつ、第 2ch予測パラメ一タの量子化を第 lch予測パラメータを用いて行う。本実施の形態に係る音声符号ィ匕装置 700の構成を図 9に示す。なお、図 9において実施の形態 2 (図 5)と同一の構成には同一符号を付し、説明を省略する。

[0069] 第 2ch予測パラメータ分析部 701は、第 2ch予測パラメータの量子化において、第 lch予測パラメータと第 2ch予測パラメータとの間の関連性 (依存関係）に基づき、第 lch予測パラメータ分析部 521で得られた第 lch予測量子化パラメータから第 2ch予測パラメータを推定し、その第 2ch予測ノメータを利用して効率的な量子化を行う。より具体的には、以下のようにする。

[0070] 第 lch予測パラメータ分析部 521で得られた第 lch予測量子化パラメータ（遅延時間差、振幅比）を Dql、 gqlとし、分析により求められた第 2ch予測パラメータ（量子化前）を D2、 g2とする。モノラル信号は、上記のように第 lch音声信号と第 2ch音声信号の中間の信号として生成された信号のため、第 lch予測パラメータと第 2ch予測パラメータとの間の関連性は大きい。そこで、第 lch予測量子化パラメータを用いて第 2c h予測パラメータ Dp2、 gp2を式（18)および（19)により推定する。

[数 9]

Dp2 = - Dql ■■■ ( 1 8 )

gp2 = 1 / gql … （1 9 )

[0071] そして、第 2ch予測パラメータの量子化は、式（20)および（21)で表される推定残差 (推定値との差分値） 5 D2、 S g2に対して行う。これらの推定残差は第 2ch予測パラメータそのものに比べて分散が小さいため、より効率的な量子化を行うことができる

[数 10]

6D2 = D2 - Dp2 ·· · ( 2 0 )

6g2 = g2 - gp2 ··■ ( 2 1 )

[0072] なお、式（18)および（19)は一例であり、第 lch予測パラメータと第 2ch予測パラメータとの関連性 (依存関係）を利用した別の方法を用いて、第 2ch予測パラメータの推定および量子化を行ってもよい。また、第 lch予測パラメータと第 2ch予測パラメ一タとを一組として符号帳を用意して、ベクトル量子化により量子化してもよい。さらに、図 2または図 4の構成により得られる中間予測パラメータを用いて、第 lch予測パラメータ、第 2ch予測パラメータの分析、量子化を行うようにしてもよい。この場合、予め第 lch予測パラメータ、第 2ch予測パラメータを推定することが可能なため、分析に必要な演算量を削減することができる。

[0073] 本実施の形態に係る音声復号装置の構成は、実施の形態 2 (図 8)とほぼ同一である。但し、第 2ch予測パラメータ復号部 625が、第 2ch予測パラメータ量子化符号の復号の際に、第 lch予測量子化パラメータを用いて復号するなど、音声符号化装置 700の構成に対応した復号処理を行う点で相違する。

[0074] (実施の形態 4)

第 lch音声信号と第 2ch音声信号との間の相関が小さい場合は、実施の形態 1において説明したモノラル信号生成を行っても、空間特性上の中間的信号の生成が不十分な場合がある。そこで、本実施の形態に係る音声符号化装置は、第 lchと第 2c hとの間の相関性に基づき、モノラル信号の生成方法を切り替える。本実施の形態に係るモノラル信号生成部 101の構成を図 10に示す。なお、図 10において実施の形態 1 (図 2)と同一の構成には同一符号を付し、説明を省略する。

[0075] 相関判定部 801は、第 lch音声信号と第 2ch音声信号との間の相関度を算出し、その相関度が閾値より大きいか否か判定する。そして、相関判定部 801は、判定結果に基づいて切替部 802および 804を制御する。相関度の算出および閾値判定は、例えば、各チャネルの信号間の相互相関関数の最大値 (正規化値）を求め、予め定めた閾値と比較することにより行う。

[0076] 相関判定部 801は、相関度が閾値より大きい場合は、第 lch音声信号および第 2c h音声信号がチャネル間予測分析部 201およびモノラル信号算出部 203に入力されるように切替部 802を切り替えるとともに、切替部 804をモノラル信号算出部 203側に切り替える。これにより、第 lchと第 2chの相関度が閾値より大きい場合は、実施の形態 1において説明したようにしてモノラル信号が生成される。

[0077] 一方、相関判定部 801は、相関度が閾値以下の場合は、第 lch音声信号および第 2ch音声信号が平均値信号算出部 803に入力されるように切替部 802を切り替えるとともに、切替部 804を平均値信号算出部 803側に切り替える。よって、この場合には、平均値信号算出部 803が、式 (22)により、第 l ch音声信号と第 2ch音声信号の平均値の信号 s_av(n)を算出して、モノラル信号として出力する。

[数 11]

s_av (n) = ( s— chl (n) + s_ch2 (n) ) I 2 ただし、 n=0〜NF— 1 ·■· ( 2 2 )

[0078] このように、本実施の形態によれば、第 lch音声信号と第 2ch音声信号との間の相関が小さい場合は、第 l ch音声信号と第 2ch音声信号の平均値の信号をモノラル信号とするため、第 lch音声信号と第 2ch音声信号との間の相関が小さい場合の音質劣化を防ぐことができる。また、 2チャネル間の相関性に基づく適切な符号化モードで符号化するため、符号ィ匕効率の向上を図ることができる。

[0079] なお、上記のように第 lchと第 2chとの間の相関性に基づき生成方法を切り替えて生成されたモノラル信号に対して、第 lchと第 2chとの間の相関性に応じたスケーラブルな符号化を行ってもよい。第 lchと第 2chとの間の相関度が閾値より大きい場合は、実施の形態 2または 3に示した構成により、コアレイヤにてモノラル信号に対する符号化を行い、拡張レイヤにてモノラル復号信号を用いた各チャネルの信号予測を利用した符号化を行う。一方、第 lchと第 2chとの間の相関度が閾値以下の場合は、コアレイヤにてモノラル信号に対する符号ィ匕を行った後、拡張レイヤでは、 2チャネル間の相関性が低い場合に適した別のスケーラブル構成で符号化を行う。相関性が低い場合に適した別のスケーラブル構成での符号化とは、例えば、チャネル間予測を用いず、各チャネルの信号とモノラル復号信号との差分信号を直接符号化する方法力 Sある。また、コアレイヤの符号化およびス拡張レイヤの符号ィ匕に CELP符号ィ匕を適用する場合には、拡張レイヤの符号ィ匕において、チャネル間予測を用いず、モノラル駆動音源信号を直接用いて符号化する等の方法がある。

[0080] (実施の形態 5)

本実施の形態に係る音声符号ィヒ装置は、拡張レイヤ符号化部において第 lchに対してのみ符号ィヒを行レ、、かつ、その符号化において、量子化中間予測パラメータを用いて第 lch予測信号の合成を行う。本実施の形態に係る音声符号化装置 900 の構成を図 11に示す。なお、図 11において実施の形態 2 (図 5)と同一の構成には同一符号を付し、説明を省略する。

[0081] 本実施の形態では、モノラル信号生成部 101は、上記図 4に示す構成を採る。すなわち、モノラル信号生成部 101は中間予測パラメータ量子化部 204を備え、この中間予測パラメータ量子化部 204が、中間予測パラメータを量子化して量子化中間予測パラメータおよび中間予測パラメータ量子化符号を出力する。なお、量子化中間予測パラメータは、上記 D 、 D 、g 、g を量子化したものである。量子化中間予測パ

lm 2 m lm 2m

ラメータは、拡張レイヤ符号ィ匕部 520の第 lch予測信号合成部 901に入力される。また、中間予測パラメータ量子化符号は、モノラル信号符号化データおよび第 lch予測残差符号化データと多重されて符号化データとして音声復号装置へ伝送される。

[0082] 拡張レイヤ符号化部 520において、第 lch予測信号合成部 901は、モノラル復号信号と量子化中間予測パラメータとから第 lch予測信号を合成し、その第 lch予測信号を減算器 523に出力する。具体的には、第 lch予測信号合成部 901は、式（23 )で表される予測により、モノラル復号信号 sd_mono(n)から、第 lchの予測信号 sp_chl (n)を合成する。

[数 12]

sp_chl (n) = (l/g_lm) · sd_mono (n + ただし、 n=0〜NF—l … ( 2 3 )

[0083] 次いで、本実施の形態に係る音声復号装置について説明する。本実施の形態に係る音声復号装置 1000の構成を図 12に示す。なお、図 12において実施の形態 2 ( 図 8)と同一の構成には同一符号を付し、説明を省略する。

[0084] 拡張レイヤ復号部 620において、中間予測パラメータ復号部 1001は、入力される中間予測パラメータ量子化符号を復号して、量子化中間予測パラメータを第 lch予測信号合成部 1002および第 2ch復号信号生成部 1003に出力する。

[0085] 第 lch予測信号合成部 1002は、モノラル復号信号と量子化中間予測パラメータと力第 lch音声信号を予測し、その第 lch予測音声信号を加算器 624に出力する。具体的には、第 lch予測信号合成部 1002は、音声符号化装置 900の第 lch予測信号合成部 901と同様に、上式（23)で表される予測により、モノラル復号信号 sdjno no(n)から、第 lchの予測信号 sp_chl(n)を合成する。

[0086] 一方、第 2ch復号信号生成部 1003には、モノラル復号信号および第 lch復号信号も入力される。そして、第 2ch復号信号生成部 1003は、量子化中間予測パラメ一タ、モノラル復号信号および第 lch復号信号から第 2ch復号信号を生成する。具体的には、第 2ch復号信号生成部 1003は、上式（13)の関係から得られる式（24)に従って、第 2ch復号信号を生成する。なお、式（24)において、 sd_chl :第 lch復号信号である。

[数 13]

sd_ch2 (n) = l/g_2n · {2 · sd_mono (n + D₂„) - g_ln · sd_chl (n - D_lffl + D^,) } ただし、 n=0~ F - 1 ··· ( 2 4 ) [0087] なお、上記説明では、拡張レイヤ符号ィ匕部 520において、第 l chのみの予測信号を合成する構成について説明したが、第 lchに代えて第 2chのみの予測信号を合成する構成としてもよい。つまり、本実施の形態では、拡張レイヤ符号ィ匕部 520において、ステレオ信号の一方のチャネルのみを符号ィ匕する構成を採る。

[0088] このように、本実施の形態によれば、拡張レイヤ符号化部 520において、ステレオ信号の一方のチャネルのみを符号化する構成とし、かつ、その一方のチャネルの予測信号の合成に用いる予測パラメータをモノラル信号生成用の中間予測ノメータと共用するため、符号化効率を向上させることができる。また、拡張レイヤ符号化部 52 0において、ステレオ信号の一方のチャネルのみを符号化する構成とするため、双方のチャネルを符号化する構成に比べて拡張レイヤ符号化部の符号化効率を向上させて低ビットレートイ匕を図ることができる。

[0089] なお、本実施の形態においては、モノラル信号生成部 101で得られる中間予測パラメータとして、上記のように第 lchおよび第 2chのそれぞれを基準とする異なるパラメータを算出するのではなぐ双方のチャネルに共通するパラメータを算出するようにしてもよレ、。例えば、式（25)、（26)により算出したパラメータ D 、 gの量子化符号を

m m

符号化データとして音声復号装置 1000へ伝送し、ノラメータ D、g力式（27)〜（

m m

30)に従って算出される D 、g 、D 、g を、第 lchおよび第 2chを基準とする中間

lm lm 2m 2m

予測パラメータとして使用する。このようにすることで、音声復号装置 1000に対して伝送する中間予測パラメータの符号化効率をより向上させることができる。

[数 14]

D_m = { (D₁₂ - D₂₁) /2} /2 … （2 5 )

g_a = ^ ( ₁₂ · (l/g₂i) } … ( 2 6 )

D_lm = D_a - ( 2 7 )

D_2m = -D_n … （2 8 )

gin, = g« " · ( 2 9 )

g_2m = l/g_n … ( 3 0 )

[0090] また、中間予測パラメータを複数候補用意して、その複数候補のうち、拡張レイヤ符号化部 520での符号ィ匕後の符号化歪み（拡張レイヤ符号ィ匕部 520のみの歪み、または、コアレイヤ符号化部 510の歪みと拡張レイヤ符号化部 520の歪みの総和）を最も小さくする中間予測パラメータを拡張レイヤ符号ィ匕部 520での符号ィ匕に用いてもよい。これにより、拡張レイヤでの予測信号合成時の予測性能を高めることができる最適なパラメータを選択することができ、より音質の向上を図ることができる。具体的手順は以下のようになる。

[0091] <ステップ 1 :モノラル信号生成 >

モノラル信号生成部 101において、複数候補の中間予測パラメータを出力するとともに、各候補に対応して生成されるモノラル信号を出力する。例えば、予測歪みが小さい、または、各チャネルの信号間の相互相関が大きいもの力も順に所定数の中間予測パラメータを複数候補として出力する等する。

[0092] <ステップ 2：モノラル信号符号化 >

モノラル信号符号ィ匕部 102において、中間予測パラメータの複数候補に対応して生成されたモノラル信号を用いてモノラル信号の符号ィ匕を行レ、、複数候補毎に、モノラル信号符号化データおよび符号化歪み (モノラル信号符号化歪み）を出力する。

[0093] くステップ 3 :第 lch符号化〉

拡張レイヤ符号化部 520において、複数候補の中間予測パラメータを用いて複数の第 lch予測信号を合成して第 lchの符号化を行い、複数候補毎に、符号化データ (第 lch予測残差符号化データ）および符号化歪み (ステレオ符号化歪み)を出力する。

[0094] <ステップ 4 :最小符号化歪み選択 >

拡張レイヤ符号化部 520において、複数候補の中間予測パラメータのうち、ステツプ 2およびステップ 3で得られた符号ィヒ歪みの総和（または、ステップ 2で得られた符号化歪みの総和またはステップ 3で得られた符号化歪みの総和のいずれ力が最も小さくなる中間予測ノメータを符号化に用いるパラメータと決定し、その中間予測パラメータに対応するモノラル信号符号化データ、中間予測パラメータ量子化符号および第 lch予測残差符号ィ匕データを音声復号装置 1000へ伝送する。

[0095] なお、中間予測パラメータの複数候補の一つとして、 D = D = 0、 g = g = 1·0 (

lm 2 m lm 2m 通常のモノラル信号生成に相当）を含ませるようにし、その候補を符号ィ匕に用いるときは、中間予測パラメータを伝送しない前提 (通常モノラル化モードの選択フラグとして選択情報（1ビット）のみを伝送)でのビット配分にてコアレイヤ符号ィ匕部 510および拡張レイヤ符号ィ匕部 520での符号化を行うようにしてもよい。このようにすると、通常モノラル化モードを候補として含めた、符号ィヒ歪み最小化基準による最適な符号化を実現できるとともに、通常モノラル化モード選択時には中間予測パラメータを伝送しなくて済むため、別の符号ィ匕データにビットを割り当てることで音質の向上を図ることができる。

[0096] また、本実施の形態では、コアレイヤの符号化および拡張レイヤの符号ィ匕に CELP 符号化を用いてもよい。この場合、拡張レイヤでは、 CELP符号ィ匕により得られるモノラル符号化駆動音源信号を用いて、各チャネルの信号の LPC予測残差信号の予測を行う。

[0097] また、コアレイヤの符号化および拡張レイヤの符号ィ匕として CELP符号化を用いる場合に、時間領域での駆動音源探索を行う代わりに、周波数領域での音源信号の符号化を行うようにしてもょレ、。

[0098] なお、上記各実施の形態に係る音声符号化装置、音声復号装置を、移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線通信装置に搭載することも可能である。

[0099] また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

[0100] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップィ匕されてもよいし、一部又は全てを含むように 1チップ化されてもよい。

[0101] ここでは、 LSIとした力集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥノレトラ LSIと呼称されることもある。

[0102] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサで実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギユラブル'プロセッサーを利用してもょレ、。

[0103] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用レ、て機能ブロックの集積化を行ってもよレ、。バイオ技術の適応等が可能性としてありえる。

[0104] 本明糸田書 ίま、 2004年 12月 28曰出願の特願 2004— 380980および 2005年 5月 3 0日出願の特願 2005— 157808に基づくものである。これらの内容はすべてここに含めておく。

産業上の利用可能性

[0105] 本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システム等における通信装置の用途に適用できる。

Claims

請求の範囲

[1] 第 1チャネル信号および第 2チャネル信号を含むステレオ信号を入力信号として、前記第 1チャネル信号と前記第 2チャネル信号との時間差、および、前記第 1チヤネル信号と前記第 2チャネル信号との振幅比に基づいて、前記第 1チャネル信号および前記第 2チャネル信号からモノラル信号を生成する第 1生成手段と、

前記モノラル信号を符号化する符号ィヒ手段と、

を具備する音声符号化装置。

[2] 前記ステレオ信号を入力信号として、前記第 1チャネル信号および前記第 2チヤネル信号を平均してモノラル信号を生成する第 2生成手段と、

前記第 1チャネル信号と前記第 2チャネル信号との相関度に応じて、前記ステレオ信号の入力先を前記第 1生成手段と前記第 2生成手段との間で切り替える切替手段と、

をさらに具備する請求項 1記載の音声符号化装置。

[3] 前記モノラル信号から得られる信号に基づいて、前記第 1チャネル信号および前記第 2チャネル信号の予測信号を合成する合成手段、

をさらに具備する請求項 1記載の音声符号化装置。

[4] 前記合成手段は、前記モノラル信号に対する前記第 1チャネル信号または前記第 2チャネル信号の遅延差および振幅比を用いて、前記予測信号を合成する、請求項 3記載の音声符号化装置。

[5] モノラル信号生成用のパラメータを用いて、前記第 1チャネル信号または前記第 2 チャネル信号のいずれか一方の予測信号を合成する合成手段、

をさらに具備する請求項 1記載の音声符号化装置。

[6] 請求項 1記載の音声符号化装置を具備する無線通信移動局装置。

[7] 請求項 1記載の音声符号化装置を具備する無線通信基地局装置。

[8] 第 1チャネル信号および第 2チャネル信号を含むステレオ信号を入力信号として、前記第 1チャネル信号と前記第 2チャネル信号との時間差、および、前記第 1チヤネル信号と前記第 2チャネル信号との振幅比に基づいて、前記第 1チャネル信号および前記第 2チャネル信号からモノラル信号を生成する生成工程と、前記モノラル信号を符号化する符号化工程と、を具備する音声符号化方法。