JPWO2006080358A1

JPWO2006080358A1 - 音声符号化装置および音声符号化方法

Info

Publication number: JPWO2006080358A1
Application number: JP2007500549A
Authority: JP
Inventors: 道代後藤; 吉田　幸司; 幸司吉田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-01-26
Filing date: 2006-01-25
Publication date: 2008-06-19
Also published as: CN101107505A; BRPI0607303A2; WO2006080358A1; EP1852689A1; US20090055169A1

Abstract

ステレオ信号からモノラル信号を生成する際に、明瞭性や了解性に富んだ、めり張りある適切なモノラル信号を生成することができる音声符号化装置。この装置では、重み付け部（１１）は、Ｌチャネル信号ＸＬおよびＲチャネル信号ＸＲそれぞれに重み付けを行って、重み付けしたＬチャネル信号ＸＬＷおよびＲチャネル信号ＸＲＷをモノラル信号生成部（１２）に入力し、モノラル信号生成部（１２）は、Ｌチャネル信号ＸＬＷとＲチャネル信号ＸＲＷを平均してモノラル信号ＸＭＷを生成してモノラル信号符号化部（１３）に入力し、モノラル信号符号化部（１３）は、モノラル信号ＸＭＷを符号化してモノラル信号ＸＭＷの符号化パラメータ（モノラル信号符号化パラメータ）を出力する。

Description

本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオの音声入力信号からモノラル信号を生成して符号化する音声符号化装置および音声符号化方法に関する。

移動体通信やＩＰ通信での伝送帯域の広帯域化、サービスの多様化に伴い、音声通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したまま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。その場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるような、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声による音声通信を実現するためには、ステレオ音声の符号化が必須となる。

また、ＩＰネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号化が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声データの復号が可能な構成をいう。

よって、ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、モノラル信号の復号とを受信側において選択可能な、モノラル−ステレオ間でのスケーラブル構成（モノラル−ステレオ・スケーラブル構成）を有する符号化が望まれる。

このような、モノラル−ステレオ・スケーラブル構成を有する音声符号化においては、ステレオの入力信号からモノラル信号を生成する。モノラル信号の生成方法としては、例えば、ステレオ信号の各チャネルの信号を単純に平均してモノラル信号を得るものがある（非特許文献１参照）。
ＩＳＯ／ＩＥＣ１４４９６−３，"ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ−Ｃｏｄｉｎｇｏｆａｕｄｉｏ−ｖｉｓｕａｌｏｂｊｅｃｔｓ−Ｐａｒｔ３：Ａｕｄｉｏ"，ｓｕｂｐａｒｔ−４，４．Ｂ．１４ＳｃａｌａｂｌｅＡＡＣｗｉｔｈｃｏｒｅｃｏｄｅｒ，ｐｐ．３０４−３０５，Ｓｅｐ．２０００．

しかしながら、単にステレオ信号の各チャネルの信号をそのまま平均してモノラル信号を生成すると、特に音声では、めり張りのない聞き難いモノラル信号となってしまうことがある。

本発明の目的は、ステレオ信号からモノラル信号を生成する際に、明瞭性や了解性に富んだ、めり張りある適切なモノラル信号を生成することができる音声符号化装置および音声符号化方法を提供することである。

本発明の音声符号化装置は、ステレオ信号の各チャネルの信号の音声情報量に応じた重み付け係数により前記各チャネルの信号を重み付けする重み付け手段と、重み付けされた前記各チャネルの信号を平均してモノラル信号を生成する生成手段と、前記モノラル信号を符号化する符号化手段と、を具備する構成を採る。

本発明によれば、ステレオ信号からモノラル信号を生成する際に、明瞭性や了解性に富んだ、めり張りある適切なモノラル信号を生成することができる。

本発明の実施の形態１に係る音声符号化装置の構成を示すブロック図本発明の実施の形態１に係る重み付け部の構成を示すブロック図本発明の実施の形態１に係るＬチャネル信号の波形例本発明の実施の形態１に係るＲチャネル信号の波形例

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
本実施の形態に係る音声符号化装置の構成を図１に示す。図１に示す音声符号化装置１０は、重み付け部１１、モノラル信号生成部１２、モノラル信号符号化部１３、モノラル信号復号部１４、差分信号生成部１５、および、ステレオ信号符号化部１６を備える。

ステレオ音声信号のＬチャネル（左チャネル）信号Ｘ_ＬおよびＲチャネル（右チャネル）信号Ｘ_Ｒは、重み付け部１１および差分信号生成部１５に入力される。

重み付け部１１は、Ｌチャネル信号Ｘ_ＬおよびＲチャネル信号Ｘ_Ｒそれぞれに重み付けを行う。重み付けの具体的な方法については後述する。重み付けされたＬチャネル信号Ｘ_ＬＷおよびＲチャネル信号Ｘ_ＲＷは、モノラル信号生成部１２に入力される。

モノラル信号生成部１２は、Ｌチャネル信号Ｘ_ＬＷとＲチャネル信号Ｘ_ＲＷを平均してモノラル信号Ｘ_ＭＷを生成する。このモノラル信号Ｘ_ＭＷは、モノラル信号符号化部１３に入力される。

モノラル信号符号化部１３は、モノラル信号Ｘ_ＭＷを符号化し、モノラル信号Ｘ_ＭＷの符号化パラメータ（モノラル信号符号化パラメータ）を出力する。このモノラル信号符号化パラメータは、ステレオ信号符号化部１６から出力されるステレオ信号符号化パラメータと多重されて音声復号装置へ伝送される。また、モノラル信号符号化パラメータは、モノラル信号復号部１４に入力される。

モノラル信号復号部１４は、モノラル信号符号化パラメータを復号してモノラル信号を得る。このモノラル信号は、差分信号生成部１５に入力される。

差分信号生成部１５は、Ｌチャネル信号Ｘ_Ｌとモノラル信号との差分信号ΔＸ_ＬおよびＲチャネル信号Ｘ_Ｒとモノラル信号との差分信号ΔＸ_Ｒを生成する。これらの差分信号ΔＸ_Ｌ、ΔＸ_Ｒは、ステレオ信号符号化部１６に入力される。

ステレオ信号符号化部１６は、Ｌチャネルの差分信号ΔＸ_ＬおよびＲチャネルの差分信号ΔＸ_Ｒを符号化し、こられの差分信号の符号化パラメータ（ステレオ信号符号化パラメータ）を出力する。

次いで、重み付け部１１の詳細について図２を用いて説明する。この図に示すように、重み付け部１１は、指標算出部１１１、重み付け係数算出部１１２、および、乗算部１１３を備える。

ステレオ音声信号のＬチャネル信号Ｘ_ＬおよびＲチャネル信号Ｘ_Ｒは、指標算出部１１１および乗算部１１３に入力される。

指標算出部１１１は、各チャネルの信号Ｘ_Ｌ、Ｘ_Ｒの音声情報量の度合いを表す指標Ｉ_Ｌ、Ｉ_Ｒを一定区間毎（例えば、各フレーム毎、複数のフレーム毎等）に算出する。Ｌチャネル信号の指標Ｉ_ＬとＲチャネル信号の指標Ｉ_Ｒは時間的に同じ区間における値を示すものとする。これらの指標Ｉ_Ｌ、Ｉ_Ｒは、重み付け係数算出部１１２に入力される。なお、具体的な指標Ｉ_Ｌ、Ｉ_Ｒについては、後の実施の形態において説明する。

重み付け係数算出部１１２は、ステレオ信号の各チャネルの信号に対する重み付け係数を指標Ｉ_Ｌ、Ｉ_Ｒに基づいて算出する。重み付け係数算出部１１２は、Ｌチャネル信号Ｘ_Ｌに対する一定区間毎の重み付け係数Ｗ_Ｌ、Ｒチャネル信号Ｘ_Ｒに対する一定区間毎の重み付け係数Ｗ_Ｒを、式（１）および（２）に従って算出する。なお、ここでの一定区間は、指標算出部１１１が指標Ｉ_Ｌ、Ｉ_Ｒを算出した際の一定区間と同一である。これらの重み付け係数Ｗ_Ｌ、Ｗ_Ｒは、乗算部１１３に入力される。

乗算部１１３は、ステレオ信号の各チャネルの信号の振幅に、重み付け係数を乗算する。これにより、ステレオ信号の各チャネルの信号は、各チャネルの信号の音声情報量に応じた重み付け係数により重み付けされる。具体的には、Ｌチャネル信号の一定区間内のｉ番目のサンプルをＸ_Ｌ（ｉ）、Ｒチャネル信号のｉ番目のサンプルをＸ_Ｒ（ｉ）とすると、重み付けされたＬチャネル信号のｉ番目のサンプルＸ_ＬＷ（ｉ）および重み付けされたＲチャネル信号のｉ番目のサンプルＸ_ＲＷ（ｉ）は、式（３）および（４）に従って求められる。重み付けされた各チャネルの信号Ｘ_ＬＷ、Ｘ_ＲＷは、モノラル信号生成部１２に入力される。

そして、図１に示すモノラル信号生成部１２は、重み付けされたＬチャネル信号Ｘ_ＬＷと重み付けされたＲチャネル信号Ｘ_ＲＷの平均値を算出し、その平均値をモノラル信号Ｘ_ＭＷとする。モノラル信号生成部１２は、モノラル信号のｉ番目のサンプルＸ_ＭＷ（ｉ）を式（５）に従って生成する。

モノラル信号符号化部１３は、モノラル信号Ｘ_ＭＷ（ｉ）を符号化し、モノラル信号復号部１４は、モノラル信号符号化パラメータを復号してモノラル信号を得る。

差分信号生成部１５は、Ｌチャネル信号のｉ番目のサンプルをＸ_Ｌ（ｉ）、Ｒチャネル信号のｉ番目のサンプルをＸ_Ｒ（ｉ）、モノラル信号のｉ番目のサンプルをＸ_ＭＷ（ｉ）とすると、Ｌチャネル信号のｉ番目のサンプルの差分信号ΔＸ_Ｌ（ｉ）、および、Ｒチャネル信号のｉ番目のサンプルの差分信号ΔＸ_Ｒ（ｉ）を式（６）および（７）に従って求める。

そして、ステレオ信号符号化部１６において、差分信号ΔＸ_Ｌ（ｉ）およびΔＸ_Ｒ（ｉ）に対して各々符号化を行う。差分信号の符号化方法は、例えば差分ＰＣＭ符号化等、音声差分信号を符号化するのに適した方法を用いる。

ここで、例えば、図３に示すようにＬチャネル信号は音声信号から成り、図４に示すようにＲチャネル信号は無音（ＤＣ成分のみ）から成る場合は、音声信号から成るＬチャネル信号の方が無音（ＤＣ成分のみ）から成るＲチャネル信号よりも多くの情報を受信側の受聴者に与える。よって、従来のように、単に各チャネルの信号をそのまま平均してモノラル信号を生成すると、そのモノラル信号は、Ｌチャネル信号の振幅を２分の１にした信号となり、明瞭性や了解性に乏しい信号になってしまうと考えられる。

これに対し、本実施の形態では、各チャネルの信号の音声情報量の度合いを示す指標に応じた重み付け係数により重み付けした各チャネルの信号からモノラル信号を生成する。音声情報量が多いほど、モノラル信号の受信側でモノラル信号を復号・再生した際の明瞭性や了解性が高まるものと考えられる。よって、本実施の形態のようにしてモノラル信号を生成することにより、明瞭性や了解性に富んだ、めり張りある適切なモノラル信号を生成することができる。

また、本実施の形態では、このようにして生成したモノラル信号に基づいてモノラル−ステレオ・スケーラブル構成を有する符号化を行っているため、音声情報量の度合いの大きいチャネルの信号とモノラル信号との差分信号のパワーが、各チャネルの信号の平均値をモノラル信号とする場合よりも小さくなり（すなわち、音声情報量の度合いの大きいチャネルの信号とモノラル信号との類似性が高くなり）、その結果、そのチャネルの信号に対する符号化歪みを低減することができる。音声情報量の度合いの小さい他のチャネルの信号とモノラル信号との差分信号のパワーは、各チャネルの信号の平均値をモノラル信号とする場合よりも大きくなるものの、チャネル間において各チャネルの符号化歪みに偏りをもたせることができ、音声情報量の多いチャネルの信号の符号化歪みをより小さくすることができる。よって、受信側で復号されるステレオ信号全体としての聴感的歪み感を小さくすることができる。

（実施の形態２）
本実施の形態では、音声情報量の度合いを表す指標として、各チャネルの信号のエントロピーを用いる場合について説明する。この場合、指標算出部１１１は以下のようにしてエントロピーを算出し、重み付け係数算出部１１２は以下のようして重み付け係数を算出する。なお、符号化されるステレオ信号は実際には標本化された離散値であるが、連続値として扱っても同様の性質を有するので、以下の説明においては連続値として説明する。

確率密度関数ｐ（ｘ）をもつ連続標本値ｘのエントロピーは式（８）により定義される。

指標算出部１１１は、式（８）に従って、各チャネルの信号に対してエントロピーＨ（Ｘ）を求める。ここでは、一般的に音声信号が式（９）に示す指数分布（ラプラス分布）で近似できることを利用してエントロピーＨ（Ｘ）を求める。なお、αは後述の式（１２）により定義される。

式（９）を用いることで、式（８）に示すエントロピーＨ（Ｘ）は式（１０）により算出される。つまり、式（１０）により求められるエントロピーＨ（Ｘ）は、１標本値を表現するのに必要なビット数を示すため、音声情報量の度合いを表す指標として用いることができる。なお、式（１０）においては、式（１１）に示すように、音声信号の振幅の絶対値の平均値を０とみなしている。

ところで、指数分布の場合、音声信号の標準偏差をσ_ｘとすると、αは式（１２）により表される。

上記のように音声信号の振幅の絶対値の平均値は０とみなせるので、標準偏差は音声信号のパワーＰを用いて式（１３）のように表される。

式（１２）および式（１３）を用いると、式（１０）は、式（１４）のようになる。

よって、Ｌチャネル信号の一定区間毎のエントロピーＨ_Ｌは、Ｌチャネル信号のパワーをＰ_Ｌとすると、式（１５）に従って求められる。

同様に、Ｒチャネル信号の一定区間毎のエントロピーＨ_Ｒは、Ｒチャネル信号のパワーをＰ_Ｒとすると、式（１６）に従って求められる。

このようにして、指標算出部１１１では、各チャネルの信号のエントロピーＨ_Ｌ、Ｈ_Ｒが求められ、これらのエントロピーが重み付け係数算出部１１２に入力される。

なお、上記説明では、音声信号の分布は指数分布と仮定してエントロピーを求めたが、実際の信号のサンプルｘ_ｉと、その信号の発生頻度から算出される発生確率ｐ（ｘ_ｉ）とから、各チャネルの信号のエントロピーＨ_Ｌ、Ｈ_Ｒを算出することも可能である。

そして、重み付け係数算出部１１２では、エントロピーＨ_Ｌ、Ｈ_Ｒを実施の形態１において示した指標Ｉ_Ｌ、Ｉ_Ｒとして用いて、重み付け係数Ｗ_Ｌ、Ｗ_Ｒを式（１７）および（１８）に従って算出する。これらの重み付け係数Ｗ_Ｌ、Ｗ_Ｒは、乗算部１１３に入力される。

このように、本実施の形態では、エントロピーを音声情報量（ビット数）を表す指標として用い、各チャネルの信号にエントロピーに応じた重み付けを行うことにより、音声情報量が多いチャネルの信号が強調された、めり張りあるモノラル信号を生成することができる。

（実施の形態３）
本実施の形態では、音声情報量の度合いを表す指標として、各チャネルの信号のＳ／Ｎ比を用いる場合について説明する。この場合、指標算出部１１１は以下のようにしてＳ／Ｎ比を算出し、重み付け係数算出部１１２は以下のようして重み付け係数を算出する。

本実施の形態で用いるＳ／Ｎ比は、入力信号において、主となる信号Ｓとそれ以外の信号Ｎとの比である。例えば、入力信号が音声信号の場合は、主となる音声信号Ｓと背景の周囲雑音信号Ｎとの比である。具体的には、式（１９）によって求められる、入力音声信号の平均パワー（入力音声信号のフレーム単位のパワーを時間的に平均化したもの）Ｐ_Ｓと非音声区間（雑音のみの区間）での雑音信号の平均パワー（非音声区間のフレーム単位のパワーを時間的に平均化したもの）Ｐ_Ｅとの比を逐次計算・更新することでＳ／Ｎ比とする。また、受聴者にとっては、一般に雑音信号Ｎよりも音声信号Ｓの方が必要な情報であることが多いため、Ｓ／Ｎ比を指標として用いることで受聴者が必要な情報が強調されたモノラル信号を生成することができる。そこで、本実施の形態では、Ｓ／Ｎ比を音声情報量の度合いを表す指標として用いる。

式（１９）より、Ｌチャネル信号のＳ／Ｎ比（Ｓ／Ｎ）_Ｌは、Ｌチャネル信号の音声信号の平均パワー（Ｐ_Ｓ）_Ｌと、Ｌチャネル信号の雑音信号の平均パワー（Ｐ_Ｅ）_Ｌとから、式（２０）によって表される。

同様に、Ｒチャネル信号のＳ／Ｎ比（Ｓ／Ｎ）_Ｒは、Ｒチャネル信号の音声信号の平均パワー（Ｐ_Ｓ）_Ｒと、Ｒチャネル信号の雑音信号の平均パワー（Ｐ_Ｅ）_Ｒとから、式（２１）によって表される。

ただし、（Ｓ／Ｎ）_Ｌ、（Ｓ／Ｎ）_Ｒが負となる場合は、負となるＳ／Ｎ比を、予め定めた正の下限値に置き換える。

このようにして、指標算出部１１１では、各チャネルの信号のＳ／Ｎ比（Ｓ／Ｎ）_Ｌ、（Ｓ／Ｎ）_Ｒが求められ、これらのＳ／Ｎ比が重み付け係数算出部１１２に入力される。

そして、重み付け係数算出部１１２では、Ｓ／Ｎ比（Ｓ／Ｎ）_Ｌ、（Ｓ／Ｎ）_Ｒを実施の形態１において示した指標Ｉ_Ｌ、Ｉ_Ｒとして用いて、重み付け係数Ｗ_Ｌ、Ｗ_Ｒを式（２２）および（２３）に従って算出する。これらの重み付け係数Ｗ_Ｌ、Ｗ_Ｒは、乗算部１１３に入力される。

なお、重み付け係数は以下のようにして求めてもよい。すなわち、式（２０）、（２１）に示すｌｏｇ領域でのＳ／Ｎ比の代わりに、ｌｏｇをとらないＳ／Ｎ比を用いて重み付け係数を求めてもよい。また、式（２２）、（２３）を用いて重み付け係数を算出する代わりに、Ｓ／Ｎ比が大きいほど重み付け係数が大きくなるような、Ｓ／Ｎ比と重み付け係数との対応関係を示すテーブルを予め用意しておき、Ｓ／Ｎ比に基づいてそのテーブルを参照して重み付け係数を求めてもよい。

このように、本実施の形態では、Ｓ／Ｎ比を音声情報量を表す指標として用い、各チャネルの信号にＳ／Ｎ比に応じた重み付けを行うことにより、音声情報量が多いチャネルの信号が強調された、めり張りあるモノラル信号を生成することができる。

なお、音声情報量の度合いを表す指標としては、他に、音声波形の規則性（不規則性が大きいほど音声情報量が多いことに基づく）や、スペクトラム包絡の時間的変化量（変化量が大きいほど音声情報量が多いことに基づく）等を用いることも可能である。

なお、上記各実施の形態に係る音声符号化装置を、移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線通信装置に搭載することも可能である。

また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

本明細書は、２００５年１月２６日出願の特願２００５−０１８１５０に基づくものである。この内容はすべてここに含めておく。

本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システム等における通信装置の用途に適用できる。

Claims

ステレオ信号の各チャネルの信号の音声情報量に応じた重み付け係数により前記各チャネルの信号を重み付けする重み付け手段と、
重み付けされた前記各チャネルの信号を平均してモノラル信号を生成する生成手段と、
前記モノラル信号を符号化する符号化手段と、
を具備する音声符号化装置。
前記重み付け手段は、各チャネルの信号のエントロピーを前記音声情報量として用いて前記重み付け係数を算出する、
請求項１記載の音声符号化装置。
前記重み付け手段は、各チャネルの信号のＳ／Ｎ比を前記音声情報量として用いて前記重み付け係数を算出する、
請求項１記載の音声符号化装置。
請求項１記載の音声符号化装置を具備する無線通信移動局装置。
請求項１記載の音声符号化装置を具備する無線通信基地局装置。
ステレオ信号の各チャネルの信号の音声情報量に応じた重み付け係数により前記各チャネルの信号を重み付けする重み付け工程と、
重み付けされた前記各チャネルの信号を平均してモノラル信号を生成する生成工程と、
前記モノラル信号を符号化する符号化工程と、
を具備する音声符号化方法。